CN106294405A

CN106294405A - 一种微博子话题演化分析方法及装置

Info

Publication number: CN106294405A
Application number: CN201510264354.1A
Authority: CN
Inventors: 贺敏; 云晓春; 周勇林; 王丽宏; 包秀国; 徐杰; 程学旗; 刘悦; 杜攀; 赵立永; 杨建武
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2017-01-04

Abstract

本发明公开一种微博子话题演化分析方法及装置，能够准确快速地识别微博子话题，并分析出微博子话题的演化关系。所述方法包括：通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

Description

一种微博子话题演化分析方法及装置

技术领域

本发明涉及网络信息挖掘技术领域，特别是涉及一种微博子话题演化分析方法及装置。

背景技术

微博客等互联网应用的出现，降低了互联网的进入门槛，使得广大网民更容易的使用网络，发出内心的声音。互联网络在传达民情民意方面的优势逐步显现出来，继传统的报纸、广播、电视之后，成为第四媒体，并在表达民众心声、反应社会舆论方面发挥极其重要的作用。

热点话题作为广大网民关注的热点、讨论的焦点，反应一定时间周期内网络舆论的中心，是广大网民对现实社会生活中存在问题的集中反应。另外，热点话题会随着新的事件、新的焦点的出现，并且在广大网民、特别是意见领袖的参与或别有用心的人推波助澜下，会迅速传播并不断发生演化，话题的中心会发生变化，形成不同的子话题。子话题既可以指话题讨论过程中的不同侧面、不同中心，又可以指随着话题发展产生的新事件。

子话题发现属于话题检测与跟踪技术，目前的技术主要是针对新闻等传统媒体，基于文本相似度来发现子话题，但是因为微博文本内容短小，一条微博信息包含的有效特征较少，而且每个特征仅出现一次或几次，仅仅通过文本相似度来衡量效果较差，传统的子话题发现技术对于微博文本不适用。

发明内容

本发明要解决的技术问题是提供一种微博子话题演化分析方法及装置，能够准确快速地识别微博子话题并分析出微博子话题的演化关系。

一方面，本发明提供一种微博子话题演化分析方法，包括：通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

可选的，所述通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类包括：针对每个微博话题，从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本；利用所述初始聚类样本聚类产生一个簇后，如果新特征样本与所述簇的互信息大于所述预设阈值D，且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息，将所述新特征样本聚入所述簇；其中，所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。

进一步的，所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前，所述方法还包括：计算当前窗口的话题与上一窗口的话题之间的话题相似性；根据所述话题相似性筛选出当前窗口的话题中的持续性话题；所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括：根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

可选的，所述计算当前窗口的话题与上一窗口的话题之间的话题相似性包括：根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

可选的，所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括：根据特征相似性，计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性；当两个子话题SubTi和SubTj的相似性大于第一阈值时，确定子话题SubTj是对子话题SubTi的继承；当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时，确定子话题SubTj是子话题SubTi的转移；当两个子话题SubTi和SubTj的相似性小于所述第二阈值时，确定子话题SubTi与SubTj无关；其中，所述第一阈值大于所述第二阈值。

另一方面，本发明还提供一种微博子话题演化分析装置，包括：聚类单元，用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；确定单元，用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，以确定子话题的演化关系。

可选的，所述聚类单元具体用于：针对每个微博话题，从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本；利用所述初始聚类样本聚类产生一个簇后，如果新特征样本与所述簇的互信息大于所述预设阈值D，且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息，将所述新特征样本聚入所述簇；其中，所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。

可选的，所述装置还包括：计算单元，用于在所述检测单元检测当前时间窗口中子话题与上一时间窗口中子话题的相似性之前，计算当前窗口的话题与上一窗口的话题之间的话题相似性；筛选单元，用于根据所述计算单元计算的话题相似性筛选出当前窗口的话题中的持续性话题；所述确定单元，具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

可选的，所述计算单元，具体用于根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

可选的，所述确定单元，具体用于：根据特征相似性，计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性；当两个子话题SubTi和SubTj的相似性大于第一阈值时，确定子话题SubTj是对子话题SubTi的继承；当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时，确定子话题SubTj是子话题SubTi的转移；当两个子话题SubTi和SubTj的相似性小于所述第二阈值时，确定子话题SubTi与SubTj无关；其中，所述第一阈值大于所述第二阈值。

本发明实施例提供的微博子话题演化分析方法及装置，能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，根据聚类结果生成相应的子话题，然后根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，确定子话题的演化关系，这样，由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类，子话题检测效果更好，从而能够对不同时间窗口的子话题进行更有效的演化分析。

附图说明

图1是本发明实施例提供的微博子话题演化分析方法的一种流程图；

图2是本发明实施例中微博子话题产生的一种流程图；

图3是本发明实施例中微博子话题演化分析方法的另一种流程图；

图4是本发明实施例提供的微博子话题演化分析装置的一种结构示意图。

具体实施方式

以下结合附图对本发明进行详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图1所示，本发明实施例提供一种微博子话题演化分析方法，包括：

S11，通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；

S12，根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

本发明实施例提供的微博子话题演化分析方法，能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，根据聚类结果生成相应的子话题，然后根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，确定子话题的演化关系，这样，由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类，子话题检测效果更好，从而能够对不同时间窗口的子话题进行更有效的演化分析。

其中，改进的最近邻方法是根据微博微博文本内容短小、有效特征较少等特点，对传统的最邻近算法进行的改进，该改进可以包括对最近邻聚类方法的初始聚类样本选取、距离计算以及聚类过程的改进。其中，可以采用互信息作为特征之间的距离度量，特征之间的互信息指特征在相同微博信息中的共现情况，体现了两个特征的依赖程度，互信息越高，两个特征之间的距离就越小，描述同一话题的可能性越大。

具体的，在步骤S11中，需要将话题的各个特征进行重新聚类，生成相应的子话题。由于各个话题特征与话题的相关程度不同，如果选取与话题相关程度较低的特征做为聚类初始样本点，则会干扰聚类结果，产生噪音类。为了避免这种情况，可以针对每个微博话题，从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本，这样，因为一般距离很近的两个特征应该属于同一话题，都是话题强相关特征，从而能够避免选到噪音特征。

利用所述初始聚类样本聚类产生一个簇后，如果新特征样本与所述簇的互信息大于所述预设阈值D，且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息，将所述新特征样本聚入所述簇；接着考察下一个特征样本是否满足聚入该簇的条件，直到该话题的特征中不存在可以聚入该簇的特征样本为止，聚类结束，产生一个子话题。其中，所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。

如图2所示，子话题从话题中产生过程包括如下步骤：

101.提取话题特征；

102.计算两两特征之间的互信息；

103.选择互信息最大且大于预设阈值的一对特征之一作为新簇；

104.计算每个样本点与簇之间的互信息；

105.选择与簇互信息最大，且与簇中每个样本互信息大于预设阈值的新样本聚入该簇；

106.当没有满足条件的样本聚入时，该簇的聚类结束，产生了一个子话题；

107.当所有话题特征都已经归入相应的簇时，所有的子话题都已经产生，聚类过程结束。

在步骤S12中，进一步的，为了提高步骤S12中子话题演化关系的分析效率，可以先找出当前时间窗口和上一时间窗口的话题中哪些是持续性话题，从而仅需在持续性话题之间进一步确定子话题的相似性和演化关系，而对于非持续性话题无需确定其子话题的演化关系。在这种情况下，本发明实施例提供的子话题演化分析方法可如图3所示。

具体的，在本发明的一个实施例中，在根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前，还包括：

计算当前窗口的话题与上一窗口的话题之间的话题相似性；

根据所述话题相似性筛选出当前窗口的话题中的持续性话题；

基于此，根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系可具体包括：根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

可选的，计算当前窗口的话题与上一窗口的话题之间的话题相似性可包括：根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

举例说明，在本发明的一个实施例中，将两个话题的特征相似性和文档相似性结合，来计算话题的相似性。本实施例中，假设话题Ti和Tj共有n个不重复的特征，话题Ti和Tj的特征向量示意如下，如果特征在Fi话题中出现，表示为1，不出现，表示为0。

表1

	F1	F2	F3	……	Fn
						Ti	0	1	1	……	0
Tj	1	1	0	……	0

对上述特征向量归一化处理，得到话题Ti和话题Tj的特征概率向量，如表2所示。

表2

	F1	F2	F3	……	Fn
						Ti	0	1/SUMi	1/SUMi	……	0
Tj	1/SUMj	1/SUMj	0	……	0

其中，SUMi和SUMj分别表示话题Ti和Tj的特征个数。

根据话题Ti对应的微博信息集合映射到作者集合A，即发表话题Ti相关文档的作者的集合。话题Ti和Tj共对应m个不重复的作者，话题Ti和Tj的作者向量示意如下，如果作者Ai在话题中出现，表示为1，不出现，表示为0。

表3

	A1	A2	A3	……	Am
						Ti	0	1	1	……	0
Tj	1	1	0	……	0

对上述作者向量归一化处理，得到话题Ti和Tj题的作者概率向量，如表4所示。

表4

	A1	A2	A3	……	Am
						Ti	0	1/AUTHi	1/AUTHi	……	0
Tj	1/AUTHj	1/AUTHj	0	……	0

其中，AUTHi和AUTHj分别表示话题Ti和Tj对应的作者数量。

话题Ti和Tj的相似性计算如下：

\begin{matrix} sim (T_{i}, T_{j}) = a * \frac{F_{i 1} * F_{j 1} + F_{i 2} * F_{j 2} + . . . . . . + F_{in} * F_{jn}}{\sqrt{{F_{i 1}}^{2} + {F_{i 2}}^{2} . . . . . . + {F_{in}}^{2}} * \sqrt{{F_{j 1}}^{2} + {F_{j 2}}^{2} . . . . . . + {F_{jn}}^{2}}} \\ + b * \frac{A_{i 1} * A_{j 1} + A_{i 2} * A_{j 2} + . . . . . . + A_{in} * A_{jn}}{\sqrt{{A_{i 1}}^{2} + {A_{i 2}}^{2} . . . . . . + {A_{in}}^{2}} * \sqrt{{A_{j 1}}^{2} + {A_{j 2}}^{2} . . . . . . {A_{jn}}^{2}}} \end{matrix}

其中，Fi1中表示第1个特征在话题Ti中的概率权重，Ai1中表示的第1个作者在话题Ti中的概率权重。a和b是调节参数，可以根据实际需要进行调整，本实例取值都为1，在本发明的其他实施例中还可以取其他值。

可以根据经验设定阈值S，当话题相似性sim(Ti，Tj)大于S时，表示两个话题是相关话题，当前时间窗口的话题是上一时间窗口话题的延续，否则可以确定两个话题是无关话题。

具体而言，在步骤S12中，根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系可包括：

根据特征相似性，计算当前窗口的子话题SubTj与上一窗口的子话题SubTi之间的相似性；

由于此处考察的是子话题之间的相似性，子话题之间作者的变动性不大，因此，本实施例中，可以仅根据特征相似性计算子话题之间的相似性，即：

sim ({SubT}_{i}, {SubT}_{j}) = \frac{F_{i 1} * F_{j 1} + F_{i 2} * F_{j 2} + . . . . . . + F_{in} * F_{jn}}{\sqrt{{F_{i 1}}^{2} + {F_{i 2}}^{2} . . . . . . + {F_{in}}^{2}} * \sqrt{{F_{j 1}}^{2} + {F_{j 2}}^{2} . . . . . . + {F_{jn}}^{2}}}

当两个子话题SubTi和SubTj的相似性大于第一阈值时，确定子话题SubTj是对子话题SubTi的继承；当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时，确定子话题SubTj是子话题SubTi的转移；当两个子话题SubTi和SubTj的相似性小于所述第二阈值时，确定子话题SubTj与SubTi无关，即子话题SubTj是一个新子话题；其中，所述第一阈值大于所述第二阈值。

相应的，如图4所示，本发明的实施例还提供一种微博子话题演化分析装置，包括：

聚类单元41，用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；

确定单元42，用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

本发明实施例提供的微博子话题演化分析装置，聚类单元41能够通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，根据聚类结果生成相应的子话题，确定单元42能够根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系，这样，由于改进的最邻近方法能够对微博话题的特征进行更精准的聚类，子话题检测效果更好，从而能够对不同时间窗口的子话题进行更有效的演化分析。

可选的，聚类单元41可具体用于：

针对每个微博话题，从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本；

利用所述初始聚类样本聚类产生一个簇后，如果新特征样本与所述簇的互信息大于所述预设阈值D，且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息，将所述新特征样本聚入所述簇；其中，所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。

进一步的，该微博子话题演化分析装置还包括：

计算单元，用于在所述确定单元根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前，计算当前窗口的话题与上一窗口的话题之间的话题相似性；

筛选单元，用于根据所述计算单元计算的话题相似性筛选出当前窗口的话题中的持续性话题；

相应的，确定单元42，可具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

可选的，计算单元，具体可用于根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

可选的，确定单元，具体可用于：根据特征相似性，计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性；当两个子话题SubTi和SubTj的相似性大于第一阈值时，确定子话题SubTj是对子话题SubTi的继承；当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时，确定子话题SubTj是子话题SubTi的转移；当两个子话题SubTi和SubTj的相似性小于所述第二阈值时，确定子话题SubTi与SubTj无关；其中，所述第一阈值大于所述第二阈值。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种微博子话题演化分析方法，其特征在于，包括：

通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；

根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。

2.根据权利要求1所述的方法，其特征在于，所述通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类包括：

3.根据权利要求1所述的方法，其特征在于，所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前，所述方法还包括：

计算当前窗口的话题与上一窗口的话题之间的话题相似性；

所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括：

根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

4.根据权利要求3所述的方法，其特征在于，所述计算当前窗口的话题与上一窗口的话题之间的话题相似性包括：

根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

5.根据权利要求1所述的方法，其特征在于，所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括：

根据特征相似性，计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性；

当两个子话题SubTi和SubTj的相似性大于第一阈值时，确定子话题SubTj是对子话题SubTi的继承；当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时，确定子话题SubTj是子话题SubTi的转移；当两个子话题SubTi和SubTj的相似性小于所述第二阈值时，确定子话题SubTi与SubTj无关；其中，所述第一阈值大于所述第二阈值。

6.一种微博子话题演化分析装置，其特征在于，包括：

聚类单元，用于通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类，以根据聚类结果生成相应的子话题；

确定单元，用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，以确定子话题的演化关系。

7.根据权利要求6所述的装置，其特征在于，所述聚类单元具体用于：

8.根据权利要求6所述的装置，其特征在于，还包括：

所述确定单元，具体用于根据当前时间窗口中子话题与上一时间窗口中子话题的相似性，在所述持续性话题中确定子话题的演化关系。

9.根据权利要求8所述的装置，其特征在于，所述计算单元，具体用于根据特征相似性和作者相似性，计算当前窗口的话题与上一窗口的话题之间的话题相似性。

10.根据权利要求6所述的装置，其特征在于，所述确定单元，具体用于：