CN103530421B

CN103530421B - 基于微博的事件相似性度量方法及系统

Info

Publication number: CN103530421B
Application number: CN201310529304.2A
Authority: CN
Inventors: 邓镭; 贾焰; 邹鹏; 杨树强; 周斌; 韩伟红; 李爱平; 韩毅; 李莎莎
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2012-11-02
Filing date: 2013-10-30
Publication date: 2017-01-04
Anticipated expiration: 2033-10-30
Also published as: CN103530421A

Abstract

本发明提供了一种基于微博的事件相似性度量方法。该方法构造指定微博的传播树，对传播树局部进行剪枝以克服博在转发过程中出现“话题漂移”。然后基于指定微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。该方法将微博的结构特征，事件的演化特征与传统的词汇概率特征相结合，建立了一种更适于度量微博事件的相似度计算模型将微博的结构特征，可以提高微博中事件相似性计算的准确度。对传播树局部进行剪枝是可选的，其主要是为了克服由于微博在转发过程中会逐渐出现“话题漂移”的对度量微博事件相似性的准确性及计算效率的影响。

Description

基于微博的事件相似性度量方法及系统

技术领域

本发明涉及文本挖掘和话题发现与跟踪领域，尤其涉及一种基于微博文本数据的事件相似性度量方法。

背景技术

近年来，以微博为代表的Web2.0新媒体已经深入到人们生活的各个角落。无论何时何地，人们都可以通过发微博来记录和分享自己的经历和感受。虽然微博的类型多种多样，有些甚至不包含任何实质的信息，但有更大比例的微博都是在描述和记录用户身边发生的事件。因此对于那些无法亲身经历的事件，都可以从微博中管中窥豹。

现实中每时每刻都在发生着事件，事件通过人的感受、记忆、分析，形成了片段性的文字描述，微博用户将这些文字记录在微博中。这一过程实际上完成了事件从现实世界向微博空间的映射。在微博中研究话题或事件的发现便是要在微博空间中找到现实世界事件的“像”。

如果将人比作事件传感器的话，那么其实“部署”在现实世界的传感器是非常多的，当一个事件发生后，一般有多于一个传感器感知到事件的存在，如果他们都对此事件进行了记录，那么在微博中就会出现关于此现实事件的多个“像”。另一方面，即使是同一个传感器，也不一定只发表一篇微博描述此事件。因此，在微博平台中需要一种判断多个事件的“像”是否表征了同一事件的方法，进一步判断多个事件间的相似度。

传统的文本信息事件相似性度量方法是建立在“词袋模型”概率特征基础上的度量方法，即将每个描述了事件的文本看作词汇的集合。一些位置敏感的方法还会对词汇出现的位置进行区分。然后计算各个词汇的特征值。常采用的计算词汇特征值方法例如二值法，即存在词汇记为1，不存在则为0。在信息检索领域还常用TFIDF（term frequency–inverse document frequency词频-逆文档频率）的方法来计算词汇的特征值，该方法统计词汇在单一文本中出现的频率和在全部文档中出现的频率，利用二者的比值作为词汇的特征值；最后，由于将多个文档表示成了词汇和特征值对的集合，因此可以把每篇文档看做一个向量，计算文档向量间两两的欧拉距离或余弦夹角等来衡量文档间的相似度，也即事件间的相似度。

上述的方法是文本分析的经典方法，但不能满足对于微博的事件相似性度量。微博有其自身的特点，在微博中事件在不断地演化和传播。用户发表了一篇描述事件的微博。随着时间增加，越来越多的用户通过转发和评论上述微博参与到事件的描述中来，微博不断积累，事件的描述信息也越来越丰富。因此需要一种基于微博的事件相似性度量方法。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于微博的事件相似性度量方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种基于微博的事件相似性度量方法，包括：

步骤1,对于两条给定的原创微博中的每一条：获取在给定时刻前对该原创微博的所有转发和评论的微博，并以该原创微博为根节点，构造该原创微博的传播树；传播树中每个节点对应一条微博，传播树中的边代表微博间的转发/评论关系；

步骤2,计算两条原创微博的传播树的关注用户集的相似度；所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集；

步骤3，计算两条原创微博的传播树的词汇向量的相似度；所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集；

步骤4，基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。

上述方法中，所述步骤1还可包括沿传播树检测相邻两节点对应的微博的相关度，如果传播树中两相邻节点对应的微博的相关度低于话题漂移阈值，则在传播树中删除这两节点间的边以及该边后续的所有分支。

上述方法中，所述步骤2中两条原创微博的传播树的关注用户集的相似度可以如下公式计算：

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; U_{1}^{f} \cap U_{2}^{f}}{Σ} w_{1} (x) \cdot w_{2} (x)}{\sqrt{\underset{x &Element; U_{1}^{f}}{Σ} w_{1} (x) \cdot w_{1} (x) \cdot \underset{x &Element; U_{2}^{f}}{Σ} w_{2} (x) \cdot w_{2} (x)}};

其中，s₁,s₂表示两条原创微博，为s₁的传播树的关注用户集，为s₂的传播树的关注用户集，w₁(x)表示中用户x对应的用户权值，w₂(x)表示中用户x对应的用户权值。

上述方法中，所述传播树的关注用户集中用户对应的用户权值可以是基于传播树中相邻两节点对应的微博的相关度来设置的。

上述方法中，传播树的关注用户集以及用户权值可以是从传播树的根节点开始遍历，对于每个节点执行下列步骤而得到的：

步骤2-1）假设从根节点s出发沿路径s,u₁,u₂...,u_n,v遍历到节点v，取发表v对应的微博的用户所关注的用户列表f(v)；

步骤2-2）节点v的候选权值设置为：w_p(v)=rel(s,u₁)·rel(u₁,u₂)...rel(u_n,v)，其中，rel(.)表示传播树中相邻两节点对应的微博的相关度;

步骤2-3），对用户列表f(v)中每个用户，如果该用户不属于传播树的关注用户集中，则将该用户加入到传播树的关注用户集中，并且将该用户的用户权值设置为w_p(v)；如果该用户已经在传播树的关注用户集中，并且该用户的用户权值小于w_p(v)，则将该用户的用户权值更新为w_p(v)。

上述方法中，所述步骤3中两条原创微博的传播树的词汇向量的相似度可以如下公式计算：

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; W_{1} \cap W_{2}}{Σ} θ_{1} (x) \cdot θ_{2} (x)}{\sqrt{\underset{x &Element; W_{1}}{Σ} θ_{1} (x) \cdot θ_{1} (x) \cdot \underset{x &Element; W_{2}}{Σ} θ_{2} (x) \cdot θ_{2} (x)}};

其中，s₁,s₂表示两条原创微博，W₁为s₁的传播树的词汇向量，W₂为s₂的传播树的词汇向量，θ₁(x)表示W₁中词汇x对应的权值，θ₂(x)表示W₂中词汇x对应的权值。

上述方法中，所述传播树的词汇向量中词汇对应的权值可以是基于传播树中相邻两节点对应的微博的相关度来设置的。

上述方法中，传播树的词汇向量以及权值可以是从传播树的根节点开始进行遍历，对于每个节点执行下列步骤而得到的：

步骤3-1）假设从根节点s出发沿路径s,u₁,u₂...,u_n,v遍历到节点v，取节点v对应的微博的词袋；

步骤3-2）节点v的候选权值设置为：

w_p(v)=rel(s,u₁)·rel(u₁,u₂)...rel(u_n,v)，其中，rel(.)表示传播树中相邻两节点对应的微博的相关度;

步骤3-3），对节点v对应的微博的词袋中的每个词汇：

若该词汇没有被包含在传播树的词汇向量中，则将该词汇添加到传播树的词汇向量中，并将该词汇的权值设置为w_p(v)；如果该词汇已经被包含在传播树的词汇向量中，并且该词汇的权值小于w_p(v)，则将该词汇的权值更新为w_p(v)。

上述方法中，传播树中相邻两节点对应的微博的相关度计算方式如下：以u,v表示传播树中任意两相邻节点，如果u,v对应的微博的作者相同，则u,v对应的微博相关度rel(u,v)=1;否则，u,v对应的微博相关度其中cot(u)和cot(v)分别是基于u,v对应的微博的内容构造的词袋。

上述方法中，所述原创微博的传播树的时间相似度计算方式如下：假设原创微博s₁和s₂的传播树中最早的发帖时间，发表时间最晚的时间点，分别记为则两个传播树的时间相似度Sim_t为：

若则Simt=0；

若

t_{2}^{\max} \leq t_{1}^{\max},

则

{Sim}_{t} = (t_{2}^{\max} - t_{2}^{\min}) / (t_{1}^{\max} - t_{1}^{\min});

若

t_{2}^{\min} \leq t_{1}^{\max} \leq t_{2}^{\max},

则

{Sim}_{t} = (t_{1}^{\max} - t_{2}^{\min}) / (t_{2}^{\max} - t_{1}^{\min}) .

上述方法中，所述步骤4可以按线性加权的方式来结合原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和传播树的时间相似度计算所述两条原创微博所指示的事件相似度。

又一方面，本发明提供了一种基于微博的事件相似性度量系统，包括：

传播树构造模块，用于对于两条给定的原创微博中的每一条：获取在给定时刻前对该原创微博的所有转发和评论的微博，并以该原创微博为根节点，构造该原创微博的传播树；传播树中每个节点对应一条微博，传播树中的边代表微博间的转发/评论关系；

关注用户构造模块,用于计算两条原创微博的传播树的关注用户集的相似度；所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集；

词汇向量构造模块，用于计算两条原创微博的传播树的词汇向量的相似度；所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集；

事件相似度计算模块，用于基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。

与现有技术相比，本发明的优点在于：

结合微博的结构特征，事件的演化特征与传统的词汇概率特征来度量微博事件的相似度，可以提高微博中事件相似性计算的准确度。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先说明，虽然在现实生活中通常不会混淆“话题”和“事件”这两个名词，但在文本分析领域尤其是在话题检测与跟踪领域，有时对这两个概念是不予区分的，下文中均采用此观点，认为“话题”就是“事件”。同时前人的研究中针对“话题”这一概念提出的各种方法，在下文所述的“事件”概念中也依然适用。

如上文所提及的，用户可以发表一篇独立的微博（区别于转发的和评论的）描述某一事件，称之为一篇描述了事件的“原创微博”。若微博空间中出现了两个这样的原创微博，就有必要判断它们是否描述了同一事件，或者说有必要计算它们描述的两个事件间的相似度，若相似度超过一个给定的阈值，则认为它们其实描述了同一个事件。随着时间增加，微博不断积累，越来越多的用户通过转发和评论上述两篇原创微博，参与到事件的描述中来，事件的描述信息越来越丰富。而另一方面，由于微博在转发过程中会逐渐出现“话题漂移”的情况，即转发信息逐渐与原事件无关，这也在一定程度上影响度量微博事件相似性的准确性。在计算事件相似性时，也应该考虑如何克服漂移影响的问题。

在本发明的一个实施例中，提供了一种基于微博的事件相似性度量方法，在某一指定时刻上，通过分析这一时刻微博空间的快照，计算两个事件间相似度。该方法主要包括下列步骤：（1）对于两条给定的原创微博中的每一条：获取在给定时刻前对该原创微博的所有转发和评论的微博，并以该原创微博为根节点，构造该原创微博的传播树；传播树中每个节点对应一条微博，传播树中的边代表微博间的转发/评论关系；（2）为每个原创微博的传播树的关注用户集中每个用户设置用户权值，计算两条原创微博的传播树的关注用户集的相似度；所述传播树的关注用户集是传播树中每个节点对应的微博的作者所关注的用户的并集；（3）构建每个原创微博的传播树的词汇向量，并为词汇向量中每个元素设置权值，计算两条原创微博的传播树的词汇向量的相似度；所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集；（4）基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。

下面以给定时刻t之前发表的两篇原创微博,记为s₁和s₂，s₁≠s₂,为例，通过计算对微博s₁,s₂所指示的事件间的相似度来对该方法的步骤进行举例说明：

步骤1）获取指定原创微博的所有转发和评论。

在本申请中将转发和评论等同视之，以下通称为转评。例如，获取关于指定微博s₁,s₂在t时刻前的所有转发和评论；各个转评与各自的原创微博一起，分别构成微博的集合S₁和S₂。

其中，若微博s是用户通过转评微博s'产生的，则称s是s'的直接转评，记为l(s)=s'且s∈rt(s')；由于s'的转评可能不止一个，因此采用集合方式表示，rt(s')表示s'的转评的集合。若又有s'是s''的直接转评，则称s是s''的间接转评，且s∈rt(s'')。

步骤2）根据微博间的转评构造微博的信息传播树。

由原创微博s₁和s₂构造的微博传播树分别记为T₁，T₂。以T₁为例，传播树T1可表示为T₁=<V₁,E₁>，其中V₁表示传播树T₁的节点集合，每个节点对应一篇微博，以原创微博s₁为根；E₁表示传播树T₁的边的集合，传播树中的边代表微博间的转评关系。V₁={s₁}∪{s|s∈rt(s₁)}，E₁={<u,v>|u,v∈V₁∧u=l(v)}，这里采用了有向边表示。可以将微博的集合S₁和S₂中的微博分别按时间顺序进行排序，在每个集合中依次遍历每条微博来构建微博传播树。

步骤3）沿传播树进行两两微博的检测，计算两微博的相关度。考虑到微博在转发过程中逐渐出现的“话题漂移”，可以在检测两两微博相关度的同时，基于该相关度来评估在此两条微博间话题漂移的可能性。若相关度低于设定的话题漂移阈值ε_p，则认为话题出现了漂移，对该局部进行剪枝。通常，对于作者相同的微博，认为不发生话题漂移。对于仅转发的空微博，给出一个较高的相关度，也不认为话题漂移。对于其他情况的微博，按照下文所计算的两微博词袋的相关系数作为两微博的相关度。

计算两微博的相关度可采用以下几个子步骤完成：

步骤3-1）对于边<u,v>，读取两条微博的作者Aur(g)和内容，若两微博作者相同，即Aur(u)=Aur(v)，则返回值为1的微博相关度，即节点u,v对应的微博间的相关度rel(u,v)=1；否则继续进行步骤3-2)。

步骤3-2）对微博内容进行分词（对于中文），还原词干（对于英文），去除停用词，构成词袋，即得到两微博的词袋，记为Cot(u)和Cot(v)。计算节点u,v对应的微博间的相关度rel(u,v)，其也可以称为边<u,v>的相关度：

rel (u, v) = \frac{\cot (u) \cap \cot (v)}{\cot (u) \cup \cot (v)}

另外，由于微博中经常出现只转不评的情况，即该微博为空，此时给予此微博一个稍高的相关度，取值在0.7～1.0之间取。

然后，可以根据微博相关度对传播树进行剪枝。微博相关度越高，则话题漂移的可能性越低。如果传播树中两相邻节点对应的微博的相关度低于话题漂移阈值，则在传播树中删除这两节点间的边以及该边后续的所有分支。例如，如果微博相关度rel(u,v)低于指定的话题漂移阈值ε_p，则舍去传播树中以节点v为根的子树。

步骤4）沿每个传播树构造树中每个用户的“关注”用户集合，并基于上文提到的微博相关度，为每个关注的用户赋予权值，最终形成两个传播树的关注用户的集合，记为集合中每个用户均有权值，依此计算关注用户集的相似度Sim_f。

可以采用先根遍历（DLR）的方法迭代每个传播树的各个节点，按下述步骤计算每个传播树中的关注用户集合和同时定义用户权值函数

w_{1} : U_{1}^{f} &RightArrow; R, w_{2} : U_{2}^{f} &RightArrow; R,

R为实数：

步骤4-1），设正经过边<u_n,v>遍历到节点v，取发表节点v对应的微博的用户所关注的用户列表f(v)。

步骤4-2），由于传播树结构特点，有且仅有一条从根节点s出发的路径到达v，将这条路径记为：s,u₁,u₂...,u_n,v，将沿路径的每条边的相关度相乘作为节点v的权值：w_p(v)=rel(s,u₁)·rel(u₁,u₂)...rel(u_n,v)，称此值为节点v的叠加相关度系数。由于相关度是一个真分数，所以距离根节点越远的节点权值越低。

步骤4-3），对微博v作者的每个关注用户x∈f(v)，如果该用户不属于传播树的关注用户集中，则将该用户加入到传播树的关注用户集中，并且将该用户的用户权值设置为w_p(v)；如果该用户已经在传播树的关注用户集中，并且该用户的用户权值小于w_p(v)，则将该用户的用户权值更新为w_p(v)；即：

若则令U^f←U^f∪{x}，w(x)←w_p(v)；其中，w(x)表示用户x的用户权值；

若x∈U^f且w(x)<w_p(v)，则w(x)←w_p(v)。这样，关注用户集中每一个用户的权值是其在传播树中的粉丝所拥有的最大叠加相关系数；

步骤4-4），当两个传播树均已遍历完毕时，对用户权值进行归一化处理：

w (x) &LeftArrow; \frac{w (x)}{\underset{k &Element; U^{f}}{Σ} w (k)};

步骤4-5），计算关注用户集的相似度Sim_f：

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; U_{1}^{f} \cap U_{2}^{f}}{Σ} w_{1} (x) \cdot w_{2} (x)}{\sqrt{\underset{x &Element; U_{1}^{f}}{Σ} w_{1} (x) \cdot w_{1} (x) \cdot \underset{x &Element; U_{2}^{f}}{Σ} w_{2} (x) \cdot w_{2} (x)}} .

步骤5）沿每个传播树构造每个传播树的词汇集，词汇集是传播树中所有微博正文经分词、去除停用词等预处理后所得的词袋的并集，并根据上文提到的微博相关度，为每个词汇赋予权值，最终形成两个传播树的词汇向量，记为W₁，W₂，计算词汇向量的相似度Sim_c。其中词汇的权值可以按以下3步取得：①计算传播树中每个节点的叠加相关度系数；②词汇集中每一个词的权值是其在传播树中所在节点拥有的最大叠加相关系数；③每个词的取值均已完成时对权值进行归一化处理。

如上文提到的，对于传播树中的微博，对微博内容进行分词（对于中文），还原词干（对于英文），去除停用词，构成微博的词袋。然后，取两个传播树中所有微博的词袋的并集，构造词汇全集在此基础上，与步骤4）类似，以先根遍历方式迭代每个传播树的各个节点，构建每个传播树的词汇向量W₁和W₂，及权值函数θ₁,θ₂:W→R，下面仅以其中序号为1的传播树为例说明具体的构建传播树的词汇向量的步骤。

步骤5-1），设正经过边<u_n,v>遍历到节点v，取节点v对应微博的词袋cot(v)和叠加相关度系数w_p(v)；

步骤5-2），对每个词汇α∈cot(v)：若该词汇没有被包含在传播树的词汇向量中，则将该词汇添加到传播树的词汇向量中，并将该词汇的权值设置为w_p(v)；如果该词汇已经被包含在传播树的词汇向量中，并且该词汇的权值小于w_p(v)，则将该词汇的权值更新为w_p(v)；即：

若则令W₁←W₁∪{α}，θ₁(α)←w_p(v)；

若α∈W₁且θ₁(α)<w_p(v)，则更新θ₁(α)←w_p(v)；

对另一传播树也执行步骤5-1）和5-2）。

步骤5-3），当两个传播树均已遍历完毕时，对权值函数进行归一化处理：

θ_{1} (α) = &LeftArrow; \frac{θ_{1} (α)}{\underset{k &Element; W}{Σ} θ_{1} (k)};

步骤5-4，计算两个传播树的词汇向量的相似度Sim_c

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; W_{1} \cap W_{2}}{Σ} θ_{1} (x) \cdot θ_{2} (x)}{\sqrt{\underset{x &Element; W_{1}}{Σ} θ_{1} (x) \cdot θ_{1} (x) \cdot \underset{x &Element; W_{2}}{Σ} θ_{2} (x) \cdot θ_{2} (x)}} .

步骤6）计算两个传播树的时间偏差，也就是计算两个传播树的时间相似度Sim_t，包括：

步骤6-1），取得两个传播树中最早的发帖时间，即原创微博s₁和s₂的发表时间，以及集合中发表时间最晚的时间点。这里分别记为不失一般性，可认为这里同时也默认和

步骤6-2），按以下方式计算两个传播树的时间相似度（也可以称为时间交叠系数）Sim_t：

若则Sim_t=0

若

t_{2}^{\max} \leq t_{1}^{\max},

则

{Sim}_{t} = (t_{2}^{\max} - t_{2}^{\min}) / (t_{1}^{\max} - t_{1}^{\min})

若

t_{2}^{\min} \leq t_{1}^{\max} \leq t_{2}^{\max},

则

{Sim}_{t} = (t_{1}^{\max} - t_{2}^{\min}) / (t_{2}^{\max} - t_{1}^{\min})

依据传播树中的最早时间和最新时间计算传播树的时间相似系数。

步骤7）综合步骤4,5,6的结果，根据Sim_f,Sim_c,Sim_t三个参数，给出微博s₁，s₂所指示的事件间的相似度。

例如，可以按线性加权的方法结合Sim_f,Sim_c,Sim_t三个相似度计算微博事件相似度Sim_E：

Sim_E=ω₁·Sim_f+ω₂·Sim_c+ω₃·Sim_t其中0≤ω₁,ω₂,ω₃≤1∧ω₁+ω₂+ω₃=1

由于Sim_f,Sim_c,Sim_t取值范围均在0到1之间，因此最终得到的事件相似度Sim_E也在0到1的闭区间内。关于式中加权参数ω₁,ω₂,ω₃的取值问题分述如下：ω₁是控制关注用户相似度的权值，两个传播树上的用户有越多的共同关注就代表他们的兴趣越相似，发表同一事件评论的可能性越高。ω₁的取值不宜过高，因为关注用户相似度并非决定性因素，而是辅助因素，取值可选在0.3左右。ω₂是控制词汇相似度的权值，应根据具体事件进行选取，取值范围可在0.5左右。因为不同的事件词汇频率会有所不同，比如，地震洪水等灾害性事件的词汇会比较集中，而相反的，日常事件的词汇则会比较分散。还可以根据目标事件词汇频率的香农熵的大小进行选取。香农熵越趋近于0，则ω₂取值应越大。ω₃是控制时间相似度的权值，一般不取大值，这是因为时间上的不相似并不是事件不相似的主导因素，取值范围可在0.2左右。上文仅是以线性加权的方法为例进行说明，但并不排除采用其他的方法来结合微博传播树的用户集的相似度Sim_f、词汇向量相似度Sim_c,时间相似度Sim_t来计算微博事件间的相似度。

这样，就完成了基于微博的事件相似性度量。上述实施例中，将微博的结构特征，事件的演化特征与传统的词汇概率特征相结合，建立一种更适于度量微博事件的相似度计算模型，可以提高微博中事件相似性计算的准确度。应指出，上述实施例仅是本发明的优选实施例。其中，步骤3）中对传播树局部进行剪枝是可选的，其主要是为了克服由于微博在转发过程中会逐渐出现“话题漂移”的对度量微博事件相似性的准确性及计算效率的影响。在一些实施例中，也可以仅结合关注微博传播树的用户集的相似度Sim_f、词汇向量相似度Sim_c,时间相似度Sim_t中的任意两个来获得微博事件间的相似度。

在本发明的又一个实施例中，还包括了一种基于微博的事件相似性度量系统，其包括传播树构造模块、关注用户集构造模块、词汇向量构造模块以及事件相似度计算模块。其中传播树构造模块对于两条给定的原创微博中的每一条：获取在给定时刻前对该原创微博的所有转发和评论的微博，并以该原创微博为根节点，构造该原创微博的传播树；传播树中每个节点对应一条微博，传播树中的边代表微博间的转发/评论关系。关注用户集构造模块采用如上文所讨论的步骤构建每个原创微博的传播树的关注用户集，计算两条原创微博的传播树的关注用户集的相似度。词汇向量构造模块采用如上文所讨论的步骤构建每个原创微博的传播树的词汇向量，并为词汇向量中每个元素设置权值，计算两条原创微博的传播树的词汇向量的相似度；所述传播树的词汇向量为传播树中每个节点对应的微博的词袋的并集。事件相似度计算模块采用如上文所讨论的步骤基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和/或传播树的时间相似度来获取所述两条原创微博所指示的事件相似度。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种基于微博的事件相似性度量方法，包括以下步骤：

步骤4，基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和传播树的时间相似度中的任意两个相似度或基于上述的三个相似度来获取所述两条原创微博所指示的事件相似度；

其中所述原创微博的传播树的时间相似度计算方式如下：假设原创微博s₁和s₂的传播树中最早的发帖时间，发表时间最晚的时间点，分别记为其中则两个传播树的时间相似度Sim_t为：

若则Sim_t＝0；

若则

2.根据权利要求1所述的方法，所述步骤1还包括沿传播树检测相邻两节点对应的微博的相关度，如果传播树中两相邻节点对应的微博的相关度低于话题漂移阈值，则在传播树中删除这两节点间的边以及该边后续的所有分支。

3.根据权利要求1所述的方法，所述步骤2中两条原创微博的传播树的关注用户集的相似度以如下公式计算：

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; U_{1}^{f} \cap U_{2}^{f}}{Σ} w_{1} (x) \cdot w_{2} (x)}{\sqrt{\underset{x &Element; U_{1}^{f}}{Σ} w_{1} (x) \cdot w_{1} (x) \cdot \underset{x &Element; U_{2}^{f}}{Σ} w_{2} (x) \cdot w_{2} (x)}};

4.根据权利要求3所述的方法，所述传播树的关注用户集中用户对应的用户权值是基于传播树中相邻两节点对应的微博的相关度来设置的。

5.根据权利要求4所述的方法，其中传播树的关注用户集以及用户权值是从传播树的根节点开始遍历，对于每个节点执行下列步骤而得到的：

步骤2-1)假设从根节点s出发沿路径s,u₁,u₂...,u_n,v遍历到节点v，取发表v对应的微博的用户所关注的用户列表f(v)；

步骤2-2)节点v的候选权值设置为：w_p(v)＝rel(s,u₁)·rel(u₁,u₂)...rel(u_n,v)，其中，rel(.)表示传播树中相邻两节点对应的微博的相关度；

步骤2-3)，对用户列表f(v)中每个用户，如果该用户不属于传播树的关注用户集中，则将该用户加入到传播树的关注用户集中，并且将该用户的用户权值设置为w_p(v)；如果该用户已经在传播树的关注用户集中，并且该用户的用户权值小于w_p(v)，则将该用户的用户权值更新为w_p(v)。

6.根据权利要求1所述的方法，所述步骤3中两条原创微博的传播树的词汇向量的相似度以如下公式计算：

{Sim}_{c} (s_{1}, s_{2}) = \frac{\underset{x &Element; W_{1} \cap W_{2}}{Σ} θ_{1} (x) \cdot θ_{2} (x)}{\sqrt{\underset{x &Element; W_{1}}{Σ} θ_{1} (x) \cdot θ_{1} (x) \cdot \underset{x &Element; W_{1}}{Σ} θ_{2} (x) \cdot θ_{2} (x)}};

7.根据权利要求6所述的方法，所述传播树的词汇向量中词汇对应的权值是基于传播树中相邻两节点对应的微博的相关度来设置的。

8.根据权利要求7所述的方法，其中传播树的词汇向量以及权值是从传播树的根节点开始进行遍历，对于每个节点执行下列步骤而得到的：

步骤3-1)假设从根节点s出发沿路径s,u₁,u₂...,u_n,v遍历到节点v，取节点v对应的微博的词袋；

步骤3-2)节点v的候选权值设置为：

w_p(v)＝rel(s,u₁)·rel(u₁,u₂)...rel(u_n,v)，其中，rel(.)表示传播树中相邻两节点对应的微博的相关度；

步骤3-3)，对节点v对应的微博的词袋中的每个词汇：

9.根据权利要求2、4、5、7和8任一项所述的方法，其中，传播树中相邻两节点对应的微博的相关度计算方式如下：以u,v表示传播树中任意两相邻节点，如果u,v对应的微博的作者相同，则u,v对应的微博相关度rel(u,v)＝1；否则，u,v对应的微博相关度其中cot(u)和cot(v)分别是基于u,v对应的微博的内容构造的词袋。

10.根据权利要求1所述的方法，所述步骤4中，按线性加权的方式来结合原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和传播树的时间相似度计算所述两条原创微博所指示的事件相似度。

11.一种基于微博的事件相似性度量系统，包括：

事件相似度计算模块，用于基于原创微博的传播树的词汇向量的相似度、传播树的关注用户集的相似度和传播树的时间相似度中的任意两个相似度或基于上述的三个相似度来获取所述两条原创微博所指示的事件相似度；

若则Sim_t＝0；

若则