CN105488092A

CN105488092A - 一种时间敏感和自适应的子话题在线检测方法及系统

Info

Publication number: CN105488092A
Application number: CN201510408490.3A
Authority: CN
Inventors: 李思旭; 李锐; 包秀国; 马宏远; 杨文静; 邱泳钦; 程工; 刘春阳; 庞琳; 王斌
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2016-04-13
Anticipated expiration: 2035-07-13
Also published as: CN105488092B

Abstract

本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括：1)对文档流中的每篇文档进行向量化表示；2)对文档进行增量式聚类，并根据随时间衰减的文档权重调整子话题的中心权重；3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件，或者子话题满足长尾检测条件时，进行子话题间的合并或者删除无意义的子话题；4)根据每个新子话题的权重已及其内在的文档分布，对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减，并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新，能够有效提高子话题检测的效率。

Description

一种时间敏感和自适应的子话题在线检测方法及系统

技术领域

本发明属于信息技术领域，具体涉及一种时间敏感和自适应的子话题在线检测方法及系统，可以应用于突发事件检测、子话题分析、舆情分析、社交媒体数据挖掘等领域。

背景技术

微博是微型博客(Microblog)的简称。用户注册微博账号，就可以通过关注好友、名人、机构等方式，使得不同的用户建立起网络关系。微博的消息流中充斥着各方各面的事物，但不同的社会实体关注的内容却截然不同，例如产品公司关注相关产品在网络中实时的口碑，知名人物关注自身在网民中的舆论形象与影响。因此基于社交网络针对特定目标实体的在线子话题检测引起了公司、高校以及许多研究人员的高度关注。微博子话题检测可以为用户节省浏览微博的时间，了解微博平台上的热门话题，理清话题发展脉络，还可以让用户获得与重大事件有关的原始材料，因为这些材料的发布者通常都亲身经历了整个事件，具有较高的真实性。因此，对微博进行在线子话题检测与分析技术的研究具有重大意义。

子话题检测旨在将目标文档流归入不同的类，当新的文档不属于历史的任何一个类时建立一个新类，新类即代表新的子话题。目标文档流，可以是关于一个话题，一个事件或者一个实体的报道。从本质上说，子话题分析是一种无指导增量式聚类研究方法。系统无法预知有多少子话题，也并不知道什么时候建立新的子话题。子话题检测是对目标数据流起着监控，跟踪，分析的作用。目前国外针对Twitter做的相关研究比国内的研究多，国内关于微博的话题检测技术研究还处于起步阶段。而微博文本较短，表达偏口语化，将传统的方法直接应用到微博上往往会出现计算量过大，检测率低等问题，这就需要研究适合微博特点的热点新闻发现与跟踪方法。

目前，在话题检测方面比较有代表性的研究有：YimingYang采用凝聚式聚类算法与平均聚类算法相结合的策略(YangY.,PierceT.,andCarbonellJ.AStudyonRetrospectiveandOn-LineEventDetection[J].InProceedingsofthe21stACMSIGIR.1998)，将近似于同一话题模型的相关事件综合在一起作为话题检测的结果。在线首话题检测传统的方法是单次扫描聚类(Single-pass)方法，代表系统有CMU系统，速度较慢。张阔等人用索引树方法(Zhang,Kuo,JuanZi,andLiGangWu,Neweventdetectionbasedonindexing-treeandnamedentity,SIGIR’07:Proceedingsofthe30thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,ACM,NewYork,NY,USA,pp.215–222.2007)提高速度和精度。SasaPetrovic等人用局部敏感哈希算法，在不损失精度的情况下，大幅度提高了速度(Petrovic,MilesOsborne,andVictorLavrenko.StreamingfirststorydetectionwithapplicationtoTwitter.HLT'10.2010.)。

DanielaPohl提出了一个能应用于社交媒体数据子话题检测的框架(D.Pohl,A.Bouchachia,andH.Hellwagner,“AutomaticSub-EventDetectioninEmergencyManagementUsingSocialMedia”,inInFirstInter.WorkshoponSocialWebforDisasterManagement(SWDM),InconjunctionwithWWW’12,Lyon,France,2012.)。框架由四个模块组成，分别是：数据流接口模块，事件检测模块，极性与标签模块，摘要模块。在事件检测模块中，作者抽取出多媒体数据中的标题、描述、标签等元数据作为特征，采用自组织神经网络特征映射作为聚类方法，将上述特征映射到桶中。每个桶内的数据代表一个子话题。该方法的优点是相似的特征会被映射到相同的桶中，从而被聚到一起；缺点是无法在线处理，无法处理信息随意性强的微博。

DhekarAbhik沿用DanielaPohl的框架，但在子话题检测模块提出一种新的检测方法。该检测方法分为两步(DhekarAbhik,DurgaToshniwal.“Sub-EventDetectionDuringNaturalHazardsUsingFeaturesofSocialMediaData”.WorkshoponSocialWebforDisasterManagement(SWDM),InconjunctionwithWWW’13,RiodeJaneiro,Brazil,2013.)。第一步：令(F₁,F₂,...,F_k)为所有媒体数据的特征，如时间、地点、标题、内容等，对每个特征F_i都采用Single-pass聚类算法i得到聚类结果C_i。第二步：对上述k个聚类结果(C₁,C₂,...,C_k)进行投票，每个类的权重为(W₁,W₂,...,W_k)，最终得到聚类结果(S₁,S₂,...,S_e)。每个聚类结果S_i代表一个子事件(子话题)。

突发事件检测技术也可以应用于子话题分析系统中。突发事件检测主要思想是检测文档流中的突发文档数量或者突发关键词，从而达到检测突发事件的目的。

目前子话题分析主要应用于自然灾害的后续跟踪报道，紧急事件处理等。各种社交媒体的数据都可以作为系统的数据源。

上述系统存在如下问题：第一，不区分历史文档的权重和最新文档的权重。系统应关注当前子话题，历史数据反映的是历史子话题，历史文档的权重应当随时间衰减。第二：无法对子话题的内容和数量自适应的调整。上述系统的输出子话题数量偏多，即出现长尾现象。应当对没有意义的长尾进行检测，及时进行子话题的合并或者删除。第三：基于突发检测的系统只能得到突发事件，无法检测出热门事件(子话题)，即无法检测出长时间大众都关心的事件(热门子话题)。

发明内容

本发明的目的是克服上述现有子话题分析技术存在的问题，提出一种时间敏感和自适应的子话题在线检测方法及系统，该方案中历史文档权重随时间衰减，并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新。

为实现上述目的，本发明采用的技术方案如下：

一种时间敏感和自适应的子话题在线检测方法，其步骤包括：

1)对文档流中的每篇文档进行向量化表示；

2)对向量化表示后的文档进行增量式聚类，若文档属于某个子话题，则将该文档加入到该子话题中，并根据随时间衰减的文档权重调整该子话题的中心权重；若文档不属于任何一个子话题，则建立一个新子话题，并同样根据随时间衰减的文档权重调整该新子话题的中心权重；

3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件，或者子话题满足长尾检测条件时，进行子话题间的合并或者删除无意义的子话题；

4)根据每个新子话题的权重已及其内在的文档分布，对新子话题生成摘要，并输出展示。

进一步地，步骤2)通过计算文档与子话题的相似度，判断文档是否属于某个子话题。

进一步地，步骤2)所述随时间衰减的文档权重，是指历史文档的权重随时间衰减，最新的文档具有最高的权重。

进一步地，步骤2)根据随时间衰减的文档权重调整子话题的中心权重的方法是：

(i)文档权重更新：当文档权重低于设定的阈值时，即文档的时间距离当前时间很远，是过时的历史子话题，从系统中删除该文档；

(ii)类中心更新：根据已经更新权重的文档，计算该类的权重及类中心。

一种时间敏感和自适应的子话题在线检测系统，其包括：

文档表示模块，用于对文档流中的每篇文档进行向量化表示；

增量式聚类模块，用于对向量化表示后的文档进行增量式聚类，若文档属于某个子话题，则将该文档加入到该子话题中，并根据随时间衰减的文档权重调整该子话题的中心权重；若文档不属于任何一个子话题，则建立一个新子话题，并同样根据随时间衰减的文档权重调整该新子话题的中心权重；

新子话题发现模块，用于当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件，或者子话题满足长尾检测条件时，进行子话题间的合并或者删除无意义的子话题

摘要生成模块，用于根据每个新子话题的权重已及其内在的文档分布，对新子话题生成摘要，并输出展示。

本发明的关键点及对应的技术效果如下：

关键点1，历史文档的权重随时间衰减，最新的文档具有最高的权重，并且每个子话题权重由属于该子话题的文档组成，因此每个子话题中新文档越多，该子话题权重越大；

关键点2，考虑时间的增量式聚类。由于每篇文档和每个子话题都具有时间敏感性，因此在聚类过程中也融入时间信息，使得聚类结果具有时效性；

关键点3，子话题数量自适应。当系统中的子话题数量或者某个子话题权重占比满足阈值条件，即进行子话题间合并或者删除无意义的子话题；

关键点4，子话题内容自适应。当系统中的子话题满足长尾检测条件时，及时对长尾进行处理，处理结果是子话题间合并或者删除无意义的子话题；

本发明与现有技术相比，考虑了文档时间的因素，最新文档具有最高的权重，子话题中新文档越多权重越大，使得聚类结果具有敏感性，因此每个子话题都具有时效性。从效果上说，子话题的权重不再取决于文档数量的多少，而是文档数量以及文档的时间。例如子话题A具有最新的50篇文档报道，子话题B具有100篇上周的报道，理所当然子话题A更应该被关注。并且当文档的权重小于设定阈值时，从系统中删除，避免了系统中无用信息过多，提高系统运行效率。

另一方面，在线增量式聚类存在长尾现象，子话题数量呈快速增长，其中很多子话题都是离群点，即没有意义的内容；在线增量式聚类无法进行类间的相似度计算，即无法进行子话题合并；另外随着系统的运行，系统中的子话题和文档累积，加重系统负荷，降低了系统的效率。本发明基于子阈值条件和长尾检测方法，当子话题数量或者某个子话题权重占比满足阈值条件，或者子话题满足长尾检测条件时，及时进行子话题间的合并或者删除无意义的子话题，从而及时输出子话题的摘要信息，达到子话题分析、舆情分析的目的。进行子话题合并或者删除的另外一点好处是：减少子话题的数量，提高聚类效率。

附图说明

图1为本发明子话题检测整体框架示意图；

图2为本发明子话题检测流程图。

具体实施方式

为了详细阐述本发明的目的、技术方案及优点，下面结合附图及案例，对本发明提出方法的实施过程进行进一步详细说明。应当理解，此处所描述的具体实施仅用于解释本发明，并不用于限定本发明。在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。需求补充的是，流程图中的具体方法只是本发明一个具体实现案例，模块内的各个功能作用也可以用其他方式实现效果。

如图1所示，本发明一共包含四大模块：文档表示模块，增量式聚类模块，新子话题发现模块，摘要生成模块。下面简述各个模块的作用。

文档表示模块：对文档流中到来的每篇文档进行预处理，如分词，去除停用词等。并根据需求将文档向量化表示成d_t＝<α_t,(f_t1,f_t2,...,f_tM)>，其中α_t为时间衰减系数，(f_t1,f_t2,...,f_tM)为文档特征向量。

增量式聚类模块：对文档d_t进行增量式聚类。若d_t属于某个子话题k，则将d_t加入到类k中，并根据随时间衰减的文档权重调整子话题k的中心权重；若d_t不属于任何一个子话题，则建立一个新类，同样计算新类的中心权重。由于每篇文档和每个子话题都具有时间敏感性，因此本发明在聚类过程中也融入时间信息，使得聚类结果具有时效性。历史文档的权重随时间衰减，最新的文档具有最高的权重，并且每个子话题权重由属于该子话题的文档组成，因此每个子话题中新文档越多，该子话题权重越大。

新子话题发现模块：当增量式聚类模块的聚类结果数量过多，某个子话题权重较大，或者出现长尾现象时，就会触发该模块执行。该模块主要处理增量式聚类模块的聚类结果，即进行子话题间合并或者删除无意义的子话题，合并后的子话题即最新的子话题。合并过程中的相似度计算、类中心计算结合了时间敏感信息。

摘要生成模块：根据每个新子话题的权重已及内在文档分布，对新的子话题生成摘要，输出展示。

本发明的子话题检测的流程如图2所示，包括如下步骤：

(1)文档流接口(或称为文档流接口模块)。对原始文档进行过滤，只摘取与目标话题相关的文档，并按照时间排序，提供后续模块分析处理。

(2)文档表示。对文档流接口到来的每篇文档d_t进行预处理，如分词，去除停用词等。并根据具体需求将文档向量化表示成其中为时间衰减系数，(f_t1,f_t2,...,f_tM)为文档tf-idf特征向量。

(3)考虑时间的增量式聚类。计算文档d_t与当前系统中每个子话题C_i的相似度similarity(d_t,C_i)，令：similarity_max(d_t)＝max_Ci{similarity(d_t,C_i)}。若similarity_max(d_t)≥MINsim(MINsim表示文档需要满足的最小相似度，系统开始时人为设定，例如为0.6)，则将d_t分配到子话题C_i，更新C_i的类中心；否则新建一个子话题C_k+1，将d_t分配到子话题C_k+1，更新C_k+1的类中心。与传统Single-pass聚类系统(YangY.,PierceT.,andCarbonellJ.AStudyonRetrospectiveandOn-LineEventDetection[J].InProceedingsofthe21stACMSIGIR.1998)不同的是：本方法中文档特征和每个子话题中心都考虑了时间敏感，因此计算similarity(d_t,C_i)得到的结果不同于传统方法的计算结果，因此新的文档容易被聚到新的子话题中。

(4)条件判断。判断增量式聚类的结果中，(i)类的数目是否超过了阈值MAXC(例如MAXC＝100)；(ii)某个类的相对权重超过是否超过阈值MAXW(例如MAXW＝30％)；(iii)系统中的各个类是否出现长尾现象，即是否出现了很多小类。当系统在该步骤检测到上述某个条件满足时，执行下个步骤；否则执行(1)。

(5)通过时间权重更新已经离群的信息。时间权重更新分为两个部分：(i)文档权重更新，当文档权重α_t低于设定阈值MINW(例如MINW＝0.01)，即文档的时间距离当前时间很远，已经认为是过时的历史子话题，从系统中删除该文档；(ii)类中心更新，在该类已经更新权重的文档，计算该类的权重以及类中心的表示。并且对长尾现象检测是否属于离群点，即是否属于无意义的子话题。虽然在步骤(1)中已经对文档流进行过滤，但是并不能语义消歧，也无法过滤没有信息含量的文档。例如检测目标话题为“苹果”手机，文档“这个苹果真好吃”即属于无意义子话题。

(6)新子话题发现。对上述处理过的有意义的子话题进行层次聚类。现有的Single-pass聚类算法适合用于在线聚类，并且速度较快，但缺点是无法进行类间的比较，也无法进行类间的合并。随着系统的运行，很可能出现多个相似的类，此时应该对这些类进行合并，得到新的子话题。类合并可以用层次聚类算法实现(计算类间的相似度，然后运行层次聚类算法)。层次聚类算法虽然复杂度较高，但此时系统中的类数目不超过设定的阈值MAXC，并且MAXC可以设定较小的值，因此此处的层次聚类运行速度很快。

(7)摘要生成。对上个步骤发现的新子话题生成摘要，输出展示。生成摘要的方法可以用tf-idf的方式，输出每个类中tf-idf值较大的关键词；也可以通过计算每个句子的tf-idf值(DragomirR.Radev,HongyanJing,MalgorzataandDanielTam.Centroid-basedsummarizationofmultipledocuments.InformationProcessingandManagement,40:919–938,December2004.D.Pohl,A.Bouchachia,andH.Hellwagner,“AutomaticSub-EventDetectioninEmergencyManagementUsingSocialMedia”,inInFirstInter.WorkshoponSocialWebforDisasterManagement(SWDM),InconjunctionwithWWW’12,Lyon,France,2012.)，输出tf-idf较大的句子。后者的优点是理解性较强，但是通常一个句子无法融入所有的关键词。

具体实施过程结合实验阐释如下，例子为“北京房价”，需要备注的是，该处实验为模拟在线检测的过程，实际实验是离线的。

(1)运用网络数据采集技术，对新浪微博进行数据采集，采集关键词为“北京房价”，采集时间限定为2014-03-01到2014-04-30，采集到数据2087条，采集的属性包括：消息ID，用户ID，用户名，屏幕名，会员，认证用户，转发消息ID，消息内容，来源，图片URL，赞数，转发数，评论数，发布地点，发布时间等。并根据每条微博的时间升序排序，存放在数据库中，按照时间先后顺序模拟在线数据流的形式，供后续模块处理。

(2)对数据库中到来的每篇微博，提取出时间和消息内容。对内容调用中文分词工具，计算各个词项的tf-idf后，表示成向量(f_t1,f_t2,...,f_tM)；微博提取的时间即为当前时间(模拟在线过程)，置

(3)计算微博与当前系统中每个类C_i的相似度similarity(d_t,C_i)，本实验采用余弦相似度：

s i m i l a r i t y (d_{t}, C_{i}) = \frac{d_{t} \cdot C_{i}}{| d_{t} | | C_{i} |}

并计算出最大similarity_max(d_t,C_i)。若similarity_max(d_t)≥MINsim＝0.6，则将d_t分配到子话题C_i，更新C_i的类中心和该类的权重；否则新建一个子话题C_k+1，将d_t分配到子话题C_k+1，更新C_k+1的类中心。类中心和类权重的计算公式为：

C_{i} = \underset{d_{t} &Element; C_{i}}{Σ} α_{d_{t}} (f_{t 1}, f_{t 2}, ..., f_{t M})

{weight}_{C_{i}} = \frac{\underset{d_{t} &Element; C_{i}}{Σ} α_{d_{t}}}{\underset{C_{i}}{Σ} \underset{d_{t} &Element; C_{i}}{Σ} α_{d_{t}}}

(4)判断上述聚类结果：(i)类的数目是否超过了阈值MAXC＝50；(ii)某个类的相对权重超过是否超过阈值MAXW＝50％；(iii)系统中的各个类是否出现长尾现象，最小的80％的类占有的总权重低于20％。满足上述一个以上条件说明系统中的子话题应该进行调整。否则执行步骤(2)。下面步骤对系统中的子话题进行处理。

(5)对每个子话题进行统一预处理。

(i)更新每个类中每篇文档的权重。更新公式为：

α_{d_{t}} = e^{- \frac{t}{5}}

其中t为小时。当时，将文档从系统中删除。

(ii)更新每个类中心以及类权重，更新公式如上所述。

(iii)利用现有技术中的垃圾信息检测技术，检测每个类是否属于离群信息。

(6)对上述处理结果进行层次聚类，发现最新子话题。类间的相似度计算公式为：

s i m i l a r i t y (C_{i}, C_{j}) = \frac{C_{i} \cdot C_{j}}{| C_{i} | | C_{j} |}

(7)层次聚类后，计算每个类间每个词的tf-idf，输出前6个值最高的词，如下面表1所示。从数据中可以观测到2014-03-07日，子话题引发的原因是：北京副市长发言“京津冀一体化北京房价肯定要降”，从而引发激烈讨论；2014-03-18日，子话题引发的原因是：李代沫在出租房吸毒被抓，引发大众讨论，连明星都买不起房，可见北京房价有多高；2014-04-29日，子话题引发的原因是：通州炒房，环京旅游，楼市泡沫，并且多位公众人物表态引发的关于房价讨论。

表1系统输出展示

Claims

1.一种时间敏感和自适应的子话题在线检测方法，其特征在于，包括如下步骤：

1)对文档流中的每篇文档进行向量化表示；

2.如权利要求1所述的方法，其特征在于：步骤1)首先对文档进行预处理，包括分词、去除停用词；然后将文档向量化表示成d_t＝<α_t,(f_t1,f_t2,...,f_tM)>，其中α_t为时间衰减系数，(f_t1,f_t2,...,f_tM)为文档特征向量。

3.如权利要求1所述的方法，其特征在于：步骤2)通过计算文档与子话题的相似度，判断文档是否属于某个子话题。

4.如权利要求1所述的方法，其特征在于：步骤2)所述随时间衰减的文档权重，是指历史文档的权重随时间衰减，最新的文档具有最高的权重。

5.如权利要求1所述的方法，其特征在于：步骤2)根据随时间衰减的文档权重调整子话题的中心权重的方法是：

6.如权利要求1所述的方法，其特征在于：步骤3)通过计算类间的相似度并运行层次聚类算法，实现子话题间的合并。

7.如权利要求1所述的方法，其特征在于：步骤4)采用tf-idf的方式生成摘要，输出每个类中tf-idf值较大的关键词；或者通过计算每个句子的tf-idf值，输出tf-idf值较大的句子。

8.如权利要求1所述的方法，其特征在于：对原始文档进行过滤，摘取与目标话题相关的文档，并按照时间排序，然后进行所述步骤1)。

9.一种时间敏感和自适应的子话题在线检测系统，其特征在于，包括：

新子话题发现模块，用于当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件，或者子话题满足长尾检测条件时，进行子话题间的合并或者删除无意义的子话题；

10.如权利要求9所述的系统，其特征在于：还包括文档流接口模块，用于对原始文档进行过滤，摘取与目标话题相关的文档，并按照时间排序，然后输入所述文档表示模块。