CN105488092B - 一种时间敏感和自适应的子话题在线检测方法及系统 - Google Patents
一种时间敏感和自适应的子话题在线检测方法及系统 Download PDFInfo
- Publication number
- CN105488092B CN105488092B CN201510408490.3A CN201510408490A CN105488092B CN 105488092 B CN105488092 B CN 105488092B CN 201510408490 A CN201510408490 A CN 201510408490A CN 105488092 B CN105488092 B CN 105488092B
- Authority
- CN
- China
- Prior art keywords
- sub
- document
- weight
- topic
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 4
- 238000010998 test method Methods 0.000 title abstract 2
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002238 attenuated effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。
Description
技术领域
本发明属于信息技术领域,具体涉及一种时间敏感和自适应的子话题在线检测方法及系统,可以应用于突发事件检测、子话题分析、舆情分析、社交媒体数据挖掘等领域。
背景技术
微博是微型博客(Microblog)的简称。用户注册微博账号,就可以通过关注好友、名人、机构等方式,使得不同的用户建立起网络关系。微博的消息流中充斥着各方各面的事物,但不同的社会实体关注的内容却截然不同,例如产品公司关注相关产品在网络中实时的口碑,知名人物关注自身在网民中的舆论形象与影响。因此基于社交网络针对特定目标实体的在线子话题检测引起了公司、高校以及许多研究人员的高度关注。微博子话题检测可以为用户节省浏览微博的时间,了解微博平台上的热门话题,理清话题发展脉络,还可以让用户获得与重大事件有关的原始材料,因为这些材料的发布者通常都亲身经历了整个事件,具有较高的真实性。因此,对微博进行在线子话题检测与分析技术的研究具有重大意义。
子话题检测旨在将目标文档流归入不同的类,当新的文档不属于历史的任何一个类时建立一个新类,新类即代表新的子话题。目标文档流,可以是关于一个话题,一个事件或者一个实体的报道。从本质上说,子话题分析是一种无指导增量式聚类研究方法。系统无法预知有多少子话题,也并不知道什么时候建立新的子话题。子话题检测是对目标数据流起着监控,跟踪,分析的作用。目前国外针对Twitter做的相关研究比国内的研究多,国内关于微博的话题检测技术研究还处于起步阶段。而微博文本较短,表达偏口语化,将传统的方法直接应用到微博上往往会出现计算量过大,检测率低等问题,这就需要研究适合微博特点的热点新闻发现与跟踪方法。
目前,在话题检测方面比较有代表性的研究有:Yiming Yang采用凝聚式聚类算法与平均聚类算法相结合的策略(Yang Y.,Pierce T.,and Carbonell J.A Study onRetrospective and On-Line Event Detection[J].In Proceedings of the 21st ACMSIGIR.1998),将近似于同一话题模型的相关事件综合在一起作为话题检测的结果。在线首话题检测传统的方法是单次扫描聚类(Single-pass)方法,代表系统有CMU系统,速度较慢。张阔等人用索引树方法(Zhang,Kuo,Juan Zi,and Li Gang Wu,New event detectionbased on indexing-tree and named entity,SIGIR’07:Proceedings of the 30thannual international ACM SIGIR conference on Research and development ininformation retrieval,ACM,New York,NY,USA,pp.215–222.2007)提高速度和精度。SasaPetrovic等人用局部敏感哈希算法,在不损失精度的情况下,大幅度提高了速度(Petrovic,Miles Osborne,and Victor Lavrenko.Streaming first story detectionwith application to Twitter.HLT'10.2010.)。
Daniela Pohl提出了一个能应用于社交媒体数据子话题检测的框架(D.Pohl,A.Bouchachia,and H.Hellwagner,“Automatic Sub-Event Detection in EmergencyManagement Using Social Media”,in In First Inter.Workshop on Social Web forDisaster Management(SWDM),In conjunction with WWW’12,Lyon,France,2012.)。框架由四个模块组成,分别是:数据流接口模块,事件检测模块,极性与标签模块,摘要模块。在事件检测模块中,作者抽取出多媒体数据中的标题、描述、标签等元数据作为特征,采用自组织神经网络特征映射作为聚类方法,将上述特征映射到桶中。每个桶内的数据代表一个子话题。该方法的优点是相似的特征会被映射到相同的桶中,从而被聚到一起;缺点是无法在线处理,无法处理信息随意性强的微博。
Dhekar Abhik沿用Daniela Pohl的框架,但在子话题检测模块提出一种新的检测方法。该检测方法分为两步(Dhekar Abhik,Durga Toshniwal.“Sub-Event DetectionDuring Natural Hazards Using Features of Social Media Data”.Workshop onSocial Web for Disaster Management(SWDM),In conjunction with WWW’13,Rio deJaneiro,Brazil,2013.)。第一步:令(F1,F2,...,Fk)为所有媒体数据的特征,如时间、地点、标题、内容等,对每个特征Fi都采用Single-pass聚类算法i得到聚类结果Ci。第二步:对上述k个聚类结果(C1,C2,...,Ck)进行投票,每个类的权重为(W1,W2,...,Wk),最终得到聚类结果(S1,S2,...,Se)。每个聚类结果Si代表一个子事件(子话题)。
突发事件检测技术也可以应用于子话题分析系统中。突发事件检测主要思想是检测文档流中的突发文档数量或者突发关键词,从而达到检测突发事件的目的。
目前子话题分析主要应用于自然灾害的后续跟踪报道,紧急事件处理等。各种社交媒体的数据都可以作为系统的数据源。
上述系统存在如下问题:第一,不区分历史文档的权重和最新文档的权重。系统应关注当前子话题,历史数据反映的是历史子话题,历史文档的权重应当随时间衰减。第二:无法对子话题的内容和数量自适应的调整。上述系统的输出子话题数量偏多,即出现长尾现象。应当对没有意义的长尾进行检测,及时进行子话题的合并或者删除。第三:基于突发检测的系统只能得到突发事件,无法检测出热门事件(子话题),即无法检测出长时间大众都关心的事件(热门子话题)。
发明内容
本发明的目的是克服上述现有子话题分析技术存在的问题,提出一种时间敏感和自适应的子话题在线检测方法及系统,该方案中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新。
为实现上述目的,本发明采用的技术方案如下:
一种时间敏感和自适应的子话题在线检测方法,其步骤包括:
1)对文档流中的每篇文档进行向量化表示;
2)对向量化表示后的文档进行增量式聚类,若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的中心权重;
3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;
4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。
进一步地,步骤2)通过计算文档与子话题的相似度,判断文档是否属于某个子话题。
进一步地,步骤2)所述随时间衰减的文档权重,是指历史文档的权重随时间衰减,最新的文档具有最高的权重。
进一步地,步骤2)根据随时间衰减的文档权重调整子话题的中心权重的方法是:
(i)文档权重更新:当文档权重低于设定的阈值时,即文档的时间距离当前时间很远,是过时的历史子话题,从系统中删除该文档;
(ii)类中心更新:根据已经更新权重的文档,计算该类的权重及类中心。
一种时间敏感和自适应的子话题在线检测系统,其包括:
文档表示模块,用于对文档流中的每篇文档进行向量化表示;
增量式聚类模块,用于对向量化表示后的文档进行增量式聚类,若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的中心权重;
新子话题发现模块,用于当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题
摘要生成模块,用于根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。
本发明的关键点及对应的技术效果如下:
关键点1,历史文档的权重随时间衰减,最新的文档具有最高的权重,并且每个子话题权重由属于该子话题的文档组成,因此每个子话题中新文档越多,该子话题权重越大;
关键点2,考虑时间的增量式聚类。由于每篇文档和每个子话题都具有时间敏感性,因此在聚类过程中也融入时间信息,使得聚类结果具有时效性;
关键点3,子话题数量自适应。当系统中的子话题数量或者某个子话题权重占比满足阈值条件,即进行子话题间合并或者删除无意义的子话题;
关键点4,子话题内容自适应。当系统中的子话题满足长尾检测条件时,及时对长尾进行处理,处理结果是子话题间合并或者删除无意义的子话题;
本发明与现有技术相比,考虑了文档时间的因素,最新文档具有最高的权重,子话题中新文档越多权重越大,使得聚类结果具有敏感性,因此每个子话题都具有时效性。从效果上说,子话题的权重不再取决于文档数量的多少,而是文档数量以及文档的时间。例如子话题A具有最新的50篇文档报道,子话题B具有100篇上周的报道,理所当然子话题A更应该被关注。并且当文档的权重小于设定阈值时,从系统中删除,避免了系统中无用信息过多,提高系统运行效率。
另一方面,在线增量式聚类存在长尾现象,子话题数量呈快速增长,其中很多子话题都是离群点,即没有意义的内容;在线增量式聚类无法进行类间的相似度计算,即无法进行子话题合并;另外随着系统的运行,系统中的子话题和文档累积,加重系统负荷,降低了系统的效率。本发明基于子阈值条件和长尾检测方法,当子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,及时进行子话题间的合并或者删除无意义的子话题,从而及时输出子话题的摘要信息,达到子话题分析、舆情分析的目的。进行子话题合并或者删除的另外一点好处是:减少子话题的数量,提高聚类效率。
附图说明
图1为本发明子话题检测整体框架示意图;
图2为本发明子话题检测流程图。
具体实施方式
为了详细阐述本发明的目的、技术方案及优点,下面结合附图及案例,对本发明提出方法的实施过程进行进一步详细说明。应当理解,此处所描述的具体实施仅用于解释本发明,并不用于限定本发明。在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。需求补充的是,流程图中的具体方法只是本发明一个具体实现案例,模块内的各个功能作用也可以用其他方式实现效果。
如图1所示,本发明一共包含四大模块:文档表示模块,增量式聚类模块,新子话题发现模块,摘要生成模块。下面简述各个模块的作用。
文档表示模块:对文档流中到来的每篇文档进行预处理,如分词,去除停用词等。并根据需求将文档向量化表示成dt=<αt,(ft1,ft2,...,ftM)>,其中αt为时间衰减系数,(ft1,ft2,...,ftM)为文档特征向量。
增量式聚类模块:对文档dt进行增量式聚类。若dt属于某个子话题k,则将dt加入到类k中,并根据随时间衰减的文档权重调整子话题k的中心权重;若dt不属于任何一个子话题,则建立一个新类,同样计算新类的中心权重。由于每篇文档和每个子话题都具有时间敏感性,因此本发明在聚类过程中也融入时间信息,使得聚类结果具有时效性。历史文档的权重随时间衰减,最新的文档具有最高的权重,并且每个子话题权重由属于该子话题的文档组成,因此每个子话题中新文档越多,该子话题权重越大。
新子话题发现模块:当增量式聚类模块的聚类结果数量过多,某个子话题权重较大,或者出现长尾现象时,就会触发该模块执行。该模块主要处理增量式聚类模块的聚类结果,即进行子话题间合并或者删除无意义的子话题,合并后的子话题即最新的子话题。合并过程中的相似度计算、类中心计算结合了时间敏感信息。
摘要生成模块:根据每个新子话题的权重已及内在文档分布,对新的子话题生成摘要,输出展示。
本发明的子话题检测的流程如图2所示,包括如下步骤:
(1)文档流接口(或称为文档流接口模块)。对原始文档进行过滤,只摘取与目标话题相关的文档,并按照时间排序,提供后续模块分析处理。
(2)文档表示。对文档流接口到来的每篇文档dt进行预处理,如分词,去除停用词等。并根据具体需求将文档向量化表示成其中为时间衰减系数,(ft1,ft2,...,ftM)为文档tf-idf特征向量。
(3)考虑时间的增量式聚类。计算文档dt与当前系统中每个子话题Ci的相似度similarity(dt,Ci),令:similaritymax(dt)=maxCi{similarity(dt,Ci)}。若similaritymax(dt)≥MINsim(MINsim表示文档需要满足的最小相似度,系统开始时人为设定,例如为0.6),则将dt分配到子话题Ci,更新Ci的类中心;否则新建一个子话题Ck+1,将dt分配到子话题Ck+1,更新Ck+1的类中心。与传统Single-pass聚类系统(Yang Y.,Pierce T.,andCarbonell J.A Study on Retrospective and On-Line Event Detection[J].InProceedings of the 21st ACM SIGIR.1998)不同的是:本方法中文档特征和每个子话题中心都考虑了时间敏感,因此计算similarity(dt,Ci)得到的结果不同于传统方法的计算结果,因此新的文档容易被聚到新的子话题中。
(4)条件判断。判断增量式聚类的结果中,(i)类的数目是否超过了阈值MAXC(例如MAXC=100);(ii)某个类的相对权重超过是否超过阈值MAXW(例如MAXW=30%);(iii)系统中的各个类是否出现长尾现象,即是否出现了很多小类。当系统在该步骤检测到上述某个条件满足时,执行下个步骤;否则执行(1)。
(5)通过时间权重更新已经离群的信息。时间权重更新分为两个部分:(i)文档权重更新,当文档权重αt低于设定阈值MINW(例如MINW=0.01),即文档的时间距离当前时间很远,已经认为是过时的历史子话题,从系统中删除该文档;(ii)类中心更新,在该类已经更新权重的文档,计算该类的权重以及类中心的表示。并且对长尾现象检测是否属于离群点,即是否属于无意义的子话题。虽然在步骤(1)中已经对文档流进行过滤,但是并不能语义消歧,也无法过滤没有信息含量的文档。例如检测目标话题为“苹果”手机,文档“这个苹果真好吃”即属于无意义子话题。
(6)新子话题发现。对上述处理过的有意义的子话题进行层次聚类。现有的Single-pass聚类算法适合用于在线聚类,并且速度较快,但缺点是无法进行类间的比较,也无法进行类间的合并。随着系统的运行,很可能出现多个相似的类,此时应该对这些类进行合并,得到新的子话题。类合并可以用层次聚类算法实现(计算类间的相似度,然后运行层次聚类算法)。层次聚类算法虽然复杂度较高,但此时系统中的类数目不超过设定的阈值MAXC,并且MAXC可以设定较小的值,因此此处的层次聚类运行速度很快。
(7)摘要生成。对上个步骤发现的新子话题生成摘要,输出展示。生成摘要的方法可以用tf-idf的方式,输出每个类中tf-idf值较大的关键词;也可以通过计算每个句子的tf-idf值(Dragomir R.Radev,Hongyan Jing,Malgorzataand Daniel Tam.Centroid-based summarization of multiple documents.Information Processing andManagement,40:919–938,December 2004.D.Pohl,A.Bouchachia,and H.Hellwagner,“Automatic Sub-Event Detection in Emergency Management Using Social Media”,inIn First Inter.Workshop on Social Web for Disaster Management(SWDM),Inconjunction with WWW’12,Lyon,France,2012.),输出tf-idf较大的句子。后者的优点是理解性较强,但是通常一个句子无法融入所有的关键词。
具体实施过程结合实验阐释如下,例子为“北京房价”,需要备注的是,该处实验为模拟在线检测的过程,实际实验是离线的。
(1)运用网络数据采集技术,对新浪微博进行数据采集,采集关键词为“北京房价”,采集时间限定为2014-03-01到2014-04-30,采集到数据2087条,采集的属性包括:消息ID,用户ID,用户名,屏幕名,会员,认证用户,转发消息ID,消息内容,来源,图片URL,赞数,转发数,评论数,发布地点,发布时间等。并根据每条微博的时间升序排序,存放在数据库中,按照时间先后顺序模拟在线数据流的形式,供后续模块处理。
(2)对数据库中到来的每篇微博,提取出时间和消息内容。对内容调用中文分词工具,计算各个词项的tf-idf后,表示成向量(ft1,ft2,...,ftM);微博提取的时间即为当前时间(模拟在线过程),置
(3)计算微博与当前系统中每个类Ci的相似度similarity(dt,Ci),本实验采用余弦相似度:
并计算出最大similaritymax(dt,Ci)。若similaritymax(dt)≥MINsim=0.6,则将dt分配到子话题Ci,更新Ci的类中心和该类的权重;否则新建一个子话题Ck+1,将dt分配到子话题Ck+1,更新Ck+1的类中心。类中心和类权重的计算公式为:
(4)判断上述聚类结果:(i)类的数目是否超过了阈值MAXC=50;(ii)某个类的相对权重超过是否超过阈值MAXW=50%;(iii)系统中的各个类是否出现长尾现象,最小的80%的类占有的总权重低于20%。满足上述一个以上条件说明系统中的子话题应该进行调整。否则执行步骤(2)。下面步骤对系统中的子话题进行处理。
(5)对每个子话题进行统一预处理。
(i)更新每个类中每篇文档的权重。更新公式为:
其中t为小时。当时,将文档从系统中删除。
(ii)更新每个类中心以及类权重,更新公式如上所述。
(iii)利用现有技术中的垃圾信息检测技术,检测每个类是否属于离群信息。
(6)对上述处理结果进行层次聚类,发现最新子话题。类间的相似度计算公式为:
(7)层次聚类后,计算每个类间每个词的tf-idf,输出前6个值最高的词,如下面表1所示。从数据中可以观测到2014-03-07日,子话题引发的原因是:北京副市长发言“京津冀一体化北京房价肯定要降”,从而引发激烈讨论;2014-03-18日,子话题引发的原因是:李代沫在出租房吸毒被抓,引发大众讨论,连明星都买不起房,可见北京房价有多高;2014-04-29日,子话题引发的原因是:通州炒房,环京旅游,楼市泡沫,并且多位公众人物表态引发的关于房价讨论。
表1系统输出展示
Claims (6)
1.一种时间敏感和自适应的子话题在线检测方法,其特征在于,包括如下步骤:
1)对文档流中的每篇文档进行向量化表示,将文档向量化表示成dt=<αt,(ft1,ft2,...,ftM)>,其中dt为t时刻的文档,αt为时间衰减系数,(ft1,ft2,...,ftM)为文档特征向量,fti表示第i维词项权重,i=1,2,…M,M表示维数;
2)对向量化表示后的文档进行考虑时间的增量式聚类,使得聚类结果具有时效性;若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重,即类权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的类权重;所述随时间衰减的文档权重,是指历史文档的权重随时间衰减,最新的文档具有最高的权重;所述根据随时间衰减的文档权重调整子话题的类权重的方法是:
(i)文档权重更新:当文档权重低于设定的阈值时,即文档的时间距离当前时间很远,是过时的历史子话题,从系统中删除该文档;
(ii)类中心更新:根据已经更新权重的文档,计算类权重及类中心;
类中心的计算公式为:
<mrow>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>t</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>t</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,fti表示第i维词项权重,i=1,2,…M,M表示维数;
类权重的计算公式为:
<mrow>
<msub>
<mi>weight</mi>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,Ci表示类中心,表示类权重,为文档dt的时间衰减系数;
3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;该步骤基于类中心计算类间的相似度并运行层次聚类算法,实现子话题间的合并;
4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。
2.如权利要求1所述的方法,其特征在于:步骤2)通过计算文档与子话题的相似度,判断文档是否属于某个子话题。
3.如权利要求1所述的方法,其特征在于:步骤4)采用tf-idf的方式生成摘要,输出每个类中tf-idf值较大的关键词;或者通过计算每个句子的tf-idf值,输出tf-idf值较大的句子。
4.如权利要求1所述的方法,其特征在于:对原始文档进行过滤,摘取与目标话题相关的文档,并按照时间排序,然后进行所述步骤1)。
5.一种采用权利要求1所述方法的时间敏感和自适应的子话题在线检测系统,其特征在于,包括:
文档表示模块,用于对文档流中的每篇文档进行向量化表示将文档向量化表示成dt=<αt,(ft1,ft2,...,ftM)>,其中dt为t时刻的文档,αt为时间衰减系数,(ft1,ft2,...,ftM)为文档特征向量,fti表示第i维词项权重,i=1,2,…M,M表示维数;
增量式聚类模块,用于对向量化表示后的文档进行增量式聚类,若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重,即类权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的类权重;所述随时间衰减的文档权重,是指历史文档的权重随时间衰减,最新的文档具有最高的权重;所述根据随时间衰减的文档权重调整子话题的类权重的方法是:
(i)文档权重更新:当文档权重低于设定的阈值时,即文档的时间距离当前时间很远,是过时的历史子话题,从系统中删除该文档;
(ii)类中心更新:根据已经更新权重的文档,计算类权重及类中心;
类中心的计算公式为:
<mrow>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>t</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>M</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,fti表示第i维词项权重,i=1,2,…M,M表示维数;
类权重的计算公式为:
<mrow>
<msub>
<mi>weight</mi>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
</msub>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,Ci表示类中心,表示类权重,为文档dt的时间衰减系数;
新子话题发现模块,用于当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;该步骤基于类中心计算类间的相似度并运行层次聚类算法,实现子话题间的合并;
摘要生成模块,用于根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。
6.如权利要求5所述的系统,其特征在于:还包括文档流接口模块,用于对原始文档进行过滤,摘取与目标话题相关的文档,并按照时间排序,然后输入所述文档表示模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510408490.3A CN105488092B (zh) | 2015-07-13 | 2015-07-13 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510408490.3A CN105488092B (zh) | 2015-07-13 | 2015-07-13 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488092A CN105488092A (zh) | 2016-04-13 |
CN105488092B true CN105488092B (zh) | 2018-05-22 |
Family
ID=55675070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510408490.3A Active CN105488092B (zh) | 2015-07-13 | 2015-07-13 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488092B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372208B (zh) * | 2016-09-05 | 2019-07-12 | 东南大学 | 一种基于语句相似度的话题观点聚类方法 |
CN106503064B (zh) * | 2016-09-29 | 2019-07-02 | 中国国防科技信息中心 | 一种自适应微博话题摘要的生成方法 |
CN107515854B (zh) * | 2017-07-27 | 2021-06-04 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
CN108170699B (zh) * | 2017-11-13 | 2020-11-27 | 北京零秒科技有限公司 | 话题检测方法及装置 |
CN107908624A (zh) * | 2017-12-12 | 2018-04-13 | 太原理工大学 | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 |
CN108255978A (zh) * | 2017-12-28 | 2018-07-06 | 曙光信息产业(北京)有限公司 | 新闻稿件话题聚类的方法和系统 |
CN108197259B (zh) * | 2017-12-30 | 2024-03-05 | 天津科技大学 | 一种网络在线话题大数据检测方法 |
CN108446274A (zh) * | 2018-03-15 | 2018-08-24 | 北京科技大学 | 一种基于时间敏感tf-idf的关键词提取方法 |
CN109039673A (zh) * | 2018-08-02 | 2018-12-18 | 北京工业大学 | 一种消息组织方法和服务器 |
CN109242604A (zh) * | 2018-08-15 | 2019-01-18 | 深圳壹账通智能科技有限公司 | 服务推荐方法、电子设备及计算机可读存储介质 |
CN110888978A (zh) * | 2018-09-06 | 2020-03-17 | 北京京东金融科技控股有限公司 | 文章聚类方法、装置、电子设备、存储介质 |
CN109460475A (zh) * | 2018-12-13 | 2019-03-12 | 北京百分点信息科技有限公司 | 一种相似线索的归并方法 |
CN110135493A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题跟踪方法 |
CN111191466B (zh) * | 2019-12-25 | 2022-04-01 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN111309911B (zh) * | 2020-02-17 | 2022-06-14 | 昆明理工大学 | 面向司法领域的案件话题发现方法 |
CN112527960A (zh) * | 2020-12-17 | 2021-03-19 | 华东师范大学 | 基于关键词聚类的突发事件检测方法 |
CN116166897B (zh) * | 2023-02-24 | 2024-08-13 | 北京大学重庆大数据研究院 | 基于ais和ads-b结合的热点数据融合方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715014B (zh) * | 2015-01-26 | 2017-10-10 | 中山大学 | 一种新闻在线话题检测方法 |
-
2015
- 2015-07-13 CN CN201510408490.3A patent/CN105488092B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105488092A (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105488092B (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
US10387559B1 (en) | Template-based identification of user interest | |
US11019107B1 (en) | Systems and methods for identifying violation conditions from electronic communications | |
JP5879260B2 (ja) | マイクロブログメッセージの内容を分析する方法及び装置 | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
Long et al. | Towards effective event detection, tracking and summarization on microblog data | |
US9116983B2 (en) | Social analytics | |
CN104182389B (zh) | 一种基于语义的大数据分析商业智能服务系统 | |
CN102411638B (zh) | 一种新闻检索结果的多媒体摘要生成方法 | |
US9633140B2 (en) | Automated contextual information retrieval based on multi-tiered user modeling and dynamic retrieval strategy | |
CN105005594B (zh) | 异常微博用户识别方法 | |
Nurwidyantoro et al. | Event detection in social media: A survey | |
CN104077377A (zh) | 基于网络文章属性的网络舆情热点发现方法和装置 | |
CA3041844A1 (en) | Systems and methods for event detection and clustering | |
CN111914087A (zh) | 一种舆情分析方法 | |
US20130124646A1 (en) | System and method for extracting, collecting, enriching and ranking of email objects | |
TW201426360A (zh) | 文字串流訊息分析系統和方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN104281608A (zh) | 基于微博的突发事件分析方法 | |
Guo et al. | A survey of Internet public opinion mining | |
Daouadi et al. | Organization vs. Individual: Twitter User Classification. | |
Scharl et al. | Scalable knowledge extraction and visualization for web intelligence | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
Cao et al. | News comments generation via mining microblogs | |
Zhao et al. | A system to manage and mine microblogging data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |