CN103823792B - 从文本文档中检测热点事件的方法和设备 - Google Patents

从文本文档中检测热点事件的方法和设备 Download PDF

Info

Publication number
CN103823792B
CN103823792B CN201410082915.1A CN201410082915A CN103823792B CN 103823792 B CN103823792 B CN 103823792B CN 201410082915 A CN201410082915 A CN 201410082915A CN 103823792 B CN103823792 B CN 103823792B
Authority
CN
China
Prior art keywords
word
focus
bunch
distance
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410082915.1A
Other languages
English (en)
Other versions
CN103823792A (zh
Inventor
杨路军
潘照明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201410082915.1A priority Critical patent/CN103823792B/zh
Publication of CN103823792A publication Critical patent/CN103823792A/zh
Application granted granted Critical
Publication of CN103823792B publication Critical patent/CN103823792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种从文本文档中检测热点事件的方法。该方法包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。本发明的方法可以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题,以及,现有技术中无法根据文档簇直观、明了地确定热点事件的内容的问题。此外,本发明的另一方面提供了一种从文本文档中检测热点事件的设备,例如,服务器上安装的软件。

Description

从文本文档中检测热点事件的方法和设备
技术领域
本发明的实施方式涉及信息技术领域,更具体地,本发明的实施方式涉及从文本文档中检测热点事件的方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
在当今社会,每天都会有大大小小的事件发生。伴随着事件的发生,人们会在微博、论坛或微信等各种社交平台上围绕各类事件进行讨论,并最终形成大量的本文文档。另外,各门户网站所发布的新闻也会形成文本文档。
目前,根据应用需要,迫切需要基于这些文本文档,发现哪些事件是具有较高的社会关注度的事件,即,发现哪些事件是热点事件。
发明内容
但是,本发明人在研究过程中发现,当从文本文档中检测热点事件时,现有技术的方法基本上都是先对文本文档进行预处理;然后提取文本文档的特征,形成文本文档的特征向量;再利用文本文档的特征向量对文本文档进行分组;最后根据各组中包含的文本文档的数量来确定该文档簇中包含的文本文档是否反映热点事件,即,如果数量大于或等于预设阈值,反映的就是热点事件,否则,反映的就不是热点事件。
依照现有技术,在热点事件的检测过程中,需要提取文本文档的特征,形成文本文档的特征向量,再利用文本文档的特征向量对文本文档进行分组。目前在各类社交平台上存在的文本文档多为短篇幅的文本文档(这里,简称为短文本文档),由于篇幅的限制,短文本文档的特征不多,因此,从短文本文档中提取出的特征的区别能力就会不好(或者说,特征不够明显、不够突出),如果提取出的特征的区别能力不好,就会影响后续的分组结果的准确性,导致准确性降低,即,将本不应该归为一组的几个文本文档划分到一个组里,最终会导致检测热点事件的准确性不高。
另外,依照现有技术,最终得到的结果是文本文档的集合。而该文本文档集合中包含的文本文档到底反映了哪一个热点事件,还需要在进一步阅读文本文档的情况下才能确定。对于用户而言,这种确定方式不够直观、明了。
为此,非常需要一种从文本文档中检测热点事件的方法和设备,以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题。
另外,还解决现有技术中在检测到热点事件后,无法根据文档簇直观、明了地确定热点事件的内容的问题。
在本上下文中,本发明的实施方式期望提供一种从文本文档中检测热点事件的方法和设备。
在本发明实施方式的第一方面中,提供了一种从文本文档中检测热点事件的方法,包括:
A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;
B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;
C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。
在本发明实施方式的第二方面中,提供了一种从文本文档中检测热点事件的设备,包括:
分词单元,用于对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;
筛选单元,用于从所述候选词中筛选出词频大于或等于预设的词频阈值,和/或,词频增长率大于或等于预设的增长率阈值的候选词作为热点词;
划分单元,用于将所述热点词分组,将属于同一事件的热点词分到同一个组中。
在本发明实施方式中,从文本文档中的热点词入手,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免现有技术中当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。
另外,在本发明实施方式中,最终得到的结果是热点词的集合。对于用户而言,其只需要阅读几个热点词,即可确定这几个热点词反映了哪一个热点事件。这种确定方式更加直观、明了。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了本发明实施方式可以在其中实施的一个示例性场景;
图2示意性地示出了根据本发明的一个实施方式的从文本文档中检测热点事件的方法的流程图;
图3示意性地示出了根据本发明的一个实施方式的将属于同一事件的热点词分到同一个组中的方法的流程图;
图4示意性地示出了根据本发明的一个实施方式的对热点词进行聚类处理的方法的流程图;
图5示意性地示出了根据本发明的一个实施方式的从文本文档中检测热点事件的设备的结构框架图;
图6示意性地示出了根据本发明的一个实施方式的划分单元的结构框架图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种从文本文档中检测热点事件的方法和设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在基于文本文档检测热点事件时,如果从文本文档入手,即先利用文本文档的特征将相近似的文本文档分到一组,然后根据各组中文本文档的个数确定该组包含的文本文档是否反映热点事件的话,对于短文本文档而言,由于篇幅的限制,导致其包含的特征并不多。换言之,短文本文档的特征并不明显和突出。短文本文档的这个缺陷会影响对短文本文档进行分组的准确性,最终影响检测的准确性。
如果从文本文档中的热点词入手,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免前面所述的当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示意性地示出了本发明的实施方式可以在其中实施的示例性应用场景。其中,一旦在社交平台或门户网站上产生文本文档11,该文本文档11就会存储在社交平台或门户网站的服务器10中。在每一个采样周期(如,采样周期为一天)内,服务器20都会从服务器10中采集在该采样周期内所产生的文本文档110。服务器20从本文文档110中检测出最新的热点事件111(热点事件111为包含多个热点词的集合),然后可以将最新的热点事件111推送给客户端30。服务器20可以是Web服务器,也可以是其他类型的服务器,例如APP服务器。本领域技术人员可以理解,图1所示的示意图仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的应用范围不受到该框架任何方面的限制。例如,服务器20也可以从多个社交平台或门户网站的服务器进行采样,而不是如图1所示的仅从一个社交平台或门户网站的服务器进行采样。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的、用于从文本文档中检测热点事件的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
请参阅图2,其示意性地示出了根据本发明的一个实施方式的从文本文档中检测热点事件的方法的流程图,方法具体例如可以包括:
步骤201:对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词。
需要说明的是,采样周期可以任意设置,例如,可以将一个或几个小时设置为一个采样周期,也可以将一天或几天设置为一个采样周期。显然,采样周期越短,热点事件检测得越频繁,反之,采样周期越长,热点事件检测得越稀疏。
步骤202:从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词。
一个词的词频即为该词在目标文本文档中出现的次数。其中,在本发明的实施方式中,目标文本文档为在当前采样周期所采集的所有文本文档。
在本发明的一个优选实施方式中,一个候选词的词频增长率是指该候选词的词频的平均增长率。由于平均增长率比其他增长率更稳定,因此,当采用平均增长率筛选热点词时,既能及时发现新产生的热点词,又不会丢掉已持续一段时间的热点词。
候选词的词频的平均增长率为该候选词在当前采样周期的词频相对于该候选词在当前采样周期的前N个采样周期的平均词频的增长率。
在不同的应用场景中,N可以取不同的值。例如,在一个应用场景中,N=7。
下面举例说明一下如何确定候选词在当前采样周期的词频以及候选词在当前采样周期的前N个采样周期的平均词频,而为了方便描述,取N=2。在第1个采样周期所采集的文本文档为F1-F5,在第2个采样周期所采集的文本文档为F6-F8,在第3个采样周期所采集的文本文档为F9-F10,第3个采样周期为当前采样周期。候选词A在当前采样周期的前2个采样周期的平均词频为候选词A在F1-F5中出现的次数以及在F6-F8中出现的次数的平均值。候选词A在当前采样周期的词频为候选词A在F9-F10中出现的次数。
在本发明的另一个优选实施方式中,按照如下公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率:
IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。
需要说明的是,为了避免Avg(i)等于0的情况出现,在上述公式的分子和分母中分别进行加1处理,从而实现平滑。
本发明的技术人员可以理解,本发明的上述实施方式也包括如下情形:先从候选词的集合S1中筛选出其词频大于或等于预设词频阈值的候选词,将筛选出的所有候选词放入到候选词集合S2中,然后在候选词集合S2中进一步筛选词频增长率大于或等于预设增长率阈值的候选词作为热点词,将筛选出的所有热点词放入热点词集合H中,以便后续对热点词集合H中的热点词进行处理。
步骤203:将所述热点词分组,将属于同一事件的热点词分到同一个组中。
在一个组中所包含的热点词即为描述一个事件的关键词,而该事件即为热点事件。
与现有技术不同,在步骤203所获得的每一个组中包含的是热点词,而不是文本文档,对于用户而言,其只需要阅读几个热点词,即可确定这几个热点词反映了哪一个热点事件。这种确定方式更加直观、明了。
请参阅图3所示,在本发明的一个优选实施方式中,上述步骤203包括:
步骤2031:构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数。
其中,在不同的应用场景中,M的取值也不同。例如,在一个应用场景中,M=30,即,如果当前采样周期为第31个采样周期,那么热点词的词向量的分量为该热点词分别在第1-30个采样周期的词频。
步骤2032:对所述热点词的词向量进行归一化处理。
在本发明的一个优选实施方式中,通过如下公式对所述热点词的词向量进行归一化处理:
其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。
经过归一化处理后,词向量中的每一个分量都为0到1之间的值。
步骤2033:计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度。
在本发明的一个优选实施方式中,可以计算归一化处理后的每两个热点词的词向量之间的余弦相似度,作为每两个热点之间的相似度。
显然,每两个热点词之间的相似度也为0到1之间的值。
步骤2034:计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离。
也就是说,每两个热点词之间的距离=1-每两个热点词之间的相似度。
步骤2035:基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
请参阅图4所示,在本发明的一个优选实施方式中,上述步骤2035中的聚类处理具体包括:
S1:将一个热点词初始化为一个簇,从而得到与热点词的数目相同的多个簇。
S2:将每两个热点词之间的距离作为每两个簇之间的距离。
S3:通过比较每两个簇之间的距离,确定最小簇间距离值。
S4:判断所述最小簇间距离是否小于预设的距离阈值,如果是,进入S5中,如果否,进入S8。
S5:将导致所述最小簇间距离值的两个簇进行合并。
S6:判断剩下的簇的数目是否大于1,如果是,进入S7,否则,进入S8。
S7:通过公式计算合并后的簇与其它簇中每一个簇之间的距离,返回到S3。
其中,合并后的簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。
S8:将剩下的簇确定为最终结果,结束流程。
通过以上聚类处理后,属于同一事件的热点词会被聚在一个簇中,一个簇就代表了一个热点事件。
根据本发明,从文本文档中的热点词入手检测热点事件,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免现有技术中当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。
另外,在本发明实施方式中,最终得到的结果是热点词的集合。对于用户而言,其只需要阅读几个热点词,即可确定这几个热点词反映了哪一个热点事件。这种确定方式更加直观、明了。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5来描述根据本发明示例性实施方式的、用于从文本文档中检测热点事件的设备。
参考图5,其示意性地示出了根据本发明一个实施方式的从文本文档中检测热点事件的设备的结构框架图,具体地,该设备例如可以包括:
分词单元501,用于对在当前采集周期所采集的文本文档进行分词处理,从而得到候选词;
筛选单元502:用于从所述候选词中筛选出词频大于或等于预设的词频阈值,和/或词频增长率大于或等于预设的增长率阈值的候选词作为热点词;
划分单元503:用于将所述热点词分组,将属于同一事件的热点词分到同一个组中。
在本发明的一个优选实施方式中,所述候选词的词频增长率为所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率。
在本发明的另一个优选实施方式中,筛选单元502按照公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率,其中,IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。
请参阅图6所示,在本发明的另一个优选实施方式中,划分单元503包括:
词向量构建子单元5031,用于构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;
归一化处理子单元5032,用于对所述热点词的词向量进行归一化处理;
词间相似度计算子单元5033,用于计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;
词间距离计算子单元5034,用于计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;
聚类子单元5035,用于基于每两个热点词之间的距离,对所述热点进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
在本发明的另一个优选实施方式中,归一化处理子单元5032按照公式对所述热点词的词向量进行归一化处理;其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。
在本发明的另一个优选实施方式中,所述词间相似度计算子单元具体用于,计算归一化处理后的每两个热点词的词向量之间的余弦相似度,作为每两个热点词之间的相似度。
在本发明的另一个优选实施方式中,聚类子单元5035具体用于,将一个热点词初始化为一个簇,从而得到与热点词数目相对应的多个簇;将每两个热点词之间的距离作为每两个簇之间的距离;通过比较每两个簇之间的距离,确定最小簇间距离值;判断所述最小簇间距离值是否小于预设的距离阈值,如果所述最小簇间距离值小于预设的距离阈值,将导致所述最小簇间距离值的两个簇进行合并,在剩下的簇的数目多于一个的情况下,通过公式计算合并后的簇与其它簇中每一个簇之间的距离,并返回到所述通过比较每两个簇之间的距离,确定最小簇间距离值的步骤,如果所述最小簇间距离值大于或等于预设的距离阈值,或者在最后只剩下一个簇的情况下,则将剩下的簇确定为最终结果;
其中,簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。
根据本发明,从文本文档中的热点词入手检测热点事件,即先从各个文本文档中提取出热点词,然后将相近似的热点词分到一组(各组包含的热点词即为属于一个热点事件的热点词)的话,就可以避免现有技术中的当基于短文本文档检测热点事件时所产生的检测准确性不高的问题。
另外,在本发明实施方式中,最终得到的结果是热点词的集合。对于用户而言,其只需要阅读几个热点词,即可确定这几个热点词反映了哪一个热点事件。这种确定方式更加直观、明了。
应当注意,尽管在上文详细描述中提及了从文本文档中检测热点事件的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (12)

1.一种从文本文档中检测热点事件的方法,包括:
A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;
B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;
C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;
其中,所述步骤C)包括:
C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;
C2)、对所述热点词的词向量进行归一化处理;
C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;
C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;
C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
2.根据权利要求1所述的方法,其中,在所述步骤B)中,所述候选词的词频增长率为所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率。
3.根据权利要求2所述的方法,其中,按照如下公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率:
IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。
4.根据权利要求1所述的方法,其中,通过如下公式对所述热点词的词向量进行归一化处理:
其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。
5.根据权利要求1所述的方法,其中,计算归一化处理后的每两个热点词的词向量之间的余弦相似度,作为每两个热点词之间的相似度。
6.根据权利要求1所述的方法,其中,步骤C5)包括:
C51)、将一个热点词初始化为一个簇,从而得到与热点词的数目相同的多个簇;
C52)、将每两个热点词之间的距离作为每两个簇之间的距离;
C53)、通过比较每两个簇之间的距离,确定最小簇间距离值;
C54)、判断所述最小簇间距离值是否小于预设的距离阈值,如果所述最小簇间距离值小于预设的距离阈值,将导致所述最小簇间距离值的两个簇进行合并,在剩下的簇的数目多于一个的情况下,通过公式计算合并后的簇与其它簇中每一个簇之间的距离,并返回步骤C53),如果所述最小簇间距离值大于或等于预设的距离阈值,或者在最后只剩下一个簇的情况下,则将剩下的簇确定为最终结果;
其中,簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。
7.一种从文本文档中检测热点事件的设备,包括:
分词单元,用于对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;
筛选单元,用于从所述候选词中筛选出词频大于或等于预设的词频阈值,和/或,词频增长率大于或等于预设的增长率阈值的候选词作为热点词;
划分单元,用于将所述热点词分组,将属于同一事件的热点词分到同一个组中;
其中,所述划分单元包括:
词向量构建子单元,用于构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;
归一化处理子单元,用于对所述热点词的词向量进行归一化处理;
词间相似度计算子单元,用于计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;
词间距离计算子单元,用于计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;
聚类子单元,用于基于每两个热点词之间的距离,对所述热点进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
8.根据权利要求7所述的设备,其中,所述候选词的词频增长率为所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率。
9.根据权利要求8所述的设备,其中,所述筛选单元按照公式计算所述候选词在当前采样周期的词频相对于所述候选词在当前采样周期的前N个采样周期的平均词频的增长率;其中,IncrRate(i)为候选词i在当前采样周期的词频相对于候选词i在当前采样周期的前N个采样周期的平均词频的增长率,Occ(i)为候选词i在当前采样周期的词频,Avg(i)为候选词i在当前采样周期的前N个采样周期的平均词频。
10.根据权利要求7所述的设备,其中,所述归一化处理子单元按照公式对所述热点词的词向量进行归一化处理;其中,归一化值(j)为所述热点词的词向量中第j个分量的归一化值,分量值(j)为所述热点词的词向量中第j个分量的值,MaxValue为在所有热点词的词向量的第j个分量中出现的最大值,MinValue为在所有热点词的词向量的第j个分量中出现的最小值。
11.根据权利要求7所述的设备,其中,所述词间相似度计算子单元具体用于,计算归一化处理后的每两个热点词的词向量之间的余弦相似度,并作为每两个热点词之间的相似度。
12.根据权利要求7所述的设备,其中,所述聚类子单元具体用于,将一个热点词初始化为一个簇,从而得到与热点词数目相对应的多个簇;将每两个热点词之间的距离作为每两个簇之间的距离;通过比较每两个簇之间的距离,确定最小簇间距离值;判断所述最小簇间距离值是否小于预设的距离阈值,如果所述最小簇间距离值小于预设的距离阈值,将导致所述最小簇间距离值的两个簇进行合并,在剩下的簇的数目多于一个的情况下,通过公式计算合并后的簇与其它簇中每一个簇之间的距离,并返回到所述通过比较每两个簇之间的距离,确定最小簇间距离值的步骤,如果所述最小簇间距离值大于或等于预设的距离阈值,或者在最后只剩下一个簇的情况下,则将剩下的簇确定为最终结果;
其中,簇I由簇K和L合并而成,DIJ为合并后的簇I与簇J之间的距离,DKJ为簇K与簇J之间的距离,DLJ为簇L与簇J之间的距离,nK为簇K中包含的热点词的个数,nL为簇L中包含的热点词的个数,nI为簇I中包含的热点词的个数。
CN201410082915.1A 2014-03-07 2014-03-07 从文本文档中检测热点事件的方法和设备 Active CN103823792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410082915.1A CN103823792B (zh) 2014-03-07 2014-03-07 从文本文档中检测热点事件的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410082915.1A CN103823792B (zh) 2014-03-07 2014-03-07 从文本文档中检测热点事件的方法和设备

Publications (2)

Publication Number Publication Date
CN103823792A CN103823792A (zh) 2014-05-28
CN103823792B true CN103823792B (zh) 2017-01-11

Family

ID=50758865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410082915.1A Active CN103823792B (zh) 2014-03-07 2014-03-07 从文本文档中检测热点事件的方法和设备

Country Status (1)

Country Link
CN (1) CN103823792B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111999B (zh) * 2014-07-02 2017-12-12 南京烽火星空通信发展有限公司 一种搜索引擎热点词分析算法
CN106484672A (zh) * 2015-08-27 2017-03-08 北大方正集团有限公司 词汇识别方法和词汇识别系统
CN108170692B (zh) * 2016-12-07 2021-08-24 腾讯科技(深圳)有限公司 一种热点事件信息处理方法和装置
CN110019771B (zh) * 2017-07-28 2021-08-13 北京国双科技有限公司 文本处理的方法及装置
CN110020052A (zh) * 2017-12-15 2019-07-16 联易软件有限公司 食品药品数据处理方法及装置
CN108228563A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种用户评论分析方法和装置
CN112395480B (zh) * 2019-08-01 2024-03-01 北京中润普达信息技术有限公司 一种基于搜索行为的网络热点话题判定方法和系统
CN111324801B (zh) * 2020-02-17 2022-06-21 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN114492402A (zh) * 2021-12-28 2022-05-13 北京航天智造科技发展有限公司 一种科技新词识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101645066A (zh) * 2008-08-05 2010-02-10 北京大学 一种互联网新颖词监测方法
CN101661513A (zh) * 2009-10-21 2010-03-03 上海交通大学 网络热点和舆情的检测方法
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101645066A (zh) * 2008-08-05 2010-02-10 北京大学 一种互联网新颖词监测方法
CN101661513A (zh) * 2009-10-21 2010-03-03 上海交通大学 网络热点和舆情的检测方法
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Finding Bursty Topics from Microblogs》;Qiming Diao et al;《Proceeding of the 50th Annual Meeting of the Asociation for Computational Linguistics》;20120708;536-544 *
《中文微博突发事件检测研究》;王勇等;《现代图书情报技术》;20130225(第2期);57-62 *

Also Published As

Publication number Publication date
CN103823792A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823792B (zh) 从文本文档中检测热点事件的方法和设备
CN104881496B (zh) 一种文件名称识别及文件清理方法及装置
CN107341220B (zh) 一种多源数据融合方法和装置
CN104080054B (zh) 一种异常兴趣点的获取方法及装置
CN111722984B (zh) 告警数据处理方法、装置、设备及计算机存储介质
CN108073815B (zh) 基于代码切片的家族判定方法、系统及存储介质
CN105809035A (zh) 基于安卓应用实时行为的恶意软件检测方法和系统
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN109460386A (zh) 基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置
CN104881495B (zh) 一种文件夹路径识别及文件夹清理方法及装置
CN105700897B (zh) 一种启动应用程序的方法、装置及终端设备
CN106209431A (zh) 一种告警关联方法及网管系统
CN103838754A (zh) 信息搜索装置及方法
CN106649221A (zh) 重复文本的检测方法及装置
CN105930513A (zh) 一种浏览器历史记录排序方法及装置
CN105162822A (zh) 一种网站日志数据处理方法及装置
CN106202126B (zh) 一种用于物流监控的数据分析方法和装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN106599215A (zh) 一种基于深度学习的问句生成方法和问句生成系统
CN108647312A (zh) 一种用户偏好分析方法及其装置
CN103853771B (zh) 一种搜索结果的推送方法及系统
Zhao et al. Sportsense: Real-time detection of NFL game events from Twitter
US20160239264A1 (en) Re-streaming time series data for historical data analysis
CN104008098A (zh) 基于多义性关键词的文本过滤方法及装置
CN112632549B (zh) 一种基于语境分析的Web攻击检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant