CN103218368A - 一种挖掘热词的方法与装置 - Google Patents
一种挖掘热词的方法与装置 Download PDFInfo
- Publication number
- CN103218368A CN103218368A CN2012100187875A CN201210018787A CN103218368A CN 103218368 A CN103218368 A CN 103218368A CN 2012100187875 A CN2012100187875 A CN 2012100187875A CN 201210018787 A CN201210018787 A CN 201210018787A CN 103218368 A CN103218368 A CN 103218368A
- Authority
- CN
- China
- Prior art keywords
- document
- hot
- class
- preset
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001914 filtration Methods 0.000 claims abstract description 58
- 230000005484 gravity Effects 0.000 claims description 65
- 239000013598 vector Substances 0.000 claims description 44
- 238000005065 mining Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种挖掘热词的方法及装置。该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。应用本发明,可以降低聚类复杂度、提高社交网络热点挖掘的效率。
Description
技术领域
本发明涉及计算机聚类技术,特别涉及一种挖掘热词的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在社交网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。而如何让用户有效地从网络社区中找到有价值的信息,成为信息领域一个重要的研究课题。
目前,在社区中海量的各领域的网络信息中,采用基于文档进行热词挖掘的方法,利用空间向量模型(VSM,Vector Space Model)将网络中的文档表示为由词语组成的特征向量,每一维特征向量值对应词语的相关信息,可以是二值、词语在文档出现次数的词频(TF,Term Frequency)、词频反文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)等。例如,在二值中,可以用0表示词语在相关文档出现,用1表示词语未出现在该相关文档,在TF-IDF中,利用词语在该文档中出现的次数以及该词语在历史文档中出现的次数作为特征向量值的相关信息。这样,通过将文档表示为由词语组成的特征向量后,对文档进行聚类,过滤特征向量中的一些词语,从而挖掘出文档中有价值的词语的信息,并选取一些过滤的到的词语作为热词推荐给用户,从而增加用户的业务体验。但该方法以文档中包含的词语表示文档,采用TF-IDF等方法进行聚类,对于用户比较关注的突发性热点事件,由于该突发性热点事件只与较短的时间信息相关,其词语在历史文档中几乎没有出现,因而,在聚类过程中,容易被过滤掉,使得推荐给用户的热词不能反映热点事件,价值较低;进一步地,由词语组成的特征向量中,维度为非0值较多,且包含了大量与热点事件无关的词语,增加了聚类处理的复杂度,无法满足社交网络的实时性要求。
为了有效降低以静态表示文档导致的缺少与热点事件紧密相关的时间信息,现有技术提出了一种改进的基于文档挖掘热词的方法,即考虑热点事件中词语的动态文档表示方法:技术人员浏览文档,当文档中的某个词语在文档所处时间段为与事件紧密相关的时间段时,基于该文档在原有TF-IDF基础上,增加该词语在文档特征向量中的权重,这样,可以提高该词语在聚类结果中的优先性,从而增大作为热词输出并推荐给用户的概率,以克服文档静态表示的缺陷。
由上述可见,现有改进的基于文档挖掘热词的方法,虽然能够有效降低以静态表示文档导致的缺少与事件紧密相关的时间信息,但在进行聚类的词语中,还是包含了大量与热点事件无关的词语,增加了聚类复杂度;进一步地,需要人工识别文档中热点事件包含的词语,且采用现有TF-IDF等聚类方法,而热点事件一般具有突发性、持续时间短等特点,使得考虑词语历史信息的聚类方法,虽然增加了热点事件包含的词语在文档特征向量中的权重,但其聚类结果还是较容易过滤实时性热点事件中包含的词语,热点挖掘效率较低,还是无法满足社交网络挖掘的实时性要求。
发明内容
有鉴于此,本发明的主要目的在于提出一种挖掘热词的方法,降低聚类复杂度、提高社交网络热点挖掘的效率。
本发明的另一目的在于提出一种挖掘热词的装置,降低聚类复杂度、提高社交网络热点挖掘的效率。
为达到上述目的,本发明提供了一种挖掘热词的方法,该方法包括:
预先设置热词库并对热词库中的各热词设置相应的热词权重;
根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
将用热词库中热词进行表示的文档聚类为预设数目的文档类;
对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
对过滤后的文档类按照预先设置的热词选取策略进行热词选取。
所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积;
所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括:
将用热词库中热词进行表示的文档设置为一个文档类;
采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大;
计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂;
确认分裂得到的所有文档类数目达到预设数目。
在得到预设数目的文档类后,进一步包括:
对预设数目的文档类中的相似文档类进行合并处理;
所述对预设数目的文档类中的相似文档类进行合并处理包括:
计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心;
根据两个文档类的重心计算该两文档之间的欧氏距离;
将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。
所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:
获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。
所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:
计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。
所述计算文档间相似度包括:
获取文档类内任意两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
所述计算文档间相似度包括:
对文档类内文档按字符串长度进行排序;
获取文档类内相邻两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
进一步包括:
统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。
所述按照预先设置的热词选取策略进行热词选取包括:
统计每一文档类内各热词的词频以及每一文档类的文档数;
如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。
所述按照预先设置的热词选取策略进行热词选取包括:
统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数;
如果文档类内热词的词频与该热词出现在各文档类内文档的文档数的比值超过预先设置的文档类间热词阈值,选取该热词。
在所述选取该热词后,进一步包括:
计算最接近文档类重心的文档;
匹配选取的热词以及最接近文档类重心的文档中的热词,获取匹配的热词。
进一步包括:
确定匹配的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;
根据统计的候选表意词词频过滤候选表意词;
计算最接近文档类重心的文档;
匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中。
进一步包括:
按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
进一步包括:
将选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词。
用热词库中热词进行表示的文档的特征向量由文档中与热词库匹配成功的热词的特征向量值组成;
所述获取热词的特征向量值包括:
统计热词在文档中的词频;
获取热词词频的对数值与数值1相加的和;
获取预先设置的热词权重的对数值与所述和的乘积,作为该热词的特征向量值。
一种挖掘热词的装置,该装置包括:文档表示模块、文档聚类模块、文档类过滤模块以及文档类热词选取模块,其中,
文档表示模块,用于预先设置热词库并对热词库中的各热词设置相应的热词权重,根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
文档聚类模块,用于将用热词库中热词进行表示的文档聚类为预设数目的文档类;
文档类过滤模块,用于对文档聚类模块输出的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
文档类热词选取模块,用于对文档类过滤模块输出的过滤后的文档类按照预先设置的热词选取策略进行热词选取,并将选取的热词输出。
所述文档聚类模块进一步用于对预设数目的文档类中的相似文档类进行合并处理;
所述文档类过滤模块进一步用于获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。
所述文档类过滤模块进一步用于计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。
所述文档类热词选取模块进一步用于确定文档类选取的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;根据统计的候选表意词词频过滤候选表意词;计算最接近文档类重心的文档;匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中;按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
进一步包括:
文档类去重模块,用于将文档类热词选取模块选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词,并将过滤后的热词输出。
由上述的技术方案可见,本发明实施例提供的一种挖掘热词的方法及装置,预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。这样,以与热点事件相关的热词表示文档,有效降低了后续进行聚类的复杂度;运用文档聚类的方式,将同一热点事件下的热词进行聚合以及过滤,按照预先设置的热词选取策略进行热词选取,减少了后续热词选取所需的时间,可以满足社交网络挖掘的实时性要求,并提高社交网络热点挖掘的效率。
附图说明
图1为本发明实施例挖掘热词的装置结构示意图。
图2为本发明实施例挖掘热词的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
热词是一段时间内对社会热点事件的重要提示信息,因而,本发明实施例中,通过预先设置热词库并对热词库中的各热词设置相应的热词权重,并对热词库进行动态维护,将文档用热词库中热词进行表示,然后基于本发明实施例的挖掘热词方法,对文档进行聚类形成文档类,在文档类中对聚类的社交网络某个时间段内描述同一热点事件的热词进行聚合过滤,最后将经聚合过滤的热词进行展示,从而可以实时挖掘出社交网络上的热门话题和热点事件。
图1为本发明实施例挖掘热词的装置结构示意图。参见图1,该装置用于实时社交网络热词聚类、聚类展示以及热点事件挖掘,包括:文档表示模块101、文档聚类模块102、文档类过滤模块103以及文档类热词选取模块104,其中,
文档表示模块101,用于预先设置热词库并对热词库中的各热词设置相应的热词权重,根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
本发明实施例中,考虑到挖掘社交网络上文档的实时需求,其热门话题和热点事件中包含的词语对热点挖掘贡献较大,因而,预先从热门话题和热点事件中提取出热词,构建热词库,并对热词库进行动态维护。进一步地,考虑到每个热词对热点挖掘的贡献并不是均衡的,在构建的热词库中,还可以为各热词设置相应的热词权重,当然,也可以对各热词设置统一的热词权重。关于构建热词库的详细过程,由于不属于本发明的讨论范畴,在此不再赘述。
用预先获取的热词库中的热词表示文档,即文档向量特征只用热词的相关信息(词频以及热词权重)表示,而不是采用文档中包含的全部词语的相关信息(词频以及反文档频率)进行表示,这样,可以将文档非0维度减小,同时,将与热词无关的文档进行过滤,降低后续聚类处理的复杂度,提高了后续处理的效率,使得过滤后较少的文档数量可满足社交网络事件挖掘的实时性要求。
如前所述,由于文档只采用热词表示,而热词的IDF值较小,因此传统的TF-IDF方法并不适用表示文档,本发明实施例采用TF与预设的热词权重相结合,提出了基于热词权重的文档表示公式:
di=[di1,...dij,...din]
dij=(1+logTFij)×logWjbw
其中,
di为文档i的特征向量,该文档特征向量由文档i中与热词库匹配成功的热词的特征向量值组成;
n为文档i的特征向量个数,即文档i包含的热词个数;
dij为文档特征向量di中第j维特征向量的特征向量值,即第j个热词的特征向量值,1≤j≤n;
Wjbw为热词Wj的权重,为热词库中预先设置的一个与当前文档无关的词汇重要性评判指标;
TFij为热词Wj在文档i中的词频。
文档聚类模块102,用于将用热词库中热词进行表示的文档聚类为预设数目的文档类;
本发明实施例中,由于文档较多,包含于各种文档类中,一个文档类包含一个或多个文档。对于不同的文档类,用户的实时性需求可能不同,为满足各类热点事件挖掘的实时性要求,可以对文档进行聚类以使后续展示的热词与分类的文档更贴近。
较佳地,根据统计分析以及经验,预设的文档类数目为以匹配的热词表示的文档总数的平方根与预设的文档类系数的乘积,即:
其中,
A为文档类数目;
α为文档类系数,较佳地,α=2~3;
N为以匹配的热词表示的文档总数。
当然,实际应用中,也可以根据其他方法确定预设的文档类数目。
本发明实施例中,采用自顶向下二分的方式进行聚类,当聚类的文档类数目达到后停止。具体过程如下:初始将所有文档处于一个聚类中,然后对该聚类进行分裂,分裂方式采用贪心算法,使得当前分裂后生成的两个文档类的平均距离最大,再选择下一个待分裂的文档类,通过贪心算法进行再分裂,直至进行次分裂,得到个文档类停止,再次选择的过程如下:计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂。关于贪心算法、平均距离、类内距离以及类间距离的详细描述,具体可参见相关技术文献,在此不再赘述。
经过上述聚类处理得到的文档类,可能存在多个文档类中的热词或文档描述同一热点事件的情形,造成最终输出或展示给用户的热词冗余。因而,进一步地,
文档聚类模块102,还用于对预设数目的文档类中的相似文档类进行合并处理;
本发明实施例中,文档聚类模块102用于在上述粗聚类的基础上再进行聚类,为了提高热点挖掘效率,本发明实施例采用文档类重心计算文档类间相似度,作为相似文档类的判断标准,文档类间相似度是指两个文档类之间的相似度,当两个文档类的文档类间相似度超过预设的类间相似度阈值β,表明两个文档类中的热词可能描述同一热点事件,则合并两个文档类,从而将描述同一个热点事件的文档类合并以形成新的文档类,并重新计算合并后的文档类重心,直到文档类无法再合并。
文档类间相似度的计算公式为:
Gk,h=1/dist(Ck,Ch)
式中,
Gk,h为文档类k与文档类h之间的文档类间相似度;
Ck,Ch分别为文档类k与文档类h的重心,为相应文档类内所有文档的特征向量值的平均值;
dist(Ck,Ch)为文档类k与文档类h之间的欧氏距离。
其中,
式中,
K为文档类k内包含的文档数;
文档类过滤模块103,用于对文档聚类模块102输出的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
本发明实施例中,当文档聚为文档类后,计算文档类重心值,即前述的文档类内所有文档的特征向量值的平均值,例如,Ck,Ch。如果计算得到的文档类重心值小于预先设置的重心阈值,表明该文档类与热点事件相关性较小,则将该文档类过滤掉。
进一步地,对于过滤得到的文档类,还可以作进一步处理,去掉一些低质量的文档类,例如广告推广等,可以采用如下两种过滤方法中的其中一种或两种结合进行再过滤。
文档类过滤模块103,进一步用于获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤;
本发明实施例的第一种过滤方法中,当文档类容量过大时,则认为该文档类在后续进行热词选取时,需要耗费大量的计算资源,导致处理速度较慢,不能满足实时性要求,文档类容量过大是指一个文档类内的文档数(该文档类包含的文档数)超过预先设置的最大文档数阈值;当文档类容量过小时,该文档类不能满足样本性要求,使得经过聚类得到的聚类结果质量较低,文档类容量过小是指一个文档类内的文档数小于预先设置的最小文档数阈值,需要舍弃这两种文档类。
文档类过滤模块103,进一步用于计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤;
本发明实施例的第二种过滤方法中,主要针对文档类内的文档相似的情况,可以认为,该文档类内的文档可能是由机器模板生成,而不是用户主动输入的,使得文档的质量较低,应当过滤掉。因此需要通过计算该文档类内文档间相似度来进行识别、筛除。
由于文档类内的文档以各热词的特征向量进行表示,因而,本发明实施例中,可以用向量余弦值作为文档间相似度,向量余弦值是指两文档特征向量夹角的余弦值,例如,对于两个文档m、n,其文档特征向量分别为dm和dn,则其向量余弦值为cos(dm,dn),如果两文档的特征向量夹角愈小,表明文档相似度愈大,如果计算得到的两文档间的向量余弦值超过阈值,则过滤该两文档。
实际应用中,为了提高文档间相似度的计算精度,还可以考虑采用两文档具有的公共字符串作为计算文档间相似度的标准,计算公式如下:
式中,
ξ为文档间相似度;
d1、d2为文档类内文档;
LCS()为文档类内两文档中,具有的最长公共字符串的长度;
max()为文档类内两文档中,具有较多字符串的文档所包含的字符串长度;
γ为文档相似度阈值。
关于计算以及获取LCS()以及max(),具体可参见相关技术文献,在此不再赘述。
当一个文档类内的两个文档的最长公共字串占原串长度超过文档相似度阈值γ时,认为d1、d2为一个相似文档对,如果计算得到的文档间相似度大于文档相似度阈值,则直接删除该文档类内文档。
进一步地,当相似文档对的数量超过预先设置的相似文档对数量阈值时,认为该文档类内的文档过于相似,还可以将该文档类过滤。
实际应用中,由于一个文档类内的文档数量可能很多,使得两两计算文档最长公共字串复杂度为O(n*n*k*k),其中,n为文档类内文档数量,k为文档平均字符串长度,不能满足社交网络的实时性要求,本发明实施例中,还可以对计算文档最长公共字串复杂度进行简化,先对文档类内文档按长度进行排序,而后只对相邻文档进行文档间相似度计算,这样,复杂度可以降为O(nlogn+n*k*k)。
文档类热词选取模块104,用于对文档类过滤模块103输出的过滤后的文档类按照预先设置的热词选取策略进行热词选取,并将选取的热词输出。
本发明实施例中,文档类热词选取可以帮助用户较快快理解文档类的大致内容。
较佳地,该装置进一步包括:
文档类去重模块105,用于将文档类热词选取模块104选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词,并将过滤后的热词输出。
由上述可见,本发明实施例的挖掘热词的装置,文档表示模块以预先获取的热词库匹配文档,根据热词在文档中的词频以及热词库中设置的热词权重构建以匹配的热词表示的文档,以与热点事件相关的热词表示文档,有效降低了后续进行聚类的复杂度,为不同的热词分别设置热词权重,更能反映各热词在热点事件中的贡献;文档聚类模块将以热词表示的文档聚类为预设数目的文档类,文档类过滤模块对文档类进行重心排序,过滤文档类重心值小于预先设置的重心阈值的文档类,这样,运用文档聚类的方式,对热词进行聚类,将同一热点事件下的热词进行聚合,并对质量较低的文档类进行过滤,减少了后续热词选取所需的时间,满足社交网络挖掘的实时性要求,提高了社交网络热点挖掘的效率;文档类热词选取模块对过滤的文档类按照预先设置的热词选取策略进行热词选取,并将选取的热词输出,从而使展示的热词更能反映热点事件,有效提升了用户的业务体验;进一步地,在必要时加入辅助的表意词,可以提高展示的热词的可理解性。
图2为本发明实施例挖掘热词的方法流程示意图。参见图2,该流程包括:
步骤201,预先设置热词库并对热词库中的各热词设置相应的热词权重,根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
本步骤中,用热词库中热词进行表示的文档的特征向量由文档中与热词库匹配成功的热词的特征向量值组成。
获取热词的特征向量值的步骤包括:
统计热词在文档中的词频;
获取热词词频的对数值与数值1相加的和;
获取预先设置的热词权重的对数值与所述和的乘积,作为该热词的特征向量值。
步骤202,将用热词库中热词进行表示的文档聚类为预设数目的文档类;
本步骤中,预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积。
将用热词库中热词进行表示的文档聚类为预设数目的文档类包括:
将用热词库中热词进行表示的文档设置为一个文档类;
采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大;
计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂;
确认分裂得到的所有文档类数目达到预设数目。
本发明实施例中,在得到预设数目的文档类后,进一步包括:
对预设数目的文档类中的相似文档类进行合并处理。
该步骤具体包括:
计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心;
根据两个文档类的重心计算该两文档之间的欧氏距离;
将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。
步骤203,对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
本步骤中,如果计算得到的文档类重心值小于预先设置的重心阈值,表明该文档类与热点事件相关性较小,则将该文档类过滤掉。
较佳地,在对文档类进行过滤后,进一步包括:
获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。或者,
计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。
本步骤中,计算文档间相似度包括:
获取文档类内任意两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
当然,计算文档间相似度也可以包括:
对文档类内文档按字符串长度进行排序;
获取文档类内相邻两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
实际应用中,对于计算文档间相似度的情形,还可以进一步包括:
统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。
步骤204,对过滤的文档类按照预先设置的热词选取策略进行热词选取,并将选取的热词输出。
本步骤中,按照预先设置的热词选取策略进行热词选取可以是:
A11,统计每一文档类内各热词的词频以及每一文档类的文档数;
本步骤中,统计每一文档类内各热词在所属文档类出现的词频,即计算该热词在文档类内各文档的DF值的总和;以及,每一文档类所包含的文档数。
A12,如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。
本步骤中,选取热词的公式如下:
式中,
r为文档类内热词的词频;
d为该文档类的文档数;
λ为该文档类热词阈值。
文档类热词阈值可以适用于所有文档类,当然,实际应用中,也可以针对不同的文档类,分别进行设置。该选取热词的公式要求选取的热词在文档类出现次数较多,以确保选取的热词是该文档类内的核心词。
实际应用中,按照预先设置的热词选取策略进行热词选取还可以是:
A′11,统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数;
A′12,如果文档类内热词的词频与该热词出现在各文档类内文档的文档数的比值超过预先设置的文档类间热词阈值,选取该热词。
本步骤中,选取热词的公式考虑该热词在各文档类出现的情况,其公式如下:
式中,
R为该热词出现在各文档类内文档的文档数;
ω为文档类间热词阈值。
该公式建立在如下假设上:某时间段的热词是由于少量事件所引起。因此,要求文档类内热词的词频,与各文档类的总文档中出现该热词的文档数的比值超过阈值ω。
较佳地,在选取该热词后,还可以对选取的热词作进一步处理,即执行步骤A13~A14后才输出展示给用户。
A13,计算最接近文档类重心的文档;
本步骤中,文档类重心的计算如前所述,计算出文档类重心之后,计算文档类内每一篇文档到文档类重心的距离,将距离最短的文档作为中心文档。
A14,匹配选取的热词以及最接近文档类重心的文档中的热词,获取匹配的热词。
本步骤中,将既在选取的热词中出现又在中心文档中出现的热词作为匹配的热词。
较佳地,在输出进行展示时,按照最接近文档类重心的文档中的热词顺序展示该匹配的热词。
本发明实施例中,经过上述聚类处理展示的热词,数量可能较少,或者热词表意不明确时,可以进一步放宽热词的选取条件,或选取文档类内出现频次较多的非热词的表意词加入文档类已选取的待输出热词集中,即进行表意词扩展。其中,本发明实施例所述的表意词逻辑上定义为能够体现文档类描述热点事件的词语,例如,在应用中定义为:人名、地名、机构团体名、专有名词、习惯用语等表意性较强的词。
选取表意词步骤如下:
B11,确定文档类选取的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;
本步骤中,当一个文档类已选取的热词数量较小,或者文档类中表意词数量不足时,则对该文档类进行普通表意词选取,选取的方法可以通过与预先设置的表意词词库进行匹配得到,其中,表意词词库中不包括热词词库中的热词。
B12,根据统计的候选表意词词频过滤候选表意词;
本步骤中,对获取的候选表意词,在该文档类内进行词频统计,如果候选表意词词频低于预先设置的表意词词频阈值,将该候选表意词进行过滤,否则,执行步骤B13。
B13,计算最接近文档类重心的文档;
本步骤的计算方法与步骤A13相同。
B14,匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中;
本步骤中,如果最接近文档类重心的文档中没有与候选表意词相匹配的表意词,则表明该文档类内的文档并非描述某个热点事件,只是通过某些热词而聚合,本发明实施例中,将这种文档类舍弃。
B15,按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
本步骤中,调整放入已选取的热词中各词语的顺序,使其与在中心文档中出现的顺序一致,以增加展示的词的可理解性。
较佳地,在将选取的热词输出的步骤之前,进一步包括:
确定文档类选取的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;
根据统计的候选表意词词频过滤候选表意词;
计算最接近文档类重心的文档;
匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中;
按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
较佳地,在将选取的热词输出的步骤之前,还进一步包括:
将选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词。
本发明实施例中,由于不同的文档类内的热词存在描述同一热点事件的可能,为了避免重复展示热词,因此需要去除重复的文档类。具体如下:
C11,对选取的各文档类的热词进行细粒度分词;
本步骤中,举例来说,如果热词为谢霆锋,则进行细粒度分词后,切分为:谢、霆锋,如果热词为北京市,则进行细粒度分词后,切分为:北京、市。
C12,对进行细粒度分词后的热词过滤,获取各文档类的切分结果;
本步骤中,过滤长度为1的词,例如,谢、市,获取各文档类的切分结果。例如,对文档类i、j内的热词进行细粒度分词,分别得到细粒度切分结果Si、Sj。
C13,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词,并将过滤后的热词输出。
本步骤中,切分条件公式如下:
式中,
Si为文档类i的切分结果;
Sj为文档类j的切分结果;
θ为切分阈值。
若文档类i、j满足上述公式,则认为文档类i与文档类j内的热词描述同一热点事件,删除文档类重心较低的文档类。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.一种挖掘热词的方法,其特征在于,该方法包括:
预先设置热词库并对热词库中的各热词设置相应的热词权重;
根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
将用热词库中热词进行表示的文档聚类为预设数目的文档类;
对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
对过滤后的文档类按照预先设置的热词选取策略进行热词选取。
2.如权利要求1所述的方法,其特征在于,所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积;
所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括:
将用热词库中热词进行表示的文档设置为一个文档类;
采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大;
计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂;
确认分裂得到的所有文档类数目达到预设数目。
3.如权利要求2所述的方法,其特征在于,在得到预设数目的文档类后,进一步包括:
对预设数目的文档类中的相似文档类进行合并处理;
所述对预设数目的文档类中的相似文档类进行合并处理包括:
计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心;
根据两个文档类的重心计算该两文档之间的欧氏距离;
将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。
4.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:
获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。
5.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:
计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。
6.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括:
获取文档类内任意两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
7.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括:
对文档类内文档按字符串长度进行排序;
获取文档类内相邻两文档中,具有的最长公共字符串的长度;
获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;
计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。
8.如权利要求7所述的方法,其特征在于,进一步包括:
统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。
9.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括:
统计每一文档类内各热词的词频以及每一文档类的文档数;
如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。
10.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括:
统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数;
如果文档类内热词的词频与该热词出现在各文档类内文档的文档数的比值超过预先设置的文档类间热词阈值,选取该热词。
11.如权利要求9或10所述的方法,其特征在于,在所述选取该热词后,进一步包括:
计算最接近文档类重心的文档;
匹配选取的热词以及最接近文档类重心的文档中的热词,获取匹配的热词。
12.如权利要求11所述的方法,其特征在于,进一步包括:
确定匹配的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;
根据统计的候选表意词词频过滤候选表意词;
计算最接近文档类重心的文档;
匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中。
13.如权利要求12所述的方法,其特征在于,进一步包括:
按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
14.如权利要求1所述的方法,其特征在于,进一步包括:
将选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词。
15.如权利要求14所述的方法,其特征在于,用热词库中热词进行表示的文档的特征向量由文档中与热词库匹配成功的热词的特征向量值组成;
所述获取热词的特征向量值包括:
统计热词在文档中的词频;
获取热词词频的对数值与数值1相加的和;
获取预先设置的热词权重的对数值与所述和的乘积,作为该热词的特征向量值。
16.一种挖掘热词的装置,其特征在于,该装置包括:文档表示模块、文档聚类模块、文档类过滤模块以及文档类热词选取模块,其中,
文档表示模块,用于预先设置热词库并对热词库中的各热词设置相应的热词权重,根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;
文档聚类模块,用于将用热词库中热词进行表示的文档聚类为预设数目的文档类;
文档类过滤模块,用于对文档聚类模块输出的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;
文档类热词选取模块,用于对文档类过滤模块输出的过滤后的文档类按照预先设置的热词选取策略进行热词选取,并将选取的热词输出。
17.如权利要求16所述的装置,其特征在于,所述文档聚类模块进一步用于对预设数目的文档类中的相似文档类进行合并处理;
所述文档类过滤模块进一步用于获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。
18.如权利要求16所述的装置,其特征在于,所述文档类过滤模块进一步用于计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。
19.如权利要求16所述的装置,其特征在于,所述文档类热词选取模块进一步用于确定文档类选取的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;根据统计的候选表意词词频过滤候选表意词;计算最接近文档类重心的文档;匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中;按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。
20.如权利要求16至19任一项所述的装置,其特征在于,进一步包括:
文档类去重模块,用于将文档类热词选取模块选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词,并将过滤后的热词输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210018787.5A CN103218368B (zh) | 2012-01-20 | 2012-01-20 | 一种挖掘热词的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210018787.5A CN103218368B (zh) | 2012-01-20 | 2012-01-20 | 一种挖掘热词的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103218368A true CN103218368A (zh) | 2013-07-24 |
CN103218368B CN103218368B (zh) | 2016-03-30 |
Family
ID=48816170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210018787.5A Active CN103218368B (zh) | 2012-01-20 | 2012-01-20 | 一种挖掘热词的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218368B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608083A (zh) * | 2014-11-13 | 2016-05-25 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
CN106202049A (zh) * | 2016-07-18 | 2016-12-07 | 合网络技术(北京)有限公司 | 一种热词确定方法及装置 |
CN108280085A (zh) * | 2017-01-06 | 2018-07-13 | 工业和信息化部电信研究院 | 数据去重的方法及装置 |
CN108776657A (zh) * | 2018-06-13 | 2018-11-09 | 湖南正宇软件技术开发有限公司 | 政协提案关注点自动提取方法 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
US20220309814A1 (en) * | 2021-03-26 | 2022-09-29 | Fujitsu Limited | Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus |
CN115619457A (zh) * | 2022-11-22 | 2023-01-17 | 问策师信息科技南京有限公司 | 基于用户浏览习惯数据分析的广告投放方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010064269A (ko) * | 1999-12-27 | 2001-07-09 | 오길록 | 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법 |
US20030208485A1 (en) * | 2002-05-03 | 2003-11-06 | Castellanos Maria G. | Method and system for filtering content in a discovered topic |
WO2004021242A2 (en) * | 2002-08-30 | 2004-03-11 | Syn.X Pharma, Inc. | Amino acid sequence pattern matching |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
-
2012
- 2012-01-20 CN CN201210018787.5A patent/CN103218368B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010064269A (ko) * | 1999-12-27 | 2001-07-09 | 오길록 | 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법 |
US20030208485A1 (en) * | 2002-05-03 | 2003-11-06 | Castellanos Maria G. | Method and system for filtering content in a discovered topic |
WO2004021242A2 (en) * | 2002-08-30 | 2004-03-11 | Syn.X Pharma, Inc. | Amino acid sequence pattern matching |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
Non-Patent Citations (1)
Title |
---|
程肖: "网络舆情热点主题词提取研究", 《万方数据库》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608083A (zh) * | 2014-11-13 | 2016-05-25 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
CN105608083B (zh) * | 2014-11-13 | 2019-09-03 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
CN106202049A (zh) * | 2016-07-18 | 2016-12-07 | 合网络技术(北京)有限公司 | 一种热词确定方法及装置 |
CN108280085A (zh) * | 2017-01-06 | 2018-07-13 | 工业和信息化部电信研究院 | 数据去重的方法及装置 |
CN108280085B (zh) * | 2017-01-06 | 2021-07-27 | 工业和信息化部电信研究院 | 数据去重的方法及装置 |
CN108776657A (zh) * | 2018-06-13 | 2018-11-09 | 湖南正宇软件技术开发有限公司 | 政协提案关注点自动提取方法 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
US20220309814A1 (en) * | 2021-03-26 | 2022-09-29 | Fujitsu Limited | Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus |
US11769339B2 (en) * | 2021-03-26 | 2023-09-26 | Fujitsu Limited | Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus |
CN115619457A (zh) * | 2022-11-22 | 2023-01-17 | 问策师信息科技南京有限公司 | 基于用户浏览习惯数据分析的广告投放方法 |
CN115619457B (zh) * | 2022-11-22 | 2023-03-28 | 问策师信息科技南京有限公司 | 基于用户浏览习惯数据分析的广告投放方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103218368B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN102799647B (zh) | 网页去重方法和设备 | |
Akaichi et al. | Text mining facebook status updates for sentiment classification | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
Shi et al. | Learning-to-rank for real-time high-precision hashtag recommendation for streaming news | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
US9946775B2 (en) | System and methods thereof for detection of user demographic information | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
JP6428795B2 (ja) | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 | |
CN105760526B (zh) | 一种新闻分类的方法和装置 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN103294778A (zh) | 一种推送资讯信息的方法及系统 | |
WO2017012222A1 (zh) | 时效需求识别方法、装置、设备及非易失性计算机存储介质 | |
CN106557558A (zh) | 一种数据分析方法及装置 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
JP2014085862A (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Rosa et al. | Detecting a tweet’s topic within a large number of Portuguese Twitter trends | |
Wei et al. | Online education recommendation model based on user behavior data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |