CN107423444B

CN107423444B - 热词词组提取方法和系统

Info

Publication number: CN107423444B
Application number: CN201710680829.4A
Authority: CN
Inventors: 曹航瑞; 张颖; 林志聪; 马幸晖; 王家宾; 银超
Original assignee: 21cn Corp Ltd
Current assignee: Tianyi Shilian Technology Co ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2020-05-19
Anticipated expiration: 2037-08-10
Also published as: CN107423444A

Abstract

本发明涉及一种热词词组提取方法和系统，热词词组提取方法包括以下步骤：获取关键词的历史词频以及当前词频；根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率；将所述词频加权变化率达到第一阈值的关键词作为热词，从所述当前文本中提取所述热词的相关词，得到热词集，根据所述热词集获取频繁项集；递归合并频繁项集内的热词，得到热词词组。上述热词词组提取方法和系统，通过计算当前词频的词频加权变化率获取热词，并获取对应的频繁项集，对频繁项集进行递归合并处理，得到最终能够代表当前的热点事件的热词词组，运算简便高效，且得到的热词词组能更准确地描述热点事件。

Description

热词词组提取方法和系统

技术领域

本发明涉及文字处理技术领域，特别是涉及一种热词词组提取方法和系统。

背景技术

热词作为一种词汇现象，反映了一个区域的人们在一个时期内普遍关注的问题和事物。词汇的多义性及多样性使得热词的提取变得困难，当前内容提供方通常提取单个热词代表当前事件，但仅通过单个热词难以对一个热点事件进行准确描述。由多个热词组成的词组能更精确地对热点事件进行描述。

传统的热词词组的检测主要是利用机器学习的方法，包括有监督或无监督方法(基于决策树(Decision Tree，DT)的监督方法、基于隐马尔科夫模型(Hidden MarkovModel，HMM)的监督方法、基于最大熵模型(Maximum Entropy，ME)等)对语料进行训练提取候选热词，最后进行词汇共现矩阵分析，从而获得热词词组。但这种方法算法复杂度较高，易产生大量的垃圾串。

发明内容

基于此，有必要针对算法复杂度较高，易产生大量的垃圾串的问题，提供一种热词词组提取方法。

一种热词词组提取方法，包括以下步骤：

获取关键词的历史词频以及当前词频；其中历史词频为关键词在历史时间段内发布的文本信息上的词频，当前词频为关键词在当前时间段内发布的文本信息上的词频；

根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率；

将所述词频加权变化率达到第一阈值的关键词作为热词，从所述当前文本中提取所述热词的相关词，得到热词集，根据所述热词集获取频繁项集；

递归合并频繁项集内的热词，得到热词词组。

一种热词词组提取系统，包括：

获取模块，用于获取关键词的历史词频以及当前词频；其中历史词频为关键词在历史时间段内发布的文本信息上的词频，当前词频为关键词在当前时间段内发布的文本信息上的词频；

计算模块，用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率；

提取模块，用于将所述词频加权变化率达到第一阈值的关键词作为热词，从所述当前文本中提取所述热词的相关词，得到热词集，根据所述热词集获取频繁项集；

递归合并模块，用于递归合并频繁项集内的热词，得到热词词组。

上述热词词组提取方法和系统，通过计算当前词频的词频加权变化率获取热词，并获取对应的频繁项集，对频繁项集进行递归合并处理，得到最终能够代表当前的热点事件的热词词组，运算简便高效，且得到的热词词组能更准确地描述热点事件。

附图说明

图1为本发明的一个实施例中热词词组提取方法的步骤流程示意图；

图2为本发明的获取关键词的历史词频以及当前词频的步骤示意图；

图3为本发明的一个实施例中热词词组提取方法的完整步骤示意图；

图4为本发明的一个实施例中热词词组提取系统的步骤流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1为本发明的一个实施例中热词词组提取方法的步骤流程示意图，可以包括以下步骤：

S101：获取关键词的历史词频A以及当前词频B；其中历史词频A为关键词在历史时间段内发布的文本信息上的词频，当前词频B为关键词在当前时间段内发布的文本信息上的词频；

在一个实施例中，文本信息可以为文章集，本发明中所有的文本信息都可以指代文章集，对应历史词频为关键词在历史时间段内所有新发布文章集上的词频，对应当前词频为关键词在当前时间段内所有新发布文章集上的词频，此处不限于所有新发布文章集，也可以根据需要调整比例，只获取部分新发布文章集上的词频。

S102：根据所述历史词频A、当前词频B以及关键词所在当前文本的平均热度权重H计算当前词频的词频加权变化率P；

举例来说，可以先计算关键词所在当前文本的平均热度h，其中当前文本可以是当前文章集。具体地，平均热度h可以根据以下方式计算：

上式中，N为所选取的文章的数量，C1为第一篇文章热度，C2为第二篇文章热度……，以此类推，CN为第N篇文章热度。

然后，可计算词频加权变化率P。进一步地，可根据以下方式计算词频加权变化率P：

上式中，E可以为该关键词在当前文章集和历史文章集出现总次数，F可以为当前文章集和历史文章集中所有词汇出现次数，平均热度h除于D可以代表平均热度权重H，上式中D为正整数，文章集为千级别的，D可以取1000，可以理解成是进行了归一化处理。

S103：将词频加权变化率P达到第一阈值的关键词作为热词，从所述当前文本中提取所述热词的相关词，得到热词集，根据所述热词集获取频繁项集；在一个实施例中，可以设置第一阈值为10，这个第一阈值为多次试验得到的经验值，可以根据需要来更换这个第一阈值的值。在一个具体的数值实施例中，假设在1000篇文章中，N＝1000，C1+C2+…+CN＝8000000，得h＝3000，关键词“母牛”的历史词频A为0.1，当前词频B为0.6，关键词在当前文章集和历史文章集出现总次数E为1000次，当前文章集和历史文章集中所有词汇出现次数F为4000次，这时

这时若设第一阈值为10，则“母牛”这个词就可以当成热词。上述实施例中，相关词可以为热词对应的近义词，也可以是与热词存在并列概念的词。而频繁项集也称项集，为在所有训练元组中同时出现的次数超过人工定义的阈值的项的集合。

S104：递归合并频繁项集内的热词，得到热词词组；

具体地，热词词组是由多个热词组成的词组，可以通过以下方法对频繁项集内的热词进行递归合并：如果两个频繁项集内的热词超过百分之五十相同，则合并频繁项词组获得新的词组，其中，新的词组中重复的热词只出现一次，删除旧词组，直到该频繁项集内的热词数量达到阈值，输出合并后的频繁项词组，不断迭代，最后得到的频繁项集内的词组即为最终的热词词组。

上述实施例通过计算当前词频的词频加权变化率获取热词，并获取对应的频繁项集，对频繁项集进行递归合并处理，得到最终能够代表当前的热点事件的热词词组，运算简便高效，且得到的热词词组能更准确地描述热点事件。

其中，在一个实施例中，上述的热词词组提取方法中，从当前文本中提取所述热词的相关词之前，还包括以下步骤：从当前文本中过滤出热词相关词中的停用词和无意义词。

过滤的方法可以为：对得到的热词，去匹配当前文章集的标题对应的所有分词，当所有分词中不包含任何一个热词或热词相关词时，就完成了过滤。通过过滤步骤可以使最终得到的热词词组更加精简，能够更好地概括热点事件，并可以对热点事件做更详细的描述。

如图2，本发明的另一个实施例中，获取关键词的历史词频以及当前词频，具体可以包括以下步骤：

S201：获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料；

在具体的实施例中，标题往往概括了一个文章的核心内容，将标题进行分词，提取出的分词语料相对将文章的其他部分内容进行分词提取的分词语料更能体现文章的主题，更能代表当前的热点事件，也可以根据需要对文本信息的其他部分内容进行分词，提取分词语料。

S202：根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词，根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词；

可选地，可以根据textRank关键词提取算法分别提取历史关键词和当前关键词。

S203：计算所述历史关键词的历史词频和所述当前关键词的当前词频。

在实际应用中，在一份给定的文件或文章里，词频指的是某一个给定的词语在该文件或文章中出现的次数，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。例如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就等于该词语出现的次数3除于总词语数100，为0.03。

图3为包括上述实施方式的热词词组提取方法的完整步骤示意图，包括了通过对历史时间段内发布的文本信息的标题以及当前时间段内发布的文本信息的标题进行分词，分别得到历史分词语料和当前分词语料，可以根据textRank关键词提取算法分别提取历史关键词和当前关键词，计算对应的历史词频和当前词频，并运用得到的历史词频和当前词频进行接下来的热词词组提取工作，这种热词词组提取方法简单易行，能够清晰地描述当前热点事件，利于运营人员即时掌握社会舆情，进一步可取代人工推送热点相关文章的工作，提升热点内容覆盖率。

其中，本发明一个实施例中，递归合并频繁项集内的热词，得到热词词组，具体可以包括以下步骤：

S301：当两个频繁项集中相同热词的数量大于第二阈值时，对所述两个频繁项集进行合并获得新的频繁项集，并从合并后的频繁项集中删除重复的热词，不断迭代，直到该频繁项集中的热词数量达到第三阈值；

其中，第二阈值可以是频繁项集中热词数量的百分之五十，合并后得到的新的频繁项集中，原来两个频繁项集中重复的词只出现一次，不断迭代，直到该频繁项集中的热词数量达到一定的预设数量阈值。

S302：输出合并后的频繁项集，将最后得到的频繁项集中热词组成的词组作为最终的热词词组。

在一个实施例中，可以通过FP-growth(Frequent Pattern-growth)频繁项集挖掘算法分析提取热词词组，最终的热词词组中包含多个热词，可以用最终得到的热词词组来描述当前热点事件。

通过上述实施例，通过FP-GROWTH频繁项集挖掘算法分析提取热词词组，使得词组包含的共现词汇更能准确描述热点事件，能够得到含有多个热词的热词词组，从而能够清晰地描述当前热点事件，利于运营人员即时掌握社会舆情，进一步可取代人工推送热点相关文章的工作，提升热点内容覆盖率。

进一步地，在一个实施例中，当前关键词的数量为多个，各个当前关键词分别对应一个词频加权变化率；这时，将词频加权变化率达到第一阈值的关键词作为热词，具体是指将各个词频加权变化率达到第一阈值的当前关键词均作为热词。

上述实施例中，可以将各个词频加权变化率达到10的当前关键词均作为热词，可以得到多个热词，进一步，可得到多组热词词组，运算简便高效，且得到的多组热词词组能更准确地描述热点事件。

更进一步地，在一个实施例中，历史关键词的数量为多个，各个历史关键词分别对应一个历史词频；这时，根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率，具体是指将各个当前关键词分别与各个历史关键词进行比较，当所述当前关键词与所述历史关键词相同时，根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。

上述实施例中，将每个当前关键词都与多个历史关键词进行比较，当历史关键词与当前关键词相同时，就可以得到该关键词对应的历史词频，可以根据历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。

通过上述实施例，引入历史词频、当前词频以及词频加权变化率来识别热词，避免了普通变化率中出现次数少但近期变化率高的词汇易被误判为热词的缺点。能更精确地提取热词，使得最终得到的热词词组包含的热词更能准确描述热点事件。

另外，如图4所示，为本发明的一个实施例的热词词组提取系统，包括：

获取模块11，用于获取关键词的历史词频以及当前词频；其中历史词频为关键词在历史时间段内发布的文本信息上的词频，当前词频为关键词在当前时间段内发布的文本信息上的词频；

计算模块12，用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率；

提取模块13，用于将所述词频加权变化率达到第一阈值的关键词作为热词，从所述当前文本中提取所述热词的相关词，得到热词集，根据所述热词集获取频繁项集；

递归合并模块14，用于递归合并频繁项集内的热词，得到热词词组。

上述实施例与本发明的热词词组提取方法对应的实施例相类似，此处不再赘述。

具体地，本发明的另一个实施例中的热词词组提取系统，还包括：过滤模块，用于从当前文本中过滤出热词相关词中的停用词和无意义词。

在一个实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请的热词词组提取方法。

在另一个实施例中，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请的热词词组提取方法。

上述实施例与的热词词组提取方法对应的实施例相类似，此处不再赘述。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种热词词组提取方法，其特征在于，包括以下步骤：

递归合并频繁项集内的热词，得到热词词组；包括：通过FP-growth频繁项集挖掘算法分析提取热词词组。

2.根据权利要求1所述的热词词组提取方法，其特征在于，从所述当前文本中提取所述热词的相关词之前，还包括以下步骤：

从当前文本中过滤出热词的相关词中的停用词和无意义词。

3.根据权利要求1所述的热词词组提取方法，其特征在于，获取关键词的历史词频以及当前词频，具体包括以下步骤：

获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料；

根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词，根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词；

计算所述历史关键词的历史词频和所述当前关键词的当前词频。

4.根据权利要求1所述的热词词组提取方法，其特征在于，所述递归合并频繁项集内的热词，得到热词词组，具体包括以下步骤：

当两个频繁项集中相同热词的数量大于第二阈值时，对所述两个频繁项集进行合并获得新的频繁项集，并从合并后的频繁项集中删除重复的热词，不断迭代，直到该频繁项集中的热词数量达到第三阈值；

输出合并后的频繁项集，将最后得到的频繁项集中热词组成的词组作为最终的热词词组。

5.根据权利要求3所述的热词词组提取方法，其特征在于，所述当前关键词的数量为多个，各个当前关键词分别对应一个词频加权变化率；

将词频加权变化率达到第一阈值的关键词作为热词，具体包括以下步骤：

将各个词频加权变化率达到第一阈值的当前关键词均作为热词。

6.根据权利要求5所述的热词词组提取方法，其特征在于，所述历史关键词的数量为多个，各个历史关键词分别对应一个历史词频；

根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率，具体包括以下步骤：

将各个当前关键词分别与各个历史关键词进行比较，当所述当前关键词与所述历史关键词相同时，根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。

7.一种热词词组提取系统，其特征在于，包括：

递归合并模块，用于递归合并频繁项集内的热词，得到热词词组；进一步用于：通过FP-growth频繁项集挖掘算法分析提取热词词组。

8.根据权利要求7所述的热词词组提取系统，其特征在于，还包括：

过滤模块，用于从当前文本中过滤出所述相关词中的停用词和无意义词。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任意一项所述的热词词组提取方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任意一项所述的热词词组提取方法。