CN107766318A

CN107766318A - 一种关键词的抽取方法、装置及电子设备

Info

Publication number: CN107766318A
Application number: CN201610683365.8A
Authority: CN
Inventors: 贾文杰
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2018-03-06
Anticipated expiration: 2036-08-17
Also published as: CN107766318B

Abstract

本发明提供了一种关键词的抽取方法、装置及电子设备，其中方法包括：利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词；从所述关键词表中抽取关键词。本发明提高了关键词抽取的准确性，能够较为明确的表明用户兴趣。

Description

一种关键词的抽取方法、装置及电子设备

技术领域

本发明涉及信息处理技术，特别是涉及一种关键词的抽取方法、装置及电子设备。

背景技术

关键词是能够描述文档主要内容提要的若干个词或者短语，一篇文档的关键词是若干个词或短语，作为对该文档主要内容的提要。关键词是人们快速了解文档内容、把握主题的重要方式。关键词广泛应用于新闻报道、科技论文等领域，以方便人们高效地管理和检索文档。

随着网络与信息技术的飞速发展，互联网为用户提供越来越多的信息和服务，用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据，即所谓的信息超载问题。此时，关键词可应用于用户兴趣建模，针对用户进行个性化推荐，帮助用户过滤垃圾信息。

目前常见的关键词抽取方法有三种：

方法一，采用TF-IDF算法，选取文档中最具特殊性和代表性的词语集合。其中，TF指词频，即一个词条在单篇文档中出现的次数；DF指文档频率，即一个词条在文档集合中的多少篇文档中出现过；IDF是倒排文档频率，是DF的倒数。TF-IDF算法，即对于单篇文档，计算其中每个词条的TF与IDF之积，作为词条排序的权重，权重最高的K个词条，作为文档的关键词。此方法主要考虑的是词条的特殊性，但具有特殊性的词条有时仅仅是写作者使用的不常见词汇，而与文档的主题无关。

方法二，通过事先准备好的实体词词典，去文档中进行匹配，并根据出现次数进行加权，选取出文档中权重最高的实体词集合。其中实体词主要指命名实体，就是人名、地名、机构名以及其他所有以名称为标识的实体词语。方法二通过事先对实体词进行收集、打分，可以抽取中文档中涉及到的实体词，但是通常要表述一篇文档的主题除了实体词之外，还需要包含一些高频动词和形容词，例如：“奥巴马将先后访问越南和日本任内第十次亚洲行”，除了实体词“奥巴马”“越南”“日本”之外，“访问”也是描述主题必不可少的词汇，而这种方法难以抽取到“访问”这种非实体关键词。

方法三，是基于图的关键词抽取算法，通过构建文档中词条之间的词网络结构，利用词条语义关联进行权重传播，进而得到最为重要的关键词。比较典型的是TextRank算法，这种考虑到了单篇文档内部的词条共现信息和关联信息，但是通常单篇文档内的关键词出现的频次并不高，这种共现关系的覆盖范围较为有限。

发明内容

本发明实施例提出了一种关键词的抽取方法、装置及电子设备，可以解决现有技术关键词抽取不准确的问题。

在一个方面，本发明实施例提供了一种关键词的抽取方法，包括：

利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；

利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；

根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；以及

从所述关键词表中抽取关键词。

可选地，在所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前，还包括：

从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；

所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：

利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。

可选地，所述利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵的步骤包括：

对所述待抽取关键词的文档过滤高频无意义词条；

根据过滤后的所述待抽取关键词的文档构建词条共现关系矩阵；

对所述词条共现关系矩阵进行按列归一化，获得第一关联关系矩阵；

将所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重与所述第一关联关系矩阵线性加权，然后进行按列归一化，得到第二关联关系矩阵。

可选地，所述实体词典通过从预设的知识库中获取实体词的方式构建，所述实体词典中的每个实体词具有权重。

可选地，所述实体词表中的每个实体词具有权重，所述实体词表中的每个实体词的权重通过对所述实体词典的每个实体词的所述权重加权获得。

可选地，所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：

对所述待抽取关键词的文档过滤高频无意义词条；

对所述词条共现关系矩阵进行按列归一化，获得所述关联关系矩阵。

可选地，所述根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表的步骤中，所述调整采用包括但不限于TextRank算法或Meta-path算法。

可选地，所述从关键词表中选取关键词的步骤包括：从所述关键词表中选取权重最高的K个关键词作为所述待抽取关键词的文档的关键词。

在另一个方面，本发明实施例提供一种关键词的抽取装置，包括：

实体词表获取单元，用于利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；

关联关系矩阵构建单元，用于利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；

关键词表获取单元，用于根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；

关键词抽取单元，用于从所述关键词表中抽取关键词。

可选地，进一步包括其它文档词条间关联权重获取单元，用于从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；

所述关联关系矩阵构建单元用于利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。

可选地，所述关联关系矩阵构建单元用于：

对所述待抽取关键词的文档过滤高频无意义词条；

可选地，进一步包括实体词典构建单元，用于通过从预设的知识库中获取实体词的方式构建所述实体词典，所述实体词典中的每个实体词具有权重。

可选地，所述实体词表获取单元用于：对所述实体词典的每个实体词的权重加权获得所述实体词表中的每个实体词的权重。

可选地，所述关联关系矩阵构建单元用于：

对所述待抽取关键词的文档过滤高频无意义词条；

可选地，所述关键词表获取单元采用包括但不限于TextRank算法或Meta-path算法调整所述实体词表中各实体词的权重。

可选地，所述关键词选取单元用于从所述关键词表中选取权重最高的K个关键词作为所述待抽取关键词的文档的关键词。

在第三个方面，本发明实施例提供一种电子设备，包括：处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行一种关键词的抽取方法，其中所述关键词的抽取方法包括：

利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；以及从所述关键词表中抽取关键词。

在第四个方面，本发明实施例提供了一种存储介质，其中，该存储介质用于存储应用程序，所述应用程序用于在运行时执行本发明实施例第一方面提供的关键词的抽取方法。

在第五个方面，本发明实施例提供了一种应用程序，其中，该应用程序用于在运行时执行本如发明实施例第一方面提供的关键词的抽取方法。

本申请有益效果如下：

本申请实施例提供了一种关键词的抽取方法、装置及电子设备，通过利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用待抽取关键词的文档中各词条之间的共现关系，构建待抽取关键词的文档中各词条之间的关联关系矩阵；根据关联关系矩阵调整实体词表中各实体词的权重，得到关键词表；以及从关键词表中抽取关键词。不仅可以抽取到文档中的实体关键词，还能抽取到文档中非实体关键词，降低某些非核心关键词的实体词的权重，同时保留核心的实体词，提高了关键词抽取的准确率。

附图说明

下面将参照附图描述本发明的具体实施例，其中：

图1示出了本发明实施例一关键词的抽取方法的流程示意图；

图2示出了本发明实施例一中实体词表A的示例；

图3示出了本发明实施例一中关键词表B的示例；

图4示出了本发明实施例二关键词的抽取方法的流程示意图；

图5示出了本发明实施例三中关键词的抽取装置的结构示意图；

图6示出了本发明实施例四中关键词的抽取装置的结构示意图；

图7示出了本发明实施例五中关键词的抽取装置的结构示意图；

图8示出了本发明实施例六中电子设备的结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：现有的几种关键词抽取方法，都存在关键词提取不准确，不全面的问题，由此带来了诸如无法明确表明用户兴趣等弊端。

基于此，本发明实施例提出了一种关键词的抽取方法、装置及电子设备，通过结合实体词抽取与基于图的权重调整算法，不仅可以抽取到文档中的实体关键词，还能抽取到文档中非实体关键词，降低某些非核心关键词的实体词的权重，同时保留核心的实体词，此外通过引入大规模文档进行关联分析，充分利用了外部海量数据，克服了常见的基于图的关键词抽取算法覆盖不足的问题，更明确的表明了用户兴趣。

图1示出了本发明实施例一的关键词的抽取方法，具体包括下述步骤：

步骤101、利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；

前期通过从知识库中获取实体词的方式构建实体词典，并对每个实体词赋予相应权重。利用实体词典，在待抽取关键词的文档中进行匹配，对于匹配到的实体词赋予相应的权重，权重计算公式以实体词典的实体词权重为基础，可以考虑上实体词出现频次的加权或者出现位置的加权，例如出现的文档标题中和第一句中的实体词进行额外加权，最终得到候选实体词表A，实体词表A的示例如图2所示。

步骤103、利用待抽取关键词的文档中各词条之间的共现关系构建待抽取关键词的文档中各词条之间的关联关系矩阵；

利用待抽取关键词的文档中各词条之间的共现关系(例如：同一句子中共现，同一段落中共现，或者在长度为N的滑动窗口中共现)，构建各词条之间的关联关系矩阵。

以图2中待抽取关键词的文档为例的话，只考虑同一句子中共现，过滤掉一些高频无意义词条，例如：“的”，“在”，“中”，“应”，“采取”，“表示”，“合适”，“过程”等，可以构建出如表1中的词条共现关系矩阵，之后按列归一化之后，可以得到词条关联关系矩阵如表2所示。

表1

	美联储	主席	耶伦	加息	保持	谨慎	货币政策	支持
									美联储		1	1	1	1	1	0	0
主席	1		1	1	1	1	0	0
									耶伦	1	1		2	1	2	1	1
加息	1	1	2		1	2	1	1
									保持	1	1	1	1		1	0	0
谨慎	1	1	2	2	1		1	1
									货币政策	0	0	1	1	0	1		1
支持	0	0	1	1	0	1	1

表2

	美联储	主席	耶伦	加息	保持	谨慎	货币政策	支持
									美联储		0.2	0.11	0.11	0.2	0.11	0	0
主席	0.2		0.11	0.11	0.2	0.11	0	0
									耶伦	0.2	0.2		0.22	0.2	0.22	0.25	0.25
加息	0.2	0.2	0.22		0.11	0.22	0.25	0.25
									保持	0.2	0.2	0.11	0.11		0.11	0	0
谨慎	0.2	0.2	0.22	0.22	0.2		0.25	0.25
									货币政策	0	0	0.11	0.11	0	0.11		0.25
支持	0	0	0.11	0.11	0	0.11	0.25

步骤105、根据关联关系矩阵调整实体词表中各实体词的权重，得到关键词表；

在构建的关联关系矩阵中，对实体词表A的权重进行传播，将实体词表A中实体词的权重传播给其他有关联关系的实体词和非实体词，该步骤可以采用的算法有很多，例如：TextRank算法，meta-path算法等。经过调整后，得到候选关键词表B。

以实体词表A和表2中的关联关系矩阵为例，结合TextRank算法的公式1，可以计算出关键词表B如图3所示。

B＝A

while iteration do

B＝(1-d)×I+d×M×B

公式1：TextRank算法

其中I表示每一维均为1的向量，d是调节权重转移的阻尼系数，可以设d＝0.85，迭代到B收敛为止。

步骤107、从关键词表中选取关键词；

从候选关键词表B中选取权重最高的K个作为待抽取关键词的文档的关键词输出。

图4示出了本发明实施例二的关键词的抽取方法，具体包括下述步骤：

步骤201、构建实体词典；

步骤203、利用实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；

这两个步骤可参考实施例一的步骤101。

步骤205、从与待抽取关键词的文档不同的其它文档中挖掘词条关联，得到其它文档词条间的关联权重；

利用其它文档(可以是与待抽取关键词的文档异构的大规模文档集合，例如：待抽取关键词的文档是新闻，大规模文档集合为网页)中词条之间的共现关系(例如：同一文档中共现，同一段落中共现，或者在长度为N的滑动窗口中共现)，构建词条之间的关联网络，计算各词条间的关联权重。可以使用的算法较多，例如：meta-path算法，LDA算法等。

步骤207、利用待抽取关键词的文档中各词条之间的共现关系和其它文档词条间的关联权重中与待抽取关键词的文档中的词条对应的词条间的关联权重构建关联关系矩阵；

利用待抽取关键词的文档中各词条之间的共现关系(例如：同一句子中共现，同一段落中共现，或者在长度为N的滑动窗口中共现)，以及从前一步骤中得到的其它文档词条间的关联权重中与待抽取关键词的文档词条对应的词条间的关联权重，构建待抽取关键词的文档中各词条之间的关联网络。该步骤与实施例一的步骤103的网络的拓扑结构相同，也是构建一个共现矩阵，但是矩阵的权重除了归一化的文档内共现关联权重外，还要与步骤205得到的其它文档词条间的关联权重中与待抽取关键词的文档词条对应的词条间的关联权重进行线性加权，之后再列归一化。更具体来说，是将实施例一的步骤103得到的关联关系矩阵(为了便于分别，本实施例称其为第一关联关系矩阵)与步骤205得到的其它文档词条间的关联权重中与待抽取关键词的文档词条对应的词条间的关联权重进行线性加权，之后再列归一化，得到最终的第二关联关系矩阵。

步骤209、根据关联关系矩阵调整实体词表中各实体词的权重，得到关键词表；

在构建的关联网络中，对实体词表A的权重进行传播，将实体词表A中实体词的权重传播给其他有关联关系的实体词和非实体词。此步骤可以采用的算法有很多，例如：TextRank算法，meta-path算法等。经过调整后，得到候选关键词表B，具体方法可参考实施例一的步骤105。

步骤211、从关键词表中选取关键词；

从候选关键词表B中选取权重最高的K个作为待抽取关键词的文档的关键词输出，该步骤方法与实施例一的步骤107的方法相同。

图5示出了本发明实施例三的关键词的抽取装置，该装置与实施例一的关键词的抽取方法对应，具体包括：

实体词典构建单元301，用于通过从知识库10中获取实体词的方式构建实体词典，并对每个实体词赋予相应权重；

实体词表获取单元303，用于利用实体词典，在待抽取关键词的文档20中进行匹配，得到实体词表；

关联关系矩阵构建单元305，用于利用待抽取关键词的文档中各词条之间的共现关系构建待抽取关键词的文档中各词条之间的关联关系矩阵；

关键词表获取单元307，用于根据关联关系矩阵调整实体词表中各实体词的权重得到关键词表；

关键词选取单元309，用于从关键词表中选取关键词。

图6示出了本发明实施例四的关键词的抽取装置，该装置与实施例二的关键词的抽取方法对应，具体包括：

实体词典构建单元401，用于通过从知识库10中获取实体词的方式构建实体词典，并对每个实体词赋予相应权重；

实体词表获取单元403，用于利用实体词典，在待抽取关键词的文档20中进行匹配，得到实体词表；

其它文档词条间关联权重获取单元405，用于从与待抽取关键词的文档10不同的其它文档30中挖掘各词条的关联，得到其它文档词条间的关联权重；

关联关系矩阵构建单元407，用于利用待抽取关键词的文档中各词条之间的共现关系和其它文档词条间的关联权重中与待抽取关键词的文档中的词条对应的词条间关联权重构建关联关系矩阵；

关键词表获取单元409，用于根据关联关系矩阵调整实体词表中各实体词的权重得到关键词表；

关键词选取单元411，用于从关键词表中选取关键词。

图7示出了本发明实施例五的关键词的抽取装置，包括：

实体词表获取单元501，用于利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；

关联关系矩阵构建单元503，用于利用待抽取关键词的文档中各词条之间的共现关系，构建待抽取关键词的文档中各词条之间的关联关系矩阵；

关键词表获取单元505，用于根据关联关系矩阵调整实体词表中各实体词的权重，得到关键词表；

关键词抽取单元507，用于从关键词表中抽取关键词。

本发明通过结合实体词抽取与基于图的权重调整算法，不仅可以抽取到文档中的实体关键词，还能抽取到文档中非实体关键词；以实体词为基础，结合基于图的权重调整算法后，可以降低某些非核心关键词的实体词的权重，同时保留核心的实体词；通过引入大规模文本进行关联分析，得到词条之间的关联关系，将这些关联关系应用于文档的关键词抽取；充分利用了外部海量数据，克服了常见的基于图的关键词抽取算法覆盖不足的问题。

如图8所示，本发明第六实施例提供了一种电子设备800，包括：处理器801、存储器802、通信接口803和总线804；所述处理器801、所述存储器802和所述通信接口803通过所述总线804连接并完成相互间的通信；所述存储器802存储可执行程序代码；所述处理器801通过读取所述存储器802中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如本发明实施例一或二提供的关键词的抽取方法。

本发明第七实施例提供了一种存储介质，其中，该存储介质用于存储应用程序，所述应用程序用于在运行时执行实施例一或二提供的关键词的抽取方法。

本发明第八实施例提供了一种应用程序，其中，该应用程序用于在运行时执行本如发明实施例一或二提供的关键词的抽取方法。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种关键词的抽取方法，其特征在于包括下述步骤：

从所述关键词表中抽取关键词。

2.如权利要求1所述的方法，其特征在于，在所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵的步骤包括：

对所述待抽取关键词的文档过滤高频无意义词条；

4.如权利要求1所述的方法，其特征在于，所述实体词典通过从预设的知识库中获取实体词的方式构建，所述实体词典中的每个实体词具有权重。

5.如权利要求4所述的方法，其特征在于，所述实体词表中的每个实体词具有权重，所述实体词表中的每个实体词的权重通过对所述实体词典的每个实体词的所述权重加权获得。

6.如权利要求1所述的方法，其特征在于，所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：

对所述待抽取关键词的文档过滤高频无意义词条；

7.如权利要求1所述的方法，其特征在于，所述根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表的步骤中，所述调整采用包括但不限于TextRank算法或Meta-path算法。

8.如权利要求1所述的方法，其特征在于，所述从关键词表中选取关键词的步骤包括：从所述关键词表中选取权重最高的K个关键词作为所述待抽取关键词的文档的关键词。

9.一种关键词的抽取装置，其特征在于包括：

关键词抽取单元，用于从所述关键词表中抽取关键词。

10.如权利要求9所述的装置，其特征在于，进一步包括其它文档词条间关联权重获取单元，用于从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；