CN105528404A

CN105528404A - 种子关键字字典建立方法和装置及关键词提取方法和装置

Info

Publication number: CN105528404A
Application number: CN201510876203.1A
Authority: CN
Inventors: 李强; 刘鹏
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2016-04-27

Abstract

本发明实施例提供一种领域内的种子关键字字典的建立方法和装置及关键词的提取方法和装置。该建立方法包括：获取设定领域的实验文本集；统计实验文本集包含的汉字的出现频次；根据所述实验文本集包含的汉字的出现频次，以及预先配置的通用关键字字典中对应汉字的权重，确定所述实验文本集包含的汉字在该领域中的权重；按照所述实验文本集包含的汉字在该领域中的权重从高到低的顺序，选取排序优先的设定数量的汉字，作为该领域的种子关键字，并将对应的在该领域中的权重进行关联存储，形成该领域内的种子关键字字典。本方案得到的领域的种子关键字的准确率较高，使得基于此形成的该领域内的种子关键字字典的准确率较高。

Description

种子关键字字典建立方法和装置及关键词提取方法和装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种领域内的种子关键字字典的建立方法和装置及关键词的提取方法和装置。

背景技术

目前新闻文本或论文一般都有作者自行确定的关键词。其他的各类文章还很少提供关键词,通常需要在编辑整理时手工抽取。手工抽取关键词不仅费时费力,而且主观性强,抽取不当往往会对下一步的应用造成消极影响，因此设定领域的文本的关键词的自动提取技术应用而生。

国外对于关键词自动提取的研究较早,已经建立了一些实验系统。Turney设计的GenEx系统将遗传算法和C415决策树机器学习方法用于关键词的提取；Witten采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,然后从文档中提取关键词。

中文文本没有显式的词边界使得关键词的自动提取增加了一定难度,主要有两种技术实现设定领域的中文文本的关键词的提取。

一种是基于PAT树结构获取候选关键词,并采用互信息等统计方法进行关键词提取,存在的缺陷在于：建立获取候选关键词的PAT树需要大量的存储空间,实现复杂。

另一种是利用最大熵模型进行关键词自动标引的方法,由于特征的选择以及估计特征参数时不够准确,最大熵模型在关键词标引中的应用并不理想。

发明内容

本发明实施例提供一种领域内的种子关键字字典的建立方法和装置及关键词的提取方法和装置，以降低在设定领域的中文文本中实现关键词的自动提取的难度，并达到较高的提取准确率。

第一方面，本发明实施例提供了一种领域内的种子关键字字典的建立方法，包括：

获取设定领域的实验文本集；

统计所述实验文本集包含的汉字的出现频次N；

根据所述实验文本集包含的汉字的出现频次N，以及预先配置的通用关键字字典中对应汉字的权重w，确定所述实验文本集包含的汉字在该领域中的权重W；

按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序，选取排序优先的设定数量的汉字，作为该领域的种子关键字，并将对应的在该领域中的权重W进行关联存储，形成该领域内的种子关键字字典。

第二方面，本发明实施例提供了一种领域内的种子关键字字典的建立装置，包括：

实验文本集获取模块，用于获取设定领域的实验文本集；

统计模块，用于统计所述实验文本集包含的汉字的出现频次N；

权重确定模块，用于根据所述实验文本集包含的汉字的出现频次N，以及预先配置的通用关键字字典中对应汉字的权重w，确定所述实验文本集包含的汉字在该领域中的权重W；

字典建立模块，用于按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序，选取排序优先的设定数量的汉字，作为该领域的种子关键字，并将对应的在该领域中的权重W进行关联存储，形成该领域内的种子关键字字典。

第三方面，本发明实施例提供了一种关键词的提取方法，基于本发明实施例提供的领域内的种子关键字字典的建立方法所建立的领域内的种子关键字字典实现，包括：

获取设定领域的文本；

对所述文本进行分割，得到所述文本包含的单句；

利用预先建立的该领域内的种子关键字字典，定位各单句所出现的该领域的种子关键字；

对于出现该领域的种子关键字的各单句，以所出现的该领域的种子关键字为中心，基于预设的种子扩散策略，确定该单句中的候选关键词；

采用最长词汇匹配原则，对各单句中的候选关键词进行筛选，得到所获取的文本的关键词。

第四方面，本发明实施例提供了一种关键词的提取装置，基于本发明实施例提供的领域内的种子关键字字典的建立装置所建立的领域内的种子关键字字典实现，包括：

文本获取模块，用于获取设定领域的文本；

文本分割模块，用于对所述文本进行分割，得到所述文本包含的单句；

定位模块，用于利用预先建立的该领域内的种子关键字字典，定位各单句所出现的该领域的种子关键字；

候选关键词确定模块，用于对于出现该领域的种子关键字的各单句，以所出现的该领域的种子关键字为中心，基于预设的种子扩散策略，确定该单句中的候选关键词；

候选关键词筛选模块，用于采用最长词汇匹配原则，对各单句中的候选关键词进行筛选，得到所获取的文本的关键词。

本发明实施例提供的领域内的种子关键字字典的建立方法和装置，一方面，舍弃了仅存在于通用关键字字典而不出现在所获取的设定领域的实验文本集中的汉字，另一方面，综合考虑了汉字在设定领域的实验文本集中的出现频次，结合了通用关键字字典中对应汉字的权重，基于此，确定汉字在该领域中新的权重，并根据在实验文本集中出现的汉字在该领域中的新权重从高到低选取排序优先的汉字，作为该领域的种子关键字，使得该领域的种子关键字的准确率较高，从而使得基于此形成的该领域内的种子关键字字典的准确率较高。

本发明实施例提供的关键词的提取方法和装置，提供了一种无监督的关键词提取方案，仅依赖所获取的文本所属领域的种子关键字字典，根据种子扩散策略，在获取的文本中自动提取关键词。本方案避免了传统关键词提取方法的复杂度高、以及特征提取困难的缺点，同时，由于所获取的文本所属领域的种子关键字字典的准确率较高，因此，基于此，从所获取到的文本中自动提取的关键词的准确率相应较高。

附图说明

为了更清楚地说明本发明，下面将对本发明中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种领域内的种子关键字字典的建立方法的流程图；

图2为本发明实施例二提供的一种领域内的种子关键字字典的建立装置的结构示意图；

图3a为本发明实施例三提供的一种关键词的提取方法的流程图；

图3b为本发明实施例三提供的关键词的提取方法中基于预设的种子扩散策略，确定单句中的候选关键词的方法流程图；

图4为本发明实施例四提供的一种关键词的提取装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案作进一步详细描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

请参阅图1，为本发明实施例一提供的一种领域内的种子关键字字典的建立方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的领域内的种子关键字字典的建立装置来执行，该实现装置典型的是配置于能够提供设定领域内的文本分析服务的设备中。

该方法包括：步骤110～步骤140。

步骤110、获取设定领域的实验文本集。

本实施例对具体的领域不进行限制。例如，可以采用1000篇新闻文本作为本步骤中的实验文本集。

本实施例中的实验文本集所采用的语言为中文。

步骤120、统计所述实验文本集包含的汉字的出现频次N。

步骤130、根据所述实验文本集包含的汉字的出现频次N，以及预先配置的通用关键字字典中对应汉字的权重w，确定所述实验文本集包含的汉字在该领域中的权重W。

其中，所述通用关键字字典中包括各汉字，及根据该汉字在所有领域的文本集中的出现频次所确定的权重。换言之，所述通用关键字字典包括各汉字及对应的基础权重，每个汉字对应的基础权重没有领域的差异，是根据该汉字在所有领域的文本集中的出现频次确定的。

具体地，可以根据下述公式确定实验文本集包含的汉字在该领域中的权重W。

当N＝1时，运用公式：W＝w·0.001进行计算；

当N>1时，运用公式：W＝w·logN进行计算。

需要说明的是，通用关键字字典中有些汉字可能并不出现在所获取的实验文本集中，对于这些汉字而言，N＝0，此时，把这些汉字舍弃，不作为所述设定领域内的种子关键字的选取。

步骤140、按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序，选取排序优先的设定数量的汉字，作为该领域的种子关键字，并将对应的在该领域中的权重W进行关联存储，形成该领域内的种子关键字字典。

示例性地，本步骤中，可以选取排序优先的500，1000或1500个汉字。

本实施例的技术方案，一方面，舍弃了仅存在于通用关键字字典而不出现在所获取的设定领域的实验文本集中的汉字，另一方面，综合考虑了汉字在设定领域的实验文本集中的出现频次，结合了通用关键字字典中对应汉字的权重，基于此，确定汉字在该领域中新的权重，并根据在实验文本集中出现的汉字在该领域中的新权重从高到低选取排序优先的汉字，作为该领域的种子关键字，使得该领域的种子关键字的准确率较高，从而使得基于此形成的该领域内的种子关键字字典的准确率较高。

实施例二

请参阅图2，为本发明实施例二提供的一种领域内的种子关键字字典的建立装置的结构示意图。

该装置包括：实验文本集获取模块210、统计模块220、权重确定模块230和字典建立模块240。

其中，实验文本集获取模块210用于获取设定领域的实验文本集；统计模块220用于统计所述实验文本集包含的汉字的出现频次N；权重确定模块230用于根据所述实验文本集包含的汉字的出现频次N，以及预先配置的通用关键字字典中对应汉字的权重w，确定所述实验文本集包含的汉字在该领域中的权重W；字典建立模块240用于按照所述实验文本集包含的汉字在该领域中的权重W从高到低的顺序，选取排序优先的设定数量的汉字，作为该领域的种子关键字，并将对应的在该领域中的权重W进行关联存储，形成该领域内的种子关键字字典。

在上述方案中，权重确定模块230可具体用于：

当N＝1时，运用公式：W＝w·0.001进行计算；

当N>1时，运用公式：W＝w·logN进行计算。

本发明实施例提供的领域内的种子关键字字典的建立装置可执行本发明实施例所提供的领域内的种子关键字字典的建立方法，具备执行方法相应的功能模块和有益效果。

实施例三

请参阅图3a，为本发明实施例三提供的一种关键词的提取方法的流程图。本实施例的方法可以由配置以硬件和/或软件实现的关键词的提取装置来执行，该实现装置典型的是配置于能够提供设定领域内的文本分析服务的设备中。本实施例的技术方案基于实施例一所提供的领域内的种子关键字字典的建立方法所建立的领域内的种子关键字字典实现。

该方法包括：步骤310～步骤350。

步骤310、获取设定领域的文本。

步骤320、对所述文本进行分割，得到所述文本包含的单句。

可以将文本通过逗号和句号进行分割，形成单句，还可以对分割后的单句进行编号。

步骤330、利用预先建立的该领域内的种子关键字字典，定位各单句所出现的该领域的种子关键字。

步骤340、对于出现该领域的种子关键字的各单句，以所出现的该领域的种子关键字为中心，基于预设的种子扩散策略，确定该单句中的候选关键词。

本步骤具体是以所出现的该领域的种子关键字作为种子，进行候选关键词的扩散查找。

请参阅图3b，本步骤具体可以包括：步骤341～步骤347。

步骤341、设置滑动窗口，并将所述滑动窗口的宽度初始化为2个汉字。

步骤342、判断所述滑动窗口的宽度是否大于该单句的句长，若是，流程结束；否则，执行步骤343。

步骤343、以所出现的该领域的种子关键字为中心，将所述滑动窗口分别向双向滑动，且在滑动过程中保持所出现的该领域的种子关键字在所述滑动窗口内，得到该单句中的滑动生成词汇。

示例性地，假设在某新闻文本包含的某单句“习主席访英令全球华人扬眉吐气”中，利用预先建立的该领域(即新闻)内的种子关键字字典，定位到该单句所出现的该领域的种子关键字为“访”，以“访”为中心，向两边扩散(也即分别向双向滑动)，分别得到该单句中的滑动生成词汇“席访”和“访英”。

步骤344、统计所述滑动生成词汇在该文本中的出现频次，并根据预先建立的该领域内的种子关键字字典中对应的权重，确定所述滑动生成词汇在该文本中的权重。

本步骤中可以采用与步骤130类似的确定方式，对此不进行限制。

接上述示例，假设得到的滑动生成词汇“席访”和“访英”在该文本中的权重分别为0.0227和0.1336，可参见表1。

步骤345、判断所述滑动生成词汇在该文本中的权重是否大于设定阈值。

接上述示例，假设设定阈值为0.05，可以看出，滑动生成词汇“席访”在该文本中的权重不大于设定阈值，而滑动生成词汇“访英”在该文本中的权重大于设定阈值。

步骤346、根据判断结果确定是否将所述滑动生成词汇确定为该单句中的候选关键词。

本步骤具体是，在判断到所述滑动生成词汇在该文本中的权重大于设定阈值时，将该滑动生成词汇确定为该单句中的候选关键词，否则，不作为该单句中的候选关键词。

接上述示例，将滑动生成词汇“访英”确定为该单句“习主席访英令全球华人扬眉吐气”中的候选关键词。

步骤347、将所述滑动窗口的宽度加宽1个汉字，并返回执行判断所述滑动窗口的宽度是否大于该单句的句长的操作。

本步骤具体是通过将滑动窗口的宽度加宽1个汉字，从而再次进行步骤342～步骤346的种子扩散查找确定该单句中的候选关键词。

接上述示例，通过将滑动窗口的宽度加宽为3个汉字，通过种子扩散查找，可以得到该单句中的滑动生成词汇“主席访”和“访英令”。假设得到的滑动生成词汇“主席访”和“访英令”在该文本中的权重分别如表1所示。

如此循环地扩展种子关键字“访”，并计算每次滑动得到的滑动生成词汇(如“主席访英”以及“习主席访英”等词汇)在该文本中的权重。假设多次循环地扩展后，得到如表1所示的结果。

由于设定阈值为0.05，从表中可以看出，“访英”、“主席访英”和“习主席访英”三个滑动生成词汇超过了设定阈值，因此，将这三个滑动生成词汇确定为该单句“习主席访英令全球华人扬眉吐气”中的候选关键词。

表1

滑动生成词汇	在该文本中的权重
		席访	0.0227
访英	0.1336
		主席访	0.0116
访英令	0.0103
		主席访英	0.1186
习主席访英	0.0580

本方案，对于出现设定领域的种子关键字所在的句子，以种子关键字为中心，设置滑动窗口，分别向种子关键字的双向进行滑动，每次滑动均保持种子关键字在窗口内，即每次滑动得到一个滑动生成词汇，重新计算滑动生成词汇在设定领域的文本中的权重，作为是否能成为候选关键词的依据。如此循环的扩展种子关键字，并计算每次滑动得到的滑动生成词汇的权重值，从而能够确定每个单句中的候选关键词，实现了候选关键词的自动提取。由于该领域内的种子关键字字典的准确率较高(可参见实施例一)，因此，基于此自动提取的候选关键词的准确率相应较高。

步骤350、采用最长词汇匹配原则，对各单句中的候选关键词进行筛选，得到所获取的文本的关键词。

其中，采用最长词汇匹配原则，对各单句中的候选关键词进行筛选，一方面，要求筛选得到能够组成词汇的候选关键词，另一方面，当筛选得到的候选关键词汇有包含关系时，选取长度最长的候选关键词作为所获取的文本的关键词。

接上述示例，“访英”、“主席访英”和“习主席访英”确定为单句“习主席访英令全球华人扬眉吐气”中的候选关键词。采用最长词汇匹配原则，将候选关键词“习主席访英”作为所获取的文本中以“访”为种子的关键词。

需要说明的是，以上仅以一个单句“习主席访英令全球华人扬眉吐气”，以及该单句中的一个种子关键字“访”为例进行说明，本实施例所提供的技术方案对所获取的设定领域的文本包含的单句的数量，以及单句所出现的该领域的种子关键字的数量不进行限制。

本实施例的技术方案，提供了一种无监督的关键词提取方案，仅依赖所获取的文本所属领域的种子关键字字典，根据种子扩散策略，在获取的文本中自动提取关键词。本方案避免了传统关键词提取方法的复杂度高、以及特征提取困难的缺点，同时，由于所获取的文本所属领域的种子关键字字典的准确率较高，因此，基于此，从所获取到的文本中自动提取的关键词的准确率相应较高。

实施例四

请参阅图4，为本发明实施例四提供的一种关键词的提取装置的结构示意图。本实施例的技术方案基于上述实施例提供的领域内的种子关键字字典的建立装置所建立的领域内的种子关键字字典实现。

该提取装置包括：文本获取模块410、文本分割模块420、定位模块430、候选关键词确定模块440和候选关键词筛选模块450。

其中，文本获取模块410用于获取设定领域的文本；文本分割模块420用于对所述文本进行分割，得到所述文本包含的单句；定位模块430用于利用预先建立的该领域内的种子关键字字典，定位各单句所出现的该领域的种子关键字；候选关键词确定模块440用于对于出现该领域的种子关键字的各单句，以所出现的该领域的种子关键字为中心，基于预设的种子扩散策略，确定该单句中的候选关键词；候选关键词筛选模块450用于采用最长词汇匹配原则，对各单句中的候选关键词进行筛选，得到所获取的文本的关键词。

在上述方案中，候选关键词确定模块440可具体用于：

设置滑动窗口，并将所述滑动窗口的宽度初始化为2个汉字；

判断所述滑动窗口的宽度是否大于该单句的句长；

若否，则以所出现的该领域的种子关键字为中心，将所述滑动窗口分别向双向滑动，且在滑动过程中保持所出现的该领域的种子关键字在所述滑动窗口内，得到该单句中的滑动生成词汇；

统计所述滑动生成词汇在该文本中的出现频次，并根据预先建立的该领域内的种子关键字字典中对应的权重，确定所述滑动生成词汇在该文本中的权重；

判断所述滑动生成词汇在该文本中的权重是否大于设定阈值，并根据判断结果确定是否将所述滑动生成词汇确定为该单句中的候选关键词；

将所述滑动窗口的宽度加宽1个汉字，并返回执行判断所述滑动窗口的宽度是否大于该单句的句长的操作。

本发明实施例提供的关键词的提取装置可执行本发明实施例所提供的关键词的提取方法，具备执行方法相应的功能模块和有益效果。

最后应说明的是：以上各实施例仅用于说明本发明的技术方案，而非对其进行限制；实施例中优选的实施方式，并非对其进行限制，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种领域内的种子关键字字典的建立方法，其特征在于，包括：

获取设定领域的实验文本集；

统计所述实验文本集包含的汉字的出现频次N；

2.根据权利要求1所述的方法，其特征在于，根据所述实验文本集包含的汉字的出现频次N，以及预先配置的通用关键字字典中对应汉字的权重w，确定所述实验文本集包含的汉字在该领域中的权重W，包括：

当N＝1时，运用公式：W＝w·0.001进行计算；

当N>1时，运用公式：W＝w·logN进行计算。

3.一种领域内的种子关键字字典的建立装置，其特征在于，包括：

实验文本集获取模块，用于获取设定领域的实验文本集；

4.根据权利要求3所述的装置，其特征在于，权重确定模块具体用于：

当N＝1时，运用公式：W＝w·0.001进行计算；

当N>1时，运用公式：W＝w·logN进行计算。

5.一种关键词的提取方法，基于权利要求1或2所述的领域内的种子关键字字典的建立方法所建立的领域内的种子关键字字典实现，其特征在于，包括：

获取设定领域的文本；

对所述文本进行分割，得到所述文本包含的单句；

6.根据权利要求5所述的方法，其特征在于，以所出现的该领域的种子关键字为中心，基于预设的种子扩散策略，确定该单句中的候选关键词，包括：

设置滑动窗口，并将所述滑动窗口的宽度初始化为2个汉字；

判断所述滑动窗口的宽度是否大于该单句的句长；

7.一种关键词的提取装置，基于权利要求3或4所述的领域内的种子关键字字典的建立装置所建立的领域内的种子关键字字典实现，其特征在于，包括：

文本获取模块，用于获取设定领域的文本；

8.根据权利要求7所述的装置，其特征在于，候选关键词确定模块具体用于：

设置滑动窗口，并将所述滑动窗口的宽度初始化为2个汉字；

判断所述滑动窗口的宽度是否大于该单句的句长；