CN107885722A

CN107885722A - 一种关键词抽取方法和装置

Info

Publication number: CN107885722A
Application number: CN201711046635.5A
Authority: CN
Inventors: 王亮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-04-06
Anticipated expiration: 2037-10-31
Also published as: CN107885722B

Abstract

本发明实施例提供了一种关键词抽取方法和装置，该方法和装置应用于自然语言处理系统，具体为获取关键词集合，关键词集合包括多个经人工标注的关键词；计算关键词集合中每个关键词的接收率；根据出现频率和接收率对关键词集合进行处理，得到待补充标注关键词集合，待补充标注关键词集合包括多个待补充标注关键词；对待补充标注关键词进行补充标注。通过对待补充关键词进行补充标注，可以提高高接收率的关键词的抽取概率，防止关键词被遗漏，同时也意味着将低接收的关键词的抽取率进行打压，防止错误标注。通过上述措施有效地提高了标注数据的质量，避免了较低质量的标注数据对关键词抽取带来的负面影响。

Description

一种关键词抽取方法和装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种关键词抽取方法和装置。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统。

关键词抽取是自然语言处理的一项重要的基础技术。根据是否需要带标注的数据，可以将关键词抽取方法分为有监督方法和无监督方法。其中，由于能够利用到丰富的人工标注的标注信息，在特定领域和短文本上，有监督方法将关键词抽取转化为分类/排序的问题，利用条件随机场CRF将关键词抽取转化为序列标注的问题，从而能够取得更好的抽取效果。然而，对于有监督方法来说，标注数据质量的好坏直接决定抽取的最终效果，由于人工标注本身的主观性，获取足够数量的高质量标注数据非常困难，在此情况下，较低质量的标注数据会对关键词抽取的质量带来较大的负面影响。

发明内容

有鉴于此，本发明提供了一种关键词抽取方法和装置，应用于自然语言处理系统，用于提高标注数据的质量，以避免较低质量的标注数据对关键词抽取带来负面影响。

为了解决上述问题，本发明公开了一种

一种关键词抽取方法，应用于自然语言处理系统，其中，所述关键词抽取方法包括步骤：

获取关键词集合，所述关键词集合包括多个经人工标注的关键词；

计算所述关键词集合中每个关键词的接收率；

根据所述关键词的标记次数和所述接收率对所述关键词集合进行处理，得到待补充标注关键词集合，其中，所述待补充标注关键词集合包括多个待补充标注关键词；

对所述待补充标注关键词进行补充标注。

可选的，所述获取关键词集合，包括：

获取人工标注数据集；

对所述人工标注数据集进行统计，得到所述关键词合集。

可选的，所述计算所述关键词集合中每个关键词的接收率，包括：

将所述关键词的标记次数除以出现次数，得到所述接收率。

可选的，所述根据所述关键词的标记次数和所述接收率对所述关键词集合进行处理，得到待补充标注关键词集合，包括：

将所述关键词合集中标记次数高于预设次数阈值的关键词予以滤除；

将经过上述处理后接收率高于预设接受率阈值的关键词予以滤除，得到所述待补充标注关键词集合。

相应的，为了保证上述方法的实施，本发明还提供了一种关键词抽取装置，应用于自然语言处理系统，所述关键词抽取装置包括：

集合获取模块，用于获取关键词集合，其中，所述关键词集合包括多个经人工标注的关键词；

接收率计算模块，用于计算所述关键词集合中每个关键词的接收率；

集合处理模块，用于根据所述关键词的标记次数和所述接收率对所述关键词集合进行处理，得到待补充标注关键词集合，其中，所述待补充标注关键词集合包括多个待补充标注关键词；

补充标注模块，用于对所述待补充标注关键词进行补充标注。

可选的，所述集合获取模块包括：

数据获取单元，用于获取人工标注数据集；

数据统计单元，用于对所述人工标注数据集进行统计，得到所述关键词合集。

可选的，所述接收率计算模块包括：

除法计算单元，用于将所述关键词的标记次数除以出现次数，得到所述接收率。

可选的，所述集合处理模块包括：

第一过滤单元，用于将所述关键词合集中标记次数高于预设次数阈值的关键词予以滤除；

第二过滤单元，用于将经过上述处理后接收率高于预设接受率阈值的关键词予以滤除，得到所述待补充标注关键词集合。

从上述技术方案可以看出，本发明提供一种关键词抽取方法和装置，该方法和装置应用于自然语言处理系统，具体为获取关键词集合，关键词集合包括多个经人工标注的关键词；计算关键词集合中每个关键词的接收率；根据出现频率和接收率对关键词集合进行处理，得到待补充标注关键词集合，待补充标注关键词集合包括多个待补充标注关键词；对待补充标注关键词进行补充标注。通过对待补充关键词进行补充标注，可以提高高接收率的关键词的抽取概率，防止关键词被遗漏，同时也意味着将低接收的关键词的抽取率进行打压，防止错误标注。通过上述措施有效地提高了了标注数据的质量，避免了较低质量的标注数据对关键词抽取带来的负面影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种关键词提取方法的步骤流程图；

图2为本发明实施例的一种关键词提取装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种关键词抽取方法的步骤流程图。

参照图1所示，本实施例提供的关键词抽取方法应用于自然语言处理系统，用于对文本中的关键词进行抽取，该关键词抽取方法具体包括如下步骤：

S101：获取关键词集合。

该关键词集合中包括有多个经人工标注的关键词，具体的获取步骤为：

首先，获取人工标注数据集；然后通过对人工标注数据集的统计，得到上述的关键词集合，这里的统计是指对人工标注数据集中人工标注的关键词进行分类、记录。

S102：计算每个关键词的接受率。

在得到上述关键词集合后，对其中每个关键词的接受率进行计算，具体来说是将每个关键词的标记次数除以其出现次数，从而得到每个关键词的接受率。

例如,如对一个具体的样本集,统计到的所有关键词的接受率(AcceptRate)的节选如下,其中AppearedTimes为出现次数，LabeledTimes为标记次数。

S103：根据出现率和接收率对关键词集合进行处理。

通过对关键词的出现率和接受率的过滤，得到待补充标注关键词集合，其中包括有多个待补充标注关键词。具体方法如下：

前提是设置预设次数阈值和预设接受率阈值，例如可以设置预设次数阈值为5，预设接收率阈值为0.3。在此基础上，首先将关键词集合中标记次数高于该预设此时阈值的关键词予以滤除；然后将接收率高于预设接受率阈值的关键词予以滤除，从而得到上述待补充标注关键词集合，即该集合中的关键词的标记次数低于预设次数阈值，且接受率低于上述接受率阈值。对于上表中的关键词集合来说，过滤后得到的待补充标注关键词集合如下所示：

S104：对待补充标注关键词进行补充标注。

在得到上述待补充标注关键词后，按照下面的公式将该关键词进行标出：

Probablity_relabel(phrase)＝min(1,α*AcceptRate(phrase)+β)

上述公式中，利用函数对phrase进行赋值，该函数的结果为从右侧括号中选取较小的值，并将该较小的值为phrase进行赋值。其中α,β为常数系数。下表为两种标注的对比结果，左侧为人工标注结果，右侧为补充标注后的结果：

从上述技术方案可以看出，本实施例提供了一种关键词抽取方法，该方法应用于自然语言处理系统，具体为获取关键词集合，关键词集合包括多个经人工标注的关键词；计算关键词集合中每个关键词的接收率；根据出现频率和接收率对关键词集合进行处理，得到待补充标注关键词集合，待补充标注关键词集合包括多个待补充标注关键词；对待补充标注关键词进行补充标注。通过对待补充关键词进行补充标注，可以提高高接收率的关键词的抽取概率，防止关键词被遗漏，同时也意味着将低接收的关键词的抽取率进行打压，防止错误标注。通过上述措施有效地提高了了标注数据的质量，避免了较低质量的标注数据对关键词抽取带来的负面影响。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本发明实施例提供的一种关键词抽取装置的结构框图

参照图2所示，本实施例提供的关键词抽取装置应用于自然语言处理系统，用于对文本中的关键词进行抽取，该关键词抽取装置具体包括集合获取模块10、接受率计算模块20、集合处理模块30和补充标注模块40。

集合获取模块用于获取关键词集合。

该关键词集合中包括有多个经人工标注的关键词，该模块具体包括数据获取单元和数据统计单元。

数据获取单元用于获取人工标注数据集；数据统计单元用于通过对人工标注数据集的统计，得到上述的关键词集合。

接受率计算模块用于计算每个关键词的接受率。

在得到上述关键词集合后，该模块对其中每个关键词的接受率进行计算。该模块包括除法计算单元，该单元用于将每个关键词的标记次数除以其出现次数，从而得到每个关键词的接受率。

例如,对一个具体的样本集来说,统计到的所有关键词的接受率(AcceptRate)的节选如下,其中AppearedTimes为出现次数，LabeledTimes为标记次数。

集合处理模块用于根据出现率和接收率对关键词集合进行处理。

本模块通过对关键词的出现率和接受率的过滤，得到待补充标注关键词集合，其中包括有多个待补充标注关键词。该模块具体包括第一过滤单元和第二过滤单元。

过滤的前提是设置预设次数阈值和预设接受率阈值，例如可以设置预设次数阈值为5，预设接收率阈值为0.3。在此基础上，第一过滤单元将关键词集合中标记次数高于该预设此时阈值的关键词予以滤除；第二过滤单元则将接收率高于预设接受率阈值的关键词予以滤除，从而得到上述待补充标注关键词集合，即该集合中的关键词的标记次数低于预设次数阈值，且接受率低于上述接受率阈值。对于上表中的关键词集合来说，过滤后得到的待补充标注关键词集合如下所示：

补充标注模块用于对待补充标注关键词进行补充标注。

在得到上述待补充标注关键词后，该模块按照下面的公式将该关键词进行标出：

Probablity_relabel(phrase)＝min(1,α*AcceptRate(phrase)+β)

其中α,β为常数系数。下表为两种标注的对比结果，左侧为人工标注结果，右侧为补充标注后的结果：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关键词抽取方法，应用于自然语言处理系统，其特征在于，所述关键词抽取方法包括步骤：

获取关键词集合，其中，所述关键词集合包括多个经人工标注的关键词；

计算所述关键词集合中每个关键词的接收率；

对所述待补充标注关键词进行补充标注。

2.如权利要求1所述的关键词抽取方法，其特征在于，所述获取关键词集合，包括：

获取人工标注数据集；

对所述人工标注数据集进行统计，得到所述关键词合集。

3.如权利要求1所述的关键词抽取方法，其特征在于，所述计算所述关键词集合中每个关键词的接收率，包括：

将所述关键词的标记次数除以出现次数，得到所述接收率。

4.如权利要求1所述的关键词抽取方法，其特征在于，所述根据所述关键词的标记次数和所述接收率对所述关键词集合进行处理，得到待补充标注关键词集合，包括：

5.一种关键词抽取装置，应用于自然语言处理系统，其特征在于，所述关键词抽取装置包括：

6.如权利要求5所述的关键词抽取装置，其特征在于，所述集合获取模块包括：

数据获取单元，用于获取人工标注数据集；

7.如权利要求5所述的关键词抽取装置，其特征在于，所述接收率计算模块包括：

8.如权利要求5所述的关键词抽取装置，其特征在于，所述集合处理模块包括：