CN108228566A

CN108228566A - 多文档关键词自动抽取方法及系统、计算机程序

Info

Publication number: CN108228566A
Application number: CN201810028965.XA
Authority: CN
Inventors: 巢文涵; 姜鑫; 宋俊平; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-06-29

Abstract

本发明属于计算机软件技术领域，公开了一种多文档关键词自动抽取方法及系统、计算机程序，抽取关键词种子；利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整；组合词语意完整，则是关键组合词；组合词语意不完整，则左右扩展。本发明发现语意完整，截断合理的关键短语的抽取方法，使得多文档关键词自动抽取获得的结果可读性大大增强；抽取出的关键词具有更大的平均长度，并且具有更丰富、完整的语意能够更好地描述多文档的主题；Tf‑Idf算法抽取出的关键词更加细碎，语义宽泛而不具体，无法表示文档的主题；本发明的实用性得到保障，节约标注的人工成本，对任何无标注语料都可以进行自动关键词抽取。

Description

多文档关键词自动抽取方法及系统、计算机程序

技术领域

本发明属于计算机软件技术领域，尤其涉及一种多文档关键词自动抽取方法及系统、计算机程序。

背景技术

词是表达语义的最小单位，关键词是最具有代表某一段文本主题能力的词或词组的集合。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动抽取有助于读者快速准确地把握文章的主题；而且该技术在自动文摘、信息检索、信息抽取等多种场景中有较好的应用。目前关键词抽取方法按照是否有监督两类分为：1)无监督算法，不需要繁重的标注工作，依靠词在文章中的出现频次规律、位置规律等便可以自动抽取关键词。比较经典的无监督关键词自动抽取技术有Tf-Idf算法、TextRank算法、rake算法等。无监督算法已经可以取得不俗的关键词抽取效果。2)有监督算法，标注关键词的语料进行训练，采用机器学习的方式。常见的方法有支持向量机模型，神经网络模型，朴素贝叶斯模型以及最大熵模型等。有监督的方式在准确率上会强于无监督的方式，但是在实际生产环境中，有监督所需的标注语料需要耗费大量人力。因此，无监督算法在这方面具有先天的优势。关键词自动抽取技术按照输入的文档数目的不同可以分为单文档关键词自动抽取和多文档关键词自动抽取。目前多文档关键词抽取技术主要有Tf-Idf、TextRank等，Tf-Idf算法的缺点：过于依赖训练语料，对陌生的组合词不够敏感；对组合词的边界识别很差，抽取的组合词经常不是具有完整语义的短语；能够抽取的组合词的长度有限且死板，将不同长度的词放在同一评分体系中进行排序不够合理。TextRank则完全基于词在文档内部的位置关系，只能对单个词进行抽取，无法抽取组合词，这往往导致了TextRank算法抽取出的关键词过于泛化，无法表达明确语义，从而导致不知所云。TextRank的缺点导致了算法在组合词的抽取上存在劣势，而真正能够最好地表达出文章主题的恰恰是组合词。

综上所述，现有技术存在的问题是：目前的Tf-Idf算法对组合词的边界识别很差，组合词经常不是具有完整语义的短语；TextRank只能对单个词进行抽取，无法抽取组合词，导致TextRank算法抽取出的关键词过于泛化，无法表达明确语义。

发明内容

针对现有技术存在的问题，本发明提供了一种多文档关键词自动抽取方法及系统、计算机程序。

本发明是这样实现的，一种多文档关键词自动抽取方法，所述多文档关键词自动抽取方法抽取关键词种子；利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整；组合词语意完整，则是关键组合词；组合词语意不完整，则左右扩展，即尝试将该词语的左、右方曾经在文中出现的其他词与该词语进行组合，直到组合词达到语义完整的标准后为止。

进一步，所述抽取关键词种子具体包括：

计算文档中所有词的Tf-Idf得分；

计算文档中所有词的TextRank得分；

计算文档中所有词的最终得分，计算公式为score(t)＝Tf-Idf(t)*TextRank(t)；

过滤掉非名词部分；

选取名词中得分最高的k个词作为关键词种子。

进一步，所述左右扩展采用基于左右邻信息的种子词扩展，围绕关键词种子扩充，找到包含关键词种子，语意完整的关键短语。

本发明的另一目的在于提供一种所述多文档关键词自动抽取方法的多文档关键词自动抽取系统，所述多文档关键词自动抽取系统包括：

抽取模块，用于抽取关键词种子；

判断模块，用于利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整。

所述判断模块进一步包括：

Tf-Idf得分单元，用于计算文档中所有词的Tf-Idf得分；

TextRank得分单元，用于计算文档中所有词的TextRank得分；

最终得分计算单元，用于计算文档中所有词的最终得分，计算公式为score(t)＝Tf-Idf(t)*TextRank(t)；

过滤单元，用于过滤掉非名词部分；

选取单元，用于选取名词中得分最高的k个词作为关键词种子。

本发明的另一目的在于提供一种实现所述多文档关键词自动抽取方法的计算机程序。

本发明的另一目的在于提供一种搭载有所述计算机程序的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的多文档关键词自动抽取方法。

本发明对现有的多文档关键词自动抽取方法中的组合词抽取部分进行改进，可以发现语意完整，截断合理的关键短语的抽取方法，使得多文档关键词自动抽取获得的结果的可读性大大增强。

由于本发明抽取的关键词长度并不固定，而是根据实际的语义特征动态决定，因此相比TFIDF算法，本发明抽取的关键短语更加灵活，语义更加完备。相比之下，TFIDF算法只能抽取固定长的一元二元词，完全不考虑词语是否是合适的组合，是否有实际意义。

本发明抽取出的关键词具有更大的平均长度，并且具有更丰富、完整的语意能够更好地描述多文档的主题。相比之下，Tf-Idf算法抽取出的关键词更加细碎，语义宽泛而不具体，无法表示文档的主题。

本发明的实用性得到保障，节约标注的人工成本，对任何无标注语料都可以进行自动关键词抽取。

以下是本发明的算法与传统的Tf-Idf算法在某机械领域语料上的关键词抽取效果的对比：

1视图选择 1表示

2齿轮减速器 2应力计算

3载荷平稳 3设计

4切削层尺寸 4器件尺寸

5基本绘图命令 5结构

6正立投影面 6加工

7切削部分 7材料

8直齿轮 8条件

9传动齿轮 9作用

10应力循环次数 10过程

可以直观地看到，左边本发明的算法抽取出的关键词具有更大的平均长度，并且也具有更丰富、完整的语意能够更好地描述多文档的主题。而相比之下，Tf-Idf算法抽取出的关键词更加细碎，语义宽泛而不具体，无法表示文档的主题。

附图说明

图1是本发明实施例提供的多文档关键词自动抽取方法流程图。

图2是本发明实施例提供的多文档关键词自动抽取方法实现流程图。

图3是本发明实施例提供的多文档关键词自动抽取系统结构示意图；

图中：1、抽取模块；1-1、Tf-Idf得分单元；1-2、TextRank得分单元；1-3、最终得分计算单元；1-4、过滤单元；1-5、选取单元；2、判断模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相比单文档关键词自动抽取，多文档可以提供更有效的统计学上的支撑。信息对组合词的抽取极为重要，组合词的抽取效果好坏除了取决于其中的一元词质量，更多地是取决于组合词的语义完整性以及组合词内部的搭配合适性，信息需要从大量的文档中获取，获取信息的方式也就决定了组合词抽取的效果。多文档关键词自动抽取技术面临的最大挑战是组合词的边界识别问题，好的边界识别可以让抽取出的关键短语具有完整、明确的语义。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的多文档关键词自动抽取方法包括以下步骤：

S101：抽取关键词种子；

S102：利用文本中词之间相互位置的统计信息衡量一个组合词是否是一个语意完整，内部搭配“固定化”且外部环境“多样化”的短语；

S103：如果某组合词满足上述原则，则认为其是一个关键组合词，如果不满足上述性质，则进行左右扩展，直到扩展出的词满足语意完整。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的多文档关键词自动抽取方法具体包括以下步骤：

1)基于Tf-Idf与TextRank的关键词种子抽取算法

Tf-Idf评估词语对于一个文档集或一个语料库中的重要程度。词语的重要性随着它在文档中出现的次数成正比增加，同时会随着它在背景语料库中出现的频率上升而下降。

Tf-Idf便是上述两个指标的乘积组合。Tf称为词频，Df称为文档频率，Idf被称作逆向文档频率，是Df的函数。

Tf定义为：

Idf定义为：

Tf-Idf定义为：

TF-IDF＝TF(词频)×IDF(逆文档频率)；

在Tf-Idf算法中，对每个词语计算得分后，得分越大的词语越适合作为关键词。

TextRank针对文本里的句子设计的权重算法。它利用投票的原理，让每一个单词给它的邻居(术语称窗口)投赞成票，票的权重取决于自己的票数。每次投票的权重公式计算如下：

权重越大的词对周围词的投票力度也会更大，从而导致周围词的权重也会变大，但是最终的权重会收敛到某一值。

基于Tf-Idf与TextRank的关键词种子抽取算法，在分别计算Tf-Idf值和TextRank权值之后将二者的乘积作为最终的关键词评价指标，并且仅仅专注于关键词中的名词部分，得到了较好的抽取效果。具体细节如下：

计算文档中所有词的Tf-Idf得分；

计算文档中所有词的TextRank得分；

过滤掉非名词部分；

选取名词中得分最高的k个词作为关键词种子。

2)基于左右邻信息的种子词扩展算法，围绕关键词种子进行扩充，找到包含关键词种子，语意完整的关键短语。

如图3所示，本发明实施例提供的多文档关键词自动抽取系统包括：

抽取模块1，用于抽取关键词种子；

判断模块2，用于利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整。

判断模块1进一步包括：

Tf-Idf得分单元1-1，用于计算文档中所有词的Tf-Idf得分；

TextRank得分单元1-2，用于计算文档中所有词的TextRank得分；

最终得分计算单元1-3，用于计算文档中所有词的最终得分，计算公式为score(t)＝Tf-Idf(t)*TextRank(t)；

过滤单元1-4，用于过滤掉非名词部分；

选取单元1-5，用于选取名词中得分最高的k个词作为关键词种子。

下面结合具体实施例对本发明的应用原理作进一步的描述。

左邻个数：指真实文本中与候选种子左边相邻的元素的个数，元素为分词碎片。

右邻个数：指真实文本中与候选种子右边相邻的元素的个数，元素为分词碎片。

最频繁左邻在某个候选种子的左邻集合中，出现次数最多的字或词，本发明称这个字或者词为候选种子最频繁左邻。某个候选种子的最频繁左邻最有可能成为此候选种子向左扩展时所需要的元素。

最频繁右邻在某个候选种子的右邻集合中，出现次数最多的字或词，本发明称这个字或者词为候选种子的最频繁右邻。某个候选种子的最频繁右邻最有可能成为此候选种子向右扩展时所需要的元素。应该注意的是，最频繁左邻与最频繁右邻可能不为1。

最频繁左邻比：候选种子的最频繁左邻在候选种子左邻出现的次数与候选种子的左邻个数的比率。

最频繁右邻比：候选种子的最频繁右邻在候选种子右邻出现的次数候选种子的右邻个数。

对于某种子词“应力”：假设其在焊接的领域内共出现过10次。其左邻分别为：残余(4次)，焊接(2次)，消除(2次)，切(2次)。那么最频繁左邻显然是“残余”，其最频繁左邻比为0.4，“残余”，最可能成为应力的一个左扩展单元。扩展为“残余应力”。而进一步对“残余应力”进行扩展时，发现其左邻相对多样化，并且没有任何一个左邻占据主导地位，也即“残余应力”的最频繁左邻比较小，说明“残余应力”已经可以作为一个相对独立的词出现在多样化的上下文中了，那么这个词就可以作为一个完整的语义单元被纳入最终的关键词集合。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多文档关键词自动抽取方法，其特征在于，所述多文档关键词自动抽取方法抽取关键词种子；利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整；组合词语意完整，则是关键组合词；组合词语意不完整，则左右扩展；

所述多文档关键词自动抽取方法具体包括:

左邻个数：指真实文本中与候选种子左边相邻的元素的个数，元素为分词碎片；

右邻个数：指真实文本中与候选种子右边相邻的元素的个数，元素为分词碎片；

最频繁左邻在某个候选种子的左邻集合中，出现次数最多的字或词为候选种子最频繁左邻；某个候选种子的最频繁左邻最有可能成为此候选种子向左扩展时所需要的元素；

最频繁右邻在某个候选种子的右邻集合中，出现次数最多的字或词为候选种子的最频繁右邻；某个候选种子的最频繁右邻最有可能成为此候选种子向右扩展时所需要的元素；

最频繁左邻比：候选种子的最频繁左邻在候选种子左邻出现的次数与候选种子的左邻个数的比率；

最频繁右邻比：候选种子的最频繁右邻在候选种子右邻出现的次数候选种子的右邻个数；

对于某种子词应力：假设其在焊接的领域内共出现过10次；其左邻分别为：残余4次，焊接2次，消除2次，切2次；最频繁左邻显然是残余，最频繁左邻比为0.4，残余，最可能成为应力的一个左扩展单元；扩展为残余应力；对残余应力进行扩展时，残余应力的最频繁左邻比较小，说明残余应力作为一个相对独立的词出现在多样化的上下文中，那么这个词作为一个完整的语义单元被纳入最终的关键词集合。

2.如权利要求1所述的多文档关键词自动抽取方法，其特征在于，所述抽取关键词种子具体包括：

计算文档中所有词的Tf-Idf得分；

计算文档中所有词的TextRank得分；

过滤掉非名词部分；

选取名词中得分最高的k个词作为关键词种子。

3.如权利要求1所述的多文档关键词自动抽取方法，其特征在于，所述左右扩展采用基于左右邻信息的种子词扩展，围绕关键词种子扩充，找到包含关键词种子，语意完整的关键短语。

4.一种如权利要求1所述多文档关键词自动抽取方法的多文档关键词自动抽取系统，其特征在于，所述多文档关键词自动抽取系统包括：

抽取模块，用于抽取关键词种子；

5.如权利要求4所述的的多文档关键词自动抽取系统，其特征在于，所述判断模块进一步包括：

Tf-Idf得分单元，用于计算文档中所有词的Tf-Idf得分；

TextRank得分单元，用于计算文档中所有词的TextRank得分；

过滤单元，用于过滤掉非名词部分；

6.一种实现权利要求1～3任意一项所述多文档关键词自动抽取方法的计算机程序。

7.一种搭载有权利要求6所述计算机程序的信息数据处理终端。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的多文档关键词自动抽取方法。