CN110188344A

CN110188344A - 一种多特征融合的关键词提取方法

Info

Publication number: CN110188344A
Application number: CN201910328467.1A
Authority: CN
Inventors: 高楠; 李利娟; 李伟; 祝建明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-30

Abstract

一种多特征融合的关键词提取方法，首先根据文本词性和词频信息筛选候选关键词，统计候选关键词的多种特征属性，训练基于决策树分类模型，将新文本中的候选关键词的属性信息输入模型预测出文本的关键词序列，然后进行n‑gram连接得到关键词组，最后取权重最高的topK个关键词或关键词组进行结果评估。本发明可以全面的考虑关键词在文本中的词频、位置、跨度、词性、词语的区分度等信息，并结合机器学习分类算法得到分类的概率值，最后结合关键词的权重信息和n‑gram信息计算关键词组的最终得分。可以有效的提取关键词和关键词短语，相较于现有的方法在准确率上有一定的提升。

Description

一种多特征融合的关键词提取方法

技术领域

本发明涉及一种基于多特征融合的关键词提取方法，特别是针对学术摘要文本的关键词提取。利用中文文本分词工具对文本进行分词，然后再统计文本词语的多种属性特征，将关键词提取看作一个二分类问题利用机器学习分类模型训练关键词分类器，涉及概率模型，语言模型，机器学习等领域，具体涉及基于机器学习建模领域。

背景技术

随着学术研究成果的不断积累，论文库越来越大，如何在海量的学术文章中准确的找到领域相关的文章是一个重要的技术要求。关键词提取能够对文本的主要信息进行提炼，能够很好的提取出反映文章主要内容的关键短语，更好的提高了信息查询的准确度和信息访问的效率。

从提取方法来说大致有两种：关键词分配，即给定一个关键词库然后从词库中找到几个短语作为某篇文章的关键词。另一种方法是关键词提取，即就是从一篇文章中提取一些词语作为这篇文章的关键词。目前大多数关键词研究都是基于关键词提取的，关键词提取相比于关键词分配更具有实际意义。基于是否需要标记语料库，自动关键词提取方法可以大致分为有监督方法和无监督方法。有监督机器学习是从给定的训练集中训练出一个模型,对新数据,利用这个模型来预测结果。在关键词抽取领域中,可以把关键词抽取任务转化为分类问题或标注问题即:把文档中的词看成是候选的关键词,通过分类学习算法或序列标注方法来判断这些候选词是否为关键词。基于有监督学习的关键词抽取的一般步骤是:首先,建立一个包含大量文本并标出关键词的训练集合；然后，利用训练集合对分类或标注算法进行训练得到一个模型；最后,应用训练好的模型对新文本进行关键词抽取。从研究方法上有监督学习方法又可以被分为两类：一是把关键词抽取看成二分类问题，即判断文档中的一个词是关键词或不是关键词。有监督学习的方法，研究点主要放在词语特征表示、分类模型表示和标注语料方面。无监督关键词提取方法包括语言分析法、统计方法、主题方法和基于网络图的方法。这些方法用于从未标记的语料库中提取关键词。比较经典的TFIDF方法考虑了词的频率和逆文档频率，TF-IWF等方法在此基础上做了改进。TextRank考虑了词的共现信息，Rake方法考虑了词的共现矩阵中词的度的信息和词频信息。现在也有很多研究者在此基础上作者各种改进，尽管如此现有的关键词提取方法不足之处还是很明显：1、候选词的属性考虑不全面，有的考虑了词的频率忽略了词性、位置信息，有的考虑了词的共现信息忽略了文本结构信息等，影响了关键词提取的准确率。2、候选词的评分机制过于主观化，以人的先验知识作为评分规则的解释标准或是根本就没有说明评分规则设定的依据。

在学术论文分析领域，关键词对于任何学术论文都是非常重要的，关键词是反映学术论文主旨的单个词或词语的组合，是一篇文章中的一组重要词汇，它向读者提供了对其内容的高级描述，是对文本最简洁的描述，也可以基本上反映文本主题，在信息检索、文本分类和聚类、数据挖掘等领域有重要意义。学术关键词存在于文本标题和摘要甚至全文中的语句都是蕴藏大量原始知识内容的集合体中，但是学术文章中关键词提取面临着很多的难点：一方面，学术论文章节多、信息量大，关键词全文提取获得的候选词数量巨大，加重了选择的难度，降低了准确度。另一方面，受知识产权保护，大量学术论文仅提供前16页或大纲、摘要部分供读者阅览，难以从全文中提取关键词。尽管有许多标记界面可以手动标记文献，但这种行为既可以是主观的，也是劳动密集型的，所以关键词提取在学术文章领域有很好的应用前景。

因此，如何有效的提取学术文本中的关键词，快速、准确的实现学术摘要中关键信息的提取，成为需要技术人员解决的问题。

发明内容

为了解决现有学术文章领域文本关键内容的抽取问题，针对现阶段关键词抽取技术考的不足之处，本发明提出了一种结合多种统计特征的关键词分类方法，可以全面的考虑关键词在文本中的词频、位置、跨度、词性、词语的区分度等信息，并结合机器学习分类算法得到分类的概率值，最后结合关键词的权重信息和n-gram信息计算关键词组的最终得分。可以有效的提取关键词和关键词短语，相较于现有的方法在准确率上有一定的提升。

为了解决上述问题，本发明提供的技术方案为：

一种多特征融合的关键词提取方法，包括以下步骤：

步骤1：从中国知网上学术信息，解析html文件，提取网页中文本标题、摘要和关键词；

步骤2：对提取的文本进行处理，标题和摘要合并成一个短文本，除去文本中的特殊符号，对文本进行分句处理；

步骤3：利用分词工具对文本进行分词和词性标注得到单词，对上述单词进行过滤根据词性选择生成候选关键词集合；

步骤4：将文本分成训练文本和测试文本，根据文本和关键词组信息，对文本中的单词进行标签化处理，如果出先在关键词序列中或是关键词组的一部分label＝1,否则label＝0；

步骤5：统计候选关键词集合中词语在文本中出现的频率、句子中出现的频率、词语的跨度、词语的共现情况以及词语在文本中的位置信息；

步骤6：由上述统计信息利用公式计算得到单词的各种特征属性；

步骤7：由训练文本得到的上述特征属性信息用C4.5决策树分类方法训练关键词分类器；

步骤8：用测试集合中文本单词的统计属性对单词进行预测，得到关键词序列；

步骤9：对得到的关键词计算进行评分；

步骤10：对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组，计算关键词组的得分；

步骤11：将关键词和关键词组根据字符串的编剧距离计算两个关键词(组)的距离dist。如果dist大于阈值，保留关键词(组)权重更高的一个，经过筛选后得到最终的关键词(组)序列；

步骤12：对关键词(组)序列进行排序获得topK个关键词(组)。

与现有技术相比，本发明的优点在于：

1.不仅考虑和词语的词频、位置、共现、情况还考虑的词语的句子、词性、跨度、结构等特征，很好的提高了关键词提取的准确率。

2.利用分类模型对关键词评分进行排序，很好的学习了文本中关键词在文本中各种属性的关系，避免了人为设定评分标准的主观影响因素。

3.在获得关键词序列后在对用关键词组进行扩展，在一定程度上减少了计算量，提高了程序的效率。

附图说明

图1为本发明的数据存储格式图；

图2为本发明的整体流程示意图；

图3为关键词词性统计结果图；

图4为实例文本词语共现连接图；

具体实施方式

下面结合附图对本发明作进一步详细说明。

参照图1～图4，一种多特征融合的关键词提取方法，包括以下步骤：

步骤5：统计候选关键词集合中词语在文本中出现的频率、句子中出现的频率、词语的跨度、词语的共现情况以及词语在文本中的位置信息等；

步骤9：对得到的关键词计算进行评分；

步骤12：对关键词(组)序列进行排序获得topK个关键词(组)。

本实施例以‘轮机工程’领域相关的文本为例进行展示：

步骤1：从中国知网上学术信息，解析html文件，提取网页中文本标题、摘要、关键词等信息。

步骤2：对提取的文本进行处理，除去文本中的“引号，感叹号，波浪号，省略号”等特殊符号。得到的数据如图1所示的文本结果。接着将标题和摘要合并成文本形式，利用句子分隔符好对文本进行分句。对关键词字符串用“；”进行分割，得到关键词列表。

步骤3：根据对关键词词性的统计，所有候选关键词词性应在pos_list＝['m','p','j','s','t','nrt','nr','ad','l','eng','c','uj','f','q','b','h','o','r','vd','zg','ns','an','v','a','ng','i','k','d','nz','nt','n','vn','x']列表中进行选择。根据搜狗实验室的停用词库，去除文本中的停用词。利用jieba分词工具对文本进行分词和词性标注得到单词，过滤生成候选关键词集合。jieba词性标注参考表1：

表1

步骤4：将文本分成训练文本和测试文本。根据文本和关键词组信息，对文本中的单词进行标签化处理，如果出先在关键词序列中或是关键词组的一部分label＝1,否则label＝0。

步骤5：统计候选关键词集合中单词的词频，在各个句子或文本中出现的情况，单词的共现矩阵等信息。词的跨度信息，在相邻窗口中单词与其他词语的共享情况，词的共现矩阵中的入度和出度信息，词的位置信息等。文本中词语的共现情况如图4。

步骤6：由上述统计信息得到单词的各种属性信息。

(1)词语的频率(Wfreq)

词频TF(w)表示词语w在该文档中出现的次数，我们假设文本中词语出现的次数越高则这个词的词频越大，对应在文本中的重要程度越高。为了防止在长文本中这个值偏大，我们用标准差来平衡所有高频率的词的权重，所以用词频除以词频的平均值加上他们的标准差的形式，如公式(1)所示：

(2)词的位置(Wposition)

词语所在的位置也是关键词提取中的重要的特征，特别是在科学或新闻类文章中，往往一个词出现在标题或者是文章的前面的概率大一点。因此我们把位置信息分成了三类第一类是出现在标题中，第二类是出现在摘要的段首或短尾，其他的归结为另一类。我们认为词的位置越靠前，是文章的关键词的概率大一些。

其中sen₀表示词语出现在标题中的位置，sen_1,2表示词语在摘要中的1，2句中的位置，sen_j表示词语在其他句子中的位置，median()是中值函数。

(3)词语共现情况(Wrel)

这个值可以量化某个词和停用词之间的相似性，候选词的wrel值越大表示其与停用词的相似度越大。我们用候选关键词左右两侧口大小为n的窗口中出现的不同的词语的个数来量化这个值。与候选关键词共现的不同的词语越多，则这个值越大，候选关键词越无意义。

其中WL/WR表示左/右半边窗口出现不同词的数量，PL/PR表示左/右半边候选词共同出现的不同词的数量与它共同出现的词的数量之间的比率。TF(w)表示候选词在文本中出现的频率，MaxTF表示所有单词中的最大术语频率。候选词越不重要，W_rel值就越高。因此，类似停用词的术语很容易获得更高的分数。

(4)词语在句子中出现频率(WdifSentence)，这个值可量化候选词在不同句子中出现的频率。

其中#sentences表示文本句子总数，SF(w)候选词w出现过的句子数。

(5)词性权重(Pos_weight)

学术论文中候选关键词主要是名词，动名词等，所以词性信息也是关键词提取的一个很重要的因素。针对学科论文标题和摘要进行统计词性最多的是Pos_list＝['n','vn','v','l','eng','m','a','p','b','j','nr','nz','d','ns','t','q','nt','k','i','c','nrt','r','an','x','h','ng','f','vd','uj','zg','o','s','ad']根据统计结果，我们用上述词性作为筛选条选出候选关键词。将词性标注划分成3个等级：

其中的符号代表词语的词性:’n’表示名词、’v’表示动词等。

经过以上步骤，统计得到词语的各种统计信息如表2：

表2

其中occrs是中间存储变量，字典表示{词语在文中出现的总次数：[(句子中的位置，文本中的位置)]}，label表示该词是否是关键词的一部分，label＝1表示是，label＝0表示否。

步骤7：由训练文本得到的上述统计信息用C4.5决策树分类方法训练关键词分类器。

步骤8：用测试集合中文本单词的统计属性对单词进行预测，得到关键词序列。

步骤9：对得到的关键词计算进行评分：

sw_weight＝prob×pos_weight×tf (6)

其中prob是有分类模型得到的概率值，pos_weight是单词的词性权重，tf表示单词的频率。

步骤10：对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组。结合(6)式计算关键词组的得分：

cw_weight＝avg(∑sw_weight) (7)

步骤11：将关键词和关键词组根据字符串的编剧距离计算两个关键词(组)的距离dist。如果dist大于阈值，保留关键词(组)权重更高的一个，得到最终的关键词(组)序列。

步骤12：对关键词(组)序列进行排序获得topK个关键词(组)。输出提取的文本关键词组。

本发明综合考虑了学术文本中词语的词频、位置、词语共现性等多种统计特征，首先将关键词提取看作一个二分类问题，利用C4.5决策树的方法预测词语的分类结果，能够从更深的层次挖掘词语之间的内在联系，以及潜在的影响词语分类结果的关联属性。然后结合人为的评估计算方法对结果进行筛选，进一步提升了结果的准确率。

本发明已经通过上述实例进行了说明，但应当注意的是实例只是解释说明的目的，而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明，本领域研究人员应当能够理解：其依然可以随前述各实例所记载的技术方案进行修改，或者对其部分技术特征进行同等提花；二这些修改或替换，并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权力要求书机器等效范围所界定。

Claims

1.一种多特征融合的关键词提取方法，其特征在于，所述方法包括以下步骤：

步骤9：对得到的关键词计算进行评分；

步骤11：将关键词和关键词组根据字符串的编剧距离计算两个关键词的距离dist。如果dist大于阈值，保留关键词权重更高的一个，得到最终的关键词序列；

步骤12：对关键词序列进行排序获得topK个关键词。