CN112765979B

CN112765979B - 论文关键词提取系统及其方法

Info

Publication number: CN112765979B
Application number: CN202110059411.8A
Authority: CN
Inventors: 李显勇; 李齐治; 杜亚军; 范永全; 陈晓亮
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-05-09
Anticipated expiration: 2041-01-15
Also published as: CN112765979A

Abstract

本发明涉及人工智能领域，具体是论文关键词提取系统，包括训练集、Jieba分词器、清洗模块、权重计算模型、频率计算模型和输出模型；论文关键词提取方法，包括如下步骤：S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集；S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语，并通过清洗模块输出关键词语；S3、将步骤S2的结果输入权重计算模型进行训练；S4、将步骤S2的结果输入频率计算模型进行训练；S5、将步骤S3和S4的输出结果输入输出模型进行训练；S6、将目标论文输入权重计算模型、频率计算模型和输出模型，得到关键字；提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。

Description

论文关键词提取系统及其方法

技术领域

本发明涉及人工智能领域，具体是指论文关键词提取系统及其方法。

背景技术

一篇论文，分为摘要、关键字、目录、正文、致谢、参考文献和总结，读者在检索或工作需求时，需要快速的找出谋篇论文的关键字，虽然论文都设置了关键字一项，但是此关键字并非准确，需要读者自行判断，由于关键字主要出现在摘要、正文和总结中，因此现有技术通常利用如下两种方法进行提取：

(1)无监督的方法不需要一张人工生成、维护的词表，也不需要人工标准语料辅助进行训练，极大地增大了系统的运行效率，降低了人工的成本，TF算法是一种无监督的基于统计的关键字提取算法，用于评估一个文档集中一个词对某份文档的重要程度，还能统计一个词在一篇文档中出现的频次，如果一个词在一篇文档中出现的次数过多，那么表明这个词语对这篇文章的表达就更强，但使用无监督的方法缺点在于准确率不高；

(2)有监督的方法训练权重比值，能够得到较高的精度，获得更准确的权重，使得结果能够减少出错的可能，但缺点是运行速度慢。

综上，如何将无监督的方法和有监督的方法结合进行论文中关键字的提取，成为了难题。

发明内容

基于以上问题，本发明提供了论文关键词提取系统及其方法，提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。

为解决以上技术问题，本发明采用的技术方案如下：

论文关键词提取系统，包括

训练集，包含了若干篇用于训练的论文；

词语筛选模块，用于获取论文中正文部分的词语形成词语训练集；

Jieba分词器，用于分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语；

清洗模块，用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语；

权重计算模型，用于计算关键词语在论文训练集内摘要或正文或总结的权重；

频率计算模型，用于计算关键词语在论文训练集内摘要或正文或总结的出现频率；

输出模型，用于输出关键字。

论文关键词提取方法，采用论文关键词提取系统，包括如下步骤：

S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集；

S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语，并将该词语输入清洗模块进行停用词清洗，输出经过停用词清洗后的关键词语；

S3、将步骤S2的结果输入权重计算模型进行训练；

S4、将步骤S2的结果输入频率计算模型进行训练；

S5、将步骤S3和S4的输出结果输入到输出模型进行训练；

S6、将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型，得到关键字。

进一步，所述步骤S1中，获取训练集中论文正文的词语的方法如下：

S11、将论文中除正文内容以外的部分去除，获得论文的正文；

S12、使用正则表达式获取论文的正文中所有词语形成词语训练集。

进一步，所述步骤S3具体包括：

S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值；

S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值，计算单个论文中正文占论文训练集中所有论文的正文的算术平均值，计算单个论文中总结占论文训练集中所有论文的总结的算术平均值；

S33、计算关键词语分别占训练集中摘要、正文和总结的权重。

进一步，所述步骤S31的公式如下：

其中，prop(p)为关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值，p的取值为1代表摘要，2代表正文，3代表总结，k为关键词语，len_i(k)为关键词语的总长度，m为关键词语的数量，len(p)为单个论文中摘要或正文或总结的总长度；

所述步骤S32中算术平均值的公式为：

其中，n为论文训练集中论文的数量，score(p)为单个论文摘要或正文或总结的得分情况；

所述步骤S33的公式如下：

其中，weight(p)为关键词语分别占训练集中摘要、正文和总结的权重。

进一步，所述步骤S4中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下：

其中，tf为关键词语在论文训练集内摘要或正文或总结的出现频率，j为关键词语在论文训练集内摘要或正文或总结的出现次数，N为训练集中摘要或正文或总结的词语数量。

进一步，所述步骤S5中，关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分，关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分，关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分，最后关键词语在摘要、正文和总结中的总得分得到关键字集合。

与现有技术相比，本发明的有益效果是：

(1)针对单个部分(摘要、正文、总结)的权重计算是采用有监督的训练方式，能够使得权重更加真实地反映出某个部分产生关键字的概率，使用本发明只需要经过一次训练，就可以获得更加准确的结果，之后的使用无需再次进行训练，即只有第一次使用需要长时间的训练，之后只需读取文件就能够获得结果；

(2)针对目标论文采用的是基于统计的无监督的方式，整体时间复杂度为O(n)，能够极快地获得最终的结果，同时配合上有监督训练后的权重，既能够再极短的时间内获得极准确的结果；

(3)使用了jieba分词器以及清洗模块，能够将类似于“同时”、“并且”、“然后”等毫无实际意义的词语去除，增加了结果的准确性，减少了需要计算的段落的长度，从而使得时间消耗降低。

附图说明

图1为本实施例的流程图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

论文关键词提取系统，包括

训练集，包含了若干篇用于训练的论文；

词语筛选模块，用于获取论文中正文部分的词语形成词语训练集，由于关键词必然会出现在正文内，因此，以论文中的正文部分的词语形成词语训练集即可，提高运行速度；

清洗模块，用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语，针对论文中停用词的清洗，使得例如“然而”、“并且”等没有实际意义的词语不会成为关键词语，本实施例加载的是哈工大的停用词表；

输出模型，用于输出关键字。

如图1所示，论文关键词提取方法，采用论文关键词提取系统，包括如下步骤：

利用词语筛选模块获取训练集中论文正文的词语的方法如下：

S11、将论文中原始存在的的摘要、abstract、关键字、keyword、目录、总结、致谢、参考文献去掉，即可获得论文的正文内容；

S3、将步骤S2的结果输入权重计算模型进行训练；

具体包括：

S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值，具体公式如下：

S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值，计算单个论文中正文占论文训练集中所有论文的正文的算术平均值，计算单个论文中总结占论文训练集中所有论文的总结的算术平均值，具体公式如下：

S33、计算关键词语分别占训练集中摘要、正文和总结的权重，具体公式如下：

S4、将步骤S2的结果输入频率计算模型进行训练；

具体包括通过TF算法计算关键词语在论文训练集内摘要或正文或总结的出现频率，公式如下：

其中，tf为关键词语在论文训练集内摘要或正文或总结的出现频率，j为关键词语在论文训练集内摘要或正文或总结的出现次数，N为训练集中摘要或正文或总结的词语数量；

另外，TF算法可替换为TextRank算法，或者将两者结合在一起使用。

S5、将步骤S3和S4的输出结果输入到输出模型进行训练；

具体包括将关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分，关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分，关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分，最后关键词语在摘要、正文和总结中的总得分得到关键字集合，公式如下：

K(p)＝tf(p)*weight(p),p＝[1,2,3]

其中，K(p)为摘要或正文或总结中关键字集合，K为关键字集合，另外，可对K进行降序排列，按照用户的需求输出K中排序靠前的关键字。

S6、当权重计算模型、频率计算模型和输出模型都训练好后，用户将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型，最终输出得到排序靠前的关键字。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.论文关键词提取系统，其特征在于：包括

训练集，包含了若干篇用于训练的论文；

输出模型，用于输出关键字；

训练集中，获取训练集中论文正文的词语的方法如下：

S12、使用正则表达式获取论文的正文中所有词语形成词语训练集；

Jieba分词器在进行分词切割时，具体包括：

S33、计算关键词语分别占训练集中摘要、正文和总结的权重；

所述步骤S31的公式如下：

所述步骤S32中算术平均值的公式为：

所述步骤S33的公式如下：

其中，weight(p)为关键词语分别占训练集中摘要、正文和总结的权重；

清洗模块中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下：

权重计算模型中，关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分，关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分，关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分，最后关键词语在摘要、正文和总结中的总得分得到关键字集合，得到关键字集合的公式如下：

K(p)＝tf(p)*weight(p),p＝[1,2,3]

2.一种采用权利要求1所述的论文关键词提取系统进行论文关键词提取的方法，其特征在于：包括如下步骤：

S3、将步骤S2的结果输入权重计算模型进行训练；

S4、将步骤S2的结果输入频率计算模型进行训练；

S5、将步骤S3和S4的输出结果输入到输出模型进行训练；

S6、将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型，得到关键字；

所述步骤S1中，获取训练集中论文正文的词语的方法如下：

所述步骤S3具体包括：

所述步骤S31的公式如下：

所述步骤S32中算术平均值的公式为：

所述步骤S33的公式如下：

所述步骤S4中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下：

所述步骤S5中，关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分，关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分，关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分，最后关键词语在摘要、正文和总结中的总得分得到关键字集合，得到关键字集合的公式如下：

K(p)＝tf(p)*weight(p),p＝[1,2,3]