CN114297388A

CN114297388A - 一种文本关键词提取方法

Info

Publication number: CN114297388A
Application number: CN202111674485.9A
Authority: CN
Inventors: 封晨; 金玉赫; 王鹏飞; 张羽; 杨琳
Original assignee: Tianjin Optical Electrical Communication Technology Co Ltd
Current assignee: Tianjin Optical Electrical Communication Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08
Anticipated expiration: 2041-12-31
Also published as: CN114297388B

Abstract

本发明涉及文本处理技术领域，具体涉及一种文本关键词提取方法，包括如下步骤：S1、建立关键词提取模型，所述关键词提取模型包括BERT模型层、Bi‑LSTM模型层和CRF模型层；S2、构建训练样本，所述训练样本包括多个文本，并使用所述训练样本训练所述关键词提取模型，同时将所述关键词提取模型作为Student模型，通过TF‑IDF算法和TextRank算法分别构建Teacher模型，建立知识蒸馏框架，使得所述Student模型接近所述Teacher模型，进而优化所述关键词提取模型；S3、使用训练好的所述关键词提取模型对文本关键词进行提取。该方法不过分依赖先验知识，可以实现利用较少量数据训练较大体量的模型，并弥补传统机器学习方法存在的种种不足，提升关键词提取的准确性。

Description

一种文本关键词提取方法

技术领域

本发明涉及文本处理技术领域，具体涉及一种文本关键词提取方法。

背景技术

文本关键词代表了文本的主要概念和关键性内容,是理解文本内容最简洁和最快速的方法。文本关键词抽取,也称关键词提取或关键词标注,是从文本中把与该文本所要表达的意义最相关的一些词或短语抽取出来的一种自动化技术。关键词抽取在图书馆学、情报学、自然语言处理等领域有重要的实际应用价值。

现有的关键词抽取方法可以分为两类：有监督机器学习方法和无监督机器学习方法。

基于有监督学习的关键词抽取方法的一般步骤是：首先，建立一个包含大量文本和人工标注的对应关键词的训练数据集；然后，利用建立好的训练数据集对构造的关键词抽取算法进行训练得到一个模型；最后，应用训练好的模型对新文本进行关键词抽取。有监督机器学习的关键词抽取算法常借助决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、最大熵模型(ME)、隐Markov模型(HMM)、条件随机场(CRF)等机器学习模型。在有监督的关键词抽取方法当中，训练数据集的质量会直接影响到模型的准确性，从而影响着关键词抽取的效果。具体有两方面的原因，一方面，现已标注关键词的文本有限，训练集要自己去标注会花费大量的人力物力，工作量十分巨大，而且人工标注关键词不可避免地带有一定的人为主观判断，会造成实验数据的不一致性影响模型训练的效果。另一方面，在一个领域训练的关键词抽取模型往往很难直接应用于另一个领域或者在应用于其他领域时效果会大幅下降，比如在规范性的论文数据集上训练出的模型就很难直接应用于随意性较大的互联网文本。因此，如何获取一个高质量的文本关键词抽取的训练集合，并且使训练出来的关键词抽取模型在不同的领域之间具有很好的迁移性是有监督算法的难点所在。

相对于有监督方法而言，无监督的关键词抽取方法是近年来关键词抽取研究和应用的热点，其经常采用的技术手段包括：基于统计的方法、基于主题的方法、基于网络图的方法等。

基于统计的方法存在以下缺点：特征粒度过粗，模式共性过强，导致在短文的复杂表示的任务中，不具有普适性。统计模型缺乏强语义特征，序列特征，只是简单地使用余弦相似度，缺乏深度。统计方法过分依赖先验知识，当出现分词错误或词性标注错误的情况下，精度明显受损。每个词独立分类，并不符合语言模型，因为词与词之间的关联并未被考虑。

因此，有必要基于统计的关键词提取方法，不过分依赖先验知识，可以实现利用较少量数据训练较大体量的模型，并弥补传统机器学习方法存在的种种不足，提升关键词提取的准确性。

发明内容

解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种关键词提取方法，该方法不过分依赖先验知识，可以实现利用较少量数据训练较大体量的模型，并弥补传统机器学习方法存在的种种不足，提升关键词提取的准确性。

技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种文本关键词提取方法，包括如下步骤：

S1、建立关键词提取模型，所述关键词提取模型包括BERT模型层、Bi-LSTM模型层和CRF模型层，所述BERT模型层用于对输入文本进行分词，生成若干关键词，并对所述若干关键词分别进行向量化；所述Bi-LSTM模型层用于对所述若干关键词进行分类，并提取与文本主题最接近的一类关键词；所述CRF模型层用于从该类关键词中提取与文本主题最接近的一个关键词；

S2、构建训练样本，所述训练样本包括多个文本，并使用所述训练样本训练所述关键词提取模型，同时将所述关键词提取模型作为Student模型，通过TF-IDF算法和TextRank算法分别构建Teacher模型，建立知识蒸馏框架，使得所述Student模型接近所述Teacher模型，进而优化所述关键词提取模型；

S3、使用训练好的所述关键词提取模型对文本关键词进行提取。

进一步地，所述TextRank算法构建Teacher模型为图模型，利用图模型获取每个主题的分值，其中，图模型的顶点代表主题，图模型的边代表构成边的两个顶点所表示主题间的语义关系，两个主题间的语义关系决定两个主题间的分值权重，将边的两个顶点代表的主题记为ti、tj，则主题ti、tj构成的边的分值权重wi,j由主题ti、tj包含的候选关键词的相对位置，主题ti、tj包含的候选关键词的绝对位置和主题ti、tj包含的候选关键词的长度确定；根据分值对主题进行排序，从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词。

基于同一发明构想，本发明提供了一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一项所述的方法。

基于同一发明构想，本发明提供了一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的方法。

有益效果

本发明提供了一种关键词提取方法，该方法不过分依赖先验知识，可以实现利用较少量数据训练较大体量的模型，并弥补传统机器学习方法存在的种种不足，提升关键词提取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的关键词提取方法步骤示意图；

图2为本发明一实施例提供的关键词提取方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1-2，本发明一实施例提供了一种文本关键词提取方法，包括如下步骤：

具体地，基于统计的方法利用的是文本的统计特征来进行关键词抽取，例如文本中关键词词频等。在基于统计的方法中比较著名的一个方法是TF-IDF算法，TF(“TermFrequency”的缩写)代表文章中某一个候选关键词出现的频率，如果一个候选关键词出现的频率越高，则它的TF值越大。IDF(“Inverse Document Frequency”的缩写)表示一个候选关键词的常见程度，候选关键词在文档中越常见则它的IDF值越低。TF-IDF算法的主要思想是如果某个候选关键词在一篇文章中出现的频率即TF值高，并且在其他文章中很少出现，即IDF值同样也高，那么这一个候选关键词对这篇文章就具有很好的代表性，能够作为代表文章内容的一个关键词。

具体地，基于网络图的方法也称为“图模型”，它是利用网络图来对候选关键词进行排名，得分最高的候选关键词选出作为文本的关键词。TextRank算法是图模型算法当中具有代表性的一个算法，其思想来源于著名的PageRank算法，它采用了投票(vote)的策略来对候选关键词进行排名，即一个重要的节点所指向的节点也相应更为重要。在TextRank算法当中，在某一个窗口范围之内(间隔5个词或间隔10个词)的候选关键词被认为两者之间具有语义关系，能够给彼此投票。在TextRank算法之后，有很多模型对其进行了改进，如TopicRank算法，TopicRank算法认为文章的语义是由一个一个的主题代表的，用单个词或词组来代表文章容易造成单个词或词组的语义重复，因此TopicRank算法在用图模型进行排序时，所构造的图模型的顶点不是单个的单词或词组，而是根据一定的规则聚成类的主题，实验证明这种方法在TextRank算法的基础上能有效提升模型的关键词抽取效果。

参阅图2，本实施例采用上述两种方法对本发明的所述关键词提取模型进行干扰，提升其准确性。具体地，使用Tf-idf和TextRank算法做Teacher Model，使用bert+BiLSTM+CRF作为student Model，用Teacher Model预测的标签以及权重去训练Student Model，在训练50个Epoch之后改用Label data作为ground Truth再做50个Epoch的训练，之后使用Stacking的思想，将Teacher Model与Student Model融合。

在本实施例中，所述TextRank算法构建Teacher模型为图模型，利用图模型获取每个主题的分值，其中，图模型的顶点代表主题，图模型的边代表构成边的两个顶点所表示主题间的语义关系，两个主题间的语义关系决定两个主题间的分值权重，将边的两个顶点代表的主题记为ti、tj，则主题ti、tj构成的边的分值权重wi,j由主题ti、tj包含的候选关键词的相对位置，主题ti、tj包含的候选关键词的绝对位置和主题ti、tj包含的候选关键词的长度确定；根据分值对主题进行排序，从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词。

基于同一发明构想，本发明还提供了一种电子设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述文本关键词提取方法。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器(例如GPU(Graphics Processing Unit-图形处理器))、或其他数据处理芯片。该处理器通常用于控制所述电子设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述的文本关键词提取方法的程序代码。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述电子设备的内部存储单元，例如该电子设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述电子设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器通常用于存储安装于所述电子设备的操作方法和各类应用软件，例如所述文本关键词提取方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

基于同一发明构想，本发明还提供一种可读存储介质，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现所述文本关键词提取方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims

1.一种文本关键词提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的文本关键词提取方法，其特征在于，所述TextRank算法构建Teacher模型为图模型，利用图模型获取每个主题的分值，其中，图模型的顶点代表主题，图模型的边代表构成边的两个顶点所表示主题间的语义关系，两个主题间的语义关系决定两个主题间的分值权重，将边的两个顶点代表的主题记为ti、tj，则主题ti、tj构成的边的分值权重wi,j由主题ti、tj包含的候选关键词的相对位置，主题ti、tj包含的候选关键词的绝对位置和主题ti、tj包含的候选关键词的长度确定；根据分值对主题进行排序，从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词。

3.一种电子设备，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1或2所述的方法。

4.一种可读存储介质，其特征在于，所述可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1或2所述的方法。