CN114970523B

CN114970523B - 一种基于文本语义增强的主题提示式关键词提取方法

Info

Publication number: CN114970523B
Application number: CN202210560651.0A
Authority: CN
Inventors: 陈骁; 张元庆; 陈登; 梁婷婷; 吕跃华; 沈凯; 殷昱煜
Original assignee: Zhejiang science and technology information research institute
Current assignee: Zhejiang science and technology information research institute
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-11-29
Anticipated expiration: 2042-05-20
Also published as: CN114970523A

Abstract

本发明公开了一种基于文本语义增强的主题提示式关键词提取方法。本发明首先收集某个领域的短文本数据集，通过分句模块将文本进行分句，对每个句子进行文本增强构造相似文本对。其次将相似文本对进行合并得到增强文本，对增强文本进行分词，将分词后的文本提取一个文本主题。然后将文本主题向量化，再匹配一个初始化的既定主题，既定主题通过主题模板生成模块生成对应的主题提示模板。最后主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示；找到与文本向量最相似的几个词语，将最相似的词语识别为最能描述整个文本的词。本发明将文本增强技术以及提示学习融入到关键词抽取中，提升了对短文本关键词抽取能力。

Description

一种基于文本语义增强的主题提示式关键词提取方法

技术领域

本发明涉及人工智能自然语言处理技术领域，尤其是涉及一种文本语义增强的关键词提取方法。

背景技术

人工智能的发展给人们的生活带来了许多的便利，其中，自然语言处理领域也跟随着人工智能技术的变革逐渐影响着人们的方方面面；尤其在当下这个快节奏的生活里，对于文本的关键词提取技术渐渐深入人心。关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类和文本分类等方面有着重要的应用。

关键词提取算法一般分为有监督和无监督两类：

有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且词表需要及时维护。

相比较而言，无监督的方法对数据的要求低，既不需要一张人工生成且需要持续维护的词表，也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如TF-IDF算法，TextRank算法和主题模型算法(包括LSA，LSI，LDA等)。

但随着社交媒体、新媒体、自媒体的快速发展，我们目前面临全新的文本数据。与传统媒体的数据不同，新媒体与社交媒体的数据往往表现在更短的文本长度，但目前大多数关键词抽取方法都基于长文本的模型，在文本长度较短的新媒体数据上的表现差强人意。同时一些基于预训练语言模型的关键词抽取技术都是所有类型的文本数据进行预训练，但是迁移到下游任务时对一些对垂直领域的数据，如对体育新闻，政治时报等没有很强的鲁棒性，往往表现不佳。这是因为预训练时所学习到的主题、关键词分布是基于整体数据集的，抽取出的关键词比较宽泛，跟下游任务数据集的关键词分布有不少偏差。

发明内容

本发明提供了一种基于文本语义增强的主题提示式关键词提取方法，该方法能有效解决短文本关键词抽取以及预训练模型难以拟合下游任务数据的难题，为后续的工程应用提供新的思路。

为了解决上述问题，本发明包含以下步骤：

步骤一，收集某个领域的短文本数据集，可以是短文评论，文章标题等。

步骤二，通过分句模块将文本进行分句，再通过文本语义增强模块对每个句子进行文本增强构造相似文本对。

步骤三，将相似文本对进行合并得到增强文本，再使用分词模块对增强文本进行分词。

步骤四，将分词后的文本通过主题建模模块提取一个文本主题。

步骤五，通过主题匹配模块将文本主题向量化，再匹配一个初始化的既定主题。

步骤六，既定主题通过主题模板生成模块生成对应的主题提示模板。

步骤七，主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示。

步骤八：使用关键词搜索模块找到与文本向量最相似的几个词语，将最相似的词语识别为最能描述整个文本的词。

进一步，在步骤一中，所述某个领域数据集诸如：体育新闻，科技短讯等垂直领域，具体可使用汽车之家的口碑评论数据，大部分是长度不超过70的短文本数据。

进一步，在步骤二中，所述构造文本语义增强模块是指的通过simBert模型(基于预训练语言模型的文本语义相似度召回模型)生成增强的文本。

进一步，在步骤三中，所述分词模块具体来说是一种基于词典分词的算法，该算法是按照一定的策略将待匹配的字符串和一个已建立好的特征领域词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。

进一步，在步骤四中，所述主题建模模块具体指的是通过隐含狄利克雷分布(LDA)模型，进行初步的主题词建模，送入后续的主题匹配模板模块。

进一步，在步骤五中，所述主题匹配模块首先将文本主题向量化，再与给定的既定主题向量中匹配最接近的既定主题。

进一步，在步骤六中，所述主题模板生成模块结合既定主题生成目标领域的提示模板，用于激活下游预训练语言模型(Bert)的知识。

进一步，在步骤七中，所述文本向量生成模块具体指一个预训练语言模型(Bert)。

进一步，在步骤八中，所述关键词查找模块是在向量空间中查找与当前文本向量最接近的词汇。

本发明的有益效果：本发明将文本增强技术以及提示学习融入到关键词抽取中，优化了模型对短文本关键词抽取能力，同时充分利用了预训练语言模型的知识。

附图说明

图1为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图；

图2为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的具体流程步骤示意图；

图3为本发明实施例的使用主题提示模板进行关键词预测时的输入和输出示意图；

图4为本发明实施例的基于文本语义增强的主题提示式关键词提取方法的模块系统的示意图。

具体实施方式

为了使本发明地目的、技术方案和优点更加清楚，下面对本发明实施方案做进一步详细描述。

本发明实施例的基于文本语义增强的主题提示式关键词提取方法的流程图如图1和图2所示，具体包括以下步骤：

步骤一：收集中文短文本数据集并进行分句，具体为汽车之家的口碑评论数据，有20000+条以上的数据，大部分是长度不超过70的短文本数据。

步骤二：文本语义增强模块通过simbert模型生成相似的文本，生成过程具体来说分成两部分：

第一块是构建Seq2Seq任务，也就是通过输入文本去预测对应相似文本；

第二块是构建语义相似度任务，根据文本对应的CLS向量来计算相似度。

步骤三：分词模块是一种基于词典分词的正向最大匹配算法，具体来说可分为：

步骤(1)：从左向右可重叠地取语句的m个字符作为匹配字符子串，其中，m为机器词典中最长词语的字符数；

步骤(2)：当原句中m个字符的子串与词典的所有词进行匹配，若匹配成功，则将这个匹配字符串作为一个词语；

步骤(3)：若匹配不成功，则将m个字符的最后一个字符去掉，用m-1个字符作为新的匹配字段。即m＝m-1(m>1)，重复1～3步骤，直到切分出所有的词为止。

分词后再根据目标邻域的停用词表去除非必要词汇。

步骤四：主题建模模块使用隐藏狄利克雷分布将文档集中每篇文档的主题以概率分布的形式给出，然后通过分析分到同一主题下的文档抽取其实际的主题，最后根据主题分布进行主题聚类。隐藏狄利克雷分布以文档集合作为输入，最终训练出两个结果向量，即P(单词|主题)和P(主题|文档)这两个概率分布。

步骤五：主题匹配模块首先维护一张既定主题表：包含k个既定主题，参数k的值根据实际需求进行自定义设置，以及每个主题对应的向量映射表。匹配过程如下：

步骤(1)：步骤四生成的主题词通过一个预训练语言模型(Bert)生成主题词的向量表征；

步骤(2)：通过相似度计算，查找在既定主题空间中与主题词向量表征最接近的既定主题向量；

步骤(3)：查找向量映射表，将搜索到的主题向量映射为中文表示的既定主题。

既定主题	既定主题向量
		汽车	V1
房产	V2
		石油	V3
军工	V4

主题词	主题词向量	既定主题向量	既定主题
				油耗高速	(Vi+Vj)/2	V1(0.8)V4(0.2)	汽车

步骤六：主题模板生成模块结合既定主题生成提示(prompt)模板，提示模板生成可分为三种：人工构造模板，自动生成模板以及隐空间中的模板。本发明主要采用人工构造模板中的前缀模板(prefix prompt)。结合上文搜索的既定主题，构造“{input slot}，本文主题为{topic k}，关键词有{answer slot1}{answer slot2}”作为提示模板，其中inputslot作为输入文本的slot，topic k为步骤五生成的既定主题，answer slot1和answerslot2分别为该段文本的关键词1和关键词2。

步骤七：文本向量生成模块将配置好的模板输入预训练语言模型(Bert)，得到输出的每个answer slot向量。

Answer slot	answer向量
		answer slot1	As1
answer slot2	As2

使用主题提示模板进行关键词预测时的输入和输出过程如图3所示：首先将原始本文和相似文本进行合并得到增强文本对，再输入预训练语言模型(Bert)，其中[inputslot]作为输入位置，[cls]作为增强文本对向量的表征，[mask]则为需要预测的关键词(即，[answer slot])。最后得到概率较高的k个候选关键词。

步骤八：关键词查找模块依次计算answer slot1和answer solt2向量与词汇表中各向量的相似性，相似性计算公式使用余弦相似度计算。选取相似度最高的top n个向量作为关键词向量，因此共生成2*n个关键词向量，最后再将关键词向量通过查找embeddinglookup table映射为中文关键词，最终这些关键词作为整个文本的关键词。

answer向量	相似关键词
		As1	车辆，油耗，省油
As2	接受，接收，不错

最后本发明实施例的模块系统的示意图如图4所示。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。最后通过对实验结果的展示和分析，本发明有效得解决了垂直领域短文本关键词抽取的问题。

Claims

1.一种基于文本语义增强的主题提示式关键词提取方法，其特征在于该方法包括以下步骤：

步骤一，收集某个领域的短文本数据集；

步骤二，通过分句模块将文本进行分句，再通过文本语义增强模块对每个句子进行文本增强构造相似文本对；

步骤三，将相似文本对进行合并得到增强文本，再使用分词模块对增强文本进行分词；

步骤四，将分词后的文本通过主题建模模块提取一个文本主题；

步骤五，通过主题匹配模块将文本主题向量化，再匹配一个初始化的既定主题；

步骤六，既定主题通过主题模板生成模块生成对应的主题提示模板；

步骤七，主题提示模板与增强文本一起送入文本向量生成模块得到每个文本的向量表示；

2.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：步骤一中，所述的短文本数据集，包括短文评论，文章标题。

3.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤二中，所述文本语义增强模块采用基于预训练语言模型的文本语义相似度召回模型。

4.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤三中，所述分词模块是一种基于词典分词的算法，该算法是按照一定的策略将待匹配的字符串和一个已建立好的特征领域词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。

5.根据权利要求4所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：基于词典分词的算法具体执行以下步骤：

步骤(3)：若匹配不成功，则将m个字符的最后一个字符去掉，用m-1个字符作为新的匹配字段；重复步骤(1)～(3)，直到切分出所有的词为止。

6.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤四中，所述主题建模模块采用LDA模型，进行初步的主题词建模，送入后续的主题匹配模板模块。

7.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤五中，所述主题匹配模块首先将文本主题向量化，再与给定的既定主题向量中匹配最接近的既定主题。

8.根据权利要求7所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤五中，所述匹配过程如下：

步骤(1)：将步骤四生成的主题词通过一个预训练语言模型生成主题词的向量表征；

9.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤七中，所述文本向量生成模块具体指一个预训练语言模型。

10.根据权利要求1所述的一种基于文本语义增强的主题提示式关键词提取方法，其特征在于：在步骤八中，所述关键词查找模块是在向量空间中查找与当前文本向量最接近的词汇。