CN116502637A

CN116502637A - 一种结合上下文语义的文本关键词提取方法

Info

Publication number: CN116502637A
Application number: CN202310524608.3A
Authority: CN
Inventors: 王晓璐
Original assignee: Wenchang Yaocheng Rui Technology Co ltd
Current assignee: Wenchang Yaocheng Rui Technology Co ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-28

Abstract

本发明涉及一种结合上下文语义的文本关键词提取方法，其特征在于，包括以下步骤：S1：获取文本数据，对数值和时间类型数据进行泛化处理；S2：对文本数据进行预处理得到预处理文本；S3：从预处理文本中提取多个中心词，并根据预设的滑动窗口大小建立模型，获取各中心词在预处理文本中的上下文词；S4：根据各中心词和上下文词，构建多个中心词表和中心词表的上下文表征矩阵；S5：对各上下文表征矩阵进行降维处理，提取各中心词表内词语的上下文语义特征向量；S6：根据上下文语义特征向量得到各中心词的关键词权重；S7：将关键词权重超过阈值的中心词确定为要提取的关键词，与现有技术相比，本发明具有提高关键词提取准确性等优点。

Description

一种结合上下文语义的文本关键词提取方法

技术领域

本发明涉及关键词提取领域，尤其是涉及一种结合上下文语义的文本关键词提取方法。

背景技术

关键词Keyword即关键性的词语。从本质上来讲，关键词是描述文章本质的词语，在信息检索领域，通过关键词来区别不同文章，而在自然语言处理领域，关键词常用来提取文章的本质意思，或者进一步来对长文本进行自动摘要来提取中心思想，是自然语言处理领域的关键性技术。

现在的关键词提取技术主要是利用机器学习的有监督的提取和无监督的提取。有监督的提取需要对人工标注的待分析文本进行训练，人工预处理的代价较高。而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取，因此适用性较强。关键词的无监督提取主要分为三大类：基于统计特征的TF-IDF、基于词图模型的TextRank和基于主题模型的LDA。

LDA最主要的假设是词袋Bag of Words假设，指通过交换文章内词的顺序而不影响模型训练的结果，模型结果与词的顺序无关。很显然，如果不考虑词的顺序将丧失很多语义层面的意义，比如「谢霆锋是谁的儿子」和「谢霆锋的儿子是谁」两句话词袋基本相同但语义层面的含义完全不同。TF-IDF作为关键词提取的经典算法，虽然速度很快，但是仅从词频角度挖掘信息，并不能体现文本的深层语义信息。TextRank基本思想来自PageRank，本质是找「重要性传递」。但是由于其没有TF-IDF里考虑整个语料库的思想，仅考虑文档内部的结构信息时，导致一些在各个文档的出现频率均较高且不属于停止词的词语最终的得分较高，最后的结果也不理想。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种结合上下文语义的文本关键词提取方法。

本发明的目的可以通过以下技术方案来实现：

一种结合上下文语义的文本关键词提取方法，包括以下步骤：

S1：获取文本数据，对数值和时间类型数据进行泛化处理；

S2：对文本数据进行中文分词和词性标注，并进行停用词过滤和词性过滤，得到预处理文本；

S3：从利用TFIDF算法和TextRank算法从预处理文本中提取多个中心词，并根据预设的滑动窗口大小建立模型，获取各中心词在预处理文本中的上下文词；

S4：根据各中心词和上下文词，构建多个中心词表和中心词表的上下文表征矩阵；

S5：对各上下文表征矩阵进行降维处理，提取各中心词表内词语的上下文语义特征向量；

S6：根据上下文语义特征向量得到各中心词的关键词权重；

S7：将关键词权重超过阈值的中心词确定为要提取的关键词。

进一步地，所述的中心词表通过获取权值排列前1000的词语构建。

更进一步地，所述的上下文表征矩阵具体包括：对出现在同一语句中、同一段落中、同一篇章中的任意两词语w_i和w_i建立关联，构建上下文表征矩阵：

CoMat(w_i，w_j)＝

{CoMat(w_i，w_j)_sequence，

CoMat(w_i，w_j)_paragraph，

CoMat(w_i，w_j)_chapter}，

1≤i，j≤2000

其中，CoMat(w_i，w_j)_sequence为语句级上下文表征矩阵，CoMat(w_i，_j)_paragraph为段落级上下文表征矩阵，CoMat(w_i，w_j)_chapter为篇章级共现矩阵，i为矩阵行索引，j为列索引，分别用于表示词语w_i和w_i的索引，所述的上下文表征矩阵中的元素表示行、列索引指向的词语w_i和w_i的联合概率CoMat(w_i，w_j)＝prob_joint(w_i，_j)。

进一步地，所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括：

基于上下文语义特征向量中的键向量，得到每个中心词对应上下文语义特征的第一权重得分；

基于第一权重得分集合与上下文语义特征向量中的值向量，得到每个中心词对应上下文语义特征的第二权重得分；

基于第二权重得分集合与预设的第一权重系数和第二权重系数，分别得到每个中心词对应上下文语义特征的第三权重得分和第四权重得分；

分别根据第三权重得分和第四权重得分，确定每个中心词的第一权重关联程度和第二权重关联程度；

利用第一权重关联程度和第二权重关联程度，生成各中心词的关键词权重的置信度，得到其概率分布，并将方差作为各中心词的关键词权。

根据上下文语义特征向量，从中心词表内选取对应中心词的上下文词；

将上下文词构成一个Huffman树的叶节点，获取每个上下文词的Huffman编码；

计算每个上下文词在Huffman树中的概率；

将中心词的每个上下文词的概率相乘，得到所述中心词的关键词权重。

更进一步地，所述的计算每个上下文词在Huffman树中的概率具体包括：

确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点；逐个计算路径中的节点的概率；将路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。

更进一步地，所述的逐个计算路径中的节点的概率，具体包括：对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积，若该节点为左节点，则节点的概率为点积的sigmoid函数；若该节点为右节点，则节点的概率为1减去其对应的所述左节点的概率。

进一步地，步骤S3之前，还包括：从语料中利用Word2Vec技术训练词向量，并根据业务需求调整所述滑动窗口的大小。

与现有技术相比，本发明具有以下优点：

1)本发明根据预设的滑动窗口大小建立模型，获取各中心词在预处理文本中的上下文词，构建多个中心词表和中心词表的上下文表征矩阵并提取各中心词表内词语的上下文语义特征向量，有效结合上下文信息和语义信息，在提取关键词时更加合理，提高了关键词的准确性；

2)本发明结合TFIDF算法和TextRank算法作为文本的特征，与单一的关键词提取算法相比，本方法更进一步地提高了关键词提取的准确性，避开了TFIDF只考虑相同词的词频弊端、TextRank没有考虑语言环境下语料库不足的弊端以及LDA只考虑词袋的弊端，取得了优异的提取关键词效果。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明提供一种结合上下文语义的文本关键词提取方法，包括以下步骤：

S1：获取文本数据，对数值和时间类型数据进行泛化处理；

S6：根据上下文语义特征向量得到各中心词的关键词权重；

中心词表通过获取权值排列前1000的词语构建，上下文表征矩阵具体包括：对出现在同一语句中、同一段落中、同一篇章中的任意两词语w_i和w_i建立关联，构建上下文表征矩阵：

CoMat(w_i，w_j)＝

{CoMat(w_i，w_j)_sequence，

CoMt(w_i，w_j)_paragraph，

CoMat(w_i，w_j)_chapter}，

1≤i，j≤2000

其中，CoMat(w_i，w_j)_sequence为语句级上下文表征矩阵，CoMat(w_i，w_j)_paragraph为段落级上下文表征矩阵，CoMat(w_i，w_j)_chapter为篇章级共现矩阵，i为矩阵行索引，j为列索引，分别用于表示词语w_i和w_i的索引，上下文表征矩阵中的元素表示行、列索引指向的词语w_i和w_i的联合概率CoMat(w_i，w_j)＝prob_joint(w_i，w_j)。

本实施例中，根据上下文语义特征向量得到各中心词的关键词权重具体包括：

基于上下文语义特征向量中的键向量，得到每个中心词对应上下文语义特征的第一权重得分；基于第一权重得分集合与上下文语义特征向量中的值向量，得到每个中心词对应上下文语义特征的第二权重得分；基于第二权重得分集合与预设的第一权重系数和第二权重系数，分别得到每个中心词对应上下文语义特征的第三权重得分和第四权重得分；分别根据第三权重得分和第四权重得分，确定每个中心词的第一权重关联程度和第二权重关联程度；利用第一权重关联程度和第二权重关联程度，生成各中心词的关键词权重的置信度，得到其概率分布，并将方差作为各中心词的关键词权。

作为另一种方法，根据上下文语义特征向量得到各中心词的关键词权重也可以如下实现：根据上下文语义特征向量，从中心词表内选取对应中心词的上下文词；将上下文词构成一个Huffman树的叶节点，获取每个上下文词的Huffman编码；计算每个上下文词在Huffman树中的概率；将中心词的每个上下文词的概率相乘，得到所述中心词的关键词权重。

具体地，其中计算每个上下文词在Huffman树中的概率具体包括：确定Huffman树中从根节点到要计算概率的该上下文词所经历的路径中的所有节点；逐个计算路径中的节点的概率；将路径中的所有节点的概率相乘得到该上下文词在Huffman树中的概率。逐个计算路径中的节点的概率具体包括：对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积，若该节点为左节点，则节点的概率为点积的sigmoid函数；若该节点为右节点，则节点的概率为1减去其对应的所述左节点的概率。

另外，本实施例中，在步骤S3之前，还包括从语料中利用Word2Vec技术训练词向量，并根据业务需求调整所述滑动窗口的大小。

本发明通过提取词语的上下文语义表征，判断语句上下文语义表征与关键词组语义表征的相似度，抽取相似度大于设定值的语句组成公告文本摘要，摘要内容与用户输入关键词关联度高；可有效去除用户不关注的“冗余”信息，可以提高用户工作效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种结合上下文语义的文本关键词提取方法，其特征在于，包括以下步骤：

S1：获取文本数据，对数值和时间类型数据进行泛化处理；

S3：利用TFIDF算法和TextRank算法从预处理文本中提取多个中心词，并根据预设的滑动窗口大小建立模型，获取各中心词在预处理文本中的上下文词；

S6：根据上下文语义特征向量得到各中心词的关键词权重；

2.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的中心词表通过获取权值排列前1000的词语构建。

3.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的上下文表征矩阵具体包括：对出现在同一语句中、同一段落中、同一篇章中的任意两词语w_i和w_i建立关联，构建上下文表征矩阵：

CoMat(w_i，w_j)＝

{CoMat(w_i，w_j)_sequence，

CoMat(w_i，w_j)_paragraph，

CoMat(w_i，w_j)_chapter}，

1≤i，j≤2000

其中，CoMat(w_i，w_j)_sequence为语句级上下文表征矩阵，CoMat(w_i，w_j)_paragraph为段落级上下文表征矩阵，CoMat(w_i，w_j)_chapter为篇章级共现矩阵，i为矩阵行索引，j为列索引，分别用于表示词语w_i和w_i的索引，所述的上下文表征矩阵中的元素表示行、列索引指向的词语w_i和w_i的联合概率CoMat(w_i，w_j)＝prob_joint(w_i，w_j)。

4.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括：

5.根据权利要求1所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的根据上下文语义特征向量得到各中心词的关键词权重具体包括：

计算每个上下文词在Huffman树中的概率；

6.根据权利要求5所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的计算每个上下文词在Huffman树中的概率具体包括：

7.根据权利要求6所述的一种结合上下文语义的文本关键词提取方法，其特征在于，所述的逐个计算路径中的节点的概率，具体包括：对该节点的父节点向量的转置与中心词的上下文语义特征向量求点积，若该节点为左节点，则节点的概率为点积的sigmoid函数；若该节点为右节点，则节点的概率为1减去其对应的所述左节点的概率。

8.根据权利要求7所述的一种结合上下文语义的文本关键词提取方法，其特征在于，步骤S3之前，还包括：从语料中利用Word2Vec技术训练词向量，并根据业务需求调整所述滑动窗口的大小。