CN114490941B

CN114490941B - 一种基于预加载权重词性组合的中文关键短语抽取的方法

Info

Publication number: CN114490941B
Application number: CN202210100205.1A
Authority: CN
Inventors: 夏立; 钱柏丞; 周晶; 相若晨; 李颜戎; 杨学鑫
Original assignee: Nanjing Fenghuo Tiandi Communication Technology Co ltd
Current assignee: Nanjing Fenghuo Tiandi Communication Technology Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2024-04-09
Anticipated expiration: 2042-01-27
Also published as: CN114490941A

Abstract

本发明公开了一种基于预加载权重词性组合的中文关键短语抽取的方法，包括建立短语抽取模型，具体步骤如下：S1、对文本预处理；S2、建立核心抽取算法，所述核心抽取算法包括短语权重计算和制定短语拼接规则。该种基于预加载权重词性组合的中文关键短语抽取的方法，通过抽取出的关键短语，不仅能有效代表整个文档的核心内容，而且给出每个关键短语的语义权重，极大增强关键词抽取的可解释性，同时，通过基于中文语言习惯，设计关键短语的短语规则，可有效避免抽取出结构和语义错乱的内容。

Description

一种基于预加载权重词性组合的中文关键短语抽取的方法

技术领域

本发明涉及人工智能自然语言处理技术领域，具体为一种基于预加载权重词性组合的中文关键短语抽取的方法。

背景技术

目标文本(句、段、篇)的关键词通常是几个词或者短语，作为对该文本主要内容的提要，关键词是人们快速了解文本内容、把握主题的重要方式。关键词广泛应用于人们需要高效管理和检索文档的领域，例如搜索引擎、新闻报道、学术论文等。同时，关键词抽取也是NLP领域重要的核心技术之一，是NLP多项能力的奠基技术，例如：文本检索、文本分类、文本摘要等。

当前比较常用的关键词抽取的方法有TF-IDF、Textrank、Embedding相似度等，但是上述几种方法都存在一定的缺陷，如TF-IDF简单易操作，且速度非常快，但是其只是从词频角度挖掘信息，并不能体现文本的深层语义信息；Textrank虽然可以设计词共现窗口，解决一定的上下文语义问题，但是其计算量大，速度慢，且窗口能包含的信息有限；Embedding相似度的方法虽然可以解决语义理解的问题，但是基于不同语料训练出的embedding向量不同，且需要大量语料训练，同时最为致命的是基于embedding的方法，不仅可解释性差，而且后期finetune的空间小，且计算速度慢，实用性差。因此，我们对此做出改进，提出一种基于预加载权重词性组合的中文关键短语抽取的方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种基于预加载权重词性组合的中文关键短语抽取的方法，包括建立短语抽取模型，具体步骤如下：

S1、对文本预处理，所述文本预处理具体包括如下步骤：

S1.1、针对文本数据特性，制定文本清洗规则进行数据清洗，去除文本中异常字符、冗余字符和乱码，之后对文本做出重点标记；

S1.2、对经过S1.1处理后的文本进行中文分词和词性标注，同时根据标点符号对文本自然分句，统计分词后所有词的个数total_length，然后对分词后的文本做词频统计备用，得到count；

S2、建立核心抽取算法，所述核心抽取算法包括短语权重计算和制定短语拼接规则；所述短语权重计算具体流程为：

S2.1、加载由同分布文本训练的IDF权重词典，得到每个词的权重值weight，之后找出候选短语集合，并求出短语权重；

S2.2、对短语候选集中的所有词的权重weight求和，得到sum_w；

S2.3、计算候选短语权重；

S2.4、通过训练LDA主题权重文件，得到权重调节因子，计算主题权重；

S2.5、通过基于MMR算法对overlaping的短语进行去重过滤，并按照各短语重要程度排序，推荐top_k个权重最大的短语，之后根据目标业务积累的知识，对文本后处理，得到最终结果。

作为本发明的一种优选技术方案，S2中的短语拼接规则具体包括以下规则：

a、一个短语不能超过12个token；

b、一个短语不能超过25个char，不能低于2个char；

c、如果是token长度为2的短语，优先推选动名词短语，其次是名词短语；

d、动名词短语的动词必须是触发词；

e、一个短语中不能出现超过一个虚词，不能出现规定个数的停用词；

f、短语的前后不可以是虚词、停用词，短语末尾不能是动词；

g、短语中不能有特殊词，短语中不能出现姓名、地址及其他特殊词性词。

作为本发明的一种优选技术方案，S2.1中每个词的权重值weight计算公式为：

weight＝count*word_idf/total_length。

作为本发明的一种优选技术方案，S2.3中候选短语权重的计算公式为：

cpw＝sum_w*length_w*pos_w

式中cpw为候选短语权重，length_w为短语长度权重，pos_w为短语词性组合权重。

作为本发明的一种优选技术方案，S2.4中LDA主题权重cpw+的计算公式为：

cpw+＝topic_w*topic_theta

式中topic_w为该词的主题权重，topic_theta为权重调节因子。

作为本发明的一种优选技术方案，在S2之后还包括结果后处理和预训练模型，所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。

作为本发明的一种优选技术方案，所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。

本发明的有益效果是：

该种基于预加载权重词性组合的中文关键短语抽取的方法，通过抽取出的关键短语，不仅能有效代表整个文档的核心内容，而且给出每个关键短语的语义权重，极大增强关键词抽取的可解释性，同时，通过基于中文语言习惯，设计关键短语的短语规则，可有效避免抽取出结构和语义错乱的内容。另外，为了增强语义理解能力和计算速度，本发明通过基于同分布文本训练的预训练模型，不仅能够针对业务文本切词更加精准，而且可以直接加载相关权重文件，极大提升计算速度，让模型更为实用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明建立的短语抽取模型示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明一种基于预加载权重词性组合的中文关键短语抽取的方法，包括建立短语抽取模型，具体步骤如下：

S1、对文本预处理，所述文本预处理具体包括如下步骤：

S2.2、对短语候选集中的所有词的权重weight求和，得到sum_w；

S2.3、计算候选短语权重；

其中，S2中的短语拼接规则具体包括以下规则：

a、一个短语不能超过12个token；

b、一个短语不能超过25个char，不能低于2个char；

d、动名词短语的动词必须是触发词；

其中，S2.1中每个词的权重值weight计算公式为：

weight＝count*word_idf/total_length。

其中，S2.3中候选短语权重的计算公式为：

cpw＝sum_w*length_w*pos_w

其中，S2.4中LDA主题权重cpw+的计算公式为：

cpw+＝topic_w*topic_theta

式中topic_w为该词的主题权重，topic_theta为权重调节因子。

其中，在S2之后还包括结果后处理和预训练模型，所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。

其中，所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。

本发明可有效解决现有技术中关键词抽取方法中存在的偏向于词频统计，不能理解语义信息，不能突出主题；计算速度慢，计算量大，严重影响效率；可解释性差，模型finetune优化困难等问题。通过抽取出的关键短语，不仅能有效代表整个文档的核心内容，而且给出每个关键短语的语义权重，极大增强关键词抽取的可解释性，同时，通过基于中文语言习惯，设计关键短语的短语规则，可有效避免抽取出结构和语义错乱的内容。另外，为了增强语义理解能力和计算速度，本发明通过基于同分布文本训练的预训练模型，不仅能够针对业务文本切词更加精准，而且可以直接加载相关权重文件，极大提升计算速度，让模型更为实用。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，包括建立短语抽取模型，具体步骤如下：

S1、对文本预处理，所述文本预处理具体包括如下步骤：

S2.2、对短语候选集中的所有词的权重weight求和，得到sum_w；

S2.3、计算候选短语权重；

S2.5、通过基于MMR算法对overlaping的短语进行去重过滤，并按照各短语重要程度排序，推荐top_k个权重最大的短语，之后根据目标业务积累的知识，对文本后处理，得到最终结果；

其中S2中的短语拼接规则具体包括以下规则：

a、一个短语不能超过12个token；

b、一个短语不能超过25个char，不能低于2个char；

d、动名词短语的动词必须是触发词；

2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，S2.1中每个词的权重值weight计算公式为：

weight = count * word_idf / total_length。

3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，S2.3中候选短语权重的计算公式为：

cpw = sum_w * length_w * pos_w

4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，S2.4中LDA主题权重cpw +的计算公式为：

cpw += topic_w * topic_theta

式中topic_w为该词的主题权重，topic_theta为权重调节因子。

5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，在S2之后还包括结果后处理和预训练模型，所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。

6.根据权利要求5所述的一种基于预加载权重词性组合的中文关键短语抽取的方法，其特征在于，所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。