CN113934837A

CN113934837A - 基于预训练模型的关键短语生成方法、装置及储存介质

Info

Publication number: CN113934837A
Application number: CN202111072717.3A
Authority: CN
Inventors: 文敏; 陈运文; 纪达麒; 侯聪; 吴万杰
Original assignee: Daguan Data Chengdu Co ltd
Current assignee: Daguan Data Chengdu Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-14

Abstract

本发明涉及一种基于训练模型的关键短语生成方法，包括：S1、获取待处理的文本数据；S2、对获取的文本数据进行分词和词性标注；S3、建立停用词库，去除存在于停用词库中的词；过滤掉不是动词和名词的词语；S4、进行N‑gram组合，得到候选词组合；S5、基于Bert的预训练模型分别对文本数据和候选词组合进行文本向量转化；S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算，进行语义相似度排序；S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。本发明利用开源的预训练模型Bert进行文本向量化表示，较为完整获取文本语义层面的信息，有助于关键词的提取，根据N‑gram组合获取短语级别的关键词，相比单个的词语意思更加完整。

Description

基于预训练模型的关键短语生成方法、装置及储存介质

技术领域

本发明涉及文自然语言处理领域，具体涉及基于预训练模型的关键短语生成方法、装置及储存介质，用以识别和提取文档中的关键短语内容，过滤多余内容，快速获取有价值的信息。

背景技术

传统的关键词提取算法分为无监督方法和有监督方法两大类，基于有监督学习的关键词分类方法如申请号为CN202010880346.0的发明专利公开的训练关键短语标识模型的方法、装置、设备和存储介质，该类方法实施的前提是需要有大量的文本预料以及对应的是否为关键词标签，以及加上大量的神经网络模型的训练才能获取有效的模型，因此其获取成本较高、流程繁琐，在无大量标注数据和计算资源场景下并不适用。

无监督方法中通用的是基于TF-IDF的关键词提取方法，存在关键词力度较小、关键词散乱或偏离主题较远，导致提取的关键词不能表达文本整体的语义，现有技术如申请号为CN201710369600.9的发明专利所公开的一种基于改进TF-IDF关键词提取算法以及申请号为CN201410056332.1的发明专利公开的一种专利文献关键短语自动提取方法。

发明内容

为了解决现有技术中存在的问题，本发明提供了一种基于预训练模型的关键短语生成方法、装置及存储介质，基于深度学习预训练模型(Bert)，通过中文分词、词性标注、去停用词、相邻关键词组合、基于Bert的文本篇章级别的向量表示、词语级别的文本向量表示、基于余弦相似度筛选关键候选词。

本发明的技术目的是通过以下技术方案实现的：

一种基于训练模型的关键短语生成方法，该方法包括以下步骤：

S1、获取待处理的文本数据；

S2、对获取的文本数据进行分词和词性标注；

S3、建立停用词库，去除存在于停用词库中的词；此外过滤掉步骤S2中词性标注不是动词和名词的词语；

S4、对S3中的结果进行N-gram组合，得到候选词组合；

S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化，分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示；

S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算，得到每个词或短语与文本数据整体之间的语义相似度；得到每个词或短语的语义相似度排序；

S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。

进一步地，在步骤S4中，将相邻位置的词组合形成短语，再将短语添加到N-gram组合前的词形成候选词组合。

进一步地，在步骤S4中N＝1或N＝2或N＝3。

一种基于预训练模型的关键短语生成装置，该装置包括：

文本获取单元，用于获取原始文本；

分词模块，用以将获取的原始文本分为若干词语；

词性标注模块，用以对分词模块分出的词语进行词性标注；

提取模块，用以根据词性筛选条件提取词语；

短语组合模块，用以将提取模块所提取的词语进行组合形成短语；

预训练模型，借助预训练模型对原始文本进行向量化表示，对提取模块提取的词语进行向量化表示，对短语组合模块组合形成的短语进行向量化表示；

判断模块，计算提取模块所提取的词语和原始文本的语义相似度以及短语组合模块组合形成的短语和原始文本的语义相似度，并根据语义相似度对短语及提取模块提取的词语进行降序或升序排列；

关键词提取模块，用以根据语义相似度排名从提取判断模块计算的词语和短语中提取关键词。

进一步地，提取模块提取词性标注为名词和动词的词语，并按照提取的词语在原始文本中的顺序排列。

进一步地，短语组合模块借助N-gram模型进行词语组合形成短语。

进一步地，所述预训练模型为Bert模型。

一种计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序在运行时按照S1-S7的方法执行。

相比现有技术，本发明的有益效果在于：

1、本发明采用无监督的方式从原始文本中提取关键词，减少了对数据收集的依赖和对计算资源的依赖；

2、根据N-gram组合获取短语级别的关键词，相比单个的词语意思更加完整；

3、利用开源的预训练模型Bert进行文本向量化表示，可以较为完整获取文本语义层面的信息，有助于关键词的提取。

附图说明

图1是本发明的基于预训练模型的关键短语生成方法流程示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案进行进一步描述：

一种基于与训练模型的关键短语生成方法，该方法包括以下步骤：

S1、获取待处理的文本数据；

比如输入的文本内容为：“基于单片机与FPGA的波形发生器，核心技术是直接数字频率合成。FPGA集成了固定分频器、单片机通信模块、波形合成器及波形选择等模块，其输出的8位数据通过D/A转换并经功率放大后即得所需波形。单片机控制键盘与显示模块，提供了良好的人机界面。经过设计和电路测试，系统能产生正弦波、三角波和方波等波形，控制灵活，输出波形性能良好”

S2、对获取的文本数据进行分词和词性标注；

将获取的原始文本信息进行分词和词性标注，分词和词性标注的的方法属于现有技术，此处不再赘述，如选用百度开源接入的LAC工具，得到如下分词、标注结果：

[('基于','p'),('单片机','n'),('与','p'),('FPGA','nz'),('的','u'),('波形发生器','n'),(',','w'),('核心','n'),('技术','n'),('是','v'),('直接数字频率合成','v'),('FPGA','nz'),('集成','v'),('了','u'),('固定分频器/','nz'),('单片机','nz'),('通信','nz'),('模块','nz'),('/','w'),('波形合成','n'),('器','n'),('及','c'),('波形','n'),('选择','vn'),('等','u'),('模块','n'),(',','w'),('其','r'),('输出','v'),('的','u'),('8位数','m'),('据','p'),('通过','p'),('D/A','nz'),('转换','v'),('并','c'),('经','p'),('功率','n'),('放大','v'),('后','f'),('即','d'),('得','v'),('所需','v'),('波形','n'),('单片机','n'),('控制',‘v’),('键盘','n'),('与','c'),('显示','v'),('模块','n'),(',','w'),('提供','v'),('了','u'),('良好','a'),('的','u'),('人机界面','n'),('经过','p'),('设计','vn'),('和','c'),('电路','n'),('测试','vn'),(',','w'),('系统','n'),('能','v'),('产生','v'),('正弦波','n'),('/','w'),('三角波','n'),('和','c'),('方波','n'),('等','u'),('波形','n'),(',','w'),('控制','v'),('灵活','a'),(',','w'),('输出','vn'),('波形','n'),('性能','n'),('良好','a')]

其中，n表示名词，f表示方位名词，r表示代词，p表示介词，d表示副词，m表示数量词，nz表示其他专名，u表示助词，a表示形容词，w表示标点符号，v表示动词，c表示连词，vn表示名动词；还有PER表示人名，ad表示副形词，q表示量词，LOC表示地名，s表示处所名词，vd表示动副词，an表示名形词，xc表示其他虚词，ORG表示机构名，nw表示作品名，TIME表示时间。

S3、建立通用的停用词库，去除存在于停用词库中的词；此外过滤掉步骤S2中词性标注不是动词和名词的词语；

遍历预先建立的停用词库，如果在停用词库中找到相同的词语，将从文本中的该词语剔除；此外，根据词性标注选取词性标注为名词和动词的词语，得到如下结果：

['单片机','FPGA','波形发生器','核心','技术','直接数字频率合成','FPGA','集成','固定分频器/','单片机','通信','模块','波形合成','器','波形','模块','输出','D/A','转换','功率','放大','所需','波形','单片机','键盘','显示','模块','提供','人机界面','电路','系统','能','产生','正弦波','三角波','方波','波形','波形'，'性能']

S4、对S3中的结果进行N-gram组合，得到候选词组合；

N的值可以是1，也可以是2，也可以是3，当N等于1时，每个词都是独立的分布的；当N等于2时，每个词都与与之相邻的一个词有关；当N等于3时，每个词都与与之相邻的两个词有关。

以N＝2为例，对词语进行组合得到以下短语：

['单片机FPGA'，'FPGA波形发生器','波形发生器核心','核心技术','技术直接数字频率合成','直接数字频率合成FPGA','FPGA集成'，'集成固定分频器/','固定分频器/单片机','单片机通信','通信模块','模块波形合成','波形合成器','器波形','波形模块','模块输出','输出D/A','D/A转换','转换功率','功率放大','放大所需','所需波形','波形单片机','单片机键盘','键盘显示','显示模块','模块提供','提供人机界面','人机界面电路','电路系统','系统能','能产生','产生正弦波','正弦波三角波','三角波方波','方波波形','波形波形'，'波形性能']

将短语和组合前的词语进行汇总，得到如下集合：

['单片机FPGA'，'FPGA波形发生器','波形发生器核心','核心技术','技术直接数字频率合成','直接数字频率合成FPGA','FPGA集成'，'集成固定分频器/','固定分频器/单片机','单片机通信','通信模块','模块波形合成','波形合成器','器波形','波形模块','模块输出','输出D/A','D/A转换','转换功率','功率放大','放大所需','所需波形','波形单片机','单片机键盘','键盘显示','显示模块','模块提供','提供人机界面','人机界面电路','电路系统','系统能','能产生','产生正弦波','正弦波三角波','三角波方波','方波波形','波形波形'，'波形性能'，'单片机','FPGA','波形发生器','核心','技术','直接数字频率合成','FPGA','集成','固定分频器/','单片机','通信','模块','波形合成','器','波形','模块','输出','D/A','转换','功率','放大','所需','波形','单片机','键盘','显示','模块','提供','人机界面','电路','系统','能','产生','正弦波','三角波','方波','波形','波形'，'性能']

S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化，分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示；Bert预训练模型是由Google AI团队提出的预训练语言模型BERT(Bidirectional EncoderRepresentations from Transformers)，该模型先使用大量无监督语料进行语言模型预训练(Pre-training)，再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、句间关系判断和机器阅读理解等)，离线的模型可以提供文本的向量表示能力，获得文本的基于上下文的语义信息。

S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算，得到每个词及短语与文本数据整体之间的语义相似度；得到每个词或短语的语义相似度排序；

以候选词“波形合成”为例：

Score(波形合成)＝cosine_similarity(encoder(Text),encoder(波形合成))

其中：cosine_similarity：向量的余弦相似度计算方法；

encoder：基于Bert的预训练模型，输入文本，输出768维的向量表示；

Text：获取的文本；

encoder(Text):获得文档级别的文档向量表示；

encoder(波形合成):得到词‘波形合成’的向量表示。

通过计算获取每个词与文本数据整体之间的语义相似度以及每个短语与文本数据整体之间的语义相似度，并根据语义相似度进行降序排列或升序排列；本实施例中选取降序的方式进行排列。

S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。如果是降序方式排列的，选取语义相似度靠前的M的词或短语，M根据需要进行设定；如果是采取降序方式排列的。

比如输出的关键词结果如下：

[{'value':'波形合成','score':0.5080477},

{'value':'波形发生器','score':0.46826917},

{'value':'固定分频器','score':0.45810807},

{'value':'人机界面','score':0.38156873},

{'value':'正弦波','score':0.3615404},

{'value':'单片机','score':0.35427338},

{'value':'FPGA','score':0.27511185}]

选取语义相似度(score)值靠前的词或短语，设定选取排名前三的词或短语，则以“波形合成”、“波形发生器”、“固定分频器”作为关键短语输出。

一种基于预训练模型的关键短语生成装置，该装置包括：

文本获取单元，用于而获取原始文本；

分词模块，用以将获取的原始文本分为若干词语；

词性标注模块，用以对分词模块分出的词语进行词性标注；

提取模块，用以根据词性筛选条件提取词语，提取模块提取词性标注为名词和动词的词语，并按照提取的词语在原始文本中的顺序排列；

短语组合模块，借助N-gram模型将提取模块所提取的词语进行组合形成短语；

预训练模型，预训练模型为Bert模型，借助预训练模型对原始文本进行向量化表示，对提取模块提取的词语进行向量化表示，对短语组合模块组合形成的短语进行向量化表示；

一种计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序在运行时按照如下方法执行：

S1、获取待处理的文本数据；

S2、对获取的文本数据进行分词和词性标注；

S4、对S3中的结果进行N-gram组合，得到候选词组合；将相邻位置的词组合形成短语，再将短语添加到N-gram组合前的词形成候选词组合；N＝1或N＝2或N＝3；

本实施例只是对本发明的进一步解释，并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性的修改，但是只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于训练模型的关键短语生成方法，其特征在于，该方法包括以下步骤：

S1、获取待处理的文本数据；

S2、对获取的文本数据进行分词和词性标注；

S4、对S3中的结果进行N-gram组合，得到候选词组合；

2.根据权利要求1所述的一种基于训练模型的关键短语生成方法，其特征在于，在步骤S4中，将相邻位置的词组合形成短语，再将短语添加到N-gram组合前的词形成候选词组合。

3.根据权利要求2所述的一种基于训练模型的关键短语生成方法，其特征在于，在步骤S4中N＝1或N＝2或N＝3。

4.一种基于预训练模型的关键短语生成装置，其特征在于，该装置包括：

文本获取单元，用于而获取原始文本；

分词模块，用以将获取的原始文本分为若干词语；

词性标注模块，用以对分词模块分出的词语进行词性标注；

提取模块，用以根据词性筛选条件提取词语；

5.根据权利要求4所述的一种基于预训练模型的关键短语生成装置，其特征在于，所述提取模块提取词性标注为名词和动词的词语，并按照提取的词语在原始文本中的顺序排列。

6.根据权利要求4所述的一种基于预训练模型的关键短语生成装置，其特征在于，所述短语组合模块借助N-gram模型进行词语组合形成短语。

7.根据权利要求4所述的一种基于预训练模型的关键短语生成装置，其特征在于，所述预训练模型为Bert模型。

8.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，所述计算机程序在运行时按照如权利要求1-3所述的任意一项权利要求所述的方法执行。