CN115455975A

CN115455975A - 基于多模型融合决策提取主题关键词的方法及装置

Info

Publication number: CN115455975A
Application number: CN202210550469.7A
Authority: CN
Inventors: 沈程; 胡汉一; 许浩; 孙婉琪; 马雪环
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-12-09

Abstract

本发明公开了一种基于多模型融合决策提取主题关键词的方法及装置。本发明综合不同类型的关键词提取方法，再投票选举获得最终的主题关键词。本发明与现有的技术相比，既利用了多种主流算法，相互之间作为参考，大大提高了预测的准确率，且实用性强，操作简单，易于推广。本发明将综合多种模型，既考虑了词频，也考虑语意，提高关键词提取的适用场景，在复杂的文本场景下都能达到最优的效果。

Description

基于多模型融合决策提取主题关键词的方法及装置

技术领域

本发明涉及人工智能的自然语言处理技术领域，尤其涉及基于文本内容提取关键词的方法及装置。

背景技术

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TextRank算法基于PageRank，用于文本生成关键字和摘要,将原文本拆分为词，在每个句子中过滤掉停用词，并只保留指定词性的单词。由此可以得到句子的集合和单词的集合，每个单词作为TextRank中的一个节点。设定窗口大小为k，假设一个句子依次由窗口的k个单词组成：在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边，基于此构成图，可以计算出每个单词节点的重要性，最重要的若干单词可以作为关键词。

BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用attention机制，编码双向信息，以致能生成深度的双向语言表征。

投票机制：投票集成将多个模型的预测的top-k个元素数量求和，并将投票数量最多的前top-n个元素作为投票产生的结果。

基于词频统计的TF/IDF和着重考虑句子前后词之间的依赖与共现关系TextRank，BERT 模型在使用注意力机制编码文本的深层非线性语义特征。因而单独使用适用的场景均有所限制，泛化性能不好。

发明内容

本发明是基于上述技术背景和业务场景，提供一种操作性强、适用性强、准确率较高的基于多模型融合决策提取主题关键词的方法及装置。

本发明采用的技术方案具体如下：

一种基于多模型融合决策提取主题关键词的方法，具体为：

利用M种关键词提取方法分别提取文本中的K个关键词；

统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终投票选举的主题关键词；

其中，K和M均为大于1的正整数，N为大于等于1的正整数。

M种关键词提取方法中包含不同类型的关键词提取方法，至少包含基于词频的关键词提取方法、基于语义的关键词提取方法。

进一步地，所述M种关键词提取方法中，不同类型的关键词提取方法数量不同时，直接将数量少的关键词提取方法提取的K个关键词中权重最高的K/M(向下取整数)个关键词作为最终投票选举的主题关键词中的几个。

进一步地，所述基于词频的关键词提取方法包括TF/IDF和TextRank。

进一步地，基于语义的关键词提取方法为基于KeyBERT模型提取方法。

进一步地，所述统计每个关键词出现的次数，并按从大到小的顺序选取其中的N个关键词作为最终投票选举的主题关键词，具体为：

将M种关键词提取方法分别提取文本中的K个关键词去重后组成候选关键词列表Wcandidate；

从候选关键词列表Wcandidate中取出关键词，并与每种关键词提取方法提取的K个关键词一一匹配，如果匹配到则计数加一，遍历所有候选关键词列表Wcandidate中的关键词，统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终投票选举的主题关键词，将数量少的关键词提取方法提取的K个关键词中权重最高的K/M向下取整数个关键词作为最终投票选举的主题关键词中的几个，去除重复词后获得关键词列表Wfinal。

一种基于多模型融合决策提取主题关键词的装置，包括：

关键词提取模块，用于利用M种关键词提取方法分别提取文本中的K个关键词；其中，M 为大于1的正整数；

投票选举模块，用于统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终投票选举的主题关键词；其中，M为大于1的正整数，N为大于等于1的正整数。

进一步地，所述关键词提取模块包括：

TF/IDF单元，用于利用TF/IDF提取方法提取文本中的K个关键词；

TextRank单元，用于利用TextRank提取方法提取文本中的K个关键词；

KeyBERT单元，用于利用基于KeyBERT模型提取方法提取文本中的K个关键词。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于多模型融合决策提取主题关键词的方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述的基于多模型融合决策提取主题关键词的方法。

本发明具有以下优点：

本发明考虑不同类型的关键词提取方法的特点，如TF/IDF、TextRank主要是基于词频统计，Bert则是综合考虑上下文语意，适应多种场景，比如在长文本场景下例如论文，效果比较好的TF/IDF权重比较高，在短文本场景如新闻，Bert效果比较好。所以本发明综合不同类型的关键词提取方法，既考虑了词频，依赖关系，也考虑语意，提高关键词提取的适用场景，在复杂多变的文本场景下也能达到最优的效果，同时利用了多种主流算法，相互之间作为参考，大大提高了预测的准确率，且实用性强，操作简单，易于推广。

附图说明

图1为实施例1和2的实施流程图；

图2为实施例1单个长文本数据论文测试结果图；

图3为实施例1长文本数据论文测试匹配率均值；

图4为实施例1长文本数据论文测试匹配率之和效果图；

图5为实施例2短新闻文本数据测试匹配率均值；

图6为实施例2短文本数据新闻测试匹配率之和效果图。

具体实施方式：

本发明提供了一种基于多模型融合决策提取主题关键词的方法，通过综合不同类型的关键词提取方法，从而提高关键词提取的适用场景，在复杂多变的文本场景下也能达到最优的效果，下面结合附图及具体示例对本发明作进一步说明。

本发明的基于多模型融合决策提取主题关键词的方法，具体包括以下步骤：

(1)利用M种关键词提取方法分别提取文本中的各K个关键词；其中M种关键词提取方法中包含不同类型的关键词提取方法，至少包含基于词频的关键词提取方法、基于语义的关键词提取方法。

基于词频的关键词提取方法包括TF/IDF和TextRank等，基于语义的关键词提取方法为基于KeyBERT模型提取方法等；以上述两种类型的三种提取方法为例，其提取文本中的K个关键词过程如下：

TF/IDF提取关键字过程为：

设置模型参数提取关键词的个数topK，输入正文文本；

利用大规模语料切词，去除与关键词无关的停用词列表里面的词，得到输入词列表；

根据实际应用场景设置主题关键词可能的词性：如名词、动词、动副词、动名词、地名、形容词、副词；

使用在大规模语料上得到的词权重以及逆文档频率计算每个词的TF/IDF词权重，将 TF/IDF词权重倒序排列，取前K个，获得TF/IDF候选词表列表Wtf/idf：

TextRank提取关键字过程为：

设置模型参数提取关键词的个数topK，输入正文文本；

去除与关键词无关的停用词列表里面的词，得到输入词列表，防止text-rank的最终输出中包含无意义的关键词，并设置关键词允许的词性：如名词、动词、动副词、动名词、地名、形容词、副词；

使用TextRank迭代计算各个关键词的权重，将关键词根据权重倒序排列，取前K个词，获得TextRank候选词表Wtext_rank；

KeyBERT模型提取关键字过程为：

对需要抽取关键词的语料进行分词处理，分词模型包括但不仅限于HMM，CRF，BI-LSTM， BERT等方法；

设置模型参数提取关键词的个数topK，输入文本；

采用KeyBERT模型提取候选关键词列表，作为优选，将KeyBERT模型的多样性参数设为 0.2。最终得到基于KeyBERT提取的概率最高的前K个关键词，获得候选词表WkeyBERT；

上述提取关键词时，输入的文本一般为通过利用正则表达式等方法过滤去除特殊字符后的文本，文本的格式可以为可结构化的TXT格式、CSV格式等，若为规定外的格式，在提取关键词之前，需要标准化，如文本格式为PDF文件，则在提取关键词之前调用库pdfminer，转换为TXT格式的文本文件。

(2)统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终投票选举的主题关键词；该步骤具体为：

(2.1)将M种关键词提取方法分别提取文本中的各K个关键词去重后组成候选关键词列表Wcandidate；

一般地，依次遍历每种关键词提取方法提取获得的K个关键词，将不存在于候选关键词列表 Wcandidate中的关键词依次加入即完成去重；以前述获得的候选词表Wtf/idf,Wtext_rank, WkeyBERT为例，去重后组成候选关键词列表Wcandidate的具体过程如下：

新建候选关键词列表Wcandidate；

遍历候选词列表Wtf/idf，关键词不存在于候选关键词列表Wcandidate则添加新关键词入候选关键词列表Wcandidate；

遍历候选词列表Wtext_rank，关键词不存在于候选关键词列表Wcandidate则添加新关键词入候选关键词列表Wcandidate；

遍历候选词列表WkeyBERT，关键词不存在于候选关键词列表Wcandidate则添加新关键词入候选关键词列表Wcandidate，获得最终的候选关键词列表Wcandidate。

(2.2)从候选关键词列表Wcandidate中取出关键词投票：与M种关键词提取方法提取的K个关键词一一匹配，如果匹配到则计数加一，遍历所有候选关键词列表Wcandidate中的关键词，统计每个关键词出现的次数，同样以候选词表Wtf/idf,Wtext_rank,WkeyBERT为例，具体如下：

从候选关键词列表Wcandidate取出关键词key1，其计数设置为0；

在候选词Wtf/idf列表中匹配关键词key1，如果匹配到则计数加1；

在候选词Wtext_rank列表中匹配关键词key1，如果匹配到则计数加1；

在候选词WkeyBERT列表中匹配关键词key1，如果匹配到则计数加1；

遍历候选关键词列表Wcandidate，循环以上过程，完成每个关键词出现的次数统计。

(2.3)根据次数选取其中的N个关键词作为最终投票选举的主题关键词，获得关键词列表Wfinal。选取方法以候选词表Wtf/idf,Wtext_rank,WkeyBERT为例，可以选取计数大于等于2的关键词，加入到关键词列表Wfinal，获得最终投票选举的主题关键词。

进一步地，对于同种类型的关键词提取方法，如TF/IDF和TextRank两种方法本质上还是基于词频，没有完全基于语义，这两种算法投票结果会比较一致，为了增加Bert算法权重，加入候选词列表中WkeyBERT的权重最高的K/M向下取整(本实施例中取2)个关键词到关键词列表Wfinal，去除重复词，得到关键词列表Wfinal。

本发明综合不同类型的关键词提取方法，既考虑了词频，依赖关系，也考虑语意，提高关键词提取的适用场景，在复杂多变的文本场景下也能达到最优的效果。下面结合两个实施例对本发明的效果作进一步说明：

实施例1：对200篇长论文(字数大于3500)进行关键词提取

如图1所示，将不同格式的PDF文档，标准化为可结构化的TXT格式：

读取文件目录下的所有文件；

files＝os.listdir(fileDir)

遍历处理文件目录下的PDF文件，调用库pdfminer，转换为TXT格式的文本文件；

文本进入模型前，读取单个文档内容：

根据输入的文件路径，读取TXT文件的文本内容；

f＝open(pdf_path+"\\"+file)

文本的预处理，按行读取解析文本，其中论文一般提供关键词，本实施例中将标题和论文中提供的关键词作为目标关键词用以验证本发明的效果，目标关键词获取过程如下：

(a)提取文章标题添加到目标关键词列表Wtarget(这里文件名即为文章标题)；

(b)提取论文关键词列表添加到目标关键词列表Wtarget：匹配行文本的内容，若文本中包含“关键词”三个字，则添加“关键词”之后的文本到目标关键词列表Wtarget中；利用正则表达式过滤标签关键词文本非中文字符；对关键词列表Wtarget进行去停用词处理；对目标关键词列表Wtarget进行词性筛选处理，作为优选筛选出词性为名词、专用名词、动词、动副词、动名词、地名、形容词、副词作为最终目标关键词列表，作为最终模型对比的关键词基准，Wtarget列表长度为L_Wtarget；

(c)按行读取论文文本正文段落，添加至正文文本；利用正则表达式过滤文本特殊字符；利用TF/IDF、TextRank、KeyBERT模型三种方法分别提取9个关键词，并统计每个关键词出现的次数，将次数大于2关键词作为最终投票选举的主题关键词，加入候选词列表中WkeyBERT 的权重最高的2个关键词，去除重复词后获得关键词列表Wfinal，如图2所示。

(d)计算TF/IDF、TextRank、KeyBERT模型以及本发明方法提取的关键词的匹配率：以本发明方法获得的关键词列表Wfinal为例，计算过程如下：关键词列表Wfinal匹配目标关键词Wtarget，计算得出匹配率：

计算出匹配到的个数：

遍历关键词列表Wfinal，取出关键词key2，其计数设置为0；

在关键词列表Wtarget中匹配关键词key2，如果匹配到则计数加1；

循环以上过程。

计算出匹配率：上述过程计数出的计数除以L_Wtarget。

统计200篇论文的匹配率均值，比较其准确率。

TF/IDF匹配率均值是:61.17％

TextRank匹配率均值是:61.96％

Bert匹配率均值是:39.72％

投票机制匹配率均值是:64.07％

如图3所示，由此可证明对于长文本情况，融合方式提高提取关键字的准确率至少3％。

在长文本论文测试数据集上计算四种方式匹配率之和，画出其折线图如图4所示,可看出融合算法在长文本数据集上的优越性。

实施例2对200篇中文新闻(字数小于300字)进行关键词提取

如图1所示，读取待处理的CSV文本，并提取出每篇新闻对应的标题作为关键词列表，作为目标关键词：

分别处理单个新闻文本，利用TF/IDF、TextRank、KeyBERT模型三种方法分别提9个关键词，并统计每个关键词出现的次数，将次数大于2关键词作为最终投票选举的主题关键词，加入候选词列表中WkeyBERT的权重最高的2个关键词，去除重复词后，获得关键词列表Wfinal。

计算200篇中文新闻四种方式匹配率均值，比较其准确率。

TF/IDF匹配率均值是:45.06％

TextRank匹配率均值是:42.76％

Bert匹配率均值是:51.25％

投票机制匹配率均值是:59.22％

如图5所示，由此可证明对于短文本情况，融合提高提取关键字的准确率至少8％。

在短文本新闻数据集上计算四种方式匹配率之和，画出其折线图如图6所示，可看出融合算法在短文本数据集上的优越性。

与前述基于多模型融合决策提取主题关键词的方法的实施例相对应，本发明还提供了基于多模型融合决策提取主题关键词的装置的实施例。

本发明实施例提供的基于多模型融合决策提取主题关键词的装置，包括：

进一步地，所述关键词提取模块包括：

TF/IDF单元，用于利用TF/IDF提取方法提取文本中的K个关键词；

本发明的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。

装置实施例可以通过软件实现，也以通过硬件或者软硬件结合的方式实现。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的基于多模型融合决策提取主题关键词的方法。

本发明实施例还一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多模型融合决策提取主题关键词的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD 卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实例是示例性的，不能理解为对本发明的限制，本发明的专利保护范围包括但不限于上述具体示例实施方式。任何符合本发明的基于多模型融合决策提取主题关键词的方法及装置的权利要求说明的且任何本领域的技术人员在本发明范围内根据业务场景不同，示例数据，对输入文本数据、模型参数、模型的变化、替换和变型，皆应落入本发明的专利保护范围。

Claims

1.一种基于多模型融合决策提取关键词的方法，其特征在于，具体为：

利用M种关键词提取方法分别提取文本中的K个关键词；

统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终加权投票选举的主题关键词；

其中，K和M均为大于1的正整数，N为大于等于1的正整数；

2.根据权利要求1所述的方法，其特征在于：所述M种关键词提取方法中，不同类型的关键词提取方法的数量不同时，直接将数量少的关键词提取方法提取的K个关键词中权重最高的K/M向下取整数个关键词作为最终投票选举的主题关键词中的几个。

3.根据权利要求1所述的方法，其特征在于：所述基于词频的关键词提取方法包括TF/IDF和TextRank。

4.根据权利要求1所述的方法，其特征在于：基于语义的关键词提取方法为基于BERT模型提取方法。

5.根据权利要求1所述的方法，其特征在于：所述统计每个关键词出现的次数，并按从大到小的顺序选取其中的N个关键词作为最终投票选举的主题关键词，具体为：

将M种关键词提取方法分别提取文本中的K个关键词去重后组成候选关键词列表Wcandidate；从候选关键词列表Wcandidate中取出关键词，并与每种关键词提取方法提取的K个关键词一一匹配，如果匹配到则计数加一，遍历所有候选关键词列表Wcandidate中的关键词，统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终加权投票选举的主题关键词，将数量少的关键词提取方法提取的K个关键词中权重最高的K/M向下取整数个关键词作为最终投票选举的主题关键词中的几个，去除重复词后获得关键词列表Wfinal。

6.一种基于多模型融合决策提取主题关键词的装置，其特征在于，包括：

关键词提取模块，用于利用M种关键词提取方法分别提取文本中的K个关键词；其中，M为大于1的正整数；

投票选举模块，用于统计每个关键词出现的次数，并根据次数选取其中的N个关键词作为最终加权投票选举的主题关键词；其中，M为大于1的正整数，N为大于等于1的正整数。

7.根据权利要求6所述的装置，其特征在于：所述关键词提取模块包括：

TF/IDF单元，用于利用TF/IDF提取方法提取文本中的K个关键词；

TextRank单元，用于利用TextRank提取方法提取文本中的K个关键词。

BERT单元，用于利用基于KeyBERT模型提取方法提取文本中的K个关键词。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的基于多模型融合决策提取主题关键词的方法。

9.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-6任一项所述的基于多模型融合决策提取主题关键词的方法。