CN113515619A

CN113515619A - 一种基于显著性信息门控机制的关键词生成方法

Info

Publication number: CN113515619A
Application number: CN202110783307.3A
Authority: CN
Inventors: 周沧琦; 商锦铃; 姚思诚; 胡殿明
Original assignee: Ganyi Intelligent Technology Nanjing Co ltd; Nanjing University of Science and Technology
Current assignee: Ganyi Intelligent Technology Nanjing Co ltd; Nanjing University of Science and Technology
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-19

Abstract

本发明涉及一种基于显著性信息门控机制的关键词生成方法，属于关键词生成领域。该系统使用预训练模型BERT作为编码器来获取源文档的上下文语义信息，在Transformer解码器端增加显著性门控机制，构建Saliency‑Transformer解码器模块，显式地管理从编码器到解码器的信息流，减少源文档中低语义词的权重，降低了它们在最终关键词生成中出现的可能性，从而提升关键词生成的准确性和质量。本发明通过自然语言处理和深度学习相关技术创新关键词生成方法，为文本生成领域提供技术支撑，对数据挖掘领域来说，具有一定的商业工业应用价值。

Description

一种基于显著性信息门控机制的关键词生成方法

技术领域

本发明属于关键词生成技术领域，涉及一种基于显著性信息门控机制的关键词生成方法。

背景技术

在社会上，随着科技的不断发展，信息呈现井喷式的增长，人们在日常生活和工作中都面临着信息过载的问题，例如社交软件的推送轰炸、关注者的大量讯息等。因此，如何从海量信息中快速又准确的获取有价值的内容成为人们的迫切需求。

针对给定文档实现关键词的生成，即提取出文档中具有代表性的、能传达文本主题的词或短语，能够很大程度减轻人们阅读的时间和精力。Meng等人提出了一种基于编码器-解码器的序列到序列(sequence-to-sequence，seq2seq)关键词生成模型(R.Meng,S.Zhao,S.Han,et al.Deep keyphrase generation[C],Proceedings of the 55thAnnual Meeting of the Association for Computational Linguistics,Vancouver:ACL,2017(1):582– 592.)，该模型更好地编码了文档语义，能够生成不存在于源文中的关键词，其编码器和解码器的实现均为循环神经网络(recurrent neural network，RNN)。Wang等人在Meng 的基础上提出了主题感知的社交媒体语言关键词生成方法(Y.Wang,J.Li,H.P.Chan,et al.Topic-aware neural keyphrase generation for social medialanguage[J],arXiv preprint arXiv:1906.03889,2019.)，该方法的关键词生成模型为seq2seq，它将主题表示融入编码器隐状态中，再输入解码器，实现了神经主题模型和关键词生成模型的联合建模。

但是，基于RNN或其变体的传统关键词生成方法存在缺陷。RNN模型存在着长距离依赖问题，它针对间隔太远的输入信息难以记忆，因此可能产生梯度消失和梯度爆炸。此外，这些模型的输入普遍需要经过分词的文本输入，因此它在一定程度上会受到前期数据预处理的影响，特别是针对中文数据，影响程度将加大。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于显著性信息门控机制的关键词生成方法，以预训练模型BERT(双向Transformer编码器，Bidirectional Encoder Representations from Transformers)为编码器，以基于显著性信息的门控机制的Saliency-Transformer为解码器构建网络模型。有效解决了传统模型受数据预处理质量影响的问题，并且也有效解决了传统基于RNN方法存在的长距离依赖问题。

为了解决上述技术问题，一种基于显著性信息门控机制的关键词生成方法，包括以下步骤：

步骤S1：获取源文档目标文档数据集，对源文档目标文档数据集中的源文档进行预处理，构建训练数据集、验证数据集和测试数据集。

进一步地，步骤S1中，使用的数据来自于新浪微博的创建话题标签下用户所发送的帖子；其中，源文档即微博正文，目标文档是用户自己所携带的话题。

进一步地，步骤S1中，预处理包括去除源文档中的非正文冗余内容，对源文档进行数据清洗；其中非正文冗余内容包括页面标签和非法字符；对源文档进行数据清洗包括：去重、去除非法字符、英文单词小写化以及去除任意一方存在缺失的源文档目标文档。

进一步地，步骤S1中，按照8：1：1的比例将预处理后的源文档目标文档数据集划分为训练数据集、验证数据集和测试数据集。

步骤S2：利用BERT Tokenizer分词器对训练数据集中的源文档以及目标文档进行分词并编码为向量，主要包括：

步骤S21：以字为单位，将训练数据集中的源文档以及目标文档的每个字，通过预训练模型BERT自带的字典将每个字转换成字典索引，形成字典索引序列；

步骤S22：使用[CLS]符号用作字典索引序列头部，用[SEP]分隔符用作字典索引序列尾部，得到输入字典索引序列input_ids；设置分隔嵌入向量为0，得到分隔字典索引序列segment_ids；

步骤S23：设置最大序列长度，超过即截断，小于最大长度将用0填充；最终得到源文档的特征向量：源文档输入字典索引向量src_input_ids和源文档分隔字典索引向量src_segment_ids；目标文档的特征向量：目标文档输入字典索引向量tgt_input_ids 和目标文档分隔字典索引向量tgt_segment_ids；

步骤S24：将源文档输入字典索引向量src_input_ids和目标文档输入字典索引向量 tgt_input_ids转换为对应的词嵌入、序列嵌入和词位置嵌入，最后分别对三者求和，得到最终的源文档输入向量和目标文档输入向量。

进一步地，步骤S23中，设置源文档的最大序列长度为100；设置目标文档最大序列长度为10。

步骤S3：使用预训练模型BERT作为编码器，在Transformer解码器端增加显著性门控机制，构建Saliency-Transformer解码器模块，共同构建网络，主要包括：

步骤S31：搭建由12层Transformer编码器单元堆叠组成的BERT编码器，每层Transformer编码器单元包括两个模块：多头自注意力模块和前馈神经网络模块；每个模块上都加入了残差连接和层归一化操作；使用BERT-base-chinese预训练模型作为 BERT编码器的初始参数；

步骤S32：搭建6层Transformer解码器单元组成模块，每层Transformer解码器单元包括三个模块：掩蔽多头自注意力模块、多头自注意力模块和前馈神经网络模块；每个模块上个都加入了残差连接和层归一化操作；在每层Transformer解码器多头自注意力模块上，利用Sigmoid函数设置显著性门控，构建Saliency-Transformer解码器模块。

进一步地，步骤S31具体为：

(1)设置n组注意力头，将输入向量分别与n组初始化权重矩阵W^Q、W^K以及W^V相乘，得到n组对应的请求Q、键K和值V；

(2)以点乘注意力为基础，对每组的请求Q、键K和值V计算得到输入向量的一个自注意力矩阵：

将n个自注意力矩阵拼接起来和权重矩阵W^O相乘，得到最终矩阵；

(3)对最终矩阵进行残差连接和层归一化操作后，通过前馈神经网做变换：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂；

变换后再进行一次残差连接和层归一化操作；

(4)重复上述过程12次，得到词标记的768维隐层表示。

进一步地，步骤S32具体为：

(1)利用Transformer解码器的掩蔽多重注意力机制和BERT解码器输出的语义表示进行多头自注意力机制建模：

(2)使用Sigmoid函数对BERT编码器的输出转换得到的请求Q和键K运算得到显著性分数值g，显著性分数值g在0到1之间：

g＝sigmoid[(WQ)(WL^T)]；

(3)将显著性分数值g与(1)中多头自注意力机制建模得到的注意力进行同位元素对应相乘，减少输入向量中低语义词的权重，最终得到融合显著性信息的输入向量；

(4)通过前馈神经网络模块和层归一化操作后得到对应字典索引的概率分布。

步骤S4：使用步骤S2中分词编码后的训练数据集训练网络，训练过程中参考验证数据集的准确度和损失下降程度调整网络模型超参数。

进一步地，步骤S4中，损失函数选用交叉熵损失函数。

步骤S5：对测试数据集中的源文档进行分词编码，根据步骤S4中训练好的网络，使用束搜索算法采样得到关键词短语。

步骤S6：对步骤S5中采样得到的关键词短语进行处理，最终得到关键词。

进一步地，步骤S6中，处理包括：去除空格、去重以及去除非法字符。

有益效果：

1.基于预训练BERT编码器能够编码蕴含上下文信息的文本表示，而且由于编码器BERT模型以字符级别为输入，模型将不再受分词准确性的影响，有效解决了传统模型受数据预处理质量影响的问题。

2.Saliency-Transformer解码器使用注意力机制来捕获依赖，有效解决了传统基于RNN 方法存在的长距离依赖问题，同时与传统Transformer结构相比，本发明利用基于显著性信息的门控机制过滤低语义词，提高了解码能力。

附图说明

图1是Transformer结构；

图2是模型整体结构。

具体实施方式

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述发明目的和技术方案的优点将会变得更加清楚。

实施例

本实施例使用Python语言在Pytorch框架下构建网络模型，在GPU环境下进行模型训练与测试。实验环境情况如下：CPU：48颗

Gold 5218 CPU@2.30GHz；内存：256GB；GPU：六块

P40；显存：24GB；操作系统：CentOS 3.10.0； Python：3.7；Torch：1.6.0。

一种基于显著性信息门控机制的关键词生成方法，包括以下步骤：

步骤S1：爬取新浪微博2014年1月至8月期间创建的话题标签下用户所发送的帖子，获取源文档目标文档数据集，源文档即微博正文，目标文档，即对应的标准关键词是用户自己所携带的话题，通常话题标签为1-2个；去除源文档中的非正文冗余内容，包括页面标签和非法字符；对源文档进行数据清洗，包括：去重、去除非法字符、英文单词小写化以及去除任意一方存在缺失的源文档目标文档；最终获得共计46296 条数据，其中，源文档平均长度为33.07，目标文档即关键词平均长度为1.06；按照8： 1：1的比例将所有数据划分为训练数据集、验证数据集和测试数据集。

步骤S2：以字为单位，将训练数据集中的源文档以及目标文档的每个字，通过预训练模型BERT自带的字典将每个字转换成字典索引，形成字典索引序列；使用[CLS] 符号用作字典索引序列头部，用[SEP]分隔符用作字典索引序列尾部，得到输入字典索引序列input_ids；将源文档当做一个句子，设置分隔嵌入向量为0，得到分隔字典索引序列segment_ids；设置源文档的最大序列长度为100，超过即截断，小于最大长度将用0填充，最终得到源文档的特征向量：源文档输入字典索引向量src_input_ids和源文档分隔字典索引向量src_segment_ids；设置目标文档的最大序列长度为10，超过即截断，小于最大长度将用0填充，最终目标文档的特征向量：目标文档输入字典索引向量tgt_input_ids和目标文档分隔字典索引向量tgt_segment_ids；将源文档输入字典索引向量src_input_ids和目标文档输入字典索引向量tgt_input_ids转换为对应的词嵌入、序列嵌入和词位置嵌入，最后分别对三者求和，得到最终的源文档输入向量和目标文档输入向量。

步骤S3：如图1所示，搭建由12层Transformer编码器单元堆叠组成的BERT编码器，使用BERT-base-chinese预训练模型作为BERT编码器的初始参数；设置8组注意力头，将输入向量分别与8组初始化权重矩阵W^Q、W^K以及W^V相乘，得到8组对应的请求Q、键K和值V；以点乘注意力为基础，对每组的请求Q、键K和值V计算得到输入向量的一个自注意力矩阵；将8个自注意力矩阵拼接起来和权重矩阵W^O相乘，得到最终矩阵；对最终矩阵进行残差连接和层归一化操作后，通过前馈神经网做变换；变换后再进行一次残差连接和层归一化操作；重复上述过程12次，得到词标记的768 维隐层表示；搭建6层Transformer解码器单元组成模块；在每层Transformer解码器多头自注意力模块上，利用Sigmoid函数设置显著性门控，构建Saliency-Transformer 解码器模块；利用Transformer解码器的掩蔽多重注意力机制和BERT解码器输出的语义表示进行多头自注意力机制建模；使用Sigmoid函数对BERT编码器的输出转换得到的请求Q和键K运算得到显著性分数值g，将显著性分数值g与上述多头自注意力机制建模得到的注意力进行同位元素对应相乘，减少输入向量中低语义词的权重，最终得到融合显著性信息的输入向量；通过前馈神经网络模块和层归一化操作后得到对应字典索引的概率分布，整体模型如图2所示。

步骤S4：使用步骤S2中分字编码后的训练数据集训练网络，训练过程中，每200steps进行一次验证，参考验证数据集的准确度和交叉熵损失函数下降程度优化网络模型的超参数；选用Adam优化器，epoch为100，学习率为0.001。

步骤S5：如表1所示，本实施例采用的测试数据源文档为：“来看看我拍的mv冰桶挑战我接受易小星的挑战同时还会向瓷娃娃罕见病关爱中心als项目捐款接下来点名张三李四王五谢谢点此播放美拍录制”，这是一则讨论冰桶挑战相关的微博，经过对源文档的预处理，并通过BERT Tokenizer分词器对源文档进行分词编码，转化为特征向量后，加载到步骤S4中已经训练好的模型中进行预测，得到对应到词典的概率分布；经过束搜索算法采样，束宽设为5，第一个时间步长，选取当前条件概率最大的5个词，当做候选输出序列的第一个词；之后的每个时间步长，基于上个步长的输出序列，挑选出所有组合中条件概率最大的5个，作为该时间步长下的候选输出序列；始终保持5 个候选，直到生成<eos>句末结束符为止；最后从5个候选中挑出最优的，得到最终预测结果，即存在空格的“冰桶挑战；美拍”。

步骤S6：对步骤S5中采样得到的关键字进行处理，包括去空格、去重以及去除非法字符，最终得到关键词输出给用户，即“冰桶挑战；美拍”。

表1测试用例

本发明提供了一种基于显著性信息门控机制的关键词生成方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于显著性信息门控机制的关键词生成方法，其特征在于，包括以下步骤：

步骤S1：获取源文档目标文档数据集，对源文档目标文档数据集中的源文档进行预处理，构建训练数据集、验证数据集和测试数据集；

步骤S2：利用BERT Tokenizer分词器对训练数据集中的源文档以及目标文档进行分词并编码为输入向量；

步骤S3：使用预训练模型BERT作为编码器，在Transformer解码器端增加显著性门控机制，构建Saliency-Transformer解码器模块，共同构建网络；

步骤S4：使用步骤S2中分词编码后的训练数据集训练网络，训练过程中参考验证数据集的准确度和损失下降程度调整网络模型超参数；

步骤S5：对测试数据集中的源文档进行分词编码，根据步骤S4中训练好的网络，使用束搜索算法采样得到关键词短语；

2.根据权利要求1所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S1中，预处理包括去除源文档中的非正文冗余内容，对源文档进行数据清洗。

3.根据权利要求1所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S2包括：

步骤S23：设置最大序列长度，超过即截断，小于最大长度将用0填充；最终得到源文档的特征向量：源文档输入字典索引向量src_input_ids和源文档分隔字典索引向量src_segment_ids；目标文档的特征向量：目标文档输入字典索引向量tgt_input_ids和目标文档分隔字典索引向量tgt_segment_ids；

步骤S24：将源文档输入字典索引向量src_input_ids和目标文档输入字典索引向量tgt_input_ids转换为对应的词嵌入、序列嵌入和词位置嵌入，最后分别对三者求和，得到最终的源文档输入向量和目标文档输入向量。

4.根据权利要求1所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S3包括：

步骤S31：搭建由12层Transformer编码器单元堆叠组成的BERT编码器，每层Transformer编码器单元包括两个模块：多头自注意力模块和前馈神经网络模块；每个模块上都加入了残差连接和层归一化操作；使用BERT-base-chinese预训练模型作为BERT编码器的初始参数；

5.根据权利要求4所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S31具体为：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂；

变换后再进行一次残差连接和层归一化操作；

(4)重复上述过程12次，得到词标记的768维隐层表示。

6.根据权利要求4所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S32具体为：

g＝sigmoid[(WQ)(WL^T)]；

7.根据权利要求1所述的一种基于显著性信息门控机制的关键词生成方法，其特征在于，所述步骤S6中，处理包括：去除空格、去重以及去除非法字符。