CN113139050A

CN113139050A - 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Info

Publication number: CN113139050A
Application number: CN202110503654.6A
Authority: CN
Inventors: 强保华; 汪晨; 王玉峰; 彭博; 李宝莲; 陈金勇
Original assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Current assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-20
Anticipated expiration: 2041-05-10
Also published as: CN113139050B

Abstract

本发明公开了一种基于命名实体识别附加标签和先验知识的文本摘要生成方法，该方法包括：在原始文本的基础上添加命名实体识别的附加标签；将添加附加标签的文本基于字符进行处理，同时根据原始文本生成对应的向量字典并对文本向量化；将得到的向量化文本作为生成式摘要模块的输入进行编码，解码阶段引入注意力机制，获取全局信息；使用原始文本中的词集构建先验知识库，与得到的序列做加权平均；解码阶段得到的结果通过集束搜索方法进行文本还原；删除标签输出原始文本的摘要结果。本发明中附加标签的添加使得实体类识别更准确，生成的摘要不会出现名称不全现象；先验知识的引入使得生成的摘要语义更加贴近原文，减少了出现与文本相关性不大的语句。

Description

基于命名实体识别附加标签和先验知识的文本摘要生成方法

技术领域

本发明涉及计算机自然语言处理技术领域，具体涉及一种基于命名实体识别附加标签和先验知识的文本摘要生成方法。

背景技术

文本自动摘要(Text Summarization)是指通过自动分析一篇或多篇给定的文章，根据一些语法以及句法等信息分析其中的关键信息，通过压缩、精简得到一篇可读性较高且简明扼要的文章摘要，这个摘要可以由文章中的关键句构成，也可以重新生成，其长度不超过或远少于原文本的一半，根据摘要的生成方法可以分为抽取式摘要、生成式摘要和压缩式摘要。抽取式摘要简单来说就是抽取出主旨句以及与主旨密切相关的句子组成摘要，内容全部来自于原文，此方法易于实现且每个摘要句内部语句通顺，但是得到的摘要内容冗长，连贯性难以保证。生成式摘要是在理解原文意思的基础上，对文本进行深层次信息的进行挖掘，根据要点信息进行信息融合，该方法可以像人工撰写摘要一样完成摘要内容，得到更加凝练的摘要，所以得到了广泛的应用与研究。由于文本内容更新太快，尤其是新闻类文本，涉及过多的人名、地名、组织名等，面对全新的文本内容，即使是生成式自动摘要也难以保证可读性和连贯性，甚至有些人名、地名都识别不全，严重影响摘要效果；而且摘要的生成是逐字生成，人名、地名识别错误会导致后续误差累计，增加摘要里与原文相关低的语句。

发明内容

为克服上述缺陷，本发明提供一种基于命名实体识别附加标签和先验知识的文本摘要生成方法，在原始文本基础上添加命名实体识别的附加标签以及引入先验知识生成摘要。附加标签的添加使得摘要的实体类识别更准确，生成的摘要不会出现人名、地名、机构名不全导致的语句不连贯问题；先验知识的引入使得生成的摘要语义更加贴近原文，提高了生成摘要的准确性，减少了生成的摘要里出现与文本相关性不大的语句。

本发明的技术方案主要包括以下步骤：

S1:输入待生成摘要的原始文本。

S2:将原始文本输入到命名实体识别(NER)模块中进行实体标记，在原始文本的基础上添加命名实体识别的附加标签。

S3:将添加附加标签的文本基于字符进行处理(文本中的英语单词和附加标签不处理)，同时根据原始文本生成对应的向量字典并对文本向量化表示。

S4:将S3得到的向量化文本作为生成式摘要模块的输入，将输入进行编码，解码阶段引入注意力机制，获取全局信息。

S5:使用原始文本中的词集构建先验知识库，与S4得到的序列做加权平均。

S6:解码阶段得到的结果通过集束搜索方法进行文本还原，得到还原的文本摘要结果。

S7:由于生成摘要阶段添加了附加标签，得到的文本摘要结果包含标签，删除标签输出原始文本的摘要结果。

具体实施方式

下面通过具体的实施例，对本发明做进一步的详细说明。

实施例技术方案主要步骤如下：

S1:输入待生成摘要的原始文本。

对于原始文本，利用命名实体识别进行实体标记。实体标记的标签类别主要分为三类：PERSON(人名)、ORG(组织)、LOC(地名)；实体标记的标签边界定义分别为：<PERSON></PERSON>，<ORG></ORG>，<LOC></LOC>。利用第三方库Stanford-NER对原始文本进行实体标记，给定原始文本为X＝{x₁,x₂，......,x_n}，生成带附加标签的文本序列

n表示文本序列的长度。

S3:将文本序列X^e基于字符进行处理(文本中的英语单词和附加标签不处理)，同时根据原始文本生成对应的向量字典并对文本向量化表示。

将文本基于字符分词处理，以空格为分割标志，中文文本中的英语单词则不分割，完整保留；分词后的文本序列

按照字符出现顺序向量标记，重复字符只标记一次，生成的向量字典表示为V＝{v₁,v₂,......v_m}，其中m表示为文本序列中出现的字符数量；另外，向量字典中添加<start>和<end>标签的向量表示，记录每个文本的开始和结束；利用向量字典V对文本序列

向量化表示为

其中

为文本序列

的向量化表示，

为

中的一项，

a表示该序列的长度。

S4:将步骤S3得到的向量化文本序列

作为生成式摘要模块的输入，将输入进行编码，解码阶段引入注意力机制，获取全局信息。

生成式摘要模块给予seq2seq模型构建，分为encoder和decoder两个部分，将S3得到的向量化文本作为生成式摘要模块的encoder部分的输入，得到的结果再作为decoder部分的输入。

所述生成式模块具体实现步骤如下：

S4-1:序列

输入生成式摘要模块的Encoder部分，把序列

中的每一项

(每一项的长度不固定，取决于该项原始文本的长度)编码为固定大小的向量，包含了输入文本序列的全部信息。经过Encoder编码后的向量表示为

编码阶段使用双向长短时记忆网络(BiLSTM)，记忆门的神经元

输入门神经元

遗忘门神经元

输出门神经元

其中σ为sigmoid函数，W_f,b_f,w_i,b_i,W_c,b_c是各个门神经元的参数，

是当前t时刻的输入。

S4-2:生成式摘要模块的Decoder部分将编码得到的序列

作为输入，经过解码生成的输出序列表示为Y_n＝{y₁,y₂,......y_n}；解码阶段，根据编码得到的序列

和从第1时刻到第t-1时刻输出结果的集合Y_t-1＝{y₁，y₂,......y_t-1}来预测第t时刻的输出结果y_t，计算公式为

当到达第n时刻最终得到序列Y_n；其中y₁表示第1时刻输出的结果，y₂表示第2时刻输出的结果，y_t-1表示第t-1时刻输出的结果。

S4-3:在生成式摘要模块的Decoder部分引入注意力机制(Attention)，将解码的输出序列Y_n做为Attention的输入。根据上述S4-2，解码时不仅利用Encoder编码的序列

还要逐字查阅输入序列Y_n的每一个字符，结合上文信息解码当前时间t的输出。注意力机制(Attention)的公式定义为

其中

一般地，K＝V，用解码生成的输出序列Y表示，编码得到的序列

表示为Q。通过Q的每一项与K的每一项进行相似度计算得到权重，使用softmax函数对这些权重进行归一化处理，最后将权重和V中相应的每一项进行加权求和得到最终输出序列Ya。

S5:使用原始文本中的词集构建先验知识库，与步骤S4得到的序列Ya做加权平均。

使用原始文本中的词集构建先验知识库，根据文本序列X^e和对应的摘要得到先验知识库的向量序列X_pre＝(X₁,X₂,...,X_n)，其中X_n＝1表示该词在摘要中出现过，X_n＝0表示该词没有在摘要中出现过，X_n＝2表示该词为标记过的实体(仅表示出现过的词，不一定连续出现、词序相同或标题完全包含在原始文本中)。将X_pre经过一个缩放平移得到：

其中s,t为训练参数。将

与Ya加权平均后使用softmax函数得到序列

对解码阶段得到的输出序列

进行还原得到最终的摘要结果序列Y_beam，采用集束搜索方法。在对输出序列

每一项计算时，只保留当前最优的top_k个候选结果。一般地，top_k＝3，即每次还原计算时保留使

最大的3个Y1，将Y1分别代入

仍然保留使P最大的3个Y2，依次递归，直到出现<end>标签表示还原摘要结束。

还原摘要的序列Y_beam包含命名实体识别的附加标签，根据定义的实体标记的标签边界，删除对应标签，最终得到原始文本的摘要结果。

本发明的有益效果：

在原始文本的基础上添加命名实体识别的附加标签，有助于生成摘要阶段识别标记的实体(人名、地名、机构名)；使用生成式摘要模型，模型训练阶段学习全局信息，根据人类阅读习惯，逐字生成摘要。根据已有标签的原始文本和训练集对应的摘要构建先验知识库，在摘要生成阶段引入先验知识库，有助于生成摘要阶段使用与原始文本相关度较大的语句并且更贴近原始文本的语义风格。由于原始文本已添加实体标签，也能针对实体信息训练，生成摘要时能够更准确的识别实体类。并且，摘要是逐字生成，对于实体类生成不准确，误差累计会影响之后的摘要生成。摘要里实体类的准确生成在一定程度上，能提高摘要的可读性和连贯性；先验知识库的引入，也能使摘要的语义更加贴近原文，进一步加强摘要的可读性和准确性，减少摘要里与原文低相关度的词语。

Claims

1.基于命名实体识别附加标签和先验知识的文本摘要生成方法，其特征在于，包括以下步骤：

(1)将原始文本输入到命名实体识别模块中进行实体标记，在原始文本的基础上添加命名实体识别的附加标签：实体标记的标签类别分为PERSON、ORG和LOC三类，PERSON表示人名，ORG表示组织，LOC表示地名；实体标记的标签边界定义分别为<PERSON></PERSON>，<ORG></ORG>，<LOC></LOC>；利用第三方库Stanford-NER对原始文本进行实体标记，给定原始文本为X＝{x₁,x₂，......,x_n}，生成带附加标签的文本序列

n表示文本序列的长度；

(2)将文本序列X^e基于字符进行处理，同时根据原始文本生成对应的向量字典并对文本向量化：将文本基于字符分词处理，生成文本序列

以空格为分割标志，中文文本中的英语单词不分割，完整保留；分词后的文本序列

按照字符出现顺序向量标记，重复字符只标记一次，生成的向量字典表示为V＝{v₁,v₂,......v_m}，其中m表示文本序列中出现的字符数量；另外，向量字典中添加<start>和<end>标签的向量表示，分别记录每个文本的开始和结束；利用向量字典V对文本序列

向量化表示为

其中

为

中的一项，

a表示该序列的长度；

(3)将步骤(2)得到的向量化文本序列

作为生成式摘要模块的输入，将输入进行编码，解码阶段引入注意力机制，获取全局信息；所述生成式摘要模块具体实现步骤如下：

S3-1:序列

输入生成式摘要模块的Encoder部分，把序列

中的每一项

编码为固定大小的向量，经过Encoder编码后的向量表示为

编码阶段使用双向长短时记忆网络BiLSTM，记忆门的神经元

输入门神经元

遗忘门神经元

输出门神经元

是当前t时刻的输入；

S3-2:生成式摘要模块的Decoder部分将编码得到的序列

作为输入，经过解码生成的输出序列表示为Y_n，Y_n＝{y₁,y₂,......y_n}；解码阶段，根据编码得到的序列

当到达第n时刻最终得到序列Y_n；其中y₁表示第1时刻输出的结果，y₂表示第2时刻输出的结果，y_t-1表示第t-1时刻输出的结果；

S3-3:在生成式摘要模块的Decoder部分引入注意力机制Attention，将解码的输出序列Y_n做为Attention的输入；注意力机制Attention的公式定义为

其中

选择K＝V，用解码生成的输出序列Y_n表示，编码得到的序列

表示为Q，通过Q的每一项与K的每一项进行相似度计算得到权重，使用softmax函数对这些权重进行归一化处理，最后将权重和V中相应的每一项进行加权求和得到包含全局信息的序列Ya；

(4)使用原始文本中的词集构建先验知识库，与步骤(3)得到的序列Ya做加权平均：根据文本序列X^e和对应的摘要得到先验知识库的向量序列X_pre＝(X₁,X₂,...,X_n)，其中X_n＝1表示该词在摘要中出现过，X_n＝0表示该词没有在摘要中出现过，X_n＝2表示该词为标记过的实体；将X_pre经过一个缩放平移得到：

其中s,t为训练参数，将

与Ya加权平均后使用softmax函数得到序列

(5)解码阶段得到的结果通过集束搜索方法进行文本还原，得到还原的文本摘要结果：在对输出序列

每一项计算时，只保留当前最优的top_k个候选结果，选择top_k＝3，即每次还原计算时保留使

最大的3个Y1，将Y1分别代入

仍然保留使P最大的3个Y2，依次递归，直到出现<end>标签表示还原摘要结束；

(6)根据定义的实体标记的标签边界，删除对应标签，最终得到原始文本的摘要结果。