CN112347753B

CN112347753B - 一种应用于阅读机器人的摘要生成方法及系统

Info

Publication number: CN112347753B
Application number: CN202011264506.5A
Authority: CN
Inventors: 关勇; 李茹; 郭少茹; 谭红叶; 张虎
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-27
Anticipated expiration: 2040-11-12
Also published as: CN112347753A

Abstract

本发明公开了一种应用于阅读机器人的摘要生成方法及系统；包括如下步骤：一、候选摘要抽取单元，在训练集中抽取与当前文章最相似的文章的摘要作为候选摘要；二、框架选择单元，使用框架关系、框架相似度两种度量方法筛选出文章中的重要框架；三、框架编码单元，获取框架的向量表示；四、文章编码单元，获取文章的向量表示；五、框架与文章交互单元，计算框架与文章之间的相互影响，得到最终的文章表示；六、解码单元，根据得到的文章表示生成摘要。本发明首次引入框架语义信息，将其融入到摘要生成模型中，计算了框架与文章之间的相互影响，有效的提升了摘要生成结果。本发明方法思路结构清晰，效果明显，可扩展性强。

Description

一种应用于阅读机器人的摘要生成方法及系统

技术领域

本发明属于自然语言处理研究领域，具体涉及一种应用于阅读机器人的摘要生成方法及系统。

背景技术

摘要是全面准确地反映某一文本主要内容的简单连贯短文。自动文摘是利用计算机自动地从原始文本中提取摘要，旨在为用户提供文本的简短表示，方便用户快速高效的获取文本信息。该技术广泛应用于各大领域，如军事、公共安全、企业、出版、医疗等。同时面对数据的爆炸式增长，文本摘要生成逐渐成为自然语言处理(NLP)方面的一个热点。

文本摘要技术早期主要是一些基于特征的方法。Knight,K.；and Marcu,D.2002.Summarization beyond sentence extraction:A probabilistic approach tosentence compression.Artificial Intelligence 139(1):91–107.针对摘要生成问题，在解码过程中，借助句法分析工具将文章解析为句法树，然后对句法树进行排序和裁剪，得到最终的文本表示。Zhou,L.；and Hovy,E.2004.Template-filtered headlinesummarization.In Text Summarization Branches Out,56–60.针对标题生成问题，构建了大量的摘要模板及词库，使用不同的规则将词库中的词填充到固定的模板中形成摘要。

近年来，随着大规模数据集的涌现、高性能计算的快速发展，基于深度学习的文本摘要逐渐成为一个研究热点。基于神经网络的方法主要使用编码-解码结构，例如：Rush,A.M.；Chopra,S.；and Weston,J.2015.A Neural Attention Model for AbstractiveSentence Summarization.In Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing,379–389.该论文使用了一种局部注意力机制，在生成文档表示的时候考虑了当前解码状态向量的影响。See,A.；Liu,P.J.；andManning,C.D.2017.Get to the point:Summarization with pointer-generatornetworks.arXiv preprint arXiv:1704.04368.针对摘要生成过程中的未登录词和重复问题，分别提出了拷贝机制和覆盖机制，使得模型可以直接从原始输入中复制重要的词，同时防止重复问题。

在编码-解码结构基础上，也有许多工作尝试将外部知识融入到模型中。Nallapati,R.；Zhou,B.；Gulcehre,C.；Xiang,B.；et al.2016.Abstractive textsummarization using sequence-to-sequence rnns and beyond.arXiv preprintarXiv:1602.06023.该论文将一些手工特征(比如：命名实体、词性信息等)直接拼接到文章词向量后，优化文章表示。Cao,Z.；Wei,F.；Li,W.；and Li,S.2018b.Faithful to theOriginal:Fact Aware Neural Abstractive Summarization.In AAAI.该论文抽取实体三元组作为事实描述，将其融合到文章向量中，进一步影响摘要生成，提升模型生成事实的准确性。Gunel,B.；Zhu,C.；Zeng,M.；and Huang,X.2019.Mind The Facts:Knowledge-Boosted Coherent Abstractive Text Summarization.In NeurIPS 2019.该论文从文章中抽取实体形成实体图，经过编码得到每个实体的向量表示，进而影响摘要生成。

尽管已经进行了大量的研究，并且取得了很大的进步，但是以上工作或是直接将外部知识作为词向量特征拼接到文本词向量后，或是抽取了文章中的实体信息指导摘要生成，并且没有用到文章本身蕴含的复杂的语义信息。

发明内容

针对上述阅读机器人的摘要生成问题，本发明提出了一种框架语义指导的摘要生成方法。该方法从整个训练集中筛选候选摘要，根据候选摘要中的框架筛选出文章中的重要框架，然后将筛选出的框架进行编码，并与文章编码进行交互，优化文章表示，进而引导摘要生成。

为达到上述目的，本发明采用了以下技术方案：

一种应用于阅读机器人的摘要生成方法，其特征在于，包括如下步骤：

步骤1：针对文章D，采用一个开源的全文检索引擎工具Lucene，在训练集中查找与当前文章D最相似的一篇文章D_can，文章D_can的摘要作为候选摘要S_can；

步骤2：使用汉语框架网标注工具分别抽取文章D和候选摘要S_can中的框架场景

和

其中

表示文章D的第m个框架，

表示候选摘要S_can的第n个框架，每个框架又由框架元素E_i构成，以文章框架

为例，

每个框架又由框架元素E_i构成，以文章框架

为例，

并筛选出与候选摘要框架F^s相关的文章D中的框架F＇；

步骤3：将步骤2筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}融合成一个框架序列F^*后，输入预训练模型BERT，获取框架的向量表示H^f；

步骤4：将文章D＝{x₁,x₂,…,x_l}输入预训练模型BERT，获取文章的向量表示H^d，其中，l表示文章的长度；

步骤5：将步骤4生成的文章表示H^d与步骤3生成的框架表示H^f进行融合，获取最终的文章表示C；

步骤6：将步骤5生成的文章表示C生成摘要。

进一步，所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架F^s相关的文章D中的框架F＇：

第一，基于框架关系的方法：如果F^d和F^s中的两个框架有关系，且关系度小于2，那么该框架被筛选；

第二，基于框架相似度的方法；针对不满足第一种条件的框架，计算每一个候选摘要框架

与所有的文章框架F^d的余弦相似度，然后为每一个候选摘要框架

筛选与其相似度最大的文章框架

公式如下：

score_i＝[score₁,score₂,…,score_j,…]

S_max(i)＝max(score_i)

其中，cosine指余弦相似度，score_i,j指候选摘要框架

与文章框架

相似度值，score_i是候选摘要框架

与文章所有框架F^d的余弦相似度值集合，S_max(i)指文章中与候选摘要框架

相似度值最大的框架，

指

的向量表示，是取其所有框架元素向量的平均值，具体公式如下：

其中，L是候选框架

的框架元素E_i个数，e(E_il)是框架

的第l个框架元素E_il的词向量；然后，根据相似度得分S_max得到相应的文章框架，再结合基于框架关系方法筛选出的框架，得到最终被筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}，k表示筛选出的框架个数，并且其大小与候选摘要框架F^s个数一致。

进一步，所述步骤3中汉语框架网(CFN，Chinese Frame Net)是一个汉语词汇语义知识库，通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。框架是指由词元和属于它的一系列框架元素构成的表达特定场景的语义结构形式。

进一步，所述步骤3中文章框架F＇融合成框架序列F^*的具体过程包括：首先，对F＇中所有框架按框架覆盖度从大到小排序，框架覆盖度最大的框架作为基准框架F^tmp；然后，遍历剩余的框架，如果当前位置F_i是框架元素，且在F^tmp中与其对应的位置不是框架元素，则用F_i替换

其中

指F^tmp中第i个位置的信息；最终得到一个框架序列F^*＝F^tmp。

接下来使用预训练模型BERT作为编码层，获取框架的向量表示H^f，具体公式如下：

H^f＝BERT(F^*)

进一步，所述步骤5中文章表示H^d和框架表示H^f融合的具体过程包括：首先，计算框架表示H^f对文章表示H^d的影响，具体公式如下：

其中，α_tj是t时刻框架对文章的注意力权重，H^f(j＇)指框架表示H^f第j＇个隐藏状态，N指文章的长度，exp指以e为底的指数函数，同理，计算出文章表示H^d对框架表示Hf的影响Cd2f；然后，设计一个门控H^gate用来融合C^f2d和C^d2f的信息，具体公式如下：

其中，θ表示一个非线性函数，C为最终的文章表示。

进一步，所述步骤6具体包括：首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t，具体公式如下：

s_t＝LSTM(y_t-1,C_t,s_t-1)

其中，s_t-1表示上一时刻的解码状态；然后，计算解码状态s_t对文章表示C_t的影响：

其中，β_ti是解码步骤t时刻的注意力权重，

表示加权后的文章表示，C_i＇指文章表示C的第i＇个隐层状态；最后，根据得到的文章表示

当前时刻解码状态s_t和上一时刻的输出y_t-1共同预测当前时刻的词的表示P_vocab，具体公式如下：

其中，y_t为当前t时刻的输出，W和b是可以学习的参数，P_vocab是预测当前词的概率。

一种应用于阅读机器人的摘要生成系统，其特征在于，该系统包括：候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元，其中，

候选摘要抽取单元用于在训练集中查找与当前文章D最相似的一篇文章D_can，文章D_can的摘要作为候选摘要S_can；

框架选择单元用于使用汉语框架网标注工具分别抽取文章D和候选摘要S_can中的框架场景

和

其中，

表示文章D的第m个框架，

表示候选摘要S_can的第n个框架，并筛选出与候选摘要框架F^s相关的文章D中的框架F＇；

框架编码单元用于将筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}融合成一个框架序列F^*后，输入预训练模型BERT，获取框架的向量表示H^f；

文章编码单元用于将文章D＝{x₁,x₂,…,x_l}输入预训练模型BERT，获取文章的向量表示H^d，其中，l表示文章的长度；

框架与文章交互单元用于将文章表示H^d和框架表示H^f进行融合，获取最终的文章表示C；

解码单元用于将文章表示C生成摘要。

进一步，所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架F^s相关的文章D中的框架；

第三，基于框架相似度的方法；针对不满足第一种条件的框架，计算每一个候选摘要框架

筛选与其相似度最大的文章框架

公式如下：

score_i＝[score₁,score₂,…,score_j,…]

S_max(i)＝max(score_i)

其中，cosine指余弦相似度，score_i,j指候选摘要框架

与文章框架

相似度值，score_i是候选摘要框架

相似度值最大的框架，

指

其中，L是候选框架

的框架元素E_i个数，e(E_il)是框架

的第l个框架元素E_il的词向量；然后根据相似度得分S_max得到相应的文章框架，再结合基于框架关系方法筛选出的框架，得到最终被筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}，k表示筛选出的框架个数，并且其大小与候选摘要框架F^s个数一致。

进一步，所述框架编码单元中：首先，对F＇中所有框架按框架覆盖度从大到小排序，框架覆盖度最大的框架作为基准框架F^tmp；然后，遍历剩余的框架，如果当前位置F_i是框架元素，且在F^tmp中与其对应的位置不是框架元素，则用F_i替换

其中

进一步，所述框架与文章交互单元中：首先，计算框架表示H^f对文章表示H^d的影响，具体公式如下：

其中，α_tj是t时刻框架对文章的注意力权重，H^f(j＇)指框架表示H^f第j＇个隐藏状态，N指文章的长度，exp指以e为底的指数函数，同理，计算出文章表示H^d对框架表示H^f的影响C^d2f；然后，设计一个门控H^gate用来融合C^f2d和C^d2f的信息，具体公式如下：

其中，θ表示一个非线性函数，C为最终的文章表示。

进一步，所述解码单元中：首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t，具体公式如下：

s_t＝LSTM(y_t-1,C_t,s_t-1)

其中，β_ti是解码步骤t时刻的注意力权重，

与现有技术相比，本发明具有以下有益效果：

一、本发明针对摘要生成问题，引入了框架语义信息，并将其融合到模型结构中，引导摘要生成。

二、本发明针对摘要生成问题，首次将框架语义信息引入到摘要生成中，有效填补了摘要智能生成中利用框架语义信息方面的空白。

三、本发明针对框架筛选问题，提出了框架关系、框架相似度两个度量方法进行框架筛选，该方法更符合人类推理思路，降低了推理成本。

四、本发明提出了框架语义指导的摘要生成方法，该方法引入了外部语义信息，计算了框架与文章之间的相互影响，有效的提升了摘要生成结果，对自然语言处理相关研究有启发效果。本发明方法思路结构清晰，效果明显，可扩展性强。

附图说明：

图1为本发明的系统流程图；

图2为本发明的关系构造单元具体流程图；

图3为本发明的摘要生成模型示意图；

图4为本发明的摘要示例框架标注示意图；

图5为本发明的摘要示例示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明，附图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明实施例提供了一种阅读机器人的摘要生成系统，如图1所示，本发明的系统流程图包括：候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元六部分。

候选摘要抽取单元用于在训练集中抽取当前文章D最相似的一篇文章D_can，文章D_can的摘要作为候选摘要S_can，指导摘要生成。综合考虑抽取的准确性和抽取效率后，使用一个开源的全文检索引擎工具Lucene在训练集中检索与当前文章最相似的文章，抽取该文章的摘要作为候选摘要进行后续操作。

框架选择单元用于筛选出文章中的重要框架。使用汉语框架网标注工具分别抽取文章D和候选摘要S_can中的框架场景

和

其中m和n分别表示文章框架和候选摘要框架的个数。然后，筛选出与候选摘要框架F^s相关的文章中的框架F＇。筛选方法包括框架关系、框架相似度两种。其中，基于框架关系的方法是筛选候选摘要框架与文章框架关系在2度以内的文章中的框架。基于框架相似度的方法是分别计算每个候选摘要框架与所有文章框架的相似度值，选取相似度值最大的文章框架作为候选框架，具体包括：首先，用BERT编码框架元素的定义，使用[CLS]标志的向量作为框架元素的词向量，然后将属于当前框架所有框架元素词向量平均得到框架向量，最后用余弦相似度计算候选摘要框架和文章框架的相似度。

框架编码单元用于将筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}融合成一个框架序列F^*后，输入预训练模型BERT，获取框架的向量表示H^f。

文章编码单元用于将文章D＝{x₁,x₂,…,x_l}输入预训练模型BERT，获取文章的向量表示H^d，其中，l表示文章的长度。

文本可以看作是一个序列问题，文章词与词之间、句子之间存在依赖关系，BERT模型使用多层的transformer架构，目标任务包含了词语识别、句子预测任务，在超大规模数据上进行了预训练，进一步提升模型泛化能力，并且在不同的下游任务上都取得了最优的结果。本实施例中使用BERT分别对框架和文章进行编码，获取其向量表示。

框架与文章交互单元用于将文章表示H^d和框架表示H^f进行融合，获取最终的文章表示C。该模块分别计算了框架对文章的影响、文章对框架的影响，之后设计了一个门控融合文章和框架信息，该门控用来确定框架及文章中需要保留和舍弃的信息，得到最终的文章表示。

解码单元用于将文章表示C进行解码，生成摘要。首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t；然后，计算解码状态s_t对文章表示C_t的影响；最后，根据得到的文章表示

当前时刻解码状态s_t和上一时刻的输出y_t-1共同预测当前时刻的词的表示P_vocab。

本发明实施例还提供了一种阅读机器人的摘要生成方法，如图2所示，本发明的摘要生成方法具体步骤如下：

101、获取文章(如图5所示)。

102、针对文章D，采用一个开源的全文检索引擎工具Lucene，在训练集中查找与当前文章D最相似的一篇文章D_can，文章的摘要作为候选摘要S_can。

103、使用汉语框架网标注工具分别抽取文章D和候选摘要S_can中的框架场景

和

其中m和n分别表示文章框架和候选摘要框架的个数。如图4所示，文章中包含4个框架：陈述、获得、企业、唯一实例，摘要中包含2个框架：企业，接收。文章中的框架“企业”和“获得”与摘要中框架有关，对生成摘要有用。另外两个框架“陈述”和“唯一实例”是冗余框架与摘要生成无关。然后，通过两种框架筛选方法筛选与候选摘要框架F^s相关的文章D中的框架F＇。基于框架关系的方法筛选文章和候选摘要中关系度小于2的框架。针对不满足上述方法的框架采用基于框架相似度的方法：首先用BERT编码框架元素的定义，使用[CLS]标志的向量作为框架元素的词向量E，然后将属于当前框架所有框架元素词向量平均得到框架向量，接着用余弦相似度分别计算每个候选摘要框架和所有文章框架的相似度，为每一个候选摘要框架

筛选与其相似度最大的文章框架

公式如下：

score_i＝[score₁,score₂,…,score_j,…]

S_max(i)＝max(score_i)

其中，L是候选框架

的框架元素E_i个数，e(E_il)是框架

的第l个框架元素E_il的词向量。cosine指余弦相似度，score_i,j指候选摘要框架

与文章框架

相似度值，score_i是候选摘要框架

相似度值最大的框架，

指

的向量表示，是取其所有框架元素向量的平均值。最后，根据相似度得分S_max得到相应的文章框架，再结合基于框架关系方法筛选出的框架，得到最终被筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}，k表示筛选出的框架个数，并且其大小与候选摘要框架F^s个数一致。

104、根据之前筛选出的文章框架F＇＝{F₁＇,F₂＇,…,F_k＇}，将所有的框架表示融合成一个框架序列F^*。首先，对F＇中所有框架按框架覆盖度从大到小排序，框架覆盖度最大的框架作为基准框架F^tmp；然后，遍历剩余的框架，如果当前位置F_i是框架元素，且在F^tmp中与其对应的位置不是框架元素，则用F_i替换

其中

H^f＝BERT(F^*)

105、将文章D＝{x₁,x₂,…,x_l}输入预训练模型BERT，获取文章向量表示H^d。其中，l表示文章的长度，具体公式如下：

H^d＝BERT(D)

106、通过文章表示H^d和框架表示H^f获取最终的文章表示C。首先计算框架表示H^f对文章表示H^d的影响，具体公式如下：

其中，θ表示一个非线性函数，C为最终的文章表示。

107、将生成的文章表示C生成摘要。首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t，具体公式如下：

s_t＝LSTM(y_t-1,C_t,s_t-1)

其中，s_t-1表示上一时刻的解码状态。然后计算解码状态s_t对文章表示C_t的影响。

其中，β_ti是解码步骤t时刻的注意力权重，

上面结合附图对本发明的实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种应用于阅读机器人的摘要生成方法，其特征在于，包括如下步骤：

步骤1：针对文章D，在训练集中查找与当前文章D最相似的一篇文章D_can，文章D_can的摘要作为候选摘要S_can；

和

其中，

表示文章D的第m个框架，

步骤5：将步骤4生成的文章表示H^d和步骤3生成的框架表示H^f进行融合，获取最终的文章表示C；

步骤6：将步骤5生成的文章表示C生成摘要；

所述步骤3中文章框架F＇融合成框架序列F^*的具体过程包括：首先，对F＇中所有框架按框架覆盖度从大到小排序，框架覆盖度最大的框架作为基准框架F^tmp；然后，遍历剩余的框架，如果当前位置F_i是框架元素，且在F^tmp中与其对应的位置不是框架元素，则用F_i替换

其中

指F^tmp中第i个位置的信息；最终得到一个框架序列F^*＝F^tmp；

所述步骤5中文章表示H^d和框架表示H^f融合的具体过程包括：首先，计算框架表示H^f对文章表示H^d的影响，具体公式如下：

其中，θ表示一个非线性函数，C为最终的文章表示。

2.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法，其特征在于，所述步骤2中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架F^s相关的文章D中的框架F＇：

筛选与其相似度最大的文章框架

公式如下：

score_i＝[score₁,score₂,…,score_j,…]

S_max(i)＝max(score_i)

其中，cosine指余弦相似度，score_i,j指候选摘要框架

与文章框架

相似度值，score_i是候选摘要框架

相似度值最大的框架，

指

其中，L是候选摘要框架

的框架元素E_i个数，e(E_il)是候选摘要框架

3.根据权利要求1所述的一种应用于阅读机器人的摘要生成方法，其特征在于，所述步骤6具体包括：首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t，具体公式如下：

s_t＝LSTM(y_t-1,C_t,s_t-1)

其中，β_ti是解码步骤t时刻的注意力权重，

其中，y_t为当前t时刻的输出，W和b是学习的参数，P_vocab是预测当前词的概率。

4.一种应用于阅读机器人的摘要生成系统，其特征在于，该系统包括：候选摘要抽取单元、框架选择单元、框架编码单元、文章编码单元、框架与文章交互单元、解码单元，其中，

框架选择单元用于根据通过汉语框架网标注工具抽取出的文章D和候选摘要S_can中的框架场景

和

其中，

表示文章D的第m个框架，

表示候选摘要S_can的第n个框架，筛选出与候选摘要框架F^s相关的文章D中的框架F＇；

解码单元用于将文章表示C生成摘要；

所述框架编码单元中：首先，对F＇中所有框架按框架覆盖度从大到小排序，框架覆盖度最大的框架作为基准框架F^tmp；然后，遍历剩余的框架，如果当前位置F_i是框架元素，且在F^tmp中与其对应的位置不是框架元素，则用F_i替换

其中

所述框架与文章交互单元中：首先，计算框架表示H^f对文章表示H^d的影响，具体公式如下：

其中，θ表示一个非线性函数，C为最终的文章表示。

5.根据权利要求4所述的一种应用于阅读机器人的摘要生成系统，其特征在于，所述框架选择单元中采用基于框架关系的方法、基于框架相似度的方法两种框架筛选方法筛选与候选摘要框架F^s相关的文章D中的框架；

筛选与其相似度最大的文章框架

公式如下：

score_i＝[score₁,score₂,…,score_j,…]

S_max(i)＝max(score_i)

其中，cosine指余弦相似度，score_i,j指候选摘要框架

与文章框架

相似度值，score_i是候选摘要框架

相似度值最大的框架，

指

其中，L是候选摘要框架

的框架元素E_i个数，e(E_il)是候选摘要框架

6.根据权利要求4所述的一种应用于阅读机器人的摘要生成系统，其特征在于，所述解码单元中：首先，在每一个解码步骤t，使用LSTM编码之前步骤的输出y_t-1和文章表示C，得到当前步骤的解码状态s_t，具体公式如下：

s_t＝LSTM(y_t-1,C_t,s_t-1)

其中，β_ti是解码步骤t时刻的注意力权重，