CN112214996A

CN112214996A - 一种面向科技信息文本的文本摘要生成方法及系统

Info

Publication number: CN112214996A
Application number: CN202011089609.2A
Authority: CN
Inventors: 李国徽; 潘鹏; 韩镓维; 袁凌
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-12
Anticipated expiration: 2040-10-13
Also published as: CN112214996B

Abstract

本发明公开了一种面向科技信息文本的文本摘要生成方法及系统，包括：S1、对待处理的科技信息文本进行实体识别和关系抽取，得到科技信息文本中所包含的实体及三元组；S2、判断科技信息文本是否为长文本，若是，则转至步骤S3；否则，将科技信息文本与实体及三元组进行融合构成模型输入信息，转至步骤S4；S3、基于科技信息文本的行文结构，并结合实体及三元组，确定科技信息文本中各个句子的影响力，并从科技信息文本中获取影响力最高的K个句子构成关键句群，将关键句群与实体及三元组进行融合构成模型输入信息；S4、将模型输入信息输入到预训练好的序列到序列模型中，得到文本摘要。所生成的摘要精确度高、可读性强，质量好。

Description

一种面向科技信息文本的文本摘要生成方法及系统

技术领域

本发明属于文本摘要生成技术领域，更具体地，涉及一种面向科技信息文本的文本摘要生成方法及系统。

背景技术

在信息爆炸的时代背景下，科技信息总量呈现指数级增涨，且科技信息更新迅速。这使得科技研究人员还未及时获取有用的科技研究信息，这些科技研究信息就可能已经过时。同时，由于科技信息总量巨大且存在大量的重复信息，使得科技研究人员难以高效、全面地获得科技信息，进而掌握科技信息发展动态。利用人工智能技术生成自动文本摘要和基于特定领域或主题的信息摘要可以极大地辅助科研人员高效、全面地获取文章主要内容。文本自动摘要指从单文本中获得准确、全面地反应文本主要内容的连贯短文或从多文本集合中提取关于整个文本集合的信息摘要。文本自动摘要可以充分应用于科技信息领域，对数量急剧增加的科技文本生成文本摘要可以使科技研究人员快速、简便地获得科技信息。因此，提出有效的文本摘要自动生成方法对科研活动的展开有着极为重要的意义。

当前，文本摘要自动生成方法可以大致分为抽取式和生成式两大类。抽取式生成文本摘要的主要思路是假定文本中会出现可以表达文本核心内容的句子，通过对文本中的句子进行排序和选择，提取出文档中的关键词和重要语句形成摘要，仅对文本内容进行压缩，并没有对语义进行理解，易于实现，所得摘要语句通顺，在语法上几乎不需要修改，但是所得摘要中含有大量的冗余信息，并且句子连贯性不强，整体的可读性较差，所生成的摘要质量较差。而生成式文本摘要则是希望从语义的角度理解文本内容，利用自然语言生成技术组织新的语句形成摘要。现有的生成式文本摘要方法多采用神经网络对文本进行语义理解来生成非原文的可读句子组成摘要，但是容易出现句子连贯性差，可读性不强、准确率不高等问题；且在对长文本进行摘要时，可能导致神经网络模型无法收敛，难以捕捉其全部文本序列语义信息，摘要质量较差，运用场景有限。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向科技信息文本的文本摘要生成方法及系统，其目的在于解决现有技术存在的摘要质量较差的技术问题。

为实现上述目的，第一方面，本发明提供了一种面向科技信息文本的文本摘要生成方法，包括以下步骤：

S1、对待处理的科技信息文本进行实体识别和关系抽取，得到科技信息文本中所包含的实体及三元组；

S2、判断科技信息文本是否为长文本，若是，则转至步骤S3；否则，将科技信息文本与上述实体及三元组进行融合构成模型输入信息，转至步骤S4；

S3、基于科技信息文本的行文结构，并结合上述实体及三元组，确定科技信息文本中各个句子的影响力，并从科技信息文本中获取影响力最高的K个句子构成关键句群，将关键句群与上述实体及三元组进行融合构成模型输入信息；

S4、将上述模型输入信息输入到预训练好的序列到序列模型中，得到文本摘要。

进一步优选地，上述S3包括以下步骤：

S31、从科技信息文本中提取标题、导语及结语位置处的句子；

S32、将科技信息文本转换为拓扑图结构；其中，拓扑图中的节点对应科技信息文本中句子，拓扑图中的边为其上两节点所对应的句子之间的语义相似度；

S33、对拓扑图中的每一个节点，分别根据其与其他节点所对应句子之间的语义相似度，得到各节点在拓扑图中的第一影响力；

S34、对拓扑图中的每一个节点，分别计算其所对应的句子与标题、导语及结语位置处的句子之间的余弦相似度，即为各节点在拓扑图中的第二影响力；

S35、对所述拓扑图中的每一个节点，分别计算其所对应的句子与上述实体及三元组之间的覆盖程度，并根据所得覆盖程度确定各节点在拓扑图中的第三影响力；

S36、迭代传播拓扑图中各个节点的权重，直至收敛；其中，第i个节点的权重val_i＝αS(V_i)+βC(V_i)+γI(V_i)；S(V_i)为第i个节点在拓扑图中的第一影响力，C(V_i)为第i个节点在拓扑图中的第二影响力，I(V_i)为第i个节点在拓扑图中的第三影响力；α、β、γ分别为第一影响力、第二影响力和第三影响力所占的比重；

S37、选取拓扑图中权重最大的K个节点，将其所对应的句子按照在科技信息文本中出现的顺序排列，构成关键句群；

S38、将所述关键句群与上述实体及三元组进行融合构成模型输入信息。

进一步优选地，第i个节点V_i在拓扑图中的第一影响力为：

其中，d为阻尼系数，In(V_j)为指向节点V_j的节点的集合，Out(V_j)为节点V_j所指向的节点的集合，w_ij为节点V_j与节点V_j所对应的句子之间的语义相似度，S(V_j)为第j个节点V_j在拓扑图中的第一影响力。

进一步优选地，构成上述模型输入信息的方法包括：对科技信息文本或关键句群中的词汇、上述实体及三元组进行向量化，得到模型输入信息x＝(x₁,x₂,…,x_m)；其中，x_i为模型输入信息中的第i个句向量，具体为：

其中，v_ij为科技信息文本或关键句群第i句中的第j个词向量，m为科技信息文本或关键句群中词语的个数，k_NE为上述实体的数量，k_RDF为上述三元组的数量。

进一步优选地，上述序列到序列模型为加入注意力机制和拷贝机制的序列到序列模型。

第二方面，本发明提供了一种面向科技信息文本的文本摘要生成系统，包括：

文本预处理模块：用于对待处理的科技信息文本进行实体识别和关系抽取，得到科技信息文本中所包含的实体及三元组，并将其与科技信息文本输出到长文本判断模块中；

长文本判断模块：用于对科技信息文本的长度进行判断，若为长文本，则将科技信息文本和上述实体及三元组输出到长文本处理模块中；否则，将科技信息文本与上述实体及三元组进行融合构成模型输入信息，并输出到摘要生成模块中；

长文本处理模块：用于基于科技信息文本的行文结构，并结合上述实体及三元组，确定科技信息文本中各个句子的影响力，并从科技信息文本中获取影响力最高的K个句子构成关键句群，将关键句群与上述实体及三元组进行融合构成模型输入信息，并输出到摘要生成模块中；

摘要生成模块：用于将模型输入信息输入到预训练好的序列到序列模型中，得到文本摘要。

第三方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的一种面向科技信息文本的文本摘要生成方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提供了一种面向科技信息文本的文本摘要生成方法及系统，在生成摘要之前，将对待处理的科技信息文本进行判断，对长文本和短文本分别采用不同的处理方法；对于短文本，将科技信息文本与科技信息文本中所包含的实体及三元组进行融合后直接输入到预训练好的序列到序列模型中，得到文本摘要；而对于长文本首先基于科技信息文本的行文结构，并结合科技信息文本中所包含的实体及三元组，从科技信息文本中获取影响力最高的K个句子构成关键句群，再将关键句群与实体及三元组进行融合后，直接输入到预训练好的序列到序列模型中，得到文本摘要。通过分场景进行处理，可以解决面对长文本时神经网络模型无法收敛的问题，生成的摘要质量较好。

2、本发明所提供的一种面向科技信息文本的文本摘要生成方法及系统，对于长文本首先基于科技信息文本的行文结构，并结合科技信息文本中所包含的实体及三元组，引入了三种影响力，进而构建句子之间的影响力拓扑图，通过迭代计算关键句的重要性分值，并抽取与主题更有相关性高分值句子进入关键句群。比起其他关键句抽取方法，本发明利用行文结构和科技信息发掘文本背后的主题信息，指导关键句打分与关键句抽取，选出关键句群与最终摘要计算所得的召回率显著高于其他无指导信息的关键句抽取方法。

3、本发明所提供的一种面向科技信息文本的文本摘要生成方法及系统，采用加入注意力机制和拷贝机制的序列到序列模型进行文本摘要，可以使神经网络更好地记住输入数据的某些特征，并且提升最终科技文本语义生成摘要的质量。另外，本发明在将科技信息文本与科技信息文本中所包含的实体及三元组层面的语义进行融合作为模型的输入，改善了输入特征，大大提高了序列到序列模型在科技信息领域的学习能力，所生成的摘要精确度高、可读性强、质量好。

附图说明

图1是本发明实施例1所提供的一种面向科技信息文本的文本摘要生成方法流程图；

图2是本发明实施例1所提供的面向科技信息文本的文本摘要生成方法的详细过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种面向科技信息文本的文本摘要生成方法，如图1所示，包括以下步骤：

S1、对待处理的科技信息文本进行实体识别和关系抽取，得到科技信息文本中所包含的实体及三元组；需要说明的是，实体是科技信息文本中的具有可描述意义的单词或短语；三元组为所抽取的实体之间的关系与实体组合在一起所构成的元组。

S2、判断科技信息文本是否为长文本，若是，则转至步骤S3；否则，将科技信息文本和上述实体及三元组进行融合构成模型输入信息，转至步骤S4；

具体的，将科技信息文本的长度与预设长度进行比较，若超过预设长度，则将该科技信息文本判断为长文本。本实施例中，将超过15个句子的文本判断为长文本。

进一步地，将科技信息文本的词汇、科技信息文本中所包含的实体及三元组进行Embedding向量化后，得到模型输入信息x＝(x₁,x₂,…,x_m)；其中，x_i为模型输入信息中的第i个句向量，具体为：

其中，v_ij为科技信息文本第i句中的第j个词向量，m为科技信息文本中词语的个数，k_NE为上述实体的数量，k_RDF为上述三元组的数量。

科技信息文本有简明精炼、主题明确的特点，整体行文结构呈总分总的特点，能对关键句的提取提供很多语言特征信息，方便选出包含预设科技信息的关键句群。其中科技信息文本的标题一般是文本内容的高度浓缩和概括，科技信息文本的导语和结语本身就用一段话概括全文内容，所以标题、导语和结语这样的句子是文本关键句提取中需要重点关注的特殊句子。科技信息文本主体中包含科技信息的事实要素与详细叙述，也是文本摘要不可或缺的因素，需要提取和文本主题相关的句子加入关键句群。本发明从科技信息文本中解析出标题、导语和结语位置上的句子，利用实体识别和关系抽取模型获得科技信息文本中所包含的实体及三元组，将获得的以上信息引入到拓扑图的构造中。采用余弦相似度度量方法找出和标题、导语、结语相似的句子，增加对应句子的拓扑图节点的权重，增加这样句子进入最终关键句群的概率。实体信息和三元组是句子事实要素的高度抽象，如果科技信息文本主体中关键句子的实体和三元组关系与全文主题相似，这样的句子更有可能是主题的细节描述，增加对应句子的拓扑图节点的权重，提取文本主题相关的细节描述加入关键句群。具体的，步骤S3包括以下步骤：

具体的，由节点及节点间的链接关系可构成一个无向的网络图。节点V_j与节点V_j所对应的句子之间的语义相似度w_ij＝α×cos(v_i,v_j)+(1-α)×Lev_ij，α为计算相似度时语义层面相似度的权重大小，cos(v_i,v_j)为节点V_j与节点V_j所对应的句子v_i和v_j之间的余弦相似度，Lev_ij为节点V_j与节点V_j所对应的句子向量之间的距离大小。

具体的，第i个节点V_i在拓扑图中的第一影响力为：

其中，d为阻尼系数，取值范围为(0,1)，其意义是迭代到达任意节点继续向下迭代的概率，In(V_j)为指向节点V_j的节点的集合，Out(V_j)为节点V_j所指向的节点的集合，w_ij为节点V_j与节点V_j所对应的句子之间的语义相似度，S(V_j)为第j个节点V_j在拓扑图中的第一影响力。

S35、对拓扑图中的每一个节点，分别计算其所对应的句子与上述实体及三元组之间的覆盖程度，并根据所得覆盖程度确定各节点在拓扑图中的第三影响力；具体的，第三影响力为所得覆盖程度与科技信息文本中所包含的实体数量之比。

S36、迭代传播拓扑图中各个节点的权重，直至收敛；其中，第i个节点的权重val_i＝αS(V_i)+βC(V_i)+γI(V_i)；S(V_i)为第i个节点在拓扑图中的第一影响力，C(V_i)为第i个节点在拓扑图中的第二影响力，I(V_i)为第i个节点在拓扑图中的第三影响力；α、β、γ分别为第一影响力、第二影响力和第三影响力所占的比重；本实施例中，α、β、γ分别取值为0.5、0.25、0.25。

S37、选取拓扑图中权重最大的K个节点，将其所对应的句子按照在科技信息文本中出现的顺序排列，构成关键句群；其中，K值一般设为最终生成摘要句子数量的两倍；需要说明的是，最终所生成的摘要句子的数量是可以根据需要指定的，本实施例中，所指定的最终生成摘要句子的数量为3，对应的K取值为6。

具体的，基于公式进行权重的迭代运算后，拓扑图最终会收敛。进一步对拓扑图中的各个节点按节点权重的大小降序排序后，从长文本中抽取出前K个句子作为包含科技信息的关键句群。

通过上述过程，将科技信息文本的标题、导语、结语以及与科技信息文本中所包含的实体及三元组引入到拓扑图的构造中，对每个句子的重要度打分(即节点的权重)，按照得分高低输出句子，并按照其在科技信息文本中的出现顺序重新排列，得到可以描述科技信息文本的关键句。

S38、将所述关键句群与上述实体及三元组进行融合构成模型输入信息。具体的，同样按照步骤S2所述的方法进行融合得到模型输入信息。

本实施例中，训练所用的数据集来自应用最广泛的数据集CNN/DailyMail以及针对科技信息文本建立的摘要数据集，将数据集中的文本作为输入，对应的摘要作为输出训练上述序列到序列模型。

具体的，序列到序列模型是一种基于神经网络的端到端序列学习模型，将输入的文本看作是按上下文有序排列的词语集合，通过编码解码的处理，输出一组词语序列组成的集合，形成文本摘要。在生成摘要的过程中，识别出文本中关键的概念和命名实体对模型更好地学习输入文本的特征具有重要作用。故本发明中的模型输入信息不仅需要使用词向量表示输入文本，还需要加入文本的语言特性。

步骤S4的目标可以简述为：给定x的情况下，求使得条件概率P(y|x)最大化的文本序列y。条件概率P(y|x)具体表示如下：

其中，θ表示模型参数，y_＜t＝{y₁,y₂,…,y_t-1}，即生成的摘要中的第t个词y_t是根据所有已生成的词y_＜t和输入文本序列x产生的。

本发明所提出的面向科技信息文本的文本摘要生成方法的详细过程如图2所示，在编码阶段，将模型输入信息x＝(x₁,x₂,…,x_m)中的各句向量依次输入，将各句向量和前一步骤隐藏层生成的内容进行组合输入到RNN网络单元中，并将输出的内容继续向后传递，最终得到编码阶段隐藏层状态集合h＝(h₁,h₂,…,h_m)。在解码阶段，解码器首先将编码阶段最后的隐藏层状态h_m作为输入，同时将输入序列结束符号EOS经过Embedding转换为词的向量表示。其次，使用RNN作为隐藏层，t时刻，将隐藏层状态s_t经过softmax处理，生成标题的每个字y_t。序列在生成词语时，将该词作为生成下一个词的输入，最终生成文本摘要的序列y＝(y₁,y₂,…,y_n)，以符号EOS结束。

进一步地，为了使神经网络更好地记住输入数据的某些特征，并且提升最终科技文本语义生成摘要的质量，采用加入注意力机制和拷贝机制的序列到序列模型来提升神经网络的智能。在神经网络中加入注意力机制，训练过程中能更好地处理特定的科技信息实体名称、位置等信息，最后使用损失函数计算目标摘要和生成摘要的差异，在训练过程中不断优化神经网络。其中，对于注意力机制：在解码阶段，对于编码阶段的输入位置i，其在解码阶段时刻t的注意力权重向量a_ti计算方法如下：

其中，h_i为编码阶段第i个位置输入词产生的隐藏层状态，s_t为解码阶段t时刻隐藏层状态，W_h、W_s为学习参数，v^t是词汇表one-hot指示向量。当前输出的上下文向量c_t为基于所有输入层的隐藏层加权之和，最后使用损失函数计算目标摘要和生成摘要的差异。对于拷贝机制：在编码阶段，对模型输入信息进行处理，提取出源词汇表，并利用RNN将输入序列处理转化成隐藏状态。在解码阶段，每个t时刻的预测词y_t可由两种方式产生：生成模式和拷贝模式，生成模式可由解码阶段的softmax函数做分类，选择语料库的词汇表中合适的词汇生成并填充。拷贝模式选择原文本产生的词填充，缓解模型在摘要生成过程中由科技词汇表词汇数量少所带来的限制，提高生成文本摘要的准确性。本实施例采用开关机制来决定在解码t时刻预测词的产生方式；当开关开启时，说明预测词y_t来源于语料库的词汇表，由生成模式产生；当开关关闭时，意味着预测词来源于从模型输入信息中所提取的源词汇表，由科技信息文本产生。

实施例2、

一种面向科技信息文本的文本摘要生成系统，包括：

相关技术方案同实施例1，在此不再赘述。

实施例3、

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例1所提供的一种面向科技信息文本的文本摘要生成方法。相关技术方案同实施例1，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向科技信息文本的文本摘要生成方法，其特征在于，包括以下步骤：

S2、判断所述科技信息文本是否为长文本，若是，则转至步骤S3；否则，将科技信息文本与所述实体及三元组进行融合构成模型输入信息，转至步骤S4；

S3、基于所述科技信息文本的行文结构，并结合所述实体及三元组，确定所述科技信息文本中各个句子的影响力，并从所述科技信息文本中获取影响力最高的K个句子构成关键句群，将所述关键句群与所述实体及三元组进行融合构成所述模型输入信息；

S4、将所述模型输入信息输入到预训练好的序列到序列模型中，得到文本摘要。

2.根据权利要求1所述的面向科技信息文本的文本摘要生成方法，其特征在于，所述S3包括以下步骤：

S31、从所述科技信息文本中提取标题、导语及结语位置处的句子；

S32、将所述科技信息文本转换为拓扑图结构；其中，所述拓扑图中的节点对应所述科技信息文本中句子，所述拓扑图中的边为其上两节点所对应的句子之间的语义相似度；

S33、对所述拓扑图中的每一个节点，分别根据其与其他节点所对应句子之间的语义相似度，得到各节点在所述拓扑图中的第一影响力；

S34、对所述拓扑图中的每一个节点，分别计算其所对应的句子与所述标题、导语及结语位置处的句子之间的余弦相似度，即为各节点在所述拓扑图中的第二影响力；

S35、对所述拓扑图中的每一个节点，分别计算其所对应的句子与所述实体及三元组之间的覆盖程度，并根据所得覆盖程度确定各节点在所述拓扑图中的第三影响力；

S36、迭代传播所述拓扑图中各个节点的权重，直至收敛；其中，第i个节点的权重val_i＝αS(V_i)+βC(V_i)+γI(V_i)；S(V_i)为第i个节点在所述拓扑图中的第一影响力，C(V_i)为第i个节点在所述拓扑图中的第二影响力，I(V_i)为第i个节点在所述拓扑图中的第三影响力；α、β、γ分别为所述第一影响力、第二影响力和第三影响力所占的比重；

S37、选取所述拓扑图中权重最大的K个节点，将其所对应的句子按照在所述科技信息文本中出现的顺序排列，构成关键句群；

S38、将所述关键句群与所述实体及三元组进行融合构成所述模型输入信息。

3.根据权利要求2所述的面向科技信息文本的文本摘要生成方法，其特征在于，第i个节点V_i在所述拓扑图中的第一影响力为：

其中，d为阻尼系数，In(V_j)为指向节点V_j的节点的集合，Out(V_j)为节点V_j所指向的节点的集合，w_ij为节点V_j与节点V_j所对应的句子之间的语义相似度，S(V_j)为第j个节点V_j在所述拓扑图中的第一影响力。

4.根据权利要求1或2所述的面向科技信息文本的文本摘要生成方法，其特征在于，构成所述模型输入信息的方法包括：对所述科技信息文本或所述关键句群中的词汇、所述实体及三元组进行向量化，得到模型输入信息x＝(x₁,x₂,…,x_m)；x_i为模型输入信息中的第i个句向量，具体为：

其中，v_ij为所述科技信息文本或关键句群第i句中的第j个词向量，m为科技信息文本或所述关键句群中词语的个数，k_NE为所述实体的数量，k_RDF为所述三元组的数量。

5.根据权利要求1所述的面向科技信息文本的文本摘要生成方法，其特征在于，所述序列到序列模型为加入注意力机制和拷贝机制的序列到序列模型。

6.一种面向科技信息文本的文本摘要生成系统，其特征在于，包括：

文本预处理模块：用于对待处理的科技信息文本进行实体识别和关系抽取，得到科技信息文本中所包含的实体及三元组，并将其与所述科技信息文本输出到长文本判断模块中；

长文本判断模块：用于对所述科技信息文本的长度进行判断，若为长文本，则将所述科技信息文本和所述实体及三元组输出到长文本处理模块中；否则，将科技信息文本与所述实体及三元组进行融合构成模型输入信息，并输出到摘要生成模块中；

长文本处理模块：用于基于所述科技信息文本的行文结构，并结合所述实体及三元组，确定科技信息文本中各个句子的影响力，并从所述科技信息文本中获取影响力最高的K个句子构成关键句群，将所述关键句群与所述实体及三元组进行融合构成所述模型输入信息，并输出到摘要生成模块中；

摘要生成模块：用于将所述模型输入信息输入到预训练好的序列到序列模型中，得到文本摘要。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-5任意一项所述的面向科技信息文本的文本摘要生成方法。