CN107608972B

CN107608972B - 一种多文本快速摘要方法

Info

Publication number: CN107608972B
Application number: CN201711000127.3A
Authority: CN
Inventors: 李晓东
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2020-07-24
Anticipated expiration: 2037-10-24
Also published as: CN107608972A

Abstract

本发明公开了一种多文本快速摘要方法，建立基于语句间潜在关联的模型，多篇文档中的语句被该模型建模，模型依据语句间的关联度打分并获得语句的重要度，根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法，将多文本中的每个语句作为一个节点并进行单独分析，利用本发明所提出的语句贡献度打分方法，经过若干轮迭代打分，确定重要度较高的语句，再根据高重要度语句快速生成最终的摘要内容，兼顾了文本主题的多样性和摘要语句的通顺性，加快了多文本摘要的生成速度，工作效率高，应用前景广阔。

Description

一种多文本快速摘要方法

技术领域

本发明涉及计算机应用技术领域，具体涉及一种多文本快速摘要方法。

背景技术

随着互联网的快速发展，以文本形式呈现的在线信息，如门户网站新闻、微博和微信等，其信息量在近年有巨大的增长。面对如此巨量的文本信息，人们需要一个简便的方法用来快速浏览这些信息，在这方面，计算机辅助文本摘要方法可以帮助人们快速地产生各类文本的摘要条目，在人们在线浏览时，其可以帮助人们通过摘要来辨别是否需要继续浏览新闻全文，从而加快浏览速度。

传统的文本摘要方法将文本视为一个没有任何结构的“词袋”，并使用向量空间模型VSM(Vector Space Model)来对“词袋”建模，这一类方法从统计的角度计算词的频率并评价词的重要性，其不但产生了大量的计算，拖慢摘要产生的速度，另一方面，由于其忽略了文章语句之间的结构关系，影响到了文本摘要的质量。

本发明针对当前社会对于快速文本摘要算法的强烈需求，针对传统摘要方法存在的质量平和速度慢等缺点，公开了一种多文本快速摘要方法，可以广泛应用于互联网领域，有利于提升人们获取信息的效率。

发明内容

为解决现有技术的问题，本发明提供一种多文本快速摘要方法，建立基于语句间潜在关联的模型，多篇文档中的语句将被该模型建模，模型依据语句间的关联度打分，使得重要的语句获得更高的分数，根据高重要度语句生成最终的摘要内容，辅助人们从多文本中快速获取重要信息，提高提取摘要的工作效率。

为实现上述目的，本发明采用的技术方案为：

一种多文本快速摘要方法，建立基于语句间潜在关联的模型，多篇文档中的语句被该模型建模，模型依据语句间的边的权重和语句的贡献度计算获得重要度高的语句并形成最终的摘要内容，包括以下步骤：

步骤一、建立语料库，建立基于语句间潜在关联的模型，多篇文档中的语句被该模型建模；

步骤二、给定若干个语句，步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值，一个语句为一个节点，通过模型计算获得每两个节点之间的边的权重及两个节点对与其相连的边的贡献度；

步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理，边的权重被按比例划分成两份，较大的一份被赋予贡献度大的节点的重要度上，较小的部分被赋予另外一个节点，随后根据得到的重要度赋值返回步骤二计算边的权重再完成步骤三，经过若干个循环得到重要度高的语句并生成摘要内容。

进一步的，步骤一中，所述模型包括T元素、V元素、F元素、E元素、W元素和S元素，分别被定义为：

T＝{t_i|t_i是语料库中的一个词)，其中，T是一个字典，是词的集合，其中囊括语料库中的所有词汇，同时去除重复的词；

V＝{v_j|v_j＝{t_k}}，语料库中的每一个语句被表示为一个节点v_j，每一个节点v_j是有一个t_k的集合组成；

F＝{f_ij|f_ij是t_i在v_j中出现的次数，t_i∈T，v_j∈V}，语句的规约化长度为

E＝{e_ij|e_ij是节点v_i与v_j之间的一条边，v_i，v_j∈V}，e_ij为连接节点v_i与节点v_j的边，不具有方向性，e_ij＝e_ji，节点v_i与节点v_j分别为语料库中的第i个语句和第j个语句；

W＝{w_ij|w_ij是e_ij的权重，是关联度的度量值，e_ij∈E}，w_ij为连接节点v_i和节点v_j的边e_ij的权重，关联度是距离度量的一个相反度量，由具体的距离度量函数加上适当取反来测量；

S＝{s_i|s_i是节点v_i的重要度度量，v_i∈V}，重要度s_i度量节点对与其相连的边的权重的贡献度，贡献度越高的节点，其重要度越高，对应的语句在语料库中越重要。

进一步的，所述权重w_ij在向量空间中的距离度量采用余弦相似度并采用如下公式定义：

公式一定义了节点v_i与节点v_j之间的余弦相似度，其最大值为1，最小值为0，w_ij＝w_ji。

进一步的，所述节点的重要度通过迭代式的计算产生，包括如下步骤：

步骤一、拆分连接节点v_i和节点v_j的边e_ij的权重w_ij，计算节点v_i和节点v_j的贡献度；

步骤二、总和步骤一中所有节点v_i对于与其相连的边e_ij的贡献度，根据贡献度计算获得重要度，进而根据高重要度语句生成摘要内容。

进一步的，所述重要度s_i采用如下公式进行计算：

其中，n表示迭代次数，c_i为节点v_i的贡献度，s_i的初始值

为1/|V|，即所有语句在迭代开始时被赋予同样的重要度值。

进一步的，所述节点的贡献度通过如下公式进行计算：

其中，c_i为节点v_i的贡献度，t_k表示语料库中的词，若节点v_i和节点v_j有共同项，则权重w_ij不为0，公式二将w_ij分为两部分，较大的一份被赋予贡献度大的节点v_i的重要度上，较小的部分被赋予另外一个节点v_j的重要度上，其中

被分配给节点v_i，当f_ki部分越大时，即词t_k在节点v_i中出现的次数越多，分配给节点v_i的权重越大，节点v_i的贡献度越大，则对应语句的重要度越大，获得的重要度分值越高，生成包括该语句的摘要的可能性越大。

与现有技术相比，本发明具有以下优点：

本发明公开了多文本快速摘要方法，建立基于语句间潜在关联的模型，多篇文档中的语句被该模型建模，模型依据语句间的关联度打分，根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法，将多文本中的每个语句作为一个节点并进行单独分析，利用本发明所提出的语句贡献度打分方法，经过若干轮迭代打分，确定重要度较高的语句，并快速形成最终的文本摘要，兼顾了文本主题的多样性和摘要语句的通顺性，加快了多文本摘要的生成速度，工作效率高，应用前景广阔。

附图说明

图1是本发明的节点v_i与节点v_j的边的权重示意图；

图2是本发明实施例1的边的权重示意图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

如图1-2所示，一种多文本快速摘要方法，基于语句间潜在关联的模型，多篇文档中的语句将被该模型建模，通过模型对语句间的关联度进行打分，重要度高的语句获得更高的分数，根据得到的重要度高的语句生成最终的摘要内容。

步骤一、建立语料库，语料库中包含文档中的所有语句，建立基于语句间潜在关联的模型，多篇文档中的语句将被该模型建模；

步骤二、给定若干个语句，步骤一建模得到的模型将每个语句看成一个节点，同时对给定的每个语句进行相同的重要度赋值并将其作为初始值，每两个节点之间，语句的潜在关联被计算并赋值，该值作为这两个节点间的一条边的权重，对于每一条边的权重，模型将做进一步的细分，判断与这一条边相连的两个节点分别对这一条边贡献了多少权重，进而获取这条边的两个节点分别对这条边贡献的权重数，贡献度越高的节点，其重要度越高，对应的语句在语料库中越重要，生成摘要的可能性越大；

步骤三、模型对步骤二的边的权重和两个节点对与其相连的边的权重的贡献度进行处理得到对应节点的重要度，重要度与贡献度的计算方法被定义为抽象函数，在使用具体文本语料库时，可以根据语料库的特性进行具体定义，从而获得更广泛的适用性，根据贡献度大的语句重要度更高的理论，边的权重被按比例划分成两份，较大的一份被赋予贡献度大的节点的重要度上，较小的部分被赋予另外一个节点的重要度上，随后再按照新的重要度赋值返回步骤二重新计算得到边的权重再按照步骤三对边的权重进行分配，经过若干个循环，重要的语句将会获得较高的重要度分值，进而根据重要度高的语句生成摘要内容。

步骤一建模得到的模型包括T元素、V元素、F元素、E元素、W元素和S元素，分别被定义为：

T＝{t_i|_ti是语料库中的一个词}，T是一个字典，是一个词的集合，其中囊括语料库中的所有词汇，同时去除重复的词；

V＝{v_j|v_j＝{t_k}}，语料库中的每一个语句被表示为一个节点v_j，每一个v_j是有一个t_k的集合组成；

E＝{e_ij|e_ij是节点v_i与v_j之间的一条边，v_i，v_j∈V}，e_ij为连接节点v_i与节点v_j的边，由于此边不具有方向性，所以e_ij＝e_ji，节点v_i与节点v_j分别为语料库中的第i个语句和第j个语句；

W＝{w_ij|w_ij是e_ij的权重，是关联度的度量值，e_ij∈E}，w_ij为连接节点v_i和节点v_j的边e_ij的权重，关联度为与节点相连的边的权重，关联度是距离的一个相反度量，其可以由具体的距离度量函数加上适当取反来测量，距离度量函数包括曼哈顿距离和欧氏距离等，在模型定义中，关联度函数可以先采用抽象函数，在具体应用于具体语料库时，再采用根据语料库特征确定的具体距离度量作为替换，在信息提取研究领域，使用余弦相似度作为权重w_ij在向量空间中的距离度量，使用模型的标记，其可被表示为：

公式一定义了节点v_i与节点v_j之间的余弦相似度，其最大值为1，最小值为0，因模型是无向图，所以w_ij＝w_ji：

S＝{s_i|s_i是节点v_i的重要度度量，v_i∈V}重要度s_i度量节点对于关联度(与其相连的边的权重)的贡献度，贡献度越高的节点，其重要度越高，对应的语句在语料库中也越重要。

节点v_i的重要度s_i通过迭代式的计算产生，具体步骤如下：

1)拆分连接节点v_i和节点v_j的边e_ij的权重w_ij，计算获取节点v_i的贡献度c_i；

2)总和所有节点v_i对于与其相连的边的贡献度，进而通过如下公式二和公式三得到节点v_i的重要度s_i，进而根据高重要度语句生成摘要内容；

其中，节点v_i的贡献度c_i的计算方法被定义为抽象函数，在具体应用中，可使用合理的具体函数替换，在迭代过程中，重要度s_i通过如下公式二计算得到：

其中，n表示迭代次数，重要度s_i的初始值

为1/|V|，即，所有语句在迭代开始时被赋予同样的重要度。

模型针对一般文本的贡献度c_i的计算方法采用如下公式三：

其中，c_i为节点v_i的贡献度，t_k表示语料库中的词，若节点v_i和节点v_j有共同项，则权重w_ij不为0，公式三将权重w_ij分为两部分，较大的一份被赋予贡献度大的节点v_i的重要度上，较小的部分被赋予另外一个节点v_j的重要度上，其中，

被分配给节点v_i，当f_ki部分越大时，即词t_k在节点v_i中出现的次数越多，分配给节点v_i的权重越大，节点v_i的贡献度越大，则对应语句的重要度越大，获得的重要度分值越高，生成包含该语句的摘要的可能性越大。

实施例1

步骤二、给定n个语句，步骤一建模得到的模型将每个语句看成一个节点，同时对给定的每个语句进行相同的重要度赋值并将其作为初始值，每两个节点之间，语句的潜在关联被计算并赋值，该值作为这两个节点间的一条边的权重，对于每一条边的权重，模型将做进一步的细分，判断与这一条边相连的两个节点分别对这一条边贡献了多少权重，进而获取这条边的两个节点分别对这条边贡献的权重数，贡献度越高的节点，其重要度越高，对应的语句在语料库中越重要，生成摘要的可能性越大；

T＝{t_i|t_i是语料库中的一个词}，T是一个字典，是一个词的集合，其中囊括语料库中的所有词汇，同时去除重复的词；

S＝{s_i|s_i是节点v_i的重要度度量，v_i∈V)，重要度s_i度量节点对于关联度(与其相连的边的权重)的贡献度，贡献度越高的节点，其重要度越高，对应的语句在语料库中也越重要。

节点v_i的重要度s_i通过迭代式的计算产生，具体步骤如下：

节点v_i与n-1个节点之间的边的权重进行逐一计算并得到对应的权重w_i1、w_i2。。。。。。直至w_in，如图2所示，再按照步骤1)对得到的这些权重分别进行对应的拆分，获得节点v_i相较于n-1个节点的贡献度；

2)总和步骤1)中所有节点v_i对于与其相连的边的贡献度，进而通过如下公式二和公式三得到节点v_i的重要度s_i，进而根据高重要度语句生成摘要内容；

其中，n表示迭代次数，重要度s_i的初始值

为1/|V|，即，所有语句在迭代开始时被赋予同样的重要度。

模型针对一般文本的贡献度c_i的计算方法采用如下公式三：

上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围。

Claims

1.一种多文本快速摘要方法，其特征在于，建立基于语句间潜在关联的模型，多篇文档中的语句被该模型建模，模型依据语句间的关联度打分，得到重要度高的语句并形成摘要内容，包括以下步骤：

步骤二、给定若干个语句，步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值，一个语句为一个节点，通过模型计算获得两个节点之间的边的权重及两个节点对与其相连的边的贡献度；

步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理得到节点的重要度，边的权重被按比例划分成两份，较大的一份被赋予贡献度大的节点的重要度上，较小的部分被赋予另外一个节点，随后根据新的重要度赋值返回步骤二重新计算边的权重再完成步骤三，经过若干个循环得到重要度高的语句并生成摘要内容；

步骤一中，所述模型包括T元素、V元素、F元素、E元素、W元素和S元素，分别被定义为：

T＝{t_i|t_i是语料库中的一个词}，其中，T是一个字典，是词的集合，其中囊括语料库中的所有词汇，同时去除重复的词；

V＝{v_j|vj＝{t_k}}，语料库中的每一个语句被表示为一个节点v_j，每一个节点v_j是有一个t_k的集合组成；

W＝{w_ij|w_ij是e_ij的权重，是关联度的度量值，e_ij∈E}，w_ij为连接节点v_i和节点v_j的边e_ij的权重，关联度是距离度量的一个相反度量，由距离度量函数加上适当取反来测量；

S＝{s_i|s_i是节点v_i的重要度度量，v_i∈V}，重要度s_i度量节点v_i对与其相连的边的权重的贡献度；

所述节点的重要度通过迭代式的计算产生，包括如下步骤：

步骤一、拆分连接节点v_i和节点v_j的边e_ij的权重w_ij，计算节点v_i的贡献度；

步骤二、总和步骤一中所有节点v_i对于与其相连的边e_ij的贡献度，根据贡献度计算获得重要度，再根据高重要度语句生成摘要内容。

2.根据权利要求1所述的一种多文本快速摘要方法，其特征在于，所述权重w_ij在向量空间中的距离度量采用余弦相似度并采用如下公式定义：

3.根据权利要求1所述的一种多文本快速摘要方法，其特征在于，所述重要度s_i采用如下公式进行计算：

其中，n表示迭代次数，c_i为节点v_i的贡献度，s_i为节点v_i的重要度且初始值s_i ⁰为1/|V|，所有语句在迭代开始时被赋予相同的重要度值。

4.根据权利要求3所述的一种多文本快速摘要方法，其特征在于，所述节点的贡献度通过如下公式进行计算：

被分配给节点v_i，当f_ki部分越大时，即词t_k在节点v_i中出现的次数越多，分配给节点v_i的权重越大，节点v_i的贡献度越大，节点v_i对应的语句的重要度越高。