CN109739973A

CN109739973A - 文本摘要生成方法、装置、电子设备及存储介质

Info

Publication number: CN109739973A
Application number: CN201811566332.0A
Authority: CN
Inventors: 朱细智
Original assignee: Beijing Qianxin Technology Co Ltd
Current assignee: Beijing Qianxin Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-10

Abstract

本发明公开了一种文本摘要生成方法，应用于计算机技术领域，该方法包括：对待处理文本进行预处理，得到句子集合，计算句子集合内每两个句子间的相似度，根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛，基于各句子的得分，提取候选文摘句，并按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要，本发明还公开了一种文本摘要生成装置、电子设备及存储介质，提高生成的文本摘要的准确性，使用户可通过阅读生成文本摘要判断该文本是否为误报或者漏报。

Description

文本摘要生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本摘要生成方法、装置、电子设备及存储介质。

背景技术

文本摘要是对一个或多个给定的文本自动创建一个压缩版文本的过程，该压缩版文本能够为用户提供简洁精炼的有用信息。因此借助计算机生成文本摘要的技术应运而生，人们可通过阅读简洁精炼的文本摘要而非整篇文本来把握主要内容，进而处理该文本。

借助计算机生成文本摘要的方式主要有两种，分别是Extractive summarization和Abstractive summarization。Extractive summarization是提取式自动文本摘要方法，通过提取原始文本中的一组最重要的句子形成文摘。Abstractive summarization是生成式自动文本摘要方法，通过自然语言生成技术创建抽象的语义表示形成文摘。现有技术中，通常采用提取式自动文本摘要方法来生成文本摘要，但是生成的文本摘要的准确性差。

发明内容

本发明的主要目的在于提供一种文本摘要生成方法、装置、电子设备及存储介质，提高生成的文本摘要的准确性。

为实现上述目的，本发明实施例第一方面提供一种文本摘要生成方法，包括：

对待处理文本进行预处理，得到句子集合；

计算所述句子集合内每两个句子间的相似度；

根据预置模型和所述每两个句子间的相似度，计算所述句子集合中各句子的得分并迭代至所述预置模型收敛；

基于所述各句子的得分，提取候选文摘句，并按照所述候选文摘句在所述待处理文本中的先后顺序进行排序，生成所述待处理文本的文本摘要。

本发明实施例第二方面提供一种文本摘要生成装置，包括：

预处理模块，用于对待处理文本进行预处理，得到句子集合；

第一计算模块，用于计算所述句子集合内每两个句子间的相似度；

第二计算模块，用于根据预置模型和所述每两个句子间的相似度，计算所述句子集合中各句子的得分并迭代至所述预置模型收敛；

提取模块，用于基于所述各句子的得分，提取候选文摘句；

生成模块，用于按照所述候选文摘句在所述待处理文本中的先后顺序进行排序，生成所述待处理文本的文本摘要。

本发明实施例第三方面提供了一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例第一方面提供的文本摘要生成方法。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的文本摘要生成方法。

从上述本发明实施例可知，本发明提供的文本摘要生成方法、装置、电子设备及存储介质，对待处理文本进行预处理，得到句子集合，计算句子集合内每两个句子间的相似度，根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛，基于各句子的得分，提取候选文摘句，并按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要，提高生成的文本摘要的准确性，使用户可通过阅读生成文本摘要判断该文本是否为误报或者漏报。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的文本摘要生成方法的流程示意图；

图2为本发明另一实施例提供的文本摘要生成方法的流程示意图；

图3为本发明又一实施例提供的关闭软件兼容模式的装置的结构示意图；

图4示出了一种电子设备的硬件结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明一实施例提供的文本摘要生成方法的流程示意图，该文本摘要生成方法可应用在电子设备中，该电子设备包括手机、平板电脑(Portable AndroidDevice，PAD)，笔记本电脑以及个人数字助理(Personal Digital Assistant，PDA)等，该方法包括以下步骤：

S101、对待处理文本进行预处理，得到句子集合；

将待处理文本切分成多个句子，并过滤多个句子中不能成为文本摘要的句子，例如，疑问句和反问句等。然后，去除停用词并过滤掉词性为代词，量词，数词，介词，方位词，副词，时间词，标点符号等无意义的高频词语，保留切分后的名词、动词和形容词等重要词语。

令待处理文本为T，S_i为第i个句子，过滤多个句子中不能成为文本摘要的句子后剩余句子的数量为m个，则T＝[S₁,S₂,...,S_p,...,S_m]。

令句子图为G，句子节点集合为V，无向有权边集合为E，单个句子中词的数量为n个，则G＝(V,E)，S_i∈V，则S_i＝[t_i,1,t_i,2,...,t_i,n]，t_i,j∈S_i。

S102、计算句子集合内每两个句子间的相似度；

假设T＝[S₁,S₂,...,S_m]中的每两个句子均相连，构建句子图G＝(V,E)中的无向有权边集合E，无向有权边集合E中各无向有权边的权重值为组成无向有权边的两个句子节点的相似度值。

其中，令句子S_i和S_j组成的无向有权边的权重值为w_ji，令句子S_i和S_j之间的相似度为Similarity(S_i,S_j)，则w_ji＝Similarity(S_i,S_j)。

S103、根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛；

预置模型：

其中，阻尼系数为d，第i个句子节点为V_i，第j个句子节点为V_j，句子节点V_i的得分为S(V_i)，链入句子节点V_i的句子节点集合为In(V_i)，In(V_i)中句子节点集合中句子节点V_j的链出句子节点集合为Out(V_j)，句子节点V_j和句子节点V_i的相似度为w_ji，句子节点V_j和句子节点V_k的相似度为w_jk，In(V_i)中句子节点集合中句子节点V_j的得分为S(V_j)。

根据预置迭代次数、预置模型收敛条件和预置的各句子初始得分，按照所述预置模型，迭代传播边的权重值来计算各句子节点的得分，直至所述预置模型收敛；

令所有句子节点在第K次迭代前后得分差的最大值为MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))，预置收敛条件为Threshold_given，若所述所有句子节点在第K次迭代前后得分差的最大值小于所述预置收敛条件，则Convergence＝(MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))＜Threshold_given)。

S104、基于各句子的得分，提取候选文摘句；

按照得分的大小，降序排列所述各句子，得到候选文摘句列表，其中，令候选文摘句列表为S，候选文摘句的数量为m个，S＝[S₁,S₂,...,S_m]；

提取所述候选文摘句列表中权重值最大的候选文摘句至文摘集合，其中，令所述文摘集合为A，所述所述候选文摘句列表中权重值最大的候选文摘句为S_i，A＝{S_i}；

按所述降序排列的顺序，依次比较所述候选文摘句列表中除权重值最大的候选文摘句外剩余的候选文摘句的相似度与所述文摘集合中所有句子的相似度的和是否小于或等于预设冗余相似度阈值，若是，则提取所述候选文摘句至所述文摘集合，若否，则丢弃所述候选文摘句，直至提取至预设数量的候选文摘句。

S105、按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要。

根据句子在待处理文本中的先后顺序，对候选文摘句进行重新定序，保证生成的文摘具有可读性。

更多的，根据根据预置提取率，从文摘集合中提取候选文摘句。其中，提取率＝生成文摘字数/原文字数。

在本发明实施例中，对待处理文本进行预处理，得到句子集合，计算句子集合内每两个句子间的相似度，根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛，基于各句子的得分，提取候选文摘句，并按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要，提高生成的文本摘要的准确性，使用户可通过阅读生成文本摘要判断该文本是否为误报或者漏报。

请参阅图2，图1为本发明另一实施例提供的文本摘要生成方法的流程示意图，该文本摘要生成方法可应用在电子设备中，其中，文本摘要生成算法基本包括TextRank算法、融合Word2vec与TextRank的算法、LexRank算法和Continuous LexRank算法等四种，本发明实施例将基于上述四种算法碎本发明提供的文本摘要生成方法进行说明，该方法包括：

S201、对待处理文本进行预处理，得到句子集合；

TextRank算法：

将输入的待处理文本切分成句子并标号，对不可能成为文摘句的疑问句、反问句等进行句子过滤，令待处理文本为T，S_i为第i个句子，过滤不能成为文本摘要的句子后剩余句子的数量为m个，则T＝[S₁,S₂,...,S_m]。

去除剩余各句子中的停用词、代词、量词、数词、介词、方位词、副词、时间词和标点符号等无意义的高频词语，保留切分后的名词、动词和形容词等重要词语，将剩余句子构建成句子图。其中，令句子图为G，句子节点集合为V，无向有权边集合为E，单个句子中词的数量为n个，则G＝(V,E)，S_i∈V，则S_i＝[t_i,1,t_i,2,...,t_i,n]，t_i,j∈S_i。

融合Word2vec与TextRank的算法：

更多的，加载事先训练好的Wordvec词向量模型。每个词语用K维向量表征，即把文本的处理简化为K维向量空间中的数学运算，向量空间上的相似度用来表示文件语义上的相似度。

进一步地，将S_i＝[t_i,1,t_i,2,...,t_i,n]映射到K维向量空间上，即将句子中的词语输入上述Wordvec词向量模型进行查找，得到对应的词向量来表示句子中的词语(对于在Word2vec模型中找不到的词，忽略其词向量)，然后将所有词语的词向量相加取平均值，最终得到句子的向量空间表示

LexRank算法：

进一步地，将S_i＝[t_i,1,t_i,2,...,t_i,n]映射到K维向量空间上(维度K是待处理文本词汇表的大小)，即通过词频逆文档频率TF-IDF计算公式v_k,i＝tf_w,i*idf_w来计算句子中各词语的tf-idf值作为向量空间上对应维度的值，最终得到句子的向量空间表示

其中，逆文档频率计算公式：

词频计算公式：

Continuous LexRank算法：

在本步骤中，基于Continuous LexRank算法的文本摘要生成方法和基于上述LexRank算法的文本摘要生成方法相同，故此处不再赘述。

S202、计算句子集合内每两个句子间的相似度；

TextRank算法：

选择“句子间的重叠率”作为句子相似度计算公式来计算句子之间的相似度，然后假定T＝[S₁,S₂,...,S_m]中的各个句子两两相连，构建句子图G＝(V,E)中的无向有权边集合E，边的权重值为相似度计算公式计算出的句子间的相似度，即w_ji＝Similarity(S_i,S_j)。

其中，以“句子间的重叠率”作为句子相似度的计算公式为：

融合Word2vec与TextRank的算法：

选择“句子间在向量空间上的相似度”作为句子相似度计算公式来计算句子之间的相似度，然后假定T＝[S₁,S₂,...,S_m]中的各个句子两两相连，构建句子图G＝(V,E)中的无向有权边集合E，边的权重值为相似度计算公式计算出的句子间的相似度，即w_ji＝Similarity(S_i,S_j)。

其中，以“句子间在向量空间上的相似度”作为句子相似度的计算公式为：

LexRank算法：

选择“句子间在向量空间上的相似度”作为句子相似度计算公式来计算句子之间的相似度，然如果T＝[S₁,S₂,...,S_m]中的各个句子之间的相似度大于给定的阈值就认为这两个句子语义相关并将他们连接起来，构建句子图G＝(V,E)中的无向有权边集合E，边的权重值为相似度计算公式计算出的句子间的相似度，即w_ji＝Similarity(S_i,S_j)。

Continuous LexRank算法：

S203、根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛；

TextRank算法：

选择句子得分计算公式，设置迭代次数为100、模型收敛条件为0.000001以及各个句子初始得分为1.0，根据得分计算公式，迭代传播边的权重值来计算各句子节点的得分，直至收敛。

得分计算公式为：

其中，d为阻尼系数，一般设置为0.85。S(V_i)是待计算句子节点V_i的得分，In(V_i)为链入句子节点V_i的句子节点集合，Out(V_j)是In(V_i)中句子节点集合中句子节点V_j的链出句子节点集合，w_ji为句子节点V_j与V_i的相似度权重值，w_jk为句子节点V_j与V_k的相似度权重值，S(V_j)是原In(V_i)中句子节点集合中句子节点V_j的得分。一次迭代会遍历计算所有句子节点的得分，取所有句子节点在第k此迭代前后得分差的最大值MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))与给定的收敛条件Threshold_given相比，若得分差的最大值小于收敛条件则模型收敛，即：Convergence＝(MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))＜Threshold_given)

融合Word2vec与TextRank的算法：

在本步骤中，基于融合Word2vec与TextRank的算法的文本摘要生成方法和基于上述TextRank算法的文本摘要生成方法相同，故此处不再赘述。

LexRank算法：

得分计算公式为：

其中，d为阻尼系数，一般设置为0.15，N为图中节点也即句子总数。S(V_i)是待计算句子节点V_i的得分，adj是各句子节点间的邻接矩阵，adj[V_i]为句子节点V_i的邻接句子节点集合，deg(V_j)是adj[V_i]中句子节点集合中句子节点V_j的度(degree)也即与其相连的边的数目，S(V_j)是原adj[V_i]中句子节点集合中句子节点V_j的得分。一次迭代会遍历计算所有句子节点的得分，取所有句子节点在第k此迭代前后得分差的最大值MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))与给定的收敛条件Threshold_given相比，若得分差的最大值小于收敛条件则模型收敛，即：Convergence＝(MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))＜Threshold_given)

Continuous LexRank算法：

选择句子得分计算公式，设置迭代次数为100、模型收敛条件为0.000001以及各个句子初始得分为1.0，根据得分计算公式，迭代传播边的权重值来计算各句子节点的得分，直至收敛。得分计算公式为：

其中，d为阻尼系数，一般设置为0.15，N为图中节点也即句子总数。S(V_i)是待计算句子节点V_i的得分，adj是各句子节点间的邻接矩阵，adj[V_i]为句子节点V_i的邻接句子节点集合，w_ji为句子节点V_j与V_i的相似度权重值，w_jk为句子节点V_j与V_k的相似度权重值，S(V_j)是原adj[V_i]中句子节点集合中句子节点V_j的得分。一次迭代会遍历计算所有句子节点的得分，取所有句子节点在第k此迭代前后得分差的最大值MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))与给定的收敛条件Threshold_given相比，若得分差的最大值小于收敛条件则模型收敛，即：Convergence＝(MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))＜Threshold_given)。

S204、基于各句子的得分，提取候选文摘句；

TextRank算法：

对上述得到的句子得分进行降序排序，如果被提取的文摘句意思相近则需冗余过滤，最终提取N个句子作为候选文摘句。设置冗余相似度阈值，消除冗余句子，消除冗余的步骤为：

首先，根据句子得分计算结果，对句子的重要程度由高到低降序排序，得到候选的句子列表S＝[S₁,S₂,...,S_m]，文摘集合A为空。

然后，权重最大的S_i作为文摘输出，A＝{S_i}，S＝S-S_i。

然后，依次选择S中的S_i,(i≥2)，如果与S_i与A中所有句子的相似度小于等于设定的冗余相似度阈值threshold则A＝A+S_i，否则丢弃S_i，直到抽取的句子达到N个，作为候选文摘句。

在本步骤中，基于TextRank的算法、融合Word2vec与TextRank的算法、LexRank算法、Continuous LexRank算法的文本摘要生成方法均相同，故此处不再赘述。

S205、按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要。

TextRank算法：

根据句子在文本中的先后顺序，对N个候选文摘句进行重新定序，保证生成的文摘具有可读性。

然后根据提取率，从候选文摘句中抽取句子组成文摘，其中，提取率＝生成文摘字数/原文字数。

请参阅图3，图3为本发明又一实施例提供的关闭软件兼容模式的装置的结构示意图，该装置可内置于电子设备中，该装置包括：

预处理模块301、第一计算模块302、第二计算模块303、提取模块304和生成模块305。

预处理模块301，用于对待处理文本进行预处理，得到句子集合；

第一计算模块302，用于计算句子集合内每两个句子间的相似度；

第二计算模块303，用于根据预置模型和每两个句子间的相似度，计算句子集合中各句子的得分并迭代至预置模型收敛；

提取模块304，用于基于各句子的得分，提取候选文摘句；

生成模块305，用于按照候选文摘句在待处理文本中的先后顺序进行排序，生成待处理文本的文本摘要。

请参见图4，图4示出了一种电子设备的硬件结构图。

本实施例中所描述的电子设备，包括：

存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序，处理器执行该程序时实现前述图1或图2所示实施例中描述的文本摘要生成方法。

进一步地，该电子设备还包括：

至少一个输入设备43；至少一个输出设备44。

上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。

其中，输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。

存储器41可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器41用于存储一组可执行程序代码，处理器42与存储器41耦合。

进一步地，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的终端中，该计算机可读存储介质可以是前述图4所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1或图2所示实施例中描述的文本摘要生成方法。进一步地，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种文本摘要生成方法、装置、电子设备及存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本摘要生成方法，其特征在于，包括：

对待处理文本进行预处理，得到句子集合；

计算所述句子集合内每两个句子间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行预处理包括：

将所述待处理文本切分成多个句子，并过滤所述多个句子中不能成为文本摘要的句子，其中，令待处理文本为T，S_i为第i个句子，所述过滤所述多个句子中不能成为文本摘要的句子后剩余句子的数量为m个，则T＝[S₁,S₂,...,S_p,...,S_m]；

去除所述剩余各句子中的停用词、代词、量词、数词、介词、方位词、副词、时间词和标点符号，并将所述剩余句子构建成句子图，其中，令所述句子图为G，句子节点集合为V，无向有权边集合为E，单个句子中词的数量为n个，则G＝(V,E)，S_i∈V，则S_i＝[t_i,1,t_i,2,...,t_i,n]，t_i,j∈S_i。

3.根据权利要求2所述的方法，其特征在于，所述计算所述句子集合内每两个句子间的相似度包括：

假设所述T＝[S₁,S₂,...,S_m]中的每两个句子均相连，构建所述句子图G＝(V,E)中的无向有权边集合E，所述无向有权边集合E中各无向有权边的权重值为组成所述无向有权边的两个句子节点的相似度值；

4.根据权利要求1所述的方法，其特征在于，所述根据预置模型，计算所述句子集合中各句子的得分包括：

所述预置模型：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述迭代至所述预置模型收敛包括：

令所有句子节点在第K次迭代前后得分差的最大值为MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))，预置收敛条件为Threshold_given，若所述所有句子节点在第K次迭代前后得分差的最大值小于所述预置收敛条件，则Convergence＝(MAX_Vi∈V(S^k+1(V_i)-S^k(V_i))<Threshold_given)。

6.根据权利要求5所述的方法，其特征在于，所述基于所述各句子的得分，提取候选文摘句包括：

7.根据权利要求6所述的方法，其特征在于，所述生成所述待处理文本的文本摘要之前，包括：

根据预置提取率，从所述文摘集合中提取候选文摘句。

8.一种文本摘要生成装置，其特征在于，包括：

提取模块，用于基于所述各句子的得分，提取候选文摘句；

9.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的文本摘要生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的文本摘要生成方法。