CN108595411B

CN108595411B - 一种同主题文本集合中多文本摘要获取方法

Info

Publication number: CN108595411B
Application number: CN201810223876.0A
Authority: CN
Inventors: 徐小龙; 杨春春; 段卫华; 张洁; 朱洁; 刘茜萍
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2022-02-01
Anticipated expiration: 2038-03-19
Also published as: CN108595411A

Abstract

本发明涉及一种同主题文本集合中多文本摘要获取方法，首先通过对文本进行预处理，包括分词，停用词处理，特征选择，降维等；下一步，利用处理之后的特征词构造空间向量模型，生成距离矩阵；然后在聚类方法中加入样本密度排序的方法，以中心向量为圆心，用向量空间中特征值距离的平均值为半径构造圆，根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心，从而自动发现文档集合中的潜在对应的子主题集合的数量；生成对应的子主题集之后，方法对已聚类的子主题文本进行有监督的训练，对句子进行评分，标记，从不同的子主题中抽取中心句作为多文本的摘要，最后，方法输出摘要的内容；提高了多文本摘要的质量。

Description

一种同主题文本集合中多文本摘要获取方法

技术领域

本发明涉及一种同主题文本集合中多文本摘要获取方法，属于自然语言处理、情报科学的交叉技术领域。

背景技术

目前，互联网每天都涌现海量信息，各个领域都出现了信息爆炸的情况，大数据时代已经来临。人们需要快速、准确地从海量信息中找到有用信息。自动摘要技术自动对大规模电子文本快速地进行浓缩、提炼，抽取其中关键信息，生成给定原文的中心内容，使其成为解决当前信息过载问题、加快阅读和获取信息资源的一个准确而高效的手段。随着计算机科学的发展和自然语言处理技术的不断进步，自动摘要技术已经广泛地应用到其他相关领域，比如文本分类、信息检索、问答系统等。它的优势表现在以下两个方面：一是自动摘要技术在准确率和召回率两方面达到了很好的平衡，所抽取的摘要既能包含文本的主要内容，又能保证摘要内容尽可能少的重复，提高了用户浏览信息的效率；二是自动摘要技术注重摘要内容的可读性和摘要的表现形式，方便用户理解信息内涵。

近年来，多文本自动摘要技术成为自动摘要领域的研究热点。多文本自动摘要的研究对象是以同一个主题下的文档集合，特点是文档之间具有很多的相似信息，多文本自动摘要的关键不仅包括如何识别和处理文档之间的共同信息，还要对多篇同一主题的文档集合进行汇总和压缩，最终形成的摘要必须包含所有文档中的关键信息。

目前的多文本自动摘要技术主要存在以下问题：

(1)多文本自动摘要研究中涉及到使用聚类方法，这些聚类方法有一个共同的缺陷，那就是这些聚类方法往往无法自动估计类簇中心的个数，都需要人工给定聚类的数目。人工给定的聚类数目所产生的主题数量会产生偏差，因此无法自动发现文档集隐含的自然的潜在子主题。

(2)现有的摘要抽取这方面，仅仅考虑关键词的出现频率，而忽略描述相关子主题事件文本内容的重要性。所以抽取的摘要冗余度高，重要句子提取不准确，覆盖率低，连贯性差等诸多局限性，而且生成摘要所需要的时间也比较长。

发明内容

本发明所要解决的技术问题是提供一种同主题文本集合中多文本摘要获取方法，不仅提高了生成摘要的准确率和召回率，而且还减少了自动摘要生成的时间。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种同主题文本集合中多文本摘要获取方法，初始化针对文本集合中所有文本进行任意排序，并结合各文本中各句子的顺序，获得文本集合中所有句子的排序；以及结合各句子中各特征项的顺序，获得文本集合对应所有句子中所有特征项的顺序，然后执行如下步骤：

步骤A.获得文本集合中各句子的权重W_i，以及获得文本集合对应所有句子中各特征项的权重Q_j，然后进入步骤B；其中，i∈{1、…、I}，I表示文本集合中所有句子的总数，j∈{1、…、J}，J表示文本集合对应所有句子中所有特征项的总数；

步骤B.根据文本集合中各句子权重W_i，以及文本集合对应所有句子中各特征项权重Q_j，获得各句子分别与各特征项之间的相似度S_ij，并构建文本向量矩阵S(i,j)，然后进入步骤C；

步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度S_ij，分别获得文本集合中两两句子之间的距离，构建文本集合中所有句子对应的距离矩阵R(i,i')，并进一步获得文本集合中各个句子的空间坐标，然后进入步骤D；其中，i'∈{1、…、I}；

步骤D.根据距离矩阵R(i,i')，引入句子密度排序方法，获得文本集合中所有句子所对应聚类中心的数量P，然后进入步骤E；

步骤E.根据文本集合中所有句子所对应聚类中心的数量P，针对文本集合中的所有句子进行聚类，获得P个子主题文档集合，然后进入步骤F；

步骤F.根据预设摘要句子总数，针对P个子主题文档集合，采用卷积神经网络进行处理，获得文本集合中多文本所对应的摘要。

作为本发明的一种优选技术方案，所述步骤A中，根据如下公式：

获得文本集合中各句子的权重W_i；其中，f_i表示文本集合对应所有句子中第i个句子在其所在文本中的频数；N表示文本集合中文本的数量。

Q_j＝log₁₀(1+f(t_j))×log₁₀(I/I_j)

获得文本集合对应所有句子中各特征项的权重Q_j；其中，f(t_j)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数，I_j表示文本集合对应所有句子中包含第j个特征项的句子的数量。

作为本发明的一种优选技术方案，所述步骤B中，根据文本集合中各句子权重W_i，以及文本集合对应所有句子中各特征项权重Q_j，获得各句子分别与各特征项之间的相似度S_ij，并按如下公式：

构建文本向量矩阵S(i,j)。

作为本发明的一种优选技术方案，所述步骤C中，根据文本向量矩阵中各句子分别与各特征项之间的相似度S_ij，分别获得文本集合中两两句子之间的距离，并根据如下公式：

构建文本集合中所有句子对应的距离矩阵R(i,i')。

作为本发明的一种优选技术方案，所述步骤D包括如下步骤：

步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k₁，然后进入步骤D2；

步骤D2.分别针对文本集合中的各个句子，以句子的空间坐标为圆心，k₁为半径，构建该句子所对应的圆形，并获得位于该圆形范围内句子的数量，作为该句子所对应的文本密度，进而获得文本集合中各个句子分别所对应的文本密度，然后进入步骤D3；

步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序，并基于排序，将对应相同文本密度的各个句子划分为一个集合，即获得按文本密度由大至小顺序所排序的各个句子集合，然后初始化l＝1，并进入步骤D4；

步骤D4.按文本密度由大至小顺序，由第l个句子集合中任选一个句子，作为一个凝聚点，并针对l的值进行加1更新，然后进入步骤D5；

步骤D5.判断l是否大于L，是则进入步骤D7；否则进入步骤D6；L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量；

步骤D6.按文本密度由大至小顺序，由第l个句子集合中任选一个句子，并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k₁，是则将该句子作为一个凝聚点，否则针对l的值进行加1更新，并返回步骤D5；

步骤D7.统计所获凝聚点的数量，即获得文本集合中所有句子所对应聚类中心的数量P。

本发明所述一种同主题文本集合中多文本摘要获取方法采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明设计的同主题文本集合中多文本摘要获取方法，采用改进聚类方法，针对文本集合进行聚类，克服了现有聚类方法往往无法自动估计子主题的个数，需要依赖人的主观经验确定初始聚类中心等问题；设计方法能够从整个文档内容统计信息中，获取必要的参数信息来自动确定初始类别数和聚类中心，自动发现文档集合中的潜在子主题数和对应的子主题的数量，为下一步文本摘要的抽取打下坚实的基础；

(2)本发明设计的同主题文本集合中多文本摘要获取方法，在摘要的抽取方面，深入挖掘文本集中句子的内在联系，更加准确的推断出子主题中心的内容，使得抽取的摘要结果更加准确全面，从而显著地提高了多文本自动摘要的质量。

附图说明

图1是本发明所设计同主题文本集合中多文本摘要获取方法的流程示意图；

图2是本发明所设计同主题文本集合中多文本摘要获取方法的系统架构示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计一种多文本自动摘要方法，(1)多文本自动摘要研究中涉及到使用现有的聚类方法，这些聚类方法有一个共同的缺陷，那就是这些聚类方法往往无法自动估计类簇中心的个数，都需要人工给定聚类的数目。人工给定的聚类数目所产生的主题数量会产生偏差，因此无法自动发现文档集隐含的自然的潜在子主题。(2)现有的摘要方法在抽取这方面，仅仅考虑关键词的出现频率，而忽略描述相关子事件的文本内容的重要性。所以抽取的摘要冗余度高，重要句子提取不准确，覆盖率低，连贯性差等诸多局限性，而且抽取摘要所需要的时间也比较长。具体而言，本发明采用以下方案解决上述技术问题。

如图1和图2所示，本发明设计了一种同主题文本集合中多文本摘要获取方法，初始化针对文本集合中所有文本进行任意排序，并结合各文本中各句子的顺序，获得文本集合中所有句子的排序；以及结合各句子中各特征项的顺序，获得文本集合对应所有句子中所有特征项的顺序，然后执行如下步骤：

在文本处理的过程中，初始的自然文本一般不能被计算机直接处理，必须转化成某些数学或统计模型，才能被计算机所识别。而这一过程叫做文本的形式化表达，即文本的向量化表示。

首先将文本集合中的各个文本通过句子进行切分，将文本表示成为句子的集合。一般情况下，通过标点符号就能将文本切分为句子的集合。其次，对于每个句子，我们建立基于特征项的向量表达式，进而建立一个向量空间模型。

步骤A.根据如下公式：

获得文本集合中各句子的权重W_i，其中，f_i表示文本集合对应所有句子中第i个句子在其所在文本中的频数；N表示文本集合中文本的数量。

在经过文本分词、停用词处理和稀有词处理等过程之后，从原始文档集合中提取出实词作为特征项，采用这种元数据来形式化的表示文档集合的内容，即根据如下公式：

Q_j＝log₁₀(1+f(t_j))×log₁₀(I/I_j)

获得文本集合对应所有句子中各特征项的权重Q_j，其中，f(t_j)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数，I_j表示文本集合对应所有句子中包含第j个特征项的句子的数量，然后进入步骤B；其中，i∈{1、…、I}，I表示文本集合中所有句子的总数，j∈{1、…、J}，J表示文本集合对应所有句子中所有特征项的总数。

步骤B.根据文本集合中各句子权重W_i，以及文本集合对应所有句子中各特征项权重Q_j，获得各句子分别与各特征项之间的相似度S_ij，并按如下公式：

构建文本向量矩阵S(i,j)，然后进入步骤C。

对于句子与特征项之间的相似度，若句子与特征项之间欧式距离为0时，则其彼此相似度为1；若句子与特征项之间欧式距离为无穷大时，则其彼此相似度为0；即句子与特征项之间欧式距离越大，则其彼此相似度单调下降。

步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度S_ij，分别获得文本集合中两两句子之间的距离，根据如下公式：

构建文本集合中所有句子对应的距离矩阵R(i,i')，并进一步获得文本集合中各个句子的空间坐标，然后进入步骤D；其中，i'∈{1、…、I}。

本发明接下来采用以下方法发现文本中的潜在子主题。方法要从整个文本数据集的内容信息统计中获取参数信息，以中心向量为圆心，用向量空间中特征值距离的平均值为半径构造圆，根据每个圆内样本数据点中的文本密度数量来排序确定初始聚类中心的数目。因此，聚类方法所需要的初始中心数就由程序动态地自动生成，而不需要进行事前设定。

步骤D.根据距离矩阵R(i,i')，引入句子密度排序方法，获得文本集合中所有句子所对应聚类中心的数量P，然后进入步骤E。

其中，上述步骤D具体包括如下步骤：

步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k₁，然后进入步骤D2。

步骤D2.分别针对文本集合中的各个句子，以句子的空间坐标为圆心，k₁为半径，构建该句子所对应的圆形，并获得位于该圆形范围内句子的数量，作为该句子所对应的文本密度，进而获得文本集合中各个句子分别所对应的文本密度，然后进入步骤D3。

步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序，并基于排序，将对应相同文本密度的各个句子划分为一个集合，即获得按文本密度由大至小顺序所排序的各个句子集合，然后初始化l＝1，并进入步骤D4。

步骤D4.按文本密度由大至小顺序，由第l个句子集合中任选一个句子，作为一个凝聚点，并针对l的值进行加1更新，然后进入步骤D5。

步骤D5.判断l是否大于L，是则进入步骤D7；否则进入步骤D6；L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量。

步骤D6.按文本密度由大至小顺序，由第l个句子集合中任选一个句子，并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k₁，是则将该句子作为一个凝聚点，否则针对l的值进行加1更新，并返回步骤D5。

步骤E.根据文本集合中所有句子所对应聚类中心的数量P，针对文本集合中的所有句子进行聚类，获得P个子主题文档集合，然后进入步骤F。

上述步骤E具体如下：

1.根据给定的文本数据集，首先令I＝1表示系统进行第I次聚类。根据上面得到的p个初始聚类中心，Z_j(I),j＝1,2,3,...,p

2.计算每个文本对象与聚类中心的距离f_Dis(M_i,Z_j(I)),M＝1,2,3...n；j＝1,2,3,...p；

式子为：

f_Dis(M_i,Z_j(I))＝min{f_Dis(M_i,Z_j(I)),i＝1,2,3,...n}

3.计算p个新的聚类中心。

4.若Z_j(I+1)≠Z_j(I),j＝1,2,3,...p，则I＝I+1，返回公式(7)；否则，方法结束。

得到子主题聚类文本以后，下一步：从各个子主题文本中抽取摘要句子，排序，最后进行格式化输出摘要。摘要抽取模块，本发明采用以下方法进行文本摘要的抽取，主要分两个部分：1.读取聚类后的文本对其进行编码；2.从文本中选择合适的句子，进行摘要的抽取，输出。

对于给定的文本集合D，包含句子序列{S₁,…,S_n}，选择总数20％句子生成文本摘要。对文本集合D中所有句子进行评分，并且预测文中句子是否属于摘要，通过使用标记t_L∈{0，1}。本发明之所以使用有监督训练的目的是最大化标记

所有句子的可能性，设定给定输入文档D以及模型参数θ：

文本中句子编码过程是由系统自行控制，系统可以有效的训练文本数据集，并能顺利地用于句子分类任务。设定j表示词向量的维数，s是包含词序列(w₁,...,w_m)的句子，可用它表示为一个列矩阵w∈R^mxj。通过设定w和K∈R^fxj之间的宽度作为f的卷积，如下公式所示：

式子(10)中，符号⊙的含义是hadamard乘积，也就是对应元素相乘的结果。α表示的是偏差值，

表示第i个特征项中的第k个元素。

下一步，文本编码的部分是通过标准的并行神经网络把文本中的句子组合成文本向量。并行神经网络的隐状态可以用部分列表表示，这些列表一起构成了文本向量集合。设定文档D＝{s₁,...,s_n}，参数p_h是h时刻的隐状态，我们可以按以下公式进行调整：

i_h＝sigmoid(W_i·[p_h-1；s_h]+b_i)

f_h＝sigmoid(W_f·[p_h-1；s_h]+b_f)

p_h＝tanh(i_h⊙f_h)

上述式子中，符号⊙表示两元素的乘积，W_i,W_f为语义组合的自适应选择向量，参数b_i,b_f作为删除的历史向量。

下一步，程序读取好句子后，由抽取程序直接抽取中心句作为摘要句。程序抽取关键句子的时候要考虑摘要句与文本内容中心的相关性以及相关冗余特性等因素。设定h时刻编码程序的隐状态为(p₁,...,p_m)，另外抽取程序的隐状态为

可以通过当前编码状态与对应编码状态关联，让编码器关注的重点放在中心相关性较高的句子上：

其中，MLP代表多层神经网络，用h时刻的隐状态与状态的连接

作为程序的输入，然后获取符合文本摘要的句子并且设置它的状态。最后，将抽取符合条件的句子作为多文本的摘要，进行输出展示。

相较于现有的方法，只根据句子的词频判定句子的重要性，所以生成的摘要不准确，覆盖率低，连贯性差。本发明首先通过对文本进行预处理，包括分词，停用词处理，特征选择，降维等。下一步，利用处理之后的特征词构造空间向量模型，生成距离矩阵。然后在聚类方法过程中加入样本密度排序的方法，以中心向量为圆心，用向量空间中特征值距离的平均值为半径构造圆，根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心，从而自动发现文档集合中的潜在对应的子主题集合的数量。然后，系统对已聚类的主题文本进行有监督的训练，对句子进行评分，标记，从不同的子主题中抽取相关度较高的句子作为多文本的摘要，最后，方法输出摘要的内容。通过这种方法生成的摘要质量更高，生成摘要的时间比现有的方法要快。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种同主题文本集合中多文本摘要获取方法，其特征在于：初始化针对文本集合中所有文本进行任意排序，并结合各文本中各句子的顺序，获得文本集合中所有句子的排序；以及结合各句子中各特征项的顺序，获得文本集合对应所有句子中所有特征项的顺序，然后执行如下步骤：

步骤A.根据如下公式：

获得文本集合中各句子的权重W_i；其中，f_i表示文本集合对应所有句子中第i个句子在其所在文本中的频数；N表示文本集合中文本的数量；以及获得文本集合对应所有句子中各特征项的权重Q_j，然后进入步骤B；其中，i∈{1、…、I}，I表示文本集合中所有句子的总数，j∈{1、…、J}，J表示文本集合对应所有句子中所有特征项的总数；

构建文本向量矩阵S(i,j)，然后进入步骤C；

2.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法，其特征在于，所述步骤A中，根据如下公式：

Q_j＝log₁₀(1+f(t_j))×log₁₀(I/I_j)

3.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法，其特征在于，所述步骤C中，根据文本向量矩阵中各句子分别与各特征项之间的相似度S_ij，分别获得文本集合中两两句子之间的距离，并根据如下公式：

构建文本集合中所有句子对应的距离矩阵R(i,i')。

4.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法，其特征在于，所述步骤D包括如下步骤：