CN107766419A

CN107766419A - 一种基于阈值去噪的TextRank文档摘要方法及装置

Info

Publication number: CN107766419A
Application number: CN201710807801.2A
Authority: CN
Inventors: 蔡毅
Original assignee: Guangzhou Wangwang Information Technology Co Ltd
Current assignee: Guangzhou Wangwang Information Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-03-06
Anticipated expiration: 2037-09-08
Also published as: CN107766419B

Abstract

本发明公开了一种基于阈值去噪的TextRank文档摘要方法，包括以下步骤：根据获取到的第一文档语句构建第一图模型；通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值将所有的第一TR值与预设阈值进行大小比对，并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型；并选取若干条第二TR值最高的第二文档语句以形成文档摘要。本发明还提供了一种基于阈值去噪的TextRank文档摘要装置。本发明的基于阈值去噪的TextRank文档摘要的方法能够有效的排除文档中的干扰项，提高权重值的分配准确度，从而提高所生成的摘要的质量。

Description

一种基于阈值去噪的TextRank文档摘要方法及装置

技术领域

本发明涉及一种数据挖掘技术领域，尤其涉及一种基于阈值去噪的TextRank文档摘要方法及装置。

背景技术

现今时代互联网发展迅速，信息急剧膨胀，充斥着人们的生活，带来了极大的便利，人们足不出户便可以了解时事，查找自己所需要的资源和信息。但与此同时，面对新闻网站上纷乱繁杂的原始新闻，为了能够跟上信息更新的速度，将新闻事件报道进行汇总精简、提炼出其中的关键信息，满足快速获取知识的要求成为一个亟待解决的问题。为了解决这一问题，文档自动摘要方法伴随需求而得到发展。近年来，基于图的排序算法已经被应用到文档摘要中，其中应用最为广泛的是Mihalcea和Tarau提出的TextRank模型，它是基于图的摘要模型，其涉及到的背景知识如下：

1.PageRank

PageRank(网页排名)利用网页的链接结构构建Web图模型，从客观上评估网页的相对重要性，有效地衡量用户对网页的兴趣和关注程度。它的基本思想是，一个网页的重要程度取决于链接到该网页的网页数量以及这些网页的重要程度。PageRank应用了两个假设：数量假设和质量假设。数量假设是指在Web图模型中，一个网页所拥有的指向自己的其他网页的数量越多，则该网页的重要程度越高；质量假设是指质量或重要程度越高的网页指向某个网页时，被指向的网页重要程度越高。

PageRank采用投票或推荐机制，即每一个网页会将自己的PR值平均地分配给自己所指向的网页。令G＝(V,E)表示由顶点集合V和边集合E组成的图，V中每个顶点表示一个网页，网页V_i指向网页V_j通过E中以顶点V_i为起点、V_j为终点的边来表示；In(V_i)表示以顶点V_i为终点的入边集合，Out(V_i)表示以顶点V_i为起点的出边集合。网页V_i的重要程度定义如下：

其中|Out(V_j)|表示顶点V_j的出度。

以一个例子来说明以上定义。如图1所示，其中PR值为100的网页指向了PR值为53和50的两个网页，则它会将自己的PR值平均分配给这两个网页，而这两个网页又会将自己的PR值平均分配给它们各自所指向的网页，这是一个反复迭代的过程，最终网页的PR值会趋向于正常和稳定。如图2所示，经过反复迭代后，网页的PR值已经收敛。

上述公式存在一个问题：在现实情况中，存在着一些网页，它们彼此互相链接，而没有指向其他网页的链接，这就会导致链接只在一个集合内部旋转，而不指向外界的现象，如图3所示。这种封闭的情况称为Rank Sink。因此，需要进行修正。实际上，用户在浏览网页时，如果他发现一直在同样的几个网页中徘徊时，那么他会离开当前页面，重新打开一个新的网页；用户也不会一直都顺着当前页面的链接前进，也可能会跳跃到完全无关的页面里。基于这一思想，PageRank在上述公式的基础上加入了阻尼系数(damping factor)α，得到如下公式：

其中阻尼系数α表示到达某个页面后继续往后浏览的概率，1-α表示用户停止点击，跳出现在的页面，转至一个新的网页的概率。α的取值范围为[0，1]，一般取值为0.85。根据修正后的公式，一个网页的PR值是由其他网页的PR值计算得到的，这是一个不断迭代计算的过程，最终网页的PR值会趋向于正常和稳定。

2.向量空间模型

向量空间模型VSM(Vector Space Model)是文本分析中常用的用于表示文档的模型，它把对文本内容的处理简化为向量空间中的向量运算。

VSM将每篇文档表示为一个标准化的向量其中每一维t_i是特征项，表示出现在文档D_m中且能够表示该文档内容的基本语言单位，主要由词或者短语组成，v表示特征项的总数。在文档D_m中，每个特征项都有其权重值，表示该特征项的重要程度，即D_m(t₁,w₁；t₂,w₂；…t_v,w_v)，简记为D_m(w₁,w₂,…,w_v)，它是v维空间中的一个向量，称为D_m的向量表示。其中w_i表示特征项t_i的权重。

特征项的权重值有多种计算方法，一般采用TF-IDF(词频-逆文档频率)。词频TF(term frequency)定义为TF_im＝n_i/N，表示第i个特征项在第m篇文档D_m中出现的频率，其中n_i表示在D_m中出现的次数，N表示D_m中所包含的总词数；在不同的文档中TF有明显的差别，尤其是在不同类别的文档中，因此TF在文本处理中是一个有价值的信息。逆文档频率IDF(inverse document frequency)定义为IDF_i＝log(|D|/d_i)，表示第i个特征项的IDF值，|D|表示文档集合D中的文档总数，d_i表示第i个特征项出现的文档总数；IDF的作用是调整TF，避免一些在文档集合中出现频率很高的特征项具有过高的权重。将TF和IDF相乘的结果作为TF-IDF值，表示特征项的权重值，TF-IDF值越大，说明特征项重要程度越高。

3.余弦相似度

通过VSM，两条句子之间的相似度计算转变为两个向量之间的相似度计算，对此余弦相似度是常用的方法之一。在VSM中，两条句子S_i，S_j的余弦相似度定义如下：

其中，w_ix和w_jx分别表示句子S_i和S_j第x个特征项的权重值，1≤x≤v。计算得到的余弦值的范围介于0到1之间，它越接近1，表明两个向量越接近0度，即两个向量越相似，其所表示的两条句子之间的相似度越高。当余弦值等于1时，夹角等于0，即两个向量相等，其所表示的两条句子完全一致。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于阈值去噪的TextRank文档摘要方法，其能有效去除文档中的干扰项。

本发明的目的之二在于电子设备，其能有效去除文档中的干扰项。

本发明的目的之三在于提供一种计算机可读存储介质，其能有效去除文档中的干扰项。

本发明的目的之四在于提供一种基于阈值去噪的TextRank文档摘要装置，其能有效去除文档中的干扰项。

本发明的目的之一采用如下技术方案实现：

一种基于阈值去噪的TextRank文档摘要方法，包括以下步骤：

获取步骤：根据获取到的第一文档语句构建第一图模型；

计算步骤：通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值；

比对步骤：将所有的第一TR值与预设阈值进行大小比对，并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型；

摘要形成步骤：通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值，并选取若干条第二TR值最高的第二文档语句以形成文档摘要。

进一步地，在获取步骤之前还包括以下步骤：

预处理步骤：对获取到的文档信息进行预处理以得第一文档语句。

进一步地，在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。

进一步地，在计算步骤中采用的迭代计算公式为：

其中，α为阻尼系数，其取值为0-1之间，S_i和S_j均表示文档语句，TR(S_i)表示文档语句S_i对应的TR值，TR(S_j)表示文档语句S_j对应的TR值，w_ji表示S_i和S_j之间的相似度，In(S_i)表示以顶点S_i为终点的入边集合，Out(S_j)表示以顶点S_j为起点的出边集合。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取步骤：根据获取到的第一文档语句构建第一图模型；

进一步地，在获取步骤之前还包括以下步骤：

进一步地，在计算步骤中采用的迭代计算公式为：

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的方法。

本发明的目的之四采用如下技术方案实现：

一种基于阈值去噪的TextRank文档摘要装置，包括以下模块：

获取模块：用于根据获取到的第一文档语句构建第一图模型；

计算模块：用于通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值；

比对模块：用于将所有的第一TR值与预设阈值进行大小比对，并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型；

摘要形成模块：用于通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值，并选取若干条第二TR值最高的第二文档语句以形成文档摘要。

相比现有技术，本发明的有益效果在于：

本发明的基于阈值去噪的TextRank文档摘要方法能够有效的排除文档中的干扰项，提高权重值的分配准确度，从而提高所生成的摘要的质量。

附图说明

图1为PageRank迭代过程的示例图；

图2为PageRank收敛的示例图；

图3为TextRank图模型示例；

图4为本发明基于阈值去噪的TextRank文档摘要方法的流程图；

图5为本发明基于阈值去噪的TextRank文档摘要装置的结构图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

如图4示，本实施例提供了一种基于阈值去噪的TextRank文档摘要方法，包括以下步骤：

S0：对获取到的文档信息进行预处理以得第一文档语句；数据预处理，包括数据清洗和结构化，本实施例在进行文档摘要实验时，处理的是句子级别的文本单元，因此要对文档集合进行断句，并标记句子原来所在的位置，标记句子原来所在的位置是以便于最后的排序步骤。同时，句子的文本表示是以词语为单位的，所以还需要对得到的句子进行分词，并去除其中的停用词，减少文档中的噪音干扰。得到分词结果后，通过向量空间模型得到文档D中每条句子的结构化表示S_i＝(t₁,t₂,…,t_v)，t_x表示句子S_i的第x个特征项。

S1：根据获取到的第一文档语句构建第一图模型；

S2：通过TextRank算法对所有第一文档语句的进行迭代计算以得每条第一文档语句对应的第一TR值；在步骤S2中采用的迭代计算公式为：

首先是需要构建图模型G＝(V,E)，其中顶点集合V中每个顶点表示一条句子，边集合E中包含了句子两两之间所构成的无向边，边的权重为w_ij＝Sim(S_i,S_j)，表示句子S_i和S_j之间的相似关系。In(S_i)表示以顶点S_i为终点的入边集合，Out(S_i)表示以顶点S_i为起点的出边集合。

完成图模型的构建后，接下来便是对每个顶点也就是每条句子的权重值的迭代计算，对于句子S_i，其TextRank(TR)值在一次迭代中的计算公式如下：

在经过反复迭代后，最终收敛得到每条句子的TR值。

S3：将所有的第一TR值与预设阈值进行大小比对，并将所有小于预设阈值的第一TR值对应的第一文档语句从第一图模型中除去以得第二图模型；通过设置阈值有效的去除一些噪音干扰；除去的做法是直接将该句与其他所有句子的相似度设置为0，即可将该句排除；

S4：通过TextRank算法对第二图模型中的第二文档语句进行迭代计算以得第二TR值，并选取若干条第二TR值最高的第二文档语句以形成文档摘要。通过第二次TextRank对D′中的句子进行排序。在每次迭代中，对于D′中的每条句子T_i，按步骤3中的句子TR值计算公式计算新的TR值，反复迭代最终收敛得到每条句子的TR值，按TR值从大到小的顺序进行排序。

在步骤S4中采用贪婪算法去除第二图模型中的冗余信息。通过贪婪算法去除冗余。一篇文档中可能存在相似的句子，它们最终得到的TR值是相近的，如果仅仅选取出若干条TR值最高的句子构成摘要，将会产生冗余，影响摘要的质量。因此，需要通过贪婪算法筛选句子。

(a)、初始化摘要句子集合B＝D′，每条句子都有一个贪婪分值score，初始值为经过两次TextRank后所得到的TR值，这些贪婪分值构成了集合score_B＝{T₁:score₁,T₂:score₂,…,T_m:score_m}；

(b)、按照score_B对B进行排序；

(c)假设T_i为B中score分值最高的句子，从B中抽取出T_i放到F中，然后对B中剩余的句子T_j，分别计算score_B(T_j)＝score_B(T_j)-ω×w_ji×TR_D(T_i)；

(d)重复步骤(b)和(c)，直到为止。

经过上述步骤，最终得到句子的排序集合，然后提取前面若干条句子，按句子原来在文中的位置组合成摘要。

完成该摘要之后，需要对该摘要内容进行验证，本实施例采用ROUGE(RecallOriented Understudy for Gisting Evaluation)作为评价指标。ROUGE自动评价方法目前已经被DUC和TAC(Text Analysis Conference)广泛用于自动摘要的质量评估。它通过将自动摘要和人工摘要进行对比，统计这两者之间的重叠来评估自动摘要的质量。通过验证发现，本实施例的内容具有更为优异的效果相对于没有设置阈值去噪的方式来说。

在使用TextRank方法对句子进行排序时，文档的重要信息和主要内容集中在一部分句子中，而有一部分句子本身并没有包含很重要的信息，将它们也整合到图模型中，会对TextRank抽取摘要句子的实际效果造成噪音干扰。以一个主题是“其他国家对伊朗核能力和核试验的关注态度以及伊朗自身的态度”的新闻文档集合为例，其中包含句子“Husseinreplied:We are not saying that.”显然这条句子并没有包含很重要的内容，但是它与其他句子存在一定的相似关系，这会对权重值的分配造成干扰，从而导致TextRank进行多文档摘要的效果下降。这种句子有长有短，因而无法通过简单的数据预处理排除，因此需要一种新的去噪方法，将这些干扰项从图模型中去除。

通过观察TextRank排序结果发现，这些句子的TR值普遍偏低，由此本发明提出基于阈值去噪的TextRank排序算法，将其应用于多文档摘要。首先通过第一次TextRank得到所有句子的TR值，将TR值低于阈值的句子从图模型中除去，除去的做法是直接将该句与其他所有句子的相似度设置为0，即可将该句排除。新的图模型构建完毕后，重新进行TextRank迭代计算，从而得到每条句子的TR值。

相比于原来的TextRank摘要方法，本实施例的基于阈值去噪的TextRank排序算法能够有效地排除文档中的干扰项，提高权重值的分配准确度，从而提高所生成的摘要的质量。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的基于阈值去噪的TextRank文档摘要方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种可读的计算机存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的基于阈值去噪的TextRank文档摘要方法。

实施例四：

如图5示，本实施例提供了一种基于阈值去噪的TextRank文档摘要装置，包括以下模块：

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于阈值去噪的TextRank文档摘要方法，其特征在于，包括以下步骤：

获取步骤：根据获取到的第一文档语句构建第一图模型；

2.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法，其特征在于，在获取步骤之前还包括以下步骤：

3.如权利要求1或2所述的基于阈值去噪的TextRank文档摘要方法，其特征在于，在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。

4.如权利要求1所述的基于阈值去噪的TextRank文档摘要方法，其特征在于，在计算步骤中采用的迭代计算公式为：

<mrow> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&times;</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mfrac> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mrow> <msub> <mi>&Sigma;s</mi> <mrow> <mi>l</mi> <mo>&Element;</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>l</mi> </mrow> </msub> </mrow> </mfrac> <mi>T</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

5.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

获取步骤：根据获取到的第一文档语句构建第一图模型；

6.如权利要求5所述的电子设备，其特征在于，在获取步骤之前还包括以下步骤：

7.如权利要求5或6所述的电子设备，其特征在于，在摘要形成步骤中采用贪婪算法去除第二图模型中的冗余信息。

8.如权利要求5所述的电子设备，其特征在于，在计算步骤中采用的迭代计算公式为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的方法。

10.一种基于阈值去噪的TextRank文档摘要装置，其特征在于，包括以下模块：