CN100435145C

CN100435145C - 一种基于句子关系图的多文档摘要方法

Info

Publication number: CN100435145C
Application number: CNB2006100725868A
Authority: CN
Inventors: 万小军; 杨建武; 吴於茜; 陈晓鸥
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2008-11-19
Anticipated expiration: 2026-04-13
Also published as: CN1828608A

Abstract

本发明涉及一种基于句子关系图的多文档摘要方法，属于语言文字处理技术领域。现有的多文档摘要方法中，没有采用有效的措施保持摘要中句子的新颖性，也没有区分句子之间不同类型的关系，只简单利用了句子的自身内容来计算句子之间的关系，没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构，利用句子关系的扩散特性计算句子之间的真实语义关系，同时，区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法，扩展了基于图结构的摘要方法，在抽取句子的过程中既考虑句子的信息丰富程度，又考虑其新颖程度，在实际评测中取得了很好的效果。

Description

一种基于句子关系图的多文档摘要方法

技术领域

本发明属于语言文字处理及信息检索技术领域，具体涉及一种基于句子关系图的多文档摘要方法。

背景技术

多文档摘要是自然语言处理领域的一个核心问题，近年来被广泛应用于文本/网站(Web)内容检索等应用中。例如，Google、百度等搜索引擎都提供了新闻服务，通过采集网络上的新闻信息形成多个新闻专题，为了方便用户浏览感兴趣的新闻专题，需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。

多文档摘要的困难在于不同文档中包含的信息存在很大程度的重复和冗余，因此一个好的多文档摘要方法要能有效地融合不同文档中的有效信息，即既要使生成的文档摘要保留原文档中的主要信息，又要使文档摘要中的信息保持一定的新颖性。近年来，多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题，其研究进展反映在一系列关于自动文档摘要的学术会议上，包括NTCIR，DUC以及ACL，COLING和SIGIR.

概括来说，多文档摘要的方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用，不需要利用深层的自然语言理解技术；该方法在对文本进行分句之后，对每个句子赋予一定权重，反映其重要性，然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术，在对原文档进行句法、语义分析之后，利用信息抽取或自然语言生成技术产生新的句子，从而形成摘要。

目前大部分多文档摘要的方法都是基于句子抽取技术，现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarizationof multiple documents(该文作者是：D.R.Radev，H.Y.Jing，M.Stysand D.Tam，发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法，该方法是目前比较流行的一种基于句子抽取的摘要方法，MEAD是利用该方法实现的一个原型摘要系统，它在赋予句子权重的过程中，综合考虑了句子级以及句子之间的特征，包括类簇中心点，句子位置，TF*IDF等。文章From Single toMulti-document Summarization：A Prototype System and its Evaluation(作者：C.-Y.Lin and E.H.Hovy，发表于2002年出版的期刊：Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02)，)公开了一种名为NeATS的句子抽取系统，该系统是ISI开发的一个多文档摘要系统，它源于单文档摘要系统-SUMMARIST，该系统选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征，同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者：H.Ha rdy，N.Shimizu，T.Strzalkowski，L.Ting，G.B.Wise，and X.Zhang，发表于2003年出版的期刊：Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统，该系统适合为大规模的文档集生成摘要，它首先通过段落聚类检测出文档集中最重要的主题，然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu，发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法，该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。

基于图结构的方法也被用来对句子的重要性进行排序，文章Summarizing Similarities and Differences Among Related Documents(作者：I.Mani and E.Bloedorn，发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法，该方法利用图连接模型，根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRank：prestige in multi-document textsummarization(作者：G.Erkan and D.Radev，发表于2004年出版的期刊：Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法，该方法首先构建句子连接矩阵，然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithm for single and multipledocument summarization(作者：R.Mihalcea and P.Tarau，发表于2005年出版的期刊：Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法，该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。

以上基于图结构的方法没有采用有效的措施保持摘要中句子的新颖性。同时，上述基于图结构的方法没有区分句子之间不同类型的关系，这些不同类型的关系对句子重要性的计算具有不同的贡献。最后，现有的上述方法只简单利用了句子的自身内容来计算句子之间的关系，没有考虑句子之间关系具有可扩散的特性。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提供一种基于句子关系图的多文档摘要方法，该方法能够实现在抽取句子的过程中既能考虑句子的信息丰富程度，又能考虑其新颖程度，从而为多个文档形成更好的摘要。

为达到以上目的，本发明采用的技术方案是：一种基于句子关系图的多文档摘要方法，包括以下步骤：

(1)读入文档，对每个文档分句，并对句子集合S构建句子关系图；

(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度(Information Richness)；

(3)对上述句子进行差异性惩罚，得到每个句子的最终权重值；

(4)选择权重值大的句子形成摘要。

进一步，为使本发明获得更好的发明效果，步骤(1)中对句子集合S构建句子关系图时，具体方法如下：

1)构建初始句子关系图；

对S中任意两个句子s_i和s_j利用下列余弦公式计算相似度值：

aff (s_{i}, s_{j}) = \cos ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{s}}_{j}) = \frac{{\overset{&RightArrow;}{s}}_{i} \cdot {\overset{&RightArrow;}{s}}_{j}}{| | {\overset{&RightArrow;}{s}}_{i} | | \cdot | | {\overset{&RightArrow;}{s}}_{j} | |} - - - (1)

其中

和

分别表示句子s_i和s_j对应的句子向量，

和

分别表示句子向量

和的模，也就是向量的长度。每个句子向量的每一维为句子中的一个词，词t_j权重为tf_ij*isf_j，tf_ij为词t_j在句子s_i中的频率，isf_j为词t_j的倒排句子频率，也就是1+log(N/n_i)，其中N是句子集合中句子的数量，n_i是包含词t_j的句子的数量；

如果aff(s_i，s_j)＞aff_t，那么在s_i和s_j之间建立一条连接，也就是在图中s_i和s_j之间添加一条边，是一个阈值aff_t；

得到的初始句子关系图的邻接矩阵为M＝(M_i，j)_n×n定义如下：

(M_i，j)_n×n表示邻接矩阵M是n行n列的方阵，其中M_i，j表示矩阵M中第i行第j列的元素，i、j均为正整数，1≤i，j≤n，n为句子集合中句子的数量；

2)句子关系扩散；

3)区分文档内句子关系和文档间句子关系。

再进一步，为使本发明获得更好的发明效果，步骤1)中阈值aff_t设为0.01；

再进一步，为使本发明获得更好的发明效果，步骤2)中句子关系扩散时，采用如下方法，从而得到接近真实语义的句子关系图：

对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下：

\hat{M} = Σ_{t = 1}^{\infty} γ^{t - 1} M^{t} - - - (3)

其中γ(0＜γ＜1)是衰减因子；M^t是步骤1)得到的邻接矩阵M的t次幂矩阵，其中t为正整数。

矩阵经过如下规范化使得每一行元素值之和为1，得到新的邻接矩阵

其中，

表示邻接矩阵

是n行n列的方阵，表示矩阵

中第i行第j列的元素，i、j均为正整数，1≤i，j≤n。

更进一步，为使本发明获得更好的发明效果，步骤2)中句子关系扩散时，衰减因子γ设为0.9。

更进一步，为使本发明获得更好的发明效果，步骤2)中句子关系扩散时，为加快运算速度，t设定为5。

再进一步，为使本发明获得更好的发明效果，步骤3)中区分文档内句子关系和文档间句子关系时，采用如下方法，分别赋予文档内句子关系和文档间句子关系不同的贡献权重：

首先将根据(4)式得到的矩阵

进行如下分解

其中

为仅包含文档内句子关系的邻接矩阵，也就是令文档间句子关系对应的元素为0；

为仅包含文档间句子关系的邻接矩阵，也就是令文档内句子关系对应的元素为0；两个属于同一文档的句子之间的链接关系称为文档内句子关系，而两个分属不同文档的句子之间的链接关系称为文档间句子关系。

对文档内句子关系和文档间句子关系进行区分，赋予不同的权重得到新的矩阵为：

其中α，β是区分文档内句子关系和文档间句子关系具有不同贡献的参数，令0≤α，β≤1，如果α＝β＝1，那么就没有区分这两种句子关系。

类似公式(4)，将矩阵

规范化到M使得每一行元素值之和为1。

更进一步，为使本发明获得更好的发明效果，步骤3)中区分文档内句子关系和文档间句子关系时，权重参数α，β分别设为0.3和1。

进一步，为使本发明获得更好的发明效果，步骤(2)中计算句子的信息丰富程度时，采用如下方法：

句子的信息丰富程度反映了该句子包含的主题信息的多少，在得到句子邻接矩阵M之后，利用如下的公式迭代计算每个句子s_i的信息丰富程度InfoRich(s_i)：

InfoRich (s_{i}) = d \cdot \underset{allj &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\overset{&OverBar;}{M}}_{j, i} + \frac{(1 - d)}{n} - - - (7)

其中公式(7)等号右边的I nfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(7)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度；d为阻尼因子，取值范围为0＜d＜1，通常设为0.85，n为正整数，表示句子数量。

上式用矩阵形式表示为：

\overset{&RightArrow;}{λ} = d {\overset{&OverBar;}{M}}^{T} \overset{&RightArrow;}{λ} + \frac{(1 - d)}{n} \overset{&RightArrow;}{e} - - - (8)

其中为一个n维向量，每一维表示一个句子的信息丰富程度，

是一个n维单位向量。

每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度，利用上式计算每个句子的新的信息丰富程度，直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止，或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。

上述公式(7)和(8)是基于以下四个假设来迭代计算句子的信息丰富程度：

(a)一个句子与越多的其他句子相邻接，这个句子包含的信息越丰富；

(b)与某个句子相邻接的其他句子所包含的信息越丰富，这个句子包含的信息也越丰富；

(c)一个句子与其他包含丰富信息的句子之间的连接边具有越大的权重，那么这个句子包含的信息越丰富；

(d)来自不同文档的句子邻接关系比来自同一文档德句子邻接关系对计算句子的信息丰富程度更重要。

再一步，为使本发明获得更好的发明效果，所述步骤(2)中设定句子的信息丰富程度的变化小于阈值时，阈值设定为0.0001。

进一步，为使本发明获得更好的发明效果，步骤(3)中对句子进行差异性惩罚时，采用贪心算法来对每个句子进行差异性惩罚，从而保证候选句子的新颖性，具体方法如下：

1)初始化两个集合A＝φ，B＝{s_i|i＝1，2，...，n}，每个句子的最终权重值初始化为其信息丰富程度，也就是说ARScore(s_i)＝InfoRich(s_i)，i＝1，2，...，n；

2)按照当前最终权重值降序排列B中的句子；

3)假定s_i是排名最高的句子，也就是序列中第一个句子，将s_i从B移到A，并且对B中每一个和s_i相邻接的句子s_j(j≠i)进行如下的差异性惩罚：

其中ω＞0是惩罚程度因子，ω越大，差异性惩罚越强，如果ω为0，那么就没有差异性惩罚。

4)循环执行步骤2)和步骤3)，直到B＝φ。

上述步骤中涉及的符号含义是：s_i与s_j表示集合B中的两个句子，s_i是集合B中当前排名最高的句子，s_j是集合B中不同于s_i的另一个句子，ARScore(s_i)表示句子s_i的最终权重，InfoRich(s_i)表示句子s_i的信息丰富程度，n为集合B中句子总数，为正整数，i为句子标号，为正整数，1≤i≤n；

表示句子邻接矩阵

的第j行、第i列对应的元素。

再一步，为使本发明获得更好的发明效果，步骤3)中公式(9)中所述的惩罚程度因子ω可以设定为7。

进一步，步骤(4)中，选择权重值最大的2-10个句子形成摘要。

本发明的效果在于：采用本发明所述的方法克服了现有技术中多文档摘要的缺点，扩展了基于图结构的摘要方法，在抽取句子的过程中既考虑了句子的信息丰富程度，又考虑了其新颖程度。

本发明之所以具有上述发明效果，是因为本发明综合考虑了句子的信息丰富程度和信息新颖程度，引入了句子关系扩散以得到更接近真实语义的句子关系图，同时，在计算句子信息丰富程度时区分了文档内句子关系和文档间句子关系，赋予文档间句子关系更大的贡献权重。

附图说明

图1是本发明所述方法的流程图；

图2是使用本发明提出的方法改善文档检索的示意图。

具体实施方式

下面结合实施例和附图进一步阐明本发明所述的方法：

如图1所示，一种基于句子关系图的多文档摘要方法，包括以下步骤：

对句子集合S构建句子关系图时，具体方法如下：

1)构建初始句子关系图；

对S中任意两个句子s_i和s_j利用下列余弦公式计算相似度值：

aff (s_{i}, s_{j}) = \cos ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{s}}_{j}) = \frac{{\overset{&RightArrow;}{s}}_{i} \cdot {\overset{&RightArrow;}{s}}_{j}}{| | {\overset{&RightArrow;}{s}}_{i} | | \cdot | | {\overset{&RightArrow;}{s}}_{j} | |} - - - (1)

其中

和

分别表示句子s_i和s_j对应的句子向量，

和

分别表示句子向量

和

的模，也就是向量的长度。每个句子向量的每一维为句子中的一个词，词t_j权重为tf_ij*isf_j，tf_ij为词t_j在句子s_i中的频率，isf_j为词t_j的倒排句子频率，也就是1+log(N/n_i)，其中N是句子集合中句子的数量，n_i是包含词t_j的句子的数量。

如果aff(s_i，s_j)＞aff_t，那么在s_i和s_j之间建立一条连接，也就是在图中s_i和s_j之间添加一条边，是一个阈值aff_t，本实施例中，阈值aff_t设为0.01。

2)句子关系扩散；

句子关系扩散时，本实施例中采用如下方法，从而得到接近真实语义的句子关系图：

对初始句子关系图的邻接矩阵M进行下式的关系扩散，得到的新邻接矩阵：

\hat{M} = Σ_{t = 1}^{\infty} γ^{t - 1} M^{t} - - - (3)

其中γ(0＜γ＜1)是衰减因子，本实施例中，设定γ为0.9。M^t是步骤a得到的邻接矩阵M的t次幂矩阵。

为加快运算速度，本实施例中，设定t为5。

矩阵

经过如下规范化使得每一行元素值之和为1，得到新的邻接矩阵

3)区分文档内句子关系和文档间句子关系：

首先将根据(4)式得到的矩阵

进行如下分解

其中为仅包含文档内句子关系的邻接矩阵，也就是令文档间句子关系对应的元素为0。为仅包含文档间句子关系的邻接矩阵，也就是令文档内句子关系对应的元素为0。两个属于同一文档的句子之间的链接关系称为文档内句子关系，而两个分属不同文档的句子之间的链接关系称为文档间句子关系。

其中α，β是区分文档内句子关系和文档间句子关系具有不同贡献的参数，令0≤α，β≤1，如果α＝β＝1，那么就没有区分这两种句子关系。本实施例令α，β分别设为0.3和1，表明文档间句子关系比文档内句子关系更重要。

类似(4)式，将矩阵

规范化到M使得每一行元素值之和为1。

(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度；

计算句子的信息丰富程度时，本实施例中采用如下方法：

InfoRich (s_{i}) = d \cdot \underset{allj &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\overset{&OverBar;}{M}}_{j, i} + \frac{(1 - d)}{n} - - - (7)

其中公式(7)等号右边的InfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(7)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度。d为阻尼因子，取值范围为0＜d＜1，本实施例中设为0.85，n为正整数，表示句子数量。

上式用矩阵形式表示为：

\overset{&RightArrow;}{λ} = d {\overset{&OverBar;}{M}}^{T} \overset{&RightArrow;}{λ} + \frac{(1 - d)}{n} \overset{&RightArrow;}{e} - - - (8)

其中

为一个n维向量，每一维表示一个句子的信息丰富程度，

是一个n维单位向量。

每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度，利用上式计算每个句子的新的信息丰富程度，直到所有句子的前后两次迭代计算得到的信息丰富程度的变化小于一定阈值算法为止，本实施例中，设定阈值为0.0001。

(3)对句子进行差异性惩罚，得到每个句子的最终权重值；

对句子进行差异性惩罚时，本实施例中采用贪心算法，从而得到每个句子的最终权重值，具体步骤如下：

1)初始化两个集合A＝φ，B＝{s_i|i＝1，2，...，n}，每个句子的最终权重值初始化为其信息丰富程度，也就是说ARScore(s_i)＝InfoRich(s_i)，i＝1，2，...n；

2)按照当前最终权重值降序排列B中的句子；

其中ω＞0是惩罚程度因子，本实施例中设为7。ω越大，差异性惩罚越强。如果ω为0，那么就没有差异性惩罚。

4)循环执行步骤2)和步骤3)，直到B＝φ。

上面差异性惩罚过程中步骤3)为关键步骤，基本思想是根据某个句子与信息最丰富的句子之间的信息冗余程度减少该句子的权重值。

(4)根据每个句子的最终权重值，选择权重值最大的若干个句子形成摘要。一般来说，选择2-10个句子形成摘要即可，本实施例中选择8个句子形成摘要。

如图2所示为使用本发明提出的方法改善文档检索的示意图。

为了验证本发明的有效性，采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002和DUC2004的多文档摘要评测任务，也就是DUC2002的第2个评测任务和DUC2004的第2个评测任务。DUC2002的多文档摘要任务提供了60个文档集，要求参评者提供100字以内长度的摘要，文档来源于TREC-9。DUC2004的多文档摘要任务提供了50个文档集，要求参评者提供665字节以内长度的摘要，文档来源为TDT-2。参评者提交的摘要将与人工摘要做对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法，包括三个评价指标ROUGE-1，ROUGE-2和ROUGE-W，ROUGE值越大，效果越好，ROUGE-1值是最主要的评价指标。本发明所述的方法和参评者之中表现最优异的五个系统以及两个基准系统作比较，实验结果分别如表1和表2所示：

表1：在DUC2002评测数据上的比较结果

表2：在DUC2004评测数据上的比较结果

实验结果表明，本发明所述的方法表现优异，在三个评价指标上都优于参评者的系统以及基准系统。

ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者：C.-Y.Lin and E.H.Hovy，发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种基于句子关系图的多文档摘要方法，包括以下步骤：

(4)选择权重值大的句子形成摘要。

2.如权利要求1所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤(1)中对句子集合S构建句子关系图时，包括以下步骤：

1)构建初始句子关系图；

对S中任意两个句子s_i和s_j利用下列余弦公式计算相似度值：

aff (s_{i}, s_{j}) = \cos ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{s}}_{j}) = \frac{{\overset{&RightArrow;}{s}}_{i} \cdot {\overset{&RightArrow;}{s}}_{j}}{| | {\overset{&RightArrow;}{s}}_{i} | | \cdot | | {\overset{&RightArrow;}{s}}_{j} | |} - - - (1)

其中

和

分别表示句子s_i和s_j对应的句子向量，

和

分别表示句子向量

和

的模，也就是向量的长度，每个句子向量的每一维为句子中的一个词，词t_j权重为tf_ij*isf_j，tf_ij为词t_j在句子s_i中的频率，isf_j为词t_j的倒排句子频率，也就是1+log(N/n_i)，其中N是句子集合中句子的数量，n_i是包含词t_j的句子的数量；

如果aff(s_i，s_j)＞aff_t，那么在s_i和s_j之间建立一条连接，也就是在图中s_i和s_j之间添加一条边，上述的aff_t是一个阈值；

2)句子关系扩散；

3)区分文档内句子关系和文档间句子关系。

3.如权利要求2所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤2)中句子关系扩散时，采用如下方法，从而得到接近真实语义的句子关系图：

\hat{M} = Σ_{t = 1}^{\infty} γ^{t - 1} M^{t} - - - (3)

其中γ是衰减因子，0＜γ＜1；M^t是步骤1)得到的邻接矩阵M的t次幂矩阵，其中t为正整数；

矩阵

其中，

表示邻接矩阵

是n行n列的方阵，表示矩阵

中第i行第j列的元素，i、j均为正整数，1≤i，j≤n。

4.如权利要求3所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤2)中句子关系扩散时，衰减因子γ设为0.9，t设定为5。

5.如权利要求3或4所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤3)中区分文档内句子关系和文档间句子关系时，采用如下方法，分别赋予文档内句子关系和文档间句子关系不同的贡献权重：

首先将根据(4)式得到的矩阵进行如下分解

其中

为仅包含文档间句子关系的邻接矩阵，也就是令文档内句子关系对应的元素为0；两个属于同一文档的句子之间的链接关系称为文档内句子关系，而两个分属不同文档的句子之间的链接关系称为文档间句子关系；

其中α，β是区分文档内句子关系和文档间句子关系具有不同贡献的参数，令0≤α，β≤1，如果α＝β＝1，那么就没有区分这两种句子关系；

类似公式(4)，将矩阵

规范化到M使得每一行元素值之和为1。

6.如权利要求5所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤3)中区分文档内句子关系和文档间句子关系时，权重参数α，β分别设为0.3和1。

7.如权利要求6所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤(2)中计算句子的信息丰富程度时，采用如下方法：

在得到句子邻接矩阵M之后，利用如下的公式迭代计算每个句子s_i的信息丰富程度InfoRich(s_i)：

InfoRich (s_{i}) = d \cdot \underset{allj &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\overset{&OverBar;}{M}}_{j, i} + \frac{(1 - d)}{n} - - - (7)

其中公式(7)等号右边的InfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(7)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度；d为阻尼因子，取值范围为0＜d＜1；n为正整数，表示句子数量；

上式用矩阵形式表示为：

\overset{&RightArrow;}{λ} = d {\overset{&OverBar;}{M}}^{T} \overset{&RightArrow;}{λ} + \frac{(1 - d)}{n} \overset{&RightArrow;}{e} - - - (8)

其中

为一个n维向量，每一维表示一个句子的信息丰富程度，

是一个n维单位向量；每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度，利用公式(7)计算每个句子的新的信息丰富程度，直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止，或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。

8.如权利要求7所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤(2)中阻尼因子d为0.85，设定句子的信息丰富程度的变化小于阈值时，阈值设定为0.0001。

9.如权利要求3所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤(3)中对句子进行差异性惩罚时，采用贪心算法来对每个句子进行差异性惩罚，具体包括以下步骤：

2)按照当前最终权重值降序排列B中的句子；

其中ω＞0是惩罚程度因子，ω越大，差异性惩罚越强；

4)循环执行步骤2)和步骤3)，直到B＝φ；

上述步骤中涉及的符号含义是：s_i与s_j表示集合B中的两个句子，s_i是集合B中当前排名最高的句子，s_j是集合B中不同于s_i的另一个句子，ARScore(s_i)表示句子s_i的最终权重，InfoRich(s_i)表示句子s_i的信息丰富程度，n为集合B中句子总数，为正整数，i为句子标号，为正整数，1≤i≤n。

10.如权利要求9所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤3)中公式(9)中所述的惩罚程度因子ω设定为7。

11.如权利要求1所述的一种基于句子关系图的多文档摘要方法，其特征在于：步骤(4)中，选择权重值最大的2-10个句子形成摘要。