CN1916904A

CN1916904A - 一种基于文档扩展的单文档摘要方法

Info

Publication number: CN1916904A
Application number: CN 200610112788
Authority: CN
Inventors: 万小军; 杨建武; 吴於茜; 陈晓鸥
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Priority date: 2006-09-01
Filing date: 2006-09-01
Publication date: 2007-02-21

Abstract

本发明涉及一种基于文档扩展的单文档摘要方法，属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如，目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法，该方法首先从文档集中找到与当前文档最相似的少数几篇文档，然后基于这些文档对当前文档中的句子进行全局重要性评价，进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法，改进了现有的基于图排列的单文档自动摘要方法，在实际评测中取得了比较好的效果。

Description

一种基于文档扩展的单文档摘要方法

技术领域

本发明属于语言文字处理及信息检索技术领域，具体涉及一种基于文档扩展的单文档摘要方法。

背景技术

单文档自动摘要指自动从给定文档中摘取精要或要点，其目的是通过对原文本进行压缩、提炼，为用户提供简明扼要的内容描述。单文档自动摘要是自然语言处理领域的核心问题之一，广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。

概括来说，多文档摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术，在对原文档进行句法、语义分析之后，利用信息抽取或自然语言生成技术产生新的句子，从而形成摘要。基于句子抽取的方法比较简单实用，不需要利用深层的自然语言理解技术；该方法在对文本进行分句之后，对每个句子赋予一定权重，反映其重要性，然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性，这个过程通常需要综合考虑句子的不同特征，例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术，现有文献中记载了多种关于单文档自动摘要的方法。

文章The automated acquisition of topic signatures for textSummarization(作者为C.-Y.Lin和E.Hovy，发表于2000年出版的论文集：Proceedings of ACL2000)描述了SUMMARIST系统，该系统利用主题签名(Topic Signature)来表示文档主题，一个主题签名由一个主题概念和若干相关词汇组成，然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexical chains(作者为H.G.Silber和K.McCoy，发表于2000年出版的论文集：Proceedings of the 5^thInternational Conference on Intelligent User Interfaces)先对文档进行分析，得到词汇链(Lexical Chain)，一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A.trainabledocument summarizer(作者为J.Kupiec，J.Pedersen和F.Chen，发表于1995年出版的论文集：Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题，利用贝叶斯分类器综合多种特征对句子进行选择。文章The use of MMR，diversity-based reranking forreordering documents and producing summaries(作者为Jaime Carbonell和Jade Goldstein，发表于1998年出版的论文集：Proceedings ofSIGIR1998)描述了最大边缘相关性(MMR)技术，常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic text summarization usingrelevanee measure and latent semantic analysis(作者为Y.H.Gong和X.Liu，发表于2001年出版的论文集：Proceedings of SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子，并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后，就从文档中去掉这个句子中包含的词，这样保证每次抽取句子的新颖性。此外，文章TextRank：bringing order into texts(作者为R.Mihalcea和P.Tarau，发表于2004年出版的论文集：Proceedings of EMNLP2004)和文章Alanguage independent algorithm for single and multiple documentsummarization(作者为R.Mihalcea和P.Tarau，发表于2005年出版的论文集：Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点，根据句子之间的相似关系建立连接，然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”，相邻的句子之间互相“选举”或“推荐”，一个句子获得的“选举”或“推荐”越多，该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。

以上单文档自动摘要方法都只利用了单篇文档自身的信息，没有利用其他相关文档的信息。现实中大量文档是主题相关的，具有信息冗余特性，一篇文档所反映的重要信息通常也被反映在跟这篇文档主题相似的多个其他文档中。

发明内容

针对现有单文档自动摘要技术中存在的缺陷，本发明的目的是提供一种基于文档扩展的单文档摘要方法，该方法能够利用重要信息在多个相似文档中冗余存在的特性更好地衡量待摘要文档中句子的重要性，从而为该文档生成更好的单文档摘要。

为达到以上目的，本发明采用的技术方案是：一种基于文档扩展的单文档摘要方法，包括以下步骤：

(1)给定某个待摘要文档d，从文档集D中找到与该文档最相似的k篇文档，k为正整数；

(2)读入这k+1篇文档，对每篇文档分句、分词，得到句子集合S＝{s₁，s₂，...，s_n}，n为句子集合S中所有句子的数量；然后对该句子集合S构建句子关系图G；

(3)基于步骤(2)得到的句子关系图G迭代计算每个句子的信息丰富程度；

(4)对文档d中的句子进行文档内差异性惩罚，得到文档d中每个句子的最终权重值；

(5)根据文档d中每个句子的最终权重值，选择权重值大的句子形成摘要。

进一步，为使本发明获得更好的发明效果，步骤(1)为给定文档d从文档集D中查找与该文档最相似的k篇文档时，具体方法为基于文档搜索引擎以文档d作为查询，从文档集中检索出与d最相似的k篇文档。通常检索函数为常用的余弦相似度计算公式，词权重的计算采用典型的tf*idf计算方法，其中tf为词在文档中的频率，idf为词的倒排文档频率。为确保能够检索到与给定文档相似的文档，文档集应尽可能与待摘要文档属于同一领域(例如娱乐或体育等)。

再一步，为使本发明获得更好的发明效果，所述步骤(1)中给定文档d从文档集D中查找与该文档最相似的k篇文档时，k的范围通常为5-15。

进一步，为使本发明获得更好的发明效果，步骤(2)对得到的k+1篇文档(包括给定文档d)对应的句子集合S构建句子关系图G的步骤如下：

对S中任意两个不同的句子s_i和s_j利用下列余弦公式计算相似度值：

sim (s_{i,} s_{j}) = \cos ({\overset{ρ}{s}}_{i}, {\overset{ρ}{s}}_{j}) = \frac{{\overset{ρ}{s}}_{i} \cdot {\overset{ρ}{s}}_{j}}{| | {\overset{ρ}{s}}_{i} | | \cdot | | {\overset{ρ}{s}}_{j} | |} - - - (1)

其中，1≤i，j≤n，i≠j，每个句子向量的每一维为句子中的一个词，词t权重为tf_t*isf_t，tf_t为词t在句子中的频率，isf_t为词t的倒排句子频率，也就是1+log(N/n_t)，其中N是背景文档集合中所有句子的数量，n_t是其中包含词t的句子的数量，所述的背景文档集合通常比较大，使得计算出来的isf值更为准确。

如果sim(s_i，s_j)＞0，那么在s_i和s_j之间建立一条连接，也就是在图G中s_i和s_j之间添加一条边；

得到的图G的邻接矩阵为M＝(M_i，j)_n×n定义如下：

矩阵M经过如下规范化使得每一行元素值之和为1，得到新的邻接矩阵

进一步，为使本发明获得更好的发明效果，步骤(3)中根据图G迭代计算句子的信息丰富程度时，采用如下方法：

句子的信息丰富程度反映了该句子包含的主题信息的多少，在得到句子邻接矩阵

之后，利用如下的公式迭代计算句子集合S中每个句子s_i的信息丰富程度InfoRich(s_i)：

InfoRich (s_{i}) = d \cdot \underset{all j &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\tilde{M}}_{j, i} + \frac{(1 - d)}{n} - - - (4)

其中公式(4)等号右边的InfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(4)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度；d为阻尼因子，通常设为0.85。

上式用矩阵形式表示为：

\overset{ρ}{λ} = d {\tilde{M}}^{T} \overset{ρ}{λ} + \frac{(1 - d)}{n} \overset{ρ}{e} - - - (5)

其中为一个n维向量，每一维表示一个句子的信息丰富程度，上标T表示矩阵的转置，

是一个n维单位向量。

每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度，利用上式计算每个句子的新的信息丰富程度，直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止，或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。

再一步，为使本发明获得更好的发明效果，所述步骤(3)中设定句子的信息丰富程度的变化小于阈值时，所述阈值设定为0.0001。

进一步，为使本发明获得更好的发明效果，步骤(4)中对文档d中的句子进行文档内差异性惩罚，从而保证候选句子的新颖性的具体方法如下：

1)令待摘要文档d对应的句子集合为S_d，句子个数为m(m＜n)，令该文档对应的局部句子关系图为G_d，其中的顶点集合为s_dk，邻接矩阵M_d＝(M_d)_m×m可从步骤(2)所得到的句子关系图G对应的邻接矩阵M中抽取相对应的元素得到，也就是如果文档d中的两个句子在局部关系图G_d中的表示为s_i和s_j，在句子关系图G中表示为s_i′和s_j′，那么有(M_d)_i，j＝M_i′，j′。然后将M_d规范化到M_d使得每一行元素值之和为1。

2)对文档d初始化两个集合A＝φ，B＝{s_i|i＝1，2，...，m}，B包括文档d中的所有句子。每个句子的最终权重值初始化为其信息丰富程度，也就是说ARScore(s_i)＝InfoRich(s_i)，i＝1，2，...m；

3)按照当前最终权重值降序排列B中的句子；

4)假定s_i是排名最高的句子，也就是序列中第一个句子，将s_i从B移到A，并且对B中每一个和s_i相邻接的句子s_j(j≠i)进行如下的差异性惩罚：

ARScore (s_{j}) = ARScore (s_{j}) - {({\tilde{M}}_{d})}_{j, i} \cdot InfoRich (s_{i}) - - - (6)

5)循环执行步骤3)和步骤4)，直到B＝φ。

根据上述步骤得到的文档d中每个句子的最终权重值综合反映了该句子的信息丰富程度和信息新颖程度。

进一步，步骤(4)中，选择权重值最大的2-10个句子形成摘要。

本发明的效果在于：采用本发明所述的方法克服了现有单文档摘要方法没有考虑相似文档间信息冗余特性的缺点，能够从单文档中抽取真正重要的句子。

本发明之所以具有上述发明效果，是因为本发明在基于句子关系的文档摘要框架内，利用相似文档之间的句子关系进行单文档摘要，充分利用相似文档之间句子的“选举”或“推荐”来评价句子的重要性。这主要是由于相似文档中具有的信息冗余特性，也就是说，给定的待摘要的文档中所包含的重要信息一般会被跟该文档相似的其他文档所包含。

附图说明

图1是本发明所述方法的流程图。

具体实施方式

下面结合实施例和附图进一步阐明本发明所述的方法：

如图1所示，一种基于文档扩展的单文档摘要方法，包括以下步骤：

(1)给定某个待摘要文档d，从文档集D中找到与该文档最相似的k篇文档；

为给定文档d从文档集D中查找与该文档最相似的k篇文档时，具体方法为基于文档搜索引擎以文档d作为查询，从文档集中检索出与d最相似的k篇文档。本实施例检索函数为常用的余弦相似度计算公式，词权重的计算采用典型的tf*idf计算方法，其中tf为词在文档中的频率，idf为词的倒排文档频率。为确保能够检索到与给定文档相似的文档，本实施例中文档集中的文档属于同一领域(例如娱乐或体育等)。

k的取值范围一般为5-15，本实施例中设为10。

(2)读入这k+1篇文档，对每篇文档分句、分词，得到句子集合S＝{s₁，s₂，...，s_n}，n为这k+1篇文档中所有句子的数量；然后对该句子集合构建句子关系图G；

对得到的k+1篇文档(包括给定文档d)对应的句子集合S构建句子关系图G的步骤如下：

sim (s_{i,} s_{j}) = \cos ({\overset{ρ}{s}}_{i}, {\overset{ρ}{s}}_{j}) = \frac{{\overset{ρ}{s}}_{i} \cdot {\overset{ρ}{s}}_{j}}{| | {\overset{ρ}{s}}_{i} | | \cdot | | {\overset{ρ}{s}}_{j} | |} - - - (1)

其中每个句子向量的每一维为句子中的一个词，词t权重为tf_t*isf_t，tf_t为词t在句子中的频率，isf_t为词t的倒排句子频率，也就是1+log(N/n_t)，其中N是背景文档集合中所有句子的数量，n_t是其中包含词t的句子的数量，背景文档集合通常较大；

得到的图G的邻接矩阵为M＝(M_i，j)_n×n定义如下：

根据图G迭代计算句子的信息丰富程度时，本实施例采用如下方法：

InfoRich (s_{i}) = d \cdot \underset{all j &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\tilde{M}}_{j, i} + \frac{(1 - d)}{n} - - - (4)

其中公式(4)等号右边的InfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(4)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度；d为阻尼因子，本实施例中设为0.85。

上式用矩阵形式表示为：

\overset{ρ}{λ} = d {\tilde{M}}^{T} \overset{ρ}{λ} + \frac{(1 - d)}{n} \overset{ρ}{e} - - - (5)

其中

为一个n维向量，每一维表示一个句子的信息丰富程度，上标T表示矩阵的转置，是一个n维单位向量。

每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度，利用上式计算每个句子的新的信息丰富程度，直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止，或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。本实施例中，阈值设定为0.0001。

(4)对文档d中的句子进行文档内差异性惩罚，得到该文档中每个句子的最终权重值；

对文档d中的句子进行文档内差异性惩罚，从而保证候选句子的新颖性的具体方法如下：

1)令待摘要文档d对应的句子集合为S_d，句子个数为m(m＜n)，令该文档对应的局部句子关系图为G_d，其中的顶点集合为s_dk，邻接矩阵M_d＝(M_d)_m×m可从步骤(2)所得到的句子关系图G对应的邻接矩阵M中抽取相对应的元素得到，也就是如果文档d中的两个句子在局部关系图G_d中的表示为s_i和s_j，在句子关系图G中表示为s_i′和s_i′，那么有(M_d)_i，j＝M_i′，j′。然后将M_d规范化到M_d使得每一行元素值之和为1。

3)按照当前最终权重值降序排列B中的句子；

ARScore (s_{j}) = ARScore (s_{j}) - {({\tilde{M}}_{d})}_{j, i} \cdot InfoRich (s_{i}) - - - (6)

5)循环执行步骤3)和步骤4)，直到B＝φ。

(5)根据文档d中每个句子的最终权重值，选择权重值最大的若干个句子形成摘要。一般来说，选择2-10个句子形成摘要即可，本实施例中选择8个句子形成摘要。

为了验证本发明的有效性，采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002的单文档摘要评测任务，也就是DUC2002的第1个评测任务。DUC2002的单文档摘要任务提供了567篇文档，要求参评者为每篇文档提供100字以内长度的摘要，文档来源于TREC-9。参评者提交的摘要将与人工摘要进行对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法，包括三个评价指标ROUGE-1，ROUGE-2和ROUGE-W，ROUGE值越大，效果越好，ROUGE-1值是最主要的评价指标。本发明对于给定的待摘要文档，从这567篇文档组成的文档集中搜索与该文档最相似的k篇文档(不包括文档自身)。本发明所述的方法和不考虑相似文档信息冗余特性的图排列方法进行比较，实验结果如表1所示。表中给出了k取值从5到15的11个实施例的结果。

表1：在DUC2002评测数据上的比较结果

系统	ROUGE-1	ROUGE-2	ROUGE-W
系统	ROUGE-1	ROUGE-2	ROUGE-W	本发明(k＝5)本发明(k＝6)本发明(k＝7)本发明(k＝8)本发明(k＝9)本发明(k＝10)本发明(k＝11)本发明(k＝12)本发明(k＝13)本发明(k＝14)本发明(k＝15)传统图排列方法	0.466310.467820.468380.470030.465750.471030.470620.468010.470020.469320.469360.46248	0.195790.196030.197280.199670.196000.200930.199930.199110.200000.200760.200600.19452	0.161110.161850.161810.162500.160790.163010.162630.161850.162670.162430.162540.16021

实验结果表明，本发明所述的方法在k取值5-15之间的任意值时，表现都比较优异，在三个评价指标上都优于只利用单篇文档信息的摘要方法。

ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者：C.-Y.Lin and E.H.Hovy，发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))

本发明所述的方法并不限于具体实施方式中所述的实施例，步骤(1)中从文档集中找到与给定文档d最相似的k篇文档时所采用的检索方法不仅仅局限于余弦公式，还包括信息检索系统中常用的BM25模型、语言模型等。步骤(2)中计算句子之间的相似度值的方法不仅仅局限于余弦公式，还包括accard公式，Dice公式，Overlap公式等其他相似度计算方法。步骤(3)中计算每个句子的信息丰富程度的方法也可以采用其他的方法，如传统的直接按照句子所包含的关键词的重要性对句子打分的方法等。步骤(4)中计算该文档中每个句子的最终权重值也可以采用其他的方法，如最大边缘相关(MMR)技术等。本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种基于文档扩展的单文档摘要方法，包括以下步骤：

2.如权利要求1所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(1)为给定文档d从文档集D中查找与该文档最相似的k篇文档时，具体方法为基于文档搜索引擎以文档d作为查询，从文档集中检索出与d最相似的k篇文档，检索函数为余弦相似度计算公式，词权重的计算采用典型的tf*idf计算方法，其中tf为词在文档中的频率，idf为词的倒排文档频率。

3.如权利要求2所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(1)中，k取值范围为5-15。

4.如权利要求1、2或3所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(2)对得到的k+1篇文档对应的句子集合S构建句子关系图G的步骤如下：

sim (s_{i}, s_{j}) = \cos ({\overset{ρ}{s}}_{i}, {\overset{ρ}{s}}_{j}) = \frac{{\overset{ρ}{s}}_{i} \cdot {\overset{ρ}{s}}_{j}}{| | {\overset{ρ}{s}}_{i} | | \cdot | | {\overset{ρ}{s}}_{j} | |} - - - (1)

其中1≤i，j≤n，i≠j，每个句子向量的每一维为句子中的一个词，词t权重为tf_t*isf_t，tf_t为词t在句子中的频率，isf_t为词t的倒排句子频率，也就是1+log(N/n_t)，其中N是背景文档集合中所有句子的数量，n_t是其中包含词t的句子的数量；

得到的图G的邻接矩阵为M＝(M_i，j)_n×n定义如下：

5.如权利要求4所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(3)根据图G迭代计算句子的信息丰富程度时，采用如下方法：

在得到句子邻接矩阵之后，利用如下的公式迭代计算句子集合S中每个句子s_i的信息丰富程度InfoRich(s_i)：

InfoRich (s_{i}) = d \cdot \underset{allj &NotEqual; i}{Σ} InfoRich (s_{j}) \cdot {\tilde{M}}_{j, i} + \frac{(1 - d)}{n} - - - (4)

其中公式(4)等号右边的InfoRich(s_j)表示经过上次迭代过程计算得到的句子s_j的信息丰富程度，而公式(4)等号左边的InfoRich(s_i)则表示当前得到的句子s_i的新的信息丰富程度，d为阻尼因子；

上式用矩阵形式表示为：

\overset{ρ}{λ} = d {\tilde{M}}^{T} \overset{ρ}{λ} + \frac{(1 - d)}{n} \overset{ρ}{e} - - - (5)

是一个n维单位向量；

6.如权利要求5所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(3)中阻尼因子d为0.85，设定句子的信息丰富程度的变化小于阈值时，所述阈值设定为0.0001。

7.如权利要求6所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(4)中对文档d中的句子进行文档内差异性惩罚，从而保证候选句子的新颖性的具体方法如下：

1)令待摘要文档d对应的句子集合为S_d，句子个数为m，m＜n，今该文档对应的局部句子关系图为G_d，其中的顶点集合为S_dk，邻接矩阵M_d＝(M_d)_m×m可从步骤(2)所得到的句子关系图G对应的邻接矩阵M中抽取相对应的元素得到，也就是如果文档d中的两个句子在局部关系图G_d中的表示为s_i和s_j，在句子关系图G中表示为s_i′和s_j′，那么有(M_d)_i，j＝M_i′，j′，然后将M_d规范化到使得每一行元素值之和为1；

2)对文档d初始化两个集合A＝φ，B＝{s_i|i＝1，2，...，m}，B包括文档d中的所有句子，每个句子的最终权重值初始化为其信息丰富程度，也就是说ARScore(s_i)＝InfoRich(s_i)，i＝1，2，...m；

3)按照当前最终权重值降序排列B中的句子；

4)假定s_i是排名最高的句子，也就是序列中第一个句子，将s_i从B移到A，并且对B中每一个和s_i相邻接的句子s_j进行如下的差异性惩罚，j≠i：

ARScore (s_{j}) = ARScore (s_{j}) - {({\tilde{M}}_{d})}_{j, i} \cdot InfoRich (s_{i}) - - - (6)

5)循环执行步骤3)和步骤4)，直到B＝φ。

8.如权利要求1、2或3所述的一种基于文档扩展的单文档摘要方法，其特征在于：步骤(5)中，选择权重值最大的2-10个句子形成摘要。