CN101231634B

CN101231634B - 一种多文档自动文摘方法

Info

Publication number: CN101231634B
Application number: CN2007103085162A
Authority: CN
Inventors: 张瑾; 许洪波; 王小磊
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-12-29
Filing date: 2007-12-29
Publication date: 2011-05-04
Anticipated expiration: 2027-12-29
Also published as: CN101231634A

Abstract

本发明公开了一种利用图划分方法来自动提取多文档文摘的方法，包括以下步骤：进行句子边界切分，把文档用切分出来的句子表示；将句子表示成向量，计算句子两两间的相似度构成句子关联矩阵，并按指定的阈值对关联矩阵进行约简，同时进行规范化处理；在多文档文摘中引入主题的隐性逻辑结构的挖掘，将文档集按主题划分成不同的隐性子主题，从而把文摘任务转化为对子主题的选取和抽取过程；利用图划分的方法，既从全局特性上保证句子所在子主题的重要度，又从局部特性上保证不同子主题之间内容的低冗余性，从而有效提高了文摘质量。

Description

一种多文档自动文摘方法

技术领域

本发明涉及信息处理领域，进一步地，涉及到一种多文档自动文摘方法。

背景技术

随着时代的进步和经济的发展，人们日常生活中对信息的需求量越来越大，尤其是随着互联网的日益普及，每天都有海量的信息在互联网上发布和传播。以中国互联网的发展为例，根据北大天网提供的搜索结果，2005年底中国的网页总数约为10.8亿个，另据CNNIC的统计，截至2007年3月底，中国WAP网页数量约为2.6亿，网页字节数约为800GB。网页规模急剧增长的互联网，在为人们提供更加丰富的信息服务的同时，也给人们带来了如何高速有效获取有用信息的困惑。以搜索引擎为代表的信息检索技术可以根据用户的需求从海量信息中找出一批相关网页，提高了信息获取的效率。但这种方法很大程度上依赖于对于用户查询的准确理解以及查询结果的排序策略，同时在返回的查询结果的基础上还需要用户自己逐个网页查看以获取真正想要的信息，在用户查询意图不明确时难以做到准确高效，另外受搜索引擎采集和存储能力的影响，很难保证无信息的遗漏。在信息极大丰富的情况下，人们迫切需要取代获取相关信息、直接获取有用信息甚至最有价值信息的方法，以进一步减轻信息获取的工作量。多文档自动文摘技术可以在未给定先验知识的条件下对大量未知信息进行大意概括以帮助人们快速了解信息内容，可以在用户查询意图不明确时对杂乱的检索结果进行自动摘要以辅助人们加快查找速度，从而大大减轻了信息获取的代价，进一步提高了信息获取效率。多文档自动文摘方法在信息融合、信息检索、在线问答、移动内容服务和互联网内容安全等许多领域都具有重要价值和良好的应用前景。人工生成摘要信息的方法在针对单篇文档时比较有效，但由于代价昂贵，在面对大量文档时显得无能为力。通过机器学习和人工智能的方法，从多篇文档中自动进行重要信息的提取并形成多文档文摘，成为重要信息高效获取的最为现实而有效的技术手段。

目前的自动文摘技术主要是基于句子级的内容分析与抽取，即从原始的文档(或文档集)中抽取一些关键的句子组成文摘，主要的文摘算法可以概括为以下三类：

基于机器学习的文摘方法。该方法在向量空间模型的基础上利用分类、聚类等机器学习方法将句子划分为不同的类别，再从每个类别中抽取出最重要的句子来构成文摘。这种方法不受应用领域的限制，但受模型和机器学习方法的限制，往往算法精度有限。

搜索式的文摘方法。该方法借助文本搜索领域的算法，针对文摘任务的特点，对所有句子构造一种特殊的查询结果排序策略，再根据文摘长度要求选取排在前面的若干句子构成文摘。这种方法不用单独去构造句子所在的类别信息，但受查询结果排序策略的影响很大。

基于图排列的文摘方法。该方法先利用聚类算法把文档集划分为不同类别，再借助图模型对不同类别的文档集进行建模，通过对同一类别中句子间关联关系分析，计算出此类别中权重最大的句子作为最重要的句子，这些重要句子组成文摘。这种方法与基于机器学习的文摘方法相比能够更好的进行重要句的选取，但文摘性能往往取决于聚类算法的性能。

综上所述，现有技术中自动提取文摘的能力，受各种不同因素限制，精度难以保证。

发明内容

本发明的目的是提供一种多文档自动文摘的方法，即能够有效地进行句子类别信息的区分，又能从中抽取最重要句子，从而得到一种精度高、推广性好的多文档自动文摘方法。

为实现上述目的，根据本发明的一个方面，提供了一种多文档自动文摘方法，包括以下步骤：

1)把文档集进行句子边界切分，用向量空间模型表示句子；

2)计算句子向量间的距离构成句子关联矩阵；

3)根据句子关联矩阵计算初始句子权重向量，根据初始句子权重向量，选取权重最大的结点，把此结点所对应的句子作为候选文摘句，从句子关联矩阵中划分出对应的句子所代表子主题所在的子矩阵，更新句子关联矩阵；

4)重复步骤3)，完成文摘。

根据本发明的另一方面，上述步骤3)中根据所述初始句子权重向量，选取权重最大的结点包含步骤：

根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型，根据句子权重调整模型，选取当前权重最大的结点。

根据本发明的又一方面，上述根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤：

a)首先计算句子对主题的贡献度；

b)对句子在文档中的位置进行分类，学习训练语料，得到句子位置偏好性概率的分布；

c)对初始句子权重向量、句子对主题的贡献度按线性模型进行加权，对句子位置偏好性概率按乘积进行加权，得到句子权重调整模型。

根据本发明的又一方面，上述步骤a)计算所述句子对主题的贡献度包含计算句子与主题的相似度和句子所在文档与主题的相似度。

根据本发明的又一方面，上述步骤4)包含：

根据初始句子权重向量计算调整的句子权重向量；

然后从调整的句子权重向量中选取具有最大权重的结点，把此结点所对应的句子作为候选文摘句；

利用图划分的方法，从句子关联矩阵中划分出与具有最大权重的结点关系密切的结点，共同构成一个子主题；

从句子关联矩阵中删除子主题中所有结点的连边。

根据本发明的另一方面，还提供了另一种多文档自动文摘方法，包括下列步骤：

1)把文档集进行句子边界切分，用向量空间模型表示句子；

2)计算句子向量间的距离构成句子关联矩阵，对所述句子关联矩阵进行规范化，形成句子关系图；

3)根据所述句子关系图计算初始句子权重向量，根据所述初始句子权重向量，选取权重最大的结点，把此结点所对应的句子作为候选文摘句，从所述句子关系图中划分出所述对应的句子所代表子主题所在的子图，更新句子关系图；

4)重复步骤3)，完成文摘。

在该方法中，所述步骤3)中根据所述初始句子权重向量，选取权重最大的结点包含步骤：

根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型，根据所述句子权重调整模型，选取当前权重最大的结点。

在该方法中，所述步骤2)中对所述句子关联矩阵进行规范化包含步骤：对所述句子关联矩阵根据阈值进行约简，然后对约简后的矩阵进行规范化。

本发明所述方法与现有技术相比，具有以下效果：

在借助图模型进行最重要句子抽取的同时利用图的划分方法进行文档中类别信息的有效区分，提高了多文档自动文摘的精度。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1是本发明方法的流程图。

图2是本发明的句子位置特征概率分布实例图。

图3是本发明方法的图划分过程示意图。

具体实施方式

本发明的核心思想在于，在多文档文摘中引入句子关系图模型和主题-子主题的隐性逻辑结构的挖掘，把文摘问题转换为一个子主题查找和子图划分的迭代过程。图1绘制了根据本发明的一个较佳实施例的多文档文摘方法的流程图。

下面结合附图1对本发明的具体实施方式进行详细说明。

如附图1步骤101所示，读入所需的文档集，利用句子边界检测方法把文档用切分出来的句子集合表示，再进行中文分词/去停用词和西文还原/去停用词操作，用向量空间模型表示句子。

如附图1步骤102所示，计算句子两两之间的距离，这里采用下面的cosine公式来度量任意两个句子s_i和s_j之间的距离

Figure DEST_PATH_GA20172113200710308516201D00031

dist (\overset{&OverBar;}{s_{i}}, \overset{&OverBar;}{s_{j}}) = 1.0 - \cos ine (\overset{&OverBar;}{s_{i}}, \overset{&OverBar;}{s_{j}}) = 1.0 - \frac{\overset{&OverBar;}{s_{i}} \cdot \overset{&OverBar;}{s_{j}}}{| | \overset{&OverBar;}{s_{i}} | | \cdot | | \overset{&OverBar;}{s_{j}} | |} - - - (1)

其中

Figure DEST_PATH_GA20172113200710308516201D00033

是两个句子对应的词向量表示，词向量中每个词的权重可以依据tf*isf公式计算得到，tf是句子中词的出现频次，isf＝log(1.0+N/SF)，SF是出现该词的句子总数，N是所有句子数；

Figure DEST_PATH_GA20172113200710308516201D00034

是句子向量

的范数。根据句子距离可以得到句子关联矩阵。

可以依据某一阈值ξ对得到的句子关联矩阵按以下规则进行约简：

r_{ij} = \{\begin{matrix} 0 & dist (\overset{&RightArrow;}{s_{i}}, \overset{&RightArrow;}{s_{j}}) > ξ \\ 1 & dist (\overset{&RightArrow;}{s_{i}}, \overset{&RightArrow;}{s_{j}}) \leq ξ \end{matrix} - - - (2)

其中，r_ij是关联矩阵中第i行第j列的值，本实施例中0＜ξ＜0.5。然后可以对约简后的矩阵按行进行规范化，以规范化后的r_ij′表示两结点(句子S_i，S_j)之间的距离，构建出句子关系图。

如图1步骤103所示，根据句子关联矩阵或句子关系图，采用特征值求解方法，例如幂解法(Power Method)，求解句子的初始权重向量

l {(\overset{&RightArrow;}{s})}_{i} = \{\begin{matrix} U & i = 0 \\ B^{T} \cdot l {(\overset{&RightArrow;}{s})}_{i - 1} & i > = 1 \end{matrix}

其中：

| l {(\overset{&RightArrow;}{s})}_{i + 1} - l {(\overset{&RightArrow;}{s})}_{i} | \leq ζ, (i &GreaterEqual; 1) - - - (3)

其中，

代表第i次迭代后的向量，U表示所有元素为1/N的向量，B为句子关联矩阵或句子关系图，ζ为的收敛阈值，其取值范围为(0.6，1.0)，收敛时的

即为句子初始权重向量。

如附图1步骤104所示，初始权重向量没有考虑主题偏向性和摘要选取主观性因素。因此，本发明引入了句子权重调整模型。首先计算句子对主题的贡献度，即利用cosine公式分别计算每个句子与主题的相似度以及句子所在文档与主题的相似度，其中针对主题无关与主题相关的文摘任务的不同，主题可以定义为多档集的中心或是用户指定的某个特定主题或查询主题；为了挖掘人工文摘对长度和句式，特别是句子在文档中的位置方面的偏好性，本发明对句子在文档中的位置进行了如下表1的分类，然后采用概率模型拟合人工摘要选取的偏好性，在给定的训练语料上，对长度、位置和句式特征进行监督学习得到相应的概率分布。最后，为了综合考虑这两类因素对句子重要度度量的影响，本发明对图模型中受词特征影响的部分按线性模型进行加权，而对受主观偏好影响的部分在独立性假设的前提下用乘积形式进行加权，从而得到句子权重调整模型：

A＝[α₁，…，α_i，…，α_n]

其中：

α_{i} = [l ({\overset{&RightArrow;}{s}}_{i}) + λ_{1} \cos ine ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{T}}) + λ_{2} \cos ine (\overset{&RightArrow;}{D (s_{i})}, \overset{&RightArrow;}{T})] * Π_{j = 1}^{k} p (f_{i} / {\overset{&RightArrow;}{s}}_{i}) - - - (4)

其中，n多文档集中句子的个数，i为对应句子的编号，为用公式(3)求得的句子向量

的初始权重，

和

代表主题向量及当前句子所在的文档向量。

和

分别是当前句子及其所在文档对主题的贡献度，

表示事先学习的各个偏好性特征对文摘影响的概率分布，其中k是偏好性特征的总数，f_j代表偏好性特征，λ₁，λ₂表示加权系数，其取值范围为(0，10)。

表1文章中句子的位置属性

位置	描述
		1	只有一句的首段首句
2	首段首句
		3	首段尾句
4	首段其它句
		5	只有一句的尾段首句
6	尾段首句
		7	尾段尾句

8	尾段其它句
		9	只有一句的其它段(多于2段)首句
10	其它段(多于2段)首句
		11	其它段(多于2段)尾句
12	其它段(多于2段)其它句
		13	只有一句的其它类型段落(不足2段)
14	其它类型段落(不足2段)首句
		15	其它类型段落(不足2段)尾句
16	其它类型段落(不足2段)其它句

以某一西文新闻语料为例，文章中句子位置偏好性特征的概率分布如附图2所示。附图2中每个位置的值对应于该位置上出现文摘句的条件概率。

如附图1步骤105所示，根据句子权重调整模型，在句子关联矩阵或句子关系图上选取当前权重最大的结点，把此结点所对应的句子作为候选文摘句，利用图划分方法从句子关系图中划分出该句子所代表子主题所在的子矩阵或子图，更新句子关联矩阵或句子关系图。具体过程如附图3所示，先利用句子权重调整模型计算调整的句子权重向量A；然后从A中选取具有最大权重的句子s_i作为候选文摘句；再利用图划分的方法，从关联矩阵或关系图上划分出与s_i关系密切的结点，这些结点与s_i一起构成一个子主题；最后从关联矩阵或关系图上删除与当前子主题中所有结点的连边，即删除此结点在关联矩阵或关系图中所对应的行和列，完成子主题所在子图的划分和关系图的调整。其中图划分方法可以选择图的查找算法，例如BFS，或切分算法，例如Mincut。

在此步骤中，也可以直接根据初始权重向量，在句子关联矩阵或句子关系图上选取权重最大的结点，把此结点所对应的句子作为候选文摘句，利用图划分方法从句子关联矩阵或句子关系图中划分出该句子所代表子主题所在的子矩阵或子图。具体过程与上述过程类似。

重复步骤103、104、105，一旦文摘长度满足用户设定的条件，例如文摘长度要求，或是图中已无子图可划分，则算法终止，此时所有候选文摘句构成文摘，即在关系图结点规模不断缩减的迭代过程中，本发明完成文摘句提取和文摘生成的过程。

为了验证本发明的有效性，采用文档理解会议(DocumentUnderstanding Conference)2005年的测试数据进行测试，使用目前通用的ROUGE工具对结果进行评测，并将ROUGE中两种最主要的指标ROUGE-2和ROUGE-SU4的评测结果与DUC 2005最好的三个系统NUS3、PolyU、IIITH-Sum和基准系统(Baseline)的评测结果进行了对比，结果如表2所示：

表2：在DUC2005任务上系统评测的比较结果

系统	ROUGE-2	ROUGE-SU4
			本发明NUS3PolyUIIITH-SumBaseline	0.073110.07250.07170.069630.04160	0.132310.13160.12970.125250.08946

其中ROUGE-2和ROUGE-SU4的得分越高，文摘效果越好，即与人工标准文摘更接近。表2的评测结果表明，本发明的方法表现优异，在两个主要评价指标上都优于国际上最好的评测系统以及基准系统。

提供所述公开的实施例子的上述描述，使得本领域的技术人员能够制造或者使用本发明。对于本领域的技术人员来说，这些实施例的各种修改是显而易见的，并且这里定义的总体原理也可以在不脱离本发明的范围的基础上应用于其他实施例。因此，本发明并不限于这里示出的实施例，而是与符合这里公开的原理和新颖特征的最广范围相一致。

Claims

1.一种多文档自动文摘方法，包括下列步骤：

1)把文档集进行句子边界切分，用向量空间模型表示句子；

2)计算句子向量间的距离构成句子关联矩阵；

3)根据所述句子关联矩阵计算初始句子权重向量，根据所述初始句子权重向量，选取权重最大的结点，把此结点所对应的句子作为候选文摘句，从所述句子关联矩阵中划分出所述对应的句子所代表子主题所在的子矩阵，更新句子关联矩阵；

4)重复步骤3)，完成文摘。

2.如权利要求1所述的方法，其特征在于所述步骤3)中根据所述初始句子权重向量，选取权重最大的结点包含步骤：

3.如权利要求2所述的方法，其特征在于所述根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤：

a)首先计算所述句子对主题的贡献度；

b)对所述句子在所述文档中的位置进行分类，学习训练语料，得到所述句子位置偏好性概率的分布；

c)对所述初始句子权重向量、所述句子对主题的贡献度按线性模型进行加权，对句子位置偏好性概率按乘积进行加权，得到所述句子权重调整模型。

4.如权利要求3所述的方法，其特征在于所述步骤a)计算所述句子对主题的贡献度包含计算所述句子与主题的相似度和所述句子所在文档与主题的相似度。

5.如上面任意一项权利要求所述的方法，其特征在于，所述步骤4)包含：

根据所述初始句子权重向量计算调整的句子权重向量；

然后从所述调整的句子权重向量中选取具有最大权重的结点，把此结点所对应的句子作为候选文摘句；

利用图划分的方法，从所述句子关联矩阵中划分出与所述具有最大权重的结点关系密切的结点，共同构成一个子主题；

从所述句子关联矩阵中删除所述子主题中所有结点的连边。

6.一种多文档自动文摘方法，包括下列步骤：

1)把文档集进行句子边界切分，用向量空间模型表示句子；

4)重复步骤3)，完成文摘。

7.如权利要求6所述的方法，其特征在于所述步骤3)中根据所述初始句子权重向量，选取权重最大的结点包含步骤：

8.如权利要求6或7所述的方法，其特征在于所述步骤2)中对所述句子关联矩阵进行规范化包含步骤：对所述句子关联矩阵根据阈值进行约简，然后对约简后的矩阵进行规范化。