CN100435145C - 一种基于句子关系图的多文档摘要方法 - Google Patents

一种基于句子关系图的多文档摘要方法 Download PDF

Info

Publication number
CN100435145C
CN100435145C CNB2006100725868A CN200610072586A CN100435145C CN 100435145 C CN100435145 C CN 100435145C CN B2006100725868 A CNB2006100725868 A CN B2006100725868A CN 200610072586 A CN200610072586 A CN 200610072586A CN 100435145 C CN100435145 C CN 100435145C
Authority
CN
China
Prior art keywords
sentence
relation
document
graph
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100725868A
Other languages
English (en)
Other versions
CN1828608A (zh
Inventor
万小军
杨建武
吴於茜
陈晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB2006100725868A priority Critical patent/CN100435145C/zh
Publication of CN1828608A publication Critical patent/CN1828608A/zh
Application granted granted Critical
Publication of CN100435145C publication Critical patent/CN100435145C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

Description

一种基于句子关系图的多文档摘要方法
技术领域
本发明属于语言文字处理及信息检索技术领域,具体涉及一种基于句子关系图的多文档摘要方法。
背景技术
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/网站(Web)内容检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。
多文档摘要的困难在于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的有效信息,即既要使生成的文档摘要保留原文档中的主要信息,又要使文档摘要中的信息保持一定的新颖性。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR.
概括来说,多文档摘要的方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。
目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarizationof multiple documents(该文作者是:D.R.Radev,H.Y.Jing,M.Stysand D.Tam,发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法,该方法是目前比较流行的一种基于句子抽取的摘要方法,MEAD是利用该方法实现的一个原型摘要系统,它在赋予句子权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF*IDF等。文章From Single toMulti-document Summarization:A Prototype System and its Evaluation(作者:C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊:Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公开了一种名为NeATS的句子抽取系统,该系统是ISI开发的一个多文档摘要系统,它源于单文档摘要系统-SUMMARIST,该系统选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征,同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者:H.Ha rdy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊:Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统,该系统适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。
基于图结构的方法也被用来对句子的重要性进行排序,文章Summarizing Similarities and Differences Among Related Documents(作者:I.Mani and E.Bloedorn,发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRank:prestige in multi-document textsummarization(作者:G.Erkan and D.Radev,发表于2004年出版的期刊:Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithm for single and multipledocument summarization(作者:R.Mihalcea and P.Tarau,发表于2005年出版的期刊:Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。
以上基于图结构的方法没有采用有效的措施保持摘要中句子的新颖性。同时,上述基于图结构的方法没有区分句子之间不同类型的关系,这些不同类型的关系对句子重要性的计算具有不同的贡献。最后,现有的上述方法只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间关系具有可扩散的特性。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种基于句子关系图的多文档摘要方法,该方法能够实现在抽取句子的过程中既能考虑句子的信息丰富程度,又能考虑其新颖程度,从而为多个文档形成更好的摘要。
为达到以上目的,本发明采用的技术方案是:一种基于句子关系图的多文档摘要方法,包括以下步骤:
(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;
(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度(Information Richness);
(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;
(4)选择权重值大的句子形成摘要。
进一步,为使本发明获得更好的发明效果,步骤(1)中对句子集合S构建句子关系图时,具体方法如下:
1)构建初始句子关系图;
对S中任意两个句子si和sj利用下列余弦公式计算相似度值:
aff ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中
Figure C20061007258600082
Figure C20061007258600083
分别表示句子si和sj对应的句子向量,
Figure C20061007258600084
Figure C20061007258600085
分别表示句子向量
Figure C20061007258600086
的模,也就是向量的长度。每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;
如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,是一个阈值afft
得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下:
(Mi,j)n×n表示邻接矩阵M是n行n列的方阵,其中Mi,j表示矩阵M中第i行第j列的元素,i、j均为正整数,1≤i,j≤n,n为句子集合中句子的数量;
2)句子关系扩散;
3)区分文档内句子关系和文档间句子关系。
再进一步,为使本发明获得更好的发明效果,步骤1)中阈值afft设为0.01;
再进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图:
对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下:
M ^ = Σ t = 1 ∞ γ t - 1 M t - - - ( 3 )
其中γ(0<γ<1)是衰减因子;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数。
矩阵经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure C20061007258600093
Figure C20061007258600094
其中,
Figure C20061007258600095
表示邻接矩阵
Figure C20061007258600096
是n行n列的方阵,表示矩阵
Figure C20061007258600098
中第i行第j列的元素,i、j均为正整数,1≤i,j≤n。
更进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,衰减因子γ设为0.9。
更进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,为加快运算速度,t设定为5。
再进一步,为使本发明获得更好的发明效果,步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,分别赋予文档内句子关系和文档间句子关系不同的贡献权重:
首先将根据(4)式得到的矩阵
Figure C20061007258600099
进行如下分解
Figure C200610072586000910
其中
Figure C20061007258600101
为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为0;
Figure C20061007258600102
为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为0;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系。
对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为:
Figure C20061007258600103
其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系。
类似公式(4),将矩阵
Figure C20061007258600104
规范化到M使得每一行元素值之和为1。
更进一步,为使本发明获得更好的发明效果,步骤3)中区分文档内句子关系和文档间句子关系时,权重参数α,β分别设为0.3和1。
进一步,为使本发明获得更好的发明效果,步骤(2)中计算句子的信息丰富程度时,采用如下方法:
句子的信息丰富程度反映了该句子包含的主题信息的多少,在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si):
InfoRich ( s i ) = d · Σ allj ≠ i InfoRich ( s j ) · M ‾ j , i + ( 1 - d ) n - - - ( 7 )
其中公式(7)等号右边的I nfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度;d为阻尼因子,取值范围为0<d<1,通常设为0.85,n为正整数,表示句子数量。
上式用矩阵形式表示为:
λ → = d M ‾ T λ → + ( 1 - d ) n e → - - - ( 8 )
其中为一个n维向量,每一维表示一个句子的信息丰富程度,
Figure C20061007258600108
是一个n维单位向量。
每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用上式计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止,或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。
上述公式(7)和(8)是基于以下四个假设来迭代计算句子的信息丰富程度:
(a)一个句子与越多的其他句子相邻接,这个句子包含的信息越丰富;
(b)与某个句子相邻接的其他句子所包含的信息越丰富,这个句子包含的信息也越丰富;
(c)一个句子与其他包含丰富信息的句子之间的连接边具有越大的权重,那么这个句子包含的信息越丰富;
(d)来自不同文档的句子邻接关系比来自同一文档德句子邻接关系对计算句子的信息丰富程度更重要。
再一步,为使本发明获得更好的发明效果,所述步骤(2)中设定句子的信息丰富程度的变化小于阈值时,阈值设定为0.0001。
进一步,为使本发明获得更好的发明效果,步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下:
1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...,n;
2)按照当前最终权重值降序排列B中的句子;
3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚:
Figure C20061007258600111
其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强,如果ω为0,那么就没有差异性惩罚。
4)循环执行步骤2)和步骤3),直到B=φ。
上述步骤中涉及的符号含义是:si与sj表示集合B中的两个句子,si是集合B中当前排名最高的句子,sj是集合B中不同于si的另一个句子,ARScore(si)表示句子si的最终权重,InfoRich(si)表示句子si的信息丰富程度,n为集合B中句子总数,为正整数,i为句子标号,为正整数,1≤i≤n;
Figure C20061007258600112
表示句子邻接矩阵
Figure C20061007258600113
的第j行、第i列对应的元素。
再一步,为使本发明获得更好的发明效果,步骤3)中公式(9)中所述的惩罚程度因子ω可以设定为7。
进一步,步骤(4)中,选择权重值最大的2-10个句子形成摘要。
本发明的效果在于:采用本发明所述的方法克服了现有技术中多文档摘要的缺点,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑了句子的信息丰富程度,又考虑了其新颖程度。
本发明之所以具有上述发明效果,是因为本发明综合考虑了句子的信息丰富程度和信息新颖程度,引入了句子关系扩散以得到更接近真实语义的句子关系图,同时,在计算句子信息丰富程度时区分了文档内句子关系和文档间句子关系,赋予文档间句子关系更大的贡献权重。
附图说明
图1是本发明所述方法的流程图;
图2是使用本发明提出的方法改善文档检索的示意图。
具体实施方式
下面结合实施例和附图进一步阐明本发明所述的方法:
如图1所示,一种基于句子关系图的多文档摘要方法,包括以下步骤:
(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;
对句子集合S构建句子关系图时,具体方法如下:
1)构建初始句子关系图;
对S中任意两个句子si和sj利用下列余弦公式计算相似度值:
aff ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中
Figure C20061007258600122
Figure C20061007258600123
分别表示句子si和sj对应的句子向量,
Figure C20061007258600124
Figure C20061007258600125
分别表示句子向量
Figure C20061007258600126
Figure C20061007258600127
的模,也就是向量的长度。每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量。
如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,是一个阈值afft,本实施例中,阈值afft设为0.01。
得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下:
Figure C20061007258600131
2)句子关系扩散;
句子关系扩散时,本实施例中采用如下方法,从而得到接近真实语义的句子关系图:
对初始句子关系图的邻接矩阵M进行下式的关系扩散,得到的新邻接矩阵:
M ^ = Σ t = 1 ∞ γ t - 1 M t - - - ( 3 )
其中γ(0<γ<1)是衰减因子,本实施例中,设定γ为0.9。Mt是步骤a得到的邻接矩阵M的t次幂矩阵。
为加快运算速度,本实施例中,设定t为5。
矩阵
Figure C20061007258600133
经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure C20061007258600134
Figure C20061007258600135
3)区分文档内句子关系和文档间句子关系:
首先将根据(4)式得到的矩阵
Figure C20061007258600136
进行如下分解
Figure C20061007258600137
其中为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为0。为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为0。两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系。
对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为:
Figure C200610072586001310
其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系。本实施例令α,β分别设为0.3和1,表明文档间句子关系比文档内句子关系更重要。
类似(4)式,将矩阵
Figure C20061007258600141
规范化到M使得每一行元素值之和为1。
(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;
计算句子的信息丰富程度时,本实施例中采用如下方法:
句子的信息丰富程度反映了该句子包含的主题信息的多少,在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si):
InfoRich ( s i ) = d · Σ allj ≠ i InfoRich ( s j ) · M ‾ j , i + ( 1 - d ) n - - - ( 7 )
其中公式(7)等号右边的InfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度。d为阻尼因子,取值范围为0<d<1,本实施例中设为0.85,n为正整数,表示句子数量。
上式用矩阵形式表示为:
λ → = d M ‾ T λ → + ( 1 - d ) n e → - - - ( 8 )
其中
Figure C20061007258600144
为一个n维向量,每一维表示一个句子的信息丰富程度,
Figure C20061007258600145
是一个n维单位向量。
每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用上式计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度的变化小于一定阈值算法为止,本实施例中,设定阈值为0.0001。
(3)对句子进行差异性惩罚,得到每个句子的最终权重值;
对句子进行差异性惩罚时,本实施例中采用贪心算法,从而得到每个句子的最终权重值,具体步骤如下:
1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...n;
2)按照当前最终权重值降序排列B中的句子;
3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚:
Figure C20061007258600151
其中ω>0是惩罚程度因子,本实施例中设为7。ω越大,差异性惩罚越强。如果ω为0,那么就没有差异性惩罚。
4)循环执行步骤2)和步骤3),直到B=φ。
上面差异性惩罚过程中步骤3)为关键步骤,基本思想是根据某个句子与信息最丰富的句子之间的信息冗余程度减少该句子的权重值。
(4)根据每个句子的最终权重值,选择权重值最大的若干个句子形成摘要。一般来说,选择2-10个句子形成摘要即可,本实施例中选择8个句子形成摘要。
如图2所示为使用本发明提出的方法改善文档检索的示意图。
为了验证本发明的有效性,采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002和DUC2004的多文档摘要评测任务,也就是DUC2002的第2个评测任务和DUC2004的第2个评测任务。DUC2002的多文档摘要任务提供了60个文档集,要求参评者提供100字以内长度的摘要,文档来源于TREC-9。DUC2004的多文档摘要任务提供了50个文档集,要求参评者提供665字节以内长度的摘要,文档来源为TDT-2。参评者提交的摘要将与人工摘要做对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法,包括三个评价指标ROUGE-1,ROUGE-2和ROUGE-W,ROUGE值越大,效果越好,ROUGE-1值是最主要的评价指标。本发明所述的方法和参评者之中表现最优异的五个系统以及两个基准系统作比较,实验结果分别如表1和表2所示:
表1:在DUC2002评测数据上的比较结果
Figure C20061007258600152
Figure C20061007258600161
表2:在DUC2004评测数据上的比较结果
Figure C20061007258600162
实验结果表明,本发明所述的方法表现优异,在三个评价指标上都优于参评者的系统以及基准系统。
ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者:C.-Y.Lin and E.H.Hovy,发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (11)

1.一种基于句子关系图的多文档摘要方法,包括以下步骤:
(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;
(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;
(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;
(4)选择权重值大的句子形成摘要。
2.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤(1)中对句子集合S构建句子关系图时,包括以下步骤:
1)构建初始句子关系图;
对S中任意两个句子si和sj利用下列余弦公式计算相似度值:
aff ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中
Figure C2006100725860002C2
Figure C2006100725860002C3
分别表示句子si和sj对应的句子向量,
Figure C2006100725860002C4
Figure C2006100725860002C5
分别表示句子向量
Figure C2006100725860002C6
Figure C2006100725860002C7
的模,也就是向量的长度,每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;
如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,上述的afft是一个阈值;
得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下:
Figure C2006100725860002C8
(Mi,j)n×n表示邻接矩阵M是n行n列的方阵,其中Mi,j表示矩阵M中第i行第j列的元素,i、j均为正整数,1≤i,j≤n,n为句子集合中句子的数量;
2)句子关系扩散;
3)区分文档内句子关系和文档间句子关系。
3.如权利要求2所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图:
对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下:
M ^ = Σ t = 1 ∞ γ t - 1 M t - - - ( 3 )
其中γ是衰减因子,0<γ<1;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数;
矩阵
Figure C2006100725860003C2
经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure C2006100725860003C3
Figure C2006100725860003C4
其中,
Figure C2006100725860003C5
表示邻接矩阵
Figure C2006100725860003C6
是n行n列的方阵,表示矩阵
Figure C2006100725860003C8
中第i行第j列的元素,i、j均为正整数,1≤i,j≤n。
4.如权利要求3所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤2)中句子关系扩散时,衰减因子γ设为0.9,t设定为5。
5.如权利要求3或4所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,分别赋予文档内句子关系和文档间句子关系不同的贡献权重:
首先将根据(4)式得到的矩阵进行如下分解
Figure C2006100725860003C10
其中
Figure C2006100725860003C11
为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为0;
Figure C2006100725860003C12
为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为0;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系;
对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为:
Figure C2006100725860004C1
其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系;
类似公式(4),将矩阵
Figure C2006100725860004C2
规范化到M使得每一行元素值之和为1。
6.如权利要求5所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤3)中区分文档内句子关系和文档间句子关系时,权重参数α,β分别设为0.3和1。
7.如权利要求6所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤(2)中计算句子的信息丰富程度时,采用如下方法:
在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si):
InfoRich ( s i ) = d · Σ allj ≠ i InfoRich ( s j ) · M ‾ j , i + ( 1 - d ) n - - - ( 7 )
其中公式(7)等号右边的InfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度;d为阻尼因子,取值范围为0<d<1;n为正整数,表示句子数量;
上式用矩阵形式表示为:
λ → = d M ‾ T λ → + ( 1 - d ) n e → - - - ( 8 )
其中
Figure C2006100725860004C5
为一个n维向量,每一维表示一个句子的信息丰富程度,
Figure C2006100725860004C6
是一个n维单位向量;每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用公式(7)计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止,或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。
8.如权利要求7所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤(2)中阻尼因子d为0.85,设定句子的信息丰富程度的变化小于阈值时,阈值设定为0.0001。
9.如权利要求3所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,具体包括以下步骤:
1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...,n;
2)按照当前最终权重值降序排列B中的句子;
3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚:
Figure C2006100725860005C1
其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;
4)循环执行步骤2)和步骤3),直到B=φ;
上述步骤中涉及的符号含义是:si与sj表示集合B中的两个句子,si是集合B中当前排名最高的句子,sj是集合B中不同于si的另一个句子,ARScore(si)表示句子si的最终权重,InfoRich(si)表示句子si的信息丰富程度,n为集合B中句子总数,为正整数,i为句子标号,为正整数,1≤i≤n。
10.如权利要求9所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤3)中公式(9)中所述的惩罚程度因子ω设定为7。
11.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于:步骤(4)中,选择权重值最大的2-10个句子形成摘要。
CNB2006100725868A 2006-04-13 2006-04-13 一种基于句子关系图的多文档摘要方法 Expired - Fee Related CN100435145C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100725868A CN100435145C (zh) 2006-04-13 2006-04-13 一种基于句子关系图的多文档摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100725868A CN100435145C (zh) 2006-04-13 2006-04-13 一种基于句子关系图的多文档摘要方法

Publications (2)

Publication Number Publication Date
CN1828608A CN1828608A (zh) 2006-09-06
CN100435145C true CN100435145C (zh) 2008-11-19

Family

ID=36947000

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100725868A Expired - Fee Related CN100435145C (zh) 2006-04-13 2006-04-13 一种基于句子关系图的多文档摘要方法

Country Status (1)

Country Link
CN (1) CN100435145C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914083A (zh) * 2019-05-10 2020-11-10 腾讯科技(深圳)有限公司 语句处理方法、装置及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814B (zh) * 2007-09-26 2010-08-25 北京大学 一种同时抽取文档摘要和关键词的方法及系统
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
CN101231634B (zh) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 一种多文档自动文摘方法
US8402369B2 (en) * 2008-05-28 2013-03-19 Nec Laboratories America, Inc. Multiple-document summarization using document clustering
JP2011227758A (ja) * 2010-04-21 2011-11-10 Sony Corp 情報処理装置、情報処理方法及びプログラム
CN102831119B (zh) * 2011-06-15 2016-08-17 日电(中国)有限公司 短文本聚类设备及方法
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法
CN107766419B (zh) * 2017-09-08 2021-08-31 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
US6678676B2 (en) * 2000-06-09 2004-01-13 Oracle International Corporation Summary creation
US6718346B1 (en) * 2000-08-17 2004-04-06 3Com Corporation Generating summary data for a requested time period having a requested start time and end time a plurality of data records
CN1755696A (zh) * 2004-09-29 2006-04-05 株式会社东芝 用于创建文档摘要的系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678676B2 (en) * 2000-06-09 2004-01-13 Oracle International Corporation Summary creation
US6718346B1 (en) * 2000-08-17 2004-04-06 3Com Corporation Generating summary data for a requested time period having a requested start time and end time a plurality of data records
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
CN1755696A (zh) * 2004-09-29 2006-04-05 株式会社东芝 用于创建文档摘要的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新的句子相似度度量及其在文本自动摘要中的应用. 张奇,黄萱菁,吴立德.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集. 2004
一种新的句子相似度度量及其在文本自动摘要中的应用. 张奇,黄萱菁,吴立德.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集. 2004 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914083A (zh) * 2019-05-10 2020-11-10 腾讯科技(深圳)有限公司 语句处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN1828608A (zh) 2006-09-06

Similar Documents

Publication Publication Date Title
CN100435145C (zh) 一种基于句子关系图的多文档摘要方法
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
Medelyan et al. Mining meaning from Wikipedia
CN101446940B (zh) 为文档集自动生成摘要的方法及装置
Thakkar et al. Graph-based algorithms for text summarization
Sarkar Bengali text summarization by sentence extraction
CN100418093C (zh) 一种基于簇排列的面向主题或查询的多文档摘要方法
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN1158460A (zh) 一种跨语种语料自动分类与检索方法
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN101382962A (zh) 一种考虑概念抽象度的浅层分析自动文档综述方法
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
CN115906805A (zh) 基于词细粒度的长文本摘要生成方法
CN103336803A (zh) 一种嵌名春联的计算机生成方法
CN101599075A (zh) 汉语缩略语处理方法和装置
Chen et al. A query substitution-search result refinement approach for long query web searches
Liao et al. Combining Language Model with Sentiment Analysis for Opinion Retrieval of Blog-Post.
Dray et al. Opinion mining from blogs
Schilit et al. Exploring a digital library through key ideas
Ramezani et al. Automated text summarization: An overview
Li et al. Keyphrase extraction and grouping based on association rules
Huang et al. Learning to find comparable entities on the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230403

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee before: New founder holdings development Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081119