CN102254011A - 一种动态多文档文摘建模方法 - Google Patents

一种动态多文档文摘建模方法 Download PDF

Info

Publication number
CN102254011A
CN102254011A CN2011102005909A CN201110200590A CN102254011A CN 102254011 A CN102254011 A CN 102254011A CN 2011102005909 A CN2011102005909 A CN 2011102005909A CN 201110200590 A CN201110200590 A CN 201110200590A CN 102254011 A CN102254011 A CN 102254011A
Authority
CN
China
Prior art keywords
sentence
digest
length
document
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102005909A
Other languages
English (en)
Inventor
赵铁军
郑德权
刘美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2011102005909A priority Critical patent/CN102254011A/zh
Publication of CN102254011A publication Critical patent/CN102254011A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种动态多文档文摘建模方法,涉及一种动态多文档文摘建模方法。本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题。具体步骤:文档集合的预处理;建立特征抽取模块;建立信息过滤模块;建立句子加权模块;建立文摘生成模块,生成最佳文摘;使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。本发明的方法使动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。本发明方法获得的文摘全面性更高。应用于文摘抽取领域。

Description

一种动态多文档文摘建模方法
技术领域
本发明涉及一种动态多文档文摘建模方法。
背景技术
随着Internet的迅猛发展,网络信息日益剧增,面对互联网上90%以上的文本信息,如何有效地组织和分析信息、满足人们的需求、提高人们获取信息的效率,使信息过滤、信息检索、自动文摘等技术成为研究的热点。
文摘是以提供原文内容梗概为目的,简明、确切地记述原文主要内容的短文。文摘应客观、如实地反映原文的内容,但又比原文文字简洁。文摘可以使得人们能够很快地判断出原文中是否有感兴趣的内容,可以让人们很快找到自己真正需要的文章,而不必将时间浪费在相关文章的阅读上,大大提高人们获取信息的效率。自动文摘的目的就是以一种快速、准确地方式向用户提交简洁、全面的信息。
在Web2.0时代,网络上的各种新闻、论坛、博客、在线聊天等信息跟静态网页信息相比体现出非常明显的动态演化性,网络信息随着时间的变化而出现、发展直至消亡,一个话题在不同的时刻具有不同的侧重点,而不同时刻的话题内容之间具有关联性,如何针对这类持续发展变化的话题或者事件提供动态摘要已经成为一个新的研究方向。传统的静态文摘方法只能对静态的话题内容生成文摘,无法满足网络环境下,动态演化的网络信息进行摘要的提取。因此,在微软和NIST等机构的倡导下,动态文摘问题在国际多文档理解会议(Document Understanding Conferences)DUC2007上首次提出。动态文摘是传统静态文摘的延伸和扩展,除了需要保证文摘信息的主题相关性和内容的低冗余性之外,还需保证针对内容的动态演化性分析历史信息和新出现信息的关系,消除旧信息,摘要新信息,使文摘信息随话题的演化而动态更新。
传统的多文档摘要方法以句子或自然段落作为基本处理单元,通过计算各文本单元与当前主题的相关程度以及不同文本单元之间的信息重复程度,选取与主题相关度较高,与其余文本重复度较低的文本单元来生成摘要,以提高摘要信息的全面性,降低冗余度。然而,这种策略孤立地考察各个文本单元,难以从整个文档集的角度全局性地把握当前主题下的各个信息侧面(即子主题)的内容、分布以及关联情况,往往造成大量摘要片段来自同一个子主题的现象,严重影响摘要的全面性。
发明内容
本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题,提供一种动态多文档文摘建模方法。
本发明动态多文档文摘建模方法的具体步骤为:
步骤一、建立特征抽取模块,计算文档集合中包含主题词的句子的特征值;所述句子的特征值为句子的历史冗余性特征值、句子的显著性特征值、句子的时间特征值、句子的长度特征值和句子的位置特征值,所述文档集合由当前文档集合和历史文档集合组成;
步骤二、建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合;
步骤三、建立句子加权模块,计算动态句子集合中句子的权值;
步骤四、建立文摘生成模块,生成最佳文摘;
步骤五、使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。
本发明使用的测试语料为TAC2008(Text Analysis Conference2008)的语料库,该语料库中总共包含50个主题,每个主题为一个文档集合,每个文档集合包含20个文档且按时间顺序分为两个子文档集分别称为历史文档集合和当前文档集合,每个子文档集中包含10个文档。
步骤一所述建立特征抽取模块,计算文档集合中包含主题词的句子的特征值的方法为:
步骤一一、计算主题词w的权值Wgt(w):Wgt(w)=(w)*IDF(w)*ISF(w);其中TF(w)为主题词w的词频,IDF(w)为主题词w的反文档频率,ISF(w)为主题词w的反句子频率;
步骤一二、计算句子s的历史冗余性特征值NWgt(s):
NWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; si表示历史文档集合中的句子,wj表示句子s与句子si的同现词,m为历史文摘中文摘句的总数,n为句子历史文摘中句子si的同现主题词数量,Wgt(wj)为主题词wj的权重,length(si)和length(s)分别为句子si与句子s中的主题词词语总数,count为历史文摘句子集合中句子的总数量;
步骤一三、计算句子s的显著性特征值SWgt(s):
SWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; m为当前文档集合中句子的总数,n为句子si与句子s中同现的主题词总数,Wgt(wj)为主题词wj的权重,length(si)和length(s)分别为句子si与句子s中的主题词词语总数,count为当前文档集合中句子的总数量;
步骤一四、计算句子s的时间特征值TWgt(s):TWgt(s)=1/n;其中,n代表按照发表时间排序后的文档集中句子所属文档的排序值;
步骤一五、计算句子s的长度特征值LWgt(s):如果Length(s)>0.5*MaxLength,则LWgt(s)=1/(Length(s)-0.5*MaxLength);如果Length(s)≤0.5*MaxLength,则LWgt(s)=1/(0.5*MaxLength-Length(s));其中,Length(s)表示句子s的长度,MaxLength表示当前文档集合中句子的最大长度;
步骤一六、计算句子s的位置特征值:PWgt(s)=1/n;其中,n代表句子s在其所属文档中的位置值。
步骤二所述建立信息过滤模块,对备选文档集合进行信息过滤,得到动态句子集合的方法为:首先根据句子s的历史冗余性特征值对当前文档集句子集合中的所有句子按从高到低进行排序,删除排序的前50个句子,得到动态句子集合。
步骤三所述建立句子加权模块,计算动态句子集合中句子的权值的方法为:
步骤三一、计算动态句子集合中句子s  的初值FWgt(s): FWgt ( s ) = α * Σ i = 1 count ( s ) Wgt ( w i ) + β * LWgt ( s ) ; 其中,count(s)为句子s的长度,Wgt(wi)为主题词wi的权值,α=0.2,β=0.8;
步骤三二、句子相似度矩阵的建立:
计算句子si和sj的相似度Sim(si,sj): Sim ( s i , s j ) = Σ k = 1 count Wgt ( w k ) length ( s i ) + length ( s j ) ; 其中,count为句子si和sj同现主题词的数量,Wgt(wk)为主题词wk的权值,length(si)和length(sj)分别为句子si和sj的长度,即所含主题词的数量;
计算当前文档集合中所有句子两两之间的相似度值,即可构成一个n*n相似度矩阵S,n为当前文档集合中句子的总数量,其元素Wi*j即为句子si和sj的相似度值,元素Wi*i的值为0;
步骤三三、句子排序值迭代计算,最终获得句子权值向量:
f(t+1)=α*TWgt(s)+β*PWgt(s)+η*SWgt(s)-μ*NWgt(s)+γ*S*f(t);其中,TWgt(s)为句子s的时间特征值,PWgt(s)为句子s的位置特征值,SWgt为(s)句子s的显著性特征值,NWgt(s)为句子s的历史冗余性特征值,α=0.25、β=0.15、γ=0.2、η=0.15、μ=0.25,S为相似度矩阵,f(t+1)为本次迭代计算后的句子权值向量,f(t)为前一次迭代计算的句子权值向量;迭代计算完成后得到向量f(i)为当前文档集合中句子的权值向量,f(i)中的元素即为句子s的权值BZWgt(s),其中i为句子s在当前文档集合中的句子集中的序号。
步骤四所述建立文摘生成模块,生成最佳文摘的方法为:
计算改进去冗余算法处理后的候选文摘句s的权值AZWgt(s), AZWgt ( s ) = α * BZWgt ( s ) - β * Σ i = 1 n Σ j = 1 simcount Wgt ( w j ) Σ k = 1 count ( s i ) Wgt ( w k ) ; 其中Wgt(wj)和Wgt(wk)分别为主题词wj和wk的权值,n为文摘句集合中的句子数量,Simcount为候选文摘句s和文摘句si同现的主题词的数量,count(si)为文摘句si的总的主题词数量,α=0.3,β=0.7;根据AZWgt(s)的值对当前文档集句子集合中的所有句子按从高到低进行排序,取前300~400个字符,生成当前文档集合的最佳文摘。
静态文摘方法不能对文档集主题的动态演化性进行建模,也就无法捕捉文档集的动态演化性。所生成的文摘将包含大量的历史信息,使得文摘中的信息大部分为历史冗余信息。因此传统的文摘系统面对当今具有海量性、同主题性和动态演化性的网络信息而言不具有高效性,不能满足人们对网络信息获取效率的要求。对于多篇同主题文档,虽然主体内容相似,但静态文摘技术无法把握好主题的不同侧面,不能从各个角度涵盖当前主题下的多个子主题,忽略了文档间内容的动态演化性,且包含大量的历史信息,不能充分体现文摘的新颖性。
为了克服传统静态文摘的不足,本发明提出一种动态多文档文摘建模方法,通过对动态演化的网络数据文档集合进行建模,利用矩阵子空间方法进行特征抽取和相似度计算方法进行信息过滤,并利用创新的动态流型排序方法进行句子加权,保证动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。本发明方法获得的文摘全面性更高。
附图说明
图1为具体实施方式一所述动态多文档文摘建模方法流程图;图2为动态多文档文摘系统的主界面;图3为动态多文档文摘系统的入口界面;图4为动态多文档文摘系统的文档内容显示窗口;图5为动态多文档文摘系统生成文摘和统计信息窗口;图6为具体实施方式二所述特征抽取的结构图;图7为具体实施方式二所述当前文档与历史文档的关系图;图8为具体实施方式三所述经过滤处理后的文档集示意图。
具体实施方式
本发明技术方案不局限于以下所列举具体实施方式,还包括各具体实施方式间的任意组合。
具体实施方式一:结合图1说明本实施方式,本实施方式动态多文档文摘建模方法的具体步骤为:
步骤一、建立特征抽取模块,计算文档集合中包含主题词的句子的特征值;所述句子的特征值为句子的历史冗余性特征值、句子的显著性特征值、句子的时间特征值、句子的长度特征值和句子的位置特征值,所述文档集合由当前文档集合和历史文档集合组成;
步骤二、建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合;
步骤三、建立句子加权模块,计算动态句子集合中句子的权值;
步骤四、建立文摘生成模块,生成最佳文摘;
步骤五、使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。
使用本实施方式的方法得到动态多文档文摘系统,动态多文档文摘系统的主界面如图2所示,动态多文档文摘系统的入口界面如图3所示,文档内容显示窗口如图4所示,动态多文档文摘系统生成文摘和统计信息窗口如图5所示。
具体实施方式二:本实施方式是对具体实施方式一所述的一种动态多文档文摘建模方法中的步骤一做进一步的说明,步骤一所述建立特征抽取模块,计算文档集合中包含主题词的句子的特征值的方法为:
步骤一一、计算主题词w的权值Wgt(w):Wgt(w)=TF(w)*IDF(w)*ISF(w);其中TF(w)为主题词w的词频,IDF(w)为主题词w的反文档频率,ISF(w)为主题词w的反句子频率;
步骤一二、计算句子s的历史冗余性特征值NWgt(s):
NWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; si表示历史文档集合中的句子,wj表示句子s与句子si的同现词,m为历史文摘中文摘句的总数,n为句子历史文摘中句子si的同现主题词数量,Wgt(wj)为主题词wj的权重,length(si)和length(s)分别为句子si与句子s中的主题词词语总数,count为历史文摘句子集合中句子的总数量;
步骤一三、计算句子s的显著性特征值SWgt(s):
SWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; m为当前文档集合中句子的总数,n为句子si与句子s中同现的主题词总数,Wgt(wj)为主题词wj的权重,length(si)length(s)分别为句子si与句子s中的主题词词语总数,count为当前文档集合中句子的总数量;
步骤一四、计算句子s的时间特征值TWgt(s):TWgt(s)=1/n;其中,n代表按照发表时间排序后的文档集中句子所属文档的排序值;
步骤一五、计算句子s的长度特征值LWgt(s):如果Length(s)>0.5*MaxLength,则LWgt(s)=1/(Length(s)-0.5*MaxLength);如果Length(s)≤0.5*MaxLength,则LWgt(s)=1/(0.5*MaxLength-Length(s));其中,Length(s)表示句子s的长度,MaxLength表示当前文档集合中句子的最大长度;
步骤一六、计算句子s的位置特征值:PWgt(s)=1/n;其中,n代表句子s在其所属文档中的位置值。
当前文档集合与历史文档集合的关系图如图7所示。句子历史冗余性特征即为句子所含历史信息的度量,此特征是动态多文档文摘系统区别于传统文摘系统的重要度量。动态多文档文摘系统之所以具有动态性特征,是因为动态文摘方法能够通过比较当前信息和历史信息的相同点和不同点来刻画信息的动态演化性,然后根据句子的动态演化性对句子加权,使生成的文摘具有动态性。为了实现此目的,本发明通过句子的历史冗余性来刻画句子的所含信息的动态演化性。
所谓句子显著性特征即该句子对其文档集信息的代表性,句子的显著性特征值越大,意味着其成为文摘句的可能性越大。因此,句子显著性特征也是衡量句子的一项重要特征。根据经典的投票原理,相对句子集合中所有其他句子关联性总和最大的句子,其相对文档集信息的重要度最大,即其显著性最大。
在实际应用中,文摘系统所生成的文摘应符合阅读和理解的要求,一般都有一定的长度限制。为了使文摘中包含尽可能多的重要信息,文摘中的每个句子都不应该太长,即使长度大的句子包含重要的信息,但是由于其占用过大的文摘空间,因此会导致信息空间比低。类似的,太短的句子通常会包含少量信息,所以文摘中也尽量不能包含太短的句子。基于以上分析,本实施方式方法在设计句子长度特征时,对于文摘中的每个句子都应该具有一定的长度限制。
具体实施方式三:本实施方式是对具体实施方式一所述的一种动态多文档文摘建模方法中的步骤二做进一步的说明,步骤二所述建立信息过滤模块,对备选文档集合进行信息过滤,得到动态句子集合的方法为:首先根据句子s的历史冗余性特征值对当前文档集句子集合中的所有句子按从高到低进行排序,删除排序的前50个句子,得到动态句子集合。
本实施方式的信息过滤模块对原始句子集合进行处理,对当前文档集中的历史信息进行了过滤,经过滤处理后的文档集示意图如图8所示,滤掉了原始句子集合中含历史信息大的句子,使集合中所剩句子都为具有动态性信息的句子,该处理过的句子集合即成为了动态句子集合,使其成为后续模块的研究对象,这样就保证了动态多文档文摘系统结果文摘的动态性。
具体实施方式四:本实施方式是对具体实施方式一所述的一种动态多文档文摘建模方法中的步骤三做进一步的说明,步骤三所述建立句子加权模块,计算动态句子集合中句子的权值的方法为:
步骤三一、计算动态句子集合中句子s的初值FWgt(s): FWgt ( s ) = α * Σ i = 1 count ( s ) Wgt ( w i ) + β * LWgt ( s ) ; 其中,count(s)为句子s的长度,Wgt(wi)为主题词wi的权值,α=0.2,β=0.8;
步骤三二、句子相似度矩阵的建立:
计算句子si和sj的相似度Sim(si,sj): Sim ( s i , s j ) = Σ k = 1 count Wgt ( w k ) length ( s i ) + length ( s j ) ; 其中,count为句子si和sj同现主题词的数量,Wgt(wk)为主题词wk的权值,length(si)和length(sj)分别为句子si和sj的长度,即所含主题词的数量;
计算当前文档集合中所有句子两两之间的相似度值,即可构成一个n*n相似度矩阵S,n为当前文档集合中句子的总数量,其元素Wi*j即为句子si和sj的相似度值,元素Wi*i的值为0;
步骤三三、句子排序值迭代计算,最终获得句子权值向量:
f(t+1)=α*TWgt(s)+β*PWgt(s)+η*SWgt(s)-μ*NWgt(s)+γ*S*f(t);其中,TWgt(s)为句子s的时间特征值,PWgt(s)为句子s的位置特征值,SWgt(s)为句子s的显著性特征值,NWgt(s)为句子s的历史冗余性特征值,α=0.25、β=0.15、γ=0.2、η=0.15、μ=0.25,S为相似度矩阵,f(t+1)为本次迭代计算后的句子权值向量,f(t)为前一次迭代计算的句子权值向量,迭代的精度达到10-5;迭代计算完成后得到向量f(i)为当前文档集合中句子的权值向量,f(i)中的元素即为句子s的权值BZWgt(s),其中i为句子s在当前文档集合中的句子集中的序号。
具体实施方式五:本实施方式是对具体实施方式一所述的一种动态多文档文摘建模方法中的步骤四做进一步的说明,步骤四所述建立文摘生成模块,生成最佳文摘的方法为:
计算改进去冗余算法处理后的候选文摘句s的权值AZWgt(s), AZWgt ( s ) = α * BZWgt ( s ) - β * Σ i = 1 n Σ j = 1 simcount Wgt ( w j ) Σ k = 1 count ( s i ) Wgt ( w k ) ; 其中Wgt(wj)和Wgt(wk)分别为主题词wj和wk的权值,n为文摘句集合中的句子数量,Simcount为候选文摘句s和文摘句si同现的主题词的数量,count(si)为文摘句si的总的主题词数量,α=0.3,β=0.7;根据AZWgt(s)的值对当前文档集句子集合中的所有句子按从高到低进行排序,取前300~400个字符,生成当前文档集合的最佳文摘。
本实施方式提出一种动态多文档文摘建模方法,通过对动态演化的网络数据文档集合进行建模,利用矩阵子空间方法进行特征抽取和相似度计算方法进行信息过滤,并利用创新的动态流型排序方法进行句子加权,保证动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。获得的文摘全面性更高。
根据实际的需求分析,以TAC2008(Text Analysis Conference2008)中UpdateSummarization评测数据集为测试语料,分别对特征抽取模块、信息过滤模块、句子加权模块、文摘生成模块进行基于动态性能的系统分析与设计。在动态多文档文摘领域具有独创性,通过与国际标准评测比较,系统性能处于领先位置。

Claims (5)

1.一种动态多文档文摘建模方法,其特征在于,该动态多文档文摘建模方法的具体步骤为:
步骤一、建立特征抽取模块,计算文档集合中包含主题词的句子的特征值;所述句子的特征值为句子的历史冗余性特征值、句子的显著性特征值、句子的时间特征值、句子的长度特征值和句子的位置特征值,所述文档集合由当前文档集合和历史文档集合组成;
步骤二、建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合;
步骤三、建立句子加权模块,计算动态句子集合中句子的权值;
步骤四、建立文摘生成模块,生成最佳文摘;
步骤五、使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。
2.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤一所述建立特征抽取模块,计算文档集合中包含主题词的句子的特征值的方法为:
步骤一一、计算主题词w的权值Wgt(w):Wgt(w)=TF(w)*IDF(w)*ISF(w);其中TF(w)为主题词w的词频,IDF(w)为主题词w的反文档频率,ISF(w)为主题词w的反句子频率;
步骤一二、计算句子s的历史冗余性特征值NWgt(s):
NWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; si表示历史文档集合中的句子,wj表示句子s与句子si的同现词,m为历史文摘中文摘句的总数,n为句子历史文摘中句子si的同现主题词数量,Wgt(wj)为主题词wj的权重,length(si)和length(s)分别为句子si与句子s中的主题词词语总数,count为历史文摘句子集合中句子的总数量;
步骤一三、计算句子s的显著性特征值SWgt(s):
SWgt ( s ) = Σ i = 1 m ( Σ j = 1 n Wgt ( w j ) length ( s i ) ) / ( length ( s ) * count ) ; m为当前文档集合中句子的总数,n为句子si与句子s中同现的主题词总数,Wgt(wj)为主题词wj的权重,length(si)length(s)分别为句子si与句子s中的主题词词语总数,count为当前文档集合中句子的总数量;
步骤一四、计算句子s的时间特征值TWgt(s):TWgt(s)=1/n;其中,n代表按照发表时间排序后的文档集中句子所属文档的排序值;
步骤一五、计算句子s的长度特征值LWgt(s):如果Length(s)>0.5*MaxLength,则LWgt(s)=1/(Length(s)-0.5*MaxLength);如果Length(s)≤0.5*MaxLength,则LWgt(s)=1/(0.5*MaxLength-Length(s));其中,Length(s)表示句子s的长度,MaxLength表示当前文档集合中句子的最大长度;
步骤一六、计算句子s的位置特征值:PWgt(s)=1/n;其中,n代表句子s在其所属文档中的位置值。
3.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤二所述建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合的方法为:首先根据句子s的历史冗余性特征值对当前文档集句子集合中的所有句子按从高到低进行排序,删除排序的前50个句子,得到动态句子集合。
4.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤三所述建立句子加权模块,计算动态句子集合中句子的权值的方法为:
步骤三一、计算动态句子集合中句子s的初值FWgt(s): FWgt ( s ) = α * Σ i = 1 count ( s ) Wgt ( w i ) + β * LWgt ( s ) ; 其中,count(s)为句子s的长度,Wgt(wi)为主题词wi的权值,α=0.2,β=0.8;
步骤三二、句子相似度矩阵的建立:
计算句子si和sj的相似度Sim(si,sj): Sim ( s i , s j ) = Σ k = 1 count Wgt ( w k ) length ( s i ) + length ( s j ) ; 其中,count为句子si和sj同现主题词的数量,Wgt(wk)为主题词wk的权值,length(si)和length(sj)分别为句子si和sj的长度,即所含主题词的数量;
计算当前文档集合中所有句子两两之间的相似度值,即可构成一个n*n相似度矩阵S,n为当前文档集合中句子的总数量,其元素Wi*j即为句子si和sj的相似度值,元素Wi*i的值为0;
步骤三三、句子排序值迭代计算,最终获得句子权值向量:
f(t+1)=α*TWgt(s)+β*PWgt(s)+η*SWgt(s)-μ*NWgt(s)+γ*S*f(t);其中,TWgt(s)为句子s的时间特征值,PWgt(s)为句子s的位置特征值,SWgt(s)为句子s的显著性特征值,NWgt(s)为句子s的历史冗余性特征值,α=0.25、β=0.15、γ=0.2、η=0.15、μ=0.25,S为相似度矩阵,f(t+1)为本次迭代计算后的句子权值向量,f(t)为前一次迭代计算的句子权值向量;迭代计算完成后得到向量f(i)为当前文档集合中句子的权值向量,f(i)中的元素即为句子s的权值BZWgt(s),其中i为句子s在当前文档集合中的句子集中的序号。
5.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤四所述建立文摘生成模块,生成最佳文摘的方法为:
计算改进去冗余算法处理后的候选文摘句s的权值AZWgt(s), AZWgt ( s ) = α * BZWgt ( s ) - β * Σ i = 1 n Σ j = 1 simcount Wgt ( w j ) Σ k = 1 count ( s i ) Wgt ( w k ) ; 其中Wgt(wj)和Wgt(wk)分别为主题词wj和wk的权值,n为文摘句集合中的句子数量,Simcount为候选文摘句s和文摘句si同现的主题词的数量,count(si)为文摘句si的总的主题词数量,α=0.3,β=0.7;根据AZWgt(s)的值对当前文档集句子集合中的所有句子按从高到低进行排序,取前300~400个字符,生成当前文档集合的最佳文摘。
CN2011102005909A 2011-07-18 2011-07-18 一种动态多文档文摘建模方法 Pending CN102254011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102005909A CN102254011A (zh) 2011-07-18 2011-07-18 一种动态多文档文摘建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102005909A CN102254011A (zh) 2011-07-18 2011-07-18 一种动态多文档文摘建模方法

Publications (1)

Publication Number Publication Date
CN102254011A true CN102254011A (zh) 2011-11-23

Family

ID=44981275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102005909A Pending CN102254011A (zh) 2011-07-18 2011-07-18 一种动态多文档文摘建模方法

Country Status (1)

Country Link
CN (1) CN102254011A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
CN108009135A (zh) * 2016-10-31 2018-05-08 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN108664465A (zh) * 2018-03-07 2018-10-16 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN115017404A (zh) * 2022-04-27 2022-09-06 昆明理工大学 基于压缩空间句子选择的目标新闻话题摘要方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598999A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106598999B (zh) * 2015-10-19 2020-02-04 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106202050B (zh) * 2016-07-18 2020-02-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN108009135A (zh) * 2016-10-31 2018-05-08 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
CN106874362B (zh) * 2016-12-30 2020-01-10 中国科学院自动化研究所 多语言自动文摘方法
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN108664465A (zh) * 2018-03-07 2018-10-16 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN115017404A (zh) * 2022-04-27 2022-09-06 昆明理工大学 基于压缩空间句子选择的目标新闻话题摘要方法

Similar Documents

Publication Publication Date Title
CN102254011A (zh) 一种动态多文档文摘建模方法
Zaidan et al. Arabic dialect identification
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
CN103064969A (zh) 自动建立关键词索引表的方法
CN102663139A (zh) 一种情感词典构建方法及系统
CN106055623A (zh) 一种跨语言推荐方法和系统
CN102262663B (zh) 一种软件缺陷报告修复方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
Khana et al. Named entity dataset for Urdu named entity recognition task
Tran et al. ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
Kogilavani et al. Clustering based optimal summary generation using genetic algorithm
Yanti et al. Application of named entity recognition via Twitter on SpaCy in Indonesian (case study: Power failure in the Special Region of Yogyakarta)
Uddin et al. A study on text summarization techniques and implement few of them for Bangla language
JP4525154B2 (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
Firdhous Automating legal research through data mining
Peng et al. Research on tree kernel-based personal relation extraction
Zheng et al. Architecture Descriptions Analysis Based on Text Mining and Crawling Technology
Zong et al. Research on alignment in the construction of parallel corpus
Ma et al. Combining n-gram and dependency word pair for multi-document summarization
Li et al. The first international ancient Chinese word segmentation and POS tagging bakeoff: Overview of the EvaHan 2022 evaluation campaign
Ma et al. Topic-based automatic summarization algorithm for Chinese short text
CN103678355A (zh) 文本挖掘方法和文本挖掘装置
Alashri et al. Lexi-augmenter: Lexicon-based model for tweets sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111123