CN101398814B - 一种同时抽取文档摘要和关键词的方法及系统 - Google Patents

一种同时抽取文档摘要和关键词的方法及系统 Download PDF

Info

Publication number
CN101398814B
CN101398814B CN2007101225303A CN200710122530A CN101398814B CN 101398814 B CN101398814 B CN 101398814B CN 2007101225303 A CN2007101225303 A CN 2007101225303A CN 200710122530 A CN200710122530 A CN 200710122530A CN 101398814 B CN101398814 B CN 101398814B
Authority
CN
China
Prior art keywords
sentence
word
document
weight
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101225303A
Other languages
English (en)
Other versions
CN101398814A (zh
Inventor
万小军
杨建武
吴於茜
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder E-Government Technology Co Ltd
Peking University
Peking University Founder Group Co Ltd
Original Assignee
Peking University Founder E-Government Technology Co Ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder E-Government Technology Co Ltd, Peking University, Peking University Founder Group Co Ltd filed Critical Peking University Founder E-Government Technology Co Ltd
Priority to CN2007101225303A priority Critical patent/CN101398814B/zh
Publication of CN101398814A publication Critical patent/CN101398814A/zh
Application granted granted Critical
Publication of CN101398814B publication Critical patent/CN101398814B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。

Description

一种同时抽取文档摘要和关键词的方法及系统
技术领域
本发明属于语言文字处理及信息检索技术领域,具体涉及一种对文档摘要和关键词进行统一抽取的方法。
背景技术
文档摘要和关键词抽取都是自动从给定文档中摘取精要或要点,两者的目的都是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。文档摘要和关键词抽取的主要不同点在于文档摘要由句子组成,而关键词则由词语组成,也就是说,二者的抽取粒度不同。文档摘要和关键词抽取是自然语言处理领域的核心问题之一,广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。
概括来说,文档自动摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性,这个过程通常需要综合考虑句子的不同特征,例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中记载了多种关于单文档自动摘要的方法。文章The automatedacquisition of topic signatures for text Summarization(作者为C.-Y.Lin和E.Hovy,发表于2000年出版的论文集:Proceedings of ACL2000)描述了SUMMARIST系统,该系统利用主题签名(Topic Signature)来表示文档主题,一个主题签名由一个主题概念和若干相关词汇组成,然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexical chains(作者为H.G.Silber和K.McCoy,发表于2000年出版的论文集:Proceedings of the 5th InternationalConference on Intelligent User Interfaces)先对文档进行分析,得到词汇链(Lexical Chain),一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A trainable document summarizer(作者为J.Kupiec,J.Pedersen和F.Chen,发表于1995年出版的论文集:Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题,利用贝叶斯分类器综合多种特征对句子进行选择。文章The use of MMR,diversity-based reranking forreordering documents and producing summaries(作者为Jaime Carbonell和JadeGoldstein,发表于1998年出版的论文集:Proceedings of SIGIR1998)描述了最大边缘相关性(MMR)技术,常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic text summarization using relevance measure and latent semanticanalysis(作者为Y.H.Gong和X.Liu,发表于2001年出版的论文集:Proceedingsof SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子,并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后,就从文档中去掉这个句子中包含的词,这样保证每次抽取句子的新颖性。此外,文章TextRank:bringing order into texts(作者为R.Mihalcea和P.Tarau,发表于2004年出版的论文集:Proceedings of EMNLP2004)和文章A languageindependent algorithm for single and multiple document summarization(作者为R.Mihalcea和P.Tarau,发表于2005年出版的论文集:Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点,根据句子之间的相似关系建立连接,然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”,相邻的句子之间互相“选举”或“推荐”,一个句子获得的“选举”或“推荐”越多,该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。
关键词抽取方法通常在对文本进行分词之后,对每个词语赋予一定权重,反映其重要性,然后选取权重最大的若干个词语作为关键词。一般考虑的词语特征包括词频、倒排文档频率、词的位置、词长度、词性等。机器学习的方法通常用来自动组合多种特征,取得对词语重要性的可靠评估。KEA和GenEx就是利用分类模型来选择关键词的两个典型系统,文章KEA:Practicalautomatic keyphrase extraction(作者为I.H.Witten和G.W.Paynter等人,发表于1999年出版的论文集:Proceedings of Digital Libraries 1999)对KEA系统进行了详细的描述。文章Learning algorithms for keyphrase extraction(作者为P.D.Turney,发表于2000年出版的期刊:Information Retrieval第2期)对GenEx系统进行了详细的描述。文章Improved automatic keyword extraction given morelinguistic knowledge(作者为A.Hulth,发表于2003年出版的论文集:Proceedingsof EMNLP2003)采用了更多的句法特征来改进关键词抽取的效果。此外,文章TextRank:bringing order into texts(作者为R.Mihalcea和P.Tarau,发表于2004年出版的论文集:Proceedings of EMNLP2004)提出了基于图排列的方法对词语权重进行评估。文档中的词语作为图中的顶点,根据词语之间的共现关系建立连接,然后基于该图利用类似PageRank或HITS算法计算词语重要性。
以上所有方法均只处理一种信息抽取任务,要么进行文档摘要抽取,要么进行关键词抽取。这些方法将文档摘要和关键词抽取这两个密切相关的任务分割开来,无法高效、同时抽取文档摘要和关键词。
发明内容
考虑到文档摘要和关键词抽取的密切相关性,本发明的目的是提供一种同时对文档摘要和关键词进行统一抽取的方法,该方法通过利用文档句子之间、词语之间、以及句子和词语之间这三种关系更好地评估句子和词语的重要性,能够同时为文档生成更好的摘要和关键词。
为达到以上目的,本发明采用的技术方案是:一种同时抽取文档摘要和关键词的方法,包括以下步骤:
一种同时抽取文档摘要和关键词的方法,包括以下步骤:
(1)读入文档,对文档进行分句、分词,得到句子集合以及词集合;
(2)分别构建句子-句子、词语-词语以及句子-词语关系图;
(3)基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重;
(4)挑选权重大的句子进行冗余消除,得到文档摘要;挑选权重大的词语进行组合,得到文档关键词。
进一步,先将文档划分为m个单个句子,得到句子集合S={si|1≤i≤m};再对每个句子进行分词,过滤掉停用词,得到对应的n个词的集合T={tj|1≤j≤n},其中m和n均为正整数。
进一步,对句子集合S构建句子-句子关系图GSS的步骤如下:
对S中任意两个不同的句子si和sj利用下列余弦公式计算内容相似度值:
sim ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中,1≤i,j≤m,i≠j,每个句子向量的每一维为句子中的一个词,词t权重为tft×isft,tft为词t在句子中的频率,isft为词t的倒排句子频率,也就是1+log(N/nt),其中N是背景文档集合中所有句子的数量,nt是其中包含词t的句子的数量;
每个句子作为图GSS中的一个顶点,如果任意两个不同句子之间的相似度值大于0,那么在这两个句子对应的顶点之间建立一条边;
得到的图GSS的邻接矩阵为U=(Uij)m×m定义如下:
Figure DEST_PATH_GA20191507200710122530301D00021
矩阵U经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure DEST_PATH_GA20191507200710122530301D00022
Figure DEST_PATH_GA20191507200710122530301D00023
进一步,计算两个句子相似度值时,除了余弦公式之外,还可以采用Jaccard公式、Dice公式、或者Overlap公式。
进一步,对词语集合T构建词语-词语关系图GTT的步骤如下:
对T中任意两个不同的词语ti和tj利用下列互信息方法Mutual Information计算语义相似度值:
sim ( t i , t j ) = log N × p ( t i , t j ) p ( t i ) × p ( t j ) - - - ( 4 )
其中,1≤i,j≤n,i≠j,N是背景文档集合中所有词语的数量;p(ti)和p(tj)分别表示词ti和tj在文档集中出现的概率,p(ti)=count(ti)/N,p(tj)=count(tj)/N,其中count(ti)和count(tj)分别是词ti和tj在文档集中出现的次数;p(ti,tj)表示词ti和tj在一定窗口大小内共同出现的概率,p(ti,tj)=count(ti,tj)/N,其中count(ti,tj)是词ti和tj在一定窗口大小内共同出现的次数;
窗口大小设为正整数k,k在2到10之间,只有当词ti和tj在文本中最大间隔距离为k个词时,它们才被认为是共同出现的;不同的窗口大小影响到最终计算得到的词语语义相似度值;
每个词语作为图GTT中的一个顶点,如果任意两个不同词语之间的语义相似度值大于0,那么在这两个词语对应的顶点之间建立一条边;
得到的图GTT的邻接矩阵为V=(Vij)n×n定义如下:
Figure DEST_PATH_GA20191507200710122530301D00031
对矩阵V经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure DEST_PATH_GA20191507200710122530301D00032
进一步,计算两个词语语义相似度时,除了互信息方法之外,还可以采用对数似然比Log Likelihood Ratio统计方法、卡方检验(Chi-squared)统计方法,或者基于词典的知识方法进行计算。
进一步,对句子集合S和词语集合T之间构建句子-词语关系图GST的步骤如下:
对S中任一句子si与T中任一词语tj利用下列公式计算词tj在句子si中的重要程度:
aff ( s i , t j ) = tf t j × isf t j Σ t ∈ s i tf t × isf t - - - ( 6 )
Figure DEST_PATH_GA20191507200710122530301D00034
分别为词tj在句子si中的词频与倒排句子频率;
Figure DEST_PATH_GA20191507200710122530301D00036
为句子si中所有词的权重之和;
若aff(si,tj)>0,则在si和tj之间建立一条连接,即在图GST中si和tj之间添加一条边,得到图GST的邻接矩阵为W=(Wij)m×n,其中Wij=aff(si,tj);对矩阵W经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure DEST_PATH_GA20191507200710122530301D00037
同理,对矩阵W的转置矩阵WT进行规范化,得到矩阵
Figure DEST_PATH_GA20191507200710122530301D00038
进一步,基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的重要性权重,具体步骤如下:
8.1用u=[u(si)]m×1和v=[v(tj)]n×1分别表示句子权重向量与词语权重向量,权重初始值均设为1;
8.2利用下列公式计算句子权重:
u ( n ) = α U ~ T u ( n - 1 ) + β W ^ T v ( n - 1 ) - - - ( 7 )
其中u(n)表示当前的句子权重向量,u(n-1)表示上次计算得到的句子权重向量,α与β为权重参数,0≤α,β≤1,并且α+β=1;
8.3对句子权重进行规范化,使所有句子权重之和为1:
              u(n)=u(n)/‖u(n)1         (8)
8.4利用下列公式计算词语权重:
v ( n ) = α V ~ T v ( n - 1 ) + β W ~ T u ( n - 1 ) - - - ( 9 )
其中v(n)表示当前的词语权重向量,v(n-1)表示上次计算得到的词语权重向量,α与β为权重参数,0≤α,β≤1,并且α+β=1;
8.5对词语权重进行规范化,使得所有词语权重之和为1:
               V(n)=V(n)/‖V(n)1           (10)
8.6循环执行步骤8.2到步骤8.5,直到句子权重和词语权重收敛为止,也就是说,任一句子或词语的当前权重与上次循环中计算得到的权重相差小于一个设定的阈值,所述阈值设为0.0001。
以上迭代计算基于以下四个假设:
假设1:一个句子与越多的重要句子相关联,这个句子越重要;
假设2:一个句子包含越多的重要词语,这个句子越重要;
假设3:一个词语与越多的重要词语相关联,这个词语越重要;
假设4:一个词语出现在越多的重要句子中,这个词语越重要;
对假设1和假设2进行统一得到公式(7),α与β分别调节根据这两个假设计算句子最终权重的影响;对假设3和假设4进行统一得到公式(9),α与β分别调节根据这两个假设计算词语最终权重的影响。
进一步,步骤8.2和步骤8.4中,α=β=0.5。
进一步,所述对句子进行冗余消除,得到文档摘要的步骤中,进行冗余消除的方法具体采用如下的步骤计算每个句子的最终排列值,最后按照最终排列值由大到小选择2-10个句子形成文档摘要:
1)对文档初始化两个集合A=φ,B={si |i=1,2,...,m},B包括文档中的所有句子,每个句子的最终排列值初始化为前面步骤计算得到的句子权重,即r(si)=u(si),i=1,2,...m;
2)按照当前最终排列值降序排列B中的句子;
3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj进行如下的冗余惩罚,j≠i:
r ( s j ) = r ( s j ) - U ~ ji · u ( s i ) - - - ( 11 )
4)循环执行步骤2)和步骤3),直到B=φ;
进一步,对重要的词语进行组合,得到最终的文档关键词,词语组合的目的是为了得到更具描述特性的词组;
具体方法为:根据词语权重由大到小选择前10个词语;如果这10个词语中任意两个或多个词语在文本中前后相邻,那么将这两个或多个词语组合在一起,形成一个词组,该词组权重为其包含的两个或多个词语权重之和;最后选择权重最大的2-5个词或词组作为关键词。
本发明还提供一种同时抽取文档摘要和关键词的装置,包括:
用于读入文档,对文档进行分句、分词,得到句子集合与词集合的功能模块;
用于分别构建句子-句子、词语-词语以及句子-词语关系图的功能模块;
用于基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重的功能模块;
用于选择权重大的句子进行冗余消除,得到文档摘要;选择权重大的词语进行组合,得到文档关键词的功能模块。
本发明的效果在于:综合利用句子-句子之间的内容相似关系、词语-词语之间的语义关系、句子-词语之间的共现关系,能够抽取到更好的摘要和关键词;对句子和词语的权重计算同时进行,可以同时抽取到文档摘要和关键词。
附图说明
图1是本发明所述方法的流程图。
具体实施方式
下面结合实施例和附图进一步阐明本发明所述的技术方案:
如图1所示,一种对文档摘要和关键词进行统一抽取的方法,包括以下步骤:
(1)读入文档,对文档进行分句、分词;
先将文档划分为单个句子,得到句子集合S={si|1≤i≤m};然后对每个句子进行分词,过滤掉停用词,得到对应的词的集合T={tj|1≤j≤n}。
(2)对句子集合S构建句子-句子关系图GSS
将每个句子作为图GSS的一个顶点,对S中任意两个不同的句子si和sj利用下列余弦公式计算内容相似度值:
sim ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中,l≤i,j≤m,i≠j,每个句子向量的每一维为句子中的一个词,词t权重为tft×isft,tft为词t在句子中的频率,isft为词t的倒排句子频率,也就是1+log(N/nt),其中N是背景文档集合中所有句子的数量,nt是其中包含词t的句子的数量,所述的背景文档集合通常比较大,使得计算出来的isf值更为准确。
如果sim(si,sj)>0,那么在si和sj之间建立一条连接,也就是在图GSS中si和sj之间添加一条边;
得到的图GSS的邻接矩阵为U=(Uij)m×m定义如下:
Figure S2007101225303D00101
矩阵U经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure S2007101225303D00102
Figure S2007101225303D00103
(3)对词语集合T构建词语一词语关系图GTT
将每个词语作为图GTT的一个顶点,对T中任意两个不同的词语ti和tj利用下列互信息方法(Mutual Information)计算语义相似度值:
sim ( t i , t j ) = log N × p ( t i , t j ) p ( t i ) × p ( t j ) - - - ( 4 )
其中,1≤i,j≤n,i≠j,N是背景文档集合中所有词语的数量;p(ti)和p(tj)分别表示词ti和tj在文档集中出现的概率,p(ti)=count(ti)/N,p(tj)=count(tj)/N,其中count(ti)和count(tj)分别是词ti和tj在文档集中出现的次数;p(ti,tj)表示词ti和tj在一定窗口大小内共同出现的概率,那么p(ti,tj)=count(ti,tj)/N,其中count(ti,tj)是词ti和tj在一定窗口大小内共同出现的次数。窗口大小设为正整数k,说明只有当词ti和tj在文本中最大间隔距离为k个词时,它们才被认为是共同出现的。不同的窗口大小影响到最终计算得到的词语语义相似度值。本实施例中令k为2。
如果sim(ti,tj)>0,那么在ti和tj之间建立一条连接,也就是在图GTT中ti和tj之间添加一条边;
得到的图GTT的邻接矩阵为V=(Vij)n×n定义如下:
Figure S2007101225303D00111
对矩阵V经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure S2007101225303D00112
(4)对句子集合S和词语集合T之间构建句子-词语关系图GST
将句子和词作为二部图GST的顶点,对S中任一句子si与T中任一词语tj利用下列公式计算词tj在句子si中的重要程度:
aff ( s i , t j ) = t f t j × is f t j Σ t ∈ s i t f t × is f t - - - ( 6 )
ftj与isftj分别为词tj在句子si中的词频与倒排句子频率。 Σ t ∈ s i t f t × is f t 为句子si中所有词的权重之和。
如果aff(si,tj)>0,那么在si和tj之间建立一条连接,也就是在图GST中si和tj之间添加一条边,得到图GST的邻接矩阵为W=(Wij)m×n,其中Wij=aff(si,tj)。对矩阵W经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure S2007101225303D00115
。同理,对矩阵W的转置矩阵WT进行规范化,得到矩阵
(5)利用相互增强算法迭代计算句子和词语的权重;
基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法同时计算句子和词语的重要性权重的步骤如下:
5.1)用u=[u(si)]m×1和v=[v(tj)]n×1分别表示句子权重向量与词语权重向量,权重初始值均设为1;
5.2)利用下列公式计算句子权重:
u ( n ) = α U ~ T u ( n - 1 ) + β W ^ T v ( n - 1 ) - - - ( 7 )
其中u(n)表示当前的句子权重向量,u(n-1)表示上次计算得到的句子权重向量。α与β为权重参数,0≤α,β≤1,并且α+β=1;本实施例中令α=β=0.5;
5.3)对句子权重进行规范化,使所有句子权重之和为1:
u(n)=u(n)/‖u(n)1     (8)
5.4)利用下列公式计算词语权重:
v ( n ) = α V ~ T v ( n - 1 ) + β W ~ T u ( n - 1 ) - - - ( 9 )
其中v(n)表示当前的词语权重向量,v(n-1)表示上次计算得到的词语权重向量。α与β为权重参数,0≤α,β≤1,并且α+β=1;本实施例中令α=β=0.5;
5.5)对词语权重进行规范化,使得所有词语权重之和为1:
v(n)=v(n)/‖v(n)1     (10)
5.6)循环执行步骤5.2)到步骤5.5),直到句子权重和词语权重收敛为止,也就是说,任一句子或词语的当前权重与上次循环中计算得到的权重相差小于一个设定的阈值,设为0.0001。
以上迭代计算基于以下四个假设:
假设1:一个句子与越多的重要句子相关联,这个句子越重要;
假设2:一个句子包含越多的重要词语,这个句子越重要;
假设3:一个词语与越多的重要词语相关联,这个词语越重要;
假设4:一个词语出现在越多的重要句子中,这个词语越重要;
对假设1和假设2进行统一得到公式(7),α与β分别调节根据这两个假设计算句子最终权重的影响;对假设3和假设4进行统一得到公式(9),α与β分别调节根据这两个假设计算词语最终权重的影响。
(6)对权重较大的句子进行冗余消除,得到文档摘要。进行冗余消除的方法一般为采用如下的步骤计算每个句子的最终排列值,最后按照最终排列值由大到小选择2-10个句子形成摘要:
6.1)对文档初始化两个集合A=φ,B={si|i=1,2,...,m},B包括文档中的所有句子,每个句子的最终排列值初始化为前面步骤计算得到的句子权重,也就是说r(si)=u(si),i=1,2,...m;
6.2)按照当前最终排列值降序排列B中的句子;
6.3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj进行如下的冗余惩罚,j≠i:
r ( s j ) = r ( s j ) - U ~ ji · u ( s i ) - - - ( 11 )
6.4)循环执行步骤6.2)和步骤6.3),直到B=φ。
(7)对权重较大的词语进行组合,得到文档关键词。具体方法为:根据词语权重由大到小选择前10个词语;如果这10个词语中任意两个(或多个)词语在文本中前后相邻,那么将这两个(或多个)词语组合在一起,形成一个词组,该词组权重为其包含的两个(或多个)词语权重之和;最后选择权重最大的2-5个词或词组作为关键词。
词语组合的目的是为了得到更具描述特性的词组,如果两个词语在文本中前后相邻,那么将这两个词语组合在一起,形成一个词组。通常选择2-5个词或词组作为文档关键词。
本发明还提供一种对文档摘要和关键词进行统一抽取的系统,用于对给定文档同时进行摘要和关键词抽取,包括以下装置:文档输入处理装置,句子-句子关系图构建装置,词语-词语关系图构建装置,句子-词语关系图构建装置,句子与词语权重计算装置,文档摘要生成装置,文档关键词生成装置;
其中,文档输入处理装置用于读入文档,对文档进行分句、分词,并过滤停用词,得到句子集合与词语集合;
句子-句子关系图构建装置,用于对句子集合按照句子之间内容相似度构建关系图;
词语-词语关系图构建装置,用于对词语集合按照词语之间语义相似度构建关系图;
句子-词语关系图构建装置,用于对句子和词语两个集合按照词语在句子中的重要程度构建关系图;
句子与词语权重计算装置,用于计算句子和词语的权重,利用相互增强算法迭代计算句子和词语的权重;
文档摘要生成装置,用于选择权重大的2-10个句子,并对句子进行冗余消除,得到文档摘要;
文档关键词生成装置,用于选择权重大的2-5个词语,并对词语进行组合,得到文档关键词。
为了验证本发明对文档摘要的有效性,采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002的单文档摘要评测任务,也就是DUC2002的第1个评测任务。DUC2002的单文档摘要任务提供了567篇文档,要求参评者为每篇文档提供100字以内长度的摘要,文档来源于TREC-9。参评者提交的摘要将与人工摘要进行对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法,包括三个评价指标ROUGE-1,ROUGE-2和ROUGE-W,ROUGE值越大,效果越好,ROUGE-1值是最主要的评价指标。本发明所述的方法和只考虑句子-句子关系的方法(SentenceRank),以及只考虑句子-词语关系的方法(MutualRank)进行对比,实验结果如表1所示。
表1:在DUC2002评测数据上的摘要比较结果
 系统   ROUGE-1   ROUGE-2   ROUGE-W
 本发明   0.47281   0.20281   0.16373
 SentenceRank   0.46261   0.19457   0.16018
 MutualRank   0.43805   0.17253   0.15221
实验结果表明,本发明所述的方法在三个指标上的表现都要比其他两种方法优异。
ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者:C.-Y.Lin and E.H.Hovy,发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))
为了验证本发明对文档关键词抽取的有效性,仍采用DUC2002的数据作为评测。对其中的34篇文档进行手工选择关键词,将系统生成的关键词与手工标注关键词进行对比,评测指标为准确率、召回率以及F值。本发明所述的方法和只考虑词语-词语关系的方法(WordRank),以及只考虑句子-词语关系的方法(MutualRank)进行对比,实验结果如表2所示。
表2:在DUC2002评测数据上的关键词比较结果
系统     准确率     召回率     F值
本发明     0.428     0.485     0.455
SentenceRank     0.373     0.412     0.392
MutualRank     0.355     0.397     0.375
实验结果表明,本发明所述的方法在三个指标上的表现都要比其他两种方法优异。
本发明所述的方法并不限于具体实施方式中所述的实施例。步骤(2)中计算两个句子相似度值时,除了余弦公式之外,还可以采用Jaccard公式、Dice公式、Overlap公式等。步骤(3)中计算两个词语语义相似度时,除了上述互信息方法之外,还可以采用对数似然比(Log Likelihood Ratio),卡方检验(Chi-squared)等统计方法,以及基于词典(例如WordNet,知网等)的知识方法进行计算。
本发明的效果在于:综合利用句子-句子之间的内容相似关系、词语-词语之间的语义关系、句子-词语之间的共现关系,能够抽取到更好的摘要和关键词;对句子和词语的权重计算同时进行,可以同时抽取到文档摘要和关键词。
本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (11)

1.一种同时抽取文档摘要和关键词的方法,其特征在于,包括以下步骤:
(1)读入文档,对文档进行分句、分词,得到句子集合以及词集合;
(2)分别构建句子-句子、词语-词语以及句子-词语关系图;
(3)基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重;
(4)挑选权重大的句子进行冗余消除,得到文档摘要;挑选权重大的词语进行组合,得到文档关键词。
2.如权利要求1所述的同时抽取文档摘要和关键词的方法,其特征在于,先将文档划分为m个单个句子,得到句子集合S={si|1≤i≤m};再对每个句子进行分词,过滤掉停用词,得到对应的n个词的集合T={tj|1≤j≤n},其中m和n均为正整数。
3.如权利要求2所述的同时抽取文档摘要和关键词的方法,其特征在于,对句子集合S构建句子-句子关系图GSS的步骤如下:
对S中任意两个不同的句子si和sj利用下列余弦公式计算内容相似度值:
sim ( s i , s j ) = cos ( s → i , s → j ) = s → i · s → j | | s → i | | · | | s → j | | - - - ( 1 )
其中,1≤i,j≤m,i≠j,每个句子向量的每一维为句子中的一个词,词t权重为tft×isft,tft为词t在句子中的频率,isft为词t的倒排句子频率,也就是1+log(N/nt),其中N是背景文档集合中所有句子的数量,nt是其中包含词t的句子的数量;
每个句子作为图GSS中的一个顶点,如果任意两个不同句子之间的相似度值大于0,那么在这两个句子对应的顶点之间建立一条边;
得到的图GSS的邻接矩阵为U=(Uij)m×m定义如下:
Figure FA20191507200710122530301C00021
矩阵U经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵
Figure FA20191507200710122530301C00022
Figure FA20191507200710122530301C00023
4.如权利要求3所述的同时抽取文档摘要和关键词的方法,其特征在于,计算两个句子相似度值时,除了余弦公式之外,还可以采用Jaccard公式、Dice公式、或者Overlap公式。
5.如权利要求3所述的同时抽取文档摘要和关键词的方法,其特征在于,对词语集合T构建词语-词语关系图GTT的步骤如下:
对T中任意两个不同的词语ti和tj利用下列互信息方法Mutual Information计算语义相似度值:
sim ( t i , t j ) = log N × p ( t i , t j ) p ( t i ) × p ( t j ) - - - ( 4 )
其中,1≤i,j≤n,i≠j,N是背景文档集合中所有词语的数量;p(ti)和p(tj)分别表示词ti和tj在文档集中出现的概率,p(ti)=count(ti)/N,p(tj)=count(tj)/N,其中count(ti)和count(tj)分别是词ti和tj在文档集中出现的次数;p(ti,tj)表示词ti和tj在一定窗口大小内共同出现的概率,p(ti,tj)=count(ti,tj)/N,其中count(ti,tj)是词ti和tj在一定窗口大小内共同出现的次数;
窗口大小设为正整数k,k在2到10之间,只有当词ti和tj在文本中最大间隔距离为k个词时,它们才被认为是共同出现的;不同的窗口大小影响到最终计算得到的词语语义相似度值;
每个词语作为图GTT中的一个顶点,如果任意两个不同词语之间的语义相似度值大于0,那么在这两个词语对应的顶点之间建立一条边;得到的图GTT的邻接矩阵为V=(Vij)n×n定义如下:
Figure FA20191507200710122530301C00031
对矩阵V经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure FA20191507200710122530301C00032
6.如权利要求5所述的同时抽取文档摘要和关键词的方法,其特征在于,步骤(3)中计算两个词语语义相似度时,除了上述互信息方法之外,还可以采用对数似然比Log Likelihood Ratio统计方法、卡方检验Chi-squared统计方法,或者基于词典的知识方法进行计算。
7.如权利要求2所述的同时抽取文档摘要和关键词的方法,其特征在于,对句子集合S和词语集合T之间构建句子-词语关系图GST的步骤如下:
对S中任一句子si与T中任一词语tj利用下列公式计算词tj在句子si中的重要程度:
aff ( s i , t j ) = tf t j × isf t j Σ t ∈ s i tf t × isf t - - - ( 6 )
Figure FA20191507200710122530301C00034
Figure FA20191507200710122530301C00035
分别为词tj在句子si中的词频与倒排句子频率;
Figure FA20191507200710122530301C00036
为句子si中所有词的权重之和;
若aff(si,tj)>0,则在si和tj之间建立一条连接,即在图GST中si和tj之间添加一条边,得到图GST的邻接矩阵为W=(Wij)m×n,其中Wij=aff(si,tj);对矩阵W经过与公式(3)相同的规范化使得其每一行元素值之和为1,得到新的邻接矩阵
Figure FA20191507200710122530301C00037
同理,对矩阵W的转置矩阵WT进行规范化,得到矩阵
Figure FA20191507200710122530301C00038
8.如权利要求1所述的同时抽取文档摘要和关键词的方法,其特征在于,步骤(3)基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的重要性权重,具体步骤如下:
8.1用u=[u(si)]m×1和v=[v(tj)]n×1分别表示句子权重向量与词语权重向量,权重初始值均设为1;
8.2利用下列公式计算句子权重:
u ( n ) = α U ~ T u ( n - 1 ) + β W ^ T v ( n - 1 ) - - - ( 7 )
其中u(n)表示当前的句子权重向量,u(n-1)表示上次计算得到的句子权重向量,α与β为权重参数,0≤α,β≤1,并且α+β=1;
8.3对句子权重进行规范化,使所有句子权重之和为1:
u(n)=u(n)/‖u(n)1          (8)
8.4利用下列公式计算词语权重:
v ( n ) = α V ~ T v ( n - 1 ) + β W ~ T u ( n - 1 ) - - - ( 9 )
其中v(n)表示当前的词语权重向量,v(n-1)表示上次计算得到的词语权重向量,α与β为权重参数,0≤α,β≤1,并且α+β=1;
8.5对词语权重进行规范化,使得所有词语权重之和为1:
    V(n)=v(n)/‖v(n)1              (10)
8.6循环执行步骤8.2到步骤8.5,直到句子权重和词语权重收敛为止,也就是说,任一句子或词语的当前权重与上次循环中计算得到的权重相差小于一个设定的阈值,所述阈值设为0.0001。
9.如权利要求8所述的同时抽取文档摘要和关键词的方法,其特征在于,步骤8.2和步骤8.4中,α=β=0.5。
10.如权利要求1所述的同时抽取文档摘要和关键词的方法,其特征在于,所述对句子进行冗余消除,得到文档摘要的步骤中,进行冗余消除的方法具体采用如下的步骤计算每个句子的最终排列值,最后按照最终排列值由大到小选择2-10个句子形成文档摘要:
1)对文档初始化两个集合A=φ,B={si |i=1,2,...,m},B包括文档中的所有句子,每个句子的最终排列值初始化为前面步骤计算得到的句子权重,即r(si)=u(si),i=1,2,...m;
2)按照当前最终排列值降序排列B中的句子;
3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj进行如下的冗余惩罚,j≠i:
r ( s j ) = r ( s j ) - U ~ ji · u ( s i ) - - - ( 11 )
4)循环执行步骤2)和步骤3),直到B=φ;
对重要的词语进行组合,得到最终的文档关键词,词语组合的目的是为了得到更具描述特性的词组;
具体方法为:根据词语权重由大到小选择前10个词语;如果这10个词语中任意两个或多个词语在文本中前后相邻,那么将这两个或多个词语组合在一起,形成一个词组,该词组权重为其包含的两个或多个词语权重之和;最后选择权重最大的2-5个词或词组作为关键词。
11.一种同时抽取文档摘要和关键词的装置,其特征在于,包括:
用于读入文档,对文档进行分句、分词,得到句子集合与词集合的功能模块;
用于分别构建句子-句子、词语-词语以及句子-词语关系图的功能模块;
用于基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重的功能模块;
用于选择权重大的句子进行冗余消除,得到文档摘要;选择权重大的词语进行组合,得到文档关键词的功能模块。
CN2007101225303A 2007-09-26 2007-09-26 一种同时抽取文档摘要和关键词的方法及系统 Expired - Fee Related CN101398814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101225303A CN101398814B (zh) 2007-09-26 2007-09-26 一种同时抽取文档摘要和关键词的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101225303A CN101398814B (zh) 2007-09-26 2007-09-26 一种同时抽取文档摘要和关键词的方法及系统

Publications (2)

Publication Number Publication Date
CN101398814A CN101398814A (zh) 2009-04-01
CN101398814B true CN101398814B (zh) 2010-08-25

Family

ID=40517377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101225303A Expired - Fee Related CN101398814B (zh) 2007-09-26 2007-09-26 一种同时抽取文档摘要和关键词的方法及系统

Country Status (1)

Country Link
CN (1) CN101398814B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576872B (zh) * 2009-06-16 2014-05-28 北京系统工程研究所 一种中文文本处理方法及装置
CN102314448B (zh) * 2010-07-06 2013-12-04 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
CN102385574B (zh) * 2010-09-01 2014-08-20 株式会社理光 从文档抽取句子的方法和装置
US9122673B2 (en) 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
CN104376024B (zh) * 2013-08-16 2017-12-15 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN103593339A (zh) * 2013-11-29 2014-02-19 哈尔滨工业大学深圳研究生院 面向电子图书的语义空间表示方法及系统
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
CN105488021B (zh) * 2014-09-15 2018-09-28 华为技术有限公司 一种生成多文档摘要的方法和装置
CN105468657B (zh) * 2014-09-26 2019-06-04 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
CN104573027B (zh) * 2015-01-13 2018-07-24 清华大学 一种从文档集中挖掘特征词的系统和方法
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN105488024B (zh) * 2015-11-20 2017-10-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105868178B (zh) * 2016-03-28 2018-07-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法
CN106055614A (zh) * 2016-05-26 2016-10-26 天津海量信息技术股份有限公司 基于多个语义摘要的内容相似性分析方法
CN106372043B (zh) * 2016-09-07 2018-11-23 福建师范大学 一种基于改进的Jaccard系数确定文档相似度的方法
CN108228541B (zh) * 2016-12-22 2021-08-03 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN106991592B (zh) * 2017-03-22 2021-01-01 南京财经大学 一种基于购买用户行为分析的个性化推荐方法
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108733682B (zh) * 2017-04-14 2021-06-22 华为技术有限公司 一种生成多文档摘要的方法及装置
CN107133213B (zh) * 2017-05-06 2020-09-25 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN108959312B (zh) 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN107609389B (zh) * 2017-08-24 2020-10-30 南京理工大学 一种基于图像内容相关性的验证方法及系统
CN107766325B (zh) * 2017-09-27 2021-05-28 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN109783795B (zh) * 2017-11-14 2022-05-06 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN108038189A (zh) * 2017-12-11 2018-05-15 南京茂毓通软件科技有限公司 一种电子邮件的信息提取系统
CN108121702B (zh) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 数学主观题评阅方法及系统
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108763353B (zh) * 2018-05-14 2022-03-15 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108763206B (zh) * 2018-05-22 2022-04-05 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109063147A (zh) * 2018-08-06 2018-12-21 北京航空航天大学 基于文本相似度的在线课程论坛内容推荐方法及系统
CN109325109B (zh) * 2018-08-27 2021-11-19 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置
CN109726282A (zh) * 2018-12-26 2019-05-07 东软集团股份有限公司 一种生成文章摘要的方法、装置、设备和存储介质
CN110287284B (zh) * 2019-05-23 2021-07-06 北京百度网讯科技有限公司 语义匹配方法、装置及设备
CN112116368A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 对向人群推荐内容的设备进行标注的方法和装置及处理器
CN112116367A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 用于推荐广告的方法和装置、机器可读存储介质及处理器
CN110825870B (zh) * 2019-10-31 2023-07-14 腾讯科技(深圳)有限公司 文档摘要的获取方法和装置、存储介质及电子装置
CN110889282B (zh) * 2019-11-28 2023-03-21 哈尔滨工程大学 一种基于深度学习的文本情感分析方法
CN110888986B (zh) * 2019-12-06 2023-05-30 北京明略软件系统有限公司 信息推送方法、装置、电子设备和计算机可读存储介质
CN111274537B (zh) * 2020-01-20 2021-12-31 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN111460131A (zh) * 2020-02-18 2020-07-28 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
CN111737523B (zh) * 2020-04-22 2023-11-14 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器
CN111222333A (zh) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 一种基于网络高阶结构和主题模型融合的关键词抽取方法
CN113268982B (zh) * 2021-06-03 2024-05-28 湖南四方天箭信息科技有限公司 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质
CN113420550B (zh) * 2021-06-30 2024-03-01 中国农业银行股份有限公司 提取关键词的方法及装置
CN114328826B (zh) * 2021-12-20 2024-06-11 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2004-178123A 2004.06.24

Also Published As

Publication number Publication date
CN101398814A (zh) 2009-04-01

Similar Documents

Publication Publication Date Title
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
Khan et al. Abstractive text summarization based on improved semantic graph approach
Gharehchopogh et al. Analysis and evaluation of unstructured data: text mining versus natural language processing
Wan et al. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction
Wang et al. Using word embeddings to enhance keyword identification for scientific publications
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
Alzuhair et al. An approach for combining multiple weighting schemes and ranking methods in graph-based multi-document summarization
Rahman et al. Improvement of query-based text summarization using word sense disambiguation
Haque et al. Literature review of automatic multiple documents text summarization
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
Ramprasath et al. A survey on question answering system
CN100435145C (zh) 一种基于句子关系图的多文档摘要方法
Awajan Semantic similarity based approach for reducing Arabic texts dimensionality
CN106599072A (zh) 一种文本聚类方法及装置
Gopan et al. Comparative study on different approaches in keyword extraction
Sheeba et al. Improved keyword and keyphrase extraction from meeting transcripts
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
Madnani et al. Multiple alternative sentence compressions for automatic text summarization
Reddy et al. An efficient approach for web document summarization by sentence ranking
Cai et al. Enhancing sentence‐level clustering with integrated and interactive frameworks for theme‐based summarization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100825