CN101398814B

CN101398814B - 一种同时抽取文档摘要和关键词的方法及系统

Info

Publication number: CN101398814B
Application number: CN2007101225303A
Authority: CN
Inventors: 万小军; 杨建武; 吴於茜; 肖建国
Original assignee: Peking University Founder E-Government Technology Co Ltd; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University Founder E-Government Technology Co Ltd; Peking University; Peking University Founder Group Co Ltd
Priority date: 2007-09-26
Filing date: 2007-09-26
Publication date: 2010-08-25
Anticipated expiration: 2027-09-26
Also published as: CN101398814A

Abstract

本发明涉及一种同时抽取文档摘要和关键词的方法，属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务，分别对这两个任务进行处理。然而这两个任务具有相同的本质，本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学习模型综合利用文档中句子与句子、句子与词以及词与词之间的关系，对句子和词的重要性进行准确评估，最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法，一方面能够同时提取文档摘要和关键词，另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。

Description

一种同时抽取文档摘要和关键词的方法及系统

技术领域

本发明属于语言文字处理及信息检索技术领域，具体涉及一种对文档摘要和关键词进行统一抽取的方法。

背景技术

文档摘要和关键词抽取都是自动从给定文档中摘取精要或要点，两者的目的都是通过对原文本进行压缩、提炼，为用户提供简明扼要的内容描述。文档摘要和关键词抽取的主要不同点在于文档摘要由句子组成，而关键词则由词语组成，也就是说，二者的抽取粒度不同。文档摘要和关键词抽取是自然语言处理领域的核心问题之一，广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。

概括来说，文档自动摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术，在对原文档进行句法、语义分析之后，利用信息抽取或自然语言生成技术产生新的句子，从而形成摘要。基于句子抽取的方法比较简单实用，不需要利用深层的自然语言理解技术；该方法在对文本进行分句之后，对每个句子赋予一定权重，反映其重要性，然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性，这个过程通常需要综合考虑句子的不同特征，例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术，现有文献中记载了多种关于单文档自动摘要的方法。文章The automatedacquisition of topic signatures for text Summarization(作者为C.-Y.Lin和E.Hovy，发表于2000年出版的论文集：Proceedings of ACL2000)描述了SUMMARIST系统，该系统利用主题签名(Topic Signature)来表示文档主题，一个主题签名由一个主题概念和若干相关词汇组成，然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexical chains(作者为H.G.Silber和K.McCoy，发表于2000年出版的论文集：Proceedings of the 5^th InternationalConference on Intelligent User Interfaces)先对文档进行分析，得到词汇链(Lexical Chain)，一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A trainable document summarizer(作者为J.Kupiec，J.Pedersen和F.Chen，发表于1995年出版的论文集：Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题，利用贝叶斯分类器综合多种特征对句子进行选择。文章The use of MMR，diversity-based reranking forreordering documents and producing summaries(作者为Jaime Carbonell和JadeGoldstein，发表于1998年出版的论文集：Proceedings of SIGIR1998)描述了最大边缘相关性(MMR)技术，常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic text summarization using relevance measure and latent semanticanalysis(作者为Y.H.Gong和X.Liu，发表于2001年出版的论文集：Proceedingsof SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子，并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后，就从文档中去掉这个句子中包含的词，这样保证每次抽取句子的新颖性。此外，文章TextRank：bringing order into texts(作者为R.Mihalcea和P.Tarau，发表于2004年出版的论文集：Proceedings of EMNLP2004)和文章A languageindependent algorithm for single and multiple document summarization(作者为R.Mihalcea和P.Tarau，发表于2005年出版的论文集：Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点，根据句子之间的相似关系建立连接，然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”，相邻的句子之间互相“选举”或“推荐”，一个句子获得的“选举”或“推荐”越多，该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。

关键词抽取方法通常在对文本进行分词之后，对每个词语赋予一定权重，反映其重要性，然后选取权重最大的若干个词语作为关键词。一般考虑的词语特征包括词频、倒排文档频率、词的位置、词长度、词性等。机器学习的方法通常用来自动组合多种特征，取得对词语重要性的可靠评估。KEA和GenEx就是利用分类模型来选择关键词的两个典型系统，文章KEA：Practicalautomatic keyphrase extraction(作者为I.H.Witten和G.W.Paynter等人，发表于1999年出版的论文集：Proceedings of Digital Libraries 1999)对KEA系统进行了详细的描述。文章Learning algorithms for keyphrase extraction(作者为P.D.Turney，发表于2000年出版的期刊：Information Retrieval第2期)对GenEx系统进行了详细的描述。文章Improved automatic keyword extraction given morelinguistic knowledge(作者为A.Hulth，发表于2003年出版的论文集：Proceedingsof EMNLP2003)采用了更多的句法特征来改进关键词抽取的效果。此外，文章TextRank：bringing order into texts(作者为R.Mihalcea和P.Tarau，发表于2004年出版的论文集：Proceedings of EMNLP2004)提出了基于图排列的方法对词语权重进行评估。文档中的词语作为图中的顶点，根据词语之间的共现关系建立连接，然后基于该图利用类似PageRank或HITS算法计算词语重要性。

以上所有方法均只处理一种信息抽取任务，要么进行文档摘要抽取，要么进行关键词抽取。这些方法将文档摘要和关键词抽取这两个密切相关的任务分割开来，无法高效、同时抽取文档摘要和关键词。

发明内容

考虑到文档摘要和关键词抽取的密切相关性，本发明的目的是提供一种同时对文档摘要和关键词进行统一抽取的方法，该方法通过利用文档句子之间、词语之间、以及句子和词语之间这三种关系更好地评估句子和词语的重要性，能够同时为文档生成更好的摘要和关键词。

为达到以上目的，本发明采用的技术方案是：一种同时抽取文档摘要和关键词的方法，包括以下步骤：

一种同时抽取文档摘要和关键词的方法，包括以下步骤：

(1)读入文档，对文档进行分句、分词，得到句子集合以及词集合；

(2)分别构建句子-句子、词语-词语以及句子-词语关系图；

(3)基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重；

(4)挑选权重大的句子进行冗余消除，得到文档摘要；挑选权重大的词语进行组合，得到文档关键词。

进一步，先将文档划分为m个单个句子，得到句子集合S＝{s_i|1≤i≤m}；再对每个句子进行分词，过滤掉停用词，得到对应的n个词的集合T＝{t_j|1≤j≤n}，其中m和n均为正整数。

进一步，对句子集合S构建句子-句子关系图G_SS的步骤如下：

对S中任意两个不同的句子s_i和s_j利用下列余弦公式计算内容相似度值：

sim (s_{i}, s_{j}) = \cos ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{s}}_{j}) = \frac{{\overset{&RightArrow;}{s}}_{i} \cdot {\overset{&RightArrow;}{s}}_{j}}{| | {\overset{&RightArrow;}{s}}_{i} | | \cdot | | {\overset{&RightArrow;}{s}}_{j} | |} - - - (1)

其中，1≤i，j≤m，i≠j，每个句子向量的每一维为句子中的一个词，词t权重为tf_t×isf_t，tf_t为词t在句子中的频率，isf_t为词t的倒排句子频率，也就是1+log(N/n_t)，其中N是背景文档集合中所有句子的数量，n_t是其中包含词t的句子的数量；

每个句子作为图G_SS中的一个顶点，如果任意两个不同句子之间的相似度值大于0，那么在这两个句子对应的顶点之间建立一条边；

得到的图G_SS的邻接矩阵为U＝(U_ij)_m×m定义如下：

Figure DEST_PATH_GA20191507200710122530301D00021

矩阵U经过如下规范化使得每一行元素值之和为1，得到新的邻接矩阵

Figure DEST_PATH_GA20191507200710122530301D00022

Figure DEST_PATH_GA20191507200710122530301D00023

进一步，计算两个句子相似度值时，除了余弦公式之外，还可以采用Jaccard公式、Dice公式、或者Overlap公式。

进一步，对词语集合T构建词语-词语关系图G_TT的步骤如下：

对T中任意两个不同的词语t_i和t_j利用下列互信息方法Mutual Information计算语义相似度值：

sim (t_{i}, t_{j}) = \log \frac{N \times p (t_{i}, t_{j})}{p (t_{i}) \times p (t_{j})} - - - (4)

其中，1≤i，j≤n，i≠j，N是背景文档集合中所有词语的数量；p(t_i)和p(t_j)分别表示词t_i和t_j在文档集中出现的概率，p(t_i)＝count(t_i)/N，p(t_j)＝count(t_j)/N，其中count(t_i)和count(t_j)分别是词t_i和t_j在文档集中出现的次数；p(t_i，t_j)表示词t_i和t_j在一定窗口大小内共同出现的概率，p(t_i，t_j)＝count(t_i，t_j)/N，其中count(t_i，t_j)是词t_i和t_j在一定窗口大小内共同出现的次数；

窗口大小设为正整数k，k在2到10之间，只有当词t_i和t_j在文本中最大间隔距离为k个词时，它们才被认为是共同出现的；不同的窗口大小影响到最终计算得到的词语语义相似度值；

每个词语作为图G_TT中的一个顶点，如果任意两个不同词语之间的语义相似度值大于0，那么在这两个词语对应的顶点之间建立一条边；

得到的图G_TT的邻接矩阵为V＝(V_ij)_n×n定义如下：

Figure DEST_PATH_GA20191507200710122530301D00031

对矩阵V经过与公式(3)相同的规范化使得其每一行元素值之和为1，得到新的邻接矩阵

Figure DEST_PATH_GA20191507200710122530301D00032

进一步，计算两个词语语义相似度时，除了互信息方法之外，还可以采用对数似然比Log Likelihood Ratio统计方法、卡方检验(Chi-squared)统计方法，或者基于词典的知识方法进行计算。

进一步，对句子集合S和词语集合T之间构建句子-词语关系图G_ST的步骤如下：

对S中任一句子s_i与T中任一词语t_j利用下列公式计算词t_j在句子s_i中的重要程度：

aff (s_{i}, t_{j}) = \frac{{tf}_{t_{j}} \times {isf}_{t_{j}}}{\underset{t &Element; s_{i}}{Σ} {tf}_{t} \times {isf}_{t}} - - - (6)

Figure DEST_PATH_GA20191507200710122530301D00034

与分别为词t_j在句子s_i中的词频与倒排句子频率；

Figure DEST_PATH_GA20191507200710122530301D00036

为句子s_i中所有词的权重之和；

若aff(s_i，t_j)＞0，则在s_i和t_j之间建立一条连接，即在图G_ST中s_i和t_j之间添加一条边，得到图G_ST的邻接矩阵为W＝(W_ij)_m×n，其中W_ij＝aff(s_i，t_j)；对矩阵W经过与公式(3)相同的规范化使得其每一行元素值之和为1，得到新的邻接矩阵

Figure DEST_PATH_GA20191507200710122530301D00037

同理，对矩阵W的转置矩阵W^T进行规范化，得到矩阵

Figure DEST_PATH_GA20191507200710122530301D00038

进一步，基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的重要性权重，具体步骤如下：

8.1用u＝[u(s_i)]_m×1和v＝[v(t_j)]_n×1分别表示句子权重向量与词语权重向量，权重初始值均设为1；

8.2利用下列公式计算句子权重：

u^{(n)} = α {\tilde{U}}^{T} u^{(n - 1)} + β {\hat{W}}^{T} v^{(n - 1)} - - - (7)

其中u⁽ⁿ⁾表示当前的句子权重向量，u^(n-1)表示上次计算得到的句子权重向量，α与β为权重参数，0≤α，β≤1，并且α+β＝1；

8.3对句子权重进行规范化，使所有句子权重之和为1：

u⁽ⁿ⁾＝u⁽ⁿ⁾/‖u⁽ⁿ⁾‖₁ (8)

8.4利用下列公式计算词语权重：

v^{(n)} = α {\tilde{V}}^{T} v^{(n - 1)} + β {\tilde{W}}^{T} u^{(n - 1)} - - - (9)

其中v⁽ⁿ⁾表示当前的词语权重向量，v^(n-1)表示上次计算得到的词语权重向量，α与β为权重参数，0≤α，β≤1，并且α+β＝1；

8.5对词语权重进行规范化，使得所有词语权重之和为1：

V⁽ⁿ⁾＝V⁽ⁿ⁾/‖V⁽ⁿ⁾‖₁ (10)

8.6循环执行步骤8.2到步骤8.5，直到句子权重和词语权重收敛为止，也就是说，任一句子或词语的当前权重与上次循环中计算得到的权重相差小于一个设定的阈值，所述阈值设为0.0001。

以上迭代计算基于以下四个假设：

假设1：一个句子与越多的重要句子相关联，这个句子越重要；

假设2：一个句子包含越多的重要词语，这个句子越重要；

假设3：一个词语与越多的重要词语相关联，这个词语越重要；

假设4：一个词语出现在越多的重要句子中，这个词语越重要；

对假设1和假设2进行统一得到公式(7)，α与β分别调节根据这两个假设计算句子最终权重的影响；对假设3和假设4进行统一得到公式(9)，α与β分别调节根据这两个假设计算词语最终权重的影响。

进一步，步骤8.2和步骤8.4中，α＝β＝0.5。

进一步，所述对句子进行冗余消除，得到文档摘要的步骤中，进行冗余消除的方法具体采用如下的步骤计算每个句子的最终排列值，最后按照最终排列值由大到小选择2-10个句子形成文档摘要：

1)对文档初始化两个集合A＝φ，B＝{s_i |i＝1，2，...，m}，B包括文档中的所有句子，每个句子的最终排列值初始化为前面步骤计算得到的句子权重，即r(s_i)＝u(s_i)，i＝1，2，...m；

2)按照当前最终排列值降序排列B中的句子；

3)假定s_i是排名最高的句子，也就是序列中第一个句子，将s_i从B移到A，并且对B中每一个和s_i相邻接的句子s_j进行如下的冗余惩罚，j≠i：

r (s_{j}) = r (s_{j}) - {\tilde{U}}_{ji} \cdot u (s_{i}) - - - (11)

4)循环执行步骤2)和步骤3)，直到B＝φ；

进一步，对重要的词语进行组合，得到最终的文档关键词，词语组合的目的是为了得到更具描述特性的词组；

具体方法为：根据词语权重由大到小选择前10个词语；如果这10个词语中任意两个或多个词语在文本中前后相邻，那么将这两个或多个词语组合在一起，形成一个词组，该词组权重为其包含的两个或多个词语权重之和；最后选择权重最大的2-5个词或词组作为关键词。

本发明还提供一种同时抽取文档摘要和关键词的装置，包括：

用于读入文档，对文档进行分句、分词，得到句子集合与词集合的功能模块；

用于分别构建句子-句子、词语-词语以及句子-词语关系图的功能模块；

用于基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法迭代计算句子和词语的权重的功能模块；

用于选择权重大的句子进行冗余消除，得到文档摘要；选择权重大的词语进行组合，得到文档关键词的功能模块。

本发明的效果在于：综合利用句子-句子之间的内容相似关系、词语-词语之间的语义关系、句子-词语之间的共现关系，能够抽取到更好的摘要和关键词；对句子和词语的权重计算同时进行，可以同时抽取到文档摘要和关键词。

附图说明

图1是本发明所述方法的流程图。

具体实施方式

下面结合实施例和附图进一步阐明本发明所述的技术方案：

如图1所示，一种对文档摘要和关键词进行统一抽取的方法，包括以下步骤：

(1)读入文档，对文档进行分句、分词；

先将文档划分为单个句子，得到句子集合S＝{s_i|1≤i≤m}；然后对每个句子进行分词，过滤掉停用词，得到对应的词的集合T＝{t_j|1≤j≤n}。

(2)对句子集合S构建句子-句子关系图G_SS；

将每个句子作为图G_SS的一个顶点，对S中任意两个不同的句子s_i和s_j利用下列余弦公式计算内容相似度值：

sim (s_{i}, s_{j}) = \cos ({\overset{&RightArrow;}{s}}_{i}, {\overset{&RightArrow;}{s}}_{j}) = \frac{{\overset{&RightArrow;}{s}}_{i} \cdot {\overset{&RightArrow;}{s}}_{j}}{| | {\overset{&RightArrow;}{s}}_{i} | | \cdot | | {\overset{&RightArrow;}{s}}_{j} | |} - - - (1)

其中，l≤i，j≤m，i≠j，每个句子向量的每一维为句子中的一个词，词t权重为tf_t×isf_t，tf_t为词t在句子中的频率，isf_t为词t的倒排句子频率，也就是1+log(N/n_t)，其中N是背景文档集合中所有句子的数量，n_t是其中包含词t的句子的数量，所述的背景文档集合通常比较大，使得计算出来的isf值更为准确。

如果sim(s_i，s_j)＞0，那么在s_i和s_j之间建立一条连接，也就是在图G_SS中s_i和s_j之间添加一条边；

得到的图G_SS的邻接矩阵为U＝(U_ij)_m×m定义如下：

：

(3)对词语集合T构建词语一词语关系图G_TT；

将每个词语作为图G_TT的一个顶点，对T中任意两个不同的词语t_i和t_j利用下列互信息方法(Mutual Information)计算语义相似度值：

sim (t_{i}, t_{j}) = \log \frac{N \times p (t_{i}, t_{j})}{p (t_{i}) \times p (t_{j})} - - - (4)

其中，1≤i，j≤n，i≠j，N是背景文档集合中所有词语的数量；p(t_i)和p(t_j)分别表示词t_i和t_j在文档集中出现的概率，p(t_i)＝count(t_i)/N，p(t_j)＝count(t_j)/N，其中count(t_i)和count(t_j)分别是词t_i和t_j在文档集中出现的次数；p(t_i，t_j)表示词t_i和t_j在一定窗口大小内共同出现的概率，那么p(t_i，t_j)＝count(t_i，t_j)/N，其中count(t_i，t_j)是词t_i和t_j在一定窗口大小内共同出现的次数。窗口大小设为正整数k，说明只有当词t_i和t_j在文本中最大间隔距离为k个词时，它们才被认为是共同出现的。不同的窗口大小影响到最终计算得到的词语语义相似度值。本实施例中令k为2。

如果sim(t_i，t_j)＞0，那么在t_i和t_j之间建立一条连接，也就是在图G_TT中t_i和t_j之间添加一条边；

得到的图G_TT的邻接矩阵为V＝(V_ij)_n×n定义如下：

。

(4)对句子集合S和词语集合T之间构建句子-词语关系图G_ST；

将句子和词作为二部图G_ST的顶点，对S中任一句子s_i与T中任一词语t_j利用下列公式计算词t_j在句子s_i中的重要程度：

aff (s_{i}, t_{j}) = \frac{t f_{t_{j}} \times is f_{t_{j}}}{\underset{t &Element; s_{i}}{Σ} t f_{t} \times is f_{t}} - - - (6)

f_tj与isf_tj分别为词t_j在句子s_i中的词频与倒排句子频率。

\underset{t &Element; s_{i}}{Σ} t f_{t} \times is f_{t}

为句子s_i中所有词的权重之和。

如果aff(s_i，t_j)＞0，那么在s_i和t_j之间建立一条连接，也就是在图G_ST中s_i和t_j之间添加一条边，得到图G_ST的邻接矩阵为W＝(W_ij)_m×n，其中W_ij＝aff(s_i，t_j)。对矩阵W经过与公式(3)相同的规范化使得其每一行元素值之和为1，得到新的邻接矩阵

。同理，对矩阵W的转置矩阵W^T进行规范化，得到矩阵。

(5)利用相互增强算法迭代计算句子和词语的权重；

基于句子-句子关系图、词语-词语关系图、句子-词语关系图利用相互增强算法同时计算句子和词语的重要性权重的步骤如下：

5.1)用u＝[u(s_i)]_m×1和v＝[v(t_j)]_n×1分别表示句子权重向量与词语权重向量，权重初始值均设为1；

5.2)利用下列公式计算句子权重：

u^{(n)} = α {\tilde{U}}^{T} u^{(n - 1)} + β {\hat{W}}^{T} v^{(n - 1)} - - - (7)

其中u⁽ⁿ⁾表示当前的句子权重向量，u^(n-1)表示上次计算得到的句子权重向量。α与β为权重参数，0≤α，β≤1，并且α+β＝1；本实施例中令α＝β＝0.5；

5.3)对句子权重进行规范化，使所有句子权重之和为1：

u⁽ⁿ⁾＝u⁽ⁿ⁾/‖u⁽ⁿ⁾‖₁ (8)

5.4)利用下列公式计算词语权重：

v^{(n)} = α {\tilde{V}}^{T} v^{(n - 1)} + β {\tilde{W}}^{T} u^{(n - 1)} - - - (9)

其中v⁽ⁿ⁾表示当前的词语权重向量，v^(n-1)表示上次计算得到的词语权重向量。α与β为权重参数，0≤α，β≤1，并且α+β＝1；本实施例中令α＝β＝0.5；

5.5)对词语权重进行规范化，使得所有词语权重之和为1：

v⁽ⁿ⁾＝v⁽ⁿ⁾/‖v⁽ⁿ⁾‖₁ (10)

5.6)循环执行步骤5.2)到步骤5.5)，直到句子权重和词语权重收敛为止，也就是说，任一句子或词语的当前权重与上次循环中计算得到的权重相差小于一个设定的阈值，设为0.0001。

以上迭代计算基于以下四个假设：

假设2：一个句子包含越多的重要词语，这个句子越重要；

(6)对权重较大的句子进行冗余消除，得到文档摘要。进行冗余消除的方法一般为采用如下的步骤计算每个句子的最终排列值，最后按照最终排列值由大到小选择2-10个句子形成摘要：

6.1)对文档初始化两个集合A＝φ，B＝{s_i|i＝1，2，...，m}，B包括文档中的所有句子，每个句子的最终排列值初始化为前面步骤计算得到的句子权重，也就是说r(s_i)＝u(s_i)，i＝1，2，...m；

6.2)按照当前最终排列值降序排列B中的句子；

6.3)假定s_i是排名最高的句子，也就是序列中第一个句子，将s_i从B移到A，并且对B中每一个和s_i相邻接的句子s_j进行如下的冗余惩罚，j≠i：

r (s_{j}) = r (s_{j}) - {\tilde{U}}_{ji} \cdot u (s_{i}) - - - (11)

6.4)循环执行步骤6.2)和步骤6.3)，直到B＝φ。

(7)对权重较大的词语进行组合，得到文档关键词。具体方法为：根据词语权重由大到小选择前10个词语；如果这10个词语中任意两个(或多个)词语在文本中前后相邻，那么将这两个(或多个)词语组合在一起，形成一个词组，该词组权重为其包含的两个(或多个)词语权重之和；最后选择权重最大的2-5个词或词组作为关键词。

词语组合的目的是为了得到更具描述特性的词组，如果两个词语在文本中前后相邻，那么将这两个词语组合在一起，形成一个词组。通常选择2-5个词或词组作为文档关键词。

本发明还提供一种对文档摘要和关键词进行统一抽取的系统，用于对给定文档同时进行摘要和关键词抽取，包括以下装置：文档输入处理装置，句子-句子关系图构建装置，词语-词语关系图构建装置，句子-词语关系图构建装置，句子与词语权重计算装置，文档摘要生成装置，文档关键词生成装置；

其中，文档输入处理装置用于读入文档，对文档进行分句、分词，并过滤停用词，得到句子集合与词语集合；

句子-句子关系图构建装置，用于对句子集合按照句子之间内容相似度构建关系图；

词语-词语关系图构建装置，用于对词语集合按照词语之间语义相似度构建关系图；

句子-词语关系图构建装置，用于对句子和词语两个集合按照词语在句子中的重要程度构建关系图；

句子与词语权重计算装置，用于计算句子和词语的权重，利用相互增强算法迭代计算句子和词语的权重；

文档摘要生成装置，用于选择权重大的2-10个句子，并对句子进行冗余消除，得到文档摘要；

文档关键词生成装置，用于选择权重大的2-5个词语，并对词语进行组合，得到文档关键词。

为了验证本发明对文档摘要的有效性，采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002的单文档摘要评测任务，也就是DUC2002的第1个评测任务。DUC2002的单文档摘要任务提供了567篇文档，要求参评者为每篇文档提供100字以内长度的摘要，文档来源于TREC-9。参评者提交的摘要将与人工摘要进行对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法，包括三个评价指标ROUGE-1，ROUGE-2和ROUGE-W，ROUGE值越大，效果越好，ROUGE-1值是最主要的评价指标。本发明所述的方法和只考虑句子-句子关系的方法(SentenceRank)，以及只考虑句子-词语关系的方法(MutualRank)进行对比，实验结果如表1所示。

表1：在DUC2002评测数据上的摘要比较结果

系统	ROUGE-1	ROUGE-2	ROUGE-W
系统	ROUGE-1	ROUGE-2	ROUGE-W	本发明	0.47281	0.20281	0.16373
SentenceRank	0.46261	0.19457	0.16018	本发明	0.47281	0.20281	0.16373
SentenceRank	0.46261	0.19457	0.16018	MutualRank	0.43805	0.17253	0.15221

实验结果表明，本发明所述的方法在三个指标上的表现都要比其他两种方法优异。

ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者：C.-Y.Lin and E.H.Hovy，发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))

为了验证本发明对文档关键词抽取的有效性，仍采用DUC2002的数据作为评测。对其中的34篇文档进行手工选择关键词，将系统生成的关键词与手工标注关键词进行对比，评测指标为准确率、召回率以及F值。本发明所述的方法和只考虑词语-词语关系的方法(WordRank)，以及只考虑句子-词语关系的方法(MutualRank)进行对比，实验结果如表2所示。

表2：在DUC2002评测数据上的关键词比较结果

系统	准确率	召回率	F值
系统	准确率	召回率	F值	本发明	0.428	0.485	0.455
SentenceRank	0.373	0.412	0.392	本发明	0.428	0.485	0.455
SentenceRank	0.373	0.412	0.392	MutualRank	0.355	0.397	0.375

本发明所述的方法并不限于具体实施方式中所述的实施例。步骤(2)中计算两个句子相似度值时，除了余弦公式之外，还可以采用Jaccard公式、Dice公式、Overlap公式等。步骤(3)中计算两个词语语义相似度时，除了上述互信息方法之外，还可以采用对数似然比(Log Likelihood Ratio)，卡方检验(Chi-squared)等统计方法，以及基于词典(例如WordNet，知网等)的知识方法进行计算。

本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。