CN101620596A

CN101620596A - 一种面向查询的多文档自动摘要方法

Info

Publication number: CN101620596A
Application number: CN200810012093A
Authority: CN
Inventors: 朱靖波; 叶娜; 王会珍; 郑妍
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-01-06
Anticipated expiration: 2028-06-30
Also published as: CN101620596B

Abstract

本发明涉及一种面向查询的多文档自动摘要方法，包括以下步骤：对查询及文档进行预处理；将上述预处理后的文档进行主题分割和语义段落聚类，得到子主题；将查询及上述每个子主题内的句子表示成词频向量形式，计算查询与子主题的相关度；根据查询与子主题的相关度，对子主题进行筛选，并根据子主题的重要程度，进行排序，选择前T个重要的子主题，得到与查询相关的子主题有序序列；从子主题序列中依次循环摘取代表句，并将代表句连接起来，生成摘要。本发明方法通过主题分割技术使得摘要在有限的长度范围内，尽量包括了文档集内较为重要的信息，提供更加有针对性的服务，可以根据用户的查询主题调整摘要内容，实现与用户的互动。

Description

一种面向查询的多文档自动摘要方法

技术领域

本发明涉及一种自然语言的自动摘要处理技术，具体地说是一种面向查询的多文档自动摘要方法。

背景技术

随着人类社会的快速变化和发展，每天都有大量的新信息产生，而互联网技术的普及使得信息共享的程度越来越高，人们可以很容易地在网络上发布信息，造成网上信息源过多，信息大量重复。例如，对于同一个新闻事件，不同的新闻机构可能会发布不同的报道，但是报道的主要内容相似乃至完全重复，区别仅在于表达方式不同而已。这种重复信息会浪费读者的阅读时间。另一方面，同一主题下的不同文章也会涵盖一些不同的信息。例如不同的新闻报道对事件描述的侧重点不同，而不同的评论家也会从各自独特的视角发表对事件的观点，与公众共享。关于同一主题或相同事件的信息甚至可能存在互相矛盾的地方，而事件的更新进展也会造成先前报道的信息不准确，需要更正的情况。这种信息过量出现的现象称为信息过载(Information Overload)。为了从彼此重复而又互为补充的信息中提取想要的信息，需要进行大量的比较和筛选工作。

搜索引擎是处理信息过载问题的一个选择，可以根据用户的特定需求，查找到与之相关的信息，使信息处理的范围大大缩小。但是，搜索引擎技术并不能很好地解决信息过载问题。用户每输入一个查询条件，搜索引擎系统将返回成千上万的相关网页。虽然用户期望的信息很有可能就存在于返回的结果里，但仍然难于迅速准确地从中找到满意的结果。为了对所查询的问题有全面的了解，用户必须对检索结果进行人工分析和总结，去除冗余信息，识别矛盾信息，摒弃错误信息，从中提炼出全面而简洁的分析结果。

多文档摘要技术就是为了解决这个问题，其目的是识别多篇同主题文档中的有用信息，压缩其中的冗余信息，生成一篇简短、流畅的摘要。多文档摘要技术可以帮助用户快速形成对特定主题的全面了解，减少阅读时间，提高获取信息的效率，具有很高的实用价值。

根据摘要生成方法，可将现有多文档摘要方法分为两种：

(1)基于摘录的方法：直接摘取重要的原始句子或自然段落，按一定顺序形成摘要。方法简单，不需太多资源和语言学知识，可移植性好，但摘要的连贯性和全面性较差。

(2)基于语言生成的方法：识别出重要的信息片段，再用语言生成技术生成句子，形成摘要。摘要精炼、可读性较好，但对语言分析技术和语言生成模型有较高要求。

根据所采用的主要技术，可将现有多文档摘要方法分为四种：

(1)基于浅层分析的方法：通过一些浅层统计分析，识别文本浅层特征如关键词、位置、句子长度等来对句子打分排序。方法实现简单，不受领域和资源限制，可移植性较好，但摘要的准确性较差。

(2)基于深层理解的方法：对文本进行深层分析理解，如句法分析、语义分析、领域本体分析等，获得较高层次的特征，更准确地识别重要信息和重复信息。但对语言处理技术要求很高，往往受到领域限制。

(3)基于信息抽取的方法：利用信息抽取技术模板，对模板进行填充，从而识别出重要信息片段，表示成结构化形式，并利用语言生成系统生成摘要。摘要的可读性好，冗余信息少，但模板的获取是该方法的瓶颈。

(4)基于句子压缩的方法：通过现有的句子压缩技术将长句压缩成短句。缺点是难于控制压缩比。

上述各种传统的多文档摘要方法进行的是一般性摘要，即直接分析目标文档集合的内容，生成摘要。然而，随着研究的不断深入和进展，人们发现，虽然多文档摘要系统的处理对象是同一主题下的多篇文档，即文档具有相同的主题，但是不同的用户对于摘要的侧重点仍有不同的要求。例如，对于北京奥运会主场馆“鸟巢”的建设这一主题，建筑界人士可能较为关注“鸟巢”的建造技术和安全性，环保界人士可能较为关注项目所采用的环保技术和对北京环境的影响，商界人士可能较为关注奥运场馆的商业运营模式，而普通市民更关注场馆的独特外形和人文精神。也就是说，同一个主题下仍然有不同的信息侧面，从不同角度来论述主题的不同方面。如果能对主题信息进一步细化，从中找出更为贴合用户特定需求的一个或多个侧面信息形成摘要，将会为用户带来更大的便利，进一步提高用户的满意度。

面向查询(query)的多文档摘要技术研究就是在这样的背景下开始的。与一般性摘要，即查询无关的摘要技术不同，查询相关的多文档摘要技术允许用户提交当前主题下自己最为关心的问题，并依据问题的要求和侧重点生成摘要，使得摘要可以回答用户所提出的问题。其中问题可以看作当前主题下用户更为关注的侧面。

查询相关的多文档摘要技术的关键问题和难点是，如何识别同一主题下的不同侧面，即如何对文档集内描述主题不同方面的信息进行区分，并选取查询所关注的一个或多个侧面，用于生成摘要。现有方法主要是通过对查询进行分析和扩展，得到关键概念和特征词，然后根据文本与查询的相关度及与文档集主题的接近程度，在文档集里筛选或检索出相关文本，形成摘要。

然而，通过分析人工书写的参考摘要，可以看出好的摘要所涉及的方面较广，涵盖了文档集内与查询相关的多个不同事件或论点。而现有方法主要根据句子与查询的相似度生成摘要，并不考虑摘要中的子主题分布情况，经常造成大量摘要句来自同一子主题的现象，虽然通过计算文本重复度，尽量防止加入内容重复的摘要句，可以从一定程度上缓解了这个问题，但仍无法很好地保证摘要中信息的全面性。

发明内容

针对现有技术中面向查询的多文档摘要存在的难点及不足之处，本发明要解决的技术问题是提供一种利用文本分割技术识别当前主题下的不同子主题，从多个相关子主题内选取信息，并评价子主题的重要程度的多文档摘要方法。

为解决上述技术问题，本发明采用的技术方案包括以下步骤：

对查询及文档进行预处理；

将上述预处理后的文档进行主题分割和语义段落聚类，得到子主题；

将查询及上述每个子主题内的句子表示成词频向量形式，计算查询与子主题的相关度；

根据查询与子主题的相关度，对子主题进行筛选，并根据子主题的重要程度，进行排序，选择前T个重要的子主题，得到与查询相关的子主题有序序列；

从子主题序列中依次循环摘取代表句，并将代表句连接起来，生成摘要。

所述对查询进行预处理过程如下：

去除查询里的格式标记，提取出查询的主体部分；

对每个主体部分进行词根还原，去除查询里的禁用词，将余下的词作为查询的关键词，得到查询的关键词集合。

所述对文档进行预处理过程如下：

去除每篇文档内的格式标记，提取出文档的主体部分；

对每个文档中的英文文本进行词根还原，对中文文本进行分词，去除文档内的禁用词；

对每篇文档进行分句。

所述的禁用词包括查询禁用词和文本禁用词，其中针对查询的预处理，将频繁出现在查询内的无关词去掉。

所述的主题分割采取算法1：

算法1：通过一个反映文档词汇整体分布情况的点图来识别语义段落边界，包括以下步骤：

构造点图：假设某个词在文档中位置x和位置y处重复出现，则分别在图中(x，x)，(x，y)，(y，x)和(y，y)四个坐标上用一个点标出该词，即将整篇文本表示为一个对称的二维点图；

列出潜在语义段落边界：将文档中全部句子或自然段落边界作为潜在语义段落边界；

确定最佳语义段落边界：假设B为已确定的语义段落边界集合，那么余下的所有边界都是候选语义段落边界，参与下一轮的最佳边界评选，它们组成候选边界集合C；边界集合C中每个候选边界i，令P＝B∪{i}，计算由P分割出的点图上对角线外部区域的总体密度，选择使得总体密度最小的候选边界作为下一个最佳语义段落边界加入集合B，密度计算方法是：

f_{D 1} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1} {, P}_{j}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{P_{j} (P_{j + 1} - P_{j})}

或

f_{D 2} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{(P_{j} - P_{j - 1}) (P_{j + 1} - P_{j})}

其中n为整篇文档的长度，P_j为第j个语义段落边界的位置，|P|为文档中的语段数目，为第P_j-1个词至第P_j个词组成的文本片段的词频向量；

为第P_j个词至文档末尾组成的文本片段的词频向量；

为文档开头至第P_j个词组成的文本片段的词频向量；

为第P_j个词至第P_j+1个词组成的文本片段的词频向量。

重复上述过程，直至语段边界数目达到预先指定的数目K为止。

所述的主题分割采取算法2：

算法2：如果给定文档为数据空间，语义段落为类别，则将主题分割的过程转化为数据空间分割过程，求取最佳分割方式，具体包括以下步骤：

文档表示：定义文档W为块序列B＝b₁b₂...b_k，其中b₁、b₂和b_k分别表示第1个、第2个和第k个块，k表示文本B包含块的个数，块定义为包含blocksize个词的文本片段，采用具有相同长度的块参与分割评价过程，将求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的过程，计算公式如下式所示：

\hat{S} = \underset{S}{\arg \max} P (S | B) \overset{def}{=} \underset{S}{\arg \max} J (B, S)

其中，

为具有最大评价值的文本分割方式；S为文本B的一个分割方式；J(B，S)为文本B下分割方式为S时的分割评价值。

构造候选分割方式集合：将文档中全部自然段落边界作为潜在的语义段落边界，自然段落边界的全部组合作为候选主题分割方式；

计算各种分割方式的评价值，其中：

定义语义段落内散布矩阵S_W为：

S_{W} = Σ_{i = 1}^{c} P_{i} \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} (b - m_{i}) {(b - m_{i})}^{t}

其中b为第i块的向量表示；S＝s₁s₂...s_c表示文本B的一个分割方式；c为当前文本分割方式S包含的语义段落个数；P_i为语义段落s_i的先验概率，即语义段落s_i的块个数与当前文本B的所有块个数的比值；n_i表示语义段落s_i中块的个数；m_i为语义段落s_i的中心向量；运算符t表示矩阵的转置。

其中：

m_{i} = \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} b

定义语义段落间散布矩阵S_B为：

S_{B} = Σ_{i = 1}^{c} P_{i} (m_{i} - m) {(m_{i} - m)}^{t}

其中m为当前分割方式S的总体平均向量：

m = \frac{1}{n} \underset{b &Element; B}{Σ} b = \frac{1}{n} Σ_{i = 1}^{c} n_{i} m_{i}

J为基于多元判别分析的分割评价函数，包括：

根据语义段落内距离和语义段落间距离，定义第1多元判别分析评价函数J₁：

J_{1} (B, S) = \frac{tr (S_{B})}{tr (S_{W})}

根据语义段落内距离和语义段落间距离，定义第2多元判别分析评价函数J₂：

J₂(B，S)＝tr(S_B)×tr(S_W)

根据语义段落内距离、语义段落间距离和语义段落的长度，定义第3多元判别分析评价函数J₃：

J_{3} (B, S) = S_{L} \times \frac{tr (S_{B})}{tr (S_{W})}

根据语义段落内距离、语义段落间距离和语义段落的长度，定义第4多元判别分析评价函数J₄：

J₄(B，S)＝S_L×tr(S_B)×tr(S_W)

上述各式中tr(S_B)和tr(S_W)分别表示矩阵S_B和矩阵S_W的迹，为矩阵对角线元素之和；

采用第1、3多元判别分析评价函数J₁或J₃计算J(B，S)评价值；

确定最佳语义段落数目：

对于每个可能的语义段落数目，根据计算各种分割方式的评价值的结果求取该数目下所有分割方式中带有最大评价值J的最佳分割S；采用第2、4多元判别分析评价函数J₂或J₄来计算评价函数J^*(B，S)评价值；具有最大评价值J^*的分割方式所对应的语义段落数目N为最佳语义段落数目；

确定最佳分割方式：

最佳语义段落数目N下具有最大评价值J的分割方式为最佳分割方式。

所述的主题分割采取算法3：

算法3：通过定义各种分割方式的评价函数，采用动态规划方法寻求最佳分割方式，具体包括以下步骤：

定义评价文本分割方式的评价函数：

J = α \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p_{i - 1} + 1}^{p_{i}} Σ_{n = p_{i - 1} + 1}^{p_{i}} W_{m, n} D_{m, n}}{{(p_{i} - p_{i - 1})}^{2}}

- (1 - α) \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p_{i} + 1}^{p_{i + 1}} Σ_{n = p_{i - 1} + 1}^{p_{i}} W_{m, n} D_{m, n}}{(p_{i + 1} - p_{i}) (p_{i} - p_{i - 1})} + β \cdot Σ_{i = 1}^{N} {(\frac{L_{i}}{L})}^{2}

其中p_i第i个语义段落边界的位置，N为语义段落数目，L为整篇文档的长度，L_i为每个语义段落的长度；公式中第一项为同一语义段落内部词汇相似度，第二项为相邻语义段落之间词汇相似度，α和1-α分别为它们的相对权重，第三项为语义段落长度惩罚因子，β为该因子的权重；D_i，j为句子i和句子j之间的相似度，W_i，j为根据句子i和句子j之间的距离为相似度D_i，j赋予的权重，计算方法如下式所示：

W_{m, n} = \{\begin{matrix} 1 & if | m - n | \leq 2 \\ \frac{1}{\sqrt{| m - n | - 1}} & else \end{matrix}

根据上述分割评价函数，采用动态规划算法求取使得函数值最大的最优分割方式，具体计算步骤如下：

1)初始化：

对文档中任意两个句子i和j，利用下列公式计算相似度值：

S_i，j＝W_i，j·D_i，j

2)最大化：

递推地计算C_t，s，即从第1个句子到第t个句子组成的文本片段的最优分割方式的评价函数值，其中s为前一个语义段落边界，计算公式为：

C_{t, s} = \arg \max (C_{s, w} + α \cdot \frac{S_{s + 1, t}}{{(t - s)}^{2}} - (1 - α) \cdot \frac{S_{w + 1, t} - S_{w + 1, s} - S_{s + 1, t}}{(t - s) (s - w)} + β \cdot {(\frac{t - s}{K})}^{2})

其中w是t和s的前一个最优语义段落边界，K为文档里的句子数；

记录最优分割方式中边界s的前一个语义段落边界Z_t，s；

3)回溯：

逆序地推出最优分割方式

向量，在该过程中，最佳语义段落数目N自动确定。

所述语义段落聚类的具体步骤如下：

1)将语义段落表示成词频向量，认为每个语义段落均为一个簇；

2)计算语义段落两两之间的相似度，选择相似度最高的两个簇合并为一个簇；语义段落之间的文本相似度通过向量余弦来计算，假设两个语义段落词频向量分别为x＝{x₁，x₂，...，x_n}和y＝{y₁，y₂，...，y_n}，则相似度计算公式如下：

sim (x, y) = \frac{Σ_{i = 1}^{n} x_{i} y_{i}}{\sqrt{Σ_{i = 1}^{n} x_{i}^{2} Σ_{i = 1}^{n} y_{i}^{2}}}

3)计算新生成的语义段落簇两两之间的相似度，继续合并相似度最高的簇；语义段落簇之间的文本相似度计算方法是，将两个簇之间相似度最小的两个语义段落之间的文本相似度作为两个簇的相似度；

4)重复步骤3，直到相似度最高的两个簇之间的相似度也低于阈值C为止，这样，就得到了一定数量的簇，每个簇代表一个子主题。

所述查询与子主题之间相关度的计算方法是，计算查询与子主题内的每个句子之间的相似度，将最大的相似度作为查询与子主题的相关度；查询与子主题句之间的文本相似度通过向量余弦来计算，假设查询词频向量为q＝{q₁，q₂，...，q_n}，子主题句的词频向量为s＝{s₁，s₂，...，s_n}，则相似度计算公式如下：

sim (q, s) = \frac{Σ_{i = 1}^{n} q_{i} s_{i}}{\sqrt{Σ_{i = 1}^{n} q_{i}^{2} Σ_{i = 1}^{n} s_{i}^{2}}}

其中sim(q，s)表示查询q与句子s之间的相似度，q_i和s_i分别为查询和句子对应的词频向量表示；

假设子主题S内有m个句子，即子主题表示为S＝{s(1)，s(2)，...，s(m)}，则查询与子主题之间的相关度计算公式如下：

relevance (q, S) = \max_{1 \leq i \leq m} {sim (q, s (i))} .

所述子主题的重要程度为子主题的簇内包含的句子数目；所述代表句为与查询相似度最大的句子。

本发明利用主题分割技术，较好地解决了面向查询的多文档摘要技术中的难点，具体体现在以下几个方面：

1.本发明方法通过主题分割技术，识别出当前主题下的不同子主题，并选择与查询相关的多个重要子主题，从中摘取代表句生成摘要。由于摘要覆盖了与查询相关的多个子主题，即多个主题侧面，因此摘要能在贴合查询的特定关注点的基础上，覆盖更多的信息；本发明还对子主题的重要程度进行了评价，在与查询相关的所有子主题中，选择对于当前主题来讲较为重要的子主题生成摘要，使得摘要在有限的长度范围内，尽量包括了文档集内较为重要的信息，提供更加有针对性的服务，允许用户提出最关心的问题，生成的摘要可以回答用户所提出的问题，进一步满足用户的个性化要求

2.本发明设计了合理的主题分割方法，其中方法1时间复杂度低，效果优于同类算法，方法2同时考虑语义段落内部距离和语义段落之间距离因素，具有很好的分割效果，且可自动确定语义段落数目，方法3在方法2的基础上，进一步考虑了语义段落长度和句子距离对相似度的影响因素，并采用动态规划算法寻求最优分割，时间复杂度较低。

3.本发明仅对文档进行了浅层分析，利用词汇分布和文档结构特点进行文本分割，并根据子主题的词汇使用和大小等表层信息，识别出与查询相关的重要子主题，进而生成摘要。方法不依赖于任何外部资源，是一种独立于具体领域的方法，这也是基于主题分割技术的多文档摘要方法的优势所在。

4.本发明是一种基于摘录的方法，直接从文档中摘取原始句子形成摘要，与基于语言生成的方法相比，无需语言分析技术、语言生成模型和其他语言学知识的支持，易于实现，具有较好的实用性，并且有较大的提升空间。

5.本发明方法可用于搜索引擎、新闻服务、信息智能处理等，无需占用过多的网络带宽资源，即可使用户获得大量信息。同时用户将自己的喜好和关注点返回给服务器，而本发明方法可以根据用户的查询主题调整摘要内容，实现与用户的互动。

附图说明

图1为本发明方法流程图。

具体实施方式

如图1所示，本发明一种面向查询的多文档自动摘要方法，包括以下步骤：

对查询及文档进行预处理；

所述对查询进行预处理过程如下：

去除查询里的格式标记，提取出查询的主体部分；

所述对文档进行预处理过程如下：

去除每篇文档内的格式标记，提取出文档的主体部分；

对每篇文档进行分句。

所述主题分割可采取算法1：

通过一个反映文档词汇整体分布情况的点图来识别语义段落边界，包括以下步骤：

f_{D 1} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1} {, P}_{j}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{P_{j} (P_{j + 1} - P_{j})}

或

f_{D 2} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{(P_{j} - P_{j - 1}) (P_{j + 1} - P_{j})}

其中n为整篇文档的长度，P_i为第j个语义段落边界的位置，|P|为文档中的语段数目，为第P_j-1个词至第P_j个词组成的文本片段的词频向量；为第P_j个词至文档末尾组成的文本片段的词频向量；

为文档开头至第P_j个词组成的文本片段的词频向量；为第P_j个词至第P_j+1个词组成的文本片段的词频向量。

点图明显地反映了一篇文档内部的子主题分布情况。从这个图上，可以清楚地看到文本中词汇的密度分布情况。密度是评价主题连贯性的度量方法。一般地说，语义段落内部的词汇重复程度会比较高，点图中对角线上对应区域的点也会比较密集，对角线上密度较大的正方形区域就是语义段落，区域内部密度越大，表示该语义段落内部主题连贯性越高。相应地，对角线外部对应区域的点会比较稀疏，使得对角线外部区域总体密度最小的位置就是语义段落边界。

本发明方法中的主题分割还可采取算法2：

如果给定文档为数据空间，语义段落为类别，则将主题分割的过程转化为数据空间分割过程，求取最佳分割方式，具体包括以下步骤：

文档表示：定义文档W为块序列B＝b₁b₂...b_k，其中b₁、b₂和b_k分别表示第1个、第2个和第k个块，k表示文本B包含块的个数，块定义为包含blocksize个词的文本片段，采用具有相同长度的块参与分割评价过程，能够有效解决不平衡比较现象。通过定义全局评价函数J来评价具体分割方式，评价值的大小表示分割方式的好坏。将求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的过程，计算公式如下式所示：

\hat{S} = \underset{S}{\arg \max} P (S | B) \overset{def}{=} \underset{S}{\arg \max} J (B, S)

其中，

计算各种分割方式的评价值，其中：

定义语义段落内散布矩阵S_W为：

S_{W} = Σ_{i = 1}^{c} P_{i} \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} (b - m_{i}) {(b - m_{i})}^{t}

其中b为第i块的向量表示；S＝s₁s₂...s_c表示文本B的一个分割方式；c为当前文本分割方式S包含的语义段落个数；P_i为语义段落s_i的先验概率，即语义段落s_i的块个数与当前文本B的所有块个数的比值；n_i表示语义段落s_i中块的个数；m_i为语义段落s_i的中心向量；运算符t表示矩阵的转置。其中：

m_{i} = \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} b

定义语义段落间散布矩阵S_B为：

S_{B} = Σ_{i = 1}^{c} P_{i} (m_{i} - m) {(m_{i} - m)}^{t}

其中m为当前分割方式S的总体平均向量：

m = \frac{1}{n} \underset{b &Element; B}{Σ} b = \frac{1}{n} Σ_{i = 1}^{c} n_{i} m_{i}

J为基于多元判别分析的分割评价函数，包括：

J_{1} (B, S) = \frac{tr (S_{B})}{tr (S_{W})}

J₂(B，S)＝tr(S_B)×tr(S_W)

J_{3} (B, S) = S_{L} \times \frac{tr (S_{B})}{tr (S_{W})}

J₄(B，S)＝S_L×tr(S_B)×tr(S_W)

确定最佳语义段落数目：

确定最佳分割方式：

上述文本主题分割方法独立于具体领域，其中采用多元判别分析方法定义四种分割全局评价函数，实现对文本分割的全局评价，比局部评价方法具有更好的文本分割性能。该评价函数主要考虑了语义段落内距离、语义段落间距离等几方面因素来评价各种分割方式。

本发明方法中所述的主题分割还可以采取算法3：

通过定义各种分割方式的评价函数，采用动态规划方法寻求最佳分割方式，具体包括以下步骤：

定义评价文本分割方式的评价函数：

J = α \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p_{i - 1} + 1}^{p_{i}} Σ_{n = p_{i - 1} + 1}^{p_{i}} W_{m, n} D_{m, n}}{{(p_{i} - p_{i - 1})}^{2}}

- (1 - α) \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p_{i} + 1}^{p_{i + 1}} Σ_{n = p_{i - 1} + 1}^{p_{i}} W_{m, n} D_{m, n}}{(p_{i + 1} - p_{i}) (p_{i} - p_{i - 1})} + β \cdot Σ_{i = 1}^{N} {(\frac{L_{i}}{L})}^{2}

其中p_i为第i个语义段落边界的位置，N为语义段落数目，L为整篇文档的长度，L_i为每个语义段落的长度；公式中第一项为同一语义段落内部词汇相似度，第二项为相邻语义段落之间词汇相似度，α和1-α分别为它们的相对权重，第三项为语义段落长度惩罚因子，其作用是抑制生成过多的语义段落，β为该因子的权重；D_i，j为句子i和句子j之间的相似度，计算方法是：若i和j之间有共同词，则D_i，j取值为1，否则为0；W_i，j为根据句子i和句子j之间的距离为相似度D_i，j赋予的权重，计算方法如下式所示：

W_{m, n} = \{\begin{matrix} 1 & if | m - n | \leq 2 \\ \frac{1}{\sqrt{| m - n | - 1}} & else \end{matrix}

1)初始化：

对文档中任意两个句子i和j，利用下列公式计算相似度值：

S_i，j＝W_i，j·D_i，j

2)最大化：

C_{t, s} = \arg \max (C_{s, w} + α \cdot \frac{S_{s + 1, t}}{{(t - s)}^{2}} - (1 - α) \cdot \frac{S_{w + 1, t} - S_{w + 1, s} - S_{s + 1, t}}{(t - s) (s - w)} + β \cdot {(\frac{t - s}{K})}^{2})

记录最优分割方式中边界s的前一个语义段落边界Z_t，s；

3)回溯：

逆序地推出最优分割方式

向量，在该过程中，最佳语义段落数目N自动确定。

上述主题分割算法尝试同时最大化同一语义段落内部相似度，最小化相邻语义段落之间相似度。另外，算法还考虑了其他文本结构特点，例如句子距离和语段长度，并将这些丰富的因素整合入分割评价函数，来识别子主题的跳转。利用动态规划寻求最佳分割方式，大大降低了算法的时间复杂度。

主题分割技术可以将一篇文档内论述不同子主题的文本片段分割开来，也就是划分出文档内描述主题不同侧面的不同语义段落，如果将全部文档的语义段落集合起来，进行聚类，就可以把整个文档集内关于同一个主题侧面的文本聚集在一起，这样聚类后形成的每一个簇就代表了一个主题侧面，即当前主题下的一个子主题。

本发明方法中的语义段落聚类的具体步骤如下：

2)计算语义段落两两之间的相似度，选择相似度最高的两个簇合并为一个簇；语义段落之间的文本相似度通过向量余弦来计算，假设两个语义段落词频向量分别为x＝{x₁，x₂，，...，x_n}和y＝{y₁，y₂，...，y_n}，则相似度计算公式如下：

sim (x, y) = \frac{Σ_{i = 1}^{n} x_{i} y_{i}}{\sqrt{Σ_{i = 1}^{n} {x_{i}}^{2} Σ_{i = 1}^{n} {y_{i}}^{2}}}

查询与子主题之间相关度的计算方法是，计算查询与子主题内的每个句子之间的相似度，将最大的相似度作为查询与子主题的相关度；查询与子主题句之间的文本相似度通过向量余弦来计算，假设查询词频向量为q＝{q₁，q₂，..，q_n}，子主题句的词频向量为s＝{s₁，s₂，...，s_n}，则相似度计算公式如下：

sim (q, s) = \frac{Σ_{i = 1}^{n} q_{i} s_{i}}{\sqrt{Σ_{i = 1}^{n} {q_{i}}^{2} Σ_{i = 1}^{n} {s_{i}}^{2}}}

relevance (q, S) = \max_{1 \leq i \leq m} {sim (q, s (i))}

子主题的重要程度为子主题的簇内包含的句子数目，代表句为与查询相似度最大的句子。

在聚类后生成的子主题集合的基础上，计算各个子主题与查询的相关度，然后选择与查询相关的子主题，就是选出了用户所关注的侧面，最后按照相关子主题的重要程度进行排序，依次从每个子主题中摘取代表性句子，就可以形成摘要。用这种方式生成的摘要不但与查询紧密相关，而且涵盖了查询所涉及的多个侧面，具有较高的覆盖度。另一方面，摘要也尽可能地选择了当前主题下较为重要的信息。

本发明面向查询的多文档自动摘要方法可以提供更加有针对性的服务，允许用户提出最关心的问题，生成的摘要可以回答用户所提出的问题，进一步满足用户的个性化要求。本发明方法可用于搜索引擎，新闻服务、信息智能处理等，例如应用于手机新闻服务，服务器端将篇幅短小的新闻摘要以短信形式发送给用户，无需占用过多的网络带宽资源，即可使用户获得大量信息。同时用户将自己的喜好和关注点返回给服务器，而本发明方法可以根据用户的查询主题调整摘要内容，实现与用户的互动。

Claims

1.一种面向查询的多文档自动摘要方法，其特征在于包括以下步骤：

对查询及文档进行预处理；

2.按权利要求1所述的面向查询的多文档自动摘要方法，其特征在于所述对查询进行预处理过程如下：

去除查询里的格式标记，提取出查询的主体部分；

3.按权利要求1所述的面向查询的多文档自动摘要方法，其特征在于所述对文档进行预处理过程如下：

去除每篇文档内的格式标记，提取出文档的主体部分；

对每篇文档进行分句。

4.按权利要求2或3所述的面向查询的多文档自动摘要方法，其特征在于：

5.按权利要求1所述的面向查询的多文自动档摘要方法，其特征在于：所述的主题分割采取算法1：

f_{D 1} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{j}} \cdot V_{P_{j} n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0 P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{P_{j} (P_{j + 1} - P_{j})}

或

f_{D 2} = Σ_{j = 2}^{| P |} \frac{V_{P_{j + 1}, P_{j}} \cdot V_{P_{j}, P_{j + 1}}}{(P_{j} - P_{j - 1}) (P_{j + 1} - P_{j})}

其中n为整篇文档的长度，P_j为第j个语义段落边界的位置，|P|为文档中的语段数目，

为第P_j-1个词至第P_j个词组成的文本片段的词频向量；

为第P_j个词至文档末尾组成的文本片段的词频向量；为文档开头至第P_j个词组成的文本片段的词频向量；

为第p_j个词至第P_j+1个词组成的文本片段的词频向量。

6.按权利要求1所述的面向查询的多文档自动摘要方法，其特征在于：所述的主题分割采取算法2：

\hat{S} = \underset{S}{\arg \max} P (S | B) \overset{def}{=} \underset{S}{\arg \max} J (B, S)

其中，

计算各种分割方式的评价值，其中：

定义语义段落内散布矩阵S_W为：

S_{W} = Σ_{i = 1}^{c} P_{i} \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} (b - m_{i}) {(b - m_{i})}^{t}

m_{i} = \frac{1}{n_{i}} \underset{b &Element; s_{i}}{Σ} b

定义语义段落间散布矩阵S_B为：

S_{B} = Σ_{i = 1}^{c} P_{i} (m_{i} - m) {(m_{i} - m)}^{t}

其中m为当前分割方式S的总体平均向量：

m = \frac{1}{n} \underset{b &Element; B}{Σ} b = \frac{1}{n} Σ_{i = 1}^{c} n_{i} m_{i}

J为基于多元判别分析的分割评价函数，包括：

J_{1} (B, S) = \frac{tr (S_{B})}{tr (S_{W})}

J₂(B，S)＝tr(S_B)×tr(S_W)

J_{3} (B, S) = S_{L} \times \frac{tr (S_{B})}{tr (S_{W})}

J₄(B，S)＝S_I×tr(S_B)×tr(S_W)

确定最佳语义段落数目：

确定最佳分割方式：

7.按权利要求1所述的面向查询的多文自动档摘要方法，其特征在于：所述的主题分割采取算法3：

定义评价文本分割方式的评价函数：

J = α \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p_{i + 1} + 1}^{p_{i}} Σ_{n = p_{i + 1} + 1}^{p_{i}} W_{mn} D_{mn}}{{(p_{i} - p_{i - 1})}^{2}}

- (1 - α) \cdot Σ_{i = 1}^{N} \frac{Σ_{m = p + 1}^{p_{i + 1}} Σ_{n = p_{- 1} + 1}^{p_{i}} W_{mn} D_{mn}}{(p_{i + 1} - p_{i}) (p_{i} - p_{i - 1})} + β Σ_{i = 1}^{N} {(\frac{L_{i}}{L})}^{2}

其中p_i为第i个语义段落边界的位置，N为语义段落数目，L为整篇文档的长度，L_i为每个语义段落的长度；公式中第一项为同一语义段落内部词汇相似度，第二项为相邻语义段落之间词汇相似度，α和1-α分别为它们的相对权重，第三项为语义段落长度惩罚因子，β为该因子的权重；D_i，j为句子i和句子j之间的相似度，W_ij为根据句子i和句子j之间的距离为相似度D_ij赋予的权重，计算方法如下式所示：

W_{mn} = \{\begin{matrix} 1 & if | m - n | \leq 2 \\ \frac{1}{\sqrt{| m - n | - 1}} & else \end{matrix}

1)初始化：

对文档中任意两个句子i和j，利用下列公式计算相似度值：

S_i，j＝W_i，j·D_i，j

2)最大化：

C_{is} = \arg \max (C_{sn} + α \frac{S_{s + 1 t}}{{(t - s)}^{2}} - (1 - α) \frac{S_{n + 1 t} - S_{n + 1 s} - S_{s + 1 t}}{(t - s) (s - w)} + β {\cdot (\frac{t - s}{K})}^{2})

记录最优分割方式中边界s的前一个语义段落边界Z_t，s；

3)回溯：

逆序地推出最优分割方式

向量，在该过程中，最佳语义段落数目N自动确定。

8.如权利要求1所述的一种面向查询的多文档自动摘要方法，其特征在于：所述语义段落聚类的具体步骤如下：

sim (x, y) = \frac{Σ_{i = 1}^{n} x_{i} y_{i}}{\sqrt{Σ_{i = 1}^{n} {x_{i}^{2} Σ}_{i = 1}^{n} y_{i}^{2}}}

9.按权利要求1所述的一种面向查询的多文档自动摘要方法，其特征在于：所述查询与子主题之间相关度的计算方法是，计算查询与子主题内的每个句子之间的相似度，将最大的相似度作为查询与子主题的相关度；查询与子主题句之间的文本相似度通过向量余弦来计算，假设查询词频向量为q＝{q₁，q₂，...，q_n}，子主题句的词频向量为s＝{s₁，s₂，...，s_n}，则相似度计算公式如下：

sim (q, s) = \frac{Σ_{i = 1}^{n} q_{i} s_{i}}{\sqrt{Σ_{i = 1}^{n} q_{i}^{2} Σ_{i = 1}^{n} s_{i}^{2}}}

relevance (q, S) = \max_{1 \leq i \leq m} {sim (q, s (i))} .

10.按权利要求1所述的一种面向查询的多文档自动摘要方法，其特征在于：所述子主题的重要程度为子主题的簇内包含的句子数目；所述代表句为与查询相似度最大的句子。