CN101008941A

CN101008941A - 多文档自动摘要的逐次主轴筛选法

Info

Publication number: CN101008941A
Application number: CN 200710036306
Authority: CN
Inventors: 黄萱菁; 赵林; 吴中勤; 刘菲
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2007-01-10
Filing date: 2007-01-10
Publication date: 2007-08-01

Abstract

本发明属文本信息技术领域，具体涉及一种多文档自动摘要的逐次主轴筛选法。该方法是OR转轴法的改进，包括句子两两之间相似度的计算，求解主轴，抽去句子并去冗。本发明方法无需人工标注的训练数据，而且精度高，应用广泛。

Description

多文档自动摘要的逐次主轴筛选法

技术领域

本发明属文本信息技术领域，具体涉及一种多文档自动文摘方法。

背景技术

随着通信的迅速发展，人们日益享受着信息带来的方便，特别是文本信息，包括邮件、网页、短信等等。随之而来的一个问题是大量的信息往往令人难以抓住重点。如何利用计算机帮助人们分析这些信息，挑出重要的信息成为一个十分重要的问题。自动文摘正是迎合这样的需求产生的。分为单文档文摘和多文档文摘，由于现实中信息太多，多文档文摘应用更为广泛，它针对多个文档产生一个摘要，提交给用户。目前的文摘技术主要是抽句式文摘，即从原文档中抽取一些关键的句子组成一个文摘，主要的文摘算法有以下两种：

1、有监督文摘算法。该方法需要人工构造训练集，即人工先给出一些文档的摘要，然后让机器去学习出一个分类器，来判别测试文档中哪些是关键的句子。这个方法的优点是精度比较高，但是缺点是应用不是很广泛，一般只是针对特定领域的文档进行摘要，而且人工给出摘要的代价也十分昂贵。

2、无监督文摘算法。该方法无需人工构造训练集，它根据文档中句子之间的相似程度来判别每句话的重要程度。经典的方法有基于聚类法和QR转轴法。前者将文档中的句子先聚类，然后在每个类中抽出一句最重要的句子构成文摘；后者每次从没有在文摘中的句子中抽出一句与其他句子最相似的句子加入文摘中，然后将剩下的句子去掉与摘出的句子冗余的信息，重复这样的过程，直到得到的文摘满足用户要求的长度为止。无监督文摘算法的优点是速度快，无需人工标注的训练集，而且应用不受领域限制；缺点是精度不是很高。

发明内容

本发明的目的在于提出一种精度高、应用广泛的多文档自动摘要的方法。

本发明提出的多文档自动摘要方法，是一种无监督文摘算法，是对QR转轴法的改进，提高了QR转轴法的精度。该方法分为3个步骤：句子两两之间相似度的计算，求解主轴，抽取句子并去冗。第一步和QR转轴法相同，在将句子表示成空间向量，然后计算句子两两之间的相似度。第二步求解主轴与QR转轴法不同的是，本发明中句子的重要性并不是该句话与其他句子相似的总和(权重)。本发明认为与重要的句子相似的句子也很重要，这样在求出每句话的权重之后，需要对每句话进行加权，即乘以该句话的权重，并重新计算每句话的权重。重复这样的过程，直到句子的权重不再变化为止。第3步与QR转轴法相同，从没有成为文摘中的句子中抽出权重最大的一句加入文摘，并将剩下的句子去掉与摘出的句子冗余的信息。

重复这3个步骤，直到得到的文摘符合用户要求的长度为止。

称本发明方法为“逐次主轴筛选法”。

发明的优点、特点

由于“逐次主轴筛选法”的是对QR转轴法的改进，它继承了QR的所有优点，并提高了精度。具体体现在以下几个方面：

1、无需人工标注的训练数据。因为“逐次主轴筛选法”是一种无监督的文摘算法，其优点可以直接从无监督的文摘算法中导出。

2、应用广泛。“逐次主轴筛选法”不针对某一特定领域的文档，而是一种普适的算法，应用广泛。

3、效果好。与传统的无监督文摘方法比，“逐次主轴筛选法”可以获得更高的精度，这是因为“逐次主轴筛选法”对句子的重要性做了更加详尽的定义，综合考虑了句子之间的关系和句子本身的权重。与监督的文摘方法相比，效果相差也不是很大。

综上所述，“逐次主轴筛选法”的层次聚类算法具有自动、效果好、应用广泛的特性，是一种更优秀的自动文摘算法。

具体实施方式

基本流程是将每句话表示成空间向量后，计算出两两句子之间的相似度，得到相似度矩阵，求出的主特征向量得到每句话的重要性，抽取最重要的一句，然后将剩下的句子去掉与摘出的句子冗余的信息。

1、句子的向量空间表示。

假设现在有n个句子，一共出现了m个词。则每个句子用一个m维的向量表示，n个句子构成了m×n的矩阵，记为M。M_ij表示第i个单词在第j个句子中的tfidf值：

M_{ij} = {tf}_{ij} \times \log \frac{n}{{df}_{i}},

其中tf_ij表示第i个词在第j个句子中出现的频率，df_i表示包含第i个词的句子数。这样，就将句子表示成了空间中一个向量了。向量的模长代表了该句的初始权重。

2、相似度矩阵的计算。

计算句子两两之间的相似度，即两个句子向量的内积。得到的相似度矩阵用S表示。

3、抽句：

求S的主特征向量u，则u_i代表了第i句话的重要性。将重要性最大的一句话抽出加入到文摘中。

4、去冗：

由于原来重要性高的句子有可能与抽出的句子表达的是同一个意思，那么这些句子不应该再加入到文摘中，这一步就是去除未加入到文摘中的句子与被抽出句子的冗余信息。假设在第3步中，第i句被抽取，那么对所有剩下的句子，将他们投入第i句的零空间：

{s^{'}}_{j} = s_{j} - \frac{s_{j}^{T} s_{i}}{{| | s_{i} | |}^{2}} s_{i}

其中s_j是第j句话的向量，s^T _j代表s_j的转置，‖s_j‖代表s_j的模长。

重复步骤2-4直到文摘长度达到用户的要求为止。

Claims

1、一种多文档自动摘要的逐次主轴筛选法，其特征在于具体步骤如下：

(1)将句子表示成空间向量，然后计算句子两两之间的相似度；

(2)求解主轴，先求出每句话的权重，对每句话进行加权，并重新计算每句话的权重，重复这样的过程，直到句子的权重不再变化为止；

(3)从没有成为文摘中的句子中抽出权重最大的一句加入文摘，并将剩下的句子去掉与摘出的句子冗余的信息；

重复步骤(1)-(3)，直到得到的文摘符合用户要求的长度为止。

2、根据权利要求1所述的方法，其特征在于具体计算步骤如下：

(1)句子的向量空间表示：

假设有n个句子，一共出现了m个词，则每个句子用一个m维的向量表示，n个句子构成了m×n的矩阵，记为M；M_ij表示第i个单词在第j个句子中的tfidf值：

M_{ij} = {tf}_{ij} \times \log \frac{n}{{df}_{i}},

其中tf_ij表示第i个词在第j个句子中出现的频率，df_i表示包含第i个词的句子数；这样，就将句子表示成了空间中一个向量；向量的模长代表了该句的初始权重；

(2)相似度矩阵的计算：

计算句子两两之间的相似度，得到的相似度矩阵用S表示。

(3)抽句：

求S的主特征向量u，则u_i代表了第i句话的重要性，将重要性最大的一句话抽出加入到文摘中；

(4)去冗：

假设在第3步中，第i句被抽取，那么对所有剩下的句子，将他们投入第i句的零空间：

{S^{'}}_{j} = S_{j} - \frac{S_{j}^{T} S_{i}}{| | S_{i} | |^{2}} S_{i}

其中s_j是第j句话的向量，s^T _j代表s_j的转置，||s_j||代表s_j的模长；重复步骤2-4直到文摘长度达到用户的要求为止。