CN102841940B

CN102841940B - 一种基于数据重构的文档摘要提取方法

Info

Publication number: CN102841940B
Application number: CN201210293118.9A
Authority: CN
Inventors: 陈纯; 卜佳俊; 何占盈; 王灿; 李平
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-08-17
Filing date: 2012-08-17
Publication date: 2015-01-28
Anticipated expiration: 2032-08-17
Also published as: CN102841940A

Abstract

基于数据重构的文档摘要提取方法，从文档数据库中获取文档，作为待提取摘要的目标文档；针对每个目标文档，提取该文档中的每一个句子，作为该文档摘要的备选句子库；统计所有关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量；利用数据重构算法，从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子；将挑选的句子提取出来，组成该目标文档的摘要。本方法的优点在于：可以帮助用户，尤其是视觉障碍的残疾人用户，以包含较少文字的摘要的形式快速了解原文档的主要内容。

Description

一种基于数据重构的文档摘要提取方法

技术领域

本发明涉及文档摘要提取方法的技术领域，特别是基于数据重构的文档摘要提取方法。

背景技术

世界上约有盲人3000万人左右，中国约有500万盲人，占世界总数的18%，随着互联网的高度普及和互联网在日常生活中重要性的不断上升，如何帮助盲人从互联网上迅速获取信息将成为无障碍建设中的重要问题。盲人由于无法通过视力接受信息，所以其获取文本内容的问题特别突出，传统盲人依靠读屏软件逐字了解网页文字内容的过程大大限制了其获取网页文本信息的速度。而且现在的网站内容在越来越丰富的同时，也包含了越来越多的冗余信息。面对文本信息量如此庞大的互联网，为盲人提供一种文档摘要提取方法，将文档信息精炼成既包含文档中心思想又包含最少冗余信息的摘要形式显得尤为重要。

目前已有的文档摘要工作基本从句子排序入手，然后逐个选取得分最高的句子，最后组成摘要。这类方法很难在包含文档中心思想的同时，保证摘要结果包含最少冗余信息。因此，我们提出了一种基于数据重构的文档摘要提取方法，从数据重构的角度入手，保证摘要句子利用重构过程中能够包含目标文档的中心思想，同时通过求解最优摘要句子的过程保证最后摘要结果包含最少的冗余信息。

发明内容

为了克服现有文档摘录方法无法在包含文档中心思想时去除摘录结果中的冗余信息，本发明提出了一种基于数据重构的文档摘要提取方法，帮助用户能够快速锁定多个文档中感兴趣的某一个文档，以提高获取互联网文本信息的体验度，：

1、本发明所述的一种基于数据重构的文档摘要提取方法

包括以下步骤：

1）从文档数据库中获取文档，作为待提取摘要的目标文档；

2）针对每个目标文档，提取该文档中的每一个句子，作为该文档摘要的备选句子库；

3）统计所有关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量；

4）利用数据重构算法，从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子；

5）将挑选的句子提取出来，组成该目标文档的摘要。

2、步骤3）中所述的关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量：

1）若第i个关键词在目标文档的第j个句子中出现，其在所有文档中的权重信息为它的TF-IDF值，即

d_{i}^{j} = \frac{{num}_{j} (i)}{total (words)} \cdot \log (\frac{total (documents)}{documents (i)}),

其中num_j(i)为在目标文档的第j个句子中，第i个关键词的个数，total（words）为目标文档的第j个句子包含的单词的总数，total（documents）为文档的总数，documents（i）为含有第i个关键词的文档的数目；

2）若总共有k个关键词，则将目标文档的第j个句子表示成

v_{j} = [d_{1}^{j}, d_{2}^{j}, . . ., d_{k}^{j}] .

3、步骤4）中所述的数据重构算法：

1）若目标文档包含n个句子，用{v_j|j＝1，2，…，n}表示，其中要提取的目标摘要包含m（m＜n）个句子，用{x_l|l＝1，2，…，m}表示，其中每个摘要句子都来自目标文档的原句子，即

&ForAll; l, x_{l} &Element; {v_{j} | j = 1,2, . . . n};

2）根据数据重构原理，最优摘要句子应该符合以下方程：

\min_{X, A} Σ_{j = 1}^{n} ({| | v_{j} - a_{j} X | |}^{2} + γ {| | a_{j} | |}^{2})

其中矩阵X的每一行是一个x_l，每个a_j是m维的向量，运算符号‖·‖²是求向量模的平方，Y是可调参数；

3）求解方程，得到最优矩阵解X，即挑选出了目标文档中既包含文档中心思想又包含最少冗余信息的m个最优摘要句子。

本发明提出了一种基于数据重构的文档摘要提取方法，其优点在于：对网络文本文档进行处理，以更加紧凑精炼的摘要形式表达原文档；适用于所有类型的文本文档，结果摘要既包含文档中心思想又包含最少冗余信息，可用于帮助提高盲人的网络文本信息获取速度，也可用于帮助普通用户提高网络文本信息的浏览速度。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种基于数据重构的文档摘要提取方法，该方法包括以下步骤：

1）从文档数据库中获取文档，作为待提取摘要的目标文档；

5）将挑选的句子提取出来，组成该目标文档的摘要。

步骤3）中所述的关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量：

d_{i}^{j} = \frac{{num}_{j} (i)}{total (words)} \cdot \log (\frac{total (documents)}{documents (i)}),

2）若总共有k个关键词，则将目标文档的第j个句子表示成

v_{j} = [d_{1}^{j}, d_{2}^{j}, . . ., d_{k}^{j}] .

步骤4）中所述的数据重构算法：

&ForAll; l, x_{l} &Element; {v_{j} | j = 1,2, . . . n};

2）根据数据重构原理，最优摘要句子应该符合以下方程：

\min_{X, A} Σ_{j = 1}^{n} ({| | v_{j} - a_{j} X | |}^{2} + γ {| | a_{j} | |}^{2})

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于数据重构的文档摘要提取方法，该方法的特征在于：

1)从文档数据库中获取文档，作为待提取摘要的目标文档；

2)针对每个目标文档，提取该文档中的每一个句子，作为该文档摘要的备选句子库；

3)统计所有关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量；步骤3)中所述的关键词在所有文档中的权重信息，并以此将备选句子库中的每个句子表示成一个向量，具体步骤是：

3.1若第i个关键词在目标文档的第j个句子中出现，其在所有文档中的权重信息为它的TF-IDF值，即

d_{i}^{j} = \frac{nu m_{j} (i)}{total (words)} \cdot \log (\frac{total (documents)}{documents (t)}),

其中num_j(i)为在目标文档的第j个句子中，第i个关键词的个数，total(words)为目标文档的第j个句子包含的单词的总数，total(documents)为文档的总数，documents(i)为含有第i个关键词的文档的数目；

3.2若总共有k个关键词，则将目标文档的第j个句子表示成

v_{j} = [d_{1}^{j}, d_{2}^{j}, \cdot \cdot \cdot, d_{k}^{j}];

4)利用数据重构算法，从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子；步骤4)中所述的数据重构算法具体做法是：

4.1若目标文档包含n个句子，用{v_j|j＝1，2，…，n}表示，其中要提取的目标摘要包含m(m＜n)个句子，用{x_l|l＝1，2，…，m}表示，其中每个摘要句子都来自目标文档的原句子，即

&ForAll; l, x_{l} &Element; {v_{j} | j = 1,2, \cdot \cdot \cdot n};

4.2根据数据重构原理，最优摘要句子应该符合以下方程：

\min_{X, A} Σ_{j = 1}^{n} ({| | v_{j} a_{j} X | |}^{2} | γ {| | a_{j} | |}^{2})

其中矩阵X的每一行是一个x_l，每个a_j是m维的向量，运算符号||·||²是求向量模的平方，γ是可调参数；

4.3求解方程，得到最优矩阵解X，即挑选出了目标文档中既包含文档中心思想又包含最少冗余信息的m个最优摘要句子；

5)将挑选的句子提取出来，组成该目标文档的摘要。