CN1341899A

CN1341899A - 为文字文档自动生成摘要的方法

Info

Publication number: CN1341899A
Application number: CN 00126866
Authority: CN
Inventors: 郭志立; 杨力平
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-09-07
Filing date: 2000-09-07
Publication date: 2002-03-27
Anticipated expiration: 2020-09-07
Also published as: CN1145899C

Abstract

本发明公开了一种为文字文档自动生成摘要的方法,该方法在接收用户文本文件的同时还询问用户感兴趣的领域、话题和词语。该方法在确定句子的重要性时主要利用句子中词与用户配置文件的语言关联程度、与用户提交的检索式或话题的相似程度和词所属句子的分值总和等信息。该方法在计算词的分值基础上还根据构成句子的所有词的分值总和以及句子在段落和篇章中的位置来确定句子的重要性。

Description

为文字文档自动生成摘要的方法

本发明涉及一种自动文本处理方法，具体地说，涉及一种为文字文档自动生成摘要的方法。

在信息检索中，为了方便用户，通常需要借助计算机的自动文本处理功能为用户自动生成摘要。目前比较实用的为文字文档自动生成摘要的方法有以下四种：

·列出文章的首自然段或文章开始的若干个句子作为摘要(如

infoseek，Yahoo！等)：该方法非常简单，但不适用于普

通文体；

·列出检索命中的句子(Lotus站点、北京日报站点等)：与检索

直接相关，不能反映文章的总貌；

·使用模板：这种方法匹配文档中的某些模式，把匹配命中的内

容填充到预先做好的模板中。这种方法生成的摘要非常通

顺，但它仅能适用于固定的文体和固定的领域，很难通用

化；

·统计字词的出现频度：这是一种基于统计的方法，一般来说分

四个步骤：(1)分析文档的篇章结构，把文档切分为段落

和句子；(2)对句子进行词切分；(3)评价词和句子的

重要性；(4)将评价分值高的句子输出作为文档的摘要。

虽然以上基于统计的为文字文档自动生成摘要的方法考虑了文档中字、词的出现频率，并据此评价词和句子的重要性，但是由于缺少与用户之间的交互，不能更好地响应用户的需求。为此本发明提出了一种为文字文档自动生成摘要的方法，该方法在接收用户文本文件的同时，还可询句用户感兴趣的领域、话题和词语。该方法从文本中抽取重要的句子，然后按合理的顺序输出，作为文档的摘要。该方法既可为逐篇文档生成摘要，也可为文档集生成一篇综述性的重点提示。

根据本发明的为文字文档自动生成摘要的方法，包括步骤：

·对于给定文档集，通过篇章结构分析获得句子集，通过词法处理获得词集；

·为词集中的词和句子集中的句子赋初始的评分值；

·对词集中的每个词，根据它所属句子的分值，它与用户信息的关联程度计算它的分值；

·对于句子集中的每个句子，根据组成句子的各词的分值，句子在段落和篇章中的位置计算句子的分值；

·如果句子集和词集的分值总和与前次结果相比有显著变化，则循环第三步；若分值总和稳定下来，则继续以下步骤；

·评价分值高的句子作为文档集的摘要，分值高的词作为文档集的关键词表。

以上方法在传统的基于统计的方法中引入了以下功能：

·一种称为“自动关联法”的句子评价策略，更好地响应用户的需求；

·支持用户摘要配置文件，用户可在该文件中定制感兴趣的领域、话题和词语；

·既适用于普通目的，也适用于对某次检索的文档进行摘要。

该方法在对词集中的词进行评分时考虑了以下因素：词与用户配置文件的语言关联程度；词与用户提交的检索式或话题的相似程度；词所属句子的分值总和；词与各文档标题中词条的相似程度；词在文档中的比现次数与它在文档中的出现次数之比；和，词出现的文档数与文档集所含文档总数之比。

通过以下结合附图对本发明优选实施例的描述，可以使本发明的优点、特点更加明确。

图1为根据本发明一个具体实施例为文字文档自动生成摘要的方法的流程图；

图2为描述图1中句子评价部分采用的“自动关联法”的流程图。

如图1所示，根据本发明一具体实施例的为文字文档自动生成摘要的方法包括步骤：

第1步文档篇章结构分析

识别文档的标题、分节、列表、段落边界、句子边界。

第2步词法分析

根据文档的语种对文档的每个句子进行词法分析。对中文而言，词法分析包括(1)根据系统词典和用户词典对句子做词切分；(2)识别句子中的专有名词(目前包括人名、地名和称谓)、专业术语、数字、数量结构和日期表达式；(3)逐词附加词性标记；(4)辨析人称代词的指代主体；(5)根据类属词典识别词间关系(如同实体名称、同义词、概念关系等)，建立词间关系网络。对英文而言，该步骤可能包括(1)词形规范化；(2)识别专有名词；(3)切分复合词；(4)过滤停止词等；

第3步评价句子的重要程度

应用自动关联法评价句子的重要程度。此步骤将在下文展开阐述。

第4步输出摘要：

·若用户需要为每篇文档生成摘要，则选取文档内评价分值高的句子，按它们在文内出现的先后顺序输出；

·若用户需要为为文档集生成一篇综述性摘要，则将句子按评价分值从高到低输出，并注明句子出自哪篇文档(例如在句子上加上超链接)，以便用户能方便地查看相应文档。

在以上两种情形，人称代词都将被还原为它所指代的人称主体。

在对文档集D中的每篇文档做完篇章结构分析和词法处理后，依据每篇文档的句子集S和词集W对文档集中的每个句子进行评价，决定它们的重要程度。句子评价采用了自动关联法，即由句子集S和词集W互动地计算彼此的分值。通过以下步骤实现(参看图2)：

步骤1、引入数组SCORE用以记录句子和词的评价分值，并将每个句子的分值SCORE[s]和每个词的分值SCORE[w]初始化为0；

步骤2、根据以下六个值的加权平均，计算每个词的分值SCORE[w]；

·w同用户配置文件的语言关联程度；

·w同用户提交的检索式或话题的相似程度；

·w所属句子的分值总和；

·w与各文档标题中词条的相似程度；

·w在文档中的出现次数与它在文档集中的出现次数之比；

·w出现的文档数与文档集D所含文档总数之比；

用公式写，即

SCORE[w]＝λ₁ ^*salience(w，user summarization profile)+λ₂ ^*salience(w，user′s query or topic)+λ₃ ^*∑(SCORE[s]，sЭω)+λ₄ ^*salience(w，tile words)+λ₅ ^*FREQUENCY(w|d)/FREQUENCY(w|D)+λ₆ ^*NUMBER(d，dЭw)/NUMBER(D)公式1

步骤3、根据以下三个值的加权平均，计算句子的分值SCORE[s]：

·构成句子的所有词的分值总和；

·句子在段落和篇章中的位置：段落和篇章的第一个句子比其他位置的句子获得更高的分值；

·句子之间的相似性：若内容相似的句子在多篇文档中出现，该句子被加权；

用公式写，即

SCORE[s]＝λ₇ ^*∑(SCORE[w]，sЭw)+λ₈ ^*position(s，d)+λ₉ ^*similarity(s，S)

公式2

步骤4、若句子的分值总和有显著变化，则循环第2步；否则过程结束。

通过以上结合具体实施例对本发明的描述可以看到，本发明的摘要方法也是一种基于统计的方法，它也对文档进行篇章结构分析和语言处理，它的新功能在于：

·允许用户定制“摘要配置文件”，用户在配置文件中可列出他所感兴趣的领域和话题，也可列出他对哪些具体词或哪些类型的词(如人名、称谓、地名、数字、金额、日期、用户自定义的词条等)敏感；

·生成的摘要可由主题或用户的检索驱动；

·全新的句子评价策略，本文称之为“自动关联法”：第一步，为词和句子的评价分值赋初值；第二步，根据用户配置文件、用户提交的主题或检索式、词的频度为每个词赋计算分值；第三步，在文档集中根据各句子所含词语和文档的篇章结构计算句子的评价值；第四步，把句子的分值反馈给词，重复第二步和第三步，直到句子的分值稳定下来为止。

这种方法可充分利用每篇文档的篇章结构信息、文档中的线索词、标题词、语言处理的结果、用户提交的话题或检索式，使得生成的摘要更切合用户的需要。

这里描述的流程图仅仅是示例性的。在不偏离本发明宗旨的前提下可以对这些图例或其中描述的步骤(或操作)进行许多修改。例如，可以按照不同的顺序执行这些步骤，或者可以增加，减少或修改步骤。所有这些改变被认为是指出权利要求的发明的一部分。

尽管这里已经详细描述了最优实施，相关领域的技术人员显然可以在不偏离本发明宗旨的前提下进行各种修改，补充，替换和类似改变，因而这些改变被认为是处于如下面权利要求书定义的发明范围之内。

Claims

1.一种为文字文档自动生成摘要的方法，包括步骤：

·为词集中的词和句子集中的句子赋初始的评分值；

2.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词，它根据它与用户配置文件的语言关联程度计算它的分值。

3.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词，还根据它与用户提交的检索式或话题的相似程度计算它的分值。

4.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词，还根据它与各文档标题中词条的相似程度计算它的分值。

5.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词，还根据它在文档中的出现次数与它在文档集中的出现次数之比计算它的分值。

6.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词，还根据它出现的文档数与文档集所含文档总数之比计算它的分值。

7.根据权利要求1的为文字文档自动生成摘要的方法，其特征在于：对词集中的每个词根据以下一项或几项值的加权平均计算词的分值：词与用户配置文件的语言关联程度；词与用户提交的检索式或话题的相似程度；词所属句子的分值总和；词与各文档标题中词条的相似程度；词在文档中的出现次数与它在文档中的出现次数之比；和；词出现的文档数与文档集所含文档总数之比。