CN1341899A - 为文字文档自动生成摘要的方法 - Google Patents
为文字文档自动生成摘要的方法 Download PDFInfo
- Publication number
- CN1341899A CN1341899A CN 00126866 CN00126866A CN1341899A CN 1341899 A CN1341899 A CN 1341899A CN 00126866 CN00126866 CN 00126866 CN 00126866 A CN00126866 A CN 00126866A CN 1341899 A CN1341899 A CN 1341899A
- Authority
- CN
- China
- Prior art keywords
- sentence
- speech
- score value
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种为文字文档自动生成摘要的方法,该方法在接收用户文本文件的同时还询问用户感兴趣的领域、话题和词语。该方法在确定句子的重要性时主要利用句子中词与用户配置文件的语言关联程度、与用户提交的检索式或话题的相似程度和词所属句子的分值总和等信息。该方法在计算词的分值基础上还根据构成句子的所有词的分值总和以及句子在段落和篇章中的位置来确定句子的重要性。
Description
本发明涉及一种自动文本处理方法,具体地说,涉及一种为文字文档自动生成摘要的方法。
在信息检索中,为了方便用户,通常需要借助计算机的自动文本处理功能为用户自动生成摘要。目前比较实用的为文字文档自动生成摘要的方法有以下四种:
·列出文章的首自然段或文章开始的若干个句子作为摘要(如
infoseek,Yahoo!等):该方法非常简单,但不适用于普
通文体;
·列出检索命中的句子(Lotus站点、北京日报站点等):与检索
直接相关,不能反映文章的总貌;
·使用模板:这种方法匹配文档中的某些模式,把匹配命中的内
容填充到预先做好的模板中。这种方法生成的摘要非常通
顺,但它仅能适用于固定的文体和固定的领域,很难通用
化;
·统计字词的出现频度:这是一种基于统计的方法,一般来说分
四个步骤:(1)分析文档的篇章结构,把文档切分为段落
和句子;(2)对句子进行词切分;(3)评价词和句子的
重要性;(4)将评价分值高的句子输出作为文档的摘要。
虽然以上基于统计的为文字文档自动生成摘要的方法考虑了文档中字、词的出现频率,并据此评价词和句子的重要性,但是由于缺少与用户之间的交互,不能更好地响应用户的需求。为此本发明提出了一种为文字文档自动生成摘要的方法,该方法在接收用户文本文件的同时,还可询句用户感兴趣的领域、话题和词语。该方法从文本中抽取重要的句子,然后按合理的顺序输出,作为文档的摘要。该方法既可为逐篇文档生成摘要,也可为文档集生成一篇综述性的重点提示。
根据本发明的为文字文档自动生成摘要的方法,包括步骤:
·对于给定文档集,通过篇章结构分析获得句子集,通过词法处理获得词集;
·为词集中的词和句子集中的句子赋初始的评分值;
·对词集中的每个词,根据它所属句子的分值,它与用户信息的关联程度计算它的分值;
·对于句子集中的每个句子,根据组成句子的各词的分值,句子在段落和篇章中的位置计算句子的分值;
·如果句子集和词集的分值总和与前次结果相比有显著变化,则循环第三步;若分值总和稳定下来,则继续以下步骤;
·评价分值高的句子作为文档集的摘要,分值高的词作为文档集的关键词表。
以上方法在传统的基于统计的方法中引入了以下功能:
·一种称为“自动关联法”的句子评价策略,更好地响应用户的需求;
·支持用户摘要配置文件,用户可在该文件中定制感兴趣的领域、话题和词语;
·既适用于普通目的,也适用于对某次检索的文档进行摘要。
该方法在对词集中的词进行评分时考虑了以下因素:词与用户配置文件的语言关联程度;词与用户提交的检索式或话题的相似程度;词所属句子的分值总和;词与各文档标题中词条的相似程度;词在文档中的比现次数与它在文档中的出现次数之比;和,词出现的文档数与文档集所含文档总数之比。
通过以下结合附图对本发明优选实施例的描述,可以使本发明的优点、特点更加明确。
图1为根据本发明一个具体实施例为文字文档自动生成摘要的方法的流程图;
图2为描述图1中句子评价部分采用的“自动关联法”的流程图。
如图1所示,根据本发明一具体实施例的为文字文档自动生成摘要的方法包括步骤:
第1步文档篇章结构分析
识别文档的标题、分节、列表、段落边界、句子边界。
第2步词法分析
根据文档的语种对文档的每个句子进行词法分析。对中文而言,词法分析包括(1)根据系统词典和用户词典对句子做词切分;(2)识别句子中的专有名词(目前包括人名、地名和称谓)、专业术语、数字、数量结构和日期表达式;(3)逐词附加词性标记;(4)辨析人称代词的指代主体;(5)根据类属词典识别词间关系(如同实体名称、同义词、概念关系等),建立词间关系网络。对英文而言,该步骤可能包括(1)词形规范化;(2)识别专有名词;(3)切分复合词;(4)过滤停止词等;
第3步评价句子的重要程度
应用自动关联法评价句子的重要程度。此步骤将在下文展开阐述。
第4步输出摘要:
·若用户需要为每篇文档生成摘要,则选取文档内评价分值高的句子,按它们在文内出现的先后顺序输出;
·若用户需要为为文档集生成一篇综述性摘要,则将句子按评价分值从高到低输出,并注明句子出自哪篇文档(例如在句子上加上超链接),以便用户能方便地查看相应文档。
在以上两种情形,人称代词都将被还原为它所指代的人称主体。
在对文档集D中的每篇文档做完篇章结构分析和词法处理后,依据每篇文档的句子集S和词集W对文档集中的每个句子进行评价,决定它们的重要程度。句子评价采用了自动关联法,即由句子集S和词集W互动地计算彼此的分值。通过以下步骤实现(参看图2):
步骤1、引入数组SCORE用以记录句子和词的评价分值,并将每个句子的分值SCORE[s]和每个词的分值SCORE[w]初始化为0;
步骤2、根据以下六个值的加权平均,计算每个词的分值SCORE[w];
·w同用户配置文件的语言关联程度;
·w同用户提交的检索式或话题的相似程度;
·w所属句子的分值总和;
·w与各文档标题中词条的相似程度;
·w在文档中的出现次数与它在文档集中的出现次数之比;
·w出现的文档数与文档集D所含文档总数之比;
用公式写,即
SCORE[w]=λ1 *salience(w,user summarization profile)+λ2 *salience(w,user′s query or topic)+λ3 *∑(SCORE[s],sЭω)+λ4 *salience(w,tile words)+λ5 *FREQUENCY(w|d)/FREQUENCY(w|D)+λ6 *NUMBER(d,dЭw)/NUMBER(D)公式1 |
步骤3、根据以下三个值的加权平均,计算句子的分值SCORE[s]:
·构成句子的所有词的分值总和;
·句子在段落和篇章中的位置:段落和篇章的第一个句子比其他位置的句子获得更高的分值;
·句子之间的相似性:若内容相似的句子在多篇文档中出现,该句子被加权;
用公式写,即
SCORE[s]=λ7 *∑(SCORE[w],sЭw)+λ8 *position(s,d)+λ9 *similarity(s,S)
公式2
步骤4、若句子的分值总和有显著变化,则循环第2步;否则过程结束。
通过以上结合具体实施例对本发明的描述可以看到,本发明的摘要方法也是一种基于统计的方法,它也对文档进行篇章结构分析和语言处理,它的新功能在于:
·允许用户定制“摘要配置文件”,用户在配置文件中可列出他所感兴趣的领域和话题,也可列出他对哪些具体词或哪些类型的词(如人名、称谓、地名、数字、金额、日期、用户自定义的词条等)敏感;
·生成的摘要可由主题或用户的检索驱动;
·全新的句子评价策略,本文称之为“自动关联法”:第一步,为词和句子的评价分值赋初值;第二步,根据用户配置文件、用户提交的主题或检索式、词的频度为每个词赋计算分值;第三步,在文档集中根据各句子所含词语和文档的篇章结构计算句子的评价值;第四步,把句子的分值反馈给词,重复第二步和第三步,直到句子的分值稳定下来为止。
这种方法可充分利用每篇文档的篇章结构信息、文档中的线索词、标题词、语言处理的结果、用户提交的话题或检索式,使得生成的摘要更切合用户的需要。
这里描述的流程图仅仅是示例性的。在不偏离本发明宗旨的前提下可以对这些图例或其中描述的步骤(或操作)进行许多修改。例如,可以按照不同的顺序执行这些步骤,或者可以增加,减少或修改步骤。所有这些改变被认为是指出权利要求的发明的一部分。
尽管这里已经详细描述了最优实施,相关领域的技术人员显然可以在不偏离本发明宗旨的前提下进行各种修改,补充,替换和类似改变,因而这些改变被认为是处于如下面权利要求书定义的发明范围之内。
Claims (7)
1.一种为文字文档自动生成摘要的方法,包括步骤:
·对于给定文档集,通过篇章结构分析获得句子集,通过词法处理获得词集;
·为词集中的词和句子集中的句子赋初始的评分值;
·对词集中的每个词,根据它所属句子的分值,它与用户信息的关联程度计算它的分值;
·对于句子集中的每个句子,根据组成句子的各词的分值,句子在段落和篇章中的位置计算句子的分值;
·如果句子集和词集的分值总和与前次结果相比有显著变化,则循环第三步;若分值总和稳定下来,则继续以下步骤;
·评价分值高的句子作为文档集的摘要,分值高的词作为文档集的关键词表。
2.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词,它根据它与用户配置文件的语言关联程度计算它的分值。
3.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词,还根据它与用户提交的检索式或话题的相似程度计算它的分值。
4.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词,还根据它与各文档标题中词条的相似程度计算它的分值。
5.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词,还根据它在文档中的出现次数与它在文档集中的出现次数之比计算它的分值。
6.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词,还根据它出现的文档数与文档集所含文档总数之比计算它的分值。
7.根据权利要求1的为文字文档自动生成摘要的方法,其特征在于:对词集中的每个词根据以下一项或几项值的加权平均计算词的分值:词与用户配置文件的语言关联程度;词与用户提交的检索式或话题的相似程度;词所属句子的分值总和;词与各文档标题中词条的相似程度;词在文档中的出现次数与它在文档中的出现次数之比;和;词出现的文档数与文档集所含文档总数之比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB00126866XA CN1145899C (zh) | 2000-09-07 | 2000-09-07 | 为文字文档自动生成摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB00126866XA CN1145899C (zh) | 2000-09-07 | 2000-09-07 | 为文字文档自动生成摘要的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1341899A true CN1341899A (zh) | 2002-03-27 |
CN1145899C CN1145899C (zh) | 2004-04-14 |
Family
ID=4592081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB00126866XA Expired - Fee Related CN1145899C (zh) | 2000-09-07 | 2000-09-07 | 为文字文档自动生成摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1145899C (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100337227C (zh) * | 2002-10-31 | 2007-09-12 | 艾瑞赞公司 | 为移动通信装置的文档内容做摘要的方法和装置 |
CN100418093C (zh) * | 2006-04-13 | 2008-09-10 | 北大方正集团有限公司 | 一种基于簇排列的面向主题或查询的多文档摘要方法 |
CN100433008C (zh) * | 2004-09-29 | 2008-11-12 | 株式会社东芝 | 用于创建文档摘要的系统和方法 |
CN100435145C (zh) * | 2006-04-13 | 2008-11-19 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
CN101105799B (zh) * | 2007-08-02 | 2010-04-07 | 华中科技大学 | 评价文件重要性程度的方法 |
CN101373486B (zh) * | 2008-10-16 | 2010-06-02 | 北京航空航天大学 | 一种基于用户兴趣模型的个性化摘要系统 |
CN101231634B (zh) * | 2007-12-29 | 2011-05-04 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101438285B (zh) * | 2006-05-05 | 2011-07-27 | 贺利实公司 | 用于对文档数据库中的文档进行域识别的方法 |
CN101446940B (zh) * | 2007-11-27 | 2011-09-28 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
CN101526938B (zh) * | 2008-03-06 | 2011-12-28 | 夏普株式会社 | 文档处理装置 |
CN102339318A (zh) * | 2011-10-24 | 2012-02-01 | Tcl集团股份有限公司 | 一种文件系统管理方法及系统 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
WO2015043066A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN106055614A (zh) * | 2016-05-26 | 2016-10-26 | 天津海量信息技术股份有限公司 | 基于多个语义摘要的内容相似性分析方法 |
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN106557460A (zh) * | 2015-09-29 | 2017-04-05 | 株式会社东芝 | 从单文档中提取关键词的装置及方法 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN110019726A (zh) * | 2017-12-22 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 图书书评的生成方法及装置、计算机设备及可读介质 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
-
2000
- 2000-09-07 CN CNB00126866XA patent/CN1145899C/zh not_active Expired - Fee Related
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100337227C (zh) * | 2002-10-31 | 2007-09-12 | 艾瑞赞公司 | 为移动通信装置的文档内容做摘要的方法和装置 |
CN100433008C (zh) * | 2004-09-29 | 2008-11-12 | 株式会社东芝 | 用于创建文档摘要的系统和方法 |
CN100418093C (zh) * | 2006-04-13 | 2008-09-10 | 北大方正集团有限公司 | 一种基于簇排列的面向主题或查询的多文档摘要方法 |
CN100435145C (zh) * | 2006-04-13 | 2008-11-19 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
CN101438285B (zh) * | 2006-05-05 | 2011-07-27 | 贺利实公司 | 用于对文档数据库中的文档进行域识别的方法 |
CN101105799B (zh) * | 2007-08-02 | 2010-04-07 | 华中科技大学 | 评价文件重要性程度的方法 |
CN101446940B (zh) * | 2007-11-27 | 2011-09-28 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
CN101231634B (zh) * | 2007-12-29 | 2011-05-04 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101526938B (zh) * | 2008-03-06 | 2011-12-28 | 夏普株式会社 | 文档处理装置 |
CN101373486B (zh) * | 2008-10-16 | 2010-06-02 | 北京航空航天大学 | 一种基于用户兴趣模型的个性化摘要系统 |
CN103034657B (zh) * | 2011-09-29 | 2015-12-02 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN102339318A (zh) * | 2011-10-24 | 2012-02-01 | Tcl集团股份有限公司 | 一种文件系统管理方法及系统 |
WO2015043066A1 (zh) * | 2013-09-29 | 2015-04-02 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN104915335B (zh) * | 2015-06-12 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN106557460A (zh) * | 2015-09-29 | 2017-04-05 | 株式会社东芝 | 从单文档中提取关键词的装置及方法 |
CN106055614A (zh) * | 2016-05-26 | 2016-10-26 | 天津海量信息技术股份有限公司 | 基于多个语义摘要的内容相似性分析方法 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN110019726A (zh) * | 2017-12-22 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 图书书评的生成方法及装置、计算机设备及可读介质 |
CN110895586A (zh) * | 2018-08-22 | 2020-03-20 | 腾讯科技(深圳)有限公司 | 生成新闻页面的方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN1145899C (zh) | 2004-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1145899C (zh) | 为文字文档自动生成摘要的方法 | |
Korenius et al. | Stemming and lemmatization in the clustering of finnish text documents | |
Martins et al. | Language identification in web pages | |
Lim et al. | Multiple sets of features for automatic genre classification of web documents | |
RU2393533C2 (ru) | Предложение родственных терминов для многосмыслового запроса | |
Mitra et al. | Information retrieval from documents: A survey | |
US6633868B1 (en) | System and method for context-based document retrieval | |
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
US7251781B2 (en) | Computer based summarization of natural language documents | |
DE69932044T2 (de) | Auf sprachmodellen basierte informationsgewinnung und spracherkennung | |
Efron | Cultural Orientation: Classifying Subjective Documents by Cociation Analysis. | |
Rui et al. | Bipartite graph reinforcement model for web image annotation | |
EP1227409A2 (en) | Extracting sentence translations from translated documents | |
CN1871605A (zh) | 问答式文献检索系统和方法 | |
CN1223733A (zh) | 利用计算机系统的日文文本字的识别 | |
AU2014285073B9 (en) | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus | |
CN1687924A (zh) | 互联网人物信息搜索引擎的生成方法 | |
Ma et al. | Extracting unstructured data from template generated web documents | |
Luk et al. | A comparison of Chinese document indexing strategies and retrieval models | |
CN1916904A (zh) | 一种基于文档扩展的单文档摘要方法 | |
Jin et al. | A chinese dictionary construction algorithm for information retrieval | |
Tahmasebi et al. | Using word sense discrimination on historic document collections | |
GSK et al. | Multilingual document clustering using wikipedia as external knowledge | |
Daumé III et al. | Bayesian multi-document summarization at MSE | |
Kwatra et al. | Extractive and abstractive summarization for hindi text using hierarchical clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040414 Termination date: 20110907 |