CN102841940B - 一种基于数据重构的文档摘要提取方法 - Google Patents

一种基于数据重构的文档摘要提取方法 Download PDF

Info

Publication number
CN102841940B
CN102841940B CN201210293118.9A CN201210293118A CN102841940B CN 102841940 B CN102841940 B CN 102841940B CN 201210293118 A CN201210293118 A CN 201210293118A CN 102841940 B CN102841940 B CN 102841940B
Authority
CN
China
Prior art keywords
sentence
document
documents
data reconstruction
destination document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210293118.9A
Other languages
English (en)
Other versions
CN102841940A (zh
Inventor
陈纯
卜佳俊
何占盈
王灿
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210293118.9A priority Critical patent/CN102841940B/zh
Publication of CN102841940A publication Critical patent/CN102841940A/zh
Application granted granted Critical
Publication of CN102841940B publication Critical patent/CN102841940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于数据重构的文档摘要提取方法,从文档数据库中获取文档,作为待提取摘要的目标文档;针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;将挑选的句子提取出来,组成该目标文档的摘要。本方法的优点在于:可以帮助用户,尤其是视觉障碍的残疾人用户,以包含较少文字的摘要的形式快速了解原文档的主要内容。

Description

一种基于数据重构的文档摘要提取方法
技术领域
本发明涉及文档摘要提取方法的技术领域,特别是基于数据重构的文档摘要提取方法。
背景技术
世界上约有盲人3000万人左右,中国约有500万盲人,占世界总数的18%,随着互联网的高度普及和互联网在日常生活中重要性的不断上升,如何帮助盲人从互联网上迅速获取信息将成为无障碍建设中的重要问题。盲人由于无法通过视力接受信息,所以其获取文本内容的问题特别突出,传统盲人依靠读屏软件逐字了解网页文字内容的过程大大限制了其获取网页文本信息的速度。而且现在的网站内容在越来越丰富的同时,也包含了越来越多的冗余信息。面对文本信息量如此庞大的互联网,为盲人提供一种文档摘要提取方法,将文档信息精炼成既包含文档中心思想又包含最少冗余信息的摘要形式显得尤为重要。
目前已有的文档摘要工作基本从句子排序入手,然后逐个选取得分最高的句子,最后组成摘要。这类方法很难在包含文档中心思想的同时,保证摘要结果包含最少冗余信息。因此,我们提出了一种基于数据重构的文档摘要提取方法,从数据重构的角度入手,保证摘要句子利用重构过程中能够包含目标文档的中心思想,同时通过求解最优摘要句子的过程保证最后摘要结果包含最少的冗余信息。
发明内容
为了克服现有文档摘录方法无法在包含文档中心思想时去除摘录结果中的冗余信息,本发明提出了一种基于数据重构的文档摘要提取方法,帮助用户能够快速锁定多个文档中感兴趣的某一个文档,以提高获取互联网文本信息的体验度,:
1、本发明所述的一种基于数据重构的文档摘要提取方法
包括以下步骤:
1)从文档数据库中获取文档,作为待提取摘要的目标文档;
2)针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;
3)统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;
4)利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;
5)将挑选的句子提取出来,组成该目标文档的摘要。
2、步骤3)中所述的关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量:
1)若第i个关键词在目标文档的第j个句子中出现,其在所有文档中的权重信息为它的TF-IDF值,即 d i j = num j ( i ) total ( words ) · log ( total ( documents ) documents ( i ) ) , 其中numj(i)为在目标文档的第j个句子中,第i个关键词的个数,total(words)为目标文档的第j个句子包含的单词的总数,total(documents)为文档的总数,documents(i)为含有第i个关键词的文档的数目;
2)若总共有k个关键词,则将目标文档的第j个句子表示成 v j = [ d 1 j , d 2 j , . . . , d k j ] .
3、步骤4)中所述的数据重构算法:
1)若目标文档包含n个句子,用{vj|j=1,2,…,n}表示,其中要提取的目标摘要包含m(m<n)个句子,用{xl|l=1,2,…,m}表示,其中每个摘要句子都来自目标文档的原句子,即 ∀ l , x l ∈ { v j | j = 1,2 , . . . n } ;
2)根据数据重构原理,最优摘要句子应该符合以下方程:
min X , A Σ j = 1 n ( | | v j - a j X | | 2 + γ | | a j | | 2 )
其中矩阵X的每一行是一个xl,每个aj是m维的向量,运算符号‖·‖2是求向量模的平方,Y是可调参数;
3)求解方程,得到最优矩阵解X,即挑选出了目标文档中既包含文档中心思想又包含最少冗余信息的m个最优摘要句子。
本发明提出了一种基于数据重构的文档摘要提取方法,其优点在于:对网络文本文档进行处理,以更加紧凑精炼的摘要形式表达原文档;适用于所有类型的文本文档,结果摘要既包含文档中心思想又包含最少冗余信息,可用于帮助提高盲人的网络文本信息获取速度,也可用于帮助普通用户提高网络文本信息的浏览速度。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
一种基于数据重构的文档摘要提取方法,该方法包括以下步骤:
1)从文档数据库中获取文档,作为待提取摘要的目标文档;
2)针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;
3)统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;
4)利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;
5)将挑选的句子提取出来,组成该目标文档的摘要。
步骤3)中所述的关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量:
1)若第i个关键词在目标文档的第j个句子中出现,其在所有文档中的权重信息为它的TF-IDF值,即 d i j = num j ( i ) total ( words ) · log ( total ( documents ) documents ( i ) ) , 其中numj(i)为在目标文档的第j个句子中,第i个关键词的个数,total(words)为目标文档的第j个句子包含的单词的总数,total(documents)为文档的总数,documents(i)为含有第i个关键词的文档的数目;
2)若总共有k个关键词,则将目标文档的第j个句子表示成 v j = [ d 1 j , d 2 j , . . . , d k j ] .
步骤4)中所述的数据重构算法:
1)若目标文档包含n个句子,用{vj|j=1,2,…,n}表示,其中要提取的目标摘要包含m(m<n)个句子,用{xl|l=1,2,…,m}表示,其中每个摘要句子都来自目标文档的原句子,即 ∀ l , x l ∈ { v j | j = 1,2 , . . . n } ;
2)根据数据重构原理,最优摘要句子应该符合以下方程:
min X , A Σ j = 1 n ( | | v j - a j X | | 2 + γ | | a j | | 2 )
其中矩阵X的每一行是一个xl,每个aj是m维的向量,运算符号‖·‖2是求向量模的平方,Y是可调参数;
3)求解方程,得到最优矩阵解X,即挑选出了目标文档中既包含文档中心思想又包含最少冗余信息的m个最优摘要句子。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于数据重构的文档摘要提取方法,该方法的特征在于:
1)从文档数据库中获取文档,作为待提取摘要的目标文档;
2)针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;
3)统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;步骤3)中所述的关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量,具体步骤是:
3.1若第i个关键词在目标文档的第j个句子中出现,其在所有文档中的权重信息为它的TF-IDF值,即 d i j = nu m j ( i ) total ( words ) · log ( total ( documents ) documents ( t ) ) , 其中numj(i)为在目标文档的第j个句子中,第i个关键词的个数,total(words)为目标文档的第j个句子包含的单词的总数,total(documents)为文档的总数,documents(i)为含有第i个关键词的文档的数目;
3.2若总共有k个关键词,则将目标文档的第j个句子表示成 v j = [ d 1 j , d 2 j , · · · , d k j ] ;
4)利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;步骤4)中所述的数据重构算法具体做法是:
4.1若目标文档包含n个句子,用{vj|j=1,2,…,n}表示,其中要提取的目标摘要包含m(m<n)个句子,用{xl|l=1,2,…,m}表示,其中每个摘要句子都来自目标文档的原句子,即 ∀ l , x l ∈ { v j | j = 1,2 , · · · n } ;
4.2根据数据重构原理,最优摘要句子应该符合以下方程:
min X , A Σ j = 1 n ( | | v j a j X | | 2 | γ | | a j | | 2 )
其中矩阵X的每一行是一个xl,每个aj是m维的向量,运算符号||·||2是求向量模的平方,γ是可调参数;
4.3求解方程,得到最优矩阵解X,即挑选出了目标文档中既包含文档中心思想又包含最少冗余信息的m个最优摘要句子;
5)将挑选的句子提取出来,组成该目标文档的摘要。
CN201210293118.9A 2012-08-17 2012-08-17 一种基于数据重构的文档摘要提取方法 Active CN102841940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210293118.9A CN102841940B (zh) 2012-08-17 2012-08-17 一种基于数据重构的文档摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210293118.9A CN102841940B (zh) 2012-08-17 2012-08-17 一种基于数据重构的文档摘要提取方法

Publications (2)

Publication Number Publication Date
CN102841940A CN102841940A (zh) 2012-12-26
CN102841940B true CN102841940B (zh) 2015-01-28

Family

ID=47369303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210293118.9A Active CN102841940B (zh) 2012-08-17 2012-08-17 一种基于数据重构的文档摘要提取方法

Country Status (1)

Country Link
CN (1) CN102841940B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678645A (zh) * 2013-12-20 2014-03-26 中电长城网际系统应用有限公司 文档匹配方法和文档匹配装置
CN103885935B (zh) * 2014-03-12 2016-06-29 浙江大学 基于图书阅读行为的图书章节摘要生成方法
CN105677911B (zh) * 2016-02-29 2019-05-17 浙江大学 一种最佳内容重构的无障碍快速阅读方法
CN107833165A (zh) * 2017-11-27 2018-03-23 广州中龙信息科技有限公司 一种专利转让综合服务管理系统
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置
CN109657054B (zh) * 2018-12-13 2021-02-02 北京百度网讯科技有限公司 摘要生成方法、装置、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于句子选择的自动文本摘要方法及其评价;王知津;《现代图书情报技术》;19980131(第1期);46-51,58 *
自动文本摘要技术综述;胡侠等;《情报杂志》;20100830;第29卷(第8期);144-147 *
自动文本摘要方法;江开忠等;《计算机工程》;20080131;第34卷(第1期);221-223 *

Also Published As

Publication number Publication date
CN102841940A (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
CN102841940B (zh) 一种基于数据重构的文档摘要提取方法
CN103136359B (zh) 单文档摘要生成方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN106066866A (zh) 一种英文文献关键短语自动抽取方法与系统
CN103077157B (zh) 一种文本集合相似性的可视化方法和装置
CN104778276A (zh) 一种基于改进tf-idf的多索引合并排序算法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
Cui et al. Dataset for the first evaluation on Chinese machine reading comprehension
Yamashita et al. Initial results of international survey on industrial practice on power system load modelling conducted by CIGRE WG C4. 605
CN106126497A (zh) 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
Wang et al. Named Entity Annotation Schema for Geological Literature Mining in the Domain of Porphyry Copper Deposits
Hsu et al. Misconceptions mining and visualizations for Chinese-based MOOCs forum based on NLP
Horton Human resource management in the public sector
CN114328865A (zh) 一种改进的TextRank多特征融合教育资源关键词提取方法
Wesley et al. Unravelling the history of glass beads in Arnhem Land
Zhibin et al. An answer extraction method of simple question based on web knowledge library
Zhou Research on application of rough set attribute reduction methods in medical diagnosis
Nguyen Tien et al. Sentence Modeling via Multiple Word Embeddings and Multi-level Comparison for Semantic Textual Similarity
Bierman et al. Key Concepts in Geomorphology-NSF supports community-based creation of a new style of textbook
Samsel et al. Human Fingerprints and Artistic Vocabulary; Rendering Data, Creating Engagement, Connection and Context to Earth System Models
Abbasi Hosseini et al. Challenging Cultural Identity: The Role of Graphic Novels in Representing Local Identity in Worldwide Context
Motahari Khansari et al. HmBlogs: A big general Persian corpus
Sumen et al. Corrigendum to:" Agent-based modeling of the context dependency in T cell recognition"[J. Theor. Biol. 236 (2005) 376-391]
Hussein Mohamud et al. Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant