CN104636431A - 一种不同领域文档摘要自动抽取及自动优化方法 - Google Patents
一种不同领域文档摘要自动抽取及自动优化方法 Download PDFInfo
- Publication number
- CN104636431A CN104636431A CN201410845152.1A CN201410845152A CN104636431A CN 104636431 A CN104636431 A CN 104636431A CN 201410845152 A CN201410845152 A CN 201410845152A CN 104636431 A CN104636431 A CN 104636431A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- field
- weighted value
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对不同领域文档摘要自动抽取及自动优化的方法,该方法包括:第一步:针对不同领域人工生成领域摘要模板;第二步:根据领域摘要模板自动抽取摘要;第三步:人工干预优化摘要及领域摘要模板。本发明方法使用人工生成领域摘要模板的方式,保证了不同领域的文档自动摘要的抽取速度效率与抽取摘要的正确性;在摘要生成后采用人工参与的、人工识别的方式影响优化本方法自动摘要的抽取速度效率与抽取摘要的正确性。在具有较强领域性的文档摘要抽取方面抽取速度快,效果好。
Description
技术领域
本发明涉及文档元数据抽取,尤其涉及一种针对不同领域文档摘要自动抽取及自动优化的方法,属于自然语言处理领域。
背景技术
随着信息技术的发展,电子文件已经成为现代工作、生活不可或缺的重要信息载体,人们的工作和生活驱动了电子文件信息的生成和流转,产生了大量的电子文件。
然而随着时间的推移,电子文件迅速增加,数量已经不能完全统计。根据国家档案局2006年的调查,中央机关电子文件数量高达1.5亿余份,总量达75TB。2006年我国中央机关及其直属企事业单位生成的电子文件数量比2005年增长了18.9%,其数量占文件总数的72.7%,如何对我国政府公文类电子文件进行有效的管理和利用成了一个日益严峻的问题。使用普通元数据抽取方法抽取领域性非常强的文档时往往存在抽取速度慢、效果差的问题。
发明内容
本发明公开了一种不同领域文档摘要自动抽取及自动优化的方法,解决了在使用普通元数据抽取方法抽取领域性非常强的文档时抽取速度慢、效果差的问题。
为实现上述发明目的,本发明采取的技术方案是:
第一步:针对不同领域人工生成领域摘要模板;
第二步:根据领域摘要模板自动抽取摘要;
第三步:人工干预优化摘要及领域摘要模板。
进一步地,针对不同领域人工生成领域摘要模板包括以下步骤:
A.根据不同领域的非结构化数据设置不同的句子得分项的权重,句子得分项包括句子相似度得分项,句子在文中的位置得分项,基于词权重的句子词权重值得分项;
B. 根据不同领域的非结构化数据设定在文中不同位置的句子、段落的权重值;
C. 根据不同领域的非结构化数据收集整理相关的词库及对应的词权重值;
D.根据不同领域设定摘要信息抽取权重的比例。
进一步地,根据领域摘要模板自动抽取摘要包括以下步骤:
A.导入领域摘要模板;
B. 从文档中抽取文档正文数据;
C. 使用断句算法对提取的文档正文数据进行分段与断句,切分句子,并记录句子在文中的位置;
D.使用相似度算法对每个句子计算分值;
E. 对已经切分完成的句子使用中文分词算法,进行中文分词;
F. 对分词得到的词进行词频统计,得到词的权重值;
G.分词得到的词在对应的词库中进行匹配,如果匹配到相关的词,并且在词库中对应的权重值大于目前计算的到的词权重值,则增加该词的权重值,如果在词库中对应的权重值小于目前计算的到的词权重值,则降低该词的权重值;
H.根据句子中词的权重值计算基于词权重的句子词权重值;
I. 根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值;
J. 根据领域摘要模板中设定的句子相似度权重值,句子位置权重值,句子词权重值之间的权重关系计算句子权重值;
K.将得到的句子权重值从高到低排序;
L. 根据领域摘要模板中设定的摘要权重比例输出摘要信息。
进一步地,人工干预优化摘要及领域摘要模板包括以下步骤:
A.人工对得到的摘要信息与文章进行对比,判断摘要信息与文章是否匹配;如果摘要不完整,则增加部分摘要,如果摘要过多,则删除部分摘要;
B. 使用断句算法,将摘要中被修改的句子或者段落进行断句,得到句子;
C. 得到句子在文章中的对应位置;
D.根据领域摘要模板中的优化步长,增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值;
E. 使用中文分词算法对步骤B得到的句子进行分词处理,得到词;
F. 将所得到的词与领域摘要模板的词库进行匹配;
G.如果匹配到对应的词,则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重;
H.重新得到领域摘要模板。
进一步地,对于增加部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词,将领域摘要模板中句子在文章中的对应位置的权重增加。
进一步地,对于删除部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重降低,将摘要模板中句子在文章中的对应位置的权重降低。
本发明方法使用人工生成领域摘要模板的方式,保证了不同领域的文档自动摘要的抽取速度效率与抽取摘要的正确性;在摘要生成后采用人工参与的、人工识别的方式影响优化本方法自动摘要的抽取速度效率与抽取摘要的正确性。在具有较强领域性的文档摘要抽取方面抽取速度快,效果好。
附图说明
图1是本方法的总体流程示意图。
图2是领域摘要模板示意图。
图3是领域摘要自动抽取流程示意图。
图4是领域摘要模板自动优化过程示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
图1是本方法的总体流程示意图。如图1所示,本发明的不同领域文档摘要自动抽取及自动优化的方法主要包括以下步骤:
第一步:针对不同领域人工生成领域摘要模板;
第二步:根据领域摘要模板自动抽取摘要;
第三步:人工干预优化摘要及领域摘要模板。
经人工优化的领域摘要模板可用在随后的文档摘要自动抽取中。
图2是领域摘要模板示意图。如图2所示,领域摘要模版的一个示例如下:
根据不同领域的非结构化数据设置不同的句子得分项的权重。如:句子相似度得分项权重:30%;句子在文中位置得分项权重:25%;基于词权重的句子权重值得分项权重:45%。
文中不同位置权重值设置:在第一段落第一句权重30%;在第一段落最后一句权重:50%;在最后一段最后一句权重20%。
摘要信息权重比例5%。
优化步长:1%。
图3是领域摘要自动抽取流程示意图。如图3所示,根据领域摘要模板自动抽取摘要的一个示例如下:
1:导入领域摘要模板。
2:从文档中抽取文档正文数据。
3:使用断句算法对提取的文档正文数据进行分段与断句,切分句子,并记录句子在文中的位置,如:
第一段第一句;第一段第二句;第一段第三句;以此类推。
4:使用相似度算法对每个句子计算分值,相似度越高的句子得分越高,得到每个句子的相似度分值,如:
第一段第一句,90;第一段第二句,50;第一段第三句,30;以此类推。
5:对已经切分完成的句子使用中文分词算法,进行中文分词。如:
第一段第一句,得到中文分词:分词1、分词2、分词3、分词4、分词5、分词6;以此类推。
6:对分词得到的词在本文中进行词频统计,得到词的权重值。如:
词 | 词频 | 得分 |
分词1 | 1 | 10 |
分词2 | 10 | 80 |
分词3 | 2 | 20 |
分词4 | 3 | 30 |
分词5 | 1 | 10 |
分词6 | 15 | 15 |
7:分词得到的词在对应的词库中进行匹配,如果匹配到相关的词,并且在词库中对应的权重值大于目前计算的到的词权重值,则增加该词的权重值;如果在词库中对应的权重值小于目前计算的到的词权重值,则降低该词的权重值。如下面的表1所示:
表1
8:根据句子中词的权重值计算基于词权重的句子词权重值。如:
第一段第一句的得分为:10+50+25+15+5+22.5/6=21.25
9:根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值。如:
第一段第一句权重30%,第一段第一句得分30。
10:根据领域摘要模板中设定的句子相似度权重值,句子位置权重值,句子词权重值之间的权重关系计算句子权重值。如:
第一段第一句句子相似度得分:90
第一段第一句句子位置得分:30
第一段第一句基于词权重的得分21.25
并根据模版:
句子相似度得分项权重:30%
句子在文中位置得分项权重:25%
基于词权重的句子权重值得分项权重:45%
计算出第一段第一句权重值:
90*30%+30*25%+21.25*45%=44.0625
11:将得到的句子权重值从高到低排序。如:
第一段第一句得分44.0625
第一段第二句:43
最后一段最后一句:42.123
12:根据领域摘要模板中设定的摘要权重比例输出摘要信息,比如模板中设定将权重值前5%高的句子作为摘要输出。
图4是领域摘要模板自动优化过程示意图。如图4所示,对领域模板进行优化的方法主要包括以下步骤:
A.人工对得到的摘要信息与文章进行对比,判断摘要信息与文章是否匹配;如果摘要不完整,则增加部分摘要,如果摘要过多,则删除部分摘要;
B. 使用断句算法,将摘要中被修改的句子或者段落进行断句,得到句子;
C. 得到句子在文章中的对应位置;
D.根据领域摘要模板中的优化步长,增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值;
E. 使用中文分词算法对步骤B得到的句子进行分词处理,得到词;
F. 将所得到的词与领域摘要模板的词库进行匹配;
G.如果匹配到对应的词,则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重;
H.重新得到领域摘要模板。
具体地,如果发生删除部分摘要操作,则将相应句子对应的词在领域摘要模板词库中的权重降低,将摘要模板中句子在文章中的对应位置的权重降低;如果发生增加部分摘要操作,则将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词,将领域摘要模板中句子在文章中的对应位置的权重增加。
以上所说的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (6)
1.一种针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于包括以下步骤:
A.针对不同领域人工生成领域摘要模板;
B.根据领域摘要模板自动抽取摘要;
C.人工干预优化摘要及领域摘要模板。
2.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:针对不同领域人工生成领域摘要模板包括以下步骤:
A.根据不同领域的非结构化数据设置不同的句子得分项的权重,句子得分项包括句子相似度得分项,句子在文中的位置得分项,基于词权重的句子词权重值得分项;
B.根据不同领域的非结构化数据设定在文中不同位置的句子、段落的权重值;
C.根据不同领域的非结构化数据收集整理相关的词库及对应的词权重值;
D.根据不同领域设定摘要信息抽取权重的比例。
3.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:根据领域摘要模板自动抽取摘要包括以下步骤:
A.导入领域摘要模板;
B.从文档中抽取文档正文数据;
C.使用断句算法对提取的文档正文数据进行分段与断句,切分句子,并记录句子在文中的位置;
D.使用相似度算法对每个句子计算分值;
E.对已经切分完成的句子使用中文分词算法,进行中文分词;
F.对分词得到的词进行词频统计,得到词的权重值;
G.分词得到的词在对应的词库中进行匹配,如果匹配到相关的词,并且在词库中对应的权重值大于目前计算的到的词权重值,则增加该词的权重值,如果在词库中对应的权重值小于目前计算的到的词权重值,则降低该词的权重值;
H.根据句子中词的权重值计算基于词权重的句子词权重值;
I.根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值;
J.根据领域摘要模板中设定的句子相似度权重值,句子位置权重值,句子词权重值之间的权重关系计算句子权重值;
K.将得到的句子权重值从高到低排序;
L.根据领域摘要模板中设定的摘要权重比例输出摘要信息。
4.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:人工干预优化摘要及领域摘要模板包括以下步骤:
A.人工对得到的摘要信息与文章进行对比,判断摘要信息与文章是否匹配;如果摘要不完整,则增加部分摘要,如果摘要过多,则删除部分摘要;
B.使用断句算法,将摘要中被修改的句子或者段落进行断句,得到句子;
C.得到句子在文章中的对应位置;
D.根据领域摘要模板中的优化步长,增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值;
E.使用中文分词算法对步骤B得到的句子进行分词处理,得到词;
F.将所得到的词与领域摘要模板的词库进行匹配;
G.如果匹配到对应的词,则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重;
H.重新得到领域摘要模板。
5.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:对于增加部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词,将领域摘要模板中句子在文章中的对应位置的权重增加。
6.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:对于删除部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重降低,将摘要模板中句子在文章中的对应位置的权重降低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410845152.1A CN104636431B (zh) | 2014-12-31 | 2014-12-31 | 一种不同领域文档摘要自动抽取及自动优化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410845152.1A CN104636431B (zh) | 2014-12-31 | 2014-12-31 | 一种不同领域文档摘要自动抽取及自动优化的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636431A true CN104636431A (zh) | 2015-05-20 |
CN104636431B CN104636431B (zh) | 2017-12-12 |
Family
ID=53215177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410845152.1A Expired - Fee Related CN104636431B (zh) | 2014-12-31 | 2014-12-31 | 一种不同领域文档摘要自动抽取及自动优化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636431B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107632974A (zh) * | 2017-08-08 | 2018-01-26 | 夏振宇 | 适用于多领域的中文分析平台 |
US10558760B2 (en) | 2017-07-28 | 2020-02-11 | International Business Machines Corporation | Unsupervised template extraction |
CN113361254A (zh) * | 2021-06-03 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种自动化电子病历解析方法与装置 |
CN113806522A (zh) * | 2021-09-18 | 2021-12-17 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN104182549A (zh) * | 2014-09-15 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种电子邮件摘要生成方法及装置 |
US20140379331A1 (en) * | 2013-02-20 | 2014-12-25 | International Business Machines Corporation | Automatic Semantic Rating and Abstraction of Literature |
-
2014
- 2014-12-31 CN CN201410845152.1A patent/CN104636431B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
US20140379331A1 (en) * | 2013-02-20 | 2014-12-25 | International Business Machines Corporation | Automatic Semantic Rating and Abstraction of Literature |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN104182549A (zh) * | 2014-09-15 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种电子邮件摘要生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
DRAGOMIR R. RADEVD等: "Generating Natural Language Summaries from Multiple On-Line Sources", 《COMPUTATIONAL LINGUISTICS》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558760B2 (en) | 2017-07-28 | 2020-02-11 | International Business Machines Corporation | Unsupervised template extraction |
US10572601B2 (en) | 2017-07-28 | 2020-02-25 | International Business Machines Corporation | Unsupervised template extraction |
CN107632974A (zh) * | 2017-08-08 | 2018-01-26 | 夏振宇 | 适用于多领域的中文分析平台 |
CN113361254A (zh) * | 2021-06-03 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种自动化电子病历解析方法与装置 |
CN113806522A (zh) * | 2021-09-18 | 2021-12-17 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104636431B (zh) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020151218A1 (zh) | 电力专业词库生成方法及装置、存储介质 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
Mishra et al. | Sentiment analysis of Twitter data: Case study on digital India | |
CN106294320B (zh) | 一种面向学术论文的术语抽取方法及系统 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN106095996A (zh) | 用于文本分类的方法 | |
CN101201820B (zh) | 一种双语语料库过滤方法及系统 | |
CN104408078A (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
CN103778243A (zh) | 一种领域术语抽取方法 | |
Bustamante et al. | No data to crawl? monolingual corpus creation from PDF files of truly low-resource languages in Peru | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105260359A (zh) | 语义关键词提取方法及装置 | |
CN104636431A (zh) | 一种不同领域文档摘要自动抽取及自动优化方法 | |
CN105573979A (zh) | 一种基于汉字混淆集的错字词知识生成方法 | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
CN103559181A (zh) | 一种双语语义关系分类模型的建立方法和系统 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN110781291A (zh) | 一种文本摘要提取方法、装置、服务器及可读存储介质 | |
CN101989261B (zh) | 统计机器翻译短语抽取方法 | |
CN104572618A (zh) | 一种问答系统中基于语义的相似度分析方法、系统及应用 | |
CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 | |
CN103714053A (zh) | 一种面向机器翻译的日语动词识别方法 | |
CN107894977A (zh) | 结合兼类词词性消歧模型和字典的越南语词性标记方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171212 Termination date: 20201231 |