CN104636431A

CN104636431A - 一种不同领域文档摘要自动抽取及自动优化方法

Info

Publication number: CN104636431A
Application number: CN201410845152.1A
Authority: CN
Inventors: 张晓东; 王玉; 傅文斌; 殷建琳
Original assignee: NANJING CMODES SOFTWARE INTEGRATION CO Ltd
Current assignee: NANJING CMODES SOFTWARE INTEGRATION CO Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-05-20
Anticipated expiration: 2034-12-31
Also published as: CN104636431B

Abstract

本发明公开了一种针对不同领域文档摘要自动抽取及自动优化的方法，该方法包括：第一步：针对不同领域人工生成领域摘要模板；第二步：根据领域摘要模板自动抽取摘要；第三步：人工干预优化摘要及领域摘要模板。本发明方法使用人工生成领域摘要模板的方式，保证了不同领域的文档自动摘要的抽取速度效率与抽取摘要的正确性；在摘要生成后采用人工参与的、人工识别的方式影响优化本方法自动摘要的抽取速度效率与抽取摘要的正确性。在具有较强领域性的文档摘要抽取方面抽取速度快，效果好。

Description

一种不同领域文档摘要自动抽取及自动优化方法

技术领域

本发明涉及文档元数据抽取，尤其涉及一种针对不同领域文档摘要自动抽取及自动优化的方法，属于自然语言处理领域。

背景技术

随着信息技术的发展，电子文件已经成为现代工作、生活不可或缺的重要信息载体，人们的工作和生活驱动了电子文件信息的生成和流转，产生了大量的电子文件。

然而随着时间的推移，电子文件迅速增加，数量已经不能完全统计。根据国家档案局2006年的调查，中央机关电子文件数量高达1.5亿余份，总量达75TB。2006年我国中央机关及其直属企事业单位生成的电子文件数量比2005年增长了18.9%，其数量占文件总数的72.7%，如何对我国政府公文类电子文件进行有效的管理和利用成了一个日益严峻的问题。使用普通元数据抽取方法抽取领域性非常强的文档时往往存在抽取速度慢、效果差的问题。

发明内容

本发明公开了一种不同领域文档摘要自动抽取及自动优化的方法，解决了在使用普通元数据抽取方法抽取领域性非常强的文档时抽取速度慢、效果差的问题。

为实现上述发明目的，本发明采取的技术方案是：

第一步：针对不同领域人工生成领域摘要模板；

第二步：根据领域摘要模板自动抽取摘要；

第三步：人工干预优化摘要及领域摘要模板。

进一步地，针对不同领域人工生成领域摘要模板包括以下步骤：

A．根据不同领域的非结构化数据设置不同的句子得分项的权重，句子得分项包括句子相似度得分项，句子在文中的位置得分项，基于词权重的句子词权重值得分项；

B．根据不同领域的非结构化数据设定在文中不同位置的句子、段落的权重值；

C．根据不同领域的非结构化数据收集整理相关的词库及对应的词权重值；

D．根据不同领域设定摘要信息抽取权重的比例。

进一步地，根据领域摘要模板自动抽取摘要包括以下步骤：

A．导入领域摘要模板；

B．从文档中抽取文档正文数据；

C．使用断句算法对提取的文档正文数据进行分段与断句，切分句子，并记录句子在文中的位置；

D．使用相似度算法对每个句子计算分值；

E．对已经切分完成的句子使用中文分词算法，进行中文分词；

F．对分词得到的词进行词频统计，得到词的权重值；

G．分词得到的词在对应的词库中进行匹配，如果匹配到相关的词，并且在词库中对应的权重值大于目前计算的到的词权重值，则增加该词的权重值，如果在词库中对应的权重值小于目前计算的到的词权重值，则降低该词的权重值；

H．根据句子中词的权重值计算基于词权重的句子词权重值；

I．根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值；

J．根据领域摘要模板中设定的句子相似度权重值，句子位置权重值，句子词权重值之间的权重关系计算句子权重值；

K．将得到的句子权重值从高到低排序；

L．根据领域摘要模板中设定的摘要权重比例输出摘要信息。

进一步地，人工干预优化摘要及领域摘要模板包括以下步骤：

A．人工对得到的摘要信息与文章进行对比，判断摘要信息与文章是否匹配；如果摘要不完整，则增加部分摘要，如果摘要过多，则删除部分摘要；

B．使用断句算法，将摘要中被修改的句子或者段落进行断句，得到句子；

C．得到句子在文章中的对应位置；

D．根据领域摘要模板中的优化步长，增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值；

E．使用中文分词算法对步骤B得到的句子进行分词处理，得到词；

F．将所得到的词与领域摘要模板的词库进行匹配；

G．如果匹配到对应的词，则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重；

H．重新得到领域摘要模板。

进一步地，对于增加部分摘要的情况，将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词，将领域摘要模板中句子在文章中的对应位置的权重增加。

进一步地，对于删除部分摘要的情况，将相应句子对应的词在领域摘要模板词库中的权重降低，将摘要模板中句子在文章中的对应位置的权重降低。

本发明方法使用人工生成领域摘要模板的方式，保证了不同领域的文档自动摘要的抽取速度效率与抽取摘要的正确性；在摘要生成后采用人工参与的、人工识别的方式影响优化本方法自动摘要的抽取速度效率与抽取摘要的正确性。在具有较强领域性的文档摘要抽取方面抽取速度快，效果好。

附图说明

图1是本方法的总体流程示意图。

图2是领域摘要模板示意图。

图3是领域摘要自动抽取流程示意图。

图4是领域摘要模板自动优化过程示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

图1是本方法的总体流程示意图。如图1所示，本发明的不同领域文档摘要自动抽取及自动优化的方法主要包括以下步骤：

第一步：针对不同领域人工生成领域摘要模板；

第二步：根据领域摘要模板自动抽取摘要；

第三步：人工干预优化摘要及领域摘要模板。

经人工优化的领域摘要模板可用在随后的文档摘要自动抽取中。

图2是领域摘要模板示意图。如图2所示，领域摘要模版的一个示例如下：

根据不同领域的非结构化数据设置不同的句子得分项的权重。如：句子相似度得分项权重：30%；句子在文中位置得分项权重：25%；基于词权重的句子权重值得分项权重：45%。

文中不同位置权重值设置：在第一段落第一句权重30%；在第一段落最后一句权重：50%；在最后一段最后一句权重20%。

摘要信息权重比例5%。

优化步长：1%。

图3是领域摘要自动抽取流程示意图。如图3所示，根据领域摘要模板自动抽取摘要的一个示例如下：

1：导入领域摘要模板。

2：从文档中抽取文档正文数据。

3：使用断句算法对提取的文档正文数据进行分段与断句，切分句子，并记录句子在文中的位置，如：

第一段第一句；第一段第二句；第一段第三句；以此类推。

4：使用相似度算法对每个句子计算分值，相似度越高的句子得分越高，得到每个句子的相似度分值，如：

第一段第一句，90；第一段第二句，50；第一段第三句，30；以此类推。

5：对已经切分完成的句子使用中文分词算法，进行中文分词。如：

第一段第一句，得到中文分词：分词1、分词2、分词3、分词4、分词5、分词6；以此类推。

6：对分词得到的词在本文中进行词频统计，得到词的权重值。如：

词	词频	得分
			分词1	1	10
分词2	10	80
			分词3	2	20
分词4	3	30
			分词5	1	10
分词6	15	15

7：分词得到的词在对应的词库中进行匹配，如果匹配到相关的词，并且在词库中对应的权重值大于目前计算的到的词权重值，则增加该词的权重值；如果在词库中对应的权重值小于目前计算的到的词权重值，则降低该词的权重值。如下面的表1所示：

表1

8：根据句子中词的权重值计算基于词权重的句子词权重值。如：

第一段第一句的得分为：10+50+25+15+5+22.5/6=21.25

9：根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值。如：

第一段第一句权重30%，第一段第一句得分30。

10：根据领域摘要模板中设定的句子相似度权重值，句子位置权重值，句子词权重值之间的权重关系计算句子权重值。如：

第一段第一句句子相似度得分：90

第一段第一句句子位置得分：30

第一段第一句基于词权重的得分21.25

并根据模版：

句子相似度得分项权重：30%

句子在文中位置得分项权重：25%

基于词权重的句子权重值得分项权重：45%

计算出第一段第一句权重值：

90*30%+30*25%+21.25*45%=44.0625

11：将得到的句子权重值从高到低排序。如：

第一段第一句得分44.0625

第一段第二句：43

最后一段最后一句：42.123

12：根据领域摘要模板中设定的摘要权重比例输出摘要信息，比如模板中设定将权重值前5%高的句子作为摘要输出。

图4是领域摘要模板自动优化过程示意图。如图4所示，对领域模板进行优化的方法主要包括以下步骤：

C．得到句子在文章中的对应位置；

F．将所得到的词与领域摘要模板的词库进行匹配；

H．重新得到领域摘要模板。

具体地，如果发生删除部分摘要操作，则将相应句子对应的词在领域摘要模板词库中的权重降低，将摘要模板中句子在文章中的对应位置的权重降低；如果发生增加部分摘要操作，则将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词，将领域摘要模板中句子在文章中的对应位置的权重增加。

以上所说的仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于包括以下步骤：

A．针对不同领域人工生成领域摘要模板；

B．根据领域摘要模板自动抽取摘要；

C．人工干预优化摘要及领域摘要模板。

2.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于：针对不同领域人工生成领域摘要模板包括以下步骤：

D．根据不同领域设定摘要信息抽取权重的比例。

3.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于：根据领域摘要模板自动抽取摘要包括以下步骤：

A．导入领域摘要模板；

B．从文档中抽取文档正文数据；

D．使用相似度算法对每个句子计算分值；

F．对分词得到的词进行词频统计，得到词的权重值；

H．根据句子中词的权重值计算基于词权重的句子词权重值；

K．将得到的句子权重值从高到低排序；

L．根据领域摘要模板中设定的摘要权重比例输出摘要信息。

4.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于：人工干预优化摘要及领域摘要模板包括以下步骤：

C．得到句子在文章中的对应位置；

F．将所得到的词与领域摘要模板的词库进行匹配；

H．重新得到领域摘要模板。

5.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于：对于增加部分摘要的情况，将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词，将领域摘要模板中句子在文章中的对应位置的权重增加。

6.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法，其特征在于：对于删除部分摘要的情况，将相应句子对应的词在领域摘要模板词库中的权重降低，将摘要模板中句子在文章中的对应位置的权重降低。