CN110414000A

CN110414000A - 一种基于模板文档对比的关键词提取方法及系统

Info

Publication number: CN110414000A
Application number: CN201910650427.9A
Authority: CN
Inventors: 纪传俊; 王笑添; 陈运文; 纪达麒; 罗巧梅
Original assignee: Daerguan Information Technology (shanghai) Co Ltd
Current assignee: Daguan Data Co ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-05
Anticipated expiration: 2039-07-18
Also published as: CN110414000B

Abstract

本发明公开了一种基于模板文档比对的关键词提取方法及系统，所述方法具体包括以下步骤：将目标文档转换为目标向量，将模板文档转换为模板向量；分别计算目标向量与各模板向量之间的欧氏距离，选出最相似模板文档；提取出目标文档与最相似模板文档之间的差异内容，并将差异内容作为关键词进行输出。本发明的方法是一种无监督关键信息提取方法，在不标注样本或不进行模型训练的情况下，能够对文档中的关键信息进行抽取，同时能够保证非常高的准确率。

Description

一种基于模板文档对比的关键词提取方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于模板文档比对的关键词提取方法及系统。

背景技术

各行各业任何类型的企业，每天都会有海量的文档需要处理，文档一般篇幅较长，少则10页左右，多则上百页上千页。企业员工很大一部分工作量是从这些冗长的文档中抽取出关键信息，这类工作属于重复性劳动，需耗费大量人力。相比整篇文档的信息，提取出的关键信息简短很多且非常重要，工作人员会基于这些信息进一步进行数据校验、信息审核、数据录入等等操作。

目前，最先进的做法是结合自然语言处理技术和深度学习技术来对文档关键信息进行抽取，该种方法也具有较强的通用性。但这类方法属于有监督学习技术，需要大量的标注样本作为训练数据，才能达到预期的提取效果。在绝大多数场景下，企业难以提供足够的人力，针对每一种不同的文档类型进行大量的样本标注。

发明内容

有鉴于此，本发明提供了一种基于模板文档比对的关键词提取方法及系统，用以解决上述背景技术中存在的问题。

一种基于模板文档比对的关键词提取方法，具体包括以下步骤：

S1，将目标文档转换成目标向量，将多篇模板文档分别对应转换成多个模板向量；

S2，分别计算目标向量与各个模板向量之间的欧式距离，并将计算结果进行排序，选出与目标向量之间欧氏距离最小的模板向量并将该模板向量对应的模板文档作为最相似模板文档；

S3，利用文本比对算法找出目标文档与最相似模板文档之间的差异内容，将差异内容作为关键词进行提取输出。

优选地，所述步骤S1中将目标文档转换成目标向量，将多篇模板文档分别对应转换成多个模板向量的具体步骤为：

S11，将目标文档转换为目标字符串，将多篇模板文档分别对应转换为多个模板字符串；

S12，利用Doc2Vec算法将目标字符串转换为目标向量，将各个模板字符串对应转换为模板向量。

优选地，离线将模板文档转换为模板向量；

在线将目标文档转换成目标向量。

优选地，所述文本比对算法采用的是Myers算法。

优选地，所述目标文档或模板文档为Word文档或PDF文档。

一种基于模板文档比对的关键词提取系统，包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块，

所述文档转换模块，用于将目标文档转换为目标字符串，将模板文档转换为模板字符串；

所述Doc2Vec模块，用于将目标字符串转换为目标向量，将模板字符串转换为模板向量；

所述最相似模板计算模块，用于计算目标向量与各个模板向量之间的欧式距离以选出最相似模板文档；

所述文档比对模块，用于将目标文档与最相似模板文档进行比对，并将两者的差异内容作为关键词进行输出。

本发明的有益效果是：

本申请的方法是一种无监督关键信息提取方法，在不标注样本或不进行模型训练的情况下，能够对文档中的关键信息进行抽取，同时能够保证非常高的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明方法的流程图。

图2是本发明系统的原理框图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

本申请的基于模板文档比对的关键词提取方法，是一种无监督关键信息提取方法，在不标注样本的情况下，能够对文档中的关键信息进行抽取。例如，企业日常使用的合同文档为标准模板，工作人员在制定合同文档时，只需填写或修改文档中的关键信息，这部分信息是工作人员最关注的，如标准模板文档中的甲方信息内容为“甲方：_______”，实际制定的合同文档中的甲方信息内容为“甲方：xxx股份有限公司”，其中差异部分“xxx股份有限公司”即可通过本申请的方法提取出来。

具体地，本申请的基于模板文档比对的关键词提取方法，包括以下步骤：

S1，将目标文档转换成目标向量，将多篇模板文档分别对应转换成多个模板向量。

模板文档可离线处理成模板向量，目标文档在线处理成目标向量。本实施例中，所述目标文档或模板文档为Word文档或PDF文档。

将目标文档转换成目标向量，将多篇模板文档分别对应转换成多个模板向量的具体步骤为：

Doc2Vec算法是Word2Vec算法在句子、段落和文档层面的拓展，可以获得句子、段落或者文档的向量表示，将句子、段落或文档数据投影到向量空间中。该算法由Google公司的Quoc Le和Tomas Mikolov在2014年发表的论文《Distributed Representations ofSentences and Documents》中提出。

通过利用Doc2Vec算法，将目标文档或模板文档中每个词映射到向量空间的同时引入段落向量，这样可将目标文档或模板文档表示成向量。

S2，分别计算目标向量与各个模板向量之间的欧式距离，并将计算结果进行排序，选出与目标向量之间欧氏距离最小的模板向量并将该模板向量对应的模板文档作为最相似模板文档。

S3，利用文本比对算法找出目标文档与最相似模板文档之间的差异内容，将差异内容作为关键词进行提取输出。本实施例中，所述文本比对算法采用的是Myers算法。

Myers算法是基于编辑图的O(ND)时间的文本比对算法，其能够计算得到两篇文档的差异部分。

本申请的基于模板文档比对的关键词提取系统，包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块。

所述文档转换模块，用于将目标文档转换为目标字符串，将模板文档转换为模板字符串。

所述Doc2Vec模块，用于将目标字符串转换为目标向量，将模板字符串转换为模板向量。

所述最相似模板计算模块，用于计算目标向量与各个模板向量之间的欧式距离以选出最相似模板文档。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于模板文档比对的关键词提取方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于模板文档比对的关键词提取方法，其特征在于，所述步骤S1中将目标文档转换成目标向量，将多篇模板文档分别对应转换成多个模板向量的具体步骤为：

3.根据权利要求1或2所述的基于模板文档比对的关键词提取方法，其特征在于，离线将模板文档转换为模板向量；

在线将目标文档转换成目标向量。

4.根据权利要求1所述的基于模板文档比对的关键词提取方法，其特征在于，所述文本比对算法采用的是Myers算法。

5.根据权利要求1所述的基于模板文档比对的关键词提取方法，其特征在于，所述目标文档或模板文档为Word文档或PDF文档。

6.一种基于模板文档比对的关键词提取系统，其特征在于，包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块，