CN110414000A - 一种基于模板文档对比的关键词提取方法及系统 - Google Patents

一种基于模板文档对比的关键词提取方法及系统 Download PDF

Info

Publication number
CN110414000A
CN110414000A CN201910650427.9A CN201910650427A CN110414000A CN 110414000 A CN110414000 A CN 110414000A CN 201910650427 A CN201910650427 A CN 201910650427A CN 110414000 A CN110414000 A CN 110414000A
Authority
CN
China
Prior art keywords
template
document
converted
vector
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910650427.9A
Other languages
English (en)
Other versions
CN110414000B (zh
Inventor
纪传俊
王笑添
陈运文
纪达麒
罗巧梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Daerguan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daerguan Information Technology (shanghai) Co Ltd filed Critical Daerguan Information Technology (shanghai) Co Ltd
Priority to CN201910650427.9A priority Critical patent/CN110414000B/zh
Publication of CN110414000A publication Critical patent/CN110414000A/zh
Application granted granted Critical
Publication of CN110414000B publication Critical patent/CN110414000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模板文档比对的关键词提取方法及系统,所述方法具体包括以下步骤:将目标文档转换为目标向量,将模板文档转换为模板向量;分别计算目标向量与各模板向量之间的欧氏距离,选出最相似模板文档;提取出目标文档与最相似模板文档之间的差异内容,并将差异内容作为关键词进行输出。本发明的方法是一种无监督关键信息提取方法,在不标注样本或不进行模型训练的情况下,能够对文档中的关键信息进行抽取,同时能够保证非常高的准确率。

Description

一种基于模板文档对比的关键词提取方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于模板文档比对的关键词提取方法及系统。
背景技术
各行各业任何类型的企业,每天都会有海量的文档需要处理,文档一般篇幅较长,少则10页左右,多则上百页上千页。企业员工很大一部分工作量是从这些冗长的文档中抽取出关键信息,这类工作属于重复性劳动,需耗费大量人力。相比整篇文档的信息,提取出的关键信息简短很多且非常重要,工作人员会基于这些信息进一步进行数据校验、信息审核、数据录入等等操作。
目前,最先进的做法是结合自然语言处理技术和深度学习技术来对文档关键信息进行抽取,该种方法也具有较强的通用性。但这类方法属于有监督学习技术,需要大量的标注样本作为训练数据,才能达到预期的提取效果。在绝大多数场景下,企业难以提供足够的人力,针对每一种不同的文档类型进行大量的样本标注。
发明内容
有鉴于此,本发明提供了一种基于模板文档比对的关键词提取方法及系统,用以解决上述背景技术中存在的问题。
一种基于模板文档比对的关键词提取方法,具体包括以下步骤:
S1,将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量;
S2,分别计算目标向量与各个模板向量之间的欧式距离,并将计算结果进行排序,选出与目标向量之间欧氏距离最小的模板向量并将该模板向量对应的模板文档作为最相似模板文档;
S3,利用文本比对算法找出目标文档与最相似模板文档之间的差异内容,将差异内容作为关键词进行提取输出。
优选地,所述步骤S1中将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量的具体步骤为:
S11,将目标文档转换为目标字符串,将多篇模板文档分别对应转换为多个模板字符串;
S12,利用Doc2Vec算法将目标字符串转换为目标向量,将各个模板字符串对应转换为模板向量。
优选地,离线将模板文档转换为模板向量;
在线将目标文档转换成目标向量。
优选地,所述文本比对算法采用的是Myers算法。
优选地,所述目标文档或模板文档为Word文档或PDF文档。
一种基于模板文档比对的关键词提取系统,包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块,
所述文档转换模块,用于将目标文档转换为目标字符串,将模板文档转换为模板字符串;
所述Doc2Vec模块,用于将目标字符串转换为目标向量,将模板字符串转换为模板向量;
所述最相似模板计算模块,用于计算目标向量与各个模板向量之间的欧式距离以选出最相似模板文档;
所述文档比对模块,用于将目标文档与最相似模板文档进行比对,并将两者的差异内容作为关键词进行输出。
本发明的有益效果是:
本申请的方法是一种无监督关键信息提取方法,在不标注样本或不进行模型训练的情况下,能够对文档中的关键信息进行抽取,同时能够保证非常高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的流程图。
图2是本发明系统的原理框图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
本申请的基于模板文档比对的关键词提取方法,是一种无监督关键信息提取方法,在不标注样本的情况下,能够对文档中的关键信息进行抽取。例如,企业日常使用的合同文档为标准模板,工作人员在制定合同文档时,只需填写或修改文档中的关键信息,这部分信息是工作人员最关注的,如标准模板文档中的甲方信息内容为“甲方:_______”,实际制定的合同文档中的甲方信息内容为“甲方:xxx股份有限公司”,其中差异部分“xxx股份有限公司”即可通过本申请的方法提取出来。
具体地,本申请的基于模板文档比对的关键词提取方法,包括以下步骤:
S1,将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量。
模板文档可离线处理成模板向量,目标文档在线处理成目标向量。本实施例中,所述目标文档或模板文档为Word文档或PDF文档。
将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量的具体步骤为:
S11,将目标文档转换为目标字符串,将多篇模板文档分别对应转换为多个模板字符串;
S12,利用Doc2Vec算法将目标字符串转换为目标向量,将各个模板字符串对应转换为模板向量。
Doc2Vec算法是Word2Vec算法在句子、段落和文档层面的拓展,可以获得句子、段落或者文档的向量表示,将句子、段落或文档数据投影到向量空间中。该算法由Google公司的Quoc Le和Tomas Mikolov在2014年发表的论文《Distributed Representations ofSentences and Documents》中提出。
通过利用Doc2Vec算法,将目标文档或模板文档中每个词映射到向量空间的同时引入段落向量,这样可将目标文档或模板文档表示成向量。
S2,分别计算目标向量与各个模板向量之间的欧式距离,并将计算结果进行排序,选出与目标向量之间欧氏距离最小的模板向量并将该模板向量对应的模板文档作为最相似模板文档。
S3,利用文本比对算法找出目标文档与最相似模板文档之间的差异内容,将差异内容作为关键词进行提取输出。本实施例中,所述文本比对算法采用的是Myers算法。
Myers算法是基于编辑图的O(ND)时间的文本比对算法,其能够计算得到两篇文档的差异部分。
本申请的基于模板文档比对的关键词提取系统,包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块。
所述文档转换模块,用于将目标文档转换为目标字符串,将模板文档转换为模板字符串。
所述Doc2Vec模块,用于将目标字符串转换为目标向量,将模板字符串转换为模板向量。
所述最相似模板计算模块,用于计算目标向量与各个模板向量之间的欧式距离以选出最相似模板文档。
所述文档比对模块,用于将目标文档与最相似模板文档进行比对,并将两者的差异内容作为关键词进行输出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种基于模板文档比对的关键词提取方法,其特征在于,具体包括以下步骤:
S1,将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量;
S2,分别计算目标向量与各个模板向量之间的欧式距离,并将计算结果进行排序,选出与目标向量之间欧氏距离最小的模板向量并将该模板向量对应的模板文档作为最相似模板文档;
S3,利用文本比对算法找出目标文档与最相似模板文档之间的差异内容,将差异内容作为关键词进行提取输出。
2.根据权利要求1所述的基于模板文档比对的关键词提取方法,其特征在于,所述步骤S1中将目标文档转换成目标向量,将多篇模板文档分别对应转换成多个模板向量的具体步骤为:
S11,将目标文档转换为目标字符串,将多篇模板文档分别对应转换为多个模板字符串;
S12,利用Doc2Vec算法将目标字符串转换为目标向量,将各个模板字符串对应转换为模板向量。
3.根据权利要求1或2所述的基于模板文档比对的关键词提取方法,其特征在于,离线将模板文档转换为模板向量;
在线将目标文档转换成目标向量。
4.根据权利要求1所述的基于模板文档比对的关键词提取方法,其特征在于,所述文本比对算法采用的是Myers算法。
5.根据权利要求1所述的基于模板文档比对的关键词提取方法,其特征在于,所述目标文档或模板文档为Word文档或PDF文档。
6.一种基于模板文档比对的关键词提取系统,其特征在于,包括文档转换模块、Doc2Vec模块、最相似模板计算模块和文档比对模块,
所述文档转换模块,用于将目标文档转换为目标字符串,将模板文档转换为模板字符串;
所述Doc2Vec模块,用于将目标字符串转换为目标向量,将模板字符串转换为模板向量;
所述最相似模板计算模块,用于计算目标向量与各个模板向量之间的欧式距离以选出最相似模板文档;
所述文档比对模块,用于将目标文档与最相似模板文档进行比对,并将两者的差异内容作为关键词进行输出。
CN201910650427.9A 2019-07-18 2019-07-18 一种基于模板文档对比的关键词提取方法及系统 Active CN110414000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650427.9A CN110414000B (zh) 2019-07-18 2019-07-18 一种基于模板文档对比的关键词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650427.9A CN110414000B (zh) 2019-07-18 2019-07-18 一种基于模板文档对比的关键词提取方法及系统

Publications (2)

Publication Number Publication Date
CN110414000A true CN110414000A (zh) 2019-11-05
CN110414000B CN110414000B (zh) 2022-12-20

Family

ID=68362024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650427.9A Active CN110414000B (zh) 2019-07-18 2019-07-18 一种基于模板文档对比的关键词提取方法及系统

Country Status (1)

Country Link
CN (1) CN110414000B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779948A (zh) * 2021-09-10 2021-12-10 成都材智科技有限公司 一种核电结构材料数据文件自动化提取系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US20150074507A1 (en) * 2013-07-22 2015-03-12 Recommind, Inc. Information extraction and annotation systems and methods for documents
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及系统
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US20150074507A1 (en) * 2013-07-22 2015-03-12 Recommind, Inc. Information extraction and annotation systems and methods for documents
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及系统
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宁建飞等: "融合Word2vec与TextRank的关键词抽取研究", 《现代图书情报技术》 *
王民: "新闻文档关键词抽取技术研究", 《科技传播》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779948A (zh) * 2021-09-10 2021-12-10 成都材智科技有限公司 一种核电结构材料数据文件自动化提取系统及方法

Also Published As

Publication number Publication date
CN110414000B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
Chen et al. Coverless information hiding method based on the Chinese mathematical expression
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN108090400A (zh) 一种图像文本识别的方法和装置
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN105068997B (zh) 平行语料的构建方法及装置
CN105373529A (zh) 一种基于隐马尔科夫模型的智能分词方法
WO2007005937A2 (en) Grammatical parsing of document visual structures
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
CN110516251B (zh) 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110188359B (zh) 一种文本实体抽取方法
WO2019160096A1 (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
JP2023010805A (ja) ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
CN107436931B (zh) 网页正文抽取方法及装置
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN104699662B (zh) 识别整体符号串的方法和装置
CN110414000A (zh) 一种基于模板文档对比的关键词提取方法及系统
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, and 503, No. 66 Boxia Road, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Country or region after: China

Address before: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China