CN111368527B - 一种键值匹配方法 - Google Patents

一种键值匹配方法 Download PDF

Info

Publication number
CN111368527B
CN111368527B CN202010129639.5A CN202010129639A CN111368527B CN 111368527 B CN111368527 B CN 111368527B CN 202010129639 A CN202010129639 A CN 202010129639A CN 111368527 B CN111368527 B CN 111368527B
Authority
CN
China
Prior art keywords
key value
key
unmatched
data
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010129639.5A
Other languages
English (en)
Other versions
CN111368527A (zh
Inventor
汪雨
郭彦儒
钱旖旎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huihang Jiexun Network Technology Co ltd
Original Assignee
Shanghai Huihang Jiexun Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huihang Jiexun Network Technology Co ltd filed Critical Shanghai Huihang Jiexun Network Technology Co ltd
Priority to CN202010129639.5A priority Critical patent/CN111368527B/zh
Publication of CN111368527A publication Critical patent/CN111368527A/zh
Application granted granted Critical
Publication of CN111368527B publication Critical patent/CN111368527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种键值匹配方法,属于文档识别领域。该方法包括:S1:标注训练数据;S2:数据增强与特征处理;S3:训练键值是否匹配二分类模型。本发明能够快速且精确的判断键值是否匹配,从而得出正确的文档识别结果。

Description

一种键值匹配方法
技术领域
本发明属于文档识别领域,涉及一种键值匹配方法。
背景技术
文档分析中,对键值对是否匹配的判断是产生最终结果的最后一步,判断结果是否正确也直接影响最终文档识别结果。
现有业界键值匹配方法均基于大量的人为总结的规则,且匹配能力仅覆盖部分已知固定格式的文档,对新格式的文档支持不好,开发周期长,且随着支持文档的样本增多,容易出现规则冲突或者不合理的情况,从而限制了匹配方法的扩展性及普适性。
因此,目前亟需一种结合键值的文本和坐标特征,训练文本匹配深度模型的键值匹配方法。
发明内容
有鉴于此,本发明的目的在于提供一种键值匹配方法,能够精确快速的得出键值对的匹配结果,从而正确的识别出文档。
为达到上述目的,本发明提供如下技术方案:
一种键值匹配方法,包括以下步骤:
S1:标注训练数据;
S2:数据增强与特征处理;
S3:训练键值是否匹配二分类模型。
进一步,步骤S1中,所述标注训练数据具体包括以下步骤:
S11:首先识别键,然后框出该键相应的影响范围,标注人员标注出影响范围内与该键匹配和不匹配的值;
S12:根据标注人员标注的某个值与该键的匹配信息,将标注数据转换成json文件,然后再转换成训练数据的格式。
更进一步,,步骤S12中,将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系;当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
进一步,步骤S2中,所述数据增强与特征处理具体包括以下步骤:
S21:数据增强,包括:
(1)将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据;
(2)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配;
S22:特征处理,包括文本特征处理和位置特征处理。
更进一步,步骤S21中,
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配,具体替换方式为:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配,具体替换方式为:
a)将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
b)键或值坐标随机加上或减去某个范围内的随机数;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配,具体替换方式为:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变。
更进一步,步骤S22中,所述文本特征处理具体为:将键和值的词转换为词索引,进而转换成词embedding向量;词向量进行随机初始化;
所述位置特征处理具体为:将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度等,然后在坐标位置上建立键和值之间的联系。
进一步,步骤S3中,所述训练键值是否匹配二分类模型具体包括:先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。
更进一步,所述模型中,损失函数为交叉熵损失,使用Adam进行模型参数优化。
本发明的有益效果在于:本发明能够快速且精确的判断键值是否匹配,从而得出正确的文档识别结果。由于本发明采用人工智能机器学习的方法,不但能够快速且精确的判断键值是否匹配,而且能够通过样本数量的丰富,不断提升识别能力,具备传统方法所不具备的学习能力及能力提升效率,同时能够从根本上解决人为规则扩展性差,普适性差的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述的键值匹配方法流程图;
图2为待标注的数据图;
图3为二分类模型结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明优选一种实施例:一种键值匹配方法,如图1所示,具体包括以下步骤:
1、标注训练数据
为保持训练样本和模型实际输入的一致性,按实际流程生成待标注的数据提供给标注人员标注。首先识别键,然后框出该键相应的影响范围,让标注人员标注出影响范围内的哪些值是和这个键相匹配的,哪些值是和这个键不匹配的。这种方法标注出的反例样本更加具有针对性,因为这类反例值样本在键的影响范围内,从坐标位置上看有很强的迷惑性,能够有效地训练模型调整参数来识别这类不匹配的值。
待标注的数据如图2所示,其中,标注框(即带圆点的矩形框)分别表示键和影响范围内的值,标注人员标注上某个值是否和这个键匹配,之后将标注数据转换成json文件,然后再转换成训练数据的格式。
将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系。当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
生成的json文件主要包含以下内容:(以下是一个键对应的值,一个键可能对应多个值)
{键编号【k_0】,键内容【编号相关】,键坐标【水平方向最小值1344,垂直方向最小值497,水平方向最大值1411,垂直方向最大值534】
值编号【v_0-5】,值内容【银行】,值坐标【1344,497,1411,534】,是否匹配【0表示不匹配】
值编号【v_0-6】,值内容【WS10987】,值坐标【1344,629,1411,666】,是否匹配【1表示匹配】}
2、数据增强与特征处理
(1)数据增强方案:
a)使用python的Faker接口生成随机地名,随机人名,随机公司名等,使用字典和正则生成日期,港口,包装件数等。将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据。例如使用正则生成的港口“上海”是“起运港”,“目的港”,“中转港”等键相匹配的值,是“毛重”,“体积”等键不匹配的值。生成的匹配/不匹配数据举例如表1或表2所示。
表1生成的匹配数据表
Figure GDA0002471383770000041
表2生成的不匹配数据表
Figure GDA0002471383770000042
Figure GDA0002471383770000051
b)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配(增强词的丰富性);
方式:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变。
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配;
方式:将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
方式:键或值坐标随机加上或减去某个范围内的随机数。
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配(这一步可以较有效地克服文本匹配模型过于依赖位置特征的缺点,强制模型学习键值对之间的语义匹配关系);
方式:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变。
(2)特征处理方案
a)文本特征处理:
将键和值的词转换为词索引,进而转换成词embedding向量。词向量进行随机初始化。
b)位置特征处理:
将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度等,从而在坐标位置上建立起键和值之间的联系。
3、训练键值是否匹配的二分类模型
先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。损失函数为交叉熵损失,使用Adam进行模型参数优化。具体模型结构如图3所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种键值匹配方法,其特征在于,该方法包括以下步骤:
S1:标注训练数据;
S2:数据增强与特征处理;
所述数据增强与特征处理具体包括以下步骤:
S21:数据增强,包括:
(1)将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据;
(2)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配,具体替换方式为:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配,具体替换方式为:
a)将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
b)键或值坐标随机加上或减去某个范围内的随机数;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配,具体替换方式为:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;
S22:特征处理,包括文本特征处理和位置特征处理;
所述文本特征处理具体为:将键和值的词转换为词索引,进而转换成词embedding向量;词向量进行随机初始化;
所述位置特征处理具体为:将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度,然后在坐标位置上建立键和值之间的联系;
S3:训练键值是否匹配二分类模型,具体包括:先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。
2.根据权利要求1所述的一种键值匹配方法,其特征在于,步骤S1中,所述标注训练数据具体包括以下步骤:
S11:首先识别键,然后框出该键相应的影响范围,标注人员标注出影响范围内与该键匹配和不匹配的值;
S12:根据标注人员标注的某个值与该键的匹配信息,将标注数据转换成json文件,然后再转换成训练数据的格式。
3.根据权利要求2所述的一种键值匹配方法,其特征在于,步骤S12中,将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系;当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
4.根据权利要求1所述的一种键值匹配方法,其特征在于,所述模型中,损失函数为交叉熵损失,使用Adam进行模型参数优化。
CN202010129639.5A 2020-02-28 2020-02-28 一种键值匹配方法 Active CN111368527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129639.5A CN111368527B (zh) 2020-02-28 2020-02-28 一种键值匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129639.5A CN111368527B (zh) 2020-02-28 2020-02-28 一种键值匹配方法

Publications (2)

Publication Number Publication Date
CN111368527A CN111368527A (zh) 2020-07-03
CN111368527B true CN111368527B (zh) 2023-06-20

Family

ID=71206566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129639.5A Active CN111368527B (zh) 2020-02-28 2020-02-28 一种键值匹配方法

Country Status (1)

Country Link
CN (1) CN111368527B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434555B (zh) * 2020-10-16 2024-04-09 泰康保险集团股份有限公司 键值对区域识别方法、装置、存储介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013071953A1 (en) * 2011-11-14 2013-05-23 Donald Martin Monro Fast database matching
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109658939A (zh) * 2019-01-26 2019-04-19 北京灵伴即时智能科技有限公司 一种电话录音未接通原因识别方法
CN110275703A (zh) * 2019-06-27 2019-09-24 浙江大搜车软件技术有限公司 键值对数据的赋值方法、装置、计算机设备和存储介质
CN110807096A (zh) * 2018-08-02 2020-02-18 鼎复数据科技(北京)有限公司 一种小样本集上的信息对匹配方法及系统
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013071953A1 (en) * 2011-11-14 2013-05-23 Donald Martin Monro Fast database matching
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN110807096A (zh) * 2018-08-02 2020-02-18 鼎复数据科技(北京)有限公司 一种小样本集上的信息对匹配方法及系统
CN109658939A (zh) * 2019-01-26 2019-04-19 北京灵伴即时智能科技有限公司 一种电话录音未接通原因识别方法
CN110275703A (zh) * 2019-06-27 2019-09-24 浙江大搜车软件技术有限公司 键值对数据的赋值方法、装置、计算机设备和存储介质
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张芳芳 ; 曹兴超 ; .基于字面和语义相关性匹配的智能篇章排序.山东大学学报(理学版).2018,(03),全文. *
罗军 ; 高琦 ; 王翊 ; .基于Bootstrapping的本体标注方法.计算机工程.2010,(23),全文. *

Also Published As

Publication number Publication date
CN111368527A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN112765358A (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN113177124A (zh) 一种垂直领域知识图谱构建方法及系统
CN109033374A (zh) 基于贝叶斯分类器的知识图谱检索方法
CN111274327B (zh) 一种面向非结构化表格文档的实体与关系抽取方法
CN112883197B (zh) 一种用于封闭开关设备的知识图谱构建方法与系统
CN110598733A (zh) 一种基于交互建模的多标记距离度量学习方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN111767732A (zh) 基于图注意力模型的文档内容理解方法及系统
CN115205592A (zh) 一种基于多模态数据的重平衡长尾图像数据分类方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN111368527B (zh) 一种键值匹配方法
CN111860524A (zh) 一种数字档案智能分类的装置及方法
CN114781997A (zh) 危大工程专项施工方案智能化审查系统及实现方法
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
CN113516209B (zh) 一种用于少样本意图识别的对比任务适应学习方法
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN113672739A (zh) 一种图像格式财报文档的数据抽取方法
CN113434669A (zh) 一种基于序列标记策略的自然语言关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant