CN111368527B - 一种键值匹配方法 - Google Patents
一种键值匹配方法 Download PDFInfo
- Publication number
- CN111368527B CN111368527B CN202010129639.5A CN202010129639A CN111368527B CN 111368527 B CN111368527 B CN 111368527B CN 202010129639 A CN202010129639 A CN 202010129639A CN 111368527 B CN111368527 B CN 111368527B
- Authority
- CN
- China
- Prior art keywords
- key value
- key
- unmatched
- data
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种键值匹配方法,属于文档识别领域。该方法包括:S1:标注训练数据;S2:数据增强与特征处理;S3:训练键值是否匹配二分类模型。本发明能够快速且精确的判断键值是否匹配,从而得出正确的文档识别结果。
Description
技术领域
本发明属于文档识别领域,涉及一种键值匹配方法。
背景技术
文档分析中,对键值对是否匹配的判断是产生最终结果的最后一步,判断结果是否正确也直接影响最终文档识别结果。
现有业界键值匹配方法均基于大量的人为总结的规则,且匹配能力仅覆盖部分已知固定格式的文档,对新格式的文档支持不好,开发周期长,且随着支持文档的样本增多,容易出现规则冲突或者不合理的情况,从而限制了匹配方法的扩展性及普适性。
因此,目前亟需一种结合键值的文本和坐标特征,训练文本匹配深度模型的键值匹配方法。
发明内容
有鉴于此,本发明的目的在于提供一种键值匹配方法,能够精确快速的得出键值对的匹配结果,从而正确的识别出文档。
为达到上述目的,本发明提供如下技术方案:
一种键值匹配方法,包括以下步骤:
S1:标注训练数据;
S2:数据增强与特征处理;
S3:训练键值是否匹配二分类模型。
进一步,步骤S1中,所述标注训练数据具体包括以下步骤:
S11:首先识别键,然后框出该键相应的影响范围,标注人员标注出影响范围内与该键匹配和不匹配的值;
S12:根据标注人员标注的某个值与该键的匹配信息,将标注数据转换成json文件,然后再转换成训练数据的格式。
更进一步,,步骤S12中,将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系;当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
进一步,步骤S2中,所述数据增强与特征处理具体包括以下步骤:
S21:数据增强,包括:
(1)将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据;
(2)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配;
S22:特征处理,包括文本特征处理和位置特征处理。
更进一步,步骤S21中,
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配,具体替换方式为:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配,具体替换方式为:
a)将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
b)键或值坐标随机加上或减去某个范围内的随机数;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配,具体替换方式为:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变。
更进一步,步骤S22中,所述文本特征处理具体为:将键和值的词转换为词索引,进而转换成词embedding向量;词向量进行随机初始化;
所述位置特征处理具体为:将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度等,然后在坐标位置上建立键和值之间的联系。
进一步,步骤S3中,所述训练键值是否匹配二分类模型具体包括:先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。
更进一步,所述模型中,损失函数为交叉熵损失,使用Adam进行模型参数优化。
本发明的有益效果在于:本发明能够快速且精确的判断键值是否匹配,从而得出正确的文档识别结果。由于本发明采用人工智能机器学习的方法,不但能够快速且精确的判断键值是否匹配,而且能够通过样本数量的丰富,不断提升识别能力,具备传统方法所不具备的学习能力及能力提升效率,同时能够从根本上解决人为规则扩展性差,普适性差的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述的键值匹配方法流程图;
图2为待标注的数据图;
图3为二分类模型结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明优选一种实施例:一种键值匹配方法,如图1所示,具体包括以下步骤:
1、标注训练数据
为保持训练样本和模型实际输入的一致性,按实际流程生成待标注的数据提供给标注人员标注。首先识别键,然后框出该键相应的影响范围,让标注人员标注出影响范围内的哪些值是和这个键相匹配的,哪些值是和这个键不匹配的。这种方法标注出的反例样本更加具有针对性,因为这类反例值样本在键的影响范围内,从坐标位置上看有很强的迷惑性,能够有效地训练模型调整参数来识别这类不匹配的值。
待标注的数据如图2所示,其中,标注框(即带圆点的矩形框)分别表示键和影响范围内的值,标注人员标注上某个值是否和这个键匹配,之后将标注数据转换成json文件,然后再转换成训练数据的格式。
将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系。当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
生成的json文件主要包含以下内容:(以下是一个键对应的值,一个键可能对应多个值)
{键编号【k_0】,键内容【编号相关】,键坐标【水平方向最小值1344,垂直方向最小值497,水平方向最大值1411,垂直方向最大值534】
值编号【v_0-5】,值内容【银行】,值坐标【1344,497,1411,534】,是否匹配【0表示不匹配】
值编号【v_0-6】,值内容【WS10987】,值坐标【1344,629,1411,666】,是否匹配【1表示匹配】}
2、数据增强与特征处理
(1)数据增强方案:
a)使用python的Faker接口生成随机地名,随机人名,随机公司名等,使用字典和正则生成日期,港口,包装件数等。将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据。例如使用正则生成的港口“上海”是“起运港”,“目的港”,“中转港”等键相匹配的值,是“毛重”,“体积”等键不匹配的值。生成的匹配/不匹配数据举例如表1或表2所示。
表1生成的匹配数据表
表2生成的不匹配数据表
b)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配(增强词的丰富性);
方式:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变。
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配;
方式:将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
方式:键或值坐标随机加上或减去某个范围内的随机数。
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配(这一步可以较有效地克服文本匹配模型过于依赖位置特征的缺点,强制模型学习键值对之间的语义匹配关系);
方式:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变。
(2)特征处理方案
a)文本特征处理:
将键和值的词转换为词索引,进而转换成词embedding向量。词向量进行随机初始化。
b)位置特征处理:
将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度等,从而在坐标位置上建立起键和值之间的联系。
3、训练键值是否匹配的二分类模型
先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。损失函数为交叉熵损失,使用Adam进行模型参数优化。具体模型结构如图3所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种键值匹配方法,其特征在于,该方法包括以下步骤:
S1:标注训练数据;
S2:数据增强与特征处理;
所述数据增强与特征处理具体包括以下步骤:
S21:数据增强,包括:
(1)将随机生成的值与对应的键生成匹配数据,将随机生成的值与不对应的键生成不匹配的数据;
(2)对标注数据转换得到的训练数据进行数据增强,包括:
①将匹配的键值对替换为随机生成的匹配键值对仍然匹配,具体替换方式为:将匹配的键值内容替换为人工生成的匹配数据中的键值内容,坐标不变;
②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配,具体替换方式为:
a)将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;将键和值的坐标进行细微的上下和左右平移;
b)键或值坐标随机加上或减去某个范围内的随机数;
③将匹配的键值对替换为随机生成的不匹配键值对则不匹配,具体替换方式为:将匹配的键值内容替换为人工生成的不匹配数据中的键值内容,坐标不变;
S22:特征处理,包括文本特征处理和位置特征处理;
所述文本特征处理具体为:将键和值的词转换为词索引,进而转换成词embedding向量;词向量进行随机初始化;
所述位置特征处理具体为:将原始的坐标信息转换成文本块宽度,文本块高度,键值对文本块之间的最短距离,键值对文本块之间的角度,然后在坐标位置上建立键和值之间的联系;
S3:训练键值是否匹配二分类模型,具体包括:先将键和值的文本进行拼接,经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量,拼接上经过多层感知机的键值的位置特征生成最终的特征向量,再经单层感知机之后进入分类层。
2.根据权利要求1所述的一种键值匹配方法,其特征在于,步骤S1中,所述标注训练数据具体包括以下步骤:
S11:首先识别键,然后框出该键相应的影响范围,标注人员标注出影响范围内与该键匹配和不匹配的值;
S12:根据标注人员标注的某个值与该键的匹配信息,将标注数据转换成json文件,然后再转换成训练数据的格式。
3.根据权利要求2所述的一种键值匹配方法,其特征在于,步骤S12中,将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系;当标注人员完成标注后,会对每个键值对增加匹配/不匹配的标签。
4.根据权利要求1所述的一种键值匹配方法,其特征在于,所述模型中,损失函数为交叉熵损失,使用Adam进行模型参数优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129639.5A CN111368527B (zh) | 2020-02-28 | 2020-02-28 | 一种键值匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129639.5A CN111368527B (zh) | 2020-02-28 | 2020-02-28 | 一种键值匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368527A CN111368527A (zh) | 2020-07-03 |
CN111368527B true CN111368527B (zh) | 2023-06-20 |
Family
ID=71206566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129639.5A Active CN111368527B (zh) | 2020-02-28 | 2020-02-28 | 一种键值匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368527B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434555B (zh) * | 2020-10-16 | 2024-04-09 | 泰康保险集团股份有限公司 | 键值对区域识别方法、装置、存储介质和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013071953A1 (en) * | 2011-11-14 | 2013-05-23 | Donald Martin Monro | Fast database matching |
WO2017177901A1 (zh) * | 2016-04-12 | 2017-10-19 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109658939A (zh) * | 2019-01-26 | 2019-04-19 | 北京灵伴即时智能科技有限公司 | 一种电话录音未接通原因识别方法 |
CN110275703A (zh) * | 2019-06-27 | 2019-09-24 | 浙江大搜车软件技术有限公司 | 键值对数据的赋值方法、装置、计算机设备和存储介质 |
CN110807096A (zh) * | 2018-08-02 | 2020-02-18 | 鼎复数据科技(北京)有限公司 | 一种小样本集上的信息对匹配方法及系统 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
-
2020
- 2020-02-28 CN CN202010129639.5A patent/CN111368527B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013071953A1 (en) * | 2011-11-14 | 2013-05-23 | Donald Martin Monro | Fast database matching |
WO2017177901A1 (zh) * | 2016-04-12 | 2017-10-19 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN110807096A (zh) * | 2018-08-02 | 2020-02-18 | 鼎复数据科技(北京)有限公司 | 一种小样本集上的信息对匹配方法及系统 |
CN109658939A (zh) * | 2019-01-26 | 2019-04-19 | 北京灵伴即时智能科技有限公司 | 一种电话录音未接通原因识别方法 |
CN110275703A (zh) * | 2019-06-27 | 2019-09-24 | 浙江大搜车软件技术有限公司 | 键值对数据的赋值方法、装置、计算机设备和存储介质 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
Non-Patent Citations (2)
Title |
---|
张芳芳 ; 曹兴超 ; .基于字面和语义相关性匹配的智能篇章排序.山东大学学报(理学版).2018,(03),全文. * |
罗军 ; 高琦 ; 王翊 ; .基于Bootstrapping的本体标注方法.计算机工程.2010,(23),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111368527A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765358B (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN111767732B (zh) | 基于图注意力模型的文档内容理解方法及系统 | |
CN113177124A (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN109033374A (zh) | 基于贝叶斯分类器的知识图谱检索方法 | |
CN112883197B (zh) | 一种用于封闭开关设备的知识图谱构建方法与系统 | |
CN110598733A (zh) | 一种基于交互建模的多标记距离度量学习方法 | |
CN107391479A (zh) | 模块化成果库的构建方法 | |
CN115205592A (zh) | 一种基于多模态数据的重平衡长尾图像数据分类方法 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN114781997A (zh) | 危大工程专项施工方案智能化审查系统及实现方法 | |
CN111860524A (zh) | 一种数字档案智能分类的装置及方法 | |
CN111368527B (zh) | 一种键值匹配方法 | |
CN116383352A (zh) | 一种基于知识图谱的零样本构建领域智能问答系统的方法 | |
CN114528400A (zh) | 基于多选匹配网络的统一低样本关系抽取方法及装置 | |
CN117079288B (zh) | 一种识别场景中文字语义的关键信息提取方法及模型 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN116562294A (zh) | 一种基于提示学习的桥梁文本小样本命名实体识别方法 | |
CN113516209B (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 | |
CN113672739A (zh) | 一种图像格式财报文档的数据抽取方法 | |
CN113434669A (zh) | 一种基于序列标记策略的自然语言关系抽取方法 | |
CN107016630A (zh) | 一种新型英语教学学习语言系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |