CN111368527B

CN111368527B - 一种键值匹配方法

Info

Publication number: CN111368527B
Application number: CN202010129639.5A
Authority: CN
Inventors: 汪雨; 郭彦儒; 钱旖旎
Original assignee: Shanghai Huihang Jiexun Network Technology Co ltd
Current assignee: Shanghai Huihang Jiexun Network Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-06-20
Anticipated expiration: 2040-02-28
Also published as: CN111368527A

Abstract

本发明涉及一种键值匹配方法，属于文档识别领域。该方法包括：S1：标注训练数据；S2：数据增强与特征处理；S3：训练键值是否匹配二分类模型。本发明能够快速且精确的判断键值是否匹配，从而得出正确的文档识别结果。

Description

一种键值匹配方法

技术领域

本发明属于文档识别领域，涉及一种键值匹配方法。

背景技术

文档分析中，对键值对是否匹配的判断是产生最终结果的最后一步，判断结果是否正确也直接影响最终文档识别结果。

现有业界键值匹配方法均基于大量的人为总结的规则，且匹配能力仅覆盖部分已知固定格式的文档，对新格式的文档支持不好，开发周期长，且随着支持文档的样本增多，容易出现规则冲突或者不合理的情况，从而限制了匹配方法的扩展性及普适性。

因此，目前亟需一种结合键值的文本和坐标特征，训练文本匹配深度模型的键值匹配方法。

发明内容

有鉴于此，本发明的目的在于提供一种键值匹配方法，能够精确快速的得出键值对的匹配结果，从而正确的识别出文档。

为达到上述目的，本发明提供如下技术方案：

一种键值匹配方法，包括以下步骤：

S1：标注训练数据；

S2：数据增强与特征处理；

S3：训练键值是否匹配二分类模型。

进一步，步骤S1中，所述标注训练数据具体包括以下步骤：

S11：首先识别键，然后框出该键相应的影响范围，标注人员标注出影响范围内与该键匹配和不匹配的值；

S12：根据标注人员标注的某个值与该键的匹配信息，将标注数据转换成json文件，然后再转换成训练数据的格式。

更进一步，，步骤S12中，将标注数据转换成json文件的逻辑是：每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系；当标注人员完成标注后，会对每个键值对增加匹配/不匹配的标签。

进一步，步骤S2中，所述数据增强与特征处理具体包括以下步骤：

S21：数据增强，包括：

(1)将随机生成的值与对应的键生成匹配数据，将随机生成的值与不对应的键生成不匹配的数据；

(2)对标注数据转换得到的训练数据进行数据增强，包括：

①将匹配的键值对替换为随机生成的匹配键值对仍然匹配；

②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配；

③将匹配的键值对替换为随机生成的不匹配键值对则不匹配；

S22：特征处理，包括文本特征处理和位置特征处理。

更进一步，步骤S21中，

①将匹配的键值对替换为随机生成的匹配键值对仍然匹配，具体替换方式为：将匹配的键值内容替换为人工生成的匹配数据中的键值内容，坐标不变；

②将不匹配的键值对替换为随机生成的不匹配键值对仍然不匹配，具体替换方式为：

a)将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容，坐标不变；将键和值的坐标进行细微的上下和左右平移；

b)键或值坐标随机加上或减去某个范围内的随机数；

③将匹配的键值对替换为随机生成的不匹配键值对则不匹配，具体替换方式为：将匹配的键值内容替换为人工生成的不匹配数据中的键值内容，坐标不变。

更进一步，步骤S22中，所述文本特征处理具体为：将键和值的词转换为词索引，进而转换成词embedding向量；词向量进行随机初始化；

所述位置特征处理具体为：将原始的坐标信息转换成文本块宽度，文本块高度，键值对文本块之间的最短距离，键值对文本块之间的角度等，然后在坐标位置上建立键和值之间的联系。

进一步，步骤S3中，所述训练键值是否匹配二分类模型具体包括：先将键和值的文本进行拼接，经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量，拼接上经过多层感知机的键值的位置特征生成最终的特征向量，再经单层感知机之后进入分类层。

更进一步，所述模型中，损失函数为交叉熵损失，使用Adam进行模型参数优化。

本发明的有益效果在于：本发明能够快速且精确的判断键值是否匹配，从而得出正确的文档识别结果。由于本发明采用人工智能机器学习的方法，不但能够快速且精确的判断键值是否匹配，而且能够通过样本数量的丰富，不断提升识别能力，具备传统方法所不具备的学习能力及能力提升效率，同时能够从根本上解决人为规则扩展性差，普适性差的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述的键值匹配方法流程图；

图2为待标注的数据图；

图3为二分类模型结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，本发明优选一种实施例：一种键值匹配方法，如图1所示，具体包括以下步骤：

1、标注训练数据

为保持训练样本和模型实际输入的一致性，按实际流程生成待标注的数据提供给标注人员标注。首先识别键，然后框出该键相应的影响范围，让标注人员标注出影响范围内的哪些值是和这个键相匹配的，哪些值是和这个键不匹配的。这种方法标注出的反例样本更加具有针对性，因为这类反例值样本在键的影响范围内，从坐标位置上看有很强的迷惑性，能够有效地训练模型调整参数来识别这类不匹配的值。

待标注的数据如图2所示，其中，标注框(即带圆点的矩形框)分别表示键和影响范围内的值，标注人员标注上某个值是否和这个键匹配，之后将标注数据转换成json文件，然后再转换成训练数据的格式。

将标注数据转换成json文件的逻辑是:每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系。当标注人员完成标注后，会对每个键值对增加匹配/不匹配的标签。

生成的json文件主要包含以下内容：(以下是一个键对应的值，一个键可能对应多个值)

{键编号【k_0】，键内容【编号相关】，键坐标【水平方向最小值1344，垂直方向最小值497，水平方向最大值1411，垂直方向最大值534】

值编号【v_0-5】，值内容【银行】，值坐标【1344，497，1411，534】，是否匹配【0表示不匹配】

值编号【v_0-6】，值内容【WS10987】，值坐标【1344，629，1411，666】，是否匹配【1表示匹配】}

2、数据增强与特征处理

(1)数据增强方案：

a)使用python的Faker接口生成随机地名，随机人名，随机公司名等，使用字典和正则生成日期，港口，包装件数等。将随机生成的值与对应的键生成匹配数据，将随机生成的值与不对应的键生成不匹配的数据。例如使用正则生成的港口“上海”是“起运港”，“目的港”，“中转港”等键相匹配的值，是“毛重”，“体积”等键不匹配的值。生成的匹配/不匹配数据举例如表1或表2所示。

表1生成的匹配数据表

表2生成的不匹配数据表

b)对标注数据转换得到的训练数据进行数据增强，包括：

①将匹配的键值对替换为随机生成的匹配键值对仍然匹配(增强词的丰富性)；

方式：将匹配的键值内容替换为人工生成的匹配数据中的键值内容，坐标不变。

方式：将不匹配的键值内容替换为人工生成的不匹配数据中的键值内容，坐标不变；将键和值的坐标进行细微的上下和左右平移；

方式：键或值坐标随机加上或减去某个范围内的随机数。

③将匹配的键值对替换为随机生成的不匹配键值对则不匹配(这一步可以较有效地克服文本匹配模型过于依赖位置特征的缺点，强制模型学习键值对之间的语义匹配关系)；

方式：将匹配的键值内容替换为人工生成的不匹配数据中的键值内容，坐标不变。

(2)特征处理方案

a)文本特征处理：

将键和值的词转换为词索引，进而转换成词embedding向量。词向量进行随机初始化。

b)位置特征处理：

将原始的坐标信息转换成文本块宽度，文本块高度，键值对文本块之间的最短距离，键值对文本块之间的角度等，从而在坐标位置上建立起键和值之间的联系。

3、训练键值是否匹配的二分类模型

先将键和值的文本进行拼接，经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量，拼接上经过多层感知机的键值的位置特征生成最终的特征向量，再经单层感知机之后进入分类层。损失函数为交叉熵损失，使用Adam进行模型参数优化。具体模型结构如图3所示。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种键值匹配方法，其特征在于，该方法包括以下步骤：

S1：标注训练数据；

S2：数据增强与特征处理；

所述数据增强与特征处理具体包括以下步骤：

S21：数据增强，包括：

(2)对标注数据转换得到的训练数据进行数据增强，包括：

b)键或值坐标随机加上或减去某个范围内的随机数；

③将匹配的键值对替换为随机生成的不匹配键值对则不匹配，具体替换方式为：将匹配的键值内容替换为人工生成的不匹配数据中的键值内容，坐标不变；

S22：特征处理，包括文本特征处理和位置特征处理；

所述文本特征处理具体为：将键和值的词转换为词索引，进而转换成词embedding向量；词向量进行随机初始化；

所述位置特征处理具体为：将原始的坐标信息转换成文本块宽度，文本块高度，键值对文本块之间的最短距离，键值对文本块之间的角度，然后在坐标位置上建立键和值之间的联系；

S3：训练键值是否匹配二分类模型，具体包括：先将键和值的文本进行拼接，经过含有不同尺寸的卷积核的textcnn模型生成表示整体键值语义的向量，拼接上经过多层感知机的键值的位置特征生成最终的特征向量，再经单层感知机之后进入分类层。

2.根据权利要求1所述的一种键值匹配方法，其特征在于，步骤S1中，所述标注训练数据具体包括以下步骤：

3.根据权利要求2所述的一种键值匹配方法，其特征在于，步骤S12中，将标注数据转换成json文件的逻辑是：每个标注框内的键和值都会在标注前保存对应的编号、内容和坐标以及键值对应关系；当标注人员完成标注后，会对每个键值对增加匹配/不匹配的标签。

4.根据权利要求1所述的一种键值匹配方法，其特征在于，所述模型中，损失函数为交叉熵损失，使用Adam进行模型参数优化。