CN111626279A

CN111626279A - 一种负样本标注训练方法及高度自动化的票据识别方法

Info

Publication number: CN111626279A
Application number: CN201910976154.7A
Authority: CN
Inventors: 张汉宁; 苏斌; 弋渤海; 杨芳
Original assignee: Xi'an Network Computing Data Technology Co ltd
Current assignee: Xi'an Network Computing Data Technology Co ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-09-04
Anticipated expiration: 2039-10-15
Also published as: CN111626279B

Abstract

本发明属于智能做账技术领域，提出了一种负样本标注训练方法及高度自动化的票据识别方法，包括训练负样本标注模型；构建票据仓库D；根据票据仓库D中的票据图片，通过深度学习方法训练票据内容识别模型F；加载票据内容识别模型F；票据识别；对识别错误次数大于两次的票据，输入负样本标注模型、重新进行标注，然后放入票据仓库D中，重新训练票据内容识别模型F、重新进行票据识别。通过上述技术方案，解决了现有技术中票据识别人工劳动强度大、工作效率低的问题。

Description

一种负样本标注训练方法及高度自动化的票据识别方法

技术领域

本发明属于智能做账技术领域，涉及一种负样本标注训练方法及高度自动化的票据识别方法。

背景技术

近几年随着经济高速发展，票据是必不可少的沟通“桥梁”。由于票据繁多，票据字段丰富等问题，传统的手动录入模式无法适应现代企业进步的节奏，因此解决票据录入问题迫在眉睫。在某些方面，机器视觉自动化识别录入比人手动录入更具优势，票据识别系统可以基于数据和图像分析进行高精度，高效率和高度自动化的识别分类各类票据任务。票据识别系统不但可以减轻工作任务和压力提高办公效率，还可以解决人工成本上涨与劳动力不足带来的矛盾，同时推进数字化、信息化、智能化进程。人们逐渐将OCR技术应用于票据识别领域。

目前市场上的光学字符识别系统IOCR(Invoice Optical CharacterRecognition)识别准确率低、识别种类局限、无法对新型票据支持，同时在实际运行的过程中会涉及到大量的人工操作，如人工审票、选出未识别或识别错误的票据(即负样本)，对负样本重标注、票据的管理等，大大增加了票据识别系统的复杂度和人力成本。

发明内容

本发明提出一种负样本标注训练方法及高度自动化的票据识别方法，解决了现有技术中票据识别人工劳动强度大、工作效率低的问题。

本发明的技术方案是这样实现的：一种负样本标注模型训练方法，包括

S0：选取负样本的训练样本集A，将负样本的训练样本集A中的票据进行人工标注，得到真实标注框的偏移量集合B，根据人工标注结果给定一个真实框置信度Y^*；

S1：使用VGG16作为网络模型，并结合金字塔特征网络抽取出不同尺寸卷积核的特征图；

S2：特征融合，将步骤S1中提取的最后一层特征图使用双线性差值法进行上采样，然后将该特征图与前一层的特征图进行合并，依次进行融合，输出预测标注框的偏移量集合C和预测框置信度

；

S3：优化损失函数L，得到负样本标注模型E，包括

S31：计算真实框损失函数L_s，具体为：

其中，β属于超参数，表示正样本与负样本的平衡因子；

S32：根据真实标注框的偏移量集合B和预测标注框的偏移量集合C，计算几何损失函数L_g；

S33：计算损失函数L，具体为

L＝L_s+λ_gL_g

其中，λ_g属于超参数，表示权重；

S34：根据损失函数L的值，不断修正预测标注框的偏移量集合C、Y^*、

，β和λ_g，重复步骤S31～S33，直到损失函数L的值达到设定范围，负样本标注模型E训练完成。

进一步，真实标注框和预测标注框均为矩形，步骤S32中几何损失函数L_g的计算过程具体为：

L_g＝L_AABB+λ_θL_θ

其中，其中

是预测标注框的偏移量集合C，R^*是真实标注框的偏移量集合B，

是预测旋转角度，θ^*是真实的旋转角度，λ_θ属于超参数。

进一步，根据权利要求1所述的一种负样本标注模型E训练方法，其特征在于，真实标注框和预测标注框均为任意四边形，步骤S32中几何损失函数L_g的计算过程具体为：

其中，C_Q＝{x₁，y₁，x₂，y₂，x₃，y₃，x₄，y₄}’，是任意四边形真实标注框的偏移量集合B，

是任意四边形预测标注框的偏移量集合C，

是的所有等价四边形的集合，N_Q是四边形的短边长度。

进一步，步骤S1中所用卷积核个数依次为64，128，256，384。

本发明还提出了一种高度自动化的票据识别方法，包括

S4：构建票据仓库D；

S5：根据票据仓库D中的票据图片，通过深度学习方法训练票据内容识别模型F；

S6：加载票据内容识别模型F；

S7：票据识别，包括

S71：获得待识别票据，通过票据内容识别模型F进行识别，对于识别置信度>90％的票据，进行自动分类；

S72：对于识别置信度90％以下的票据，记为负样本，对负样本进行重新识别，如果同一个负样本的识别错误次数大于2，则输入步骤S34得到的负样本标注模型E 进行重新标注，得到重新标注的负样本；

S8：将步骤S72得到的重新标注的负样本，放入步骤S4的票据仓库D中，重新执行步骤S5～S7。

进一步，步骤S8还包括向票据仓库D中增加新的票据图片。

进一步，步骤S5包括：

S51：通过深度学习领域中的图片标注工具对票据仓库D中的所有票据图片的票据区域、每个票据待识别字段区域、单个字符区域和该字符区域所记载的字符内容进行标注，在标注好的票据仓库D中，随机选取80％的票据图片作为训练样本集，将剩余20％的票据图片作为测试样本集；

S52：使用将深度学习的神经网络作为基础网络层，并结合金字塔网络形成票据内容识别模型F的网络结构，对训练样本集进行迭代训练，直到票据内容识别模型F在测试样本集的精准率达到预先设定阈值，则票据内容识别模型F训练完成。

进一步，步骤S51之前还包括：统计票据仓库D不同类型的票据图片数量，对于数量小于设定个数的票据类型进行构造扩充，扩充方法具体为：

将票据图片和另一张票据的背景按照一定比例进行叠加形成新的票据图片，叠加比例为 5～7:3～5。

使用图像处理软件脚本语言自动化批量地将票据图片中的文字替换到另一张票据图片的背景之上。

进一步，步骤S71中自动分类具体为：

S711：词向量提取：提取票据内容中的关键字或关键词；

S712：注意力筛选：从票据内容中筛选出有价值的信息，只对有价值的信息进行处理；

S713：语义分析：对票据内容中的关键字或关键词进行语义分析，从票据内容进行联想校正。

本发明的工作原理及有益效果为：

1、本发明首先通过提取负样本的训练样本集A中每一个图片的特征图、进行特征融合输出一组预测标注框的偏移量集合C，然后通过优化损失函数，不断修正真实标注框的偏移量集合B、真实框置信度Y^*、预测标注框的偏移量集合C和预测框置信度

，重新计算损失函数L，直到损失函数L的值达到设定范围，则表明预测标注框的偏移量集合C合适，负样本标注模型E训练完成。

其中，L_s为真实标注框的损失函数，L_g为预测标注框的损失函数，二者都考虑进损失函数L的计算中，β和λ_g在训练之前，根据经验确定一个初始值，并根据训练和测试结果进行相应的修正。

本发明提出的负样本标注模型E训练方法，实现了负样本的自动标注，最大限度的减少票据识别过程中人工的参与度，不仅大大提高了工作的效率，同时也降低了出错的概率。

2、本发明中预测标注框可以选用矩形框，其参数为(x,y,w,h,θ)，其中(x,y)是矩形中心坐标，w是矩形宽，h是矩形高，θ是矩形旋转角度，L_AABB用于计算矩形框的IOU损失，L_θ用于计算矩形框的旋转角度损失，二者相结合，用于反映预测标注框的损失函数。

3、本发明中预测标注框可以选用任意的四边形，用(x₁，y₁),(x₂，y₂),(x₃，y₃),(x₄，y₄) 分别表示该四边形的四个顶点坐标，四个顶点坐标按照顺时针或逆时针的方向排序，形成等价四边形，其中，采用smoothed_L1函数，可以防止真实标注框的偏移量集合B与预测标注框的偏移量集合C差值过大造成梯度爆炸。

4、根据发明人的大量实验表明，当步骤S1中卷积核个数依次为64，128，256，384时，既能保证好的特征提取效果又不会造成计算量太大。

5、本发明还提出一种高度自动化的票据识别方法，通过构建票据仓库D，对票据图片进行收集并处理，票据仓库D尽可能的覆盖所有的票据类型，而且每一类票据都要有各种场景的票据图片，这样才能保证对尽可能多的票据进行准确识别；通过构建票据内容识别模型F，实现待识别票据内容的自动识别；如果待识别票据经两次识别后，识别置信度仍在90％以下 (识别置信度由票据内容识别模型F输出)，则认定为负样本；将负样本输入负样本标注模型 E中进行重新标注，重新标注后的负样本放入票据仓库D中，也可以向票据仓库D中增加新的票据图片，对票据仓库D中数量较少的票据进行扩充、重新构建票据内容识别模型F，然后对负样本进行重新识别，如此循环，直到所有的票据都能得到正确识别；票据识别完成之后，可以根据票据内容中的记载信息对票据进行分类。

本发明实现了审票(即负样本筛选)、负样本标注的自动化，使得整个票据识别过程无需人工参与，真正实现了票据识别的自动化，省去了人工录入票据信息的麻烦。

6、本发明中对数量较少的票据类型进行构造扩充，保证样本数量足够多，这样学习出来的准确率就会非常高，不会出现某种类型的票据特点学不到的现象，有利于实现对各种票据的准确识别。

构造扩充的方法包括图像混合方法和图层混合方法，图像混合方法可以通过图形编辑软件，例如Photoshop轻易的实现，完成稀少样本的扩充；图层混合方法也可以使用Photoshop 软件的脚本语言批量的实现票据图片中的文字替换，达到扩充稀少样本的目的。

7、本发明中通过提取票据内容中的关键字或关键词，按照关键字或关键词对票据进行分类；通过注意力机制筛选出票据内容中有价值的信息，仅对有价值的信息进行处理，可以减少任务的复杂程度；通过语义分析，能够自动校正票据识别得到的票据记载信息，提高票据识别的准确率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明中负样本标注模型训练过程示意图；

图2为本发明中票据识别方法流程图；

图3为本发明中票据仓库D的形成过程；

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种负样本标注模型训练方法，包括

S3：优化损失函数L，得到负样本标注模型E，包括

S31：计算真实框损失函数L_s，具体为：

其中，β属于超参数，表示正样本与负样本的平衡因子；

S33：计算损失函数L，具体为

L＝L_s+λ_gL_g

其中，λ_g属于超参数，表示权重；

β和λ_g，重复步骤S31～S33，直到损失函数L的值达到设定范围，负样本标注模型E训练完成。

本实施例首先通过提取负样本的训练样本集A中每一个图片的特征图、进行特征融合输出一组预测标注框的偏移量集合C，然后通过优化损失函数，不断修正真实标注框的偏移量集合B、真实框置信度Y^*、预测标注框的偏移量集合C和预测框置信度

重新计算损失函数L，直到损失函数L的值达到设定范围，则表明预测标注框的偏移量集合C合适，负样本标注模型E训练完成。

本实施例提出的负样本标注模型E训练方法，实现了负样本的自动标注，最大限度的减少票据识别过程中人工的参与度，不仅大大提高了工作的效率，同时也降低了出错的概率。

L_g＝L_AABB+λ_θL_θ

其中，其中

是预测旋转角度，θ^*是真实的旋转角度，λ_θ属于超参数。

本实施例中预测标注框可以选用矩形框，其参数为(x,y,w,h,θ)，其中(x,y)是矩形中心坐标，w是矩形宽，h是矩形高，θ是矩形旋转角度，L_AABB用于计算矩形框的IOU损失，L_θ用于计算矩形框的旋转角度损失，二者相结合，用于反映预测标注框的损失函数。

是任意四边形预测标注框的偏移量集合C，

是的所有等价四边形的集合，N_Q是四边形的短边长度。

本实施例中预测标注框可以选用任意的四边形，用(x₁，y₁),(x₂，y₂),(x₃，y₃),(x₄，y₄) 分别表示该四边形的四个顶点坐标，四个顶点坐标按照顺时针或逆时针的方向排序，形成等价四边形，其中，采用smoothed_L1函数，可以防止真实标注框的偏移量集合B与预测标注框的偏移量集合C差值过大造成梯度爆炸。

进一步，步骤S1中所用卷积核个数依次为64，128，256，384。

根据发明人的大量实验表明，当步骤S1中卷积核个数依次为64，128，256，384时，既能保证好的特征提取效果又不会造成计算量太大。

如图2所示，本实施例还提出了一种高度自动化的票据识别方法，包括

S4：构建票据仓库D；

S6：加载票据内容识别模型F；

S7：票据识别，包括

本实施例还提出一种高度自动化的票据识别方法，通过构建票据仓库D，对票据图片进行收集并处理，票据仓库D尽可能的覆盖所有的票据类型，而且每一类票据都要有各种场景的票据图片，这样才能保证对尽可能多的票据进行准确识别；通过构建票据内容识别模型F，实现待识别票据内容的自动识别；如果待识别票据经两次识别后，识别置信度仍在90％以下 (识别置信度由票据内容识别模型F输出)，则认定为负样本；将负样本输入负样本标注模型 E中进行重新标注，重新标注后的负样本放入票据仓库D中，也可以向票据仓库D中增加新的票据图片，对票据仓库D中数量较少的票据进行扩充(例如，某一票据类型的个数小于20)、重新构建票据内容识别模型F，然后对负样本进行重新识别，如此循环，直到所有的票据都能得到正确识别；票据识别完成之后，可以根据票据内容中的记载信息对票据进行分类。

如图3所示，构建票据仓库D是将票据进行收集、票据处理以及加载到票据仓库D的过程。海量的票据图片通过爬虫、构造、影像设备拍摄，负样本(未识别票据、识别错误样本)、历史数据等方式获取，这些票据图片要尽可能的覆盖所有票据类型，而且每一类票据都要有各种环境场景的票据图片，其中影像设备包含但不仅限于手机、数码相机和扫描仪。然后通过数据标注、数据清洗、数据转换、数据存储和图像处理整合形成票据仓库D，其中数据清洗就是将不符合规范的数据进行处理，处理方式包含：异常票据修改或剔除、票据数据格式统一化和票据去重。不符合规范的票据图片主要由残缺票据样本(票据样本中必须有的信息缺失)和重复票据样本。数据存储采用MySql数据库、HDFS文件系统、MongoDB进行存储。图片处理采用：二值化、归一化、样本均衡化、数据扩充、降维等一系列操作。

本实施例实现了审票(即负样本筛选)、负样本标注的自动化，使得整个票据识别过程无需人工参与，真正实现了票据识别的自动化，省去了人工录入票据信息的麻烦。

进一步，步骤S8还包括向票据仓库D中增加新的票据图片。

进一步，步骤S5包括：

本实施例中对数量较少的票据类型进行构造扩充(例如，某一票据类型的个数小于20)，保证样本数量足够多，这样学习出来的准确率就会非常高，不会出现某种类型的票据特点学不到的现象，有利于实现对各种票据的准确识别。

进一步，步骤S71中自动分类具体为：

S711：词向量提取：提取票据内容中的关键字或关键词；

本实施例中通过提取票据内容中的关键字或关键词，按照关键字或关键词对票据进行分类；通过注意力机制筛选出票据内容中有价值的信息，仅对有价值的信息进行处理，可以减少任务的复杂程度；通过语义分析，能够自动校正票据识别得到的票据记载信息，提高票据识别的准确率。

以上仅为本实施例的较佳实施例而已，并不用以限制本实施例，凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。