CN111079562A

CN111079562A - 多阶段数据生成自循环财务发票文本智能识别系统及方法

Info

Publication number: CN111079562A
Application number: CN201911178020.7A
Authority: CN
Inventors: 刘勇; 马新强; 王薇; 潘再生; 刘丽娜; 杨建党; 钟保权
Original assignee: Zhejiang Jay Core Technology Co ltd; Zhejiang University ZJU
Current assignee: Zhejiang Jay Core Technology Co ltd; Zhejiang University ZJU
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-28

Abstract

本发明涉及财务发票文本识别技术领域，具体为一种多阶段数据生成自循环财务发票文本智能识别系统及方法。一种多阶段数据生成自循环财务发票文本智能识别系统，包括深度学习文本检测模块，用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型，用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息，并根据所述位置信息截取对应的纯文本图片。本申请的系统首次应用了多阶段数据生成进行智能文本识别，并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上，大大减少了财力人力和物力的消耗，提高了文本识别效率和准确率。

Description

多阶段数据生成自循环财务发票文本智能识别系统及方法

技术领域

本发明涉及财务发票文本识别技术领域，具体为一种多阶段数据生成自循环财务发票文本智能识别系统及方法。

背景技术

近年来文本识别技术发展越来越成熟，文本识别应用场景也越来越复杂和多样化。这些文本场景中可能是汉字场景或英文场景，也可能是自然场景、工业和生活需求的票据、试卷等场景。各式各样的文本及其场景往往面对着数据差异大，数据分布不均等问题，在运用深度学习进行文本识别的过程中往往需要巨大的数据量对模型进行支撑。对合适数据的标注和寻找通常需要巨大的人力物力，非常费时费力且耗费资源。此外，现阶段的方法面对复杂难识别的文本场景，识别效果并不佳，尤其针对财务发票应用场景，对存在褶皱和污渍的发票样本，现阶段方法往往难以对其进行准确识别。针对这种现象，急需现有技术改进发展，解放数据标注需要的人力物力，并提升财务发票文本智能识别的准确率。

发明内容

本发明针对现有技术存在的问题，提出了一种多阶段数据生成自循环财务发票文本智能识别系统及方法。

本发明解决其技术问题所采用的技术方案是：一种多阶段数据生成自循环财务发票文本智能识别系统，包括

深度学习文本检测模块，用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型，用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息，并根据所述位置信息截取对应的纯文本图片；

文本识别数据生成模块，用于获取文本场景特征，并通过数据生成控制器按照不同阶段生成深度学习文本识别模型所需的训练数据；

深度学习文本识别模块，用于通过所述训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型，用于通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。

作为优选，所述深度学习文本检测模块包括

财务发票文本水平变换单元，通过霍夫变换检测财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片；

财务发票图片标注单元，将用于训练的初始化财务发票图片进行手动标注以得到标注过的财务发票图片；

深度学习目标检测模型训练单元，通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型；

目标文本位置信息获取单元，通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息；

纯文本图片截取单元，根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。

作为优选，所述财务发票图片标注单元包括

标注工具子单元，用于根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据，所述标注数据包括所述标注类型对应的坐标信息；

检测工具子单元，用于根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域。

作为优选，所述文本识别数据生成模块包括

文本场景特征获取单元，用于获取纯文本图片的文本场景特征；

数据生成控制器，由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据，并根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成不同阶段的训练数据直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。

作为优选，所述数据生成控制器包括

样式迁移子单元，用于对纯文本图片进行字体渲染、边缘渲染、基础看色、投影变形、噪声和模糊处理。

作为优选，所述深度学习文本识别模块包括

训练数据预处理单元，对所述训练数据进行预处理以得到预处理训练数据；

深度学习文本识别模型训练单元，通过所述预处理训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型；

Loss收敛速度和测试集准确率增长率获取单元，将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器；

纯文本图片识别单元，通过所述最终深度学习文本识别模型得到所述纯文本图片对应的文字信息。

一种多阶段数据生成自循环财务发票文本智能识别方法，其特征在于：包括以下步骤，

L1.通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型；

L2.通过文本识别数据生成模块生成训练数据，通过所述训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型；

L3.通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息，并根据所述位置信息截取对应的纯文本图片；

L4.通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。

作为优选，L1具体包括，

L11. 通过霍夫变换检测财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片；

L12. 通过标注工具子单元根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据以得到标注过的财务发票图片，所述标注数据包括所述标注类型对应的坐标信息；

L13. 通过检测工具子单元根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域以确定标注数据的准确性；

L14. 通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。

作为优选，L2具体包括，

L21. 通过文本场景特征获取单元获取纯文本图片的文本场景特征；

L22. 数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据；

L23. 通过训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据；

L24. 通过所述预处理训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型，同时通过Loss收敛速度和测试集准确率增长率获取单元将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器；

L25. 数据生成控制器根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成新阶段的训练数据并返回L23直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。

作为优选，L3具体包括，

L31. 通过霍夫变换检测待检测的财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本行旋转至水平位置以得到待检测的初始化财务发票图片；

L32. 通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息；

L33.根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。

有益效果

本申请的系统首次应用了多阶段数据生成进行智能文本识别，并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上，大大减少了财力人力和物力的消耗，提高了文本识别效率和准确率；本申请方法通过深度学习方法与智能数据生成方法结合，用数据生成方法取代人工数据标注，用自循环文本智能识别方法提升应用场景文本识别准确率，以减少工作成本和提高效率。

附图说明

图1为本申请多阶段数据生成自循环财务发票文本智能识别系统的结构框图；

图2为数据生成控制器按照不同阶段生成训练数据的流程图；

图3为文本识别数据生成模块中样式迁移的流程框图；

图4为财务发票的拍摄角度示意图；

图5为财务发票旋转至水平位置的示意图；

图6为目标文本位置信息的示意图；

图7为目标文本区域检测示意图；

图8为标注工具子单元操作界面示意图；

图9为检测工具子单元操作界面示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

如图1所示，一种多阶段数据生成自循环财务发票文本智能识别系统，包括深度学习文本检测模块, 文本识别数据生成模块和深度学习文本识别模块，以及将三个模块融合的操作软件或操作APP。深度学习文本检测模块，文本识别数据生成模块和深度学习文本识别模块在同一个系统框架下，数据内部连通使用。

深度学习文本检测模块用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型，用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息，并根据所述位置信息截取对应的纯文本图片。深度学习目标检测模型在pytorch框架下编写。

文本识别数据生成模块用于获取文本场景特征，并通过数据生成控制器按照不同阶段生成深度学习文本识别模型所需的训练数据。

深度学习文本识别模块用于通过所述训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型，用于通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。深度学习文本识别模型在pytorch框架下编写，用文本识别数据生成模块生成的训练数据进行多阶段模型训练，训练过程的Loss收敛速度和测试集准确率增长率不断反馈给文本识别数据生成模块，改变迁移控制变量，生成新的训练数据，循环进行，训练后存储最终阶段的模型，具体如图2所示。

其中，所述深度学习文本检测模块包括财务发票文本水平变换单元，财务发票图片标注单元，深度学习目标检测模型训练单元，目标文本位置信息获取单元和纯文本图片截取单元。

财务发票文本水平变换单元用于通过霍夫变换检测财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片。

财务发票图片标注单元用于将用于训练的初始化财务发票图片进行手动标注以得到标注过的财务发票图片。标注内容为所有目标文本的位置信息，位置信息采用矩形框表示，即一块文本区域标注数据由左上角坐标、右下角坐标共4个数据组成，如图6所示。

所述财务发票图片标注单元包括用于根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据标注工具子单元，和用于根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域的检测工具子单元，所述标注数据包括所述标注类型对应的坐标信息，使用检测工具复检保证标注数据的可靠性。

标注工具子单元操作界面如图8所示，在用户选定需要标注图片所在文件夹后显示第一张图片，右侧有标注类型选择区（包括各种标注类型，如发票代码、开票日期、纳税人识别号等等）和功能按键区。标注时先在标注类型选择区选择标注类型，然后在图片中框出目标区域，重复操作直至该张图片不存在未被框选目标。功能按键区有下一张、上一张、修改、删除按键，下一张快捷键为(d)，点击后进行下一张图片标注工作；上一张快捷键为(a)，点击后返回上一张图片，查看是否标注正确；修改快捷键为(x)，清楚当前标注图片标注信息，重新进行标注；删除快捷键为(c)，删除当前图片，表示当前图片不适合作为标注数据。图片标注数据以xml文件表示，存储有每个标注类型的坐标信息，坐标信息包括左上角坐标（x1，y1），右下角坐标（x2，y2）。

检测工具子单元操作界面如图9所示，在用户选定标注图片所在文件夹及标注数据所在文件夹后从第一张开始显示图片，并将标注结果显示在图片上。按键功能区有下一张、上一张、删除按键，下一张快捷键为(d)，点击后进行下一张图片检测工作；上一张快捷键为(a)，点击后返回上一张图片；删除快捷键为(c)，删除当前图片。

深度学习目标检测模型训练单元用于通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。深度学习目标检测模型使用pytorch框架编写，经标注数据训练完成后存储最终模型。

目标文本位置信息获取单元用于通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息。

纯文本图片截取单元用于根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。深度学习文本检测模型调用待检测的初始化财务发票图片，实时检测目标文本区域，如图7所示，并根据检测到的目标文本区域位置截取纯文本图片，将所有纯文本图片输入到深度学习文本识别模块。

其中，所述文本识别数据生成模块包括文本场景特征获取单元和数据生成控制器。

文本场景特征获取单元用于获取纯文本图片的文本场景特征。数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据，并根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成不同阶段的训练数据直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。数据生成控制器包括样式迁移子单元，用于对纯文本图片进行字体渲染、边缘渲染、基础看色、投影变形、噪声和模糊处理。

文本识别数据生成模块通过获取文本场景特征信息，利用风格迁移和内容迁移生成深度学习识别模块所需的训练数据。风格迁移包括数据背景多样性、固定文本图片高度、模糊核选择、腐蚀处理、噪声和倾斜。内容迁移包括数据分布和字间距多样性。将风格迁移和内容迁移（简称样式迁移）分别嵌入到如图3所示的五个生成步骤内，具体包括：生成前景文本，即选择文本字体和文本呈现样式，根据本文要使用的数据集不同，选择数据集内存在的随机字体和场景样式，如：扭曲、倾斜、旋转等，称为字体渲染。其次对渲染好的字体进行边缘渲染，增加阴影或者加入不同宽度的边缘。然后对字体进行随机着色。针对实际的文本应用场景，可以根据场景不同进行着色。之后针对实际的3D场景，对文本图像进行投影变形，包括仿射变换，模拟更加真实的视觉效果。最后为图像加入椒盐或高斯噪声，并加入适当模糊。

数据生成控制器由文本场景特征初始化并生成相应的控制参数。从第二次循环开始，深度学习文本识别模块中模型训练过程的Loss收敛性和测试集准确率增长率与期望Loss收敛速度和期望准确率增长率相减，反馈重新输入到数据生成控制器。数据生成控制器控制产生新的参数，改变数据生成策略，产生新一轮的训练数据，再次进入到文本识别模块进行循环训练，直到Loss收敛速度和测试集准确率增长率与期望值的差值达到设定的阈值则停止训练。

其中，所述深度学习文本识别模块包括训练数据预处理单元，深度学习文本识别模型训练单元，Loss收敛速度和测试集准确率增长率获取单元和纯文本图片识别单元。，深度学习文本识别模型使用pytorch框架编写，用文本识别数据生成模块生成的训练数据预处理后进行多阶段模型训练。训练过程的Loss收敛性和测试集准确率增长率不断反馈给文本识别数据生成模块的数据生成控制器，改变迁移控制变量，生成新的训练数据，循环进行，训练后存储最终阶段的模型。

训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据。

深度学习文本识别模型训练单元通过所述预处理训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型。

Loss收敛速度和测试集准确率增长率获取单元用于将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器。

纯文本图片识别单元用于通过所述最终深度学习文本识别模型得到所述纯文本图片对应的文字信息。最终深度学习文本识别模型调用文本检测模块输出的纯文本图片，实时识别文本内容，得到图片中所有目标文本的文字信息，输出给用户操作显示界面，告诉用户图片中的文字信息内容。文本识别结果数据可以在操作软件的操作显示界面上显示，并可导出文本识别结果，使用户能够直接使用财务发票中的文本内容信息。

本申请系统由文本识别数据生成模块、深度学习文本检测模块、深度学习文本识别模块组成。深度学习文本检测模块使用标注过的财务发票图片数据训练深度学习目标检测模型，通过调用图片数据后进行检测，得到图片中所有目标文本的位置信息数据并利用结果数据截取相应的纯文本图片，传入到深度学习文本识别模块。文本识别数据生成模块通过获取图片数据文本特征信息，按照不同阶段生成文本识别摸型训练所需的数据。深度学习文本识别模块使用数据生成模块生成的数据训练深度学习文本识别模型，通过调用文本检测模块输出的纯文本图片进行文本识别，得到图片中所有目标文本的文字信息，输出给用户UI界面，告诉用户所有图片中的文字信息内容。本申请的系统首次应用了多阶段数据生成进行智能文本识别，并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上，大大减少了财力人力和物力的消耗，提高了文本识别效率和准确率。

一种多阶段数据生成自循环财务发票文本智能识别方法，包括以下步骤，

L1.通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。L1具体包括，L11. 通过霍夫变换检测财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本旋转至水平位置以得到初始化财务发票图片，如图5所示。L12. 通过标注工具子单元根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据以得到标注过的财务发票图片，所述标注数据包括所述标注类型对应的坐标信息。L13. 通过检测工具子单元根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域以确定标注数据的准确性。L14. 通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。

在L1之前还需要获取财务发票图片，财务发票图片可以通过手机或相机拍照获取，如图4所示，拍摄时财务发票在图片中的位置可呈任意角度，只要保证整个财务发票都存在图片中。初始化财务发票图片还可以在财务发票文本旋转至水平位置后将图片背景去除,即将财务发票对应的图片抠取下来作为初始化财务发票图。

L2.通过文本识别数据生成模块生成训练数据，通过所述训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型。L2具体包括，L21. 通过文本场景特征获取单元获取纯文本图片的文本场景特征。L22. 数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据。L23. 通过训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据。L24. 通过所述预处理训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型，同时通过Loss收敛速度和测试集准确率增长率获取单元将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器。L25. 数据生成控制器根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成新阶段的训练数据并返回L23直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。

L3.通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息，并根据所述位置信息截取对应的纯文本图片。L3具体包括，L31. 通过霍夫变换检测待检测的财务发票图片中的财务发票文本中的直线，并根据所述直线将所述财务发票文本行旋转至水平位置以得到待检测的初始化财务发票图片。L32. 通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息。L33.根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。

L4.通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。在测试应用阶段，深度学习文本识别模块调用文本检测模块输出的纯文本图片，实时识别文本内容，得到图片中所有目标文本的文字信息，输出给用户UI界面，告诉用户图片中的文字信息内容。文本识别结果数据可视化显示在系统界面上，包含图片上所需的所有文本结果，且可以在系统操作界面上导出文本识别结果，导出为json格式，保存后用户可以直接使用财务发票中的文本内容信息。

本申请方法通过深度学习方法与智能数据生成方法结合，用数据生成方法取代人工数据标注，用自循环文本智能识别方法提升应用场景文本识别准确率，以减少工作成本和提高效率。

上面所述的实施例仅是对本发明的优选实施方式进行描述，并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：包括

2.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：所述深度学习文本检测模块包括

3.根据权利要求2所述的多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：所述财务发票图片标注单元包括

4.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：所述文本识别数据生成模块包括

5.根据权利要求4所述的多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：所述数据生成控制器包括

6.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统，其特征在于：所述深度学习文本识别模块包括

7.多阶段数据生成自循环财务发票文本智能识别方法，其特征在于：包括以下步骤，

8.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法，其特征在于：L1具体包括，

9.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法，其特征在于：L2具体包括，

10.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法，其特征在于：L3具体包括，