CN116152824A

CN116152824A - 一种发票信息提取方法及系统

Info

Publication number: CN116152824A
Application number: CN202310098843.9A
Authority: CN
Inventors: 晏宇; 周彭滔; 邓嘉; 董逢华
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-23

Abstract

本发明公开了一种发票信息提取方法及系统，该方法包括：1)根据文本方向对目标发票图片进行分类；2)获取经过分类后的图片的检测区域，对检测区域取最小外接矩形并进行仿射变换；3)获取经过仿射变换后的图片的文字定位框位置且进行截图，对截图进行文字识别得到文字识别结果；4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果；5)将语义实体识别结果进行后处理得到最终结果。本发明完全基于深度学习，流程清晰，速度快，精度高，鲁棒性强。本发明可移植性强，可以轻松应用于其他票据识别上。本发明利用了文本、视觉、布局等多模态信息从而极大的提升了语义实体识别的准确率。

Description

一种发票信息提取方法及系统

技术领域

本发明涉及文本识别技术领域，具体涉及一种发票信息提取方法及系统。

背景技术

目前，随着AI技术的OCR文字识别的进步和日趋成熟，在财务管理领域的应用也越来越普及，尤其是在发票的处理运用上。AI技术能够根据发票的影像文件，通过OCR技术快速识别发票中的内容并形成结构化数据，发票数据的获取速度从人工的分钟级别升级到了秒级，准确率也将达到更高的水平。极大的节省了发票录入的时间，进一步推进了企业财务领域管理线上化、自动化的进程。

现有发票识别主要有以下方案：

由于拍照设备的硬件、拍照时间以及拍照所处场景千差万别，导致得到的文档素材差异性较大，目前的算法在准确率和鲁棒性方面均不理想。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了一种场景适应的参数化光伏组件松动检测方法，针对现有发票信息提取存在的流程较长、准确率较低、鲁棒性较差的问题，在算法流程上进行了优化，关键部分均使用深度学习算法，改善了目前算法中存在的问题。

为了到达预期效果，本发明采用了以下技术方案：

本发明公开了一种发票信息提取方法，包括：

1)根据文本方向对目标发票图片进行分类；

2)获取经过分类后的图片的检测区域，对检测区域取最小外接矩形并进行仿射变换；

3)获取经过仿射变换后的图片的文字定位框位置且进行截图，对截图进行文字识别得到文字识别结果；

4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果；

5)将语义实体识别结果进行后处理得到最终结果。

进一步地，通过文本方向检测模型将目标发票图片按照角度分为多种情况，且定义其中一角度为标准方向，根据分类情况将目标发票图片统一旋转至标准方向。

进一步地，当通过文本方向检测模型将目标发票图片按照角度分为多种情况时，在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。

进一步地，将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域，所述部分调整具体包括：根据图片的长宽比统计特征，缩小图片尺寸，使分割模型在分割速度和精度之间达到平衡。

进一步地，将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图，所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。

进一步地，所述获取经过仿射变换后的图片的文字定位框位置具体包括：在后处理上对相应的超参数进行部分参数搜索，通过网格搜索得到当下任务最优的超参数。

进一步地，所述对截图进行文字识别得到文字识别结果具体包括：将截图输入文字识别模型进行文字识别得到文字识别结果。

进一步地，所述文字识别模型采用卷积循环神经网络模型，所述卷积循环神经网络模型包括卷积层特征提取层和双向长短时记忆网络序列特征提取层，在文字识别过程中，前端使用卷积层网络提取文本图像的特征，利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层进行识别得到文本序列。

进一步地，所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果，具体包括：将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果。

本发明还公开了一种发票信息提取系统，包括：

文本方向检测模块，用于根据文本方向对目标发票图片进行分类；

分割模块，用于获取经过分类后的图片的检测区域，对检测区域取最小外接矩形并进行仿射变换；

文字检测模块，用于获取经过仿射变换后的图片的文字定位框位置且进行截图；

文字识别模块，用于对截图进行文字识别得到文字识别结果；

语义实体识别模块，用于通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果；

后处理模块，用于将语义实体识别结果进行后处理得到最终结果。

与现有技术相比，本发明的有益效果是：本发明公开了一种发票信息提取方法及系统，该方法完全基于深度学习，流程清晰，速度快，精度高，鲁棒性强。该方法可移植性强，可以轻松应用于其他票据识别上。为了提升发票信息提取的准确率，本发明修改了部分网络，对部分网络进行了级联。本发明放弃LayoutXLM的传统keyvalue的预测方式，直接把模型运用在分类任务上，极大提升了可行性。本发明通过减少传统图像处理方法的比重，增加了鲁棒性。本发明通过分析发票使用场景，构造符合场景的模拟数据提升了各模型准确率。提取出字段后，相比传统方法只利用文本信息的方法，本发明利用了文本、视觉、布局等多模态信息从而极大的提升了语义实体识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种发票信息提取方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明公开了一种发票信息提取方法，包括：

1)根据文本方向对目标发票图片进行分类。这一步骤的目的是将目标发票图片分成多类后以便后续分割和文字检测。

2)获取经过分类后的图片的检测区域，对检测区域取最小外接矩形并进行仿射变换。这一步骤的目的是将发票图片主体同背景分开，减少背景干扰，并通过仿射变换将发票区域拉正以方便后续文字检测。

3)获取经过仿射变换后的图片的文字定位框位置且进行截图，对截图进行文字识别得到文字识别结果。这一步骤的目的是将发票主体区域各文字段的位置检测出来，并剪切出这些区域以方便后续文字识别。

4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果；这一步骤的主要目的是将识别出来的各文字段进行分类从而与发票各字段对应起来。

5)将语义实体识别结果进行后处理得到最终结果。这一步骤的目的是将语义实体识别(SER)输出结果中可以校验的一部分字段进行校验，例如发票名称和发票代码，这一部分有明确的长度和格式，以此得到发票关键字段的准确结果。

优选的实施例中，通过文本方向检测模型将目标发票图片按照角度分为多种情况，且定义其中一角度为标准方向，根据分类情况将目标发票图片统一旋转至标准方向。

优选的实施例中，通过文本方向检测模型将目标发票图片分为0°，90°，180°，270°四种情况，根据分类情况将目标发票图片统一旋转至0°方向，以方便后续分割和文字检测。由于拍照时没有固定的拍摄角度及场景，所以需要对拍照图片进行初步的定位，为了简化流程加快速度，只进行四方向的分类，在发票识别任务上已经够用。为了不影响分割模型的准确率，所以在此单独使用了一个文本方向分类模型(RotNet)来判断方向，不把方向分类加入到分割模型中。文本方向分类模型(RotNet)将用于检测文字条方向的文本方向分类模型(textrotnet)模型进行修改，使其能够根据发票方向将图片进行分类，将原始输出的对文本方向横向和竖向的二分类变为预测输入图片中发票主体方向为0°、90°、180°、，270°的四分类。

优选的实施例中，当通过文本方向检测模型将目标发票图片按照角度分为多种情况时，在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片，具体包括：在骨干网络(backbone)进行了部分级联，即提取不同尺寸的特征图层进行预测，提升了部分准确率。

优选的实施例中，获取经过分类后的图片的检测区域，具体包括：将经过旋转的图片输入分割模型以获取经过分类后的图片的检测区域。

优选的实施例中，所述分割模型采用轻量分割模型(pp_Liteeg)，所述pp_Liteeg包括三个创新模块，分别是灵活的解码模块(FLD)、注意力融合模块(UAFM)、简易金字塔池化模块(PPM)。所述FLD用于灵活调整解码模块中通道数，平衡编码模块和解码模块的计算量，使得整个模型更加高效；所述UAFM用于实现数据增强，加强特征表示能够更好地提升模型的精度；所述PPM用于减小中间特征图的通道数，移除跳跃连接，使得模型性能进一步提升。

优选的实施例中，所述数据增强方法包括随机缩放、随机裁剪、随机水平翻转、随机颜色抖动和归一化。

优选的实施例中，由于分割任务比较简单，为了进一步提升速度，将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域，所述部分调整具体包括：根据图片的长宽比统计特征，缩小图片尺寸，使分割模型在分割速度和精度之间达到平衡。例如，将原始512*512(w*h)的模型输入变为512*384(w*h)。优选的实施例中，通过精度和推理时间的比值来判断算法是否平衡，例如，分割模型的准确率和召回率均达到98％以上，推理时间只需要100m以内。

优选的实施例中，将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图，具体包括：将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图，优选的实施例中，所述文字检测模型采用基于自适应尺度融合的可微分二值化模型(DBNet++)，Db++是可微分二值化模型(DBNet)的改进版本，在原有算法上加入了一种自适应尺度融合模块(AF)来自适应融合多尺度特征图。自适应尺度融合模块(AF)将一个空间注意模块集成到一个阶段性的注意模块中，阶段性注意模块学习不同尺度的特征图的权重，空间注意模块学习跨空间维度的注意，导致尺度鲁棒特征融合。

通过将AF应用于分割模型，明显增强了其检测不同尺度文本实例的能力。用基于自适应尺度融合的可微分二值化模型(DBNet++)经过与DBNet的联合优化，使得本发明的分割模型可以产生高度鲁棒的分割结果，显著提高文本检测结果。由于DBNet++可以在推理期间被删除而不牺牲准确性，因此推理没有额外的内存和时间成本，节约了内存和时间成本。另外，AF可以有效地提高分割模型的尺度鲁棒性。

由于发票图片文字较多，内容较为密集，且在分割后存在部分背景干扰，优选的实施例中，本发明在文字检测时，关注的指标更倾向于召回率(recall)而非准确率(preciion)，即可以多检测但是尽量不要漏检，多检测的部分可以在语义实体识别(ER)部分排除掉，但漏检的部分则无法在后续操作中弥补，所以在文字检测标注时，同时标注有关的和无关的文字信息，以尽可能地提高召回率(Recall)。

优选的实施例中，所述获取经过仿射变换后的图片的文字定位框位置具体包括：在后处理上对相应的超参数进行部分参数搜索，通过网格搜索得到当下任务最优的超参数。为了更好地检测文字位置，在后处理上对相应的超参数进行了部分参数搜索，通过网格搜索的方式得出了当下任务最优的超参，包括二值化阈值(threh),检测框阈值(box_threh),检测框系数(unclip_ratio)等。Threh和box_threh等参数主要影响某些置信度低的文字框检出，unclip_ratio影响文字框贴合程度，从而会影响文字识别准确率，这个参数需要和识别模型一起调试得到最优解。

优选的实施例中，所述对截图进行文字识别得到文字识别结果，具体包括：将截图输入文字识别模型进行文字识别得到文字识别结果，所述文字识别模型采用卷积循环神经网络模型(CRNN)，所述卷积循环神经网络模型包括卷积层特征提取层(CNN)和双向长短时记忆网络序列特征提取层(BLTM)，在文字识别过程中，前端使用卷积层网络提取文本图像的特征，利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层进行识别得到文本序列。

优选的实施例中，卷积层特征提取层(CNN)和双向长短时记忆网络序列特征提取层(BLTM)能够进行端到端的联合训练。卷积循环神经网络模型利用双向长短时记忆网络序列特征提取层(BLTM)和转录层(CTClo)部件学习字符图像中的上下文关系，从而有效提升文本识别的准确率，使得模型的鲁棒性更强。

整个CRNN网络结构包含三部分，从下到上依次为：

CNN(卷积层)，使用深度CNN，对输入图像提取特征，得到特征图；

RNN(循环层)，使用双向RNN(即BLTM)对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签(真实值)分布；

CTClo(转录层)，使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

本发明在训练方面采用合成数据和真实数据1:1的方式，合成数据分别生成了模拟发票数据、wiki通用数据、发票标题模拟数据、数字模拟数据等，在原有通用文字识别模型的基础上进行微调，采用了模糊、反色、扭曲、局部扰动等数据增强方法，得到了一个目前在发票数据上最优的模型。

推理时，为了提高推理速度，将文字检测到的文本框，按照长宽比排序，并按照批次(batch)长宽比大小将其分类，这样保证统一batch内长宽比差距不会太大，在同一批次(batch)内按照最长图片的长作为填充(padding)的长度，这样一方面加快了预测速度，另一方面也减少了批次(batch)输入带来的准确率损失。

优选的实施例中，所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果，具体包括：将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果，所述语义实体识别模型采用文档理解模型，在语义实体识别过程中，文档理解模型将图像特征纳入到统一的多模态预训练框架中进行识别训练以获取语义实体识别结果。

优选的实施例中，所述语义实体识别模型采用文档理解模型(LayoutXLM)，LayoutXLM是一个多模态文档嵌入式表示的框架，在语义实体识别过程中，结合文档页面的文本、视觉、布局等信息，LayoutXLM进一步将图像特征纳入到统一的多模态预训练框架中，将CNN图像特征展开为一维的词符(token)序列，并与文本token序列进行拼接，同时输入到Tranformer网络进行预训练。

优选的实施例中，所述文档理解模型还包括文本-图像对齐与文本-图像匹配功能。LayoutXLM除了采用已有的掩码视觉语言模型预训练任务，还提出了新的文本-图像对齐与文本-图像匹配功能，从而令模型更好地学习到跨模态的交互作用。此外，LayoutXLM在Tranformer网络中引入了空间感知的自注意力机制，令模型更好地理解文档中不同文本块的相对位置关系。

在语义实体识别模型中，共设置了78个字段的分类，对于之前模型获取的的文本、图像与版面，每种模态的输入都转化为一个特征序列，并由模型进行特征融合。

文本特征：文档内容由我们之前的文字检测模型和识别模型获得，并按照从左到右、从上到下的顺序进行序列化。文本序列采用词块(WordPiece)方法进行分词，获取token序列。

视觉特征：LayoutXLM采用ReNet作为视觉编码器的骨干网络，对于我们的发票图片，将其缩放到224x224大小并输入视觉网络，得到宽度为W、高度为H的特征图，并序列化为长度为WH的视觉token序列。

版面特征：版面特征指的是文档中各文字框所表示的空间位置信息，并且会通过tbxy算法，按照符合正常阅读的方式，对各个文字框进行编码。

对于每一个之前获取的文本，在此模型中均会被分类到78个字段之一(包括other)，相比于传统的eq2eq等模型，LayoutXLM极大的提升了分类的准确率和鲁棒性。

优选的实施例中，所述后处理为正则匹配。由于发票中各字段内部距离较小，经常会发生文字检测将字段key和value检测到一个文字框的情况，对于此种情况就需要通过正则匹配等方法将key和value分开，只输出对业务有用的value。此外某些字段在票面上存在不止一处，此时也需要通过规则校验等方式得出置信度最高的一个字段作为最终的字段输出。

优选的实施例中，在后处理过程中，还通过各个字段做一部分互相校验，具体包括：利用发票字段的语义信息对部分字段做一些校验工作，例如，字段中的大写金额和小写金额，这两个字段互相转换后的值应该相等，如果大写金额转换成小写或小写金额转换为大写后的值不同，则认为某一字段存在问题，此时我们会以置信度最高的字段为基准去修改另一个字段的值，以提升部分准确率。

基于同一发明思路，本发明还公开了一种发票信息提取系统，包括：

优选的实施例中，首先向发票信息提取系统中输入待提取信息的发票图片，然后通过文本方向检测模块对目标发票图片进行分类，根据分类情况对目标发票图片进行旋转；其次通过分割模块获取经过分类后的图片的检测区域，对检测区域取最小外接矩形并进行仿射变换；再次通过文字检测模块获取经过仿射变换后的图片的文字定位框位置且进行截图；再次通过文字识别模块对截图进行文字识别得到文字识别结果；再次通过语义实体识别模块对文字识别结果、文字定位框位置、目标发票图片进行语义实体识别获取语义实体识别结果；最后通过后处理模块将语义实体识别结果进行后处理得到最终结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发票信息提取方法，其特征在于，包括：

1)根据文本方向对目标发票图片进行分类；

5)将语义实体识别结果进行后处理得到最终结果。

2.如权利要求1所述的一种发票信息提取方法，其特征在于，通过文本方向检测模型将目标发票图片按照角度分为多种情况，且定义其中一角度为标准方向，根据分类情况将目标发票图片统一旋转至标准方向。

3.如权利要求2所述的一种发票信息提取方法，其特征在于，当通过文本方向检测模型将目标发票图片按照角度分为多种情况时，在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。

4.如权利要求2或3所述的一种发票信息提取方法，其特征在于，将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域，所述部分调整具体包括：根据图片的长宽比统计特征，缩小图片尺寸，使分割模型在分割速度和精度之间达到平衡。

5.如权利要求1所述的一种发票信息提取方法，其特征在于，将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图，所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。

6.如权利要求5所述的一种发票信息提取方法，其特征在于，所述获取经过仿射变换后的图片的文字定位框位置具体包括：在后处理上对相应的超参数进行部分参数搜索，通过网格搜索得到当下任务最优的超参数。

7.如权利要求1所述的一种发票信息提取方法，其特征在于，所述对截图进行文字识别得到文字识别结果具体包括：将截图输入文字识别模型进行文字识别得到文字识别结果。

8.如权利要求7所述的一种发票信息提取方法，其特征在于，所述文字识别模型采用卷积循环神经网络模型，所述卷积循环神经网络模型包括卷积层特征提取层和双向长短时记忆网络序列特征提取层，在文字识别过程中，前端使用卷积层网络提取文本图像的特征，利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层进行识别得到文本序列。

9.如权利要求1所述的一种发票信息提取方法，其特征在于，所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果，具体包括：将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果。

10.一种发票信息提取系统，其特征在于，包括：