CN114067339A

CN114067339A - 图像识别方法及其装置、电子设备、计算机可读存储介质

Info

Publication number: CN114067339A
Application number: CN202111426160.9A
Authority: CN
Inventors: 舒文婷; 瞿伟; 汤琦; 于锐
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-18

Abstract

本发明公开了一种图像识别方法及其装置、电子设备、计算机可读存储介质。其中，该识别方法包括：获取待处理的目标发票图像，提取目标发票图像中的图像特征，得到特征映射图，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果，基于文本边界框和文本识别结果，输出图像识别结果。本发明解决了相关技术中由于各种类型发票的识别模板不统一，导致识别发票图像上的信息的准确度较低的技术问题。

Description

图像识别方法及其装置、电子设备、计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像识别方法及其装置、电子设备、计算机可读存储介质。

背景技术

随着越来越多的主体对象(例如，企业)推进全球化经营，主体对象对于境外发票的自动化识别有着迫切的应用需求，如何实现对境外发票进行自动化识别成为众多主体对象关注的热点研究。现有的发票管理受技术限制，一般是通过人工方式进行数据录入和校对，不仅耗费大量人力和时间，而且效率和准确率低下。相关技术中，现有的OCR(OpticalCharacter Recognition)技术通过文本定位、单字切割和分类任务进行识别，适用于文本工整、布局规范的识别场景，而不适用于表格结构与自然场景下的图像文本检测识别。然而，境外发票具有种类多、文本尺度不一致、票据布局不一致的特点，无法适用一个统一的识别模板，现有的OCR技术对境外发票的识别准确率受限。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像识别方法及其装置、电子设备、计算机可读存储介质，以至少解决相关技术中由于各种类型发票的识别模板不统一，导致识别发票图像上的信息的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种图像识别方法，包括：获取待处理的目标发票图像；提取所述目标发票图像中的图像特征，得到特征映射图；将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征；基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果；基于所述文本边界框和所述文本识别结果，输出图像识别结果，其中，所述图像识别结果中至少包括：发票文本信息。

可选地，在提取所述目标发票图像中的图像特征，得到特征映射图之前，所述识别方法还包括：对所述目标发票图像进行预处理操作，其中，所述预处理操作包括下述至少之一：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正。

可选地，提取所述目标发票图像中的图像特征，得到特征映射图的步骤，包括：按照预设比例将所述目标发票图像进行缩放处理；将缩放后的所述目标发票图像输入至深度学习神经网络中，以采用所述深度学习神经网络提取图像特征，得到所述特征映射图，其中，所述深度学习神经网络包括多个网络层，所述多个网络层包括下述至少之一：卷积层、池化层、图形标准构建层。

可选地，在提取所述目标发票图像中的图像特征，得到特征映射图之后，所述识别方法还包括：采用角点检测器检测所述目标发票图像中的文本角点；对所述文本角点进行组合，生成候选边界框；采用位置敏感分割器对所述目标发票图像中的文本区域进行分割，得到文本分割图；采用所述文本分割图消除出现非文本信息的候选边界框，得到具备文本信息的文本边界框。

可选地，采用角点检测器检测所述目标发票图像中的文本角点的步骤，包括：确定每个角点检测得分分支的第一损失函数、每个角点检测偏移分支的第二损失函数以及每个位置分割图的第三损失函数；分析所述目标发票图像中的显示框的数量以及特征映射图中的像素数量；基于所述第一损失函数以及对应的第一权重、所述第二损失函数以及对应的第二权重、所述第三损失函数以及对应的第三权重、所述显示框的数量以及像素数量，确定文本定位参数；基于所述文本定位参数，确定所述目标发票图像中的文本角点。

可选地，采用位置敏感分割器对所述目标发票图像中的文本区域进行分割，得到文本分割图的步骤，包括：将所述目标发票图像中的文本区域划分为多个文本分块；对每个所述文本分块进行分析，以确定每个文本分割图所属的文本分块。

可选地，将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征的步骤，包括：通过文本区域的标注坐标计算仿射变换参数；基于所述仿射变换参数，分别对共享特征的每个文本区域做仿射变换，得到文本区域的水平特征映射；基于所述水平特征映射，生成文本区域特征。

可选地，基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果的步骤，包括：将所述文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对所述文本边界框内的文本序列进行编码和解码，得到文本识别结果。

可选地，将所述文本区域特征输入至文本识别分支，以识别所述文本边界框内的文本序列，得到文本识别结果的步骤，包括：将所述文本区域特征输入至循环神经网络，以识别所述文本边界框内每个字符，得到每个所述字符上的分布；通过时序分类模型CTC将每个所述字符上的分布转化为标签序列，以确定所述文本边界框内的文本序列。

根据本发明实施例的另一方面，还提供了一种图像识别装置，包括：获取单元，用于获取待处理的目标发票图像；提取单元，用于提取所述目标发票图像中的图像特征，得到特征映射图；处理单元，用于将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征；识别单元，用于基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果；输出单元，用于基于所述文本边界框和所述文本识别结果，输出图像识别结果，其中，所述图像识别结果中至少包括：发票文本信息。

可选地，所述识别装置法还包括：第一处理模块，用于在提取所述目标发票图像中的图像特征，得到特征映射图之前，对所述目标发票图像进行预处理操作，其中，所述预处理操作包括下述至少之一：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正。

可选地，所述提取单元包括：第一缩放模块，用于按照预设比例将所述目标发票图像进行缩放处理；第一提取模块，用于将缩放后的所述目标发票图像输入至深度学习神经网络中，以采用所述深度学习神经网络提取图像特征，得到所述特征映射图，其中，所述深度学习神经网络包括多个网络层，所述多个网络层包括下述至少之一：卷积层、池化层、图形标准构建层。

可选地，所述识别装置还包括：第一采集模块，用于在提取所述目标发票图像中的图像特征，得到特征映射图之后，采用角点检测器检测所述目标发票图像中的文本角点；第一生成模块，用于对所述文本角点进行组合，生成候选边界框；第一分割模块，用于采用位置敏感分割器对所述目标发票图像中的文本区域进行分割，得到文本分割图；第一消除模块，用于采用所述文本分割图消除出现非文本信息的候选边界框，得到具备文本信息的文本边界框。

可选地，所述第一采集模块包括：第一确定子模块，用于确定每个角点检测得分分支的第一损失函数、每个角点检测偏移分支的第二损失函数以及每个位置分割图的第三损失函数；第一分析子模块，用于分析所述目标发票图像中的显示框的数量以及特征映射图中的像素数量；第一计算子模块，用于基于所述第一损失函数以及对应的第一权重、所述第二损失函数以及对应的第二权重、所述第三损失函数以及对应的第三权重、所述显示框的数量以及像素数量，确定文本定位参数；第二确定子模块，用于基于所述文本定位参数，确定所述目标发票图像中的文本角点。

可选地，所述第一分割模块包括：第一划分子模块，用于将所述目标发票图像中的文本区域划分为多个文本分块；第二分析子模块，用于对每个所述文本分块进行分析，以确定每个文本分割图所属的文本分块。

可选地，所述处理单元包括：第一计算模块，用于通过文本区域的标注坐标计算仿射变换参数；第一变换模块，用于基于所述仿射变换参数，分别对共享特征的每个文本区域做仿射变换，得到文本区域的水平特征映射；第二生成模块，用于基于所述水平特征映射，生成文本区域特征。

可选地，所述识别单元包括：第一识别模块，用于将所述文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对所述文本边界框内的文本序列进行编码和解码，得到文本识别结果。

可选地，所述第一识别模块包括：第一识别子模块，用于将所述文本区域特征输入至循环神经网络，以识别所述文本边界框内每个字符，得到每个所述字符上的分布；第一转化子模块，用于通过时序分类模型CTC将每个所述字符上的分布转化为标签序列，以确定所述文本边界框内的文本序列。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的图像识别方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的图像识别方法。

在本申请，通过获取待处理的目标发票图像，提取目标发票图像中的图像特征，得到特征映射图，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果，基于文本边界框和文本识别结果，输出图像识别结果。本申请通过预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，以将文字识别转化为文本序列学习，得到图像识别结果，能够对各种类型、任意长度文本等特点的发票图像进行自动化识别，并且能够保证识别的准确率，进而解决了相关技术中由于各种类型发票的识别模板不统一，导致识别发票图像上的信息的准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的图像识别方法的流程图；

图2是根据本发明实施例的一种可选的基于深度学习的发票图像识别方法的示意图；

图3是根据本发明实施例的一种可选的角点检测器的示意图；

图4是根据本发明实施例的一种可选的位置敏感器的示意图；

图5是根据本发明实施例的一种可选的图像识别装置的示意图；

图6是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

ORT：Optical Character Recognition，光学字符识别，是指对文本资料的图像进行分析识别处理，获取文字及版面信息的过程。

CNN：Convolutional Neural Networks，卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络，是一种深度学习算法。

CTC：Connectionist temporal classification，是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题。

本发明下述各实施例可应用于各种识别图像的系统、应用/需要图像识别的场景中，涉及的识别方法可以识别不具有统一模板的图像(本申请中以境外发票图像作为示例进行说明)或者具有统一模板的图像，本发明通过一种基于深度学习的发票图像识别方法，能够将文字识别转化为序列学习问题，如此，即使输入的图像尺度不同、文本长度不同，但经过深度学习神经网络，在输出阶段经过相应处理后可以对整个文本图像进行识别，即将文字的切割融入到深度学习中，无需单独显式加入文字切割操作，通过引入角点检测器和位置敏感器使得发票图像识别模型更加适用于具有多方向、多尺寸、任意长度文本特点的不具有统一模板的发票，保证了识别准确率。

实施例一

根据本发明实施例，提供了一种图像识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的图像识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待处理的目标发票图像。

步骤S104，提取目标发票图像中的图像特征，得到特征映射图。

步骤S106，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征。

步骤S108，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果。

步骤S110，基于文本边界框和文本识别结果，输出图像识别结果，其中，图像识别结果中至少包括：发票文本信息。

通过上述步骤，可以通过获取待处理的目标发票图像，提取目标发票图像中的图像特征，得到特征映射图，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果，基于文本边界框和文本识别结果，输出图像识别结果。本实施例通过预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，以将文字识别转化为文本序列学习，得到图像识别结果，能够对各种类型、任意长度文本等特点的发票图像进行自动化识别，并且能够保证识别的准确率，进而解决了相关技术中由于各种类型发票的识别模板不统一，导致识别发票图像上的信息的准确度较低的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

步骤S102，获取待处理的目标发票图像。

在本发明实施例中，目标发票图像可以是具有多方向、多尺寸、任意长度文本等特点的发票图像，其发票图像上具有文本内容。

在本发明实施例中，可以通过基于深度学习神经网络(例如，CNN)提取目标发票图像的特征，得到特征映射图。

可选的，在提取目标发票图像中的图像特征，得到特征映射图之前，识别方法还包括：对目标发票图像进行预处理操作，其中，预处理操作包括下述至少之一：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正。

在本发明实施例中，需要先对目标发票图像进行预处理操作，包括但不限于：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正等，其中，直方图均衡化是利用图像直方图对对比度进行调整的方法，图像标准化是将数据通过去均值实现中心化的处理，归一化不会改变图像本身的信息存储，是为了神经网络或者卷积神经网络能够更好地处理图像，噪声去除是指减少图像中的噪声(例如，黑点、模糊化的像素格、多余的图像线条等)的过程，倾斜矫正用于对含有文字的图片进行自动化倾斜矫正处理。

可选的，提取目标发票图像中的图像特征，得到特征映射图的步骤，包括：按照预设比例将目标发票图像进行缩放处理；将缩放后的目标发票图像输入至深度学习神经网络中，以采用深度学习神经网络提取图像特征，得到特征映射图，其中，深度学习神经网络包括多个网络层，多个网络层包括下述至少之一：卷积层、池化层、图形标准构建层。

在本发明实施例中，可以基于深度学习神经网络提取目标发票图像的特征，得到特征映射图，即可以先将目标发票图像的大小按照预设比例进行缩放(例如，缩放到32*W*1)，然后经过深度学习神经网络中的多个网络层，即卷积层(例如，设置7个卷积层)、最大池化层(例如，设置4个大池化层)和标准化模块(即图形标准构建层，可设置为2个)，最后输出特征映射图(例如，图像大小变为1*(W/4)*512)，例如，输入CNN的图像尺寸(通道数，高，宽)＝(1，32，160)，则输出尺寸为(512，1，40)，即CNN得到512个特征图，每个特征图高度为1，宽度为40。

可选的，在提取目标发票图像中的图像特征，得到特征映射图之后，识别方法还包括：采用角点检测器检测目标发票图像中的文本角点；对文本角点进行组合，生成候选边界框；采用位置敏感分割器对目标发票图像中的文本区域进行分割，得到文本分割图；采用文本分割图消除出现非文本信息的候选边界框，得到具备文本信息的文本边界框。

在本发明实施例中，将特征映射图提供给文本检测分支，基于角点检测器和位置敏感分割器对文本边界框进行预测，即先检测目标发票图像中的文本对应的角点，预测位置敏感的分割图，然后对已检测的角点进行采样、组合，生成候选边界框，最后根据位置敏感的分割图消除错误的边界框(即消除出现非文本信息的候选边界框)，得到具备文本信息的文本边界框。

本发明实施例可以通过左上、左下、右上、右下四个角点确定一个矩形，而不用考虑这个矩形的大小、方向和长宽比，并且位置敏感的文本区域分割可以提供更加有效的文本定位信息，因此，本发明实施例中的方法相较于文本框回归，能够适应多方向、多尺寸、长宽比各异的文本。

可选的，采用角点检测器检测目标发票图像中的文本角点的步骤，包括：确定每个角点检测得分分支的第一损失函数、每个角点检测偏移分支的第二损失函数以及每个位置分割图的第三损失函数；分析目标发票图像中的显示框的数量以及特征映射图中的像素数量；基于第一损失函数以及对应的第一权重、第二损失函数以及对应的第二权重、第三损失函数以及对应的第三权重、显示框的数量以及像素数量，确定文本定位参数；基于文本定位参数，确定目标发票图像中的文本角点。

在本发明实施例中，可以通过检测分支采用式(1)的损失函数L_d计算出文本定位参数，

其中，Lc为角点检测器中得分分支的损失函数(即第一损失函数)，L_l为角点检测中偏移分支的损失函数(即第二损失函数)，Ls为位置敏感分割的损失函数(即第三损失函数)，Nc为正样本默认框的数量(即目标发票图像中的显示框的数量)，Ns为特征映射图中的像素数量，λ₁和λ₂为权重因子。

本实施例中，可通过检测分支采用式(1)的损失函数L_d计算出文本定位参数。

其中，分析目标发票图像中的显示框的数量以及特征映射图中的像素数量；基于第一损失函数以及对应的第一权重、第二损失函数以及对应的第二权重、第三损失函数以及对应的第三权重、显示框的数量以及像素数量，确定文本定位参数包括：计算第一损失函数与显示框的数量之间的比值，得到第一比值；计算第二权重乘以第二损失函数的乘积值与显示框的数量之间的比值，得到第二比值(如λ₁与正样本默认框的数量Nc的比值为第二比值)；计算第三权重乘以第三损失函数的乘积值后与像素数量之间的比值，得到第三比值(如，λ₂与特征映射图中的像素数量的比值为第三比值)，将第一比值、第二比值、第三比值进行累加，得到文本定位参数。

其中，得分分支损失函数使用交叉熵损失，y_c为所有默认框(即显示框)的正确标注，p_c为预测得分，具体公式如式(2)。

L_c＝CrossEntropy(y_c,p_c) (2)；

其中，偏移分支损失函数使用平滑L_l损失，y_l为偏移分支的正确标注，p_l为预测的偏移量，具体公式如式(3)。

L_l＝SmoothL1(y_l,p_l) (3)；

y_l的计算公式如式(4)，通过默认框B＝(x_b,y_b,ss_b,ss_b)和角点框C＝(x_c,y_c,ss_c,ss_c)计算，

位置敏感分割器损失函数使用Focal损失,具体公式如式(5)，

Ls＝FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (5)；

其中,p_t表示预测样本正确的概率，α_t表示预设的负样本权重(负样本为图像中空白样本)，γ为预设的调剂权重参数。

可选的，采用位置敏感分割器对目标发票图像中的文本区域进行分割，得到文本分割图的步骤，包括：将目标发票图像中的文本区域划分为多个文本分块；对每个文本分块进行分析，以确定每个文本分割图所属的文本分块。

在本发明实施例中，可使用一个g*g大小的网格将文本边界框(即文本区域)划分为多个文本分块，采用一个文本分割图对每个文本分块进行分析判断，确定该文本分割图所属的对应文本分块。

在本发明实施例中，可以将特征映射图与文本检测分支得到的文本边界框检测结果(即预先分析的文本边界框)进行融合，以得到文本区域特征。

可选的，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征的步骤，包括：通过文本区域的标注坐标计算仿射变换参数；基于仿射变换参数，分别对共享特征的每个文本区域做仿射变换，得到文本区域的水平特征映射；基于水平特征映射，生成文本区域特征。

在本发明实施例中，可先通过文本区域的标注坐标(即对像素点的标识处理)计算仿射变换参数，之后分别对共享特征(即在仿射变换中，共享卷积产生的特征)的每个文本区域做仿射变换，得到文本区域的水平特征映射，对于长度变化的文本，网络将特征映射图填充到最长，并在识别分支的损失函数中忽略填充部分，计算仿射变化参数的公式如下：

t_x＝l*cosθ-t*sinθ-x

t_y＝t*cosθ+l*sinθ-y

w_t＝s*(l+r)；

其中，M为仿射变换矩阵，h_t和w_t为仿射变换后特征映射图的高宽，t、b、l、r为共享特征映射图中点(x,y)距离文本区域顶部、底部、左侧和右侧的距离，θ为方向。

仿射变换完成后，生成最终的感兴趣区域特征如下：

其中，i表示各个特征映射图中点(x,y)的下标。

在本发明实施例中，将文本区域特征作为文本识别分支的输入，基于神经网络(如RNN+CTC)对文本序列进行编码和解码，得到文本标签预测结果(即文本识别结果)。

可选的，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果的步骤，包括：将文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对文本边界框内的文本序列进行编码和解码，得到文本识别结果。

在本发明实施例中，对将文本区域特征输入至文本识别分支，通过文本识别分支进行文本识别时，还使用了损失函数公式，文本识别分支的损失函数公式如下：

其中，

表示标签预测概率，N表示字符数量。

通过该损失函数公式，将文本区域特征输入至文本识别分支中，识别文本边界框内的文本序列，得到文本识别结果。

可选的，将文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对文本边界框内的文本序列进行编码和解码，得到文本识别结果的步骤，包括：将文本区域特征输入至循环神经网络，以识别文本边界框内每个字符，得到每个字符上的分布；通过时序分类模型CTC将每个字符上的分布转化为标签序列，以确定文本边界框内的文本序列。

在本发明实施例中，在将文本区域特征输入至循环神经网络后，可以先将文本区域特征输入循环神经网络RNN的卷积层和汇集，通过降维度来提取高级的特征，之后按照时间先后顺序对提取的高级特征映射进行排序，使用双向LSTM对序列编码，提取特征序列之间的范围依赖性，按时间顺序，在LSTM的两个方向上一次隐藏状态，再将隐藏状态计算之和输入到循环神经网络中，计算得到每个状态在字符类上的分布。最后，通过CTC将每个字符上的分布转化为标签序列，以确定文本边界框内的文本序列。

在本发明实施例中，输入待识别的发票图像，通过训练好的发票识别模型(即通过得到的文本边界框和文本识别结果)完成发票信息的定位、识别和文字提取，输出图像识别结果。

本发明实施例，通过深度学习的发票图像识别方法，无需显式加入文字切割环节，能够将文字识别转化为序列学习问题，如此，即使输入的图像尺度不同、文本长度不同，但经过深度学习神经网络，在输出阶段经过处理后可以对整个文本图像进行识别，即将文字的切割融入到深度学习中，能够识别具有多方向、多尺寸、任意长度文本等特点的发票，提高了识别准确率。

实施例二

图2是根据本发明实施例的一种可选的基于深度学习的发票图像识别方法的示意图，如图2所示，该方法包括如下步骤：

步骤1：输入待处理的发票图像，其中，图像中包括文本内容；

步骤2：对发票图像进行预处理操作，包括但不限于：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正等；

步骤3：构建端到端的深度学习模型，使用文本检测分支和文本识别分支进行文本定位、标签预测，通过多次训练调优得到最终的发票图像识别模型；

具体的，步骤3进一步包括如下步骤：

步骤300：输入图像，基于深度学习神经网络CNN提取发票图像特征，得到特征映射图，即可先将图像大小缩放到32*W*1，然后经过7个卷积层、4个最大池化层和2个批标准化模块，最后图像变为1*(W/4)*512，例如，输入CNN的图像尺寸(通道数，高，宽)＝(1，32，160)，则输出尺寸为(512，1，40)，即CNN得到512个特征图，每个特征图高度为1，宽度为40；

步骤301：将步骤300中得到的特征映射图提供给文本检测分支。基于角点检测器和位置敏感分割器对文本边界框进行预测，检测文本对应的角点，之后预测位置敏感的分割图，然后对已检测的角点进行采样、组合，由此生成候选边界框，最后根据位置敏感的分割图消除错误的边界框；

通过左上、左下、右上、右下四个角点确定一个矩形，而无需考虑该矩形的大小、方向和长宽比，并且位置敏感的文本区域分割可以提供更加有效的文本定位信息，因此，该方法相较于文本框回归具有优势，能够适应多方向、多尺寸、长宽比各异的文本。

检测分支采用如下损失函数L_d：

其中，Lc为角点检测器中得分分支的损失函数，L_l为角点检测中偏移分支的损失函数，Ls为位置敏感分割的损失函数，Nc为正样本默认框的数量，Ns为分割映射中的像素数量，λ₁和λ₂为权重因子。

得分分支损失函数使用交叉熵损失，公式如下：

L_c＝CrossEntropy(y_c,p_c)；

其中，y_c为所有默认框的正确标注，p_c为预测得分。

偏移分支损失函数使用平滑L_l损失，公式如下：

L_l＝SmoothL1(y_l,p_l)；

其中，y_l为偏移分支的正确标注，p_l为预测的偏移量。

y_l计算公式如下，通过默认框B＝(x_b,y_b,ss_b,ss_b)和角点框C＝(x_c,y_c,ss_c,ss_c)计算，

位置敏感分割器损失函数使用Focal损失，公式如下：

Ls＝FL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

图3是根据本发明实施例的一种可选的角点检测器的示意图，角点检测器通过卷积的方式预测两个分支的分值和偏移量，对于每个单元中带有k个默认框且大小为w*h的特征图，分值分支和偏移分支分别为每个默认框每个类型的角点输出2个分值和4个偏移量，q代表角点类型，本发明实施例为了提升对多尺度文本的检测性能，在多个特征层上使用大小各异的默认框，如图3所示，将特征层通过点乘相加和卷积的方式，最终得到得分分支和偏移分支。

图4是根据本发明实施例的一种可选的位置敏感器的示意图，使用一个w*h*g*g大小的网格将文本边界框划分为数个分块，采用一个分割图对每个分块进行判断，确定该分割图所属的对应分块，如图4所示，可以将五个特征层，通过点乘相加和卷积的方式，得到以卷积层、归一化、ReLU激活函数以及解卷积层组合的组合特征层，以确定该分割图所属的对应分块。

步骤302：将步骤300得到的特征映射图与步骤301中文本检测分支得到的文本框检测结果进行融合；

首先，通过文本区域的标注坐标计算仿射变换参数。然后分别对共享特征的每个区域做仿射变换，得到文本区域的水平特征映射，针对长度变化的文本，网络会将特征映射图填充到最长，并在识别分支的损失函数中忽略填充部分。

计算仿射变化参数的公式如下：

t_x＝l*cosθ-t*sinθ-x

t_y＝t*cosθ+l*sinθ-y

w_t＝s*(l+r)；

其中，M为仿射变换矩阵，h_t和w_t为仿射变换后特征映射图的高宽，t、b、l、r为共享特征映射图中点(x,y)距离文本候选区域顶部、底部、左侧和右侧的距离，θ为方向。

仿射变换完成后，生成最终的感兴趣区域特征如下：

其中，i表示各个特征映射图中点(x,y)的下标。

步骤303：将步骤302得到的文本区域特征作为文本识别分支的输入，基于RNN+CTC对文本序列进行编码和解码，得到文本标签预测结果；

将空间特征输入卷积层和汇集，通过降维度来提取高级的特征，按照时间先后顺序对提取的高级特征映射进行排序，使用双向LSTM对序列编码，提取特征序列之间的范围依赖性，然后按时间顺序，在LSTM的两个方向上一次隐藏状态，再将隐藏状态计算之和输入到神经网络中，计算得到每个状态在字符类上的分布。最后，通过CTC将每个字符上的分布转化为标签序列。

其文本识别分支的损失函数公式如下：

其中，

表示标签预测概率，N表示字符数量。

步骤4：输入待识别的发票图像，通过训练好的发票识别模型完成发票信息的定位、识别和文字提取，输出发票识别结果。

本发明实施例，基于深度学习的境外发票识别方法无需显式加入文字切割环节，将文字的切割融入到深度学习中，能够将文字识别转化为序列学习问题，如此，当输入的图像尺度不同、文本长度不同时，能够经过深度学习神经网络，在输出阶段经过处理后对整个文本图像进行识别，通过引入角点检测器和位置敏感器使得发票识别模型更加适用于具有多方向、多尺寸、任意长度文本特点的境外发票，保证了识别准确率。

实施例三

本实施例中提供的一种图像识别装置包含了多个实施单元，每个实施单元对应于上述实施例一中的各个实施步骤。

图5是根据本发明实施例的一种可选的图像识别装置的示意图，如图5所示，该图像识别装置可以包括：获取单元50，提取单元52，处理单元54，识别单元56，输出单元58，其中，

获取单元50，用于获取待处理的目标发票图像；

提取单元52，用于提取目标发票图像中的图像特征，得到特征映射图；

处理单元54，用于将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征；

识别单元56，用于基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果；

输出单元58，用于基于文本边界框和文本识别结果，输出图像识别结果，其中，图像识别结果中至少包括：发票文本信息。

上述图像识别装置，可以通过获取单元50获取待处理的目标发票图像，通过提取单元52提取目标发票图像中的图像特征，得到特征映射图，通过处理单元54将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，通过识别单元56基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果，通过输出单元58基于文本边界框和文本识别结果，输出图像识别结果。本实施例通过预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，以将文字识别转化为文本序列学习，得到图像识别结果，能够对各种类型、任意长度文本等特点的发票图像进行自动化识别，并且能够保证识别的准确率，进而解决了相关技术中由于各种类型发票的识别模板不统一，导致识别发票图像上的信息的准确度较低的技术问题。

可选的，识别装置法还包括：第一处理模块，用于在提取目标发票图像中的图像特征，得到特征映射图之前，对目标发票图像进行预处理操作，其中，预处理操作包括下述至少之一：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正。

可选的，提取单元包括：第一缩放模块，用于按照预设比例将目标发票图像进行缩放处理；第一提取模块，用于将缩放后的目标发票图像输入至深度学习神经网络中，以采用深度学习神经网络提取图像特征，得到特征映射图，其中，深度学习神经网络包括多个网络层，多个网络层包括下述至少之一：卷积层、池化层、图形标准构建层。

可选的，识别装置还包括：第一采集模块，用于在提取目标发票图像中的图像特征，得到特征映射图之后，采用角点检测器检测目标发票图像中的文本角点；第一生成模块，用于对文本角点进行组合，生成候选边界框；第一分割模块，用于采用位置敏感分割器对目标发票图像中的文本区域进行分割，得到文本分割图；第一消除模块，用于采用文本分割图消除出现非文本信息的候选边界框，得到具备文本信息的文本边界框。

可选的，第一采集模块包括：第一确定子模块，用于确定每个角点检测得分分支的第一损失函数、每个角点检测偏移分支的第二损失函数以及每个位置分割图的第三损失函数；第一分析子模块，用于分析目标发票图像中的显示框的数量以及特征映射图中的像素数量；第一计算子模块，用于基于第一损失函数以及对应的第一权重、第二损失函数以及对应的第二权重、第三损失函数以及对应的第三权重、显示框的数量以及像素数量，确定文本定位参数；第二确定子模块，用于基于文本定位参数，确定目标发票图像中的文本角点。

可选的，第一分割模块包括：第一划分子模块，用于将目标发票图像中的文本区域划分为多个文本分块；第二分析子模块，用于对每个文本分块进行分析，以确定每个文本分割图所属的文本分块。

可选的，处理单元包括：第一计算模块，用于通过文本区域的标注坐标计算仿射变换参数；第一变换模块，用于基于仿射变换参数，分别对共享特征的每个文本区域做仿射变换，得到文本区域的水平特征映射；第二生成模块，用于基于水平特征映射，生成文本区域特征。

可选的，识别单元包括：第一识别模块，用于将文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对文本边界框内的文本序列进行编码和解码，得到文本识别结果。

可选的，第一识别模块包括：第一识别子模块，用于将文本区域特征输入至循环神经网络，以识别文本边界框内每个字符，得到每个字符上的分布；第一转化子模块，用于通过时序分类模型CTC将每个字符上的分布转化为标签序列，以确定文本边界框内的文本序列。

上述的图像识别装置还可以包括处理器和存储器，上述获取单元50，提取单元52，处理单元54，识别单元56，输出单元58等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数输出图像识别结果。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取待处理的目标发票图像，提取目标发票图像中的图像特征，得到特征映射图，将预先分析的文本边界框与特征映射图进行融合处理，得到文本区域特征，基于文本区域特征，识别文本边界框内的文本序列，得到文本识别结果，基于文本边界框和文本识别结果，输出图像识别结果。

图6是根据本发明实施例的一种可选的电子设备的示意图，如图6所示，电子设备包括：处理器61以及存储器62，其中，存储器62用于存储处理器的可执行指令，处理器61配置为经由执行可执行指令来执行上述任意一项的图像识别方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的图像识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待处理的目标发票图像；

提取所述目标发票图像中的图像特征，得到特征映射图；

将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征；

基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果；

基于所述文本边界框和所述文本识别结果，输出图像识别结果，其中，所述图像识别结果中至少包括：发票文本信息。

2.根据权利要求1所述的识别方法，其特征在于，在提取所述目标发票图像中的图像特征，得到特征映射图之前，所述识别方法还包括：

对所述目标发票图像进行预处理操作，其中，所述预处理操作包括下述至少之一：直方图均衡化、图像标准化、归一化、噪声去除、倾斜矫正。

3.根据权利要求1所述的识别方法，其特征在于，提取所述目标发票图像中的图像特征，得到特征映射图的步骤，包括：

按照预设比例将所述目标发票图像进行缩放处理；

将缩放后的所述目标发票图像输入至深度学习神经网络中，以采用所述深度学习神经网络提取图像特征，得到所述特征映射图，其中，所述深度学习神经网络包括多个网络层，所述多个网络层包括下述至少之一：卷积层、池化层、图形标准构建层。

4.根据权利要求1所述的识别方法，其特征在于，在提取所述目标发票图像中的图像特征，得到特征映射图之后，所述识别方法还包括：

采用角点检测器检测所述目标发票图像中的文本角点；

对所述文本角点进行组合，生成候选边界框；

采用位置敏感分割器对所述目标发票图像中的文本区域进行分割，得到文本分割图；

采用所述文本分割图消除出现非文本信息的候选边界框，得到具备文本信息的文本边界框。

5.根据权利要求4所述的识别方法，其特征在于，采用角点检测器检测所述目标发票图像中的文本角点的步骤，包括：

确定每个角点检测得分分支的第一损失函数、每个角点检测偏移分支的第二损失函数以及每个位置分割图的第三损失函数；

分析所述目标发票图像中的显示框的数量以及特征映射图中的像素数量；

基于所述第一损失函数以及对应的第一权重、所述第二损失函数以及对应的第二权重、所述第三损失函数以及对应的第三权重、所述显示框的数量以及像素数量，确定文本定位参数；

基于所述文本定位参数，确定所述目标发票图像中的文本角点。

6.根据权利要求4所述的识别方法，其特征在于，采用位置敏感分割器对所述目标发票图像中的文本区域进行分割，得到文本分割图的步骤，包括：

将所述目标发票图像中的文本区域划分为多个文本分块；

对每个所述文本分块进行分析，以确定每个文本分割图所属的文本分块。

7.根据权利要求1所述的识别方法，其特征在于，将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征的步骤，包括：

通过文本区域的标注坐标计算仿射变换参数；

基于所述仿射变换参数，分别对共享特征的每个文本区域做仿射变换，得到文本区域的水平特征映射；

基于所述水平特征映射，生成文本区域特征。

8.根据权利要求1所述的识别方法，其特征在于，基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果的步骤，包括：

将所述文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对所述文本边界框内的文本序列进行编码和解码，得到文本识别结果。

9.根据权利要求8所述的识别方法，其特征在于，将所述文本区域特征输入至文本识别分支，基于循环神经网络和时序分类模型CTC，对所述文本边界框内的文本序列进行编码和解码，得到文本识别结果的步骤，包括：

将所述文本区域特征输入至循环神经网络，以识别所述文本边界框内每个字符，得到每个所述字符上的分布；

通过时序分类模型CTC将每个所述字符上的分布转化为标签序列，以确定所述文本边界框内的文本序列。

10.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待处理的目标发票图像；

提取单元，用于提取所述目标发票图像中的图像特征，得到特征映射图；

处理单元，用于将预先分析的文本边界框与所述特征映射图进行融合处理，得到文本区域特征；

识别单元，用于基于所述文本区域特征，识别所述文本边界框内的文本序列，得到文本识别结果；

输出单元，用于基于所述文本边界框和所述文本识别结果，输出图像识别结果，其中，所述图像识别结果中至少包括：发票文本信息。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任意一项所述的图像识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的图像识别方法。