CN112989921A

CN112989921A - 一种目标图像信息识别方法及其装置

Info

Publication number: CN112989921A
Application number: CN202011623417.5A
Authority: CN
Inventors: 崔淼
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-06-18

Abstract

本发明提供了一种目标图像信息识别方法及其装置。所述目标图像信息识别方法包括：获取检测目标的目标图像；对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息；以及利用每一文本块的位置信息及其文字类别信息对所述文本块进行文字识别以将所述文本块的文字内容识别为对应的文字类别信息的目标内容。

Description

一种目标图像信息识别方法及其装置

技术领域

本发明涉及图像处理领域，尤其涉及一种目标图像信息识别方法及其装置。

背景技术

随着人工智能的热度上升，图像识别领域也渐渐受到广泛关注。图像识别中的OCR(Optical Character Recognition，光学字符识别)技术可涉及图书文字、合同、表格、票据、车牌、银行卡、行驶证或护照等目标中的文字识别。而，OCR技术识别的精准性和识别效率直接关系到最终的识别结果。因此，如何让办公效率有较大提升，已经成为亟待解决的问题。

随着深度学习和大数据技术的不断成熟和完善，OCR识别的精度越来越高，尤其是发票识别的需求越来越多。但是，发票识别技术受限于版面分析并不能实现完全办公自动化和输出信息结构化的识别效果。

目前一些发票识别算法只识别文字，前期需要人工手动分类发票分类和矫正，后期需要人员审核和检查文字关键字和文本内容的对应关系；传统的发票识别模式中，需要工作人员录入发票的对应关系，过程很容易出错，还需要人工再次检测，耗费大量的人力、物力和财力；还有基于传统技术(二值化或纹理单元等)进行的简单发票版面分析，如果应税劳务或服务名称的内容出现换行就容易出现与税率或单价等信息错位对应的情况。

图1示出了采用传统方法进行一发票的文字识别的识别结果，显然存在文字识别错误和无法结构化输出的问题。

为了解决以上传统方法存在的问题，本发明旨在提出一种目标图像信息识别方法及其装置。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种目标图像信息识别方法，包括：获取检测目标的目标图像；对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息；以及利用每一文本块的位置信息及其文字类别信息对所述文本块进行文字识别以将所述文本块的文字内容识别为对应的文字类别信息的目标内容。

在一实施例中，所述对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息包括：将所述目标图像输入语义分割版面模型以确定出所述目标图像中的文本块对应的文字类别信息，所述语义分割版面模型采用图像金字塔和轻量级网络的组合网络。

在一实施例中，所述将所述目标图像输入语义分割版面模型以确定出所述目标图像中的文本块对应的文字类别信息包括：将所述目标图像输入轻量级网络以得到所述轻量级网络中的其中一层网络层输出的特征图，所述网络层输出的特征图作为基础特征图；将所述基础特征层输入图像金字塔以得到融合特征图；以及将所述融合特征图进行上采样以确定出所述目标图像中的文本块对应的文字类别信息。

在一实施例中，所述将所述基础特征层输入图像金字塔以得到融合特征图包括：对所述基础特征图分别进行多种不同的卷积操作以得到不同尺度的卷积特征图；将所述不同尺度的卷积特征图进行融合以得到第一特征图；将所述第一特征图进行卷积操作以得到第二特征图；以及将所述第二特征图与所述基础特征图进行融合以作为所述融合特征图。

在一实施例中，所述对所述基础特征图分别进行多种不同的卷积操作以得到不同尺度的卷积特征图包括：对所述基础特征图分别进行核为3*3以及特征通道数量分别为32、64、128和256的卷积操作以得到4种不同尺度的卷积特征图；以及所述将所述第一特征图进行卷积操作以得到第二特征图包括：将所述第一特征图进行核为1*1以及特征通道数量为256的卷积操作以得到所述第二特征图。

在一实施例中，所述轻量级网络为ShuffleNet V2网络，所述将所述目标图像输入轻量级网络以得到所述轻量级网络中的其中一层网络层输出的特征图包括：将所述ShuffleNet V2网络的stage1/block2层输出的特征图作为所述基础特征图。

在一实施例中，所述目标图像信息识别方法还包括：利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度；以及基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像。

在另一实施例中，所述目标图像信息识别方法还包括：利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度；以及响应于所述目标图像的图像角度不为0，基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像。

对应地，所述对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息包括：对处于正方向的目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；以及所述对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息包括：对处于正方向的目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息。

在一实施例中，所述利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度包括：将所述目标图像输入图像方向分类模型以得到所述目标图像的图像角度，所述图像方向分类模型采用轻量级网络提取所述目标图像的文字方向信息，并采用分类函数基于所述文字方向信息进行角度分类以确定出所述目标图像的图像角度。

在一实施例中，所述目标图像信息识别方法还包括：利用所述目标图像的几何信息以及版面信息对所述目标图像进行分类以确定出所述目标图像所对应的目标类型；以及所述对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息包括：基于所述目标图像所对应的目标类型对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息。

在一实施例中，所述对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息包括：将所述目标图像输入文本检测模型以确定出所述目标图像中的文本块的位置信息，所述文本检测模型采用MobileNet V2网络与FPGM压缩网络的组合网络模型。对应地，所述基于所述目标图像所对应的目标类型对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息包括：将所述目标图像输入对应于所述目标类型的文本检测模型以确定出所述目标图像中的文本块的位置信息。

在一实施例中，所述利用所述目标图像的几何信息以及版面信息对所述目标图像进行分类以确定出所述目标图像所对应的目标类型包括：将所述目标图像输入目标分类模型以得到所述目标图像所对应的目标类型，所述目标分类模型采用轻量级网络提取所述目标图像的几何信息以及版面信息，并采用分类函数基于所述目标图像的几何信息以及版面信息进行分类以确定出对应的目标类型。

在一实施例中，所述轻量级网络采用MobileNet V2网络，所述分类函数采用Softmax函数。

在一实施例中，所述利用每一文本块的位置信息及其文字类别信息对所述文本块进行文字识别以将所述文本块的文字内容识别为对应的文字类别信息的目标内容包括：基于所述位置信息对所述目标图像对应位置的文本块进行行文字检测以确定出所述文本块的文本行图像；对所述文本块的文本行图像进行仿射变换以得到矫正后的文本行图像，所述矫正后的文本行图像上的文字处于常规阅读方向；对所述文本块的矫正后的文本行图像进行文本识别以得到所述文本块的文本行图像对应的文字内容，所述文本块的所有文本行图像对应的文字内容组成所述文本块对应的文字内容；以及建立所述文本块对应的文字内容与所述文字类别信息的对应关系。

在一实施例中，所述检测目标为身份证、银行卡、名片、图书文字、合同、表格、票据、行驶证或护照。

根据本发明的另一个方面，还提供了一种目标图像信息识别装置，包括存储器和处理器，所述处理器被配置成：获取检测目标的目标图像；对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息；以及利用每一文本块的位置信息及其文字类别信息对所述文本块进行文字识别以将所述文本块的文字内容识别为对应的文字类别信息的目标内容。

在一实施例中，所述处理器进一步被配置成：将所述目标图像输入语义分割版面模型以确定出所述目标图像中的文本块对应的文字类别信息，所述语义分割版面模型采用图像金字塔和轻量级网络的组合网络。

在一实施例中，所述处理器进一步被配置成：将所述目标图像输入轻量级网络以得到所述轻量级网络中的其中一层网络层输出的特征图，所述网络层输出的特征图作为基础特征图；将所述基础特征层输入图像金字塔以得到融合特征图；以及将所述融合特征图进行上采样以确定出所述目标图像中的文本块对应的文字类别信息。

在一实施例中，所述处理器进一步被配置成：对所述基础特征图分别进行多种不同的卷积操作以得到不同尺度的卷积特征图；将所述不同尺度的卷积特征图进行融合以得到第一特征图；将所述第一特征图进行卷积操作以得到第二特征图；以及将所述第二特征图与所述基础特征图进行融合以作为所述融合特征图。

在一实施例中，所述处理器进一步被配置成：对所述基础特征图分别进行核为3*3以及特征通道数量分别为32、64、128和256的卷积操作以得到4种不同尺度的卷积特征图；以及将所述第一特征图进行核为1*1以及特征通道数量为256的卷积操作以得到所述第二特征图。

在一实施例中，所述轻量级网络为ShuffleNet V2网络，所述处理器进一步被配置成：将所述ShuffleNet V2网络的stage1/block2层输出的特征图作为所述基础特征图。

在一实施例中，所述处理器还被配置成：利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度；以及基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像。

在另一实施例中，所述处理器还被配置成：利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度；以及响应于所述目标图像的图像角度不为0，基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像。

对应地，所述处理器进一步被配置成：对处于正方向的目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；以及对处于正方向的目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息。

在一实施例中，所述处理器进一步被配置成：将所述目标图像输入图像方向分类模型以得到所述目标图像的图像角度，所述图像方向分类模型采用轻量级网络提取所述目标图像的文字方向信息，并采用分类函数基于所述文字方向信息进行角度分类以确定出所述目标图像的图像角度。

在一实施例中，所述处理器进一步被配置成：将所述目标图像输入文本检测模型以确定出所述目标图像中的文本块的位置信息，所述文本检测模型采用MobileNet V2网络与FPGM压缩网络的组合网络模型。

在一实施例中，所述处理器还被配置成：利用所述目标图像的几何信息以及版面信息对所述目标图像进行分类以确定出所述目标图像所对应的目标类型；以及基于所述目标图像所对应的目标类型对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息。

在一实施例中，所述处理器进一步被配置成：将所述目标图像输入目标分类模型以得到所述目标图像所对应的目标类型，所述目标分类模型采用轻量级网络提取所述目标图像的几何信息以及版面信息，并采用分类函数基于所述目标图像的几何信息以及版面信息进行分类以确定出对应的目标类型。对应地，所述处理器进一步被配置成：将所述目标图像输入对应于所述目标类型的文本检测模型以确定出所述目标图像中的文本块的位置信息。

在一实施例中，所述处理器进一步被配置成：基于所述位置信息对所述目标图像对应位置的文本块进行行文字检测以确定出所述文本块的文本行图像；对所述文本块的文本行图像进行仿射变换以得到矫正后的文本行图像，所述矫正后的文本行图像上的文字处于常规阅读方向；对所述文本块的矫正后的文本行图像进行文本识别以得到所述文本块的文本行图像对应的文字内容，所述文本块的所有文本行图像对应的文字内容组成所述文本块对应的文字内容；以及建立所述文本块对应的文字内容与所述文字类别信息的对应关系。

根据本发明的又一个方面，还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一实施例所述的目标图像信息识别方法的步骤。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，更能够更好地理解本发明的上述特征和优点。

图1是根据现有的传统方法对一发票进行信息识别的识别结果示意图；

图2是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的流程示意图；

图3是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的部分流程示意图；

图4是根据本发明的一个方面绘示的一实施例中的语义分割版面模型的结构示意图；

图5是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的部分流程示意图；

图6是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的部分流程示意图；

图7是根据本发明的一个方面绘示的一实施例中的文字内容识别的结果示意图；

图8是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的部分流程示意图；

图9是根据本发明的一个方面绘示的一实施例中的图像角度分类的示意图；

图10是根据本发明的一个方面绘示的一实施例中的目标图像信息识别方法的部分流程示意图；

图11是根据本发明的一个方面绘示的利用图2所示目标图像信息识别方法对一发票进行信息识别的结果示意图；

图12是根据本发明的另一个方面绘示的一实施例中的目标图像信息识别装置的模块框图。

具体实施方式

给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的，并且本文定义的一般性原理可适用于较宽范围的实施例。由此，本发明并不限于本文中给出的实施例，而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。

在以下详细描述中，阐述了许多特定细节以提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，本发明的实践可不必局限于这些具体细节。换言之，公知的结构和器件以框图形式示出而没有详细显示，以避免模糊本发明。

请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献，且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。

注意，在使用到的情况下，标志左、右、前、后、顶、底、正、反、顺时针和逆时针仅仅是出于方便的目的所使用的，而并不暗示任何具体的固定方向。事实上，它们被用于反映对象的各个部分之间的相对位置和/或方向。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

注意，在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

根据本发明的一个方面，提供一种目标图像信息识别方法，用于实现目标图像的文字识别且结构化输出。

在一实施例中，如图2所示，目标图像信息识别方法200包括步骤S210～S240。

其中，步骤S210：获取检测目标的目标图像。

检测目标为需要进行文字识别的实体对象，可包括身份证、银行卡、名片、图书文字、合同、表格、票据、行驶证或护照等等。

目标图像为检测目标的图像，可以是利用图像采集设备拍摄的图像，也可以是通过复印或扫描得到的图像。目标图像的格式可以是RGB图像，也可以是灰度图像。

步骤S220：对目标图像进行文本检测以确定出目标图像中的文本块的位置信息。

文本块是指位置较为集中的连续的文字区域。以发票为例，当发票中的名称等栏目对应的内容较长时，可能会存在将其分行打印的需求。但该些被分行打印的内容一般会较为集中且具有相同的属性(文字颜色或字体等等)。因此，文本块一般为集中在某一位置区域内的对应于相同栏目的文字内容。可以理解，一文本块的文字内容可能包括多行，但一般均属于同一栏目。

文本检测则是将目标图像中的区域分为多个文本块的位置区域的过程。

较优地，可采用基于回归的EAST(Efficient and Accurate Scene TextDetector)文本检测算法。EAST文本检测算法的关键部分是神经网络模型，该模型经过训练可以直接从完整图像中预测文本实例的存在及其几何形状(文本块)。

在一具体实施例中，基于回归的EAST文本检测算法的文本检测模型可采用MobileNet V2网络与FPGM(Filter Pruning via Geometric Median)压缩网络的组合网络模型。可以理解，利用FPGM压缩网络对MobileNet V2网络进行压缩，可大幅度地减少文本检测模型对计算空间和时间的消耗。

较优地，还可采用剪裁后的MobileNet V2网络与FPGM(Filter Pruning viaGeometric Median)压缩网络的组合网络作为文本检测模型的骨架网络，可最大限度地减少文本检测模型对计算空间和时间的消耗。

较优地，可选取压缩后的MobileNet V2网络的其中一层网络层输出的特征图作为文本检测的检测结果。

进一步地，目标图像信息识别方法还可包括确定检测目标进行分类的步骤，从而可确定出对应的文本检测模型的类别，即不同类别的目标图像可采用对应类别的文本检测模型来进行文本检测。可以理解，不同类别的文本检测模型在训练时需采用对应类别的训练样本来进行训练。

具体地，确定目标图像对应的目标类型的步骤可包括：利用目标图像的几何信息以及版面信息对目标图像进行分类以确定出目标图像所对应的目标类型。

可以理解，不同的检测目标具有其对应的几何信息和版面信息。比如，身份证的几何尺寸是固定的，从其版面而言，其中一面对应于人脸头像，另一面对应于国徽头像；对于发票而言，可分为增值税发票、普通发票、机动车专用发票和机打发票等等，不同类型的发票对应的几何信息和版面信息也会不同。因此，基于各个检测目标固有的几何信息和版面信息可对将各个检测目标的目标图像进行分类。

在现有的目标分类过程中，通常需要人为来进行，该过程耗时耗力。较优地，可采用轻量级网络和分类函数进行组合以形成目标分类模型的骨架网络，再利用大量的训练样本对其进行训练，从而得到对应的目标分类模型。

轻量级网络是指参数量少、计算量小以及推理时间短的网络。目前主流的轻量级网络包括SqueezeNet、MobileNet以及ShuffleNet等等。轻量级网络可用于提取目标图像的几何信息及版面信息。

分类函数则利用轻量级网络提取出的几何信息和版面信息将目标图像分类至其对应的目标类型。

在一具体实施例中，目标分类模型采用MobileNet V2网络和Softmax分类函数组成骨架网络。

可以理解，在利用目标分类模型确定出目标图像所对应的目标类型后，目标图像的文本检测模型即可对应地确定下来，则步骤S220可具化为：将所述目标图像输入对应的目标类型的文本检测模型以确定出目标图像中的文本块的位置信息。

进一步地，在确定目标图像进行文本检测的同时，还可包括对目标图像进行语义版面分割的步骤。

对应地，步骤S230：对目标图像进行语义版面分割以确定出目标图像中的文本块对应的文字类别信息。

语义版面分割通过对每个像素进行密集的预测和推断标签来实现对目标图像上的每个像素点的分类，并将属于同一对象的像素点被标记为其封闭对象的类别。而同一文本块内的文字内容一般对应于同一栏目下的内容，因此，对目标图像进行语义版面分割可确定出目标图像中的文本块所对应的文字类别信息，即确定出该文本块对应的栏目。比如，发票中的销售方名称对应的文本块可被识别为销售方名称所对应的文本块。

具体地，可建立语义分割版面模型来实现对目标图像中的文本块的文字类别信息的自动识别。

较优地，语义分割版面模型可采用图像金字塔和轻量级网络的组合网络作为网络骨架。对应地，步骤S230为：将目标图像输入语义分割版面模型以确定出目标图像中的文本块对应的文字类别信息。

图像金字塔是一种以多分辨率来解释图像的有效的且概念简单的结构，被广泛应用于图像融合。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过梯次向下采样获得，直到达到某个终止条件才停止采样。其中，一层一层的图像被比喻成金字塔，层级越高，则图像越小，分辨率越低。

轻量级网络是指参数量少、计算量小以及推理时间短的网络。目前主流的轻量级网络包括SqueezeNet、MobileNet以及ShuffleNet等等。

具体地，如图3所示，利用语义分割版面模型来确定出目标图像中的文本块对应的文字类别信息的步骤可包括步骤S231～S233。

其中，步骤S231为：将目标图像输入轻量级网络以得到轻量级网络中的其中一层网络层输出的特征图，该网络层输出的特征图作为基础特征图。

可以理解，作为基础特征图的网络层可基于轻量级网络的选取来对应的设置。

较优地，可选择ShuffleNet V2网络作为语义分割版面模型的轻量级网络。

在一具体实施例中，经过创造性的劳动得出，选取ShuffleNet V2网络中的stage1/block2层输出的特征图作为基础特征图可达到较为合理的特征提取精度。

步骤S232为：将基础特征层输入图像金字塔以得到融合特征图。

可以理解，融合不同尺度的特征是提高检测性能的一个重要手段。图像金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合，其中的低层特征图包括更多的位置信息和细节信息，但由于经过的卷积更少，其语义性更低，噪声更多，高层特征图则具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。因此，将图像金字塔中的图像集合进行融合得到的融合特征图可兼备位置信息、细节信息和语义性。

进一步具体地，图4示出了一具体实施例中采用ShuffleNet V2网络和图像金字塔组成的语义分割版面模型的结构示意图。在该具体实施例中，如图5所示，步骤S232可包括步骤S2321～S2324。

其中，步骤S2321为：对基础特征图分别进行多种不同的卷积操作以得到不同尺度的卷积特征图。

可以理解，通过对基础特征图进行多种不同的卷积操作可得到对应维度的卷积特征图，即得到不同尺度的特征信息。

可以理解，单个尺度的卷积特征图可能存在特征遗漏，因此可选取适当数量的不同尺度的卷积特征图进行融合，以得到第一特征图。

在图4所示的具体实施例中，选取了4个不同尺度的卷积特征图来进行融合，分别为：核为3*3且特征通道数量为32、核为3*3且特征通道数量为64、核为3*3且特征通道数量为128和核为3*3且特征通道数量为256的卷积操作得到的4种不同尺度的卷积特征图。经过创造性的劳动得出，选取该4种尺度的卷积操作得到的卷积特征图可较优地覆盖目标图像的合理尺度范围内的特征信息。

可以理解，在其他实施例中，可采用其他数量以及其他尺度的卷积操作来得到卷积特征图，并不以上述示例为限。

步骤S2322为：将不同尺度的卷积特征图进行融合以得到第一特征图。

步骤S2323为：将第一特征图进行卷积操作以得到第二特征图。

在图4所示的具体实施例中，对第一特征图进行了核为1*1且特征通道数量为256的卷积操作得到第二特征图。可以理解，在其他实施例中，可采用其他的卷积操作来得到第二特征图，并不以前述示例为限。

步骤S2324为：将第二特征图与基础特征图进行融合以作为融合特征图。

可以理解，第一特征图为在基础特征图的基础上进行了不同尺度的卷积操作并融合后得到的，可分别表征基础特征图的多个不同尺度的特征信息。相对于基础特征图而言，第一特征图对应于相对低维的特征信息，基础特征图则表征目标图像的高维特征，因此，将第二特征图与基础特征图进行融合，并将融合后的特征图作为融合特征图。则融合特征图融合了目标图像的高维特征以及低维特征，增大了感受野，更能提高语义版面分割模型的识别精度。

可以理解，融合特征图中的特征信息分别表征文本块应的文字类别信息。

进一步地，在得到融合特征图后，对应的步骤S233为：将融合特征图进行上采样以确定出目标图像中的文本块对应的文字类别信息。

可以理解，经过多次卷积和融合操作后的融合特征图的大小与目标图像的原始分辨率大小有一定的差别，因此通过上采样将融合特征图还原至目标图像的大小，经过上采样后的融合特征图中的特征信息即可与目标图像中的文本块的文字类别信息一一对应。

较优地，经过创造性的劳动得出，在图4所示的语义版面分割模型中，将融合特征图进行4倍上采样，可达到最优的文字类别识别结果。

可以理解，在采用其他网络架构的语义版面分割模型中，可采用对应的上采样方式，并不以上述示例为限。

进一步地，在确定出目标图像的文本块的位置信息和文字类别信息后，步骤S240：利用每一文本块的位置信息及其文字类别信息对该文本块进行文字识别以将该文本块的文字内容识别为对应的文字类别信息的目标内容。

可以理解，文字识别可采用现有的常规文字识别方法来进行文本块的文字内容的识别。

具体地，由于文本块可包括多行文字，因此，在进行文本块的文字内容识别时，可先将文本块拆分成多行，再分别进行文字识别。在一具体实施例中，如图6所示，步骤S240可包括步骤S241～S244。

其中，步骤S241为：基于位置信息对目标图像对应位置的文本块进行行文字检测以确定出文本块的文本行图像。

文本行图像指一行文字对应的图像。行文字检测则是指检测出文本块中的文本行图像。可以理解，每一文本块中可能包括若干行文本行图像，一文本块的所有文本行图像则构成了该文本块的图像。

基于各个文本块的位置信息，可得到各个文本块所对应的位置区域，再对该位置区域内的文本进行文本检测即可得到该位置区域内的所有文本行图像，即该位置区域对应的文本块的文本行图像。

步骤S242为：对文本块的文本行图像进行仿射变换以得到矫正后的文本行图像，矫正后的文本行图像上的文字处于常规阅读方向。

图7示出了一具体实施例中的文本行图像的识别过程，如其第一张子图所示，文本块内的文本行图像中存在的文字可能不符合常规阅读方向的习惯，因此需要对文本行图像进行文字校正。

仿射变换是指：在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间的操作。因此，可利用仿射变换将可能存在歪斜的文本行图像进行矫正，使得其矫正后的文本行图像能够处于常规阅读方向。

步骤S243为：对文本块的矫正后的文本行图像进行文本识别以得到该文本块的文本行图像对应的文字内容。

可以理解，处于常规阅读方向的文本行图像即可采用常规的文本识别方法来进行图像识别，得到该文本行图像对应的文字内容。

CRNN(Convolutional Recurrent Neural Network)是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN采用了CNN(卷积神经网络，Convolutional Neural Networks)+RNN(循环神经网络，Recurrent NeuralNetwork)+CTC(联结主义时间分类，Connectionist Temporal Classification)的结构，主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

其中，CRNN中的CNN经常采用VGG(Visual Geometry Group Network)框架的卷积层，然而，VGG网络有很多磁化，采用平均抽样的方法见特征提取，并不准确。

较优地，可采用轻量化网络DenseNet 121替代CRNN中的VGG网络以提高特征提取的准确性。

其中，图7的第二张子图示出了第一张子图中的文本行图像矫正后的图像，第三张子图则示出了矫正后的文本行图像经过替换后的CRNN模型识别出文字结果。

可以理解，一文本块可能包括多行文字，因此一文本块的所有文本行图像的文字识别结果组成该文本块的文字内容。

步骤S244为：建立该文本块对应的文字内容与该文字类别信息的对应关系。

进一步地，在确定出各个文本块对应的文字内容后，可将各个文本块对应的文字内容与该文本块的文字类别信息关联起来，即可确定出检测目标中的各个栏目所对应的文字内容。

进一步地，在检测目标的目标图像的采集过程中，经常出现检测目标以非常规的角度被采集的情况，即目标图像中的检测目标经常处于非常规的方向上。以发票为例，发票的常规阅读方向为其上的文字与该发票对应的目标图像的上边沿处于平行的状态。然而，在实际的图像中，经常存在检测目标与其对应的图像之间存在角度偏差的情况。

为提高文本检测的效果，较优地，可将目标图像以其正方向的状态进行文本检测。正方向指目标图像上的文字处于常规阅读方向，符合常规的人为阅读习惯。

对应地，如图8所示，目标图像信息识别方法200还可包括步骤S250～S260。

其中，步骤S250为：利用目标图像中的文字方向信息确定出目标图像的图像角度。

可以理解，目标图像的角度指目标图像上的文字的方向与目标图像的上边沿的夹角。

较优地，可建立一图像方向分类模型用于确定目标图像的图像角度。较优地，可采用轻量级网络和分类函数进行组合以形成图像方向分类模型的骨架网络，再利用大量的训练样本对其进行训练，从而得到对应的图像方向分类模型。

轻量级网络可用于提取目标图像的文字方向信息。分类函数则利用轻量级网络提取出的文字方向信息对目标图像进行角度分类以确定出目标图像的图像角度。

在一具体实施例中，图像方向分类模型由MobileNet V2网络和Softmax分类函数组成骨架网络。

进一步地，在确定出目标图像的图像角度后，步骤S260为：基于目标图像的图像角度对目标图像进行矫正以得到正方向的目标图像。

可以理解，以目标图像的图像角度为90°为例，如图9所示，假设图像方向分类模型以目标图像的上边沿顺时针旋转至文字方向的角度α(0°≤α≤360°)作为图像角度，则可将目标图像逆时针旋转图像角度α即可将目标图像上的文字的方向旋转至正方向。

可以理解，当α＝0°时，将目标图像上的文字的方向旋转0°至正方向。

在另一具体实施例中，如图10所示，步骤S260被替换为步骤S260′：响应于目标图像的图像角度不为0，基于目标图像的图像角度对目标图像进行矫正以得到正方向的目标图像。

即当α＝0°时，目标图像不进行矫正。

对应地，当目标图像信息识别方法包括基于目标图像的图像角度进行图像矫正的步骤时，步骤S220可具化为：对处于正方向的目标图像进行文本检测以确定出目标图像中的文本块的位置信息；以及步骤S230可具化为：对处于正方向的目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息。

图11示出了采用本发明所述的目标图像识别方法对图1所示的发票进行识别后的识别结果，各个栏目所对应的文字内容可实现结构化的输出，且不存在文字识别错误，显然解决了传统方法存在的问题。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

根据本发明的另一个方面，还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一实施例所述的目标图像信息识别方法的步骤。

根据本发明的又一个方面，还提供一种目标图像信息识别装置，用于实现目标图像的文字识别且结构化输出。

在一实施例中，如图12所示，目标图像信息识别装置包括存储器1210和处理器1220。

其中，存储器1210用于存储计算机程序。

处理器1220与存储器1210连接，用于执行存储器1210上的计算机程序，该处理器1220在执行存储器1210上的计算机程序时实现如上述任一实施例所述的目标图像信息识别方法的步骤。

本领域技术人员将可理解，信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如，以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

Claims

1.一种目标图像信息识别方法，包括：

获取检测目标的目标图像；

对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；

对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息；以及

利用每一文本块的位置信息及其文字类别信息对所述文本块进行文字识别以将所述文本块的文字内容识别为对应的文字类别信息的目标内容。

2.如权利要求1所述的目标图像信息识别方法，其特征在于，所述对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息包括：

将所述目标图像输入语义分割版面模型以确定出所述目标图像中的文本块对应的文字类别信息，所述语义分割版面模型采用图像金字塔和轻量级网络的组合网络。

3.如权利要求2所述的目标图像信息识别方法，其特征在于，所述将所述目标图像输入语义分割版面模型以确定出所述目标图像中的文本块对应的文字类别信息包括：

将所述目标图像输入轻量级网络以得到所述轻量级网络中的其中一层网络层输出的特征图，所述网络层输出的特征图作为基础特征图；

将所述基础特征层输入图像金字塔以得到融合特征图；以及

将所述融合特征图进行上采样以确定出所述目标图像中的文本块对应的文字类别信息。

4.如权利要求3所述的目标图像信息识别方法，其特征在于，所述将所述基础特征层输入图像金字塔以得到融合特征图包括：

对所述基础特征图分别进行多种不同的卷积操作以得到不同尺度的卷积特征图；

将所述不同尺度的卷积特征图进行融合以得到第一特征图；

将所述第一特征图进行卷积操作以得到第二特征图；以及

将所述第二特征图与所述基础特征图进行融合以作为所述融合特征图。

5.如权利要求1所述的目标图像信息识别方法，其特征在于，还包括：

利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度；以及

基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像，或，

响应于所述目标图像的图像角度不为0，基于所述目标图像的图像角度对所述目标图像进行矫正以得到正方向的目标图像，所述正方向指所述目标图像上的文字处于常规阅读方向；

所述对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息包括：

对处于正方向的目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息；以及

所述对所述目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息包括：

对处于正方向的目标图像进行语义版面分割以确定出所述目标图像中的文本块对应的文字类别信息。

6.如权利要求5所述的目标图像信息识别方法，其特征在于，所述利用所述目标图像中的文字方向信息确定出所述目标图像的图像角度包括：

将所述目标图像输入图像方向分类模型以得到所述目标图像的图像角度，所述图像方向分类模型采用轻量级网络提取所述目标图像的文字方向信息，并采用分类函数基于所述文字方向信息进行角度分类以确定出所述目标图像的图像角度。

7.如权利要求1所述的目标图像信息识别方法，其特征在于，还包括：

利用所述目标图像的几何信息以及版面信息对所述目标图像进行分类以确定出所述目标图像所对应的目标类型；以及

基于所述目标图像所对应的目标类型对所述目标图像进行文本检测以确定出所述目标图像中的文本块的位置信息。

8.如权利要求7所述的目标图像信息识别方法，其特征在于，所述利用所述目标图像的几何信息以及版面信息对所述目标图像进行分类以确定出所述目标图像所对应的目标类型包括：

将所述目标图像输入目标分类模型以得到所述目标图像所对应的目标类型，所述目标分类模型采用轻量级网络提取所述目标图像的几何信息以及版面信息，并采用分类函数基于所述目标图像的几何信息以及版面信息进行分类以确定出对应的目标类型。

9.如权利要求6或8所述的目标图像信息识别方法，其特征在于，所述轻量级网络采用MobileNet V2网络，所述分类函数采用Softmax函数。

10.一种目标图像信息识别装置，包括存储器、处理器以及存储在存储器上的计算机程序，其特征在于，所述处理器被用于执行存储在所述存储器上的计算机程序时实现如权利要求1～9中任一项所述的目标图像信息识别方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1～9中任一项所述的目标图像信息识别方法的步骤。