CN116798041A

CN116798041A - 图像识别方法、装置和电子设备

Info

Publication number: CN116798041A
Application number: CN202310763697.7A
Authority: CN
Inventors: 张森
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-22

Abstract

本申请公开了一种图像识别方法、装置和电子设备。涉及人工智能领域，该方法包括：获取待识别的目标图像；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域。通过本申请，解决了相关技术中无法对图像中的文本所在的位置区域进行准确定位的问题。

Description

图像识别方法、装置和电子设备

技术领域

本申请涉及人工智能领域，具体而言，涉及一种图像识别方法、装置和电子设备。

背景技术

如今我国互联网在不断发展的同时，互联网金融业也在逐步增长，网上支付逐渐成为人们日常的支付的主要方式，通常情况下，手动输入银行卡号不仅耗时也容易误输数字，特别对于文化水平较低的老年人，避免复杂性的操作，如何高效正确绑定银行卡成为亟待发展的一项技术。同时，在某种自然场景下中由于银行卡的翻折、磨损、银行卡上字体模糊等问题，快速准确的在复杂场景中检测到文字仍面临着巨大挑战。因此，如何从图像中精准定位文本所在位置区域成为了目前亟待解决的技术问题。

针对相关技术中无法对图像中的文本所在的位置区域进行准确定位的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像识别方法、装置和电子设备，以解决相关技术中无法对图像中的文本所在的位置区域进行准确定位的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种图像识别方法。该方法包括：获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域。

为了实现上述目的，根据本申请的另一方面，提供了一种图像识别装置。该装置包括：获取单元，用于获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；处理单元，用于在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；第一确定单元，用于根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；第二确定单元，用于将置信度大于或等于置信阈值的候选区域确定为目标区域。

上述处理单元包括采样单元和输入单元，采样单元用于在特征增强模块中按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征。

上述采样单元包括获取单元和采样子单元，获取单元用于获取扩张系数序列和与扩张系数序列匹配的空洞系数序列，其中，扩张系数序列中的每一个扩张系数用于指示卷积核之间的间隔数量，采样子单元用于依次获取扩张系数序列和空洞系数序列中的一个扩张系数和与一个扩张系数对应的一个空洞系数，并基于扩张系数和空洞系数对第一图像特征按照目标采样率进行采样，得到N个参考特征，其中，扩张系数序列中包括N个扩张系数，空洞系数序列中包括与N个扩张系数分别对应的N个空洞系数，N为大于或等于1的整数。

上述第一确定单元包括第一处理单元、第二处理单元、第三处理单元以及第四处理单元，第一处理单元用于根据目标图像识别模型中的特征融合网络，对第二图像特征进行特征融合处理，得到融合特征；第二处理单元用于利用目标激活函数以及第一卷积核对融合特征进行处理，得到第一预测方程矩阵，其中，第一预测方程矩阵用于指示目标图像中的像素点为文本图像中的像素点的第一概率值；第三处理单元用于利用目标激活函数和第二卷积核对融合特征进行处理，得到第二预测方程矩阵，其中，第二预测方程矩阵用于指示目标图像中的候选区域为目标区域的第二概率值；第四处理单元用于利用目标激活函数和第三卷积核对融合特征进行处理，得到第三预测方程矩阵，其中，第三预测方程矩阵用于指示目标图像中的候选区域的区域倾斜角度的第三概率值。

上述图像识别装置还包括预处理单元和特征提取单元，预处理单元用于在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征之前，对目标图像进行图像预处理，得到参考图像；特征提取单元用于在得到参考图像之后，利用特征提取网络对参考图像进行特征提取，得到第一图像特征，其中，特征提取网络包括深度残差网络。

上述预处理单元包括第一处理子单元、第二处理子单元、第三处理子单元和分割单元，上述第一处理子单元用于对目标图像进行灰度化处理和二值化处理，得到第一图像；第二处理子单元用于对第一图像进行图像增强处理，得到第二图像，其中，图像增强处理包括以下至少之一：灰度变化处理、直方图修正处理、图像平滑处理以及图像锐化处理；第三处理子单元用于对第二图像进行降噪处理，得到第三图像；分割单元用于对第三图像进行图像区域分割操作，得到参考图像，其中，参考图像中包括目标文本对象。

上述图像识别装置还包括模型训练单元，模型训练单元用于在获取待识别的目标图像之前，获取处于训练阶段的参考图像识别模型和训练样本图像，其中，参考图像识别模型中包括参考特征提取网络、参考特征增强网络、参考特征融合网络以及参考区域预测网络；将训练样本图像输入参考图像识别模型，得到对训练样本图像识别的多个参考区域，其中，参考区域为训练样本图像中置信度大于或等于置信阈值的图像区域；根据参考区域确定参考图像识别模型的当前训练损失；在当前训练损失大于或等于损失阈值的情况下，调整图像识别模型中的模型参数，并获取下一个训练样本图像对参考图像识别模型进行训练；在当前训练损失小于损失阈值的情况下，将参考图像识别模型确定为目标图像识别模型。

上述训练单元用于根据参考区域确定参考图像识别模型的当前训练损失包括：获取目标损失权重以及训练样本图像的标注信息，其中，标注信息中包括标注区域的区域位置以及标注区域的标注倾斜角度；根据参考区域的参考区域位置与标注区域位置确定第一损失值；根据参考区域的参考倾斜角度与标注倾斜角度，以及目标损失权重确定第二损失值；根据第一损失值和第二损失值确定当前训练损失。

为了实现上述目的，根据本申请的又一方面，提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述图像识别方法。

为了实现上述目的，根据本申请的又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像识别方法。

为了实现上述目的，根据本申请的又一方面，提供了一种处理器，用于运行程序，其中，上述程序运行时执行上述图像识别方法。

为了实现上述目的，根据本申请的又一方面，提供了一种电子设备，包括一个或多个处理器和存储器，上述存储器用于存储一个或多个程序，其中，当上述一个或多个程序被一个或多个处理器运行时，使得上述一个或多个处理器执行上述图像识别方法。

通过本申请，采用以下步骤：获取待识别的目标图像；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域，解决了相关技术中无法对图像中的文本所在的位置进行准确定位的问题。进而达到了对图像中的文本所在的位置区域进行快速精准定位的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的一种图像识别方法的硬件环境示意图；

图2是根据本申请实施例提供的一种图像识别方法的流程图；

图3是根据本申请实施例提供的一种图像识别方法的示意图；

图4是根据本申请实施例提供的另一种图像识别方法的示意图；

图5是根据本申请实施例提供的又一种图像识别方法的示意图；

图6是根据本申请实施例提供的又一种图像识别方法的示意图；

图7是根据本申请实施例提供的另一种图像识别方法的流程图；

图8是根据本申请实施例提供的又一种图像识别方法的示意图；

图9是根据本申请实施例提供的又一种图像识别方法的流程图；

图10是根据本申请实施例提供的又一种图像识别方法的流程图；

图11是根据本申请实施例提供的一种图像识别装置的示意图；

图12是根据本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请中的图像识别方法、装置和电子设备可用于人工智能领域，也可用于除人工智能领域之外的其他需要进行图像识别的任意领域，本申请中的图像识别方法、装置和电子设备的应用领域不做限定。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

EAST：高效和准确的场景文本检测算法；

FEM：特征增强模块。

需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，本申请中涉及对数据的获取、存储、处理等均符合相关规定。例如，本系统和相关用户或机构间设置有接口，在获取图片等相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取图片等相关信息，同时，本申请中所获取的图片上的文本信息均是经用户或机构授权的。

根据本发明实施例的一个方面，提供了一种图像识别方法，作为一种可选的实施方式，上述图像识别方法可以但不限于应用于如图1所示的由终端设备102、服务器104以及网络110所构成的图像识别系统中。如图1所示，终端设备102通过网络110与服务器104进行连接通讯，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述终端设备可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视、车载设备等。上述终端设备102可以但不限于包括显示器、处理器及存储器，上述服务器104可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述服务器包括数据库和处理引擎。

具体过程可如下步骤：

步骤S102，终端设备102发送目标图像至服务器104；

步骤S104至步骤S110，服务器104获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域。

除图1示出的示例之外，上述步骤可以由客户端或服务器独立完成，或由客户端和服务器共同协作完成，如由终端设备102执行上述步骤S104至步骤S110，从而减轻服务器104的处理压力。该终端设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等，本申请并不限制终端设备102的具体实现方式。

下面结合优选的实施步骤对本发明进行说明，图2是根据本申请实施例提供的账号操作请求的响应方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；

需要说明的是，本申请中的技术方案可以应用于待识别的目标图像中的文本对象稀疏、长文本密集的文字部分感受野能力不足的图像识别场景，例如对银行卡图像中的文本对象进行定位和识别的场景，目标阈值可以是预先设置的，也可以是根据目标图像大小、预测的目标区域大小、目标图像大小和预测的目标区域大小之间的位置关系等信息推导得出的，目标阈值的具体确定方式，本申请在此不做限定。

步骤S204，在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；

需要说明的是，特征增强网络可以是FEM特征增强网络、ASPP特征增强网络等可以扩大感受野的特征增强网络，也可以是将上述特征增强网络中的一组或多组特征增强网络进行组合得到的特征增强网络；感受野(Receptive Field)用于指示卷积神经网络每一层输出的特征图上的像素点映射回输入图像上的区域大小，即该层算子能够捕获的图像区域大小；空洞卷积可以理解为在标准的卷积层中注入空洞，以此来增大感受野，相较于常规卷积方法，空洞卷积中引入了扩张系数，常规卷积中扩张系数默认值为1，扩张系数指的是卷积核之间的间隔数量，也就是说，空洞卷积是在不改变特征图大小的同时控制感受野(即空洞卷积可以在不引入更多参数的情况下，有效增大目标卷积层的感受野)，从而来提取多尺度的信息。

步骤S206，根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；

需要说明的是，对第一图像特征进行空洞卷积处理得到第二图像特征时，因空洞卷积中的扩张系数可以设定为多个大小不同的系数，从而可以得到不同的多个第二图像特征，对得到的多个第二图像特征进行激活函数和不同尺寸的卷积核等的处理可以确定出与每个第二图像特征对应的候选区域，激活函数可以使用sigmoid函数、Leaky ReLU函数、Maxout函数、tanh函数等多种激活函数，激活函数可以对每个神经元进行归一化处理、梯度平滑，避免跳跃的输出值。激活函数相当于一个打分函数，输出范围是0至1，将预测的结果归一化到0到1之间，得分的大小用于表示预测的可能性大小，分数越接近1说明可能性越大；卷积核的尺寸可以为多种，例如图3(a)中示出的是3×3尺寸的卷积核，图3(b)中示出的是7×尺寸的卷积核。

步骤S208，将置信度大于或等于置信阈值的候选区域确定为目标区域。

本申请实施例提供的图像识别方法，通过获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域。解决了相关技术中无法对图像中的文本所在的位置区域进行准确定位的问题，克服了传统的识别技术受场景影响较大(例如银行卡存在折叠、磨损、识别场景光线较暗灯因素，都无法达到高准确率的识别效果)的问题，同时，增加特征增强网络不仅可以扩大感受野，还能提高模型的学习能力。进而达到了对图像中的文本所在的位置区域进行准确定位，便于后续基于准确定位到的位置区域快速准确的识别位置区域中的文本的技术效果。

作为一种可选地方案，在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，包括：

S1，在特征增强模块中，按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征。

需要说明的是，特征增强模块可以是FEM模块，也可以是ASPP模块，FEM(特征增强模块)使用支撑集特征和先验掩码mask自适应增强查询特征来克服空间不一致性，FEM模块考虑使用1×1、3×3、5×5和7×7共四种大小不同的卷积(扩张系数分别是：1,6,12,18)提取不同尺度的特征，每个尺度则为一个独立的分支，随后将4种不同尺度的输出结果利用Concat串联方式进行串联，再将串联的结果送入到输出通道为320的1×1的滤波器卷积中，最后，利用双线性上采样得到所需要的空间维度进行拼接；ASPP(空洞空间卷积池化金字塔)通过对于输入的特征以不同的采样率进行采样，即从不同尺度提取输入特征，然后将所获取的特征进行融合，得到最终的特征提取结果。

在空洞卷积中，是通过扩张系数来控制感受野的大小，扩张系数越大，其感受野也就越大，同时，空洞卷积可以有效解决分辨率和感受野之间的矛盾，空洞卷积产生的特征映射可以具有输入同样的尺寸的情况下，获得更大的感受野，感受野的值越大，代表网络对原始图像的感知能力越强，能得到更多的手机图像的全局信息，提取图像更深的寓意信息。

如图3中的(a)所示，卷积核＝3×3，空洞＝0，扩张系数＝1，如图3中(b)所示，扩张系数＝2，空洞＝1，卷积核大小＝3×3，，即图3(a)中的大小为3×3卷积核被扩张为了图3(b)中的大小为7×7的卷积核，但是在运算时，只有在黑点处权重非零，因此只有在黑点处的卷积核与图像发生了卷积，图3中(b)卷积的位置相较于图3的(a)卷积的位置更扩散。

FEM特征增强模块一开始就是和空洞卷积结合在一起，能够对所给定的输入以不同采样率的空洞卷积进行采样，相当于以多个比例捕捉图像的上下文。如图10所示的流程图中，FEM模块使用了1×1、3×3、5×5和7×7共四种大小不同的卷积(扩张系数分别是：1,6,12,18)提取不同尺度的特征，每个尺度则为一个独立的分支，随后将4种不同尺度的输出结果利用Concat串联方式结合在一起，再将串联的结果送入到输出通道为320的1×1的滤波器卷积中，最后，利用双线性上采样得到所需要的空间维度进行拼接。FEM特征增强模块的网络结构示意图如图4所示。

通过上述按照目标采样率的空洞卷积对第一图像特征进行采样得到第二图像特征的方式，得到对EAST模型进行改进得到的优化模型，即在EAST模型中结合了特征增强模块，对给定的输入以不同采样率的空洞卷积进行采样，相当于以多个比例捕捉图像的上下文，以不同比例进行采样得到的第二图像特征不仅提高了对图像中的图像区域进行定位的准确性，也进一步加快了后续识别文本对象的准确性和识别效率。

作为一种可选地方案，上述在上述特征增强模块中，按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征，包括：

S1，获取扩张系数序列和与扩张系数序列匹配的空洞系数序列，其中，扩张系数序列中的每一个扩张系数用于指示卷积核之间的间隔数量；

需要说明的是，扩张系数序列和空洞系数序列可以都获取，也可以获取其中一种，扩张系数和空洞系数都可以用于指示卷积核之间的间隔数量，如图3(a)所示，扩张系数＝1，可以理解为相邻卷积核的中心位置之间的距离为一个单元格，空洞系数＝0，可以理解为相邻卷积核之间间隔的完整单元格数量为0；如图3(b)所示，扩张系数＝2，空洞系数＝1，扩张系数序列中包括一个或多个大小不同的扩张系数。

S2，依次获取扩张系数序列和空洞系数序列中的一个扩张系数和与扩张系数对应的一个空洞系数，并基于扩张系数和空洞系数对第一图像特征按照目标采样率进行采样，得到N个第二图像特征，其中，扩张系数序列中包括N个扩张系数，空洞系数序列中包括与N个扩张系数分别对应的N个空洞系数，N为大于或等于1的整数。

通过上述获取多个大小不同的扩张系数，从而可以得到多个不同扩张系数对应的多个不同的感受野的第二图像特征，以便根据不同感受野的图像特征对文本对象所在位置区域进行定位，空洞卷积可以有效解决分辨率和感受野之间的矛盾，空洞卷积产生的特征映射可以具有输入同样的尺寸的情况下，获得更大的感受野，提高对位置区域进行定位的准确性，也进一步提高了对文本识别的准确性和识别效率。

作为一种可选地方案，上述根据上述第二图像特征确定多个候选区域，并通过上述目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度，包括：

S1，根据上述目标识别模型中的特征融合网络，对上述第二图像特征进行特征融合处理，得到融合特征；

需要说明的是，在特征融合阶段，特征图的大小在每个阶段不会改变，最后特征融合层输出例如：128×128×32维的特征到输出层。

S2，利用目标激活函数以及第一卷积核对上述融合特征进行处理，得到第一预测方程矩阵，其中，上述第一预测方程矩阵用于指示目标图像中的像素点为文本图像中的像素点的第一概率值；

需要说明的是，从特征融合层输出的特征经过输出通道为指定值(例如1)的固定大小的卷积核(例如1×1)，以及激活函数(例如sigmoid)，可以得到目标维度的回归预测方程矩阵(即128×128)。此回归预测方程矩阵可以用来判断像素点是否是文本，在每层的卷积后面，增加一个激活函数，确保每个卷积都能完成自己的卷积任务，主要体现在：激活函数的输出范围是0至1，相当于激活函数对每个神经元进行了归一化处理、梯度平滑，避免跳跃的输出值。激活函数相当于一个打分函数，将预测的结果归一化到0到1之间，得到的分数大小用于表示预测的可能性大小，分数越接近1说明可能性越大。

S3，利用上述目标激活函数和第二卷积核对上述融合特征进行处理，得到第二预测方程矩阵，其中，上述第二预测方程矩阵用于指示上述目标图像中的上述候选区域为上述目标区域的第二概率值；

需要说明的是，特征融合层的输出经过另一设定值(例如4)的输出通道值的与上述大小相同的卷积核(即1×1)，以及激活函数(例如sigmiod)得到的128×128×4维回归预测方程矩阵，该矩阵可以用于指示对文本框位置坐标的回归预测。

S4，利用上述目标激活函数和第三卷积核对上述融合特征进行处理，得到第三预测方程矩阵，其中，上述第三预测方程矩阵用于指示上述目标图像中的上述候选区域的区域倾斜角度的第三概率值。

需要说明的是，上述第三卷积核和第一卷积核可以是通道和扩张系数均相同的卷积核。例如，将特征融合层的输出经输出通道为1的1×1的卷积核以及激活函数为sigmoid得到128×128维文本框角度的预测值。

通过上述根据上述目标识别模型中的特征融合网络，对上述第二图像特征进行特征融合处理，得到融合特征；利用目标激活函数以及第一卷积核对上述融合特征进行处理，得到第一预测方程矩阵；利用上述目标激活函数和第二卷积核对上述融合特征进行处理，得到第二预测方程矩阵；利用上述目标激活函数和第三卷积核对上述融合特征进行处理，得到第三预测方程矩阵。采用卷积核以及目标激活函数对融合特征进行不同的处理得到与卷积核对应的处理结果，能够达到根据不同的卷积核对目标区域进行准确定位的效果。

作为一种可选地方案，上述在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征之前还包括：

S1，对上述目标图像进行图像预处理，得到参考图像；

S2，利用特征提取网络对上述参考图像进行特征提取，得到上述第一图像特征，其中，上述特征提取网络包括深度残差网络。

需要说明的是，上述特征提取网络可以是ResNet中的结构ResNet-50，也可以是在ResNet上做出改进后的ResNetXt，ResNet中的结构调用了ImageNet上的预训练模型来作为Backbone，这样可以提高模型的性能，ResNetXt结合了Inception的思想，通过一系列相同拓扑结构的卷积操作来获取特征，最后concat在一起。

通过上述对目标图像进行预处理，得到参考图像，不仅可以降低计算成本，也可以极大改善分析结果的性能，有助于抑制与特征提取无关的信息；利用特征提取网络对参考图像进行特征提取，得到第一图像特征，其中，上述特征提取网络包括深度残差网络，引入深度残差网络，利用深度残差网络可以提取更深层次的特征，提高了图像识别效率和准确性。

作为一种可选地方案，上述对目标图像进行图像预处理，得到参考图像包括：

S1，对目标图像进行灰度化处理和二值化处理，得到第一图像；

需要说明的是，灰度化，在RGB模型中，如果R＝G＝B时，则彩色表示一种灰度颜色，其中，R＝G＝B的值叫灰度值，因此，灰度图像的每个像素只需一个字节存放灰度值(又称强度值、亮度值)，简单来说，灰度化就是把彩色的图像转化为黑白(亮度)图像。对目标图像进行灰度化处理，相较于彩色图像，灰度图像占内存更小，运算速度更快，灰度图像后可以在视觉上增加对比，突出目标区域；上述二值化是将图像的像素点灰度值0或255，即只有黑和白两种颜色的视觉效果。当灰度为255时，表示最亮(纯白)，当灰度为0时，表示最暗(纯黑)，二值化的过程可以通过设定一个阈值T，将图像的数据分成大于T的像素群和小于T的像素群来实现，二值化使图像更加清晰，方便进行目标物体的提取。

S2，对第一图像进行图像增强处理，得到第二图像，其中，图像增强处理包括以下至少之一：灰度变化处理、直方图修正处理、图像平滑处理以及图像锐化处理；

需要说明的是，上述灰度变化处理主要是针对独立的像素点进行处理，灰度变化处理的方式包括以下至少之一：图像反转、对数变换、幂律变换、分段线性变换等，分段线性变换包括以下至少之一：对比度拉伸、灰度级分层、比特平面分层；对比度拉伸可以将灰度密集区域变换到较为宽广的范围，压缩不感兴趣区域的灰度范围；灰度级分层可以将感兴趣区域(目标区域)的灰度直接增强，小区/不改变其他区域灰度值(图像中除目标区域之外的区域)；比特平面分层：通过每个像素相应的每位0/1来构成图片，有助于节省数据占用的空间。

上述直方图修正可以包括：直方图均衡化、直方图规定化，直方图均衡化通过对原图像进行某种变换使原图像的灰度直方图修正为均匀的直方图；直方图规定化是使原图像灰度直方图变成规定形状的直方图而对直方图做出修正的增强方法。在做直方图规定化时，首先要将原始图像做直方图均衡化处理。

上述图像平滑处理用于将图像中与周围像素点的像素值差异较大的像素点调整成和周围像素点像素值相近的值。用图像滤波对图像进行平滑处理，根据卷积核和卷积方式的不同，平滑的方法主要有：均值滤波、方框滤波、高斯滤波、中值滤波、双边滤波。

上述图像锐化处理可以将图像上边缘与线状目标的反差提高，即边缘增强。锐化的结果突出了边缘和轮廓、线状目标信息。图像锐化处理方法包括以下至少之一：梯度法、Roberts梯度、Prewitt和Sobel梯度、Laplace算法、定向检测等。

S3，对第二图像进行降噪处理，得到第三图像；

需要说明的是，上述降噪处理包括以下至少之一：均值滤波算法、中值滤波、维纳滤波等。

S4，对第三图像进行图像区域分割操作，得到参考图像，其中，参考图像中包括目标文本对象。

需要说明的是，上述对第三图像进行图像区域分割操作的方式包括基于阈值、边缘、区域、图论、能量泛函、小波分析和遗传算法等方法，上述根据图像区域分割操作确定的多个图像区域的个数可以等于1，也可以大于1，在确定的图像区域的个数等于1的情况下，该图像区域为模型基于原始图像第三图像预测出的目标文本对象所在的大概位置区域；在确定的图像区域的个数大于1的情况下，确定出的多个图像区域为第三图像中多个文本对象所在的多个位置区域。

通过上述对目标图像进行灰度化处理和二值化处理，得到第一图像；对第一图像进行图像增强处理得到第二图像；对第二图像进行降噪处理得到第三图像；对第三图像进行图像区域分割操作，得到参考图像，不仅可以消除图像中无关的信息，增强有关信息的可检测性，降低图像所占内存，最大限度地简化数据，还能够提高后续进行特征提取、特征识别等的可靠性。

作为一种可选地方案，获取待识别的目标图像之前，还包括：

S1，获取处于训练阶段的参考图像识别模型和训练样本图像，其中，上述参考图像识别模型中包括参考特征提取网络、参考特征增强网络、参考特征融合网络以及参考区域预测网络；

S2，将上述训练样本图像输入上述参考图像识别模型，得到对上述训练样本图像识别的多个参考区域，其中，上述参考区域为上述训练样本图像中置信度大于或等于置信阈值的图像区域；

需要说明的是，上述训练样本图像可以是清晰的图像，也可以是目标对象折损或磨损后的模糊图像(例如卡片折损后的图像)，亦或是由于拍摄角度或拍摄延时得到的不清晰的图像。

S3，根据上述参考区域确定上述参考图像识别模型的当前训练损失；

S4，在上述当前训练损失大于或等于损失阈值的情况下，调整上述图像识别模型中的模型参数，并获取下一个训练样本图像对上述参考图像识别模型进行训练；

S5，在上述当前训练损失小于上述损失阈值的情况下，将上述参考图像识别模型确定为上述目标图像识别模型。

通过上述获取处于训练阶段的参考图像识别模型和训练样本图像；将上述训练样本图像输入上述参考图像识别模型，得到对上述训练样本图像识别的多个参考区域；根据上述参考区域确定上述参考图像识别模型的当前训练损失；在上述当前训练损失大于或等于损失阈值的情况下，调整上述图像识别模型中的模型参数，并获取下一个训练样本图像对上述参考图像识别模型进行训练；在上述当前训练损失小于上述损失阈值的情况下，将上述参考图像识别模型确定为上述目标图像识别模型。不仅解决了困难样本的分类问题和常规神经网络模型使用前期的大量训练操作繁琐以及短时间难以获取大量有效的银行卡图片，获取样本花费的人力物力财力较大的问题，还提高了目标数据模型的精度和性能，使得参数尽可能的与真实的模型逼近，从而能够使训练得到的目标图像识别模型在后续使用中得到的模型输出结果更加准确。

作为一种可选地方案，上述根据参考区域确定参考图像识别模型的当前训练损失包括：

S1，获取目标损失权重以及训练样本图像的标注信息，其中，上述标注信息中包括标注区域的区域位置以及标注区域的标注倾斜角度；

S2，根据上述参考区域的参考区域位置与上述标注区域位置确定第一损失值；

S3，根据上述参考区域的参考倾斜角度与上述标注倾斜角度，以及上述目标损失权重确定第二损失值；

S4，根据上述第一损失值和上述第二损失值确定上述当前训练损失。

通过上述获取目标损失权重以及训练样本图像的标注信息；根据上述参考区域的参考区域位置与上述标注区域位置确定第一损失值；根据上述参考区域的参考倾斜角度与上述标注倾斜角度，以及上述目标损失权重确定第二损失值；根据上述第一损失值和上述第二损失值确定上述当前训练损失。通过第一损失值和第二损失值确定当前训练损失，从而可以根据确定的当前训练损失的大小确定得到的图像识别模型是否符合模型使用要求，且基于此方式确定的训练损失更具有参考性，使得训练得到的图像识别模型更加可靠。

EAST的网络结构大体上可以分为三个部分：用于特征提取的特征提取主干、将特征提取主干提取到的多个特征图融合为一个特征图的特征融合分支和输出置信度分数图和几何信息特征图的输出部分。

上述对参考识别模型进行训练时，EAST算法的训练标签分为一个通道的文本区域的置信度和五个通道的文本框集合信息两个部分。为了减少背景的干扰，更多地关注文本区域的特征，需要对标注区域进行收缩。为了获得置信度标签，先将图片转换成一个尺寸相同的矩阵，初始值都设置为0，然后对标注的文字区域如下的方式进行收缩，置信度标签的获得过程示意图如图5所示，具体过程如下：

S1，对于四边形Q＝{p_i|i∈{1,2,3,4}}，p_i＝{x_i，y_i}是从四边形的左上角的顶点开始，按逆时针方向逐个记录的四边形的顶点的坐标；

S2，计算每个顶点的参考长度r_i，r_i＝min(D(p_i,p_(imod4)+1),D(p_i,p_{((i+3)mod4+1)}))，其中，D(p_i,p_j)是p_i和p_j之间的欧式距离；

S3，通过比较两组对边长度的平均值来确定长对边和短对边；

S4，先收缩那组较长的对边，再收缩那组较短的对边，即对于边(p_i,p_(imod4)+1)的两个顶点向内移动0.3r_i和0.3r_(imod4)+1。

对于收缩得到的区域将其对应矩阵中的值设置为1，表示正样本，即文本区域；其余的0表示负样本，即背景区域。

文本框几何信息的获得过程示意图如图6所示，为了制作文本框几何信息标签，需要五个通道的与图片同尺寸的矩阵，正样本区域收缩的方法与获得置信度标签时相同。其余步骤如下：

S1，计算获得原标注区域的最小外接矩形；

S2，计算并在四个通道中像素对应位置分别保存正样本区域像素点到最小外接矩形四条边的距离；

S3，计算最小外接矩形的倾斜方向与水平方向之间的家教，角度信息保存在第五个通道的矩阵中。

可选地，上述图像识别方式可以应用与任何图像识别场景，也可以用于对图像中的目标文本进行识别的场景，以下结合图7-10对上述实施方式应用在对银行卡号图像识别的场景进行具体说明，算法的整体流程图如图7所示：

S701，流程开始；

S702，首先进行图像的预处理操作，具体步骤如下：

S703，将处理后的图像输入到以Resnet-50为基础的EAST模型中，通过卷积操作提取银行卡图像的文本信息，具体处理过程如图7中的S703所示，依次包括S703-1，对待识别图像进行图像特征提取(如图9中的S901，特征提取(ResNet-50))得到多种尺度的特征图，在进行图像特征提取时，本申请中以在EAST结构中引入深度残差网络ResNet-50为例，如图8所示是ResNet-50预训练网络的结构参数，图中Conv 1中，7×7为卷积核的尺寸，64为卷积核的数量，卷积核数量决定最后输出矩阵的维度，stride为步长，表示每次卷积核需要移动的步长大小，256×256为输出尺寸，Conv2_x中的max pool代表采用最大池化算法，目的是用小特征对大特征进行精简。中括号中的1×1代表使用了64个大小为1×1的卷积核进行卷积，3×3标识3个残差块执行了3次，最后输出结果为128×128。图8中经过计算后padding值设置为1，目的是对边缘信息的提取更充分其余参数含义与上述参数含义相同。S703-2，对得到的多中尺度的特征图进行图像特征融合(如图9中的S902，特征融合)得到一张特征图，在融合得到的特征图上预测文本框的位置信息；然后再进行非极大值抑制以及文本框的融合，最后执行S703-3，输出预测文本框(如图9中的S903，输出层)，将特征融合分支得到的32个通道的特征图映射到1个通道的置信度分数图和5个通道的文本框几何信息图，几何信息图分为4个通道的轴向包围框和1个通道的旋转角度。

图9中的输出层输出的置信度分数901用于指示参考图像识别模型对图像识别的准确程度，文本框902用于输出每次训练参考图像识别模型确定的目标区域的位置信息，文本框旋转角度903用于指示目标区域的倾斜角度(可以以0度为基准，也可以以90度、180度为基准，本申请在此不做限定)，文本框集合信息904用于指示目标区域中的文本对象的大小。

上述改进后的EAST网络结构中的图像处理流程图图9中的FEM特征增强模块中的数据处理流程图如图10所示。特征增强模块考虑使用1×1、3×3、5×5和7×7共四种不同大小的卷积提取不同尺度的特征，然后将提取到的多个尺度的特征进行融合，这样可以既可以有效增大网络的宽度还可以增大网络的感受野，增强特征提取主干对不同尺寸的文本区域的特征提取能力。但5×5和7×7的卷积核引入了较多的参数，为了减少参数，本文选择将3×3、5×5和7×7的卷积进行拆分，例如7×7的卷积可以拆分为1×7卷积和7×1卷积的组合。而且1×n卷积的形状更类似于文本区域的长条型的形状，有利于提取文本区域的特征并且减少背景的干扰。

S704，计算优化后的损失函数，继续训练算法模型使检测结果达到最优值。

损失函数是用来对网络模型的进一步优化，得到的函数值越小，模型预测的性能准确性也就越高，采用本申请中改进后的损失函数，可以在不同场景下识别待识别图像中的文本信息更加快速、结果更具准确性。对于数字区域的定位，由于银行卡号图像具有独特性，数字区域所占面积较小，背景占比较大并且和数字区域重合，因此，本申请中的算法的总损失函数公式如下：L＝L_s+λ_gL_gL＝L_s+λ_gL_g

其中，总损失函数L表示分割图像背景和图像文本的分类损失，目标文本对象所在区域的部分标表示为1，非目标文本对象所在区域表示为0，即像素点的分类损失，L_g为几何图的损失。λ_g为损失权重，取值为1。

在训练过程中，使用平衡交叉熵来计算得分通道损失来简化训练过程，公式如下：

上式中，表示预测的分数值，Y^*表示样本的标记值，参数β是正负样本之间的平衡因子，公式如下：/>

L_g几何图损失又分为两部分，回归损失和旋转角度损失，其公式分别如下：

其中，L_AABB为回归损失，为旋转角度损失，/>是对旋转角度的预测(预测的文本倾斜角度)，并且θ^*表示标注值(文本矩形框真实的倾斜角度)。AABB表示从像素位置到文本矩形的上下左右4个边界的距离，L_g为回归损失和旋转角度损失加权和(合称为几何损失)，计算公式如下：L_g＝L_AABB+λ_θL_θ。

本申请中的算法采用的是预先训练的网络结构(图6所示的是RestNet-50预训练网络的结构参数)，因为参数比较稳定，且相似性良好，为提取到更深层次的图像特征，以达到更精准的识别率，因此采用ResNet-50的特征提取网络，加宽和加深网络是提升网络效果的主要方式，改进的EAST算法网络结构如图7所示，图7中的Unpool是上采样的一种具体方法，本文采用双线性差值的方法。

通过本申请中的上述实施例，不仅可以克服神经网络模型需要前期大量的训练，银行卡图片作为一种较为私密的个人隐私，一时间难以获取大量有效的银行卡图片，获得的样本也需要花费大量的人力物力财力的问题、还能解决传统的识别技术受场景影响较大，例如银行卡存在折叠、磨损、识别场景光线较暗灯因素，无法达到高准确率的识别效果的技术问题，同时还克服了现有技术EAST算法在自然场景下对银行卡标识定位存在不足的问题，解决了现有技术EAST算法对于稀疏、长文本密集的文字部分感受野不足和正负样本不均的问题；引进的深度残差网络可以提取更深层次的特征，FEM结合空洞卷积可以扩大感受野，解决相关技术中感受野不足的问题，改进后的损失函数解决了困难样本的分类问题，整个技术方案可以准确定位图像中的文本对象所在位置区域，极大地提高了在图像中定位文本对象所在位置区域的准确性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种图像识别装置，需要说明的是，本申请实施例的图像识别装置可以用于执行本申请实施例所提供的用于图像识别方法。以下对本申请实施例提供的图像识别装置进行介绍。

图11是根据本申请实施例的图像识别装置的示意图。如图11所示，该装置包括：

获取单元1102，用于获取待识别的目标图像，其中，上述目标图像中的目标区域与上述目标图像的图像区域之间的面积比值小于或等于目标阈值，上述目标区域为显示有文本对象的图像区域；

处理单元1104，处理单元，用于在目标图像识别模型中的特征增强网络中对上述目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，上述第一图像特征为上述目标图像识别模型中的特征提取网络根据上述目标图像提取得到的图像特征，上述第二图像特征对应的感受野大于上述第一图像特征对应的感受野；

第一确定单元1106，用于根据上述第二图像特征确定多个候选区域，并通过上述目标图像识别模型中的预测网络确定出上述多个候选区域各自对应的置信度；

第二确定单元1108，用于将上述置信度大于或等于置信阈值的上述候选区域确定为上述目标区域。

可选地，上述处理单元包括采样单元和输入单元，采样单元用于在特征增强模块中按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征。

可选地，上述采样单元包括获取单元和采样子单元，获取单元用于获取扩张系数序列和与扩张系数序列匹配的空洞系数序列，其中，扩张系数序列中的每一个扩张系数用于指示卷积核之间的间隔数量，采样子单元用于依次获取扩张系数序列和空洞系数序列中的一个扩张系数和与一个扩张系数对应的一个空洞系数，并基于扩张系数和空洞系数对第一图像特征按照目标采样率进行采样，得到N个参考特征，其中，扩张系数序列中包括N个扩张系数，空洞系数序列中包括与N个扩张系数分别对应的N个空洞系数，N为大于或等于1的整数。

可选地，上述第一确定单元包括第一处理单元、第二处理单元、第三处理单元以及第四处理单元，第一处理单元用于根据目标图像识别模型中的特征融合网络，对第二图像特征进行特征融合处理，得到融合特征；第二处理单元用于利用目标激活函数以及第一卷积核对融合特征进行处理，得到第一预测方程矩阵，其中，第一预测方程矩阵用于指示目标图像中的像素点为文本图像中的像素点的第一概率值；第三处理单元用于利用目标激活函数和第二卷积核对融合特征进行处理，得到第二预测方程矩阵，其中，第二预测方程矩阵用于指示目标图像中的候选区域为目标区域的第二概率值；第四处理单元用于利用目标激活函数和第三卷积核对融合特征进行处理，得到第三预测方程矩阵，其中，第三预测方程矩阵用于指示目标图像中的候选区域的区域倾斜角度的第三概率值。

可选地，上述图像识别装置还包括预处理单元和特征提取单元，预处理单元用于在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征之前，对目标图像进行图像预处理，得到参考图像；特征提取单元用于在得到参考图像之后，利用特征提取网络对参考图像进行特征提取，得到第一图像特征，其中，特征提取网络包括深度残差网络。

可选地，上述预处理单元包括第一处理子单元、第二处理子单元、第三处理子单元和分割单元，上述第一处理子单元用于对目标图像进行灰度化处理和二值化处理，得到第一图像；第二处理子单元用于对第一图像进行图像增强处理，得到第二图像，其中，图像增强处理包括以下至少之一：灰度变化处理、直方图修正处理、图像平滑处理以及图像锐化处理；第三处理子单元用于对第二图像进行降噪处理，得到第三图像；分割单元用于对第三图像进行图像区域分割操作，得到参考图像，其中，参考图像中包括目标文本对象。

可选地，上述图像识别装置还包括模型训练单元，模型训练单元用于在获取待识别的目标图像之前，获取处于训练阶段的参考图像识别模型和训练样本图像，其中，参考图像识别模型中包括参考特征提取网络、参考特征增强网络、参考特征融合网络以及参考区域预测网络；将训练样本图像输入参考图像识别模型，得到对训练样本图像识别的多个参考区域，其中，参考区域为训练样本图像中置信度大于或等于置信阈值的图像区域；根据参考区域确定参考图像识别模型的当前训练损失；在当前训练损失大于或等于损失阈值的情况下，调整图像识别模型中的模型参数，并获取下一个训练样本图像对参考图像识别模型进行训练；在当前训练损失小于损失阈值的情况下，将参考图像识别模型确定为目标图像识别模型。

可选地，上述训练单元用于根据参考区域确定参考图像识别模型的当前训练损失包括：获取目标损失权重以及训练样本图像的标注信息，其中，标注信息中包括标注区域的区域位置以及标注区域的标注倾斜角度；根据参考区域的参考区域位置与标注区域位置确定第一损失值；根据参考区域的参考倾斜角度与标注倾斜角度，以及目标损失权重确定第二损失值；根据第一损失值和第二损失值确定当前训练损失。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

本申请实施例提供的图像识别装置，通过获取单元，用于获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；处理单元，用于在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；第一确定单元，用于根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；第二确定单元，用于将置信度大于或等于置信阈值的候选区域确定为目标区域，解决了相关技术中无法对图像中的文本所在的位置区域进行准确定位的问题，进而达到了对图像中的文本所在的位置区域进行快速精准定位的效果。

上述图像识别装置包括处理器和存储器，上述获取单元、处理单元、第一确定单元、第二确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对图像中的文本所在的位置区域进行快速精准定位。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述图像识别方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述图像识别方法。

如图12所示，本发明实施例提供了一种用于实施上述图像识别方法的电子设备，该电子设备可以是图12所示的终端设备或服务器。本实施例以电子设备为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204及存储在存储器1202上并可在处理器1204上运行的程序，处理器1204执行程序时实现以下步骤：

获取待识别的目标图像，其中，目标图像中的目标区域与目标图像的图像区域之间的面积比值小于或等于目标阈值，目标区域为显示有文本对象的图像区域；在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，第一图像特征为目标图像识别模型中的特征提取网络根据目标图像提取得到的图像特征，第二图像特征对应的感受野大于第一图像特征对应的感受野；根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度；将置信度大于或等于置信阈值的候选区域确定为目标区域；

在目标图像识别模型中的特征增强模块中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，包括：在特征增强模块中，按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征；

在特征增强模块中，按照目标采样率的空洞卷积对第一图像特征进行采样，得到第二图像特征，包括：获取扩张系数序列和与扩张系数序列匹配的空洞系数序列，其中，扩张系数序列中的每一个扩张系数用于指示卷积核之间的间隔数量；依次获取扩张系数序列和空洞系数序列中的一个扩张系数和与扩张系数对应的一个空洞系数，并基于扩张系数和空洞系数对第一图像特征按照目标采样率进行采样，得到N个第二图像特征，其中，扩张系数序列中包括N个扩张系数，空洞系数序列中包括与N个扩张系数分别对应的N个空洞系数，N为大于或等于1的整数；

根据第二图像特征确定多个候选区域，并通过目标图像识别模型中的预测网络确定出多个候选区域各自对应的置信度，包括：根据目标图像识别模型中的特征融合网络，对第二图像特征进行特征融合处理，得到融合特征；利用目标激活函数以及第一卷积核对融合特征进行处理，得到第一预测方程矩阵，其中，第一预测方程矩阵用于指示目标图像中的像素点为文本图像中的像素点的第一概率值；利用目标激活函数和第二卷积核对融合特征进行处理，得到第二预测方程矩阵，其中，第二预测方程矩阵用于指示目标图像中的候选区域为目标区域的第二概率值；利用目标激活函数和第三卷积核对融合特征进行处理，得到第三预测方程矩阵，其中，第三预测方程矩阵用于指示目标图像中的候选区域的区域倾斜角度的第三概率值；

在目标图像识别模型中的特征增强网络中对目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征之前，还包括；对目标图像进行图像预处理，得到参考图像；利用特征提取网络对参考图像进行特征提取，得到第一图像特征，其中，特征提取网络包括深度残差网络；

对目标图像进行图像预处理，得到参考图像包括：对目标图像进行灰度化处理和二值化处理，得到第一图像；对第一图像进行图像增强处理，得到第二图像，其中，图像增强处理包括以下至少之一：灰度变化处理、直方图修正处理、图像平滑处理以及图像锐化处理；对第二图像进行降噪处理，得到第三图像；对第三图像进行图像区域分割操作，得到参考图像，其中，参考图像中包括目标文本对象；

获取待识别的目标图像之前，还包括：获取处于训练阶段的参考图像识别模型和训练样本图像，其中，参考图像识别模型中包括参考特征提取网络、参考特征增强网络、参考特征融合网络以及参考区域预测网络；将训练样本图像输入参考图像识别模型，得到对训练样本图像识别的多个参考区域，其中，参考区域为训练样本图像中置信度大于或等于置信阈值的图像区域；根据参考区域确定参考图像识别模型的当前训练损失；在当前训练损失大于或等于损失阈值的情况下，调整图像识别模型中的模型参数，并获取下一个训练样本图像对参考图像识别模型进行训练；在当前训练损失小于损失阈值的情况下，将参考图像识别模型确定为目标图像识别模型；

根据参考区域确定参考图像识别模型的当前训练损失包括：获取目标损失权重以及训练样本图像的标注信息，其中，标注信息中包括标注区域的区域位置以及标注区域的标注倾斜角度；根据参考区域的参考区域位置与标注区域位置确定第一损失值；根据参考区域的参考倾斜角度与标注倾斜角度，以及目标损失权重确定第二损失值；根据第一损失值和第二损失值确定当前训练损失。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

根据参考区域确定参考图像识别模型的当前训练损失包括：获取目标损失权重以及训练样本图像的标注信息，其中，标注信息中包括标注区域的区域位置以及标注区域的标注倾斜角度；根据参考区域的参考区域位置与标注区域位置确定第一损失值；根据参考区域的参考倾斜角度与标注倾斜角度，以及目标损失权重确定第二损失值；根据第一损失值和第二损失值确定当前训练损失。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别的目标图像，其中，所述目标图像中的目标区域与所述目标图像的图像区域之间的面积比值小于或等于目标阈值，所述目标区域为显示有文本对象的图像区域；

在目标图像识别模型中的特征增强网络中对所述目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，所述第一图像特征为所述目标图像识别模型中的特征提取网络根据所述目标图像提取得到的图像特征，所述第二图像特征对应的感受野大于所述第一图像特征对应的感受野；

根据所述第二图像特征确定多个候选区域，并通过所述目标图像识别模型中的预测网络确定出所述多个候选区域各自对应的置信度；

将所述置信度大于或等于置信阈值的所述候选区域确定为所述目标区域。

2.根据权利要求1所述的方法，其特征在于，所述在目标图像识别模型中的特征增强模块中对所述目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，包括：

在所述特征增强模块中，按照目标采样率的空洞卷积对所述第一图像特征进行采样，得到第二图像特征。

3.根据权利要求2所述的方法，其特征在于，所述在所述特征增强模块中，按照目标采样率的空洞卷积对所述第一图像特征进行采样，得到第二图像特征，包括：

获取扩张系数序列和与所述扩张系数序列匹配的空洞系数序列，其中，所述扩张系数序列中的每一个扩张系数用于指示卷积核之间的间隔数量；

依次获取所述扩张系数序列和所述空洞系数序列中的一个所述扩张系数和与所述扩张系数对应的一个空洞系数，并基于所述扩张系数和所述空洞系数对所述第一图像特征按照所述目标采样率进行采样，得到N个第二图像特征，其中，所述扩张系数序列中包括N个扩张系数，所述空洞系数序列中包括与所述N个扩张系数分别对应的N个空洞系数，所述N为大于或等于1的整数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像特征确定多个候选区域，并通过所述目标图像识别模型中的预测网络确定出所述多个候选区域各自对应的置信度，包括：

根据所述目标图像识别模型中的特征融合网络，对所述第二图像特征进行特征融合处理，得到融合特征；

利用目标激活函数以及第一卷积核对所述融合特征进行处理，得到第一预测方程矩阵，其中，所述第一预测方程矩阵用于指示所述目标图像中的像素点为文本图像中的像素点的第一概率值；

利用所述目标激活函数和第二卷积核对所述融合特征进行处理，得到第二预测方程矩阵，其中，所述第二预测方程矩阵用于指示所述目标图像中的所述候选区域为所述目标区域的第二概率值；

利用所述目标激活函数和第三卷积核对所述融合特征进行处理，得到第三预测方程矩阵，其中，所述第三预测方程矩阵用于指示所述目标图像中的所述候选区域的区域倾斜角度的第三概率值。

5.根据权利要求1所述的方法，其特征在于，所述在目标图像识别模型中的特征增强网络中对所述目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征之前，还包括：

对所述目标图像进行图像预处理，得到参考图像；

利用特征提取网络对所述参考图像进行特征提取，得到所述第一图像特征，其中，所述特征提取网络包括所述深度残差网络。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标图像进行图像预处理，得到参考图像包括：

对所述目标图像进行灰度化处理和二值化处理，得到第一图像；

对所述第一图像进行图像增强处理，得到第二图像，其中，所述图像增强处理包括以下至少之一：灰度变化处理、直方图修正处理、图像平滑处理以及图像锐化处理；

对所述第二图像进行降噪处理，得到第三图像；

对所述第三图像进行图像区域分割操作，得到所述参考图像，其中，所述参考图像中包括目标文本对象。

7.根据权利要求1所述的方法，其特征在于，所述获取待识别的目标图像之前，还包括：

获取处于训练阶段的参考图像识别模型和训练样本图像，其中，所述参考图像识别模型中包括参考特征提取网络、参考特征增强网络、参考特征融合网络以及参考区域预测网络；

将所述训练样本图像输入所述参考图像识别模型，得到对所述训练样本图像识别的多个参考区域，其中，所述参考区域为所述训练样本图像中置信度大于或等于置信阈值的图像区域；

根据所述参考区域确定所述参考图像识别模型的当前训练损失；

在所述当前训练损失大于或等于损失阈值的情况下，调整所述图像识别模型中的模型参数，并获取下一个训练样本图像对所述参考图像识别模型进行训练；

在所述当前训练损失小于所述损失阈值的情况下，将所述参考图像识别模型确定为所述目标图像识别模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述参考区域确定所述参考图像识别模型的当前训练损失包括：

获取目标损失权重以及所述训练样本图像的标注信息，其中，所述标注信息中包括标注区域的区域位置以及所述标注区域的标注倾斜角度；

根据所述参考区域的参考区域位置与所述标注区域位置确定第一损失值；

根据所述参考区域的参考倾斜角度与所述标注倾斜角度，以及所述目标损失权重确定第二损失值；

根据所述第一损失值和所述第二损失值确定所述当前训练损失。

9.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待识别的目标图像，其中，所述目标图像中的目标区域与所述目标图像的图像区域之间的面积比值小于或等于目标阈值，所述目标区域为显示有文本对象的图像区域；

处理单元，用于在目标图像识别模型中的特征增强网络中对所述目标图像的第一图像特征进行空洞卷积处理，得到第二图像特征，其中，所述第一图像特征为所述目标图像识别模型中的特征提取网络根据所述目标图像提取得到的图像特征，所述第二图像特征对应的感受野大于所述第一图像特征对应的感受野；

第一确定单元，用于根据所述第二图像特征确定多个候选区域，并通过所述目标图像识别模型中的预测网络确定出所述多个候选区域各自对应的置信度；

第二确定单元，用于将所述置信度大于或等于置信阈值的所述候选区域确定为所述目标区域。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的方法。

11.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至8中任意一项所述的方法。