CN109117846A

CN109117846A - 一种图像处理方法、装置、电子设备和计算机可读介质

Info

Publication number: CN109117846A
Application number: CN201810960626.5A
Authority: CN
Inventors: 万昭祎; 张健; 廖明辉; 姚聪; 谢锋明; 梁嘉骏; 吕鹏原; 白翔
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-01-01
Anticipated expiration: 2038-08-22
Also published as: CN109117846B

Abstract

本发明提供了一种图像处理方法、装置、电子设备和计算机可读介质，涉及图像处理的技术领域，包括：获取待处理图像；基于字符注意力卷积网络对待处理图像进行处理，得到字符预测图，其中，字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；基于字符预测图确定每个字符区域内的字符类型，并基于字符类型得到待处理图像中所包含的目标文字序列，本发明缓解了现有的文字识别算法识别精度较低，且识别容易受到局限的技术问题。

Description

一种图像处理方法、装置、电子设备和计算机可读介质

技术领域

本发明涉及图像处理的技术领域，尤其是涉及一种图像处理方法、装置、电子设备和计算机可读介质。

背景技术

自然场景中文字的识别(简称场景文字识别)，是指对自然场景图片中的文字识别其内容的技术，被广泛运用在自动驾驶、视障辅助、身份认证等多个领域。不同于扫描文件中的文字识别，自然场景中的文字识别面临更大的挑战：复杂的自然背景，不确定的文字方向、排列和大量的颜色变化等，这些都让自然场景中的文字识别的识别精度和实现难度远高于扫描文件的识别。

受益于神经网络和深度学习相关技术的发展，近期的场景文字技术广泛采用了神经网络技术和深度学习技术，该技术采用了序列化的方法，即将图像的特征作为一个编码序列进行解码，以得到序列化的输出。但是，该方法存在以下缺点：识别精度受限、难以识别曲形/非横向文字、泛化能力差。现有技术解码阶段通常采用循环神经网络或/和联通性暂存识别器(Connectionist Temporal Classification，简称CTC)得到识别结果，对文字区域、噪声等的变化敏感，泛化能力较差。

这些问题严重影响了现有场景文字识别系统的性能和可用性，制约其在现实中的应用场景。

发明内容

有鉴于此，本发明的目的在于提供一种图像处理方法、装置、电子设备和计算机可读介质，以缓解了现有的文字识别算法识别精度较低，且识别容易受到局限的技术问题。

第一方面，本发明实施例提供了一种图像处理方法，包括：获取待处理图像；基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；基于所述字符预测图确定每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

进一步地，所述字符注意力卷积网络包括：包括多个串联连接的卷积层的第一卷积网络，包括多个串联连接的卷积层的第二卷积网络；其中：所述第一卷积网络中的第i个卷积层通过注意力模型与所述第二卷积网络中的第j个卷积层串联连接，i依次取2至N，j依次取M至1，所述N为所述第一卷积网络中卷积层的数量，所述M为第二卷积网络中卷积层的数量。

进一步地，基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图包括：通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像，其中，所述第一卷积网络中的每个卷积层输出一个第一特征图像，所述第一特征图像中包括各个字符的字符区域和类型预测结果；将每个所述第一特征图像和每个所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像；利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图。

进一步地，利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图包括：将所述第一卷积网络中的第i个卷积层输出的第二特征图像输入至所述第二卷积网络中与所述第i个卷积层相对应的第j个卷积层中进行卷积处理；将所述第二卷积网络中最后一个卷积层的输出结果作为所述字符预测图；其中，所述第二卷积网络中第一个卷积层的输入为所述第一卷积网络中的第N个卷积层输出的第二特征图像，所述第二卷积网络中除第一个卷积层之外的其他卷积层的输入为其上一个卷积层的输出和所述第一卷积网络中的相对应卷积层输出的第二特征图像。

进一步地，所述第一卷积网络中包括可形变卷积层；通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像包括：获取所述第一卷积网络中可形变卷积层的输入数据，其中，所述可形变卷积层的输入数据为所述第一卷积网络中所述可形变卷积层的上一个卷积层输出的第一特征图像；获取所述可形变卷积层所需的位移量；基于所述可形变卷积层所需的位移量对所述输入数据进行卷积计算，得到对应的第一特征图像。

进一步地，所述可形变卷积层的卷积核为3*3，所述第二卷积网络的前Q个卷积层的卷积核为3*1，其中，Q大于零小于M。

进一步地，将所述第一特征图像和所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像包括：通过公式对所述第一特征图像和所述注意力图像进行处理，得到所述第二特征图像，其中，F_i为所述第一特征图像，A为所述注意力图像，F₀为所述第二特征图像。

进一步地，采用以下方式得到所述第一特征图像的注意力图像：对所述第一特征图像进行卷积处理，得到卷积处理结果；将所述卷积处理结果中字符区域内像素点的像素值设置为第一数值，并将所述卷积处理结果中背景区域内像素点的像素值设置为第二数值，进而得到所述注意力图像。

进一步地，所述方法还包括：获取待训练图像，其中，所述待训练图像中包括各个字符的字符区域和每个字符的字符类型；通过初始字符注意力卷积网络对所述待训练图像进行处理，得到所述待训练图像的预测结果图像，其中，所述预测结果图像中包括所述待训练图像中各个字符的预测字符区域和每个字符的预测字符类型；利用所述预测结果图像预测所述待训练图像中包含的目标文字序列；通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，以通过计算结果调整所述初始字符注意力卷积网络的网络参数。

进一步地，所述方法还包括：在获取到所述待训练图像之后，对所述待训练图像中的字符进行标注，得到字符的原始外接矩形框；对所述原始外接矩形框进行调整，得到所述待训练图像中字符目标外接矩形框，并将所述目标外接矩形框确定为所述待训练图像中字符的字符区域。

进一步地，对所述原始外接矩形框进行调整包括：通过公式对所述原始外接矩形框进行调整，其中，w＝x_max-x_min，h＝y_max-y_min，s为字符区域的内缩比例，x_min和x_max分别为所述原始外接矩形框最小横坐标和最大横坐标，y_min和y_max分别为所述原始外接矩形框最小纵坐标和最大纵坐标。

进一步地，通过损失函数对所述初始字符注意力卷积网络进行损失函数计算包括：通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，其中，L_p为字符预测损失函数，L_a为字符注意力损失函数，i表示所述第一卷积网络中的第i个卷积层，α为权重值。

进一步地，所述字符预测损失函数表示为：所述字符注意力损失函数表示为：其中，H和W分别为所述待处理图像的高度和宽度，C表示包括字符类型和背景类型的数量和，X_m,n,c为所述预测结果图像所对应矩阵数据的一个元素， Y_m,n表示元素X_m,n,c所属的字符类型，W_m,n为Y_m,n表示元素X_m,n,c的权重。

进一步地，所述各个字符的类型预测结果为字符区域中的每个像素点所属于每个预设字符类型的概率值；基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型包括：将所述字符预测图转换为二值图，并在所述二值图中确定各个字符的字符区域；计算字符区域U_x中的全部像素点所属于预设字符类型P_y的概率值的平均值，得到多个平均值，其中，x依次取1至X，y依次取1至Y，X为所述字符区域的数量，Y为所述预设字符类型的数量；将所述多个平均值中最大平均值所对应的预设字符类型确定为所述字符区域U_x的字符类型。

进一步地，基于所述字符类型得到所述待处理图像中所包含的目标文字序列包括：确定每个字符区域的字符类型所对应的字符符号，得到X个字符符号；按照所述字符预测图中各个字符区域的顺序对所述X个字符符号进行排序，得到所述目标文字序列。

第二方面，本发明实施例提供了一种图像处理装置，包括：获取单元，用于获取待处理图像；图像处理单元，用于基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；确定单元，用于基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面中任一项所述的方法。

在本发明实施例中，首先，获取待处理图像，然后，基于字符注意力卷积网络对待处理图像进行处理，得到字符预测图，其中，字符预测图中包括各个字符的字符区域和各个字符的类型预测结果，最后，基于字符预测图确定每个字符区域内的字符类型，并基于字符类型得到待处理图像中所包含的目标文字序列。

在本实施例中，通过字符注意力卷积网络提取待处理图像中的特征，其中，该特征为二维空间的特征；并利用该二维空间的特征产生待处理图像中每个位置的预测结果，包括字符区域和背景区域的区分，字符区域内字符所属的类型。本发明提出的图像处理方法改进了现有场景文字识别技术，修正了基础框架的局限，提高了现有技术的识别精度，大幅增强了现有技术的泛化能力和适应能力，并能兼容曲形和非正常排列的文字，从而提高文字识别相关系统的可用性，进而缓解了现有的文字识别算法识别精度较低，且识别容易受到局限的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种电子设备的示意图；

图2是根据本发明实施例的一种图像处理方法的流程图；

图3是根据本发明实施例的一种可选的字符注意力卷积网络的结构示意图；

图4是未采用可形变卷积层之后得到的特征图；

图5是根据本发明实施例的一种在采用可形变卷积层之后得到特征图；

图6是根据本发明实施例的一种文字格式化模块的处理流程图；

图7是根据本发明实施例的一种图像处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

首先，参照图1来描述用于实现本发明实施例的电子设备100，该电子设备可以用于运行本发明各实施例的图像处理方法。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP，Digital Signal Processing)、现场可编程门阵列(FPGA，Field－Programmable Gate Array)、可编程逻辑阵列(PLA，Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU，Central ProcessingUnit)、图形处理器(GPU，Graphics Processing Unit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述摄像机110用于进行图像采集，其中，摄像机所采集的数据经过所述图像处理方法进行处理之后得到目标文字序列，例如，摄像机可以拍摄用户期望的图像(例如照片、视频等)，然后，将该图像经过所述图像处理方法进行处理之后得到目标文字序列，摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像处理方法的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端。

实施例2：

根据本发明实施例，提供了一种图像处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种图像处理方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取待处理图像；

步骤S204，基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；

步骤S206，基于所述字符预测图确定每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

在本实施例中，首先结合图3介绍该字符注意力卷积网络。在本实施例一个可选的实施方式中，该字符注意力卷积网络包括：包括多个串联连接的卷积层的第一卷积网络，包括多个串联连接的卷积层的第二卷积网络，其中，第一卷积网络又可以称为下采样和上采样网络。其中：所述第一卷积网络中的第i个卷积层通过注意力模型与所述第二卷积网络中的第j个卷积层串联连接，i依次取2至N，j依次取M至1，所述N为所述第一卷积网络中卷积层的数量，所述M为第二卷积网络中卷积层的数量。

在如图3所示的字符注意力卷积网络中，第一卷积网络中包括5个卷积层，分别为阶段1到阶段5所对应的卷积层。从图3中可以看出，第一卷积网络中的多个卷积层串联连接。在如图3所示的字符注意力卷积网络中，第二卷积网络包括4个卷积层，且该4个卷积层依次串联连接。从图3中还可以看出，第一卷积网络中的阶段2通过注意力模型(AttentionModle，简称A)与第二卷积网络中的第4个卷积层串联连接，第一卷积网络中的阶段3通过注意力模型A与第二卷积网络中的第3个卷积层串联连接，第一卷积网络中的阶段4通过注意力模型A与第二卷积网络中的第2个卷积层串联连接，第一卷积网络中的阶段5通过注意力模型A与第二卷积网络中的第1个卷积层串联连接。

需要说明的是，在本实施例中，注意力模型A的输入为第一卷积网络中对应阶段输出的特征图，以及该特征图的注意力图。该特征图的注意力图为二值化图，如图3中阶段2至阶段5上方的附图，即为阶段2至阶段5输出的特征图的注意力图，该注意力图中字符区域用白色表示，该注意力图中背景区域用黑色表示，其中，背景区域待处理图像中不包含字符的区域。

在一个可选的实施方式中，步骤S202，基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图包括如下步骤：

步骤S2021，通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像，其中，所述第一卷积网络中的每个卷积层输出一个第一特征图像，所述第一特征图像中包括各个字符的字符区域和类型预测结果；

步骤S2022，将每个所述第一特征图像和每个所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像；

步骤S2023，利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图。

在本实施例中，首先，通过第一卷积网络对待处理图像进行卷积处理，得到N个第一特征图像。例如，如图3所示，通过如图3所示的5个阶段所对应的卷积层(或者5个卷积层)对待处理图像进行卷积处理，得到5个第一特征图像，其中，5个卷积层中的每个卷积层均对应一个第一特征图。具体过程描述如下：首先，获取待处理图像，然后，通过阶段1的卷积层对待处理图像进行卷积处理，得到第一个第一特征图像，然后，第一个第一特征图像经过阶段2的卷积层进行卷积处理，得到第二个第一特征图像，之后，第二个第一特征图像经过阶段3的卷积层进行卷积处理，得到第三个第一特征图像，再之后，第三个第一特征图像经过阶段4的卷积层进行卷积处理，得到第四个第一特征图像，最后，第四个第一特征图像经过阶段5的卷积层进行卷积处理，得到第五个第一特征图像。

在得到N个第一特征图之后，就可以将每个第一特征图像和每个第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像。例如，将第二个第一特征图像和第二个第一特征图像的注意力图输入至与阶段2的卷积层对应的注意力模型中进行处理，得到一个第二特征图像；又例如，将第三个第一特征图像和第三个第一特征图像的注意力图输入至与阶段3的卷积层对应的注意力模型中进行处理，得到又一个第二特征图像；又例如，第四个第一特征图像和第四个第一特征图像的注意力图输入至与阶段4的卷积层对应的注意力模型中进行处理，得到又一个第二特征图像；又例如，第五个第一特征图像和第五个第一特征图像的注意力图输入至与阶段5的卷积层对应的注意力模型中进行处理，得到又一个第二特征图像。

在得到N个第二特征图像之后，就可以利用第二卷积网络对N个第二特征图像进行卷积处理，得到字符预测图。

在一个可选的实施方式中，如果第一卷积网络中包括可形变卷积层，那么步骤S2021包括如下步骤；

步骤S11，获取所述第一卷积网络中可形变卷积层的输入数据，其中，所述可形变卷积层的输入数据为所述第一卷积网络中所述可形变卷积层的上一个卷积层的输出的第一特征图像；

步骤S12，获取所述可形变卷积层所需的位移量；

步骤S13，基于所述可形变卷积层所需的位移量对所述输入数据进行卷积计算，得到对应的第一特征图像。

如图3所示，在本实施例中，可形变卷积层运用在第一卷积网络的阶段4和阶段5。在阶段4和阶段5运用可形变卷积层，能够带来更高的稳定性，同时为字符识别调整了感受域。如图4和图5所示，图4所示的即为在未采用可形变卷积层之后得到的特征图，图5所示的即为在采用可形变卷积层之后得到特征图。一般情况下，可形变卷积层的卷积核大小默认设置为3x3，可形变卷积层之后的卷积层卷积核大小为3x1，例如，如图3所示，第一卷积网络中阶段4和阶段5的卷积核为3x3，第二卷积网络中前两个卷积层的卷积核为3x1。

图4所示的为正常卷积的示意图，如图4所示，背景区域被包含在卷积核的计算覆盖范围内。在正常卷积在感受域固定的情况下，会采样到混杂的信号，因此往往在背景区域部分错误地预测出字符。运用3x1和卷积核和可形变卷积层之后，可以获得调整后更好更稳定的感受域，从而在背景正确地预测。由于在应用中多余背景的广泛存在，这样的变更对算法的稳定性有巨大的提升。

综上，在本实施例中，所述可形变卷积层的卷积核为3*3，所述第二卷积网络的前Q个卷积层的卷积核为3*1，其中，Q大于零小于M。

通过上述描述可知，在本实施例中，采用可形变卷积和异化的卷积核提取图片特征，能够适应图片边缘的变化和图片噪声。同时，在本实施例中，采用基于全卷积的网络结构，可以适应不同大小的场景文字图片，具有更好的可用性。

在一个可选的实施方式中，步骤S2022，将每个所述第一特征图像和每个所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像包括如下步骤：

步骤S21，通过公式对所述第一特征图像和所述注意力图像进行处理，得到所述第二特征图像，其中，F_i为所述第一特征图像，A为所述注意力图像，F₀为所述第二特征图像。

其中，采用以下方式得到所述第一特征图像的注意力图像：对所述第一特征图像进行卷积处理，得到卷积处理结果；将所述卷积处理结果中字符区域内像素点的像素值设置为第一数值，并将所述卷积处理结果中背景区域内像素点的像素值设置为第二数值，进而得到注意力图像。

在本实施例中，在字符注意力卷积网络中注意力模块扮演了重要的角色。自然场景文字识别受限于复杂的背景、阴影、曲形文字分布等，此外，字符在图片中通常比较集中，算法将其难以分开。为了处理这些挑战，字符注意力卷积网使用一个注意力模块来增强前景文字，弱化背景同时帮助分离字符。

注意力模块可以用以下公式总结：其中，F_i为所述第一特征图像，A为所述注意力图像，F₀为所述第二特征图像。

在本实施例中，注意力图可以由两个卷积层和一个softmax分类器生成。具体地，可以通过这两个卷积层对第一特征图像进行卷积处理，得到卷积处理结果；然后，通过softmax分类器对该卷积处理结果进行分类，将将所述卷积处理结果中字符区域内像素点的像素值设置为第一数值(例如1)，并将所述卷积处理结果中背景区域内像素点的像素值设置为第二数值(例如0)，进而得到第一特征图像的注意力图像。

需要说明的是，在本实施例中，在计算F_i和(1+A)的点乘时，需要将注意力图像变换为与F_i相同维度。不同于其他注意力模型，字符注意力卷积网络中的注意力模型是有监督训练的，并且更加简洁。

在本实施例中，通过在卷积神经网络中加入注意力模型，能够增强图像中的游泳信号，同时抑制噪声。

在一个可选的实施方式中，步骤S2023，利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图包括如下步骤：

步骤S31，将所述第一卷积网络中的第i个卷积层输出的第二特征图像输入至所述第二卷积网络中与所述第i个卷积层相对应的第j个卷积层中进行卷积处理；

步骤S32，将所述第二卷积网络中最后一个卷积层的输出结果作为所述字符预测图；其中，所述第二卷积网络中第一个卷积层的输入为所述第一卷积网络中的第N个卷积层输出的第二特征图像，所述第二卷积网络中除第一个卷积层之外的其他卷积层的输入为其上一个卷积层的输出和所述第一卷积网络中的相对应卷积层输出的第二特征图像。

例如，如图3所示，注意力模型A1(即，第一卷积网络中的第5个卷积层)输出的第二特征图像经过第二卷积网络的第1个卷积层进行卷积处理，得到特征图M1；然后，将特征图M1和注意力模型A2(即，第一卷积网络中的第4个卷积层)输出的第二特征图像经过第二卷积网络的第2个卷积层进行卷积处理，得到特征图M2；之后，将特征图M2和注意力模型A3(即，第一卷积网络中的第3个卷积层)输出的第二特征图像经过第二卷积网络的第3个卷积层进行卷积处理，得到特征图M3；最后，将特征图M3和注意力模型A4(即，第一卷积网络中的第2个卷积层)输出的第二特征图像经过第二卷积网络的第4个卷积层进行卷积处理，得到特征图M4，其中，特征图M4即为字符预测图。

通过上述描述可知，在本实施例中，为了识别不同大小、比例的字符，卷积层使用一个类金字塔结构(即，第一卷积网络和第二卷积网络的结构)来合并不同阶段的特征，以适应图片比例的变化，进而提高字符注意力卷积网络的鲁棒性。在本实施例中，字符注意力卷积网络最终的输出(即，第二卷积网络中最后一个卷积层的输出)形状是其中，H和W分别为待处理图像的高度和宽度，C代表包括字符类型和背景类型的数量和。例如，待处理图像中包括英文字母，那么该字符类型即为26个英文字母所对应的26个类型，再加上一个背景类型，此时C＝27个类型。如果待处理图像中包括中文，那么C表示的该中文所属的中文文字集和背景类型的数量和。在本实施例中，于CA-FCN的输出是二维分布的，因此本实施例所提供的字符注意力卷积网络可以处理各种形状的文字。

在按照上述处理方式得到字符预测图之后，就可以基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型。

如果各个字符的类型预测结果为字符区域中的每个像素点所属于每个预设字符类型的概率值；那么基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型包括如下步骤：

步骤S2061，将所述字符预测图转换为二值图，并在所述二值图中确定各个字符的字符区域；

步骤S2062，计算字符区域U_x中的全部像素点所属于预设字符类型P_y的概率值的平均值，得到多个平均值，其中，x依次取1至X，y依次取1至Y，X为所述字符区域的数量，Y为所述预设字符类型的数量；

步骤S2063，将所述多个平均值中最大平均值所对应的预设字符类型确定为所述字符区域U_x的字符类型。

通过上述描述可知，在本实施例中，如图6所示，首先，将字符预测图转换为二值图，并在所述二值图中确定各个字符的字符区域。每个字符区域中包括多个像素点，各个字符的类型预测结果为字符区域中的每个像素点所属于每个预设字符类型的概率值。其中，预设字符类型为基于每个字符所属字集来确定的。如果该字符区域中包含的为英文字符，那么计算该字符区域中每个像素点所属于26个英文字母中每个英文字母(预设字符类型)的概率值的平均值，进而，得到26个平均值。然后，将26个平均值中最大平均值所对应的预设字符类型确定为该字符区域的字符类型。

在得到待处理图像中每个字符区域的字符类型之后，就可以基于所述字符类型得到所述待处理图像中所包含的目标文字序列，具体包括：

确定每个字符区域的字符类型所对应的字符符号，得到X个字符符号；然后，按照所述字符预测图中各个字符区域的顺序对所述X个字符符号进行排序，得到所述目标文字序列。

例如，针对待处理图像中的各个字符区域，从阅读顺序得到序列化的文字预测，得到目标文字序列。

在本发明实施例中，需要预先对字符注意力卷积网络的原始字符注意力卷积网络进行训练，具体训练过程描述如下：

首先，获取待训练图像，其中，所述待训练图像中包括各个字符的字符区域和每个字符的字符类型；

然后，通过初始字符注意力卷积网络对所述待训练图像进行处理，得到所述待训练图像的预测结果图像，其中，所述预测结果图像中包括所述待训练图像中各个字符的预测字符区域和每个字符的预测字符类型；

之后，利用所述预测结果图像预测所述待训练图像中包含的目标文字序列；

最后，通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，以通过计算结果调整所述初始字符注意力卷积网络的网络参数。

在本实施例中，在获取到待训练图像之后，可以对所述待训练图像中的字符进行标注，得到字符的原始外接矩形框，其中，该原始外接矩形框的坐标标识为(x_min，y_min，x_max，y_max)；其中，该原始外接矩形框为能够覆盖所有字符笔画的最小外接矩形。然后，对所述原始外接矩形框进行调整，得到所述待训练图像中字符目标外接矩形框，并将所述目标外接矩形框确定为所述待训练图像中字符的字符区域。

在本实施例中，可以通过公式对所述原始外接矩形框进行调整，其中，w＝x_max-x_min，h＝y_max-y_min，s为字符区域的内缩比例，x_min和x_max分别为所述原始外接矩形框最小横坐标和最大横坐标，y_min和y_max分别为所述原始外接矩形框最小纵坐标和最大纵坐标。

在网络的训练过程中，对字符区域进行内缩是为了避免字符区域之间的相互覆盖，同时也可以降低后续处理的复杂度。需要特别指出的是，在字符注意力模块将s设置为0.5。

在本实施例中，在得到字符预测图之后，还可以按照另外一个内缩比例对字符预测图中的字符区域进行内缩处理，其中，此时将s设置为0.25。需要说明的是，在本实施例中，并不限定此时的内缩比例一定为0.25，还可以根据实际需要选取其他数值。

在对待训练图像进行标注之后，就可以利用已标注的待训练图像对初始字符注意力卷积网络，得到待训练图像的预测结果图像；之后，利用所述预测结果图像预测所述待训练图像中包含的目标文字序列。最后，通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，以通过计算结果调整所述初始字符注意力卷积网络的网络参数。

可选地，通过损失函数对所述初始字符注意力卷积网络进行损失函数计算包括如下步骤：

通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，其中，L_p为字符预测损失函数，L_a为字符注意力损失函数，i表示所述第一卷积网络中的第i个卷积层，α为权重值，优选地，α的取值为1.0。

字符预测损失函数表示为：

字符注意力损失函数表示为：

其中，H和W分别为所述待处理图像的高度和宽度，C表示包括字符类型和背景类型的数量和，X_m,n,c为所述预测结果图像所对应矩阵数据的一个元素，Y_m,n表示元素X_m,n,c所属的字符类型，W_m,n为Y_m,n表示元素X_m,n,c的权重。

假设，且N_neg为特征图中背景像素点的数量，则权重W_m,n的计算方式为：其中，如果Y_m,n大于零，则否则W_m,n＝1。

实施例3：

本发明实施例还提供了一种图像处理装置，该图像处理装置主要用于执行本发明实施例上述内容所提供的图像处理方法，以下对本发明实施例提供的图像处理装置做具体介绍。

图7是根据本发明实施例的一种图像处理装置的示意图，如图7所示，该图像处理装置主要包括获取单元10，图像处理单元20和确定单元30，其中：

获取单元10，用于获取待处理图像；

图像处理单元20，用于基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；

确定单元30，用于基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

在本发明实施例中，首先，获取待处理图像，然后，基于字符注意力卷积网络对待处理图像进行处理，得到字符预测图，其中，字符预测图中包括各个字符的字符区域和各个字符的类型预测结果，最后，基于字符预测图确定每个字符区域内的字符类型，并基于字符类型得到所述待处理图像中所包含的目标文字序列。

在本实施例中，通过字符注意力卷积网络提取待处理图像中的特征，其中，该特征为二维空间的特征；并利用该二维空间的特征产生待处理图像中每个位置的预测结果，包括字符区域和背景区域的区分，字符区域内字符所属的类型。本发明提出图像处理方法改进了现有场景文字识别技术，修正了基础框架的局限，提高了现有技术的识别精度，大幅增强了现有技术的泛化能力和适应能力，并能兼容曲形和非正常排列的文字，从而提高文字识别相关系统的可用性，进而缓解了现有的文字识别算法识别精度较低，且识别容易受到局限的技术问题。

可选地，所述字符注意力卷积网络包括：包括多个串联连接的卷积层的第一卷积网络，包括多个串联连接的卷积层的第二卷积网络；其中：所述第一卷积网络中的第i个卷积层通过注意力模型与所述第二卷积网络中的第j个卷积层串联连接，i依次取2至N，j依次取M至1，所述N为所述第一卷积网络中卷积层的数量，所述M为第二卷积网络中卷积层的数量。

可选地，图像处理单元20包括：第一处理模块，用于通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像，其中，所述第一卷积网络中的每个卷积层输出一个第一特征图像，所述第一特征图像中包括各个字符的字符区域和类型预测结果；第二处理模块，用于将每个所述第一特征图像和每个所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像；第三处理模块，用于利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图。

可选地，第三处理模块用于：将所述第一卷积网络中的第i个卷积层输出的第二特征图像输入至所述第二卷积网络中与所述第i个卷积层相对应的第j个卷积层中进行卷积处理；将所述第二卷积网络中最后一个卷积层的输出结果作为所述字符预测图；其中，所述第二卷积网络中第一个卷积层的输入为所述第一卷积网络中的第N个卷积层输出的第二特征图像，所述第二卷积网络中除第一个卷积层之外的其他卷积层的输入为其上一个卷积层的输出和所述第一卷积网络中的相对应卷积层输出的第二特征图像。

可选地，第一处理模块还用于：在第一卷积网络中包括可形变卷积的情况下，获取所述第一卷积网络中可形变卷积层的输入数据，其中，所述可形变卷积层的输入数据为所述第一卷积网络中所述可形变卷积层的上一个卷积层的输出的第一特征图像；获取所述可形变卷积层所需的位移量；基于所述可形变卷积层所需的位移量对所述输入数据进行卷积计算，得到对应的第一特征图像。

可选地，所述可形变卷积层的卷积核为3*3，所述第二卷积网络的前Q个卷积层的卷积核为3*1，其中，Q大于零小于M。

可选地，第二处理模块用于：通过公式对所述第一特征图像和所述注意力图像进行处理，得到所述第二特征图像，其中，F_i为所述第一特征图像，A为所述注意力图像，F₀为所述第二特征图像。

可选地，该装置采用以下方式得到所述第一特征图像的注意力图像：对所述第一特征图像进行卷积处理，得到卷积处理结果；将所述卷积处理结果中字符区域内像素点的像素值设置为第一数值，并将所述卷积处理结果中背景区域内像素点的像素值设置为第二数值。

可选地，该装置还用于：获取待训练图像，其中，所述待训练图像中包括各个字符的字符区域和每个字符的字符类型；通过初始字符注意力卷积网络对所述待训练图像进行处理，得到所述待训练图像的预测结果图像，其中，所述预测结果图像中包括所述待训练图像中各个字符的预测字符区域和每个字符的预测字符类型；利用所述预测结果图像预测所述待训练图像中包含的目标文字序列；通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，以通过计算结果调整所述初始字符注意力卷积网络的网络参数。

可选地，该装置还用于：在获取到所述待训练图像之后，对所述待训练图像中的字符进行标注，得到字符的原始外接矩形框；对所述原始外接矩形框进行调整，得到所述待训练图像中字符目标外接矩形框，并将所述目标外接矩形框确定为所述待训练图像中字符的字符区域。

可选地，该装置还用于：通过公式对所述原始外接矩形框进行调整，其中，w＝x_max-x_min，h＝y_max-y_min，s为字符区域的内缩比例，x_min和x_max分别为所述原始外接矩形框最小横坐标和最大横坐标，y_min和y_max分别为所述原始外接矩形框最小纵坐标和最大纵坐标。

可选地，该装置还用于：通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，其中，L_p为字符预测损失函数，L_a为字符注意力损失函数，i表示所述第一卷积网络中的第i个卷积层，α为权重值。

可选地，所述字符预测损失函数表示为：

所述字符注意力损失函数表示为：

可选地，该装置还用于：在各个字符的类型预测结果为字符区域中的每个像素点所属于每个预设字符类型的概率值的情况下，将所述字符预测图转换为二值图，并在所述二值图中确定各个字符的字符区域；计算字符区域U_x中的全部像素点所属于预设字符类型P_y的概率值的平均值，得到多个平均值，其中，x依次取1至X，y依次取1至Y，X为所述字符区域的数量，Y为所述预设字符类型的数量；将所述多个平均值中最大平均值所对应的预设字符类型确定为所述字符区域U_x的字符类型。

可选地，该装置还用于：确定每个字符区域的字符类型所对应的字符符号，得到X个字符符号；按照所述字符预测图中各个字符区域的顺序对所述X个字符符号进行排序，得到所述目标文字序列。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像；

基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；

基于所述字符预测图确定每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

2.根据权利要求1所述的方法，其特征在于，所述字符注意力卷积网络包括：包括多个串联连接的卷积层的第一卷积网络，包括多个串联连接的卷积层的第二卷积网络；其中：

所述第一卷积网络中第i个卷积层通过注意力模型与所述第二卷积网络中第j个卷积层串联连接，i依次取2至N，j依次取M至1，所述N为所述第一卷积网络中卷积层的数量，所述M为第二卷积网络中卷积层的数量。

3.根据权利要求2所述的方法，其特征在于，基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图包括：

通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像，其中，所述第一卷积网络中的每个卷积层输出一个第一特征图像，所述第一特征图像中包括各个字符的字符区域和类型预测结果；

将每个所述第一特征图像和每个所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像；

利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图。

4.根据权利要求3所述的方法，其特征在于，利用所述第二卷积网络对所述N个第二特征图像进行卷积处理，得到所述字符预测图包括：

将所述第一卷积网络中的第i个卷积层输出的第二特征图像输入至所述第二卷积网络中与所述第i个卷积层相对应的第j个卷积层中进行卷积处理；

将所述第二卷积网络中最后一个卷积层的输出结果作为所述字符预测图；

其中，所述第二卷积网络中第一个卷积层的输入为所述第一卷积网络中的第N个卷积层输出的第二特征图像，所述第二卷积网络中除第一个卷积层之外的其他卷积层的输入为其上一个卷积层的输出和所述第一卷积网络中的相对应卷积层输出的第二特征图像。

5.根据权利要求3所述的方法，其特征在于，所述第一卷积网络中包括可形变卷积层；

通过所述第一卷积网络对所述待处理图像进行卷积处理，得到N个第一特征图像包括：

获取所述第一卷积网络中可形变卷积层的输入数据，其中，所述可形变卷积层的输入数据为所述第一卷积网络中所述可形变卷积层的上一个卷积层输出的第一特征图像；

获取所述可形变卷积层所需的位移量；

基于所述可形变卷积层所需的位移量对所述输入数据进行卷积计算，得到对应的第一特征图像。

6.根据权利要求3所述的方法，其特征在于，所述可形变卷积层的卷积核为3*3，所述第二卷积网络的前Q个卷积层的卷积核为3*1，其中，Q大于零小于M。

7.根据权利要求3所述的方法，其特征在于，将所述第一特征图像和所述第一特征图像的注意力图像输入至对应的注意力模型中进行处理，得到N个第二特征图像包括：

通过公式对所述第一特征图像和所述注意力图像进行处理，得到所述第二特征图像，其中，F_i为所述第一特征图像，A为所述注意力图像，F₀为所述第二特征图像。

8.根据权利要求3至7中任一项所述的方法，其特征在于，采用以下方式得到所述第一特征图像的注意力图像：

对所述第一特征图像进行卷积处理，得到卷积处理结果；

将所述卷积处理结果中字符区域内像素点的像素值设置为第一数值，并将所述卷积处理结果中背景区域内像素点的像素值设置为第二数值，进而得到所述注意力图像。

9.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取待训练图像，其中，所述待训练图像中包括各个字符的字符区域和每个字符的字符类型；

通过初始字符注意力卷积网络对所述待训练图像进行处理，得到所述待训练图像的预测结果图像，其中，所述预测结果图像中包括所述待训练图像中各个字符的预测字符区域和每个字符的预测字符类型；

利用所述预测结果图像预测所述待训练图像中包含的目标文字序列；

通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，以通过计算结果调整所述初始字符注意力卷积网络的网络参数。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在获取到所述待训练图像之后，对所述待训练图像中的字符进行标注，得到字符的原始外接矩形框；

对所述原始外接矩形框进行调整，得到所述待训练图像中字符目标外接矩形框，并将所述目标外接矩形框确定为所述待训练图像中字符的字符区域。

11.根据权利要求10所述的方法，其特征在于，对所述原始外接矩形框进行调整包括：

通过公式对所述原始外接矩形框进行调整，其中，w＝x_max-x_min，h＝y_max-y_min，s为字符区域的内缩比例，x_min和x_max分别为所述原始外接矩形框最小横坐标和最大横坐标，y_min和y_max分别为所述原始外接矩形框最小纵坐标和最大纵坐标。

12.根据权利要求9所述的方法，其特征在于，通过损失函数对所述初始字符注意力卷积网络进行损失函数计算包括：

通过损失函数对所述初始字符注意力卷积网络进行损失函数计算，其中，L_p为字符预测损失函数，L_a为字符注意力损失函数，i表示所述第一卷积网络中的第i个卷积层，α为权重值。

13.根据权利要求12所述的方法，其特征在于，

所述字符预测损失函数表示为：

所述字符注意力损失函数表示为：

14.根据权利要求1所述的方法，其特征在于，所述各个字符的类型预测结果为字符区域中的每个像素点所属于每个预设字符类型的概率值；

基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型包括：

将所述字符预测图转换为二值图，并在所述二值图中确定各个字符的字符区域；

计算字符区域U_x中的全部像素点所属于预设字符类型P_y的概率值的平均值，得到多个平均值，其中，x依次取1至X，y依次取1至Y，X为所述字符区域的数量，Y为所述预设字符类型的数量；

将所述多个平均值中最大平均值所对应的预设字符类型确定为所述字符区域U_x的字符类型。

15.根据权利要求14所述的方法，其特征在于，基于所述字符类型得到所述待处理图像中所包含的目标文字序列包括：

确定每个字符区域的字符类型所对应的字符符号，得到X个字符符号；

按照所述字符预测图中各个字符区域的顺序对所述X个字符符号进行排序，得到所述目标文字序列。

16.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待处理图像；

图像处理单元，用于基于字符注意力卷积网络对所述待处理图像进行处理，得到字符预测图，其中，所述字符预测图中包括各个字符的字符区域和各个字符的类型预测结果；

确定单元，用于基于所述字符预测图确定所述字符预测图中每个字符区域内的字符类型，并基于所述字符类型得到所述待处理图像中所包含的目标文字序列。

17.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至15中任一项所述的方法。

18.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至15中任一项所述的方法。