CN111723627A

CN111723627A - 一种图像处理方法、装置和电子设备

Info

Publication number: CN111723627A
Application number: CN201910223129.1A
Authority: CN
Inventors: 李保俊; 韦涛; 李斌
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-29

Abstract

本发明实施例提供了一种图像处理方法、装置和电子设备，其中，所述方法包括：获取待识别图像；提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息；进而能够提高对非水平文本的识别率，从而提高了对图像中文本识别的准确率。

Description

一种图像处理方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法、装置和电子设备。

背景技术

如今，很多场景都需要进行图像识别，比如交通监控系统拍摄到车辆闯红灯后，需要对拍摄图像进行识别确定车辆的车牌号；又比如用户下载的很多资料可能是图片格式的，则需要将图片转换成文档；还比如拍照翻译等等。

现有技术进行图像识别的方法是，先定位图像中的文字区域，然后再识别文字区域中的文字，其中，该文字区域是水平区域；通常很多图像中的文字都不是水平的如倾斜，导致从水平区域中检测非水平文字的识别效果差。

发明内容

本发明实施例提供一种图像处理方法，以提高识别图像中文本的准确率。

相应的，本发明实施例还提供了一种图像处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种图像处理方法，具体包括：获取待识别图像；提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

可选地，所述提取所述待识别图像的特征图像，包括：采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像。

可选地，所述依据所述特征图像确定所述待识别图像中的文本区域，包括：依据所述特征图像进行水平框检测，确定目标水平框，所述目标水平框内包含所述待识别图像中的文本；对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点；依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域。

可选地，所述依据所述特征图像进行水平框检测，确定目标水平框，包括：针对一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框；依据在各个尺度上的水平框，确定目标水平框。

可选地，所述目标水平框包括多个，所述对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点，包括：针对一个目标水平框，采用分割网络依据所述目标水平框对应尺度的特征图像进行文本分割，确定所述目标水平框中文本的像素点。

可选地，所述依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域，包括：确定所述目标水平框中文本像素点对应的最小外接矩形；将所述最小外接矩形对应的区域，确定为所述待识别图像中的文本区域。

可选地，所述文本区域包括多个，所述依据所述文本区域确定所述特征图像中的特征区域，包括：针对每个文本区域，确定所述文本区域对应尺度的特征图像；从所述文本区域对应尺度的特征图像中，截取所述文本区域对应的特征区域。

可选地，所述文本区域包括多个，所述依据所述文本区域确定所述特征图像中的特征区域，包括：针对每个文本区域，从最大尺度的特征图像中截取所述文本区域对应的特征区域。

可选地，所述依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息，包括：将调整后的特征区域输入至识别网络中，得到对应文本区域中的文本信息。

可选地，所述的方法还包括预处理的步骤：确定所述待识别图像的均值，并对所述待识别图像进行减均值处理。

本发明实施例还公开了一种图像处理装置，具体包括：图像获取模块，用于获取待识别图像；区域确定模块，用于提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；区域调整模块，用于依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；文本识别模块，用于依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

可选地，所述区域确定模块包括：特征提取子模块，用于采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像。

可选地，所述区域确定模块包括：水平框检测子模块，用于依据所述特征图像进行水平框检测，确定目标水平框，所述目标水平框内包含所述待识别图像中的文本；像素点确定子模块，用于对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点；文本区域确定子模块，用于依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域。

可选地，所述水平框检测子模块，用于针对一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框；依据在各个尺度上的水平框，确定目标水平框。

可选地，所述目标水平框包括多个，所述像素点确定子模块，用于针对一个目标水平框，采用分割网络依据所述目标水平框对应尺度的特征图像进行文本分割，确定所述目标水平框中文本的像素点。

可选地，所述文本区域确定子模块，用于确定所述目标水平框中文本像素点对应的最小外接矩形；将所述最小外接矩形对应的区域，确定为所述待识别图像中的文本区域。

可选地，所述文本区域包括多个，所述区域调整模块包括：第一特征区域调整子模块，用于针对每个文本区域，确定所述文本区域对应尺度的特征图像；从所述文本区域对应尺度的特征图像中，截取所述文本区域对应的特征区域。

可选地，所述文本区域包括多个，所述区域调整模块包括：第二特征区域调整子模块，用于针对每个文本区域，从最大尺度的特征图像中截取所述文本区域对应的特征区域。

可选地，所述文本识别模块，用于将调整后的特征区域输入至识别网络中，得到对应文本区域中的文本信息。

可选地，所述的装置还包括：预处理模块，用于确定所述待识别图像的均值，并对所述待识别图像进行减均值处理。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的图像处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待识别图像；提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

可选地，还包含用于进行预处理的指令：确定所述待识别图像的均值，并对所述待识别图像进行减均值处理。

本发明实施例包括以下优点：

本发明实施例中，可以获取待识别图像，然后提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；再依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平，依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息；进而能够提高对非水平文本的识别率，从而提高了对图像中文本识别的准确率。

附图说明

图1是本发明的一种图像处理方法实施例的步骤流程图；

图2是本发明的一种图像处理方法可选实施例的步骤流程图；

图3是本发明的一种待识别图像的示意图；

图4是本发明的一种检测网络的训练方法实施例步骤流程图；

图5是本发明的一种分割网络的训练方法实施例步骤流程图；

图6是本发明的一种识别网络的训练方法实施例步骤流程图；

图7是本发明的一种图像处理装置实施例的结构框图；

图8是本发明的一种图像处理装置可选实施例的结构框图；

图9根据一示例性实施例示出的一种用于图像处理的电子设备的结构框图；

图10是本发明根据另一示例性实施例示出的一种用于图像处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，将待识别图像对应特征图像中，与该待识别图像中文本区域对应的特征区域调整至水平，然后再依据调整后的特征区域进行文本识别，进而能够提高对非水平文本的识别率，从而提高了对图像中文本识别的准确率。

参照图1，示出了本发明的一种图像处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待识别图像。

步骤104、提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域。

步骤106、依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平。

步骤108、依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

本发明实施例中，可以获取需要进行文本识别的图像，并将该图像称为待识别图像；然后可以对待识别图像进行文本识别，确定该待识别图像对应的文本信息。其中，所述待识别图像中的文本可以包括多种语种，如汉语、英语、韩语、日语等，本发明实施例对此不作限制。

本发明实施例中，可以对所述待识别图像进行特征提取，提取所述待识别图像对应的特征矩阵，所述特征矩阵中的元素与所述待识别图像中的像素点对应，每个元素的值为所述待识别图像中与该元素对应的像素点的特征信息；其中，为了便于后续描述，可以将特征矩阵称为特征图像。本发明的一个示例中，可以将所述待识别图像输入至特征提取网络中，由特征提取网络对所述待识别图像进行特征提取，确定所述待识别图像对应的特征图像；其中，所述特征提取网络可以按照需求设置如特征金字塔网络等，本发明实施例对此不作限制。

然后可以依据所述特征图像进行分析，确定所述待识别图像中的文本区域，所述待识别图像中的文本区域可以包括多个；然后针对每个文本区域，可以在所述特征图像中查找与所述文本区域对应的特征区域，然后依据所述特征区域进行文本识别。本发明实施例中，所述待识别图像中文本的排版可能是水平的(后续可以称为文本是水平的)，也可能是非水平的如倾斜、环形、圆形等(后续可以称为文本是非水平的)，因此对应的文本区域、特征区域均可能是水平的，也可能是非水平的；为了提高文本识别的准确性，可以将特征区域调整水平后，再进行文本识别。进而在确定所述文本区域对应的特征区域后，可以判断该特征区域是否是水平的；本发明的一个示例中，所述文本区域可以是矩形区域，对应的特征区域也可以是矩形区域，则确定特征区域是否是水平的方式可以包括多种，例如确定特征区域的一个边与特征图像的一个边的夹角，若该夹角不是0°，也不是90°，则可以确定特征区域不是水平的；若该夹角是0°或90°，则可以确定特征区域是水平的。

若该特征区域不是水平的，则可以将该特征区域调整至水平，然后再依据水平的特征区域进行文本识别，例如将调整后的特征区域输入至识别网络中，由该识别网络依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息，进而能够提高对非水平文本的识别率。当然若所述特征区域是水平的，则可以直接依据水平的特征区域进行文本识别，确定对应的文本信息。

综上，本发明实施例中，可以获取待识别图像，然后提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；再依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平，依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息；进而能够提高对非水平文本的识别率，从而提高了对图像中文本识别的准确率。

参照图2，示出了本发明的一种图像处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、获取待识别图像。

本发明实施例中，可以获取待识别图像，然后参照步骤204-步骤218对所述待识别图像中的文本进行识别，得到对应的文本信息。

步骤204、确定所述待识别图像的均值，并对所述待识别图像进行减均值处理。

本发明实施例中，在提取所述待识别图像的特征之前，可以对所述待识别图像进行预处理，再依据预处理后的待识别图像进行特征提取，以提高对特征提取的准确性，进而提高对图像中文本识别的准确性。本发明的一个示例中，对所述待识别图像的预处理可以包括减均值处理，其中，可以依据所述待识别图像中各像素点的像素值，计算所述待识别图像的均值，然后将所述待识别图像各像素点对应的像素值减去该均值，实现减均值处理；其中，所述像素值可以是亮度值，也可以是其他参数值，本发明实施例对此不作限制。

步骤206、采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像。

本发明的一个示例中，可以采用特征金字塔网络对预处理后的待识别图像进行特征提取，其中，可以将所述预处理后的待识别图像输入至特征金字塔网络中，所述特征金字塔网络可以对所述待识别图像进行特征提取，输出多个尺度的特征图像。本发明实施例中，所述尺度可以是指特征图像的尺寸，例如预处理后的待识别图像的尺寸为256*256，特征金字塔网络对该待识别图像进行特征提取后，输出3个尺度的特征图像；这3个特征图像对应的尺度可以按照2倍的关系递减，分别是：128*128、64*64和32*32；当然每个尺度之间的递减关系可以按照需求设置，本发明实施例对此不作限制。

然后可以依据多个尺度的特征图像，确定所述待识别图像中的文本区域，其中，可以先初步检测待识别图像中包含文字的水平框，然后再进一步对水平框中的文本进行分离，依据分离结果确定所述待识别图像中的文本区域，所述文本区域可以是指待识别图像中包含文本且面积最小的区域。具体可以参照步骤208-步骤212：

步骤208、依据所述特征图像进行水平框检测，确定目标水平框，所述目标水平框内包含所述待识别图像中的文本。

本发明实施例中，可以先依据多个尺度的特征图像进行水平框的检测，然后从检测出的多个水平框中确定目标水平框，所述水平框内包含所述待识别图像中的文本；其中，一个目标水平框中的文本可以包括一个，也可以包括多个，具体可以依据文本之间的间隔确定，当相邻的两个文本之间间隔小于间隔阈值时，这两个相邻的文本处于可以同一个水平框，当相邻的两个文本之间的间隔大于间隔阈值时，这两个相邻的文本可以分别处于不同的水平框中；其中，所述间隔阈值可以按照需求设置，本发明实施例对此不作限制。其中，不同语种中一个文本的定义不同，例如若是汉语，一个文本可以是一个汉字，若是英语，一个文本可以是指一个单词，若是日语，一个文本可以是指一个片假名等等。本发明的一个示例中，所述水平框可以是指水平矩形框，所述水平矩形框的宽与待识别图像的宽平行，水平矩形框的长与待识别图像的长平行；其中，检测水平框的方式可以包括多种，例如检测文本最上、最下、最左、最右四个像素点，然后依据这四个像素点，确定能够框住该文本的水平矩形框，可以如图3中方框1所示。

其中，步骤208可以参照子步骤22-子步骤24实现：

子步骤22、针对一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框。

子步骤24、依据在各个尺度上的水平框，确定目标水平框。

本发明实施例中，可以预先训练检测网络(其中，所述检测网络的训练过程在后续进行说明)，然后采用训练后的检测网络实现对水平框的检测；其中，可以将特征金字塔网络提取的多个尺度的特征图像，输入至检测网络中，然后检测网络通过对各尺度的特征图像的处理，检测出目标水平框。

本发明的一个示例中，可以针对每一个尺度的特征图像，在该尺度的特征图像上进行水平框检测，确定在该尺度上的水平框和对应的第一概率；其中，所述第一概率是水平框中包含文本的概率，一个尺度上的水平框可以包括多个。然后可以依据该尺度上的各水平框的第一概率进行筛选，例如可以筛选出第一概率大于第一概率阈值的水平框，所述第一概率阈值可以按照需求设置，本发明实施例对此不作限制，以提高文本识别的准确率。

再根据在各尺度上的水平框和对应的第一概率，确定目标水平框。其中，由于在不同尺度上的水平框的尺度是不同的，因此可以以在最大尺度上确定的水平框为参考，对其他尺度上的水平框进行还原，如可以将其他尺度上的水平框的尺度还原为最大尺度；例如，待识别图像包括3个尺度的特征图像，分别为128*128、64*64和32*32，则可以以在128*128这个尺度上的水平框为参考，将在64*64这个尺度上的水平框放大两倍，将在32*32这个尺度上的水平框放大四倍。然后针对每个水平框，查找与该水平框重合度大于重合度阈值的水平框，所述重合度阈值可以按照需求设置如80％；再从该水平框和与该水平框重合度大于重合度阈值的水平框中，选取出第一概率最大的水平框作为目标水平框。例如待识别图像对应的水平框包括A1、A2、A3、A4、A5、A6、A7、A8，针对A1，查找到与A1重合度大于重合度阈值的水平框为A4、A5、A6；若A1的第一概率为90％，A4的第一概率为70％，A5的第一概率为30％，A6的第一概率为70％，则可以选取A1作为目标水平框；针对A2、A3、A7、A8也可以以此类推。

步骤210、对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点。

步骤212、依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域。

当所述待识别图像中文字是非水平时，所述水平框框出的区域可能不是包含文本且面积最小的区域(即文本区域)；因此可以对所述目标水平框框定的区域进行文本分割，分割出目标水平框中文本的像素点和非文本的像素点，再依据文本的像素点确定文本区域。

本发明的一个示例中，可以针对一个目标水平框，采用分割网络依据所述目标水平框对应尺度的特征图像进行文本分割，确定所述目标水平框中文本的像素点。其中，可以预先训练分割网络(分割网络训练的步骤在后续进行说明)，然后采用训练后的分割网络确定目标水平框中文本对应的像素点；其中，可以将各尺度的特征图像和目标水平框，输入训练后的分割网络中，由所述分割网络对各目标水平框中的文本进行分割，确定各个目标水平框中文本对应的像素点。分割网络进行文本分割的过程中，可以分别针对每一个目标水平框中的文本进行分割；其中，可以确定该目标水平框对应的尺度，然后依据该尺度的特征图像，确定该目标水平框中各像素点的第二概率，所述第二概率可以是指像素点是文本像素点的概率；然后从该目标水平框的像素点中，选取出第二概率大于第二概率阈值的像素点，作为该目标水平框中文本的像素点；其中，所述第二概率阈值可以按照需求设置，本发明实施例对此不作限制。

然后依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域，其中，一种实现方式可以参照子步骤42-44：

子步骤42、确定所述目标水平框中文本像素点对应的最小外接矩形。

子步骤44、将所述最小外接矩形对应的区域，确定为所述待识别图像中的文本区域。

其中，所述最小外接矩形可以是指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形；如图3中方框2所示。

步骤214、依据所述文本区域在所述特征图像中确定特征区域。

本发明的实施例中，依据所述文本区域在所述特征图像中确定特征区域的方式可以包括多种，本发明的一个示例中，一种依据所述文本区域在所述特征图像中确定特征区域的方式可以是，针对每个文本区域，确定所述文本区域对应尺度的特征图像；从所述文本区域对应尺度的特征图像中，截取所述文本区域对应的特征区域。

其中，很多待识别图像中可能很多文本比较小，为提高文本识别的准确率，本发明的一个示例中，一种依据所述文本区域在所述特征图像中确定特征区域的方式可以是，针对每个文本区域，从最大尺度的特征图像中截取所述文本区域对应的特征区域。

然后可以判断特征区域是否是水平的，其中，一种判断特征区域是否是水平的方式可以是，基于特征区域的一个顶点确定一条水平线，计算该条水平线与该顶点所在任意一边的夹角，若所述夹角不是0°，也不是90°，则确定特征区域不是水平的；若所述夹角是0°或90°，则可以确定特征区域是水平的；其中，所述水平线可以是指与所述特征图像任意一边平行的线。

步骤216、将所述特征区域调整至水平。

确定所述特征区域不是水平的时，可以将所述特征区域调整至水平，其中，一种将特征区域调整至水平的方式可以是，依据上述确定特征区域与水平线的角度，将所述特征区域调整至水平；例如基于特征区域的顶点A确定水平线，并计算顶点A所在边AB与这条水平线夹角为35°，则可以将特征区域围绕顶点A旋转35°，其中，旋转方向可以是边AB最快趋近水平线的方向。

步骤218、将调整后的特征区域输入至识别网络中，得到对应文本区域中的文本信息。

本发明实施例中，可以预先训练识别网络(识别网络的训练过程在后续进行说明)，然后采用训练后的识别网络对调整后的特征区域中的文本进行识别，确定对应的文本信息；其中，所述识别网络可以按照特征区域的像素点坐标，依次对每个特征区域，识别出对应文本区域中的文本信息并输出，进而可以得到所述待识别图像对应的文本信息。

综上，本发明实施例中，可以获取待识别图像，然后提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；再依据所述文本区域在所述特征图像中确定特征区域，将所述特征区域调整至水平，依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息；进而能够提高对非水平文本的识别率，从而提高了对图像中文本识别的准确率。

其次，本发明实施例在提取待识别图像之前，还可以确定所述待识别图像的均值，并对所述待识别图像进行减均值处理，进而能够提高提取的特征的准确性，进一步提高了文本识别的准确率。

进一步，本发明实施例中，可以先依据所述特征图像进行水平框检测，确定目标水平框，然后对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点，再依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域；进而能够准确的检测出待识别图像中的文本区域，进一步提高了文本识别的准确率。

再次，本发明实施例中，可以采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像；然后针对每一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框；依据所述在各个尺度上的水平框，确定目标水平框；进而提高了确定目标水平框的准确性，进一步提高了文本识别的准确率。

此外，本发明实施例中，针对每个文本区域，从最大尺度的特征图像中截取所述文本区域对应的特征区域；进而可以提高对尺寸较小文本识别的准确率。

本发明的另一个实施例中，分别对检测网络、分割网络和识别网络的训练过程进行说明，具体如下：

可以收集训练数据，所述训练数据可以包括：包含文本的训练图像和该训练图像对应的标注信息，其中，将一个训练图像和该训练图像对应的标注信息可以称为一组训练数据；所述标注信息可以包括：训练图像对应的参考文本信息、训练图像对应的参考目标水平框和参考目标水平框中文本的参考像素点。其中，所述训练图像中文本的排版可以包括水平的(可以包括文本正向水平、文本与水平的夹角为180°和竖直)，和，非水平的如倾斜的、环形的、圆形的等等，本发明实施例对此不作限制。

本发明实施例中，上述检测网络、分割网络和识别网络均是基于训练图像的特征图像和训练图像的标注信息进行训练的，其中，不同的网络采用的标注信息不同；因此可以先将训练图像输入至特征金字塔网络中，得到对应多个尺度的特征图像，然后依据多个尺度的特征图像和对应的标注信息，分别对这三个网络进行训练。在训练过程中，可以设计梯度平衡模块，用于协调检测网络、分割网络和识别网络三种的联合并行训练，降低模型训练的成本，提高模型训练的效率。

参照图4，示出了本发明的一种检测网络的训练方法实施例步骤流程图，具体包括如下步骤：

步骤402、收集第一训练数据，所述第一训练数据包括训练图像对应多个尺度的特征图像和所述训练图像对应的参考目标水平框。

步骤404、将训练图像对应多个尺度的特征图像输入至检测网络中，得到对应的目标水平框。

步骤406、依据所述训练图像对应的参考目标水平框和目标水平框，对所述检测网络的权值进行调整。

本发明实施例中，可以收集多组第一训练数据，一组第一训练数据可以包括一张训练图像对应多个尺度的特征图像和该训练图像对应的参考目标水平框。然后每次可以采用一组第一训练数据对检测网络进行训练：包括正向训练和反向训练，其中，所述正向训练可以包括：将该组第一训练数据中的训练图像对应多个尺度的特征图像输入至检测网络中，检测网络通过对多个尺度的特征图像进行处理，输出目标水平框；其中，检测网络确定目标水平框的过程与上述子步骤22-24类似，在此不再赘述。然后再对检测网络进行反向训练：可以将该组第一训练数据中训练图像对应的参考目标水平框，与检测网络输出的目标水平框进行比对，如对文本左上角像素点坐标相比对，以及对文本右下角坐标项比对；然后依据比对的结果对检测网络的权值进行调整，直至将该组第一训练数据中训练图像对应多个尺度的特征图像，输入至检测网络后，检测网络输出的目标水平框和对应的参考目标水平框趋于相同为止。

参照图5，示出了本发明的一种分割网络的训练方法实施例步骤流程图，具体包括如下步骤：

步骤502、收集第二训练数据，所述第二训练数据包括训练图像对应多个尺度的特征图像、所述训练图像对应的参考目标水平框和参考目标水平框中文本的参考像素点。

步骤504、将训练图像对应多个尺度的特征图像和所述训练图像对应的参考目标水平框输入至分割网络中，得到参考目标水平框中文本的像素点。

步骤506、依据参考目标水平框中文本的参考像素点和参考目标水平框中文本的像素点，对所述分割网络的权值进行调整。

本发明实施例中，可以收集多组第二训练数据，一组第二训练数据可以包括一张训练图像对应多个尺度的特征图像、该训练图像对应的训练图像对应的参考目标水平框和参考目标水平框中文本的参考像素点。然后每次可以采用一组第二训练数据对检测网络进行训练：包括正向训练和反向训练，其中，所述正向训练可以包括：将该组第二训练数据中的训练图像对应多个尺度的特征图像和所述训练图像对应的参考目标水平框输入至分割网络中，分割网络通过对多个尺度的特征图像进行处理，输出参考目标水平框中文本的像素点；其中，分割网络确定参考目标水平框中文本的像素点的过程与上述步骤210类似，在此不再赘述。然后再对分割网络进行反向训练：可以将该组第二训练数据中参考目标水平框中文本的参考像素点，与分割网络输出的参考目标水平框中文本的像素点进行比对；然后依据比对的结果对分割网络的权值进行调整，直至将该组第二训练数据中训练图像对应多个尺度的特征图像和所述训练图像对应的参考目标水平框，输入至分割网络后，分割网络输出的参考目标水平框中文本的像素点和对应的参考目标水平框中文本的参考像素点趋于相同为止。

参照图6，示出了本发明的一种识别网络的训练方法实施例步骤流程图，具体包括如下步骤：

步骤602、收集第三训练数据，所述第三训练数据包括训练图像对应的特征图像中的特征区域和所述训练图像的参考文本信息，所述特征区域与训练图像中文本区域对应。

步骤604、将训练图像对应的特征图像中的特征区域输入至识别网络中，得到对应的文本信息。

步骤606、依据所述训练图像对应的参考文本信息和文本信息，对所述识别网络的权值进行调整。

本发明实施例中，可以预先确定训练图像中的文本区域，然后从训练图像对应的特征图像中，查找与该文本区域对应的特征区域，得到所述训练图像对应特征图像中的特征区域；然后将一个训练图像对应特征图像中的特征区域和所述训练图像对应的参考文本信息作为一组第三训练数据。其中，所述训练图像对应特征图像中的特征区域，可以是多个尺度特征图像中的特征区域，也可以是最大尺度的特征图像中的特征区域，可以与上述步骤214对应，本发明实施例对此不作限制。

然后每次可以采用一组第三训练数据对识别网络进行训练：包括正向训练和反向训练，其中，所述正向训练可以包括：将该组第三训练数据中的训练图像对应特征图像中的特征区域输入至识别网络中，识别网络通过对该特征区域进行处理，输出对应的文本信息。然后再对识别网络进行反向训练：可以将该组第三训练数据中训练图像对应的参考文本信息，与识别网络输出的文本信息进行比对；然后依据比对的结果对识别网络的权值进行调整，直至将该组第三训练数据中训练图像对应特征图像中的特征区域，输入至识别网络后，识别网络输出的文本信息和该训练图像对应的参考文本信息相同为止。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明的一种图像处理装置实施例的结构框图，具体可以包括如下模块：

图像获取模块702，用于获取待识别图像；

区域确定模块704，用于提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；

区域调整模块706，用于依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；

文本识别模块708，用于依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

参照图8，示出了本发明的一种图像处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述区域确定模块704包括：

特征提取子模块7042，用于采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像。

本发明一个可选的实施例中，所述区域确定模块704包括：

水平框检测子模块7044，用于依据所述特征图像进行水平框检测，确定目标水平框，所述目标水平框内包含所述待识别图像中的文本；

像素点确定子模块7046，用于对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点；

文本区域确定子模块7048，用于依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域。

本发明一个可选的实施例中，所述水平框检测子模块7044，用于针对一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框；依据在各个尺度上的水平框，确定目标水平框。

本发明一个可选的实施例中，所述目标水平框包括多个，所述像素点确定子模块7046，用于针对一个目标水平框，采用分割网络依据所述目标水平框对应尺度的特征图像进行文本分割，确定所述目标水平框中文本的像素点。

本发明一个可选的实施例中，所述文本区域确定子模块7048，用于确定所述目标水平框中文本像素点对应的最小外接矩形；将所述最小外接矩形对应的区域，确定为所述待识别图像中的文本区域。

本发明一个可选的实施例中，所述文本区域包括多个，所述区域调整模块706包括：

第一特征区域调整子模块7062，用于针对每个文本区域，确定所述文本区域对应尺度的特征图像；从所述文本区域对应尺度的特征图像中，截取所述文本区域对应的特征区域。

第二特征区域调整子模块7064，用于针对每个文本区域，从最大尺度的特征图像中截取所述文本区域对应的特征区域。

本发明一个可选的实施例中，所述文本识别模块708，用于将调整后的特征区域输入至识别网络中，得到对应文本区域中的文本信息。

本发明一个可选的实施例中，所述的装置还包括：预处理模块710，用于确定所述待识别图像的均值，并对所述待识别图像进行减均值处理。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图9是根据一示例性实施例示出的一种用于图像处理的电子设备900的结构框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理部件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件906为电子设备900的各种组件提供电力。电力组件906可以包括电源管理系统，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变，用户与电子设备900接触的存在或不存在，电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件914经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件914还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种图像处理方法，所述方法包括：获取待识别图像；提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

图10是本发明根据另一示例性实施例示出的一种用于图像处理的电子设备1000的结构示意图。该电子设备1000可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器上执行存储介质1030中的一系列指令操作。

服务器还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，一个或一个以上键盘1056，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待识别图像；提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像处理方法、一种图像处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待识别图像；

提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；

依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；

依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待识别图像的特征图像，包括：

采用特征金字塔网络，提取所述待识别图像对应的多个尺度的特征图像。

3.根据权利要求2所述的方法，其特征在于，所述依据所述特征图像确定所述待识别图像中的文本区域，包括：

依据所述特征图像进行水平框检测，确定目标水平框，所述目标水平框内包含所述待识别图像中的文本；

对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点；

依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域。

4.根据权利要求3所述的方法，其特征在于，所述依据所述特征图像进行水平框检测，确定目标水平框，包括：

针对一个尺度的特征图像，采用检测网络在所述尺度的特征图像上进行水平框检测，确定在所述尺度上的水平框；

依据在各个尺度上的水平框，确定目标水平框。

5.根据权利要求4所述的方法，其特征在于，所述目标水平框包括多个，所述对所述目标水平框框定的区域进行文本分割，确定所述目标水平框中文本的像素点，包括：

针对一个目标水平框，采用分割网络依据所述目标水平框对应尺度的特征图像进行文本分割，确定所述目标水平框中文本的像素点。

6.根据权利要求5所述的方法，其特征在于，所述依据所述目标水平框中文本的像素点，确定所述待识别图像中的文本区域，包括：

确定所述目标水平框中文本像素点对应的最小外接矩形；

将所述最小外接矩形对应的区域，确定为所述待识别图像中的文本区域。

7.根据权利要求6所述的方法，其特征在于，所述文本区域包括多个，所述依据所述文本区域确定所述特征图像中的特征区域，包括：

针对每个文本区域，确定所述文本区域对应尺度的特征图像；

从所述文本区域对应尺度的特征图像中，截取所述文本区域对应的特征区域。

8.一种图像处理装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

区域确定模块，用于提取所述待识别图像的特征图像，依据所述特征图像确定所述待识别图像中的文本区域；

区域调整模块，用于依据所述文本区域确定所述特征图像中的特征区域，将所述特征区域调整至水平；

文本识别模块，用于依据调整后的特征区域对对应文本区域进行文本识别，确定对应的文本信息。

9.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的图像处理方法。

10.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待识别图像；