CN106557768A

CN106557768A - 对图片中的文字进行识别的方法及装置

Info

Publication number: CN106557768A
Application number: CN201611063810.7A
Authority: CN
Inventors: 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-04-05
Anticipated expiration: 2036-11-25
Also published as: CN106557768B

Abstract

本公开关于一种对图片中的文字进行识别的方法及装置，涉及图像处理领域。包括：获取待识别的图片；对图片进行多次缩放得到不同尺寸的多个缩放图片；基于用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字的第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区；基于用于进行文字识别的第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字。基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率比较高。

Description

对图片中的文字进行识别的方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种对图片中的文字进行识别的方法及装置。

背景技术

图片中的文字往往包含着重要的语义信息，其在信息检索、自动驾驶汽车等领域有着重要的作用。例如，识别出照片中的门牌号、街道和商店的标牌后，可以为自动驾驶汽车提供所在场景的位置信息。又例如，识别出视频帧中出现的文字后，有助于快速进行大量的视频检索等。因此，如何识别图片中的文字受到社会各界的广泛关注。

发明内容

为克服相关技术中存在的问题，本公开提供一种对图片中的文字进行识别的方法及装置。

根据本公开实施例的第一方面，提供一种对图片中的文字进行识别的方法，所述方法包括：

获取待识别的图片；

对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；

基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；

基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字，所述第二预设卷积神经网络用于进行文字识别。

基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率高。

可选地，所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前，还包括：

通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，所述第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域；

判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求；

当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时，将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。

通过设置第二卷积神经网络包括四个卷积层和一个分类层，使得第二预设卷积神经网络全部由卷基层构成，而不包括池化层和全连接层，使得该第二预设卷积神经网络能够处理任意尺寸的图片，适用范围较广。

可选地，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区之前，还包括：

获取所述第二预设卷积神经网络的前两个卷积层的参数，并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数；

通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，所述第一卷积神经网络包括四个卷积层和一个分类层；

判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求；

当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时，将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。

通过设置第一卷积神经网络包括四个卷积层和一个分类层，使得第一预设卷积神经网络全部由卷基层构成，而不包括池化层和全连接层，使得该第一预设卷积神经网络能够处理任意尺寸的图片，适用范围较广。由于第二预设卷积神经网络用于进行文字识别，且能够识别的文字数量通常比较大，因而其分类层的输出结果比较多，使得在训练第二卷积神经网络时，能够训练得到比较精准且判别性更强的参数。在此基础上，将第二预设卷积神经网络的前两个卷积层的参数分别作为第一预设卷积神经网络的前两个卷积层的参数，能够减少训练第一卷积神经网络时的参数个数和计算量。

可选地，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，包括：

将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中，得到所述每个缩放图片的概率图；

通过非最大值抑制算法对所述每个缩放图片的概率图进行处理，得到所述每个缩放图片中的初始文字候选区；

对所述初始文字候选区进行过滤，得到所述每个缩放图片中的文字候选区。

通过对每个缩放图片的概率图进行处理，并对初始文字候选区进行过滤，可以确保得到置信度比较高的文字候选区，从而能够减少后续进行文字识别时的文字候选区的数量，进而能够加快识别速度，提高识别效果。

可选地，所述第二卷积神经网络中的分类层为softmax分类层，所述通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，包括：

通过存储的多个训练图片，通过随机梯度下降算法和softmax损失函数对待训练的第二卷积神经网络中每个卷积层的参数和softmax分类层的参数进行训练。

可选地，所述第一卷积神经网络中的分类层为softmax分类层，所述通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，包括：

通过所述多个训练图片，通过随机梯度下降算法和softmax损失函数对待训练的第一卷积神经网络的后两个卷积层的参数和softmax分类层的参数进行训练。

根据本公开实施例的第二方面，提供一种对图片中的文字进行识别的装置，所述装置包括：

第一获取模块，用于获取待识别的图片；

缩放模块，用于对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；

第一确定模块，用于基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；

识别模块，用于基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字，所述第二预设卷积神经网络用于进行文字识别。

可选地，所述装置还包括：

第一训练模块，用于通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，所述第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域；

第一判断模块，用于判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求；

第二确定模块，用于当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时，将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。

可选地，所述装置还包括：

第二获取模块，用于获取所述第二预设卷积神经网络的前两个卷积层的参数，并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数；

第二训练模块，用于通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，所述第一卷积神经网络包括四个卷积层和一个分类层；

第二判断模块，用于判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求；

第三确定模块，用于当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时，将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。

可选地，所述第一确定模块包括：

输入子模块，用于将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中，得到所述每个缩放图片的概率图；

处理子模块，用于通过非最大值抑制算法对所述每个缩放图片的概率图进行处理，得到所述每个缩放图片中的初始文字候选区；

过滤子模块，用于对所述初始文字候选区进行过滤，得到所述每个缩放图片中的文字候选区。

可选地，所述第二卷积神经网络中的分类层为softmax分类层，所述第一训练模块用于：

可选地，所述第一卷积神经网络中的分类层为softmax分类层，所述第二训练模块用于：

根据本公开实施例的第三方面，提供一种对图片中的文字进行识别的装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的图片；

对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；

本公开的实施例提供的技术方案可以包括以下有益效果：

通过基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率比较高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种对图片中的文字进行识别的方法的流程图。

图2A是根据一示例性实施例示出的一种对图片中的文字进行识别的方法的流程图。

图2B是根据一示例性实施例示出的一种第二卷积神经网络的组成示意图。

图3A是根据一示例性实施例示出的一种对图片中的文字进行识别的装置的框图。

图3B是根据一示例性实施例示出的一种对图片中的文字进行识别的装置的框图。

图3C是根据一示例性实施例示出的一种对图片中的文字进行识别的装置的框图。

图3D是根据一示例性实施例示出的一种第一确定模块的框图。

图4是根据一示例性实施例示出的一种对图片中的文字进行识别的装置400的框图。

图5是根据一示例性实施例示出的另一种对图片中的文字进行识别的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在对本公开实施例进行详细地解释说明之前，先对卷积神经网络进行一个简单介绍。卷积神经网络是近年发展起来的网络模型，由于该网络模型避免了对图片的复杂前期预处理，可以直接输入原始图片，因而在图片处理领域得到了广泛的应用。

常规的卷积神经网络结构由卷积层、池化层和全连接层组成。由于池化层和全连接层要求前一层的输入数据有固定的长度，所以没办法处理尺寸不同的图片，所以本方法采用的两个卷积神经网络均为全卷积网络，也就是只使用卷积层所组成的网络，所以本方法采用的两个卷积神经网络的网络结构均为四个卷积层加一个分类层。

另外，本公开实施例提供的方法应用于对图片中的文字进行识别的装置中，该对图片中的文字进行识别的装置可以为计算机、手机、平板电脑等终端或者服务器或服务器群组，当然也可以为其它能够识别图片中文字的装置，本公开实施例对此不作限定。进一步地，该对图片中的文字进行识别的装置可以通过图片处理软件实现图片中文字的识别，当然也可以通过其它方式对图片中的文字进行识别，本公开实施例对此也不作限定。为了便于描述，下述各实施例以该对图片中的文字进行识别的装置为终端为例进行说明。具体的对图片中的文字进行识别的方法详见下述各个实施例：

结合上述内容，图1是根据一示例性实施例示出的一种对图片中的文字进行识别的方法的流程图，该对图片中的文字进行识别的方法应用于终端中。如图1所示，对图片中的文字进行识别的方法包括以下步骤。

在步骤101中，获取待识别的图片。

在步骤102中，对图片进行多次缩放，得到不同尺寸的多个缩放图片。

在步骤103中，基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区，其中，第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字。

在步骤104中，基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字，其中，第二预设卷积神经网络用于进行文字识别。

可选地，基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字之前，还包括：

通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，其中，第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域；

判断训练后的第二卷积神经网络的运行参数是否达到第一指定要求；

当训练后的第二卷积神经网络的运行参数达到第一指定要求时，将训练后的第二卷积神经网络确定为第二预设卷积神经网络。

可选地，基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区之前，还包括：

获取第二预设卷积神经网络的前两个卷积层的参数，并将第二预设卷积神经网络的前两个卷积层的参数分别作为第一预设卷积神经网络的前两个卷积层的参数；

通过多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，其中，第一卷积神经网络包括四个卷积层和一个分类层；

判断训练后的第一卷积神经网络的运行参数是否达到第二指定要求；

当训练后的第一卷积神经网络的运行参数达到第二指定要求时，将训练后的第一卷积神经网络确定为第一预设卷积神经网络。

可选地，基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区，包括：

将多个缩放图片中的每个缩放图片输入至第一预设卷积神经网络中，得到每个缩放图片的概率图；

通过非最大值抑制算法对每个缩放图片的概率图进行处理，得到每个缩放图片中的初始文字候选区；

对初始文字候选区进行过滤，得到每个缩放图片中的文字候选区。

可选地，第二卷积神经网络中的分类层为softmax分类层，通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，包括：

可选地，第一卷积神经网络中的分类层为softmax分类层，通过多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，包括：

通过多个训练图片，通过随机梯度下降算法和softmax损失函数对待训练的第一卷积神经网络的后两个卷积层的参数和softmax分类层的参数进行训练。

本公开实施例提供的方法，通过基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率比较高。

结合上述图1所对应实施例的内容，图2A是根据一示例性实施例示出的一种对图片中的文字进行识别的方法的流程图，该对图片中的文字进行识别的方法应用于终端中。如图2A所示，本公开实施例中的对图片中的文字进行识别的方法包括以下步骤。

在步骤201中，通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，其中，第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域。

本公开实施例中涉及的第一预设卷积神经网络用于进行文字检测，第二预设卷积神经网络用于进行文字识别。因此，在对图片中的文字进行识别之前，需要先训练得到第一预设卷积神经网络和第二预设卷积神经网络。该步骤和步骤202为将待训练的第二卷积神经网络训练成第二预设卷积神经网络的实现方式，其中，第二预设卷积神经网络为已经训练好的可以用于对图片中的文字进行识别的模型。

在训练待训练的第二卷积神经网络之前，需要先获取并存储多个训练图片。在本公开实施例中，获取到的每个训练图片中均包括指定尺寸的文字区域，如每个训练图片中均包括至少一个24*24像素的文字区域，且预先会通过人工或其它方式将这些指定尺寸的文字区域标注出来，并处理成指定尺寸，从而便于机器学习。

其中，在获取训练图片时，可以先获取初始图片，并将初始图片中的文字区域处理为指定尺寸。在获取初始图片时，可以从网上下载包含文字的初始图片，也可以将相机之前或当前拍摄的任一张包含文字的图片作为初始图片，或者将视频中的任一包含文字的视频帧作为获取到的初始图片等，本公开实施例对此不作具体限定。

另外，在本公开实施例中，为了使第二预设卷积神经网络能够处理任意尺寸的图片，第二卷积神经网络包括四个卷积层和一个分类层，而不包括池化层和全连接层。如图2B所示，其为一种第二卷积神经网络的组成示意图。其中，关于第二卷积神经网络每个卷集层的卷积核的数量和偏置向量的数量，本公开实施例不作具体限定，具体实施时，可以根据需要设定。

进一步地，在通过多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练时，通常可以通过随机梯度下降算法对预设损失函数进行迭代计算来实现。该预设损失函数的种类也可以有很多种。另外，关于分类层的类型，也可以有很多种，本公开实施例对此也不作限定。

可选地，本公开实施例中的第二卷积神经网络中的分类层为softmax分类层。在此基础上，在通过多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练时，可以基于多个训练图片，通过随机梯度下降算法和softmax损失函数对第二卷积神经网络中每个卷积层的参数和softmax分类层的参数进行训练。例如，训练过程中，通过多个训练图片使用随机梯度下降算法对softmax损失函数进行迭代计算。

在步骤202中，判断训练后的第二卷积神经网络的运行参数是否达到第一指定要求，且当训练后的第二卷积神经网络的运行参数达到第一指定要求时，将训练后的第二卷积神经网络确定为第二预设卷积神经网络，其中，第二预设卷积神经网络用于进行文字识别。

其中，第二卷积神经网络的运行参数是判断第二卷积神经网络是否已经训练好的参数，通常，当第二卷积神经网络的运行参数达到第一指定要求时，即可确定第二卷积神经网络已训练好；当训练过程中第二卷积神经网络的运行参数未达到第一指定要求时，需要继续通过多个训练图片进行训练，直至第二卷积神经网络的运行参数达到第一指定要求。因此，在对第二卷积神经网络进行训练的过程中，需要实时判断训练后的第二卷积神经网络的运行参数是否达到第一指定要求。

关于第一指定要求的具体内容，需要结合预设损失函数的类型而定。例如，当预设损失函数为softmax损失函数时，在训练过程中会得到一个损失值Loss，且当该损失值Loss不大于预设阈值时，可以确定第二卷积神经网络已训练好。此时，第一指定要求即为第二卷积神经网络的运行参数不大于预设阈值。其中，该预设阈值的具体数值可以根据需要设定。

在本公开实施例中，第二预设卷积神经网络可以识别预设数值个文字。在此基础上，当使用第二预设卷积神经网络识别某一个图片中的文字时，其分类层会输出预设数值个分类结果，每个分类结果介于0-1之间，表示识别结果为对应文字的概率。

例如，该预设数值可以为4652个，其中包括4500个常用汉字、0-9这10个数字、a-z这26个小写字母和A-Z这26个大写字母。当然，常用汉字的数量可以更多。这4562个文字按照一定顺序排列，如1-4500是常用汉字，4501至4510为0-9，4511至4536为a-z，4537至4562为A-Z。当将任一图片输入第二预设卷积神经网络后，当分类层的第4501个输出选项的数值为0.8时，表示对该图片中包括数值“0”的概率为0.8。

在步骤203中，获取第二预设卷积神经网络的前两个卷积层的参数，并将第二预设卷积神经网络的前两个卷积层的参数分别作为第一预设卷积神经网络的前两个卷积层的参数。

该步骤至步骤205为将待训练的第一卷积神经网络训练为第一预设卷积神经网络的实现方式。

在本公开实施例中，第一预设卷积神经网络是用于进行文字检测的网络，其分类层的输出结果表示图片中的某一区域是否为文字区域，即分类结果仅有两个，而第二预设卷积神经网络的分类层的输出结果比较多，达到预设数值个，因此，在对第二卷积神经网络进行训练得到第二预设卷积神经网络时，能够学习到判别性比较强的特征及比较精准的参数，为了减小训练第一卷积神经网络时的参数个数和计算量，在训练得到第二预设卷积神经网络后，可以将其前两个卷积层的参数直接作为第一预设卷积神经网络的前两个卷积层的参数。

在步骤204中，通过多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，其中，第一卷积神经网络包括四个卷积层和一个分类层。

在本公开实施例中，第一卷积神经网络包括四个卷积层和一个分类层，其组成与图2B所示的第二卷积神经网络的组成类似。结合步骤203，在对第一卷积神经网络进行训练时，保持其前两个卷积层的参数不变，只训练后两个卷积层的参数和分类层的参数。在训练第一卷积神经网络时，仍然通过步骤201中多个训练图片实现。

关于第一卷积神经网络中每个卷积层中卷积核和偏置向量的数量，也可以根据经验确定，本公开实施例对此不作具体限定。另外，第一卷积神经网络的分类层的类型可以有很多种，保证其为二分类分类器即可。可选地，第一卷积神经网络中的分类层为softmax分类层等。

进一步地，在通过多个训练图片对第一卷积神经网络中后两个卷积层的参数和分类层的参数进行训练时，通常可以通过随机梯度下降算法对预设损失函数进行迭代计算来实现。该预设损失函数的种类也可以有很多种，如softmax损失函数、Logistic回归函数等。

可选地，本公开实施例中的第二卷积神经网络中的分类层为softmax分类层。在此基础上，在通过多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练时，可以基于多个训练图片，通过随机梯度下降算法对预设损失函数进行迭代计算。

进一步地，当预设损失函数为softmax损失函数时，可以使用随机梯度下降算法对softmax损失函数进行迭代计算，以对第一卷积神经网络中后两个卷积层的参数和softmax分类层的参数进行训练。

在步骤205中，判断训练后的第一卷积神经网络的运行参数是否达到第二指定要求，且当训练后的第一卷积神经网络的运行参数达到第二指定要求时，将训练后的第一卷积神经网络确定为第一预设卷积神经网络，其中，第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字。

其中，第一卷积神经网络的运行参数是判断第一卷积神经网络是否已经训练好的参数，通常，当第一卷积神经网络的运行参数达到第二指定要求时，即可确定第一卷积神经网络已训练好；当训练过程中第一卷积神经网络的运行参数未达到第二指定要求时，需要继续通过多个训练图片进行训练，直至第一卷积神经网络的运行参数达到第二指定要求。因此，在对第一卷积神经网络的后两个卷积层和分类层进行训练的过程中，需要实时判断训练后的第一卷积神经网络的运行参数是否达到第二指定要求。

关于第二指定要求的具体内容，需要结合预设损失函数的类型而定。例如，当预设损失函数为softmax损失函数时，在训练过程中会得到一个损失值Loss，且当该损失值Loss不大于指定阈值时，可以确定第一卷积神经网络已训练好。此时，第二指定要求即为第一卷积神经网络的运行参数不大于指定阈值。其中，该指定阈值的具体数值可以根据需要设定。

在本公开实施例中，第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字。当任一待识别的图片输入第一预设卷积神经网络后，第一预设卷积神经网络可以对该待识别的图片中的每个像素进行响应，响应结果表示以该像素为中心的指定尺寸的像素区域是否为文字。因此，第一预设卷积神经网络分类层的输出结果有两个数值，其中一个数值表示以当前检测的像素为中心的指定尺寸的像素区域是文字，另一个数值表示以当前检测的像素为中心的指定尺寸的像素区域不是文字。例如，第一预设卷积神经网络的分类层的输出结果有0和1。当输出结果是1时，表示以当前检测的像素为中心的指定尺寸的区域是文字；当输出结果是0时，表示以当前检测的像素为中心的指定尺寸的区域不是文字。

需要说明的是，在本公开实施例中，由于在训练第一卷积神经网络时，使用的训练图片中包括指定尺寸的文字区域，也就是说，训练第一卷积神经网络时使用的训练图片中的文字区域大小固定，因而使得训练得到的第一预设卷积神经网络在检测图片中的文字区域时，能检测出指定尺寸的区域是否为文字区域。

还需要说明的是，上述步骤201至步骤205为通过本发明实施例提供的方法对图片中的文字进行识别之前需要执行的步骤，并不是每次对图片中的文字进行识别时均需执行的步骤，保证在使用本发明实施例提供的方法识别图片中的文字时，已经训练得到上述第一预设卷积神经网络和第二预设卷积神经网络即可。

在步骤206中，获取待识别的图片，并对待识别的图片进行多次缩放，得到不同尺寸的多个缩放图片。

从该步骤开始，进入对图片中的文字进行识别的步骤。在识别图片中的文字时，先获取待识别的图片。

需要说明的是，终端获取待识别的图片的方式可以有多种，本公开实施例对获取待识别的图片的方式不做限定。例如，获取待识别的图片的过程可以包括以下几种可能的实现方式：

在第一种方式中，该终端可以提供图片提交入口，从而基于该图片提交入口获取上传的图片，并将该上传的图片确定为待识别的图片。例如，当用户想要对某张图片进行识别时，可以通过该图片提交入口将该图片上传至终端，当该终端基于该图片提交入口获取到用户上传的图片后，即可将该图片确定为待识别的图片。

在第二种方式中，该终端可以自动获取终端中的图片，并将该图片确定为待识别的图片。例如，该终端可以获取当前接收的图片，从而将接收的图片确定为待识别的图片；或者，获取当前显示的图片，从而将显示的图片确定为待识别的图片；或者，获取当前拍摄的图片，从而将该拍摄的图片确定为待识别的图片，等等。

在第三种方式中，该终端可以获取视频中的视频帧图片，并将该视频帧图片确定为待识别的图片。其中，该视频可以为当前播放的视频、当前拍摄的视频等。

在获取视频帧图片的过程中，该终端可以周期性地从该视频中获取视频帧图片，可以实时地从该视频中获取视频帧图片，也可以在基于该视频检测到获取指令时，再从该视频中获取视频帧图片，等等。其中，该获取指令可以由用户触发，用户可以通过指定操作触发，该指定操作可以为点击操作、滑动操作、语音操作等，本公开实施例对此不做限定。

例如，在终端播放视频的过程中，用户可以通过点击该播放界面的操作，触发该获取指令，当终端接收到该获取指令时，即可获取当前显示的视频帧图片，并将该显示的视频帧图片确定为待识别的图片。再例如，在终端拍摄视频的过程中，该终端可以每隔预设时长，从拍摄得到的视频中获取一张视频帧图片，并将获取到的视频帧图片确定为待识别的图片。

进一步地，由于上述第一预设卷积神经网络用于检测图片中指定尺寸的区域是否为文字区域，然而，待识别图片中的文字区域中包括文字的区域很可能远远小于或远远大于指定尺寸，为了保证待识别的图片中包括指定尺寸的文字区域，本公开实施例在获取到待识别的图片后，可以先对待识别的图片进行多次缩放，以得到不同尺寸的多个缩放图片，从而增加从图片中检测出文字区域的成功率。

其中，对待识别的图片进行多次缩放时，可以通过已有的图片缩放算法实现，本公开实施例对此不作详细阐述。

另外，关于缩放的次数，可以根据需要设定，例如，对待识别的图片进行16次缩放等。此时，任一张待识别的图片将对应16张缩放图片。

在步骤207中，基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区。

其中，文字候选区是指任一缩放图片中任一可能包括文字的指定尺寸的区域。

可选地，在基于第一预设卷积神经网络确定多个缩放图片中每个缩放图片中的文字候选区时，可以通过如下步骤A至步骤C来实现：

步骤A，将多个缩放图片中的每个缩放图片输入至第一预设卷积神经网络中，得到每个缩放图片的概率图。

其中，概率图中的每个元素表示以该像素为中心的指定尺寸的像素区域是文字的概率。例如，对于任一缩放图片中的第21行第25列的像素，如果其在概率图对应的值为0.5，则该0.5表示以第21行第25列的像素为中心的指定尺寸的像素区域是文字的概率为0.5。

步骤B，通过非最大值抑制算法对每个缩放图片的概率图进行处理，得到每个缩放图片中的初始文字候选区。

其中，通过非最大值抑制算法对每个缩放图片的概率图进行处理是指：对于任一缩放图片的概率图中的任一元素，在以该元素为中心的预设尺寸的像素区域中，查找概率值最大的值，记录该概率值最大的值，并将该预设尺寸的像素区域中的其它概率值设置为0。该预设尺寸可以根据需要设定。

通过非最大值抑制算法对每个缩放图片的概率图进行处理，可以得到数量比较多的初始文字候选区，然而，为了得到置信度比较高的初始文字候选区，还可以继续执行下述步骤C。

步骤C，对初始文字候选区进行过滤，得到每个缩放图片中的文字候选区。

其中，对初始文字候选区进行过滤时，可以预先设置一个参考概率值。由于对每个缩放图片的概率图进行处理，得到每个缩放图片中的初始文字候选区，也就是说，每个初始文字候选区对应一个概率值，概率值高的表示该初始文字候选区包含文字的概率比较高。因此，在过滤时，可以将对应概率值小于参考概率值的初始文字候选区过滤掉，保留对应概率值不小于参考概率值的初始文字候选区作为文字候选区。该参考概率值可以根据需要设定，例如，该参考概率值的取值为0.8等。

在步骤208中，基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字。

由于对于预设卷积神经网络从任一缩放图片中检测出的文字候选区为指定尺寸，因此，该步骤基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字时，将该指定尺寸的文字候选区输入第二卷积神经网络。对于任一缩放图片的文字候选区，将该缩放图片的文字候选区输入第二预设卷积神经网络后，第二预设卷积神经网络的分类层会输出预设数值个分类结果，从这些分类结果中选择概率最大的分类结果，将该概率最大的分类结果对应的文字作为从该缩放图片的文字候选区中识别出的文字。

例如，如果预设分类结果中概率最大的值为0.98，该输出项对应的文字为“的”，则可以确定该缩放图片的文字候选区中的文字为“的”。

图3A是根据一示例性实施例示出的一种对图片中的文字进行识别的装置的框图，该对图片中的文字进行识别的装置可以为移动终端上的一个部件，也可以为移动终端自身，且对图片中的文字进行识别的装置可以用于执行上述图1或图2A所对应实施例中所述的对图片中的文字进行识别的方法。参照图3A，该装置包括第一获取模块301、缩放模块302、第一确定模块303和识别模块304，其中：

第一获取模块301，用于获取待识别的图片；

缩放模块302，用于对图片进行多次缩放，得到不同尺寸的多个缩放图片；

第一确定模块303，用于基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区，其中，第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；

识别模块304，用于基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字，其中，第二预设卷积神经网络用于进行文字识别。

可选地，如图3B所示，装置还包括第一训练模块305、第一判断模块306和第二确定模块307，其中：

第一训练模块305，用于通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，其中，第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域；

第一判断模块306，用于判断训练后的第二卷积神经网络的运行参数是否达到第一指定要求；

第二确定模块307，用于当训练后的第二卷积神经网络的运行参数达到第一指定要求时，将训练后的第二卷积神经网络确定为第二预设卷积神经网络。

可选地，如图3C所示，装置还包括第二获取模块308、第二训练模块309、第二判断模块310和第三确定模块311，其中：

第二获取模块308，用于获取第二预设卷积神经网络的前两个卷积层的参数，并将第二预设卷积神经网络的前两个卷积层的参数分别作为第一预设卷积神经网络的前两个卷积层的参数；

第二训练模块309，用于通过多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，其中，第一卷积神经网络包括四个卷积层和一个分类层；

第二判断模块310，用于判断训练后的第一卷积神经网络的运行参数是否达到第二指定要求；

第三确定模块311，用于当训练后的第一卷积神经网络的运行参数达到第二指定要求时，将训练后的第一卷积神经网络确定为第一预设卷积神经网络。

可选地，如图3D所示，第一确定模块303包括输入子模块3031、处理子模块3032和过滤子模块3033，其中：

输入子模块3031，用于将多个缩放图片中的每个缩放图片输入至第一预设卷积神经网络中，得到每个缩放图片的概率图；

处理子模块3032，用于通过非最大值抑制算法对每个缩放图片的概率图进行处理，得到每个缩放图片中的初始文字候选区；

过滤子模块3033，用于对初始文字候选区进行过滤，得到每个缩放图片中的文字候选区。

可选地，第二卷积神经网络中的分类层为softmax分类层，第一训练模块305用于：

可选地，第一卷积神经网络中的分类层为softmax分类层，第二训练模块309用于：

关于上述实施例中的装置，其中各个模块及子模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供的装置，通过基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率比较高。

图4是根据一示例性实施例示出的一种对图片中的文字进行识别的装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述对图片中的文字进行识别的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置的处理器执行时，使得装置能够执行一种对图片中的文字进行识别的方法，所述方法包括：

获取待识别的图片；

对图片进行多次缩放，得到不同尺寸的多个缩放图片；

基于第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区，其中，第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；

基于第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字，其中，第二预设卷积神经网络用于进行文字识别。

图5是根据一示例性实施例示出的另一种对图片中的文字进行识别的装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述对图片中的文字进行识别的方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

图5所示的装置在对图片中的文字进行识别时，其处理组件522执行的指令与上述图4所对应实施例中的处理器420所执行的指令相同，指令具体内容可参见上述图4所对应实施例中的内容，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种对图片中的文字进行识别的方法，其特征在于，所述方法包括：

获取待识别的图片；

对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；

2.根据权利要求1所述的方法，其特征在于，所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，包括：

5.根据权利要求2所述的方法，其特征在于，所述第二卷积神经网络中的分类层为softmax分类层，所述通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，包括：

6.根据权利要求3所述的方法，其特征在于，所述第一卷积神经网络中的分类层为softmax分类层，所述通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，包括：

7.一种对图片中的文字进行识别的装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别的图片；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述第一确定模块包括：

11.根据权利要求8所述的装置，其特征在于，所述第二卷积神经网络中的分类层为softmax分类层，所述第一训练模块用于：

12.根据权利要求9所述的装置，其特征在于，所述第一卷积神经网络中的分类层为softmax分类层，所述第二训练模块用于：

13.一种对图片中的文字进行识别的装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的图片；

对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；