CN111680690B

CN111680690B - 一种文字识别方法及装置

Info

Publication number: CN111680690B
Application number: CN202010340196.4A
Authority: CN
Inventors: 张秋晖; 刘岩; 丁笑天; 朱兴杰
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-07-11
Anticipated expiration: 2040-04-26
Also published as: CN111680690A

Abstract

本发明实施例提供了一种文字识别方法及装置，该方法包括：对目标图像中的像素点进行分类，获取目标图像中属于文字的像素点；提取属于文字的像素点组成的区域，并确定为文字区域；确定所述文字区域中的文字块，所述文字块为连通多个文字的区域；分别对每一个所述文字块进行畸变矫正；识别进行畸变矫正后的所述文字块中的文字。因此，本发明的方案，解决了现有技术中对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别的问题。

Description

一种文字识别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文字识别方法及装置。

背景技术

随着计算机视觉与深度神经网络的发展，文本识别的技术得到了极大的发展。这种技术不仅可用于身份证等证件类的识别，在票据识别中也具有广泛的应用前景。但目前在实际应用中，由于图像的采集、处理、传输等环节会存在一定程度的图像失真的问题，因此目前OCR(Optical CharacterRecognition，光学字符识别)的应用对图片质量要求还较高，准确率还较低，不能完全达到人工的效果。因此，应用一些图像处理的手段，建立有效的图像处理技术，提高图像识别的准确性具有重大意义。

近年来，图像分割与识别技术已广泛应用于各类文本的识别。OCR技术的算法，主要是依据卷积网络定位发票上的文字位置，然后通过循环神经网络等识别文字。目前的发票文字定位的方法，主要分为传统图像算法与机器学习神经网络等方法，其中，传统图像算法(如阈值分割，直线检测等)可以在内容格式相对固定，图片清晰的条件下，得到比较好的分割效果，但对于格式复杂或较模糊的图片无能为力，而神经网络算法，目前主流的有CTPN(场景文本检测)、SSD(Single Shot MultiBox Detector，单阶段多尺度目标检测)、EAST(An Efficient and Accurate Scene Text Detector，高效准确的场景文本检测器)等卷积神经网络框架，可以在格式复杂的发票检测中取得不错的效果，但存在着检测效果严重依赖于训练样本数据，并且目前使用较多的方法采用的是以Anchor(锚点)为基础的目标检测模型。

其中，在实际的使用中，拍照产生的图像畸变会对文字区域的检测造成较大影响，而另外也有一些算法，可以通过检测目标的角点信息从而对图片做倾斜校正，但这种方法仅限于无畸变的旋转场景下，因此目前神经网络方法检测文字的场景还是局限在文字方向规则，畸变较小的情况下，但现实场景中，受制于拍照条件(大部分OCR应用场景的图像来于手机拍照)，往往只有部分数据能达到较好的条件。

综上所述，现有的对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别。

发明内容

本发明实施例提供一种文字识别方法及装置，以解决现有技术中对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别的问题。

一方面，本发明实施例提供了一种文字识别方法，所述方法包括：

对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点；

提取属于文字的像素点组成的区域，并确定为文字区域；

确定所述文字区域中的文字块，所述文字块为连通多个文字的区域；

分别对每一个所述文字块进行畸变矫正；

识别进行畸变矫正后的所述文字块中的文字。

另一方面，本发明实施例还提供一种文字识别装置，所述装置包括：

像素分类模块，用于对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点；

区域提取模块，用于提取属于文字的像素点组成的区域，并确定为文字区域；

文字块确定模块，用于确定所述文字区域中的文字块，所述文字块为连通多个文字的区域；

畸变矫正模块，用于分别对每一个所述文字块进行畸变矫正；

文字识别模块，用于识别进行畸变矫正后的所述文字块中的文字。

又一方面，本发明实施例还提供一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文字识别方法中的步骤。

再一方面，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的文字识别方法中的步骤。

本发明实施例中，通过将目标图像中的像素点进行分类，获取属于文字的像素点，并提取属于文字的像素点组成的区域，确定为文字区域，从而确定出文字区域中的文字块，然后分别对每一个文字块进行畸变矫正，进而识别进行畸变矫正后的文字块中的文字。因此，本发明实施例的文字检测方法，采用像素点分类方法确定文字区域，并针对文字区域中的文字块进行畸变矫正，消除了图像畸变对文字识别带来的不良影响，进而可以提升文字识别的准确率，解决了现有技术中对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文字识别方法的步骤流程图之一；

图2为本发明实施例的文字识别方法的具体实施方式的流水示意图；

图3为实际使用中的含有畸变的失真身份证的示意图；

图4为经本发明实施例的文字识别方法矫正后的文字块的示意图；

图5为本发明实施例提供的文字识别装置的结构框图；

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明一实施例提供了一种文字识别方法，所述方法包括：

步骤101：对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点。

其中，所述目标图像为存在图像畸变的图片，例如在拍照过程中产生的畸变。

可选的，在步骤101之前，所述文字识别方法还可包括：

对所述目标图像进行预处理，所述预处理包括图像锐化、去噪处理中的至少一种。其中可以理解的是，所述预处理并不局限于图像锐化和去噪处理，还可包括其他图像处理，以便于使得处理后的目标图像更加清晰，进而便于后续进行文字识别。

步骤102：提取属于文字的像素点组成的区域，并确定为文字区域。

本发明的实施例中，可以对目标图像中的像素点进行分类，判断目标图像中的每一个像素点是否属于文字，进而将属于文字的像素点组成的区域识别为文字区域。

可选的，所述对所述目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点，包括：

利用预先建立的用于区分图片的像素点为文字和非文字的卷积神经网络对所述目标图像进行处理，获得目标概率矩阵，所述目标概率矩阵中的取值表示所述目标图像中的像素点属于文字的概率；

根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点。

本发明的实施例中，预先建立用于区分图片中的像素点为文字和非文字的卷积神经网络，从而利用该神经网络对目标图像进行处理，获得用于表示目标图像中的每一个像素是否属于文字的概率的目标概率矩阵。从而根据该目标概率矩阵，对目标图像中的像素点进行分类，即确定出目标图像中的哪些像素点属于文字，哪些像素点不属于文字。

可选的，所述卷积神经网络通过如下过程建立：

获取多个样本图片的标签矩阵，所述标签矩阵中的取值表示所述样本图片的像素是否属于文字；

采用预先确定的卷积神经网络的第一卷积参数，对第一样本图片进行处理，获得第一预测概率矩阵，所述第一预测概率矩阵中的取值表示所述第一样本图片中的像素点属于文字的概率；

采用梯度下降法获得所述第一预测概率矩阵与所述第一样本图片的标签矩阵的误差处于预设范围内时，所述卷积神经网络的第二卷积参数；

采用所述卷积神经网络的第二卷积参数，对第二样本图片进行处理，直到所述多个样本图片均处理完毕时，将最后一次利用所述卷积神经网络进行处理后获得的卷积参数，确定为所述卷积神经网络的目标卷积参数。

即本发明的实施例中，通过对多个样本图片，利用卷积神经网络进行迭代运算。

具体地，预先确定一组卷积神经网络的第一卷积参数，然后利用第一卷积参数对第一样本图片进行处理，预测得到第一样本图片的像素点是否属于文字的概率矩阵，并采用梯度下降法逐步改变第一卷积参数中的具体数值，再次利用改变后的卷积参数，对第一样本图片进行处理，直到预测得到的第一样本图片的像素点是否属于文字的概率矩阵，与第一样本图片的像素点是否属于文字的标签矩阵的误差较小时，停止对第一样本图片的处理，并将此时的卷积参数确定为第二卷积参数。

然后，利用第二卷积参数对第二样本图片进行处理，预测得到第二样本图片的像素点是否属于文字的概率矩阵，并采用梯度下降法逐步改变第二卷积参数中的具体数值，再次利用改变后的卷积参数，对第二样本图片进行处理，直到预测得到的第二样本图片的像素点是否属于文字的概率矩阵，与第二样本图片的像素点是否属于文字的标签矩阵的误差较小时，停止对第二样本图片的处理，并将此时的卷积参数确定为第三卷积参数。

再次，按照上述过程，逐步对后续每一个样本图片进行处理，直到所有样本图片处理完毕后，将最终的卷积参数确定为卷积神经网络的卷积参数。至此，卷积神经网络建立完毕。

此后，利用卷积神经网络的所述目标卷积参数对待检测的图片(即目标图像)进行处理，则可以获得用于表示待检测的图片的像素点是否属于文字的概率矩阵。

可选的，所述采用预先确定的卷积神经网络的第一卷积参数，对第一样本图片进行处理，获得第一预测概率矩阵，包括：

采用预先确定的卷积神经网络的卷积参数，提取所述第一样本图片不同尺度的特征，并进行特征融合输出，获得目标矩阵，所述目标矩阵包括多个通道；

将所述目标矩阵的最后一个通道的矩阵确定为目标输出矩阵；对所述目标输出矩阵进行全连接输出处理，并进行逻辑回归运算，获得所述第一预测概率矩阵。其中，不同尺度的特征即不同尺度的矩阵。

由上述可知，本发明的实施例中，在利用卷积神经网络的卷积参数对每一个样本图片进行处理的过程中，主要是通过卷积神经网络提取样本图片的不同尺度特征，并进行特征融合，然后输出用于表示样本图片中的像素点是否属于文字的概率矩阵。

可选的，所述采用预先确定的卷积神经网络的卷积参数，提取所述第一样本图片不同尺度的特征，并进行特征融合输出，获得目标矩阵，包括：

采用预先确定的卷积神经网络的第一卷积参数，对所述第一样本图片的RGB矩阵进行N次卷积和池化运算；其中，例如N可以等于5；

将第N次卷积运算获得的矩阵与第N-1次卷积运算得到的矩阵进行叠加，获得第一矩阵；

将所述第一矩阵与第N-2次卷积运算得到的矩阵进行叠加，直到叠加到第二次卷积和池化运算获得的矩阵为止，得到所述目标矩阵。

其中，在将第N次卷积和池化运算获得的矩阵与第N-1次卷积和池化运算获得的矩阵进行叠加时，若第N次卷积和池化运算获得的矩阵与第N-1次卷积和池化运算获得的矩阵的行数、列数和通道数量中存在至少一者不一致时，需要对第N次卷积和池化运算获得的矩阵进行调整(例如进行上采样)，使得调整后的矩阵的行数、列数、通道数量与第N-1次卷积和池化运算获得的矩阵相同。

同理，在将所述第一矩阵与第N-2次卷积和池化运算得到的矩阵进行叠加时，若第一矩阵与第N-2次卷积和池化运算获得的矩阵的行数、列数和通道数量中存在至少一者不一致时，需要对第一矩阵进行调整(例如采样相应的卷积参数进行卷积运算、然后再进行上采样等)，使得调整后的矩阵的行数、列数、通道数量与第N-2次卷积和池化运算获得的矩阵相同。

即本发明的实施例中，提取第一样本图片不同尺度的特征，即从第一样本图片的RGB矩阵开始，进行卷积和池化处理，并将本次卷积和池化处理后的输出作为下一次卷积处理后的输入，从而在得到多次卷积处理后的输出后，从最后一次卷积处理的输出开始，进行特征采样，并与上一次卷积处理的输出进行叠加，实现特征的融合。

具体地，利用卷积神经网络的卷积参数对一个RGB三通道的样本图片进行处理的过程举例说明如下：

第一步，基于计算能力以及模型推理速度的需要，将样本图片尺寸缩放到512×512×3，并获取该样本图片对应的标签矩阵(即一个行数×列数通道数的矩阵)，即512×512×3的矩阵，标签矩阵的数值为0，1，代表为该像素点是否为文字，例如0表示像素点不属于文字，1表示像素属于文字；或者，例如0表示像素点属于文字，1表示像素不属于文字。

第二步，通过卷积神经网络提取不同尺度特征，并进行特征融合输出，具体地，该第二步可以包括如下第一子步骤至第六子步骤：

第一子步骤，1个卷积层和1个池化层，采用64个3×3的卷积核和1个maxpooling的池化层，对第一步骤中的样本图片的矩阵，进行卷积和池化运算，得到256×256×64的矩阵；

第二子步骤，2个卷积层和1个池化层，采用128个3×3的卷积核和1个maxpooling的池化层，对第一子步骤中获得的矩阵，进行卷积和池化运算，得到128×128×128的矩阵；

第三子步骤，3个卷积层和1个池化层，先采用2层256个3×3的卷积核，再使用1层256个1×1的卷积层和1个maxpooling的池化层，对第二子步骤中获得的矩阵，进行卷积和池化运算，得到64×64×256的矩阵；

第四子步骤，3个卷积层和1个池化层，先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层，对第三子步骤中获得的矩阵，进行卷积和池化运算，得到32×32×512的矩阵；

第五子步骤，3个卷积层和1个池化层，先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层，对第四子步骤中获得的矩阵，进行卷积和池化运算，得到16×16×512的矩阵；

第六子步骤，4个反卷积层，即从第五子步骤得到的16×16×512矩阵开始，将其上采样至32×32×512，然后与第四子步骤中得到的32×32×512的矩阵进行叠加，再使用256个(卷积核的数量与第三子步骤中的卷积核的数量相同)3×3卷积，得到32×32×256的矩阵，重复几次该操作到上述第二子步骤，最终得到一个128×128×128的矩阵，即为特征融合的输出层。

第三步，将上述128×128×128的矩阵的最后一层作为输出，将其做一个全连接输出，得到一个128×128×1的矩阵，将输出层做一个sigmoid运算，从而可以得到一个表示样本图片中的像素点是否属于文字的概率矩阵。

基于上述举例，利用卷积神经网络对一个样本图片进行一次处理，得到一个表示该样本图片中的像素点是否属于文字的概率矩阵后，可进一步采用梯度下降法改变上述第一子步骤至第六子步骤中的卷积核中的具体数值，直到得到的表示该样本图片中的像素点是否属于文字的概率矩阵与该样本图片的标签矩阵的误差较小时，记录此时第一子步骤至第六子步骤中的卷积核中的具体数值，并作为对下一个样本图片进行处理的参数。

其中，在利用对一个样本图片进行处理后获得的卷积核的具体数值，对另一个样本图片进行处理时，对于上述第一子步骤至第六子步骤，只是卷积核的具体数值发生了变化，对于每一个子步骤中的卷积层数目、池化层数目和maxpooling的池化层的数目均不发生变化。

由上述可知，本发明实施例的文字识别方法，采用的深度神经网络(即卷积神经网络)结构较简单，参数计算量较小，在GPU运行的条件下，对一张图片处理(包括图片的输入，检测，输出)的时间不到0.2s，在CPU条件下的时间不到1s，所需计算资源较小，能够灵活应用在各个终端上。

可选的，所述根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点，包括：

在所述目标概率矩阵的行数与所述目标图像的RGB矩阵的行数不同，和/或所述目标概率矩阵的列数与所述目标图像的RGB矩阵的列数不同的情况下，将所述目标概率矩阵进行缩放或者插值变换为第六矩阵，所述第六矩阵的行数与所述目标图像的RGB矩阵的行数相同，所述第六矩阵的列数与所述目标图像的RGB矩阵的列数相同；

将所述第六矩阵中大于预设阈值的点，确定为属于文字的像素点。

由此可知，在利用卷积神经网络对目标图像进行处理后，若获取到的用于表示目标图像中的像素点是否属于文字的目标概率矩阵的行数和列数，与目标图像的RGB矩阵的行数、列数中有一者不同，则需要对目标概率矩阵进行缩放或者差值变换，从而得到与目标图像的RGB矩阵的行数、列数均相同的第六矩阵，从而便于依据第六矩阵依次对目标图像中的每一个像素点进行分类；若获取到的用于表示目标图像中的像素点是否属于文字的目标概率矩阵的行数和列数，分别与目标图像的RGB矩阵的行数、列数相同，则可以直接依据该目标概率矩阵依次对目标图像中的每一个像素点进行分类，即确定每一个像素点是否属于文字。

可选地，所述提取属于文字的像素点组成的区域，并确定为所述文字区域，包括：将所述目标图像中的像素点的RGB值设置为第一预设值，获得第一图像；将所述第一图像中，属于文字的像素点的RGB值设置为第二预设值，获得二值化图像；根据所述二值化图像，确定所述文字区域。其中，第一预设值可以为0，第二预设值可以为255。

由此可知，本发明的实施例，可以采用二值化技术，将目标图像的文字区域和非文字区域分开。其中，可以理解的是，对于提取目标图像中的文字区域的方法，并不局限于此。

步骤103：确定所述文字区域中的文字块。

其中，所述文字块为连通多个文字的区域。

可选的，所述确定所述文字区域中的文字块，包括：

采用区域增长法，获得所述文字区域中的文字块。

其中，区域增长，是指将成组的像素或区域发展成更大区域的过程。从种子点的集合开始，从这些点的区域增长是通过将与每个种子点有相似属性像强度、灰度级、纹理颜色等的相邻像素合并到此区域。因而，采用区域增长法可以获得所述文字区域中的各个文字块。

可选的，采用区域增长法，获得所述文字区域中的文字块之前，还包括对所述目标图像做一次开运算，即先做一次膨胀处理，再做一次腐蚀处理，这样可以增强文字块的边缘特征，并且能够去掉文字块中一些缺损的“漏洞”，使得区域增长法能够更精确的寻找到文字块。

步骤104：分别对每一个所述文字块进行畸变矫正。

本发明的实施例中，针对图片中的文字块进行畸变矫正，消除了图像畸变对文字识别带来的不良影响，进而可以提升文字识别的准确率，解决了现有技术中对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别的问题。

可选地，所述分别对每一个所述文字块域进行畸变矫正，包括：

确定每一个所述文字块对应的仿射矩阵；

利用所述仿射矩阵，对所述仿射矩阵对应的所述文字块进行畸变矫正。

例如获取到A、B、C三个文字块，则需要针对文字块A确定一个仿射矩阵a，针对文字块B确定一个仿射矩阵b，针对文字块C确定一个仿射矩阵c，进而利用仿射矩阵a对文字块A进行畸变矫正，利用仿射矩阵b对文字块B进行畸变矫正，利用仿射矩阵c对文字块C进行畸变矫正。

可选地，所述确定每一个所述文字块对应的仿射矩阵，包括：

获取每一个所述文字块的最小外接矩形的长度和宽度；

根据所述文字块的最小外接矩形的长度、宽度以及所述文字块的最小外接矩形的其中三个目标顶点的第一坐标信息，确定所述文字块在无畸变的情况下所述目标顶点的第二坐标信息；

根据所述第一坐标信息和所述第二坐标信息，确定仿射矩阵。

例如某一文字块的最小外接矩形的三个顶点的坐标分别为：左下点(x1，y1)、右下点(x2，y2)、右上点(x3，y3)，则根据该文字块的最小外接矩形的长度和宽度，可以得到文字块在无畸变的情况下这三个顶点的坐标，例如长度为m，宽度为n，文字块的最小外接矩形在无畸变的情况下这三个顶点的坐标为：左下点(x1，y1)，右下点(x1+m，y1)、右上点(x1+m，y1+n)，则可以按下列关系进行仿射变换矩阵的求解：

(x1，y1)→(x1，y1)

(x2，y2)→(x1+m，y1)

(x3，y3)→(x1+m，y1+n)。

其中，还可将文字块的最小外接矩形稍微扩大，以提高文字识别的精度，例如可以将文字块的最小外接矩形的长延长8个像素值，宽延长4个像素值，若将延长之后的矩形的长和宽记为v和w，然后利用原矩形的左下点(x1，y1)、右下点(x2，y2)，右上点(x3，y3)，按下列关系进行仿射变换矩阵的求解：

(x1，y1)→(x1，y1)

(x2，y2)→(x1+v，y1)

(x3，y3)→(x1+v，y1+w)。

可选的，所述获取每一个所述文字块的最小外接矩形的长度和宽度，包括：

针对每一个所述文字块，分别采用旋转卡壳算法进行处理，获得每一个所述文字块的最小外接矩形的顶点信息；

根据每一个所述文字块的最小外接矩形的顶点信息，确定每一个所述文字块的最小外接矩形的长度和宽度。

可选的，所述根据所述文字块的最小外接矩形的长度、宽度以及所述文字块的最小外接矩形的其中三个目标顶点的第一坐标信息，确定所述文字块在无畸变的情况下所述目标顶点的第二坐标信息之前，还包括：

根据所述文字块的最小外接矩形的顶点信息，确定所述文字块的最小外接矩形的面积；

将面积小于预设阈值的最小外接矩形对应的文字块排除。

由此可知，本发明的实施例中，对于每个文字块，可以采用旋转卡壳，得到文字块的最小外接矩形的四个顶点信息，然后利用四个顶点信息，计算出文字块的最小外接矩形的面积、旋转角度，长，宽等，从而可以依据面积、旋转角度，长，宽中的至少一个舍去不合理的外接矩形，例如舍去面积过小的外接矩形。

步骤105：识别进行畸变矫正后的所述文字块中的文字。

综上所述，本发明实施例的文字识别方法，利用神经网络对一张图片进行检测，区分出图像中文字区域与非文字区域，然后利用二值化技术将文字与非文字区域分开，再利用区域增长算法得到每个文字块的最小外接矩形，进而根据每一个文字块的最小外接矩形的几何信息(长，宽，旋转角度，顶点坐标)计算出一个仿射矩阵，并利用仿射变换矩阵对相对应的文字块的进行仿射变换，从而得到了矫正后的文字块，进而识别矫正后的文字块中的文字。

具体地，本发明实施例的文字识别方法的具体实施方式的流程示意图可如图2所示：

首先，将待检测的目标图像(RGB图像)输入到卷积神经网络，依次在如下的卷积池化层中进行处理：

卷积池化层1，包括1个卷积层和1个池化层，即采用64个3×3的卷积核和1个maxpooling的池化层，进行卷积和池化运算；

卷积池化层2，包括2个卷积层和1个池化层，即采用128个3×3的卷积核和1个maxpooling的池化层，进行卷积和池化运算；

卷积池化层3，包括3个卷积层和1个池化层，即先采用2层256个3×3的卷积核，再使用1层256个1×1的卷积层和1个maxpooling的池化层，进行卷积和池化运算；

卷积池化层4，包括3个卷积层和1个池化层，即先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层，进行卷积和池化运算；

卷积池化层5，包括3个卷积层和1个池化层，即先采用2层512个3×3的卷积核，再使用1层512个1×1的卷积层和1个maxpooling的池化层，进行卷积和池化运算；

然后，对卷积池化层5、卷积池化层4和卷积池化层3的输出进行特征融合，并将特征融合获得的矩阵的最后一个通道的矩阵进行sigmoid运算，得到目标图像用于表示的像素点属于文字的概率矩阵，进而根据概率矩阵得到目标图像的文字区域；

其次，对检测出文字区域的目标图像依次进行图像二值化、开运算、区域增长法处理、旋转卡壳处理，获得文字区域中的文字块的最小外接矩形；

再次，过滤掉不合理的矩形(例如面积小于预设阈值的矩形)；

最后，对每个文字块的最小外接矩形进行仿射变换，从而输出文字块无畸变的图像，进而可以畸变矫正后的文字块进行文字识别。

此外，在保险的销售、核保、理赔领域，客户均需将身份证拍照并识别上传，目前采用的识别系统在拍照效果好，身份证朝向方正的情况下能取得较好效果，而拍照图片在拍摄、传输中可能会存在失真模糊现象，因此在实际的使用中，还需大量的人力进行身份证信息的核对与录入，人工录入核对存在着效率慢、花费较大的缺点。

而本发明实施例的文字识别方法，采用了一种基于像素级分类的神经网络结合传统图像处理技术，能够处理较复杂场景下身份证文字区域的提取与校正，如图3所示，表示实际使用中的含有畸变的失真身份证，而图4表示经本发明实施例的文字识别方法矫正后的文字块，由图3和图4对比可知，采用本发明实施例的文字识别方法，可有效地提高识别的准确性，从而减少了人工核对的时间，提高了核对的效率，减少人工核对的工作量，节省了大量的人力成本。

综上所述，本发明实施例的文字识别方法，采用神经网络法得到文字区域，再以文字块为单元做畸变校正，与现有技术中直接二值化检测文字区域做旋转变换相比，本发明实施例的文字识别方法，可以适应复杂背景下的文字检测，并且能处理同一张图上不同旋转畸变的文字，效果更好，方法更具有鲁棒性。并且，本发明实施例的文字识别方法，采用的深度神经网络(即卷积神经网络)结构较简单，参数计算量较小，在GPU运行的条件下，对一张图片处理(包括图片的输入，检测，输出)的时间不到0.2s，在CPU条件下的时间不到1s，所需计算资源较小，能够灵活应用在各个终端上。

以上介绍了本发明实施例提供的文字识别方法，下面将结合附图介绍本发明实施例提供的文字识别装置。

参见图5，本发明实施例还提供了一种文字识别装置，所述文字识别装置包括：

像素分类模块501，用于对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点；

区域提取模块502，用于提取属于文字的像素点组成的区域，并确定为文字区域；

文字块确定模块503，用于确定所述文字区域中的文字块，所述文字块为连通多个文字的区域；

畸变矫正模块504，用于分别对每一个所述文字块进行畸变矫正；

文字识别模块505，用于识别进行畸变矫正后的所述文字块中的文字。

可选地，所述像素分类子模块501包括：

概率获取单元，用于利用预先建立的用于区分图片的像素点为文字和非文字的卷积神经网络对所述目标图像进行处理，获得目标概率矩阵，所述目标概率矩阵中的取值表示所述目标图像中的像素点属于文字的概率；

像素分类单元，用于根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点。

可选的，所述卷积神经网络通过网络建立模块创建，所述网络建立模块包括：

标签获取子模块，用于获取多个样本图片的标签矩阵，所述标签矩阵中的取值表示所述样本图片的像素是否属于文字；

第一处理子模块，用于采用预先确定的卷积神经网络的第一卷积参数，对第一样本图片进行处理，获得第一预测概率矩阵，所述第一预测概率矩阵中的取值表示所述第一样本图片中的像素点属于文字的概率；

第二处理子模块，用于采用梯度下降法获得所述第一预测概率矩阵与所述第一样本图片的标签矩阵的误差处于预设范围内时，所述卷积神经网络的第二卷积参数；

参数确定子模块，用于采用所述卷积神经网络的第二卷积参数，对第二样本图片进行处理，直到所述多个样本图片均处理完毕时，将最后一次利用所述卷积神经网络进行处理后获得的卷积参数，确定为所述卷积神经网络的目标卷积参数。

可选地，所述第一处理子模块包括：

特征提取单元，用于采用预先确定的卷积神经网络的卷积参数，提取所述第一样本图片不同尺度的特征，并进行特征融合输出，获得目标矩阵，所述目标矩阵包括多个通道；

矩阵输出单元，用于将所述目标矩阵的最后一个通道的矩阵确定为目标输出矩阵；

概率输出单元，用于对所述目标输出矩阵进行全连接输出处理，并进行逻辑回归运算，获得所述第一预测概率矩阵。

可选地，所述像素分类单元具体用于：

可选地，所述区域提取子模块包括：

第一设置单元，用于将所述目标图像中的像素点的RGB值设置为第一预设值，获得第一图像；

第二设置单元，用于将所述第一图像中，属于文字的像素点的RGB值设置为第二预设值，获得二值化图像；

区域提取单元，用于根据所述二值化图像，确定所述文字区域。

可选地，所述文字块确定模块503包括：

区域增长子模块，用于采用区域增长法，获得所述文字区域中的文字块。

可选地，所述畸变矫正模块504包括：

仿射矩阵确定子模块，用于确定每一个所述文字块对应的仿射矩阵；

畸变矫正子模块，用于利用所述仿射矩阵，对所述仿射矩阵对应的所述文字块进行畸变矫正。

可选地，所述仿射矩阵确定子模块包括：

矩形信息获取单元，用于获取每一个所述文字块的最小外接矩形的长度和宽度；

坐标信息获取单元，用于根据所述文字块的最小外接矩形的长度、宽度以及所述文字块的最小外接矩形的其中三个目标顶点的第一坐标信息，确定所述文字块在无畸变的情况下所述目标顶点的第二坐标信息；

仿射矩阵确定单元，用于根据所述第一坐标信息和所述第二坐标信息，确定仿射矩阵。

本发明实施例提供的文字识别装置能够实现图1至图4的方法实施例中文字识别装置实现的各个过程，为避免重复，这里不再赘述。

本发明的实施例中，通过像素分类模块501对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点，区域提取模块502提取属于文字的像素点组成的区域，并确定为文字区域，文字块确定模块502确定出文字区域中的文字块，畸变矫正模块503分别对每一个文字块进行畸变矫正，文字识别模块504识别进行畸变矫正后的文字块中的文字。因此，本发明的实施例，采用像素点分类方法确定文字区域，并针对文字区域中的文字块进行畸变矫正，消除了图像畸变对文字识别带来的不良影响，进而可以提升文字识别的准确率，解决了现有技术中对图像进行文字识别的方法受制于拍照条件，往往只有部分数据能达到较好的条件，而对于畸变较大的图像中的文字往往识别效果较差甚至无法识别的问题。

另一方面，本发明实施例还提供了一种电子设备，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文字识别方法中的步骤。

举个例子如下，图6示出了一种电子设备的实体结构示意图。

如图6所示，该电子设备600可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：

提取属于文字的像素点组成的区域，并确定为文字区域；

分别对每一个所述文字块进行畸变矫正；

识别进行畸变矫正后的所述文字块中的文字。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

再一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文字识别方法，例如包括：

提取属于文字的像素点组成的区域，并确定为文字区域

分别对每一个所述文字块进行畸变矫正；

识别进行畸变矫正后的所述文字块中的文字。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

提取属于文字的像素点组成的区域，并确定为文字区域；

分别对每一个所述文字块进行畸变矫正；

识别进行畸变矫正后的所述文字块中的文字；

所述对目标图像中的像素点进行分类，获取所述目标图像中属于文字的像素点，包括：

根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点；

所述根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点，包括：

2.根据权利要求1所述的文字识别方法，其特征在于，所述卷积神经网络通过如下过程建立：

3.根据权利要求2所述的文字识别方法，其特征在于，所述采用预先确定的卷积神经网络的第一卷积参数，对第一样本图片进行处理，获得第一预测概率矩阵，包括：

将所述目标矩阵的最后一个通道的矩阵确定为目标输出矩阵；

对所述目标输出矩阵进行全连接输出处理，并进行逻辑回归运算，获得所述第一预测概率矩阵。

4.根据权利要求1所述的文字识别方法，其特征在于，所述分别对每一个所述文字块域进行畸变矫正，包括：

确定每一个所述文字块对应的仿射矩阵；

5.根据权利要求4所述的文字识别方法，其特征在于，所述确定每一个所述文字块对应的仿射矩阵，包括：

获取每一个所述文字块的最小外接矩形的长度和宽度；

6.一种文字识别装置，其特征在于，所述装置包括：

文字识别模块，用于识别进行畸变矫正后的所述文字块中的文字；

所述像素分类模块包括：

像素分类单元，用于根据所述目标概率矩阵，获取所述目标图像中属于文字的像素点；

所述像素分类单元具体用于：

7.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的文字识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的文字识别方法的步骤。