CN108710882A

CN108710882A - 一种基于卷积神经网络的屏幕渲染文本识别方法

Info

Publication number: CN108710882A
Application number: CN201810446940.1A
Authority: CN
Inventors: 徐新; 周军; 穆楠
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-26

Abstract

本发明公开了一种基于卷积神经网络的屏幕渲染文本识别方法，包括如下步骤：对屏幕渲染图像进行二值化；从二值化图像中检测出文本块；对检测得到的文本块进行组合，组成文本行；从文本行中提取出单个字符；对提取出的单个字符中误分割的字符进行校正；采用卷积神经网络对单个字符进行识别。本发明首次将卷积神经网络引入屏幕渲染识别技术领域，通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性，能够高效的获得更加准确的文字识别结果，尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题，同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案。

Description

一种基于卷积神经网络的屏幕渲染文本识别方法

技术领域

本发明涉及一种基于卷积神经网络的屏幕渲染文本识别方法，属于图像处理技术领域。

背景技术

光学字符识别是将图像中的文本转换为机器编码文本，无论是从扫描文档、文档照片、场景照片或叠加在图像上的标题文本，它被广泛用作从打印纸质文档中读取信息。而屏幕渲染图像是指经由电脑或手机GPU渲染而呈现在显示屏上的一种点阵图像，使用手机拍摄这种图像时，由于拍摄角度和光照条件的不同会对图像质量产生很大的影响。

尽管在过去多年的研究中，人们对光学字符识别技术进行了广泛的研究，在扫描文档识别，手写汉字单字识别以及场景文字识别等领域取得了丰硕的成果。但是，由于屏幕渲染图像的低对比度和低信噪比，在这方面的研究进展并不明显。在过去的屏幕渲染文本识别研究中，Wachenfeld等人使用最近近邻算法对字符图像进行识别，Rashid等人使用隐马尔可夫算法对字符图像进行识别。这些方法都能够对屏幕渲染图像中的英文字符进行很好的识别，但是在中文字符的识别中，速度和效果都不是特别理想。

发明内容

本发明为了克服以上技术的不足，提供了一种基于卷积神经网络的屏幕渲染文本识别方法，可以用于屏幕渲染图像中字符分割和提取、在线词典的划词翻译以及自然场景下的文字识别等。

本发明克服其技术问题所采用的技术方案是：

一种基于卷积神经网络的屏幕渲染文本识别方法，包括如下步骤：

(1)对屏幕渲染图像进行二值化；

(2)从二值化图像中检测出文本块；

(3)对检测得到的文本块进行组合，组成文本行；

(4)从文本行中提取出单个字符；

(5)对提取出的单个字符中误分割的字符进行校正；

(6)采用卷积神经网络对单个字符进行识别。

本发明优选的，所述步骤(1)中，对屏幕渲染图像进行二值化的具体步骤如下：

(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间：

其中，R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值，Gray(x,y)表示对应点上的灰度值，N和M分别表示图像的高度和宽度；

(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像：

其中，v(x,y)是图像中每个像素点的灰度值，T(x,y)是二值化之后的值；

(1.3)采用颜色反转技术，将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字：

其中，F(x,y)是颜色反转之后的值。

本发明优选的，所述步骤(2)中，从二值化图像中检测出文本块的具体步骤如下：

(2.1)对经过步骤(1)处理后的图像进行横向膨胀操作，将图像中每一行的字符相连，组成文本块：

其中，G(x,y)是膨胀之后的值，N和M分别表示图像的高度和宽度；

(2.2)对图像进行连通域检测，定位经过步骤(2.2)处理后图像中的文本块。

本发明优选的，所述步骤(3)中，对检测得到的文本块进行组合，组成文本行，其具体步骤如下：

采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起，组成文本行：通过计算两个连通域矩形的距离来判断两个连通域是否在同一行，在同一行就将两个连通域合并，设两个连通域矩形的距离为h，本发明优选所述h为5个像素。

本发明优选的，所述步骤(4)中，从文本行中提取出单个字符的具体步骤如下：

针对经过步骤(3)处理后图像中的每一个文本行，使用垂直投影法分割出单个字符：

通过遍历每一列，得到所有的分割线，分割线由下面公式决定：

其中，S(x)表示该处是否可分割，N和M分别表示图像的高度和宽度。

本发明优选的，所述步骤(5)中，对提取出的单个字符中误分割的字符进行校正的具体步骤如下：

1)针对每一个文本行，使用字宽融合方法对垂直投影法分割时的误分割结果进行处理：

通过比对前后两个字符总的宽度和平均字符的宽度T_w来判断这两个字符是不是由一个字符误分割而来：

其中，len(g)用于统计集合Ω_i中各个子集的元素个数，Ω_i,i＝1,2,...,M是统计字符宽度w得到的集合，Ω_i＝{w|w∈[(i-1)*10,i*10]}，M是以10个像素为间隔将字符宽度区间[0,J]进行划分得到的子区间的数量，J由下面公式给出：

其中，max_w是所有字符候选者的最大宽度。

本发明优选的，所述步骤(6)中，采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。

本发明优选的，所述字符图像预处理具体如下：

对经过步骤(5)处理后得到的字符图像进行缩放，字符图像尺寸缩放到120×120，具体缩放通过以下实现：

计算字符图像的高和宽取出较长的一边记为x₁，另一较短边记为x₂，将x₁缩放到120个像素，则x₂等比缩放后的大小为：

对x₂进行缩放后，将x₂边的两边填充黑色像素以补齐120个像素。

本发明优选的，所述字符图像识别具体如下：

将经过预处理后的字符图像输入卷积神经网络，在卷积神经网络中进行前向传播，前向传播中的一个卷积操作如下：

用表示第i层第j个特征图上(x，y)处神经元的值，的值由以下公式给出：

其中，tanh()是一个激活函数，b_ij是当前特征图的偏置，m是i-1层连接到当前特征图的特征图集合，是连接第k个特征层的卷积核在(p，q)处的值，P_i和Q_i分别是卷积核的高度和宽度；

整个前向传播由若干个卷积和两个全连接层构成，卷积神经网络的全连接层给出对图像的识别结果。

本发明的有益效果是：

本发明首次将卷积神经网络引入屏幕渲染识别技术领域，通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性，能够高效的获得更加准确的文字识别结果，尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题，同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案，也为在线词典的划词翻译和自然场景下的文字识别等问题提供了很好的解决方案。

附图说明

图1为本发明实施例的流程示意图。

图2为本发明实施例所使用的卷积神经网络结构图。

图3为图2中inception-v2的结构图。

图4为原始屏幕渲染图像。

图5为图4中方框部分A的放大图。

图6为本发明实施例的连通域检测结果图。

图7为本发明实施例的连通域融合结果图。

图8为本发明实施例采用垂直投影法分割后的结果图。

图9为本发明实施例字符校正后的结果图。

图10为现有技术采用HCCR-AlexNet卷积神经网络识别的结果图。

图11为现有技术采用HCCR-GoogLeNet卷积神经网络识别的结果图。

图12为现有技术采用VGG卷积神经网络识别的结果图。

图13为采用本发明实施例的卷积神经网络识别的结果图。

图14为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的准确率对比图。

图15为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的损失对比图。

图16为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR 2013数据集上的准确率对比图。

图17为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR 2013数据集上的损失对比图。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

本发明实施例所述的一种基于卷积神经网络的屏幕渲染文本识别方法，如图1所示，包括如下步骤：

(1)对屏幕渲染图像进行二值化；

(2)从二值化图像中检测出文本块；

(3)对检测得到的文本块进行组合，组成文本行；

(4)从文本行中提取出单个字符；

(5)对提取出的单个字符中误分割的字符进行校正；

(6)采用卷积神经网络对单个字符进行识别。

本实施例优选的，所述步骤(1)中，对如图4所示的原始屏幕渲染图像(图5为图4中方框部分A的局部放大图)进行二值化的具体步骤如下：

其中，F(x,y)是颜色反转之后的值。

本实施例优选的，所述步骤(2)中，从二值化图像中检测出文本块的具体步骤如下：

(2.2)对图像进行连通域检测，检测结果如图6所示，定位经过步骤(2.2)处理后图像中的文本块。

采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起，组成文本行：通过计算两个连通域矩形的距离来判断两个连通域是否在同一行，在同一行就将两个连通域合并，合并后如图7所示。设两个连通域矩形的距离为h，本实施例优选所述h为5个像素。

本实施例优选的，所述步骤(4)中，从文本行中提取出单个字符的具体步骤如下：

其中，S(x)表示该处是否可分割，N和M分别表示图像的高度和宽度。分割后的结果如图8所示。

本实施例优选的，所述步骤(5)中，对提取出的单个字符中误分割的字符进行校正的具体步骤如下：

其中，max_w是所有字符候选者的最大宽度。字符校正后的结果如图9所示。

本实施例优选的，所述步骤(6)中，采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。

本实施例优选的，所述字符图像预处理具体如下：

采用本实施例所述的卷积神经网络对字符图像识别具体如下：

将经过预处理后的字符图像输入本实施例的卷积神经网络，将本实施例的卷积神经网络定义为SRTR-GoogLeNet，图2为本实施例的SRTR-GoogLeNet卷积神经网络结构图，在该卷积神经网络中，我们限定了输入图像的大小为120×120×3，“120”表示图像的长宽分别具有120个像素，“3”表示图像为RGB模式，图2中的inception-v2结构具体如图3所示，在卷积神经网络中进行前向传播，前向传播中的一个卷积操作如下：

整个前向传播由若干个卷积和两个全连接层构成，卷积神经网络的全连接层给出对图像的识别结果。所述卷积的取值范围为0-1000个，本实施例优选为24个。

将采用现有技术所述的识别方法得到的结果图与采用本实施例所述方法得到的识别结果图对比，原始屏幕渲染图像均为图4所示，图10为现有技术采用HCCR-AlexNet卷积神经网络识别的结果图，图11为现有技术采用HCCR-GoogLeNet卷积神经网络识别的结果图，图12为现有技术采用VGG卷积神经网络识别的结果图，图13为采用本发明实施例的卷积神经网络识别的结果图。图10-13中，方框内的字表示识别错误的字，方框的数量越少，识别准确率越高。可以看出，图13即本发明实施例所采用的卷积神经网络在屏幕渲染图像上的准确率明显高于其他三种方法。

另外，再将采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本实施例所述的卷积神经网络分别在CIFAR-10数据集和ICDAR 2013数据集上做一下准确率和损失对比。图14为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的准确率对比图，图15为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的损失对比图，图16为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR2013数据集上的准确率对比图，图17为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR2013数据集上的损失对比图。图14-17中，“Proposed”表示本发明所采用的卷积神经网络。其中，准确率曲线能够很好的反应各种方法对图像的识别好坏，曲线越高，则反应出识别的准确率越高，从图14和图16可以看出，采用本发明实施例所述方法无论是在CIFAR-10数据集上还是在ICDAR 2013数据集上，得到的曲线均高于其他三种方法的曲线，说明了本发明实施例所述方法识别的准确率高于其他三种方法；损失曲线能够很好的反应各种方法在训练时的学习速度，曲线下降的越快，则反应出其学习速度越快，从图15和图17可以看出，采用本发明实施例所述方法无论是在CIFAR-10数据集上还是在ICDAR 2013数据集上，得到的曲线均比其他三种方法下降的快，说明了本发明实施例所述方法的学习速度比其他三种方法快。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。

Claims

1.一种基于卷积神经网络的屏幕渲染文本识别方法，其特征在于，包括如下步骤：

(1)对屏幕渲染图像进行二值化；

(2)从二值化图像中检测出文本块；

(3)对检测得到的文本块进行组合，组成文本行；

(4)从文本行中提取出单个字符；

(5)对提取出的单个字符中误分割的字符进行校正；

(6)采用卷积神经网络对单个字符进行识别。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，对屏幕渲染图像进行二值化的具体步骤如下：

其中，F(x,y)是颜色反转之后的值。

3.根据权利要求1或2所述的方法，其特征在于，所述步骤(2)中，从二值化图像中检测出文本块的具体步骤如下：

4.根据权利要求3所述的方法，其特征在于，所述步骤(3)中，对检测得到的文本块进行组合，组成文本行，其具体步骤如下：

采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起，组成文本行：通过计算两个连通域矩形的距离来判断两个连通域是否在同一行，在同一行就将两个连通域合并。

5.根据权利要求4所述的方法，其特征在于，设两个连通域矩形的距离为h，所述h为5个像素。

6.根据权利要求1或2或4或5所述的方法，其特征在于，所述步骤(4)中，从文本行中提取出单个字符的具体步骤如下：

7.根据权利要求6所述的方法，其特征在于，所述步骤(5)中，对提取出的单个字符中误分割的字符进行校正的具体步骤如下：

其中，max_w是所有字符候选者的最大宽度。

8.根据权利要求1或2或4或5或7所述的方法，其特征在于，所述步骤(6)中，采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。

9.根据权利要求8所述的方法，其特征在于，所述字符图像预处理具体如下：

10.根据权利要求9所述的方法，其特征在于，所述字符图像识别具体如下：