CN109948714A

CN109948714A - 基于残差卷积和递归神经网络的中文场景文本行识别方法

Info

Publication number: CN109948714A
Application number: CN201910221267.6A
Authority: CN
Inventors: 李兆海; 金连文; 罗灿杰; 杨帆; 毛慧芸; 周伟英
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-06-28
Anticipated expiration: 2039-03-22
Also published as: CN109948714B

Abstract

本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法，包括以下步骤：收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果；本发明通过将卷积神经网络和递归神经网络结合起来，解决中文场景文本行识别的问题，避免了对文本行进行字符分割以及误分割带来的错误识别，通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练，从而得到实用的中文场景文本识别模型，且具有鲁棒性强，能够识别复杂背景、复杂光照和多种字体的中文文本行。

Description

基于残差卷积和递归神经网络的中文场景文本行识别方法

技术领域

本发明涉及计算机视觉领域，尤其涉及基于残差卷积和递归神经网络的中文场景文本行识别方法

背景技术

文字是人类交流信息和理解信息的基本工具，随着智能手机的普及以及互联网的迅速发展，通过手机、平板电脑等移动终端摄像头获取、处理和分享信息己经逐渐成为一种非常流行的生活方式，一般来说，在文本和其他对象同时存在的场景中，往往用户会更加关注图像中的文本内容，而且文本内容对于图像的理解也是非常重要的，因此如何能够准确，快速的识别图像中的文本，对用户拍摄的意图和作品的主题会有更加深入的理解。

与传统的文档图像相比，自然场景中的文本背景较为复杂，字体多样，而且容易受到光照和拍摄角度的影响，因此识别难度很大，在早期的场景文本识别研究中，通常需要先将文本行中的单字分割出来，再提取单字图像的特征，最后通过一个单字分类器进行识别，在这类方法中，识别的准确率高度依赖于前期单字分割准确率，如果单字被误切分，则很难识别正确，此外，人工设计的特征也无法很好地表示图像各个层次的特征，近年来，深度学习在图像分类、人脸识别、语音识别、自然语言处理等领域都取得了极佳的效果，深度学习的方法不需要人工设计特征，能够通过层叠的网络自动地学习图像各个层次的特征，能够针对任务学习出适应性更强的特征，目前关于场景文本识别的研究大多集中于英文场景文本，而中文场景文本识别由于类别数大，字体复杂等原因，还没有得到充分的研究，因此，本发明提出基于残差卷积和递归神经网络的中文场景文本行识别方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明通过将卷积神经网络和递归神经网络结合起来，解决中文场景文本行识别的问题，避免了对文本行进行字符分割，避免了误分割带来的错误识别，通过在卷积神经网络和递归神经网络中加入了残差连接，帮助梯度的传播，加速模型的训练，从而得到实用的中文场景文本识别模型，且具有鲁棒性强，能够识别复杂背景、复杂光照和多种字体的中文文本行。，而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。

本发明提出基于残差卷积和递归神经网络的中文场景文本行识别方法，包括以下步骤：

步骤一：收集中文场景文本训练图像；

步骤二：对训练图像尺寸做归一化处理，先将中文场景文本行图像的高度归一化为H_s个像素，宽度等比例缩放，再根据网络结构来设置标准宽度W_s，得到归一化处理后的训练图像尺寸为H_s×W_s；

步骤三：对训练图像做数据增广处理，包括进行高斯模糊、丢弃图像块、改变亮度和对比度、图像旋转、仿射变换、透视变和动态模糊处理；

步骤四：设计一个具有依次连接的6个卷积层结构的残差卷积神经网络对训练图像进行编码，设计残差递归神经网络和CTC模型对编码后的训练图像特征进行解码，分别设计两个模型，用于水平文本行和竖直文本行的识别；

步骤五：通过大量训练数据对水平文本行和竖直文本行训练得到识别模型；

步骤六：分别将待识别图像输入水平文本行和竖直文本行识别模型中，取置信度较高的结果为识别结果。

进一步改进在于：所述步骤二中如果归一化后图像的宽度小于W_s，则在图像的后面填充纯黑色像素点，使其宽度达到W_s，填充后的图像高度为H_s，宽度为W_s；如果归一化后图像的宽度大于W_s，则直接将图像强制归一化到高度H_s，宽度W_s。

进一步改进在于：所述步骤三中数据增广处理具体过程为：

高斯模糊：对输入的训练图像做高斯模糊，模糊核的半径为3～5个像素；

丢弃图像块：将输入的训练图像的一个矩形区域像素值全部置零，矩形的高度范围为10～19个像素，宽度为15～24个像素；

改变亮度和对比度：改变输入的训练图像的亮度和对比度，公式如公式(1)所示：

g(i,j)＝α×f(i,j)+β (1)

其中，α为增益参数，表征对比度，设置在0.5～1.5之间，而β为偏置参数，表征亮度变化，设置在0～49之间；

图像旋转：对输入的训练图像做旋转处理，旋转角度范围为-5°～5°；

仿射变换：对输入的训练图像做随机仿射变换；

透视变换：对输入的训练图像做随机透视变换；

动态模糊：对输入的训练图像做动态模糊，模糊核的半径为7～9个像素。

进一步改进在于：所述步骤四中残差卷积神经网络的设计过程为：设计一个残差卷积神经网络，且设置残差卷积神经网络包含了依次连接的6个卷积层结构；设置残差卷积神经网络前面5个卷积层结构均为残差块，每个残差块由若干个串联的卷积层组成，残差块中的第一层卷积与最后一层卷积的输出特征图相加，作为下一个残差块的输入；除了残差块中的最后一层卷积层以外，每一次卷积操作都使用了ReLU激活函数和BN层；每一个残差块的输出特征图尺寸分别为H_s×W_s，设计残差卷积神经网络时，为了便于后续的解码，使最后一层卷积层的输出特征图高度为1，宽度为记该宽度为W_e，最后一层卷积层的卷积核大小为2×2，通道数为1024，卷积步长为2×1，使用的激活函数为ReLU，并配备了BN层。

进一步改进在于：所述步骤四中利用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为：解码器包括两层双向递归神经网络，三层全连接层和时域连接CTC模型；选用两层双向递归神经网络BLSTM，并加上残差连接，即将第一层BLSTM和第二层BLSTM的输出特征图相加，作为最后的输出，两层BLSTM的输出维度相同；将递归神经网络的输出特征图输入到三层全连接层，两层全连接层的通道数分别为N1，N2和C+1，其中C是中文文本行识别的类别数，增加的1类是CTC模型中的空格类，增强特征提取能力并得到序列分类的概率分布；最后将概率分布输入到CTC模型中进行处理，神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练，当模型训练完成，用于识别测试图像时，使用Naive Decoding的方式进行解码，取每个时间点对应最大概率的类别作为识别结果。

进一步改进在于：所述步骤四中设计两个模型用于水平文本行和竖直文本行的识别时，由于竖直文本行翻转后尺寸与水平文本行相似，采用残差卷积神经网络和残差递归神经网络来识别竖直文本行，翻转后的汉字形态发生了变化，需要分别训练两个模型来识别水平文本行和竖直文本行。

进一步改进在于：所述步骤五中神经网络模型训练方式采用自适应梯度下降方法Adadelta，参数更新公式如公式(2)、(3)、(4)和(5)所示：

Δx_t＝ρΔx_t-1+(1-ρ)g′_t ² (4)

X_t＝X_t-1-g′_t (5)

其中，g_t是第t次迭代时的梯度，x_t是第t次迭代时需要更新的权重，s_t，Δx_t和g′_t为中间状态变量，ρ和ε为超参数，ρ设置为0.9，ε设置为0.000001；

训练水平文本行和竖直文本行时，对于每一张输入的训练图像，所有数据增广处理随机添加，每一项处理发生的概率均为0.5。

进一步改进在于：所述步骤六中先假设待识别图像为I，如果图像的高度大于宽度，则把该图像逆时针旋转90°，再将图像的高度归一化为H_s个像素，宽度等比例缩放为W，然后沿宽度方向将图像切分为m块，再将图像I₁，I₂，…，I_m分别输入到训练后得到的水平文本识别模型中，得到识别结果R_h1，R_h2，…，R_hm和对应的概率P_h1，P_h2，…，P_hm,得到图像I在水平文本识别模型中的识别结果R_h和对应的概率P_h，最后将图像I₁，I₂，…，I_m分别输入训练后得到的竖直文本识别模型中，得到图像I在竖直文本识别模型中的识别结果R_v和对应的概率P_v，比较P_h和P_v的大小，得到最终的识别结果R。

进一步改进在于：所述概率P_h的计算公式如公式(6)和(7)所示，识别结果R的计算公式如公式(8)所示：

R_h＝[R_h1，R_h2，…，R_hm] (6)

进一步改进在于：所述图像切分为m块的计算公式如公式(9)所示：

m＝ceil(W/W_s) (9)

其中，ceil表示向上取整，假设切分出的m个图像分别为I₁，I₂，…，I_m。

本发明的有益效果为：(1)通过将卷积神经网络和递归神经网络结合起来，解决中文场景文本行识别的问题，将文本行作为一个序列来识别，与传统的场景文本识别方法相比，避免了对文本行进行字符分割，避免了误分割带来的错误识别，另外，递归神经网络能够学习到隐性语言模型，进一步提高了模型的识别率；

(2)本发明通过在卷积神经网络和递归神经网络中加入了残差连接，帮助梯度的传播，加速模型的训练，从而得到实用的中文场景文本识别模型；

(3)本发明提出的中文场景文本识别方法识别率高，鲁棒性强，能够识别复杂背景、复杂光照和多种字体的中文文本行。，而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。

附图说明

图1为本发明方法流程示意图。

图2为本发明方法卷积神经网络残差块模型结构示意图。

图3为本发明方法残差递归神经网络结构意图。

具体实施方式

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

根据图1、2、3所示，本实施例提出基于残差卷积和递归神经网络的中文场景文本行识别方法，包括以下步骤：

步骤一：收集中文场景文本训练图像，本实施例收集的场景文本训练图像包含中文汉字、英文字母、数字、标点符号以及一些特殊符号，共有3624类；

步骤二：对训练图像尺寸做归一化处理，先将中文场景文本行图像的高度归一化为H_s个像素，宽度等比例缩放，再根据网络结构来设置标准宽度W_s，得到归一化处理后的训练图像尺寸为H_s×W_s，如果归一化后图像的宽度小于W_s，则在图像的后面填充纯黑色像素点，使其宽度达到W_s，填充后的图像高度为H_s，宽度为W_s；如果归一化后图像的宽度大于W_s，则直接将图像强制归一化到高度H_s，宽度W_s，本实施例中H_s设置为40，W_s设置为284；

高斯模糊：对输入的训练图像做高斯模糊，模糊核的半径为4个像素；

丢弃图像块：将输入的训练图像的一个矩形区域像素值全部置零，矩形的高度范围为15个像素，宽度为20个像素；

g(i，j)＝α×f(i，j)+β (1)

其中，α为增益参数，表征对比度，设置为1之间，而β为偏置参数，表征亮度变化，设置为25；

图像旋转：对输入的训练图像做旋转处理，旋转角度范围为0°；

仿射变换：对输入的训练图像做随机仿射变换；

透视变换：对输入的训练图像做随机透视变换；

动态模糊：对输入的训练图像做动态模糊，模糊核的半径为8个像素；

残差卷积神经网络的设计过程为：

设计一个残差卷积神经网络，且设置残差卷积神经网络包含了依次连接的6个卷积层结构；前面5个卷积层结构均为残差块，每个残差块由若干个串联的卷积层组成，残差块中的第一层卷积与最后一层卷积的输出特征图相加，作为下一个残差块的输入；除了残差块中的最后一层卷积层以外，每一次卷积操作都使用了ReLU激活函数和BN层；以第一个残差块Conv1为例，残差连接的方式如图2所示；根据步骤二所述，归一化的训练图像尺寸为40×284，每一个残差块的输出特征图尺寸分别为40×284，20×142，10×71，5×36，2×36；

最后一层卷积层的卷积核大小为2×2，通道数为1024，卷积步长为2×1，使用的激活函数为ReLU，并配备了BN层，为了便于后续的解码，在设计网络时，使最后一层卷积层的输出特征图高度为1，宽度为35；

在本实施例中，残差卷积神经网络的具体结构如下表1所示：

表1残差卷积神经网络结构

其中，64C3P1表示一层卷积层，卷积核大小为3×3，补零大小为1，输出64个特征图的卷积层,在本实施例中,5个残差块所包含的卷积层数量分别为4,3,3,3,3；

用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为：解码器包括两层双向递归神经网络，三层全连接层和时域连接CTC模型；选用两层双向递归神经网络BLSTM，并加上残差连接，即将第一层BLSTM和第二层BLSTM的输出特征图相加，作为最后的输出，本实施例中取256，两层BLSTM的输出维度相同；为了增强特征提取能力并得到序列分类的概率分布，将上述递归神经网络的输出特征图输入到三层全连接层，两层全连接层的通道数分别为N1，N2和C+1，其中C是中文文本行识别的类别数，增加的1类是CTC模型中的空格类，在本实施例中，N1取512，N2取1024，C取3624，因此最后一个全连接层的通道数为3625；最后将概率分布输入到CTC模型中进行处理，神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练，当模型训练完成，用于识别测试图像时，使用Naive Decoding的方式进行解码，取每个时间点对应最大概率的类别作为识别结果；

设计两个模型用于水平文本行和竖直文本行的识别时，由于竖直文本行翻转后尺寸与水平文本行相似，采用残差卷积神经网络和残差递归神经网络来识别竖直文本行，翻转后的汉字形态发生了变化，需要分别训练两个模型来识别水平文本行和竖直文本行

步骤五：通过大量训练数据对水平文本行和竖直文本行训练得到识别模型，神经网络模型训练方式采用自适应梯度下降方法Adadelta，参数更新公式如公式(2)、(3)、(4)和(5)所示：

Δx_t＝ρΔx_t-1+(1-ρ)g′_t ² (4)

X_t＝X_t-1-g′_t (5)

训练水平文本行和竖直文本行时，对于每一张输入的训练图像，所有数据增广处理随机添加，每一项处理发生的概率均为0.5；

步骤六：分别将待识别图像输入水平文本行和竖直文本行识别模型中，取置信度较高的结果为识别结果，先假设待识别图像为I，如果图像的高度大于宽度，则把该图像逆时针旋转90°，再将图像的高度归一化为H_s个像素，宽度等比例缩放为W，然后沿宽度方向将图像切分为m块，图像切分为m块的计算公式如公式(9)所示：

m＝ceil(W/W_s) (9)

其中，ceil表示向上取整，假设切分出的m个图像分别为I₁，I₂，…，I_m。；

再将图像I₁，I₂，…，I_m分别输入到训练后得到的水平文本识别模型中，得到识别结果R_h1，R_h2，…，R_hm和对应的概率P_h1，P_h2，…，P_hm,得到图像I在水平文本识别模型中的识别结果R_h和对应的概率P_h，最后将图像I₁，I₂，…，I_m分别输入训练后得到的竖直文本识别模型中，得到图像I在竖直文本识别模型中的识别结果R_v和对应的概率P_v，比较P_h和P_v的大小，得到最终的识别结果R，概率P_h的计算公式如公式(6)和(7)所示，识别结果R的计算公式如公式(8)所示：

R_h＝[R_h1，R_h2，…，R_hm] (6)

本发明通过将卷积神经网络和递归神经网络结合起来，解决中文场景文本行识别的问题，将文本行作为一个序列来识别，与传统的场景文本识别方法相比，避免了对文本行进行字符分割，避免了误分割带来的错误识别，另外，递归神经网络能够学习到隐性语言模型，进一步提高了模型的识别率；本发明通过在卷积神经网络和递归神经网络中加入了残差连接，帮助梯度的传播，加速模型的训练，从而得到实用的中文场景文本识别模型；本发明提出的中文场景文本识别方法识别率高，鲁棒性强，能够识别复杂背景、复杂光照和多种字体的中文文本行。，而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于，包括以下步骤：

步骤一：收集中文场景文本训练图像；

2.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤二中如果归一化后图像的宽度小于W_s，则在图像的后面填充纯黑色像素点，使其宽度达到W_s，填充后的图像高度为H_s，宽度为W_s；如果归一化后图像的宽度大于W_s，则直接将图像强制归一化到高度H_s，宽度W_s。

3.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤三中数据增广处理具体过程为：

g(i，j)＝α×f(i，j)+β (1)

仿射变换：对输入的训练图像做随机仿射变换；

透视变换：对输入的训练图像做随机透视变换；

4.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤四中残差卷积神经网络的设计过程为：设计一个残差卷积神经网络，且设置残差卷积神经网络包含了依次连接的6个卷积层结构；设置残差卷积神经网络前面5个卷积层结构均为残差块，每个残差块由若干个串联的卷积层组成，残差块中的第一层卷积与最后一层卷积的输出特征图相加，作为下一个残差块的输入；除了残差块中的最后一层卷积层以外，每一次卷积操作都使用了ReLU激活函数和BN层；每一个残差块的输出特征图尺寸分别为设计残差卷积神经网络时，为了便于后续的解码，使最后一层卷积层的输出特征图高度为1，宽度为记该宽度为W_e，最后一层卷积层的卷积核大小为2×2，通道数为1024，卷积步长为2×1，使用的激活函数为ReLU，并配备了BN层。

5.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤四中利用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为：解码器包括两层双向递归神经网络，三层全连接层和时域连接CTC模型；选用两层双向递归神经网络BLSTM，并加上残差连接，即将第一层BLSTM和第二层BLSTM的输出特征图相加，作为最后的输出，两层BLSTM的输出维度相同；将递归神经网络的输出特征图输入到三层全连接层，两层全连接层的通道数分别为N1，N2和C+1，其中C是中文文本行识别的类别数，增加的1类是CTC模型中的空格类，增强特征提取能力并得到序列分类的概率分布；最后将概率分布输入到CTC模型中进行处理，神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练，当模型训练完成，用于识别测试图像时，使用Naive Decoding的方式进行解码，取每个时间点对应最大概率的类别作为识别结果。

6.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤四中设计两个模型用于水平文本行和竖直文本行的识别时，由于竖直文本行翻转后尺寸与水平文本行相似，采用残差卷积神经网络和残差递归神经网络来识别竖直文本行，翻转后的汉字形态发生了变化，需要分别训练两个模型来识别水平文本行和竖直文本行。

7.根据权利要求X所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于:所述步骤五中神经网络模型训练方式采用自适应梯度下降方法Adadelta，参数更新公式如公式(2)、(3)、(4)和(5)所示：

Δx_t＝ρΔx_t-1+(1-ρ)g′_t ² (4)

x_t＝x_t-1-g′_t (5)

8.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述步骤六中先假设待识别图像为I，如果图像的高度大于宽度，则把该图像逆时针旋转90°，再将图像的高度归一化为H_s个像素，宽度等比例缩放为W，然后沿宽度方向将图像切分为m块，再将图像I₁，I₂，…，I_m分别输入到训练后得到的水平文本识别模型中，得到识别结果R_h1，R_h2，…，R_hm和对应的概率P_h1，P_h2，…，P_hm,得到图像I在水平文本识别模型中的识别结果R_h和对应的概率P_h，最后将图像I₁，I₂，…，I_m分别输入训练后得到的竖直文本识别模型中，得到图像I在竖直文本识别模型中的识别结果R_v和对应的概率P_v，比较P_h和P_v的大小，得到最终的识别结果R。

9.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述概率P_h的计算公式如公式(6)和(7)所示，识别结果R的计算公式如公式(8)所示：

R_h＝[R_h1，R_h2，…，R_hm] (6)

10.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法，其特征在于：所述图像切分为m块的计算公式如公式(9)所示：

m＝ceil(W/W_s) (9)