CN109948714A - 基于残差卷积和递归神经网络的中文场景文本行识别方法 - Google Patents

基于残差卷积和递归神经网络的中文场景文本行识别方法 Download PDF

Info

Publication number
CN109948714A
CN109948714A CN201910221267.6A CN201910221267A CN109948714A CN 109948714 A CN109948714 A CN 109948714A CN 201910221267 A CN201910221267 A CN 201910221267A CN 109948714 A CN109948714 A CN 109948714A
Authority
CN
China
Prior art keywords
text
image
residual error
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910221267.6A
Other languages
English (en)
Other versions
CN109948714B (zh
Inventor
李兆海
金连文
罗灿杰
杨帆
毛慧芸
周伟英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN201910221267.6A priority Critical patent/CN109948714B/zh
Publication of CN109948714A publication Critical patent/CN109948714A/zh
Application granted granted Critical
Publication of CN109948714B publication Critical patent/CN109948714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:收集中文场景文本训练图像、对训练图像尺寸做归一化处理、对训练图像做数据增广处理、设计残差卷积神经网络、残差递归神经网络和CTC模型、对水平文本行和竖直文本行训练以及选择取置信度较高的结果为识别结果;本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割以及误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接可加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。

Description

基于残差卷积和递归神经网络的中文场景文本行识别方法
技术领域
本发明涉及计算机视觉领域,尤其涉及基于残差卷积和递归神经网络的中文场景文本行识别方法
背景技术
文字是人类交流信息和理解信息的基本工具,随着智能手机的普及以及互联网的迅速发展,通过手机、平板电脑等移动终端摄像头获取、处理和分享信息己经逐渐成为一种非常流行的生活方式,一般来说,在文本和其他对象同时存在的场景中,往往用户会更加关注图像中的文本内容,而且文本内容对于图像的理解也是非常重要的,因此如何能够准确,快速的识别图像中的文本,对用户拍摄的意图和作品的主题会有更加深入的理解。
与传统的文档图像相比,自然场景中的文本背景较为复杂,字体多样,而且容易受到光照和拍摄角度的影响,因此识别难度很大,在早期的场景文本识别研究中,通常需要先将文本行中的单字分割出来,再提取单字图像的特征,最后通过一个单字分类器进行识别,在这类方法中,识别的准确率高度依赖于前期单字分割准确率,如果单字被误切分,则很难识别正确,此外,人工设计的特征也无法很好地表示图像各个层次的特征,近年来,深度学习在图像分类、人脸识别、语音识别、自然语言处理等领域都取得了极佳的效果,深度学习的方法不需要人工设计特征,能够通过层叠的网络自动地学习图像各个层次的特征,能够针对任务学习出适应性更强的特征,目前关于场景文本识别的研究大多集中于英文场景文本,而中文场景文本识别由于类别数大,字体复杂等原因,还没有得到充分的研究,因此,本发明提出基于残差卷积和递归神经网络的中文场景文本行识别方法,以解决现有技术中的不足之处。
发明内容
针对上述问题,本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,避免了对文本行进行字符分割,避免了误分割带来的错误识别,通过在卷积神经网络和递归神经网络中加入了残差连接,帮助梯度的传播,加速模型的训练,从而得到实用的中文场景文本识别模型,且具有鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。,而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。
本发明提出基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:
步骤一:收集中文场景文本训练图像;
步骤二:对训练图像尺寸做归一化处理,先将中文场景文本行图像的高度归一化为Hs个像素,宽度等比例缩放,再根据网络结构来设置标准宽度Ws,得到归一化处理后的训练图像尺寸为Hs×Ws
步骤三:对训练图像做数据增广处理,包括进行高斯模糊、丢弃图像块、改变亮度和对比度、图像旋转、仿射变换、透视变和动态模糊处理;
步骤四:设计一个具有依次连接的6个卷积层结构的残差卷积神经网络对训练图像进行编码,设计残差递归神经网络和CTC模型对编码后的训练图像特征进行解码,分别设计两个模型,用于水平文本行和竖直文本行的识别;
步骤五:通过大量训练数据对水平文本行和竖直文本行训练得到识别模型;
步骤六:分别将待识别图像输入水平文本行和竖直文本行识别模型中,取置信度较高的结果为识别结果。
进一步改进在于:所述步骤二中如果归一化后图像的宽度小于Ws,则在图像的后面填充纯黑色像素点,使其宽度达到Ws,填充后的图像高度为Hs,宽度为Ws;如果归一化后图像的宽度大于Ws,则直接将图像强制归一化到高度Hs,宽度Ws
进一步改进在于:所述步骤三中数据增广处理具体过程为:
高斯模糊:对输入的训练图像做高斯模糊,模糊核的半径为3~5个像素;
丢弃图像块:将输入的训练图像的一个矩形区域像素值全部置零,矩形的高度范围为10~19个像素,宽度为15~24个像素;
改变亮度和对比度:改变输入的训练图像的亮度和对比度,公式如公式(1)所示:
g(i,j)=α×f(i,j)+β (1)
其中,α为增益参数,表征对比度,设置在0.5~1.5之间,而β为偏置参数,表征亮度变化,设置在0~49之间;
图像旋转:对输入的训练图像做旋转处理,旋转角度范围为-5°~5°;
仿射变换:对输入的训练图像做随机仿射变换;
透视变换:对输入的训练图像做随机透视变换;
动态模糊:对输入的训练图像做动态模糊,模糊核的半径为7~9个像素。
进一步改进在于:所述步骤四中残差卷积神经网络的设计过程为:设计一个残差卷积神经网络,且设置残差卷积神经网络包含了依次连接的6个卷积层结构;设置残差卷积神经网络前面5个卷积层结构均为残差块,每个残差块由若干个串联的卷积层组成,残差块中的第一层卷积与最后一层卷积的输出特征图相加,作为下一个残差块的输入;除了残差块中的最后一层卷积层以外,每一次卷积操作都使用了ReLU激活函数和BN层;每一个残差块的输出特征图尺寸分别为Hs×Ws设计残差卷积神经网络时,为了便于后续的解码,使最后一层卷积层的输出特征图高度为1,宽度为记该宽度为We,最后一层卷积层的卷积核大小为2×2,通道数为1024,卷积步长为2×1,使用的激活函数为ReLU,并配备了BN层。
进一步改进在于:所述步骤四中利用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为:解码器包括两层双向递归神经网络,三层全连接层和时域连接CTC模型;选用两层双向递归神经网络BLSTM,并加上残差连接,即将第一层BLSTM和第二层BLSTM的输出特征图相加,作为最后的输出,两层BLSTM的输出维度相同;将递归神经网络的输出特征图输入到三层全连接层,两层全连接层的通道数分别为N1,N2和C+1,其中C是中文文本行识别的类别数,增加的1类是CTC模型中的空格类,增强特征提取能力并得到序列分类的概率分布;最后将概率分布输入到CTC模型中进行处理,神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练,当模型训练完成,用于识别测试图像时,使用Naive Decoding的方式进行解码,取每个时间点对应最大概率的类别作为识别结果。
进一步改进在于:所述步骤四中设计两个模型用于水平文本行和竖直文本行的识别时,由于竖直文本行翻转后尺寸与水平文本行相似,采用残差卷积神经网络和残差递归神经网络来识别竖直文本行,翻转后的汉字形态发生了变化,需要分别训练两个模型来识别水平文本行和竖直文本行。
进一步改进在于:所述步骤五中神经网络模型训练方式采用自适应梯度下降方法Adadelta,参数更新公式如公式(2)、(3)、(4)和(5)所示:
Δxt=ρΔxt-1+(1-ρ)g′t 2 (4)
Xt=Xt-1-g′t (5)
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st,Δxt和g′t为中间状态变量,ρ和ε为超参数,ρ设置为0.9,ε设置为0.000001;
训练水平文本行和竖直文本行时,对于每一张输入的训练图像,所有数据增广处理随机添加,每一项处理发生的概率均为0.5。
进一步改进在于:所述步骤六中先假设待识别图像为I,如果图像的高度大于宽度,则把该图像逆时针旋转90°,再将图像的高度归一化为Hs个像素,宽度等比例缩放为W,然后沿宽度方向将图像切分为m块,再将图像I1,I2,…,Im分别输入到训练后得到的水平文本识别模型中,得到识别结果Rh1,Rh2,…,Rhm和对应的概率Ph1,Ph2,…,Phm,得到图像I在水平文本识别模型中的识别结果Rh和对应的概率Ph,最后将图像I1,I2,…,Im分别输入训练后得到的竖直文本识别模型中,得到图像I在竖直文本识别模型中的识别结果Rv和对应的概率Pv,比较Ph和Pv的大小,得到最终的识别结果R。
进一步改进在于:所述概率Ph的计算公式如公式(6)和(7)所示,识别结果R的计算公式如公式(8)所示:
Rh=[Rh1,Rh2,…,Rhm] (6)
进一步改进在于:所述图像切分为m块的计算公式如公式(9)所示:
m=ceil(W/Ws) (9)
其中,ceil表示向上取整,假设切分出的m个图像分别为I1,I2,…,Im
本发明的有益效果为:(1)通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,将文本行作为一个序列来识别,与传统的场景文本识别方法相比,避免了对文本行进行字符分割,避免了误分割带来的错误识别,另外,递归神经网络能够学习到隐性语言模型,进一步提高了模型的识别率;
(2)本发明通过在卷积神经网络和递归神经网络中加入了残差连接,帮助梯度的传播,加速模型的训练,从而得到实用的中文场景文本识别模型;
(3)本发明提出的中文场景文本识别方法识别率高,鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。,而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。
附图说明
图1为本发明方法流程示意图。
图2为本发明方法卷积神经网络残差块模型结构示意图。
图3为本发明方法残差递归神经网络结构意图。
具体实施方式
为了使发明实现的技术手段、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
根据图1、2、3所示,本实施例提出基于残差卷积和递归神经网络的中文场景文本行识别方法,包括以下步骤:
步骤一:收集中文场景文本训练图像,本实施例收集的场景文本训练图像包含中文汉字、英文字母、数字、标点符号以及一些特殊符号,共有3624类;
步骤二:对训练图像尺寸做归一化处理,先将中文场景文本行图像的高度归一化为Hs个像素,宽度等比例缩放,再根据网络结构来设置标准宽度Ws,得到归一化处理后的训练图像尺寸为Hs×Ws,如果归一化后图像的宽度小于Ws,则在图像的后面填充纯黑色像素点,使其宽度达到Ws,填充后的图像高度为Hs,宽度为Ws;如果归一化后图像的宽度大于Ws,则直接将图像强制归一化到高度Hs,宽度Ws,本实施例中Hs设置为40,Ws设置为284;
步骤三:对训练图像做数据增广处理,包括进行高斯模糊、丢弃图像块、改变亮度和对比度、图像旋转、仿射变换、透视变和动态模糊处理;
高斯模糊:对输入的训练图像做高斯模糊,模糊核的半径为4个像素;
丢弃图像块:将输入的训练图像的一个矩形区域像素值全部置零,矩形的高度范围为15个像素,宽度为20个像素;
改变亮度和对比度:改变输入的训练图像的亮度和对比度,公式如公式(1)所示:
g(i,j)=α×f(i,j)+β (1)
其中,α为增益参数,表征对比度,设置为1之间,而β为偏置参数,表征亮度变化,设置为25;
图像旋转:对输入的训练图像做旋转处理,旋转角度范围为0°;
仿射变换:对输入的训练图像做随机仿射变换;
透视变换:对输入的训练图像做随机透视变换;
动态模糊:对输入的训练图像做动态模糊,模糊核的半径为8个像素;
步骤四:设计一个具有依次连接的6个卷积层结构的残差卷积神经网络对训练图像进行编码,设计残差递归神经网络和CTC模型对编码后的训练图像特征进行解码,分别设计两个模型,用于水平文本行和竖直文本行的识别;
残差卷积神经网络的设计过程为:
设计一个残差卷积神经网络,且设置残差卷积神经网络包含了依次连接的6个卷积层结构;前面5个卷积层结构均为残差块,每个残差块由若干个串联的卷积层组成,残差块中的第一层卷积与最后一层卷积的输出特征图相加,作为下一个残差块的输入;除了残差块中的最后一层卷积层以外,每一次卷积操作都使用了ReLU激活函数和BN层;以第一个残差块Conv1为例,残差连接的方式如图2所示;根据步骤二所述,归一化的训练图像尺寸为40×284,每一个残差块的输出特征图尺寸分别为40×284,20×142,10×71,5×36,2×36;
最后一层卷积层的卷积核大小为2×2,通道数为1024,卷积步长为2×1,使用的激活函数为ReLU,并配备了BN层,为了便于后续的解码,在设计网络时,使最后一层卷积层的输出特征图高度为1,宽度为35;
在本实施例中,残差卷积神经网络的具体结构如下表1所示:
表1残差卷积神经网络结构
其中,64C3P1表示一层卷积层,卷积核大小为3×3,补零大小为1,输出64个特征图的卷积层,在本实施例中,5个残差块所包含的卷积层数量分别为4,3,3,3,3;
用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为:解码器包括两层双向递归神经网络,三层全连接层和时域连接CTC模型;选用两层双向递归神经网络BLSTM,并加上残差连接,即将第一层BLSTM和第二层BLSTM的输出特征图相加,作为最后的输出,本实施例中取256,两层BLSTM的输出维度相同;为了增强特征提取能力并得到序列分类的概率分布,将上述递归神经网络的输出特征图输入到三层全连接层,两层全连接层的通道数分别为N1,N2和C+1,其中C是中文文本行识别的类别数,增加的1类是CTC模型中的空格类,在本实施例中,N1取512,N2取1024,C取3624,因此最后一个全连接层的通道数为3625;最后将概率分布输入到CTC模型中进行处理,神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练,当模型训练完成,用于识别测试图像时,使用Naive Decoding的方式进行解码,取每个时间点对应最大概率的类别作为识别结果;
设计两个模型用于水平文本行和竖直文本行的识别时,由于竖直文本行翻转后尺寸与水平文本行相似,采用残差卷积神经网络和残差递归神经网络来识别竖直文本行,翻转后的汉字形态发生了变化,需要分别训练两个模型来识别水平文本行和竖直文本行
步骤五:通过大量训练数据对水平文本行和竖直文本行训练得到识别模型,神经网络模型训练方式采用自适应梯度下降方法Adadelta,参数更新公式如公式(2)、(3)、(4)和(5)所示:
Δxt=ρΔxt-1+(1-ρ)g′t 2 (4)
Xt=Xt-1-g′t (5)
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st,Δxt和g′t为中间状态变量,ρ和ε为超参数,ρ设置为0.9,ε设置为0.000001;
训练水平文本行和竖直文本行时,对于每一张输入的训练图像,所有数据增广处理随机添加,每一项处理发生的概率均为0.5;
步骤六:分别将待识别图像输入水平文本行和竖直文本行识别模型中,取置信度较高的结果为识别结果,先假设待识别图像为I,如果图像的高度大于宽度,则把该图像逆时针旋转90°,再将图像的高度归一化为Hs个像素,宽度等比例缩放为W,然后沿宽度方向将图像切分为m块,图像切分为m块的计算公式如公式(9)所示:
m=ceil(W/Ws) (9)
其中,ceil表示向上取整,假设切分出的m个图像分别为I1,I2,…,Im。;
再将图像I1,I2,…,Im分别输入到训练后得到的水平文本识别模型中,得到识别结果Rh1,Rh2,…,Rhm和对应的概率Ph1,Ph2,…,Phm,得到图像I在水平文本识别模型中的识别结果Rh和对应的概率Ph,最后将图像I1,I2,…,Im分别输入训练后得到的竖直文本识别模型中,得到图像I在竖直文本识别模型中的识别结果Rv和对应的概率Pv,比较Ph和Pv的大小,得到最终的识别结果R,概率Ph的计算公式如公式(6)和(7)所示,识别结果R的计算公式如公式(8)所示:
Rh=[Rh1,Rh2,…,Rhm] (6)
本发明通过将卷积神经网络和递归神经网络结合起来,解决中文场景文本行识别的问题,将文本行作为一个序列来识别,与传统的场景文本识别方法相比,避免了对文本行进行字符分割,避免了误分割带来的错误识别,另外,递归神经网络能够学习到隐性语言模型,进一步提高了模型的识别率;本发明通过在卷积神经网络和递归神经网络中加入了残差连接,帮助梯度的传播,加速模型的训练,从而得到实用的中文场景文本识别模型;本发明提出的中文场景文本识别方法识别率高,鲁棒性强,能够识别复杂背景、复杂光照和多种字体的中文文本行。,而且对水平文本行、竖直文本行和长短不一的文本行都有很好的识别效果。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于,包括以下步骤:
步骤一:收集中文场景文本训练图像;
步骤二:对训练图像尺寸做归一化处理,先将中文场景文本行图像的高度归一化为Hs个像素,宽度等比例缩放,再根据网络结构来设置标准宽度Ws,得到归一化处理后的训练图像尺寸为Hs×Ws
步骤三:对训练图像做数据增广处理,包括进行高斯模糊、丢弃图像块、改变亮度和对比度、图像旋转、仿射变换、透视变和动态模糊处理;
步骤四:设计一个具有依次连接的6个卷积层结构的残差卷积神经网络对训练图像进行编码,设计残差递归神经网络和CTC模型对编码后的训练图像特征进行解码,分别设计两个模型,用于水平文本行和竖直文本行的识别;
步骤五:通过大量训练数据对水平文本行和竖直文本行训练得到识别模型;
步骤六:分别将待识别图像输入水平文本行和竖直文本行识别模型中,取置信度较高的结果为识别结果。
2.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤二中如果归一化后图像的宽度小于Ws,则在图像的后面填充纯黑色像素点,使其宽度达到Ws,填充后的图像高度为Hs,宽度为Ws;如果归一化后图像的宽度大于Ws,则直接将图像强制归一化到高度Hs,宽度Ws
3.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤三中数据增广处理具体过程为:
高斯模糊:对输入的训练图像做高斯模糊,模糊核的半径为3~5个像素;
丢弃图像块:将输入的训练图像的一个矩形区域像素值全部置零,矩形的高度范围为10~19个像素,宽度为15~24个像素;
改变亮度和对比度:改变输入的训练图像的亮度和对比度,公式如公式(1)所示:
g(i,j)=α×f(i,j)+β (1)
其中,α为增益参数,表征对比度,设置在0.5~1.5之间,而β为偏置参数,表征亮度变化,设置在0~49之间;
图像旋转:对输入的训练图像做旋转处理,旋转角度范围为-5°~5°;
仿射变换:对输入的训练图像做随机仿射变换;
透视变换:对输入的训练图像做随机透视变换;
动态模糊:对输入的训练图像做动态模糊,模糊核的半径为7~9个像素。
4.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤四中残差卷积神经网络的设计过程为:设计一个残差卷积神经网络,且设置残差卷积神经网络包含了依次连接的6个卷积层结构;设置残差卷积神经网络前面5个卷积层结构均为残差块,每个残差块由若干个串联的卷积层组成,残差块中的第一层卷积与最后一层卷积的输出特征图相加,作为下一个残差块的输入;除了残差块中的最后一层卷积层以外,每一次卷积操作都使用了ReLU激活函数和BN层;每一个残差块的输出特征图尺寸分别为设计残差卷积神经网络时,为了便于后续的解码,使最后一层卷积层的输出特征图高度为1,宽度为记该宽度为We,最后一层卷积层的卷积核大小为2×2,通道数为1024,卷积步长为2×1,使用的激活函数为ReLU,并配备了BN层。
5.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤四中利用残差递归神经网络和CTC模型对编码后的特征进行解码的具体过程为:解码器包括两层双向递归神经网络,三层全连接层和时域连接CTC模型;选用两层双向递归神经网络BLSTM,并加上残差连接,即将第一层BLSTM和第二层BLSTM的输出特征图相加,作为最后的输出,两层BLSTM的输出维度相同;将递归神经网络的输出特征图输入到三层全连接层,两层全连接层的通道数分别为N1,N2和C+1,其中C是中文文本行识别的类别数,增加的1类是CTC模型中的空格类,增强特征提取能力并得到序列分类的概率分布;最后将概率分布输入到CTC模型中进行处理,神经网络根据CTC模型的输出和中文文本行的标签对残差卷积神经网络和残差递归神经网络进行训练,当模型训练完成,用于识别测试图像时,使用Naive Decoding的方式进行解码,取每个时间点对应最大概率的类别作为识别结果。
6.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤四中设计两个模型用于水平文本行和竖直文本行的识别时,由于竖直文本行翻转后尺寸与水平文本行相似,采用残差卷积神经网络和残差递归神经网络来识别竖直文本行,翻转后的汉字形态发生了变化,需要分别训练两个模型来识别水平文本行和竖直文本行。
7.根据权利要求X所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤五中神经网络模型训练方式采用自适应梯度下降方法Adadelta,参数更新公式如公式(2)、(3)、(4)和(5)所示:
Δxt=ρΔxt-1+(1-ρ)g′t 2 (4)
xt=xt-1-g′t (5)
其中,gt是第t次迭代时的梯度,xt是第t次迭代时需要更新的权重,st,Δxt和g′t为中间状态变量,ρ和ε为超参数,ρ设置为0.9,ε设置为0.000001;
训练水平文本行和竖直文本行时,对于每一张输入的训练图像,所有数据增广处理随机添加,每一项处理发生的概率均为0.5。
8.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述步骤六中先假设待识别图像为I,如果图像的高度大于宽度,则把该图像逆时针旋转90°,再将图像的高度归一化为Hs个像素,宽度等比例缩放为W,然后沿宽度方向将图像切分为m块,再将图像I1,I2,…,Im分别输入到训练后得到的水平文本识别模型中,得到识别结果Rh1,Rh2,…,Rhm和对应的概率Ph1,Ph2,…,Phm,得到图像I在水平文本识别模型中的识别结果Rh和对应的概率Ph,最后将图像I1,I2,…,Im分别输入训练后得到的竖直文本识别模型中,得到图像I在竖直文本识别模型中的识别结果Rv和对应的概率Pv,比较Ph和Pv的大小,得到最终的识别结果R。
9.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述概率Ph的计算公式如公式(6)和(7)所示,识别结果R的计算公式如公式(8)所示:
Rh=[Rh1,Rh2,…,Rhm] (6)
10.根据权利要求1所述的基于残差卷积和递归神经网络的中文场景文本行识别方法,其特征在于:所述图像切分为m块的计算公式如公式(9)所示:
m=ceil(W/Ws) (9)
其中,ceil表示向上取整,假设切分出的m个图像分别为I1,I2,…,Im
CN201910221267.6A 2019-03-22 2019-03-22 基于残差卷积和递归神经网络的中文场景文本行识别方法 Active CN109948714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910221267.6A CN109948714B (zh) 2019-03-22 2019-03-22 基于残差卷积和递归神经网络的中文场景文本行识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910221267.6A CN109948714B (zh) 2019-03-22 2019-03-22 基于残差卷积和递归神经网络的中文场景文本行识别方法

Publications (2)

Publication Number Publication Date
CN109948714A true CN109948714A (zh) 2019-06-28
CN109948714B CN109948714B (zh) 2022-11-29

Family

ID=67011487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910221267.6A Active CN109948714B (zh) 2019-03-22 2019-03-22 基于残差卷积和递归神经网络的中文场景文本行识别方法

Country Status (1)

Country Link
CN (1) CN109948714B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503159A (zh) * 2019-08-28 2019-11-26 北京达佳互联信息技术有限公司 文字识别方法、装置、设备及介质
CN110765870A (zh) * 2019-09-18 2020-02-07 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN110909728A (zh) * 2019-12-03 2020-03-24 中国太平洋保险(集团)股份有限公司 一种多语种保单自动识别的控制算法及装置
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN111400497A (zh) * 2020-03-19 2020-07-10 北京远鉴信息技术有限公司 一种文本识别方法、装置、存储介质及电子设备
CN111414999A (zh) * 2020-04-27 2020-07-14 新智数字科技有限公司 一种设备运行状态的监测方法及装置
CN111461239A (zh) * 2020-04-03 2020-07-28 成都考拉悠然科技有限公司 Ctc场景文字识别模型的白盒攻击方法
CN111507406A (zh) * 2020-04-17 2020-08-07 上海眼控科技股份有限公司 一种用于优化神经网络文本识别模型的方法与设备
CN113011132A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 竖排文字识别方法、装置、计算机设备和存储介质
CN113052124A (zh) * 2021-04-09 2021-06-29 济南博观智能科技有限公司 一种起雾场景的识别方法、装置和计算机可读存储介质
CN113052162A (zh) * 2021-05-27 2021-06-29 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、可读存储介质及计算设备
CN113673336A (zh) * 2021-07-16 2021-11-19 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN109102002A (zh) * 2018-07-17 2018-12-28 重庆大学 结合卷积神经网络和概念机递归神经网络的图像分类方法
US20190050381A1 (en) * 2017-08-14 2019-02-14 Adobe Systems Incorporated Detecting the bounds of borderless tables in fixed-format structured documents using machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050381A1 (en) * 2017-08-14 2019-02-14 Adobe Systems Incorporated Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN109102002A (zh) * 2018-07-17 2018-12-28 重庆大学 结合卷积神经网络和概念机递归神经网络的图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAILIN YANG,ET AL: "Recognition of Chinese Text in Historical Documents with Page Level Annotations", 《2018 16TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION (ICFHR)》 *
JADERBERG M,ET AL: "Synthetic data and artificial neural networks for natural scene text", 《ARXIV PREPRINT ARXIV:1406.2227》 *
KAIMING HE,ET AL: "Deep residual learning for image recognition", 《PROCEEDINGS OF THE IEEE》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503159A (zh) * 2019-08-28 2019-11-26 北京达佳互联信息技术有限公司 文字识别方法、装置、设备及介质
CN110765870A (zh) * 2019-09-18 2020-02-07 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN110765870B (zh) * 2019-09-18 2021-01-12 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
WO2021098689A1 (zh) * 2019-11-20 2021-05-27 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN110909728A (zh) * 2019-12-03 2020-03-24 中国太平洋保险(集团)股份有限公司 一种多语种保单自动识别的控制算法及装置
CN111400497A (zh) * 2020-03-19 2020-07-10 北京远鉴信息技术有限公司 一种文本识别方法、装置、存储介质及电子设备
CN111461239B (zh) * 2020-04-03 2023-05-09 成都考拉悠然科技有限公司 基于白盒攻击的ctc场景文字识别模型优化方法
CN111461239A (zh) * 2020-04-03 2020-07-28 成都考拉悠然科技有限公司 Ctc场景文字识别模型的白盒攻击方法
CN111507406A (zh) * 2020-04-17 2020-08-07 上海眼控科技股份有限公司 一种用于优化神经网络文本识别模型的方法与设备
CN111414999A (zh) * 2020-04-27 2020-07-14 新智数字科技有限公司 一种设备运行状态的监测方法及装置
CN111414999B (zh) * 2020-04-27 2023-08-22 新奥新智科技有限公司 一种设备运行状态的监测方法及装置
CN113052124A (zh) * 2021-04-09 2021-06-29 济南博观智能科技有限公司 一种起雾场景的识别方法、装置和计算机可读存储介质
CN113011132A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 竖排文字识别方法、装置、计算机设备和存储介质
CN113011132B (zh) * 2021-04-22 2023-07-21 中国平安人寿保险股份有限公司 竖排文字识别方法、装置、计算机设备和存储介质
CN113052162A (zh) * 2021-05-27 2021-06-29 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、可读存储介质及计算设备
CN113052162B (zh) * 2021-05-27 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、可读存储介质及计算设备
CN113673336A (zh) * 2021-07-16 2021-11-19 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN113673336B (zh) * 2021-07-16 2023-09-26 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN109948714B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN109948714A (zh) 基于残差卷积和递归神经网络的中文场景文本行识别方法
CN107292333B (zh) 一种基于深度学习的快速图像分类方法
AU2020101229A4 (en) A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks
CN110717977B (zh) 游戏角色脸部处理的方法、装置、计算机设备及存储介质
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN107368831B (zh) 一种自然场景图像中的英文文字和数字识别方法
CN106407986B (zh) 一种基于深度模型的合成孔径雷达图像目标识别方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN108961245A (zh) 基于双通道深度并行卷积网络的图像质量分类方法
CN110427937A (zh) 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN108921123A (zh) 一种基于双重数据增强的人脸识别方法
CN107180234A (zh) 基于人脸表情识别和人脸特征提取的信用风险预测方法
CN110232373A (zh) 人脸聚类方法、装置、设备和存储介质
CN109960974A (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN109598234A (zh) 关键点检测方法和装置
CN106326857A (zh) 基于人脸图像的性别识别方法及装置
CN110443864A (zh) 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN110363770A (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN108960301A (zh) 一种基于卷积神经网络的古彝文识别方法
CN109753864A (zh) 一种基于caffe深度学习框架的人脸识别方法
CN113724354B (zh) 基于参考图颜色风格的灰度图像着色方法
CN112001397A (zh) 一种智慧工地的身份证字符识别训练数据生成方法及系统
CN109359527A (zh) 基于神经网络的头发区域提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant