CN110532855B - 基于深度学习的自然场景证件图像文字识别方法 - Google Patents

基于深度学习的自然场景证件图像文字识别方法 Download PDF

Info

Publication number
CN110532855B
CN110532855B CN201910630252.5A CN201910630252A CN110532855B CN 110532855 B CN110532855 B CN 110532855B CN 201910630252 A CN201910630252 A CN 201910630252A CN 110532855 B CN110532855 B CN 110532855B
Authority
CN
China
Prior art keywords
character
layer
convolution
setting
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910630252.5A
Other languages
English (en)
Other versions
CN110532855A (zh
Inventor
王晓甜
吴嘉诚
林亚静
石光明
齐飞
林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910630252.5A priority Critical patent/CN110532855B/zh
Publication of CN110532855A publication Critical patent/CN110532855A/zh
Application granted granted Critical
Publication of CN110532855B publication Critical patent/CN110532855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于深度学习的自然场景证件图像文字识别方法,实现的步骤为:(1)构建图像特征提取模块;(2)构建文字前景预测模块;(3)构建文字区域定位模块;(4)组成文字定位网络;(5)构建字符特征提取模块;(6)组成文字识别网络;(7)构建文字定位数据集;(8)构建文字识别数据集;(9)训练文字定位网络;(10)训练文字识别网络;(11)识别证件图像中的文字。本发明克服了现有证件图像文字识别技术对拍摄环境要求苛刻,在复杂场景中识别准确率低的问题,使得本发明能够在任意自然场景下都能精准的识别证件图像中的文字。

Description

基于深度学习的自然场景证件图像文字识别方法
技术领域
本发明属于图像文字处理技术领域,更进一步涉及图像文字识别技术领域中的一种基于深度学习的自然场景证件图像中的文字识别方法。本发明可用于对自然场景下(例如室内办公环境、街景下)拍摄的证件(例如身份证,营业执照,驾驶证,行驶证)识别其中的文字。
背景技术
识别证件图像中的文字在许多场景下都十分普遍重要,如在金融场景下的远程开户、线上借贷、支付验证等场景下,我们需要识别用户身份证的姓名,地址,身份证号码等信息,以查验是否人证合一;工商部门执法,往往需要识别营业执照的企业名称、法人代表、统一社会信用代码,看企业的企业名称,法人代表,统一社会信用代码等重要信息是否与工商部门系统里数据库的记录一致。以确保该企业的合法性。在交通执法、车辆管理所等场景往往也需要识别驾驶证、行驶证中的证号、有效期、车辆代码等信息。
广州恒巨信息科技有限公司在其申请的专利文献“一种身份证识别方法”(专利申请号201610008974.3,公开号105701488A)中公开了一种基于图像处理的身份证识别方法。该方法包括以下步骤:(1)采集身份证图像,(2)将采集的身份证图像进行预处理,(3)对预处理后的图像进行定位分割,(4)对定位分割后的图像进行识别。该方法存在的不足之处是:由于该方法在将采集的身份证图像进行预处理和对预处理后的图像进行定位分割时需要用二值化算法将原图像变成二值化图像,然而二值化算法对图片质量、成像环境要求非常严格,对噪声十分敏感,证件图像背景又包含纹理,每次利用证件图像文字识别算法时必须先拍摄图片,再对拍摄图片进行预处理,若拍摄环境苛刻,则预处理效果较差,导致无法识别。
福州大学在其申请的专利文献“复杂场景下基于内特征和文本域布局的驾驶证检测识别方法”(专利申请号201810218038.4,公开号108427946A)中公开了一种基于内特征和文本域布局的驾驶证检测识别方法。该方法包括以下步骤,(1)用归一化和SSR增强等技术预处理图像,(2)用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,(3)求拟合直线的交点得到车型框顶点,结合标准驾驶证布局得到驾驶证区域图像,(4)然后分析积分投影信息对车型文本区域位置进行精细定位,从它开始,每次找临近的未定位区域进行粗定位和精细定位得到文本区域图像,并在地址栏以上区域进行倾斜校正,(5)最后融合多种方法对文本区域二值化,用专训的文字识别引擎识别文字。该方法不足之处是:由于该方法先要用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,然后求拟合直线的交点得到车型框顶点,根据标准驾驶证中的车型框轮廓区域占整张驾驶证的比例大小来确定驾驶证区域图像的位置,如此得到的驾驶证区域图像十分依赖驾驶证中的车型框轮廓区域的定位以及驾驶证整体布局必须十分标准,由于每个人拍摄出来的驾驶证图片是存在差异的,导致驾驶证中的车型框轮廓区域占整张驾驶证的比例大小是无法确定的,驾驶证区域图像的位置就无法准确定位,导致后面的文本区域无法精细定位,进而影响文本区域内的文字识别,使得该方法识别场景较为单一,在复杂场景下识别准确率较低。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于深度学习的自然场景证件图像文字识别方法,解决现有证件图像文字识别方法对拍摄环境要求苛刻,识别场景单一,在复杂场景中识别准确率低的问题。
实现本发明目的的技术思路是,构建了证件图像数据集,避免了图像预处理这一步受环境因素影响较大的操作,利用证件图像数据集训练了一个文字定位网络和一个文字识别网络,把证件图像输入到文字定位网络,得到每一行文字区域的坐标,利用坐标值把文字区域从图片中切割出来,再把切割出来的每一行文字输入到文字识别网络,得到字符类别,整个过程无需对图像进行预处理,使得网络能够精确识别自然场景下各类证件图像中的文字。
本发明的实现的具体步骤如下:
(1)构建图像特征提取模块:
(1a)搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层;
(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,除了将第一卷积层的卷积核大小设置为7x7,卷积步长设置为2外,其余卷积层的卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2;
(2)构建文字前景预测模块:
(2a)搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联;
(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
(3)构建文字区域定位模块:
(3a)搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层;所述第二全连接层与第三全连接层并联后与第一全连接层串联;
(3b)将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4;
(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络;
(5)构建字符特征提取模块:
(5a)搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层;
(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2;
(6)组成文字识别网络:
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络;
(7)构建文字定位数据集:
(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080;
(7b)在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集;
(7c)将图片数据集和图片标签数据集组成文字定位数据集;
(8)构建文字识别数据集:
(8a)随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280;
(8b)对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值,组成字符标签数据集;
(8c)将文本数据集和字符标签数据集组成文字识别数据集;
(9)训练文字定位网络:
(9a)将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集;
(9b)将文字定位训练集输入到文字定位网络中,用梯度下降法,更新文字定位网络的权值10000至50000次,得到训练好的文字定位网络;
(10)训练文字识别网络:
(10a)将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集;
(10b)将文字识别训练集输入到文字识别网络中,用梯度下降法,更新文字识别网络的权值100000至300000次,得到训练好的文字识别网络;
(11)识别证件图像中的文字:
(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值;
(11b)根据文本区域的顶点坐标值,将文本区域从证件图像中切割出来;
(11c)将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。
与现有技术相比,本发明具有以下优点:
第一,由于本发明构建文字定位数据集和文字识别数据集,克服了现有技术存在的证件图像数据集缺失,每次利用证件图像文字识别算法时必须先拍摄图片,再对拍摄图片进行预处理,若拍摄环境苛刻,则预处理效果较差,导致无法识别的问题,使得本发明在任意自然场景下都能识别证件图像中的文字。
第二,由于本发明构建并训练文字定位网络和文字识别网络,克服了现有证件图片文字识别算法只能识别单一简单场景下的证件图片,若场景发生变化,现有方法识别准确率就会较低,使得本发明能较大的提高复杂场景下的证件图像文字识别准确率。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明的实现步骤做进一步的描述。
步骤1,构建图像特征提取模块。
搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层。
将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,卷积核大小除了把第一层卷积层设置为7x7,卷积步长设置为2外,其余卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2。加入跳跃连接层的目的是为了防止训练网络时梯度消失,导致后续的每次用梯度下降法更新权值时由于梯度较小难以更新权值。
步骤2,构建文字前景预测模块。
搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联。
将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
步骤3,构建文字区域定位模块。
搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层;所述第二全连接层与第三全连接层并联后与第一全连接层串联。
将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4。其中第一层全连接层的4096个神经元目的是为了把图像特征提取模块提取到的特征融合到一起,第二层全连接层的2个神经元分别表示文本区域和非文本区域的概率值,第三层全连接层的4个神经元表示文本区域两个顶点的坐标值。
步骤4,将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络。
步骤5,构建字符特征提取模块。
搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层。
将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2。
步骤6,组成文字识别网络。
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络。其中6250这个参数代表字符类别数目,如果想要识别更多类别的字符,相应的调整这个参数即可。
步骤7,构建文字定位数据集。
随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080。
在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集。
将图片数据集和图片标签数据集组成文字定位数据集。
步骤8,构建文字识别数据集。
随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280。
对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值组成字符标签数据集。
将文本数据集和字符标签数据集组成文字识别数据集。
步骤9,训练文字定位网络。
将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集。
将文字定位训练集输入到文字定位网络中,用梯度下降法更新文字定位网络的权值10000至50000次,得到训练好的文字定位网络。
所述的梯度下降法的步骤如下:
第1步,将文字定位网络的学习率设置为0.002。
第2步,将文字定位网络的输出值与文字区域顶点坐标值的差值作为文字定位网络的梯度值。
第3步,利用下式,更新一次文字定位网络的权值:
Figure GDA0003461570860000081
其中,
Figure GDA0003461570860000082
表示更新后的文字定位网络的权值,←表示赋值操作,θ表示文字定位网络自身随机生成的服从高斯分布的权值,
Figure GDA0003461570860000083
表示文字定位网络的梯度值。
步骤10,训练文字识别网络。
将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集。
将文字识别训练集输入到文字识别网络中,用梯度下降法更新文字识别网络的权值100000至300000次,得到训练好的文字识别网络。
所述的梯度下降法的步骤如下:
第1步,将文字识别网络的学习率设置为0.0005。
第2步,将文字识别网络的输出值与字符类别值的差值作为文字识别网络的梯度值。
第3步,利用下式,更新一次文字识别网络的权值:
Figure GDA0003461570860000084
其中,
Figure GDA0003461570860000085
表示更新后的文字识别网络的权值,←表示赋值操作,θ表示文字识别网络自身随机生成的服从高斯分布的权值,
Figure GDA0003461570860000086
表示文字识别网络的梯度值。
步骤11,识别证件图像中的文字。
将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值。
根据文本区域的顶点坐标值,把文本区域从证件图像中切割出来。
将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。

Claims (3)

1.一种基于深度学习的自然场景证件图像文字识别方法,其特征在于,构建文字定位数据集和文字识别数据集,构建并训练文字定位网络和文字识别网络,该方法的步骤包括如下:
(1)构建图像特征提取模块:
(1a)搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层;
(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,除了将第一卷积层的卷积核大小设置为7x7,卷积步长设置为2外,其余卷积层的卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2;
(2)构建文字前景预测模块:
(2a)搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联;
(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
(3)构建文字区域定位模块:
(3a)搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层;所述第二全连接层与第三全连接层并联后与第一全连接层串联;
(3b)将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4;
(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络;
(5)构建字符特征提取模块:
(5a)搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层;
(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2;
(6)组成文字识别网络:
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络;
(7)构建文字定位数据集:
(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080;
(7b)在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集;
(7c)将图片数据集和图片标签数据集组成文字定位数据集;
(8)构建文字识别数据集:
(8a)随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280;
(8b)对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值,组成字符标签数据集;
(8c)将文本数据集和字符标签数据集组成文字识别数据集;
(9)训练文字定位网络:
(9a)将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集;
(9b)将文字定位训练集输入到文字定位网络中,用梯度下降法,更新文字定位网络的权值10000至50000次,得到训练好的文字定位网络;
(10)训练文字识别网络:
(10a)将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集;
(10b)将文字识别训练集输入到文字识别网络中,用梯度下降法,更新文字识别网络的权值100000至300000次,得到训练好的文字识别网络;
(11)识别证件图像中的文字:
(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值;
(11b)根据文本区域的顶点坐标值,将文本区域从证件图像中切割出来;
(11c)将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。
2.根据权利要求1所述的基于深度学习的自然场景证件图像文字识别方法,其特征在于,步骤(9b)中所述的梯度下降法的步骤如下:
第1步,将文字定位网络的学习率设置为0.002;
第2步,将文字定位网络的输出值与文字区域顶点坐标值的差值作为文字定位网络的梯度值;
第3步,利用下式,更新一次文字定位网络的权值:
Figure FDA0003461570850000031
其中,
Figure FDA0003461570850000032
表示更新后的文字定位网络的权值,←表示赋值操作,θ表示文字定位网络自身随机生成的服从高斯分布的权值,
Figure FDA0003461570850000033
表示文字定位网络的梯度值。
3.根据权利要求1所述的基于深度学习的自然场景证件图像文字识别方法,其特征在于,步骤(10b)中所述的梯度下降法的步骤如下:
第1步,将文字识别网络的学习率设置为0.0005;
第2步,将文字识别网络的输出值与字符类别值的差值作为文字识别网络的梯度值;
第3步,利用下式,更新一次文字识别网络的权值:
Figure FDA0003461570850000041
其中,
Figure FDA0003461570850000042
表示更新后的文字识别网络的权值,←表示赋值操作,θ表示文字识别网络自身随机生成的服从高斯分布的权值,
Figure FDA0003461570850000043
表示文字识别网络的梯度值。
CN201910630252.5A 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法 Active CN110532855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630252.5A CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630252.5A CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Publications (2)

Publication Number Publication Date
CN110532855A CN110532855A (zh) 2019-12-03
CN110532855B true CN110532855B (zh) 2022-03-18

Family

ID=68659720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630252.5A Active CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Country Status (1)

Country Link
CN (1) CN110532855B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111104912B (zh) * 2019-12-23 2021-11-23 西安电子科技大学 一种书法字体类型与文字内容同步识别方法
CN111461122B (zh) * 2020-05-18 2024-03-22 南京大学 一种证件信息检测与提取方法
CN111832546B (zh) * 2020-06-23 2024-04-02 南京航空航天大学 一种轻量级自然场景文本识别方法
CN112183549B (zh) * 2020-10-26 2022-05-27 公安部交通管理科学研究所 一种基于语义分割的境外驾驶证版面文字定位方法
CN112883953B (zh) * 2021-02-22 2022-10-28 中国工商银行股份有限公司 基于联合学习的卡片识别装置及方法
CN115376142B (zh) * 2022-07-20 2023-09-01 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115661828B (zh) * 2022-12-08 2023-10-20 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
EP3367308A1 (en) * 2015-10-20 2018-08-29 Tencent Technology (Shenzhen) Company Limited Method and device for recognizing character string in image
CN108764313A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于深度学习的超市商品识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
EP3367308A1 (en) * 2015-10-20 2018-08-29 Tencent Technology (Shenzhen) Company Limited Method and device for recognizing character string in image
CN108764313A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于深度学习的超市商品识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EAST: An Efficient and Accurate Scene Text Detector;Xinyu Zhou 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;IEEE;20170726;2642-2651 *

Also Published As

Publication number Publication date
CN110532855A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532855B (zh) 基于深度学习的自然场景证件图像文字识别方法
CN109117885B (zh) 一种基于深度学习的邮票识别方法
Nandi et al. Traffic sign detection based on color segmentation of obscure image candidates: a comprehensive study
CN111461039B (zh) 基于多尺度特征融合的地标识别方法
CN108171127A (zh) 一种基于深度学习的发票自动识别方法
CN112395996A (zh) 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111160328B (zh) 一种基于语义分割技术的交通标线自动提取的方法
CN105512657A (zh) 字符识别方法和设备
Obaidullah et al. A system for handwritten script identification from Indian document
CN110378254B (zh) 车损图像修改痕迹的识别方法、系统、电子设备及存储介质
CN111310628A (zh) 一种基于纸币印刷图案特征的纸币形成方式检验鉴定方法
CN110222695A (zh) 一种证件图片处理方法及装置、介质、电子设备
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
Akbarzadeh et al. Design and matlab simulation of Persian license plate recognition using neural network and image filtering for intelligent transportation systems
Silvano et al. Synthetic image generation for training deep learning-based automated license plate recognition systems on the Brazilian Mercosur standard
CN111753592A (zh) 交通标志识别方法、装置、计算机设备和存储介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN111738979A (zh) 证件图像质量自动检查方法及系统
Sahu et al. A comparative analysis of deep learning approach for automatic number plate recognition
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
CN114155363A (zh) 换流站车辆识别方法、装置、计算机设备和存储介质
CN112837332B (zh) 创意设计的生成方法、装置、终端、存储介质
Chaturvedi et al. Automatic license plate recognition system using surf features and rbf neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant