CN110532855A - 基于深度学习的自然场景证件图像文字识别方法 - Google Patents

基于深度学习的自然场景证件图像文字识别方法 Download PDF

Info

Publication number
CN110532855A
CN110532855A CN201910630252.5A CN201910630252A CN110532855A CN 110532855 A CN110532855 A CN 110532855A CN 201910630252 A CN201910630252 A CN 201910630252A CN 110532855 A CN110532855 A CN 110532855A
Authority
CN
China
Prior art keywords
text
network
convolutional layer
layer
disposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910630252.5A
Other languages
English (en)
Other versions
CN110532855B (zh
Inventor
王晓甜
吴嘉诚
林亚静
石光明
齐飞
林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910630252.5A priority Critical patent/CN110532855B/zh
Publication of CN110532855A publication Critical patent/CN110532855A/zh
Application granted granted Critical
Publication of CN110532855B publication Critical patent/CN110532855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于深度学习的自然场景证件图像文字识别方法,实现的步骤为:(1)构建图像特征提取模块;(2)构建文字前景预测模块;(3)构建文字区域定位模块;(4)组成文字定位网络;(5)构建字符特征提取模块;(6)组成文字识别网络;(7)构建文字定位数据集;(8)构建文字识别数据集;(9)训练文字定位网络;(10)训练文字识别网络;(11)识别证件图像中的文字。本发明克服了现有证件图像文字识别技术对拍摄环境要求苛刻,在复杂场景中识别准确率低的问题,使得本发明能够在任意自然场景下都能精准的识别证件图像中的文字。

Description

基于深度学习的自然场景证件图像文字识别方法
技术领域
本发明属于图像文字处理技术领域,更进一步涉及图像文字识别技术领域中的一种基于深度学习的自然场景证件图像中的文字识别方法。本发明可用于对自然场景下(例如室内办公环境、街景下)拍摄的证件(例如身份证,营业执照,驾驶证,行驶证)识别其中的文字。
背景技术
识别证件图像中的文字在许多场景下都十分普遍重要,如在金融场景下的远程开户、线上借贷、支付验证等场景下,我们需要识别用户身份证的姓名,地址,身份证号码等信息,以查验是否人证合一;工商部门执法,往往需要识别营业执照的企业名称、法人代表、统一社会信用代码,看企业的企业名称,法人代表,统一社会信用代码等重要信息是否与工商部门系统里数据库的记录一致。以确保该企业的合法性。在交通执法、车辆管理所等场景往往也需要识别驾驶证、行驶证中的证号、有效期、车辆代码等信息。
广州恒巨信息科技有限公司在其申请的专利文献“一种身份证识别方法”(专利申请号201610008974.3,公开号105701488A)中公开了一种基于图像处理的身份证识别方法。该方法包括以下步骤:(1)采集身份证图像,(2)将采集的身份证图像进行预处理,(3)对预处理后的图像进行定位分割,(4)对定位分割后的图像进行识别。该方法存在的不足之处是:由于该方法在将采集的身份证图像进行预处理和对预处理后的图像进行定位分割时需要用二值化算法将原图像变成二值化图像,然而二值化算法对图片质量、成像环境要求非常严格,对噪声十分敏感,证件图像背景又包含纹理,每次利用证件图像文字识别算法时必须先拍摄图片,再对拍摄图片进行预处理,若拍摄环境苛刻,则预处理效果较差,导致无法识别。
福州大学在其申请的专利文献“复杂场景下基于内特征和文本域布局的驾驶证检测识别方法”(专利申请号201810218038.4,公开号108427946A)中公开了一种基于内特征和文本域布局的驾驶证检测识别方法。该方法包括以下步骤,(1)用归一化和SSR增强等技术预处理图像,(2)用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,(3)求拟合直线的交点得到车型框顶点,结合标准驾驶证布局得到驾驶证区域图像,(4)然后分析积分投影信息对车型文本区域位置进行精细定位,从它开始,每次找临近的未定位区域进行粗定位和精细定位得到文本区域图像,并在地址栏以上区域进行倾斜校正,(5)最后融合多种方法对文本区域二值化,用专训的文字识别引擎识别文字。该方法不足之处是:由于该方法先要用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,然后求拟合直线的交点得到车型框顶点,根据标准驾驶证中的车型框轮廓区域占整张驾驶证的比例大小来确定驾驶证区域图像的位置,如此得到的驾驶证区域图像十分依赖驾驶证中的车型框轮廓区域的定位以及驾驶证整体布局必须十分标准,由于每个人拍摄出来的驾驶证图片是存在差异的,导致驾驶证中的车型框轮廓区域占整张驾驶证的比例大小是无法确定的,驾驶证区域图像的位置就无法准确定位,导致后面的文本区域无法精细定位,进而影响文本区域内的文字识别,使得该方法识别场景较为单一,在复杂场景下识别准确率较低。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于深度学习的自然场景证件图像文字识别方法,解决现有证件图像文字识别方法对拍摄环境要求苛刻,识别场景单一,在复杂场景中识别准确率低的问题。
实现本发明目的的技术思路是,构建了证件图像数据集,避免了图像预处理这一步受环境因素影响较大的操作,利用证件图像数据集训练了一个文字定位网络和一个文字识别网络,把证件图像输入到文字定位网络,得到每一行文字区域的坐标,利用坐标值把文字区域从图片中切割出来,再把切割出来的每一行文字输入到文字识别网络,得到字符类别,整个过程无需对图像进行预处理,使得网络能够精确识别自然场景下各类证件图像中的文字。
本发明的实现的具体步骤如下:
(1)构建图像特征提取模块:
(1a)搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层;
(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,除了将第一卷积层的卷积核大小设置为7x7,卷积步长设置为2外,其余卷积层的卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2;
(2)构建文字前景预测模块:
(2a)搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联;
(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
(3)构建文字区域定位模块:
(3a)搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层→;所述第二全连接层与第三全连接层并联后与第一全连接层串联;
(3b)将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4;
(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络;
(5)构建字符特征提取模块:
(5a)搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层;
(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2;
(6)组成文字识别网络:
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络;
(7)构建文字定位数据集:
(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080;
(7b)在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集;
(7c)将图片数据集和图片标签数据集组成文字定位数据集;
(8)构建文字识别数据集:
(8a)随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280;
(8b)对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值,组成字符标签数据集;
(8c)将文本数据集和字符标签数据集组成文字识别数据集;
(9)训练文字定位网络:
(9a)将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集;
(9b)将文字定位训练集输入到文字定位网络中,用梯度下降法,更新文字定位网络网络的权值10000至50000次,得到训练好的文字定位网络;
(10)训练文字识别网络:
(10a)将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集;
(10b)将文字识别训练集输入到文字识别网络中,用梯度下降法,更新文字识别网络网络的权值100000至300000次,得到训练好的文字识别网络;
(11)识别证件图像中的文字:
(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值;
(11b)根据文本区域的顶点坐标值,将文本区域从证件图像中切割出来;
(11c)将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。
与现有技术相比,本发明具有以下优点:
第一,由于本发明构建文字定位数据集和文字识别数据集,克服了现有技术存在的证件图像数据集缺失,每次利用证件图像文字识别算法时必须先拍摄图片,再对拍摄图片进行预处理,若拍摄环境苛刻,则预处理效果较差,导致无法识别的问题,使得本发明在任意自然场景下都能识别证件图像中的文字。
第二,由于本发明构建并训练文字定位网络和文字识别网络,克服了现有证件图片文字识别算法只能识别单一简单场景下的证件图片,若场景发生变化,现有方法识别准确率就会较低,使得本发明能较大的提高复杂场景下的证件图像文字识别准确率。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明的实现步骤做进一步的描述。
步骤1,构建图像特征提取模块。
搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层。
将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,卷积核大小除了把第一层卷积层设置为7x7,卷积步长设置为2外,其余卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2。加入跳跃连接层的目的是为了防止训练网络时梯度消失,导致后续的每次用梯度下降法更新权值时由于梯度较小难以更新权值。
步骤2,构建文字前景预测模块。
搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联。
将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
步骤3,构建文字区域定位模块。
搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层→;所述第二全连接层与第三全连接层并联后与第一全连接层串联。
将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4。其中第一层全连接层的4096个神经元目的是为了把图像特征提取模块提取到的特征融合到一起,第二层全连接层的2个神经元分别表示文本区域和非文本区域的概率值,第三层全连接层的4个神经元表示文本区域两个顶点的坐标值。
步骤4,将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络。
步骤5,构建字符特征提取模块。
搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层。
将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2。
步骤6,组成文字识别网络。
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络。其中6250这个参数代表字符类别数目,如果想要识别更多类别的字符,相应的调整这个参数即可。
步骤7,构建文字定位数据集。
随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080。
在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集。
将图片数据集和图片标签数据集组成文字定位数据集。
步骤8,构建文字识别数据集。
随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280。
对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值组成字符标签数据集。
将文本数据集和字符标签数据集组成文字识别数据集。
步骤9,训练文字定位网络。
将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集。
将文字定位训练集输入到文字定位网络中,用梯度下降法更新文字定位网络网络的权值10000至50000次,得到训练好的文字定位网络。
所述的梯度下降法的步骤如下:
第1步,将文字定位网络的学习率设置为0.002。
第2步,将文字定位网络的输出值与文字区域顶点坐标值的差值作为文字定位网络的梯度值。
第3步,利用下式,更新一次文字定位网络的权值:
其中,表示更新后的文字定位网络的权值,←表示赋值操作,θ表示文字定位网络自身随机生成的服从高斯分布的权值,表示文字定位网络的梯度值。
步骤10,训练文字识别网络。
将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集。
将文字识别训练集输入到文字识别网络中,用梯度下降法更新文字识别网络网络的权值100000至300000次,得到训练好的文字识别网络。
所述的梯度下降法的步骤如下:
第1步,将文字识别网络的学习率设置为0.0005。
第2步,将文字识别网络的输出值与字符类别值的差值作为文字识别网络的梯度值。
第3步,利用下式,更新一次文字识别网络的权值:
其中,表示更新后的文字识别网络的权值,←表示赋值操作,θ表示文字识别网络自身随机生成的服从高斯分布的权值,表示文字识别网络的梯度值。
步骤11,识别证件图像中的文字。
将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值。
根据文本区域的顶点坐标值,把文本区域从证件图像中切割出来。
将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。

Claims (3)

1.一种基于深度学习的自然场景证件图像文字识别方法,其特征在于,构建文字定位数据集和文字识别数据集,构建并训练文字定位网络和文字识别网络,该方法的步骤包括如下:
(1)构建图像特征提取模块:
(1a)搭建一个24层特征提取模块,其结构依次为:第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层;
(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256,卷积核的大小均设置为3x3,卷积步长均设置为1,将其余的卷积层中卷积核的个数均设置为64,除了将第一卷积层的卷积核大小设置为7x7,卷积步长设置为2外,其余卷积层的卷积核的大小均设置为1x1,卷积步长均设置为1,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2,步长均设置为2;
(2)构建文字前景预测模块:
(2a)搭建由三个卷积层组成的文本前景预测模块,其结构依次为:第十七卷积层→第十八卷积层→第十九卷积层;所述第十八卷积和第十九卷积层并联后与第十七卷积层串联;
(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1,卷积核的个数分别设置为256、18、36,步长均设置为1;
(3)构建文字区域定位模块:
(3a)搭建文字区域定位模块,其结构依次为:第四池化层→第一全连接层→第二全连接层→第三全连接层→;所述第二全连接层与第三全连接层并联后与第一全连接层串联;
(3b)将第四池化层设置为全局平均池化方式,池化区域核的大小设置为7x7,步长设置为1,第一、第二、第三全连接层的神经元个数分别设置为4096、2、4;
(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络;
(5)构建字符特征提取模块:
(5a)搭建一个11层的字符特征提取模块,其结构依次为:第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层;
(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3,卷积步长均设置为1,其中将第二十、第二十一卷积层中卷积核的个数均设置为64,将第二十二、第二十三卷积层中卷积核的个数均设置为128,将第二十四、第二十七卷积层中卷积核的个数均设置为256,第一至第三池化层均采用最大池化的方式,池化区域核的大小均设置为2x2;
(6)组成文字识别网络:
在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络;
(7)构建文字定位数据集:
(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集,将图片数据集中所有的图片的大小缩放为720x1080;
(7b)在每张图片中标注文字区域顶点的坐标,将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集;
(7c)将图片数据集和图片标签数据集组成文字定位数据集;
(8)构建文字识别数据集:
(8a)随机获取至少三百万张图片,每张图片含有一行文字10个字符,将所有的图片组成文本数据集;将文本数据集中所有的图片的大小缩放为32x280;
(8b)对每张图片中的10个字符分别标注字符类别,将每张图片标注后的字符类别对应的值,组成字符标签数据集;
(8c)将文本数据集和字符标签数据集组成文字识别数据集;
(9)训练文字定位网络:
(9a)将文字定位数据集按9:1的比例随机分为文字定位训练集和文字定位测试集;
(9b)将文字定位训练集输入到文字定位网络中,用梯度下降法,更新文字定位网络网络的权值10000至50000次,得到训练好的文字定位网络;
(10)训练文字识别网络:
(10a)将文字识别数据集按99:1的比例随机分为文字识别训练集和文字识别测试集;
(10b)将文字识别训练集输入到文字识别网络中,用梯度下降法,更新文字识别网络网络的权值100000至300000次,得到训练好的文字识别网络;
(11)识别证件图像中的文字:
(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中,输出证件图片中文字区域的顶点坐标值;
(11b)根据文本区域的顶点坐标值,将文本区域从证件图像中切割出来;
(11c)将切割好的文本区域图片输入到训练好的文字识别网络中,输出文本区域的每一个字符类别。
2.根据权利要求1所述的基于深度学习的自然场景证件图像文字识别方法,其特征在于,步骤(9b)中所述的梯度下降法的步骤如下:
第1步,将文字定位网络的学习率设置为0.002;
第2步,将文字定位网络的输出值与文字区域顶点坐标值的差值作为文字定位网络的梯度值;
第3步,利用下式,更新一次文字定位网络的权值:
其中,表示更新后的文字定位网络的权值,←表示赋值操作,θ表示文字定位网络自身随机生成的服从高斯分布的权值,▽J表示文字定位网络的梯度值。
3.根据权利要求1所述的基于深度学习的自然场景证件图像文字识别方法,其特征在于,步骤(10b)中所述的梯度下降法的步骤如下:
第1步,将文字识别网络的学习率设置为0.0005;
第2步,将文字识别网络的输出值与字符类别值的差值作为文字识别网络的梯度值;
第3步,利用下式,更新一次文字识别网络的权值:
其中,表示更新后的文字识别网络的权值,←表示赋值操作,θ表示文字识别网络自身随机生成的服从高斯分布的权值,▽J表示文字识别网络的梯度值。
CN201910630252.5A 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法 Active CN110532855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630252.5A CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630252.5A CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Publications (2)

Publication Number Publication Date
CN110532855A true CN110532855A (zh) 2019-12-03
CN110532855B CN110532855B (zh) 2022-03-18

Family

ID=68659720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630252.5A Active CN110532855B (zh) 2019-07-12 2019-07-12 基于深度学习的自然场景证件图像文字识别方法

Country Status (1)

Country Link
CN (1) CN110532855B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104912A (zh) * 2019-12-23 2020-05-05 西安电子科技大学 一种书法字体类型与文字内容同步识别方法
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111461122A (zh) * 2020-05-18 2020-07-28 南京大学 一种证件信息检测与提取方法
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法
CN112183549A (zh) * 2020-10-26 2021-01-05 公安部交通管理科学研究所 一种基于语义分割的境外驾驶证版面文字定位方法
CN112883953A (zh) * 2021-02-22 2021-06-01 中国工商银行股份有限公司 基于联合学习的卡片识别装置及方法
CN115376142A (zh) * 2022-07-20 2022-11-22 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115661828A (zh) * 2022-12-08 2023-01-31 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
EP3367308A1 (en) * 2015-10-20 2018-08-29 Tencent Technology (Shenzhen) Company Limited Method and device for recognizing character string in image
CN108764313A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于深度学习的超市商品识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
EP3367308A1 (en) * 2015-10-20 2018-08-29 Tencent Technology (Shenzhen) Company Limited Method and device for recognizing character string in image
CN108764313A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于深度学习的超市商品识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINYU ZHOU 等: "EAST: An Efficient and Accurate Scene Text Detector", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111104912A (zh) * 2019-12-23 2020-05-05 西安电子科技大学 一种书法字体类型与文字内容同步识别方法
CN111461122A (zh) * 2020-05-18 2020-07-28 南京大学 一种证件信息检测与提取方法
CN111461122B (zh) * 2020-05-18 2024-03-22 南京大学 一种证件信息检测与提取方法
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法
CN111832546B (zh) * 2020-06-23 2024-04-02 南京航空航天大学 一种轻量级自然场景文本识别方法
CN112183549A (zh) * 2020-10-26 2021-01-05 公安部交通管理科学研究所 一种基于语义分割的境外驾驶证版面文字定位方法
CN112183549B (zh) * 2020-10-26 2022-05-27 公安部交通管理科学研究所 一种基于语义分割的境外驾驶证版面文字定位方法
CN112883953A (zh) * 2021-02-22 2021-06-01 中国工商银行股份有限公司 基于联合学习的卡片识别装置及方法
CN115376142A (zh) * 2022-07-20 2022-11-22 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115376142B (zh) * 2022-07-20 2023-09-01 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115661828A (zh) * 2022-12-08 2023-01-31 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法

Also Published As

Publication number Publication date
CN110532855B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN110532855A (zh) 基于深度学习的自然场景证件图像文字识别方法
CN105574550A (zh) 一种车辆识别方法及装置
CN110503099B (zh) 基于深度学习的信息识别方法及相关设备
CN105654066A (zh) 一种车辆识别方法及装置
CN109034155A (zh) 一种文字检测及识别的方法及系统
CN106228166B (zh) 字符图像的识别方法
CN110378254B (zh) 车损图像修改痕迹的识别方法、系统、电子设备及存储介质
CN109948616A (zh) 图像检测方法、装置、电子设备及计算机可读存储介质
CN107844760A (zh) 基于曲面法向分量图神经网络表示的三维人脸识别方法
CN106408037A (zh) 图像识别方法及装置
CN107092883A (zh) 物体识别追踪方法
CN109522883A (zh) 一种人脸检测方法、系统、装置及存储介质
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
CN112132205B (zh) 一种基于卷积神经网络的遥感图像分类方法
CN112257709B (zh) 一种招牌照片审核方法、装置、电子设备及可读存储介质
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
CN111178290A (zh) 一种签名验证方法和装置
CN108323209A (zh) 信息处理方法、系统、云处理设备以及计算机程序产品
CN110610174A (zh) 复杂条件下银行卡号识别方法
CN100371945C (zh) 一种计算机辅助书法作品真伪鉴别方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN112990213B (zh) 一种基于深度学习的数字万用表字符识别系统和方法
Sakthimohan et al. Detection and Recognition of Face Using Deep Learning
CN108921006B (zh) 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法
CN110321867A (zh) 基于部件约束网络的遮挡目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant