CN110348449A - 一种基于神经网络的身份证文字识别方法 - Google Patents

一种基于神经网络的身份证文字识别方法 Download PDF

Info

Publication number
CN110348449A
CN110348449A CN201910621555.0A CN201910621555A CN110348449A CN 110348449 A CN110348449 A CN 110348449A CN 201910621555 A CN201910621555 A CN 201910621555A CN 110348449 A CN110348449 A CN 110348449A
Authority
CN
China
Prior art keywords
neural network
recognition method
identity card
character recognition
network based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910621555.0A
Other languages
English (en)
Other versions
CN110348449B (zh
Inventor
郑泽忠
李慕杰
向浩然
牟范
侯安锴
江邵斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910621555.0A priority Critical patent/CN110348449B/zh
Publication of CN110348449A publication Critical patent/CN110348449A/zh
Application granted granted Critical
Publication of CN110348449B publication Critical patent/CN110348449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种基于神经网络的身份证文字识别方法,包括以下步骤:S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域;S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行;S3:将单个字符切割而出;S4:将单个文字图像逐个输入训练好的神经网络中进行识别,提高相似字的识别率。

Description

一种基于神经网络的身份证文字识别方法
技术领域
本发明涉及文字识别技术领域,具体涉及一种基于神经网络的身份证文字识别方法及方法。
背景技术
随着网络通讯技术不断地更新创新,我国在信息化方面不断取得突破,网络空间对于人们工作生活的重要性日益增长。然而在网络技术不断普及的过程中,相对缺乏管理的网络空间滋生了许多违法犯罪行为。例如网络暴力、人身攻击和诈骗犯罪等恶劣事件不断出现,网民的网络安全环境受到严重破坏。为了净化网络空间,保护网民的网络安全,网络实名制开始确立。随着实名认证的范围越来越大,很多场合需要人们使用证件图像完成身份认证。而身份证作为所有证件中最重要同时也是使用频率最高的证件,对其进行文字识别的需求也随之产生。
自文字识别技术诞生以来,其适用范围已经从数字和英文字母发展到各国语言文字,但是对中文字符图像进行识别依旧存在一些困难,主要表现在:汉字中某些字符的相似性极强,比如“已”-“己”,“口”-“囗”,“汩”-“汨”等,算法在识别这类字符时面临较大困难。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种基于神经网络的身份证文字识别方法,提高相似字的识别率。
本发明的目的是通过以下技术方案来实现的:一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
优选的,HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255)。
优选的,所述神经网络为基于残差网络思想的卷积神经网络。
优选的,所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity 块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同。
优选的,所述神经网络的数据集包括文字的字体和大小。
优选的,所述神经网络的优化算法为RMSProp函数。
优选的,所述S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件
裁剪而出。
优选的,所述S3为基于投影的方法将单个字符切割而出。
优选的,所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割。
优选的,所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。
本发明的有益效果是:
1.本发明所述的形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区,腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大,在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果;
2.本发明将图片的色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h, s,v)取值范围,提取出白色的证件区域,由于身份证背景色几乎为白色,只需设置合理范围的(h,s,v)取值,则可将背景图和文字信息分离,操作简单,适用性强。
附图说明
图1为本发明一个实施例原理图;
图2为本发明在HSV空间中设置参数取值范围后筛选出的证件区域图像;
图3为本发明闭运算后的证件图像;
图4为本发明二值化的结果;
图5为本发明形态学开运算的结果;
图6为文发明本行提取结果;
图7为本发明字符分割结果;
图8为本发明残差卷积块Identity结构图;
图9为本发明残差卷积块ResCovolution结构图;
图10为本发明神经网络整体结构图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下。
实施例1
一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
采用基于颜色的目标区域提取方法,其具体计算过程如式(2-1)所示,
v=max
其中(r,g,b)代表颜色在RGB空间中的取值,(h,s,v)代表HSV空间中颜色的取值。
由于证件颜色几乎为纯白色,通过设定(h,s,v)的取值范围,可以筛选出图像中目标区域的范围,进而使用仿射变换提取出目标区域,如图2所示为设置参数取值范围后筛选出的证件区域图像。
S2:将图像进行二值化处理,二值化处理后的图像如图4所示,使用形态学开运算将文本行连通为类矩形区域如图5所示,寻找外接矩形后提取出文本行,如图6所示,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V 取值区间为(221,255)。HSV每种颜色的参数设置如表1所示。
表1
卷积神经网络为基于残差网络思想的卷积神经网络。神经网络采用的残差块主要有 Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,ResCovolution 的输入和输出维度不同,Identity块的输出维度和ResCovolution块的输出维度相同。构建的网络为基于残差网络思想的卷积神经网络。在Identity块中的卷积层设置Padding=Same,即通过0填充来使得卷积层的输入输出尺寸不变,同时,输入输出的维度相同,因此分流的两组数据可以直接进行融合,Identity块的结构如图8所示。ResConvolution块中的卷积层也同样设置了Padding=Same,但是,输入输出维度不同,因此在Shortcut中添加了卷积核为1×1大小的卷积层,保证了两个分流输出的维度相同,从而可以融合,ResConvolution 块的结构如图9所示。整体网络结构如图10所示。输出层采用了Softmax函数,网络中的损失函数使用了交叉熵损失函数。
神经网络的数据集包括文字的字体和大小。字体可选择黑体,华文细黑和OCR-B10BT 三种字体等。神经网络的优化算法为RMSProp函数。RMSProp算法对梯度计算了微分平方加权平均数,计算公式(2-2)为:
sdw=βsdw+(1-β)dW2
sdw=βsdw+(1-β)db2
其中,sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数,这种做法有利于消除了摆动幅度大的方向,用来修正摆动幅度,使得各个维度的摆动幅度都较小,另一方面也使得网络函数收敛更快,为了防止分母为零,使用了一个很小的数值ε来进行平滑,一般取值为10-8
S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件裁剪而出,闭运算后的图像如图3所示。
S3为基于投影的方法将单个字符切割而出,切割结果如图7所示。S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割,由于文字所在区域和空白区域的灰度总值差别较大,因此可以较准确地把字符分割开来。
形态学开运算分为腐蚀和膨胀两个过程,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区。
以结构元B和图像A为例,具体腐蚀的过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,当结构元B的原点位于A上某一点时,若结构元B在此局部范围内被A完全包含,则输出图像对应位置像元被赋值为1,否则值为0。
具体的膨胀操作过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,在结构元B的原点位于A上某一点时,若结构元B与图像A在此局部区域上存在某个坐标上共同取非零值,则将输出图像在B的原点对应位置像元赋值为1,否则赋值为0。
腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大。在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果。在膨胀过程中,通过改变膨胀结构元的结构和大小,可以使文本行连通为一个类似矩形区域。通过寻找外接矩形并设置矩形尺寸和位置条件,可以筛选出文本行所在区域。
本发明的实施原理:如图1所示,首先将图片输入到目标区域进行色彩空间转换和闭运算处理,随后将图片进行二值化处理,再通过形态学开运算去噪,进行去噪后的图像即可提取文本行,提取文本行后再基于投影的方法对图像进行字符分割,将分割后的字符输入到已经训练好的卷积网络,卷积网络的输出端得出识别结果。
以上仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于神经网络的身份证文字识别方法,其特征在于,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
2.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255)。
3.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络为基于残差网络思想的卷积神经网络。
4.根据权利要求3所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同。
5.根据权利要求4所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络的数据集包括文字的字体和大小。
6.根据权利要求3-5任一所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络的优化算法为RMSProp函数。
7.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件裁剪而出。
8.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S3为基于投影的方法将单个字符切割而出。
9.根据权利要求8所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割。
10.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。
CN201910621555.0A 2019-07-10 2019-07-10 一种基于神经网络的身份证文字识别方法 Active CN110348449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910621555.0A CN110348449B (zh) 2019-07-10 2019-07-10 一种基于神经网络的身份证文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910621555.0A CN110348449B (zh) 2019-07-10 2019-07-10 一种基于神经网络的身份证文字识别方法

Publications (2)

Publication Number Publication Date
CN110348449A true CN110348449A (zh) 2019-10-18
CN110348449B CN110348449B (zh) 2023-04-18

Family

ID=68175805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910621555.0A Active CN110348449B (zh) 2019-07-10 2019-07-10 一种基于神经网络的身份证文字识别方法

Country Status (1)

Country Link
CN (1) CN110348449B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486828A (zh) * 2021-07-13 2021-10-08 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443158B1 (en) * 2014-06-22 2016-09-13 Kristopher Haskins Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes
CN106650758A (zh) * 2016-06-29 2017-05-10 汉寿县公安局 基于图片切割技术的身份证信息解析方法
CN107292311A (zh) * 2017-08-10 2017-10-24 河南科技大学 一种基于神经网络的字符粘连验证码的识别方法
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109034050A (zh) * 2018-07-23 2018-12-18 顺丰科技有限公司 基于深度学习的身份证图像文本识别方法及装置
CN109376768A (zh) * 2018-09-21 2019-02-22 福州大学 一种基于深度学习的航拍图像杆塔标识牌故障诊断方法
CN109740606A (zh) * 2018-12-20 2019-05-10 上海众源网络有限公司 一种图像识别方法及装置
CN109871938A (zh) * 2019-01-21 2019-06-11 重庆大学 一种基于卷积神经网络的零部件喷码检测方法
CN109886307A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像检测方法及系统
CN109961064A (zh) * 2019-03-20 2019-07-02 深圳市华付信息技术有限公司 身份证文本定位方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443158B1 (en) * 2014-06-22 2016-09-13 Kristopher Haskins Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes
CN106650758A (zh) * 2016-06-29 2017-05-10 汉寿县公安局 基于图片切割技术的身份证信息解析方法
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN107292311A (zh) * 2017-08-10 2017-10-24 河南科技大学 一种基于神经网络的字符粘连验证码的识别方法
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109034050A (zh) * 2018-07-23 2018-12-18 顺丰科技有限公司 基于深度学习的身份证图像文本识别方法及装置
CN109376768A (zh) * 2018-09-21 2019-02-22 福州大学 一种基于深度学习的航拍图像杆塔标识牌故障诊断方法
CN109740606A (zh) * 2018-12-20 2019-05-10 上海众源网络有限公司 一种图像识别方法及装置
CN109871938A (zh) * 2019-01-21 2019-06-11 重庆大学 一种基于卷积神经网络的零部件喷码检测方法
CN109886307A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像检测方法及系统
CN109961064A (zh) * 2019-03-20 2019-07-02 深圳市华付信息技术有限公司 身份证文本定位方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486828A (zh) * 2021-07-13 2021-10-08 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质
WO2023284502A1 (zh) * 2021-07-13 2023-01-19 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质
CN113486828B (zh) * 2021-07-13 2024-04-30 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN110348449B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
CN102682428B (zh) 一种基于方向场的指纹图像计算机自动化修补方法
CN109726657A (zh) 一种深度学习场景文本序列识别方法
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN104156730B (zh) 一种基于骨架的抗噪声汉字特征提取方法
CN113657404B (zh) 一种东巴象形文字的图像处理方法
CN109064419A (zh) 一种基于wls滤波和多尺度稀疏表达的单幅图像去雨方法
Li et al. A salt & pepper noise filter based on local and global image information
CN104239872A (zh) 异态汉字识别方法
CN109961416A (zh) 一种基于形态学梯度多尺度融合的营业执照信息提取方法
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN106127222A (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
Chen et al. Offline handwritten digits recognition using machine learning
Sarker A survey on convolution neural networks
CN110348449A (zh) 一种基于神经网络的身份证文字识别方法
CN110147785B (zh) 图像识别方法、相关装置和设备
Bai et al. An adaptive threshold fast DBSCAN algorithm with preserved trajectory feature points for vessel trajectory clustering
Mustafa et al. New algorithm based on deep learning for number recognition
CN114445663A (zh) 检测对抗样本的方法、装置及计算机程序产品
KR20200068073A (ko) 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법
CN111914947B (zh) 基于特征融合图像实例分割方法、装置、设备及存储介质
Gao et al. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions
CN106909944B (zh) 一种人脸图片聚类的方法
CN110516674A (zh) 一种文本图像的手写汉字分割方法及系统
CN113221649B (zh) 一种解决有线表格识别与解析的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant