CN110348449A - 一种基于神经网络的身份证文字识别方法 - Google Patents
一种基于神经网络的身份证文字识别方法 Download PDFInfo
- Publication number
- CN110348449A CN110348449A CN201910621555.0A CN201910621555A CN110348449A CN 110348449 A CN110348449 A CN 110348449A CN 201910621555 A CN201910621555 A CN 201910621555A CN 110348449 A CN110348449 A CN 110348449A
- Authority
- CN
- China
- Prior art keywords
- neural network
- recognition method
- identity card
- character recognition
- network based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明提供一种基于神经网络的身份证文字识别方法,包括以下步骤:S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域;S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行;S3:将单个字符切割而出;S4:将单个文字图像逐个输入训练好的神经网络中进行识别,提高相似字的识别率。
Description
技术领域
本发明涉及文字识别技术领域,具体涉及一种基于神经网络的身份证文字识别方法及方法。
背景技术
随着网络通讯技术不断地更新创新,我国在信息化方面不断取得突破,网络空间对于人们工作生活的重要性日益增长。然而在网络技术不断普及的过程中,相对缺乏管理的网络空间滋生了许多违法犯罪行为。例如网络暴力、人身攻击和诈骗犯罪等恶劣事件不断出现,网民的网络安全环境受到严重破坏。为了净化网络空间,保护网民的网络安全,网络实名制开始确立。随着实名认证的范围越来越大,很多场合需要人们使用证件图像完成身份认证。而身份证作为所有证件中最重要同时也是使用频率最高的证件,对其进行文字识别的需求也随之产生。
自文字识别技术诞生以来,其适用范围已经从数字和英文字母发展到各国语言文字,但是对中文字符图像进行识别依旧存在一些困难,主要表现在:汉字中某些字符的相似性极强,比如“已”-“己”,“口”-“囗”,“汩”-“汨”等,算法在识别这类字符时面临较大困难。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种基于神经网络的身份证文字识别方法,提高相似字的识别率。
本发明的目的是通过以下技术方案来实现的:一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
优选的,HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255)。
优选的,所述神经网络为基于残差网络思想的卷积神经网络。
优选的,所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity 块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同。
优选的,所述神经网络的数据集包括文字的字体和大小。
优选的,所述神经网络的优化算法为RMSProp函数。
优选的,所述S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件
裁剪而出。
优选的,所述S3为基于投影的方法将单个字符切割而出。
优选的,所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割。
优选的,所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。
本发明的有益效果是:
1.本发明所述的形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区,腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大,在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果;
2.本发明将图片的色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h, s,v)取值范围,提取出白色的证件区域,由于身份证背景色几乎为白色,只需设置合理范围的(h,s,v)取值,则可将背景图和文字信息分离,操作简单,适用性强。
附图说明
图1为本发明一个实施例原理图;
图2为本发明在HSV空间中设置参数取值范围后筛选出的证件区域图像;
图3为本发明闭运算后的证件图像;
图4为本发明二值化的结果;
图5为本发明形态学开运算的结果;
图6为文发明本行提取结果;
图7为本发明字符分割结果;
图8为本发明残差卷积块Identity结构图;
图9为本发明残差卷积块ResCovolution结构图;
图10为本发明神经网络整体结构图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下。
实施例1
一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
采用基于颜色的目标区域提取方法,其具体计算过程如式(2-1)所示,
v=max
其中(r,g,b)代表颜色在RGB空间中的取值,(h,s,v)代表HSV空间中颜色的取值。
由于证件颜色几乎为纯白色,通过设定(h,s,v)的取值范围,可以筛选出图像中目标区域的范围,进而使用仿射变换提取出目标区域,如图2所示为设置参数取值范围后筛选出的证件区域图像。
S2:将图像进行二值化处理,二值化处理后的图像如图4所示,使用形态学开运算将文本行连通为类矩形区域如图5所示,寻找外接矩形后提取出文本行,如图6所示,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V 取值区间为(221,255)。HSV每种颜色的参数设置如表1所示。
表1
卷积神经网络为基于残差网络思想的卷积神经网络。神经网络采用的残差块主要有 Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,ResCovolution 的输入和输出维度不同,Identity块的输出维度和ResCovolution块的输出维度相同。构建的网络为基于残差网络思想的卷积神经网络。在Identity块中的卷积层设置Padding=Same,即通过0填充来使得卷积层的输入输出尺寸不变,同时,输入输出的维度相同,因此分流的两组数据可以直接进行融合,Identity块的结构如图8所示。ResConvolution块中的卷积层也同样设置了Padding=Same,但是,输入输出维度不同,因此在Shortcut中添加了卷积核为1×1大小的卷积层,保证了两个分流输出的维度相同,从而可以融合,ResConvolution 块的结构如图9所示。整体网络结构如图10所示。输出层采用了Softmax函数,网络中的损失函数使用了交叉熵损失函数。
神经网络的数据集包括文字的字体和大小。字体可选择黑体,华文细黑和OCR-B10BT 三种字体等。神经网络的优化算法为RMSProp函数。RMSProp算法对梯度计算了微分平方加权平均数,计算公式(2-2)为:
sdw=βsdw+(1-β)dW2
sdw=βsdw+(1-β)db2
其中,sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数,这种做法有利于消除了摆动幅度大的方向,用来修正摆动幅度,使得各个维度的摆动幅度都较小,另一方面也使得网络函数收敛更快,为了防止分母为零,使用了一个很小的数值ε来进行平滑,一般取值为10-8。
S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件裁剪而出,闭运算后的图像如图3所示。
S3为基于投影的方法将单个字符切割而出,切割结果如图7所示。S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割,由于文字所在区域和空白区域的灰度总值差别较大,因此可以较准确地把字符分割开来。
形态学开运算分为腐蚀和膨胀两个过程,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区。
以结构元B和图像A为例,具体腐蚀的过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,当结构元B的原点位于A上某一点时,若结构元B在此局部范围内被A完全包含,则输出图像对应位置像元被赋值为1,否则值为0。
具体的膨胀操作过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,在结构元B的原点位于A上某一点时,若结构元B与图像A在此局部区域上存在某个坐标上共同取非零值,则将输出图像在B的原点对应位置像元赋值为1,否则赋值为0。
腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大。在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果。在膨胀过程中,通过改变膨胀结构元的结构和大小,可以使文本行连通为一个类似矩形区域。通过寻找外接矩形并设置矩形尺寸和位置条件,可以筛选出文本行所在区域。
本发明的实施原理:如图1所示,首先将图片输入到目标区域进行色彩空间转换和闭运算处理,随后将图片进行二值化处理,再通过形态学开运算去噪,进行去噪后的图像即可提取文本行,提取文本行后再基于投影的方法对图像进行字符分割,将分割后的字符输入到已经训练好的卷积网络,卷积网络的输出端得出识别结果。
以上仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种基于神经网络的身份证文字识别方法,其特征在于,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
2.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255)。
3.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络为基于残差网络思想的卷积神经网络。
4.根据权利要求3所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同。
5.根据权利要求4所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络的数据集包括文字的字体和大小。
6.根据权利要求3-5任一所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述神经网络的优化算法为RMSProp函数。
7.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件裁剪而出。
8.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S3为基于投影的方法将单个字符切割而出。
9.根据权利要求8所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割。
10.根据权利要求1所述的一种基于神经网络的身份证文字识别方法,其特征在于,所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621555.0A CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621555.0A CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348449A true CN110348449A (zh) | 2019-10-18 |
CN110348449B CN110348449B (zh) | 2023-04-18 |
Family
ID=68175805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621555.0A Active CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348449B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486828A (zh) * | 2021-07-13 | 2021-10-08 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443158B1 (en) * | 2014-06-22 | 2016-09-13 | Kristopher Haskins | Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes |
CN106650758A (zh) * | 2016-06-29 | 2017-05-10 | 汉寿县公安局 | 基于图片切割技术的身份证信息解析方法 |
CN107292311A (zh) * | 2017-08-10 | 2017-10-24 | 河南科技大学 | 一种基于神经网络的字符粘连验证码的识别方法 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN108764226A (zh) * | 2018-04-13 | 2018-11-06 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109034050A (zh) * | 2018-07-23 | 2018-12-18 | 顺丰科技有限公司 | 基于深度学习的身份证图像文本识别方法及装置 |
CN109376768A (zh) * | 2018-09-21 | 2019-02-22 | 福州大学 | 一种基于深度学习的航拍图像杆塔标识牌故障诊断方法 |
CN109740606A (zh) * | 2018-12-20 | 2019-05-10 | 上海众源网络有限公司 | 一种图像识别方法及装置 |
CN109871938A (zh) * | 2019-01-21 | 2019-06-11 | 重庆大学 | 一种基于卷积神经网络的零部件喷码检测方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
CN109961064A (zh) * | 2019-03-20 | 2019-07-02 | 深圳市华付信息技术有限公司 | 身份证文本定位方法、装置、计算机设备及存储介质 |
-
2019
- 2019-07-10 CN CN201910621555.0A patent/CN110348449B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443158B1 (en) * | 2014-06-22 | 2016-09-13 | Kristopher Haskins | Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes |
CN106650758A (zh) * | 2016-06-29 | 2017-05-10 | 汉寿县公安局 | 基于图片切割技术的身份证信息解析方法 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN107292311A (zh) * | 2017-08-10 | 2017-10-24 | 河南科技大学 | 一种基于神经网络的字符粘连验证码的识别方法 |
CN108764226A (zh) * | 2018-04-13 | 2018-11-06 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109034050A (zh) * | 2018-07-23 | 2018-12-18 | 顺丰科技有限公司 | 基于深度学习的身份证图像文本识别方法及装置 |
CN109376768A (zh) * | 2018-09-21 | 2019-02-22 | 福州大学 | 一种基于深度学习的航拍图像杆塔标识牌故障诊断方法 |
CN109740606A (zh) * | 2018-12-20 | 2019-05-10 | 上海众源网络有限公司 | 一种图像识别方法及装置 |
CN109871938A (zh) * | 2019-01-21 | 2019-06-11 | 重庆大学 | 一种基于卷积神经网络的零部件喷码检测方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
CN109961064A (zh) * | 2019-03-20 | 2019-07-02 | 深圳市华付信息技术有限公司 | 身份证文本定位方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486828A (zh) * | 2021-07-13 | 2021-10-08 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
WO2023284502A1 (zh) * | 2021-07-13 | 2023-01-19 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
CN113486828B (zh) * | 2021-07-13 | 2024-04-30 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110348449B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462126B (zh) | 一种基于边缘增强的语义图像分割方法及系统 | |
CN102682428B (zh) | 一种基于方向场的指纹图像计算机自动化修补方法 | |
CN109726657A (zh) | 一种深度学习场景文本序列识别方法 | |
CN113283599B (zh) | 基于神经元激活率的对抗攻击防御方法 | |
CN104156730B (zh) | 一种基于骨架的抗噪声汉字特征提取方法 | |
CN113657404B (zh) | 一种东巴象形文字的图像处理方法 | |
CN109064419A (zh) | 一种基于wls滤波和多尺度稀疏表达的单幅图像去雨方法 | |
Li et al. | A salt & pepper noise filter based on local and global image information | |
CN104239872A (zh) | 异态汉字识别方法 | |
CN109961416A (zh) | 一种基于形态学梯度多尺度融合的营业执照信息提取方法 | |
CN111553351A (zh) | 一种基于语义分割的场景任意形状的文本检测方法 | |
CN106127222A (zh) | 一种基于视觉的字符串相似度计算方法及相似性判断方法 | |
Chen et al. | Offline handwritten digits recognition using machine learning | |
Sarker | A survey on convolution neural networks | |
CN110348449A (zh) | 一种基于神经网络的身份证文字识别方法 | |
CN110147785B (zh) | 图像识别方法、相关装置和设备 | |
Bai et al. | An adaptive threshold fast DBSCAN algorithm with preserved trajectory feature points for vessel trajectory clustering | |
Mustafa et al. | New algorithm based on deep learning for number recognition | |
CN114445663A (zh) | 检测对抗样本的方法、装置及计算机程序产品 | |
KR20200068073A (ko) | 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법 | |
CN111914947B (zh) | 基于特征融合图像实例分割方法、装置、设备及存储介质 | |
Gao et al. | Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions | |
CN106909944B (zh) | 一种人脸图片聚类的方法 | |
CN110516674A (zh) | 一种文本图像的手写汉字分割方法及系统 | |
CN113221649B (zh) | 一种解决有线表格识别与解析的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |