CN110348449B - 一种基于神经网络的身份证文字识别方法 - Google Patents
一种基于神经网络的身份证文字识别方法 Download PDFInfo
- Publication number
- CN110348449B CN110348449B CN201910621555.0A CN201910621555A CN110348449B CN 110348449 B CN110348449 B CN 110348449B CN 201910621555 A CN201910621555 A CN 201910621555A CN 110348449 B CN110348449 B CN 110348449B
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- structural element
- white
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 230000000877 morphologic effect Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 230000007797 corrosion Effects 0.000 claims description 17
- 238000005260 corrosion Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003628 erosive effect Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于神经网络的身份证文字识别方法,包括以下步骤:S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域;S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行;S3:将单个字符切割而出;S4:将单个文字图像逐个输入训练好的神经网络中进行识别,提高相似字的识别率。
Description
技术领域
本发明涉及文字识别技术领域,具体涉及一种基于神经网络的身份证文字识别方法及方法。
背景技术
随着网络通讯技术不断地更新创新,我国在信息化方面不断取得突破,网络空间对于人们工作生活的重要性日益增长。然而在网络技术不断普及的过程中,相对缺乏管理的网络空间滋生了许多违法犯罪行为。例如网络暴力、人身攻击和诈骗犯罪等恶劣事件不断出现,网民的网络安全环境受到严重破坏。为了净化网络空间,保护网民的网络安全,网络实名制开始确立。随着实名认证的范围越来越大,很多场合需要人们使用证件图像完成身份认证。而身份证作为所有证件中最重要同时也是使用频率最高的证件,对其进行文字识别的需求也随之产生。
自文字识别技术诞生以来,其适用范围已经从数字和英文字母发展到各国语言文字,但是对中文字符图像进行识别依旧存在一些困难,主要表现在:汉字中某些字符的相似性极强,比如“已”-“己”,“口”-“囗”,“汩”-“汨”等,算法在识别这类字符时面临较大困难。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种基于神经网络的身份证文字识别方法,提高相似字的识别率。
本发明的目的是通过以下技术方案来实现的:一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2:将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
优选的,HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255)。
优选的,所述神经网络为基于残差网络思想的卷积神经网络。
优选的,所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity 块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同。
优选的,所述神经网络的数据集包括文字的字体和大小。
优选的,所述神经网络的优化算法为RMSProp函数。
优选的,所述S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件
裁剪而出。
优选的,所述S3为基于投影的方法将单个字符切割而出。
优选的,所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割。
优选的,所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。
本发明的有益效果是:
1.本发明所述的形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区,腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大,在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果;
2.本发明将图片的色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h, s,v)取值范围,提取出白色的证件区域,由于身份证背景色几乎为白色,只需设置合理范围的(h,s,v)取值,则可将背景图和文字信息分离,操作简单,适用性强。
附图说明
图1为本发明一个实施例原理图;
图2为本发明在HSV空间中设置参数取值范围后筛选出的证件区域图像;
图3为本发明闭运算后的证件图像;
图4为本发明二值化的结果;
图5为本发明形态学开运算的结果;
图6为文发明本行提取结果;
图7为本发明字符分割结果;
图8为本发明残差卷积块Identity结构图;
图9为本发明残差卷积块ResCovolution结构图;
图10为本发明神经网络整体结构图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下。
实施例1
一种基于神经网络的身份证文字识别方法,包括以下步骤:
S1:进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
采用基于颜色的目标区域提取方法,其具体计算过程如式(2-1)所示,
v=max
其中(r,g,b)代表颜色在RGB空间中的取值,(h,s,v)代表HSV空间中颜色的取值。
由于证件颜色几乎为纯白色,通过设定(h,s,v)的取值范围,可以筛选出图像中目标区域的范围,进而使用仿射变换提取出目标区域,如图2所示为设置参数取值范围后筛选出的证件区域图像。
S2:将图像进行二值化处理,二值化处理后的图像如图4所示,使用形态学开运算将文本行连通为类矩形区域如图5所示,寻找外接矩形后提取出文本行,如图6所示,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别。
HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V 取值区间为(221,255)。HSV每种颜色的参数设置如表1所示。
表1
卷积神经网络为基于残差网络思想的卷积神经网络。神经网络采用的残差块主要有 Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,ResCovolution 的输入和输出维度不同,Identity块的输出维度和ResCovolution块的输出维度相同。构建的网络为基于残差网络思想的卷积神经网络。在Identity块中的卷积层设置Padding=Same,即通过0填充来使得卷积层的输入输出尺寸不变,同时,输入输出的维度相同,因此分流的两组数据可以直接进行融合,Identity块的结构如图8所示。ResConvolution块中的卷积层也同样设置了Padding=Same,但是,输入输出维度不同,因此在Shortcut中添加了卷积核为1×1大小的卷积层,保证了两个分流输出的维度相同,从而可以融合,ResConvolution 块的结构如图9所示。整体网络结构如图10所示。输出层采用了Softmax函数,网络中的损失函数使用了交叉熵损失函数。
神经网络的数据集包括文字的字体和大小。字体可选择黑体,华文细黑和OCR-B10BT 三种字体等。神经网络的优化算法为RMSProp函数。RMSProp算法对梯度计算了微分平方加权平均数,计算公式(2-2)为:
sdw=βsdw+(1-β)dW2
sdw=βsdw+(1-β)db2
其中,sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数,这种做法有利于消除了摆动幅度大的方向,用来修正摆动幅度,使得各个维度的摆动幅度都较小,另一方面也使得网络函数收敛更快,为了防止分母为零,使用了一个很小的数值ε来进行平滑,一般取值为10-8。
S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件裁剪而出,闭运算后的图像如图3所示。
S3为基于投影的方法将单个字符切割而出,切割结果如图7所示。S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割,由于文字所在区域和空白区域的灰度总值差别较大,因此可以较准确地把字符分割开来。
形态学开运算分为腐蚀和膨胀两个过程,经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区。
以结构元B和图像A为例,具体腐蚀的过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,当结构元B的原点位于A上某一点时,若结构元B在此局部范围内被A完全包含,则输出图像对应位置像元被赋值为1,否则值为0。
具体的膨胀操作过程如下:
(1)确定结构元B形状及原点位置。
(2)结构元B在图像上以一定顺序移动,在结构元B的原点位于A上某一点时,若结构元B与图像A在此局部区域上存在某个坐标上共同取非零值,则将输出图像在B的原点对应位置像元赋值为1,否则赋值为0。
腐蚀使得图像信息区域范围减小,而膨胀则使得图像信息区域扩大。在腐蚀过程中,一些细小的区域会被填补而消失,通过腐蚀过程可以去除离散的细小噪点,对于身份证图像,腐蚀的过程在去除纹理部分有十分显著的效果。在膨胀过程中,通过改变膨胀结构元的结构和大小,可以使文本行连通为一个类似矩形区域。通过寻找外接矩形并设置矩形尺寸和位置条件,可以筛选出文本行所在区域。
本发明的实施原理:如图1所示,首先将图片输入到目标区域进行色彩空间转换和闭运算处理,随后将图片进行二值化处理,再通过形态学开运算去噪,进行去噪后的图像即可提取文本行,提取文本行后再基于投影的方法对图像进行字符分割,将分割后的字符输入到已经训练好的卷积网络,卷积网络的输出端得出识别结果。
以上仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (1)
1.一种基于神经网络的身份证文字识别方法,其特征在于,包括以下步骤:
S1: 进行色彩空间转换,将图像由RGB空间转换为HSV空间,并设置一定的(h,s,v)取值范围,提取出白色的证件区域,执行S2;
S2: 将图像进行二值化处理,使用形态学开运算将文本行连通为类矩形区域,寻找外接矩形后提取出文本行,执行S3;
S3:将单个字符切割而出,执行S4;
S4:将单个文字图像逐个输入训练好的神经网络中进行识别;
所述HSV空间中,白色的H取值区间为(0,180),白色的S取值区间为(0,30),白色的V取值区间为(221,255);
所述神经网络为基于残差网络思想的卷积神经网络;
所述神经网络采用的残差块主要有Identity块和ResCovolution块,其中Identity块的输入和输出维度相同,所述ResCovolution的输入和输出维度不同,所述Identity块的输出维度和所述ResCovolution块的输出维度相同;
所述神经网络的数据集包括文字的字体和大小;
所述神经网络的优化算法为RMSProp函数;
所述 S1还包括以下步骤:
S11:使用形态学闭运算将白色证件区域与背景分离,寻找证件的外接矩形,最后将证件
裁剪而出;
所述S3为基于投影的方法将单个字符切割而出;
所述S3包括以下步骤:
S31:将图像每列灰度值求和,通过对比文字所在区域和空白区域的灰度总值,将字符分割;
所述形态学开运算分为腐蚀和膨胀两个过程,先腐蚀后膨胀,经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区;
具体腐蚀的过程如下:
(1)确定结构元B形状及原点位置;
(2)结构元B在图像上以一定顺序移动,当结构元B的原点位于A上某一点时,若结构元B在此局部范围内被A完全包含,则输出图像对应位置像元被赋值为1,否则值为0;
具体的膨胀操作过程如下:
(1)确定结构元B形状及原点位置;
(2)结构元B在图像上以一定顺序移动,在结构元B的原点位于A上某一点时,若结构元B与图像 A在此局部区域上存在某个坐标上共同取非零值,则将输出图像在B的原点对应位置像元赋值为1,否则赋值为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621555.0A CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621555.0A CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348449A CN110348449A (zh) | 2019-10-18 |
CN110348449B true CN110348449B (zh) | 2023-04-18 |
Family
ID=68175805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621555.0A Active CN110348449B (zh) | 2019-07-10 | 2019-07-10 | 一种基于神经网络的身份证文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348449B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486828B (zh) * | 2021-07-13 | 2024-04-30 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443158B1 (en) * | 2014-06-22 | 2016-09-13 | Kristopher Haskins | Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109034050A (zh) * | 2018-07-23 | 2018-12-18 | 顺丰科技有限公司 | 基于深度学习的身份证图像文本识别方法及装置 |
CN109740606A (zh) * | 2018-12-20 | 2019-05-10 | 上海众源网络有限公司 | 一种图像识别方法及装置 |
CN109961064A (zh) * | 2019-03-20 | 2019-07-02 | 深圳市华付信息技术有限公司 | 身份证文本定位方法、装置、计算机设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650758B (zh) * | 2016-06-29 | 2019-03-29 | 汉寿县公安局 | 基于图片切割技术的身份证信息解析方法 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN107292311A (zh) * | 2017-08-10 | 2017-10-24 | 河南科技大学 | 一种基于神经网络的字符粘连验证码的识别方法 |
CN108764226B (zh) * | 2018-04-13 | 2022-05-03 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN109376768B (zh) * | 2018-09-21 | 2021-12-17 | 福州大学 | 一种基于深度学习的航拍图像杆塔标识牌故障诊断方法 |
CN109871938B (zh) * | 2019-01-21 | 2023-04-25 | 重庆大学 | 一种基于卷积神经网络的零部件喷码检测方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
-
2019
- 2019-07-10 CN CN201910621555.0A patent/CN110348449B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9443158B1 (en) * | 2014-06-22 | 2016-09-13 | Kristopher Haskins | Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109034050A (zh) * | 2018-07-23 | 2018-12-18 | 顺丰科技有限公司 | 基于深度学习的身份证图像文本识别方法及装置 |
CN109740606A (zh) * | 2018-12-20 | 2019-05-10 | 上海众源网络有限公司 | 一种图像识别方法及装置 |
CN109961064A (zh) * | 2019-03-20 | 2019-07-02 | 深圳市华付信息技术有限公司 | 身份证文本定位方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110348449A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Shen et al. | Improving OCR performance with background image elimination | |
CN110309806B (zh) | 一种基于视频图像处理的手势识别系统及其方法 | |
CN109993161B (zh) | 一种文本图像旋转矫正方法及系统 | |
CN110717497B (zh) | 图像相似度匹配方法、装置及计算机可读存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
JP4077094B2 (ja) | カラー文書画像認識装置 | |
Costa Filho et al. | A fully automatic method for recognizing hand configurations of Brazilian sign language | |
CN112907598A (zh) | 一种基于注意力cnn文档证件类图像篡改检测方法 | |
Chen et al. | Attacking optical character recognition (ocr) systems with adversarial watermarks | |
Mello et al. | Automatic image segmentation of old topographic maps and floor plans | |
CN111080723B (zh) | 基于Unet网络的图像元素分割方法 | |
CN110348449B (zh) | 一种基于神经网络的身份证文字识别方法 | |
CN113538498B (zh) | 一种基于局部二值化的印章图像分割方法、电子设备和可读存储介质 | |
CN110147785B (zh) | 图像识别方法、相关装置和设备 | |
Paul | Image pre-processing on NumtaDB for Bengali handwritten digit recognition | |
CN110826360A (zh) | Ocr图像预处理与文字识别 | |
CN111539877B (zh) | 一种漫画风格边缘增强的图像锐化方法 | |
CN110807747B (zh) | 一种基于前景蒙版的文档图像降噪方法 | |
CN110766614B (zh) | 一种无线扫描笔的图像预处理方法和系统 | |
CN113888590B (zh) | 一种基于数据增强和孪生网络的视频目标跟踪方法 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN111461259B (zh) | 基于红黑形态小波池化网络的图像分类方法及系统 | |
CN106469267B (zh) | 一种验证码样本收集方法及系统 | |
Ramanathan et al. | Robust feature extraction technique for optical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |