CN112990133B - 一种基于多任务的深度卷积神经网络身份证信息识别方法 - Google Patents
一种基于多任务的深度卷积神经网络身份证信息识别方法 Download PDFInfo
- Publication number
- CN112990133B CN112990133B CN202110462654.6A CN202110462654A CN112990133B CN 112990133 B CN112990133 B CN 112990133B CN 202110462654 A CN202110462654 A CN 202110462654A CN 112990133 B CN112990133 B CN 112990133B
- Authority
- CN
- China
- Prior art keywords
- identity card
- neural network
- character
- convolutional neural
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 51
- 238000013135 deep learning Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Character Discrimination (AREA)
Abstract
一种基于多任务的深度卷积神经网络身份证信息识别方法,属于图像处理领域。方法应用于图像处理端,其包括:利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理,并输出字符识别结果;其中,所述第一层卷积神经网络,用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向;所述第二卷积神经网络,用于识别并输出非特定字符和非特定字符对应的字符区域。本发明把字符分割、字符识别和字符校正的身份证信息识别方法融入到一个网络,有利于提高识别的准确性和识别效率。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于多任务的深度卷积神经网络身份证信息识别方法。
背景技术
随着互联网的发展,越来越多的互联网公司都推出了自己的APP。为了防止用户非正确的输入自己的身份证信息引起后续可能的问题,很多公司要求上传证件身份证照片,但后期需要工作人员手动输入身份证号码和姓名,身份证信息录入效率低。
为了提高上传的身份证照片快速准备的获取文字信息,现有技术通常采用的流程为提取身份证区域、图像预处理获取文字区域、形态学滤波分离每个字符、对字符进行识别、通过特定字符和身份证号码信息进行校验。这些方法对系统要求较高,对多个流程的实用性要求较高。
发明专利申请CN202010484080.8公开了一种基于OCR技术的复杂场景下身份证识别方法,并具体公开了方法包括:S1、基于SIFT算法的对身份证的特征点识别,确定现实场景中身份证的位置坐标;S2、基于获取的身份证位置坐标,对现实场景中身份证的目标区域进行定位检测,并确定待识别文字区域;S3、提取待识别文字区域内的文字信息;S4、对提取的文字信息进行校正,获得准确的身份证信息,完成身份证识别。本发明方法解决了在复杂环境如光线较暗、过度曝光、拍摄模糊等情况下身份证的定位和识别问题;通过对识别结果增加字符最小距离校正算法,显著提高识别准确度,且具有一定的结果纠错功能,使识别结果更为可靠。
发明专利申请CN201910316776.7公开了一种纠正身份证信息的方法,并具体公开了方法包括:调用OCR引擎识别身份证,得到身份证信息;所述身份证信息包括身份证号码和身份证地址;从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息;所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息;所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息;根据所述三级地址信息纠正所述身份证地址的第一部分;所述身份证地址包括第一部分和第二部分;所述第一部分包括省级地址、市级地址和县级地址;所述第二部分为所述身份证地址中除所述第一部分的地址信息;根据预设的地址信息库纠正所述身份证地址的第二部分;所述地址信息库包括多条正确的地址信息;所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。该发明主要用于解决身份证识别存在错误的问题。
随着深度学习在字符识别和字符语义等识别的发展,如何构建一个或者少量的网络来做身份证信息获取工作成为研究的关键。
发明内容
本发明针对现有技术存在的问题,提出了一种基于多任务的深度卷积神经网络身份证信息识别方法,把字符分割、字符识别和字符校正的身份证信息识别方法融入到一个网络中,有利于提高识别准确性和识别效率。
本发明是通过以下技术方案得以实现的:
一种基于多任务的深度卷积神经网络身份证信息识别方法,应用于图像处理端,方法包括:利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理,并输出字符识别结果;
其中,所述第一层卷积神经网络,用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向;所述第二层卷积神经网络,用于识别并输出非特定字符和非特定字符对应的字符区域。
本发明利用双层卷积神经网络对身份证图像进行字符识别,包括识别出文字和数字。该发明对于系统要求低,通过网络来实现高效率、高准确性的识别。上述特定字符指的是身份证上的固有信息,包括不变字符和可变字符。不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码;所述可变字符包括与地址相关的字符,例如“湖”、“南”、“省”、“江”、“苏”、“省”、 “杭”、“州”、“市”等确定的可变字符。所述非特定字符为上述特定字符之外的字符,包括数字,如身份证号码“3”、“X”,门牌号“401”等,以及不确定的可变字符,如姓名“李”、“睿”。
作为优选,所述第一层卷积神经网络为7层卷积网络结构,当第一层卷积神经网络处理的身份证图像为256*96*1 时,每层结构如下:第一层输出为128*48*32,第二层输出为124*44*32,第三层输出为62*22*32,第四层输出为58*18*32,第五层输出为29*9*32,第六层输出为27*7*32,第七层输出为13*3*32,最后采用全连接层输出2048维特征向量。
作为优选,所述第二层卷积神经网络为6层卷积网络结构,当第二层卷积神经网络处理的身份证图像为128*48*1时,每层结构如下:第一层输出为124*44*32,第二层输出为62*22*32,第三层输出为58*18*32,第四层输出为29*9*32,第五层输出为27*7*32,第六层输出为13*3*32,最后采用全连接层输出2048维特征向量。
作为优选,所述特定字符包括不变字符和可变字符;所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码;所述可变字符包括与地址相关的字符;所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括:利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别,识别出不变字符组、不变字符组对应的字符区域和字符方向,以及可变字符组、可变字符组对应的字符区域和字符方向。
作为优选,所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数;所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数;所述输出字符识别结果通过损失函数计算获得的结果得到 。
作为优选,所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数,采用交叉熵误差定义的损失函数。
作为优选,所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数,采用均方误差MSE定义的损失函数。
作为优选,方法还包括:在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证,当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时,对识别得到的身份证信息区域内的信息进行校正。
作为优选,所述在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证的步骤具体包括:获取身份证号码区域前六位非特定字符,并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息;验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的地址信息校正为官方定义的地址三级信息;
获取身份证号码区域第七位至第十四位非特定字符,并基于身份证号码区域第七位至第十四位非特定字符确定官方定义的出生日期信息;验证身份证信息区域内的出生日期信息与官方定义的出生日期信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的地址信息校正为官方定义的出生日期信息;
获取身份证号码区域第十五位至第十八位非特定字符,并基于身份证号码区域第十五位至第十八位非特定字符确定官方定义的性别信息;验证身份证信息区域内的性别信息与官方定义的性别信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的性别信息校正为官方定义的性别信息。
作为优选,所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据 ,是基于采集的身份证图像数据,进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。
本发明具有以下有益效果:
一种基于多任务的深度卷积神经网络身份证信息识别方法,把字符分割、字符识别和字符校正的身份证信息识别方法融入到深度卷积神经网络中,能高效、准确地识别出身份证信息区域以及身份证号码区域的所有字符信息。
附图说明
图1为本发明一种基于多任务的深度卷积神经网络身份证信息识别方法的流程图;
图2为实现本发明一种基于多任务的深度卷积神经网络身份证信息识别方法的网络结构图;
图3为主体网络结构图;
图4为身份证图像中特定字符训练的示例图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明一种基于多任务的深度卷积神经网络身份证信息识别方法,应用于图像处理端,方法包括:利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理,并输出字符识别结果。其中,所述第一层卷积神经网络,用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向。所述第二层卷积神经网络,用于识别并输出非特定字符和非特定字符对应的字符区域(参见图2)。
上述第一层、第二层卷积神经网络(DCNN网络)中的每层包括卷积核大小、卷积核个数、激活函数、池化层(参见图3)。
所述第一层卷积神经网络为7层卷积网络结构,当第一层卷积神经网络处理的身份证图像为256*96*1(图像的层数)时,每层结构如下:第一层输出为128*48*32,第二层输出为124*44*32,第三层输出为62*22*32,第四层输出为58*18*32,第五层输出为29*9*32,第六层输出为27*7*32,第七层输出为13*3*32,最后采用全连接层输出2048维特征向量。所述第一层卷积神经网络处理的是原始输入的身份证图像。
所述第二层卷积神经网络为6层卷积网络结构,当第二层卷积神经网络处理的身份证图像为128*48*1时,每层结构如下:第一层输出为124*44*32,第二层输出为62*22*32,第三层输出为58*18*32,第四层输出为29*9*32,第五层输出为27*7*32,第六层输出为13*3*32,最后采用全连接层输出2048维特征向量。所述第二层卷积神经网络处理的身份证图像为基于第一层卷积神经网络处理过的图像。当第一层卷积神经网络识别到身份证信息和身份证号码区域后,则将识别后的图像输入到第二层卷积神经网络中处理。
所述特定字符包括不变字符和可变字符;所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码。所述可变字符包括与地址相关的字符,例如,“湖”、“南”、“省”、“江”、“苏”、“省”、 “杭”、“州”、“市”等确定的可变字符。为了减少身份证信息中既要识别又要判断是否为某类型的任务,则所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括:利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别,识别出不变字符组、不变字符组对应的字符区域和字符方向,以及可变字符组、可变字符组对应的字符区域和字符方向。例如,不变字符组包括“姓名”、“性别”、“民族”、“出生”、“住址”“公民身份证号码”;确定的可变字符组包括“湖南省”、“江苏省”、“杭州市”等。对字符组的整体识别,可以避免对多个字符组单个识别,以及多个字符组合后的任务类型识别。本发明将固定的字符组进行存储在网络架构内,在识别时能快速匹配对应字符组。
所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数;所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数。所述输出字符识别结果通过损失函数收敛不断地降低而获得的最优的识别结果。损失函数是一个最优化的过程,用于更好的训练样本模型,能提高识别准确度。
第一层卷积神经网络和第二层卷积神经网络都是通过DCNN网络结构后,采用全连接层输出2048维向量,然后第一层卷积神经网络分别连接三个512维向量的全连接层,分别输出特定字符识别的损失函数,特定字符区域识别的损失函数和字符方向识别的损失函数。第二层卷积神经网络分别连接两个512维向量的全连接层,输出非特定字符区域识别的损失函数和非特定字符识别的损失函数。
所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数,采用交叉熵误差定义的损失函数。具体地,所述特定字符识别的损失函数以及所述非特定字符识别的损失函数采用如下公式:
其中, 为一个batch中第幅图像的特定字符/非特定字符正确分类值,而
为神经网络给出的预测值。可以为向量也可以为单一的数值,比如1代表“姓名”,“2”代
表的是“性别”,batch指的是一次放入深度学习网络中的图片数n。
所述特定字符方向识别的损失函数采用如下公式:
所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数,采用均方误差MSE定义的损失函数。具体地,所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数采用如下公式:
其中, 为一个batch中第幅图像的检测正确区域,而为神经网络给出的预
测区域。batch指的是一次放入深度学习网络中的图片数n。字符区域损失函数中的参量为
向量形式存在的,因为区域包括左上角坐标(x,y),长宽(u,v)。可以用该向量代表损失函数
中的向量,然后与真实值之间的欧式距离表示损失函数。
识别字符的具体过程如下:全连接层(参见图3)的向量为,的维度为512维,,其中矩阵为转换矩阵,为512*维向量,R矩阵就是把全连接相量的维度转换
为字符数目的向量维度,为字符的种类,其中包括汉字、数字(0-9)。 为维矩
阵,即字符向量。常见的方法是深度学习中的softmax(归一化)函数。,其中为第个的数值,采用深度学习中的softmax函数,输出深度学习后的字符向量H,直接取向量H中的最大值,以及最大值对应的
坐标,即对应识别的字符。H中的最大值为0~1的字符识别概率,一般当中的最大值大于0.9
时,认为是该字符。损失函数是一个最优化的过程,收敛降低到越低,则训练越好,则识别准
确度越准确。损失函数不参与识别字符的测试过程,而在训练中很有用,字符向量H和真实
的字符向量的差异性体现在损失函数中。所述字符识别的损失函数, 特定字符方向识别
的损失函数, 非特定字符识别的损失函数,在训练过程中是一个不断降低的过程,当真实
值与预测值越接近时越好,此时损失函数也越低。
所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据,是基于采集的身份证图像数据,进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。针对身份证数量少的特性,身份证上面的不变字符训练采用不变字符旋转、缩放、倾斜操作提到训练样本数目,身份证上面的确定的可变字符的训练中采用黑体字印刷字体自动生成不同旋转、缩放、倾斜操作的字以用于训练(参照图4)。这样能形成一个数据量大的样本模型,当有新的图像输入网络检测时,能考虑到环境的影响,能精准识别出因拍摄环境、拍摄方式造成倾斜、缩放的字符。
本发明方法还包括:在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证,当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时,对识别得到的身份证信息区域内的信息进行校正。
具体验证、校正过程如下:
获取身份证号码区域前六位非特定字符,并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息;验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的地址信息校正为官方定义的地址三级信息;
获取身份证号码区域第七位至第十四位非特定字符,并基于身份证号码区域第七位至第十四位非特定字符确定官方定义的出生日期信息;验证身份证信息区域内的出生日期信息与官方定义的出生日期信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的地址信息校正为官方定义的出生日期信息;
获取身份证号码区域第十五位至第十八位非特定字符,并基于身份证号码区域第十五位至第十八位非特定字符确定官方定义的性别信息;验证身份证信息区域内的性别信息与官方定义的性别信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的性别信息校正为官方定义的性别信息。
其中,官方定义的地址三级信息被预先存储在图像处理端,在识别出身份证图像中的号码信息后,就能对照预先存储的官方定义的地址三级信息,就能确定地址。例如,身份证号码“360222198610060711”的前六位为“360222”,其中“36”代表省级地址信息“江西省”,“02”代表市级地址信息“景德镇市”,“22”代表县级地址信息“浮梁县”。身份证号码区域第七位至第十四位非特定字符是按照年份(4位数)+月份(2位数)+日(2位数)的形式构建,则一旦识别到第七位至第十四位非特定字符,根据数字间隔识别出具体出生年月。上述数字的排列方式所代表的出生年月含义被预先存储在图像处理端,在识别出字符后,就能快速获取字符所对应的官方定义的出生日期信息。身份证号码区域第十五位至第十八位非特定字符的奇偶性,对应着男女判别。男性的顺序码为奇数,女性的顺序码为偶数,当出现X时,X代表数字10。这个奇偶特性的判断条件也被预先存储在图像处理端。在识别出字符后,就能快速获取字符所对应的官方定义的性别信息。
图1示出了识别字符和校正字符的整体流程。方法包括:
步骤S01, 利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理,并输出字符识别结果;
步骤S02,在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证,当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时,对识别得到的身份证信息区域内的信息进行校正。
经过上述步骤后,精准高效识别出身份证信息。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
Claims (8)
1.一种基于多任务的深度卷积神经网络身份证信息识别方法,应用于图像处理端,其特征在于,方法包括:利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理,并输出字符识别结果;
其中,所述第一层卷积神经网络,用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向;所述第二层卷积神经网络,用于识别并输出非特定字符和非特定字符对应的字符区域;所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数;所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数;所述输出字符识别结果通过损失函数计算获得的结果得到;所述第一层卷积神经网络处理的是原始输入的身份证图像; 所述第二层卷积神经网络处理的身份证图像为基于第一层卷积神经网络处理过的图像;
所述特定字符包括不变字符和可变字符;所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码;所述可变字符包括与地址相关的字符;所述非特定字符为所述特定字符以外的字符;
所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括:利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别,识别出不变字符组、不变字符组对应的字符区域和字符方向,以及可变字符组、可变字符组对应的字符区域和字符方向。
2.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述第一层卷积神经网络为7层卷积网络结构,当第一层卷积神经网络处理的身份证图像为256*96*1时,每层结构如下:第一层输出为128*48*32,第二层输出为124*44*32,第三层输出为62*22*32,第四层输出为58*18*32,第五层输出为29*9*32,第六层输出为27*7*32,第七层输出为13*3*32,最后采用全连接层输出2048维特征向量。
3.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述第二层卷积神经网络为6层卷积网络结构,当第二层卷积神经网络处理的身份证图像为128*48*1时,每层结构如下:第一层输出为124*44*32,第二层输出为62*22*32,第三层输出为58*18*32,第四层输出为29*9*32,第五层输出为27*7*32,第六层输出为13*3*32,最后采用全连接层输出2048维特征向量。
4.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数,采用交叉熵误差定义的损失函数。
5.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数,采用均方误差MSE定义的损失函数。
6.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,方法还包括:在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证,当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时,对识别得到的身份证信息区域内的信息进行校正。
7.根据权利要求6所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述在识别出身份证号码区域的所有非特定字符后,对识别得到的身份证信息区域内的信息进行验证的步骤具体包括:获取身份证号码区域前六位非特定字符,并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息;验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的地址信息校正为官方定义的地址三级信息;
获取身份证号码区域第七位至第十四位非特定字符,并基于身份证号码区域第七位至第十四位非特定字符确定官方定义的出生日期信息;验证身份证信息区域内的出生日期信息与官方定义的出生日期信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的出生日期信息校正为官方定义的出生日期信息;
获取身份证号码区域第十五位至第十八位非特定字符,并基于身份证号码区域第十五位至第十八位非特定字符确定官方定义的性别信息;验证身份证信息区域内的性别信息与官方定义的性别信息是否一致,若一致,则识别正确,否则,识别错误,并将身份证信息区域内的性别信息校正为官方定义的性别信息。
8.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法,其特征在于,所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据,是基于采集的身份证图像数据,进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462654.6A CN112990133B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多任务的深度卷积神经网络身份证信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462654.6A CN112990133B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多任务的深度卷积神经网络身份证信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990133A CN112990133A (zh) | 2021-06-18 |
CN112990133B true CN112990133B (zh) | 2021-08-27 |
Family
ID=76340446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462654.6A Active CN112990133B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多任务的深度卷积神经网络身份证信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990133B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858304A (zh) * | 2018-08-22 | 2020-03-03 | 上海汇付数据服务有限公司 | 一种身份证图像识别的方法及其设备 |
CN112348008A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 证件信息的识别方法、装置、终端设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719743B2 (en) * | 2018-01-19 | 2020-07-21 | Arcus Holding A/S | License plate reader using optical character recognition on plural detected regions |
CN108416412B (zh) * | 2018-01-23 | 2021-04-06 | 浙江瀚镪自动化设备股份有限公司 | 一种基于多任务深度学习的物流复合码识别方法 |
CN110020640B (zh) * | 2019-04-19 | 2021-08-24 | 厦门商集网络科技有限责任公司 | 一种纠正身份证信息的方法及终端 |
CN112560850A (zh) * | 2019-09-26 | 2021-03-26 | 中电万维信息技术有限责任公司 | 基于自定义模板的身份证信息自动提取和真伪校验方法 |
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
-
2021
- 2021-04-28 CN CN202110462654.6A patent/CN112990133B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858304A (zh) * | 2018-08-22 | 2020-03-03 | 上海汇付数据服务有限公司 | 一种身份证图像识别的方法及其设备 |
CN112348008A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 证件信息的识别方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112990133A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
JP5522408B2 (ja) | パターン認識装置 | |
Shi et al. | Stroke detector and structure based models for character recognition: a comparative study | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN111242124A (zh) | 一种证件分类方法、装置及设备 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN105335760A (zh) | 一种图像数字字符识别方法 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
Tsai et al. | Use SSD to detect the digital region in electricity meter | |
CN113095187A (zh) | 一种基于图像特征匹配对齐的试卷批改方法 | |
CN109145704A (zh) | 一种基于人脸属性的人脸画像识别方法 | |
CN111523342A (zh) | 一种复杂场景下的二维码检测和校正方法 | |
CN111104826A (zh) | 一种车牌字符识别方法、装置及电子设备 | |
CN112990133B (zh) | 一种基于多任务的深度卷积神经网络身份证信息识别方法 | |
CN114998665B (zh) | 一种图像类别识别方法、装置、电子设备及存储介质 | |
Qu et al. | Long-term reliable visual tracking with UAVs | |
CN112766404A (zh) | 一种基于深度学习的中华绒螯蟹的真伪识别方法及系统 | |
CN112418265A (zh) | 一种标签检测方法、装置及存储介质 | |
CN106354738A (zh) | 一种平面图像录入及匹配的方法和系统 | |
TWI855370B (zh) | 基於街景圖像識別的商戶真實性驗證系統、方法、電腦可讀媒體及電腦設備 | |
CN114155613B (zh) | 一种基于便捷样本获取的离线签名比对方法 | |
Qiao et al. | Efficient 1D Barcode Localization Method for Imagery Shipping Label Using Deep Learning Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |