CN112990133B

CN112990133B - 一种基于多任务的深度卷积神经网络身份证信息识别方法

Info

Publication number: CN112990133B
Application number: CN202110462654.6A
Authority: CN
Inventors: 柴惠芳; 徐新明; 曾向荣
Original assignee: Hangzhou Jinxianlian Technology Co ltd
Current assignee: Hangzhou Jinxianlian Technology Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-27
Anticipated expiration: 2041-04-28
Also published as: CN112990133A

Abstract

一种基于多任务的深度卷积神经网络身份证信息识别方法，属于图像处理领域。方法应用于图像处理端，其包括：利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理，并输出字符识别结果；其中，所述第一层卷积神经网络，用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向；所述第二卷积神经网络，用于识别并输出非特定字符和非特定字符对应的字符区域。本发明把字符分割、字符识别和字符校正的身份证信息识别方法融入到一个网络，有利于提高识别的准确性和识别效率。

Description

一种基于多任务的深度卷积神经网络身份证信息识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于多任务的深度卷积神经网络身份证信息识别方法。

背景技术

随着互联网的发展，越来越多的互联网公司都推出了自己的APP。为了防止用户非正确的输入自己的身份证信息引起后续可能的问题，很多公司要求上传证件身份证照片，但后期需要工作人员手动输入身份证号码和姓名，身份证信息录入效率低。

为了提高上传的身份证照片快速准备的获取文字信息，现有技术通常采用的流程为提取身份证区域、图像预处理获取文字区域、形态学滤波分离每个字符、对字符进行识别、通过特定字符和身份证号码信息进行校验。这些方法对系统要求较高，对多个流程的实用性要求较高。

发明专利申请CN202010484080.8公开了一种基于OCR技术的复杂场景下身份证识别方法，并具体公开了方法包括：S1、基于SIFT算法的对身份证的特征点识别，确定现实场景中身份证的位置坐标；S2、基于获取的身份证位置坐标，对现实场景中身份证的目标区域进行定位检测，并确定待识别文字区域；S3、提取待识别文字区域内的文字信息；S4、对提取的文字信息进行校正，获得准确的身份证信息，完成身份证识别。本发明方法解决了在复杂环境如光线较暗、过度曝光、拍摄模糊等情况下身份证的定位和识别问题；通过对识别结果增加字符最小距离校正算法，显著提高识别准确度，且具有一定的结果纠错功能，使识别结果更为可靠。

发明专利申请CN201910316776.7公开了一种纠正身份证信息的方法，并具体公开了方法包括：调用OCR引擎识别身份证，得到身份证信息；所述身份证信息包括身份证号码和身份证地址；从预设的地址映射表中获取与所述身份证号码的前六位对应的三级地址信息；所述三级地址信息包括省级地址信息、市级地址信息和县级地址信息；所述地址映射表中的每一条记录包括一个两位数编码以及与所述两位数编码对应的地址信息；根据所述三级地址信息纠正所述身份证地址的第一部分；所述身份证地址包括第一部分和第二部分；所述第一部分包括省级地址、市级地址和县级地址；所述第二部分为所述身份证地址中除所述第一部分的地址信息；根据预设的地址信息库纠正所述身份证地址的第二部分；所述地址信息库包括多条正确的地址信息；所述地址信息库中的地址信息包含乡镇地址信息、村地址信息和街道地址信息。该发明主要用于解决身份证识别存在错误的问题。

随着深度学习在字符识别和字符语义等识别的发展，如何构建一个或者少量的网络来做身份证信息获取工作成为研究的关键。

发明内容

本发明针对现有技术存在的问题，提出了一种基于多任务的深度卷积神经网络身份证信息识别方法，把字符分割、字符识别和字符校正的身份证信息识别方法融入到一个网络中，有利于提高识别准确性和识别效率。

本发明是通过以下技术方案得以实现的：

一种基于多任务的深度卷积神经网络身份证信息识别方法，应用于图像处理端，方法包括：利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理，并输出字符识别结果；

其中，所述第一层卷积神经网络，用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向；所述第二层卷积神经网络，用于识别并输出非特定字符和非特定字符对应的字符区域。

本发明利用双层卷积神经网络对身份证图像进行字符识别，包括识别出文字和数字。该发明对于系统要求低，通过网络来实现高效率、高准确性的识别。上述特定字符指的是身份证上的固有信息，包括不变字符和可变字符。不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码；所述可变字符包括与地址相关的字符，例如“湖”、“南”、“省”、“江”、“苏”、“省”、 “杭”、“州”、“市”等确定的可变字符。所述非特定字符为上述特定字符之外的字符，包括数字，如身份证号码“3”、“X”，门牌号“401”等，以及不确定的可变字符，如姓名“李”、“睿”。

作为优选，所述第一层卷积神经网络为7层卷积网络结构，当第一层卷积神经网络处理的身份证图像为256*96*1 时，每层结构如下：第一层输出为128*48*32，第二层输出为124*44*32，第三层输出为62*22*32，第四层输出为58*18*32，第五层输出为29*9*32，第六层输出为27*7*32，第七层输出为13*3*32，最后采用全连接层输出2048维特征向量。

作为优选，所述第二层卷积神经网络为6层卷积网络结构，当第二层卷积神经网络处理的身份证图像为128*48*1时，每层结构如下：第一层输出为124*44*32，第二层输出为62*22*32，第三层输出为58*18*32，第四层输出为29*9*32，第五层输出为27*7*32，第六层输出为13*3*32，最后采用全连接层输出2048维特征向量。

作为优选，所述特定字符包括不变字符和可变字符；所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码；所述可变字符包括与地址相关的字符；所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括：利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别，识别出不变字符组、不变字符组对应的字符区域和字符方向，以及可变字符组、可变字符组对应的字符区域和字符方向。

作为优选，所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数；所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数；所述输出字符识别结果通过损失函数计算获得的结果得到。

作为优选，所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数，采用交叉熵误差定义的损失函数。

作为优选，所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数，采用均方误差MSE定义的损失函数。

作为优选，方法还包括：在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证，当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时，对识别得到的身份证信息区域内的信息进行校正。

作为优选，所述在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证的步骤具体包括：获取身份证号码区域前六位非特定字符，并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息；验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的地址信息校正为官方定义的地址三级信息；

获取身份证号码区域第七位至第十四位非特定字符，并基于身份证号码区域第七位至第十四位非特定字符确定官方定义的出生日期信息；验证身份证信息区域内的出生日期信息与官方定义的出生日期信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的地址信息校正为官方定义的出生日期信息；

获取身份证号码区域第十五位至第十八位非特定字符，并基于身份证号码区域第十五位至第十八位非特定字符确定官方定义的性别信息；验证身份证信息区域内的性别信息与官方定义的性别信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的性别信息校正为官方定义的性别信息。

作为优选，所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据，是基于采集的身份证图像数据，进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。

本发明具有以下有益效果：

一种基于多任务的深度卷积神经网络身份证信息识别方法，把字符分割、字符识别和字符校正的身份证信息识别方法融入到深度卷积神经网络中，能高效、准确地识别出身份证信息区域以及身份证号码区域的所有字符信息。

附图说明

图1为本发明一种基于多任务的深度卷积神经网络身份证信息识别方法的流程图；

图2为实现本发明一种基于多任务的深度卷积神经网络身份证信息识别方法的网络结构图；

图3为主体网络结构图；

图4为身份证图像中特定字符训练的示例图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明一种基于多任务的深度卷积神经网络身份证信息识别方法，应用于图像处理端，方法包括：利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理，并输出字符识别结果。其中，所述第一层卷积神经网络，用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向。所述第二层卷积神经网络，用于识别并输出非特定字符和非特定字符对应的字符区域（参见图2）。

上述第一层、第二层卷积神经网络（DCNN网络）中的每层包括卷积核大小、卷积核个数、激活函数、池化层（参见图3）。

所述第一层卷积神经网络为7层卷积网络结构，当第一层卷积神经网络处理的身份证图像为256*96*1（图像的层数）时，每层结构如下：第一层输出为128*48*32，第二层输出为124*44*32，第三层输出为62*22*32，第四层输出为58*18*32，第五层输出为29*9*32，第六层输出为27*7*32，第七层输出为13*3*32，最后采用全连接层输出2048维特征向量。所述第一层卷积神经网络处理的是原始输入的身份证图像。

所述第二层卷积神经网络为6层卷积网络结构，当第二层卷积神经网络处理的身份证图像为128*48*1时，每层结构如下：第一层输出为124*44*32，第二层输出为62*22*32，第三层输出为58*18*32，第四层输出为29*9*32，第五层输出为27*7*32，第六层输出为13*3*32，最后采用全连接层输出2048维特征向量。所述第二层卷积神经网络处理的身份证图像为基于第一层卷积神经网络处理过的图像。当第一层卷积神经网络识别到身份证信息和身份证号码区域后，则将识别后的图像输入到第二层卷积神经网络中处理。

所述特定字符包括不变字符和可变字符；所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码。所述可变字符包括与地址相关的字符，例如，“湖”、“南”、“省”、“江”、“苏”、“省”、 “杭”、“州”、“市”等确定的可变字符。为了减少身份证信息中既要识别又要判断是否为某类型的任务，则所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括：利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别，识别出不变字符组、不变字符组对应的字符区域和字符方向，以及可变字符组、可变字符组对应的字符区域和字符方向。例如，不变字符组包括“姓名”、“性别”、“民族”、“出生”、“住址”“公民身份证号码”；确定的可变字符组包括“湖南省”、“江苏省”、“杭州市”等。对字符组的整体识别，可以避免对多个字符组单个识别，以及多个字符组合后的任务类型识别。本发明将固定的字符组进行存储在网络架构内，在识别时能快速匹配对应字符组。

所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数；所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数。所述输出字符识别结果通过损失函数收敛不断地降低而获得的最优的识别结果。损失函数是一个最优化的过程，用于更好的训练样本模型，能提高识别准确度。

第一层卷积神经网络和第二层卷积神经网络都是通过DCNN网络结构后，采用全连接层输出2048维向量，然后第一层卷积神经网络分别连接三个512维向量的全连接层，分别输出特定字符识别的损失函数，特定字符区域识别的损失函数和字符方向识别的损失函数。第二层卷积神经网络分别连接两个512维向量的全连接层，输出非特定字符区域识别的损失函数和非特定字符识别的损失函数。

所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数，采用交叉熵误差定义的损失函数。具体地，所述特定字符识别的损失函数以及所述非特定字符识别的损失函数采用如下公式：

其中，

为一个batch中第幅图像的特定字符/非特定字符正确分类值，而

为神经网络给出的预测值。

可以为向量也可以为单一的数值，比如1代表“姓名”，“2”代表的是“性别”，batch指的是一次放入深度学习网络中的图片数n。

所述特定字符方向识别的损失函数采用如下公式：

其中，

为一个batch中第幅图像的特定字符方向值，而

为神经网络给出的预测值。可以把

划分为0°、15°、30°等。batch指的是一次放入深度学习网络中的图片数n。

所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数，采用均方误差MSE定义的损失函数。具体地，所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数采用如下公式：

其中，

为一个batch中第

幅图像的检测正确区域，而

为神经网络给出的预测区域。batch指的是一次放入深度学习网络中的图片数n。字符区域损失函数中的参量为向量形式存在的，因为区域包括左上角坐标（x,y）,长宽（u,v）。可以用该向量代表损失函数中的向量，然后与真实值之间的欧式距离表示损失函数。

识别字符的具体过程如下：全连接层（参见图3）的向量为

，

的维度为512维，

，其中

矩阵为转换矩阵，为512*

维向量，R矩阵就是把全连接相量的维度转换为字符数目

的向量维度，

为字符的种类，其中包括汉字、数字（0-9）。

为

维矩阵，即字符向量。常见的方法是深度学习中的softmax（归一化）函数。

，其中

为第

个的数值，采用深度学习中的softmax函数

，输出深度学习后的字符向量H，直接取向量H中的最大值，以及最大值对应的坐标，即对应识别的字符。H中的最大值为0~1的字符识别概率，一般当中的最大值大于0.9 时，认为是该字符。损失函数是一个最优化的过程，收敛降低到越低，则训练越好，则识别准确度越准确。损失函数不参与识别字符的测试过程，而在训练中很有用，字符向量H和真实的字符向量

的差异性体现在损失函数中。所述字符识别的损失函数, 特定字符方向识别的损失函数, 非特定字符识别的损失函数，在训练过程中是一个不断降低的过程，当真实值与预测值越接近时越好，此时损失函数也越低。

所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据，是基于采集的身份证图像数据，进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。针对身份证数量少的特性，身份证上面的不变字符训练采用不变字符旋转、缩放、倾斜操作提到训练样本数目，身份证上面的确定的可变字符的训练中采用黑体字印刷字体自动生成不同旋转、缩放、倾斜操作的字以用于训练（参照图4）。这样能形成一个数据量大的样本模型，当有新的图像输入网络检测时，能考虑到环境的影响，能精准识别出因拍摄环境、拍摄方式造成倾斜、缩放的字符。

本发明方法还包括：在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证，当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时，对识别得到的身份证信息区域内的信息进行校正。

具体验证、校正过程如下：

获取身份证号码区域前六位非特定字符，并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息；验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的地址信息校正为官方定义的地址三级信息；

其中，官方定义的地址三级信息被预先存储在图像处理端，在识别出身份证图像中的号码信息后，就能对照预先存储的官方定义的地址三级信息，就能确定地址。例如，身份证号码“360222198610060711”的前六位为“360222”，其中“36”代表省级地址信息“江西省”，“02”代表市级地址信息“景德镇市”，“22”代表县级地址信息“浮梁县”。身份证号码区域第七位至第十四位非特定字符是按照年份（4位数）+月份（2位数）+日（2位数）的形式构建，则一旦识别到第七位至第十四位非特定字符，根据数字间隔识别出具体出生年月。上述数字的排列方式所代表的出生年月含义被预先存储在图像处理端，在识别出字符后，就能快速获取字符所对应的官方定义的出生日期信息。身份证号码区域第十五位至第十八位非特定字符的奇偶性，对应着男女判别。男性的顺序码为奇数，女性的顺序码为偶数，当出现X时，X代表数字10。这个奇偶特性的判断条件也被预先存储在图像处理端。在识别出字符后，就能快速获取字符所对应的官方定义的性别信息。

图1示出了识别字符和校正字符的整体流程。方法包括：

步骤S01, 利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理，并输出字符识别结果;

步骤S02，在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证，当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时，对识别得到的身份证信息区域内的信息进行校正。

经过上述步骤后，精准高效识别出身份证信息。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种基于多任务的深度卷积神经网络身份证信息识别方法，应用于图像处理端，其特征在于，方法包括：利用第一层卷积神经网络和第二层卷积神经网络对采集的身份证图像进行字符识别处理，并输出字符识别结果；

其中，所述第一层卷积神经网络，用于识别并输出身份证图像中的特定字符、特定字符对应的字符区域和特定字符方向；所述第二层卷积神经网络，用于识别并输出非特定字符和非特定字符对应的字符区域；所述第一层卷积神经网络包括特定字符识别的损失函数、特定字符区域识别的损失函数、特定字符方向识别的损失函数；所述第二层卷积神经网络包括非特定字符识别的损失函数、非特定字符区域识别的损失函数；所述输出字符识别结果通过损失函数计算获得的结果得到；所述第一层卷积神经网络处理的是原始输入的身份证图像; 所述第二层卷积神经网络处理的身份证图像为基于第一层卷积神经网络处理过的图像;

所述特定字符包括不变字符和可变字符；所述不变字符包括姓、名、性、别、民、族、出、生、年、月、日、住、址、公、民、身、份、证、号、码；所述可变字符包括与地址相关的字符；所述非特定字符为所述特定字符以外的字符；

所述利用第一层卷积神经网络对采集的身份证图像进行字符识别处理的步骤具体包括：利用第一层卷积神经网络对身份证图像中的特定字符组进行整体识别，识别出不变字符组、不变字符组对应的字符区域和字符方向，以及可变字符组、可变字符组对应的字符区域和字符方向。

2.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述第一层卷积神经网络为7层卷积网络结构，当第一层卷积神经网络处理的身份证图像为256*96*1时，每层结构如下：第一层输出为128*48*32，第二层输出为124*44*32，第三层输出为62*22*32，第四层输出为58*18*32，第五层输出为29*9*32，第六层输出为27*7*32，第七层输出为13*3*32，最后采用全连接层输出2048维特征向量。

3.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述第二层卷积神经网络为6层卷积网络结构，当第二层卷积神经网络处理的身份证图像为128*48*1时，每层结构如下：第一层输出为124*44*32，第二层输出为62*22*32，第三层输出为58*18*32，第四层输出为29*9*32，第五层输出为27*7*32，第六层输出为13*3*32，最后采用全连接层输出2048维特征向量。

4.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述特定字符识别的损失函数、所述特定字符方向识别的损失函数和所述非特定字符识别的损失函数，采用交叉熵误差定义的损失函数。

5.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述特定字符区域识别的损失函数和所述非特定字符区域识别的损失函数，采用均方误差MSE定义的损失函数。

6.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，方法还包括：在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证，当身份证信息区域内的信息与身份证号码区域的非特定字符所对应的官方信息不一致时，对识别得到的身份证信息区域内的信息进行校正。

7.根据权利要求6所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述在识别出身份证号码区域的所有非特定字符后，对识别得到的身份证信息区域内的信息进行验证的步骤具体包括：获取身份证号码区域前六位非特定字符，并基于身份证号码区域前六位非特定字符确定官方定义的地址三级信息；验证身份证信息区域内的地址信息与官方定义的地址三级信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的地址信息校正为官方定义的地址三级信息；

获取身份证号码区域第七位至第十四位非特定字符，并基于身份证号码区域第七位至第十四位非特定字符确定官方定义的出生日期信息；验证身份证信息区域内的出生日期信息与官方定义的出生日期信息是否一致，若一致，则识别正确，否则，识别错误，并将身份证信息区域内的出生日期信息校正为官方定义的出生日期信息；

8.根据权利要求1所述的一种基于多任务的深度卷积神经网络身份证信息识别方法，其特征在于，所述第一层卷积神经网络和第二层卷积神经网络中的身份证图像样本数据，是基于采集的身份证图像数据，进行特定字符旋转、缩放、倾斜操作方式进行训练扩展得到。