CN112001318A

CN112001318A - 一种身份证件信息采集方法及其系统

Info

Publication number: CN112001318A
Application number: CN202010863925.4A
Authority: CN
Inventors: 姜贺; 安民洙
Original assignee: Guangdong Light Speed Intelligent Equipment Co ltd
Current assignee: Guangdong Light Speed Intelligent Equipment Co.,Ltd.; Tenghui Technology Building Intelligence (Shenzhen) Co.,Ltd.
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-27

Abstract

本发明提供一种身份证件信息采集方法及其系统，该方法包括通过拍摄装置分别采集身份证图像以及人脸图像；对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人，若判断结果为是，则对身份证图像进行预处理，基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域，对文本区域进行字符识别以获取身份信息。该系统用于实现上述的信息采集方法。本发明可以保证在复杂拍摄环境、光照的情况下快速准确地实现人员信息采集。

Description

一种身份证件信息采集方法及其系统

技术领域

本发明涉及图像识别技术领域，尤其涉及一种身份证件信息采集方法以及应用该方法的信息采集系统。

背景技术

根据《建筑工人实名制管理办法》是为规范建筑市场用工秩序，加强建筑用工管理，维护建筑施工企业和建筑作业人员的合法权益，保障工程质量和安全生产，促进建筑业健康发展而指定的法规。为响应该管理办法，工地需要对工人进行实名信息采集并进行后续考勤。实名信息一般采用手机app的方式，拍摄人脸照片和身份证照片(或者身份证读卡器)获取身份信息并实现人证合一，而考勤一般在工地入口设置实名制通道安装人脸考勤机，并人脸打卡开闸进入工地。

针对建筑工地的应用场景，存在使用环境复杂、人员复杂、使用手机多样的问题，从而会导致图片质量差、检测率低、身份证信息误识别率高的问题。

发明内容

本发明的主要目的在于提供一种可以保证在复杂拍摄环境、光照的情况下快速准确地实现人员信息采集的身份证件信息采集方法。

本发明的另一目的在于提供一种可以保证在复杂拍摄环境、光照的情况下快速准确地实现人员信息采集的身份证件信息采集系统。

为了实现上述的主要目的，本发明提供的一种身份证件信息采集方法，其包括通过拍摄装置分别采集身份证图像以及人脸图像；对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人；若判断结果为是，则对身份证图像进行预处理；基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域；对文本区域进行字符识别以获取身份信息。

进一步的方案中，使用拍摄装置分别拍摄用户的人脸图像和身份证正面照片，确定身份证对应在身份证正面照片中的位置，截取身份证信息区域，获取身份证图像，同时给出身份证图像的方向。

更进一步的方案中，利用insightface学习模型提取采集到的身份证图像、人脸图像的特征向量，对实时采集到的身份证图像、人脸图像进行人脸检测与识别；对获取到的身份证图像特征值和人脸图像特征值进行比对，若比对后的比分大于或等于设定阈值则说明是同一人。

更进一步的方案中，采用透视变换和基于SIFT特征的图像匹配对身份证图像进行校正。

更进一步的方案中，将截取到的文本区域输入至CRNN网络模型进行识别以获取身份信息，并返回识别结果。

由此可见，本发明对身份证件上的图像信息和身份证件持有人的面部图像信息均采用图像采集的方式，无需专门的身份证件读卡器即可完成两种图像信息的采集，通过真实照片和身份证照片进行人证匹配，从复杂背景照片中快速识别出身份证并给出身份证方向，对身份证图片进行校正，以获得校正后的身份证图片，再对校正后的身份证图片中的文字进行识别，能够自动有效地识别身份证图片中的身份信息。

所以，本发明可以进行复杂背景的身份证检测，准确率高；可以提高身份证字符的识别正确率；使用更复杂的卷积特征提取网络，提升中文字符识别的精度，因此不仅具有较快的识别功能，同时也具有优良的识别性能；在人、证统一的前提下，进一步核对身份证件本身的真实性，保证查验更准确。

为了实现上述的另一目的，本发明提供的一种身份证件信息采集系统，其包括身份检测单元，用于通过拍摄装置分别采集身份证图像以及人脸图像；匹配单元，用于对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人；预处理单元，用于对身份证图像进行预处理；文本检测单元，用于基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域；字符识别单元，用于对文本区域进行字符识别以获取身份信息。

由此可见，本发明的信息采集系统可用于智慧工地及流动人口管理，通过采用人脸识别技术和身份证验证或人脸识别技术和居住证验证的双重保障，实现人证合一的人员信息采集要求，提高信息采集的效率和准确度，便于推广和使用。

附图说明

图1是本发明一种身份证件信息采集方法实施例的流程框图。

图2是本发明一种身份证件信息采集方法实施例中的CTPN模型结构示意图。

图3是本发明一种身份证件信息采集方法实施例中的CRNN字符识别框架图。

图4是本发明一种身份证件信息采集方法实施例中的Dense Net网络结构示意图。

图5是本发明一种身份证件信息采集方法实施例中的Dense Block和TransitionBlock结构结构示意图。

图6是本发明一种身份证件信息采集方法实施例中进行身份证检测的示意图。

图7是本发明一种身份证件信息采集方法实施例中insightface学习模型的原理图。

图8是本发明一种身份证件信息采集方法实施例中Arcface loss损失函数的角度特性的原理图。

图9是本发明一种身份证件信息采集方法实施例中身份证图像进行校正使用的模板图像的示意图。

图10是本发明一种身份证件信息采集方法实施例中基于CTPN算法对预处理后的身份证图像信息进行文本检测的检测结果。

图11是本发明一种身份证件信息采集系统实施例的原理图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

为了使发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限用于本发明。

一种身份证件信息采集方法实施例：

参见图1，本发明的身份证件信息采集方法在对人员进行身份证件信息采集时，首先，执行步骤S1，通过拍摄装置分别采集身份证图像以及人脸图像。其中，使用拍摄装置分别拍摄用户的人脸图像和身份证正面照片，确定身份证对应在身份证正面照片中的位置，截取身份证信息区域，获取身份证图像，同时给出身份证图像的方向。

具体地，使用手机app分别拍摄工地工人的人脸照片和身份证正面照片，对于身份证正面照片首先在原图中检测身份证的位置，并裁剪出身份证区域，同时给出身份证的方向。如图6所示，该目标检测分为4个类别(0°身份证、90°身份证、180°身份证、270°身份证)，即不同的方向分别为一个类别的目标，在数据标记阶段即分成四类标记，最终检测结果算法自动分类。本实施例的身份证检测采用YoloV4的方法，基础网络采用CSPdarknet53，在yolov3的基础上加入多种技巧，如1)采用Mosaic数据增强方法，混合四张具有不同语义信息的图片，让检测器检测超出常规预警的目标，增加模型的鲁棒性，同时可以减少对大的mini-batch的依赖；2)采用子对抗训练的数据增强方法，一定程度上抵抗对抗攻击；3)随机擦除增强，随机选择一个区域然后采用随机值进行覆盖，模拟遮挡场景，从而提高模型泛化能力等。本实施例中训练的模型，对于1080p的照片速度可达30fps，准确率达99.62％。对于不存在身份证的图片、以及存在其它证件(如社保卡、公交卡等)的照片可以很好的过滤。

然后，执行步骤S2，对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人。其中，利用insightface学习模型提取采集到的身份证图像、人脸图像的特征向量，对实时采集到的身份证图像、人脸图像进行人脸检测与识别；对获取到的身份证图像特征值和人脸图像特征值进行比对，若比对后的比分大于或等于设定阈值则说明是同一人。

具体的，本实施例人脸信息的比对，是利用insightface学习模型分别提取512维人脸特征，对两个特征计算其余弦距离，该距离即为比对得分。Insightface是一个2D/3D人脸分析项目，如图7所示，其提出了一个新的损失函数Arcface loss，该损失函数实现了角度空间内最大化分类界限，相对于余弦空间而言具有更好的几何解释性。Arcface loss损失函数如式(11)：

如图8所示，将角度边缘t置于cos(θ)函数内部，使得cos(θ₁+t)在θ∈[0,π-t]范围内要小于cos(θ₂)，这一约束使得整个分类任务的要求变得更加严苛。对于cos(θ+m)可以得到cos(θ+m)＝cosθcost-sinθsint，对比Cosine loss的cosθ-t不仅形式简单，而且还动态依赖sinθ，能够使得网络学习到更多的角度特征。

对于身份证图像、人脸图像的人证比对，在训练阶段采用insightface的arcfaceloss进行训练，可以很好的减小类内距离，增大类间距离。在推断阶段，使用余弦距离作为身份证图像与人脸图像的相似度，该相似度范围为0～1，经大量测试最佳阈值设为0.72，当得分大于等于0.72时认为人证合一即为同一个人，当得分小于0.72时认为人证不匹配即不是同一个人。

具体地，对采集到的身份证图像、人脸图像分别进行人脸检测，并对检测到的人脸进行比对，比对得分大于等于0.72即认为是人证合一。目前本发明的同名通过率可达99.23％，不同名据伪率可达99.05％。

接着，执行步骤S3，若判断结果为是，则对身份证图像进行预处理。其中，本步骤中的图像预处理是采用透视变换和基于SIFT特征的图像匹配对身份证图像进行校正，将每一张待校正的身份证图像和模板图像进行特征点匹配，寻找同名点，从而求解透视变换关系，其中，模板图像是经过校正的，成像清晰的身份证正面图像。

本实施例中，采用透视变换和基于SIFT特征的影像匹配对身份证图像进行校正，透视变换校正是求解刚体空间变换中点三维坐标的转换关系。固定一个投影平面上的点，设其齐次坐标为(u,v,1)，经过透视变换后，其空间坐标为(x,y,z)，则其透视变换关系可以用透视变换矩阵来表示，如式(1)：

将式(1)展开后，可以得到新平面上的投影坐标，换算关系如式(2)：

其中，式(2)表达了同一空间点，在两个不同的平面上的投影坐标关系，可以用一个8参数的透视变换矩阵实现坐标转换。即4组同名点，可以求解两个平面间的透视变换矩阵，实现透视变换校正。

如图9所示，展示了特征匹配所使用的4个模板，利用透视变换的原理，本实施例设置了4张身份证正面模板图像，将每一张待校正的身份证图像和模板图像进行特征点匹配，寻找同名点，从而求解透视变换关系。其中，模板图像上抹去了除“姓名”、“出生”、“性别”、“民族”、“住址”、“公民身份号码”以外的汉字和头像，以防止特征点匹配受到干扰。

在寻找同名点时，采取了SIFT图像特征点匹配的方法。SIFT是一种图像局部特征描述算法，它通过构建图像灰度尺度空间、DOG极值点计算，描述了图像局部不同尺度的灰度梯度方向分布。SIFT特征具有尺度不变性，并且对图像的亮度变化和旋转都不敏感，很适合用做同名特征点对的匹配。特征点匹配时，采取最邻近匹配法。特征点匹配中的误匹配较多时，会导致透视变换校正误差较大，因此要对匹配结果进行严格的筛选。首先用描述子距离对匹配点对筛选，比较每个匹配返回的两个最邻近匹配的描述子，第一个匹配的描述子和第二个描述子之间的距离需要足够小。根据研究，当第一匹配的描述子距离大于第二匹配描述子的0.7倍时可以剔除百分之九十情况下的误匹配。经过筛选的匹配点对，数量超过10个，则用于计算透视变换矩阵，否则不进行透视变换校正。

最后使用RANSAC(随机抽样一致性)算法计算透视变换矩阵。其原理为随机抽取4个不共线的点进行变换矩阵计算，然后用这个模型计算其他点对的投影误差，剔除误差代价高于阈值(5.0)的点对，不断迭代最后用剩余的点对计算最终的变换矩阵。

当然，即使加入了严格的特征匹配点筛选条件，仍然有匹配失败的情况。对比校正成功的图像，校正失败后图像的文字，图案等信息完全被破坏，在灰度梯度上和原图有巨大的变化。基于这个图像特点，考虑到HOG算法能够分块统计图像局部的灰度梯度方向特征，本实施例通过计算校正前后图像的HOG特征向量间的欧拉距离，将图像HOG特征变化大于一定阈值的情况判定为校正失败。在校正时，会轮流使用每一张模板图像对目标图像进行校正，直到校正成功或者模板图像用完。

在计算HOG特征时，统一将图像缩放至256x256大小，保证相同的滑窗参数可以在不同尺寸的图像上使用。具体的HOG计算参数图如表一：

(表一)

计算校正前后全图的HOG特征向量的欧拉距离，观测欧拉距离值的分布，发现校正成功的图像欧拉距离值小于120，而匹配失败的图像大于140，由此设定较为严格的阈值为120。

然后，执行步骤S4，基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域。

具体地，采用了一种基于Faster-RCNN改进的、对于水平、小角度倾斜文本的高效检测方法CTPN，实现身份证文本行提取。

CTPN算法是一种基于深度目标检测框架，针对文本行特点改进的文本区域提取方法。其思想是把文字行看成水平方向上连续排列的目标，通过将循环神经网络单元Bi-LSTM加入目标检测的特征提取中，从而使得提取的卷积特征具有了序列相关信息。在区域建议网中，Anchor Box的形状被设计成宽度固定，高度分布在11至283间的10种大小，其目的是保证在x方向上目标框不重叠，在y方向上能够预测大小不同的文字，CTPN模型结构如图2所示。

在特征提取上，CTPN模型使用的是VGG16网络，在最后一层卷积特征图上做3×3的滑动窗口将通道数增至9倍，得到深度特征。然后以特征图的每一行作为一个时间单元，输入Bi-LSTM(双向长短期记忆网络)，提取序列特征。最后经过全连接层和区域建议网络得到文本建议区域特征，进行分类和回归。

最终网络预测的结果是一系列宽度固定、不重叠的矩形预测框。对于这些预测框，需要设定置信度、重叠度(IOU)、间隔等一系列阈值，经过NMS(非极大值抑制)、合并等操作，得到最终的文本行区域。其中IOU的计算方式如下式(3)：

此时，为了防止校正效果不佳，导致图像扭曲加剧，文本行预测框因文字倾斜，会出现较大重叠带来的影响，每次将校正成功的图像和未经校正的图像一起输入CTPN进行文本行检测，通过对文本行检测结果的置信度打分、本文行重叠情况IOU打分，采纳检测结果更好的文本行区域。即得到检测结果后，计算全图文本行预测框在y方向的IOU值。同时，统计文本行预测框的平均置信度。如果校正后的图像，IOU值更低，而平均置信度更高，则取校正后图像的结果输出。如图10所示，图10为基于CTPN算法对预处理后的身份证图像信息进行文本检测的检测结果。

然后，执行步骤S5，对文本区域进行字符识别以获取身份信息。其中，将截取到的文本区域输入至CRNN网络模型进行识别以获取身份信息，并返回识别结果。

本实施例基于CRNN字符识别框架，CRNN框架是集合了CNN特征提取模块、RNN序列特征提取模块和CTC损失/预测结果模块的组合模型。它相对于编码器-解码器结构能够严格保证图像特征和文字内容的对应顺序，并且更容易训练收敛。因此，本方法的身份证字符序列识别框架采用了CRNN框架，设计了CNN特征提取模块，字符序列识别模型框架图如图3所示。

考虑到原CRNN框架是用于英文字符识别，目标类别只有英文和数字，不超过70类，模型部分使用了简单的7层卷积进行特征提取。而在本发明的中文字符识别任务中，目标类别共有6275类字符，任务复杂度远高于英文字符识别。因此，本发明选取了更具深度和宽度的Dense Net卷积网络进行模型搭建，它是将每层特征都与之前的所有特征层相连，保证了网络中信息的最大流通。这种密集连接的网络结构，使得网络在不同深度的特征能够很好的保留，并且在前向、后向计算时，信息和梯度都能很好的保持，Dense Net网络结构如图4所示，网络主要由Dense Block和Transition Block两种模块组成，Dense Block和Transition Block结构如图5所示。

不同于原始的Dense Net，本文中采用了三个相同的Dense Block，每个DenseBlock中使用了8个结构相同的Dense Layer。由于本文使用了较少的卷积核，因此也没有采用原始Dense Net-BC的结构来缩减卷积特征通道。每个Dense Block内的每层Dense Layer的输入，都是同模块内前所有Dense Layer输出特征图的通道串联，用式(4)表示：

x_l＝H_l([x₀，x₁，...，x_l-1]) (4)

本实施例的字符识别精度评定方法采用了基于字符个数的评定方法，这里主要计算3个指标，即精确率、召回率和F值(f1-measure)。其中，精确率和召回率的计算方式如式(5)和式(6)：

其中，精确率，即识别结果中有多少个字符是正确的。

其中，召回率，即对于标注的文字内容，有多少字符被正确检测出。

在计算比对文本标签和检测结果中的正确字符时，是采用最长公共子序列进行衡量。最长公共子序列，是两个字符间，不连续的、有序的公共子序列之和。例如，＂地址北京市朝阳区东门大街100号＂和＂住址西安市西门街100号＂的公共子序列是＂址市门街100号＂。

本发明使用5000张真实身份证照片作为测试集，以人工二次标注得到真实字符(由于人工会产生疲劳等因此可能存在错误，因此采用第一个人标注第二个人检查的方式)，本发明的精确率为98.93％，检出率为98.8％。

一种身份证件信息采集系统实施例：

参见图6，本发明提供的一种身份证件信息采集系统，其包括身份检测单元、匹配单元、预处理单元、文本检测单元以及字符识别单元。

身份检测单元，用于通过拍摄装置分别采集身份证图像以及人脸图像。

匹配单元，用于对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人。

预处理单元，用于对身份证图像进行预处理。

文本检测单元，用于基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域。

字符识别单元，用于对文本区域进行字符识别以获取身份信息。

进一步的，使用拍摄装置分别拍摄用户的人脸图像和身份证正面照片，确定身份证对应在身份证正面照片中的位置，截取身份证信息区域，获取身份证图像，同时给出身份证图像的方向。

进一步的，利用insightface学习模型提取采集到的身份证图像、人脸图像的特征向量，对实时采集到的身份证图像、人脸图像进行人脸检测与识别；对获取到的身份证图像特征值和人脸图像特征值进行比对，若比对后的比分大于或等于设定阈值则说明是同一人。

进一步的，采用透视变换和基于SIFT特征的图像匹配对身份证图像进行校正。

进一步的，将截取到的文本区域输入至CRNN网络模型进行识别以获取身份信息，并返回识别结果。

需要说明的是，以上仅为本发明的优选实施例，但发明的设计构思并不局限于此，凡利用此构思对本发明做出的非实质性修改，也均落入本发明的保护范围之内。

Claims

1.一种身份证件信息采集方法，其特征在于，包括：

通过拍摄装置分别采集身份证图像以及人脸图像；

对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人；

若判断结果为是，则对身份证图像进行预处理；

基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域；

对文本区域进行字符识别以获取身份信息。

2.根据权利要求1所述的信息采集方法，其特征在于，通过拍摄装置分别采集身份证图像以及人脸图像，包括：

使用拍摄装置分别拍摄用户的人脸图像和身份证正面照片，确定身份证对应在身份证正面照片中的位置，截取身份证信息区域，获取身份证图像，同时给出身份证图像的方向。

3.根据权利要求1所述的信息采集方法，其特征在于，对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，包括：

利用insightface学习模型提取采集到的身份证图像、人脸图像的特征向量，对实时采集到的身份证图像、人脸图像进行人脸检测与识别；

对获取到的身份证图像特征值和人脸图像特征值进行比对，若比对后的比分大于或等于设定阈值则说明是同一人。

4.根据权利要求1至3任一项所述的信息采集方法，其特征在于，对身份证图像进行预处理，包括：

采用透视变换和基于SIFT特征的图像匹配对身份证图像进行校正。

5.根据权利要求1至3任一项所述的信息采集方法，其特征在于，对文本区域进行字符识别以获取身份信息，包括：

将截取到的文本区域输入至CRNN网络模型进行识别以获取身份信息，并返回识别结果。

6.一种身份证件信息采集系统，其特征在于，包括：

身份检测单元，用于通过拍摄装置分别采集身份证图像以及人脸图像；

匹配单元，用于对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，验证信息是否属于同一个人；

预处理单元，用于对身份证图像进行预处理；

文本检测单元，用于基于CTPN算法对预处理后的身份证图像信息进行文本检测，得到身份证图像信息的文本区域；

7.根据权利要求6所述的信息采集系统，其特征在于，所述身份检测单元通过拍摄装置分别采集身份证图像以及人脸图像，包括：

8.根据权利要求6所述的信息采集系统，其特征在于，所述身份检测单元对采集到的身份证图像、人脸图像进行人脸检测，并对检测到的人脸信息进行比对，包括：

9.根据权利要求6至8任一项所述的信息采集系统，其特征在于，所述预处理单元对身份证图像进行预处理，包括：

10.根据权利要求6至8任一项所述的信息采集系统，其特征在于，所述字符识别单元对文本区域进行字符识别以获取身份信息，包括：