CN112990096B

CN112990096B - 一种基于ocr与人脸检测融合的身份证信息录用方法

Info

Publication number: CN112990096B
Application number: CN202110391966.2A
Authority: CN
Inventors: 徐新明; 柴惠芳
Original assignee: Hangzhou Jinxianlian Technology Co ltd
Current assignee: Hangzhou Jinxianlian Technology Co ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-08-27
Anticipated expiration: 2041-04-13
Also published as: CN112990096A

Abstract

一种基于OCR与人脸检测融合的身份证信息录用方法，属于图像处理领域。方法应用于线上录用系统，其包括：步骤S01，接收身份证图像；步骤S02，采用深度卷积神经网络算法，对身份证图像进行人脸识别和人脸特征点检测，获取人脸检测概率、人脸信息和人脸方向信息，并对身份证图像进行水平放置校正；步骤S03，获取疑似身份证区域图像，根据图像相似度准则验证该图像，验证通过后，执行步骤S04；步骤S04，利用OCR技术识别身份证区域图像，提取身份信息并获取身份信息识别概率；步骤S05，基于人脸检测概率和身份信息识别概率，获取身份证信息录入概率；当身份证信息录入概率大于录入阈值概率时，录入身份证，否则，返回步骤S01。本发明提高了身份证信息录入效率。

Description

一种基于OCR与人脸检测融合的身份证信息录用方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于OCR与人脸检测融合的身份证信息录用方法。

背景技术

随着互联网的发展，越来越多的互联网公司都推出了自己的APP。为了防止用户非正确的输入自己的身份证信息引起后续可能的问题，很多公司要求上传证件身份证照片，但后期需要工作人员手动输入身份证号码和姓名，身份证信息录入效率低。

为了提高获取上传的身份证照片的文字信息以及人脸信息的速度，现有技术通过直接采用OCR识别技术和人脸检测技术，提取身份证信息和人脸信息。但现有技术较少考虑复杂拍摄环境，如身份证存在较大的倾斜，光照不均匀情况，则最终无法有效获得准确的身份证照片的文字信息以及人脸信息。

发明专利申请CN201811512266.9公开了一种基于OCR与人脸识别技术的身份证扫描录入方法，并具体公开了方法包括如下步骤：(1)创建身份证扫描类，导入媒体库和OCR静态库；(2)对扫描区域初始化，并添加预览图层，以及自定义的扫描界面；(3)设置人脸扫描区域；(4)从扫描输出的元数据中捕捉包含有人脸的帧图像；(5)将捕获的包含有人脸的帧图像转化成图片；调用媒体库和OCR静态库根据该图片进行身份证信息识别，识别出身份证号、姓名、性别、民族、地址、头像。该发明并未考虑复杂拍摄环境，使得最终无法有效获得准确的身份证照片的文字信息以及人脸信息。

发明专利申请CN202010484080.8公开了一种基于OCR技术的复杂场景下身份证识别方法，并具体公开了方法包括：S1、基于SIFT算法的对身份证的特征点识别，确定现实场景中身份证的位置坐标；S2、基于获取的身份证位置坐标，对现实场景中身份证的目标区域进行定位检测，并确定待识别文字区域；S3、提取待识别文字区域内的文字信息；S4、对提取的文字信息进行校正，获得准确的身份证信息，完成身份证识别。本发明方法解决了在复杂环境如光线较暗、过度曝光、拍摄模糊等情况下身份证的定位和识别问题；通过对识别结果增加字符最小距离校正算法，显著提高识别准确度，且具有一定的结果纠错功能，使识别结果更为可靠。该发明利用OCR技术进行身份识别，未对人脸信息进行捕捉，录入身份证图片存在欠缺。

发明内容

本发明针对现有技术存在的问题，提出了一种基于OCR与人脸检测融合的身份证信息录用方法，解决了身份证图像上传过程中因光照、抖动等因素造成身份证倾斜、模糊的问题，提高了身份信息和人脸的录入效率。

本发明是通过以下技术方案得以实现的：

一种基于OCR与人脸检测融合的身份证信息录用方法，应用于线上录用系统，包括：

步骤S01，接收身份证图像；

步骤S02，采用深度卷积神经网络算法，对身份证图像进行人脸识别和人脸特征点检测，进而获取人脸检测概率、人脸信息和人脸方向信息；基于人脸信息和人脸方向信息，对身份证图像进行水平放置校正；

步骤S03，获取身份证图像中的疑似身份证区域图像，根据图像相似度准则验证所述疑似身份证区域图像，验证通过后，执行步骤S04；

步骤S04，利用OCR技术识别身份证图像中身份证区域图像，提取身份信息并获取身份信息识别概率；

步骤S05，基于人脸检测概率和身份信息识别概率，获取身份证信息录入概率；当身份证信息录入概率大于录入阈值概率时，录入身份证，否则，返回步骤S01。

本发明对身份证图像进行人脸识别和字符识别，继而获得准确的身份证信息（包括人脸信息和身份信息）。本发明的身份证区域识别，是基于人脸识别后进行水平位置调整，以减少字符提取、识别难度，大大提高系统识别、录入效率。

作为优选，步骤S01中的身份证图像由智能客户端处的图像传感器采集。

作为优选，所述步骤S02具体包括：

步骤S21，采用深度卷积神经网络算法，对身份证图像进行人脸识别和人脸特征点检测，获取身份证图像中的人脸区域图像、若干人脸特征点和人脸检测概率

；

步骤S22，基于若干人脸特征点

，构建图像坐标和世界坐标的关系函数；

其中，每个特征点坐标为

，R、T矩阵分别为头部的旋转和平移矩阵；(xwi,ywi, zwi)是三维世界坐标系中目标点

的三维坐标，该点是依据标准正脸时候的三维坐标标记；

为修正系数，

、

为图像传感器水平和垂直方向的图像传感器芯片上像素的实际大小，

为焦距，

为图像中心点坐标；

根据RANSAC算法拟合获得透射投影变换矩阵（R,T）；

步骤S23，根据透射投影变换矩阵（R,T），对身份证图像进行校正，获得水平放置的身份证图像。

作为优选，所述步骤S21中人脸检测概率

获得过程如下：

获取人脸检测过程中的系统检测概率

；

当系统检测概率

≤人脸阈值概率时，则

=0；当系统检测概率

＞人脸阈值概率时，则

=

。

作为优选，所述步骤S03具体包括：

步骤S31，根据身份证区域和身份证图像中人脸的位置关系，获取身份证图像中的疑似身份证区域图像；

步骤S32，根据图像相似度准则验证所述疑似身份证区域图像，验证通过后，执行步骤S04。

作为优选，所述步骤S32具体包括：

将疑似身份证区域图像假定为待匹配图

，并将标准身份证区域图像假定为模板图T；

计算归一化积相关值，

其中，

表示模板图

在

和

坐标点的灰度值，

表示待匹配图

在

和

坐标点的灰度值，

和

表示模板图

在待匹配图

上滑动的位移坐标；

为归一化积相关值；

判断计算获得的归一化积相关值大于相似度阈值时，则确认疑似身份证区域图像为身份证区域图像。

作为优选，所述步骤S04具体包括：

步骤S41，对身份证区域图像进行字符分割，获取身份证区域图像中的每个字符；

步骤S42，采用深度卷积神经网络算法对分割好的字符进行识别，获取每个字符的第一字符识别概率

，其中

、

为对应的第

行和第

列的值；

步骤S43，提取身份证区域图像中固定字段后的字符，获取第二字符识别概率

；

所述身份信息识别概率包括第一字符识别概率和第二字符识别概率。

作为优选，所述步骤S04还包括：步骤S40，对身份证区域图像进行图像二值化、图像滤波处理，对处理后的身份证区域图像进行步骤S41的字符分割步骤。

作为优选，所述步骤S05具体包括：

步骤S51，基于人脸检测概率

和身份信息识别概率，获取身份证信息录入概率

；

步骤S52，判断身份证信息录入概率大于录入阈值概率时，录入身份证，否则，返回步骤S01。

作为优选，步骤S52还包括，当判断身份证信息录入概率等于0时，返回步骤S01；当判断身份证信息录入概率大于0且小于等于录入阈值概率时，重新检测身份证区域图像中的字符。

本发明具有以下有益效果：

一种基于OCR与人脸检测融合的身份证信息录用方法，解决了用户上传身份证照时由于光照、抖动等因素造成身份证倾斜、模糊的问题，有效提高了身份证信息录用效率。

附图说明

图1为本发明一种基于OCR与人脸检测融合的身份证信息录用方法的流程图；

图2为采用本发明方法的示例框图；

图3为深度卷积神经网络（MTCNN网络）的结构图；

图4为字符识别网络的结构图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1，本发明一种基于OCR与人脸检测融合的身份证信息录用方法，应用于线上录用系统，包括：

步骤S01，接收身份证图像；

图2示出了采用本发明方法的示例框图，清楚看到本发明身份证录入包含身份信息、人脸信息两方面内容。并且，身份信息方面的录入涉及身份证区域位置校准问题，则本发明依赖人脸信息来调整身份证区域位置。例如，在步骤S02中，对整个身份证图像进行水平放置校正；又例如，仅对身份证区域进行水平位置校正。

在步骤S01中，身份证图像由智能客户端处的图像传感器采集，如手机相机、电脑相机等图像传感器通过拍摄身份证照片的方式采集。采集到的身份证图像被上传至信息录用系统。之后，信息路由系统对上传的身份证图像进行步骤S02~S05的处理、录入。

所述步骤S02利用深度卷积神经网络算法（MTCNN网络）对身份证图像中的人脸识别、检测。如图3，MTCNN网络由 3 个卷积神经网络P-Net （Proposal Network）、R-Net（Refine Network）和 O-Net（Output Network）分布式组合而成。采用MTCNN网络对图像进行人脸检测和人脸特征点提取，获取人脸信息和人脸方向信息，对图像进行校正。

P-Net ：对输入的图像 Image 进行金字塔化处理后再输入到P-Net 网络中用来生成人脸的候选边框，并利用非极大化抑制算法NMS校准边框，以去除多余的边框，再进行分类和定位。

R-Net ：将P-Net 得出的候选框对应到原图Image上进行截取，并将截取的图像作为R-Net 的输入。该部分是全卷积网络层，主要对P-Net 得出的图像进行更加细节化的微处理，以过滤重复且不符合要求的候选框，再利用NMS做候选框合并处理。

O-Net：O-Net 网络和R-Net 网络的处理方法一致。将上一层的输出候选框的人脸区域作为 O-Net 的输入，最终得到人脸候选边框以及人脸的相应特征点位置。

所述步骤S02具体包括：

；所述特征点个数可根据看清人脸姿态的前提下选取，例如，可选5个。

步骤S22，基于若干人脸特征点

，构建图像坐标和世界坐标的关系函数；

其中，每个特征点坐标为

的三维坐标，该点是依据标准正脸时候的三维坐标标记；

为修正系数，

、

为焦距，

为图像中心点坐标；

根据RANSAC算法拟合获得透射投影变换矩阵（R,T）；

其中，所述步骤S21中人脸检测概率

获得过程如下：获取人脸检测过程中的系统检测概率

；当系统检测概率

≤人脸阈值概率时，则

=0；当系统检测概率

＞人脸阈值概率时，则

=

。所述人脸阈值概率为0.7~0.8，例如，人脸阈值概率为0.8，当

≤0.8时，

=0 ；当

＞0.8时，

=

。

所述检测概率

是基于深度卷积神经网络算法获得的检测结果换算得到,一般采用卷积神经网络最后输出全连接层的向量为

，经

，后采用SoftMax层得到检测概率

。其中

和权重系统

都为n*1的向量。所述人脸检测概率

是基于系统检测概率与人脸阈值概率之间的关系确定的，当系统检测概率大于人脸阈值概率时，则确定该系统识别出人脸的概率较精准，即将人脸检测概率确定为系统检测概率，而当系统检测概率小于人脸阈值概率时，则确定该系统识别出人脸的概率不够精准，即不符合系统识别要求，则人脸检测概率确定为0，需要重新采集人脸数据。

所述步骤S03具体包括：

在步骤S31中，身份证区域和身份证图像中人脸的位置关系，根据现有身份证格式所确定的固定位置关系。例如，目前公安局签发的身份证左侧区域以及下方区域为身份证区域（即包含文字信息和数字信息的身份证内容），而身份证右侧区域为人脸设置区域。

其中，所述步骤S32具体包括：

将疑似身份证区域图像假定为待匹配图

，并将标准身份证区域图像假定为模板图T；

计算归一化积相关值，

其中，

表示模板图

在

和

坐标点的灰度值，

表示待匹配图

在

和

坐标点的灰度值，

和

表示模板图

在待匹配图

上滑动的位移坐标；

为归一化积相关值；

判断计算获得的归一化积相关值大于相似度阈值时，则确认疑似身份证区域图像为身份证区域图像。具体地，

和

的每次位移对应着一个

，获取最大的

，当

＞

时，此时对应的起点坐标点

和

，长宽为待匹配图像的长宽，即为身份证区域图像，其中

为相似度阈值，可以为0.6。

当判断计算获得的归一化积相关不大于相似阈值时，则确认疑似身份证区域图像不是身份证区域图像，即识别不准确，验证不通过，返回步骤S01，重新进行身份证图像采集、检测。

所述步骤S04具体包括：

字符分割是字符识别网络的输入为单个字符的图像，所以在识别前需将字符区域分割成单个字符的形式。字符分割采用水平方向和垂直方向投影的方式进行字符分割。

，其中

、

为对应的第

行和第

列的值；

采用深度卷积神经网络算法对分割好的字符进行识别，识别每个字符，对识别存在特殊字符，如标点符号，进行删除，按照识别的字符一行一行地排列，并且获取每个字符的概率

。具体地，一般采用卷积神经网络最后输出全连接层的向量为

，经

，其中

为第几个字符（在人脸检测时，因只检测人脸，k为1），

为

维向量，如“出”代表

=4，“住”代表

=6，后采用SoftMax层得到字符识别概率

，其中

和权重系统

都为n*1的向量。获取

的最大值

，对应的字符序号为

，即为该识别字符的概率

以及识别到的字符。

；

提取“姓名”、“性别”、“住址”、“公民身份号码”等身份证中固定字段的后面字符，如果存在这些字符，则概率为

=1，否则概率

=0，接着等待确认是否录入系统。

为了减少字符识别的数据量并提高识别效率，所述步骤S04还包括：步骤S40，对身份证区域图像进行图像二值化、图像滤波处理，对处理后的身份证区域图像进行步骤S41的字符分割步骤。

所述图像二值化是指将图像中各像素点的灰度值设置为255或者0的过程。图像经过二值化处理后可以更加凸显其轮廓特征，最大限度地突出图像中的感兴趣区域，分离出冗余的背景信息，并减少图像的数据量。

所述图像滤波是二值化后的字符图像存在噪声，影响图像的处理效果和识别精度。经过滤波可以滤除其中的噪声，使图像的信噪比提升，降低噪声对图像的负面影响，本文图像滤波采用中值滤波。

图4示出了本发明进行字符识别的示例网络结构图。本文进行字符识别的CNN共有7层结构，输入图像尺寸为32×32，首先进入C1卷积层，有6个大小为5×5的卷积核，不使用0填充，步长为1，可得到6个28X 28的特征图。

S2是池化层，该层输入为上一层的输出。进行最大池化操作，有6个大小为2×2的池化窗口，步长为2，得到6个14×14的输出特征图。

C3为卷积层，有16个大小为5X5的卷积核，得到16个10×10的特征图。

S4是池化层，同样进行最大池化操作，有16个大小为2×2的池化窗口，得到16个5X5的特征图。

C5为卷积层，有120个大小为5X5的卷积核，每一个卷积核与输入特征图都是两两相连，得到120个1×l的特征图。

F6为全连接层，含84个节点。

最后输出层会输出一个10维的向量。

所述步骤S05具体包括：

步骤S51，基于人脸检测概率

和身份信息识别概率，获取身份证信息录入概率

；

步骤S52，判断身份证信息录入概率大于录入阈值概率时，录入身份证，否则，返回步骤S01。当身份证信息录入概率大于录入阈值概率时，则身份证信息可被录入，即直接在系统内记录识别的字符信息。当不大于录入阈值概率时，则需要重新录入，即返回步骤S01，重新接收新的身份证图像。系统发出重新录入身份信息的通知，智能客户端重新拍摄身份证上传。

另外，所述步骤S52还包括，当判断身份证信息录入概率等于0时，返回步骤S01；当判断身份证信息录入概率大于0且小于等于录入阈值概率时，重新检测身份证区域图像中的字符。也就是说，在身份证信息录入概率等于0的情况下，进行重新录入。而对于身份证信息录入概率较低的情况，则仅对身份证区域图像中的字符进行重新识别检测，例如，可由人工后台识别录入，或者，再次利用OCR技术或其他字符识别技术对身份证区域图像中的字符进行自动化识别。

所述录入阈值概率可根据需要设定，如录入阈值概率为0.8时，当

＞0.8 时，系统可以直接录入身份证数据；当0＜

≤0.8 时，需要人工检测第

行和第

列的字符；当

=0 时需要重新录入身份信息。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。