CN112949523A

CN112949523A - 从身份证影像图片中提取关键信息的方法与系统

Info

Publication number: CN112949523A
Application number: CN202110266439.9A
Authority: CN
Inventors: 陈俊奇; 张建; 陈章辉; 尤毅; 齐轶; 邵修齐; 丁益斌; 杨静
Original assignee: Industrial Bank Co Ltd
Current assignee: Industrial Bank Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-11

Abstract

本发明提供了一种从身份证影像图片中提取关键信息的方法与系统，包括：通过识别得到身份证图片，通过人脸检测模型、国徽检测模型检测身份证图片获取身份证正反面截图，对去除底纹后的截图进行文本框识别，得到文本框截图，对文本框截图进行文字识别，对识别结果进行校准，得到最终识别结果。通过采用多模型串联处理的结构，解决了各类图片质量条件下的身份证图片信息提取的问题；通过旋转识别解决了偏斜、倒置图像无法识别的问题。通过利用身份证号自身的校验规则结合多个机器学习模型共同识别，解决了身份证号训练数据标注的问题。通过使用图像形态学配合CTPN模型，解决了在文本框识别过程中CTPN模型训练集数据标注的问题。

Description

从身份证影像图片中提取关键信息的方法与系统

技术领域

本发明涉及图像处理技术领域，具体地，涉及一种从身份证影像图片中提取关键信息的方法与系统。

背景技术

专利文献CN109145891A公开了一种客户端及其识别身份证的方法、识别身份证的系统。客户端识别身份证的方法包括：实时接收身份证图像；根据第一预设集合对第一区域进行识别；第一预设集合存储于客户端中，且包含用于表征每位身份证号码的图片，第一区域为位于身份证图像的预设位置的区域；若成功识别出身份证号码，则根据预设位置确定身份证图像中的待识别区域；将与待识别区域相关的信息发送至服务端，服务端用于根据接收的信息识别待识别区域中的内容。

现有的身份证识别方法的缺陷主要有以下三点：

一、现有的身份证图片信息提取方法中主要针对身份证实物进行影像拍摄与识别，对图片清晰度要求高，且无法解决图片旋转倒置时的识别问题，适用场景有限。

二、目前使用机器学习进行图片文本识别的传统技术需进行大量训练样本的标注，大部分工作需要通过人工手动标注实现。

三、现有的身份证图片信息提取方法缺少信息校正功能，未能对提取的身份证图片上的各类信息进行进一步校正以提高识别的准确率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种从身份证影像图片中提取关键信息的方法与系统。

根据本发明提供的一种从身份证影像图片中提取关键信息的方法，包括：

图片识别步骤：通过卷积神经网络对图片进行分类，识别得到身份证图片；

人脸检测步骤：通过人脸检测模型检测身份证图片，得到头像面的身份证图片，并对头像面的身份证图片进行旋转，直至匹配出正向头像，获取头像的位置坐标并基于头像的位置坐标获取身份证头像面截图；

国徽检测步骤：通过国徽检测模型检测身份证图片，得到国徽面的身份证图片，并对国徽面的身份证图片进行旋转，直至匹配出正向国徽，获取国徽的位置坐标并基于国徽的位置坐标获取身份证国徽面截图；

底纹去除步骤：对身份证头像面截图和身份证国徽面截图进行去除底纹；

文本框检测步骤：对去除底纹后的身份证头像面截图和身份证国徽面截图进行文本框识别，得到文本框截图；

文字识别步骤：对文本框截图进行文字识别，得到识别结果，对识别结果进行校准，得到最终识别结果。

优选地，所述底纹去除步骤包括：

构建对抗神经网络模型，采用对抗神经网络模型中的生成网络生成无底纹图像，并采用对抗神经网络模型中的辨别网络参照真实无底纹图像来分辨生成的无底纹图像与真实无底纹图像。

优选地，所述文本框检测步骤包括使用预训练的CTPN模型进行文本框检测，并对检测有误的文本框截图进行标注，包括：

获取文本框截图有误的文本框截图；

通过图像形态学中的膨胀腐蚀操作处理文本框截图，使相距相近的文字合并成为一个区域；

对得到的区域进行筛选，过滤掉面积小于预设值的区域；

使用矩形框来框定过得到的区域，得到文本框的位置坐标；

由得到的文本框的位置坐标组成训练集，对CTPN模型进行训练。

优选地，还包括身份证号信息校正步骤：

使用n个基于不同训练集和基础网络的CRNN识别文本框截图，得到n个身份证号的识别结果；

将n个识别结果中的7至14位根据出生日期合法性进行初步纠正；

若n个识别结果中的一个识别结果能通过身份证号校验规则，则作为最终识别结果；若n个识别结果均无法通过身份证号校验规则，则统计n个识别结果中各个位置得到的识别数字，以各位置出现次数最多的数字作为对应位置的识别数字进行组合得到组合结果，若组合结果能通过身份证号校验规则，则作为最终识别结果；

将通过身份证号校验规则的文本框截图和最终识别结果作为训练集，重新训练所述的n个CRNN。

优选地，还包括身份证地址信息校正步骤：

获取全国地址数据库数据；

以省份为地址树的第一个节点，分别取对应候选待匹配省份长度的地址结果，与待匹配省份进行文字视觉差异性度量，寻找差异性最低的省份，记录差异性；

在子树中继续匹配，直到叶子节点；

回溯得到整条路径，以各节点的平均差异性最低的路径作为最终识别结果；

基于最终识别结果的路径前三个节点，得到对应的发证机关信息；

所述视觉差异性度量包括：

将每个汉字生成笔画序列，比较两个汉字之间的笔画序列，若一个汉字需要改变m个笔画得到另一个汉字的笔画序列，那么这两个汉字的差异性为m。

根据本发明提供的一种端到端的从身份证影像图片中提取关键信息的系统，包括：

图片识别模块：通过卷积神经网络对图片进行分类，识别得到身份证图片，剔除非身份证图片；

人脸检测模块：通过人脸检测模型检测身份证图片，得到头像面的身份证图片，并对头像面的身份证图片进行旋转，直至匹配出正向头像，获取头像的位置坐标并基于头像的位置坐标获取身份证头像面截图；

国徽检测模块：通过国徽检测模型检测身份证图片，得到国徽面的身份证图片，并对国徽面的身份证图片进行旋转，直至匹配出正向国徽，获取国徽的位置坐标并基于国徽的位置坐标获取身份证国徽面截图；

底纹去除模块：对身份证头像面截图和身份证国徽面截图进行去除底纹；

文本框检测模块：对去除底纹后的身份证头像面截图和身份证国徽面截图进行文本框识别，得到文本框截图；

文字识别模块：对文本框截图进行文字识别，得到识别结果，对识别结果进行校准，得到最终识别结果。

优选地，所述底纹去除模块包括：

优选地，所述文本框检测模块包括使用预训练的CTPN模型进行文本框检测，并对检测有误的文本框截图进行标注，包括：

获取文本框截图有误的文本框截图；

对得到的区域进行筛选，过滤掉面积小于预设值的区域；

使用矩形框来框定过得到的区域，得到文本框的位置坐标；

优选地，还包括身份证号信息校正模块：

优选地，还包括身份证地址信息校正模块：

获取全国地址数据库数据；

在子树中继续匹配，直到叶子节点；

所述视觉差异性度量包括：

与现有技术相比，本发明具有如下的有益效果：

(1)通过采用多模型串联处理的结构，解决了各类图片质量条件下的身份证图片信息提取的问题；通过旋转识别解决了偏斜、倒置图像无法识别的问题。

(2)通过采用多个预训练CRNN模型识别身份证号，并进行交叉验证，选取各位置置信程度最高的数字作为身份证号的预测结果，并利用通过身份证号校验的图片对CRNN模型进行多轮学习，解决了无监督机器学习中身份证号图片数据标注的问题，并提升了识别准确率。

(3)通过采用图像形态学方式对CTPN识别错误的图片进行框定，并标注文本框位置，解决了CTPN模型学习数据标注的问题，并提高了CTPN的识别准确率。

(4)通过采用文字视觉差异性指标，对文字差异性进行度量，提升了CRNN模型识别文字图像的准确率。

(5)通过采用对抗神经网络模型，解决了身份证底纹对文本检测识别的干扰问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的工作流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本实施例提供的一种从身份证影像图片中提取关键信息的方法，包括：

步骤1、从一系列图片中识别出身份证影像图片。方法：通过卷积神经网络对一系列身份证影像文件进行学习，训练出模型后对图片进行分类，识别出身份证图片(包括身份证正反面)

步骤2、训练人脸检测模型，通过人脸检测模型发现身份证正面人像并基于此将身份证正面旋转摆正，并截取出身份证正面区域图片。方法：不断将图片旋转90度，并使用人脸检测模型进行检测直到图片匹配出正向头像，获取头像位置坐标，基于头像在身份证上正面相对位置，获取整个身份证正面区域截图。

步骤3、训练国徽检测模型，通过国徽检测模型发现身份证反面国徽并基于此将身份证反面旋转摆正，并截取出身份证反面区域图片。方法：不断将图片旋转90度，并使用国徽检测模型进行检测直到图片匹配出正向国徽，获取国徽位置坐标，基于国徽在身份证反面上相对位置，获取整个身份证反面区域截图。

步骤4、身份证正反面截图底纹去除

在该环节构建对抗神经网络(GAN)模型，用于去除身份证底纹。让生成网络生成无底纹图像，并让辨别网络参照真实无底纹图像来分辨生成图像与真实图像，提高生成图像的质量。使用训练得到的模型用于身份证底纹去除。

步骤5、检测图片中文本框区域

在该环节使用预训练的CTPN模型进行文本框获取，但CTPN对于倾斜的图片效果不佳，因此我们使用图像形态学操作方法对CTPN识别有误的图片进行标注，具体方法如下:

5.1、获取CTPN在检测图片文本框环节有误的图片。

5.2、由于身份证图片中文字区域与其余区域的图片背景不同，通过图像形态学中的膨胀腐蚀操作处理图片，使相距较近的文字合并成为一个大区域。

5.3、对5.2得到的区域进行筛选，过滤掉面积过小的区域。

5.4、使用合适的矩形框去框定5.2,5.3得到的大区域，得到身份证图片中各个文本框的位置坐标。

5.5、由5.4得到的各文本框的位置坐标，组成训练集，对已有的CTPN模型进行训练，以提升准确性。

步骤6、对于步骤5得到的文本框区域所截取的图片，使用CRNN模型识别图片中的文字信息。

步骤7、对步骤5得到的身份证号信息进行校正，提升识别结果的准确性

7.1、使用n个基于不同训练集和基础网络的crnn识别身份证区域图像，得到识别结果a1,a2,..

7.2、先将识别结果a1,a2...中的7至14位根据出生日期合法性进行初步纠正。

7.3、若其中一个结果能通过身份证号校验规则，则作为识别结果。

7.4、若均无法通过18位身份证号校验规则，则比较a1,a2...对应位置得到的识别数字，以出现次数最多的数字作为该位置的识别结果A。若A能通过身份证号校验规则，则作为识别结果。

7.5、对于7.3和7.4中通过身份证号校验的图片，作为训练集，重新训练6.1中的n个crnn模型，多轮迭代提升crnn的识别准确率。

步骤8、对步骤6得到的身份证地址信息进行校正，提升识别结果的准确性

由于身份证图片中的住址区域进行文本识别得到的结果较长，识别错误的概率较大，为提升识别准确性，采用如下方法：

8.1、获取全国地址库数据。

8.2、由于住址信息由省，市，区，镇，村五级构成具有结果性质序列，若住址中出现部分字符错误，可以根据上下级关系进行校正。

(1)、以省份为地址树的第一个节点，分别取对应候选待匹配省份长度的地址结果，与待匹配省份进行文字视觉差异性度量，寻找差异性最低的省份，记录差异性。

(2)、在子树中继续上述匹配过程，直到叶子节点。

(3)、回溯得到整条路径，以各节点的平均差异性最低的路径作为最终结果

8.3、基于路径前三个节点，得到对应的发证机关信息。

步骤8补充、关于文字视觉差异性的补充说明

由于crnn文字识别过程中识别错误的文字具有较高的文字图像相似性(例如王与玉，拨与拔)，因此使用文字视觉差异性来衡量上述步骤中的差异性，两个汉字的文字视觉差异性方法如下：

(1)、将每个汉字生成笔画序列。

(2)、比较A与B两个汉字的笔画序列(字符串)，如果A的序列中需要改变n个笔画得到B序列。那么A，B的差异性为n。

需要说明的是：步骤2、3不存在先后关系，可并行操作，步骤7、8不存在先后关系可并行操作。该项修改对模型结果不产生影响，仅优化处理过程。

本发明还提供一种从身份证影像图片中提取关键信息的系统，包括：

图片识别模块：通过卷积神经网络对图片进行分类，识别得到身份证图片。

人脸检测模块：通过人脸检测模型检测身份证图片，得到头像面的身份证图片，并对头像面的身份证图片进行旋转，直至匹配出正向头像，获取头像的位置坐标并基于头像的位置坐标获取身份证头像面截图。

国徽检测模块：通过国徽检测模型检测身份证图片，得到国徽面的身份证图片，并对国徽面的身份证图片进行旋转，直至匹配出正向国徽，获取国徽的位置坐标并基于国徽的位置坐标获取身份证国徽面截图。

底纹去除模块：对身份证头像面截图和身份证国徽面截图进行去除底纹。

文本框检测模块：对去除底纹后的身份证头像面截图和身份证国徽面截图进行文本框识别，得到文本框截图。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种从身份证影像图片中提取关键信息的方法，其特征在于，包括：

2.根据权利要求1所述的从身份证影像图片中提取关键信息的方法，其特征在于，所述底纹去除步骤包括：

3.根据权利要求1所述的从身份证影像图片中提取关键信息的方法，其特征在于，所述文本框检测步骤包括使用预训练的CTPN模型进行文本框检测，并对检测有误的文本框截图进行标注，包括：

获取文本框截图有误的文本框截图；

对得到的区域进行筛选，过滤掉面积小于预设值的区域；

使用矩形框来框定过得到的区域，得到文本框的位置坐标；

4.根据权利要求1所述的从身份证影像图片中提取关键信息的方法，其特征在于，还包括身份证号信息校正步骤：

将通过身份证号校验规则的文本框截图和最终识别结果作为训练集，重新训练所述的n个CRNN，并进行多轮迭代。

5.根据权利要求1所述的从身份证影像图片中提取关键信息的方法，其特征在于，还包括身份证地址信息校正步骤：

获取全国地址数据库数据；

在子树中继续匹配，直到叶子节点；

所述视觉差异性度量包括：

6.一种从身份证影像图片中提取关键信息的系统，其特征在于，包括：

图片识别模块：通过卷积神经网络对图片进行分类，识别得到身份证图片；

7.根据权利要求6所述的从身份证影像图片中提取关键信息的系统，其特征在于，所述底纹去除模块包括：

8.根据权利要求6所述的从身份证影像图片中提取关键信息的系统，其特征在于，所述文本框检测模块包括使用预训练的CTPN模型进行文本框检测，并对检测有误的文本框截图进行标注，包括：

获取文本框截图有误的文本框截图；

对得到的区域进行筛选，过滤掉面积小于预设值的区域；

使用矩形框来框定过得到的区域，得到文本框的位置坐标；

9.根据权利要求6所述的从身份证影像图片中提取关键信息的系统，其特征在于，还包括身份证号信息校正模块：

10.根据权利要求6所述的从身份证影像图片中提取关键信息的系统，其特征在于，还包括身份证地址信息校正模块：

获取全国地址数据库数据；

在子树中继续匹配，直到叶子节点；

所述视觉差异性度量包括：