CN115171138A

CN115171138A - 一种身份证图片文本检测方法、系统及设备

Info

Publication number: CN115171138A
Application number: CN202210533844.7A
Authority: CN
Inventors: 陈从颜; 金明; 屠笑生
Original assignee: Junling Medical Information Technology Shanghai Co ltd
Current assignee: Junling Medical Information Technology Shanghai Co ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-10-11

Abstract

本发明公开了一种身份证图片文本检测方法、系统及设备，其中方法步骤包括：预处理使得身份证正反面图片为正向且边界呈横平竖直状态；在判断有水印时进行去除水印处理；对关键字进行处理获得关键文本行图片；通过CRNN网络获得关键文字识别结果；根据身份证各个元素标准进行文本纠正。该身份证图片文本检测方法、系统及设备利用对身份证正反面图片进行预处理，使得身份证正反面图片为正向且边界呈横平竖直状态从而便于实现后续步骤的去水印以及关键文本行图片获取；利用CRNN网络实现了对复杂条件下身份证图片文本信息的识别，能够准确的检测图片上的文本信息，同时将身份证图片的检测对象标准从高清晰度降低到可以识别模糊身份证图片。

Description

一种身份证图片文本检测方法、系统及设备

技术领域

本发明涉及一种文本检测方法，尤其是一种身份证图片文本检测方法、系统及设备。

背景技术

随着网络技术的快速发展，有些应用程序需要进行实名认证，例如在医疗行业的应用程序上尤其需要进行实名认证，而且在用户进行实名认证时要求用户上传身份证照片，具体包括身份证正面照片以及身份证反面照片。因此需要判别身份证的正反面以及识别身份证上的文字内容，而识别的准确性和识别速度直接影响着应用程序后处理的逻辑可靠性和用于体验感。

目前已有的身份证识别方法包括传统方法和深度学习方法，传统方法一般需要通过插值去模糊、离散余弦变换去噪、纹理阈值分割、截取文本区域和文本识别等步骤；深度学习方法一般需要经过图片预处理、文本检测、截取文本区域、文本识别和文本校正等步骤。传统方法定位文本的精度较低，无法准确识别复杂环境下的身份证图片内容，深度学习方法使用文本检测方法速度慢，增加了应用程序处理的时间，用户体验较差。因此有必要设计出一种身份证图片文本检测方法、系统及设备，能够对一组正反面的身份证图片同时进行高效、准确地检测、定位和识别。

发明内容

发明目的：提供一种身份证图片文本检测方法、系统及设备，能够对一组正反面的身份证图片同时进行高效、准确地检测、定位和识别，实现了不同清晰度或者不同水印大小的身份证图片的文本信息的准确识别。

技术方案：本发明所述的身份证图片文本检测方法，包括如下步骤：

步骤1，获取身份证正反面图片，并对身份证正反面图片进行预处理，使得身份证正反面图片为正向且边界呈横平竖直状态；

步骤2，判断预处理后的身份证正反面图片是否有水印，并在判断有水印时进行去除水印处理；

步骤3，对去除水印后的身份证正反面图片中的关键字进行裁剪拼接处理，获得关键文本行图片；

步骤4，通过CRNN网络对关键文本行图片进行关键文字识别，获得关键文字识别结果；

步骤5，根据身份证各个元素标准对获得的关键文字识别结果进行文本纠正，输出纠正后的关键文字信息。

作为本发明检测方法的进一步限定方案，步骤1中，对身份证正反面图片进行预处理的具体步骤为：

步骤1.1，对身份证正反面图片进行切分，将身份证正反面图片从原始图像中分离出来，再对分离出来的身份证正反面图片进行图像滤波处理，获得预处理后的身份证正反面图片；

步骤1.2，判断身份证正反面图片上的文字方向，再根据分离出来的身份证正反面图片上的文字方向对身份证正反面图片进行旋转，使得身份证正反面图片保持正向。

作为本发明检测方法的进一步限定方案，步骤1.1中，对分离出来的身份证正反面图片进行图像滤波处理的具体步骤为：

首先将分离出来的身份证正反面图片转化为灰度图，并对灰度图进行锐化滤波处理；

然后利用Sobel算子求取锐化滤波处理后的灰度图的梯度，再进行二值化处理以及腐蚀膨胀处理，再利用面积滤波算法滤除干扰，得到身份证正反面图片区域；

最后求取身份证正反面图片区域的最小外接矩形，计算短形边与水平线的夹角，并根据最小外接矩形以及与水平线的夹角进行变换，使身份证正反面图片的边界呈横平竖直状态。

作为本发明检测方法的进一步限定方案，步骤2中，进行去除水印处理的具体步骤为：

步骤2.1，通过水印模板匹配的方法定位出身份证正反面图片中的水印位置；

步骤2.2，裁剪出带水印的局部图像，在将裁剪出的局部图像输入到去水印训练后的对抗生成网络模型中，由对抗生成网络模型的生成器合成去除水印之后的局部图像，由对抗生成网络模型的判别器对合成的局部图像以及真实不带水印图像进行比较判断，通过对抗生成网络模型的生成器与判别器的对抗获得去水印的局部图像；

步骤2.3，再将去水印后的局部图像复位到身份证正反面图片中的裁剪位置处。

作为本发明检测方法的进一步限定方案，步骤2.2中，对抗生成网络模型在进行去水印训练时，具体步骤为：

首先利用水印平移的方法对训练数据集进行扩充，训练数据集中的每种水印均生成两种仿真数据：

一种仿真数据的生成方法为：从训练数据集中选取出水印在空白处的训练图片，再将水印平移到对应训练图片上的其他位置处，并在平移的过程中随机改变水印的透明度生成一个新训练图片，再由各个新训练图片对应替换选取出的训练图片构成第一训练数据集；

另一种仿真数据的生成方法为：从训练数据集中选取出水印在空白处的训练图片，再将水印平移到仿真的身份证图片上，并在平移的过程中随机改变水印的透明度以及身份证图片的亮度、对比度和模糊度生成一个新训练图片，再由各个新训练图片对应替换选取出的训练图片构成第二训练数据集；

再利用第一训练数据集对对抗生成网络模型进行首轮去水印训练，再利用第二训练数据集对首轮去水印训练后的对抗生成网络模型进行第二轮去水印训练。

作为本发明检测方法的进一步限定方案，步骤3中，解析获得关键文本行图片的具体步骤为：

步骤3.1，对文本进行定位，将身份证正面图片左上角的“姓”字样作为正面参考点，通过模板匹配的方法获取正面参考点的像素位置，再通过相对位置关系定位到身份证正面图片中其他所有元素相对于正面参考点的像素位置；再将身份证反面图片左上角的“中”字样作为反面参考点，通过模板匹配的方法获取反面参考点的像素位置，再通过相对位置关系定位到身份证正面图片中其他所有元素相对于反面参考点的像素位置；

步骤3.2，按照固定的最大文本尺寸从获取的各个像素位置处进行文本图片提取，再修改“地址”以及“签发机关”两种元素的尺寸，通过等比例横截出各个元素，再将横截出的各个元素依次水平拼接在一起，从而将多行文本拼接成—行排列的拼接图片；

步骤3.3，通过对拼接图片进行腐蚀膨胀提取连通域的方法，去除拼接后残留的空白区域构成关键文本行图片。

作为本发明检测方法的进一步限定方案，步骤4中，CRNN网络自下而上由卷积层、循环层以及转录层三层组成，卷积层用于从输入的关键文本行图像中提取特征序列；循环层由双向LSTM组成，用于对卷积层输出的特征序列的每帧进行预测；转录层用于将每帧的预测转为标签序列；CRNN网络训练时使用CTC作为损失函数。

作为本发明检测方法的进一步限定方案，步骤5中，对获得的关键文字识别结果进行文本纠正的具体步骤为：

对民族进行纠正，将“民族”元素处的识别结果与现有的五十六个民族对应的字符进行字符匹配，若能够匹配到对应的字符，则无需纠正，若没有能够匹配到对应的字符，则再进行形近字匹配，并以匹配的形近字纠正民族的识别结果；

对性别进行纠正，将“性别”元素处的识别结果与“男”或“女”进行字符匹配，若能够匹配到对应的字符，则无需纠正，若没有能够匹配到对应的字符，则再进行形近字匹配，并以匹配的形近字纠正性别的识别结果；

对出生日期进行纠正，根据去水印处理时获取的水印位置判断出“出生日期”元素处以及“公民身份号码”元素处是否有水印覆盖，若“出生日期”元素处有水印覆盖且“公民身份号码”元素处无水印覆盖，则根据公民身份号码规则在识别的公民身份号码中找到出生日期，并以找到的出生日期作为出生日期的识别结果，若“公民身份号码”元素处有水印覆盖，则不对出生日期的识别结果进行纠正；

对公民身份号码进行纠正，根据去水印处理时获取的水印位置判断出“公民身份号码”元素处以及“出生日期”元素处是否有水印覆盖，若“公民身份号码”元素处有水印覆盖且“出生日期”元素处无水印覆盖，则利用纠正后的出生日期识别结果对“公民身份号码”元素处的出生日期进行纠正，若“出生日期”元素处有水印覆盖，则不对“公民身份号码”元素处的出生日期进行纠正；

对签发机关进行纠正，建立全国签发机关数据库，再根据“签发机关”元素处的识别结果在全国签发机关数据库中寻找与之匹配的签发机关，并利用寻找的签发机关对识别的签发机关进行纠正；

对住址进行纠正，利用纠正后的签发机关对“住址”元素处的识别结果进行匹配验证，若签发机关中的地址信息与“住址”元素处的识别结果能够匹配，则无需对住址的识别结果进行纠正；

对有效期限进行纠正，若“有效期限”元素处识别到字符“长期”，则不对有效期限的识别结果进行纠正，若未识别到字符“长期”，则进一步确定起始年份与截至年份的差值是否为5、10或者20，若是其中之一，则不对有效期限的识别结果进行纠正，若不是其中之一，则表明有效期限的年份部分识别有误，输出待人工纠正的提示信息。

本发明还提供了一种身份证图片文本检测系统，包括图片预处理模块、去除水印模块、关键文本图片获取模块、关键文字识别模块以及文本纠正模块；

图片预处理模块用于获取身份证正反面图片，并对身份证正反面图片进行预处理，使得身份证正反面图片为正向且边界呈横平竖直状态；

去除水印模块用于判断预处理后的身份证正反面图片是否有水印，并在判断有水印时进行去除水印处理；

关键文本图片获取模块用于对去除水印后的身份证正反面图片中的关键字进行裁剪拼接处理获得关键文本行图片；

关键文字识别模块用于通过CRNN网络对关键文本行图片进行关键文字识别，获得关键文字识别结果；

文本纠正模块用于根据身份证各个元素标准对获得的关键文字识别结果进行文本纠正，输出纠正后的关键文字信息。

本发明还提供了一种身份证图片文本检测设备，包括存储器以及处理器，存储器用于存储应用程序，当应用程序被处理器执行时，使得处理器实现身份证图片文本检测方法。

本发明与现有技术相比，其有益效果是：本发明利用对身份证正反面图片进行预处理，使得身份证正反面图片为正向且边界呈横平竖直状态从而便于实现后续步骤的去水印以及关键文本行图片获取；利用CRNN网络实现了对复杂条件下身份证图片文本信息的识别，能够准确的检测图片上的文本信息，同时将身份证图片的检测对象标准从高清晰度降低到可以识别模糊身份证图片；利用对关键文字识别结果进行文本纠正能够有效增强关键文字信息识别的准确性和可靠性。

附图说明

图1为本发明的方法流程图；

图2为本发明的身份证正反面原始图片；

图3为本发明的裁剪出带水印的局部图像。

具体实施方式

下面结合附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1-3所示，本发明所述的身份证图片文本检测方法，包括如下步骤：

本发明利用对身份证正反面图片进行预处理，使得身份证正反面图片为正向且边界呈横平竖直状态从而便于实现后续步骤的去水印以及关键文本行图片获取；利用CRNN网络实现了对复杂条件下身份证图片文本信息的识别，能够准确的检测图片上的文本信息，同时将身份证图片的检测对象标准从高清晰度降低到可以识别模糊身份证图片；利用对关键文字识别结果进行文本纠正能够有效增强关键文字信息识别的准确性和可靠性。

步骤1.1，对身份证正反面图片进行切分，通过模板匹配的方法将身份证正反面图片从原始图像中分离出来，所使用的模板由身份证正反面图片训练集中的图片抽取而来，再对分离出来的身份证正反面图片进行图像滤波处理，获得预处理后的身份证正反面图片；

通过对身份证正反面图片的旋转处理，能够使得身份证正反面图片保持正向，从而便于后续裁剪处理和文字识别处理。

利用上述图像滤波处理方法能够对身份证正反面图片进行有效处理，从而确保输出的身份证正反面图片的边界呈横平竖直状态，便于后续步骤处理。

传统的去水印方法是根据水印合成的原理逆向实现去水印的，但是因为实际处理时在图像清晰度、亮度以及水印和底片透明程度等方面差别较大，因此传统去水印方法效果并不理想，而本发明通过对抗生成网络模型进行去水印，对抗生成网络模型在图像生成等方面有非常出色的表现，通过对抗生成网络来实现去水印的工作对于图片的清晰要求不高，具有更高的应用适应能力。在本发明的去水印过程中，对抗生成网络模型的输入是带水印的图片，生成器合成去除水印之后的图片，判别器对生成图片和真实的不带水印的图像进行比较，判断输入图像的真伪，通过生成器和判别器之间的对抗训练，改善生成器的效果，最终得到去除水印之后的结果。

一种仿真数据的生成方法为：从训练数据集中选取出水印在空白处的训练图片，再将水印平移到对应训练图片上的其他位置处，并在平移的过程中随机改变水印的透明度生成一个新训练图片，再由各个新训练图片对应替换选取出的训练图片构成第一训练数据集，利用这种方法构造的图像与真实训练集中的图像相似度很高，一定程度上能够模拟出训练集中图像的特征分布；

再利用第一训练数据集对对抗生成网络模型进行首轮去水印训练，再利用第二训练数据集对首轮去水印训练后的对抗生成网络模型进行第二轮去水印训练。利用第二训练数据集对首轮训练的模型进行优化，能够提高抗生成网络模型的泛化能力。

通过将多行文本拼接成—行排列的拼接图片，并对拼接图片进行腐蚀膨胀提取连通域的方法，去除拼接后残留的空白区域，能够有效降低识别的干扰。

作为本发明检测方法的进一步限定方案，步骤4中，CRNN网络自下而上由卷积层、循环层以及转录层三层组成，卷积层用于从输入的关键文本行图像中提取特征序列；循环层由双向LSTM组成，用于对卷积层输出的特征序列的每帧进行预测；转录层用于将每帧的预测转为标签序列；CRNN网络训练时使用CTC作为损失函数，可以进行端到端的训练。

CRNN网络的优点是识别准确率较高，能够进行端到湍的训练；输入长度可变，能够识别不同长度的文本；相较于基于Attention的方法，识别速度快。本发明通过基于深度学习框梁架TensorFlow实现CRNN模型，CNN部分选VGG16，训练前遍历训练数据标签并加入其它常用汉字，训练时使用Adam作为优化器，使用学习率指数衰减策略，初始学习率没为0.02，并将输入图片统一放到高度32，宽度400。训练时先使用生成数据对模型进行预训练，然后用训练集数据微调模型，训练过程中随机改变输入图片的亮度、对比度等，达到数据增强的效果。

通过上述各项元素的纠正方法，能够进一步增强身份证图片文本信息识别的准确度以及可靠性。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种身份证图片文本检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的身份证图片文本检测方法，其特征在于，步骤1中，对身份证正反面图片进行预处理的具体步骤为：

3.根据权利要求2所述的身份证图片文本检测方法，其特征在于，步骤1.1中，对分离出来的身份证正反面图片进行图像滤波处理的具体步骤为：

4.根据权利要求1所述的身份证图片文本检测方法，其特征在于，步骤2中，进行去除水印处理的具体步骤为：

5.根据权利要求4所述的身份证图片文本检测方法，其特征在于，步骤2.2中，对抗生成网络模型在进行去水印训练时，具体步骤为：

6.根据权利要求1所述的身份证图片文本检测方法，其特征在于，步骤3中，解析获得关键文本行图片的具体步骤为：

7.根据权利要求1所述的身份证图片文本检测方法，其特征在于，步骤4中，CRNN网络自下而上由卷积层、循环层以及转录层三层组成，卷积层用于从输入的关键文本行图像中提取特征序列；循环层由双向LSTM组成，用于对卷积层输出的特征序列的每帧进行预测；转录层用于将每帧的预测转为标签序列；CRNN网络训练时使用CTC作为损失函数。

8.根据权利要求1所述的身份证图片文本检测方法，其特征在于，步骤5中，对获得的关键文字识别结果进行文本纠正的具体步骤为：

9.一种身份证图片文本检测系统，其特征在于，包括图片预处理模块、去除水印模块、关键文本图片获取模块、关键文字识别模块以及文本纠正模块；

10.一种身份证图片文本检测设备，其特征在于，包括存储器以及处理器，存储器用于存储应用程序，当应用程序被处理器执行时，使得处理器实现如权利要求1-8中任一所述的身份证图片文本检测方法。