CN109034050B

CN109034050B - 基于深度学习的身份证图像文本识别方法及装置

Info

Publication number: CN109034050B
Application number: CN201810813704.9A
Authority: CN
Inventors: 冯昊楠; 朴安妮; 张玉双
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2022-05-03
Anticipated expiration: 2038-07-23
Also published as: CN109034050A

Abstract

本申请公开了一种基于深度学习的身份证图像文本识别方法及装置，对获取的第一图像进行图像预处理；将经过预处理后的第一图像输入第一模型，第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息；根据位置信息截取第一图像中各目标字段区域的图像作为第二图像；将第二图像输入第二模型，第二模型对第二图像进行目标字段识别，获得第二图像中目标字段的文本信息，通过第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息，通过第二模型对第二图像进行目标字段识别。

Description

基于深度学习的身份证图像文本识别方法及装置

技术领域

本公开一般涉及深度学习领域，具体涉及深度学习应用领域，尤其涉及一种基于深度学习的身份证图像文本识别方法及装置。

背景技术

在快递业务场景中，客户信息的录入一直是一个不可避免的环节。大量的客户信息录入，如客户身份证信息记录，占用了客户和工作人员大量宝贵的时间。

传统文本检测识别技术(OCR)一般包括文字区域检测，图片信息提取及矫正，以及基于传统机器学习方法和HMM模型的文字识别分类器。由于不同的需求和图片构造，传统OCR的识别效果受到文字检测和信息提取的严重限制。近年来，以卷积神经网络(CNN)为代表的一系列深度学习方法，为传统计算机视觉领域和OCR领域提供了更高精确度的图片处理和识别方法。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种精确度高的基于深度学习的身份证图像文本识别方法及装置。

第一方面，本发明的基于深度学习的身份证图像文本识别方法，包括：

对获取的第一图像进行图像预处理；

将经过预处理后的第一图像输入第一模型，第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息；

根据位置信息截取第一图像中各目标字段区域的图像作为第二图像；

将第二图像输入第二模型，第二模型对第二图像进行目标字段识别，获得第二图像中目标字段的文本信息。

第二方面，本发明的基于深度学习的身份证图像文本识别装置，包括：

图像预处理模块：用于对获取的第一图像进行图像预处理；

文本检测模块：用于将经过预处理后的第一图像输入第一模型，第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息；

图像截取模块：用于根据位置信息截取第一图像中各目标字段区域的图像作为第二图像；

文本识别模块：用于将第二图像输入第二模型，第二模型对第二图像进行目标字段识别，获得第二图像中目标字段的文本信息。

根据本申请实施例提供的技术方案，通过第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息，通过第二模型对第二图像进行目标字段识别，获得第二图像中目标字段的文本信息，能够解决现有的文本识别技术识别效果差的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明的实施例的基于深度学习的身份证图像文本识别方法的流程图；

图2为本发明的实施例的基于深度学习的身份证图像文本识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的其中一个实施例为，请参考图1，基于深度学习的身份证图像文本识别方法，包括：

对获取的第一图像进行图像预处理。

将经过预处理后的第一图像输入第一模型，第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息。

在本发明的实施例中，第一模型可以但不仅仅为经典检测算法SSD(Single ShotDetection)，通过第一模型对第一图像进行各目标字段区域检测，通常对需要采集身份证上面的姓名、性别、身份证号码、身份证有效期等信息，第一模型检测到各目标字段区域后，可以采用逐行标记或者逐字标记对各目标字段区域进行标记，当然逐字标记的准确性更加高、成本更加昂贵。

在本发明的实施例中，第二模型可以但不仅仅为卷积神经网络(CNN)，深度残差网络(ResNet)，长短时记忆神经元(LSTM)，损失函数为时间连接分类CTC Loss(Connectionist temporal classification Loss)，其中损失函数可以为

L(S)＝-ln∏(x,z)∈Sp(z|x)＝-∑(x,z)∈Slnp(z|x)，

能够降低成本以及数据集的构成难度，通过第二模型对第二图像进行目标字段识别，获得第二图像中目标字段的文本信息。能够提高获得的文本信息的准确性。

进一步的，对获取的第一图像进行图像预处理包括：

对第一图像进行一次边缘检测，若无法检测到第一图像的边缘，则提示重新输入第一图像，否则，对第一图像进行扭转；

将扭转后的第一图像输入第三模型中，第三模型对扭转后的第一图像进行二次边缘检测，若无法检测到第一图像的边缘，则提示重新输入第一图像，否则，

识别第一图像为身份证的正面或者反面，若无法识别第一图像为身份证的正面或者反正，则提示重新输入第一图像。

在本发明的实施例中，对获取的第一图像进行图像预处理，通过工作人员对客户的身份证拍照并上传或者是客户自行上传身份证照片来获取第一图像，在一般情况下，上传的照片有可能存在倾斜、变形以及存在背景的情况，需要对照片进行边缘检测、裁切、扭转等变形。首先使用最简单的边缘检测对第一图像检测，如果没有检测到边缘，则提示客户或者工作人员重新拍照上传，如果检测到边缘，则对第一图像进行扭转。将扭转后的第一图像输入第三模型中，第三模型对扭转后的第一图像的边缘检测，若无法检测到所述第一图像的边缘，则提示客户或者工作人员重新拍照上传，确保第一图像的边缘检测的扭转结果准确，降低了文本检测模块的检测难度，提高了文本检测模块的精确度，第三模型可以但不仅仅为YOLO 618(You Only Look Once)模型，确保第一图像的边缘检测的扭转结果正确。对经过第三模型边缘检测好的第一图像进行识别身份证的正面和反面，若无法识别所述第一图像为身份证的正面或者反正，则提示无法客户或者工作人员重新拍照上传。确保了输入第一模型中的第一图像符合第一模型的输入标准，提高了第一模型的检测成功率。同时，可以通过区别身份证的正面和反面，区别第一图像的特征，针对身份证的正面或者反面不同的特征来进行目标字段区域的位置信息的识别，提高了识别的准确性。

进一步的，包括检验各目标字段区域的位置信息，具体的，根据识别第一图像为身份证的正面或者反正的结果，比较预设的身份证正面或者反面的不同目标字段间的位置关系和位置信息是否对应，若不对应，则提示重新输入第一图像。

在本发明的实施例中，通过比较预设的身份证正面或者反面的不同目标字段间的位置关系，例如比较预设的身份证正面的姓名、身份证号码等目标字段之间的相对位置，具体的“姓名”在“性别”的上面，“公民身份证号码”在最下面等，将各目标字段的位置信息和预设的位置关系比较，检验第一模型检测结果的准确性，便于对第一模型进行调整，提高了第一模型的可用性。

进一步的，包括训练第一模型，具体的，对第一图像进行以下操作之一或者组合获得第三图像：

随机多角度旋转、高斯模糊、均值模糊、翻转、随机噪点和光强变化，

使用第三图像训练第一模型。

在本发明的实施例中，通过训练第一模型，确定第一模型的参数，提高第一模型的可用性以及第一模型对第一图像进行各目标字段区域检测的准确性，通过对第一图像进行随机多角度旋转、高斯模糊、均值模糊、翻转、随机噪点和光强变化中的一种或者多种的组合变化，获得不同的第一图像，使用不同的第一图像对第一模型进行训练，能够利用较小的数据量，对第一模型进行充分的训练，降低了第一模型训练的数据获取成本。

进一步的，包括训练第二模型，具体的，将高频姓名字库仿照身份证背景和字体生成第四图像，使用第四图像训练第二模型。

在本发明的实施例中，通过训练第二模型，确定第二模型的参数，提高第二模型的可用性以及第二模型第二图像进行目标字段识别的准确性，通过将高频姓名字库仿照身份证背景和字体生成第四图像，通过模拟生成含有高频姓名字库中高频姓名字的身份证图像，对第二模型进行训练，提高了第二模型的识别准确性。

进一步的，对第四图像进行以下操作之一或者组合获得第五图像：

使用第五图像训练第二模型。

在本发明的实施例中，通过对第四图像进行随机多角度旋转、高斯模糊、均值模糊、翻转、随机噪点和光强变化中的一种或者多种的组合变化，获得第五图像，使用不同的第五图像对第二模型进行训练，能够利用较少的原始数据变化获得较多的训练数据，对第二模型进行充分的训练，降低了第二模型训练的数据获取成本。

进一步的，包括存储文本信息和与文本信息对应的第二图像。

在本发明的实施例中，包括存储文本信息和与文本信息对应的第二图像，对获得的文本信息和第二图像进行存储，用于第二模型的继续训练。

本发明的另一个实施例为，参考图2，基于深度学习的身份证图像文本识别装置，包括：

图像预处理模块：用于对获取的第一图像进行图像预处理。

文本检测模块：用于将经过预处理后的第一图像输入第一模型，第一模型对第一图像进行各目标字段区域检测，获得第一图像中各目标字段区域的位置信息。

L(S)＝-ln∏(x,z)∈Sp(z|x)＝-∑(x,z)∈Slnp(z|x)，

进一步的，图像预处理模块：还用于对第一图像进行边一次缘检测，若无法检测到第一图像的边缘，则提示重新输入第一图像，否则，对第一图像进行扭转；

在本发明的实施例中，图像预处理模块对获取的第一图像进行图像预处理，通过工作人员对客户的身份证拍照并上传或者是客户自行上传身份证照片来获取第一图像，在一般情况下，上传的照片有可能存在倾斜、变形以及存在背景的情况，需要对照片进行边缘检测、裁切、扭转等变形。首先使用最简单的边缘检测对第一图像检测，如果没有检测到边缘，则提示客户或者工作人员重新拍照上传，如果检测到边缘，则对第一图像进行扭转。将扭转后的第一图像输入第三模型中，第三模型对扭转后的第一图像的边缘检测，若无法检测到所述第一图像的边缘，则提示客户或者工作人员重新拍照上传，确保第一图像的边缘检测的扭转结果准确，降低了文本检测模块的检测难度，提高了文本检测模块的精确度，第三模型可以但不仅仅为YOLO 618(You Only Look Once)模型，确保第一图像的边缘检测的扭转结果正确。对经过第三模型边缘检测好的第一图像进行识别身份证的正面和反面，若无法识别所述第一图像为身份证的正面或者反正，则提示无法客户或者工作人员重新拍照上传。确保了输入第一模型中的第一图像符合第一模型的输入标准，提高了第一模型的检测成功率。同时，可以通过区别身份证的正面和反面，区别第一图像的特征，针对身份证的正面或者反面不同的特征来进行目标字段区域的位置信息的识别，提高了识别的准确性。

进一步的，包括检验模块：用于检验各目标字段区域的位置信息，具体的，根据识别第一图像为身份证的正面或者反正的结果，比较预设的身份证正面或者反面的不同目标字段间的位置关系和位置信息是否对应，若不对应，则提示重新输入第一图像。

在本发明的实施例中，通过检验模块比较预设的身份证正面或者反面的不同目标字段间的位置关系，例如比较预设的身份证正面的姓名、身份证号码等目标字段之间的相对位置，具体的“姓名”在“性别”的上面，“公民身份证号码”在最下面等，将各目标字段的位置信息和预设的位置关系比较，检验第一模型检测结果的准确性，便于对第一模型进行调整，提高了第一模型的可用性。

进一步的，包括第一训练模块：用于训练第一模型，具体的，对第一图像进行以下操作之一或者组合获得第三图像：

使用第三图像训练第一模型。

在本发明的实施例中，通过第一训练模块训练第一模型，确定第一模型的参数，提高第一模型的可用性以及第一模型对第一图像进行各目标字段区域检测的准确性，通过对第一图像进行随机多角度旋转、高斯模糊、均值模糊、翻转、随机噪点和光强变化中的一种或者多种的组合变化，获得不同的第一图像，使用不同的第一图像对第一模型进行训练，能够利用较小的数据量，对第一模型进行充分的训练，降低了第一模型训练的数据获取成本。

进一步的，包括第二训练模块：用于训练第二模型，具体的，将高频姓名字库仿照身份证背景和字体生成第四图像，使用第四图像训练第二模型。

在本发明的实施例中，通过第二训练模块训练第二模型，确定第二模型的参数，提高第二模型的可用性以及第二模型第二图像进行目标字段识别的准确性，通过将高频姓名字库仿照身份证背景和字体生成第四图像，通过模拟生成含有高频姓名字库中高频姓名字的身份证图像，对第二模型进行训练，提高了第二模型的识别准确性。

进一步的，第二训练模块：还用于对第四图像进行以下操作之一或者组合获得第五图像：

使用第五图像训练第二模型。

进一步的，第一模型仅设置有多层低层次特征提取层的卷积神经网络。

在本发明的实施例中，在原有的五层卷积神经网络中，将高层次的特征提取层替换成低层次的特征提取层作为第一模型，对第一图像进行各目标字段区域检测，以满足身份证照片中文本中尺寸单一的特征，避免高层次特征层较大的感受野影响检测效果。

进一步的，第一模型的默认目标边框比例为1、2、3、4、1/2、1/3、1/4。

在本发明的实施例中，针对身份证中的目标字段的细长形状，尤其是公民身份证号码的目标字段，将第一模型的默认目标边框比例设置为1、2、3、4、1/2、1/3、1/4，提高了第一模型的长条文本检测效果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习的身份证图像文本识别方法，其特征在于，包括：

对获取的第一图像进行图像预处理；

将经过预处理后的所述第一图像输入第一模型，所述第一模型对所述第一图像进行各目标字段区域检测，获得所述第一图像中各目标字段区域的位置信息；

根据所述位置信息截取所述第一图像中各目标字段区域的图像作为第二图像；

将所述第二图像输入第二模型，所述第二模型对所述第二图像进行目标字段识别，获得所述第二图像中目标字段的文本信息；

所述对获取的第一图像进行图像预处理包括：

对所述第一图像进行一次边缘检测，若无法检测到所述第一图像的边缘，则提示重新输入第一图像，否则，对所述第一图像进行扭转；

将扭转后的所述第一图像输入第三模型中，所述第三模型对所述扭转后的第一图像进行二次边缘检测，若无法检测到所述第一图像的边缘，则提示重新输入第一图像，否则，

识别所述第一图像为身份证的正面或者反面，若无法识别所述第一图像为身份证的正面或者反面，则提示重新输入第一图像。

2.根据权利要求1所述的基于深度学习的身份证图像文本识别方法，其特征在于，包括检验所述各目标字段区域的位置信息，具体的，根据所述识别第一图像为身份证的正面或者反面的结果，比较预设的所述身份证正面或者反面的不同目标字段间的位置关系和所述位置信息是否对应，若不对应，则提示重新输入第一图像。

3.根据权利要求1所述的基于深度学习的身份证图像文本识别方法，其特征在于，包括训练所述第一模型，具体的，对所述第一图像进行以下操作之一或者组合获得第三图像：

使用所述第三图像训练所述第一模型。

4.根据权利要求1所述的基于深度学习的身份证图像文本识别方法，其特征在于，包括训练所述第二模型，具体的，将高频姓名字库仿照身份证背景和字体生成第四图像，使用所述第四图像训练所述第二模型。

5.根据权利要求4所述的基于深度学习的身份证图像文本识别方法，其特征在于，对所述第四图像进行以下操作之一或者组合获得第五图像：

使用所述第五图像训练所述第二模型。

6.根据权利要求1所述的基于深度学习的身份证图像文本识别方法，其特征在于，包括存储所述文本信息和与所述文本信息对应的第二图像。

7.一种基于深度学习的身份证图像文本识别装置，其特征在于，包括：

图像预处理模块：用于对获取的第一图像进行图像预处理；

文本检测模块：用于将经过预处理后的所述第一图像输入第一模型，所述第一模型对所述第一图像进行各目标字段区域检测，获得所述第一图像中各目标字段区域的位置信息；

图像截取模块：用于根据所述位置信息截取所述第一图像中各目标字段区域的图像作为第二图像；

文本识别模块：用于将所述第二图像输入第二模型，所述第二模型对所述第二图像进行目标字段识别，获得所述第二图像中目标字段的文本信息；

所述图像预处理模块：还用于对所述第一图像进行边一次缘检测，若无法检测到所述第一图像的边缘，则提示重新输入第一图像，否则，对所述第一图像进行扭转；

8.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，包括检验模块：用于检验所述各目标字段区域的位置信息，具体的，根据所述识别第一图像为身份证的正面或者反面的结果，比较预设的所述身份证正面或者反面的不同目标字段间的位置关系和所述位置信息是否对应，若不对应，则提示重新输入第一图像。

9.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，包括第一训练模块：用于训练所述第一模型，具体的，对所述第一图像进行以下操作之一或者组合获得第三图像：

使用所述第三图像训练所述第一模型。

10.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，包括第二训练模块：用于训练所述第二模型，具体的，将高频姓名字库仿照身份证背景和字体生成第四图像，使用所述第四图像训练所述第二模型。

11.根据权利要求10所述的基于深度学习的身份证图像文本识别装置，其特征在于，所述第二训练模块：还用于对所述第四图像进行以下操作之一或者组合获得第五图像：

使用所述第五图像训练所述第二模型。

12.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，包括存储模块：用于存储所述文本信息和与所述文本信息对应的第二图像。

13.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，所述第一模型仅设置有多层低层次特征提取层的卷积神经网络。

14.根据权利要求7所述的基于深度学习的身份证图像文本识别装置，其特征在于，所述第一模型的默认目标边框比例为1、2、3、4、1/2、1/3、1/4。