CN114359923A

CN114359923A - 证件字符识别方法、装置、计算机及存储介质

Info

Publication number: CN114359923A
Application number: CN202111461900.2A
Authority: CN
Inventors: 朱光强; 王和平; 欧阳一村; 邓奇宝; 罗富章
Original assignee: Maxvision Technology Corp
Current assignee: Maxvision Technology Corp
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-15

Abstract

本发明公开了一种证件字符识别方法、装置、计算机及存储介质，涉及图像识别技术，所述方法包括：采用第一深度学习模型对原始图像进行去模糊伪影处理得到第一处理图像；若检测出第一处理图像中包含证件目标，则利用第二深度学习模型对证件目标内的文字方向进行判断；对第一处理图像进行旋转得到第二处理图像；利用第三深度学习模型对第二处理图像进行检测以确定基准点；基于基准点对第二处理图像进行证件类型识别；根据识别的证件类型调用预设数据库中与证件类型匹配的证件模板；根据证件模板定位证件目标的相应位置；获取定位的位置处的区域图像，对区域图像进行文本识别得到识别结果。本发明可支持实现对多种类证件的识别。

Description

证件字符识别方法、装置、计算机及存储介质

技术领域

本发明涉及图像识别技术，尤其涉及一种证件字符识别方法、装置、计算机及存储介质。

背景技术

在海关、机场、火车站等场合进行证件查验时，对于内置芯片的证件，可以通过识读芯片的方式快速获取证件的验证信息，但是对于没有内置芯片的证件，仅能依靠人工手动录入证件信息进行联网查询，效率相对低下。

当前，基于光学字符识别(Optical Character Recognition，OCR)技术已逐步应用于证件自动识别，如有专利申请号为CN202110238213.8的基于深度学习OCR与版面结构的证件识别方法，其没有对照片进行去运动模糊的处理，如果手机在拍摄照片时存在抖动，则产生的运动模糊会严重影响识别质量，因而往往对拍摄时的稳定性要求相对较高，给拍摄者带来不便。

发明内容

本发明的一个优势在于提供了一种证件字符识别方法、装置、计算机及存储介质，其中，证件字符识别方法基于深度学习对图像进行去模糊伪影处理，从而可避免图像模糊伪影给识别带来的不利影响，同时，对证件拍摄者的稳定性要求不高，有助于提升拍摄者的证件查验体验。

本发明的一个优势在于提供了一种证件字符识别方法、装置、计算机及存储介质，其中，证件字符识别方法基于深度学习、图像处理及模板化识别，因而能够快速精准地识别多种证件类型，且易于扩展识别证件的种类。

本发明的一个优势在于提供了一种证件字符识别方法、装置、计算机及存储介质，其中，证件字符识别方法对被查验者放置的证件姿态不做要求，因而可提高被查验者的使用体验。

本发明的一个优势在于提供了一种证件字符识别方法、装置、计算机及存储介质，其中，证件字符识别方法采用的各类算法的计算量相对较小，对设备的算力要求不高。

本发明就上述技术问题而提出的技术方案如下：

第一方面，本发明提供了一种证件字符识别方法，所述方法包括：

利用图像采集器采集预设区域内的图像得到原始图像；

采用第一深度学习模型对所述原始图像进行去模糊伪影处理得到第一处理图像；

对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标；

若检测出所述第一处理图像中包含证件目标，则利用第二深度学习模型对所述证件目标内的文字方向进行判断；

若所述文字方向与预设方向不匹配，则对所述第一处理图像进行旋转以使所述文字方向向所述预设方向排列，得到第二处理图像；

利用第三深度学习模型对所述第二处理图像内的证件纸页角点进行检测以确定基准点；

基于所述基准点，利用第四深度学习模型对所述第二处理图像内的证件纸页进行证件类型识别；

根据识别的证件类型调用预设数据库中与所述证件类型匹配的证件模板，所述证件模板包括相应类型证件中的预设位置指示区；

根据所述预设位置指示区定位所述证件目标的相应位置；

获取定位的位置处的区域图像，对所述区域图像进行文本识别得到识别结果。

优选地，所述第一深度学习模型采用训练好的DeblurGAN-v2模型。

优选地，所述方法包括：

获取所述图像采集器采集的证件视频图像；

对所述证件视频图像进行视频插帧以使所述证件视频图像的帧数达到预设阈值；

取同一时间窗口下的多帧图像的像素平均值以得到模糊图片，所述模糊图片与插帧前的清晰图片构成成对数据；

将所述模糊图片输入所述DeblurGAN-v2模型，以利用所述DeblurGAN-v2模型的生成器生成清晰处理图像；

利用所述DeblurGAN-v2模型的判别器判定所述清晰处理图像是否为所述清晰图片；

利用所述生成器与所述判别器的对抗训练；

在所述生成器生成的清晰处理图像被判定为所述清晰图片时，得到训练好的DeblurGAN-v2模型。

优选地，所述判别器的损失函数为：

其中，E_xPdata(x)表示真实数据；D(x)表示真实数据被判别器判定为真的概率；E_zPz(z)表示z是随机输入；G(z)表示根据随机输入生成的图像；D(G(z))表示生成图像被判别器判定为真的概率；

所述生成器的损失函数为：

L_G＝0.5×L₂+0.006×L_x+0.01×L_ndv，

其中，L₂表示去模糊后的图像和原始图像在VCG19 conv3_3特征图上的欧氏距离；L_X表示内容损失；L_adv表示对抗损失。

优选地，所述对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标包括：

基于YOLOX对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标。

优选地，在所述对所述区域图像进行文本识别得到识别结果之后，所述方法包括：

利用预设纠错模式对所述识别结果进行纠错以得到最终结果，所述预设纠错模式包括汉字与拼音对照纠正、数字与字母的纠正和/或日期纠正。

优选地，所述第二深度学习模型为EfficientNet-B0模型；和/或，

所述第三深度学习模型为PFLD模型；和/或，

所述第四深度学习模型为EfficientNet-B3模型。

第二方面，本发明提供一种证件字符识别装置，所述装置包括：

图像采集模块，用于利用图像采集器采集预设区域内的图像得到原始图像；

第一图像处理模块，用于采用第一深度学习模型对所述原始图像进行去模糊伪影处理得到第一处理图像；

第一检测模块，用于对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标；

判断模块，用于在检测出所述第一处理图像中包含证件目标时，利用第二深度学习模型对所述证件目标内的文字方向进行判断；

第二图像处理模块，用于在所述文字方向与预设方向不匹配上，对所述第一处理图像进行旋转以使所述文字方向向所述预设方向排列，得到第二处理图像；

第二检测模块，用于利用第三深度学习模型对所述第二处理图像内的证件纸页角点进行检测以确定基准点；

第一识别模块，用于基于所述基准点，利用第四深度学习模型对所述第二处理图像内的证件纸页进行证件类型识别；

匹配模块，用于根据识别的证件类型调用预设数据库中与所述证件类型匹配的证件模板，所述证件模板包括相应类型证件中的预设位置指示区；

定位模块，用于根据所述预设位置指示区定位所述证件目标的相应位置；

第二识别模块，获取定位的位置处的区域图像，对所述区域图像进行文本识别得到识别结果。

第三方面，本发明还提供一种计算机，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上所述的证件字符识别方法的步骤。

第四方面，本发明还提供一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的证件字符识别方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明中，在利用第一深度学习对图像采集器采集到的原始图像进行去模糊伪影处理后，采用目标检测技术判断第一处理图像中是否包含证件目标。在检测出包含证件目标时，利用第二深度学习模型判断文字方向，且在文字方向与预设方向不匹配时对图像进行处理以得到处理图像。其后，在利用第三深度学习模型进行证件纸页角点检测以确定基准点，并在此基础上进一步利用第四深度学习模型进行证件类型识别。再后，根据识别出的证件类型调用相应的证件模板，以利于对证件目标中的相应位置进行快速定位，最后，获取定位位置处的图像并进行文本识别得到识别结果。整个过程基于深度学习、图像处理及模板化识别，能够消除使用者在拍摄过程中因抖动造成的模糊伪影现象，对拍摄稳定性要求不高，使用体验较为友好。与此同时，经第一处理图像和第二处理图像的图像处理步骤有利于实现快速且精准地识别多种证件类型，并且易于扩展识别证件的种类，适用场景较大，且计算量相对较小。此外，由于对证件目标的放置姿态不做要求，因而被查验者可随意放置在相应区域即可，提高被查验者的使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的证件字符识别方法在一实施方式下的流程图；

图2为本发明提供的证件字符识别装置的功能模块图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，为本发明提供的证件字符识别方法在一实施方式下的流程图，所述证件字符识别方法主要应用于各类查验证件场景，对证件识别设备的图像采集器的使用者在进行证件拍照查验过程中的稳定性要求不苛刻，因而有利于提升使用者的使用体验。与此同时，本发明提供的证件字符识别方法还支持对各类证件的识别，且具有良好的新增证件识别拓展性。

如图1所示，本实施方式所提供的证件字符识别方法可包括如下步骤：

S101：利用图像采集器采集预设区域内的图像得到原始图像。所述图像采集器可以为便携设备或非便携设备所具有的传感器，其中，便携设备可以为手机、平板电脑或者其他便携的智能化设备。所述预设区域为图像采集器所朝向的视觉区域。

S102：采用第一深度学习模型对所述原始图像进行去模糊伪影处理得到第一处理图像。

本步骤中，可采用训练好的DeblurGAN-v2模型进行去模糊伪影处理，而在训练该模型时，可通过如下方式完成：

(1)、获取所述图像采集器采集的证件视频图像，此处，所述证件视频图像为满足一定清晰度要求的视频图像。

(2)、对所述证件视频图像进行视频插帧以使所述证件视频图像的帧数达到预设阈值，如可将视频帧数通过插帧至扩大原来的16倍。

(3)、取同一时间窗口下的多帧图像的像素平均值以得到模糊图片，所述模糊图片与插帧前的清晰图片构成成对数据。

(4)、将所述模糊图片输入所述DeblurGAN-v2模型，以利用所述DeblurGAN-v2模型的生成器生成清晰处理图像；

(5)、利用所述DeblurGAN-v2模型的判别器判定所述清晰处理图像是否为所述清晰图片。可以理解的是，DeblurGAN-v2由所述生成器与判别器构成，其中，所述生成器用于将模糊图像生成相对清晰图像(也即所述清晰处理图像)，而所述判别器则用于判别所述生成器生成的清晰处理图像是真实图像还是生成图像，二者为对抗关系，也即所述生成器希望生成以假乱真的图像能够欺骗判别器，判别器希望能够鉴别所有生成的假图片。

(6)、利用所述生成器与所述判别器对抗训练。

(7)、在所述生成器生成的清晰处理图像被判定为所述清晰图片时，得到训练好的DeblurGAN-v2模型。

本步骤中，所述DeblurGAN-v2模型采用MobileNet作为主干网络，并引入FPN结构来融合深层和浅层的特征。此处，所述判别器的损失函数可为：

其中，E_xPdata(x)表示真实数据；D(x)表示真实数据被判别器判定为真的概率；E_zPz(z)表示z是随机输入；G(z)表示根据随机输入生成的图像；D(G(z))表示生成图像被判别器判定为真的概率。

而所述生成器的损失函数为：

L_G＝0.5×L₂+0.006×L_X+0.01×L_adv，

S103：对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标。

本步骤中，可基于YOLOX对所述第一处理图像进行检测以判断所述第一处理图像的相应区域中是否包含证件目标，此处的相应区域可包括整张图像或图像中的特定位置区域，所述特定位置区域可基于证件类型特征确定。此处，采用YOLOX算法可实现对图像中的证件目标的快速检测，且易于部署。

可以理解的是，所述证件目标可以是身份证件、护照或者特殊凭证等。

S104：若检测出所述第一处理图像中包含证件目标，则利用第二深度学习模型对所述证件目标内的文字方向进行判断。

本步骤中，所述第二深度学习模型可采用EfficientNet-B0模型，利用EfficientNet-B0模型可快速且相对初步地判断出证件目标内的文字方向。

S105：若所述文字方向与预设方向不匹配，则对所述第一处理图像进行旋转以使所述文字方向向所述预设方向排列，得到第二处理图像。此处，当利用EfficientNet-B0模型判断出证件目标内的文字方向与预设方向不一致，即可判定文字方向与预设方向不匹配。

本步骤中，通过对第二处理图像进行旋转操作，使得第二处理图像更符合后续的机器识别及处理。相应地，在进行证件目标的摆放时，对被查验者放置的证件目标姿态不作相对苛刻的要求，提升查验时的便利性。

S106：利用第三深度学习模型对所述第二处理图像内的证件纸页角点进行检测以确定基准点。

本步骤中，可利用PFLD(Practical Facial Landmark Detector，人脸关键点检测)模型检测证件目标的证件纸页角点，并以此为基础确定基准点。所述基准点可为其中一个证件纸页角点，也可为以证件目标中的人脸位置点，甚至还可以为证件本身具有的最具识别度的特征点。

本步骤中，若检测到证件纸页角点与预设角点位置不匹配，则可对所述第二处理图像进行倾斜矫正和/或扭曲矫正，以使所述第二处理图像内的证件纸页处于预设识别姿态下。此处，将处理图像内的证件纸页调整至预设识别姿态下的目的在于，提升后续对证件内容的可识别性，有助于提高是识别精度。

S107：基于所述基准点，利用第四深度学习模型对所述第二处理图像内的证件纸页进行证件类型识别。

本步骤中，所述第四深度学习模型可采用EfficientNet-B3模型，利用EfficientNet-B3可快速识别证件目标的证件类型。可以理解的是，所述EfficientNet-B3模型为通过提取各类证件的特征并加以训练得到的训练好的EfficientNet-B3模型。

S108：根据识别的证件类型调用预设数据库中与所述证件类型匹配的证件模板，所述证件模板包括相应类型证件中的预设位置指示区。

本步骤中，所述证件模板定义了各类证件的各关键信息的位置与基准点的相对方位，也即证件模板包括对应类型的证件中的预设位置指示区。

S109：根据所述预设位置指示区定位所述证件目标的相应位置。

本步骤中，根据所述预设位置指示区，在将证件目标与相应证件类型的证件目标进行对比时，结合所述基准点即可快速定位出证件目标中的关键信息的位置。

S110：获取定位的位置处的区域图像，对所述区域图像进行文本识别得到识别结果。此处，可以采用截取图像的方式获取所述区域图像，具体地，在截取时，可按预设像素边界截取定位的位置处的区域图像。

本步骤中，可采用字符光学识别(Optical Character Recognition，OCR)技术实现文本识别。

本实施方式提供的证件字符识别方法中，在利用第一深度学习对图像采集器采集到的原始图像进行去模糊伪影处理后，采用目标检测技术判断第一处理图像中是否包含证件目标。在检测出包含证件目标时，利用第二深度学习模型判断文字方向，且在文字方向与预设方向不匹配时对图像进行处理以得到处理图像。其后，在利用第三深度学习模型进行证件纸页角点检测以确定基准点，并在此基础上进一步利用第四深度学习模型进行证件类型识别。再后，根据识别出的证件类型调用相应的证件模板，以利于对证件目标中的相应位置进行快速定位，最后，获取定位位置处的图像并进行文本识别得到识别结果。整个过程基于深度学习、图像处理及模板化识别，能够消除使用者在拍摄过程中因抖动造成的模糊伪影现象，对拍摄稳定性要求不高，使用体验较为友好。与此同时，经第一处理图像和第二处理图像的图像处理步骤有利于实现快速且精准地识别多种证件类型，并且易于扩展识别证件的种类，适用场景较大，且计算量相对较小。此外，由于对证件目标的放置姿态不做要求，因而被查验者可随意放置在相应区域即可，提高被查验者的使用体验。

在本实施方式的一具体应用例中，在步骤S103之前，所述证件字符识别方法还可包括：对所述第一处理图像进行亮度平衡及对比度增强处理，以增强第一处理图像中的目标物轮廓，利于后续的识别流程实现更为快速且准确地识别。

在本实施方式的又一具体应用例中，在步骤S110之后，所述证件字符识别方法还可包括：利用预设纠错模式对所述识别结果进行纠错以得到最终结果，所述预设纠错模式可包括：

(1)、汉字与拼音对照纠正，如对护照等类型的中国证件，其证件内容中通常包括汉字和相应的拼音，通过对照二者，可选择可信度更高的一者作为对照基础纠正另一者。

(2)、数字与字母的纠正，如身份证号码中的数字1容易和字母I或者字母l(小写L)混淆，由于身份证号码不会出现字母I或者字母l(小写L)个字母，因此可根据证件目标的类型将识别为字母I或者字母l(小写L)的字符直接修正为数字1。

(3)、日期纠正，如对照身份证号码和出生日期，对于身份证号中关于日期的内容进行复核和纠正。

本具体应用例通过对识别结果进行进一步纠错，以降低光学字符识别因误识别易混淆的部分内容造成识别错误的几率。

参见图2，为本发明提供的证件字符识别装置的功能模块图。所述证件字符识别装置100可包括图像采集模块11、第一图像处理模块12、第一检测模块13、判断模块14、第二图像处理模块15、第二检测模块16、第一识别模块17、匹配模块18、定位模块19及第二识别模块20，通过各个模块之间的配合，在利用第一深度学习对图像采集器采集到的原始图像进行去模糊伪影处理后，采用目标检测技术判断第一处理图像中是否包含证件目标。在检测出包含证件目标时，利用第二深度学习模型判断文字方向，且在文字方向与预设方向不匹配时对图像进行处理以得到处理图像。其后，在利用第三深度学习模型进行证件纸页角点检测以确定基准点，并在此基础上进一步利用第四深度学习模型进行证件类型识别。再后，根据识别出的证件类型调用相应的证件模板，以利于对证件目标中的相应位置进行快速定位，最后，获取定位位置处的图像并进行文本识别得到识别结果。

如图2所示，本发明提供的证件字符识别装置100中，各个模块的功能如下：

图像采集模块11，用于利用图像采集器采集预设区域内的图像得到原始图像。

第一图像处理模块12，用于采用第一深度学习模型对所述原始图像进行去模糊伪影处理得到第一处理图像。

第一检测模块13，用于对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标。

第一判断模块14，用于在检测出所述第一处理图像中包含证件目标时，利用第二深度学习模型对所述证件目标内的文字方向进行判断。

第二图像处理模块15，用于在所述文字方向与预设方向不匹配上，对所述第一处理图像进行旋转以使所述文字方向向所述预设方向排列，得到第二处理图像。

第二检测模块16，用于利用第三深度学习模型对所述第二处理图像内的证件纸页角点进行检测以确定基准点。

第一识别模块17，用于基于所述基准点，利用第四深度学习模型对所述第二处理图像内的证件纸页进行证件类型识别。

匹配模块18，用于根据识别的证件类型调用预设数据库中与所述证件类型匹配的证件模板，所述证件模板包括相应类型证件中的预设位置指示区。

定位模块19，用于根据所述预设位置指示区定位所述证件目标的相应位置。

第二识别模块20，获取定位的位置处的区域图像，对所述区域图像进行文本识别得到识别结果。

此外，本发明提供的证件字符识别装置100还可包括纠错模块，所述纠错模块用于利用预设纠错模式对所述识别结果进行纠错以得到最终结果，所述预设纠错模式包括汉字与拼音对照纠正、数字与字母的纠正和/或日期纠正。

在具体应用过程中，本发明提供一种计算机，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述证件字符识别方法中的步骤。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

此外，本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的证件字符识别方法中的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种证件字符识别方法，其特征在于，所述方法包括：

利用图像采集器采集预设区域内的图像得到原始图像；

根据所述预设位置指示区定位所述证件目标的相应位置；

2.如权利要求1所述的证件字符识别方法，其特征在于，所述第一深度学习模型采用训练好的DeblurGAN-v2模型。

3.如权利要求2所述的证件字符识别方法，其特征在于，所述方法包括：

获取所述图像采集器采集的证件视频图像；

利用所述生成器与所述判别器的对抗训练；

4.如权利要求3所述的证件字符识别方法，其特征在于，所述判别器的损失函数为：

其中，E_{x Pdata(x)}表示真实数据；D(x)表示真实数据被判别器判定为真的概率；E_{z Pz(z)}表示z是随机输入；G(z)表示根据随机输入生成的图像；D(G(z))表示生成图像被判别器判定为真的概率；

所述生成器的损失函数为：

L_G＝0.5×L₂+0.006×L_X+0.01×L_adv，

5.如权利要求1所述的证件字符识别方法，其特征在于，所述对所述第一处理图像进行检测以判断所述第一处理图像中是否包含证件目标包括：

6.如权利要求1至5任一项所述的证件字符识别方法，其特征在于，在所述对所述区域图像进行文本识别得到识别结果之后，所述方法包括：

7.如权利要求1至5任一项所述的证件字符识别方法，其特征在于，

所述第二深度学习模型为EfficientNet-B0模型；和/或，

所述第三深度学习模型为PFLD模型；和/或，

所述第四深度学习模型为EfficientNet-B3模型。

8.一种证件字符识别装置，其特征在于，所述装置包括：

9.一种计算机，其特征在于，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任意一项所述的证件字符识别方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的证件字符识别方法的步骤。