CN112597940B

CN112597940B - 证件图像识别方法、装置及存储介质

Info

Publication number: CN112597940B
Application number: CN202011594848.3A
Authority: CN
Inventors: 孟祥昊; 肖潇; 付马; 卢琨; 梁婷
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-08-23
Anticipated expiration: 2040-12-29
Also published as: CN112597940A

Abstract

本申请涉及一种证件图像识别方法、装置及存储介质，属于计算机技术领域，该方法包括：获取待识别的证件图像，该证件图像包括待识别的字符区域；将证件图像输入预训练的检测模型，得到字符区域中字符的位置信息和分类结果；可以解决使用检测模型检测字符区域，使用识别模型识别字符区域中的字符时，占用的存储资源和计算资源均较多的问题；由于分类结果也为字符的识别结果，因此，可以直接将字符的分类结果作为字符的识别结果，只需要一个检测模型即可实现字符的检测和识别，且对于一张证件图像只需要计算一次，从而节省电子设备的存储资源和计算资源。

Description

证件图像识别方法、装置及存储介质

【技术领域】

本申请涉及一种证件图像识别方法、装置及存储介质，属于计算机技术领域。

【背景技术】

随着互联网的快速发展，社会各界对信息安全问题的关注也与日俱增。尤其是智能手机的日益普及，移动警务执法越来越得到各个方面的重视，如何利用移动警务系统更好的服务于民众显得尤为重要。其中，证件图像的识别技术，也越来越多的受到关注并使用。

一种典型的证件图像识别方法包括：获取证件图像；使用检测模型检测证件图像中的字符区域；使用识别模型识别字符区域中的字符。

然而，检测模型和识别模型需要占用较多的设备存储资源，在运行时还需要消耗较多的计算资源。

【发明内容】

本申请提供了一种证件图像识别方法、装置及存储介质，可以解决使用检测模型检测字符区域，使用识别模型识别字符区域中的字符时，占用的存储资源和计算资源均较多的问题。本申请提供如下技术方案：

第一方面，提供一种证件图像识别方法，所述方法包括：

获取待识别的证件图像，所述证件图像包括待识别的字符区域；

将所述证件图像输入预训练的检测模型，得到所述字符区域中字符的位置信息和分类结果，所述分类结果为字符的识别结果。

可选地，所述检测模型是使用多组第一训练数据训练得到的，每组第一训练数据包括样本证件图像、所述样本证件图像中字符的位置标签、以及所述样本证件图像中字符的分类标签；

其中，不同字符对应的分类标签不同，所述分类标签为对应字符的样本识别结果。

可选地，所述位置标签包括每个字符对应的第一位置标签和所述字符区域的第二位置标签。

可选地，所述检测模型基于轻量级的基础网络建立，所述基础网络的网络层数小于第一阈值、且通道数小于第二阈值；其中，所述第一阈值小于或等于现有的轻量级神经网络模型的最小层数；所述第二阈值小于或等于现有的轻量级神经网络模型的最小通道数。

可选地，所述检测模型还包括与所述基础网络相连的基于中心点的检测网络CenterNet。

可选地，所述将所述证件图像输入预训练的检测模型之前，还包括：

将原始证件图像输入预训练的矫正模型，得到矫正后的证件图像，所述矫正后的证件图像为所述待识别的证件图像；

其中，所述矫正模型是使用多组第二训练数据训练得到的，每组第二训练数据包括待矫正样本证件图像、矫正后的样本证件图像、以及所述矫正后的样本证件图像中关键点的标签位置，所述关键点包括所述矫正后的样本证件图像的边缘位置关键点和所述矫正后的样本证件图像内的预设位置关键点。

可选地，所述矫正后的样本证件图像包括人脸图像区域，所述预设位置关键点包括所述人脸图像区域的人脸关键点。

可选地，所述矫正模型基于轻量级的主干网络建立，所述主干网络的网络层数小于第三阈值、且通道数小于第四阈值；所述主干网络包括自定义的矫正层，所述矫正层用于将输入的关键点的位置矫正至标准位置；其中，所述第三阈值小于或等于现有的轻量级神经网络模型的最小层数；所述第四阈值小于或等于现有的轻量级神经网络模型的最小通道数。

可选地，所述将所述证件图像输入预训练的检测模型，得到所述字符区域中字符的位置信息和分类结果之后，还包括：

从对应关系中查找所述分类结果对应的字符，得到所述分类结果对应的字符；

在第一显示区域显示所述证件图像；

在第二显示区域显示所述字符。

第二方面，提供一种证件图像识别装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的证件图像识别方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的证件图像识别方法。

本申请的有益效果至少包括：通过获取待识别的证件图像，该证件图像包括待识别的字符区域；将证件图像输入预训练的检测模型，得到字符区域中字符的位置信息和分类结果；可以解决使用检测模型检测字符区域，使用识别模型识别字符区域中的字符时，占用的存储资源和计算资源均较多的问题；由于分类结果也为字符的识别结果，因此，可以直接将字符的分类结果作为字符的识别结果，只需要一个检测模型即可实现字符的检测和识别，且对于一张证件图像只需要计算一次，从而节省电子设备的存储资源和计算资源。

另外，通过在训练检测模型时，将分类标签同时作为识别标签使用，可以实现检测模型的检测和识别功能。

另外，在训练检测模型时，位置标签包括每个字符对应的第一位置标签和字符区域的第二位置标签，可以实现字符区域的检测和每个字符位置的检测。

另外，通过将检测模型设计为轻量级网络，使得检测模型整体较小，可以节省设备存储资源和计算资源。

另外，通过在检测模型中设置CenterNet，由于CenterNet的检测准确性高于其它目标检测网络，且检测速度较快，因此，可以提高检测模型的检测准确性和速度。

另外，通过在识别证件图像之前，使用矫正模型对该证件图像进行矫正；可以保证检测模型能够正确识别证件图像中的字符，提高识别准确率。

另外，矫正模型除了使用图像边缘位置关键点进行训练，还结合图像内的预设位置关键点进行训练；可以使得证件图像的边缘丢失的情况下，矫正模型依然能够对该证件图像进行矫正，提高矫正模型的矫正准确性。

另外，预设位置关键点包括人脸关键点，由于人脸关键点的检测的难度低于证件图像中其它位置的检测难度，因此，可以提高矫正模型的训练效率和矫正效率。

另外，通过将矫正模型设计为轻量级网络，使得矫正模型整体较小，可以进一步节省设备存储资源和计算资源。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的证件图像识别方法的流程图；

图2是本申请一个实施例提供的检测模型的结构示意图；

图3是本申请一个实施例提供的矫正模型的结构示意图；

图4是本申请又一个实施例提供的证件图像识别装置的框图；

图5是本申请再一个实施例提供的证件图像识别装置的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

基于中心点的检测网络(CenterNet)：是一个端到端的目标检测器。目标检测要求检测出包含物体的最小矩形框。传统的目标检测器通常会罗列出大量的候选框并对其分类。而CenterNet将要检测的目标定位到一个点，即检测矩形框的中心点。换言之，CenterNet中，每个中心点对应一个目标的位置，不需要进行矩形框重叠(overlap)的判断，目标检测速度和效率均高于传统的目标检测器。

基于本申请提出的技术问题，本申请提供一种识别证件图像的技术方案，本技术方案使用检测模型即可实现字符区域的检测和识别，而无需设置两种网络模型，可以节省电子设备的存储资源和计算资源。

可选地，本申请以各个实施例提供的证件图像识别方法用于电子设备中为例进行说明，该电子设备为终端或服务器，终端可以为手机、计算机、平板电脑、可穿戴式设备等，本实施例不对电子设备的设备类型作限定。

下面对本申请提供的证件图像识别方法进行介绍。

图1是本申请一个实施例提供的证件图像识别方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取待识别的证件图像，证件图像包括待识别的字符区域。

证件图像中的证件具有统一的模板，比如：身份证包括人脸照片和身份证号码，人脸照片位于身份证号码的上方，且位于整个证件的右侧；护照包括人脸照片和护照号，人脸照片位于护照号的上方，且位于整个证件的左侧。在其它实施方式中，证件的类型也可以为其它证件，相应的模板也可以为其它模板，本实施例不对证件的类型作限定。

可选地，证件图像可以是电子设备采集的，或者是从电子设备的存储介质中读取的，或者是接收其它设备发送的，本实施例不对证件图像的获取方式作限定。

步骤102，将证件图像输入预训练的检测模型，得到字符区域中字符的位置信息和分类结果，分类结果为字符的识别结果。

字符区域中字符的分类数量固定。字符的分类数量小于数量阈值，比如：字符区域中字符的分类包括26个大写的英文字母和0至9这10个数字，相应地，数量阈值为36；或者，字符区域中字符的分类仅包括0至9这10个数字，相应地，数量阈值为10；或者，字符区域中字符的分类包括26个小写的英文字母和26个大写的英文字母，相应地，数量阈值为52。在其它实施例中，字符的分类方式和数量也可以为其它实现方式，如结合数学符号和/或希腊字母等，本实施例在此不再一一列举。

本实施例中，通过将字符的分类结果作为该字符的识别结果，使得电子设备根据检测模型的分类结果即可确定出对应的识别结果，无需设置额外的识别模型，可以节省电子设备的存储资源和计算资源。

可选地，检测模型基于神经网络建立，该检测模型是使用多组第一训练数据训练得到的，每组第一训练数据包括样本证件图像、样本证件图像中字符的位置标签、以及样本证件图像中字符的分类标签。其中，不同字符对应的分类标签不同，分类标签为对应字符的样本识别结果。

由于分类标签还作为字符的样本识别结果，因此，可以保证训练得到的检测模型能够输出指示识别结果的分类结果。

检测模型的训练过程包括但不限于以下几个步骤：

步骤1，获取第一训练数据。

电子设备获取样本证件图像；对样本证件图像中的字符区域进行标定、和/或对该字符区域中每个字符的位置进行标定，得到位置标签；对样本证件图像中每个字符的类别进行标定，得到分类标签。

其中，样本证件图像为符合检测标准的图像。换句话说，样本证件图像的清晰度、姿态、完整程度等均达到检测标准。

可选地，位置标签包括每个字符对应的第一位置标签和字符区域的第二位置标签。这样，检测模型可以对整个字符区域的位置和每个字符的位置均进行检测。

可选地，样本证件图像的位置标定和类别标定可以使用标定工具进行标定，或者是接收用户设置的标定结果。

可选地，由于检测模型对输入图像的尺寸可能存在要求，比如：输入图像的尺寸固定为第一尺寸的图像，因此，需要将样本证件图像的图像尺寸调整至第一尺寸，以使输入检测模型和初始神经网络的图像符合尺寸要求。相应地，若待识别的证件图像或者按照下述实施例进行矫正处理后得到的矫正后的证件图像不符合模型的尺寸要求，电子设备也需要将该证件图像的尺寸调整至第一尺寸。

步骤2，构建初始神经网络模型。

初始神经网络模型的网络结构与检测模型的网络结构相同，网络参数不同。初始神经网络模型具有初始化网络参数，该初始化网络参数是默认设置的。

在一个示例中，为了减少检测模型在电子设备中占用的存储资源，初始神经网络模型基于轻量级的基础网络建立，该基础网络的网络层数小于第一阈值、且通道数小于第二阈值。相应地，检测模型基于轻量级的基础网络建立。

其中，第一阈值小于或等于现有的轻量级神经网络模型的最小层数；第二阈值小于或等于现有的轻量级神经网络模型的最小通道数。

以图2所示的初始神经网络模型(与检测模型的模型结构相同)为例，基础网络21是包括卷积层、反卷积层、批次标准化(Batch Normalization，BN)层以及池化层的骨干(backbone)网络。backbone是指用来做特征提取的网络，通常为神经网络的一部分，backbone位于网络前端，生成的特征图供后面的网络使用。backbone中每种类型的层数可以一层或多层。

其中，卷积层用于对图像进行特征提取；反卷积层用于对特征图进行上采样；池化层用于将小邻域内特征点进行整合得到新的特征；BN层用于加快模型收敛速度，并防止梯度爆炸和梯度消失。

在实际实现时，backbone还可以为其它实现方式，本实施例不对backbone的实现方式作限定。

可选地，检测模型还包括与基础网络21相连的CenterNet22。由于CenterNet高于其它目标检测器的检测速度，因此，通过使用CenterNet模型来建立检测模型，可以提高检测模型的检测速度。

需要补充说明的是，步骤1可以在步骤2之前执行，或者也可以在步骤2之后执行，或者还可以与步骤2同时执行，本实施例不对步骤1和步骤2之间的执行顺序作限定。

步骤3，将第一训练数据中的样本证件图像输入初始神经网络模型，得到模型输出结果。

步骤4，将模型输出结果、位置标签和分类标签输入预设损失函数，以对初始神经网络模型进行迭代训练，得到检测模型。

以检测模型包括CenterNet为例进行说明，该检测模型采用焦点损失(FocalLoss)的思想，在实际训练中，中心点周围的其他点(negative center pointer)的损失是经过衰减后的损失，而目标的长和宽是经过对应当前中心点的宽度和高度回归得到。其中，目标中心点采用改进的Focal Loss作为损失函数，目标的宽高以及偏移量采用的是L1Loss作为损失函数。换言之，预设损失函数包括Focal Loss和L1 Loss。具体参考公式如下：

其中，L_k表示目标中心点的损失函数；

为网络输出的关键点热图(即网络预测值)，y表示标签值，c表示类别个数，α和β为超参数，N为图像关键点个数。L_off为偏移量的损失函数，p表示目标框的中心点，R表示下采样倍数，

代表偏差值，

表示网络输出的基础网络输出的偏置值。L_size为目标宽高的损失函数。

为网络输出的尺寸结果。假设第k个目标，类别为c_k的目标框的表示为

那么其中心点坐标位置通过下式表示：

其中，目标的长和宽的大小通过下式表示：

可选地，在检测模型实现为其它类型的神经网络时，损失函数也可以对应变化，本实施例不对检测模型在训练过程中使用的损失函数的类型作限定。

在训练得到检测模型后，还可以获取第一测试数据，使用第一测试数据对检测模型的网络性能进行测试；在检测模型的网络性能符合性能要求时，使用该检测模型识别证件图像；在检测模型的网络性能不符合性能要求时，对该检测模型再次训练。

其中，第一测试数据包括样本证件图像、样本证件图像中字符的位置标签、以及样本证件图像中字符的分类标签。第一测试数据中的数据类型与第一训练数据中的数据类型相同，但第一测试数据中的数据内容与第一训练数据中的数据内容不同。

可选地，电子设备中存储有分类结果(也即识别结果)与字符之间的对应关系，在训练得到检测模型后，将证件图像输入检测模型得到字符的分类结果后，从对应关系中查找该分类结果对应的字符，得到该分类结果对应的字符。

之后，电子设备可以在第一显示区域显示证件图像；在第二显示区域显示所述字符。或者，电子设备也可以不显示拍摄的证件图像，仅显示识别结果对应的字符，本实施例不对电子设备显示识别结果的方式作限定。

当然，电子设备也可以将分类结果发送至其它设备，如手机等设备，由其它设备从对应关系中查找该分类结果对应的字符，得到该分类结果对应的字符并显示。

在一个示例中，检测模型在电子设备中被组件化设计，在编写组件代码，对改检测模型进行封装后，进行业务层调用。在电子设备中运行封装得到的程序后，用户可以拍摄一张证件图像(如：护照图片)，电子设备获取到证件图像，经过该程序计算后会呈现两个显示区域，其中一个显示区域中显示拍摄的证件图像，另一个显示区域显示识别的护照号。当然，在其它实现方式中，电子设备也可以不显示拍摄的证件图像，仅显示识别结果指示的护照号，本实施例不对电子设备显示识别结果的方式作限定。

综上所述，本实施例提供的证件图像识别方法，通过获取待识别的证件图像，该证件图像包括待识别的字符区域；将证件图像输入预训练的检测模型，得到字符区域中字符的位置信息和分类结果；可以解决使用检测模型检测字符区域，使用识别模型识别字符区域中的字符时，占用的存储资源和计算资源均较多的问题；由于分类结果也为字符的识别结果，因此，可以直接将字符的分类结果作为字符的识别结果，只需要一个检测模型即可实现字符的检测和识别，且对于一张证件图像只需要计算一次，从而节省电子设备的存储资源和计算资源。

可选地，基于上述实施例，由于在拍摄证件图像时，可能会存在角度、光照、分辨率等外在因素对图像识别带来干扰，因此，需要对证件图像进行预处理操作，以使得证件图像符合检测模型的识别要求。基于此，本实施例中，在将证件图像输入预训练的检测模型之前，即步骤102之前，还包括：将原始证件图像输入预训练的矫正模型，得到矫正后的证件图像，该矫正后的证件图像为待识别的证件图像。

其中，矫正模型是使用多组第二训练数据训练得到的，每组第二训练数据包括待矫正样本证件图像、矫正后的样本证件图像、以及矫正后的样本证件图像中关键点的标签位置，该关键点包括矫正后的样本证件图像的边缘位置关键点和矫正后的样本证件图像内的预设位置关键点。

在一个示例中，矫正后的样本证件图像包括人脸图像区域，该预设位置关键点包括人脸图像区域的人脸关键点，如左眼、右眼、鼻尖、左嘴角和右嘴角中的至少一个关键点。在其它实施方式中，预设位置关键点也可以为字符区域的顶点，本实施例不对预设位置关键点的实现方式作限定。

另外，矫正后的样本证件图像的边缘位置关键点可以为图像的矩形顶点位置。在其他实施方式中，也可以为图像边缘的其它位置，本实施例不对边缘位置关键点的实现方式作限定。

矫正模型的训练过程包括但不限于以下几个步骤：

步骤1，获取第二训练数据。

可选地，获取第二训练数据的方式包括但不限于以下几种中的至少一种：

第一种：对于同一证件，按照非标准采集姿态采集该证件的证件图像，得到待矫正样本证件图像；按照标准化采集姿态采集该证件的证件图像，得到矫正后的样本证件图像；对矫正后的样本证件图像中的关键点进行位置标定，得到标签位置。

其中，标准化采集姿态是指：按照该姿态采集到的证件图像符合检测标准的图像采集姿态。换言之，按照标准化采集姿态采集到的证件图像能够被检测模型正确检测和识别。

非标准化采集姿态是指：按照该姿态采集到的证件图像不符合检测标准的图像采集姿态。换言之，按照非标准化采集姿态采集到的证件图像无法检测模型正确检测和识别。

图像采集姿态包括采集角度、抖动情况和/或采集位置。检测标准包括但不限于：图像分辨率达到分辨率阈值、图像的旋转角度在预设角度范围内、图像的完整程度达到完整程度阈值、图像的清晰度达到清晰度阈值和/或图像的饱和度达到饱和度阈值。

第二种：电子设备获取符合检测标准的样本证件图像，将该样本证件图像作为矫正后的样本证件图像；对矫正后的样本证件图像进行非标准化处理，得到待矫正样本证件图像；对矫正后的样本证件图像中的关键点进行位置标定，得到标签位置。

可选地，样本证件图像包括来源于公共样本集的图像和/或图像采集设备采集的图像，本申请不对样本证件图像的来源作限定。

可选地，非标准化处理包括但不限于：平移处理，以模拟用户拍摄图像时不同的采集位置；和/或，旋转处理，以模拟用户拍摄图像时不同的采集角度；和/或，模糊处理，以模拟用户拍摄图像时的抖动情况。当然，在其它实施例中，非标准化处理还可以包括其它处理方式，本实施例不对非标准化处理的方式作限定。

可选地，矫正后的样本证件图像的位置标定可以使用标定工具进行标定，或者是接收用户设置的标定结果。

可选地，对于每张矫正后的样本证件图像对应的待矫正样本证件图像，电子设备还可以对该待矫正样本证件图像进行数据扩展，得到扩展后的待矫正样本证件图像。这样，可以模拟不同外在因素导致手机拍摄的护照图像差异的情况，从而增加训练样本的丰富性，提高矫正模型的网络性能。

其中，数据扩展方式包括但不限于：平移、旋转、饱和度调整和/或图像缩放，本实施例不对数据扩展方式作限定。

平移方式包括在至少一个方向上进行预设离的平移操作。其中，至少一个方向包括但不限于：上、下、左、右、左上、左下、右上、或右下等八个方向的平移操作。每个方向对应的预设距离相同或不同，本实施例不对每个方向对应的预设距离的取值作限定。

旋转方式包括顺时针和/或逆时针旋转预设角度。比如：顺时针旋转30度、且逆时针旋转30度，从而获得不同角度的图像。

缩放方式包括将图像扩大至第一预设尺寸或者缩小至第二预设尺寸。第一预设尺寸和第二预设尺寸预存在第一设备中，且第一预设尺寸的尺寸值大于第二预设尺寸的尺寸值。

饱和度调整的方式包括使用色阶工具调节、或者使用曲线工具调节、或者使用色彩平衡工具调节等，本实施例不对饱和度调整的方式作限定。

可选地，由于矫正模型对输入图像的尺寸可能存在要求，比如：输入图像的尺寸固定为第二尺寸(如宽160像素、高为120像素)的图像，因此，需要将待校正样本证件图像的图像尺寸调整至第二尺寸。相应地，若待识别的证件图像不符合矫正模型的尺寸要求，电子设备也需要将该证件图像的尺寸调整至第二尺寸。

在一个示例中，将图像调整至第二尺寸，包括：采用双线性插值算法将图像调整至第二尺寸的图像。

双线性差值算法的原理包括：假设函数f在点P＝(x，y)的值为待计算的值，且已知函数f在Q11＝(x1，y1)、Q12＝(x1，y2)、Q21＝(x2，y1)、Q22＝(x2，y2)四个点的值。首先，在x方向进行线性插值，得到：

然后，在y方向进行线性插值，得到：

步骤2，构建初始矫正模型。

初始矫正模型与最终使用时的矫正模型的网络结构相同，网络参数不同。初始矫正模型具有初始化网络参数，该初始化网络参数是默认设置的。

在一个示例中，为了减少矫正模型在电子设备中占用的存储资源，初始矫正模型基于轻量级的主干网络建立，主干网络的网络层数小于第三阈值、且通道数小于第四阈值。相应地，矫正模型基于轻量级的主干网络建立。

其中，第三阈值小于或等于现有的轻量级神经网络模型的最小层数；第四阈值小于或等于现有的轻量级神经网络模型的最小通道数。可选地，第三阈值与第一阈值相同或不同，第四阈值与第二阈值相同或不同，本实施例不对第三阈值和第四阈值的取值作限定。

本实施例中，初始矫正模型包括自定义的矫正层，该矫正层用于将输入的关键点的位置矫正至标准位置。以图3所示的初始矫正模型为例，初始矫正模型包括特征提取层31，与该特征提取层相连的自定义的矫正层32，与矫正层相连的全连接层33。

特征提取层31用于对输入的图像进行关键点检测；矫正层32用于将特征提取层输出的关键点的位置，即矫正层输入的关键点的位置矫正至标准位置；全连接层33用于按照标准位置输出矫正后的图像。

示意性地，特征提取层31包括卷积层和池化层，在其他实施方式中，特征提取层31也可以通过其它方式实现关键点检测，本实施例不对特征提取层的网络结构作限定。

示意性地，矫正层32利用仿射变换公式矫正关键点的位置，该仿射变换公式如下：

其中，x和y表示坐标点，v表示矫正前的坐标点，u表示矫正后的坐标点，θ₁₁、θ₁₂、θ₁₃、θ₂₁、θ₂₂和θ₂₃6个参数是矫正层的矫正参数，该矫正参数通过对初始矫正模型进行训练得到，利用上述公式，可以得到矫正后的护照图像。

全连接层33用于将分布式特征表示映射到样本标记空间。

可选地，初始矫正模型还包括损失计算层，该损失计算层在训练完成时停止使用。损失计算层用于计算矫正层的输出结果与关键点的标签位置之间的差异，以训练矫正层中的矫正参数，使得该差异最小化。示意性地，损失计算层使用的损失函数包括但不限于：L1范数损失函数L1Loss、均方误差损失等，本实施例不对损失计算层使用的损失函数的类型作限定。

可选地，初始矫正模型还包括整个模型的其它损失函数，该其它损失函数用于使得模型输出图像与矫正后的样本证件图像之间的差异最小化。其它损失函数与损失计算层中的损失函数相同或不同，本实施例不对其它损失函数的函数类型作限定。

步骤3，将第二训练数据中的待矫正样本证件图像输入初始矫正模型，得到模型输出图像。

步骤4，将模型输出图像、矫正后的样本证件图像、以及矫正后的样本证件图像中关键点的标签位置输入损失计算层中的损失函数和其它损失函数，以对初始矫正模型进行迭代训练，得到矫正模型。

在训练得到矫正模型后，还可以获取第二测试数据，使用第二测试数据对矫正模型的网络性能进行测试；在矫正模型的网络性能符合性能要求时，使用该矫正模型识别证件图像；在矫正模型的网络性能不符合性能要求时，对该矫正模型再次训练。

其中，第二测试数据包括待矫正样本证件图像、矫正后的样本证件图像、以及矫正后的样本证件图像中关键点的位置标签。第二测试数据中的数据类型与第二训练数据中的数据类型相同，但第二测试数据中的数据内容与第二训练数据中的数据内容不同。

在得到矫正模型后，电子设备在步骤101之后，将证件图像输入矫正模型，得到矫正后的证件图像；然后，对该矫正后的证件图像执行步骤102，即，将矫正后的证件图像输入预训练的检测模型，得到字符区域中字符的位置信息和分类结果，该分类结果为字符的识别结果。

可选地，电子设备将证件图像输入矫正模型，得到矫正后的证件图像之前，还可以检测该证件图像是否符合检测模型的检测标准；在符合检测标准时，直接将证件图像输入检测模型，而不需要经过矫正模型的矫正；在不符合检测标准时，将该证件图像输入矫正模型，再将矫正后的证件图像输入检测模型进行识别。

检测标准包括但不限于：图像分辨率达到分辨率阈值、图像的旋转角度在预设角度范围内、图像的完整程度达到完整程度阈值、图像的清晰度达到清晰度阈值和/或图像的饱和度达到饱和度阈值。

综上所述，本实施例提供的证件图像识别方法，通过在识别证件图像之前，使用矫正模型对该证件图像进行矫正；可以保证检测模型能够正确识别证件图像中的字符，提高识别准确率。

图4是本申请一个实施例提供的证件图像识别装置的框图。该装置至少包括以下几个模块：图像获取模块410和图像识别模块420。

图像获取模块410，用于获取待识别的证件图像，所述证件图像包括待识别的字符区域；

图像识别模块420，用于将所述证件图像输入预训练的检测模型，得到所述字符区域中字符的位置信息和分类结果，所述分类结果为字符的识别结果

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的证件图像识别装置在进行证件图像识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将证件图像识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的证件图像识别装置与证件图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请一个实施例提供的证件图像识别装置的框图。该装置至少包括处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的证件图像识别方法。

在一些实施例中，证件图像识别装置还可选包括有：外围设备接口和至少一个外围设备。处理器501、存储器502和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，证件图像识别装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的证件图像识别方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的证件图像识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种证件图像识别方法，其特征在于，所述方法包括：

将原始证件图像输入预训练的矫正模型，得到矫正后的证件图像，所述矫正后的证件图像为待识别的证件图像；其中，所述矫正模型是使用多组第二训练数据训练得到的，每组第二训练数据包括待矫正样本证件图像、矫正后的样本证件图像、以及所述矫正后的样本证件图像中关键点的标签位置，所述关键点包括所述矫正后的样本证件图像的边缘位置关键点和所述矫正后的样本证件图像内的预设位置关键点，所述矫正后的样本证件图像包括人脸图像区域，所述预设位置关键点包括所述人脸图像区域的人脸关键点；所述矫正模型基于轻量级的主干网络建立；所述主干网络包括自定义的矫正层，所述矫正层用于将输入的关键点的位置利用仿射变换公式矫正至标准位置；所述证件图像包括待识别的字符区域；

2.根据权利要求1所述的方法，其特征在于，所述检测模型是使用多组第一训练数据训练得到的，每组第一训练数据包括样本证件图像、所述样本证件图像中字符的位置标签、以及所述样本证件图像中字符的分类标签；

3.根据权利要求2所述的方法，其特征在于，所述位置标签包括每个字符对应的第一位置标签和所述字符区域的第二位置标签。

4.根据权利要求1所述的方法，其特征在于，所述检测模型基于轻量级的基础网络建立，所述基础网络的网络层数小于第一阈值、且通道数小于第二阈值，所述检测模型还包括与所述基础网络相连的基于中心点的检测网络CenterNet；

其中，所述第一阈值小于或等于现有的轻量级神经网络模型的最小层数；所述第二阈值小于或等于现有的轻量级神经网络模型的最小通道数。

5.根据权利要求1所述的方法，其特征在于，所述矫正模型基于轻量级的主干网络建立，所述主干网络的网络层数小于第三阈值、且通道数小于第四阈值；

其中，所述第三阈值小于或等于现有的轻量级神经网络模型的最小层数；所述第四阈值小于或等于现有的轻量级神经网络模型的最小通道数。

6.根据权利要求1至5任一所述的方法，其特征在于，所述将所述证件图像输入预训练的检测模型，得到所述字符区域中字符的位置信息和分类结果之后，还包括：

在第一显示区域显示所述证件图像；

在第二显示区域显示所述字符。

7.一种证件图像识别装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的证件图像识别方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至6任一项所述的证件图像识别方法。