CN112017245B

CN112017245B - 证件定位方法

Info

Publication number: CN112017245B
Application number: CN202011116509.4A
Authority: CN
Inventors: 雷军; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-02-05
Anticipated expiration: 2040-10-19
Also published as: CN112017245A; WO2022083123A1

Abstract

本申请实施例涉及一种证件定位方法。获取待检测图像，将所述待检测图像输入目标检测模型，通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的顶点的位置信息、所述待检测图像中证件的方向信息。通过增加预测结构的数目来改变现有目标检测模型的结构，从而新增证件的目标检测中证件整体方向和证件顶点位置两项检测数据，实现了在更快证件检测的同时提升证件检测的效果。

Description

证件定位方法

技术领域

本申请实施例涉及目标检测技术领域，具体而言，涉及一种证件定位方法。

背景技术

目标检测是指对图像中的指定目标进行检测的技术，被广泛应用于机器人导航，智能视频监控、工业检测、航空航天等领域，目标检测是计算机视觉和数字图像处理的交叉，通过机器来执行目标检测能够使人们的生活更加便捷舒适。

在现代生活中，随着数字化建设的进行人们越来越频繁的在网上办理各种业务，在此过程产生了大量对带证件图像进行处理的任务，人们自然想到将目标检测应用到证件检测中，然而在现有的证件的目标检测中，检测过程较长，且检测结果也并不准确。

发明内容

鉴于上述现有的证件定位方法的检测过程较长且检测结果也并不准确的问题提出了本申请。本申请提供一种证件定位方法。

本申请实施例提供了一种证件定位方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入目标检测模型；

通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的顶点的位置信息、所述待检测图像中证件的方向信息。

可选的，所述目标检测模型采用one-stage结构；

所述目标检测模型包括骨干网络、颈部网络、头部网络；

所述骨干网络用于对所述待检测图像提取特征层；

所述颈部网络用于对所述特征层进行混合和组合；

所述头部网络用于对所述特征层进行预测。

可选的，所述头部网络包括多个用于对特征层进行预测的锚框；

所述锚框包括证件类型预测子网、证件位置预测子网、证件顶点预测子网、证件方向预测子网，上述四个子网的预测是同时进行的；

所述证件类型预测子网用于预测证件类型；

所述证件位置预测子网用于预测证件在所述待检测图像中的位置；

所述证件顶点预测子网用于预测证件的顶点在所述待检测图像中的位置；

所述证件方向预测子网用于预测证件在所述待检测图像中的方向。

可选的，所述骨干网络包括：

卷积网络，所述卷积网络包括以下任意一者：AlexNet、VGGNet、InceptionNet、ResNet、DenseNet；

丢弃网络，所述丢弃网络用于卷积过程中随机丢弃所述待检测图像中的某个参数。

可选的，所述丢弃网络丢弃的是所述待检测图像中某个区域全部像素。

可选的，所述丢弃网络丢弃的是所述待检测图像中某个区域的部分RGB通道。

可选的，所述丢弃网络将丢弃所述卷积网络中部分层的部分权重。

可选的，所述丢弃网络丢弃的所述卷积网络中的部分卷积层。

可选的，所述头部网络还包括：

区域提议网络，所述区域提议网络用于所述待检测图像中目标所在位置进行大致预测。

可选的，所述颈部网络包括以下任意一者：

特征金字塔网络、路径汇聚网络、NAS-FPN网络、Modified PAN网络、SPP网络。采用本申请实施例提供的证件定位方法，通过增加预测结构的数目来改变现有目标检测模型的结构，从而新增证件的目标检测中证件整体方向和证件顶点位置两项检测数据，实现了在更快证件检测的同时提升证件检测的效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的证件检测方法的流程图；

图2是本申请一实施例提出的基于one-stage结构的目标检测模型的示意图；

图3是本申请一实施例提出的丢弃网络丢弃卷积得到的特征层的示意图；

图4是本申请一实施例提出的特征金字塔网络Feature pyramid network的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有的证件的定位方法中所采取的技术方案通常是：首先，利用目标检测网络给出同一图片下包含的多个证件的位置信息（包含证件的矩形框的位置）和类别信息，然后，截取每个包含单个证件的矩形图像，送过单独的关键点定位网络中进行单个证件的四个顶点的定位。采用这个技术方案实现过程既繁琐又耗时，而且最后的检测效果也并不是特别好。为了在证件定位中达到更快更精准的效果，本申请通过增加预测结构的数目来改变现有目标检测模型的结构，从而新增证件的目标检测中证件整体方向和证件顶点位置两项检测数据，使目标检测模型更容易收敛，检测速度更快。

图1是本申请一实施例提出的证件定位方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101、获取待检测图像，在本实施例中，获取包含证件内容的待检测图像准备进行接下来的步骤，证件包括身份证、银行卡等。

步骤S102、将所述待检测图像输入目标检测模型，在本实施例中目标检测模型可以采用多种改进后的现有模型，现有模型可采用如one-stage的YOLO、SSD、CornerNet等模型，two-stage的R-CNN，Fast R-CNN，Faster R-CNN等模型。在这些现有模型中，一般只会预测物体类别概率和物体位置坐标值，本实施例中为更好的适应对证件的检测，在现有模型中增加模型的检测数据：增加对证件整体方向的检测，增加对证件顶点位置的检测。

在本申请实施例中可通过如在YOLO增加预测部分的预测分支、在R-FCN增加对特征增加投票器的种类等，来实现对现有模型进行调整，进而得到本申请实施例中的检测模型，以增加对待检测图像的检测数据。

本申请的实施例中还对目标检测模型进行了训练,以基于RetinaNet改进的目标检测模型示例说明本申请目标检测模型的建立和训练过程：

步骤S10201：修改目标检测RetinaNet网络架构，改进之处在于预测锚框除了原有的预测分类和预测包含目标的矩形框外，还会再增加两个分支预测锚框，一个预测锚框用于预测每个证件的整体方向（顺时针0-360度，两个窄边中线的角度），二个预测锚框用于预测每个证件的四个顶点位置坐标。

步骤S10202：收集多证件扫描件样本，人工标记出证件的类别、包含证件的矩形框、证件的整体方向以及证件的四个顶点位置坐标。

步骤S10203：设置用于证件定位的修改后目标检测RetinaNet的损失函数，损失函数为分类预测的损失、矩形框预测的损失、方向预测的损失以及四顶点坐标预测的损失的加权和。

步骤S10204：对目标检测模型进行训练，输入带有多个证件的扫描图片，将图像尺寸调整为640*640的彩图，并采取一定的数据增强策略如调整光照，随机旋转、对色度、亮度以及模糊处理等措施处理图片，对模型进行训练。采用tensorflow框架进行模型训练，优化器使用adam，初始化学习率为0.01，每1000轮学习率衰减十分之一。

步骤S10205：对训练完成的模型进行测试，将测试图像尺寸调整为640*640的彩图输入目标检测模型，得到各个证件的分类以及四个顶点的位置信息，对比目标检测模型输出的预测结果与真实标记的差异。

步骤S103、通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的四个顶点的位置信息、所述待检测图像中证件的方向信息。

本申请的实施例中的目标检测模型会检测四个方向的信息：证件的类型信息、证件的位置信息、证件的顶点的位置信息、证件的方向信息。

其中，证件的类型信息是指证件为何种类型，如证件是身份证还是银行卡。证件位置信息是指证件在图像中的位置，如证件的中心点坐标，或者是能够包含完整证件的最小框的四个点的坐标。证件的顶点的位置信息是指证件的顶点的位置坐标，取证件边缘相交的点作为证件的顶点，计算顶点在图像中的坐标，例如证件一般都为规则的矩形，可以取矩形的四个顶点为证件顶点。证件方向信息是指证件在图像中表现出来的整体方向，如证件底边与水平之间的夹角等。

本申请实施例中，由于在目标检测模型的预测过程中由于计算了证件的方向信息，使得在对证件顶点定位时，通过证件方向信息的配合，会使得目标检测模型更容易收敛。

现有技术中，例如，图像中包含某个身份证的图片，如果想要将它的顶点位置预测出来，就需要结合不同的方法来对顶点进行预测如集合周围的像素通过判断证件边缘是否于此相交，成功预测定点后再输出顶点的位置信息。但是，无论是通过何种方法都意味着更大的计算量，更长的计算时间。并且证件顶点由于是不依赖其他数据自己进行独立的判断，那么在错误判断的几率就比较大，使得模型收敛的难度上升。

而本申请实施例中在预测顶点的位置信息时由于之前预测了证件方向信息，使得证件顶点位置信息的预测过程中可以依靠这个方向信息，例如，想要对某个身份证的顶点进行检测，可以依据方向信息预测证件在此方向上的边缘的最后一个像素点，预测的最后一个像素点就是顶点。当然利用方向判断顶点还存在其他方法，如依据方向预测边缘空白像素点的位置，预测得到的空白像素点相邻方向就为证件顶点。可以看出，在目标检测过程中增加了方向预测条件的辅助使得目标检测模型更容易收敛。同时，由于增加了方向信息的辅助使得顶点的定位比模型单独进行顶点的预测更加快速。通过对本申请实施例中的目标检测模型与原先现有模型进行实验对比也证明了上述优点。

根据本申请实施例的证件定位方法，获取待检测图像；将所述待检测图像输入目标检测模型；通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的顶点的位置信息、所述待检测图像中证件的方向信息，可以通过增加预测结构的数目来改变现有目标检测模型的结构，从而新增证件的目标检测中证件整体方向和证件顶点位置两项检测数据，实现了在更快证件检测的同时提升证件检测的效果。

在本申请的一个可选实施例中，目标检测模型采用图2所示的结构，所述目标检测模型采用one-stage结构；

所述目标检测模型包括骨干网络201、颈部网络202、头部网络203；所述骨干网络201用于对所述待检测图像提取特征层；所述颈部网络202用于对所述特征层进行混合和组合；所述头部网络203用于对所述特征层进行预测。

在目标检测的经典的one-stage结构中，模型依据目标检测中的问题分为骨干网络、颈部网络、头部网络三部分。

骨干网络201用于在图像中提取特征信息，以便进行后续的处理。骨干网络的选择关系到特征信息的质量，高质量的特征信息能够达到更准确的识别结果。

进一步的，所述骨干网络201包括：卷积网络，所述卷积网络包括以下任意一者：AlexNet、VGGNet、InceptionNet、ResNet、DenseNet；

对于骨干网络201用于提取特征的算法的选择，本申请的实施例并不作限制，即可以选择经典的CNN，也可以选择其他用于特征提取的算法。骨干网络在特征提取中还可以包含其他网络，如丢弃网络，丢弃网络在卷积过程中丢弃部分参数，使后续的模型不会过于计中在某些特征上，使得后续的模型不会过拟合，具有更强的适用性。例如，当证件中包含国徽时，对这部分特征得丢弃，使得头部网络得预测将考虑证件颜色，证件中国籍处的文字等。应当注意，从上述对丢弃网络的描述中可以看出丢弃网络大多数情况都只在训练过程中使用，使得模型权重的分布更加全面，使模型在训练中能注意到多方面的特征。

进一步的，通过对丢弃网络的介绍可知，丢弃网络实现目的的方式是多样的，所述丢弃网络丢弃的是所述待检测图像中某个区域全部像素、所述丢弃网络丢弃的是所述待检测图像中某个区域的部分RGB通道。既然丢弃网络的目的是通过对某些特征的丢弃使得后续的网络如头部网络注意到其他特征，那么丢弃网络可以简单的直接丢弃掉图像中的部分像素，使这部分像素不会进入到后续过程。或者，丢弃网络将待检测图像中某个区域的RGB通道，这会使被丢弃区域的颜色部分丢失，使得后续过程无法依赖此区域的颜色特征。

进一步的，所述丢弃网络将丢弃所述卷积网络中部分层的部分权重。

或者，丢弃网络也可以采用另一种简单的方法，直接丢弃后续模型的部分权重，如将头部网络中的预测模型的权重的部分丢弃，使得头部网络在预测中在不受丢弃权重的影响，对未丢弃的权重进行训练。

进一步的，所述丢弃网络丢弃的所述卷积网络中的部分卷积层。

与丢弃图像中的部分像素类似的，丢弃网络也可以丢弃卷积得到的特征的几个通道，使得特征层的部分不会进入到后续的处理的。如图3所示，例如，图3中的迭代1中选择将某个卷积得到的特征层中浅色丢弃或者图3中的迭代3将卷积层的浅色部分路径丢弃，用剩下的路径作训练以及图3中的迭代2和迭代3表示将只选择卷积层中的一条路径进行训练，对于剩余路径再依次选择进行训练，这样可以看到各个路径的特征的能力。本申请实施例自然可以选择其他丢弃的方式，来实现使模型在训练中能注意到多方面的特征，防止过拟合的目的，并不会局限于上述方法。

所述颈部网络202用于对所述特征层进行混合和组合，由于骨干网络在卷积后会对特征层进行池化，池化后图像的大小会减少，相应的细节特征也会消失，颈部网络对于最终输出用于预测的特征层，也需要将中间的卷积层混合和组合。

进一步的，所述颈部网络202包括以下任意一者：特征金字塔网络、路径汇聚网络、NAS-FPN网络、Modified PAN网络、SPP网络。

示例的，本申请实施例采用图4的特征金字塔网络Feature pyramid network网络，FPN将经过骨干网络输出的特征层进行自下而上的排列，将成2倍的减小的归为一个阶段，将那些输出的尺寸不变的层，把他们归为一个阶段，这样保证每个stage的最后一层输出的特征就能够被抽取出来。

将高层得到的特征层进行上采样，然后往下一层传递，本申请实施例中上采样方法有多种如最邻近上采样，自上而下的上采样使得特征图扩大2倍。

对于每个阶段输出的特征层都先进行一个卷积降低维度，将卷积得到的特征与上采样得到的特征层融合，对融合后的特征层进行卷积得到本层输出。

所述头部网络203用于对所述特征层进行预测，头部网络将对于颈部网络202输入的特征层进行预测，进一步的，所述头部网络还包括：区域提议网络，所述区域提议网络用于所述待检测图像中目标所在位置进行大致预测。头部网络对于颈部网络的每层的特征层，先预测特征层中物体大致的区域，当预测得到包含证件的区域后，头部网络将对细节进行预测。

所述头部网络203包括多个用于对特征层进行预测的锚框；所述锚框包括证件类型预测子网、证件位置预测子网、证件顶点预测子网、证件方向预测子网，上述四个子网的预测是同时进行的；所述证件类型预测子网用于预测证件类型；所述证件位置预测子网用于预测证件在所述待检测图像中的位置；所述证件顶点预测子网用于预测证件的顶点在所述待检测图像中的位置；所述证件方向预测子网用于预测证件在所述待检测图像中的方向。

头部网络203对于每个特征层将会生成多个不同大小的锚框，每个锚框包括证件类型预测子网、证件位置预测子网、证件顶点预测子网、证件方向预测子网四个子网。这四个子网分别用于预测证件类型、证件在所述待检测图像中的位置、证件的顶点在所述待检测图像中的位置、证件在所述待检测图像中的方向。在本申请实施例中上述四个子网是同时进行的，以便能够实时交换信息，子网的预测能够建立在更多的信息上。例如，想要对某个身份证的顶点进行检测，可以依据方向信息预测证件在此方向上的边缘的最后一个像素点，预测的最后一个像素点就是顶点，当然利用方向判断顶点还存在其他方法如依据方向预测边缘空白像素点的位置，预测得到的空白像素点相邻方向就为证件顶点。可以看出，在目标检测过程中增加了方向预测条件的辅助使得目标检测模型更容易收敛。同时，由于增加了方向信息的辅助使得顶点的定位比模型单独进行顶点的预测更加快速。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种证件定位方法，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种证件定位方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入目标检测模型；

通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的顶点的位置信息、所述待检测图像中证件的方向信息；

所述目标检测模型为深层神经网络，所述目标检测模型包括：证件类型预测子网、证件位置预测子网、证件顶点预测子网、证件方向预测子网，上述四个子网的预测是同时进行的；

所述证件类型预测子网用于预测证件类型；

2.根据权利要求1所述的方法，其特征在于，所述目标检测模型采用one-stage结构；

所述目标检测模型包括骨干网络、颈部网络、头部网络；

所述骨干网络用于对所述待检测图像提取特征层；

所述颈部网络用于对所述特征层进行混合和组合；

所述头部网络用于对所述特征层进行预测。

3.根据权利要求2所述的方法，其特征在于，所述头部网络包括多个用于对特征层进行预测的锚框；

所述锚框包括证件类型预测子网、证件位置预测子网、证件顶点预测子网、证件方向预测子网，上述四个子网的预测是同时进行的。

4.根据权利要求2所述的方法，其特征在于，所述骨干网络包括：

5.根据权利要求4所述的方法，其特征在于，所述丢弃网络丢弃的是所述待检测图像中某个区域全部像素。

6.根据权利要求4所述的方法，其特征在于，所述丢弃网络丢弃的是所述待检测图像中某个区域的部分RGB通道。

7.根据权利要求4所述的方法，其特征在于，所述丢弃网络将丢弃所述卷积网络中部分层的部分权重。

8.根据权利要求4所述的方法，其特征在于，所述丢弃网络丢弃的所述卷积网络中的部分卷积层。

9.根据权利要求4所述的方法，其特征在于，所述头部网络还包括：

10.根据权利要求2所述的方法，其特征在于，所述颈部网络包括以下任意一者：

特征金字塔网络、路径汇聚网络、NAS-FPN网络、Modified PAN网络、SPP网络。