CN114240952A - 证件定位方法、装置、电子设备以及可读存储介质 - Google Patents

证件定位方法、装置、电子设备以及可读存储介质 Download PDF

Info

Publication number
CN114240952A
CN114240952A CN202111534842.1A CN202111534842A CN114240952A CN 114240952 A CN114240952 A CN 114240952A CN 202111534842 A CN202111534842 A CN 202111534842A CN 114240952 A CN114240952 A CN 114240952A
Authority
CN
China
Prior art keywords
certificate
image
target
model
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111534842.1A
Other languages
English (en)
Inventor
尹天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202111534842.1A priority Critical patent/CN114240952A/zh
Publication of CN114240952A publication Critical patent/CN114240952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种证件定位方法、装置、电子设备以及可读存储介质,该方法先获取样本图像,其中,样本图像可以通过对目标证件的原始图像进行变换得到,再对样本图像中目标证件的所有顶点坐标进行标注,并基于样本图像构建损失函数,基于该损失函数进行模型参数迭代至收敛,以获得模型定位模块,该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练,且对目标证件的所有顶点进行标注,该变换包括旋转、斜切、扭曲、透视、仿射等,使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位,为后续证件中信息的检测、识别、提取等提供了基础,扩大了证件定位的适用性。

Description

证件定位方法、装置、电子设备以及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种证件定位方法、装置、电子设备以及可读存储介质。
背景技术
身份信息的采集和验证在人们的社会活动中被广泛应用,其中,在图像中高效、准确地定位、识别证件信息是身份信息采集验证的关键之一。
目前,相关技术常通过预测边框左上角顶点或中心点的坐标(x,y)以及预测框的宽度w、高度h在图像中定位证件的位置,依据x、y、w、h四个参数可预测得到规整的矩形边框,但是,该方法对图像中非规整矩形的证件无法做到有效检测,定位准确度较低,适用范围小。
发明内容
本发明实施例的目的在于提供一种证件定位方法、装置、电子设备以及可读存储介质,以实现提高证件定位的准确度,对图像中非规整形状的证件有效检测的效果。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种证件定位模型训练方法,该方法可以包括:
获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
对所述样本图像中所述目标证件的所有顶点坐标进行标注;
基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
可选地,所述基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得所述证件定位模型,包括:
将所述样本图像分割为第一预设个数的网格;
预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个;
对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度;
确定所述第一概率值、所述置信度中至少一个对应的损失函数;
根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
可选地,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
可选地,所述对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度,包括:
确定所述边界框中包括所述目标证件的第二概率值;
根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比;
根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
可选地,所述将所述样本图像分割为第一预设个数的网格,包括:
将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
在本发明实施的第二方面,还提供了一种证件定位方法,该方法可以包括:
获取待测图像;
将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过如第一方面所述的证件定位模型训练方法训练得到;
获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
可选地,所述获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标之后,还包括:
根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
在本发明实施的第三方面,提供了一种证件定位模型训练装置,该装置可以包括:
样本获取模块,用于获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
样本标注模块,用于对所述样本图像中所述目标证件的所有顶点坐标进行标注;
模型训练模块,用于基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
可选地,所述模型训练模块,包括:
样本分割子模块,用于将所述样本图像分割为第一预设个数的网格;
网格预测子模块,用于预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个;
边界框预测子模块,用于对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度;
损失函数确定子模块,用于确定所述第一概率值、所述置信度中至少一个对应的损失函数;
模型参数迭代子模块,用于根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
可选地,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
可选地,所述边界框预测子模块,包括:
概率确定单元,用于确定所述边界框中包括所述目标证件的第二概率值;
交并比确定单元,用于根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比;
置信度确定单元,用于根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
可选地,所述样本分割子模块,具体用于将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
在本发明实施的第四方面,还提供了一种证件定位装置,该装置可以包括:
图像获取模块,用于获取待测图像;
模型输入模块,用于将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过如第三方面所述的证件定位模型训练装置训练得到;
模型输出模块,用于获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
可选地,所述装置还包括:
目标图像获取模块,用于根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
在本发明实施的第五方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如第一方面所述的证件定位模型训练方法步骤,或如第二方面所述的证件定位方法步骤。
在本发明实施的第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的证件定位模型训练方法步骤,或第二方面所述的证件定位方法步骤。
在本发明实施的第七方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的证件定位模型训练方法步骤,或第二方面所述的证件定位方法步骤。
本发明实施例中,先获取样本图像,其中,样本图像可以通过对目标证件的原始图像进行变换得到,再对样本图像中目标证件的所有顶点坐标进行标注,并基于样本图像构建损失函数,基于该损失函数进行模型参数迭代至收敛,以获得模型定位模块,该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练,且对目标证件的所有顶点进行标注,该变换包括旋转、斜切、扭曲、透视、仿射等,使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位,为后续证件中信息的检测、识别、提取等提供了基础,扩大了证件定位的适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种证件定位模型训练方法的步骤流程图;
图2为本发明实施例提供的另一种证件定位模型训练方法的步骤流程图;
图3为本发明实施例提供的一种证件定位方法的步骤流程图;
图4为本发明实施例提供的一种证件定位模型训练装置的结构框图;
图5为本发明实施例提供的一种证件定位装置的结构框图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
图1是本发明实施例提供的一种证件定位模型训练方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种。
本发明实施例中,证件指身份证、学生证、会员卡、工作证等用于表明身份、经历信息的证书和文件,证件通常具有统一的规格,包括颜色、尺寸、格式等,目标证件为需要进行定位、识别的任一种证件;原始图像指包含目标证件的图像,可选地,原始图片可以是现场拍摄得到,也可以是从本地存储得到,也可以是从远端服务器下载得到等,其中,目标证件可以是规整的,如原始图像可以是对目标证件正面或背面正视角度拍摄得到的图像,也可以是不规整的,如原始图像可以是对目标证件的正面或背面在一定倾斜角度下拍摄得到的图像,本发明实施例对原始图像的来源不作具体限制。
本发明实施例中,样本图像可以是对目标证件的原始图像进行变换得到的图像,其中,原始图像可以是一个或多个,多个原始图像中包括同种目标证件,可选地,变换可以包括旋转、斜切、扭曲、透视、仿射等,本领域技术人员可以根据需求对原始图像进行不同方式的一种或多种变换,上述变换的方式仅用于举例,本领域技术人员可以根据需求选择其他方式的变换,本发明实施例对此不作具体限制。
在本发明实施中涉及的相关数据,包括但不限于包含证件的原始图像,均由组织、机构、个人等授权后采集得到。
步骤102、对所述样本图像中所述目标证件的所有顶点坐标进行标注。
本发明实施例中,目标证件可以是圆形、三角形、矩形、六边形等任意形状,其顶点坐标的数量不定,可以对样本图像中目标证件的所有顶点坐标标注,以便于对发生变换的样本图像中目标图像的形状、位置进行标注,其中,圆形可以标注圆形边界上任意不重合的三点作为顶点坐标,可选地,可以进行人工标注,也可以采用标注软件进行标注,在通过标注软件标注目标证件的所有顶点坐标后可以导出标注文件,再根据标注文件生成模型训练中需求的标签文本文件,通过标签文本文件完成对样本图像的标注,可选地,标注文件可以是XML(Extensible Markup Language,可扩展标记语言)格式,也可以是标注软件的其他自定义格式,本发明实施例对此不作具体限制。
步骤103、基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
本发明实施例中,损失函数用于表征模型对单个训练样本的预测结果以及该训练样本实际情况之间的相差程度,以评价模型性能,不同模型训练中可以采用不同的损失函数对模型性能进行评估,以确定训练得到的模型是否能满足实际的应用需求,在本发明实施中得到样本图像后可以基于样本图像构建损失函数,并根据损失函数对模型参数进行迭代至模型收敛,获得证件定位模型。本领域技术人员可以根据实际需求选择对应的模型以及损失函数,本发明实施例对此不作具体限制。
本发明实施例中,证件定位模型可以采用样本图像利用多层卷积神经网络训练得到,其中,多层卷积神经网络由多个卷积神经网络按照预设顺序设置得到,可以分别提取样本图像的卷积特征,再根据预设顺序将提取的卷积特征依次传递至后续的卷积神经网络,从而得到样本图像中证件的位置,基于样本图像中对原始图像的变换,使得证件定位模型可以学习证件在不同倾斜角度、不同旋转角度、不同投影映射角度等的特征,从而拓宽模型的适应性。
本发明实施例中,先获取样本图像,其中,样本图像可以通过对目标证件的原始图像进行变换得到,再对样本图像中目标证件的所有顶点坐标进行标注,并基于样本图像构建损失函数,基于该损失函数进行模型参数迭代至收敛,以获得模型定位模块,该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练,且对目标证件的所有顶点进行标注,该变换包括旋转、斜切、扭曲、透视、仿射等,使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位,为后续证件中信息的检测、识别、提取等提供了基础,扩大了证件定位的适用性。
图2是本发明实施例提供的另一种证件定位方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种。
本发明实施例中,步骤201可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
如,待识别的证件为身份证,原始图像为规整四边形的身份证图像,经过对原始图像的旋转、斜切、扭曲、透视、仿射等变换操作得到样本图像。
步骤202、对所述样本图像中所述目标证件的所有顶点坐标进行标注。
本发明实施例中,步骤202可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
如,对样本图像中身份证四个顶点坐标进行标注,确定8个坐标值(x0,y0,x1,y1,x2,y2,x3,y3)。
步骤203、将所述样本图像分割为第一预设个数的网格。
本发明实施例中,可以采用包括卷积神经网络YOLO(You Only Look Once,你只用看一眼)的多层卷积神经网络对样本图像进行训练得到证件定位模型,其中,YOLO模型是一种将物体检测作为回归问题求解的模型,可以基于端到端网络完成输入原始图像到输出识别的物体位置和类别,采用上述样本图像进行YOLO模型训练后得到的证件定位模型在快速识别、高效检测的同时,能够提高证件定位的准确度,可选地,其中,YOLO模型可以对应YOLO算法的不同版本,如YOLOv1(YOLO version1,YOLO版本1)、YOLOv2、YOLOv3、YOLOv4、YOLOv5等,本领域技术人员可以根据实际需求选择对应的版本,本发明实施例对此不做具体限制。
本发明实施例中,可以将样本图像分割为第一预设个数的网格,在YOLO模型中,可以对不同网格分别预测从而确定包含证件的边界框尺寸、位置,对网格的划分可以根据模型训练条件进行调整。
可选地,所述步骤203具体包括:
将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
本发明实施例中,可以先将样本图像缩放至预设尺寸,再将缩放后的样本图像分割为第一预设个数的网格,其中,预设尺寸可以根据样本图像的尺寸、模型应用需求等具体设置;第一预设个数可以记为“S×S”个,第一预设个数可以根据预设尺寸、模型实际性能、模型应用需求等具体设置,可选地,可以采用CNN(Convolutional Neural Networks,卷积神经网络)对样本图像进行分割,本发明实施例对此不作具体限制。
如,将样本图像缩放至418×418的预设尺寸,并通过CNN将缩放后的样本图像分割为7×7的网格。
步骤204、预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个。
本发明实施例中,对样本图像分割后的每一个网格,可以预测包含对象,且对象为目标证件的第一概率值,可选地,由于样本图像中除显示目标证件外还可能存在显示其他对象,其中,其他对象可能包括获取目标证件时被摄入画面的其他物体等,将目标证件作为一个类别的对象,则样本图像中可能包括目标证件在内的至少一类对象,此时,可以先检测包含任意对象中心点的网格,并将网格与中心点落入该网格的对象对应,再进一步确定网格对应的对象的类别为目标证件的概率,从而预测每个网格中包含目标证件的第一概率值,在此基础上,第一概率值表示对应网格包含对象,且对象为目标证件的概率。
如,对7×7的网格中每一网格预测网格中包含对象,且对象为身份证图像的第一概率值。
步骤205、对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度。
本发明实施例中,边界框指以网格为起点预测的网格所包含对象对应的边框,该对象可以是目标证件也可以是其他对象,第二预设个数可以根据网格数量、模型应用需求、模型训练条件等具体设置,边界框的顶点数量可以对应目标证件的顶点数量,也可以设置为固定数量,如边界框可以是四个顶点的矩形,此时,边界框对应的置信度可以用于表示预测的边界框包含目标证件的预测可信度。
如,对7×7的网格中每一网格预测B个边界框,以及该边界框对应的置信度。
可选地,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
本发明实施例中,边界框可以囊括目标证件的边界,以完整包含目标证件,因此,在基于网格预测目标证件的顶点坐标以获得边界框时,还可以进一步预测边界框中包含对象的概率,以区分样本图像中的背景与对象,从而置信度可以表示网格对应的边界框完整包含对象的特征的可信程度。
可选地,所述步骤205包括:
步骤S11、确定所述边界框中包括所述目标证件的第二概率值。
步骤S12、根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比。
步骤S13、根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
本发明实施例中,样本图像中标注有目标证件的所有顶点坐标,可选地,在对象仅包括目标证件时,样本图像中标注有目标证件的顶点坐标,在对象包括目标证件以及其他种类的对象时,可以分别标注不同种类的对象对应的顶点坐标,也可以仅对目标证件的所有顶点坐标进行标注。置信度用于表示边界框包含对象的概率,以及基于边界框的坐标预测对象的顶点坐标的准确程度,可选地,可以先确定边界框中包括对象而不是背景的第二概率值,再根据边界框的顶点坐标与对象的位置坐标确定交并比,其中,交并比为两框面积的交集和并集的比值,可以表示边界框对与对象边界的重合程度,从而可以表示边界框预测对象顶点坐标的准确度,因此,根据第二概率值与交并比确定的边界框对应的置信度可以表示上述含义。
步骤206、确定所述第一概率值、所述置信度中至少一个对应的损失函数。
本发明实施例中,可以通过第一概率值、置信度中的至少一个确定损失函数值以进行参数调整,如预测的第一概率值与网格包含或不包含对象是否匹配,置信度中边界框的坐标相对于实际坐标的准确度,第二概率值与边界框包含或包含对象的匹配程度等,其中,第一概率值对应的损失函数如公式(1)所示:
Figure BDA0003412786610000091
其中,S2为第一预设个数的网格,
Figure BDA0003412786610000092
表示是否有object(对象)的中心落在第i个网格中,c表示样本图像中对象的类别,本发明实施例中可以是目标证件,pi(c)为预测的网格对应对象属于c类的第一概率值,
Figure BDA0003412786610000101
为实际的网格对应对象属于c类的第一概率值;
第二概率值对应的损失函数如公式(2)所示:
Figure BDA0003412786610000102
其中,S2为第一预设个数的网格,B为第二预设个数的边界框,Ci为预测的第二概率值,
Figure BDA0003412786610000103
为实际的第二概率值,
Figure BDA0003412786610000104
表示含object边界框的第二概率值的损失函数,
Figure BDA0003412786610000105
表示不含object边界框的第二概率值的损失函数;
以目标证件为身份证为例,边界框的四个顶点坐标的损失函数如公式(3)所示:
Figure BDA0003412786610000106
其中,S2为第一预设个数的网格,B为第二预设个数的边界框,
Figure BDA0003412786610000107
表示第i个网格中的第j个边界框是否预测该object,x1i、y1i、x2i、y2i、x3i、y3i、x4i、y4i为边界框预测的八个坐标值,即预测的四个顶点坐标,
Figure BDA0003412786610000108
Figure BDA0003412786610000109
为对象实际的八个坐标值,即对象实际的四个顶点坐标。
步骤207、根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
本发明实施例中,步骤207可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
本发明实施例中,先获取样本图像,其中,样本图像可以通过对目标证件的原始图像进行变换得到,再对样本图像中目标证件的所有顶点坐标进行标注,并基于样本图像构建损失函数,基于该损失函数进行模型参数迭代至收敛,以获得模型定位模块,该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练,且对目标证件的所有顶点进行标注,该变换包括旋转、斜切、扭曲、透视、仿射等,使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位,为后续证件中信息的检测、识别、提取等提供了基础,扩大了证件定位的适用性。
图3是本发明实施例提供的一种证件定位方法的步骤流程图,如图3所示,该方法可以包括:
步骤301、获取待测图像。
本发明实施例中,待测图像指需要对图像中的目标证件进行确认、定位的图像,待测图像的来源可以是用户上传的图像,或现场拍摄的图像等,或者也可以是采用可定位规整形状的定位模型检测失败的图像,本发明实施例对此不作具体限制。
步骤302、将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过如图1、2任一所述的证件定位模型训练方法训练得到。
本发明实施例中,证件定位模型可以是由图1、2任一所述的证件定位模型训练方法训练得到的,也可以进一步的在样本图像中加入包含目标文件规整形状的图像训练,使得证件定位模型对规整形状、非规整形状的目标证件均能够实现有效定位,此时,可以将待测图像输入证件定位模型,以使证件定位模型能够对待测图像中的目标证件进行定位。
步骤303、获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
本发明实施例中,在待测图像中存在目标证件的情况下,证件定位模型可以输出目标证件的所有顶点坐标,从而完成对目标证件的定位,对待测图像中目标证件的准确定位可以有效辅助后续证件中信息的检测、识别、提取等;而在证件定位模型无法定位到包含目标证件的网格、边界框等情况下,则可以认为待测图像中不存在目标证件,无需继续后续的证件信息检测、识别、提取等工作。
可选地,所述步骤305之后,还包括:
根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
本发明实施例中,在获取证件定位模型输出的待测图像对应的顶点坐标后,还可以根据顶点坐标对待测图像进行裁剪,以去除待测图像中目标证件以外的区域,获得仅包含目标证件的目标图像,目标图像可以用于后续对目标证件的文本检测、识别以提取目标证件的信息,并避免其他信息的干扰,提高目标证件信息提取的准确度和效率。
本发明实施例中,采用证件定位模型对待测图像中的目标证件进行定位,其中证件定位模型采用图1至2任一所述的模型训练方法训练得到,因此,该证件定位模型可以对待测图像中是否存在目标证件进行预测,并对形状不规整目标证件的所有顶点坐标进行定位,从而能够保证在待测图像中对非规整形状的目标证件也能有效检测,定位准确度高,适用范围广,为后续身份图像中文本的检测、识别等提供了基础,扩大了证件定位的适用性。
图4是本发明实施例提供的一种证件定位模型训练装置40的结构框图,如图4所示,该装置可以包括:
样本获取模块401,用于获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
样本标注模块402,用于对所述样本图像中所述目标证件的所有顶点坐标进行标注;
模型训练模块403,用于基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
可选地,所述模型训练模块403,包括:
样本分割子模块,用于将所述样本图像分割为第一预设个数的网格;
网格预测子模块,用于预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个;
边界框预测子模块,用于对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度;
损失函数确定子模块,用于确定所述第一概率值、所述置信度中至少一个对应的损失函数;
模型参数迭代子模块,用于根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
可选地,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
可选地,所述边界框预测子模块,包括:
概率确定单元,用于确定所述边界框中包括所述目标证件的第二概率值;
交并比确定单元,用于根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比;
置信度确定单元,用于根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
可选地,所述样本分割子模块,具体用于将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
本发明实施例中,先获取样本图像,其中,样本图像可以通过对目标证件的原始图像进行变换得到,再对样本图像中目标证件的所有顶点坐标进行标注,并基于样本图像构建损失函数,基于该损失函数进行模型参数迭代至收敛,以获得模型定位模块,该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练,且对目标证件的所有顶点进行标注,该变换包括旋转、斜切、扭曲、透视、仿射等,使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位,为后续证件中信息的检测、识别、提取等提供了基础,扩大了证件定位的适用性。
图5是本发明实施例提供的一种证件定位装置50的结构框图,如图5所示,该装置可以包括:
图像获取模块501,用于获取待测图像;
模型输入模块502,用于将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过如第三方面所述的证件定位模型训练装置训练得到;
模型输出模块503,用于获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
可选地,所述装置还包括:
目标图像获取模块,用于根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
本发明实施例中,采用证件定位模型对待测图像中的目标证件进行定位,其中证件定位模型采用图4所述的模型训练装置训练得到,因此,该证件定位模型可以对待测图像中是否存在目标证件进行预测,并对形状不规整目标证件的所有顶点坐标进行定位,从而能够保证在待测图像中对非规整形状的目标证件也能有效检测,定位准确度高,适用范围广,为后续身份图像中文本的检测、识别等提供了基础,扩大了证件定位的适用性。
图6是本发明实施例提供的一种电子设备的结构示意图,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
对所述样本图像中所述目标证件的所有顶点坐标进行标注;
基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
可选地,所述基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得所述证件定位模型,包括:
将所述样本图像分割为第一预设个数的网格;
预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个;
对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度;
确定所述第一概率值、所述置信度中至少一个对应的损失函数;
根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
可选地,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
可选地,所述对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度,包括:
确定所述边界框中包括所述目标证件的第二概率值;
根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比;
根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
可选地,所述将所述样本图像分割为第一预设个数的网格,包括:
将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
或,处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获取待测图像;
将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过如第一方面所述的证件定位模型训练方法训练得到;
获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
可选地,所述获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标之后,还包括:
根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的证件定位方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的证件定位方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种证件定位模型训练方法,其特征在于,所述方法包括:
获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
对所述样本图像中所述目标证件的所有顶点坐标进行标注;
基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
2.根据权利要求1所述的方法,所述基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得所述证件定位模型,包括:
将所述样本图像分割为第一预设个数的网格;
预测每个所述网格中包含对象,且所述对象为所述目标证件的第一概率值,所述样本图像中包括至少一个对象,所述目标证件为所述对象中的一个;
对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度;
确定所述第一概率值、所述置信度中至少一个对应的损失函数;
根据所述损失函数对所述模型参数进行迭代,至获得符合预设训练条件的所述证件定位模型。
3.根据权利要求2所述的方法,其特征在于,所述置信度用于表示所述边界框包含所述目标证件的概率,以及基于所述边界框的所述顶点坐标预测所述目标证件的所述顶点坐标的准确度。
4.根据权利要求2所述的方法,其特征在于,所述对每个所述网格预测第二预设个数的边界框,以及所述边界框对应的置信度,包括:
确定所述边界框中包括所述目标证件的第二概率值;
根据所述边界框的所述顶点坐标与所述目标证件的所述顶点坐标确定交并比;
根据所述第二概率值与所述交并比确定所述边界框对应的置信度。
5.根据权利要求2所述的方法,其特征在于,所述将所述样本图像分割为第一预设个数的网格,包括:
将所述样本图像缩放至预设尺寸,并将缩放后的所述样本图像分割为第一预设个数的网格。
6.一种证件定位方法,其特征在于,所述方法包括:
获取待测图像;
将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过权利要求1-5任一项所述的证件定位模型训练方法训练得到;
获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
7.根据权利要求6所述的方法,其特征在于,所述获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标之后,还包括:
根据所述顶点坐标对所述待测图像进行裁剪获得目标图像。
8.一种证件定位模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取样本图像,所述样本图像通过对目标证件的原始图像进行变换得到,所述变换包括旋转、斜切、扭曲、透视、仿射中的至少一种;
样本标注模块,用于对所述样本图像中所述目标证件的所有顶点坐标进行标注;
模型训练模块,用于基于所述样本图像构建损失函数,并基于所述损失函数对模型参数进行迭代至收敛,获得证件定位模型。
9.一种证件定位装置,其特征在于,所述装置包括:
图像获取模块,用于获取待测图像;
模型输入模块,用于将所述待测图像输入证件定位模型,以使所述证件定位模型对所述待测图像中的目标证件进行定位,所述证件定位模型通过权利要求8所述的证件定位模型训练装置训练得到;
模型输出模块,用于获取所述证件定位模型在所述待测图像中存在所述目标证件的情况下输出的所述目标证件的顶点坐标。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如权利要求1~5所述的证件定位模型训练方法步骤,或如权利要求6-7任一所述的证件定位方法步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5所述的证件定位模型训练方法步骤,或如权利要求6-7任一所述的证件定位方法步骤。
CN202111534842.1A 2021-12-15 2021-12-15 证件定位方法、装置、电子设备以及可读存储介质 Pending CN114240952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111534842.1A CN114240952A (zh) 2021-12-15 2021-12-15 证件定位方法、装置、电子设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111534842.1A CN114240952A (zh) 2021-12-15 2021-12-15 证件定位方法、装置、电子设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN114240952A true CN114240952A (zh) 2022-03-25

Family

ID=80756304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111534842.1A Pending CN114240952A (zh) 2021-12-15 2021-12-15 证件定位方法、装置、电子设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN114240952A (zh)

Similar Documents

Publication Publication Date Title
CN108898186B (zh) 用于提取图像的方法和装置
CN110046586B (zh) 一种数据处理方法、设备及存储介质
CN111832468B (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
US11830170B2 (en) Systems and methods for image data processing to correct document deformations using machine learning system
CN110751149B (zh) 目标对象标注方法、装置、计算机设备和存储介质
WO2021147221A1 (zh) 文本识别方法、装置、电子设备及存储介质
JP2010267113A (ja) 部品管理方法、装置、プログラム、記録媒体
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN113763249A (zh) 文本图像超分辨率重建方法及其相关设备
CN111178147A (zh) 屏幕破碎分级方法、装置、设备及计算机可读存储介质
CN113673519A (zh) 基于文字检测模型的文字识别方法及其相关设备
CN111783561A (zh) 审图结果修正方法、电子设备及相关产品
CN111932451A (zh) 重定位效果的评价方法、装置、电子设备和存储介质
CN110827301A (zh) 用于处理图像的方法和装置
CN111222368A (zh) 一种识别文档段落的方法、装置及电子设备
CN112631586A (zh) 一种应用开发方法、装置、电子设备和存储介质
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
CN109388935A (zh) 单证验证方法及装置、电子设备及可读存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN113988223A (zh) 证件图像识别方法、装置、计算机设备及存储介质
CN112101296B (zh) 人脸注册方法、人脸验证方法、装置及系统
CN112396057B (zh) 一种字符识别方法、装置及电子设备
CN110309335B (zh) 一种图片匹配方法、装置、设备及存储介质
CN113936286B (zh) 图像文本识别方法、装置、计算机设备及存储介质
CN114240952A (zh) 证件定位方法、装置、电子设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination