CN114663726A - 目标类别检测模型的训练方法、目标检测方法及电子设备 - Google Patents

目标类别检测模型的训练方法、目标检测方法及电子设备 Download PDF

Info

Publication number
CN114663726A
CN114663726A CN202210293034.9A CN202210293034A CN114663726A CN 114663726 A CN114663726 A CN 114663726A CN 202210293034 A CN202210293034 A CN 202210293034A CN 114663726 A CN114663726 A CN 114663726A
Authority
CN
China
Prior art keywords
detection model
target
class detection
gradient
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210293034.9A
Other languages
English (en)
Inventor
袁小青
肖潇
章勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN202210293034.9A priority Critical patent/CN114663726A/zh
Publication of CN114663726A publication Critical patent/CN114663726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及深度学习技术领域,具体涉及目标类别检测模型的训练方法、目标检测方法及电子设备,该训练方法包括获取至少两种类别的样本图像及其标签,标签包括样本图像的类别;将样本图像输入教师类别检测模型得到预测结果,以确定预测结果与标签的差异以及教师类别检测模型中各参数的梯度;基于差异、梯度与梯度阈值的大小关系以及第一学习率,对教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,学生类别检测模型是对目标教师类别检测模型进行剪枝处理后得到的;基于样本图像以及第二学习率训练学生类别检测模型,确定目标类别检测模型,第一学习率大于第二学习率。能够在配置低的终端上运行,提高了检测效率。

Description

目标类别检测模型的训练方法、目标检测方法及电子设备
技术领域
本发明涉及深度学习技术领域,具体涉及目标类别检测模型的训练方法、目标检测方法及电子设备。
背景技术
移动终端对获取到的输入图片进行快速准确分类,主要是分类人脸、身份证、护照、车架号、车牌,便于后续进行相应处理,如人员身份核验、身份证号码、护照、车架号、车牌号识别以便于自动登记、校验等。其中,对于移动终端而言,常见的处理方式是,提供证件类型的选择界面,在用户选择证件类型之后,再对获取到的图片进行后续处理。
例如,目前很多app需要人工介入,如识别身份证时,需要手动选一下身份证;识别车架号时,需要手动选择一下车架号。然而,这种目标检测方式需要人工进行类型的选择。而现有的类别检测模型一般模型结构较复杂,由于移动终端的处理能力有限,若将其直接移植到移动终端中使用的话,其实时性难以保证,导致检测效率较低。
发明内容
有鉴于此,本发明实施例提供了一种目标类别检测模型的训练方法、目标检测方法及电子设备,以解决检测效率低的问题。
根据第一方面,本发明实施例提供了一种目标类别检测模型的训练方法,包括:
获取至少两种类别的样本图像及其标签,所述标签包括所述样本图像的类别;
将所述样本图像输入教师类别检测模型得到预测结果,以确定所述预测结果与所述标签的差异以及所述教师类别检测模型中各参数的梯度;
基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,所述学生类别检测模型是对所述目标教师类别检测模型进行剪枝处理后得到的;
基于所述样本图像以及第二学习率训练所述学生类别检测模型,确定目标类别检测模型,所述第一学习率大于所述第二学习率。
本发明实施例提供的目标类别检测模型的训练方法,分别利用第一学习率以及第二学习率训练教师类别检测模型以及学生类别检测模型,由于第一学习率大于第二学习率,且结合梯度阈值,能够保证教师类别检测模型能够在避免梯度爆炸的情况下较快地收敛;同时利用目标教师类别识别模型指导学生类别检测模型的训练,能够提高训练效率,又由于训练得到的学生类别检测模型的结构简单,其能够在硬件配置较低的终端上运行,提高了检测效率。
结合第一方面,在第一方面第一实施方式中,所述基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,包括:
基于所述梯度与所述梯度阈值的大小关系对所述梯度进行更新,确定目标梯度;
基于所述差异、所述目标梯度以及所述第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型;
对所述目标教师类别检测模型进行剪枝处理,确定所述学生类别检测模型。
本发明实施例提供的目标类别检测模型的训练方法,利用梯度以及梯度阈值的大小关系对梯度进行更新,能够避免在大学习率下的梯度爆炸问题,保证了训练过程的可靠性。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述基于所述梯度与所述梯度阈值的大小关系对所述梯度进行更新,确定目标梯度,包括:
计算所述梯度对应的范数;
当计算出的范数大于所述梯度阈值时,计算所述梯度阈值与所述范数的比值,确定缩放因子;
基于所述缩放因子与所述梯度的乘积确定所述目标梯度。
结合第一方面,在第一方面第三实施方式中,所述获取至少两种类别的样本图像,包括:
获取原始样本集,所述原始样本集包括至少两种类别的原始图像,所述类别包括人脸、身份证、护照、车架号或车牌;
对所述原始图像进行预处理,以扩充所述原始样本集得到目标样本集;
从所述目标样本集中提取至少两种类别的图像,得到所述至少两种类别的样本图像。
本发明实施例提供的目标类别检测模型的训练方法,通过对原始图像进行预处理,能够扩充原始样本集,进而达到增强模型鲁棒性的目的。
根据第二方面,本发明实施例还提供了一种目标检测方法,包括:
获取待处理图像;
将所述待处理图像输入目标类别检测模型中,确定所述待处理图像的检测结果,所述检测结果包括类别,所述目标类别检测模型是根据本发明第一方面,或第一方面任一实施方式所述的目标类别检测模型的训练方法训练得到的;
基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果。
本发明实施例提供的目标检测方法,通过自动识别输入待处理图像的类别,并对其进行对应于类别的目标检测,避免了人工录入图像类别的过程,整个检测过程自动处理,提高了目标检测效率。
结合第二方面,在第二方面第一实施方式中,所述检测结果还包括所述待检测图像中目标的位置信息,所述基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果,包括:
基于所述待处理图像的类别确定对应的目标检测模块;
将所述待处理图像以及所述位置信息输入所述目标检测模块中,确定所述目标检测结果。
本发明实施例提供的目标检测方法,在检测结果中还包括有目标的位置信息,对于目标检测模块而言,其就可以直接利用该位置信息定位到目标,再对目标进行检测,通过对待处理图像的位置信息进行统一处理,在得到类别的同时确定出位置信息,进一步提高了检测效率。
根据第三方面,本发明实施例还提供了一种目标类别检测模型的训练装置,包括:
第一获取模块,用于获取至少两种类别的样本图像及其标签,所述标签包括所述样本图像的类别;
预测模块,用于将所述样本图像输入教师类别检测模型得到预测结果,以确定所述预测结果与所述标签的差异以及所述教师类别检测模型中各参数的梯度;
更新模块,用于基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,所述学生类别检测模型是对所述目标教师类别检测模型进行剪枝处理后得到的;
训练模块,用于基于所述样本图像以及第二学习率训练所述学生类别检测模型,确定目标类别检测模型,所述第一学习率大于所述第二学习率。
根据第四方面,本发明实施例还提供了一种目标检测装置,包括:
第二获取模块,用于获取待处理图像;
输入模块,用于将所述待处理图像输入目标类别检测模型中,确定所述待处理图像的检测结果,所述检测结果包括类别,所述目标类别检测模型是根据本发明第一方面,或第一方面任一实施方式所述的目标类别检测模型的训练方法训练得到的;
确定模块,用于基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式所述的目标类别检测模型的训练方法,或,执行第二方面或者第二方面的任意一种实施方式所述的目标检测方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的目标检测方法。
需要说明的是,本发明实施例提供的目标类别检测模型的训练装置、目标检测装置、电子设备及计算机可读存储介质的相应有益效果,请参见上文目标类别检测模型的训练方法、目标检测方法的对应有益效果的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的目标类别检测模型的训练方法的流程图;
图2是根据本发明实施例的目标类别检测模型的训练方法的流程图;
图3是根据本发明实施例的目标检测方法的流程图;
图4是根据本发明实施例的目标类别检测模型的训练装置的结构框图;
图5是根据本发明实施例的目标检测装置的结构框图;
图6是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种目标类别检测模型的训练方法以及目标检测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种目标类别检测模型的训练方法,可用于电子设备,如电脑、服务器等,图1是根据本发明实施例的目标类别检测模型的训练方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取至少两种类别的样本图像及其标签。
其中,所述标签包括所述样本图像的类别。
目标类别检测模型用于对至少两种类别的样本图像进行类别检测,例如,利用该目标类别检测模型能够识别出身份证、护照、车牌,等等。具体所要识别的类别是根据实际需求进行训练的,在此对其并不做任何限定。
对于各个样本图像而言,其具有对应的标签,该标签包括该样本图像的类别,或者也可以包括样本图像中目标的位置信息。例如,对于一张车辆图像,其标签包括该车辆图像的类别:车辆,以及车辆图像中车牌的位置信息。需要说明的是,样本图像中的目标,是根据实际需求设置的,例如,对于人脸图像,其目标为人脸图像的位置;对于身份证图像,其目标的位置信息包括身份证号的位置信息,等等。
样本图像的获取是通过采集不同场景下的图像得到的,或者,在采集到的不同场景下的图像进行旋转、拉伸等等处理,以丰富目标样本集。
在一些可选实施方式中,上述S11可以包括:
(1)获取原始样本集,所述原始样本集包括至少两种类别的原始图像,所述类别包括人脸、身份证、护照、车架号或车牌。
(2)对原始图像进行预处理,以扩充原始样本集得到目标样本集。
(3)从目标样本集中提取至少两种类别的图像,得到至少两种类别的样本图像。
原始样本集中的图像包括但不限于通过图像采集设备拍摄的人脸照片、身份证照片、护照照片、车架号照片、车牌照片以及根据模板自动生成的图片等等,将这些照片作为原始样本集,原始样本集中的图像称之为原始图像。
在获取到原始样本集之后,对其中的原始图像进行预处理,包括但不限于缩放、裁剪、镜像变换、归一化等预处理,以实现原始样本集的扩充,得到目标样本集。电子设备在训练识别检测模型时,从目标样本集中提取至少两种类别的图像作为样本图像。
通过对原始图像进行预处理,能够扩充原始样本集,进而达到增强模型鲁棒性的目的。
S12,将样本图像输入教师类别检测模型得到预测结果,以确定预测结果与标签的差异以及教师类别检测模型中各参数的梯度。
教师类别检测模型可以是centernet模型,或其他结构的检测模型等等,具体根据实际需求进行选择即可。电子设备将样本图像输入到教师类别检测模型中,输出预测结果。其中,预测结果包括样本图像的预测类别。
电子设备利用预测结果与标签的差异进行损失值计算,并计算教师类别检测模型中各参数的梯度。对于梯度的计算可以是计算教师类别检测模型中的所有参数,也可以是计算指定的参数,等等。
S13,基于差异、梯度与梯度阈值的大小关系以及第一学习率,对教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型。
其中,所述学生类别检测模型是对目标教师类别检测模型进行剪枝处理后得到的。
梯度阈值是根据实际需求进行设置的,由于第一学习率较大,通过梯度与梯度阈值的大小关系,以防止梯度爆炸。基于此,在对教师类别检测模型的参数进行更新时,不仅需要结合上述S12中计算得到的差异,还包括第一学习率以及梯度与梯度阈值的比较结果。在每次循环过程中,通过梯度与梯度阈值的大小关系对教师类别检测模型的参数进行更新,经过多次训练之后,确定目标教师类别检测模型。
学生类别检测模型的模型结构相对于目标教师类别检测模型而言,较为简单。通过对目标教师类别检测模型进行剪枝处理得到,例如,将目标教师类别检测模型的通道数减少1/2或1/3等等,具体减少的通道数是根据实际需求设置的。其中,学生类别检测模型保留目标教师类别检测模型的对应参数,后续利用第二学习率对学生类别检测模型的参数进行微调。
S14,基于样本图像以及第二学习率训练学生类别检测模型,确定目标类别检测模型。
其中,所述第一学习率大于第二学习率。
在确定出学生类别检测模型之后,由于之前已经训练得到了目标教师类别检测模型了,在此基础上,再利用样本图像以及第二学习率来训练该学生类别检测模型,对学生类别检测模型的参数进行微调,即可确定出目标类别检测模型。
在训练过程中增加梯度与梯度阈值的大小关系来防止大学习率下容易引发的梯度爆炸。具体地,先利用大学习率训练教师类别检测模型几千次,确定目标教师类别检测模型以及学生类别检测模型;然后以小学习率微调学生类别检测模型,这样使原本需要迭代几十万次的训练减小到最多10万次就可以收敛,这样大大减少了训练时间,提高了训练效率。
本实施例提供的目标类别检测模型的训练方法,分别利用第一学习率以及第二学习率训练教师类别检测模型以及学生类别检测模型,由于第一学习率大于第二学习率,且结合梯度阈值,能够保证教师类别检测模型能够在避免梯度爆炸的情况下较快地收敛;同时利用目标教师类别识别模型指导学生类别检测模型的训练,能够提高训练效率,又由于训练得到的学生类别检测模型的结构简单,其能够在硬件配置较低的终端上运行,提高了检测效率。
在本实施例中提供了一种目标类别检测模型的训练方法,可用于电子设备,如电脑、服务器等,图2是根据本发明实施例的目标类别检测模型的训练方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取至少两种类别的样本图像及其标签。
其中,所述标签包括所述样本图像的类别。
详细请参见图1所示实施例的S11,在此不再赘述。
S22,将样本图像输入教师类别检测模型得到预测结果,以确定预测结果与标签的差异以及教师类别检测模型中各参数的梯度。
详细请参见图1所示实施例的S12,在此不再赘述。
S23,基于差异、梯度与梯度阈值的大小关系以及第一学习率,对教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型。
其中,所述学生类别检测模型是对目标教师类别检测模型进行剪枝处理后得到的。
具体地,上述S23包括:
S231,基于梯度与梯度阈值的大小关系对梯度进行更新,确定目标梯度。
将梯度与梯度阈值进行大小比较,若梯度大于梯度阈值,则需要减小该梯度得到目标梯度;否则,梯度保持不变,将其作为目标梯度继续进行后续处理。
在一些可选实施方式中,上述S231可以包括:
(1)计算梯度对应的范数。
(2)当计算出的范数大于梯度阈值时,计算梯度阈值与范数的比值,确定缩放因子。
(3)基于缩放因子与梯度的乘积确定目标梯度。
梯度对应的范数,可以是L0范数、L1范数以及L2范数等等。将该范数与梯度阈值进行大小比较,若大于梯度阈值,则将梯度阈值与范数的比值作为缩放因子。由此可知,当范数小于梯度阈值时,缩放因子小于1,再利用该缩放因子与梯度的乘积所得到的目标梯度小于计算出的梯度。
S232,基于差异、目标梯度以及第一学习率,对教师类别检测模型的参数进行更新,以确定目标教师类别检测模型。
电子设备确定出目标梯度之后,利用目标梯度、上述S22中计算出的差异以及第一学习率对教师类别检测模型的参数进行更新。经过多次迭代处理后,即可确定出目标教师类别检测模型。
S233,对目标教师类别检测模型进行剪枝处理,确定学生类别检测模型。
在确定出目标教师类别检测模型之后,通过对其通道数进行处理,减少其通道数,确定出学生类别检测模型。例如,事先确定需要对哪些通道数进行剪枝,在需要进行剪枝处理时,对目标教师类别检测模型中对应的通道数进行剪枝,确定出学生类别检测模型。
S24,基于样本图像以及第二学习率训练学生类别检测模型,确定目标类别检测模型。
其中,所述第一学习率大于第二学习率。
详细请参见图1所示实施例的S14,在此不再赘述。
本实施例提供的目标类别检测模型的训练方法,利用梯度以及梯度阈值的大小关系对梯度进行更新,能够避免在大学习率下的梯度爆炸问题,保证了训练过程的可靠性。
作为一个具体应用示例,训练过程主要包括三大部分,即网络输入、图像预处理以及类别检测模块,特别地,
(1)网络输入,主要是输入通过手机拍摄的人脸照片、身份证照片、护照、车架号、车牌照片以及根据模板自动生成的图片;
(2)图像预处理,主要是对输入的图像进行诸如缩放、裁剪、镜像变换、归一化等预处理,以实现数据集扩充,达到送入模型支持大小的图片且与训练时使用相同的均值和方差进行预处理进而达到增强模型鲁棒性的目的;
(3)类别检测,主要是检测图片中的目标,便于确定图片的类别,以便于决定后续送入哪个模块以进行处理;类别检测使用的网络模型是centernet的变体,通过回归目标中心点、边界相对于中心点的偏移量、以及目标宽度和高度来达到检测目标的目的。例如,使用的模型输入图片三通道的yuv图,大小是256*256。例如,只包含人脸、身份证、护照、车架号、车牌中的一种,或者不包含任何一种,且只输出一个置信度最高的类别,将该类别作为该张图片的目标类别,以便于决定后续送入哪个模块进行处理;
(4)在训练过程中,由于centernet收敛很慢,在训练过程中增加梯度与梯度阈值的大小关系来防止大学习率下容易引发的梯度爆炸,先大学习率训练几千次,然后以小学习率微调先前大学习率学到的学生类别识别模型,这样使原本需要迭代几十万次的训练减小到最多10万次就可以收敛。
在本实施例中提供了一种目标检测方法,可用于移动终端,如手机、平板电脑或警务终端等,图3是根据本发明实施例的目标检测方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取待处理图像。
上述实施例中训练得到的目标类别检测模型可以置入移动终端中,通过移动终端对获取到的待处理图像进行目标检测。例如,通过在手机上安装对应的APP,当需要进行目标检测时,进入该APP,通过拍照等功能获取到待处理图像,再利用本实施例中所述的目标检测方法对该待处理图像进行目标检测,确定目标检测结果。
这整个处理过程,无需人工进行图像类别的选择,直接触发移动终端获取到待处理图像即可一键得到对应的目标检测结果。
在本发明实施例中对移动终端的具体类型并不做任何限制,具体根据实际需求进行选择及设置即可。
S32,将待处理图像输入目标类别检测模型中,确定待处理图像的检测结果。
其中,所述检测结果包括类别,所述目标类别检测模型是根据上述的目标类别检测模型的训练方法训练得到的,具体请参见上文所述,在此不再赘述。
目标类别检测模型的输入为待处理图像,输出为检测结果,该检测结果包括待处理图像的类别,例如,识别出该待处理图像是身份证、护照还是车牌等等。
S33,基于待处理图像的类别进行对应的目标检测,确定目标检测结果。
在识别出待处理图像的类别之后,利用其类别确定对应的目标检测方式。例如,对于人脸图像,对应的目标检测包括识别人脸确定对应的人员信息;对于车牌图像,对应的目标检测包括车牌识别;对于身份证图像,对应的目标检测包括身份证号码的检测,等等。
其中,具体需要对待处理图像进行何种目标的检测,是根据实际需求进行设置的,在此对其并不做任何限定。
在一些可选实施方式中,所述检测结果还包括待检测图像中目标的位置信息。基于此,上述S33也可以包括:
(1)基于待处理图像的类别确定对应的目标检测模块。
(2)将待处理图像以及位置信息输入目标检测模块中,确定目标检测结果。
对于目标类别检测模型而言,其输出不仅包括类别,还包括目标的位置信息。将目标的位置信息以及待处理图像一并输入到目标检测模块中,以进行目标检测。具体地,利用目标的位置信息即可以快速定位到目标,再对定位到的目标进行检测,提高了检测效率。
本实施例提供的目标检测方法,通过自动识别输入待处理图像的类别,并对其进行对应于类别的目标检测,避免了人工录入图像类别的过程,整个检测过程自动处理,提高了目标检测效率。
作为本实施例的一个具体应用示例,目标类别检测模型的应用过程中,在最后对conv_center进行一次sigmoid。具体地,目标类别检测模型的处理过程包括如下步骤:
第一步,输入手机app当前拍摄的一帧图片;
第二步,对输入的图像进行预处理,将图像缩放到模型支持大小,并进行减均值、除方差操作;
第三步,利用目标类别检测模型对经过预处理后的图像进行目标检测,获得网络的输出sigmoid_conv_center、conv_size、conv_offset,三者分别表示是目标中心点的概率值、目标的宽度和高度、边界相对中心点的x方向和y方向的偏移量;
第四步,对第三步获取到的三个特征信息进行后处理,包括非极大值抑制(NMS),只有当置信度大于设定阈值时,且在所有类别中取置信度最大的那个目标,认为检测到某类别目标,则认为该图片为该类别。
该目标检测方法通过检测图片中目标,将置信度最高的类别作为目标输出,并将此类别作为图片的类别,以便于后续根据该类别,将图片以及图片中的目标位置信息送给对应的模块进行处理,如身份证号码识别,以完成身份证号码的自动、快速比对,从而达到无需手动操作、自动分类的目的。
本发明实施例提供的目标检测方法,主要是对移动终端输入图片进行快速准确分类,主要是分类人、身份证、护照、车架号、车牌,便于后续进行相应处理,如人员身份核验、身份证号码、护照、车架号、车牌号识别以便于自动登记、校验等。最终运行的目标类别检测模型是通过减少通道等方法得到一个耗时极小的模型,该未剪枝前的类别检测模型最初在P2上一张耗时800多毫秒,且移动终端容易发烫。在经过剪枝优化后,耗时变为一张40毫秒,降低到原来的1/20,且分类精度保持不变。
在本实施例中还提供了一种目标类别检测模型的训练装置以及目标检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种目标类别检测模型的训练装置,如图4所示,包括:
第一获取模块41,用于获取至少两种类别的样本图像及其标签,所述标签包括所述样本图像的类别;
预测模块42,用于将所述样本图像输入教师类别检测模型得到预测结果,以确定所述预测结果与所述标签的差异以及所述教师类别检测模型中各参数的梯度;
更新模块43,用于基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,所述学生类别检测模型是对所述目标教师类别检测模型进行剪枝处理后得到的;
训练模块44,用于基于所述样本图像以及第二学习率训练所述学生类别检测模型,确定目标类别检测模型,所述第一学习率大于所述第二学习率。
本实施例还提供了一种目标检测装置,如图5所示,包括:
第二获取模块51,用于获取待处理图像;
输入模块52,用于将所述待处理图像输入目标类别检测模型中,确定所述待处理图像的检测结果,所述检测结果包括类别,所述目标类别检测模型是任一实施方式所述的目标类别检测模型的训练方法训练得到的;
确定模块53,用于基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果。
本实施例中的目标类别检测模型的训练装置以及目标检测装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图4所示的目标类别检测模型的训练装置,或图5所示的目标检测装置。
请参阅图6,图6是本发明可选实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图4或图5所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请任一实施例中所示的方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的目标类别检测模型的训练方法或目标检测方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种目标类别检测模型的训练方法,其特征在于,包括:
获取至少两种类别的样本图像及其标签,所述标签包括所述样本图像的类别;
将所述样本图像输入教师类别检测模型得到预测结果,以确定所述预测结果与所述标签的差异以及所述教师类别检测模型中各参数的梯度;
基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,所述学生类别检测模型是对所述目标教师类别检测模型进行剪枝处理后得到的;
基于所述样本图像以及第二学习率训练所述学生类别检测模型,确定目标类别检测模型,所述第一学习率大于所述第二学习率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,包括:
基于所述梯度与所述梯度阈值的大小关系对所述梯度进行更新,确定目标梯度;
基于所述差异、所述目标梯度以及所述第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型;
对所述目标教师类别检测模型进行剪枝处理,确定所述学生类别检测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述梯度与所述梯度阈值的大小关系对所述梯度进行更新,确定目标梯度,包括:
计算所述梯度对应的范数;
当计算出的范数大于所述梯度阈值时,计算所述梯度阈值与所述范数的比值,确定缩放因子;
基于所述缩放因子与所述梯度的乘积确定所述目标梯度。
4.根据权利要求1所述的方法,其特征在于,所述获取至少两种类别的样本图像,包括:
获取原始样本集,所述原始样本集包括至少两种类别的原始图像,所述类别包括人脸、身份证、护照、车架号或车牌;
对所述原始图像进行预处理,以扩充所述原始样本集得到目标样本集;
从所述目标样本集中提取至少两种类别的图像,得到所述至少两种类别的样本图像。
5.一种目标检测方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入目标类别检测模型中,确定所述待处理图像的检测结果,所述检测结果包括类别,所述目标类别检测模型是根据权利要求1-4中任一项所述的目标类别检测模型的训练方法训练得到的;
基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果。
6.根据权利要求5所述的方法,其特征在于,所述检测结果还包括所述待检测图像中目标的位置信息,所述基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果,包括:
基于所述待处理图像的类别确定对应的目标检测模块;
将所述待处理图像以及所述位置信息输入所述目标检测模块中,确定所述目标检测结果。
7.一种目标类别检测模型的训练装置,其特征在于,包括:
第一获取模块,用于获取至少两种类别的样本图像及其标签,所述标签包括所述样本图像的类别;
预测模块,用于将所述样本图像输入教师类别检测模型得到预测结果,以确定所述预测结果与所述标签的差异以及所述教师类别检测模型中各参数的梯度;
更新模块,用于基于所述差异、所述梯度与梯度阈值的大小关系以及第一学习率,对所述教师类别检测模型的参数进行更新,以确定目标教师类别检测模型以及学生类别检测模型,所述学生类别检测模型是对所述目标教师类别检测模型进行剪枝处理后得到的;
训练模块,用于基于所述样本图像以及第二学习率训练所述学生类别检测模型,确定目标类别检测模型,所述第一学习率大于所述第二学习率。
8.一种目标检测装置,其特征在于,包括:
第二获取模块,用于获取待处理图像;
输入模块,用于将所述待处理图像输入目标类别检测模型中,确定所述待处理图像的检测结果,所述检测结果包括类别,所述目标类别检测模型是根据权利要求1-4中任一项所述的目标类别检测模型的训练方法训练得到的;
确定模块,用于基于所述待处理图像的类别进行对应的目标检测,确定目标检测结果。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-4中任一项所述的目标类别检测模型的训练方法,或者,执行权利要求5或6所述的目检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-4中任一项所述的目标类别检测模型的训练方法,或者,执行权利要求5或6所述的目标检测方法。
CN202210293034.9A 2022-03-23 2022-03-23 目标类别检测模型的训练方法、目标检测方法及电子设备 Pending CN114663726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210293034.9A CN114663726A (zh) 2022-03-23 2022-03-23 目标类别检测模型的训练方法、目标检测方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210293034.9A CN114663726A (zh) 2022-03-23 2022-03-23 目标类别检测模型的训练方法、目标检测方法及电子设备

Publications (1)

Publication Number Publication Date
CN114663726A true CN114663726A (zh) 2022-06-24

Family

ID=82031587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210293034.9A Pending CN114663726A (zh) 2022-03-23 2022-03-23 目标类别检测模型的训练方法、目标检测方法及电子设备

Country Status (1)

Country Link
CN (1) CN114663726A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274615A (zh) * 2023-09-21 2023-12-22 书行科技(北京)有限公司 人体动作预测方法及相关产品
WO2024016949A1 (zh) * 2022-07-20 2024-01-25 马上消费金融股份有限公司 标签生成、图像分类模型的方法、图像分类方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024016949A1 (zh) * 2022-07-20 2024-01-25 马上消费金融股份有限公司 标签生成、图像分类模型的方法、图像分类方法及装置
CN117274615A (zh) * 2023-09-21 2023-12-22 书行科技(北京)有限公司 人体动作预测方法及相关产品
CN117274615B (zh) * 2023-09-21 2024-03-22 书行科技(北京)有限公司 人体动作预测方法及相关产品

Similar Documents

Publication Publication Date Title
US11270099B2 (en) Method and apparatus for generating facial feature
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
US10635946B2 (en) Eyeglass positioning method, apparatus and storage medium
KR102641115B1 (ko) 객체 검출을 위한 영상 처리 방법 및 장치
CN108921782B (zh) 一种图像处理方法、装置及存储介质
EP3152706B1 (en) Image capturing parameter adjustment in preview mode
US11645735B2 (en) Method and apparatus for processing image, device and computer readable storage medium
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
WO2018036276A1 (zh) 图片品质的检测方法、装置、服务器及存储介质
CN108197618B (zh) 用于生成人脸检测模型的方法和装置
CN109344727B (zh) 身份证文本信息检测方法及装置、可读存储介质和终端
CN114663726A (zh) 目标类别检测模型的训练方法、目标检测方法及电子设备
CN110135437A (zh) 用于车辆的定损方法、装置、电子设备和计算机存储介质
CN111353364A (zh) 一种人脸动态识别方法及装置、电子设备
CN110599514B (zh) 图像分割的方法、装置、电子设备及存储介质
CN111435445A (zh) 字符识别模型的训练方法及装置、字符识别方法及装置
CN112101296B (zh) 人脸注册方法、人脸验证方法、装置及系统
CN113158773B (zh) 一种活体检测模型的训练方法及训练装置
CN113837965A (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN112560791A (zh) 识别模型的训练方法、识别方法、装置及电子设备
CN110210314B (zh) 人脸检测方法、装置、计算机设备及存储介质
WO2020244076A1 (zh) 人脸识别方法、装置、电子设备及存储介质
CN110956093A (zh) 基于大数据的模型识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination