CN115661615A - 一种图像识别模型的训练方法、装置及电子设备 - Google Patents

一种图像识别模型的训练方法、装置及电子设备 Download PDF

Info

Publication number
CN115661615A
CN115661615A CN202211597753.6A CN202211597753A CN115661615A CN 115661615 A CN115661615 A CN 115661615A CN 202211597753 A CN202211597753 A CN 202211597753A CN 115661615 A CN115661615 A CN 115661615A
Authority
CN
China
Prior art keywords
image recognition
result
recognition model
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211597753.6A
Other languages
English (en)
Inventor
廖宝鑫
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shenxiang Intelligent Technology Co ltd
Original Assignee
Zhejiang Lianhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lianhe Technology Co ltd filed Critical Zhejiang Lianhe Technology Co ltd
Priority to CN202211597753.6A priority Critical patent/CN115661615A/zh
Publication of CN115661615A publication Critical patent/CN115661615A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例提供一种图像识别模型的训练方法、装置及电子设备,在该方法中,获取初步训练的检测模型后,将未标注图像样本分别进行不同破坏强度的处理后,分别提供给初步训练后的检测模型,获得目标图像识别任务的第一结果和第二结果,第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置。根据第一结果和第二结果间各预测框的重合情况,确定伪标签数量,在第一结果中,根据与第二结果的重合度,保留确定的伪标签数量的预测框作为伪标签。根据伪标签对学生图像识别模型进行参数调整,并将训练好的学生图像识别模型的参数回传给教师图像识别模型,最终获得目标模型。

Description

一种图像识别模型的训练方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,具体涉及一种图像识别模型的训练方法、装置、电子设备以及计算机可读取存储介质。
背景技术
图像识别,或者称为目标检测,属于计算机视觉识别中的重要任务之一,图像识别技术具有非常广泛的应用,例如,商场实景监测,安防监控,自动驾驶,工业生产,医疗影像处理,等等;对于许多场合,图像识别模型的改进,都能够显著提升工作效果。
现有技术中,通常通过训练各种机器学习模型,尤其是深度学习模型,完成各类目标检测任务。一般的,深度学习模型是基于已标注图像样本进行模型训练,在此种方式下,已标注图像样本数据的数量对于深度学习模型的参数性能影响较大。
然而,上述方法对深度学习模型的训练需要大量的已标注图像样本数据,而获取大量的已标注图像样本比较困难,导致深度学习模型的训练难以充分实施,目标检测任务的识别结果准确率无法进一步提升。
尤其是,一旦将模型的进步基于标注图像样本,则无法使用在实际的图像监测场景中不断积累的数据;例如,商场中各种监测设备不断积累获得的大量图像样本,不可能随时进行标注,这样,就使这些图像数据不能直接用于模型训练,导致积累的这些图像数据中蕴含的知识无法及时有效的传递到图像识别模型。
因此,如何利用不断积累的各类图像数据,提升目标检测任务的结果准确率是需要解决的问题。
发明内容
本申请实施例提供一种图像识别模型的训练方法、装置、电子设备、计算机可读存储介质,以解决现有技术存在的无法有效利用未标注图像样本的问题。
本申请实施例提供一种图像识别模型的训练方法,该方法包括:将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果;将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量;在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签;以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整;在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型;重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
可选的,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述初步训练包括:将标注图像样本输入待初步训练检测模型,获得目标图像识别任务的第三结果;比较所述标注图像样本的标注结果与所述第三结果,获得第一监督损失值;依据所述第一监督损失值,调整所述待初步训练检测模型的参数;重复上述步骤,直至达到预定的训练标准。
可选的,所述教师图像识别模型和所述学生图像识别模型采用同一个经过初步训练的检测模型。
可选的,在执行所述将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果的步骤之前,所述方法还包括:采用标注数据对所述学生图像识别模型进行二次训练。
可选的,所述采用标注数据对所述学生图像识别模型进行二次训练,包括:将所述标注图像样本再次输入所述学生图像识别模型中,获得目标图像识别任务的第四结果;比较所述标注图像样本的标注结果与所述第四结果,获得第二监督损失值;依据所述第二监督损失值,调整所述学生图像识别模型的参数。
可选的,所述第一处理是对未标注图像样本进行弱数据增强处理。
可选的,所述第二处理是对未标注图像样本进行强数据增强处理,包括:对所述未标注图像样本中的图像按照多种变换操作随机组合的方式进行处理。
可选的,所述多种变换操作包括如下方式的一种、或者多种的组合:颜色抖动,随机仿射变换,随机切除,随机灰度化,随机直方图平衡,随机曝光,随机对比度,随机锐化,随机分色。
可选的,所述将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果,包括如下步骤:将未标注图像样本进行所述第一处理后提供给所述教师图像识别模型,获得目标图像识别任务的初步结果;从所述目标图像识别任务的初步结果中获取针对目标图像识别任务的多个预测框;获取每个预测框对应的置信度,并进行从高到低的排序;根据所述预测框的重合度,对于重合度超出预定阈值的,保留其中置信度高的预测框,作为所述目标图像识别任务的第一结果。
可选的,所述对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,包括:将所述第一结果中包含的预测框与所述第二结果中包含的预测框进行数据融合,获得两个结果中针对同一样本的预测框的重合度; 根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量;所述预定的方法,至少保证预测框重合度越高,则伪标签的目标获取数量越大。
可选的,所述根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量,包括:将针对多个位置的预测框的重合度,按照重合度由大到小的排序规则进行排序;将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值;根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。
可选的,所述以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整,包括:以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,获取所述第二结果中的预测框与所述伪标签对应的预测框之间的损失;根据所述第二结果中的预测框与所述伪标签对应的预测框之间的损失,对所述学生图像识别模型进行参数调整。
可选的,所述在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型,包括:根据到达预定训练目标的学生图像识别模型,通过指数滑动平均算法对所述教师图像识别模型进行参数训练,获得达到预定训练目标的教师图像识别模型。
可选的,所述指数滑动平均算法为按照如下公式进行的算法:
Figure 924429DEST_PATH_IMAGE001
其中,
Figure 394724DEST_PATH_IMAGE002
为第t次迭代后的教师图像识别模型参数;
Figure 200482DEST_PATH_IMAGE003
为第t-1次迭代后的教师图像识别模型参数;
Figure 275885DEST_PATH_IMAGE004
为第t次迭代后的学生图像识别模型参数;
Figure 206932DEST_PATH_IMAGE005
为权重参数,与t呈正相关。
本申请实施例还提供一种图像识别模型的训练装置,包括:第一结果获得单元,用于将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果;第二结果获得单元,用于将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;伪标签数量确定单元,用于对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量;伪标签获取单元,用于在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签;调整单元,用于以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整;回传单元,用于在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型;目标模型获得单元,用于重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
本申请实施例还提供一种电子设备,包括处理器和存储器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现上述方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现上述方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供的图像识别模型的训练方法,第一步,获取初步训练的检测模型后,将未标注图像样本分别进行不同破坏强度的处理后,分别提供给初步训练后的检测模型,获得目标图像识别任务的第一结果和第二结果。第二步,根据第一结果和第二结果,从第一结果中确定伪标签。第三步,根据伪标签训练学生图像识别模型,并将训练好的学生图像识别模型的参数回传给教师图像识别模型,将最终的教师图像识别模型作为目标模型。
其中,第一步具体是,是将未标注图像样本进行第一处理(破坏强度较第二处理弱)后提供给初步训练后的检测模型(此时称为教师图像识别模型),获得目标图像识别任务的第一结果。同时,将未标注图像样本进行第二处理(破坏强度较第一处理强)后提供给初步训练后的检测模型(此时称为学生图像识别模型),获得目标图像识别任务的第二结果。此处,第一结果和第二结果包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置。第二步具体是,对第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,在第一结果中,根据与第二结果的重合度的由高到低的顺序,保留确定的伪标签数量的预测框作为伪标签。第三步具体是,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签比较,对学生图像识别模型进行参数调整;在对学生图像识别模型的训练达到预测训练目标后,以预定方式将其参数回传给教师图像识别模型;重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
也就是说,根据第一结果和第二结果的预测框的重合情况,确定伪标签数量,然后,在第一结果中,根据两者间各预测框的重合度由高到低的排序顺序,将与伪标签数量对应的预测框作为伪标签。然后,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签数据比较,对学生图像识别模型进行参数调整。此过程属于对教师图像识别模型和学生图像识别模型进行一致性学习,使得教师图像识别模型和学生图像识别模型输出的结果一致。将训练好的学生图像识别模型参数回传给教师图像识别模型,作为目标模型。上述过程通过未标注图像样本对模型进行训练的方式,避免模型训练过程依赖大量已标注图像样本提升训练参数性能,节省了模型训练过程中的数据处理成本,同时,通过动态调整伪标签数量,能够有效并相对准确的获取非标注图像样本中包含的知识,提升了目标模型获取样本检测结果的准确性。
附图说明
图1为本申请实施例提供的一种图像识别模型的训练方法应用场景示意图。
图2为本申请实施例提供的对未标注图像样本进行不同处理的场景示意图。
图3为本申请实施例提供的预测框重合度的场景示意图。
图4为本申请第一实施例提供的一种图像识别模型的训练方法的流程图。
图5为本申请第一实施例中提供的通过NMS(Non Maximum Suppression,非极大值抑制)算法确定目标预测框的方法的应用场景图。
图6为本申请第一实施例提供的目标模型识别待检测图像的预测框的场景示意图。
图7为本申请第二实施例提供的图像识别模型的训练装置的单元框图。
图8为本申请第三实施例提供的电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
首先,对本申请涉及的部分技术术语进行解释说明:
未标注图像样本是指样本图像没有经过标注,属于无任何处理的样本。
标注图像样本是指将样本图像经过人工标注处理,标注出图像中的目标物。
图像识别模型在本申请中主要用于目标检测处理。
教师图像识别模型和学生图像识别模型采用同一个经过初步训练的检测模型,然后,采用未标注图像样本分别对教师图像识别模型和学生图像识别模型进行训练。
其中,将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果,将未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果。在第一结果中获取伪标签,然后,以伪标签为监督信号,对学生图像识别模型进行参数调整,然后,将训练达到预定训练目标的学生图像识别模型的参数回传给教师图像识别模型,以最终训练好的教师图像识别模型作为目标模型。
伪标签是指将未标注图像样本提供给模型,获得未标注图像样本中隐藏的信息,依次提升有监督过程中的模型的性能。
预测框是指将未标注图像样本输入模型后,获得模型识别的未标注图像样本中的关键点在样本中的位置。
在本申请中,预测框具体是指将未标注图像样本输入图像识别模型后,获得图像识别模型输出的未标注图像样本中针对目标图像的预测位置。
例如,将未标注图像样本进行第一处理后,提供给教师图像识别模型,获得目标图像识别任务的第一结果,其包括:用于表示该未标注图像样本中针对目标图像的n个预测位置的n个预测框,每个预测位置对应一个预测框。将未标注图像样本进行第二处理后,提供给学生图像识别模型,获得目标图像识别任务的第二结果,其包括:用于表示该未标注图像样本中针对目标图像的m个预测位置的m个预测框。
其中,第一结果中的预测框数量n不同于第二结果中的预测框数量m。
为了便于理解本申请实施例提供的方法,在介绍本申请实施例之前,先对本申请实施例的背景进行介绍。
目标检测属于计算机视觉识别中的重要任务之一,目标检测具有非常广泛的应用,例如,安防监控,自动驾驶,工业生产,医疗影像处理,等等。
现有技术中,通过训练深度学习模型,完成目标检测任务。其中,深度学习模型是基于已标注图像样本进行学习,其中,已标注图像样本数据的数量对于深度学习模型的参数性能影响较大。
然而,上述方法对深度学习模型的训练需要大量的已标注图像样本数据,而获取大量的已标注图像样本比较困难,导致深度学习模型的训练性能偏低,进而影响最终的目标检测任务的结果的准确率偏低。
因此,如何提升目标检测任务的结果的准确率是需要解决的问题。
针对现有技术存在的上述问题,本申请提供的图像识别模型的训练方法,第一步,获取初步训练的检测模型后,将未标注图像样本分别进行不同破坏强度的处理后,分别提供给初步训练后的检测模型,获得目标图像识别任务的第一结果和第二结果,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;第二步,根据第一结果和第二结果中的预测框的重合度确定第一结果中的伪标签数量,根据预测框的重合度由高到低的排列顺序,从第一结果的预测框中确定伪标签数量的预测框作为伪标签;第三步,根据伪标签训练学生图像识别模型,并将训练好的学生图像识别模型的参数回传给教师图像识别模型,将最终的教师图像识别模型作为目标图像识别模型。本申请提供的图像识别模型的训练方法,相较于现有技术,避免根据大量已标注图像样本对模型进行训练,以提升训练后的模型参数性能,本方案采用未标注图像样本对模型进行训练,节省了训练模型的样本数据处理成本,提升了模型训练的参数性能。
经过上述内容的背景介绍,本领域技术人员可以了解现有技术存在的问题,接下来对本申请图像识别模型的训练方法的应用场景进行详细说明。本申请实施例提供的图像识别模型的训练方法可以应用于图像识别技术领域,或者其他具有关键点识别需求的相关技术领域。
以下,首先对本申请实施例图像识别模型的训练方法的应用场景进行示例说明。
图1为本申请第一实施例提供的图像识别模型的训练方法的应用场景示意图。
如图1所示,本应用场景中,图像识别模型的训练方法包括两个阶段,首先,第一训练阶段101,采用已标注图像样本对待初步训练检测模型进行训练,获得训练后的检测模型,初步训练后的检测模型赋予了初步模型参数,可以识别样本中的关键点对应的预测框位置。
然后,第二训练阶段102,采用未标注图像样本对检测模型进行训练。具体是,第一步,将未标注图像样本分别进行不同破坏强度的处理后,将两种不同处理方式获得的样本分别提供给教师图像识别模型和学生图像识别模型,获得教师图像识别模型的第一结果和学生图像识别模型的第二结果。
此处,对未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果步骤之前,还需要采用标注数据对学生图像识别模型进行二次训练,以此确保学生图像识别模型在根据伪数据多次参数调整的过程中,每次参数的调整后获得的预测框的位置与实际框的位置偏离程度小于预设阈值。
此处,对未标注图像样本进行不同破坏强度的处理方式,可以参考图2,图2为本申请实施例提供的对未标注图像样本进行不同处理的场景示意图。
在图2中,对未标注图像样本进行第一处理,包括,对未标注图像样本进行弱数据增强处理,其中,弱数据增强处理,例如,将图像进行随机的仿射变换处理,此处仅为列举示例,其他的弱数据增强处理方式也可以。
对未标注数据进行第二处理,包括,对未标注数据进行强数据增强处理,其中,强数据增强处理,包括:对未标注图像样本中的图像按照多种变换操作随机组合的方式进行处理。其中,多种变换操作包括如下方式的一种、或者多种的组合:颜色抖动,随机仿射变换,随机切除,随机灰度化,随机直方图平衡,随机曝光,随机对比度,随机锐化,随机分色。
结合图2的示例可知,对未标注图像样本进行弱数据增强处理后,提供给教师图像识别模型,教师图像识别模型输出的未标注图像样本的图像中的目标人物的预测框,此处为2个预测框,属于图像中的两个人物的预测框。此时获取的预测框的位置与未标注图像样本中的目标图像识别任务的实际框位置相似度较高。
对未标注图像样本进行强增强数据处理后,如图2中,对未标注图像样本进行了随机切除,随机曝光的处理。将处理后的未标注图像样本提供给学生图像识别模型,获得学生图像识别模型输出的未标注图像样本的图像中的目标人物的预测框,此处为7个预测框。
根据图2可知,对未标注图像样本进行第一处理(弱数据增强处理),相对于第二处理的破坏强度较弱,因此,教师图像识别模型识别出的目标人物的预测框与实际图像中的人物位置的相似度较高。对未标注图像样本进行第二处理(强增强数据处理),相对于第一处理的破坏强度较强,因此,学生图像识别模型识别出的目标人物的预测框包含了很多与图像人物的实际框位置偏离的预测框。
其中,图2中教师图像识别模型获得的第一初步结果包含大量的预测框,这些预测框包含了很多预测准确率偏低的预测框,为了提升预测框的识别准确率,需要对其进行如下处理:
将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果,包括如下步骤:
将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一初步结果;从目标图像识别任务的第一初步结果中获取针对目标图像识别任务的多个预测框;获得每个预测框对应的置信度,并进行从高到低的排序;根据预测框的重合度,对重合度超出预定阈值的,保留其中置信度高的预测框,作为目标图像识别任务的第一结果。
此处,置信度是指一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信水平。
上述提及的重合度是指第一结果中对应关键点的预测框与第二结果中同一关键点的预测框之间的重合度,重合度也称为交并比,也就是,两个预测框的交集区域与两个预测框的并集区域的比值。具体可以参考图3,其为本申请实施例提供的预测框重合度的场景示意图。
在图3中可以看到,第一结果中的预测框以黑色线框,黑色填充区域表示,第二结果中的预测框以黑色线框和白色填充区域表示。如图3中,第一组预测框301中,第一黑色填充框301-1为第一结果中的第一预测框,第一白色填充框301-2为第二结果中的第一预测框,第一组预测框301的重合度为0.8。
第二组预测框302中,第二黑色填充框302-1为第一结果中的第二预测框,第二白色填充框302-2为第二结果中的第二预测框,第二组预测框302的重合度为0.9。
第三组预测框303中,第三黑色填充框303-1为第一结果中的第三预测框,第三白色填充框303-2为第二结果中的第三预测框,第三组预测框303的重合度为0.5。
因为第一结果中的预测框是将初步结果中的多个预测框进行筛选处理后,具体的筛选原则就是重合度超过预定阈值,例如,预定阈值为0.4,将重合度超过0.4的预测框,并且置信度较高的预测框,作为第一结果和第二结果最终保留的预测框,也就是图3中展示的是三个预测框。
此外,本申请实施例中,从第一结果中获取伪标签,以伪标签为监督信号,对学生图像识别模型进行参数训练,因为,为了提升第一结果中获取的伪标签的准确性,需要对第一结果进行筛选处理。
具体是,首先,获取第一结果中的预测框和第二结果中的预测框的重合度,将各预测框的重合度按照从高到低的排序规则进行排序;如图3所示,按照重合度排序的顺序为,第二组预测框302大于第一组预测框301,第一组预测框301大于第三组预测框303。
然后,将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值,根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。此处在图3中的三组预测框重合度的累加值为2.2,向下取整为2,也就是,伪标签数量为2个。通过该步骤,实际上可以动态调整保留作为伪标签的预测框的数量,其含义总体上是,两个模型预测结果重合度越高,则预测框越可能是准确的,建议保留作为伪标签的预测框数量就应该越多。在符合上述思想的前提下,可以采用其它确定伪标签数量的方案;例如,不是向下取整,而是四舍五入,也未尝不可。
因此,在第一结果中,选择预测框的重合度排序次序位于前2位的预测框作为伪标签。然后,以伪标签为监督信号,对学生图像识别模型进行训练,具体如下:
将伪标签和学生图像识别模型输出的第二结果进行比较,获得伪标签和学生图像识别模型输出的第二结果之间的损失,以该损失,对学生图像识别模型进行参数调整,直至该损失值小于预定阈值,或者损失值无限趋于某一个值时,停止对学生图像识别模型进行参数调整。
将完成参数调整的学生图像识别模型的回传至教师图像识别模型,具体是,通过指数滑动平均算法对教师图像识别模型进行参数训练,获得达到预定训练目标的教师图像识别模型。
其中,所述指数滑动平均算法为按照如下公式进行的算法:
Figure 633365DEST_PATH_IMAGE006
其中,
Figure 776902DEST_PATH_IMAGE002
为第t次迭代后的教师图像识别模型参数;
Figure 565866DEST_PATH_IMAGE003
为第t-1次迭代后的教师图像识别模型参数;
Figure 667815DEST_PATH_IMAGE004
为第t次迭代后的学生图像识别模型参数;
Figure 175019DEST_PATH_IMAGE005
为权重参数,与t呈正相关。
因此,通过上述训练到达预定训练目的学生图像识别模型的参数对教师图像识别模型进行调整,获得最终的教师图像识别模型,此过程保证了学生图像识别模型和教师图像识别模型的一致性学习。
本申请实施例提供的图像识别模型的训练方法,第一步,获取初步训练的检测模型后,将未标注图像样本分别进行不同破坏强度的处理后,分别提供给初步训练后的检测模型,获得目标图像识别任务的第一结果和第二结果。第二步,根据第一结果和第二结果,从第一结果中确定伪标签。第三步,根据伪标签训练学生图像识别模型,并将训练好的学生图像识别模型的参数回传给教师图像识别模型,将最终的教师图像识别模型作为目标模型。
其中,第一步具体是,是将未标注图像样本进行第一处理(破坏强度较第二处理弱)后提供给初步训练后的检测模型(此时称为教师图像识别模型),获得目标图像识别任务的第一结果。同时,将未标注图像样本进行第二处理(破坏强度较第一处理强)后提供给初步训练后的检测模型(此时称为学生图像识别模型),获得目标图像识别任务的第二结果。此处,第一结果和第二结果包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置。第二步具体是,对第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,在第一结果中,根据与第二结果的重合度的由高到低的顺序,保留确定的伪标签数量的预测框作为伪标签。第三步具体是,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签比较,对学生图像识别模型进行参数调整;在对学生图像识别模型的训练达到预测训练目标后,以预定方式将其参数回传给教师图像识别模型;重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
也就是说,根据第一结果和第二结果的预测框的重合情况,确定伪标签数量,然后,在第一结果中,根据两者间各预测框的重合度由高到低的排序顺序,将与伪标签数量对应的预测框作为伪标签。然后,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签数据比较,对学生图像识别模型进行参数调整。此过程属于对教师图像识别模型和学生图像识别模型进行一致性学习,使得教师图像识别模型和学生图像识别模型输出的结果一致。将训练好的学生图像识别模型参数回传给教师图像识别模型,作为目标模型。上述过程通过未标注图像样本对模型进行训练的方式,避免模型训练过程依赖大量已标注图像样本提升训练参数性能,节省了模型训练过程中的数据处理成本,同时,通过动态标签调整,提升了目标模型获取的伪标签的准确性,有效提升了训练效果。通过本方法,可以在不需要人为干预的情况下,通过自动积累的样本,实现模型识别效果的不断改进。
在介绍完本申请实施例的应用场景,本申请还提供了一种图像识别模型的训练方法,以及与上述方法相对应的装置、电子设备以及计算机可读存储介质。以下提供实施例对上述方法、装置、电子设备计算机可读存储介质以及系统进行详细说明。
第一实施例
本申请第一实施例提供一种图像识别模型的训练方法。图4为本申请第一实施例提供的一种图像识别模型的训练方法的流程图,以下结合图4对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图4所示,本实施例提供的图像识别模型的训练方法包括如下步骤:
步骤S401,将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果。
本步骤用于获取教师图像识别模型对未标注图像样本的第一图像识别结果,然后,与学生图像识别模型对同一个未标注图像样本的第二图像识别结果进行分析后,为从第一结果中获取伪标签提供数据基础。
其中,所述未标注图像样本是指样本图像没有经过标注,属于无任何处理的样本。其命名是与标注图像样本相对应的,标注图像样本是指将样本图像经过人工标注处理,标注出图像中的目标物。
所述第一处理是对未标注图像样本进行弱数据增强处理,弱数据增强处理,如图2中,将图像进行随机的仿射变换处理,此处仅为列举示例,其他的弱数据增强处理方式也可以。
此处将未标注图像样本进行第一处理后,提供给教师图像识别模型,获得目标图像识别任务的第一结果。因为,第一处理是破坏强度较第二处理弱的处理方式,因此,教师图像识别模型识别未标注图像样本中图像中关键点的预测框,与未标注图像样本中图像的实际关键点的实际框的相似度高于预设的相似度阈值。
如图2所示,对未标注图像样本进行了随机切除,随机曝光的处理。将处理后的未标注图像样本提供给学生图像识别模型,获得学生图像识别模型输出的未标注图像样本的图像中的目标人物的预测框,此处为7个预测框。
与对未标注图像样本进行弱数据增强处理相对应的,此处将未标注图像样本进行强增强数据处理,使得未标注图像样本输入学生图像识别模型的图像与未标注图像样本的实际图像之间的区别度较大,因此,学生图像识别模型输出的目标图像识别任务的第二结果中,目标人物的预测框包含了很多与图像人物的实际框位置偏离的预测框。
此外,教师图像识别模型获得的第一初步结果包含了大量的预测框,这些预测框包含了很多预测准确率偏低的预测框,为了提升预测框的识别准确率,需要对其进行如下处理:
所述将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果,包括如下步骤:
将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一初步结果;从目标图像识别任务的第一初步结果中获取针对目标图像识别任务的多个预测框;获得每个预测框对应的置信度,并进行从高到低的排序;根据预测框的重合度,对重合度超出预定阈值的,保留其中置信度高的预测框,作为目标图像识别任务的第一结果。如图1中的第二训练阶段102,在教师图像识别模型输出第一初步结果后,对第一初步结果进行NMS(Non Maximum Suppression,非极大值抑制),也就是搜索局部的极大值。所述非极大值抑制,如图5所示,其为本申请第一实施例中提供的通过NMS算法确定目标预测框的方法的应用场景图。在图5中,假如图片中存在一个人物图像,通过教师图像识别模型获得的第一初步结果中,包含对该人物图像的6个位置的预测框,从中确定最终需要保留的预测框。
此处,置信度是指一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信水平。
例如,将图5中的预测框按照如下方法确定需要保留的预测框:
根据分类器对这6个预测框类别分类概率做排序,其中,从大到小的排序规则中分别属于人物图像的预测框的概率为A>B>C>D>E>F。
然后,通过如下方法确定最终需要保留的预测框作为第一结果:
(1)设定置信度阈值与重合度阈值(2)从置信度最大的预测框A开始,分别判断B、C、D、E、F的置信度是否大于置信度阈值,接着判断它们与A的重合度是否大于预设阈值;(3)如果C的置信度小于预设阈值,则去掉C;E的置信度大于置信度阈值但与A的重合度大于重合度阈值,则去掉E,并标记第一个预测框A,其为需要保留的预测框;(4)从剩余预测框B、D、F中,选择概率最大的预测框B,判断D、F的置信度以及D、F与B的重合度,置信度小于置信度阈值或者重合度大于重合度阈值的去掉该预测框,并标记为第二个预测框B;(5)重复这个过程,确定最终需要保留的预测框。
此外,所述教师图像识别模型和下述步骤中的学生图像识别模型均经过了初步训练,两者采用同一个经过初步训练的检测模型。
其中,所述初步训练包括:
(1)将标注图像样本输入待初步训练检测模型,获得目标图像识别任务的第三结果;(2)比较所述标注图像样本的标注结果与所述第三结果,获得第一监督损失值;(3)依据所述第一监督损失值,调整所述待初步训练检测模型的参数;(4)重复上述步骤,直至达到预定的训练标准。
此处对待初步训练检测模型的初步训练过程如图1中的第一训练阶段。此处第一监督损失值按照如下公式获取:
其中,是损失计算中的回归损失;
是正负样本交叉熵损失;
是分类交叉熵损失。
依据第一监督损失值,对待初步训练检测模型进行参数调整,经过多轮参数回传训练后,直到第一监督损失值无限趋于固定值时,停止对待初步训练检测模型的训练。
如图2所示,对未标注图像样本进行了随机切除,随机曝光的处理。将处理后的未标注图像样本提供给学生图像识别模型,获得学生图像识别模型输出的未标注图像样本的图像中的目标人物的预测框,此处为7个预测框。
与对未标注图像样本进行弱数据增强处理相对应的,此处将未标注图像样本进行强增强数据处理,使得未标注图像样本输入学生图像识别模型的图像与未标注图像样本的实际图像之间的区别度较大,因此,学生图像识别模型输出的目标图像识别任务的第二结果中,目标人物的预测框包含了很多与图像人物的实际框位置偏离的预测框。
此外,学生图像识别模型获得的第二初步结果和教师图像识别模型获得的第一初步结果均包含了大量的预测框,这些预测框包含了很多预测准确率偏低的预测框,为了提升预测框的识别准确率,需要对其进行如下处理:
因此,步骤S401的作用是:通过对未标注图像样本进行第一处理后,提供给教师图像识别模型,获得目标图像识别任务的第一结果,以为候选步骤获取伪标签提供数据基础。
步骤S402,将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置。
本步骤用于获取学生图像识别模型对未标注图像样本的第二图像识别结果,用于与教师图像识别模型对同一个未标注图像样本的第一图像识别结果进行分析,从而获取第一结果与第二结果中针对同一样本的预测框的重合度提供数据基础。
所述第二处理是对未标注图像样本进行强数据增强处理,强数据增强处理,包括:对所述未标注图像样本中的图像按照多种变换操作随机组合的方式进行处理。所述多种变换操作包括如下方式的一种、或者多种的组合:颜色抖动,随机仿射变换,随机切除,随机灰度化,随机直方图平衡,随机曝光,随机对比度,随机锐化,随机分色。
此外,如图1所示,在第二训练阶段,将未标注图像样本经过第二处理后,提供给学生图像识别模型,获得学生图像识别模型输出的第二初步结果,包含了大量的预测框,这些预测框包含了很多预测准确率偏低的预测框,为了提升预测框的识别准确率,需要对其进行NMS处理,此处具体阐释可以参考步骤S401中的解释,此处不再赘述。
另外,在执行所述将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果的步骤之前,所述方法还包括:采用所述标注数据对所述学生图像识别模型进行二次训练。
所述采用所述标注数据对所述学生图像识别模型进行二次训练,包括:
将所述标注图像样本再次输入所述学生图像识别模型中,获得目标图像识别任务的第四结果,也就是图1中第二训练阶段中的学生图像识别模型输出数据框所示的数据;比较所述标注图像样本的标注结果与所述第四结果,获得第二监督损失值;依据所述第二监督损失值,调整所述学生图像识别模型的参数。
在图1中第二训练阶段,将未标注图像样本输入学生图像识别模型之前,先采用标注图像样本对学生图像识别模型进行训练,并将获得的第四结果的预测框与标注图像样本中的预测框进行第二监督损失值分析,以调整学生图像识别模型的参数。通过此步骤可以及时调整学生图像识别模型获取结果的准确性,避免获得的预测框与实际框的偏差过大,影响最终的模型训练性能。
因此,步骤S402的作用是:通过对未标注图像样本进行第二处理后,提供给学生图像识别模型,获得目标图像识别任务的第二结果,从而和第一结果进行分析处理,为从第一结果中确定伪标签做数据基础,同时也为将第二结果和伪标签比较,对学生图像识别模型进行参数调整做数据基础。
步骤S403,对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量。
本步骤的作用在于,对第一结果和第二结果进行处理,确定第一结果中的伪标签数量。
其中,所述对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,可以通过如下方式实现:
将所述第一结果中包含的预测框与所述第二结果中包含的预测框进行数据融合,获得两个结果中针对同一样本的预测框的重合度;根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量;所述预定的方法,至少保证预测框重合度越高,则伪标签的目标获取数量越大。
如图1中第二训练阶段,将第一结果和第二结果进行DLA(动态标签算法)处理,从而在第一结果的预测框中确定伪标签。本步骤S403首先通过如下方法确定伪标签数量:
所述根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量,可以通过如下方式实现:
将针对多个位置的预测框的重合度,按照重合度由大到小的排序规则进行排序;将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值;根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。
如图3所示,对第一结果中的预测框和第二结果中的预测框,计算每个位置的预测框的重合度,然后将重合度按照从大到小的顺序进行排序。按照重合度排序的顺序为,第二组预测框302大于第一组预测框301,第一组预测框301大于第三组预测框303。
然后,将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值,根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。此处在图3中的三组预测框重合度的累加值为2.2,向下取整为2,也就是,伪标签数量为2个。通过该步骤,实际上可以动态调整保留作为伪标签的预测框的数量,其含义总体上是,两个模型预测结果重合度越高,则预测框越可能是准确的,建议保留作为伪标签的预测框数量就应该越多。在符合上述思想的前提下,可以采用其它确定伪标签数量的方案;例如,不是向下取整,而是四舍五入,也未尝不可。
步骤S403通过对第一结果和第二结果的预测框的重合度的分析处理,确定获取伪标签的数量,从而,在后续步骤中,根据伪标签数量在第一结果中确定伪标签。
步骤S404,在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签。
本步骤的作用在于,在第一结果中确定伪标签,从而,在后续步骤中,以伪标签为监督信号,对学生图像识别模型进行参数调整。
如图3所示,对第一结果中的预测框和第二结果中的预测框,计算每个位置的预测框的重合度,然后将重合度按照从大到小的顺序进行排序。按照重合度排序的顺序为,第二组预测框302大于第一组预测框301,第一组预测框301大于第三组预测框303。
上述步骤中确定,图2的第一结果中可以获取的伪标签数量为2个,因此,在第一结果中获取重合度排序在前2位的预测框,作为伪标签。
步骤S405,以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整。
本步骤用于根据伪标签对学生图像识别模型进行参数调整。
所述以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整,包括:
以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,获取所述第二结果中的预测框与所述伪标签对应的预测框之间的损失;根据所述第二结果中的预测框与所述伪标签对应的预测框之间的损失,对所述学生图像识别模型进行参数调整。
步骤S406,在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型。
本步骤用于将训练结果达到预定训练目标后,将参数回传给教师图像识别模型,对教师图像识别模型进行参数训练。
其中,学生图像识别模型的训练达到预定训练目标,例如,所述第二结果中的预测框与所述伪标签对应的预测框之间的损失值小于预定阈值,或者损失值无限趋于某一个值时,则表示学生图像识别模型的训练达到预定训练目标。
所述在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型,包括:
根据到达预定训练目标的学生图像识别模型,通过指数滑动平均算法对所述教师图像识别模型进行参数训练,获得达到预定训练目标的教师图像识别模型。
所述指数滑动平均算法为按照如下公式进行的算法:
Figure 853738DEST_PATH_IMAGE006
其中,
Figure 700471DEST_PATH_IMAGE002
为第t次迭代后的教师图像识别模型参数;
Figure 566796DEST_PATH_IMAGE003
为第t-1次迭代后的教师图像识别模型参数;
Figure 702242DEST_PATH_IMAGE004
为第t次迭代后的学生图像识别模型参数;
Figure 46636DEST_PATH_IMAGE005
为权重参数,与t呈正相关。
本步骤的作用是,通过指数滑动平均算法对教师图像识别模型进行训练,以获得训练结果达到预定目标的教师图像识别模型,作为目标模型。
步骤S407,重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
本步骤用于将最终训练好的教师图像识别模型作为目标模型。
其中,最终训练好的教师图像识别模型(也就是目标模型)通过如下方法识别待检测图像中的预测框。
具体可以参考图6,其为本申请第一实施例提供的目标模型识别待检测图像的预测框的场景示意图。
具体包含如下步骤:步骤S601:将待检测图像输入目标模型中,获得目标模型输出的第五初步结果;步骤S602:对第五初步结果进行NMS算法处理,获得最终的预测框。对于NMS算法的解释在步骤S401中已经阐述,此处不再赘述。
本申请实施例提供的图像识别模型的训练方法,第一步,获取初步训练的检测模型后,将未标注图像样本分别进行不同破坏强度的处理后,分别提供给初步训练后的检测模型,获得目标图像识别任务的第一结果和第二结果。第二步,根据第一结果和第二结果,从第一结果中确定伪标签。第三步,根据伪标签训练学生图像识别模型,并将训练好的学生图像识别模型的参数回传给教师图像识别模型,将最终的教师图像识别模型作为目标模型。
其中,第一步具体是,是将未标注图像样本进行第一处理(破坏强度较第二处理弱)后提供给初步训练后的检测模型(此时称为教师图像识别模型),获得目标图像识别任务的第一结果。同时,将未标注图像样本进行第二处理(破坏强度较第一处理强)后提供给初步训练后的检测模型(此时称为学生图像识别模型),获得目标图像识别任务的第二结果。此处,第一结果和第二结果包括数量不等的预测框。第二步具体是,对第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,在第一结果中,根据与第二结果的重合度的由高到低的顺序,保留确定的伪标签数量的预测框作为伪标签。第三步具体是,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签比较,对学生图像识别模型进行参数调整;在对学生图像识别模型的训练达到预测训练目标后,以预定方式将其参数回传给教师图像识别模型;重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
也就是说,根据第一结果和第二结果的预测框的重合情况,确定伪标签数量,然后,在第一结果中,根据两者间各预测框的重合度由高到低的排序顺序,将与伪标签数量对应的预测框作为伪标签。然后,以伪标签为监督信号,将学生图像识别模型输出的第二结果与伪标签数据比较,对学生图像识别模型进行参数调整。此过程属于对教师图像识别模型和学生图像识别模型进行一致性学习,使得教师图像识别模型和学生图像识别模型输出的结果一致。将训练好的学生图像识别模型参数回传给教师图像识别模型,作为目标模型。上述过程通过未标注图像样本对模型进行训练的方式,避免模型训练过程依赖大量已标注图像样本提升训练参数性能,节省了模型训练过程中的数据处理成本,同时,通过动态标签调整,提升了目标模型获取的伪标签的准确性,有效提升了训练效果。通过本方法,可以在不需要人为干预的情况下,通过自动积累的样本,实现模型识别效果的不断改进。
第二实施例
上述第一实施例提供了一种图像识别模型的训练方法,与之相对应的,本申请第二实施例还提供了一种图像识别模型的训练装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。如图7所示,为本申请第二实施例提供的图像识别模型的训练装置的单元框图,包括:
第一结果获得单元701,用于将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果;
第二结果获得单元702,用于将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;
伪标签数量确定单元703,用于对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量;
伪标签获取单元704,用于在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签;
调整单元705,用于以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整;
回传单元706,用于在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型;
目标模型获得单元707,用于重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
可选的,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述初步训练包括:将标注图像样本输入待初步训练检测模型,获得目标图像识别任务的第三结果;比较所述标注图像样本的标注结果与所述第三结果,获得第一监督损失值;依据所述第一监督损失值,调整所述待初步训练检测模型的参数;重复上述步骤,直至达到预定的训练标准。
可选的,所述教师图像识别模型和所述学生图像识别模型采用同一个经过初步训练的检测模型。
可选的,在执行所述将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果的步骤之前,所述装置还包括:训练单元,用于采用所述标注图像样本对所述学生图像识别模型进行二次训练。
可选的,所述训练单元具体用于:将所述标注图像样本再次输入所述学生图像识别模型中,获得目标图像识别任务的第四结果;比较所述标注图像样本的标注结果与所述第四结果,获得第二监督损失值;依据所述第二监督损失值,调整所述学生图像识别模型的参数。
可选的,所述第一处理是对未标注图像样本进行弱数据增强处理。
可选的,所述第二处理是对未标注图像样本进行强数据增强处理,包括:对所述未标注图像样本中的图像按照多种变换操作随机组合的方式进行处理。
可选的,所述多种变换操作包括如下方式的一种、或者多种的组合:颜色抖动,随机仿射变换,随机切除,随机灰度化,随机直方图平衡,随机曝光,随机对比度,随机锐化,随机分色。
可选的,所述第一结果获得单元701,均包括如下步骤:将未标注图像样本进行所述第一处理后提供给所述教师图像识别模型,获得目标图像识别任务的初步结果;从所述目标图像识别任务的初步结果中获取针对目标图像识别任务的多个预测框;获取每个预测框对应的置信度,并进行从高到低的排序;根据所述预测框的重合度,对于重合度超出预定阈值的,保留其中置信度高的预测框,作为所述目标图像识别任务的第一结果。
可选的,所述伪标签数量确定单元703包括:重合度获得单元,用于将所述第一结果中包含的预测框与所述第二结果中包含的预测框进行数据融合,获得两个结果中针对同一样本的预测框的重合度;伪标签数量确定子单元,用于根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量;所述预定的方法,至少保证预测框重合度越高,则伪标签的目标获取数量越大。
可选的,所述伪标签数量确定子单元具体用于:将针对多个位置的预测框的重合度,按照重合度由大到小的排序规则进行排序;将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值;根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。
可选的,所述调整单元705具体用于:以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,获取所述第二结果中的预测框与所述伪标签对应的预测框之间的损失;根据所述第二结果中的预测框与所述伪标签对应的预测框之间的损失,对所述学生图像识别模型进行参数调整。
可选的,所述回传单元706具体用于:根据到达预定训练目标的学生图像识别模型,通过指数滑动平均算法对所述教师图像识别模型进行参数训练,获得达到预定训练目标的教师图像识别模型。
所述指数滑动平均算法为按照如下公式进行的算法:
Figure 951138DEST_PATH_IMAGE001
其中,
Figure 926047DEST_PATH_IMAGE002
为第t次迭代后的教师图像识别模型参数;
Figure 407844DEST_PATH_IMAGE003
为第t-1次迭代后的教师图像识别模型参数;
Figure 962453DEST_PATH_IMAGE004
为第t次迭代后的学生图像识别模型参数;
Figure 721462DEST_PATH_IMAGE005
为权重参数,与t呈正相关。
第三实施例
上述第二实施例提供了一种图像识别模型的训练装置,此外,本申请第三实施例还提供电子设备,由于电子设备实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下:请参考图8理解本实施例,图8为本申请第三实施例提供的电子设备的示意图。
如图8所示,本实施例提供的电子设备包括:处理器801和存储器802、通信总线803和通信接口804。所述处理器801,用于执行所述一条或多条计算机指令,以实现上述各方法实施例的各步骤。所述存储器802用于存储数据处理的一条或多条计算机指令。所述通信总线803,用于连接挂载在其上的处理器801、存储器802。所述通信接口804,用于为处理器801、存储器802提供连接接口。
在上述各实施例中,提供了图像识别模型的训练方法以及上述方法对应的装置和电子设备,此外,本申请实施例还提供了用于实现上述图像识别模型的训练方法的计算机可读存储介质。本申请提供的计算机可读存储介质实施例描述得比较简单,相关部分请参见上述方法实施例的对应说明即可,下述描述的实施例仅仅是示意性的。
本实施例提供的计算机可读存储介质上存储有计算机指令,该指令被处理器执行时实现上述各方法实施例的各步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、 其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (17)

1.一种图像识别模型的训练方法,其特征在于,包括:
将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果;
将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;
对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量;
在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签;
以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整;
在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型;
重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标图像识别模型。
2.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述初步训练包括:
将标注图像样本输入待初步训练检测模型,获得目标图像识别任务的第三结果;
比较所述标注图像样本的标注结果与所述第三结果,获得第一监督损失值;
依据所述第一监督损失值,调整所述待初步训练检测模型的参数;
重复上述步骤,直至达到预定的训练标准。
3.根据权利要求2所述的图像识别模型的训练方法,其特征在于,所述教师图像识别模型和所述学生图像识别模型采用同一个经过初步训练的检测模型。
4.根据权利要求2所述的图像识别模型的训练方法,其特征在于,在执行所述将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果的步骤之前,所述方法还包括:
采用标注数据对所述学生图像识别模型进行二次训练。
5.根据权利要求4所述的图像识别模型的训练方法,其特征在于,所述采用标注数据对所述学生图像识别模型进行二次训练,包括:
将所述标注图像样本再次输入所述学生图像识别模型中,获得目标图像识别任务的第四结果;
比较所述标注图像样本的标注结果与所述第四结果,获得第二监督损失值;
依据所述第二监督损失值,调整所述学生图像识别模型的参数。
6.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述第一处理是对未标注图像样本进行弱数据增强处理。
7.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述第二处理是对未标注图像样本进行强数据增强处理,包括:对所述未标注图像样本中的图像按照多种变换操作随机组合的方式进行处理。
8.根据权利要求7所述的图像识别模型的训练方法,其特征在于,所述多种变换操作包括如下方式的一种、或者多种的组合:颜色抖动,随机仿射变换,随机切除,随机灰度化,随机直方图平衡,随机曝光,随机对比度,随机锐化,随机分色。
9.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果,包括如下步骤:
将未标注图像样本进行所述第一处理后提供给所述教师图像识别模型,获得目标图像识别任务的初步结果;
从所述目标图像识别任务的初步结果中获取针对目标图像识别任务的多个预测框;
获取每个预测框对应的置信度,并进行从高到低的排序;
根据所述预测框的重合度,对于重合度超出预定阈值的,保留其中置信度高的预测框,作为所述目标图像识别任务的第一结果。
10.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量,包括:
将所述第一结果中包含的预测框与所述第二结果中包含的预测框进行数据融合,获得两个结果中针对同一样本的预测框的重合度;
根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量;所述预定的方法,至少保证预测框重合度越高,则伪标签的目标获取数量越大。
11.根据权利要求10所述的图像识别模型的训练方法,其特征在于,所述根据获得的针对同一样本的预测框的重合度,以预定的方法,确定伪标签数量,包括:
将针对多个位置的预测框的重合度,按照重合度由大到小的排序规则进行排序;
将多个位置的预测框的重合度进行累加处理,获得针对重合度的累加值;
根据所述针对重合度的累加值,向下取整,获得所述伪标签数量。
12.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整,包括:
以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,获取所述第二结果中的预测框与所述伪标签对应的预测框之间的损失;
根据所述第二结果中的预测框与所述伪标签对应的预测框之间的损失,对所述学生图像识别模型进行参数调整。
13.根据权利要求1所述的图像识别模型的训练方法,其特征在于,所述在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型,包括:
根据到达预定训练目标的学生图像识别模型,通过指数滑动平均算法对所述教师图像识别模型进行参数训练,获得达到预定训练目标的教师图像识别模型。
14.根据权利要求13所述的图像识别模型的训练方法,其特征在于,所述指数滑动平均算法为按照如下公式进行的算法:
Figure 737911DEST_PATH_IMAGE001
其中,
Figure 186210DEST_PATH_IMAGE002
为第t次迭代后的教师图像识别模型参数;
Figure 372472DEST_PATH_IMAGE003
为第t-1次迭代后的教师图像识别模型参数;
Figure 298840DEST_PATH_IMAGE004
为第t次迭代后的学生图像识别模型参数;
Figure 519737DEST_PATH_IMAGE005
为权重参数,与t呈正相关。
15.一种图像识别模型的训练装置,其特征在于,包括:
第一结果获得单元,用于将未标注图像样本进行第一处理后提供给教师图像识别模型,获得目标图像识别任务的第一结果;
第二结果获得单元,用于将所述未标注图像样本进行第二处理后提供给学生图像识别模型,获得目标图像识别任务的第二结果;其中,所述教师图像识别模型和所述学生图像识别模型均经过了初步训练,所述第一处理为破坏强度较第二处理弱的处理方式,所述第一结果和所述第二结果可以包括数量不等的预测框,所述预测框是指所述未标注图像样本中针对目标图像的预测位置;
伪标签数量确定单元,用于对所述未标注图像样本的第一结果和第二结果进行数据融合,根据两者间各预测框的重合情况,以预定的方式确定伪标签数量;
伪标签获取单元,用于在所述未标注图像样本的第一结果中,根据与所述第二结果的重合度的由高到低的顺序,保留所确定的伪标签数量的预测框作为伪标签;
调整单元,用于以所述伪标签为监督信号,将所述学生图像识别模型输出的第二结果与所述伪标签比较,据此对所述学生图像识别模型进行参数调整;
回传单元,用于在对学生图像识别模型的训练达到预定训练目标后,以预定方式将其参数回传给所述教师图像识别模型;
目标模型获得单元,用于重复上述步骤,直至达到预定要求,并将最终获得的教师图像识别模型作为目标模型。
16.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-14中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现如权利要求1-14中任一项所述的方法。
CN202211597753.6A 2022-12-13 2022-12-13 一种图像识别模型的训练方法、装置及电子设备 Pending CN115661615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211597753.6A CN115661615A (zh) 2022-12-13 2022-12-13 一种图像识别模型的训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211597753.6A CN115661615A (zh) 2022-12-13 2022-12-13 一种图像识别模型的训练方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115661615A true CN115661615A (zh) 2023-01-31

Family

ID=85019931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211597753.6A Pending CN115661615A (zh) 2022-12-13 2022-12-13 一种图像识别模型的训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115661615A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596916A (zh) * 2023-06-09 2023-08-15 北京百度网讯科技有限公司 缺陷检测模型的训练和缺陷检测方法及其装置
CN116630745A (zh) * 2023-05-25 2023-08-22 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN117058489A (zh) * 2023-10-09 2023-11-14 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质
CN117253287A (zh) * 2023-09-21 2023-12-19 书行科技(北京)有限公司 基于域泛化的动作预测模型训练方法、相关方法及产品
WO2024187908A1 (zh) * 2023-03-10 2024-09-19 马上消费金融股份有限公司 目标检测模型的构建方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149733A (zh) * 2020-09-23 2020-12-29 北京金山云网络技术有限公司 模型训练、质量确定方法、装置、电子设备及存储介质
CN113111916A (zh) * 2021-03-15 2021-07-13 中国科学院计算技术研究所 一种基于弱监督的医学图像语义分割方法和系统
US20210312172A1 (en) * 2020-12-11 2021-10-07 Beijing Baidu Netcom Science and Technology Co., Ltd Human body identification method, electronic device and storage medium
CN113569615A (zh) * 2021-02-24 2021-10-29 腾讯科技(深圳)有限公司 基于图像处理的目标识别模型的训练方法和装置
CN113920307A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质及图像检测方法
CN113963167A (zh) * 2021-10-29 2022-01-21 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN114399686A (zh) * 2021-11-26 2022-04-26 中国科学院计算机网络信息中心 一种基于弱监督学习的遥感图像地物识别与分类方法和装置
CN115187772A (zh) * 2022-07-11 2022-10-14 上海商汤智能科技有限公司 目标检测网络的训练及目标检测方法、装置及设备
CN115240035A (zh) * 2022-07-29 2022-10-25 北京百度网讯科技有限公司 半监督目标检测模型训练方法、装置、设备以及存储介质
CN115393687A (zh) * 2022-07-12 2022-11-25 西北工业大学 一种基于双伪标签优化学习的rgb图像半监督目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149733A (zh) * 2020-09-23 2020-12-29 北京金山云网络技术有限公司 模型训练、质量确定方法、装置、电子设备及存储介质
US20210312172A1 (en) * 2020-12-11 2021-10-07 Beijing Baidu Netcom Science and Technology Co., Ltd Human body identification method, electronic device and storage medium
CN113569615A (zh) * 2021-02-24 2021-10-29 腾讯科技(深圳)有限公司 基于图像处理的目标识别模型的训练方法和装置
CN113111916A (zh) * 2021-03-15 2021-07-13 中国科学院计算技术研究所 一种基于弱监督的医学图像语义分割方法和系统
CN113920307A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质及图像检测方法
CN113963167A (zh) * 2021-10-29 2022-01-21 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN114399686A (zh) * 2021-11-26 2022-04-26 中国科学院计算机网络信息中心 一种基于弱监督学习的遥感图像地物识别与分类方法和装置
CN115187772A (zh) * 2022-07-11 2022-10-14 上海商汤智能科技有限公司 目标检测网络的训练及目标检测方法、装置及设备
CN115393687A (zh) * 2022-07-12 2022-11-25 西北工业大学 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
CN115240035A (zh) * 2022-07-29 2022-10-25 北京百度网讯科技有限公司 半监督目标检测模型训练方法、装置、设备以及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024187908A1 (zh) * 2023-03-10 2024-09-19 马上消费金融股份有限公司 目标检测模型的构建方法、装置、电子设备及存储介质
CN116630745A (zh) * 2023-05-25 2023-08-22 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116630745B (zh) * 2023-05-25 2024-01-30 中国科学院微小卫星创新研究院 用于图像的端到端半监督目标检测方法、装置和可读介质
CN116596916A (zh) * 2023-06-09 2023-08-15 北京百度网讯科技有限公司 缺陷检测模型的训练和缺陷检测方法及其装置
CN116596916B (zh) * 2023-06-09 2024-08-06 北京百度网讯科技有限公司 缺陷检测模型的训练和缺陷检测方法及其装置
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN116681123B (zh) * 2023-07-31 2023-11-14 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN117253287A (zh) * 2023-09-21 2023-12-19 书行科技(北京)有限公司 基于域泛化的动作预测模型训练方法、相关方法及产品
CN117253287B (zh) * 2023-09-21 2024-04-26 书行科技(北京)有限公司 基于域泛化的动作预测模型训练方法、相关方法及产品
CN117058489A (zh) * 2023-10-09 2023-11-14 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质
CN117058489B (zh) * 2023-10-09 2023-12-29 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN115661615A (zh) 一种图像识别模型的训练方法、装置及电子设备
US11887064B2 (en) Deep learning-based system and method for automatically determining degree of damage to each area of vehicle
WO2021051601A1 (zh) 利用Mask R-CNN选择检测框的方法及系统、电子装置及存储介质
CN111695622A (zh) 变电作业场景的标识模型训练方法、标识方法及装置
CN111210399B (zh) 一种成像质量评价方法、装置及设备
US20170061252A1 (en) Method and device for classifying an object of an image and corresponding computer program product and computer-readable medium
CN111738036B (zh) 图像处理方法、装置、设备及存储介质
CN113642474A (zh) 一种基于yolov5的危险区域人员监控方法
CN112287896A (zh) 一种基于深度学习的无人机航拍图像目标检测方法及系统
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN111461260A (zh) 基于特征融合的目标检测方法、装置、设备及存储介质
CN110390261A (zh) 目标检测方法、装置、计算机可读存储介质及电子设备
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN112257527B (zh) 基于多目标融合与时空视频序列的手机检测方法
CN112733864B (zh) 模型训练方法、目标检测方法、装置、设备及存储介质
CN114913233A (zh) 图像处理方法、装置、设备、介质及产品
CN112581495A (zh) 图像处理方法、装置、设备及存储介质
CN113033525B (zh) 图像识别网络的训练方法、电子设备及存储介质
CN112949456B (zh) 视频特征提取模型训练、视频特征提取方法和装置
CN111402185A (zh) 一种图像检测方法及装置
CN110728229B (zh) 图像处理方法、装置、设备和存储介质
CN115631154A (zh) 一种电力设备状态监控分析方法与系统
Singh et al. Evaluating the Performance of Ensembled YOLOv8 Variants in Smart Parking Applications for Vehicle Detection and License Plate Recognition under Varying Lighting Conditions
CN113192106A (zh) 一种家畜跟踪方法及装置
CN116229369B (zh) 人流量的检测方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240519

Address after: Room 801-6, No. 528 Yan'an Road, Gongshu District, Hangzhou City, Zhejiang Province, 310005

Applicant after: Zhejiang Shenxiang Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: 310030 room 5034, building 3, No. 820, Wener West Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: ZHEJIANG LIANHE TECHNOLOGY Co.,Ltd.

Country or region before: China