CN115424032A - 目标检测模型训练方法、设备及计算机可读存储介质 - Google Patents
目标检测模型训练方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115424032A CN115424032A CN202210913867.0A CN202210913867A CN115424032A CN 115424032 A CN115424032 A CN 115424032A CN 202210913867 A CN202210913867 A CN 202210913867A CN 115424032 A CN115424032 A CN 115424032A
- Authority
- CN
- China
- Prior art keywords
- target detection
- pixel point
- target
- weight
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于知识蒸馏的目标检测模型训练方法、设备及计算机可读存储介质。该方法包括:获取样本图像,样本图像包括用于对若干个目标进行检测的若干个正类锚框;分别利用目标检测学生模型和目标检测教师模型对样本图像进行目标检测,对应得到第一目标检测结果和第二目标检测结果;基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失;至少基于第一蒸馏损失,调整目标检测学生模型的参数,蒸馏损失包括第一蒸馏损失。通过上述方式,能够提高训练得到的目标检测学生模型的目标检测能力。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于知识蒸馏的目标检测模型训练方法、设备及计算机可读存储介质。
背景技术
目标检测技术被广泛应用于监控领域,例如应用于行人检测、车辆检测、车牌检测、交通标志检测等等。目前,大多目标检测方法依据目标检测模型实现。相对于小的目标检测模型,大的目标检测模型的检测精度高,但是不管是训练还是应用,均需要更多的存储及计算开销。
将知识蒸馏应用于目标检测模型的训练,能够解决上述问题,以更小的存储及计算开销,得到更好的检测精度。具体来说,知识蒸馏是利用训练好大的目标检测模型(目标检测教师模型)学习到的知识,去训练小的目标检测模型(目标检测学生模型),从而将目标检测教师模型学习到的知识传递到目标检测学生模型的网络结构中,最后将目标检测学生模型投入应用。但是,目前的基于知识蒸馏的目标检测模型训练方法,得到的目标检测学生模型的目标检测能力不够高。
发明内容
本申请提供一种基于知识蒸馏的目标检测模型训练方法、设备及计算机可读存储介质,能够解决目前的基于知识蒸馏的目标检测模型训练方法,得到的目标检测学生模型的目标检测能力不够高的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于知识蒸馏的目标检测模型训练方法。该方法包括:获取样本图像,样本图像包括用于对若干个目标进行检测的若干个正类锚框;分别利用目标检测学生模型和目标检测教师模型对样本图像进行目标检测,对应得到第一目标检测结果和第二目标检测结果,第一目标检测结果和第二目标检测结果包括各正类锚框为前景框的概率;基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失,第一概率分布表征第一目标检测结果中各正类锚框为前景框的概率的分布特征,第二概率分布表征第二目标检测结果中各正类锚框为前景框的概率的分布特征;至少基于第一蒸馏损失,调整目标检测学生模型的参数。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种目标检测模型训练设备,该目标检测模型训练设备包括处理器、与处理器连接的存储器,其中,存储器存储有程序指令;处理器用于执行存储器存储的程序指令以实现上述方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。
通过上述方式,本申请将目标检测教师模型得到的第二目标检测结果中各正类锚框为前景框的概率的分布特征(第二概率分布)作为新的知识,通过第一蒸馏损失传递给目标检测学生模型。从而能够使得目标检测学生模型在知识蒸馏过程,学习到目标检测教师模型得到的正类锚框排序,在相关技术中知识蒸馏的基础上,提高训练得到的目标检测学生模型的目标检测能力。
附图说明
图1是本申请基于知识蒸馏的目标检测模型训练方法一实施例的流程示意图;
图2是目标检测学生模型及目标检测教师模型对目标A的目标检测结果的一示意图;
图3是本申请基于知识蒸馏的目标检测模型训练方法另一实施例的流程示意图;
图4是图3中S22的具体流程示意图;
图5是本申请目标检测模型训练设备一实施例的结构示意图;
图6是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
图1是本申请基于知识蒸馏的目标检测模型训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:
S11:获取样本图像。
样本图像包括用于对若干个目标进行检测的若干个正类锚框。
本实施例的执行主体是目标检测模型训练设备,该目标检测模型训练设备可以是任何有目标检测模型训练能力的电子设备,如手机、电脑,还可以是服务器等等。
样本图像可以标注有真实目标检测结果,真实目标检测结果可以包括正类锚框为前景框的真实概率、正类锚框中目标的真实边界框(ground-truth bounding box),样本图像还可以标注有各个目标的区域、前景区域和背景区域等等。目标可以是任何具有检测需求的对象,例如人、车、动物(如猫、狗)等等。锚框(anchor box)是根据目标预先定义的先验框。在获取样本图像包括的各个锚框之后,可以基于获取的各个锚框与目标的真实边界框之间的相似度,从样本图像包括的各个锚框中确定出正类锚框;具体地,可以但不局限于获取各个锚框与目标的真实边界框之间的相似度,将相似度大于相似度阈值的锚框确定为用于检测目标的正类锚框(positive anchor)。相似度可以通过IOU、GIOU、DIOU、CIOU等指标衡量。后文也将用于检测目标的正类锚框称为目标对应的正类锚框。
S12:分别利用目标检测学生模型和目标检测教师模型对样本图像进行目标检测,对应得到第一目标检测结果和第二目标检测结果。
第一目标检测结果和第二目标检测结果均包括各正类锚框为前景框的概率。
目标检测教师模型大于目标检测学生模型,即相较于目标检测教师网络,目标检测学生模型的网络结构更简单(参数量更小、更轻量级),需要的存储及计算开销更小。例如,教师模型为ResNet50-RetinaNet,ResNet18-RetinaNet。
正类锚框为前景框的概率也可以称为正类锚框的置信度,与正类锚框的质量正相关。第一目标检测结果和第二目标检测结果还可以包括各正类锚框为前景框的概率,各正类锚框中目标的预测边界框、样本图像中各个像素点的目标分类结果等等。后文称目标检测学生模型得到的目标分类结果为第一目标分类结果,称目标检测教师模型得到的目标分类结果为第二目标分类结果。像素点的第一目标分类结果和第二目标分类结果均包括像素点属于各个目标的概率。
可以分别利用目标检测学生模型和目标检测教师模型对样本图像进行特征提取,对应得到第一特征图和第二特征图;利用目标检测学生模型基于第一特征图得到第一目标检测结果,利用目标检测教师模型基于第二特征图得到第二目标检测结果。
第一特征图和第二特征图的数量为至少一个。不同的第一特征图的尺度不一致,分别用于不同尺度的目标检测;不同的第二特征图的尺度不一致,分别用于不同尺度的目标检测。以第二特征图为例,目标检测学生模型中的特征提取器为FPN,FPN包括L个特征提取层,通过L个特征提取层依序对样本图像处理,可以得到特征金字塔(包括L个尺寸不同的第二特征图)。
S13:基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失。
第一概率分布表征第一目标检测结果中各正类锚框为前景框的概率的分布特征,第二概率分布表征第二目标检测结果中各正类锚框为前景框的概率的分布特征。
针对第一概率分布,可以对第一目标检测结果中各正类锚框为前景框的概率进行整合,整合后的第一目标检测结果中各正类锚框为前景框的概率处在预设的概率范围;将整合后的第一目标检测结果中各正类锚框为前景框的概率的分布,确定为第一概率分布。
针对第二概率分布,可以对第二目标检测结果中各正类锚框为前景框的概率进行整合,整合后的第二目标检测结果中各正类锚框为前景框的概率处在预设的概率范围;将整合后的第二目标检测结果中各正类锚框为前景框的概率的分布,确定为第二概率分布。
其中,得到第一概率分布和第二概率分布时所用的整合函数(如SoftMax函数)、整合参数(如后文提及的τ)可以相同,也可以不同。
例如,共有M个目标,第k个目标对应的正类锚框数量为Nk(k∈{1,M}),M个目标对应的正类锚框总数为:
S14:至少基于第一蒸馏损失,调整目标检测学生模型的参数。
在一些实施例中,还可以在S14之前获取第三蒸馏损失,以在S14中基于第一蒸馏损失和第三蒸馏损失调整目标检测学生模型的参数。
第三蒸馏损失是基于目标的第三概率分布和目标的第四概率分布之间的差异构建得到的。具体来说,针对每个目标,可以获取目标的第三概率分布和目标的第四概率分布之间的第三子蒸馏损失,目标的第三概率分布表征第一目标检测结果中用于检测目标的各正类锚框为前景框的概率的分布特征,目标的第四概率分布表征第二目标检测结果中用于检测目标的各正类锚框为前景框的概率的分布特征;对各目标的第三子蒸馏损失进行加权处理,得到第三蒸馏损失。加权处理的方式可以是加权平均、加权求和等等。
例如,第一目标检测结果和第二目标检测结果中用于预测目标j的各正向锚框为前景框的概率序列分别为利用SoftMax函数S(·,τ)=SoftMax(·/τ)分别对进行整合,得到得到目标j的第三子蒸馏损失可以表示为:
将第一概率分布与第三概率分布(或者第二概率分布与第四概率分布)比较来说,第一概率分布(或者第二概率分布)表征的分布特征,对应用于检测所有目标的正类锚框,因此具有全局性质,第三概率分布(或者第四概率分布)表征的分布特征,对应用于检测单个目标的正类锚框,因此具有局部性质。
可以理解的是,针对待检测的至少部分目标(例如检测难度大的目标,模糊、不明显等等因素都可能引起检测难度大,记为目标A)而言,目标检测教师模型检测得到的目标A的预测边界框(bounding box)的质量,高于目标检测学生模型检测得到的目标A的预测边界框的质量,并且目标检测教师模型和目标检测学生模型不是从同一正类锚框检测得到目标A的预测边界框。结合图2进行说明,目标检测教师模型从目标A对应的正类锚框a1检测得到目标A的预测边界框,第二目标检测结果中a2的质量高于a1的质量;目标检测学生模型从目标A对应的正类锚框a2检测得到目标A的预测边界框,且第一目标检测结果中a1的质量高于a2的质量。由此可以确定目标检测教师模型和目标检测学生模型得到的各目标对应的各正类锚框的排序不同。
本申请中,各目标对应的各正类锚框的排序体现为所有正类锚框为前景框的概率的分布特征(具有全局性质)、单个目标对应的正类锚框为前景框的概率的分布特征(具有局部性质)。利用第一蒸馏损失调整目标检测学生模型的参数,可以将目标检测教师模型学习到的具有全局性质的分布特征作为知识传递给学生模型,使得目标检测学生模型模仿,实现具有全局性质的分布特征这一知识的蒸馏;利用第三蒸馏损失调整目标检测学生模型的参数,可以将目标检测教师模型学习到的具有局部性质的分布特征作为知识传递给学生模型,使得目标检测学生模型模仿,实现具有局部性质的分布特征这一知识的蒸馏。从而,使得目标检测学生模型得到的各目标对应的各正类锚框的排序,越来越接近于目标检测教师模型得到的各目标对应的各正类锚框的排序。
通过本实施例的实施,本申请将目标检测教师模型得到的第二目标检测结果中各正类锚框为前景框的概率的分布特征(第二概率分布)作为新的知识,通过第一蒸馏损失传递给目标检测学生模型。从而能够使得目标检测学生模型在知识蒸馏过程,学习到目标检测教师模型得到的正类锚框排序,在相关技术中知识蒸馏的基础上,进一步提高目标检测学生模型的目标检测效果。
进一步地,在一些实施例中,还可以在S14之前获取第二蒸馏损失,以在S14中基于第二蒸馏损失调整目标检测模型的参数。第二蒸馏损失的获取可以如下:
图3是本申请基于知识蒸馏的目标检测模型训练方法另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图3所示的流程顺序为限。如图3所示,本实施例可以包括:
S21:获取第一特征图和第二特征图之间各个像素点的特征差异值。
像素点的特征差异值为像素点在第一特征图中的特征与在第二特征图中的特征之间的差异值。
第一特征图与第二特征图大小一致,第一特征图包括目标检测学生模型得到的各个像素点的特征,第二特征图包括目标检测教师模型得到的各个像素点的特征。
S22:获取各个像素点的权重。
在一些实施例中,可以基于各个像素点在样本图像中的区域,获取各个像素点的权重。像素点在样本图像中的区域的重要程度越高(如用户设置的较重要的区域)、表达的信息越丰富(如前景区域),像素点的权重越大。例如,相对背景区域来说,前景区域蕴含的信息更为丰富,设置前景区域的像素点的权重较大。
在一些实施例中,可以基于各个像素点的第一目标分类结果和各个像素点的第二目标分类结果之间的差异值,确定各个像素点的权重,像素点的权重,与像素点的第一目标分类结果和像素点的第二目标分类结果之间的差异值正相关。
在一些实施例中,可以基于各个像素点在样本图像中的区域,获取各个像素点的第一权重影响值,基于各个像素点的第一目标分类结果和各个像素点的第二目标分类结果之间的差异值,获取第二权重影响值;基于第一权重影响值和/或第二权重影响值中的至少一个,获取像素点的权重。例如,结合参阅图4,S22可以包括以下子步骤:
S221:基于各个像素点在样本图像中的区域,获取各个像素点的第一权重影响值。
像素点的权重与像素点的第一权重影响值正相关,前景区域的像素点的第一权重影响值大于背景区域的像素点的第一权重影响值。
可以理解的是,相对背景区域来说,前景区域蕴含的信息更为丰富,因此为前景区域的像素点设置更大的第一权重影响值,进而后续构建的第二蒸馏损失,能够更好地传递蒸馏知识。例如,前景区域的像素点的第一权重影响值λfg=5.0,背景区域的像素点的第一权重影响值λbg=1.0。
S222:至少基于各个像素点的第一权重影响值获取各个像素点的权重。
在一些实施例中,可以仅基于第一权重影响值获取各个像素点的权重。
在一些实施例中,还可以在S222之前,基于各个像素点的第二目标分类结果和各个像素点的第二目标分类结果之间的差异值,获取各个像素点的第二权重影响值。像素点的第二权重影响值是基于像素点的第一目标分类结果和第二目标分类结果之间的差异值(后文也可以称为分类差异值)得到的,且像素点的第二权重影响值可以为像素点的分类差异值本身,也可以与像素点的分类差异值正相关。由此,在S222中,可以基于第一权重影响值和第二权重影响值获取各个像素点的权重,像素点的第二权重影响值与像素点的权重正相关。其中,针对每个像素点,可以对像素点的第一权重影响值和像素点的第二权重影响值进行点乘、相加、平均等等,得到像素点的权重。
像素点的权重越大,代表像素点处的分类差异值越大,或者重要程度越高,或者包含的信息越丰富。
S23:基于各个像素点的权重对各个像素点的特征差异值进行加权处理,得到加权处理结果。
加权处理的方式可以是加权求和、加权平均等等。
S24:基于加权处理结果构建第二蒸馏损失。
如下对S21~S24举例说明,权重是第一权重影响值和第二权重影响值的点乘结果。各个像素点的第一目标分类结果(各个像素点属于各个目标的概率矩阵)为第二目标分类结果为H、W和C分别表示宽、高和概率通道数(目标数),各个像素点的权重矩阵可以表示为:
其中,表示各个像素点的第一权重影响值矩阵,表示各个像素点的第一目标分类结果中,属于第c个目标的概率矩阵,表示各个像素点的第二目标分类结果中,属于第c个目标的概率矩阵,表示各个像素点属于第c个目标的第二权重影响值矩阵,⊙表示点乘。
进一步地,各个像素点的特征差异值可以表示为:
其中,目标检测学生模型和目标检测学生模型中FPN的第l个特征提取层包括Q个特征通道,相应地第一特征图包括Q个第一特征子图,第二特征图包括Q个第二特征子图。表示目标检测学生模型中FPN的第l层的第q个特征通道得到的第一特征子图,表示目标检测教师模型中FPN的第l层的第q个特征通道得到的第二特征子图。
进一步地,第二蒸馏损失可以表示为:
其中,Hl、Wl分别表示第l层得到的特征图的宽、高。
通过本实施例的实施,本申请可以将目标检测教师模型得到的第二特征图作为知识,让目标检测学生模型模仿,实现知识蒸馏。而第二特征图是高维的,让目标检测学生模型模仿第二特征图,难度较高。又考虑到第一特征图和第二特征图在权重越大的像素点处的分类差异值越大/重要程度越高/表达的信息越丰富,因此通过为像素点设置权重,基于权重和特征差异值共同构建第二蒸馏损失,使得第二蒸馏损失更好地引导目标检测学生模型模仿第二特征图,分区域控制蒸馏程度,在尽可能不影响蒸馏效果的同时提高蒸馏效率。
进一步地,在一些实施例中,还可以在S13之前,基于真实目标检测结果和第一目标检测结果之间的差异,构建原始损失。由此在S14中,可以基于第一蒸馏损失和原始损失,调整目标检测学生模型的参数。进一步提高目标检测学生模型的目标检测能力。原始损失记为Lori。
在基于第一蒸馏损失、第二蒸馏损失、第三蒸馏损失和原始损失调整目标检测学生模型的参数的情况下,最终损失Lall可以表示为:
Lall=Lori+αLRM+βLPF;
LRM=LLRM+LGRM;
其中,α、β分别表示权重,例如分别设置为1和0.25。
图5是本申请目标检测模型训练设备一实施例的结构示意图。如图5所示,该目标检测模型训练设备包括处理器21、与处理器21耦接的存储器22。
其中,存储器22存储有用于实现上述任一实施例的方法的程序指令;处理器21用于执行存储器22存储的程序指令以实现上述方法实施例的步骤。其中,处理器21还可以称为CPU(Central Processing Unit,中央处理单元)。处理器21可能是一种集成电路芯片,具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
图6是本申请计算机可读存储介质一实施例的结构示意图。如图6所示,本申请实施例的计算机可读存储介质30存储有程序指令31,该程序指令31被执行时实现本申请上述实施例提供的方法。其中,该程序指令31可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质30中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质30包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种基于知识蒸馏的目标检测模型训练方法,其特征在于,包括:
获取样本图像,所述样本图像包括用于对若干个目标进行检测的若干个正类锚框;
分别利用目标检测学生模型和目标检测教师模型对所述样本图像进行目标检测,对应得到第一目标检测结果和第二目标检测结果,所述第一目标检测结果和所述第二目标检测结果包括各所述正类锚框为前景框的概率;
基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失,所述第一概率分布表征所述第一目标检测结果中各所述正类锚框为前景框的概率的分布特征,所述第二概率分布表征所述第二目标检测结果中各所述正类锚框为前景框的概率的分布特征;
至少基于所述第一蒸馏损失,调整所述目标检测学生模型的参数。
2.根据权利要求1所述的方法,其特征在于,在所述基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失之前,还包括:
对所述第一目标检测结果中各所述正类锚框为前景框的概率进行整合,整合后的所述第一目标检测结果中各所述正类锚框为前景框的概率处在预设的概率范围;
将整合后的所述第一目标检测结果中各所述正类锚框为前景框的概率的分布特征,确定为所述第一概率分布。
3.根据权利要求1所述的方法,其特征在于,在所述基于第一概率分布和第二概率分布之间的差异,构建第一蒸馏损失之前,还包括:
对所述第二目标检测结果中各所述正类锚框为前景框的概率进行整合,整合后的所述第二目标检测结果中各所述正类锚框为前景框的概率处在预设的概率范围;
将整合后的所述第二目标检测结果中各所述正类锚框为前景框的概率的分布特征,确定为所述第二概率分布。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别利用所述目标检测学生模型和所述目标检测教师模型对所述样本图像进行特征提取,对应得到第一特征图和第二特征图;
获取所述第一特征图和所述第二特征图之间各个像素点的特征差异值,所述像素点的特征差异值为所述像素点在所述第一特征图中的特征与在所述第二特征图中的特征之间的差异值;
获取各个所述像素点的权重;
基于各个所述像素点的权重对各个所述像素点的特征差异值进行加权处理,得到加权处理结果;
基于所述加权处理结果构建第二蒸馏损失;
所述至少基于所述第一蒸馏损失,调整所述目标检测学生模型的参数,包括:
基于所述第一蒸馏损失和所述第二蒸馏损失,调整所述目标检测学生模型的参数。
5.根据权利要求4所述的方法,其特征在于,所述获取各个所述像素点的权重,包括:
基于各个所述像素点在所述样本图像中的区域,获取各个所述像素点的第一权重影响值;其中,所述像素点的权重与所述像素点的第一权重影响值正相关,前景区域的像素点的第一权重影响值大于背景区域的像素点的第一权重影响值;
至少基于各个所述像素点的第一权重影响值,获取各个所述像素点的权重。
6.根据权利要求5所述的方法,其特征在于,所述第一目标检测结果包括所述第一特征图中各个所述像素点的第一目标分类结果,所述第二目标检测结果包括所述第二特征图中各个所述像素点的第二目标分类结果,所述像素点的第一目标分类结果和所述像素点的第二目标分类结果包括所述像素点属于各个所述目标的概率;
在所述至少基于所述第一权重影响值获取各个所述像素点的权重之前,所述方法还包括:
基于各个所述像素点的第一目标分类结果和各个所述像素点的第二目标分类结果之间的差异值,获取各个所述像素点的第二权重影响值;所述像素点的第二权重影响值,与所述像素点的第一目标分类结果和所述像素点的第二目标分类结果之间的差异值正相关;
所述至少基于所述第一权重影响值获取各个所述像素点的权重,包括:
基于各个所述像素点的第一权重影响值和各个所述像素点的第二权重影响值,获取各个所述像素点的权重,所述像素点的第二权重影响值与所述像素点的权重正相关。
7.根据权利要求6所述的方法,其特征在于,所述基于各个所述像素点的第一权重影响值和各个所述像素点的第二权重影响值,获取各个所述像素点的权重,包括:
针对每个所述像素点,对所述像素点的第一权重影响值和所述像素点的第二权重影响值进行点乘,得到所述像素点的权重。
8.根据权利要求1所述的方法,其特征在于,在所述分别利用目标检测学生模型和目标检测教师模型对所述样本图像进行目标检测,对应得到第一目标检测结果和第二目标检测结果之后,所述方法还包括:
针对每个所述目标,获取所述目标的第三概率分布和所述目标的第四概率分布之间的第三子蒸馏损失,所述目标的第三概率分布表征所述第一目标检测结果中用于检测所述目标的各所述正类锚框为前景框的概率的分布特征,所述目标的第四概率分布表征所述第二目标检测结果中用于检测所述目标的各所述正类锚框为前景框的概率的分布特征;
对各所述目标的第三子蒸馏损失进行加权处理,得到第三蒸馏损失;
所述至少基于所述第一蒸馏损失,调整所述目标检测学生模型的参数,包括:
基于所述第一蒸馏损失和所述第三蒸馏损失,调整所述目标检测学生模型的参数。
9.根据权利要求1所述的方法,其特征在于,所述样本图像标注有真实目标检测结果,所述方法还包括:
基于所述真实目标检测结果和所述第一目标检测结果之间的差异,构建原始损失;
所述至少基于所述第一蒸馏损失,调整所述目标检测学生模型的参数,包括:
基于所述第一蒸馏损失和所述原始损失,调整所述目标检测学生模型的参数。
10.一种目标检测模型训练设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-9中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序指令,所述程序指令能够被处理器执行,被执行时实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913867.0A CN115424032A (zh) | 2022-07-27 | 2022-07-27 | 目标检测模型训练方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913867.0A CN115424032A (zh) | 2022-07-27 | 2022-07-27 | 目标检测模型训练方法、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424032A true CN115424032A (zh) | 2022-12-02 |
Family
ID=84196057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210913867.0A Pending CN115424032A (zh) | 2022-07-27 | 2022-07-27 | 目标检测模型训练方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424032A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557917A (zh) * | 2024-01-11 | 2024-02-13 | 杭州海康威视数字技术股份有限公司 | 水质检测方法和装置 |
-
2022
- 2022-07-27 CN CN202210913867.0A patent/CN115424032A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557917A (zh) * | 2024-01-11 | 2024-02-13 | 杭州海康威视数字技术股份有限公司 | 水质检测方法和装置 |
CN117557917B (zh) * | 2024-01-11 | 2024-05-03 | 杭州海康威视数字技术股份有限公司 | 水质检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
EP3779774B1 (en) | Training method for image semantic segmentation model and server | |
EP3410351B1 (en) | Learning program, learning method, and object detection device | |
WO2020098606A1 (zh) | 节点分类方法、模型训练方法、装置、设备及存储介质 | |
CN114424253A (zh) | 模型训练方法、装置、存储介质及电子设备 | |
CN112069929A (zh) | 一种无监督行人重识别方法、装置、电子设备及存储介质 | |
CN110969200B (zh) | 基于一致性负样本的图像目标检测模型训练方法及装置 | |
CN111723815B (zh) | 模型训练方法、图像处理方法、装置、计算机系统和介质 | |
CN110929640B (zh) | 一种基于目标检测的宽幅遥感描述生成方法 | |
CN110889421A (zh) | 目标物检测方法及装置 | |
CN112329881A (zh) | 车牌识别模型训练方法、车牌识别方法及装置 | |
CN111667001A (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
CN116935447B (zh) | 基于自适应师生结构的无监督域行人重识别方法及系统 | |
CN112101114B (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN111814846B (zh) | 属性识别模型的训练方法、识别方法及相关设备 | |
WO2023160666A1 (zh) | 一种目标检测方法、目标检测模型训练方法及装置 | |
CN115424032A (zh) | 目标检测模型训练方法、设备及计算机可读存储介质 | |
CN114882324A (zh) | 目标检测模型训练方法、设备及计算机可读存储介质 | |
CN111553337A (zh) | 一种基于改进锚框的高光谱多目标检测方法 | |
CN114155551A (zh) | 基于YOLOv3改进的复杂环境下的行人检测方法及装置 | |
CN113283388A (zh) | 活体人脸检测模型的训练方法、装置、设备及存储介质 | |
CN117392714A (zh) | 基于半监督学习的人脸美丽预测方法、设备及介质 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
CN114373081A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN115147852A (zh) | 一种古籍识别方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |