CN114758298B - 基于多任务的自监督目标检测方法、系统、装置及介质 - Google Patents

基于多任务的自监督目标检测方法、系统、装置及介质 Download PDF

Info

Publication number
CN114758298B
CN114758298B CN202210428383.7A CN202210428383A CN114758298B CN 114758298 B CN114758298 B CN 114758298B CN 202210428383 A CN202210428383 A CN 202210428383A CN 114758298 B CN114758298 B CN 114758298B
Authority
CN
China
Prior art keywords
target
image
target detection
self
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210428383.7A
Other languages
English (en)
Other versions
CN114758298A (zh
Inventor
李迎港
孙季丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210428383.7A priority Critical patent/CN114758298B/zh
Publication of CN114758298A publication Critical patent/CN114758298A/zh
Application granted granted Critical
Publication of CN114758298B publication Critical patent/CN114758298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于多任务的自监督目标检测方法、系统、装置及介质,其中方法包括:对目标检测数据集图像中的目标生成自监督标签,构建训练集;在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;根据训练集,通过多任务学习的方式训练目标检测模型;获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体。本发明通过多尺度目标区分任务和最邻近目标预测任务,使目标检测模型充分学习图像中各个目标之间的大小尺度关系以及目标之间的类别关系,有效提升目标检测模型的识别性能。本发明可广泛应用于深度学习、计算机视觉技术领域。

Description

基于多任务的自监督目标检测方法、系统、装置及介质
技术领域
本发明涉及深度学习、计算机视觉技术领域,尤其涉及一种基于多任务的自监督目标检测方法、系统、装置及介质。
背景技术
随着互联网和多媒体技术的蓬勃发展,图像和视频称为人们日常生活中不可缺少的记录信息的载体。目标检测作为计算机视觉领域中的一个研究热点领域,在监控、交通、智能驾驶和人机互动等领域都有着极为广泛的应用,例如,对于监控系统来说,通过人工的方式对监控画面中出现的行人或车辆进行统计需要耗费大量的时间,而通过目标检测模型可以迅速准确地定位出画面中出现的行人和车辆等物体的位置信息,因此对目标检测技术的研究和推广具有很重要的现实意义。
现有的基于深度神经网络的目标检测算法可以分为一阶段(One Stage)算法和二阶段(Two Stage)算法:对于一阶段目标检测算法来说,锚框的定位和分类是一次性完成的,典型的一阶段算法包括YOLO、SSD等;二阶段目标检测算法需要分为两步实现,首先需要获取目标区域的候选框,然后再对候选框进行分类并调整候选框的位置参数,常见的二阶段算法包括R-CNN、Fast R-CNN、Faster R-CNN等。相对于图像分类任务来说,目标检测任务的实现更加复杂,不但需要对图像中的物体类别进行分类,还需要预测物体在图像中的位置和大小,事实上,由于目标检测算法需要完成锚框位置回归和目标类别预测两个子任务,因此目标检测算法也是一种多任务学习方法。
然而现有的目标检测算法仍然存在一定的缺陷:基于监督的目标检测模型性能的提高依赖于使用更多的数据对模型进行训练,而对数据进行人工标注是极为费时费力的过程,因此如何在不需要额外人工标注的条件下进一步提升目标检测模型的检测精度,是目前亟待解决的技术问题。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于多任务的自监督目标检测方法、系统、装置及介质。
本发明所采用的技术方案是:
一种基于多任务的自监督目标检测方法,包括以下步骤:
对目标检测数据集图像中的目标生成自监督标签,构建训练集;
在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;
根据训练集,通过多任务学习的方式训练目标检测模型;
获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体。
进一步地,所述目标检测模型需要同时学习三个任务:目标检测任务、多尺度目标区分任务和最邻近目标预测任务;
通过对多尺度目标区分任务的学习,帮助目标检测模型学习到图像中目标之间的大小尺度关系;通过对最邻近目标预测任务的学习,帮助目标检测模型学习到图像中的目标和与之邻近的目标之间的类别关系。
进一步地,所述对多尺度目标区分任务采用已有的真实锚框标注信息来构造监督信号:
对于图像x,为图像x中的真实锚框,对于图像x中的锚框/>用K+1维向量ys来表示为多尺度目标区分任务生成的自监督标签;
如果锚框b周围不存在其他类别锚框,那么ys[0]=1;否则ys[0]=0,并且有:
ys[i]=S(b')
式中,i=1:K,K为待检测目标类别数,S表示锚框b'对应区域的像素面积;锚框b'满足:
式中,D表示两个锚框中心点之间的距离;对ys进行归一化可得:
对于锚框b来说,其自监督标签ys表示该锚框与其周围邻近的各个类别锚框之间的尺度关系,ys[i]的值越大,说明类别i对应目标的尺度相对更大,ys[i]的值越小,说明类别i对应目标的尺度相对更小。
进一步地,所述对最邻近目标预测任务采用已有的真实锚框标注信息来构造自监督信号:
对于图像x,为图像x中的真实锚框,对于锚框/>最邻近目标预测任务的自监督标签用K+1维向量yc来表示;
如果图像中只存在和b同属一个类别的锚框,那么yc[0]=1;否则yc[0]=0,并且有:
式中,R为图像x的对角线长度,b'满足:
对于锚框b来说,其自监督标签yc[i]的值越大,说明类别i对应的锚框与锚框b之间的距离越近。
进一步地,采用多任务损失函数训练所述目标检测模型,以端到端的方式训练目标检测模型。
进一步地,所述多任务损失函数为各个模块的损失函数的加权和;
对于多尺度目标区分任务,采用交叉熵损失函数:
式中,Nb为候选框生成网络RPN生成的正候选框的个数,表示为第j个正候选框生成的多尺度目标区分任务真实标签,/>为网络输出的预测值;
对于最邻近目标预测任务,同样采用交叉熵损失函数:
式中,表示第j个正候选框的最邻近目标预测任务真实标签,/>表示网络输出的预测值;
所述目标检测任务的损失函数为:
Lmain=Lrpn+Lcls+Lreg
式中,Lrpn为RPN网络损失,Lcls为目标分类损失,Lreg为边界框回归损失;
所述目标检测模型的损失函数为:
Ltotal=LmainsLscLc
式中,λs和λc为权重值。
进一步地,所述使用训练后的目标检测模型对待检测图像进行目标检测,包括:
目标检测任务和两个自监督辅助任务共享ROI池化层的输出特征,在得到ROI池化特征后,针对不同的任务有不同的输出模块;
其中目标检测任务的输出模块包含两个部分:边框分类以及边框回归,两个辅助任务的输出模块只包含针对辅助任务自监督标签的预测输出层。
本发明所采用的另一技术方案是:
一种基于多任务的自监督目标检测系统,包括:
数据获取模块,用于对目标检测数据集图像中的目标生成自监督标签,构建训练集;
模型构建模块,用于在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;
模型训练模块,用于根据训练集,通过多任务学习的方式训练目标检测模型;
目标检测模块,用于获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体。
本发明所采用的另一技术方案是:
一种基于多任务的自监督目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过多尺度目标区分任务和最邻近目标预测任务,使目标检测模型充分学习图像中各个目标之间的大小尺度关系以及目标之间的类别关系,有效提升目标检测模型的识别性能。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种基于多任务的自监督目标检测方法的步骤流程;
图2是本发明实施例中基于多任务的自监督目标检测模型的网络结构的示意图;
图3是本发明实施例中所用到的式例图像;
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
近年来,随着自监督表征学习技术的发展和进步,深度学习模型的训练不再完全依赖于有标注数据,自监督表征学习可以利用无标注数据来对模型进行训练,其原理是通过设计自监督辅助任务的方式来构造监督信号,然后训练模型学习自监督任务,从而实现表征学习。自监督表征学习的出现减轻了深度模型对有标注数据的依赖。
本发明将自监督学习应用于目标检测任务,根据自监督任务的本身特点来设计自监督辅助任务,通过训练模型学习辅助任务,来提升模型在目标检测任务上的性能。本发明提供一种基于多任务的自监督目标检测方法方法,首先设计最邻近目标预测任务和多尺度目标区分任务两个自监督辅助任务;然后为目标检测数据集中的每个目标自动生成针对两个辅助任务的自监督标签,再在目标检测基础模型上加入针对两个自监督任务任务的输出模块,训练神经网络通过多任务的方式同时学习目标检测任务和两个自监督辅助任务,使得模型在辅助任务上学习到的表征能够有效提升模型在主任务(即目标检测任务)上的表现;最后使用训练好的模型来对图像进行目标检测。本发明可以训练模型充分学习图像中各个目标之间的大小尺度关系以及目标之间的类别关系,有效提升目标检测模型性能。同时,对于三维图像数据,也可以将其截取为二维图像,然后再对其进行目标检测。
如图1所示,本实施例提供一种基于多任务的自监督目标检测方法,包括以下步骤:
S1、对目标检测数据集图像中的目标生成自监督标签,构建训练集。
对目标检测数据集图像中的目标生成自监督标签,自监督标签的生成是利用数据集中已有的标注信息,自动为两个辅助任务生成自监督标签。自监督标签的生成原理如下:
对于多尺度目标区分任务,图像中物体的大小对目标检测任务最终的检测结果有很大影响,对于出现在同一张图像中的所有待检测目标物体而言,各个物体和与之相近物体之间的大小比例存在一定的规律,并且随着图像景深的变化,不同物体之间的大小比例也随之变化,通过学习图像中各个物体之间的尺度大小关系,模型能够编码与各个目标尺度相关的语义信息。
多尺度目标区分任务通过已有的真实锚框标注信息来构造监督信号,对于图像x,为图像x中的真实锚框,对于图像x中的锚框/>用K+1维向量ys来表示我们为多尺度目标区分任务生成的自监督标签。如果b周围不存在其他类别锚框,那么ys[0]=1;否则ys[0]=0,并且有:
ys[i]=S(b')
式中,i=1:K,K为待检测目标类别数,S表示锚框b'对应区域的像素面积。锚框b'满足:
式中,D表示两个锚框中心点之间的距离。对ys进行归一化可得:
对于锚框b来说,其自监督标签ys表示该锚框与其周围邻近的各个类别锚框之间的尺度关系,ys[i]的值越大,说明类别i对应目标的尺度相对更大,ys[i]的值越小,说明类别i对应目标的尺度相对更小。在模型学习检测任务的同时,通过加入多尺度目标区分任务,帮助模型理解图像中各个目标与其周围目标之间的尺度大小关系。
对于最邻近目标预测任务来说,对于图像中的某个物体而言,通过该物体的相关信息,往往能够预测在图像中距离该物体较近的范围内是否还存在与之关联的其他类别物体,因为同一场景中的不同物体之间是相互关联的,通过物体间的关联信息,可以判断某一物体周围的其他物体类别信息。对于目标检测任务来说,训练模型学习图像中某个目标周围的其他目标的类别信息,有助于帮助模型理解图像的全局语义信息。
最邻近目标预测任务和多尺度目标区分任务一样,采用已有的信息来构造自监督信号,对于图像x,为图像x中的真实锚框。对于锚框/>而言,最邻近目标预测任务的自监督标签用K+1维向量yc来表示。如果图像中只存在和b同属一个类别的锚框,那么yc[0]=1;否则yc[0]=0,并且有:
式中,R为图像x的对角线长度。对于锚框b来说,其自监督标签yc[i]的值越大,说明类别i对应的锚框与锚框b之间的距离越近。由于计算时使用了锚框之间的绝对距离,因此需要对yc进行归一化:
最邻近目标预测任务能够预测某一物体周围可能存在的物体的类别,通过对最邻近目标预测任务的学习,模型能够学习到图像中邻近物体的类别信息,从而帮助检测模型对候选框进行更准确地分类。
S2、在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块。
搭建网络模型,将针对目标检测的模块和正对自监督辅助任务的模块相结合得到初始的网络模型,目标检测模块是基于Faster R-CNN网络实现,具体的模型结构可以参考图2。
图像输入模型后的执行流程大致分为以下几步:
(1)将图像输入模型中进行特征提取后得到特征图,特征提取模块可以采用不同深度或不同结构的卷积神经网络来实现。
(2)然后再利用RPN网络生成候选框,将生成的所有候选框投影到特征图中,然后利用ROI池化,将所有候选框对应的特征映射为大小相同的输出特征图。
(3)将ROI池化层的输出特征,经过三个不同的全连接层处理,三个全连接层分别针对目标检测任务、多尺度目标区分任务和最邻近目标预测任务。经过全连接层后,可以得到针对不同任务的特征。
S3、根据训练集,通过多任务学习的方式训练目标检测模型。
模型训练,整个目标检测模型采用端到端的方式进行训练,同时学习RPN模块、目标分类器、目标框回归器、多尺度目标预测器以及最邻近目标预测器。对于多任务目标区分任务和最邻近目标预测任务,训练时均采用交叉熵损失函数,而目标检测任务采用和Faster R-CNN同样的损失函数,包括RPN网络损失、目标分类损失和检测框回归损失。
对于多尺度目标区分任务,只需要对锚框的多尺度标签做预测,因此我们采用交叉熵损失函数:
式中,Nb为候选框生成网络RPN生成的正候选框的个数,表示为第j个正候选框生成的多尺度目标区分任务真实标签,/>为网络输出的预测值。
对于最邻近目标预测任务,需要模型对该锚框周围的目标类别做预测,同样采用交叉熵损失函数。
式中,Nb同样为RPN网络生成的正候选框个数,表示第j个正候选框的最邻近目标预测任务真实标签,/>表示网络输出的预测值。
对于主任务而言,采用和Faster R-CNN中一样的损失函数,主任务损失函数为:
Lmain=Lrpn+Lcls+Lreg
式中,Lrpn为RPN网络损失,Lcls为目标分类损失,Lreg为边界框回归损失三部分。
综上,最终模型采用的损失函数为:
Ltotal=LmainsLscLc
在本实施例中,将λs和λc的值均设置为0.5。
S4、获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体。
对图像进行目标检测的过程中,主任务和两个自监督辅助任务共享ROI池化层的输出特征,在得到ROI池化特征后,针对不同的任务有不同的输出模块。对于主任务来说,其输出模块包含两个部分,边框分类以及边框回归,而两个辅助任务的输出层只包含针对辅助任务自监督标签的预测输出层。
为更好地描述本实施例方法,下面以一具体实例加以说明。
以VOC视觉目标数据集为例,VOC全称为Visual Object Classes,该数据集常用于分类、分割和检测等任务,对于目标检测任务来说,其数据被分为人、交通工具、家具用品和动物四个大类,并提供包括背景在内的21个细分类别。
多任务自监督目标检测模型采用Pytorch深度学习框架实现,参数momentum设置为0.9,batch size设置为2,初始学习率设置为0.001,weight_decay设置为1e-4
通过仿真实验对本施例方法的实际效果进行验证,评价指标采用目标检测领域常用的平均准确度均值mAP(Mean Average Precision),最终模型方法在VOC数据集细分类别上的目标检测效果如表1和表2所示。
表1 VOC数据集细分类别检测精度(AP(%))
表2 VOC数据集细分类别检测精度(AP(%))
其中,任务1和任务2分别表示多尺度目标区分任务和最邻近目标预测任务,从表1和表2可以看出,在table类别上,加入自监督任务1后,模型取得了更高的检测精度值;在horse、chair和plant这几个细分类别上,加入自监督任务2后,模型取得了相对于其他几种方法的更高的检测精度值;对于除上述类别以外的其他类别来说,同时加入任务1和任务2后,模型取得了更高的目标检测精度值。总的来说,相对于baseline方法,加入自监督辅助任务有助于提升模型在检测任务上的表现。
除了上述的VOC数据集以外,还可以将本方法用于COCO数据集以及三维图像数据集,三维图像数据集的二维图像示例可以参考图3。
综上所述,本实施例方法相对于相应技术,具有如下的优点及有益效果:本发明通过在目标检测模型中引入自监督辅助任务,对于多尺度目标区分任务,帮助模型学习到图像中的目标之间的尺度大小关系,对于最邻近目标预测任务,帮助模型学习到图像中得某个目标和与之相邻的目标之间的类别关系。通过多任务的方式,训练模型同时学习目标检测任务和两个自监督辅助任务,使得模型在辅助任务上学习到的表征能够提升模型在目标检测任务上的性能。
本实施例还提供一种基于多任务的自监督目标检测系统,包括:
数据获取模块,用于对目标检测数据集图像中的目标生成自监督标签,构建训练集;
模型构建模块,用于在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;
模型训练模块,用于根据训练集,通过多任务学习的方式训练目标检测模型;
目标检测模块,用于获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体。
本实施例的一种基于多任务的自监督目标检测系统,可执行本发明方法实施例所提供的一种基于多任务的自监督目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种基于多任务的自监督目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种基于多任务的自监督目标检测装置,可执行本发明方法实施例所提供的一种基于多任务的自监督目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于多任务的自监督目标检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
本发明的研究得到了国家自然科学基金(62071183)的资助。

Claims (7)

1.一种基于多任务的自监督目标检测方法,其特征在于,包括以下步骤:
对目标检测数据集图像中的目标生成自监督标签,构建训练集;
在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;
根据训练集,通过多任务学习的方式训练目标检测模型;
获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体;
对多尺度目标区分任务采用已有的真实锚框标注信息来构造监督信号:
对于图像x,为图像x中的真实锚框,对于图像x中的锚框/>用K+1维向量ys来表示为多尺度目标区分任务生成的自监督标签;
如果锚框b周围不存在其他类别锚框,那么ys[0]=1;否则ys[0]=0,并且有:
ys[i]=S(b')
式中,i=1~K,K为待检测目标类别数,S表示锚框b'对应区域的像素面积;锚框b'满足:
式中,D表示两个锚框中心点之间的距离;对ys进行归一化得到:
对于锚框b来说,其自监督标签ys表示该锚框与其周围邻近的各个类别锚框之间的尺度关系,ys[i]的值越大,说明类别i对应目标的尺度相对更大,ys[i]的值越小,说明类别i对应目标的尺度相对更小;
对最邻近目标预测任务采用已有的真实锚框标注信息来构造自监督信号:
对于图像x,为图像x中的真实锚框,对于锚框/>最邻近目标预测任务的自监督标签用K+1维向量yc来表示;
如果图像中只存在和b同属一个类别的锚框,那么yc[0]=1;否则yc[0]=0,并且有:
式中,R为图像x的对角线长度,锚框b'满足:
对于锚框b来说,其自监督标签yc[i]的值越大,说明类别i对应的锚框与锚框b之间的距离越近;
多任务损失函数为各个模块的损失函数的加权和;
对于多尺度目标区分任务,采用交叉熵损失函数:
式中,Nb为候选框生成网络RPN生成的正候选框的个数,表示为第j个正候选框生成的多尺度目标区分任务真实标签,/>为网络输出的预测值;
对于最邻近目标预测任务,同样采用交叉熵损失函数:
式中,表示第j个正候选框的最邻近目标预测任务真实标签,/>表示网络输出的预测值;
所述目标检测任务的损失函数为:
Lmain=Lrpn+Lcls+Lreg
式中,Lrpn为RPN网络损失,Lcls为目标分类损失,Lreg为边界框回归损失;
所述目标检测模型的损失函数为:
Ltotal=LmainsLscLc
式中,λs和λc为权重值。
2.根据权利要求1所述的一种基于多任务的自监督目标检测方法,其特征在于,所述目标检测模型需要同时学习三个任务:目标检测任务、多尺度目标区分任务和最邻近目标预测任务;
通过对多尺度目标区分任务的学习,帮助目标检测模型学习到图像中目标之间的大小尺度关系;通过对最邻近目标预测任务的学习,帮助目标检测模型学习到图像中的目标和与之邻近的目标之间的类别关系。
3.根据权利要求2所述的一种基于多任务的自监督目标检测方法,其特征在于,采用多任务损失函数训练所述目标检测模型,以端到端的方式训练目标检测模型。
4.根据权利要求2所述的一种基于多任务的自监督目标检测方法,其特征在于,所述使用训练后的目标检测模型对待检测图像进行目标检测,包括:
目标检测任务和两个自监督辅助任务共享ROI池化层的输出特征,在得到ROI池化特征后,针对不同的任务有不同的输出模块;
其中目标检测任务的输出模块包含两个部分:边框分类以及边框回归,两个辅助任务的输出模块只包含针对辅助任务自监督标签的预测输出层。
5.一种基于多任务的自监督目标检测系统,其特征在于,包括:
数据获取模块,用于对目标检测数据集图像中的目标生成自监督标签,构建训练集;
模型构建模块,用于在目标检测模型上加入针对多尺度目标区分任务和最邻近目标预测任务两个自监督辅助任务的输出模块;
模型训练模块,用于根据训练集,通过多任务学习的方式训练目标检测模型;
目标检测模块,用于获取待检测图像,使用训练后的目标检测模型对待检测图像进行目标检测,识别出图像中的待检测物体;
对多尺度目标区分任务采用已有的真实锚框标注信息来构造监督信号:
对于图像x,为图像x中的真实锚框,对于图像x中的锚框/>用K+1维向量ys来表示为多尺度目标区分任务生成的自监督标签;
如果锚框b周围不存在其他类别锚框,那么ys[0]=1;否则ys[0]=0,并且有:
ys[i]=S(b')
式中,i=1~K,K为待检测目标类别数,S表示锚框b'对应区域的像素面积;锚框b'满足:
式中,D表示两个锚框中心点之间的距离;对ys进行归一化得到:
对于锚框b来说,其自监督标签ys表示该锚框与其周围邻近的各个类别锚框之间的尺度关系,ys[i]的值越大,说明类别i对应目标的尺度相对更大,ys[i]的值越小,说明类别i对应目标的尺度相对更小;
对最邻近目标预测任务采用已有的真实锚框标注信息来构造自监督信号:
对于图像x,为图像x中的真实锚框,对于锚框/>最邻近目标预测任务的自监督标签用K+1维向量yc来表示;
如果图像中只存在和b同属一个类别的锚框,那么yc[0]=1;否则yc[0]=0,并且有:
式中,R为图像x的对角线长度,锚框b'满足:
对于锚框b来说,其自监督标签yc[i]的值越大,说明类别i对应的锚框与锚框b之间的距离越近;
多任务损失函数为各个模块的损失函数的加权和;
对于多尺度目标区分任务,采用交叉熵损失函数:
式中,Nb为候选框生成网络RPN生成的正候选框的个数,表示为第j个正候选框生成的多尺度目标区分任务真实标签,/>为网络输出的预测值;
对于最邻近目标预测任务,同样采用交叉熵损失函数:
式中,表示第j个正候选框的最邻近目标预测任务真实标签,/>表示网络输出的预测值;
所述目标检测任务的损失函数为:
Lmain=Lrpn+Lcls+Lreg
式中,Lrpn为RPN网络损失,Lcls为目标分类损失,Lreg为边界框回归损失;
所述目标检测模型的损失函数为:
Ltotal=LmainsLscLc
式中,λs和λc为权重值。
6.一种基于多任务的自监督目标检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-4任一项所述方法。
7.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。
CN202210428383.7A 2022-04-22 基于多任务的自监督目标检测方法、系统、装置及介质 Active CN114758298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428383.7A CN114758298B (zh) 2022-04-22 基于多任务的自监督目标检测方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428383.7A CN114758298B (zh) 2022-04-22 基于多任务的自监督目标检测方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN114758298A CN114758298A (zh) 2022-07-15
CN114758298B true CN114758298B (zh) 2024-06-04

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139651A (zh) * 2020-01-20 2021-07-20 北京三星通信技术研究有限公司 基于自监督学习的标签比例学习模型的训练方法和设备
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN114145745A (zh) * 2021-12-15 2022-03-08 西安电子科技大学 基于图的多任务自监督情绪识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139651A (zh) * 2020-01-20 2021-07-20 北京三星通信技术研究有限公司 基于自监督学习的标签比例学习模型的训练方法和设备
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN114145745A (zh) * 2021-12-15 2022-03-08 西安电子科技大学 基于图的多任务自监督情绪识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多尺度特征融合Hessian稀疏编码的图像分类算法;刘盛清 等;计算机应用;20171210(第12期);第179-184页 *

Similar Documents

Publication Publication Date Title
JP6725547B2 (ja) 人工ニューラルネットワークの関連性スコア割当て
Ji et al. Graph model-based salient object detection using objectness and multiple saliency cues
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
Zanjani et al. Cancer detection in histopathology whole-slide images using conditional random fields on deep embedded spaces
Zhang et al. Research on mine vehicle tracking and detection technology based on YOLOv5
Zhang et al. Part-aware region proposal for vehicle detection in high occlusion environment
Xing et al. Traffic sign recognition using guided image filtering
Shi et al. An improved U-net image segmentation method and its application for metallic grain size statistics
Weinmann et al. A hybrid semantic point cloud classification-segmentation framework based on geometric features and semantic rules
Gu et al. Local Fast R-CNN flow for object-centric event recognition in complex traffic scenes
Hu et al. Research on the cascade vehicle detection method based on CNN
JP2020123329A (ja) 人工ニューラルネットワークの関連性スコア割当て
Lei et al. Image Segmentation: Principles, Techniques, and Applications
Shahriyar et al. An approach for multi label image classification using single label convolutional neural network
Chuang et al. Deep learning‐based panoptic segmentation: Recent advances and perspectives
Ortiz et al. Rdcnet: Instance segmentation with a minimalist recurrent residual network
Kumar et al. Bird species classification from images using deep learning
CN114758298B (zh) 基于多任务的自监督目标检测方法、系统、装置及介质
Ansari et al. Angle-based feature learning in GNN for 3D object detection using point cloud
Lu et al. A Traffic Sign Detection Network Based on PosNeg-Balanced Anchors and Domain Adaptation
Su et al. A deep learning method with cross dropout focal loss function for imbalanced semantic segmentation
Yang et al. Lane detection based on instance segmentation of BiSeNet V2 backbone network
CN114758298A (zh) 基于多任务的自监督目标检测方法、系统、装置及介质
Sun et al. Truck model recognition for an automatic overload detection system based on the improved MMAL-Net
Li et al. An object detection approach with residual feature fusion and second‐order term attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant