CN116958740A - 基于语义感知和自适应对比学习的零样本目标检测方法 - Google Patents
基于语义感知和自适应对比学习的零样本目标检测方法 Download PDFInfo
- Publication number
- CN116958740A CN116958740A CN202310832458.2A CN202310832458A CN116958740A CN 116958740 A CN116958740 A CN 116958740A CN 202310832458 A CN202310832458 A CN 202310832458A CN 116958740 A CN116958740 A CN 116958740A
- Authority
- CN
- China
- Prior art keywords
- semantic
- target detection
- model
- zero sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 230000008447 perception Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 238000002679 ablation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282461 Canis lupus Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于机器学习技术领域,具体为基于语义感知和自适应对比学习的零样本目标检测方法。本发明采用基于transformer网络的DETR作为目标检测模型框架,并引入基于注意力的语义感知模块,来缓解映射式零样本目标检测模型对已见类别的偏见;还采用基于度量学习的自适应对比损失,使模型学习到更好的特征表示,同时保持类别间的语义结构关系,进一步提升检测性能。实验结果表明,与现有方法相比,本发明在零样本目标检测任务上具有更好的性能和泛化能力,具有广泛的应用前景。
Description
技术领域
本发明属于机器学习技术领域,具体涉及基于语义感知和自适应对比学习的零样本目标检测方法。
背景技术
在过去的十年中,基于深度学习的计算机视觉在许多任务上取得了巨大的进步。然而,大多数工作提出的方法是全监督方法,依赖大量有标注的数据,并且只能推理训练集中出现的目标。作为对比,人类视觉系统可以根据新物体的语言描述轻松推理出之前没有见过的物体。例如,人类可以根据“一种有着像熊猫一样的黑白体色、像老虎一样的条纹、像马一样的体形的动物”这段描述,轻松识别出他以前从未见过的斑马。然而,人类这种视觉能力对于深度学习模型来说是一个严峻的挑战。因此,零样本学习——旨在对训练过程中未见过的新目标进行推理,近年来受到了机器学习和计算机视觉社区的广泛关注。
大多数现有的零样本学习工作都集中在零样本识别(ZSR)的任务上,即仅对图像中显著的目标进行分类。但是这并不符合现实场景。实际上,一张图像可能有多个不同类别的目标。此外,除了目标的类别,我们可能还对图像中目标出现的位置感兴趣。因此,本发明着重解决更现实的问题,即零样本目标检测(ZSD),其旨在同时识别和定位训练数据中未出现的新目标。
零样本目标检测问题定义:零样本目标检测中,数据集被划分为可见类和未见类,可见类用于训练,未见类用于测试验证。同时,可见类和未见类的每个类别会提供一个语义向量,该语义向量为对该类别的描述。已有的方法中,大部分都是使用区域特征提议网络RPN来生成候选框,然后使用余弦相似度计算候选框特征和类别特征的相似度,从而完成候选框的分类。根据场景的不同,零样本目标检测的测试阶段一般可以分为狭义零样本目标检测(ZSD)和广义零样本目标检测(GZSD)这两种设定。狭义零样本目标检测的问题定义:测试图像仅包含来自未见类别的目标;广义零样本目标检测的定义:测试图像可以同时包含已见类别的目标和未见类别的目标。可以看出,广义零样本目标检测更接近现实世界场景并更具挑战性。
之前的零样本目标检测方法可以根据对语义向量的使用方式大致分为两类,即映射式的零样本目标检测方法和生成式的零样本目标检测方法。映射式的方法直接将视觉特征映射到语义空间,并通过寻找最近的语义向量对应的类别作为分类结果;生成式的方法则根据语义向量合成未见类别的视觉特征,从而以此来训练一个全连接分类器。
由于训练期间缺乏未见类别的数据,映射式的零样本目标检测方法倾向于将未见类别的视觉特征映射到已见类别的语义向量附近,从而将未见类别分类成已见类别,即映射式的方法存在对已见类别的偏见。作为对比,生成式的方法通过生成模型,向分类器中注入未见类别的语义特征,因此它们的分类器减轻了这种偏见。然而,生成式的方法依赖于复杂且耗时的多步骤训练过程,限制了它们的应用。本发明旨在提供一种能缓解偏见问题的映射式零样本目标检测方法。
此外,尽管之前已经有方法尝试利用对比学习帮助检测模型学习到具有区分度的特征表示,以便提升模型的检测性能。但是其忽视了类别间的语义结构关系,进而其只是获得了微小的性能提升。本发明另一个贡献在于提出了自适应对比学习损失以帮助模型同时学习具有区分度且能保持语义结构关系的特征。
最后,之前的零样本目标检测方法基于的是卷积神经网络构建的检测器,需要非极大值抑制作为后续处理操作,无法实现完全端到端的目标检测。而随着transformer(一种利用注意力机制的神经网络结构)架构的流行,以DETR为代表的基于transformer架构的目标检测算法,成功地将transformer应用于目标检测领域,并且不依赖非极大值抑制操作,从而实现了端到端的目标检测。目前性能最好的目标检测算法都是基于DETR修改而来,例如DINO,Deformable DETR等。因此,本发明提出的零样本目标检测方法选择以DETR作为检测框架。
发明内容
本发明的目的在于提供一种基于语义感知和自适应对比学习的零样本目标检测方法,以缓解现有基于映射的方法对于已见类别的偏见问题,并在特征空间中保持不同类别间的语义结构关系,从而提升检测性能。
本发明提供的基于语义感知和自适应对比学习的零样本目标检测方法,使用多种新的技术手段,包括构建基于DETR的零样本目标检测模型;构建基于注意力的语义感知模块;使用基于度量学习的自适应对比损失;具体步骤如下:
(1)零样本目标检测问题的定义;
假设有两个不重叠的类别集合:已见类和未见类 其中S是已见类的数量,U是未见类的数量;/>即已见类别和未见类别属于两个不相交的集合;在训练阶段,有大量已见类别的样本构成的训练集/>
其中,xi是输入图像;表示图像xi中每个已见类别对象j的类别标签; 表示图像xi中每个已见类别对象j的边界框坐标;Ntr是训练集/>中的样本数量;
由于在零样本学习设定中没有可用于训练的未见类别的样本,因此语义描述W=[Ws,Wu],即从大规模语言源中学习的词嵌入向量或手动设计的属性被用于桥接已见类别和未见类别,其中,Ws∈RS×d,Wu∈RU×d分别表示已见类别和未见类别的语义向量,d是语义向量的嵌入维数,其中S是已见类的数量,U是未见类的数量。
(2)构建零样本目标检测模型
本发明采用基于transformer网络的DETR作为目标检测模型框架,并将本发明提出的相应模块整合进去;DETR目标检测模型的结构可以分为两个部分,一是特征的提取,二是检测集合的预测;
特征提取;给定一张图像x,DETR采用一个卷积神经网络CNN提取局部特征fl:
fl=CNN(x). (2)
接着,模型采用transformer网络中的编码器Encoder进一步提取全局特征fg:
fg=Encoder(fl), (3)
集合预测;DETR将目标检测问题视为一个集合预测问题,并根据可学习的查询向量q直接推理出一个固定大小为N的预测集合首先采用自注意力层MSA,计算目标查询向量q的嵌入表示eq:
hq=MSA(q,q,q), (4)
eq=LN(hq+q), (5)
其中,LN表示层归一化,hq表示中间计算结果;接着计算嵌入向量eq和全局特征fg间的交叉注意力层MCA得到两者的融合特征ef:
hf=MCA(eq,fg,fg), (6)
ef=LN(hf+eq). (7)
其中,hf是中间计算结果;然后,将特征ef输入到前向网络FFN(由全连接网络构成)模块中,得到关于目标查询向量q的最终嵌入表示v:
h=FFN(ef), (8)
v=LN(h+ef), (9)
其中,h是中间计算结果;为了将DETR应用于零样本目标检测任务,本发明采用视觉语义对齐层FCVSL(通过全连接层实现)替换DETR中的最后一层的分类层,以将视觉特征映射到语义特征空间,得到语义空间中的嵌入特征s:
s=FCVSL(v), (10)
与之前映射式的零样本目标检测方法一致,本发明使用余弦相似度来衡量嵌入特征s和语义向量W*之间的距离,并应用逻辑函数sigmoid来获得最终的分类分数
此外,和原始DETR保持一致,本发明采用全连接网络构成的回归网络FCreg得到目标的位置坐标
至此,最终的预测集合为
(3)进一步地,还包括DETR目标检测模型的训练;
为了实现预测集合与基准真相集合y=(b,p)之间实现,本发明采用匈牙利匹配算法找到匹配损失取最小时的匹配方式/>
其中,为所有可能的匹配方式;匹配损失/>由分类损失/>和回归损失共同构成:
式中,λcls、λbbox、λiou,λgiou为各项损失的比例系数;为交并比损失,/>为广义交并比损失;
依照匹配结果计算模型损失,并通过反向传播算法优化模型权重:
(4)进一步地,构建基于注意力的语义感知模块
然而,仅仅利用视觉特征和查询向量间的融合特征ef会导致模型产生对已见类别的偏见;为了克服这个问题,同时受生成式的零样本目标检测方法的启发,本发明提出一种新颖的语义感知模块,并插在了目标检测模型的集合预测模块中,以便在模型将特征ef映射到语义空间的过程中,通过语义感知模块向原始特征中注入类别的语义信息,从而帮助模型感知测试图像中可能存在的未见类别,进而缓解基于映射框架的零样本目标检测方法对已见类别的偏见;具体来说,本发明采用交叉点积注意力网络实现语义感知模块,以保持模型简洁性并更好地集成到DETR框架中;考虑到原本的嵌入特征ef作为查询向量,语义向量W*作为键值注意机制中的键和值向量,通过将它们输入到本发明所提出的语义感知模块中,以得到增强的特征嵌入ew:
hw=SA(ef,W*,W*)hw=W*softmax(efW*), (16)
ew=LN(hw+ef), (17)
其中,SA表示通过点积注意力机制实现的语义感知模块;W*表示Ws/Wu/[Ws,Wu],分别对应训练时已见类别的语义向量/狭义零样本目标检测测试时未见类别语义向量/广义零样本目标检测测试时已见和未见类别的语义向量;softmax表示归一化指数函数;hw是中间计算结果;通过语义感知模块,模型得到了增强后的嵌入特征ew,从而在将视觉特征映射到语义空间时能够感知到可能存在的未见类别,进而缓解之前映射式零样本目标检测方法对已见类别的偏见问题;
然后,根据增强后的特征ew进行集合预测,而非原来的特征ef,计算流程和模型构建部分保持一致;即,将语义感知增强后的特征ew输入到前向网络FFN模块中,得到关于目标查询向量q的最终嵌入表示v:
h=FFN(ew), (18)
v=LN(h+ew), (19)
之后通过视觉语义对齐层将视觉特征映射到语义特征空间,得到语义空间中的嵌入特征s:
s=FCVSL(v), (20)
紧接着,使用余弦相似度来衡量嵌入特征s和语义向量W*之间的距离,并应用sigmoid函数来获得最终的分类分数:
并采用全连接网络得到目标的位置坐标:
至此,得到最终预测集合为
(5)进一步地,还包括基于度量学习的自适应对比损失的设计
为了帮助本发明提出的检测模型学习到良好的特征表示,从而进一步提升检测性能,本发明还提出一种基于度量学习的自适应对比损失,来帮助模型更好地从已见类别迁移到未见类别。标准对比学习背后的关键思想是使来自同一类别的嵌入特征对尽可能靠近,并使来自不同类别的嵌入特征对尽可能远离。给定类别c中的第i个嵌入特征以及具有相同类别标签的嵌入特征集/>和具有不同类别标签的嵌入特征集(包括背景类别)标准的对比损失函数如下式所示:
其中,τ是温度参数,可以默认设置为0.1;exp表示指数函数。因此,M个嵌入特征的总体对比损失可以表示为:
其中,c(i)表示嵌入特征si的类别。
然而本发明认为,标准的对比损失函数不能准确反映类别之间的语义结构关系,因此不适用于零样本目标检测任务。具体来说,标准对比损失函数鼓励所有类别对之间的距离相等,无论类别之间的固有语义距离如何。然而,在语义空间中,某些类别对之间的距离可能比其他类别更近或更远。例如,“狗”和“狼”在类别语义空间中的距离可能比“狗”和“猫”间的距离更近。因此,将“狗”和“猫”之间的映射距离等同“狗”和“狼”之间的映射距离是不合理的。如图3所示。为了解决上述问题,本发明引入自适应权重μc-c′,并将标注的对比损失函数扩展为以下形式:
其中,μc-c′是类别c和c′之间的自适应权重,具体取决于它们语义向量间的相似性。本发明称引入自适应权重μc-c′后的对比损失函数为自适应对比损失函数。当μc-c′≡1时,自适应对比损失函数退化为标准的对比损失函数。对于μc-c′的具体形式,理论上可以采用任何关于相似度单调递减的函数,但为了简洁起见,恩发明采用指数形式来表示自适应权重μc-c′:
μc-c′=exp(-cos(wc,wc′)), (26)
其中,wc和wc′分别是类别c和类别c′的语义向量;cos表示余弦函数。因此,模型最后的总体损失如下:
模型每次迭代计算总损失后通过反向传播算法优化模型权重。
(6)目标检测模型的推理:
推理时,直接将模型预测集合中前k个得分最高的目标作为输出,即对预测目标(pi,bi)进行排序,使得:
p1≥p2≥p3≥…>pN,
最终输出的预测集合为其中k为人为设定的参数,一般设置为300。因为本发明的零样本目标检测方法基于DETR模型,所以无需非极大值抑制作为后续处理操作,实现了端到端的零样本目标检测。
本发明至少包括以下有益效果:
(1)降低映射式零样本目标检测方法对已见类别的偏见。
在消融实验中(如表2所示),本发明提出的语义感知模块,相比基线模型提升了未见类别的检测性能,而对已见类别性能基本没有变化,从而缩小了未见类别和已见类别间的性能差异,即降低了检测模型对已见类别的偏见;
(2)帮助检测模型学习到具有区分度的特征表示,同时保持类别间的语义结构关系。
如图4,本发明可视化了模型学习到的不同类别的特征表示,可以看出引入对比学习后(图4.b),模型相比没有引入对比学习(4.a)能学习到更具区分度的特征表示(不同类别间特征分的开;而本发明提出的自适应对比学习(4.c)在学习具有区分度的特征的基础上,还使得不同类别特征间的距离和其语义距离保持正相关,即保持了类别间的语义结构关系;
(3)基于语义感知和自适应对比学习的映射式零样本目标检测方法,简洁、高效;
相比之前需要复杂且耗时的多步训练过程(定位器的训练,离线特征的抽取,生成器的训练,分类器的训练)的生成式的零样本目标检测方法,本发明可以直接一步完成模型的训练。此外,本发明方法基于DETR,不需要非极大值抑制这样的后续处理步骤,因此是一种完全端到端的零样本目标检测方法。
附图说明
图1为本发明基于语义感知和自适应对比学习的零样本目标检测方法框架图。
图2为本发明中语义感知模块结构图示。其中,(a)为先前映射式零样本目标检测框架示意图,(b)为生成式零样本目标检测框架图,(c)为本发明提出的基于语义感知模块的映射式零样本目目标检测框架图。
图3本发明中自适应对比学习示意图。其中,(a)为标准对比学习示意图,(b)为本发明提出的自适应对比学习示意图,(c)为类别语义空间示意图。
图4为自适应对比学习到的特征可视化示意图。其中,(a)为不采用任何对比损失的特征可视化示意图,(b)为采用标准对比损失的特征可视化示意,(c)为采用自适应对比损失的特征可视化示意图。
图5为本发明在基准数据集上检测结果的可视化示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明采用COCO和VOC这两个数据集作为模型性能的平均指标,并按照之前零样本目标检测的通行做法,将COCO数据集进行了48/17和65/15这两种已见类别/未见类别的数据划分;将VOC数据集进行了16/4这一种已见类别/未见类别的数据划分。
本发明采用交并比IoU=0.5下的平均检测精度AP作为模型检测性能的平均指标,并测试了狭义零样本目标检测设定下未见类别的平均检测精度,以及广义零样本目标检测设定下已见类别和未见类别的平均检测精度。
本发明采用ResNet50作为特征抽取器,以其最后三层的输出构造多尺度的特征图,并采用DINO(一种DETR变种检测器)作为我们的检测框架。对于模型优化,我们采用了AdamW优化器,并将其学习率和权重衰减系数均设置为0.0001。本发明提出的模型在COCO数据集上的两种类别划分(48/17和65/15)上分别训练了2万轮和3万轮;在VOC数据集上,模型训练了2万轮。自适应对比损失系数分别设置为0.02/0.03/0.1。λcls,λiou,λgiou分别设置为1.0,5.0和2.0。
本发明在COCO和VOC数据集上测试了狭义零样本目标检测和广义零样本目标检测这两种测试场景下的性能表现,实验结果如表1所示。
表1本发明的实验结果。所有指标均指IoU=0.5下的平均检测精度AP,S表示已见类别,U表示未见类别,HM表示已见类别和未见类别的调和平均。
表1
为了直观理解本发明提出的两种组件对检测性能的影响,我们在COCO的48/17这一类别划分下做了消融实验,结果如表2所示:
表2消融实验。所有指标均指IoU=0.5下的平均检测精度AP,S表示已见类别,U表示未见类别,HM表示已见类别和未见类别的调和平均。消融实验在COCO的48/17类别划分上完成。
表2
比较消融实验结果表格中第一个模型和第二个模型,可以看出本发明提出的语义感知模块能够显著提升广义零样本目标检测设定下的未见类别的检测性能(平均检测精度提升了1个百分点),而没有明显损害已见类别的检测性能,缩小了两者的差距,即缓解了模型对已见类别的偏见。
此外,对比表中第三个模型和第四个模型,可以发现,尽管标准的对比学习损失能够提升模型性能,但是由于其忽视了类别间的语义结构关系,因此提升幅度并不大。而本发明提出的自适应对比损失则考虑了类别间的语义约束,从而帮助检测模型获得了更明显的性能提升。
另外,如图4所示,我们对模型学习到的类别特征进行了可视化。4.a是没有引入对比损失的特征图,4.b是引入标准对比损失的特征图,4.c是引入本发明提出的自适应对比损失的特征图。可以看出尽管标准对比损失学习到了具有区分度的特征,但是忽略了类别间的语义关系;而本发明提出的自适应对比损失不仅学习到了具有区分度的特征,还保持了类别间的语义结构关系(如图4.c中的“飞机”和“公交车”的特征)。
最后,我们还提供了一些检测结果的可视化样例,如图5所示,可以直观看出本发明提出的零样本目标检测算法的有效性。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (5)
1.一种基于语义感知和自适应对比学习的零样本目标检测方法,其特征在于,具体步骤如下:
(1)零样本目标检测问题的定义
假设有两个不重叠的类别集合:已见类和未见类/> 其中,S是已见类的数量,U是未见类的数量;/>即已见类别和未见类别属于两个不相交的集合;在训练阶段,有大量已见类别的样本构成的训练集/>
其中,xi是输入图像;表示图像xi中每个已见类别对象j的类别标签;/> 表示图像xi中每个已见类别对象j的边界框坐标;Ntr是训练集中的样本数量;
由于在零样本学习设定中没有可用于训练的未见类别的样本,语义描述W=[Ws,Wu],即从大规模语言源中学习的词嵌入向量或手动设计的属性被用于桥接已见类别和未见类别,其中,Ws∈RS×d,Wu∈RU×d分别表示已见类别和未见类别的语义向量,d是语义向量的嵌入维数;
(2)构建零样本目标检测模型
把采用基于transformer网络的DETR作为目标检测模型框架,并将构建的相应模块整合进去;DETR目标检测模型的结构分为两个部分,一是特征的提取,二是检测集合的预测;
(a)特征提取;给定一张图像x,DETR采用一个卷积神经网络CNN提取局部特征fl:
fl=CNN(x). (2)
接着,采用transformer网络中的编码器Encoder进一步提取全局特征fg:
fg=Encoder(fl), (3)
(b)集合预测;DETR目标检测模型将目标检测问题视为一个集合预测问题,并根据可学习的查询向量q直接推理出一个固定大小为N的预测集合首先采用自注意力层MSA,计算目标查询向量q的嵌入表示eq:
hq=MSA(q,q,q), (4)
eq=LN(hq+q), (5)
其中,LN表示层归一化,hq表示中间计算结果;接着计算嵌入向量eq和全局特征fg间的交叉注意力层MCA得到两者的融合特征ef:
hf=MCA(eq,fg,fg), (6)
ef=LN(hf+eq). (7)
其中,hf是中间计算结果;然后,将特征ef输入到由全连接网络构成的前向网络FFN模块中,得到关于目标查询向量q的最终嵌入表示v:
h=FFN(ef), (8)
v=LN(h+ef), (9)
其中,h是中间计算结果;
为了将DETR应用于零样本目标检测任务,采用全连接层实现的视觉语义对齐层FCVSL替换DETR中的最后一层的分类层,以将视觉特征映射到语义特征空间,得到语义空间中的嵌入特征s:
s=FCVSL(v), (10)
与之前映射式的零样本目标检测方法一致,使用余弦相似度来衡量嵌入特征s和语义向量W*之间的距离,并应用逻辑函数sigmoid来获得最终的分类分数
此外,和原始DETR保持一致,采用全连接网络构成的回归网络FCreg得到目标的位置坐标
至此,最终的预测集合为
2.根据权利要求1所述的零样本目标检测方法,其特征在于,对于DETR目标检测模型进行训练,具体如下:
为了实现预测集合与基准真相集合y=(b,p)之间的匹配,采用匈牙利匹配算法找到匹配损失取最小时的匹配方式/>
其中,为所有可能的匹配方式;匹配损失/>由分类损失/>和回归损失/>共同构成:
式中,λcls、λbbox、λiou,λgiou为各项损失的比例系数;为交并比损失,/>为广义交并比损失;
依照匹配结果计算模型损失,并通过反向传播算法优化模型权重:
3.根据权利要求2所述的零样本目标检测方法,其特征在于,构建基于注意力的语义感知模块,并将其插在目标检测模型的集合预测模块中,以便在模型将特征ef映射到语义空间的过程中,通过语义感知模块向原始特征中注入类别的语义信息,帮助模型感知测试图像中可能存在的未见类别,进而缓解基于映射框架的零样本目标检测方法对已见类别的偏见;具体来说,采用交叉点积注意力网络实现语义感知模块,以保持模型简洁性并更好地集成到DETR框架中;考虑到原本的嵌入特征ef作为查询向量,语义向量W*作为键值注意机制中的键和值向量,将它们输入到所述语义感知模块中,得到增强的特征嵌入ew:
hw=SA(ef,W*,W*)hw=W*softmax(efW*), (16)
ew=LN(h*+ef), (17)
其中,SA表示通过点积注意力机制实现的语义感知模块;W*表示Ws/Wu/[Ws,Wu],分别对应训练时已见类别的语义向量/狭义零样本目标检测测试时未见类别语义向量/广义零样本目标检测测试时已见和未见类别的语义向量;softmax表示归一化指数函数;hw是中间计算结果;通过语义感知模块,得到增强后的嵌入特征ew,从而在将视觉特征映射到语义空间时能够感知到可能存在的未见类别,进而缓解现有映射式零样本目标检测方法对已见类别的偏见问题;
将语义感知增强后的特征ew输入到前向网络FFN模块中,得到关于目标查询向量q的最终嵌入表示v:
h=FFN(ew), (18)
v=LN(h+ew), (19)
之后通过视觉语义对齐层将视觉特征映射到语义特征空间,得到语义空间中的嵌入特征s:
s=FCVSL(v), (20)
接着,使用余弦相似度来衡量嵌入特征s和语义向量W*之间的距离,并应用sigmoid函数来获得最终的分类分数:
并采用全连接网络得到目标的位置坐标:
至此,得到最终预测集合为
4.根据权利要求3所述的零样本目标检测方法,其特征在于,为了使目标检测模型学习到良好的特征表示,进一步提升检测性能,采用一种基于度量学习的自适应对比损失,帮助模型更好地从已见类别迁移到未见类别;标准对比学习的思想是使来自同一类别的嵌入特征对尽可能靠近,并使来自不同类别的嵌入特征对尽可能远离;给定类别c中的第i个嵌入特征以及具有相同类别标签的嵌入特征集/>和具有不同类别标签的嵌入特征集标准的对比损失函数如下式所示:
其中,τ是温度参数;exp表示指数函数,于是M个嵌入特征的总体对比损失表示为:
其中,c(i)表示嵌入特征si的类别;
进一步引入自适应权重μc-c′,并将标注的对比损失函数扩展为以下形式:
其中,μc-c′是类别c和c'之间的自适应权重,具体取决于它们语义向量间的相似性;称引入自适应权重μc-c′后的对比损失函数为自适应对比损失函数;当μc-c′≡1时,自适应对比损失函数退化为标准的对比损失函数;
对于μc-c′具体采用指数形式:
μc-c′=exp(-cos(wc,wc′)), (26)
其中,wc和wc′分别是类别c和类别c′的语义向量;cos表示余弦函数;于是,模型最后的总体损失如下:
模型每次迭代计算总损失后通过反向传播算法优化模型权重。
5.根据权利要求4所述的零样本目标检测方法,其特征在于,目标检测模型的推理,直接将模型预测集合中前k个得分最高的目标作为输出,即对预测目标(pi,bi)进行排序,使得:
p1≥p2≥p3≥…>pN,
最终输出的预测集合为其中k为人为设定的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832458.2A CN116958740A (zh) | 2023-07-07 | 2023-07-07 | 基于语义感知和自适应对比学习的零样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832458.2A CN116958740A (zh) | 2023-07-07 | 2023-07-07 | 基于语义感知和自适应对比学习的零样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958740A true CN116958740A (zh) | 2023-10-27 |
Family
ID=88459594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310832458.2A Pending CN116958740A (zh) | 2023-07-07 | 2023-07-07 | 基于语义感知和自适应对比学习的零样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958740A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746303A (zh) * | 2024-02-20 | 2024-03-22 | 山东大学 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
-
2023
- 2023-07-07 CN CN202310832458.2A patent/CN116958740A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746303A (zh) * | 2024-02-20 | 2024-03-22 | 山东大学 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
CN117746303B (zh) * | 2024-02-20 | 2024-05-17 | 山东大学 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220222920A1 (en) | Content processing method and apparatus, computer device, and storage medium | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN112926396A (zh) | 一种基于双流卷积注意力的动作识别方法 | |
Hou et al. | Distilling knowledge from object classification to aesthetics assessment | |
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其系统 | |
CN113111968A (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN104616005A (zh) | 一种领域自适应的人脸表情分析方法 | |
CN111414845A (zh) | 利用空间-时间图推理网络解决多形态语句视频定位任务的方法 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
CN112464775A (zh) | 一种基于多分支网络的视频目标重识别方法 | |
Xia et al. | Multi-stream neural network fused with local information and global information for HOI detection | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 | |
Chen et al. | Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN111582170A (zh) | 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统 | |
Ngo et al. | Easy-to-hard structure for remote sensing scene classification in multitarget domain adaptation | |
CN113516118A (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
CN113095084A (zh) | 一种物联网中语义服务匹配方法、装置及存储介质 | |
Liu et al. | Shooting condition insensitive unmanned aerial vehicle object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |