CN117893743A - 一种基于通道加权和双对比学习的零样本目标检测方法 - Google Patents
一种基于通道加权和双对比学习的零样本目标检测方法 Download PDFInfo
- Publication number
- CN117893743A CN117893743A CN202410302108.XA CN202410302108A CN117893743A CN 117893743 A CN117893743 A CN 117893743A CN 202410302108 A CN202410302108 A CN 202410302108A CN 117893743 A CN117893743 A CN 117893743A
- Authority
- CN
- China
- Prior art keywords
- visual
- class
- feature
- query
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 230000000007 visual effect Effects 0.000 claims abstract description 124
- 239000013598 vector Substances 0.000 claims abstract description 85
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于通道加权和双对比学习的零样本目标检测方法,属于图像处理技术领域,包括:获取可见类图像并输入到通道加权目标检测模块提取特征,特征提取网络为ResNet,并使用RPN来提取目标区域的真实视觉特征;将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块,根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征,并通过类内对比学习和类间对比学习训练特征生成器;将真实视觉特征和查询视觉特征输入不可见分类器,输出目标检测结果。本发明可以自适应地学习通道注意力以捕捉更重要的特征,采用类内对比学习和类间对比学习损失函数,在零样本情况下合成多样且具有区分性的区域特征。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于通道加权和双对比学习的零样本目标检测方法。
背景技术
零样本目标检测(Zero-Shot Object Detection,ZSD)是计算机视觉领域中的一个重要研究方向,其目标是实现在未见过的目标类别上进行目标检测。传统目标检测算法通常在训练阶段需要使用大量标注数据来学习各个目标类别的特征表示,但在现实场景中,可能存在许多新的目标类别,这些类别没有在训练集中出现,因此无法用传统方法进行检测。
零样本目标检测的技术背景可以追溯到零样本学习(Zero-Shot Learning,ZSL)领域,ZSL是一种用于解决分类任务的技术,其中目标是在未见过的类别上实现分类。ZSL通过学习从视觉特征到语义语境(通常以词向量或属性向量表示)的映射,从而将图像分类扩展到未见过的类别。
在零样本目标检测中,ZSL的思想被扩展到了目标检测任务。除了需要解决图像分类的问题,还需要定位目标在图像中的位置。这就要求零样本目标检测不仅要学习语义与视觉特征之间的映射,还要在未见过的目标类别上学习目标的位置信息。
传统零样本目标检测存在的缺陷主要包括以下几个方面:
数据稀缺性:未见过的目标类别缺乏标注数据,使得检测模型难以学习到它们的特征表示和位置信息;
特征泛化:在零样本情况下,检测模型需要从已见过的类别的特征向未见过的类别进行泛化。这就要求检测模型学习到具有较好泛化能力的特征表示;
语义-视觉对齐:检测模型需要将语义语境(如词向量)与视觉特征进行对齐,以便在未见过的类别上进行目标检测。
发明内容
针对现有技术的上述不足,本发明提供一种基于通道加权和双对比学习的零样本目标检测方法质,以解决语义-视觉映射关系不准确、合成的未知类别图像视觉特征鲁棒性差等问题。
本发明提供一种基于通道加权和双对比学习的零样本目标检测方法,包括:
获取可见类图像并输入到通道加权目标检测模块提取特征,其中,所述通道加权目标检测模块的特征提取网络为ResNet,将SE-Net块嵌入到特征提取网络ResNet的残差模块中,并使用RPN来提取可见类图像的目标区域的真实视觉特征;
将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块,所述鲁棒特征生成模块为特征生成器,用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征,并通过类内对比学习和类间对比学习训练所述特征生成器;
将所述真实视觉特征和所述查询视觉特征输入不可见分类器,输出目标检测结果。
进一步的,在所述通道加权目标检测模块内包括以下方法:
输入可见类图像,经过残差模块后输出特征图F∈RH×W×C,其中,C是通道数,H是高度,W是宽度;
在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作;
所述Squeeze操作包括:将特征图F进行全局平均池化,压缩为一个F维向量,表示每个通道的全局平均值,Squeeze操作的输出为k∈R1×1×C,公式为:
;
所述Excitation操作包括:将k∈R1×1×C输入到全连接层和RELU激活函数,输出一个与通道数相同的注意力向量s∈R1×1×C,并通过sigmoid激活函数将注意力向量s限制在[0,1]范围内,公式为:
;
其中,FC表示全连接层,RELU表示修正线性单元激活函数,表示sigmoid激活函数;
所述Scale操作包括:将注意力向量s对特征图F进行加权,得到加权后的特征图M∈RH×W×C,公式为:
;
其中, sC是注意力向量s中第C个通道的注意力权重,FC(H,W)是特征图F在第C个通道和位置(H,W)处的值,MC(H,W)是加权后的特征图M在第C个通道和位置(H,W)处的值;
使用可见类图像及其相应的ground truth来训练Faster-RCNN模型,并使用RPN来提取可见类图像的目标区域的真实视觉特征。
进一步的,所述双对比学习引导的鲁棒特征生成模块中,使用LR损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征,所述LR损失函数为:
;
其中,f为可见类图像目标区域的真实视觉特征,f为可见类的语义向量,为生成的查询视觉特征,E表示期望值,D是判别器函数,所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入,判别器的目标是准确区分真实视觉特征和查询视觉特征;
类内对比学习损失函数如下:
;
其中,“·”表示点积操作,τ表示温度比例因子,为查询视觉正样本,/>为查询视觉负样本,/>为查询视觉特征;
其中,对于每个查询噪声向量z,使用生成器G生成对应的查询视觉特征;
所述查询视觉正样本通过以下方式计算:
在所述随机向量Z中选择一个查询噪声向量z,在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z+,所述正样本查询噪声向量z+是通过在z 的基础上加上一个随机向量ρ得到的,其中ρ是从均匀分布U[-r,r]中随机采样得到的,半径r设置为10-4;将以z+为噪声向量生成的视觉特征作为查询视觉正样本;
所述查询视觉负样本通过以下方式计算:
从潜在空间中随机采样一组负样本噪声向量{z1-,z2-,..., zN-},所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量;而将以负样本噪声向量{z1-,z2-,..., zN-}为噪声向量生成的视觉特征作为查询视觉负样本;
类间对比学习损失函数为:
;
其中,g+表示正样本,正样本可以来自查询视觉特征,或来自目标检测器的RPN提取的与当前合成的查询视觉特征具有相同类别标签的目标区域的真实视觉特征; gj表示负样本,负样本可以来自通道加权目标检测模块的RPN提取的与当前合成的查询视觉特征具有不同类别标签的目标区域的真实视觉特征,或来自背景区域特征;
总损失函数L为:
;其中,λ1和λ2为平衡损失函数的加权超参数。
进一步的,所述不可见分类器使用生成的未知类图像的目标区域的查询视觉特征及其对应的未知类别的类标签进行训练,该分类器能够在零样本情况下对不可见类别进行分类。
进一步的,还包括:以Faster R-CNN为骨干网络,以ResNet作为Faster R-CNN的特征提取网络,将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中,通过更新Faster R-CNN模型的分类器部分,建立所述零样本目标检测方法的检测模型。
本发明的有益效果在于:本发明提供了一种新的基于通道加权和双对比学习的零样本目标检测方法,创新性主要体现在两个方面:利用了通道注意力机制和双重对比学习方法。其优点分别如下:
(1)通过引入通道注意力机制,网络可以自适应地学习通道注意力,提高特征表示的表现能力,使得检测模型捕捉到更重要的特征,从而在目标检测任务中获得更好的性能。
(2)采用类内对比学习和类间对比学习损失函数,使得检测模型可以在零样本情况下合成多样且具有区分性的区域特征,从而提高了零样本目标检测的性能。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的检测模型各模块的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
ResNet是一种残差网络。
Faster R-CNN:Faster-RCNN是2015年提出的第一个真正意义上的端到端的深度学习检测算法,区域生成网络(RPN,Region Proposal Network)是Faster RCNN 核心部分。
如图1所示,本发明实施例提高一种基于通道加权和双对比学习的零样本目标检测方法,该方法包括:
步骤101:获取可见类图像并输入到通道加权目标检测模块提取特征,其中,所述通道加权目标检测模块的特征提取网络为ResNet,将SE-Net块嵌入到特征提取网络ResNet的残差模块中,并使用RPN来提取可见类图像的目标区域的真实视觉特征;
步骤102:将未知类的语义向量输入所述双对比学习引导的鲁棒特征生成模块,所述鲁棒特征生成模块为特征生成器,用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征,并通过类内对比学习和类间对比学习训练所述特征生成器;
步骤103:将所述真实视觉特征和所述查询视觉特征输入不可见分类器,输出目标检测结果。
在本实施例中,通过通道加权目标检测模块,自适应地学习通道注意力,以强调重要的特征通道,从而提高目标检测性能;双对比学习引导的鲁棒特征生成模块,通过引入类内对比学习和类间对比学习,在合成多样化视觉特征的同时提高视觉特征的区分性,从而生成更加鲁棒的区域特征,并将未知类别(不可见类别)的语义嵌入映射为对应的视觉特征;分类器能够在零样本情况下对不可见类别进行分类。最终通道加权目标检测模块、双对比学习引导的鲁棒特征生成模块和不可见分类器结合,构成零样本目标检测的新检测模型。本实施例可以增强目标检测网络对重要特征的表示能力,并生成更加鲁棒的未知类图像,使检测模型可以利用有限的可见类别信息来泛化到未见过的类别,有效提高了零样本目标检测的性能。
本发明在目标检测任务中引入了通道注意力机制,由于不同通道之间的重要性和相关性会有所不同,通道注意力机制的目标是通过自适应学习来强调重要的通道,减少对不相关通道的依赖,从而提升目标检测的性能。同时,本发明设计了类内对比学习和类间对比学习损失函数来生成更加稳健的区域视觉特征。通过这两个损失函数的联合使用,检测模型可以在零样本情况下合成多样且具有区分性的区域特征,从而提高了零样本目标检测的性能。
可选地,作为本发明一个实施例,在所述通道加权目标检测模块内包括以下方法:
输入可见类图像,经过残差模块后输出特征图F∈RH×W×C,其中,C是通道数,H是高度,W是宽度;
以ResNet作为Faster R-CNN的特征提取网络, 将SE-Net块嵌入到ResNet的残差模块中,用于增强通道注意力。在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作;通过插入本发明实施例提供的SE-Net块,使得Faster R-CNN的骨干网络可以自适应地学习通道注意力,以强调重要的特征通道,从而提高目标检测性能。
所述Squeeze(压缩)操作包括:将特征图F进行全局平均池化,压缩为一个C维向量,表示每个通道的全局平均值,Squeeze(压缩)操作的输出为k∈R1×1×C,公式为:
;
所述Excitation(激发)操作包括:将k∈R1×1×C输入到全连接层和RELU激活函数,输出一个与通道数相同的注意力向量s∈R1×1×C,并通过sigmoid激活函数将注意力向量s限制在 [0,1]范围内,公式为:
;
其中,FC表示全连接层,RELU表示修正线性单元激活函数,表示sigmoid()激活函数;
所述Scale(缩放)操作包括:将注意力向量s对特征图F进行加权,得到加权后的特征图M∈RH×W×C,公式为:
;
其中, sC是注意力向量s中第C个通道的注意力权重,FC(H,W)是特征图F在第C个通道和位置(H,W)处的值,MC(H,W)是加权后的特征图M在第C个通道和位置(H,W)处的值;
使用可见类图像及其相应的ground truth(类标签和边界框坐标)来训练Faster-RCNN模型,并使用RPN来提取可见类图像的目标区域的真实视觉特征。
在已知可见类训练图像X,及其对应的标签Y和可见类语义向量W的情况下, 学习一个特征生成器G:U×Z→F,其中U是类别的嵌入向量集合,Z∈N(0,1)是从高斯分布中采样得到的随机噪声向量。这个生成器G接受一个类别嵌入向量u∈U 和一个随机噪声向量z作为输入,并生成对应于该类别的目标区域的视觉特征。该特征生成器的目标是学习可见类的语义词向量与可见类图像的视觉特征之间的映射关系,生成一个语义嵌入(semantic embedding)空间,使得语义向量能够对应到视觉特征。
可选地,作为本发明一个实施例,所述双对比学习引导的鲁棒特征生成模块中,使用LR损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征,所述LR损失函数为:
;
其中,f为可见类图像目标区域的真实视觉特征,f 为可见类的语义向量,为生成的查询视觉特征,E表示期望值,D是判别器函数,所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入,判别器的目标是准确区分真实视觉特征和查询视觉特征;
为了生成更加鲁棒的区域特征,本发明引入了类内对比学习和类间对比学习。类内对比学习损失函数有助于合成多样化的视觉特征。它通过将单个类别的语义向量分解为一组视觉特征,实现了在同一个类别内部生成多个样本。这种多样性有助于更好地适应目标类别的不同外观和形态变化。通过将相同类别的语义嵌入向量与随机噪声结合,生成不同的视觉特征,类内对比学习损失函数促使生成器能够产生更加多样和具体化的区域特征,从而有助于区分不同目标类别。
本发明实施例提供一种类内对比学习损失函数:
;
其中,“·”表示点积操作,表示温度比例因子,/>为查询视觉正样本,/>为查询视觉负样本,/>为查询视觉特征;
其中,对于每个查询噪声向量z,使用生成器G生成对应的查询视觉特征;
所述查询视觉正样本通过以下方式计算:
在所述随机向量中选择一个查询噪声向量z,在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z+,所述正样本查询噪声向量z+是通过在z 的基础上加上一个随机向量ρ得到的,其中ρ是从均匀分布U[-r,r]中随机采样得到的,半径r设置为10-4;将以/>为噪声向量生成的视觉特征/>作为查询视觉正样本;
所述查询视觉负样本通过以下方式计算:
从潜在空间中随机采样一组负样本噪声向量{z1-,z2-,..., zN-},所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量;而将以负样本噪声向量{z1-,z2-,..., zN-}为噪声向量生成的视觉特征作为查询视觉负样本。
类间对比学习损失函数旨在使合成的视觉特征与真实数据的分布相近,并提高学习到的视觉特征的区分性。在该损失函数中,不仅考虑了不同类别的合成视觉特征,还关注了通过RPN提取的真实视觉特征,其中包括正样本目标区域特征(与合成特征相同类别的区域特征)以及许多负样本和背景区域特征。
本发明实施例提供一种类间对比学习损失函数:
;
其中,g+表示正样本,正样本可以来自查询视觉特征,或来自目标检测器的RPN提取的与当前合成的视觉特征具有相同类别标签的目标区域的真实视觉特征;gj表示负样本,负样本可以来自通道加权目标检测模块的RPN提取的与当前合成的视觉特征具有不同类别标签的目标区域的真实视觉特征,或来自背景区域特征;
总损失函数L为:
;其中,λ1和λ2为平衡损失函数的加权超参数。
通过该总损失函数训练特征生成器,使用训练完成的特征生成器实现将未知类别(不可见类别)的语义嵌入映射为对应的视觉特征。通过这个过程,可以生成未知类别图像的区域特征。
可选地,作为本发明一个实施例,所述不可见分类器(Zero-Shot Classifier)使用生成的未知类图像的目标区域的查询视觉特征及其对应的类标签(未知类别的类标签)进行训练,该分类器能够在零样本情况下对不可见类别进行分类。
可选地,作为本发明一个实施例,如图2所示,还包括:以Faster R-CNN为骨干网络,以ResNet作为FasterR-CNN的特征提取网络,将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中,通过更新Faster R-CNN模型的分类器部分,建立所述零样本目标检测方法的检测模型。
表1是本公开方法的一个仿真实验,该实验在MS COCO数据集(微软于2014年出资标注的MicrosoftCOCO数据集)两种划分方式48/17和65/15(COCO数据集以48/17或者65/15方式划分为基础类别和新类别)下进行对比了不同IOU取值下,Recall和mAP的实验结果。与现有技术相比,本发明采用通道加权目标检测模块,同时基于双对比学习的特征生成模型能够生成多样化且具有区分性的视觉特征,实验结果验证了本发明的有效性。
表1 本公开与其他算法准确度比较
上述表格中对比的其他算法具体见下方引用文献。
其中,“DSES”为Bansal A、 Sikka K、Sharma G等人提出的零样本目标检测算法。“TD”为Li Z、Yao L、Zhang X等人提出的带文本描述的零样本目标检测算法。“BLC”为ZhengY、Huang R、Han C等人提出的背景可学习级联的零样本目标检测算法。“PL”为RahmanS、Khan S、Barnes N等人提出的极性损失的零样本目标检测算法。“SU”为Hayat N、Hayat M、Rahman S等人提出的合成看不见的零样本目标检测算法。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内或任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (5)
1.一种基于通道加权和双对比学习的零样本目标检测方法,其特征在于,包括:
获取可见类图像并输入到通道加权目标检测模块提取特征,其中,所述通道加权目标检测模块的特征提取网络为ResNet,将SE-Net块嵌入到特征提取网络ResNet的残差模块中,并使用RPN来提取可见类图像的目标区域的真实视觉特征;
将未知类的语义向量输入双对比学习引导的鲁棒特征生成模块,所述鲁棒特征生成模块为特征生成器,用于根据未知类的语义向量和随机噪声向量生成对应于该类别的目标区域的查询视觉特征,并通过类内对比学习和类间对比学习训练所述特征生成器;
将所述真实视觉特征和所述查询视觉特征输入不可见分类器,输出目标检测结果。
2.根据权利要求1所述的方法,其特征在于,在所述通道加权目标检测模块内包括以下方法:
输入可见类图像,经过残差模块后输出特征图F∈RH×W×C,其中,C是通道数,H是高度,W是宽度;
在SE-Net块内进行Squeeze操作、Excitation操作、Scale操作;
所述Squeeze操作包括:将特征图F进行全局平均池化,压缩为一个C维向量,表示每个通道的全局平均值,Squeeze操作的输出为k∈R1×1×C,公式为:
;
所述Excitation操作包括:将k∈R1×1×C输入到全连接层和RELU激活函数,输出一个与通道数相同的注意力向量s∈R1×1×C,并通过sigmoid激活函数将注意力向量s限制在 [0,1]范围内,公式为:
;
其中,FC表示全连接层,RELU表示修正线性单元激活函数,表示sigmoid激活函数;
所述Scale操作包括:将注意力向量s对特征图F进行加权,得到加权后的特征图M∈RH ×W×C,公式为:
;
其中, sC是注意力向量s中第C个通道的注意力权重,FC(H,W)是特征图F在第C个通道和位置(H,W)处的值,MC(H,W)是加权后的特征图M在第C个通道和位置(H,W)处的值;
使用可见类图像及其相应的ground truth来训练Faster-RCNN模型,并使用RPN来提取可见类图像的目标区域的真实视觉特征。
3.根据权利要求1所述的方法,其特征在于,所述双对比学习引导的鲁棒特征生成模块中,使用LR损失来强制生成器G合成与真实视觉特征分布相匹配的未知类别的查询视觉特征,所述LR损失的函数公式为:
;
其中,f为可见类图像目标区域的真实视觉特征,w为可见类的语义向量,为生成的查询视觉特征,E表示期望值,D是判别器函数,所述判别器用于接收真实视觉特征f或查询视觉特征/>和相应的类别语义向量w作为输入,判别器的目标是准确区分真实视觉特征和查询视觉特征;
类内对比学习损失函数如下:
;
其中,“·”表示点积操作,τ表示温度比例因子,为查询视觉正样本,/>为查询视觉负样本,/>为查询视觉特征;
其中,对于每个查询噪声向量z,使用生成器G生成对应的查询视觉特征;
所述查询视觉正样本通过以下方式计算:
在随机向量Z中选择一个查询噪声向量z,在以z为中心、半径为r的小球内随机选择一个正样本查询噪声向量z+,所述正样本查询噪声向量z+是通过在z 的基础上加上一个随机向量ρ得到的,其中ρ是从均匀分布U[-r,r]中随机采样得到的,半径r设置为10-4;将以z+为噪声向量生成的视觉特征作为查询视觉正样本;
所述查询视觉负样本通过以下方式计算:
从潜在空间中随机采样一组负样本噪声向量{z1-,z2-,..., zN-},所述负样本噪声向量被选择为在以查询噪声向量 z为中心、半径为r的小球以外的随机向量;而将以负样本噪声向量{z1-,z2-,..., zN-}为噪声向量生成的视觉特征作为查询视觉负样本;
类间对比学习损失函数为:
;
其中,g+表示正样本,正样本可以来自查询视觉特征,或来自目标检测器的RPN提取的与当前合成的查询视觉特征具有相同类别标签的目标区域的真实视觉特征; gj表示负样本,负样本可以来自通道加权目标检测模块的RPN提取的与当前合成的查询视觉特征具有不同类别标签的目标区域的真实视觉特征,或来自背景区域特征;
总损失函数L为:
;其中,λ1和λ2为平衡损失函数的加权超参数。
4.根据权利要求1所述的方法,其特征在于,所述不可见分类器使用生成的未知类图像的目标区域的查询视觉特征及其对应的未知类别的类标签进行训练,该分类器能够在零样本情况下对不可见类别进行分类。
5.根据权利要求1所述的方法,其特征在于,还包括:以Faster R-CNN为骨干网络,以ResNet作为Faster R-CNN的特征提取网络,将双对比学习引导的鲁棒特征生成模块和不可见分类器结合到Faster R-CNN模型中,通过更新Faster R-CNN模型的分类器部分,建立所述零样本目标检测方法的检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410302108.XA CN117893743B (zh) | 2024-03-18 | 2024-03-18 | 一种基于通道加权和双对比学习的零样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410302108.XA CN117893743B (zh) | 2024-03-18 | 2024-03-18 | 一种基于通道加权和双对比学习的零样本目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117893743A true CN117893743A (zh) | 2024-04-16 |
CN117893743B CN117893743B (zh) | 2024-05-31 |
Family
ID=90652164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410302108.XA Active CN117893743B (zh) | 2024-03-18 | 2024-03-18 | 一种基于通道加权和双对比学习的零样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893743B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN111914929A (zh) * | 2020-07-30 | 2020-11-10 | 南京邮电大学 | 零样本学习方法 |
US11288542B1 (en) * | 2020-11-17 | 2022-03-29 | Sap Se | Learning graph-based priors for generalized zero-shot learning |
CN114548325A (zh) * | 2022-04-26 | 2022-05-27 | 北京大学 | 基于对偶对比学习的零样本关系抽取方法和系统 |
US20220188595A1 (en) * | 2020-12-16 | 2022-06-16 | Microsoft Technology Licensing, Llc | Dynamic matrix convolution with channel fusion |
CN115270752A (zh) * | 2022-07-27 | 2022-11-01 | 北京邮电大学 | 一种基于多层次对比学习的模板句评估方法 |
US20220382979A1 (en) * | 2021-06-01 | 2022-12-01 | Sap Se | Contrastive meta-learning for zero-shot learning |
CN115641582A (zh) * | 2022-10-23 | 2023-01-24 | 西北工业大学 | 一种基于对比学习的零样本图像分类网络及深度学习方法 |
JP7214822B1 (ja) * | 2021-09-23 | 2023-01-30 | 延世大学校 産学協力団 | Cam基盤の弱教師あり学習物体探知装置及び方法 |
CN115830379A (zh) * | 2022-12-05 | 2023-03-21 | 太原科技大学 | 基于双注意力机制的零样本建筑图像分类方法 |
CN117195911A (zh) * | 2023-09-11 | 2023-12-08 | 北京工业大学 | 一种语言模型驱动的零样本目标检测方法及系统 |
-
2024
- 2024-03-18 CN CN202410302108.XA patent/CN117893743B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN111914929A (zh) * | 2020-07-30 | 2020-11-10 | 南京邮电大学 | 零样本学习方法 |
US11288542B1 (en) * | 2020-11-17 | 2022-03-29 | Sap Se | Learning graph-based priors for generalized zero-shot learning |
US20220188595A1 (en) * | 2020-12-16 | 2022-06-16 | Microsoft Technology Licensing, Llc | Dynamic matrix convolution with channel fusion |
US20220382979A1 (en) * | 2021-06-01 | 2022-12-01 | Sap Se | Contrastive meta-learning for zero-shot learning |
JP7214822B1 (ja) * | 2021-09-23 | 2023-01-30 | 延世大学校 産学協力団 | Cam基盤の弱教師あり学習物体探知装置及び方法 |
CN114548325A (zh) * | 2022-04-26 | 2022-05-27 | 北京大学 | 基于对偶对比学习的零样本关系抽取方法和系统 |
CN115270752A (zh) * | 2022-07-27 | 2022-11-01 | 北京邮电大学 | 一种基于多层次对比学习的模板句评估方法 |
CN115641582A (zh) * | 2022-10-23 | 2023-01-24 | 西北工业大学 | 一种基于对比学习的零样本图像分类网络及深度学习方法 |
CN115830379A (zh) * | 2022-12-05 | 2023-03-21 | 太原科技大学 | 基于双注意力机制的零样本建筑图像分类方法 |
CN117195911A (zh) * | 2023-09-11 | 2023-12-08 | 北京工业大学 | 一种语言模型驱动的零样本目标检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
林克正;李昊天;白婧轩;李骜;: "语义自编码结合关系网络的零样本图像识别算法", 模式识别与人工智能, no. 03, 15 March 2019 (2019-03-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117893743B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Safety helmet detection based on YOLOv5 | |
CN104318219B (zh) | 基于局部特征及全局特征结合的人脸识别方法 | |
Huang et al. | Robust region feature synthesizer for zero-shot object detection | |
Wang et al. | Discovering human interactions with novel objects via zero-shot learning | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN105404886A (zh) | 特征模型生成方法和特征模型生成装置 | |
Hemayed et al. | Edge-based recognizer for Arabic sign language alphabet (ArS2V-Arabic sign to voice) | |
Pratama et al. | Face recognition for presence system by using residual networks-50 architecture | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及系统 | |
Zhao et al. | Real-time hand gesture detection and recognition by random forest | |
CN112949469A (zh) | 针对人脸篡改图像特点分布的图像识别方法、系统及设备 | |
CN111461162B (zh) | 一种零样本目标检测模型及其建立方法 | |
Liu et al. | Novel instance mining with pseudo-margin evaluation for few-shot object detection | |
Nasser et al. | Signature recognition by using SIFT and SURF with SVM basic on RBF for voting online | |
CN113988180A (zh) | 基于模型指纹的生成图像溯源方法 | |
Ayache et al. | Performance Evaluation of Machine Learning for Recognizing Human Facial Emotions. | |
CN103345621A (zh) | 一种基于稀疏浓度指数的人脸分类方法 | |
Lian | Pedestrian detection using quaternion histograms of oriented gradients | |
CN102609727A (zh) | 基于无量纲特征提取的火灾火焰检测方法 | |
CN107103289B (zh) | 利用笔迹轮廓特征来进行笔迹鉴别的方法及系统 | |
CN117893743B (zh) | 一种基于通道加权和双对比学习的零样本目标检测方法 | |
Escobedo et al. | Finger spelling recognition from depth data using direction cosines and histogram of cumulative magnitudes | |
CN113627498B (zh) | 人物丑化图像识别和模型训练方法与装置 | |
CN109271902A (zh) | 复杂背景下基于时域经验模态分解的红外弱小目标检测方法 | |
Akmeliawati et al. | Towards real-time sign language analysis via markerless gesture tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |