CN116824330A - 一种基于深度学习的小样本跨域目标检测方法 - Google Patents
一种基于深度学习的小样本跨域目标检测方法 Download PDFInfo
- Publication number
- CN116824330A CN116824330A CN202310626378.1A CN202310626378A CN116824330A CN 116824330 A CN116824330 A CN 116824330A CN 202310626378 A CN202310626378 A CN 202310626378A CN 116824330 A CN116824330 A CN 116824330A
- Authority
- CN
- China
- Prior art keywords
- feature
- domain
- target
- small sample
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000007480 spreading Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习的小样本跨域目标检测方法,属于计算机视觉技术和人工智能技术。本发明为解决现有方法因场景变换、目标形态变化等导致的特征提取能力下降的问题,综合设计了四个高效的模块。本发明的方法设计了一个多层次关键特征生成器,使模型能够从大量源域数据中获得不同层次的先验知识;设计了一个嵌入式空间隐式关联策略,为成功区分目标提供信息支持;本发明采用了一个实例嵌入策略,来提高模型对样本数量稀少的新类目标的弱分类能力;重新设计具有自适应加权的损失函数,消除以往方法根据经验确定多个损失函数系数的弊端。本发明可以通过寻找不同场景同类目标之间的共性,克服跨域造成的背景干扰。本发明可用于小样本跨域目标检测。
Description
技术领域
本发明涉及图像处理技术和计算机视觉领域,特别涉及一种基于深度学习的小样本跨域目标检测方法。
背景技术
目标检测是计算机视觉领域中的核心任务之一,旨在定位并识别出图像中的目标。随着科学技术的快速发展,在深度学习的帮助下,目标检测技术近几年取得了长足进步,并被成功应用到无人驾驶、土地勘探、智慧医疗等诸多领域,给民用领域能够获取更丰富的有用信息提供了有效途径。
然而,目前基于深度学习的目标检测方法通常需要依赖大量的标注数据来实现模型的训练和知识学习,这对于有监督的训练而言标注工作十分耗时且成本昂贵。在现实应用中,许多特定任务下的相关图像难以大量获取和采集,在该情况下传统方法极易出现过拟合现象,造成大量漏检。为了缓解这个问题,小样本目标检测方法逐渐被提出用来减小模型的数据依赖程度,这类方法能够在仅有少量样本的情况下,实现对新类目标的检测。尽管如此,大多数现有小样本目标检测方法假设包含少量样本的目标域数据与源域数据都符合相同的统计分布,即具有相似的场景,但现实情况是目标域中的样本不仅难以获得而且具有不同的域分布,场景的切换、形态学上的显著变化等引起的样本细粒度特征的衰退,给计算机视觉领域带来了巨大挑战。
小样本目标检测问题一般将目标数据集划分为类别上不相交的基类和新类,基类数据具有充足的标注数据及原始图像,而新类仅有很少数量的样本可以利用,可以看作从基类数据上学习泛化知识用于对新类目标的识别。定义N个新类中每个类别包含K个标注实例,又称N-way K-shot问题,根据任务的不同,N的值并不固定,而K值常取1,2,3,5,10,30等。另外,跨域问题是指目标所处场景变化时的检测问题,导致这种域分布变换的因素包括不同成像设备的拍摄(手机相机、单镜头反光相机等)、拍摄角度的变换(汽车相机视角、监控视角等)、极端天气的干扰等,这也意味着从源域数据上训练的目标检测模型需要在适应新类的同时也需要适应新的域。因此,在现有公开的大量数据集的基础上,小样本跨域目标检测算法仅需要来自不同域的很少数量的新类样本,就可以对新类目标进行高效的识别,获得鲁棒的小样本跨域目标检测模型,这极大地增加了模型的应用价值。
现有的基于深度学习的目标检测方法,主要存在以下问题:一、一般目标检测方法依赖大量的标注数据,数据标注成本高昂且费时费力;二、特定任务下可获得图像数量稀少、珍贵,一般方法极易出现过拟合现象;三、在现实环境中同类目标所处场景复杂多变,在仅有少量可用的目标类图像的情况下,目标背景或形态上的差异会影响现有小样本目标检测方法的知识学习过程,造成鲁棒性差的问题。
在本发明中,针对上述问题,采用基于深度学习的方法在少量样本的情况下实现跨域目标检测。通过设计的多层次关键特征生成器来提升模型在少样本的情况下对前景目标的特征表达能力,并通过嵌入式空间隐式关联策略找到少量样本中不同域但同类的目标的共同特点,将少样本和跨域检测结合起来。再利用具有实例嵌入策略的预测头增强目标分类能力并对损失函数进行优化,进一步提升模型在新类检测上的鲁棒性。该方法克服了一般方法的大规模数据依赖,仅需要少量的样本就能实现高效的小样本跨域检测。
本发明所述的一种基于深度学习的小样本跨域目标检测方法,属于计算机视觉技术和人工智能技术。本发明为解决现有方法因场景变换、目标形态变化等导致的特征提取能力下降的问题,综合设计了四个高效的模块。本发明的方法设计了一个多层次关键特征生成器,使模型能够从大量源域数据中获得不同层次的先验知识;设计了一个嵌入式空间隐式关联策略,为成功区分目标提供信息支持;本发明采用了一个实例嵌入策略,来提高模型对样本数量稀少的新类目标的弱分类能力;重新设计具有自适应加权的损失函数,消除以往方法根据经验确定多个损失函数系数的弊端。本发明可以通过寻找不同场景同类目标之间的共性,克服跨域造成的背景干扰。本发明可用于小样本跨域目标检测,从而解决了实际民用领域如自动驾驶等许多任务的智能化目标检测的需求。
发明内容
本发明方法基于计算机视觉技术和人工智能技术,综合了2D目标检测技术和人工智能深度学习技术。为解决现有绝大多数目标检测方法存在的需依赖大量数据标注,无法在少样本下同时处理跨域检测,在不同域样本上泛化性能低的问题,提出了一种基于深度学习的小样本跨域目标检测方法。
为了达到上述目的,本发明所提供的一种基于深度学习的小样本跨域目标检测方法,包括以下步骤:
步骤一、以Faster R-CNN作为基础框架,以Resnet-101作为特征编码器;将两个来源不同的数据集分别作为源域数据集SD和目标域数据集T,并将目标域数据集T进一步划分为两个类别不相交的小样本目标域数据集TD和测试集Test,源域数据集SD、小样本目标域数据集TD和测试集Test包含的目标类别分别记为Cs、Ct和CT;
步骤二、利用源域数据集SD、小样本目标域数据集TD来构建用于模型学习的任务:在源域数据集SD中随机选择包含Nc个类别,每个类别采样K张图像的支持图像集ses和包含Q张图像的查询图像集qes;在小样本目标域数据集TD中随机选择包含Mc个类别,每个类别采样K张图像的支持图像集set和Q张图像的查询图像集qet;
步骤三、从支持图像集ses和set中选取一组支持图像,并从查询图像集qes和qet中选择一张查询图像,其中支持图像采用RGB的形式且额外包含一个用于表示图像中目标位置的掩码(mask)通道;
步骤四、对包含掩码通道的支持图像和查询图像利用特征编码器进行特征提取,分别得到支持特征和查询特征;
步骤五、对步骤四中得到的支持特征和查询特征,使用多层次关键特征生成器,生成语义信息不同的全局特征表示和粗关键特征图,再利用注意力机制算法抑制粗关键特征图中包含的复杂背景噪声,得到细关键特征图;之后,细关键特征图经过一个解耦模块生成多层次关键特征图;
步骤六、基于步骤五中获得的全局特征表示和多层次关键特征图,采用嵌入式空间隐式关联策略,通过在特征编码空间中利用三个特征指导来构建对新类目标的特征重用,三个特征指导分别是特征指导1(局部关键信息)、特征指导2(全局关键信息)、特征指导3(通道关键信息);
步骤七、将步骤六中经过特征指导处理后的查询特征,输入到采用了实例嵌入的预测头;先使用RPN得到潜在的兴趣区域,之后对兴趣区域采用注意力机制算法清除不相关的特征信息,并与原始兴趣区域特征进行像素级融合得到ROI*;对ROI*以平行的方式添加一个自适应强化网络来进一步提高模型对样本数量稀少的新类目标的弱分类能力;
步骤八、提出损失函数与自适应重加权策略,将关键程度编码器损失与Faster R-CNN的损失函数形式相结合,组建最终包含四个损失项的损失函数,以用于小样本跨域目标检测模型的训练;在源域数据集和小样本目标域数据集的基类上进行训练,当模型的验证损失不再降低的时候停止训练,并保留性能最佳的基类模型权重;
步骤九、将步骤八获得的基类模型在源域和目标域中的新类数据上进行微调,当模型的验证损失不再降低的时候停止微调,得到最终的小样本跨域目标检测模型;
步骤十、将步骤九得到的小样本跨域目标检测模型在测试集Test上进行评估,获取检测结果。
本发明的一种基于深度学习的小样本跨域目标检测方法,具有如下特点和优点:
本发明针对小样本跨域目标检测问题,提出了目标多层次关键特征生成器、嵌入式空间隐式关联策略、具有实例嵌入策略的预测头和自适应加权的损失函数,通过提升模型的特征表达能力,并探索同一目标在多领域、多形态中的共同特点,以提升现有模型在可用数据稀少的情况下对新类目标的检测精度,同时实现对场景或形态等变化较大的目标的高效检测;与现有方法相比,发明的方法不仅在基类上具有更高的检测精度,还能进一步扩展到对跨域新类的识别任务上来,使得模型能够克服域差异带来的阻碍,捕获更加鲁棒的特征表示,从而达到更好的目标检测结果。
附图说明
图1是具体实施方式一中小样本跨域目标检测方法的整体流程图;
图2是本发明方法提出的小样本跨域目标检测网络结构示意图;
图3是具体实施方式三中解耦模块的示意图;
图4是本发明的方法在源域数据集、目标域数据集分别选择不同时,在测试集上的目标检测结果,其中(a)表示源域数据集为Cityscapes、目标域数据集为UA-DETRAC时的目标检测结果,(b)表示源域数据集为Cityscapes、目标域数据集为FoggyCityscapes时的目标检测结果,(c)表示源域数据集为PASCALVOC2007、目标域数据集为Clipart时的目标检测结果。
具体实施方式
具体实施方式一:结合图1说明本实施方案,一种基于深度学习的小样本跨域目标检测方法,它包括如下步骤:
步骤一、源域数据集、目标域数据集、测试数据集划分。将两个来源不同的数据集分别作为源域数据集SD和目标域数据集T,进一步将目标域数据集T划分为两个类别不相交的小样本目标域数据集TD和测试集Test,源域数据集SD、小样本目标域数据集TD和测试集Test包含的目标类别分别为Cs、Ct和CT;
步骤二、划分基类和新类数据集,并对基类数据集进行N-way K-shot的任务划分。从源域数据集SD中随机选择包含Nc个类别,每个类别采样K张图像的支持图像集ses和包含Q张图像的查询图像集qes,再从小样本目标域数据集TD中随机选择包含Mc个类别,每个类别K张图像的支持图像集set和Q张图像的查询图像集qet,分别将ses与set、qes与qet合并,构建N-way K-shot任务;
步骤三、采样支持图像和查询图像,并得到增加掩码后的四通道支持图像;
步骤四、使用特征编码器对支持图像和查询图像进行特征提取,分别获得支持特征和查询特征,其中特征编码器选择ResNet-101;
步骤五、使用多层次关键特征生成器,生成语义信息不同的全局表示和多层次关键特征图。我们对步骤四获得的支持特征和查询特征,使用多层次关键特征生成器,生成语义信息不同的全局特征表示和粗关键特征图;再利用注意力机制CBAM算法抑制粗关键特征图中包含的复杂背景噪声,得到细关键特征图;最后对细关键特征图使用一个解耦模块生成多层次关键特征图;
步骤六、针对全局特征表示和多层次关键特征图,采用嵌入式空间隐式关联策略,通过在特征编码空间中利用三个特征指导来构建对新类目标的特征重用,得到特征指导处理后的查询特征,三个特征指导分别是特征指导1(局部关键信息)、特征指导2(全局关键信息)、特征指导3(通道关键信息);
步骤七、将步骤六中得到的特征指导处理后的查询特征输入到具有实例嵌入的预测头进行检测。我们先使用RPN得到潜在的兴趣区域,对兴趣区域采用实例级的注意力机制算法清除不相关特征信息,并与原始兴趣区域特征进行像素级融合得到ROI*,再对ROI*以平行的方式添加一个自适应强化网络来进一步提高模型对样本数量稀少的新类目标的弱分类能力;
步骤八、使用整体损失函数进行训练,得到在基类上训练后的目标检测模型。我们将关键程度编码器损失与Faster R-CNN的损失函数形式相结合,组建最终包含四个损失项的损失函数,以用于小样本跨域目标检测模型的训练;之后在源域和小样本目标域数据集的基类上训练该模型,当模型的验证损失不再降低的时候停止训练,并保留性能最佳的基类模型权重;
步骤九、将步骤八获得的基类模型在源域和目标域中的新类数据上进行微调,仅微调RPN的最后一层及具有实例嵌入的预测头部分,微调过程依照步骤四至步骤八,当模型的验证损失不再降低的时候停止微调,从而得到最终的小样本跨域目标检测模型;
步骤十、将步骤九得到的小样本跨域目标检测模型在测试集Test上进行评估,获取检测结果。
具体实施方式二:本实施方案所述一种基于深度学习的小样本跨域目标检测方法,所述步骤三的具体过程包括以下步骤:
步骤三A、将支持图像中标注的目标边界框转化为二值掩码(mask),与前景目标相关的边界框的内部区域像素点赋值为1,其他各像素点赋值为0;如果一张图像中包含多个属于采样类别的目标,即都属于基类目标,则只随机选取其中的一个作为有效目标;
步骤三B、在支持图像的RGB三通道之后拼接步骤三A中的位置信息mask图,形成四通道的支持图像。
具体实施方式三:结合图2和图3说明本实施方案所述一种基于深度学习的小样本跨域目标检测方法,所述步骤五的具体过程包括以下步骤:
步骤五A、对步骤四获得的支持特征和查询特征,使用目标多层次关键特征生成器,生成语义信息不同的全局表示和粗关键特征图;
步骤五B、再利用图像级的注意力机制算法抑制粗关键特征图中包含的复杂背景噪声,得到细关键特征图;
步骤五C、对细关键特征图使用一个解耦模块生成多层次关键特征图;
步骤五D、如图3所示,对细关键特征图,采用一个大小为1×1、卷积核数为C的卷积层,并用Leaky relu激活函数进行处理,输出大小为H×W×C的特征图,H、W和C分别表示高度、宽度和通道数;
步骤五E、基于步骤五D中得到的大小为H×W×C的特征图,分别采用两个大小为3×3、卷积核数为C/3的卷积计算来建立两个平行分支,并在第二个分支上再次分别采用一个大小为3×3、卷积核数为C/3和两个大小为3×3、卷积核数为C/3的卷积计算来建立两个并行分支,最终在三个分支的输出端处获得三个含有不同抽象信息的特征图,大小分别为
步骤五F、将步骤五E中产生的三个特征图在通道维度上进行拼接得到最终的多尺度关键特征图,大小为WD×HD×C。
具体实施方式四:结合图2说明本实施方案所述一种基于深度学习的小样本跨域目标检测方法,所述步骤六中的嵌入式空间隐式关联策略的具体过程包括以下步骤:
步骤一、一方面,以多尺度关键特征图作为关键程度编码器的输入F,采用一个大小为3×3、卷积核数为512的卷积层得到相关的关键程度描述W3×3表示对应卷积层的权重;
步骤二、另一方面,将多尺度关键特征图F转化为一组特征补丁n为特征补丁的个数,p表示补丁patch;并将ses和set中所有属于ci类的样本编码特征向量的平均值作为ci类目标的公共向量表示/>
步骤三、将ci类目标的公共向量表示和输入F的补丁特征向量/>都采用L2归一化,归一化后的输出分别记为/>和/>并通过固定/>和/>的大小为1,实现特征向量在单位高维超球面上的映射;
步骤四、计算每个归一化后的补丁特征向量与/>之间的余弦相似性,得到每个补丁在类别上的从属关系,保留距离阈值内相关性较高的向量,剔除无关和错误的关键补丁(mask处理),进而获得对输入F来说重要的补丁特征向量集合/>称/>为关键重要程度描述;
步骤五、基于步骤四得到的关键重要程度描述根据补丁的编号以内积的方式步骤一获得的关键程度描述/>添加到补丁上得到输出/>再采用softmax归一化得到局部关键信息特征指导1;
步骤六、基于由支持特征和查询特征分别产生的多层次关键特征图,将二者相乘获得全局关键信息特征指导2;
步骤七、将步骤二获得的一组特征补丁随机打乱(Randomshuffle)并展开后,再随机掩码10%,经特征映射函数gθ得到通道关键信息细化特征指导3,gθ是一个输入层有128个神经元而输出层有512个神经元的全连接层;
步骤八、将由支持特征生成的全局特征表示与特征指导1、特征指导2相乘后,与查询特征生成的全局特征表示在通道维度上进行拼接;将特征指导3以内积的方式与拼接后的特征图进行特征融合,输出的特征图作为RPN的输入。
具体实施方式五:结合图2说明本实施方案所述一种基于深度学习的小样本跨域目标检测方法,所述步骤七中的自适应强化网络的具体过程包括以下步骤:
步骤一、将输入的ROI*按网格划分为m×n个特征补丁,计算新类目标的特征补丁向量与公共向量表示的余弦相似度;
步骤二、若步骤一中的余弦相似度高于设定的阈值参数θ,该发明中θ=0.7,则将该向量输入到一个具有softmax算法的分类器,用于生成校正系数;
步骤三、使用生成的校正系数对经过ROIAlign操作的分类预测端进行像素级融合。
具体实施方式六:本实施方案所述一种基于深度学习的小样本跨域目标检测方法,所述步骤八中的四个损失项和具有自适应重加权策略的总损失函数的具体细节如下:
模型输出端处有关边界框回归和分类的损失函数形式与Faster R-CNN相似,如下所示:
其中L(·,·)为模型输出端处的损失函数,pi为锚点框被预测为目标的概率, ti={tx,ty,tw,th}是表示锚点框的向量,(tx,ty)表示锚点框的中心点坐标,(tw,th)表示锚点框的宽度和高度,/>表示锚点框相对于groundtruth(gt)的偏移量,Lreg、Lcls分别表示FasterR-CNN中的边界框回归损失和分类损失,上式可简单记为L=Lcls'+Lreg';Ncls表示最小批量,Nreg表示锚框定位的数量;λ为平衡参数,设置λ=10;
源域数据用于训练造成的关键程度编码器损失为:
其中,IN表示样本实例类别个数,c为样本实例类别,QS是指来自源域的查询样本集,是指数学期望;/>且/>是已知的关键程度描述,/>是一个激励参数,/>表示元素级的相乘;κ表示控制softmax波动程度的温度参数;/>为每个补丁特征向量/>与/>之间的相似性;/>为属于j类补丁的重要特征向量均值,即:
其中,
同理,目标域数据用于训练造成的关键程度编码器损失为:
综上所述,得到构成总损失函数的四个损失项Lcls'、Lreg'、和/>
基于四个损失项,构建总损失函数:
其中,W为网络权重,和/>分别表示Lcls'、Lreg'、/>和/>四个损失项,σ1、σ2、σ3和σ4是引入的正标量;
令自适应权重ψi=logσi,得到最终模型的整体损失形式:
按照实施方式一至具体实施方式六构成的技术方案进行实验,图4为发明的方法与不同的方法在不同数据集上的检测结果对比,箭头指示的是漏检和误检的情况,通过比较能够明显的看出本发明的方法的检测效果更好,具有更少的漏检。
需要注意的是,具体实施方案仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。
Claims (8)
1.一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述方法按以下步骤实现:
步骤一、以Faster R-CNN作为基础框架,以Resnet-101作为特征编码器;将两个来源不同的数据集分别作为源域数据集SD和目标域数据集T,并将目标域数据集T进一步划分为两个类别不相交的小样本目标域数据集TD和测试集Test,源域数据集SD、小样本目标域数据集TD和测试集Test包含的目标类别分别记为Cs、Ct和CT;
步骤二、利用源域数据集SD、小样本目标域数据集TD来构建用于模型学习的任务:在源域数据集SD中随机选择包含Nc个类别,每个类别采样K张图像的支持图像集ses和包含Q张图像的查询图像集qes;在小样本目标域数据集TD中随机选择包含Mc个类别,每个类别采样K张图像的支持图像集set和Q张图像的查询图像集qet;
步骤三、从支持图像集ses和set中选取一组支持图像,并从查询图像集qes和qet中选择一张查询图像,其中支持图像采用RGB的形式且额外包含一个用于表示图像中目标位置的掩码(mask)通道;
步骤四、对包含掩码通道的支持图像和查询图像利用特征编码器进行特征提取,分别得到支持特征和查询特征;
步骤五、对步骤四中得到的支持特征和查询特征,使用多层次关键特征生成器,生成语义信息不同的全局特征表示和粗关键特征图,再利用注意力机制算法抑制粗关键特征图中包含的复杂背景噪声,得到细关键特征图;之后,细关键特征图经过一个解耦模块生成多层次关键特征图;
步骤六、基于步骤五中获得的全局特征表示和多层次关键特征图,采用嵌入式空间隐式关联策略,通过在特征编码空间中利用三个特征指导来构建对新类目标的特征重用,三个特征指导分别是特征指导1(局部关键信息)、特征指导2(全局关键信息)、特征指导3(通道关键信息);
步骤七、将步骤六中经过特征指导处理后的查询特征,输入到采用了实例嵌入的预测头;先使用RPN得到潜在的兴趣区域,之后对兴趣区域采用注意力机制算法清除不相关的特征信息,并与原始兴趣区域特征进行像素级融合得到ROI*;对ROI*以平行的方式添加一个自适应强化网络来进一步提高模型对样本数量稀少的新类目标的弱分类能力;
步骤八、提出损失函数与自适应重加权策略,将关键程度编码器损失与Faster R-CNN的损失函数形式相结合,组建最终包含四个损失项的损失函数,以用于小样本跨域目标检测模型的训练;在源域数据集和小样本目标域数据集的基类上进行训练,当模型的验证损失不再降低的时候停止训练,并保留性能最佳的基类模型权重;
步骤九、将步骤八获得的基类模型在源域和目标域中的新类数据上进行微调,当模型的验证损失不再降低的时候停止微调,得到最终的小样本跨域目标检测模型;
步骤十、将步骤九得到的小样本跨域目标检测模型在测试集Test上进行评估,获取检测结果。
2.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤三的过程如下:
步骤三A、将支持图像中标注的目标边界框转化为二值掩码(mask),与前景目标相关的边界框的内部区域像素点赋值为1,其他各像素点赋值为0;如果一张图像中包含多个属于采样类别的目标,即都属于基类目标,则只随机选取其中的一个作为有效目标;
步骤三B、在支持图像的RGB三通道之后拼接步骤三A中的位置信息mask图,形成四通道的支持图像。
3.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤五中解耦模块的具体过程如下:
步骤五A、对细关键特征图,采用一个大小为1×1、卷积核数为C的卷积层,并用Leakyrelu激活函数进行处理,输出大小为H×W×C的特征图,H、W和C分别表示高度、宽度和通道数;
步骤五B、基于步骤五A中得到的大小为H×W×C的特征图,分别采用两个大小为3×3、卷积核数为C/3的卷积计算来建立两个平行分支,并在第二个分支上再次分别采用一个大小为3×3、卷积核数为C/3和两个大小为3×3、卷积核数为C/3的卷积计算来建立两个并行分支,最终在三个分支的输出端处获得三个含有不同抽象信息的特征图,大小分别为
步骤五C、将步骤五B中产生的三个特征图在通道维度上进行拼接得到最终的多尺度关键特征图,大小为WD×HD×C。
4.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤六中的嵌入式空间隐式关联策略的具体过程如下:
步骤六A、一方面,以多尺度关键特征图作为关键程度编码器的输入F,采用一个大小为3×3、卷积核数为512的卷积层得到相关的关键程度描述W3×3表示对应卷积层的权重;
步骤六B、另一方面,将多尺度关键特征图F转化为一组特征补丁n为特征补丁的个数;并将ses和set中所有属于ci类的样本编码特征向量的平均值作为ci类目标的公共向量表示/>
步骤六C、将ci类目标的公共向量表示和输入F的补丁特征向量/>都采用L2归一化,归一化后的输出分别记为/>和/>并通过固定/>和/>的大小为1,实现特征向量在单位高维超球面上的映射;
步骤六D、计算每个归一化后的补丁特征向量与/>之间的余弦相似性,得到每个补丁在类别上的从属关系,保留距离阈值内相关性较高的向量,剔除无关和错误的关键补丁(mask处理),进而获得对输入F来说重要的补丁特征向量集合/>称/>为关键重要程度描述;
步骤六E、基于步骤六D得到的关键重要程度描述根据补丁的编号以内积的方式步骤六A获得的关键程度描述/>添加到补丁上得到输出/>再采用softmax归一化得到局部关键信息特征指导1;
步骤六F、基于由支持特征和查询特征分别产生的多层次关键特征图,将二者相乘获得全局关键信息特征指导2;
步骤六G、将步骤六B获得的一组特征补丁随机打乱(Randomshuffle)并展开后,再随机掩码10%,经特征映射函数gθ得到通道关键信息细化特征指导3,gθ是一个全连接层;
步骤六H、将步骤五中由支持特征生成的全局特征表示与特征指导1、特征指导2相乘后,与查询特征生成的全局特征表示在通道维度上进行拼接;将特征指导3以内积的方式与拼接后的特征图进行特征融合,输出的特征图作为RPN的输入。
5.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤七中的自适应强化网络的具体过程如下:
步骤七A、将输入的ROI*按网格划分为m×n个特征补丁,计算新类目标的特征补丁向量与公共向量表示的余弦相似度;
步骤七B、若步骤七A中的余弦相似度高于设定的阈值参数θ,则将该向量输入到一个具有softmax算法的分类器,用于生成校正系数;
步骤七C、使用生成的校正系数对经过ROIAlign操作的分类预测端进行像素级融合。
6.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤八中构成总损失函数的四个损失项细节如下:
模型输出端处有关边界框回归和分类的损失函数形式与Faster R-CNN相似,如下所示:
其中pi为锚点框被预测为目标的概率,ti={tx,ty,tw,th}是表示锚点框的向量,(tx,ty)表示锚点框的中心点坐标,(tw,th)表示锚点框的宽度和高度,/>表示锚点框相对于groundtruth(gt)的偏移量,Lreg、Lcls分别表示FasterR-CNN中的边界框回归损失和分类损失,上式可简单记为L=Lcls'+Lreg';Ncls表示最小批量,Nreg表示锚框定位的数量;λ为平衡参数,设置λ=10;
源域数据用于训练造成的关键程度编码器损失为:
其中,IN表示样本实例类别个数,c为样本实例类别,QS是指来自源域的查询样本集;且/>是已知的关键程度描述,/>是一个激励参数,/>表示元素级的相乘;κ表示控制softmax波动程度的温度参数;/>为每个补丁特征向量/>与/>之间的相似性;/>为属于j类补丁的重要特征向量均值,即:
其中,
同理,目标域数据用于训练造成的关键程度编码器损失为:
综上所述,得到构成总损失函数的四个损失项Lcls'、Lreg'、和/>
7.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤八中自适应重加权策略和总损失函数表示如下:
其中,W为网络权重,和/>分别表示Lcls'、Lreg'、/>和/>四个损失项,σ1、σ2、σ3和σ4是引入的正标量;
令自适应权重ψi=Logσi,得到最终模型的整体损失形式:
8.根据权利要求1所述一种基于深度学习的小样本跨域目标检测方法,其特征在于,所述步骤九中将基类模型在源域和目标域中的新类数据样本上进行微调时,仅微调RPN的最后一层及具有实例嵌入的预测头,在模型的验证损失不再降低的时候停止微调,得到小样本跨域目标检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626378.1A CN116824330A (zh) | 2023-05-31 | 2023-05-31 | 一种基于深度学习的小样本跨域目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626378.1A CN116824330A (zh) | 2023-05-31 | 2023-05-31 | 一种基于深度学习的小样本跨域目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824330A true CN116824330A (zh) | 2023-09-29 |
Family
ID=88119556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310626378.1A Pending CN116824330A (zh) | 2023-05-31 | 2023-05-31 | 一种基于深度学习的小样本跨域目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824330A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409206A (zh) * | 2023-12-14 | 2024-01-16 | 南京邮电大学 | 基于自适应原型聚合网络的小样本图像分割方法 |
-
2023
- 2023-05-31 CN CN202310626378.1A patent/CN116824330A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409206A (zh) * | 2023-12-14 | 2024-01-16 | 南京邮电大学 | 基于自适应原型聚合网络的小样本图像分割方法 |
CN117409206B (zh) * | 2023-12-14 | 2024-02-20 | 南京邮电大学 | 基于自适应原型聚合网络的小样本图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN110930454B (zh) | 一种基于边界框外关键点定位的六自由度位姿估计算法 | |
CN112132149B (zh) | 一种遥感影像语义分割方法及装置 | |
CN109598268A (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN112949572A (zh) | 基于Slim-YOLOv3的口罩佩戴情况检测方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
CN105528575A (zh) | 基于上下文推理的天空检测算法 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN111583276A (zh) | 基于cgan的空间目标isar图像部件分割方法 | |
CN111553227A (zh) | 基于任务指导的轻量级人脸检测方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 | |
CN112597919A (zh) | 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法 | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
CN115115863A (zh) | 水面多尺度目标检测方法、装置及系统和存储介质 | |
CN113283320B (zh) | 一种基于通道特征聚合的行人重识别方法 | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及系统 | |
CN116977859A (zh) | 基于多尺度图像切割和实例困难度的弱监督目标检测方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |