CN115100432B - 一种小样本目标检测方法、设备及计算机可读存储介质 - Google Patents

一种小样本目标检测方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115100432B
CN115100432B CN202211014861.6A CN202211014861A CN115100432B CN 115100432 B CN115100432 B CN 115100432B CN 202211014861 A CN202211014861 A CN 202211014861A CN 115100432 B CN115100432 B CN 115100432B
Authority
CN
China
Prior art keywords
image
template
feature
target
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211014861.6A
Other languages
English (en)
Other versions
CN115100432A (zh
Inventor
熊涛
魏乃科
潘华东
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202211014861.6A priority Critical patent/CN115100432B/zh
Publication of CN115100432A publication Critical patent/CN115100432A/zh
Application granted granted Critical
Publication of CN115100432B publication Critical patent/CN115100432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种小样本目标检测方法、设备及计算机可读存储介质,该小样本目标检测方法包括:基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征;基于注意力机制对第一图像特征和第一模板特征进行特征比对,以获得待检测图像中待检测目标的检测结果。通过上述方式,本发明能够提高小样本目标检测的准确性。

Description

一种小样本目标检测方法、设备及计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种小样本目标检测方法、设备及计算机可读存储介质。
背景技术
目标检测作为计算机视觉四大基础任务之一,是实例分割、目标跟踪等任务的基础,在最近这些年里受到了极大的关注。近年来,随着深度学习的高速发展,基于深度学习的目标检测算法成为了主流,主要分为“一阶段目标检测”、“两阶段目标检测”这两大类,主要包括:RCNN系列、Yolo系列等。
在数据集充足的情况下,待检测的目标在训练集中存在大量的训练数据,使得现有的目标检测方法能达到很不错的性能,而对于训练集中未见过的目标类型,使用现有的目标检测方法检测时准确率低下。
发明内容
本发明主要解决的技术问题是提供一种小样本目标检测方法、设备及计算机可读存储介质,能够提高小样本目标检测的准确性。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种小样本目标检测方法,该小样本目标检测方法包括:基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征;基于注意力机制对第一图像特征和第一模板特征进行特征比对,以获得待检测图像中待检测目标的检测结果。
其中,基于自注意力机制对包含待检测目标的目标模板进行特征提起以获得第一模板特征包括:对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征;基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征;对多个第二局部模板特征进行融合以获得第一模板特征;和/或,基于自注意力机制对待检测图像进行特征提取以获得第一图像特征包括:对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征;基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征;对多个第二局部图像特征进行融合以获得第一图像特征。
其中,对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征包括:对目标模板进行特征提取以获得初始模板特征;对初始模板特征进行不同尺寸的分块操作以获得对应尺寸的第一局部模板特征;和/或,对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征包括:对待检测图像进行特征提取以获得初始图像特征;对初始图像特征进行不同尺寸的分块操作以获得对应尺寸的第一局部图像特征。
其中,基于注意力机制对第一图像特征和第一模板特征进行特征比对包括:对第一图像特征和第一模板特征进行序列重构以获得重构特征;利用自注意力机制对重构特征进行处理,以获得待检测图像中待检测目标的检测结果。
其中,对第一图像特征和第一模板特征进行序列重构以获得重构特征包括:将第一图像特征和第一模板特征进行维度转换;将维度转换后的第一图像特征和第一模板特征序列重构为一组特征,得到重构特征。
其中,目标检测模型包括特征提取模块和第一注意力模块,特征提取模块用于基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征;第一注意力模块用于基于注意力机制对第一图像特征和第一模板特征进行特征比对,以获得待检测图像中待检测目标的检测结果。
其中,特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路,卷积神经网络用于对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征,对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征;特征提取支路包括第二注意力编码网络,第二注意力编码网络用于基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征,和/或基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。
其中,训练目标检测模型包括:构建训练数据集,训练数据集包括样本图像和包含样本目标的目标模板,其中,目标模板中不包含待检测目标;将目标模板和样本图像输入至目标检测初始模型以获得样本目标检测结果;基于样本目标检测结果和目标模板获得分类损失和回归损失;基于分类损失和回归损失调整目标检测初始模型的参数,以得到目标检测模型。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器,处理器用于执行以实现上述的小样本目标检测方法。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种计算机可读存储介质,计算机可读存储介质用于存储指令/程序数据,指令/程序数据能够被执行以实现上述的小样本目标检测方法。
本发明的有益效果是:区别于现有技术的情况,本发明通过利用两次注意力机制对目标模板和待检测图像进行处理,第一次单独对目标模板和待检测图像自身进行特征提取,学习自身各区域特征之间的以来关系,之后再一次结合目标模板和待检测图像,再一次进行两个图像之间的特征比对找到目标所在位置,能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性,提升了特征的表达能力和鲁棒性,共同作用提升目标检测性能,在目标模板仅有一个的情况下,仍然可以提高目标检测的准确性。
附图说明
图1是本申请小样本目标检测方法一实施方式的流程示意图;
图2是本申请小样本目标检测方法另一实施方式的流程示意图;
图3是本申请小样本目标检测模型训练方法一具体实施方式中的流程示意图;
图4是本申请目标检测初始模型的流程示意图;
图5是本申请实施方式中电子设备的结构示意图;
图6是本申请实施方式中计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。
对于目标检测模型而言,训练时需要使用大量的训练数据,而当需要检测的目标为小样本目标时,目标检测模型容易失效,因此,本申请提供一种小样本目标检测方法,用于检测样本数量较少的目标。首先,本申请使用的目标检测模型包括特征提取模块和第一注意力模块,特征提取模块用于基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征,第一注意力模块用于基于注意力机制对第一图像特征和第一模板特征进行特征比对,以获得待检测图像中待检测目标的检测结果。
具体地,请参阅图1,图1是本申请小样本目标检测方法一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施方式包括:
S110:基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征。
获取待检测图像,确定待检测目标,取一张或几张包含待检测目标的目标模板,在该实施方式中,目标模板的样本数量较少,一般为训练集中没有的样本。利用特征提取模块分别对目标模板和待检测图像进行特征提取,具体地,利用自注意力机制对目标模板进行特征提取,其中,注意力机制(Attention)可以理解为权重,是从大量信息中筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不中要的信息,而自注意力机制(Self-Attention)是注意力机制的变体,每个信息都要和其他信息进行权重计算,编码某个信息的时候,要考虑其他所有信息的影响,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。本申请利用自注意力机制学习目标模板中不同局部区域之间的依赖关系,进行特征增强提取,得到第一模板特征,同样地,利用自注意力机制对待检测图像进行特征提取,学习目标模板中不同局部区域之间的依赖关系,进行特征增强提取,得到第一图像特征。
S130:基于注意力机制对第一图像特征和第一模板特征进行特征比对,以获得待检测图像中待检测目标的检测结果。
在分别提取了目标模板和待检测图像自身各个子区域之间的相似性特征之后,考虑目标模板和待检测图像之间的相关性,在第一注意力模块中,基于注意力机制对第一图像特征和第一模板特征进行特征比对,学习第一图像特征与第一图像特征之间、第一模板特征和第一模板特征之间、第一图像特征和第一模板特征之间的相似性特征,以根据相似性比对得到待检测图像中待检测目标的检测结果。
该实施方式中,通过利用两次注意力机制对目标模板和待检测图像进行处理,第一次单独对目标模板和待检测图像自身进行特征提取,学习自身各区域特征之间的以来关系,之后再一次结合目标模板和待检测图像,再一次进行两个图像之间的特征比对找到目标所在位置,能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性,提升了特征的表达能力和鲁棒性,共同作用提升目标检测性能,在目标模板仅有一个的情况下,仍然可以提高目标检测的准确性,从而支持任意目标的检测,而无需再大量地采集待检测目标的训练数据,大大地节省数据采集、数据标注、数据存储、模型维护成本。
在另一实施方式中,特征提取模块进行了多次特征提取,特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路,卷积神经网络用于对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征,对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征;特征提取支路包括第二注意力编码网络,第二注意力编码网络用于基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征,和/或基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。
具体地,请参阅图2,图2是本申请小样本目标检测方法另一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施方式包括:
S210:对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征;对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征。
首先对目标模板进行特征提取以获得初始模板特征;对待检测图像进行特征提取以获得初始图像特征,在该实施方式中,可以使用并行的两个卷积神经网络分别对目标模板和待检测图像进行特征提取,也可以使用参数共享的卷积神经网络依次对目标模板和待检测图像进行特征提取,得到初始模板特征和初始图像特征。为方便后续使用自注意力机制对特征进一步提取,分别将初始模板特征和初始图像特征分块,根据特征像的宽高将图像特征分为多个大小相同的2D块。
在一实施方式中,以固定尺寸将初始模板特征和初始图像特征分块,得到固定尺寸的第一局部模板特征和固定尺寸的第一局部图像特征。
在另一实施方式中,设定多种分块尺寸,分别将初始模板特征和初始图像特征进行多组分块,每组分块尺寸相同,得到对应尺寸的第一局部模板特征和对应尺寸的第一局部图像特征。其中,初始模板特征和初始图像特征的分块尺寸标准可以不同。因需要检测目标尺度不固定,增加不同尺寸局部特征的2D块,很大程度上解决多尺度目标检测的难点。
S230:基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征;基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。
当步骤S210只进行一种尺寸的分块时,一个特征提取支路的第二注意力编码网络对一个第一局部模板特征进行特征编码,以学习不同特征块之间的相似性,得到一个第二局部模板特征。同样地,另一个特征提取支路的第二注意力编码网络对一个第一局部图像特征进行特征编码,以学习不同特征块之间的相似性,得到一个第二局部图像特征。
当步骤S210进行了多种尺寸的分块时,一个特征提取支路的第二注意力编码网络分别对多个第一局部模板特征进行特征编码,分别学习相同尺寸的特征块之间的相似性,得到多个第二局部模板特征。同样地,另一个特征提取支路的第二注意力编码网络对多个第一局部图像特征进行特征编码,分别学习相同尺寸的特征块之间的相似性,得到多个第二局部图像特征。
同样地,若初始模板特征和初始图像特征的分块尺寸标准不同,则利用上述方法进行各自的特征编码。
S250:对多个第二局部模板特征进行融合以获得第一模板特征;对多个第二局部图像特征进行融合以获得第一图像特征。
若步骤S230获取得到一个第二局部模板特征,则直接将第二局部模板特征作为第一模板特征,若步骤S230获取得到一个第二局部图像特征,则直接将第二局部图像特征作为第一图像特征。
若步骤S230获取得到多个第二局部模板特征,和/或多个第二局部图像特征,则将多个第二局部模板特征进行融合,和/或将多个第二局部图像特征进行融合。以将多个第二局部模板特征进行融合为例进行说明,因分块尺寸不同,得到的多个第二局部模板特征的维度也不同,因此,首先将多个第二局部模板特征的维度转换为相同维度,再将多个相同维度的第二局部模板特征相加,得到第一模板特征。利用同样的方法融合多个第二局部图像特征,在此不再赘述。第二局部模板特征和第二局部图像特征均融合了不同的尺度信息,并且通过维度变换使得维度一致,从而为后续重构做好预处理。
S270:对第一图像特征和第一模板特征进行序列重构以获得重构特征。
将第一图像特征和第一模板特征进行维度转换,并将维度转换后的第一图像特征和第一模板特征序列重构为一组特征,得到重构特征。其中,在此不具体限定维度转化的最终结果,只要使得维度转换后的第一图像特征和第一模板特征可以进行重构拼接的维度即可。
S290:利用自注意力机制对重构特征进行处理,以获得待检测图像中待检测目标的检测结果。
在上述步骤中分别提取了目标模板和待检测图像自身各个子区域之间的相似性特征之后,此步骤考虑目标模板和待检测图像之间的相关性,在步骤S270中,将第一图像特征和第一模板特征合并为同一个特征,因此在第一注意力模块中,基于自注意力机制对第一图像特征和第一模板特征进行特征比对,学习第一图像特征与第一图像特征之间、第一模板特征和第一模板特征之间、第一图像特征和第一模板特征之间的相似性特征,以根据相似性得到待检测图像中待检测目标的检测结果。根据上述步骤对两个特征进行重构,使得可以使用自注意力机制学习两个特征之间的相似性。
该实施方式中,通过利用两次注意力机制对目标模板和待检测图像进行处理,分别考虑目标模板和待检测图像自身各区域特征之间的依赖关系,以及目标模板和待检测图像之间的相似性,能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性,提升了特征的表达能力和鲁棒性。在目标模板仅有一个的情况下,仍然可以提高目标检测的准确性。同时,在特征提取时对特征图进行分块处理,考虑不同尺寸特征,提高多尺度目标检测的准确性,共同作用提升目标检测性能。从而支持任意目标的检测,而无需再大量地采集待检测目标的训练数据,大大地节省数据采集、数据标注、数据存储、模型维护成本。
在进行上述小样本目标检测之前,需要先对目标检测模型进行训练,请参阅图3,图3是本申请小样本目标检测模型训练方法一具体实施方式中的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图3所示的流程顺序为限。如图3所示,本实施方式包括:
S310:构建数据集。
分别构建包含大量标签的数据集Base dataset和包含少量标签的数据集Noveldataset。包含大量标签的数据集用于进行模型训练,包含少量标签的数据集用于模型性能检测。
包含大量标签的数据集Base dataset可以从公开的数据集、现有历史已标注数据集上获得,并且这些数据可以是目标检测领域,也可以是目标跟踪领域。例如:COCO、YOUTUBEBB、GOT数据集等。
包含少量标签的数据集Novel dataset包括的目标类型是包含大量标签的数据集Base dataset中未见过的新类别。
S330:构建小样本目标检测初始模型。
首先构建目标检测初始模型,目标检测初始模型包括特征提取模块和第一注意力模块。其中,特征提取模块为卷积神经网络。请参阅图4,图4是本申请目标检测初始模型的流程示意图。
S350:利用包含大量标签的数据集对小样本目标检测初始模型进行训练。
获取有标签的样本图像和样本图像中标记的目标模板,训练时,会根据已有标签,构造“目标模板”以及“样本图像”:对于COCO等静态数据来说,标注框作为“目标模板”,对应的整张图像作为“样本图像”;对于GOT等跟踪数据来说,某一帧的标注框作为“目标模板”,而其他任意一帧作为“样本图像”。
将目标模板和样本图像输入至目标检测初始模型以获得样本目标检测结果。
具体地,将目标模板和样本图像分别输入小样本目标检测初始模型的主干网络中,其中,目标模板和样本图像均为三通道图像,目标模板的维度为3×W1×H1,样本图像的维度为3×W2×H2,在本申请的实施方式中,主干网络使用的是卷积神经网络。利用参数共享的卷积神经网络分别对目标模板和样本图像进行特征提取,对目标模板进行特征提取得到维度为d×WT×HT的初始模板特征,对样本图像进行特征提取得到维度为d×WS×HS的初始图像特征。
进一步地,分别对初始模板特征和初始图像特征进行分块处理,当对初始模板特征进行块尺寸为Pt的分块处理时,将维度为d×WT×HT的初始模板特征分成一系列展平的2D块,每个2D块的维度为d×Pt×Pt,该序列一共有Nt个展平的2D块,其中,Nt=(WT×HT)/Pt 2,得到维度为xpt∈Nt×(Pt 2×d)的转换结果。在该实施方式中,分别对初始模板特征和初始图像特征进行三种不同尺度的分块处理。具体地,以尺寸P为基准,分别进行块尺寸为P/2、P、2P的分块操作。对初始模板特征进行块尺寸为P/2的分块操作,得到维度为xpt/2∈Nt×(0.25Pt 2×d)的第一局部模板特征T1,对模板特征进行块尺寸为P的分块操作,得到维度为xpt∈Nt×(Pt 2×d)的第一局部模板特征T2,对模板特征进行块尺寸为2P的分块操作,得到维度为x2pt∈Nt×(4Pt 2×d)的第一局部模板特征T3。同样地,对初始图像特征进行块尺寸为P/2的分块操作,得到维度为xps/2∈Ns×(0.25Ps2×d)的第一局部图像特征S1,对初始图像特征进行块尺寸为P的分块操作,得到维度为xps∈Ns×(Ps 2×d)的第一局部图像特征S2,对初始图像特征进行块尺寸为2P的分块操作,得到维度为x2ps∈Ns×(4Ps 2×d)的第一局部图像特征S3
利用Transformer编码器分别对初始模板特征分块得到的三个第一局部模板特征进行处理,Transformer编码器主要利用注意力机制计算不同块之间的相似性。以下以维度为xpt∈Nt×(Pt 2×d)的第一局部模板特征T2为例对Transformer编码器的计算过程进行说明。首先,利用sin-cos规则获取T2的位置编码向量,计算方式如下:
Figure 190209DEST_PATH_IMAGE001
然后,将T2于位置编码向量相加,得到自注意力层的输入向量T2+PE,继续定义三个可学习矩阵Wq、Wk、Wv,将T2+PE分别与三个可学习矩阵Wq、Wk、Wv相乘,得到Q2、K2、V2,计算方法如下:
Figure 538013DEST_PATH_IMAGE002
其中,Q2、K2、V2与输入的T2的维度相同。将Q2和K2的转置进行点乘计算T2各特征之间的相似性,并利用softmax转换为概率分布,编码得到了T2中不同2D块之间的依赖关系,然后将概率分布和V2进行加权求和即可以得到自注意力层的输出Z2,具体计算方式如下:
Figure 743867DEST_PATH_IMAGE003
然后,将Z2输入到前馈神经网络中得到Transformer编码器的最终输出结果,维度为Nt×(Pt 2×d)的第二局部模板特征Yt2,具体计算方式如下:
Figure 860727DEST_PATH_IMAGE004
其中,Yt2与T2的维度相同,即Nt×(Pt 2×d)。该编码结果中每个位置(1~N)的特征都包含了其它位置特征对它的响应值,通过Transformer编码器中的自注意力机制,使得特征编码结果充分利用了不同局部区域之间的响应值/依赖关系/相似性,使得该编码特征更加鲁棒,更有利于目标检测。
利用上述方法,计算得到T1对应有维度为xpt/2∈Nt×(0.25Pt 2×d)的第二局部模板特征Yt1,T3对应有维度为x2pt∈Nt×(4Pt 2×d)的第二局部模板特征Yt3分别为:
Figure 759413DEST_PATH_IMAGE005
同上,利用Transformer编码器分别对三个第一局部图像特征进行处理,得到维度为xps/2∈Ns×(0.25Ps2×d)的第二局部图像特征Ys1,维度为xps∈Ns×(Ps2×d)第二局部图像特征Ts2和维度为x2pt∈Ns×(4Ps2×d)第二局部图像特征Ys3
进一步地,分别对上述得到的三个第二局部模板特征和三个第二局部图像特征进行特征融合。因Yt1、Yt2和Yt3的维度不同,则将其维度均转换为Nt×(Pt 2×d),将维度调整后的Yt1、Yt2和Yt3相加,得到第一模板特征,维度依然为Nt×(Pt 2×d)。同样地,将Ys1,Ts2和Ys3的维度均转换为Ns×(Ps2×d),将维度调整后的Ys1,Ts2和Ys3相加,得到第一图像特征,维度依然为Ns×(Ps 2×d)。
进一步地,对第一模板特征和第一图像特征进行维度变换,使得两者可以进行序列重构,首先对第一模板特征先进行维度增加,具体地,利用unsqueeze(0)函数增加维度,将第一模板特征的维度由Nt×(Pt 2×d)转换为1×(Nt×(Pt 2×d)),再进行降维操作,将维度转换为1×dnew,得到Ft,即转换后的第一模板特征为一维特征。对应地,对第一图像特征进行降维操作,将维度由Ns×(Ps 2×d)转换为Ns×dnew,得到Fs
将上述方法得到的Ft和Fs进行特征序列重构,得到重构特征S,该特征序列的长度为Ns+1,每个特征元素的维度为dnew,重构特征S的维度为(Ns+1)×dnew。此时,重构特征S中包含有目标模板和样本图像的数据特征。
利用Transformer编码器对重构特征S进行处理,计算目标模板与样本图像各区域块之间响应值。具体的计算方式与上述Transformer编码器相同,在此不再赘述。将Transformer编码器输出的结果进行分类Head和回归Head,得到检测框的目标类别和置信度以及检测框的坐标信息,由此得到最终的目标检测结果。其中,分类Head和回归Head均为“卷积+BN+ReLU激活+卷积”的组合操作。由此,该目标检测初始模型的第一次迭代结束。
基于样本目标检测结果和目标模板获得分类损失和回归损失。
具体地,利用目标检测结果以及目标模板对目标检测初始模型的参数进行调整。具体地,本申请的实施方式中,损失函数包括分类loss(losloss)以及回归loss(regloss)。losloss采用二分类交叉熵损失(softmax loss),而regloss采用smooth L1损失等,对losloss和regloss分别配以可学习权重系数α,β,然后进行加权求和得到最终训练的损失totallos,其计算公式为:
Figure 594514DEST_PATH_IMAGE007
之后基于上述损失函数,进行反向传播更新模型参数,最终得到训练好的目标检测初始模型。
S370:利用包含少量标签的数据集对训练之后的目标检测初始模型进行性能检测。
Novel dataset上只包含很少标签的待检测的数据,该数据包含的目标类型是训练集中未见过的新类别。是利用Novel dataset中仅有的少量标签,去检测Novel dataset中的新目标类型。例如,当前需要检测目标A,但训练集Base dataset中不包含目标A,提供一张或几张目标A的图片作为目标模板,同时将需要检测图像作为样本图像,将目标模板和样本图像输入训练好的小样本目标检测初始模型中,输出对应目标A视为检测框和置信度。利用非极大值抑制操作得到最终的待检测目标检测结果。
在该具体实施方式中,训练一种通用的目标检测模型,在包含大量标签的数据集Base dataset上进行训练后,只需输入目标模板、待检测图像即可完成目标的检测,即使该目标模板的目标类型在训练集中从未出现过。在进行初步特征提取之后,进行分块操作,以尺寸P为基准,分别进行块尺寸为P/2、P、2P的分块操作,从而得到了具有不同尺寸局部特征的2D块,很大程度上解决多尺度目标检测的难点。通过对分块后的特征进行融合,第二局部模板特征和第二局部图像特征均融合了不同的尺度信息,并且通过维度变换使得维度一致,从而为后续重构做好预处理。最终对重构特征使用的自注意力机制获取了目标模板与目标模板之间、待检测图像与待检测图像之间、目标模板与待检测图像之间的相似性,使得最后输出的回归检测框和分类置信度更加具有泛化性和鲁棒性,这样大大提升检测性能。从而支持任意目标的检测,而无需再大量地采集待检测目标的训练数据,大大地节省数据采集、数据标注、数据存储、模型维护成本。
请参阅图5,图5是本申请实施方式中电子设备的结构示意图。该实施方式中,电子设备51包括处理器52。
处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器52也可以是任何常规的处理器等。
电子设备51可以进一步包括存储器(图中未示出),用于存储处理器52运行所需的指令和数据。
处理器52用于执行指令以实现上述本申请小样本目标检测方法任一实施例及任意不冲突的组合所提供的方法。
请参阅图6,图6是本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质61存储有指令/程序数据62,该指令/程序数据62被执行时实现本申请小样本目标检测方法任一实施例以及任意不冲突的组合所提供的方法。其中,该指令/程序数据62可以形成程序文件以软件产品的形式存储在上述存储介质61中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质61包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种小样本目标检测方法,其特征在于,所述方法包括:
基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征,以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征;
基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对,以获得所述待检测图像中所述待检测目标的检测结果;
其中,基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征包括:对所述包含待检测目标的目标模板进行特征提取以获得初始模板特征;对所述初始模板特征进行不同尺寸的分块操作以获得对应尺寸的多个第一局部模板特征;基于自注意力机制对多个所述第一局部模板特征进行特征编码以获得多个第二局部模板特征;对多个所述第二局部模板特征进行融合以获得所述第一模板特征;和/或
所述基于自注意力机制对待检测图像进行特征提取以获得第一图像特征包括:对所述待检测图像进行特征提取以获得初始图像特征;对所述初始图像特征进行不同尺寸的分块操作以获得对应尺寸的多个第一局部图像特征;基于自注意力机制对多个所述第一局部图像特征进行特征编码以获得多个第二局部图像特征;对多个所述第二局部图像特征进行融合以获得所述第一图像特征。
2.根据权利要求1所述的小样本目标检测方法,其特征在于,所述基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对包括:
对所述第一图像特征和所述第一模板特征进行序列重构以获得重构特征;
利用自注意力机制对所述重构特征进行处理,以获得所述待检测图像中所述待检测目标的检测结果。
3.根据权利要求2所述的小样本目标检测方法,其特征在于,所述对所述第一图像特征和所述第一模板特征进行序列重构以获得重构特征包括:
将所述第一图像特征和所述第一模板特征进行维度转换;
将维度转换后的所述第一图像特征和所述第一模板特征序列重构为一组特征,得到重构特征。
4.根据权利要求1所述的小样本目标检测方法,其特征在于,
目标检测模型包括特征提取模块和第一注意力模块,所述特征提取模块用于基于自注意力机制对所述包含待检测目标的目标模板进行特征提取以获得所述第一模板特征,以及基于自注意力机制对所述待检测图像进行特征提取以获得所述第一图像特征;
所述第一注意力模块用于基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对,以获得所述待检测图像中所述待检测目标的检测结果。
5.根据权利要求4所述的小样本目标检测方法,其特征在于,
所述特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路,所述卷积神经网络用于对所述目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征,对所述待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征;
所述特征提取支路包括第二注意力编码网络,所述第二注意力编码网络用于基于自注意力机制对多个所述第一局部模板特征进行特征编码以获得多个第二局部模板特征,和/或基于自注意力机制对多个所述第一局部图像特征进行特征编码以获得多个第二局部图像特征。
6.根据权利要求4所述的小样本目标检测方法,其特征在于,训练所述目标检测模型包括:
构建训练数据集,所述训练数据集包括样本图像和包含样本目标的目标模板;
将所述目标模板和所述样本图像输入至目标检测初始模型以获得样本目标检测结果;
基于所述样本目标检测结果和所述目标模板获得分类损失和回归损失;
基于所述分类损失和所述回归损失调整所述目标检测初始模型的参数,以得到所述目标检测模型。
7.一种电子设备,其特征在于,包括处理器,所述处理器用于执行指令以实现如权利要求1-6任一项所述的小样本目标检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令/程序数据,所述指令/程序数据能够被执行以实现如权利要求1-6任一项所述的小样本目标检测方法。
CN202211014861.6A 2022-08-23 2022-08-23 一种小样本目标检测方法、设备及计算机可读存储介质 Active CN115100432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211014861.6A CN115100432B (zh) 2022-08-23 2022-08-23 一种小样本目标检测方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014861.6A CN115100432B (zh) 2022-08-23 2022-08-23 一种小样本目标检测方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115100432A CN115100432A (zh) 2022-09-23
CN115100432B true CN115100432B (zh) 2022-11-18

Family

ID=83300834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014861.6A Active CN115100432B (zh) 2022-08-23 2022-08-23 一种小样本目标检测方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115100432B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110232122A (zh) * 2019-05-15 2019-09-13 上海海事大学 一种基于文本纠错与神经网络的中文问句分类方法
CN111104898A (zh) * 2019-12-18 2020-05-05 武汉大学 基于目标语义和注意力机制的图像场景分类方法及装置
US10749883B1 (en) * 2017-05-02 2020-08-18 Hrl Laboratories, Llc Automatic anomaly detector
CN111861910A (zh) * 2020-06-29 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种ct图像降噪系统及方法
CN112528928A (zh) * 2020-12-22 2021-03-19 燕山大学 一种基于自注意力深度网络的商品识别方法
CN112818903A (zh) * 2020-12-10 2021-05-18 北京航空航天大学 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法
CN113392855A (zh) * 2021-07-12 2021-09-14 昆明理工大学 一种基于注意力和对比学习的小样本目标检测方法
CN113408549A (zh) * 2021-07-14 2021-09-17 西安电子科技大学 基于模板匹配和注意力机制的少样本弱小目标检测方法
CN113610026A (zh) * 2021-08-13 2021-11-05 广联达科技股份有限公司 基于掩膜注意力的行人重识别方法及重识别装置
CN113657517A (zh) * 2021-08-21 2021-11-16 浙江捷瑞电力科技有限公司 一种基于注意力机制和度量学习少样本电力缺陷检测方法
CN113723558A (zh) * 2021-09-08 2021-11-30 北京航空航天大学 基于注意力机制的遥感图像小样本舰船检测方法
CN113780345A (zh) * 2021-08-06 2021-12-10 华中科技大学 面向中小企业的基于张量注意力的小样本分类方法和系统
CN113869418A (zh) * 2021-09-29 2021-12-31 哈尔滨工程大学 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN114092742A (zh) * 2021-11-19 2022-02-25 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114529765A (zh) * 2022-02-16 2022-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质
CN114708297A (zh) * 2022-02-17 2022-07-05 北京深睿博联科技有限责任公司 一种视频目标跟踪方法及装置
CN114792385A (zh) * 2022-05-17 2022-07-26 重庆理工大学 一种金字塔分离双注意力的少样本细粒度图像分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7067808B2 (en) * 2003-10-14 2006-06-27 Topcon Corporation Electron beam system and electron beam measuring and observing method
US10491895B2 (en) * 2016-05-23 2019-11-26 Intel Corporation Fast and robust human skin tone region detection for improved video coding
CA3046937A1 (en) * 2016-12-14 2018-06-21 Inner Cosmos Llc Brain computer interface systems and methods of use thereof
US11694301B2 (en) * 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10749883B1 (en) * 2017-05-02 2020-08-18 Hrl Laboratories, Llc Automatic anomaly detector
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110232122A (zh) * 2019-05-15 2019-09-13 上海海事大学 一种基于文本纠错与神经网络的中文问句分类方法
CN111104898A (zh) * 2019-12-18 2020-05-05 武汉大学 基于目标语义和注意力机制的图像场景分类方法及装置
CN111861910A (zh) * 2020-06-29 2020-10-30 深圳高性能医疗器械国家研究院有限公司 一种ct图像降噪系统及方法
CN112818903A (zh) * 2020-12-10 2021-05-18 北京航空航天大学 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN112528928A (zh) * 2020-12-22 2021-03-19 燕山大学 一种基于自注意力深度网络的商品识别方法
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法
CN113392855A (zh) * 2021-07-12 2021-09-14 昆明理工大学 一种基于注意力和对比学习的小样本目标检测方法
CN113408549A (zh) * 2021-07-14 2021-09-17 西安电子科技大学 基于模板匹配和注意力机制的少样本弱小目标检测方法
CN113780345A (zh) * 2021-08-06 2021-12-10 华中科技大学 面向中小企业的基于张量注意力的小样本分类方法和系统
CN113610026A (zh) * 2021-08-13 2021-11-05 广联达科技股份有限公司 基于掩膜注意力的行人重识别方法及重识别装置
CN113657517A (zh) * 2021-08-21 2021-11-16 浙江捷瑞电力科技有限公司 一种基于注意力机制和度量学习少样本电力缺陷检测方法
CN113723558A (zh) * 2021-09-08 2021-11-30 北京航空航天大学 基于注意力机制的遥感图像小样本舰船检测方法
CN113869418A (zh) * 2021-09-29 2021-12-31 哈尔滨工程大学 一种基于全局注意力关系网络的小样本船舶目标识别方法
CN114092742A (zh) * 2021-11-19 2022-02-25 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN114529765A (zh) * 2022-02-16 2022-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质
CN114708297A (zh) * 2022-02-17 2022-07-05 北京深睿博联科技有限责任公司 一种视频目标跟踪方法及装置
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114792385A (zh) * 2022-05-17 2022-07-26 重庆理工大学 一种金字塔分离双注意力的少样本细粒度图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sarcasm Detection with Self-matching Networks and Low-rank Bilinear Pooling;Tao Xiong 等;《Proceedings of the 2019 World Wide Web Conference》;20191231;第2115-2124页 *
基于小样本学习的X光图像违禁物品检测研究;邢琛聪;《中国优秀硕士学位论文全文数据库 基础科技辑》;20220415;第2022年卷(第4期);第A005-138页 *

Also Published As

Publication number Publication date
CN115100432A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
US9792492B2 (en) Extracting gradient features from neural networks
US10354199B2 (en) Transductive adaptation of classifiers without source data
CN111191526B (zh) 行人属性识别网络训练方法、系统、介质及终端
Ye et al. Real-time no-reference image quality assessment based on filter learning
NT et al. Learning graph neural networks with noisy labels
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
US20110293173A1 (en) Object Detection Using Combinations of Relational Features in Images
Wang et al. Person re-identification in identity regression space
Hu et al. Bin ratio-based histogram distances and their application to image classification
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114783069B (zh) 基于步态识别对象的方法、装置、终端设备及存储介质
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN115937655A (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
Zou et al. Image classification model based on deep learning in internet of things
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN115775350A (zh) 一种图像增强方法和装置、计算设备
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
Yang et al. Robust corrupted data recovery and clustering via generalized transformed tensor low-rank representation
EP3166022A1 (en) Method and apparatus for image search using sparsifying analysis operators
Kumar et al. Efficient deep feature based semantic image retrieval
Phillips et al. Class embodiment autoencoder (CEAE) for classifying the botanical origins of honey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant