CN112560876A - 解耦度量的单阶段小样本目标检测方法 - Google Patents

解耦度量的单阶段小样本目标检测方法 Download PDF

Info

Publication number
CN112560876A
CN112560876A CN202110199642.9A CN202110199642A CN112560876A CN 112560876 A CN112560876 A CN 112560876A CN 202110199642 A CN202110199642 A CN 202110199642A CN 112560876 A CN112560876 A CN 112560876A
Authority
CN
China
Prior art keywords
regression
loss
decoupling
feature
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110199642.9A
Other languages
English (en)
Other versions
CN112560876B (zh
Inventor
吴正兴
喻俊志
鲁岳
陈星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110199642.9A priority Critical patent/CN112560876B/zh
Publication of CN112560876A publication Critical patent/CN112560876A/zh
Application granted granted Critical
Publication of CN112560876B publication Critical patent/CN112560876B/zh
Priority to US17/373,831 priority patent/US11205098B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,具体涉及一种解耦度量的单阶段小样本目标检测方法,旨在解决现有小样本检测目标检测方法检测精度不足、非解耦形式下分类和回归相互干扰、以及在小样本情况下检测网络训练容易出现过拟合的问题。本发明方法包括获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;其中,DMNet包括多尺度特征提取网络、解耦表达转化模块、图像级度量学习模块、回归框预测模块。本发明避免了检测网络训练时的过拟合问题,消除了分类分支、回归分支的相互干扰,并提高了小样本目标检测的精度。

Description

解耦度量的单阶段小样本目标检测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种解耦度量的单阶段小样本目标检测方法。
背景技术
在快速兴起的深度学习领域,得益于大数据的训练与学习,深度神经网络在视觉上取得了巨大成功。然而,在某些真实场景中,相关视觉数据很稀少,例如水下数据和医学数据等。在计算机视觉任务中,卷积神经网络 (Convolutional Neural Networks, CNNs)得到了广泛应用,以Ren等人提出的Faster RCNN为代表的两阶段检测器和以Liu等人提出的Single Shot MultiBox Detector (SSD) 为代表的单阶段检测器都在目标检测上取得了不错的效果。但是这两类检测器都存在一个问题,即当训练数据非常少时,训练容易发生过拟合,从而导致检测器的性能大幅下降。
度量学习作为一种相似度学习的方法,相比于CNNs具有更好的泛化性,因此经常被用于小样本分类问题。Karlinsky等人设计了一种基于度量学习的分类模块,并将其应用到了目标检测中,从而提升了检测器小样本目标检测的性能。但是这种方法依赖于两阶段检测方法中的ROI Pooling,只能做到实例级的处理,并不能直接对整个特征图进行检测。这导致了检测器的检测速度较慢,难以实现实时检测。
此外,还有一个长期存在的问题,即分类和回归之间的表达差异。对于分类来说,其应该具有平移不变性,即先验参考框发生小幅度的位移时其分类结果应该不变;而对于回归来说,其应该具有平移可变性,即先验参考框发生位移时其回归预测也应该随之改变。通常检测器的回归头和分类头使用共享特征,但这一做法并没有解决这种差异。在训练数据充足的情况下,这种表达差异不会明显影响检测器的性能,但是在小样本情况下,即训练数据非常稀少时,这种差异便突显出来,影响检测器的性能。
发明内容
为了解决现有技术中的上述问题,即为了解决现有小样本检测目标检测方法检测精度不足、非解耦形式下分类和回归相互干扰、以及在小样本情况下检测网络训练容易出现过拟合的问题,本发明第一方面,提出了一种解耦度量的单阶段小样本目标检测方法,该方法包括以下步骤:
获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;所述回归框包括位置及宽高信息;
其中,DMNet包括多尺度特征提取网络、解耦表达转化模块、图像级度量学习模块、回归框预测模块;
所述多尺度特征提取网络,配置为提取所述输入图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
所述解耦表达转化模块基于第一卷积分支、分类分支、回归分支构建;
所述第一卷积分支用于对第一特征进行背景过滤,得到前景特征;
所述分类分支、所述回归分支均基于两个卷积层、一个可变形卷积层组成;所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,即得到分类先验参考框和分类解耦表达特征、回归先验参考框和回归解耦表达特征;
所述图像级度量学习模块,配置为通过预构建的嵌入单元将所述分类解耦表达特 征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的 距离,进而得到所述输入图像中各待检测目标的类别;所述嵌入单元基于两个
Figure 542766DEST_PATH_IMAGE001
1卷积组 成;
所述回归框预测模块,配置为基于所述回归解耦表达特征以及回归先验参考框,通过预构建的卷积子网络得到所述输入图像中各检测目标的回归框。
在一些优选的实施方式中,所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,其方法为:
将所述第一特征进行卷积处理,得到所述输入图像中目标的先验参考框对应的宽高信息;
将前景概率大于预设前景概率阈值的目标的先验参考框进行保留,其他的先验参考框作为背景过滤;
对保留的先验参考框的宽高信息进行卷积,生成偏移量;
结合所述偏移量,通过所述可变形卷积层对所述第一特征进行可变形卷积得到自适应的解耦表达特征,即分类解耦表达特征、回归解耦表达特征。
在一些优选的实施方式中,计算所述嵌入向量与预设类别对应的特征向量的距离,进而得到所述输入图像中各待检测目标的类别,其方法为:
Figure 14199DEST_PATH_IMAGE002
Figure 6426DEST_PATH_IMAGE003
其中,
Figure 639532DEST_PATH_IMAGE004
表示嵌入向量,
Figure 146737DEST_PATH_IMAGE005
表示第
Figure 156281DEST_PATH_IMAGE006
个预设类别对应的特征向量,
Figure 3015DEST_PATH_IMAGE007
表示嵌 入向量和第
Figure 72602DEST_PATH_IMAGE006
个预设类别对应的特征向量的距离,
Figure 4786DEST_PATH_IMAGE008
表示嵌入向量属于第
Figure 552442DEST_PATH_IMAGE006
个预设类别 的概率,
Figure 519261DEST_PATH_IMAGE009
表示类别数量,
Figure 494170DEST_PATH_IMAGE010
表示每个类别的置信度,即将置信度最大的预设类别 作为待检测目标的类别。
在一些优选的实施方式中,所述预构建的小样本目标检测网络DMNet,其训练方法为:
A10,获取训练样本图像及对应各待检测目标的被标定为前景或背景的标定信息、真实类别、真实回归框;
A20,提取训练样本图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
A30,将所述第一特征输入解耦表达转化模块,得到分类先验参考框、分类解耦表达特征以及回归先验参考框、回归解耦表达特征;
A40,选取
Figure 179229DEST_PATH_IMAGE011
内的点作为训练正样本,
Figure 530576DEST_PATH_IMAGE012
外的点为训练负样本;其中,
Figure 351902DEST_PATH_IMAGE013
Figure 294450DEST_PATH_IMAGE014
为设定参数,且0<
Figure 201226DEST_PATH_IMAGE013
<
Figure 353334DEST_PATH_IMAGE014
<1,
Figure 29166DEST_PATH_IMAGE015
表示真实回归框的中心坐标以及宽、高,
Figure 611457DEST_PATH_IMAGE016
表示矩形区域;结合正、 负样本各点对应预测的前景概率以及对应的标定信息,计算前景损失,作为第一损失;获取 回归先验参考框与真实回归框的交并比,并计算交并比最大对应的真实回归框与各回归先 验参考框之间的损失,作为第二损失;
A50,通过预构建的嵌入单元将所述分类解耦表达特征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的距离,进而得到所述训练样本图像中各待检测目标的类别,作为预测类别;
A60,结合预测类别的概率、各待检测目标对应的真实类别,计算交叉熵损失,作为第三损失;计算所述预测类别与对应的真实类别的损失,作为第四损失;
A70,基于所述回归解耦表达特征、回归先验参考框,通过卷积子网络得到预测回归框相对回归先验参考框的中心坐标及宽高的偏移量,作为预测偏移量;并根据预测偏移量对回归先验参考框进行调整,得到预测回归框;
A80,获取各待检测目标的真实回归框相对回归先验参考框的中心坐标及宽高的真实偏移量;并计算所述预测偏移量与所述真实偏移量之间的损失,作为第五损失;
A90,将所述第一损失、第二损失、第三损失、第四损失、第五损失进行加权求和,得到总损失;基于该总损失更新所述小样本目标检测网络DMNet的网络参数;
A100,循环执行步骤A10-A90,直至得到训练好的小样本目标检测网络DMNet。
在一些优选的实施方式中,所述第一损失
Figure 5529DEST_PATH_IMAGE017
,其计算方法为:
Figure 433100DEST_PATH_IMAGE018
其中,
Figure 229017DEST_PATH_IMAGE019
表示预测的前景概率,
Figure 982210DEST_PATH_IMAGE020
表示标定信息是否为前景,若为前景,则取值为 1,否则取值为0,
Figure 597999DEST_PATH_IMAGE021
表示缩放因子,
Figure 94839DEST_PATH_IMAGE022
表示平衡因子。
在一些优选的实施方式中,所述第二损失
Figure 745264DEST_PATH_IMAGE023
,其计算方法为:
Figure 669357DEST_PATH_IMAGE024
其中,
Figure 38022DEST_PATH_IMAGE025
Figure 72974DEST_PATH_IMAGE026
表示回归先验参考框的宽、高,
Figure 577904DEST_PATH_IMAGE027
表示平滑L1损失,
Figure 469637DEST_PATH_IMAGE028
表示交并 比最大对应的真实回归框的长、宽。
在一些优选的实施方式中,所述第三损失
Figure 60018DEST_PATH_IMAGE029
,其计算方法为:
Figure 898661DEST_PATH_IMAGE030
其中,
Figure 520748DEST_PATH_IMAGE031
表示预测目标为第
Figure 786644DEST_PATH_IMAGE006
个类别的概率,
Figure 864322DEST_PATH_IMAGE032
表示真实类别是否为第
Figure 975497DEST_PATH_IMAGE006
个类别,若 是则取值为1,否则取值为0。
在一些优选的实施方式中,所述第四损失
Figure 455020DEST_PATH_IMAGE033
,其计算方法为:
Figure 891818DEST_PATH_IMAGE034
其中,
Figure 456791DEST_PATH_IMAGE035
表示预测类别序号,
Figure 637237DEST_PATH_IMAGE006
表示正确类别序号,
Figure 236845DEST_PATH_IMAGE022
表示人工设定的阈值,
Figure 641282DEST_PATH_IMAGE036
表示 ReLU函数,
Figure 427972DEST_PATH_IMAGE004
表示嵌入向量,
Figure 412109DEST_PATH_IMAGE005
表示预设的第
Figure 866224DEST_PATH_IMAGE006
个类别对应的特征向量。
在一些优选的实施方式中,所述第五损失
Figure 644824DEST_PATH_IMAGE037
,其计算方法为:
Figure 918811DEST_PATH_IMAGE038
其中,
Figure 175480DEST_PATH_IMAGE039
表示真实偏移量,
Figure 484101DEST_PATH_IMAGE040
表示预测偏移量,
Figure 454111DEST_PATH_IMAGE041
Figure 480972DEST_PATH_IMAGE042
表示预测回归框中心坐标的 偏移量,
Figure 541332DEST_PATH_IMAGE025
Figure 766777DEST_PATH_IMAGE026
分别表示预测回归框宽和高的偏移量。
在一些优选的实施方式中,所述总损失,其计算方法为:
Figure 887180DEST_PATH_IMAGE043
其中,
Figure 135759DEST_PATH_IMAGE044
表示各损失对应的权重,
Figure 999810DEST_PATH_IMAGE017
表示第一损失,
Figure 283023DEST_PATH_IMAGE023
表示第二损失,
Figure 574327DEST_PATH_IMAGE045
表示第三损失,
Figure 44623DEST_PATH_IMAGE033
表示第四损失,
Figure 712365DEST_PATH_IMAGE037
表示第五损失。
本发明的有益效果:
本发明避免了检测网络训练时的过拟合问题,消除了分类分支、回归分支的相互干扰,并提高了小样本目标检测的精度。
(1)本发明通过解耦式的设计使得分类分支和回归分支互不干扰,使其只用专注于分类或回归一种任务,从而提升检测网络在小样本条件下的检测性能,可以改善单阶段检测网络人工设计先验参考框的缺陷。另外,解耦表达转化模块(DecoupledRepresentation Transformation,DRT)由前景预测、先验参考框宽高预测和解耦式特征自适应变换组成,在保持检测速度的同时提升了一般单阶段检测方法的精度,并缓解了小样本情况下由于训练数据极少而导致的神经网络过拟合的问题。
(2)本发明设计了图像级度量学习模块(Image-level Distance MetricLearning, IDML),可以对分类解耦表达特征进行嵌入得到嵌入向量,然后,基于度量学习的方式进行分类,并且在对特征进行处理时可以直接对整个特征图进行处理,实现多目标平行度量,不需要ROI Pooling操作,容易集成到单阶段检测网络中进行高效的工作,使得检测网络可以在训练数据很少的情况下依然可以准确地检测出待检测类别的物体。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的解耦度量的单阶段小样本目标检测方法的流程示意图;
图2是本发明一种实施例的小样本目标检测网络DMNet的结构示意图;
图3是本发明一种实施例的解耦表达转化模块DRT的结构示意图;
图4是本发明一种实施例的图像级度量学习模块IDML的结构示意图;
图5a-5c是本发明一种实施例的DMNet和现有其它小样本目标检测方法在PASCALVOC数据集上的实验结果对比示意图;
图6是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图;
图7是本发明一种实施例的小样本目标检测网络DMNet的训练过程的详细流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种解耦度量的单阶段小样本目标检测方法,如图1所示,包括以下步骤:
获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;所述回归框包括位置及宽高信息;
其中,DMNet包括多尺度特征提取网络、解耦表达转化模块、图像级度量学习模块、回归框预测模块;
所述多尺度特征提取网络,配置为提取所述输入图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
所述解耦表达转化模块基于第一卷积分支、分类分支、回归分支构建;
所述第一卷积分支用于对第一特征进行背景过滤,得到前景特征;
所述分类分支、所述回归分支均基于两个卷积层、一个可变形卷积层组成;所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,即得到分类先验参考框和分类解耦表达特征、回归先验参考框和回归解耦表达特征;
所述图像级度量学习模块,配置为通过预构建的嵌入单元将所述分类解耦表达特 征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的 距离,进而得到所述输入图像中各待检测目标的类别;所述嵌入单元基于两个
Figure 850085DEST_PATH_IMAGE001
1卷积组 成;
所述回归框预测模块,配置为基于所述回归解耦表达特征以及回归先验参考框,通过预构建的卷积子网络得到所述输入图像中各检测目标的回归框。
为了更清晰地对本发明解耦度量的单阶段小样本目标检测方法进行说明,下面结合附图对本发明方法实施例中各步骤展开详述。
在下述实施例中,先对小样本目标检测网络DMNet的训练过程进行详述,再对解耦度量的单阶段小样本目标检测方法获取图像中各待检测目标对应的类别及回归框的过程进行详述。
1、小样本目标检测网络DMNet的训练过程,如图7所示
小样本目标检测网络DMNet的整体结构,如图2所示,包括多尺度特征提取网络、解耦表达转化模块DRT、图像级度量学习模块IDML(即图2中的分类头)、回归框预测模块(即图2中的回归头)。小样本目标检测网络DMNet的具体训练过程如下:
A10,获取训练样本图像及对应各待检测目标的被标定为前景或背景的标定信息、真实类别、真实回归框;
在本实施例中,首先获取待检测的图像作为训练样本图像,并获取训练样本图像中各目标对应被标定为前景或背景的标定信息以及标注的真实类别、真实回归框。
A20,提取训练样本图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
在本实施例中,通过DMNet中的多尺度特征提取网络提取训练样本图像的多尺度 特征,并对提取的多尺度特征进行卷积处理(如图2中的Conv,其中该卷积层对应的卷积核 为
Figure 312290DEST_PATH_IMAGE046
,步长为1,通道数为256,每个特征的宽、高记为
Figure 535461DEST_PATH_IMAGE047
),将卷积处理后的特征作 为第一特征。
本发明中的多尺度特征提取网络优选为ResNeXt-101和FPN。
A30,将所述第一特征输入解耦表达转化模块,得到分类先验参考框、分类解耦表达特征以及回归先验参考框、回归解耦表达特征;
在本实施例中,解耦表达转化模块DRT首先预测所有先验采样点处为前景的概率,其中先验采样点的回归框与不同尺度下的步幅相对应;其次,DRT为分类分支和回归分支分别预测先验参考框的宽高;最后,DRT基于预测的先验参考框宽高信息对第一特征进行解耦式自适应变换,从而得到分别用于分类头和回归头的解耦表达特征。
解耦表达转化模块DRT基于第一卷积分支、分类分支、回归分支构建,结构如图3所示。
第一卷积分支,卷积核为
Figure 6894DEST_PATH_IMAGE048
,步长为1,通道数为1,用于预测出尺寸为
Figure 795858DEST_PATH_IMAGE049
的前景概率图,即获取第一特征各特征位置对应的前景概率;
分类分支、回归分支均基于两个卷积层、一个可变形卷积层组成,两个卷积层,一 个用于对第一特征进行卷积,预测出尺寸为
Figure 428965DEST_PATH_IMAGE050
的宽高信息,即先验参考框,并将 前景概率大于预设前景概率阈值的目标的先验参考框进行保留,其他的先验参考框作为背 景过滤;另一个用于对先验参考框的宽高信息进行
Figure 139432DEST_PATH_IMAGE048
卷积处理,生成每一个采样点对 应的偏移量Offsets。
将所述偏移量、所述第一特征输入可变形卷积层(Deformable ConvolutionalNetworks, DCN)进行特征自适应变换,即对第一特征进行可变形卷积,得到自适应的解耦表达特征。分类分支、回归分支相互独立,各自完成宽高信息预测和特征自适应变换(分类分支生成的解耦表达特征称为分类解耦表达特征,回归分支生成的解耦表达特征称为回归解耦表达特征),以达到解耦的目的。
A40,选取
Figure 146047DEST_PATH_IMAGE011
内的点作为训练正样本,
Figure 992780DEST_PATH_IMAGE012
外的点为训练负样本;其中,
Figure 62367DEST_PATH_IMAGE013
Figure 994551DEST_PATH_IMAGE014
为设定参数,且0<
Figure 807786DEST_PATH_IMAGE013
<
Figure 243447DEST_PATH_IMAGE014
<1,
Figure 483935DEST_PATH_IMAGE015
表示真实回归框的中心坐标以及宽、高,
Figure 903415DEST_PATH_IMAGE016
Figure 254762DEST_PATH_IMAGE051
表示矩形区域;结合 正、负样本各点对应预测的前景概率以及对应的标定信息,计算前景损失,作为第一损失; 获取回归先验参考框与真实回归框的交并比,并计算交并比最大对应的真实回归框与各回 归先验参考框之间的损失,作为第二损失;
在本实施例中,设真实回归框为
Figure 76088DEST_PATH_IMAGE052
Figure 487477DEST_PATH_IMAGE053
表示矩形区 域,
Figure 394254DEST_PATH_IMAGE054
为矩形中心坐标,
Figure 346029DEST_PATH_IMAGE055
Figure 21861DEST_PATH_IMAGE056
分别为矩形区域的宽和高,
Figure 604152DEST_PATH_IMAGE057
表示下标。对于前景预测来 说,设定参数
Figure 998224DEST_PATH_IMAGE013
Figure 425795DEST_PATH_IMAGE014
,且有0<
Figure 484362DEST_PATH_IMAGE013
<
Figure 706396DEST_PATH_IMAGE014
<1,则选择
Figure 587764DEST_PATH_IMAGE011
内的点作为 训练正样本,
Figure 84605DEST_PATH_IMAGE058
外的点为训练负样本,其余点不参与训练。前景 预测的损失函数
Figure 735029DEST_PATH_IMAGE017
使用Focal Loss,具体如公式(1)所示:
Figure 455860DEST_PATH_IMAGE018
其中,
Figure 558945DEST_PATH_IMAGE019
表示预测的前景概率,
Figure 593897DEST_PATH_IMAGE020
表示标定信息是否为前景,若为前景,则取值为 1,否则取值为0,
Figure 364407DEST_PATH_IMAGE021
表示缩放因子,
Figure 459402DEST_PATH_IMAGE022
表示平衡因子。
对于先验参考框宽高预测来说,因为预测出的宽高是任意大小的,所以一般的真 实回归框匹配方式并不适用。因此,这里使用了一种针对先验参考框形状不确定的方法:1) 采样一定数量的宽高值并计算出相应的先验参考框;2) 计算采样得到的回归先验参考框 与真实回归框的交并比 (Intersection over Union, IoU),并选择IoU最大的真实回归框 作为目标值。记目标值的宽和高为
Figure 49784DEST_PATH_IMAGE059
Figure 622847DEST_PATH_IMAGE060
,宽高预测的损失函数,如公式(2)所示:
Figure 247864DEST_PATH_IMAGE024
(2)
其中,
Figure 513760DEST_PATH_IMAGE025
Figure 591437DEST_PATH_IMAGE026
表示回归先验参考框的宽、高,
Figure 968192DEST_PATH_IMAGE027
表示平滑L1损失。
A50,通过预构建的嵌入单元将所述分类解耦表达特征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的距离,进而得到所述输入图像中各待检测目标的类别,作为预测类别;
在本实施例中,图像级度量学习模块IDML的结构,如图4所示,通过预构建的嵌入 单元将所述分类解耦表达特征嵌入到度量特征空间,得到嵌入向量,嵌入单元基于两个
Figure 244453DEST_PATH_IMAGE048
的卷积层构成,两个卷积的输出尺寸分别为
Figure 681250DEST_PATH_IMAGE061
Figure 243294DEST_PATH_IMAGE062
Figure 423740DEST_PATH_IMAGE063
Figure 757769DEST_PATH_IMAGE064
为设 定值,
Figure 365468DEST_PATH_IMAGE064
表示嵌入向量的维度。另外,两个嵌入向量之间的距离代表着两者之间的相似度, 也就是相同类别的嵌入向量应该相离较近,不同类别的嵌入向量应该相离较远。
为了预测嵌入向量所属类别,需要有每个类别的特征向量,这样嵌入向量将类别 预测为距离最近的特征向量(即代表向量)所对应的类别。代表向量由一个全连接 (Fully Connected,FC) 层生成。FC层的输出尺寸为
Figure 152158DEST_PATH_IMAGE065
,其中
Figure 136295DEST_PATH_IMAGE009
为类别数量。对输出进行归 一化后,即可得到
Figure 324831DEST_PATH_IMAGE009
个代表向量。记单个嵌入向量为
Figure 103431DEST_PATH_IMAGE066
,类别
Figure 642997DEST_PATH_IMAGE067
对应的特征向量(即代表向 量)为
Figure 165245DEST_PATH_IMAGE051
Figure 270604DEST_PATH_IMAGE066
Figure 220106DEST_PATH_IMAGE051
的距离为
Figure 246967DEST_PATH_IMAGE068
。对于概率计算来说,使用高斯模型为其建模。嵌入向 量
Figure 307327DEST_PATH_IMAGE066
属于类别
Figure 470455DEST_PATH_IMAGE067
的概率计算,如公式(3)所示:
Figure 590858DEST_PATH_IMAGE069
(3)
Figure 839437DEST_PATH_IMAGE007
表示嵌入向量和第
Figure 700558DEST_PATH_IMAGE006
个预设类别对应的特征向量的距离,
Figure 983772DEST_PATH_IMAGE008
表示嵌 入向量属于第
Figure 275076DEST_PATH_IMAGE006
个预设类别的概率。
然后每个类别的置信度预测计算如下:
Figure 10951DEST_PATH_IMAGE003
(4)
本发明中将置信度最大的预设类别作为待检测目标的类别。
对于背景
Figure 475430DEST_PATH_IMAGE070
来说,其置信度预测为:
Figure 613150DEST_PATH_IMAGE071
(5)
A60,结合预测类别的概率、各待检测目标对应的真实类别,计算交叉熵损失,作为第三损失;计算所述预测类别与对应的真实类别的损失,作为第四损失;
在本实施例中,IDML的损失函数分为两部分。第一部分为交叉熵损失函数,作为第三损失,第二部分为嵌入损失,作为第四损失。
交叉熵损失,其计算方法,如公式(6)所示:
Figure 75356DEST_PATH_IMAGE072
(6)
其中,
Figure 298527DEST_PATH_IMAGE031
表示预测目标为第
Figure 504380DEST_PATH_IMAGE006
个类别的概率,
Figure 231028DEST_PATH_IMAGE032
表示真实类别是否为第
Figure 129713DEST_PATH_IMAGE006
个类别,若 是则取值为1,否则取值为0。
嵌入损失,其计算方法,如公式(7)所示:
Figure 840180DEST_PATH_IMAGE034
(7)
其中,
Figure 318566DEST_PATH_IMAGE035
表示预测类别序号,
Figure 430879DEST_PATH_IMAGE006
表示正确类别序号,
Figure 234887DEST_PATH_IMAGE022
表示人工设定的阈值,
Figure 167071DEST_PATH_IMAGE036
表示 ReLU函数,
Figure 977376DEST_PATH_IMAGE004
表示嵌入向量,
Figure 678616DEST_PATH_IMAGE005
表示预设的第
Figure 919104DEST_PATH_IMAGE006
个类别对应的特征向量。
A70,基于所述回归解耦表达特征、回归先验参考框,通过卷积子网络得到预测回归框相对回归先验参考框的中心坐标及宽高的偏移量,作为预测偏移量;并根据预测偏移量对回归先验参考框进行调整,得到预测回归框;
在本实施例中,回归框预测模块使用与一般检测器相同的方法,即将回归解耦表达特征输入卷积子网络得到预测回归框相对先验参考框的中心坐标及宽高的偏移量,并结合所述预测偏移量对所述回归参考框进行调整,得到所述训练样本图像中各检测目标的回归框,作为预测回归框。
A80,获取各待检测目标的真实回归框相对回归先验参考框的中心坐标及宽高的真实偏移量;并计算所述预测偏移量与所述真实偏移量之间的损失,作为第五损失;
在本实施例中,计算预测偏移量与真实偏移量之间的损失,如公式(8)所示:
Figure 338584DEST_PATH_IMAGE073
(8)
其中,
Figure 689931DEST_PATH_IMAGE039
表示真实偏移量,
Figure 307995DEST_PATH_IMAGE040
表示预测偏移量,
Figure 922647DEST_PATH_IMAGE074
Figure 626160DEST_PATH_IMAGE075
表示预测框中心坐标的偏 移量,
Figure 515619DEST_PATH_IMAGE076
Figure 457030DEST_PATH_IMAGE077
分别表示预测框宽和高的偏移量。
A90,将所述第一损失、第二损失、第三损失、第四损失、第五损失进行加权求和,得到总损失;基于该总损失更新所述小样本目标检测网络DMNet的网络参数;
在本实施例中,将上述获取的第一损失、第二损失、第三损失、第四损失、第五损失进行加权求和,得到总损失,如公式(9)所示:
Figure 39321DEST_PATH_IMAGE043
(9)
其中,
Figure 433394DEST_PATH_IMAGE044
表示各损失函数对应的权重。
基于获取的总损失,对小样本目标检测网络DMNet的网络参数进行更新。
A100,循环执行步骤A10-A90,直至得到训练好的小样本目标检测网络DMNet。
在本实施例中,循环对小样本目标检测网络DMNet进行训练,直至网络收敛。
2、解耦度量的单阶段小样本目标检测方法
获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;所述回归框包括位置及宽高信息。
在本实施例中,获取待检测的图像,并输入上述训练好的小样本目标检测网络DMNet获取输入图像中各待检测目标对应的类别及回归框。具体过程如下:
提取输入图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
将第一特征输入解耦表达转化模块,得到分类先验参考框、分类解耦表达特征以及回归先验参考框、回归解耦表达特征;即:
获取第一特征各特征位置对应的前景概率,即预测前景概率;
设定前景概率阈值,提取并保留预测前景概率大于设定阈值的位置上对应的解耦表达特征和先验参考框,同时过滤掉其余位置的解耦表达特征和先验参考框;
通过嵌入单元将保留的分类解耦表达特征嵌入到度量特征空间,得到嵌入向量;计算嵌入向量与预设类别对应的特征向量的距离,进而得到所述输入图像中各待检测目标的类别;
基于保留的回归解耦表达特征,通过卷积子网络得到相对先验参考框的中心坐标及宽高的预测偏移量,并将预测偏移量应用到先验参考框,计算得到输入图像中各检测目标的回归框。
另外,本发明在公开数据集PASCAL VOC和MS COCO上得到验证。模型训练步骤如下:1) 在基类上进行正常训练;2) 用第1步训练得到的模型在新类和基类上进行小样本训练。将最终训练的模型在新类测试集上的检测精度作为模型性能的衡量标准。在VOC上三组新类/基类划分下,实验结果如图5a-5c所示,评价标准为mean Average Precision (mAP),IoU阈值为0.5,1样本、2样本、3样本、5样本、10样本分别代表每个新类的训练样本数为1、2、3、5、10。可以看出本发明的检测精度优于现有其它方法,且在训练样本极少的情况 (1到3个训练样本) 下,本发明的优势更加明显。在COCO作为基类,VOC作为新类的划分下(即假设COCO数据集有80个类别,VOC有20个类别,其中COCO的80类包含了VOC的20类,不过只是类别名称包含,训练及测试的图片数据完全没有交集,这是两个完全独立的数据集。“VOC作为新类的划分下”是指COCO的基类/新类划分是60/20),训练样本为10,评价标准为mAP,IoU阈值为0.5:0.95时,YOLOv2 few-shot(YOLO二代小样本检测)、Meta R-CNN(元学习回归-卷积神经网络)、MetaDet(元学习检测)和DMNet(解耦度量网络)的结果分别为5.6%、8.7%、7.1%和9.3%。实验结果依然表明本发明优于现有其它方法。
本发明第二实施例的一种解耦度量的单阶段小样本目标检测系统,该系统包括:预测模块;
所述预测模块,配置为获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;
其中,DMNet包括多尺度特征提取网络、解耦表达转化模块、图像级度量学习模块、回归框预测模块;
所述多尺度特征提取网络,配置为提取所述输入图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
所述解耦表达转化模块基于第一卷积分支、分类分支、回归分支构建;
所述第一卷积分支用于对第一特征进行背景过滤,得到前景特征;
所述分类分支、所述回归分支均基于两个卷积层、一个可变形卷积层组成;所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,即得到分类先验参考框和分类解耦表达特征、回归先验参考框和回归解耦表达特征;
所述图像级度量学习模块,配置为通过预构建的嵌入单元将所述分类解耦表达特 征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的 距离,进而得到所述输入图像中各待检测目标的类别;所述嵌入单元基于两个
Figure 126543DEST_PATH_IMAGE001
1卷积组 成;
所述回归框预测模块,配置为基于所述回归解耦表达特征以及回归先验参考框,通过预构建的卷积子网络得到所述输入图像中各检测目标的回归框。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的解耦度量的单阶段小样本目标检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定
本发明第三实施例,提出了一种设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的解耦度量的单阶段小样本目标检测方法。
本发明第四实施例,提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的解耦度量的单阶段小样本目标检测方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)601,其可以根据存储在只读存储器(ROM,Read Only Memory)602中的程序或者从存储部分608加载到随机访问存储器(RAM,Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O,Input/Output)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分609。通讯部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通讯部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种解耦度量的单阶段小样本目标检测方法,其特征在于,该方法包括以下步骤:
获取待检测的图像,作为输入图像;通过预构建的小样本目标检测网络DMNet获取所述输入图像中各待检测目标对应的类别及回归框;所述回归框包括位置及宽高信息;
其中,DMNet包括多尺度特征提取网络、解耦表达转化模块、图像级度量学习模块、回归框预测模块;
所述多尺度特征提取网络,配置为提取所述输入图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
所述解耦表达转化模块基于第一卷积分支、分类分支、回归分支构建;
所述第一卷积分支用于获取第一特征各特征位置对应的前景概率;
所述分类分支、所述回归分支均基于两个卷积层、一个可变形卷积层组成;所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,即得到分类先验参考框和分类解耦表达特征、回归先验参考框和回归解耦表达特征;
所述图像级度量学习模块,配置为通过预构建的嵌入单元将所述分类解耦表达特征嵌 入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的距离, 进而得到所述输入图像中各待检测目标的类别;所述嵌入单元基于两个
Figure 773068DEST_PATH_IMAGE001
1卷积组成;
所述回归框预测模块,配置为基于所述回归解耦表达特征以及回归先验参考框,通过预构建的卷积子网络得到所述输入图像中各检测目标的回归框。
2.根据权利要求1所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述分类分支、所述回归分支均用于结合所述前景概率,对所述第一特征进行卷积、可变形卷积,获取先验参考框及自适应的解耦表达特征,其方法为:
将所述第一特征进行卷积处理,得到所述输入图像中目标的先验参考框对应的宽高信息;
将前景概率大于预设前景概率阈值的目标的先验参考框进行保留,其他的先验参考框作为背景过滤;
对保留的先验参考框的宽高信息进行卷积,生成偏移量;
结合所述偏移量,通过所述可变形卷积层对所述第一特征进行可变形卷积得到自适应的解耦表达特征,即分类解耦表达特征、回归解耦表达特征。
3.根据权利要求1所述的解耦度量的单阶段小样本目标检测方法,其特征在于,计算所述嵌入向量与预设类别对应的特征向量的距离,进而得到所述输入图像中各待检测目标的类别,其方法为:
Figure 34416DEST_PATH_IMAGE002
Figure 282995DEST_PATH_IMAGE003
其中,
Figure 271679DEST_PATH_IMAGE004
表示嵌入向量,
Figure 554893DEST_PATH_IMAGE005
表示第
Figure 721563DEST_PATH_IMAGE006
个预设类别对应的特征向量,
Figure 191859DEST_PATH_IMAGE007
表示嵌入向 量和第
Figure 984234DEST_PATH_IMAGE006
个预设类别对应的特征向量的距离,
Figure 121955DEST_PATH_IMAGE008
表示嵌入向量属于第
Figure 459526DEST_PATH_IMAGE006
个预设类别的概 率,
Figure 682697DEST_PATH_IMAGE009
表示类别数量,
Figure 685288DEST_PATH_IMAGE010
表示每个类别的置信度,即将置信度最大的预设类别作为 待检测目标的类别。
4.根据权利要求2所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述预构建的小样本目标检测网络DMNet,其训练方法为:
A10,获取训练样本图像及对应各待检测目标的被标定为前景或背景的标定信息、真实类别、真实回归框;
A20,提取训练样本图像的多尺度特征,并对提取的多尺度特征进行卷积处理,将卷积处理后的特征作为第一特征;
A30,将所述第一特征输入解耦表达转化模块,得到分类先验参考框、分类解耦表达特征以及回归先验参考框、回归解耦表达特征;
A40,选取
Figure 802149DEST_PATH_IMAGE011
内的点作为训练正样本,
Figure 700835DEST_PATH_IMAGE012
外的点为训练负样本;其中,
Figure 283738DEST_PATH_IMAGE013
Figure 762124DEST_PATH_IMAGE014
为设定参数,且0<
Figure 999070DEST_PATH_IMAGE013
<
Figure 803078DEST_PATH_IMAGE014
<1,
Figure 876208DEST_PATH_IMAGE015
表示真实回归框的中心坐标以及宽、高,
Figure 220601DEST_PATH_IMAGE016
Figure 187420DEST_PATH_IMAGE017
表示矩形区域;结 合正、负样本各点对应预测的前景概率以及对应的标定信息,计算前景损失,作为第一损 失;获取回归先验参考框与真实回归框的交并比,并计算交并比最大对应的真实回归框与 各回归先验参考框之间的损失,作为第二损失;
A50,通过预构建的嵌入单元将所述分类解耦表达特征嵌入到度量特征空间,得到嵌入向量;计算所述嵌入向量与预设类别对应的特征向量的距离,进而得到所述训练样本图像中各待检测目标的类别,作为预测类别;
A60,结合预测类别的概率、各待检测目标对应的真实类别,计算交叉熵损失,作为第三损失;计算所述预测类别与对应的真实类别的损失,作为第四损失;
A70,基于所述回归解耦表达特征、回归先验参考框,通过卷积子网络得到预测回归框相对回归先验参考框的中心坐标及宽高的偏移量,作为预测偏移量;并根据预测偏移量对回归先验参考框进行调整,得到预测回归框;
A80,获取各待检测目标的真实回归框相对回归先验参考框的中心坐标及宽高的真实偏移量;并计算所述预测偏移量与所述真实偏移量之间的损失,作为第五损失;
A90,将所述第一损失、第二损失、第三损失、第四损失、第五损失进行加权求和,得到总损失;基于该总损失更新所述小样本目标检测网络DMNet的网络参数;
A100,循环执行步骤A10-A90,直至得到训练好的小样本目标检测网络DMNet。
5.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述第 一损失
Figure 552543DEST_PATH_IMAGE018
,其计算方法为:
Figure 972023DEST_PATH_IMAGE019
其中,
Figure 198736DEST_PATH_IMAGE020
表示预测的前景概率,
Figure DEST_PATH_IMAGE021
表示标定信息是否为前景,若为前景,则取值为1,否 则取值为0,
Figure 347957DEST_PATH_IMAGE022
表示缩放因子,
Figure 759347DEST_PATH_IMAGE023
表示平衡因子。
6.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述第 二损失
Figure 541489DEST_PATH_IMAGE024
,其计算方法为:
Figure 227686DEST_PATH_IMAGE025
其中,
Figure 169097DEST_PATH_IMAGE026
Figure 876022DEST_PATH_IMAGE027
表示回归先验参考框的宽、高,
Figure 4515DEST_PATH_IMAGE028
表示平滑L1损失,
Figure 570101DEST_PATH_IMAGE029
表示交并比最 大对应的真实回归框的宽、高。
7.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述第 三损失
Figure 100439DEST_PATH_IMAGE030
,其计算方法为:
Figure 978265DEST_PATH_IMAGE031
其中,
Figure 859634DEST_PATH_IMAGE032
表示预测目标为第
Figure 153212DEST_PATH_IMAGE006
个类别的概率,
Figure 679002DEST_PATH_IMAGE033
表示真实类别是否为第
Figure 337517DEST_PATH_IMAGE006
个类别,若是则 取值为1,否则取值为0。
8.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述第 四损失
Figure 830815DEST_PATH_IMAGE034
,其计算方法为:
Figure DEST_PATH_IMAGE035
其中,
Figure 944396DEST_PATH_IMAGE036
表示预测类别序号,
Figure 714905DEST_PATH_IMAGE006
表示正确类别序号,
Figure 668955DEST_PATH_IMAGE023
表示人工设定的阈值,
Figure 524916DEST_PATH_IMAGE037
表示ReLU 函数,
Figure 160296DEST_PATH_IMAGE004
表示嵌入向量,
Figure 395100DEST_PATH_IMAGE005
表示预设的第
Figure 660996DEST_PATH_IMAGE006
个类别对应的特征向量。
9.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述第 五损失
Figure 597728DEST_PATH_IMAGE038
,其计算方法为:
Figure 240062DEST_PATH_IMAGE039
其中,
Figure 592021DEST_PATH_IMAGE040
表示真实偏移量,
Figure 28819DEST_PATH_IMAGE041
表示预测偏移量,
Figure 390530DEST_PATH_IMAGE042
Figure 508659DEST_PATH_IMAGE043
表示预测回归框中心坐标的偏移 量,
Figure 577109DEST_PATH_IMAGE026
Figure 309441DEST_PATH_IMAGE027
分别表示预测回归框宽和高的偏移量。
10.根据权利要求4所述的解耦度量的单阶段小样本目标检测方法,其特征在于,所述 总损失,其计算方法为:
Figure 361711DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE045
表示各损失函数对应的权重,
Figure 221214DEST_PATH_IMAGE046
表示第一损失,
Figure 675329DEST_PATH_IMAGE024
表示第二损失,
Figure 578563DEST_PATH_IMAGE047
表示第三损失,
Figure 118129DEST_PATH_IMAGE034
表示第四损失,
Figure 515743DEST_PATH_IMAGE038
表示第五损失。
CN202110199642.9A 2021-02-23 2021-02-23 解耦度量的单阶段小样本目标检测方法 Active CN112560876B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110199642.9A CN112560876B (zh) 2021-02-23 2021-02-23 解耦度量的单阶段小样本目标检测方法
US17/373,831 US11205098B1 (en) 2021-02-23 2021-07-13 Single-stage small-sample-object detection method based on decoupled metric

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110199642.9A CN112560876B (zh) 2021-02-23 2021-02-23 解耦度量的单阶段小样本目标检测方法

Publications (2)

Publication Number Publication Date
CN112560876A true CN112560876A (zh) 2021-03-26
CN112560876B CN112560876B (zh) 2021-05-11

Family

ID=75034538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110199642.9A Active CN112560876B (zh) 2021-02-23 2021-02-23 解耦度量的单阶段小样本目标检测方法

Country Status (2)

Country Link
US (1) US11205098B1 (zh)
CN (1) CN112560876B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222551A (zh) * 2019-12-30 2020-06-02 成都云尚物联环境科技有限公司 污水管道缺陷图像识别方法、装置、存储介质及电子设备
CN113221993A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 基于元学习和跨阶段沙漏的大视场小样本目标检测方法
CN113378918A (zh) * 2021-06-09 2021-09-10 武汉大学 一种基于度量学习的绝缘子绑扎线状态检测方法
CN113539477A (zh) * 2021-06-24 2021-10-22 杭州深睿博联科技有限公司 一种基于解耦机制的病灶良恶性预测方法及装置
CN113627269A (zh) * 2021-07-16 2021-11-09 中国科学院合肥物质科学研究院 基于解耦分类和回归特征最优层技术的害虫目标检测方法
CN115049666A (zh) * 2022-08-16 2022-09-13 浙江卡易智慧医疗科技有限公司 基于彩色小波协方差深度图模型的内镜虚拟活检装置
CN116229333A (zh) * 2023-05-08 2023-06-06 西南交通大学 基于难易等级自适应动态调整的难易目标解耦检测方法
CN116778277A (zh) * 2023-07-20 2023-09-19 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11887324B2 (en) * 2021-06-30 2024-01-30 Motional Ad Llc Cross-modality active learning for object detection
CN114743257A (zh) * 2022-01-23 2022-07-12 中国电子科技集团公司第十研究所 图像目标行为的检测识别方法
CN114359742B (zh) * 2022-03-21 2022-09-16 济南大学 一种优化小目标检测的加权损失函数计算方法
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN115240240A (zh) * 2022-04-29 2022-10-25 清远蓄能发电有限公司 基于yolo网络的红外人脸识别方法及系统
CN114818945A (zh) * 2022-05-05 2022-07-29 兰州理工大学 融入类别自适应度量学习的小样本图像分类方法及装置
CN115049944B (zh) * 2022-06-02 2024-05-28 北京航空航天大学 一种基于多任务优化的小样本遥感图像目标检测方法
CN114998932A (zh) * 2022-06-10 2022-09-02 哈工大机器人集团股份有限公司 一种基于YOLOv4的行人检测方法及系统
CN114943843B (zh) * 2022-06-14 2024-06-25 河北工业大学 基于形状感知的焊接缺陷检测方法
CN117651976A (zh) * 2022-06-30 2024-03-05 宁德时代新能源科技股份有限公司 缺陷检测方法和装置
CN114862683B (zh) * 2022-07-07 2022-12-09 浪潮电子信息产业股份有限公司 模型生成方法、目标检测方法、装置、设备及介质
CN115082740B (zh) * 2022-07-18 2023-09-01 北京百度网讯科技有限公司 目标检测模型训练方法、目标检测方法、装置、电子设备
CN115424027B (zh) * 2022-08-24 2023-05-23 厦门国际银行股份有限公司 针对画面前景人物的图像相似度比对方法、装置以及设备
CN115409817B (zh) * 2022-08-30 2024-01-26 中南大学 一种基于yolo的轻量高效的检测网络
CN115174272A (zh) * 2022-09-06 2022-10-11 浙江工业大学 一种基于元学习的小样本恶意网络流量检测方法
CN115223206B (zh) * 2022-09-19 2022-12-27 季华实验室 工作服穿戴情况检测方法、装置、电子设备及存储介质
CN115272814B (zh) * 2022-09-28 2022-12-27 南昌工学院 一种远距离空间自适应多尺度的小目标检测方法
CN116091787B (zh) * 2022-10-08 2024-06-18 中南大学 一种基于特征过滤和特征对齐的小样本目标检测方法
CN115631346B (zh) * 2022-11-11 2023-07-18 南京航空航天大学 一种基于不确定性建模的伪装物体检测方法和系统
CN115880672B (zh) * 2023-02-08 2023-06-02 中国第一汽车股份有限公司 目标检测方法、装置、存储介质及设备
CN115862073B (zh) * 2023-02-27 2023-07-04 国网江西省电力有限公司电力科学研究院 一种基于机器视觉的变电站危害鸟种目标检测和识别方法
CN117152596B (zh) * 2023-08-30 2024-04-19 广东皮阿诺科学艺术家居股份有限公司 一种定制家具五金配件袋数与类别智能核验方法
CN117058492B (zh) * 2023-10-13 2024-02-27 之江实验室 一种基于学习解耦的两阶段训练病害识别方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109190442A (zh) * 2018-06-26 2019-01-11 杭州雄迈集成电路技术有限公司 一种基于深度级联卷积神经网络的快速人脸检测方法
CN109655019A (zh) * 2018-10-29 2019-04-19 北方工业大学 一种基于深度学习和三维重建的货物体积测量方法
CN110335270A (zh) * 2019-07-09 2019-10-15 华北电力大学(保定) 基于层级区域特征融合学习的输电线路缺陷检测方法
US20200143205A1 (en) * 2017-08-10 2020-05-07 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection
EP3702961A1 (en) * 2019-02-21 2020-09-02 Tata Consultancy Services Limited Hand detection in first person view

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102535411B1 (ko) * 2017-11-16 2023-05-23 삼성전자주식회사 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
US20200327450A1 (en) * 2019-04-15 2020-10-15 Apple Inc. Addressing a loss-metric mismatch with adaptive loss alignment
US11823378B2 (en) * 2019-12-20 2023-11-21 PAIGE.AI, Inc. Systems and methods for processing electronic images to detect contamination in specimen preparations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143205A1 (en) * 2017-08-10 2020-05-07 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection
CN109190442A (zh) * 2018-06-26 2019-01-11 杭州雄迈集成电路技术有限公司 一种基于深度级联卷积神经网络的快速人脸检测方法
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109655019A (zh) * 2018-10-29 2019-04-19 北方工业大学 一种基于深度学习和三维重建的货物体积测量方法
EP3702961A1 (en) * 2019-02-21 2020-09-02 Tata Consultancy Services Limited Hand detection in first person view
CN110335270A (zh) * 2019-07-09 2019-10-15 华北电力大学(保定) 基于层级区域特征融合学习的输电线路缺陷检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈星宇,张伟劲,孙伟智,任萍安,欧鸥: "基于多尺度与多重残差网络的图像超分辨率重建", 《激光与光电子学进展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222551A (zh) * 2019-12-30 2020-06-02 成都云尚物联环境科技有限公司 污水管道缺陷图像识别方法、装置、存储介质及电子设备
CN113221993B (zh) * 2021-05-06 2023-08-01 西安电子科技大学 基于元学习和跨阶段沙漏的大视场小样本目标检测方法
CN113221993A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 基于元学习和跨阶段沙漏的大视场小样本目标检测方法
CN113378918A (zh) * 2021-06-09 2021-09-10 武汉大学 一种基于度量学习的绝缘子绑扎线状态检测方法
CN113378918B (zh) * 2021-06-09 2022-06-07 武汉大学 一种基于度量学习的绝缘子绑扎线状态检测方法
CN113539477A (zh) * 2021-06-24 2021-10-22 杭州深睿博联科技有限公司 一种基于解耦机制的病灶良恶性预测方法及装置
CN113627269A (zh) * 2021-07-16 2021-11-09 中国科学院合肥物质科学研究院 基于解耦分类和回归特征最优层技术的害虫目标检测方法
CN113627269B (zh) * 2021-07-16 2023-04-28 中国科学院合肥物质科学研究院 基于解耦分类和回归特征最优层技术的害虫目标检测方法
CN115049666A (zh) * 2022-08-16 2022-09-13 浙江卡易智慧医疗科技有限公司 基于彩色小波协方差深度图模型的内镜虚拟活检装置
CN116229333B (zh) * 2023-05-08 2023-07-21 西南交通大学 基于难易等级自适应动态调整的难易目标解耦检测方法
CN116229333A (zh) * 2023-05-08 2023-06-06 西南交通大学 基于难易等级自适应动态调整的难易目标解耦检测方法
CN116778277A (zh) * 2023-07-20 2023-09-19 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法
CN116778277B (zh) * 2023-07-20 2024-03-01 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法

Also Published As

Publication number Publication date
CN112560876B (zh) 2021-05-11
US11205098B1 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
CN112560876B (zh) 解耦度量的单阶段小样本目标检测方法
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN109117831B (zh) 物体检测网络的训练方法和装置
CN108256479B (zh) 人脸跟踪方法和装置
CN111539428A (zh) 基于多尺度特征整合和注意力机制的旋转目标检测方法
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110781756A (zh) 基于遥感图像的城市道路提取方法及装置
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN108230354B (zh) 目标跟踪、网络训练方法、装置、电子设备和存储介质
CN109285181B (zh) 用于识别图像的方法和装置
CN111723728A (zh) 基于双向交互网络的行人搜索方法、系统、装置
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN113158909A (zh) 基于多目标跟踪的行为识别轻量化方法、系统、设备
US8989505B2 (en) Distance metric for image comparison
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
CN113793370A (zh) 三维点云配准方法、装置、电子设备及可读介质
CN111612075A (zh) 基于联合特征重组和特征混合的兴趣点、描述符提取方法
CN112862730B (zh) 点云特征增强方法、装置、计算机设备和存储介质
CN113052295B (zh) 一种神经网络的训练方法、物体检测方法、装置及设备
CN114332457A (zh) 图像实例分割模型训练、图像实例分割方法和装置
CN111563916B (zh) 基于立体视觉的长时无人机跟踪定位方法、系统、装置
CN113537026A (zh) 建筑平面图中的图元检测方法、装置、设备及介质
CN117636298A (zh) 基于多尺度特征学习的车辆重识别方法、系统及存储介质
CN115861255A (zh) 用于图像处理的模型训练方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant