CN116109841A - 一种基于动态语义向量的零样本目标检测方法及装置 - Google Patents

一种基于动态语义向量的零样本目标检测方法及装置 Download PDF

Info

Publication number
CN116109841A
CN116109841A CN202310380077.5A CN202310380077A CN116109841A CN 116109841 A CN116109841 A CN 116109841A CN 202310380077 A CN202310380077 A CN 202310380077A CN 116109841 A CN116109841 A CN 116109841A
Authority
CN
China
Prior art keywords
semantic
semantic vector
dynamic
visible
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310380077.5A
Other languages
English (en)
Other versions
CN116109841B (zh
Inventor
李浩宇
梅继林
胡瑜
李玮
高少波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310380077.5A priority Critical patent/CN116109841B/zh
Publication of CN116109841A publication Critical patent/CN116109841A/zh
Application granted granted Critical
Publication of CN116109841B publication Critical patent/CN116109841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于动态语义向量的零样本目标检测方法及装置,通过将可见类的语义向量设置为网络参数,然后通过设计的两路分类分支网络结构、引入N‑pair loss损失函数,在训练过程中结合可见类视觉特征修改可见类的语义向量在语义空间中的分布,以获得更合理的语义向量分布,从而同时提高对可见类和不可见类的检测效果。本发明解决了部分类别对象数据难采样前提下如何进行目标检测这一问题,且相比以往的零样本目标检测,本发明基于动态语义向量建模,语义分布更好的贴近视觉特征分布,因此具有更高的目标检测精度。

Description

一种基于动态语义向量的零样本目标检测方法及装置
技术领域
本发明属于深度学习目标检测领域,具体涉及一种基于动态语义向量的零样本目标检测方法及装置。
背景技术
基于深度学习的目标检测方法在自动驾驶等领域中有着广泛的应用,尽管这些方法有较高的精度和泛化性,但它们需要大量的数据进行训练;因此,数据稀缺问题和推理时出现的新类(即那些在训练阶段没有看到的类)阻碍了这些方法在现实场景中的应用;为了解决上述问题,零样本目标检测领域被提出,并引起了广泛的研究关注。
在零样本目标检测中,模型在训练阶段仅能使用可见类数据进行训练,而在推理过程中则需要定位和分类不可见类数据;不可见类数据不出现在模型训练过程中,但出现在模型推理过程中;目前,大多数零样本目标检测方法都是基于Faster-RCNN的;这些方法都假设Faster-RCNN的包围框回归网络可以直接应用到不可见类检测中,而不需要对其参数进行调整。
在以往的方法中, 语义信息被用于构建各目标类别的语义嵌入空间,并被用于对不可见类对象的分类;语义向量在分类网络中被视作类别的常量中心,通过比较映射到语义空间的视觉特征到各个语义向量的距离来完成对目标的分类。通常来说,候选包围框中的对象类别是与其映射到语义空间的视觉特征距离最近的语义向量的类别。
从语义向量与视觉特征的来源分析,语义向量与视觉特征之间存在着差异;语义向量通常是通过自然语言处理模型从大量语料库中学习而来,而视觉特征是通过卷积神经网络直接从对象图像中提取的;因此,语义向量不能充分地表示视觉特征。由于语义空间和视觉空间之间的分布不一致,直接使用语义向量进行分类会降低不可见类的准确性。
发明内容
针对现有技术的不足,本发明提出了一种基于动态语义向量的零样本目标检测方法及装置;通过将可见类的语义向量设置为网络参数,然后通过设计的两路分类分支网络结构、引入的N-pair loss损失函数,在训练过程中结合可见类视觉特征修改可见类的语义向量在语义空间中的分布,以获得更合理的语义向量分布,从而同时提高对可见类和不可见类的检测效果。
为实现上述技术目的,该方法是通过以下技术方案来实现的:
本发明实施例第一方面提供了一种基于动态语义向量的零样本目标检测方法,该方法包括如下步骤:
(1)将待检测图像输入模型,在骨干网络上进行前向传播,得到提取出的视觉特征;
(2)将步骤(1)得到的视觉特征经过BA-RPN生成图像中背景对应的语义向量,用于更新双路分类分支网络中的背景类语义向量,生成候选包围框,再利用RoI池化操作,得到固定大小的候选包围框视觉特征;
(3)将步骤(2)得到的视觉特征经过包围框回归网络,使用回归结果对包围框坐标进行修正,得到对应目标的包围框坐标;
(4)利用步骤(2)得到的视觉特征,经过双路分类分支网络的静态分支前向传播,在语义空间中与各个静态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果;
(5)利用步骤(2)得到的视觉特征,经过双路分类分支网络的动态分支前向传播,在语义空间中与各个动态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果;
(6)利用Max函数对步骤(4)和步骤(5)得到的分类结果进行逐类别筛选,每个类别保留两个分支分类结果中的较大值,使用softmax函数对筛选后的结果进行归一化处理,使得所有类别的概率总和为1,得到最终的可见类分类结果;
(7)利用步骤(6)中的可见类分类结果,结合静态可见类语义向量,将可见类分类结果表示为语义空间中可见类语义向量的线性组合,使用该线性组合,在语义空间中与不可见类各类别语义向量求内积,得到不可见类的分类结果。
进一步地,所述步骤(1)中,所述骨干网络为ResNet-101在ImageNet上的预训练网络模型。
进一步地,所述语义向量是通过word2vec模型预训练模型得到。
进一步地,所述动态的可见类别语义向量作为模型参数,在从word2vec模型预训练模型得到后,需要在模型训练过程根据可见类视觉特征进行参数更新。
进一步地,所述双路分类分支网络由静态语义向量分支和动态语义向量分支组成。
进一步地,所述静态分支中使用的语义向量是常量,在训练过程中不会改变。
进一步地,所述动态分支中使用的语义向量是变量,会根据训练过程中的可见类视觉特征变化。
本发明实施例第二方面提供了一种基于动态语义向量的零样本目标检测装置,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述基于动态语义向量的零样本目标检测的方法。
本发明实施例第三方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于动态语义向量的零样本目标检测的方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于动态语义向量的零样本目标检测的方法。
与现有技术相比,本发明的有益效果是:本发明采用模型集成的思想,设计了双路分类分支网络(TCB);TCB的两个分类分支分别得到更新后的语义向量分类结果和原始的语义向量分类结果,然后使用Max函数对分类结果进行逐类别筛选,得到最终的分类结果。本发明解决了部分类别对象数据难采样前提下如何检测出现频率低的类别物体这一问题,且相比以往的零样本目标检测方法,本发明基于动态语义向量建立,语义分布更好的贴近视觉特征分布,因此具有更高的目标检测精度。
附图说明
图1为本发明实施例示出的基于动态语义向量的零样本目标检测方法的流程图;
图2为本发明实施例示出的基于动态语义向量的零样本目标检测方法的模型整体结构图;
图3为本发明实施例示出的基于动态语义向量的零样本目标检测方法的双路分类分支网络结构图;
图4为本发明实施例示出的基于动态语义向量的零样本目标检测方法的方法对比结果图;
图5为本发明实施例示出的基于动态语义向量的零样本目标检测装置的示意图;
图6是本发明实施例示出的一种电子设备的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
首先给出技术术语解释:
(1)Faster-RCNN:Faster Region Convolutional Neural Networks,两阶段目标检测模型;一阶段利用RPN生成可能包含目标的候选框并提取相应特征,二阶段对候选框进行分类和位置调整;
(2)BA-RPN:Background Aware Region Proposal Network,背景知晓区域候选网络;利用1×1的卷积核进行前景背景区分的区域候选网络。该网络根据图像特征图生成可能包含目标的候选框,同时将区分背景类的卷积核参数作为语义向量输出,使得背景类语义向量能够根据数据集进行自适应更新;
(3)RoI Pooling:感兴趣区域池化,利用双线性插值、最大值池化,将不同大小候选框对应的特征图统一到相同的维度;
(4)RPN:Region Proposal Network,区域候选网络;根据图像特征图生成可能包含目标的候选框。
本发明实施例提供的一种基于动态语义向量的零样本目标检测方法,如图1所示,包括如下步骤:
(1)使用骨干网络提取的视觉特征:将待检测图像输入模型,在骨干网络上进行前向传播,得到提取出的视觉特征;
(2)使用BA-RPN生成候选包围框以及背景语义向量:将步骤(1)得到的视觉特征经过BA-RPN生成图像中背景对应的语义向量,用于更新双路分类分支网络中的背景类语义向量,生成候选包围框,利用RoI Pooling池化操作,得到固定大小的候选包围框视觉特征;
(3)用包围框回归网络对目标的位置进行回归:将步骤(2)得到的视觉特征经过包围框回归网络,使用回归结果对包围框坐标进行修正,得到对应目标的包围框坐标;
(4)使用双路分类分支网络的静态分类分支对视觉特征进行分类:利用步骤(2)得到的特征,经过双路分类分支网络的静态分支前向传播,在语义空间中与各个静态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果;
(5)使用双路分类分支网络的动态分类分支对视觉特征进行分类:利用步骤(2)得到的视觉特征,经过双路分类分支网络的动态分支前向传播,在语义空间中与各个动态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果;
(6)对两路分类结果进行筛选与汇总:利用Max函数对步骤(4)和步骤(5)得到的分类结果进行逐类别筛选,每个类别保留两个分支分类结果中的较大值,使用softmax函数对筛选后的结果进行归一化处理,使得所有类别的概率总和为1,得到最终的可见类分类结果;
(7)可见类分类结果向不可见类分类迁移:利用步骤(6)中的可见类分类结果,结合静态可见类语义向量,将可见类分类结果表示为语义空间中可见类语义向量的线性组合,使用该线性组合,在语义空间中与不可见类各类别语义向量求内积,得到不可见类的分类结果。
参见图2的模型整体结构图,该模型基于Faster-RCNN架构,模型的主干是Imagenet上Resnet101的预训练网络;对于RPN部分,选择背景感知区域建议网络(BA-RPN)在生成候选包围框的同时生成背景视觉特征对应的语义向量;对训练过程中输入的图像,首先使用ResNet101提取视觉特征,然后使用BA-RPN生成背景类别的语义向量以及候选包围框
Figure SMS_1
,其中,
Figure SMS_2
表示可见类目标候选包围框,
Figure SMS_3
表示四维实数元组;由RoI Pooling层获得固定大小的候选框特征
Figure SMS_4
。将候选框特征
Figure SMS_5
分别输入包围框回归网络和分类网络,得到候选框的坐标和其中对象的分类结果;在推理过程中,模型利用从可见类数据中学习到的参数来检测不可见类对象。
参见图3的双路分类分支网络(TCB)结构图,双路分类分支网络(TCB)由静态语义向量分支和动态语义向量分支组成;静态分支中使用的语义向量是常量,在训练过程中不会改变,而动态分支中使用的语义向量是变量,会根据训练过程中的可见类视觉特征变化;双路分类分支网络(TCB)利用Max函数对两条分类分支的预测结果进行筛选,得到最终的分类结果。
图3中上方分支是静态语义向量分支,下方分支是动态语义向量分支;
Figure SMS_7
Figure SMS_11
分别表示静态可见类词向量和动态可见类词向量,
Figure SMS_15
表示额外语义词汇表,
Figure SMS_9
表示候选包围框的数量,
Figure SMS_14
表示压缩后的包围框视觉特征维度,
Figure SMS_17
表示词向量的维度,
Figure SMS_18
表示
Figure SMS_6
中的词汇数量,
Figure SMS_10
表示可见类类别个数;解码器是特征语义对齐线性层
Figure SMS_13
和注意线性层
Figure SMS_16
映射网络逻辑上的逆函数,它将语义空间的特征重新投影回视觉空间,解码器能够提高特征语义对齐线性层
Figure SMS_8
和注意线性层
Figure SMS_12
的映射能力。
静态语义向量分支由候选包围框特征压缩网络
Figure SMS_19
、将视觉特征投影到语义空间的特征语义对齐线性层
Figure SMS_24
、额外语义词汇表
Figure SMS_27
构建可见类与其在
Figure SMS_22
中的相关词所联系的注意线性层
Figure SMS_26
、可见类类别语义向量矩阵
Figure SMS_29
(其中,
Figure SMS_30
包括BA-RPN生成的背景类语义向量)这五部分组成;其中,
Figure SMS_21
由两个线性层组成,并使用RELU作为激活函数;
Figure SMS_25
Figure SMS_28
是常量,
Figure SMS_31
Figure SMS_20
Figure SMS_23
在训练时会被修改。
静态语义向量分支中,候选包围框中的
Figure SMS_32
经候选包围框特征压缩网络
Figure SMS_35
压缩维度后变为
Figure SMS_38
;通过特征语义对齐线性层
Figure SMS_33
Figure SMS_37
映射到语义空间,通过矩阵乘法在语义空间计算映射特征与
Figure SMS_40
中每个语义向量的相似度
Figure SMS_42
;通过注意线性层
Figure SMS_34
Figure SMS_36
重新映射到语义空间,通过
Figure SMS_39
计算静态语义向量分支中的类别概率
Figure SMS_41
静态语义向量分支可以用公式(1)-公式(2)表示:
Figure SMS_43
(1)
Figure SMS_44
(2)
其中,
Figure SMS_45
表示静态语义向量分支中压缩后的候选框特征,
Figure SMS_46
表示候选框特征,
Figure SMS_47
表示静态语义向量分支中的类别概率,
Figure SMS_48
表示可见类词向量,
Figure SMS_49
表示额外语义词汇表。
动态语义向量分支的结构与静态语义向量分支相似,也包括候选包围框特征压缩网络
Figure SMS_59
、特征语义对齐层
Figure SMS_51
、额外语义词汇表
Figure SMS_62
、构建可见类与其在
Figure SMS_58
中的相关词的联系的注意线性层
Figure SMS_66
、可见类类别语义向量矩阵
Figure SMS_56
五个部分。
Figure SMS_67
Figure SMS_52
Figure SMS_65
、与
Figure SMS_50
Figure SMS_60
Figure SMS_53
结构相同,但不共享参数。在动态语义向量分支中,只有
Figure SMS_61
是不变的,
Figure SMS_54
Figure SMS_63
Figure SMS_55
Figure SMS_68
(背景语义向量除外)在训练时被修改。
Figure SMS_57
初始化时与
Figure SMS_64
相同,并将在训练期间更新。
在动态语义向量分支中,候选包围框中的
Figure SMS_71
Figure SMS_73
压缩维度后变为
Figure SMS_76
Figure SMS_70
通过层
Figure SMS_74
映射到语义空间,在语义空间中通过矩阵乘法计算映射特征与
Figure SMS_77
中每个语义向量的相似度
Figure SMS_79
;通过网络层
Figure SMS_69
Figure SMS_72
重新映射到语义空间,通过
Figure SMS_75
计算动态语义向量分支中的类别概率
Figure SMS_78
动态语义向量分支可以用公式(3)-公式(4)表示:
Figure SMS_80
(3)
Figure SMS_81
(4)
其中,
Figure SMS_82
表示候选框特征,
Figure SMS_83
表示动态语义向量分支中压缩后的候选框特征,
Figure SMS_84
表示动态语义向量分支中的类别概率。
最终,可见类通过TCB的分类结果可以用公式(5)表示为:
Figure SMS_85
(5)
其中,
Figure SMS_86
表示TCB的可见类分类结果,
Figure SMS_87
表示softmax函数,Max函数逐类别比较两个分支的相似度。
TCB的不可见类分类结果可以用公式(6)表示为:
Figure SMS_88
(6)
其中,
Figure SMS_89
表示TCB的不可见类分类结果,
Figure SMS_90
表示不可见类的语义向量,
Figure SMS_91
表示静态语义分支可见类语义向量矩阵的转置。
在对每个分支的分类器中,语义向量作为类别中心,需要尽可能的相互远离,以获得更好的分类结果,使用N-pair loss类似的损失项,用公式(7)表示:
Figure SMS_92
(7)
其中
Figure SMS_95
Figure SMS_97
表示任意可见类的语义向量,
Figure SMS_100
表示计算
Figure SMS_94
Figure SMS_98
的余弦相似度,
Figure SMS_101
表示第
Figure SMS_102
个语义向量对应的N-pair loss,
Figure SMS_93
表示可见类语义向量总数,
Figure SMS_96
表示第
Figure SMS_99
个可见类语义向量的编号;用公式(8)表示:
Figure SMS_103
(8)
Figure SMS_104
的整体N-pair loss损失项如式(8)所示,是对计算式(7)对所见的每个类类别的累计结果;其中,
Figure SMS_105
表示
Figure SMS_106
的整体N-pair loss损失项,
Figure SMS_107
表示可见类语义向量总数,
Figure SMS_108
表示第
Figure SMS_109
个可见类语义向量的编号;损失项使语义向量相互分离,同时提高了视觉特征的表示能力,提高了分类效果。
模型整体的损失函数如式(9)所示,包含四个部分:
Figure SMS_110
(9)
其中,
Figure SMS_114
表示模型整体的损失函数,
Figure SMS_116
为分类的交叉熵损失,
Figure SMS_119
为回归网络的边界框回归损失,损失函数为SmoothL1;
Figure SMS_112
是N-pair loss对应的权重超参数,
Figure SMS_115
表示
Figure SMS_118
的整体N-pair loss损失项;
Figure SMS_121
是编码器-解码器损失项对应的权值超参数,该损失项将映射网络
Figure SMS_111
Figure SMS_117
作为编码器,并添加额外的网络层作为映射网络的反函数,即解码器;
Figure SMS_120
使用均方误差作为损失函数来度量编码前特征和解码后特征的差异,可以提高
Figure SMS_122
Figure SMS_113
的映射能力。
为了验证该零样本目标检测方法的有效性,本实施例TCB在MS-COCO数据集上做了实验并与一些零样本目标检测方法PL、BLC、ZSL进行了比较,如图4所示,实验结果证明了本发明的有效性;在65/15类别划分上,与ZSI相比,本实施例TCB在可见类的召回率和准确率两种指标上分别带来2.27%和1.24%的增长;在不可见类的召回率和准确率上分别带来0.92%和0.21%的增长。在48/17类别划分上,与ZSI相比,对于可见类,本实施TCB例带来了0.86%的准确率增长和1.21%的召回率增长;对于不可见类,本实施例带来了0.07%的准确率增长。上述结果表明,更新后的可见类语义向量更符合视觉特征,能较好地将可见类的预测结果转化为对不见类的预测,该方法能够在提高不可见类目标检测效果的同时,提高可见类目标的检测效果。
与前述基于动态语义向量的零样本目标检测方法的实施例相对应,本发明还提供了基于动态语义向量的零样本目标检测装置的实施例。
参见图5,本发明实施例提供的一种基于动态语义向量的零样本目标检测装置,包括一个或多个处理器,用于实现上述实施例中的一种基于动态语义向量的零样本目标检测的方法。
本发明基于动态语义向量的零样本目标检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于动态语义向量的零样本目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
与前述基于动态语义向量的零样本目标检测方法的实施例相对应,本申请实施例还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于动态语义向量的零样本目标检测方法。如图6所示,为本申请实施例提供的基于动态语义向量的零样本目标检测方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
与前述基于动态语义向量的零样本目标检测方法的实施例相对应,本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于动态语义向量的零样本目标检测的方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (10)

1.一种基于动态语义向量的零样本目标检测方法,其特征在于,该方法包括如下步骤:
(1)将待检测图像输入模型,在骨干网络上进行前向传播,得到提取出的视觉特征;
(2)将步骤(1)得到的视觉特征经过BA-RPN生成图像中背景对应的语义向量,用于更新双路分类分支网络中的背景类语义向量,生成候选包围框,再利用RoI池化操作,得到固定大小的候选包围框视觉特征;
(3)将步骤(2)得到的视觉特征经过包围框回归网络,使用回归结果对包围框坐标进行修正,得到对应目标的包围框坐标;
(4)利用步骤(2)得到的视觉特征,经过双路分类分支网络的静态分支前向传播,在语义空间中与各个静态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为静态分类分支的可见类分类结果;
(5)利用步骤(2)得到的视觉特征,经过双路分类分支网络的动态分支前向传播,在语义空间中与各个动态的可见类别语义向量进行距离比较,使用映射到语义空间的视觉特征与各个可见类别语义向量的内积作为动态分类分支的可见类分类结果;
(6)利用Max函数对步骤(4)和步骤(5)得到的分类结果进行逐类别筛选,每个类别保留两个分支分类结果中的较大值,使用softmax函数对筛选后的结果进行归一化处理,使得所有类别的概率总和为1,得到最终的可见类分类结果;
(7)利用步骤(6)中的可见类分类结果,结合静态可见类语义向量,将可见类分类结果表示为语义空间中可见类语义向量的线性组合,使用该线性组合,在语义空间中与不可见类各类别语义向量求内积,得到不可见类的分类结果。
2.根据权利要求1所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述步骤(1)中,所述骨干网络为ResNet-101在ImageNet上的预训练网络模型。
3.根据权利要求1所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述语义向量是通过word2vec模型预训练模型得到。
4.根据权利要求3所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述动态的可见类别语义向量作为模型参数,在从word2vec模型预训练模型得到后,需要在模型训练过程根据可见类视觉特征进行参数更新。
5.根据权利要求1所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述双路分类分支网络由静态语义向量分支和动态语义向量分支组成。
6.根据权利要求1所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述静态分支中使用的语义向量是常量,在训练过程中不会改变。
7.根据权利要求1所述的基于动态语义向量的零样本目标检测方法,其特征在于,所述动态分支中使用的语义向量是变量,会根据训练过程中的可见类视觉特征变化。
8.一种基于动态语义向量的零样本目标检测装置,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1~7任一项所述的基于动态语义向量的零样本目标检测方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于动态语义向量的零样本目标检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1~7中任意一项所述的基于动态语义向量的零样本目标检测方法。
CN202310380077.5A 2023-04-11 2023-04-11 一种基于动态语义向量的零样本目标检测方法及装置 Active CN116109841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310380077.5A CN116109841B (zh) 2023-04-11 2023-04-11 一种基于动态语义向量的零样本目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310380077.5A CN116109841B (zh) 2023-04-11 2023-04-11 一种基于动态语义向量的零样本目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN116109841A true CN116109841A (zh) 2023-05-12
CN116109841B CN116109841B (zh) 2023-08-15

Family

ID=86267631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310380077.5A Active CN116109841B (zh) 2023-04-11 2023-04-11 一种基于动态语义向量的零样本目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN116109841B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292538A1 (en) * 2015-03-31 2016-10-06 Disney Enterprises, Inc. Object Classification Through Semantic Mapping
CN111461162A (zh) * 2020-01-03 2020-07-28 华中科技大学 一种零样本目标检测模型及其建立方法
US20200311077A1 (en) * 2019-03-25 2020-10-01 Microsoft Technology Licensing, Llc Multi-layer semantic search
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法
CN112364851A (zh) * 2021-01-13 2021-02-12 北京邮电大学 一种自动调制识别方法、装置、电子设备及存储介质
CN113298096A (zh) * 2021-07-07 2021-08-24 中国人民解放军国防科技大学 训练零样本分类模型的方法、系统、电子设备及存储介质
CN113378959A (zh) * 2021-06-24 2021-09-10 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113920561A (zh) * 2021-09-23 2022-01-11 广东技术师范大学 一种基于零样本学习的人脸表情识别方法及装置
US20220012901A1 (en) * 2020-07-10 2022-01-13 University Of South Florida Motion taxonomy for manipulation embedding and recognition
US20220058432A1 (en) * 2020-08-21 2022-02-24 Carnegie Mellon University Few-shot object detection using semantic relation reasoning
CN114612726A (zh) * 2022-03-22 2022-06-10 南京工业大学 一种基于字典学习的零样本图像分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292538A1 (en) * 2015-03-31 2016-10-06 Disney Enterprises, Inc. Object Classification Through Semantic Mapping
US20200311077A1 (en) * 2019-03-25 2020-10-01 Microsoft Technology Licensing, Llc Multi-layer semantic search
CN111461162A (zh) * 2020-01-03 2020-07-28 华中科技大学 一种零样本目标检测模型及其建立方法
US20220012901A1 (en) * 2020-07-10 2022-01-13 University Of South Florida Motion taxonomy for manipulation embedding and recognition
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法
US20220058432A1 (en) * 2020-08-21 2022-02-24 Carnegie Mellon University Few-shot object detection using semantic relation reasoning
CN112364851A (zh) * 2021-01-13 2021-02-12 北京邮电大学 一种自动调制识别方法、装置、电子设备及存储介质
CN113378959A (zh) * 2021-06-24 2021-09-10 中国矿业大学 一种基于语义纠错下生成对抗网络的零样本学习方法
CN113298096A (zh) * 2021-07-07 2021-08-24 中国人民解放军国防科技大学 训练零样本分类模型的方法、系统、电子设备及存储介质
CN113920561A (zh) * 2021-09-23 2022-01-11 广东技术师范大学 一种基于零样本学习的人脸表情识别方法及装置
CN114612726A (zh) * 2022-03-22 2022-06-10 南京工业大学 一种基于字典学习的零样本图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YILAN SHAO等: "Zero-Shot Detection with Transferable Object Proposal Mechanism", 《ICIP2019》 *
陈雯柏;陈祥凤;刘琼;韩琥;: "一种粒子群优化融合特征的零样本图像分类算法", 西北工业大学学报, no. 06 *
鲁亚男;鲁林溪;杜东舫;: "零样本学习在图像分类中的应用", 电子技术与软件工程, no. 12 *

Also Published As

Publication number Publication date
CN116109841B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Rusak et al. A simple way to make neural networks robust against diverse image corruptions
US11402496B2 (en) Method and apparatus for enhancing semantic features of SAR image oriented small set of samples
Li et al. Zoom out-and-in network with map attention decision for region proposal and object detection
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
JP4618098B2 (ja) 画像処理システム
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN112529146B (zh) 神经网络模型训练的方法和装置
JP2015506026A (ja) 画像分類
Wu et al. Centroid transformers: Learning to abstract with attention
US11695898B2 (en) Video processing using a spectral decomposition layer
US20200175324A1 (en) Segmentation of target areas in images
WO2023088174A1 (zh) 目标检测方法及装置
Ning et al. Conditional generative adversarial networks based on the principle of homologycontinuity for face aging
Franchi et al. Latent discriminant deterministic uncertainty
CN114913379A (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN113284122A (zh) 基于深度学习的卷纸包装缺陷检测方法、装置及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Wang et al. SERR‐U‐Net: Squeeze‐and‐Excitation Residual and Recurrent Block‐Based U‐Net for Automatic Vessel Segmentation in Retinal Image
Roy et al. Tips: Text-induced pose synthesis
Jiang et al. Single image detail enhancement via metropolis theorem
CN116109841B (zh) 一种基于动态语义向量的零样本目标检测方法及装置
Fan et al. [Retracted] Accurate Recognition and Simulation of 3D Visual Image of Aerobics Movement
CN114565964B (zh) 情绪识别模型的生成方法、识别方法、装置、介质和设备
Sun et al. Virtual reality of recognition technologies of the improved contour coding image based on level set and neural network models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant