CN111461162A - 一种零样本目标检测模型及其建立方法 - Google Patents

一种零样本目标检测模型及其建立方法 Download PDF

Info

Publication number
CN111461162A
CN111461162A CN202010005939.2A CN202010005939A CN111461162A CN 111461162 A CN111461162 A CN 111461162A CN 202010005939 A CN202010005939 A CN 202010005939A CN 111461162 A CN111461162 A CN 111461162A
Authority
CN
China
Prior art keywords
visual
generation unit
visible
class
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010005939.2A
Other languages
English (en)
Other versions
CN111461162B (zh
Inventor
胡菲
赵世震
高常鑫
桑农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010005939.2A priority Critical patent/CN111461162B/zh
Publication of CN111461162A publication Critical patent/CN111461162A/zh
Application granted granted Critical
Publication of CN111461162B publication Critical patent/CN111461162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种零样本目标检测模型及其建立方法,属于模式识别领域。具体包括:根据可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量,训练IoUGAN;将不可见类的语义嵌入向量输入IoUGAN,获取不可见类的视觉特征;用不可见类的视觉特征训练零样本分类器;将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。IoUGAN用于接收不可见类的语义嵌入向量,生成不可见类的视觉特征训练零样本分类器;IoUGAN包括CFU、FFU和BFU;本发明获取的零样本目标检测模型根据输入的不可见类的测试样本,可准确识别目标的位置以及类别,并且实用性也较强。

Description

一种零样本目标检测模型及其建立方法
技术领域
本发明属于模式识别领域,更具体地,涉及一种零样本目标检测模型及其建立方法。
背景技术
基于深度学习的目标检测方法有着优异的精度和实时性能,因此受到了广泛的关注。然而,检测器的表现依赖于有完全标注边界框的大规模检测数据集,现实世界有大量类别,收集到足够多的带标签数据常常是不切实际的。零样本目标检测的目的是在没有训练样本的情况下同时分类和定位新的类别,可避免上述的问题,不需要收集很多的带标签数据。
零样本目标检测可在两个空间进行:语义嵌入向量空间和视觉特征空间。现有的方法通常将视觉特征从预测的边界框映射到语义嵌入向量空间。在推测阶段,基于与所有类别嵌入的相似度找出最接近的类别进行预测类标签。然而,由于两个空间之间存在异质性,将高维视觉特征映射到低维语义空间往往导致轴枢点问题(hubness problem)。在视觉特征空间中直接对物体进行分类可以解决轴枢点问题。许多零样本分类方法已经证明该解决方案在视觉空间中的有效性。然而,视觉特性不仅包含类内差异,还包含对于目标检测十分关键的IoU(Intersection over Union)差异,现有零样本目标检测方法通常未考虑IoU差异,容易造成零样本目标检测方法的检测结果准确性和实用性较差的问题。
发明内容
针对现有技术的缺陷,本发明提供了一种零样本目标检测模型及其建立方法,其目的是提高零样本目标检测方法的实用性和准确性。
为实现上述目的,一方面,本发明提供了一种零样本目标检测模型的建立方法,包括:
(1)根据可见类RoI(Region of Interest)视觉特征、高斯随机噪声以及可见类的语义嵌入向量,训练条件生成模型IoUGAN(IoU-Aware Generative AdversarialNetwork);其中,IoUGAN用于获取用于训练零样本分类器的不可见类的视觉特征;
(2)将不可见类的语义嵌入向量输入条件生成模型IoUGAN,获取不可见类的视觉特征;
(3)用不可见类的视觉特征训练零样本分类器;
(4)将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。
优选地,按照产生可见类RoI视觉特征的边界框与对应标注框IoU大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;其中,类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU分别用于根据输入的不可见类的语义嵌入向量,生成不可见类类别特征、前景视觉特征和背景视觉特征,每个单元都包含一个生成器和一个判别器,并使用WGAN(WassersteinGenerative Adversarial Network)作为基本结构;
在训练条件生成模型IoUGAN的阶段,可见类类别视觉特征作为类别特征生成单元CFU的输入;可见类前景视觉特征作为前景特征生成单元FFU的输入;可见类背景视觉特征作为背景特征生成单元BFU的输入。
优选地,高斯随机噪声包括第一高斯随机噪声、第二高斯随机噪声和第三高斯随机噪声,步骤(1)具体包括:
(1.1)从可见类训练样本中提取各类别对应的所述可见类类别视觉特征、所述可见类前景视觉特征和所述可见类背景视觉特征;
(1.2)利用可见类的语义嵌入向量、第一高斯随机噪声、可见类类别视觉特征训练类别特征生成单元CFU;
(1.3)采用训练的类别特征生成单元CFU生成的特征向量、第二高斯随机噪声和可见类前景视觉特征训练前景特征生成单元FFU;且采用训练的类别特征生成单元CFU生成的特征向量、第三高斯随机噪声、可见类背景视觉特征训练背景特征生成单元BFU。
优选地,判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为:
判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛,若收敛,则训练完成。
另一方面,本发明提供了一种零样本目标检测模型,包括:特征提取器、框回归器和零样本分类器;
特征提取器用于从不可见类测试样本中提取RoI视觉特征;框回归器用于输入不可见类RoI视觉特征,获取对应的目标边界框;零样本分类器用于根据接收的不可见RoI视觉特征,识别目标的类别;
其中,特征提取器和框回归器通过可见类RoI视觉特征训练获取;
零样本分类器是通过训练后的条件生成模型IoUGAN生成的不可见类视觉特征训练获取的。
优选地,条件生成模型IoUGAN接收不可见的语义嵌入向量,获取不可见类的视觉特征用于训练零样本分类器;
条件生成模型IoUGAN通过可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量训练获取的。
优选地,按照产生所述可见类RoI视觉特征的边界框与对应标注框的IoU大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;
在训练条件生成模型IoUGAN的阶段,可见类类别视觉特征作为类别特征生成单元CFU的输入;可见类前景视觉特征作为前景特征生成单元FFU的输入;可见类背景视觉特征作为背景特征生成单元BFU的输入。
优选地,判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为:
判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛,若收敛,则训练完成。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明建立的零样本目标检测模型中引入IoUGAN,首先利用可见类的语义嵌入向量、高斯噪声和可见类语义特征对IoUGAN进行训练,然后在训练完成的IoUGAN的输入端输入不可见类的语义嵌入向量,输出包含类内差异和IoU差异信息的不可见类视觉特征,对零样本分类器进行训练,最后获取的零样本目标检测模型根据输入的不可见类的测试图片可准确识别目标的类别以及位置,并且实用性也较强。
(2)本发明建立的零样本目标检测模型利用容易获得的语义嵌入向量生成不可见类的视觉特征,可以弥补无训练样本的缺陷,同时大大减少了人工标注的劳动力消耗。
(3)本发明对IoU(Intersection over Union)感知的条件生成模型IoUGAN可以生成同时有类内差异和IoU差异的视觉特征,能够获取更适用于零样本分类器的训练特征,从而提高零样本目标检测的性能。
(4)本发明按照可见类RoI视觉特征的边界框与对应标注框IoU的大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;IoUGAN包括CFU、FFU和BFU;在训练IoUGAN的阶段,可见类类别视觉特征作为CFU的输入;可见类前景视觉特征作为FFU的输入;可见类背景视觉特征作为BFU的输入;利用训练得到的IoUGAN生成的不可见类视觉特征对零样本目标检测模型进行训练,最终获取的零样本目标检测模型的测试结果与目前最先进的零样本目标检测算法相比检测精度更高,稳定性更强。
附图说明
图1是本发明提供的零样本目标检测模型的结构图;
图2是本发明提供的特征合成器IoUGAN的网络结构图;
图3是本发明提供的零样本目标检测结果的部分可视化展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,本发明提供了一种零样本目标检测模型的建立方法,包括:
(1)根据可见类RoI(Region of Interest)视觉特征、高斯随机噪声以及可见类的语义嵌入向量,训练条件生成模型IoUGAN;其中,IoUGAN用于获取用于训练零样本分类器的不可见类的视觉特征;
(2)将不可见类的语义嵌入向量输入条件生成模型IoUGAN,获取不可见类的视觉特征;
(3)用不可见类的视觉特征训练零样本分类器;
(4)将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。
优选地,按照产生可见类RoI视觉特征的边界框与对应标注框IoU大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;其中,类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU基于条件生成模型的结构建立,分别用于根据输入的不可见类的语义嵌入向量,生成不可见类类别特征、前景视觉特征和背景视觉特征,每个单元都包含一个生成器和一个判别器,并使用WGAN作为基本结构;
在训练条件生成模型IoUGAN的阶段,可见类类别视觉特征作为类别特征生成单元CFU的输入;可见类前景视觉特征作为前景特征生成单元FFU的输入;可见类背景视觉特征作为背景特征生成单元BFU的输入。
优选地,高斯随机噪声包括第一高斯随机噪声、第二高斯随机噪声和第三高斯随机噪声,步骤(1)具体包括:
(1.1)从可见类训练样本中提取各类别对应的所述可见类类别视觉特征、所述可见类前景视觉特征和所述可见类背景视觉特征;
(1.2)利用可见类的语义嵌入向量、第一高斯随机噪声、可见类类别视觉特征训练类别特征生成单元CFU;
(1.3)采用训练的类别特征生成单元CFU生成的特征向量、第二高斯随机噪声和可见类前景视觉特征训练前景特征生成单元FFU;且采用训练的类别特征生成单元CFU生成的特征向量、第三高斯随机噪声、可见类背景视觉特征训练背景特征生成单元BFU。
优选地,判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为:
判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛,若收敛,则训练完成。
另一方面,本发明提供了一种零样本目标检测模型,包括:特征提取器、框回归器和零样本分类器;
特征提取器用于从不可见类测试样本中提取RoI视觉特征;框回归器用于输入不可见RoI类视觉特征,获取对应的目标边界框;零样本分类器用于根据接收的不可见RoI视觉特征,识别目标的类别;
其中,特征提取器和框回归器通过可见类RoI视觉特征训练获取;
零样本分类器是通过训练后的条件生成模型IoUGAN生成的不可见类视觉特征训练获取的。
优选地,条件生成模型IoUGAN接收不可见的语义嵌入向量,获取不可见类的视觉特征用于训练零样本分类器;
条件生成模型IoUGAN通过可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量训练获取的。
优选地,按照产生所述可见类RoI视觉特征的边界框与对应标注框的IoU大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;
在训练条件生成模型IoUGAN的阶段,可见类类别视觉特征作为类别特征生成单元CFU的输入;可见类前景视觉特征作为前景特征生成单元FFU的输入;可见类背景视觉特征作为背景特征生成单元BFU的输入。
优选地,判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为:
判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛,若收敛,则训练完成。
实施例
以下首先对本实施例用到的术语进行解释和说明:
可见类:拥有大量完全标记(目标边界框和目标类别)训练图片的基础类别;
不可见类:无训练图片的目标类别,即零样本类别;
语义嵌入向量:把由fastText训练的文本描述嵌入作为类语义嵌入向量;
类别视觉特征:从某样本对应标注框内图像提取的视觉特征;
前景视觉特征:从与对应标注框IoU大于某阈值(如:tf)的边界框内图像提取的视觉特征;
背景视觉特征:从与对应标注框IoU小于某阈值(如:tb)的边界框内图像提取的视觉特征;
结合图1公开的本实施例提供的零样本目标检测模型的结构图,介绍零样本的建立方法,具体如下:
(1)利用拥有完全标记的大规模的可见类数据集,对传统的二阶段目标检测模块进行预训练,获取一个具有可见类RoI视觉特征提取能力的模型,其中,特征提取器采用Faster R-CNN第一阶段的RPN(region proposal network)网络结构,从可见类数据集中初步定位前景目标边界框,并提取RoI特征;
(2)利用特征提取器中获取真实的可见类RoI视觉特征、可见类的语义嵌入向量和高斯随机噪声对IoUGAN(可根据语义特征向量所属类别生成对应RoI视觉特征的条件生成模型)进行训练,其中,IoUGAN包括:Class Feature Generating Unit(CFU)、ForegroundFeature Generating Unit(FFU)和Background Feature Generating Unit(BFU);
使用特征提取器对可见类的RoI视觉特征进行采样,IoUGAN的训练集(拥有完全标记的大规模的可见类数据集)表示为:
Figure BDA0002355292050000081
其中,s为可见类的类别数,i代表类别的编号,Ni表示i类训练标注框数,j代表标注框的编号,
Figure BDA0002355292050000082
代表i类中的j号标注框的前景视觉特征和背景视觉特征总数,
Figure BDA0002355292050000083
为从i类别j号标注边界框提取的可见类的类别视觉特征;
Figure BDA0002355292050000084
为i类中的j号标注框的k号前景特征,来自与对应标注框的IoU值大于阈值tf的边界框;
Figure BDA0002355292050000085
为i类中的j号标注框的k号背景特征,来自与对应的标注框的IoU值小于阈值tb的边界框;
Figure BDA0002355292050000091
为可见类中的类标签,
Figure BDA0002355292050000092
e(yi)∈ε为可见类类别的语义嵌入向量,ε为语义嵌入向量所在空间;
Figure BDA0002355292050000093
Figure BDA0002355292050000094
通过预训练的特征提取器进行采样。在训练阶段,从训练样本中随机选择
Figure BDA0002355292050000095
Figure BDA0002355292050000096
以及相对应的
Figure BDA0002355292050000097
输入IoUGAN;此外,不可见类的语义嵌入向量为
Figure BDA0002355292050000098
其中,ui为不可见类类别标签,来自和可见类别不相交的标签集
Figure BDA0002355292050000099
CFU:首先利用CFU生成具有类内差异的视觉特征,使用从标注边界框提取的可见类的类别视觉特征vc作为真实特征,以指导CFU的生成器捕获对象的总体特征;用给定可见类的训练集S训练CFU以获取条件生成器Gc,能够在输入类别语义嵌入向量e(y)∈ε和高斯随机噪声z的情况下输出对应类别带有类内差异的视觉特征;CFU的判别器Dc是输出真实值的多层感知器;CFU的生成器试图将损失值最小化,而判别器试图最大化损失值;一旦CFU的生成器Gc学习到以可见类的语义嵌入向量e(y)为条件合成可见类的类别视觉特征,它也可以通过任何不可见类u的语义嵌入向量e(u)生成不可见类类别视觉特征,CFU的条件WGAN损失由下式给出:
Figure BDA00023552920500000910
其中,
Figure BDA00023552920500000911
是vc
Figure BDA00023552920500000912
的凸组合;
Figure BDA00023552920500000913
ηc~U(0,1),αc是惩罚系数;
Figure BDA00023552920500000914
是求x的期望值;Wasserstein距离由前两项近似,而第三项将判别器的梯度约束为具有vc
Figure BDA00023552920500000915
的凸组合的单位范数;
FFU:RPN预测的边界框始终不能与真实边界框完全重叠。甚至是与标注边界框有着比较大IoU的正边界框,与从真实边界框提取的特征相比,仍然缺少一些信息。检测器应对前景特征的信息丢失具有鲁棒性。在这种情况下,使用FFU将IoU差异随机添加到CFU输出的特征中。因此,前景特征vf被用作训练FFU的真实特征。利用CFU的输出特征:
Figure BDA00023552920500000916
和高斯随机噪声z,FFU的条件WGAN损失由下式给出:
Figure BDA0002355292050000101
其中,
Figure BDA0002355292050000102
是vf
Figure BDA0002355292050000103
的凸组合:
Figure BDA0002355292050000104
ηf~U(0,1),αf是惩罚系数,Df和Gf分别为FFU的判别器和生成器;与CFU中的生成器不同,类语义嵌入向量不用作FFU生成器的输入,而是假定
Figure BDA0002355292050000105
已经保留了语义信息;
BFU:背景和零样本类之间的混淆限制了零样本检测器的性能。为了增强IoUGAN在背景类和看不见类之间的区别,使用BFU生成特定类的背景特征,使用背景特征vb作为训练BFU的真实特征。利用CFU的输出特征
Figure BDA0002355292050000106
和高斯随机噪声z,BFU的条件WGAN损失由下式给出:
Figure BDA0002355292050000107
其中,
Figure BDA0002355292050000108
是vb
Figure BDA0002355292050000109
的凸组合:
Figure BDA00023552920500001010
ηb~U(0,1),αb是惩罚系数,Db和Gb分别为BFU的判别器和生成器。与CFU中的生成器不同,类语义嵌入向量不用作BFU生成器的输入,而是假定
Figure BDA00023552920500001011
已经保留了语义信息;
另外,合成的特征(
Figure BDA00023552920500001012
Figure BDA00023552920500001013
)需要适用于让IoUGAN训练出有判别能力的零样本目标检测模型。使用在可见类数据集上训练的IoUGAN对合成的特征
Figure BDA00023552920500001014
进行分类,并将合成的特征的分类损失最小化。为简单起见,使用
Figure BDA00023552920500001015
表示所有生成的特征(即:
Figure BDA00023552920500001016
Figure BDA00023552920500001017
);分类损失的定义为:
Figure BDA00023552920500001018
其中,y为
Figure BDA00023552920500001019
的类别标签;
Figure BDA00023552920500001020
Figure BDA00023552920500001021
属于其实际类别标签y的预测概率;此外,进一步使用
Figure BDA00023552920500001022
分别表示CFU、FFU和BFU三个单元的分类损失函数;条件概率是通过参数为θ且在可见类别的真实特征上预训练好的分类器计算的。
此外,本发明期望类yp的生成特征接近同一类的真实特征,并且远离其他类yq的特征(p≠q),yi∈ys,ys={y1,...,yp,...,yq,...,ys};通过成对地将真实特征和生成特征配对,生成匹配(相同类)和不匹配(不同类)对。最后,可通过余弦嵌入损失分别使匹配特征和未匹配特征之间的距离最小化和最大化,该余弦嵌入损失由下式给出:
Figure BDA0002355292050000111
其中,
Figure BDA0002355292050000112
Figure BDA0002355292050000113
分别是对匹配(m)和不匹配(um)对分布的期望值;同样,用
Figure BDA0002355292050000114
表示所有生成特征(即:
Figure BDA0002355292050000115
Figure BDA0002355292050000116
),使用
Figure BDA0002355292050000117
分别表示CFU、FFU和BFU这三个单元的嵌入损耗函数。虽然其他损失(
Figure BDA0002355292050000118
Figure BDA0002355292050000119
)关注于所生成特征与相同类别的真实特征之间的相似性,但嵌入损失
Figure BDA00023552920500001110
也强调了所产生特征与其他类别特征之间的相似性。
最后,使用超参数β1,β2,β3,γ1,γ2和γ3作为各自损失的加权。用于训练CFU、FFU和BFU的最终目标函数,由下式给出:
Figure BDA00023552920500001111
Figure BDA00023552920500001112
Figure BDA00023552920500001113
因此,CFU、FFU和BFU的总损失函数均包括条件WGAN损失函数、分类损失函数和余弦嵌入损失函数;
(3)将不可见类的语义嵌入向量输入训练后的IoUGAN,生成不可见类的视觉特征;
(4)用生成的不可见类视觉特征训练零样本分类器;
(5)将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。如图3所示,是本实施例的部分结果图。
综上所述,以下是本发明具有的优势:
(1)本发明建立的零样本目标检测模型中引入IoUGAN,首先利用可见类的语义嵌入向量、高斯噪声和可见类语义特征对IoUGAN进行训练,然后在训练完成的IoUGAN的输入端输入不可见类的语义嵌入向量,输出包含类内差异和IoU差异信息的不可见类视觉特征,对零样本分类器进行训练,最后获取的零样本目标检测模型根据输入的不可见类的测试图片可准确识别目标的类别以及位置,并且实用性也较强。
(2)本发明建立的零样本目标检测模型利用容易获得的语义嵌入向量生成不可见类的视觉特征,可以弥补无训练样本的缺陷,同时大大减少了人工标注的劳动力消耗。
(3)本发明对IoU感知的条件生成模型IoUGAN可以生成同时有类内差异和IoU差异的视觉特征,能够获取更适用于零样本分类器的训练特征,从而提高零样本目标检测的性能。
(4)本发明按照可见类RoI视觉特征的边界框与对应标注框IoU的大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;IoUGAN包括CFU、FFU和BFU;在训练IoUGAN的阶段,可见类类别视觉特征作为CFU的输入;可见类前景视觉特征作为FFU的输入;可见类背景视觉特征作为BFU的输入;利用训练得到的IoUGAN生成的不可见类视觉特征对零样本目标检测模型进行训练,最终获取的零样本目标检测模型的测试结果与目前最先进的零样本目标检测算法相比检测精度更高,稳定性更强。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种零样本目标检测模型的建立方法,其特征在于,包括:
(1)根据可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量,训练条件生成模型IoUGAN;其中,所述IoUGAN,用于获取用于训练零样本分类器的不可见类的视觉特征;
(2)将不可见类的语义嵌入向量输入条件生成模型IoUGAN,获取不可见类的视觉特征;
(3)用不可见类的视觉特征训练零样本分类器;
(4)将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。
2.根据权利要求1所述的建立方法,其特征在于,按照产生所述可见类RoI视觉特征的边界框与对应标注框IoU大小,将所述可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
所述条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;其中,类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU分别用于根据输入的不可见类的语义嵌入向量,生成不可见类类别特征、前景视觉特征和背景视觉特征,每个单元都包含一个生成器和一个判别器,并使用WGAN作为基本结构;
在训练条件生成模型IoUGAN的阶段,所述可见类类别视觉特征作为所述类别特征生成单元CFU的输入;所述可见类前景视觉特征作为所述前景特征生成单元FFU的输入;所述可见类背景视觉特征作为所述背景特征生成单元BFU的输入。
3.根据权利要求2所述的建立方法,其特征在于,所述高斯随机噪声包括第一高斯随机噪声、第二高斯随机噪声和第三高斯随机噪声,所述步骤(1)具体包括:
(1.1)从可见类训练样本中提取各类别对应的所述可见类类别视觉特征、所述可见类前景视觉特征和所述可见类背景视觉特征;
(1.2)利用可见类的语义嵌入向量、第一高斯随机噪声、所述可见类类别视觉特征训练类别特征生成单元CFU;
(1.3)采用训练的类别特征生成单元CFU生成的特征向量、第二高斯随机噪声和可见类前景视觉特征训练前景特征生成单元FFU;且采用训练的类别特征生成单元CFU生成的特征向量、第三高斯随机噪声、可见类背景视觉特征训练背景特征生成单元BFU。
4.根据权利要求3所述的建立方法,其特征在于,判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为:
判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛,若收敛,则训练完成。
5.一种零样本目标检测模型,其特征在于,包括:特征提取器、框回归器和零样本分类器;
所述特征提取器用于从不可见类测试样本中提取RoI视觉特征;所述框回归器用于输入不可见类RoI视觉特征,获取对应的目标边界框;所述零样本分类器用于根据接收的不可见RoI视觉特征,识别目标的类别;
其中,所述特征提取器和框回归器通过可见类RoI视觉特征训练获取;
所述零样本分类器是通过条件生成模型IoUGAN生成的不可见类视觉特征训练获取的。
6.根据权利要求5所述的零样本目标检测模型,其特征在于,所述条件生成模型IoUGAN接收不可见的语义嵌入向量,获取用于训练零样本分类器的不可见类的视觉特征;
所述条件生成模型IoUGAN是通过可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量训练获取的。
7.根据权利要求6所述的零样本目标检测模型,其特征在于,按照产生所述可见类RoI视觉特征的边界框与对应标注框的IoU大小,将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征;
所述条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU;
在训练条件生成模型IoUGAN的阶段,所述可见类类别视觉特征作为所述类别特征生成单元CFU的输入;所述可见类前景视觉特征作为所述前景特征生成单元FFU的输入;所述可见类背景视觉特征作为所述背景特征生成单元BFU的输入。
CN202010005939.2A 2020-01-03 2020-01-03 一种零样本目标检测模型及其建立方法 Active CN111461162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005939.2A CN111461162B (zh) 2020-01-03 2020-01-03 一种零样本目标检测模型及其建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005939.2A CN111461162B (zh) 2020-01-03 2020-01-03 一种零样本目标检测模型及其建立方法

Publications (2)

Publication Number Publication Date
CN111461162A true CN111461162A (zh) 2020-07-28
CN111461162B CN111461162B (zh) 2023-04-07

Family

ID=71679943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010005939.2A Active CN111461162B (zh) 2020-01-03 2020-01-03 一种零样本目标检测模型及其建立方法

Country Status (1)

Country Link
CN (1) CN111461162B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163603A (zh) * 2020-09-15 2021-01-01 郑州金惠计算机系统工程有限公司 零样本图像识别方法、装置、电子设备及存储介质
CN115861847A (zh) * 2023-02-24 2023-03-28 耕宇牧星(北京)空间科技有限公司 可见光遥感图像目标智能辅助标注方法
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285739A1 (en) * 2017-03-29 2018-10-04 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
CN108960266A (zh) * 2017-05-22 2018-12-07 阿里巴巴集团控股有限公司 图像目标检测方法及装置
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
CN109492750A (zh) * 2018-10-30 2019-03-19 中国运载火箭技术研究院 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
US20190279075A1 (en) * 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285739A1 (en) * 2017-03-29 2018-10-04 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
CN108960266A (zh) * 2017-05-22 2018-12-07 阿里巴巴集团控股有限公司 图像目标检测方法及装置
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US20190279075A1 (en) * 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109492750A (zh) * 2018-10-30 2019-03-19 中国运载火箭技术研究院 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO XIAO: "A Fast Hybrid Model for Large-scale zero shot image recognition based on knowledge graphs" *
孙涛: "基于判别字典学习的零样本图像分类" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163603A (zh) * 2020-09-15 2021-01-01 郑州金惠计算机系统工程有限公司 零样本图像识别方法、装置、电子设备及存储介质
CN115861847A (zh) * 2023-02-24 2023-03-28 耕宇牧星(北京)空间科技有限公司 可见光遥感图像目标智能辅助标注方法
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置
CN116109841B (zh) * 2023-04-11 2023-08-15 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置

Also Published As

Publication number Publication date
CN111461162B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Leng et al. A survey of open-world person re-identification
Georgakis et al. Synthesizing training data for object detection in indoor scenes
Gao et al. Automatic change detection in synthetic aperture radar images based on PCANet
Singh et al. Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods
Shahab et al. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images
Lee et al. Adaboost for text detection in natural scene
CN111461162B (zh) 一种零样本目标检测模型及其建立方法
CN108090906B (zh) 一种基于区域提名的宫颈图像处理方法及装置
CN103761531A (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN103605993B (zh) 一种基于面向场景判别性分析的图像到视频人脸识别方法
CN108509861B (zh) 一种基于样本学习和目标检测结合的目标跟踪方法和装置
Xu et al. UCDFormer: Unsupervised change detection using a transformer-driven image translation
CN116597438A (zh) 一种基于Yolov5的改进型水果识别方法及识别系统
CN113591825A (zh) 基于超分辨网络的目标搜索重建方法、装置及存储介质
CN110555406B (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
Zhu et al. Dualda-net: Dual-head rectification for cross domain object detection of remote sensing
Yin et al. Video text localization based on Adaboost
CN110458064A (zh) 结合数据驱动型和知识驱动型的低空目标检测与识别方法
Pan et al. Preferential image segmentation using trees of shapes
Qipeng et al. Method of Safety Helmet Wearing Detection based on Key-Point Estimation without Anchor
Chang et al. Phytoplankton feature extraction from microscopic images based on surf-pca
CN110516523A (zh) 移动视频巡检中危险区域行人检测方法
Mosannafat et al. Farsi text detection and localization in videos and images
Sahota et al. An empirical enhancement using scale invariant feature transform in text extraction from images
Budiarsa et al. Face recognition for occluded face with mask region convolutional neural network and fully convolutional network: a literature review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant