CN111461162A

CN111461162A - 一种零样本目标检测模型及其建立方法

Info

Publication number: CN111461162A
Application number: CN202010005939.2A
Authority: CN
Inventors: 胡菲; 赵世震; 高常鑫; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-07-28
Anticipated expiration: 2040-01-03
Also published as: CN111461162B

Abstract

本发明公开了一种零样本目标检测模型及其建立方法，属于模式识别领域。具体包括：根据可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量，训练IoUGAN；将不可见类的语义嵌入向量输入IoUGAN，获取不可见类的视觉特征；用不可见类的视觉特征训练零样本分类器；将零样本分类器与特征提取器、框回归器结合，建立零样本目标检测模型。IoUGAN用于接收不可见类的语义嵌入向量，生成不可见类的视觉特征训练零样本分类器；IoUGAN包括CFU、FFU和BFU；本发明获取的零样本目标检测模型根据输入的不可见类的测试样本，可准确识别目标的位置以及类别，并且实用性也较强。

Description

一种零样本目标检测模型及其建立方法

技术领域

本发明属于模式识别领域，更具体地，涉及一种零样本目标检测模型及其建立方法。

背景技术

基于深度学习的目标检测方法有着优异的精度和实时性能，因此受到了广泛的关注。然而，检测器的表现依赖于有完全标注边界框的大规模检测数据集，现实世界有大量类别，收集到足够多的带标签数据常常是不切实际的。零样本目标检测的目的是在没有训练样本的情况下同时分类和定位新的类别，可避免上述的问题，不需要收集很多的带标签数据。

零样本目标检测可在两个空间进行：语义嵌入向量空间和视觉特征空间。现有的方法通常将视觉特征从预测的边界框映射到语义嵌入向量空间。在推测阶段，基于与所有类别嵌入的相似度找出最接近的类别进行预测类标签。然而，由于两个空间之间存在异质性，将高维视觉特征映射到低维语义空间往往导致轴枢点问题(hubness problem)。在视觉特征空间中直接对物体进行分类可以解决轴枢点问题。许多零样本分类方法已经证明该解决方案在视觉空间中的有效性。然而，视觉特性不仅包含类内差异，还包含对于目标检测十分关键的IoU(Intersection over Union)差异，现有零样本目标检测方法通常未考虑IoU差异，容易造成零样本目标检测方法的检测结果准确性和实用性较差的问题。

发明内容

针对现有技术的缺陷，本发明提供了一种零样本目标检测模型及其建立方法，其目的是提高零样本目标检测方法的实用性和准确性。

为实现上述目的，一方面，本发明提供了一种零样本目标检测模型的建立方法，包括：

(1)根据可见类RoI(Region of Interest)视觉特征、高斯随机噪声以及可见类的语义嵌入向量，训练条件生成模型IoUGAN(IoU-Aware Generative AdversarialNetwork)；其中，IoUGAN用于获取用于训练零样本分类器的不可见类的视觉特征；

(2)将不可见类的语义嵌入向量输入条件生成模型IoUGAN，获取不可见类的视觉特征；

(3)用不可见类的视觉特征训练零样本分类器；

(4)将零样本分类器与特征提取器、框回归器结合，建立零样本目标检测模型。

优选地，按照产生可见类RoI视觉特征的边界框与对应标注框IoU大小，将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征；

条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU；其中，类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU分别用于根据输入的不可见类的语义嵌入向量，生成不可见类类别特征、前景视觉特征和背景视觉特征，每个单元都包含一个生成器和一个判别器，并使用WGAN(WassersteinGenerative Adversarial Network)作为基本结构；

在训练条件生成模型IoUGAN的阶段，可见类类别视觉特征作为类别特征生成单元CFU的输入；可见类前景视觉特征作为前景特征生成单元FFU的输入；可见类背景视觉特征作为背景特征生成单元BFU的输入。

优选地，高斯随机噪声包括第一高斯随机噪声、第二高斯随机噪声和第三高斯随机噪声，步骤(1)具体包括：

(1.1)从可见类训练样本中提取各类别对应的所述可见类类别视觉特征、所述可见类前景视觉特征和所述可见类背景视觉特征；

(1.2)利用可见类的语义嵌入向量、第一高斯随机噪声、可见类类别视觉特征训练类别特征生成单元CFU；

(1.3)采用训练的类别特征生成单元CFU生成的特征向量、第二高斯随机噪声和可见类前景视觉特征训练前景特征生成单元FFU；且采用训练的类别特征生成单元CFU生成的特征向量、第三高斯随机噪声、可见类背景视觉特征训练背景特征生成单元BFU。

优选地，判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为：

判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU各自对应的损失函数是否收敛，若收敛，则训练完成。

另一方面，本发明提供了一种零样本目标检测模型，包括：特征提取器、框回归器和零样本分类器；

特征提取器用于从不可见类测试样本中提取RoI视觉特征；框回归器用于输入不可见类RoI视觉特征，获取对应的目标边界框；零样本分类器用于根据接收的不可见RoI视觉特征，识别目标的类别；

其中，特征提取器和框回归器通过可见类RoI视觉特征训练获取；

零样本分类器是通过训练后的条件生成模型IoUGAN生成的不可见类视觉特征训练获取的。

优选地，条件生成模型IoUGAN接收不可见的语义嵌入向量，获取不可见类的视觉特征用于训练零样本分类器；

条件生成模型IoUGAN通过可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量训练获取的。

优选地，按照产生所述可见类RoI视觉特征的边界框与对应标注框的IoU大小，将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征；

条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU；

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明建立的零样本目标检测模型中引入IoUGAN，首先利用可见类的语义嵌入向量、高斯噪声和可见类语义特征对IoUGAN进行训练，然后在训练完成的IoUGAN的输入端输入不可见类的语义嵌入向量，输出包含类内差异和IoU差异信息的不可见类视觉特征，对零样本分类器进行训练，最后获取的零样本目标检测模型根据输入的不可见类的测试图片可准确识别目标的类别以及位置，并且实用性也较强。

(2)本发明建立的零样本目标检测模型利用容易获得的语义嵌入向量生成不可见类的视觉特征，可以弥补无训练样本的缺陷，同时大大减少了人工标注的劳动力消耗。

(3)本发明对IoU(Intersection over Union)感知的条件生成模型IoUGAN可以生成同时有类内差异和IoU差异的视觉特征，能够获取更适用于零样本分类器的训练特征，从而提高零样本目标检测的性能。

(4)本发明按照可见类RoI视觉特征的边界框与对应标注框IoU的大小，将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征；IoUGAN包括CFU、FFU和BFU；在训练IoUGAN的阶段，可见类类别视觉特征作为CFU的输入；可见类前景视觉特征作为FFU的输入；可见类背景视觉特征作为BFU的输入；利用训练得到的IoUGAN生成的不可见类视觉特征对零样本目标检测模型进行训练，最终获取的零样本目标检测模型的测试结果与目前最先进的零样本目标检测算法相比检测精度更高，稳定性更强。

附图说明

图1是本发明提供的零样本目标检测模型的结构图；

图2是本发明提供的特征合成器IoUGAN的网络结构图；

图3是本发明提供的零样本目标检测结果的部分可视化展示图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，本发明提供了一种零样本目标检测模型的建立方法，包括：

(1)根据可见类RoI(Region of Interest)视觉特征、高斯随机噪声以及可见类的语义嵌入向量，训练条件生成模型IoUGAN；其中，IoUGAN用于获取用于训练零样本分类器的不可见类的视觉特征；

(3)用不可见类的视觉特征训练零样本分类器；

条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU；其中，类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU基于条件生成模型的结构建立，分别用于根据输入的不可见类的语义嵌入向量，生成不可见类类别特征、前景视觉特征和背景视觉特征，每个单元都包含一个生成器和一个判别器，并使用WGAN作为基本结构；

特征提取器用于从不可见类测试样本中提取RoI视觉特征；框回归器用于输入不可见RoI类视觉特征，获取对应的目标边界框；零样本分类器用于根据接收的不可见RoI视觉特征，识别目标的类别；

实施例

以下首先对本实施例用到的术语进行解释和说明：

可见类：拥有大量完全标记(目标边界框和目标类别)训练图片的基础类别；

不可见类：无训练图片的目标类别，即零样本类别；

语义嵌入向量：把由fastText训练的文本描述嵌入作为类语义嵌入向量；

类别视觉特征：从某样本对应标注框内图像提取的视觉特征；

前景视觉特征：从与对应标注框IoU大于某阈值(如：t_f)的边界框内图像提取的视觉特征；

背景视觉特征：从与对应标注框IoU小于某阈值(如：t_b)的边界框内图像提取的视觉特征；

结合图1公开的本实施例提供的零样本目标检测模型的结构图，介绍零样本的建立方法，具体如下：

(1)利用拥有完全标记的大规模的可见类数据集，对传统的二阶段目标检测模块进行预训练，获取一个具有可见类RoI视觉特征提取能力的模型，其中，特征提取器采用Faster R-CNN第一阶段的RPN(region proposal network)网络结构，从可见类数据集中初步定位前景目标边界框，并提取RoI特征；

(2)利用特征提取器中获取真实的可见类RoI视觉特征、可见类的语义嵌入向量和高斯随机噪声对IoUGAN(可根据语义特征向量所属类别生成对应RoI视觉特征的条件生成模型)进行训练，其中，IoUGAN包括：Class Feature Generating Unit(CFU)、ForegroundFeature Generating Unit(FFU)和Background Feature Generating Unit(BFU)；

使用特征提取器对可见类的RoI视觉特征进行采样，IoUGAN的训练集(拥有完全标记的大规模的可见类数据集)表示为：

其中，s为可见类的类别数，i代表类别的编号，N_i表示i类训练标注框数，j代表标注框的编号，

代表i类中的j号标注框的前景视觉特征和背景视觉特征总数，

为从i类别j号标注边界框提取的可见类的类别视觉特征；

为i类中的j号标注框的k号前景特征，来自与对应标注框的IoU值大于阈值t_f的边界框；

为i类中的j号标注框的k号背景特征，来自与对应的标注框的IoU值小于阈值t_b的边界框；

为可见类中的类标签，

e(y_i)∈ε为可见类类别的语义嵌入向量，ε为语义嵌入向量所在空间；

和

通过预训练的特征提取器进行采样。在训练阶段，从训练样本中随机选择

和

以及相对应的

输入IoUGAN；此外，不可见类的语义嵌入向量为

其中，u_i为不可见类类别标签，来自和可见类别不相交的标签集

CFU：首先利用CFU生成具有类内差异的视觉特征，使用从标注边界框提取的可见类的类别视觉特征v^c作为真实特征，以指导CFU的生成器捕获对象的总体特征；用给定可见类的训练集S训练CFU以获取条件生成器G^c，能够在输入类别语义嵌入向量e(y)∈ε和高斯随机噪声z的情况下输出对应类别带有类内差异的视觉特征；CFU的判别器D^c是输出真实值的多层感知器；CFU的生成器试图将损失值最小化，而判别器试图最大化损失值；一旦CFU的生成器G^c学习到以可见类的语义嵌入向量e(y)为条件合成可见类的类别视觉特征，它也可以通过任何不可见类u的语义嵌入向量e(u)生成不可见类类别视觉特征，CFU的条件WGAN损失由下式给出：

其中，

是v^c和

的凸组合；

η^c～U(0,1)，α^c是惩罚系数；

是求x的期望值；Wasserstein距离由前两项近似，而第三项将判别器的梯度约束为具有v^c和

的凸组合的单位范数；

FFU：RPN预测的边界框始终不能与真实边界框完全重叠。甚至是与标注边界框有着比较大IoU的正边界框，与从真实边界框提取的特征相比，仍然缺少一些信息。检测器应对前景特征的信息丢失具有鲁棒性。在这种情况下，使用FFU将IoU差异随机添加到CFU输出的特征中。因此，前景特征v^f被用作训练FFU的真实特征。利用CFU的输出特征：

和高斯随机噪声z，FFU的条件WGAN损失由下式给出：

其中，

是v^f和

的凸组合：

η^f～U(0,1)，α^f是惩罚系数，D^f和G^f分别为FFU的判别器和生成器；与CFU中的生成器不同，类语义嵌入向量不用作FFU生成器的输入，而是假定

已经保留了语义信息；

BFU：背景和零样本类之间的混淆限制了零样本检测器的性能。为了增强IoUGAN在背景类和看不见类之间的区别，使用BFU生成特定类的背景特征，使用背景特征v^b作为训练BFU的真实特征。利用CFU的输出特征

和高斯随机噪声z，BFU的条件WGAN损失由下式给出：

其中，

是v^b和

的凸组合：

η^b～U(0，1)，α^b是惩罚系数，D^b和G^b分别为BFU的判别器和生成器。与CFU中的生成器不同，类语义嵌入向量不用作BFU生成器的输入，而是假定

已经保留了语义信息；

另外，合成的特征(

和

)需要适用于让IoUGAN训练出有判别能力的零样本目标检测模型。使用在可见类数据集上训练的IoUGAN对合成的特征

进行分类，并将合成的特征的分类损失最小化。为简单起见，使用

表示所有生成的特征(即：

和

)；分类损失的定义为：

其中，y为

的类别标签；

是

属于其实际类别标签y的预测概率；此外，进一步使用

分别表示CFU、FFU和BFU三个单元的分类损失函数；条件概率是通过参数为θ且在可见类别的真实特征上预训练好的分类器计算的。

此外，本发明期望类y_p的生成特征接近同一类的真实特征，并且远离其他类y_q的特征(p≠q),y_i∈y^s,y^s＝{y₁,...,y_p,...,y_q,...,y_s}；通过成对地将真实特征和生成特征配对，生成匹配(相同类)和不匹配(不同类)对。最后，可通过余弦嵌入损失分别使匹配特征和未匹配特征之间的距离最小化和最大化，该余弦嵌入损失由下式给出：

其中，

和

分别是对匹配(m)和不匹配(um)对分布的期望值；同样，用

表示所有生成特征(即：

和

)，使用

分别表示CFU、FFU和BFU这三个单元的嵌入损耗函数。虽然其他损失(

和

)关注于所生成特征与相同类别的真实特征之间的相似性，但嵌入损失

也强调了所产生特征与其他类别特征之间的相似性。

最后，使用超参数β₁，β₂，β₃，γ₁，γ₂和γ₃作为各自损失的加权。用于训练CFU、FFU和BFU的最终目标函数，由下式给出：

因此，CFU、FFU和BFU的总损失函数均包括条件WGAN损失函数、分类损失函数和余弦嵌入损失函数；

(3)将不可见类的语义嵌入向量输入训练后的IoUGAN，生成不可见类的视觉特征；

(4)用生成的不可见类视觉特征训练零样本分类器；

(5)将零样本分类器与特征提取器、框回归器结合，建立零样本目标检测模型。如图3所示，是本实施例的部分结果图。

综上所述，以下是本发明具有的优势：

(3)本发明对IoU感知的条件生成模型IoUGAN可以生成同时有类内差异和IoU差异的视觉特征，能够获取更适用于零样本分类器的训练特征，从而提高零样本目标检测的性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种零样本目标检测模型的建立方法，其特征在于，包括：

(1)根据可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量，训练条件生成模型IoUGAN；其中，所述IoUGAN，用于获取用于训练零样本分类器的不可见类的视觉特征；

(3)用不可见类的视觉特征训练零样本分类器；

2.根据权利要求1所述的建立方法，其特征在于，按照产生所述可见类RoI视觉特征的边界框与对应标注框IoU大小，将所述可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征；

所述条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU；其中，类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU分别用于根据输入的不可见类的语义嵌入向量，生成不可见类类别特征、前景视觉特征和背景视觉特征，每个单元都包含一个生成器和一个判别器，并使用WGAN作为基本结构；

在训练条件生成模型IoUGAN的阶段，所述可见类类别视觉特征作为所述类别特征生成单元CFU的输入；所述可见类前景视觉特征作为所述前景特征生成单元FFU的输入；所述可见类背景视觉特征作为所述背景特征生成单元BFU的输入。

3.根据权利要求2所述的建立方法，其特征在于，所述高斯随机噪声包括第一高斯随机噪声、第二高斯随机噪声和第三高斯随机噪声，所述步骤(1)具体包括：

(1.2)利用可见类的语义嵌入向量、第一高斯随机噪声、所述可见类类别视觉特征训练类别特征生成单元CFU；

4.根据权利要求3所述的建立方法，其特征在于，判断类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU是否训练完成的方法为：

5.一种零样本目标检测模型，其特征在于，包括：特征提取器、框回归器和零样本分类器；

所述特征提取器用于从不可见类测试样本中提取RoI视觉特征；所述框回归器用于输入不可见类RoI视觉特征，获取对应的目标边界框；所述零样本分类器用于根据接收的不可见RoI视觉特征，识别目标的类别；

其中，所述特征提取器和框回归器通过可见类RoI视觉特征训练获取；

所述零样本分类器是通过条件生成模型IoUGAN生成的不可见类视觉特征训练获取的。

6.根据权利要求5所述的零样本目标检测模型，其特征在于，所述条件生成模型IoUGAN接收不可见的语义嵌入向量，获取用于训练零样本分类器的不可见类的视觉特征；

所述条件生成模型IoUGAN是通过可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量训练获取的。

7.根据权利要求6所述的零样本目标检测模型，其特征在于，按照产生所述可见类RoI视觉特征的边界框与对应标注框的IoU大小，将可见类RoI视觉特征分为可见类类别视觉特征、可见类前景特征和可见类背景特征；

所述条件生成模型IoUGAN包括类别特征生成单元CFU、前景特征生成单元FFU和背景特征生成单元BFU；