CN108830334A

CN108830334A - 一种基于对抗式迁移学习的细粒度目标判别方法

Info

Publication number: CN108830334A
Application number: CN201810665319.4A
Authority: CN
Inventors: 江爱文; 万剑怡; 王明文
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-11-16
Anticipated expiration: 2038-06-25
Also published as: CN108830334B

Abstract

本发明公开了一种基于对抗式迁移学习的细粒度目标判别方法，所述方法包括：获取预训练细粒度目标识别模型，输入训练图像得到视觉属性特征；将训练图像输入预设卷积神经网络得到图像特征，获取视觉解释生成网络模型，输入图像特征得到训练图像的视觉解释信息；获取句子特征抽取网络模型，提取得到视觉解释信息的整体属性特征；利用视觉属性特征和视觉解释信息整体属性特征对视觉解释生成网络模型进行优化；将测试图像输入优化视觉解释生成网络模型，得到分类结果和视觉解释信息。本发明有机地结合了视觉目标细粒度分类识别和视觉解释生成过程，避免了解释模型对语义标签的依赖。

Description

一种基于对抗式迁移学习的细粒度目标判别方法

技术领域

本发明属于计算机视觉以及自然语言处理技术领域，具体是一种基于对抗式迁移学习的细粒度目标判别方法。

背景技术

目前，在计算机视觉领域，细粒度深度目标分类算法已取得较大的突破，比如其在鸟类的种类识别方面上取得了较好的效果。然而对于智能系统而言，还不能满足于“黑盒子”方式，即仅仅输出预测结果还不够，不仅要“知其然”，还要“知其所以然”。能够解释视觉系统为什么会产生某个输出结论并获得其对应视觉证据是决策系统的智能化体现。因此，需要一种新型的目标判别方法，在对于目标进行判别的同时，还能够解释预测系统决策的内在原因。

文字语言和图像是人类描述客观世界的两种非常重要的表达方式。2016年美国UCBerkeley的研究人员Lisa等人首次提出了视觉解释的想法和模型，并对视觉描述、视觉定义、视觉解释三个相近概念进行了区分。视觉描述是在没有任何图像内容标签的前提下，由场景中的对象内容引导产生图像内容的一般性描述；视觉定义是根据视觉对象的类别所产生的类别定义语句，该定义语句不要求与当前所见的图像视觉内容有关联，只与图像对象的类别相关；视觉解释是根据系统预测的视觉对象类别，结合视觉图像内容产生具有类别鉴别力的预测解释语句。

在Lisa等人的工作中，他们为了增加语言解释的识别精度，利用到了图像已知的语义标签和全局视觉特征。然而在实际应用中，视觉系统不是总能获得图像内容的标签信息。

发明内容

为了解决上述现有技术中存在的问题，本发明提出一种基于对抗式迁移学习的细粒度目标判别方法，该方法无需对象属性标签信息，可直接根据图片内容产生目标判别结论以及视觉解释信息。

本发明提出的一种基于对抗式迁移学习的细粒度目标判别方法包括：

步骤S1，获取预训练细粒度目标识别模型，将训练图像输入至所述预训练细粒度目标识别模型，得到所述训练图像的视觉属性特征x_I；

步骤S2，将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征f_CNN，获取视觉解释生成网络模型，并将所述训练图像的图像特征f_CNN输入至所述视觉解释生成网络模型，得到所述训练图像的视觉解释信息；

步骤S3，获取句子特征抽取网络模型，并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征x_s；

步骤S4，利用所述视觉属性特征x_I和视觉解释信息整体属性特征x_s对于所述视觉解释生成网络模型进行优化，得到优化视觉解释生成网络模型；

步骤S5，将测试图像输入至所述优化视觉解释生成网络模型中，得到测试图像分类结果和相应的视觉解释信息。

可选地，所述视觉解释生成网络模型包括循环神经网络，所述循环神经网络包括门限循环单元和多层感知器，所述多层感知器包括全连接层和softmax层。

可选地，所述步骤S3中，将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征，利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。

可选地，所述句子特征抽取网络模型采用卷积神经网络架构。

可选地，所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。

可选地，所述步骤S4中，利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。

可选地，所述步骤S4包括：

最大化分布差异损失函数以优化视觉属性特征x_I和视觉解释信息整体属性特征x_s之间的分布差异；

最大化真假判别损失函数以优化视觉解释生成网络中判别器能力；

固定所述分布差异和判别器，最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力；

通过最小化第一联合损失函数来优化所述句子特征抽取网络；

通过最小化第二联合损失函数来优化所述视觉解释生成网络，如此迭代直到所述视觉解释生成网络收敛。

可选地，所述分布差异损失函数表示为：

L_wd-γL_grad，

其中，N表示每次批量训练的图像样本个数，表示视觉解释生成网络中的特征分布回归器网络函数，表示第n个图像样本的视觉属性特征，表示第n个图像样本的视觉解释信息整体属性特征，代表数据集合中任意与特征点对的连线上的任意随机特征点，表示函数在变量取值为时的梯度，表示函数在输入变量取值为时的输出，γ是超参数。

可选地，所述第一联合损失函数表示为：

L_c+L_wd，

其中，N表示每次批量训练的图像样本个数，K为输入数据集的细粒度类别数量，δ(y_i＝＝k)表示y_i表示第i个样本的真实类别，表示第i个样本属于第k类的概率，表示视觉解释生成网络中的特征分布回归器网络函数，表示第n个图像样本的视觉属性特征，表示第n个图像样本的视觉解释信息整体属性特征。

可选地，所述第二联合损失函数表示为：

其中，N表示每次批量训练的图像样本个数，K为输入数据集的细粒度类别数量，δ(y_i＝＝k)表示y_i表示第i个样本的真实类别，表示第i个样本属于第k类的概率，表示视觉解释生成网络中的特征分布回归器网络函数，表示第n个图像样本的视觉属性特征，表示第n个图像样本的视觉解释信息整体属性特征，表示视觉解释生成网络生成的语句，表示判别器网络函数。

本发明所产生的有益效果是，有机地结合了视觉目标细粒度分类识别和视觉解释生成过程，避免了解释模型对语义标签的依赖。本发明利用迁移学习的思想，利用对抗学习的网络训练方式，使得解释模型能够专注于与预测的类别信息特征最相关的内容，同时生成符合人类语法习惯的、具有较强判别性的细粒度视觉解释语句。本发明至少可以有效地解决两个问题：(1)同步实现细粒度目标的类别预测和语法自然解释；(2)明确分类结论预测过程的内在视觉属性。

附图说明

图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图；

图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图；

图3是根据本发明一实施例的视觉解释生成网络模型的结构示意图；

图4是根据本发明一实施例的句子特征抽取网络模型的结构示意图；

图5是根据本发明一实施例的真假判别网络模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

目标判别以及视觉解释模型的输出需要满足两个基本的要求：第一，输出的解释语句具备明确可区分的类信息；第二，解释语句符合人们语法习惯，并可以准确描述视觉对象分类对应的视觉证据。对于非计算机视觉领域的人员而言，这种方式有助于他们通俗理解计算机内在的决策过程。本发明提出的判别方法能够完成细粒度视觉分类并且以自然语言形式输出关于预测结论的内在凭据解释。

图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图，图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图，如图1和图2所示，所述基于对抗式迁移学习的细粒度目标判别方法包括以下步骤：

其中，所述训练图像可以为一幅也可以为多幅。

在本发明一实施例中，所述细粒度目标识别模型可以为已经预先训练好的基于强监督信息的细粒度分类模型Mask-CNN。该模型在训练时，为了获得更高的分类精度，除了图像的类别标签外，还使用了物体标注框(Object Bounding Box)和部位标注点(PartAnnotation)等人工标注信息，而且该模型的输出还经过了白化奇异值分解(SVDWhitening)，因此，视觉属性特征x_I具有较强细粒度类别鉴别力。当然，所述细粒度目标识别模型也可以选用其他能够对于目标进行识别，获取目标视觉属性特征的模型，本发明对于所述细粒度目标识别模型的具体形式不作特别限定。

步骤S2，将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征获取视觉解释生成网络模型，并将所述训练图像的图像特征f_CNN输入至所述视觉解释生成网络模型，得到所述训练图像的视觉解释信息；

其中，所述预设卷积神经网络可根据实际应用的需要进行选择，比如可选择残差网络ResNet50。

其中，所述视觉解释生成网络模型根据输入的图像特征f_CNN，依次生成序列化的单词特征，从而得到视觉解释信息。

在本发明一实施例中，所述视觉解释生成网络模型的主体为循环神经网络，其中，所述循环神经网络例如可以包括门限循环单元(GRU)和多层感知器(MLP)。

在本发明一实施例中，所述循环神经网络包括两层叠加的门限循环单元(Two-layers Stacked-GRU)和多层感知器(MLP)，其中，每层门限循环单元的隐含元个数均为512，所述多层感知器包括全连接层和softmax层。在每个时间点，将两层门限循环单元的输出进行串联，形成1024维的特征向量并将其作为输入输入到多层感知器(MLP)中，所述特征向量可以表示为：

其中，表示向量串联，表示t时刻第一层门限循环单元的输出，表示t时刻第二层门限循环单元的输出，f_CNN表示经过所述预设卷积神经网络输出的图像特征，表示t-1时刻第一层门限循环单元的输出，表示t-1时刻第二层门限循环单元的输出，GRU(·)表示门限循环单元函数。

其中，所述多层感知器全连接层的隐含层输出h^t的维度为2000维，可表示为：其中，ReLu(·)表示非线性激活函数，ReLU(x)＝max(x，0)，W_r表示全连接层的权重，b_r表示全连接层的偏置，r用于区分不同网络中的权重参数W和偏置参数b。Softmax层的输出维度与预设解释信息数据集的词汇表长度相等，其输出下一个单词的条件概率分布：p^t＝softmax(W₁*h^t+b₁)，其中，softmax(·)函数形式为W₁表示全连接层的权重，b₁表示全连接层的偏置。

为了使得所述视觉解释生成网络模型参数能够获得较好的初始值，在实施过程中可采用预训练机制，即采用教授强制(Professor Forcing)学习方式对于所述视觉解释生成网络模型进行预训练。所述视觉解释生成网络模型在每一个时间点t，根据条件概率分布p^t从预设解释信息数据集中采样得到新的单词，如此循环直到句子最后一个单词“END”结束，最终所述视觉解释网络模型产生的单词序列形成了一条完整的视觉解释信息。

根据本发明一实施例的视觉解释生成网络模型的结构示意图如图3所示。

在本发明一实施例中，选用所述视觉解释生成网络模型中MLP全连接层的输出h^t作为所述视觉解释信息中每个单词的特征，进而利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。

在本发明一实施例中，所述句子特征抽取网络模型采用卷积神经网络架构，如图4所示，所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层(Batch Normalization)，所述卷积层卷积核大小是h×w×channels，其中，宽w与所述视觉解释信息中单词的特征维度相等；高h可根据单词不同大小的上下文范围信息来确定，比如，可设置h＝{2，3，4}三种情况；Channels表示卷积核的通道数，其大小可设置为200。其中，卷积核的滑动步长均为2。所述卷积层的输出为多种情况的卷积核卷积结果的串联拼接，因此，在上述示例中，经过卷积层后的特征映射(feature mappings)维度为T1*600，其中，T1代表特征映射在卷积核后时序方向上的长度。所述时间序列池化层在时序方向上对于输入进行最大池化(Max Pooling)操作，得到维度为600的输出特征S，然后经过全连接层、批量正则化层后，得到最终输出的视觉解释信息整体属性特征x_s，其中，所述全连接层的维度大小设为4096维，与视觉属性特征x_I的维度大小相等。

为了让所述视觉解释生成网络模型能够生成较强类别判别性能的描述，同时该描述比较自然地符合日常语法用语习惯，在该步骤中，利用分类损失函数、分布差异损失函数、真假判别损失函数等三个损失函数对于所述视觉解释生成网络模型进行优化，以综合提高自动生成的解释语句的鉴别力和语法自然性，优化目标为，分类损失越小越好，分布差异越小越好，如此，可将细粒度目标识别模型迁移学习到视觉解释的自然语言领域中。另外，解释语句的自然表述也是至关重要的方面，因此，考虑经过采样器生成的解释语句是否自然、是否符合用语习惯等因素，并且基于对抗学习的网络训练机制定义了真假判别损失函数。训练过程中，视觉解释生成网络生成的语句应尽可能的表述自然和语法正确，才能迷惑判别器，使之无法区分输入的是真实标定的解释语句还是网络基于图像自动生成的解释，另一方面，判别器则不断优化，提升自身的区分能力。生成网络和判别器相互博弈直至均衡，理想的均衡情况下，生成网络生成的语句与真实解释语句无二，判别器无法区分，判别性能接近随机(即概率为0.5)。

其中：

所述分类损失函数主要用于衡量生成视觉解释后对应的视觉解释信息整体属性特征x_s的类别鉴别力，其中，由视觉解释生成网络模型中的类别分类器实现分类，所述类别分类器包括带dropout的全连接层和softmax层，所述类别分类器的输入为视觉解释信息的整体属性特征x_s，输出为K维的类别概率向量p：

p＝Softmax(W_S·x_s+b_s)

其中，Softmax(·)函数形式为W_s表示全连接层权重，b_s表示全连接层偏置。

在本发明一实施例中，将数据的真实类别标签表示成one-hot形式的向量。如果某一数据属于第k类，则其对应的真实类别标签向量的第k个元素为1，其他的为0。

在本发明一实施例中，使用类互信息熵作为分类损失，即所述分类损失函数可表示为：

其中，N表示每次批量训练的图像样本个数，K为输入数据集的细粒度类别数量，δ(y_i＝＝k)表示y_i表示第i个样本的真实类别，表示第i个样本属于第k类的概率。

利用分类损失函数对于所述视觉解释生成网络模型进行优化的目标之一就是使分类损失最小化。

所述分布差异损失函数主要衡量视觉属性特征x_I和视觉解释信息整体属性特征x_s之间的分布差异。图像和视觉解释是同一对象两种模态的表示形式。如果二者对同一对象均具备强类别鉴别能力，那么它们在对应的公共语义特征空间中的分布情况应尽可能的接近。因此可采用Wasserstein距离作为两者分布差异的衡量标准，所述Wasserstein距离可表示为：

其中，表示视觉属性特征x_I的空间分布，表示视觉解释信息整体属性特征x_s的空间分布，||f_θ||_L≤1表示函数f_θ满足利普西茨条件(Lipschitz)，且斜率小于利普希茨常数1，E_P[]表示满足概率分布P的随机变量的期望，[]表示在视觉属性特征x_I的概率分布条件下的期望，[]表示在视觉解释信息整体属性特征x_s的概率分布条件下的期望，f_θ(·)表示满足利普西茨条件的函数，sup代表上界。

在实际的训练过程中，可以通过最大化如下所示的损失函数来近似逼近真实的Wasserstein距离：

其中，表示视觉解释生成网络中的特征分布回归器网络函数。表示第n个图像样本的视觉属性特征，表示第n个图像样本的视觉解释信息整体属性特征。为了保证函数满足利普西茨条件，可引入梯度惩罚项(gradient penalty)L_grad：

其中，代表数据集合中任意与特征点对的连线上的任意随机特征点，表示函数在变量取值为时的梯度，表示函数在输入变量取值为时的输出。因此，最终可根据下式近似估计两个特征分布之间的差异，即Wasserstein距离：

其中，γ是超参数，这里可取值1，θ_r表示特征分布回归器的网络参数集合。

在训练过程中，需要优化视觉解释生成网络模型的参数，使分布差异Wasserstein距离尽量缩小，即：

其中，代表视觉解释生成网络模型。

所述真假判别损失函数True/False Critic主要衡量视觉解释生成网络中判别器区分某条解释信息是视觉解释生成网络模型自动生成的还是人工标定的能力。

所述视觉解释生成网络模型经过单词采样器产生解释语句等信息。在做语句判别时，为了保证与人工标定的解释语句的单词表示一致，可以统一采用word2vec方式对单词进行表示。

在本发明一实施例中，使用预训练的GoogleNews-vectors-negative300.bin作为word2vec模型，词向量的维度是300维。

在视觉解释生成网络中，判别器包括语句序列编码器和全连接网络，如图4所示。其中，所述语句序列编码器选用双向循环神经网络(例如Bi-GRU)，所述全连接网络包含了基于注意机制的多层感知器和Softmax层。所述判别器的输入语句为单词序列q＝{a₀，a₁，...，a_T}，其中，a_t表示第t时刻采样输出的单词，t＝0…T，T表示单词序列的最大长度。输入语句经过Bi-GRU输出h_q＝BiGRU(q)。通过α＝softmax(W_qh_q+b_q)计算注意机制中单词的权重系数，W_q表示计算注意机制权重的全连接网络权值参数，b_q表示计算注意机制权重的全连接网络偏置参数。然后根据该权重系数计算得到判别器的输入语句的特征表示：其中，α_t表示第t时刻的单词对应的权重系数，表示第t时刻Bi-GRU的输出，最后将所述特征表示输入到全连接网络中的Softmax判别层，计算该语句属于人工标定的可能性。

在训练过程中，应当优化真假判别损失函数，使判别器的鉴别性能尽量最大化，使之能区分输入语句是自动生成的还是人工标定的。所述真假判别损失函数L_disc可表示为：

其中，表示视觉解释生成网络生成的语句，表示判别器网络函数，q_n表示人工标定的真实视觉解释语句。

同时优化所述视觉解释生成网络模型，使之生成的解释信息能尽量瞒骗判别器，即使损失最小。

综上所述，本发明的训练过程采用迭代优化策略。具体地，网络初始化时，预训练细粒度目标识别模型(预训练完成后该模型参数固定保持不变)和采用教授强制方式预训练的视觉解释生成网络模型，均取得较好的初始化参数。开始训练后，即所述步骤S4包括以下步骤：

通过最大化L_wd-γL_grad来优化上文定义的分布差异；

最大化真假判别损失函数L_disc来优化上文定义的判别器能力；

然后固定上述分布差异和判别器，通过最小化分类损失函数L_c来优化上文定义的类别分类器能力；

通过最小化第一联合损失函数L_c+L_wd来优化上文定义的句子特征抽取网络；

通过最小化第二联合损失函数优化上文定义的视觉解释生成网络，如此迭代直到所述视觉解释生成网络收敛。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗式迁移学习的细粒度目标判别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视觉解释生成网络模型包括循环神经网络，所述循环神经网络包括门限循环单元和多层感知器，所述多层感知器包括全连接层和softmax层。

3.根据权利要求1所述的方法，其特征在于，所述步骤S3中，将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征，利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。

4.根据权利要求1-3任一所述的方法，其特征在于，所述句子特征抽取网络模型采用卷积神经网络架构。

5.根据权利要求4所述的方法，其特征在于，所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。

6.根据权利要求1所述的方法，其特征在于，所述步骤S4中，利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。

7.根据权利要求6所述的方法，其特征在于，所述步骤S4包括：

8.根据权利要求7所述的方法，其特征在于，所述分布差异损失函数表示为：

L_wd-γL_grad，

9.根据权利要求7所述的方法，其特征在于，所述第一联合损失函数表示为：

L_c+L_wd，

10.根据权利要求7所述的方法，其特征在于，所述第二联合损失函数表示为：