CN108830334B - 一种基于对抗式迁移学习的细粒度目标判别方法 - Google Patents

一种基于对抗式迁移学习的细粒度目标判别方法 Download PDF

Info

Publication number
CN108830334B
CN108830334B CN201810665319.4A CN201810665319A CN108830334B CN 108830334 B CN108830334 B CN 108830334B CN 201810665319 A CN201810665319 A CN 201810665319A CN 108830334 B CN108830334 B CN 108830334B
Authority
CN
China
Prior art keywords
visual interpretation
visual
feature
image
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810665319.4A
Other languages
English (en)
Other versions
CN108830334A (zh
Inventor
江爱文
万剑怡
王明文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN201810665319.4A priority Critical patent/CN108830334B/zh
Publication of CN108830334A publication Critical patent/CN108830334A/zh
Application granted granted Critical
Publication of CN108830334B publication Critical patent/CN108830334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对抗式迁移学习的细粒度目标判别方法,所述方法包括:获取预训练细粒度目标识别模型,输入训练图像得到视觉属性特征;将训练图像输入预设卷积神经网络得到图像特征,获取视觉解释生成网络模型,输入图像特征得到训练图像的视觉解释信息;获取句子特征抽取网络模型,提取得到视觉解释信息的整体属性特征;利用视觉属性特征和视觉解释信息整体属性特征对视觉解释生成网络模型进行优化;将测试图像输入优化视觉解释生成网络模型,得到分类结果和视觉解释信息。本发明有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。

Description

一种基于对抗式迁移学习的细粒度目标判别方法
技术领域
本发明属于计算机视觉以及自然语言处理技术领域,具体是一种基于对抗式迁移学习的细粒度目标判别方法。
背景技术
目前,在计算机视觉领域,细粒度深度目标分类算法已取得较大的突破,比如其在鸟类的种类识别方面上取得了较好的效果。然而对于智能系统而言,还不能满足于“黑盒子”方式,即仅仅输出预测结果还不够,不仅要“知其然”,还要“知其所以然”。能够解释视觉系统为什么会产生某个输出结论并获得其对应视觉证据是决策系统的智能化体现。因此,需要一种新型的目标判别方法,在对于目标进行判别的同时,还能够解释预测系统决策的内在原因。
文字语言和图像是人类描述客观世界的两种非常重要的表达方式。2016年美国UCBerkeley的研究人员Lisa等人首次提出了视觉解释的想法和模型,并对视觉描述、视觉定义、视觉解释三个相近概念进行了区分。视觉描述是在没有任何图像内容标签的前提下,由场景中的对象内容引导产生图像内容的一般性描述;视觉定义是根据视觉对象的类别所产生的类别定义语句,该定义语句不要求与当前所见的图像视觉内容有关联,只与图像对象的类别相关;视觉解释是根据系统预测的视觉对象类别,结合视觉图像内容产生具有类别鉴别力的预测解释语句。
在Lisa等人的工作中,他们为了增加语言解释的识别精度,利用到了图像已知的语义标签和全局视觉特征。然而在实际应用中,视觉系统不是总能获得图像内容的标签信息。
发明内容
为了解决上述现有技术中存在的问题,本发明提出一种基于对抗式迁移学习的细粒度目标判别方法,该方法无需对象属性标签信息,可直接根据图片内容产生目标判别结论以及视觉解释信息。
本发明提出的一种基于对抗式迁移学习的细粒度目标判别方法包括:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。
可选地,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。
可选地,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
可选地,所述句子特征抽取网络模型采用卷积神经网络架构。
可选地,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。
可选地,所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。
可选地,所述步骤S4包括:
最大化分布差异损失函数以优化视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异;
最大化真假判别损失函数以优化视觉解释生成网络中判别器能力;
固定所述分布差异和判别器,最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力;
通过最小化第一联合损失函数来优化所述句子特征抽取网络;
通过最小化第二联合损失函数来优化所述视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
可选地,所述分布差异损失函数表示为:
Lwd-γLgrad
Figure BDA0001707167880000031
Figure BDA0001707167880000032
其中,N表示每次批量训练的图像样本个数,
Figure BDA0001707167880000033
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure BDA0001707167880000034
表示第n个图像样本的视觉属性特征,
Figure BDA0001707167880000035
表示第n个图像样本的视觉解释信息整体属性特征,
Figure BDA0001707167880000036
代表数据集合中任意
Figure BDA0001707167880000037
Figure BDA0001707167880000038
特征点对的连线上的任意随机特征点,
Figure BDA0001707167880000039
表示函数
Figure BDA00017071678800000310
在变量取值为
Figure BDA00017071678800000311
时的梯度,
Figure BDA00017071678800000312
表示函数
Figure BDA00017071678800000313
在输入变量取值为
Figure BDA00017071678800000314
时的输出,γ是超参数。
可选地,所述第一联合损失函数表示为:
Lc+Lwd
Figure BDA0001707167880000041
Figure BDA0001707167880000042
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示
Figure BDA0001707167880000043
yi表示第i个样本的真实类别,
Figure BDA0001707167880000044
表示第i个样本属于第k类的概率,
Figure BDA0001707167880000045
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure BDA0001707167880000046
表示第n个图像样本的视觉属性特征,
Figure BDA0001707167880000047
表示第n个图像样本的视觉解释信息整体属性特征。
可选地,所述第二联合损失函数表示为:
Figure BDA0001707167880000048
Figure BDA0001707167880000049
Figure BDA00017071678800000410
Figure BDA00017071678800000411
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示
Figure BDA00017071678800000412
yi表示第i个样本的真实类别,
Figure BDA00017071678800000413
表示第i个样本属于第k类的概率,
Figure BDA00017071678800000414
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure BDA00017071678800000415
表示第n个图像样本的视觉属性特征,
Figure BDA00017071678800000416
表示第n个图像样本的视觉解释信息整体属性特征,
Figure BDA00017071678800000417
表示视觉解释生成网络生成的语句,
Figure BDA00017071678800000418
表示判别器网络函数。
本发明所产生的有益效果是,有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。本发明利用迁移学习的思想,利用对抗学习的网络训练方式,使得解释模型能够专注于与预测的类别信息特征最相关的内容,同时生成符合人类语法习惯的、具有较强判别性的细粒度视觉解释语句。本发明至少可以有效地解决两个问题:(1)同步实现细粒度目标的类别预测和语法自然解释;(2)明确分类结论预测过程的内在视觉属性。
附图说明
图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图;
图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图;
图3是根据本发明一实施例的视觉解释生成网络模型的结构示意图;
图4是根据本发明一实施例的句子特征抽取网络模型的结构示意图;
图5是根据本发明一实施例的真假判别网络模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
目标判别以及视觉解释模型的输出需要满足两个基本的要求:第一,输出的解释语句具备明确可区分的类信息;第二,解释语句符合人们语法习惯,并可以准确描述视觉对象分类对应的视觉证据。对于非计算机视觉领域的人员而言,这种方式有助于他们通俗理解计算机内在的决策过程。本发明提出的判别方法能够完成细粒度视觉分类并且以自然语言形式输出关于预测结论的内在凭据解释。
图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图,图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图,如图1和图2所示,所述基于对抗式迁移学习的细粒度目标判别方法包括以下步骤:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
其中,所述训练图像可以为一幅也可以为多幅。
在本发明一实施例中,所述细粒度目标识别模型可以为已经预先训练好的基于强监督信息的细粒度分类模型Mask-CNN。该模型在训练时,为了获得更高的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(PartAnnotation)等人工标注信息,而且该模型的输出还经过了白化奇异值分解(SVDWhitening),因此,视觉属性特征xI具有较强细粒度类别鉴别力。当然,所述细粒度目标识别模型也可以选用其他能够对于目标进行识别,获取目标视觉属性特征的模型,本发明对于所述细粒度目标识别模型的具体形式不作特别限定。
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征
Figure BDA0001707167880000061
获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
其中,所述预设卷积神经网络可根据实际应用的需要进行选择,比如可选择残差网络ResNet50。
其中,所述视觉解释生成网络模型根据输入的图像特征fCNN,依次生成序列化的单词特征,从而得到视觉解释信息。
在本发明一实施例中,所述视觉解释生成网络模型的主体为循环神经网络,其中,所述循环神经网络例如可以包括门限循环单元(GRU)和多层感知器(MLP)。
在本发明一实施例中,所述循环神经网络包括两层叠加的门限循环单元(Two-layers Stacked-GRU)和多层感知器(MLP),其中,每层门限循环单元的隐含元个数均为512,所述多层感知器包括全连接层和softmax层。在每个时间点,将两层门限循环单元的输出进行串联,形成1024维的特征向量
Figure BDA0001707167880000071
并将其作为输入输入到多层感知器(MLP)中,所述特征向量
Figure BDA0001707167880000072
可以表示为:
Figure BDA0001707167880000073
Figure BDA0001707167880000074
其中,
Figure BDA0001707167880000075
表示向量串联,
Figure BDA0001707167880000076
表示t时刻第一层门限循环单元的输出,
Figure BDA0001707167880000077
表示t时刻第二层门限循环单元的输出,fCNN表示经过所述预设卷积神经网络输出的图像特征,
Figure BDA0001707167880000078
表示t-1时刻第一层门限循环单元的输出,
Figure BDA0001707167880000079
表示t-1时刻第二层门限循环单元的输出,GRU(·)表示门限循环单元函数。
其中,所述多层感知器全连接层的隐含层输出ht的维度为2000维,可表示为:
Figure BDA00017071678800000710
其中,ReLu(·)表示非线性激活函数,ReLU(x)=max(x,0),Wr表示全连接层的权重,br表示全连接层的偏置,r用于区分不同网络中的权重参数W和偏置参数b。Softmax层的输出维度与预设解释信息数据集的词汇表长度相等,其输出下一个单词的条件概率分布:pt=softmax(W1*ht+b1),其中,softmax(·)函数形式为
Figure BDA00017071678800000711
W1表示全连接层的权重,b1表示全连接层的偏置。
为了使得所述视觉解释生成网络模型参数能够获得较好的初始值,在实施过程中可采用预训练机制,即采用教授强制(Professor Forcing)学习方式对于所述视觉解释生成网络模型进行预训练。所述视觉解释生成网络模型在每一个时间点t,根据条件概率分布pt从预设解释信息数据集中采样得到新的单词,如此循环直到句子最后一个单词“END”结束,最终所述视觉解释网络模型产生的单词序列形成了一条完整的视觉解释信息。
根据本发明一实施例的视觉解释生成网络模型的结构示意图如图3所示。
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs
在本发明一实施例中,选用所述视觉解释生成网络模型中MLP全连接层的输出ht作为所述视觉解释信息中每个单词的特征,进而利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
在本发明一实施例中,所述句子特征抽取网络模型采用卷积神经网络架构,如图4所示,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层(Batch Normalization),所述卷积层卷积核大小是h×w×channels,其中,宽w与所述视觉解释信息中单词的特征维度相等;高h可根据单词不同大小的上下文范围信息来确定,比如,可设置h={2,3,4}三种情况;Channels表示卷积核的通道数,其大小可设置为200。其中,卷积核的滑动步长均为2。所述卷积层的输出为多种情况的卷积核卷积结果的串联拼接,因此,在上述示例中,经过卷积层后的特征映射(feature mappings)维度为T1*600,其中,T1代表特征映射在卷积核后时序方向上的长度。所述时间序列池化层在时序方向上对于输入进行最大池化(Max Pooling)操作,得到维度为600的输出特征S,然后经过全连接层、批量正则化层后,得到最终输出的视觉解释信息整体属性特征xs,其中,所述全连接层的维度大小设为4096维,与视觉属性特征xI的维度大小相等。
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
为了让所述视觉解释生成网络模型能够生成较强类别判别性能的描述,同时该描述比较自然地符合日常语法用语习惯,在该步骤中,利用分类损失函数、分布差异损失函数、真假判别损失函数等三个损失函数对于所述视觉解释生成网络模型进行优化,以综合提高自动生成的解释语句的鉴别力和语法自然性,优化目标为,分类损失越小越好,分布差异越小越好,如此,可将细粒度目标识别模型迁移学习到视觉解释的自然语言领域中。另外,解释语句的自然表述也是至关重要的方面,因此,考虑经过采样器生成的解释语句是否自然、是否符合用语习惯等因素,并且基于对抗学习的网络训练机制定义了真假判别损失函数。训练过程中,视觉解释生成网络生成的语句应尽可能的表述自然和语法正确,才能迷惑判别器,使之无法区分输入的是真实标定的解释语句还是网络基于图像自动生成的解释,另一方面,判别器则不断优化,提升自身的区分能力。生成网络和判别器相互博弈直至均衡,理想的均衡情况下,生成网络生成的语句与真实解释语句无二,判别器无法区分,判别性能接近随机(即概率为0.5)。
其中:
所述分类损失函数主要用于衡量生成视觉解释后对应的视觉解释信息整体属性特征xs的类别鉴别力,其中,由视觉解释生成网络模型中的类别分类器实现分类,所述类别分类器包括带dropout的全连接层和softmax层,所述类别分类器的输入为视觉解释信息的整体属性特征xs,输出为K维的类别概率向量p:
p=Softmax(WS·xs+bs)
其中,Softmax(·)函数形式为
Figure BDA0001707167880000091
Ws表示全连接层权重,bs表示全连接层偏置。
在本发明一实施例中,将数据的真实类别标签表示成one-hot形式的向量。如果某一数据属于第k类,则其对应的真实类别标签向量的第k个元素为1,其他的为0。
在本发明一实施例中,使用类互信息熵作为分类损失,即所述分类损失函数可表示为:
Figure BDA0001707167880000101
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示
Figure BDA0001707167880000102
yi表示第i个样本的真实类别,
Figure BDA0001707167880000103
表示第i个样本属于第k类的概率。
利用分类损失函数对于所述视觉解释生成网络模型进行优化的目标之一就是使分类损失最小化。
所述分布差异损失函数主要衡量视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异。图像和视觉解释是同一对象两种模态的表示形式。如果二者对同一对象均具备强类别鉴别能力,那么它们在对应的公共语义特征空间中的分布情况应尽可能的接近。因此可采用Wasserstein距离
Figure BDA0001707167880000104
作为两者分布差异的衡量标准,所述Wasserstein距离可表示为:
Figure BDA0001707167880000105
其中,
Figure BDA0001707167880000106
表示视觉属性特征xI的空间分布,
Figure BDA0001707167880000107
表示视觉解释信息整体属性特征xs的空间分布,||fθ||L≤1表示函数fθ满足利普西茨条件(Lipschitz),且斜率小于利普希茨常数1,EP[]表示满足概率分布P的随机变量的期望,
Figure BDA0001707167880000108
[]表示在视觉属性特征xI的概率分布条件下的期望,
Figure BDA0001707167880000109
[]表示在视觉解释信息整体属性特征xs的概率分布条件下的期望,fθ(·)表示满足利普西茨条件的函数,sup代表上界。
在实际的训练过程中,可以通过最大化如下所示的损失函数来近似逼近真实的Wasserstein距离:
Figure BDA0001707167880000111
其中,
Figure BDA0001707167880000112
表示视觉解释生成网络中的特征分布回归器网络函数。
Figure BDA0001707167880000113
表示第n个图像样本的视觉属性特征,
Figure BDA0001707167880000114
表示第n个图像样本的视觉解释信息整体属性特征。为了保证函数
Figure BDA0001707167880000115
满足利普西茨条件,可引入梯度惩罚项(gradient penalty)Lgrad
Figure BDA0001707167880000116
其中,
Figure BDA0001707167880000117
代表数据集合中任意
Figure BDA0001707167880000118
Figure BDA0001707167880000119
特征点对的连线上的任意随机特征点,
Figure BDA00017071678800001110
表示函数
Figure BDA00017071678800001111
在变量取值为
Figure BDA00017071678800001112
时的梯度,
Figure BDA00017071678800001113
表示函数
Figure BDA00017071678800001114
在输入变量取值为
Figure BDA00017071678800001115
时的输出。因此,最终可根据下式近似估计两个特征分布之间的差异,即Wasserstein距离:
Figure BDA00017071678800001116
其中,γ是超参数,这里可取值1,θr表示特征分布回归器的网络参数集合。
在训练过程中,需要优化视觉解释生成网络模型的参数,使分布差异Wasserstein距离尽量缩小,即:
Figure BDA00017071678800001117
其中,
Figure BDA00017071678800001118
代表视觉解释生成网络模型。
所述真假判别损失函数True/False Critic主要衡量视觉解释生成网络中判别器
Figure BDA00017071678800001119
区分某条解释信息是视觉解释生成网络模型自动生成的还是人工标定的能力。
所述视觉解释生成网络模型经过单词采样器产生解释语句等信息。在做语句判别时,为了保证与人工标定的解释语句的单词表示一致,可以统一采用word2vec方式对单词进行表示。
在本发明一实施例中,使用预训练的GoogleNews-vectors-negative300.bin作为word2vec模型,词向量的维度是300维。
在视觉解释生成网络中,判别器
Figure BDA0001707167880000121
包括语句序列编码器和全连接网络,如图4所示。其中,所述语句序列编码器选用双向循环神经网络(例如Bi-GRU),所述全连接网络包含了基于注意机制的多层感知器和Softmax层。所述判别器
Figure BDA0001707167880000122
的输入语句为单词序列q={a0,a1,...,aT},其中,at表示第t时刻采样输出的单词,t=0…T,T表示单词序列的最大长度。输入语句经过Bi-GRU输出hq=BiGRU(q)。通过α=softmax(Wqhq+bq)计算注意机制中单词的权重系数,
Figure BDA0001707167880000123
Wq表示计算注意机制权重的全连接网络权值参数,bq表示计算注意机制权重的全连接网络偏置参数。然后根据该权重系数计算得到判别器的输入语句的特征表示:
Figure BDA0001707167880000124
其中,αt表示第t时刻的单词对应的权重系数,
Figure BDA0001707167880000125
表示第t时刻Bi-GRU的输出,最后将所述特征表示输入到全连接网络中的Softmax判别层,计算该语句属于人工标定的可能性。
在训练过程中,应当优化真假判别损失函数,使判别器的鉴别性能尽量最大化,使之能区分输入语句是自动生成的还是人工标定的。所述真假判别损失函数Ldisc可表示为:
Figure BDA0001707167880000126
其中,
Figure BDA0001707167880000131
表示视觉解释生成网络生成的语句,
Figure BDA0001707167880000132
表示判别器网络函数,qn表示人工标定的真实视觉解释语句。
同时优化所述视觉解释生成网络模型,使之生成的解释信息能尽量瞒骗判别器,即使损失
Figure BDA0001707167880000133
最小。
综上所述,本发明的训练过程采用迭代优化策略。具体地,网络初始化时,预训练细粒度目标识别模型(预训练完成后该模型参数固定保持不变)和采用教授强制方式预训练的视觉解释生成网络模型,均取得较好的初始化参数。开始训练后,即所述步骤S4包括以下步骤:
通过最大化Lwd-γLgrad来优化上文定义的分布差异;
最大化真假判别损失函数Ldisc来优化上文定义的判别器能力;
然后固定上述分布差异和判别器,通过最小化分类损失函数Lc来优化上文定义的类别分类器能力;
通过最小化第一联合损失函数Lc+Lwd来优化上文定义的句子特征抽取网络;
通过最小化第二联合损失函数
Figure BDA0001707167880000134
优化上文定义的视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于对抗式迁移学习的细粒度目标判别方法,其特征在于,所述方法包括:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息;
所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化,所述步骤S4包括:
最大化分布差异损失函数以优化视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异;
最大化真假判别损失函数以优化视觉解释生成网络中判别器能力;
固定所述分布差异和判别器,最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力;
通过最小化第一联合损失函数来优化所述句子特征抽取网络;
通过最小化第二联合损失函数来优化所述视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
2.根据权利要求1所述的方法,其特征在于,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
4.根据权利要求1-3任一所述的方法,其特征在于,所述句子特征抽取网络模型采用卷积神经网络架构。
5.根据权利要求4所述的方法,其特征在于,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。
6.根据权利要求1所述的方法,其特征在于,所述分布差异损失函数表示为:
Lwd-γLgrad
Figure FDA0002542139700000021
Figure FDA0002542139700000022
其中,N表示每次批量训练的图像样本个数,
Figure FDA0002542139700000023
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure FDA0002542139700000024
表示第n个图像样本的视觉属性特征,
Figure FDA0002542139700000025
表示第n个图像样本的视觉解释信息整体属性特征,
Figure FDA0002542139700000026
代表数据集合中任意
Figure FDA0002542139700000027
Figure FDA0002542139700000028
特征点对的连线上的任意随机特征点,
Figure FDA0002542139700000029
表示函数
Figure FDA00025421397000000210
在变量取值为
Figure FDA00025421397000000211
时的梯度,
Figure FDA00025421397000000212
表示函数
Figure FDA00025421397000000213
在输入变量取值为
Figure FDA00025421397000000214
时的输出,γ是超参数。
7.根据权利要求1所述的方法,其特征在于,所述第一联合损失函数表示为:
Lc+Lwd
Figure FDA0002542139700000031
Figure FDA0002542139700000032
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示
Figure FDA0002542139700000033
yi表示第i个样本的真实类别,
Figure FDA0002542139700000034
表示第i个样本属于第k类的概率,
Figure FDA0002542139700000035
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure FDA0002542139700000036
表示第n个图像样本的视觉属性特征,
Figure FDA0002542139700000037
表示第n个图像样本的视觉解释信息整体属性特征。
8.根据权利要求1所述的方法,其特征在于,所述第二联合损失函数表示为:
Figure FDA0002542139700000038
Figure FDA0002542139700000039
Figure FDA00025421397000000310
Figure FDA00025421397000000311
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示
Figure FDA00025421397000000312
yi表示第i个样本的真实类别,
Figure FDA00025421397000000313
表示第i个样本属于第k类的概率,
Figure FDA00025421397000000314
表示视觉解释生成网络中的特征分布回归器网络函数,
Figure FDA0002542139700000041
表示第n个图像样本的视觉属性特征,
Figure FDA0002542139700000042
表示第n个图像样本的视觉解释信息整体属性特征,
Figure FDA0002542139700000043
表示视觉解释生成网络生成的语句,
Figure FDA0002542139700000044
表示判别器网络函数。
CN201810665319.4A 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法 Active CN108830334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810665319.4A CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810665319.4A CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Publications (2)

Publication Number Publication Date
CN108830334A CN108830334A (zh) 2018-11-16
CN108830334B true CN108830334B (zh) 2020-08-28

Family

ID=64138640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810665319.4A Active CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Country Status (1)

Country Link
CN (1) CN108830334B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109726718B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN109918999A (zh) * 2019-01-22 2019-06-21 西安交通大学 一种小样本数据下基于生成模型的机械设备故障智能诊断方法
CN109846471A (zh) * 2019-01-30 2019-06-07 郑州大学 一种基于BiGRU深度神经网络的心肌梗死检测方法
CN110009427B (zh) * 2019-04-10 2021-07-16 国网浙江省电力有限公司 一种基于深度循环神经网络的电力销售金额智能预测方法
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
CN110489661B (zh) * 2019-07-24 2022-04-26 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN110443293B (zh) * 2019-07-25 2023-04-07 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN112100908B (zh) * 2020-08-31 2024-03-22 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN112765316A (zh) * 2021-01-19 2021-05-07 东南大学 一种引入胶囊网络的文本生成图像方法及装置
CN113962192B (zh) * 2021-04-28 2022-11-15 江西师范大学 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN113505803B (zh) * 2021-05-17 2023-06-20 北京航空航天大学 基于奇异值分解的实例物体自标注方法
CN113255819B (zh) * 2021-06-11 2024-04-19 京东科技信息技术有限公司 用于识别信息的方法和装置
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6690461B1 (en) * 1999-07-27 2004-02-10 Hitachi Software Engineering Co., Ltd. Method for displaying microarray information
JP2005244407A (ja) * 2004-02-25 2005-09-08 Sharp Corp 携帯端末およびプログラム
CN107660338A (zh) * 2015-04-27 2018-02-02 微软技术许可有限责任公司 对象的立体显示
CN107944366A (zh) * 2017-11-16 2018-04-20 山东财经大学 一种基于属性学习的手指静脉识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6690461B1 (en) * 1999-07-27 2004-02-10 Hitachi Software Engineering Co., Ltd. Method for displaying microarray information
JP2005244407A (ja) * 2004-02-25 2005-09-08 Sharp Corp 携帯端末およびプログラム
CN107660338A (zh) * 2015-04-27 2018-02-02 微软技术许可有限责任公司 对象的立体显示
CN107944366A (zh) * 2017-11-16 2018-04-20 山东财经大学 一种基于属性学习的手指静脉识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CIDEr: Consensus-based image description evaluation;Ramakrishna Vedantam等;《IEEE Xplore》;20151015;全文 *
基于姿态的判别属性学习及在细粒度识别中的应用;宋凤义 等;《南京师范大学(自然科学版)》;20170331;第40卷(第1期);第65-72页 *

Also Published As

Publication number Publication date
CN108830334A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830334B (zh) 一种基于对抗式迁移学习的细粒度目标判别方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
McNeely-White et al. Inception and ResNet features are (almost) equivalent
CN109145979B (zh) 敏感图像鉴定方法及终端系统
CN107145830B (zh) 基于空间信息增强和深度信念网络的高光谱图像分类方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
Wang et al. Zero-shot image classification based on deep feature extraction
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
Das et al. A deep sign language recognition system for Indian sign language
CN112732921A (zh) 一种虚假用户评论检测方法及系统
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN115032602A (zh) 一种基于多尺度卷积胶囊网络的雷达目标识别方法
Mikhaylenko et al. Analysis of the predicting neural network person recognition system by picture image
Ma et al. An improved deep learning network structure for multitask text implication translation character recognition
Zhang et al. A framework for the fusion of visual and tactile modalities for improving robot perception.
Qayyum et al. Malaria diagnosis with dilated convolutional neural network based image analysis
Nahar et al. A robust model for translating arabic sign language into spoken arabic using deep learning
Hassan et al. Intelligent sign language recognition using enhanced fourier descriptor: a case of Hausa sign language
Liu et al. Multi-digit recognition with convolutional neural network and long short-term memory
Gong et al. KDCTime: Knowledge distillation with calibration on InceptionTime for time-series classification
Javaid et al. Interpretation of Expressions through Hand Signs Using Deep Learning Techniques
Aksoy Introduction to pattern recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant