CN108830334A - 一种基于对抗式迁移学习的细粒度目标判别方法 - Google Patents

一种基于对抗式迁移学习的细粒度目标判别方法 Download PDF

Info

Publication number
CN108830334A
CN108830334A CN201810665319.4A CN201810665319A CN108830334A CN 108830334 A CN108830334 A CN 108830334A CN 201810665319 A CN201810665319 A CN 201810665319A CN 108830334 A CN108830334 A CN 108830334A
Authority
CN
China
Prior art keywords
visual explanation
network
indicate
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810665319.4A
Other languages
English (en)
Other versions
CN108830334B (zh
Inventor
江爱文
万剑怡
王明文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN201810665319.4A priority Critical patent/CN108830334B/zh
Publication of CN108830334A publication Critical patent/CN108830334A/zh
Application granted granted Critical
Publication of CN108830334B publication Critical patent/CN108830334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于对抗式迁移学习的细粒度目标判别方法,所述方法包括:获取预训练细粒度目标识别模型,输入训练图像得到视觉属性特征;将训练图像输入预设卷积神经网络得到图像特征,获取视觉解释生成网络模型,输入图像特征得到训练图像的视觉解释信息;获取句子特征抽取网络模型,提取得到视觉解释信息的整体属性特征;利用视觉属性特征和视觉解释信息整体属性特征对视觉解释生成网络模型进行优化;将测试图像输入优化视觉解释生成网络模型,得到分类结果和视觉解释信息。本发明有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。

Description

一种基于对抗式迁移学习的细粒度目标判别方法
技术领域
本发明属于计算机视觉以及自然语言处理技术领域,具体是一种基于对抗式迁移学习的细粒度目标判别方法。
背景技术
目前,在计算机视觉领域,细粒度深度目标分类算法已取得较大的突破,比如其在鸟类的种类识别方面上取得了较好的效果。然而对于智能系统而言,还不能满足于“黑盒子”方式,即仅仅输出预测结果还不够,不仅要“知其然”,还要“知其所以然”。能够解释视觉系统为什么会产生某个输出结论并获得其对应视觉证据是决策系统的智能化体现。因此,需要一种新型的目标判别方法,在对于目标进行判别的同时,还能够解释预测系统决策的内在原因。
文字语言和图像是人类描述客观世界的两种非常重要的表达方式。2016年美国UCBerkeley的研究人员Lisa等人首次提出了视觉解释的想法和模型,并对视觉描述、视觉定义、视觉解释三个相近概念进行了区分。视觉描述是在没有任何图像内容标签的前提下,由场景中的对象内容引导产生图像内容的一般性描述;视觉定义是根据视觉对象的类别所产生的类别定义语句,该定义语句不要求与当前所见的图像视觉内容有关联,只与图像对象的类别相关;视觉解释是根据系统预测的视觉对象类别,结合视觉图像内容产生具有类别鉴别力的预测解释语句。
在Lisa等人的工作中,他们为了增加语言解释的识别精度,利用到了图像已知的语义标签和全局视觉特征。然而在实际应用中,视觉系统不是总能获得图像内容的标签信息。
发明内容
为了解决上述现有技术中存在的问题,本发明提出一种基于对抗式迁移学习的细粒度目标判别方法,该方法无需对象属性标签信息,可直接根据图片内容产生目标判别结论以及视觉解释信息。
本发明提出的一种基于对抗式迁移学习的细粒度目标判别方法包括:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。
可选地,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。
可选地,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
可选地,所述句子特征抽取网络模型采用卷积神经网络架构。
可选地,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。
可选地,所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。
可选地,所述步骤S4包括:
最大化分布差异损失函数以优化视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异;
最大化真假判别损失函数以优化视觉解释生成网络中判别器能力;
固定所述分布差异和判别器,最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力;
通过最小化第一联合损失函数来优化所述句子特征抽取网络;
通过最小化第二联合损失函数来优化所述视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
可选地,所述分布差异损失函数表示为:
Lwd-γLgrad
其中,N表示每次批量训练的图像样本个数,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,代表数据集合中任意特征点对的连线上的任意随机特征点,表示函数在变量取值为时的梯度,表示函数在输入变量取值为时的输出,γ是超参数。
可选地,所述第一联合损失函数表示为:
Lc+Lwd
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征。
可选地,所述第二联合损失函数表示为:
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,表示视觉解释生成网络生成的语句,表示判别器网络函数。
本发明所产生的有益效果是,有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。本发明利用迁移学习的思想,利用对抗学习的网络训练方式,使得解释模型能够专注于与预测的类别信息特征最相关的内容,同时生成符合人类语法习惯的、具有较强判别性的细粒度视觉解释语句。本发明至少可以有效地解决两个问题:(1)同步实现细粒度目标的类别预测和语法自然解释;(2)明确分类结论预测过程的内在视觉属性。
附图说明
图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图;
图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图;
图3是根据本发明一实施例的视觉解释生成网络模型的结构示意图;
图4是根据本发明一实施例的句子特征抽取网络模型的结构示意图;
图5是根据本发明一实施例的真假判别网络模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
目标判别以及视觉解释模型的输出需要满足两个基本的要求:第一,输出的解释语句具备明确可区分的类信息;第二,解释语句符合人们语法习惯,并可以准确描述视觉对象分类对应的视觉证据。对于非计算机视觉领域的人员而言,这种方式有助于他们通俗理解计算机内在的决策过程。本发明提出的判别方法能够完成细粒度视觉分类并且以自然语言形式输出关于预测结论的内在凭据解释。
图1是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图,图2是根据本发明一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图,如图1和图2所示,所述基于对抗式迁移学习的细粒度目标判别方法包括以下步骤:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
其中,所述训练图像可以为一幅也可以为多幅。
在本发明一实施例中,所述细粒度目标识别模型可以为已经预先训练好的基于强监督信息的细粒度分类模型Mask-CNN。该模型在训练时,为了获得更高的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(PartAnnotation)等人工标注信息,而且该模型的输出还经过了白化奇异值分解(SVDWhitening),因此,视觉属性特征xI具有较强细粒度类别鉴别力。当然,所述细粒度目标识别模型也可以选用其他能够对于目标进行识别,获取目标视觉属性特征的模型,本发明对于所述细粒度目标识别模型的具体形式不作特别限定。
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
其中,所述预设卷积神经网络可根据实际应用的需要进行选择,比如可选择残差网络ResNet50。
其中,所述视觉解释生成网络模型根据输入的图像特征fCNN,依次生成序列化的单词特征,从而得到视觉解释信息。
在本发明一实施例中,所述视觉解释生成网络模型的主体为循环神经网络,其中,所述循环神经网络例如可以包括门限循环单元(GRU)和多层感知器(MLP)。
在本发明一实施例中,所述循环神经网络包括两层叠加的门限循环单元(Two-layers Stacked-GRU)和多层感知器(MLP),其中,每层门限循环单元的隐含元个数均为512,所述多层感知器包括全连接层和softmax层。在每个时间点,将两层门限循环单元的输出进行串联,形成1024维的特征向量并将其作为输入输入到多层感知器(MLP)中,所述特征向量可以表示为:
其中,表示向量串联,表示t时刻第一层门限循环单元的输出,表示t时刻第二层门限循环单元的输出,fCNN表示经过所述预设卷积神经网络输出的图像特征,表示t-1时刻第一层门限循环单元的输出,表示t-1时刻第二层门限循环单元的输出,GRU(·)表示门限循环单元函数。
其中,所述多层感知器全连接层的隐含层输出ht的维度为2000维,可表示为:其中,ReLu(·)表示非线性激活函数,ReLU(x)=max(x,0),Wr表示全连接层的权重,br表示全连接层的偏置,r用于区分不同网络中的权重参数W和偏置参数b。Softmax层的输出维度与预设解释信息数据集的词汇表长度相等,其输出下一个单词的条件概率分布:pt=softmax(W1*ht+b1),其中,softmax(·)函数形式为W1表示全连接层的权重,b1表示全连接层的偏置。
为了使得所述视觉解释生成网络模型参数能够获得较好的初始值,在实施过程中可采用预训练机制,即采用教授强制(Professor Forcing)学习方式对于所述视觉解释生成网络模型进行预训练。所述视觉解释生成网络模型在每一个时间点t,根据条件概率分布pt从预设解释信息数据集中采样得到新的单词,如此循环直到句子最后一个单词“END”结束,最终所述视觉解释网络模型产生的单词序列形成了一条完整的视觉解释信息。
根据本发明一实施例的视觉解释生成网络模型的结构示意图如图3所示。
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs
在本发明一实施例中,选用所述视觉解释生成网络模型中MLP全连接层的输出ht作为所述视觉解释信息中每个单词的特征,进而利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
在本发明一实施例中,所述句子特征抽取网络模型采用卷积神经网络架构,如图4所示,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层(Batch Normalization),所述卷积层卷积核大小是h×w×channels,其中,宽w与所述视觉解释信息中单词的特征维度相等;高h可根据单词不同大小的上下文范围信息来确定,比如,可设置h={2,3,4}三种情况;Channels表示卷积核的通道数,其大小可设置为200。其中,卷积核的滑动步长均为2。所述卷积层的输出为多种情况的卷积核卷积结果的串联拼接,因此,在上述示例中,经过卷积层后的特征映射(feature mappings)维度为T1*600,其中,T1代表特征映射在卷积核后时序方向上的长度。所述时间序列池化层在时序方向上对于输入进行最大池化(Max Pooling)操作,得到维度为600的输出特征S,然后经过全连接层、批量正则化层后,得到最终输出的视觉解释信息整体属性特征xs,其中,所述全连接层的维度大小设为4096维,与视觉属性特征xI的维度大小相等。
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
为了让所述视觉解释生成网络模型能够生成较强类别判别性能的描述,同时该描述比较自然地符合日常语法用语习惯,在该步骤中,利用分类损失函数、分布差异损失函数、真假判别损失函数等三个损失函数对于所述视觉解释生成网络模型进行优化,以综合提高自动生成的解释语句的鉴别力和语法自然性,优化目标为,分类损失越小越好,分布差异越小越好,如此,可将细粒度目标识别模型迁移学习到视觉解释的自然语言领域中。另外,解释语句的自然表述也是至关重要的方面,因此,考虑经过采样器生成的解释语句是否自然、是否符合用语习惯等因素,并且基于对抗学习的网络训练机制定义了真假判别损失函数。训练过程中,视觉解释生成网络生成的语句应尽可能的表述自然和语法正确,才能迷惑判别器,使之无法区分输入的是真实标定的解释语句还是网络基于图像自动生成的解释,另一方面,判别器则不断优化,提升自身的区分能力。生成网络和判别器相互博弈直至均衡,理想的均衡情况下,生成网络生成的语句与真实解释语句无二,判别器无法区分,判别性能接近随机(即概率为0.5)。
其中:
所述分类损失函数主要用于衡量生成视觉解释后对应的视觉解释信息整体属性特征xs的类别鉴别力,其中,由视觉解释生成网络模型中的类别分类器实现分类,所述类别分类器包括带dropout的全连接层和softmax层,所述类别分类器的输入为视觉解释信息的整体属性特征xs,输出为K维的类别概率向量p:
p=Softmax(WS·xs+bs)
其中,Softmax(·)函数形式为Ws表示全连接层权重,bs表示全连接层偏置。
在本发明一实施例中,将数据的真实类别标签表示成one-hot形式的向量。如果某一数据属于第k类,则其对应的真实类别标签向量的第k个元素为1,其他的为0。
在本发明一实施例中,使用类互信息熵作为分类损失,即所述分类损失函数可表示为:
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率。
利用分类损失函数对于所述视觉解释生成网络模型进行优化的目标之一就是使分类损失最小化。
所述分布差异损失函数主要衡量视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异。图像和视觉解释是同一对象两种模态的表示形式。如果二者对同一对象均具备强类别鉴别能力,那么它们在对应的公共语义特征空间中的分布情况应尽可能的接近。因此可采用Wasserstein距离作为两者分布差异的衡量标准,所述Wasserstein距离可表示为:
其中,表示视觉属性特征xI的空间分布,表示视觉解释信息整体属性特征xs的空间分布,||fθ||L≤1表示函数fθ满足利普西茨条件(Lipschitz),且斜率小于利普希茨常数1,EP[]表示满足概率分布P的随机变量的期望,[]表示在视觉属性特征xI的概率分布条件下的期望,[]表示在视觉解释信息整体属性特征xs的概率分布条件下的期望,fθ(·)表示满足利普西茨条件的函数,sup代表上界。
在实际的训练过程中,可以通过最大化如下所示的损失函数来近似逼近真实的Wasserstein距离:
其中,表示视觉解释生成网络中的特征分布回归器网络函数。表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征。为了保证函数满足利普西茨条件,可引入梯度惩罚项(gradient penalty)Lgrad
其中,代表数据集合中任意特征点对的连线上的任意随机特征点,表示函数在变量取值为时的梯度,表示函数在输入变量取值为时的输出。因此,最终可根据下式近似估计两个特征分布之间的差异,即Wasserstein距离:
其中,γ是超参数,这里可取值1,θr表示特征分布回归器的网络参数集合。
在训练过程中,需要优化视觉解释生成网络模型的参数,使分布差异Wasserstein距离尽量缩小,即:
其中,代表视觉解释生成网络模型。
所述真假判别损失函数True/False Critic主要衡量视觉解释生成网络中判别器区分某条解释信息是视觉解释生成网络模型自动生成的还是人工标定的能力。
所述视觉解释生成网络模型经过单词采样器产生解释语句等信息。在做语句判别时,为了保证与人工标定的解释语句的单词表示一致,可以统一采用word2vec方式对单词进行表示。
在本发明一实施例中,使用预训练的GoogleNews-vectors-negative300.bin作为word2vec模型,词向量的维度是300维。
在视觉解释生成网络中,判别器包括语句序列编码器和全连接网络,如图4所示。其中,所述语句序列编码器选用双向循环神经网络(例如Bi-GRU),所述全连接网络包含了基于注意机制的多层感知器和Softmax层。所述判别器的输入语句为单词序列q={a0,a1,...,aT},其中,at表示第t时刻采样输出的单词,t=0…T,T表示单词序列的最大长度。输入语句经过Bi-GRU输出hq=BiGRU(q)。通过α=softmax(Wqhq+bq)计算注意机制中单词的权重系数,Wq表示计算注意机制权重的全连接网络权值参数,bq表示计算注意机制权重的全连接网络偏置参数。然后根据该权重系数计算得到判别器的输入语句的特征表示:其中,αt表示第t时刻的单词对应的权重系数,表示第t时刻Bi-GRU的输出,最后将所述特征表示输入到全连接网络中的Softmax判别层,计算该语句属于人工标定的可能性。
在训练过程中,应当优化真假判别损失函数,使判别器的鉴别性能尽量最大化,使之能区分输入语句是自动生成的还是人工标定的。所述真假判别损失函数Ldisc可表示为:
其中,表示视觉解释生成网络生成的语句,表示判别器网络函数,qn表示人工标定的真实视觉解释语句。
同时优化所述视觉解释生成网络模型,使之生成的解释信息能尽量瞒骗判别器,即使损失最小。
综上所述,本发明的训练过程采用迭代优化策略。具体地,网络初始化时,预训练细粒度目标识别模型(预训练完成后该模型参数固定保持不变)和采用教授强制方式预训练的视觉解释生成网络模型,均取得较好的初始化参数。开始训练后,即所述步骤S4包括以下步骤:
通过最大化Lwd-γLgrad来优化上文定义的分布差异;
最大化真假判别损失函数Ldisc来优化上文定义的判别器能力;
然后固定上述分布差异和判别器,通过最小化分类损失函数Lc来优化上文定义的类别分类器能力;
通过最小化第一联合损失函数Lc+Lwd来优化上文定义的句子特征抽取网络;
通过最小化第二联合损失函数优化上文定义的视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于对抗式迁移学习的细粒度目标判别方法,其特征在于,所述方法包括:
步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI
步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;
步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xS
步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xS对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;
步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。
2.根据权利要求1所述的方法,其特征在于,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。
4.根据权利要求1-3任一所述的方法,其特征在于,所述句子特征抽取网络模型采用卷积神经网络架构。
5.根据权利要求4所述的方法,其特征在于,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。
7.根据权利要求6所述的方法,其特征在于,所述步骤S4包括:
最大化分布差异损失函数以优化视觉属性特征xI和视觉解释信息整体属性特征xS之间的分布差异;
最大化真假判别损失函数以优化视觉解释生成网络中判别器能力;
固定所述分布差异和判别器,最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力;
通过最小化第一联合损失函数来优化所述句子特征抽取网络;
通过最小化第二联合损失函数来优化所述视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。
8.根据权利要求7所述的方法,其特征在于,所述分布差异损失函数表示为:
Lwd-γLgrad
其中,N表示每次批量训练的图像样本个数,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,代表数据集合中任意特征点对的连线上的任意随机特征点,表示函数在变量取值为时的梯度,表示函数在输入变量取值为时的输出,γ是超参数。
9.根据权利要求7所述的方法,其特征在于,所述第一联合损失函数表示为:
Lc+Lwd
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征。
10.根据权利要求7所述的方法,其特征在于,所述第二联合损失函数表示为:
其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,表示视觉解释生成网络生成的语句,表示判别器网络函数。
CN201810665319.4A 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法 Active CN108830334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810665319.4A CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810665319.4A CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Publications (2)

Publication Number Publication Date
CN108830334A true CN108830334A (zh) 2018-11-16
CN108830334B CN108830334B (zh) 2020-08-28

Family

ID=64138640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810665319.4A Active CN108830334B (zh) 2018-06-25 2018-06-25 一种基于对抗式迁移学习的细粒度目标判别方法

Country Status (1)

Country Link
CN (1) CN108830334B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN109846471A (zh) * 2019-01-30 2019-06-07 郑州大学 一种基于BiGRU深度神经网络的心肌梗死检测方法
CN109918999A (zh) * 2019-01-22 2019-06-21 西安交通大学 一种小样本数据下基于生成模型的机械设备故障智能诊断方法
CN110009427A (zh) * 2019-04-10 2019-07-12 国网浙江省电力有限公司 一种基于深度循环神经网络的电力销售金额智能预测方法
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110489661A (zh) * 2019-07-24 2019-11-22 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法
CN112100908A (zh) * 2020-08-31 2020-12-18 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN113255819A (zh) * 2021-06-11 2021-08-13 京东数科海益信息科技有限公司 用于识别信息的方法和装置
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113505803A (zh) * 2021-05-17 2021-10-15 北京航空航天大学 基于奇异值分解的实例物体自标注方法
CN113962192A (zh) * 2021-04-28 2022-01-21 江西师范大学 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN116630726A (zh) * 2023-07-26 2023-08-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6690461B1 (en) * 1999-07-27 2004-02-10 Hitachi Software Engineering Co., Ltd. Method for displaying microarray information
JP2005244407A (ja) * 2004-02-25 2005-09-08 Sharp Corp 携帯端末およびプログラム
CN107660338A (zh) * 2015-04-27 2018-02-02 微软技术许可有限责任公司 对象的立体显示
CN107944366A (zh) * 2017-11-16 2018-04-20 山东财经大学 一种基于属性学习的手指静脉识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6690461B1 (en) * 1999-07-27 2004-02-10 Hitachi Software Engineering Co., Ltd. Method for displaying microarray information
JP2005244407A (ja) * 2004-02-25 2005-09-08 Sharp Corp 携帯端末およびプログラム
CN107660338A (zh) * 2015-04-27 2018-02-02 微软技术许可有限责任公司 对象的立体显示
CN107944366A (zh) * 2017-11-16 2018-04-20 山东财经大学 一种基于属性学习的手指静脉识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMAKRISHNA VEDANTAM等: "CIDEr: Consensus-based image description evaluation", 《IEEE XPLORE》 *
宋凤义 等: "基于姿态的判别属性学习及在细粒度识别中的应用", 《南京师范大学(自然科学版)》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109726718A (zh) * 2019-01-03 2019-05-07 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN109726718B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于关系正则化的视觉场景图生成系统及方法
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN109918999A (zh) * 2019-01-22 2019-06-21 西安交通大学 一种小样本数据下基于生成模型的机械设备故障智能诊断方法
CN109846471A (zh) * 2019-01-30 2019-06-07 郑州大学 一种基于BiGRU深度神经网络的心肌梗死检测方法
CN110009427A (zh) * 2019-04-10 2019-07-12 国网浙江省电力有限公司 一种基于深度循环神经网络的电力销售金额智能预测方法
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
CN110489661A (zh) * 2019-07-24 2019-11-22 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN110443293B (zh) * 2019-07-25 2023-04-07 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110443293A (zh) * 2019-07-25 2019-11-12 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN112100908A (zh) * 2020-08-31 2020-12-18 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN112100908B (zh) * 2020-08-31 2024-03-22 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN113962192A (zh) * 2021-04-28 2022-01-21 江西师范大学 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN113962192B (zh) * 2021-04-28 2022-11-15 江西师范大学 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN113505803B (zh) * 2021-05-17 2023-06-20 北京航空航天大学 基于奇异值分解的实例物体自标注方法
CN113505803A (zh) * 2021-05-17 2021-10-15 北京航空航天大学 基于奇异值分解的实例物体自标注方法
CN113255819A (zh) * 2021-06-11 2021-08-13 京东数科海益信息科技有限公司 用于识别信息的方法和装置
CN113255819B (zh) * 2021-06-11 2024-04-19 京东科技信息技术有限公司 用于识别信息的方法和装置
CN116630726A (zh) * 2023-07-26 2023-08-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统

Also Published As

Publication number Publication date
CN108830334B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN108830334A (zh) 一种基于对抗式迁移学习的细粒度目标判别方法
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
CN108681539B (zh) 一种基于卷积神经网络的蒙汉神经翻译方法
CN106023065B (zh) 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法
CN104063719B (zh) 基于深度卷积网络的行人检测方法及装置
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN110287800A (zh) 一种基于sgse-gan的遥感图像场景分类方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN106991382A (zh) 一种遥感场景分类方法
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN106803069A (zh) 基于深度学习的人群高兴程度识别方法
CN106815604A (zh) 基于多层信息融合的注视点检测方法
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
Jiang et al. An eight-layer convolutional neural network with stochastic pooling, batch normalization and dropout for fingerspelling recognition of Chinese sign language
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN110188653A (zh) 基于局部特征聚合编码和长短期记忆网络的行为识别方法
CN105976397B (zh) 一种目标跟踪方法
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN110490252A (zh) 一种基于深度学习的室内人数检测方法及系统
CN108446676A (zh) 基于有序编码及多层随机投影的人脸图像年龄判别方法
CN114386534A (zh) 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN113344045B (zh) 一种结合hog特征提高sar船只分类精度的方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant