CN110334781A - 一种基于Res-Gan的零样本学习算法 - Google Patents
一种基于Res-Gan的零样本学习算法 Download PDFInfo
- Publication number
- CN110334781A CN110334781A CN201910497533.8A CN201910497533A CN110334781A CN 110334781 A CN110334781 A CN 110334781A CN 201910497533 A CN201910497533 A CN 201910497533A CN 110334781 A CN110334781 A CN 110334781A
- Authority
- CN
- China
- Prior art keywords
- network
- attribute
- neural network
- data
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于Res‑Gan的零样本学习算法,属于机器学习中的零样本学习领域。包括:1):通过对属性空间的数据乘以权值,得到加权后的属性,实现属性的放大或抑制。2)在步骤1神经网络实现属性加权的基础上进行多激活函数融。3)在步骤2的基础上,设计残差结构,利用残差结构增加神经网络的深度,增加神经网络识别的准确率。4)在步骤3的基础上,设计生成对抗网络,生成对抗网络包含生成网络和判别网络,生成网络与残差结构相结合,通过两个网络之间的对抗,提高神经网络识别的准确率。本发明通过属性加权、多激活函数融合、残差结构、生成对抗网络等技术,使得神经网络训练的收敛速度大大提高,同时在AwA、CUB等数据集上的识别准确率也大幅提高。
Description
技术领域
本发明属于机器学习的零样本学习领域,旨在利用残差结构与生成对抗网络相融合,实现高准确率的零样本学习。
背景技术
在零样本学习的过程中,训练类不可能覆盖到所有对象类,这会使得训练样本和测试样本出现不同分布的现象,用传统监督学习方法获得的分类器难以直接应用到零样本学习问题。零样本学习要实现已知类和未知类的知识共享,就要克服已知类和未知类数据分布不同的问题,从而实现迁移已知类的知识到帮助未知类的识别分类。
视觉属性的概念由V.Ferrari等人在2007年提出,用视觉属性来建立图像的低层特征和类别标签之间的关系,从而进行图像分类。这一概念的提出引出了很多对视觉属性的定义和如何挖掘视觉属性的方法,如2009年A.Farhadi等人提出了区分属性和语义属性的概念,使用支持向量机来学习属性表示,再利用图像的属性向量来分类识别图像。语义属性是指描述物体的部位、形状和材料等词语,例如“有盖子”、“正方形”和“塑料”等等。而区分属性是在语义属性难以描述物体时,从区分类别的角度形成的,例如“老虎具有而狗熊不具有”、“狗具有而猪不具有”和“马具有而驴不具有”等。之后出现了颜色属性的研究,由F.S.Khan等人在2012年提出,颜色属性具有结构紧凑的优点,提高了计算效率,使得图像分类的准确率进一步提高。属性是类别间共享的知识,同时也是能够被人类理解的高层特征,作为先验知识嵌入到机器学习模型中,具备很多底层图像特征所没有的优势,包括
语义性、共享性、灵活性、可操作性等。属性在复杂的学习环境下可以弥补图像底层特征和高层类别标签之间的语义鸿沟,因此被广泛应用于图像分类、图像描述、图像检索、人脸识别以及人体行为检测等计算机视觉领域。
利用视觉属性进行零样本学习的主要思路是:将数据集通过卷积神经网络提取特征,形成视觉特征空间,对于数据的类,用人工标注的属性、词向量、文本描述等,形成语义空间,通过对已知类视觉特征空间与语义空间进行学习匹配,使学习到的模型能够对未知类进行分类。
早期的零样本学习的工作利用人工标注的属性来推断未知类的标签。通常输入数据的属性在第一阶段被预测,然后通过搜索得到最相似属性集的类来推断其类标签。例如,C.H.Lampert等人在2009年提出的直接属性预测模型(Direct Attribute Prediction,DAP)模型和间接属性预测(Indirect Attribute Prediction,IAP)模型。
首先通过学习概率属性分类器来估计图像的每个属性的后验,然后计算类后验并使用最大后验概率预测类标签。IAP首先预测已知类的类后验,然后利用每个类的概率来计算图像的属性后验。通过一个多类分类器来预测已知类的类后验。而在属性不可用的情况下,这种两阶段模型方法得到了扩展。例如,在IAP之后,CONSE首先预测已知类的类后验,然后将图像特征投影到Word2vec空间中,采用最可能的T个已知类的凸组合。两阶段模型在中间任务和目标任务之间存在域漂移问题,例如,虽然目标任务是预测类标签,但DAP的中间任务是学习属性分类器。
当前许多零样本学习方法的主要思路是学习从图像特征空间到语义空间的映射。其中,SOC将图像特征映射到语义空间,然后搜索最近的类嵌入向量。ALE使用等级损失来学习图像和属性空间之间的双线性兼容函数。DeViSE使用了有效的等级损失公式学习了图像与语义空间的线性映射,并在大型数据集ImageNet上进行了评估。SJE优化结构支持向量机的损失来学习双线性兼容性。而SAE提出了一种语义自编码器,通过将图像特征投影到语义空间进行重构,使模型规范化。
基于非线性多模态嵌入的方法也是零样本学习方法之一。LatEm通过学习多个线性映射,将SJE的双线性相容性模型扩展为分段线性相容性模型,其中选择多个线性映射作为潜在变量。CMT利用一个带有两个隐藏层的神经网络,学习从图像特征空间到word2vec空间的非线性投影。
将图像和语义特征嵌入到另一个公共中间空间是零样本学习的方法之一。SSE使用已知类的混合作为公共空间,认为属于同一类的图像应该具有相似的混合模式。JLSE将视觉特征和语义特征映射到两个独立的潜在空间中,并通过学习另一个双线性相容函数来测量它们的相似性。此外,混合模型联合将多个文本表示和多个视觉部分嵌入到基于属性的不同图像区域上。SYNC通过采用在判别学习框架中训练的基本分类器的线性组合来构造未知类的分类器。
虽然大多数的零样本学习方法都是学习图像与类嵌入空间的跨模态映射,但是有几种生成模型以概率分布的形式表示每个类。GFZSL将每个类条件分布建模为高斯分布,并学习一个回归函数,该函数映射一个嵌入到潜在空间中的类。GLaP假设每个类条件分布都服从高斯分布,并从学习的分布中生成未知类的虚拟实例。
在零样本学习过程中,需要重新获取某种形式的辅助信息,以便在类之间共享信息,从而将从已知类上学到的知识转移到未知类上。辅助信息的一种常见形式是属性,即对象的可共享和可命名的视觉属性。然而,属性通常需要昂贵的人工注释。因此,有大量研究利用了其他辅助信息来减少这种注释工作。
零样本学习被质疑是一种限制性的学习方式,它带有一种强烈的假设,即测试时使用的图像只能来自未知类。因此,有学者提出了广义的零样本学习设置,将零样本学习任务推广到在测试时同时使用可见类和不可见类的情况。尽管ImageNet在分类挑战的性能已经超出了人类,我们没有观察到类似行为的方法竞争检测,包括拒绝未知的对象,同时检测位置和标签的已知对象。本发明利用属性加权、多激活函数融合、残差结构、生成对抗网络等技术的有效融合,能够有效提高零样本学习识别的准确率。
发明内容
针对于传统的零样本学习无区别对待属性,网络深度低和网络收敛速度慢等问题,本发明提出了一种基于Res-Gan的零样本学习算法,本发明方法利用属性加权、多种激活函数、残差结构、生成对抗网络的方法,并将其有效融合,解决了既有方法无区别对待属性的问题、神经网络深度浅的问题和网络收敛速度慢的问题,大大提高了零样本学习算法的准确率。
为了达到上述目的,本发明采用的具体技术方案为:
一种基于Res-Gan的零样本学习算法,包括如下步骤:
步骤1,属性加权:通过对属性空间的数据乘以一个权值,得到加权后的属性,实现属性的放大或抑制,进而提高算法识别的准确性。具体步骤为:
1)获取属性数据,对属性数据的每一维数据乘以一个随机权值作为训练参数,得到加权后的属性数据,权值在训练过程中自动调整。
2)将加权后的属性数据输入神经网络,神经网络将加权的属性数据映射到特征空间。
3)通过神经网络输出的数据与样本标签之间的误差计算损失函数。
4)采用梯度下降法优化神经网络权值和第一层属性权值,实现属性权值的自主调节更新。
该步骤不再将属性数据无区别对待,通过属性加权,将重要属性放大,将次要属性缩小,从而使得重要属性起到更大的作用,提高算法识别的准确性。
步骤2,多激活函数融合:在步骤1的基础上,也就是在神经网络实现属性加权的基础上,再将各激活函数的优点结合在一起,使得算法既保持较高的运算速度,又能有较好的非线性映射能力。具体步骤为:
1)将神经网络第一层的激活函数设置为sigmoid函数。
2)将神经网络第二层至最后一层的激活函数设置为relu函数。
该步骤可以充分发挥各激活函数的优点。
步骤3,残差结构设计:在步骤2的基础上,再利用残差结构增加神经网络的深度,从而增加神经网络识别的准确率。具体步骤为:
1)设计残差块,残差块包括两层神经网络。
2)残差块的输入与残差块第二层网络的输出相加,相加结果使用relu激活。
3)将神经网络的第一层输出接入残差块的输入。
4)残差块的输出再次接入残差块的输入,经过若干次循环。
5)最后一次残差块循环后的输出接入神经网络的最后一层。
该步骤大大加深了神经网络的深度,使得神经网络的性能得以提升。
步骤4,生成对抗网络:在步骤3的基础上,再设计生成对抗网络,生成对抗网络包含生成网络和判别网络,生成网络与残差结构相结合,通过两个网络之间的对抗,实现了神经网络识别的准确率。
1)设计生成对抗网络:设计两个网络,一个网络为生成网络,输入属性数据,输出模拟的特征数据;一个网络为判别网络,输入为特征数据,输出为真实数据的概率。判别网络是一个能够二分类的分类器,用于判别输入数据是真实特征数据还是模拟特征数据,分类器利用多层神经网络实现。
2)生成网络与残差结构相结合:利用残差结构,实现多个残差块的连接,从而将生成网络的深度加深,而更深的网络结构有利于提高网络性能,从而增加神经网络识别的准确率。
该步骤中通过残差结构与GAN网络中的生成网络相融合,实现Res-Gan网络结构,从而实现神经网络准确率的提高。
新的神经网络结构Res-GAN,是一种基于残差结构的生成对抗网络。在神经网络训练过程中,网络前层的梯度容易受后层的影响,在训练过程中梯度逐渐减小,很容易出现梯度消失的问题。因此我们在神经网络中引入残差结构,使神经网络的深度增加的同时避免梯度消失。我们提出将残差结构思想引入到零样本学习的模型中,残差结构使得网络的深度大大增加,从而使得网络的性能进一步增强。另外,我们提出具有残差结构的生成对抗网络。我们将残差结构融入到GAN模型的生成网络和判别网络中,构成Res-GAN,使得网络性能达到最佳。
本发明的有益效果:本算法通过属性加权、多激活函数融合、残差结构、生成对抗网络等技术,使得神经网络训练的收敛速度大大提高,同时在AwA、CUB等数据集上的识别准确率也大幅提高。
附图说明
附图1是属性加权网络结构图;
附图2是激活函数功能示意图;
附图3是普通二层神经网络结构图;
附图4是残差块结构图;
附图5是传统残差网络结构图;
附图6(a)是残差网络结构示意图,附图6(b)是残差块结构示意图;
附图7是Res-Gan网络示意图。
具体实施方式
本发明提供一种基于Res-Gan的零样本学习算法。所述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明。
一种基于Res-Gan的零样本学习算法,包括如下步骤:
第一步,属性加权
在零样本学习中,我们会定义属性空间、特征空间、嵌入空间等,由属性空间和特征空间实现到嵌入空间的映射,从而建立属性空间和特征空间之间的联系。嵌入空间为公共空间,对于嵌入空间的选取,可以选择属性空间或特征空间,也可以选择除二者之外的其他空间。为了减轻枢纽点问题,本发明选择维度较大的特征空间作为嵌入空间,因此可以理解为由属性空间到特征空间之间的映射。
对于属性空间的定义,我们采取是否有羽毛、是否有黑白条纹、是否有某种颜色等作为属性空间的各个维度。例如在AwA数据集中,共定义了85种属性,也就是属性空间为85维。对于特征空间的定义,我们利用vgg网络或者GoogleNet网络从图片中提取特征,可以得到一个1024维的特征数据,也就构成了1024维的特征空间。在此定义上,我们实现从85维的属性空间到1024维的特征空间的映射。
在本发明的属性特征加权思想提出之前,其他零样本学习算法对待各个属性特征是无区别的,都是对属性空间或特征空间的直接映射,各个维度数据同等对待,这就会导致一个问题,重要的属性特征有可能被抑制,次要的属性特征有可能被放大,从而导致模型准确率的降低。
我们知道,不同属性的重要性是不同的,比如,对于是否有尾巴这一属性,绝大多数动物都具备,就很难缩小候选范围,而对于是否有黑白条纹,只有斑马等少数几种动物具有此特征,因此可以大大缩小候选范围,因此,我们可以认为是否有尾巴这一属性的重要性要远远小于是否有黑白条纹这一属性。
为了解决这一问题,我们提出了基于属性加权思想的解决方案。对于每一个属性,我们对其乘以一个系数ωi,其中下标i表示第i个属性。对于重要的属性,其相乘系数值较大,对于次要的属性,其相乘系数值较小。这样我们便可以实现对重要属性的放大而对次要属性的抑制。在具体实现中,步骤为:
1)如果通过人为标定的方法来标定属性权值,这将是一个繁杂而冗余的工作,同时标定的结构也未必是最合理的数值,因此我们不将加权系数作为超参数进行人为设定,而是作为训练参数,在训练过程中自动调整权值,这样便可以降低人为标定失误的可能性,同时减少不必要的工作量。
2)属性加权网络的结构如附图1所示,其中第一层为属性数据,属性数据通过乘以权值对属性加权,得到网络的第二层,加权属性数据在通过神经网络映射到特征空间,这个过程便是属性加权算法。
3)由于通过属性空间到特征空间的映射,在特征空间中计算f(x)和y之间的距离,因此,对于损失函数的选择,使用最小平方差作为损失函数,公式如下所示:
其中,m为样本数量,f(x)为神经网络计算的结果,y为样本标签。
为了防止过拟合现象,增加了一个正则项,损失函数如下所示:
其中,m为样本数量,f(x)为神经网络计算的结果,y为样本标签,λ为缩放因子,wi为神经网络权值。
4)采用梯度下降法优化神经网络权值和第一层属性权值,实现属性权值的自主调节更新。
第二步,多激活函数融合
在步骤1的基础上,也就是在神经网络实现属性加权的基础上,再将各激活函数的优点结合在一起,使得算法既保持较高的运算速度,又能有较好的非线性映射能力。具体步骤为:
1)将神经网络第一层的激活函数设置为sigmoid函数。
2)将神经网络第二层至最后一层的激活函数设置为relu函数。
激活函数(Activation functions)是神经网络不可或缺的一部分,其主要作用是使神经网络具有非线性映射的功能,以弥补单层神经网络等线性模型表达能力不足的缺点。其原理如附图2所示。由于神经网络的数学基础是要求处处可微的,因此,所选取的激活函数也要保证是处处可微的。
激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有非常重要的作用。激活函数的具体作用如下所示:
Sigmoid函数通常被当作神经网络的阈值函数,它将变量映射到0和1之间,公式如下:
Sigmoid函数的特点是取值范围是0到1,它可以用来做二分类,在特征相差比较复杂或者特征相差不是特别大时效果比较好。其输入范围在(-3,3)时,映射效果会比较好。它的缺点是指数运算,运算量大。并且在反向传播时,容易造成梯度消失,无法完成深度网络的训练。
tanh函数是双曲正切函数,可以认为是Sigmoid函数的一个变体。它的优点是输出以0为中心,有利于提高网络训练效率。它的缺点同sigmoid函数一样,依然存在梯度消失和指数运算问题。公式如下:
Relu函数的优点一是单向抑制,可以取得良好的拟合效果。二是对SGD收敛有巨大加速作用。三是运算速度快。它的缺点是训练脆弱,神经元容易死亡,即当神经元输入落入x<0区域时,梯度将不再发生变化,所以在设置学习率不可过大。并且Relu函数的输出不以0为中心,不会对数据做幅度压缩,所以数据幅度会随层数增加而不断扩大。Relu函数如下:
f(x)=max(0,x) (5)
由于Relu函数的简单性和较高的运算速度,在实际使用中得到较多使用,如在DEM(deep embedding model)模型中便使用了Relu函数作为激活函数。但由于Relu函数的曲线特性,在一定程度上可以理解为线性函数,因此,其非线性映射能力在一定程度上小于其他激活函数。考虑到sigmoid函数的特点以及其较宽的输入范围,在本实验中,我们选择sigmoid函数作为我们网络的激活函数。由于sigmoid函数的运算速度较慢,且容易出现梯度消失的问题,我们打算结合sigmoid函数和Relu函数的优点,将采取如下结构的思路:神经网络第一层激活函数使用sigmoid,网络的其它层采用Relu作为激活函数,这样既保证了网络的较好的非线性映射能力,又保证了运算速度,同时还能减轻梯度消失的问题。
第三步,设计残差结构
为了解决深度网络引起的梯度消失或梯度爆炸问题,引入了残差网络(ResNet)。残差网络主要由残差块(Residual block)组成,残差块是构成残差网络的基本单元,关于残差块的结构,可见于附图4。残差网络的具体步骤为:
1)设计残差块,残差块包括两层神经网络。
网络的输入为al,其代表网络第l层激活后的结果,神经网络每层的运算由两部分组成,包括线性运算和激活函数,具体运算可见公式6和公式7。
zl+1=Wl+1*al+Bl+1 (6)
al+1=g(zl+1) (7)
在公式6中,Wl+1为网络第l+1层的权值,Bl+1为网络第l+1层的偏倚,此公式为线性运算,zl+1为线性运算的结果。在公式7中,函数g为激活函数,al+1为第l+1层的输出。因此我们可知,网络第l层的输出al在网络第l+1层进行线性运算和激活,得到al+1,在网络第l+2层进行线性运算和激活,可以得到al+2。
具体的计算过程,由公式6,可以通过al乘以权值矩阵Wl+1,并加上偏倚Bl+1,得到zl+1,再通过公式7,由激活函数g得到al+1。然后进行第l+2层,计算过程同第l+1层,根据公式6和公式7可以得到al+2。
2)残差块的输入与残差块第二层网络的输出相加,相加结果使用relu激活。
残差网络是在以上过程基础上将al直接向后,越过整个网络,在第l+2层的激活函数之前,与第l+2层的zl+2相加,也就是说,输入al通过捷径直接将信息传递到神经网络的深层,而不是通过神经网络的主路径。这样,原来普通二层神经网络的最后一层激活函数g便可以去掉了,取而代之的是对zl+2与al之和进行激活,即al+2=g(zl+2+al),这个过程便是一个残差块。如附图4所示。
3)将神经网络的第一层输出接入残差块的输入。
4)残差块的输出再次接入残差块的输入,经过若干次循环。
残差网络是由步骤1)中所述残差块多重组合而成,也可以看成是每隔两层增加一个跳跃连接,如图5所示,便是由5个残差块组合连接而成。
5)最后一次残差块循环后的输出接入神经网络的最后一层。
引入可以使得神经网络的深度更深,从而提高网络的准确率。
残差网络的出现,使得神经网络的层数可以更深。在理论上,普通神经网络的层数越深,训练误差越小,但实际上并非如此,当神经网络超过一定层数时,训练误差反而会增加,而残差网络便不会出现这种情况,残差网络的训练误差随着网络层数的增加而减小,从而可以通过增加网络层数来提升网络效果。
第四步,设计Res-gan网络结构
提出一种新颖的GAN结构来直接生成图片特征,该结构可用于训练零样本学习的判别分类器。现有的ZSL模型只在训练过程中使用已知类的标记数据,从而使预测偏向于已知类。Res-gan模型的主要观点是,通过将残差的思想与生成对抗的思想融合,提出Res-gan网络,通过生成器为属性生成视觉特征,再通过判别器与真实图片特征作对抗,从而提高模型的识别能力。
在第三步中,已经介绍了残差网络,其主要作用是增加神经网络的深度,从而提升网络的性能。在我们的Res-Gan中,我们将残差结构应用到生成式模型中,以提高样本的准确率,也就是提高造假能力。在判别式模型中,我们使用基于Res的生成器生成的数据和真实的数据作为判别器的输入,通过判别器来判断样本的真假。在判别器中,我们依然使用神经网络,在神经网络的最后一层采用sigmoid函数,其输出从0到1之间的数值,可以看做是输入样本属于真实数据的概率,从而实现二分类。
具体过程如下:
设计生成对抗网络:设计两个网络,一个网络为生成网络,一个网络为判别网络。
所述的判别网络,其输入为特征数据,输出为真实数据的概率。判别网络是一个能够二分类的分类器,用于判别输入数据是真实特征数据还是模拟特征数据,分类器利用多层神经网络实现。判别式模型的损失函数如式10所示。
其中D表示判别网络,G表示生成网络,V表示损失函数,x表示真实样本,z表示生成网络的结果,pdata(x)表示真实样本的数据分布,pz(z)表示生成样本的数据分布,D(x)表示判别网络对真实样本的判断,G(z)表示生成的样本。
所述的生成网络,生成网络的输入是属性数据,输出模拟的特征数据,在生成网络模型中,生成网络使用了残差结构,将语义向量通过隐藏层、sigmoid激活函数、残差块等映射成特征向量,并作为模拟样本输入到判别网络中。Res-Gan网络通过最小化损失函数来实现网络的优化。对于Res-Gan网络的损失函数,如式8所示。
其中D表示判别网络,G表示生成网络,V表示损失函数,x表示真实样本,z表示生成网络的结果,pdata(x)表示真实样本的数据分布,pz(z)表示生成样本的数据分布,D(x)表示判别网络对真实样本的判断,G(z)表示生成的样本。
生成式模型的损失函数如式9所示。
其中D表示判别网络,G表示生成网络,z表示生成网络的结果,pz(z)表示生成样本的数据分布,G(z)表示生成的样本。
生成网络与残差结构相结合:利用残差结构,实现多个残差块的连接,从而将生成网络的深度加深,而更深的网络结构有利于提高网络性能,增加神经网络识别的准确率。
图7是Res-gan网络结构图,图中主要包括三个网络,一个生成网络,一个判别网络,一个残差块结构图,其中左图为生成网络,右边为判别网络。生成网络使用了残差结构,将语义向量通过隐藏层、sigmoid激活函数、残差块等映射成特征向量,并作为模拟样本输入到判别网络中,同时也将真实样本输入到判别网络中,判别网络通过模拟样本和真实样本进行训练,提高判断能力,两个网络形成对抗。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
Claims (1)
1.一种基于Res-Gan的零样本学习算法,其特征在于,所述的零样本学习算法包括如下步骤:
步骤1,属性加权:通过对属性空间的数据乘以一个权值,得到加权后的属性,实现属性的放大或抑制;
1)获取属性数据,对属性数据的每一维数据乘以一个随机权值作为训练参数,得到加权后的属性数据,权值在训练过程中自动调整;
2)将加权后的属性数据输入神经网络,神经网络将加权的属性数据映射到特征空间;
3)通过神经网络输出的数据与样本标签之间的误差计算损失函数;
4)采用梯度下降法优化神经网络权值和第一层属性权值,实现属性权值的自主调节更新;
步骤2,在步骤1神经网络实现属性加权的基础上进行多激活函数融;
1)将神经网络第一层的激活函数设置为sigmoid函数;
2)将神经网络第二层至最后一层的激活函数设置为relu函数;
步骤3,在步骤2的基础上,设计残差结构,利用残差结构增加神经网络的深度,增加神经网络识别的准确率;
1)设计残差块,残差块包括两层神经网络;
网络的输入为al,其代表网络第l层激活后的结果,神经网络每层的运算由两部分组成,包括线性运算和激活函数,运算可见公式6和公式7;
zl+1=Wl+1*al+Bl+1 (6)
al+1=g(zl+1) (7)
其中,Wl+1为网络第l+1层的权值,Bl+1为网络第l+1层的偏倚,zl+1为线性运算的结果;函数g为激活函数,al+1为第l+1层的输出;因此可知,网络第l层的输出al在网络第l+1层进行线性运算和激活,得到al+1,在网络第l+2层进行线性运算和激活得到al+2;
2)残差块的输入与残差块第二层网络的输出相加,相加结果使用relu激活;
残差网络是在以上过程基础上将al直接向后,越过整个网络,在第l+2层的激活函数之前,与第l+2层的zl+2相加;这样,原来传统二层神经网络的最后一层激活函数g去掉了,取而代之的是对zl+2与al之和进行激活,即al+2=g(zl+2+al),这个过程便是一个残差块;
3)将神经网络的第一层输出接入残差块的输入;
4)残差块的输出再次接入残差块的输入,经过若干次循环;
残差网络是由步骤1)中所述残差块多重组合而成,也可以看成是每隔两层增加一个跳跃连接;
5)最后一次残差块循环后的输出接入神经网络的最后一层;
步骤4,生成对抗网络:在步骤3的基础上,设计生成对抗网络,生成对抗网络包含生成网络和判别网络,生成网络与残差结构相结合,通过两个网络之间的对抗,提高神经网络识别的准确率;
1)设计生成对抗网络:设计两个网络,一个网络为生成网络,输入属性数据,输出模拟的特征数据;一个网络为判别网络,输入为特征数据,输出为真实数据的概率;判别网络是一个能够二分类的分类器,用于判别输入数据是真实特征数据还是模拟特征数据,分类器利用多层神经网络实现;
2)生成网络与残差结构相结合:利用残差结构,实现多个残差块的连接,从而将生成网络的深度加深,而更深的网络结构有利于提高网络性能,增加神经网络识别的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910497533.8A CN110334781A (zh) | 2019-06-10 | 2019-06-10 | 一种基于Res-Gan的零样本学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910497533.8A CN110334781A (zh) | 2019-06-10 | 2019-06-10 | 一种基于Res-Gan的零样本学习算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334781A true CN110334781A (zh) | 2019-10-15 |
Family
ID=68140934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910497533.8A Pending CN110334781A (zh) | 2019-06-10 | 2019-06-10 | 一种基于Res-Gan的零样本学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334781A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795585A (zh) * | 2019-11-12 | 2020-02-14 | 福州大学 | 基于生成对抗网络的零样本图像分类模型及其方法 |
CN111126218A (zh) * | 2019-12-12 | 2020-05-08 | 北京工业大学 | 一种基于零样本学习的人体行为识别方法 |
CN111400754A (zh) * | 2020-03-11 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 保护用户隐私的用户分类系统的构建方法及装置 |
CN111461067A (zh) * | 2020-04-26 | 2020-07-28 | 武汉大学 | 基于先验知识映射及修正的零样本遥感影像场景识别方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN112016490A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学院重庆绿色智能技术研究院 | 基于生成对抗学习的行人属性识别方法 |
CN112966544A (zh) * | 2020-12-29 | 2021-06-15 | 杭州电子科技大学 | 一种采用ICGAN与ResNet网络的雷达辐射源信号分类识别方法 |
CN113642621A (zh) * | 2021-08-03 | 2021-11-12 | 南京邮电大学 | 基于生成对抗网络的零样本图像分类方法 |
CN114863241A (zh) * | 2022-04-22 | 2022-08-05 | 厦门大学 | 一种基于空间布局与深度学习的影视动画评估方法 |
-
2019
- 2019-06-10 CN CN201910497533.8A patent/CN110334781A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795585A (zh) * | 2019-11-12 | 2020-02-14 | 福州大学 | 基于生成对抗网络的零样本图像分类模型及其方法 |
CN110795585B (zh) * | 2019-11-12 | 2022-08-09 | 福州大学 | 基于生成对抗网络的零样本图像分类系统及其方法 |
CN111126218A (zh) * | 2019-12-12 | 2020-05-08 | 北京工业大学 | 一种基于零样本学习的人体行为识别方法 |
CN111126218B (zh) * | 2019-12-12 | 2023-09-26 | 北京工业大学 | 一种基于零样本学习的人体行为识别方法 |
CN111400754A (zh) * | 2020-03-11 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 保护用户隐私的用户分类系统的构建方法及装置 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111476294B (zh) * | 2020-04-07 | 2022-03-22 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111461067A (zh) * | 2020-04-26 | 2020-07-28 | 武汉大学 | 基于先验知识映射及修正的零样本遥感影像场景识别方法 |
CN111461067B (zh) * | 2020-04-26 | 2022-06-14 | 武汉大学 | 基于先验知识映射及修正的零样本遥感影像场景识别方法 |
CN111738313A (zh) * | 2020-06-08 | 2020-10-02 | 大连理工大学 | 一种基于多重网络合作的零样本学习算法 |
CN112016490A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学院重庆绿色智能技术研究院 | 基于生成对抗学习的行人属性识别方法 |
CN112016490B (zh) * | 2020-08-28 | 2022-08-02 | 中国科学院重庆绿色智能技术研究院 | 基于生成对抗学习的行人属性识别方法 |
CN112966544A (zh) * | 2020-12-29 | 2021-06-15 | 杭州电子科技大学 | 一种采用ICGAN与ResNet网络的雷达辐射源信号分类识别方法 |
CN112966544B (zh) * | 2020-12-29 | 2024-04-02 | 杭州电子科技大学 | 一种采用ICGAN与ResNet网络的雷达辐射源信号分类识别方法 |
CN113642621A (zh) * | 2021-08-03 | 2021-11-12 | 南京邮电大学 | 基于生成对抗网络的零样本图像分类方法 |
CN114863241A (zh) * | 2022-04-22 | 2022-08-05 | 厦门大学 | 一种基于空间布局与深度学习的影视动画评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334781A (zh) | 一种基于Res-Gan的零样本学习算法 | |
CN109710761A (zh) | 基于注意力增强的双向lstm模型的情感分析方法 | |
CN110378985B (zh) | 一种基于gan的动漫绘画辅助创作方法 | |
Cheng et al. | Facial expression recognition method based on improved VGG convolutional neural network | |
Liu et al. | Spatiotemporal attacks for embodied agents | |
Zhang et al. | Dense GAN and multi-layer attention based lesion segmentation method for COVID-19 CT images | |
Tan et al. | Legitimate adversarial patches: Evading human eyes and detection models in the physical world | |
CN108460328A (zh) | 一种基于多任务卷积神经网络的套牌车检测方法 | |
Lerner et al. | Fitting behaviors to pedestrian simulations | |
CN108109160A (zh) | 一种基于深度学习的免交互式GrabCut舌体分割方法 | |
Yuan et al. | Interpreting deep models for text analysis via optimization and regularization methods | |
CN109800817B (zh) | 基于融合语义神经网络的图像分类方法 | |
CN108564012B (zh) | 一种基于人体特征分布的行人解析方法 | |
CN109948709A (zh) | 一种目标对象的多任务属性识别系统 | |
Lou et al. | Ponzi contracts detection based on improved convolutional neural network | |
Zhang et al. | Feature augmentation for imbalanced classification with conditional mixture WGANs | |
CN113642621A (zh) | 基于生成对抗网络的零样本图像分类方法 | |
CN109903339A (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
CN111104975A (zh) | 一种基于广度学习的信用评估模型 | |
CN112206541B (zh) | 游戏外挂识别方法、装置、存储介质及计算机设备 | |
CN110930469B (zh) | 一种基于过渡空间映射的文本生成图像方法和系统 | |
CN106845391B (zh) | 一种家居环境下的氛围场识别方法及识别系统 | |
Zhang et al. | A novel CapsNet neural network based on MobileNetV2 structure for robot image classification | |
Liu et al. | RDBN: Visual relationship detection with inaccurate RGB-D images | |
CN115797747A (zh) | 基于模型权重变异和置信度距离的对抗样本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |