CN108491925A - 基于隐变量模型的深度学习特征泛化方法 - Google Patents

基于隐变量模型的深度学习特征泛化方法 Download PDF

Info

Publication number
CN108491925A
CN108491925A CN201810071862.1A CN201810071862A CN108491925A CN 108491925 A CN108491925 A CN 108491925A CN 201810071862 A CN201810071862 A CN 201810071862A CN 108491925 A CN108491925 A CN 108491925A
Authority
CN
China
Prior art keywords
feature
extensive
formula
layer
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810071862.1A
Other languages
English (en)
Inventor
郭春生
李睿哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201810071862.1A priority Critical patent/CN108491925A/zh
Publication of CN108491925A publication Critical patent/CN108491925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于隐变量模型的深度学习特征泛化方法,按如下步骤进行:步骤一:基于隐变量模型建立数据空间与隐变量空间之间一对双向的参数化映射,结合加权关系,构建特征泛化层;步骤二:将特征泛化层嵌入到深度神经网络中,使网络划分为DNN‑1、特征泛化层与DNN‑2三部分;步骤三:确立模型的优化目标,定义目标函数;步骤四:降低特征图数据复杂度,建立多分支并行前向传播结构。本发明有利于提升深度网络模型的泛化能力,可以减轻小规模数据训练时存在的过拟合现象,相较于其它使用生成模型增强数据的方法,简化了网络复杂度,提高了训练效率。

Description

基于隐变量模型的深度学习特征泛化方法
技术领域
本发明属于机器学习技术领域,具体涉及一种基于隐变量的深度学习特征泛化方法。
背景技术
面对小规模数据集,需要对现有数据进行数据泛化,尽可能地消除模型过拟合缺陷,得到一个高性能的深度神经网络分类/回归模型。现有的数据泛化方法主要分为基于生成对抗网络的数据泛化方法、基于几何变换的数据泛化方法和基于统计模型的数据泛化方法三类。
生成对抗网络由生成器和鉴别器组成,前者从随机向量生成一个样本,后者鉴别生成的样本以及训练集样本的真假。在训练生成器时,最大化鉴别误差;在训练鉴别器时,最小化鉴别误差;两者在不断的优化中,可以看作在对方的“监督”下共同提升。此类型的数据泛化方法经过多次迭代计算后最终生成图像的质量较高,但存在模型相对复杂、训练过程不稳定的缺陷。
基于几何变换的数据泛化方法包括图像纹理变换、色彩尺度空间变换和3D模型合成。此类方法可以得到与原始样本类内差别较大的图像,作为训练图像具有较高的参考价值,但是需要额外的建模框架,较难与其他方法相融合形成一个整体框架。
建立统计模型的数据泛化方法旨在获取数据的概率分布。数据分布模型主要有基于无向图模型(马尔可夫模型)的联合概率分布模型和基于有向图模型(贝叶斯模型)的条件概率分布模型。前者构建隐含层和数据层的联合概率,然后进行采样。后者则是寻找隐变量和数据之间的条件概率分布,也就是给定一个随机采样的隐含层,通过采样得到的隐变量生成新数据。此类方法建模相对较为简洁,训练过程稳定可控且收敛快速,但生成的图像质量略低于前者。
发明内容
基于上述现有技术存在的缺陷,本发明提出了一种基于隐变量模型的深度学习特征泛化方法,用于生成深度神经网络内的特征图数据。
其首先在深度神经网络中构建一个特征泛化层作为生成模型,此层结构包含一对双向的参数化映射,构成数据空间与隐变量空间的变换关系。其次采用多目标协同优化的思路定义两个目标函数,分别最小化特征泛化层的生成误差与整个网络的分类误差,反向传播阶段两个目标函数分区域对参数进行更新。同时,本方法构建了一种并行多分支结构,提升特征泛化层在训练阶段中的收敛性能。
为方便描述发明内容,首先做以下术语定义:
定义1隐变量模型
隐变量模型(Latent Variable Model)由观测变量和隐含变量组成,观测变量可以看作是隐变量的一种非显式函数映射。观测变量常常为高维数据,用于描述数据;隐含变量是高维数据的低维表示,代表着数据隐含的某种属性或特征。可以假设隐变量的先验服从某种分布:
Z~P(Z) (1-1)
接下来对观测数据空间建立概率模型,通过隐变量对观测数据的后验概率进行推断,此后验概率可视为观测变量X的近似分布,这一过程可以表示为:
Z→P(X|Z)→X (1-2)
隐变量到观测数据的映射是一种非显式函数映射F:
X=F(Z)=f2[f1(Z)] (1-3)
f1和f2表示的映射分别为:
f1:Z→P(X|Z)
f2:P(X|Z)→X (1-4)
可以选择适当的非线性模型M1来近似地表示映射f1,由隐变量数据调整非线性模型中的参数,使M1更接近真实映射f1。由于P(X|Z)代表了观测变量的分布函数,则映射f2为采样函数。这里将非线性模型M1与后验分布P(X|Z)中包含的参数统称为超参数。
实际应用中通常先由观测变量推理出隐变量的条件概率密度函数,结合隐变量的先验以采样的方式得到隐变量Z,再由公式(1-3)计算得到生成样本。
定义2特征图数据结构
深度神经网络的特点之一在于对原始数据的特征一层一层地提取,经由多层之后得到大量且有效的各类特征。网络中每个特征提取层通常会输出多张特征图,分别代表数据具有的多种类型特征。特征图个数与特征提取层设置的参数是相关的,例如卷积层输出的特征图个数等于卷积核的数量,如图1所示。
特征提出层输出的特征图个数不仅与层内滤波器个数相关,还与训练时设置的数据批量大小有关,在图1中可以看出,每张样本图像经由卷积层后可以产生的特征图数量等于卷积核的个数k,假如一个批量中共包含h张样本图像,将此批量输入特征提取层时,输出中会包含k×h个特征图。
工程应用中,特征提取层输出特征图会以扩充维度的形式将k×h个特征图放入一个四维矩阵中,矩阵的前两个维度分别表示数据批量的大小(Batch_size=h)及特征图的个数(Map_num=k),后两个维度表示特征图的尺寸(M×N)。
本发明的核心在于生成模型的构建、优化目标的确立以及多分支并行的数据处理方式,下面对本发明基于隐变量模型的深度学习特征泛化方法的具体步骤展开详细的介绍:
步骤一:基于隐变量模型建立数据空间与隐变量空间之间一对双向的参数化映射,结合加权关系,构建特征泛化层。
具体的,特征泛化层的结构如图3所示,前一层的特征输出作为其输入,其输出作为后一层的输入。Z表示输入特征的隐变量,用X代表输入,步骤①的工作为通过X得到Z的后验分布
由于Z的后验分布难以直接求得,本文采用变分推理的方法来近似。求得Z的后验分布后在分布中采样便可以得到隐变量Z,公式(1)中代表后验分布中的超参数。
步骤②由隐变量Z求出泛化样本的似然分布,泛化样本用Y表示
Z→Pθ(Y|Z) (2)
同理X的似然分布难以直接求得,使用一个变分分布来近似,其中θ表示似然分布中的超参数。在似然分布中进行采样,便得到了泛化样本。步骤③是对X和Y进行加权,加权函数如下
公式(3)中Xnew表示输出特征,α与β分别为样本权值与泛化权值,满足条件
α+β=1 (4)
步骤二:将特征泛化层嵌入到深度神经网络中,使网络划分为DNN-1、特征泛化层与DNN-2三个部分。
具体的,基于隐变量模型的深度学习特征泛化方法中,需要将特征泛化层嵌入到深度神经网络(DNN)中,使两者成为一个整体,直接对网络内部的特征图进行生成,充分利用网络深度特征的优越性——特征图可以看作是样本数据的另一种表达。
假设DNN网络由多个特征提取层和特征映射层组成,将DNN切分为两个部分,切分后的网络分别以DNN-1、DNN-2表示。DNN-1的输入与输出分别为样本数据集和第m个特征映射层的特征图,DNN-2为DNN网络剩余部分。在DNN-1与DNN-2之间嵌入特征泛化层,特征泛化层输出作为DNN-2的输入,DNN-1输出的特征图作为特征泛化层的输入。
步骤三:确立模型的优化目标,定义目标函数。
具体的,将网络切分为上述形式后,需要建立两个相互依赖的目标函数对网络中不同部分进行分块优化,如图4所示。目标函数①负责优化DNN-1和DNN-2中的参数,优化目标是最小化整个网络的输出误差。目标函数②负责优化特征泛化层中的参数,优化目标是使生成数据能够更好地拟合原始数据,使两者具有相同的类别特征,即最大化数据的似然函数。显然,目标函数①与目标函数②正相关,前者随着后者的变化而变化。当特征泛化层生成的特征图质量越高,用于模型训练的有效样本数量就越大,模型输出的错误率自然越低。由此不难推断,在不断迭代训练的过程中,目标函数①趋于收敛的前提条件是目标函数②已经收敛。本文中两个目标函数分别使用Loss1与Loss2表示。
使生成特征图与原始特征图尽可能接近,即最小化特征泛化层输入输出之间的差异度。同时,考虑到特征泛化层中隐变量的分布由于难以之间求解,采用了变分近似的方法得到,因此在目标函数②中增添一项,用于衡量变分分布于真实分布之间的误差。
假设构建了一个用于分类的深度神经网络,那么应该衡量分类结果与数据原始类别标签之间的误差作为Loss1,衡量误差的方法有很多种,例如交叉熵、平方误差等。
接下来需要构建一个合理的Loss2以达到特征泛化层的优化目标。如前所述,为了使泛化后的特征尽可能地接近原始特征,最大化样本数据的对数似然函数,以此估计模型中的参数,X代表样本数据,代表特征泛化层中的可学习参数集合,则特征泛化层目标函数表示如下:
由于优化Loss2时采用梯度下降法,因此在式(6)中添加了负号,将似然函数带入并作如下变换:
隐变量Z的真实后验分布p(z|x)难以直接求得,引入变分分布q(z|x)来近似后验p(z|x),借助贝叶斯公式可得:
式(8)中积分使用数学期望与相对熵的形式表示:
相对熵(K-L距离)可以用来衡量两个分布的差异度,相对熵越小则两个分布越接近。上式中前两项也称为似然函数在样本x上的变分下界,用符号表示,代表概率模型中的参数集合,则式(9)可以表示为:
对于式(10),真实的后验分布p(z|x)是未知的,无法直接求出DKL(q(z|xi)||p(z|xi))的闭合解。因此直接最小化相对熵难以做到,但相对熵具有恒大于等于零的性质,借助此性质,可得如下结论:
目标函数可以变换为:
现在目标函数最优化的问题等效为最大化变分下界可以认为变分下届越大,概率分布模型对数据拟合的越好。观察变分下界可以看出,q(z|x)是拟合真实后验分布p(z|x)的近似分布,后续可以求得。对于DKL(q(z|xi)||p(z)),假设后验分布p(z|x)具有近似对角协方差结构的高斯形式,则令q(z|x)同样为具有对角协方差结构的高斯形式
假设Z的先验服从标准正态分布:
现在Z的分布已知,公式(9)中等号右边第二项可以计算得到:
由上式可得:
式(9)变分下界中第二项已经求出,第一项通过可导的采样来计算。
在采样得到S个隐变量样本后,对期望进行计算:
上式中在MLP中可导,由反向传播更新。以上推导可知,变分下界为如下形式:
式(18)代入公式(11)中,取下界作为函数值,目标函数表示为:
结合多分支并行结构的目标函数构造方式,每个分支都可以计算得到基于当前特征图的泛化误差函数值,第j个分支的泛化误差函数值用Lossj表示,那么当拆分提取后的Total个特征图全部通过特征泛化层后,全局泛化误差可以表示为如下形式:
其中,γj表示第j个分支泛化误差的权重系数,若当前分支处理的特征图没有特殊的物理意义,通常取γj=1。代表第j个分支对数似然的数学期望Eq(z|x)[logp(x|z)],物理意义为生成特征图与原始特征图之间的差异度。代表第j个分支隐变量先验分布和近似后验分布之间相对熵的负值-DKL(q(z|xi)Pp(z))。相对熵KLloss计算方式如下:
采用交叉熵衡量输入与输出的差异度时,Genloss计算方式如下:
式(21)求和项使用矩阵形式可表示为:
其中Sij为式(22)中矩阵第j行元素的和:
代入式(21),相对熵表示为:
由式(22)、式(25)以及式(20)可得,采用多分支并行前向传播结构的生成误差目标函数为:
在模型训练阶段前向传播计算得到式(5)、式(26)的两个目标函数值后,特征泛化层中的参数通过反向传播算法对Loss2求偏导进行更新,DNN中其它层中的参数对Loss1求偏导进行更新。
步骤四:降低特征图数据复杂度,建立多分支并行前向传播结构
具体的,多分支并行前向传播结构是基于特征泛化层构建的,如图5所示。该结构主要包含三个部分,第一个部分是特征提取层输出数据的拆分提取;第二个部分是为每张特征图建立独立的分支,输入特征泛化层得到生成特征图;最后一个部分是将每个分支生成的特征图重新组合,输入到后续网络中。
特征提取层输出数据是一个包含多张特征图的四维矩阵,矩阵前两个维度分别代表数据批量与单批量内的特征图数量,现在以单张特征图为单位,对前两个维度进行矩阵切片操作。显而易见,切片得到的特征图总量Total为:
Total=Batch_size×Map_num (27)
接下来需要创建Total条分支,每条分支由独立的特征泛化层构成。这里的独立性体现在每个特征泛化层的节点参数值不同,包括隐变量的均值、方差以及重构采样得到的隐变量取值。此外,每条分支可以计算得到不同的生成误差。
每条分支均会输出一个生成特征图,多分支并行结构的最后一部分就是将生成的Total个特征图以增添维度的形式重新组合成四维矩阵,矩阵的数据结构需要与拆分提取前保持一致,即保持(Batch_size,Map_num,M,N)的矩阵结构。
多分支并行前向传播结构对批量复合的特征图进行分流处理,主要为了降低数据的复杂度,增强模型的收敛性,目的在于优化训练效率。未采用此优化结构的网络对成批量的数据统一建立隐变量模型,成批量的特征图中包含了不同类别的数据,也包含同类别数据中不同属性的特征,相比于优化结构中对每张特征图独立建模,数据复杂度偏高。特征泛化层是基于隐变量模型构建的,数据从高维空间映射到低维的隐变量空间会损失部分信息。在数据空间中,批量复合的特征图矩阵具有较高的维度,可以达到单张特征图维度的2-5个数量级。因此,对拥有较小维度的单张特征图建模损失的特征信息更少,相应地从隐变量空间映射回原始数据空间后得到的生成特征图与原始特征图之间的差异度也较小。除此之外,采用多分支并行结构的网络对衡量生成误差的目标函数也做了相应的优化,目标函数由所有分支的局部生成误差加权平均后构成,采用此种方式的两个优势如下:
(1)当个别分支在隐变量分布的边缘采样导致误差明显偏大时,其他分支的误差值与其加权平均后可以更好地反应模型的整体性能。一定程度上减轻了随机采样导致的误差波动对反向传播阶段带来的不利影响。
(2)多条支路加权平均后确定的梯度下降方向能够更好地代表特征图数据总体的分布特征,有利于更加准确、快速地朝极值所在的方向更新权重参数。
本发明的有利于提升深度网络模型的泛化能力,可以减轻小规模数据训练时存在的过拟合现象,相较于其它使用生成模型增强数据的方法,简化了网络复杂度,提高了训练效率。
附图说明
图1为特征图数量与滤波器个数的关系图。
图2为网络特征图的数据结构图。
图3为特征泛化层的结构图。
图4为网络优化方式示意图。
图5为多分支并行前向传播结构图。
图6为本发明的数据处理流图。
具体实施方式
下面结合附图对本发明优选实施例作详细说明。
本发明一种优选的数据流处理方式如图6所示,具体实施方法如下:
首先,原始DNN需要切分为DNN-1与DNN-2两部分,其中X为DNN-1输出的特征图,其维度表示为:
Xdim=Fnum×Sizeheight×Sizewidth (32)
Fnum表示当前特征图的数量,Sizeheight、Sizewidth分别代表一张特征图的高与宽。上一小节中提到p(z|x)是具有近似对角协方差结构的高斯形式,则后验概率用参数化的高斯分布表示为:
映射x→p(z|x)可选择如下形式的变换,以计算隐变量z的均值zmean与方差的对数logzvar,其中zvar=σ2
公式(34)、(35)中为相应尺寸的随机矩阵,矩阵中元素均值为0,方差为1,矩阵皆为全0矩阵。计算得到隐变量分布的参数后,重构随机节点并对隐变量Z进行采样,引入服从标准高斯分布的随机变量ε,采样方式如下:
同理,映射z→p(x|z)可选择如下形式的变换,模块p(x|z)的输出Xnew如下:
公式(37)中为相应尺寸的随机矩阵,矩阵中元素均值为0,方差为1,矩阵皆为全0矩阵。上式求得的Xnew即为生成的新特征图,特征泛化层的输入端对特征图进行过维度变换(见式2.25),此处需要再次对Xnew进行变换,恢复原始特征图的数据结构。最后将原始特征图与变换后的Xnew按比例进行加权,作为网络中下一层的输入:
Inputnext_Layer=αXnew+βX (38)
至此特征图数据已经可以在特征泛化层中进行前向传播,构建双重目标函数对整个网络进行分块优化,更新其中的参数。负责衡量模型错误率的全局损失函数Loss1可按如下方式构建:
负责衡量特征泛化层性能的损失函数Loss2按照多分支并行结构的目标函数构造方式进行计算,每个分支都可以计算得到基于当前特征图的泛化误差函数值,第j个分支的泛化误差函数值用Lossj表示,那么当拆分提取后的Total个特征图全部通过特征泛化层后,全局泛化误差可以表示为如下形式:
其中γj表示第j个分支泛化误差的权重系数,若当前分支处理的特征图没有特殊的物理意义,通常取γj=1。代表第j个分支对数似然的数学期望Eq(z|x)[logp(x|z)],物理意义为生成特征图与原始特征图之间的差异度。代表第j个分支隐变量先验分布和近似后验分布之间相对熵的负值-DKL(q(z|xi)Pp(z))。相对熵KLloss计算方式如下:
采用交叉熵衡量输入与输出的差异度时,Genloss计算方式如下:
式(41)求和项使用矩阵形式可表示为:
其中Sij为式(42)中矩阵第j行元素的和:
代入式(41),相对熵表示为:
由式(42)、式(45)以及式(40)可得,采用多分支并行前向传播结构的生成误差目标函数为:
在模型训练阶段前向传播计算得到式(39)、式(46)的两个目标函数值后,特征泛化层中的参数通过反向传播算法对Loss2求偏导进行更新,DNN中其它层中的参数对Loss1求偏导进行更新。
本发明基于隐变量模型的深度学习特征泛化方法,首先在深度神经网络中构建一个特征泛化层作为生成模型,此层结构包含一对双向的参数化映射,构成数据空间与隐变量空间的变换关系。网络采用多目标协同优化的思路定义两个目标函数,分别最小化特征泛化层的生成误差与整个网络的分类误差,反向传播阶段两个目标函数分区域对参数进行更新。同时本发明建立了一种并行多分支结构,降低特征数据的复杂度,提升特征泛化层在训练阶段中的收敛性能。本发明有利于提升深度网络模型的泛化能力,可以减轻小规模数据训练时存在的过拟合现象,相较于其它使用生成模型增强数据的方法,简化了网络复杂度,提高了训练效率。

Claims (5)

1.基于隐变量模型的深度学习特征泛化方法,其特征是按如下步骤进行:
步骤一:基于隐变量模型建立数据空间与隐变量空间之间一对双向的参数化映射,结合加权关系,构建特征泛化层;
步骤二:将特征泛化层嵌入到深度神经网络中,使网络划分为DNN-1、特征泛化层与DNN-2三部分;
步骤三:确立模型的优化目标,定义目标函数;
步骤四:降低特征图数据复杂度,建立多分支并行前向传播结构。
2.如权利要求1所述基于隐变量模型的深度学习特征泛化方法,其特征是:步骤一具体如下:
所述特征泛化层的网络结构中,前一层的特征输出作为输入,输出作为后一层的输入;Z表示输入特征的隐变量,X代表输入,隐变量参数估计的工作为通过X得到Z的后验分布
求得Z的后验分布后在分布中采样便可得到隐变量Z,式(1)中代表后验分布中的超参数;
特征图生成过程由隐变量Z求出泛化样本的似然分布,泛化样本用Y表示
Z→Pθ(Y|Z) (2)
其中,θ表示似然分布中的超参数;输出过程对X和Y进行加权,加权函数如下
公式(3)中,Xnew表示输出特征,α与β分别为样本权值与泛化权值,满足条件
α+β=1 (4)。
3.如权利要求2所述基于隐变量模型的深度学习特征泛化方法,其特征是:步骤二具体如下:
将DNN切分为两个部分,切分后的网络分别以所述的DNN-1、DNN-2表示;DNN-1的输入与输出分别为样本数据集和第m个特征映射层的特征图,DNN-2为DNN网络剩余部分;在DNN-1与DNN-2之间嵌入特征泛化层,特征泛化层输出作为DNN-2的输入,DNN-1输出的特征图作为特征泛化层的输入。
4.如权利要求3所述基于隐变量模型的深度学习特征泛化方法,其特征是:步骤三,具体如下:
定义双目标函数进行协同优化:目标函数①负责优化DNN-1和DNN-2中的参数,优化目标是最小化整个网络的输出误差;目标函数②负责优化特征泛化层中的参数,优化目标是使生成数据能够更好地拟合原始数据,使两者具有相同的类别特征,即最大化数据的似然函数;目标函数①与目标函数②分别使用Loss1与Loss2表示;构建了一个用于分类的深度神经网络,则应衡量分类结果与数据原始类别标签之间的误差作为Loss1
构建一个合理的Loss2以达到特征泛化层的优化目标;为了使泛化后的特征尽可能地接近原始特征,最大化样本数据的对数似然函数,以此估计模型中的参数,X代表样本数据,代表特征泛化层中的可学习参数集合,则特征泛化层目标函数表示如下:
由于优化Loss2时采用梯度下降法,因此在式(6)中添加了负号,将似然函数带入并作如下变换:
隐变量Z的真实后验分布p(z|x)难以直接求得,引入变分分布q(z|x)来近似后验p(z|x),借助贝叶斯公式可得:
式(8)中积分使用数学期望与相对熵的形式表示:
上式中前两项也称为似然函数在样本x上的变分下界,用符号表示,代表概率模型中的参数集合,则式(9)可以表示为:
对于式(10),相对熵具有恒大于等于零的性质,可得如下结论:
目标函数可变换为:
目标函数最优化的问题等效为最大化变分下界可认为变分下届越大,概率分布模型对数据拟合的越好从变分下界可得,q(z|x)是拟合真实后验分布p(z|x)的近似分布;对于DKL(q(z|xi)||p(z)),假设后验分布p(z|x)具有近似对角协方差结构的高斯形式,则令q(z|x)同样为具有对角协方差结构的高斯形式
假设Z的先验服从标准正态分布:
p(z):
Z的分布已知,式(9)中等号右边第二项可计算得到:
由上式可得:
式(9)变分下界中第二项已经求出,第一项通过可导的采样来计算;
在采样得到S个隐变量样本后,对期望进行计算:
上式中在MLP中可导,由反向传播更新;以上推导可知,变分下界为如下形式:
式(18)代入公式(11)中,取下界作为函数值,目标函数表示为:
结合多分支并行结构的目标函数构造方式,每个分支都可计算得到基于当前特征图的泛化误差函数值,第j个分支的泛化误差函数值用Lossj表示,当拆分提取后的Total个特征图全部通过特征泛化层后,全局泛化误差可表示为如下形式:
其中,γj表示第j个分支泛化误差的权重系数,若当前分支处理的特征图没有特殊的物理意义,取γj=1;代表第j个分支对数似然的数学期望Eq(z|x)[logp(x|z)],物理意义为生成特征图与原始特征图之间的差异度;代表第j个分支隐变量先验分布和近似后验分布之间相对熵的负值-DKL(q(z|xi)Pp(z));相对熵KLloss计算方式如下:
采用交叉熵衡量输入与输出的差异度时,Genloss计算方式如下:
式(21)求和项使用矩阵形式可表示为:
其中,Sij为式(22)中矩阵第j行元素的和:
代入式(21),相对熵表示为:
由式(22)、式(25)以及式(20)可得,采用多分支并行前向传播结构的生成误差目标函数为:
在模型训练阶段前向传播计算得到式(5)、式(26)的两个目标函数值后,特征泛化层中的参数通过反向传播算法对Loss2求偏导进行更新,DNN中其它层中的参数对Loss1求偏导进行更新。
5.如权利要求4所述基于隐变量模型的深度学习特征泛化方法,其特征是:步骤四具体如下:
多分支并行结构主要包含三部分,第一部分是特征提取层输出数据的拆分提取;第二部分是为每张特征图建立独立的分支,输入特征泛化层得到生成特征图;第三部分是将每个分支生成的特征图重新组合,输入到后续网络中;
特征提取层输出数据是一个包含多张特征图的四维矩阵,矩阵前两个维度分别代表数据批量与单批量内的特征图数量,以单张特征图为单位,对前两个维度进行矩阵切片操作;切片得到的特征图总量Total为:
Total=Batch_size×Map_num (27)
创建Total条分支,每条分支由独立的特征泛化层构成;每条分支可计算得到不同的生成误差;
每条分支均会输出一个生成特征图,多分支并行结构的最后一部分就是将生成的Total个特征图以增添维度的形式重新组合成四维矩阵,矩阵的数据结构需要与拆分提取前保持一致,即保持的矩阵结构。
CN201810071862.1A 2018-01-25 2018-01-25 基于隐变量模型的深度学习特征泛化方法 Pending CN108491925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810071862.1A CN108491925A (zh) 2018-01-25 2018-01-25 基于隐变量模型的深度学习特征泛化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810071862.1A CN108491925A (zh) 2018-01-25 2018-01-25 基于隐变量模型的深度学习特征泛化方法

Publications (1)

Publication Number Publication Date
CN108491925A true CN108491925A (zh) 2018-09-04

Family

ID=63343940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810071862.1A Pending CN108491925A (zh) 2018-01-25 2018-01-25 基于隐变量模型的深度学习特征泛化方法

Country Status (1)

Country Link
CN (1) CN108491925A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110108806A (zh) * 2019-04-04 2019-08-09 广州供电局有限公司 基于概率信息压缩的变压器油色谱数据表示方法
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN111027680A (zh) * 2019-12-06 2020-04-17 北京瑞莱智慧科技有限公司 基于变分自编码器的监控量不确定性预测方法及系统
CN111143684A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的泛化模型的训练方法及装置
CN111243045A (zh) * 2020-01-10 2020-06-05 杭州电子科技大学 一种基于高斯混合模型先验变分自编码器的图像生成方法
CN111796514A (zh) * 2019-04-09 2020-10-20 罗伯特·博世有限公司 基于所训练的贝叶斯神经网络来控制和监视物理系统
CN113557704A (zh) * 2019-03-29 2021-10-26 华为技术有限公司 使用基于极化的信号空间映射的用于无线通信的方法和装置
WO2023184144A1 (zh) * 2022-03-29 2023-10-05 中国科学院深圳先进技术研究院 一种用于评估深度超分辨率网络泛化能力的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113557704A (zh) * 2019-03-29 2021-10-26 华为技术有限公司 使用基于极化的信号空间映射的用于无线通信的方法和装置
CN110108806A (zh) * 2019-04-04 2019-08-09 广州供电局有限公司 基于概率信息压缩的变压器油色谱数据表示方法
CN110108806B (zh) * 2019-04-04 2022-03-22 广东电网有限责任公司广州供电局 基于概率信息压缩的变压器油色谱数据表示方法
CN111796514A (zh) * 2019-04-09 2020-10-20 罗伯特·博世有限公司 基于所训练的贝叶斯神经网络来控制和监视物理系统
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN111027680A (zh) * 2019-12-06 2020-04-17 北京瑞莱智慧科技有限公司 基于变分自编码器的监控量不确定性预测方法及系统
CN111143684A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的泛化模型的训练方法及装置
CN111143684B (zh) * 2019-12-30 2023-03-21 腾讯科技(深圳)有限公司 基于人工智能的泛化模型的训练方法及装置
CN111243045A (zh) * 2020-01-10 2020-06-05 杭州电子科技大学 一种基于高斯混合模型先验变分自编码器的图像生成方法
CN111243045B (zh) * 2020-01-10 2023-04-07 杭州电子科技大学 一种基于高斯混合模型先验变分自编码器的图像生成方法
WO2023184144A1 (zh) * 2022-03-29 2023-10-05 中国科学院深圳先进技术研究院 一种用于评估深度超分辨率网络泛化能力的方法

Similar Documents

Publication Publication Date Title
CN108491925A (zh) 基于隐变量模型的深度学习特征泛化方法
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN107194433B (zh) 一种基于深度自编码网络的雷达一维距离像目标识别方法
CN110210486B (zh) 一种基于素描标注信息的生成对抗迁移学习方法
CN106355151B (zh) 一种基于深度置信网络的三维sar图像目标识别方法
Mitra et al. Self-organizing neural network as a fuzzy classifier
CN109166100A (zh) 基于卷积神经网络的多任务学习细胞计数方法
CN109165743A (zh) 一种基于深度压缩自编码器的半监督网络表示学习算法
CN108399248A (zh) 一种时序数据预测方法、装置及设备
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN105160400A (zh) 基于l21范数的提升卷积神经网络泛化能力的方法
CN103605711B (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN105572572A (zh) 基于wknn-lssvm的模拟电路故障诊断方法
CN111090764A (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN114662414B (zh) 一种基于图小波神经网络模型的油藏生产预测方法
CN109376763A (zh) 基于多样本推理神经网络的样本分类方法、系统及介质
CN106997373A (zh) 一种基于深度置信网络的链路预测方法
CN107292337A (zh) 超低秩张量数据填充方法
CN107392155A (zh) 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法
CN113688869A (zh) 一种基于生成对抗网络的光伏数据缺失重构方法
CN108062566A (zh) 一种基于多核潜在特征提取的智能集成软测量方法
CN111488498A (zh) 基于图神经网络的“节点-图”跨层图匹配方法及系统
CN109993208A (zh) 一种有噪声图像的聚类处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904

RJ01 Rejection of invention patent application after publication