CN108537324A

CN108537324A - 基于特征泛化层的双通道自适应矫正网络优化系统

Info

Publication number: CN108537324A
Application number: CN201810071855.1A
Authority: CN
Inventors: 郭春生; 李睿哲
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-09-14

Abstract

本发明公开了基于特征泛化层的双通道自适应矫正网络优化系统，包括泛化通道、矫正通道、误差计算单元以及自适应矫正单元；泛化通道对原始特征图进行泛化以及对加权矫正后的特征图进行特征的逐层提取；矫正通道依据特征图之间的误差对泛化通道内的数据进行矫正；误差计算单元计算泛化通道与矫正通道内某个特征提取层输出特征图之间的差异度；自适应矫正单元将矫正通道中某个特征提取层输出的特征图与泛化通道中对应位置输出的特征图进行加权。本发明通过泛化通道与矫正通道中所有特征提取节点计算得到的均方误差都作为约束项被累加到目标函数中，通过训练过程中多次迭代，使生成特征图与原始数据更加接近，泛化误差也会逐步降低。

Description

基于特征泛化层的双通道自适应矫正网络优化系统

技术领域

本发明属于机器学习技术领域，具体涉及一种基于特征泛化层的双通道自适应矫正网络优化系统。

背景技术

面对小规模数据集，需要对现有数据进行数据泛化，尽可能地消除模型过拟合缺陷，得到一个高性能的深度神经网络分类/回归模型。现有的数据泛化方法主要分为基于生成对抗网络的数据泛化方法、基于几何变换的数据泛化方法和基于统计模型的数据泛化方法三类。

生成对抗网络由生成器和鉴别器组成，前者从随机向量生成一个样本，后者鉴别生成的样本以及训练集样本的真假。在训练生成器时，最大化鉴别误差；在训练鉴别器时，最小化鉴别误差；两者在不断的优化中，可以看作在对方的“监督”下共同提升。此类型的数据泛化方法经过多次迭代计算后最终生成图像的质量较高，但存在模型相对复杂、训练过程不稳定的缺陷。

基于几何变换的数据泛化方法包括图像纹理变换、色彩尺度空间变换和3D模型合成。此类方法可以得到与原始样本类内差别较大的图像，作为训练图像具有较高的参考价值，但是需要额外的建模框架，较难与其他方法相融合形成一个整体框架。

建立统计模型的数据泛化方法旨在获取数据的概率分布。数据分布模型主要有基于无向图模型(马尔可夫模型)的联合概率分布模型和基于有向图模型(贝叶斯模型)的条件概率分布模型。前者构建隐含层和数据层的联合概率，然后进行采样。后者则是寻找隐变量和数据之间的条件概率分布，也就是给定一个随机采样的隐含层，通过采样得到的隐变量生成新数据。此类方法建模相对较为简洁，训练过程稳定可控且收敛快速，但生成的图像质量略低于前者。

现有数据泛化方法中，特征泛化算法通过在深度神经网络中插入特征泛化层，生成多样化的特征图数据，有效地提升分类准确率。特征泛化层是基于隐变量模型构建的一种深度神经网络层结构，此层结构包含一对双向的参数化映射，构成数据空间与隐变量空间的变换关系。算法采用多目标协同优化的思路定义两个目标函数，分别最小化特征泛化层的生成误差与整个网络的分类误差，反向传播阶段两个目标函数分区域对参数进行更新。特征泛化层使深度模型可以学习到更加多样化的数据特征，减轻因样本数量不足导致的过拟合现象，增强模型的泛化性能。对包含特征泛化层的深度神经网络模型进行优化，就是在特征泛化算法的基础上调整网络结构和目标函数，进一步减小生成误差，提升模型整体的分类/回归精确度。

发明内容

基于上述现状，本发明提出了一种基于特征泛化层的双通道自适应矫正网络优化系统，用于降低泛化误差，进一步提升模型的分类准确度。

双通道自适应矫正系统在特征泛化层前增添了一条独立的数据矫正通道，包含特征泛化层的原始网络作为泛化通道。矫正通道将未经泛化的特征图数据直接送入后续DNN网络中。当两个通道的数据通过特征提取层输出节点时，计算两特征图之间的均方误差并将矫正通道中的特征图加权到泛化通道中，加权系数由当前节点的均方误差自适应确定。最后，将每个特征提取层节点的均方误差作为一个约束项添加到泛化目标函数中。

为方便描述发明内容，首先做以下术语定义：

定义1特征泛化层的结构

特征泛化层的结构如图1所示，前一层的特征输出作为其输入，其输出作为后一层的输入。Z表示输入特征的隐变量，用X代表输入，步骤①的工作为通过X得到Z的后验分布

求得Z的后验分布后在分布中重构采样便可以得到隐变量Z，公式(1)中代表后验分布中的超参数。步骤②由隐变量Z求出生成样本的似然分布，生成样本用Y表示

Z→P_θ(Y|Z) (2)

同理X的似然分布难以直接求得,使用一个变分分布来近似，其中，θ表示似然分布中的超参数。在似然分布中进行采样，便得到了泛化样本。步骤③是对X和Y进行加权，X_new表示输出特征，α与β分别为样本权值与泛化权值，加权函数如下：

定义2特征泛化算法的目标函数

特征泛化算法建立了两个目标函数对网络中不同部分进行分块协同优化。目标函数Loss₁负责优化特征泛化层前端与后端网络中的参数，优化目标是最小化整个网络的输出误差。目标函数Loss₂负责优化特征泛化层中的参数，优化目标是使生成数据能够更好地拟合原始数据，使两者具有相同的类别特征，即最大化数据的似然函数。Loss₁与Loss₂分别采用如下形式定义：

本发明的核心在于双通道自适应矫正网络结构与该结构的优化目标，如图2所示，双通道自适应矫正结构主要由泛化通道、矫正通道、误差计算单元以及自适应矫正单元组成。两个通道中分别处理泛化后的特征图和来自样本的原始特征图，X代表来自样本数据的原始特征图，即DNN-1输出的特征图，X_new代表特征泛化层生成的特征图。下面对本发明基于特征泛化层的双通道自适应矫正网络系统以及与该系统对优化目标展开详细的介绍：

泛化通道

泛化通道的作用是对原始特征图X进行泛化以及对加权矫正后的特征图进行特征的逐层提取。首先将原始特征图输入特征泛化层，获得生成特征图X_new，然后将X_new与X加权后输入下一层，数据每通过一个特征提取层时，均与矫正通道中的特征图进行加权。经由若干个级联的特征提取层，最终输出有利于分类器判别的有效特征图。

泛化通道与矫正通道中同一位置特征提取层的参数完全一致，即两通道中处于同一位置的特征提取模板(卷积核)是相同的，这样才能保证两个输出特征图之间的误差是有效的。

具体的，使用函数f_k()表示第k个特征提取层对输入特征图的操作，G_k表示泛化通道中第k个特征提取层的输出，泛化通道中第一个特征提取层的输出为：

G₁＝f₁(αX_new+βX) (6)

当k≥2时，泛化通道中第k个特征提取层的递推公式如下：

G_k＝f_k(λ_k-1G_k-1+ω_k-1R_k-1) (7)

通过递推公式(7)，将泛化通道中第n个特征提取层Conv_n的输出展开(n≥3)：

G_n＝f_n(λ_n-1f_n-1(λ_n-2(…f₂(λ₁G₁+ω₁R₁)…)+ω_n-2R_n-2)+ω_n-1R_n-1)

＝f_n(λ_n-1f_n-1(λ_n-2(…f₂(λ₁f₁(αX_new+βX)+ω₁R₁)…)+ω_n-2R_n-2)+ω_n-1R_n-1)(8)

矫正通道

矫正通道的作用是依据特征图之间的误差对泛化通道内的数据进行矫正。相对于泛化通道的结构，矫正通道去除了特征泛化层，直接将原始特征图X输入到后续网络中。每个特征提取层输出的特征图仅用来矫正泛化通道对应位置的数据，因此可以将矫正通道视为一条辅助通道。

具体的，使用函数f_k()表示第k个特征提取层对输入特征图的操作，R_k表示矫正通道中第k个特征提取层的输出。则矫正通道中第一个特征提取层的输出为：

R₁＝f₁(X) (9)

当k≥2时，矫正通道中第k个特征提取层的递推公式表示为：

R_k＝f_k(R_k-1) (10)

通过递推公式(10)，将矫正通道中第n个特征提取层Conv_n的输出展开(n≥2)：

R_n＝f_n(f_n-1(…f₂(f₁(X)))) (11)

则特征提取网络最终输出的特征图：

Output＝λ_nG_n+ω_nR_n (12)

误差计算单元

误差计算单元的作用是计算泛化通道与矫正通道内某个特征提取层输出特征图之间的差异度，差异度的衡量选用均方误差。

具体的，由特征提取层输出的初始值(6)、(9)以及递推公式(8)、(11)，MSE_1计算方式如下，其中N代表矩阵中元素总数:

当k≥2时，均方误差的递推公式，即MSE_k可以表示为：

自适应矫正单元

自适应矫正单元的作用是将矫正通道中某个特征提取层输出的特征图与泛化通道中对应位置输出的特征图进行加权，其中λ是泛化通道的加权系数，ω是矫正通道的加权系数。λ与ω的取值由特征图差异度自适应决定。

矫正单元对两个通道某特征提取层输出的特征图进行加权时，需要根据特征图差异度来确定系数λ与ω的取值，两者取值的大小会直接影响到模型最终的泛化能力与分类错误率。参数λ越大，网络中参数的学习就更多地依赖于生成特征，参数ω越大，便更多地依赖于原始数据中的特征。由于原始样本中包含的特征有限，因此希望生成特征占更大比重，避免过拟合现象。然而生成特征图中是存在误差的，如果网络模型在具有较大误差的生成特征上进行学习，那么模型的分类准确率便会受其影响而降低。基于误差的加权系数自适应取值方法便为了使生成特征在加权中占更大比重，同时减轻特征误差对模型训练带来的负面影响。

加权系数自适应取值的流程图如图3所示，MSE_k表示泛化通道与矫正通道中第k个特征提取层输出特征图之间的均方误差，n表示特征泛化层后特征提取层的总数量。矫正系数ω的计算中包含了一项折扣因子k/n，添加此折扣因子的目的在于增强泛化特征在网络中的传播能力。如果没有折扣因子，即使MSE_k足够小，每个加权节点上原始特征至少会占10％的比例。当特征提取层数较多时(n较大)，逐层的积累导致生成特征所占的比重会逐渐降低，引入折扣因子就是为了防止生成特征不会因为层数过多而产生过度矫正现象。

本发明将误差值分为五个区间，当泛化通道中的特征图与矫正通道中的特征图误差较小时，生成特征在加权后的特征图中占比超过90％。当误差增大时，生成特征占比逐渐减小，原始特征占比逐渐增大，在加权后的特征图中对误差起到了一定的矫正作用。

双通道自适应矫正网络系统的优化目标

特征图的双通道自适应矫正结构中，当两个通道的数据通过特征提取层输出节点时，矫正通道中的特征图会按照一定比例加权到泛化通道。该方法旨在利用原始特征对带有误差的生成特征进行矫正，减轻特征误差对模型训练带来的负面影响，使网络后端提取的高阶特征更加多样化，同时与数据的类别属性保持一致。

显然，上述结构是以减小误差带来的影响为出发点进行优化，当带有误差的特征图生成后再逐级进行矫正。本小节考虑在此结构上更进一步，假设能够使特征生成时携带的误差变得更小，再配合特征生成后的矫正结构，可以使后续网络中传播的特征图质量进一步提高，模型的分类准确率自然会得到更多提升。

因此，双通道自适应矫正结构会对生成误差目标函数进行调整，将两通道内每个特征提取层输出节点计算得到的均方误差累加到生成误差目标函数中。网络模型训练阶段，经由梯度下降迭代优化，特征泛化层的误差与后续网络中各个特征提取层输出节点的误差均被极小化。由此，新的生成误差目标函数由以下三项组成：

Loss＝Gen_loss+KL_loss+∑MSE_loss (15)

其中，∑MSE_loss为泛化通道与矫正通道中所有特征提取层输出节点均方误差的累加和，如图4所示。式(15)中均方误差累加项表示为：

至此，式(15)中三项均已求得，新的生成误差目标函数表达式如下：

模型训练阶段，利用式(17)中生成误差目标函数Loss更新特征泛化层中的参数。

本发明提出了基于特征泛化层的双通道自适应矫正网络优化系统，该网络系统的创新点在于：

1、双通道自适应矫正结构可以将特征提取节点输出特征图中携带的泛化误差控制在一个合理范围内，使生成特征图更符合原始数据的抽象属性。

2、泛化通道与矫正通道中所有特征提取节点计算得到的均方误差都作为约束项被累加到目标函数中，通过训练过程中多次迭代，使生成特征图与原始数据更加接近，泛化误差也会逐步降低。

附图说明

图1为特征泛化层的结构图。

图2为双通道自适应矫正网络结构图。

图3为特征泛化层的结构图。

图4为双通道矫正结构的目标函数示意图。

具体实施方式

下面结合附图对本发明优选实施例作详细说明。

本发明的网络结构如图2所示，映射可以选择卷积层或线性层与激活层组合的形式构成，映射Z→P_θ(Y|Z)同理。在求得隐变量的条件分布后，为了使采样过程可导，需要引入一个辅助高斯随机变量ε，将隐变量Z表示为确定项及噪声加权项的和，即

Z＝μ+σε (18)

此时隐变量Z的分布并未改变，但在网络中隐变量随机节点已被转换成为确定节点，梯度可以进行反向传播。

公式(18)中εP(ε),令P(ε)为标准正态分布，⊙表示如下形式的矩阵元素乘积：

两通道间特征图误差衡量选用均方误差(MSE)，网络中需要定义两个目标函数进行协同优化，目标函数Loss₁负责优化特征泛化层前端与后端网络中的参数，优化目标是最小化整个网络的输出误差。

目标函数Loss₂在原始特征泛化算法的基础上需要根据双通道自适应矫正结构逐级增添相应的误差项，优化后的Loss₂负责优化特征泛化层中的参数，优化目标是使生成特征图与原始数据更加吻合，同时使泛化误差最小化。

在模型训练阶段前向传播计算得到式(20)、(21)的两个目标函数值后，特征泛化层中的参数通过反向传播算法对Loss₂求偏导进行更新，DNN中其它层中的参数对Loss₁求偏导进行更新。

Claims

1.基于特征泛化层的双通道自适应矫正网络优化系统，其特征是包括泛化通道、矫正通道、误差计算单元以及自适应矫正单元；

所述泛化通道对原始特征图进行泛化以及对加权矫正后的特征图进行特征的逐层提取；

所述矫正通道依据特征图之间的误差对泛化通道内的数据进行矫正；

所述误差计算单元计算泛化通道与矫正通道内某个特征提取层输出特征图之间的差异度；

所述自适应矫正单元将矫正通道中某个特征提取层输出的特征图与泛化通道中对应位置输出的特征图进行加权。

2.如权利要求1所述基于特征泛化层的双通道自适应矫正网络优化系统，其特征是：所述泛化通道的具体结构：

设原始特征图为X、生成特征图为X_new，使用函数f_k()表示第k个特征提取层对输入特征图的操作，G_k表示泛化通道中第k个特征提取层的输出，泛化通道中第一个特征提取层的输出为：

G₁＝f₁(αX_new+βX) (6)

当k≥2时，泛化通道中第k个特征提取层的递推公式如下：

G_k＝fk(λ_k-1G_k-1+ω_k-1R_k-1) (7)

通过递推公式(7)，将泛化通道中第n个特征提取层Conv_n的输出展开,n≥3：

＝f_n(λ_n-1f_n-1(λ_n-2(∑f₂(λ₁f₁(αX_new+βX)+ω₁R₁)…)+ω_n-2R_n-2)+ω_n-1R_n-1) (8)。

3.如权利要求2所述基于特征泛化层的双通道自适应矫正网络优化系统，其特征是：所述矫正通道的结构具体如下：

函数f_k()表示第k个特征提取层对输入特征图的操作，R_k表示矫正通道中第k个特征提取层的输出，则矫正通道中第一个特征提取层的输出为：

R₁＝f₁(X) (9)

当k≥2时，矫正通道中第k个特征提取层的递推公式表示为：

R_k＝f_k(R_k-1) (10)

R_n＝f_n(f_n-1(…f₂(f₁(X)))) (11)

则特征提取网络最终输出的特征图：

Output＝λ_nG_n+ω_nR_n (12)。

4.如权利要求3所述基于特征泛化层的双通道自适应矫正网络优化系统，其特征是：所述误差计算单元的具体结构如下：

由特征提取层输出的初始值(6)、(9)以及递推公式(8)、(11)，MSE_1计算式如下，其中N代表矩阵中元素总数:

当k≥2时，均方误差的递推公式，即MSE_k可表示为：

5.如权利要求4所述基于特征泛化层的双通道自适应矫正网络优化系统，其特征是：所述双通道自适应矫正网络系统的优化目标：

双通道自适应矫正系统对生成误差目标函数进行调整，将两通道内每个特征提取层输出节点计算得到的均方误差累加到生成误差目标函数中；网络模型训练阶段，经由梯度下降迭代优化，特征泛化层的误差与后续网络中各个特征提取层输出节点的误差均被极小化；由此，新的生成误差目标函数由以下三项组成：

Loss＝Gen_loss+KL_loss+∑MSE_loss (15)

其中，∑MSE_loss为泛化通道与矫正通道中所有特征提取层输出节点均方误差的累加和；式(15)中均方误差累加项表示为：