CN109165735A

CN109165735A - 基于生成对抗网络与自适应比例生成新样本的方法

Info

Publication number: CN109165735A
Application number: CN201810762313.9A
Authority: CN
Inventors: 郭春生; 夏尚琴; 都文龙; 应娜
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-08
Anticipated expiration: 2038-07-12
Also published as: CN109165735B

Abstract

本发明公开了一种基于生成对抗网络与自适应比例生成新样本的方法，包括以下步骤:S1，在输入样本上直接添加由生成对抗网络生成的与输入样本分布接近的噪声；S2根据样本方差构造自适应比例，将输入样本与生成对抗网络生成的噪声以该比例进行融合生成新样本,新样本根据自适应比例调节噪声与输入样本比重；S3通过像素相加的操作为新样本补充原样本信息，生成有益于提高DNN检测率的最终样本。采用本方法提高了DNN的准确率，成本相对较小的，复杂度也更低。

Description

基于生成对抗网络与自适应比例生成新样本的方法

技术领域

本发明属于深度神经网络的技术领域，具体涉及一种基于生成对抗网络与自适应比例生成新样本的方法。

背景技术

计算机视觉主要是利用机器试图建立能够从图像或者多维数据中获取“信息”的人工智能系统，具体来说是指利用摄影机和电脑等代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。而深度神经网络(DNN)是计算机视觉应用的基础，近几年随着计算机硬件能力的不断提高，DNN技术的发展也突飞猛进，尤其是在计算机视觉领域如图像分类，目标定位等，DNN的准确率甚至超过人眼。为了进一步提高DNN的准确率，大量的研究主要关注于构造更深更复杂的模型和采集更多的图片扩充训练集方面。然而，DNN本身具有非常庞大的参数，更深的模型将会大量增加网络参数，使得计算成本上升，训练难度也增大。采集更多的图片扩展训练集虽然能够明显提高网络性能，但是由于长尾现象，当数据达到一定量时，准确率的提升非常小，并且采集图片的成本非常昂贵。

因此，在常用数据集上，利用经典或者构造合理的DNN来提升性能就十分重要。简单神经网络的优化问题是凸优化问题，“凸优化”是指一种比较特殊的优化，具体是指求取最小值的目标函数为凸函数的一类优化问题，其通过一些常用算法如Gradient Descend(GD)、Stochastic Gradient Descend(SGD)等能够快速收敛到最小值；而DNN的优化问题则是一个非凸优化问题，网络中存在大量的鞍点，在模型参数中加入噪声扰动或者根据Hessian矩阵找出鞍点逃逸方向的方法能够提升模型性能，但是改变模型参数直接影响梯度更新算法性能，可能导致模型收敛下降，并且需要严格的理论证明改变后的优化算法的收敛性。

因此仍需要进一步研究一种新的方法来提高DNN的准确率。

发明内容

本发明的目的是为了解决上述问题，提供一种基于生成对抗网络与自适应比例生成新样本的方法，提高了DNN的准确率，成本相对较小的，复杂度也更低。

为了达到上述发明目的，本发明采用以下技术方案：

基于生成对抗网络与自适应比例生成新样本的方法，包括以下步骤:

S1，在输入样本上直接添加由生成对抗网络生成的与输入样本分布接近的噪声；

S2根据样本方差构造自适应比例，将输入样本与生成对抗网络生成的噪声以该比例进行融合生成新样本,新样本根据自适应比例调节噪声与输入样本比重；

S3通过像素相加的操作为新样本补充原样本信息，生成有益于提高DNN检测率的最终样本。

作为优选的技术方案，所述步骤S1具体包括：

步骤一，生成对抗网络中的生成网络使用四个卷积层对输入样本Xⁱ进行下采样操作，得到低维隐变量，再将低维隐变量经过四次相反的卷积操作，对隐变量进行上采样操作，将其映射回高维数据空间，得到与输入样本相似的噪声；其中，Xⁱ为输入样本，假设样本总数为N，i∈[1，N]，N是一个有限的实数，其大小等于训练集中样本的总数，训练集确定下来后，N的大小也随之确定。例如：假设训练集中有10000图片，N的大小就是10000；

步骤二，将输入样本与噪声共同送入生成对抗网络中的鉴别网络，鉴别网络与生成网络形成对抗机制，在二者的博弈过程中，噪声的分布与输入样本的分布越来越接近，最终生成网络与鉴别网络达到动态平衡，生成网络的输出就是所需要的最终的噪声。

作为优选的技术方案，所述步骤一具体为：

假设输入样本Xⁱ的分布为P_data，生成网络利用若干卷积层将输入样本映射到低维隐变量空间，得到分布为P_Z(Zⁱ)的低维隐变量Zⁱ，然后生成网络根据低维隐变量Zⁱ生成分布为P_g的新图片，该新图片就是本发明所需要添加到Xⁱ上的噪声，用符号G(X)表示生成网路根据Xⁱ生成新图片的过程；D(X)表示X来自于P_data或P_g；训练鉴别网络时最大化拥有正确标签图片的概率；训练生成网络时，最小化log(1-D(G(X)))，相当于使生成图片的分布越接近真实分布。用公式(1)表示如下所示；

min_Gmin_DV(D，G) (1)

其中，

令V(D，G)关于D(X)的导数为0，有公式(2)；

那么，最优判别网络如公式(3)所示；

从公式(3)中可以看出，一个样本X来自真实分布P_data和生成分布P_g的可能性是相对比例；如果P_data(X)＝0，P_g(X)≠0，最优判别网络的概率0；如果P_data(X)＝P_g(X)，说明样本是真假的概率各占一半，最优判别网络的概率为0.5；将最优判别网络带入V(D,G)，进行简单变换最终到公式(4)；

此时可以直观的看出生成对抗网络使用JS散度衡量真实分布与生成分布之间的距离，网路在优化JS散度时，相当于将生成分布P_g拉向真实分布P_data，最终以假乱。在对抗机制下，P_g慢慢逼近P_data，从而得到本方法所需的与输入样本相似的噪声。

作为优选的技术方案，所述步骤S2具体包括：

步骤三，提取一个批量上所有样本的方差，并将该批量上所有样本方差归一化，当前样本的方差var_i与所有当前批量样本之和的比值就是自适应比例ratio_i，将该自适应比例作为原样本的权重，将该1-ratio_i作为步骤二中生成噪声的权重，生成新样本用公式表示为：

当损失函数比较陡峭时，新样本中的噪声比例减小，避免损失函数越过最小值；当损失函数比较平坦时，新样本中的噪声比例增大，有助于加快网络的收敛速度。

作为优选的技术方案，所述步骤三包括：输入样本与模型参数的关系的建立、模型参数与最小值的关系的建立、根据样本方差设计自适应比例。

作为优选的技术方案，所述输入样本与模型参数的关系的建立具体为：

假设第i个样本为Xⁱ，经过一个线性模型后得到h(θ,Xⁱ)；

h(θ，Xⁱ)＝θ^TXⁱ (5)

其中，θ表示模型参数(不包括输入样本)，假设样本总数为N，i∈[1，N]；

采用DNN中常用的损失函数最小均方误差(MSE)，假设损失函数为f(θ,X)，f(θ,X)表示预测值h(θ,Xⁱ)与真实值yⁱ之间差值的平方，

其中，系数1/2无限定意义，仅为了便于计算；

在GD算法中，每次迭代都用到所有样本，参数更新如下：

其中，j表示迭代次数，j≥0，η是一个超参数，根据具体应用，赋予其合适的常数值；

在SGD中使用一个样本进行梯度更新，即中的N等于1，每一次更新参数使用一个样本；在样本量很大的情况下(如几十万)，那么可能只用其中几万条或者几千条的样本，就能够将θ迭代到最优解，SGD参数更新如下，

θ_j+1＝θ_j-ηg_j (10)

在模型训练时，SGD算法一般计算一个批量的梯度，此时将公式(9)中的g_j写成公式(11)g_B的形式,

其中，是一个大小为M的mini-batch(小批量)；

从公式(9)中可以看出由于那么g_B是计算一个小批量上的g_j，在数据集中所有样本独立同分布，那么模型参数θ的一阶导数方差var(g_i)与样本Xⁱ方差var_i之间存在正比的关系，即那么DNN中通过卷积层和激活函数对输入样本进行变化，卷积操作可以看作是线性变化过程，激活函数虽然引入了一定的非线性，但是一般也是与输入样本成正比，所以var(g_B)仍然近似正比于var_i；

以SGD为例，继续分析,SGD相当于通过一个小批量估计g_B来估计数据集的梯度g_N,

由Chaudhari&Soatto定理可知，在回置抽样(有放回的抽样)中，大小为B的小批量的方差等于

当损失函数接近最小值时，D(θ,X)相当于Hessian矩阵的缩放版，即由于那么由于var(g_B)≥0，在D(θ,X)为的缩放版，时，

作为优选的技术方案，所述模型参数与最小值的关系的建立具体为：

为了更直观的分析最小值与模型参数的θ关系，引入三种局部平滑序列；

假设θ^*是为最小值时的模型参数，{θ_j}_j≥0为参数更新过程，θ^*的邻域为其中θ^*的局部平滑序列定义为{Λ(θ_j)}_j≥0，如公式(14)所示，

在{θ_j}_j≥0中的前向邻域记为其中一个理想局部平滑序列为如公式(15)所示，

在{θ_j}_j≥0中的后向邻域记为其中一个预测局部平滑序列为{L(θ_j)}_j≥0，如公式(16)所示，

Λ(θ_j)控制θ^*和θ_j之间的平滑度确保参数更新的收敛性，是一个理想局部平滑能够使θ_j快速移向θ_j+1，由于θ^*和θ_j+1未知，Λ(θ_j)和不能直接被计算，L(θ_j)与θ_j、θ_j-1相关，通过预测平滑序列，从而构造预测噪声；当损失函数二阶连续可导，有下面公式，

将L(θ_j)的导数作为SGD等算法的自适应学习率，当L(θ_j)大的时候，即大，学习率降低，每次更新的步长为学习率与的乘积，在不变的情况下，参数更新时的步长减小；当L(θ_j)减小的时候，的值减小，学习率增大，参数更新时的步长增大；在每次迭代时，函数f_θ(θ,Xⁱ)的平滑度L(θ_j)与成反比，那么在整个网络的参数更新中，L(θ)与成反比：当大时，由于损失函数变化剧烈，函数波形陡峭，参数更新时的步长减小；当由于函数变化缓慢，函数波形平坦，参数更新时步长增大。

作为优选的技术方案，根据样本方差设计自适应比例具体为:

由于与函数平滑度成反比，由于这里的var_i≥0，可以将的绝对值去掉；下面提到的就是指去掉绝对值的Hessian矩阵；设计自适应比例为ratio_i，将生成对抗网络生成的噪声与当前输入样本Xⁱ融合生成新样本如公式(18)所示。

ratio_i由根据样本方差生成，当样本方差var_i增大时，ratio_i增大，的值增大，损失函数比较“陡峭”，由公式(18)可知噪声的权重为1-ratio_i，即新样本根据var_i自动调小噪声的比例，减小加到样本上的噪声，因为如果此时ratio_i过大，那么参数更新时可能越过最小值点；在var_i值减小时，ratio_i减小，值减小，损失函数比较平坦，噪声的比例大，扰动大，参数更新时变化幅度大，有助于加速函数收敛；在一个批量(大小为M)上提取样本方差，为了消除样本幅度不一致带来的影响，将所有样本的方差归一化，即var_i∈[0,1]，i∈[1,2,…,M]，并且将归一化后的样本方差相加得到假设当前输入样本是Xⁱ，那么该样本权重为ratio_i＝var_i/var，该样本所添加的噪声的权重为1-ratio_i；当样本噪声var_i增大时，样本权重ratio_i增大，噪声权重1-ratio_i随之减小；当样本噪声var_i减小时，样本权重ratio_i减小，噪声权重1-ratio_i随之增大；从而添加到样本中的噪声能能够根据样本方差自适应调节比例，有益于网络收敛到局部最小值。

作为优选的技术方案，所述步骤S3具体包括：

步骤四：由于步骤三中，自适应比例小于等于1，所以由噪声与原样本生成的新样本丢失一部分真实信息，此时将与Xⁱ进行像素相加，为补充原样本信息，最终生成有益于提高DNN检测率的新样本

本发明与现有技术相比，有益效果是：

采用本方法无需大量采集图片，准确率高，得到的模型收敛度高，DNN的收敛速度快，而且计算过程简单，有效降低了训练难度。

附图说明

图1为基于生成对抗网络与自适应比例生成新样本的结构示意图；

图2为图1中的自适应比例生成器模块的结构示意图。

具体实施方式

下面通过具体实施例对本发明的技术方案作进一步描述说明，使得本技术方案更加清楚、明白。

本发明将噪声与梯度更新算法解耦，提出一个基于生成对抗网络与自适应比例生成新样本的方法，在输入样本(原样本)上直接添加由生成对抗网络生成的与原样本分布接近的噪声，得到新样本，新样本根据自适应比例调节噪声与原样本比重，在DNN损失函数陡峭时，增大原样本比例，减小噪声比例，避免DNN跨过最小值；在DNN损失函数平坦时，减小原样本比例，增大噪声比例，有利于加快DNN的收敛速度。本发明先根据输入样本在对抗机制下生成与原样本分布接近的噪声；然后根据样本方差构造自适应比例，将原样本与生成对抗网络生成的噪声以该比例进行融合生成新样本，并使用像素相加操作进一步为新生成的样本补充原样本信息。

本实施例的内容可以结合附图1和附图2，可以更加直观来了解本发明的思路。为方便描述本实施例的内容，首先做以下术语定义：

定义1基于生成对抗网络生成噪声的方法。

假设输入样本Xⁱ的分布为P_data，生成网络利用若干卷积层将输入样本映射到低维隐变量空间，得到分布为P_Z(Zⁱ)的低维隐变量Zⁱ，然后生成网络根据低维隐变量Zⁱ生成分布为P_g新图片，该新图片就是本发明所需要添加到X上的噪声，用符号G(X)表示生成网路根据Xⁱ生成新图片的过程；D(X)表示鉴别网络判断X来自于P_data或P_g；训练鉴别网络时最大化拥有正确标签图片的概率；训练生成网络时，最小化log(1-D(G(X)))，相当于使生成图片的分布越接近真实分布。用公式(1)表示如下所示。

min_Gmin_DV(D，G) (I)其中，

令V(D,G)关于D(X)的导数为0，有公式(2)。

那么，最优判别网络如公式(3)所示。

从公式(3)中可以看出，一个样本X来自真实分布P_data和生成分布P_g的可能性是相对比例。如果P_data(X)＝0，P_g(X)≠0，最优判别网络的概率0；如果P_data(X)＝P_g(X)，说明样本是真假的概率各占一半，最优判别网络的概率为0.5。将最优判别网络带入V(D,G)，进行简单变换最终到公式(4)。

定义2输入样本与模型参数的关系。

假设第i个样本为Xⁱ，经过一个线性模型后得到h(θ,Xⁱ)。

h(θ，Xⁱ)＝6^TXⁱ (5)

其中，θ表示模型参数(不包括输入样本)，假设样本总数为N，i∈[1，N]。

本发明以一般DNN中常用的损失函数：最小均方误差(MSE)为例，假设损失函数为f(θ,X)，f(θ,X)表示预测值h(θ,Xⁱ)与真实值yⁱ之间差值的平方。(本发明将MSE损失函数乘以系数1/2是为了便于计算，对整个分析过程及分析方法并无影响。)

在GD算法中，每次迭代都用到所有样本，参数更新如下：

其中，j表示迭代次数，j≥0，η为学习率，根据具体应用，赋予其合适的常数值。

在SGD中使用一个样本进行梯度更新，即中的N等于1，每一次更新参数使用一个样本。在样本量很大的情况下(如几十万)，那么可能只用其中几万条或者几千条的样本，就能够将θ迭代到最优解。SGD参数更新如下。

θ_j+1＝θ_j-ηg_j (10)

在模型训练时，SGD算法一般计算一个批量的的梯度，此时将公式(9)中的g_j写成公式(11)g_B的形式。

其中，是一个大小为M的mini-batch(小批量)。

从公式(9)中可以看出由于那么g_B是计算一个小批量上的g_j，在数据集中所有样本独立同分布，那么模型参数θ的一阶导数方差var(g_i)与样本Xⁱ方差var_i之间存在正比的关系，即那么DNN中通过卷积层和激活函数对输入样本进行变化，卷积操作可以看作是线性变化过程，激活函数虽然引入了一定的非线性，但是一般也是与输入样本成正比，所以var(g_B)仍然近似正比于var_i。

以SGD为例，继续分析。SGD相当于通过一个小批量估计g_B来估计数据集的梯度g_N。

定义3模型参数与最小值的关系。

为了更直观的分析最小值与模型参数的θ关系，引入三种局部平滑序列。

假设θ^*是为最小值时的模型参数，{θ_j}_j≥0为参数更新过程。θ^*的邻域为其中θ^*的局部平滑序列定义为{Λ(θ_j)}_j≥0，如公式(14)所示。

在{θ_j}_j≥0中的前向邻域记为其中一个理想局部平滑序列为如公式(15)所示。

在{θ_j}_j≥0中的后向邻域记为其中一个预测局部平滑序列为{L(θ_j)}_j≥0，如公式(16)所示。

Λ(θ_j)控制θ^*和θ_j之间的平滑度确保参数更新的收敛性。是一个理想局部平滑能够使θ_j快速移向θ_j+1。由于θ^*和θ_j+1未知，Λ(θ_j)和不能直接被计算，L(θ_j)与θ_j、θ_j-1相关，我们通过预测平滑序列，从而构造预测噪声。当损失函数二阶连续可导，有下面公式。

将L(θ_j)的导数作为SGD等算法的自适应学习率，当L(θ_j)大的时候，即大，学习率降低，每次更新的步长为学习率与的乘积，在不变的情况下，参数更新时的步长减小。当L(θ_j)减小的时候，的值减小，学习率增大，参数更新时的步长增大。在每次迭代时，函数f_θ(θ,Xⁱ)的平滑度L(θ_j)与成反比，那么在整个网络的参数更新中，L(θ)与成反比：当大时，由于损失函数变化剧烈，函数波形陡峭，参数更新时的步长减小；当由于函数变化缓慢，函数波形平坦，参数更新时步长增大。

定义4基于样本方差设计自适应比例的方法。

由于与函数平滑度成反比，由于这里的var(Xⁱ)≥0，可以将的绝对值去掉。下面提到的就是指去掉绝对值的Hessian矩阵。本发明设计自适应比例为ratio_i，将生成对抗网络生成的噪声与当前输入样本Xⁱ融合生成新样本如公式(18)所示。

ratio_i由根据样本方差生成，当样本方差var(Xⁱ)增大时，ratio_i增大，的值增大，损失函数比较“陡峭”，由公式(18)可知噪声的权重为1-ratio_i，即新样本根据var_i自动调小噪声的比例，减小加到样本上的噪声，因为如果此时ratio_i过大，那么参数更新时可能越过最小值点。在var_i值减小时，ratio_i减小，值减小，损失函数比较平坦，噪声的比例大，扰动大，参数更新时变化幅度大，有助于加速函数收敛。本发明在一个批量(大小为M)上提取样本方差，为了消除样本幅度不一致带来的影响，将所有样本的方差归一化，即var_i∈[0,1]，i∈[1,2,…,M]，并且将归一化后的样本方差相加得到假设当前输入样本是Xⁱ，那么该样本权重为ratio_i＝var_i/var，该样本所添加的噪声的权重为1-ratio_i。当样本噪声var_i增大时，样本权重ratio_i增大，噪声权重1-ratio_i随之减小。当样本噪声var_i减小时，样本权重ratio_i减小，噪声权重1-ratio_i随之增大。从而添加到样本中的噪声能能够根据样本方差自适应调节比例，有益于网络收敛到局部最小值。

本方法的具体步骤如下：

步骤一：生成对抗网络中的生成网络使用四个卷积层对输入高维样本X进行下采样操作，得到低维隐变量，再将低维隐变量经过四次相反的卷积操作，对隐变量进行上采样操作，将其映射回高维数据空间，得到与输入样本相似的噪声。

步骤二：将输入样本和噪声共同送入生成对抗网络中的鉴别网络，鉴别网络与生成网络形成对抗机制，在二者的博弈过程中，噪声的分布与输入样本的分布越来越接近，最终生成网络与鉴别网络达到动态平衡，生成网络的输出就是本方法所需要的最终的噪声。

步骤三：提取一个批量上所有样本的方差，并将该批量上所有样本方差归一化，当前样本的方差var_i与所有(当前批量)样本之和的比值就是自适应比例ratio_i，将该自适应比例作为原样本的权重，将该1-ratio_i作为步骤二中生成噪声的权重，生成新样本当损失函数比较陡峭时，新样本中的噪声比例减小，避免损失函数越过最小值；当损失函数比较平坦时，新样本中的噪声比例增大，有助于加快网络的收敛速度。

步骤四：步骤三中，自适应比例小于等于1，所以生成的新样本丢失一部分真实信息，此时将与Xⁱ进行像素相加，为补充原样本信息，最终生成有益于提高DNN检测率的新样本

以上为本发明的优选实施方式，并不限定本发明的保护范围，对于本领域技术人员根据本发明的设计思路做出的变形及改进，都应当视为本发明的保护范围之内。

Claims

1.基于生成对抗网络与自适应比例生成新样本的方法，包括以下步骤:

S3通过像素相加的操作为新样本补充输入样本信息，生成有益于提高DNN检测率的最终样本。

2.根据权利要求1所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述步骤S1具体包括：

步骤一，生成对抗网络中的生成网络使用四个卷积层对输入样本Xⁱ进行下采样操作，得到低维隐变量，再将低维隐变量经过四次相反的卷积操作，对隐变量进行上采样操作，将其映射回高维数据空间，得到与输入样本相似的噪声；其中，Xⁱ为输入样本，假设样本总数为N，i∈[1，N]，N是一个有限的实数，其大小等于训练集中样本的总数，训练集确定下来后，N的大小也随之确定；例如：假设训练集中有10000图片，N的大小就是10000；

3.根据权利要求2所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述步骤一具体为：

假设输入样本Xⁱ的分布为P_data，生成网络利用若干卷积层将输入样本映射到低维隐变量空间，得到分布为P_Z(Zⁱ)的低维隐变量Zⁱ，然后生成网络根据低维隐变量Zⁱ生成分布为P_g的新图片，该新图片就是本发明所需要添加到Xⁱ上的噪声，用符号G(X)表示生成网路根据Xⁱ生成新图片的过程；D(X)表示鉴别网络判断X来自于P_data或P_g；训练鉴别网络时最大化拥有正确标签图片的概率；训练生成网络时，最小化log(1-D(G(X)))，相当于使生成图片的分布越接近P_data；用公式(1)表示如下所示；

min_Gmin_DV(D,G) (1)

其中，

令V(D,G)关于D(X)的导数为0，有公式(2)；

那么，最优判别网络如公式(3)所示；

此时可以直观的看出生成对抗网络使用JS散度衡量真实分布与生成分布之间的距离，网路在优化JS散度时，相当于将生成分布P_g拉向真实分布P_data，最终以假乱。在对抗机制下，P_g慢慢逼近P_data，从而得到本发明所需的与输入样本分布相似的噪声。

4.根据权利要求1-3任一所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述步骤S2具体包括：

步骤三，提取一个批量上所有样本的方差，并将该批量上所有样本方差归一化，当前样本的方差var_i与所有当前批量样本之和的比值就是自适应比例ratio_i，将该自适应比例作为输入样本的权重，将该1-ratio_i作为步骤二中生成噪声的权重，生成新样本用公式表示为：

5.根据权利要求4所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述步骤三包括：输入样本与模型参数的关系的建立、模型参数与最小值的关系的建立、根据样本方差设计自适应比例。

6.根据权利要求5所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述输入样本与模型参数的关系的建立具体为：

假设第i个样本为Xⁱ，经过一个线性模型后得到h(θ,Xⁱ)；

h(θ,Xⁱ)＝θ^TXⁱ (5)

其中，系数1/2无限定意义，仅为了便于计算；

在GD算法中，每次迭代都用到所有样本，参数更新如下：

在SGD中使用一个样本进行梯度更新，即中的N等于1，每一次更新参数使用一个样本；在样本量很大的情况下(如几十万)，那么可能只用其中几万条或者几千条的样本，就能够将θ迭代到最优解，SGD参数更新如下：

θ_j+1＝θ_j-ηg_j (10)

其中，是一个大小为M的mini-batch(小批量)；

从公式(9)中可以看出||g_j||∝||h(θ,Xⁱ)||，由于||h(θ,Xⁱ)||∝||Xⁱ||，那么||g_j||∝||Xⁱ||，g_B是计算一个小批量上的g_j，g_B∝g_j；在数据集中所有样本独立同分布，那么模型参数θ的一阶导数方差var(g_i)与样本Xⁱ方差var_i之间存在正比的关系，即var(g_j)∝var_i，那么var(g_B)∝var_i；DNN中通过卷积层和激活函数对输入样本进行变化，卷积操作可以看作是线性变化过程，激活函数虽然引入了一定的非线性，但是一般也是与输入样本成正比，所以var(g_B)仍然近似正比于var_i；

以SGD为例，继续分析，SGD相当于通过一个小批量估计g_B来估计数据集的梯度g_N，

当损失函数接近最小值时，D(θ,X)相当于Hessian矩阵的缩放版，即由于var(g_B)∝var_i，那么由于var(g_B)≥0，在D(x)为的缩放版，时，

7.根据权利要求5所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述模型参数与最小值的关系的建立具体为：

假设θ^*是为最小值时的模型参数，{θ_j}_j≥0为参数更新过程，θ^*的邻域为其中θ^*的局部平滑序列定义为{Λ{θ_j}_j≥0，如公式(14)所示，

将L(θ_j)的导数作为SGD等算法的自适应学习率，当L(θ_j)大的时候，即大，学习率降低，每次更新的步长为学习率与的乘积，在不变的情况下，参数更新时的步长减小；当L(θ_j)减小的时候，的值减小，学习率增大，参数更新时的步长增大；在每次迭代时，函数f_θ(θ,Xⁱ)的平滑度L(θ_j)与成反比，那么在整个网络的参数更新中，L(θ)与成反比：当大时，由于损失函数变化剧烈，函数波形陡峭，参数更新时的步长减小；当小时，由于函数变化缓慢，函数波形平坦，参数更新时步长增大。

8.根据权利要求5所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，根据样本方差设计自适应比例具体为:

ratio_i由根据样本方差生成，当样本方差var_i增大时，ratio_i增大，的值增大，损失函数比较“陡峭”，由公式(18)可知噪声的权重为1-ratio_i，即新样本根据var_i自动调小噪声的比例，减小加到样本上的噪声，因为如果此时ratio_i过大，那么参数更新时可能越过最小值点；在var_i值减小时，ratio_i减小，值减小，当损失函数比较平坦，噪声的比例大，扰动大，参数更新时变化幅度大，有助于加速函数收敛；在一个批量(大小为M)上提取样本方差，为了消除样本幅度不一致带来的影响，将所有样本的方差归一化，即var_i∈[0,1]，i∈[1,2,…,M]，并且将归一化后的样本方差相加得到假设当前输入样本是Xⁱ，那么该样本权重为ratio_i＝var_i/var，该样本所添加的噪声的权重为1-ratio_i；当样本噪声var_i增大时，样本权重ratio_i增大，噪声权重1-ratio_i随之减小；当样本噪声var_i减小时，样本权重ratio_i减小，噪声权重1-ratio_i随之增大；从而添加到样本中的噪声能能够根据样本方差自适应调节比例，有益于网络收敛到局部最小值。

9.根据权利要求4所述的基于生成对抗网络与自适应比例生成新样本的方法，其特征在于，所述步骤S3具体包括：

步骤四：由于步骤三中，自适应比例小于等于1，所以由噪声与输入样本生成的新样本丢失一部分真实信息，此时将与Xⁱ进行像素相加，为补充输入样本信息，最终生成有益于提高DNN检测率的新样本