CN109376611A

CN109376611A - 一种基于3d卷积神经网络的视频显著性检测方法

Info

Publication number: CN109376611A
Application number: CN201811132912.9A
Authority: CN
Inventors: 方玉明; 丁冠群; 杜人钢
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-02-22
Anticipated expiration: 2038-09-27
Also published as: CN109376611B

Abstract

本发明涉及一种对于视频图像的显著性检测方法，其特征在于：首先利用2D卷积建立一个2D深度卷积神经网络，输入一帧视频帧获得运动目标语义特征，然后利用3D卷积建立一个3D深度卷积神经网络，输入连续三帧视频帧得到时空显著性特征，再将运动目标语义特征和时空显著性信息连接后，输入到3D反卷积网络中，以学习和混合时空显著性特征，最终通过3D反卷积网络得到显著图。这样我们就得到整副图像的显著图，显著值越大，就表明该像素越显著，也就是越吸引人眼关注。实验结果表明我们建立的视频图像显著性检测模型有优良的检测性能。

Description

一种基于3D卷积神经网络的视频显著性检测方法

技术领域

本发明涉及一种基于3D卷积神经网络的视频显著性检测方法。属于多媒体技术领域，具体属于数字图像和数字视频处理技术领域。本发明可以应用于复杂背景下视频图像中的显著性检测。

背景技术

视觉显著性检测的研究是建立在生物驱动模型的基础上，研究的问题是人眼的关注点在什么位置，致力于寻找图像中的若干个人眼关注的点。另外，由于人类大脑能自动地将所见场景转化为显著图，提取出显著目标，摈弃非显著目标从而进行后续的信息处理，因此视频图像显著目标检测的任务是要检测出最受人注意的显著目标，它可以广泛地应用在图像分割、自适应压缩和图像检索等计算机视觉技术中。

传统显著性检测方法主要有三个步骤：预处理(Pre-Process)，特征提取(FeatureExtract)和特征融合(Feature Fusion)。由于场景图像有着截然不同的成像特性如分辨率低、大小不一、光照不均等，这些特性影响着特征提取、特征融合等各个过程。因此，在将场景条件下的视频图像输入到各个模块前，对图像进行必要的预处理，对定位和识别正确率的提高有一定的帮助。比如对场景文本图像进行颜色空间变换；在进行提取特征前，需要去噪来消除噪声对有效特征提取的影响；通过二值化处理后，能够有效提高识别结果的正确性。特征是某一类对象区别于其他类对象的相应(本质)特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据。对于传统显著性检测任务而言，常用的特征有HOG特征、LBP特征、Haar特征和SIFT特征等。特征融合就是将提取出的多特征图整合，最后得到一个最终显著图。

与静态图像的显著目标检测不同，视频的显著区域检测模型不仅要考虑视频帧内图像的空间显著性，而且要考虑视频帧间的时间显著性。传统的视频中显著区域检测是从静态图像的显著区域检测模型进行扩展，如Itti等人在经典Itti98的基础上增加了运动特征及帧间闪烁，从而将该模型的应用扩展到视频中的时空显著图的计算。但是在实际应用中，通过静态叠加方式混合时空特征的方法，难以满足不同的应用需求，很多研究也表明时空特征的静态混合效果并不理想。因为这些传统算法的局限性，许多性能更优的基于深度学习的视频显著性算法相继提出。

近来，随着深度学习的快速发展，越来越多的深度模型算法和系统被开发出来，这些计算机应用大大提高了人们日常生活质量和工作效率。在计算机视觉领域，卷积神经网络应用十分广泛，比如图像分类、目标检测、图像分割、图像检索等。比如经典的LeNet，FCN，VGG-Net，RCNN，fast-RCNN，SPP等。与传统显著性检测方法框架不同，深度卷积神经网络模型不需要手工选取特征，它能利用反向传播算法自适应地学习到与显著目标有关的特征，从而大大提高了系统的处理速度和处理能力，能够对视频帧进行实时处理和分析。

发明内容

为了解决现有方法对于视频图像中，手动提取帧与帧之间的运动信息以及显著性检测效果差的问题，本发明提出了一种基于3D深度卷积神经网络的自适应学习时空特征的显著性检测方法，它可以自动地从复杂背景下的视频图像中检测出显著区域，并且取得比较好高的准确率。

为了实现上述目的，本发明采用的技术方案为：

步骤1：训练过程中，从训练样本视频帧序列中随机选取连续三帧视频帧彩色图像(I_t-1,I_t,I_t+1)以及当前帧I_t所对应的参考显著图(G_t)构成一个训练样本T(I_t-1,I_t,I_t+1,G_t)；测试过程中，从测试样本中按视频序列顺序选取连续三帧视频帧彩色图像(I_t-1,I_t,I_t+1)构成一个测试样本S(I_t-1,I_t,I_t+1)。

步骤2：训练网络。将训练样本T中当前帧I_t输入到2D卷积网络(Conv3DNet)中从而让2D网络学习到目标语义特征；同时将连续三帧视频彩色图像(I_t-1,I_t,I_t+1)输入到3D卷积网络(Conv3DNet)中，从而让3D网络学习到帧与帧之间的时间和空间显著性特征；然后将2D网络和3D网络中学习到的目标语义特征和时空显著性特征连接起来，输入到3D反卷积网络(Deconv3DNet)中，以混合和学习到当前帧的显著信息；最后用一层3D卷积层和Relu激活函数来生成显著图。

步骤3：测试网络。训练好网络后，给定一个测试样本，将当前帧I_t输入到2D卷积网络(Conv2DNet)中，同时将连续三帧视频彩色图像(I_t-1,I_t,I_t+1)输入到3D卷积网络(Conv3DNet)中，然后网络会自动生成对应帧序列的显著图。

一种对于视频图像的显著性检测方法，其特征在于，包括以下步骤：

A.首先利用2D卷积建立一个2D深度卷积神经网络，输入一帧视频帧获得运动目标语义特征。

B.然后利用3D卷积建立一个3D深度卷积神经网络，输入连续三帧视频帧得到帧与帧之间的时空显著性信息。

C.根据所得到的运动目标语义特征和时间显著性信息，我们用3D卷积层连接混合得到混合特征映射图。之后将混合后的特征映射图输入到3D反卷积网络中以学习和混合时空显著性特征，最终的显著图通过3D反卷积网络得到。

进一步地，所述步骤A中的2D深度卷积神经网络记为Conv2DNet，它包括13层2D卷积层用于提取运动目标语义特征，5层最大池化层用于对特征图进行下采样。Conv2DNet是通过去掉VGG16模型的后面3层全连接层搭建而成。所述的VGG16模型采用Very deepconvolutional networks forlarge-scale image recognition中所提出的算法。首先在训练集中随机选取一个训练样本，记为训练样本T(I_t-1,I_t,I_t+1,G_t)，其中包含连续三帧视频帧图像(I_t-1,I_t,I_t+1)和对应的目标帧参考显著图(G_t)。然后将当前帧图像(I_t)输入到Conv2DNet中，经过卷积神经网络前向传播得到1024维特征映射图，其映射图行和列大小为7×7，代表运动目标语义特征。假设第l层为卷积层，第l+1层为最大池化层，则第l层第j个特征映射和激活函数Relu的计算公式如下：

其中⊙表示卷积核k在第l-1层所有关联的特征映射(feature maps)上做卷积运算再加上一个偏置参数b，然后求和，经过激活函数取Relu得到最终激励值。

进一步地，所述步骤B中的3D深度卷积神经网络记为Conv3DNet，它包含14层3D卷积层用于提取时空显著性特征，5层最大池化层(Max-pool)用于对特征映射图下采样，同时记录采样最大值的位置。将权利要求2中训练样本T所包含的连续三帧视频帧(I_t-1,I_t,I_t+1)输入到Conv3DNet中，经过卷积神经网络前向传播获得1024维特征映射图，其大小为7×7，代表时空显著性信息。

进一步地，所述步骤C中的3D深度反卷积神经网络记为Deconv3DNet，它包含5层非池化层(Unpool)用于恢复权利要求3中最大池化层下采样后的最大值位置，12层3D反卷积用于学习和混合时空显著性特征，还有一层3D卷积层用于生成最后的显著性图。将权利要求2和权利要求3中所获得的运动目标语义特征和时空显著性特征连接获得2048维特征映射图，其映射图行和列大小为7×7，将其输入到Deconv3DNet中，经过卷积神经网络前向传播获得最后的显著图S_t，其显著图行和列大小为224×224。假设第l层为反卷积层，第l-1层为非池化层(unpool)，则第l层第j个特征映射的计算公式如下：

其中⊙表示反卷积核在第l-1层所有关联的特征映射(feature maps)上做反卷积运算再加上一个偏置参数b，然后求和，经过激活函数取Relu得到最终激励值。

进一步地，将所述步骤C中获得的最终显著图S_t与权利要求3中训练样本T目标视频帧所对应的参考显著图(G_t)相减，从而获得前向传播的误差，再经过反向传播进行权重调优。

进一步地，所采用的计算前向传播误差的损失函数方法为均方误差，计算公式为：

其中S_t(i,j)为生成的最终显著图S_t中的像素值，其显著图行和列大小为h×w,这里我们将所有最终显著图设置为224×224；G_t(i,j)为目标视频帧所对应的参考显著图G_t中的像素值，其显著图行和列大小为h×w，这里我们将所有显著图设置为224×224；k表示每次传入神经网络的批次大小(batch size)。其中损失函数L所获得的是S_t和G_t对应像素相减，并取其均值。

进一步地，所述的反向传播权重调优方法为Adam(Adaptive MomentEstimation)，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。公式如下：

m_t＝μ*m_t-1+(1-μ)*g_t (5)

其中m_t，n_t分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望E|g_t|，的估计；μ和v是两个标量系数用于控制指数衰减率，其中μ,v∈[0,1)；是对m_t，n_t的校正，这样可以近似为对期望的无偏估计；∈为一个极小的常数，防止分母为零；可以看出，直接对梯度的矩估计可以根据梯度进行动态调整，而对学习率形成一个动态约束，而且有明确的范围。

实验证明本发明提出的基于3D深度卷积神经网络的视频图像显著性检测模型明显优于目前的其他模型。通过与6种常见的视频图像显著性检测模型来比较，评估的指标：

实验证明本发明提出的超分辨率图像质量评价模型明显优于目前的其他模型。通过与7种常见的视频图像显著性检测模型来比较，评估的指标：Pearsons LinearCorrelation Coefficient(PLCC),ReceiverOperating Characteristics(ROC)andNormalized Scanpath Saliency(NSS)。PLCC系数是用来度量两个变量X和Y之间的相互关系的，显著性检测中X、Y分别是图像的测试显著性图(Saliency Map)和参考显著性图(Ground Truth)，取值范围在[-1,+1]之间。ROC用来衡量具有变量阈值的二值分类器的性能，显著值在阈值之上的点看作是注视点，而在阈值之下的看作是非注视点。其中ROC曲线下的面积称之为AUC(the Area Under the ROC Curve)，其取值范围为[0,1]，AUC越接近1代表模型检测性能越好。NSS用于衡量测试显著性图(Saliency Map)和参考显著性图(Ground Truth)两者之间的关联度。NSS值越高意味着观测者看到的是重要度高的目标，越低表示观测者关注的位置与重要度高的目标不重合。因此NSS值越高表明显著性检测模型的性能越优良。

附图说明

图1为本发明的算法流程框架图；

图2为不同方法在两种数据库上的ROC曲线图；其中，a：SegTrackV2数据库上的ROC曲线，b：DAVIS数据库上的ROC曲线；

图3为多种方法在多个视频序列上测试的显著图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明作进一步详细说明。

本发明解决其技术问题所采用的技术方案是：一种基于3D卷积神经网络的视频显著性检测方法，包括以下步骤：

A.获取待检测视频序列中的当前帧、上一帧以及下一帧的连续三帧彩色图像，记为(I_t-1,I_t,I_t+1)；

B.将当前帧彩色图像(I_t)输入到Conv2DNet中，获取当前帧的运动目标语义特征，其特征维度为1024，特征映射图行和列大小为7×7；

C.将连续三帧彩色图像(I_t-1,I_t,I_t+1)输入到Conv3DNet中，获取帧与帧之间的空间显著性信息和时间显著性信息，其特征维度为1024，特征映射图行和列大小为7×7，

代表当前帧的时空显著性特征；

D.将步骤B和步骤C中获得的特征映射图连接(concatenate)，组合成2048维特征映射，将其输入到Deconv3DNet中，学习和混合运动目标语义特征和时空显著性特征；

E.通过最后一层3D卷积层生成最后的显著图，显著图的行和列大小为224×224。

具体的，所述步骤B具体包括：

B1.其中Conv2DNet包含13层2D卷积层，5层2D最大池化层(pool层)，5层批归一化层(BatchNorm)。卷积层的卷积核大小为3×3，其中的初始参数是通过VGG16模型的参数进行初始化的，之后在网络的训练过程中由反向传播算法自动学习获得。最大池化层的步长大小为2×2，它可以用于对特征映射图进行下采样，从而获得更好的特征表达。批归一化层可以加快训练速度以及增加检测精度。

B2.我们用四维张量[batch_size,map_height,map_width,channel]表示Conv2DNet特征图的大小，其中batch_size表示每次输入网络的批大小；map_height表示特征映射图的高，即行数；map_width表示特征映射图的宽，即列数；channel表示特征映射图的通道个数，即特征映射图的维度大小。其中B1的13层卷积网络经过前向传播后经过pool5层获得512维特征映射，其特征图大小为[10,7,7,512]。将512维特征输入到另外4层卷积层中，同时对其进行升维操作，从而获得1024维特征映射，其特征行和列的大小为[10,7,7,1024]。

具体的，所述步骤C具体包括：

C1.其中Conv3DNet包含14层2D卷积层，5层3D最大池化层，5层批归一化层(BatchNorm)。我们用三维张量[temporal_depth,spatial_height,spatial_width]表示3D卷积滤波器(filter)、3D最大池化步长(map pool stride)、3D非池化步长(unpoolstride)和卷积步长(convolutional stride)的形状大小，其中temporal_depth表示时间维度上的深度，即表示有多少帧视频帧彩色图像进行卷积操作；spatial_height表示空间维度上的高，即表示一帧视频帧上彩色图像进行滤波的高度大小；spatial_width表示空间维度上的宽，即表示一帧视频帧彩色图像上进行滤波的宽度大小。我们用五维张量[batch_size,map_depth,map_height,map_width,channel]表示Conv3DNet特征图的大小，其中batch_size表示每次输入网络的批大小；map_depth表示时间维度上的特征映射个数；map_height表示特征映射图的高，即行数；map_width表示特征映射图的宽，即列数；channel表示特征映射图的通道个数，即特征映射图的维度大小。

C2.首先经过第一层卷积层conv3d1_1，滤波器大小filter＝[3,3,3]，通道为32；第二层卷积层conv3d1_2，滤波器大小filter＝[3,3,3]，通道64；再经过一层pool3d1的maxpool层，因为我们希望多学习一点帧间信息，所以保留了三帧不那么快融合帧与帧之间的信息，所以卷积步长大小stride＝[1,2,2]。为了加快训练速度和提高精确度，我们在每层maxpool3d后面接上了BatchNorm层。后面是卷积层conv3d2_1，卷积层conv3d2_2，通道数分别为128和128，连上pool3d2，stride＝[1,2,2]，然后接上BatchNorm层。接着是conv3d3_1，conv3d3_2，通道数分别是256和256，连上pool3d3，stride＝[1,2,2]，然后接上BatchNorm层。下面，conv3d4_1，conv3d4_2，filter＝[2,3,3]，通道数分别为512和512，连上pool3d4，stride＝[2,2,2]，然后接上BatchNorm层。后面是conv3d5_1，conv3d5_2，因为此时经过pool3d4之后，只有两帧了，所以filter＝[2,3,3]，通道数分别为512和512，连上pool3d5，stride＝[2,2,2]，然后接上BatchNorm层。此时输出的feaure map大小为[10,1,7,7,512]，为了充分学习和融合时空显著性信息，我们加了一组卷积，但是没有pool层，就是后面的conv3d6_1，conv3d6_2，此时经过pool3d5之后，只有一帧了，所以filter＝[1,3,3]，通道数分别为512和512，然后接上BatchNorm层。将512维特征输入到另外2层卷积层中，同时对其进行升维操作，从而获得1024维特征映射，其特征行和列的大小为[10,1,7,7,1024]。

具体的，所述步骤D具体包括：

D1.我们用五维张量[batch_size,map_depth,map_height,map_width,channel]表示Deconv3DNet特征图的大小，其中batch_size表示每次输入网络的批大小；map_depth表示时间维度上的特征映射个数；map_height表示特征映射图的高，即行数；map_width表示特征映射图的宽，即列数；channel表示特征映射图的通道个数，即特征映射图的维度大小。我们用三维张量[batch_size,map_depth,map_height,map_width,channel]表示Deconv3DNet特征图的大小，

D2.经过concat之后，特征图的大小为[10,1,7,7,2048]，为了充分混合Conv2DNet和Conv3DNet的特征图，我们设计了Deconv3DNet来学习这些特征，接入BatchNorm后，再连上deconv3d1，filter＝[1,3,3]，stride＝[2,2,2]，输出大小为[10,1,14,14,1024]，为了尽可能多的保持反卷积学习到的特征，我们设计了3个卷积层来完成这个任务，它们是conv3d7_1，conv3d7_2，conv3d7_3，然后接入BatchNorm。接着是第二层反卷积deconv3d2，同样的后面接入3个卷积层，conv3d8_1，conv3d8_2，conv3d8_3，后面是BatchNorm。接着是第3层反卷积deconv3d3，后面接入2个卷积层，conv3d9_1，conv3d9_2，后面是BatchNorm。接着是第4层反卷积deconv3d4，同样的后面接入2个卷积层，conv3d10_1，conv3d10_2，后面是BatchNorm。接着是第5层反卷积deconv3d5，同样的后面接入2个卷积层，conv3d11_1，conv3d11_2，后面是BatchNorm。最后用一层卷积层来获得最终显著图，大小为224x224。

测试结果如下表：

表1：多种方法在SegTrackV2数据库上的定量测试结果

表2：多种方法在DAVIS数据库上的定量测试结果

模型	Fang	LGGR	MultiTask	RWRV	SAG	SGSP	Proposed
								PLCC	0.6720	0.6733	0.8138	0.4077	0.6281	0.7439	0.8645
AUC	0.9034	0.8735	0.9262	0.8282	0.9051	0.9114	0.9425
								NSS	2.5904	2.4775	2.8294	1.6699	2.4610	2.7747	3.5485

本发明涉及一种基于3D深度卷积神经网络的视频图像显著性检测方法，在训练阶段，首先随机选取连续三帧视频帧彩色图像输入到Conv3DNet中学习到帧与帧之间的时间和空间显著性信息，然后将当前帧输入到Conv2DNet中学习到运动目标语义信息，再将这两个网络所学习到的特征连接起来输入到Deconv3DNet中学习和混合更具有区分能力的增强型高级显著性特征，最后利用一层3D卷积和Relu激活函数获得最后的显著性的预测值，并把每个像素点的预测值作为这点的显著值。这样我们就得到整副图像的显著图，显著值越大，表示该像素点越显著。

本发明方法基于3D卷积神经网络，实验结果表明我们的模型学习到的特征具有更高的区分性和鲁棒性。本发明可以应用于复杂背景下视频图像的显著性检测。该方法具有较高的检测精度，相对于其他绝大多数现有的方法来说，具有明显的优势。

上述实施方式是对本发明的说明，不是对本发明的限定，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的保护范围由所附权利要求及其等同物限定。

Claims

1.一种对于视频图像的显著性检测方法，其特征在于，包括以下步骤：

A.首先利用2D卷积建立一个2D深度卷积神经网络，输入一帧视频帧获得运动目标语义特征；

B.其次利用3D卷积建立一个3D深度卷积神经网络，输入连续三帧视频帧得到帧与帧之间的时空显著性信息；

C.最后根据所得到的运动目标语义特征和时空显著性信息，采用3D卷积层连接混合得到混合特征映射图，之后将混合后的特征映射图输入到3D反卷积网络中以学习和混合时空显著性特征，最终的显著图通过3D反卷积网络得到。

2.根据权利要求1所述的一种对于视频图像的显著性检测方法，其特征在于，所述步骤A中的2D深度卷积神经网络记为Conv2DNet，它包括13层2D卷积层用于提取运动目标语义特征，5层最大池化层用于对特征图进行下采样；Conv2DNet是通过去掉VGG16模型的后面3层全连接层搭建而成，VGG16模型采用首先在训练集中随机选取一个训练样本，记为训练样本T(I_t-1，I_t，I_t+1，G_t)，其中包含连续三帧视频帧图像(I_t-1，I_t，I_t+1)和对应的目标帧参考显著图(G_t)，然后将当前帧图像(I_t)输入到Conv2DNet中，经过卷积神经网络前向传播得到1024维特征映射图，其映射图行和列大小为7×7，代表运动目标语义特征；假设第l层为卷积层，第1+1层为最大池化层，则第l层第j个特征映射和激活函数Relu的计算公式如下：

其中⊙表示卷积核k在第l-1层所有关联的特征映射上做卷积运算再加上一个偏置参数b，然后求和，经过激活函数Relu得到最终激励值。

3.根据权利要求2所述的一种对于视频图像的显著性检测方法，其特征在于，所述步骤B中的3D深度卷积神经网络记为Conv3DNet，它包含14层3D卷积层用于提取时空显著性特征，5层最大池化层用于对特征映射图下采样，同时记录采样最大值的位置；将训练样本T所包含的连续三帧视频帧(I_t-1，I_t，I_t+1)输入到Conv3DNet中，经过卷积神经网络前向传播获得1024维特征映射图，其大小为7×7，代表时空显著性信息。

4.根据权利要求3所述的一种对于视频图像的显著性检测方法，其特征在于，所述步骤C中的3D深度反卷积神经网络记为Deconv3DNet，它包含5层非池化层用于恢复所述最大池化层下采样后的最大值位置，12层3D反卷积用于学习和混合时空显著性特征，还有一层3D卷积层用于生成最后的显著性图，将所获得的运动目标语义特征和时空显著性特征连接获得2048维特征映射图，其映射图行和列大小为7×7，将其输入到Deconv3DNet中，经过卷积神经网络前向传播获得最后的显著图S_t，其显著图行和列大小为224×224；假设第l层为反卷积层，第l-1层为非池化层，则第l层第j个特征映射的计算公式如下：

其中⊙表示反卷积核在第l-1层所有关联的特征映射上做反卷积运算再加上一个偏置参数b，然后求和，经过激活函数取Relu得到最终激励值。

5.根据权利要求3所述的一种对于视频图像的显著性检测方法，其特征在于，将所述步骤C中获得的最终显著图(S_t)与训练样本T目标视频帧所对应的参考显著图(G_t)相减，从而获得前向传播的误差，再经过反向传播进行权重调优。

6.根据权利要求3所述的一种对于视频图像的显著性检测方法，其特征在于，所采用的计算前向传播误差的损失函数方法为均方误差，计算公式为：

其中S_t(i，j)为生成的最终显著图S_t中的像素值，其显著图行和列大小为h×w，所有最终显著图设置为224×224；G_t(i，j)为目标视频帧所对应的参考显著图G_t中的像素值，其显著图行和列大小为h×w，所有显著图设置为224×224；k表示每次传入神经网络的批次大小，其中损失函数L所获得的是S_t和G_t对应像素相减，并取其均值。

7.根据权利要求3所述的一种对于视频图像的显著性检测方法，其特征在于，反向传播权重调优方法为Adam法，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，Adam法的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳，公式如下：

m_t＝μ*m_t-1+(1-μ)*g_t (5)

其中m_t，n_t分别是对梯度的一阶矩估计和二阶矩估计，作为对期望E|g_t|，的估计；μ和v是两个标量系数用于控制指数衰减率，其中μ，v∈[0，1)；是对m_t，n_t的校正，近似为对期望的无偏估计；∈为一个极小的常数，防止分母为零；直接对梯度的矩估计可以根据梯度进行动态调整，而对学习率形成一个动态约束，而且有明确的范围。