CN110516787A

CN110516787A - 基于易分特征丢弃策略的深度学习网络正则化约束方法

Info

Publication number: CN110516787A
Application number: CN201910635196.4A
Authority: CN
Inventors: 范影乐; 王辉阳; 武薇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-29
Anticipated expiration: 2039-07-15
Also published as: CN110516787B

Abstract

本发明公开了一种基于易分特征丢弃策略的深度学习网络正则化约束方法，本发明改进了对特征随机置零的正则化方法，提出了丢弃易分特征策略，即置零易分特征的同时，保留难分特征，约束网络仅通过难分特征学习提升特征的辨别能力和网络的泛化性。本发明将易分特征丢弃策略运用到了全连接层和卷积层中，特别地通过滑窗方式找出特征图上的易分矩形区域并将其置零，解决了置零离散的状态下，网络可以根据特征图上地非零特征自动进行信息补全，导致正则化的作用减弱地问题，从而有效约束了网络的训练，进而提高网络的泛化性能。

Description

基于易分特征丢弃策略的深度学习网络正则化约束方法

技术领域

本发明涉及深度学习和机器视觉领域，具体涉及到深度学习网络训练过程中所使用的正则化约束方法。

技术背景

由于深度学习网络训练参数过多，且训练数据不足等原因，过拟合一直是网络训练时无法回避的问题。针对上述问题，除了在网络输入端运用数据增强方法以外，更为普遍的方法是对网络中间层输出进行正则化处理。例如Dropout和DropConnect方法都是广泛使用的正则化约束手段，前者随机将每个网络节点的输出以一定概率随机置零，后者则将节点中每个与之相连的输入权值以一定概率随机置零。但是由于卷积神经网络输出特征图中的特征具有高度相关性，当置零特征过于离散，网络容易通过非零特征进行信息补全，将减弱正则化的作用，因此DropPath方法进一步提出随机对子网络的输出置零，并阻止其他并行网络的协同适应，这大大提高了每个子网络的独立性，但是将某个子网络的输出置零意味着该网络的所有权值将不再更新变化，会降低网络的学习效率，且该方法只能用于具有分形结构的网络。

可以发现，上述正则化约束方法都是采取随机策略，将输出的特征都等同对待，但是对于网络所提取的特征来说，存在着易分特征和难分特征。例如对于行人重识别任务，易分特征容易区别不同身份的行人或者识别出同一身份的行人，难分特征则相反。对于网络来说，所提取的特征中易分特征越多越好，因此在训练过程中，如何将难分特征训练为易分特征是一个很有意义的问题。

发明内容

本发明提出了基于易分特征丢弃策略的深度学习网络正则化约束方法，主要包括作用于卷积层的正则化约束方法DropEasy2d，以及作用于全连接层的正则化约束方法DropEasyld。对于DropEasy2d来说，计算前一层输出特征图对应特征之间的距离，如果是正样本对，则采用滑窗方式找出特征图上距离总和最小的特征区域，将其置零，如果是负样本对，则采用滑窗方式找出特征图上距离总和最大的特征区域，将其置零，就获得了一对难分特征图；对于DropEasyld来说，计算前一层输出的特征向量中对应特征之间的距离，如果是正样本对，则将距离相对小的特征置零；如果是负样本对，则将距离相对大的特征置零，同时保持其他特征不变，就获得了一对难分特征向量。将获得的难分特征图或难分特征向量输入到下一层网络层，继续网络的前向传播过程。因为本发明方法搜索样本对之间的易分特征并将其置零，网络利用难分特征来学习正负样本对的差异，逐渐将难分特征转化为易分特征，因此将显著增强所提取特征的辨别能力，提高网络的泛化性。

本发明的步骤如下，其中步骤1～步骤4为作用于卷积层的正则化约束方法，即DropEasy2d，而步骤5～步骤8为作用于全连接层的正则化约束方法，即DropEasyld；

步骤1：令{x_a，x_b}表示深度学习网络的输入数据对；y表示输入数据对的二值标签，当y＝1，表示{x_a，x_b}为正样本对，当y＝0时，表示{x_a，x_b}是负样本对；r_h和r_w∈(0，1)，表示作用于卷积层的正则化约束方法在长和宽两个维度上的置零比率；r∈(0，1)，表示作用于全连接层的正则化约束方法的置零比率。将{x_a，x_b}输入到网络中，经过卷积层输出一对多通道的特征图，分别按通道求平均，得到单通道特征图对{F_a，F_b}，式(1)和(2)所示：

其中h和w分别是{F_a，F_b}的长和宽，和分别是F_a和F_b中第j行第i列所对应的特征分量。

步骤2：对特征图对{F_a，F_b}，按式(3)计算得到特征图对之间的距离dist2d：

其中|·|₁表示绝对值运算，d^j，i表示{F_a，F_b}中第j行第i列所对应特征分量之间的距离。

步骤3：先按式(4)和(5)，分别得到滑窗的长和宽

其中表示向下取整操作。然后采用从左到右，从上到下的方式对dist2d进行滑窗遍历，对落入滑窗内的dist2d元素进行相加，找到易分特征区域坐标列表region，满足式(6)：

其中(vⁱ，u^j)表示易分特征分量的坐标，sum表示对矩阵中所有元素进行相加，当y＝1时，■表示≤，；当y＝0时，■表示≥。

步骤4：根据易分特征区域坐标列表region，对{F_a，F_b}中的特征分量分别进行置零。以对F_a的置零操作得到难分特征图为例，扩大1/(1-r_h*r_wr)倍，以补偿网络的训练过程相对于测试过程的数值偏差，具体计算过程如式(7)所示。经过相同操作可以得到Fb的难分特征图就是丢弃了易分特征，保留了难分特征的特征图对。

步骤5：将输入到下一个网络层，继续进行网络的前向传播过程。当经过全连接层，则输出特征向量对{f_a，f_b}，f_a和f_b分别如式(8)和(9)所示：

其中n是{f_a，f_b}的维数，和表示f_a和f_b的第i维特征分量。

步骤6：对于特征向量对{f_a，f_b}，按式(10)计算{f_a，f_b}的特征距离dist1d：

其中dⁱ表示{f_a，f_b}第i维特征分量之间的距离。当y＝1，对dist1d从小到大进行排序，得到排序后的序号列表index，如式(11)所示：

当y＝0，对dist从大到小进行排序得到排序后的序号列表index，如式(12)所示：

步骤7：对于序号列表index，取前m个元素，得到{f_a，f_b}需要置零特征的位置列表subindex，如式(13)所示：

subindex＝(z¹，z²，…，zⁱ，…，z^m) (13)

其中m由式(14)所得：

步骤8：根据subindex，以对f_a进行置零操作，得到难分特征向量为例，与步骤4类似，扩大1/(1-r)倍，具体计算过程如式(15)所示。经过相同操作，可以得到f_b的难分特征向量就是丢弃了易分特征，保留了难分特征的特征向量对。

步骤9：将输入到下一个网络层，按前述的卷积层正则化约束方法DropEasy2d，以及全连接层正则化约束方法DropEasyld，继续进行网络的前向传播过程。

本发明有如下益处：

1.将深度学习网络输出特征划分为易分和难分两类特征，本发明改进了对特征随机置零的正则化方法，提出了丢弃易分特征策略，即置零易分特征的同时，保留难分特征，约束网络仅通过难分特征学习提升特征的辨别能力和网络的泛化性。

2.将易分特征丢弃策略运用到了全连接层和卷积层中，特别地通过滑窗方式找出特征图上的易分矩形区域并将其置零，解决了置零离散的状态下，网络可以根据特征图上地非零特征自动进行信息补全，导致正则化的作用减弱地问题，从而有效约束了网络的训练，进而提高网络的泛化性能。

3.本发明的方法并不涉及深度学习网络的结构更改，因此任何深度学习网络都可以不改变网络结构的情况下使用本发明的正则化方法提高网络的性能。

附图说明

图1.DropEasy2d原理示意图。

图2.DropEasyld原理示意图。

具体实施方式：

以利用深度网络做行人重识别(分类)任务为例，本发明的步骤如下，其中步骤1～步骤4对应于作用于卷积层的正则化约束方法DropEasy2d，而步骤5～步骤8对应于作用于全连接层的正则化约束方法DropEasyld。DropEasy2d和DropEasyld的原理示意图分别如图1和图2所示。

步骤1：令{x_a，x_b}表示深度学习网络的输入行人数据对；y表示输入数据对的二值标签，当y＝1，表示{x_a，x_b}为正样本对(行人身份相同)，当y＝0时，表示{x_a，x_b}是负样本对(行人身份相异)；r_h和r_w∈(0，1)，表示DropEasy2d在长和宽两个维度上的置零比率，r∈(0，1)，表示DropEasyld的置零比率。将{x_a，x_b}输入到网络中，经过卷积层输出一对多通道的特征图，分别按通道求平均，得到单通道特征图对{F_a，F_b}，式(1)和(2)所示：

其中h和w分别是{F_a，F_b}的长和宽，和分别是F_a和F_b中第j行第i列所对应的特征分量。此时可以运用DropEasy2d对特征图对{F_a，F_b}进行正则化设置。

步骤3：先按式(4)和(5)，分别得到滑窗的长和宽

步骤4：根据易分特征区域坐标列表region，对{F_a，F_b}中的特征分量分别进行置零。以对F_a的置零操作得到难分特征图为例，考虑到网络测试时并不需要使用DropEasy2d，因此需扩大1/(1-r_h*r_wr)倍，以补偿网络的训练过程相对于测试过程的数值偏差，具体计算过程如式(7)所示。经过相同操作可以得到F_b的难分特征图就是丢弃了易分特征，保留了难分特征的特征图对。

其中n是{f_a，f_b}的维数，和表示f_a和f_b的第i维特征分量。

subindex＝(z¹，z²，…，zⁱ，…，z^m) (13)

其中m由式(14)所得：

步骤8：根据subindex，以对f_a进行置零操作，得到难分特征向量为例，与步骤4类似，需扩大1/(1-r)倍，具体计算过程如式(15)所示。经过相同操作，可以得到f_b的难分特征向量就是丢弃了易分特征，保留了难分特征的特征向量对。

步骤9：将输入到下一个网络层，按前述的卷积层正则化约束方法DropEasy2d，以及全连接层正则化约束方法DropEasyld，继续进行网络的前向传播过程，直到最后一层输出对行人所属身份的分类概率。

Claims

1.基于易分特征丢弃策略的深度学习网络正则化约束方法，其特征在于，该方法具体包括以下步骤：

其中步骤1～步骤4为作用于卷积层的正则化约束方法，作用于卷积层的正则化约束方法即DropEasy2d，而步骤5～步骤8为作用于全连接层的正则化约束方法，作用于全连接层的正则化约束方法即DropEasy1d；

步骤1：令{x_a,x_b}表示深度学习网络的输入数据对；y表示输入数据对的二值标签，当y＝1，表示{x_a,x_b}为正样本对，当y＝0时，表示{x_a,x_b}是负样本对；r_h和r_w∈(0,1),表示作用于卷积层的正则化约束方法在长和宽两个维度上的置零比率；r∈(0,1)，表示作用于全连接层的正则化约束方法的置零比率；将{x_a,x_b}输入到网络中，经过卷积层输出一对多通道的特征图，分别按通道求平均，得到单通道特征图对{F_a,F_b}，式(1)和(2)所示：

其中h和w分别是{F_a,F_b}的长和宽，和分别是F_a和F_b中第j行第i列所对应的特征分量；

步骤2：对特征图对{F_a,F_b},按式(3)计算得到特征图对之间的距离dist2d：

其中|·|₁表示绝对值运算,d^j,i表示{F_a,F_b}中第j行第i列所对应特征分量之间的距离；

步骤3：先按式(4)和(5)，分别得到滑窗的长和宽

其中表示向下取整操作；然后采用从左到右，从上到下的方式对dist2d进行滑窗遍历，对落入滑窗内的dist2d元素进行相加，找到易分特征区域坐标列表region，满足式(6)：

其中(vⁱ,u^j)表示易分特征分量的坐标，sum表示对矩阵中所有元素进行相加，当y＝1时，■表示≤，；当y＝0时，■表示≥；

步骤4：根据易分特征区域坐标列表region，对{F_a,F_b}中的特征分量分别进行置零；以对F_a的置零操作得到难分特征图为例，扩大1/(1-r_h*r_wr)倍，以补偿网络的训练过程相对于测试过程的数值偏差，具体计算过程如式(7)所示；经过相同操作可以得到F_b的难分特征图就是丢弃了易分特征，保留了难分特征的特征图对；

步骤5：将输入到下一个网络层，继续进行网络的前向传播过程；当经过全连接层，则输出特征向量对{f_a,f_b}，f_a和f_b分别如式(8)和(9)所示：

其中n是{f_a,f_b}的维数，和表示f_a和f_b的第i维特征分量；

步骤6：对于特征向量对{f_a,f_b}，按式(10)计算{f_a,f_b}的特征距离dist1d：

其中dⁱ表示{f_a,f_b}第i维特征分量之间的距离；当y＝1，对dist1d从小到大进行排序，得到排序后的序号列表index，如式(11)所示：

步骤7：对于序号列表index，取前m个元素，得到{f_a,f_b}需要置零特征的位置列表subindex，如式(13)所示：

subindex＝(z¹,z²,…,zⁱ,…,z^m) (13)

其中m由式(14)所得：

步骤8：根据subindex，以对f_a进行置零操作，得到难分特征向量为例，与步骤4类似，扩大1/(1-r)倍，具体计算过程如式(15)所示；经过相同操作，可以得到f_b的难分特征向量就是丢弃了易分特征，保留了难分特征的特征向量对；

步骤9：将输入到下一个网络层，按前述的卷积层正则化约束方法DropEasy2d，以及全连接层正则化约束方法DropEasy1d，继续进行网络的前向传播过程。