CN106022392A

CN106022392A - 一种深度神经网络样本自动取舍的训练方法

Info

Publication number: CN106022392A
Application number: CN201610389949.4A
Authority: CN
Inventors: 金连文; 杨维信; 刘曼飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-10-12
Anticipated expiration: 2036-06-02
Also published as: CN106022392B

Abstract

本发明公开的一种深度神经网络样本自动取舍的训练方法，其特征在于，包括如下步骤：A、样本的领域知识计算；B、计算所有样本的复选概率；C、小批量训练集样本自动取舍；D、网络参数和样本配额更新。本发明的训练方法，能使学习效果不好的样本出现的频率变高，学习效果好的样本出现的频率变低，把一些坏样本逐渐移除，以减少对深度神经网络的学习效果的破坏，高效地实现了对训练样本的合理利用。

Description

一种深度神经网络样本自动取舍的训练方法

技术领域

本发明涉及深度学习与人工智能领域，特别涉及一种深度神经网络样本自动取舍的训练方法。

背景技术

联机手写汉字识别方法大概可以分为传统的方法和基于机器学习的方法。脱离传统方法的框架后，基于深度学习的联机手写汉字识别近年来在学术界和工业界都表现出了卓越的性能。由于大规模训练数据的出现，深度神经网络的结构不断的被复杂化随之带来了计算复杂和参数存储消耗的代价；也有新的训练方法被不断提出例如Dropout、Dropconnect、在训练过程中逐渐减小学习率等。

Leitner提出学习方盒的方法是应用间断循环学习的例子，但是实现很简单。现有技术都忽略了在训练样本中有一些样本本身就是有问题的样本，可能是给错了标签、或者样本本身就是易混淆的、或者有一些其他的样本破坏；而这些坏样本对深度神经网络学习性能的影响，是现有技术不可消除的。

因此有必要提供一种新的深度神经网络样本自动取舍的训练方法来满足需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种深度神经网络样本自动取舍的训练方法。

本发明的目的通过以下的技术方案实现：

一种深度神经网络样本自动取舍的训练方法，包括以下步骤：

当深度神经网络不收敛时，A、样本的领域知识计算；B、计算所有样本的复选概率；C、小批量训练集样本自动取舍；D、网络参数和样本配额更新。

优选地，所述步骤A具体为：

A1、样本的变形转换；

A2、样本的非线性归一化；

A3、样本添加虚拟笔；

A4、计算样本的路径积分特征图；

A5、计算样本的八方向特征图。

优选地，所述步骤A1中，样本的变形变换是指仿射变换，包括整体的拉伸、缩放、旋转、平移，还有局部的抖动；

所述步骤A2中，样本的非线性归一化是基于线条密度均衡的样本形状修正；

所述步骤A3中，添加虚拟笔是在一个联机手写样本的相邻两个笔画之间用直线连接前一个笔画的最后一个点和后一个笔画的第一个点；

所述步骤A4中，样本的路径积分特征图是将联机手写汉字的每一个笔画当做一条有限长度的路径，计算其路径积分特征并在三阶特征后截断，前3阶分别可以得到1、2、4共7张路径积分特征图；

所述步骤A5中，八方向特征图是将手写汉字的笔画的方向在二维平面米字型的八个方向上做映射，得到八张不同的图像。

优选地，所述步骤B具体为：

B1、计算总配额值；

B2、计算样本的复选概率分布。

优选地，所述步骤B1中，样本更新中编号为i的样本x_i的配额值用表示，总配额值为是单样本配额值的累加；

所述步骤B2中，用每个样本的配额除以得到的总配额值得到复选概率，并把所有的复选概率按照样本编号顺序列成在t时的复选概率分布P^t；

优选地，所述步骤C具体为：C1、更新时间序列t；

C2、从训练集X中选出一个小批量训练集。

优选地，所述步骤C1中，时间序列t在现在t的值的基础上加1再赋值给t，将此结果作为最新的时间序列号；

所述步骤C2中，基于复选概率分布P^t，抽取一个小批量训练集。首先基于复选概率分布P^t，从训练集X中抽取一个小批量训练集。具体为，从区间[0,1]中随机选取一个数p′，令样本标号值i＝1；当p′>0时，用p′循环依次减去复选概率分布P^t的每一个元素，直到p′≤0；选取最后一个减去的值所代表的样本放进小批量训练集。重复以上步骤，直到选取到足量的样本组成一个小批量训练集。

优选地，所述步骤D具体为：

D1、读取配额更新方程激活参数

D2、配额更新方程计算；

D3、更新配额参数。

优选地，所述步骤D1中，深度神经网络前向传播时，在最后的softmax层时计算得到一组含有k个值的向量，其中深度神经网络的分类结果是该组向量中的最大值属于其标签所在的类的概率为深度神经网络在正向传播结束后进行反向传播和网络参数更新；

所述步骤D2中，根据softmax层的输出和将样本分为三个组，然后根据样本所属分组计算配额更新方程的代数值

所述步骤D3中，更新样本配额是用上次的样本配额乘以配额更新方程结果，并将计算结果作为样本的更新后的配额。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明能使学习效果不好的样本出现的频率变高，学习效果好的样本出现的频率变低，把一些坏样本逐渐移除，以减少对深度神经网络的学习效果的破坏，高效地实现了对训练样本的合理利用。

2、本发明用于大规模手写文字识别的深度神经网络样本自动取舍的训练方法，主要包括样本的领域知识计算、计算所有样本的复选概率、小批量训练集样本自动取舍、网络参数和样本配额更新。其中小批量训练集样本自动取舍、样本配额更新是本发明的创新重点。具体来讲，有以下几个部分：

(1)小批量训练集样本自动取舍中对样本进行分组，可以筛选出深度神经网络已经学习的很好的样本属于易识别类M₁组、学习效果还不是很理想的样本属于易混淆类M₂组；M₁中的样本其被再选入微样本集的概率很低，M₂中的样本被再选入训练集的概率很高，使得深度神经网络的训练过程更加高效；达到相同的测试识别率的时间成本比不使用样本自动取舍的方法节省了约30％。

(2)小批量训练集样本自动取舍中，噪声严重或者标签错误的样本属于噪声类M₃组；该类样本会被尽量少的选入小批量训练集，防止训练过程受到噪声影响，使深度神经网络学习到的参数更加准确。

(3)每次微样本集的迭代训练中，只有该微样本集的配额会更新；由于在每个迭代间隔，微样本集的需要更新的配额很少，但是大集合具有和训练集等数量级的大小故更新需要很长的时间，所以微样本集的更新会比整个训练集快很多；微样本集更新可以对网络学习迭代间隔进行温和的调整从而反复复习记忆每个样本；大样本集合具有更强的侵略性，会导致很多比较早就能训练的比较好的样本在被从训练集移除前被淘汰掉，并且其对噪声更敏感。

(4)使用本发明中的训练样本自动取舍方法的深度神经网络，可以对训练样本数据库进行自动帅选，学习效果也有很大提升；在对数据库CASIA-OLHWDB1.0、CASIA-OLHWDB1.1和ICDAR 2013competition DB的训练与测试中，测试的识别率分别达到了97.33％，97.06％和97.51％，都是目前发表的能达到的最高的识别率。

附图说明

图1为本发明所述一种深度神经网络样本自动取舍的训练方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明主要解决大规模手写汉字识别的深度神经网络训练中的对于小批量训练集选取的高效策略，采用了样本分组和样本配额更新的方法，建立了一套对于大规模数据库的训练样本选择方法。本发明对训练样本的质量没有很大的要求，即使有部分样本不清晰或者标签不清楚，仍然很大程度地发挥对训练集的容错性。

参见图1，本发明包括以下四个过程：A、样本的领域知识计算；B、训练集样本的复选概率计算；C、小批量训练集样本自动取舍；D、网络参数和样本配额更新。具体来说，首先要进行样本的变形转换，将转换后的样本做非线性归一化，再添加虚拟笔将每个样本中相邻的笔画连接起来，然后计算样本的路径积分特征图和八方向特征图。接下来是深度神经网络的训练。将所有样本的配额累加得到总配额值，用每个样本的配额除以得到的总配额值，得到所有样本的复选概率分布，更新时间序列t，并从训练集X中选出一个小批量训练集。微样本集在深度神经网络中的正向传递后每一个样本在softmax层的都输出一组表示其属于每个类别的概率大小的值，然后进行反向传递和深度神经网络参数更新。利用softmax层的输出可以更新样本的配额更新。重复循环深度神经网络的训练过程直到网络收敛。本发明的样本自动取舍功能一般来说用于大训练集效果较好。

以下分别对本发明的主要步骤进行详细说明：

步骤B计算所有样本的复选概率

步骤B计算样本自动取舍概率的目的是为了更好地选择合适的样本进行多次的高效迭代训练。初始训练时，所有的样本具有相等的概率被选入小批量训练集进行深度神经网络的学习和训练。所述配额是每个样本的一个属性，该属性值的大小影响了该样本被选入微样本训练集的概率。

B1、样本配额累加

样本配额累加可以得到总配额值。样本更新中编号为i的样本x_i的配额值用表示，总配额值为：

Z^{t} = Σ_{i = 1}^{m} q_{i}^{t} - - - (1)

其中m是所有的训练样本总量，t表示在第t次更新配额；每进行一次深度神经网络正向传播和反向传播后，t的值都进行一次更新。

B2、计算样本自动取舍概率分布

用每个样本的配额除以得到的总配额值，得到所有样本的复选概率分布。

所有的复选概率按照样本编号顺序列成在t时的复选概率分布P^t，即：

P^{t} = {(q_{1}^{t} / Z^{t}, ..., q_{m}^{t} / Z^{t})}^{T} - - - (2)

其中的每个概率值的大小满足

步骤C小批量训练集样本自动取舍

C1、更新时间序列t

时间序列t在现在t的值的基础上加1再赋值给t，即：

t←t+1 (3)

将此结果作为最新的时间序列号。

C2、选取小批量训练集

基于所述步骤B2中的复选概率分布P^t，从训练集X中抽取一个小批量训练集。具体为：

(1)从区间[0,1]中随机选取一个数p′，令样本标号值i＝1；

(2)当p′＞0时，循环计算：

p^{'} &LeftArrow; p^{'} - p_{i}^{t} / Z^{t};

i←i+1；

(3)当p′≤0时，选取编号为i样本x_i放进小批量训练集。

重复以上步骤(1)(2)(3)，直到选取到足量的样本组成一个小批量训练集。

步骤D网络参数和样本配额更新

更新微样本集的每个样本的配额是基于softmax层的输出结果。softmax的输出是仅由当前深度神经网络决定的，配额是由当前网络训练参数和目前的配额值逐渐调整的。识别效果比较好的样本每次被选入小的训练集合进行训练都能表现的比较好，故具有较低的配额值。

D1、读取配额更新方程激活参数

深度神经网络正向传播时，在最后的softmax层时计算得到一组含有k个值的向量，其中深度神经网络的分类结果是该组向量中的最大值属于其标签所在的类的概率为深度神经网络在正向传播结束后进行反向传播和网络参数更新。

D2、配额更新方程计算；

根据步骤softmax层输出的和将样本分为三个组，具体为：当或者时，样本属于噪声类M₃组；当时，样本属于易混淆类M₂组；对于其他的样本属于易识别类M₁组；其中T₁和T₂是人工设定与有关的阈值，并且取值0<T₁<T₂<1；然后根据样本所属分组计算配额更新方程的代数值其中样本i正向传播在softmax层得到的预测类的概率设为其所属类的概率为p_i，定义样本i的样本偏差为δ_i，即：

δ_{i} = {\hat{p}}_{i} - p_{i}, (0 < δ_{i} \leq 1) - - - (4)

Δ是与δ_i有关的阈值，如果δ_i比Δ大就表示该样本是干扰严重的噪声样本。的定义方式可以有多种，我们列出来比较实用的两种，如下面的和

方案1：

f_{1} (p_{i}^{t}) = \{\begin{matrix} 1 - \exp (- {αp}_{i}^{t}) & 0 \leq p_{i}^{t} < T_{1} \\ 1 - \exp (- β (1 - 2 T_{1} - δ_{i}^{t})) & T_{1} \leq p_{i}^{t} \leq T_{2} a n d Δ \leq δ_{i}^{t} \leq 1 - 2 T_{1} \\ 1 - \exp (- γ (1 - p_{i}^{t})) & T_{2} < p_{i}^{t} \leq 1 \\ 1 / q_{i}^{t - 1} & o t h e r w i s e \end{matrix} - - - (5)

其中α，β和γ表示斜率因子，斜率因子越大，方程曲线就越陡峭，样本的配额值变化就越迅速。

方案2：

其中L_h和U_h分别表示分段函数中的分段上下界，α_1h，α_2h，α_3h表示分段更新函数中第h层的更新因子。在公式(5)和(6)中，前两个表达式用于M₃训练组，第三个表达式用于M₁，最后一个用于M₂。因为M₂组中是一些易混淆样本，我们固定相关的表达式使配额为1，会被多次复选进行再训练。

D3、更新配额参数。

更新样本配额是用上次的样本配额乘以配额更新方程结果

q_{i}^{t} &LeftArrow; q_{i}^{t - 1} f (p_{i}^{t}) - - - (7)

并将计算结果作为样本的配额。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种深度神经网络样本自动取舍的训练方法，其特征在于，包括如下步骤：

A、样本的领域知识计算；

B、计算所有样本的复选概率；

C、小批量训练集样本自动取舍；

D、网络参数和样本配额更新。

2.根据权利要求书1所述深度神经网络样本自动取舍的训练方法，其特征在于，所述步骤A具体为：

A1、样本的变形转换；

A2、样本的非线性归一化；

A3、样本添加虚拟笔；

A4、计算样本的路径积分特征图；

A5、计算样本的八方向特征图。

3.根据权利要求2所述深度神经网络样本自动取舍的训练方法，其特征在于：

步骤A1中，所述样本的变形转换是指仿射变换，包括整体的拉伸、缩放、旋转、平移，以及局部的抖动；

步骤A2中，所述样本的非线性归一化是基于线条密度均衡的样本形状修正；

步骤A3中，所述样本添加虚拟笔是在一个联机手写样本的相邻两个笔画之间用直线连接前一个笔画的最后一个点和后一个笔画的第一个点；

步骤A4中，所述计算样本的路径积分特征图是将联机手写汉字的每一个笔画当做一条有限长度的路径，计算其路径积分特征并做三阶截断，前3阶分别得到1、2、3共7张路径积分特征图；

步骤A5中，所述计算样本的八方向特征图是将手写汉字的笔画的方向在二维平面米字型的八个方向上做映射，得到八张不同的图像。

4.根据权利要求书1所述深度神经网络样本自动取舍的训练方法，其特征在于，所述步骤B具体为：

B1、将所有样本的配额累加得到总配额值；

B2、用每个样本的配额除以得到的总配额值，得到所有样本的复选概率分布。

5.根据权利要求4所述深度神经网络样本自动取舍的训练方法，其特征在于：

所述步骤B1具体为：样本更新中编号为i的样本x_i的配额值用表示，总配额值为是单样本配额值的累加；

所述步骤B2具体为：用每个样本的配额除以得到的总配额值得到复选概率，并把所有的复选概率按照样本编号顺序列成在t时的复选概率分布P^t。

6.根据权利要求书1所述深度神经网络样本自动取舍的训练方法，其特征在于，所述步骤C具体为：

C1、更新时间序列t；

C2、从训练集X中选出一个小批量训练集。

7.根据权利要求6所述深度神经网络样本自动取舍的训练方法，其特征在于：

所述步骤C1具体为：时间序列t在现在t的值的基础上加1再赋值给t，将此结果作为最新的时间序列号；

所述步骤C2为：基于复选概率分布P^t，从训练集X中抽取一个小批量训练集，具体为，从区间[0,1]中随机选取一个数p′，令样本标号值i＝1；当p′>0时，用p′循环依次减去复选概率分布P^t的每一个元素，直到p′≤0；选取最后一个减去的值所代表的样本放进小批量训练集；重复以上步骤，直到选取到足量的样本组成一个小批量训练集。

8.根据权利要求1所述深度神经网络样本自动取舍的训练方法，其特征在于，所述步骤D具体为：

D1、读取配额更新方程激活参数；

D2、配额更新方程计算；

D3、更新配额参数。

9.根据权利要求8所述深度神经网络样本自动取舍的训练方法，其特征在于：

所述步骤D1具体为：深度神经网络前向传播时，在最后的softmax层时计算得到一组含有k个值的向量，其中深度神经网络的分类结果是该组向量中的最大值属于其标签所在的类的概率为深度神经网络在正向传播结束后进行反向传播和网络参数更新；

所述步骤D2具体为：根据softmax层的输出和将样本分为三个组，然后根据样本所属分组计算配额更新方程的代数值

所述步骤D3具体为：更新样本配额是用上次的样本配额乘以配额更新方程结果，并将计算结果作为样本的更新后的配额。

10.根据权利要求书9所述深度神经网络样本自动取舍的训练方法，其特征在于，步骤D2中，所述根据softmax层的输出和将样本分为三个组，具体为：

当或者时，样本属于噪声类M₃组；当时，样本属于易混淆类M₂组；对于其他的样本属于易识别类M₁组；其中T₁和T₂是人工设定与有关的阈值，并且取值0<T₁<T₂<1；样本i正向传播在softmax层得到的预测类的概率设为其所属类的概率为p_i，定义样本i的样本偏差为δ_i：

δ_{i} = {\hat{p}}_{i} - p_{i},

其中，0<δ_i≤1，Δ是与δ_i有关的阈值。