CN108122033B

CN108122033B - 神经网络的训练方法和通过该训练方法获得的神经网络

Info

Publication number: CN108122033B
Application number: CN201611079401.6A
Authority: CN
Inventors: 沙浩
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2022-09-16
Anticipated expiration: 2036-11-30
Also published as: CN108122033A

Abstract

本发明提供了一种神经网络的训练方法和神经网络。该方法包括：对输入的一组训练样本重复进行多次运算处理，每次运算处理包含：对于每个激活节点，根据选择概率值，随机地从线性运算和非线性运算之中选择出第一选择结果，来进行第一次网络训练，以获得第一训练损失值；对于每个激活节点，根据选择概率值，随机地从线性运算和非线性运算之中选择出第二选择结果，来进行第二次网络训练，以获得第二训练损失值；当第一训练损失值小于第二训练损失值时，增加每个感兴趣节点的第一选择结果的概率值；以及当第二训练损失值小于等于第一训练损失值时，增加每个感兴趣节点的第二选择结果的概率值。本发明通过引入随机性，提高了神经网络的精度。

Description

神经网络的训练方法和通过该训练方法获得的神经网络

技术领域

本发明涉及深度学习领域，更具体地，涉及一种神经网络的训练方法和通过该训练方法获得的神经网络。

背景技术

深度学习，即深度神经网络，是近年来的研究热点之一。深度神经网络与传统神经网络相比没有大的理论改进，最主要的特点是增加了网络的深度或者说增加了网络的层数，同时更得力于大规模数据与高性能的计算硬件的普及。具有标志性的事件是，深度学习在2013年的ImageNet图片分类比赛中对于非深度学习方法取得压倒性优势，从而获得研究者的广泛关注。近年来深度学习方法在图像、语音、自然语言处理等领域均取得了突破性发展。在图像领域，对于图片分类任务，深度神经网络已经取得接近人眼的分辨力；在语音识别、语音合成等语音信号处理领域，深度神经网络已经完全取代了传统的算法；在自然语言处理，深度神经网络从2015年开始，已经处于研究热点地位。另外，深度神经网络，也越来越多的在通用人工智能领域取得应用，如DeepMind公司设计的AlphaGo已经可以打败人类棋手。

目前工程实践中针对不同应用，深度神经网络大致可以分为三种类型。第一种，卷积神经网络(CNN)，卷积神经网络主要用于图像处理领域，可以获得图像中局部像素之间的特定特征。第二种，循环神经网络(RNN)，可以获得时序信号上的特定特征，主要用于自然语言处理、语音处理等领域。第三种，策略网络(Policy network)，可以根据当前的策略状态来生成当前策略下的最优策略。对于这些各种不同的应用，各种不同的网络，从理论与程序设计上又最终都可以归结为传统的经典单层神经网络。

在工程应用上，经典单层神经网络可以归结为输入值、权值系数、线性激活值和非线性激活值。其中，输入值、线性激活值和非线性激活值均为向量，以及权值系数为矩阵。

在经典单层神经网络的训练阶段，首先，通过权值系数对输入的一组训练样本(即，输入值)进行线性运算，以获得线性激活值；然后，利用非线性函数对获得的线性激活值进行非线性运算，以获得非线性激活值，从而得到训练损失值，即非线性激活值和输入值之间的差值。通过多次重复运算，不断地调整经典单层神经网络的权值系数的值，以使得训练样本的训练损失值变小，从而达到拟合数据的目的。从直观上理解，小的训练损失值往往代表着更佳的网络性能。

图1显示了传统的经典单层神经网络的结构示意图。为了简化，图1仅显示了具有三个激活节点1-3的简单的经典单层神经网络，并且忽略了神经网络的偏置输入。

在图1所示的经典单层神经网络中，向量X₁、X₂、X₃构成输入值

表示输入到经典单层神经网络中的一组训练样本；向量Y₁、Y₂、Y₃构成线性激活值

其中向量Y₁表示激活节点1的线性激活值，向量Y₂表示激活节点2的线性激活值，以及向量Y₃表示激活节点3的线性激活值；向量O₁、O₂、O₃构成非线性激活值

其中向量O₁表示激活节点1的非线性激活值，向量O₂表示激活节点2的非线性激活值，以及向量O₃表示激活节点3的非线性激活值。

假设权值系数W为：

按照下述公式(1)，来计算线性激活值

上述公式(1)可以被具体展开为：

W₁₁*X₁+W₂₁*X₂+W₃₁*X₃＝Y₁ (2)

W₁₂*X₁+W₂₂*X₂+W₃₂*X₃＝Y₂ (3)

W₁₃*X₁+W₂₃*X₂+W₃₃*X₃＝Y₃ (4)

然后，利用sigmoid函数，按照下述公式(5)来计算非线性激活值

上述公式(5)可以被具体展开为：

sigmoid(Y₁)＝O₁ (6)

sigmoid(Y₂)＝O₂ (7)

sigmoid(Y₃)＝O₃ (8)

图1所示的经典单层神经网络，可以被视为各种深度神经网络的基本运算单元。诸如CNN、RNN等的各种复杂的深度神经网络都可以被转换为这种基本运算单元。

在传统的经典单层神经网络的基础上，为了进一步改进的性能，本发明提出了一种改进的神经网络的训练方法以及通过该训练方法获得的神经网络，以进一步改进神经网络的性能。

发明内容

本发明提出了一种神经网络的训练方法以及通过该训练方法获得的神经网络。通过本发明的训练方法获得的神经网络具有更强的非线性表达能力，并且带有随机性。

根据本发明的一个方面，提供一种神经网络的训练方法，所述训练方法包括：

将一组训练样本输入到所述神经网络中，并且对输入的所述训练样本重复进行多次运算处理，每次运算处理包含以下步骤：

对于所述神经网络中的每个激活节点，根据所述每个激活节点的选择概率值，随机地从线性运算和非线性运算之中选择出所述每个激活节点的第一选择结果，并且根据所述每个激活节点的所述第一选择结果，来对所述训练样本进行第一次网络训练，以获得第一训练损失值，其中所述每个激活节点的所述选择概率值包括选择所述线性运算的概率值和选择所述非线性运算的概率值，并且选择所述线性运算的概率值和选择所述非线性运算的概率值之和等于1；

对于所述每个激活节点，根据所述每个激活节点的所述选择概率值，随机地从所述线性运算和所述非线性运算之中选择出所述每个激活节点的第二选择结果，并且根据所述每个激活节点的所述第二选择结果，来对所述训练样本进行第二次网络训练，以获得第二训练损失值；

将所述第一训练损失值与所述第二训练损失值进行比较；

当所述第一训练损失值小于所述第二训练损失值时，将所述第一选择结果与所述第二选择结果不同的激活节点确定为感兴趣节点，并且以相等的增加值，增加每个所述感兴趣节点的所述第一选择结果的概率值，以更新所述每个激活节点的所述选择概率值；以及

当所述第二训练损失值小于等于所述第一训练损失值时，将所述第一选择结果与所述第二选择结果不同的所述激活节点确定为所述感兴趣节点，并且以相等的所述增加值，增加每个所述感兴趣节点的所述第二选择结果的概率值，以更新所述每个激活节点的所述选择概率值；

其中，所述每个激活节点的所述选择概率值的初始值被设定成选择所述线性运算的概率值等于选择所述非线性运算的概率值，并且更新后的所述每个激活节点的所述选择概率值将被用于下一次运算处理。

进一步地，所述增加值在0.01～0.0001的范围内。

进一步地，所述非线性运算采用Sigmoid函数。

进一步地，所述非线性运算采用tanh函数。

根据本发明的另一个方面，提供一种神经网络，所述神经网络通过采用本发明的训练方法来获得，并且在使用所述神经网络时，对于所述神经网络中的所述每个激活节点，采用所述线性运算和所述非线性运算之中概率值高的运算。

本发明通过增加神经网络中的每个激活节点的非线性表达能力，并且为神经网络中的每个激活节点引入随机性，来提高神经网络的精度。

附图说明

图1显示了传统的经典单层神经网络的结构示意图；

图2显示了根据本发明实施例的单层神经网络的结构示意图；

图3显示了根据本发明实施例的训练方法中的一次运算处理的流程图；

具体实施方式

下面将参考附图描述根据本发明的各种实施例。

图2显示了根据本发明实施例的单层神经网络的结构示意图。与图1中显示的传统的经典单层神经网络相类似，为了简化，图2仅显示了具有三个激活节点1-3的简单的单层神经网络，并且忽略了神经网络的偏置输入。本领域的技术人员可以理解的是，激活节点的数量并不局限于这里给出的三个激活节点，而可以是任何数量。

在图2所示的本发明的神经网络中，向量X₁、X₂、X₃构成输入值

表示输入到本发明的神经网络中的一组训练样本；向量Y₁、Y₂、Y₃构成激活值

其中向量Y₁表示激活节点1的激活值，向量Y₂表示激活节点2的激活值，以及向量Y₃表示激活节点3的激活值。

在图2中，虽然只显示了一组训练样本由三个向量X₁、X₂、X₃构成，但是本领域的技术人员可以理解的是，构成一组训练样本的向量数量并不局限于三个，而可以是任何数量。

下面将参考图3并结合图2来描述根据本发明实施例的神经网络的训练方法。

在根据本发明实施例的神经网络的训练方法中，首先，将一组训练样本输入到神经网络中，并且接着，对输入的训练样本重复进行多次运算处理。要进行的运算处理的次数可以被预先任意设定。一般来说，进行的运算处理的次数越多，获得的神经网络的精度相对越高。

图3显示了根据本发明实施例的训练方法中的一次运算处理的流程图。

如图3所示，首先，在步骤S301中，对于神经网络中的每个激活节点，根据每个激活节点的选择概率值，随机地从线性运算和非线性运算之中选择出每个激活节点的第一选择结果，并且根据每个激活节点的第一选择结果，来对训练样本进行第一次网络训练，以获得第一训练损失值。其中，每个激活节点的选择概率值包括选择线性运算的概率值和选择非线性运算的概率值，并且选择线性运算的概率值和选择非线性运算的概率值之和等于1。

假设神经网络中共有N个激活节点。对于每个激活节点，均可以随机地从两种运算方法中选择出一种运算方法来计算激活值。一种运算方式为线性运算Y_N(1)，该线性运算Y_N(1)与图1中所示的传统的经典单层神经网络中的线性运算相同。另一种运算方式是非线性运算Y_N(2)。

对于第N个激活节点，按照第N个激活节点的选择概率值，随机地从线性运算Y_N(1)和非线性运算Y_N(2)中，选择出一种运算方法来计算第N个激活节点1的激活值Y_N，并且选择出的那种运算方法将被记为第N个激活节点的第一选择结果C_N。C_N是向量。

第N个激活节点的选择概率值包括选择线性运算Y_N(1)的概率值P_N以及选择非线性运算Y_N(2)的概率值1-P_N。在进行第一次运算处理时，P_N的初始值为0.5，即选择线性运算Y_N(1)的概率值等于选择非线性运算Y_N(2)的概率值。

下面以图2中所示的神经网络为例进行详细说明。

假设权值系数W为：

对于激活节点1，按照激活节点1的选择概率值，随机地从由下述公式(9)表示的线性运算Y₁(1)和由下述公式(10)表示的非线性运算Y₁(2)中，选择出一种运算方法来计算激活节点1的激活值Y₁，并且选择出的那种运算方法将被记为激活节点1的第一选择结果C₁：

W₁₁*X₁+W₂₁*X₂+W₃₁*X₃＝Y₁(1) (9)

f(W₁₁*X₁)+f(W₂₁*X₂)+f(W₃₁*X₃)＝Y₁(2) (10)

激活节点1的选择概率值包括选择线性运算Y₁(1)的概率值以及选择非线性运算Y₁(2)的概率值。其中，选择线性运算Y₁(1)的概率值为P₁，选择非线性运算Y₁(2)的概率值为1-P₁。

同样地，对于激活节点2，按照激活节点2的选择概率值，随机地从由下述公式(11)表示的线性运算Y₂(1)和由下述公式(12)表示的非线性运算Y₂(2)中，选择出一种运算方法来计算激活节点2的激活值Y₂，并且选择出的那种运算方法将被记为激活节点1的第一选择结果C₂：

W₁₂*X₁+W₂₂*X₂+W₃₂*X₃＝Y₂(1) (11)

f(W₁₂*X₁)+f(W₂₂*X₂)+f(W₃₂*X₃)＝Y₂(2) (12)

激活节点2的选择概率值包括选择线性运算Y₂(1)的概率值以及选择非线性运算Y₂(2)的概率值。其中，选择线性运算Y₂(1)的概率值为P₂，选择非线性运算Y₂(2)的概率值为1-P₂。

同样地，对于激活节点3，按照激活节点3的选择概率值，随机从由下述公式(13)表示的线性运算Y₃(1)和由下述公式(14)表示的非线性运算Y₃(2)中，选择出一种运算方法来计算激活节点3的激活值Y₃，并且选择出的那种运算方法将被记为激活节点1的第一选择结果C₃：

W₁₃*X₁+W₂₃*X₂+W₃₃*X₃＝Y₃(1) (13)

f(W₁₃*X₁)+f(W₂₃*X₂)+f(W₃₃*X₃)＝Y₃(2) (14)

激活节点3的选择概率值包括选择线性运算Y₃(1)的概率值以及选择非线性运算Y₃(2)的概率值。其中，选择线性运算Y₃(1)的概率值为P₃，选择非线性运算Y₃(2)的概率值为1-P₃。

在上述公式(10)、(12)和(14)中，f表示所采用的非线性函数。在本发明中，非线性运算中所采用的非线性函数可以是各种常用的非线性函数。例如，可以采用sigmoid函数、tanh函数等。

sigmoid函数的形式为：

tanh函数形式为：

根据每个激活节点的第一选择结果，来对训练样本进行第一次网络训练，以获得第一训练损失值。

接着，在步骤S302中，对于每个激活节点，根据每个激活节点的选择概率值，随机地从线性运算和非线性运算之中选择出每个激活节点的第二选择结果，并且根据每个激活节点的第二选择结果，来对训练样本进行第二次网络训练，以获得第二训练损失值。

步骤S302中的处理与步骤S301中的处理相同。也即是说，对于第N个激活节点，按照第N个激活节点的选择概率值，再次随机地从线性运算Y_N(1)和非线性运算Y_N(2)中，选择出一种运算方法来计算第N个激活节点1的激活值Y_N，并且选择出的那种运算方法将被记为第N个激活节点的第二选择结果C′_N。

根据每个激活节点的第二选择结果，来对训练样本进行第二次网络训练，以获得第二训练损失值。

接着，在步骤S303中，将第一训练损失值与第二训练损失值进行比较。

当第一训练损失值小于第二训练损失值时(步骤S303中的“是”)，在步骤S304中，将第一选择结果C_N与第二选择结果C′_N不同的激活节点确定为感兴趣节点，并且以相等的增加值，增加每个感兴趣节点的第一选择结果C_N的概率值，以更新每个激活节点的选择概率值。

当感兴趣节点的第一选择结果C_N为线性运算时，增加P_N值。当感兴趣节点的第一选择结果C_N为非线性运算时，减少P_N值。

当第二训练损失值小于等于第一训练损失值时(步骤S303中的“否”)，在步骤S305中，将第一选择结果C_N与第二选择结果C′_N不同的激活节点确定为感兴趣节点，并且以相等的增加值，增加每个感兴趣节点的第二选择结果C′_N的概率值，以更新每个激活节点的选择概率值。

当感兴趣节点的第二选择结果C′_N为线性运算时，增加P_N值。当感兴趣节点的第二选择结果C′_N为非线性运算时，减少P_N值。增加值可以在0.01～0.0001的范围内。

更新后的每个激活节点的选择概率值将被用于下一次运算处理。

在通过本发明的训练方法获得的神经网络的实际使用阶段，不再采用随机选择运算的模式，而是采用固定运算的模式。也就是说，对于第N个激活节点，如果P_N大于0.5，则选择线性运算，否则选择非线性运算。

另外，相对于图1所示的传统的经典单层神经网络而言，由于本发明所提出的神经网络对Y_N的计算方法进行了改进，因此，可以去掉O_N的计算(如图2所示)，也可以不去掉O_N的计算。在去掉O_N的计算的神经网络结构中，在深度神经网络中，可以采用直接连BN(BatchNormalization)层的形式。

虽然经过对本发明结合具体实施例进行描述，对于本领域的技术技术人员而言，根据上文的叙述后作出的许多替代、修改与变化将是显而易见。因此，当这样的替代、修改和变化落入附后的权利要求的精神和范围之内时，应该被包括在本发明中。

Claims

1.一种神经网络的训练方法，其特征在于，所述训练方法包括：

将所述第一训练损失值与所述第二训练损失值进行比较；

2.如权利要求1所述的训练方法，其特征在于，所述增加值在0.01～0.0001的范围内。

3.如权利要求1或2所述的训练方法，其特征在于，所述非线性运算采用Sigmoid函数。

4.如权利要求1或2所述的训练方法，其特征在于，所述非线性运算采用tanh函数。

5.一种神经网络，其特征在于，所述神经网络通过采用如权利要求1-4中任一项所述的训练方法来获得，并且在使用所述神经网络时，对于所述神经网络中的所述每个激活节点，采用所述线性运算和所述非线性运算之中概率值高的运算。