CN108319980A

CN108319980A - 一种基于gru的递归神经网络多标签学习方法

Info

Publication number: CN108319980A
Application number: CN201810112481.3A
Authority: CN
Inventors: 王磊; 翟荣安; 王毓; 王纯配; 刘晶晶; 王飞; 于振中; 李文兴
Original assignee: HRG International Institute for Research and Innovation
Current assignee: HRG International Institute for Research and Innovation
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-07-24

Abstract

本发明提供一种基于GRU的递归神经网络多标签学习方法，所述方法包括以下步骤：步骤S1：初始化系统参数θ＝(W,U,B)；步骤S2：输入样例计算各时刻RNN输出隐状态h_T，其中，样例y_i是样例x_i的多标签向量，步骤S3：计算上下文向量h_T以及输出层输出z_i；步骤S4：计算预测输出计算损失L_i，确定目标函数J；步骤S5：根据梯度下降法和BPTT算法求解θ＝(W,U,B)的梯度；步骤S6：确定学习率η，更新各权值梯度W＝W‑η·δ_W；步骤S7：判断神经网络是否达到稳定，如果是执行步骤S8；如果否，返回步骤S2，迭代更新模型参数；步骤S8：输出优化模型。本发明能充分利RNN获取样例的有效特征表示，提高多标签分类的准确率，并且反向传播时不容易出现梯度消失问题。

Description

一种基于GRU的递归神经网络多标签学习方法

技术领域

本发明涉及递归神经网络多标签学习领域，尤其涉及一种基于GRU的递归神经网络多标签学习方法。

背景技术

在机器学习领域，多标签分类在分类问题中有着重要的地位。传统的标签分类问题是从标签集合中学习样例的单个标签，这样的问题被称为二分类问题(或者文本和网络数据过滤问题)。多标签分类问题中每个样例有一组相关的标签。在解决多标签分类问题上，近年来出现了很多方法，方法基本上分为两种，一种是将问题转化为传统的单标签分类。这种方法通过多个二元分类器分别学习标签集合中的每个标签。二是调整现有的算法来适应多标签的分类。

对于序列数据的建模，基于神经网络(Neural Network)的模型已经在广播演讲识别、语言模型以及录像分类问题上取得了优异的成绩。这些模型大部分属于两类神经网络，前馈神经网络(Feedforward Neural Network)和递归神经网络(Recurrent NeuralNetwork)。递归结构的神经网络能循序渐进的表示时刻信息。递归神经网络(RecurrentNeural Network，RNN)的递归特性表现在它的某一时刻隐藏层状态依赖于前一时刻的输出状态。这种循环使模型能够存储任意时间长度的复杂信息，隐藏层状态可看作是模型的记忆单元，其结构以及展开如图1所示。

传统RNN递归隐藏层网络模块的形式比较单一，如图2所示。理论上，RNN可以学习无限长的序列信息。但是，实践证明，时间间隔越大RNN的这种学习能力就会越弱。并且这种循环结构很难训练，因为它很容易出现梯度消失和梯度爆炸。Mikolov通过梯度裁剪方法防止梯度爆炸，这种方法简单可行。这就允许这些模型可以在大的数据集上使用梯度下降法和BPTT(Back-propagation Through Time)算法训练。由于在沿时间反向传播时，它们的梯度可能呈指数衰减，因此递归神经网络依旧有梯度消失的问题。这使RNN只能处理短距离信息而忽略长时间的关联信息。

为了解决梯度消失问题，许多结构已经被提出来。其中包括长短时记忆单元(LSTM)递归神经网络。它在手写体识别以及音素分类问题上表现出色。LSTM拥有一个精密设计的结构，这种结构包含许多门。这些门控制着流向隐状态的信息的数量。这使得神经网络能记住长时间的信息。但是LSTM网络结构较复杂，这将会耗费更多的训练时间，而且容易在反向传播过程中出现梯度消失。为了解决这一问题，一种具有更简单结构的GRU结构被提出，这种结构相比LSTM更容易实现，训练也更简单。它的结构如图3所示。

现有的神经网络多标签分类不能够有效的学习样例的基本特征，实现结构复杂，并且反向传播时容易出现梯度消失问题。基于此，本发明提供一种基于GRU的递归神经网络多标签学习方法，该方法能充分利RNN获取样例的有效特征表示，提高多标签分类的准确率。GRU结构能有效地进行长时间记忆，它相比于LSTM结构更简单，并且反向传播时不容易出现梯度消失问题。

发明内容

针对现有技术的缺陷，本发明提供一种基于GRU的递归神经网络多标签学习方法，通过递归神经网络有效学习序列数据的特征，得到样例特征的表示，根据得到的表示学习样例的多标签向量。RNN的GRU结构相比LSTM更容易实现，训练也更简单，能够长时间记忆之前时刻的特征，使得得到的特征表示更精确。

为实现上述目的，本发明提供一种基于GRU的递归神经网络多标签学习方法，所述方法包括以下步骤：

步骤S1：初始化系统参数θ＝(W,U,B)，其中，W表示神经网络层与层之间连接的权值矩阵；U表示数据在输入神经网络时的权值矩阵；B表示神经网络层与层之间的偏置矩阵；

步骤S2：输入样例计算各时刻RNN输出隐状态h_t，其中，样例y_i是样例x_i的多标签向量，

步骤S3：计算上下文向量h_T以及输出层输出z_i；

步骤S4：计算预测输出计算损失L_i，确定目标函数J；

步骤S5：根据梯度下降法和BPTT算法求解θ＝(W,U,B)的梯度；

步骤S6：确定学习率η，更新各权值梯度W＝W-η·δ_W，其中，δ_W表示在神经网络反向传播时，通过梯度下降法得到的权值矩阵的偏导数；

步骤S7：判断神经网络是否达到稳定，如果是执行步骤S8；如果否，返回步骤S2，迭代更新模型参数；

步骤S8：输出优化模型。

其中，所述步骤S2进一步包括：把样例x_i做标准化处理，使其值处于[0，1]，然后将中的作为RNN在t时刻的输入值输入到隐藏层，得到隐状态h_t。

其中，所述步骤S3进一步包括：将中的每个分量作为RNN在T个时刻的T个输入值输入到隐藏层，得到一个上下文向量h_T，其中，上述公式中，符号表示矩阵之间的点乘运算。

其中，所述步骤S4进一步包括：利用上下文向量h_T计算样例x_i的多标签向量其中，第i个样例标签对的联合概率为：

L_i为：确定的目标函数J为：

其中表示假设输出层的第j个神经元的输出为 softmax层输出为真实输出为的值为0或1，λ表示尺度系数。

其中，所述步骤S6进一步包括，通过以下方法确定学习率：η＝Ae^-λn,其中n为网络训练过程中的迭代次数,1≤A≤50，0.0001≤λ≤0.001；或者，η(k)＝e^-λ(k-1),其中，0.0001≤λ≤0.001，k为迭代次数。

其中，所述步骤S8进一步包括：当确定的目标函数J最小化时，输出最优模型。

本发明提供的基于GRU的递归神经网络多标签学习方法，该方法能充分利RNN获取样例的有效特征表示，提高多标签分类的准确率。GRU结构能有效地进行长时间记忆，它相比于LSTM结构更简单，并且反向传播时不容易出现梯度消失问题。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是现有技术中展开的递归神经网络示意图；

图2是现有技术中标准RNN中的递归模块示意图；

图3是现有技术中门递归单元GRU的结构示意图；

图4是本发明中基于GRU的RNN多标签分类器示意图；

图5是本发明基于GRU的递归神经网络多标签学习方法模型参数更新流程示意图。

具体实施方式

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图4是本发明中基于GRU的RNN多标签分类器示意图，通过该多标签分类器可以获得上下文向量h_T，进而通过softmax层输出然后再利用多向量标签y_i构建第i个样例标签对的损失函数L_i，具体实现过程如下：

假设样例标签对包含N个训练样例，其中样例y_i是样例x_i的多标签向量，我们把样例x_i做标准化处理，使其值处于[0，1]。首先将x_i零均值化，再利用方差标准化，如下式：

其中μ和σ分别表示X＝{x₁,…,x_N}的均值和标准差，ε为尺度系数。

我们将作为RNN的T个时刻的输入，最后输出一个上下文向量h_T，其包含了T时刻之前的所有信息。隐藏层部分采用GRU结构，它的各个门的传播公式如下：

其中，符号表示矩阵之间的点乘运算。

最后利用上下文向量h_T预测样例x_i的多标签向量第i个样例标签对的联合概率为

其中表示假设输出层的第j个神经元的输出为 softmax层输出为真实输出为那么，第i个样例标签对的损失函数定义为log似然代价函数的形式，其表达式如下

其中的值为0或1。模型的目标函数定义为

上式中等式右边第一项为样例标签对的总损失，第二项为正则化项，其中θ为模型参数，包括权值矩阵w、u、v和偏置向量B，λ表示尺度系数。

图5是本发明基于GRU的递归神经网络多标签学习方法模型参数更新流程示意图，本方法中，通过梯度下降法和BPTT算法，根据目标函数求解模型参数，具体步骤如下：

本步骤中，本步骤中，θ＝(W,U,B)的含义是权值矩阵θ中的参数包括W、U、B、初始化系统参数θ＝(W,U,B)就是指输入W、U、B的初始值，W、U、B的初始值可以根据实际情况事先进行设定。

本步骤中，把样例x_i做标准化处理，使其值处于[0，1]，然后将中的作为RNN在t时刻的输入值输入到隐藏层，得到隐状态h_t。

步骤S3：计算上下文向量h_T以及输出层输出z_i；

本步骤中，将中的每个分量作为RNN在T个时刻的T个输入值输入到隐藏层，得到一个上下文向量h_T，其中，上述公式中，符号表示矩阵之间的点乘运算。

步骤S4：计算预测输出计算损失L_i，确定目标函数J；

本步骤中，利用上下文向量h_T计算样例x_i的多标签向量其中，第i个样例标签对的联合概率为：

L_i为：确定的目标函数J为：

步骤S5：根据梯度下降法和BPTT算法求解θ＝(W,U,B)的梯度；

本步骤中，在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一。在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数。梯度下降法的算法可以有代数法和矩阵法(也称向量法)两种表示，代数法更加容易理解，矩阵法更加的简洁。梯度下降法包括批量梯度下降法(Batch Gradient Descent)、随机梯度下降法(StochasticGradient Descent)和小批量梯度下降法(Mini-batch Gradient Descent)，批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新，常用的线性回归梯度下降算法就是批量梯度下降法。对于训练速度来说，随机梯度下降法由于每次仅仅采用一个样本来迭代，训练速度很快，但随机梯度下降法由于仅仅用一个样本决定梯度方向，导致解很有可能不是最优。对于收敛速度来说，由于随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。随机梯度下降法的更新公式为：小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷，本发明可以使用上述所描述的梯度下降法来求解θ＝(W，U，B)的梯度。

BPTT算法是神经网络中常用的一种随时间反向传播的算法，一种示例性地算法如下所示：

1：for t from T downto 1do

2：do_t←g′(o_t)·dL(z_t；y_t)/dz_t

3：db_o←db_o+do_t

4

5

6dz_t←e′(z_t)·dh_t

7：

8：db_h←db_h+dz_t

9：

10：

11：end for

12：Return dθ＝[dW_hv，dW_hh，dW_oh，db_h，db_o，dh₀].

有了步骤S1-S4中得到的数据之后，就可以根据上面描述的梯度下降法和BPTT算法求解θ＝(W，U，B)的梯度。

本步骤中，学习率η一般人为确定，根据神经网络学习效果来调整，一般根据神经网络学习误差调整，随着误差逐渐减小，学习率随之减小，比如下次的学习率可以是上次的十分之一。

具体地，学习率也可以通过以下公式确定：η＝Ae^-λn,其中n为网络训练过程中的迭代次数,1≤A≤50，0.0001≤λ≤0.001；

或者，η(k)＝e^-λ(k-1),其中，0.0001≤λ≤0.001，k为迭代次数。

本步骤中，神经网络达到稳定一般根据神经网络的输出和真实的标签之间的总体误差确定，随着训练epoch数增加(epoch表示使用一次完整的训练数据集)，当误差曲线最后趋于平稳，并且误差值小于给定的阈值则认为神经网络学习是有效的。

步骤S8：输出优化模型。

本步骤中，当确定的目标函数J最小化时，输出最优模型。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于GRU的递归神经网络多标签学习方法，其特征在于，所述方法包括以下步骤：

步骤S3：计算上下文向量h_T以及输出层输出z_i；

步骤S4：计算预测输出计算损失L_i，确定目标函数J

步骤S5：根据梯度下降法和BPTT算法求解θ＝(W,U,B)的梯度；

步骤S8：输出优化模型。

2.根据权利要求1所述的方法，其特征在于，所述步骤S2进一步包括：把样例x_i做标准化处理，使其值处于[0，1]，然后将中的作为RNN在t时刻的输入值输入到隐藏层，得到隐状态h_t。

3.根据权利要求2所述的方法，其特征在于，所述步骤S3进一步包括：将中的每个分量作为RNN在T个时刻的T个输入值输入到隐藏层，得到一个上下文向量h_T，其中，上述公式中，符号表示矩阵之间的点乘运算。

4.根据权利要求1所述的方法，其特征在于，所述步骤S4进一步包括：利用上下文向量h_T计算样例x_i的多标签向量其中，第i个样例标签对的联合概率为：

L_i为：

确定的目标函数J为：

其中表示假设输出层的第j个神经元的输出为j＝1,…,C，softmax层输出为真实输出为k＝1,…,C，的值为0或1，λ表示尺度系数。

5.根据权利要求1所述的方法，其特征在于，所述步骤S6进一步包括，通过以下方法确定学习率：η＝Ae^-λn,其中n为网络训练过程中的迭代次数,1≤A≤50，0.0001≤λ≤0.001；或者，η(k)＝e^-λ(k-1),其中，0.0001≤λ≤0.001，k为迭代次数。

6.根据权利要求1所述的方法，其特征在于，所述步骤S8进一步包括：当确定的目标函数J最小化时，输出最优模型。