CN110472726A

CN110472726A - 基于输出变化微分的灵敏长短期记忆方法

Info

Publication number: CN110472726A
Application number: CN201910676248.2A
Authority: CN
Inventors: 胡凯; 郑翡; 张彦雯; 卢飞宇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-19
Anticipated expiration: 2039-07-25
Also published as: CN110472726B

Abstract

本发明公开了一种基于输出变化微分的灵敏长短期记忆方法，为了提高传统的LSTM神经网络对短时间信息的反应能力，增加了增加了信息敏感能力的长短期记忆网络的一个神经单元，能够很好的增加其对于短时间信息的反应能力，提高其应用的实时性，进而能够进行更完善的实时分析，进一步分析微动作等内容，提高了应用价值。

Description

基于输出变化微分的灵敏长短期记忆方法

技术领域

本发明涉及长短期记忆网络领域，尤其涉及一种基于输出变化微分的灵敏长短期记忆方法。

背景技术

人工智能是21世纪三大重要学科之一，是国家科学、经济、民生的重要支撑。其中，长短期记忆网络(LSTM)是基于记忆的识别的重要算法，已经在很多方面包括有语义、动作、文本等多方面得到了识别，具有很好的价值。

现有的长短期记忆网络，依然存在着一个主要的问题，就是它采用长短期记忆的方式，提高了在整个视频的长时间序列中的信息的分析能力，但是彻底没有对于短时间信息的反应能力，这使得现有的长短期记忆网络只能用于事后分析，无法做到很好的实时性，以及对微动作等内容的识别。

如果能够对长短期记忆网络的结构调整，增加其对于短时间信息的反应能力，提高其应用的实时性，那么就可以很好的实时分析，更加能够分析微动作等内容，进一步提高其应用价值。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种基于输出变化微分的灵敏长短期记忆方法。

本发明为解决上述技术问题采用以下技术方案：

基于输出变化微分的灵敏长短期记忆方法，包含以下具体步骤：

步骤1)，建立LSTM神经网络的神经单元，其包含三个结构：输入门i_t,遗忘门f_t和输出门o_t，每个步长t与其对应的输入序列为X＝{x₁，x₂，…，x_t}；

步骤2)，通过遗忘门决定从神经单元状态中需要丢弃的信息：

令上一时刻的输出值为h_t-1、当前时刻的输入值x_t，将h_t-1和x_t输入到Sigmoid函数中，得到0和1之间的输出到单元状态的值，0表示全部遗忘，1表示保留全部信息，该值与单元状态相乘之后来确定舍弃信息；遗忘门的输出值f_t的计算公式为：

f_t＝σ(w_f*[h_t-1,x_t]+b_f)

其中，w_f、b_f分别为遗忘门Sigmoid函数中的权重矩阵、偏置向量，σ为Sigmoid激活函数；

步骤3)，通过输入门决定向神经单元状态中的保存信息：

将h_t-1和x_t输入到Sigmoid函数，得到输出值i_t；将h_t-1和x_t输入到tanh函数，得到输出值k_t；i_t、k_t的计算公式为：

i_t＝σ(w_i*[h_t-1,x_t]+b_i)

k_t＝tanh(w_k*[h_t-1,x_t]+b_k)

其中，w_i、w_k分别为输入门Sigmoid函数、tanh函数中的权重矩阵，b_i、b_k分别为输入门Sigmoid函数、tanh函数中偏置向量；

步骤4)，为了增加对于短时间信息的反应能力，对单元状态增加新输入即上一时刻的输出与上上一时刻的输出的差，将x_t输入至Sigmoid函数得到输出值j_t、将x_t输入至tanh函数得到输出值p_t，将j_t、p_t相乘之后加入到单元状态中，这能够增加网络对短时信息的反应能力，增加实时性；j_t、p_t的计算公式如下：

j_t＝σ(w_j*[h_t-1-h_t-2,x_t]+b_j)

p_t＝tanh(w_p*[h_t-1-h_t-2,x_t]+b_p)

其中，w_j、w_p分别为对单元状态增加新输入时Sigmoid函数、tanh函数中的权重矩阵，b_j、b_p分别为对单元状态增加新输入时Sigmoid函数、tanh函数中偏置向量；

由此，得到下一时刻的单元状态为：

C_t＝f_t*C_t-1+i_t*k_t+j_t*p_t

步骤5)，通过输出门决定从神经单元状态中的输出信息：

将h_t-1和x_t输入到Sigmoid函数，得到输出值O_t，然后，对单元状态C_t用tanh函数处理处理后乘以输出值O_t，得到传递给下一时刻的输出值h_t；O_t、h_t的计算公式为：

O_t＝σ(w_O*[h_t-1,x_t]+b_O)

h_t＝O_t*tanh(C_t)

其中，w_O、b_O分别为输出门Sigmoid函数中的权重矩阵、偏置向量；

步骤6)，采用LSTM算法中的学习算法进行学习，完成灵敏长短期记忆。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

与原有的经典LSTM方法相比，本发明增加了增加了信息敏感能力的长短期记忆网络的一个神经单元，能够很好的增加其对于短时间信息的反应能力，提高其应用的实时性，进而能够进行更完善的实时分析，进一步分析微动作等内容，提高了应用价值。

附图说明

图1是发明实施例的结构说明图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的原理是：LSTM神经网络的核心是加入了记忆模块，对当前信息学习并提取数据中间相关联的信息和规律，以此进行信息传递。LSTM神经网络的一个神经单元包含三个结构：输入门i_t,遗忘门f_t和输出门o_t，每个步长t与其对应的输入序列为X＝{x₁，x₂，…，x_t}。为了提高其对短时间信息的反应能力，本发明增加了一个类似输出微分效果的输入微分序列

本发明是增加了信息敏感能力的长短期记忆网络的一个神经单元。上一节点的状态信息从输入端c_t-1输入，每当数据进入神经单元时，会通过相应的操作来决定哪些信息需要保留。该网络的关键就是单元状态，即图中单元最上方的水平线，它将信息从上一个单元传递到下一个单元。

本发明有两条随时间传递的状态链，分别是状态h和单元状态c，h_t-1是上一时刻传入当前时刻的值，x_t为当前时刻输入值，c_t-1是上一时刻记忆单元状态值，c_t是当前时刻记忆单元状态值。

本发明公开了一种基于输出变化微分的灵敏长短期记忆方法，包含以下具体步骤：

f_t＝σ(w_f*[h_t-1,x_t]+b_f)

步骤3)，通过输入门决定向神经单元状态中的保存信息：

i_t＝σ(w_i*[h_t-1,x_t]+b_i)

k_t＝tanh(w_k*[h_t-1,x_t]+b_k)

j_t＝σ(w_j*[h_t-1-h_t-2，x_t]+b_j)

p_t＝tanh(w_p*[h_t-1-h_t-2,x_t]+b_p)

由此，得到下一时刻的单元状态为：

C_t＝f_t*C_t-1+i_t*k_t+j_t*p_t

步骤5)，通过输出门决定从神经单元状态中的输出信息：

O_t＝σ(w_O*[h_t-1,x_t]+b_O)

h_t＝O_t*tanh(C_t)

下面以把本发明应用在识别一段举起手臂的视频的识别上，来进行解释本发明的具体实施例。

如图1所示的是增加了信息敏感能力的长短期记忆网络的一个单元j和p。上一节点的状态信息从输入端c_t-1输入，每当数据进入神经单元时，会通过相应的操作来决定哪些信息需要保留。该网络的关键就是单元状态，即图中单元最上方的水平线，它将信息从上一个单元传递到下一个单元。

本实施例中，所谓的状态信息c_t-1就是整个神经网络的各个神经单元的在t-1时刻的状态，主要为它们的权重矩阵和偏置向量，具体来讲，就是对举起手臂的视频第t-1帧图片，识别出举起手臂这个动作时刻的整个神经网络的权重矩阵和偏置向量。

本实施例中，所谓h_t-1代表的是，对举起手臂的视频第t-1帧图片，识别出举起手臂这个动作结果的本身。x_t就是举起手臂的视频第t帧的图片。

与原有的经典LSTM方法相比，本发明增加了增加了信息敏感能力的长短期记忆网络的一个神经单元，能够很好的增加其对于短时间信息的反应能力，提高其应用的实时性，进而能够进行更完善的实时分析，进一步分析微动作等内容，提高了其应用价值。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于输出变化微分的灵敏长短期记忆方法，其特征在于，包含以下具体步骤：

f_t＝σ(w_f*[h_t-1，x_t]+b_f)

步骤3)，通过输入门决定向神经单元状态中的保存信息：

i_t＝σ(w_i*[h_t-1,x_t]+b_i)

k_t＝tanh(w_k*[h_t-1,x_t]+b_k)

j_t＝σ(w_j*[h_t-1-h_t-2,x_t]+b_j)

p_t＝tanh(w_p*[h_t-1-h_t-2,x_t]+b_p)

由此，得到下一时刻的单元状态为：

C_t＝f_t*C_t-1+i_t*k_t+j_t*p_t

步骤5)，通过输出门决定从神经单元状态中的输出信息：

O_t＝σ(w_O*[h_t-1,x_t]+b_O)

h_t＝O_t*tanh(C_t)