CN116166957A

CN116166957A - 基于lstm的数据处理方法、装置、计算机设备及介质

Info

Publication number: CN116166957A
Application number: CN202111418112.5A
Authority: CN
Inventors: 方伟伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-11-20
Filing date: 2021-11-20
Publication date: 2023-05-26

Abstract

本公开涉及机器学习技术领域，提供了基于LSTM的数据处理方法、装置、计算机设备及介质。该方法包括：获取至少一个测试数据集；基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数；将真实数据集通过目标LSTM网络进行计算，得到目标预测结果。通过上述步骤，本公开实施例可以使得本网络在非高斯噪声环境下也可以达到较高的预测精度。

Description

基于LSTM的数据处理方法、装置、计算机设备及介质

技术领域

本公开涉及机器学习技术领域，尤其涉及基于LSTM的数据处理方法、装置、计算机设备及介质。

背景技术

及时、准确的基于LSTM的数据处理是一个开放的挑战。规范的LSTM网络在很长一段时间内被认为具有捕捉时间相关性的能力，并被广泛用于基于LSTM的数据处理。然而，现有LSTM网络的训练往往以均方误差准则为指导，这种准则被准确使用的前提是数据与其预测之间的误差是高斯独立同分布的。由于数据序列内部拥有非高斯分布的噪声数据，使得均方误差准则不能较准确地进行预测，导致预测性能严重恶化。

发明内容

有鉴于此，本公开实施例提供了基于LSTM的数据处理方法、装置、计算机设备及介质，以解决现有技术中由于数据序列内部拥有非高斯分布的噪声数据，使得均方误差准则不能较准确地进行预测，导致预测性能严重恶化的问题。

本公开实施例的第一方面，提供了一种基于LSTM的数据处理方法，包括：获取至少一个测试数据集；基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数；将真实数据集通过目标LSTM网络进行计算，得到目标预测结果。

本公开实施例的第二方面，提供了一种基于LSTM的数据处理装置，包括：获取模块，被配置为获取至少一个测试数据集；训练模块，被配置为基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数；计算模块，被配置为将真实数据集通过目标LSTM网络进行计算，得到目标预测结果。

本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果至少包括：通过获取至少一个测试数据集；基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数；将真实数据集通过目标LSTM网络进行计算，得到目标预测结果，使得本网络在非高斯噪声环境下也可以达到较高的预测精度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的场景示意图；

图2是本公开实施例提供的一种基于LSTM的数据处理方法的流程图一；

图3是本公开实施例提供的另一种基于LSTM的数据处理方法的流程图二；

图4是本公开实施例提供的一种基于LSTM的数据处理装置的框图；

图5是本公开实施例提供的计算机设备的示意图。

图6是本公开实施例提供的LSTM网络的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将参考附图并结合实施例来详细说明本公开。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、服务器2以及网络3。

终端设备1可以是硬件，也可以是软件。当终端设备1为硬件时，其可以是具有显示屏且支持与服务器2通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1为软件时，其可以安装在上述的电子设备中。终端设备1可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器2可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器2可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器2可以是硬件，也可以是软件。当服务器2为硬件时，其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时，其可以实现为终端设备1提供各种服务的多个软件或软件模块，也可以实现为终端设备1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络3可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

用户可以通过终端设备1经由网络3与服务器2建立通信连接，以接收或发送信息等。具体地，首先，服务器2可以获取至少一个测试数据集。其次，服务器2可以基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数。最后，服务器2可以将真实数据集通过目标LSTM网络进行计算，得到目标预测结果(多步骤)。

需要说明的是，终端设备1、服务器2以及网络3的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种基于LSTM的数据处理方法的流程图。图2的基于LSTM的数据处理方法可以由图1的终端设备或服务器2执行。如图2所示，该基于LSTM的数据处理方法包括：

S201，获取至少一个测试数据集。

测试数据集可以指已知结果的原始数据组成的集合。作为示例，测试数据集中的数据为预设时间内通过特定路段的车辆数量，此时该测试数据集可以包括100个历史数据，该100个历史数据为某特定路段连续100天的，从早上8：00至9：00每小时通过的车辆数量。基于该100个历史数据来预测第101天从早上8：00至9：00每小时通过的车辆数量，该第101天的从早上8：00至9：00每小时通过的车辆数量为已知。需要指出的是，该数据集的数据的数量还可以为其他值，例如10个、188个或9897个等，根据需要进行设置，在此不做具体限制。另外，统计时段可以为一天的固定时段，如一天的8：00到9：00，也可以为一天的不同时段，如一天的8：00至9：00，以及9：00至10：00。该统计时段可以为1小时，也可以为1分钟、16分钟、1天或其他时间段，根据需要进行设置，在此不做具体限制。

为了达到更优秀的预测效果，可以获取至少一个测试数据集。作为示例，该至少一个测试数据集中测试数据集的数量，可以为1个、2个、3个、5个或其它数量，其中该数量为正整数。

S202，基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数。

LSTM(Long-Short-Term Memory，长短期记忆)网络是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。其中，循环神经网络(Recurrent NeuralNetwork，RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neuralnetwork)。

初始LSTM网络可以指相关参数未经过训练的LSTM网络。目标LSTM网络可以指相关参数经过数据训练后，相关参数满足预设要求的LSTM网络。

对于LSTM网络的一般设置，其损失函数采用均方误差(mean square error，MSE)准则类型的函数，均方误差准则是为了衡量两个随机向量之间的总体相似性，并在训练LSTM网络进行基于LSTM的数据处理方面起着关键作用。但值得注意的是，该准则假定预测误差服从高斯独立同分布(i.i.d)，即MSE损失对于独立且均匀分布的高斯分布是最优的。但如果数据受到非高斯噪声的干扰，LSTM的性能会严重恶化。作为一个示例，由于人工交通控制、传感器故障或意外事故，交通流数据经常与非高斯噪声混杂在一起，因此一般设置的LSTM并不能满足该交通流的实际应用。本公开实施例中的LSTM网络使用的损失函数选用无需考虑高斯分布的损失函数，该损失函数可以为现有的函数，如交叉熵函数中的SoftmaxLoss损失函数或Categorical Cross Entropy Loss损失函数，或者还可以为其他无需考虑高斯分布的损失函数。其中，SoftmaxSoftmax Loss损失函数是softmax(归一化指数函数)和cross-entropy loss组合而成的损失函数，softmax可以指(归一化指数函数)二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。另外，该损失函数也可以为自行推导出来的无需考虑高斯分布的损失函数。根据需要进行设置，在此不做具体限制。

S203，将真实数据集通过目标LSTM网络进行计算，得到目标预测结果。

真实数据集可以指实际应用中用于预测未知结果的数据组成的集合。作为示例，目标预测结果可以为待预测的预设时间内通过特定路段的车辆数量，此时该真实数据集可以包括100个历史数据，该100个历史数据为某特定路段连续100天的，从早上8：00至9：00每小时通过的车辆数量。基于该100个历史数据来预测第101天从早上8：00至9：00每小时通过的车辆数量，该第101天的从早上8：00至9：00每小时通过的车辆数量为未知数据。该真实数据集的其他设置形式可以参考上述描述测试数据集的相关内容，在此不再赘述。

目标预测结果可以指由将真实数据集通过目标LSTM网络进行计算得到的结果值。作为示例，真实数据集包括10个交通数据，将该10个交通数据代入该目标LSTM网络，预测第11个交通数据，该第11个交通数据即为该目标预测结果。需要指出的是，根据预测滞后时间的长短，基于LSTM的数据处理任务一般可分为短期预测和中长期预测。其中，短期预测可以指5-30分钟内对未来数据的预测。中长期预测可以指对超过30分钟后的数据进行预测。在本公开实施例中，我们只关注短期基于LSTM的数据处理，因此该目标预测结果也是5-30分钟内的预测交通数据。

根据本公开实施例提供的技术方案，通过获取至少一个测试数据集；基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数；将真实数据集通过目标LSTM网络进行计算，得到目标预测结果，使得本网络在非高斯噪声环境下也可以达到较高的预测精度。

在一些实施例中，初始LSTM网络的激活函数为：

其中，t指第t个单位数据，i_t指第t个输入门数据，f_t指第t个输出门数据，o_t指第t个遗忘门数据，

指单元状态向量，W指参数矩阵，x_t指第t个输入数据，h_t-1指第t-1个输出数据，b_i指i_t的偏移向量，b_f指f_t的偏移向量，b_o指o_t的偏移向量，b_C指

的偏移向量，其中，n指正整数。

请参照图6，两个箭头合在一起表示矢量相加。输入门i_t、输出门o_t、遗忘门f_t之间的关系表示为式(1)，其中i_t、o_t、f_t和

由基本神经网络生成。由于sigmoid函数的范围是从0到1，所以i_t、o_t和f_t都是非负值。参数

的范围由tanh函数确定为-1到1。

细胞状态由式(2)计算，其中c_t等于c_t-1和f_t按一定比例求和[25]。c_t-1贡献的比例由遗忘门f_t决定，而f_t的贡献度由输入门i_t控制。

隐藏态由式(3)计算，其中h_t是o_t在一定程度上的输出，其值由c_t和tanh激活函数决定。

如图1所示，最后一个单元的输出h_t通过一个全连接神经网络(fully connectedneural，FCN)，从而获得预测值，其包含前面所有t-1单元状态的信息累加。

在一些实施例中，初始LSTM网络的损失函数为：

其中，L为损失指标，i指第i个核函数，I为核函数的总数，a_i指第i个核函数的比例系数，n指第n个输入数据，N指输入数据的总数，G指核函数，σ_i指第i个核函数的核带宽，

指第n个输入数据的预测值，y_n指第n个输入数据的实际值，其中，i和n均为正整数。

具体地，LSTM通常通过用均方误差(mean square error，MSE)引导的反向传播算法更新网络参数来训练，如等式(4)所示。

其中，Δn表示第n个样本的预测误差，N是训练集中的样本总数。

在等式(4)中，当误差|Δn|＞1时，平方运算进一步放大误差。如非高斯分布的离群值将放大MSE，并随后改变网络中的参数。MSE损失使得LSTM网络容易受到业务流中的非高斯噪声的误导。在具体实施过程中，由于各种原因往往会产生非高斯噪声。在这一点上，以MSE损失为指导的规范LSTM网络在非高斯分布时不能提供准确的预测。为此，规范的LSTM网络的MSE损耗需要进一步改善。

虽然LSTM模型对时间依赖学习的能力很强，但它高度依赖于MSE标准。这种高斯独立同分布(i.i.d)假设使其不适用于含有脉冲噪声或离群点的复杂数据序列。为了解决这个问题，我们在LSTM网络中引入目标损失函数来对LSTM模型进行损失预估。自由分布的思想起源于混合相关熵，它是由最大相关熵的概念发展而来的。如公式中所定义的，两个随机变量X和Y的误差之间的相关熵是一种相似性度量，如式(5)所示。

V(X，Y)＝E[κ(X-Y)] (5)

其中E[·]表示期望算子，κ(·，·)表示Mercer核，目标预测函数可以指

在以往的基于LSTM的数据处理任务中，通常假设预测误差为高斯分布。在此，我们将预测误差的假设放宽到任意分布。预测误差表示为Δ，没有任何明确的假设。这样，相关熵的估计就表示为式(6)。

值得注意的是，核函数κ的选择对相关熵起着重要作用。如果核函数采用三角核(Triangular Kernel)，即

当d＝2时，则

退化为MSE。而式(6)中的核函数通常采用高斯核，此时得到式(6)的常见形式如式(7)所示。

其中σ表示核带宽。式(7)中的相关熵对预测误差执行负指数运算。例如，当脉冲噪声出现时，

往往非常大。在这种情况下，不管脉冲噪声有多大，相关熵

都趋于0。即相关熵对非高斯不敏感，这可以减弱网络的误判，因此通常使用

作为损失函数。然而，

只能针对特定核带宽下的噪声有较好的效果。Chen等人通过使用MCC来增强相关熵的灵活性来进一步提高相关熵的性能，如式(8)所示。

其中σ_i是每个高斯核的核带宽，α_i是每个高斯核的比例系数，满足α₁+α₂+…+α_I＝1。

为了同时考虑LSTM网络反向传播中的高斯误差和非高斯误差，提出了一种不需要任何Δ分布假设即可工作的LSTM网络，称为Δ自由分布的长短期记忆(目标-LSTM)网络。在这种LSTM网络中，我们基于混合相关熵准则采用了一种新的损耗函数，即式(9)。

的灵活性表现在：一方面，当满足I＝2，σ₁＜σ₂，σ₁→∞时，

与均方误差MSE大致相等，即MC-LSTM网络在高斯噪声环境下也有潜力保持良好的性能。另一方面，当满足I＝2，α＝1或I＝2，α＝0时，

即MC-LSTM网络在非高斯噪声环境下的性能不会差于MCC(maximum correntropy criterion)准则。

在一些实施例中，基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，包括：基于至少一个测试数据集中的每个测试数据集和目标训练策略，对初始LSTM网络进行训练，生成对应的至少一个中间参数和至少一个中间评值；从至少一个中间评值中筛选出目标评值；将与目标评值对应的中间参数确定为目标参数；将目标参数更新至初始LSTM网络，得到目标LSTM网络。

目标训练策略可以指对该初始LSTM网络训练的方法或步骤。将至少一个测试数据集中的每个测试数据集对该初始LSTM网络训练，更新该初始LSTM网络的参数，生成每个该测试数据集对应的中间LSTM网络，继而得到多个中间参数。通过对不同的中间参数进行评价，可以从多个中间参数中筛选出最优的中间参数，作为目标参数，最后得到目标LSTM网络。其中，中间LSTM网络可以指经过一个测试数据集训练后，参数更新过的LSTM网络。中间参数可以指中间LSTM网络的参数。中间评值可以指基于一些步骤对预测值和对比值进行系列公式运算，得到的相关的数据的评价数据。基于该中间评值，可以筛选出符合要求的中间评值作为目标评值，并将与目标评值对应的中间参数确定为目标参数，继而得到目标LSTM网络。

在一些实施例中，目标训练策略包括：响应于确定测试数据集对初始LSTM网络训练的次数不小于目标训练指标，终止训练；将中间LSTM网络的参数确定为中间参数；基于测试数据集、对比集和均方根误差函数式，生成目标平均差值；基于测试数据集、对比集和平均绝对百分比误差函数式，生成目标差值百分比值；基于目标生成策略、目标平均差值和目标差值百分比值，生成中间评值；或者，响应于确定目标LSTM的损失值不大于目标损失指标，终止训练；将中间LSTM网络的参数确定为中间参数；基于测试数据集、对比集和均方根误差函数式，生成目标平均差值；基于测试数据集、对比集和平均绝对百分比误差函数式，生成目标差值百分比值；基于目标生成策略、目标平均差值和目标差值百分比值，生成中间评值。

对LSTM网络训练时，需要设定一定的终止条件，当LSTM训练的步骤或结果达到该终止条件时，即停止训练。

在一些实施例中，可以将该终止条件设为当测试数据集对初始LSTM网络训练的次数不小于目标训练指标时，终止训练。该目标训练指标可以指训练的次数，该目标训练指标为大于1的正整数。作为示例，该目标训练指标可以为10、50、88、200或其他数据，根据需要进行设置，在此不做具体限制。

在另一些实施例中，可以将该终止条件设为当目标LSTM的损失值不大于目标损失指标时，终止训练。该目标损失指标可以为依据经验人为设定的数值。作为示例，该目标损失指标可以为0.2、0.01或其他数据，根据需要进行设置，在此不作具体限制。

对比集可以指实际获取的值，与通过LSTM预测的值相对应。其中，均方根误差(root mean square error，RMSE)函数式为：

平均绝对百分比误差(mean absolute percentage error，MAPE)函数式为：

其中，

可以指第n个样本的预测值，y(n)可以指第n个样本的真实值。

在一些实施例中，目标生成策略包括：基于目标平均差值和对应的第一权重，生成第一评价数据；基于目标差值百分比值和对应的第二权重，生成第二评价数据；基于第一评价数据和第二评价数据，生成中间评值。

第一权重可以指该目标平均差值对应的权重比例。第二权重可以指该目标差值百分比值对应的权重比例。第一权重和第二权重可以为人为设定的经验比例。第一评价数据可以指目标平均差值和对应的第一权重的乘积。第二评价数据可以指目标差值百分比值和对应的第二权重的乘积。中间评值可以指第一评价数据和第二评价数据的和。作为示例，目标平均差值为0.1，第一权重为40％，目标差值百分比值为0.02，第二权重为60％。则第一评价数据为0.1*40％＝0.04，第二评价数据为0.02*60％＝0.012，则该中间评值为0.04+0.012＝0.052。

在一些实施例中，目标LSTM网络的权重更新函数为：

其中，W为权重向量，ε为学习率，

为一阶矩变量，

为二阶矩变量，δ为用于数值稳定的常数(默认为10-8)。

图3是本公开实施例提供的用于短期交通流预测的方法的流程图。图3的用于短期交通流预测的方法可以由图1服务器2执行。如图3所示，该用于短期交通流预测的方法包括：

S301，获取4个车流量测试集；

其中，该4个车流量测试集可以指4个特定地点在2020年8月1日至9月1日之间，每天的8：00至9：00中每3分钟的车流量数据。

S302，获取该4个车流量测试集中的其中一个车流量测试集。

S303，响应于确定该车流量测试集对初始LSTM网络训练的次数不小于200次，终止训练。

其中，该初始LSTM网络的参数包括隐藏层、隐藏单元、批大小、输入长度和epoch。隐藏层数是初始LSTM模型的网络深度。隐藏单元是初始LSTM网络用来记忆和存储过去状态的节点数。批量大小是指在一次迭代中使用梯度下降算法优化网络参数所处理的样本数量。网络每次获知整个数据集称为一个epoch，如下表所示：

Hyperparameter	Value
		Hidden layers	1
Hidden units	256
		Batch size	32
Input length	12
		Epochs	20

我们将公式(9)中的I设为2。这意味着混合核由两个独立的高斯核控制。在这种情况下，公式(9)包括三个参数，即α，σ₁和σ₂。

S304，将中间LSTM网络的参数确定为中间参数。

S305，基于车流量测试集、对比集和均方根误差函数式，生成目标平均差值。

S306，基于车流量测试集、对比集和平均绝对百分比误差函数式，生成目标差值百分比值。

S307，基于目标生成策略、目标平均差值和目标差值百分比值，生成中间评值。

S308，重复执行S302至S307，直至该4个车流量测试集中的每个车流量测试集均完成对初始LSTM网络的训练，并得到4个中间参数和4个中间评值。其中，4个中间参数如下表所示：

测试数据集	α₁	α₂	σ₁	σ₂
					测试集1	0.6	0.4	0.2	8
测试集2	0.5	0.5	1.0	4
					测试集3	0.8	0.2	0.2	8
测试集4	0.5	0.5	0.8	4

4个目标的RMSE对应的目标平均差值和MAPE对应的目标差值百分比值分别如下表所示：

其中，RMSE的权重为0.6，MAPE的权重为0.4，经过计算，可以得到4个子集对应的中间评值为：

模型	指标	测试集1	测试集2	测试集3	测试集4
						初始LSTM	中间评值	173.15	168.56	136.66	104.466

其中，测试集1、测试集2、测试集3和测试集4代表分别代表该4个车流量测试集中不同的车流量测试集。

S309，将4个中间评值中中间评值的数值最低的中间参数，确定为目标参数。

S310，将目标参数更新至初始LSTM网络，得到目标LSTM网络。

S311，将待测车流量测试集通过目标LSTM网络进行计算，得到该待测车流量测试集的目标预测结果。

其中，待测车流量测试集可以指特定地点在特定时间段中每3分钟的车流量数据。该待测车流量测试集的目标预测结果可以指该待测车流量测试集中数据之后3分钟的车流量数据。作为示例，该待测车流量测试集为{19，35，21，...，14}，目标预测结果为28。

需要指出的是，本公开不仅可以应用于短期交通流数据，还可以应用于其它与离群点相关的领域，如智能计算和医疗信息处理等。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的基于LSTM的数据处理装置的示意图。如图4所示，该基于LSTM的数据处理装置包括：

获取模块401，被配置为获取至少一个测试数据集。

训练模块402，被配置为基于至少一个测试数据集对预设的初始LSTM网络进行训练，得到目标LSTM网络，其中，初始LSTM设有无需满足高斯分布的损失函数。

计算模块403，被配置为将真实数据集通过目标LSTM网络进行计算，得到目标预测结果。

在一些实施例中，基于LSTM的数据处理装置的激活函数为：

的偏移向量，其中，t为正整数。

在一些实施例中，基于LSTM的数据处理装置的损失函数为：

在一些实施例中，基于LSTM的数据处理装置的权重更新函数为：

其中，W为权重向量，ε为学习率，

为一阶矩变量，

为二阶矩变量，δ为用于数值稳定的常数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的计算机设备500的示意图。如图5所示，该实施例的计算机设备500包括：处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序503可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器502中，并由处理器501执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序503在计算机设备500中的执行过程。

计算机设备500可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备500可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是计算机设备500的示例，并不构成对计算机设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器501可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502可以是计算机设备500的内部存储单元，例如，计算机设备500的硬盘或内存。存储器502也可以是计算机设备500的外部存储设备，例如，计算机设备500上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器502还可以既包括计算机设备500的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。