CN114202065B

CN114202065B - 一种基于增量式演化lstm的流数据预测方法及装置

Info

Publication number: CN114202065B
Application number: CN202210145595.4A
Authority: CN
Inventors: 王永恒; 王超; 罗实; 刘冰洁; 李炜铭
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-06-24
Anticipated expiration: 2042-02-17
Also published as: CN114202065A

Abstract

本发明公开了一种基于增量式演化LSTM的流数据预测方法及装置，基于历史数据的初始LSTM预测模型构建；面向流式数据的增量式LSTM预测模型持续更新，进行增量式LSTM预测模型结构及参数演化；基于适应性粒子滤波的收敛加速；基于当前LSTM预测模型，进行流式数据的预测。本发明适应性好，基于新增数据持续对预测模型进行调整；调整速度快，基于适应性粒子滤波技术加速演化算法的收敛速度。基于上述优点更好地解决流数据预测中数据分布变化带来的预测准确度下降的问题。

Description

一种基于增量式演化LSTM的流数据预测方法及装置

技术领域

本发明涉及数据挖掘领域，尤其是涉及一种基于增量式演化LSTM的流数据预测方法及装置。

背景技术

近年来，流式大数据开始获得广泛的应用，例如面向互联网/移动互联网的实时个性化推荐服务，以及面向物联网的实时分析和事中决策。对流式大数据进行智能处理具有重要意义，通常越早进行数据分析和决策，得到的价值就越高。基于循环神经网络（RNN）和长短期记忆（Long short-term memory，LSTM）神经网络的时间序列数据预测模型目前已经比较成熟，对稳态数据通常可以取得很好的效果。针对非稳态的流式大数据，问题关键是如何应对数据分布随时间变化带来的模型准确度下降问题。多样性、动态变化的流式大数据预测，要求预测模型不仅能够从数据中自动学习模型结构和参数，而且能够随数据的变化进行增量式的模型结构和参数的调整，并且满足流式大数据预测的实时性要求，当前的技术都无法很好做到这一点。

目前基本没有直接适用于流式大数据的神经网络自主学习技术，但有几个密切相关的技术。一种相关技术是自组织增量学习神经网络。它是一种基于竞争学习的两层神经网络，用于在没有先验知识的情况下根据输入的数据自适应地调整局部神经元的权值以及神经元之间的连接。但目前这种方法还缺乏严格的理论证明，如何向多层神经网络扩展也是个难点问题。和本发明相关的一个方向是数据驱动的神经网络演化技术，在这种演化方法中，假设网络结构的适应度无法用打分函数直接衡量，而是需要用数据去验证，这也符合大多数流式大数据处理的情况。但目前并没有发现真正针对不断变化的流式大数据的数据驱动演化计算方法。另外一个和本发明相关的技术是在线神经网络演化和动态演化算法。在线神经网络演化直接使用在线数据（往往通过执行动作产生）来评估模型的适应度，模型的评估阶段和执行阶段的界限变得模糊，当前这类方法多用于机器人的实时控制。动态演化算法假设环境是动态变化的，因此当环境变化时演化算法需要进行调整以确保收敛到新的最优解。当前这些工作对动态演化算法进行了广泛研究，但缺少对面向流式数据的增量式演化的支持。

发明内容

为解决现有技术的不足，实现提高模型预测准确度和预测效率的目的，本发明采用如下的技术方案：

一种基于增量式演化LSTM的流数据预测方法，包括如下步骤：

S1，基于历史数据的初始LSTM预测模型构建，使用历史数据进行LSTM预测模型的设计和训练；

S2，面向流式数据的增量式LSTM预测模型持续更新，针对流式数据评估LSTM预测模型适应度，根据适应度判断是否启动演化算法进行LSTM预测模型更新，增量式演化LSTM预测模型基于演化神经网络的方法构建，但和传统方法不同的是使用持续输入的流式数据来评估模型的适应度。当数据分布发生变化时，能够适应性地执行交叉、变异和选择等操作来丰富种群的多样性，包括如下步骤：

S2.1，增量式LSTM预测模型结构及参数演化，采取增量式演化计算方法，在流式数据不断变化的情况下，寻找优化的LSTM神经网络结构及参数，并根据流式数据处理的时间要求输出当前最优模型；

S2.2，基于适应性粒子滤波的收敛加速，根据数据流多批次流式数据对应的LSTM预测模型演化过程中最优LSTM预测模型的学习结果，对新批次数据对应的最优LSTM预测模型进行预测，并通过适应性粒子滤波算法重点搜索预测区域，从而使算法快速收敛于最优LSTM预测模型，基于重采样平衡适应性粒子滤波算法中粒子的重要性和多样性之间的矛盾，根据流式数据变化对粒子数进行动态调整；把寻找最优LSTM模型的问题看做动态系统的优化问题，在优化器中采取基于应性粒子滤波预测的优化方法加速收敛，从而保证新流式数据到来后，种群向最优解收敛的速度满足系统实时性的要求；

S3，基于当前LSTM预测模型，进行流式数据的预测。

进一步地，所述LSTM预测模型包括输入层、特征提取层和回归层，输入层以时间窗口的形式输入流式时间序列数据，特征提取层为多层LSTM网络，其中每层由多个LSTM单元连接而成，对流式时间序列数据进行特征提取，回归层对LSTM网络输出的特征进行回归，得到最终的预测值。

进一步地，所述S2.1中的增量式演化计算方法，基于时间窗口法处理流式数据，数据流中第一批流式数据到达时，对计算方法进行初始化，使用遗传算法获取前K个适应度最高的LSTM预测模型并记忆其对应的适应度，然后输出当前适应度最高的一个LSTM预测模型作为当前预测模型，当后继批次的新流式数据到达时，计算方法先用新的流式数据来评估当前LSTM预测模型，当旧适应度与新适应度的差值超过阈值时，则更新模型，将当前适应度最高的K个LSTM预测模型作为初始种群启动遗传算法，使用新流式数据对适应度进行评估，从适应度最高的K个LSTM预测模型中输出最高的一个作为当前预测模型；当适应度的差值未超过阈值，则不更新模型。这里的遗传算法是数据驱动的，其适应性通过当前的数据进行评估。一般的增量式遗传算法是指种群是增量式的，而本项目中的增量式是指用于评估适应度的数据是持续变化的。自主学习体现在神经网络的结构和参数都是自动学习，并且神经元具有可塑性，也就是神经元能够根据输入的变化来改变其连接和权值。

进一步地，所述S2.2中的适应性粒子滤波算法中，将LSTM预测模型中隐藏状态作为粒子，将当前时刻增量式演化计算方法产生的最优LSTM预测模型的神经网络结构，作为新到达的测量值，根据测量值进行时间更新、测量更新，并动态调整粒子数量和重采样，重新得到M个能够跟踪最优解运动状态的粒子，根据这些粒子，可以对下一时刻的最优解进行预测。

进一步地，所述适应性粒子滤波算法，包括如下步骤：

S2.2.1，基于当前时刻粒子集随机生成M个粒子；

S2.2.2，将增量演化算法在当前时刻生成的最优LSTM预测模型作为测量值，对于任意新增的测量值，根据最优LSTM预测模型的粒子状态预测粒子新位置；

S2.2.3，对粒子进行重采样，根据衡量粒子多样性的区间熵，更新粒子的权重值或返回S2.2.1；

S2.2.4，动态调整粒子数，获取M个粒子后，在重采样前，根据粒子之间的距离进行粒子数消减，并计算粒子数消减带来的损失，根据损失调整粒子数。

进一步地，所述S2.2.2中，最优LSTM预测模型的粒子状态为

，P_t和V_t分别表示t时刻粒子的位置和速度，用于根据历史位置预测新位置，新位置P_t的预测即为两倍历史位置P_t-1与历史位置P_t-2的差。

进一步地，所述S2.2.3中，重采样是根据最优LSTM预测模型获取M个粒子，根据粒子的权重空间划分为K个区间；计算重采样权重；进行重采样，重新选择粒子；当衡量粒子多样性的区间熵大于阈值时，重新分配粒子的权重，否则返回计算重采样的权重。保证重采样时高权重粒子被高概率选中，同时增加低权重粒子被选中的概率，从而尽可能保持重要性和多样性之间的平衡。

进一步地，所述S2.2.4中，动态调整粒子数的过程中，对当前时刻第d维所有粒子进行排序，排序后计算相邻粒子之间的归一化欧氏距离，如果距离小于距离阈值λ，则从相邻粒子中去除权重小的粒子；构建误差函数，用于表示粒子数减少造成的损失，令n_s表示减少后的粒子数，对于所有n∈[n_s,M_t]，IE_t(n)超过给定的阈值α，则当前粒子数m_t太小，增加粒子数；在[M_t, M_max]之间分配一个随机值作为粒子数，其中M_max是默认的最大粒子数，相反，当存在n∈[n_s,M_t]，IE_t(n)小于给定的阈值α，则减少粒子数；在减少粒子数时，选择一个使IE_t(n)最小并满足IE_t(n)<α的n值；粒子数调大后，增大距离阈值λ，避免粒子减少操作过多；反之，当粒子数调整到较小的值后，降低距离阈值λ，以确保粒子数可以进一步减少。对于粒子数调整，希望找到一个尽量小的粒子数M，而这个值又能够满足粒子对后验概率的逼近的要求。在处理不断变化的流式数据时，这个尽量小的M值也是不断变化的，因此我们需要一种动态调整M值的方法。

进一步地，所述S2.2中，通过粒子滤波算法进行预测后，增量式演化算法根据预测搜索重点区域，此时，通过控制种群生成的多样性，以避免陷入局部最优解，种群多样性的控制，设待预测的模型中有N_v个结构和参数数据，粒子滤波对每个数据的预测都包含各自的误差，预测误差表示为

，在预测后，采用一个比例s来控制个体比例，设总种群大小为N_T，根据预测结果生成N_T×s个个体，用正则方法生成其他个体，比例按照平均误差来确定，平均误差越小，按预测结果产生的比例越大。这样既可以在遗传算法的收敛速度和种群的多样性间获得一个折中，既保证一定的个体比例去按照预测的方向搜索，又有适当的其它个体来保证种群的多样性。

一种基于增量式演化LSTM的流数据预测装置，包括一个或多个处理器，用于实现所述的基于增量式演化LSTM的流数据预测方法。

本发明的优势和有益效果在于：

本发明的一种基于增量式演化LSTM的流数据预测方法及装置，解决了非稳态流式大数据中数据分布随时间变化带来的预测模型准确度下降的问题，同时考虑流式数据预测的实时性需求，对演化过程的收敛速度进行优化，根据预测的实时性要求随时终止演化过程输出当前最优模型。

附图说明

图1是本发明的方法流程图。

图2是本发明的方法中LSTM预测模型更新的流程图。

图3是本发明的整体框架示意图。

图4是本发明中基于LSTM的序列数据预测模型结构示意图。

图5是本发明中适应性粒子滤波算法的实现逻辑图。

图6是本发明中重采样的实现逻辑图。

图7是本发明中粒子数调整的实现逻辑图。

图8是在PEMS数据集上本发明和相关方法的预测结果比较图。

图9是在LuST数据集上本发明和相关方法的预测结果比较图。

图10是本发明中装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1-图3所示，本发明的一种基于增量式演化LSTM的流数据预测方法。流式数据不断经过预处理输入增量式演化算法模块。增量式演化算法模块根据输入的新数据，持续地对预测神经网络模型进行更新，并输出更新的神经网络模型供当前阶段使用。优化器基于适应性粒子滤波方法针对流式大数据的特征对增量式进化算法进行优化。具体包括如下步骤：

S1，基于历史数据的初始LSTM预测模型构建，使用历史数据进行LSTM预测模型的设计和训练；可采用主流的自动机器学习方法实现。LSTM预测模型的总体框架如图4所示。

LSTM预测模型包括输入层、特征提取层和回归层，输入层以时间窗口的形式输入流式时间序列数据，特征提取层为多层LSTM网络，其中每层由多个LSTM单元连接而成，对流式时间序列数据进行特征提取，回归层对LSTM网络输出的特征进行回归，得到最终的预测值。基于静态历史数据，采用传统方法进行模型的超参数确定及训练。

S2，面向流式数据的增量式LSTM预测模型持续更新，针对流式数据评估LSTM预测模型适应度，根据适应度判断是否启动演化算法进行LSTM预测模型更新；增量式演化LSTM预测模型基于演化神经网络的方法构建，但和传统方法不同的是使用持续输入的流式数据来评估模型的适应度。当数据分布发生变化时，能够适应性地执行交叉、变异和选择等操作来丰富种群的多样性，包括如下步骤：

S2.1，增量式LSTM预测模型结构及参数演化，采取增量式演化计算方法，在流式数据不断变化的情况下，寻找优化的LSTM神经网络结构及参数，并根据流式数据处理的时间要求输出当前最优模型。

增量式演化计算方法，基于时间窗口法处理流式数据，数据流中第一批流式数据到达时，对计算方法进行初始化，使用遗传算法获取前K个适应度最高的LSTM预测模型并记忆其对应的适应度，然后输出当前适应度最高的一个LSTM预测模型作为当前预测模型，当后继批次的新流式数据到达时，计算方法先用新的流式数据来评估当前LSTM预测模型，当旧适应度与新适应度的差值超过阈值时，则更新模型，将当前适应度最高的K个LSTM预测模型作为初始种群启动遗传算法，使用新流式数据对适应度进行评估，从适应度最高的K个LSTM预测模型中输出最高的一个作为当前预测模型；当适应度的差值未超过阈值，则不更新模型。这里的遗传算法是数据驱动的，其适应性通过当前的数据进行评估。一般的增量式遗传算法是指种群是增量式的，而本项目中的增量式是指用于评估适应度的数据是持续变化的。自主学习体现在神经网络的结构和参数都是自动学习，并且神经元具有可塑性，也就是神经元能够根据输入的变化来改变其连接和权值。

S2.2，基于适应性粒子滤波的收敛加速，根据数据流多批次流式数据对应的LSTM预测模型演化过程中最优LSTM预测模型的学习结果，对新批次数据对应的最优LSTM预测模型进行预测，并通过适应性粒子滤波算法重点搜索预测区域，从而使算法快速收敛于最优LSTM预测模型，基于重采样平衡适应性粒子滤波算法中粒子的重要性和多样性之间的矛盾，根据流式数据变化对粒子数进行动态调整。

把寻找最优LSTM模型的问题看做动态系统的优化问题，在优化器中采取基于应性粒子滤波预测的优化方法加速收敛，从而保证新流式数据到来后，种群向最优解收敛的速度满足系统实时性的要求。

本发明把粒子滤波作为贝叶斯状态估计手段应用到演化算法，对解集进行跟踪和预测，根据预测结果将新数据对应的初始种群产生在可能的最优解附近，从而使算法快速收敛。为了适应流式数据的动态变化，把普通的粒子滤波算法改进为粒子数、重采样权值动态调整的适应性粒子滤波算法。

普通粒子滤波主要存在两个问题：（a）一个固定的粒子数M难以应对数据的不断变化；（2）重采样能够减缓粒子退化问题，但会影响粒子的多样化。针对这两个问题本发明提出适应性粒子滤波算法，前面几个步骤和普通的粒子滤波相同，已经有了可用的方法，本发明的适应性粒子滤波的关键是后面的粒子数动态调整和重采样方法。

适应性粒子滤波算法中，将LSTM预测模型中隐藏状态作为粒子，将当前时刻增量式演化计算方法产生的最优LSTM预测模型的神经网络结构，作为新到达的测量值，根据测量值进行时间更新、测量更新，并动态调整粒子数量和重采样，重新得到M个能够跟踪最优解运动状态的粒子，根据这些粒子，可以对下一时刻的最优解进行预测。包括如下步骤：

S2.2.1，基于当前时刻粒子集随机生成M个粒子；粒子滤波器使用状态空间上的M个加权随机样本（粒子）来近似状态变量的后验概率分布；

最优LSTM预测模型的粒子状态为

，P_t和V_t分别表示t时刻粒子的位置和速度，用于根据历史位置预测新位置，关系如下：

(1)

表示一小段时间，新位置P_t的预测即为两倍历史位置P_t-1与历史位置P_t-2的差。

如图5所示，算法启动、时间更新和测量更新步骤分别在算法的第2、5和6行。第 8行中的adjustParticleNumber() 是一个动态调整粒子数量的子过程。考虑到调整粒子数的计算负担，每W个时间步执行一次。重采样步骤如第 9 行所示。算法的关键问题是重采样和粒子数调整的实现，以及如何控制种群的多样性。

如图6所示，重采样是根据最优LSTM预测模型获取M个粒子，根据粒子的权重空间划分为K个区间；计算重采样权重；进行重采样，重新选择粒子；当衡量粒子多样性的区间熵大于阈值时，重新分配粒子的权重，否则返回计算重采样的权重。

具体地，设PS_t是t时刻的粒子集合，其权值范围为

，

表示权值范围的最小值，

表示权值范围的最大值，将权值范围划分为k个区间：

(2)

其中

表示权值范围的第i个区间，ρ>1表示柔性率的常数，

表示最大权值

到最小权值

的区间。随着权重值和区间大小的增加，重采样的概率增加。这种设计的目的是为了简化粒子离散度的测量，以平衡重采样中粒子的重要性和多样性之间的矛盾。

PS_t=(x₁,x₂,…x_N)是t时刻的粒子集，粒子空间分为K级，区间熵H(Pt)用于衡量粒子的多样性：

(3)

其中n_i表示区间

中的粒子数，当所有粒子都在同一区间时H(PSt)为0，当粒子分布在每个区间时H(PSt)取最大值，t时刻第i个区间内第j个粒子的归一化重采样权重

由下式计算得到：

=

(4)

=

/

(5)

其中，

表示 t时刻第i个区间内第j个粒子的重采样权重，

表示t时刻的状态观测值，

表示t时刻第i个区间内第j个粒子，

表示t时刻第i个区间的粒子，

表示概率分布，

表示从开始到t-1时刻的第i个区间内第j个粒子，

表示从开始到t-1时刻的所有状态观测值，

表示联合概率分布；

这种设计是为了保证重采样时高权重粒子被高概率选中，同时增加低权重粒子被选中的概率，从而尽可能保持重要性和多样性之间的平衡。

图6中第1步的权重空间划分基于公式（2），第2步的权重计算基于公式（4）和（5），第4步的秩熵计算基于公式（3）。

对于粒子数调整，希望找到一个尽量小的粒子数M，而这个值又能够满足粒子对后验概率的逼近的要求。在处理不断变化的流式数据时，这个尽量小的M值也是不断变化的，因此我们需要一种动态调整M值的方法。

如图7所示，动态调整粒子数的过程中，对当前时刻第d维所有粒子进行排序，排序后计算相邻粒子之间的归一化欧氏距离，如果距离小于距离阈值λ，则从相邻粒子中去除权重小的粒子；这个过程是在粒子的每个维度上执行的，

表示第d维所有粒子的排序结果，

表示t时刻第d维的第i个粒子，M_t表示t时刻的粒子数，

表示粒子相应的权重；

构建误差函数，用于表示粒子数减少造成的损失：

(6)

其中n是用来逼近

的粒子数，

表示待逼近的状态（LSTM模型的优化解），Σn是观测噪声组成的协方差矩阵，h_t(∙)是把x映射到y的函数，将IE值进行标准化以适应不同类型的数据集；

令n_s表示减少后的粒子数，对于所有n∈[n_s,M_t]，IE_t(n)超过给定的阈值α，则当前粒子数m_t太小，增加粒子数；在[M_t, M_max]之间分配一个随机值作为粒子数，其中M_max是默认的最大粒子数，相反，当存在n∈[n_s,M_t]，IE_t(n)小于给定的阈值α，则减少粒子数；在减少粒子数时，选择一个使IE_t(n)最小并满足IE_t(n)<α的n值；粒子数调大后，增大距离阈值λ，避免粒子减少操作过多；反之，当粒子数调整到较小的值后，降低距离阈值λ，以确保粒子数可以进一步减少。

如图1所示，通过粒子滤波算法进行预测后，增量式演化算法根据预测搜索重点区域，此时，通过控制种群生成的多样性，以避免陷入局部最优解，种群多样性的控制，设待预测的模型中有N_v个结构和参数数据，粒子滤波对每个数据的预测都包含各自的误差，预测误差表示为

，在预测后，采用一个比例s来控制个体比例，设总种群大小为N_T，根据预测结果生成N_T×s个个体，用正则方法生成其他个体；比率s计算如下：

(7)

比例按照平均误差来确定，平均误差越小，按预测结果产生的比例越大。这样既可以在遗传算法的收敛速度和种群的多样性间获得一个折中，既保证一定的个体比例去按照预测的方向搜索，又有适当的其它个体来保证种群的多样性。

根据预测结果进行种群生成时，其位置应该在以预测位置为均值，预测误差为标准差的正态分布的临近空间中。

S3，基于当前LSTM预测模型，进行流式数据的预测。

效果展示：

本发明利用两个数据集验证提出的增量式演化LSTM方法的有效性，包括真实数据集PEMS和模拟数据集LuST。PEMS是洛杉矶101号高速公路采集的车流公开数据集。LuST是按照卢森堡城市的实际统计特征生成的48小时交通数据。对比测试的结果如表1、图8及图9所示。其中DNN是基于深度神经网络的预测方法，LSTM是基本的LSTM预测方法，IELSTM是本发明的方法。预测错误率采用平均绝对百分比误差（MAPE），基于下式计算：

(8)

其中N为数据总数，

为实际值，

为预测值。

从表1、图8及图9可以看出，本发明的预测具有更小的误差。这个测试只是本发明的一个应用案例，对于非稳态流式时间序列数据本发明都有比传统方法更好的预测效果。

表1 不同数据集上的预测错误率对比

与前述一种基于增量式演化LSTM的流数据预测方法的实施例相对应，本发明还提供了一种基于增量式演化LSTM的流数据预测装置的实施例。

参见图10，本发明实施例提供的一种基于增量式演化LSTM的流数据预测装置，包括一个或多个处理器，用于实现上述实施例中的一种基于增量式演化LSTM的流数据预测方法。

本发明一种基于增量式演化LSTM的流数据预测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图10所示，为本发明一种基于增量式演化LSTM的流数据预测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于增量式演化LSTM的流数据预测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于增量式演化LSTM的流数据预测方法，其特征在于包括如下步骤：

S2，面向流式数据的增量式LSTM预测模型持续更新，针对流式数据评估LSTM预测模型适应度，根据适应度判断是否启动演化算法进行LSTM预测模型更新，包括如下步骤：

S2.1，增量式LSTM预测模型结构及参数演化，采取增量式演化计算方法，在流式数据不断变化的情况下，寻找优化的LSTM神经网络结构及参数，并根据流式数据处理的时间要求输出当前最优模型；所述增量式演化计算方法，基于时间窗口法处理流式数据，数据流中第一批流式数据到达时，对计算方法进行初始化，使用遗传算法获取前K个适应度最高的LSTM预测模型并记忆其对应的适应度，然后输出当前适应度最高的一个LSTM预测模型作为当前预测模型，当后继批次的新流式数据到达时，计算方法先用新的流式数据来评估当前LSTM预测模型，当旧适应度与新适应度的差值超过阈值时，则更新模型，将当前适应度最高的K个LSTM预测模型作为初始种群启动遗传算法，使用新流式数据对适应度进行评估，从适应度最高的K个LSTM预测模型中输出最高的一个作为当前预测模型；当适应度的差值未超过阈值，则不更新模型；

S2.2，基于适应性粒子滤波的收敛加速，根据数据流多批次流式数据对应的LSTM预测模型演化过程中最优LSTM预测模型的学习结果，对新批次数据对应的最优LSTM预测模型进行预测，并通过适应性粒子滤波算法重点搜索预测区域，基于重采样平衡适应性粒子滤波算法中粒子的重要性和多样性之间的矛盾，根据流式数据变化对粒子数进行动态调整；

S3，基于当前LSTM预测模型，进行流式数据的预测。

2.根据权利要求1所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述LSTM预测模型包括输入层、特征提取层和回归层，输入层以时间窗口的形式输入流式时间序列数据，特征提取层为多层LSTM网络，其中每层由多个LSTM单元连接而成，对流式时间序列数据进行特征提取，回归层对LSTM网络输出的特征进行回归，得到最终的预测值。

3.根据权利要求1所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述S2.2中的适应性粒子滤波算法中，将LSTM预测模型中隐藏状态作为粒子，将当前时刻增量式演化计算方法产生的最优LSTM预测模型的神经网络结构，作为新到达的测量值，根据测量值进行时间更新、测量更新，并动态调整粒子数量和重采样，重新得到M个能够跟踪最优解运动状态的粒子，根据这些粒子，可以对下一时刻的最优解进行预测。

4.根据权利要求3所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述适应性粒子滤波算法，包括如下步骤：

S2.2.1，基于当前时刻粒子集随机生成M个粒子；

5.根据权利要求4所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述S2.2.2中，最优LSTM预测模型的粒子状态为

，P_t和V_t分别表示t时刻粒子的位置和速度，用于根据历史位置预测新位置，新位置P_t的预测即为两倍历史位置P_t-1与历史位置 P_t-2的差。

6.根据权利要求4所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述S2.2.3中，重采样是根据最优LSTM预测模型获取M个粒子，根据粒子的权重空间划分为K个区间；计算重采样权重；进行重采样，重新选择粒子；当衡量粒子多样性的区间熵大于阈值时，重新分配粒子的权重，否则返回计算重采样的权重。

7.根据权利要求4所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述S2.2.4中，动态调整粒子数的过程中，对当前时刻第d维所有粒子进行排序，排序后计算相邻粒子之间的归一化欧氏距离，如果距离小于距离阈值λ，则从相邻粒子中去除权重小的粒子；构建误差函数，用于表示粒子数减少造成的损失，令n_s表示减少后的粒子数，对于所有n∈[n_s,M_t]，IE_t(n)超过给定的阈值α，则当前粒子数m_t太小，增加粒子数；在[M_t, M_max]之间分配一个随机值作为粒子数，其中M_max是默认的最大粒子数，相反，当存在n∈[n_s,M_t]，IE_t(n)小于给定的阈值α，则减少粒子数；在减少粒子数时，选择一个使IE_t(n)最小并满足IE_t(n)<α的n值；粒子数调大后，增大距离阈值λ；反之，当粒子数调整到较小的值后，降低距离阈值λ。

8.根据权利要求1所述的一种基于增量式演化LSTM的流数据预测方法，其特征在于所述S2.2中，通过粒子滤波算法进行预测后，增量式演化算法根据预测搜索重点区域，此时，通过控制种群生成的多样性，种群多样性的控制，设待预测的模型中有N_v个结构和参数数据，粒子滤波对每个数据的预测都包含各自的误差，预测误差表示为

，在预测后，采用一个比例s来控制个体比例，设总种群大小为N_T，根据预测结果生成N_T×s个个体，用正则方法生成其他个体，比例按照平均误差来确定，平均误差越小，按预测结果产生的比例越大。

9.一种基于增量式演化LSTM的流数据预测装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的基于增量式演化LSTM的流数据预测方法。