CN115982141A

CN115982141A - 一种针对时序数据预测的特征优化方法

Info

Publication number: CN115982141A
Application number: CN202211542378.5A
Authority: CN
Inventors: 戴运桃; 王宇晴; 关昊夫; 张康慧; 王淑娟; 彭立章; 沈继红; 廉春波; 谭思超; 王博
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-12-03
Filing date: 2022-12-03
Publication date: 2023-04-18

Abstract

本发明公开了一种针对时序数据预测的特征优化方法，步骤1、获取待预测时序数据集；步骤2、使用相关性分析方法对时序数据集特征参数进行相关性计算，计算数据集各特征参数之间的相关系数；步骤3、根据步骤2得到其他特征参数与预测目标特征参数的相关系数，根据不同相关系数阈值选择得到若干特征参数子集；步骤4、将特征参数子集分别输入预先训练好的长短期记忆网络模型，输出预测目标特征参数a_s的预测值，根据各个特征参数子集对应预测值与真实值的误差得到预测目标特征参数a_s对应的最优特征子集，长短期记忆网络模型由训练时序数据集对应特征参数子集训练得到的；本发明对高维数据输入进行优化，剔除对预测无效的特征，建立最优特征子集。

Description

一种针对时序数据预测的特征优化方法

技术领域

本发明属于数据分析和预测领域，涉及一种针对时序数据预测的特征优化方法，特别是一种基于相关性分析的深度预测模型特征优化方法。

背景技术

随着科学技术的不断进步，数据的重要性越来越突出。挖掘时序数据中的隐含信息并进行数据分析具有重大的现实意义。对监测到的时间序列数据进行预测成为当前一项重要的研究内容。现如今，随着工业领域的数据复杂度与不规则性逐渐增长，传统的统计模型较难取得理想的预测效果。伴随着深度学习技术的发展，神经网络模型较广泛的被应用在数据处理中。在众多神经网络模型中，循环神经网络(RNN)由于其将“记忆”的概念引入到神经网络中，使其在处理具有时序性的数据上的性能远超其他神经网络。在其诸多变体中，长短时记忆神经网络(LSTM)解决了传统循环神经网络只有短时记忆、易产生梯度爆炸消失等问题，可以有效处理长时数据，以LSTM为例的循环神经网络近年来在各个领域的预测中都提供了更多应用和创新，因此也是时序数据预测领域的有效方法。

面对时间序列数据，一个重要的任务是如何从纷繁复杂的数据集中选择或者提取出重要的特征用于研究和处理问题。这是由于不同应用场景下的数据特征具有不同的有效性，甚至存在无效和冗余的特征。直接使用所有特征进行预测，不仅会消耗额外的存储空间，增加模型训练成本，还会因模型复杂度过高而降低预测准确率。特征选择能够在保留原特征主要信息的前提下得到其低维表示形式。基于数据驱动的预测方法一般都包含重要参数特征，这些参数对模型预测的性能有着十分重要的影响，因此模型的参数优化方法通常与建模方法搭配使用。对高维的时序数据进行特征优化后，可以得到数据中主要特征，使模型获得更好的预测精度。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种针对时序数据预测的特征优化方法，对高维数据输入进行优化，剔除对预测无效的特征，建立最优特征子集。

为解决上述技术问题，本发明的一种针对时序数据预测的特征优化方法，包括：

步骤1、获取待预测时序数据集；

步骤2、使用相关性分析方法对所述时序数据集的特征参数a₁,a₂…a_n进行相关性计算，计算数据集各特征参数之间的相关系数；

步骤3、根据步骤2得到其他特征参数与预测目标特征参数a_s的相关系数，根据不同相关系数阈值{λ0＜λ＜1}选择得到若干特征参数子集Sub_λ；

步骤4、将步骤3所述特征子集Sub_λ对应的待预测数据分别输入预先训练好的长短期记忆网络模型，输出预测目标特征参数a_s的预测值y_λ，根据不同预测值y_λ与真实值的误差得到预测目标特征参数a_s对应的最优特征子集；所述长短期记忆网络模型是按照步骤2和步骤3操作得到若干特征子集Sub_λ，然后将Sub_λ对应的训练数据分别输入网络训练得到的。

进一步的，所述长短期记忆网络模型为多输入、单输出的LSTM模型；所述长短期记忆网络模型的训练方法包括：

(1)初始化输入训练数据的批次batchsize、训练迭代次数epoch、时间序列长度sl、学习速率α；当验证集损失val_loss连续θ次迭代没有降低时，学习速率改变成α×β，但最小不低于k，其中θ，β，k为超参数，0＜β＜1；

(2)设置损失函数MAE：

其中，y_i表示样本的真实值，f(x_i)表示样本的预测值，m表示总的样本点数；

(3)将步骤3筛选得到的若干个特征子集Sub_λ对应的训练数据分别作为网络的输入进行训练，并根据损失函数梯度下降算法去更新LSTM的权重参数，直到网络训练完成。

进一步的，所述相关性分析方法为Spearman秩相关法、灰色关联分析法或最大信息系数法。

本发明的有益效果：本发明提供了一种针对时序数据预测的特征优化方法，通过对输入特征进行相关性分析，根据特征间的相关系数指标过滤筛选与预测目标相关度高的特征子集，并建立基于深度学习的预测模型进行不同特征子集预测性能的验证，根据实验结果评价指标对比不同相关性方法的特征优化效果，找出基于相关性方法的最优特征子集。

与现有技术相比，本发明针对时序数据的趋势跟踪预测研究，基于对高维输入数据进行特征优化的需求，利用相关性分析的方法对输入参数进行过滤筛选，建立针对预测目标的最优特征子集。此方法的优势在于：(1)针对时序数据预测中存在无效参数、导致网络复杂度高的问题，提出3种不同相关性分析方法进行特征优化，采取相关性系数降序排序方式剔除无关特征，并根据阈值筛选出不同维度的多个特征子集，以减小预测误差为目标建立最优特征子集。(2)在评价特征子集方面，结合预测实验验证特征优化结果，将筛选出的特征子集输入模型进行预测，根据实验结果评价指标找出每种相关性方法对应的最优特征子集，对比不同相关性方法的特征优化效果，建立针对参数预测的最优模型。

附图说明

图1为本发明对时序数据预测的特征优化方法框架示意图；

图2为本发明LSTM长短期记忆神经网络神经元结构示意图；

图3为使用MIC方法预测结果与真实数据的曲线对比图；

图4(a)为使用MIC方法预测结果与真实数据的相对误差结果图；

图4(b)为使用MIC方法预测结果与真实数据的绝对误差结果图；

图5为本发明3种相关性方法优化的预测曲线对比图。

具体实施方式

下面结合说明书附图和实施例对本发明做进一步说明。

本发明基于时序数据预测的特征选择，充分考虑工业系统故障数据的趋势跟踪预测过程出现的输入维度高、无效特征多的问题，提出了一种基于相关性分析的LSTM预测模型特征优化方法。将相关性度量基础上的特征子集筛选作为建立最优预测模型的预处理步骤，利用模型的性能来评估特征子集的优缺点，以Spearman、灰色关联分析、最大信息系数(MIC)3种不同相关性分析方法进行特征优化，剔除无关特征，并根据阈值设定筛选出不同维度的多个特征子集。建立LSTM预测模型进行预测实验验证，对比不同相关性方法的效果，根据实验结果误差找出当前预测目标对应的最优特征子集，验证所提出特征优化方法对预测精度的提升。

结合图1，本发明包括以下步骤：

步骤1：准备训练数据集：将时序数据集A作为参数预测的原始数据，对数据集A进行训练集和测试集的划分，并对全部数据进行标准化处理。

步骤2：相关性分析：选择相关性分析方法Spearman秩相关(S)、灰色关联分析(G)、最大信息系数(M)3种中的任意一种方法对数据集A的特征参数a₁,a₂…a_n进行相关性计算，计算数据集各特征参数之间的相关系数，得到系数二维矩阵。

步骤3：筛选子集：在数据集A中，针对预测目标参数a_s，根据步骤2相关性分析方法所得的相关性系数表，得出其他参数与a_s的相关性大小并进行系数阈值选取，设定不同阈值{λ|0＜λ＜1}，得到不同的相关性阈值子集Sub_λ，为后续预测实验做准备。

步骤4：构建预测模型及训练：

步骤4.1：构建多输入的单隐层长短期记忆网络(LSTM)模型，LSTM神经元内部结构及门控机制满足图2。

步骤4.2：训练LSTM预测模型，将步骤3筛选所得多个特征子集Sub_λ对应的训练数据分别作为网络的输入，将数据处理为若干个时间序列长度为sl的子集，将归一化后的若干长度为sl的子集随机打乱顺序。并根据损失函数梯度下降算法去更新LSTM的权重参数，直到网络训练完毕。

步骤5：对测试数据集，使用步骤3筛选所得相关性阈值子集Sub_λ对应的数据输入到训练完成后的LSTM模型中，通过网络的单步预测可得到预测值及预测参数曲线，计算预测值与真实值的误差，通过对比误差得出针对预测目标最优的特征子集。

下面结合具体应用和参数给出实施例：

实施例

本发明包括以下步骤：

步骤一：将工业过程故障数据作为参数预测的原始数据集A，A中存在q种故障严重程度，分别为A₁,A₂…A_q。通过不同严重程度数据的拼接形成实验的训练集A_train，对数据进行归一化以及标准化预处理，并预留出未知的严重程度A_test作为实验的测试集。

步骤二：选择Spearman秩相关(S)、灰色关联分析(G)、最大信息系数(M)3种相关性分析方法中的任意一种方法对数据集A的特征参数a₁,a₂…a_n进行相关性计算，计算各参数之间的相关系数得到系数二维矩阵。按照以下步骤分别计算各参数与预测目标参数a_s(1≤s≤n)之间的相关性大小R_s。3种方法的计算过程如下：

(1)Spearman秩相关：一种利用等级变量来评价变量间相关性的非参数指标，计算方式如下：

其中，d_k表示两个特征参数a_x、a_y间第k个数据对的位次值之差，特征a_x、a_y升序排序后的位次为d_x、d_y，则d_k＝|d_x(k)-d_y(k)|，d_x(k)、d_y(k)表示d_x和d_y中原始位次为k的样本点排序后新的位次，x,y∈[1,n]，1≤k≤m，m表示总的样本点数。

(2)灰色关联分析：基本思想是通过确定参考数列和比较数列的几何形状相似程度来判断其联系是否紧密。计算方式如下：

其中，a₀为预测目标参数即该算法下的参考数列，a₀＝(a₀(1),a₀(2),…,a₀(m))，m表示总的样本点数，比较数列为a_i＝(a_i(1),a_i(2),…,a_i(m)),i＝1,2,…,n，a′₀与a′_i表示a₀和a_i无量纲化后的数列，a_i(k)表示数列a_i的第k个样本点，a_i′(k)表示数列a′_i的第k个样本点，1≤k≤m，min()为最小值函数，max()为最大值函数，ρ为分辨系数，0＜ρ＜1。

(3)最大信息系数(MIC)：MIC以2个随机变量间的联合概率密度度量其相关程度，对于二维联合特征a_x和a_y，其样本集合记为D＝{(x,y)|x∈a_x,y∈a_y}。通过将a_x和a_y的值域分别划分为u和v个不同的区间，将样本空间离散化为u×v的网格G，进一步估计出互信息：

标准化后进一步计算不同规模网格G上的最大互信息，得到R_s_MIC：

其中，D|_G表示使用网格G划分样本集合D时引入的概率分布，log₂()表示以2为底的对数运算，p(x)和p(y)分别是a_x和a_y的经验边缘概率密度，p(x,y)是a_x和a_y的经验联合概率密度；min()为最小值函数，max()为最大值函数，B(m)为样本个数的函数。

步骤三：对预测目标参数a_s进行特征子集的筛选，根据上述3种方法所得的相关性系数表，对其他参数与a_s的相关性大小进行系数阈值选取，采取相关系数降序排序方式剔除无关特征，并设定不同阈值{λ|0＜λ＜1}，得到多个不同的特征子集Sub_λ，作为后续预测实验的输入特征。

步骤四：LSTM模型的构建及训练：

构建长短期记忆网络(LSTM)模型：搭建多输入的单隐层LSTM模型，并设置LSTM隐层神经元个数c，输出层包含1个神经元。

训练LSTM模型：将训练数据处理为若干个时间序列长度为sl的子集，将归一化后的若干长度为sl的子集随机打乱顺序，并将其中80％数量的数据集作为训练数据集，其余20％作为验证数据集。将训练数据集和验证数据集输入构建好的LSTM模型中进行训练，根据Adam优化算法去更新网络的权重参数。

具体训练包括以下步骤：

(1)初始化输入训练数据的批次batchsize、训练迭代次数epoch、时间序列长度sl、学习速率α。当val_loss连续θ次迭代没有降低时，学习速率改变成α×β，但最小不低于k，其中θ，β，k为超参数，0＜β＜1。

(2)设置损失函数MAE，计算公式如下：

其中，y_i表示样本的真实值，f(x_i)表示样本的预测值，m表示总的样本点数。

(3)将步骤三筛选所得多个特征子集Sub_λ作为网络的输入一一进行训练，并根据损失函数梯度下降算法去更新LSTM的权重参数，直到网络训练完成。

步骤五：对测试数据集A_test，使用步骤三筛选所得相关性阈值子集Sub_λ输入到训练完成后的LSTM模型中，通过网络的单步预测可得到预测值及预测参数曲线，并计算预测值与真实值的误差，通过对比不同特征子集的平均绝对误差，得出误差值最小的一组特征为当前预测目标的最优子集。

结合具体参数给出实施例，本施例数据来自核电站热工水力系统的仿真数据集，实验工况为稳压器水空间泄露，该组数据采样间隔为1s，包括24个特征参数V01—V24，将该工况的主要参数V17蒸汽发生器蒸汽出口流量作为预测目标参数，根据3种相关性分析方法将优化后不同维度的多个子集输入网络模型进行预测实验，训练前对数据进行归一化以及标准化处理。

核电站热工水力系统特征优化及预测实验结果分析：

本实验数据集所选工况稳压器水空间泄露为核系统下的故障数据，按照其严重程度不同可以分为不同的层级(设置数值为从0.0到1.0，其中1.0为最严重的故障层级)，我们以其中的V17作为预测目标参数。按照实验步骤首先使用3种相关性方法中的最大信息系数(MIC)方法对目标参数进行相关性分析和子集筛选。根据阈值的逐步递增和参数的逐步递减选取3个除全部工况参数和仅预测目标参数外的特征子集。

选取数据集中除严重程度0.55以外的工况数据集进行拼接形成训练数据集，严重程度0.55作为测试数据集进行实验，表1为对参数V17使用MIC相关性方法选取特征子集的预测结果评价指标对比，采用的误差指标包括均百分比误差、均方差、平均绝对误差、均方根误差。根据平均绝对误差值可得最优特征子集为Sub4。

依据此过程可得出3种不同相关性方法下的最优特征子集，表2为参数V17在3种方法优化下的最优特征子集预测结果对比。图3为特征参数V17使用MIC方法最优子集预测结果与真实数据的对比图，图4(a)-图4(b)为时序数据每个样本点预测结果与真实数据的相对误差和绝对误差的绝对值表示图，图5为V17基于3种相关性方法优化所得最优子集的预测曲线对比图。

表1参数V17子集筛选及实验结果指标

表2V17三种相关性方法最优子集实验结果指标

Claims

1.一种针对时序数据预测的特征优化方法，其特征在于，包括：

步骤1、获取待预测时序数据集；

2.根据权利要求1所述的一种针对时序数据预测的特征优化方法，其特征在于：所述长短期记忆网络模型为多输入、单输出的LSTM模型；所述长短期记忆网络模型的训练方法包括：

(2)设置损失函数MAE：

(3)将步骤3筛选得到的若干个特征子集Sub_λ对应的训练数据分别作为网络的输入，并根据损失函数梯度下降算法去更新LSTM的权重参数，直到网络训练完成。

3.根据权利要求1所述的一种针对时序数据预测的特征优化方法，其特征在于：所述相关性分析方法为Spearman秩相关法、灰色关联分析法或最大信息系数法。