CN114580747A

CN114580747A - 基于数据相关性和模糊系统的异常数据预测方法及系统

Info

Publication number: CN114580747A
Application number: CN202210212459.2A
Authority: CN
Inventors: 张少杰; 杨朝旭; 荣海军; 张涛; 刘馨媛; 陶思宇
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-03

Abstract

一种基于数据相关性和模糊系统的异常数据预测方法及系统，方法包括利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率；根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率，生成每种方法对应的概率向量，融合每种方法的概率向量并求解出数据相关性分析结果；实时接收数据并根据数据相关性分析结果建立实时数据集；在线正则化处理实时数据集，将处理后的实时数据集作为输入，通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据；利用预测数据在线调整自适应距离阈值，判断数据的状态，分析数据的变化趋势，提前预判未来出现的异常数据。本发明能够实时预测未来数据并判断数据状态，学习速度快。

Description

基于数据相关性和模糊系统的异常数据预测方法及系统

技术领域

本发明属于复杂装备数据在线预测技术领域，具体涉及一种基于数据相关性和模糊系统的异常数据预测方法及系统。

背景技术

信息与互联网技术的发展将人类带入了大数据时代，大数据正在深刻地影响人类社会的发展。在现实背景下，许多数据彼此之间具有一定的相关性，如果单独对每个数据进行分析，分析方法过于孤立，不能充分体现数据所包含的信息。因此，合理有效地进行数据相关性分析和数据降维处理已经成为当前的研究热点。实际的数据通常具有时间相关性，因为其非线性和非稳定性特点导致数据的预测以及状态判断仍有很大的难度，所以提前预测数据并分析出数据的变化趋势，从而可以预防和避免危险事件的发生，具有非常重要的现实意义。

现有的异常数据预测方法及系统所应用的数据相关性分析Pearson、Spearman和Kendall分析方法都有各自的局限性。其中，Pearson相关系数要求数据总体呈现正态分布，所以无法处理异常数据点，并且不能描述非线性关系；Spearman相关系数对数据的要求没有Pearson相关系数严格，只要两个变量的观测值成对出现，就可以使用Spearman相关系数进行研究；Kendall系数用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。Spearman相关系数和Kendall系数都可以描述简单的非线性关系，但是它们都只利用了数据的排序信息而忽略了数据的内在信息，因而其描述的相关性不够准确。综上所述，仅仅通过单一的数据相关性方法所得到的分析结果并不能充分体现数据之间的相关性；其次，现有的异常数据预测方法及系统采用的预测方法主要包括统计学习方法和机器学习预测方法。统计学习方法主要包括指数平滑法和自回归积分移动平均预测等方法。这类方法仅通过历史数据序列构建数学模型，导致模型简单、参数单一，并不能达到理想的预测效果。传统的机器学习预测方法主要包括BP神经网络、支持向量机(SVM)、循环神经网络(RNN)等方法。其中，BP神经网络在训练过程中需要不断反向调整权重，所以计算量大，学习速度慢；支持向量机训练时间长且只适合小批量样本数据；RNN在训练过程中容易出现梯度消失的问题，导致其在反向传播的过程中无法学习，即它只有短期记忆，在时序数据预测中无法准确地对数据进行长期的预测。另外，上述机器学习方法均是离线训练数据，无法满足系统实时性和快速性的需求。

发明内容

本发明的目的在于针对上述现有技术中的问题，提供一种基于数据相关性和模糊系统的异常数据预测方法及系统，通过融合多种数据相关性分析方法的结果，充分体现数据之间的相关性，并且能够实时预测未来数据以及判断数据状态。

为了实现上述目的，本发明有如下的技术方案：

第一方面，提供一种基于数据相关性和模糊系统的异常数据预测方法，包括：

利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率；

根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率，生成每种方法对应的概率向量，融合每种方法的概率向量并且求解出数据相关性分析结果；

实时接收数据并根据数据相关性分析结果建立实时数据集；

在线正则化处理实时数据集，以消除不同数据类型的量纲影响；

将在线正则化处理后的实时数据集作为输入，通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据；

利用预测数据在线调整自适应距离阈值，判断数据的状态，分析数据的变化趋势，提前预判未来出现的异常数据。

作为优选，所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。

作为优选，所述融合每种方法的概率向量并且求解出数据相关性分析结果的步骤包括：

计算Pearson、Spearman和Kendall分析方法下的基本概率向量m_pe、m_sp和m_ke三者之间的欧式距离d_ij，1≤i，j≤3；

按下式计算第i个判断途径下的权重因子S_i：

按下式根据权重因子S_i计算基本概率向量m_i的融合权值w_i：

按下式根据融合权值w_i计算融合概率向量m_i′：

式中，m′_i包括融合后相关概率m_fp，融合后无关概率m_ip，融合后无法判断概率m_np；

根据经验条件，若m_fp＞0.9，判定数据相关，否则不相关。

作为优选，所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括：

计算出每个因变量yi包括自身在内的所有相关性自变量x，i＝1，…，N；

利用k时刻自变量的值x_k和在k时刻之前的两个历史时刻自变量x_k-2、x_k-1以及k+1时刻的因变量t_k+1构造数据集，所述数据集表达式为t_k+1＝f(x_k-2，x_k-1，x_k)；

式中，x_k＝[x_1k，x_2k…，x_nk，t_k]^T，n是目标值t_k+1的相关自变量个数；

x_ik(i＝1，…，n)是目标值t_k+1的第i个自变量k时刻的值；

t_k表示k时刻因变量的值；

t_k+1表示(k+1)时刻因变量的目标值；

k为当前时刻，N为因变量总个数。

作为优选，所述在线正则化处理实时数据集，消除不同数据类型的量纲影响的步骤包括：

对于k时刻自变量的值x_k，数据在线正则化处理计算表达式如下：

其中，

和ζ_k分别是数据k时刻的迭代均值和迭代标准差，x_stk是k时刻正则化后的数据；

所述迭代均值按下式进行计算：

所述迭代方差按下式进行计算：

式中，

是数据(k-1)时刻的迭代均值，

是数据(k-1)时刻的迭代方差。

作为优选，所述在线模糊极限学习机算法的数学模型如下：

式中，x是TSK模糊模型的输入集合，

是TSK模糊模型的预测输出值，L是模糊规则个数，β_i是输出层权重，G(x；c_i，a_i)代表隐藏层的输出，c_i与a_i是随机产生的隶属度函数参数；

根据FIS与SLFN的等效性，按下式得到具有L个模糊规则的FIS的数学模型：

式中，x_st是经过正则化处理后的自变量数据集，t_st是经过正则化处理后的目标值数据集；

对于TSK模糊模型，后件参数β_i是输入变量的线性组合，表达式如下：

式中，x_ste是在输入向量x_sy前增加单位向量，从而构成扩展向量

q_i是存在于第i个模糊规则中的TSK模糊模型的参数矩阵，如下式所示：

故，对于TSK模糊模型下所述具有L个模糊规则的FIS的数学模型为下式：

缩写为：

HQ＝T

式中，H是模糊规则正则化后的隐藏层输出矩阵，Q是TSK模型的参数矩阵；

表达式分别如下所示：

作为优选，所述在线模糊极限学习机算法包含初始化和在线预测两个阶段；

初始化阶段，使用总行数为N₀的训练数据集

进行初始化学习；

初始化阶段具体包括以下过程：

正则化训练数据集η₀；

随机分配隶属度函数参数(c_i，a_i)，i＝1，…，L；

按下式计算TSK模型的隐藏层输出矩阵H₀：H₀＝H(c₁，…，c_L，a₁，…a_L；x₁，...，x_N0)；

估计初始参数矩阵

令k＝0；

在线预测阶段，使用第N₀行之后的在线数据集η＝{(x_i，t_i)|x_i∈Rⁿ，t_i∈R^m，i＝N₀+1，…}实时迭代模型参数P_k+1和Q^(k+1)；在线预测阶段具体包括以下过程：

在线正则化处理每次接收到的自变量数据x_k并计算得到x_stk；

按下式计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵H_k+1：

H_k+1＝H(c₁，…，c_L，a₁，…a_L；x_stk)；

利用公式

计算下一时刻的预测值

读取下一时刻的真实目标值t_k+1，并且对目标值t_k+1正则化得到t_stk+1，随后按下式求出与预测值

的误差

T_k+1＝[t_stk+1]^T；

按下式更新参数矩阵P_k+1和Q^(k+1)：

其中，P_k与Q^(k)均是第k时刻的参数矩阵；

令k＝k+1，继续返回在线预测阶段进行在线预测。

作为优选，所述判断数据的状态包括以下步骤：首先，计算出第(k+1)时刻的预测值

并且对预测值

进行反正则化变换推导出原来的量纲值

然后，使用量纲值

与k时刻的原量纲值t_k以及过去(k-1)时刻原量纲值t_k-1一起判断出k时刻的数据变化状态。

作为优选，所述数据的状态分为上升、下降、波动、振荡以及稳定这5种状态，判别条件分别如下：

上升条件：

下降条件：

波动条件：

振荡条件：

稳定条件：

式中，d_kn是判断k时刻数据的自适应距离，求解方法如下：

按下式依次求解t_k-1、t_k和

之间的差值并组成距离向量d_k：

d_k＝[d_1k，d_2k]，d_1k＝|t_k-t_k-1|，

按下式利用迭代距离均值

和

求解出自适应距离d_kn：

第二方面，提供一种基于数据相关性和模糊系统的异常数据预测系统，包括：

数据相关概率计算模块，用于利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率；

概率向量生成及融合模块，用于根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率，生成每种方法对应的概率向量，融合每种方法的概率向量并且求解出数据相关性分析结果；

实时数据集建立模块，用于实时接收数据并根据数据相关性分析结果建立实时数据集；

正则化处理模块，用于在线正则化处理实时数据集，以消除不同数据类型的量纲影响；

实时预测模块，用于将在线正则化处理后的实时数据集作为输入，通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据；

数据分析与预判模块，用于利用预测数据在线调整自适应距离阈值，判断数据的状态，分析数据的变化趋势，提前预判未来出现的异常数据。

相较于现有技术，本发明至少具有如下的有益效果：

高维数据相关性分析复杂，现有的数据相关性分析方法各有局限，并不能充分体现数据之间的相关性，而且传统的统计学习预测精度低，传统机器学习算法预测数据的计算量大，运算速度慢，难以保证实际情况下系统实时性需求。本发明是一种基于数据相关性和模糊系统的异常数据预测方法，针对上述问题，本发明融合了多种数据相关性分析方法的结果，综合了各自分析方法的优点，因此更能充分体现数据之间的相关性。同时，相比其他传统的机器学习算法如BP神经网络、支持向量机(SVM)以及循环神经网络(RNN)等，本发明采用了在线模糊极限学习机算法，先随机分配隶属函数的参数，然后通过在线训练和学习数据确定相应的后件参数，从而避免了传统机器学习算法重复训练的过程，不仅可以取得相似甚至更好的预测效果，而且极大地提高了学习速度，在运算量减少的情况下，本发明可以处理任何有界非恒定分段连续隶属函数，算法的泛化能力更强。最后，本发明还通过在线调整自适应距离阈值辅助判断数据的状态，并分析数据的变化趋势，提前预判未来出现的异常数据，从而降低系统风险。本发明能够应用在能源、航天等诸多领域，具有非常广阔的应用前景。

附图说明

图1本发明基于数据相关性和模糊系统的异常数据预测方法流程示意图；

图2本发明数据相关性分析流程图；

图3本发明模糊极限学习机算法处理流程图；

图4本发明实施例无人机飞行高度的预测及状态判断结果图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

请参阅图1，本发明提出的一种基于数据相关性和模糊系统的异常数据预测方法，先对数据做离线的相关性分析并且计算出相关性分析结果。然后开始实时接收在线数据，并且根据相关性分析结果实时生成数据集模型。生成的数据集需要进行在线正则化预处理以消除不同数据之间量纲的影响，随后将处理后的数据集输入到在线模糊预测系统中开始实时预测，输出预测数据。最后综合历史数据、现在数据和未来数据三者判断现在数据的状态和变化趋势。如果数据始终在发送，就会一直重复在线处理数据的过程，直至数据发送完毕。

实施例1

本发明基于数据相关性和模糊系统的异常数据预测方法具体包括以下步骤：

步骤一：利用Pearson、Spearman和Kendall等数据相关性分析方法分别计算出历史数据之间的数据相关概率；

步骤二：首先根据步骤一中3种相关性分析方法计算的数据相关概率，推导出每种分析方法的数据无关以及无法判断概率，并生成各自方法对应的概率向量，然后融合3种概率向量并且求解出数据最终的相关性分析结果；

步骤三：实时接收数据并且根据步骤二求解出的相关性分析结果建立实时数据集模型t_k+1＝f(x_k-2，x_k-1，x_k)，获得实时数据集；

步骤四：在线正则化处理实时数据集；

步骤五：将步骤四中在线正则化处理后的实时数据集作为在线模糊预测系统的输入，通过在线模糊极限学习机算法实时输出下一时刻的预测数据；

步骤六：利用步骤五的实时预测数据在线调整自适应距离阈值，并且判断数据的状态，分析数据的变化趋势。

在一种可行的实施方式中，步骤一所述的数据相关性分析Pearson、Spearman和Kendall方法都是用来反映两个变量相关程度的统计量，具体如下：

Pearson相关系数ρ_X.Y的计算公式为：

上述公式中，(X_i，Y_i)是任意两个变量X和Y的第i个值，

为两个变量X和Y的均值。Pearson相关系数ρ_X.Y取值在[-1，1]之间。

Spearman相关系数，通常也被称为斯皮尔曼秩相关系数。秩为原始数据的排序，所以斯皮尔曼秩相关系数本质在于根据原始数据的排序位置进行求解，它的计算公式如下：

在具体的计算过程中，Spearman相关系数首先需要对两个变量(X，Y)的数据进行排序(统一用升序或者降序)，并得到两个元素排行集合X′、Y′。排行集合中的元素x_i、y_i分别为X_i在X中的排行以及Y_i在Y中的排行。将集合X′、Y′中的元素对应相减得到一个排行差分集合d，其中d_i＝x_i-y_i，1≤i≤n。n是变量的个数。

Spearman相关系数特点规律如下：若变量之间具有严格单调递增关系，则二者的Spearman相关系数为1，若变量之间具有严格单调递减关系，则二者的Spearman相关系数为-1；取0则表示变量之间没有相关关系。

Kendall相关系数是一个用来衡量两个随机变量相关性的统计值。假设两个变量X和Y中的对应元素组成一个元素对集合XY，其包含的元素为(X_i，Y_i)(1≤i≤N)。当集合XY中任意两个元素(X_i，Y_i)与(X_j，Y_j)的排行相同时(也就是当出现情况1：X_i＞X_j且Y_i＞Y_j或者情况2：X_i＜X_j且Y_i＜Y_j)，这两个元素就被认为是一致的。当出现情况3：X_i＞X_j且Y_i＜Y_j或者情况4：X_i＜X_j且Y_i＞Y_j，这两个元素被认为是不一致的。设一致数对总数为C，不一致数对总数为D。由此可以推导出全部数据的数对共有

种组合，即

Kendall相关系数τ的计算公式如下：

Kendall相关系数特点规律如下：

当τ为1时，表示两个随机变量拥有一致的等级相关性；当τ为-1时，表示两个随机变量拥有完全相反的等级相关性；当τ为0时，表示两个随机变量是相互独立的。

在一种可行的实施方式中，步骤二的具体过程如下：

由步骤一得到3种相关性分析系数结果之后，推导出无关以及无法判断概率，并生成每种判断途径下的概率向量。以Pearson相关系数的概率向量m_pe为例，相关、不相关和无法判断概率分别是：|m_pe|，(1-|m_pe|-0.03)，0.03。其中|m_pe|为Pearson判断途径下相关结果概率，(1-|m_pe|-0.03)为Pearson判断途径下不相关结果概率，0.03为无法判断结果概率。

得出3种途径的概率向量之后，对其融合并且求解出数据最终的相关性分析结果，融合过程如下所示：

1)计算Pearson、Spearman和Kendall相关系数下的基本概率向量m_pe、m_sp和m_ke三者之间的欧式距离d_ij(1≤i，j≤3)；

2)计算第i个判断途径下的权重因子S_i：

3)根据S_i计算基本概率向量m_i的融合权值w_i：

4)根据融合权值w_i来计算融合概率向量m_i′：

其中m′_i包括融合后相关概率m_fp，融合后无关概率m_ip，融合后无法判断概率m_np；

5)根据经验条件，若m_fp＞0.9，判定数据相关，否则不相关。

更进一步的，步骤三要根据步骤二的数据分析结果建立实时的数据集，过程具体如下：

通过步骤二可以计算出每个因变量y_i(i＝1，…，N)包括自身在内的所有相关性自变量x，随后利用k时刻自变量的值x_k和在k时刻之前的两个历史时刻自变量x_k-2，x_k-1以及(k+1)时刻的因变量t_k+1构造数据集，数据集表达式为t_k+1＝f(x_k-2，x_k-1，x_k)。

其中，x_k＝[x_1k，x_2k…，x_nk，t_k]^T，n是目标值t_k+1的相关自变量个数，x_ik(i＝1，…，n)是目标值t_k+1的第i个自变量k时刻的值，t_k表示k时刻因变量的目标值，t_k+1表示(k+1)时刻因变量的目标值，k为当前时刻，N为因变量总个数。

在一种可能的实施方式中，步骤四需要消除步骤三中不同数据量纲的影响，因此需要对数据在线正则化处理，处理过程如下所示：

以k时刻自变量的值x_k为例，数据在线正则化公式如下：

其中，

和ζ_k分别是数据k时刻的迭代均值和迭代标准差，x_stk是k时刻正则化后的数据。

更进一步的，迭代算法如下所示：

所述迭代均值的计算表达式如下：

所述迭代方差的计算表达式如下：

是数据(k-1)时刻的迭代均值，同理，

是数据(k-1)时刻的迭代方差。

在一种可行的实施方式中，步骤五采用在线模糊极限学习机算法(OS-Fuzzy-ELMAlgorithm)对数据实时预测，具体过程如下：在线模糊极限学习机算法(OS-Fuzzy-ELMAlgorithm)是专门处理函数逼近和分类的算法。它的原理是先随机分配隶属函数的参数，然后通过在线训练和学习数据确定相应的后件参数。它的数学模型如下所示：

式中，x是TSK模糊模型的输入集合，

是TSK模糊模型的预测输出值，L是模糊规则个数，β_i是输出层权重，G(x；c_i，a_i)代表隐藏层的输出，c_i与a_i是随机产生的隶属度函数参数。

根据FIS与SLFN的等效性，从而产生了具有L个模糊规则的FIS的数学模型：

x_st是正则化处理后的自变量数据集，t_st是经过正则化处理后的目标值数据集。

由于，对于TSK模糊模型，后件参数β_i是输入变量的线性组合，表达式如下：

式中，x_ste是在输入向量x_st前增加单位向量从而构成扩展向量

并且q_i是存在于第i个模糊规则中的TSK模糊模型的参数矩阵，如下所示：

因此，对于TSK模型，输出表达式可以写为如下形式：

进一步写为如下形式：

HQ＝T

其中，H是模糊规则正则化后的隐藏层输出矩阵，Q是TSK模型的参数矩阵，表达式分别如下所示：

本发明在线模糊极限学习机算法包含初始化和在线预测两个阶段，如下所示：

第一阶段：初始化。本阶段需要使用总行数为N₀的训练数据集

进行初始化学习。

1)正则化训练数据集η₀；

2)随机分配隶属度函数参数(c_i，a_i)，i＝1，…，L；

3)计算TSK模型的隐藏层输出矩阵H₀：H₀＝H(c₁，…，c_L，a₁，…a_L；x₁，…，x_N0)；

4)估计初始参数矩阵

5)令k＝0。

第二阶段：在线预测。使用第N₀行之后的在线数据集η＝{(x_i，t_i)|x_i∈Rⁿ，t_i∈R^m，i＝N₀+1，…}实时迭代模型参数P_k+1和Q^(k+1)。

1)在线正则化每次接收到的自变量数据x_k并计算得到x_stk；

2)计算TSK模型下的第(k+1)时刻迭代隐藏层输出矩阵H_k+1，H_k+1＝H(c₁，…，c_L,a₁，…a_L；x_stk)；

3)利用公式

计算下一时刻的预测值

4)读取下一时刻的真实目标值t_k+1，并且对目标值t_k+1正则化得到t_stk+1，随后求出与预测值

的误差

T_k+1＝[t_stk+1]^T；

5)更新参数矩阵P_k+1和Q^(k+1)，

其中P_k与Q^(k)均是第k时刻的参数矩阵；

6)k＝k+1，继续返回第二阶段进行在线预测。

在一种可行的实施方式中，步骤六对数据的状态和变化趋势进行判断，具体过程如下：

首先，由步骤五得到第(k+1)时刻的预测输出值

并且对

进行反正则化变换计算出原来的量纲值

然后，与k时刻的原量纲值t_k以及过去(k-1)时刻原量纲值t_k-1一起判断出k时刻的数据变化状态。

一般情况下，数据的状态分为上升，下降，波动，振荡，稳定。

以下是这5种状态判别的条件：

1)上升条件：

2)下降条件：

3)波动条件：

4)振荡条件：

5)稳定条件：

其中，自适应距离d_kn的求解方法如下：

1)依次求解t_k-1、t_k和

之间的差值并组成距离向量d_k，d_k＝[d_1k，d_2k]，d_1k＝|t_k-t_k-1|，

2)利用迭代距离均值

和

求解出自适应距离d_kn，具体算法如下所示：

以上本发明方法实现了数据的相关性分析和实时预测，针对实际工程应用中高维数据状态判读问题，结合未来预测数据特征进行状态实时判别和异常预警，为实际系统运行过程提供辅助判决支持，对航天器、发动机等复杂装备的状态判读有较高的应用价值。

实施例2

在本发明的另一实施例当中，如图2所示，数据相关性分析先分别对离线的数据进行Pearson、Spearman和Kendall相关性分析。

Pearson相关系数ρ_X.Y的计算公式为：

式中，(X_i，Y_i)是任意两个变量X和Y的第i个值，

Kendall相关系数是一个用来测量两个随机变量相关性的统计值。假设两个变量X和Y中的对应元素组成一个元素对集合XY，其包含的元素为(X_i，Y_i)(1≤i≤N)。当集合XY中任意两个元素(X_i，Y_i)与(X_j，Y_j)的排行相同时(也就是当出现情况1：X_i＞X_j且Y_i＞Y_j或者情况2：X_i＜X_j且Y_i＜Y_j)，这两个元素就被认为是一致的。当出现情况3：X_i＞X_j且Y_i＜Y_j或者情况4：X_i＜X_j且Y_i＞Y_j，这两个元素被认为是不一致的。设一致数对总数为C，不一致数对总数为D。由此可以推导出全部数据的数对共有

种组合，即

Kendall相关系数τ的计算公式如下：

Kendall相关系数特点规律如下：

在分别求出上述相关性分析系数结果之后，随后推导出无关以及无法判断概率，并生成每种判断途径下的概率向量。

以Pearson相关系数的概率向量m_pe为例，相关、不相关和无法判断概率分别是：|m_pe|，(1-|m_pe|-0.03)，0.03。其中|m_pe|为Pearson判断途径下相关结果概率，(1-|m_pe|-0.03)为Pearson判断途径下不相关结果概率，0.03为无法判断结果概率。

再得到每种相关性分析判断途径下的基本概率向量之后，随后对3种概率向量融合，计算出数据最后的相关性分析结果。具体做法如下所示：

1)计算Pearson、Spearman和Kendall分析方法下的基本概率向量m_pe、m_sp和m_ke三者之间的欧式距离d_ij(1≤i，j≤3)；

2)计算第i个判断途径下的权重因子S_i：

3)根据S_i计算基本概率向量m_i的融合权值w_i：

4)根据融合权值w_i来计算融合概率向量m_i′：

5)根据经验条件，若m_fp＞0.9，判定数据相关，否则不相关。

如图3所示，在线模糊极限学习机算法的处理流程包括初始化和在线预测两个阶段。

其流程描述如下所示：

进行初始化学习。

1)正则化训练数据集η₀；

2)随机分配隶属度函数参数(c_i，a_i)，i＝1，…，L；

3)计算TSK模型的隐藏层输出矩阵H₀：H₀＝H(c₁，…，c_L,a₁，…a_L；x₁，…，x_N0)

4)估计初始参数矩阵

5)令k＝0。

1)在线正则化每次接收到的自变量数据x_k并计算得到x_stk；

2)计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵H_k+1，H_k+1＝H(c₁，…，c_L,a₁，…a_L；x_stk)；

3)利用公式

计算下一时刻的预测值

的误差

T_k+1＝[t_stk+1]^T；

5)更新参数矩阵P_k+1和Q^(k+1)，

其中P_k与Q^(k)均是第k时刻的参数矩阵；

6)k＝k+1，继续返回第二阶段在线预测。

本发明的实施例选取无人机飞行过程中的高度数据进行状态判断，如图4所示，由图中可以看出，无人机在第5s和第33s处于上升状态，在第35s处于下降状态，在第11,18,21,22,30～32,34和37s处于振荡状态，其余时刻处于波动状态。

实施例3

本发明还提供一种基于数据相关性和模糊系统的异常数据预测系统，包括：

本发明综合了Pearson、Spearman和Kendall数据分析方法的优势，准确分析数据之间的相关性。同时，相比其他传统的机器学习算法，本发明采用在线模糊极限学习机算法，随机分配隶属函数的参数，然后通过在线训练和学习数据确定相应的后件参数，从而避免了传统机器学习算法重复训练的过程，不仅可以取得更好的预测效果，而且极大地提高了学习速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于数据相关性和模糊系统的异常数据预测方法，其特征在于，包括：

实时接收数据并根据数据相关性分析结果建立实时数据集；

2.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。

3.根据权利要求2所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述融合每种方法的概率向量并且求解出数据相关性分析结果的步骤包括：

按下式计算第i个判断途径下的权重因子S_i：

按下式根据权重因子S_i计算基本概率向量m_i的融合权值w_i：

按下式根据融合权值w_i计算融合概率向量m_i′：

根据经验条件，若m_fp＞0.9，判定数据相关，否则不相关。

4.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括：

根据融合概率统计出每个因变量y_i包括自身在内的所有相关自变量x，i＝1，…，N；

x_ik(i＝1，…，n)是目标值t_k+1的第i个自变量k时刻的值；

t_k表示k时刻因变量的目标值；

t_k+1表示(k+1)时刻因变量的目标值；

k为当前时刻，N为因变量总个数。

5.根据权利要求4所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述在线正则化处理实时数据集，消除不同数据类型的量纲影响的步骤包括：

针对k时刻自变量的值x_k，数据在线正则化处理的计算表达式如下：

其中，

所述迭代均值按下式进行计算：

所述迭代方差按下式进行计算：

式中，

是数据(k-1)时刻的迭代均值，

是数据(k-1)时刻的迭代方差。

6.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述在线模糊极限学习机算法的数学模型如下：

式中，x是TSK模糊模型的输入集合，

式中，x_ste是在输入向量x_st前增加单位向量，从而构成扩展向量

在TSK模糊模型下，所述具有L个模糊规则的FIS的数学模型为下式：

缩写为：

HQ＝T

表达式分别如下所示：

7.根据权利要求6所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述在线模糊极限学习机算法包含初始化和在线预测两个阶段；

初始化阶段，使用总行数为N₀的训练数据集

N₀≥L进行初始化学习；

初始化阶段具体包括以下过程：

正则化训练数据集η₀；

随机分配隶属度函数参数(c_i，a_i)，i＝1，…，L；

按下式计算TSK模型的隐藏层输出矩阵H₀：H₀＝H(c₁，...，c_L,a₁，...a_L；x₁，...，x_N0)；

估计初始参数矩阵

令k＝0；

按下式计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵H_k+1：

H_k+1＝H(c₁，...，c_L，a₁，...a_L；x_stk)；

利用公式

计算下一时刻的预测值

的误差

T_k+1＝[t_stk+1]^T；

按下式更新参数矩阵P_k+1和Q^(k+1)：

其中，P_k与Q^(k)均是第k时刻的参数矩阵；

令k＝k+1，继续返回在线预测阶段进行在线预测。

8.根据权利要求7所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述判断数据的状态包括以下步骤：首先，计算出第(k+1)时刻的预测值

并且对预测值

进行反正则化变换推导出原来的量纲值

然后，使用量纲值

9.根据权利要求8所述基于数据相关性和模糊系统的异常数据预测方法，其特征在于，所述数据的状态分为上升、下降、波动、振荡以及稳定这5种状态，判别条件分别如下：

上升条件：

下降条件：

波动条件：

振荡条件：

稳定条件：

式中，d_kn是判断k时刻数据的自适应距离，求解方法如下：

按下式依次求解t_k-1、t_k和

之间的差值并组成距离向量d_k：

d_k＝[d_1k，d_2k]，d_1k＝|t_k-t_k-1|，

按下式利用迭代距离均值

和

求解出自适应距离d_kn：

10.一种基于数据相关性和模糊系统的异常数据预测系统，其特征在于，包括：