CN114580747A - 基于数据相关性和模糊系统的异常数据预测方法及系统 - Google Patents
基于数据相关性和模糊系统的异常数据预测方法及系统 Download PDFInfo
- Publication number
- CN114580747A CN114580747A CN202210212459.2A CN202210212459A CN114580747A CN 114580747 A CN114580747 A CN 114580747A CN 202210212459 A CN202210212459 A CN 202210212459A CN 114580747 A CN114580747 A CN 114580747A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- probability
- fuzzy
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Pure & Applied Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于数据相关性和模糊系统的异常数据预测方法及系统,方法包括利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并求解出数据相关性分析结果;实时接收数据并根据数据相关性分析结果建立实时数据集;在线正则化处理实时数据集,将处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。本发明能够实时预测未来数据并判断数据状态,学习速度快。
Description
技术领域
本发明属于复杂装备数据在线预测技术领域,具体涉及一种基于数据相关性和模糊系统的异常数据预测方法及系统。
背景技术
信息与互联网技术的发展将人类带入了大数据时代,大数据正在深刻地影响人类社会的发展。在现实背景下,许多数据彼此之间具有一定的相关性,如果单独对每个数据进行分析,分析方法过于孤立,不能充分体现数据所包含的信息。因此,合理有效地进行数据相关性分析和数据降维处理已经成为当前的研究热点。实际的数据通常具有时间相关性,因为其非线性和非稳定性特点导致数据的预测以及状态判断仍有很大的难度,所以提前预测数据并分析出数据的变化趋势,从而可以预防和避免危险事件的发生,具有非常重要的现实意义。
现有的异常数据预测方法及系统所应用的数据相关性分析Pearson、Spearman和Kendall分析方法都有各自的局限性。其中,Pearson相关系数要求数据总体呈现正态分布,所以无法处理异常数据点,并且不能描述非线性关系;Spearman相关系数对数据的要求没有Pearson相关系数严格,只要两个变量的观测值成对出现,就可以使用Spearman相关系数进行研究;Kendall系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。Spearman相关系数和Kendall系数都可以描述简单的非线性关系,但是它们都只利用了数据的排序信息而忽略了数据的内在信息,因而其描述的相关性不够准确。综上所述,仅仅通过单一的数据相关性方法所得到的分析结果并不能充分体现数据之间的相关性;其次,现有的异常数据预测方法及系统采用的预测方法主要包括统计学习方法和机器学习预测方法。统计学习方法主要包括指数平滑法和自回归积分移动平均预测等方法。这类方法仅通过历史数据序列构建数学模型,导致模型简单、参数单一,并不能达到理想的预测效果。传统的机器学习预测方法主要包括BP神经网络、支持向量机(SVM)、循环神经网络(RNN)等方法。其中,BP神经网络在训练过程中需要不断反向调整权重,所以计算量大,学习速度慢;支持向量机训练时间长且只适合小批量样本数据;RNN在训练过程中容易出现梯度消失的问题,导致其在反向传播的过程中无法学习,即它只有短期记忆,在时序数据预测中无法准确地对数据进行长期的预测。另外,上述机器学习方法均是离线训练数据,无法满足系统实时性和快速性的需求。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于数据相关性和模糊系统的异常数据预测方法及系统,通过融合多种数据相关性分析方法的结果,充分体现数据之间的相关性,并且能够实时预测未来数据以及判断数据状态。
为了实现上述目的,本发明有如下的技术方案:
第一方面,提供一种基于数据相关性和模糊系统的异常数据预测方法,包括:
利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
实时接收数据并根据数据相关性分析结果建立实时数据集;
在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
作为优选,所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。
作为优选,所述融合每种方法的概率向量并且求解出数据相关性分析结果的步骤包括:
计算Pearson、Spearman和Kendall分析方法下的基本概率向量mpe、msp和mke三者之间的欧式距离dij,1≤i,j≤3;
根据经验条件,若mfp>0.9,判定数据相关,否则不相关。
作为优选,所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括:
计算出每个因变量yi包括自身在内的所有相关性自变量x,i=1,…,N;
利用k时刻自变量的值xk和在k时刻之前的两个历史时刻自变量xk-2、xk-1以及k+1时刻的因变量tk+1构造数据集,所述数据集表达式为tk+1=f(xk-2,xk-1,xk);
式中,xk=[x1k,x2k…,xnk,tk]T,n是目标值tk+1的相关自变量个数;
xik(i=1,…,n)是目标值tk+1的第i个自变量k时刻的值;
tk表示k时刻因变量的值;
tk+1表示(k+1)时刻因变量的目标值;
k为当前时刻,N为因变量总个数。
作为优选,所述在线正则化处理实时数据集,消除不同数据类型的量纲影响的步骤包括:
对于k时刻自变量的值xk,数据在线正则化处理计算表达式如下:
所述迭代均值按下式进行计算:
所述迭代方差按下式进行计算:
作为优选,所述在线模糊极限学习机算法的数学模型如下:
根据FIS与SLFN的等效性,按下式得到具有L个模糊规则的FIS的数学模型:
式中,xst是经过正则化处理后的自变量数据集,tst是经过正则化处理后的目标值数据集;
对于TSK模糊模型,后件参数βi是输入变量的线性组合,表达式如下:
qi是存在于第i个模糊规则中的TSK模糊模型的参数矩阵,如下式所示:
故,对于TSK模糊模型下所述具有L个模糊规则的FIS的数学模型为下式:
缩写为:
HQ=T
式中,H是模糊规则正则化后的隐藏层输出矩阵,Q是TSK模型的参数矩阵;
表达式分别如下所示:
作为优选,所述在线模糊极限学习机算法包含初始化和在线预测两个阶段;
初始化阶段具体包括以下过程:
正则化训练数据集η0;
随机分配隶属度函数参数(ci,ai),i=1,…,L;
按下式计算TSK模型的隐藏层输出矩阵H0:H0=H(c1,…,cL,a1,…aL;x1,...,xN0);
令k=0;
在线预测阶段,使用第N0行之后的在线数据集η={(xi,ti)|xi∈Rn,ti∈Rm,i=N0+1,…}实时迭代模型参数Pk+1和Q(k+1);在线预测阶段具体包括以下过程:
在线正则化处理每次接收到的自变量数据xk并计算得到xstk;
按下式计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵Hk+1:
Hk+1=H(c1,…,cL,a1,…aL;xstk);
按下式更新参数矩阵Pk+1和Q(k+1):
其中,Pk与Q(k)均是第k时刻的参数矩阵;
令k=k+1,继续返回在线预测阶段进行在线预测。
作为优选,所述判断数据的状态包括以下步骤:首先,计算出第(k+1)时刻的预测值并且对预测值进行反正则化变换推导出原来的量纲值然后,使用量纲值与k时刻的原量纲值tk以及过去(k-1)时刻原量纲值tk-1一起判断出k时刻的数据变化状态。
作为优选,所述数据的状态分为上升、下降、波动、振荡以及稳定这5种状态,判别条件分别如下:
上升条件:
下降条件:
波动条件:
振荡条件:
稳定条件:
式中,dkn是判断k时刻数据的自适应距离,求解方法如下:
第二方面,提供一种基于数据相关性和模糊系统的异常数据预测系统,包括:
数据相关概率计算模块,用于利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
概率向量生成及融合模块,用于根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
实时数据集建立模块,用于实时接收数据并根据数据相关性分析结果建立实时数据集;
正则化处理模块,用于在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
实时预测模块,用于将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
数据分析与预判模块,用于利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
相较于现有技术,本发明至少具有如下的有益效果:
高维数据相关性分析复杂,现有的数据相关性分析方法各有局限,并不能充分体现数据之间的相关性,而且传统的统计学习预测精度低,传统机器学习算法预测数据的计算量大,运算速度慢,难以保证实际情况下系统实时性需求。本发明是一种基于数据相关性和模糊系统的异常数据预测方法,针对上述问题,本发明融合了多种数据相关性分析方法的结果,综合了各自分析方法的优点,因此更能充分体现数据之间的相关性。同时,相比其他传统的机器学习算法如BP神经网络、支持向量机(SVM)以及循环神经网络(RNN)等,本发明采用了在线模糊极限学习机算法,先随机分配隶属函数的参数,然后通过在线训练和学习数据确定相应的后件参数,从而避免了传统机器学习算法重复训练的过程,不仅可以取得相似甚至更好的预测效果,而且极大地提高了学习速度,在运算量减少的情况下,本发明可以处理任何有界非恒定分段连续隶属函数,算法的泛化能力更强。最后,本发明还通过在线调整自适应距离阈值辅助判断数据的状态,并分析数据的变化趋势,提前预判未来出现的异常数据,从而降低系统风险。本发明能够应用在能源、航天等诸多领域,具有非常广阔的应用前景。
附图说明
图1本发明基于数据相关性和模糊系统的异常数据预测方法流程示意图;
图2本发明数据相关性分析流程图;
图3本发明模糊极限学习机算法处理流程图;
图4本发明实施例无人机飞行高度的预测及状态判断结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
请参阅图1,本发明提出的一种基于数据相关性和模糊系统的异常数据预测方法,先对数据做离线的相关性分析并且计算出相关性分析结果。然后开始实时接收在线数据,并且根据相关性分析结果实时生成数据集模型。生成的数据集需要进行在线正则化预处理以消除不同数据之间量纲的影响,随后将处理后的数据集输入到在线模糊预测系统中开始实时预测,输出预测数据。最后综合历史数据、现在数据和未来数据三者判断现在数据的状态和变化趋势。如果数据始终在发送,就会一直重复在线处理数据的过程,直至数据发送完毕。
实施例1
本发明基于数据相关性和模糊系统的异常数据预测方法具体包括以下步骤:
步骤一:利用Pearson、Spearman和Kendall等数据相关性分析方法分别计算出历史数据之间的数据相关概率;
步骤二:首先根据步骤一中3种相关性分析方法计算的数据相关概率,推导出每种分析方法的数据无关以及无法判断概率,并生成各自方法对应的概率向量,然后融合3种概率向量并且求解出数据最终的相关性分析结果;
步骤三:实时接收数据并且根据步骤二求解出的相关性分析结果建立实时数据集模型tk+1=f(xk-2,xk-1,xk),获得实时数据集;
步骤四:在线正则化处理实时数据集;
步骤五:将步骤四中在线正则化处理后的实时数据集作为在线模糊预测系统的输入,通过在线模糊极限学习机算法实时输出下一时刻的预测数据;
步骤六:利用步骤五的实时预测数据在线调整自适应距离阈值,并且判断数据的状态,分析数据的变化趋势。
在一种可行的实施方式中,步骤一所述的数据相关性分析Pearson、Spearman和Kendall方法都是用来反映两个变量相关程度的统计量,具体如下:
Pearson相关系数ρX.Y的计算公式为:
Spearman相关系数,通常也被称为斯皮尔曼秩相关系数。秩为原始数据的排序,所以斯皮尔曼秩相关系数本质在于根据原始数据的排序位置进行求解,它的计算公式如下:
在具体的计算过程中,Spearman相关系数首先需要对两个变量(X,Y)的数据进行排序(统一用升序或者降序),并得到两个元素排行集合X′、Y′。排行集合中的元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合X′、Y′中的元素对应相减得到一个排行差分集合d,其中di=xi-yi,1≤i≤n。n是变量的个数。
Spearman相关系数特点规律如下:若变量之间具有严格单调递增关系,则二者的Spearman相关系数为1,若变量之间具有严格单调递减关系,则二者的Spearman相关系数为-1;取0则表示变量之间没有相关关系。
Kendall相关系数是一个用来衡量两个随机变量相关性的统计值。假设两个变量X和Y中的对应元素组成一个元素对集合XY,其包含的元素为(Xi,Yi)(1≤i≤N)。当集合XY中任意两个元素(Xi,Yi)与(Xj,Yj)的排行相同时(也就是当出现情况1:Xi>Xj且Yi>Yj或者情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。当出现情况3:Xi>Xj且Yi<Yj或者情况4:Xi<Xj且Yi>Yj,这两个元素被认为是不一致的。设一致数对总数为C,不一致数对总数为D。由此可以推导出全部数据的数对共有种组合,即
Kendall相关系数τ的计算公式如下:
Kendall相关系数特点规律如下:
当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。
在一种可行的实施方式中,步骤二的具体过程如下:
由步骤一得到3种相关性分析系数结果之后,推导出无关以及无法判断概率,并生成每种判断途径下的概率向量。以Pearson相关系数的概率向量mpe为例,相关、不相关和无法判断概率分别是:|mpe|,(1-|mpe|-0.03),0.03。其中|mpe|为Pearson判断途径下相关结果概率,(1-|mpe|-0.03)为Pearson判断途径下不相关结果概率,0.03为无法判断结果概率。
得出3种途径的概率向量之后,对其融合并且求解出数据最终的相关性分析结果,融合过程如下所示:
1)计算Pearson、Spearman和Kendall相关系数下的基本概率向量mpe、msp和mke三者之间的欧式距离dij(1≤i,j≤3);
5)根据经验条件,若mfp>0.9,判定数据相关,否则不相关。
更进一步的,步骤三要根据步骤二的数据分析结果建立实时的数据集,过程具体如下:
通过步骤二可以计算出每个因变量yi(i=1,…,N)包括自身在内的所有相关性自变量x,随后利用k时刻自变量的值xk和在k时刻之前的两个历史时刻自变量xk-2,xk-1以及(k+1)时刻的因变量tk+1构造数据集,数据集表达式为tk+1=f(xk-2,xk-1,xk)。
其中,xk=[x1k,x2k…,xnk,tk]T,n是目标值tk+1的相关自变量个数,xik(i=1,…,n)是目标值tk+1的第i个自变量k时刻的值,tk表示k时刻因变量的目标值,tk+1表示(k+1)时刻因变量的目标值,k为当前时刻,N为因变量总个数。
在一种可能的实施方式中,步骤四需要消除步骤三中不同数据量纲的影响,因此需要对数据在线正则化处理,处理过程如下所示:
以k时刻自变量的值xk为例,数据在线正则化公式如下:
更进一步的,迭代算法如下所示:
所述迭代均值的计算表达式如下:
所述迭代方差的计算表达式如下:
在一种可行的实施方式中,步骤五采用在线模糊极限学习机算法(OS-Fuzzy-ELMAlgorithm)对数据实时预测,具体过程如下:在线模糊极限学习机算法(OS-Fuzzy-ELMAlgorithm)是专门处理函数逼近和分类的算法。它的原理是先随机分配隶属函数的参数,然后通过在线训练和学习数据确定相应的后件参数。它的数学模型如下所示:
根据FIS与SLFN的等效性,从而产生了具有L个模糊规则的FIS的数学模型:
xst是正则化处理后的自变量数据集,tst是经过正则化处理后的目标值数据集。
由于,对于TSK模糊模型,后件参数βi是输入变量的线性组合,表达式如下:
因此,对于TSK模型,输出表达式可以写为如下形式:
进一步写为如下形式:
HQ=T
其中,H是模糊规则正则化后的隐藏层输出矩阵,Q是TSK模型的参数矩阵,表达式分别如下所示:
本发明在线模糊极限学习机算法包含初始化和在线预测两个阶段,如下所示:
1)正则化训练数据集η0;
2)随机分配隶属度函数参数(ci,ai),i=1,…,L;
3)计算TSK模型的隐藏层输出矩阵H0:H0=H(c1,…,cL,a1,…aL;x1,…,xN0);
5)令k=0。
第二阶段:在线预测。使用第N0行之后的在线数据集η={(xi,ti)|xi∈Rn,ti∈Rm,i=N0+1,…}实时迭代模型参数Pk+1和Q(k+1)。
1)在线正则化每次接收到的自变量数据xk并计算得到xstk;
2)计算TSK模型下的第(k+1)时刻迭代隐藏层输出矩阵Hk+1,Hk+1=H(c1,…,cL,a1,…aL;xstk);
6)k=k+1,继续返回第二阶段进行在线预测。
在一种可行的实施方式中,步骤六对数据的状态和变化趋势进行判断,具体过程如下:
一般情况下,数据的状态分为上升,下降,波动,振荡,稳定。
以下是这5种状态判别的条件:
1)上升条件:
2)下降条件:
3)波动条件:
4)振荡条件:
5)稳定条件:
其中,自适应距离dkn的求解方法如下:
以上本发明方法实现了数据的相关性分析和实时预测,针对实际工程应用中高维数据状态判读问题,结合未来预测数据特征进行状态实时判别和异常预警,为实际系统运行过程提供辅助判决支持,对航天器、发动机等复杂装备的状态判读有较高的应用价值。
实施例2
在本发明的另一实施例当中,如图2所示,数据相关性分析先分别对离线的数据进行Pearson、Spearman和Kendall相关性分析。
Pearson相关系数ρX.Y的计算公式为:
Spearman相关系数,通常也被称为斯皮尔曼秩相关系数。秩为原始数据的排序,所以斯皮尔曼秩相关系数本质在于根据原始数据的排序位置进行求解,它的计算公式如下:
在具体的计算过程中,Spearman相关系数首先需要对两个变量(X,Y)的数据进行排序(统一用升序或者降序),并得到两个元素排行集合X′、Y′。排行集合中的元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合X′、Y′中的元素对应相减得到一个排行差分集合d,其中di=xi-yi,1≤i≤n。n是变量的个数。
Spearman相关系数特点规律如下:若变量之间具有严格单调递增关系,则二者的Spearman相关系数为1,若变量之间具有严格单调递减关系,则二者的Spearman相关系数为-1;取0则表示变量之间没有相关关系。
Kendall相关系数是一个用来测量两个随机变量相关性的统计值。假设两个变量X和Y中的对应元素组成一个元素对集合XY,其包含的元素为(Xi,Yi)(1≤i≤N)。当集合XY中任意两个元素(Xi,Yi)与(Xj,Yj)的排行相同时(也就是当出现情况1:Xi>Xj且Yi>Yj或者情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。当出现情况3:Xi>Xj且Yi<Yj或者情况4:Xi<Xj且Yi>Yj,这两个元素被认为是不一致的。设一致数对总数为C,不一致数对总数为D。由此可以推导出全部数据的数对共有种组合,即
Kendall相关系数τ的计算公式如下:
Kendall相关系数特点规律如下:
当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。
在分别求出上述相关性分析系数结果之后,随后推导出无关以及无法判断概率,并生成每种判断途径下的概率向量。
以Pearson相关系数的概率向量mpe为例,相关、不相关和无法判断概率分别是:|mpe|,(1-|mpe|-0.03),0.03。其中|mpe|为Pearson判断途径下相关结果概率,(1-|mpe|-0.03)为Pearson判断途径下不相关结果概率,0.03为无法判断结果概率。
再得到每种相关性分析判断途径下的基本概率向量之后,随后对3种概率向量融合,计算出数据最后的相关性分析结果。具体做法如下所示:
1)计算Pearson、Spearman和Kendall分析方法下的基本概率向量mpe、msp和mke三者之间的欧式距离dij(1≤i,j≤3);
5)根据经验条件,若mfp>0.9,判定数据相关,否则不相关。
如图3所示,在线模糊极限学习机算法的处理流程包括初始化和在线预测两个阶段。
其流程描述如下所示:
1)正则化训练数据集η0;
2)随机分配隶属度函数参数(ci,ai),i=1,…,L;
3)计算TSK模型的隐藏层输出矩阵H0:H0=H(c1,…,cL,a1,…aL;x1,…,xN0)
5)令k=0。
第二阶段:在线预测。使用第N0行之后的在线数据集η={(xi,ti)|xi∈Rn,ti∈Rm,i=N0+1,…}实时迭代模型参数Pk+1和Q(k+1)。
1)在线正则化每次接收到的自变量数据xk并计算得到xstk;
2)计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵Hk+1,Hk+1=H(c1,…,cL,a1,…aL;xstk);
6)k=k+1,继续返回第二阶段在线预测。
本发明的实施例选取无人机飞行过程中的高度数据进行状态判断,如图4所示,由图中可以看出,无人机在第5s和第33s处于上升状态,在第35s处于下降状态,在第11,18,21,22,30~32,34和37s处于振荡状态,其余时刻处于波动状态。
实施例3
本发明还提供一种基于数据相关性和模糊系统的异常数据预测系统,包括:
数据相关概率计算模块,用于利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
概率向量生成及融合模块,用于根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
实时数据集建立模块,用于实时接收数据并根据数据相关性分析结果建立实时数据集;
正则化处理模块,用于在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
实时预测模块,用于将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
数据分析与预判模块,用于利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
本发明综合了Pearson、Spearman和Kendall数据分析方法的优势,准确分析数据之间的相关性。同时,相比其他传统的机器学习算法,本发明采用在线模糊极限学习机算法,随机分配隶属函数的参数,然后通过在线训练和学习数据确定相应的后件参数,从而避免了传统机器学习算法重复训练的过程,不仅可以取得更好的预测效果,而且极大地提高了学习速度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于数据相关性和模糊系统的异常数据预测方法,其特征在于,包括:
利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
实时接收数据并根据数据相关性分析结果建立实时数据集;
在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
2.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述多种数据相关性分析方法包括Pearson、Spearman和Kendall分析方法。
4.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述实时接收数据并根据数据相关性分析结果建立实时数据集的步骤包括:
根据融合概率统计出每个因变量yi包括自身在内的所有相关自变量x,i=1,…,N;
利用k时刻自变量的值xk和在k时刻之前的两个历史时刻自变量xk-2、xk-1以及k+1时刻的因变量tk+1构造数据集,所述数据集表达式为tk+1=f(xk-2,xk-1,xk);
式中,xk=[x1k,x2k…,xnk,tk]T,n是目标值tk+1的相关自变量个数;
xik(i=1,…,n)是目标值tk+1的第i个自变量k时刻的值;
tk表示k时刻因变量的目标值;
tk+1表示(k+1)时刻因变量的目标值;
k为当前时刻,N为因变量总个数。
6.根据权利要求1所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述在线模糊极限学习机算法的数学模型如下:
根据FIS与SLFN的等效性,按下式得到具有L个模糊规则的FIS的数学模型:
式中,xst是经过正则化处理后的自变量数据集,tst是经过正则化处理后的目标值数据集;
对于TSK模糊模型,后件参数βi是输入变量的线性组合,表达式如下:
qi是存在于第i个模糊规则中的TSK模糊模型的参数矩阵,如下式所示:
在TSK模糊模型下,所述具有L个模糊规则的FIS的数学模型为下式:
缩写为:
HQ=T
式中,H是模糊规则正则化后的隐藏层输出矩阵,Q是TSK模型的参数矩阵;
表达式分别如下所示:
7.根据权利要求6所述基于数据相关性和模糊系统的异常数据预测方法,其特征在于,所述在线模糊极限学习机算法包含初始化和在线预测两个阶段;
初始化阶段具体包括以下过程:
正则化训练数据集η0;
随机分配隶属度函数参数(ci,ai),i=1,…,L;
按下式计算TSK模型的隐藏层输出矩阵H0:H0=H(c1,...,cL,a1,...aL;x1,...,xN0);
令k=0;
在线预测阶段,使用第N0行之后的在线数据集η={(xi,ti)|xi∈Rn,ti∈Rm,i=N0+1,…}实时迭代模型参数Pk+1和Q(k+1);在线预测阶段具体包括以下过程:
在线正则化处理每次接收到的自变量数据xk并计算得到xstk;
按下式计算TSK模型下第(k+1)时刻迭代隐藏层输出矩阵Hk+1:
Hk+1=H(c1,...,cL,a1,...aL;xstk);
按下式更新参数矩阵Pk+1和Q(k+1):
其中,Pk与Q(k)均是第k时刻的参数矩阵;
令k=k+1,继续返回在线预测阶段进行在线预测。
10.一种基于数据相关性和模糊系统的异常数据预测系统,其特征在于,包括:
数据相关概率计算模块,用于利用多种数据相关性分析方法分别计算出历史数据之间的数据相关概率;
概率向量生成及融合模块,用于根据数据相关概率推导出多种数据相关性分析方法的数据无关以及无法判断概率,生成每种方法对应的概率向量,融合每种方法的概率向量并且求解出数据相关性分析结果;
实时数据集建立模块,用于实时接收数据并根据数据相关性分析结果建立实时数据集;
正则化处理模块,用于在线正则化处理实时数据集,以消除不同数据类型的量纲影响;
实时预测模块,用于将在线正则化处理后的实时数据集作为输入,通过在线模糊极限学习机算法实时计算输出下一时刻的预测数据;
数据分析与预判模块,用于利用预测数据在线调整自适应距离阈值,判断数据的状态,分析数据的变化趋势,提前预判未来出现的异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210212459.2A CN114580747A (zh) | 2022-03-04 | 2022-03-04 | 基于数据相关性和模糊系统的异常数据预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210212459.2A CN114580747A (zh) | 2022-03-04 | 2022-03-04 | 基于数据相关性和模糊系统的异常数据预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580747A true CN114580747A (zh) | 2022-06-03 |
Family
ID=81779012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210212459.2A Pending CN114580747A (zh) | 2022-03-04 | 2022-03-04 | 基于数据相关性和模糊系统的异常数据预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580747A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115718901A (zh) * | 2022-11-15 | 2023-02-28 | 中国南方电网有限责任公司超高压输电公司广州局 | 基于换流阀的数据处理方法、装置以及计算机设备 |
CN116880395A (zh) * | 2023-07-19 | 2023-10-13 | 天津市易控科技发展有限公司 | 基于dcs系统的监控方法、装置、设备及介质 |
CN117235624A (zh) * | 2023-09-22 | 2023-12-15 | 中节能天融科技有限公司 | 排放数据造假检测方法、装置及系统和存储介质 |
CN116880395B (zh) * | 2023-07-19 | 2024-06-07 | 天津市易控科技发展有限公司 | 基于dcs系统的监控方法、装置、设备及介质 |
-
2022
- 2022-03-04 CN CN202210212459.2A patent/CN114580747A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115718901A (zh) * | 2022-11-15 | 2023-02-28 | 中国南方电网有限责任公司超高压输电公司广州局 | 基于换流阀的数据处理方法、装置以及计算机设备 |
CN116880395A (zh) * | 2023-07-19 | 2023-10-13 | 天津市易控科技发展有限公司 | 基于dcs系统的监控方法、装置、设备及介质 |
CN116880395B (zh) * | 2023-07-19 | 2024-06-07 | 天津市易控科技发展有限公司 | 基于dcs系统的监控方法、装置、设备及介质 |
CN117235624A (zh) * | 2023-09-22 | 2023-12-15 | 中节能天融科技有限公司 | 排放数据造假检测方法、装置及系统和存储介质 |
CN117235624B (zh) * | 2023-09-22 | 2024-05-07 | 中节能数字科技有限公司 | 排放数据造假检测方法、装置及系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Juang et al. | A locally recurrent fuzzy neural network with support vector regression for dynamic-system modeling | |
Khoshgoftaar et al. | A neural network approach for predicting software development faults | |
CN112184391B (zh) | 一种推荐模型的训练方法、介质、电子设备和推荐模型 | |
CN114580747A (zh) | 基于数据相关性和模糊系统的异常数据预测方法及系统 | |
Petelin et al. | Control system with evolving Gaussian process models | |
Yang et al. | A pattern fusion model for multi-step-ahead CPU load prediction | |
CN111597757A (zh) | 基于多目标加点准则的gp模型辅助slpso算法 | |
Wang et al. | Learning customer behaviors for effective load forecasting | |
Grande et al. | Online regression for data with changepoints using Gaussian processes and reusable models | |
CN112149045A (zh) | 一种适用于大规模数据的降维、关联分析方法 | |
CN116579371A (zh) | 一种双层优化异构代理模型辅助多目标进化优化计算方法 | |
CN110471768B (zh) | 一种基于fastPCA-ARIMA的负载预测方法 | |
Chen et al. | Accelerating Matrix Factorization by Overparameterization. | |
Serra et al. | An IV-QR algorithm for neuro-fuzzy multivariable online identification | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
Ao et al. | Entropy estimation via normalizing flow | |
Aleksovski et al. | Ensembles of fuzzy linear model trees for the identification of multioutput systems | |
Paassen et al. | Gaussian process prediction for time series of structured data. | |
Park et al. | Vector quantized bayesian neural network inference for data streams | |
Jomaa et al. | Hyperparameter optimization with differentiable metafeatures | |
Graves et al. | Proximity fuzzy clustering and its application to time series clustering and prediction | |
van Stein et al. | Fuzzy clustering for optimally weighted cluster kriging | |
Ma et al. | Multi-spatial information joint guidance evolutionary algorithm for dynamic multi-objective optimization with a changing number of objectives | |
Muruganantham | Dynamic multiobjective optimization using evolutionary algorithms | |
Ovezgeldyev et al. | Fuzzy-interval choice of alternatives in collective expert evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |