CN116109039A

CN116109039A - 一种数据驱动异常检测与预警系统

Info

Publication number: CN116109039A
Application number: CN202310151399.2A
Authority: CN
Inventors: 文传军; 周晓; 陈静; 周宇; 赵羚羽; 姚素婷; 聂雨培; 陆雨彤
Original assignee: Yangzhou Polytechnic College
Current assignee: Yangzhou Polytechnic College
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-12

Abstract

本发明涉及数据驱动异常检测与预警系统技术领域，尤其涉及一种数据驱动异常检测与预警系统，针对当前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂，且对于的异常数据的判定方法简单，导致时序概率潮流的计算效率低、异常数据的判定准确率较低的问题，现提出如下方案，其中包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块，本发明的目的是通过模型求解得到了异常数据判定优化解，提高了系统异常检测与预警的准确率，同时通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解，充分利用了数据挖掘算法性能，为时间序列异常信号的风险性预警提供了可靠的方法和途径。

Description

一种数据驱动异常检测与预警系统

技术领域

本发明涉及数据驱动异常检测与预警系统技术领域，尤其涉及一种数据驱动异常检测与预警系统。

背景技术

作为实体经济的重要支柱的工业生产，对国家的发展与社会的进步有着极大的推动作用。但是在如今自动化生产已经普及的现在，机器运行很容易出现一些小问题，从而导致系统处于异常状态。有时候设备参数出现的很小的变化会引起灾难性的祸事，近几年越来越多的化工厂爆炸事件可见一斑。这样的风险存在给工业生产与分析造成了极大影响，一般的生产过程中采用传感器来对机器的运行状态进行实时检测，而且异常状态不是受单一变量的影响，多数情况下为了保证数据的可靠性选择使用多个传感器来测量一种生产状态。在数据驱动的时代，传感器产生的海量数据需要转化成为生产的风险评估和异常检测结果，这就需要利用相关数学模型及科学研究方法来解决，从而保证安全防范风险推动生产企业高质量发展。

对于异常数据的检测与预警问题，众多学者进行了研究。田鹤、郭凯红、王彦超等人为了解决物联网数据源头的可靠问题，构建一种基于感知源的数据驱动信任评测模型。模型以监测模块为评测单元，由中继节点完成其所在监测模块内感知节点的信任评测，通过感知节点自身数据之间的关系实现直接信任的计算，利用监测模块内各邻居节点之间关系实现推荐信任的计算，再结合历史信任，输出感知节点的综合信任。同时与模型预设的可疑阈值和异常阈值进行对比，更新历史信任和信任列表，实现感知节点的异常检测，利用预警检测误差和失信检测误差对模型的检测效果进行评价，统计结果表明模型能够保持较低的平均误差。周忠强、韩松等人提出了一种基于样本协方差矩阵最大特征值的低信噪比场景的电网异常状态检测方法。该方法源于随机矩阵理论，通过数据源矩阵的构造，窗口数据矩阵及其标准矩阵的构建，进而形成其样本协方差矩阵。通过该矩阵的最大特征值计算与越限判别，实现电网态势感知与预警。杨甲森、孟新、陈托等人对基于遥测数据相关性的航天器异常检测问题进行了研究，指出传统航天器异常检测方法的知识和模型很难自动化构建，而纯数据驱动方法会忽略系统设计知识和遥测数据本身的特性，造成先验知识的浪费。针对这些问题，提出一种基于遥测数据相关性的航天器异常检测方法。首先，给出遥测数据相关性的定义，结合量子卫星任务实例，对单维度遥测数据的6种领域相关性进行建模和向量表示。随后，提出一种遥测数据驱动进行相关性知识发现，进而将知识应用于异常检测的方法。最后，利用量子卫星数据，基于真实故障特征的模拟数据对该方法进行了验证。实验与分析结果表明：该方法能够实现航天器异常检测知识构建的自动化，且可以有效检测出遥测数据的异常。大型数据传输中对其信息的异常预警，能够有效保障大规模数据驱动器安全平稳运行。张悦、林亚平等人提出基于自助式信息流模型的异常预警方法，采用十字转门模型来描述大型数据传输信息流，实时记录自助式信息流到sketch数据结构中的频率；引入动态模糊集，采用模糊综合评价方法对不同层次的异常预警指标构成不同的因素集进行计算；并赋予相应权重得到权重向量，构造单因素动态模糊异常预警矩阵，完成数据驱动器信息异常的快速预警。实验结果证明所提方法能够准确检测到大型数据传输信息追溯过程中的异常行为，判断异常预警等级。王东阳对面向云计算的异常检测技术进行了研究，基于局部异常因子(LOF)算法设计了自适应的在线实时异常检测机制。LOF算法根据局部密度为每个测试数据计算异常分数，异常分数说明了该测试数据的异常程度。该异常检测机制工作于半监督模式下，也适用于非监督模式，允许训练数据中存在少量异常。同时，该机制可以自动根据最近的系统行为特征改变自身的正常行为模型，是一种数据驱动的、适用范围广、通用性好的在线实时异常检测机制。

但是目前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂，且对于的异常数据的判定方法简单，导致时序概率潮流的计算效率低、异常数据的判定准确率较低的问题，因此，我们提出一种数据驱动异常检测与预警系统用于解决上述问题。

发明内容

本发明的目的是为了解决目前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂，且对于的异常数据的判定方法简单，导致时序概率潮流的计算效率低、异常数据的判定准确率较低等问题，而提出的一种数据驱动异常检测与预警系统。

为了实现上述目的，本发明采用了如下技术方案：

一种数据驱动异常检测与预警系统，包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块，所述处理模块与建立模块连接，所述建立模块分别与计算模块、检验模块以及构建模块连接，所述计算模块分别与求解模块、判定模块以及整理模块连接，所述求解模块与判定模块连接，所述整理模块与打分模块连接，所述打分模块与检验模块连接，所述建立模块与构建模块连接；

优选的，所述处理模块用于进行模型假设建立和建模符号说明，所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型，所述计算模块用于通过公式进行计算，所述求解模块用于通过模型进行求解，所述判定模块用于通过判定标准对异常数据进行判定，所述整理模块用于在前面得到的异常数据的基础上进行整理，所述打分模块用于对异常数据的异常程度进行打分，所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验，所述构建模块用于构建数据驱动异常检测与预警系统；

其构建方法包括以下步骤：

S1：进行处理：由专业人员进行处理，其中所述处理过程包括模型假设建立和建模符号说明；

S2：建立模型：由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型，同时基于主成分分析的风险性异常建立预警模型；

S3：进行量化：由专业人员对前面得到的异常数据的基础上进行整理，并建立主成分分析模型对异常数据进行量化；

S4：构建系统：由专业人员进行后续处理，并通过建立的模型建立数据驱动异常检测与预警系统；

优选的，所述S1中，由专业人员进行处理，其中所述处理过程包括模型假设建立和建模符号说明，且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的，假设所有的传感器都是正常工作，假设所有的数据都是真实有效的，假设收集的数据都是非线性相关的，假设无监督情况下的所得结果真实有效，假设所有时刻对应的数据组均为异常数据，假设异常数据仅能分为非风险性数据与风险性数据，假设量化模型建立合理有效，进行建模符号说明时所述建模符号包括

ω_ih、ω_ho、b_h、b_o、k、f(·)、Mode、V_r、F_i、y_i，其中所述

为输入向量，所述

为隐含层输入向量，所述

为隐含层输出向量，所述

为输出层输入向量，所述

为输出向量，所述

为期望输出向量，所述ω_ih为输入层与隐含层的连接权值，所述ω_ho为隐含层与输出层的连接权值，所述b_h为隐含层各神经元的阀值，所述b_o为输出层各神经元的阀值，所述k为样本数据个数，所述f(·)为激活函数，所述Mode为众数，所述V_r为异众比率，所述F_i为因子，所述y_i为风险得分；

优选的，所述S2中，由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型，同时基于主成分分析的风险性异常建立预警模型，其中所述聚类分析是将对象按照相似性度量指标划分成若干类，且同一类别中分类对象彼此相似，所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标，并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类，同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类，其中将每一类视为一种聚类场景，并计算每种场景发生的概率，所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的，且所述待分类光伏出力与负荷数据样本组矩阵X为

其中f为随机变量样本组矩阵中所含变量数，x_i(i＝1,2,…,f)为第i组随机变量q为每个变量组中的观测值数目，x_ij(i＝1,2,…,f；j＝1,2,…,q))为第i组随机变量中的第f个观测值，通过给定聚类数c和幂函数m确定定隶属度终止容限ε以及初始隶属度矩阵

其中c＞1，m＞1，

为初始状态第k个变量组相对于第i类的隶属度，并利用所述待分类光伏出力与负荷数据样本组矩阵X计算光伏与负荷数据的场景聚类中心矩阵

其中还包括公式

其中

为第L次迭代第i类场景聚类中心，

为第L-1次迭代第k个变量组相对于第i类的隶属度，光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中，并对目标函数J^(L)进行优化更正隶属度矩阵，其中所述代入公式为

所述J^(L)为聚类算法目标函数，

并将隶属度终止容限ε为指标判定算法迭代结束条件，其中

则聚类结束，否则继续进行代入公式计算，通过计算继续进行算法迭代，且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数n_i，并计算各类场景发生概率，其中进行各类场景发生概率计算采用公式为p_si＝n_i/f，计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解，其中进行求解时先通过Excel初步清洗出具有波动性的数据，并将规律性、独立性、偶发性作为非风险性异常数据的判定标准，将持续性、联动性作为风险性数据的判定标准，通过上述建立的模糊C均值聚类模型进行判别，进行数据清洗时先将数据划分为三类，并由专业人员基于主成分分析的风险性异常建立预警模型，其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示，并使用相互独立的变量来表示原本数据中的许多相关联的变量，同时通过时间序列分析获得时间的演变和发展，并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势，其中在使用主成分分析时采用多个主成分进行分析，且所述主成分之间相互独立，使用主成分分析时第一步对原始数据进行标准化，其中所述标准化是将m个指标表示为x₁,x₂,…,x_m，将n个评价指标中将第i个评价变量的第j个指标表示为a_ij,i＝1,2,…,n,j＝1,2,…,m，通过表示将指标值a_ij转变为标准值

所述标准值

的计算公式为

其中

所述μ_j和s_j表示第j个指标的样本平均值以及样本标准差，标准化指标变量计算公式为

原始数据标准化完成后计算相关矩阵R，其中对于相关系数矩阵R＝(r_ij)_m×m则有计算公式

其中r_ij＝1,r_ij＝r_ji,r_ij表示的是第i个指标以及第j个指标的相关系数，相关矩阵R计算完成后计算特征值与特征向量，通过计算相关系数矩阵R的特征值λ₁≥λ₂≥…≥λ_m≥0,和相对应的特征向量μ₁,μ₂,…,μ_m,其中μ_j＝[μ_1j,μ_2j,…,μ_mj]^T，并通过特征向量组成新的m个指标变量为

其中y₁,y₂,…y_m分别表示的是第1,2,…m个主成分，特征值与特征向量计算完成后选择p个主成分，其中p≤m，通过选择的p个主成分来计算综合评价值，其中进行综合评价值计算时先计算特征值λ_j(j＝1,2,…,m)的信息贡献率和累计贡献率，其中主成分y_j的信息贡献率的定义公式为

主成分y₁,y₂,…,y_p的累计贡献率的定义公式为

且α_p的值接近1时则选择前面的p个指标变量y₁,y₂,…,y_p作为p个主成分，并代替原来的m个指标变量，进行综合分析计算出综合得分，其中综合得分计算公式为

其中b_j为第j个主成分的信息贡献率，并通过参照综合得分进行评价；

优选的，所述S3中，由专业人员在前面得到的异常数据的基础上进行整理，并建立主成分分析模型对异常数据进行量化，通过利用主成分对异常数据的异常程度进行打分，并将分数转化成为百分制，其中主成分模型中采用的的量化公式为

且

a代表当前值，b代表众数，V_r代表的是异众比率，x,y分别代表最大最小值，Mode代表众数，n表示样本的个数，N代表所有样本数，c表示非众数个数，通过所述过程找到前五个高分及其所对应的时刻，其中所述五个时刻每个时刻都有100个传感器的数据，通过对每个时刻的100个传感器数据先进行标准化，标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器；

优选的，所述S4中，由专业人员对风险性异常数据异常程度量化模型进行模型检验，其中进行模型检验时通过spss对异常程度得分进行描述性分析，通过分析结果进行判断，其中分析结果服从正态分布与3σ原则则说明得分的可信度高，并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性，并由专业人员建立基于BP神经网络的生产系统安全性评价模型，其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立，根据BP算法，一个神经元的网络输出公式是

其中

表示该神经元所接受的输入，

表示该神经元所对应的连接权值，所述神经元的输出公式为

通过神经元的输出公式获得y关于net的导数公式为

且

通过S型激活函数得出y的值域为(0，1)，并通过计算确定f′(net)的值域为(0,0.25)，且在y＝0.5时f′(net)存在最大值，计算完成后由专业人员基于BP神经网络的生产系统安全性评价模型的求解，其中进行求解时基于模糊c均值聚类的风险性异常数据异常程度量化评价模型将数据分成六类，并根据风险异常数据特点将1、2两类对应的数据归为风险数据，基于分类完成的数据进行BP神经网络模型的求解，将前23小时的风险异常数据作为训练集，将23时的风险性聚类结果作为训练标签获得对未来一小时数据的风险性异常预测，并通过MATLAB运行出的模拟预测结果，同时将未来一小时的风险性异常数据代入基于主成分分析的风险性异常预警模型中，通过该模型对预测数据进行风险性异常程度的量化得出最高异常分值及对应的异常传感器编号，最终由专业人员通过建立的模型构建数据驱动异常检测与预警系统。

与现有技术相比，本发明的有益效果是：

1、通过模型求解得到了异常数据判定优化解，提高了系统异常检测与预警的准确率。

2、通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解，充分利用了数据挖掘算法性能，为时间序列异常信号的风险性预警提供了可靠的方法和途径。

本发明的目的是通过模型求解得到了异常数据判定优化解，提高了系统异常检测与预警的准确率，同时通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解，充分利用了数据挖掘算法性能，为时间序列异常信号的风险性预警提供了可靠的方法和途径。

附图说明

图1为本发明提出的一种数据驱动异常检测与预警系统的结构图；

图2为本发明提出的一种数据驱动异常检测与预警系统的构建流程图；

图3为本发明提出的一种数据驱动异常检测与预警系统的散点图1；

图4为本发明提出的一种数据驱动异常检测与预警系统的细分后的散点图2；

图5为本发明提出的一种数据驱动异常检测与预警系统的R型聚类结果树状图；

图6为本发明提出的一种数据驱动异常检测与预警系统的Performance绘图结果图；

图7为本发明提出的一种数据驱动异常检测与预警系统的Training state绘图结果图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例一

参照图1-7，一种数据驱动异常检测与预警系统，包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块，所述处理模块与建立模块连接，所述建立模块分别与计算模块、检验模块以及构建模块连接，所述计算模块分别与求解模块、判定模块以及整理模块连接，所述求解模块与判定模块连接，所述整理模块与打分模块连接，所述打分模块与检验模块连接，所述建立模块与构建模块连接，其中所述处理模块用于进行模型假设建立和建模符号说明，所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型，所述计算模块用于通过公式进行计算，所述求解模块用于通过模型进行求解，所述判定模块用于通过判定标准对异常数据进行判定，所述整理模块用于在前面得到的异常数据的基础上进行整理，所述打分模块用于对异常数据的异常程度进行打分，所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验，所述构建模块用于构建数据驱动异常检测与预警系统；

其构建方法包括以下步骤：

S1：进行处理：由专业人员进行处理，其中所述处理过程包括模型假设建立和建模符号说明，且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的，假设所有的传感器都是正常工作，假设所有的数据都是真实有效的，假设收集的数据都是非线性相关的，假设无监督情况下的所得结果真实有效，假设所有时刻对应的数据组均为异常数据，假设异常数据仅能分为非风险性数据与风险性数据，假设量化模型建立合理有效，进行建模符号说明时所述建模符号包括

ω_ih、ω_ho、b_h、b_o、k、f(·)、Mode、V_r、F_i、y_i，其中所述

为输入向量，所述

为隐含层输入向量，所述

为隐含层输出向量，所述

为输出层输入向量，所述

为输出向量，所述

S2：建立模型：由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型，同时基于主成分分析的风险性异常建立预警模型，其中所述聚类分析是将对象按照相似性度量指标划分成若干类，且同一类别中分类对象彼此相似，所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标，并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类，同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类，其中将每一类视为一种聚类场景，并计算每种场景发生的概率，所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的，且所述待分类光伏出力与负荷数据样本组矩阵X为

其中c＞1，m＞1，

其中还包括公式

其中

为第L次迭代第i类场景聚类中心，

所述J^(L)为聚类算法目标函数，

并将隶属度终止容限ε为指标判定算法迭代结束条件，其中

则聚类结束，否则继续进行代入公式计算，通过计算继续进行算法迭代，且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数n_i，并计算各类场景发生概率，其中进行各类场景发生概率计算采用公式为p_si＝n_i/f，计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解，其中进行求解时先通过Excel初步清洗出具有波动性的数据，并将规律性、独立性、偶发性作为非风险性异常数据的判定标准，将持续性、联动性作为风险性数据的判定标准，通过上述建立的模糊C均值聚类模型进行判别，进行数据清洗时先将数据划分为三类，并通过R软件得到散点图1，通过散点图1查看结果以及异常数据具有的特点进一步将数据细分为六类获得散点图2，并通过细分为六类的散点图2查看异常数据，同时根据风险性异常数据的评判标准将散点图2中的1、2类归结为风险性异常数据，3、4、5、6类归结为非风险性异常数据，并由专业人员基于主成分分析的风险性异常建立预警模型，其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示，并使用相互独立的变量来表示原本数据中的许多相关联的变量，同时通过时间序列分析获得时间的演变和发展，并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势，其中在使用主成分分析时采用多个主成分进行分析，且所述主成分之间相互独立，使用主成分分析时第一步对原始数据进行标准化，其中所述标准化是将m个指标表示为x₁,x₂,…,x_m，将n个评价指标中将第i个评价变量的第j个指标表示为a_ij,i＝1,2,…,n,j＝1,2,…,m，通过表示将指标值a_ij转变为标准值

所述标准值

的计算公式为

其中

主成分y₁,y₂,…,y_p的累计贡献率的定义公式为

S3：进行量化：由专业人员在前面得到的异常数据的基础上进行整理，并建立主成分分析模型对异常数据进行量化，通过利用主成分对异常数据的异常程度进行打分，并将分数转化成为百分制，其中主成分模型中采用的的量化公式为

且

S4：构建系统：由专业人员对风险性异常数据异常程度量化模型进行模型检验，其中进行模型检验时通过spss对异常程度得分进行描述性分析，通过分析结果进行判断，其中分析结果服从正态分布与3σ原则则说明得分的可信度高，并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性，并由专业人员建立基于BP神经网络的生产系统安全性评价模型，其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立，根据BP算法，一个神经元的网络输出公式是

其中

表示该神经元所接受的输入，

表示该神经元所对应的连接权值，所述神经元的输出公式为

通过神经元的输出公式获得y关于net的导数公式为

且

实施例二

其构建方法包括以下步骤：

ω_ih、ω_ho、b_h、b_o、k、f(·)、Mode、V_r、F_i、y_i；

其中c＞1，m＞1，

其中还包括公式

其中

为第L次迭代第i类场景聚类中心，

所述J^(L)为聚类算法目标函数，

并将隶属度终止容限ε为指标判定算法迭代结束条件，其中

则聚类结束，否则继续进行代入公式计算，通过计算继续进行算法迭代，且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数n_i，并计算各类场景发生概率，其中进行各类场景发生概率计算采用公式为p_si＝n_i/f，计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解，其中进行求解时先通过Excel初步清洗出具有波动性的数据，并将规律性、独立性、偶发性作为非风险性异常数据的判定标准，将持续性、联动性作为风险性数据的判定标准，通过上述建立的模糊C均值聚类模型进行判别，进行数据清洗时先将数据划分为三类，并通过R软件得到散点图1，通过散点图1查看结果以及异常数据具有的特点进一步将数据细分为六类获得散点图2，并通过细分为六类的散点图2查看异常数据，同时根据风险性异常数据的评判标准将散点图2中的1、2类归结为风险性异常数据，3、4、5、6类归结为非风险性异常数据，并由专业人员基于主成分分析的风险性异常建立预警模型，其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示，并使用相互独立的变量来表示原本数据中的许多相关联的变量，同时通过时间序列分析获得时间的演变和发展，并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势，其中在使用主成分分析时采用多个主成分进行分析，且所述主成分之间相互独立，使用主成分分析时第一步对原始数据进行标准化，其中所述标准化是将m个指标表示为x1,x2,…,x_m，将n个评价指标中将第i个评价变量的第j个指标表示为a_ij,i＝1,2,…,n,j＝1,2,…,m，通过表示将指标值a_ij转变为标准值

所述标准值

的计算公式为

其中

主成分y₁,y₂,…,y_p的累计贡献率的定义公式为

且

其中

表示该神经元所接受的输入，

表示该神经元所对应的连接权值，所述神经元的输出公式为

通过神经元的输出公式获得y关于net的导数公式为

且

将实施例一和实施例二中一种数据驱动异常检测与预警系统进行试验，得出结果如下：

实施例一和实施例二制得的数据驱动异常检测与预警系统对比现有系统系统异常检测与预警的准确率有了显著提高，且实施例一为最佳实施例。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据驱动异常检测与预警系统，包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块，其特征在于，所述处理模块与建立模块连接，所述建立模块分别与计算模块、检验模块以及构建模块连接，所述计算模块分别与求解模块、判定模块以及整理模块连接，所述求解模块与判定模块连接，所述整理模块与打分模块连接，所述打分模块与检验模块连接，所述建立模块与构建模块连接。

2.根据权利要求1所述的一种数据驱动异常检测与预警系统，其特征在于，所述处理模块用于进行模型假设建立和建模符号说明，所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型，所述计算模块用于通过公式进行计算，所述求解模块用于通过模型进行求解，所述判定模块用于通过判定标准对异常数据进行判定，所述整理模块用于在前面得到的异常数据的基础上进行整理，所述打分模块用于对异常数据的异常程度进行打分，所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验，所述构建模块用于构建数据驱动异常检测与预警系统。

3.根据权利要求1所述的一种数据驱动异常检测与预警系统，其特征在于，其构建方法包括以下步骤：

S4：构建系统：由专业人员进行后续处理，并通过建立的模型建立数据驱动异常检测与预警系统。

4.根据权利要求3所述的一种数据驱动异常检测与预警系统，其特征在于，所述S1中，由专业人员进行处理，其中所述处理过程包括模型假设建立和建模符号说明，且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的，假设所有的传感器都是正常工作，假设所有的数据都是真实有效的，假设收集的数据都是非线性相关的，假设无监督情况下的所得结果真实有效，假设所有时刻对应的数据组均为异常数据，假设异常数据仅能分为非风险性数据与风险性数据，假设量化模型建立合理有效，进行建模符号说明时所述建模符号包括

ω_ih、ω_ho、b_h、b_o、k、f(·)、Mode、V_r、F_i、y_i，其中所述

为输入向量，所述

为隐含层输入向量，所述

为隐含层输出向量，所述

为输出层输入向量，所述

为输出向量，所述

为期望输出向量，所述ω_ih为输入层与隐含层的连接权值，所述ω_ho为隐含层与输出层的连接权值，所述b_h为隐含层各神经元的阀值，所述b_o为输出层各神经元的阀值，所述k为样本数据个数，所述f(·)为激活函数，所述Mode为众数，所述V_r为异众比率，所述F_i为因子，所述y_i为风险得分。

5.根据权利要求3所述的一种数据驱动异常检测与预警系统，其特征在于，所述S2中，由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型，同时基于主成分分析的风险性异常建立预警模型，其中所述聚类分析是将对象按照相似性度量指标划分成若干类，且同一类别中分类对象彼此相似，所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标，并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类，同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类，其中将每一类视为一种聚类场景，并计算每种场景发生的概率，所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的，且所述待分类光伏出力与负荷数据样本组矩阵X为

其中c＞1，m＞1，

其中还包括公式

其中

为第L次迭代第i类场景聚类中心，

为第L-1次迭代第k个变量组相对于第i类的隶属度，光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中，并对目标函数J^(L)进行优化更正隶属度矩阵，其中所述代入公式为J^(L)(U^(L)，

所述J^(L)为聚类算法目标函数，

并将隶属度终止容限ε为指标判定算法迭代结束条件，其中

则聚类结束，否则继续进行代入公式计算，通过计算继续进行算法迭代，且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数n_i，并计算各类场景发生概率，其中进行各类场景发生概率计算采用公式为p_si＝n_i/f，计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解，其中进行求解时先通过Excel初步清洗出具有波动性的数据，并将规律性、独立性、偶发性作为非风险性异常数据的判定标准，将持续性、联动性作为风险性数据的判定标准，通过上述建立的模糊C均值聚类模型进行判别，进行数据清洗时先将数据划分为三类。

6.根据权利要求5所述的一种数据驱动异常检测与预警系统，其特征在于，由专业人员基于主成分分析的风险性异常建立预警模型，其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示，并使用相互独立的变量来表示原本数据中的许多相关联的变量，同时通过时间序列分析获得时间的演变和发展，并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势，其中在使用主成分分析时采用多个主成分进行分析，且所述主成分之间相互独立，使用主成分分析时第一步对原始数据进行标准化，其中所述标准化是将m个指标表示为x₁,x₂,…,x_m，将n个评价指标中将第i个评价变量的第j个指标表示为a_ij,i＝1,2,…,n,j＝1,2,…,m，通过表示将指标值a_ij转变为标准值

所述标准值

的计算公式为

其中

主成分y₁,y₂,…,y_p的累计贡献率的定义公式为

其中b_j为第j个主成分的信息贡献率，并通过参照综合得分进行评价。

7.根据权利要求3所述的一种数据驱动异常检测与预警系统，其特征在于，所述S3中，由专业人员在前面得到的异常数据的基础上进行整理，并建立主成分分析模型对异常数据进行量化，通过利用主成分对异常数据的异常程度进行打分，并将分数转化成为百分制，其中主成分模型中采用的的量化公式为

且

a代表当前值，b代表众数，V_r代表的是异众比率，x,y分别代表最大最小值，Mode代表众数，n表示样本的个数，N代表所有样本数，c表示非众数个数，通过所述过程找到前五个高分及其所对应的时刻，其中所述五个时刻每个时刻都有100个传感器的数据，通过对每个时刻的100个传感器数据先进行标准化，标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器。

8.根据权利要求3所述的一种数据驱动异常检测与预警系统，其特征在于，所述S4中，由专业人员对风险性异常数据异常程度量化模型进行模型检验，其中进行模型检验时通过spss对异常程度得分进行描述性分析，通过分析结果进行判断，其中分析结果服从正态分布与3σ原则则说明得分的可信度高，并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性，并由专业人员建立基于BP神经网络的生产系统安全性评价模型，其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立，根据BP算法，一个神经元的网络输出公式是

其中

表示该神经元所接受的输入，

表示该神经元所对应的连接权值，所述神经元的输出公式为

通过神经元的输出公式获得y关于net的导数公式为

且