CN116109039A - 一种数据驱动异常检测与预警系统 - Google Patents

一种数据驱动异常检测与预警系统 Download PDF

Info

Publication number
CN116109039A
CN116109039A CN202310151399.2A CN202310151399A CN116109039A CN 116109039 A CN116109039 A CN 116109039A CN 202310151399 A CN202310151399 A CN 202310151399A CN 116109039 A CN116109039 A CN 116109039A
Authority
CN
China
Prior art keywords
data
anomaly
module
model
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310151399.2A
Other languages
English (en)
Inventor
文传军
周晓
陈静
周宇
赵羚羽
姚素婷
聂雨培
陆雨彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Polytechnic College
Original Assignee
Yangzhou Polytechnic College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Polytechnic College filed Critical Yangzhou Polytechnic College
Priority to CN202310151399.2A priority Critical patent/CN116109039A/zh
Publication of CN116109039A publication Critical patent/CN116109039A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及数据驱动异常检测与预警系统技术领域,尤其涉及一种数据驱动异常检测与预警系统,针对当前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂,且对于的异常数据的判定方法简单,导致时序概率潮流的计算效率低、异常数据的判定准确率较低的问题,现提出如下方案,其中包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块,本发明的目的是通过模型求解得到了异常数据判定优化解,提高了系统异常检测与预警的准确率,同时通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解,充分利用了数据挖掘算法性能,为时间序列异常信号的风险性预警提供了可靠的方法和途径。

Description

一种数据驱动异常检测与预警系统
技术领域
本发明涉及数据驱动异常检测与预警系统技术领域,尤其涉及一种数据驱动异常检测与预警系统。
背景技术
作为实体经济的重要支柱的工业生产,对国家的发展与社会的进步有着极大的推动作用。但是在如今自动化生产已经普及的现在,机器运行很容易出现一些小问题,从而导致系统处于异常状态。有时候设备参数出现的很小的变化会引起灾难性的祸事,近几年越来越多的化工厂爆炸事件可见一斑。这样的风险存在给工业生产与分析造成了极大影响,一般的生产过程中采用传感器来对机器的运行状态进行实时检测,而且异常状态不是受单一变量的影响,多数情况下为了保证数据的可靠性选择使用多个传感器来测量一种生产状态。在数据驱动的时代,传感器产生的海量数据需要转化成为生产的风险评估和异常检测结果,这就需要利用相关数学模型及科学研究方法来解决,从而保证安全防范风险推动生产企业高质量发展。
对于异常数据的检测与预警问题,众多学者进行了研究。田鹤、郭凯红、王彦超等人为了解决物联网数据源头的可靠问题,构建一种基于感知源的数据驱动信任评测模型。模型以监测模块为评测单元,由中继节点完成其所在监测模块内感知节点的信任评测,通过感知节点自身数据之间的关系实现直接信任的计算,利用监测模块内各邻居节点之间关系实现推荐信任的计算,再结合历史信任,输出感知节点的综合信任。同时与模型预设的可疑阈值和异常阈值进行对比,更新历史信任和信任列表,实现感知节点的异常检测,利用预警检测误差和失信检测误差对模型的检测效果进行评价,统计结果表明模型能够保持较低的平均误差。周忠强、韩松等人提出了一种基于样本协方差矩阵最大特征值的低信噪比场景的电网异常状态检测方法。该方法源于随机矩阵理论,通过数据源矩阵的构造,窗口数据矩阵及其标准矩阵的构建,进而形成其样本协方差矩阵。通过该矩阵的最大特征值计算与越限判别,实现电网态势感知与预警。杨甲森、孟新、陈托等人对基于遥测数据相关性的航天器异常检测问题进行了研究,指出传统航天器异常检测方法的知识和模型很难自动化构建,而纯数据驱动方法会忽略系统设计知识和遥测数据本身的特性,造成先验知识的浪费。针对这些问题,提出一种基于遥测数据相关性的航天器异常检测方法。首先,给出遥测数据相关性的定义,结合量子卫星任务实例,对单维度遥测数据的6种领域相关性进行建模和向量表示。随后,提出一种遥测数据驱动进行相关性知识发现,进而将知识应用于异常检测的方法。最后,利用量子卫星数据,基于真实故障特征的模拟数据对该方法进行了验证。实验与分析结果表明:该方法能够实现航天器异常检测知识构建的自动化,且可以有效检测出遥测数据的异常。大型数据传输中对其信息的异常预警,能够有效保障大规模数据驱动器安全平稳运行。张悦、林亚平等人提出基于自助式信息流模型的异常预警方法,采用十字转门模型来描述大型数据传输信息流,实时记录自助式信息流到sketch数据结构中的频率;引入动态模糊集,采用模糊综合评价方法对不同层次的异常预警指标构成不同的因素集进行计算;并赋予相应权重得到权重向量,构造单因素动态模糊异常预警矩阵,完成数据驱动器信息异常的快速预警。实验结果证明所提方法能够准确检测到大型数据传输信息追溯过程中的异常行为,判断异常预警等级。王东阳对面向云计算的异常检测技术进行了研究,基于局部异常因子(LOF)算法设计了自适应的在线实时异常检测机制。LOF算法根据局部密度为每个测试数据计算异常分数,异常分数说明了该测试数据的异常程度。该异常检测机制工作于半监督模式下,也适用于非监督模式,允许训练数据中存在少量异常。同时,该机制可以自动根据最近的系统行为特征改变自身的正常行为模型,是一种数据驱动的、适用范围广、通用性好的在线实时异常检测机制。
但是目前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂,且对于的异常数据的判定方法简单,导致时序概率潮流的计算效率低、异常数据的判定准确率较低的问题,因此,我们提出一种数据驱动异常检测与预警系统用于解决上述问题。
发明内容
本发明的目的是为了解决目前现有的数据驱动异常检测与预警系统技术仍存在时序概率潮流计算输入变量较复杂,且对于的异常数据的判定方法简单,导致时序概率潮流的计算效率低、异常数据的判定准确率较低等问题,而提出的一种数据驱动异常检测与预警系统。
为了实现上述目的,本发明采用了如下技术方案:
一种数据驱动异常检测与预警系统,包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块,所述处理模块与建立模块连接,所述建立模块分别与计算模块、检验模块以及构建模块连接,所述计算模块分别与求解模块、判定模块以及整理模块连接,所述求解模块与判定模块连接,所述整理模块与打分模块连接,所述打分模块与检验模块连接,所述建立模块与构建模块连接;
优选的,所述处理模块用于进行模型假设建立和建模符号说明,所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型,所述计算模块用于通过公式进行计算,所述求解模块用于通过模型进行求解,所述判定模块用于通过判定标准对异常数据进行判定,所述整理模块用于在前面得到的异常数据的基础上进行整理,所述打分模块用于对异常数据的异常程度进行打分,所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验,所述构建模块用于构建数据驱动异常检测与预警系统;
其构建方法包括以下步骤:
S1:进行处理:由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明;
S2:建立模型:由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型;
S3:进行量化:由专业人员对前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化;
S4:构建系统:由专业人员进行后续处理,并通过建立的模型建立数据驱动异常检测与预警系统;
优选的,所述S1中,由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明,且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的,假设所有的传感器都是正常工作,假设所有的数据都是真实有效的,假设收集的数据都是非线性相关的,假设无监督情况下的所得结果真实有效,假设所有时刻对应的数据组均为异常数据,假设异常数据仅能分为非风险性数据与风险性数据,假设量化模型建立合理有效,进行建模符号说明时所述建模符号包括
Figure BDA0004090918980000051
ωih、ωho、bh、bo、k、f(·)、Mode、Vr、Fi、yi,其中所述
Figure BDA0004090918980000052
为输入向量,所述
Figure BDA0004090918980000053
为隐含层输入向量,所述
Figure BDA0004090918980000054
为隐含层输出向量,所述
Figure BDA0004090918980000055
为输出层输入向量,所述
Figure BDA0004090918980000056
为输出向量,所述
Figure BDA0004090918980000057
为期望输出向量,所述ωih为输入层与隐含层的连接权值,所述ωho为隐含层与输出层的连接权值,所述bh为隐含层各神经元的阀值,所述bo为输出层各神经元的阀值,所述k为样本数据个数,所述f(·)为激活函数,所述Mode为众数,所述Vr为异众比率,所述Fi为因子,所述yi为风险得分;
优选的,所述S2中,由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型,其中所述聚类分析是将对象按照相似性度量指标划分成若干类,且同一类别中分类对象彼此相似,所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标,并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类,同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类,其中将每一类视为一种聚类场景,并计算每种场景发生的概率,所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的,且所述待分类光伏出力与负荷数据样本组矩阵X为
Figure BDA0004090918980000061
其中f为随机变量样本组矩阵中所含变量数,xi(i=1,2,…,f)为第i组随机变量q为每个变量组中的观测值数目,xij(i=1,2,…,f;j=1,2,…,q))为第i组随机变量中的第f个观测值,通过给定聚类数c和幂函数m确定定隶属度终止容限ε以及初始隶属度矩阵
Figure BDA0004090918980000062
其中c>1,m>1,
Figure BDA0004090918980000063
为初始状态第k个变量组相对于第i类的隶属度,并利用所述待分类光伏出力与负荷数据样本组矩阵X计算光伏与负荷数据的场景聚类中心矩阵
Figure BDA0004090918980000064
其中还包括公式
Figure BDA0004090918980000065
其中
Figure BDA0004090918980000066
为第L次迭代第i类场景聚类中心,
Figure BDA0004090918980000067
为第L-1次迭代第k个变量组相对于第i类的隶属度,光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中,并对目标函数J(L)进行优化更正隶属度矩阵,其中所述代入公式为
Figure BDA0004090918980000071
所述J(L)为聚类算法目标函数,
Figure BDA0004090918980000072
并将隶属度终止容限ε为指标判定算法迭代结束条件,其中
Figure BDA0004090918980000073
则聚类结束,否则继续进行代入公式计算,通过计算继续进行算法迭代,且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数ni,并计算各类场景发生概率,其中进行各类场景发生概率计算采用公式为psi=ni/f,计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解,其中进行求解时先通过Excel初步清洗出具有波动性的数据,并将规律性、独立性、偶发性作为非风险性异常数据的判定标准,将持续性、联动性作为风险性数据的判定标准,通过上述建立的模糊C均值聚类模型进行判别,进行数据清洗时先将数据划分为三类,并由专业人员基于主成分分析的风险性异常建立预警模型,其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示,并使用相互独立的变量来表示原本数据中的许多相关联的变量,同时通过时间序列分析获得时间的演变和发展,并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势,其中在使用主成分分析时采用多个主成分进行分析,且所述主成分之间相互独立,使用主成分分析时第一步对原始数据进行标准化,其中所述标准化是将m个指标表示为x1,x2,…,xm,将n个评价指标中将第i个评价变量的第j个指标表示为aij,i=1,2,…,n,j=1,2,…,m,通过表示将指标值aij转变为标准值
Figure BDA0004090918980000074
所述标准值
Figure BDA0004090918980000081
的计算公式为
Figure BDA0004090918980000082
其中
Figure BDA0004090918980000083
所述μj和sj表示第j个指标的样本平均值以及样本标准差,标准化指标变量计算公式为
Figure BDA0004090918980000084
原始数据标准化完成后计算相关矩阵R,其中对于相关系数矩阵R=(rij)m×m则有计算公式
Figure BDA0004090918980000085
其中rij=1,rij=rji,rij表示的是第i个指标以及第j个指标的相关系数,相关矩阵R计算完成后计算特征值与特征向量,通过计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,和相对应的特征向量μ12,…,μm,其中μj=[μ1j2j,…,μmj]T,并通过特征向量组成新的m个指标变量为
Figure BDA0004090918980000086
其中y1,y2,…ym分别表示的是第1,2,…m个主成分,特征值与特征向量计算完成后选择p个主成分,其中p≤m,通过选择的p个主成分来计算综合评价值,其中进行综合评价值计算时先计算特征值λj(j=1,2,…,m)的信息贡献率和累计贡献率,其中主成分yj的信息贡献率的定义公式为
Figure BDA0004090918980000087
主成分y1,y2,…,yp的累计贡献率的定义公式为
Figure BDA0004090918980000088
且αp的值接近1时则选择前面的p个指标变量y1,y2,…,yp作为p个主成分,并代替原来的m个指标变量,进行综合分析计算出综合得分,其中综合得分计算公式为
Figure BDA0004090918980000091
其中bj为第j个主成分的信息贡献率,并通过参照综合得分进行评价;
优选的,所述S3中,由专业人员在前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化,通过利用主成分对异常数据的异常程度进行打分,并将分数转化成为百分制,其中主成分模型中采用的的量化公式为
Figure BDA0004090918980000092
Figure BDA0004090918980000093
a代表当前值,b代表众数,Vr代表的是异众比率,x,y分别代表最大最小值,Mode代表众数,n表示样本的个数,N代表所有样本数,c表示非众数个数,通过所述过程找到前五个高分及其所对应的时刻,其中所述五个时刻每个时刻都有100个传感器的数据,通过对每个时刻的100个传感器数据先进行标准化,标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器;
优选的,所述S4中,由专业人员对风险性异常数据异常程度量化模型进行模型检验,其中进行模型检验时通过spss对异常程度得分进行描述性分析,通过分析结果进行判断,其中分析结果服从正态分布与3σ原则则说明得分的可信度高,并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性,并由专业人员建立基于BP神经网络的生产系统安全性评价模型,其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立,根据BP算法,一个神经元的网络输出公式是
Figure BDA0004090918980000101
其中
Figure BDA0004090918980000102
表示该神经元所接受的输入,
Figure BDA0004090918980000103
表示该神经元所对应的连接权值,所述神经元的输出公式为
Figure BDA0004090918980000104
通过神经元的输出公式获得y关于net的导数公式为
Figure BDA0004090918980000105
Figure BDA0004090918980000106
通过S型激活函数得出y的值域为(0,1),并通过计算确定f′(net)的值域为(0,0.25),且在y=0.5时f′(net)存在最大值,计算完成后由专业人员基于BP神经网络的生产系统安全性评价模型的求解,其中进行求解时基于模糊c均值聚类的风险性异常数据异常程度量化评价模型将数据分成六类,并根据风险异常数据特点将1、2两类对应的数据归为风险数据,基于分类完成的数据进行BP神经网络模型的求解,将前23小时的风险异常数据作为训练集,将23时的风险性聚类结果作为训练标签获得对未来一小时数据的风险性异常预测,并通过MATLAB运行出的模拟预测结果,同时将未来一小时的风险性异常数据代入基于主成分分析的风险性异常预警模型中,通过该模型对预测数据进行风险性异常程度的量化得出最高异常分值及对应的异常传感器编号,最终由专业人员通过建立的模型构建数据驱动异常检测与预警系统。
与现有技术相比,本发明的有益效果是:
1、通过模型求解得到了异常数据判定优化解,提高了系统异常检测与预警的准确率。
2、通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解,充分利用了数据挖掘算法性能,为时间序列异常信号的风险性预警提供了可靠的方法和途径。
本发明的目的是通过模型求解得到了异常数据判定优化解,提高了系统异常检测与预警的准确率,同时通过对未来1小时的风险异常数据进行求解得到了风险性预警模型的优化解,充分利用了数据挖掘算法性能,为时间序列异常信号的风险性预警提供了可靠的方法和途径。
附图说明
图1为本发明提出的一种数据驱动异常检测与预警系统的结构图;
图2为本发明提出的一种数据驱动异常检测与预警系统的构建流程图;
图3为本发明提出的一种数据驱动异常检测与预警系统的散点图1;
图4为本发明提出的一种数据驱动异常检测与预警系统的细分后的散点图2;
图5为本发明提出的一种数据驱动异常检测与预警系统的R型聚类结果树状图;
图6为本发明提出的一种数据驱动异常检测与预警系统的Performance绘图结果图;
图7为本发明提出的一种数据驱动异常检测与预警系统的Training state绘图结果图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
参照图1-7,一种数据驱动异常检测与预警系统,包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块,所述处理模块与建立模块连接,所述建立模块分别与计算模块、检验模块以及构建模块连接,所述计算模块分别与求解模块、判定模块以及整理模块连接,所述求解模块与判定模块连接,所述整理模块与打分模块连接,所述打分模块与检验模块连接,所述建立模块与构建模块连接,其中所述处理模块用于进行模型假设建立和建模符号说明,所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型,所述计算模块用于通过公式进行计算,所述求解模块用于通过模型进行求解,所述判定模块用于通过判定标准对异常数据进行判定,所述整理模块用于在前面得到的异常数据的基础上进行整理,所述打分模块用于对异常数据的异常程度进行打分,所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验,所述构建模块用于构建数据驱动异常检测与预警系统;
其构建方法包括以下步骤:
S1:进行处理:由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明,且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的,假设所有的传感器都是正常工作,假设所有的数据都是真实有效的,假设收集的数据都是非线性相关的,假设无监督情况下的所得结果真实有效,假设所有时刻对应的数据组均为异常数据,假设异常数据仅能分为非风险性数据与风险性数据,假设量化模型建立合理有效,进行建模符号说明时所述建模符号包括
Figure BDA0004090918980000131
ωih、ωho、bh、bo、k、f(·)、Mode、Vr、Fi、yi,其中所述
Figure BDA0004090918980000132
为输入向量,所述
Figure BDA0004090918980000133
为隐含层输入向量,所述
Figure BDA0004090918980000134
为隐含层输出向量,所述
Figure BDA0004090918980000135
为输出层输入向量,所述
Figure BDA0004090918980000136
为输出向量,所述
Figure BDA0004090918980000137
为期望输出向量,所述ωih为输入层与隐含层的连接权值,所述ωho为隐含层与输出层的连接权值,所述bh为隐含层各神经元的阀值,所述bo为输出层各神经元的阀值,所述k为样本数据个数,所述f(·)为激活函数,所述Mode为众数,所述Vr为异众比率,所述Fi为因子,所述yi为风险得分;
S2:建立模型:由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型,其中所述聚类分析是将对象按照相似性度量指标划分成若干类,且同一类别中分类对象彼此相似,所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标,并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类,同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类,其中将每一类视为一种聚类场景,并计算每种场景发生的概率,所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的,且所述待分类光伏出力与负荷数据样本组矩阵X为
Figure BDA0004090918980000141
其中f为随机变量样本组矩阵中所含变量数,xi(i=1,2,…,f)为第i组随机变量q为每个变量组中的观测值数目,xij(i=1,2,…,f;j=1,2,…,q))为第i组随机变量中的第f个观测值,通过给定聚类数c和幂函数m确定定隶属度终止容限ε以及初始隶属度矩阵
Figure BDA0004090918980000142
其中c>1,m>1,
Figure BDA0004090918980000143
为初始状态第k个变量组相对于第i类的隶属度,并利用所述待分类光伏出力与负荷数据样本组矩阵X计算光伏与负荷数据的场景聚类中心矩阵
Figure BDA0004090918980000144
其中还包括公式
Figure BDA0004090918980000145
其中
Figure BDA0004090918980000146
为第L次迭代第i类场景聚类中心,
Figure BDA0004090918980000147
为第L-1次迭代第k个变量组相对于第i类的隶属度,光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中,并对目标函数J(L)进行优化更正隶属度矩阵,其中所述代入公式为
Figure BDA0004090918980000148
所述J(L)为聚类算法目标函数,
Figure BDA0004090918980000151
并将隶属度终止容限ε为指标判定算法迭代结束条件,其中
Figure BDA0004090918980000152
则聚类结束,否则继续进行代入公式计算,通过计算继续进行算法迭代,且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数ni,并计算各类场景发生概率,其中进行各类场景发生概率计算采用公式为psi=ni/f,计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解,其中进行求解时先通过Excel初步清洗出具有波动性的数据,并将规律性、独立性、偶发性作为非风险性异常数据的判定标准,将持续性、联动性作为风险性数据的判定标准,通过上述建立的模糊C均值聚类模型进行判别,进行数据清洗时先将数据划分为三类,并通过R软件得到散点图1,通过散点图1查看结果以及异常数据具有的特点进一步将数据细分为六类获得散点图2,并通过细分为六类的散点图2查看异常数据,同时根据风险性异常数据的评判标准将散点图2中的1、2类归结为风险性异常数据,3、4、5、6类归结为非风险性异常数据,并由专业人员基于主成分分析的风险性异常建立预警模型,其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示,并使用相互独立的变量来表示原本数据中的许多相关联的变量,同时通过时间序列分析获得时间的演变和发展,并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势,其中在使用主成分分析时采用多个主成分进行分析,且所述主成分之间相互独立,使用主成分分析时第一步对原始数据进行标准化,其中所述标准化是将m个指标表示为x1,x2,…,xm,将n个评价指标中将第i个评价变量的第j个指标表示为aij,i=1,2,…,n,j=1,2,…,m,通过表示将指标值aij转变为标准值
Figure BDA0004090918980000161
所述标准值
Figure BDA0004090918980000162
的计算公式为
Figure BDA0004090918980000163
其中
Figure BDA0004090918980000164
所述μj和sj表示第j个指标的样本平均值以及样本标准差,标准化指标变量计算公式为
Figure BDA0004090918980000165
原始数据标准化完成后计算相关矩阵R,其中对于相关系数矩阵R=(rij)m×m则有计算公式
Figure BDA0004090918980000166
其中rij=1,rij=rji,rij表示的是第i个指标以及第j个指标的相关系数,相关矩阵R计算完成后计算特征值与特征向量,通过计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,和相对应的特征向量μ12,…,μm,其中μj=[μ1j2j,…,μmj]T,并通过特征向量组成新的m个指标变量为
Figure BDA0004090918980000167
其中y1,y2,…ym分别表示的是第1,2,…m个主成分,特征值与特征向量计算完成后选择p个主成分,其中p≤m,通过选择的p个主成分来计算综合评价值,其中进行综合评价值计算时先计算特征值λj(j=1,2,…,m)的信息贡献率和累计贡献率,其中主成分yj的信息贡献率的定义公式为
Figure BDA0004090918980000171
主成分y1,y2,…,yp的累计贡献率的定义公式为
Figure BDA0004090918980000172
且αp的值接近1时则选择前面的p个指标变量y1,y2,…,yp作为p个主成分,并代替原来的m个指标变量,进行综合分析计算出综合得分,其中综合得分计算公式为
Figure BDA0004090918980000173
其中bj为第j个主成分的信息贡献率,并通过参照综合得分进行评价;
S3:进行量化:由专业人员在前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化,通过利用主成分对异常数据的异常程度进行打分,并将分数转化成为百分制,其中主成分模型中采用的的量化公式为
Figure BDA0004090918980000174
Figure BDA0004090918980000175
a代表当前值,b代表众数,Vr代表的是异众比率,x,y分别代表最大最小值,Mode代表众数,n表示样本的个数,N代表所有样本数,c表示非众数个数,通过所述过程找到前五个高分及其所对应的时刻,其中所述五个时刻每个时刻都有100个传感器的数据,通过对每个时刻的100个传感器数据先进行标准化,标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器;
S4:构建系统:由专业人员对风险性异常数据异常程度量化模型进行模型检验,其中进行模型检验时通过spss对异常程度得分进行描述性分析,通过分析结果进行判断,其中分析结果服从正态分布与3σ原则则说明得分的可信度高,并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性,并由专业人员建立基于BP神经网络的生产系统安全性评价模型,其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立,根据BP算法,一个神经元的网络输出公式是
Figure BDA0004090918980000181
其中
Figure BDA0004090918980000182
表示该神经元所接受的输入,
Figure BDA0004090918980000183
表示该神经元所对应的连接权值,所述神经元的输出公式为
Figure BDA0004090918980000184
通过神经元的输出公式获得y关于net的导数公式为
Figure BDA0004090918980000185
Figure BDA0004090918980000186
通过S型激活函数得出y的值域为(0,1),并通过计算确定f′(net)的值域为(0,0.25),且在y=0.5时f′(net)存在最大值,计算完成后由专业人员基于BP神经网络的生产系统安全性评价模型的求解,其中进行求解时基于模糊c均值聚类的风险性异常数据异常程度量化评价模型将数据分成六类,并根据风险异常数据特点将1、2两类对应的数据归为风险数据,基于分类完成的数据进行BP神经网络模型的求解,将前23小时的风险异常数据作为训练集,将23时的风险性聚类结果作为训练标签获得对未来一小时数据的风险性异常预测,并通过MATLAB运行出的模拟预测结果,同时将未来一小时的风险性异常数据代入基于主成分分析的风险性异常预警模型中,通过该模型对预测数据进行风险性异常程度的量化得出最高异常分值及对应的异常传感器编号,最终由专业人员通过建立的模型构建数据驱动异常检测与预警系统。
实施例二
参照图1-7,一种数据驱动异常检测与预警系统,包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块,所述处理模块与建立模块连接,所述建立模块分别与计算模块、检验模块以及构建模块连接,所述计算模块分别与求解模块、判定模块以及整理模块连接,所述求解模块与判定模块连接,所述整理模块与打分模块连接,所述打分模块与检验模块连接,所述建立模块与构建模块连接,其中所述处理模块用于进行模型假设建立和建模符号说明,所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型,所述计算模块用于通过公式进行计算,所述求解模块用于通过模型进行求解,所述判定模块用于通过判定标准对异常数据进行判定,所述整理模块用于在前面得到的异常数据的基础上进行整理,所述打分模块用于对异常数据的异常程度进行打分,所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验,所述构建模块用于构建数据驱动异常检测与预警系统;
其构建方法包括以下步骤:
S1:进行处理:由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明,且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的,假设所有的传感器都是正常工作,假设所有的数据都是真实有效的,假设收集的数据都是非线性相关的,假设无监督情况下的所得结果真实有效,假设所有时刻对应的数据组均为异常数据,假设异常数据仅能分为非风险性数据与风险性数据,假设量化模型建立合理有效,进行建模符号说明时所述建模符号包括
Figure BDA0004090918980000201
ωih、ωho、bh、bo、k、f(·)、Mode、Vr、Fi、yi
S2:建立模型:由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型,其中所述聚类分析是将对象按照相似性度量指标划分成若干类,且同一类别中分类对象彼此相似,所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标,并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类,同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类,其中将每一类视为一种聚类场景,并计算每种场景发生的概率,所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的,且所述待分类光伏出力与负荷数据样本组矩阵X为
Figure BDA0004090918980000202
其中f为随机变量样本组矩阵中所含变量数,xi(i=1,2,…,f)为第i组随机变量q为每个变量组中的观测值数目,xij(i=1,2,…,f;j=1,2,…,q))为第i组随机变量中的第f个观测值,通过给定聚类数c和幂函数m确定定隶属度终止容限ε以及初始隶属度矩阵
Figure BDA0004090918980000211
其中c>1,m>1,
Figure BDA0004090918980000212
为初始状态第k个变量组相对于第i类的隶属度,并利用所述待分类光伏出力与负荷数据样本组矩阵X计算光伏与负荷数据的场景聚类中心矩阵
Figure BDA0004090918980000213
其中还包括公式
Figure BDA0004090918980000214
其中
Figure BDA0004090918980000215
为第L次迭代第i类场景聚类中心,
Figure BDA0004090918980000216
为第L-1次迭代第k个变量组相对于第i类的隶属度,光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中,并对目标函数J(L)进行优化更正隶属度矩阵,其中所述代入公式为
Figure BDA0004090918980000217
所述J(L)为聚类算法目标函数,
Figure BDA0004090918980000218
并将隶属度终止容限ε为指标判定算法迭代结束条件,其中
Figure BDA0004090918980000219
则聚类结束,否则继续进行代入公式计算,通过计算继续进行算法迭代,且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数ni,并计算各类场景发生概率,其中进行各类场景发生概率计算采用公式为psi=ni/f,计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解,其中进行求解时先通过Excel初步清洗出具有波动性的数据,并将规律性、独立性、偶发性作为非风险性异常数据的判定标准,将持续性、联动性作为风险性数据的判定标准,通过上述建立的模糊C均值聚类模型进行判别,进行数据清洗时先将数据划分为三类,并通过R软件得到散点图1,通过散点图1查看结果以及异常数据具有的特点进一步将数据细分为六类获得散点图2,并通过细分为六类的散点图2查看异常数据,同时根据风险性异常数据的评判标准将散点图2中的1、2类归结为风险性异常数据,3、4、5、6类归结为非风险性异常数据,并由专业人员基于主成分分析的风险性异常建立预警模型,其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示,并使用相互独立的变量来表示原本数据中的许多相关联的变量,同时通过时间序列分析获得时间的演变和发展,并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势,其中在使用主成分分析时采用多个主成分进行分析,且所述主成分之间相互独立,使用主成分分析时第一步对原始数据进行标准化,其中所述标准化是将m个指标表示为x1,x2,…,xm,将n个评价指标中将第i个评价变量的第j个指标表示为aij,i=1,2,…,n,j=1,2,…,m,通过表示将指标值aij转变为标准值
Figure BDA0004090918980000221
所述标准值
Figure BDA0004090918980000222
的计算公式为
Figure BDA0004090918980000223
其中
Figure BDA0004090918980000224
所述μj和sj表示第j个指标的样本平均值以及样本标准差,标准化指标变量计算公式为
Figure BDA0004090918980000225
原始数据标准化完成后计算相关矩阵R,其中对于相关系数矩阵R=(rij)m×m则有计算公式
Figure BDA0004090918980000226
其中rij=1,rij=rji,rij表示的是第i个指标以及第j个指标的相关系数,相关矩阵R计算完成后计算特征值与特征向量,通过计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,和相对应的特征向量μ12,…,μm,其中μj=[μ1j2j,…,μmj]T,并通过特征向量组成新的m个指标变量为
Figure BDA0004090918980000231
其中y1,y2,…ym分别表示的是第1,2,…m个主成分,特征值与特征向量计算完成后选择p个主成分,其中p≤m,通过选择的p个主成分来计算综合评价值,其中进行综合评价值计算时先计算特征值λj(j=1,2,…,m)的信息贡献率和累计贡献率,其中主成分yj的信息贡献率的定义公式为
Figure BDA0004090918980000232
主成分y1,y2,…,yp的累计贡献率的定义公式为
Figure BDA0004090918980000233
且αp的值接近1时则选择前面的p个指标变量y1,y2,…,yp作为p个主成分,并代替原来的m个指标变量,进行综合分析计算出综合得分,其中综合得分计算公式为
Figure BDA0004090918980000234
其中bj为第j个主成分的信息贡献率,并通过参照综合得分进行评价;
S3:进行量化:由专业人员在前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化,通过利用主成分对异常数据的异常程度进行打分,并将分数转化成为百分制,其中主成分模型中采用的的量化公式为
Figure BDA0004090918980000241
Figure BDA0004090918980000242
a代表当前值,b代表众数,Vr代表的是异众比率,x,y分别代表最大最小值,Mode代表众数,n表示样本的个数,N代表所有样本数,c表示非众数个数,通过所述过程找到前五个高分及其所对应的时刻,其中所述五个时刻每个时刻都有100个传感器的数据,通过对每个时刻的100个传感器数据先进行标准化,标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器;
S4:构建系统:由专业人员对风险性异常数据异常程度量化模型进行模型检验,其中进行模型检验时通过spss对异常程度得分进行描述性分析,通过分析结果进行判断,其中分析结果服从正态分布与3σ原则则说明得分的可信度高,并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性,并由专业人员建立基于BP神经网络的生产系统安全性评价模型,其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立,根据BP算法,一个神经元的网络输出公式是
Figure BDA0004090918980000243
其中
Figure BDA0004090918980000244
表示该神经元所接受的输入,
Figure BDA0004090918980000245
表示该神经元所对应的连接权值,所述神经元的输出公式为
Figure BDA0004090918980000246
通过神经元的输出公式获得y关于net的导数公式为
Figure BDA0004090918980000251
Figure BDA0004090918980000252
通过S型激活函数得出y的值域为(0,1),并通过计算确定f′(net)的值域为(0,0.25),且在y=0.5时f′(net)存在最大值,计算完成后由专业人员基于BP神经网络的生产系统安全性评价模型的求解,其中进行求解时基于模糊c均值聚类的风险性异常数据异常程度量化评价模型将数据分成六类,并根据风险异常数据特点将1、2两类对应的数据归为风险数据,基于分类完成的数据进行BP神经网络模型的求解,将前23小时的风险异常数据作为训练集,将23时的风险性聚类结果作为训练标签获得对未来一小时数据的风险性异常预测,并通过MATLAB运行出的模拟预测结果,同时将未来一小时的风险性异常数据代入基于主成分分析的风险性异常预警模型中,通过该模型对预测数据进行风险性异常程度的量化得出最高异常分值及对应的异常传感器编号,最终由专业人员通过建立的模型构建数据驱动异常检测与预警系统。
将实施例一和实施例二中一种数据驱动异常检测与预警系统进行试验,得出结果如下:
Figure BDA0004090918980000253
Figure BDA0004090918980000261
实施例一和实施例二制得的数据驱动异常检测与预警系统对比现有系统系统异常检测与预警的准确率有了显著提高,且实施例一为最佳实施例。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种数据驱动异常检测与预警系统,包括处理模块、建立模块、计算模块、求解模块、判定模块、整理模块、打分模块、检验模块和构建模块,其特征在于,所述处理模块与建立模块连接,所述建立模块分别与计算模块、检验模块以及构建模块连接,所述计算模块分别与求解模块、判定模块以及整理模块连接,所述求解模块与判定模块连接,所述整理模块与打分模块连接,所述打分模块与检验模块连接,所述建立模块与构建模块连接。
2.根据权利要求1所述的一种数据驱动异常检测与预警系统,其特征在于,所述处理模块用于进行模型假设建立和建模符号说明,所述建立模块用于基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型、基于主成分分析的风险性异常建立预警模型以及基于BP神经网络的生产系统安全性评价模型,所述计算模块用于通过公式进行计算,所述求解模块用于通过模型进行求解,所述判定模块用于通过判定标准对异常数据进行判定,所述整理模块用于在前面得到的异常数据的基础上进行整理,所述打分模块用于对异常数据的异常程度进行打分,所述检验模块用于对风险性异常数据异常程度量化模型进行模型检验,所述构建模块用于构建数据驱动异常检测与预警系统。
3.根据权利要求1所述的一种数据驱动异常检测与预警系统,其特征在于,其构建方法包括以下步骤:
S1:进行处理:由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明;
S2:建立模型:由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型;
S3:进行量化:由专业人员对前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化;
S4:构建系统:由专业人员进行后续处理,并通过建立的模型建立数据驱动异常检测与预警系统。
4.根据权利要求3所述的一种数据驱动异常检测与预警系统,其特征在于,所述S1中,由专业人员进行处理,其中所述处理过程包括模型假设建立和建模符号说明,且进行模型假设建立时假设内容包括假设企业生产是按照正常生产模式进行的,假设所有的传感器都是正常工作,假设所有的数据都是真实有效的,假设收集的数据都是非线性相关的,假设无监督情况下的所得结果真实有效,假设所有时刻对应的数据组均为异常数据,假设异常数据仅能分为非风险性数据与风险性数据,假设量化模型建立合理有效,进行建模符号说明时所述建模符号包括
Figure FDA0004090918970000021
ωih、ωho、bh、bo、k、f(·)、Mode、Vr、Fi、yi,其中所述
Figure FDA0004090918970000022
为输入向量,所述
Figure FDA0004090918970000023
为隐含层输入向量,所述
Figure FDA0004090918970000024
为隐含层输出向量,所述
Figure FDA0004090918970000025
为输出层输入向量,所述
Figure FDA0004090918970000026
为输出向量,所述
Figure FDA0004090918970000027
为期望输出向量,所述ωih为输入层与隐含层的连接权值,所述ωho为隐含层与输出层的连接权值,所述bh为隐含层各神经元的阀值,所述bo为输出层各神经元的阀值,所述k为样本数据个数,所述f(·)为激活函数,所述Mode为众数,所述Vr为异众比率,所述Fi为因子,所述yi为风险得分。
5.根据权利要求3所述的一种数据驱动异常检测与预警系统,其特征在于,所述S2中,由专业人员基于模糊c均值聚类的风险性异常数据建立异常程度量化评价模型,同时基于主成分分析的风险性异常建立预警模型,其中所述聚类分析是将对象按照相似性度量指标划分成若干类,且同一类别中分类对象彼此相似,所述聚类方法采样模糊C-均值聚类算法以数据样本到聚类中心点的加权平方距离最小为优化目标,并将待分类对象的不同隶属度作为依据实现对原始数据进行模糊分类,同时采用所述算法将时序光伏出力与负荷数据样本组划分为c类,其中将每一类视为一种聚类场景,并计算每种场景发生的概率,所述待分类光伏出力与负荷数据样本组矩阵X为预先给定的,且所述待分类光伏出力与负荷数据样本组矩阵X为
Figure FDA0004090918970000031
其中f为随机变量样本组矩阵中所含变量数,xi(i=1,2,…,f)为第i组随机变量q为每个变量组中的观测值数目,xij(i=1,2,…,f;j=1,2,…,q))为第i组随机变量中的第f个观测值,通过给定聚类数c和幂函数m确定定隶属度终止容限ε以及初始隶属度矩阵
Figure FDA0004090918970000032
其中c>1,m>1,
Figure FDA0004090918970000033
为初始状态第k个变量组相对于第i类的隶属度,并利用所述待分类光伏出力与负荷数据样本组矩阵X计算光伏与负荷数据的场景聚类中心矩阵
Figure FDA0004090918970000041
其中还包括公式
Figure FDA0004090918970000042
其中
Figure FDA0004090918970000043
为第L次迭代第i类场景聚类中心,
Figure FDA0004090918970000044
为第L-1次迭代第k个变量组相对于第i类的隶属度,光伏与负荷数据的场景聚类中心矩阵计算完成后将聚类中心矩阵与历史隶属度矩阵代入公式中,并对目标函数J(L)进行优化更正隶属度矩阵,其中所述代入公式为J(L)(U(L)
Figure FDA0004090918970000045
所述J(L)为聚类算法目标函数,
Figure FDA0004090918970000046
并将隶属度终止容限ε为指标判定算法迭代结束条件,其中
Figure FDA0004090918970000047
则聚类结束,否则继续进行代入公式计算,通过计算继续进行算法迭代,且结束算法迭代时需确定光伏与负荷最终的隶属度矩阵U、场景聚类中心矩阵V和各类场景中随机变量数据总数ni,并计算各类场景发生概率,其中进行各类场景发生概率计算采用公式为psi=ni/f,计算完成后由专业人员基于模糊c均值聚类的风险性异常数据异常程度量化评价模型进行求解,其中进行求解时先通过Excel初步清洗出具有波动性的数据,并将规律性、独立性、偶发性作为非风险性异常数据的判定标准,将持续性、联动性作为风险性数据的判定标准,通过上述建立的模糊C均值聚类模型进行判别,进行数据清洗时先将数据划分为三类。
6.根据权利要求5所述的一种数据驱动异常检测与预警系统,其特征在于,由专业人员基于主成分分析的风险性异常建立预警模型,其中主成分分析模型进行使用时是将原先数据中大多数异常情况使用几个较少的变量去表示,并使用相互独立的变量来表示原本数据中的许多相关联的变量,同时通过时间序列分析获得时间的演变和发展,并根据时间序列反应的发展过程以及趋势进行推理、预测今后的发展趋势,其中在使用主成分分析时采用多个主成分进行分析,且所述主成分之间相互独立,使用主成分分析时第一步对原始数据进行标准化,其中所述标准化是将m个指标表示为x1,x2,…,xm,将n个评价指标中将第i个评价变量的第j个指标表示为aij,i=1,2,…,n,j=1,2,…,m,通过表示将指标值aij转变为标准值
Figure FDA0004090918970000051
所述标准值
Figure FDA0004090918970000052
的计算公式为
Figure FDA0004090918970000053
其中
Figure FDA0004090918970000054
所述μj和sj表示第j个指标的样本平均值以及样本标准差,标准化指标变量计算公式为
Figure FDA0004090918970000055
原始数据标准化完成后计算相关矩阵R,其中对于相关系数矩阵R=(rij)m×m则有计算公式
Figure FDA0004090918970000056
其中rij=1,rij=rji,rij表示的是第i个指标以及第j个指标的相关系数,相关矩阵R计算完成后计算特征值与特征向量,通过计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,和相对应的特征向量μ12,…,μm,其中μj=[μ1j2j,…,μmj]T,并通过特征向量组成新的m个指标变量为
Figure FDA0004090918970000057
其中y1,y2,…ym分别表示的是第1,2,…m个主成分,特征值与特征向量计算完成后选择p个主成分,其中p≤m,通过选择的p个主成分来计算综合评价值,其中进行综合评价值计算时先计算特征值λj(j=1,2,…,m)的信息贡献率和累计贡献率,其中主成分yj的信息贡献率的定义公式为
Figure FDA0004090918970000061
主成分y1,y2,…,yp的累计贡献率的定义公式为
Figure FDA0004090918970000062
且αp的值接近1时则选择前面的p个指标变量y1,y2,…,yp作为p个主成分,并代替原来的m个指标变量,进行综合分析计算出综合得分,其中综合得分计算公式为
Figure FDA0004090918970000063
其中bj为第j个主成分的信息贡献率,并通过参照综合得分进行评价。
7.根据权利要求3所述的一种数据驱动异常检测与预警系统,其特征在于,所述S3中,由专业人员在前面得到的异常数据的基础上进行整理,并建立主成分分析模型对异常数据进行量化,通过利用主成分对异常数据的异常程度进行打分,并将分数转化成为百分制,其中主成分模型中采用的的量化公式为
Figure FDA0004090918970000064
Figure FDA0004090918970000065
a代表当前值,b代表众数,Vr代表的是异众比率,x,y分别代表最大最小值,Mode代表众数,n表示样本的个数,N代表所有样本数,c表示非众数个数,通过所述过程找到前五个高分及其所对应的时刻,其中所述五个时刻每个时刻都有100个传感器的数据,通过对每个时刻的100个传感器数据先进行标准化,标准化完成后统计其离散程度获得最偏离的五个数据为异常程度最高的传感器。
8.根据权利要求3所述的一种数据驱动异常检测与预警系统,其特征在于,所述S4中,由专业人员对风险性异常数据异常程度量化模型进行模型检验,其中进行模型检验时通过spss对异常程度得分进行描述性分析,通过分析结果进行判断,其中分析结果服从正态分布与3σ原则则说明得分的可信度高,并通过运用K均值聚类对异常传感器进行R型聚类判断所选的五个传感器的代表性,并由专业人员建立基于BP神经网络的生产系统安全性评价模型,其中通过利用BP算法学习多级肺循环网络的神经网络的模型进行模型建立,根据BP算法,一个神经元的网络输出公式是
Figure FDA0004090918970000071
其中
Figure FDA0004090918970000072
表示该神经元所接受的输入,
Figure FDA0004090918970000073
表示该神经元所对应的连接权值,所述神经元的输出公式为
Figure FDA0004090918970000074
通过神经元的输出公式获得y关于net的导数公式为
Figure FDA0004090918970000075
Figure FDA0004090918970000076
通过S型激活函数得出y的值域为(0,1),并通过计算确定f′(net)的值域为(0,0.25),且在y=0.5时f′(net)存在最大值,计算完成后由专业人员基于BP神经网络的生产系统安全性评价模型的求解,其中进行求解时基于模糊c均值聚类的风险性异常数据异常程度量化评价模型将数据分成六类,并根据风险异常数据特点将1、2两类对应的数据归为风险数据,基于分类完成的数据进行BP神经网络模型的求解,将前23小时的风险异常数据作为训练集,将23时的风险性聚类结果作为训练标签获得对未来一小时数据的风险性异常预测,并通过MATLAB运行出的模拟预测结果,同时将未来一小时的风险性异常数据代入基于主成分分析的风险性异常预警模型中,通过该模型对预测数据进行风险性异常程度的量化得出最高异常分值及对应的异常传感器编号,最终由专业人员通过建立的模型构建数据驱动异常检测与预警系统。
CN202310151399.2A 2023-02-22 2023-02-22 一种数据驱动异常检测与预警系统 Pending CN116109039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310151399.2A CN116109039A (zh) 2023-02-22 2023-02-22 一种数据驱动异常检测与预警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310151399.2A CN116109039A (zh) 2023-02-22 2023-02-22 一种数据驱动异常检测与预警系统

Publications (1)

Publication Number Publication Date
CN116109039A true CN116109039A (zh) 2023-05-12

Family

ID=86265403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310151399.2A Pending CN116109039A (zh) 2023-02-22 2023-02-22 一种数据驱动异常检测与预警系统

Country Status (1)

Country Link
CN (1) CN116109039A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034043A (zh) * 2023-10-09 2023-11-10 山东五棵松电气科技有限公司 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN118035773A (zh) * 2024-04-11 2024-05-14 浙江公路水运工程咨询集团有限公司 基于特征聚类的批量二次规划交通异常检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034043A (zh) * 2023-10-09 2023-11-10 山东五棵松电气科技有限公司 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN117034043B (zh) * 2023-10-09 2024-01-16 山东五棵松电气科技有限公司 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN118035773A (zh) * 2024-04-11 2024-05-14 浙江公路水运工程咨询集团有限公司 基于特征聚类的批量二次规划交通异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN116109039A (zh) 一种数据驱动异常检测与预警系统
CN111813084B (zh) 一种基于深度学习的机械装备故障诊断方法
CN113837477A (zh) 数据双驱动的台风灾害下电网故障预测方法、装置和设备
CN111105332A (zh) 一种基于人工神经网络的高速公路智能预养护方法及系统
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN113762329A (zh) 一种大型轧机状态预测模型的构建方法及构建系统
WO2023142424A1 (zh) 基于gru-lstm神经网络的电力金融业务风控方法及系统
CN111461413B (zh) 一种公路路面使用性能检测系统
CN113011796B (zh) 一种基于“层次分析-神经网络”的食用油安全预警方法
CN111680875B (zh) 基于概率基线模型的无人机状态风险模糊综合评价方法
CN111062508A (zh) 一种基于大数据技术评估风电机组实时运行状态的方法
CN116448419A (zh) 基于深度模型高维参数多目标高效寻优的零样本轴承故障诊断方法
CN112734131B (zh) 一种基于深度学习算法的风机叶片覆冰状态预测方法
WO2021114320A1 (zh) 一种oica和rnn融合模型的污水处理过程故障监测方法
CN112906764A (zh) 基于改进bp神经网络的通信安全设备智能诊断方法及系统
CN113850320A (zh) 基于改进支持向量机回归算法的变压器故障检测方法
Zhang et al. Fault diagnosis of oil-immersed power transformer based on difference-mutation brain storm optimized catboost model
CN117556347A (zh) 一种基于工业大数据的电力设备故障预测与健康管理方法
Dang et al. seq2graph: Discovering dynamic non-linear dependencies from multivariate time series
CN112131516A (zh) 一种基于特征权值混合朴素贝叶斯模型的异常检测方法
CN116933025A (zh) 基于vmd与dbo-lstm-at的变压器顶层油温预测方法
CN113551904B (zh) 基于层次机器学习的齿轮箱多类型并发故障诊断方法
CN114252266A (zh) 一种基于dbn-svdd模型的滚动轴承性能退化评估方法
CN113110044A (zh) 一种基于Elman神经网络和SVM的重型燃气轮机控制系统控制器模块智能BIT设计方法
Shang et al. Sparse slow feature analysis for enhanced control monitoring and fault isolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination