CN113591400B - 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 - Google Patents
一种基于特征相关性分区回归的电力调度监控数据异常检测方法 Download PDFInfo
- Publication number
- CN113591400B CN113591400B CN202110968331.4A CN202110968331A CN113591400B CN 113591400 B CN113591400 B CN 113591400B CN 202110968331 A CN202110968331 A CN 202110968331A CN 113591400 B CN113591400 B CN 113591400B
- Authority
- CN
- China
- Prior art keywords
- feature
- subspace
- test set
- correlation
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Educational Administration (AREA)
- Complex Calculations (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明实施例提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法,包括:将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵;根据计算所得相关系数矩阵对训练集进行特征子空间的划分;根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型;对测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度;根据特征子空间内相关程度计算所对应的权重;根据加权后集成的最终异常分数获得测试集样本的检测结果。
Description
【技术领域】
本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于特征相关性分区回归的电力调度监控数据异常检测方法。
【背景技术】
智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。而智能电网调度控制中心作为电网运行控制的指挥中枢,它的稳定性直接影响着所提供服务的稳定性,控制中心系统的崩溃会给管理者以及使用者造成较大的损失。而人工智能在电力系统领域的广泛应用,不仅能有效提升电力系统的工作效率,同时也能够保证电力系统运行过程中的安全。由于监控系统在电网运行时会在短时间内产生大量监控数据,较难通过咨询专家等方式人工为这些数据全部标定正、异常标签。因此,这些存储的历史电网调度监控数据往往缺少准确的标签信息。同时由于电网系统本身的鲁棒性,监控系统能够采集到的异常数据数量远少于正常数据。所以,不需要数据标签的无监督异常检测方法逐渐成为了解决该领域内问题的重要手段。通常来说,异常被认为是出现在数据集分布稀疏的区域且远离相邻点的数据点,为此,大多数无监督算法都倾向于挖掘数据集分布的特点,并依靠数据集样本在空间中分布的密度或者距离度量差异来区分正异常数据。虽然这类方法简单快捷,但电网数据有着数据特征维数高、无关属性难以区分的特点,在面向这种情况时,当前已有的基于样本分布的无监督异常检测方法很容易受到影响,从而导致模型的异常检测性能降低。因此,针对电力调度监控系统数据的特点,考虑提出一种能够在没有数据标签时仍能够有效提高对异常数据检测准确度的异常检测方法,对于加强电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的性能。
本发明提出一种基于特征相关性分区回归的电力调度监控数据异常检测方法,包括如下步骤:
(1)计算特征间相关性,具体为:
随机选取全部电力监控历史数据中的部分历史数据作为训练集S,其余的历史数据作为测试集T;电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b;Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba;
(2)划分特征子空间,具体为:
根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低;
设S'为一个特征空间,其初始值为整个训练集S;在每次循环中,根据步骤(1)中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征并提取出与/>相关性排名靠前的j维特征/>j=ni-1;/>以及/>均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量;令将xi与/>作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集;完成全部k个特征子空间的划分;
(3)训练特征子空间回归模型,具体为:
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项;
(4)使用训练好的回归模型计算各特征子空间中测试集样本的异常程度,具体为:
根据步骤(2)中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分;以及/>均为l'×1的向量,/>为测试集T中样本在第i维特征子空间中的预测属性,/>则为对应的伪标签属性,l'为测试集T中的样本数量;
(5)加权各特征子空间结果,具体为:
(6)根据步骤(4)、(5)所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测;
上述方法步骤(1)中,将电力调度监控历史数据中80%作为训练集S,20%作为测试集T;
上述方法步骤(6)中,根据步骤(4)、(5)所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测,具体为:
所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提高。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,基于特征属性之间的不同相关性,选择特征作为伪标签而不是数据的真实标签,旨在根据相关信息对数据集的特征进行划分,以便使用强相关特征进行回归预测并挖掘特征之间包含的模式;同时考虑到不同相关度下特征预测的可靠性,引入相关系数作为每个分区预测结果的权重,一定程度上缓解了因维数增加带来的性能下降问题,而且减少了无关属性的影响,从而提高电力调度监控数据异常检测的性能。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图;
图2是基于特征相关性的分区方法流程示意图;
图3是基于特征相关性的加权回归预测方法流程示意图;
图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图;
图5是本发明算法的输入数据和输出结果示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于特征相关性分区回归的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,根据特征间的相关性划分出关联程度较高的特征子空间用以训练回归模型来检测待检测数据。
图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
步骤101,将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵。
具体的,随机选取全部电力监控历史数据中的80%历史数据作为训练集S,20%历史数据作为测试集T。电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b。Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba。
步骤102,根据计算所得相关系数矩阵对训练集进行特征子空间的划分。
具体的,根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低。
设S'为一个特征空间,其初始值为整个训练集S。在每次循环中,根据步骤101中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征并提取出与/>相关性排名靠前的j维特征/>j=ni-1。/>以及/>均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量。令将xi与/>作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集。完成全部k个特征子空间的划分。
步骤103,根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型。
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项。
步骤104,测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度。
具体的,根据步骤102中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分。以及/>均为l'×1的向量,/>为测试集T中样本在第i维特征子空间中的预测属性,/>则为对应的伪标签属性,l'为测试集T中的样本数量。
步骤105,根据特征子空间内相关程度计算所对应的权重。
步骤106,根据加权后集成的最终异常分数作为测试集样本的检测结果。
具体的,据步骤104、105所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测,具体为:
图2所示为基于特征相关性的分区方法流程示意图,该方法基于训练集特征间的相关系数对整个特征空间进行分区;输入为训练集中的所有数据;经过图示循环流程后,训练集所有样本的各维特征会被划分到对应特征子空间中。
图3是基于特征相关性的加权回归预测方法流程示意图,该方法将各特征子空间Si中对应的作为伪标签,剩余特征作为预测属性,并基于支持向量回归SVR算法训练回归模型;训练完成后使用训练得到的模型对划分特征子空间后的测试集T中的样本进行预测,可得测试集T伪标签/>所对应的预测值,进而得到每个测试集样本的差值计算结果;计算所得差值越大,则认为该样本的异常程度越高;同时根据所得特征子空间相关程度计算各特征子空间所对应的权重,最后根据所得样本在各特征子空间中对应的异常分数以及权重集成所有结果。
图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图,提出的方法主要包括6个阶段:计算特征间相关性阶段、划分特征子空间阶段、训练回归模型阶段、计算异常分数阶段、计算特征子空间权重阶段、集成获得最终异常分数并得到结果阶段。在计算特征间相关性阶段,随机将电力调度历史监控数据的80%作为训练集,20%作为测试集,并基于训练集样本特征计算相关系数矩阵。在划分特征子空间阶段,基于训练集特征间的相关系数对整个特征空间进行分区,输入训练集中的所有数据,并将训练集所有样本的特征划分到各特征子空间中。在训练回归模型阶段,根据相关系数在各特征子空间中选择某一维特征作为伪标签,剩余特征作为预测属性,并基于支持向量回归SVR算法训练回归模型。在计算异常分数阶段,根据训练集的特征子空间划分情况完成对测试集同样的划分,并计算测试集样本在各回归模型上预测值与真实值的差值,从而得到测试集各样本的在各子空间内对应的异常分数。在计算特征子空间权重阶段,基于所划分训练集特征子空间内的最高相关系数,为测试集对应的异常分数赋予不同的权重,权重越高,认为特征子空间内的属性间相关程度越高,训练出的模型性能越好,计算所得的异常分数也越可靠。在集成获得最终异常分数并得到结果阶段,根据所得特征子空间对应的异常分数和权重集成得到最终异常分数,并根据最终异常分数得到测试集中样本的检测结果,实现电力调度监控数据异常检测。
图5是本发明算法的输入数据和输出结果示意图,本发明算法的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;本发明算法的输出为根据所得异常分数的排名,前t%输入数据为异常数据,其他数据为正常数据,t一般取值5≤t≤10。
算法1为本发明基于特征相关性分区回归的电力调度监控数据异常检测方法的完整框架伪代码:
用于具体实施例中,使用21个公开数据集进行测试,数据集来自于各个领域,并经过预处理以模拟异常数量极少的数据特征。数据集的具体信息如表1所示。为了降低结果的随机性,全部结果均是运行25次的平均值。
表1具体实施例中使用的数据集
数据集 | 样本总数 | 异常数 | 特征维度 | 不平衡度 |
PenDigits | 4934 | 10 | 15 | 493.4 |
Pop_failures | 509 | 15 | 18 | 33.9 |
Hepatitis | 70 | 3 | 19 | 22.3 |
Messidor_features | 567 | 27 | 19 | 21.0 |
Cardiotocography | 1681 | 33 | 20 | 50.9 |
Waveform | 3443 | 100 | 20 | 34.4 |
Annthyroid | 3365 | 67 | 20 | 50.2 |
Parkinson | 50 | 2 | 21 | 25.0 |
mHealth | 697 | 20 | 23 | 34.9 |
WDBC | 367 | 10 | 30 | 36.7 |
WPBC | 155 | 4 | 32 | 38.7 |
Biodeg | 730 | 31 | 41 | 23.5 |
Spectf | 218 | 7 | 44 | 31.1 |
Lymphography | 148 | 6 | 46 | 24.7 |
Spam-Base | 2579 | 51 | 56 | 50.6 |
Sonar | 100 | 4 | 60 | 25.0 |
Green | 225 | 9 | 62 | 25.0 |
MEU_Mobile | 1070 | 50 | 71 | 21.4 |
KDDCup99 | 4811 | 20 | 78 | 240.6 |
Mice_Protein | 519 | 12 | 79 | 43.3 |
Movement_libras | 347 | 11 | 90 | 31.5 |
为验证所提算法的有效性,本发明实施例中将对比算法分为两类。其中基于特征预测的方法三种:DEMUD、ALSO以及DELR;基于样本分布的方法四种:LOF、KNN、COPOD、LGOD。本发明实施例在表格中用CFPR表示。对比算法相关参数如表2所示。
表2对比算法相关参数
本发明实施例使用AUC指标进行评定。通常G-mean被用来评估数据不平衡下算法的性能,一般来说,使用AUC指标作为判定无监督异常检测方法效果好坏的指标更为合适。AUC常用于异常检测领域,因为它所得结果不受类别不平衡的影响,同时AUC还可以仅根据异常分数排名计算,通过正负类样本在排名表中的rank值,可以计算得到所需要的AUC值。实施例中将异常类看做正类,AUC的大小直接表明了算法在异常数据上的性能,即AUC越大,异常检测的准确率越高,算法的性能越好。
本发明实施例中检测结果的异常判定比例t设置为5。
本发明实施例和其他对比方法在公开数据集上的AUC结果如表3所示。可以看到本发明基于特征相关性分区回归的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的AUC值,并获得了最高的平均AUC。
表3在公开数据集上的AUC结果
同样将本发明实施例应用在三种智能电网调度控制系统业务异常上,这三种异常分别为数据跳变、应用断网和遥测表不刷新。
表4展示了本发明实施例和其他对比方法在这三种异常上的AUC结果。
表4在三种异常上的AUC结果
异常类型 | DEMUD | ALSO | DELR | LOF | KNN | COPOD | LGOD | CFPR |
数据跳变 | 0.8614 | 0.9994 | 0.9926 | 0.5417 | 0.4396 | 0.9800 | 0.2482 | 0.9852 |
应用断网 | 0.9510 | 0.9955 | 0.9969 | 0.6981 | 0.9063 | 0.9923 | 0.9959 | 0.9868 |
遥测表不刷新 | 0.9848 | 0.9853 | 0.9928 | 0.5517 | 0.9927 | 0.9922 | 0.7628 | 0.9952 |
从表4中可以看到本发明在遥测表不刷新异常上取得了AUC指标的最优性能。由于本发明基于特征相关性分区回归的电力调度监控数据异常检测方法通过寻找数据特征间的相关性来挖掘数据中隐藏的信息,虽说在数据跳变和应用断网这两种异常上并未有突出的表现,但相比于其他方法并未落后太多。三种实际电力调度监控数据异常上的对比结果结合大量公开数据集上的对比结果,说明本发明可以在应对电力调度监控数据维数较高、无关属性较多的情况下,能够有效的提升异常检测的准确率,并且在其他情况下,也能取得较为稳定的异常检测结果。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵;根据计算所得相关系数矩阵对训练集进行特征子空间的划分;根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型;对测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度;根据特征子空间内相关程度计算所对应的权重;根据加权后集成的最终异常分数作为测试集样本的检测结果。与其他无监督算法相比,本方法可获得更高的异常检测准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (3)
1.一种基于特征相关性分区回归的电力调度监控数据异常检测方法,其特征在于,包括如下步骤:
(1)计算特征间相关性,具体为:
随机选取全部电力监控历史数据中的部分历史数据作为训练集S,其余的历史数据作为测试集T;电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b;Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba;
(2)划分特征子空间,具体为:
根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低;
设S'为一个特征空间,其初始值为整个训练集S;在每次循环中,根据步骤(1)中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征并提取出与/>相关性排名靠前的j维特征/> 以及/>均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量;令将xi与/>作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集;完成全部k个特征子空间的划分;
(3)训练特征子空间回归模型,具体为:
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项;
(4)使用训练好的回归模型计算各特征子空间中测试集样本的异常程度,具体为:
根据步骤(2)中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分;以及/>均为l'×1的向量,/>为测试集T中样本在第i维特征子空间中的预测属性,/>则为对应的伪标签属性,l'为测试集T中的样本数量;
(5)加权各特征子空间结果,具体为:
2.根据权利要求1所述的一种基于特征相关性分区回归的电力调度监控数据异常检测方法,其特征在于,所述步骤(1)中,将电力调度监控历史数据中80%作为训练集S,20%作为测试集T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968331.4A CN113591400B (zh) | 2021-08-23 | 2021-08-23 | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968331.4A CN113591400B (zh) | 2021-08-23 | 2021-08-23 | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591400A CN113591400A (zh) | 2021-11-02 |
CN113591400B true CN113591400B (zh) | 2023-06-27 |
Family
ID=78238954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110968331.4A Active CN113591400B (zh) | 2021-08-23 | 2021-08-23 | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591400B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600102B (zh) * | 2022-04-26 | 2023-11-21 | 南京天洑软件有限公司 | 基于船舶数据的异常点检测方法及装置、电子设备、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284982A (ja) * | 2004-03-30 | 2005-10-13 | Matsushita Electric Works Ltd | 異常診断装置、異常診断方法、発電装置監視システム、及び燃料切れ報知装置 |
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
CN113112188A (zh) * | 2021-05-14 | 2021-07-13 | 北京邮电大学 | 一种基于预筛选动态集成的电力调度监控数据异常检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160369777A1 (en) * | 2015-06-03 | 2016-12-22 | Bigwood Technology, Inc. | System and method for detecting anomaly conditions of sensor attached devices |
-
2021
- 2021-08-23 CN CN202110968331.4A patent/CN113591400B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284982A (ja) * | 2004-03-30 | 2005-10-13 | Matsushita Electric Works Ltd | 異常診断装置、異常診断方法、発電装置監視システム、及び燃料切れ報知装置 |
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
CN113112188A (zh) * | 2021-05-14 | 2021-07-13 | 北京邮电大学 | 一种基于预筛选动态集成的电力调度监控数据异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113591400A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10311368B2 (en) | Analytic system for graphical interpretability of and improvement of machine learning models | |
CN105071983B (zh) | 一种面向云计算在线业务的异常负载检测方法 | |
US11544570B2 (en) | Method and apparatus for large scale machine learning | |
CN109891508B (zh) | 单细胞类型检测方法、装置、设备和存储介质 | |
CN111373415A (zh) | 使用神经网络分析序列数据 | |
CN109472318B (zh) | 为构建的机器学习模型选取特征的方法及装置 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
US20200097997A1 (en) | Predicting counterfactuals by utilizing balanced nonlinear representations for matching models | |
CN115270986A (zh) | 数据异常检测方法、装置和计算机设备 | |
CN113591400B (zh) | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 | |
US20230005572A1 (en) | Molecular structure acquisition method and apparatus, electronic device and storage medium | |
CN113537337A (zh) | 训练方法、异常检测方法、装置、设备和存储介质 | |
CN116304853A (zh) | 一种极限学习机与特征提取相结合的数据分类方法及系统 | |
CN111461923A (zh) | 一种基于深度卷积神经网络的窃电监测系统和方法 | |
CN114463587A (zh) | 一种异常数据检测方法、装置、设备及存储介质 | |
De Bie et al. | Efficiently learning the metric with side-information | |
CN116611003A (zh) | 一种变压器故障诊断方法、装置、介质 | |
KR20210143460A (ko) | 특징 추천 장치 및 그것의 특징 추천 방법 | |
US7797136B2 (en) | Metrics to evaluate process objects | |
Murua et al. | On potts model clustering, kernel k-means and density estimation | |
CN114936204A (zh) | 一种特征筛选方法、装置、存储介质及电子设备 | |
CN115420866A (zh) | 药物活性检测方法、装置、电子设备和存储介质 | |
Kunkel et al. | Statistical inference with anchored Bayesian mixture of regressions models: A case study analysis of allometric data | |
CN115935200B (zh) | 一种基于哈希和海明距离的海量数据相似性计算方法 | |
CN117367751B (zh) | 超脉冲掺铥激光器的性能检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |