CN113591400B - 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 - Google Patents

一种基于特征相关性分区回归的电力调度监控数据异常检测方法 Download PDF

Info

Publication number
CN113591400B
CN113591400B CN202110968331.4A CN202110968331A CN113591400B CN 113591400 B CN113591400 B CN 113591400B CN 202110968331 A CN202110968331 A CN 202110968331A CN 113591400 B CN113591400 B CN 113591400B
Authority
CN
China
Prior art keywords
feature
subspace
test set
correlation
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110968331.4A
Other languages
English (en)
Other versions
CN113591400A (zh
Inventor
高欣
刘治宇
李康生
贾欣
薛冰
傅世元
黄旭
黄子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110968331.4A priority Critical patent/CN113591400B/zh
Publication of CN113591400A publication Critical patent/CN113591400A/zh
Application granted granted Critical
Publication of CN113591400B publication Critical patent/CN113591400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Educational Administration (AREA)
  • Complex Calculations (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法,包括:将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵;根据计算所得相关系数矩阵对训练集进行特征子空间的划分;根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型;对测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度;根据特征子空间内相关程度计算所对应的权重;根据加权后集成的最终异常分数获得测试集样本的检测结果。

Description

一种基于特征相关性分区回归的电力调度监控数据异常检测 方法
【技术领域】
本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于特征相关性分区回归的电力调度监控数据异常检测方法。
【背景技术】
智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。而智能电网调度控制中心作为电网运行控制的指挥中枢,它的稳定性直接影响着所提供服务的稳定性,控制中心系统的崩溃会给管理者以及使用者造成较大的损失。而人工智能在电力系统领域的广泛应用,不仅能有效提升电力系统的工作效率,同时也能够保证电力系统运行过程中的安全。由于监控系统在电网运行时会在短时间内产生大量监控数据,较难通过咨询专家等方式人工为这些数据全部标定正、异常标签。因此,这些存储的历史电网调度监控数据往往缺少准确的标签信息。同时由于电网系统本身的鲁棒性,监控系统能够采集到的异常数据数量远少于正常数据。所以,不需要数据标签的无监督异常检测方法逐渐成为了解决该领域内问题的重要手段。通常来说,异常被认为是出现在数据集分布稀疏的区域且远离相邻点的数据点,为此,大多数无监督算法都倾向于挖掘数据集分布的特点,并依靠数据集样本在空间中分布的密度或者距离度量差异来区分正异常数据。虽然这类方法简单快捷,但电网数据有着数据特征维数高、无关属性难以区分的特点,在面向这种情况时,当前已有的基于样本分布的无监督异常检测方法很容易受到影响,从而导致模型的异常检测性能降低。因此,针对电力调度监控系统数据的特点,考虑提出一种能够在没有数据标签时仍能够有效提高对异常数据检测准确度的异常检测方法,对于加强电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于特征相关性分区回归的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的性能。
本发明提出一种基于特征相关性分区回归的电力调度监控数据异常检测方法,包括如下步骤:
(1)计算特征间相关性,具体为:
随机选取全部电力监控历史数据中的部分历史数据作为训练集S,其余的历史数据作为测试集T;电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
Figure BDA0003225009820000021
Figure BDA0003225009820000022
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b;Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba
(2)划分特征子空间,具体为:
根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
Figure BDA0003225009820000031
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低;
设S'为一个特征空间,其初始值为整个训练集S;在每次循环中,根据步骤(1)中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征
Figure BDA0003225009820000032
并提取出与/>
Figure BDA0003225009820000033
相关性排名靠前的j维特征/>
Figure BDA0003225009820000034
j=ni-1;/>
Figure BDA0003225009820000035
以及/>
Figure BDA0003225009820000036
均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量;令
Figure BDA0003225009820000037
将xi与/>
Figure BDA0003225009820000038
作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集;完成全部k个特征子空间的划分;
(3)训练特征子空间回归模型,具体为:
将步骤(2)中所得的特征子空间Si中对应的
Figure BDA0003225009820000039
作为伪标签,剩余特征
Figure BDA00032250098200000310
作为预测属性,并基于支持向量回归SVR算法训练用于预测伪标签/>
Figure BDA00032250098200000311
的回归模型fi(xi),经过训练后获得模型的一般形式如下所示:
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项;
(4)使用训练好的回归模型计算各特征子空间中测试集样本的异常程度,具体为:
根据步骤(2)中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分;
Figure BDA00032250098200000312
以及/>
Figure BDA00032250098200000313
均为l'×1的向量,/>
Figure BDA00032250098200000314
为测试集T中样本在第i维特征子空间中的预测属性,/>
Figure BDA00032250098200000315
则为对应的伪标签属性,l'为测试集T中的样本数量;
根据步骤(3)中训练得到的模型fi(x)对划分特征子空间后的测试集T中的样本进行预测,令
Figure BDA0003225009820000041
可得伪标签/>
Figure BDA0003225009820000042
对应的预测值fi(xi'),进而得到伪标签真实值与预测值之间的差值向量/>
Figure BDA0003225009820000043
Figure BDA0003225009820000044
每个测试集T中样本的差值计算结果都能在
Figure BDA0003225009820000045
中一一对应;将/>
Figure BDA0003225009820000046
作为第i个特征子空间内测试集样本的异常分数,测试集样本在/>
Figure BDA0003225009820000047
中对应的值越大,认为该样本的异常程度越高;整合各特征子空间结果得到异常分数集合/>
Figure BDA0003225009820000048
(5)加权各特征子空间结果,具体为:
根据步骤(2)中所得特征子空间相关程度计算各特征子空间所对应的权重组成一维权重向量
Figure BDA0003225009820000049
第i个特征子空间Si对应的权重ψi为/>
Figure BDA00032250098200000410
的相关系数向量中的最大值,即:
Figure BDA00032250098200000411
其中,
Figure BDA00032250098200000412
Ci∈C,mi为特征/>
Figure BDA00032250098200000413
在皮尔逊相关系数矩阵C中的位置;argmax()为取最大值;权重ψi越高,认为第i个特征子空间内的属性间相关程度越高,训练出的模型性能越好,计算所得的异常分数也越可靠;
(6)根据步骤(4)、(5)所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测;
上述方法步骤(1)中,将电力调度监控历史数据中80%作为训练集S,20%作为测试集T;
上述方法步骤(6)中,根据步骤(4)、(5)所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测,具体为:
根据所得权重向量
Figure BDA0003225009820000051
以及异常分数集合r计算最终异常分数/>
Figure BDA0003225009820000055
Figure BDA0003225009820000052
其中,·代表矩阵间的乘积,
Figure BDA0003225009820000053
将测试集T中的样本按照在最终异常分数
Figure BDA0003225009820000054
中对应的值由高到低进行排名,将排序后的测试集中前t%个样本标记为异常类,取5≤t≤10,从而实现电力调度监控数据异常检测。
所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提高。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,基于特征属性之间的不同相关性,选择特征作为伪标签而不是数据的真实标签,旨在根据相关信息对数据集的特征进行划分,以便使用强相关特征进行回归预测并挖掘特征之间包含的模式;同时考虑到不同相关度下特征预测的可靠性,引入相关系数作为每个分区预测结果的权重,一定程度上缓解了因维数增加带来的性能下降问题,而且减少了无关属性的影响,从而提高电力调度监控数据异常检测的性能。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图;
图2是基于特征相关性的分区方法流程示意图;
图3是基于特征相关性的加权回归预测方法流程示意图;
图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图;
图5是本发明算法的输入数据和输出结果示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于特征相关性分区回归的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,根据特征间的相关性划分出关联程度较高的特征子空间用以训练回归模型来检测待检测数据。
图1是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
步骤101,将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵。
具体的,随机选取全部电力监控历史数据中的80%历史数据作为训练集S,20%历史数据作为测试集T。电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数。数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
Figure BDA0003225009820000061
Figure BDA0003225009820000071
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b。Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba
步骤102,根据计算所得相关系数矩阵对训练集进行特征子空间的划分。
具体的,根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
Figure BDA0003225009820000072
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低。
设S'为一个特征空间,其初始值为整个训练集S。在每次循环中,根据步骤101中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征
Figure BDA0003225009820000073
并提取出与/>
Figure BDA0003225009820000074
相关性排名靠前的j维特征/>
Figure BDA0003225009820000075
j=ni-1。/>
Figure BDA0003225009820000076
以及/>
Figure BDA0003225009820000077
均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量。令
Figure BDA0003225009820000078
将xi与/>
Figure BDA0003225009820000079
作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集。完成全部k个特征子空间的划分。
步骤103,根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型。
具体的,将步骤102中所得的特征子空间Si中对应的
Figure BDA00032250098200000710
作为伪标签,剩余特征
Figure BDA00032250098200000711
作为预测属性,并基于支持向量回归SVR算法训练用于预测伪标签/>
Figure BDA00032250098200000712
的回归模型fi(xi),经过训练后获得模型的一般形式如下所示:
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项。
步骤104,测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度。
具体的,根据步骤102中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分。
Figure BDA0003225009820000081
以及/>
Figure BDA0003225009820000082
均为l'×1的向量,/>
Figure BDA0003225009820000083
为测试集T中样本在第i维特征子空间中的预测属性,/>
Figure BDA0003225009820000084
则为对应的伪标签属性,l'为测试集T中的样本数量。
根据步骤103中训练得到的模型fi(x)对划分特征子空间后的测试集T中的样本进行预测,令
Figure BDA0003225009820000085
可得伪标签/>
Figure BDA0003225009820000086
对应的预测值fi(xi'),进而得到伪标签真实值与预测值之间的差值向量/>
Figure BDA0003225009820000087
Figure BDA0003225009820000088
每个测试集T中样本的差值计算结果都能在
Figure BDA0003225009820000089
中一一对应。将/>
Figure BDA00032250098200000810
作为第i个特征子空间内测试集样本的异常分数,测试集样本在/>
Figure BDA00032250098200000811
中对应的值越大,认为该样本的异常程度越高。整合各特征子空间结果得到异常分数集合/>
Figure BDA00032250098200000812
步骤105,根据特征子空间内相关程度计算所对应的权重。
具体的,根据步骤102中所得特征子空间相关程度计算各特征子空间所对应的权重组成一维权重向量
Figure BDA00032250098200000813
第i个特征子空间Si对应的权重ψi为/>
Figure BDA00032250098200000814
的相关系数向量中的最大值,即:
Figure BDA00032250098200000815
其中,
Figure BDA00032250098200000816
Ci∈C,mi为特征/>
Figure BDA00032250098200000817
在皮尔逊相关系数矩阵C中的位置。argmax()为取最大值。权重ψi越高,认为第i个特征子空间内的属性间相关程度越高,训练出的模型性能越好,计算所得的异常分数也越可靠。
步骤106,根据加权后集成的最终异常分数作为测试集样本的检测结果。
具体的,据步骤104、105所得特征子空间对应的异常分数ri和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测,具体为:
根据所得权重向量
Figure BDA0003225009820000091
以及异常分数集合r计算最终异常分数/>
Figure BDA0003225009820000097
Figure BDA0003225009820000092
其中,·代表矩阵间的乘积,
Figure BDA0003225009820000093
将测试集T中的样本按照在最终异常分数
Figure BDA0003225009820000094
中对应的值由高到低进行排名,将排序后的测试集中前t%个样本标记为异常类,取5≤t≤10,从而实现电力调度监控数据异常检测。
图2所示为基于特征相关性的分区方法流程示意图,该方法基于训练集特征间的相关系数对整个特征空间进行分区;输入为训练集中的所有数据;经过图示循环流程后,训练集所有样本的各维特征会被划分到对应特征子空间中。
图3是基于特征相关性的加权回归预测方法流程示意图,该方法将各特征子空间Si中对应的
Figure BDA0003225009820000095
作为伪标签,剩余特征作为预测属性,并基于支持向量回归SVR算法训练回归模型;训练完成后使用训练得到的模型对划分特征子空间后的测试集T中的样本进行预测,可得测试集T伪标签/>
Figure BDA0003225009820000096
所对应的预测值,进而得到每个测试集样本的差值计算结果;计算所得差值越大,则认为该样本的异常程度越高;同时根据所得特征子空间相关程度计算各特征子空间所对应的权重,最后根据所得样本在各特征子空间中对应的异常分数以及权重集成所有结果。
图4是本发明所提出的基于特征相关性分区回归的电力调度监控数据异常检测方法示意图,提出的方法主要包括6个阶段:计算特征间相关性阶段、划分特征子空间阶段、训练回归模型阶段、计算异常分数阶段、计算特征子空间权重阶段、集成获得最终异常分数并得到结果阶段。在计算特征间相关性阶段,随机将电力调度历史监控数据的80%作为训练集,20%作为测试集,并基于训练集样本特征计算相关系数矩阵。在划分特征子空间阶段,基于训练集特征间的相关系数对整个特征空间进行分区,输入训练集中的所有数据,并将训练集所有样本的特征划分到各特征子空间中。在训练回归模型阶段,根据相关系数在各特征子空间中选择某一维特征作为伪标签,剩余特征作为预测属性,并基于支持向量回归SVR算法训练回归模型。在计算异常分数阶段,根据训练集的特征子空间划分情况完成对测试集同样的划分,并计算测试集样本在各回归模型上预测值与真实值的差值,从而得到测试集各样本的在各子空间内对应的异常分数。在计算特征子空间权重阶段,基于所划分训练集特征子空间内的最高相关系数,为测试集对应的异常分数赋予不同的权重,权重越高,认为特征子空间内的属性间相关程度越高,训练出的模型性能越好,计算所得的异常分数也越可靠。在集成获得最终异常分数并得到结果阶段,根据所得特征子空间对应的异常分数和权重集成得到最终异常分数,并根据最终异常分数得到测试集中样本的检测结果,实现电力调度监控数据异常检测。
图5是本发明算法的输入数据和输出结果示意图,本发明算法的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;本发明算法的输出为根据所得异常分数的排名,前t%输入数据为异常数据,其他数据为正常数据,t一般取值5≤t≤10。
算法1为本发明基于特征相关性分区回归的电力调度监控数据异常检测方法的完整框架伪代码:
Figure BDA0003225009820000101
Figure BDA0003225009820000111
Figure BDA0003225009820000121
用于具体实施例中,使用21个公开数据集进行测试,数据集来自于各个领域,并经过预处理以模拟异常数量极少的数据特征。数据集的具体信息如表1所示。为了降低结果的随机性,全部结果均是运行25次的平均值。
表1具体实施例中使用的数据集
数据集 样本总数 异常数 特征维度 不平衡度
PenDigits 4934 10 15 493.4
Pop_failures 509 15 18 33.9
Hepatitis 70 3 19 22.3
Messidor_features 567 27 19 21.0
Cardiotocography 1681 33 20 50.9
Waveform 3443 100 20 34.4
Annthyroid 3365 67 20 50.2
Parkinson 50 2 21 25.0
mHealth 697 20 23 34.9
WDBC 367 10 30 36.7
WPBC 155 4 32 38.7
Biodeg 730 31 41 23.5
Spectf 218 7 44 31.1
Lymphography 148 6 46 24.7
Spam-Base 2579 51 56 50.6
Sonar 100 4 60 25.0
Green 225 9 62 25.0
MEU_Mobile 1070 50 71 21.4
KDDCup99 4811 20 78 240.6
Mice_Protein 519 12 79 43.3
Movement_libras 347 11 90 31.5
为验证所提算法的有效性,本发明实施例中将对比算法分为两类。其中基于特征预测的方法三种:DEMUD、ALSO以及DELR;基于样本分布的方法四种:LOF、KNN、COPOD、LGOD。本发明实施例在表格中用CFPR表示。对比算法相关参数如表2所示。
表2对比算法相关参数
Figure BDA0003225009820000131
本发明实施例使用AUC指标进行评定。通常G-mean被用来评估数据不平衡下算法的性能,一般来说,使用AUC指标作为判定无监督异常检测方法效果好坏的指标更为合适。AUC常用于异常检测领域,因为它所得结果不受类别不平衡的影响,同时AUC还可以仅根据异常分数排名计算,通过正负类样本在排名表中的rank值,可以计算得到所需要的AUC值。实施例中将异常类看做正类,AUC的大小直接表明了算法在异常数据上的性能,即AUC越大,异常检测的准确率越高,算法的性能越好。
本发明实施例中检测结果的异常判定比例t设置为5。
本发明实施例和其他对比方法在公开数据集上的AUC结果如表3所示。可以看到本发明基于特征相关性分区回归的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的AUC值,并获得了最高的平均AUC。
表3在公开数据集上的AUC结果
Figure BDA0003225009820000132
/>
Figure BDA0003225009820000141
同样将本发明实施例应用在三种智能电网调度控制系统业务异常上,这三种异常分别为数据跳变、应用断网和遥测表不刷新。
表4展示了本发明实施例和其他对比方法在这三种异常上的AUC结果。
表4在三种异常上的AUC结果
异常类型 DEMUD ALSO DELR LOF KNN COPOD LGOD CFPR
数据跳变 0.8614 0.9994 0.9926 0.5417 0.4396 0.9800 0.2482 0.9852
应用断网 0.9510 0.9955 0.9969 0.6981 0.9063 0.9923 0.9959 0.9868
遥测表不刷新 0.9848 0.9853 0.9928 0.5517 0.9927 0.9922 0.7628 0.9952
从表4中可以看到本发明在遥测表不刷新异常上取得了AUC指标的最优性能。由于本发明基于特征相关性分区回归的电力调度监控数据异常检测方法通过寻找数据特征间的相关性来挖掘数据中隐藏的信息,虽说在数据跳变和应用断网这两种异常上并未有突出的表现,但相比于其他方法并未落后太多。三种实际电力调度监控数据异常上的对比结果结合大量公开数据集上的对比结果,说明本发明可以在应对电力调度监控数据维数较高、无关属性较多的情况下,能够有效的提升异常检测的准确率,并且在其他情况下,也能取得较为稳定的异常检测结果。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,将电力调度监控历史数据划分为训练集和测试集,基于皮尔逊相关系数计算训练集特征间的相关系数矩阵;根据计算所得相关系数矩阵对训练集进行特征子空间的划分;根据特征子空间内特征相关程度的高低选择特征作为伪标签,剩余特征作为预测属性,基于支持向量回归SVR训练用于预测伪标签的回归模型;对测试集进行与训练集相同的特征子空间划分,并使用对应的回归模型计算各特征子空间中测试集样本的异常程度;根据特征子空间内相关程度计算所对应的权重;根据加权后集成的最终异常分数作为测试集样本的检测结果。与其他无监督算法相比,本方法可获得更高的异常检测准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (3)

1.一种基于特征相关性分区回归的电力调度监控数据异常检测方法,其特征在于,包括如下步骤:
(1)计算特征间相关性,具体为:
随机选取全部电力监控历史数据中的部分历史数据作为训练集S,其余的历史数据作为测试集T;电力调度监控历史数据为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,其特征属性包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;数据集中样本的特征维度为N,基于训练集S的样本特征计算对应的皮尔逊相关系数矩阵C:
Figure FDA0003225009810000011
Figure FDA0003225009810000012
其中,xa,xb分别为训练集S中的样本在第a,b维特征属性下的值,ρab为xa,xb间的相关系数,a,b∈1,2,...,N且a≠b;Cov(xa,xb)是xa与xb之间的协方差,Var()则是各自对应的方差,ρab=ρba
(2)划分特征子空间,具体为:
根据训练集S中样本的特征维度N,确定需要划分的特征子空间数量k,设第i个特征子空间Si包含的特征数量为ni,则:
k=int(α×N)+1
Figure FDA0003225009810000013
其中,i=1,2,…,k,int()为向下取整,特征子空间的划分系数α=0.2,用以控制特征子空间中特征维数的高低;
设S'为一个特征空间,其初始值为整个训练集S;在每次循环中,根据步骤(1)中计算所得皮尔逊相关系数矩阵C获得在特征空间S'中相关系数最高的特征
Figure FDA0003225009810000021
并提取出与/>
Figure FDA0003225009810000022
相关性排名靠前的j维特征/>
Figure FDA0003225009810000023
Figure FDA0003225009810000024
以及/>
Figure FDA0003225009810000025
均为l×1的向量,均包含训练集S所有样本在对应维度特征属性下的值,l为训练集S中的样本数量;令
Figure FDA0003225009810000026
将xi与/>
Figure FDA0003225009810000027
作为组成第i个特征子空间Si的特征维度,并在更新特征空间S'←S'-Si之后继续进行上述循环,循环终止条件为S'=φ,φ代表空集;完成全部k个特征子空间的划分;
(3)训练特征子空间回归模型,具体为:
将步骤(2)中所得的特征子空间Si中对应的
Figure FDA0003225009810000028
作为伪标签,剩余特征
Figure FDA0003225009810000029
作为预测属性,并基于支持向量回归SVR算法训练用于预测伪标签/>
Figure FDA00032250098100000210
的回归模型fi(xi),经过训练后获得模型的一般形式如下所示:
fi(xi)=wTxi+b
其中,w,b为模型训练所得参数,w=[w1,w2,…,wj],b为常数项;
(4)使用训练好的回归模型计算各特征子空间中测试集样本的异常程度,具体为:
根据步骤(2)中训练集S的特征子空间划分结果对测试集T中样本的特征属性进行相同的特征子空间划分;
Figure FDA00032250098100000211
以及/>
Figure FDA00032250098100000212
均为l'×1的向量,/>
Figure FDA00032250098100000213
为测试集T中样本在第i维特征子空间中的预测属性,/>
Figure FDA00032250098100000214
则为对应的伪标签属性,l'为测试集T中的样本数量;
根据步骤(3)中训练得到的模型fi(x)对划分特征子空间后的测试集T中的样本进行预测,令
Figure FDA00032250098100000215
可得伪标签/>
Figure FDA00032250098100000216
对应的预测值fi(xi'),进而得到伪标签真实值与预测值之间的差值向量/>
Figure FDA00032250098100000217
Figure FDA00032250098100000218
每个测试集T中样本的差值计算结果都能在
Figure FDA0003225009810000031
中一一对应;将/>
Figure FDA0003225009810000032
作为第i个特征子空间内测试集样本的异常分数,测试集样本在/>
Figure FDA0003225009810000033
中对应的值越大,认为该样本的异常程度越高;整合各特征子空间结果得到异常分数集合/>
Figure FDA0003225009810000034
(5)加权各特征子空间结果,具体为:
根据步骤(2)中所得特征子空间相关程度计算各特征子空间所对应的权重组成一维权重向量
Figure FDA0003225009810000035
第i个特征子空间Si对应的权重ψi为/>
Figure FDA0003225009810000036
的相关系数向量中的最大值,即:
Figure FDA0003225009810000037
其中,
Figure FDA0003225009810000038
mi为特征/>
Figure FDA0003225009810000039
在皮尔逊相关系数矩阵C中的位置;argmax()为取最大值;权重ψi越高,认为第i个特征子空间内的属性间相关程度越高,训练出的模型性能越好,计算所得的异常分数也越可靠;
(6)根据步骤(4)、(5)所得特征子空间对应的异常分数
Figure FDA00032250098100000310
和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测。
2.根据权利要求1所述的一种基于特征相关性分区回归的电力调度监控数据异常检测方法,其特征在于,所述步骤(1)中,将电力调度监控历史数据中80%作为训练集S,20%作为测试集T。
3.根据权利要求1所述的一种基于特征相关性分区回归的电力调度监控数据异常检测方法,其特征在于,所述步骤(6)中,根据步骤(4)、(5)所得特征子空间对应的异常分数
Figure FDA00032250098100000311
和权重ψi集成得到最终异常分数,并根据最终异常分数得到测试集T中样本的检测结果,实现电力调度监控数据异常检测,具体为:
根据所得权重向量
Figure FDA00032250098100000312
以及异常分数集合r计算最终异常分数/>
Figure FDA00032250098100000313
Figure FDA00032250098100000314
其中,·代表矩阵间的乘积,
Figure FDA00032250098100000315
将测试集T中的样本按照在最终异常分数
Figure FDA0003225009810000041
中对应的值由高到低进行排名,将排序后的测试集中前t%个样本标记为异常类,取5≤t≤10,从而实现电力调度监控数据异常检测。
CN202110968331.4A 2021-08-23 2021-08-23 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 Active CN113591400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968331.4A CN113591400B (zh) 2021-08-23 2021-08-23 一种基于特征相关性分区回归的电力调度监控数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968331.4A CN113591400B (zh) 2021-08-23 2021-08-23 一种基于特征相关性分区回归的电力调度监控数据异常检测方法

Publications (2)

Publication Number Publication Date
CN113591400A CN113591400A (zh) 2021-11-02
CN113591400B true CN113591400B (zh) 2023-06-27

Family

ID=78238954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968331.4A Active CN113591400B (zh) 2021-08-23 2021-08-23 一种基于特征相关性分区回归的电力调度监控数据异常检测方法

Country Status (1)

Country Link
CN (1) CN113591400B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600102B (zh) * 2022-04-26 2023-11-21 南京天洑软件有限公司 基于船舶数据的异常点检测方法及装置、电子设备、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284982A (ja) * 2004-03-30 2005-10-13 Matsushita Electric Works Ltd 異常診断装置、異常診断方法、発電装置監視システム、及び燃料切れ報知装置
WO2019237492A1 (zh) * 2018-06-13 2019-12-19 山东科技大学 一种基于半监督学习的异常用电用户检测方法
CN113112188A (zh) * 2021-05-14 2021-07-13 北京邮电大学 一种基于预筛选动态集成的电力调度监控数据异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160369777A1 (en) * 2015-06-03 2016-12-22 Bigwood Technology, Inc. System and method for detecting anomaly conditions of sensor attached devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284982A (ja) * 2004-03-30 2005-10-13 Matsushita Electric Works Ltd 異常診断装置、異常診断方法、発電装置監視システム、及び燃料切れ報知装置
WO2019237492A1 (zh) * 2018-06-13 2019-12-19 山东科技大学 一种基于半监督学习的异常用电用户检测方法
CN113112188A (zh) * 2021-05-14 2021-07-13 北京邮电大学 一种基于预筛选动态集成的电力调度监控数据异常检测方法

Also Published As

Publication number Publication date
CN113591400A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US10311368B2 (en) Analytic system for graphical interpretability of and improvement of machine learning models
CN105071983B (zh) 一种面向云计算在线业务的异常负载检测方法
US11544570B2 (en) Method and apparatus for large scale machine learning
CN109891508B (zh) 单细胞类型检测方法、装置、设备和存储介质
CN111373415A (zh) 使用神经网络分析序列数据
CN109472318B (zh) 为构建的机器学习模型选取特征的方法及装置
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
US20200097997A1 (en) Predicting counterfactuals by utilizing balanced nonlinear representations for matching models
CN115270986A (zh) 数据异常检测方法、装置和计算机设备
CN113591400B (zh) 一种基于特征相关性分区回归的电力调度监控数据异常检测方法
US20230005572A1 (en) Molecular structure acquisition method and apparatus, electronic device and storage medium
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
CN116304853A (zh) 一种极限学习机与特征提取相结合的数据分类方法及系统
CN111461923A (zh) 一种基于深度卷积神经网络的窃电监测系统和方法
CN114463587A (zh) 一种异常数据检测方法、装置、设备及存储介质
De Bie et al. Efficiently learning the metric with side-information
CN116611003A (zh) 一种变压器故障诊断方法、装置、介质
KR20210143460A (ko) 특징 추천 장치 및 그것의 특징 추천 방법
US7797136B2 (en) Metrics to evaluate process objects
Murua et al. On potts model clustering, kernel k-means and density estimation
CN114936204A (zh) 一种特征筛选方法、装置、存储介质及电子设备
CN115420866A (zh) 药物活性检测方法、装置、电子设备和存储介质
Kunkel et al. Statistical inference with anchored Bayesian mixture of regressions models: A case study analysis of allometric data
CN115935200B (zh) 一种基于哈希和海明距离的海量数据相似性计算方法
CN117367751B (zh) 超脉冲掺铥激光器的性能检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant