CN113608968A - 一种基于密度距离综合决策的电力调度监控数据异常检测方法 - Google Patents
一种基于密度距离综合决策的电力调度监控数据异常检测方法 Download PDFInfo
- Publication number
- CN113608968A CN113608968A CN202110967252.1A CN202110967252A CN113608968A CN 113608968 A CN113608968 A CN 113608968A CN 202110967252 A CN202110967252 A CN 202110967252A CN 113608968 A CN113608968 A CN 113608968A
- Authority
- CN
- China
- Prior art keywords
- density
- sample
- distance
- calculating
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Monitoring And Testing Of Nuclear Reactors (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明实施例提出了一种基于密度距离综合决策的电力调度监控数据异常检测方法,包括:将电力调度监控历史数据作为输入数据集,通过局部可达距离与核密度估计来计算样本的局部密度;使用自然对数函数作为缩放函数,计算每个样本与其近邻的密度比;通过欧式距离找到每个样本密度比自身大的近邻,计算密度提升距离;将局部密度比与密度提升距离标准化后计算乘积,得到最终的异常分数,并判定数据中的异常样本。本发明实施例提供的技术方案,能够提升电力调度监控数据异常检测的准确率。
Description
【技术领域】
本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于密度距离综合决策的电力调度监控数据异常检测方法。
【背景技术】
智能电网旨在通过积极利用通信及信息化技术,解决从发电设施经送电、变电一直到最终用户的整个过程中存在的各种问题的概念。智能电网调度控制系统作为电网运行的指挥中枢,在电力系统的发电、输电、变电、配电环节都发挥着十分重要的作用,是实现电网的可靠、安全、经济、高效、环境友好和使用安全目标的关键。虽然智能电网调度控制系统可以提供大量的电网运行数据与分析结果,为电力系统运维人员准确评估电网状况带来便利,但是其拥有海量规模的数据,且特征繁多,彼此之间存在着复杂的关系。随着系统规模的不断扩大,传统的基于运维调度人员和专家经验的异常检测方法主观性较强,且无法全面考虑数据特征之间的关系和数据之间的互相影响,已经难以满足准确异常检测的需求。同时,由于数据规模庞大,很难通过咨询专家等方式人工为这些数据标定正、异常标签,从而难以使用有监督的机器学习方法检测异常,而使用无监督机器学习方法能够在无标签的情况下对数据分布进行分析并检测异常,因此可以认为无监督方法能够较为有效地解决电力调度监控数据的异常检测问题。而由于电力调度业务种类繁多,监控数据的正常样本会形成多模式分布的情况,当前已有的无监督异常检测方法大部分没有考虑到该情况而导致难以检测局部和成簇异常。因此,提出一种能够对局部和成簇异常进行有效检测的无监督算法,以提高异常的检测准确率,对于加强电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于密度距离综合决策的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的性能。
本发明提出一种基于密度距离综合决策的电力调度监控数据异常检测方法,包括如下步骤:
(1)计算数据样本的局部可达核密度,具体为:
将电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据作为电力调度监控历史数据集输入,记为X={x1,x2,x3,...,xn},其中xn∈Ru,R代表实数集,u=6代表数据的维度,具体包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;输入数据集X的总样本数目为N;
计算第i个样本xi到X中所有样本的欧式距离d(xi,xj),xj∈X,并取距离xi最近的k个样本,记为kNN(xi);计算xi到kNN(xi)中的所有样本的局部可达距离:
dk-reach(xi,xj)=max{dk-dis(xj),d(xi,xj)},xj∈kNN(xi)
其中,j=1,2,...k;dk-dis(xj)为xj到其第k个最近邻的欧式距离。使用高斯核函数与局部可达距离对xi进行核密度估计:
其中,h(xj)为高斯核函数在xj处的带宽,取值为dk-dis(xj);i=1,2,...N,N表示输入数据集X的总样本数目;
(2)计算样本的局部密度比,具体为:
基于步骤(1)中计算的局部可达核密度ρ(xi),使用自然对数函数ln(x+1)作为缩放函数,计算输入样本集X中每个样本xi的局部密度比:
其中,j=1,2,...k;|kNN(xi)|代表xi的k最近邻数量;
(3)计算样本的密度提升距离,具体为:
对于样本xi,基于步骤(1)中计算的局部可达核密度ρ(xi),寻找核密度比xi大的样本并计算它们到xi的欧式距离,找到其中距离xi最近的kd个样本,将它们到xi的距离记为Δdm(xi),m=1,2,...kd;计算其中每个样本的权重ωm:
根据Δdm(xi)与权重ωm,计算输入样本集X中每个样本xi的密度提升距离Δd(xi):
(4)根据步骤(2)计算的输入样本集X中每个样本的局部密度比与步骤(3)计算的对应的密度提升距离,计算最终异常分数并检测异常,具体为:
通过norm()标准化函数对输入样本集X中每个样本xi的Δρ(xi)与Δd(xi)进行最大最小标准化后,计算xi的最终异常分数:
DGOF(xi)=norm(Δρ(xi))·norm(Δd(xi))
其中标准化函数norm()的定义如下:
根据计算的异常分数DGOF(xi)对数据样本进行排序,分数最高的前t%样本将被判定为异常,实现电力调度监控数据异常检测。
上述方法步骤(1)中,k的取值为6log(N),其中N为输入数据集X的总样本数目。
上述方法步骤(3)中,kd的取值为3log(N),其中N为输入数据集X的总样本数目。
上述方法步骤(4)中,将排序后分数最高的前t%个样本判定为异常,取5≤t≤20。
所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提高。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,通过使用局部可达距离和核密度估计,能够更为准确地判断样本的局部密度,通过使用局部密度比作为局部异常程度、密度提升距离作为全局异常程度进行异常分数的计算,能够更为有效检测局部与成簇异常,从而提高电力调度监控数据异常检测的性能。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明所提出的基于密度距离综合决策的电力调度监控数据异常检测方法框架流程示意图;
图2是计算局部可达距离的示意图;
图3是计算密度提升距离的示意图;
图4是在测试数据集上根据局部密度比与密度提升距离画出的密度距离决策图;
图5是本发明算法的输入数据和输出结果示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于密度距离综合决策的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,根据局部可达核密度计算局部密度比与密度提升距离指标,并在标准化后计算最终异常分数来判断异常。
图1是本发明所提出的基于密度距离综合决策的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
步骤101,将电力调度监控历史数据作为输入数据集,通过局部可达距离与核密度估计计算样本的局部密度。
具体的,将电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据作为电力调度监控历史数据集输入,记为X={x1,x2,x3,...,xn},其中xn∈Ru,R代表实数集,u=6代表数据的维度,具体包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;输入数据集X的总样本数目为N。
计算第i个样本xi到X中所有样本的欧式距离d(xi,xj),xj∈X,并取距离xi最近的k个样本,记为kNN(xi);计算xi到kNN(xi)中的所有样本的局部可达距离:
dk-reach(xi,xj)=max{dk-dis(xj),d(xi,xj)},xj∈kNN(xi)
其中,j=1,2,...k;dk-dis(xj)为xj到其第k个最近邻的欧式距离;k=6log(N),N表示数据集的样本数目。计算局部可达距离的示意图如图2所示。使用高斯核函数与局部可达距离对xi进行核密度估计:
其中,h(xj)为高斯核函数在xj处的带宽,取值为dk-dis(xj);i=1,2,...N,N表示输入数据集X的总样本数目。
步骤102,使用自然对数函数作为缩放函数,计算每个样本与其近邻的密度比。
具体的,基于步骤101中计算的局部可达核密度ρ(xi),使用自然对数函数ln(x+1)作为缩放函数,计算输入样本集X中每个样本xi的局部密度比:
其中,j=1,2,...k;|kNN(xi)|代表xi的k最近邻数量。
步骤103,通过欧式距离找到每个样本密度比自身大的近邻,计算密度提升距离。
具体的,对于样本xi,基于步骤101中计算的局部可达核密度ρ(xi),寻找核密度比xi大的样本并计算它们到xi的欧式距离,找到其中距离xi最近的kd个样本,将它们到xi的距离记为Δdm(xi),m=1,2,...kd,kd=3log(N)。Δdm(xi)的示意图如图3所示。计算其中每个样本的权重ωm:
根据Δdm(xi)与权重ωm,计算输入样本集X中每个样本xi的密度提升距离Δd(xi):
步骤104,根据步骤102计算的局部密度比与步骤103计算的密度提升距离画出决策图,并计算最终异常分数,检测异常。
具体的,以局部密度比Δρ作为横轴,密度提升距离Δd作为纵轴,画出所有样本在该二维坐标系下的散点图,以可视化的方式展现异常程度,如图4所示,其中灰色圆点代表正常样本,黑色叉叉标记代表异常样本。通过norm()标准化函数对输入样本集X中每个样本xi的Δρ(xi)与Δd(xi)进行最大最小标准化后,计算xi的最终异常分数:
DGOF(xi)=norm(Δρ(xi))·norm(Δd(xi))
其中标准化函数norm()的定义如下:
根据计算的异常分数DGOF(xi)对数据样本进行排序,分数最高的前t%样本将被判定为异常,其中5≤t≤20,实现电力调度监控数据异常检测。
图5是本发明算法的输入数据和输出结果示意图,本发明算法的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;本发明算法的输出为异常分数DGOF和将异常分数排序后分数最高的前t%被判定为异常的数据样本。
算法1为基于密度距离综合决策异常检测方法的伪代码:
用于具体实施例中,使用16个公开数据集进行测试,数据集来自于各个领域,并经过最大最小缩放对所有特征进行标准化。数据集的具体信息如表1所示。为了降低结果的随机性,全部结果均是进行10折交叉验证后的平均值。
表1 具体实施例中使用的数据集
数据集 | 样本数目 | 异常数目 | 异常占比 | 维度 |
PenDigits | 9869 | 20 | 0.20% | 16 |
Shuttle | 1013 | 13 | 1.28% | 9 |
WBC | 454 | 10 | 2.20% | 9 |
WDBC | 367 | 10 | 2.72% | 30 |
Waveform | 3443 | 100 | 2.90% | 21 |
Glass | 214 | 9 | 4.21% | 7 |
Annthyroid | 7200 | 534 | 7.42% | 21 |
Stamps | 340 | 31 | 9.12% | 9 |
PageBlocks | 5473 | 560 | 10.23% | 10 |
Cardiotocography | 2126 | 471 | 22.15% | 21 |
WPBC | 198 | 47 | 23.74% | 33 |
Pima | 768 | 268 | 34.90% | 8 |
Ionosphere | 351 | 126 | 35.90% | 32 |
SpamBase | 4601 | 1813 | 39.40% | 57 |
HeartDisease | 270 | 120 | 44.44% | 13 |
Arrhythmia | 450 | 206 | 45.78% | 259 |
为验证所提算法的有效性,本发明实施例中使用了12种典型无监督异常检测算法作为对比算法,如表2所示,本发明实施例在表格中用DGOF表示。
表2 具体实施例中进行对比的算法
本发明实施例使用ROC曲线来衡量异常检测的结果。ROC曲线是一个准确率与误报率随着判定阈值的变化画出的曲线。一个完美的异常检测器的曲线应该由在误报率为0时的一条竖直线以及准确率为1时的一条横直线组成。ROC曲线可以通过一个简单的指标来衡量,即曲线下方面积(AUC)。AUC的取值从0到1,异常检测准确率越高,AUC的值越大,完美的异常检测器得出的排名结果可以让AUC达到1,而最差的排名结果将导致AUC为0。
本发明实施例中异常类标记方法中t设置为10。
本发明实施例和基于密度的对比方法在公开数据集上的AUC结果如表3所示。可以看到本发明基于密度距离综合决策的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的AUC,并获得了最高的平均AUC与最低的平均秩。
表3 在公开数据集上与基于密度方法对比的AUC结果
数据集 | LOF | CBLOF | LDF | RDOS | CELOF | DGOF |
PenDigits | 0.9168 | 0.9002 | 0.96 | 0.6796 | 0.9356 | 0.9808 |
Shuttle | 0.9241 | 0.6046 | 0.9056 | 0.9343 | 0.9133 | 0.9262 |
WBC | 0.9778 | 0.9887 | 0.9898 | 0.9789 | 0.982 | 0.9901 |
WDBC | 0.9404 | 0.9374 | 0.931 | 0.9312 | 0.9435 | 0.938 |
Waveform | 0.743 | 0.7375 | 0.7595 | 0.7339 | 0.7643 | 0.7783 |
Glass | 0.8683 | 0.8748 | 0.9068 | 0.9144 | 0.858 | 0.9062 |
Annthyroid | 0.6737 | 0.5318 | 0.6463 | 0.6572 | 0.6723 | 0.6528 |
Stamps | 0.7478 | 0.9238 | 0.8256 | 0.5737 | 0.8249 | 0.9408 |
PageBlocks | 0.7857 | 0.9083 | 0.8144 | 0.7036 | 0.7617 | 0.8525 |
Cardiotocography | 0.5946 | 0.6908 | 0.6091 | 0.5251 | 0.603 | 0.6061 |
WPBC | 0.5252 | 0.5125 | 0.5783 | 0.5664 | 0.5154 | 0.617 |
Pima | 0.6457 | 0.6716 | 0.7091 | 0.6243 | 0.6463 | 0.7571 |
Ionosphere | 0.9055 | 0.9319 | 0.8891 | 0.6356 | 0.9076 | 0.9239 |
SpamBase | 0.4819 | 0.5771 | 0.4989 | 0.5086 | 0.4805 | 0.6457 |
HeartDisease | 0.5873 | 0.6048 | 0.6334 | 0.5717 | 0.6103 | 0.8043 |
Arrhythmia | 0.7375 | 0.7436 | 0.7038 | 0.4537 | 0.7574 | 0.7634 |
平均AUC | 0.7535 | 0.7587 | 0.7725 | 0.6870 | 0.7610 | 0.8177 |
平均秩 | 4.13 | 3.50 | 3.31 | 4.69 | 3.63 | 1.75 |
本发明实施例和其他对比方法在公开数据集上的AUC结果如表4所示。可以看到本发明基于密度距离综合决策的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的AUC值,并获得了最高的平均AUC与最低的平均秩。综合表3与表4结果,说明本发明实施例方法的异常检测准确率高。
表4 在公开数据集上与其他方法对比的AUC结果
数据集 | KNN | ABOD | IFOREST | HBOS | LGOD | COPOD | MOD+ | DGOF |
PenDigits | 0.9864 | 0.9699 | 0.8758 | 0.7537 | 0.9873 | 0.5793 | 0.9849 | 0.9808 |
Shuttle | 0.9455 | 0.7788 | 0.6725 | 0.8067 | 0.8982 | 0.6261 | 0.9251 | 0.9262 |
WBC | 0.9897 | 0.9866 | 0.9897 | 0.9851 | 0.9898 | 0.9869 | 0.9878 | 0.9901 |
WDBC | 0.9404 | 0.9248 | 0.9574 | 0.9628 | 0.9548 | 0.9699 | 0.9227 | 0.938 |
Waveform | 0.7623 | 0.6798 | 0.726 | 0.6969 | 0.7625 | 0.7366 | 0.7717 | 0.7783 |
Glass | 0.8732 | 0.8623 | 0.8114 | 0.8282 | 0.8634 | 0.755 | 0.8653 | 0.9062 |
Annthyroid | 0.6352 | 0.6796 | 0.6531 | 0.735 | 0.5847 | 0.6865 | 0.6275 | 0.6528 |
Stamps | 0.9011 | 0.8434 | 0.9123 | 0.9117 | 0.8657 | 0.9302 | 0.9248 | 0.9408 |
PageBlocks | 0.8723 | 0.7606 | 0.9078 | 0.8083 | 0.8269 | 0.8754 | 0.8306 | 0.8525 |
Cardiotocography | 0.6248 | 0.5119 | 0.7432 | 0.6299 | 0.6695 | 0.6629 | 0.5867 | 0.6061 |
WPBC | 0.537 | 0.5261 | 0.5213 | 0.5484 | 0.5608 | 0.5233 | 0.5833 | 0.617 |
Pima | 0.7291 | 0.7068 | 0.6997 | 0.7058 | 0.7443 | 0.654 | 0.7474 | 0.7571 |
Ionosphere | 0.927 | 0.9309 | 0.8562 | 0.8634 | 0.9013 | 0.7895 | 0.9149 | 0.9239 |
SpamBase | 0.5723 | 0.4078 | 0.6508 | 0.6807 | 0.6177 | 0.6771 | 0.5816 | 0.6457 |
HeartDisease | 0.6751 | 0.646 | 0.6464 | 0.7627 | 0.7991 | 0.6946 | 0.732 | 0.8043 |
Arrhythmia | 0.7512 | 0.7493 | 0.7756 | 0.7512 | 0.7462 | 0.7576 | 0.7388 | 0.7634 |
平均AUC | 0.7952 | 0.7478 | 0.7750 | 0.7769 | 0.7983 | 0.7441 | 0.7953 | 0.8177 |
平均秩 | 4.19 | 6.19 | 4.69 | 4.75 | 4.13 | 4.88 | 4.50 | 2.69 |
同样将本发明实施例应用在三种智能电网调度控制系统业务异常上,这三种异常分别为数据跳变、应用断网和遥测表不刷新。
表5、6展示了本发明实施例和其他对比方法在这三种异常上的AUC结果。
表5 在三种异常上与基于密度方法对比的AUC结果
异常类型 | LOF | CBLOF | LDF | RDOS | CELOF | DGOF |
数据跳变 | 0.9450 | 0.9421 | 0.9603 | 0.8632 | 0.9537 | 0.9696 |
应用断网 | 0.8646 | 0.9310 | 0.8819 | 0.7135 | 0.8920 | 0.9342 |
遥测表不刷新 | 0.8443 | 0.8996 | 0.8975 | 0.7226 | 0.8728 | 0.9426 |
表6 在三种异常上与基于密度方法对比的AUC结果
从表5与表6中可以看到与所有所选的对比方法相比,本发明基于密度距离综合决策的电力调度监控数据异常检测方法都获得了较佳的AUC结果,仅在数据跳变数据集上弱于LGOD方法。三种实际电力调度监控数据异常上的对比结果结合大量公开数据集上的对比结果,说明本发明可以在应对较为复杂、存在局部与成簇异常的电力调度监控数据异常检测时有效的降低误报率。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,将电力调度监控历史数据作为待测数据集输入,通过局部可达距离与核密度估计计算样本的局部密度;使用自然对数函数作为缩放函数,计算每个样本与其近邻的密度比;通过欧式距离找到每个样本密度比自身大的近邻,计算密度提升距离;将局部密度比与密度提升距离标准化后计算乘积,得到最终的异常分数,并判定数据中的异常样本。根据本发明实施例提供的技术方案,当面对电力调度监控数据较为复杂、存在局部与成簇异常时,与典型的无监督异常检测方法对比,本方法能够提升电力调度监控数据异常检测的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (4)
1.一种基于密度距离综合决策的电力调度监控数据异常检测方法,其特征在于,包括如下步骤:
(1)计算数据样本的局部可达核密度,具体为:
将电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据作为电力调度监控历史数据集输入,记为X={x1,x2,x3,...,xn},其中xn∈Ru,R代表实数集,u=6代表数据的维度,具体包括进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数;输入数据集X的总样本数目为N;
计算第i个样本xi到X中所有样本的欧式距离d(xi,xj),xj∈X,并取距离xi最近的k个样本,记为kNN(xi);计算xi到kNN(xi)中的所有样本的局部可达距离:
dk-reach(xi,xj)=max{dk-dis(xj),d(xi,xj)},xj∈kNN(xi)
其中,j=1,2,...k;dk-dis(xj)为xj到其第k个最近邻的欧式距离;使用高斯核函数与局部可达距离对xi进行核密度估计:
其中,h(xj)为高斯核函数在xj处的带宽,取值为dk-dis(xj);i=1,2,...N,N表示输入数据集X的总样本数目;
(2)计算样本的局部密度比,具体为:
基于步骤(1)中计算的局部可达核密度ρ(xi),使用自然对数函数ln(x+1)作为缩放函数,计算输入样本集X中每个样本xi的局部密度比:
其中,j=1,2,...k;|kNN(xi)|代表xi的k最近邻数量;
(3)计算样本的密度提升距离,具体为:
对于样本xi,基于步骤(1)中计算的局部可达核密度ρ(xi),寻找核密度比xi大的样本并计算它们到xi的欧式距离,找到其中距离xi最近的kd个样本,将它们到xi的距离记为Δdm(xi),m=1,2,...kd;计算其中每个样本的权重ωm:
根据Δdm(xi)与权重ωm,计算输入样本集X中每个样本xi的密度提升距离Δd(xi):
(4)根据步骤(2)计算的输入样本集X中每个样本的局部密度比与步骤(3)计算的对应的密度提升距离,计算最终异常分数并检测异常,具体为:
通过norm()标准化函数对输入样本集X中每个样本xi的Δρ(xi)与Δd(xi)进行最大最小标准化后,计算xi的最终异常分数:
DGOF(xi)=norm(Δρ(xi))·norm(Δd(xi))
其中标准化函数norm()的定义如下:
根据计算的异常分数DGOF(xi)对数据样本进行排序,分数最高的前t%样本将被判定为异常,实现电力调度监控数据异常检测。
2.根据权利要求1所述的一种基于密度距离综合决策的电力调度监控数据异常检测方法,其特征在于,所述步骤(1)中,k的取值为6log(N),其中N为输入数据集X的总样本数目。
3.根据权利要求1所述的一种基于密度距离综合决策的电力调度监控数据异常检测方法,其特征在于,所述步骤(3)中,kd的取值为3log(N),其中N为输入数据集X的总样本数目。
4.根据权利要求1所述的一种基于密度距离综合决策的电力调度监控数据异常检测方法,其特征在于,所述步骤(4)中,将排序后分数最高的前t%个样本判定为异常,取5≤t≤20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967252.1A CN113608968B (zh) | 2021-08-23 | 2021-08-23 | 一种基于密度距离综合决策的电力调度监控数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967252.1A CN113608968B (zh) | 2021-08-23 | 2021-08-23 | 一种基于密度距离综合决策的电力调度监控数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113608968A true CN113608968A (zh) | 2021-11-05 |
CN113608968B CN113608968B (zh) | 2023-06-23 |
Family
ID=78341586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110967252.1A Active CN113608968B (zh) | 2021-08-23 | 2021-08-23 | 一种基于密度距离综合决策的电力调度监控数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113608968B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510302A (zh) * | 2022-11-16 | 2022-12-23 | 西北工业大学 | 基于大数据统计的智能工厂数据分类方法 |
CN117313957A (zh) * | 2023-11-28 | 2023-12-29 | 威海华创软件有限公司 | 基于大数据分析的生产流水任务量智能预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133320A1 (en) * | 2006-12-01 | 2008-06-05 | Ilya Gluhovsky | Modeling customer behavior in a multi-choice service environment |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN110097141A (zh) * | 2019-06-04 | 2019-08-06 | 华北电力大学 | 一种采集运维系统智能故障检测方法 |
-
2021
- 2021-08-23 CN CN202110967252.1A patent/CN113608968B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133320A1 (en) * | 2006-12-01 | 2008-06-05 | Ilya Gluhovsky | Modeling customer behavior in a multi-choice service environment |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN110097141A (zh) * | 2019-06-04 | 2019-08-06 | 华北电力大学 | 一种采集运维系统智能故障检测方法 |
Non-Patent Citations (1)
Title |
---|
孙毅;李世豪;崔灿;李彬;陈宋宋;崔高颖;: "基于高斯核函数改进的电力用户用电数据离群点检测方法", 电网技术 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510302A (zh) * | 2022-11-16 | 2022-12-23 | 西北工业大学 | 基于大数据统计的智能工厂数据分类方法 |
CN117313957A (zh) * | 2023-11-28 | 2023-12-29 | 威海华创软件有限公司 | 基于大数据分析的生产流水任务量智能预测方法 |
CN117313957B (zh) * | 2023-11-28 | 2024-02-27 | 威海华创软件有限公司 | 基于大数据分析的生产流水任务量智能预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113608968B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255848B (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
CN114297936A (zh) | 一种数据异常检测方法及装置 | |
CN114358152A (zh) | 一种智能电力数据异常检测方法及系统 | |
CN113608968B (zh) | 一种基于密度距离综合决策的电力调度监控数据异常检测方法 | |
CN113762329A (zh) | 一种大型轧机状态预测模型的构建方法及构建系统 | |
Zhang et al. | Energy theft detection in an edge data center using threshold-based abnormality detector | |
CN111833175A (zh) | 基于knn算法的互联网金融平台申请欺诈行为检测方法 | |
CN111598165A (zh) | 一种基于极限学习机的密度聚类离群点检测方法 | |
WO2023273249A1 (zh) | 基于tsvm模型的智能电能表自动化检定系统异常检测方法 | |
CN113780432B (zh) | 基于增强学习的网络信息系统运维异常智能检测方法 | |
CN113112188B (zh) | 一种基于预筛选动态集成的电力调度监控数据异常检测方法 | |
CN111367253A (zh) | 基于局部自适应标准化的化工系统多工况故障检测方法 | |
Khan et al. | Big data analytics for electricity theft detection in smart grids | |
CN111623905B (zh) | 风电机组轴承温度预警方法及装置 | |
CN116108371B (zh) | 基于级联异常生成网络的云服务异常诊断方法与系统 | |
WO2023231374A1 (zh) | 机械设备半监督故障检测分析方法、装置、终端及介质 | |
CN114167837B (zh) | 一种铁路信号系统的智能故障诊断方法及系统 | |
CN115935285A (zh) | 基于掩码图神经网络模型的多元时间序列异常检测方法和系统 | |
CN116956089A (zh) | 电器设备温度异常检测模型训练方法以及检测方法 | |
CN114597886A (zh) | 基于区间二型模糊聚类分析的配电网运行状态评估方法 | |
CN114399407A (zh) | 一种基于动静态选择集成的电力调度监控数据异常检测方法 | |
Tito et al. | Image segmentation-based event detection for non-intrusive load monitoring using Gramian Angular Summation Field | |
CN113591400A (zh) | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 | |
CN115293221A (zh) | 基于有向密度比变化率的电力调度监控数据异常检测方法 | |
CN113128913B (zh) | 一种基于反转信息熵动态集成的电力调度监控数据异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |