CN117668684B - 基于大数据分析的电网电能数据异常检测方法 - Google Patents

基于大数据分析的电网电能数据异常检测方法 Download PDF

Info

Publication number
CN117668684B
CN117668684B CN202410129751.7A CN202410129751A CN117668684B CN 117668684 B CN117668684 B CN 117668684B CN 202410129751 A CN202410129751 A CN 202410129751A CN 117668684 B CN117668684 B CN 117668684B
Authority
CN
China
Prior art keywords
data
monitoring
neighborhood
initial
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410129751.7A
Other languages
English (en)
Other versions
CN117668684A (zh
Inventor
张长元
李金平
林凡堂
李洪莹
周鑫
�田润
李煜琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Windsun Science and Technology Co Ltd
Original Assignee
Windsun Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Windsun Science and Technology Co Ltd filed Critical Windsun Science and Technology Co Ltd
Priority to CN202410129751.7A priority Critical patent/CN117668684B/zh
Publication of CN117668684A publication Critical patent/CN117668684A/zh
Application granted granted Critical
Publication of CN117668684B publication Critical patent/CN117668684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及基于大数据分析的电网电能数据异常检测方法,包括:获取电能监测数据,根据电能监测数据得到数据中每一个数据点的异常程度,进而得到初始异常数据点,获取电能监测数据中初始异常数据点的邻域区间,根据不同初始异常数据点的邻域区间内数据点的监测值差异得到邻域区间的相似性,根据监测数据中任意两个初始异常数据点的邻域区间的相似性,得到监测数据的K值,进而根据K值,得到电能监测数据中所有的异常监测值。本发明根据电能监测数据的变化来自动选择KNN算法的K值,从而能够更好的适应数据的变化,检测出电能监测数据中存在的异常监测值。

Description

基于大数据分析的电网电能数据异常检测方法
技术领域
本发明涉及数据处理技术领域,具体涉及基于大数据分析的电网电能数据异常检测方法。
背景技术
随着电力系统的规模和复杂性不断增加,以及智能电网、分布式发电等新技术的应用,电网中产生的电能数据呈现出大量化、复杂化的趋势。因此,如何有效地进行电网数据的异常检测,及时发现电力系统的故障或异常具有重要意义。
在现有技术中,由于获得的电能监测数据为时序数据,对时序数据分析的方法较多,其中K-最近邻(KNN)算法是一种简单直观的机器学习方法,广泛应用于分类和回归问题,该算法通过对样本的距离与相似度进行度量,然后根据计算的距离,选取最近的K个训练样本,对数据进行分类。由于电能监测数据中不同监测数据之间的相互影响和监测数据本身的波动,导致该算法最近邻的数目即K值难以确定,K值的选择关系到了异常数据检测的准确性。
发明内容
为解决上述问题,本发明提供基于大数据分析的电网电能数据异常检测方法。
本发明的基于大数据分析的电网电能数据异常检测方法采用如下技术方案:
本发明一个实施例提供了基于大数据分析的电网电能数据异常检测方法,该方法包括以下步骤:
获取电网的电能监测数据,所述电能监测数据包含若干监测数据,所述监测数据包含若干数据点,所述数据点表示每个时刻的监测值;
对于任意一种监测数据中任意一个数据点,根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,根据所述异常程度得到任意一种监测数据中所有初始异常数据点,根据电能监测数据得到电能监测数据的多个分量信号,所述分量信号中包含若干初始异常数据点;
对于任意一种监测数据的任意一个分量信号,获取分量信号中任意一个初始异常数据点的待定邻域范围,根据所述待定邻域范围得到任意一种监测数据中任意一个初始异常数据点的邻域区间;
根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性;
根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,所述K值为KNN算法的K值,根据任意一种监测数据的K值得到电能监测数据中所有的异常监测值。
进一步地,所述根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,包括的具体步骤如下:
式中,为第/>种监测数据中第/>个数据点的监测值,/>为第/>种监测数据中所有数据点的平均监测值,/>为第i个数据点的预设邻域范围内第t个数据点的监测值,/>为预设邻域范围内数据点的总个数,/>为取绝对值,/>表示线性归一化函数,/>为第/>种监测数据中第/>个数据点的异常程度。
进一步地,所述第i个数据点的预设邻域范围的具体获取方法如下:
以第种监测数据中第/>个数据点为中心邻域半径为R的范围作为第i个数据点的预设邻域范围,R为预设第一数值。
进一步地,所述获取分量信号中任意一个初始异常数据点的待定邻域范围的具体获取方法如下:
以分量信号中任意一个初始异常数据点为中心邻域半径为y的范围作为该分量信号中该初始异常数据点的待定邻域范围,y为待定数值。
进一步地,根据所述待定邻域范围得到任意一种监测数据中任意一个初始异常数据点的邻域区间,包括的具体步骤如下:
式中,为目标监测数据的第/>个分量信号中第/>个初始异常数据点的监测值,为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的监测值,/>为取绝对值,/>为目标监测数据的分量信号的总个数,/>为第/>个初始异常数据点的待定邻域范围内数据点的总个数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的异常程度,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内所有数据点的平均斜率,/>为以自然常数为底的指数函数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为第/>个初始异常数据点的邻域区间的可能性;
预设第二阈值,记为TH2,将待定数值y的取值从1开始,每次迭代加一,直至第一次小于/>,此时将目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为目标监测数据中该初始异常数据点的邻域区间。
进一步地,所述根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性,包括的具体步骤如下:
对于任意一种监测数据,式中,为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,其中/>,/>为取绝对值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间和第/>个初始异常数据点的邻域区间的DTW匹配值,/>为线性归一化函数,/>为该监测数据中第/>个初始异常数据点的邻域区间与第个初始异常数据点的邻域区间的相似性。
进一步地,所述根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,包括的具体步骤如下:
对于任意一种监测数据中任意一个初始异常数据点,将该初始异常数据点的邻域区间记为第一区间,将该初始异常数据点左侧最相邻的初始异常数据点记为第二初始异常数据点,将该初始异常数据点右侧最相邻的初始异常数据点记为第三初始异常数据点,将第二初始异常数据点的邻域区间记为第二区间,将第三初始异常数据点的邻域区间记为第三区间,将第一区间和第二区间的相似性记为第一相似性,将第一区间和第三区间的相似性记为第二相似性,预设第三阈值,若第一相似性大于预设第三阈值,第二相似性大于预设第三阈值,将第二区间、第一区间及第三区间按从左到右的顺序进行合并,若相似性小于或等于预设第三阈值,则不合并,直至将该监测数据中所有初始异常数据点的邻域区间都进行合并判断,将该监测数据中所有邻域区间进行合并的合并总次数作为该监测数据的K值。
进一步地,根据所述异常程度得到任意一种监测数据中所有初始异常数据点,包括的具体步骤如下:
预设第一阈值,记为TH1,若,/>为第/>种监测数据中第/>个数据点的异常程度,则将第/>种监测数据中第/>个数据点作为初始异常数据点,获取第/>种监测数据中所有初始异常数据点。
进一步地,所述根据电能监测数据得到电能监测数据的多个分量信号,包括的具体步骤如下:
将电能监测数据中每一种监测数据利用ICA分解算法进行分解得到电能监测数据的多个分量信号。
进一步地,所述根据任意一种监测数据的K值,得到电能监测数据中所有的异常监测值,包括的具体步骤如下:
根据所述K值对电能监测数据中每一种监测数据进行KNN分类,得到电能监测数据中所有的异常数据点,异常数据点对应的监测值为异常监测值。
本发明的技术方案的有益效果是:在对电能监测数据进行异常检测时,本发明使用K-最近邻(KNN)算法来获得异常数据点,但是因为现有算法中K值是手动选择的,因此本发明根据数据的变化来获得合适的K值,从而能够更好的体现邻域数据之间的变化关系,进而在对数据进行异常检测时,能够更加准确的获得异常数据点,不会因为局部数据的异常造成获得的异常数据不准确的情况。
在获得K值时,本发明通过分析电能监测数据的变化,找到初始异常数据点,然后对初始异常数据点判断。再根据邻域数据之间的变化获得每一点初始异常数据的邻域数据范围,最后根据邻域数据范围内数据的变化计算邻域数据范围之间的相似性,然后对其进行合并,获得最终的K值。该方法根据电能监测数据的变化来进行分析时,不但考虑单个数据点的异常,还根据邻域数据点之间的变化来确定K值,从而避免了局部异常数据造成的影响,使得获得的K值更加提前监测数据的变化特征,进而在获得异常数据点时更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于大数据分析的电网电能数据异常检测方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据分析的电网电能数据异常检测方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据分析的电网电能数据异常检测方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据分析的电网电能数据异常检测方法的步骤流程图,该方法包括以下步骤:
步骤S001、获取电网的电能监测数据。
需要说明的是,本实施例的目的是为了对电能监测数据进行异常监测,当电网设备运行异常时,电能监测数据就会发生变化,因此通过对电能监测数据进行分析,获得可能出现的异常值从而来判断电网的运行是否出现故障,开始分析之前首先需要获取电能监测数据。
具体的,通过电网的数据存储设备获取电网的电能监测数据,其中电能监测数据包括两种监测数据,电流监测数据和电压监测数据,需要说明的是,电流监测数据和电压监测数据都是时序数据且时序长度相同,每一种监测数据中包含若干数据点,每个数据点表示每个时刻的监测值。
需要说明的是,由于获取的电能监测数据由于环境影响或特殊情况的发生,可能存在噪声影响,因此需要进行去噪预处理。
进一步地,利用小波变换去噪算法将获取的电能监测数据进行去噪,得到去噪之后的电能监测数据。需要说明的是,利用小波变换去噪算法将获取的数据进行去噪,为小波变换去噪算法的现有方法,本实施例不再进行赘述,为便于说明本实施例将去噪之后的电能监测数据仍记为电能监测数据,后续无特殊说明都指代经过去噪处理之后的电能监测数据。
至此,得到电能监测数据。
步骤S002、对于任意一种监测数据中任意一个数据点,根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,根据任意一种监测数据中任意一个数据点的异常程度得到任意一种监测数据中所有初始异常数据点,根据电能监测数据得到电能监测数据的多个分量信号。
需要说明的是,在根据电流与电压监测数据的变化来监测电网的异常时,因为电网设备存在异常时,电流与电压会存在异常波动,而不同的波动程度表示了不同的异常情况,例如:当变压器出现故障时,电流会出现较大程度的异常,而电压不会出现太大的异常;电缆线出现破损时,电压与电流都会出现较大程度的异常,因此能够根据监测数据不同的异常波动情况来对电网的运行进行判断。因此需要根据电网的电能监测数据来判断可能出现的异常数据点。
进一步需要说明的是,而在对电网的电能监测数据进行异常检测时,本实施例使用K-最近邻(KNN)算法,该算法通过分析邻域数据内的数据变化,根据数据之间的距离与相似性来获得异常数据点,但是因为该算法在确定最近邻的数目(K值)时,需要人为的手动选择,手动选择的阈值在对数据进行分类时,并不准确,而在对电网的监测数据进行分析时,需要获得准确的异常数据,从而达到异常检测的效果。
需要说明的是,而在对K值自适应时,因为不同的时间段可能出现的异常情况时不相同,因此电能监测数据的变化程度也不相同,因此需要的K值也不一样。例如:较大且连续的数据波动,需要较大的K值来描述数据的变化,而较小的数据波动就需要较小的K值,因此在确定K值前,需要先获得合适的数据范围,首先根据电能监测数据的变化获得可能存在异常的数据点。
具体的,对于任意一种监测数据中任意一个数据点,根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,具体如下:
式中,为第/>种监测数据中第/>个数据点的监测值,/>为第/>种监测数据中所有数据点的平均监测值,/>为第i个数据点的预设邻域范围内第t个数据点的监测值,其中,第i个数据点的预设邻域范围具体为:以第/>种监测数据中第/>个数据点为中心邻域半径为R的范围作为第i个数据点的预设邻域范围,R为预设第一数值,本实施例中以R=4为例进行叙述,/>为预设邻域范围内数据点的总个数,/>为取绝对值,/>表示线性归一化函数,归一化的对象为第/>种监测数据中所有数据点的/>,/>为第/>种监测数据中第/>个数据点的异常程度。
需要说明的是,若第种监测数据中第/>个数据点在第/>种监测数据两端,即在第/>种监测数据的最左侧或者最右侧时,以第/>个数据点确定的预设邻域范围会超过第/>种监测数据的范围,此时本实施例利用二次线性差值的方法将超出范围的部分进行插值填充数据。
需要说明的是,表示第/>种监测数据中第/>个数据点监测值与均值之间的差异,其差异程度越大,说明第/>个数据点存在异常的可能程度越大;/>表示第/>个数据点与其预设邻域范围内数据点监测值之间的差异,因为邻域数据点更能够体现局部数据的变化,当前数据点与其邻域数据点存在较大的差异时,说明该数据点存在较大的异常,因此在这里将每一个数据点的监测值与其邻域数据点进行比较,从而获得其为异常数据点的可能程度。
进一步地,根据任意一种监测数据中任意一个数据点的异常程度得到任意一种监测数据中所有初始异常数据点,具体如下:
预设第一阈值,记为TH1,本实施例以TH1=0.32为例进行叙述,若,则将第/>种监测数据中第/>个数据点作为初始异常数据点,获取第/>种监测数据中所有初始异常数据点。
需要说明的是,由于ICA算法能够将不同信源的信号分解为独立信号,在本实施例中,产生数据异常的原因是因为电网系统中不同的电能设备出现了故障引起的,因此产生的异常数据与正常数据存在较大程度的差异,因此可以通过ICA算法获取电能监测数据的多个分量信号并对分量信号进行分析。
具体的,根据电能监测数据得到电能监测数据的多个分量信号,具体如下:
将电能监测数据中每一种监测数据利用ICA分解算法进行分解得到电能监测数据的多个分量信号。
需要说明的是,将数据利用ICA分解算法进行分解并得到多个分量信号为ICA分解算法的现有方法,本实施例不再赘述,多个分量信号中包含电流监测数据的若干分量信号和电压监测数据的若干分量信号,分量信号的时序长度和任意一种监测数据的时序长度相同,分量信号中也包含初始异常数据点,任意一种监测数据的若干分量信号中所有初始异常数据点个数等于任意一种监测数据中所有初始异常数据点,且分量信号中初始异常数据点和该分量信号对应的监测数据中初始异常数据点的位置对应。
至此,得到电能监测数据的多个分量信号。
步骤S003、对于任意一种监测数据的任意一个分量信号,获取分量信号中任意一个初始异常数据点的待定邻域范围,根据任意一种监测数据的任意一个分量信号中任意一个初始异常数据点的待定邻域范围,得到任意一种监测数据中任意一个初始异常数据点的邻域区间。
需要说明的是,上述获取了电能监测数据的多个分量信号,然后根据分量信号的变化来确定每个初始异常数据点的邻域数据区间。因为不同的邻域数据区间表示的是数据的不同变化程度,而上述获取的每个数据点的异常程度,其表示是在出现不同异常情况下的数据变化特征,因此再根据分解后的分量信号来确定每个初始异常数据点的邻域数据区间。
具体的,对于任意一种监测数据的任意一个分量信号,获取分量信号中任意一个初始异常数据点的待定邻域范围,具体如下:
以分量信号中任意一个初始异常数据点为中心邻域半径为y的范围作为该分量信号中该初始异常数据点的待定邻域范围,y为待定数值。需要说明的是,待定数值y的取值从1开始遍历,每次加一,直至满足后续的条件。
进一步地,根据任意一种监测数据的任意一个分量信号中任意一个初始异常数据点的待定邻域范围,得到任意一种监测数据中任意一个初始异常数据点的邻域区间,具体如下:
将电能监测数据中任意记为目标监测数据。
式中,为目标监测数据的第/>个分量信号中第/>个初始异常数据点的监测值,为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的监测值,/>为取绝对值,/>为目标监测数据的分量信号的总个数,/>为第/>个初始异常数据点的待定邻域范围内数据点的总个数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的异常程度,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内所有数据点的平均斜率,/>为以自然常数为底的指数函数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为第/>个初始异常数据点的邻域区间的可能性。
预设第二阈值,记为TH2,本实施例以TH2=0.68为例进行说明,将待定数值y的取值从1开始,每次迭代加一,直至第一次小于/>,此时将目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为目标监测数据中该初始异常数据点的邻域区间。
需要再次说明的是,待定数值y的取值从1开始遍历,每次加一,即初始异常数据点的待定邻域范围也是在改变,每次往左右两侧延伸一个数据点,对于待定邻域范围内数据点的斜率,本实施例中使用最小二乘法将待定邻域范围内所有数据点拟合成五次多项式曲线并获取曲线中对应的数据点斜率来作为待定邻域范围内数据点的斜率,进而得到
需要说明的是,第个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的异常程度,通过步骤S002中获取任意一种监测数据中任意一个数据点的异常程度来得到,由于分量信号和任意一种监测数据的时序长度相同,将分量信号视为任意一种特殊的监测数据,即可获取分量信号中任意一个数据点的异常程度,即分量信号中每一个数据点的异常程度,进而得到第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的异常程度,具体获取方法和步骤S002获取任意一种监测数据中任意一个数据点的异常程度相同,本实施例不再赘述。
需要说明的是,表示第/>个初始异常数据点与其邻域数据点之间的差值,因为当电能设备出现异常时,其会在时间序列上会一直出现异常,那么其数据之间的差异程度相对于正常数据的差异会较小,因此在这里求不同分量信号中第/>个数据点与其邻域数据点之间的差异的均值,其差异程度越小,则说明在邻域范围即待定邻域范围内所包含的数据点与第/>个初始异常数据点变化程度相似,因此可以将其作为确定第/>个初始异常数据点的邻域区间的一个参数。/>表示待定邻域范围内的每个数据点的异常程度。/>为待定邻域范围内数据点的平均斜率其表示了待定邻域范围内数据变化程度,其斜率越大,说明数据的变化程度越大,因此其作为邻域区间的可能程度越大。
至此,得到任意一种监测数据中任意一个初始异常数据点的邻域区间。
步骤S004、根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性。
需要说明的是,上述确定了任意一种监测数据中任意一个初始异常数据点的邻域区间,然后来获得每一种监测数据的K值,如果K值过小,KNN算法的模型可能会过于复杂,容易受到噪声数据的影响,导致过拟合;如果K值过大,KNN算法的模型可能会过于简单,不能够充分地学习数据特性,导致欠拟合。因此需要自适应来获得每一种监测数据的K值。
具体的,根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性,具体如下:
对于任意一种监测数据,式中,为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,其中/>,/>为取绝对值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间和第/>个初始异常数据点的邻域区间的DTW匹配值,/>为线性归一化函数,归一化的对象为该监测数据中所有,/>为该监测数据中第/>个初始异常数据点的邻域区间与第/>个初始异常数据点的邻域区间的相似性。
需要说明的是,表示第/>个邻域区间与第/>个邻域区间的平均监测值差异,平均监测值差异越小,则说明其越可能是因为同一种仪器异常造成,因此数据的相似程度较大。/>表示第/>个邻域区间与第/>个邻域区间的波动差异,因为其相同原因造成的数据波动,其数据的异常情况相同时,则波动程度的差异也越小。表示计算第/>个邻域区间与第/>个邻域区间内数据的相似程度,值越大,则说明这两个邻域区间越相似。
至此,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性。
步骤S005、根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,根据任意一种监测数据的K值得到电能监测数据中所有的异常监测值。
需要说明的是,上述获得了任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性,通过对不同邻域区间的相似性进行判断并合并进而得到任意一种监测数据进行K-最近邻算法的K值,从而得到电能监测数据中更加准确的异常数据点,完成对电能监测数据的异常检测。
具体的,根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,具体如下:
对于任意一种监测数据中任意一个初始异常数据点,将该初始异常数据点的邻域区间记为第一区间,将该初始异常数据点左侧最相邻的初始异常数据点记为第二初始异常数据点,将该初始异常数据点右侧最相邻的初始异常数据点记为第三初始异常数据点,将第二初始异常数据点的邻域区间记为第二区间,将第三初始异常数据点的邻域区间记为第三区间,将第一区间和第二区间的相似性记为第一相似性,将第一区间和第三区间的相似性记为第二相似性,预设第三阈值,本实施例以预设第三阈值为0.6进行叙述,若第一相似性大于预设第三阈值,第二相似性大于预设第三阈值,将第二区间、第一区间及第三区间按从左到右的顺序进行合并,若相似性小于或等于预设第三阈值,则不合并,直至将该监测数据中所有初始异常数据点的邻域区间都进行合并判断,将该监测数据中所有邻域区间进行合并的合并总次数作为该监测数据的K值。
需要说明的是,已经合并过的邻域区间不再参与合并。
进一步地,根据任意一种监测数据的K值得到电能监测数据中所有的异常监测值,具体如下:
根据所述K值对电能监测数据中每一种监测数据进行KNN分类,得到电能监测数据中所有的异常数据点,异常数据点对应的监测值为异常监测值。需要说明的是,根据K值利用KNN算法得到数据中的异常数据点为KNN算法的现有方法,本实施例不再赘述。
通过以上步骤,完成基于大数据分析的电网电能数据异常检测方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于大数据分析的电网电能数据异常检测方法,其特征在于,该方法包括以下步骤:
获取电网的电能监测数据,所述电能监测数据包含若干监测数据,所述监测数据包含若干数据点,所述数据点表示每个时刻的监测值;
对于任意一种监测数据中任意一个数据点,根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,根据所述异常程度得到任意一种监测数据中所有初始异常数据点,根据电能监测数据得到电能监测数据的多个分量信号,所述分量信号中包含若干初始异常数据点;
对于任意一种监测数据的任意一个分量信号,获取分量信号中任意一个初始异常数据点的待定邻域范围,根据所述待定邻域范围得到任意一种监测数据中任意一个初始异常数据点的邻域区间;
根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性;
根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,所述K值为KNN算法的K值,根据任意一种监测数据的K值得到电能监测数据中所有的异常监测值;
所述根据监测数据中数据点与数据点的预设邻域范围内每一个数据点的监测值差异,得到任意一种监测数据中任意一个数据点的异常程度,包括的具体步骤如下:
式中,为第/>种监测数据中第/>个数据点的监测值,/>为第/>种监测数据中所有数据点的平均监测值,/>为第i个数据点的预设邻域范围内第t个数据点的监测值,/>为预设邻域范围内数据点的总个数,/>为取绝对值,/>表示线性归一化函数,/>为第/>种监测数据中第/>个数据点的异常程度;
所述获取分量信号中任意一个初始异常数据点的待定邻域范围的具体获取方法如下:
以分量信号中任意一个初始异常数据点为中心邻域半径为y的范围作为该分量信号中该初始异常数据点的待定邻域范围,y为待定数值;
根据所述待定邻域范围得到任意一种监测数据中任意一个初始异常数据点的邻域区间,包括的具体步骤如下:
式中,为目标监测数据的第/>个分量信号中第/>个初始异常数据点的监测值,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的监测值,/>为取绝对值,/>为目标监测数据的分量信号的总个数,/>为第/>个初始异常数据点的待定邻域范围内数据点的总个数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内第b个数据点的异常程度,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围内所有数据点的平均斜率,/>为以自然常数为底的指数函数,/>为目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为第/>个初始异常数据点的邻域区间的可能性;
预设第二阈值,记为TH2,将待定数值y的取值从1开始,每次迭代加一,直至第一次小于/>,此时将目标监测数据的第/>个分量信号中第/>个初始异常数据点的待定邻域范围作为目标监测数据中该初始异常数据点的邻域区间;
所述根据任意一种监测数据中任意两个初始异常数据点的邻域区间内数据点的监测值差异,得到任意一种监测数据中任意两个初始异常数据点的邻域区间的相似性,包括的具体步骤如下:
对于任意一种监测数据,式中,为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点的平均监测值,其中/>,/>为取绝对值,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间内所有数据点监测值的方差,/>为该监测数据中第/>个初始异常数据点的邻域区间和第/>个初始异常数据点的邻域区间的DTW匹配值,/>为线性归一化函数,/>为该监测数据中第/>个初始异常数据点的邻域区间与第/>个初始异常数据点的邻域区间的相似性;
所述根据任意一种监测数据中相邻初始异常数据点的邻域区间的相似性,得到任意一种监测数据的K值,包括的具体步骤如下:
对于任意一种监测数据中任意一个初始异常数据点,将该初始异常数据点的邻域区间记为第一区间,将该初始异常数据点左侧最相邻的初始异常数据点记为第二初始异常数据点,将该初始异常数据点右侧最相邻的初始异常数据点记为第三初始异常数据点,将第二初始异常数据点的邻域区间记为第二区间,将第三初始异常数据点的邻域区间记为第三区间,将第一区间和第二区间的相似性记为第一相似性,将第一区间和第三区间的相似性记为第二相似性,预设第三阈值,若第一相似性大于预设第三阈值,第二相似性大于预设第三阈值,将第二区间、第一区间及第三区间按从左到右的顺序进行合并,若相似性小于或等于预设第三阈值,则不合并,直至将该监测数据中所有初始异常数据点的邻域区间都进行合并判断,将该监测数据中所有邻域区间进行合并的合并总次数作为该监测数据的K值;
所述根据电能监测数据得到电能监测数据的多个分量信号,包括的具体步骤如下:
将电能监测数据中每一种监测数据利用ICA分解算法进行分解得到电能监测数据的多个分量信号。
2.根据权利要求1所述基于大数据分析的电网电能数据异常检测方法,其特征在于,所述第i个数据点的预设邻域范围的具体获取方法如下:
以第种监测数据中第/>个数据点为中心邻域半径为R的范围作为第i个数据点的预设邻域范围,R为预设第一数值。
3.根据权利要求1所述基于大数据分析的电网电能数据异常检测方法,其特征在于,根据所述异常程度得到任意一种监测数据中所有初始异常数据点,包括的具体步骤如下:
预设第一阈值,记为TH1,若,/>为第/>种监测数据中第/>个数据点的异常程度,则将第/>种监测数据中第/>个数据点作为初始异常数据点,获取第/>种监测数据中所有初始异常数据点。
4.根据权利要求1所述基于大数据分析的电网电能数据异常检测方法,其特征在于,所述根据任意一种监测数据的K值,得到电能监测数据中所有的异常监测值,包括的具体步骤如下:
根据所述K值对电能监测数据中每一种监测数据进行KNN分类,得到电能监测数据中所有的异常数据点,异常数据点对应的监测值为异常监测值。
CN202410129751.7A 2024-01-31 2024-01-31 基于大数据分析的电网电能数据异常检测方法 Active CN117668684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410129751.7A CN117668684B (zh) 2024-01-31 2024-01-31 基于大数据分析的电网电能数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410129751.7A CN117668684B (zh) 2024-01-31 2024-01-31 基于大数据分析的电网电能数据异常检测方法

Publications (2)

Publication Number Publication Date
CN117668684A CN117668684A (zh) 2024-03-08
CN117668684B true CN117668684B (zh) 2024-04-16

Family

ID=90064435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410129751.7A Active CN117668684B (zh) 2024-01-31 2024-01-31 基于大数据分析的电网电能数据异常检测方法

Country Status (1)

Country Link
CN (1) CN117668684B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118070168B (zh) * 2024-04-19 2024-06-28 西安石油大学 一种基于大数据的化工数据分析方法
CN118243795B (zh) * 2024-05-23 2024-08-02 中电建路桥集团西部投资发展有限公司 基于超声技术的路基压实度智能检测方法及系统
CN118282413B (zh) * 2024-05-31 2024-08-13 中建五局第三建设有限公司 一种用于超高层钢结构施工过程的监测数据管理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法
CN114337792A (zh) * 2022-01-17 2022-04-12 中国人民解放军61096部队 卫星通信信号故障诊断方法及装置
WO2023127335A1 (ja) * 2021-12-28 2023-07-06 株式会社村田製作所 異常検出装置、電源システムおよび異常検出方法
CN116610482A (zh) * 2023-07-18 2023-08-18 山东理工大学 一种电气设备运行状态智能监测方法
CN116933044A (zh) * 2023-09-15 2023-10-24 深圳高新区信息网有限公司 一种供电数据智能处理方法及系统
CN117034043A (zh) * 2023-10-09 2023-11-10 山东五棵松电气科技有限公司 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN117150419A (zh) * 2023-10-31 2023-12-01 东莞市茂腾电子科技有限公司 基于数据分析的储能电源运行环境检测系统
CN117349711A (zh) * 2023-12-04 2024-01-05 湖南京辙科技有限公司 一种铁路机车零部件电子标签数据处理方法及系统
CN117407828A (zh) * 2023-12-15 2024-01-16 深圳市雨博士雨水利用设备有限公司 一种应用于海绵城市雨水收集系统数据分析方法
CN117454201A (zh) * 2023-12-26 2024-01-26 无锡市锡容电力电器有限公司 一种智慧电网异常运行状态检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5301310B2 (ja) * 2009-02-17 2013-09-25 株式会社日立製作所 異常検知方法及び異常検知システム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法
WO2023127335A1 (ja) * 2021-12-28 2023-07-06 株式会社村田製作所 異常検出装置、電源システムおよび異常検出方法
CN114337792A (zh) * 2022-01-17 2022-04-12 中国人民解放军61096部队 卫星通信信号故障诊断方法及装置
CN116610482A (zh) * 2023-07-18 2023-08-18 山东理工大学 一种电气设备运行状态智能监测方法
CN116933044A (zh) * 2023-09-15 2023-10-24 深圳高新区信息网有限公司 一种供电数据智能处理方法及系统
CN117034043A (zh) * 2023-10-09 2023-11-10 山东五棵松电气科技有限公司 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN117150419A (zh) * 2023-10-31 2023-12-01 东莞市茂腾电子科技有限公司 基于数据分析的储能电源运行环境检测系统
CN117349711A (zh) * 2023-12-04 2024-01-05 湖南京辙科技有限公司 一种铁路机车零部件电子标签数据处理方法及系统
CN117407828A (zh) * 2023-12-15 2024-01-16 深圳市雨博士雨水利用设备有限公司 一种应用于海绵城市雨水收集系统数据分析方法
CN117454201A (zh) * 2023-12-26 2024-01-26 无锡市锡容电力电器有限公司 一种智慧电网异常运行状态检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fault detection and diagnosis strategy based on k-nearest neighbors and fuzzy C-means clustering algorithm for industrial processes;Lamiaa M. Elshenawy 等;Journal of the Franklin Institute;20220930;第359卷(第13期);7115-7139 *
基于改进ADPP的多变量时间序列异常检测;董红玉 等;福州大学学报(自然科学版);20160430;第44卷(第02期);164-169 *
风机运行数据预处理及其预警技术研究;管冬;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑;20230215;第2023年卷(第2期);C042-2150 *

Also Published As

Publication number Publication date
CN117668684A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN117668684B (zh) 基于大数据分析的电网电能数据异常检测方法
Wang et al. A two-stage data-driven-based prognostic approach for bearing degradation problem
US10852357B2 (en) System and method for UPS battery monitoring and data analysis
CN107561997B (zh) 一种基于大数据决策树的电力设备状态监测方法
US20150219530A1 (en) Systems and methods for event detection and diagnosis
CN112284440B (zh) 一种传感器数据偏差自适应修正方法
CN118091234B (zh) 一种用于故障诊断处理的电流互感器
CN112416662A (zh) 多时间序列数据异常检测方法与装置
CN117783745B (zh) 用于换电柜的数据在线监测方法及系统
CN118070195B (zh) 一种矿用交流变频器异常数据状态监测系统
CN118174788B (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质
CN118100446B (zh) 一种用于电力系统的节点运行状态智能检测方法
CN117235617A (zh) 沙尘天气下基于ml-rfknn的光伏阵列故障诊断方法
CN117235653A (zh) 一种电源连接器故障实时监测方法及系统
US20220137119A1 (en) Method and Testing Device
CN112416661B (zh) 基于压缩感知的多指标时间序列异常检测方法和装置
CN115665007A (zh) 基于半监督自编码器的动态异常检测方法及装置
KR102486463B1 (ko) 열화에 따른 시계열 데이터를 이용한 실시간 이상 감지 방법 및 그를 위한 장치
KR102486462B1 (ko) 열화에 따른 패턴 학습을 이용한 이상 감지 방법 및 그를 위한 장치
CN114112390A (zh) 一种非线性复杂系统早期故障诊断方法
CN118152829B (zh) 一种油式铁芯电抗器的健康状态评估方法及系统
Saucedo-Dorantes et al. Novelty Detection Methodology Based on Self-Organizing Maps for Power Quality Monitoring
CN118296296B (zh) 一种基于电力大数据的智能配电方法
CN118094264B (zh) 一种智能化电力电容器局部放电检测方法及系统
CN117931897B (zh) 一种加热装置温度数据运行监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant