CN115270986A - 数据异常检测方法、装置和计算机设备 - Google Patents
数据异常检测方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115270986A CN115270986A CN202210946101.2A CN202210946101A CN115270986A CN 115270986 A CN115270986 A CN 115270986A CN 202210946101 A CN202210946101 A CN 202210946101A CN 115270986 A CN115270986 A CN 115270986A
- Authority
- CN
- China
- Prior art keywords
- state data
- feature
- clustering
- matrix
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000009467 reduction Effects 0.000 claims abstract description 58
- 230000002159 abnormal effect Effects 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 149
- 239000002245 particle Substances 0.000 claims description 83
- 238000004422 calculation algorithm Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000035772 mutation Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 230000002829 reductive effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 101100390771 Danio rerio fitm1l gene Proteins 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101150112906 fitm-2 gene Proteins 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种数据异常检测方法、装置和计算机设备。通过对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,将状态数据的特征集合进行特征降维处理,得到特征子集,并对特征子集进行聚类处理,得到聚类结果,聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。该方法通过对状态数据的特征集合进行降维,并对降维得到的特征子集进行聚类处理,提出了冗余特征,并将有相关性的特征聚类到一个类簇中,以此判断状态数据的异常情况,提高了检测异常数据的准确性。
Description
技术领域
本申请涉及网络安全技术领域,特别是涉及一种数据异常检测方法、装置和计算机设备。
背景技术
随着电网智能化,电网的内部结构及系统的运行方式也变得越来越复杂,智能变电站作为智能电网的重要组成部分,其智能化与信息化程度不言而喻,但由于设备、环境等因素的影响,变电站设备的数据经常出现丢失、突变等异常现象。
以智能变电站的变压器为例,变压器的数据异常情况时有发生,而变压器异常数据的存在使得变电站运维人员不能充分、正确认识系统工作状态,会影响变电站的正常运行。
因此,提出一种能够准确检测变电站的异常数据是亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种数据异常检测方法、装置和计算机设备,能够提高检测变电站异常数据的准确性。
第一方面,本申请提供了一种数据异常检测方法,该方法包括:
对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合;状态数据包括多个状态数据点;
将状态数据的特征集合进行特征降维处理,得到特征子集;
对特征子集进行聚类处理,得到聚类结果;聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离;
根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。
在其中一个实施例中,将状态数据的特征集合进行特征降维处理,得到特征子集,包括:
通过骨干粒子群算法对状态数据的特征集合进行降维处理,得到特征子集。
在其中一个实施例中,通过骨干粒子群算法对状态数据的特征集合进行降维处理,得到特征子集,包括:
将状态数据的特征集合作为骨干粒子群算法的输入,通过将状态数据的特征集合代入骨干粒子群算法中预设的适应度函数中,对适应度函数进行最小值求解,得到状态数据的特征子集。
在其中一个实施例中,对特征子集进行聚类处理,得到聚类结果,包括:
根据特征子集,确定状态数据的特征矩阵;
对特征矩阵进行单位化,得到状态数据的单位化特征矩阵;
对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果。
在其中一个实施例中,根据特征子集,确定状态数据的特征矩阵,包括:
根据特征子集,确定状态数据中每两个状态数据点之间的测地距离和局部密度;
根据测地距离和局部密度,确定状态数据对应的相似度矩阵;
根据相似度矩阵,确定状态数据的拉普拉斯矩阵;
对拉普拉斯矩阵进行降维处理,得到状态数据的特征矩阵。
在其中一个实施例中,根据相似度矩阵,确定状态数据的拉普拉斯矩阵,包括:
根据相似度矩阵,确定状态数据的度矩阵;
根据度矩阵和相似度矩阵,确定状态数据的拉普拉斯矩阵。
在其中一个实施例中,对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果,包括:
根据单位化特征矩阵中的各元素的值,确定多个初始聚类中心;元素与状态数据点对应;
根据各元素与各初始聚类中心的距离,确定多个候选类簇;
获取各候选类簇的新聚类中心,将新聚类中心作为初始聚类中心,并返回执行根据各元素与各初始聚类中心的距离,确定多个候选类簇,直到得到的候选类簇对应的标准测度函数的值满足预设的迭代收敛条件,根据满足迭代收敛条件的候选类簇获取聚类结果。
在其中一个实施例中,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常,包括:
若状态数据点到所属聚类中心的距离大于预设的距离阈值,则确定状态数据点异常;
若状态数据点到所属聚类中心的距离小于或等于距离阈值,则确定状态数据点正常。
第二方面,本申请还提供了一种数据异常检测装置,该装置包括:
特征提取模块,用于对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合;状态数据包括多个状态数据点;
特征降维模块,用于将状态数据的特征集合进行特征降维处理,得到特征子集;
聚类模块,用于对特征子集进行聚类处理,得到聚类结果;聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离;
异常确定模块,用于根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面实施例提供的任一项方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面实施例提供的任一项方法的步骤。
第五方面,本申请实施例提供计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面实施例提供的任一项方法的步骤。
本申请实施例提供的一种数据异常检测方法、装置和计算机设备,通过对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,将状态数据的特征集合进行特征降维处理,得到特征子集,并对特征子集进行聚类处理,得到聚类结果,聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。该方法中通过对变电站设备的状态数据的特征集合进行特征降维处理,得到特征子集,保留具有代表性的特征,剔除冗余特征,保证了状态数据对应的特征具有代表性,然后将特征子集进行聚类处理,能够使聚类产生较为准确的结果并且可以大幅降低计算开销,该方法通过对状态数据的特征集合进行降维,并对降维得到的特征子集进行聚类处理,剔除了冗余特征,并将有相关性的特征聚类到一个类簇中,以此判断状态数据的异常情况,提高了检测异常数据的准确性。
附图说明
图1为一个实施例中数据异常检测方法的应用环境图;
图2为一个实施例中数据异常检测方法的流程示意图;
图3为一个实施例中数据异常检测方法的异常数据种类示意图;
图4为另一个实施例中数据异常检测方法的流程示意图;
图5为另一个实施例中数据异常检测方法的流程示意图;
图6为另一个实施例中数据异常检测方法的流程示意图;
图7为另一个实施例中数据异常检测方法的流程示意图;
图8为另一个实施例中数据异常检测方法的流程示意图;
图9为另一个实施例中数据异常检测方法的流程示意图;
图10为另一个实施例中数据异常检测方法的流程示意图;
图11为一个实施例中数据异常检测装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据异常检测方法,可以应用于如图1所示的应用环境中。其中,变电站设备102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,变电站设备102可以但不限于是变电站的变压器、一次设备和二次设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
现代化技术越来越先进,在各种电力系统中,电网的内部结构及系统运行方式也变得更加复杂,这使得加深系统智能化、自动化成为必然。同时,人们对电能质量的要求提高,使得必须建立更真实、更精确的数据库。然而,多种外部环境的干扰会导致少数测量数据存在测量误差,影响数据分析,进而影响决策。
智能变电站作为智能电网的重要组成部分,其智能化与信息化程度不言而喻,但由于设备、环境等因素的影响,检测的数据经常出现丢失、突变等异常现象,变压器作为智能变电站不可或缺的设备,数据异常情况时有发生,变压器数据异常原因,总结有三点:第一,对数据的测量非同时进行;第二,数据测量或传输过程中,系统内部设备因意外而发生故障;第三,数据测量或传输系统受到外部环境因素的干扰而意外失灵。
变压器异常数据的存在使得变电站运维人员不能充分、正确认识系统工作状态,会影响变电站的正常运行,具体表现在三个方面:第一,变压器异常数据的存在会很大程度上扰乱数据的平稳性,使得对系统状态估计产生偏差,甚至可能失败;第二,变电站运维人员需要根据变压器测量数据进行网内调度,然而异常数据的存在会影响其判断准确性,进而影响其制定决策,更严重可能导致变电站的火灾等;第三,变压器异常数据的存在会使得系统拓扑分析、安全分析以及无功优化等软件频繁运行,大大增加了能量消耗。
针对电力数据异常检测方法,国内外学者做出来大量的研究。首先,一种方式中,对智能电表异常数据检测方法进行了介绍,并分析了基于K近邻算法(K NearestNeighbor,KNN)聚类的异常数据检测、基于K-means聚类的异常数据检测、基于多极值点偏离的异常数据检测、基于神经网络的异常数据检测等方法的优缺点,并针对电力数据的高维性,分析了基于主成分分析的数据降维、基于神经网络的数据降维等方法的优势与劣势。另一种方式中,介绍了电力系统异常数据产生的原因及不良影响,并分析了基于神经网络、基于模糊理论与聚类分析及基于间歇统计等的数据异常检测方法的优缺点。还有一种方式,在预测风力发电总量时,运用了支持向量机(support vector machines,SVM)对风速数据异常值检测。还存在一种方式,采用卷积神经网络对网络节点的数据进行异常检测,该方法很好的改善了传统算法容易受到阈值影响。还有一种方式,利用大数据处理平台Spark并行化迭代自组织数据分析算法(Iterative Selforganizing Data Analysis TechniquesAlgorithm,ISODATA)聚类算法对电力异常数据进行检测,但该方法容易受到聚类数目和中心选择好坏的影响。
上述方法虽然在各自的实验中都取得了很好的效果,但缺点也很明显,例如基于聚类的数据异常检测的方法,容易受到聚类中心与聚类簇数目的影响,导致检测结果不准确;基于神经网络的检测方法虽然可以综合考虑各种因素来提高数据异常检测水平,但神经网络在训练过程、训练样本对样本的代表性具有很强依赖性,在实际情况中很难实现;基于模糊理论与聚类分析的数据异常检测方法虽然可以避免神经网络对样本的依赖性,但是聚类点坐标及目标函数均不是连续分布的,导致存在许多局部极值,影响检测效果;基于SVM的数据异常检测方法虽然具有很好的映射非线性的能力,但是它们的性能取决于内核函数的选择;而基于大数据处理平台的数据异常检测方法,虽然能够解决传统算法在处理大数据时,导致检测结果慢,但是传统算法的自身缺点还是没有解决。
而变压器数据异常检测承担着发现异常信息的重任,是提高数据质量、保证变电站正常运行的重要手段。智能变电站二次系统变压器数据异常检测方法是否合理对检测结果的准确性至关重要,因此找到一种合理、准确的数据异常检测方法成为了重要的问题。
基于此,本申请实施例提供一种数据异常检测方法、装置和计算机设备,能够提高检测变电站异常数据的准确性。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
在一个实施例中,提供了一种数据异常检测方法,以应用于图1中的应用环境为例,本实施例涉及的是首先对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,并将特征集合进行特征降维处理,得到特征子集,然后对特征子集进行聚类处理,得到聚类结果,并根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常的具体过程,如图2所示,该实施例包括以下步骤:
S201,对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合;状态数据包括多个状态数据点。
变电站中包括多种变电站设备,例如,变压器、一次设备和二次设备等。变电站设备的状态数据包括变电站设备的运行数据。
以变电站设备以变压器为例进行说明,则变压器的状态数据包括变压器的静态数据和动态数据,静态数据描述了变压器的固有特性,包括生产厂家、出厂试验数据、铭牌数据等;动态数据描述了变压器的实时状态,包括定期预防性试验数据、在线监测得到的各种数据等。
对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,其中,状态数据特征包括以下几种特征类型:①无序枚举型特征,如进程堆栈状态,系统内核变量等;②有序枚举型特征,如系统调用频度,系统调用时序等;③{0,1}型特征;④有序连续型特征等。
可选地,对变电站设备的状态数据进行特征提取的方式可以包括时域特征提取、频域特征提取以及时频域特征提取等。
根据对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,特征集合中包括状态数据对应的多个特征,且状态数据中包括多个状态数据点,其中,若状态数据中的状态数据点包括N个,对应的特征为d个,则状态数据对应的特征集合的形式可以为N*d。
S202,将状态数据的特征集合进行特征降维处理,得到特征子集。
基于上述得到的状态数据的特征集合,对特征集合进行特征降维处理,得到特征子集;其中,对特征集合进行特征降维处理的目的是减少输入数据量,减轻训练压力,保证数据处理准确性、高效性以及有效性。降维实际上就是降低特征的个数,最终的结果就是特征和特征之间不相关。
对状态数据的特征集合进行特征降维处理的方式可以采用过滤法、包装法和嵌入法等。
其中,过滤法是按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数选择特征;包装法是根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征;嵌入法首先是先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征,即是通过训练来确定特征的优劣。
通过对状态数据的特征集合进行特征降维处理,能够得到状态数据的特征子集,特征子集能够很好的表述状态数据。例如,若状态数据的特征集合包括{A,B,C,D,E},通过对特征集合进行特征降维处理,能够得到特征子集{A,B,E},通过对特征集合进行特征降维,剔除一些冗余的、不必要的特征。
通过对特征集合进行特征降维,能够降低时间复杂度和空间复杂度,节省了提取不必要特征的开销,去掉数据集中夹杂的噪音,较简单的模型在小数据集上有更强的鲁棒性,当数据能有较少的特征进行解释,可以更好地解释数据,实现数据的可视化。
可选地,对于特征子集选择的方式可以是,对于n个特征,有若干个可能的子集,穷举搜索找出特征的最佳子集可能是不现实的,特别是当n和数据类的数目增加时;通常使用压缩搜索空间的启发式算法,通常这些方法是典型的贪心算法,在搜索属性空间时,总是做看上去是最佳的选择,启发式算法的策略是局部最优选择,期望由此导致全局最优解。
S203,对特征子集进行聚类处理,得到聚类结果;聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离。
聚类分析是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点;聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
聚类是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大,也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
利用特征选择使用好的特征子集可以帮助聚类产生好的结果并且可以大幅降低计算开销。
其中,对特征子集进行聚类处理的方式包括分区方法、分层方法和基于密度的方法等,根据聚类方法对特征子集进行聚类,得到聚类结果,聚类结果包括多个聚类中心和各点到所属聚类中心的距离,即多个聚类中心以及各聚类中心的类簇,类簇中包括多个特征点,因特征子集是状态数据的特征子集,特征子集与状态数据有对应关系,因此,得到的聚类中心可以看作是状态数据的聚类中心,各特征点到所属类簇的距离,也可以看做是各状态数据点到所属类簇的距离。
S204,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。
变压器在线监测状态信息数据,通过传感器采集、传输后集成在数据信息平台上,变压器状态数据异常可能在传输过程中,出现传输不及时,导致数据缺失、数据突变和孤立噪声等情况。如图3所示,图3为数据异常的情况,包括:数据缺失、孤立噪声、短时有变、高噪声值和数据突变等情况,数据缺失表示数据出现空白值,孤立噪声表示个别数据分离或突变值,短时有变表示短期内变化较大,后续回归正常的数据,高噪声值表示多个测量数据未属于正常数据类簇,数据突变表示序列同时出现趋势异常。
在变压器数据采集时,由于传感器的故障和传输异常等原因,导致出现数据缺失、孤立噪声、短时有变、高噪声值和数据突变等情况,但是在经过聚类之后,其表现为孤立点、离群点等,所以只需要判断状态数据点与同一簇的聚类中心的距离是否符合要求,即可判断状态数据点是否异常。
在一个实施例中,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常,包括:若状态数据点到所属聚类中心的距离大于预设的距离阈值,则确定状态数据点异常;若状态数据点到所属聚类中心的距离小于或等于距离阈值,则确定状态数据点正常。
可设置状态数据点与同一簇的聚类中心的距离阈值,判断每一个状态数据点到聚类中心的距离是否超过距离阈值,若超过距离阈值,则将该状态数据点标记为数据异常的点;若该状态数据点到所属聚类中心的距离小于或等于距离阈值,则将该状态数据点标记为数据正常的点。
可选地,距离阈值的设置方式可以是,参考专家意见,根据变压器的数据特点以及运行特征设置的距离阈值。
上述数据异常检测方法,通过对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合,将状态数据的特征集合进行特征降维处理,得到特征子集,并对特征子集进行聚类处理,得到聚类结果,聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离,根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。该方法中通过对变电站设备的状态数据的特征集合进行特征降维处理,得到特征子集,保留具有代表性的特征,剔除冗余特征,保证了状态数据对应的特征具有代表性,然后将特征子集进行聚类处理,能够使聚类产生较为准确的结果并且可以大幅降低计算开销,该方法通过对状态数据的特征集合进行降维,并对降维得到的特征子集进行聚类处理,剔除了冗余特征,并将有相关性的特征聚类到一个类簇中,以此判断状态数据的异常情况,提高了检测异常数据的准确性。
在一个实施例中,将状态数据的特征集合进行特征降维处理,得到特征子集,包括:通过骨干粒子群算法对状态数据的特征集合进行降维处理,得到特征子集。
随着智能变电站建设的不断完善,变电站的信息化、互动化和智能化水平的提高,变压器作为智能变电站的重要设备,其产生和储蓄的数据不断增多,数据的维度也逐渐变大,所以在数据异常检测时需要进行特征选择,挑选出关联程度高的特征,这样不仅能够减少输入数据量,减轻计算压力,更加有力的保证数据处理准确性、高效性以及有效性。
其中,传统的基于粒子群算法的特征选择方法中的适应度函数通常是根据类别标签计算特征子集的准确率来构造的,不适用于无监督学学习,而本申请基于改进的骨干粒子群算法利用最大平均互信息构造适应度函数作为特征子集的评价函数,无需用到类别标签,适用于无监督的特征选择。
由于变压器监测数据的信息具有规模大、密度低等特征,所以在数据异常检测之前,采用改进的骨干粒子群算法对高维数据进行特征提取以及降维。使用改进的骨干粒子群算法与传统的粒子群算法相比,改进的骨干粒子群算法引入了互信息,利用互信息值评估两个特征之间的相关程度,即采用互信息值构造粒子群适应度函数,可以保证提取的特征向量既可以保证变量之间的关联程度高,也可以为后续多元异常数据检测提供有力的支撑;改进的骨干粒子群算法采用一种适应性突变概率策略,通过迭代过程中粒子的适应度值变化信息来适应性调整突变概率的大小,避免了传统方法在突变概率阈值设定太小时,容易收敛到局部最优解。改进的骨干粒子群算法包含三个主要函数,即适应度函数、自适应粒子群突变概率函数、更新位置函数。
首先,若F={f1,f2,…,fd}为状态数据的特征集合,Y={yi1,yi2,…,yin}是第i个特征fi的对应特征值,fi的标准互信息计算如下:
H(fi)=-∑p(yij)log2p(yij) (3)
其中,NMI(fi,fj)的大小范围为[0,1],p(fi,fj)为特征fi、fj的联合概率分布,p(fi)和p(fj)为特征fi、fj的边缘概率分布函数,MI(fi,fj)为特征fi和fj的互信息,H(fi)、H(fj)分别为特征fi和fj的信息熵。
互信息在特征选择中可看作已知特征fi的信息对于特征fj的不确定性的减少量,即两者共有的信息量,从信息论的角度来看,互信息特征选择方法能够量化的表示特征间的相关关系。
在本申请实施例中,利用改进的骨干粒子群算法捕捉两个变量之间的关联程度,保留关联程度比较高的变量,确定输入矩阵,不仅能够减少输入数据量,减轻模型的训练压力,更加有力的保证数据处理准确性、高效性以及有效性,为后续多元异常数据检测提供支撑。
其中,在性能上,骨干粒子群算法的适应度函数可根据互信息原理构造骨干粒子群适应度函数,以用来评估两个特征之间的相关程度,使得提取的向量能够保证高的关联程度;并且,在结构上,改进的骨干粒子群算法去掉了原有的粒子飞行速度,增加了突变概率函数,并通过粒子适应度值动态调整算法的变异概率大小来平衡粒子的全局寻优能力和局部寻优能力,进而提高算法的执行效率,解决了传统方法在后期存在收敛速度变慢,易于陷入局部最优值等问题。
改进的骨干粒子群算法可分为四个步骤:第一,初始化粒子群,设置迭代次数;第二,计算适应度;第三,更新粒子概率与位置;第四,比较适应度值,直到达到最优。
首先,利用特征集合中每个特征被选中的概率值进行编码,多个编码值组成一个粒子,对于d个特征的数据集和而言,编码后每个粒子的值(位置)可以表示为公式(4)。
Xi={xi,1,xi,2,…,xi,d} i=1,2,3,...,s (4)
其中,s为粒子种群的大小,xi,j表示特征集合中第j个特征被选中的概率,例如,定义一个阈值为0.5,用来区分当前粒子的位置所对应的特征是否被选择,当xi,j≥0.5时,表示该特征被选择,否则,该特征未被选择。
因此,可构建骨干粒子群算法的适应度函数,骨干粒子群算法的适应度值fit计算分为两个部分,分别考虑了所选特征冗余度度量fit1和特征子集的代表性度量fit2来评价粒子的适应度,即:
其中,α、β为缩放参数,fit1为特征冗余度度量,fit2为特征子集的代表性度量,其计算公式如下:
其中,SF是当前粒子位置所确定的候选特征子集,NSF为冗余特征集合,fmin为SF集合中距离NSF中特征fi最近的特征,max_NMI(fi)为SF集合中的特征fj(i≠j)与fi的最大互信息值,其最大标准互信息max_NMI(fi)计算公式如下:
max-NMI(fi)=max{NMI(fi,fj)∣fj∈SF,f≠fj} (8)
由上述公式可知,fit1的值越小,SF集合的冗余度越小,fit2越大,则SF集合的代表性越强,即fit越小,所选特征子集的代表性越强,冗余度越低。
传统的骨干粒子群算法以固定的粒子群突变概率进行随机搜索,当突变概率设定较大时,粒子有较强的全局搜索能力,但是寻优过程容易出现震荡,稳定性较差。本申请实施例采用一种适应性突变概率策略,通过迭代过程中粒子的适应度值变化信息来适应性调整突变概率mu的大小,第t代粒子的平均适应度值Mt的计算公式:
其中,n表示种群中粒子数量,fiti(t)表示第i个粒子迭代到第t次迭代的适应度值。
针对适应度值最小化的求解,粒子群的平均适应值的相对变化率k为:
其中,表示粒子Xij在t+1代的位置,mut表示粒子在第t次迭代时的突变概率,γ和δ为突变概率变化大小的调节参数,γ用来调节公式中ln(1+k)的变化幅度,δ用来调节ek的变化幅度,r3为[0,1]之间的任意随机数,Pbitj表示所有粒子在t次迭代后的局部最优位置,Pgt表示整个粒子群在t次迭代后的全局最优位置,N(a,b)表示,以期望为a,标准差为b的正态分布。
因此,基于上述设置,改进的骨干粒子群算法特征提取步骤包括;①设置迭代次数N,缩放参数α、β、γ、δ,常数r3,初始化粒子群的位置Xij、粒子群局部最优位置Pb以及粒子群全局最优位置Pg;②计算平均适应值Mt以及相对变化率k;③根据相对变化率k,计算突变概率mu;④若mu大于r3,更新粒子的局部最优位置Pbt+1,令粒子群全局最优位置Pgt+1等于Pbt +1,若mu小于或等于r3,粒子群全局最优位置Pgt+1等于Pb;⑤判断计算次数是否到迭代次数,若是,输出粒子群全局最优位置Pg;若否,重复②~④;⑥根据粒子群全局最优位置Pg求得对应的特征子集。可选地,参数α、β、γ、δ可取[0,1]之间的数值。
因此,可根据上述设置的骨干粒子群算法对状态数据的特征集合进行特征降维,确定状态数据的特征子集。
具体地,在一个实施例中,通过骨干粒子群算法对状态数据的特征集合进行降维处理,得到特征子集,包括:将状态数据的特征集合作为骨干粒子群算法的输入,通过将状态数据的特征集合代入骨干粒子群算法中预设的适应度函数中,对适应度函数进行最小值求解,得到状态数据的特征子集。
将状态数据的特征集合作为骨干粒子群算法的输入,然后以骨干粒子群算法的位置以及特征集合,确定适应度函数值,在骨干粒子群算法迭代过程中,对适应度函数进行最小值求解,最终输出全局最优位置对应的特征子集,即对状态数据的特征集合进行特征降维处理后得到的状态数据的特征子集。
在一个实施例中,如图4所示,对特征子集进行聚类处理,得到聚类结果,包括以下步骤:
S401,根据特征子集,确定状态数据的特征矩阵。
为了避免特征子集过大,导致计算量大、训练时间长的问题,因此,可以对特征子集进一步降维,保留较少的且具有代表性的特征,以提高训练的精度和速度。
因此,可基于上述骨干粒子群算法得到的特征子集,对特征子集进一步进行降维,得到状态数据的特征矩阵。
可选地,确定状态数据的特征矩阵的方式可以是利用单变量特征选择、去掉取值变化小的特征等方式。
具体地,例如,若以去掉取值变化小的特征的方法求解状态数据的特征矩阵,即若某特征的特征值只有0和1,若95%的状态数据点在该特征的取值都为1,那么该特征就没什么意义,也就是变化比较小,因此,可将该特征去除。
S402,对特征矩阵进行单位化,得到状态数据的单位化特征矩阵。
因此,根据上述方式,可将特征矩阵进行单位化,得到状态数据的单位化特征矩阵。
S403,对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果。
可利用k-means聚类算法对状态数据的单位化特征矩阵中的各元素进行聚类处理。
其中,k-means算法的基本思想:以空间k个点为中心进行聚类,对靠近各中心的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果,最终的k个聚类具有以下特点:各聚类本身尽可能紧凑,而各聚类之间尽可能分开。
在一个实施例中,如图5所示,对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果,包括以下步骤:
S501,根据单位化特征矩阵中的各元素的值,确定多个初始聚类中心;元素与状态数据点对应。
根据单位化特征矩阵中的各元素的值,确定多个初始聚类中心的方式可以是,在单位化特征矩阵中随机选取k个初始聚类中心。
可选地,为了避免随机选取的聚类中心间隔太近,也可以根据单位化特征矩阵中各元素的值,确定各元素的分布,然后随机选取一个初始聚类中心点,然后选取距离该初始聚类中心点最远的那个点作为第二个初始聚类中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始聚类中心点,以此类推,直至选出k个初始聚类中心点。
S502,根据各元素与各初始聚类中心的距离,确定多个候选类簇。
基于上述得到的多个初始聚类中心,可计算单位化特征矩阵中各元素与各初始聚类中心的距离,根据距离确定各初始聚类中心的候选类簇。
首先,可根据计算欧式距离的方法计算各元素与各初始聚类中心的距离,如公式(13)所示。
其中,zi表示第i个初始聚类中心,i表示[1,k]的正整数,uj表示单位化特征矩阵中的任一元素。
因此,根据各元素与各初始聚类中心的距离,确定多个候选类簇的方式为,将各元素归到距离最近的初始聚类中心所在的类簇中,以将各元素分配到对应的类簇中,得到多个候选类簇。
S503,获取各候选类簇的新聚类中心,将新聚类中心作为初始聚类中心,并返回执行根据各元素与各初始聚类中心的距离,确定多个候选类簇,直到得到的候选类簇对应的标准测度函数的值满足预设的迭代收敛条件,根据满足迭代收敛条件的候选类簇获取聚类结果。
基于上述得到的多个候选类簇,然后利用均值或其他算法更新各候选类簇的新聚类中心,将新聚类中心作为初始聚类中心;其中,在得到多个候选类簇后,计算各候选类簇中元素的均值,将各候选类簇的均值作为各候选类簇的新聚类中心。
将新聚类中心作为初始聚类中心,并以上述步骤S502中的根据各元素与各初始聚类中心的距离,确定多个候选类簇的方式重新确定多个候选类簇,进行迭代更新,直至得到的候选类簇对应的标准测度函数的值满足预设的迭代收敛条件,将满足迭代收敛条件对应的候选类簇确定聚类结果。
其中,标准测度函数可以用公式(14)表示。
其中,J是单位化特征矩阵中所有元素的均方差之和。
判断候选类簇对应的标准测度函数的值是否满足预设的迭代收敛条件,即判断标准测度函数是否收敛,若是,则根据收敛时得到的候选类簇,获取聚类结果,聚类结果包括收敛时得到的候选类簇对应的聚类中心和各元素到所属聚类中心的距离,因元素与状态数据点对应,因此,得到的也即是状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离。
上述数据异常检测方法中,根据特征子集,确定状态数据的特征矩阵,并对特征矩阵进行单位化,得到状态数据的单位化特征矩阵,然后对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果。该方法中,通过对特征子集进行降维,确定状态数据的特征矩阵,并以单位化后的特征矩阵进行聚类处理,提高了得到聚类结果的准确性和速度。
在一个实施例中,如图6所示,根据特征子集,确定状态数据的特征矩阵,包括以下步骤:
S601,根据特征子集,确定状态数据中每两个状态数据点之间的测地距离和局部密度。
测地距离可以有效表示数据点间的真实距离,因此利用测地距离作为距离函数可提高聚类精度,根据公式(15)计算状态数据中每两个状态数据点之间的测地距离。
其中,DG(xi,xj)表示xi与xj之间的测地距离,T=[1,2,…,n],n为状态数据点的数量,xi、xm与xj表示状态数据点,即状态数据点对应的特征子集的特征值,DG0(xi,xj)表示xi与xj之间的欧氏近邻点,可用公式(16)计算。
其中,||(xi-xj)||2为向量(xi-xj)的2范数。
根据公式(17)计算状态数据中每两个状态数据点之间的局部密度。
Dens(xi,xj)=|n(xi,p)∩n(xj,p)| (17)
其中,n(xi,p)为距离xi最近的前p个点,n(xj,p)为距离xj最近的前p个点。一般地,p为状态数据点数量的3%,这里的距离可以是测地距离。
S602,根据测地距离和局部密度,确定状态数据对应的相似度矩阵。
基于上述得到的测地距离和局部密度,可根据公式(18)计算状态数据对应的相似度矩阵S。
其中,sij表示相似度矩阵S中的各元素,σi=norm((xi-xit),2)表示状态数据点xi到其第l个最近邻样本点xit的欧式距离,σj=norm((xj-xjt),2)表示状态数据点xj到其第l个最近邻样本点xjt的欧式距离,一般地,取l=7。
S603,根据相似度矩阵,确定状态数据的拉普拉斯矩阵。
在一个实施例中,如图7所示,根据相似度矩阵,确定状态数据的拉普拉斯矩阵,包括以下步骤:
S701,根据相似度矩阵,确定状态数据的度矩阵。
基于上述实施例中状态数据的相似度矩阵,可根据公式(19)计算状态数据的度矩阵D。
S702,根据度矩阵和相似度矩阵,确定状态数据的拉普拉斯矩阵。
基于上述度矩阵和相似度矩阵,可根据公式(20)计算状态数据的拉普拉斯矩阵L。
L=D-1/2SD1/2 (20)
其中,D表示状态数据的度矩阵,S表示状态数据的相似度矩阵。
S604,对拉普拉斯矩阵进行降维处理,得到状态数据的特征矩阵。
可取拉普拉斯矩阵L的前k个最大特征值所对应的特征向量,以对拉普拉斯矩阵L进行降维,得到状态数据的特征矩阵E,如公式(21)所示。
E=[ξ1,ξ2,…,ξk]n×k (21)
其中,ξ1,ξ2,…,ξk为拉普拉斯矩阵L的前k个最大特征值所对应的特征向量。
上述数据异常检测方法中,根据特征子集,确定状态数据中每两个状态数据点之间的测地距离和局部密度,根据测地距离和局部密度,确定状态数据对应的相似度矩阵,并根据相似度矩阵,确定状态数据的拉普拉斯矩阵,然后对拉普拉斯矩阵进行降维处理,得到状态数据的特征矩阵。该方法中对特征子集进行进一步降维处理,首先计算数据点之间的测地距离,因测地距离可以有效的表示数据点间的真实距离,提高了后续的聚类精度,并且,对特征子集进行降维,使在处理高维数据聚类时的复杂度比传统聚类算法好,提高了聚类准确性和速度。
在一个实施例中,通过对智能变电站二次系统中获取的变压器监测数据进行预处理,即利用改进的骨干粒子群算法对获取的变压器的状态数据进行特征提取与降维,这样不仅能够减少输入数据量,减轻模型的训练压力,保证数据处理准确性、高效性以及有效性,而且提取出的关联性强的变量为后续多元异常数据检测提供支撑;然后采用自适应谱聚类算法对提取特征向量进行聚类处理;最后,根据变压器的数据特点以及运行特征,结合专家的意见,设置数据点到聚类中心的距离阈值,判断数据是否异常。
本实施例运用改进的骨干粒子群算法对获取的变压器的状态数据进行特征的提取以及降维,得到提取特征向量;并采用自适应谱聚类算法对提取特征向量进行聚类处理;根据变压器的数据特点以及运行特征,设置数据点到聚类中心的距离阈值,判断数据是否异常。
其中,采用自适应谱聚类算法对提取的特征向量进行聚类,只需要数据之间的自适应相似矩阵,而采用的测地距离可以有效的表示数据点间的真实距离,有助于提高聚类精度;由于自适应谱聚类算法在聚类过程中使用了降维,因此在处理高维数据聚类时的复杂度比传统聚类算法好。
并且,自适应谱聚类算法的核心思想是对待聚类数据点的自适应相似矩阵(拉普拉斯矩阵)进行特征分解,并对其特征向量聚类,因此相似矩阵的构建很大程度上影响了聚类的效果,而自适应谱聚类算法在构建相似性矩阵时,距离函数的选择尤为重要,而测地距离可以有效表示数据点间的真实距离,故选择测地距离作为距离函数可提高聚类精度。
在聚类中,首先,在给定分类组数t值的条件下,将聚类数据分成t类别,用si(i=1,2,…,t)表示,聚类数据的数据对象中选出t个聚类中心z1,z2,…,zt,聚类中心是同一类别数据对象的算数平均值:
其中,Ni为类si的数据对象个数,u为特征矩阵E单位化后的矩阵。
在一个实施例中,如图8所示,图8为运用改进的骨干粒子群算法对获取的变压器的状态数据进行特征的提取以及降维的流程,具体地,首先初始化骨干粒子群的参数,包括粒子群的位置,粒子群的位置与特征属性存在一一对应的关系,粒子群的位置反映了特征属性是否被选择;根据互信息原理,构建适应度函数,适应度函数反映了粒子位置所选择的特征的代表性越强;根据粒子位置和特征属性对应的特征值,计算适应度值,包括n个粒子的适应度值,局部最优位置和全局最优位置;根据突变概率的大小更新粒子在下一次迭代时的位置,并根据位置计算下一次迭代的适应度值,根据下一次迭代的适应度值确定局部最优位置和全局最优位置;计算适应度值的平均值,根据当前迭代时与上一次迭代时的适应度的平均值,确定平均适应度值的相对变化率;根据相对变化率的大小更新突变概率;直至骨干粒子群算法满足收敛条件(迭代次数),输出全局最优位置对应的特征子集,
如图9所示,图9为采用自适应谱聚类算法对提取特征向量进行聚类处理;根据变压器的数据特点以及运行特征,设置数据点到聚类中心的距离阈值,判断数据是否异常的流程图,具体地,①将步骤一中的输出的特征子集作为自适应谱聚类算法的输入,得到聚类样本矩阵X;②设置聚类个数p,特征值个数k;一般地,(p≤k),③根据聚类样本矩阵,计算每个数据点的l个欧氏近邻点,并计算两点间的局部密度;④构建自适应相似矩阵S,并构造相应拉普拉斯矩阵L;⑤求L的前k个最大特征值所对应的特征向量,构造特征矩阵E,并将矩阵E进行行向量单位化得到矩阵U;⑥在矩阵U中,随机挑选出p个数据点作为聚类中心,用zi(i=1,2,…,k)表示;⑦针对矩阵U中的每个样本,计算它到聚类中心的欧氏距离,并将其分到距离最小的聚类中心所属的簇上,用si表示;⑧重新计算聚类中心,判断标准测度函数J是否收敛,若是,输出聚类结果和每个聚类点到各自聚类中心的距离;若否,重复⑦~⑧。步骤三根据变压器的数据特点以及运行特征,设置数据点到聚类中心的距离阈值,判断数据是否异常
在一个实施例中,如图10所示,以变电站设备为变压器为例,该实施例包括以下步骤:
S1001,对变电站数据的特征进行提取和降维,得到变电站的状态数据的特征集合。
S1002,利用骨干粒子群算法对状态数据的特征集合进行特征降维,得到特征子集。
S1003,根据得到的特征子集,确定任意两点的测地距离;并根据任意两点的测地距离确定任意两点的局部密度。
S1004,根据特征子集、任意两点的测地距离和局部密度,计算相似度矩阵。
S1005,根据相似度矩阵,构造拉普拉斯矩阵;
根据相似度矩阵,计算度矩阵,然后根据度矩阵和相似度矩阵,确定拉普拉斯矩阵。
S1006,将拉普拉斯矩阵中特征值最大的前k个特征对应的特征向量,确定为特征矩阵,并将特征矩阵进行行向量单位化,得到单位化矩阵。
S1007,在单位化矩阵中,随机选取p个数据点作为聚类中心。
S1008,针对单位化矩阵中各数据点,计算每个数据点到各聚类中心的距离,将其分配到距离最小的聚类中心所属的簇上,得到p个聚类。
S1009,根据p个聚类,利用各聚类中的平均值重新计算聚类中心,根据新的聚类中心得到新的聚类,直至标准测度函数收敛,输出各聚类中心以及各聚类点到各聚类中心的距离。
S1010,判断各聚类点到聚类中心的距离与距离阈值的大小关系,将聚类点待聚类中心的距离大于距离阈值对应的数据点确定为异常数据点。
本实施例提供的数据异常检测方法的具体限定可以参见上文中对于数据异常检测方法中各实施例的步骤限定,在此不再赘述。
应该理解的是,虽然上述实施例中所附的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中所附的图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,本申请实施例还提供了一种数据异常检测装置1100,该装置1100包括:特征提取模块1101、特征降维模块1102、聚类模块1103和异常确定模块1104,其中:
特征提取模块1101,用于对变电站设备的状态数据进行特征提取,得到状态数据对应的特征集合;状态数据包括多个状态数据点;
特征降维模块1102,用于将状态数据的特征集合进行特征降维处理,得到特征子集;
聚类模块1103,用于对特征子集进行聚类处理,得到聚类结果;聚类结果包括状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离;
异常确定模块1104,用于根据状态数据点到所属聚类中心的距离,确定状态数据点是否异常。
在一个实施例中,特征降维模块1102包括:
特征降维单元,用于通过骨干粒子群算法对状态数据的特征集合进行降维处理,得到特征子集。
在一个实施例中,特征降维单元包括:
特征降维子单元,用于将状态数据的特征集合作为骨干粒子群算法的输入,通过将状态数据的特征集合代入骨干粒子群算法中预设的适应度函数中,对适应度函数进行最小值求解,得到状态数据的特征子集。
在一个实施例中,聚类模块1103包括:
特征矩阵确定单元,用于根据特征子集,确定状态数据的特征矩阵;
矩阵单位化单元,用于对特征矩阵进行单位化,得到状态数据的单位化特征矩阵;
聚类单元,用于对状态数据的单位化特征矩阵进行聚类处理,得到聚类结果。
在一个实施例中,特征矩阵确定单元包括:
第一确定子单元,用于根据特征子集,确定状态数据中每两个状态数据点之间的测地距离和局部密度;
第二确定子单元,用于根据测地距离和局部密度,确定状态数据对应的相似度矩阵;
第三确定子单元,用于根据相似度矩阵,确定状态数据的拉普拉斯矩阵;
第四确定子单元,用于对拉普拉斯矩阵进行降维处理,得到状态数据的特征矩阵。
在一个实施例中,第三确定子单元包括:
第五确定子单元,用于根据相似度矩阵,确定状态数据的度矩阵;
第六确定子单元,用于根据度矩阵和相似度矩阵,确定状态数据的拉普拉斯矩阵。
在一个实施例中,聚类单元包括:
第七确定子单元,用于根据单位化特征矩阵中的各元素的值,确定多个初始聚类中心;元素与状态数据点对应;
第八确定子单元,用于根据各元素与各初始聚类中心的距离,确定多个候选类簇;
得到子单元,用于获取各候选类簇的新聚类中心,将新聚类中心作为初始聚类中心,并返回执行根据各元素与各初始聚类中心的距离,确定多个候选类簇,直到得到的候选类簇对应的标准测度函数的值满足预设的迭代收敛条件,根据满足迭代收敛条件的候选类簇获取聚类结果。
在一个实施例中,异常确定模块1104包括:
第一判断子单元,用于若状态数据点到所属聚类中心的距离大于预设的距离阈值,则确定状态数据点异常;
第二判断子单元,用于若状态数据点到所属聚类中心的距离小于或等于距离阈值,则确定状态数据点正常。
关于数据异常检测装置的具体限定可以参见上文中对于数据异常检测方法中各步骤的限定,在此不再赘述。上述数据异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于目标设备,也可以以软件形式存储于目标设备中的存储器中,以便于目标设备调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,如图12所示,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据异常检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
本实施例中处理器实现的各步骤,其实现原理和技术效果与上述数据异常检测方法的原理类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本实施例中计算机程序被处理器执行时实现的各步骤,其实现原理和技术效果与上述数据异常检测方法的原理类似,在此不再赘述。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本实施例中计算机程序被处理器执行时实现的各步骤,其实现原理和技术效果与上述数据异常检测方法的原理类似,在此不再赘述。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且对用户信息的获取、存储、使用和处理等均符合国家法律法规的相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据异常检测方法,其特征在于,所述方法包括:
对变电站设备的状态数据进行特征提取,得到所述状态数据对应的特征集合;所述状态数据包括多个状态数据点;
将所述状态数据的特征集合进行特征降维处理,得到特征子集;
对所述特征子集进行聚类处理,得到聚类结果;所述聚类结果包括所述状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离;
根据所述状态数据点到所属聚类中心的距离,确定所述状态数据点是否异常。
2.根据权利要求1所述的方法,其特征在于,所述将所述状态数据的特征集合进行特征降维处理,得到特征子集,包括:
通过骨干粒子群算法对所述状态数据的特征集合进行降维处理,得到所述特征子集。
3.根据权利要求2所述的方法,其特征在于,所述通过骨干粒子群算法对所述状态数据的特征集合进行降维处理,得到所述特征子集,包括:
将所述状态数据的特征集合作为所述骨干粒子群算法的输入,通过将所述状态数据的特征集合代入所述骨干粒子群算法中预设的适应度函数中,对适应度函数进行最小值求解,得到所述状态数据的特征子集。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述特征子集进行聚类处理,得到聚类结果,包括:
根据所述特征子集,确定所述状态数据的特征矩阵;
对所述特征矩阵进行单位化,得到所述状态数据的单位化特征矩阵;
对所述状态数据的单位化特征矩阵进行聚类处理,得到所述聚类结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征子集,确定所述状态数据的特征矩阵,包括:
根据所述特征子集,确定所述状态数据中每两个状态数据点之间的测地距离和局部密度;
根据所述测地距离和局部密度,确定所述状态数据对应的相似度矩阵;
根据所述相似度矩阵,确定所述状态数据的拉普拉斯矩阵;
对所述拉普拉斯矩阵进行降维处理,得到所述状态数据的特征矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度矩阵,确定所述状态数据的拉普拉斯矩阵,包括:
根据所述相似度矩阵,确定所述状态数据的度矩阵;
根据所述度矩阵和所述相似度矩阵,确定所述状态数据的拉普拉斯矩阵。
7.根据权利要求4所述的方法,其特征在于,所述对所述状态数据的单位化特征矩阵进行聚类处理,得到所述聚类结果,包括:
根据所述单位化特征矩阵中的各元素的值,确定多个初始聚类中心;所述元素与所述状态数据点对应;
根据各所述元素与各所述初始聚类中心的距离,确定多个候选类簇;
获取各所述候选类簇的新聚类中心,将所述新聚类中心作为所述初始聚类中心,并返回执行所述根据各所述元素与各所述初始聚类中心的距离,确定多个候选类簇,直到得到的候选类簇对应的标准测度函数的值满足预设的迭代收敛条件,根据满足所述迭代收敛条件的候选类簇获取所述聚类结果。
8.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述状态数据点到所属聚类中心的距离,确定所述状态数据点是否异常,包括:
若所述状态数据点到所属聚类中心的距离大于预设的距离阈值,则确定所述状态数据点异常;
若所述状态数据点到所属聚类中心的距离小于或等于所述距离阈值,则确定所述状态数据点正常。
9.一种数据异常检测装置,其特征在于,所述装置包括:
特征提取模块,用于对变电站设备的状态数据进行特征提取,得到所述状态数据对应的特征集合;所述状态数据包括多个状态数据点;
特征降维模块,用于将所述状态数据的特征集合进行特征降维处理,得到特征子集;
聚类模块,用于对所述特征子集进行聚类处理,得到聚类结果;所述聚类结果包括所述状态数据的多个聚类中心以及各状态数据点到所属聚类中心的距离;
异常确定模块,用于根据所述状态数据点到所属聚类中心的距离,确定所述状态数据点是否异常。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946101.2A CN115270986A (zh) | 2022-08-08 | 2022-08-08 | 数据异常检测方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946101.2A CN115270986A (zh) | 2022-08-08 | 2022-08-08 | 数据异常检测方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270986A true CN115270986A (zh) | 2022-11-01 |
Family
ID=83748938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210946101.2A Withdrawn CN115270986A (zh) | 2022-08-08 | 2022-08-08 | 数据异常检测方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270986A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308963A (zh) * | 2023-05-19 | 2023-06-23 | 北京十环信息有限公司 | 一种政务数据分析方法及系统 |
CN116304641A (zh) * | 2023-05-15 | 2023-06-23 | 山东省计算中心(国家超级计算济南中心) | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
CN116484307A (zh) * | 2023-06-21 | 2023-07-25 | 深圳市魔样科技有限公司 | 基于云计算智能戒指远程控制方法 |
CN117150283A (zh) * | 2023-10-31 | 2023-12-01 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于大数据分析的突发环境事件安全预警方法 |
CN117171693A (zh) * | 2023-10-30 | 2023-12-05 | 山东交通学院 | 一种木工打磨过程中的切割异常检测方法 |
CN117808497A (zh) * | 2024-03-01 | 2024-04-02 | 清华四川能源互联网研究院 | 基于距离和方向特征的电力碳排放异常检测模块和方法 |
CN117851907A (zh) * | 2024-01-10 | 2024-04-09 | 山东省水利勘测设计院有限公司 | 一种基于物联网技术的水闸渗流监测方法 |
CN118378110A (zh) * | 2024-06-25 | 2024-07-23 | 山东德源电力科技股份有限公司 | 一种具备监测数据分析功能的电能表 |
-
2022
- 2022-08-08 CN CN202210946101.2A patent/CN115270986A/zh not_active Withdrawn
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304641A (zh) * | 2023-05-15 | 2023-06-23 | 山东省计算中心(国家超级计算济南中心) | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
CN116304641B (zh) * | 2023-05-15 | 2023-09-15 | 山东省计算中心(国家超级计算济南中心) | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
CN116308963A (zh) * | 2023-05-19 | 2023-06-23 | 北京十环信息有限公司 | 一种政务数据分析方法及系统 |
CN116308963B (zh) * | 2023-05-19 | 2023-07-18 | 北京十环信息有限公司 | 一种政务数据分析方法及系统 |
CN116484307A (zh) * | 2023-06-21 | 2023-07-25 | 深圳市魔样科技有限公司 | 基于云计算智能戒指远程控制方法 |
CN116484307B (zh) * | 2023-06-21 | 2023-09-19 | 深圳市魔样科技有限公司 | 基于云计算智能戒指远程控制方法 |
CN117171693B (zh) * | 2023-10-30 | 2024-01-26 | 山东交通学院 | 一种木工打磨过程中的切割异常检测方法 |
CN117171693A (zh) * | 2023-10-30 | 2023-12-05 | 山东交通学院 | 一种木工打磨过程中的切割异常检测方法 |
CN117150283B (zh) * | 2023-10-31 | 2024-01-12 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于大数据分析的突发环境事件安全预警方法 |
CN117150283A (zh) * | 2023-10-31 | 2023-12-01 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于大数据分析的突发环境事件安全预警方法 |
CN117851907A (zh) * | 2024-01-10 | 2024-04-09 | 山东省水利勘测设计院有限公司 | 一种基于物联网技术的水闸渗流监测方法 |
CN117851907B (zh) * | 2024-01-10 | 2024-06-11 | 山东省水利勘测设计院有限公司 | 一种基于物联网技术的水闸渗流监测方法 |
CN117808497A (zh) * | 2024-03-01 | 2024-04-02 | 清华四川能源互联网研究院 | 基于距离和方向特征的电力碳排放异常检测模块和方法 |
CN117808497B (zh) * | 2024-03-01 | 2024-05-14 | 清华四川能源互联网研究院 | 基于距离和方向特征的电力碳排放异常检测模块和方法 |
CN118378110A (zh) * | 2024-06-25 | 2024-07-23 | 山东德源电力科技股份有限公司 | 一种具备监测数据分析功能的电能表 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115270986A (zh) | 数据异常检测方法、装置和计算机设备 | |
Wang et al. | Data-driven mode identification and unsupervised fault detection for nonlinear multimode processes | |
CN105224872B (zh) | 一种基于神经网络聚类的用户异常行为检测方法 | |
KR102215690B1 (ko) | 시계열의 데이터를 모니터링 하는 방법 및 그 장치 | |
Murphree | Machine learning anomaly detection in large systems | |
CN113255848A (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
Hong et al. | High-dimensional time series clustering via cross-predictability | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN112836604A (zh) | 一种基于vmd-ssae的滚动轴承故障诊断分类方法、系统、设备及其存储介质 | |
CN112363896A (zh) | 日志异常检测系统 | |
CN110581840B (zh) | 基于双层异质集成学习器的入侵检测方法 | |
CN113591400B (zh) | 一种基于特征相关性分区回归的电力调度监控数据异常检测方法 | |
CN116737510B (zh) | 一种基于数据分析的键盘智能监测方法及系统 | |
CN113792754A (zh) | 一种先除异后修复的换流变dga在线监测数据处理方法 | |
CN117633688A (zh) | 一种基于岭回归-k均值聚类-LOF-LSTM融合算法的大规模电力数据异常检测方法 | |
Wang et al. | Unsupervised outlier detection for mixed-valued dataset based on the adaptive k-nearest neighbor global network | |
Pimenov et al. | Interpretation of a trained neural network based on genetic algorithms | |
CN113884807A (zh) | 基于随机森林和多层架构聚类的配电网故障预测方法 | |
CN117592595A (zh) | 一种配电网负荷预测模型建立、预测方法及装置 | |
CN117435969A (zh) | 开关柜健康状态评估方法、装置、设备及存储介质 | |
CN117312885A (zh) | 工作面瓦斯涌出的动态阈值划分及多因素预警算法模型 | |
CN111984514A (zh) | 基于Prophet-bLSTM-DTW的日志异常检测方法 | |
Sarlin | Visual monitoring of financial stability with a self-organizing neural network | |
CN111461565A (zh) | 一种电力调控下的电源侧发电性能评估方法 | |
CN116187799A (zh) | 一种基于停电态势分析的事件影响评估调控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221101 |
|
WW01 | Invention patent application withdrawn after publication |