CN111598165A - 一种基于极限学习机的密度聚类离群点检测方法 - Google Patents

一种基于极限学习机的密度聚类离群点检测方法 Download PDF

Info

Publication number
CN111598165A
CN111598165A CN202010417501.5A CN202010417501A CN111598165A CN 111598165 A CN111598165 A CN 111598165A CN 202010417501 A CN202010417501 A CN 202010417501A CN 111598165 A CN111598165 A CN 111598165A
Authority
CN
China
Prior art keywords
data
learning machine
extreme learning
weight
density clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010417501.5A
Other languages
English (en)
Inventor
乔涵哲
王贺彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010417501.5A priority Critical patent/CN111598165A/zh
Publication of CN111598165A publication Critical patent/CN111598165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种基于极限学习机的密度聚类离群点检测方法,充分结合了机器学习方法的优势与聚类算法的优势,利用极限学习机来给出聚类算法中关键的阈值,可以拓宽密度聚类算法的应用范围和提高密度聚类算法的准确度。包括以下步骤:1选取一段日志类型为3的历史数据,包含正常数据和掉线数据;2对报文数据进行预处理;3将预处理之后的且带有标签的数据导入极限学习机中;4通过极限学习机得出基于权值的局部离群因子的阈值;5设定密度聚类的阈值;6导入实时数据;7计算实时数据的基于权值的局部离群因子;8判断出掉线报文。

Description

一种基于极限学习机的密度聚类离群点检测方法
技术领域
本发明涉及一种基于极限学习机的密度聚类离群点检测方法,属于机器学习领域和数据挖掘领域。
背景技术
近年来,随着全球能源问题的日益严重,世界各国都开始大力推进智能电网的发展,智能电网建设的目标是形成一个覆盖整个电力系统成产过程的安全、绿色、节能的实时系统。而支持智能电网安全、节能、实时运行的基础是电网信息的实时采集、存储、传输以及海量多源数据的快速分析。为了实现这一目的,各种智能设备分别应用于电网信息的采集、监测、通讯等各个方面。智能电表为代表的计量自动化系统就是智能设备应用于电网的核心部分之一,通过电网中计量自动化终端,实现对发电厂、变电站、变压器和用户这些角色的“发电、供电、配电、售电”整个过程的数据采集与监控功能,在提高供电质量、改善管理、减轻运维人员负担、提高经济效益与系统稳定性方面发挥着重要的作用。但是智能计量设备在给电网运维带来便利的同时,不可避免会出现终端通讯故障、传输的报文数据异常等问题,只有能够快速、准确的发现并处理这些问题才能保证智能电网的稳定运行。智能采集终端掉线是最为普遍的一种故障状态,能够准确、有效的判断采集终端得掉线与否对保证采集数据的稳定和可靠有着重要的作用。
目前,报文掉线的实时分析的方法主要是借鉴离群点检测的方法和机器学习的方法。离群点检测的方法有:统计学方法,基于距离的方法,基于密度的方法等,但是离群点检测方法都需要人为设定一个阈值,阈值的设定对检测的准确度有较大的影响,并且算法的适应性和广泛性较差;机器学习的方法有:BP神经网络,宽度学习,极限学习机等,但是机器学习的方法在面对海量数据时,有神经网络过于复杂、训练时间太长和容易陷入局部最优值等缺点。因此,开发一种适应性强,运算速度快且准确率高的海量报文掉线分析系统,对于提高电网工作效率、经济效益具有重要的意义。
发明内容
为解决上述问题,本发明结合了机器学习方法的优势与聚类算法的优势,利用极限学习机来给出聚类算法中关键的阈值,可以拓宽聚类算法的应用范围和提高密度聚类算法的准确度。
具体来说,本发明提供了一种基于极限学习机的密度聚类离群点检测方法,该方法包括:
步骤1,选取一段日志类型为3的历史数据,包含正常数据和掉线数据;
步骤2,对报文数据进行预处理;
步骤3,将预处理之后的且带有标签的数据导入极限学习机中;
步骤4,通过极限学习机得出基于权值的局部离群因子的阈值;
步骤5,设定密度聚类的阈值;
步骤6,导入实时数据;
步骤7,计算实时数据的基于权值的局部离群因子;
步骤8,判断出掉线数据。
其中,步骤2中的报文数据预处理是把报文数据中的时间差与时间标签截取出来,然后把时间差与时间标签进行归一化处理。
将所有日志类型为3的时间数据转换为以秒为单位的数值数据,如12:19:23 转换为44363,把时间的数值数据记为时间标签。
数据归一化的范围为[0,1],是为了极限学习机确定的阈值更加准确,以及在聚类算法应用中有更好的效果。
将数据按终端进行分类,将相同终端的报文分成一组,进行差分计算得到时间差数据,令x轴为时间标签,y轴为时间差,计算WLOF值。
其中,步骤4选取的极限学习机有输入层,隐含层和输出层三部分,训练前根据训练集确定好隐含层节点数,在整个训练过程中只需要为输入权值和隐含层偏置随机赋值,训练过程不需要迭代,且得到最优解,大大减少了训练时间。
若给定极限学习机N个训练样本
Figure BDA0002493962130000021
其中xi=[xi1,xi2,xi3,…, xin]T∈Rn作为训练集的输入数据;yi=[ti1,ti2,ti3,…,tim]T∈Rm作为训练集的输出数据。具有L个隐含层神经元且激活函数为g(xi)的标准单隐含层神经网络的表达式如下所示:
Figure BDA0002493962130000022
其中wi=[wi1,wi2,wi3,…,win]T为输入层节点与第i个隐含层节点之间的连接权值向量;βi=[βi1,βi2,βi3,…,βin]T则是输出层节点与第i个隐含层节点的偏置;yi=[yi1,yi2,yi3,…,yim]T值是ELM网络是实际输出值。
具有L个隐含层节点的单隐含层前馈神经网络能够零误差的逼近任意N个样本,即:
Figure BDA0002493962130000023
此时有
Figure BDA0002493962130000024
可将
Figure BDA0002493962130000025
简写成:
Hβ=T
其中H是ELM的隐含层输出矩阵:
Figure BDA0002493962130000026
输出层权值为:
Figure BDA0002493962130000027
根据上述要求得出密度聚类的阈值需要对极限学习机进行改进:
首先,把预处理好的数据作为训练集;然后,通过极限机来得出正常数据与掉线数据的输出值;最后,根据正常数据与掉线数据的输出值来确定聚类算法的阈值。
其中,步骤7选取聚类算法是密度聚类的原因是,密度聚类中涉及局部离群因子LOF,可以更好的检测出掉线数据;
k距离:对于数据集X={x1,x2,…,xn}中的任意点xi,xi与其最近的第k 个点xj之间的距离被称为点xi的k距离,采用马氏距离来定义数据点之间的距离(相似度),记作
k-distance(xi)=(xi-xj)TΣ-1(xi-xj)
式中协方差矩阵
Figure BDA0002493962130000031
k距离领域:对于数据集中的任意点xi,把所有距离xi不大于 k-distance(xi)的数据对象所形成的领域称之为k距离领域;
可达距离:设xi、xj为数据集中的任意两个数据点,那么数据点xi到数据点xj之间的可达距离为点xi的k距离k-distance(xi)与xi、xj之间距离较大的一个,记为
reachdis(xi-xj)=max{d(xi-xj),k-distance(xi)}
局部可达密度:数据点xi的局部可达密度是指xi点到其领域内的最大的前 k个距离平均值的倒数,这是对xi点局部密度的度量,记为
Figure BDA0002493962130000032
其中lrdk(xi)值较大表明xi点在k个点的分布比较稠密,因此为正常点;反之当lrdk(xi)值较小时,表明数据点xi在k个点的分布比较稀疏,则该数据点可能为离群点。
局部离群因子LOF:局部离群因子表征了数据点的离群程度,也是衡量一个数据点离群的可能性大小的指标,记为
Figure BDA0002493962130000033
为了让LOF值满足报文的时间差越大其LOF值越大的趋势条件,在计算局部离群因子时,加入权值fi,本文的权值可以设定为归一化之后的时间差。基于权值的局部离群因子记为WLOFk(xi),其表达式为:
WLOFk(xi)=fi·LOFk(xi)
本发明通过结合机器学习和聚类算法的优点,提出了一种基于极限学习机和密度聚类的海量报文掉线状态分析系统,通过极限学习机来确定密度聚类的阈值,来提高聚类的准确度和聚类应用的广泛性。在面对海量报文数据时,聚类相对于神经网络有较块的响应速度,更适合应用于像报文这类需要较快知道是否掉线的问题。
附图说明
图1是本发明的一种基于极限学习机的密度聚类离群点检测方法的流程图。
图2是局部离群因子与基于权值的局部离群因子对比图。
图3是一次基于极限学习机的密度聚类离群点检测结果图。
具体实施方法
为使本发明的目的、技术方案和优点更清楚的表达出来,下面结合附图及具体实例对本发明进一步的详细说明。
本发明提供了一种基于极限学习机的密度聚类离群点检测方法,如图1所示,该方法具体步骤如下:
步骤1,选取一段日志类型为3的历史数据,包含正常数据和掉线数据;
步骤2,对报文数据进行预处理;
步骤3,将预处理之后的且带有标签的数据导入极限学习机中;
步骤4,通过极限学习机得出基于权值的局部离群因子的阈值;
步骤5,设定密度聚类的阈值;
步骤6,导入实时数据;
步骤7,计算实时数据的基于权值的局部离群因子;
步骤8,判断出掉线数据。
在具体的应用中,主要通过某电力公司提供的报文数据来验证系统的有效性。智能电表的报文信息模型为:sjsj=2018-05-11 12:19:23;zdljdz=99887766; logtype=03;ip=127.0.0.1:50910:T。其中,sjsj为上传报文的时间;zdljdz 为终端逻辑地址;logtype为日志类型;ip为ip端口。sjsj为报文掉线检测主要部分。具体的步骤如下:
步骤1,要在该公司的数据库中筛选出logtype=03的数据,这类数据表示为最近通讯时间的数据,只有logtype=03的数据才有判定智能电表是否掉线的必要和意义;
步骤2中的报文数据预处理是把选取好的2n个报文数据中的时间差与时间标签截取出来,将所有日志类型为3的时间数据转换为以秒为单位的数值数据,如12:19:23转换为44363,把时间的数值数据记为时间标签。
然后,把时间差与时间标签进行归一化处理,使其值域在[0,1]。时间差预处理方法为:首先选取报文数据最小的时间单位秒,然后筛选出最大的时间差Δtmax和最小的时间差Δtmin,归一化公式为:
Figure BDA0002493962130000041
时间标签的预处理方法为:首先把数据按时间顺序排列,然后把第一数据的时间标签设为t1=1,然后下一个数据为t2=1+Δt,其中Δt为第一个数据与第二个数据的时间差(s),归一化公式为:
Figure BDA0002493962130000042
其中,步骤4把归一化之后的报文数据记为矩阵(xi,yi),极限学习机对应的连续的目标函数为f(xi),给定所构造的网络L个单隐含层节点和隐含层节点的激励函数g(xi),由于存在βi、wi和bi,可以使得SLFNs以0误差逼近 n个样本,ELM的模型的数学表达为:
Figure BDA0002493962130000043
其中wi=[wi1,wi2,wi3,…,win]T为输入层节点与第i个隐含层节点之间的连接权值向量;βi=[βi1,βi2,βi3,…,βin]T则是输出层节点与第i个隐含层节点的偏置;yi=[yi1,yi2,yi3,…,yim]T值是ELM网络是实际输出值。
具有L个隐含层节点的单隐含层前馈神经网络能够零误差的逼近任意N个样本,即:
Figure BDA0002493962130000051
此时有
Figure BDA0002493962130000052
可将
Figure BDA0002493962130000053
简写成:
Hβ=T
其中H是ELM的隐含层输出矩阵:
Figure BDA0002493962130000054
输出层权值为:
Figure BDA0002493962130000055
其中,步骤5密度聚类的阈值设定方法为:分别对输出层H1,H2进行统计分析,选取一个能最大程度区分正常数据与掉线数据的值设定为阈值R。
其中,步骤6导入实时数据前,需要对实时数据按照步骤2的方法对数据进行预处理,预处理之后的数据可以使得密度聚类有更好的效果。
其中,步骤7的基于权值的局部离群因子的算法为:
设实时数据预处理之后为矩阵A=[a1,a2,…,am]T,其中ai=(xi,yi),然后,计算ai与其最近的k个点之间的马氏距离k-distance(ai)。
k-distance(ai)=(ai-aj)TΣ-1(ai-aj)
式中协方差矩阵
Figure BDA0002493962130000056
对于矩阵A中的任意点ai,把所有距离ai不大于k-distance(ai)的数据对象所形成的领域称之为kA距离领域;
计算可达距离:设ai、aj为数据集中的任意两个数据点,那么数据点ai 到数据点aj之间的可达距离为点ai的k距离k-distance(ai)与ai、aj之间距离较大的一个,记为
reachdis(ai-aj)=max{d(ai-aj),k-distance(ai)}
计算局部可达密度:数据点ai的局部可达密度是指ai点到其领域内的最大的前k个距离平均值的倒数,这是对ai点局部密度的度量,记为
Figure BDA0002493962130000057
其中lrdk(ai)值较大表明ai点在k个点的分布比较稠密,因此为正常点;反之当lrdk(ai)值较小时,表明数据点ai在k个点的分布比较稀疏,则该数据点可能为离群点。
计算局部离群因子LOF:局部离群因子表征了数据点的离群程度,也是衡量一个数据点离群的可能性大小的指标,记为
Figure BDA0002493962130000061
为了让LOF值满足报文的时间差越大其LOF值越大的趋势条件,在计算局部离群因子时,加入权值fi,本文的权值可以设定为归一化之后的时间差。基于权值的局部离群因子记为WLOFk(xi),其表达式为:
WLOFk(xi)=fi·LOFk(xi)
对同一组数据进行局部离群因子计算与基于权值的局部离群因子计算,其对比情况如图2所示,左边的为局部离群因子,右边的为基于权值的局部离群因子。
最后,若WLOFk(ai)>R,则ai为掉线数据,若WLOFk(ai)≤R,则ai为正常数据。
其中,步骤8挑选出掉线数据,如图3所示,“*”为掉线数据,“·”为正常数据。
当然,本发明还可以有其它数据的实例,在不背离本发明精神及其实质的情况下,熟悉领域的技术人员可根据本发明作出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于极限学习机的密度聚类离群点检测方法,其特征在于,包括以下步骤:
步骤1,选取历史数据,包含正常数据和掉线数据;
步骤2,对报文数据进行预处理;
步骤3,将预处理之后的且带有标签的数据导入极限学习机中;
步骤4,通过极限学习机得出基于权值的局部离群因子的阈值;
步骤5,设定密度聚类的阈值;
步骤6,导入实时数据;
步骤7,计算实时数据的基于权值的局部离群因子;
步骤8,判断出掉线报文。
2.根据权利要求1所述的极限学习机的数学模型为:
Figure FDA0002493962120000011
其中wi=[wi1,wi2,wi3,…,win]T为输入层节点与第i个隐含层节点之间的连接权值向量;βi=[βi1,βi2,βi3,…,βin]T则是输出层节点与第i个隐含层节点的偏置;yi=[yi1,yi2,yi3,…,yim]T值是ELM网络是实际输出值。
具有L个隐含层节点的单隐含层前馈神经网络能够零误差的逼近任意N个样本,即:
Figure FDA0002493962120000012
此时有
Figure FDA0002493962120000013
3.根据权利要求1所示的系统,步骤4中的基于权值的局部离群因子的表达式为:
WLOFk(xi)=fi·LOFk(xi)
CN202010417501.5A 2020-05-15 2020-05-15 一种基于极限学习机的密度聚类离群点检测方法 Pending CN111598165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417501.5A CN111598165A (zh) 2020-05-15 2020-05-15 一种基于极限学习机的密度聚类离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417501.5A CN111598165A (zh) 2020-05-15 2020-05-15 一种基于极限学习机的密度聚类离群点检测方法

Publications (1)

Publication Number Publication Date
CN111598165A true CN111598165A (zh) 2020-08-28

Family

ID=72185668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417501.5A Pending CN111598165A (zh) 2020-05-15 2020-05-15 一种基于极限学习机的密度聚类离群点检测方法

Country Status (1)

Country Link
CN (1) CN111598165A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600299A (zh) * 2020-11-11 2021-04-02 东风汽车集团有限公司 一种车载电源监控装置
CN112861989A (zh) * 2021-03-04 2021-05-28 水利部信息中心 一种基于密度筛选的深度神经网络回归模型
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN117579400A (zh) * 2024-01-17 2024-02-20 国网四川省电力公司电力科学研究院 一种基于神经网络的工控系统网络安全监测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600299A (zh) * 2020-11-11 2021-04-02 东风汽车集团有限公司 一种车载电源监控装置
CN112861989A (zh) * 2021-03-04 2021-05-28 水利部信息中心 一种基于密度筛选的深度神经网络回归模型
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113191432B (zh) * 2021-05-06 2023-07-07 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN117579400A (zh) * 2024-01-17 2024-02-20 国网四川省电力公司电力科学研究院 一种基于神经网络的工控系统网络安全监测方法及系统
CN117579400B (zh) * 2024-01-17 2024-03-29 国网四川省电力公司电力科学研究院 一种基于神经网络的工控系统网络安全监测方法及系统

Similar Documents

Publication Publication Date Title
CN111598165A (zh) 一种基于极限学习机的密度聚类离群点检测方法
CN105825298B (zh) 一种基于负荷特性预估的电网计量预警系统及方法
CN106779505B (zh) 一种基于大数据驱动的输电线路故障预警方法及系统
CN111900731B (zh) 一种基于pmu的电力系统状态估计性能评价方法
CN109583520B (zh) 一种云模型与遗传算法优化支持向量机的状态评估方法
CN108847686B (zh) 一种光伏逆变器故障预测方法
CN113556629B (zh) 一种智能电表误差远程估计方法及装置
CN113659565B (zh) 一种新能源电力系统频率态势的在线预测方法
CN116073436B (zh) 一种光伏新能源电力系统容量优化控制方法
CN109491339B (zh) 一种基于大数据的变电站设备运行状态预警系统
CN116148753A (zh) 一种智能电能表运行误差监测系统
CN110569888A (zh) 基于有向无环图支持向量机的变压器故障诊断方法及装置
Tao et al. Reserve evaluation and energy management of micro-grids in joint electricity markets based on non-intrusive load monitoring
Velasco et al. Day-ahead base, intermediate, and peak load forecasting using k-means and artificial neural networks
CN115935285A (zh) 基于掩码图神经网络模型的多元时间序列异常检测方法和系统
Sicheng et al. Abnormal line loss data detection and correction method
CN114595952A (zh) 基于注意力网络改进卷积神经网络的窃电行为检测方法
Tai et al. Line Loss Assessment Method Based on Scene Clustering Method
Feng et al. Research on key technologies of health assessment for multi-equipment production line
Chen et al. Distribution Network Line Loss Assessment Method Based on Data Clustering
Li et al. An optimized FCM method for electric load clustering
Zhao et al. An Power Quality Data Classification Method of Important Power User of Low-voltage Distribution Network based on Twin Networks
Xu et al. Research on Fault Diagnosis Method of Wind Turbine Based on Kernel Fuzzy Clustering Algorithm
Yao et al. A Novel Aggregated Short-Term Load Forecasting Method Based on Clustering
Zheng et al. Short-Term Load Forecast Based on Feature Reconstruction and Bidirectional LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200828

WD01 Invention patent application deemed withdrawn after publication