CN111160563B - 基于极限学习机和密度聚类的海量报文掉线状态分析方法 - Google Patents

基于极限学习机和密度聚类的海量报文掉线状态分析方法 Download PDF

Info

Publication number
CN111160563B
CN111160563B CN201911216284.7A CN201911216284A CN111160563B CN 111160563 B CN111160563 B CN 111160563B CN 201911216284 A CN201911216284 A CN 201911216284A CN 111160563 B CN111160563 B CN 111160563B
Authority
CN
China
Prior art keywords
data
density clustering
distance
learning machine
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911216284.7A
Other languages
English (en)
Other versions
CN111160563A (zh
Inventor
尤子龙
李子仪
但志高
严华江
汤中壹
李宁
季德伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Zhejiang Huayun Information Technology Co Ltd, Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911216284.7A priority Critical patent/CN111160563B/zh
Publication of CN111160563A publication Critical patent/CN111160563A/zh
Application granted granted Critical
Publication of CN111160563B publication Critical patent/CN111160563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于极限学习机和密度聚类的海量报文掉线状态分析方法,涉及报文分析方法。目前,海量报文掉线分析方法适应性差,运算速度慢。本发明包括以下步骤将预处理之后的且带有标签的数据导入极限学习机中;通过极限学习机得出密度聚类的阈值;通过密度聚类模型的密度聚类选出掉线数据。本技术方案结合了机器学习方法的优势与聚类算法的优势,利用极限学习机来给出聚类算法中关键的阈值,可以拓宽聚类算法的应用范围和提高密度聚类算法的准确度。在面对海量报文数据时,聚类相对于神经网络有较块的响应速度,更适合应用于像报文这类需要较快知道是否掉线的问题。

Description

基于极限学习机和密度聚类的海量报文掉线状态分析方法
技术领域
本发明涉及报文分析方法,尤其涉及基于极限学习机和密度聚类的海量报文掉线状态分析方法。
背景技术
目前,报文掉线的实时分析的方法主要是借鉴离群点检测的方法和机器学习的方法。离群点检测的方法有:统计学方法,基于距离的方法,基于密度的方法等,但是离群点检测方法都需要人为设定一个阈值,阈值的设定对检测的准确度有较大的影响,并且算法的适应性和广泛性较差;机器学习的方法有:BP神经网络,宽度学习,极限学习机等,但是机器学习的方法在面对海量数据时,有神经网络过于复杂、训练时间太长和容易陷入局部最优值等缺点。因此,开发一种适应性强,运算速度快且准确率高的海量报文掉线分析系统,对于提高电网工作效率、经济效益具有重要的意义。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于极限学习机和密度聚类的海量报文掉线状态分析方法,以达到兼顾运算速度及准确性的目的。为此,本发明采取以下技术方案。
基于极限学习机和密度聚类的海量报文掉线状态分析方法,包括以下步骤:
1)选取历史数据,包含正常数据和掉线数据;
2)对报文数据进行预处理;
3)将预处理之后的且带有标签的数据导入极限学习机中;
4)通过极限学习机得出密度聚类的阈值;
5)设定密度聚类的阈值;
6)获取实时数据,并对实时数据进行预处理,并将处理后的实时数据导入密度聚类模型中;
7)根据设定的密度聚类的阈值,通过密度聚类模型的密度聚类选出掉线数据;
8)整理掉线数据。
本发明结合了机器学习方法的优势与聚类算法的优势,利用极限学习机来给出聚类算法中关键的阈值,可以拓宽聚类算法的应用范围和提高密度聚类算法的准确度。
作为优选技术手段:在步骤1)中,选取历史的报文数据要求是:日志类型为掉线数据,正常数据与掉线数据均为n。
作为优选技术手段:步骤2)中,报文数据预处理是把选取好的2n个报文数据中的时间差与时间标签截取出来,把时间差与时间标签进行归一化处理,使其值域在[0,1]。
作为优选技术手段:时间差预处理方法为:首先选取报文数据最小的时间单位秒,然后筛选出最大的时间差Δtmax和最小的时间差Δtmin,归一化公式为:
Figure BDA0002299606050000021
时间标签的预处理方法为:首先把数据按时间顺序排列,然后把第一数据的时间标签设为t1=1,然后下一个数据为t2=1+Δt,其中Δt为第一个数据与第二个数据的时间差(s),归一化公式为:
Figure BDA0002299606050000031
归一化之后的报文数据记为矩阵(xi,yi)。
作为优选技术手段:在步骤4)中,极限学习机对应的连续的目标函数为f(xi),给定所构造的网络L个单隐含层节点和隐含层节点的激励函数g(xi),由于存在βi、wi和bi,可以使得SLFNs以0误差逼近n个样本,ELM的模型的数学表达为:
Figure BDA0002299606050000032
其中,j=1,2,…,n;网络输入权重向量wi表示输入节点与隐含层节点的权重;bi为隐含层节点的阈值;隐含层节点的参数wi与bi是在值域为[-1,1]中随机取值的;网络输出权重向量βi表示隐含层节点与输出层节点的权重;i=1,2,…,L。
将正常的报文数据代入ELM的网络中,解得ELM各节点的参数,并且把输出层记为H1,;将掉线的报文数据代入已定好参数的ELM网络中,得到输出层,记为H2
作为优选技术手段:在步骤5)中,密度聚类的阈值设定时,分别对输出层H1,H2进行统计分析,选取一个能最大程度区分正常数据与掉线数据的值设定为阈值R。
作为优选技术手段:在步骤7)中,密度聚类方法为:
设实时数据预处理之后为矩阵A=[a1,a2,…,am]T,其中ai=(xi,yi),然后,计算ai与其最近的k个点之间的马氏距离k-distance(ai)。
k-distance(ai)=(ai-aj)TΣ-1(ai-aj)
式中协方差矩阵
Figure BDA0002299606050000041
对于矩阵A中的任意点ai,把所有距离ai不大于k-distance(ai)的数据对象所形成的领域称之为kA距离领域;
计算可达距离:设ai、aj为数据集中的任意两个数据点,那么数据点ai到数据点aj之间的可达距离为点ai的k距离k-distance(ai)与ai、aj之间距离较大的一个,记为
reach-dist(ai-aj)=max{d(ai-aj),k-distance(ai)}
计算局部可达密度:数据点ai的局部可达密度是指ai点到其领域内的最大的前k个距离平均值的倒数,这是对ai点局部密度的度量,记为
Figure BDA0002299606050000042
其中,lrdk(ai)为局部可达密度,Nk(ai)为K近邻领域内包含点的数目,reach-dist(ai-aj)为可达距离;lrdk(ai)值较大表明ai点在k个点的分布比较稠密,因此为正常点;反之当lrdk(ai)值较小时,表明数据点ai在k个点的分布比较稀疏,则该数据点可能为离群点;
计算局部离群因子LOF:局部离群因子表征了数据点的离群程度,也是衡量一个数据点离群的可能性大小的指标,记为
Figure BDA0002299606050000043
最后,若LOFk(ai)>R,则ai为掉线数据,若LOFk(ai)≤R,则ai为正常数据。
有益效果:本发明结合了机器学习方法的优势与聚类算法的优势,利用极限学习机来给出聚类算法中关键的阈值,可以拓宽聚类算法的应用范围和提高密度聚类算法的准确度。在面对海量报文数据时,聚类相对于神经网络有较块的响应速度,更适合应用于像报文这类需要较快知道是否掉线的问题。
附图说明
图1是本发明的流程图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明提供一种基于极限学习机和密度聚类的海量报文掉线状态分析系统,如图1所示,该方法具体步骤如下:
步骤1,选取一段日志类型为3的历史数据,包含正常数据和掉线数据;
步骤2,对报文数据进行预处理;
步骤3,将预处理之后的且带有标签的数据导入极限学习机中;
步骤4,通过极限学习机得出密度聚类的阈值;
步骤5,设定密度聚类的阈值;
步骤6,导入实时数据;
步骤7,通过密度聚类选出掉线数据;
步骤8,整理掉线数据。
在具体的应用中,主要通过某电力公司提供的报文数据来验证系统的有效性。具体的步骤如下:
步骤1的选取历史的报文数据要求是:日志类型为3,正常数据与掉线数据均为n;
步骤2中的报文数据预处理是把选取好的2n个报文数据中的时间差与时间标签截取出来,
然后,把时间差与时间标签进行归一化处理,使其值域在[0,1]。时间差预处理方法为:首先选取报文数据最小的时间单位秒,然后筛选出最大的时间差Δtmax和最小的时间差Δtmin,归一化公式为:
Figure BDA0002299606050000061
时间标签的预处理方法为:首先把数据按时间顺序排列,然后把第一数据的时间标签设为t1=1,然后下一个数据为t2=1+Δt,其中Δt为第一个数据与第二个数据的时间差(s),归一化公式为:
Figure BDA0002299606050000062
其中,步骤4把归一化之后的报文数据记为矩阵(xi,yi),极限学习机对应的连续的目标函数为f(xi),给定所构造的网络L个单隐含层节点和隐含层节点的激励函数g(xi),由于存在βi、wi和bi,可以使得SLFNs以0误差逼近n个样本,ELM的模型的数学表达为:
Figure BDA0002299606050000063
其中,j=1,2,…,n;网络输入权重向量wi表示输入节点与隐含层节点的权重;bi为隐含层节点的阈值;隐含层节点的参数wi与bi是在值域为[-1,1]中随机取值的;网络输出权重向量βi表示隐含层节点与输出层节点的权重;i=1,2,…,L。
首先,把正常的报文数据代入ELM的网络中,解得ELM各节点的参数,并且把输出层记为H1,;然后,把掉线的报文数据代入已定好参数的ELM网络中,得到输出层,记为H2
其中,步骤5密度聚类的阈值设定方法为:分别对输出层H1,H2进行统计分析,选取一个能最大程度区分正常数据与掉线数据的值设定为阈值R。
其中,步骤6导入实时数据前,需要对实时数据按照步骤2的方法对数据进行预处理,预处理之后的数据可以使得密度聚类有更好的效果。
其中,步骤7的密度聚类的算法为:
设实时数据预处理之后为矩阵A=[a1,a2,…,am]T,其中ai=(xi,yi),然后,计算ai与其最近的k个点之间的马氏距离k-distance(ai)。
k-distance(ai)=(ai-aj)TΣ-1(ai-aj)
式中协方差矩阵
Figure BDA0002299606050000071
对于矩阵A中的任意点ai,把所有距离ai不大于k-distance(ai)的数据对象所形成的领域称之为kA距离领域;
计算可达距离:设ai、aj为数据集中的任意两个数据点,那么数据点ai到数据点aj之间的可达距离为点ai的k距离k-distance(ai)与ai、aj之间距离较大的一个,记为
reach-dist(ai-aj)=max{d(ai-aj),k-distance(ai)}
计算局部可达密度:数据点ai的局部可达密度是指ai点到其领域内的最大的前k个距离平均值的倒数,这是对ai点局部密度的度量,记为
Figure BDA0002299606050000081
其中,lrdk(ai)为局部可达密度,Nk(ai)为K近邻领域内包含点的数目,reach-dist(ai-aj)为可达距离;lrdk(ai)值较大表明ai点在k个点的分布比较稠密,因此为正常点;反之当lrdk(ai)值较小时,表明数据点ai在k个点的分布比较稀疏,则该数据点可能为离群点;
计算局部离群因子LOF:局部离群因子表征了数据点的离群程度,也是衡量一个数据点离群的可能性大小的指标,记为
Figure BDA0002299606050000082
最后,若LOFk(ai)>R,则ai为掉线数据,若LOFk(ai)≤R,则ai为正常数据。
其中,步骤8整理掉线数据:根据掉线数据的时间标签补全截去部分的数据,然后按不同区域以时间顺序生成表格。
当然,本发明还可以有其它数据的实例,在不背离本发明精神及其实质的情况下,熟悉领域的技术人员可根据本发明作出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明所附的权利要求的保护范围。
以上图1所示的基于极限学习机和密度聚类的海量报文掉线状态分析方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。

Claims (5)

1.基于极限学习机和密度聚类的海量报文掉线状态分析方法,其特征在于包括以下步骤:
1)选取历史数据,包含正常数据和掉线数据;
2)对报文数据进行预处理;
3)将预处理之后的且带有标签的数据导入极限学习机中;
4)通过极限学习机得出密度聚类的阈值;
5)设定密度聚类的阈值;
6)获取实时数据,并对实时数据进行预处理,并将处理后的实时数据导入密度聚类模型中;
7)根据设定的密度聚类的阈值,通过密度聚类模型的密度聚类选出掉线数据;
8)整理掉线数据;
在步骤4)中,极限学习机对应的连续的目标函数为f(xi),给定所构造的网络L个单隐含层节点和隐含层节点的激励函数g(xi),由于存在βi、wi和bi,可以使得SLFNs以0误差逼近n个样本,ELM的模型的数学表达为:
Figure FDA0003840599280000011
其中,j=1,2,…,n;网络输入权重向量wi表示输入节点与隐含层节点的权重;bi为隐含层节点的阈值;隐含层节点的参数wi与bi是在值域为[-1,1]中随机取值的;网络输出权重向量βi表示隐含层节点与输出层节点的权重;i=1,2,…,L;
将正常的报文数据代入ELM的网络中,解得ELM各节点的参数,并且把输出层记为H1,;将掉线的报文数据代入已定好参数的ELM网络中,得到输出层,记为H2
在步骤5)中,密度聚类的阈值设定时,分别对输出层H1,H2进行统计分析,选取一个能最大程度区分正常数据与掉线数据的值设定为阈值R。
2.根据权利要求1所述的基于极限学习机和密度聚类的海量报文掉线状态分析方法,其特征在于:在步骤1)中,选取历史的报文数据要求是:选择日志类型为3的掉线数据,正常数据与掉线数据均为n。
3.根据权利要求2所述的基于极限学习机和密度聚类的海量报文掉线状态分析方法,其特征在于:步骤2)中,报文数据预处理是把选取好的2n个报文数据中的时间差与时间标签截取出来,把时间差与时间标签进行归一化处理,使其值域在[0,1]。
4.根据权利要求3所述的基于极限学习机和密度聚类的海量报文掉线状态分析方法,其特征在于:
时间差预处理方法为:首先选取报文数据最小的时间单位秒,然后筛选出最大的时间差Δtmax和最小的时间差Δtmin,归一化公式为:
Figure FDA0003840599280000021
时间标签的预处理方法为:首先把数据按时间顺序排列,然后把第一数据的时间标签设为t1=1,然后下一个数据为t2=1+Δt,其中Δt为第一个数据与第二个数据的时间差(s),归一化公式为:
Figure FDA0003840599280000022
归一化之后的报文数据记为矩阵(xi,yi)。
5.根据权利要求1所述的基于极限学习机和密度聚类的海量报文掉线状态分析方法,其特征在于:在步骤7)中,密度聚类方法为:
设实时数据预处理之后为矩阵A=[a1,a2,…,am]T,其中ai=(xi,yi),然后,计算ai与其最近的k个点之间的马氏距离k-distance(ai);
k-distance(ai)=(ai-aj)TΣ-1(ai-aj)
式中协方差矩阵
Figure FDA0003840599280000031
对于矩阵A中的任意点ai,把所有距离ai不大于k-distance(ai)的数据对象所形成的领域称之为kA距离领域;
计算可达距离:设ai、aj为数据集中的任意两个数据点,那么数据点ai到数据点aj之间的可达距离为点ai的k距离k-distance(ai)与ai、aj之间距离较大的一个,记为
reach-dist(ai-aj)=max{d(ai-aj),k-distance(ai)}
计算局部可达密度:数据点ai的局部可达密度是指ai点到其领域内的最大的前k个距离平均值的倒数,这是对ai点局部密度的度量,记为
Figure FDA0003840599280000032
其中,lrdk(ai)为局部可达密度,Nk(ai)为K近邻领域内包含点的数目,reach-dist(ai-aj)为可达距离;lrdk(ai)值较大表明ai点在k个点的分布比较稠密,因此为正常点;反之当lrdk(ai)值较小时,表明数据点ai在k个点的分布比较稀疏,则该数据点可能为离群点;
计算局部离群因子LOF:局部离群因子表征了数据点的离群程度,也是衡量一个数据点离群的可能性大小的指标,记为
Figure FDA0003840599280000041
最后,若LOFk(ai)>R,则ai为掉线数据,若LOFk(ai)≤R,则ai为正常数据。
CN201911216284.7A 2019-12-02 2019-12-02 基于极限学习机和密度聚类的海量报文掉线状态分析方法 Active CN111160563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911216284.7A CN111160563B (zh) 2019-12-02 2019-12-02 基于极限学习机和密度聚类的海量报文掉线状态分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911216284.7A CN111160563B (zh) 2019-12-02 2019-12-02 基于极限学习机和密度聚类的海量报文掉线状态分析方法

Publications (2)

Publication Number Publication Date
CN111160563A CN111160563A (zh) 2020-05-15
CN111160563B true CN111160563B (zh) 2023-04-14

Family

ID=70556289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911216284.7A Active CN111160563B (zh) 2019-12-02 2019-12-02 基于极限学习机和密度聚类的海量报文掉线状态分析方法

Country Status (1)

Country Link
CN (1) CN111160563B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021947A (zh) * 2017-12-25 2018-05-11 北京航空航天大学 一种基于视觉的分层极限学习机目标识别方法
CN108650152A (zh) * 2018-05-21 2018-10-12 新华三技术有限公司 异常报文确定方法及装置
CN108664990A (zh) * 2018-03-29 2018-10-16 清华大学 综合熵方法和密度聚类方法的窃电检测方法及装置
CN110287983A (zh) * 2019-05-10 2019-09-27 杭州电子科技大学 基于最大相关熵深度神经网络单分类器异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550744A (zh) * 2015-12-06 2016-05-04 北京工业大学 一种基于迭代的神经网络聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021947A (zh) * 2017-12-25 2018-05-11 北京航空航天大学 一种基于视觉的分层极限学习机目标识别方法
CN108664990A (zh) * 2018-03-29 2018-10-16 清华大学 综合熵方法和密度聚类方法的窃电检测方法及装置
CN108650152A (zh) * 2018-05-21 2018-10-12 新华三技术有限公司 异常报文确定方法及装置
CN110287983A (zh) * 2019-05-10 2019-09-27 杭州电子科技大学 基于最大相关熵深度神经网络单分类器异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AR-HELM算法在网络流量分类中的应用研究;魏书宁等;《信息网络安全》;20180110(第01期);全文 *

Also Published As

Publication number Publication date
CN111160563A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN108510006B (zh) 一种基于数据挖掘的企业用电量分析与预测方法
CN106572493B (zh) Lte网络中的异常值检测方法及系统
CN105512799B (zh) 一种基于海量在线历史数据的电力系统暂态稳定评估方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN107992968B (zh) 基于集成时间序列分析技术的电能表计量误差预测方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN111369070A (zh) 一种基于包络线聚类的多模融合光伏功率预测方法
CN108345670B (zh) 一种用于95598电力工单的服务热点发现方法
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN110428270A (zh) 基于逻辑回归算法的渠道潜在偏好客户识别方法
CN112650933B (zh) 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法
CN111598165A (zh) 一种基于极限学习机的密度聚类离群点检测方法
CN110545284A (zh) 一种对抗性网络的域名检测方法及系统
CN104103011A (zh) 一种基于纳税人利益关联网络的可疑纳税人识别方法
CN114499979A (zh) 一种基于联邦学习的sdn网络异常流量协同检测方法
Wang et al. Partition cost-sensitive CART based on customer value for Telecom customer churn prediction
CN106251861B (zh) 一种基于场景建模的公共场所异常声音检测方法
CN113630482A (zh) 一种基于隐半马尔可夫的IPv6快速探测方法
Antwi et al. The PerfSim algorithm for concept drift detection in imbalanced data
CN111160563B (zh) 基于极限学习机和密度聚类的海量报文掉线状态分析方法
CN113203953B (zh) 基于改进型极限学习机的锂电池剩余使用寿命预测方法
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN106778252B (zh) 基于粗糙集理论与waode算法的入侵检测方法
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant