CN113112374A - 一种基于机器学习算法的空巢用户用电异常检测方法 - Google Patents

一种基于机器学习算法的空巢用户用电异常检测方法 Download PDF

Info

Publication number
CN113112374A
CN113112374A CN202011514652.9A CN202011514652A CN113112374A CN 113112374 A CN113112374 A CN 113112374A CN 202011514652 A CN202011514652 A CN 202011514652A CN 113112374 A CN113112374 A CN 113112374A
Authority
CN
China
Prior art keywords
user
clustering
cluster
data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011514652.9A
Other languages
English (en)
Inventor
李璟
毛秋云
谢岳
蔡慧
王颖
陈卫民
郭倩
卢子萌
陈建宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202011514652.9A priority Critical patent/CN113112374A/zh
Publication of CN113112374A publication Critical patent/CN113112374A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习算法的空巢用户用电异常检测方法,首先采用基于聚类指标融合的自适应余弦K‑means聚类方法提取用户的典型日负荷曲线,然后计算用户在聚类时的每日负荷曲线与典型日负荷曲线的余弦相似度,将其作为训练数据构建无监督孤立森林异常用电检测模型,利用该模型对用户新的用电数据进行异常检测,实现对空巢老人的日常用电安全进行实时检测,当发生用电行为异常时可实现及时告警。

Description

一种基于机器学习算法的空巢用户用电异常检测方法
技术领域
本发明涉及数据挖掘类分析领域和空巢电力用户用电异常研究领域,尤其涉及一种基于机器学习算法的空巢用户用电异常检测方法。
背景技术
随着人均寿命的增长、人口生育率下降以及老龄化程度的加深,空巢老人数量不断增加。据《2019年社会服务发展统计公报》统计,全国60岁及以上老年人口25388万人,占总人口的18.1%,其中65岁及以上人口17603 万人,占总人口的12.6%,在如此庞大的人口数量现状下,难免出现保障乏力的问题。例如空巢老人独自在家中活动时容易出现滑倒、食物中毒、插线板老化漏电、突发疾病等诸多安全风险,而子女常年离家,缺少了最常上门走动的陪伴人群,发生意外危险时难以及时发现,容易导致悲剧发生。
现阶段很多学者在空巢老人社交属性和健康护理层面等相关领域已经开展了大量的研究工作,基于社交、心理、身体健康和药物服用等因素对空巢老人居家安全展开相关研究,总结了空巢老人群体在社交、护理以及生活习惯上的诸多特点。电力使用是日常生活中的一项基本指标,因而空巢老人的用电安全问题同样不能忽视,有学者通过分析用户不同工作日的负荷曲线相似度,采用One-class SVM无监督算法建立用电异常检测模型,但该类方法对用户用电行为中零负荷信息较为敏感,对非零负荷信息的异常用电行为检测性不强。也有学者通过深度学习中的LSTM神经网络实现对用户异常用电模式的检测。
当前学者对电力用户异常用电的研究均从反窃电的角度展开,窃电事件下的异常用电具有时间长、变化大、实时性差等特点,不适用于对空巢老人的安全用电检测,并且不同空巢用户在经济条件、季度气候等因素影响下,其用电行为具有复杂、多变、不确定性等特点。
发明内容
本发明目的要解决的技术问题和提出的技术任务是对空巢用户用电异常检测技术方案进行完善与改进,提供一种基于机器学习算法的空巢用户用电异常检测方法,以达到准目的。为此,本发明采取以下技术方案。
技术方案:本发明提供一种基于机器学习算法的空巢用户用电异常检测方法,包括以下步骤:
(1)利用政府社会信息系统获得准确空巢用户标签列表,通过用电采集系统获取用户整年日负荷用电数据;
(2)采用均值滤波法对该用户日负荷数据进行非线性平滑处理;
(3)采用自适应余弦K-means算法对平滑处理后的负荷数据进行聚类,自动寻找聚类效果最优的聚类数k;
(4)计算聚类后每个簇的聚类中心曲线作为该用户典型日负荷用电曲线;
(5)计算步骤(3)中样本与每个簇的聚类中心的余弦相似度构建异常检测模型数据集;
(6)基于异常检测模型数据集构建无监督孤立森林异常用电检测模型;
(7)利用步骤(6)的异常用电检测模型对用户新用电数据进行异常检测。
进一步的,在步骤(3)中,自适应余弦K-means算法包括以下步骤:
a)设提取的用户用电数据集D={d1,d2,…dn}∈Rs,即D为具有n维的s 元数据集合,n为用户往日用电天数,s为用户每天96点的负荷电流数据;
b)进行自动搜索最优聚类数目k,首先确定聚类初始簇k值范围,以初始聚类数k=2进行余弦K-means聚类;
c)计算每类中的样本数Pi,若Pi不小于阈值α,则令聚类数k=k+1重新聚类,直至任意Pi小于阈值α时停止聚类,设此时聚类簇k值范围为2~N;
d)针对不同聚类数k=1,2…N,分别计算其平均轮廓系数SC和DBI指标;
平均轮廓系数SC:
Figure BDA0002847361560000021
式中ai表示样本i到同簇其它样本的平均距离;bi表示样本i到非同簇其它样本的平均距离的最小值;qi为该向量i的轮廓系数;N为样本个数;Q为平均轮廓系数。
聚类DBI指标:
Figure BDA0002847361560000022
式中k为聚类数,avg(dbi)为第i类簇中所有样本到聚类中心的平均距离,Dij为第i类和第j类簇聚类中心距离。
e)将DBI指标按照公式(3~4)进行正向化处理后构建评价指标矩阵X;
DBI=max(DBI)-DBI (3)
Figure BDA0002847361560000031
f)对评价指标矩阵X进行公式(5)标准化操作得到zij,并找出每列最大值Z+和最小值Z-。
Figure BDA0002847361560000032
g)按照公式(6)计算聚类数目为k=i(i=1,2,…N)时的综合评价得分fi
Figure BDA0002847361560000033
式中,0≤fi≤1,fi越大代表聚类效果越好,选取fi最大时的i值作为最佳聚类数k。
进一步的,在步骤a)中余弦K-means聚类算法步骤如下:
1)首先定义聚类的余弦相似度指标,其计算公式如下:
Figure BDA0002847361560000034
式中A={xi|i=1,2,…,n}与B(yi|i=1,2,…,n)为两条用电曲线向量。
2)对聚类中心初始化,为了避免因初始化中心选择不当而导致 K-means陷入局部最优的情况出现,随机选取了k个余弦相似度距离较远的样本d1,d2,…dk∈Rs作为初始聚类中心。
3)计算剩余样本与初始聚类中心之间余弦相似度,将其归类到相似度最近的簇中,按照公式(8)将每个簇的平均向量作为新的聚类中心Cj(j=1,2,…,k)。
Figure BDA0002847361560000041
式中,nj为簇j的样本数,di为属于类Cj的样本。
4)重复步骤3)不断迭代,直至准则函数SEE收敛,计算公式为:
Figure BDA0002847361560000042
进一步的,在步骤(6)中构建无监督孤立森林异常用电检测模型步骤如下:
a)计算数据集D中每日用电曲线与k类典型曲线的余弦相似度构建异常检测模型数据集In×k
b)输入孤立森林模型参数:孤立森林数量(T),采集样本数量(Ψ);
c)从数据集In×k采用bootstrap采样法随机选取Ψ个样本作为子样本数据集;
d)在当前数据集随机选取一个特征维度B及分割点b,分割点b介于特征维度B的最大值与最小值之间。基于当前分割点b,将维度B中数据大于b的放入左节点,反之放入右节点;
e)重复上述步骤(1~3)构建T个随机不相关孤立树模型,将其组合为孤立森林异常检测模型;
f)计算孤立森林平均分割路径长度c(n)作为度量待测样本是否异常的标准化长度。
g)计算用户新样本数据x的在孤立森林中平均分割路径长度E(h(x));
h)计算测样本x的异常分值s(x),计算公式如下:
Figure BDA0002847361560000043
式中,当E(h(x))→0时,即待测样本的异常分数s→1,其异常程度越大;当E(h(x))→n-1时,s→0,待测样本的异常程度越小,本文将用户待测用电数据异常分数s>0.8时判断该用电用户行为发生异常。
进一步的,在步骤(6)构建无监督孤立森林异常用电检测模型的步骤f)中,对于由n个数据样本所构成的孤立森林模型,其平均分割路径长度 c(n)计算公式如下:
Figure BDA0002847361560000051
式中H(n-1)可用ln(n-1)+ζ估计,ζ为欧拉常数。
进一步的,在步骤(6)构建无监督孤立森林异常用电检测模型的步骤g)中,待测样本数据x在当前孤立树下分割次数即为分割路径长度h(x), E(h(x))即为在T棵孤立树下的平均路径长度,其计算公式如下:
Figure BDA0002847361560000052
进一步的,在步骤(6)构建无监督孤立森林异常用电检测模型的步骤h)中,通过计算用户新日负荷用电数据的疑似异常用电得分s,完成对空巢老人的日常用电安全进行实时检测和报警。
本发明有益效果
本发明通过对电力数据挖掘研究空巢用户的用电行为习惯,实现对其日常生活的用电行为进行实时监测,为空巢老人在电力使用上提供个性化、差异化服务;也可以与空巢老人子女建立实时联系,对发现有异常用电行为的空巢老人用户,及时通过电话或短信等方式通知其子女,帮助其规避用电安全风险。
本发明过用电量的相关特征分析实现空巢用电检测具有一定应用上的创新,空巢用户潜在的用电特性被逐渐挖掘,提高了电力大数据资源的利用率,推动了智能电网的发展与完善。
本发明采用了余弦相似度作为聚类的相似度评价指标,余弦相似度指标相比于欧式距离更侧重于对用户用电规律相似的曲线进行归类,因此将其作为评价指标可以降低因用户季节性用电带来的影响,从而可以更加有效的提取用户典型用电行为曲线。
本发明提出了一种自适应余弦K-means聚类方法提取用户的典型日负荷曲线,该算法本质是一种迭代求解的聚类分析算法,具有算法复杂度低、速度快的优点。自适应余弦K-means具体采用DBI指标和平均轮廓系数SC 指标来选定最恰当的k值,实现了自动对最优聚类情况的搜索过程,解决了 K-means算法由于人工主观定义k值所带的误差和不确定性,使得对于k值的选定更加具有科学性和准确性。
本发明采用孤立森林算法构建用电异常检测模型,孤立森林算法递归随机分割数据集方式构建二叉搜索树,具有时间复杂度低、精确率高等优点,适用于对电力大数据的用电异常检测,并且孤立森林算法本质属于无监督学习算法,不需要定义参数模型和进行历史训练样本,解决了电力用户以往异常用电时间不能确定,无法提取异常标签的问题,孤立森林算法相比于其它异常检测算法对空巢电力用户更加适用。
附图说明
图1为本发明自适应余弦K-means算法模型图
图2为本发明基于孤立森林算法构建用电异常检测模型图
图3为本发明某空巢用户的365天日负荷电流曲线图
图4为本发明某空巢用户负荷曲线滤波处理前后对比图
图5为本发明自适应余弦K-means不同聚类数k下SC与正向化后的 DBI指标图
图6为本发明自适应余弦K-means在不同聚类数k下的综合评价得分图
图7为本发明某空巢用户5类典型用电特征曲线图
图8为本发明某空巢用户在4月1日~15日用电异常评分图
图9为本发明某空巢用户在4月3日实际负荷电流曲线图
具体实施方式:
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明包括以下步骤:
(1)利用政府社会信息系统获得准确空巢用户标签列表,通过用电采集系统获取用户整年日负荷用电数据;
(2)采用均值滤波法对该用户日负荷数据进行非线性平滑处理;
(3)采用自适应余弦K-means算法对平滑处理后的负荷数据进行聚类,自动寻找聚类效果最优的聚类数k;
(4)计算聚类后每个簇的聚类中心曲线作为该用户典型日负荷用电曲线;
(5)计算步骤(3)中样本与每个簇的聚类中心的余弦相似度构建异常检测模型数据集;
(6)基于异常检测模型数据集构建无监督孤立森林异常用电检测模型;
(7)利用步骤(6)的异常用电检测模型对用户新用电数据进行异常检测。
利用政府社会信息系统获得准确空巢用户标签列表,通过用电采集系统获取用户整年日负荷用电数据,采用自适应余弦K-means算法提取典型用电曲线,然后建立孤立森林异常用电检测模型。
如图1所示,自适应余弦K-means算法聚类包括以下步骤:
a)设提取的用户用电数据集D={d1,d2,…dn}∈Rs,即D为具有n维的s 元数据集合,n为用户往日用电天数,s为用户每天96点的负荷电流数据;
首先定义聚类的余弦相似度指标,其计算公式如下:
Figure BDA0002847361560000071
式中A={xi|i=1,2,…,n}与B(yi|i=1,2,…,n)为两条用电曲线向量。
对聚类中心初始化,为了避免因初始化中心选择不当而导致K-means 陷入局部最优的情况出现,随机选取了k个余弦相似度距离较远的样本 d1,d2,…dk∈Rs作为初始聚类中心。
计算剩余样本与初始聚类中心之间余弦相似度,将其归类到相似度最近的簇中,按照公式(14)将每个簇的平均向量作为新的聚类中心 Cj(j=1,2,…,k)。
Figure BDA0002847361560000072
式中,nj为簇j的样本数,di为属于类Cj的样本。
重复步骤[0066]不断迭代,直至准则函数SEE收敛,计算公式为:
Figure BDA0002847361560000073
b)进行自动搜索最优聚类数目k,首先确定聚类初始簇k值范围,以初始聚类数k=2进行余弦K-means聚类;
c)计算每类中的样本数Pi,若Pi不小于阈值α,则令聚类数k=k+1重新聚类,直至任意Pi小于阈值α时停止聚类,设此时聚类簇k值范围为2~N;
d)针对不同聚类数k=1,2…N,分别计算其平均轮廓系数SC和DBI指标;
平均轮廓系数SC:
Figure BDA0002847361560000081
式中ai表示样本i到同簇其它样本的平均距离;bi表示样本i到非同簇其它样本的平均距离的最小值;qi为该向量i的轮廓系数;N为样本个数;Q为平均轮廓系数。
聚类DBI指标:
Figure BDA0002847361560000082
式中k为聚类数,avg(dbi)为第i类簇中所有样本到聚类中心的平均距离,Dij为第i类和第j类簇聚类中心距离。
e)将DBI指标按照公式(18~19)进行正向化处理后构建评价指标矩阵X;
DBI=max(DBI)-DBI (18)
Figure BDA0002847361560000083
f)对评价指标矩阵X进行公式(20)标准化操作得到zij,并找出每列最大值Z+和最小值Z-。
Figure BDA0002847361560000084
g)按照公式(21)计算聚类数目为k=i(i=1,2,…N)时的综合评价得分 fi
Figure BDA0002847361560000085
式中,0≤fi≤1,fi越大代表聚类效果越好,选取fi最大时的i值作为最佳聚类数k。
如图2所示,构建无监督孤立森林异常用电检测模型包括以下步骤:
a)计算数据集D中每日用电曲线与k类典型曲线的余弦相似度构建异常检测模型数据集In×k
b)输入孤立森林模型参数:孤立森林数量(T),采集样本数量(Ψ);
c)从数据集In×k采用bootstrap采样法随机选取Ψ个样本作为子样本数据集;
d)在当前数据集随机选取一个特征维度B及分割点b,分割点b介于特征维度B的最大值与最小值之间。基于当前分割点b,将维度B中数据大于b的放入左节点,反之放入右节点;
e)重复上述步骤(1~3)构建T个随机不相关孤立树模型,将其组合为孤立森林异常检测模型;
f)计算孤立森林平均分割路径长度c(n)作为度量待测样本是否异常的标准化长度。对于由n个数据样本所构成的孤立森林模型,其平均分割路径长度c(n)计算公式如下:
Figure BDA0002847361560000091
式中H(n-1)可用ln(n-1)+ζ估计,ζ为欧拉常数。
g)计算用户新样本数据x的在孤立森林中平均分割路径长度E(h(x));设待测样本数据x在当前孤立树下分割次数即为分割路径长度h(x),E(h(x)) 即为在T棵孤立树下的平均路径长度,其计算公式如下:
Figure BDA0002847361560000092
h)计算测样本x的异常分值s(x),计算公式如下:
Figure BDA0002847361560000093
式中,当E(h(x))→0时,即待测样本的异常分数s→1,其异常程度越大;当E(h(x))→n-1时,s→0,待测样本的异常程度越小,本文将用户待测用电数据异常分数s>0.8时判断该用电用户行为发生异常。
通过计算用户新日负荷用电数据x的疑似异常用电得分s,完成对空巢老人的日常用电安全进行实时检测和报警。
以下根据具体事例对本技术方案做进一步的说明:
1、数据来源及处理
利用政府社会信息系统获得准确空巢用户标签列表,提取空巢用户2018 年1月1日到2018年12月31日的日负荷电流数据作为建立空巢老人典型用电行为特征曲线的基础数据,用户负荷电流数据采集频率为每15分钟一次,每天共采集96个点,设提取空巢用户的负荷电流数据为D365×96,365为用电天数,96为每天采集的负荷数据个数,其365天日负荷电流如图3所示。
2、提取用户典型日负荷用电曲线
采用均值滤波法对该用户负荷数据进行非线性平滑处理。图4为某一天负荷曲线经均值滤波处理前后的对比图。滤波后的数据进行自适应余弦 K-means聚类,由于本文要提取用户典型的用电行为特征曲线,当提取的某类曲线的天数小于10天时并不具备典型性,因此将初始聚类簇k值的搜索结束阈值α设置为10,搜索出聚类簇k值范围为2~11,按照公式(1~4)分别计算不同k下的聚类平均轮廓系数SC和DBI指标构建评价矩阵X,其聚类平均轮廓系数SC和正向化后的DBI指标分别如图5所示。由图6可知,当聚类数k=5时综合评分最高,最终选取聚类数k=5的聚类结果,其用户的典型中心特征曲线如图7所示。
3、异常检测模型构建及检测结果
提取该用户聚类中365天用电数据与5类典型曲线的余弦相似度构建孤立森林异常检测模型,其孤立森林参数如下:采用bootstrap采样法随机选取128 天数据;构建T=100棵孤立树模型。计算孤立森林模型的平均分割路径长度 c(n)=10.9542,将用户从2019年1月1日后每日实时用电数据放入孤立森林异常检测模型计算异常评分s,该用户1~3月份未发现用电异常,4月份1~15 日的异常评分s如图8所示。该用户在2019年4月3日的异常评分s=0.912>0.8,判断其在该天用电行为发生异常,经电力公司有关部门查证后发现该空巢老人用户在凌晨4点左右因电闸出现问题而发生断电,电力维修人员及时帮助其修理电闸并重新改修了电路,从而消除了用电安全隐患。该用户当天用电曲线如图9所示。
以上结合附图对本发明的具体实施方式进行了详细说明,已经体现出本发明实质性特点和进步,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。

Claims (7)

1.一种基于机器学习算法的空巢用户用电异常检测方法,其特征在于,包括以下步骤:
(1)利用政府社会信息系统获得准确空巢用户标签列表,通过用电采集系统获取用户整年日负荷用电数据;
(2)采用均值滤波法对该用户日负荷数据进行非线性平滑处理;
(3)采用自适应余弦K-means算法对平滑处理后的负荷数据进行聚类,自动寻找聚类效果最优的聚类数k;
(4)计算聚类后每个簇的聚类中心曲线作为该用户典型日负荷用电曲线;
(5)计算步骤(3)中样本与每个簇的聚类中心的余弦相似度构建异常检测模型数据集;
(6)基于异常检测模型数据集构建无监督孤立森林异常用电检测模型;
(7)利用步骤(6)的异常用电检测模型对用户新用电数据进行异常检测。
2.根据权利要求1所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:自适应余弦K-means算法包括以下步骤:
a)设提取的用户用电数据集D={d1,d2,…dn}∈Rs,即D为具有n维的s元数据集合,n为用户往日用电天数,s为用户每天96点的负荷电流数据;
b)进行自动搜索最优聚类数目k,首先确定聚类初始簇k值范围,以初始聚类数k=2进行余弦K-means聚类;
c)计算每类中的样本数Pi,若Pi不小于阈值α,则令聚类数k=k+1重新聚类,直至任意Pi小于阈值α时停止聚类,设此时聚类簇k值范围为2~N;
d)针对不同聚类数k=1,2…N,分别计算其平均轮廓系数SC和DBI指标;
平均轮廓系数SC:
Figure FDA0002847361550000011
式中ai表示样本i到同簇其它样本的平均距离;bi表示样本i到非同簇其它样本的平均距离的最小值;qi为该向量i的轮廓系数;N为样本个数;Q为平均轮廓系数。
聚类DBI指标:
Figure FDA0002847361550000012
式中k为聚类数,avg(dbi)为第i类簇中所有样本到聚类中心的平均距离,Dij为第i类和第j类簇聚类中心距离。
e)将DBI指标按照公式(3~4)进行正向化处理后构建评价指标矩阵X;
DBI=max(DBI)-DBI (3)
Figure FDA0002847361550000021
f)对评价指标矩阵X进行公式(5)标准化操作得到zij,并找出每列最大值Z+和最小值Z-。
Figure FDA0002847361550000022
g)按照公式(6)计算聚类数目为k=i(i=1,2,…N)时的综合评价得分fi
Figure FDA0002847361550000023
式中,0≤fi≤1,fi越大代表聚类效果越好,选取fi最大时的i值作为最佳聚类数k。
3.根据权利要求2所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:在步骤a)中余弦K-means聚类算法步骤如下:
1)首先定义聚类的余弦相似度指标,其计算公式如下:
Figure FDA0002847361550000024
式中A={xi|i=1,2,…,n}与B(yi|i=1,2,…,n)为两条用电曲线向量。
2)对聚类中心初始化,为了避免因初始化中心选择不当而导致K-means陷入局部最优的情况出现,随机选取了k个余弦相似度距离较远的样本d1,d2,…dk∈Rs作为初始聚类中心。
3)计算剩余样本与初始聚类中心之间余弦相似度,将其归类到相似度最近的簇中,按照公式(8)将每个簇的平均向量作为新的聚类中心Cj(j=1,2,…,k)。
Figure FDA0002847361550000031
式中,nj为簇j的样本数,di为属于类Cj的样本。
4)重复步骤3)不断迭代,直至准则函数SEE收敛,计算公式为:
Figure FDA0002847361550000032
4.根据权利要求1所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:在步骤(6)中构建无监督孤立森林异常用电检测模型步骤如下:
a)计算数据集D中每日用电曲线与k类典型曲线的余弦相似度构建异常检测模型数据集In×k
b)输入孤立森林模型参数:孤立森林数量(T),采集样本数量(Ψ);
c)从数据集In×k采用bootstrap采样法随机选取Ψ个样本作为子样本数据集;
d)在当前数据集随机选取一个特征维度B及分割点b,分割点b介于特征维度B的最大值与最小值之间。基于当前分割点b,将维度B中数据大于b的放入左节点,反之放入右节点;
e)重复上述步骤(1~3)构建T个随机不相关孤立树模型,将其组合为孤立森林异常检测模型;
f)计算孤立森林平均分割路径长度c(n)作为度量待测样本是否异常的标准化长度。
g)计算用户新样本数据x的在孤立森林中平均分割路径长度E(h(x));
h)计算测样本x的异常分值s(x),计算公式如下:
Figure FDA0002847361550000033
式中,当E(h(x))→0时,即待测样本的异常分数s→1,其异常程度越大;当E(h(x))→n-1时,s→0,待测样本的异常程度越小,本文将用户待测用电数据异常分数s>0.8时判断该用电用户行为发生异常。
5.根据权利要求4所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:在步骤f)中,对于由n个数据样本所构成的孤立森林模型,其平均分割路径长度c(n)计算公式如下:
Figure FDA0002847361550000034
式中H(n-1)可用ln(n-1)+ζ估计,ζ为欧拉常数。
6.根据权利要求4所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:在步骤g)中,待测样本数据x在当前孤立树下分割次数即为分割路径长度h(x),E(h(x))即为在T棵孤立树下的平均路径长度,其计算公式如下:
Figure FDA0002847361550000041
7.根据权利要求4所述的基于机器学习算法的空巢用户用电异常检测方法,其特征在于:在步骤h)中,通过计算用户新日负荷用电数据的疑似异常用电得分s,完成对空巢老人的日常用电安全进行实时检测和报警。
CN202011514652.9A 2020-12-21 2020-12-21 一种基于机器学习算法的空巢用户用电异常检测方法 Withdrawn CN113112374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011514652.9A CN113112374A (zh) 2020-12-21 2020-12-21 一种基于机器学习算法的空巢用户用电异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011514652.9A CN113112374A (zh) 2020-12-21 2020-12-21 一种基于机器学习算法的空巢用户用电异常检测方法

Publications (1)

Publication Number Publication Date
CN113112374A true CN113112374A (zh) 2021-07-13

Family

ID=76710169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011514652.9A Withdrawn CN113112374A (zh) 2020-12-21 2020-12-21 一种基于机器学习算法的空巢用户用电异常检测方法

Country Status (1)

Country Link
CN (1) CN113112374A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113762373A (zh) * 2021-08-30 2021-12-07 广东电网有限责任公司 一种负荷特性的异常识别方法、装置、电子设备及介质
CN113780452A (zh) * 2021-09-16 2021-12-10 国网北京市电力公司 独居群体的监控方法、监控装置以及电子设备
CN113884734A (zh) * 2021-10-27 2022-01-04 广东电网有限责任公司 一种非侵入式用电异常诊断方法及装置
CN114241229A (zh) * 2022-02-21 2022-03-25 中煤科工集团西安研究院有限公司 一种电性成像结果中异常体边界智能识别方法
CN114661783A (zh) * 2022-03-02 2022-06-24 华南师范大学 一种基于用电行为的生活状态检测方法
CN115034282A (zh) * 2022-04-13 2022-09-09 国家电网有限公司信息通信分公司 异常数据检测模型的构建方法、异常数据检测方法及系统
CN116911806A (zh) * 2023-09-11 2023-10-20 湖北华中电力科技开发有限责任公司 基于互联网+的电力企业能源信息管理系统
CN117740811A (zh) * 2024-02-20 2024-03-22 广东格绿朗节能科技有限公司 一种新能源汽车遮阳篷性能检测方法、系统及存储介质
CN117851836A (zh) * 2024-03-05 2024-04-09 浙江普康智慧养老产业科技有限公司 一种用于养老信息服务系统的数据智能分析方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113762373A (zh) * 2021-08-30 2021-12-07 广东电网有限责任公司 一种负荷特性的异常识别方法、装置、电子设备及介质
CN113762373B (zh) * 2021-08-30 2024-07-16 广东电网有限责任公司 一种负荷特性的异常识别方法、装置、电子设备及介质
CN113780452A (zh) * 2021-09-16 2021-12-10 国网北京市电力公司 独居群体的监控方法、监控装置以及电子设备
CN113780452B (zh) * 2021-09-16 2024-06-14 国网北京市电力公司 独居群体的监控方法、监控装置以及电子设备
CN113884734B (zh) * 2021-10-27 2024-04-19 广东电网有限责任公司 一种非侵入式用电异常诊断方法及装置
CN113884734A (zh) * 2021-10-27 2022-01-04 广东电网有限责任公司 一种非侵入式用电异常诊断方法及装置
CN114241229A (zh) * 2022-02-21 2022-03-25 中煤科工集团西安研究院有限公司 一种电性成像结果中异常体边界智能识别方法
CN114661783A (zh) * 2022-03-02 2022-06-24 华南师范大学 一种基于用电行为的生活状态检测方法
CN115034282A (zh) * 2022-04-13 2022-09-09 国家电网有限公司信息通信分公司 异常数据检测模型的构建方法、异常数据检测方法及系统
CN116911806B (zh) * 2023-09-11 2023-11-28 湖北华中电力科技开发有限责任公司 基于互联网+的电力企业能源信息管理系统
CN116911806A (zh) * 2023-09-11 2023-10-20 湖北华中电力科技开发有限责任公司 基于互联网+的电力企业能源信息管理系统
CN117740811B (zh) * 2024-02-20 2024-04-30 广东格绿朗节能科技有限公司 一种新能源汽车遮阳篷性能检测方法、系统及存储介质
CN117740811A (zh) * 2024-02-20 2024-03-22 广东格绿朗节能科技有限公司 一种新能源汽车遮阳篷性能检测方法、系统及存储介质
CN117851836A (zh) * 2024-03-05 2024-04-09 浙江普康智慧养老产业科技有限公司 一种用于养老信息服务系统的数据智能分析方法
CN117851836B (zh) * 2024-03-05 2024-05-28 浙江普康智慧养老产业科技有限公司 一种用于养老信息服务系统的数据智能分析方法

Similar Documents

Publication Publication Date Title
CN113112374A (zh) 一种基于机器学习算法的空巢用户用电异常检测方法
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
WO2021189729A1 (zh) 复杂关系网络的信息分析方法、装置、设备及存储介质
CN112383052B (zh) 基于电力物联网的电网故障修复方法和装置
CN108985632A (zh) 一种基于孤立森林算法的用电数据异常检测模型
CN111367777B (zh) 告警处理的方法、装置、设备及计算机可读存储介质
CN106485089A (zh) 谐波用户典型工况的区间参数获取方法
CN114723285B (zh) 一种电网设备安全性评估预测方法
CN111950585A (zh) 一种基于XGBoost的地下综合管廊安全状况评估方法
CN104809255A (zh) 一种负荷形态获取方法和系统
CN109273096A (zh) 一种基于机器学习的药品风险分级评估方法
CN115798724B (zh) 一种基于人体无创采集数据的人体指标异常分析方法
CN110795690A (zh) 风电场运行异常数据检测方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112308341A (zh) 电力数据的处理方法和装置
CN116404186A (zh) 一种功率型锂锰电池生产系统
CN115965135A (zh) 基于朴素贝叶斯分类的新能源预测误差建模方法及系统
CN116401561A (zh) 一种基于局部时域特征的设备级运行状态序列的时间关联聚类方法
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN115130847A (zh) 一种设备画像建模方法及系统
CN113096792B (zh) 一种基于机器学习的智能健康监测预警方法及系统
CN116993165B (zh) 一种儿童果蔬汁的安全性评价与风险预测方法及系统
CN112487991B (zh) 一种基于特征自学习的高精度负荷辨识方法及系统
CN102930007A (zh) 大面积停电应急处理中的用户复电紧急程度分类方法
CN111239484A (zh) 一种非居民用户非侵入式负荷用电信息采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210713

WW01 Invention patent application withdrawn after publication