CN111984629A - 多维场景下基于数据挖掘的台区线损率标准库构建方法 - Google Patents

多维场景下基于数据挖掘的台区线损率标准库构建方法 Download PDF

Info

Publication number
CN111984629A
CN111984629A CN202010895216.4A CN202010895216A CN111984629A CN 111984629 A CN111984629 A CN 111984629A CN 202010895216 A CN202010895216 A CN 202010895216A CN 111984629 A CN111984629 A CN 111984629A
Authority
CN
China
Prior art keywords
line loss
loss rate
data
standard library
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010895216.4A
Other languages
English (en)
Other versions
CN111984629B (zh
Inventor
陈光宇
徐嘉杰
张仰飞
郝思鹏
刘海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Heyuan Electric Power Industry Co ltd
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202010895216.4A priority Critical patent/CN111984629B/zh
Publication of CN111984629A publication Critical patent/CN111984629A/zh
Application granted granted Critical
Publication of CN111984629B publication Critical patent/CN111984629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明公开了多维场景下基于数据挖掘的台区线损率标准库构建方法,包括步骤:获取台区的线损率数据;根据季节、节假日以及特殊节假日的规则设定场景标签;采取缺失值填补众数的原则进行缺失值的预处理;改进3‑σ去噪法剔除异常值;分别提取具有相同场景标签的线损率数据;基于轮廓系数和卡林斯基‑哈拉巴斯指数确定最佳聚类数;K‑means聚类;基于动态簇类质心下降法确定标准库区间的上下限;基于确定区间属性值相似度合并标准库,得到多维场景下的台区线损率标准库。本发明考虑了季节和节假日等因素的影响,精细划分成各场景下的线损率标准库模型,提高了线损异常辨识的准确性。

Description

多维场景下基于数据挖掘的台区线损率标准库构建方法
技术领域
本发明属于台区故障辨识技术领域,具体涉及多维场景下基于数据挖掘的台区线损率标准库构建方法。
背景技术
随着智能电表的推广、用电信息系统的建设,使得数据的完整性和实时性较以前有了较大的提高,线损业务管理条件越来越完善。得益于全面拓展的数据应用,台区异常线损率的精准定位技术不断走向智能化,促进深化同期线损系统应用,推进电网高质量发展。
现有的台区线损率标准库建立方法,在划分程度和影响因素的考虑等方面存在一些缺陷。一是没有考虑到“一区一库”的划分方法对于不断复杂的用户用电系统具有较强的局限性,大部分情况下只能粗略辨识异常线损率;二是台区线损率的波动受到季节、节假日等多种因素的影响,需考虑多维场景下标准库的精细划分与建立,目前台区线损率标准库的建立方法忽略了对历史数据的分析和挖掘,降低了线损异常辨识的准确性。
发明内容
本发明针对现有技术中的不足,提供提供多维场景下基于数据挖掘的台区线损率标准库构建方法,本发明在获取台区的线损率数据的基础上,分别采用缺失值填补众数和改进3-σ去噪法对原始数据预处理;同时,根据季节、节假日以及特殊节假日的规则设定场景标签;分别提取具有相同场景标签的线损率数据;基于轮廓系数和CHI系数确定最佳聚类数,并进行K-means聚类;基于动态簇类质心下降法确定标准库区间的上下限;基于确定区间属性值相似度合并标准库,从而得到多维场景下的台区线损率标准库。
为实现上述目的,本发明采用以下技术方案:多维场景下基于数据挖掘的台区线损率标准库构建方法,包括以下步骤:
S1、获取台区的线损率数据;
S2、根据季节、节假日以及特殊节假日的规则设定场景标签;
S3、采取缺失值填补众数的原则进行缺失值的预处理;
S4、基于改进3-σ去噪法剔除异常值;
S5、分别提取具有相同场景标签的线损率数据;
S6、基于轮廓系数和卡林斯基-哈拉巴斯指数确定最佳聚类数k;
S7、K-means聚类;
S8、基于动态簇类质心下降法确定标准库区间的上下限;
S9、基于确定区间N属性值相似度合并标准库,得到多维场景下的台区线损率标准库。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1中的台区线损率是用于判断台区是否存在异常的依据,亦是用于建立台区线损率标准库的基础,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式:
Figure BDA0002658249630000021
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
进一步地,步骤S3中的线损率数据缺失值的预处理包括:
将数据严重缺失的用户的缺失数据不作处理,直接将其判定为异常用户;对于分散、缺失较少的用电数据进行异常值处理,使用skleam中填补缺失值专用的Impute模块对获取的原始线损率采用众数填补,使数据适应模型并且匹配模型的需求。
进一步地,步骤S4中,改进3-σ去噪是指假设一组检测数据中只含有随机误差,需要对其进行计算得到标准偏差,按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,需要将含有该误差的数据进行剔除。3-σ法则下的数值分布为:
Figure BDA0002658249630000022
式中,X为台区线损率数据,μ代表台区线损率的均值,σ代表台区线损率的标准差。
Y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
进一步地,步骤S4中,基于改进3-σ去噪法剔除台区线损率的异常值包括如下步骤:
S41、计算需要检验的数据列的平均值
Figure BDA0002658249630000025
和标准差sN
S42、比较数据列的每个值与平均值的偏差是否超过标准差的3倍,如果超过3倍,则为异常值,评判规则如下:
Figure BDA0002658249630000023
其中,x为线损率的实际值;
Figure BDA0002658249630000024
为线损率数据列的平均值;sN为线损率数据列的标准差;
S43、剔除异常值,得到规范的数据,转入步骤S41;
S44、不断迭代N次步骤S41-S43,依据迭代次数N和规范数据量的学习曲线,确定最佳样本量。
进一步地,步骤S5中建立台区线损率标准库考虑到场景的多维性质,需按照步骤S2的规则设定场景标签,将具有相同场景标签所对应的线损率分别存放至集合Wi,i∈[0,8],分别研究不同场景下线损率的分布情况,以便于对同一特征下数据进行K-means聚类以及生成台区的标准库。
进一步地,步骤S6中,K-means的目标是确保“簇内差异小,簇外差异大”,即完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标,针对每个样本来定义的,能够同时衡量:
1)样本与其自身所在的簇中的其他样本的相似度a,等于样本与同一簇中所有其他点之间的平均距离;
2)样本与其他簇中的样本的相似度b,等于样本与下一个最近的簇中的所有点之间的平均距离。
根据聚类的要求“簇内差异小,簇外差异大”,理想情况下b永远大于a,并且大得越多越好。
单个样本的轮廓系数计算为:
Figure BDA0002658249630000031
上式可以被解析为:
Figure BDA0002658249630000032
故轮廓系数范围为(-1,1),其中值越接近1表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似;当样本点与簇外的样本更相似时,轮廓系数就为负;当轮廓系数为0时,则代表两个簇中的样本相似度一致,两个簇本应该是一个簇。因此轮廓系数越接近1聚类效果越好,负数则表示聚类效果非常差。
除了轮廓系数可以评估聚类模型,卡林斯基-哈拉巴斯指数(CHI),也被称为方差比标准也是一种聚类模型评估指标。CHI指数越高越好,对于有k个簇的聚类,轮廓系数和卡林斯基-哈拉巴斯指标s(k)写作如下公式:
Figure BDA0002658249630000041
其中,N为数据集中的样本量,k为簇的个数,Bk是组间离散矩阵,即不同簇之间的协方差矩阵,Wk是簇内离散矩阵,即一个簇内数据的协方差矩阵,Tr表示矩阵的迹。数据之间的离散程度越高,协方差矩阵的迹就会越大。组内离散程度低,协方差的迹就会越小,Tr(Wk)也就越小,同时,组间离散程度大,协方差的迹也会越大,Tr(Bk)就越大,因此CHI指标越高越好。
在sklearn中使用模块metrics中的类silhouette_score来计算轮廓系数,它返回的是一个数据集中,所有样本的轮廓系数的均值。同时在metrics模块中存在类silhouette_sample,它的参数与轮廓系数一致,但返回的是数据集中每个样本自己的轮廓系数。
进一步地,步骤S7中依据已知的最佳聚类数k对集合Wi,i∈[0,8]进行K-means聚类,具体过程如下:
S71、随机抽取k个样本作为最初的质心;
S72、开始循环;
S73、将每个样本点分配到离他们最近的质心,生成k个簇;
S74、对于每个簇,计算所有被分配到该簇的样本点的平均值作为新的质心;
S75、当质心的位置不再发生变化,迭代停止,聚类完成。
K-means聚类追求“簇内差异小,簇外差异大”的原则,而这个“差异”就是通过该样本点到其所在簇的质心距离来衡量的。令x表示簇中的一个样本点,μ表示该簇中的质心,n表示每个样本中的特征数目,i表示组成点x的每个特征,则该样本点到质心的距离可以由以下距离来度量:
Figure BDA0002658249630000042
Figure BDA0002658249630000043
Figure BDA0002658249630000051
d1,d2,d3分别为欧几里得距离,曼哈顿距离和余弦距离。
K-means算法是一个计算成本很大的算法,K-means算法的平均复杂度是O(k*n*T),其中k是超参数,n是整个数据集中的样本量,T是所需要的迭代次数。在最坏的情况下,K-means的复杂度可写作
Figure BDA0002658249630000052
其中p是特征总数。
进一步地,步骤S8中,标准库的建立需要确定其区间的上限和下限,单纯依据簇类个案数目进行划分区间,会导致数据流失较多,故提出一种基于簇类个案数目的质心平移法,使标准库的区间尽可能多的囊括线损率数据且满足数据在此区间内集中分布。选取标准库区间下限y_lower和上限y_upper的方法为:针对不同簇类的个案数目进行升序排列,保留个案数目最多的簇类元素,此时标准库下限取个案数目位于第2的簇类i质心横坐标经相对偏移量
Figure BDA0002658249630000053
下移后的新坐标,下限取个案数目位于第3的簇类j质心横坐标经相对偏移量
Figure BDA0002658249630000054
上移后的新坐标,此时区间的上限和下限为:
Figure BDA0002658249630000055
Figure BDA0002658249630000056
其中y_lower为标准库区间下限,y_upper为标准库区间上限,cti为第i类簇的质心横坐标,ctj为第j类簇的质心横坐标,mi为第i类簇的个案数目,mj为第j类簇的个案数目,n为数据集中的样本容量。
进一步地,步骤S9中,确定区间N是指有确定下界n1和上界n2的区间,内部数据分布可以是离散的,也可以是连续的,记为:N[n1,n2];采用区间相对长度法来计算2个区间属性值间的相似度,该方法是通过计算2个区间长度的重叠率作为区间间的相似度,具有计算简单和准确的优点。
设A、B是2个确定区间,则A、B的相似度定义为:
Figure BDA0002658249630000061
其中L表示相应区间的长度,(A∩B)表示A、B的重叠区间;
设置相似度阈值为α,将各场景线损率区间属性的相似度大于阈值的区间按交集原则进行合并,最终得到多维场景下的台区线损率标准库。
本发明的有益效果是:本发明考虑了在获取台区的线损率数据的基础上,提出了一种采用缺失值填补众数的原则对原始数据缺失值预处理,解决了数据形式的不规范化;同时,提出了一种基于改进3-σ去噪法对噪声值进行预处理;考虑了多维场景下线损率的特性不同,提前根据季节、节假日以及特殊节假日的规则设定场景标签,并分别提取具有相同场景标签的线损率数据;提出了一种基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数,从而使K-means聚类效果达到最佳;提出了一种基于动态簇类质心下降法确定各类场景标准库区间的上下限,解决了仅仅依赖簇类个案数目确定区间导致的数据流失;提出了一种基于确定区间属性值相似度合并标准库,从而得到多维场景下的台区线损率标准库;本发明实现了对台区线损率标准库的精细划分,提高了线损异常辨识的准确性。
附图说明
图1是本发明的台区线损率标准库构建方法流程图。
图2是本发明的2016年样本线损率去噪前后对比图。
图3是本发明的迭代次数与剩余样本量的学习曲线图。
图4是本发明的簇类数目与样本轮廓系数均值的变化趋势图。
图5是本发明基于簇类个案数目的质心平移法建立第0类场景标准库图。
图6是本发明合并台区线损率标准库区间的柱状图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如附图所示,本发明提供了多维场景下基于数据挖掘的台区线损率标准库构建方法,包括如下步骤:
S1、获取台区的线损率数据,采用数据预处理的方法对原始数据进行清洗。
台区线损率是用于判断台区是否存在异常的依据,亦是用于建立台区线损率标准库的基础,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式:
Figure BDA0002658249630000071
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
由于用电数据在采集过程中频次、精度的缺乏,造成了数据存在部分缺失值、噪声值,会干扰数据分析的过程,影响最终的识别效果,本发明对原始用电数据的预处理以缺失值和异常值的处理为主。同时,用电数据指标有很多不同的量纲单位,他们之间可能存在着倍数级的数值大小差异,这种差异不利于数据分析以及模型的建立,因此需要对用电数据进行规范化的处理,去除其量纲形式,转化为更加规范化的数据形式。
S11、采取缺失值填补众数的原则对数据缺失值进行预处理;
在原始用电数据中,尤其是在抽取用户用电量的过程中,发现存在数据缺失的情况。如果将这些缺失数据直接抛弃,将会影响到模型的训练过程,以及供电量的计算结果,导致最终的分析效果有误差,形成异常用电用户的漏判误判。处理缺失值的时候,可将数据严重缺失的用户的缺失数据不作处理,直接将其判定为异常用户,对于分散、缺失较少的用电数据进行异常值处理。
选取XX台区2016年~2019年的线损率数据作为样本,观察各年线损率采集过程中存在的缺失值数目,2016年~2019年线损率缺失值统计如表一所示:
表一
年份 线损率缺失值数目
2016 3
2017 2
2018 1
2019 1
由于数据缺失较少,在机器学习的数据预处理中,通常直接删除特征矩阵中含有缺失值的一行。本发明需要通过每个日期的线损率数据建立台区线损率标准库,故不能直接删除缺失值数据,利用众数填补缺失值。
S12、基于改进3-σ去噪法剔除台区线损率的异常值;
改进3-σ去噪是指假设一组检测数据中只含有随机误差,需要对其进行计算得到标准偏差,按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,需要将含有该误差的数据进行剔除。3-σ法则下的数值分布为:
Figure BDA0002658249630000081
式中,X为台区线损率数据,μ代表台区线损率的均值,σ代表台区线损率的标准差。
Y的取值几乎全部集中在(μ-3σ,μ+3σσ)区间内,超出这个范围的可能性仅占不到0.3%。
基于改进3-σ去噪法剔除台区线损率的异常值包括如下步骤:
S121、计算需要检验的数据列的平均伯
Figure BDA0002658249630000082
和标准差sN,如表二所示:
表二
Figure BDA0002658249630000083
S122、比较数据列的每个值与平均值的偏差是否超过标准差的3倍,如果超过3倍,则为异常值;评判规则如下:
Figure BDA0002658249630000084
x为线损率的实际值;
Figure BDA0002658249630000085
为线损率数据列的平均值;sN为线损率数据列的标准差。
S123、剔除异常值,得到规范的数据,转入步骤S121;
选取XX台区2016年的线损率数据作为样本,分析改进3-σ去噪法对于异常值辨识的效果,去噪前后对比图如图2所示。由图2可知,通过改进3-σ去噪法对于异常值进行一次筛选的效果并不理想,依然存在尖峰值,对于台区线损率标准库的建立具有一定的偏差。
S124、不断迭代N次,依据迭代次数和剩余样本量的学习曲线,确定最佳样本量。
由图3可知,当迭代次数N大于等于4时,剩余样本量的变化趋势趋于平稳,即3-σ去噪法最佳迭代次数为4,2016年台区线损率去噪后的最佳样本量为350。
S2、根据季节、节假日以及特殊节假日的规则设定场景标签,分别提取具有相同标签的所有线损率数据。
由于本发明考虑多维场景下利用线损率数据建立台区线损率标准库,故分别对近4年的日期按照季节、节假日以及特殊节假日的规则分别设定场景标签,具体规则如下表三所示:
表三
Figure BDA0002658249630000091
将具有相同标签所对应的线损率分别存放至集合Wi,i∈[0,8],分别研究不同场景下线损率的分布情况,以便于台区线损率标准库的生成。
S3、基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数。
K-means的目标是确保“簇内差异小,簇外差异大”,即完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标,针对每个样本来定义的,能够同时衡量:
1)样本与其自身所在的簇中的其他样本的相似度a,等于样本与同一簇中所有其他点之间的平均距离;
2)样本与其他簇中的样本的相似度b,等于样本与下一个最近的簇中的所有点之间的平均距离。
根据聚类的要求“簇内差异小,簇外差异大”,理想情况下b永远大于a,并且大得越多越好。
单个样本的轮廓系数计算为:
Figure BDA0002658249630000092
上式可以被解析为:
Figure BDA0002658249630000093
故轮廓系数范围为(-1,1),其中值越接近1表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似;当样本点与簇外的样本更相似时,轮廓系数就为负;当轮廓系数为0时,则代表两个簇中的样本相似度一致,两个簇本应该是一个簇。因此轮廓系数越接近1聚类效果越好,负数则表示聚类效果非常差。
除了轮廓系数可以评估聚类模型,卡林斯基-哈拉巴斯指数(CHI),也被称为方差比标准也是一种聚类模型评估指标。CHI指数越高越好,对于有k个簇的聚类而言,CHI指标s(k)写作如下公式:
Figure BDA0002658249630000101
其中,N为数据集中的样本量,k为簇的个数,Bk是组间离散矩阵,即不同簇之间的协方差矩阵,Wk是簇内离散矩阵,即一个簇内数据的协方差矩阵,Tr表示矩阵的迹。数据之间的离散程度越高,协方差矩阵的迹就会越大。组内离散程度低,协方差的迹就会越小,Tr(Wk)也就越小,同时,组间离散程度大,协方差的迹也会越大,Tr(Bk)就越大,因此CHI指标越高越好。
在sklearn中使用模块metrics中的类silhouette_score来计算轮廓系数,它返回的是一个数据集中,所有样本的轮廓系数的均值。同时在metrics模块中存在类silhouette_sample,它的参数与轮廓系数一致,但返回的是数据集中每个样本自己的轮廓系数。
选取存放第0类场景的线损率集合作为样本,分析簇类数目与样本轮廓系数均值的变化趋势关系。
由图4可知,当簇类数等于4时,轮廓系数值最高,故最佳聚类数为4,此时CHI值为329.89。
S4、基于K-means聚类和动态簇类质心平移法分别建立9个不同场景下的台区线损率标准库。
根据最佳聚类数k=4找出k个最优的质心,并将离这些质心最近的数据分别分配到这些质心代表的簇中去。K-means的具体过程如下:
S41、随机抽取k=4个样本作为最初的质心;
S42、开始循环;
S43、将每个样本点分配到离他们最近的质心,生成k=4个簇;
S44、对于每个簇,计算所有被分配到该簇的样本点的平均值作为新的质心;
S45、当质心的位置不再发生变化,迭代停止,聚类完成。
K-means聚类追求“簇内差异小,簇外差异大”的原则,而这个“差异”就是通过该样本点到其所在簇的质心距离来衡量的。令x表示簇中的一个样本点,μ表示该簇中的质心,n表示每个样本中的特征数目,i表示组成点x的每个特征,则该样本点到质心的距离可以由以下距离来度量:
Figure BDA0002658249630000111
Figure BDA0002658249630000112
Figure BDA0002658249630000113
d1,d2,d3分别为欧几里得距离,曼哈顿距离和余弦距离。
K-means算法是一个计算成本很大的算法,K-means算法的平均复杂度是O(k*n*T),其中k是超参数,即所需要输入的簇数4,n是整个数据集中的样本量,T是所需要的迭代次数。在最坏的情况下,K-means的复杂度可写作
Figure BDA0002658249630000114
其中p是特征总数。
在簇数为最佳聚类数k=4时,第0类场景线损率的分布图如图5所示。
每个簇类中的个案数目如表四所示:
表四
Figure BDA0002658249630000115
标准库的建立需要确定其区间的上限和下限,单纯依据簇类个案数目进行划分区间,会导致数据流失较多,故提出一种基于簇类个案数目的质心平移法,使标准库的区间尽可能多的囊括线损率数据且满足数据在此区间内集中分布。
针对第0类场景聚类结果进行分析,保留个案数目最多的簇类2,剔除个案数目最少的簇类4,选取区间下限y_lower和上限y_upper的方案为:标准库上限取簇类3质心经相对偏移量
Figure BDA0002658249630000121
上移后的新坐标,下限取簇类1经相对偏移量
Figure BDA0002658249630000122
下移后的新坐标,此时区间的上限和下限为:
Figure BDA0002658249630000123
Figure BDA0002658249630000124
其中y_lower为标准库区间下限,y_upper为标准库区间上限,cti为第i类簇的质心横坐标,ctj为第j类簇的质心横坐标,mi为第i类簇的个案数目,mj为第j类簇的个案数目,n为数据集中的样本容量。
S5、基于确定区间属性值相似度合并标准库,得到多维场景下台区线损率标准库。
确定区间N是指有确定下界n1和上界n2的区间,内部数据分布可以是离散的,也可以是连续的,记为:N[n1,n2]。采用区间相对长度法来计算2个区间属性值间的相似度,该方法是通过计算2个区间长度的重叠率作为区间间的相似度,具有计算简单和准确的优点。设A、B 是2个确定区间,则A、B的相似度定义为:
Figure BDA0002658249630000125
其中L表示相应区间的长度,A∩B表示A、B的重叠区间。
计算各场景线损率区间属性的相似度结果如表五所示:
表五
Figure BDA0002658249630000126
Figure BDA0002658249630000131
设置相似度阈值为α=0.8,由上表可知sim(0,1)=0.941>α,sim(2,6)=0.808>α,故将场景0和1、2和6的标准库区间按交集原则进行合并。
本发明多维场景下台区线损率最终标准库分布如表六所示:
表六
场景标签 标准库下限y_lower 标准库上限y_upper
0、1 0.88 3.62
3 1.05 4.36
4 0.84 2.76
5 1.01 2.82
2、6 0.73 2.20
7 0.56 3.09
8 0.95 2.87
综上,本发明考虑了在获取台区的线损率数据的基础上,提出了一种采用缺失值填补众数的原则对原始数据缺失值预处理,解决了数据形式的不规范化;同时,提出了一种基于改进3-σ去噪法对噪声值进行预处理;考虑了多维场景下线损率的特性不同,提前根据季节、节假日以及特殊节假日的规则设定场景标签,并分别提取具有相同场景标签的线损率数据;提出了一种基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数,从而使K-means 聚类效果达到最佳;提出了一种基于动态簇类质心下降法确定各类场景标准库区间的上下限,解决了仅仅依赖簇类个案数目确定区间导致的数据流失;提出了一种基于确定区间属性值相似度合并标准库,从而得到多维场景下的台区线损率标准库;本发明实现了对台区线损率标准库的精细划分,提高了线损异常辨识的准确性。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.多维场景下基于数据挖掘的台区线损率标准库构建方法,其特征在于,包括以下步骤:
S1、获取台区的线损率数据;
S2、根据季节、节假日以及特殊节假日的规则设定场景标签;
S3、采取缺失值填补众数的原则进行缺失值的预处理;
S4、基于改进3-σ去噪法剔除异常值;
S5、分别提取具有相同场景标签的线损率数据;
S6、基于轮廓系数和卡林斯基-哈拉巴斯指数确定最佳聚类数k;
S7、K-means聚类;
S8、基于动态簇类质心下降法确定标准库区间的上下限;
S9、基于确定区间N属性值相似度合并标准库,得到多维场景下的台区线损率标准库。
2.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S1中的台区线损率的值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式:
Figure FDA0002658249620000011
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
3.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S3中的线损率数据缺失值的预处理包括:
将数据严重缺失的用户的缺失数据不作处理,直接将其判定为异常用户;对于分散、缺失较少的用电数据进行异常值处理,使用sklearn中填补缺失值专用的Impute模块对获取的原始线损率采用众数填补,使数据适应模型并且匹配模型的需求。
4.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S4中,3-σ法则下的数值分布为:
Figure FDA0002658249620000012
式中,X为台区线损率数据,μ代表台区线损率的均值,σ代表台区线损率的标准差。
5.如权利要求4所述的台区线损率标准库构建方法,其特征在于,步骤S4中,基于改进3-σ去噪法剔除台区线损率的异常值包括如下步骤:
S41、计算需要检验的数据列的平均值
Figure FDA0002658249620000013
和标准差sN
S42、比较数据列的每个值与平均值的偏差是否超过标准差的3倍,如果超过3倍,则为异常值,评判规则如下:
Figure FDA0002658249620000021
其中,x为线损率的实际值;
Figure FDA0002658249620000022
为线损率数据列的平均值;sN为线损率数据列的标准差;
S43、剔除异常值,得到规范的数据,转入步骤S41;
S44、不断迭代N次步骤S41-S43,依据迭代次数N和规范数据量的学习曲线,确定最佳样本量。
6.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S5中建立台区线损率标准库考虑到场景的多维性质,需按照步骤S2的规则设定场景标签,将具有相同场景标签所对应的线损率分别存放至集合Wi,i∈[0,8],分别研究不同场景下线损率的分布情况。
7.如权利要求6所述的台区线损率标准库构建方法,其特征在于,步骤S6中,对于有k个簇的聚类,轮廓系数和卡林斯基-哈拉巴斯指标s(k)写作如下公式:
Figure FDA0002658249620000023
其中,N为数据集中的样本量,k为簇的个数,Bk是组间离散矩阵,即不同簇之间的协方差矩阵,Wk是簇内离散矩阵,即一个簇内数据的协方差矩阵,Tr表示矩阵的迹。
8.如权利要求6所述的台区线损率标准库构建方法,其特征在于,步骤S7中依据已知的最佳聚类数k对集合Wi,i∈[0,8]进行K-means聚类,具体过程如下:
S71、随机抽取k个样本作为最初的质心;
S72、开始循环;
S73、将每个样本点分配到离他们最近的质心,生成k个簇;
S74、对于每个簇,计算所有被分配到该簇的样本点的平均值作为新的质心;
S75、当质心的位置不再发生变化,迭代停止,聚类完成。
9.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S8中,选取标准库区间下限y_lower和上限y_upper的方法为:针对不同簇类的个案数目进行升序排列,保留个案数目最多的簇类元素,此时标准库下限取个案数目位于第2的簇类i质心横坐标经相对偏移量
Figure FDA0002658249620000031
下移后的新坐标,下限取个案数目位于第3的簇类j质心横坐标经相对偏移量
Figure FDA0002658249620000032
上移后的新坐标,此时区间的上限和下限为:
Figure FDA0002658249620000033
Figure FDA0002658249620000034
其中y_lower为标准库区间下限,y_upper为标准库区间上限,cti为第i类簇的质心横坐标,ctj为第j类簇的质心横坐标,mi为第i类簇的个案数目,mj为第j类簇的个案数目,n为数据集中的样本容量。
10.如权利要求1所述的台区线损率标准库构建方法,其特征在于,步骤S9中,确定区间N是指有确定下界n1和上界n2的区间,记为:N[n1,n2];采用区间相对长度法来计算2个区间属性值间的相似度,该方法是通过计算2个区间长度的重叠率作为区间间的相似度,
设A、B是2个确定区间,则A、B的相似度定义为:
Figure FDA0002658249620000035
其中L表示相应区间的长度,(A∩B)表示A、B的重叠区间;
设置相似度阈值为α,将各场景线损率区间属性的相似度大于阈值的区间按交集原则进行合并,最终得到多维场景下的台区线损率标准库。
CN202010895216.4A 2020-08-31 2020-08-31 多维场景下基于数据挖掘的台区线损率标准库构建方法 Active CN111984629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895216.4A CN111984629B (zh) 2020-08-31 2020-08-31 多维场景下基于数据挖掘的台区线损率标准库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895216.4A CN111984629B (zh) 2020-08-31 2020-08-31 多维场景下基于数据挖掘的台区线损率标准库构建方法

Publications (2)

Publication Number Publication Date
CN111984629A true CN111984629A (zh) 2020-11-24
CN111984629B CN111984629B (zh) 2021-03-23

Family

ID=73440422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895216.4A Active CN111984629B (zh) 2020-08-31 2020-08-31 多维场景下基于数据挖掘的台区线损率标准库构建方法

Country Status (1)

Country Link
CN (1) CN111984629B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662326A (zh) * 2023-07-26 2023-08-29 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法
CN116933107A (zh) * 2023-07-24 2023-10-24 水木蓝鲸(南宁)半导体科技有限公司 数据分布边界确定方法、装置、计算机设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007028720A (ja) * 2005-07-13 2007-02-01 Hitachi Ltd 電力供給調整時損失予測システム、電力供給調整時損失予測方法、電力供給調整時損失予測プログラム
CN102567412A (zh) * 2010-12-31 2012-07-11 上海久隆信息工程有限公司 一种计算机辅助电网负荷分析的信息处理方法
KR20120094337A (ko) * 2011-02-16 2012-08-24 한국에너지기술연구원 계통연계형 태양광발전 시스템의 손실 산출방법 및 그 장치
CN103488867A (zh) * 2013-07-16 2014-01-01 深圳市航天泰瑞捷电子有限公司 一种用电异常用户自动筛选方法
CN104112345A (zh) * 2014-07-29 2014-10-22 深圳华越南方电子技术有限公司 远程无线抄表系统的数据监测方法
CN106557992A (zh) * 2016-11-25 2017-04-05 国网河南省电力公司周口供电公司 基于多因素影响的运行控制线损分析方法
CN108133304A (zh) * 2017-09-30 2018-06-08 国网上海市电力公司 一种典型低压台区线损率标杆值的测算方法
CN108345981A (zh) * 2017-12-28 2018-07-31 国网上海市电力公司 一种基于负荷分类的典型台区线损率标杆值计算方法及其应用
CN108593990A (zh) * 2018-06-04 2018-09-28 国网天津市电力公司 一种基于电能用户用电行为模式的窃电检测方法和应用
CN108764501A (zh) * 2018-05-30 2018-11-06 国网上海市电力公司 一种线损问题的分析及消缺处理方法
CN109272176A (zh) * 2018-12-10 2019-01-25 贵州电网有限责任公司 利用K-means聚类算法对台区线损率预测计算方法
CN111444241A (zh) * 2020-03-26 2020-07-24 南京工程学院 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007028720A (ja) * 2005-07-13 2007-02-01 Hitachi Ltd 電力供給調整時損失予測システム、電力供給調整時損失予測方法、電力供給調整時損失予測プログラム
CN102567412A (zh) * 2010-12-31 2012-07-11 上海久隆信息工程有限公司 一种计算机辅助电网负荷分析的信息处理方法
KR20120094337A (ko) * 2011-02-16 2012-08-24 한국에너지기술연구원 계통연계형 태양광발전 시스템의 손실 산출방법 및 그 장치
CN103488867A (zh) * 2013-07-16 2014-01-01 深圳市航天泰瑞捷电子有限公司 一种用电异常用户自动筛选方法
CN104112345A (zh) * 2014-07-29 2014-10-22 深圳华越南方电子技术有限公司 远程无线抄表系统的数据监测方法
CN106557992A (zh) * 2016-11-25 2017-04-05 国网河南省电力公司周口供电公司 基于多因素影响的运行控制线损分析方法
CN108133304A (zh) * 2017-09-30 2018-06-08 国网上海市电力公司 一种典型低压台区线损率标杆值的测算方法
CN108345981A (zh) * 2017-12-28 2018-07-31 国网上海市电力公司 一种基于负荷分类的典型台区线损率标杆值计算方法及其应用
CN108764501A (zh) * 2018-05-30 2018-11-06 国网上海市电力公司 一种线损问题的分析及消缺处理方法
CN108593990A (zh) * 2018-06-04 2018-09-28 国网天津市电力公司 一种基于电能用户用电行为模式的窃电检测方法和应用
CN109272176A (zh) * 2018-12-10 2019-01-25 贵州电网有限责任公司 利用K-means聚类算法对台区线损率预测计算方法
CN111444241A (zh) * 2020-03-26 2020-07-24 南京工程学院 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG YONGPING ETC: "Line Losses Management System of Distribution Networks Based on Local Area Network", 《2011 ASIA-PACIFIC POWER AND ENERGY ENGINEERING CONFERENCE》 *
陈洪涛 等: "基于k-means聚类算法的低压台区线损异常辨别方法", 《南方电网技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933107A (zh) * 2023-07-24 2023-10-24 水木蓝鲸(南宁)半导体科技有限公司 数据分布边界确定方法、装置、计算机设备和存储介质
CN116662326A (zh) * 2023-07-26 2023-08-29 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法
CN116662326B (zh) * 2023-07-26 2023-10-20 江西省检验检测认证总院计量科学研究院 多能源品种数据清洗采集方法

Also Published As

Publication number Publication date
CN111984629B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN111444241B (zh) 一种基于数据挖掘的台区线损异常关联用户精准定位方法
CN111984629B (zh) 多维场景下基于数据挖掘的台区线损率标准库构建方法
CN106384282A (zh) 构建决策模型的方法和装置
CN116166960B (zh) 用于神经网络训练的大数据特征清洗方法及系统
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN103345760B (zh) 一种医学图像对象形状模板标记点的自动生成方法
CN109597757B (zh) 一种基于多维时间序列熵的软件网络间相似度的度量方法
CN117313016B (zh) 一种新能源电力交易现货电价价差数据处理方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN115145906A (zh) 一种面向结构化数据的预处理和补全方法
CN113516192A (zh) 一种用户用电异动识别方法、系统、装置及存储介质
CN113343056A (zh) 一种用户用气量异常检测方法及装置
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
CN115187127B (zh) 基于空间分析的详细规划分级管理智能检测方法
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN109919626A (zh) 一种高风险银行卡的识别方法及装置
CN116089405A (zh) 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法
CN112732773B (zh) 一种继电保护缺陷数据的唯一性校核方法及系统
CN113792105A (zh) 一种基于半变异函数的地理空间点数据采样方法
CN109101998B (zh) 一种基于居民地上下文空间信息的聚类方法及系统
CN114564521A (zh) 一种基于聚类算法确定农机工作时间段的方法及系统
CN109977787B (zh) 一种多视角的人体行为识别方法
CN112256766A (zh) 用于能源采集终端的用电行为分析方法
Guo et al. A Hybrid clustering method for bridge structure health monitoring
CN106650642B (zh) 基于标记分布的解决类别缺失问题的人类年龄自动估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230308

Address after: No. 11, Fengling Villa, Chunxi Street, Gaochun District, Nanjing City, Jiangsu Province, 211399

Patentee after: Nanjing Heyuan Electric Power Industry Co.,Ltd.

Address before: 1 No. 211167 Jiangsu city of Nanjing province Jiangning Science Park Hongjing Road

Patentee before: NANJING INSTITUTE OF TECHNOLOGY