CN110852906A - 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 - Google Patents

一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 Download PDF

Info

Publication number
CN110852906A
CN110852906A CN201911134369.0A CN201911134369A CN110852906A CN 110852906 A CN110852906 A CN 110852906A CN 201911134369 A CN201911134369 A CN 201911134369A CN 110852906 A CN110852906 A CN 110852906A
Authority
CN
China
Prior art keywords
data
matrix
module
dimensional random
random matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911134369.0A
Other languages
English (en)
Other versions
CN110852906B (zh
Inventor
万忠兵
白泰
谢智
汪佳
王家驹
张福州
刘晨
张然
徐严军
孙晓璐
夏桦裕
薛莉思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marketing Service Center Of State Grid Sichuan Electric Power Co
Original Assignee
Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority to CN201911134369.0A priority Critical patent/CN110852906B/zh
Publication of CN110852906A publication Critical patent/CN110852906A/zh
Application granted granted Critical
Publication of CN110852906B publication Critical patent/CN110852906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于高维随机矩阵进行窃电嫌疑识别的方法,包括以下步骤:S1:获取时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据用以构建原始数据集;S2:基于S1中原始数据集内的数据构建样本数据集;S3:用S2中的样本数据构建高维随机矩阵D;S4:分析S3中构建的高维随机矩阵D,判断样本数据是否异常,若数据异常,则判定用户存在窃电行为,否则,用户不存在窃电行为。本发明的目的在于提供一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统,该方法/系统不仅可以对居民窃电行为进行自动检测,判断出用户是否存在窃电行为,同时还可以提供用户窃电的具体时间段。

Description

一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统
技术领域
本发明涉及电力计量及稽查技术领域,尤其涉及一种基于高维随机矩阵进行窃电嫌疑识别的方法。
背景技术
传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障。
目前虽然已有居民用户窃电监测系统,通过安装在表箱入口的三相传感器采集电表箱的三相总电流、电压信息,并通过安装在表内的接收器计算得到表箱入口处用电数据,监听表箱内各电表的用电数据并进行对比,进而发现该表箱用户用电是否正常,以及该表箱中某一相用户用电量是否正常。这一发现用电异常功能比传统方法进步很大,能进一步挖掘窃电嫌疑,能指导现场查证,但不能提供窃电时间,对现代软件窃电、遥控窃电等其它方式也无能为力。
发明内容
本发明的目的在于提供一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统,该方法或系统不仅可以对居民窃电行为进行自动检测,判断出用户是否存在窃电行为,同时还可以提供用户窃电的具体时间段。
本发明通过下述技术方案实现:
一种基于高维随机矩阵进行窃电嫌疑识别的方法,包括以下步骤:
S1:获取时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据用以构建原始数据集;
S2:基于S1中原始数据集内的数据构建样本数据集;
S3:用S2中的样本数据构建高维随机矩阵D;
S4:分析S3中构建的高维随机矩阵D,判断样本数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为。
本发明利用岭回归模型计算出外部环境因素(累计最高气温、累计平均气温、累计最低气温、各类节假及其累计时长、台区线损率)对居民日电量大小的影响权重,作为识别窃电嫌疑的动态监测指标。理想状态下,上述多个外部环境影响程度作为可测状态参量保持基本恒定不变,仅在均值水平附近正态随机波动,且这种随机波动过程是平稳的。若第i个居民用户的某些可测状态参量的测量值出现异常波动,不再是平稳正态随机波动,因此可以识别出该系统哪些用户的状态出现异常变化;结合多个时间窗口的高维随机分析结果,依据M-P定律可以精确确定某一用户在何时开始发生异常变化。因此,可实现对用户嫌疑窃电行为的自动检测分析。
进一步地,所述S2中样本数据集内的数据包括时间区段T内日线损率、累计最高气温值、累计最低气温值、累计平均气温值,以及对各类节假日进行编码处理,并计算出各类累计节假日小时数。
进一步地,所述S3具体包括:
S31:对S2中样本数据集内的数据进行预处理,包括,数据清洗、缺失值处理以及归一化处理;
其中,数据清洗是清除掉不完整的数据记录、错误的数据以及超出3个标准差范围之外的异常值。
缺失值处理是针对日电量缺失值的处理过程,如果缺失数量连续超过5天以上,作为无效数据进行剔除;如果缺失日电量数据不超过5个,则依照上个月同比电量、当月其它剩余日电量数据进行向后的时间序列预测;然后再结合包含有缺失值的时间窗口之后的日电量数据进行向前的时间序列预测;最后将前后两次的预测值进行平均,作为最终的拟合值。
归一化处理是指将原始数据线性化的方法转换到[0,1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。本发明采用的具体方法是极差变换法,公式为:
Figure BDA0002279181780000021
其中,x′表示转换后的数值,x表示转换前的数值,min(x)表示原始数据中最小的数值,max(x)表示原始数据中最大的数值。
S32:将预处理后的数据按滑动时间窗口分隔为n份数据集,在本实施例中,第1份数据集内的数据为时间区段T内第1天至第100天的所有数据,第2份数据集内的数据为时间区段T内第2天至第101天的所有数据,第3份数据集内的数据为时间区段T内第3天至第102天的所有数据,以此类推,直至n≥20。
S33:对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β:
微分可得:
Figure BDA0002279181780000032
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵;
S34:将n份数据集所计算出的估计系数β作为影响因子指标数据集,构建高维随机矩阵D:
Figure BDA0002279181780000033
其中,M表示居民表电能数据,t表示不同时间点的个数。
进一步地,所述S4具体包括:
S41:对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
Figure BDA0002279181780000034
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差;
此时,标准化高维随机矩阵Dstd为非-Hermitian矩阵,Dstd满足如下性质:
(a)样本协方差矩阵S的极限谱分布满足标准M-P律;
(b)奇异值等价矩阵通过Haar酉矩阵变换得到标准化乘积矩阵满足单环定律。
S42:计算出S41中标准化高维随机矩阵Dstd的样本协方差矩阵S,并得出S矩阵的特征值λ的谱分布,通过M-P定律判断样本数据有无异常;
Figure BDA0002279181780000035
其中,m表示高维随机矩阵D的行数。
(1)谱分布的M-P定律判断方式:正常状态下,Dstd矩阵和其样本协方差矩阵S的特征值分布的概率密度函数为fMP(λ):
Figure BDA0002279181780000041
其中,
Figure BDA0002279181780000042
表示特征值的理论上界,
Figure BDA0002279181780000043
表示特征值的理论下界,σ2表示刻度参数,一般情况下,σ2=1,c=M/T∈(0,1]为高维随机矩阵D的维容比。
(2)当有异常事件发生时,系统的随机性被破坏,导致这些特征值不满足统计规律,将超过正常的统计边界范围,定义S矩阵最大特征值的阈值函数为:
Figure BDA0002279181780000044
当λmax≥γ时,可判断有异常事件发生。
一种基于高维随机矩阵进行窃电嫌疑识别的系统,包括:
数据输入模块,用于输入时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据,并将输入的所有数据传输至数据处理模块;
数据处理模块,用于接收、处理数据输入模块传输的数据,将处理后的数据用以构建高维随机矩阵D,并将构建好的高维随机矩阵D传输至数据分析模块;
数据分析模块,用于接收数据处理模块传输的高维随机矩阵D,判断数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为,并将判定结果实时传输至数据输出模块;
数据输出模块,用于将数据分析模块传输的判定结果对外输出。
进一步地,所述数据处理模块包括数据筛选模块、数据预处理模块以及数据建模模块;
数据筛选模块,用于接收数据输入模块传输的所有数据,对接收的所有数据进行数据类型和数据大小的筛选以构建样本数据集,并将构建的样本数据集传输给数据预处理模块;
数据预处理模块,用于接收数据筛选模块传输的样本数据集,并对样本数据集内的数据进行数据清洗、缺失值处理以及归一化处理,将处理后的数据传输给数据建模模块;
数据建模模块,用于接收数据预处理模块处理后的数据,将接收的数据构建高维随机矩阵D,并将已构建好的高维随机矩阵D传输给数据分析模块。
进一步地,所述样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。
进一步地,所述数据建模模块包括数据建模模块A和数据建模模块B;
数据建模模块A,用以接收预处理模块传输的数据,将接收的数据按滑动时间窗口分隔为n份数据集,其中,n≥20,对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β,并将与n份数据集相对应的估计系数β传输给数据建模模块B;
Figure BDA0002279181780000051
微分可得:
Figure BDA0002279181780000052
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵;
数据建模模块B,用以接收数据建模模块A传输的与n份数据集相对于的估计系数β,将各个估计系数β作为影响因子指标数据集,构建高维随机矩阵D,同时将构建好的高维随机矩阵D传输至数据分析模块;
Figure BDA0002279181780000053
其中,M表示居民表电能数据,t表示不同时间点的个数。
进一步地,所述数据分析模块包括数据分析模块A和数据分析模块B;
数据分析模块A,用以接收数据建模模块B传输的高维随机矩阵D,对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
Figure BDA0002279181780000054
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差,并将标准高维随机矩阵Dstd传输给数据分析模块B;
数据分析模块B,用以接收数据分析模块A传输的标准高维随机矩阵Dstd,计算出标准高维随机矩阵Dstd的样本协方差矩阵S,得出S矩阵特征值λ的谱分布,通过M-P定律判断样本数据有无异常,若数据异常,则判定用户存在窃电行为,否则,用户不存在窃电行为;同时数据分析模块B将判断结果传输至数据输出模块
Figure BDA0002279181780000061
其中,m表示高维随机矩阵D的行数。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明主要基于岭回归模型计算出用户周围环境影响因素对居民用电行为的影响特征,然后利用这些稳定性特征指标构建高维随机矩阵,得出其矩阵特征值的谱分布和谱密度函数,通过M-P定律判断样本数据有无异常;并通过最大特征值确定用户用电异常时间区段,进而完成对居民窃电行为的自动检测分析。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种具体实施方式的流程框图;
图2为本发明一种具体实施方式岭迹法曲线图;
图3为本发明一种具体实施方式的交叉验证流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1-3所示,
一种基于高维随机矩阵进行窃电嫌疑识别的方法,包括以下步骤:
S1:从电力计量自动化系统、营销系统有选择性地按照台区单位抽取时间区段T内所有居民用户日电量数据,通过爬虫方式获取外部网站公开的当地气温数据,结合节假日数据用以构建原始数据集;
S2:基于S1中原始数据集内的数据构建样本数据集;
S3:用S2中的样本数据构建高维随机矩阵D;
S4:分析S3中构建的高维随机矩阵D,判断样本数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为。
本发明利用岭回归模型计算出外部环境因素(累计最高气温、累计平均气温、累计最低气温、各类节假及其累计时长、台区线损率)对居民日电量大小的影响权重,作为识别窃电嫌疑的动态监测指标。理想状态下,上述多个外部环境影响程度作为可测状态参量保持基本恒定不变,仅在均值水平附近正态随机波动,且这种随机波动过程是平稳的。若第i个居民用户的某些可测状态参量的测量值出现异常波动,不再是平稳正态随机波动,因此可以识别出该系统哪些用户的状态出现异常变化;结合多个时间窗口的高维随机分析结果,依据M-P定律可以精确确定某一用户在何时开始发生异常变化。因此,可实现对用户嫌疑窃电行为的自动检测分析。
所述S2中样本数据集内的数据包括:日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。
所述S3具体包括:
S31:对S2中样本数据集内的数据进行预处理,包括,数据清洗、缺失值处理以及归一化处理;
其中,数据清洗是清除掉不完整的数据记录、错误的数据以及超出3个标准差范围之外的异常值。
缺失值处理是针对日电量缺失值的处理过程,如果缺失数量连续超过5天以上,作为无效数据进行剔除;如果缺失日电量数据不超过5个,则依照上个月同比电量、当月其它剩余日电量数据进行向后的时间序列预测;然后再结合包含有缺失值的时间窗口之后的日电量数据进行向前的时间序列预测;最后将前后两次的预测值进行平均,作为最终的拟合值。
归一化处理是指将原始数据线性化的方法转换到[0,1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。本发明采用的具体方法是极差变换法,公式为:
Figure BDA0002279181780000071
其中,x′表示转换后的数值,x表示转换前的数值,min(x)表示原始数据中最小的数值,max(x)表示原始数据中最大的数值。
S32:将预处理后的数据按滑动时间窗口分隔为n份数据集,在本实施例中,第一份数据为时间其中,n≥20;
S33:对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β:
Figure BDA0002279181780000081
微分可得:
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵。
其中,惩罚系数k由MSE最小原则和交叉验证确定。
MSE最小原则,即均方误差最小原则,是指参数估计值与参数真值之差平方的期望值。MSE的值越小,说明预测模型描述实验数据具有更好的精确度。岭回归的目的是减少MSE,所以关键点是找出合适的K值,使得MSE
Figure BDA0002279181780000083
达到最小化。对于K值的确定在实际应用中较为困难,一般常用岭迹法,主要通过将β(k)的分类βi(k)的岭迹画在同一图中,如图2所示,从图中选择尽可能小的K值,使得各回归系数的岭估计值大体稳定,即各分量在图上的岭迹曲线趋于平行于X轴。
交叉验证的基本思想是将原始数据进行分组,一部分做为训练集,另一部分做为验证集。首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。如图3所示,通过不同的组合方式训练出多个模型。通过对每个模型进行测试,计算当前参数下模型准确度的最高的进行作为最优模型,这个衡量标准通常选用准确度均值作为标准进行衡量,使用交叉验证获取最佳参数。
S34:将n份数据集所计算出的估计系数β作为影响因子指标数据集,构建高维随机矩阵D:
Figure BDA0002279181780000091
其中,M表示居民表电能数据,t表示不同时间点的个数。
进一步地,所述S4具体包括:
S41:对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
Figure BDA0002279181780000092
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差;
此时,标准化高维随机矩阵Dstd为非-Hermitian矩阵,Dstd满足如下性质:
(a)样本协方差矩阵S的极限谱分布满足标准M-P律;
(b)奇异值等价矩阵通过Haar酉矩阵变换得到标准化乘积矩阵满足单环定律。
S42:计算出S41中标准化高维随机矩阵Dstd的样本协方差矩阵S,并得出S矩阵的特征值λ的谱分布,通过M-P定律判断样本数据有无异常;
Figure BDA0002279181780000093
其中,m表示高维随机矩阵D的行数。
(1)谱分布的M-P定律判断方式:正常状态下,Dstd矩阵和其样本协方差矩阵S的特征值分布的概率密度函数为fMP(λ):
Figure BDA0002279181780000094
其中,
Figure BDA0002279181780000095
表示特征值的理论上界,
Figure BDA0002279181780000096
表示特征值的理论下界,σ2表示刻度参数,一般情况下,σ2=1,c=M/T∈(0,1]为高维随机矩阵D的维容比。
(2)当有异常事件发生时,系统的随机性被破坏,导致这些特征值不满足统计规律,将
超过正常的统计边界范围,定义S矩阵最大特征值的阈值函数为:
当λmaxγ时,可判断有异常事件发生。
一种基于高维随机矩阵进行窃电嫌疑识别的系统,包括:
数据输入模块,用于输入时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据,并将输入的所有数据传输至数据处理模块;
数据处理模块,用于接收、处理数据输入模块传输的数据,将处理后的数据用以构建高维随机矩阵D,并将构建好的高维随机矩阵D传输至数据分析模块;
数据分析模块,用于接收数据处理模块传输的高维随机矩阵D,判断数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为,并将判定结果实时传输至数据输出模块;
数据输出模块,用于将数据分析模块传输的判定结果对外输出。
本发明利用岭回归模型计算出外部环境因素(累计最高气温、累计平均气温、累计最低气温、各类节假及其累计时长、台区线损率)对居民日电量大小的影响权重,作为识别窃电嫌疑的动态监测指标。理想状态下,上述多个外部环境影响程度作为可测状态参量保持基本恒定不变,仅在均值水平附近正态随机波动,且这种随机波动过程是平稳的。若第i个居民用户的某些可测状态参量的测量值出现异常波动,不再是平稳正态随机波动,因此可以识别出该系统哪些用户的状态出现异常变化;结合多个时间窗口的高维随机分析结果,依据M-P定律可以精确确定某一用户在何时开始发生异常变化。因此,可实现对居民用户嫌疑窃电行为分析的精确定位。
所述数据处理模块包括数据筛选模块、数据预处理模块以及数据建模模块;
数据筛选模块,用于接收数据输入模块传输的所有数据,对接收的所有数据进行数据类型和数据大小的筛选以构建样本数据集,并将构建的样本数据集传输给数据预处理模块;
数据预处理模块,用于接收数据筛选模块传输的样本数据集,并对样本数据集内的数据进行数据清洗、缺失值处理以及归一化处理,将处理后的数据传输给数据建模模块;
其中,数据清洗是清除掉不完整的数据记录、错误的数据以及超出3个标准差范围之外的异常值。
缺失值处理是针对日电量缺失值的处理过程,如果缺失数量连续超过5天以上,作为无效数据进行剔除;如果缺失日电量数据不超过5个,则依照上个月同比电量、当月其它剩余日电量数据进行向后的时间序列预测;然后再结合包含有缺失值的时间窗口之后的日电量数据进行向前的时间序列预测;最后将前后两次的预测值进行平均,作为最终的拟合值。
归一化处理是指将原始数据线性化的方法转换到[0,1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。本实施例采用的具体方法是极差变换法,公式为:
Figure BDA0002279181780000111
其中,x′表示转换后的数值,x表示转换前的数值,min(x)表示原始数据中最小的数值,max(x)表示原始数据中最大的数值。
数据建模模块,用于接收数据预处理模块处理后的数据,将接收的数据构建高维随机矩阵D,并将已构建好的高维随机矩阵D传输给数据分析模块。
所述样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。
所述数据建模模块包括数据建模模块A和数据建模模块B;
数据建模模块A,用以接收预处理模块传输的数据,将接收的数据按滑动时间窗口分隔为n份数据集,其中,n≥20,对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β,并将与n份数据集相对应的估计系数β传输给数据建模模块B;
微分可得:
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵。
其中,惩罚系数k由MSE最小原则和交叉验证确定。
MSE最小原则,即均方误差最小原则,是指参数估计值与参数真值之差平方的期望值。MSE的值越小,说明预测模型描述实验数据具有更好的精确度。岭回归的目的是减少MSE,所以关键点是找出合适的K值,使得
Figure BDA0002279181780000114
达到最小化。对于K值的确定在实际应用中较为困难,一般常用岭迹法,主要通过将β(k)的分类βi(k)的岭迹画在同一图中,如图2所示,从图中选择尽可能小的K值,使得各回归系数的岭估计值大体稳定,即各分量在图上的岭迹曲线趋于平行于X轴。
交叉验证的基本思想是将原始数据进行分组,一部分做为训练集,另一部分做为验证集。首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。如图3所示,通过不同的组合方式训练出多个模型。通过对每个模型进行测试,计算当前参数下模型准确度的最高的进行作为最优模型,这个衡量标准通常选用准确度均值作为标准进行衡量,使用交叉验证获取最佳参数。
数据建模模块B,用以接收数据建模模块A传输的与n份数据集相对于的估计系数β,将各个估计系数β作为影响因子指标数据集,构建高维随机矩阵D,同时将构建好的高维随机矩阵D传输至数据分析模块;
其中,M表示居民表电能数据,t表示不同时间点的个数。
所述数据分析模块包括数据分析模块A和数据分析模块B;
数据分析模块A,用以接收数据建模模块B传输的高维随机矩阵D,对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差。
此时,标准化高维随机矩阵Dstd为非-Hermitian矩阵,Dstd满足如下性质:
(a)样本协方差矩阵S的极限谱分布满足标准M-P律;
(b)奇异值等价矩阵通过Haar酉矩阵变换得到标准化乘积矩阵满足单环定律。
数据分析模块A将所述标准高维随机矩阵Dstd传输给数据分析模块B;
数据分析模块B,用以接收数据分析模块A传输的标准高维随机矩阵Dstd,计算出标准高维随机矩阵Dstd的样本协方差矩阵S,得出S矩阵特征值λ的谱分布,通过M-P定律判断样本数据有无异常,若数据异常,则判定用户存在窃电行为,否则,用户不存在窃电行为;
Figure BDA0002279181780000123
其中,m表示高维随机矩阵D的行数;
(1)谱分布的M-P定律判断方式:正常状态下,Dstd矩阵和其样本协方差矩阵S的特征值分布的概率密度函数为fMP(λ):
Figure BDA0002279181780000131
其中,
Figure BDA0002279181780000132
表示特征值的理论上界,
Figure BDA0002279181780000133
表示特征值的理论下界,σ2表示刻度参数,一般情况下,σ2=1,c=M/T∈(0,1]为高维随机矩阵D的维容比。
(2)当有异常事件发生时,系统的随机性被破坏,导致这些特征值不满足统计规律,将超过正常的统计边界范围,定义S矩阵最大特征值的阈值函数为:
当λmax≥γ时,可判断有异常事件发生。
同时,数据分析模块B将判断结果传输至数据输出模块,数据输出模块对数据分析模块的判断结果进行输出。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于高维随机矩阵进行窃电嫌疑识别的方法,其特征在于,包括以下步骤:
S1:获取时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据用以构建原始数据集;
S2:基于S1中原始数据集内的数据构建样本数据集;
S3:用S2中的样本数据构建高维随机矩阵D;
S4:分析S3中构建的高维随机矩阵D,判断样本数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为。
2.根据权利要求1所述的一种基于高维随机矩阵进行窃电嫌疑识别的方法,其特征在于,所述S2中样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。
3.根据权利要求1所述的一种基于高维随机矩阵进行窃电嫌疑识别的方法,其特征在于,所述S3具体包括:
S31:对S2中样本数据集内的数据进行预处理,包括,数据清洗、缺失值处理以及归一化处理;
S32:将预处理后的数据按滑动时间窗口分隔为n份数据集,其中,n≥20;
S33:对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β:
Figure FDA0002279181770000011
微分可得:
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵;
S34:将n份数据集所计算出的估计系数β作为影响因子指标数据集,构建高维随机矩阵D:
Figure FDA0002279181770000021
其中,M表示居民表电能数据,t表示不同时间点的个数。
4.根据权利要求1所述的一种基于高维随机矩阵进行窃电嫌疑识别的方法,其特征在于,所述S4具体包括:
S41:对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
Figure FDA0002279181770000022
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差;
S42:计算出S41中高维随机矩阵D的样本协方差矩阵S,得出S矩阵特征值λ的谱分布,通过M-P定律判断样本数据有无异常,若数据异常,则判定用户存在窃电行为,否则,用户不存在窃电行为;
Figure FDA0002279181770000023
其中,m表示高维随机矩阵D的行数。
5.一种基于高维随机矩阵进行窃电嫌疑识别的系统,其特征在于,包括:
数据输入模块,用于输入时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据,并将输入的所有数据传输至数据处理模块;
数据处理模块,用于接收、处理数据输入模块传输的数据,将处理后的数据用以构建高维随机矩阵D,并将构建好的高维随机矩阵D传输至数据分析模块;
数据分析模块,用于接收数据处理模块传输的高维随机矩阵D,判断数据是否异常,若数据异常,则判定用户存在窃电行为,否则,判定用户不存在窃电行为,并将判定结果实时传输至数据输出模块;
数据输出模块,用于将数据分析模块传输的判定结果对外输出。
6.根据权利要求5所述的一种基于高维随机矩阵进行窃电嫌疑识别的系统,其特征在于,所述数据处理模块包括数据筛选模块、数据预处理模块以及数据建模模块;
数据筛选模块,用于接收数据输入模块传输的所有数据,对接收的所有数据进行数据类型和数据大小的筛选以构建样本数据集,并将构建的样本数据集传输给数据预处理模块;
数据预处理模块,用于接收数据筛选模块传输的样本数据集,并对样本数据集内的数据进行数据清洗、缺失值处理以及归一化处理,将处理后的数据传输给数据建模模块;
数据建模模块,用于接收数据预处理模块处理后的数据,将接收的数据构建高维随机矩阵D,并将已构建好的高维随机矩阵D传输给数据分析模块。
7.根据权利要求6所述的一种基于高维随机矩阵进行窃电嫌疑识别的系统,其特征在于,所述样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。
8.根据权利要求6-7中任意一个所述的一种基于高维随机矩阵进行窃电嫌疑识别的系统,其特征在于,所述数据建模模块包括数据建模模块A和数据建模模块B;
数据建模模块A,用以接收预处理模块传输的数据,将接收的数据按滑动时间窗口分隔为n份数据集,其中,n≥20,对n份数据集内的数据分别进行岭回归分析,获取与n份数据集相对应的估计系数β,并将与n份数据集相对应的估计系数β传输给数据建模模块B;
Figure FDA0002279181770000031
微分可得:
Figure FDA0002279181770000032
岭回归的估计系数β:
β=(HTH+K)-1HTY;
其中,φ表示岭回归的优化目标函数,Y表示日电量,HT表示对X矩阵进行标准化后的自变量矩阵,β表示估计系数,T表示矩阵的转置符号,K表示惩罚系数,C表示所有回归系数平方和的约束值,X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵;
数据建模模块B,用以接收数据建模模块A传输的与n份数据集相对于的估计系数β,将各个估计系数β作为影响因子指标数据集,构建高维随机矩阵D,同时将构建好的高维随机矩阵D传输至数据分析模块;
Figure FDA0002279181770000033
其中,M表示居民表电能数据,t表示不同时间点的个数。
9.根据权利要求8所述的一种基于高维随机矩阵进行窃电嫌疑识别的系统,其特征在于,所述数据分析模块包括数据分析模块A和数据分析模块B;
数据分析模块A,用以接收数据建模模块B传输的高维随机矩阵D,对高维随机矩阵D进行标准化,使标准化之后的矩阵满足:
Figure FDA0002279181770000041
其中,μ(βi)表示第i行数据的平均值,σ(βi)表示第i行数据的标准差;
同时数据分析模块A将标准高维随机矩阵Dstd传输给数据分析模块B;
数据分析模块B,用以接收数据分析模块A传输的标准高维随机矩阵Dstd,计算出标准高维随机矩阵Dstd的样本协方差矩阵S,得出S矩阵特征值λ的谱分布,通过M-P定律判断样本数据有无异常,若数据异常,则判定用户存在窃电行为,否则,用户不存在窃电行为,同时数据分析模块B将判断结果传输至数据输出模块;
Figure FDA0002279181770000042
其中,m表示高维随机矩阵D的行数。
CN201911134369.0A 2019-11-19 2019-11-19 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 Active CN110852906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911134369.0A CN110852906B (zh) 2019-11-19 2019-11-19 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911134369.0A CN110852906B (zh) 2019-11-19 2019-11-19 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统

Publications (2)

Publication Number Publication Date
CN110852906A true CN110852906A (zh) 2020-02-28
CN110852906B CN110852906B (zh) 2022-05-13

Family

ID=69602254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911134369.0A Active CN110852906B (zh) 2019-11-19 2019-11-19 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统

Country Status (1)

Country Link
CN (1) CN110852906B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190595A (zh) * 2021-04-20 2021-07-30 国网江苏省电力有限公司营销服务中心 一种小样本驱动的异常用电数据集的构建方法及模块
CN114154999A (zh) * 2021-10-27 2022-03-08 国网河北省电力有限公司营销服务中心 一种反窃电方法、装置、终端及存储介质
CN117559407A (zh) * 2023-11-15 2024-02-13 国网四川省电力公司营销服务中心 一种适用于新能源配网的异常用电行为定位方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120262898A1 (en) * 2011-04-18 2012-10-18 Sony Corporation Electro-optical device and electronic apparatus
CN103558432A (zh) * 2013-11-05 2014-02-05 国家电网公司 高压直接接入式窃电侦测装置
CN104407268A (zh) * 2014-11-27 2015-03-11 国家电网公司 基于电量、电压和电流异常分析的异常用电判断方法
CN107085653A (zh) * 2017-03-29 2017-08-22 国网上海市电力公司 一种数据驱动的防窃电实时诊断方法
CN108764603A (zh) * 2018-03-30 2018-11-06 广东电网有限责任公司 一种基于高维随机矩阵的用户窃电行为辨识方法
CN109597014A (zh) * 2018-11-30 2019-04-09 国网上海市电力公司 一种基于人工智能技术的电能表误差诊断方法
CN109977984A (zh) * 2018-11-06 2019-07-05 国网新疆电力有限公司电力科学研究院 基于支持向量机的窃电用户判断方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120262898A1 (en) * 2011-04-18 2012-10-18 Sony Corporation Electro-optical device and electronic apparatus
CN103558432A (zh) * 2013-11-05 2014-02-05 国家电网公司 高压直接接入式窃电侦测装置
CN104407268A (zh) * 2014-11-27 2015-03-11 国家电网公司 基于电量、电压和电流异常分析的异常用电判断方法
CN107085653A (zh) * 2017-03-29 2017-08-22 国网上海市电力公司 一种数据驱动的防窃电实时诊断方法
CN108764603A (zh) * 2018-03-30 2018-11-06 广东电网有限责任公司 一种基于高维随机矩阵的用户窃电行为辨识方法
CN109977984A (zh) * 2018-11-06 2019-07-05 国网新疆电力有限公司电力科学研究院 基于支持向量机的窃电用户判断方法
CN109597014A (zh) * 2018-11-30 2019-04-09 国网上海市电力公司 一种基于人工智能技术的电能表误差诊断方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MOHANPURKAR, MANISH 等: "Accommodating Unscheduled Flows in Electric Grids Using the Analytical Ridge Regression", 《IEEE TRANSACTIONS ON POWER SYSTEMS》 *
TAJEUNA, ETIENNE GAEL 等: "A Network-Based Approach to Enhance Electricity Load Forecasting", 《2018 18TH IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW)》 *
TAN, SONG 等: "Survey of Security Advances in Smart Grid: A Data Driven Approach", 《IEEE COMMUNICATIONS SURVEYS AND TUTORIALS》 *
张小斐 等: "图正则非线性岭回归模型的异常用电行为识别", 《计算机工程》 *
王珍: "云环境下家庭用户用电异常识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
王鹏 等: "基于高维随机矩阵的异常用电行为识别方法", 《广东电力》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190595A (zh) * 2021-04-20 2021-07-30 国网江苏省电力有限公司营销服务中心 一种小样本驱动的异常用电数据集的构建方法及模块
CN113190595B (zh) * 2021-04-20 2024-03-05 国网江苏省电力有限公司营销服务中心 一种小样本驱动的异常用电数据集的构建方法及装置
CN114154999A (zh) * 2021-10-27 2022-03-08 国网河北省电力有限公司营销服务中心 一种反窃电方法、装置、终端及存储介质
CN117559407A (zh) * 2023-11-15 2024-02-13 国网四川省电力公司营销服务中心 一种适用于新能源配网的异常用电行为定位方法

Also Published As

Publication number Publication date
CN110852906B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN117093879B (zh) 一种数据中心智能化运营管理方法及系统
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN110852906B (zh) 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
EP2595098A2 (en) Method and system for detecting an appliance based on users' feedback information
CN109085805B (zh) 一种基于多采样率因子分析模型的工业过程故障检测方法
CN113556629B (zh) 一种智能电表误差远程估计方法及装置
CN111967717A (zh) 一种基于信息熵值的数据质量评价方法
CN113554361B (zh) 一种综合能源系统数据处理计算方法及处理系统
CN112348290A (zh) 河流水质预测方法、装置、存储介质及设备
CN116231624A (zh) 用于评估光伏电站经济效益的光伏组件输出功率预测方法
CN117932501B (zh) 一种电能表运行状态管理方法和系统
CN112213687A (zh) 基于伪异常点辨识的关口电能表数据异常检测方法及系统
CN111898637A (zh) 一种基于ReliefF-DDC特征选择算法
CN115081331A (zh) 一种基于状态参数重构误差的风电机组运行状态异常检测方法
CN110826859A (zh) 一种基于日电量远程识别用户用电性质的方法及系统
CN116128690B (zh) 一种碳排放量成本值计算方法、装置、设备及介质
Allen et al. Assessing the calibration of multivariate probabilistic forecasts
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及系统
CN113793077B (zh) 一种配电网用户故障停电影响分析方法和系统
CN110232221A (zh) 大坝裂缝影响因素动态贡献率分析方法
CN111966966B (zh) 一种传感器测量误差模型参数可行域分析方法及系统
CN113836813A (zh) 一种基于数据分析的高炉风口漏水检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220706

Address after: Floor 1, No. 50, section 4, Renmin South Road, Wuhou District, Chengdu, Sichuan 610000

Patentee after: Marketing service center of State Grid Sichuan Electric Power Co.

Address before: 610000 1-7 25 Qinghua Road, Qingyang District, Chengdu, Sichuan, China 25

Patentee before: STATE GRID SICHUAN ELECTRIC POWER Research Institute