CN110852906A

CN110852906A - 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统

Info

Publication number: CN110852906A
Application number: CN201911134369.0A
Authority: CN
Inventors: 万忠兵; 白泰; 谢智; 汪佳; 王家驹; 张福州; 刘晨; 张然; 徐严军; 孙晓璐; 夏桦裕; 薛莉思
Original assignee: Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Current assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-02-28
Anticipated expiration: 2039-11-19
Also published as: CN110852906B

Abstract

本发明公开了一种基于高维随机矩阵进行窃电嫌疑识别的方法，包括以下步骤:S1：获取时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据用以构建原始数据集；S2：基于S1中原始数据集内的数据构建样本数据集；S3：用S2中的样本数据构建高维随机矩阵D；S4：分析S3中构建的高维随机矩阵D，判断样本数据是否异常，若数据异常，则判定用户存在窃电行为，否则，用户不存在窃电行为。本发明的目的在于提供一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统，该方法/系统不仅可以对居民窃电行为进行自动检测，判断出用户是否存在窃电行为，同时还可以提供用户窃电的具体时间段。

Description

一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统

技术领域

本发明涉及电力计量及稽查技术领域，尤其涉及一种基于高维随机矩阵进行窃电嫌疑识别的方法。

背景技术

传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障。

目前虽然已有居民用户窃电监测系统，通过安装在表箱入口的三相传感器采集电表箱的三相总电流、电压信息，并通过安装在表内的接收器计算得到表箱入口处用电数据，监听表箱内各电表的用电数据并进行对比，进而发现该表箱用户用电是否正常，以及该表箱中某一相用户用电量是否正常。这一发现用电异常功能比传统方法进步很大，能进一步挖掘窃电嫌疑，能指导现场查证，但不能提供窃电时间，对现代软件窃电、遥控窃电等其它方式也无能为力。

发明内容

本发明的目的在于提供一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统，该方法或系统不仅可以对居民窃电行为进行自动检测，判断出用户是否存在窃电行为，同时还可以提供用户窃电的具体时间段。

本发明通过下述技术方案实现：

一种基于高维随机矩阵进行窃电嫌疑识别的方法，包括以下步骤:

S1：获取时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据用以构建原始数据集；

S2：基于S1中原始数据集内的数据构建样本数据集；

S3：用S2中的样本数据构建高维随机矩阵D；

S4：分析S3中构建的高维随机矩阵D，判断样本数据是否异常，若数据异常，则判定用户存在窃电行为，否则，判定用户不存在窃电行为。

本发明利用岭回归模型计算出外部环境因素(累计最高气温、累计平均气温、累计最低气温、各类节假及其累计时长、台区线损率)对居民日电量大小的影响权重，作为识别窃电嫌疑的动态监测指标。理想状态下，上述多个外部环境影响程度作为可测状态参量保持基本恒定不变，仅在均值水平附近正态随机波动，且这种随机波动过程是平稳的。若第i个居民用户的某些可测状态参量的测量值出现异常波动，不再是平稳正态随机波动，因此可以识别出该系统哪些用户的状态出现异常变化；结合多个时间窗口的高维随机分析结果，依据M-P定律可以精确确定某一用户在何时开始发生异常变化。因此，可实现对用户嫌疑窃电行为的自动检测分析。

进一步地，所述S2中样本数据集内的数据包括时间区段T内日线损率、累计最高气温值、累计最低气温值、累计平均气温值，以及对各类节假日进行编码处理，并计算出各类累计节假日小时数。

进一步地，所述S3具体包括：

S31：对S2中样本数据集内的数据进行预处理，包括，数据清洗、缺失值处理以及归一化处理；

其中，数据清洗是清除掉不完整的数据记录、错误的数据以及超出3个标准差范围之外的异常值。

缺失值处理是针对日电量缺失值的处理过程，如果缺失数量连续超过5天以上，作为无效数据进行剔除；如果缺失日电量数据不超过5个，则依照上个月同比电量、当月其它剩余日电量数据进行向后的时间序列预测；然后再结合包含有缺失值的时间窗口之后的日电量数据进行向前的时间序列预测；最后将前后两次的预测值进行平均，作为最终的拟合值。

归一化处理是指将原始数据线性化的方法转换到[0,1]的范围，该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据，从而消除量纲和数量级影响，改变变量在分析中的权重来解决不同度量的问题。本发明采用的具体方法是极差变换法，公式为：

其中，x′表示转换后的数值，x表示转换前的数值，min(x)表示原始数据中最小的数值，max(x)表示原始数据中最大的数值。

S32：将预处理后的数据按滑动时间窗口分隔为n份数据集，在本实施例中，第1份数据集内的数据为时间区段T内第1天至第100天的所有数据，第2份数据集内的数据为时间区段T内第2天至第101天的所有数据，第3份数据集内的数据为时间区段T内第3天至第102天的所有数据，以此类推，直至n≥20。

S33：对n份数据集内的数据分别进行岭回归分析，获取与n份数据集相对应的估计系数β：

微分可得：

岭回归的估计系数β：

β＝(H^TH+K)^-1H^TY；

其中，φ表示岭回归的优化目标函数，Y表示日电量，H^T表示对X矩阵进行标准化后的自变量矩阵，β表示估计系数，T表示矩阵的转置符号，K表示惩罚系数，C表示所有回归系数平方和的约束值，X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵；

S34：将n份数据集所计算出的估计系数β作为影响因子指标数据集，构建高维随机矩阵D：

其中，M表示居民表电能数据，t表示不同时间点的个数。

进一步地，所述S4具体包括：

S41：对高维随机矩阵D进行标准化，使标准化之后的矩阵满足：

其中，μ(β_i)表示第i行数据的平均值，σ(β_i)表示第i行数据的标准差；

此时，标准化高维随机矩阵D_std为非-Hermitian矩阵，D_std满足如下性质：

(a)样本协方差矩阵S的极限谱分布满足标准M-P律；

(b)奇异值等价矩阵通过Haar酉矩阵变换得到标准化乘积矩阵满足单环定律。

S42：计算出S41中标准化高维随机矩阵D_std的样本协方差矩阵S，并得出S矩阵的特征值λ的谱分布，通过M-P定律判断样本数据有无异常；

其中，m表示高维随机矩阵D的行数。

(1)谱分布的M-P定律判断方式：正常状态下，D_std矩阵和其样本协方差矩阵S的特征值分布的概率密度函数为f_MP(λ)：

其中，

表示特征值的理论上界，

表示特征值的理论下界，σ²表示刻度参数，一般情况下，σ²＝1，c＝M/T∈(0，1]为高维随机矩阵D的维容比。

(2)当有异常事件发生时，系统的随机性被破坏，导致这些特征值不满足统计规律，将超过正常的统计边界范围，定义S矩阵最大特征值的阈值函数为：

当λ_max≥γ时，可判断有异常事件发生。

一种基于高维随机矩阵进行窃电嫌疑识别的系统，包括：

数据输入模块，用于输入时间区段T内所有居民用户日电量数据、当地气温数据以及节假日数据，并将输入的所有数据传输至数据处理模块；

数据处理模块，用于接收、处理数据输入模块传输的数据，将处理后的数据用以构建高维随机矩阵D，并将构建好的高维随机矩阵D传输至数据分析模块；

数据分析模块，用于接收数据处理模块传输的高维随机矩阵D，判断数据是否异常，若数据异常，则判定用户存在窃电行为，否则，判定用户不存在窃电行为，并将判定结果实时传输至数据输出模块；

数据输出模块，用于将数据分析模块传输的判定结果对外输出。

进一步地，所述数据处理模块包括数据筛选模块、数据预处理模块以及数据建模模块；

数据筛选模块，用于接收数据输入模块传输的所有数据，对接收的所有数据进行数据类型和数据大小的筛选以构建样本数据集，并将构建的样本数据集传输给数据预处理模块；

数据预处理模块，用于接收数据筛选模块传输的样本数据集，并对样本数据集内的数据进行数据清洗、缺失值处理以及归一化处理，将处理后的数据传输给数据建模模块；

数据建模模块，用于接收数据预处理模块处理后的数据，将接收的数据构建高维随机矩阵D，并将已构建好的高维随机矩阵D传输给数据分析模块。

进一步地，所述样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。

进一步地，所述数据建模模块包括数据建模模块A和数据建模模块B；

数据建模模块A，用以接收预处理模块传输的数据，将接收的数据按滑动时间窗口分隔为n份数据集，其中，n≥20，对n份数据集内的数据分别进行岭回归分析，获取与n份数据集相对应的估计系数β，并将与n份数据集相对应的估计系数β传输给数据建模模块B；

微分可得：

岭回归的估计系数β：

β＝(H^TH+K)^-1H^TY；

数据建模模块B，用以接收数据建模模块A传输的与n份数据集相对于的估计系数β，将各个估计系数β作为影响因子指标数据集，构建高维随机矩阵D，同时将构建好的高维随机矩阵D传输至数据分析模块；

其中，M表示居民表电能数据，t表示不同时间点的个数。

进一步地，所述数据分析模块包括数据分析模块A和数据分析模块B；

数据分析模块A，用以接收数据建模模块B传输的高维随机矩阵D，对高维随机矩阵D进行标准化，使标准化之后的矩阵满足：

其中，μ(β_i)表示第i行数据的平均值，σ(β_i)表示第i行数据的标准差，并将标准高维随机矩阵D_std传输给数据分析模块B；

数据分析模块B，用以接收数据分析模块A传输的标准高维随机矩阵D_std，计算出标准高维随机矩阵D_std的样本协方差矩阵S，得出S矩阵特征值λ的谱分布，通过M-P定律判断样本数据有无异常，若数据异常，则判定用户存在窃电行为，否则，用户不存在窃电行为；同时数据分析模块B将判断结果传输至数据输出模块

其中，m表示高维随机矩阵D的行数。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明主要基于岭回归模型计算出用户周围环境影响因素对居民用电行为的影响特征，然后利用这些稳定性特征指标构建高维随机矩阵，得出其矩阵特征值的谱分布和谱密度函数，通过M-P定律判断样本数据有无异常；并通过最大特征值确定用户用电异常时间区段，进而完成对居民窃电行为的自动检测分析。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种具体实施方式的流程框图；

图2为本发明一种具体实施方式岭迹法曲线图；

图3为本发明一种具体实施方式的交叉验证流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1-3所示，

S1：从电力计量自动化系统、营销系统有选择性地按照台区单位抽取时间区段T内所有居民用户日电量数据，通过爬虫方式获取外部网站公开的当地气温数据，结合节假日数据用以构建原始数据集；

S2：基于S1中原始数据集内的数据构建样本数据集；

S3：用S2中的样本数据构建高维随机矩阵D；

所述S2中样本数据集内的数据包括：日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。

所述S3具体包括：

S32：将预处理后的数据按滑动时间窗口分隔为n份数据集，在本实施例中，第一份数据为时间其中，n≥20；

微分可得：

岭回归的估计系数β：

β＝(H^TH+K)^-1H^TY；

其中，φ表示岭回归的优化目标函数，Y表示日电量，H^T表示对X矩阵进行标准化后的自变量矩阵，β表示估计系数，T表示矩阵的转置符号，K表示惩罚系数，C表示所有回归系数平方和的约束值，X表示以累计最高气温值、累计最低气温值、累计平均气温值、节假日时长、台区线损率为元素的矩阵。

其中，惩罚系数k由MSE最小原则和交叉验证确定。

MSE最小原则，即均方误差最小原则，是指参数估计值与参数真值之差平方的期望值。MSE的值越小，说明预测模型描述实验数据具有更好的精确度。岭回归的目的是减少MSE，所以关键点是找出合适的K值，使得MSE

达到最小化。对于K值的确定在实际应用中较为困难，一般常用岭迹法，主要通过将β(k)的分类β_i(k)的岭迹画在同一图中，如图2所示，从图中选择尽可能小的K值，使得各回归系数的岭估计值大体稳定，即各分量在图上的岭迹曲线趋于平行于X轴。

交叉验证的基本思想是将原始数据进行分组，一部分做为训练集，另一部分做为验证集。首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型，以此来做为评价分类器的性能指标。如图3所示，通过不同的组合方式训练出多个模型。通过对每个模型进行测试，计算当前参数下模型准确度的最高的进行作为最优模型，这个衡量标准通常选用准确度均值作为标准进行衡量，使用交叉验证获取最佳参数。

其中，M表示居民表电能数据，t表示不同时间点的个数。

进一步地，所述S4具体包括：

(a)样本协方差矩阵S的极限谱分布满足标准M-P律；

其中，m表示高维随机矩阵D的行数。

其中，

表示特征值的理论上界，

(2)当有异常事件发生时，系统的随机性被破坏，导致这些特征值不满足统计规律，将

超过正常的统计边界范围，定义S矩阵最大特征值的阈值函数为：

当λ_max≥_γ时，可判断有异常事件发生。

一种基于高维随机矩阵进行窃电嫌疑识别的系统，包括：

本发明利用岭回归模型计算出外部环境因素(累计最高气温、累计平均气温、累计最低气温、各类节假及其累计时长、台区线损率)对居民日电量大小的影响权重，作为识别窃电嫌疑的动态监测指标。理想状态下，上述多个外部环境影响程度作为可测状态参量保持基本恒定不变，仅在均值水平附近正态随机波动，且这种随机波动过程是平稳的。若第i个居民用户的某些可测状态参量的测量值出现异常波动，不再是平稳正态随机波动，因此可以识别出该系统哪些用户的状态出现异常变化；结合多个时间窗口的高维随机分析结果，依据M-P定律可以精确确定某一用户在何时开始发生异常变化。因此，可实现对居民用户嫌疑窃电行为分析的精确定位。

所述数据处理模块包括数据筛选模块、数据预处理模块以及数据建模模块；

归一化处理是指将原始数据线性化的方法转换到[0,1]的范围，该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据，从而消除量纲和数量级影响，改变变量在分析中的权重来解决不同度量的问题。本实施例采用的具体方法是极差变换法，公式为：

所述样本数据集内的数据包括时间区段T内的日线损率、累计最高气温值、累计最低气温值、累计平均气温值以及节假日总时长。

所述数据建模模块包括数据建模模块A和数据建模模块B；

微分可得：

岭回归的估计系数β：

β＝(H^TH+K)^-1H^TY；

其中，惩罚系数k由MSE最小原则和交叉验证确定。

MSE最小原则，即均方误差最小原则，是指参数估计值与参数真值之差平方的期望值。MSE的值越小，说明预测模型描述实验数据具有更好的精确度。岭回归的目的是减少MSE，所以关键点是找出合适的K值，使得

其中，M表示居民表电能数据，t表示不同时间点的个数。

所述数据分析模块包括数据分析模块A和数据分析模块B；

其中，μ(β_i)表示第i行数据的平均值，σ(β_i)表示第i行数据的标准差。

(a)样本协方差矩阵S的极限谱分布满足标准M-P律；

数据分析模块A将所述标准高维随机矩阵D_std传输给数据分析模块B；

数据分析模块B，用以接收数据分析模块A传输的标准高维随机矩阵D_std，计算出标准高维随机矩阵D_std的样本协方差矩阵S，得出S矩阵特征值λ的谱分布，通过M-P定律判断样本数据有无异常，若数据异常，则判定用户存在窃电行为，否则，用户不存在窃电行为；

其中，m表示高维随机矩阵D的行数；

其中，

表示特征值的理论上界，

当λ_max≥γ时，可判断有异常事件发生。

同时，数据分析模块B将判断结果传输至数据输出模块，数据输出模块对数据分析模块的判断结果进行输出。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。