CN108197425B

CN108197425B - 一种基于非负矩阵分解的智能电网数据分解方法

Info

Publication number: CN108197425B
Application number: CN201810052322.9A
Authority: CN
Inventors: 杨震; 何通海
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2019-09-03
Anticipated expiration: 2038-01-19
Also published as: CN108197425A

Abstract

本发明公开一种基于非负矩阵分解的智能电网数据分解的方法，在非负矩阵分解算法的基础上，引入了用户间相似性的特征，提高算法的性能，使分解结果更加接近用户的实际用电信息，为用户提供更加精准的反馈。实验结果辨明，该方法与已有的方法对比，性能有明显的提升。

Description

一种基于非负矩阵分解的智能电网数据分解方法

技术领域

本发明属于数据挖掘领域，尤其涉及一种基于非负矩阵分解的智能电网数据分解方法。

背景技术

物联网技术己经被广泛应用到电子政务、电子商务和社区服务等关系国计民生的领域，对带动传统行业升级，提高生产效率和安全生产能力，提升社会公共管理水平和人民生活质量起着举足轻重的作用。作为物联网典型应用的智能电网(如图1所示)产生的用电数据体量巨大，涉及用户众多，通过对智能电网数据的充分挖掘可以为用户提供更加精准和有效的服务。研究表明，用户在获取单独电器的详细用电数据时会自主的减少对电器的使用，避免不必要的能源浪费。

家庭用户用电数据分解是通过非侵入的方式，基于对电源总接口处测得的总用电数据的细节分析，确定单独的电器的具体工作情况。目前相关研究已取得了一定进展，主要实现方法包括以用电功率变化量为特征在二维特征空间进行聚类、利用数据建立隐马尔科夫模型进行用电状态预测、基于非负矩阵分解的稀疏编码等。但是传统的这些技术难以适用于组成越来越复杂的用电数据，对用电数据分解结果的误差较大，准确性难以为用户所接受。

发明内容

对于这种现状，本发明提出了一种基于非负矩阵分解的智能电网数据分解的方法，在非负矩阵分解算法的基础上，引入了用户间相似性的特征，提高算法的性能，使分解结果更加接近用户的实际用电信息，为用户提供更加精准的反馈。实验结果辨明，该方法与已有的方法对比，性能有明显的提升。

为实现上述目的，本发明采用如下的技术方案：

一种基于非负矩阵分解的智能电网数据分解的方法，包括以下步骤：

步骤1、用电数据采集

从智能电网系统中采集用电数据，用电数据包括用户ID、时间戳和用电功率；

步骤2、预处理用电数据，其包括：数据清洗、数据补全以及数据整理；

步骤3、数据训练

步骤3.1、数据提取

从数据文件中提取单独电器的用电数据为数据矩阵X_i(i＝1,2,3…k)，作为训练数据，从数据文件中抽取家庭总用电数据为测试数据矩阵G，作为测试数据。

步骤3.2、相似性计算

利用已抽取数据矩阵，计算家庭总用电数据与单一用电数据的关系，生成用户间同质性矩阵Z_i，并确定控制相关性强弱的系数矩阵E_i，用余弦相似度对相关性强弱进行度量表示，公式如下：

步骤3.3、数据训练

步骤3.3.1、初始化矩阵H_i、基矩阵B_i，系数矩阵A_i和待求矩阵W_i

其中，G∈R^m×n，B_i∈R^m×d，W_i∈R^d×n，A_i∈R^d×l，d＜m，d＜n，l＜d，矩阵H_i是对角元素为1的对角矩阵的拓展矩阵，

步骤3.3.2、计算矩阵L_i

矩阵L_i＝D_i-Z_i，其中，Z_i为步骤3.2所示的关系矩阵，D_i为对角矩阵，中每个对角元素为矩阵Z_i所在行列之和，矩阵L_i为拉普拉斯矩阵；

步骤3.3.3、训练分解矩阵X_i和总用电数据矩阵G

训练模型如下所示：

其中，α，β，λ，γ表示对正则项约束程度调节参数，

应用KKT(Karush-Kuhn-Tucker)条件，在保证矩阵非负的情况下，得到迭代更新公式如下：

U_i＝E_i(j,k)[W_iZ_i]_j,k

V_i＝E_i(j,k)[W_iD_i]_jk

步骤4、数据分解

由步骤3生成矩阵W_i和基矩阵B_i，通过B_iW_i预测单一电器用电数据，矩阵B_i为总用电数据G和单一电器用电数据X_i共同训练形成的基矩阵，矩阵W_i为分解G后形成的系数矩阵，重构公式如下所示：

New_G_i＝B_iW_i

步骤(5)数据整理与分析

将预测矩阵New_G_i整理计算，得出不同用户在同一时间段中各个单独电器的用电量和在总用电数据中所占比例，计算方式为：求新建矩阵每一列之和与原始总功率矩阵对应列之和的比值，公式如下所示：

作为优选，步骤2具体为：

步骤2.1、数据清洗：滤除时间缺失过多、用电功率信息缺失过多和用户ID不明的异常数据。

步骤2.2、去除异常用户：去除用电数据中用电数据不符合常理的用户。例如用电功率超大的用户或长时间无功率消耗的用户。该部分用户可能非普通家庭用户，也可能由于信息采集错误导致。

步骤2.3、数据补全：补全少量缺失的功率数据，补全方式主要是近似补全，通过求临近时间点的均值进行近似填充。

步骤2.4、数据整理：将清洗后的数据按合适的格式整理在数据文件中。其中，同一用户的用电数据按照时间的先后顺序排列组成。

附图说明

图1：智能电网工作原理图；

图2：数据分解过程示意图；

图3：数据格式示意图；

图4-1：数据矩阵G示意图

图4-2：冰箱数据矩阵示意图；

图4-3：空调数据矩阵示意图；

图5：实验系统构架图；

图6：不同分解方法比较性能柱状图。

具体实施方式

如图5所示，本发明提供一种基于非负矩阵分解的智能电网数据分解方法，包括以下步骤：

步骤1.数据采集：获取用电数据

获取用电数据，用电数据由用户编号、时间标签和功率数据组成。

步骤2.数据预处理：用电数据预处理

步骤2.2、去除异常用户：去除用电数据中用电数据不符合常理的用户；例如用电功率超大的用户或长时间无功率消耗的用户；该部分用户可能非普通家庭用户，也可能由于信息采集错误导致。

步骤2.3、数据补全：补全少量缺失的功率数据，补全方式为近似补全，通过求临近时间点的均值进行近似填充。

步骤2.4、数据整理：将清洗后的数据按合适的格式整理在数据文件中，其中，同一用户的用电数据按照时间的先后顺序排列组成，格式如图3所示。

步骤3.数据训练：

步骤3.1提取用电数据

训练数据集：从数据文件中提取单独电器的用电数据为数据矩阵X_i(i＝1,2,3…k)，i代表不同的电器类别，例如X₁表示冰箱数据矩阵，X₂表示空调数据矩阵。在矩阵X_i中，矩阵的的每一列为一个确定电器和某一确定家庭一周的用电数据，数据之间以时间先后顺序排列，两个数据间时间间隔为1小时。训练数据矩阵X_i示例如图4-2、图4-3。

测试数据集：从数据文件中抽取家庭总用电数据为测试数据矩阵G，测试数据矩阵G的每一列代表一个家庭用户某一周总的用电功率，同一用户不同的时间间隔为1小时，即矩阵同一列两个相邻元素的数据为时间间隔1小时的两个总用电功率。测试数据矩阵G的每一行代表同一时间不同用户的用电功率。测试数据矩阵G示例见图4-1。

步骤3.2用户间相似性计算

利用已有数据，分析家庭总用电数据与单一用电数据的关系，形成不同用户间的关系矩阵Z_i，并确定代表相关性强弱的系数矩阵E_i。矩阵Z_i是个对称矩阵，Z_i中每个元素表示两个不同用户间的相关性，矩阵Z_i如下所示，

相关性用余弦相似度表示，公式如下：

步骤3.3训练数据

步骤3.3.1初始化基矩阵B_i，系数矩阵A_i，和待求矩阵W_i。

其中，G∈R^m×n，B_i∈R^m×d，W_i∈R^d×n，A_i∈R^d×l，d＜m，d＜n，l＜d，其中，R代表实数集，G∈R^m×n表示矩阵G是一个m行n列的实数矩阵；

步骤3.3.2初始化矩阵H_i

矩阵H_i是对角元素为1的对角矩阵的拓展矩阵，分解过程中为了约束训练数据和预测数据重合的部分保持一致性，加入矩阵H_i，使W_iH_i的维度与A_i保持一致。如下所示：

步骤3.3.3计算矩阵L_i

矩阵L_i＝D_i-Z_i，其中，Z_i为步骤3.2所示的关系矩阵，D_i为对角矩阵，中每个对角元素为矩阵Z_i所在行列之和，矩阵L_i为拉普拉斯矩阵，由同质性系数推导所得。推导过程如下：

对于同一用户来说，两个用电模式越相似在低秩向量空间中距离更近。因此，用户之间的距离可以通过反应用户相似性的同质性系数来控制。例如：同质性系数ε(i,j)控制着用户w_i和用户w_j间的距离。ε(i,j)值越大意味着用户w_i和用户w_j的在电器k的使用上比较相近；ε(i,j)值越小表明用户间的使用模式相差越大。

对于某一用户w_i，它通过同质性正则项可以被描述为如下的形式W(:,i)：

从用户w_i的同质性正则项表示中可以看到，用户w_i和其他用户之间的关系，由同质性系数ε(i,j)控制。因此，可以通过同质性系数正则项方法，来约束用户与用户间的关系。

通过下面的一系列推导后，最终可以得到中的同质性系数正规项：

最终我们得到正则项

步骤3.3.4使用以下优化公式同时训练分解矩阵X_i和总用电数据矩阵G。

其中，F是objective function中function的简写，代表目标函数，α，β，λ，γ表示对正则项约束程度调节参数，为模块3.3.2中的一致性约束，为模块3.3.3的同质性约束，算法原理图见图2。

U_i＝E_i(j,k)[W_iZ_i]_j,k

V_i＝E_i(j,k)[W_iD_i]_jk

步骤4数据预测：数据预测

步骤3生成矩阵W_i和基矩阵B_i。其中矩阵B_i为总用电数据G和单一电器用电数据X_i共同训练形成的基矩阵，矩阵W_i为分解G后形成的系数矩阵。通过B_iW_i预测单一电器用电数据，例如W₁为求得冰箱的系数矩阵，B₁为冰箱的基矩阵，则G₁＝W₁B₁为分解后预测的冰箱的数据矩阵。

New_G_i＝B_iW_i

步骤5数据统计：数据整理与分析

将预测矩阵New_G_i整理计算，得出不同用户在同一时间段中各个单独电器的用电量和在总用电数据中所占比例，计算方式为：求新建矩阵每一列之和与原始总功率矩阵对应列之和的比值。公式如下所示：

其中，percent_app_i_user_j表示用户j的电器i所占比例，New_G_i(:,j)表示矩阵New_G_i第j列，而G(:,j)表示矩阵G_i第j列。

使用下述公式作为实验性能的评测指标。为了能够更加直观的了解我们提出的方法的分解效果，我们给出四种不同类别的经典方法性能对比柱状图，如图6所示。结果表明，我们方法的性能有着明显的提升。

Claims

1.一种基于非负矩阵分解的智能电网数据分解的方法，其特征在于，包括以下步骤：

步骤1、用电数据采集

步骤3、数据训练

步骤3.1、数据提取

从数据文件中提取单独电器的用电数据为数据矩阵X_i作为训练数据，其中i＝1,2,3…k，从数据文件中抽取家庭总用电数据为测试数据矩阵G，作为测试数据，

步骤3.2、相似性计算

步骤3.3、数据训练

步骤3.3.2、计算矩阵L_i

矩阵L_i＝D_i-Z_i，其中，Z_i为步骤3.2所示的用户间同质性矩阵，D_i为对角矩阵，D_i中每个对角元素为矩阵Z_i所在行列之和，矩阵L_i为拉普拉斯矩阵；D_i中元素

步骤3.3.3、训练分解矩阵X_i和总用电数据矩阵G

训练模型如下所示：

其中，α，β，λ，γ表示对正则项约束程度调节参数，

U_i＝E_i(j,k)[W_iZ_i]_j,k

V_i＝E_i(j,k)[W_iD_i]_j,k

步骤4、数据分解

New_G_i＝B_iW_i；

步骤5、数据整理与分析

2.如权利要求1所述的基于非负矩阵分解的智能电网数据分解的方法，其特征在于，步骤2具体为：

步骤2.1、数据清洗：滤除时间缺失过多、用电功率信息缺失过多和用户ID不明的异常数据；

步骤2.2、去除异常用户：去除用电数据中用电数据不符合常理的用户；

步骤2.3、数据补全：补全少量缺失的功率数据；

步骤2.4、数据整理：将清洗后的数据按合适的格式整理在数据文件中，其中，同一用户的用电数据按照时间的先后顺序排列组成。