CN108596227A

CN108596227A - 一种用户用电行为主导影响因素挖掘方法

Info

Publication number: CN108596227A
Application number: CN201810327870.8A
Authority: CN
Inventors: 黄剑文; 彭泽武; 周珑; 萧展辉; 蔡徽; 徐晖; 钱正浩; 严宇平; 江疆
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-28
Anticipated expiration: 2038-04-12
Also published as: CN108596227B

Abstract

本发明公开了一种用户用电行为主导影响因素挖掘方法，通过对影响因素数据集进行多重相关性检验，若存在多重相关性则采用逐步回归法进行筛选，再运用典型相关分析判别目标数据表是否存在主导影响因素，若存在主导影响因素则采用改进K‑中心点聚类算法对目标数据表做聚类分析，最后得到关于主导影响因素的数据。本发明实现了对用户用电行为分析由样本统计分类到变量分析研究的转变，能更好得挖掘用户用电行为影响因素；其次，通过对K‑中心点聚类分析进行改进：引入理想解法确定初始聚类中心，避免陷入局部最优解；实现聚类算法并行化，显著改善算法数据处理能力；最后，输出结果采用多种形式直观展示主导影响因素的时空分布特征。

Description

一种用户用电行为主导影响因素挖掘方法

技术领域

本发明涉及用电行为分析领域，更具体地，涉及一种用户用电行为主导影响因素挖掘方法。

背景技术

随着智能电网的快速发展，用电信息采集系统及配电自动化逐渐完善，电网用户侧数据呈现出数据量大、数据类型多、增长速度快等大数据特征。在大数据环境下分析用电数据之间的关联性，挖掘潜藏在用户用电数据之中的用户用电行为特征。适用于用户用电行为分析的方法包括模式识别技术、聚类分析方法、数据挖掘算法，通过对不同类别用电用户进行细分，高效、准确地挖掘出用电行为、电量消费等大量有价值的信息，使之有力地支撑用户节能工作、智能化业务分析与决策。智能电表实现了对用户用电信息全方位实时收集，使得对用户用电行为精准聚类分析成为了可能。聚类分析是根据物以类聚的原则，将相似的对象聚在一起，将不相似的对象分开的过程。利用智能电表采集用户用电数据，采用划分聚类方法进行用户用电行为分类是目前应用较为广泛的方法。现有的聚类方法主要缺陷如下：(1)当前用户用电行为分析主要是对用电数据样本进行分类，并未考虑用户用电行为影响因素；(2)传统划分聚类方法随机选择初始聚类中心，容易陷入局部最优解，且面对高数据量时，算法数据处理能力急剧下降。

发明内容

本发明克服了上述现有的聚类方法的技术缺陷，提供了一种新的用户用电行为主导影响因素挖掘方法。本发明提供了一种用户用电行为主导影响因素挖掘方法，该方法分析效率高、算法复杂度低，而且能处理大规模进行数据集合。

为解决上述技术问题，本发明的技术方案如下：

一种用户用电行为主导影响因素挖掘方法，包括以下步骤：

S1：采集用户的电力数据，所述的电力数据包括用电数据和影响因素数据；

S2：对用户的电力数据进行标准化处理，得到标准化的电力数据；

S3：通过方差膨胀因子对标准化的电力数据进行多重相关性检验，若方差膨胀因子大于预设值，对标准化的电力数据进行筛选，得到筛选后的标准化的电力数据；若方差膨胀因子不大于预设值，不对标准化的电力数据进行筛选，执行 S4；

S4：通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性最大的两个变量，设为F₁和F₂，通过F₁和F₂判断影响因素数据中是否存在主导影响因素数据，若存在主导影响因素数据，则执行S5；若不存在主导影响因素数据，则方法结束；

S5：通过K-中心聚类方法从影响因素数据中得到主导影响因素数据；并通过MapReduce并行化技术实现聚类算法的并行化；

S6：以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用电行为的主导影响因素数据；结合GIS系统展现用户的用电行为的主导影响因素数据的空间分布特征。

在一种优选的方案中，所述的S1包括以下流程：

S1.1：利用智能电表采集用户某个时段的用电数据，所述的用电数据包括电流和功率；定义用电数据的集合为因变量数据表B，因变量数据表中的数据记为 b_ij；

S1.2：采集用户的用电行为的影响因素数据，所述的影响因素数据包括位置、面积、人口、时间和气象信息，定义影响因素数据的集合为自变量数据表A，自变量数据表中自变量记为a_j，自变量a_j中的数据记为a_ij。

在一种优选的方案中，所述的S2的内容如下：

对因变量数据表B和自变量数据表A进行数据标准化处理，所述的数据标准化处理通过下式进行表达：

式中，所述的s_j为第_j个变量的数据方差；所述的x_ij为S1中的电力数据，即没有标准化前的电力数据。

在一种优选的方案中，所述的气象信息包括温度、湿度、降雨、风速、气压等信息。

在一种优选的方案中，所述的S3包括以下流程：

S3.1：用方差膨胀因子对自变量数据表A进行多重相关性检验，若方差膨胀因子大于预设值，则判定自变量数据表A存在多重相关性，执行S3.2；否则，执行S4；所述的方差膨胀因子通过下式进行表达：

式中，所述的VIF_j为自变量a_ij的方差膨胀因子；所述的将α_ij作为因变量进行回归分析拟合得到，通过下式进行表达：

S3.2：运用逐步回归法对自变量数据表A进行筛选，定义筛选后的自变量数据表A为自变量数据表A⁺。

本优选方案中，VIF_i需要将自变量α_i作为因变量，而用其它自变量进行回归分析拟合计算回归复测定系数，进而得到方差膨胀因子VIF_i。将α_i作为因变量，而用其它自变量进行回归分析拟合得到的；的含义是回归分析可解释变异占总变异的百分比，也可以看成是回归拟合值与α_i的相关系数。

在一种优选的方案中，所述的S4包括以下内容：

通过典型相关分析方法从自变量数据表A或自变量数据表A⁺和因变量数据表B中提取相关性最大的两个变量，设为F₁和F₂，以r(a_j,F₁)和r(b_k,F₁)为横坐标，以r(a_j,F₂)和r(b_k,F₂)为纵坐标绘制单位圆周；其中，r(a_j,F₁)表示自变量 a_j和主成分F₁的相关系数，所述的r(a_j,F₁)通过下式进行表达：

式中，所述的Var是方差，所述的Cov是协方差；

若r(a_i,F₁)在预设的圆环宽度D内，若a_j与b_j点间距离小于给预设值D，则判定自变量数据表中存在对因变量数据表起主导性影响的变量，执行S5；若不存在主导影响因素数据，则方法结束。

在一种优选的方案中，D＝0.2，即0.8≤|r(a_i,F₁)|≤1。

在一种优选的方案中，所述的S5包括以下流程：

S5.1：根据时间标记，将自变量数据表A或自变量数据表A⁺和因变量数据表B分解为若干个数据表，自变量数据表A分解的数据表设为A_nm：{a₁,…,a_j}_nm；自变量数据表A+分解的数据表设为A_nm+：{a₁,…,a_j}_nm；因变量数据表B分解的数据表设为B_nm：{b₁,…,b_k}_nm；所述的n为时间标记中的日标记；所述的m为时间标记中的时刻标记，m为整数，且m的取值范围是m＝[1，24]；

S5.2：在每个数据表B_nm中确定初始聚类中心；

S5.3：对每个数据表B_nm采用MapReduce函数并行执行K-中心聚类方法，得到每个数据表B_nm的主导影响因素数据；

S5.4：对所有数据表B_nm的聚类结果进行归约处理。

在一种优选的方案中，所述的S5.2包括以下内容：

通过公式d(b_i,b_j)度量数据表B_nm中的变量相似程度，所述的d(b_i,b_j)通过下式进行表达：

记变量b_i与b_j的相似性矩阵为U，所述的相似性矩阵U通过下式进行表达：

式中，所述的d_ij为变量b_i与b_j的相似性距离；

相似性矩阵U的最小距离理想解为：其中，

分别计算第i个变量b_i到理想解的距离取距离最小的变量b_i作为初始聚类中心。

在一种优选的方案中，所述的S5.3包括以下内容：

Map操作：通过S5.2确定每个数据表B_nm的初始聚类中心{b_i}_nm，输入数据表A_nm：{a₁,…,a_j}_nm或数据表A_nm ⁺：{a₁,…,a_j}_nm至不同的Map处理单元，将影响因素的变量数据以行形式存储，记为数据片1、数据片2、……数据片p，指定聚类数为1，计算每个数据片到初始聚类中心的距离，并生成簇；标记该簇中变量所属的聚类类别ID，按距离大小重新将各数据片排序，并输出结果；结果 <key，value>的形式为<聚类类别ID，变量距离(距离序号)>；

Reduce操作：根据Map输出结果重新计算每个簇的中心位置，将Map输出结果作为输入，所有属于同一簇的数据片累加相同的各数据片变量距离，求解各变量距离的均值，更新簇内中心；计算数据表B_nm中各变量与新的簇内中心之间的距离，选择距离最小的变量作为新的聚类中心；并输出结果；输出<key，value> 对的形式为<聚类类别ID，中心变量>；

判断新的聚类中心与上一轮聚类中心间的距离，如果两者的差值大于给定阈值，则进行一次MapReduce；若差值小于给定阈值，则输出各聚类类别ID下距离序号为1的数据片，该变量即为对应数据表的主导影响因素。

本优选方案中，B_nm：{b₁,…,b_k}_nm中确定一个b_i作为初始聚类中心{b_i}_nm。

在一种优选的方案中，所述的S5.4包括以下内容：

通过S5.3输出聚类结果序列：S_n：{{a_i}_n1,{a_i}_n2,…,{a_i}_n24}，统计聚类结果序列中每个变量的主导次数N_i＝count({a_i}_nm)，且0≤N_i≤24，将主导次数最多的变量作为用户在n日的用电行为的主导影响因素。

本优选的方案中，将n分为24个小时并行处理，每个小时做一次聚类分析，得到24次结果。

与现有技术相比，本发明技术方案的有益效果是：

1、实现了对用户用电行为分析由样本统计分类到变量分析研究的转变，能更好得挖掘用户用电行为影响因素；

2、其次，通过对K-中心点聚类分析进行改进：引入理想解法确定初始聚类中心，避免陷入局部最优解；

3、实现聚类算法并行化，显著改善算法数据处理能力；最后，输出结果采用多种形式直观展示主导影响因素的时空分布特征。

附图说明

图1为本实施例的方法流程图。

图2为本实施例的改进K-中心点聚类分析流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种用户用电行为主导影响因素挖掘方法，包括以下步骤：

S1.2：采集用户的用电行为的影响因素数据，所述的影响因素数据包括位置、面积、人口、时间和气象信息(包括温度、湿度、降雨、风速、气压)，定义影响因素数据的集合为自变量数据表A，自变量数据表中自变量记为a_j，自变量a_j中的数据记为a_ij。

式中，所述的Var是方差，所述的Cov是协方差；

若0.8≤|r(a_i,F₁)|≤1，则判定自变量数据表中存在对因变量数据表起主导性影响的变量，执行S5；若不符合，则方法结束。

S5：通过K-中心聚类方法从影响因素数据中得到主导影响因素数据；并通过MapReduce并行化技术实现聚类算法的并行化；K-中心聚类方法的流程如图 2所示，

S5.2：在每个数据表B_nm中确定初始聚类中心；

通过公式d(b_i,b_j)度量数据表B_nm中的变量相似程度，d(b_i,b_j)通过下式进行表达：

式中，d_ij为变量b_i与b_j的相似性距离；

相似性矩阵U的最小距离理想解为：其中，

分别计算第i个变量b_i到理想解的距离取距离最小的变量b_i作为初始聚类中心；

Map操作：通过S5.2确定每个数据表B_nm的初始聚类中心{b_i}_nm，输入数据表A_nm：{a₁,…,a_j}_nm或数据表A_nm+：{a₁,…,a_j}_nm至不同的Map处理单元，将影响因素的变量数据以行形式存储，记为数据片1、数据片2、……数据片p，指定聚类数为1，计算每个数据片到初始聚类中心的距离，并生成簇；标记该簇中变量所属的聚类类别ID，按距离大小重新将各数据片排序，并输出结果；结果 <key，value>的形式为<聚类类别ID，变量距离(距离序号)>；

判断新的聚类中心与上一轮聚类中心间的距离，如果两者的差值大于给定阈值，则进行一次MapReduce；若差值小于给定阈值，则输出各聚类类别ID下距离序号为1的数据片，该变量即为对应数据表的主导影响因素；

S5.4：对所有数据表B_nm的聚类结果进行归约处理；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用户用电行为主导影响因素挖掘方法，其特征在于，包括以下步骤：

S3：通过方差膨胀因子对标准化的电力数据进行多重相关性检验，若方差膨胀因子大于预设值，对标准化的电力数据进行筛选，得到筛选后的标准化的电力数据；若方差膨胀因子不大于预设值，不对标准化的电力数据进行筛选，执行S4；

2.根据权利要求1所述的用户用电行为主导影响因素挖掘方法，其特征在于，所述的S1包括以下流程：

S1.1：利用智能电表采集用户某个时段的用电数据，所述的用电数据包括电流和功率；定义用电数据的集合为因变量数据表B，因变量数据表中的数据记为b_ij；

3.根据权利要求2所述的用户用电行为主导影响因素挖掘方法，其特征在于，所述的S2的内容如下：

式中，所述的s_j为第j个变量的数据方差；所述的x_ij为S1中的电力数据，即没有标准化前的电力数据。

4.根据权利要求3所述的电力系统短路故障计算方法，其特征在于，所述的S3包括以下流程：

5.根据权利要求4所述的电力系统短路故障计算方法，其特征在于，所述的S4包括以下内容：

通过典型相关分析方法从自变量数据表A或自变量数据表A⁺和因变量数据表B中提取相关性最大的两个变量，设为F₁和F₂，以r(a_j,F₁)和r(b_k,F₁)为横坐标，以r(a_j,F₂)和r(b_k,F₂)为纵坐标绘制单位圆周；其中，r(a_j,F₁)表示自变量a_j和主成分F₁的相关系数，所述的r(a_j,F₁)通过下式进行表达：

式中，所述的Var是方差，所述的Cov是协方差；

6.根据权利要求5所述的电力系统短路故障计算方法，其特征在于，所述的S5包括以下流程：

S5.1：根据时间标记，将自变量数据表A或自变量数据表A⁺和因变量数据表B分解为若干个数据表，自变量数据表A分解的数据表设为A_nm：{a₁,…,a_j}_nm；自变量数据表A⁺分解的数据表设为A_nm ⁺：{a₁,…,a_j}_nm；因变量数据表B分解的数据表设为B_nm：{b₁,…,b_k}_nm；所述的n为时间标记中的日标记；所述的m为时间标记中的时刻标记，m为整数，且m的取值范围是m＝[1，24]；

S5.2：在每个数据表B_nm中确定初始聚类中心；

S5.4：对所有数据表B_nm的聚类结果进行归约处理。

7.根据权利要求6述的电力系统短路故障计算方法，其特征在于，所述的S5.2包括以下内容：

式中，所述的d_ij为变量b_i与b_j的相似性距离；

相似性矩阵U的最小距离理想解为：其中，

8.根据权利要求7述的电力系统短路故障计算方法，其特征在于，所述的S5.3包括以下内容：

Map操作：通过S5.2确定每个数据表B_nm的初始聚类中心{b_i}_nm，输入数据表A_nm：{a₁,…,a_j}_nm或数据表A_nm ⁺：{a₁,…,a_j}_nm至不同的Map处理单元，将影响因素的变量数据以行形式存储，记为数据片1、数据片2、……数据片p，指定聚类数为1，计算每个数据片到初始聚类中心的距离，并生成簇；标记该簇中变量所属的聚类类别ID，按距离大小重新将各数据片排序，并输出结果；

Reduce操作：根据Map输出结果重新计算每个簇的中心位置，将Map输出结果作为输入，所有属于同一簇的数据片累加相同的各数据片变量距离，求解各变量距离的均值，更新簇内中心；计算数据表B_nm中各变量与新的簇内中心之间的距离，选择距离最小的变量作为新的聚类中心；并输出结果；

9.根据权利要求8述的电力系统短路故障计算方法，其特征在于，所述的S5.4包括以下内容：