CN108021935A

CN108021935A - 一种基于大数据技术的维度约简方法及装置

Info

Publication number: CN108021935A
Application number: CN201711202117.8A
Authority: CN
Inventors: 秦昊; 谢凌登; 张利平; 纪飞; 奚培琳; 邓松; 解鸿斌; 桑海霞; 朱想; 丁煌; 王知嘉; 陈卫东
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Nanjing Post and Telecommunication University
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Nanjing Post and Telecommunication University
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-05-11
Anticipated expiration: 2037-11-27
Also published as: CN108021935B

Abstract

本发明涉及一种基于大数据技术的维度约简方法及装置，包括：将负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据；根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定所述待支持聚集簇中负荷数据支持数；根据所述待支持聚集簇中负荷数据支持数确定待支持数据簇中负荷数据的支持率；根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据；对所述输入样本数据进行降维，获取降维后的输入样本数据；本发明提供的技术方案，对高维数据进行有效的维数约简，提高对负荷数据的分类处理性能，实现数据降维的同时剔除噪声点和异常数据点，为解决输电线路负荷数据的问题提供了重要依据。

Description

一种基于大数据技术的维度约简方法及装置

技术领域

本发明涉及分布式计算软件领域，具体涉及一种基于大数据技术的维度约简方法及装置。

背景技术

随着大数据时代的到来，电力系统中的信息和数据量急剧增大，当数据量呈几何式增长时，数据的维数越来越高，数据信息更为充实，同时也给数据挖掘算法带来了诸多难题。高维性的数据增加了算法的时间复杂度和空间复杂度，同时降低了算法的求解精度，最终影响决策分析的准确性。如何从杂乱的、强干扰的海量的数据中挖掘出电力系统中有用的数据信息或者发现潜在的规则是当前面临的巨大挑战，因此维度约简成为了大数据技术分析领域的一个研究热点。

维度约简是在构造模型中只关注那些任务目标相关的属性特征，忽略那些冗余或者不相关的特征，从而达到降低算法的时间和空间复杂度，提高算法计算效率的目的。目前在处理数据降维上，涌现出很多相关算法，主要有主成分分析法、线性判别分析法、独立成分分析法、局部特征分析法、基于核函数的主成分分析法等。在选维方面主要有支持向量机法、遗传算法、粒子群算法等，以上的这些相关算法在精度和效率上得到了一些改善，但是和理想的维度约简处理还存在一定的差距，需要进一步完善。对高维数据进行有效的维数约简，在提高数据分类处理、机器学习性能以及解决类似问题方面具有重要意义。

发明内容

本发明提供一种基于大数据技术的维度约简方法及装置，其目的是对高维数据进行有效的维数约简，提高对负荷数据的分类处理性能，实现数据降维的同时剔除噪声点和异常数据点，为解决输电线路负荷数据的问题提供了重要依据。

本发明的目的是采用下述技术方案实现的：

一种基于大数据技术的维度约简方法，其改进之处在于，所述方法包括：

对配电网中负荷数据进行聚类，获取负荷数据聚类簇；

根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据；

根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率；

根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据；

对所述输入样本数据进行降维，获取降维后的输入样本数据。

优选的，所述对配电网中负荷数据进行聚类，获取负荷数据聚类簇，包括：

根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类，获取负荷数据聚类簇，其中，每个负荷数据聚类簇中负荷数据为M个。

优选的，所述根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据，包括：

当ρ＜0.4时，则将该负荷数据聚类簇作为待支持聚集簇；

当ρ＞2时，则将该负荷数据聚类簇作为支持聚集簇；

当ρ∈[0.4,2]时，则将该负荷数据聚类簇作为输入样本数据；

所述ρ为负荷数据聚类簇的密度。

进一步的，所述方法包括，按下式确定负荷数据聚类簇的密度ρ：

上式中，M为所述负荷数据聚类簇的负荷数据个数，V为负荷数据聚类簇的体积。

优选的，所述根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率，包括：

a.判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6；

b.若是，则该第s个待支持聚集簇中第i个负荷数据的支持数加1；

c.若否，则判断h是否等于H，若否，则令h＝h+1，返回步骤a，若是，则输出所述第s个待支持聚集簇中第i个负荷数据的支持数；

d.根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率；

其中，S为待支持聚集簇的个数，H为支持聚集簇的个数，s∈[1,S]，h∈[1,H]，初始化h＝1。

进一步的，按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(y_si)_h：

上式中，M为所述负荷数据聚类簇的负荷数据个数，j∈[1,M]，y_si为第s个待支持聚集簇中第i个负荷数据，z_hj为第h个支持聚集簇中第j个负荷数据。

进一步对，按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(y_si)：

上式中，s(y_si)为第s个待支持聚集簇中第i个负荷数据的支持数，M为所述负荷数据聚类簇的负荷数据个数，s∈[1,S]，i∈[1,M]。

优选的，所述根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据，包括：

若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7，则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据；

若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7，则将该第s个待支持聚集簇中第i个负荷数据剔除。

优选的，所述对所述输入样本数据进行降维，获取降维后的输入样本数据，包括：

利用PCA降维算法对所述输入样本数据进行降维。

本发明提供一种基于大数据技术的维度约简装置，其改进之处在于，所述装置包括：

第一获取单元，用于对配电网中负荷数据进行聚类，获取负荷数据聚类簇；

分类单元，用于根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据；

确定单元，用于根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率；

补充单元，用于根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据；

第二获取单元，用于对所述输入样本数据进行降维，获取降维后的输入样本数据。

优选的，所述第一获取单元，用于：

优选的，所述分类单元包括：

第一判断模块，用于当ρ＜0.4时，则将该负荷数据聚类簇作为待支持聚集簇；

第二判断模块，用于当ρ＞2时，则将该负荷数据聚类簇作为支持聚集簇；

第三判断模块，用于当ρ∈[0.4,2]时，则将该负荷数据聚类簇作为输入样本数据。

所述ρ为负荷数据聚类簇的密度。

进一步的，所述装置包括，按下式确定负荷数据聚类簇的密度ρ：

优选的，所述确定单元还包括：

第四判断模块，用于判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6；

第五判断模块，用于若是，则该第s个待支持聚集簇中第i个负荷数据的支持数加1；

第六判断模块，用于若否，则判断h是否等于H，若否，则令h＝h+1，返回所述第四判断模块，若是，则输出所述第s个待支持聚集簇中第i个负荷数据的支持数。

第一确定模块，用于根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率；

上式中，上式中，M为所述负荷数据聚类簇的负荷数据个数，j∈[1,M]，y_si为第s个待支持聚集簇中第i个负荷数据，z_hj为第h个支持聚集簇中第j个负荷数据。

优选的，所述确定单元，用于：

按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(y_si)：

优选的，所述补充单元包括：

第七判断模块，用于若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7，则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据；

第八判断模块，用于若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7，则将该第s个待支持聚集簇中第i个负荷数据剔除。

优选的，所述第二获取单元用于：

利用PCA降维算法对所述输入样本数据进行降维。本发明的有益效果：

本发明提供的技术方案，首先对原始负荷数据进行快速聚类，获取负荷数据聚类簇，并根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据，基于所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定所述待支持聚集簇中负荷数据支持数；根据所述待支持聚集簇中负荷数据支持数确定待支持数据簇中负荷数据的支持率，最终根据待支持数据簇中负荷数据的支持率对异常数据进行分析和数据筛选，这样能够剔除电力系统中原数据样本中的异常数据，避免其对后续数据处理造成的不良影响，最后使用PCA方法做降维处理，在实现数据降维的同时剔除噪声点和异常数据点。

附图说明

图1是一种基于大数据技术的维度约简方法及装置的系统流程图；

图2是一种基于大数据技术的维度约简方法及装置的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

由于电力系统中的大数据大多都是非线性的高维数据，数据中包含有噪声数据和大量的异常数据，这些高维数据大大降低了处理数据的效率和质量，为了解决上述问题，本发明提供的一种基于大数据技术的维度约简系统，通过利用M树方法进行快速聚类，对异常数据进行分析，再结合支持率函数对其进行筛选，这样能够剔除电力系统中原数据样本中的异常数据，避免其对后续数据处理造成的不良影响，最后使用PCA方法做降维处理，在实现数据降维的同时剔除噪声点和异常数据点，如图1所示，包括：

101对配电网中负荷数据进行聚类，获取负荷数据聚类簇；

102根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据；

103根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率；

104根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据；

105对所述输入样本数据进行降维，获取降维后的输入样本数据。

具体的，所述步骤101，包括：

根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行就近聚类，获取负荷数据聚类簇，其中，每个负荷数据聚类簇中负荷数据为M个。

所述步骤102，包括：

令所述负荷数据聚类簇的密度为ρ；

当ρ＜0.4时，则将该负荷数据聚类簇作为待支持聚集簇；

当ρ＞2时，则将该负荷数据聚类簇作为支持聚集簇；

当ρ∈[0.4,2]时，则将该负荷数据聚类簇作为输入样本数据。

所述ρ为负荷数据聚类簇的密度。

进一步的，按下式确定负荷数据聚类簇的密度ρ：

所述步骤103，包括：

上式中，M为所述待支持聚集簇或支持聚集簇中负荷数据的个数，j∈[1,M]，y_si为第s个待支持聚集簇中第i个负荷数据，z_hj为第h个支持聚集簇中第j个负荷数据。

所述步骤103，还包括：

上式中，s(y_si)为第s个待支持聚集簇中第i个负荷数据的支持数，M为所述负荷数据聚类簇的负荷数据个数，s∈[1,S]，S为支持聚集簇的个数，i∈[1,M]。

所述步骤104，包括：

所述步骤105，包括：

利用PCA降维算法对所述输入样本数据进行降维。

其中，现有技术中，PCA降维算法的处理过程可以包括下述过程：

对输入样本数据序列r＝{r₁,r₂,...,r_o}作标准化处理后的样本集为t＝{t₁,t₂,..,t_o}，其中t_k∈R^a，a为样本数据规模，o为变量维数，形成a×o维的输入矩阵。

将a×o维的输入矩阵通过隐式非线性变换函数Φ(t)投影到高维特征空间，计算输入矩阵的协方差矩阵C。

计算协方差矩阵C的特征向量v_k和特征值λ_k，此特征向量就是输入样本集t＝{t₁,t₂,..,t_o}在特征空间上的主元方向，并满足λ_kv_k＝Cv_k，其中k＝1,2,...,o。

将特征值按从小到大的顺序排列，即λ₁≥λ₂≥...λ_o。

对o维的特征向量构成的矩阵，按照累积主元重要率来确定主元个数g。

R_g大于86％，则取前g个特征值为主元，它们所对应的特征向量为最佳投影方向，进行PCA特征提取后的矩阵为其中v＝[v₁,v₂,...,v_g]∈R^a×g，

本发明提供一种基于大数据技术的维度约简装置，如图2所示，所述装置包括：

第一确定单元，用于根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率；

优选的，所述第一获取单元，用于：

优选的，所述分类单元包括：

所述ρ为负荷数据聚类簇的密度。

优选的，所述确定单元还包括：

优选的，所述确定单元，用于：

上式中，s(y_si)为第s个待支持聚集簇中第i个负荷数据的支持数，M为所述负荷数据聚类簇的负荷数据个数，s∈[1,S]，S为待支持聚集簇的个数，i∈[1,M]。

优选的，所述补充单元包括：

优选的，所述第二获取单元用于：

利用PCA降维算法对所述输入样本数据进行降维。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于大数据技术的维度约简方法，其特征在于，所述方法包括：

对配电网中负荷数据进行聚类，获取负荷数据聚类簇；

2.如权利要求1所述的方法，其特征在于，所述对配电网中负荷数据进行聚类，获取负荷数据聚类簇，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据，包括：

当ρ＜0.4时，则将该负荷数据聚类簇作为待支持聚集簇；

当ρ＞2时，则将该负荷数据聚类簇作为支持聚集簇；

当ρ∈[0.4,2]时，则将该负荷数据聚类簇作为输入样本数据；

所述ρ为负荷数据聚类簇的密度。

4.如权利要求3所述的方法，其特征在于，所述方法包括，按下式确定负荷数据聚类簇的密度ρ：

5.如权利要求1所述的方法，其特征在于，所述根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率，包括：

6.如权利要求5所述的方法，其特征在于，按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(y_si)_h：

<mrow> <mi>u</mi> <msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>h</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>&CenterDot;</mo> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mi>M</mi> </mfrac> </mrow>

7.如权利要求5所述的方法，其特征在于，按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(y_si)：

8.如权利要求1所述的方法，其特征在于，所述根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据，包括：

9.如权利要求1所述的方法，其特征在于，所述对所述输入样本数据进行降维，获取降维后的输入样本数据，包括：

利用PCA降维算法对所述输入样本数据进行降维。

10.一种基于大数据技术的维度约简装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述第一获取单元，用于：

12.如权利要求10所述的装置，其特征在于，所述分类单元包括：

所述ρ为负荷数据聚类簇的密度。

13.如权利要求12所述的装置，其特征在于，所述装置包括，按下式确定负荷数据聚类簇的密度ρ：

14.如权利要求10所述的装置，其特征在于，所述确定单元还包括：

15.如权利要求14所述的装置，其特征在于，按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(y_si)_h：

16.如权利要求10所述的装置，其特征在于，所述确定单元，用于：

17.如权利要求10所述的装置，其特征在于，所述补充单元包括：

18.如权利要求10所述的装置，其特征在于，所述第二获取单元用于：利用PCA降维算法对所述输入样本数据进行降维。