CN108021935A - 一种基于大数据技术的维度约简方法及装置 - Google Patents

一种基于大数据技术的维度约简方法及装置 Download PDF

Info

Publication number
CN108021935A
CN108021935A CN201711202117.8A CN201711202117A CN108021935A CN 108021935 A CN108021935 A CN 108021935A CN 201711202117 A CN201711202117 A CN 201711202117A CN 108021935 A CN108021935 A CN 108021935A
Authority
CN
China
Prior art keywords
load data
cluster
mrow
data
supported
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711202117.8A
Other languages
English (en)
Other versions
CN108021935B (zh
Inventor
秦昊
谢凌登
张利平
纪飞
奚培琳
邓松
解鸿斌
桑海霞
朱想
丁煌
王知嘉
陈卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Nanjing Post and Telecommunication University
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, Nanjing Post and Telecommunication University filed Critical State Grid Corp of China SGCC
Priority to CN201711202117.8A priority Critical patent/CN108021935B/zh
Publication of CN108021935A publication Critical patent/CN108021935A/zh
Application granted granted Critical
Publication of CN108021935B publication Critical patent/CN108021935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于大数据技术的维度约简方法及装置,包括:将负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定所述待支持聚集簇中负荷数据支持数;根据所述待支持聚集簇中负荷数据支持数确定待支持数据簇中负荷数据的支持率;根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;对所述输入样本数据进行降维,获取降维后的输入样本数据;本发明提供的技术方案,对高维数据进行有效的维数约简,提高对负荷数据的分类处理性能,实现数据降维的同时剔除噪声点和异常数据点,为解决输电线路负荷数据的问题提供了重要依据。

Description

一种基于大数据技术的维度约简方法及装置
技术领域
本发明涉及分布式计算软件领域,具体涉及一种基于大数据技术的维度约简方法及装置。
背景技术
随着大数据时代的到来,电力系统中的信息和数据量急剧增大,当数据量呈几何式增长时,数据的维数越来越高,数据信息更为充实,同时也给数据挖掘算法带来了诸多难题。高维性的数据增加了算法的时间复杂度和空间复杂度,同时降低了算法的求解精度,最终影响决策分析的准确性。如何从杂乱的、强干扰的海量的数据中挖掘出电力系统中有用的数据信息或者发现潜在的规则是当前面临的巨大挑战,因此维度约简成为了大数据技术分析领域的一个研究热点。
维度约简是在构造模型中只关注那些任务目标相关的属性特征,忽略那些冗余或者不相关的特征,从而达到降低算法的时间和空间复杂度,提高算法计算效率的目的。目前在处理数据降维上,涌现出很多相关算法,主要有主成分分析法、线性判别分析法、独立成分分析法、局部特征分析法、基于核函数的主成分分析法等。在选维方面主要有支持向量机法、遗传算法、粒子群算法等,以上的这些相关算法在精度和效率上得到了一些改善,但是和理想的维度约简处理还存在一定的差距,需要进一步完善。对高维数据进行有效的维数约简,在提高数据分类处理、机器学习性能以及解决类似问题方面具有重要意义。
发明内容
本发明提供一种基于大数据技术的维度约简方法及装置,其目的是对高维数据进行有效的维数约简,提高对负荷数据的分类处理性能,实现数据降维的同时剔除噪声点和异常数据点,为解决输电线路负荷数据的问题提供了重要依据。
本发明的目的是采用下述技术方案实现的:
一种基于大数据技术的维度约简方法,其改进之处在于,所述方法包括:
对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
对所述输入样本数据进行降维,获取降维后的输入样本数据。
优选的,所述对配电网中负荷数据进行聚类,获取负荷数据聚类簇,包括:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
优选的,所述根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据,包括:
当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据;
所述ρ为负荷数据聚类簇的密度。
进一步的,所述方法包括,按下式确定负荷数据聚类簇的密度ρ:
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
优选的,所述根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率,包括:
a.判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
b.若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
c.若否,则判断h是否等于H,若否,则令h=h+1,返回步骤a,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数;
d.根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
进一步的,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
进一步对,按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],i∈[1,M]。
优选的,所述根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据,包括:
若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
优选的,所述对所述输入样本数据进行降维,获取降维后的输入样本数据,包括:
利用PCA降维算法对所述输入样本数据进行降维。
本发明提供一种基于大数据技术的维度约简装置,其改进之处在于,所述装置包括:
第一获取单元,用于对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
分类单元,用于根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
确定单元,用于根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
补充单元,用于根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
第二获取单元,用于对所述输入样本数据进行降维,获取降维后的输入样本数据。
优选的,所述第一获取单元,用于:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
优选的,所述分类单元包括:
第一判断模块,用于当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
第二判断模块,用于当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
第三判断模块,用于当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据。
所述ρ为负荷数据聚类簇的密度。
进一步的,所述装置包括,按下式确定负荷数据聚类簇的密度ρ:
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
优选的,所述确定单元还包括:
第四判断模块,用于判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
第五判断模块,用于若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
第六判断模块,用于若否,则判断h是否等于H,若否,则令h=h+1,返回所述第四判断模块,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数。
第一确定模块,用于根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
进一步的,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
上式中,上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
优选的,所述确定单元,用于:
按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],i∈[1,M]。
优选的,所述补充单元包括:
第七判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
第八判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
优选的,所述第二获取单元用于:
利用PCA降维算法对所述输入样本数据进行降维。本发明的有益效果:
本发明提供的技术方案,首先对原始负荷数据进行快速聚类,获取负荷数据聚类簇,并根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据,基于所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定所述待支持聚集簇中负荷数据支持数;根据所述待支持聚集簇中负荷数据支持数确定待支持数据簇中负荷数据的支持率,最终根据待支持数据簇中负荷数据的支持率对异常数据进行分析和数据筛选,这样能够剔除电力系统中原数据样本中的异常数据,避免其对后续数据处理造成的不良影响,最后使用PCA方法做降维处理,在实现数据降维的同时剔除噪声点和异常数据点。
附图说明
图1是一种基于大数据技术的维度约简方法及装置的系统流程图;
图2是一种基于大数据技术的维度约简方法及装置的结构图。
具体实施方式
下面结合附图对本发明的具体实施方式作详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
由于电力系统中的大数据大多都是非线性的高维数据,数据中包含有噪声数据和大量的异常数据,这些高维数据大大降低了处理数据的效率和质量,为了解决上述问题,本发明提供的一种基于大数据技术的维度约简系统,通过利用M树方法进行快速聚类,对异常数据进行分析,再结合支持率函数对其进行筛选,这样能够剔除电力系统中原数据样本中的异常数据,避免其对后续数据处理造成的不良影响,最后使用PCA方法做降维处理,在实现数据降维的同时剔除噪声点和异常数据点,如图1所示,包括:
101对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
102根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
103根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
104根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
105对所述输入样本数据进行降维,获取降维后的输入样本数据。
具体的,所述步骤101,包括:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行就近聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
所述步骤102,包括:
令所述负荷数据聚类簇的密度为ρ;
当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据。
所述ρ为负荷数据聚类簇的密度。
进一步的,按下式确定负荷数据聚类簇的密度ρ:
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
所述步骤103,包括:
a.判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
b.若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
c.若否,则判断h是否等于H,若否,则令h=h+1,返回步骤a,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数;
d.根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
进一步的,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
上式中,M为所述待支持聚集簇或支持聚集簇中负荷数据的个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
所述步骤103,还包括:
按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],S为支持聚集簇的个数,i∈[1,M]。
所述步骤104,包括:
若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
所述步骤105,包括:
利用PCA降维算法对所述输入样本数据进行降维。
其中,现有技术中,PCA降维算法的处理过程可以包括下述过程:
对输入样本数据序列r={r1,r2,...,ro}作标准化处理后的样本集为t={t1,t2,..,to},其中tk∈Ra,a为样本数据规模,o为变量维数,形成a×o维的输入矩阵。
将a×o维的输入矩阵通过隐式非线性变换函数Φ(t)投影到高维特征空间,计算输入矩阵的协方差矩阵C。
计算协方差矩阵C的特征向量vk和特征值λk,此特征向量就是输入样本集t={t1,t2,..,to}在特征空间上的主元方向,并满足λkvk=Cvk,其中k=1,2,...,o。
将特征值按从小到大的顺序排列,即λ1≥λ2≥...λo
对o维的特征向量构成的矩阵,按照累积主元重要率来确定主元个数g。
Rg大于86%,则取前g个特征值为主元,它们所对应的特征向量为最佳投影方向,进行PCA特征提取后的矩阵为其中v=[v1,v2,...,vg]∈Ra×g
本发明提供一种基于大数据技术的维度约简装置,如图2所示,所述装置包括:
第一获取单元,用于对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
分类单元,用于根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
第一确定单元,用于根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
补充单元,用于根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
第二获取单元,用于对所述输入样本数据进行降维,获取降维后的输入样本数据。
优选的,所述第一获取单元,用于:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
优选的,所述分类单元包括:
第一判断模块,用于当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
第二判断模块,用于当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
第三判断模块,用于当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据。
所述ρ为负荷数据聚类簇的密度。
进一步的,所述装置包括,按下式确定负荷数据聚类簇的密度ρ:
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
优选的,所述确定单元还包括:
第四判断模块,用于判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
第五判断模块,用于若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
第六判断模块,用于若否,则判断h是否等于H,若否,则令h=h+1,返回所述第四判断模块,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数。
第一确定模块,用于根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
进一步的,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
上式中,上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
优选的,所述确定单元,用于:
按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],S为待支持聚集簇的个数,i∈[1,M]。
优选的,所述补充单元包括:
第七判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
第八判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
优选的,所述第二获取单元用于:
利用PCA降维算法对所述输入样本数据进行降维。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (18)

1.一种基于大数据技术的维度约简方法,其特征在于,所述方法包括:
对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
对所述输入样本数据进行降维,获取降维后的输入样本数据。
2.如权利要求1所述的方法,其特征在于,所述对配电网中负荷数据进行聚类,获取负荷数据聚类簇,包括:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
3.如权利要求1所述的方法,其特征在于,所述根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据,包括:
当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据;
所述ρ为负荷数据聚类簇的密度。
4.如权利要求3所述的方法,其特征在于,所述方法包括,按下式确定负荷数据聚类簇的密度ρ:
<mrow> <mi>&amp;rho;</mi> <mo>=</mo> <mfrac> <mi>M</mi> <mi>V</mi> </mfrac> </mrow>
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
5.如权利要求1所述的方法,其特征在于,所述根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率,包括:
a.判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
b.若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
c.若否,则判断h是否等于H,若否,则令h=h+1,返回步骤a,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数;
d.根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
6.如权利要求5所述的方法,其特征在于,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
<mrow> <mi>u</mi> <msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>h</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>&amp;CenterDot;</mo> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mi>M</mi> </mfrac> </mrow>
上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
7.如权利要求5所述的方法,其特征在于,按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
<mrow> <mi>s</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> </mrow>
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],i∈[1,M]。
8.如权利要求1所述的方法,其特征在于,所述根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据,包括:
若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
9.如权利要求1所述的方法,其特征在于,所述对所述输入样本数据进行降维,获取降维后的输入样本数据,包括:
利用PCA降维算法对所述输入样本数据进行降维。
10.一种基于大数据技术的维度约简装置,其特征在于,所述装置包括:
第一获取单元,用于对配电网中负荷数据进行聚类,获取负荷数据聚类簇;
分类单元,用于根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;
确定单元,用于根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;
补充单元,用于根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;
第二获取单元,用于对所述输入样本数据进行降维,获取降维后的输入样本数据。
11.如权利要求10所述的装置,其特征在于,所述第一获取单元,用于:
根据配电网中各负荷数据间的欧几里得距离对所述配电网中负荷数据进行聚类,获取负荷数据聚类簇,其中,每个负荷数据聚类簇中负荷数据为M个。
12.如权利要求10所述的装置,其特征在于,所述分类单元包括:
第一判断模块,用于当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;
第二判断模块,用于当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;
第三判断模块,用于当ρ∈[0.4,2]时,则将该负荷数据聚类簇作为输入样本数据。
所述ρ为负荷数据聚类簇的密度。
13.如权利要求12所述的装置,其特征在于,所述装置包括,按下式确定负荷数据聚类簇的密度ρ:
<mrow> <mi>&amp;rho;</mi> <mo>=</mo> <mfrac> <mi>M</mi> <mi>V</mi> </mfrac> </mrow>
上式中,M为所述负荷数据聚类簇的负荷数据个数,V为负荷数据聚类簇的体积。
14.如权利要求10所述的装置,其特征在于,所述确定单元还包括:
第四判断模块,用于判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;
第五判断模块,用于若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;
第六判断模块,用于若否,则判断h是否等于H,若否,则令h=h+1,返回所述第四判断模块,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数。
第一确定模块,用于根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;
其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1,S],h∈[1,H],初始化h=1。
15.如权利要求14所述的装置,其特征在于,按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(ysi)h
<mrow> <mi>u</mi> <msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>h</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msqrt> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>&amp;CenterDot;</mo> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>z</mi> <mrow> <mi>h</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mi>M</mi> </mfrac> </mrow>
上式中,上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1,M],ysi为第s个待支持聚集簇中第i个负荷数据,zhj为第h个支持聚集簇中第j个负荷数据。
16.如权利要求10所述的装置,其特征在于,所述确定单元,用于:
按下式确定第s个待支持聚集簇中第i个负荷数据的支持率sup(ysi):
<mrow> <mi>s</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> </mrow>
上式中,s(ysi)为第s个待支持聚集簇中第i个负荷数据的支持数,M为所述负荷数据聚类簇的负荷数据个数,s∈[1,S],i∈[1,M]。
17.如权利要求10所述的装置,其特征在于,所述补充单元包括:
第七判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率大于0.7,则将该第s个待支持聚集簇中第i个负荷数据加入至输入样本数据;
第八判断模块,用于若第s个待支持聚集簇中第i个负荷数据的支持率小于等于0.7,则将该第s个待支持聚集簇中第i个负荷数据剔除。
18.如权利要求10所述的装置,其特征在于,所述第二获取单元用于:利用PCA降维算法对所述输入样本数据进行降维。
CN201711202117.8A 2017-11-27 2017-11-27 一种基于大数据技术的维度约简方法及装置 Active CN108021935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711202117.8A CN108021935B (zh) 2017-11-27 2017-11-27 一种基于大数据技术的维度约简方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711202117.8A CN108021935B (zh) 2017-11-27 2017-11-27 一种基于大数据技术的维度约简方法及装置

Publications (2)

Publication Number Publication Date
CN108021935A true CN108021935A (zh) 2018-05-11
CN108021935B CN108021935B (zh) 2024-01-23

Family

ID=62077445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711202117.8A Active CN108021935B (zh) 2017-11-27 2017-11-27 一种基于大数据技术的维度约简方法及装置

Country Status (1)

Country Link
CN (1) CN108021935B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
CN110674182A (zh) * 2019-08-08 2020-01-10 厦门久凌创新科技有限公司 大数据的分析方法、及数据分析服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203478A (zh) * 2016-06-27 2016-12-07 南昌大学 一种用于智能电表大数据的负荷曲线聚类方法
CN106600059A (zh) * 2016-12-13 2017-04-26 北京邮电大学 基于改进rbf神经网络的智能电网短期负荷预测方法
CN106709035A (zh) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203478A (zh) * 2016-06-27 2016-12-07 南昌大学 一种用于智能电表大数据的负荷曲线聚类方法
CN106600059A (zh) * 2016-12-13 2017-04-26 北京邮电大学 基于改进rbf神经网络的智能电网短期负荷预测方法
CN106709035A (zh) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陶抒青 等: "基于密度聚类和投票判别的三维数据去噪方法", 计算机应用研究 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
CN108804563B (zh) * 2018-05-22 2021-11-19 创新先进技术有限公司 一种数据标注方法、装置以及设备
CN110674182A (zh) * 2019-08-08 2020-01-10 厦门久凌创新科技有限公司 大数据的分析方法、及数据分析服务器

Also Published As

Publication number Publication date
CN108021935B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
Ding et al. ECPE-2D: Emotion-cause pair extraction based on joint two-dimensional representation, interaction and prediction
CN104112026B (zh) 一种短信文本分类方法及系统
CN110111198A (zh) 用户金融风险预估方法、装置、电子设备及可读介质
CN102722713B (zh) 一种基于李群结构数据的手写体数字识别方法及系统
CN110111113B (zh) 一种异常交易节点的检测方法及装置
Ding et al. An adaptive gradient method for online auc maximization
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
CN112818484A (zh) 一种物理实体数字孪生综合实施能力评估方法及评估系统
CN103324939A (zh) 基于最小二乘支持向量机技术的偏向性分类及参数寻优方法
CN108021935A (zh) 一种基于大数据技术的维度约简方法及装置
Kaur et al. Guest editorial: Special section on transfer learning for 5G-aided Industrial Internet of Things
CN108090040A (zh) 一种文本信息分类方法及系统
Duda A hybrid genetic algorithm and variable neighborhood search for multi-family capacitated lot-sizing problem
KR20210097204A (ko) 정보를 출력하는 방법 및 장치
CN110533392A (zh) 一种确认资金结算数据归属单位的实现方法及系统
Zhuo et al. The algorithm of text classification based on rough set and support vector machine
Li et al. Business email classification using incremental subspace learning
Mao et al. Information system construction and research on preference of model by multi-class decision tree regression
CN105653649B (zh) 海量文本中低占比信息识别方法及装置
Lahmiri et al. An adaptive sequential-filtering learning system for credit risk modeling
Zhu Research on Financial Risk Control Algorithm Based on Machine Learning
CN112948583A (zh) 数据的分类方法及装置、存储介质、电子装置
Wang et al. An enhanced software defect prediction model with multiple metrics and learners
CN107203561A (zh) 一种数据处理方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant