CN108596227B - 一种用户用电行为主导影响因素挖掘方法 - Google Patents
一种用户用电行为主导影响因素挖掘方法 Download PDFInfo
- Publication number
- CN108596227B CN108596227B CN201810327870.8A CN201810327870A CN108596227B CN 108596227 B CN108596227 B CN 108596227B CN 201810327870 A CN201810327870 A CN 201810327870A CN 108596227 B CN108596227 B CN 108596227B
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- data table
- dominant
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005611 electricity Effects 0.000 title claims abstract description 56
- 230000006399 behavior Effects 0.000 title claims abstract description 41
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000010219 correlation analysis Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000001419 dependent effect Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 12
- 238000007621 cluster analysis Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用户用电行为主导影响因素挖掘方法,通过对影响因素数据集进行多重相关性检验,若存在多重相关性则采用逐步回归法进行筛选,再运用典型相关分析判别目标数据表是否存在主导影响因素,若存在主导影响因素则采用改进K‑中心点聚类算法对目标数据表做聚类分析,最后得到关于主导影响因素的数据。本发明实现了对用户用电行为分析由样本统计分类到变量分析研究的转变,能更好得挖掘用户用电行为影响因素;其次,通过对K‑中心点聚类分析进行改进:引入理想解法确定初始聚类中心,避免陷入局部最优解;实现聚类算法并行化,显著改善算法数据处理能力;最后,输出结果采用多种形式直观展示主导影响因素的时空分布特征。
Description
技术领域
本发明涉及用电行为分析领域,更具体地,涉及一种用户用电行为主导影响因素挖掘方法。
背景技术
随着智能电网的快速发展,用电信息采集系统及配电自动化逐渐完善,电网用户侧数据呈现出数据量大、数据类型多、增长速度快等大数据特征。在大数据环境下分析用电数据之间的关联性,挖掘潜藏在用户用电数据之中的用户用电行为特征。适用于用户用电行为分析的方法包括模式识别技术、聚类分析方法、数据挖掘算法,通过对不同类别用电用户进行细分,高效、准确地挖掘出用电行为、电量消费等大量有价值的信息,使之有力地支撑用户节能工作、智能化业务分析与决策。智能电表实现了对用户用电信息全方位实时收集,使得对用户用电行为精准聚类分析成为了可能。聚类分析是根据物以类聚的原则,将相似的对象聚在一起,将不相似的对象分开的过程。利用智能电表采集用户用电数据,采用划分聚类方法进行用户用电行为分类是目前应用较为广泛的方法。现有的聚类方法主要缺陷如下:(1)当前用户用电行为分析主要是对用电数据样本进行分类,并未考虑用户用电行为影响因素;(2)传统划分聚类方法随机选择初始聚类中心,容易陷入局部最优解,且面对高数据量时,算法数据处理能力急剧下降。
发明内容
本发明克服了上述现有的聚类方法的技术缺陷,提供了一种新的用户用电行为主导影响因素挖掘方法。本发明提供了一种用户用电行为主导影响因素挖掘方法,该方法分析效率高、算法复杂度低,而且能处理大规模进行数据集合。
为解决上述技术问题,本发明的技术方案如下:
一种用户用电行为主导影响因素挖掘方法,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行S4;
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素数据,则方法结束;
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通过MapReduce并行化技术实现聚类算法的并行化;
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素数据的空间分布特征。
在一种优选的方案中,所述的S1包括以下流程:
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为bij;
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、面积、人口、时间和气象信息,定义影响因素数据的集合为自变量数据表A,自变量数据表中自变量记为aj,自变量aj中的数据记为aij。
在一种优选的方案中,所述的S2的内容如下:
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据,即没有标准化前的电力数据。
在一种优选的方案中,所述的气象信息包括温度、湿度、降雨、风速、气压等信息。
在一种优选的方案中,所述的S3包括以下流程:
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则,执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aij的方差膨胀因子;所述的将αij作为因变量进行回归分析拟合得到,/>通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数据表A为自变量数据表A+。
本优选方案中,VIFi需要将自变量αi作为因变量,而用其它自变量进行回归分析拟合计算回归复测定系数,进而得到方差膨胀因子VIFi。将αi作为因变量,而用其它自变量进行回归分析拟合得到的;/>的含义是回归分析可解释变异占总变异的百分比,也可以看成是回归拟合值/>与αi的相关系数。
在一种优选的方案中,所述的S4包括以下内容:
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若r(ai,F1)在预设的圆环宽度D内,若aj与bj点间距离小于给预设值D,则判定自变量数据表中存在对因变量数据表起主导性影响的变量,执行S5;若不存在主导影响因素数据,则方法结束。
在一种优选的方案中,D=0.2,即0.8≤|r(ai,F1)|≤1。
在一种优选的方案中,所述的S5包括以下流程:
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,…,aj}nm;自变量数据表A+分解的数据表设为Anm +:{a1,…,aj}nm;因变量数据表B分解的数据表设为Bnm:{b1,…,bk}nm;所述的n为时间标记中的日标记;所述的m为时间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法,得到每个数据表Bnm的主导影响因素数据;
S5.4:对所有数据表Bnm的聚类结果进行归约处理。
在一种优选的方案中,所述的S5.2包括以下内容:
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,所述的d(bi,bj)通过下式进行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,所述的dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,/>
分别计算第i个变量bi到理想解的距离 取距离/>最小的变量bi作为初始聚类中心。
在一种优选的方案中,所述的S5.3包括以下内容:
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据表Anm:{a1,…,aj}nm或数据表Anm +:{a1,…,aj}nm至不同的Map处理单元,将影响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;结果<key,value>的形式为<聚类类别ID,变量距离(距离序号)>;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间的距离,选择距离最小的变量作为新的聚类中心;并输出结果;输出<key,value>对的形式为<聚类类别ID,中心变量>;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距离序号为1的数据片,该变量即为对应数据表的主导影响因素。
本优选方案中,Bnm:{b1,…,bk}nm中确定一个bi作为初始聚类中心{bi}nm。
在一种优选的方案中,所述的S5.4包括以下内容:
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,…,{ai}n24},统计聚类结果序列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的变量作为用户在n日的用电行为的主导影响因素。
本优选的方案中,将n分为24个小时并行处理,每个小时做一次聚类分析,得到24次结果。
与现有技术相比,本发明技术方案的有益效果是:
1、实现了对用户用电行为分析由样本统计分类到变量分析研究的转变,能更好得挖掘用户用电行为影响因素;
2、其次,通过对K-中心点聚类分析进行改进:引入理想解法确定初始聚类中心,避免陷入局部最优解;
3、实现聚类算法并行化,显著改善算法数据处理能力;最后,输出结果采用多种形式直观展示主导影响因素的时空分布特征。
附图说明
图1为本实施例的方法流程图。
图2为本实施例的改进K-中心点聚类分析流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种用户用电行为主导影响因素挖掘方法,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为bij;
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、面积、人口、时间和气象信息(包括温度、湿度、降雨、风速、气压),定义影响因素数据的集合为自变量数据表A,自变量数据表中自变量记为aj,自变量aj中的数据记为aij。
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据,即没有标准化前的电力数据。
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行S4;
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则,执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aij的方差膨胀因子;所述的将αij作为因变量进行回归分析拟合得到,/>通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数据表A为自变量数据表A+。
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素数据,则方法结束;
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若0.8≤|r(ai,F1)|≤1,则判定自变量数据表中存在对因变量数据表起主导性影响的变量,执行S5;若不符合,则方法结束。
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通过MapReduce并行化技术实现聚类算法的并行化;K-中心聚类方法的流程如图2所示,
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,…,aj}nm;自变量数据表A+分解的数据表设为Anm +:{a1,…,aj}nm;因变量数据表B分解的数据表设为Bnm:{b1,…,bk}nm;所述的n为时间标记中的日标记;所述的m为时间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,d(bi,bj)通过下式进行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,
分别计算第i个变量bi到理想解的距离 取距离/>最小的变量bi作为初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法,得到每个数据表Bnm的主导影响因素数据;
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据表Anm:{a1,…,aj}nm或数据表Anm +:{a1,…,aj}nm至不同的Map处理单元,将影响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;结果<key,value>的形式为<聚类类别ID,变量距离(距离序号)>;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间的距离,选择距离最小的变量作为新的聚类中心;并输出结果;输出<key,value>对的形式为<聚类类别ID,中心变量>;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距离序号为1的数据片,该变量即为对应数据表的主导影响因素;
S5.4:对所有数据表Bnm的聚类结果进行归约处理;
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,…,{ai}n24},统计聚类结果序列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的变量作为用户在n日的用电行为的主导影响因素。
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素数据的空间分布特征。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种用户用电行为主导影响因素挖掘方法,其特征在于,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行S4;
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素数据,则方法结束;
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通过MapReduce并行化技术实现聚类算法的并行化;
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素数据的空间分布特征;
所述的S4包括以下内容:
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若r(aj,F1)在预设的圆环宽度D内,若aj与bk点间距离小于给预设值D,则判定自变量数据表中存在对因变量数据表起主导性影响的变量,执行S5;若不存在主导影响因素数据,则方法结束;自变量数据表A中自变量记为aj,自变量aj中的数据记为aij;因变量数据表B,因变量数据表中的数据记为bik;
所述的S5包括以下流程:
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,,aj}nm;自变量数据表A+分解的数据表设为Anm +:{a1,,aj}nm;因变量数据表B分解的数据表设为Bnm:{b1,,bk}nm;所述的n为时间标记中的日标记;所述的m为时间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法,得到每个数据表Bnm的主导影响因素数据;
S5.4:对所有数据表Bnm的聚类结果进行归约处理;
所述的S5.2包括以下内容:
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,所述的d(bi,bj)通过下式进行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,所述的dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,/>
分别计算第i个变量bi到理想解的距离取距离/>最小的变量bi作为初始聚类中心。
2.根据权利要求1所述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S1包括以下流程:
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为bik;
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、面积、人口、时间和气象信息,定义影响因素数据的集合为自变量数据表A,自变量数据表中自变量记为aj,自变量aj中的数据记为aij。
3.根据权利要求2所述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S2的内容如下:
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据,即没有标准化前的电力数据。
4.根据权利要求3所述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S3包括以下流程:
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则,执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aj的方差膨胀因子;所述的将aj作为因变量进行回归分析拟合得到,/>通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数据表A为自变量数据表A+。
5.根据权利要求4述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S5.3包括以下内容:
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据表Anm:{a1,,aj}nm或数据表Anm +:{a1,,aj}nm至不同的Map处理单元,将影响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间的距离,选择距离最小的变量作为新的聚类中心;并输出结果;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距离序号为1的数据片,该变量即为对应数据表的主导影响因素。
6.根据权利要求5述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S5.4包括以下内容:
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,,{ai}n24},统计聚类结果序列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的变量作为用户在n日的用电行为的主导影响因素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327870.8A CN108596227B (zh) | 2018-04-12 | 2018-04-12 | 一种用户用电行为主导影响因素挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327870.8A CN108596227B (zh) | 2018-04-12 | 2018-04-12 | 一种用户用电行为主导影响因素挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596227A CN108596227A (zh) | 2018-09-28 |
CN108596227B true CN108596227B (zh) | 2023-08-08 |
Family
ID=63622025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810327870.8A Active CN108596227B (zh) | 2018-04-12 | 2018-04-12 | 一种用户用电行为主导影响因素挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596227B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144682A (zh) * | 2019-08-27 | 2020-05-12 | 广东电网有限责任公司 | 一种配电网运行效率主要影响因素挖掘方法 |
CN111401431B (zh) * | 2020-03-12 | 2023-07-25 | 成都小步创想慧联科技有限公司 | 群租房识别方法及系统及存储介质 |
CN112906776B (zh) * | 2021-02-05 | 2024-02-27 | 安徽容知日新科技股份有限公司 | 一种指标数据处理方法、装置和计算设备 |
CN116543838B (zh) * | 2023-07-05 | 2023-09-05 | 苏州凌点生物技术有限公司 | 一种生物基因选择表达概率的数据分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1014287A2 (en) * | 1998-12-14 | 2000-06-28 | General Electric Company | Multi-source information fusion system for dynamic risk assessment |
CN107356978A (zh) * | 2017-07-11 | 2017-11-17 | 中国科学院电子学研究所 | 基于主成分分析的航磁补偿方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
CN102073922A (zh) * | 2010-12-10 | 2011-05-25 | 沈阳工业大学 | 基于影响因素筛选的短期负荷预测方法 |
CN104881706B (zh) * | 2014-12-31 | 2018-05-25 | 天津弘源慧能科技有限公司 | 一种基于大数据技术的电力系统短期负荷预测方法 |
CN104914724A (zh) * | 2015-05-28 | 2015-09-16 | 南京工业大学 | 基于cca和块式rpls的分布式在线建模方法 |
-
2018
- 2018-04-12 CN CN201810327870.8A patent/CN108596227B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1014287A2 (en) * | 1998-12-14 | 2000-06-28 | General Electric Company | Multi-source information fusion system for dynamic risk assessment |
CN107356978A (zh) * | 2017-07-11 | 2017-11-17 | 中国科学院电子学研究所 | 基于主成分分析的航磁补偿方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108596227A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596227B (zh) | 一种用户用电行为主导影响因素挖掘方法 | |
CN101615248B (zh) | 年龄估计方法、设备和人脸识别系统 | |
CN111160401A (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN106339416B (zh) | 基于网格快速搜寻密度峰值的教育数据聚类方法 | |
CN107368700A (zh) | 基于计算云平台的微生物多样性交互分析系统及其方法 | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
de Barros Franco et al. | Clustering of solar energy facilities using a hybrid fuzzy c-means algorithm initialized by metaheuristics | |
CN101923648B (zh) | 支持向量机的聚类方法与装置 | |
CN110134719B (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN113065278B (zh) | 一种基于频繁模式挖掘的富风期风电小发事件统计特性模型的预测方法 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN114864003A (zh) | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 | |
CN115907822A (zh) | 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法 | |
CN114611738A (zh) | 一种基于用户用电行为分析的负荷预测方法 | |
CN109389172B (zh) | 一种基于无参数网格的无线电信号数据聚类方法 | |
CN106557785A (zh) | 一种优化数据分类的支持向量机方法 | |
Cogliati et al. | Patterns in Temporal Series of Meteorological Variables Using SOM & TDIDT | |
CN111324790A (zh) | 基于支持向量机分类的负荷类型识别方法 | |
CN112487991B (zh) | 一种基于特征自学习的高精度负荷辨识方法及系统 | |
WO2018165530A1 (en) | Method of constructing a reusable low-dimensionality map of high-dimensionality data | |
CN109189775B (zh) | 一种工业监控平台海量数据处理系统及方法 | |
CN113344742A (zh) | 基于聚类和时序分析的自动抄表成功率影响因素分析方法 | |
CN110826601B (zh) | 基于改进的支持向量机算法的林火预测方法 | |
CN114579827B (zh) | 一种工业设备数据性能曲线的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |