CN108596227A - 一种用户用电行为主导影响因素挖掘方法 - Google Patents

一种用户用电行为主导影响因素挖掘方法 Download PDF

Info

Publication number
CN108596227A
CN108596227A CN201810327870.8A CN201810327870A CN108596227A CN 108596227 A CN108596227 A CN 108596227A CN 201810327870 A CN201810327870 A CN 201810327870A CN 108596227 A CN108596227 A CN 108596227A
Authority
CN
China
Prior art keywords
data
variable
influence factor
tables
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810327870.8A
Other languages
English (en)
Other versions
CN108596227B (zh
Inventor
黄剑文
彭泽武
周珑
萧展辉
蔡徽
徐晖
钱正浩
严宇平
江疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201810327870.8A priority Critical patent/CN108596227B/zh
Publication of CN108596227A publication Critical patent/CN108596227A/zh
Application granted granted Critical
Publication of CN108596227B publication Critical patent/CN108596227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户用电行为主导影响因素挖掘方法,通过对影响因素数据集进行多重相关性检验,若存在多重相关性则采用逐步回归法进行筛选,再运用典型相关分析判别目标数据表是否存在主导影响因素,若存在主导影响因素则采用改进K‑中心点聚类算法对目标数据表做聚类分析,最后得到关于主导影响因素的数据。本发明实现了对用户用电行为分析由样本统计分类到变量分析研究的转变,能更好得挖掘用户用电行为影响因素;其次,通过对K‑中心点聚类分析进行改进:引入理想解法确定初始聚类中心,避免陷入局部最优解;实现聚类算法并行化,显著改善算法数据处理能力;最后,输出结果采用多种形式直观展示主导影响因素的时空分布特征。

Description

一种用户用电行为主导影响因素挖掘方法
技术领域
本发明涉及用电行为分析领域,更具体地,涉及一种用户用电行为主导影响 因素挖掘方法。
背景技术
随着智能电网的快速发展,用电信息采集系统及配电自动化逐渐完善,电网 用户侧数据呈现出数据量大、数据类型多、增长速度快等大数据特征。在大数据 环境下分析用电数据之间的关联性,挖掘潜藏在用户用电数据之中的用户用电行 为特征。适用于用户用电行为分析的方法包括模式识别技术、聚类分析方法、数 据挖掘算法,通过对不同类别用电用户进行细分,高效、准确地挖掘出用电行为、 电量消费等大量有价值的信息,使之有力地支撑用户节能工作、智能化业务分析 与决策。智能电表实现了对用户用电信息全方位实时收集,使得对用户用电行为 精准聚类分析成为了可能。聚类分析是根据物以类聚的原则,将相似的对象聚在 一起,将不相似的对象分开的过程。利用智能电表采集用户用电数据,采用划分 聚类方法进行用户用电行为分类是目前应用较为广泛的方法。现有的聚类方法主 要缺陷如下:(1)当前用户用电行为分析主要是对用电数据样本进行分类,并未 考虑用户用电行为影响因素;(2)传统划分聚类方法随机选择初始聚类中心,容 易陷入局部最优解,且面对高数据量时,算法数据处理能力急剧下降。
发明内容
本发明克服了上述现有的聚类方法的技术缺陷,提供了一种新的用户用电行 为主导影响因素挖掘方法。本发明提供了一种用户用电行为主导影响因素挖掘方 法,该方法分析效率高、算法复杂度低,而且能处理大规模进行数据集合。
为解决上述技术问题,本发明的技术方案如下:
一种用户用电行为主导影响因素挖掘方法,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨 胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力 数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行 S4;
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性 最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导 影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素 数据,则方法结束;
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通 过MapReduce并行化技术实现聚类算法的并行化;
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用 电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素 数据的空间分布特征。
在一种优选的方案中,所述的S1包括以下流程:
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电 流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为 bij
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、 面积、人口、时间和气象信息,定义影响因素数据的集合为自变量数据表A,自 变量数据表中自变量记为aj,自变量aj中的数据记为aij
在一种优选的方案中,所述的S2的内容如下:
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标 准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据, 即没有标准化前的电力数据。
在一种优选的方案中,所述的气象信息包括温度、湿度、降雨、风速、气压 等信息。
在一种优选的方案中,所述的S3包括以下流程:
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀 因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则, 执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aij的方差膨胀因子;所述的将αij作为因变量 进行回归分析拟合得到,通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数 据表A为自变量数据表A+
本优选方案中,VIFi需要将自变量αi作为因变量,而用其它自变量进行回归 分析拟合计算回归复测定系数,进而得到方差膨胀因子VIFi将αi作为因变 量,而用其它自变量进行回归分析拟合得到的;的含义是回归分析可解释变 异占总变异的百分比,也可以看成是回归拟合值与αi的相关系数。
在一种优选的方案中,所述的S4包括以下内容:
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据 表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横 坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量 aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若r(ai,F1)在预设的圆环宽度D内,若aj与bj点间距离小于给预设值D,则 判定自变量数据表中存在对因变量数据表起主导性影响的变量,执行S5;若不 存在主导影响因素数据,则方法结束。
在一种优选的方案中,D=0.2,即0.8≤|r(ai,F1)|≤1。
在一种优选的方案中,所述的S5包括以下流程:
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据 表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,…,aj}nm; 自变量数据表A+分解的数据表设为Anm+:{a1,…,aj}nm;因变量数据表B分解的 数据表设为Bnm:{b1,…,bk}nm;所述的n为时间标记中的日标记;所述的m为时 间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法, 得到每个数据表Bnm的主导影响因素数据;
S5.4:对所有数据表Bnm的聚类结果进行归约处理。
在一种优选的方案中,所述的S5.2包括以下内容:
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,所述的d(bi,bj)通过 下式进行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,所述的dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,
分别计算第i个变量bi到理想解的距离 取距离最小的变量bi作为初始聚类中心。
在一种优选的方案中,所述的S5.3包括以下内容:
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据 表Anm:{a1,…,aj}nm或数据表Anm +:{a1,…,aj}nm至不同的Map处理单元,将影 响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指 定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中 变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;结果 <key,value>的形式为<聚类类别ID,变量距离(距离序号)>;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出 结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各 变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间 的距离,选择距离最小的变量作为新的聚类中心;并输出结果;输出<key,value> 对的形式为<聚类类别ID,中心变量>;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈 值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距 离序号为1的数据片,该变量即为对应数据表的主导影响因素。
本优选方案中,Bnm:{b1,…,bk}nm中确定一个bi作为初始聚类中心{bi}nm
在一种优选的方案中,所述的S5.4包括以下内容:
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,…,{ai}n24},统计聚类结果序 列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的 变量作为用户在n日的用电行为的主导影响因素。
本优选的方案中,将n分为24个小时并行处理,每个小时做一次聚类分析, 得到24次结果。
与现有技术相比,本发明技术方案的有益效果是:
1、实现了对用户用电行为分析由样本统计分类到变量分析研究的转变,能 更好得挖掘用户用电行为影响因素;
2、其次,通过对K-中心点聚类分析进行改进:引入理想解法确定初始聚类 中心,避免陷入局部最优解;
3、实现聚类算法并行化,显著改善算法数据处理能力;最后,输出结果采 用多种形式直观展示主导影响因素的时空分布特征。
附图说明
图1为本实施例的方法流程图。
图2为本实施例的改进K-中心点聚类分析流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种用户用电行为主导影响因素挖掘方法,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电 流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为 bij
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、 面积、人口、时间和气象信息(包括温度、湿度、降雨、风速、气压),定义影 响因素数据的集合为自变量数据表A,自变量数据表中自变量记为aj,自变量aj中的数据记为aij
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标 准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据, 即没有标准化前的电力数据。
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨 胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力 数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行 S4;
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀 因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则, 执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aij的方差膨胀因子;所述的将αij作为因变量 进行回归分析拟合得到,通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数 据表A为自变量数据表A+
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性 最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导 影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素 数据,则方法结束;
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据 表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横 坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量 aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若0.8≤|r(ai,F1)|≤1,则判定自变量数据表中存在对因变量数据表起主导性 影响的变量,执行S5;若不符合,则方法结束。
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通 过MapReduce并行化技术实现聚类算法的并行化;K-中心聚类方法的流程如图 2所示,
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据 表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,…,aj}nm; 自变量数据表A+分解的数据表设为Anm+:{a1,…,aj}nm;因变量数据表B分解的 数据表设为Bnm:{b1,…,bk}nm;所述的n为时间标记中的日标记;所述的m为时 间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,d(bi,bj)通过下式进 行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,
分别计算第i个变量bi到理想解的距离 取距离最小的变量bi作为初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法, 得到每个数据表Bnm的主导影响因素数据;
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据 表Anm:{a1,…,aj}nm或数据表Anm+:{a1,…,aj}nm至不同的Map处理单元,将影 响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指 定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中 变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;结果 <key,value>的形式为<聚类类别ID,变量距离(距离序号)>;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出 结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各 变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间 的距离,选择距离最小的变量作为新的聚类中心;并输出结果;输出<key,value> 对的形式为<聚类类别ID,中心变量>;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈 值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距 离序号为1的数据片,该变量即为对应数据表的主导影响因素;
S5.4:对所有数据表Bnm的聚类结果进行归约处理;
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,…,{ai}n24},统计聚类结果序 列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的 变量作为用户在n日的用电行为的主导影响因素。
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用 电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素 数据的空间分布特征。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种用户用电行为主导影响因素挖掘方法,其特征在于,包括以下步骤:
S1:采集用户的电力数据,所述的电力数据包括用电数据和影响因素数据;
S2:对用户的电力数据进行标准化处理,得到标准化的电力数据;
S3:通过方差膨胀因子对标准化的电力数据进行多重相关性检验,若方差膨胀因子大于预设值,对标准化的电力数据进行筛选,得到筛选后的标准化的电力数据;若方差膨胀因子不大于预设值,不对标准化的电力数据进行筛选,执行S4;
S4:通过典型相关分析方法从电力数据或者筛选后的电力数据中提取相关性最大的两个变量,设为F1和F2,通过F1和F2判断影响因素数据中是否存在主导影响因素数据,若存在主导影响因素数据,则执行S5;若不存在主导影响因素数据,则方法结束;
S5:通过K-中心聚类方法从影响因素数据中得到主导影响因素数据;并通过MapReduce并行化技术实现聚类算法的并行化;
S6:以报表形式记录用户每日用电行为的主导影响因素数据并统计用户的用电行为的主导影响因素数据;结合GIS系统展现用户的用电行为的主导影响因素数据的空间分布特征。
2.根据权利要求1所述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S1包括以下流程:
S1.1:利用智能电表采集用户某个时段的用电数据,所述的用电数据包括电流和功率;定义用电数据的集合为因变量数据表B,因变量数据表中的数据记为bij
S1.2:采集用户的用电行为的影响因素数据,所述的影响因素数据包括位置、面积、人口、时间和气象信息,定义影响因素数据的集合为自变量数据表A,自变量数据表中自变量记为aj,自变量aj中的数据记为aij
3.根据权利要求2所述的用户用电行为主导影响因素挖掘方法,其特征在于,所述的S2的内容如下:
对因变量数据表B和自变量数据表A进行数据标准化处理,所述的数据标准化处理通过下式进行表达:
式中,所述的sj为第j个变量的数据方差;所述的xij为S1中的电力数据,即没有标准化前的电力数据。
4.根据权利要求3所述的电力系统短路故障计算方法,其特征在于,所述的S3包括以下流程:
S3.1:用方差膨胀因子对自变量数据表A进行多重相关性检验,若方差膨胀因子大于预设值,则判定自变量数据表A存在多重相关性,执行S3.2;否则,执行S4;所述的方差膨胀因子通过下式进行表达:
式中,所述的VIFj为自变量aij的方差膨胀因子;所述的将αij作为因变量进行回归分析拟合得到,通过下式进行表达:
S3.2:运用逐步回归法对自变量数据表A进行筛选,定义筛选后的自变量数据表A为自变量数据表A+
5.根据权利要求4所述的电力系统短路故障计算方法,其特征在于,所述的S4包括以下内容:
通过典型相关分析方法从自变量数据表A或自变量数据表A+和因变量数据表B中提取相关性最大的两个变量,设为F1和F2,以r(aj,F1)和r(bk,F1)为横坐标,以r(aj,F2)和r(bk,F2)为纵坐标绘制单位圆周;其中,r(aj,F1)表示自变量aj和主成分F1的相关系数,所述的r(aj,F1)通过下式进行表达:
式中,所述的Var是方差,所述的Cov是协方差;
若r(ai,F1)在预设的圆环宽度D内,若aj与bj点间距离小于给预设值D,则判定自变量数据表中存在对因变量数据表起主导性影响的变量,执行S5;若不存在主导影响因素数据,则方法结束。
6.根据权利要求5所述的电力系统短路故障计算方法,其特征在于,所述的S5包括以下流程:
S5.1:根据时间标记,将自变量数据表A或自变量数据表A+和因变量数据表B分解为若干个数据表,自变量数据表A分解的数据表设为Anm:{a1,…,aj}nm;自变量数据表A+分解的数据表设为Anm +:{a1,…,aj}nm;因变量数据表B分解的数据表设为Bnm:{b1,…,bk}nm;所述的n为时间标记中的日标记;所述的m为时间标记中的时刻标记,m为整数,且m的取值范围是m=[1,24];
S5.2:在每个数据表Bnm中确定初始聚类中心;
S5.3:对每个数据表Bnm采用MapReduce函数并行执行K-中心聚类方法,得到每个数据表Bnm的主导影响因素数据;
S5.4:对所有数据表Bnm的聚类结果进行归约处理。
7.根据权利要求6述的电力系统短路故障计算方法,其特征在于,所述的S5.2包括以下内容:
通过公式d(bi,bj)度量数据表Bnm中的变量相似程度,所述的d(bi,bj)通过下式进行表达:
记变量bi与bj的相似性矩阵为U,所述的相似性矩阵U通过下式进行表达:
式中,所述的dij为变量bi与bj的相似性距离;
相似性矩阵U的最小距离理想解为:其中,
分别计算第i个变量bi到理想解的距离取距离最小的变量bi作为初始聚类中心。
8.根据权利要求7述的电力系统短路故障计算方法,其特征在于,所述的S5.3包括以下内容:
Map操作:通过S5.2确定每个数据表Bnm的初始聚类中心{bi}nm,输入数据表Anm:{a1,…,aj}nm或数据表Anm +:{a1,…,aj}nm至不同的Map处理单元,将影响因素的变量数据以行形式存储,记为数据片1、数据片2、……数据片p,指定聚类数为1,计算每个数据片到初始聚类中心的距离,并生成簇;标记该簇中变量所属的聚类类别ID,按距离大小重新将各数据片排序,并输出结果;
Reduce操作:根据Map输出结果重新计算每个簇的中心位置,将Map输出结果作为输入,所有属于同一簇的数据片累加相同的各数据片变量距离,求解各变量距离的均值,更新簇内中心;计算数据表Bnm中各变量与新的簇内中心之间的距离,选择距离最小的变量作为新的聚类中心;并输出结果;
判断新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进行一次MapReduce;若差值小于给定阈值,则输出各聚类类别ID下距离序号为1的数据片,该变量即为对应数据表的主导影响因素。
9.根据权利要求8述的电力系统短路故障计算方法,其特征在于,所述的S5.4包括以下内容:
通过S5.3输出聚类结果序列:Sn:{{ai}n1,{ai}n2,…,{ai}n24},统计聚类结果序列中每个变量的主导次数Ni=count({ai}nm),且0≤Ni≤24,将主导次数最多的变量作为用户在n日的用电行为的主导影响因素。
CN201810327870.8A 2018-04-12 2018-04-12 一种用户用电行为主导影响因素挖掘方法 Active CN108596227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810327870.8A CN108596227B (zh) 2018-04-12 2018-04-12 一种用户用电行为主导影响因素挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810327870.8A CN108596227B (zh) 2018-04-12 2018-04-12 一种用户用电行为主导影响因素挖掘方法

Publications (2)

Publication Number Publication Date
CN108596227A true CN108596227A (zh) 2018-09-28
CN108596227B CN108596227B (zh) 2023-08-08

Family

ID=63622025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810327870.8A Active CN108596227B (zh) 2018-04-12 2018-04-12 一种用户用电行为主导影响因素挖掘方法

Country Status (1)

Country Link
CN (1) CN108596227B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144682A (zh) * 2019-08-27 2020-05-12 广东电网有限责任公司 一种配电网运行效率主要影响因素挖掘方法
CN111401431A (zh) * 2020-03-12 2020-07-10 成都小步创想慧联科技有限公司 群租房识别方法及系统及存储介质
CN112906776A (zh) * 2021-02-05 2021-06-04 安徽容知日新科技股份有限公司 一种指标数据处理方法、装置和计算设备
CN116543838A (zh) * 2023-07-05 2023-08-04 苏州凌点生物技术有限公司 一种生物基因选择表达概率的数据分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1014287A2 (en) * 1998-12-14 2000-06-28 General Electric Company Multi-source information fusion system for dynamic risk assessment
US20040064438A1 (en) * 2002-09-30 2004-04-01 Kostoff Ronald N. Method for data and text mining and literature-based discovery
CN102073922A (zh) * 2010-12-10 2011-05-25 沈阳工业大学 基于影响因素筛选的短期负荷预测方法
CN104881706A (zh) * 2014-12-31 2015-09-02 天津弘源慧能科技有限公司 一种基于大数据技术的电力系统短期负荷预测方法
CN104914724A (zh) * 2015-05-28 2015-09-16 南京工业大学 基于cca和块式rpls的分布式在线建模方法
CN107356978A (zh) * 2017-07-11 2017-11-17 中国科学院电子学研究所 基于主成分分析的航磁补偿方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1014287A2 (en) * 1998-12-14 2000-06-28 General Electric Company Multi-source information fusion system for dynamic risk assessment
US20040064438A1 (en) * 2002-09-30 2004-04-01 Kostoff Ronald N. Method for data and text mining and literature-based discovery
CN102073922A (zh) * 2010-12-10 2011-05-25 沈阳工业大学 基于影响因素筛选的短期负荷预测方法
CN104881706A (zh) * 2014-12-31 2015-09-02 天津弘源慧能科技有限公司 一种基于大数据技术的电力系统短期负荷预测方法
CN104914724A (zh) * 2015-05-28 2015-09-16 南京工业大学 基于cca和块式rpls的分布式在线建模方法
CN107356978A (zh) * 2017-07-11 2017-11-17 中国科学院电子学研究所 基于主成分分析的航磁补偿方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李娟等: "基于典型相关的青少年心理健康影响因素研究", 《阜阳师范学院学报(自然科学版)》 *
李娟等: "基于典型相关的青少年心理健康影响因素研究", 《阜阳师范学院学报(自然科学版)》, vol. 33, no. 04, 15 December 2016 (2016-12-15), pages 93 - 97 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144682A (zh) * 2019-08-27 2020-05-12 广东电网有限责任公司 一种配电网运行效率主要影响因素挖掘方法
CN111401431A (zh) * 2020-03-12 2020-07-10 成都小步创想慧联科技有限公司 群租房识别方法及系统及存储介质
CN111401431B (zh) * 2020-03-12 2023-07-25 成都小步创想慧联科技有限公司 群租房识别方法及系统及存储介质
CN112906776A (zh) * 2021-02-05 2021-06-04 安徽容知日新科技股份有限公司 一种指标数据处理方法、装置和计算设备
CN112906776B (zh) * 2021-02-05 2024-02-27 安徽容知日新科技股份有限公司 一种指标数据处理方法、装置和计算设备
CN116543838A (zh) * 2023-07-05 2023-08-04 苏州凌点生物技术有限公司 一种生物基因选择表达概率的数据分析方法
CN116543838B (zh) * 2023-07-05 2023-09-05 苏州凌点生物技术有限公司 一种生物基因选择表达概率的数据分析方法

Also Published As

Publication number Publication date
CN108596227B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN106779087B (zh) 一种通用机器学习数据分析平台
CN108596227A (zh) 一种用户用电行为主导影响因素挖掘方法
CN109190890A (zh) 一种基于用户电力消费数据的用户行为分析方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN110503256A (zh) 基于大数据技术的短期负荷预测方法及系统
CN106022477A (zh) 智能分析决策系统及方法
CN101516099B (zh) 一种传感器网络异常检测方法
CN107862347A (zh) 一种基于随机森林的窃电行为的发现方法
CN105374209B (zh) 一种城市区域路网运行状态特征信息提取方法
CN106503086A (zh) 分布式局部离群点的检测方法
CN103440539B (zh) 一种用户用电数据处理方法
CN109948909A (zh) 一种电网数据采集分析方法及系统
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN108734216A (zh) 基于负荷曲线形态的电力用户分类方法、装置及存储介质
Liu et al. A moving shape-based robust fuzzy K-modes clustering algorithm for electricity profiles
CN109685567A (zh) 一种基于卷积神经网络和模糊聚类的用电客户画像新方法
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN106022578A (zh) 基于数据高维化和K-means聚类的居民用电峰谷平时段划分方法
Liu et al. Research on big data mining technology of electric vehicle charging behaviour
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
CN109389172B (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant