具体实施方式
下面结合附图对本发明的关键用电行业识别方法和系统的具体实施方式作详细描述。
参考图1,图1所示为一个实施例的关键用电行业识别方法流程图,包括如下步骤:
S101,获取待测区域中在设定时间段内各个行业的用电量统计数据;
上述步骤S101中,上述用电行业大致包括三个层次:第一层次可以包括第一产业,第二产业,第三产业,城乡居民生活用电量合计等;第二层次可以包括工业,商业住宿和餐饮业,公共事业及管理组织,金融、房地产、商务及居民服务业,建筑业,信息传输、计算机服务和软件业,交通运输、仓储和邮政业,农、林、牧、渔业等;第三层次可以包括交通运输电气电子设备制造业,橡胶和塑料制品业,金属制品业,服装鞋帽皮草羽绒及其制品业,批发和零售业,木材加工及制品和家具制造业等。上述用电行业还可以包括除上述以外的其他对象。基于行业全覆盖与避免重复的考虑,可以对用电行业作适当的合并整理。
上述设定时间段的单位可以包括月,季度,年等。
上述用电量统计数据可以包括总用电量,平均用电量,中位数用电量,标准差等。
S102,根据所述用电量统计数据筛选出待测区域中的关键用电行业根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类,得到各个行业所属的用电行业类别;
聚类分析作为一种被广泛应用的数据挖掘算法,能够以较高的处理效率获得数据在全局范围内的分布特征。聚类是将众多对象分为多个类或簇的过程,同一类中的对象尽可能相似,而不同类中的对象尽可能相异。以聚类算法所采用的基本思想为依据可将它们分为四类,即层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法。
本发明每个用电行业类别均用该类中所有数据的平均值(或加权平均)来表示,这个平均值即被称作聚类中心,该方法对于数值属性的数据能很好地体现聚类在几何和统计学上的意义。具有收敛速度快,算法简单等特点,并可以轻松部署到基于Hadoop的分布式大数据云计算平台,适用于分析海量的用电大数据。适合对各企业的用电量变化情况进行分类,找出典型的用电模式,并依此对行业进行分类。
在一个实施例中,运用聚类分析对各个行业进行用电分类,得到各个行业所属的用电行业类别的步骤包括:
随机设定数据集中的K(K属于自然数)个数据点作为初始聚类中心;其中,所述数据集包含若干个行业,每个行业的用电量统计数据序列有若干个数据点,每个数据点为预设时间段内的用电量统计数据;
计算所述数据集中的每个数据点与各个聚类中心的欧几里得距离;
将每个数据点归入与其距离最近的类别;
计算每个分类中心各个数据点的均值作为新的聚类中心;
判断数据点的类别划分是否发生变化,如果是,则输出聚类结果;否则,返回计算数据集中的每个数据点与各个聚类中心的欧几里得距离的步骤。
通过合理设定所述数据集,计算每个数据点与各个聚类中心的欧几里得距离将每个数据点归入相应的类别,并计算每个分类中心各个数据点的均值作为新的聚类中心,判断聚类结果是否准确,可以具有较高的分类准确性。
在一个实施例中,计算数据集中的每个数据点与各个聚类中心的欧几里得距离的步骤包括:
计算各类别中的数据点到其聚类中心uk的距离平方和:
其中,所述数据集包含n个行业,每个行业的用电量统计数据序列有d个数据点,每个数据点为预设时间段内的用电量统计数据,所述数据集表示为X={x1,x2,L,xi,L xn},其中将行业划分为C={c1,c2,L,ck,L,cK},ck为代表一个类别,每个类别都有一个中心uk,该中心为类别内各数据点的平均值。xi∈Rd。
通过合理设定所述数据集,按照上述方式计算的欧几里得距离准确度较高。
在另一个实施例中,还可以选择聚类分析中广泛应用的组间距离平方和BSS(Between-Cluster Sum of Squares)与总体距离平方和TSS(Total Sum of Squares)的比值BSS/TSS作为聚类结果的评价指标。BSS/TSS的值处于0%到100%之间,该值越接近100%,表示用电行业类别内的相似性越高,同时类别间的区分度更高,也就说明聚类的效果越好。
因此,计算数据集中的每个数据点与各个聚类中心的欧几里得距离的步骤包括:
计算组间距离平方和与总体距离平方和的比值BSS/TSS;
其中,所述数据集包含n个行业,每个行业的用电量统计数据序列有d个数据点,每个数据点为预设时间段内的用电量统计数据,所述数据集表示为X={x1,x2,L,xi,L xn},其中,将行业划分为C={c1,c2,L,ck,L,cK},ck为代表一个类别,每个类别都有一个中心uk,该中心为类别内各对象的平均值。xi∈Rd。
通过合理设定所述数据集,按照上述方式计算的欧几里得距离准确度也较高。
本实施例中,还可以分别对时间跨度、用电量级和季节性变化的影响进行分析检验,提高聚类结果的可靠性。
对于分析时间跨度的影响,在根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类之后,进一步包括以下步骤:
根据所述用电量统计数据和所述对各用电行业的分类结果,在不同时间间隔上分别计算各个行业的聚类效果;
比较各时间间隔上的聚类效果,根据各时间间隔上的聚类效果的相似度,判断所述分类结果的准确性。
比较各时间跨度上聚类效果,若各时间跨度上的聚类效果相似度高于预设相似度阈值,则时间跨度的选择对聚类效果的影响小;反之相反。
对于用电量级的影响,在一个实施例中,根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类包括以下步骤:
对用电量统计数据进行标准化处理,使经过处理的数据符合正态分布,均值为0,标准差为1;
对标准化后的行业月度用电序列进行聚类分析,若每次聚类分析获得的聚类结果的误差大于预设的误差阈值,则进一步根据行业用电量级对各个行业进行用电分类。
因此,本实施例能够分析行业用电量级对各个行业进行用电分类的影响。
并且,对用电量统计数据进行标准化处理的步骤可包括:
对于每个行业的月度用电量序列,对序列中的每个值x按如下方式进行标准化变换:
其中,u为序列均值,σ为序列标准差。
通过上述方式对用电量统计数据进行标准化处理,能够提高数据准确性。
对于季节性变化的影响,在一个实施例中,根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类之后,进一步包括以下步骤:
对行业月度用电序列进行分解,把每个序列分解为季节性部分(S),长期趋势部分(T)和不规则部分(R)的叠加:
xt=St+Tt+Rt
通过季节性修正去除季节性变化部分,对修正后的数据进行聚类分析,若聚类结果与修正前相一致,则忽略季节性变化部分对聚类结果的影响。
行业月度用电序列属于季节性数据,其中包含了有规律的季节性变化部分。为了检验季节性变化部分是否对聚类结果造成影响,本实施例对行业月度用电序列进行分解,即把每个序列分解为季节性部分(S),长期趋势部分(T)和不规则部分(R)的叠加,通过季节性修正去除了季节性变化部分,对修正后的数据进行聚类分析,若发现聚类结果与修正前相一致,则说明季节性变化部分没有对聚类结果造成影响;反之相反。若发现BSS/TSS值变大,则去除了季节性变化部分后,类别区分度更高;反之相反。
S103,根据所述用电量统计数据和用电行业类别计算出各个用电行业类别的用电量占比。
上述各个用电行业类别的用电量占比可以通过用电行业类别中的所有行业对应的用电量统计数据在整个待检测地区的用电量统计数据中的比例来计算。
S104,根据所述用电量统计数据和所述用电行业类别计算出各个用电行业类别的用电量波动对总用电量波动的影响值;
在一个实施例中,根据所述用电量统计数据和所述用电行业类别计算出各个用电行业类别的用电量波动对总用电量波动的影响值的步骤包括:
按照以下方式计算每个用电行业类别中的各个行业移除前后所引起的方差变化的均值作为所述影响值:
其中,C为一个用电行业类别,i为该用电行业类别中的一个行业,Varbefore为移除该行业i前总体用电量的方差,Varafter(i)为移除该行业i后总体用电量的方差,AVD为用电行业类别C的中的各个行业移除前后所引起的方差变化的均值。
本实施例为了测量各分类的波动影响,计算从总体用电序列中分别移除各个行业前后的方差变化,并计算每个用电行业类别中各行业移除前后所引起的方差变化的均值AVD(Average Variance Difference)。AVD值越大,则表示此类行业对总体用电量的波动影响越大。
S105,根据各个用电行业类别的所述用电量占比和所述影响值大小,判断所述用电行业类别所包含的行业是否关键用电行业。
在一个实施例中,步骤S50包括以下步骤:如果所述影响值大于预设的影响阈值,则判断所述用电行业类别包含的行业是关键用电行业。
影响值大于预设的影响阈值说明该用电行业类别包含的行业对整个待检测地区的用电量占比和所述影响值较大。
在一个实施例中,根据各个用电行业类别的所述用电量占比和所述影响值大小,判断所述用电行业类别包含的行业是否关键用电行业的步骤进一步包括:
如果用电量占比大于预设占比的用电行业类别,与影响值大于预设影响阈值的用电行业类别相一致,则该用电行业类别包含的行业为关键用电行业;
如果用电量占比大于预设占比的用电行业类别,与影响值大与预设影响阈值的用电行业类别不一致,则返回对所述待测区域中的各个行业进行用电分类的步骤。
根据所述各用电行业类别的用电量占比和所述各类别的用电量波动对总用电量波动的影响大小,如果用电量占比大的用电行业类别与用电量波动对总用电量波动影响大的用电行业类别相一致,则该用电行业类别包含的行业即为关键用电行业;如果用电量占比大的用电行业类别与用电量波动对总用电量波动影响大的用电行业类别不一致,则需返回以上步骤重新对各用电行业进行分类,一直迭代到用电量占比大的类别与用电量波动对总用电量波动影响大的类别相一致为止。
本发明的关键用电行业识别方法通过获取预设时间段内待测区域中的各个行业的用电量统计数据,根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类,得到各个行业所属的用电行业类别;然后根据所述用电量统计数据和用电行业类别计算出各个用电行业类别的用电量占比,再根据所述用电量统计数据和所述用电行业类别计算出各个用电行业类别的用电量波动对总用电量波动的影响值大小。最后根据各个用电行业类别的所述用电量占比和所述影响值大小,判断所述用电行业类别所包含的行业是否关键用电行业,从而实现准确的关键用电行业识别。
参考图2,图2所示为一个实施例的关键用电行业识别系统结构示意图。
所述关键用电行业识别系统包括:
数据获取模块10,用于获取预设时间段内待测区域中的各个行业的用电量统计数据;
聚类模块20,用于根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类,得到各个行业所属的用电行业类别;
用电占比计算模块30,用于根据所述用电量统计数据和用电行业类别计算出各个用电行业类别的用电量占比;
影响值计算模块40,用于根据所述用电量统计数据和所述用电行业类别计算出各个用电行业类别的用电量波动对总用电量波动的影响值;
识别模块50,用于根据各个用电行业类别的所述用电量占比和所述影响值大小,判断所述用电行业类别所包含的行业是否关键用电行业。
本发明的关键用电行业识别系统与本发明的关键用电行业识别方法一一对应,在上述关键用电行业识别方法的实施例阐述的技术特征及其有益效果均适用于关键用电行业识别系统的实施例中,特此声明。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。