CN111324642A

CN111324642A - 一种面向电网大数据分析的模型算法选型与评价方法

Info

Publication number: CN111324642A
Application number: CN202010194935.3A
Authority: CN
Inventors: 王宏刚; 纪鑫; 刘识; 赵晓龙; 余婷; 刘�文; 李君婷; 赵宇亮; 张帆
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2019-12-12
Filing date: 2020-03-19
Publication date: 2020-06-23
Also published as: CN110990461A

Abstract

本发明实施例提供一种面向电网大数据分析的模型算法选型与评价方法。该方法包括：获取电网业务数据；采用选型模型确定用于分析电网业务数据的模型的类别；采用同一类别中的不同模型分别处理电网业务数据，得到同一类别中不同模型的数据处理结果；根据数据处理结果，采用与当前模型类别对应的评价策略确定同一类别中各个模型的至少两个评价指标值；根据至少两个评价指标值由同一类别对应的至少两个模型中选择推荐模型；采用推荐模型进行数据分析。本发明实现根据电网业务数据快速确定数据分析需使用的模型的类别，并通过评价策略对所确定的类别中至少两个模型进行定量化评估，从至少两个模型中选择出推荐模型，提高模型推荐的准确性和科学性。

Description

一种面向电网大数据分析的模型算法选型与评价方法

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种面向电网大数据分析的模型算法选型与评价方法。

背景技术

大数据技术是目前国内外各行各业都在研究的一个热点项目。随着全球范围内大数据改变带来的技术挑战，我国也越来越重视大数据技术的实际运用。近年来，随着国家电网管理重点从集中、统一向精细、高效的转变，结合“互联网+”时代背景下信息技术的高速发展和各种数字化技术的广泛应用，国家电网与数字化技术的发展融合以成为趋势。大数据实现了对数据的集成、分析和处理，支持着国网企业相关业务的海量数据检索。大数据技术基于大量高维多变数据的视角，直接鲜明地展现出国网的统筹设计，将会更好的支撑电网的规划和发展。

大数据在电网中的应用蕴藏着巨大的商业价值和社会价值,挖掘电力大数据的价值面临巨大的机遇。智能电网基于数据和能源的同步传输，促进能源与信息技术的深度融合，逐渐形成以能源、数据为运行体系支撑下的坚强可靠、清洁环保、友好互动的能源管理网络。大数据电网的挖掘很好地实现了智能用电管理，大幅度提升能源效率。用户因此得以实时掌握用电性能、耗电数据、即时电价等，由此实现能源的二次循环和高效使用。电网统筹量大面广，资产管理难度较大，同时需要大量基础数据，这正是大数据的优势，利用大数据技术可实现配电网在资产管理体系、模型方法、信息交互等多方面的提升，以根本提高配电资产管理水平。另外，在数据来源方面，大部分数据的开放程度比较低，其获取存在一定难度。在数据质量方面，电力行业数据可获取的颗粒程度，数据获取的及时性、完整性和一致性等方面尚未达到理想水平，应继续完善和提升。

模型和算法是大数据分析中的两个核心问题。大数据分析模型的研究可以分为3个层次，即描述分析、预测分析和规范分析。描述分析探索历史数据，并描述发生了什么，这一层次包括发现数据规律的聚类、相关规则挖掘、模式发现和描述数据规律的可视化分析；预测分析用于预测未来的概率和趋势，例如基于逻辑回归的预测、基于分类器的预测等；规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议，例如基于模拟的复杂系统分析和基于给定约束的优化解生成。大数据分析算法的研究则针对特定的分析模型设计高效的算法，并研究如何提高算法的可扩展性、实时性等。电网大数据除了具有大数据的5V(即volume、velocity、variety、value、 veracity)特征，还具有诸多与电力生产特性密切相关的特征，如数据来源多样、数据质量低、数据蕴含信息复杂、耦合不确定、数据实时性高等，这使得电网大数据分析的模型更加复杂多样，对算法的实时性要求更高。

目前针对各种模型和算法都有一系列参数和指标可以进行算法评价和对比。但是在实际应用中，由于分析人员的技术背景参差不齐，若依赖分析人员进行模型选型、模型使用、参数配置及模型评价等，不能很好的保证模型选型的准确性和科学性，增加了模型在电网场景下的应用难度。

发明内容

本发明实施例提供一种面向电网大数据分析的模型算法选型与评价方法，可以提供自动化的模型选型及评价方案，简化了模型选型工作。

本发明实施例提供了一种面向电网大数据分析的模型算法选型与评价方法，包括：

获取电网业务数据；

采用选型模型确定用于分析所述电网业务数据的模型的类别，根据所述类别查询预先构建的模型算法库，得到与所述类别对应的至少两个采用不同算法构建的模型；

采用所述不同算法构建的模型分别处理所述电网业务数据，得到所述类别包含的至少两个模型的数据处理结果；

根据所述数据处理结果，采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值；

根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型，采用所述推荐模型进行数据分析。

可选的，采用选型模型确定用于分析所述电网业务数据的模型的类别，包括：

输入所述电网业务数据到选型模型，其中，所述选型模型通过带有模型类别标签的样本数据、经过监督式训练的方式构建；

获取所述选型模型输出的用于分析所述电网业务数据的模型的类别，其中，所述类别包括关联规则类、分类模型类、回归模型类和聚类模型类。

其中，在训练选型模型之前，还包括：

获取样本数据，将所述样本数据输入采用关联规则类、分类模型类、回归模型类和聚类模型类算法构建的选型模型，得到输出结果；

根据所述输出结果计算各个算法构建的选型模型的评价指标值，根据所述评价指标值为所述样本数据添加模型类别标签。

其中，所述评价策略包括：采用支持度和置信度作为评价指标，评价所述关联规则类的模型；采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标，评价所述分类模型类的模型；采用误差平方和决定系数作为评价指标，评价所述回归模型类的模型；采用聚类趋势估计、数据集中的簇数和聚类质量作为评价指标，评价所述聚类模型类的模型。

可选的，所述根据所述数据处理结果，采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值，包括：

根据所述数据处理结果和所述类别对应的评价策略的评价指标的公式，计算所述类别包含的各个模型的评价指标值。

其中，采用如下公式计算支持度和置信度：

支持度＝(X,Y).count/T.count；

置信度＝(X,Y).count/X.count；

其中，(X,Y).count表示I同时包含X和Y的事务的个数，X.count表示I 中包含X的事务的个数，X，Y是I的真子集，并且X和Y的交集为空集。

采用如下公式计算查准率、查全率、F-score和正确率：

查准率

查全率

正确率

其中，TP表示所述数据处理结果中真实标签为1，预测标签为1的数量， FP表示所述数据处理结果中真实标签为0，预测标签为1的数量；FN表示所述数据处理结果中真实标签为1，预测标签为0的数量；TN表示所述数据处理结果中真实标签为0，预测标签为0的数量。

采用如下公式计算误差平方和决定系数：

聚类趋势估计评价。对于给定的数据集，评估该数据集是否存在非随机结构。盲目地在数据集上使用聚类方法将返回一些簇，所挖掘的簇可能是误导。数据集上的聚类分析是有意义的，仅当数据中存在非随机结构。聚类趋势评估确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。一个没有任何非随机结构的数据集，如数据空间中均匀分布的点，尽管聚类算法可以为该数据集返回簇，但这些簇是随机的，没有任何意义。聚类要求数据的非均匀分布。常用的评价指标是霍普金斯统计量(Hopkins Statistic)，属于一种空间统计量，用于检验空间分布的变量的空间随机性。计算步骤如下：

(1)均匀地从D的空间中抽取n个点p₁,p₂,...p_n，对每个点p_i(1≤i≤n)，找出 p_i在D中的最近邻，并令x_i为p_i与它在D中的最近邻之间的距离，即

(2)均匀地从D的空间中抽取n个点q₁,q₂,...q_n，对每个点q_i(1≤i≤n)，找出 q_i在D-{q_i}中的最近邻，并令y_i为q_i与它在D-{q_i}中的最近邻之间的距离，即

(3)计算霍普金斯统计量H：

如果D是均匀分布的，则

和

将会很接近，H大约为0.5.而如果D是高度倾斜的，则

将会显著小于

因而H将会接近与0。

聚类簇数估计评价。K-均值这样的算法需要数据集的簇数作为参数，簇数也可以看作是数据集的有趣并且重要的概括统计量。因此，在使用聚类算法导出详细的簇之前，对簇数进行估计是可取的。常用的方法有肘方法和交叉验证法。

肘方法(elbow method)。给定k>0,使用像K-均值这样的算法对数据集聚类，并计算簇内方差和var(k)。然后，绘制var关于k的曲线。曲线的第一个(或最显著的)拐点暗示“正确的”簇数。

交叉验证法。将数据分为m部分；用m-1部分获得聚类模型，余下部分评估聚类质量(测试样本与类中心的距离和)；对k>0重复m次，比较总体质量，选择能获得最好聚类质量的k。

聚类质量评估评价。在数据集上使用聚类方法之后，需要评估结果簇的质量。常用的两类方法为外在方法和内在方法。

外在方法。有监督的方法，需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。通常使用多种指标进行衡量。

(1)指标衡量法：

Jaccard系数(Jaccard Coefficient,JC)：

FM指数(Fowlkes and Mallows Index,FMI)：

Rand指数(Rand Index,RI)：

其中，a+b+c+d＝m(m-1)/2。

上述性能度量的结果值均在[0，1]区间，值越大越好。

(2)质量度量法：用Q(C,C_g)表示聚类C在给定基准数据C_g条件下的质量度量。

Q的好坏取决于四个条件：

簇的同质性：簇内越纯越好。

簇的完整性：能够将基准数据中属于相同类的样本聚类为相同的类。

碎布袋：把一个异种数据加入纯类应该比放入碎布袋受到更大的“处罚”。

小簇的保持性：把小簇划分成更小簇比把大簇划分为小簇的危害更大。

BCubed精度和召回率：一个对象的精度指示同一个簇中有多少个其他对象与该对象同属一个类别。一个对象的召回率反映有多少同一类别的对象被分配在相同的簇中。

设D＝{o₁,o₂,...o_n}是对象的集合，C是D中的一个聚类。设L(o_i)(1≤i≤n) 是基准确定的o_i的类别，C(o_i)是C中o_i的cluster_ID，对于两个对象o_i和o_j(1 ≤i,j≤n,i≠j),它们之间在聚类C中的关系的正确性由

给出。

BCubed精度定义为：

BCubed召回率定义为：

对于无监督的方法，无需基准数据。直接评价类内聚集程度和类间离散程度。

考虑聚类结果的簇划分C＝{C1,C2,...,Ck},定义簇C内样本间的平均距离：

簇C内样本间的最远距离：

diam(C)＝max_{1≤i≤j≤|c|}dist(x_i,x_j)

簇Ci与簇Cj最近样本间的距离：

簇Ci与簇Cj中心点间的距离：

d_cen(C)＝dist(μ_i,μ_j)

DB指数(Davies-Bouldin Index，DBI)：

Dunn指数(Dunn Index，DI)：

DBI值越小越好，而DI则相反，值越大越好。

轮廓系数(silhouette coefficient)，对于D中的每个对象o,计算o与o所属的簇内其他对象之间的平均距离a(o)：

b(o)是o到不包含o的所有簇的最小平均距离：

轮廓系数定义为：

轮廓系数的值在-1和1之间。

a(o)的值反映o所属的簇的紧凑性。该值越小，簇越紧凑。

b(o)的值捕获o与其他簇的分离程度。b(o)的值越大，o与其他簇越分离。

当o的轮廓系数值接近1时，包含o的簇是紧凑的，并且o远离其他簇，这是一种可取的情况。当轮廓系数的值为负时，这意味在期望情况下，o距离其他簇的对象比距离与自己同在簇的对象更近，许多情况下，这很糟糕，表示聚类结果非常不好。

可选的，所述采用所述不同算法构建的模型分别处理所述电网业务数据，得到所述类别包含的至少两个模型的数据处理结果，包括：

将所述电网业务数据分别输入采用所述不同算法构建的模型，分别获取各个模型输出的数据处理结果。

可选的，根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型，包括：

在所述评价指标值均满足设定条件时，比较所述类别中不同模型的评价指标值，判断是否存在所述至少两个评价指标值均较高的模型；

若是，则将所述至少两个评价指标值均较高的模型作为推荐模型；

否则，根据评价指标的权重获取所述类别对应的评价策略中高权重评价指标值，比较所述类别中不同模型的所述高权重评价指标值，将所述高权重评价指标值最大的模型作为推荐模型。

本发明实施例的技术方案，通过获取电网业务数据；采用选型模型确定用于分析电网业务数据的模型的类别；采用同一类别中的不同模型分别处理电网业务数据，得到同一类别中不同模型的数据处理结果；根据数据处理结果，采用与当前模型类别对应的评价策略确定同一类别中各个模型的至少两个评价指标值；根据至少两个评价指标值由同一类别对应的至少两个模型中选择推荐模型；采用推荐模型进行数据分析。通过本发明实施例的技术方案，实现根据电网业务数据快速确定数据分析需使用的模型的类别，并通过评价策略对所确定的类别中至少两个模型进行定量化评估，进而从至少两个模型中选择出推荐模型，提高模型推荐的准确性和科学性。

附图说明

图1为本发明实施例提供的一种面向电网大数据分析的模型算法选型与评价方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种面向电网大数据分析的模型算法选型与评价方法的流程图。如图1所示，该方法包括：

步骤110、获取电网业务数据。

示例性的，获取特定时间长度内的电网业务数据作为检测数据，以通过选型模型根据所获取的该检测数据确定采用何种类别的模型处理该电网业务数据。需要说明的是，特定时间长度可以根据技术人员的选择缩短或延长，本发明实施例并不作具体限定。例如，特定时间长度可以是1周、2周或1个月等。

步骤120、采用选型模型确定用于分析所述电网业务数据的模型的类别，根据所述类别查询预先构建的模型算法库，得到与所述类别对应的至少两个采用不同算法构建的模型。

需要说明的是，通过调研和整理目前主流的大数据分析模型算法，根据不同的业务场景和应用需求，将不同的模型和算法划分不同的类别，构建模型算法库，服务于公司数据分析应用工作，为公司大数据价值挖掘提供算法服务支撑。其中，模型算法库中，同一类别的模型包含至少两个采用不同算法构建的模型。

例如，对于关联规则类，主要的算法是Apriori算法和FP-Growth算法。可以分别基于Apriori算法和FP-Growth算法构建关联规则类模型。对于分类模型类和回归模型类，主要的算法是决策树算法和神经网络算法，可以分别基于决策树算法和神经网络算法构建分类模型类的模型或回归模型类的模型。对于聚类模型类，主要的算法是层次聚类算法，例如BIRCH算法、CURE算法以及 ROCK算法，可以分别基于BIRCH算法、CURE算法以及ROCK算法构建聚类模型类的模型。

本发明实施例中，在获取电网业务数据之后，输入电网业务数据到选型模型，获取选型模型输出的用于分析电网业务数据的模型的类别。其中，选型模型可以是机器学习模型，所采用的算法可以包括循环神经网络(Recurrent neural networks,RNN)、长短期记忆(Long Short-Term Memory,LSTM)网络、门限循环单元、简单循环单元、自动编码器、决策树、随机森林、特征均值分类、分类回归树、隐马尔科夫、K最近邻(k-NearestNeighbor，KNN)算法、逻辑回归模型、贝叶斯模型、高斯模型以及KL散度(Kullback–Leibler divergence)等等。

可以将标记了模型类别标签的历史电网业务数据作为训练样本，采用监督式训练的方式对机器学习模型进行训练，得到选型模型。

其中，基于如下策略进行数据标记：

通过对电网大数据分析常用的模型进行归类整理之后，发现常用模型的类别包括关联规则类、分类模型类、回归模型类和聚类模型类等。不同类别的模型用于解决的大数据分析方面的问题也有所差别。例如，窃电用户肖像描写、季节性用电高峰分析和关联因素用电分析等问题往往属于关联规则分析问题，窃电用户分类测试、用电量曲线预测和迎峰度夏阈值预测等问题往往属于分类预测问题，用电用户等级划分、潜在用户挖掘和电力物资特性划分等问题往往属于聚类分析问题等。因此，在对数据进行标记时，遵循如下原则：采用关联规则类的模型分析挖掘无标签的电网业务数据；采用分类模型类或回归模型类的模型处理具有标签的电网业务数据以及监督场景；采用聚类模型类的模型处理没有标签但需要类别划分的电网业务数据。依据上述原则将分析后的历史电网业务数据标记上对应的模型类别标签。

步骤130、采用所述不同算法构建的模型分别处理所述电网业务数据，得到所述类别包含的至少两个模型的数据处理结果。

示例性的，将所获取的电网业务数据分别输入所述类别下的至少两个采用不同算法构建的模型，得到不同模型输出的数据处理结果。例如，通过分类模型类分析电网业务数据，可以决策树算法和神经网络算法分别构建不同的分类模型，以处理电网业务数据。可选的，由于常用的决策树算法包括ID3算法、 C4.5算法和CART算法，则可以采用不同的算法构建至少4个分类模型。将电网业务数据分别输入上述不同算法构建的分类模型，得到不同模型输出的数据处理结果。

步骤140、根据所述数据处理结果，采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值。

其中，评价策略包括：采用支持度和置信度作为评价指标，评价所述关联规则类的模型；采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标，评价所述分类模型类的模型；采用误差平方和决定系数作为评价指标，评价所述回归模型类的模型；采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标，评价所述聚类模型类的模型。

评价指标值是根据评价策略计算数据处理结果得到的不同模型的用于定量评价的数值。

示例性的，根据数据处理结果和所类别对应的评价策略的评价指标的公式，计算所述类别包含的各个模型的评价指标值。需要说明的是，计算评价指标值的公式有很多，本发明实施例并不作具体限定。

步骤150、根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型，采用所述推荐模型进行数据分析。

示例性的，在确定了所述类别中不同模型的评价指标值之后，判断各模型得到评价指标值是否满足设定条件，若是，则比较所述类别中不同模型的评价指标值。其中，设定条件可以是根据经验值设置数值阈值，若评价指标值均小于数值阈值，则认为当前模型类别下所有模型的分析结果均不好，调整模型参数或调整样本数据后，重新进行数据分析，得到数据处理结果。基于数据处理结果重新计算各个模型的评价指标值，再判断新确定的评价指标值是否满足设定条件。按照上述方式进行多次的反复迭代，直至所有评价指标值均满足设定条件。

若评价指标均满足设定条件，则判断是否存在所述至少两个评价指标值均较高的模型；若是，则将所述至少两个评价指标值均较高的模型作为推荐模型；否则，根据评价指标的权重获取所述类别对应的评价策略中高权重评价指标值，比较所述类别中不同模型的所述高权重评价指标值，将所述高权重评价指标值最大的模型作为推荐模型。

由于评价指标值不唯一，在通过评价指标值进行评价时，若比较所述类型中不同模型的相同评价指标值，得出某一个模型的各项评价指标值均高于其它模型，则将该模型作为推荐模型。

如果没有一个模型的各项评价指标均高于其它模型，则要确定评价指标权重较高的一个评价指标。评价指标的权重是根据经验预先设定的。比较所述类别中不同模型的较高权重的评价指标对应的高权重评价指标值，得出某一个模型的高权重评价指标值高于其它模型，则将该模型作为推荐模型。

例如，采用分类模型类中的A1、A2、A3、A4和A5这5个模型处理电网业务数据，并基于数据处理结果对各个模型进行评价，比较各个模型的查准率、查全率、F-score和正确率。假设A3的查准率、查全率、F-score和正确率的数值均高于其余4个模型的查准率、查全率、F-score和正确率，则确定模型A3 为推荐模型。

如果不存在某个模型的查准率、查全率、F-score和正确率均高于其余模型，则获取查准率、查全率、F-score和正确率中权重最高的评价指标的评价指标值用于比较。由于F-score是查准率和查全率的调和平均值，可以设置该评价指标具有高于其它评价指标的权重。因此，获取各个模型对应的F-score进行比较，确定F-score高于其它模型的一个作为推荐模型。

示例性的，在确定推荐模型之后，根据预设的分析周期获取电网业务数据，将所获取的电网业务数据输入该推荐模型进行数据分析。需要说明的是，分析周期可以根据电网分析业务的需求设置，可以是1周、1个月、3个月或半年等，本发明实施例对分析周期并不作具体限定。

本实施例的技术方案，通过采用选型模型自动确定用于分析所述电网业务数据的模型的类别；并采用该类别下不同算法构建的模型分别处理电网业务数据，得到该类别下不同模型的数据处理结果；根据数据处理结果，采用与该类别对应的评价策略确定该类别下各个模型的至少两个评价指标值；根据至少两个评价指标值由该类别对应的至少两个模型中选择推荐模型，进而，采用所述推荐模型进行数据分析。通过本发明实施例的技术方案，实现根据电网业务数据快速确定数据分析需使用的模型的类别，并通过评价策略对所确定的类别中至少两个模型进行定量化评估，进而从至少两个模型中选择出推荐模型，提高模型推荐的准确性和科学性。

本发明实施例中，可选的，可以采用无监督的方式训练选型模型。例如，将一定时间段的样本数据分别输入关联规则类的算法构建的选型模型、分类模型类的算法构建的选型模型、回归模型类的算法构建的选型模型和聚类模型类的算法构建的选型模型，得到多个数据输出结果。可以采用每个类别对应的评价策略结合采用不同类型的算法构建的选型模型的数据输出结果，对各个类别包含的算法构建的选型模型进行评价，确定该类别下最优的选型模型。例如，对于关联规则类的算法构建的选型模型，采用支持度和置信度作为评价指标，根据评价指标确定关联规则类的最优选型模型。对于分类模型类的算法构建的选型模型，采用查准率、查全率、F-score和正确率作为评价指标，根据评价指标确定分类模型类的最优选型模型。对于回归模型类的算法构建的选型模型，采用误差平方和决定系数最为评价指标，根据评价指标确定回归模型类的最优选型模型。对于聚类模型类的算法构建的选型模型，采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标，根据评价指标确定聚类模型类的最优选型模型。

以关联规则类、分类模型类、回归模型类和聚类模型类作为评价对象，综合比较四类算法模型，以确定最优算法模型。假设上述已确定的各个类别的最优选型模型对应的算法分别是A、B、C和D，每一类算法对应的评价指标值分别是A1和A2，B1、B2、B3和B4，C1和C2，D1、D2和D3，即得到评价对象的一级评价指标。采用

的方式计算每个评价指标值的权重，其中，x表示上述评价指标值，∑x表示上述所有评价指标值得总和。例如，评价指标值A1得权重

采用相同方法分别计算出其余评价指标值的权重。假设采用a1和a2，b1、b2、b3和b4，c1和c2，d1、d2和d3表示各个评价指标值的权重，则可以采用加权的方式计算每个类别的模型算法的加权评价指标值，即得到评价对象的二级评价指标。例如，对于关联规则类模型算法，加权评价指标值A′＝A1×a1+A2×a2，同样地，对于分类模型类模型算法，加权评价指标值B′＝B1×b1+B2×b2+B3×b3+B4×b4，对于回归模型类模型算法，加权评价指标值C′＝C1×c1+C2×c2，对于聚类模型类模型算法，加权评价指标值D′＝D1×d1+D2×d2+D3×d3。采用

的方式计算每个加权评价指标值的权重。例如，对于关联规则类模型算法，A′的权重

对于分类模型类模型算法，B′的权重

对于回归模型类模型算法，C′的权重

对于聚类模型类模型算法，D′的权重

可以采用加权的方式对每个类别的模型算法的加权评价指标值与权重进行计算，得到评价对象的三级评价指标。比较关联规则类、分类模型类、回归模型类和聚类模型类对应的三级评价指标，根据比较结果确定最优算法模型。可以为输入选型模型的样本数据添加最优算法模型对应的类别的标签。假设最优算法模型是分类模型，则为输入选型模型的样本数据添加模型类别标签。

表1为算法模型综合评价表。

本发明实施例提供一个具体的示例如下：

本方法能够对关联规则分析问题、分类回归分析问题、聚类分析问题等问题进行分析，基本覆盖了国网主流的大数据分析挖掘问题，可以满足国网多种模型选型和数据分析需求。下面以窃电用户分析问题为例，展示本发明实施例的实现过程。

由于窃电用户分析问题的原始数据为特定用户在一定时期内的用电量数据，以及用户自身信息，个人用户包括姓名、性别、年龄、职业、籍贯、工资收入等，企业用户包括企业行业、近年产值、企业规模、用电类型等。此外，还有一部分来自银行、工商局、气象局的外部数据，例如个人及企业的信用信息，企业财务状况、特定时间内的气象信息等。形式表现为具有多个维度的多套数据表。其中，有些用户在之前的业务中已经确定存在窃电行为，所以可以标注为窃电用户。因此，窃电用户分析问题的数据是具有标签的复合型数据。

将原始数据输入选型模型，该选型模型输出该原始数据适用的模型的类别，实现基于对窃电用户分析问题涉及的原始数据进行场景抽象，进而确定适用于该场景的模型的类别。由于窃电用户往往会表现出一定的反常行为，例如个人用户缴费间隔特别久、长时间极低用电量等，企业用户表现为财务状况不佳、企业现金流减少、夏季用电高峰期耗电量依旧维持在较低水平等，具有这些特征的数据往往被标记成使用关联规则类的标签，进而用于训练选型模型。因此，将原始数据输入选型模型，可能准确快速地确定原始数据适用关联规则类模型。

在确定使用关联规则类模型分析原始数据之后，可以使用Apriori算法和 FP-Growth算法分别对输入的原始数据进行分析，确定原始数据中各特征的特征关联度，然后，使用支持度指标计算公式和置信度指标计算公式，基于模型输出的特征关联度对Apriori算法和FP-Growth算法进行评价。比较Apriori算法和FP-Growth算法对应的支持度指标值和置信度指标值，假设Apriori算法具有较大的支持度指标值和置信度指标值，则推荐使用Apriori算法构建的关联规则类模型对原始数据进行分析。预先设置支持度具有较高的权重。假设使用 Apriori算法构建的关联规则类模型处理原始数据的数据处理结果具有较高的置信度，较低的支持度；使用FP-Growth算法构建的关联规则类模型处理原始数据的数据处理结果具有较高的支持度，较低的置信度，由于支持度具有较高的权重，因此，推荐使用FP-Growth算法构建的关联规则类模型对原始数据进行分析。

在通过关联规则类模型对原始数据进行分析后，得到具有较高关联度的特征，可以基于高关联度的特征和用户在特定时期内的用电量数据进行窃电用户预测。由于用户在特定时期内的用电量数据，由于部分用户已经确定为窃电用户，因此存在窃电标签，这类场景属于有标签或者监督场景，为用电量数据添加模型类别标签。例如，可以结合高关联度的特征和用户在特定时期内的用电量数据，形成标注窃电用户的具有标签的数据。其中，上述特征是与窃电用户具有较高关联度的特征，通过高关联度的特征分析用户特定时期内的用电量数据，筛选出其中符合窃电用户特征的用电量数据，并标注上窃电用户标签。

例如，将用户特定时期内的用电量数据输入采用ID3、C4.5、CART以及卷积神经网络训练的分类模型后，采用上述不同算法的分类模型分析特定时期内的用电量数据，得到数据处理结果。根据不同算法构建的分类模型的数据处理结果，使用查准率、查全率、调和平均值F-score和准确率四个参数对进行各模型进行评价，选择各项指标值均较高的模型作为待推荐模型，使用待推荐模型处理特定时期内的用电量数据。若无法确定各项指标均较高的模型，则选择调和平均值F-score最高的模型作为待推荐模型。

本方法提供了一套完整的面向电网大数据分析的模型算法选型与评价方法，利用该方法，对于国网常用的电网大数据分析场景，都可以快速确定场景特点和数据类型，从而简化问题分析难度。针对确定的场景，可以直接选择本方法集成的算法和模型进行分析，从而快速确定需使用的模型类别，提高大数据分析的效率。针对对应的算法和模型，由于本方法已经集成了模型类别相应的评价策略，因此可以直接使用评价策略对算法模型进行定量化评估，从而提高模型评价的准确性和科学性。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种面向电网大数据分析的模型算法选型与评价方法，其特征在于，包括：

获取电网业务数据；

2.根据权利要求1所述的方法，其特征在于，采用选型模型确定用于分析所述电网业务数据的模型的类别，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求2所述的方法，其特征在于，所述评价策略包括：

采用支持度和置信度作为评价指标，评价所述关联规则类的模型；

采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标，评价所述分类模型类的模型；

采用误差平方和决定系数作为评价指标，评价所述回归模型类的模型；

采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标，评价所述聚类模型类的模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述数据处理结果，采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值，包括：

6.根据权利要求1所述的方法，其特征在于，所述采用所述不同算法构建的模型分别处理所述电网业务数据，得到所述类别包含的至少两个模型的数据处理结果，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型，包括：