CN114118269A

CN114118269A - 基于典型业务场景下的能源大数据聚合分析方法

Info

Publication number: CN114118269A
Application number: CN202111417364.6A
Authority: CN
Inventors: 蒋荣; 吉涛; 谢禄江; 唐巍; 孙洪亮; 吴维农; 段立; 刘玮洁; 宣东海; 陈可; 肖坤; 张智儒; 周成; 董新微; 刘晓强
Original assignee: Big Data Center Of State Grid Corp Of China; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Chongqing Electric Power Co Ltd
Current assignee: Big Data Center Of State Grid Corp Of China; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Chongqing Electric Power Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-03-01

Abstract

本发明提供一种基于典型业务场景下的能源大数据聚合分析方法，包括：获取多种业务场景下的能源大数据；对所述能源大数据进行分类，得到所述能源大数据的类型；其中，所述能源大数据的类型为时间序列数据类型、空间数据类型或时空数据类型；基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据；其中，任一类型的能源大数据对应的适配聚合算法是基于所述任一类型的能源大数据，对各个聚合方法进行聚合有效性评估后得到的；基于整合数据进行信息共享和协同管理。本发明提供的方法，面向典型业务场景的差异化需求，提高了数据聚合的有效性，且实现了跨区域、跨领域、跨部门的信息共享与智能协同管理。

Description

基于典型业务场景下的能源大数据聚合分析方法

技术领域

本发明涉及数据处理技术领域，尤其涉及基于典型业务场景下的一种能源大数据聚合分析方法。

背景技术

能源大数据中心作为能源领域新型基础设施建设的重要组成部分，以其为依托能够有效对能源使用效率、电网可再生能源承载能力等进行评估，从而推动新时代能源事业融合创新发展。

在典型能源业务场景下，建模、聚合、分析智能设备数据和公共数据等高频次交互数据，在能源服务方面将产生巨大价值。然而，典型能源业务场景各异，能源交互数据源分布于不同地域和机构，因此目前的聚合技术难以进行有效聚合。

发明内容

本发明提供一种基于典型业务场景下的能源大数据聚合分析方法，用以解决现有技术中针对典型能源业务场景各异，能源交互数据源分布于不同地域和机构，难以进行有效聚合的缺陷。

本发明提供一种基于典型业务场景下的能源大数据聚合分析方法，包括：

获取多种业务场景下的能源大数据；

对所述能源大数据进行分类，得到所述能源大数据的类型；其中，所述能源大数据的类型为时间序列数据类型、空间数据类型或时空数据类型；

基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据；其中，任一类型的能源大数据对应的适配聚合算法是基于所述任一类型的能源大数据，对各个聚合方法进行聚合有效性评估后得到的；

基于整合数据进行信息共享和协同管理。

根据本发明提供的一种能源大数据聚合分析方法，时间序列数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

基于各个聚合方法对所述时间序列数据类型的能源大数据进行聚合，得到各个聚合方法对应的聚合结果；

利用如下公式计算各个聚合方法对应的聚合结果C＝{c₁，c₂，…，c_K}的有效性指标new-index(C)：

其中，单个类c_i的有效性指标

其中，|c|表示聚类c中数据点的个数，compact(c)为聚类c的类内紧致性，dist(c_i,c_j)表示两个类之间的欧式距离，d_connect(x_i,x_j)为x_i和x_j间的连通距离，p为x_i和x_j间的路径数，其中一条路径path_k上的边对应的权值记为w^k ₁，w^k ₂，…，w^k _nk，n_k表示x_i和x_j之间的路径path_k所包含的边数。

根据本发明提供的一种能源大数据聚合分析方法，空间数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

基于各个聚合方法对所述空间数据类型的能源大数据进行聚合，得到各个聚合方法对应的聚合结果；

基于任一聚合方法对应的聚合结果计算所述聚合结果的整体差异性和两两聚类之间的差异性；

基于各个聚合方法对应的聚合结果的整体差异性和聚合方法之间的差异性，对各个聚合方法进行聚合有效性评估。

根据本发明提供的一种能源大数据聚合分析方法，时空数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

基于各个聚合方法对所述时空数据类型的能源大数据进行聚合，得到各个聚合方法对应的聚合结果；

采用Silhouette Coefficient和Calinski－Harabaz指标对各个聚合方法对应的聚合结果进行聚合有效性评估。

根据本发明提供的一种能源大数据聚合分析方法，针对时间序列数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

步骤501：已知聚合数量为k，各聚合集的原始聚合中心是从所述同一类型的能源大数据中随机选择的原始数据G＝{G₁，G₂，…，G_k}，设定聚合集A₁＝{G₁}，…，A_k＝{G_k}，同时定义分类属性的权重值；

步骤502：基于能源大数据X_i到各个聚合集的距离，将能源大数据X_i至距离最小的聚合集中，并再次计算所述距离最小的聚合集的数据属性均值，更新各分类属性的计数器信息；

步骤503：计算所述距离最小的聚合集的原始聚合中心；其中，对数值型属性取所述距离最小的聚合集中所有元素的均值，对分类型属性取所述距离最小的聚合集中各分类属性中出现次数最高的值；

步骤504：根据以下目标函数公式，计算当次迭代的目标函数值：

其中，若e_il为1，说明聚合集A_l包含能源大数据X_i；若e_il为0，说明A_l不包含源数据X_i；

步骤505：循环操作步骤502～步骤504，直至聚合结果稳定。

根据本发明提供的一种能源大数据聚合分析方法，针对空间数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

利用模糊聚类方法将样本空间数据分为多个类后，选取每一类中的若干组样本空间数据及其类型标签训练广义回归神经网络；

基于训练好的广义回归神经网络对所述空间数据类型的能源大数据进行聚类，得到每个空间数据类型的能源大数据的类型。

根据本发明提供的一种能源大数据聚合分析方法，针对时空数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

步骤701：基于所述时空数据类型的能源大数据，建立多维度时空信息数据库D_r；

步骤702：设置时空对象量阈值MinPts，根据所述多维度时空信息数据库构建时空对象距离频数柱状图，确定空间阈值spa_tialthreshold和时间阈值tem_pora；

步骤703：从D_r依次选取一个对象点P_i，判断其是否已属于现有簇中，是则重新选取下一个对象点，否则执行步骤704；

步骤704：判断对象点P_i是否为时空核心对象，是则执行步骤705，否则执行步骤703中重新选取下一个对象点；

步骤705：搜寻时空核心对象P_i的所有时空相邻点Q_i，若Q_i不属于任何已有的簇，则执行步骤706，否则重新选取下一个Q_i继续执行步骤705；

步骤706：判断P_i与Q_i是否相似，若相似则将Q_i放入新建的簇中，否则重新选取下一个Q_i继续执行步骤705；

步骤707：判断簇中的各对象点是否为时空核心对象，是则对所述时空核心对象重复执行步骤705；

步骤708：重复执行步骤703-步骤707，直到Dr中所有对象点都属于某个簇或为时空孤立点。

根据本发明提供的一种能源大数据聚合分析方法，所述基于整合数据进行信息共享和协同管理，具体包括：

构建数据目录，建立数据共享需求清单和数据共享负面清单，并实现数据归集共享；

利用深度学习技术，基于整合数据进行发电功率预测和设备故障监测与预警。

根据本发明提供的一种能源大数据聚合分析方法，还包括：

将运行版本下的电网、天然气网、热网状态沿时间轴的变动划分为若干个连续的时间断面，在每个时间断面中以增量的形式记录该断面中新建、修改和删除的电网、天然气网、热网模型的图形拓扑和属性，得到能源时空数据；

基于时空数据模型，对所述能源时空数据进行编码表达；

其中，所述时空数据模型用于对所述能源时空数据的数据对象的时空属性、关联关系，以及时空属性和关联关系的动态变化进行建模和表达；

其中，所述数据对象由多个对象片段组成，每个对象片段内具有一致的变化模式，且所述多个对象片段在时间轴上无缝、有序排列；

所述时空属性包括所述数据对象随时间变化的空间位置、几何形态和属性特征；

所述关联关系包括所述数据对象与其他数据对象之间的空间关系和属性关系。

根据本发明提供的一种能源大数据聚合分析方法，对时空属性和关联关系的动态变化进行建模和表达，具体包括：

针对离散的动态变化，记录数据对象发生变化的类型、前后2个时刻数据对象的增量值以及当前的时刻值，并以快照的方式记录当前时刻数据对象的所有特征值，并对数据对象进行相应地更新；

针对连续的动态变化，对发生连续变化的时间段内数据对象在离散时刻点的状态值进行变化模式分析；其中，当所述发生连续变化的时间段由不同变化方程的分段组成时，将所述发生连续变化的时间段切分成若干个子时间段，使得所述子时间段内的变化方程相同，并对所述子时间段进行变化模式分析。

本发明提供的能源大数据聚合分析方法，面向典型业务场景的差异化需求，通过对多业务场景下的能源大数据进行分类，针对不同类型的能源大数据，通过聚合有效性评估方法筛选各类型数据对应的最佳聚合算法，利用该最佳聚合算法对相应数据进行精准聚合，提高了聚合的有效性，且通过对采用该类型数据对应的最佳通过多维度数据整合，实现了跨区域、跨领域、跨部门的信息共享与智能协同管理。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的能源大数据聚合分析方法的流程示意图之一；

图2是本发明提供的能源大数据聚合方法的流程示意图之二；

图3是本发明提供的空间数据聚合方法的流程示意图；

图4是本发明提供的时空数据模型的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1位本发明实施例提供的能源大数据聚合分析方法的流程示意图，如图1所示，该方法包括：

步骤110，获取多种业务场景下的能源大数据；

步骤120，对所述能源大数据进行分类，得到所述能源大数据的类型；其中，所述能源大数据的类型为时间序列数据类型、空间数据类型或时空数据类型；

步骤130，基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据；其中，任一类型的能源大数据对应的适配聚合算法是基于所述任一类型的能源大数据，对各个聚合方法进行聚合有效性评估后得到的；

步骤140，基于整合数据进行信息共享和协同管理。

具体地，典型能源业务场景根据数据类型不同可分为：电网内部数据、能源企业数据和其他数据。其中，电网内部数据来源包括用能企业以及居民用户，用能企业包括化工制造业、产业园区等，具体业务有用电监测、节能改造，如通过在产业园区内通过多种能源大数据及其与之相伴相生的碳排放数据引入园区系统的经济优化运行中，提高产业园区的低碳化水平，为园区节能改造提供价值参考。居民用户侧具体业务包括用电计量、用电信息采集等，如在居民侧通过用电等数据进行需求响应，实现用户侧的节能减排，降低负荷峰谷差。能源企业数据来源于各能源企业，包括水、煤、石油、天然气等企业，具体业务有能量计量、企业数据管理等，通过对多种能源大数据进行计量，对碳排放量进行核算，以逐渐实现能源企业的生产低碳化。其他数据来源包括政府机构以及其他行业，具体业务包括行业动能指数分析、精准扶贫辅助等。为了提供面向典型业务场景差异化需求的数据聚合，可以首先获取上述多种典型业务场景下的能源大数据。

如图2所示，能源大数据接入后，可以通过数据预处理，对能源大数据进行清理和整理，以提供高质量的有效数据以供聚合。其中，数据预处理的概化处理，可以通过将基础数据由连续值分为离散值，为基础数据划分范围，减少属性值的数量，便于后续数据的聚合、挖掘和展示。

由于不同业务场景下产生的能源大数据的特征不同，因此在进行数据聚合时，不同特征的数据可以采用不同的聚合方式，以提高相应数据的聚合准确性。因此，在获取多业务场景下的业务数据后，可以对能源大数据进行分类，得到各个能源大数据的类型。其中，可以将能源大数据的类型分为以安全运行、削峰填谷、紧急削负荷、用能信息采集中采集数据为代表的时间序列数据类型；以新能源消纳、华为云、阿里云采集数据为代表的空间数据类型；以及综合能源园区、微网园区等场景下兼具时间数据和空间数据特性的时空数据类型，并分别对这三类数据开展数据聚合研究。

时间序列数据是按照时间排序的一组随机变量，其通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。上述应用场景中能源大数据一般分为数字量和模拟量。数字量可细分为独立数字量、关联数字量和状态数字量。模拟量可细分为恒定模拟量、区间模拟量和趋势变化模拟量。其中，数字量主要为指令、计数和状态等，模拟量主要为电流、电压、温度等。由于我国各区域、各省的资源分布、负荷特性存在一定的差异及互补性，即新能源消纳数据、华为云、阿里云数据库数据随着区域的不同而不同，属于空间数据。其他场景下如综合能源园区、微网园区等场景下数据兼具时间和空间特征属于兼具时间数据和空间数据特性的时空数据。

目前数据聚合算法种类繁多，如果能够在众多算法中选取与数据类型相适应的聚合算法，可以使聚合效果大大提高。因此，在进行数据聚合前，可以先对各种类型的能源大数据拟采用的各类聚合方法进行聚合有效性评估，筛选出各类能源大数据对应的最佳聚合算法，作为该类能源大数据对应的适配聚合算法，并通过该算法对相应数据进行精准聚合。

之后，可以基于整合数据进行后续的信息共享和协同管理。

此外，在实现数据聚合后，可以利用数据管理层进行数据存储和检索，利用数据应用层完成后续的数据分析和数据挖掘。

其中，数据管理层实现数据存储和查询。聚合后数据量达到PB量级(1PB＝1024TB)，故选用大数据管理平台CDH存储和管理，其结构化数据放入CDH的HBase组件，而半结构和非结构数据则存储于HDFS组件，最后借助ElasticSearch建立二级索引，实现数据快速查询检索。通过建立多维数据模式数据仓库，从多角度多层次进行数据查询和分析，根据不同的数据需求建立起各类多维模型，例如将电力数据中发电用电、负荷潮流信息分解建立成电压主题、电流主题、负荷主题等的数据模型，并组成数据集市开放给不同的上层分析使用。

数据应用层包括基于Web人机交互、数据二次运算及典型能源大数据场景等数据分析和挖掘功能。数据应用层按照多维关联规则技术，按照能源企业运行特征，提炼出相关的记录数据，组合为新的数据记录表，寻找表中诱因值和结果值组成的字段，从而推导出分析因素的关联规则，分析客观因素对分析因素的影响；预测，主要使用时序预测模型，分析历史数据，预测其发展趋势。通过分析历史数据，寻找其存在的一般规律，使预测尽量的符合实际情况。将挖掘的结果以图形的形式展现给用户分析查看使用。通过对用户的特征进行合理分析，将市场分为群组，分析用户的用能特征，能够有效预测短期内的市场需求，从而为生产和市场发展趋势决策提供数据依据。

本发明实施例提供的方法，面向典型业务场景的差异化需求，通过对多业务场景下的能源大数据进行分类，针对不同类型的能源大数据，通过聚合有效性评估方法筛选各类型数据对应的最佳聚合算法，利用该最佳聚合算法对相应数据进行精准聚合，提高了聚合的有效性，且通过对采用该类型数据对应的最佳通过多维度数据整合，实现了跨区域、跨领域、跨部门的信息共享与智能协同管理。

基于上述任一实施例，时间序列数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

其中，单个类c_i的有效性指标

具体地，时间序列数据聚合算法分为：层次聚合、基于划分的聚合、基于网格的聚合和基于密度的聚合。为找到一种与应用场景匹配度高的数据聚合算法，采用基于连通性的聚合有效性指标对时间序列数据任意形状的聚合进行有效性评估。

适合数据的聚类算法可以获得紧致性与有效性理想的处理效果，因此可以把上述两类衡量紧密关联起来设计出聚类有效性指标。依据该原则，本实施例提出以下三条关于聚类有效性指标的假定条件：

①待评价的各个类能够各自对紧致性与有效性实施度量和评价。

②某个类的评价指标的大小与自身特性、类间距离和别的类的紧致性密切相关。在对某个类的指标进行评价时，还应顾及周围类对该类有效性的影响。这种影响体现在两个方面：第一，该类与其他类的类间距离对该类有效性的影响；第二，别的类的结构特性的干扰。

③整个聚类结果的有效性指标大小取自各个类对应的最小值。

在上述假定的基础上，对聚类结果C＝{c₁,c₂,…,c_k}(其中K为聚类数)，现有技术中给出的有效性指标如下：

其中compact(c)表示类c的类内紧致性，dist(c_i，c_j)表示类c_i和c_j的类间距离，w_k表示权重因子，显示出c_k类对c_i类进行有效性衡量时的干扰程度。然而，该指标忽略了类与类之间紧致性相差悬殊的情形。

目前，一般采用图连通距离来表示数据类内两点之间的差异程度。使用该物理量来衡量相异度的大小时，能够有效避免欧氏空间相关因素的干扰，提高了评价结果的有效性。

在无向图G(V，E，W)中，顶点集为V＝{x_l，x₂，…，x_n}，边的集合为E＝{e_ij|顶点x_i和x_j之间存在边}，E的权重集合为W＝{w_ij|e_ij∈E}，设G上的两个顶点x_i和x_j之间路径的集合为path(x_i，x_j)＝{path₁，path₂，…，path_k，…，path_p}，p为x_i和x_j间的路径数，其中一条路径path_k上的边记为e^k ₁，e^k ₂，…，e^k _nk，而将对应的权值记为w^k ₁，w^k ₂，…，w^k _nk，则x_i和x_j间的连通距离定义如下：

其中，n_k表示x_i和x_j之间的路径pathk所包含的边数。

将每个类看成一个无向完全图，顶点集定义为数据点的集合，而顶点之间边的权重定义为数据点间的距离(该距离要与待评价聚类算法采用的距离或相似度一致，本实施例选取欧氏距离)。结合连通距离的概念，可以定义一个适用于评价任意形状聚类的有效性指标。首先利用连通距离定义单个类的类内紧致性，然后根据第(1)和第(2)两条假设定义单个类的有效性指标，并按照假定式(3)计算出所求指标大小。具体的定义如下：

根据c中两点间连通距离的最大值的倒数定义聚类c的类内紧致性：

用两个类之间最近两点间的欧氏距离来定义两个类的类间距离d表示欧氏距离：

单个类c_i的有效性指标index(c)定义如下：

其中c表示类c中数据点的个数。该式是用c_i和c_j类紧致性平均数值与类间距离相乘所得的数值当成c_i较c_j的有效性指数；取所求得的ci较其他类的最小值表示c_i类对应的有效性指标数值大小。定义单个类的有效性指标后，就可以依据第(3)条假设对整个聚类结果C＝{c₁，c₂，…，c_k}的有效性指标进行定义：

该指标能够准确地解决聚类结果中各类的类内紧致性差异较大的情况。

通过上述指标对各种聚合方法进行评估，可以选取基于优化K-prototypes的聚合算法，对时间序列数据类型的能源大数据进行聚合。

基于上述任一实施例，空间数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

基于任一聚合方法对应的聚合结果计算所述聚合结果的整体差异性和聚合方法之间的差异性；

基于各个聚合方法对应的聚合结果的整体差异性和两两聚类之间的差异性，对各个聚合方法进行聚合有效性评估。

具体地，目前较为常用的空间聚类算法有：模糊C均值聚类算法(fuzzy C-means，FCM)、自组织特征映射网络(self-organizing feature map，SOM)聚类算法、期望最大化聚类算法(expectation maximization，EM)。

从簇内均质性指标SSD出发，分别从整体差异性和两两聚类之间的差异性两个方面对n个算法m个簇的聚类结果进行质量比较，因此，每个算法都能产生一个m×1的矢量，将n个算法按照列排列得到一个m×n的H矩阵，元素记为x_ij。

①整体差异性检验

利用Friedman检验对H矩阵进行假设检验，判断n个算法的簇内均质性指标是否有显著性差异，Friedman检验是一种检验k个采样之间是否来自于同一分布总体的非参数检验方法，Friedman检验假设：

H₀：k个样本来自于同一分布总体

H₁：k个样本来自于不同的分布总体

Friedman对数据进行列排序，得到n×k大小的排序矩阵r_ij(n为行数，k为列数)。检验统计量(其中

)：

当n、k很大时(n＞15或k＞4)，该统计量服从自由度为k-1的卡方分布，给定置信度α，若p＜α则拒绝零假设，利用Friedman检验定性可以得到算法质量的排序，另外也可检验统计量：

该统计量服从自由度分别为k-1和(k-1)(n-1)的F分布，给定置信度α，若p＜α则拒绝零假设。

在此基础上，本实施例提出改进的Friedman检验方法。Friedman检验只是在每行的列之间进行排序，改进的Friedman检验可以在整个矩阵中进行排序得到n×k大小的r_ij矩阵，计算如下统计量：

其中

该统计量服从自由度为k-1的卡方分布，给定置信度α，若p＜α则拒绝零假设，利用这种检验可以得到效果更好的算法质量的排序。

②两两差异性检验

当分析的结果拒绝H₀，接受H₁时，只说明k个总体均数不全相等。若想进一步了解哪些两个总体均数不等，需进行多个样本均数间的两两比较或称多重比较(multiplecomparison)，也叫post hoc检验。在Friedman检验之后，用这种方法检验秩均值之间是否存在显著差异，即检验统计量：

若用两样本均数比较的t检验进行多重比较，将会加大犯Ⅰ类错误(把本无差别的两个总体均数判为有差别)的概率。

以上假设检验方法都是定性检验算法之间的差异性，因此，还可以利用AdjustedRand系数定量计算两两聚类结果之间的相似性，设对于S中的所有n个实体，有两种聚类结果：X＝{X₁，X₂，X₃，…，X_r}和Y＝{Y₁，Y₂，Y₃，…，Y_s}，其中

表示组合数(C＞＝i)，AdjustedRand系数可以表示为：

对H矩阵标准化后首先计算H矩阵每两个算法之间的差异，即：

D_i(uv)＝x_iu-x_iv

其中，i＝1，2，…，n，u，v＝1，2，…，k，然后计算两两算法差异的中位数得到Z_uv，每个算法的平均差异度可以表示如下：

基于算法两两之间的差异度即m_u-m_v，得到contrast矩阵(k×k)。contrast矩阵可以定量表达算法质量之间的差异。

对于空间能源大数据，采用上述方式对各聚合算法进行聚合有效性评估后，可以将基于广义回归神经网络的聚合算法确定为空间数据类型对应的适配聚合算法。

基于上述任一实施例，时空数据类型的能源大数据对应的适配聚合算法是基于如下步骤确定的：

具体地，时空数据都是无标签的，因此可以采用内部评价标准，利用数据集和聚类结果生成的标签对聚类效果进行评估。小组内的数据相似度越高，小组与小组数据差异度越大，说明数据被更好地归类。此处使用的评价指标包括Silhouette Coefficient和Calinski－Harabaz指标。

Silhouette Coefficient指标能够有效利用数据的内聚度和簇间差异度对聚类效果进行评价。假设n个数据点被分为K(K＞1)类。某类的数据中心点i与同簇内其他数据点的平均距离记为a_i，a_i的数值大小代表了簇内的紧凑度，也就是说a_i的值越小，簇内的数据相似度就越高。某类的数据中心点i与其他簇内数据点的平均距离记为b_ij(j＝1～K)，b_ij的数值大小代表了簇间数据的差异度，当b_ij的数值越大，簇与簇之间数据差异度越高，说明数据i不属于其他簇的合理性越高。记b_i＝min{b_i1，b_i2，…，b_ik}，Silhouette Coefficient：

S(i)的值在-1和1之间。S(i)越接近于1，簇内数据相似度越高，簇间的数据差异度越高，表示聚类效果越好。

Calinski－Harabaz Index指标中的CH系数为：

其中，K表示聚类中心的个数，tr(B_k)表示簇与簇之间离差矩阵的迹，tr(W_k)表示簇内离差矩阵的迹。B_k表示簇与簇之间的协方差矩阵，W_k表示簇内协方差矩阵。CH系数是簇间分离值与簇内分离值之间的比值，该系数越大代表聚类效果越好。

采用Silhouette Coefficient和Calinski－Harabaz指标对时空数据进行聚合有效性评估后，可以采用基于ST-DBSCAN算法的多属性时空数据聚合算法对时空数据进行聚合。

基于上述任一实施例，针对时间序列数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

步骤505：循环操作步骤502～步骤504，直至聚合结果稳定。

具体地，能源大数据多为混合数据属性的数据，由于基于K-prototypes的混合属性数据聚合方法存在迭代收敛速度快、聚合精度低的问题，因此要对该方法进行优化。优化的K-prototypes混合属性数据聚合原理如下：首先，定义X_i(i＝1，2，…，n)表示样本数据集，A₁，A₂，…，A_k表示聚合集，数据迭代过程中计算X_i与聚合集间的距离，将距离值最小的数据样本归类至聚合集内；其次，优化聚合集数值属性均值与分类属性的计数器信息，获取聚合代价函数W(X，G)的最小值，迭代完成后更新分类属性模式。优化K-prototypes混合属性数据聚合算法考虑了能源大数据的时间序列矩阵，可提高数据模型聚合精度。

其中，定义y_q(t)为混合数据属性的时间序列，混合数据属性聚合过程中，构建广义线性模型为：

其中，

为a维列向量；d(t)γ_q为数据属性混合导致的数据低频漂移；s(t)表示混合属性数据响应函数；K表示广义线性模型特征量指数；b(t－e)表示刺激函数。

采用广义线性模型完成对时间序列数据的聚合，可同时处理大量数据，提供更多的时间信息致使数据噪声干扰降低。混合属性数据的响应函数存在差异，因此采用B-样条插值方法拟合混合数据的响应函数，过程为:

其中，g_k(t)和z_l，k(q)分别表示B样条基函数与未知系数；s_k(q)表示拟合混合数据的响应函数。

定义元素y_q(t)、

的H×D维矩阵为Y_q、F_q，M表示第t行为d(t)的H×a维矩阵，γ_q表示第j列为γ_j，q的a×D维矩阵。设置X_k，q是元素

的H×L维矩阵，Q_k，q表示z_l，k(q)相应的L×D维矩阵，基于上述设置将涵盖全部混合属性时间序列的矩阵形式修改为：

混合属性数据的特征信息全部体现在系数矩阵Q_k，q中，采用最小二乘法求解即可。值得注意的是，广义线性模型参数多、混合属性数据信噪比低的特点导致最小二乘法求解结果变异概率高，将Q_k，q变换成低阶矩阵相乘的方式解决该问题，具体过程如下：令Q_k，q＝E_k，qG_k，q，E_k，q、G_k，q表示低阶矩阵，维数为L×P、P×D，P取值为2，变换后的形式体现了混合属性数据的时间特性。混合属性数据聚合研究的是混合属性，所以模型的误入项应考虑到属性间的差异，据此扩展广义线性模型为低阶多元广义线性模型，即:

随后，可以通过下式计算样本数据X_i与聚合集A_l间的距离：

μ(X_ij,A_ij)＝1-|A_ij|/|A_l|Y_q；μ∈[0,1]

此处，|A_l|表示聚合集A_l已有数据的数量；|A_lij|表示可分类样本X_i在分类A_l内出现的频率；Y_q为样本分类属性的时间序列矩阵；d(X_i，A_l)为样本数据X_i与聚合集A_l间的距离；G_lj表示聚合集A_l的数值属性均值。

可见，上述聚合算法在考虑样本同聚合中心距离基础上兼顾已知样本信息内容和属性的时间序列矩阵。优化K-prototypes算法聚合过程如下。

步骤1：已知聚合数量为k，各聚合集的原始聚合中心是随机选择的原始节点G＝{G₁，G₂，…，G_k}，那么聚合集A₁＝{G₁}，…，A_k＝{G_k}，同时定义η表示分类属性的权重值。

步骤2：存在X_i(1≤i≤n，X_i≠G_j，j＝1，2，…，k)，与聚合集的距离表示为d(X_i，A_l)。p表示聚合集元素计数器，设定p的初始值为1，归纳X_i至聚合集A_min中，其中A_min为距离最小的聚合集，若计数器值增加1，说明聚合运算了1次，用参数表示为A_min·p＝i，p＝p+1，新样本加入后，需再次计算聚合集A_min的数据属性均值，并调整A_min的分类属性的计数器信息。

步骤3：根据数据的混合属性差异获取聚合集原始聚合中心，原则为：数值型属性取聚合元素均值，分类型属性取聚合样本的分类属性中出现次数最多的值。

步骤4：根据以下目标函数公式，计算当次迭代的目标函数值：

其中，若e_ill为1，说明A_l包含样本X_i；若e_il为0，说明A_l不包含样本X_i。

步骤5：循环操作步骤2～步骤4，当聚合结果趋于平稳、目标函数值不变时终止运算，输出聚合结果。

采用上述聚合算法完成时间序列数据类型的能源大数据的聚合，可以有效提升聚合算法的准确度。

基于上述任一实施例，针对空间数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

具体地，广义回归神经网络GRNN(General Regression Neural Network)的映射能力可以较好地满足非线性数据，网络结构相对简单，网络本身也有着良好的鲁棒性。此外，GRNN还具有较好的学习能力和较快的计算速度，网络的收敛性较好，可以满足数据量较少时的计算要求。

网络共分为4个层，具体作用如下：

输入层。本层的作用为输入学习的样本并将输入参数传入模式层，输入层的神经元分布简单且神经元的数目为训练输入样本的维数。

模式层。本层的作用是利用本层的神经元对输入的训练样本数据进行学习，所以本层中神经元数目等于训练样本数，训练函数为：

其中，X为全部训练样本；X_i为第i个神经元的训练样本。

求和层。本层的作用是对模式层的数据分别进行以下计算：

其中，y_ij为训练输出样本的对应元素。

输出层。输出层的作用为计算并输出结果，因此本层的神经元数为训练输出的样本维数，结果计算函数为：

FCM算法通过模糊聚类目标函数将数量为n的空间数据x聚类成数量为c的模糊类，当函数达到最小时便可确定每类的聚类中心。模糊聚类目标函数为：

其中，u_ij为个体x_i属于第j类的模糊隶属度；m为模糊权重指数；v_j为第j类的聚类中心。u_ij和v_j的计算公式为：

FCM聚类算法具体步骤如下：

1)设置模糊聚类的需要得到类别数c，模糊权重指数m和初始聚类中心v；

2)计算得到空间数据的模糊隶属度矩阵u；

3)计算出数量为c的小类别中每1个的类别中心v_j；

4)计算模糊聚类目标函数值，若目标函数值到达最小，则结束计算，否则返回步骤2)。

FCM聚类算法是1种以模糊隶属度作为聚类标准的聚类算法，每个空间数据都是通过模糊隶属度矩阵u确定其所属类别。

在此基础上，本实施例采用GRNN和FCM相结合的方式进行空间数据的聚类。具体而言，如图3所示，通过FCM模糊聚类方式将空间数据分为c类再选取每1类中最具有代表性的n组样本数据作为网络的训练输入数据，以每个样本数据的类别为网络的训练输出。GRNN通过训练输入数据和训练输出数据对空间数据的聚类规律进行学习。最后利用学习后的GRNN网络对空间数据类型的能源大数据进行聚类，得到每个空间数据类型的能源大数据的类别。

基于上述任一实施例，针对时空数据类型的能源大数据，所述基于同一类型的能源大数据对应的适配聚合算法，对所述同一类型的能源大数据进行聚合，得到整合数据，具体包括：

具体地，ST-DBSCAN是基于密度的时空聚类算法，时空密度聚类是从空间密度聚类到时空维度的扩展，它将对象密度当作对象间相似计算的标准，把时空簇从一系列不同密度区域中提取出来。由于在空间维度的基础上多考虑了时间因素，所以该算法需要设定的聚类参数为3个：时间距离阈值temporal_threshold，空间距离阈值spatial_threshold和时空对象量阈值MinPts，前2个参数用于确定时空邻近域，后一个用来确定时空邻近域内的对象数量。

然而，ST-DBSCAN算法只限于处理固定属性的时空数据分析，且在阈值设定上存在较大随机性容易导致其将噪声归到时空簇中或忽略部分低密度的簇。基于此，本实施例提出一种改进的多属性时空聚类算法。

改进的多属性时空聚类算法共包括5个参数阈值：时间阈值temporal_threshold、空间阈值spatial_threshold、时空对象量阈值MinPts、连续变量相似度阈值E_threshold、分类变量相似度阈值DG_threshold。该算法的实现过程如下：

步骤1：建立一个多维度的时空信息数据库D_r；

步骤2：设置时空对象量阈值MinPts，根据多维时空数据集画出时空对象距离频数柱状图，确定空间阈值spa_tialthreshold、时间阈值tem_pora；

步骤3：从D_r依次选取一个对象点P_i，判断其是否已属于现有簇中，是则重新选取下一个对象点，否则进行步骤4；

步骤4：判断对象点P_i是否为时空核心对象，是则进行步骤5，否则回到步骤3中重新选取下一个对象点；

步骤5：搜寻时空核心对象P_i的所有时空相邻点Q_i，若Q_i不属于任何已有的簇，则进行步骤6，否则重新选取下一个Q_i继续本步骤；

步骤6：通过混合属性相似计算模型计算出P_i与Q_i的混合属性特征是否相似，相似则将Q_i放入新建的簇中，否则重新选取下一个Q_i继续步骤5；

步骤7：判断簇中的各对象是否为时空核心对象，是则对该时空核心对象重复步骤5的操作，否则将不再进行下一步操作；

步骤8：重复上述步骤3-步骤7的工作，直到D_r中所有对象都属于某个簇，或为时空孤立点；

随后，将上述得到的簇标签赋值给数据库新建的字段“簇标签”中。

采用上述改进算法完成兼具时间数据和空间数据特性的时空数据的聚合，可以明显改善聚合时的准确度。

基于上述任一实施例，步骤140具体包括：

具体地，能源大数据中心建设涉及内部多部门、多业务系统，外部政务部门、用能企业等多方参与。因此，可以基于整合数据建立能源大数据资源共享机制，梳理数据标准目录，理清数据权限管理体系，明确数据共享服务流程，确保数据资源共享服务可信、可控。

在保障数据安全的前提下，采用公益性、市场化等模式提供数据共享服务。面向政府和公众的数据资源和应用场景共享服务以公益性模式提供；面向企业的数据共享服务以会员积分制或市场化模式提供。

提供数据管理服务功能，支撑多源异构的数据接入、存储、访问等，实现能源大数据全面汇聚融合，为能源大数据共享和应用创新服务提供支撑，推进数据平台优化整合。支持关系数据库数据抽取、文件采集、实时消息队列、数据库实时复制、API接口等数据采集服务及定/实时数据采集处理服务；支持结构化、非结构化、量测数据等异构数据存储；提供应用管理、数据传输管理、任务管理、流程编排等常用管理功能。采用多租户技术实现数据资源的隔离与安全控制。

建立信息共享机制，包括构建数据目录管理、建立数据共享需求清单和数据共享负面清单，并实现数据归集共享。

1)构建数据目录管理：主要包括专业数据库表目录和整体数据目录体系。建立专业数据库表目录，能源大数据中心结合各领域业务信息系统的数据情况，抽取业务信息系统的数据库表结构，完善数据库表和字段的准确描述信息，形成各专业数据库表目录，并组织开展专业数据库表目录动态维护。建立整体数据目录体系。在形成专业数据库表目录的基础上，能源大数据中心承担整体数据目录体系梳理工作，并组织对数据目录进行集中管理、统一发布、动态更新、共享使用，支撑快捷查询和定位数据。

2)建立数据共享需求清单：基于各能源机构数据共享需求，能源大数据中心形成能源大数据共享需求清单。能源大数据共享需求清单在公司范围内统一发布、定期更新。

3)建立数据共享负面清单：建立数据共享负面清单制度。需求方提出本专业数据共享负面清单，经网络安全和信息化领导小组审议通过后，由能源大数据中心负责编制数据负面清单。原则上除列入负面清单的数据外，其余数据均可共享使用。

4)数据归集共享：将分散在不同业务信息系统的数据进行整合汇聚，形成统一的数据资源中心，并根据要求，推进外部数据统一纳管。

在能源大数据中心平台中，还可以通过深度学习技术实现智能化的协同管理。具体而言，可以分别从对发电功率预测、设备故障监测与预警等方面加以分析。

1)发电功率预测

随着清洁能源的大规模并入电网，稳定的电力系统会受到影响。因此，如何实现对可再生能源出力的准确预测，是保持电力系统稳定运行，实现电力系统供需平衡的重要一步。

以风电为例，基于深度学习的发电出力规律预测是将风场中已存在的历史数据为研究样本，通过搭建合适的算法模型，对未来风场出力进行预测。根据预测长短可以分为超短期、短期、中期和长期预测。其中超短期和短期预测方式可以有效平衡实际发电与预测发电之间的偏差，保持电力系统的安全稳定运行。运行中的电场不可避免地会进行周期性的检修维护，中期预测可以提前预测电场的运行状态，为电场制定合适的检修计划。而长期预测一般为电网公司的年度发电规划的制定以及电网初期建设提供理论支撑。但是不同发电功率的预测范围有不同的精度要求，这就要求在使用深度学习算法的应用过程中，需要对深度学习的网络结构以及算法使用过程具体情况具体分析。

2)设备故障监测与预警

传统电力系统包含发电、输电、变电、配电四部分，每部分均含有大量电气设备。目前，电力系统内部设备检修大部分依赖专业人员的经验，主观性较大。随着数据挖掘、机器视觉、智能传感器技术的不断发展，实现设备状态的在线监测以及预警成为可能。深度学习能够在特定的时间和空间下，对环境中能够引起系统态势变化的各元素进行获取、理解及对未来状态进行预测，即具有态势感知能力。

目前，电网内部设备状态评估涉及电力系统的各个环节，主要包括由变压器、电力开关、电缆构成的一次设备侧以及由继电器、继电保护装置等构成的二次设备侧。实现设备的在线监测主要通过视频图像识别方式进行，深度学习在图像识别方面应用效果明显。因此，在建设能源大数据中心平台过程中加入合适的智能传感器对设备的信息进行采集，依托深度学习算法，构建学习网络模型，能够精准地判别设备的状态，有故障及时报警，达到实时监测的目的。

基于上述任一实施例，该方法还包括：

基于时空数据模型，对所述能源时空数据进行编码表达；

具体地，能源资源在电网、天然气网、热网等运行以后数据变更很频繁。对于电网、天然气网、热网运行态中能源大数据变动情况，将运行版本下的电网、天然气网、热网状态沿时间轴的变动划分为若干个连续的时间断面(即时间断面链)，在每个时间断面中以“增量”的形式记录该断面中新建、修改和删除的电网、天然气网、热网模型的图形拓扑和属性。电网、天然气网、热网模型的修改历史过程从初始状态断面1开始，每次对电网、天然气网、热网模型的修改都被记录在一个状态断面中，依次为状态断面2、3、…，直至电网、天然气网、热网模型的最新版本。电网、天然气网、热网状态的修改是采用增量记录的形式保存在电网、天然气网、热网模型数据中，得到能源时空数据。

随后，基于时空数据模型，对能源时空数据进行编码表达。其中，GML、KML、GeoJSON编码方式能够有效表达地理要素的空间位置和属性等，解决了异构系统中数据编码多样化、可重用性差、交换困难等问题，因此可以基于上述编码方式结合时空数据模型对能源时空数据进行编码表达。

其中，如图4所示，时空数据模型用于对能源时空数据的数据对象的时空属性及其关联关系进行建模和表达，同时将时空属性及其关联关系的动态变化抽象化，显式地表达各数据及其相互关系发生的离散和连续变化。

能源时空数据的数据对象由n个对象片段组成，尽管这些对象片段的时间跨度并非一定均匀，但是每个对象片段内具有一致的变化模式，它们在时间轴上无缝、有序排列，能够表达数据对象的整个变化过程。

在划分数据对象的对象片段时，需要了解数据对象整个的变化规律，使得在[t_i-1,t_i]区间内，数据对象具有相同的变化模式。当数据对象在[t_i-1,t_i]区间内不具有明显地变化规律时，可以尽可能地将t_i-1逼近t_i，直至t_i-1与t_i相等，对象片段就变成了离散的时刻。每一个对象片段包括随时间变化的空间位置、几何形态和属性特征。其中，空间位置表达用于描述数据对象发生移动的过程。空间位置函数Location(t)刻画了数据对象的运动轨迹，可以使用绝对坐标或者相对距离随时间变化的方程，计算出[t_i-1,t_i]内任意时刻数据对象的空间位置。属性特征描述的是数据对象的性质和特征。根据度量属性特征的不同方式，可以分为定名类型、序列类型、间隔类型和比率类型。定名、序列类型可以定性地表达属性特征在等级和层次上的不同变化；而间隔、比率类型不仅可以描述属性特征的大小、强弱和级别差异，还能进一步地量化差距多少以及相差的倍数，如企业今天的用电量的比昨天的低10MW。时空对象某一时刻的属性值可以通过属性特征函数Attribute(t)计算出来。

能源时空数据之间可能存在一定的关联关系，可以采用知识图谱的资源描述框架(Resource Description Framework，RDF)模型对该关联关系进行建模和表达。其中，关联关系包括空间关系和属性关系。空间关系是描述实体在一段时间内的空间相关性，而属性关系是数据实体在一段时间内属性语义上的联系。

空间关系描述了数据之间的空间关系情况，包括拓扑关系、度量关系及顺序关系，其中空间拓扑关系是最基本、最重要的关系，它描述的是拓扑变换下的保持不变的关系。典型的拓扑关系有相离、相邻、相交、相等、包含、位于内部、重叠和被重叠等。空间度量关系用于度量时空数据之间的距离程度，空间顺序关系则描述的是时空数据之间的方向关系。

属性关系描述了时空数据之间的属性关系情况。借鉴面向对象的思想，考虑对象之间存在一定的关联、依赖、分解和组合关系：关联是指对象之间的相关关系，如能源供给商和能源购买商之间的交易关系；依赖描述的是一个对象的变更会影响另一个对象的变化，例如设备售后服务跟随在能源设备买卖交易后；分解描述的是整体拆分为各个组成部分的关系，例如能源交易业务大类可分解为多个特定业务交易类型；组合描述的是各个组成部分组装为整体的关系，例如多个能源业务交易如煤石油天然气可组合称为能源交易。

RDF模型是知识图谱中一种常见的数据模型，由主体、谓词和客体组成的三元组，主体和客体表示所要描述的对象，谓词表示了主体和客体之间的关系。RDF模型可以对主体事物及其相互关系进行形式化地描述。

在RDF模型的基础上，可以采用四元组对能源时空数据的数据对象之间动态的关联关系进行建模。

Relationship_k＝{{STObject_i},{STObject_j},RelationType,T},i≠j

其中Relationship_k可以是一个数据对象与一个数据对象之间的关系，也可以是多个数据对象与多个数据对象之间的关系；RelationType是关联关系的类型，如空间上的拓扑关系、方向关系和距离关系，属性上的关联、依赖、分解和组合关系；T是关联关系的生命周期。

基于上述任一实施例，对时空属性和关联关系的动态变化进行建模和表达，具体包括：

具体地，动态变化是数据对象及其关联关系随时间空间推移所发生的变化，动态变化既有数据对象的空间位置、几何形态和属性特征变化，也有数据对象之间的关联关系变化。通过采用快照与增量、函数与方程的方法，来对离散变化和连续变化进行表达。

其中，数据对象的变化是指在2个对象片段之间，数据对象的空间位置、几何形态或者属性特征发生的变化：

a)空间位置变化是数据对象的位置发生移动

b)属性特征变化是某一属性的数值随时间的变化

可以通过一个三元组来定义一个数据对象的变化：

ObjectChange_k＝{ObjectSegment_i,ChangeType,ObjectSegment_j}

式中：ObjectSegment_i和ObjectSegment_j是数据对象变化前后关联的2个对象片段；ChangeType是2个对象片段发生变化的类型，可以是空间位置变化、几何形态变化和属性特征变化。

关联关系变化是指数据对象之间的关联关系发生变化，通常是由数据对象的变化所引起的，这些变化包括空间关系变化和属性关系变化。可以用一个三元组表示前后关联关系的变化：

RelationChange_k＝{Relation_i,ChangeType,Relation_j}

其中，Relation_i和Relation_j是变化前后的2个关联关系；ChangeType是关联关系所发生的变化类型，可以是空间上的拓扑关系、距离关系和方位关系变化，也可以是属性关系变化。

动态变化可以是离散或者连续的变化，为了支持动态变化的完整性表达可以采用2种不同的方式支持离散和连续变化的描述。

针对离散的变化，采用快照和增量的方式记录数据来源实体发生的变化。当数据对象发生离散变化时，记录发生变化的类型(如空间特征变化或属性特征变化)、前后2个时刻数据对象的增量值以及当前的时刻值；同时，以快照的方式记录当前时刻数据对象的所有特征值(空间位置、几何形态和属性特征)，并对数据对象进行相应更新，显式地表达数据对象发生的离散变化。

与离散变化不同的是，由于计算机技术的限制，连续变化是通过采集大量离散时刻点的时空对象的状态值，来对它的变化模式进行分析。因此，针对连续变化的表达，一方面通过预先提供的方程库，来设定数据对象的变化趋势；另一方面，提供学习模型库，在已采集的离散时刻值的基础上，近似逼近数据对象连续变化的趋势，计算或模拟出其变化的模式，得到变化方程。一些通用的连续变化方程如下：

a)空间位置的连续变化，如直线轨道方程、弧形轨道方程以及曲线的轨道方程

b)几何形态的连续变化，在原来形状方程的基础上，考虑几何形状扩张或者收缩速度变化的方程；

c)属性值域的连续变化，涉及变化率的不同，如线性方程和非线性方程。

当数据对象的连续变化发生时，记录时空对象变化的类型、预先设定或计算求解的变化方程，同时记录发生连续变化的时间段。有些情况下，连续变化是由不同分段的变化方程来组成，因此需要切分成若干个子时间段，使得在每个子时间段内其变化模式是相同的，分别对各个子时间段进行变化模式分析，得到对应的变化方程。通过采用离散和连续相结合的方式，来显式地表达实体的空间特征、时间特征及其关联关系的动态变化，辅助理解和挖掘实体和现象的基本变化规律。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。