CN102523300A

CN102523300A - 面向智能电网的数据密集型云存储模型

Info

Publication number: CN102523300A
Application number: CN2011104365256A
Authority: CN
Inventors: 丁杰; 奚后玮; 朱力鹏; 韩海韵; 周爱华; 吴军民
Original assignee: State Grid Electric Power Research Institute
Current assignee: State Grid Electric Power Research Institute
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2012-06-27

Abstract

面向智能电网的数据密集型云存储模型。为充分利用计算存储资源，满足智能电网大规模数据可靠存储和高效处理的实际需求，提出了基于云计算的数据密集型存储方法，该方法将数据集映射成数据空间的点集，并设计了二阶段分类过程，第一阶段基于传统的K均值算法实现点集的初始分类，第二阶段针对各数据集与初始聚类的隶属关系，引入数据迁移的代价函数，对初始分类进行调节，实现数据集到数据中心的布局方案。实验结构表明，该算法能够有效地提高数据存取效率和兼顾全局负载均衡。

Description

面向智能电网的数据密集型云存储模型

技术领域

本发明属于电力系统信息通信技术领域，涉及一种面向智能电网海量数据环境下的存储方法，该方法可以解决“大数据”存储问题，实现多个数据中心的负载均衡。

背景技术

目前，云存储发展呈现分布式数据密集型趋势，广泛应用于天文学、物理学和生物信息学领域，这类应用的部署和执行所涉及的TB，甚至PB级的数据往往存储于分布式的数据中心，需要多数据中心的有机协同，因此，跨数据中心的数据有效分布具有极其重要的作用：一方面，云环境下的应用所需的数据集通常位于多个数据中心，数据中心间的数据传输无可避免，需要考虑网络带宽资源和传输的时间开销；另一方面，分布式环境下的数据依赖性能够有效地提高数据管理和使用的效率，需要设计合理的数据分布策略来保持数据间的依赖关系。此外，数据中心内的数据分布方案对于提升存储系统的可靠性和可用性也具有重要的作用，针对当前广泛应用的SAN存储网络，系统的可扩展性是提升整体性能的首要因素，因此有必要对不同的数据分布模式进行量化分析，兼顾数据的均匀分布和全局的负载均衡。

随着电网建设规模的不断扩大，数字化电网、数字化变电站等研究应用的不断深入，系统面对的采集点越来越多。一个中等规模地区的采集量可以达到2万至10万，而一个大型地调未来可能面临50-100万的数据采集规模，一年的数据存储规模将从目前的GB级转向TB级；此外，随着调度自动化水平的不断提高，提出了实时运行数据不采用周期性采样存储而是按照实际时间序列连续存储的更高的要求，以满足更多的应用需求，这也将导致数据存储规模数十倍的增长，同时，历史数据的存储组织策略以及查询检索策略也将变得相当复杂。如此海量规模的电力信息能否实现有效存储并进行高效处理将是一个很大的问题。常见的数据密集型管理策略主要针对分布式环境下的大规模数据建模和基础设施服务展开研究，例如面向角色的数据建模方法，可用于网格环境下的数据建模，并使用数据网格来对数据进行管理；基于P2P模式的分布式数据建模方法，采用流程定义语言表示其数据流，实现分布存储资源中海量数据集的访问、移动和修改。然而，现有的系统的数据管理策略没有关注数据的存放分布和数据间依赖性的分析，因此无法减少数据迁移所带来的时间开销和提升整体执行效率。

发明内容

本发明结合智能电网的数据特性，通过分析云计算环境下存储应用系统的特点，在全面分析数据传输次数、数据集大小以及数据中心间网络带宽等因素的基础上，通过聚类分析、依赖性分析和哈希算法对多数据中心的数据集分布进行统筹规划，并引入系统执行效能的代价函数对数据分布方案进行评价和调整，从而在降低系统开销的同时最大限度地兼顾数据集间的依赖关系。

为了实现上述发明目的，本发明提出的云存储模型包括多数据中心的数据分布和数据中心内的数据存储两个方面。针对多数据中心的数据分布问题，将智能电网信息平台表示为扁平化的多个分布式数据中心，在此基础上对数据和工作流分别建模，在引入数据集聚类分析的同时设计了两阶段的数据分布方法：第一阶段基于K均值分析对数据进行迭代计算，生成初始分类；第二阶段详细分析数据中心间的隶属关系引入数据传输的时间开销评估，形成数据集的最优分布。针对数据中心内的数据存储问题，遵循存储同构原则进行存储设备的逻辑划分，围绕数据存储的有效性和扩展性进行分析，实现系统中不同磁盘间数据的动态分布。

本发明的有益效果在于，该数据存储模型完全通过自主设计来实现数据分布和通信算法，克服了传统存储模型在灵活性和实用性上的弊端，使得该存储方法能够有效降低多数据中心间的数据流动开销，以及充分利用数据中心内的存储资源，将有非常广阔的应用前景。

附图说明

图1是数据分布的实现框图。

图2是数据存储的磁盘划分示意图。

具体实施方式

（1）多数据中心云存储模型

智能电网建设要求贯通智能电网发电、输电、变电、配电、用电、调度六大环节，实现信息的全面采集、流畅传输和高效处理，支撑电力流、信息流、业务流的高度一体化，适应海量信息的可靠存储和管理，提升数据使用效能。本发明将智能电网信息处理抽象成工作流和数据流，结合云存储下数据分布的相关概念进行建模，包括数据模型、应用模型和依赖关系等。智能电网信息平台可以表示为扁平化的多个分布式数据中心组成的集合C={C₁,C₂,…C_m}，其中C_i表示第i个数据中心。由于云计算的数据类型具有复杂性和多样性特点，因此本发明屏蔽了智能电网环境下数据的结构特性，数据被视为数据密集型应用环境下面向多任务的数据集。定义数据流关联的数据集的全集为D，相应工作流的任务集为T={T₁,T₂,…T_n}。对于任意的数据集d?D，定义描述数据集属性的二元组为<T_i,s_i>，其中T_i表示调用数据集d_i的所有任务的集合，s_i是数据集d_i的大小。对任意的数据集对d_i和d_j，相应的依赖关系定义为

Figure 2011104365256100002DEST_PATH_IMAGE001

。

云计算应用于智能电网需要整合电力系统现有的业务数据信息和计算存储资源，业务应用往往涉及分处于不同数据中心的多个数据集，需要移动计算或移动相关的数据集到任务调度的数据中心，数据迁移的时间开销无可避免（如图1）。对于云环境中的m个数据中心C₁,C₂,…C_m， C_i与C_j间的带宽表示为b_i,j，相应的带宽矩阵为

(1)

从而，数据集d_k在数据中心C_i和C_j间迁移的时间开销计算如下：

Figure 2011104365256100002DEST_PATH_IMAGE003

(2)

引入数据集的聚类分析，设计了数据分布的两阶段策略：第一阶段基于K均值分析对数据进行迭代计算，生成数据集合的初始分类；第二阶段详细分析数据集和数据中心间的隶属关系，引入数据传输的时间开销评估，形成数据集的最优分布。为形成数据集到各数据中心的映射视图，需要将数据集视为数据空间的特征点集，对于给定的数据集d_i和d_j，两者在数据空间的距离可以根据依赖关系计算为

(3)

具体分类由迭代过程完成，首先计算当前隶属于各数据中心的数据集合的几何中心，从而待分类数据集到数据中心的距离可以表征为与几何中心的距离，并将该数据集归并到距离最小的数据中心，迭代的终止条件为各数据中心的数据组成不再变化，从而各数据中心可以映射为空间的m个数据集类，记为{w₁,w₂,…w_m}。其次，对数据集类抽取代表元形成，分析各数据集与相应代表元的距离关系，实现数据的精确分布。对m个数据集类均选取一个代表元，生成的代表元记为E={e₁,e₂,…e_m}，其中e_i表示类w_i的代表元。对于待调度执行的任务集，将任务集T划分为m个子集{T¹,T²,…T^m}，子集Tⁱ包括所有调度至数据中心C_i运行的任务。假设给定数据集d_t被迁移到数据中心C_k，则对于传输d_t而言的总体时间开销可以计算如下：

Figure 2011104365256100002DEST_PATH_IMAGE005

(3)

将d_t与E中各元素进行比较，选取具有如下条件C_i作为d_t隶属的数据中心：

(4)

（2）数据中心内存储模型

目前电力系统存储网络已经具有比较完整的物理架构，以及整合分布在各级的存储资源，现阶段的数据存储架构需要整合形成扁平化的对等存储网络，数据存储的效率和扩展性有待进一步提高。针对上述问题，本发明不考虑存储网络（如SAN）复杂的路由结构，将存储系统简化为L个磁盘的集合，表示为Disk={disk₁,disk₂,…disk_L}，同时回避了数据的切分过程，围绕数据存储的有效性和扩展性进行分析，达到两方设计要求：

1) 数据集平均分布于不同的磁盘；

2) 最小化物理磁盘增加或删除所导致的数据重新分布的开销。

对此，本发明通过一致性哈希算法计算数据集的键值对，形成数据布局的拓扑结构，实现系统中不同磁盘间数据的动态分布。为降低算法设计的复杂性，假设所有的物理磁盘均具有相同的空间大小，选取合适的哈希函数h将数据集映射到实值区间[0,1]，同时将区间[0,1]划分为L个子区间，分别对应于L个磁盘。例如，磁盘i对应的子区间表示为

Figure 2011104365256100002DEST_PATH_IMAGE007

。考虑第L+1个磁盘被添加的情况，对所有的子区间进行对等划分，如

划分出的子块计算为

Figure 2011104365256100002DEST_PATH_IMAGE009

。所有的子块均被集中统计和映射为区间

，并分配至磁盘L+1，如图2所示。

Claims

1.面向智能电网的数据密集型云存储模型，其特征在于：针对智能电网海量数据存储需求，设计了两阶段的数据分布策略，在分布策略中引入聚类分析和数据依赖关系计算，实现数据在多数据中心的优化配置，从而在智能电网数据密集型工作流环境下，以最小化数据传输开销为目标在移动计算和移动数据这两个环节作出平衡。

2.根据权利要求1所述的面向智能电网的数据密集型云存储模型，其特征在于：该存储架构下数据集平均分布于不同的磁盘；在物理磁盘增加或删除的情况下，最小化物理磁盘变化所导致的数据重新分布的开销。