CN102523300A - 面向智能电网的数据密集型云存储模型 - Google Patents

面向智能电网的数据密集型云存储模型 Download PDF

Info

Publication number
CN102523300A
CN102523300A CN2011104365256A CN201110436525A CN102523300A CN 102523300 A CN102523300 A CN 102523300A CN 2011104365256 A CN2011104365256 A CN 2011104365256A CN 201110436525 A CN201110436525 A CN 201110436525A CN 102523300 A CN102523300 A CN 102523300A
Authority
CN
China
Prior art keywords
data
intensive
storage
stage
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104365256A
Other languages
English (en)
Inventor
丁杰
奚后玮
朱力鹏
韩海韵
周爱华
吴军民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Electric Power Research Institute
Original Assignee
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Electric Power Research Institute filed Critical State Grid Electric Power Research Institute
Priority to CN2011104365256A priority Critical patent/CN102523300A/zh
Publication of CN102523300A publication Critical patent/CN102523300A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

面向智能电网的数据密集型云存储模型。为充分利用计算存储资源,满足智能电网大规模数据可靠存储和高效处理的实际需求,提出了基于云计算的数据密集型存储方法,该方法将数据集映射成数据空间的点集,并设计了二阶段分类过程,第一阶段基于传统的K均值算法实现点集的初始分类,第二阶段针对各数据集与初始聚类的隶属关系,引入数据迁移的代价函数,对初始分类进行调节,实现数据集到数据中心的布局方案。实验结构表明,该算法能够有效地提高数据存取效率和兼顾全局负载均衡。

Description

面向智能电网的数据密集型云存储模型
技术领域
本发明属于电力系统信息通信技术领域,涉及一种面向智能电网海量数据环境下的存储方法,该方法可以解决“大数据”存储问题,实现多个数据中心的负载均衡。
背景技术
目前,云存储发展呈现分布式数据密集型趋势,广泛应用于天文学、物理学和生物信息学领域,这类应用的部署和执行所涉及的TB,甚至PB级的数据往往存储于分布式的数据中心,需要多数据中心的有机协同,因此,跨数据中心的数据有效分布具有极其重要的作用:一方面,云环境下的应用所需的数据集通常位于多个数据中心,数据中心间的数据传输无可避免,需要考虑网络带宽资源和传输的时间开销;另一方面,分布式环境下的数据依赖性能够有效地提高数据管理和使用的效率,需要设计合理的数据分布策略来保持数据间的依赖关系。此外,数据中心内的数据分布方案对于提升存储系统的可靠性和可用性也具有重要的作用,针对当前广泛应用的SAN存储网络,系统的可扩展性是提升整体性能的首要因素,因此有必要对不同的数据分布模式进行量化分析,兼顾数据的均匀分布和全局的负载均衡。
随着电网建设规模的不断扩大,数字化电网、数字化变电站等研究应用的不断深入,系统面对的采集点越来越多。一个中等规模地区的采集量可以达到2万至10万,而一个大型地调未来可能面临50-100万的数据采集规模,一年的数据存储规模将从目前的GB级转向TB级;此外,随着调度自动化水平的不断提高,提出了实时运行数据不采用周期性采样存储而是按照实际时间序列连续存储的更高的要求,以满足更多的应用需求,这也将导致数据存储规模数十倍的增长,同时,历史数据的存储组织策略以及查询检索策略也将变得相当复杂。如此海量规模的电力信息能否实现有效存储并进行高效处理将是一个很大的问题。常见的数据密集型管理策略主要针对分布式环境下的大规模数据建模和基础设施服务展开研究,例如面向角色的数据建模方法,可用于网格环境下的数据建模,并使用数据网格来对数据进行管理;基于P2P模式的分布式数据建模方法,采用流程定义语言表示其数据流,实现分布存储资源中海量数据集的访问、移动和修改。然而,现有的系统的数据管理策略没有关注数据的存放分布和数据间依赖性的分析,因此无法减少数据迁移所带来的时间开销和提升整体执行效率。
发明内容
本发明结合智能电网的数据特性,通过分析云计算环境下存储应用系统的特点,在全面分析数据传输次数、数据集大小以及数据中心间网络带宽等因素的基础上,通过聚类分析、依赖性分析和哈希算法对多数据中心的数据集分布进行统筹规划,并引入系统执行效能的代价函数对数据分布方案进行评价和调整,从而在降低系统开销的同时最大限度地兼顾数据集间的依赖关系。
为了实现上述发明目的,本发明提出的云存储模型包括多数据中心的数据分布和数据中心内的数据存储两个方面。针对多数据中心的数据分布问题,将智能电网信息平台表示为扁平化的多个分布式数据中心,在此基础上对数据和工作流分别建模,在引入数据集聚类分析的同时设计了两阶段的数据分布方法:第一阶段基于K均值分析对数据进行迭代计算,生成初始分类;第二阶段详细分析数据中心间的隶属关系引入数据传输的时间开销评估,形成数据集的最优分布。针对数据中心内的数据存储问题,遵循存储同构原则进行存储设备的逻辑划分,围绕数据存储的有效性和扩展性进行分析,实现系统中不同磁盘间数据的动态分布。
本发明的有益效果在于,该数据存储模型完全通过自主设计来实现数据分布和通信算法,克服了传统存储模型在灵活性和实用性上的弊端,使得该存储方法能够有效降低多数据中心间的数据流动开销,以及充分利用数据中心内的存储资源,将有非常广阔的应用前景。
附图说明
图1是数据分布的实现框图。
图2是数据存储的磁盘划分示意图。
具体实施方式
(1)   多数据中心云存储模型
智能电网建设要求贯通智能电网发电、输电、变电、配电、用电、调度六大环节,实现信息的全面采集、流畅传输和高效处理,支撑电力流、信息流、业务流的高度一体化,适应海量信息的可靠存储和管理,提升数据使用效能。本发明将智能电网信息处理抽象成工作流和数据流,结合云存储下数据分布的相关概念进行建模,包括数据模型、应用模型和依赖关系等。智能电网信息平台可以表示为扁平化的多个分布式数据中心组成的集合C={C1,C2,…Cm},其中Ci表示第i个数据中心。由于云计算的数据类型具有复杂性和多样性特点,因此本发明屏蔽了智能电网环境下数据的结构特性,数据被视为数据密集型应用环境下面向多任务的数据集。定义数据流关联的数据集的全集为D,相应工作流的任务集为T={T1,T2,…Tn}。对于任意的数据集d?D,定义描述数据集属性的二元组为<Ti,si>,其中Ti表示调用数据集di的所有任务的集合,si是数据集di的大小。对任意的数据集对di和dj,相应的依赖关系定义为                                                
Figure 2011104365256100002DEST_PATH_IMAGE001
云计算应用于智能电网需要整合电力系统现有的业务数据信息和计算存储资源,业务应用往往涉及分处于不同数据中心的多个数据集,需要移动计算或移动相关的数据集到任务调度的数据中心,数据迁移的时间开销无可避免(如图1)。对于云环境中的m个数据中心C1,C2,…Cm, Ci与Cj间的带宽表示为bi,j,相应的带宽矩阵为
Figure 710766DEST_PATH_IMAGE002
                       (1)
从而,数据集dk在数据中心Ci和Cj间迁移的时间开销计算如下:
Figure 2011104365256100002DEST_PATH_IMAGE003
(2)
引入数据集的聚类分析,设计了数据分布的两阶段策略:第一阶段基于K均值分析对数据进行迭代计算,生成数据集合的初始分类;第二阶段详细分析数据集和数据中心间的隶属关系,引入数据传输的时间开销评估,形成数据集的最优分布。为形成数据集到各数据中心的映射视图,需要将数据集视为数据空间的特征点集,对于给定的数据集di和dj,两者在数据空间的距离可以根据依赖关系计算为
Figure 690223DEST_PATH_IMAGE004
             (3)
具体分类由迭代过程完成,首先计算当前隶属于各数据中心的数据集合的几何中心,从而待分类数据集到数据中心的距离可以表征为与几何中心的距离,并将该数据集归并到距离最小的数据中心,迭代的终止条件为各数据中心的数据组成不再变化,从而各数据中心可以映射为空间的m个数据集类,记为{w1,w2,…wm}。其次,对数据集类抽取代表元形成,分析各数据集与相应代表元的距离关系,实现数据的精确分布。对m个数据集类均选取一个代表元,生成的代表元记为E={e1,e2,…em},其中ei表示类wi的代表元。对于待调度执行的任务集,将任务集T划分为m个子集{T1,T2,…Tm},子集Ti包括所有调度至数据中心Ci运行的任务。假设给定数据集dt被迁移到数据中心Ck,则对于传输dt而言的总体时间开销可以计算如下:
Figure 2011104365256100002DEST_PATH_IMAGE005
                  (3)
将dt与E中各元素进行比较,选取具有如下条件Ci作为dt隶属的数据中心:
Figure 532277DEST_PATH_IMAGE006
      (4)
(2)   数据中心内存储模型
目前电力系统存储网络已经具有比较完整的物理架构,以及整合分布在各级的存储资源,现阶段的数据存储架构需要整合形成扁平化的对等存储网络,数据存储的效率和扩展性有待进一步提高。针对上述问题,本发明不考虑存储网络(如SAN)复杂的路由结构,将存储系统简化为L个磁盘的集合,表示为Disk={disk1,disk2,…diskL},同时回避了数据的切分过程,围绕数据存储的有效性和扩展性进行分析,达到两方设计要求:
1)    数据集平均分布于不同的磁盘;
2)    最小化物理磁盘增加或删除所导致的数据重新分布的开销。
对此,本发明通过一致性哈希算法计算数据集的键值对,形成数据布局的拓扑结构,实现系统中不同磁盘间数据的动态分布。为降低算法设计的复杂性,假设所有的物理磁盘均具有相同的空间大小,选取合适的哈希函数h将数据集映射到实值区间[0,1],同时将区间[0,1]划分为L个子区间,分别对应于L个磁盘。例如,磁盘i对应的子区间表示为
Figure 2011104365256100002DEST_PATH_IMAGE007
。考虑第L+1个磁盘被添加的情况,对所有的子区间进行对等划分,如
Figure 989804DEST_PATH_IMAGE008
划分出的子块计算为
Figure 2011104365256100002DEST_PATH_IMAGE009
。所有的子块均被集中统计和映射为区间
Figure 866493DEST_PATH_IMAGE010
,并分配至磁盘L+1,如图2所示。

Claims (2)

1.面向智能电网的数据密集型云存储模型,其特征在于:针对智能电网海量数据存储需求,设计了两阶段的数据分布策略,在分布策略中引入聚类分析和数据依赖关系计算,实现数据在多数据中心的优化配置,从而在智能电网数据密集型工作流环境下,以最小化数据传输开销为目标在移动计算和移动数据这两个环节作出平衡。
2.根据权利要求1所述的面向智能电网的数据密集型云存储模型,其特征在于:该存储架构下数据集平均分布于不同的磁盘;在物理磁盘增加或删除的情况下,最小化物理磁盘变化所导致的数据重新分布的开销。
CN2011104365256A 2011-12-23 2011-12-23 面向智能电网的数据密集型云存储模型 Pending CN102523300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104365256A CN102523300A (zh) 2011-12-23 2011-12-23 面向智能电网的数据密集型云存储模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104365256A CN102523300A (zh) 2011-12-23 2011-12-23 面向智能电网的数据密集型云存储模型

Publications (1)

Publication Number Publication Date
CN102523300A true CN102523300A (zh) 2012-06-27

Family

ID=46294087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104365256A Pending CN102523300A (zh) 2011-12-23 2011-12-23 面向智能电网的数据密集型云存储模型

Country Status (1)

Country Link
CN (1) CN102523300A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945245A (zh) * 2012-09-25 2013-02-27 中国联合网络通信集团有限公司 数据配置方法、装置和服务器
CN104636084A (zh) * 2015-01-21 2015-05-20 广东电网有限责任公司电力科学研究院 一种对电力大数据进行合理高效分布存储的装置和方法
CN108121501A (zh) * 2016-11-29 2018-06-05 株式会社东芝 分级存储系统、存储控制器以及分级控制方法
CN110058812A (zh) * 2019-03-08 2019-07-26 中国农业科学院农业信息研究所 一种云环境下科学工作流数据放置方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010042325A2 (en) * 2008-10-09 2010-04-15 Dataram, Inc. System for controlling performance aspects of a data storage and access routine
CN102136007A (zh) * 2011-03-31 2011-07-27 石家庄铁道大学 基于小世界特性的工程信息组织方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010042325A2 (en) * 2008-10-09 2010-04-15 Dataram, Inc. System for controlling performance aspects of a data storage and access routine
CN102136007A (zh) * 2011-03-31 2011-07-27 石家庄铁道大学 基于小世界特性的工程信息组织方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑湃: "云计算环境下面向数据密集型应用的数据布局策略与方法", 《计算机学报》 *
陈涛: "基于聚类和一致Hash的数据布局算法", 《JOURNAL OF SOFTWARE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945245A (zh) * 2012-09-25 2013-02-27 中国联合网络通信集团有限公司 数据配置方法、装置和服务器
CN104636084A (zh) * 2015-01-21 2015-05-20 广东电网有限责任公司电力科学研究院 一种对电力大数据进行合理高效分布存储的装置和方法
CN108121501A (zh) * 2016-11-29 2018-06-05 株式会社东芝 分级存储系统、存储控制器以及分级控制方法
CN108121501B (zh) * 2016-11-29 2021-02-09 株式会社东芝 分级存储系统、存储控制器以及分级控制方法
CN110058812A (zh) * 2019-03-08 2019-07-26 中国农业科学院农业信息研究所 一种云环境下科学工作流数据放置方法
CN110058812B (zh) * 2019-03-08 2022-11-22 中国农业科学院农业信息研究所 一种云环境下科学工作流数据放置方法

Similar Documents

Publication Publication Date Title
CN105005570B (zh) 基于云计算的海量智能用电数据挖掘方法及装置
Liu et al. Job scheduling model for cloud computing based on multi-objective genetic algorithm
CN102323957B (zh) 基于垂直划分模式的分布并行Skyline查询方法
CN113703969A (zh) 一种基于边缘计算的可多源数据处理的配电物联网体系
CN102984137A (zh) 一种基于多目标遗传算法下的多目标服务器调度方法
WO2022012093A1 (zh) 一种基于&#34;分区-分级&#34;理论的复杂水资源系统优化配置方法
Liao et al. Long-term generation scheduling of hydropower system using multi-core parallelization of particle swarm optimization
Pan et al. Wind power prediction based on neural network with optimization of adaptive multi-group salp swarm algorithm
CN107423133B (zh) 一种降低电网网损的数据中心间数据网络负载分配方法
Liu et al. A data placement strategy for scientific workflow in hybrid cloud
CN102523300A (zh) 面向智能电网的数据密集型云存储模型
CN111260146B (zh) 电力系统边缘云数据中心选址方法、装置、设备及介质
Pandey et al. A strategic metaheuristic edge server placement scheme for energy saving in smart city
CN103176850A (zh) 一种基于负载均衡的电力系统网络集群任务分配方法
CN116805201A (zh) 一种无人机的能源补给站部署方法
CN110262880B (zh) 一种面向分布式数据中心能耗开销优化的作业调度方法
Jiao et al. Service deployment of C4ISR based on genetic simulated annealing algorithm
Huang et al. Multi objective scheduling in cloud computing using MOSSO
CN103440540B (zh) 一种土地利用空间布局人工免疫优化模型的并行化方法
CN104391949A (zh) 一种基于数据字典的广域数据资源管理方法
Liu et al. Recent advances on distributed dispatching and control algorithms in virtual power plant
Sun et al. Optimizing grid resource allocation by combining fuzzy clustering with application preference
Li et al. Application of Energy Consumption Model and Energy Conservation Technology in New Infrastructure
Zhuang et al. Overview of cloud computing resource allocation and management technology
Li et al. Edge computing offloading strategy based on dynamic non-cooperative games in D-IoT

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627