CN102222090B - 一种云环境下海量数据资源管理框架 - Google Patents

一种云环境下海量数据资源管理框架 Download PDF

Info

Publication number
CN102222090B
CN102222090B CN 201110147807 CN201110147807A CN102222090B CN 102222090 B CN102222090 B CN 102222090B CN 201110147807 CN201110147807 CN 201110147807 CN 201110147807 A CN201110147807 A CN 201110147807A CN 102222090 B CN102222090 B CN 102222090B
Authority
CN
China
Prior art keywords
data
cloud
node
resource
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110147807
Other languages
English (en)
Other versions
CN102222090A (zh
Inventor
张桂刚
李超
邢春晓
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110147807 priority Critical patent/CN102222090B/zh
Publication of CN102222090A publication Critical patent/CN102222090A/zh
Application granted granted Critical
Publication of CN102222090B publication Critical patent/CN102222090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种云环境下海量数据资源管理框架,包括物理存储层、海量存储网、数据转换层、数据管理层、安全管理层、资源组合层和应用层,其中涉及的述云数据库支持从其他各种数据源转换过来的数据并将其存储,例如,我国清华大学开发的THCloudDB系统,本发明可以实现对云环境下异构的海量资源的统一管理和组织,为云环境下的海量、异构的数据组织和管理提供了一套完整的解决方案。

Description

一种云环境下海量数据资源管理框架
技术领域
本发明属于数据库技术领域,特别涉及一种云环境下海量数据资源管理框架。
背景技术
随着互联网的飞速发展,很多应用的数据量都达到了TB级别甚至PB级别,如:Google已经在全球部署了100多万台服务器用来处理它庞大的数据量;FaceBook每天上载的照片均超过了1亿张以上,每天照片的浏览量超过150亿张以上,随着FaceBook最近的进入中国市场的步伐加快,其数据量将更加面临着一个直线的上升。2010年9月份图片共享网站Flickr所收录的上传图片数量超过了50亿张。所有的这些数据存储在不同的数据中心、集群和服务器中,这是一个非常复杂的异构环境。如何管理这些海量数据资源,使之能够以安全、高效、一致的方式提供按需服务是目前云环境下数据资源管理面临的一个巨大的困难和挑战。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种云环境下海量数据资源管理框架,可以实现对云环境下异构的海量资源的统一管理和组织,从而更好地服务于人类需求。
为了实现上述目的,本发明采用的技术方案是:
一种云环境下海量数据资源管理框架,包括:
物理存储层,包含存储域与分布式文件系统,用于存储互联网中的所有数据;
海量存储网,是指所有的物理节点都抽象与虚拟化成逻辑节点,组成的一个存储网络,为后续的资源分配、调度、副本管理与调度提供基础;
数据转换层,将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据;
数据管理层,管理所有存储在云数据库中的被转换后的数据;
安全管理层;
资源组合层,根据应用层对资源的需求,对下层的资源进行资源组合,提供满足应用层需求的各种服务;
应用层,将用户的需求进行无损分解,形成云数据库能够提供的各种资源,然后通过资源组合得到用户所需要的各种云服务。
所述云数据库支持从其他各种数据源转换过来的数据并将其存储,例如,我国清华大学开发的THCloudDB(TsingHua Cloud DataBase)系统。
所述物理存储层中,存储域由数据中心集群、各种企业集群和普通服务器组成;分布式文件系统能够让PB级的数据量分布在各种节点上面。
所述安全管理层包括可信监控、云资源认证中心及其云安全协议CSP,其中可信监控能够对所有资源进行可信监控,云资源认证中心对云环境下的所有资源进行认证,包括:
对应用层的每个应用程序以及应用程序所有接口进行认证;
对云数据库系统进行认证;
对云系统中的所有参与者进行认证;
对云存储系统中的每个数据中心,集群及其服务器进行认证。
本发明与现有技术相比,建立了一个包含物理存储层、海量存储网、数据转换层、数据管理层、安全管理层、资源组合层及其应用层的云环境下的海量数据资源组织与管理框架,实现了对云环境下海量数据资源的管理与组织,从而更好地服务于人类。
附图说明
图1为本发明的云环境下海量资源组织与管理体系架构框图。
图2为本发明所述海量存储网框图,圆圈表示将实际的每个物理存储节点都虚拟后的逻辑节点,N1,N2,……都是对逻辑节点的编号,物理节点之间的物理连接在该存储网中用线条连接,用Set1,Set2,……表示节点与节点之间的数据流量,如节点Nm+2与节点Np之间的流量用Set T表示。
图3为本发明所述THCloudDB的体系架构框图。
图4为本发明所述云安全协议CSP框图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,本发明为一种云环境下海量数据资源管理框架,云数据库支持从其他各种数据源转换过来的数据并将其存储,本实施例为我国清华大学开发的THCloudDB(TsingHua Cloud DataBase)系统,本发明包括:
物理存储层,主要由存储域和分布式文件系统组成,它用于存储互联网中所有的数据。存储域是指存储各种互联网数据的实际的物理设备,主要包括专用的数据中心集群(主要是指专门给提供数据中心服务的机构和企业)、各个企业自己的数据中心集群(企业自建的数据中心)及其各种存储服务器(有些企业没有建立数据中心,则直接用存储服务器存储)等等组成。分布式文件系统提供一种存储策略,将互联网上海量的PB级、EB级甚至ZB级的数据分布存储在各种村粗数据节点上。本发明使用清华大学自己研发的分布式文件系统THDFS(TsingHua Distributed File System)作为文件存储策略,将云环境下各种数据分布存储在各种存储数据节点上。物理层上由很多不同的云组成,云与云之间互相同构或者异构。数据块可能存储在不用的云中,如N1,N2,……,N11等等数据块它们的数据副本可能存储在不同的云中,如N1在图1中存储在两个不同的云中。同构的云之间进行各种交互比较简单,但是在异构的云之间进行数据交互则将十分复杂和困难,故云与云之间需要进行互操作,建立的统一的互操作的标准可以实现在同构或者异构云之间进行交互,从而屏蔽掉各种异构云的差别,做到对外统一与透明。在物理层中再使用虚拟化技术,将各种物理上的存储节点虚拟化成为一个逻辑上的存储节点,为构建海量存储网提供抽象基础,海量存储网为后续的资源分配、调度、副本管理与调度提供基础;
当海量存储网形成后,将互联网中所有的数据通过海量存储网归类(当海量存储网更新时,可以动态交互)并存储到相应的存储系统中。其中RDBMS(Relational DataBase Management System)为关系数据库系统;ORDBMS(Object Relational DataBase Management System)为对象关系数据库系统;NoSQL(非关系型数据库);Document(文档)及其Others(其他数据源)等等。然后将各种数据来源统一进行数据转换成THCloudDB(TingHua CloudDataBase)来进行统一存储。
THCloudDB数据管理中心对应着THCloudDB数据库系统的管理功能,对THCloudDB数据库中的所有数据及其元数据、索引、数据库安全等等进行数据的管理监控。
云安全层包含可信监控、云资源认证中心及其CSP(Cloud SecurityProtocol,云安全协议)三大部分,它负责整个环境的安全管理。THCloudDB数据管理中心、THCloudDB、所有各种数据源、海量存储网及其所有的物理存储节点都需要由该层进行安全监控与管理。
在最上层应用层中,所有的应用都以用户的需求为驱动,整个应用环境具有跨域、异构及其在云复杂网络环境下。通过将这些用户的需求进行分解,分解过程中得知完成该应用需要的资源(如在某个应用中需要N1,N4,N6及其N10四个资源)。在获取应用所需资源时候,需要通过THCloudD数据管理中心读取相应资源(如:N1,N4,N6及其N10)。最后根据这些读取的资源组合成用户需求驱动的某个复杂云(存储)应用。
海量存储网,如图2所示,底层数据存储在复杂的异构环境中,为了更好地管理并利用成千上万的服务器进行云环境下的分布式存储服务,在本层将所有的物理节点都抽象与虚拟化成逻辑节点,组成一个巨大的海量存储网络,从而为后续的资源分配、调度、副本管理与调度等等提供了一个基础;
海量存储网的生成与更新基本方法如下:
步骤1:扫描“心跳”XML文件,若无新节点增加,也无节点删除,维持原海量存储图不变,若有新节点增加,则转到步骤2,若有节点删除则转到步骤3,其中“心跳”XML文件是分布式文件系统元数据管理节点固有的一个XML文件;
步骤2:当有新的节点增加时,判断该新节点位置,并找到该节点物理连接的另外一节点,在该新增节点与物理连接节点之间连接一条线,并转向步骤4;
步骤3:当有节点被删除时,判断该节点位置,并找到与该节点相连的所有其他物理节点,将它们之间的所有连线均删除,并转向步骤5;
步骤4:计算该节点负载量,并将节点负载节点提交资源迁移算法,报告该节点的实际负载情况,以供其参考;
步骤5:计算该删除节点的存储资源内容:包括资源名称和数量,并转向步骤6;
步骤6:根据步骤5的内容,计算需要复制的资源及其数量,并将结果提交给资源迁移算法与副本管理与控制算法;
步骤7:循环进行节点增加或者删除判断;
步骤8:若无新节点增加,或者无节点被删除,则算法终止。
海量存储网的负载平衡,海量存储网的负载平衡主要考虑云环境下的数据存储尽量保持平衡,以免出现有些节点过于繁忙,而其他节点则过于清闲的状态,其基本方法如下:
步骤1:计算节点的当前负载情况;
步骤2:获取当前存储网总负载,并计算出每个节点平均负载;
步骤3:若当前节点负载大致等于平均负载,则该节点不发送任何信号,即:不接受新资源,也不发送新资源;
步骤4:若当前节点负载小于平均负载,则该节点的副本标记为Flag(R)=0,表示该节点可以接收迁移过来的资源;
步骤5:若当前节点负载大于平均负载,则该节点的副本标记为Flag(R)=1,表示该节点不再接收迁移过来的资源;
步骤6:重复步骤1到步骤5,不断维持该海量存储网的负载平衡。
海量存储网的资源迁移,其基本方法如下:
步骤1:计算海量存储网中各个节点资源的热度;
步骤2:若该节点的资源为原创资源,则不管其资源热度大还是小,则均不迁移;
步骤3:若该节点的资源为副本资源,则判断其是否和原创资源在同一机架,若在同一机架则不迁移,否则转到步骤4;
步骤4:计算该资源最热点访问服务器,将该资源迁移到海量存储网中的访问该资源的热点服务器中存储,该热点服务器必须满足条件Flag(R)=0,否则找其次热服务器,以此类推;
步骤5:在整个海量存储网中重复步骤1到步骤4,动态维持迁移。
海量存储网的副本管理与控制,其基本方法如下:
步骤1:副本在本地数据节点创建,并复制;
步骤2:副本复制按照数据重要性进行,对于特别重要的数据复制4份,对于一般重要的数据复制3份,对于不重要的数据复制2份;
步骤3:对于特别重要的数据:本数据节点的机架内放置两份,其中另外的两份,通过对该数据的热点进行分析,将其放置在出本地数据节点机架之外的最重要的两个热点机架之中存储;
步骤4:对于一般重要的数据:本数据节点的机架内放置两份,其中另外的一份,通过对该数据的热点进行分析,将其放置在出本地数据节点机架之外的最重要的一个热点机架之中存储;
步骤5:对于不重要的数据:本数据节点的机架内放置一份,其中另外的一份,通过对该数据的热点进行分析,将其放置在出本地数据节点机架之外的最重要的一个热点机架之中存储。
数据转换层,将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据,海量存储网中包含了各类虚拟节点,每个单独的节点以及不同的节点都可能存储着各种不同类型的数据格式的数据,为了统一数据资源格式,统一为用户提供更好的服务,将各种数据通过数据转换,转换成为消除各种不同语义格式的THCloudDB数据库中的数据,其基本方法如下:
步骤1:判断数据来源,如果是关系数据库,首先在数据读取前第一行做标记Flag=0,随后将数据按行读入到云数据库中的数据表中;
步骤2:判断数据来源,如果是非关系数据库,首先在数据读取前第一行做标记Flag=1,随后将数据按列读入到云数据库中的数据表中;
步骤3:重复步骤1和步骤2,直到将数据中心、集群或者服务器中数据均存储到云数据库中为止。
数据管理层,管理所有存储在云数据库中的被转换后的数据,参见图3,本实施例中,THCLoudDB是一种云环境下的分布式数据库管理系统,该系统主要存储并管理从其他各种数据源转化而来的数据,THCLoudDB是一种分布式、稀疏以及行列混合存储的数据库系统,THCLoudDB数据库是一种混合数据库,它既可以按照行存储也可以按照列存储,它的数据模型可以表示如下:
  FLAG(R/W)   Data1   Data2 ...... Data n   Flag(R/W)
其中FLAG(R/W)为存储标志位,当FLAG(R/W)=0时候,则表示为行存储;当FLAG(R/W)=1时,则表示为列存储。
【例1】假设有数据来自关系数据库,见表1;有数据来自列数据库,见表2。
表1:学生表
  姓名   性别   年龄
  张三   男   33
  李四   女   80
表2:薪酬表
  姓名   部门   薪水
  王五   语音中心   1868
  谢七   Web中心   2582
上述两个不同种类数据库的两个数据表,统一存储到THCloudDB则数据为如下的存储方式:
表3:THCloudDB存储表
  0   张三   男   33   李四
  女   80   1   王五   谢七
  语音中心   Web中心   1868   2582   NULL
从例1可以看出THCLoudDB可以实现混合存储,判断数据是按照行存储还是列存储,只需要判断前面的标志位是0或者是1即可。
THCloudDB数据管理方案如下:
在THCloudDB数据中心中,管理着所有的分布式的THCloudDB数据,为数据映射、协同管理、安全管理、数据组合及其数据搜索等等各种云数据服务提供基础,监控着所有数据的变化状况。THCloudDB的数据管理方案如图3所示:
THCloudDB与其他的云数据库一样,也是由三层组成。最底层为HDFS层,该层为THCloudDB提供分布式文件存储服务。中间层为THCloudDB层,该层为核心层,主要提供云环境下分布式数据库存储服务。最上层为应用层,该层将随着研究的不断深入,提供较多的接口,满足THCloudDB以后对外提供服务。
THCloudDB与其他的各种云数据库一样也是主要包含两大部分(a)THCloudDB_Master和(b)THCloudDB_Server。其中THCloudDB_Master主要保存着所有THCloudDB_Server的元数据。包括THCloudDB_Server的位置信息,运行状态等等。而THCloudDB_Server又主要由很多的TH_Tablet所组成,包含了所有的TH_Tablet的元信息。每个TH_Tablet包含日志系统THC_Log与很多的TH_File及其对应的TH_memstore组成。所有的数据最后都是存储在TH_File中。
其中TH_memstore中存储了临时的资源数据,TH_CloudDB会定期进行数据扫描,将这些存储在TH_memstore中的数据进行固化到TH_File中。
THC_Log是THCloudDB的日志系统,它记录了数据处理过程的轨迹,一旦数据提交过程出现故障,可以通过THC_Log日志系统进行数据的恢复,从而保证整个数据的安全和一致性。
安全管理层,本部分担负着整个云框架的各种资源的安全状况,主要由可信监控和云资源认证中心两大部分组成。通过对框架内的所有资源的安全可信监控,确保资源的发布、获取、使用及其存储都是在一个可信的环境下。通过对框架中的所有部分的认证,确保每个参与者都是可信的。
安全管理层包括可信监控、云资源认证中心及其云安全协议CSP,其中:
可信监控模块(TMM)主要包含对所有资源的可信监控(TrustedMonitoring),确保资源在运行过程中不受到外在的攻击,如黑客攻击;或者不受病毒攻击及其他各种数据类型的攻击;
云资源认证模块(CCAM)主要对云环境下的所有资源进行认证(Certificate Authority)。包括对应用层的每个应用程序,应用程序所有接口进行认证;对THCloudDB数据库系统进行认证;对云系统中的所有参与者(用户,商家等)进行认证;对云存储系统中的每个数据中心,集群及其服务器进行认证,确保它们的可靠性,总之,云资源认证模块将对整个云框架的所有资源进行认证,确保系统可靠与安全;
云安全协议CSP(Cloud Security Protocol)是为了确保在互联网这样一个复杂的环境下,云计算的各种服务的提供、分发、使用安全的一套协议。其基本模式可以描述如图4所示:
云服务使用者可以在云平台中进行浏览,购买自己所需要的云服务;云服务的提供商也可以在云服务平台发布自己的云服务,其发布的云服务可以是公共云服务,也可以是私有云服务和混合云服务;由于云服务的交易过程仍然和电子商务交易服务没有差异,故云的安全支付采用目前市场上已经存在的,在电子商务领域普遍使用的统一的安全标准SET协议来完成安全支付的整个过程。
云安全协议最主要的部分就是对云服务的安全保护,具体包含如下几个子模块:
权限认证,主要对用户和云资源的权限进行认证,根据用户的购买权限,提供给用户权限内的资源。
云交互安全认证,云服务有时会涉及到不同的云之间的互相合作,从而必须对云在交互时的安全进行认证,以免交互过程出现信息泄露等现象。
云服务本身进行认证,云服务是资源,对云资源本身进行认证,确保其可靠。
云参与方进行认证,与电子商务交易中的认证一样,云服务中同样需要对云中的任何参与方(云服务使用方、云服务提供商、云服务平台等)均要进行认证,确保安全。
资源组合层,本层主要根据应用层对资源的需求,对下层的资源进行资源组合,提供满足应用层需求的各种服务,该层中,当获取需求后,从下面的THCloudDB数据管理中心获取各种所需的资源,然后对这些资源进行组合成所需的服务。
用户的需求往往成千上万,种类各异,云服务中的任何单个资源可能很难满足用户的需求,需要多个资源一起配合才能够为用户提供所需的资源。资源组合层主要是根据用户的需求,从云中寻找出能解决用户需求的所有资源,并对这些资源进行有机的组合,为用户提供所需服务。本层主要包含读取数据资源模块和云服务资源组合模块。
读取数据资源模块在用户需求已经明确的情况下,读取满足用户条件的所有资源,从所读取的资源中选取最适合的资源集合。
【例2】假设用户所需的服务Service X需要满足a,b,c三个条件的资源。而在互联网中满足a条件的资源集合为Set A;满足b条件的资源集合为SetB;满足c条件的资源集合为SetC。
系统在读取了SetA,SetB与SetC后,需要对这三个集合的数据进行一个优化排序,将最符合条件的子资源排在最前面。(假设p∈SetA;p∈SetB;m∈SetC)
云服务资源组合模块的功能实现,可以分为如下两个步骤:
从上述步骤获取所需服务Service X的最佳三个子服务p’,q’及其m’。
采用BPEL或者其他网络服务资源组合的方法得到所需的云服务。
应用层,本层作为框架的最高层,主要按照用户的需求进行驱动。用户可能需要从跨域、异构的复杂环境下获取各种云资源。该层将用户的需求进行无损分解,形成THCloudDB能够提供的各种资源,然后通过资源组合得到用户所需要的各种云服务,本层主要包含用户需求表述模块和需求分解模块。
用户需求表达模块直接以类结构化自然语言形式表示,但是其需要遵循基本的语法标准,语法标准主要体现为“动宾”格式,具体的语法标准格式如下:
动词+宾语+补语(补语可以有0个或者多个)
【例3】预订宾馆
该案例就是典型动宾格式,如:“预订”为动词,“宾馆”为宾语。
【例4】预订2011年4月25日从北京到武昌的火车票
该案例的“预订”为动词,“火车票”为宾语,另外还有两个补语“2011年4月25日”和“北京到武昌”。
需求分解模块功能的实现主要包含两个步骤:1)分词;2)理清动词,宾语,补语;3)转化成web服务集。
【例5】Buy the ticket and book hotel from Wuchang to Beijing on2011/4/25.
上述的一个结构化自然语言结构相对复杂,它其实表达的是用户的一个复杂的云服务的需求。根据我们的方法,可以得出它由如下几个小的云服务所组成。
Buy(动词1)+ticket(宾语)+Wuchang to Beijing(补语1)+2011/4/25(补语2)
原子服务1:Buy  (动词1)+ticket(宾语1)+Wuchang to Beijing(补语1)
原子服务2:Buy  (动词1)+ticket(宾语1)+2011/4/25(补语2)
Book(动词2)+Hotel(宾语2)+Beijing(补语3)+2011/4/35(补语4)
原子服务3:Book(宾语2)+Hotel(名词2)+Beijing(补语3)
原子服务4:Book(宾语2)+Hotel(名词2)+2011/4/35(补语4)
最后,该用户的云需求服务转化了四个原子云服务的组合,然后将这些原子服务交给BPEL去进行组合。

Claims (8)

1.一种云环境下海量数据资源管理系统,其特征在于,包括:
物理存储层,包含存储域与分布式文件系统,用于存储互联网中的所有数据,所述存储域是指存储各种互联网数据的实际物理设备;
海量存储网,是指所有的物理节点都抽象与虚拟化成逻辑节点,组成的一个存储网络,为后续的资源分配、调度、副本管理与调度提供基础;
数据转换层,将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据;
数据管理层,管理所有存储在云数据库中的被转换后的数据;
安全管理层,包括可信监控、云资源认证中心及其云安全协议CSP,其中可信监控能够对所有资源进行可信监控,云资源认证中心对云环境下的所有资源进行认证,包括:对应用层的每个应用程序以及应用程序所有接口进行认证;对云数据库系统进行认证;对云系统中的所有参与者进行认证;对云存储系统中的每个数据中心,集群及其服务器进行认证;
资源组合层,根据应用层对资源的需求,对下层的资源进行资源组合,提供满足应用层需求的各种服务;
应用层,将用户的需求进行无损分解,形成云数据库能够提供的各种资源,然后通过资源组合得到用户所需要的各种云服务。
2.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,所述云数据库支持从其他各种数据源转换过来的数据并将其存储。
3.根据权利要求2所述的云环境下海量数据资源管理系统,其特征在于,所述云数据库为清华大学的TsingHua Cloud DataBase。
4.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,所述存储域由数据中心集群、各种企业集群和普通服务器组成;所述分布式文件系统能够让PB级的数据量分布在各种节点上面。
5.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,通过如下方法实现海量存储网的负载平衡:
步骤1:计算节点的当前负载情况;
步骤2:获取当前存储网总负载,并计算出每个节点平均负载;
步骤3:若当前节点负载大致等于平均负载,则该节点不发送任何信号,即:不接受新资源,也不发送新资源;
步骤4:若当前节点负载小于平均负载,则该节点的副本标记为Flag(R)=0,表示该节点可以接收迁移过来的资源;
步骤5:若当前节点负载大于平均负载,则该节点的副本标记为Flag(R)=1,表示该节点不再接收迁移过来的资源;
步骤6:重复步骤1到步骤5,不断维持该海量存储网的负载平衡。
6.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,通过如下方法实现海量存储网的资源迁移:
步骤1:计算海量存储网中各个节点资源的热度;
步骤2:若该节点的资源为原创资源,则不管其资源热度大还是小,则均不迁移;
步骤3:若该节点的资源为副本资源,则判断其是否和原创资源在同一机架,若在同一机架则不迁移,否则转到步骤4;
步骤4:计算该资源最热点访问服务器,将该资源迁移到海量存储网中的访问该资源的热点服务器中存储,该热点服务器必须满足条件Flag(R)=0,否则找其次热服务器,以此类推;
步骤5:在整个海量存储网中重复步骤1到步骤4,动态维持迁移。
7.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,通过如下方法实现海量存储网的副本管理与控制:
步骤1:副本在本地数据节点创建,并复制;
步骤2:副本复制按照数据重要性进行,对于特别重要的数据复制4份,对于一般重要的数据复制3份,对于不重要的数据复制2份;
步骤3:对于特别重要的数据:本地数据节点的机架内放置两份,其中另外的两份,通过对该数据的热点进行分析,将其放置在除本地数据节点机架之外的最重要的两个热点机架之中存储;
步骤4:对于一般重要的数据:本地数据节点的机架内放置两份,其中另外的一份,通过对该数据的热点进行分析,将其放置在除本地数据节点机架之外的最重要的一个热点机架之中存储;
步骤5:对于不重要的数据:本地数据节点的机架内放置一份,其中另外的一份,通过对该数据的热点进行分析,将其放置在除本地数据节点机架之外的最重要的一个热点机架之中存储。
8.根据权利要求1所述的云环境下海量数据资源管理系统,其特征在于,数据转换层通过如下方法来实现将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据:
步骤1:判断数据来源,如果是关系数据库,首先在数据读取前第一行做标记Flag=0,随后将数据按行读入到云数据库中的数据表中;
步骤2:判断数据来源,如果是非关系数据库,首先在数据读取前第一行做标记Flag=1,随后将数据按列读入到云数据库中的数据表中;
步骤3:重复步骤1和步骤2,直到将数据中心、集群或者服务器中数据均存储到云数据库中为止。
CN 201110147807 2011-06-02 2011-06-02 一种云环境下海量数据资源管理框架 Active CN102222090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110147807 CN102222090B (zh) 2011-06-02 2011-06-02 一种云环境下海量数据资源管理框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110147807 CN102222090B (zh) 2011-06-02 2011-06-02 一种云环境下海量数据资源管理框架

Publications (2)

Publication Number Publication Date
CN102222090A CN102222090A (zh) 2011-10-19
CN102222090B true CN102222090B (zh) 2012-12-05

Family

ID=44778642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110147807 Active CN102222090B (zh) 2011-06-02 2011-06-02 一种云环境下海量数据资源管理框架

Country Status (1)

Country Link
CN (1) CN102222090B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136114B (zh) 2011-11-30 2015-11-25 华为技术有限公司 存储方法及存储装置
CN103150304B (zh) * 2011-12-06 2016-11-23 郑红云 云数据库系统
CN102567119A (zh) * 2011-12-31 2012-07-11 曙光信息产业股份有限公司 云计算设备
CN102638378B (zh) * 2012-02-22 2014-05-21 中国人民解放军国防科学技术大学 一种集成异构存储设备的海量存储系统监控方法
CN102646121A (zh) * 2012-02-23 2012-08-22 武汉大学 结合RDBMS和Hadoop云存储的两级存储方法
CN103310629A (zh) * 2012-05-30 2013-09-18 韩大明 一种基于云计算手机智能交通的出租车呼叫系统
CN102752302B (zh) * 2012-07-03 2015-06-10 厦门简帛信息科技有限公司 云端服务器、数字资源的拷贝方法及系统
CN102906751B (zh) * 2012-07-25 2015-12-02 华为技术有限公司 一种数据存储、数据查询的方法及装置
US9621435B2 (en) * 2012-09-07 2017-04-11 Oracle International Corporation Declarative and extensible model for provisioning of cloud based services
CN103593172B (zh) * 2012-10-29 2017-02-08 百度在线网络技术(北京)有限公司 面向统一结构化数据的应用程序的开发系统、方法及装置
CN102902825B (zh) * 2012-11-06 2015-11-18 无锡江南计算技术研究所 一种数据库优化方法及装置
CN103001892B (zh) * 2012-12-12 2015-08-19 中国联合网络通信集团有限公司 基于云计算的网络资源分配方法及系统
CN103905508B (zh) * 2012-12-28 2017-07-28 华为技术有限公司 云平台应用部署方法及装置
CN103106270B (zh) * 2013-02-02 2016-06-29 深圳先进技术研究院 云数据融合方法和系统
CN103281306B (zh) * 2013-05-03 2016-02-24 四川省电力公司信息通信公司 云数据中心虚拟化基础架构平台
CN103279505B (zh) * 2013-05-10 2016-12-07 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
CN103365966B (zh) * 2013-06-21 2017-02-08 北京邮电大学 物联网节点信息存储方法及装置
CN103514273B (zh) * 2013-09-17 2016-08-17 宁波东冠科技有限公司 数据采集和监视控制系统及该系统的数据处理方法
CN103605698A (zh) * 2013-11-06 2014-02-26 广东电子工业研究院有限公司 一种用于分布异构数据资源整合的云数据库系统
CN103631912B (zh) * 2013-11-28 2016-08-03 清华大学 一种利用非关系数据库存储海量工业设备监测数据的方法
CN103678701A (zh) * 2013-12-31 2014-03-26 福建四创软件有限公司 基于WebService的防灾减灾信息处理系统及方法
CN104076906B (zh) * 2014-07-17 2017-05-17 四川传承有序数据服务有限公司 一种面向数据的信息技术系统
US10164901B2 (en) 2014-08-22 2018-12-25 Oracle International Corporation Intelligent data center selection
CN104580481A (zh) * 2015-01-16 2015-04-29 河南机电高等专科学校 一种具有高运算性能的云计算设备
CN104935657A (zh) * 2015-06-15 2015-09-23 清华大学深圳研究生院 主动推送信息的方法和嵌入式节点操作系统
CN105373346B (zh) * 2015-10-23 2018-06-29 成都卫士通信息产业股份有限公司 一种虚拟化存储方法及存储装置
CN105243164A (zh) * 2015-11-03 2016-01-13 广州市优普计算机有限公司 一种大数据管理系统
CN105550038A (zh) * 2015-12-12 2016-05-04 天津南大通用数据技术股份有限公司 对等部署的分布式数据库资源管理与负载调节方法
CN105553874A (zh) * 2015-12-17 2016-05-04 浪潮(北京)电子信息产业有限公司 一种分布式文件系统nas网关的流量控制方法及系统
CN106294539B (zh) * 2016-07-22 2019-08-09 福州大学 混合云环境下的数据索引列表存储策略
CN106506493A (zh) * 2016-10-27 2017-03-15 摩登大道时尚电子商务有限公司 基于区块链平台的数据处理方法
CN107147634B (zh) * 2017-04-28 2020-01-31 四川长虹电器股份有限公司 支持平台多应用的web服务分层鉴权方法
CN107807793B (zh) * 2017-10-27 2019-11-08 清华大学 分布式计算机存储系统中数据副本异构存储与访问方法
CN111610908B (zh) * 2019-02-25 2021-06-29 上海哔哩哔哩科技有限公司 一种生成框架图的方法、计算机设备及可读存储介质
CN110633580A (zh) * 2019-09-20 2019-12-31 徐州医科大学附属医院 一种面向xml数据的安全分布式存储方法
CN113014671B (zh) * 2021-04-01 2021-11-23 湖南机械之家信息科技有限公司 应用于大数据分析的云业务资源共享方法及资源共享平台
CN116846979B (zh) * 2023-08-29 2024-03-15 江苏睿鸿网络技术股份有限公司 一种云计算环境下资源的调度方法及调度系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101360123A (zh) * 2008-09-12 2009-02-04 中国科学院计算技术研究所 一种网络系统及其管理方法
CN101741614A (zh) * 2009-11-20 2010-06-16 中国地质调查局发展研究中心 对等式结点管理器及对等式结点管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069267B2 (en) * 2001-03-08 2006-06-27 Tririga Llc Data storage and access employing clustering
US7213022B2 (en) * 2004-04-29 2007-05-01 Filenet Corporation Enterprise content management network-attached system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101360123A (zh) * 2008-09-12 2009-02-04 中国科学院计算技术研究所 一种网络系统及其管理方法
CN101741614A (zh) * 2009-11-20 2010-06-16 中国地质调查局发展研究中心 对等式结点管理器及对等式结点管理方法

Also Published As

Publication number Publication date
CN102222090A (zh) 2011-10-19

Similar Documents

Publication Publication Date Title
CN102222090B (zh) 一种云环境下海量数据资源管理框架
US9098530B2 (en) Scalable rendering of large spatial databases
US8954480B2 (en) End-to-end interoperability and workflows from building architecture design to one or more simulations
Tian et al. Optimized cloud resource management and scheduling: theories and practices
CN103380421A (zh) 用于图形数据的分布式缓存
CN104933173A (zh) 一种用于异构多数据源的数据处理方法、装置和服务器
CN102184119B (zh) 一种应用于电子双板的教学资源管理系统
CN103838847A (zh) 一种面向海云协同网络计算环境的数据组织方法
Silva et al. Integrating big data into the computing curricula
CN103927385A (zh) 数据模型的统一方法及装置
WO2022083436A1 (zh) 数据处理方法、装置、设备及可读存储介质
CN103049482A (zh) 一种分布式异构系统中数据融合存储的实现方法
Bai et al. Intelligent platform for real-time page view statistics using educational big data digital resource sharing
Redkina The library in the information ecosystem of open science
Fuguang Research on campus network cloud storage open platform based on cloud computing and big data technology
CN112330110A (zh) 一种基于MongoDB的教育平台管理系统及装置
Li et al. Optimal Design of an Information Management System for Government: A Bridge between Government and Citizens
Trujillo et al. Virtualizing hadoop: how to install, deploy, and optimize hadoop in a virtualized architecture
Xiao [Retracted] Research and Application of Cloud Platform‐Oriented Intelligent Information Management System
Zhang et al. Two-way recommendation system for intelligent employment of college students based on data mining
Qin et al. Construction of E-government data sharing framework based on big data technology
Zhang et al. Research on the construction of university data platform based on hybrid architecture
Du et al. Development of an online resource integration system for computer aided aesthetic education by big data technology
Zhiyong et al. A film criticism website based on “ThinkPHP”
Zhang Design and Realization of Land Reserve Multimedia Information Management System Based on GIS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant