CN102222090B

CN102222090B - 一种云环境下海量数据资源管理框架

Info

Publication number: CN102222090B
Application number: CN 201110147807
Authority: CN
Inventors: 张桂刚; 李超; 邢春晓; 张勇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-02
Filing date: 2011-06-02
Publication date: 2012-12-05
Anticipated expiration: 2031-06-02
Also published as: CN102222090A

Abstract

本发明为一种云环境下海量数据资源管理框架，包括物理存储层、海量存储网、数据转换层、数据管理层、安全管理层、资源组合层和应用层，其中涉及的述云数据库支持从其他各种数据源转换过来的数据并将其存储，例如，我国清华大学开发的THCloudDB系统，本发明可以实现对云环境下异构的海量资源的统一管理和组织，为云环境下的海量、异构的数据组织和管理提供了一套完整的解决方案。

Description

一种云环境下海量数据资源管理框架

技术领域

本发明属于数据库技术领域，特别涉及一种云环境下海量数据资源管理框架。

背景技术

随着互联网的飞速发展，很多应用的数据量都达到了TB级别甚至PB级别，如：Google已经在全球部署了100多万台服务器用来处理它庞大的数据量；FaceBook每天上载的照片均超过了1亿张以上，每天照片的浏览量超过150亿张以上，随着FaceBook最近的进入中国市场的步伐加快，其数据量将更加面临着一个直线的上升。2010年9月份图片共享网站Flickr所收录的上传图片数量超过了50亿张。所有的这些数据存储在不同的数据中心、集群和服务器中，这是一个非常复杂的异构环境。如何管理这些海量数据资源，使之能够以安全、高效、一致的方式提供按需服务是目前云环境下数据资源管理面临的一个巨大的困难和挑战。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供一种云环境下海量数据资源管理框架，可以实现对云环境下异构的海量资源的统一管理和组织，从而更好地服务于人类需求。

为了实现上述目的，本发明采用的技术方案是：

一种云环境下海量数据资源管理框架，包括：

物理存储层，包含存储域与分布式文件系统，用于存储互联网中的所有数据；

海量存储网，是指所有的物理节点都抽象与虚拟化成逻辑节点，组成的一个存储网络，为后续的资源分配、调度、副本管理与调度提供基础；

数据转换层，将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据；

数据管理层，管理所有存储在云数据库中的被转换后的数据；

安全管理层；

资源组合层，根据应用层对资源的需求，对下层的资源进行资源组合，提供满足应用层需求的各种服务；

应用层，将用户的需求进行无损分解，形成云数据库能够提供的各种资源，然后通过资源组合得到用户所需要的各种云服务。

所述云数据库支持从其他各种数据源转换过来的数据并将其存储，例如，我国清华大学开发的THCloudDB(TsingHua Cloud DataBase)系统。

所述物理存储层中，存储域由数据中心集群、各种企业集群和普通服务器组成；分布式文件系统能够让PB级的数据量分布在各种节点上面。

所述安全管理层包括可信监控、云资源认证中心及其云安全协议CSP，其中可信监控能够对所有资源进行可信监控，云资源认证中心对云环境下的所有资源进行认证，包括：

对应用层的每个应用程序以及应用程序所有接口进行认证；

对云数据库系统进行认证；

对云系统中的所有参与者进行认证；

对云存储系统中的每个数据中心，集群及其服务器进行认证。

本发明与现有技术相比，建立了一个包含物理存储层、海量存储网、数据转换层、数据管理层、安全管理层、资源组合层及其应用层的云环境下的海量数据资源组织与管理框架，实现了对云环境下海量数据资源的管理与组织，从而更好地服务于人类。

附图说明

图1为本发明的云环境下海量资源组织与管理体系架构框图。

图2为本发明所述海量存储网框图，圆圈表示将实际的每个物理存储节点都虚拟后的逻辑节点，N1，N2，……都是对逻辑节点的编号，物理节点之间的物理连接在该存储网中用线条连接，用Set1，Set2，……表示节点与节点之间的数据流量，如节点Nm+2与节点Np之间的流量用Set T表示。

图3为本发明所述THCloudDB的体系架构框图。

图4为本发明所述云安全协议CSP框图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示，本发明为一种云环境下海量数据资源管理框架，云数据库支持从其他各种数据源转换过来的数据并将其存储，本实施例为我国清华大学开发的THCloudDB(TsingHua Cloud DataBase)系统，本发明包括：

物理存储层，主要由存储域和分布式文件系统组成，它用于存储互联网中所有的数据。存储域是指存储各种互联网数据的实际的物理设备，主要包括专用的数据中心集群(主要是指专门给提供数据中心服务的机构和企业)、各个企业自己的数据中心集群(企业自建的数据中心)及其各种存储服务器(有些企业没有建立数据中心，则直接用存储服务器存储)等等组成。分布式文件系统提供一种存储策略，将互联网上海量的PB级、EB级甚至ZB级的数据分布存储在各种村粗数据节点上。本发明使用清华大学自己研发的分布式文件系统THDFS(TsingHua Distributed File System)作为文件存储策略，将云环境下各种数据分布存储在各种存储数据节点上。物理层上由很多不同的云组成，云与云之间互相同构或者异构。数据块可能存储在不用的云中，如N1，N2，……，N11等等数据块它们的数据副本可能存储在不同的云中，如N1在图1中存储在两个不同的云中。同构的云之间进行各种交互比较简单，但是在异构的云之间进行数据交互则将十分复杂和困难，故云与云之间需要进行互操作，建立的统一的互操作的标准可以实现在同构或者异构云之间进行交互，从而屏蔽掉各种异构云的差别，做到对外统一与透明。在物理层中再使用虚拟化技术，将各种物理上的存储节点虚拟化成为一个逻辑上的存储节点，为构建海量存储网提供抽象基础，海量存储网为后续的资源分配、调度、副本管理与调度提供基础；

当海量存储网形成后，将互联网中所有的数据通过海量存储网归类(当海量存储网更新时，可以动态交互)并存储到相应的存储系统中。其中RDBMS(Relational DataBase Management System)为关系数据库系统；ORDBMS(Object Relational DataBase Management System)为对象关系数据库系统；NoSQL(非关系型数据库)；Document(文档)及其Others(其他数据源)等等。然后将各种数据来源统一进行数据转换成THCloudDB(TingHua CloudDataBase)来进行统一存储。

THCloudDB数据管理中心对应着THCloudDB数据库系统的管理功能，对THCloudDB数据库中的所有数据及其元数据、索引、数据库安全等等进行数据的管理监控。

云安全层包含可信监控、云资源认证中心及其CSP(Cloud SecurityProtocol，云安全协议)三大部分，它负责整个环境的安全管理。THCloudDB数据管理中心、THCloudDB、所有各种数据源、海量存储网及其所有的物理存储节点都需要由该层进行安全监控与管理。

在最上层应用层中，所有的应用都以用户的需求为驱动，整个应用环境具有跨域、异构及其在云复杂网络环境下。通过将这些用户的需求进行分解，分解过程中得知完成该应用需要的资源(如在某个应用中需要N1，N4，N6及其N10四个资源)。在获取应用所需资源时候，需要通过THCloudD数据管理中心读取相应资源(如：N1，N4，N6及其N10)。最后根据这些读取的资源组合成用户需求驱动的某个复杂云(存储)应用。

海量存储网，如图2所示，底层数据存储在复杂的异构环境中，为了更好地管理并利用成千上万的服务器进行云环境下的分布式存储服务，在本层将所有的物理节点都抽象与虚拟化成逻辑节点，组成一个巨大的海量存储网络，从而为后续的资源分配、调度、副本管理与调度等等提供了一个基础；

海量存储网的生成与更新基本方法如下：

步骤1：扫描“心跳”XML文件，若无新节点增加，也无节点删除，维持原海量存储图不变，若有新节点增加，则转到步骤2，若有节点删除则转到步骤3，其中“心跳”XML文件是分布式文件系统元数据管理节点固有的一个XML文件；

步骤2：当有新的节点增加时，判断该新节点位置，并找到该节点物理连接的另外一节点，在该新增节点与物理连接节点之间连接一条线，并转向步骤4；

步骤3：当有节点被删除时，判断该节点位置，并找到与该节点相连的所有其他物理节点，将它们之间的所有连线均删除，并转向步骤5；

步骤4：计算该节点负载量，并将节点负载节点提交资源迁移算法，报告该节点的实际负载情况，以供其参考；

步骤5：计算该删除节点的存储资源内容：包括资源名称和数量，并转向步骤6；

步骤6：根据步骤5的内容，计算需要复制的资源及其数量，并将结果提交给资源迁移算法与副本管理与控制算法；

步骤7：循环进行节点增加或者删除判断；

步骤8：若无新节点增加，或者无节点被删除，则算法终止。

海量存储网的负载平衡，海量存储网的负载平衡主要考虑云环境下的数据存储尽量保持平衡，以免出现有些节点过于繁忙，而其他节点则过于清闲的状态，其基本方法如下：

步骤1：计算节点的当前负载情况；

步骤2：获取当前存储网总负载，并计算出每个节点平均负载；

步骤3：若当前节点负载大致等于平均负载，则该节点不发送任何信号，即：不接受新资源，也不发送新资源；

步骤4：若当前节点负载小于平均负载，则该节点的副本标记为Flag(R)＝0，表示该节点可以接收迁移过来的资源；

步骤5：若当前节点负载大于平均负载，则该节点的副本标记为Flag(R)＝1，表示该节点不再接收迁移过来的资源；

步骤6：重复步骤1到步骤5，不断维持该海量存储网的负载平衡。

海量存储网的资源迁移，其基本方法如下：

步骤1：计算海量存储网中各个节点资源的热度；

步骤2：若该节点的资源为原创资源，则不管其资源热度大还是小，则均不迁移；

步骤3：若该节点的资源为副本资源，则判断其是否和原创资源在同一机架，若在同一机架则不迁移，否则转到步骤4；

步骤4：计算该资源最热点访问服务器，将该资源迁移到海量存储网中的访问该资源的热点服务器中存储，该热点服务器必须满足条件Flag(R)＝0，否则找其次热服务器，以此类推；

步骤5：在整个海量存储网中重复步骤1到步骤4，动态维持迁移。

海量存储网的副本管理与控制，其基本方法如下：

步骤1：副本在本地数据节点创建，并复制；

步骤2：副本复制按照数据重要性进行，对于特别重要的数据复制4份，对于一般重要的数据复制3份，对于不重要的数据复制2份；

步骤3：对于特别重要的数据：本数据节点的机架内放置两份，其中另外的两份，通过对该数据的热点进行分析，将其放置在出本地数据节点机架之外的最重要的两个热点机架之中存储；

步骤4：对于一般重要的数据：本数据节点的机架内放置两份，其中另外的一份，通过对该数据的热点进行分析，将其放置在出本地数据节点机架之外的最重要的一个热点机架之中存储；

步骤5：对于不重要的数据：本数据节点的机架内放置一份，其中另外的一份，通过对该数据的热点进行分析，将其放置在出本地数据节点机架之外的最重要的一个热点机架之中存储。

数据转换层，将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据，海量存储网中包含了各类虚拟节点，每个单独的节点以及不同的节点都可能存储着各种不同类型的数据格式的数据，为了统一数据资源格式，统一为用户提供更好的服务，将各种数据通过数据转换，转换成为消除各种不同语义格式的THCloudDB数据库中的数据，其基本方法如下：

步骤1：判断数据来源，如果是关系数据库，首先在数据读取前第一行做标记Flag＝0，随后将数据按行读入到云数据库中的数据表中；

步骤2：判断数据来源，如果是非关系数据库，首先在数据读取前第一行做标记Flag＝1，随后将数据按列读入到云数据库中的数据表中；

步骤3：重复步骤1和步骤2，直到将数据中心、集群或者服务器中数据均存储到云数据库中为止。

数据管理层，管理所有存储在云数据库中的被转换后的数据，参见图3，本实施例中，THCLoudDB是一种云环境下的分布式数据库管理系统，该系统主要存储并管理从其他各种数据源转化而来的数据，THCLoudDB是一种分布式、稀疏以及行列混合存储的数据库系统，THCLoudDB数据库是一种混合数据库，它既可以按照行存储也可以按照列存储，它的数据模型可以表示如下：

FLAG(R/W)

Data1

Data2

......

Data n

Flag(R/W)

其中FLAG(R/W)为存储标志位，当FLAG(R/W)＝0时候，则表示为行存储；当FLAG(R/W)＝1时，则表示为列存储。

【例1】假设有数据来自关系数据库，见表1；有数据来自列数据库，见表2。

表1：学生表

姓名	性别	年龄
			张三	男	33
李四	女	80

表2：薪酬表

姓名	部门	薪水
			王五	语音中心	1868

谢七

Web中心

2582

上述两个不同种类数据库的两个数据表，统一存储到THCloudDB则数据为如下的存储方式：

表3：THCloudDB存储表

0	张三	男	33	李四
					女	80	1	王五	谢七
语音中心	Web中心	1868	2582	NULL

从例1可以看出THCLoudDB可以实现混合存储，判断数据是按照行存储还是列存储，只需要判断前面的标志位是0或者是1即可。

THCloudDB数据管理方案如下：

在THCloudDB数据中心中，管理着所有的分布式的THCloudDB数据，为数据映射、协同管理、安全管理、数据组合及其数据搜索等等各种云数据服务提供基础，监控着所有数据的变化状况。THCloudDB的数据管理方案如图3所示：

THCloudDB与其他的云数据库一样，也是由三层组成。最底层为HDFS层，该层为THCloudDB提供分布式文件存储服务。中间层为THCloudDB层，该层为核心层，主要提供云环境下分布式数据库存储服务。最上层为应用层，该层将随着研究的不断深入，提供较多的接口，满足THCloudDB以后对外提供服务。

THCloudDB与其他的各种云数据库一样也是主要包含两大部分(a)THCloudDB_Master和(b)THCloudDB_Server。其中THCloudDB_Master主要保存着所有THCloudDB_Server的元数据。包括THCloudDB_Server的位置信息，运行状态等等。而THCloudDB_Server又主要由很多的TH_Tablet所组成，包含了所有的TH_Tablet的元信息。每个TH_Tablet包含日志系统THC_Log与很多的TH_File及其对应的TH_memstore组成。所有的数据最后都是存储在TH_File中。

其中TH_memstore中存储了临时的资源数据，TH_CloudDB会定期进行数据扫描，将这些存储在TH_memstore中的数据进行固化到TH_File中。

THC_Log是THCloudDB的日志系统，它记录了数据处理过程的轨迹，一旦数据提交过程出现故障，可以通过THC_Log日志系统进行数据的恢复，从而保证整个数据的安全和一致性。

安全管理层，本部分担负着整个云框架的各种资源的安全状况，主要由可信监控和云资源认证中心两大部分组成。通过对框架内的所有资源的安全可信监控，确保资源的发布、获取、使用及其存储都是在一个可信的环境下。通过对框架中的所有部分的认证，确保每个参与者都是可信的。

安全管理层包括可信监控、云资源认证中心及其云安全协议CSP，其中：

可信监控模块(TMM)主要包含对所有资源的可信监控(TrustedMonitoring)，确保资源在运行过程中不受到外在的攻击，如黑客攻击；或者不受病毒攻击及其他各种数据类型的攻击；

云资源认证模块(CCAM)主要对云环境下的所有资源进行认证(Certificate Authority)。包括对应用层的每个应用程序，应用程序所有接口进行认证；对THCloudDB数据库系统进行认证；对云系统中的所有参与者(用户，商家等)进行认证；对云存储系统中的每个数据中心，集群及其服务器进行认证，确保它们的可靠性，总之，云资源认证模块将对整个云框架的所有资源进行认证，确保系统可靠与安全；

云安全协议CSP(Cloud Security Protocol)是为了确保在互联网这样一个复杂的环境下，云计算的各种服务的提供、分发、使用安全的一套协议。其基本模式可以描述如图4所示：

云服务使用者可以在云平台中进行浏览，购买自己所需要的云服务；云服务的提供商也可以在云服务平台发布自己的云服务，其发布的云服务可以是公共云服务，也可以是私有云服务和混合云服务；由于云服务的交易过程仍然和电子商务交易服务没有差异，故云的安全支付采用目前市场上已经存在的，在电子商务领域普遍使用的统一的安全标准SET协议来完成安全支付的整个过程。

云安全协议最主要的部分就是对云服务的安全保护，具体包含如下几个子模块：

权限认证，主要对用户和云资源的权限进行认证，根据用户的购买权限，提供给用户权限内的资源。

云交互安全认证，云服务有时会涉及到不同的云之间的互相合作，从而必须对云在交互时的安全进行认证，以免交互过程出现信息泄露等现象。

云服务本身进行认证，云服务是资源，对云资源本身进行认证，确保其可靠。

云参与方进行认证，与电子商务交易中的认证一样，云服务中同样需要对云中的任何参与方(云服务使用方、云服务提供商、云服务平台等)均要进行认证，确保安全。

资源组合层，本层主要根据应用层对资源的需求，对下层的资源进行资源组合，提供满足应用层需求的各种服务，该层中，当获取需求后，从下面的THCloudDB数据管理中心获取各种所需的资源，然后对这些资源进行组合成所需的服务。

用户的需求往往成千上万，种类各异，云服务中的任何单个资源可能很难满足用户的需求，需要多个资源一起配合才能够为用户提供所需的资源。资源组合层主要是根据用户的需求，从云中寻找出能解决用户需求的所有资源，并对这些资源进行有机的组合，为用户提供所需服务。本层主要包含读取数据资源模块和云服务资源组合模块。

读取数据资源模块在用户需求已经明确的情况下，读取满足用户条件的所有资源，从所读取的资源中选取最适合的资源集合。

【例2】假设用户所需的服务Service X需要满足a，b，c三个条件的资源。而在互联网中满足a条件的资源集合为Set A；满足b条件的资源集合为SetB；满足c条件的资源集合为SetC。

系统在读取了SetA，SetB与SetC后，需要对这三个集合的数据进行一个优化排序，将最符合条件的子资源排在最前面。(假设p∈SetA；p∈SetB；m∈SetC)

云服务资源组合模块的功能实现，可以分为如下两个步骤：

从上述步骤获取所需服务Service X的最佳三个子服务p’，q’及其m’。

采用BPEL或者其他网络服务资源组合的方法得到所需的云服务。

应用层，本层作为框架的最高层，主要按照用户的需求进行驱动。用户可能需要从跨域、异构的复杂环境下获取各种云资源。该层将用户的需求进行无损分解，形成THCloudDB能够提供的各种资源，然后通过资源组合得到用户所需要的各种云服务，本层主要包含用户需求表述模块和需求分解模块。

用户需求表达模块直接以类结构化自然语言形式表示，但是其需要遵循基本的语法标准，语法标准主要体现为“动宾”格式，具体的语法标准格式如下：

动词+宾语+补语(补语可以有0个或者多个)

【例3】预订宾馆

该案例就是典型动宾格式，如：“预订”为动词，“宾馆”为宾语。

【例4】预订2011年4月25日从北京到武昌的火车票

该案例的“预订”为动词，“火车票”为宾语，另外还有两个补语“2011年4月25日”和“北京到武昌”。

需求分解模块功能的实现主要包含两个步骤：1)分词；2)理清动词，宾语，补语；3)转化成web服务集。

【例5】Buy the ticket and book hotel from Wuchang to Beijing on2011/4/25.

上述的一个结构化自然语言结构相对复杂，它其实表达的是用户的一个复杂的云服务的需求。根据我们的方法，可以得出它由如下几个小的云服务所组成。

Buy(动词1)+ticket(宾语)+Wuchang to Beijing(补语1)+2011/4/25(补语2)

原子服务1：Buy (动词1)+ticket(宾语1)+Wuchang to Beijing(补语1)

原子服务2：Buy (动词1)+ticket(宾语1)+2011/4/25(补语2)

Book(动词2)+Hotel(宾语2)+Beijing(补语3)+2011/4/35(补语4)

原子服务3：Book(宾语2)+Hotel(名词2)+Beijing(补语3)

原子服务4：Book(宾语2)+Hotel(名词2)+2011/4/35(补语4)

最后，该用户的云需求服务转化了四个原子云服务的组合，然后将这些原子服务交给BPEL去进行组合。

Claims

1.一种云环境下海量数据资源管理系统，其特征在于，包括：

物理存储层，包含存储域与分布式文件系统，用于存储互联网中的所有数据，所述存储域是指存储各种互联网数据的实际物理设备；

安全管理层，包括可信监控、云资源认证中心及其云安全协议CSP，其中可信监控能够对所有资源进行可信监控，云资源认证中心对云环境下的所有资源进行认证，包括：对应用层的每个应用程序以及应用程序所有接口进行认证；对云数据库系统进行认证；对云系统中的所有参与者进行认证；对云存储系统中的每个数据中心，集群及其服务器进行认证；

2.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，所述云数据库支持从其他各种数据源转换过来的数据并将其存储。

3.根据权利要求2所述的云环境下海量数据资源管理系统，其特征在于，所述云数据库为清华大学的TsingHua Cloud DataBase。

4.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，所述存储域由数据中心集群、各种企业集群和普通服务器组成；所述分布式文件系统能够让PB级的数据量分布在各种节点上面。

5.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，通过如下方法实现海量存储网的负载平衡：

步骤1：计算节点的当前负载情况；

步骤4：若当前节点负载小于平均负载，则该节点的副本标记为Flag(R)=0，表示该节点可以接收迁移过来的资源；

步骤5：若当前节点负载大于平均负载，则该节点的副本标记为Flag(R)=1，表示该节点不再接收迁移过来的资源；

6.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，通过如下方法实现海量存储网的资源迁移：

步骤1：计算海量存储网中各个节点资源的热度；

步骤4：计算该资源最热点访问服务器，将该资源迁移到海量存储网中的访问该资源的热点服务器中存储，该热点服务器必须满足条件Flag(R)=0，否则找其次热服务器，以此类推；

7.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，通过如下方法实现海量存储网的副本管理与控制：

步骤1：副本在本地数据节点创建，并复制；

步骤3：对于特别重要的数据：本地数据节点的机架内放置两份，其中另外的两份，通过对该数据的热点进行分析，将其放置在除本地数据节点机架之外的最重要的两个热点机架之中存储；

步骤4：对于一般重要的数据：本地数据节点的机架内放置两份，其中另外的一份，通过对该数据的热点进行分析，将其放置在除本地数据节点机架之外的最重要的一个热点机架之中存储；

步骤5：对于不重要的数据：本地数据节点的机架内放置一份，其中另外的一份，通过对该数据的热点进行分析，将其放置在除本地数据节点机架之外的最重要的一个热点机架之中存储。

8.根据权利要求1所述的云环境下海量数据资源管理系统，其特征在于，数据转换层通过如下方法来实现将各种异构的结构化或者非结构化数据转换成为统一的云数据库系统存储的数据：

步骤1：判断数据来源，如果是关系数据库，首先在数据读取前第一行做标记Flag=0，随后将数据按行读入到云数据库中的数据表中；

步骤2：判断数据来源，如果是非关系数据库，首先在数据读取前第一行做标记Flag=1,随后将数据按列读入到云数据库中的数据表中；