CN107609138B

CN107609138B - 一种云模型数据布局方法和系统

Info

Publication number: CN107609138B
Application number: CN201710852493.5A
Authority: CN
Inventors: 郑美光; 胡志刚; 张欣欣; 杨柳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2020-05-08
Anticipated expiration: 2037-09-19
Also published as: CN107609138A

Abstract

本发明涉及分布式计算领域，公开了一种云模型数据布局方法和系统，以减少跨数据中心传输所产生的时间开销和移动次数，提高任务执行效率，为用户提供更方便更快捷的服务；本发明首先选取第一批数据集和第二批数据集建立云滴组，然后基于云滴组确定虚拟数据代理并计算虚拟数据代理的特征，进而确定虚拟数据代理的云模型，然后计算云滴组中包括的数据集以外的其余数据集相对于每个虚拟数据代理的隶属度，将其根据最大隶属度划分到相应的虚拟数据代理中；最后将虚拟数据代理映射到对其包括的数据集请求次数之和最多的数据中心。

Description

一种云模型数据布局方法和系统

技术领域

本发明涉及分布式计算领域，尤其涉及一种云模型数据布局方法和系统。

背景技术

数据密集型应用是一种以数据为核心的应用模式，其特点是在运行过程中，需要不断获取、更新、存储大量数据，并对这些数据进行各种计算。数据密集型应用通常需要处理分布在不同数据中心的数据集。例如，生物信息学、天文学、核能等科学型工程应用，以及社交网络服务、移动视频监控、金融数据处理等信息型服务应用等等，它们都通过对海量数据进行复杂计算、分析挖掘与处理从而创造丰富的数据智慧，服务于社会生活生产以及科学研究领域。

云计算是数据共享与服务共享计算模式的结合体，为数据密集型应用提供了一种全新的部署和执行方式。在分布式计算领域，数据密集型工作流是科学研究和工程计算中最为典型的一种任务类型，在执行过程中需要多数据中心的协作。当前，许多地理上分布的私有云可以对外提供一部分计算和存储资源，可将此类私有云看作单独的数据中心并通过互联网形成更大的云平台，该云计算平台允许用户执行其应用，并将所需的数据集上传到平台中。对于规模庞大的数据集而言，有一部分数据集需要存放在某一特定的数据中心上，加之云平台的节点之间存在带宽限制，不可能将所有数据集上传到某一个单独的数据中心，或者在每个单独数据中心里存储所有的数据集，而是需要将不同的数据集分别上传到不同数据中心，使用户的数据密集型应用的多个子任务并行执行。由于任务之间存在较强的数据依赖关系，数据密集型应用在运行时必然会产生跨多个数据中心的数据移动任务，涉及大量的数据传输、数据同步等开销，不合理的数据放置将产生高额成本并严重影响工作流执行效率。因此，为云环境下的数据密集型应用设计合理的数据布局尤为重要。

当前，大量数据密集型应用开始部署到各类云平台中，云环境下的数据密集型应用在数据布局方面已经吸引了众多学者去探索和研究，并得到了有效的方法和策略，但仍存在着一些局限，比如：为了得到更好的负载均衡，而增大了跨数据中心数据传输需要的时间开销；数据布局策略本身时间开销较大，导致数据布局策略缺乏灵活性；以及对于数据布局的过程中存在着的不确定性和随机性缺乏考虑。

因此，现需提供一种考虑数据集之间的依赖关系，能减少跨数据中心传输所产生的时间开销和移动次数的云模型数据布局方法和系统。

发明内容

本发明目的在于提供一种云模型数据布局方法和系统，该方法和系统能减少跨数据中心传输所产生的时间开销和移动次数，提高任务执行效率，为用户提供更方便更快捷地服务。

为实现上述目的，本发明提供了一种云模型数据布局方法，包括：

从云环境中选取出m个不存在依赖关系的数据集作为m个云滴组的第一批数据集，然后为每个云滴组的第一批数据集选取出一定数量的相关数据集作为相应云滴组的第二批数据集；根据所述m个云滴组各自的第一批数据集和第二批数据集确定出m个虚拟数据代理，并计算各虚拟数据代理的定性特征，进而确定虚拟数据代理的云模型，所述定性特征包括期望值Ex：

式中，N表示虚拟数据代理中的数据集个数，pos_j表示第j个数据集的初始随机位置；

熵En：

超熵He：

将除所述m个云滴组中的数据集以外的其余数据集根据最大隶属度分类到相应虚拟数据代理中，以实现数据集到虚拟数据代理的映射，其中，隶属度通过所述云模型的云期望方程f(x)进行判断，云期望方程f(x)的计算公式为：

式中，p表示除所述m个云滴组中的数据集以外的其余数据集与虚拟数据代理中第一批数据集之间的依赖度；

找到对各所述虚拟数据代理中的数据集的请求次数之和最多的数据中心，并将所述虚拟数据代理映射到相应数据中心，以完成数据布局，从而实时响应相应数据中心的相关用户请求。

优选地，当同一个数据集相对于几个不同的虚拟数据代理具有相同的最大隶属度时，将所述数据集映射到所述几个不同的虚拟数据代理中剩余存储量最大的虚拟数据代理中。

优选地，所述虚拟数据代理与所述数据中心为一一对应的关系，且所述虚拟数据代理中包括一个和/或多个非空数据集。

为实现上述目的，本发明提供一种云模型数据布局系统，包括：

第一单元：用于从云环境中选取出m个不存在依赖关系的数据集作为m个云滴组的第一批数据集，然后为每个云滴组的第一批数据集选取出一定数量的相关数据集作为相应云滴组的第二批数据集；根据所述m个云滴组各自的第一批数据集和第二批数据集确定出m个虚拟数据代理，并计算各虚拟数据代理的定性特征，进而确定虚拟数据代理的云模型，所述定性特征包括期望值Ex：

熵En：

超熵He：

第二单元：用于将除所述m个云滴组中的数据集以外的其余数据集根据最大隶属度分类到相应虚拟数据代理中，以实现数据集到虚拟数据代理的映射，其中，隶属度通过所述云模型的云期望方程f(x)进行判断，云期望方程f(x)的计算公式为：

第三单元：用于找到对各所述虚拟数据代理中的数据集的请求次数之和最多的数据中心，并将所述虚拟数据代理映射到相应数据中心，以完成数据布局，从而实时响应相应数据中心的相关用户请求。

优选地，所述第二单元中，当同一个数据集相对于几个不同的虚拟数据代理具有相同的最大隶属度时，将所述数据集映射到所述几个不同的虚拟数据代理中剩余存储量最大的虚拟数据代理中。

本发明具有以下有益效果：

本发明提供一种云模型数据布局方法和系统，首先，选取第一批数据集和第二批数据集建立云滴组，然后基于云滴组确定虚拟数据代理并计算虚拟数据代理的特征，进而确定虚拟数据代理的云模型，然后计算云滴组中包括的数据集以外的其余数据集相对于每个虚拟数据代理的隶属度，将其根据最大隶属度划分到相应的虚拟数据代理中；最后将虚拟数据代理映射到对其包括的数据集请求次数之和最多的数据中心；以完成数据布局，从而实时响应相应数据中心的相关用户请求；该方法和系统能减少跨数据中心传输所产生的时间开销和移动次数，提高任务执行效率，为用户提供更方便更快捷地服务。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的工作方式示意图；

图2是本发明优选实施例的数据移动次数受第一批数据集之间的依赖度高低的影响示意图；

图3是本发明优选实施例的传输时间受第一批数据集之间的依赖度高低的影响示意图；

图4是本发明优选实施例在三种数据布局策略下的数据移动次数随数据集数量增多的变化情况对比图；

图5是本发明优选实施例在三种数据布局策略中在不同数据中心下的数据移动次数对比图；

图6是本发明优选实施例在三种数据布局策略中数据传输时间随数据集的数量增多的变化情况对比图；

图7是本发明优选实施例三种数据布局策略中数据传输时间随着数据中心的增多的变化情况对比图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例提供一种云模型数据布局方法，参见图1，T表示数据密集型应用中的任务，VM表示虚拟机，将数据密集型应用中的任务T₁～T₈分配到合适的虚拟机VM上，而每个任务需要通过大量数据集来进行处理，这些数据集就是可能来自不同数据中心的数据集。具体地，本实施例把云环境表示为多个分布的数据中心组成的集合。值得说明的是，云环境下的数据布局指在多数据中心的云存储环境下为应用数据文件(数据集)选择存放位置(数据中心)的过程。

以20个数据集和3个数据中心为例。其中，20个数据集用d₁至d₂₀表示，3个数据中心用c₁、c₂以及c₃表示，其该20个数据集的初始随机位置pos_j如下表1所示。需要说明的是，数据集的初始随机位置由整数部分和小数部分组成。以距离为优先考虑因素，同时考虑带宽、传输速度及传输消耗等因素选取数据集最容易到达的数据中心，并以该数据中心的编号为数据集的初始随机位置的整数部分，然后考虑其他因素组成数据集的初始随机位置的小数部分，其中，小数部分的值越大说明在传输过程中的消耗越大。因此，数据集的初始随机位置可表明数据集传输到数据中心的难易程度。

表1数据集初始位置

数据集	d<sub>1</sub>	d<sub>2</sub>	d<sub>3</sub>	d<sub>4</sub>	d<sub>5</sub>	d<sub>6</sub>	d<sub>7</sub>	d<sub>8</sub>	d<sub>9</sub>	d<sub>10</sub>
											pos<sub>j</sub>	3.5	1.5	2.6	1.9	3.7	1.2	3.4	1.5	3.2	1.7
数据集	d<sub>11</sub>	d<sub>12</sub>	d<sub>13</sub>	d<sub>14</sub>	d<sub>15</sub>	d<sub>16</sub>	d<sub>17</sub>	d<sub>18</sub>	d<sub>19</sub>	d<sub>20</sub>
											pos<sub>j</sub>	2.1	2.7	1.6	2.6	1.6	2.5	2.6	1.5	1.4	2.7

首先，从20个数据集中随机选取3个数据集d₃、d₆以及d₁₁作为云滴组的第一批数据集，并将每个第一批数据集的依赖度阈值设为3。需要说明的是，数据集d₃、d₆以及d₁₁之间不存在依赖关系。而对于数据集之间的依赖关系应当理解为，当数据集d₁与数据集d₂被同一个数据中心请求时，则认为数据集d₁与数据集d₂相互依赖，将同时请求数据集d₁与数据集d₂的数据中心的个数记为数据集d₁与数据集d₂之间的依赖度。此外，还应当注意的是，设依赖度阈值为T，数据集d_e与数据集d_f之间存在依赖关系且依赖度为p，若p≥T时，则认为d_e高度依赖于d_f。其中，该20个数据集之间的依赖度如下表2所示。

表2数据集依赖度

然后，在20个数据集中为第一批数据集d₃、d₆以及d₁₁找到与各自依赖度为3的数据集作为第二批数据集。由表2可知，与第一批数据集d₃的依赖度为3的数据集d₄。将第二批数据集d₄与第一批数据集d₃组成一个云滴组，然后通过逆向云发生器基于该定量的云滴组确定出一个虚拟数据代理,为了区分几个不同的虚拟数据代理，本实施例将以数据集d₃为第一批数据集的虚拟数据代理记为a₁，则由第一批数据集d₃和第二批数据集d₄组成的云滴组中的所有数据集都存储在该虚拟数据代理中a₁。需要说明的是，虚拟数据代理为一个定性概念，而“云滴组”为该定性概念的数值表示，其中，被选取组成“云滴组”的每个数据集可视为一个定量值(即云滴)。

基于上述思想确定以数据集d₆为第一批数据集的虚拟数据代理a₂和以数据集d₁₁为第一批数据集的虚拟数据代理a₃。值得说明的是，每个虚拟数据代理中的数据集的特征相似。其中，数据集的特征相似应当理解为，同一个虚拟数据代理中的数据集为同类型或者同领域的数据集；也可以为不同类型或者不同领域，但是被同一数据中心请求的数据集。

进一步地，通过逆向云发生器计算虚拟数据代理a₁的期望Ex：

式中，N表示虚拟数据代理中的数据集个数，pos_j表示第j个数据集的初始随机位置。由以上可得在本案例中N取值为2，代入相关数据计算得到虚拟数据代理a₁的期望Ex为2.25。

然后，基于期望Ex计算虚拟数据代理a₁的熵En：

代入相关数据计算得到虚拟数据代理a₁的熵En为0.453。

再基于期望Ex和熵En计算超熵He：

代入相关数据计算得到虚拟数据a₁的超熵He为0.237。即，得到第一批数据集d₃对应的虚拟数据代理a₁的特征值为a₁＝(2.25，0.453，0.237)，则该虚拟数据代理的云模型为期望Ex等于2.25，熵En等于0.453，超熵He等于0.237。需要说明的是，在虚拟数据代理的云模型中，期望Ex,熵En和超熵He三个数值特征可以用来表征一个定性概念。其中，期望Ex是所表征概念的中心值，能有效描述一个定性概念；熵En综合反映概念的模糊性和概率，表达概念云模型的离散程度，也即，云的跨度；超熵He是熵的熵，能表达概念云模型的偏离程度，也即，云的厚度。

基于上述思想，计算得到虚拟数据代理a₂的特征为a₂＝(1.45，0.168，0.0517)；虚拟数据代理a₃的三个特征值a₃＝(2.69，0.422，0.276)。

进一步地，采用正向云发生器计算除各云滴组包括的数据集以外的其余数据集相对于每个虚拟数据代理的隶属度。

具体地，以数据集d₁₂为例。首先，获取数据集d₁₂分别与上述三个虚拟数据代理各自的第一批数据集之间的依赖度，然后结合上述三个虚拟数据代理的特征值，代入以下公式：

经过计算得到数据集d₁₂相对于虚拟数据代理a₁的隶属度为0.918，数据集d₁₂相对于虚拟数据代理a₂的隶属度为0.226，数据集d₁₂相对于虚拟数据代理a₃的隶属度为0.889，因此数据集d₁₂应分类到虚拟数据代理a₁中。基于上述思想将除各云滴组包括的数据集以外的其余数据集一一划分到相应虚拟数据代理中。具体地，20个数据集划分到虚拟数据代理的情况如下表3所示。

表3 20个数据集划分到虚拟数据代理的情况

虚拟数据代理(Ex，En，He)	隶属该虚拟数据代理的数据集(编号)
		a<sub>1</sub>＝(2.25,0.453,.0237)	3 4 9 12 14 19
a<sub>2</sub>＝(1.45,0.168,0.0517)	6 8 18 1 5 15 16
		a<sub>3</sub>＝(2.69,0.422,0.276)	11 7 17 20 2 10 13

值得指出的是，数据中心和数据集之前存在请求关系，即，数据中心会向数据集发出请求，一个数据请求可能包括一个数据集，也可能包括多个数据集；同一个数据集可以被多个数据中心请求处理。具体地，将数据请求中对单一数据集的一次请求记为1，则数据中心与数据集之间的请求关系可采用m*n的矩阵方式表述：

其中，行向量表示数据中心，列向量表示数据集。

进一步计算数据中心对虚拟数据代理中所有数据集的请求次数之和：

式中，g_j表示各数据中心对数据集的请求次数，当数据集在当前虚拟数据代理中将该数据中心对该数据集的请求次数加入到数据中心对虚拟数据代理总请求次数中，反之不参与计算,α_k表示虚拟数据代理。

式中，X_ik表示数据中心对虚拟数据代理α_k中所有数据集的请求次数之和，Y_ij表示数据中心对数据集的请求次数。

在实际操作中，数据中心对数据集的请求次数如下表4所示。

表4数据中心对数据集的请求次数

	d<sub>1</sub>	d<sub>2</sub>	d<sub>3</sub>	d<sub>4</sub>	d<sub>5</sub>	d<sub>6</sub>	d<sub>7</sub>	d<sub>8</sub>	d<sub>9</sub>	d<sub>10</sub>
											c<sub>1</sub>	85	53	58	65	80	88	44	91	71	35
c<sub>2</sub>	78	66	75	62	77	94	49	85	65	46
											c<sub>3</sub>	56	36	42	47	62	62	34	69	45	32
	d<sub>11</sub>	d<sub>12</sub>	d<sub>13</sub>	d<sub>14</sub>	d<sub>15</sub>	d<sub>16</sub>	d<sub>17</sub>	d<sub>18</sub>	d<sub>19</sub>	d<sub>20</sub>
											c<sub>1</sub>	49	45	38	55	84	88	37	82	54	35
c<sub>2</sub>	57	70	66	58	82	99	53	91	66	58
											c<sub>3</sub>	36	51	26	49	64	63	29	65	47	29

经过计算可知虚拟数据代理a₂中的所有数据集被数据中心c₁请求的次数之和为598，被数据中心c₂请求的次数之和为606，被数据中心c₃请求的次数之和为461，因此，虚拟数据代理a₂应该映射到数据中心c₂，即，虚拟数据代理a₂选择数据中心c₂来存储已经划分到自身的所有数据集；同理可得虚拟数据代理a₁应该映射到数据中心c₁；虚拟数据代理a₃应该映射到数据中心c₃。

需要注意的是，为避免各个虚拟数据代理的尺寸的差异过大，同时为使各虚拟数据代理的云模型能够均匀增长，并考虑到数据中心的剩余存储问题，当一个数据集相对几个不同的虚拟数据代理具有相同的隶属度时，将该数据集分配到数据中心剩余存储量最大的虚拟数据代理中。因此，虚拟数据代理与数据中心为一一对应的关系，而虚拟数据代理中包括一个或者多个非空数据集。

进一步地，本实施例通过与Random和K-means两种数据布局方法相比较，进一步地验证本实施例的方案。

首先，值得说明的是，本实施例中实现数据布局，主要基于第一批数据集与其余数据集之间的依赖关系而完成，以50个数据集和3个数据中心为例，从数据集之间的依赖关系来分析第一批数据集的选取对数据布局策略的影响。以三个数据集为一组，分别选取相互依赖度为3、2、1、0的四组数据，并记录四组数据的移动次数和传输时间。需要说明的是，数据移动次数为科学工作流执行过程中数据集在不同数据中心的传递次数；传输时间为科学工作流通过HEFT任务调度算法来仿真模拟运行50个任务的整体时间。

具体地，参见图2和图3，组成虚拟数据代理的第一批数据集之间的依赖度越高，数据移动次数和传输时间越多。而理论上，数据集之间的依赖度越高，表明数据集同时被同一个数据中心请求的可能性越大。而对于第一批数据集来说，它们之间是注定要分别组成不同的虚拟数据代理而被放置到不同的数据中心上。因此第一批数据集之间的依赖关系越强，应用在运行时产生的传输消耗就会越多，所以，在随机选取第一批数据集时，应当避免依赖关系高的数据集，即，尽可能地满足选取的第一批数据集之间的依赖度为0。

进一步地，参见图4，其中，横坐标表示数据集的数量，即，数据集数量由20增到100；纵坐标表示跨数据中心的数据移动次数。由图4可知，随着数据量的增多，在Random、K-means以及本实施例(C loud)这三种数据布局策略中的数据移动次数明显成上升趋势，但本实施例的数据布局对应的传输次数处于最低。

参见图5，其中，横坐标表示数据中心的数量，纵坐标表示跨数据中心的数据移动次数。由图5可知，当数据中心数量由3增到10，Random、K-means以及本实施例(C loud)这三种数据布局策略所对应的跨数据中心数据移动次数都相应增加，虽然数据中心数量较少时本实施例(C loud)的数据布局与其余两者的数据布局导致的跨数据中心的数据移动次数相差甚微，但综合来看，随着数据中心数量的增多，根据跨数据中心的数据移动次数来比较，本实施例(C loud)的数据布局导致的跨数据中心的数据移动次数始终处于最低位置。

参见图6，当数据集数量越大，Random、K-means以及本实施例(C loud)这三种数据布局策略所对应的跨数据中心数据传输时间越高，而本实施例(C loud)的数据布局策略所对应的数据传输时间开销一直处于最低状态。

参见图7，随着数据中心的增多，应用在执行过程中涉及到的跨数据中心数据移动次数在不断增长，而本实施例(C loud)的数据布局策略相比其余两者的数据传输所消耗的时间更少，能够得到较优的结果。

实施例2

本实施例提供一种用以执行上述云模型数据布局方法的系统，包括：

熵En：

超熵He：

上述各单元的具体处理过程可参照上述方法实施例，不再赘述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种云模型数据布局方法，其特征在于，包括：

从云环境中选取出m个不存在依赖关系的数据集作为m个云滴组的第一批数据集，所述依赖关系为当两个数据集被同一个数据中心请求时，则认为两个数据集相互依赖；然后为每个云滴组的第一批数据集选取出一定数量的相关数据集作为相应云滴组的第二批数据集；根据所述m个云滴组各自的第一批数据集和第二批数据集确定出m个虚拟数据代理，并计算各虚拟数据代理的定性特征，进而确定虚拟数据代理的云模型，所述定性特征包括期望值Ex：

熵En：

超熵He：

式中，p表示除所述m个云滴组中的数据集以外的其余数据集与虚拟数据代理中第一批数据集之间的依赖度；两个数据集之间的依赖度为同时请求两个数据集的数据中心的个数；

2.根据权利要求1所述的云模型数据布局方法，其特征在于，当同一个数据集相对于几个不同的虚拟数据代理具有相同的最大隶属度时，将所述数据集映射到所述几个不同的虚拟数据代理中剩余存储量最大的虚拟数据代理中。

3.根据权利要求1所述的云模型数据布局方法，其特征在于，所述虚拟数据代理与所述数据中心为一一对应的关系，且所述虚拟数据代理中包括一个和/或多个非空数据集。

4.一种云模型数据布局系统，其特征在于，包括：

第一单元：用于从云环境中选取出m个不存在依赖关系的数据集作为m个云滴组的第一批数据集，所述依赖关系为当两个数据集被同一个数据中心请求时，则认为两个数据集相互依赖；然后为每个云滴组的第一批数据集选取出一定数量的相关数据集作为相应云滴组的第二批数据集；根据所述m个云滴组各自的第一批数据集和第二批数据集确定出m个虚拟数据代理，并计算各虚拟数据代理的定性特征，进而确定虚拟数据代理的云模型，所述定性特征包括期望值Ex：

熵En：

超熵He：

5.根据权利要求4所述的云模型数据布局系统，其特征在于，所述第二单元中，当同一个数据集相对于几个不同的虚拟数据代理具有相同的最大隶属度时，将所述数据集映射到所述几个不同的虚拟数据代理中剩余存储量最大的虚拟数据代理中。

6.根据权利要求4所述的云模型数据布局系统，其特征在于，所述虚拟数据代理与所述数据中心为一一对应的关系，且所述虚拟数据代理中包括一个和/或多个非空数据集。