CN104102557B

CN104102557B - 一种基于聚类的云计算平台数据备份方法

Info

Publication number: CN104102557B
Application number: CN201410301146.XA
Authority: CN
Inventors: 钟珞; 杨光; 李琳; 唐琨皓
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2017-11-10
Anticipated expiration: 2034-06-27
Also published as: CN104102557A

Abstract

本发明涉及一种基于聚类的云计算平台数据备份方法，该方法包括：(1)根据用户需求确认关键因素；(2)引入关联规则发现关键因素的相关性，确定划分的簇数；(3)对包含关键因素的数据记录进行聚类；(4)每个时间段按照步骤(3)，以簇为单位制定数据的备份数目和备份位置。本发明方法针对不同数据的不同使用情况，对数据制定包含备份数目和备份位置在内的特定的备份策略，有效解决系统中数据冗余太多影响系统负载能力的问题，从而有效提高系统或集群的存储性能。

Description

一种基于聚类的云计算平台数据备份方法

技术领域

本发明涉及云计算领域，具体指一种基于聚类的云计算平台数据备份方法。

背景技术

数据备份策略是针对不同备份节点的数据备份需求制定的相应的备份管理策略，它是有系统管理员在管理服务器上定义的用于管理数据安全备份、归档和分级存储的一个规则集合。制定数据备份策略后，就可以根据备份规则对不同类型、不同用途的数据，进行指定数目和指定位置的备份。

目前的云平台上的备份策略默认采用的是HDFS进行数据复制，HDFS分布式文件系统采取统一备份三份的策略，而且制定了备份位置，HDFS将两个副本放置在同一个机架的不同节点上，另一个副本放置在不同机架的节点上。这种统一的备份策略，没有考虑到不同数据之间的差异，在实际应用中可能导致系统中数据冗余太多，存储效率相对较低，系统、集群负载均衡能力较差等问题。

为了解决这个问题，需要研究怎样去提高存储效率，减少冗余数据和数据间的传输。制定个性化备份规则是一种有效的手段。个性化备份规则是指根据不同数据的不同使用情况，为各类数据制定特定的备份数目和备份位置。对不同数据的区分对待能够在保证数据安全性和完整性的同时，有效减少冗余，提高存储效率，以满足系统的需求。

发明内容

鉴于上述现有技术的不足，本发明提供一种基于聚类的云计算平台数据备份方法，该方法在云计算平台上，通过基于划分的聚类，将数据按类型划分成若干个簇，并分析数据的使用情况，本发明方法为不同数据制定相应的备份数目和备份位置，进行个性化备份规则的定制，从而减少冗余数据，提高存储效率。

实现本发明目的采用的技术方案是一种基于聚类的云计算平台数据备份方法，该方法包括以下步骤：

(1)根据用户需求确认关键因素；

(2)引入关联规则发现关键因素的相关性，确定划分的簇数；

(3)对包含关键因素的数据记录进行聚类；

(4)每个时间段按照步骤(3)，以簇为单位制定数据的备份数目和备份位置。

在上述技术方案中，所述步骤(1)具体包括：

参考数据的来源和背景，根据用户需求选择反应数据使用情况的相关因素作为数据的关键因素。

在上述技术方案中，所述步骤(2)具体包括：

引入并行化Apriori关联规则算法，分析关键因素之间的相关性；

并根据上述分析所得相关性，选择具有强相关性的那部分关键因素作为数据项，由所选择的关键因素数据项的数目乘以一定比例(由数据规模决定)得到聚类的簇数k。

在上述技术方案中，所述步骤(3)具体包括：

(3-1)以时间段为单位，结合权值对数据的各数据项规范化处理；

(3-2)将数据记录看作数据空间，根据数据间的相似度，将数据空间分割成k+1个部分，再将每个部分的截面分成k+1个扇形半平面，选择分割面和扇形半平面的k条异面的交线作为分割线，在分割线中分别选择一个点，作为聚类的初始中心点；

(3-3)根据上述所选择相似度参考标准，在云平台上控制作业任务和作业链接方式，对数据记录进行聚类。

在上述技术方案中，所述步骤(4)具体包括：

每个时间段，按照步骤(3)对该时间段内数据记录信息的聚类，并分析聚类结果，以簇为单位为每簇数据制定备份策略，所述备份策略包括针对关键因素确定备份数目和备份位置。

现有备份策略是使用HDFS默认的备份规则对数据进行统一备份，而本发明不同之处能够从数据的使用情况中提取出与数据相关的关键因素对数据进行聚类划分。首先统计数据的关键因素并确定聚类的簇数，然后选择特征明显的数据记录作为初始中心点，再对数据记录进行聚类。聚类结果决定数据的划分。最后根据聚类结果，以簇为单位分析数据特征，制定备份策略。

本发明方法针对不同数据的不同使用情况，对数据制定包含备份数目和备份位置在内的特定的备份策略，有效解决系统中数据冗余太多影响系统负载能力的问题，从而有效提高系统或集群的存储性能。

附图说明

图1为本发明基于聚类的云计算平台数据备份方法流程图。

图2为聚类结果中的数据结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，每个数据备份的数目和位置是不一样的，数据1-5分别是聚类所得结果中，5个不同的簇中的数据。可以根据需要为每类数据制定备份规则。对于数据1(例如长期不使用的数据且不重要的数据)，可将其备份规则制定为只在本地节点备份一次。对于数据2(例如使用次数少，基本不修改的数据)，为了保证安全性，可将其备份规则制定为备份数目为2，备份位置为同一机架的不同节点上。数据3(例如使用次数和使用时间都达到一定量，且会被修改的数据)，可将其备份规则制定为备份数目为3，将两个副本放置在同一个机架的不同节点上，另外一个副本放置在不同机架的节点上。数据4(例如使用次数和使用时间都达到一定量，不会被修改的，经常被多个不同用户使用的数据)，可将其备份规则制定为备份数目为3，将两个副本放置在同一个机架的不同节点上，另外一个副本放置在不同机架的节点上。数据5(使用次数和修改次数达到一定量，使用时间长的数据)可将其备份规则制定为备份数目为4，将两个副本放置在同一个机架的不同节点上，另外两个副本放置在不同机架的不同节点上。

如图2，本实施例以记录1(按照图1来说)为例来说明本发明基于聚类的云计算平台数据备份方法，包括以下步骤：

步骤S100、根据用户需求确认关键因素：参考数据的来源和背景，根据用户需求，记录数据的使用的次数，修改次数，使用时间等反应数据使用情况的相关因素，作为数据的关键因素。

步骤S200、引入并行化Apriori关联规则发现关键因素的相关性，确定划分的簇数：引入关联规则，分析关键因素之间的相关性。并根据这个相关性，判断出哪些关键因素相类似、哪些关键因素特征明显和其他关键因素差异大。选择特征明显和其他关键因素差异大的关键因素作为代聚类数据的数据项。由关键因素数据项的数目乘以一定比例(由数据规模决定)得到聚类的簇数k，这个比例可以根据待聚类样本数目或者按需要来确定。

步骤S300、对包含关键因素的数据记录进行聚类，具体步骤为：

步骤S301、为以时间段为单位，统计指定的时间段内待聚类分析的数据记录。这些数据记录包含数据编号和，数据的关键因素(如使用时间、访问次数、修改次数、最长使用时间，以及是否已删除等因素)，并结合权值对数据项进行规范化处理，以便可将数据直接进行聚类；

步骤S302、为将每条数据记录看出空间点，各数据项看成坐标，

将所有数据记录看作数据空间，运用分割的思想，选择欧式距离作为相似度标准，将数据空间中距离原点最远的点连线作为对角线，选择对角线的等分点作垂面，分割成k+1个部分；再按角度将每个分割面分成k+1个类扇形半平面，对每个分割面和类扇形半平面进行编号，选择相同编号的分割面和类形半平面的交线，可以得到k条相互异面的交线，在这k交线上选择一个点，作为聚类的初始中心点；

步骤S303、根据需要选择参考标准，可以选择欧式距离为参考标准，利用云计算平台，在云计算平台上控制mapreduce的链接方式，选择合适的Map Task数和Reduce Task数，运用mapreduce对数据记录进行基于划分的聚类。

步骤S400、每个时间段按照步骤S300，以簇为单位制定数据的备份数目和备份位置：每个时间段，对该时间段内数据记录信息的聚类结果进行统计，分析聚类结果，以簇为单位为每簇数据制定备份策略，针对关键因素确定备份数目和备份位置。

上述方法中，对数据的使用情况进行了聚类分析，将数据根据其使用情况和特征进行和划分。本实施例基于聚类的云计算平台数据备份策略不同于以往的备份策略。将数据和其使用情况组织起来，了解反应数据特征的关键因素。从而分别对各类数据进行备份策略的个性化定制。可以只是以数据块为文档进行数据备份规则的制定，减少系统的冗余数据提高系统的负载均衡能力。更重要的是，可以使用此策略来处理大数据，可以对不同云平台下的数据的区分对待，能够在保证数据安全性和完整性的同时，有效减少冗余，提高存储效率，提高传输效率，从而提高集群的负载均衡能力。

Claims

1.一种基于聚类的云计算平台数据备份方法，其特征在于，包括：

(1)根据用户需求确认关键因素；

(2)引入关联规则发现关键因素的相关性，确定划分的簇数；

(3)对包含关键因素的数据记录进行聚类；包括：

(3-3)将上述相似度作为参考标准，在云平台上控制作业任务和作业链接方式，对数据记录进行聚类；

2.根据权利要求1所述基于聚类的云计算平台数据备份方法，其特征在于所述步骤(1)包括：

参考数据的来源和背景，根据用户需求选择反映数据使用情况的相关因素作为数据的关键因素。

3.根据权利要求1所述基于聚类的云计算平台数据备份方法，其特征在于，所述步骤(2)包括：

并根据上述分析所得相关性，选择具有强相关性的那部分关键因素作为数据项，由所选择的关键因素数据项的数目乘以一定比例得到聚类的簇数k。

4.根据权利要求1所述基于聚类的云计算平台数据备份方法，其特征在于，所述步骤(4)包括：