CN104102557A - 一种基于聚类的云计算平台数据备份方法 - Google Patents

一种基于聚类的云计算平台数据备份方法 Download PDF

Info

Publication number
CN104102557A
CN104102557A CN201410301146.XA CN201410301146A CN104102557A CN 104102557 A CN104102557 A CN 104102557A CN 201410301146 A CN201410301146 A CN 201410301146A CN 104102557 A CN104102557 A CN 104102557A
Authority
CN
China
Prior art keywords
data
cluster
backup
key factor
cloud computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410301146.XA
Other languages
English (en)
Other versions
CN104102557B (zh
Inventor
钟珞
杨光
李琳
唐琨皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201410301146.XA priority Critical patent/CN104102557B/zh
Publication of CN104102557A publication Critical patent/CN104102557A/zh
Application granted granted Critical
Publication of CN104102557B publication Critical patent/CN104102557B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于聚类的云计算平台数据备份方法,该方法包括:(1)根据用户需求确认关键因素;(2)引入关联规则发现关键因素的相关性,确定划分的簇数;(3)对包含关键因素的数据记录进行聚类;(4)每个时间段按照步骤(3),以簇为单位制定数据的备份数目和备份位置。本发明方法针对不同数据的不同使用情况,对数据制定包含备份数目和备份位置在内的特定的备份策略,有效解决系统中数据冗余太多影响系统负载能力的问题,从而有效提高系统或集群的存储性能。

Description

一种基于聚类的云计算平台数据备份方法
技术领域
本发明涉及云计算领域,具体指一种基于聚类的云计算平台数据备份方法。
背景技术
数据备份策略是针对不同备份节点的数据备份需求制定的相应的备份管理策略,它是有系统管理员在管理服务器上定义的用于管理数据安全备份、归档和分级存储的一个规则集合。制定数据备份策略后,就可以根据备份规则对不同类型、不同用途的数据,进行指定数目和指定位置的备份。
目前的云平台上的备份策略默认采用的是HDFS进行数据复制,HDFS分布式文件系统采取统一备份三份的策略,而且制定了备份位置,HDFS将两个副本放置在同一个机架的不同节点上,另一个副本放置在不同机架的节点上。这种统一的备份策略,没有考虑到不同数据之间的差异,在实际应用中可能导致系统中数据冗余太多,存储效率相对较低,系统、集群负载均衡能力较差等问题。
为了解决这个问题,需要研究怎样去提高存储效率,减少冗余数据和数据间的传输。制定个性化备份规则是一种有效的手段。个性化备份规则是指根据不同数据的不同使用情况,为各类数据制定特定的备份数目和备份位置。对不同数据的区分对待能够在保证数据安全性和完整性的同时,有效减少冗余,提高存储效率,以满足系统的需求。
发明内容
鉴于上述现有技术的不足,本发明提供一种基于聚类的云计算平台数据备份方法,该方法在云计算平台上,通过基于划分的聚类,将数据按类型划分成若干个簇,并分析数据的使用情况,本发明方法为不同数据制定相应的备份数目和备份位置,进行个性化备份规则的定制,从而减少冗余数据,提高存储效率。
实现本发明目的采用的技术方案是一种基于聚类的云计算平台数据备份方法,该方法包括以下步骤:
(1)根据用户需求确认关键因素;
(2)引入关联规则发现关键因素的相关性,确定划分的簇数;
(3)对包含关键因素的数据记录进行聚类;
(4)每个时间段按照步骤(3),以簇为单位制定数据的备份数目和备份位置。
在上述技术方案中,所述步骤(1)具体包括:
参考数据的来源和背景,根据用户需求选择反应数据使用情况的相关因素作为数据的关键因素。
在上述技术方案中,所述步骤(2)具体包括:
引入并行化Apriori关联规则算法,分析关键因素之间的相关性;
并根据上述分析所得相关性,选择具有强相关性的那部分关键因素作为数据项,由所选择的关键因素数据项的数目乘以一定比例(由数据规模决定)得到聚类的簇数k。
在上述技术方案中,所述步骤(3)具体包括:
(3-1)以时间段为单位,结合权值对数据的各数据项规范化处理;
(3-2)将数据记录看作数据空间,根据数据间的相似度,将数据空间分割成k+1个部分,再将每个部分的截面分成k+1个扇形半平面,选择分割面和扇形半平面的k条异面的交线作为分割线,在分割线中分别选择一个点,作为聚类的初始中心点;
(3-3)根据上述所选择相似度参考标准,在云平台上控制作业任务和作业链接方式,对数据记录进行聚类。
在上述技术方案中,所述步骤(4)具体包括:
每个时间段,按照步骤(3)对该时间段内数据记录信息的聚类,并分析聚类结果,以簇为单位为每簇数据制定备份策略,所述备份策略包括针对关键因素确定备份数目和备份位置。
现有备份策略是使用HDFS默认的备份规则对数据进行统一备份,而本发明不同之处能够从数据的使用情况中提取出与数据相关的关键因素对数据进行聚类划分。首先统计数据的关键因素并确定聚类的簇数,然后选择特征明显的数据记录作为初始中心点,再对数据记录进行聚类。聚类结果决定数据的划分。最后根据聚类结果,以簇为单位分析数据特征,制定备份策略。
本发明方法针对不同数据的不同使用情况,对数据制定包含备份数目和备份位置在内的特定的备份策略,有效解决系统中数据冗余太多影响系统负载能力的问题,从而有效提高系统或集群的存储性能。
附图说明
图1为本发明基于聚类的云计算平台数据备份方法流程图。
图2为聚类结果中的数据结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示,每个数据备份的数目和位置是不一样的,数据1-5分别是聚类所得结果中,5个不同的簇中的数据。可以根据需要为每类数据制定备份规则。对于数据1(例如长期不使用的数据且不重要的数据),可将其备份规则制定为只在本地节点备份一次。对于数据2(例如使用次数少,基本不修改的数据),为了保证安全性,可将其备份规则制定为备份数目为2,备份位置为同一机架的不同节点上。数据3(例如使用次数和使用时间都达到一定量,且会被修改的数据),可将其备份规则制定为备份数目为3,将两个副本放置在同一个机架的不同节点上,另外一个副本放置在不同机架的节点上。数据4(例如使用次数和使用时间都达到一定量,不会被修改的,经常被多个不同用户使用的数据),可将其备份规则制定为备份数目为3,将两个副本放置在同一个机架的不同节点上,另外一个副本放置在不同机架的节点上。数据5(使用次数和修改次数达到一定量,使用时间长的数据)可将其备份规则制定为备份数目为4,将两个副本放置在同一个机架的不同节点上,另外两个副本放置在不同机架的不同节点上。
如图2,本实施例以记录1(按照图1来说)为例来说明本发明基于聚类的云计算平台数据备份方法,包括以下步骤:
步骤S100、根据用户需求确认关键因素:参考数据的来源和背景,根据用户需求,记录数据的使用的次数,修改次数,使用时间等反应数据使用情况的相关因素,作为数据的关键因素。
步骤S200、引入并行化Apriori关联规则发现关键因素的相关性,确定划分的簇数:引入关联规则,分析关键因素之间的相关性。并根据这个相关性,判断出哪些关键因素相类似、哪些关键因素特征明显和其他关键因素差异大。选择特征明显和其他关键因素差异大的关键因素作为代聚类数据的数据项。由关键因素数据项的数目乘以一定比例(由数据规模决定)得到聚类的簇数k,这个比例可以根据待聚类样本数目或者按需要来确定。
步骤S300、对包含关键因素的数据记录进行聚类,具体步骤为:
步骤S301、为以时间段为单位,统计指定的时间段内待聚类分析的数据记录。这些数据记录包含数据编号和,数据的关键因素(如使用时间、访问次数、修改次数、最长使用时间,以及是否已删除等因素),并结合权值对数据项进行规范化处理,以便可将数据直接进行聚类;
步骤S302、为将每条数据记录看出空间点,各数据项看成坐标,
将所有数据记录看作数据空间,运用分割的思想,选择欧式距离作为相似度标准,将数据空间中距离原点最远的点连线作为对角线,选择对角线的等分点作垂面,分割成k+1个部分;再按角度将每个分割面分成k+1个类扇形半平面,对每个分割面和类扇形半平面进行编号,选择相同编号的分割面和类形半平面的交线,可以得到k条相互异面的交线,在这k交线上选择一个点,作为聚类的初始中心点;
步骤S303、根据需要选择参考标准,可以选择欧式距离为参考标准,利用云计算平台,在云计算平台上控制mapreduce的链接方式,选择合适的Map Task数和Reduce Task数,运用mapreduce对数据记录进行基于划分的聚类。
步骤S400、每个时间段按照步骤S300,以簇为单位制定数据的备份数目和备份位置:每个时间段,对该时间段内数据记录信息的聚类结果进行统计,分析聚类结果,以簇为单位为每簇数据制定备份策略,针对关键因素确定备份数目和备份位置。
上述方法中,对数据的使用情况进行了聚类分析,将数据根据其使用情况和特征进行和划分。本实施例基于聚类的云计算平台数据备份策略不同于以往的备份策略。将数据和其使用情况组织起来,了解反应数据特征的关键因素。从而分别对各类数据进行备份策略的个性化定制。可以只是以数据块为文档进行数据备份规则的制定,减少系统的冗余数据提高系统的负载均衡能力。更重要的是,可以使用此策略来处理大数据,可以对不同云平台下的数据的区分对待,能够在保证数据安全性和完整性的同时,有效减少冗余,提高存储效率,提高传输效率,从而提高集群的负载均衡能力。

Claims (5)

1.一种基于聚类的云计算平台数据备份方法,其特征在于,包括:
(1)根据用户需求确认关键因素;
(2)引入关联规则发现关键因素的相关性,确定划分的簇数;
(3)对包含关键因素的数据记录进行聚类;
(4)每个时间段按照步骤(3),以簇为单位制定数据的备份数目和备份位置。
2.根据权利要求1所述基于聚类的云计算平台数据备份方法,其特征在于所述步骤(1)包括:
参考数据的来源和背景,根据用户需求选择反应数据使用情况的相关因素作为数据的关键因素。
3.根据权利要求1所述基于聚类的云计算平台数据备份方法,其特征在于,所述步骤(2)包括:
引入并行化Apriori关联规则算法,分析关键因素之间的相关性;
并根据上述分析所得相关性,选择具有强相关性的那部分关键因素作为数据项,由所选择的关键因素数据项的数目乘以一定比例得到聚类的簇数k。
4.根据权利要求1所述基于聚类的云计算平台数据备份方法,其特征在于,所述步骤(3)包括:
(3-1)以时间段为单位,结合权值对数据的各数据项规范化处理;
(3-2)将数据记录看作数据空间,根据数据间的相似度,将数据空间分割成k+1个部分,再将每个部分的截面分成k+1个扇形半平面,选择分割面和扇形半平面的k条异面的交线作为分割线,在分割线中分别选择一个点,作为聚类的初始中心点;
(3-3)根据上述所选择相似度参考标准,在云平台上控制作业任务和作业链接方式,对数据记录进行聚类。
5.根据权利要求1所述基于聚类的云计算平台数据备份方法,其特征在于,所述步骤(4)包括:
每个时间段,按照步骤(3)对该时间段内数据记录信息的聚类,并分析聚类结果,以簇为单位为每簇数据制定备份策略,所述备份策略包括针对关键因素确定备份数目和备份位置。
CN201410301146.XA 2014-06-27 2014-06-27 一种基于聚类的云计算平台数据备份方法 Expired - Fee Related CN104102557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410301146.XA CN104102557B (zh) 2014-06-27 2014-06-27 一种基于聚类的云计算平台数据备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410301146.XA CN104102557B (zh) 2014-06-27 2014-06-27 一种基于聚类的云计算平台数据备份方法

Publications (2)

Publication Number Publication Date
CN104102557A true CN104102557A (zh) 2014-10-15
CN104102557B CN104102557B (zh) 2017-11-10

Family

ID=51670728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410301146.XA Expired - Fee Related CN104102557B (zh) 2014-06-27 2014-06-27 一种基于聚类的云计算平台数据备份方法

Country Status (1)

Country Link
CN (1) CN104102557B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885425A (zh) * 2019-01-29 2019-06-14 人人行科技股份有限公司 数据的备份方法、备份装置、存储介质和处理器
CN111240893A (zh) * 2019-12-26 2020-06-05 曙光信息产业(北京)有限公司 一种基于数据流分片技术的备份和还原管理方法及系统
CN111309528A (zh) * 2020-03-23 2020-06-19 重庆忽米网络科技有限公司 一种基于云计算及分布式存储的数据协同备份系统及方法
US10747622B2 (en) 2015-03-31 2020-08-18 SkyKick, Inc. Efficient backup, search and restore

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989999A (zh) * 2010-11-12 2011-03-23 华中科技大学 一种分布式环境中的分级存储系统
CN102200936A (zh) * 2011-05-11 2011-09-28 杨钧 适用于云存储的智能配置存储备份方法
CN102855663A (zh) * 2012-05-04 2013-01-02 北京建筑工程学院 一种根据激光雷达栅格点云构建csg模型的方法
WO2013036537A1 (en) * 2011-09-07 2013-03-14 Symantec Corporation Automated separation of corporate and private data for backup and archiving
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989999A (zh) * 2010-11-12 2011-03-23 华中科技大学 一种分布式环境中的分级存储系统
CN102200936A (zh) * 2011-05-11 2011-09-28 杨钧 适用于云存储的智能配置存储备份方法
WO2013036537A1 (en) * 2011-09-07 2013-03-14 Symantec Corporation Automated separation of corporate and private data for backup and archiving
CN102855663A (zh) * 2012-05-04 2013-01-02 北京建筑工程学院 一种根据激光雷达栅格点云构建csg模型的方法
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747622B2 (en) 2015-03-31 2020-08-18 SkyKick, Inc. Efficient backup, search and restore
CN109885425A (zh) * 2019-01-29 2019-06-14 人人行科技股份有限公司 数据的备份方法、备份装置、存储介质和处理器
CN111240893A (zh) * 2019-12-26 2020-06-05 曙光信息产业(北京)有限公司 一种基于数据流分片技术的备份和还原管理方法及系统
CN111309528A (zh) * 2020-03-23 2020-06-19 重庆忽米网络科技有限公司 一种基于云计算及分布式存储的数据协同备份系统及方法

Also Published As

Publication number Publication date
CN104102557B (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN109074362B (zh) 分布式系统中的拆分和移动范围
AU2014212780B2 (en) Data stream splitting for low-latency data access
US9143562B2 (en) Managing transfer of data from a source to a destination machine cluster
US10114845B2 (en) Efficiently estimating compression ratio in a deduplicating file system
US20130031229A1 (en) Traffic reduction method for distributed key-value store
CN104391737B (zh) 云平台中负载平衡的优化方法
US8626765B2 (en) Processing database operation requests
US20130151683A1 (en) Load balancing in cluster storage systems
CN106611064B (zh) 分布式关系数据库的数据处理方法和装置
CN104978324B (zh) 一种数据处理方法和装置
CN102200936A (zh) 适用于云存储的智能配置存储备份方法
CN103067525A (zh) 一种基于特征码的云存储数据备份方法
CN104462432A (zh) 自适应的分布式计算方法
KR101641179B1 (ko) 대용량 공간데이터 분산 처리 방법 및 이를 위한 분산 처리 서버
CN104102557A (zh) 一种基于聚类的云计算平台数据备份方法
CN106469152A (zh) 一种基于etl的文件处理方法及系统
CN111507479A (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN102129619A (zh) 一种基于云存储的业务数据处理方法及系统
US20160203032A1 (en) Series data parallel analysis infrastructure and parallel distributed processing method therefor
US10157216B2 (en) Data management system and data management method
JP2008225686A (ja) 分散型データ処理プラットフォームにおけるデータ配置管理装置と方法、システム及びプログラム
EP2765517A2 (en) Data stream splitting for low-latency data access
CN111221858B (zh) 一种数据处理方法、装置及设备
CN105447183A (zh) Mpp架构数据库集群序列系统及序列管理方法
KR20160050745A (ko) 실시간 또는 일괄 처리 기반의 데이터 처리방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171110

Termination date: 20180627