CN103095812A - 一种基于用户请求响应时间的副本创建方法 - Google Patents

一种基于用户请求响应时间的副本创建方法 Download PDF

Info

Publication number
CN103095812A
CN103095812A CN2012105894603A CN201210589460A CN103095812A CN 103095812 A CN103095812 A CN 103095812A CN 2012105894603 A CN2012105894603 A CN 2012105894603A CN 201210589460 A CN201210589460 A CN 201210589460A CN 103095812 A CN103095812 A CN 103095812A
Authority
CN
China
Prior art keywords
msrt
node
copy
ntc
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105894603A
Other languages
English (en)
Other versions
CN103095812B (zh
Inventor
金海�
邵志远
柏小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201210589460.3A priority Critical patent/CN103095812B/zh
Publication of CN103095812A publication Critical patent/CN103095812A/zh
Application granted granted Critical
Publication of CN103095812B publication Critical patent/CN103095812B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于用户请求响应时间的副本创建方法,包括:将分布式存储环境中的待测数据块复制n个副本,将n个副本分别分布在分布式存储环境中的n个存储节点上,每个副本的大小为Sb,并将这n个存储节点的信息存储在元数据服务器上,获取n个存储节点的节点网络传输能力(NTC1,NTC2,…,NTCn).和节点并发访问数(Num1,Num2,…,Numn),根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb获取n个存储节点的相关特征值,根据n个存储节点的相关特征值,对待测数据块进行副本创建过程。本发明在恰当的时机为热点数据创建新的副本,从而降低用户访问的响应时间,并提高整个系统的性能。

Description

一种基于用户请求响应时间的副本创建方法
技术领域
本发明属于分布式存储中的副本管理技术领域,更具体地,涉及一种基于用户请求响应时间的副本创建方法。
背景技术
在现代科学研究和应用领域中,大量的数据是重要的资源,如高能物理和粒子物理、生物医学研究、航空航天、数字地球、大型武器模拟、大型数据库和数据仓库等的应用。其数据量将达到TB至PB的级别。同时,地理上广泛分布的科研工作者和用户都希望能访问和分析这些庞大的数据。为了解决上述应用面临的问题,分布式存储应运而生。
分布式存储为各种应用提供了一个高性能、大容量、高速传输的并行分布广域计算平台。它是对广域范围内大规模的数据集进行分布式管理和分析及使用的一个综合的体系结构,实现网格环境中安全、可靠和有效的数据传输以及访问、复制等操作,并提供到不同存储系统的统一接口,较好地解决了上述问题,从而使得数据密集型的高性能计算和大量的共享数据密集型的事务处理及科学研究成为可能。
数据副本(Data Replica)机制是分布式存储领域的一个研究热点,副本机制通过在不同地点存放数据的多个副本可以降低远程访问该数据的网络延迟及带宽消耗,还可以提高网络的负载均衡,同时能够提高数据的安全性和可靠性以及系统的容错性等。良好的数据副本管理策略是提高数据网格服务质量的重要方面。
作为副本管理策略的重要组成部分,目前的副本创建机制都是依据用户访问频率来判断“热点数据”。通过记录某个时间段(Time interval)内的用户对该文件的访问次数,如果超过了某个阈值,就认为该文件成为“热点数据”,为该文件创建新的副本。然而,目前的这种副本创建机制存在两个很明显的问题:
(1)并不能在最恰当的时机为“热点数据”创建新的副本。目前的这种基于访问记录的副本创建方法,副本的创建一般发生在时间段的结尾,而用户请求在一个时间段内的分布是不均匀的,目前的副本创建策略并不能在用户并发请求最高的时刻,做出响应;
(2)大大增加用户请求的响应时间。目前的这种基于访问记录的副本创建方法,会导致大量的用户请求处于等待状态,大大增加了用户请求的响应时间,降低了整个系统的性能。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于用户请求响应时间的副本创建方法,其综合考虑了系统并发数和用户响应时间,并在恰当的时机为热点数据创建新的副本,从而降低用户访问的响应时间,并提高整个系统的性能。
为实现上述目的,本发明提供了一种基于用户请求响应时间的副本创建方法,包括以下步骤:
(1)将分布式存储环境中的待测数据块复制n个副本,将n个副本分别分布在分布式存储环境中的n个存储节点上,每个副本的大小为Sb,并将这n个存储节点的信息存储在元数据服务器上;
(2)获取n个存储节点的节点网络传输能力(NTC1,NTC2,…,NTCn).和节点并发访问数(Num1,Num2,…,Numn);
(3)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb获取n个存储节点的相关特征值;
(4)根据n个存储节点的相关特征值,对待测数据块进行副本创建过程。
存储节点的信息包括节点IP地址、网络带宽、磁盘利用率。
副本大小Sb的取值范围是10Mb到120Mb,n是大于等于3的正整数。
特征值包括每个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn),以及分布式存储环境的请求平均响应时间MSRTaverage和请求最大响应时间MSRTMAX
步骤(3)包括如下子步骤:
(3-1)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb并采用以下公式获得n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn):
MSRT i = s b NTC i × Num i
其中1<=i<=n;
(3-2)根据n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn)并采用以下公式计算最大请求响应时间MSRTMAX和平均请求响应时间MSRTaverage
MSRT MAX = max ( MSRT 1 , MSRT 2 , . . . , MSRT n ) MSRT average = 1 n &Sigma; i = 1 n MSRT i .
步骤(4)包括如下子步骤:
(4-1)判断平均请求响应时间MSRTaverage是否大于一阈值,如果是则进入步骤(4-2),否则进入步骤(4-5);
(4-2)从分布式存储环境中选择除上述n个节点以外的一个新节点;
(4-3)将待测数据块复制到该新节点上,并将该节点的信息保存到元数据服务器上;
(4-4)对n个节点和新节点执行负载均衡;
(4-5)判断最大请求响应时间MSRTMAX是否大于步骤(4-1)中的阈值,如果是则进入步骤(4-6),否则返回步骤(2);
(4-6)对n个节点执行负载均衡操作。
阈值的取值范围是3秒到10秒。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
(1)高可靠性:
由于采用了步骤(1)和步骤(4-2),分布式存储系统中至少存储了待测数据块的n个副本,因而提高了待测数据块的可靠性。另外,本发明基于分布式平台实现副本管理系统,管理模块和技术模块可以部署在本地或远程的服务器上,从而缓解了由于使用单一服务器所造成的资源竞争和操作延时。
(2)可扩展性强:
由于采用了步骤(2)和步骤(3-1)以及步骤(3-2),对于新加入的存储节点,系统只需向系统注册新的节点元数据,系统的其它配置无需做任何更改,节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb等相关的特征值的计算方法不变,较为简便地实现系统的扩展。
(3)优化用户请求响应时间:
由于采用了步骤(3-2)和步骤(4),本发明通过实施监控用户请求的平均响应时间,可以在用户并发请求最高的时候,为“热点数据”创建新的副本,从而有效的降低了用户请求平均响应时间,并且提高了整个系统的性能。
附图说明
图1为本发明基于用户请求响应时间的副本创建方法流程图。
图2为本发明的步骤(3)的细化流程图。
图3为本发明的步骤(4)的细化流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先对本发明中的技术术语进行解释和定义:
节点网络传输能力:英文为Network Transmission Capability,简称NTC;用于表示该节点的网络传输能力,具体而言,指的是该节点的网络带宽;
节点并发访问数:用于表示某个节点当前处理的用户并发访问;
请求响应时间:表示用户请求得到响应的时间;
请求平均响应时间:表示系统中用户请求的平均响应时间;
请求最大响应时间:表示系统中最大的用户请求响应时间;
下面结合附图对本发明进一步作详细的说明。
如图1所示,本发明基于用户请求响应时间的副本创建方法包括以下步骤:
(1)将分布式存储环境中的待测数据块复制n个副本,将n个副本分别分布在分布式存储环境中的n个存储节点上,每个副本的大小为Sb,并将这n个存储节点的信息存储在元数据服务器上;具体而言,存储节点的信息包括节点IP地址、网络带宽、磁盘利用率等,Sb的取值范围是10Mb到120Mb,n是大于等于3的正整数;
(2)获取n个存储节点的节点网络传输能力(NTC1,NTC2,…,NTCn).和节点并发访问数(Num1,Num2,…,Numn);具体而言,节点网络传输能力即为分布式存储环境中的网络带宽,节点并发访问数即为该节点所接收到的用户请求的数量;
(3)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb获取n个存储节点的相关特征值;具体而言,特征值包括每个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn),以及分布式存储环境的请求平均响应时间MSRTaverage和请求最大响应时间MSRTMAX
(4)根据n个存储节点的相关特征值,对待测数据块进行副本创建过程。
如图2所示,本发明的步骤(3)包括如下子步骤:
(3-1)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb并采用以下公式获得n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn):
MSRT i = s b NTC i &times; Num i
其中1<=i<=n;
(3-2)根据n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn)并采用以下公式计算最大请求响应时间MSRTMAX和平均请求响应时间MSRTaverage
MSRT MAX = max ( MSRT 1 , MSRT 2 , . . . , MSRT n ) MSRT average = 1 n &Sigma; i = 1 n MSRT i .
如图3所示,步骤(4)包括以下子步骤:
(4-1)判断平均请求响应时间MSRTaverage是否大于一阈值,如果是则进入步骤(4-2),否则进入步骤(4-5);在本实施方式中,阈值的取值范围是3秒到10秒;
(4-2)从分布式存储环境中选择除上述n个节点以外的一个新节点;
(4-3)将待测数据块复制到该新节点上,并将该节点的信息保存到元数据服务器上;
(4-4)对n个节点和新节点执行负载均衡;
(4-5)判断最大请求响应时间MSRTMAX是否大于步骤(4-1)中的阈值,如果是则进入步骤(4-6),否则返回步骤(2);
(4-6)对n个节点执行负载均衡操作。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于用户请求响应时间的副本创建方法,其特征在于,包括以下步骤:
(1)将分布式存储环境中的待测数据块复制n个副本,将n个副本分别分布在分布式存储环境中的n个存储节点上,每个副本的大小为Sb,并将这n个存储节点的信息存储在元数据服务器上;
(2)获取n个存储节点的节点网络传输能力(NTC1,NTC2,…,NTCn).和节点并发访问数(Num1,Num2,…,Numn);
(3)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb获取n个存储节点的相关特征值;
(4)根据n个存储节点的相关特征值,对待测数据块进行副本创建过程。
2.根据权利要求1所述的副本创建方法,其特征在于,存储节点的信息包括节点IP地址、网络带宽、磁盘利用率。
3.根据权利要求1所述的副本创建方法,其特征在于,副本大小Sb的取值范围是10Mb到120Mb,n是大于等于3的正整数。
4.根据权利要求1所述的副本创建方法,其特征在于,特征值包括每个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn),以及分布式存储环境的请求平均响应时间MSRTaverage和请求最大响应时间MSRTMAX
5.根据权利要求4所述的副本创建方法,其特征在于,步骤(3)包括如下子步骤:
(3-1)根据n个节点的节点网络传输能力(NTC1,NTC2,…,NTCn)、节点并发访问数(Num1,Num2,…,Numn)和副本大小Sb并采用以下公式获得n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn):
MSRT i = s b NTC i &times; Num i
其中1<=i<=n;
(3-2)根据n个存储节点的请求响应时间(MSRT1,MSRT2,…,MSRTn)并采用以下公式计算最大请求响应时间MSRTMAX和平均请求响应时间MSRTaverage
MSRT MAX = max ( MSRT 1 , MSRT 2 , . . . , MSRT n ) MSRT average = 1 n &Sigma; i = 1 n MSRT i .
6.根据权利要求5所述的副本创建方法,其特征在于,步骤(4)包括如下子步骤:
(4-1)判断平均请求响应时间MSRTaverage是否大于一阈值,如果是则进入步骤(4-2),否则进入步骤(4-5);
(4-2)从分布式存储环境中选择除上述n个节点以外的一个新节点;
(4-3)将待测数据块复制到该新节点上,并将该节点的信息保存到元数据服务器上;
(4-4)对n个节点和新节点执行负载均衡;
(4-5)判断最大请求响应时间MSRTMAX是否大于步骤(4-1)中的阈值,如果是则进入步骤(4-6),否则返回步骤(2);
(4-6)对n个节点执行负载均衡操作。
7.根据权利要求6所述的副本创建方法,其特征在于,阈值的取值范围是3秒到10秒。
CN201210589460.3A 2012-12-29 2012-12-29 一种基于用户请求响应时间的副本创建方法 Expired - Fee Related CN103095812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210589460.3A CN103095812B (zh) 2012-12-29 2012-12-29 一种基于用户请求响应时间的副本创建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210589460.3A CN103095812B (zh) 2012-12-29 2012-12-29 一种基于用户请求响应时间的副本创建方法

Publications (2)

Publication Number Publication Date
CN103095812A true CN103095812A (zh) 2013-05-08
CN103095812B CN103095812B (zh) 2016-04-13

Family

ID=48207935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210589460.3A Expired - Fee Related CN103095812B (zh) 2012-12-29 2012-12-29 一种基于用户请求响应时间的副本创建方法

Country Status (1)

Country Link
CN (1) CN103095812B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103731498A (zh) * 2013-12-31 2014-04-16 浙江鸿程计算机系统有限公司 一种基于副本选择的大数据实时查询系统负载均衡方法
CN104113590A (zh) * 2014-06-30 2014-10-22 南京邮电大学 一种基于副本响应时间预测的副本选择方法
CN107888634A (zh) * 2016-09-29 2018-04-06 北京金山云网络技术有限公司 一种分布式存储系统的数据请求方法及装置
CN108009260A (zh) * 2017-12-11 2018-05-08 西安交通大学 一种大数据存储下结合节点负载和距离的副本放置方法
CN110807039A (zh) * 2019-10-29 2020-02-18 深圳供电局有限公司 一种云计算环境下数据一致性维护系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187931A (zh) * 2007-12-12 2008-05-28 浙江大学 分布式文件系统多文件副本的管理方法
CN101753625A (zh) * 2009-12-28 2010-06-23 北京理工大学 对等网络环境下副本服务的部署及副本创建方法
CN101751309A (zh) * 2009-12-28 2010-06-23 北京理工大学 数据网格中一种优化的副本分布方法
EP2202945A1 (en) * 2008-12-26 2010-06-30 Huawei Technologies Co., Ltd. Distributed network construction and storage method, apparatus, and system
CN101800768B (zh) * 2010-01-19 2012-11-28 南京邮电大学 一种基于存储联盟子集划分的网格数据副本生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187931A (zh) * 2007-12-12 2008-05-28 浙江大学 分布式文件系统多文件副本的管理方法
EP2202945A1 (en) * 2008-12-26 2010-06-30 Huawei Technologies Co., Ltd. Distributed network construction and storage method, apparatus, and system
CN101753625A (zh) * 2009-12-28 2010-06-23 北京理工大学 对等网络环境下副本服务的部署及副本创建方法
CN101751309A (zh) * 2009-12-28 2010-06-23 北京理工大学 数据网格中一种优化的副本分布方法
CN101800768B (zh) * 2010-01-19 2012-11-28 南京邮电大学 一种基于存储联盟子集划分的网格数据副本生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾永洁等: "存储虚拟化系统的元数据副本一致性管理模型", 《计算机工程与科学》, vol. 26, no. 9, 30 September 2015 (2015-09-30), pages 86 - 88 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103731498A (zh) * 2013-12-31 2014-04-16 浙江鸿程计算机系统有限公司 一种基于副本选择的大数据实时查询系统负载均衡方法
CN103731498B (zh) * 2013-12-31 2017-01-25 浙江鸿程计算机系统有限公司 一种基于副本选择的大数据实时查询系统负载均衡方法
CN104113590A (zh) * 2014-06-30 2014-10-22 南京邮电大学 一种基于副本响应时间预测的副本选择方法
CN104113590B (zh) * 2014-06-30 2017-04-19 南京邮电大学 一种基于副本响应时间预测的副本选择方法
CN107888634A (zh) * 2016-09-29 2018-04-06 北京金山云网络技术有限公司 一种分布式存储系统的数据请求方法及装置
CN107888634B (zh) * 2016-09-29 2021-05-28 北京金山云网络技术有限公司 一种分布式存储系统的数据请求方法及装置
CN108009260A (zh) * 2017-12-11 2018-05-08 西安交通大学 一种大数据存储下结合节点负载和距离的副本放置方法
CN108009260B (zh) * 2017-12-11 2020-10-27 西安交通大学 一种大数据存储下结合节点负载和距离的副本放置方法
CN110807039A (zh) * 2019-10-29 2020-02-18 深圳供电局有限公司 一种云计算环境下数据一致性维护系统及方法

Also Published As

Publication number Publication date
CN103095812B (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN103425756B (zh) 一种hdfs中数据块的副本管理策略
CN103139302B (zh) 考虑负载均衡的实时副本调度方法
CN105187464B (zh) 一种分布式存储系统中的数据同步方法、装置及系统
CN102035697B (zh) 一种文件系统的并发连接数性能测试系统和方法
CN111427844B (zh) 一种面向文件分级存储的数据迁移系统及方法
CN103095812B (zh) 一种基于用户请求响应时间的副本创建方法
CN103530388A (zh) 一种云存储系统中提升性能的数据处理方法
Qu et al. A dynamic replica strategy based on Markov model for hadoop distributed file system (HDFS)
CN104023088A (zh) 一种应用于分布式文件系统的存储服务器选择方法
Ye et al. A novel blocks placement strategy for Hadoop
CN103067297A (zh) 一种基于资源消耗预测的动态负载均衡方法及装置
CN104504147A (zh) 一种数据库集群的资源协调方法、装置及系统
CN105915626B (zh) 一种面向云存储的数据副本初始放置方法
EP2534569A2 (en) System and method for managing replicas of objects in a distributed storage system
CN105975345A (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN101800768B (zh) 一种基于存储联盟子集划分的网格数据副本生成方法
Mealha et al. Data replication on the cloud/edge
Zhao et al. Dynamic replica creation strategy based on file heat and node load in hybrid cloud
Selvi et al. Popularity (hit rate) based replica creation for enhancing the availability in cloud storage
CN108614738A (zh) 一种面向交互式Spark应用的数据动态放置方法
CN107566341A (zh) 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统
Wang et al. Optimal routing and bandwidth allocation for multiple inter-datacenter bulk data transfers
Venkataramanachary et al. Storage and rack sensitive replica placement algorithm for distributed platform with data as files
Mengxing et al. A strategy of dynamic replica creation in cloud storage
CN113656370A (zh) 电力量测系统数据处理方法、装置和计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160413

Termination date: 20211229

CF01 Termination of patent right due to non-payment of annual fee