CN105915626B - 一种面向云存储的数据副本初始放置方法 - Google Patents

一种面向云存储的数据副本初始放置方法 Download PDF

Info

Publication number
CN105915626B
CN105915626B CN201610365538.1A CN201610365538A CN105915626B CN 105915626 B CN105915626 B CN 105915626B CN 201610365538 A CN201610365538 A CN 201610365538A CN 105915626 B CN105915626 B CN 105915626B
Authority
CN
China
Prior art keywords
rack
back end
local data
data node
performance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610365538.1A
Other languages
English (en)
Other versions
CN105915626A (zh
Inventor
付雄
赵玉杰
邓松
程春玲
王俊昌
王秀翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huizhi Mutual Entertainment Network Technology Co.,Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610365538.1A priority Critical patent/CN105915626B/zh
Publication of CN105915626A publication Critical patent/CN105915626A/zh
Application granted granted Critical
Publication of CN105915626B publication Critical patent/CN105915626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向云存储的数据副本初始放置方法,基于传统数据副本放置方法做出改进,利用统计学上的方法计算出数据节点的性能值,基于数据节点的性能值来选择放置数据副本的数据节点,并且分别考虑数据副本的放置,既提高了数据存储与读取可靠性,又保证了系统的性能。

Description

一种面向云存储的数据副本初始放置方法
技术领域
本发明涉及一种面向云存储的数据副本初始放置方法,属于云存储和数据副本放置技术领域。
背景技术
随着信息技术的发展,云存储是在云计算概念上延伸和发展出来的一个新概念,云存储是一种新兴的网络存储技术,它是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,云存储是一个以数据存储和管理为核心的云计算系统。
HDFS:(Hadoop Distributed File System)分布式文件系统,是一种云存储的方法。它提供高吞吐量的应用程序数据访问,非常适合大规模数据集上的应用,对外部客户机而言,HDFS就像一个传统的分级文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的物理机上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS架构基于一组特定的节点构建的,包括一个NameNode,在HDFS内部提供元数据服务,多个DataNode,它为HDFS提供存储块。
存储在HDFS中的文件被分成块,然后将这些块复制到多个数据节点中,块的大小和复制的块数量在创建文件时由客户机决定。文件系统不可避免的会产生故障和错误,文件系统采用副本技术不会导致无法访问的情况,并且机架故障的几率远小于节点故障,从而提高了系统的可靠性。传统的副本放置方法是:一般的副本系数是3,将第一个副本放在本地节点,将第二个副本放到本地机架上的另外一个节点,而将第三个副本放到不同机架上随机选择的数据节点。HDFS系统中有个叫均衡器的守护进程,它会将数据块从负载较高的节点移动到负载较低的节点上,从而达到数据块重新分配的目的,最终使得整个集群分布均衡,但是传统的方法对于集群数据块均衡的调节具有滞后性,并且均衡器的调节和数据块的移动都需要一定的资源消耗,会造成整个系统性能的下降。
发明内容
本发明所要解决的技术问题是提供一种综合考虑系统性能影响因素,能够有效提高数据读取可靠性,以及保证系统性能的面向云存储的数据副本初始放置方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种面向云存储的数据副本初始放置方法,用于针对本地数据节点上对应任意一个数据块的至少两个数据副本实现云存储,包括如下方法:
步骤001.针对本地数据节点上对应一个数据块的各个数据副本,随机选择一个数据副本存储于本地数据节点上,然后进入步骤002;
步骤002.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载、当前网络带宽、当前平均服务时间和当前访问故障概率,并且根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设、相加之和为一的各个权重值,获得该各个数据节点的当前性能值,并进入步骤003;
步骤003.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,获得其中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值,再判断该预测性能值是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤004;否则进入步骤005;
步骤004.判断本地数据节点中是否存在未分配存储的数据副本,是则进入步骤005;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束;
步骤005.获得以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,分别针对该各个机架,根据步骤002中的方法获得机架中各个数据节点的当前性能值,获得该机架中所有数据节点的平均当前性能值,作为该机架的平均当前性能值,进而分别获得该各个机架的平均当前性能值,然后进入步骤006;
步骤006.针对以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,获得最大平均当前性能值所对应的机架,作为待选择机架,然后进入步骤007;
步骤007.获得待选择机架中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值,再判断该预测性能值是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤010;否则进入步骤008;
步骤008.获得以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,根据步骤005中的方法,分别获得该各个机架的平均当前性能值,然后进入步骤009;其中,A大于1;
步骤009.针对以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,获得最大平均当前性能值所对应的机架,更新作为待选择机架,再用A·R的值针对R进行更新,并返回步骤007;
步骤010.判断本地数据节点中是否存在未分配存储的数据副本,是则返回步骤008;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束。
作为本发明的一种优选技术方案:所述步骤002具体包括如下:
针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载Load、当前网络带宽BW、当前平均服务时间ST和当前访问故障概率FP,并且根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设的权重值α、权重值β、权重值γ、权重值δ,按如下公式,获得该各个数据节点的当前性能值P,
其中,α+β+γ+δ=1。
作为本发明的一种优选技术方案:所述步骤002中,数据节点的当前磁盘负载Load通过如下公式获得,
Load=W1*IO+W2*SIZE
其中,IO表示数据节点的当前磁盘I/O负载,SIZE表示数据节点的当前磁盘空间负载,W1和W2分别表示针对磁盘I/O负载和磁盘空间负载预设的权重值,且W1+W2=1。
作为本发明的一种优选技术方案:所述步骤002中,数据节点的当前平均服务时间ST通过如下公式获得,
其中,N表示数据节点对应统计周期内的任务个数,STn表示数据节点对应统计周期内第n个的服务时间。
作为本发明的一种优选技术方案:所述步骤002中,数据节点的当前访问故障概率FP通过如下公式获得,
其中,unsuccess表示数据节点访问未成功的次数,success表示数据节点访问成功的次数。
作为本发明的一种优选技术方案:所述步骤003和步骤007中,通过如下方法,预测获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
根据云计算系统中的全局日志文件,获得该数据节点上当前已存储数据块的个数L,再结合该数据节点的当前性能值P,通过如下公式:
获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
作为本发明的一种优选技术方案:所述步骤006中,以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架中,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架;
以及所述步骤009中,以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架。
本发明所述一种面向云存储的数据副本初始放置方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明所设计面向云存储的数据副本初始放置方法,基于传统数据副本放置方法做出改进,利用统计学上的方法计算出数据节点的性能值,基于数据节点的性能值来选择放置数据副本的数据节点,并且分别考虑数据副本的放置,既提高了数据存储与读取可靠性,又保证了系统的性能。
附图说明
图1是本发明设计的面向云存储的数据副本初始放置方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明所设计一种面向云存储的数据副本初始放置方法在实际应用过程当中,用于针对本地数据节点上对应任意一个数据块的至少两个数据副本实现云存储,具体包括如下方法:
步骤001.针对本地数据节点上对应一个数据块的各个数据副本,随机选择一个数据副本存储于本地数据节点上,然后进入步骤002。
步骤002.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载、当前网络带宽、当前平均服务时间和当前访问故障概率,并且根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设、相加之和为一的各个权重值,获得该各个数据节点的当前性能值,并进入步骤003。
其中,步骤002具体包括如下:
针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载Load、当前网络带宽BW、当前平均服务时间ST和当前访问故障概率FP,其中,数据节点的当前磁盘负载Load通过如下公式获得,
Load=W1*IO+W2*SIZE
其中,IO表示数据节点的当前磁盘I/O负载,SIZE表示数据节点的当前磁盘空间负载,W1和W2分别表示针对磁盘I/O负载和磁盘空间负载预设的权重值,且W1+W2=1。
数据节点的当前平均服务时间ST通过如下公式获得,
其中,N表示数据节点对应统计周期内的任务个数,STn表示数据节点对应统计周期内第n个的服务时间。
数据节点的当前访问故障概率FP通过如下公式获得,
其中,unsuccess表示数据节点访问未成功的次数,success表示数据节点访问成功的次数。
然后根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设的权重值α、权重值β、权重值γ、权重值δ,按如下公式,获得该各个数据节点的当前性能值P,
其中,α+β+γ+δ=1。
步骤003.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,获得其中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值Pnew,再判断该预测性能值Pnew是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤004;否则进入步骤005。
上述步骤003中,根据云计算系统中的全局日志文件,获得该数据节点上当前已存储数据块的个数L,再结合该数据节点的当前性能值P,通过如下公式:
获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
步骤004.判断本地数据节点中是否存在未分配存储的数据副本,是则进入步骤005;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束。
步骤005.获得以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,分别针对该各个机架,根据步骤002中的方法获得机架中各个数据节点的当前性能值,获得该机架中所有数据节点的平均当前性能值,作为该机架的平均当前性能值,进而分别获得该各个机架的平均当前性能值,然后进入步骤006。
步骤006.针对以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,获得最大平均当前性能值所对应的机架,作为待选择机架,其中,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架,然后进入步骤007。
步骤007.获得待选择机架中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值Pnew,再判断该预测性能值Pnew是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤010;否则进入步骤008。
上述步骤007中,根据云计算系统中的全局日志文件,获得该数据节点上当前已存储数据块的个数L,再结合该数据节点的当前性能值P,通过如下公式:
获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
步骤008.获得以本地数据节点所在机架为圆心,内径为R、外径为的圆圈范围内的各个机架,根据步骤005中的方法,分别获得该各个机架的平均当前性能值,然后进入步骤009。
步骤009.针对以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,获得最大平均当前性能值所对应的机架,更新作为待选择机架,再用A·R的值针对R进行更新,其中,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架,再用A·R的值针对R进行更新,并返回步骤007。
步骤010.判断本地数据节点中是否存在未分配存储的数据副本,是则返回步骤008;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束。
本发明所设计面向云存储的数据副本初始放置方法,基于传统数据副本放置方法做出改进,利用统计学上的方法计算出数据节点的性能值,基于数据节点的性能值来选择放置数据副本的数据节点,并且分别考虑数据副本的放置,既提高了数据存储与读取可靠性,又保证了系统的性能。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (7)

1.一种面向云存储的数据副本初始放置方法,用于针对本地数据节点上对应任意一个数据块的至少两个数据副本实现云存储,其特征在于,包括如下方法:
步骤001.针对本地数据节点上对应一个数据块的各个数据副本,随机选择一个数据副本存储于本地数据节点上,然后进入步骤002;
步骤002.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载、当前网络带宽、当前平均服务时间和当前访问故障概率,并且根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设、相加之和为一的各个权重值,获得该各个数据节点的当前性能值,并进入步骤003;
步骤003.针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,获得其中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值,再判断该预测性能值是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤004;否则进入步骤005;
步骤004.判断本地数据节点中是否存在未分配存储的数据副本,是则进入步骤005;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束;
步骤005.获得以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,分别针对该各个机架,根据步骤002中的方法获得机架中各个数据节点的当前性能值,获得该机架中所有数据节点的平均当前性能值,作为该机架的平均当前性能值,进而分别获得该各个机架的平均当前性能值,然后进入步骤006;
步骤006.针对以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架,获得最大平均当前性能值所对应的机架,作为待选择机架,然后进入步骤007;
步骤007.获得待选择机架中最大当前性能值所对应的一个数据节点,并预测获得若该数据节点增加存储一个数据副本后的预测性能值,再判断该预测性能值是否大于预设数据节点性能值下限,是则针对本地数据节点中未分配存储的各个数据副本,随机选择一个数据副本存储于该预测性能值所对应的数据节点上,并进入步骤010;否则进入步骤008;
步骤008.获得以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,根据步骤005中的方法,分别获得该各个机架的平均当前性能值,然后进入步骤009;其中,A大于1;
步骤009.针对以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,获得最大平均当前性能值所对应的机架,更新作为待选择机架,再用A·R的值针对R进行更新,并返回步骤007;
步骤010.判断本地数据节点中是否存在未分配存储的数据副本,是则返回步骤008;否则针对本地数据节点上该数据块的各个数据副本的云存储方法结束。
2.根据权利要求1所述一种面向云存储的数据副本初始放置方法,其特征在于:所述步骤002具体包括如下:
针对本地数据节点所在机架中、除本地数据节点之外的其余各个数据节点,分别获得该各个数据节点的当前磁盘负载Load、当前网络带宽BW、当前平均服务时间ST和当前访问故障概率FP,并且根据分别针对磁盘负载、网络带宽、平均服务时间和访问故障概率四种属性预设的权重值α、权重值β、权重值γ、权重值δ,按如下公式,获得该各个数据节点的当前性能值P,
其中,α+β+γ+δ=1。
3.根据权利要求1或2所述一种面向云存储的数据副本初始放置方法,其特征在于:所述步骤002中,数据节点的当前磁盘负载Load通过如下公式获得,
Load=W1*IO+W2*SIZE
其中,IO表示数据节点的当前磁盘I/O负载,SIZE表示数据节点的当前磁盘空间负载,W1和W2分别表示针对磁盘I/O负载和磁盘空间负载预设的权重值,且W1+W2=1。
4.根据权利要求1或2所述一种面向云存储的数据副本初始放置方法,其特征在于:所述步骤002中,数据节点的当前平均服务时间ST通过如下公式获得,
其中,N表示数据节点对应统计周期内的任务个数,STn表示数据节点对应统计周期内第n个的服务时间。
5.根据权利要求1或2所述一种面向云存储的数据副本初始放置方法,其特征在于:所述步骤002中,数据节点的当前访问故障概率FP通过如下公式获得,
其中,unsuccess表示数据节点访问未成功的次数,success表示数据节点访问成功的次数。
6.根据权利要求1所述一种面向云存储的数据副本初始放置方法,其特征在于,所述步骤003和步骤007中,通过如下方法,预测获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
根据云计算系统中的全局日志文件,获得该数据节点上当前已存储数据块的个数L,再结合该数据节点的当前性能值P,通过如下公式:
获得若该数据节点增加存储一个数据副本后的预测性能值Pnew
7.根据权利要求1所述一种面向云存储的数据副本初始放置方法,其特征在于,所述步骤006中,以本地数据节点所在机架为圆心、预设半径R范围内,除本地数据节点所在机架之外的其余各个机架中,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架;
以及所述步骤009中,以本地数据节点所在机架为圆心,内径为R、外径为A·R的圆圈范围内的各个机架,若最大平均当前性能值所对应机架的个数大于等于2,则根据该各个机架的平均当前性能值,分别获得该各个机架的平均当前性能值标准平方差,针对最大平均当前性能值所对应的各个机架,选择最大平均当前性能值标准平方差所对应的机架,作为待选择机架。
CN201610365538.1A 2016-05-27 2016-05-27 一种面向云存储的数据副本初始放置方法 Active CN105915626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610365538.1A CN105915626B (zh) 2016-05-27 2016-05-27 一种面向云存储的数据副本初始放置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610365538.1A CN105915626B (zh) 2016-05-27 2016-05-27 一种面向云存储的数据副本初始放置方法

Publications (2)

Publication Number Publication Date
CN105915626A CN105915626A (zh) 2016-08-31
CN105915626B true CN105915626B (zh) 2019-02-26

Family

ID=56742423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610365538.1A Active CN105915626B (zh) 2016-05-27 2016-05-27 一种面向云存储的数据副本初始放置方法

Country Status (1)

Country Link
CN (1) CN105915626B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790578A (zh) * 2016-12-28 2017-05-31 梁猛 基于权重因子的Hadoop HDFS数据块分布优化算法
CN108347466A (zh) * 2017-01-24 2018-07-31 全球能源互联网研究院 一种云存储系统的数据存储方法和装置
CN108200169A (zh) * 2017-12-30 2018-06-22 广东技术师范学院 一种云存储系统的副本初次放置策略控制方法
CN108418858B (zh) * 2018-01-23 2021-07-02 南京邮电大学 一种面向Geo-distributed云存储的数据副本放置方法
CN110535898B (zh) * 2018-05-25 2022-10-04 许继集团有限公司 大数据存储中副本存放、补全、节点选择方法及管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170468A (zh) * 2011-04-07 2011-08-31 江苏省电力公司 基于内容相似性的分布式储存的副本替换算法
CN104063501A (zh) * 2014-07-07 2014-09-24 电子科技大学 基于hdfs的副本平衡方法
CN104735107A (zh) * 2013-12-20 2015-06-24 中国移动通信集团公司 分布式存储系统中数据副本恢复方法及装置
CN105511801A (zh) * 2015-11-12 2016-04-20 长春理工大学 数据存储的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468138B1 (en) * 2011-12-02 2013-06-18 International Business Machines Corporation Managing redundant immutable files using deduplication in storage clouds

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170468A (zh) * 2011-04-07 2011-08-31 江苏省电力公司 基于内容相似性的分布式储存的副本替换算法
CN104735107A (zh) * 2013-12-20 2015-06-24 中国移动通信集团公司 分布式存储系统中数据副本恢复方法及装置
CN104063501A (zh) * 2014-07-07 2014-09-24 电子科技大学 基于hdfs的副本平衡方法
CN105511801A (zh) * 2015-11-12 2016-04-20 长春理工大学 数据存储的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数据网格中一种启发式副本放置算法;付雄等;《系统工程与电子技术》;20100715;第32卷(第7期);1313-1316
树型数据网格环境下副本放置算法研究;付雄等;《南京邮电大学学报(自然科学版)》;20110615;72-78

Also Published As

Publication number Publication date
CN105915626A (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN105915626B (zh) 一种面向云存储的数据副本初始放置方法
CN106502792B (zh) 一种面向不同类型负载的多租户资源优化调度方法
CN101370030B (zh) 基于内容复制的资源负载平衡方法
CN103139302B (zh) 考虑负载均衡的实时副本调度方法
CN104657459B (zh) 一种基于文件粒度的海量数据存储方法
CN103425756B (zh) 一种hdfs中数据块的副本管理策略
EP2480974B1 (en) Distributed content storage and retrieval
CN102855294B (zh) 一种智能哈希数据布局方法、集群存储系统及其方法
CN103929454B (zh) 一种云计算平台中负载均衡存储的方法和系统
CN105320773B (zh) 一种基于Hadoop平台的分布式重复数据删除系统和方法
KR101959153B1 (ko) 데이터베이스에서의 계좌와 관련된 거래 요청의 효율적인 처리를 위한 시스템
CN103473365B (zh) 一种基于hdfs的文件存储方法、装置及分布式文件系统
CN104462389B (zh) 基于分级存储的分布式文件系统实现方法
CN106161120A (zh) 动态均衡负载的分布式元数据管理方法
US10356150B1 (en) Automated repartitioning of streaming data
CN104462185B (zh) 一种基于混合结构的数字图书馆云存储系统
US9984139B1 (en) Publish session framework for datastore operation records
CN103077197A (zh) 一种数据存储方法装置
US10754735B2 (en) Distributed storage reservation for recovering distributed data
CN103631894A (zh) 一种基于hdfs的动态副本管理方法
Rajalakshmi et al. An improved dynamic data replica selection and placement in cloud
CN106534308A (zh) 一种分布式存储系统中解决数据块访问热点的方法及装置
CN105981033A (zh) 将放置策略分配给片段集合
CN107480254B (zh) 适用于分布式内存数据库的在线负载均衡方法
CN108733701A (zh) 一种应用于在线教育的查询页面缓存控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201010

Address after: Room b317-7, building 1, No.18, Fenghua Road, Yuhua Economic Development Zone, Nanjing, Jiangsu Province 210000

Patentee after: Nanjing Huizhi Mutual Entertainment Network Technology Co.,Ltd.

Address before: 210000 Jiangsu city of Nanjing province Ya Dong new Yuen Road No. 9

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An initial placement method of data copy for cloud storage

Effective date of registration: 20210806

Granted publication date: 20190226

Pledgee: Bank of Jiangsu Limited by Share Ltd. Taishan Nanjing road subbranch

Pledgor: Nanjing Huizhi Mutual Entertainment Network Technology Co.,Ltd.

Registration number: Y2021980007347

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221219

Granted publication date: 20190226

Pledgee: Bank of Jiangsu Limited by Share Ltd. Taishan Nanjing road subbranch

Pledgor: Nanjing Huizhi Mutual Entertainment Network Technology Co.,Ltd.

Registration number: Y2021980007347

PC01 Cancellation of the registration of the contract for pledge of patent right