CN103095812A

CN103095812A - 一种基于用户请求响应时间的副本创建方法

Info

Publication number: CN103095812A
Application number: CN2012105894603A
Authority: CN
Inventors: 金海�; 邵志远; 柏小虎
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2012-12-29
Filing date: 2012-12-29
Publication date: 2013-05-08
Anticipated expiration: 2032-12-29
Also published as: CN103095812B

Abstract

本发明公开了一种基于用户请求响应时间的副本创建方法，包括：将分布式存储环境中的待测数据块复制n个副本，将n个副本分别分布在分布式存储环境中的n个存储节点上，每个副本的大小为S_b，并将这n个存储节点的信息存储在元数据服务器上，获取n个存储节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）.和节点并发访问数（Num₁，Num₂，…，Num_n），根据n个节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）、节点并发访问数（Num₁，Num₂，…，Num_n）和副本大小S_b获取n个存储节点的相关特征值，根据n个存储节点的相关特征值，对待测数据块进行副本创建过程。本发明在恰当的时机为热点数据创建新的副本，从而降低用户访问的响应时间，并提高整个系统的性能。

Description

一种基于用户请求响应时间的副本创建方法

技术领域

本发明属于分布式存储中的副本管理技术领域，更具体地，涉及一种基于用户请求响应时间的副本创建方法。

背景技术

在现代科学研究和应用领域中，大量的数据是重要的资源，如高能物理和粒子物理、生物医学研究、航空航天、数字地球、大型武器模拟、大型数据库和数据仓库等的应用。其数据量将达到TB至PB的级别。同时,地理上广泛分布的科研工作者和用户都希望能访问和分析这些庞大的数据。为了解决上述应用面临的问题，分布式存储应运而生。

分布式存储为各种应用提供了一个高性能、大容量、高速传输的并行分布广域计算平台。它是对广域范围内大规模的数据集进行分布式管理和分析及使用的一个综合的体系结构,实现网格环境中安全、可靠和有效的数据传输以及访问、复制等操作,并提供到不同存储系统的统一接口，较好地解决了上述问题，从而使得数据密集型的高性能计算和大量的共享数据密集型的事务处理及科学研究成为可能。

数据副本（Data Replica）机制是分布式存储领域的一个研究热点，副本机制通过在不同地点存放数据的多个副本可以降低远程访问该数据的网络延迟及带宽消耗，还可以提高网络的负载均衡，同时能够提高数据的安全性和可靠性以及系统的容错性等。良好的数据副本管理策略是提高数据网格服务质量的重要方面。

作为副本管理策略的重要组成部分，目前的副本创建机制都是依据用户访问频率来判断“热点数据”。通过记录某个时间段（Time interval）内的用户对该文件的访问次数，如果超过了某个阈值，就认为该文件成为“热点数据”，为该文件创建新的副本。然而，目前的这种副本创建机制存在两个很明显的问题：

（1）并不能在最恰当的时机为“热点数据”创建新的副本。目前的这种基于访问记录的副本创建方法，副本的创建一般发生在时间段的结尾，而用户请求在一个时间段内的分布是不均匀的，目前的副本创建策略并不能在用户并发请求最高的时刻，做出响应；

（2）大大增加用户请求的响应时间。目前的这种基于访问记录的副本创建方法，会导致大量的用户请求处于等待状态，大大增加了用户请求的响应时间，降低了整个系统的性能。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于用户请求响应时间的副本创建方法，其综合考虑了系统并发数和用户响应时间，并在恰当的时机为热点数据创建新的副本，从而降低用户访问的响应时间，并提高整个系统的性能。

为实现上述目的，本发明提供了一种基于用户请求响应时间的副本创建方法，包括以下步骤：

（1）将分布式存储环境中的待测数据块复制n个副本，将n个副本分别分布在分布式存储环境中的n个存储节点上，每个副本的大小为S_b，并将这n个存储节点的信息存储在元数据服务器上；

（2）获取n个存储节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）.和节点并发访问数（Num₁，Num₂，…，Num_n）；

（3）根据n个节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）、节点并发访问数（Num₁，Num₂，…，Num_n）和副本大小S_b获取n个存储节点的相关特征值；

（4）根据n个存储节点的相关特征值，对待测数据块进行副本创建过程。

存储节点的信息包括节点IP地址、网络带宽、磁盘利用率。

副本大小S_b的取值范围是10Mb到120Mb，n是大于等于3的正整数。

特征值包括每个存储节点的请求响应时间（MSRT₁，MSRT₂，…，MSRT_n），以及分布式存储环境的请求平均响应时间MSRT_average和请求最大响应时间MSRT_MAX。

步骤（3）包括如下子步骤：

（3-1）根据n个节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）、节点并发访问数（Num₁，Num₂，…，Num_n）和副本大小S_b并采用以下公式获得n个存储节点的请求响应时间（MSRT₁，MSRT₂，…，MSRT_n）：

{MSRT}_{i} = \frac{s_{b}}{{NTC}_{i}} \times {Num}_{i}

其中1<=i<=n；

（3-2）根据n个存储节点的请求响应时间（MSRT₁，MSRT₂，…，MSRT_n）并采用以下公式计算最大请求响应时间MSRT_MAX和平均请求响应时间MSRT_average：

\{\begin{matrix} {MSRT}_{MAX} = \max ({MSRT}_{1}, {MSRT}_{2}, . . ., {MSRT}_{n}) \\ {MSRT}_{average} = \frac{1}{n} Σ_{i = 1}^{n} {MSRT}_{i} \end{matrix} .

步骤（4）包括如下子步骤：

（4-1）判断平均请求响应时间MSRT_average是否大于一阈值，如果是则进入步骤（4-2），否则进入步骤（4-5）；

（4-2）从分布式存储环境中选择除上述n个节点以外的一个新节点；

（4-3）将待测数据块复制到该新节点上，并将该节点的信息保存到元数据服务器上；

（4-4）对n个节点和新节点执行负载均衡；

（4-5）判断最大请求响应时间MSRT_MAX是否大于步骤（4-1）中的阈值，如果是则进入步骤（4-6），否则返回步骤（2）；

（4-6）对n个节点执行负载均衡操作。

阈值的取值范围是3秒到10秒。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下的有益效果：

(1)高可靠性：

由于采用了步骤（1）和步骤（4-2），分布式存储系统中至少存储了待测数据块的n个副本，因而提高了待测数据块的可靠性。另外，本发明基于分布式平台实现副本管理系统，管理模块和技术模块可以部署在本地或远程的服务器上，从而缓解了由于使用单一服务器所造成的资源竞争和操作延时。

(2)可扩展性强：

由于采用了步骤（2）和步骤（3-1）以及步骤（3-2），对于新加入的存储节点，系统只需向系统注册新的节点元数据，系统的其它配置无需做任何更改，节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）、节点并发访问数（Num₁，Num₂，…，Num_n）和副本大小S_b等相关的特征值的计算方法不变，较为简便地实现系统的扩展。

(3)优化用户请求响应时间：

由于采用了步骤（3-2）和步骤（4），本发明通过实施监控用户请求的平均响应时间，可以在用户并发请求最高的时候，为“热点数据”创建新的副本，从而有效的降低了用户请求平均响应时间，并且提高了整个系统的性能。

附图说明

图1为本发明基于用户请求响应时间的副本创建方法流程图。

图2为本发明的步骤（3）的细化流程图。

图3为本发明的步骤（4）的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先对本发明中的技术术语进行解释和定义：

节点网络传输能力：英文为Network Transmission Capability，简称NTC；用于表示该节点的网络传输能力，具体而言，指的是该节点的网络带宽；

节点并发访问数：用于表示某个节点当前处理的用户并发访问；

请求响应时间：表示用户请求得到响应的时间；

请求平均响应时间：表示系统中用户请求的平均响应时间；

请求最大响应时间：表示系统中最大的用户请求响应时间；

下面结合附图对本发明进一步作详细的说明。

如图1所示，本发明基于用户请求响应时间的副本创建方法包括以下步骤：

（1）将分布式存储环境中的待测数据块复制n个副本，将n个副本分别分布在分布式存储环境中的n个存储节点上，每个副本的大小为S_b，并将这n个存储节点的信息存储在元数据服务器上；具体而言，存储节点的信息包括节点IP地址、网络带宽、磁盘利用率等，S_b的取值范围是10Mb到120Mb，n是大于等于3的正整数；

（2）获取n个存储节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）.和节点并发访问数（Num₁，Num₂，…，Num_n）；具体而言，节点网络传输能力即为分布式存储环境中的网络带宽，节点并发访问数即为该节点所接收到的用户请求的数量；

（3）根据n个节点的节点网络传输能力（NTC₁，NTC₂，…，NTC_n）、节点并发访问数（Num₁，Num₂，…，Num_n）和副本大小S_b获取n个存储节点的相关特征值；具体而言，特征值包括每个存储节点的请求响应时间（MSRT₁，MSRT₂，…，MSRT_n），以及分布式存储环境的请求平均响应时间MSRT_average和请求最大响应时间MSRT_MAX；

如图2所示，本发明的步骤（3）包括如下子步骤：

{MSRT}_{i} = \frac{s_{b}}{{NTC}_{i}} \times {Num}_{i}

其中1<=i<=n；

\{\begin{matrix} {MSRT}_{MAX} = \max ({MSRT}_{1}, {MSRT}_{2}, . . ., {MSRT}_{n}) \\ {MSRT}_{average} = \frac{1}{n} Σ_{i = 1}^{n} {MSRT}_{i} \end{matrix} .

如图3所示，步骤（4）包括以下子步骤：

（4-1）判断平均请求响应时间MSRT_average是否大于一阈值，如果是则进入步骤（4-2），否则进入步骤（4-5）；在本实施方式中，阈值的取值范围是3秒到10秒；

（4-4）对n个节点和新节点执行负载均衡；

（4-6）对n个节点执行负载均衡操作。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户请求响应时间的副本创建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的副本创建方法，其特征在于，存储节点的信息包括节点IP地址、网络带宽、磁盘利用率。

3.根据权利要求1所述的副本创建方法，其特征在于，副本大小S_b的取值范围是10Mb到120Mb，n是大于等于3的正整数。

4.根据权利要求1所述的副本创建方法，其特征在于，特征值包括每个存储节点的请求响应时间（MSRT₁，MSRT₂，…，MSRT_n），以及分布式存储环境的请求平均响应时间MSRT_average和请求最大响应时间MSRT_MAX。

5.根据权利要求4所述的副本创建方法，其特征在于，步骤（3）包括如下子步骤：

{MSRT}_{i} = \frac{s_{b}}{{NTC}_{i}} \times {Num}_{i}

其中1<=i<=n；

\{\begin{matrix} {MSRT}_{MAX} = \max ({MSRT}_{1}, {MSRT}_{2}, . . ., {MSRT}_{n}) \\ {MSRT}_{average} = \frac{1}{n} Σ_{i = 1}^{n} {MSRT}_{i} \end{matrix} .

6.根据权利要求5所述的副本创建方法，其特征在于，步骤（4）包括如下子步骤：

（4-4）对n个节点和新节点执行负载均衡；

（4-6）对n个节点执行负载均衡操作。

7.根据权利要求6所述的副本创建方法，其特征在于，阈值的取值范围是3秒到10秒。