CN102096723A

CN102096723A - 基于副本复制算法的数据查询方法

Info

Publication number: CN102096723A
Application number: CN 201110086027
Authority: CN
Inventors: 许海清; 滕爱国; 陈咏秋
Original assignee: State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd
Priority date: 2011-04-07
Filing date: 2011-04-07
Publication date: 2011-06-15

Abstract

本发明公开了一种基于副本复制算法的数据查询方法，该方法综合考虑副本价值和复制代价因素，首先计算出节点上所有文件的流行度，基于流行度确定副本价值，然后计算副本复制的代价；对于每个网络链接，取其流量平均值，采用MMSE方法预测带宽；最后选择带宽最大的链接复制以获取副本，尽可能降低副本复制代价，实现副本复制。本发明提高了平均作业时间，减少了网络带宽资源的消耗，在分布式存储领域具有重要意义。

Description

基于副本复制算法的数据查询方法

技术领域

本发明属于分布式数据存储领域，具体地说是一种基于副本复制算法的数据查询方法。

副本复制领域，可将其应用到数据云存储、数据网格存储和分布式数据存储等领域。

背景技术

在分布式数据库系统中，为了获得较高查询速度和系统可靠性，经常需要使用副本复制技术。在副本分布上，源数据一般放在数据采集站点或经常有修改操作的站点上，而副本一般放在经常查询操作的站点上。一般情况下，修改主要集中在源数据上进行，为了保持数据的一致性，多个副本的一致性修改需要通过复制进行。常见的副本复制方式有主文本更新法、移动主文本法、快照方法和对等复制等。而这些复制方法都是将数据主本复制给不同站点的副本，即各个副本的内容都是完全一样的，这种情况存在的原因是过去或现在的某些复制需求以及处理流程比较简单。

传统的复制技术在数据副本间保持单拷贝一致性，Primary Copy、Tokens等算法是其典型代表。这些算法的共同特点是禁止对处于不一致状态的数据副本的访问。由于保持数据副本单拷贝一致性的代价过大，因此这些算法只能在高速、低延迟的局域网环境中使用。

在以P2P、网格、云为代表的网络计算（Internet Computing）环境中，现有的副本复制技术只能对无状态的数据、文件资源等进行复制，而不能对包含软硬件需求、有状态的服务形式进行复制。这种技术是针对数据、文件资源等静态无变化的副本进行复制，无法解决网络计算服务副本复制中的相应问题。

发明内容

为了克服现有算法存在的缺点，使分布式存储的整体性能达到最优, 选择被复制的副本不仅是当前价值最小的, 也应该是在以后的时间内价值最小的，本发明的目的是提供一种基于副本复制算法的数据查询方法。该方法通过基于副本流行度确定副本价值，在此基础上计算副本复制代价，然后使用最小均方误差（minimum mean square error）方法预测未来可用带宽，尽可能降低副本复制的代价，实现副本复制。本发明提高了分布式存储中的文本复制的效率，减少了网络带宽资源的消耗，在分布式存储领域具有重要的意义。

本发明的目的是通过以下技术方案来实现的：

一种基于副本复制算法的数据查询方法，其特征在于该方法综合考虑副本价值和复制代价因素，首先计算出节点上所有文件的流行度，基于流行度确定副本价值，然后计算副本复制的代价；对于每个网络链接，取其流量平均值，采用MMSE方法预测带宽；最后选择带宽最大的链接复制以获取副本；具体步骤如下：

1）基于副本流行度确定副本价值

副本价值用副本流行度表示，副本流行度越大，副本价值越大；副本流行度是指副本在一段时间内总的访问次数，通过统计文件访问记录获得；

(1) 流行度计算方法如下：

设每个文件初始流行度为0，该文件每被访问一次，则流行度加1；文件资源

在节点

上的被访问次数为

，称为文件资源

在节点

上的单点流行度；若节点上无资源

，则= 0；初始流行度为0；

设

为超节点所辖域内文件资源

的总被访问频数，称为

在域内的域内流行度；

（1）

为资源在

各叶节点处单点流行度的总和，即对应域内流行度矩阵的第

列元素之和；

(2) 副本价值的计算方法：

流行度定期执行衰减过程，设和

分别表示衰减前后的文件流行度，则文件流行度利用公式

（2）

进行更新操作，其中

（3）

称为衰减函数，x表示上一次访问该副本的时间点与现在时间点之间的绝对值；将时间离散化初始时间点设为0，以后逐渐增加，λ∈（0，1）为衰减参数，通过改变λ的值调整衰减速率；

设

为价值变化函数，它反映副本的动态变化性；价值变化函数

使原先价值低的副本在经历一段时间后价值有所提高，从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值；被保留副本的价值变化情况为：

（4）

设副本价值为

，则

（5）

其中

为m 个数据副本的集合，

为上述数据副本的价值集合，

为价值收入函数，文件被引用则

值增加，为价值支出函数，文件未被引用则

值减小；

2）计算复制代价

首先定义副本复制的代价为文件大小和传输带宽的比值；

对于每个网络链接, 测量每个时间间隔D内的总流量，测量N次，分别记为f(1),…,f(N)，取平均值f _m(1),…f _m(n)

（6）

然后预测带宽，设未来 m个时间间隔内的真实网络带宽用F _m(n+1)表示，预测值用f _m(n+1)表示, f _m(n+1) 可由如下公式计算

（7）

其中

和

是参数，且使得计算出的真实网络带宽与预测网络带宽的误差均方和

最小，在网络带宽预测值f _m(n+1)大于真实值F _m(n+1)时，该链接将被复制获取副本，完成数据查询。

本发明中，在存储空间不够存储新的副本时，保留流行度大的文件，删除流行度低的文件。副本价值是副本的使用率历史信息和副本动态变化特性的反映；副本价值取决于副本的稳定性以及最近的使用次数；副本的价值高，表示该副本的使用率高或者稳定性高；则保留该副本的概率大，即该副本的使用的寿命长。对于需要存储到本地的文件，选择带宽最大的网络链接以获取文件副本。

本发明通过基于副本流行度确定副本价值，在此基础上计算副本复制代价，然后使用最小均方误差（minimum mean square error）方法预测未来可用带宽，尽可能降低副本复制的代价，实现副本复制。选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的，使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率，减少了网络带宽资源的消耗，在分布式存储领域具有重要的意义。

附图说明

图1是本发明实施方式流程图。

具体实施方式

一种本发明所述的基于副本复制算法的数据查询方法，该方法综合考虑副本价值和复制代价因素，首先计算出节点上所有文件的流行度，基于流行度确定副本价值，然后计算副本复制的代价；对于每个网络链接，取其流量平均值，采用MMSE方法预测带宽；最后选择带宽最大的链接复制以获取副本；具体步骤如下：

1、基于副本流行度确定副本价值

副本价值用副本流行度表示，副本流行度越大，副本价值越大。副本流行度是指副本在一段时间内总的访问次数，可以通过统计文件访问记录获得。当存储空间不够存储新的副本时，应该保留流行度较大的文件，删除流行度低的文件。

(3) 流行度计算方法如下：

设每个文件初始流行度为0，该文件每被访问一次，则流行度加1。文件资源

在节点

上的被访问次数为

，称

为文件资源

在节点

上的单点流行度。若节点

上无资源，则= 0。（初始流行度为0）

设

为超节点

所辖域内文件资源

的总被访问频数，称

为

在

域内的域内流行度。

（1）

为资源在各叶节点处单点流行度的总和，即对应域内流行度矩阵的第列元素之和。

(4) 副本价值的计算方法：

流行度需要定期执行衰减过程，这是因为过去较为流行的文件不应该作为副本创建对象，副本创建对象应该是未来较为流行的文件。设

和

分别表示衰减前后的文件流行度，则文件流行度可以利用公式

（2）

进行更新操作。其中

（3）

称为衰减函数，x表示上一次访问该副本的时间点与现在时间点之间的绝对值。将时间离散化初始时间点设为0，以后逐渐增加。λ∈（0，1）为衰减参数，改变λ的值可以调整衰减速率。

设

为价值变化函数，它反映副本的动态变化性。价值变化函数

使原先价值低的副本在经历一段时间后价值有所提高，从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值。被保留副本的价值变化情况可以用

（4）

设副本价值为

，则

（5）

其中

为m 个数据副本的集合，为上述数据副本的价值集合，为价值收入函数，文件被引用则

值增加，

为价值支出函数，文件未被引用则

值减小。

副本价值是副本的使用率历史信息和副本动态变化特性的反映。副本的稳定性以及最近的使用次数，对副本价值影响很大。副本的价值越高，表示该副本的使用率越高或者比较稳定。则保留该副本的概率越大，即使用的寿命越长。

2、计算复制代价

首先定义副本复制的代价为文件大小和传输带宽的比值。在分布式存储领域，对于需要存储到本地的文件，应该尽量使得代价最低。由于文件大小固定，因此应该选择带宽最大的网络链接以获取文件副本。

对于每个网络链接, 测量每个时间间隔D内的总流量。测量N次，分别记为f(1),…,f(N)。为了提高精确度，取平均值f _m(1),…f _m(n)

（6）

然后采用MMSE (minimum mean square error)方法预测带宽。设未来 m个时间间隔内的真实网络带宽用F _m(n+1)表示，预测值用f _m(n+1)表示, f _m(n+1) 可由如下公式计算

（7）

其中

和是参数，且使得计算出的真实网络带宽与预测网络带宽的误差均方和

最小。当网络带宽预测值f _m(n+1)大于真实值F _m(n+1)时，这个链接将被复制以获取副本。

本发明在实施过程中首先基于副本流行度确定副本价值，然后计算副本复制代价，最后根据副本价值和副本复制代价采用MMSE方法预测出带宽。对于一组节点，待复制文件为，则具体步骤如下：

1、根据统计文件访问记录计算节点上所有文件的流行度，并基于流行度计算副本价值。

2、将节点上所有文件按照流行度大小降序排列。

3、逐个删除流行度最低的文件，直至有足够的存储空间容纳待复制的所有文件。

4、对于每个待复制文件

，若有n(n≥1)个节点拥有该文件的副本，即存在节点到远程节点的n个网络链接，则利用MMSE方法预测每个链接的未来可用带宽。

5、当网络预测带宽值大于真实带宽值时，选择可用带宽最大的链接来复制以获取副本。

本发明选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的，使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率，减少了网络带宽资源的消耗，在分布式存储领域具有重要的意义。

Claims

1.一种基于副本复制算法的数据查询方法，其特征在于该方法综合考虑副本价值和复制代价因素，首先计算出节点上所有文件的流行度，基于流行度确定副本价值，然后计算副本复制的代价；对于每个网络链接，取其流量平均值，采用MMSE方法预测带宽；最后选择带宽最大的链接复制以获取副本；具体步骤如下：

1）基于副本流行度确定副本价值

流行度计算方法如下：

Figure 2011100860273100001DEST_PATH_IMAGE002

在节点

Figure 2011100860273100001DEST_PATH_IMAGE004

上的被访问次数为

Figure 2011100860273100001DEST_PATH_IMAGE006

，称

为文件资源在节点

上的单点流行度；若节点

上无资源

，则

= 0；初始流行度为0；

设

Figure 2011100860273100001DEST_PATH_IMAGE008

为超节点所辖域内文件资源

的总被访问频数，称

为

在域内的域内流行度；

Figure 2011100860273100001DEST_PATH_IMAGE010

（1）

为资源

Figure 2011100860273100001DEST_PATH_IMAGE012

在

各叶节点处单点流行度的总和，即对应域内流行度矩阵的第列元素之和；

副本价值的计算方法：

流行度定期执行衰减过程，设

Figure 2011100860273100001DEST_PATH_IMAGE016

和

Figure 2011100860273100001DEST_PATH_IMAGE018

分别表示衰减前后的文件流行度，则文件流行度利用公式

Figure 2011100860273100001DEST_PATH_IMAGE020

（2）

进行更新操作，其中

Figure 2011100860273100001DEST_PATH_IMAGE022

（3）

设为价值变化函数，它反映副本的动态变化性；价值变化函数

Figure 2011100860273100001DEST_PATH_IMAGE026

（4）

设副本价值为

，则

Figure 2011100860273100001DEST_PATH_IMAGE030

（5）

其中

Figure 2011100860273100001DEST_PATH_IMAGE032

为m 个数据副本的集合，

Figure 2011100860273100001DEST_PATH_IMAGE034

为上述数据副本的价值集合，

Figure 2011100860273100001DEST_PATH_IMAGE036

为价值收入函数，文件被引用则

值增加，为价值支出函数，文件未被引用则

值减小；

2）计算复制代价

首先定义副本复制的代价为文件大小和传输带宽的比值；

Figure 2011100860273100001DEST_PATH_IMAGE042

（6）

Figure 2011100860273100001DEST_PATH_IMAGE044

（7）

其中

Figure 2011100860273100001DEST_PATH_IMAGE046

和

Figure 2011100860273100001DEST_PATH_IMAGE050

2.根据权利要求1所述的基于副本复制算法的数据查询方法，其特征在于：在存储空间不够存储新的副本时，保留流行度大的文件，删除流行度低的文件。

3.根据权利要求1所述的基于副本复制算法的数据查询方法，其特征在于：副本价值是副本的使用率历史信息和副本动态变化特性的反映；副本价值取决于副本的稳定性以及最近的使用次数；副本的价值高，表示该副本的使用率高或者稳定性高；则保留该副本的概率大，即该副本的使用的寿命长。

4.根据权利要求1所述的基于副本复制算法的数据查询方法，其特征在于：对于需要存储到本地的文件，选择带宽最大的网络链接以获取文件副本。