CN109634779A - 一种基于数据热度自学习的数据增量备份方法 - Google Patents

一种基于数据热度自学习的数据增量备份方法 Download PDF

Info

Publication number
CN109634779A
CN109634779A CN201811378436.9A CN201811378436A CN109634779A CN 109634779 A CN109634779 A CN 109634779A CN 201811378436 A CN201811378436 A CN 201811378436A CN 109634779 A CN109634779 A CN 109634779A
Authority
CN
China
Prior art keywords
data
cold
file
hot
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811378436.9A
Other languages
English (en)
Inventor
张纪林
陈军相
屠康磊
任永坚
万健
蒋从锋
殷昱煜
周丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201811378436.9A priority Critical patent/CN109634779A/zh
Publication of CN109634779A publication Critical patent/CN109634779A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据热度自学习的数据增量备份方法,将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中。本发明很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。

Description

一种基于数据热度自学习的数据增量备份方法
技术领域
本发明属于计算机数据管理领域,具体是一种基于数据热度自学习的数据增量备份方法。
背景技术
随着数据密集型应用和服务的越来越普及,大型数据中心常常存储着海量的数据,并且随着时间的推移迅速增长。数据总量从TB到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量已经超过了200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。而随着各种应用对存储设备的需求以每年60%的增长率在扩大,存储系统的备份容灾更不容忽视。因此如何提高大型数据中心存储设备在数据存储备份方面的效率、准确率是一个迫切需要解决的问题。
发明内容
本发明主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间,引入了对新数据以及季节热数据的概念,提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中,之后再根据数据的热度来进行相对应的增量备份。以计算能力、存储能力以及网络带宽为衡量标准,为备份系统中的节点分配一个可比较的数值,将这个数值集合和数据的热度值进行映射,当进行备份资源分配,根据数据热度值将数据备份到相应的节点上,从而达到数据的优化动态备份,形成合理的数据分布。
本发明方法的具体步骤是:
步骤(1):对冷数据,热数据,季节热数据,以及新数据进行界定,具体界定如下:
1)冷数据:即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值。
2)热数据:即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值。
3)季节热数据:即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值,数据热度呈现上下波动的情况,而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间。
4)新数据:即表示在云存储系统中没有存在的数据,相应的该数据也不存在被操作的次数。
步骤(2):对自学习热度数据模型的定义:
定义F={f1,...,fi,...,fm},F代表文件集合,fi={mi,pi},其中pi表示文件fi当前日期的前两年的每个月访问率构成的数组,mi表示文件fi的属性值,其中属性包括:文件的关键字的哈希值,文件名称的哈希值,文件内容的哈希值。pij代表数组pi中的第j个元素,api代表pi数组的平均值,它是访问数据的平均访问率,
1)判定访问数据的平均访问频率api是否为0,否,则该数据为旧数据,转至2);是,则该数据为新数据,转至4)。
2)将旧数据的平均访问频率值api与冷热阈值进行比较,如果平均访问频率大于等于热阈值thh,则该数据为热数据,将该数据放入热磁盘;将冷热阈值之间的数据视为季节热数据,将小于等于冷阈值thc的数据视为冷数据,将冷数据和季节热数据放入冷磁盘中;如果该数据为季节热数据,在放入冷磁盘之后,转至3)。
3)通过神经网络对季节热数据进行预测,预测其下个月的平均访问率,判断其下个月的热度。如果其下个月的平均访问率大于等于热阈值thh,则将该数据放入热磁盘,否则放入冷磁盘。
4)将新数据的属性值与冷热磁盘中的旧数据的属性值进行关联度分析,找到相关度最大的旧数据,将新数据放入与旧数据相同类型的磁盘中。
步骤(3):自学习模型的构建:
令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η,S'h/S'c=k,0<k<1,S'h代表热请求文件的平均大小,Sc'代表冷请求文件的平均大小,令th表示高速磁盘传输率,单位为Mb/s,tc表示慢速磁盘传输率,单位为Mb/s,|Dh|/|Dc|=γ,Dh={d1,...,dh,...,de},Dh代表快速旋转磁盘集合,Dc={df,...,dc,...,dn},Dc代表慢速旋转磁盘集合。
在区分冷热磁盘情况下总时间消耗为:
其中Rh={r1,...rh,...,rb},Rh代表请求热数据的集合,etotal表示实验过程中的能量总消耗,ph表示高速磁盘积极能耗,单位为J/Mb,ih表示高速磁盘理想时刻能耗,单位为J/s。
本发明的有益效果:
本发明提出了自学习热度数据备份策略,该策略对新数据以及季节性数据进行了良好的定位,并进行合理的增量备份。本数据热度分类策略很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。本发明中的多级增量是对增量涵义的拓展丰富,不再视文件为唯一的增量源,而是从不同角度与层次考察数据增量,克服只能在文件版本间查重的缺陷,更全面的避免重复数据的传输与存储。
附图说明
图1为数据分类算法的流程图;
图2为磁盘数目对响应时间的影响实验图;
图3为请求到达率对响应时间的影响实验图;
图4为斜度值之比对系统响应时间的影响实验
图5为新文件所占比对系统响应时间的影响实验图;
图6为不同的合成负载对系统响应时间的影响实验图;
图7为不同的新数据及季节热数据所占比例对系统性能的影响实验图;
具体实施方式
本发明主要是针对现有的利用数据分类的技术将不同的数据放入不同的磁盘区域来减少在备份数据的过程中所耗费的大量时间,引入了对新数据以及季节热数据的概念,提出了自学习热度数据策略。自学习热度数据策略就是将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中,之后再根据数据的热度来进行相对应的增量备份。以计算能力、存储能力以及网络带宽为衡量标准,为备份系统中的节点分配一个可比较的数值,将这个数值集合和数据的热度值进行映射,当进行备份资源分配,根据数据热度值将数据备份到相应的节点上,从而达到数据的优化动态备份,形成合理的数据分布。
参加图1,所示为本发明数据分类算法流程图,本发明方法的具体步骤是:
步骤(1):对冷数据、热数据、季节热数据以及新数据进行界定,具体数据分类方法如下:
1)冷数据:即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值;
2)热数据:即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值;
3)季节热数据:即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值,数据热度呈现上下波动的情况,而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间;
4)新数据:即表示在云存储系统中没有存在的数据,相应的该数据也不存在被操作的次数。
理论分析新数据热度判定的合理性。
数据热度的直接影响因素是数据被操作的次数,即与人的行为因素相关。如果没有发生重大变故,人的行为因素及对数据属性的行为癖好一般不会发生太大的改变,所以在这里我们认为一个数据的属性值能间接地表现一个数据的热度值。所以对于新数据,我们在旧数据集中找到与该数据的数据属性值相关性最大的数据的热度,就能确定新数据的热度。
步骤(2):对自学习热度数据模型的定义:
定义F={f1,...,fi,...,fm},F代表文件集合,fi={mi,pi},其中pi表示文件fi当前日期的前两年的每个月访问率构成的数组,mi表示文件fi的属性值,其中属性包括:文件的关键字的哈希值,文件名称的哈希值,文件内容的哈希值。pij代表数组pi中的第j个元素,api代表pi数组的平均值,它是访问数据的平均访问率,thc表示判定为冷数据的阈值,thh表示判定为热数据的阈值。
1)判定访问数据的平均访问频率api是否为0,否,则该数据为旧数据,转至2);是,则该数据为新数据,转至4)。
2)将旧数据的平均访问频率值api与冷热阈值进行比较,如果平均访问频率大于等于热阈值thh,则该数据为热数据,将该数据放入热磁盘;将冷热阈值之间的数据视为季节热数据,将小于等于冷阈值thc的数据视为冷数据,将冷数据和季节热数据放入冷磁盘中;如果该数据为季节热数据,在放入冷磁盘之后,转至3)。
3)通过神经网络对季节热数据进行预测,预测其下个月的平均访问率,判断其下个月的热度。如果其下个月的平均访问率大于等于热阈值thh,则将该数据放入热磁盘,否则放入冷磁盘。
4)将新数据的属性值与冷热磁盘中的旧数据的属性值mi进行关联度分析,找到相关度最大的旧数据,将新数据放入与旧数据相同类型的磁盘中。
数据分类策略伪代码如下:
步骤(3):自学习模型的构建:
令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η,S'h/S'c=k,0<k<1,S'h代表热请求文件的平均大小,S'c代表冷请求文件的平均大小,令th表示高速磁盘传输率,单位为Mb/s,tc表示慢速磁盘传输率,单位为Mb/s,|Dh|/|Dc|=γ,Dh={d1,...,dh,...,de},Dh代表快速旋转磁盘集合,Dc={df,...,dc,...,dn},Dc代表慢速旋转磁盘集合。
在区分冷热磁盘情况下总时间消耗为:
其中Rh={r1,...rh,...,rb},Rh代表请求热数据的集合,etotal表示实验过程中的能量总消耗,ph表示高速磁盘积极能耗,单位为J/Mb,ih表示高速磁盘理想时刻能耗,单位为J/s。
以下为节约时间的分析及其证明:
ehot表示区分冷热磁盘时热数据所在磁盘的能耗,ecold表示区分冷热磁盘时冷数据所在磁盘的能耗,e′hot表示未区分冷热磁盘时热数据所在磁盘的能耗,e’cold表示未区分冷热磁盘时冷数据所在磁盘的能耗,其中e’cold=e’hot=e’hot。其中Rc={rp,...rc,...,rx},Rc代表请求冷数据的集合,pc(J/Mb)表示低速磁盘积极能耗,ic(J/s)表示低速磁盘理想时刻能耗,Sc表示第C个冷请求文件的大小。
etotal=ehot+ecold,e’total=e’hot+e’cold,e’hot=ehot
由于ecold<e’cold,则
所以
因为
可得:
ih>ic,则
推导得到
所以th<tc
因此,在相同的能量消耗状况下,热区间比冷区间所花费的时间更少。
通过上述证明可知通过基于数据热度的数据分类策略,将不同类型的数据定位到不同的磁盘区域中具有降时作用,能提高系统的整体文件访问和存储性能。
下面结合附图附表和实施例对本发明进行进一步介绍。
本实例是基于冷热磁盘阵列模拟器实现的,磁盘的相关参数见表1。
表1:磁盘相关参数
其中有两类参数直接影响到本实施例的最终数据,它包含:工作量特征和磁盘驱动器的特性。其中有大量的参数影响工作量特征,我们确定五个关键特性(表2):
(1)文件数目由于文件的总数直接决定一个并行磁盘阵列中分配磁盘阵列的负载,将其设置为5000,使每个磁盘可以容纳大约312个文件的情况下有16个磁盘驱动器阵列。每个磁盘上的文件的数量是基于现实的模仿现实世界的情况决定。
(2)总的请求数目由于总请求数目直接影响存储系统的能量消耗,进而影响存储系统在测试时间内的工作次数。我们将总请求次数设定值为10000。
(3)冷热请求的比重由于冷热文件访问的比重直接影响冷热区域的读取次数,影响了整个存储系统的能量消耗,故我们将冷热请求比的值设定为6:4 6.5:3.5 7:3 7.5:2.5 8:2。
(4)文件系统的覆盖范围整个文件系统的覆盖范围的百分比定义为文件系统文件的访问请求的工作量。我们设置了系统的覆盖范围为100%,这意味着文件系统中的所有文件在并行磁盘阵列系统存取过至少一次。
(5)热冷磁盘数目比合理的设定热冷磁盘数目的比可以有效的节省能时间,根据之前的公式,我们设定热冷磁盘比为3:1。
表2:实验用到的相关数据描述
描述 默认值(值)
文件总数 500
请求总数 10000
文件系统覆盖范围 100%
热冷请求数目比 8:2(6:4 6.5:3.5 7:3 7.5:2.5 8:2)
热冷磁盘数目比 1:3(3/13,4/12,5/11,6/10,7/9,8/8,9/7,10/6)
热文件的平均大小 45(15 20 25 30 35 40 45 50)M
热冷文件数目之比 2.8(0.8 1.3 1.8 2.3 2.8 3.3 3.8 34.3 4.8 5.3 5.8 6.3)
磁盘总数 (12 16 20 24 28 32)
冷热磁盘传输率之比 1:3
本实例分别通过磁盘数目,热请求数目,磁盘数目比,热文件平均大小,热冷文件个数之比值的变化模拟实验测试数据分类的时间变化和未分类的时间变化以及节时百分比的变化(图2—图7)。
实例结果表明:本方法对于大规模存储系统以及大文件存储系统等情况下均起到了良好的降时作用。本数据热度分类策略很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域、冷文件在热区域中的存储资源浪费和文件读取时延增加的情况。本方法中的多级增量是对增量涵义的拓展丰富,不再视文件为唯一的增量源,而是从不同角度与层次考察数据增量,克服只能在文件版本间查重的缺陷,更全面的避免重复数据的传输与存储。
应该理解到的是:上述实施例只是对本发明的说明,而不是对本发明的限制,任何不超出本发明实质精神范围内的发明创造,均落入本发明的保护范围之内。

Claims (1)

1.一种基于数据热度自学习的数据增量备份方法,其特征在于,该方法包括以下步骤:
步骤S1:基于数据热度构建自学习模型:
令流行文件与非流行文件的数目比为令流行文件与非流行文件的请求数目比为η,S'h/S'c=k,0<k<1,S'h代表热请求文件的平均大小,S'c代表冷请求文件的平均大小,令th表示高速磁盘传输率,单位为Mb/s,tc表示慢速磁盘传输率,单位为Mb/s,|Dh|/|Dc|=γ,Dh={d1,...,dh,...,de},Dh代表快速旋转磁盘集合,Dc={df,...,dc,...,dn},Dc代表慢速旋转磁盘集合;
在区分冷热磁盘情况下总时间消耗为:
其中Rh={r1,...rh,...,rb},Rh代表请求热数据的集合,etotal表示实验过程中的能量总消耗,ph表示高速磁盘积极能耗,单位为J/Mb,ih表示高速磁盘理想时刻能耗,单位为J/s;
步骤S2:基于自学习热度数据模型进行数据增量备份:
其中,定义F={f1,...,fi,...,fm},F代表文件集合,fi={mi,pi},其中pi表示文件fi当前日期的前两年的每个月访问率构成的数组,mi表示文件fi的属性值,其中属性包括:文件的关键字的哈希值,文件名称的哈希值,文件内容的哈希值;pij代表数组pi中的第j个元素,api代表pi数组的平均值,它是访问数据的平均访问率,
具体步骤如下:
1)判定访问数据的平均访问频率api是否为0,“否”,则该数据为旧数据,转至2);“是”,则该数据为新数据,转至4);
2)将旧数据的平均访问频率值api与冷热阈值进行比较,如果平均访问频率大于等于热阈值thh,则该数据为热数据,将该数据放入热磁盘;将冷热阈值之间的数据视为季节热数据,将小于等于冷阈值thc的数据视为冷数据,将冷数据和季节热数据放入冷磁盘中;如果该数据为季节热数据,在放入冷磁盘之后,转至3);
3)通过神经网络对季节热数据进行预测,预测其下个月的平均访问率,判断其下个月的热度;如果其下个月的平均访问率大于等于热阈值thh,则将该数据放入热磁盘,否则放入冷磁盘;
4)将新数据的属性值与冷热磁盘中的旧数据的属性值进行关联度分析,找到相关度最大的旧数据,将新数据放入与旧数据相同类型的磁盘中。
CN201811378436.9A 2018-11-19 2018-11-19 一种基于数据热度自学习的数据增量备份方法 Withdrawn CN109634779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811378436.9A CN109634779A (zh) 2018-11-19 2018-11-19 一种基于数据热度自学习的数据增量备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811378436.9A CN109634779A (zh) 2018-11-19 2018-11-19 一种基于数据热度自学习的数据增量备份方法

Publications (1)

Publication Number Publication Date
CN109634779A true CN109634779A (zh) 2019-04-16

Family

ID=66068483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811378436.9A Withdrawn CN109634779A (zh) 2018-11-19 2018-11-19 一种基于数据热度自学习的数据增量备份方法

Country Status (1)

Country Link
CN (1) CN109634779A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124295A (zh) * 2019-12-11 2020-05-08 成都信息工程大学 一种基于三元影响因子的农业数据存储处理系统及方法
CN112506433A (zh) * 2020-12-08 2021-03-16 大连金华录数码科技有限公司 一种数据分类存储方法、装置及系统
CN113687766A (zh) * 2020-05-19 2021-11-23 中移动信息技术有限公司 数据存储的方法、装置、设备及存储介质
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124295A (zh) * 2019-12-11 2020-05-08 成都信息工程大学 一种基于三元影响因子的农业数据存储处理系统及方法
CN113687766A (zh) * 2020-05-19 2021-11-23 中移动信息技术有限公司 数据存储的方法、装置、设备及存储介质
CN112506433A (zh) * 2020-12-08 2021-03-16 大连金华录数码科技有限公司 一种数据分类存储方法、装置及系统
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法

Similar Documents

Publication Publication Date Title
CN109634779A (zh) 一种基于数据热度自学习的数据增量备份方法
CN105653591A (zh) 一种工业实时数据分级存储及迁移方法
Ranganathan et al. Identifying dynamic replication strategies for a high-performance data grid
Rosen The exergy of stratified thermal energy storages
CN103616944A (zh) 云存储系统中基于预判性绿色数据分类策略的降耗方法
CN107734052A (zh) 面向组件依赖的负载均衡容器调度方法
Martins et al. A study over NoSQL performance
CN102857560A (zh) 一种面向多业务应用的云存储数据分布方法
CN105159971B (zh) 一种云平台数据检索方法
CN108363643A (zh) 一种基于文件访问热度的hdfs副本管理方法
CN104699424A (zh) 一种基于页面热度的异构内存管理方法
CN105681052A (zh) 一种用于数据中心分布式文件存储的节能方法
CN101419600A (zh) 基于面向对象文件系统的数据副本映射方法及装置
CN104376094A (zh) 一种考虑访问随机性的文件分级存储方法和系统
Guan et al. HDFS optimization strategy based on hierarchical storage of hot and cold data
CN105912456B (zh) 一种基于用户兴趣迁移的大数据集仿真生成方法
Jiang et al. Evaluation method of human resource management efficiency of chain retail enterprises based on distributed database
Kim et al. MapReduce Based Experimental Frame for Parallel and Distributed Simulation Using Hadoop Platform.
Skondric et al. Optimization of availability and resource utilisation in LAN based P2P storage distributed systems
Luo et al. Data placement algorithm for improving I/O load balance without using popularity information
Jian et al. The performance optimization of lustre file system
Lin et al. An entropy-based measure for the evolution of h index research
Rong et al. Direct out-of-memory distributed parallel frequent pattern mining
Zhou et al. PAHDFS: preference-aware HDFS for hybrid storage
Sanyal et al. Building Simulation Modelers–Are we big data ready?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190416