CN109144417A - 一种云存储方法、系统和设备 - Google Patents

一种云存储方法、系统和设备 Download PDF

Info

Publication number
CN109144417A
CN109144417A CN201810933333.8A CN201810933333A CN109144417A CN 109144417 A CN109144417 A CN 109144417A CN 201810933333 A CN201810933333 A CN 201810933333A CN 109144417 A CN109144417 A CN 109144417A
Authority
CN
China
Prior art keywords
data block
stored
file
cold
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810933333.8A
Other languages
English (en)
Inventor
程鹏
蒋杰伟
杜翠凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Original Assignee
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jay Communications Planning And Design Institute Co Ltd, GCI Science and Technology Co Ltd filed Critical Guangzhou Jay Communications Planning And Design Institute Co Ltd
Priority to CN201810933333.8A priority Critical patent/CN109144417A/zh
Publication of CN109144417A publication Critical patent/CN109144417A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云存储方法,包括:判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。本发明还公开了一种云存储系统和一种云存储设备。采用本发明实施例,能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。

Description

一种云存储方法、系统和设备
技术领域
本发明涉及云存储技术领域,尤其涉及一种云存储方法、系统和设备。
背景技术
随着信息技术的快速发展,数据量呈爆炸性增长。目前我们已经进入了PB级别的数据量时代。数据的骤增,需要存储技术的快速提升、存储设备成本的大幅度降低。在这一系列的趋势下,具有分布式特征的云存储方法就应运而生。但是云存储不可避免地产生由于服务器的实效引起的服务终端或者丢失的问题,因此,如何在保证容错能力的情况下降低空间消耗成为云存储研究的一个重要方向。副本策略是较早的数据冗余技术,其优势就是支持高并发访问,但是劣势就是存储开销较高。与副本策略相比,纠删码策略在最近几年得到重视,其优点就是开销较低且可以容忍有限范围内的数据丢失,但是数据的存储速度、可用性相对于副本策略较低。
根据文件大小对数据访问的冷热度进行判断,基于冷热度选取合适存储冗余技术,一般大文件采用纠删码,小文件采用副本策略。但是基于网络编码技术或者纠删码技术,但是随着时间的推移,写入的速度会变得越来越慢。对已有冗余技术研究进行梳理,发现存在一些问题和不足,主要表现在:
(1)冗余方法单一。目前市场上的多云存储方法多采用单一的方法来对数据进行冗余,即只采用副本策略或只采用纠删码技术,而这两种技术各有优缺点。即使有些云存储方法采用混合冗余技术进行数据存储,但是其判断的标准比较简单,不能反映实际用户对数据的访问需求。
(2)没有从时间相关性看待冷热数据的问题。单纯从引用量和读写频率来判断数据的冷热度是不科学的,因为3年前与3个月内的引用量的意义是不同的。
发明内容
本发明实施例的目的是提供一种云存储方法、系统和设备,能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。
为实现上述目的,本发明实施例提供了一种云存储方法,包括:
判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;
当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。
与现有技术相比,本发明公开的云存储方法,首先,判断待存储文件中的数据块是否首次存储;然后,当首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度,当非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;最后,根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。解决了现有技术冗余方法单一和没有从时间相关性看待冷热数据的问题。能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。
作为上述方案的改进,所述判断待存储文件中的数据块是否首次存储,包括:
判断待存储文件中的数据块是否存在与已存储文件相同的数据块;
若是,则判定所述待存储文件的数据块为非首次存储;若否,则判定所述待存储文件的数据块为首次存储。
作为上述方案的改进,所述根据所述冷热度确定所述待存储文件的数据块的存储策略,包括:
当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,采用副本策略为所述存储策略;
当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,采用纠删码策略为所述存储策略。
作为上述方案的改进,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为γT-t
作为上述方案的改进,所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为γT’-t’
为实现上述目的,本发明实施例还提供了一种云存储系统,包括:
首次存储判断单元,用于判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
冷热度确定单元,用于当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;还用于当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
存储策略确定单元,用于根据所述冷热度确定所述待存储文件的数据块的存储策略;
存储单元,用于根据所述存储策略将所述待存储文件的数据块存储。
与现有技术相比,本发明公开的云存储系统,首先,首次存储判断单元判断待存储文件中的数据块是否首次存储;然后,当首次存储时,冷热度确定单元根据访问频率确定所述待存储文件的数据块的冷热度,当非首次存储时,冷热度确定单元根据引用量确定所述待存储文件的数据块的冷热度;最后,存储策略确定单元根据所述冷热度确定所述待存储文件的数据块的存储策略,存储单元根据所述存储策略将所述待存储文件的数据块存储。解决了现有技术冗余方法单一和没有从时间相关性看待冷热数据的问题。能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。
作为上述方案的改进,所述首次存储判断单元具体用于:
判断待存储文件中的数据块是否存在与已存储文件相同的数据块;
若是,则判定所述待存储文件的数据块为非首次存储;若否,则判定所述待存储文件的数据块为首次存储。
作为上述方案的改进,所述存储策略确定单元具体用于:
当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,采用副本策略为所述存储策略;
当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,采用纠删码策略为所述存储策略。
作为上述方案的改进,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为γT-t
所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为γT’-t’
为实现上述目的,本发明实施例还提供了一种云存储设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的云存储方法。
附图说明
图1是本发明实施例提供的一种云存储方法的流程图;
图2是本发明实施例提供的一种云存储方法中引用量的示意图;
图3是本发明实施例提供的一种云存储系统10的结构框图;
图4是本发明实施例提供的一种云存储设备20的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1,图1是本发明实施例提供的一种云存储方法的流程图;包括:
S1、判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
S2、当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;
S3、当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
S4、根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。
具体的,在步骤S1中,判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块。优选的,所述判断待存储文件中的数据块是否首次存储,包括:判断待存储文件中的数据块是否存在与已存储文件相同的数据块;若是,则判定所述待存储文件的数据块为非首次存储;若否,则判定所述待存储文件的数据块为首次存储。
具体的,本发明实施例中的所述数据块是磁盘中读写单元的最小单位,一般情况下,所述数据块的大小为2M。假如需要存储一个所述待存储文件,那么所述待存储文件有可能划分为A、B、C、D一共4个数据块,再将当前待存储文件中的数据块存储后,在存储另一份待存储文件时,这个待存储文件有可能划分为D、E、F、G一共4个数据块,那么在存储另一份数据块的时候由于检测到数据块D已经存在,那么判定所述待存储文件的数据块为非首次存储。
具体的,在步骤S2中,当判定所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度。所述访问频率表示在一段时间内数据块被一个或者多个文件访问的频率,但是并没有被引用到文件中,所述访问频率是与时间挂钩,一般在指定的时间内数据访问的次数,以此衡量首次存储的数据是否重要。比如某个数据块前3个月的访问次数为9,那么该数据块的访问频率(每个月)为3。
优选的,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为γT-t
具体的,某一个数据块A在2017年7月1号存储的,如果前3个月A访问次数达到50次,若按照规定,此时A是热数据,但是在从2017年的10月到2018年的7月,这个数据块A并没有任何访问,那么它前三个月(2017年7月-2017年10月)的访问次数将会随着时间的推进进行衰减,他的数据块引用量就有衰减变得越来越少,数据冷热度D随着时间的推移会越来越少,最后数据块A就从热数据变成冷数据了,因此,引入衰减因子,能够确定冷热度D随着时间的推移关系。
具体的,在步骤S3中,当判定所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度。
优选的,所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为γT’-t’
参见图2,图2是本发明实施例提供的一种云存储方法中引用量的示意图;所述引用量表示数据块被一个或者多个文件的引用次数,如图2中的直观地展示了数据块的引用量的含义,四个文件划分成数据块之后总共有14个数据块,经过去重之后仅留下了8个数据块。其中,数据块A被四个文件引用,因此它的引用量最高,为4。其次是数据块C,它被三个文件引用,引用量为3。
所述引用量是数据块的一个重要特性,它可以在一定程度上反应其被用户访问的热度。也就是说,如果一个数据块有着比较多的引用量,那么就可以说明它是一个被高度重复的块。引用量高的数据块被用户访问的频率可能也更高,即访问热度可能更高,因此这样的数据块是热数据的可能性也更大。假如数据块A(非首次存储)的引用量为50,数据块B(首次存储)的访问量为20(前3个月),那么很可能B比A重要,因为它前3个月就有20次。因此需要将首次存储和非首次存储的数据块分别采用不同的存储策略来进行存储。
具体的,在步骤S4中,根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。
优选的,所述根据所述冷热度确定所述待存储文件的数据块的存储策略,包括:当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,采用副本策略为所述存储策略;当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,采用纠删码策略为所述存储策略。
具体的,所述冷热度阈值包括访问频率的冷热度阈值和引用量的冷热度阈值,当所述数据块为首次存储,所述冷热度大于所述访问频率的冷热度阈值时,判定所述待存储文件的数据块为热数据,此时确定所述数据块的存储策略为副本策略;所述冷热度小于或等于所述访问频率的冷热度阈值时,判定所述待存储文件的数据块为冷数据,此时确定所述数据块的存储策略为纠删码策略。
当所述数据块为非首次存储时,所述冷热度大于所述引用量的冷热度阈值时,判定所述待存储文件的数据块为热数据,此时确定所述数据块的存储策略为副本策略;所述冷热度小于或等于所述引用量的冷热度阈值时,判定所述待存储文件的数据块为冷数据,此时确定所述数据块的存储策略为纠删码策略。所述副本策略和所述纠删码策略具体的存储方式可以参考现有技术,在此不做赘述。
本发明实施例对首次和非首次存储的数据块性质分情况判断,如果首次存储,因为数据块没有引用量,通过访问频次进行衡量冷热度更适合;而对非首次存储的数据,采用引用量来衡量数据的冷热度。另外,本发明实施例提出了对数据块的访问时间的相关性来衡量数据块的冷热度。随着用户与数据块访问时间的推进,越早的访问行为对冷热度影响越小,因此,在计算数据块的冷热度的时候需要对其进行更多的折扣。这种时间相关性采用时间衰减因子来衡量,相比传统的直接用引用量的绝对值或者访问频率的绝对值更具有参考意义,因为考虑了时间性,能够在一定程度上考虑了用户的时间行为规律。
具体实施时,首先,判断待存储文件中的数据块是否首次存储;然后,当首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度,当非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;最后,根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。
与现有技术相比,本发明公开的云存储方法,解决了现有技术冗余方法单一和没有从时间相关性看待冷热数据的问题。能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。
实施例二
参见图3,图3是本发明实施例提供的一种云存储系统10的结构框图;包括:
首次存储判断单元11,用于判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
冷热度确定单元12,用于当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;还用于当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
存储策略确定单元13,用于根据所述冷热度确定所述待存储文件的数据块的存储策略;
存储单元14,用于根据所述存储策略将所述待存储文件的数据块存储。
具体的,所述首次存储判断单元11判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块。优选的,所述判断待存储文件中的数据块是否首次存储,包括:判断待存储文件中的数据块是否存在与已存储文件相同的数据块;若是,则所述首次存储判断单元11判定所述待存储文件的数据块为非首次存储;若否,则所述首次存储判断单元11判定所述待存储文件的数据块为首次存储。
具体的,当所述首次存储判断单元11判定所述待存储文件的数据块为首次存储时,所述冷热度确定单元12根据访问频率确定所述待存储文件的数据块的冷热度。所述访问频率表示在一段时间内数据块被一个或者多个文件访问的频率,但是并没有被引用到文件中,所述访问频率是与时间挂钩,一般在指定的时间内数据访问的次数,以此衡量首次存储的数据是否重要。比如某个数据块前3个月的访问次数为9,那么该数据块的访问频率(每个月)为3。
优选的,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为γT-t
具体的,当所述首次存储判断单元11判定所述待存储文件的数据块为非首次存储时,所述冷热度确定单元12根据引用量确定所述待存储文件的数据块的冷热度。
优选的,所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为γT’-t’
具体的,所述存储策略确定单元13根据所述冷热度确定所述待存储文件的数据块的存储策略,所述存储单元14根据所述存储策略将所述待存储文件的数据块存储。
优选的,所述根据所述冷热度确定所述待存储文件的数据块的存储策略,包括:当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,所述存储策略确定单元13采用副本策略为所述存储策略;当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,所述存储策略确定单元13采用纠删码策略为所述存储策略。
具体的,所述冷热度阈值包括访问频率的冷热度阈值和引用量的冷热度阈值,当所述数据块为首次存储,所述冷热度大于所述访问频率的冷热度阈值时,判定所述待存储文件的数据块为热数据,此时所述存储策略确定单元13确定所述数据块的存储策略为副本策略;所述冷热度小于或等于所述访问频率的冷热度阈值时,判定所述待存储文件的数据块为冷数据,此时所述存储策略确定单元13确定所述数据块的存储策略为纠删码策略。
当所述数据块为非首次存储时,所述冷热度大于所述引用量的冷热度阈值时,判定所述待存储文件的数据块为热数据,此时所述存储策略确定单元13确定所述数据块的存储策略为副本策略;所述冷热度小于或等于所述引用量的冷热度阈值时,判定所述待存储文件的数据块为冷数据,此时所述存储策略确定单元13确定所述数据块的存储策略为纠删码策略。所述副本策略和所述纠删码策略具体的存储方式可以参考现有技术,在此不做赘述。
本发明实施例对首次和非首次存储的数据块性质分情况判断,如果首次存储,因为数据块没有引用量,通过访问频次进行衡量冷热度更适合;而对非首次存储的数据,采用引用量来衡量数据的冷热度。另外,本发明实施例提出了对数据块的访问时间的相关性来衡量数据块的冷热度。随着用户与数据块访问时间的推进,越早的访问行为对冷热度影响越小,因此,在计算数据块的冷热度的时候需要对其进行更多的折扣。这种时间相关性采用时间衰减因子来衡量,相比传统的直接用引用量的绝对值或者访问频率的绝对值更具有参考意义,因为考虑了时间性,能够在一定程度上考虑了用户的时间行为规律。
具体实施时,首先,首次存储判断单元11判断待存储文件中的数据块是否首次存储;然后,当首次存储时,冷热度确定单元12根据访问频率确定所述待存储文件的数据块的冷热度,当非首次存储时,冷热度确定单元12根据引用量确定所述待存储文件的数据块的冷热度;最后,存储策略确定单元13根据所述冷热度确定所述待存储文件的数据块的存储策略,存储单元14根据所述存储策略将所述待存储文件的数据块存储。
与现有技术相比,本发明公开的云存储系统10,解决了现有技术冗余方法单一和没有从时间相关性看待冷热数据的问题。能够对首次和非首次存储的数据块性质分情况判断,并结合时间相关性判断数据的冷热度。
实施例三
参见图4,图4是本发明实施例提供的一种云存储设备20的结构框图;该实施例的云存储设备20包括:处理器21、存储器22以及存储在所述存储器22中并可在所述处理器上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述各个云存储方法实施例中的步骤,例如图1所示的步骤S1~S4。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如首次存储判断单元11。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述云存储设备20中的执行过程。例如,所述计算机程序可以被分割成首次存储判断单元11、冷热度确定单元12、存储策略确定单元13以及存储单元14,各单元的具体功能参考实施例二中各个单元的具体功能,在此不再赘述。
所述云存储设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述云存储设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是云存储设备20的示例,并不构成对云存储设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述云存储设备20还可以包括输入输出设备、网络接入设备、总线等。
所称处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述云存储设备20的控制中心,利用各种接口和线路连接整个云存储设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述云存储设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述云存储设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种云存储方法,其特征在于,包括:
判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;
当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
根据所述冷热度确定所述待存储文件的数据块的存储策略,并根据所述存储策略将所述待存储文件的数据块存储。
2.如权利要求1所述的云存储方法,其特征在于,所述判断待存储文件中的数据块是否首次存储,包括:
判断待存储文件中的数据块是否存在与已存储文件相同的数据块;
若是,则判定所述待存储文件的数据块为非首次存储;若否,则判定所述待存储文件的数据块为首次存储。
3.如权利要求1所述的云存储方法,其特征在于,所述根据所述冷热度确定所述待存储文件的数据块的存储策略,包括:
当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,采用副本策略为所述存储策略;
当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,采用纠删码策略为所述存储策略。
4.如权利要求1所述的云存储方法,其特征在于,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为YT-t
5.如权利要求1所述的云存储方法,其特征在于,所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为YT′-t′
6.一种云存储系统,其特征在于,包括:
首次存储判断单元,用于判断待存储文件中的数据块是否首次存储;其中,所述待存储文件包括若干个预先划分好的数据块;
冷热度确定单元,用于当所述待存储文件的数据块为首次存储时,根据访问频率确定所述待存储文件的数据块的冷热度;还用于当所述待存储文件的数据块为非首次存储时,根据引用量确定所述待存储文件的数据块的冷热度;
存储策略确定单元,用于根据所述冷热度确定所述待存储文件的数据块的存储策略;
存储单元,用于根据所述存储策略将所述待存储文件的数据块存储。
7.如权利要求6所述的云存储系统,其特征在于,所述首次存储判断单元具体用于:
判断待存储文件中的数据块是否存在与已存储文件相同的数据块;
若是,则判定所述待存储文件的数据块为非首次存储;若否,则判定所述待存储文件的数据块为首次存储。
8.如权利要求6所述的云存储系统,其特征在于,所述存储策略确定单元具体用于:
当所述冷热度大于预设的冷热度阈值时,判定所述待存储文件的数据块为热数据,采用副本策略为所述存储策略;
当所述冷热度小于或等于预设的冷热度阈值时,判定所述待存储文件的数据块为冷数据,采用纠删码策略为所述存储策略。
9.如权利要求6所述的云存储系统,其特征在于,所述根据访问频率确定所述待存储文件的数据块的冷热度,包括:
其中,D表示所述待存储文件的数据块的冷热度值;P表示某个时间段t的数据块的访问频率;T表示当前时刻,t=1,2,…,T;γ表示衰减因子,所述衰减因子表示数据块的访问频率对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t时间段访问数据块的衰减因子表示为γT-t
所述根据引用量确定所述待存储文件的数据块的冷热度,包括:
其中,D’表示所述待存储文件的数据块的冷热度值;P’表示某个时间段t’的数据块的引用量;T’表示当前时刻,t’=1,2,…,T’;γ表示衰减因子,所述衰减因子表示数据块的引用量对当前用户与数据块的交互的重视程度,γ越接近1,表示越重视,在t’时间段引用数据块的衰减因子表示为γT′-t′
10.一种云存储设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的云存储方法。
CN201810933333.8A 2018-08-16 2018-08-16 一种云存储方法、系统和设备 Pending CN109144417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810933333.8A CN109144417A (zh) 2018-08-16 2018-08-16 一种云存储方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810933333.8A CN109144417A (zh) 2018-08-16 2018-08-16 一种云存储方法、系统和设备

Publications (1)

Publication Number Publication Date
CN109144417A true CN109144417A (zh) 2019-01-04

Family

ID=64789560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810933333.8A Pending CN109144417A (zh) 2018-08-16 2018-08-16 一种云存储方法、系统和设备

Country Status (1)

Country Link
CN (1) CN109144417A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413235A (zh) * 2019-07-26 2019-11-05 华中科技大学 一种面向ssd去重的数据分配方法及系统
CN111124295A (zh) * 2019-12-11 2020-05-08 成都信息工程大学 一种基于三元影响因子的农业数据存储处理系统及方法
CN111273862A (zh) * 2020-01-16 2020-06-12 上海依图网络科技有限公司 数据存储方法及其装置、可读介质和系统
CN112394873A (zh) * 2019-08-12 2021-02-23 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
WO2021115021A1 (zh) * 2019-12-11 2021-06-17 华为技术有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
WO2021189902A1 (zh) * 2020-09-24 2021-09-30 平安科技(深圳)有限公司 基于云存储的数据存储方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436478A (zh) * 2011-10-12 2012-05-02 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的系统及方法
KR20130024271A (ko) * 2011-08-31 2013-03-08 삼성전자주식회사 하드 디스크 드라이브와 불휘발성 메모리를 포함하는 스토리지 시스템
CN103605483A (zh) * 2013-11-21 2014-02-26 浪潮电子信息产业股份有限公司 一种分级存储系统中块级数据特征处理方法
CN104793901A (zh) * 2015-04-09 2015-07-22 北京鲸鲨软件科技有限公司 一种存储装置及存储方法
CN104917788A (zh) * 2014-03-11 2015-09-16 中国移动通信集团公司 一种数据存储方法及装置
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
CN108008918A (zh) * 2017-11-30 2018-05-08 联想(北京)有限公司 数据处理方法、存储节点及分布式存储系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130024271A (ko) * 2011-08-31 2013-03-08 삼성전자주식회사 하드 디스크 드라이브와 불휘발성 메모리를 포함하는 스토리지 시스템
CN102436478A (zh) * 2011-10-12 2012-05-02 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的系统及方法
CN103605483A (zh) * 2013-11-21 2014-02-26 浪潮电子信息产业股份有限公司 一种分级存储系统中块级数据特征处理方法
CN104917788A (zh) * 2014-03-11 2015-09-16 中国移动通信集团公司 一种数据存储方法及装置
CN104793901A (zh) * 2015-04-09 2015-07-22 北京鲸鲨软件科技有限公司 一种存储装置及存储方法
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
CN108008918A (zh) * 2017-11-30 2018-05-08 联想(北京)有限公司 数据处理方法、存储节点及分布式存储系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN LI等: "Improving Data Availability for Deduplication in Cloud Storage", 《INTERNATIONAL JOURNAL OF GRID AND HIGH PERFORMANCE COMPUTING》 *
周阳: "云存储中冷热数据的混合冗余方法研究", 《移动通信》 *
唐聃: "基于多斜率码链的阵列纠删码", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413235A (zh) * 2019-07-26 2019-11-05 华中科技大学 一种面向ssd去重的数据分配方法及系统
CN112394873A (zh) * 2019-08-12 2021-02-23 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
CN112394873B (zh) * 2019-08-12 2024-05-24 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
CN111124295A (zh) * 2019-12-11 2020-05-08 成都信息工程大学 一种基于三元影响因子的农业数据存储处理系统及方法
WO2021115021A1 (zh) * 2019-12-11 2021-06-17 华为技术有限公司 数据处理方法、装置、终端设备及计算机可读存储介质
CN111273862A (zh) * 2020-01-16 2020-06-12 上海依图网络科技有限公司 数据存储方法及其装置、可读介质和系统
WO2021189902A1 (zh) * 2020-09-24 2021-09-30 平安科技(深圳)有限公司 基于云存储的数据存储方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109144417A (zh) 一种云存储方法、系统和设备
CN109634801A (zh) 数据趋势分析方法、系统、计算机装置及可读存储介质
CN103617087B (zh) 一种适合迭代计算的MapReduce优化方法
Zhang et al. Poseidon: A system architecture for efficient gpu-based deep learning on multiple machines
CN106991011A (zh) 一种针对大数据任务处理的基于cpu多线程与gpu多粒度并行及协同优化的方法
Daley et al. CRISPhieRmix: a hierarchical mixture model for CRISPR pooled screens
CN110134516A (zh) 金融数据处理方法、装置、设备及计算机可读存储介质
CN109309726A (zh) 基于海量数据的文件生成方法及系统
CN106406987A (zh) 一种集群中的任务执行方法及装置
CN109409885A (zh) 区块链上的跨链交易方法、装置及存储介质
CN106202070A (zh) 文件存储处理方法与系统
WO2022057310A1 (zh) 一种图神经网络训练的方法、装置及系统
CN110187965A (zh) 神经网络的运行优化及数据处理方法、设备及存储介质
CN111949392A (zh) 一种缓存任务队列调度方法、系统、终端及存储介质
CN107633001A (zh) 哈希分区优化方法和装置
US20190188643A1 (en) Method and system of sharing product data in a collaborative environment
CN112017732B (zh) 一种终端设备、装置、疾病分类方法及可读存储介质
CN111932311B (zh) 一种贵金属自动化交易执行方法及装置
CN101556563B (zh) 多数据源的访问控制方法、装置和存储系统
TWI758223B (zh) 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體
CN112114935A (zh) 一种热插拔方法及相关设备
CN105718990B (zh) 细胞阵列计算系统以及其中细胞之间的通信方法
CN104657087B (zh) 一种虚拟磁盘映射的方法、装置及系统
Baroni et al. A shuffled complex evolution algorithm for the multidimensional knapsack problem using core concept
CN110222016A (zh) 一种文件处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication