CN112445653A - 一种多时间窗口的混合容错云存储方法、装置及介质 - Google Patents

一种多时间窗口的混合容错云存储方法、装置及介质 Download PDF

Info

Publication number
CN112445653A
CN112445653A CN202011279725.0A CN202011279725A CN112445653A CN 112445653 A CN112445653 A CN 112445653A CN 202011279725 A CN202011279725 A CN 202011279725A CN 112445653 A CN112445653 A CN 112445653A
Authority
CN
China
Prior art keywords
file
fault
tolerant
files
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011279725.0A
Other languages
English (en)
Inventor
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011279725.0A priority Critical patent/CN112445653A/zh
Publication of CN112445653A publication Critical patent/CN112445653A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1489Generic software techniques for error detection or fault masking through recovery blocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多时间窗口的混合容错云存储方法、装置及介质,采用多窗口文件热度计算方法对文件的热度值进行统计,把热度值从高到低依次排列,根据热度值的排名区分所对应文件的文件类型;采用混合容错方法分别对不同文件类型的文件进行存储;本发明能够对于不同访问热度的文件应用最符合该文件需求的存储方法,并使文件的访问热度更符合该文件的实际值,且保持稳定的运行状态,使文件的访问和存储均衡达到最优方法。

Description

一种多时间窗口的混合容错云存储方法、装置及介质
技术领域
本发明涉及大数据云存储领域,特别是涉及一种多时间窗口的混合容错云存储方法、装置及介质。
背景技术
随着大数据应用性的变高,大数据存储成为了大数据应用的关键,目前很多大数据文件都是通过云存储系统来进行储存的,数据量的增多总会导致不可避免的数据失效,所以云存储系统采用冗余备份的方法来存储文件以保证云存储系统的数据可靠性。
现有的冗余备份容错技术为副本技术和纠删码技术。副本技术将每个存储的文件进行完全复制,复制得到三个副本存储于不同的数据地址中,副本技术的存储结构简单,当部分数据失效时,可以在其他的数据地址中访问保存好的副本数据,该存储方法对用户的访问采取就近分配,减少访问延迟,但随着云存储数据越来越多,此方法占用的空间越来越大;纠删码技术将每个存储的文件进行编码生成冗余数据存储,当部分数据失效时,可以通过剩下的冗余数据进行译码来恢复数据,纠删码技术的代码储存恢复方法对于副本技术的分布式存储方法来说,其消耗的存储空间较少,但其编码译码需要消耗更多的时间和更大的数据传输开销;现有技术中常用这两种方法结合文件的访问热度情况来对文件进行冗余备份,例如专利号为CN109783016A的《一种分布式存储系统中的弹性多维度冗余方法》中,其判断文件的热度一般以最近文件的访问频率作为评判的标准,这种标准对于文件热度的判断很不准确,导致没有办法对于云存储文件进行最平衡的冗余备份。
发明内容
本发明主要解决的技术问题是提供一种一种多时间窗口的混合容错云存储方法、装置及介质,能够解决系统无法对于云存储文件进行最平衡的冗余备份的问题。
为解决上述技术问题,本发明采用的一个技术方案是:一种多时间窗口的混合容错云存储方法,包括:
采用多窗口文件热度计算方法对文件的热度值进行统计,把热度值从高到低依次排列,根据热度值的排名区分所对应文件的文件类型;采用混合容错方法分别对不同文件类型的文件进行存储;
所述多窗口文件热度计算方法为:设置文件的更新周期、访问频率、若干统计周期和若干访问次数,系统每隔所述更新周期对文件的访问次数进行更新,根据统计周期内的访问频率,得出文件的热度值;
所述混合容错方法包括:副本容错方法、纠删码容错方法和混合冗余容错方法;所述副本容错方法为:将文件划分为若干个副本并将副本存储在不同的数据地址中;所述纠删码容错方法为:将文件划分为若干个副本将副本编码存储在不同的数据地址中;所述混合冗余容错方法为:将文件划分为若干个副本,将部分副本编码存储在不同的数据地址中,将剩余部分副本编码存储在不同的数据地址中。
进一步,所述副本容错方法具体为:将文件划分成若干数据块,每个数据块包含文件至少三个相同的副本,每个副本分别存储在不同数据节点中,每个数据节点分别存储在不同的数据地址中;
所述纠删码容错方法具体为:将文件划分成若干数据块,每个数据块包含文件一个相同的副本,每个数据块对应的副本分别存储在不同数据节点中,数据节点被编码存储到不同的数据地址中;
所述混合冗余容错方法具体为:将文件划分成若干数据块,每个数据块包含文件两个相同的副本,每个副本分别存储在不同数据节点中,每个数据节点分别存储在不同的数据地址中,将相同的数据节点分为两组,选取其中一组数据节点根据纠删码容错方法进行编码存储,剩余的一组数据节点根据副本容错方法进行存储。
进一步,所述统计周期为更新周期的整数倍,每个访问次数对应每个统计周期,访问频率为统计周期和其对应的访问次数的商,文件的热度值为所述统计周期内的访问频率的加权求和的值。
进一步,所述文件类型包括热点文件、普通文件和冷门文件,文件类型通过文件热度值排名的百分比来定义。
进一步,当文件类型为热点文件时,采用所述副本容错方法对文件进行存储;当文件类型为普通文件时,采用混合冗余容错方法对文件进行存储;当文件类型为冷门文件时,采用纠删码容错方法对文件进行存储。
进一步,当系统每隔更新周期对文件的访问次数进行更新时,文件的热度值随着访问次数的更新而更新。
进一步,当文件的热度值随着访问次数的更新而更新时,若文件更新后的热度值大于或小于文件更新前的热度值,则该文件进入考察状态;
当文件进入考察状态时,若文件更新后的热度值在每个统计周期中大于或小于文件更新前的热度值,则系统切换存储该文件的混合容错方法。
一种多时间窗口的混合容错云存储装置,包括:
统计模块、排列模块、识别模块和存储模块,统计模块与排列模块连接,排列模块与识别模块连接,识别模块和存储模块连接;所述统计模块用于将文件的热度值通过多窗口文件热度计算方法进行统计;所述排列模块用于把所述文件的热度值从高到低依次排列;所述识别模块用于根据所述热度值的排名区分所对应文件的文件类型;所述存储模块用于对不同文件类型的文件通过混合容错方法进行存储。
一种多时间窗口的混合容错云存储介质,用于储存为所述多时间窗口的混合容错云存储方法所用的软件指令,其包含用于执行上述为多时间窗口的混合容错云存储方法所设计的程序。
本发明的有益效果是:本发明能够对于不同访问热度的文件应用最符合该文件需求的存储方法,并使文件的访问热度更符合该文件的实际值,且保持稳定的运行状态,使文件的访问和存储均衡达到最优方法。
附图说明
图1是本发明提供的一种多时间窗口的混合容错云存储方法的流程示意图;
图2是一种多时间窗口的混合容错云存储方法中的混合冗余容错方法的布局示意图;
图3是一种多时间窗口的混合容错云存储方法中的容错模式与考察状态转换的流程示意图;
图4是一种多时间窗口的混合容错云存储装置的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明实施例包括:
第一方面,见图1至图3,一种多时间窗口的混合容错云存储方法,包括:
设计混合冗余容错方法,该方法结合现有的副本技术容错错以及纠删码技术容错,将所有文件进行分块存储,每个文件为一个数据块,复制该文件的两个副本文件,每个数据块存储两个副本文件,并将每个副本文件保存到两组不同的数据节点中,选取其中一组数据节点,对数据节点中的副本文件根据纠删码技术进行编码存储,为了方便编码,把数据块分成了容量更小的数据片,将数据块按纠删码技术组织成二维矩阵,将编码的冗余数据与源数据一同保存到磁盘中,数据的存储由元数据服务器节点组织和控制,元数据服务器节点记录着数据块的起始位置,数据块的大小信息,数据节点的存放地址,数据片的信息以及冗余数据的存放信息等。当用户写入数据时,客户端在元数据服务器节点的控制下向数据节点进行数据传输,传输完毕后,元数据服务器节点向数据节点发送编码命令进行编码,生成相应的冗余数据。
因为本方法融合了现有技术中的副本技术和纠删码技术,但直接投入使用还是没有让文件的存访问和储达到最优化的平衡,因此设计多时间窗口的文件热度计算方法来区分文件热度值的方法,根据文件的热度值,对文件采用不同的冗余纠错方法:把文件热度的更新周期设为T1,设定一个较大的统计周期Ti,设定Ti为T1的整数倍且T1,T2,T3,Tn,Ti-1<Ti,每个周期对应的访问次数为N1,N2,N3,Nn...Ni,当系统每经过一个T1周期的时间时,对其每个周期对应的访问次数都进行更新,这样使每个文件的访问次数都处于较新的状态,设定fi为Ti时间周期内的文件访问频率,则fi的计算公式为:
Figure BDA0002780370660000051
设ht为文件的热度值,根据不同周期内的文件的访问频率,得出文件的热度值计算公式:
Figure BDA0002780370660000052
其中
Figure BDA0002780370660000053
wi表示第i个fi的权重值,为每个文件访问频率加权进行求和为了使得到的结果更加精确,根据文件的热度值计算公式可知,当文件的长周期下的访问次数越多,文件的热度值越高,当文件的最近一个周期的访问次数越多,文件的热度值越高;文件短周期的访问次数对短周期的文件热度值有影响,但对本统计方法统计出的文件热度值没有根本性的影响,因此文件的热度值通过对文件各个周期的访问频率进行加权求和得到;根据文件的热度值来区分文件的类型,统计出文件的热度值后,根据文件的热度值从高到低依次排列,排列在前百分之二十的文件为热点文件,排名在百分之二十之后的文件的百分之五十为普通文件,剩余的文件为冷门文件;当文件为热点文件时,需要更多的访问副本来均衡负载,并且需要更高的访问效率,所以对热点文件采用副本容错方法,且对于热点文件进行副本容错时,副本数量至少为三个;当文件为冷门文件时,对冷门文件的访问量较少,不需要很多的副本去均衡访问负载,所以采用纠删码容错,提高其存储的效率;当文件为普通文件时,采用上述设计的混合冗余容错的方法,为文件提供两个副本,一个进行编码存储一个进行副本的不同数据地址存储,既能平衡访问负载,又可以节省原本的存储空间;考虑到系统频繁的计算热度值也会造成资源的浪费,所以根据文件热度值不同设定不同的更新周期,在首次计算文件热度值之后,对于热点文件,访问频率较高,热度值变化较快,对其设置最小的更新周期,对于冷门文件,访问频率较低,更多是用于存储和对于指定性文件的偶然访问,对其设置最大的更新周期,对于普通文件,访问频率介于热点文件和冷门文件之间,所以对其设置介于最大更新周期与最小更新周期之间的更新周期。
为保持系统的稳定,设计考察状态来减少系统切换容错方法的次数,避免系统因为少量文件进行频繁的切换容错方法:当对文件热度值进行周期性更新时,如果文件的热度值大于或小于上个周期的热度值,则转换为考察状态,判断该文件的热度值在连续的周期中的热度值是否都大于或都小于其上个周期的热度值,若是,则将容错模式在纠删码容错、混合容错、副本容错之间依次进行切换,当切换到新的容错模式时,在周期性更新时对文件的热度值进行再次评判。
第二方面,见图4,基于与前述实施例中一种多时间窗口的混合容错云存储方法同样的发明构思,本说明书实施例还提供一种多时间窗口的混合容错云存储装置,包括:
统计模块、排列模块、识别模块和存储模块,统计模块与排列模块连接,排列模块与识别模块连接,识别模块和存储模块连接;所述统计模块用于将文件的热度值通过多窗口文件热度计算方法进行统计;所述排列模块用于把所述文件的热度值从高到低依次排列;所述识别模块用于根据所述热度值的排名区分所对应文件的文件类型;所述存储模块用于对不同文件类型的文件通过混合容错方法进行存储。
第三方面,基于与前述实施例中一种多时间窗口的混合容错云存储方法同样的发明构思,本说明书实施例还提供一种多时间窗口的混合容错云存储介质,用于储存为所述多时间窗口的混合容错云存储方法所用的软件指令,其包含用于执行上述为多时间窗口的混合容错云存储方法所设计的程序
区别于现有技术,采用本申请一种多时间窗口的混合容错云存储方法、装置及介质进行数据存储可以根据文件的访问频率对文件的容错方法达到最优的均衡方法,使文件的访问热度更接近文件的实际值,且使系统在切换容错方法时更加的稳定。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种多时间窗口的混合容错云存储方法,其特征在于,包括:
采用多窗口文件热度计算方法对文件的热度值进行统计,把热度值从高到低依次排列,根据热度值的排名区分所对应文件的文件类型;采用混合容错方法分别对不同文件类型的文件进行存储;
所述多窗口文件热度计算方法为:设置文件的更新周期、访问频率、若干统计周期和若干访问次数,系统每隔所述更新周期对文件的访问次数进行更新,根据统计周期内的访问频率,得出文件的热度值;
所述混合容错方法包括:副本容错方法、纠删码容错方法和混合冗余容错方法;所述副本容错方法为:将文件划分为若干个副本并将副本存储在不同的数据地址中;所述纠删码容错方法为:将文件划分为若干个副本将副本编码存储在不同的数据地址中;所述混合冗余容错方法为:将文件划分为若干个副本,将部分副本编码存储在不同的数据地址中,将剩余部分副本编码存储在不同的数据地址中。
2.根据权利要求1中所述的一种多时间窗口的混合容错云存储方法,其特征在于,所述副本容错方法具体为:将文件划分成若干数据块,每个数据块包含文件至少三个相同的副本,每个副本分别存储在不同数据节点中,每个数据节点分别存储在不同的数据地址中;
所述纠删码容错方法具体为:将文件划分成若干数据块,每个数据块包含文件一个相同的副本,每个数据块对应的副本分别存储在不同数据节点中,数据节点被编码存储到不同的数据地址中;
所述混合冗余容错方法具体为:将文件划分成若干数据块,每个数据块包含文件两个相同的副本,每个副本分别存储在不同数据节点中,每个数据节点分别存储在不同的数据地址中,将相同的数据节点分为两组,选取其中一组数据节点根据纠删码容错方法进行编码存储,剩余的一组数据节点根据副本容错方法进行存储。
3.根据权利要求1中所述的一种多时间窗口的混合容错云存储方法,其特征在于,所述统计周期为更新周期的整数倍,每个访问次数对应每个统计周期,访问频率为统计周期和其对应的访问次数的商,文件的热度值为所述统计周期内的访问频率的加权求和的值。
4.根据权利要求1~3中任一项所述的一种多时间窗口的混合容错云存储方法,其特征在于,所述文件类型包括热点文件、普通文件和冷门文件,文件类型通过文件热度值排名的百分比来定义。
5.根据权利要求4中所述的一种多时间窗口的混合容错云存储方法,其特征在于,当文件类型为热点文件时,采用所述副本容错方法对文件进行存储;当文件类型为普通文件时,采用混合冗余容错方法对文件进行存储;当文件类型为冷门文件时,采用纠删码容错方法对文件进行存储。
6.根据权利要求5中所述的一种多时间窗口的混合容错云存储方法,其特征在于,当系统每隔更新周期对文件的访问次数进行更新时,文件的热度值随着访问次数的更新而更新。
7.根据权利要求6中所述的一种多时间窗口的混合容错云存储方法,其特征在于,当文件的热度值随着访问次数的更新而更新时,若文件更新后的热度值大于或小于文件更新前的热度值,则该文件进入考察状态;
当文件进入考察状态时,若文件更新后的热度值在每个统计周期中大于或小于文件更新前的热度值,则系统切换存储该文件的混合容错方法。
8.一种多时间窗口的混合容错云存储装置,其特征在于,包括:统计模块、排列模块、识别模块和存储模块,统计模块与排列模块连接,排列模块与识别模块连接,识别模块和存储模块连接;所述统计模块用于将文件的热度值通过多窗口文件热度计算方法进行统计;所述排列模块用于把所述文件的热度值从高到低依次排列;所述识别模块用于根据所述热度值的排名区分所对应文件的文件类型;所述存储模块用于对不同文件类型的文件通过混合容错方法进行存储。
9.一种多时间窗口的混合容错云存储介质,其特征在于,用于储存为上述权利要求5~7中任一项所述多时间窗口的混合容错云存储方法所用的软件指令,其包含用于执行上述为多时间窗口的混合容错云存储方法所设计的程序。
CN202011279725.0A 2020-11-16 2020-11-16 一种多时间窗口的混合容错云存储方法、装置及介质 Withdrawn CN112445653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011279725.0A CN112445653A (zh) 2020-11-16 2020-11-16 一种多时间窗口的混合容错云存储方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011279725.0A CN112445653A (zh) 2020-11-16 2020-11-16 一种多时间窗口的混合容错云存储方法、装置及介质

Publications (1)

Publication Number Publication Date
CN112445653A true CN112445653A (zh) 2021-03-05

Family

ID=74737465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011279725.0A Withdrawn CN112445653A (zh) 2020-11-16 2020-11-16 一种多时间窗口的混合容错云存储方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112445653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666354A (zh) * 2022-03-21 2022-06-24 北京涵鑫盛科技有限公司 一种云存储系统的文件存储管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666354A (zh) * 2022-03-21 2022-06-24 北京涵鑫盛科技有限公司 一种云存储系统的文件存储管理系统
CN114666354B (zh) * 2022-03-21 2022-12-27 北京涵鑫盛科技有限公司 一种云存储系统的文件存储管理系统

Similar Documents

Publication Publication Date Title
US11550501B2 (en) Storing data sequentially in zones in a dispersed storage network
US10346250B2 (en) Configuring storage resources of a dispersed storage network
US10127110B2 (en) Reallocating storage in a dispersed storage network
US10599519B2 (en) Coordinating node modification of an index structure via delegates
US10387248B2 (en) Allocating data for storage by utilizing a location-based hierarchy in a dispersed storage network
CN109783016A (zh) 一种分布式存储系统中的弹性多维度冗余方法
US20180074903A1 (en) Processing access requests in a dispersed storage network
CN110413694A (zh) 元数据管理方法及相关装置
US10558638B2 (en) Persistent data structures on a dispersed storage network memory
CN108073472B (zh) 一种基于热度感知的内存纠删码分布方法
CN111459710A (zh) 感知热度与风险的纠删码内存恢复方法、设备及内存系统
US10275185B2 (en) Fail-in-place supported via decentralized or Distributed Agreement Protocol (DAP)
Li et al. Demand-aware erasure coding for distributed storage systems
CN112445653A (zh) 一种多时间窗口的混合容错云存储方法、装置及介质
EP4170499A1 (en) Data storage method, storage system, storage device, and storage medium
US20180239807A1 (en) Sliding windows for batching index updates
CN113157715B (zh) 纠删码数据中心机架协同更新方法
US10958731B2 (en) Indicating multiple encoding schemes in a dispersed storage network
CN111752892B (zh) 分布式文件系统及其实现方法、管理系统、设备及介质
Wei et al. A new adaptive coding selection method for distributed storage systems
CN112000278A (zh) 一种热数据存储的自适应局部重构码设计方法及云存储系统
US20220394091A1 (en) Storing a Data Object as Data Regions in a Storage Network
JP2018524705A (ja) データ転送中にデータアクセス要求を処理するための方法及びシステム
US11606431B2 (en) Maintaining failure independence for storage of a set of encoded data slices
Li et al. Fast Proactive Repair in Erasure-Coded Storage: Analysis, Design, and Implementation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210305

WW01 Invention patent application withdrawn after publication