CN103092716A - 纠删码参数获取方法和装置 - Google Patents

纠删码参数获取方法和装置 Download PDF

Info

Publication number
CN103092716A
CN103092716A CN2013100099883A CN201310009988A CN103092716A CN 103092716 A CN103092716 A CN 103092716A CN 2013100099883 A CN2013100099883 A CN 2013100099883A CN 201310009988 A CN201310009988 A CN 201310009988A CN 103092716 A CN103092716 A CN 103092716A
Authority
CN
China
Prior art keywords
value
redundance
data block
correcting
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100099883A
Other languages
English (en)
Inventor
彭成
付根希
姜国梁
苗艳超
刘新春
邵宗有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2013100099883A priority Critical patent/CN103092716A/zh
Publication of CN103092716A publication Critical patent/CN103092716A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

本发明提供了一种纠删码参数获取方法,包括以下步骤:统计每个数据块的引用度r;基于引用度r计算每个数据块的冗余度k;基于冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n。

Description

纠删码参数获取方法和装置
技术领域
本发明总体上涉及计算机领域,更具体地,涉及纠删码参数获取方法和装置。
背景技术
申请号为201010171777.6的现有技术公开了一种信息处理技术领域的基于RS纠删码的数据存储方法,包括以下步骤:对待存储文件进行分块处理和分组处理;将每个数据组的原始数据块传送到数据节点并由数据节点进行RS编码,使每个数据组在原始数据块的基础上增加若干个冗余数据块,将编码后的同一数据组中的数据块存储的若干个机架上,且同一机架上中同一数据组的数据块不超过冗余数据块的数目,当存储文件中有数据块损坏时,采用RS纠删码恢复数据块,得到恢复后的数据块。
具体地,该专利申请涉及一种基于RS纠删码的数据存储方法,包括以下步骤:第一步,对待存储文件进行分块处理,从而得到N个大小相同的原始数据块,并对这些原始数据块进行分组处理,得到M个数据组;第二步,将每个数据组中的原始数据块逐块的从用户端传送到数据节点,当第i个数据组传输完毕后,接收到该数据组数据的数据节点将接收到的数据传送给管理节点指定的一个数据节点,该数据节点得到该组数据块的所有原始数据块信息,1≤i≤M;第三步,得到第i组数据块的所有原始数据块信息的数据节点对该数据组进行RS编码,使第i个数据组从Ki个原始数据块变为Ki个原始数据块和Ri个冗余数据块,Ki是编码前第i个数据组中原始数据块的数目;第四步,将编码后的同一数据组中的数据块存储的若干个机架上,且同一机架上中同一数据组的数据块不超过Ri个;第五步,当存储文件中有数据块损坏时,采用RS纠删码恢复数据块,得到恢复后的数据块。
重复数据删除技术会降低存储系统的可靠性,这是因为一个数据块的损坏可能造成多个文件不可用,为了弥补这一不可避免的缺陷,有人提出利用节省的部分空间对全部或者部分“重要”的数据块冗余复制来增强存储系统可靠性。
单纯的通过增加完全副本冗余并不能保证当错误发生时数据仍具有持久性和可靠性,这里使用纠删码技术对数据块做一定的冗余来增强储存系统的可靠性。
发明内容
为此,本发明提供了一种纠删码参数获取方法,包括以下步骤:统计每个数据块的引用度r;基于引用度r计算每个数据块的冗余度k;基于冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n,其中,m取函数
Figure BDA00002724585400021
在[1,2,...,边界值]上最大值时的m值,n为m与冗余度k的乘积,其中,当冗余度k与可靠性概率p的乘积大于1时,边界值等于存储节点的数量N除以冗余度k,而当冗余度k与可靠性概率p的乘积小于1时,边界值等于第一值与第二值中的最小值,第一值为
Figure BDA00002724585400022
向上取整的值,第二值为
Figure BDA00002724585400023
向上取整的值。
其中,当冗余度k与可靠性概率p的乘积等于1时,m为1,n为冗余度k与存储节点的数量N中的最小值。
其中,以如下等式计算冗余度k:
k = max ( 2 , round ( 1 M [ B + 1 log ( 1 - p ) × ( Σ j = 1 M log r j - M × log r i ) ] ) )
其中,max()是取最大值函数,round()是四舍五入取整函数,M是数据块个数,i是数据块的编号,j是[1,2,...,M],B是存放数据块的个数。
此外,本发明还提供了一种纠删码参数获取装置,包括:引用度统计模块,用于统计每个数据块的引用度r;冗余度计算模块,用于基于引用度r计算每个数据块的冗余度k;纠删码参数计算模块,用于基于冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n,其中,m取函数
Figure BDA00002724585400031
在[1,2,...,边界值]上最大值时的m值,n为m与冗余度k的乘积,其中,当冗余度k与可靠性概率p的乘积大于1时,边界值等于存储节点的数量N除以冗余度k,而当冗余度k与可靠性概率p的乘积小于1时,所述边界值等于第一值与第二值中的最小值,所述第一值为向上取整的值,所述第二值为
Figure BDA00002724585400033
向上取整的值。
附图说明
当结合附图进行阅读时,根据下面详细的描述可以更好地理解本发明。应该强调的是,根据工业中的标准实践,各种部件没有被按比例绘制。实际上,为了清楚的讨论,各种部件的尺寸可以被任意增加或减少
图1示出了根据本发明的示例性实施例的纠删码参数获取方法;以及
图2示出了根据本发明的示例性实施例的纠删码参数获取装置。
具体实施方式
为了实施本发明的不同部件,以下描述提供了许多不同的实施例或示例。以下描述元件和布置的特定示例以简化本发明。当然这些仅仅是示例并不打算限定。再者,以下描述中第一部件形成在第二部件上可包括其中第一和第二部件以直接接触形成的实施例,并且也可包括其中额外的部件形成插入到第一和第二部件中的实施例,使得第一和第二部件不直接接触。为了简明和清楚,可以任意地以不同的尺寸绘制各种部件。
本发明提供了一种纠删码参数获取方法,包括以下步骤:S101,统计每个数据块的引用度r;S103,基于引用度r计算每个数据块的冗余度k;S105,基于冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n,其中,m取函数
Figure BDA00002724585400034
在[1,2,...,边界值]上最大值时的m值,n为m与冗余度k的乘积,其中,当冗余度k与可靠性概率p的乘积大于1时,边界值等于存储节点的数量N除以冗余度k,而当冗余度k与可靠性概率p的乘积小于1时,边界值等于第一值与第二值中的最小值,第一值为
Figure BDA00002724585400041
向上取整的值,第二值为
Figure BDA00002724585400042
向上取整的值。
优选地,当冗余度k与可靠性概率p的乘积等于1时,m为1,n为冗余度k与存储节点的数量N中的最小值。
优选地,以如下等式计算冗余度k:
k = max ( 2 , round ( 1 M [ B + 1 log ( 1 - p ) × ( Σ j = 1 M log r j - M × log r i ) ] ) )
其中,max()是取最大值函数,round()是四舍五入取整函数,M是数据块个数,i是数据块的编号,j是[1,2,...,M],B是存放数据块的个数。
此外,本发明还提供了一种纠删码参数获取装置,包括:引用度统计模块201,用于统计每个数据块的引用度r;冗余度计算模块203,用于基于引用度r计算每个数据块的冗余度k;纠删码参数计算模块205,用于基于冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n,其中,m取函数
Figure BDA00002724585400044
在[1,2,...,边界值]上最大值时的m值,n为m与冗余度k的乘积,其中,当冗余度k与可靠性概率p的乘积大于1时,边界值等于存储节点的数量N除以冗余度k,而当冗余度k与可靠性概率p的乘积小于1时,所述边界值等于第一值与第二值中的最小值,所述第一值为
Figure BDA00002724585400045
向上取整的值,所述第二值为
Figure BDA00002724585400046
向上取整的值。
具体地,申请人从实现的角度详细描述了本申请的实施例。
(1)统计每个数据块的引用度。
(2)计算每个数据块的冗余度k:
k = max ( 2 , round ( 1 M [ B + 1 log ( 1 - p ) × ( Σ j = 1 M log r j - M × log r i ) ] ) )
(3)计算纠删码(m,n)中的参数m,n:
Figure BDA00002724585400048
Figure BDA00002724585400051
本发明使用纠删码技术增强重复数据删除系统的可靠性,结合重复数据删除技术的特点,发明了一种选取纠删码参数的算法,能够利用更少的存储空间获得比冗余复制技术更高的存储可靠性。
上面论述了若干实施例的部件,使得本领域普通技术人员可以更好地理解本发明的各个方面。本领域普通技术人员应该理解,可以很容易地使用本发明作为基础来设计或更改其他用于达到与这里所介绍实施例相同的目的和/或实现相同优点的处理和结构。本领域普通技术人员也应该意识到,这种等效构造并不背离本发明的精神和范围,并且在不背离本发明的精神和范围的情况下,可以进行多种变化、替换以及改变。

Claims (7)

1.一种纠删码参数获取方法,其特征在于,包括以下步骤: 
统计每个数据块的引用度r; 
基于所述引用度r计算所述每个数据块的冗余度k; 
基于所述冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n, 
其中,m取函数
Figure FDA00002724585300011
在[1,2,...,边界值]上最大值时的m值,n为m与所述冗余度k的乘积, 
其中,当所述冗余度k与所述可靠性概率p的乘积大于1时,所述边界值等于所述存储节点的数量N除以所述冗余度k,而当所述冗余度k与所述可靠性概率p的乘积小于1时,所述边界值等于第一值与第二值中的最小值,所述第一值为
Figure FDA00002724585300012
向上取整的值,所述第二值为
Figure FDA00002724585300013
向上取整的值。 
2.根据权利要求1所述的方法,其特征在于,当所述冗余度k与所述可靠性概率p的乘积等于1时,m为1,n为所述冗余度k与所述存储节点的数量N中的最小值。 
3.根据权利要求1所述的方法,其特征在于,以如下等式计算所述冗余度k: 
其中,max()是取最大值函数,round()是四舍五入取整函数,M是数据块个数,i是数据块的编号,j是[1,2,...,M],B是存放数据块的个数。 
4.一种纠删码参数获取装置,其特征在于,包括: 
引用度统计模块,用于统计每个数据块的引用度r; 
冗余度计算模块,用于基于所述引用度r计算所述每个数据块的冗余度k; 
纠删码参数计算模块,用于基于所述冗余度k、数据片段的可靠性概率p、以及存储节点的数量N计算纠删码的参数m、n, 
其中,m取函数
Figure FDA00002724585300021
在[1,2,...,边界值]上最大值时的m值,n为m与所述冗余度k的乘积, 
其中,当所述冗余度k与所述可靠性概率p的乘积大于1时,所述边界值等于所述存储节点的数量N除以所述冗余度k,而当所述冗余度k与所述可靠性概率p的乘积小于1时,所述边界值等于第一值与第二值中的最小值,所述第一值为
Figure FDA00002724585300022
向上取整的值,所述第二值为
Figure FDA00002724585300023
向上取整的值。 
5.根据权利要求4所述的方法,其特征在于,当所述冗余度k与所述可靠性概率p的乘积等于1时,m为1,n为所述冗余度k与所述存储节点的数量N中的最小值。 
6.根据权利要求4所述的方法,其特征在于,以如下等式计算所述冗余度k: 
Figure FDA00002724585300024
其中,max()是取最大值函数,round()是四舍五入取整函数,M是数据块个数,i是数据块的编号,j是[1,2,...,M],B是存放数据块的个数。 
7.一种基于纠删码的增强系统可靠性的方法,其特征在于,根据权利要求1至3中任一项所述的方法获取纠删码参数。 
CN2013100099883A 2013-01-10 2013-01-10 纠删码参数获取方法和装置 Pending CN103092716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100099883A CN103092716A (zh) 2013-01-10 2013-01-10 纠删码参数获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100099883A CN103092716A (zh) 2013-01-10 2013-01-10 纠删码参数获取方法和装置

Publications (1)

Publication Number Publication Date
CN103092716A true CN103092716A (zh) 2013-05-08

Family

ID=48205322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100099883A Pending CN103092716A (zh) 2013-01-10 2013-01-10 纠删码参数获取方法和装置

Country Status (1)

Country Link
CN (1) CN103092716A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647815A (zh) * 2013-12-03 2014-03-19 清华大学 基于纠删码和选择因子的最优存储云构建方法
CN107239364A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种基于运算时间统计的纠删参数提取方法
CN114710238A (zh) * 2022-03-30 2022-07-05 蚂蚁区块链科技(上海)有限公司 纠删码算法冗余度确定方法及区块链节点

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070195905A1 (en) * 2006-02-21 2007-08-23 Adc Telecommunications, Inc. Forward error correction in wideband digital RF transport systems
CN102113296A (zh) * 2008-07-02 2011-06-29 汤姆森许可贸易公司 P2p模式下使用二部对等端覆盖在对等端之间传播内容数据的设备和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070195905A1 (en) * 2006-02-21 2007-08-23 Adc Telecommunications, Inc. Forward error correction in wideband digital RF transport systems
CN102113296A (zh) * 2008-07-02 2011-06-29 汤姆森许可贸易公司 P2p模式下使用二部对等端覆盖在对等端之间传播内容数据的设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭成等: "《基于纠删码的数据消冗存储系统可靠性增强研究》", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647815A (zh) * 2013-12-03 2014-03-19 清华大学 基于纠删码和选择因子的最优存储云构建方法
CN103647815B (zh) * 2013-12-03 2017-04-12 清华大学 基于纠删码和选择因子的最优存储云构建方法
CN107239364A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种基于运算时间统计的纠删参数提取方法
CN114710238A (zh) * 2022-03-30 2022-07-05 蚂蚁区块链科技(上海)有限公司 纠删码算法冗余度确定方法及区块链节点
CN114710238B (zh) * 2022-03-30 2023-11-17 蚂蚁区块链科技(上海)有限公司 纠删码算法冗余度确定方法及区块链节点

Similar Documents

Publication Publication Date Title
US10146618B2 (en) Distributed data storage with reduced storage overhead using reduced-dependency erasure codes
CN103888148B (zh) 一种动态阈值比特翻转的ldpc码硬判决译码方法
CN101840377A (zh) 基于rs纠删码的数据存储方法
US10355711B2 (en) Data processing method and system based on quasi-cyclic LDPC
US20130198583A1 (en) Systematic Rate-Independent Reed-Solomon Erasure Codes
CN103746774A (zh) 一种高效数据读取的容错编码方法
CN112000512B (zh) 一种数据修复方法及相关装置
CN111061592A (zh) 一种通用的Nand Flash比特位反转纠错方法
CN103092716A (zh) 纠删码参数获取方法和装置
US11626890B2 (en) Dynamically variable error correcting code (ECC) system with hybrid rateless reed-solomon ECCs
US9678924B2 (en) Method and data processing device for reconstructing a vector
CN115098295A (zh) 数据局部恢复方法、设备及存储介质
CN108614749B (zh) 一种数据处理方法及装置
CN103379060A (zh) 一种有限几何ldpc码参数盲估计方法
CN116781699B (zh) 一种基于分布式边缘计算的数据通信方法及系统
CN105007286B (zh) 解码方法和装置及云存储方法和系统
WO2018029212A1 (en) Regenerating locally repairable codes for distributed storage systems
CN114691414A (zh) 一种校验块生成方法及一种数据恢复方法
EP2621121A2 (en) Supercharged codes
CN115269258A (zh) 一种数据恢复的方法和系统
US9391647B2 (en) Decoder and decoding method thereof for min-sum algorithm low density parity-check code
CN103973316A (zh) 具有使用定标常数的可变节点更新器的ldpc解码器
CN108170554B (zh) 一种nand的数据编码方法和装置
CN102737032B (zh) 文件恢复的方法及装置
CN108352845A (zh) 用于对存储数据进行编码的方法以及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130508