CN107239364A - 一种基于运算时间统计的纠删参数提取方法 - Google Patents

一种基于运算时间统计的纠删参数提取方法 Download PDF

Info

Publication number
CN107239364A
CN107239364A CN201710433161.3A CN201710433161A CN107239364A CN 107239364 A CN107239364 A CN 107239364A CN 201710433161 A CN201710433161 A CN 201710433161A CN 107239364 A CN107239364 A CN 107239364A
Authority
CN
China
Prior art keywords
entangle
value
parameter
deletes
delete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710433161.3A
Other languages
English (en)
Inventor
玄加林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710433161.3A priority Critical patent/CN107239364A/zh
Publication of CN107239364A publication Critical patent/CN107239364A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1012Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using codes or arrangements adapted for a specific type of error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于运算时间统计的纠删参数提取方法,分别对不同纠删参数组合分别进行纠删运算,比较纠删运算所用的时间,获得最优纠删参数组合。本发明采用的参数提取方式在系统部署之前使用户获得参数最优值,指导工作人员部署出最优的集群,使计算资源得到充分利用,降低了错误部署的风险。

Description

一种基于运算时间统计的纠删参数提取方法
技术领域
本发明涉及数据存储技术领域,具体地说是一种基于运算时间统计的纠删参数提取方法。
背景技术
随着互联网的高速发展,数据也随之爆发式增长。如何存储这些数据和如何保证数据安全成为了各个互联网公司的遇到的一大难题。在这种背景下ceph(分布式存储系统)应运而生,由于ceph具有高可靠性、可伸缩、分布式、管理简单、开源等特点,迅速成为了各家互联网公司争相使用的大数据存储系统。在ceph存储系统中数据的安全性是通过数据冗余实现。
目前实现数据冗余有副本方式和纠删方式两种方式,副本方式即一份数据保存多(n个)副本,当一个副本出现问题时可以通过读取其他副本将其恢复;纠删方式将数据分割成一定数量(k个)的数据块,使用纠删算法为这些数据块计算出一定数量(m个)的校验块,当一个或多个(小于等于m)数据块出现问题时可以读取其他数据块并通过纠删算法将其恢复。由此可见副本方式的数据冗余度是n/1,纠删方式的数据冗余度是(k+m)/k,由于通常m远小于k。因此不难看出纠删方式明显比副本方式节省空间。随着数据量增大,这一优势越来越明显,越来越多的用户选择纠删方式作为数据存储方式。
在工程应用中测试发现,利用纠删方式在不同硬件环境下不同的k和m以及条带尺寸的设置会导致数据读写的效率有明显的差别。若随意选用k、m或条带尺寸的值不能充分发挥ceph集群部署的性能,且错误的ceph部署会带来风险。
发明内容
为克服上述现有技术存在的不足,本发明的目的在于提供一种基于运算时间统计的纠删参数提取方法,能够快速准确的找到一定硬件环境下k和m以及条带尺寸的最优值,提高ceph集群部署的性能。
本发明解决其技术问题所采用的技术方案是:一种基于运算时间统计的纠删参数提取方法,其特征是:对不同纠删参数组合分别进行纠删运算,比较纠删运算所用的时间,获得最优纠删参数组合。
进一步地,具体步骤为,
S1,获取用户设置的纠删算法类型;
S2,加载对应的纠删算法库;
S3,生成测试数据;
S4,取得一组纠删参数组合;
S5,根据取得的纠删参数组合对步骤S3生成的测试数据进行纠删运算;
S6,重复步骤S5的纠删运算N次,并计算N次运算所用时间的平均值;
S7,调整纠删参数组合并重复步骤S5和步骤S6,在参数调整结束后转到步骤S8;
S8,输出不同纠删参数组合下的统计结果并给出最优组合建议。
进一步地,步骤S2加载对应的纠删算法库的步骤为,
S21,读取纠删类型的配置文件,获取对应纠删算法库的位置;
S22,使用算法主函数名声明函数指针;
S23,使用函数指针调用算法。
进一步地,步骤S3生成测试数据的大小为1GB。
进一步地,纠删参数包括数据块值k,纠删块值m和纠删条带尺寸;数据块k的取值为1~32的整数,纠删块值m的取值为1~k的整数,纠删条带尺寸的取值为1k~64k的整数值。
进一步地,步骤S6中N的取值为100。
进一步地,步骤S7调整纠删参数组合的步骤为,
S71,数据块k的初始取值为1;
S72,判断数据块k的取值是否小于等于32,如果小于等于32则转到步骤S73,否则结束参数的调整;
S73,设置校验块m的值为1;
S74,判断校验块m的取值是否小于等于k,如果小于等于k则转到步骤S75,否则使数据块k的取值加1,转到步骤S72;
S75,设置条带尺寸初始值为1k;
S76,判断条带尺寸是否小于等于64K,如果条带尺寸小于等于64K则转到步骤S77,否则使校验块m的取值加1,转到步骤S74;
S77,调用纠删算法,对测试数据进行纠删运算;
S78,使条带尺寸加1k,转到步骤S76。
进一步地,步骤S8输出的统计结果为不同纠删参数组合进行纠删运算所用时间的平均值。
本发明的有益效果是:
数据块值k,纠删块值m,纠删条带尺寸这三个参数在ceph集群开始存储数据后将无法再修改,本发明采用的参数提取方式在系统部署之前使用户获得参数最优值,指导工作人员部署出最优的集群,使计算资源得到充分利用,降低了错误部署的风险;
本发明的进行参数提取时自动调整k、m以及纠删条带尺寸的值,全程无人员干预,准确可靠;
本发明通过调整k、m及纠删条带尺寸的值,提取到的参数组合数量庞大,最终得到的最优参数组合的可靠性强。
附图说明
图1是纠删参数k、m和条带的关系示意图;
图2是纠删参数提取方法的流程示意图;
图3是调整纠删参数组合的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明经过对ceph纠删存储方式的仔细研究发现,纠删存储的时间主要消耗在纠删算法的运算过程中,而纠删数据块数(k),校验码数(m),纠删条带尺寸这三个参数对纠删算法的性能影响最大。在进行ceph的纠删算法实现过程中,将测试数据切割成一定尺寸的条带,如图1所示,然后将每个条带切割成k块进行纠删计算和存储,使用纠删算法为数据块计算出一定数量的校验块,用m表示校验块的数量。
本发明的纠删参数提取方法对不同参数组合分别进行纠删运算,比较纠删运算所用的时间,获得最优参数组合。如图2所示,方法的具体步骤为:
S1,获取用户设置的纠删算法类型;
S2,加载对应的纠删算法库;
S3,生成测试数据;
S4,取得一组纠删参数组合;
S5,根据取得的纠删参数组合对步骤S3生成的测试数据进行纠删运算;
S6,重复步骤S5的纠删运算N次,并计算N次运算所用时间的平均值;
S7,调整纠删参数组合并重复步骤S5和步骤S6,在参数调整结束后转到步骤S8;
S8,输出不同纠删参数组合下的统计结果并给出最优组合建议。
步骤S1中,通过读取用户输入的算法名称,获取用户需要提取参数的纠删算法类型,其中纠删算法类型有Jerasure算法、ISA-l算法或LRC算法等。根据纠删算法类型动态加载对应的纠删算法库,加载的具体步骤为:
S21,读取纠删类型的配置文件,获取对应纠删算法库的位置;
S22,使用算法主函数名声明函数指针;
S23,使用函数指针调用算法。
由于不同算法库的主函数名相同,因此,无需针对不同算法类型做特殊设置。
在本发明的实施例中,步骤S3生成的测试数据的大小为1GB;步骤S6纠删运算次数N取值100。为降低随机问题对单次测试结果的影响,对同一纠删参数组合反复执行纠删运算100次,并计算算法执行时间的平均值。
在本发明的实施例中,对纠删参数分别取值,其中数据块k的取值为1~32的整数,纠删块值m的取值为1~k的整数,纠删条带尺寸的取值为1k~64k的整数值。本发明的步骤S7中,利用C++作为开发语言,自动调整k、m以及纠删条带尺寸的值。调整的具体流程如图3所示,具体步骤为,
S71,数据块k的初始取值为1;
S72,判断数据块k的取值是否小于等于32,如果小于等于32则转到步骤S73,否则结束参数的调整;
S73,设置校验块m的值为1;
S74,判断校验块m的取值是否小于等于k,如果小于等于k则转到步骤S75,否则使数据块k的取值加1,转到步骤S72;
S75,设置条带尺寸初始值为1k;
S76,判断条带尺寸是否小于等于64K,如果条带尺寸小于等于64K则转到步骤S77,否则使校验块m的取值加1,转到步骤S74;
S77,调用纠删算法,对测试数据进行纠删运算;
S78,使条带尺寸加1k,转到步骤S76。
根据S71-S78的步骤调整纠删参数的组合,分别改变数据块k、校验块m和条带尺寸的值,获得的参数组合数量庞大,因此得到的最优参数组合较可靠。在不同的纠删参数组合下分别调用纠删算法库,对相同规模的测试数据进行计算,统计算法执行时间,将不同纠删参数组合下的平均值输出并给出最优组合建议。算法执行时间平均值最小的参数组合即为最优参数。
客户在进行ceph集群部署时,直接选用本发明提供的最优纠删参数组合,节省时间,降低错误部署带来的风险。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (8)

1.一种基于运算时间统计的纠删参数提取方法,其特征是:对不同纠删参数组合分别进行纠删运算,比较纠删运算所用的时间,获得最优纠删参数组合。
2.根据权利要求1所述的一种基于运算时间统计的纠删参数提取方法,其特征是:具体步骤为,
S1,获取用户设置的纠删算法类型;
S2,加载对应的纠删算法库;
S3,生成测试数据;
S4,取得一组纠删参数组合;
S5,根据取得的纠删参数组合对步骤S3生成的测试数据进行纠删运算;
S6,重复步骤S5的纠删运算N次,并计算N次运算所用时间的平均值;
S7,调整纠删参数组合并重复步骤S5和步骤S6,在参数调整结束后转到步骤S8;
S8,输出不同纠删参数组合下的统计结果并给出最优组合建议。
3.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:步骤S2加载对应的纠删算法库的步骤为,
S21,读取纠删类型的配置文件,获取对应纠删算法库的位置;
S22,使用算法主函数名声明函数指针;
S23,使用函数指针调用算法。
4.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:步骤S3生成测试数据的大小为1GB。
5.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:纠删参数包括数据块值k,纠删块值m和纠删条带尺寸;数据块k的取值为1~32的整数,纠删块值m的取值为1~k的整数,纠删条带尺寸的取值为1k~64k的整数值。
6.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:步骤S6中N的取值为100。
7.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:步骤S7调整纠删参数组合的步骤为,
S71,数据块k的初始取值为1;
S72,判断数据块k的取值是否小于等于32,如果小于等于32则转到步骤S73,否则结束参数的调整;
S73,设置校验块m的值为1;
S74,判断校验块m的取值是否小于等于k,如果小于等于k则转到步骤S75,否则使数据块k的取值加1,转到步骤S72;
S75,设置条带尺寸初始值为1k;
S76,判断条带尺寸是否小于等于64K,如果条带尺寸小于等于64K则转到步骤S77,否则使校验块m的取值加1,转到步骤S74;
S77,调用纠删算法,对测试数据进行纠删运算;
S78,使条带尺寸加1k,转到步骤S76。
8.根据权利要求2所述的一种基于运算时间统计的纠删参数提取方法,其特征是:步骤S8输出的统计结果为不同纠删参数组合进行纠删运算所用时间的平均值。
CN201710433161.3A 2017-06-09 2017-06-09 一种基于运算时间统计的纠删参数提取方法 Pending CN107239364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710433161.3A CN107239364A (zh) 2017-06-09 2017-06-09 一种基于运算时间统计的纠删参数提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710433161.3A CN107239364A (zh) 2017-06-09 2017-06-09 一种基于运算时间统计的纠删参数提取方法

Publications (1)

Publication Number Publication Date
CN107239364A true CN107239364A (zh) 2017-10-10

Family

ID=59986978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710433161.3A Pending CN107239364A (zh) 2017-06-09 2017-06-09 一种基于运算时间统计的纠删参数提取方法

Country Status (1)

Country Link
CN (1) CN107239364A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115437581A (zh) * 2022-11-08 2022-12-06 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306193A (zh) * 2011-09-05 2012-01-04 浪潮电子信息产业股份有限公司 一种磁盘数据库性能测试方法
CN103092716A (zh) * 2013-01-10 2013-05-08 曙光信息产业(北京)有限公司 纠删码参数获取方法和装置
US8850288B1 (en) * 2012-06-27 2014-09-30 Amazon Technologies, Inc. Throughput-sensitive redundancy encoding schemes for data storage
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306193A (zh) * 2011-09-05 2012-01-04 浪潮电子信息产业股份有限公司 一种磁盘数据库性能测试方法
US8850288B1 (en) * 2012-06-27 2014-09-30 Amazon Technologies, Inc. Throughput-sensitive redundancy encoding schemes for data storage
CN103092716A (zh) * 2013-01-10 2013-05-08 曙光信息产业(北京)有限公司 纠删码参数获取方法和装置
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZYD_CU: "Jerasure库接口简介及性能测试", 《CHINAUNIX博客》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115437581A (zh) * 2022-11-08 2022-12-06 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN103425771B (zh) 一种数据正则表达式的挖掘方法及装置
US10176213B2 (en) Method and device for verifying consistency of data of master device and slave device
CN103870514B (zh) 重复数据删除方法和装置
CN110347716A (zh) 日志数据处理方法、装置、终端及存储介质
CN104598632B (zh) 热点事件检测方法和装置
CN104601366B (zh) 一种控制、服务节点配置服务的方法及装置
CN109376196A (zh) 一种redo日志批量同步方法及装置
CN106354865A (zh) 一种同步主从数据库的方法、装置和系统
CN110532294A (zh) 话单合并方法、装置、设备及计算机可读存储介质
CN110187838A (zh) 数据io信息处理方法、分析方法、装置和相关设备
CN108446562B (zh) 基于禁忌与人工蜂群双向优化支持向量机的入侵检测方法
CN107239364A (zh) 一种基于运算时间统计的纠删参数提取方法
CN106407226B (zh) 一种数据处理方法、备份服务器及存储系统
CN105049524B (zh) 一种基于hdfs的大规模数据集装载的方法
CN115037543A (zh) 一种基于双向时间卷积神经网络的异常网络流量检测方法
CN107368404A (zh) 一种审计管理方法及系统
CN103399714B (zh) 存储设备配置信息的维护系统及其使用方法
CN110019039A (zh) 元数据分离的容器格式
CN109376553A (zh) 网站后台图片资源完整性的验证方法和系统
CN109960608A (zh) office文档的处理方法和处理系统
CN112905324A (zh) 一种基于电路状态的解压缩方法、系统及介质
CN104123347A (zh) 一种应用于boss系统的数据重删方法及系统
CN107526619A (zh) 版式数据流文件的加载方式
CN108763108A (zh) 记录报文数据的装置及方法
CN109634957A (zh) 一种测井数据动态高效存取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010

RJ01 Rejection of invention patent application after publication