CN102724298A - 一种云环境下存储参数的配置方法 - Google Patents

一种云环境下存储参数的配置方法 Download PDF

Info

Publication number
CN102724298A
CN102724298A CN2012101667653A CN201210166765A CN102724298A CN 102724298 A CN102724298 A CN 102724298A CN 2012101667653 A CN2012101667653 A CN 2012101667653A CN 201210166765 A CN201210166765 A CN 201210166765A CN 102724298 A CN102724298 A CN 102724298A
Authority
CN
China
Prior art keywords
parameter
cloud
parameters
computer
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101667653A
Other languages
English (en)
Inventor
王建民
丁贵广
朱妤晴
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2012101667653A priority Critical patent/CN102724298A/zh
Publication of CN102724298A publication Critical patent/CN102724298A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云环境下存储参数的配置方法,属于计算机数据处理技术领域。首先用户从系统界面输入需优化配置的工作负载参数,从卡珊德拉云存储系统参数列表中,指定本次优化配置所需的启动参数和运行参数;启动云环境存储的所有计算机,在指定启动参数和运行参数下运行;从每台计算机上获取计算机存云储性能指标,将启动参数、运行参数和相应的计算机云存储性能指标组成一条原始运行数据,经格式化处理后得到训练数据集,将启动参数和运行参数输入生成的假设空间,得到计算机存储性能指标,选择相应的最优启动参数和运行参数值返回给用户。使用本方法,操作人员可根据负载参数及计算机云存储性能指标,获得一组或者几组较优云存储配置参数。

Description

一种云环境下存储参数的配置方法
技术领域
本发明涉及一种云环境下存储参数的配置方法,属于计算机数据处理技术领域。
背景技术
通常系统中有大量参数控制内存分布,I/O优化,查询效率,并行等行为,包括普通用户和系统调优专家在内的系统使用者需要花费大量精力和时间将参数配置调到较优。同时,长久以来提升系统管理能力的研究很大程度忽略了系统性能优化方面的问题,而这其实是个很难解决的问题。
针对数据库系统的调优配置问题,S.Duan,V.Thummala,和S.Babu于2009年秋天发表论文“Tuning Database Configuration Parameters with iTuned”,介绍了首个使用预定义实验进行数据库参数调优的实用工具iTuned。其通过设计好的实验积极引入合适的数据以找到高影响力、高性能的配置参数,在产品型数据库上支持在线实验,几乎不会给数据库增加额外负载,并且在不同数据库系统之间具有很好的移植性。
其使用已执行实验的数据预测候选试验的可用性,不对潜在响应曲面形状做出假设,因而可以处理从简单到复杂的各种表面。通过引入一系列的特性以减少调优时间,使其更易扩展到更多参数的配置中去。其中包括可快速消除对性能影响较小参数配置的敏感度分析算法,并行计划与并行实验执行,低可用性实验的提前终止,工作负载的压缩等等。其次还可针对不同负载类型,数据规模,数据库种类,参数数量进行评估。
但iTuned只支持传统关系型数据库上的配置调优,无法对云环境中的存储提供参数配置,而且缺乏一个方便普通用户使用的存储服务部署及集群性能监控手段。
发明内容
本发明的目的是提出一种云环境下存储参数的配置方法,针对卡珊德拉(以下称为Cassandra)云存储系统,设计一种新的配置方法,以方便普通用户使用存储服务部署,对系统内计算机的性能实现可靠、高效的监控。
本发明提出的种云环境下存储参数的配置方法,包括以下步骤:
(1)用户从系统界面输入需优化配置的工作负载参数,包括工作负载类型、事务处理速度和数据量大小;
(2)用户从卡珊德拉云存储系统参数列表中,指定本次优化配置所需的启动参数和运行参数;
(3)启动云环境存储的所有计算机,使计算机根据用户输入的需优化配置的工作负载参数,分别在用户指定的本次优化配置所需的启动参数和运行参数下运行;
(4)根据用户指定的云存储性能指标,分别从每台计算机上获取与上述启动参数和运行参数相应的计算机存云储性能指标,将启动参数、运行参数和相应的计算机云存储性能指标组成一条原始运行数据;
(5)对上述每条原始运行数据进行格式化处理,得到一个训练数据集;
(6)根据上述训练数据集,生成一个假设空间,将卡珊德拉云存储系统参数列表中的启动参数和运行参数依次输入假设空间,得到与卡珊德拉云存储系统启动参数和运行参数相对应的计算机存储性能指标;
(7)从上述步骤(6)的多个计算机存储性能指标中选择最优量,将与该最优量相对应的卡珊德拉云存储系统的启动参数和运行参数值返回给用户,用于云环境下存储参数的配置。
本发明提出的云环境下存储参数的配置方法,其优点是:
1、本发明提出的云环境下存储参数的配置方法,操作人员可以根据指定的负载参数以及关注的计算机云存储性能指标,获得一组或者几组较优云存储配置参数,并且,随着用户提供的训练时间的提升,即可获得更优的配置参数组合。
2、本发明的配置方法,具有一个可视化操作管理平台,用户可以在不了解Linux命令和云存储执行命令的基础上,完成云存储系统的管理配置。
3、本发明提出的云环境下存储参数的配置方法,即时可视化监控启动云环境存储的所有计算机当前性能指标,对启动云环境存储的所有计算机整体性能以及各计算机的性能指标给予图表等可视化界面即时展示,直观便捷。
附图说明
图1是本发明提出的云环境下存储参数的配置方法的流程框图。
具体实施方式
本分明提出的云环境下存储参数的配置方法,其流程框图如图1所示,包括以下步骤:
(1)用户从系统界面输入需优化配置的工作负载参数,包括工作负载类型、事务处理速度和数据量大小;其中工作负载类型表示工作负载是只读负载,只写负载,或者读写负载所占比例的大小,事务处理速度即Transaction Per Second,简称TPS,代表每秒操作云存储系统的事务个数。
(2)用户从卡珊德拉云存储系统的参数列表中,指定本次优化配置所需的启动参数和运行参数;卡珊德拉云存储系统的参数列表格式如下:
表1卡珊德拉云存储系统的启动参数列表
  参数名  默认值   变化范围
  最大消息长度  16   (0,64]
  结构化传输包大小  15   (0,64]
  列索引大小  64   (0,256]
  远程过程调用时间限制  10000   (0,100000]
  提交阈值  8   (0,11]
  并发读操作数  32   (0,64]
  并发写操作数  32   (0,64]
  并发备份数  /   (0,64]
  刷新写操作数  1   (0,64]
  内存压缩限制  64   (0,256]
  并发压缩数  1   (0,64]
  是否支持多线程压缩  是   是,否
  每秒压缩吞吐量  16   (0,64]
  每秒上界流吞吐量  400   (0,800]
  远程过程调用最小线程数  16   (0,50]
  远程过程调用最大线程数  2048   (0,5000]
  远程过程调用发送缓存区大小  null   [0,200]
  远程过程调用接收缓存区大小  null   [0,200]
  同步日志间隔  10000   (0,20000]
  索引读缓存区大小  /   (0,256]
  切片读缓存区大小  64   (0,256]
  是否支持转移提交  是   是,否
  最大提示窗口大小  3600000   (0,36000000]
  索引间隔时间大小  128   (0,600]
  动态更新间隔时间大小  100   (0,6000]
  动态重置间隔时间大小  600000   (0,60000]0
  动态坏点阈值  0.1   [0,1]
  最大刷新数据比例  0.75   [0,1]
  缓存大小减少比例  0.85   [0,1]
  缓存大小设置  0.6   [0,1]
  提交转移延迟  1   (0,12]
  是否预热键值缓存  是   是,否
  刷新队列大小  4   (0,32]
  总数据空间大小  2048   (0,8000]
  总日志空间大小  4096   (0,8000]
表2卡珊德拉云存储系统的运行参数列表
  参数名   默认值   变化范围
  行缓存区大小   0   [0,100000]
  行键缓存比例   1.0   [0,1.0]
  读操作修复比例   1.0   [0,1.0]
  是否支持写时备份   否   是,否
  垃圾回收间隔时间   864000   (0,8640000]
  最小压缩阈值   4   (0,32]
  最大压缩阈值   32   (0,256]
  行缓存存储间隔时间   0   [0,100]
  行键缓存存储间隔时间   3600   (0,36000]
  每次保存行缓存数量   2147483647   (0,2147483647]
  备份时合并几率   0.1   [0,1]
  过滤几率   0   [0,1]
(3)启动云环境存储的所有计算机,使计算机根据上述用户输入的需优化配置的工作负载参数,分别在用户指定的本次优化配置所需的启动参数和运行参数下运行;
其中用户指定的本次优化配置所需的启动参数和运行参数具体取值在表一和表二相应参数的变化范围中随机选取。
(4)根据用户指定的云存储性能指标,分别从每台计算机上获取与上述启动参数和运行参数相应的计算机云存储性能指标,其中的启动参数、运行参数和相应的计算机云存储性能指标组成一条原始运行数据;
(5)对上述每条原始运行数据进行格式化处理,得到一个训练数据集;格式化处理的目的是为了使运行数据可以被插件式参数配置优化模块使用,格式化处理包括两部分,第一部分根据卡珊德拉云存储系统的启动参数和运行参数列表中的每一个启动参数和运行参数生成训练数据集文件头部分的一条数据,该数据由三部分组成,每一部分间由空格进行分隔,第一部分为“attriubte”标识,第二部分为一个卡珊德拉云存储系统的启动参数和运行参数列表中的启动参数和运行参数名称,第三部分为该参数的类型,本发明中该类型都是实数类型。格式化处理的第二部分是根据上述步骤(4)生成的启动参数、运行参数和相应的计算机云存储性能指标组成的每一条原始运行数据使用逗号进行分隔,生成训练数据集的主体部分。
(6)根据上述训练数据集,生成一个假设空间,将上述卡珊德拉云存储系统的启动参数和运行参数列表中的启动参数和运行参数输入假设空间,得到与卡珊德拉云存储系统启动参数和运行参数相对应的计算机存储性能指标;
生成假设空间所用的泛化器具体算法可以在神经元网络算法,决策树算法,遗传算法,K近邻算法等机器学习算法中由用户指定,也可由优化配置系统根据具体预测性能进行选择,预测性能包括预测所需时间以及预测准确率。假设空间由训练数据集和泛化器使用算法生成,假设空间可以是一条直线,也可以是高维空间的一个曲面,通过生成的假设空间,对与卡珊德拉云存储系统的启动参数和运行参数列表中的启动参数和运行参数所对应的计算机云存储性能指标进行预测。
(7)从上述步骤(6)的计算机存储性能指标中选择最优量,将与该最优量相对应的卡珊德拉云存储系统的启动参数和运行参数值返回给用户,用于云环境下存储参数的配置。

Claims (1)

1.一种云环境下存储参数的配置方法,其特征在于该方法包括以下步骤:
(1)用户从系统界面输入需优化配置的工作负载参数,包括工作负载类型、事务处理速度和数据量大小;
(2)用户从卡珊德拉云存储系统参数列表中,指定本次优化配置所需的启动参数和运行参数;
(3)启动云环境存储的所有计算机,使计算机根据用户输入的需优化配置的工作负载参数,分别在用户指定的本次优化配置所需的启动参数和运行参数下运行;
(4)根据用户指定的云存储性能指标,分别从每台计算机上获取与上述启动参数和运行参数相应的计算机云存储性能指标,将启动参数、运行参数和相应的计算机云存储性能指标组成一条原始运行数据;
(5)对上述每条原始运行数据进行格式化处理,得到一个训练数据集;
(6)根据上述训练数据集,生成一个假设空间,将卡珊德拉云存储系统参数列表中的启动参数和运行参数依次输入假设空间,得到与卡珊德拉云存储系统启动参数和运行参数相对应的多个计算机存储性能指标;
(7)从上述步骤(6)的多个计算机存储性能指标中选择最优量,将与该最优量相对应的卡珊德拉云存储系统的启动参数和运行参数值返回给用户,用于云环境下存储参数的配置。
CN2012101667653A 2012-05-25 2012-05-25 一种云环境下存储参数的配置方法 Pending CN102724298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101667653A CN102724298A (zh) 2012-05-25 2012-05-25 一种云环境下存储参数的配置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101667653A CN102724298A (zh) 2012-05-25 2012-05-25 一种云环境下存储参数的配置方法

Publications (1)

Publication Number Publication Date
CN102724298A true CN102724298A (zh) 2012-10-10

Family

ID=46949959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101667653A Pending CN102724298A (zh) 2012-05-25 2012-05-25 一种云环境下存储参数的配置方法

Country Status (1)

Country Link
CN (1) CN102724298A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536808A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种云端应用程序的参数配置方法及系统
CN107436803A (zh) * 2016-05-25 2017-12-05 先智云端数据股份有限公司 工作负载的优化方法
CN110134697A (zh) * 2019-05-22 2019-08-16 南京大学 一种面向键值对存储引擎的参数自动调优方法、装置、系统
CN114616540A (zh) * 2019-12-04 2022-06-10 甲骨文国际公司 大数据机器学习用例的自主云节点范围界定框架

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
US20100228798A1 (en) * 2009-02-24 2010-09-09 Hitachi, Ltd. Geographical distributed storage system based on hierarchical peer to peer architecture
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228798A1 (en) * 2009-02-24 2010-09-09 Hitachi, Ltd. Geographical distributed storage system based on hierarchical peer to peer architecture
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹国定: "云计算--实现概念计算的方法", 《东南大学学报》, vol. 33, no. 4, 31 July 2003 (2003-07-31) *
王德政,申山宏,周宁宁: "云计算环境下的数据存储", 《计算机技术与发展》, vol. 21, no. 4, 30 April 2011 (2011-04-30) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536808A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种云端应用程序的参数配置方法及系统
CN104536808B (zh) * 2014-12-30 2018-11-20 中国科学院深圳先进技术研究院 一种云端应用程序的参数配置方法及系统
CN107436803A (zh) * 2016-05-25 2017-12-05 先智云端数据股份有限公司 工作负载的优化方法
CN107436803B (zh) * 2016-05-25 2020-05-12 先智云端数据股份有限公司 工作负载的优化方法
CN110134697A (zh) * 2019-05-22 2019-08-16 南京大学 一种面向键值对存储引擎的参数自动调优方法、装置、系统
CN114616540A (zh) * 2019-12-04 2022-06-10 甲骨文国际公司 大数据机器学习用例的自主云节点范围界定框架

Similar Documents

Publication Publication Date Title
CN105608144B (zh) 一种基于多层模型迭代的大数据分析平台装置及方法
CN102254246B (zh) 一种工作流管理方法及其系统
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
CN102521406A (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
Bhardwaj et al. Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive
CN101868792A (zh) 经由自适应分割来为并发查询执行分派资源
CN102521405A (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
US8195642B2 (en) Partial indexes for multi-node database
CN105138621B (zh) 一种Sybase ASE数据库配置优化系统及方法
KR20150112357A (ko) 센서 데이터 처리 시스템 및 방법
CN105320757A (zh) 一种快速处理数据的商业智能分析方法
CN103077070B (zh) 云计算管理系统以及云计算系统的管理方法
CN104933160B (zh) 一种面向安全监测业务分析的etl框架设计方法
CN107291770B (zh) 一种分布式系统中海量数据的查询方法及装置
CN102724298A (zh) 一种云环境下存储参数的配置方法
CN103488537A (zh) 一种数据抽取、转换和加载etl的执行方法及装置
CN102722355A (zh) 基于工作流机制的并发式etl转换方法
CN106371924B (zh) 一种最小化MapReduce集群能耗的任务调度方法
CN107193898A (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN107402926A (zh) 一种查询方法以及查询设备
CN105229608A (zh) 基于协处理器的面向数组的数据库处理
Gavagsaz et al. Load balancing in reducers for skewed data in MapReduce systems by using scalable simple random sampling
CN103473848A (zh) 一种基于高并发的网络发票查验构架及方法
CN103365923A (zh) 用于评估数据库的分区方案的方法和装置
CN106909624A (zh) 一种海量数据实时排序优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121010