CN111427851A - 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备 - Google Patents

一种hdfs跨外部存储系统多层级存储效率优化的方法和设备 Download PDF

Info

Publication number
CN111427851A
CN111427851A CN202010174944.6A CN202010174944A CN111427851A CN 111427851 A CN111427851 A CN 111427851A CN 202010174944 A CN202010174944 A CN 202010174944A CN 111427851 A CN111427851 A CN 111427851A
Authority
CN
China
Prior art keywords
data
node
capacity expansion
external storage
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010174944.6A
Other languages
English (en)
Inventor
张东东
李德新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010174944.6A priority Critical patent/CN111427851A/zh
Publication of CN111427851A publication Critical patent/CN111427851A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种HDFS跨外部存储系统多层级存储效率优化的方法和设备,该方法包括以下步骤:选择用于测试的评估维度;根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;根据对比结果选定最佳扩容方案。通过使用本发明的方案,能够评估生产环境中跨外部存储系统多层级存储效率以及本地传统扩容数据节点的性能、性价对比,能够提供实验环境下两种方式在同一纬度的数据对比,为不同平台因数据剧增所需扩容业务提供一份准确评估系统,提高企业大数据平台利用率。

Description

一种HDFS跨外部存储系统多层级存储效率优化的方法和设备
技术领域
本领域涉及计算机领域,并且更具体地涉及一种HDFS跨外部存储系统多层级存储效率优化的方法和设备。
背景技术
Hadoop社区在HDFS(分布式文件系统)-9806(Allow HDFS block replicas to beprovided by an external storage system)以及相关JIRA中提出了跨外部存储系统的多层级存储设计,发布在Hadoop3.1.0版本;在HDFS-14805(Mounting external stores inHDFS on-the-fly)以及相关JIRA中提出了即时挂载HDFS中的外部存储,在支持高可用性的同时将外部存储动态装入HDFS群集中,同时安装多个远程存储,减少部署开销并简化提供的存储的可用性,以这种方式无缝装载数据,未实现未发布;在HDFS-13069(Enable HDFSto cache data read from external storage systems)以及相关JIRA中提出了启用HDFS缓存从外部存储系统读取的数据,即使用提供的存储(HDFS-9806),HDFS可以处理存储在外部存储系统中的数据,当对外部存储的访问带宽有限、延迟较高时,在HDFS中本地缓存此数据可以加快对数据的后续访问,将外部数据缓存在本地磁盘和SSD上,从而加速远程数据读取,未实现未发布;在HDFS-12090(Handling writes from HDFS to Provided storages)以及相关JIRA中处理如何将数据从HDFS写入提供的外部存储中,未实现未发布。
当前HDFS跨外部存储系统多层级存储技术仅仅实现设计及发布,细节部分还未实现,该架构现在还在实验阶段。但此类以Hadoop系统生态圈为代表的大数据工具,将会被更多的企业所使用。将大数据与外部存储系统(例如云存储系统)联系,将数据存储在HDFS内,然后在定期同步到云上,相当于云端存储的数据是一个back store。这样做的一个好处是防止本地集群的数据遭到意外的破坏或丢失,至少在云端我们还有备份。或者有另外的一些做法是,我们通过一层适配操作,将用户写入集群的数据直接就写到了远端的云上,但是对于用户而言它是无感知的。随着大数据日益剧增,随着该功能的完善、Hadoop社区补丁的更新以及后续新版本的发布,由此带来的一个新的方式和传统采购服务器本地扩容数据节点形成两种可选的方案,如何评估同等存储、计算等能力下哪种方案更具性价比,如何评估同等性价比下哪种方案带来存储、计算等能力更高需要一种准确的评估方式。
发明内容
有鉴于此,本发明实施例的目的在于提出一种HDFS跨外部存储系统多层级存储效率优化的方法和设备,通过使用本发明的方法,能够评估生产环境中跨外部存储系统多层级存储效率以及本地传统扩容数据节点的性能、性价对比,能够提供实验环境下两种方式在同一纬度的数据对比,为不同平台因数据剧增所需扩容业务提供一份准确评估系统,提高企业大数据平台利用率。
基于上述目的,本发明的实施例的一个方面提供了一种HDFS跨外部存储系统多层级存储效率优化的方法,包括以下步骤:
选择用于测试的评估维度;
根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
根据对比结果选定最佳扩容方案。
根据本发明的一个实施例,评估维度包括:
同等能力评估,同等能力评估包括:
存储、计算和查询;
同等预算评估,同等预算评估包括:
资金、时间和风险。
根据本发明的一个实施例,获取传统数据节点扩容性能指标数据包括:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
根据本发明的一个实施例,获取跨外部存储系统多层级存储性能指标数据包括:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
根据本发明的一个实施例,将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比包括:
分别将集群中相同节点的传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行一一对比。
本发明的实施例的另一个方面,还提供了一种HDFS跨外部存储系统多层级存储效率优化的设备,设备包括:
选择模块,选择模块配置为选择用于测试的评估维度;
获取模块,获取模块配置为根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
对比模块,对比模块配置为将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
扩容模块,扩容模块配合为根据对比结果选定最佳扩容方案。
根据本发明的一个实施例,评估维度包括:
同等能力评估,同等能力评估包括:
存储、计算和查询;
同等预算评估,同等预算评估包括:
资金、时间和风险。
根据本发明的一个实施例,获取模块还配置为:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
根据本发明的一个实施例,获取模块还配置为:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
根据本发明的一个实施例,对比模块还配置为:
分别将集群中相同节点的传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行一一对比。
本发明具有以下有益技术效果:本发明实施例提供的HDFS跨外部存储系统多层级存储效率优化的方法,通过选择用于测试的评估维度;根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;根据对比结果选定最佳扩容方案的技术方案,能够评估生产环境中跨外部存储系统多层级存储效率以及本地传统扩容数据节点的性能、性价对比,能够提供实验环境下两种方式在同一纬度的数据对比,为不同平台因数据剧增所需扩容业务提供一份准确评估系统,提高企业大数据平台利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的HDFS跨外部存储系统多层级存储效率优化的方法的示意性流程图;
图2为根据本发明一个实施例的HDFS跨外部存储系统多层级存储效率优化的设备的示意图;
图3为根据本发明一个实施例的实现本发明方法的系统的架构图的示意图;
图4为根据本发明一个实施例的评估纬度架构图的示意图;
图5为根据本发明一个实施例的评估纬度中同等能力架构图的示意图;
图6为根据本发明一个实施例的评估纬度中同等预算架构图的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种HDFS跨外部存储系统多层级存储效率优化的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1选择用于测试的评估维度,评估纬度可以提供两种详细选择项,一种为同等存储(可根据具体需求单选或多选不同存储策略、存储介质)、计算(可单选或多选不同服务)等能力,一种为同等投入预算(可根据具体需求单选或多选时间、资金等预算);
S2根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
S3将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
S4根据对比结果选定最佳扩容方案。
通过本发明的技术方案,能够评估生产环境中跨外部存储系统多层级存储效率以及本地传统扩容数据节点的性能、性价对比,能够提供实验环境下两种方式在同一纬度的数据对比,为不同平台因数据剧增所需扩容业务提供一份准确评估系统,提高企业大数据平台利用率。
在本发明的一个优选实施例中,评估维度包括:
同等能力评估,同等能力评估包括:
存储、计算和查询;
同等预算评估,同等预算评估包括:
资金、时间和风险。
在本发明的一个优选实施例中,获取传统数据节点扩容性能指标数据包括:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
在本发明的一个优选实施例中,获取跨外部存储系统多层级存储性能指标数据包括:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
在本发明的一个优选实施例中,将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比包括:
分别将集群中相同节点的传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行一一对比。
实施例
如图3-6所示,提供了实现本发明方法的一种系统的一个实施例。
如图3所示,该系统调用三层闭环架构完成数据评估:一、评估纬度选择层;二、同等数据获取层;三、数据评估对比层。
第一层提供评估纬度,评估纬度提供两种详细选择项(可根据具体需求添加、删除或重置等),一种为同等存储(可根据具体需求单选或多选不同存储策略、存储介质)、计算(可单选或多选不同服务)等能力,一种为同等投入预算(可根据具体需求单选或多选时间、资金等预算)。
第二层提供两个数据获取模块:2.1传统数据节点扩容性能指标获取模块;2.2跨外部存储系统多层级存储性能指标获取模块。
第三层提供详细数据对比,根据第一层选择的评估纬度提供评估结果。
各层分别具有各自的管理模块和执行模块,各层两个模块之间映射评估维度,实现内部信息统一,各层管理模块形成三层闭环,第一层管理模块向第二层和第三层管理模块提供评估维度信息,第二层和第三层管理模块中映射评估维度实现三层评估维度信息统一。
根据第一层执行模块选择的评估纬度和详细选择项,启动第二层执行模块的两个数据获取模块,并将选择项保存到第三层评估数据对比层的名称项;第二层数据获取模块获取到对应的数据保存到第三层评估对比层对应名称项的数据存储项;第三层根据第一层提供的名称项和第二层提供的数据项,启动数据评估模块评估数据并提供评估参考结果。
1.调用第一层执行模块选择同等能力或同等预算或其他自选的评估纬度如图4所示,评估纬度选择项提供了两种默认详细选择项,使用者可根据具体需求添加、删除或重置,同一场景下可选择多次评估,但每次只支持同一评估纬度。
在评估纬度选择项中选择一种评估纬度,点击“重置”则会恢复至最初选项;点击“保存”的同时,数据传输到第一层与第三层中间的缓存队列池等待;多次选择保存后,点击“提交”,可进入预启动页面,重新审核一遍已保存的评估项,有误可编辑删除,确定无误后,点击“确认”缓存队列池中的数据传输至第二层和第三层,第二层与第三层的评估维度选择项形成对应映射。
评估纬度为同等能力的框架如图5所示,同等能力中的“存储”表现为“硬盘容量”、“HDFS存储”、“Hbase表存储”、“Redis键值对存储”等,“计算”表现为“MapReduce”、“Spark”、“Flink”等,“查询”表现为“文件查询”、“表查询”、“消息查询”等。
“硬盘容量”详细为本地存储量的大小,硬盘类型可选固态硬盘规模与机械硬盘规模,并根据已设置容量大小自动生成最优化存储磁盘阵列配置;“HDFS存储”详细为大数据平台分布式文件系统支持存储容量大小;“Hbase表存储”详细为大数据平台分布式列式存储支持存储量大小;“Redis键值对存储”详细为大数据平台集群模式下键值对存储量大小。
“MapReduce”、“Spark”、“Flink”为大数据平台分布式计算能力等级。
“文件查询”详细为本地或HDFS存储查询吞吐量及速度;“表查询”详细为HbaseSQL、HiveSQL、SparkSQL查询速度;“消息查询”详细为“Kafka”消息队列查询速度以及“Storm”、“SparkStreaming”等流处理速度。
评估纬度为同等预算的框架如图6所示,同等预算选项中“资金”表现为所提供资金成本,“时间”表现为所能承受时间成本,“风险”表现为所能接受的风险系数。
2.调用第二层执行模块获取待对比数据,管理模块接收到评估维度详细信息后与执行模块和第三层管理模块映射,同时启动传统数据节点扩容性能指标获取模块和跨外部存储系统多层级存储性能指标获取模块。
获取传统数据节点扩容性能指标数据的方法为,设当前集群节点为N,获取当前性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群,该模块分为信息管理层和触发执行层,信息管理层负责N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群信息管理和各类型评估选项信息管理,触发执行层负责执行不同节点执行性能数据获取,将产生的最终数据与第二层管理模块映射,第二层管理模将数据映射至第三层管理模块。
获取跨外部存储系统多层级存储性能指标数据的方法为,设当前集群节点为N,获取当前性能数据后,对集群以外部存储系统(例如云存储系统)方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群,该模块分为信息管理层和触发执行层,信息管理层负责N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群信息管理和各类型评估选项信息管理,触发执行层负责执行不同节点执行性能数据获取,将产生的最终数据与第二层管理模块映射,第二层管理模将数据映射至第三层管理模块。
3.调用第三层执行模块评估对比数据,第三层管理模块映射到第二层管理模块的最终数据后与评估维度详细信息匹配并,同时启动数据评估模块评估数据。第二层获取到的数据信息同步到第三层,保存并同步数据评估层数据信息。然后将传统方式扩容的各节点性能数据与外部存储系统(例如云存储系统)方式扩容各节点性能数据对比,多次执行获取对比结果,根据对比结果即选定最佳扩容方案。
通过本发明的技术方案,能够评估生产环境中跨外部存储系统多层级存储效率以及本地传统扩容数据节点的性能、性价对比,能够提供实验环境下两种方式在同一纬度的数据对比,为不同平台因数据剧增所需扩容业务提供一份准确评估系统,提高企业大数据平台利用率。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种HDFS跨外部存储系统多层级存储效率优化的设备,如图2所示,设备200包括:
选择模块,选择模块配置为选择用于测试的评估维度;
获取模块,获取模块配置为根据评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
对比模块,对比模块配置为将传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
扩容模块,扩容模块配合为根据对比结果选定最佳扩容方案。
在本发明的一个优选实施例中,评估维度包括:
同等能力评估,同等能力评估包括:
存储、计算和查询;
同等预算评估,同等预算评估包括:
资金、时间和风险。
在本发明的一个优选实施例中,获取模块还配置为:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
在本发明的一个优选实施例中,获取模块还配置为:
以当前集群节点为N,获取当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
在本发明的一个优选实施例中,对比模块还配置为:
分别将集群中相同节点的传统数据节点扩容性能指标数据与跨外部存储系统多层级存储性能指标数据进行一一对比。
需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。
此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (10)

1.一种HDFS跨外部存储系统多层级存储效率优化的方法,其特征在于,包括以下步骤:
选择用于测试的评估维度;
根据所述评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
将所述传统数据节点扩容性能指标数据与所述跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
根据所述对比结果选定最佳扩容方案。
2.根据权利要求1所述的方法,其特征在于,所述评估维度包括:
同等能力评估,所述同等能力评估包括:
存储、计算和查询;
同等预算评估,所述同等预算评估包括:
资金、时间和风险。
3.根据权利要求1所述的方法,其特征在于,获取传统数据节点扩容性能指标数据包括:
以当前集群节点为N,获取所述当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取所述N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
4.根据权利要求1所述的方法,其特征在于,获取跨外部存储系统多层级存储性能指标数据包括:
以当前集群节点为N,获取所述当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取所述N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
5.根据权利要求1所述的方法,其特征在于,将所述传统数据节点扩容性能指标数据与所述跨外部存储系统多层级存储性能指标数据进行对比包括:
分别将集群中相同节点的所述传统数据节点扩容性能指标数据与所述跨外部存储系统多层级存储性能指标数据进行一一对比。
6.一种HDFS跨外部存储系统多层级存储效率优化的设备,其特征在于,所述设备包括:
选择模块,所述选择模块配置为选择用于测试的评估维度;
获取模块,所述获取模块配置为根据所述评估维度获取传统数据节点扩容性能指标数据并获取跨外部存储系统多层级存储性能指标数据;
对比模块,所述对比模块配置为将所述传统数据节点扩容性能指标数据与所述跨外部存储系统多层级存储性能指标数据进行对比,获取对比结果;
扩容模块,所述扩容模块配合为根据所述对比结果选定最佳扩容方案。
7.根据权利要求6所述的设备,其特征在于,所述评估维度包括:
同等能力评估,所述同等能力评估包括:
存储、计算和查询;
同等预算评估,所述同等预算评估包括:
资金、时间和风险。
8.根据权利要求6所述的设备,其特征在于,所述获取模块还配置为:
以当前集群节点为N,获取所述当前集群节点性能数据后,对集群以传统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取所述N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
9.根据权利要求6所述的设备,其特征在于,所述获取模块还配置为:
以当前集群节点为N,获取所述当前集群节点性能数据后,对集群以外部存储系统方式扩容至N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点集群;
获取所述N+3、N+13、N+30、N+53、N+73、N+93、N+113、N+213、N+413节点的性能数据。
10.根据权利要求6所述的设备,其特征在于,所述对比模块还配置为:
分别将集群中相同节点的所述传统数据节点扩容性能指标数据与所述跨外部存储系统多层级存储性能指标数据进行一一对比。
CN202010174944.6A 2020-03-13 2020-03-13 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备 Withdrawn CN111427851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174944.6A CN111427851A (zh) 2020-03-13 2020-03-13 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174944.6A CN111427851A (zh) 2020-03-13 2020-03-13 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备

Publications (1)

Publication Number Publication Date
CN111427851A true CN111427851A (zh) 2020-07-17

Family

ID=71546576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174944.6A Withdrawn CN111427851A (zh) 2020-03-13 2020-03-13 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备

Country Status (1)

Country Link
CN (1) CN111427851A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559445A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 数据写入方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559445A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 数据写入方法及装置
CN112559445B (zh) * 2020-12-11 2022-12-27 上海哔哩哔哩科技有限公司 数据写入方法及装置

Similar Documents

Publication Publication Date Title
US10885018B2 (en) Containerization for elastic and scalable databases
JP6044539B2 (ja) 分散ストレージシステムおよび方法
US9659031B2 (en) Systems and methods of simulating the state of a distributed storage system
US9852204B2 (en) Read-only operations processing in a paxos replication system
US20140344222A1 (en) Method and apparatus for replication size estimation and progress monitoring
US8402119B2 (en) Real-load tuning of database applications
US11080207B2 (en) Caching framework for big-data engines in the cloud
US8423517B2 (en) System and method for determining the age of objects in the presence of unreliable clocks
US10642530B2 (en) Global occupancy aggregator for global garbage collection scheduling
CN110018786A (zh) 用于预测数据存储特性的系统和方法
CN111708738A (zh) 实现hadoop文件系统hdfs与对象存储s3数据互访方法及系统
US20190227928A1 (en) Cost-based garbage collection scheduling in a distributed storage environment
WO2023061249A1 (zh) 分布式数据库的数据处理方法、系统、设备和存储介质
CN107798063A (zh) 快照处理方法和快照处理装置
CN113190384B (zh) 基于纠删码的数据恢复控制方法、装置、设备及介质
CN111427851A (zh) 一种hdfs跨外部存储系统多层级存储效率优化的方法和设备
US11934927B2 (en) Handling system-characteristics drift in machine learning applications
CN111444148A (zh) 基于MapReduce的数据传输方法和装置
CN116303246A (zh) 存储增量统计方法、装置、计算机设备及存储介质
US9529812B1 (en) Timestamp handling for partitioned directories
CN113535673B (zh) 生成配置文件及数据处理的方法和装置
CN115357352A (zh) 分布式异步任务调度方法、装置、计算机设备、存储介质
CN113297231A (zh) 数据库处理方法及装置
JP5048072B2 (ja) 情報検索システム、情報検索方法及びプログラム
US20150215404A1 (en) Replication device, replication method, and replication system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200717

WW01 Invention patent application withdrawn after publication