CN111338570B - 一种并行文件系统io优化方法与系统 - Google Patents

一种并行文件系统io优化方法与系统 Download PDF

Info

Publication number
CN111338570B
CN111338570B CN202010094695.XA CN202010094695A CN111338570B CN 111338570 B CN111338570 B CN 111338570B CN 202010094695 A CN202010094695 A CN 202010094695A CN 111338570 B CN111338570 B CN 111338570B
Authority
CN
China
Prior art keywords
file system
optimization
storage
meta
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010094695.XA
Other languages
English (en)
Other versions
CN111338570A (zh
Inventor
曹代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010094695.XA priority Critical patent/CN111338570B/zh
Publication of CN111338570A publication Critical patent/CN111338570A/zh
Application granted granted Critical
Publication of CN111338570B publication Critical patent/CN111338570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种并行文件系统IO优化方法与系统,本发明通过分层分步对Tstor3000文件系统进行调优,分别从设备BIOS、底层存储设备、系统IO调度以及文件系统配置四个方面对文件系统IO进行优化:通过服务器CPU性能调优实现设备BIOS的优化;通过底层文件系统的选择、格式化参数以及挂载参数的优化实现底层存储设备的优化;通过IO参数的优化实现系统IO调度的优化;通过meta、storage、客户端以及网络的优化实现文件系统配置的优化。通过本发明的调优,集群性能得到了大幅提升,在一定硬件条件下,最大发挥硬件性能,提升集群吞吐量,本发明在不增加硬件成本的情况下,相比其他产品,性能优势更具有竞争力。

Description

一种并行文件系统IO优化方法与系统
技术领域
本发明涉及服务器存储技术领域,特别是一种并行文件系统IO优化方法与系统。
背景技术
浪潮Tstor3000并行存储系统是专门针对高性能计算开发和优化的并行文件存储系统,其基于BeeGFS文件系统商业版本开发,为了提高应用的扩展性能和灵活性实现了分布式元数据架构。
BeeGFS是领先的并行群集文件系统,开发时非常注重性能,并且设计用于非常简单的安装和管理。BeeGFS将用户数据透明的分布到多个服务器上,通过增加系统中的服务器和磁盘数量,可简单地将文件系统性能和容量扩展到需要的级别,无缝的从小集群扩展到拥有数千万节点的企业级系统。
BeeGFS将多个存储服务器结合在一起,提供具有条带化文件内容的高度扩展的共享网络文件系统,可让用户克服单台服务器、单网络互联,数量有限的硬盘驱动器等严格的性能限制。在这样的系统中,大量客户端的高吞吐量需求很容易满足,但即使是单个客户端也可以从系统中所有存储服务器的聚合性能中受益。
浪潮Tstor3000采用NVMe设备作为底层存储设备,可极大提高文件系统的IO吞吐和IOPS性能。其性能有数倍的提升;可大幅降低延迟;NVMe可以把最大队列深度从32提升到64000,SSD的IOPS能力也会得到大幅提升,自动功耗状态切换和动态能耗管理功能大大降低功耗;NVMe标准的出现解决了不同PCIe SSD之间的驱动适用性问题。
虽然NVMe在硬件上提高了Tstor3000的IO性能,但是由于软件的限制,硬件的优势并不能完全发挥出来,且采用硬件提升IO性能,成本较高,只能依靠硬件的数量提升IO性能。
发明内容
本发明的目的是提供一种并行文件系统IO优化方法与系统,旨在解决现有技术中依赖硬件提高IO性能存在成本高的问题,实现在一定硬件条件下,最大发挥硬件性能,提升集群吞吐量,降低成本。
为达到上述技术目的,本发明提供了一种并行文件系统IO优化方法,所述方法包括以下步骤:
S1、在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
S2、在底层存储设备层面,对于Storage target选择XFS文件系统,Metatarget采用ext4文件系统;在格式化参数时,Storage target中NVMe设备采用默认参数,Metatarget增加i-节点数量、日志大小;在挂载时,Storagetarget将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
优选地,所述方法还包括通过设置IO参数优化系统IO调度,所述IO参数的设置包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
优选地,所述方法还包括通过meta、storage、客户端以及网络的参数设置优化文件系统配置,所述meta、storage、客户端以及网络的参数设置具体为:
调整meta、storage、客户端的最大连接数;
客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
本发明还提供了一种并行文件系统IO优化系统,所述系统包括:
设备BIOS优化模块,用于在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
底层存储设备优化模块,用于在底层存储设备层面,对于Storage target选择XFS文件系统,Meta target采用ext4文件系统;在格式化参数时,Storagetarget中NVMe设备采用默认参数,Meta target增加i-节点数量、日志大小;在挂载时,Storage target将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
优选地,所述系统还包括:
系统IO调度优化模块,用于通过设置IO参数优化系统IO调度;
所述IO参数的设置包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
优选地,所述系统还包括:
文件系统配置优化模块,用于通过meta、storage、客户端以及网络的参数设置优化文件系统配置;
所述meta、storage、客户端以及网络的参数设置具体为:
调整meta、storage、客户端的最大连接数;
客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
本发明还提供了一种并行文件系统IO优化设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的并行文件系统IO优化方法。
本发明还提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的并行文件系统IO优化方法。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过分层分步对Tstor3000文件系统进行调优,分别从设备BIOS、底层存储设备、系统IO调度以及文件系统配置四个方面对文件系统IO进行优化:通过服务器CPU性能调优实现设备BIOS的优化;通过底层文件系统的选择、格式化参数以及挂载参数的优化实现底层存储设备的优化;通过IO参数的优化实现系统IO调度的优化;通过meta、storage、客户端以及网络的优化实现文件系统配置的优化。通过本发明的调优,集群性能得到了大幅提升,在一定硬件条件下,最大发挥硬件性能,提升集群吞吐量,本发明在不增加硬件成本的情况下,相比其他产品,性能优势更具有竞争力。
附图说明
图1为本发明实施例中所提供的一种并行文件系统IO优化方法流程图;
图2为本发明实施例中所提供的一种并行文件系统IO优化系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种并行文件系统IO优化方法与系统进行详细说明。
如图1所示,本发明公开了一种并行文件系统IO优化方法,所述方法包括以下步骤:
S1、在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
S2、在底层存储设备层面,对于Storage target选择XFS文件系统,Metatarget采用ext4文件系统;在格式化参数时,Storage target中NVMe设备采用默认参数,Metatarget增加i-节点数量、日志大小;在挂载时,Storagetarget将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
本发明实施例使用6台浪潮NF5280M5为测试集群,4台NF5280M5配置8块NVMe硬盘,作为BeeGFS的存储服务端,2台NF5280M5配置8块NVMe硬盘,作为BeeGFS的metadata服务端。
分别从设备BIOS、底层存储设备方面对文件系统IO进行优化。
所述设备BIOS的优化主要涉及服务器CPU性能调优,通过设置CPU参数,使得CPU一直保持高主频,使得CPU可以高效率处理工作任务,另外将CPU超线程关闭,减少因进程调度对CPU性能的影响。
所述底层存储设备的优化包括底层文件系统的选择、格式化参数以及挂载参数的优化。在本发明实施例中,Storage target选择XFS文件系统,其数据安全性高,磁盘上的文件不会因为意外宕机而遭到破坏,另外XFS采用优化算法,日志记录对整体文件操作影响非常小,查询和分配存储空间非常快,能连续提供快速的反应时间,相比其他文件系统,XFS能以接近裸设备I/O的性能存储数据。Meta target采用ext4文件系统,ext4取消了对支持子目录数量的限制,使用64位空间记录块数量和i-节点数量,支持快速fsck,ext4上述功能提高了Tstor3000的meta信息的存储和文件系统的检查修复。
Storage target在格式化时,NVMe设备采用默认参数即可发挥性能优势。在NVMe挂载时,将时间戳功能关闭,同时提高日志记录的buf和size,采用large IO模式,充分发挥XFS文件系统性能。Meta target在格式化时,通过增加i-节点数量、日志大小,挂载时只需要关闭时间戳功能,同时开启Extendedattributes功能。
所述方法还包括在系统IO调度以及文件系统配置方面对文件系统IO进行优化。
所述系统IO调度的优化包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
所述文件系统配置的优化包括meta、storage、客户端以及网络的优化,对于meta、storage、客户端三者的优化,调整最大连接数、任务并发进程数等参数,storage最大连接数视使用的底层磁盘数量决定,meta和客户端根据CPU核数调整数值大小。对于网络调优主要在客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
本发明实施例通过分层分步对Tstor3000文件系统进行调优,分别从设备BIOS、底层存储设备、系统IO调度以及文件系统配置四个方面对文件系统IO进行优化:通过服务器CPU性能调优实现设备BIOS的优化;通过底层文件系统的选择、格式化参数以及挂载参数的优化实现底层存储设备的优化;通过IO参数的优化实现系统IO调度的优化;通过meta、storage、客户端以及网络的优化实现文件系统配置的优化。通过本发明的调优,集群性能得到了大幅提升,在一定硬件条件下,最大发挥硬件性能,提升集群吞吐量,本发明在不增加硬件成本的情况下,相比其他产品,性能优势更具有竞争力。
如图2所示,本发明实施例还公开了一种并行文件系统IO优化系统,所述系统包括:
设备BIOS优化模块,用于在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
底层存储设备优化模块,用于在底层存储设备层面,对于Storage target选择XFS文件系统,Meta target采用ext4文件系统;在格式化参数时,Storagetarget中NVMe设备采用默认参数,Meta target增加i-节点数量、日志大小;在挂载时,Storage target将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
所述设备BIOS的优化主要涉及服务器CPU性能调优,通过设置CPU参数,使得CPU一直保持高主频,使得CPU可以高效率处理工作任务,另外将CPU超线程关闭,减少因进程调度对CPU性能的影响。
所述底层存储设备的优化包括底层文件系统的选择、格式化参数以及挂载参数的优化。在本发明实施例中,Storage target选择XFS文件系统,其数据安全性高,磁盘上的文件不会因为意外宕机而遭到破坏,另外XFS采用优化算法,日志记录对整体文件操作影响非常小,查询和分配存储空间非常快,能连续提供快速的反应时间,相比其他文件系统,XFS能以接近裸设备I/O的性能存储数据。Meta target采用ext4文件系统,ext4取消了对支持子目录数量的限制,使用64位空间记录块数量和i-节点数量,支持快速fsck,ext4上述功能提高了Tstor3000的meta信息的存储和文件系统的检查修复。
Storage target在格式化时,NVMe设备采用默认参数即可发挥性能优势。在NVMe挂载时,将时间戳功能关闭,同时提高日志记录的buf和size,采用large IO模式,充分发挥XFS文件系统性能。Meta target在格式化时,通过增加i-节点数量、日志大小,挂载时只需要关闭时间戳功能,同时开启Extendedattributes功能。
所述系统还包括系统IO调度优化模块以及文件系统配置优化模块。
所述系统IO调度的优化包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
所述文件系统配置的优化包括meta、storage、客户端以及网络的优化,对于meta、storage、客户端三者的优化,调整最大连接数、任务并发进程数等参数,storage最大连接数视使用的底层磁盘数量决定,meta和客户端根据CPU核数调整数值大小。对于网络调优主要在客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
本发明实施例还公开了一种并行文件系统IO优化设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的并行文件系统IO优化方法。
本发明实施例还公开了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的并行文件系统IO优化方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种并行文件系统IO优化方法,其特征在于,所述方法包括以下步骤:
S1、在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
S2、在底层存储设备层面,对于Storage target选择XFS文件系统,Meta target采用ext4文件系统;在格式化参数时,Storage target中NVMe设备采用默认参数,Meta target增加i-节点数量、日志大小;在挂载时,Storage target将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
2.根据权利要求1所述的一种并行文件系统IO优化方法,其特征在于,所述方法还包括通过设置IO参数优化系统IO调度,所述IO参数的设置包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
3.根据权利要求1所述的一种并行文件系统IO优化方法,其特征在于,所述方法还包括通过meta、storage、客户端以及网络的参数设置优化文件系统配置,所述meta、storage、客户端以及网络的参数设置具体为:
调整meta、storage、客户端的最大连接数;
客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
4.一种并行文件系统IO优化系统,其特征在于,所述系统包括:
设备BIOS优化模块,用于在设备BIOS层面,通过设置CPU参数保持高主频以及关闭CPU超线程优化设备BIOS;
底层存储设备优化模块,用于在底层存储设备层面,对于Storage target选择XFS文件系统,Meta target采用ext4文件系统;在格式化参数时,Storage target中NVMe设备采用默认参数,Meta target增加i-节点数量、日志大小;在挂载时,Storage target将时间戳关闭,同时提高日志记录的缓冲区大小和数量,Meta target将时间戳关闭,同时开启Extended attributes功能。
5.根据权利要求4所述的一种并行文件系统IO优化系统,其特征在于,所述系统还包括:
系统IO调度优化模块,用于通过设置IO参数优化系统IO调度;
所述IO参数的设置包括限制内存脏数据大小为20、内核回收百分比50%,一直开启transparent_hugepage、底层磁盘scheduler设置为deadline、提高预读写缓存到256。
6.根据权利要求4所述的一种并行文件系统IO优化系统,其特征在于,所述系统还包括:
文件系统配置优化模块,用于通过meta、storage、客户端以及网络的参数设置优化文件系统配置;
所述meta、storage、客户端以及网络的参数设置具体为:
调整meta、storage、客户端的最大连接数;
客户端配置文件中调整RDMA缓冲区大小以及缓冲区数量。
7.一种并行文件系统IO优化设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现根据权利要求1至3任一项所述的并行文件系统IO优化方法。
8.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现根据权利要求1至3任一项所述的并行文件系统IO优化方法。
CN202010094695.XA 2020-02-16 2020-02-16 一种并行文件系统io优化方法与系统 Active CN111338570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094695.XA CN111338570B (zh) 2020-02-16 2020-02-16 一种并行文件系统io优化方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094695.XA CN111338570B (zh) 2020-02-16 2020-02-16 一种并行文件系统io优化方法与系统

Publications (2)

Publication Number Publication Date
CN111338570A CN111338570A (zh) 2020-06-26
CN111338570B true CN111338570B (zh) 2022-07-22

Family

ID=71183426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094695.XA Active CN111338570B (zh) 2020-02-16 2020-02-16 一种并行文件系统io优化方法与系统

Country Status (1)

Country Link
CN (1) CN111338570B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854388B (zh) * 2010-05-17 2014-06-04 浪潮(北京)电子信息产业有限公司 一种集群存储中并行访问大量小文件的方法及系统
CN106020720B (zh) * 2016-05-16 2018-12-14 浪潮电子信息产业股份有限公司 一种Smart Rack节点IO性能优化的方法
CN107608907B (zh) * 2017-09-30 2020-10-23 华为技术有限公司 一种存储系统中垃圾回收的方法及装置

Also Published As

Publication number Publication date
CN111338570A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
US11169967B2 (en) Selective deduplication
TWI737395B (zh) 日誌結構儲存系統及方法
TWI766309B (zh) 日誌結構儲存系統
US7680771B2 (en) Apparatus, system, and method for database provisioning
US11048591B1 (en) Efficient name space organization in a global name space cluster
US20150106578A1 (en) Systems, methods and devices for implementing data management in a distributed data storage system
CN104978362B (zh) 分布式文件系统的数据迁移方法、装置及元数据服务器
US20150205819A1 (en) Techniques for optimizing data flows in hybrid cloud storage systems
CN111881116A (zh) 数据迁移方法、数据迁移系统、计算机系统和存储介质
US11442927B1 (en) Storage performance-based distribution of deduplicated data to nodes within a clustered storage environment
US20040148479A1 (en) Method, system, and program for transferring data
CN113553346B (zh) 大规模实时数据流一体化处理、转发和存储方法及系统
CN103516549A (zh) 一种基于共享对象存储的文件系统元数据日志机制
CN107818111A (zh) 一种缓存文件数据的方法、服务器及终端
US20190163575A1 (en) Processing i/o operations in parallel while maintaining read/write consistency using range and priority queues in a data protection system
US10572464B2 (en) Predictable allocation latency in fragmented log structured file systems
US11397711B1 (en) Proxy-based database scaling
CN110704431A (zh) 一种海量数据的分级存储管理方法
US20200042473A1 (en) Managing storage system performance
CN111338570B (zh) 一种并行文件系统io优化方法与系统
Ren et al. Dissecting the workload of cloud storage system
Mkandawire Improving backup and restore performance for deduplication-based cloud backup services
US10140190B1 (en) Efficient transaction log flushing
US20240028472A1 (en) System and method for managing network bandwidth for medium and large file sizes stored in a network attached storage system
US20240028474A1 (en) System and method for managing a backup of a large set of files using a file system analysis for data stored in a network attached storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant