CN116661685A - 业务行为感知的对象存储元数据分级存储方法与系统 - Google Patents

业务行为感知的对象存储元数据分级存储方法与系统 Download PDF

Info

Publication number
CN116661685A
CN116661685A CN202310564128.XA CN202310564128A CN116661685A CN 116661685 A CN116661685 A CN 116661685A CN 202310564128 A CN202310564128 A CN 202310564128A CN 116661685 A CN116661685 A CN 116661685A
Authority
CN
China
Prior art keywords
metadata
data
storage
hot
cold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310564128.XA
Other languages
English (en)
Inventor
武永卫
陈岩
姜进磊
任峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310564128.XA priority Critical patent/CN116661685A/zh
Publication of CN116661685A publication Critical patent/CN116661685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0622Securing storage systems in relation to access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及分布式存储技术领域,特别涉及业务行为感知的对象存储元数据分级存储方法与系统。本发明提出了一种既不影响性能,又不需要将所有的元数据都放置于SSD中的方法。该方法首先对业务访问数据和元数据的行为进行统计,然后根据元数据访问的频繁度以及元数据和数据访问的亲和度对元数据进行分类,将访问不频繁、和数据访问亲和度高的元数据与数据一起打包存储到冷数据池,而将其他元数据放置于热数据池。实践结果表明,在不影响对象读写性能的前提下,元数据的SSD空间使用量最高可降低94%。本发明提出业务行为感知的元数据分级系统,在不降低性能的前提下,降低了元数据对高速介质的使用量,降低了对象存储系统的元数据储存成本。

Description

业务行为感知的对象存储元数据分级存储方法与系统
技术领域
本发明涉及分布式存储技术领域,特别涉及业务行为感知的对象存储元数据分级存储方法与系统。
背景技术
人工智能(AI)、物联网(IoT)等新兴技术正在以小文件或对象的形式产生大量数据,诸如Ceph、Haystack、Amazon S3之类的对象存储系统被广泛用于存储海量小对象。类似的系统存在于电子产品质检、地理信息测绘等场景中。这些系统通常存储数百亿张图片,文件写入和删除速度达到每秒数千张图片。另外,业务系统在对数据进行分析时,通常只从海量文件中读取若干文件的集合,所以对元数据的管理无法简单的通过文件的存储时间、文件的后缀名等来划分冷热,更需要考虑业务的操作行为来对单个文件的元数据进行更细粒度的类别划分。
对象存储通过提供具有扩展能力的简单接口来服务更大规模的文件数量。私有云下的对象存储集群通常采用SSD固态硬盘和HDD机械硬盘混合的硬件架构,SSD缓存热数据并存储元数据,而HDD提供大容量持久层来存储冷对象。
对于存储成本,人们通常只关注数据部分,通过大规模纠删码来降低数据储存的成本。但是,当储存的数据大部分为小文件时,元数据的成本占比也不容忽视。由于AI等数据分析类业务会对海量小文件进行频繁的读写,对元数据操作有一定写的性能要求,当用SSD承载元数据时,元数据的成本占比会大大提升。
对于分布式系统,因为本地存储引擎最小分配单元的存在,存储小对象时会有空间的写放大问题。为了解决小对象的空间写放大问题,大部分对象存储系统提供小对象归并功能来将小对象归并为大对象,类似的解决方案会带来额外的元数据增量,加剧了元数据的成本压力。
发明内容
针对上述问题,本发明提供业务行为感知的对象存储元数据分级存储方法与系统,用于解决元数据存储成本的问题。
业务行为感知的对象存储元数据分级存储方法,所述方法包括:
对不同业务使用元数据的情况进行采集;
根据采集的结果,将元数据进行冷热分类,得到热数据和冷数据;
构建元数据热数据池和冷数据池;
根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
进一步的,所述不同业务使用元数据的情况,包括系统元数据、索引元数据和对象元数据。
进一步的,所述对不同业务对元数据的使用情况进行采集,具体包括:
在对象网关对不同业务对元数据的使用情况进行采集,采集的内容如下:
业务系统操作={操作平台,操作行为,操作位置,操作人员,对象存储操作};
对象存储操作={操作对象,对象版本,存储位置,<对象元数据,操作时间,大小>,<数据操作,操作时间>}。
进一步的,所述根据采集的结果,将元数据进行冷热分类,具体包括:
根据不同对象元数据被操作的统计结果,将业务系统对元数据的操作分为如下三类:
频繁操作元数据集合:当业务系统操作先读写了对象元数据,然后再对对象元数据进行读写操作,定义元数据属于频繁操作的元数据集合;
同时操作数据元数据集合:当业务操作同时读取对象元数据和对象数据,定义元数据属于和数据同时操作的元数据集合;
未被操作元数据集合:除去上述两种元数据,其它的元数据;
其中频繁操作的元数据集合和同时操作数据的元数据集合为热数据,未被操作的元数据集合为冷数据。
进一步的,所述构建元数据热数据池和冷数据池,包括:
使用高速存储构建元数据热数据池,使用低成本存储构建冷数据池。
进一步的,所述使用高速存储构建元数据热数据池,具体包括:
使用基于SSD的分布式KV构建元数据热数据池。
进一步的,所述使用低成本存储构建冷数据池,具体包括:
使用基于HDD的开源Ceph构建冷数据池。
进一步的,所述构建元数据热数据池和冷数据池,还包括:使用基于SSD的分布式数据池构建用于缓存合并数据的缓存池。
进一步的,所述根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池,具体包括:
将划分为热数据的元数据和小对象在缓存池合并为大对象的索引存储到热数据池;
将划分为冷数据的元数据和小对象的数据部分在缓存池合并为大对象后写入到冷数据池。
业务行为感知的对象存储元数据分级存储系统,包括:依次连接的采集单元、分类单元、构建单元和存储单元;
采集单元,用于对不同业务使用元数据的情况进行采集;
分类单元,用于根据采集的结果,将元数据进行冷热分类,得到热数据和冷数据;
构建单元,用于构建元数据热数据池和冷数据池;
存储单元,用于根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的业务行为感知的对象存储元数据分级存储方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的业务行为感知的对象存储元数据分级存储方法。
本发明至少具备以下有益效果:
本发明提出了一种既不影响性能,又不需要将所有的元数据都放置于SSD中的方法。该方法首先对业务访问数据和元数据的行为进行统计,然后根据元数据访问的频繁度以及元数据和数据访问的亲和度对元数据进行分类,将访问不频繁、和数据访问亲和度高的元数据与数据一起打包存储到冷数据池,而将其他元数据放置于热数据池。实践结果表明,在不影响对象读写性能的前提下,元数据的SSD空间使用量最高可降低94%。
本发明提出业务行为感知的元数据分级系统,在不降低性能的前提下,降低了元数据对高速介质的使用量,降低了对象存储系统的元数据储存成本。
本发明基于元数据分级构建了分布式对象存储元数据系统X-Meta。实验表明,使用基于元数据分级的分布式对象存储系统在承载海量小对象业务时,X-Meta将小对象元数据的SSD使用量降低94%。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例存储方法流程图;
图2为本发明实施例存储系统架构示意图;
图3为本发明X-Meta元数据分级结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,为了满足业务系统对小文件读写性能的要求,对象存储系统通常把元数据放置到固态硬盘(SSD)中对性能进行加速。随着AI和物联网的普及,由自动化设备产生的小文件数量爆炸式增长,元数据占用越来越多的SSD空间,无形中提高了存储系统的成本。
为此,本发明提出了业务行为感知的对象存储元数据分级存储方法及系统,包括业务行为感知的对象存储元数据分级存储方法、业务行为感知的对象存储元数据分级存储系统、一种电子设备和一种计算机可读存储介质。
本发明中,保障元数据的性能并不需要将所有的元数据都放置到SSD中,而是可以根据实际业务操作的需要对元数据进行分类,将实际需要频繁读写的元数据放置于SSD中,而将不需要频繁读写的元数据放置于HDD中,这样既保障了元数据的读写性能,又降低了SSD存储介质的使用量。
将对象存储不同业务模型的元数据操作进行统计和分析,将对象存储的元数据分为三大类:系统元数据、索引元数据、对象元数据。这三类元数据中,本发明将对象索引及单独操作的元数据作为一类元数据放置于SSD中用于业务系统频繁读写,本发明将对象描述信息、权限信息等元数据和对象的数据合并后放置于HDD中用于业务系统数据读写。
经过统计发现,基于元数据分级的元数据管理系统最高可以降低94%的SSD使用量,性能和无分级的元数据管理系统一致。
第一方面,如图1所示,本发明提供了业务行为感知的对象存储元数据分级存储方法,所述方法包括:
对不同业务使用元数据的情况进行采集;
根据采集的结果,将元数据进行冷热分类,得到热数据和冷数据;
构建元数据热数据池和冷数据池;
根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
具体实施时,常操作的元数据内容为热数据,不常操作的元数据内容为冷数据,把不常操作的元数据内容储存在冷数据池来节约成本。
本实施例中,所述不同业务对元数据的使用情况,包括系统元数据、索引元数据和对象元数据。
本实施例中,所述对不同业务对元数据的使用情况进行采集,具体包括:
在对象网关对不同业务对元数据的使用情况进行采集,采集的内容如下:
业务系统操作={操作平台,操作行为,操作位置,操作人员,对象存储操作};
对象存储操作={操作对象,对象版本,存储位置,<对象元数据,操作时间,大小>,<数据操作,操作时间>}。
本实施例中,所述根据采集的结果,将元数据进行冷热分类,具体包括:
根据不同对象元数据被操作的统计结果,将业务系统对元数据的操作分为如下三类:
频繁操作的元数据集合:当业务系统操作先读写了对象元数据,然后再对数据进行读写操作,定义元数据属于频繁操作的元数据集合;
同时操作数据的元数据集合:当业务操作同时读取对象元数据和对象数据,定义元数据属于和数据同时操作的元数据集合;
未被操作的元数据集合:除去上述两种元数据,其它的元数据;
其中频繁操作的元数据集合和同时操作数据的元数据集合为热数据,未被操作的元数据集合为冷数据。
本实施例中,所述构建元数据热数据池和冷数据池,包括:
使用高速存储构建元数据热数据池,使用低成本存储构建冷数据池。
本实施例中,所述使用高速存储构建元数据热数据池,具体包括:
使用基于SSD的分布式KV构建元数据热数据池。
本实施例中,所述使用低成本存储构建冷数据池,具体包括:
使用基于HDD的开源Ceph构建冷数据池。
本实施例中,所述构建元数据热数据池和冷数据池,还包括:使用基于SSD的分布式数据池构建用于缓存合并数据的缓存池。
本实施例中,所述根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池,具体包括:
将划分为热数据的元数据和小对象在缓存池合并为大对象的索引存储到热数据池;
将划分为冷数据的元数据和小对象的数据部分在缓存池合并为大对象后写入到冷数据池。
第二方面,如图2所示,本发明提供了业务行为感知的对象存储元数据分级存储系统,包括:采集单元、分类单元、构建单元和存储单元;
采集单元,用于对不同业务对元数据的使用情况进行采集;
分类单元,用于根据采集的结果,将元数据进行冷热分类;
构建单元,用于构建元数据热数据池和冷数据池;
存储单元,用于根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的业务行为感知的对象存储元数据分级存储方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的业务行为感知的对象存储元数据分级存储方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
为使本领域的技术人员能更好的理解本发明,结合附图对本发明的原理阐述如下:
本发明的目的在于解决分布式对象存储系统在承载海量小文件时元数据消耗SSD过多的问题。
为了解决上述技术问题,本发明提出了业务行为感知的元数据分级存储方法,它包括以下几个步骤:
S1、统计真实业务下不同业务行为关联的元数据操作行为,根据结果对元数据进行分类。对象存储元数据的访问频率有几种可能,即元数据访问频率大于数据访问频率、元数据访问频率小于或等于数据访问频率。根据统计,访问频率较低的元数据通常和数据同时访问或者不会被访问。
S2、根据元数据操作行为将元数据分成不同的热度等级,将不同热度等级的元数据分别存放到不同性能及成本的混合介质内,不同的介质根据需要可分为基于HDD的冷数据存储池和基于SSD的热数据存储池。访问频率较低的元数据通常和数据同时访问,将此类元数据和数据合并后放置到冷数据存储池的相同位置,从而减少一次元数据或者数据的检索过程,提高元数据或数据和访问性能。对于访问频率较高的元数据,放置于基于热数据存储池的分布式KV数据库内,提高访问性能。小对象归并产生的索引数据访问频率较高,需要放置于热数据存储池内。
本发明提出了业务行为感知的元数据分级存储方法,该系统工作方法包括以下步骤:
S1、基于业务操作行为的元数据统计,将业务的操作行为和元数据操作进行关联,根据业务操作行为特征、频率等将每种操作相关的元数据进行分类。
S1.1、在对象存储网关记录不同的业务对对象数据、对象元数据的操作并进行统计。
对象存储的元数据由三类组成:系统元数据、索引元数据、对象元数据,存储网关会将业务操作和元数据操作进行记录:
系统元数据:系统元数据是关于用户和存储桶等的元数据信息,包括和存储桶相关的存储桶版本控制、存储桶标签、数据加密信息、服务器访问日志等,以及和用户相关的权限等信息。这类元数据数量和存储桶或者用户的生命周期相联系,系统元数据在总元数据中的占比少于1%。
索引元数据:第一类索引元数据是关于存储桶的列表类操作元数据,第二类索引元数据是小对象合并相关的元数据(小对象和大对象的映射关系索引),索引元数据在总元数据中的占比约3.4%。
对象元数据:对象的元数据分为系统定义的元数据和用户定义的元数据。系统的元数据包括两种,第一种是仅存储系统修改的元数据(比如对象大小、创建时间等),第二种是可以根据需要修改的系统元数据(比如数据加密相关的信息)。用户自定义元数据以特定字符串开头来和系统元数据区分开(例如,AWS使用“x-amz-meta-”开头标识此元数据为用户自定义元数据)。对象元数据在总元数据中占比约96%。
每一类元数据通常存储在同一类介质中,比如都存储在SSD中。因为占比96%的对象元数据数量多,不同业务使用哪些元数据并不确定,本发明在对象网关对不同业务对元数据的使用情况进行采集,采集的内容如下:
业务系统操作1={客户端,连接,桶A,用户名,对象存储操作1,对象存储操作2};
对象存储操作1={对象X,版本,分片,<对象元数据1,操作时间,大小>,<对象元数据2,操作时间,大小>,<数据操作1,操作时间>};
对象存储操作2={对象Y,版本,分片,<对象元数据1,操作时间,大小>,<对象元数据2,操作时间,大小>,<数据操作1,操作时间>};
业务系统操作2={客户端,连接,桶A,用户名,对象存储操作3,对象存储操作4};
对象存储操作3={对象X,版本,分片,<对象元数据3,操作时间,大小>};
对象存储操作4={对象Y,版本,分片,<对象元数据3,操作时间,大小>};
S1.2、根据记录和统计的结果,将元数据进行冷热分类。
本发明根据不同对象元数据被操作的统计结果,将业务系统对元数据的操作分为如下三类:
频繁操作的元数据集合:当业务系统操作先读写了对象元数据1,然后再对数据进行读写操作,本发明定义元数据1属于频繁操作的元数据集合。索引元数据和少部分对象元数据属于此类;
同时操作数据的元数据集合:当业务操作同时读取对象元数据2和对象数据,本发明定义元数据2属于和数据同时操作的元数据集合。大部分对象元数据属于此类;
未被操作的元数据集合:除去上述两种元数据,其它的元数据在写入存储后并不会被业务系统使用到,可以作为冷数据处理。
根据S1.1收集的操作数据,可以统计业务系统操作1的元数据操作集合S1={<对象元数据1,2次,同时操作数据>,<对象元数据2,2次,同时操作数据>},业务系统操作2的元数据操作集合S2={<对象元数据3,2次,频繁操作元数据>}。根据上述对元数据操作的分类,可以得出不同元数据集合,1)频繁操作的元数据集合={对象元数据3};2)和数据同时操作的元数据集合={对象元数据1,对象元数据2};3)未操作的元数据集合{未被操作到的元数据}。
S2、根据S1章节对元数据的分类,将每个桶内对象对应的元数据的储存位置进行配置,把冷数据储存在冷数据池来节约成本。
S2.1、构建元数据热数据池(可使用基于SSD的分布式KV)、用于缓存合并数据的缓存池(可使用基于SSD的分布式数据池)和冷数据池(可使用基于HDD的开源Ceph)。
S2.2、将划分为热数据的元数据和小对象合并的索引存储到热数据池。
S2.3、将划分为冷数据的元数据和小对象的数据部分在缓存池合并为大对象后写入到冷数据池。
如图3所示,对小对象X进行存储时,本发明得到小对象X的元数据集合S={对象元数据1,对象元数据2,对象元数据3,对象元数据4,对象元数据5};根据S1章节划分的不同分类,本发明将小对象X的元数据集合{<对象元数据3,频繁操作元数据>}存储到热存储区,将小对象X的元数据集合{<对象元数据1,同时操作数据>,<对象元数据2,同时操作数据>,<对象元数据4,未被操作>,<对象元数据5,未被操作>}和小对象合并在一起后存储到冷数据区,从而在不影响业务操作性能的情况下节约了元数据热存储区的空间,降低元数据成本。
表1:开源对象存储系统Ceph元数据规模统计表
元数据规模分析 KV对总数 每KV大小 每节点占用空间
对象元数据 600亿 1~16KB 28TB
桶索引 200亿 256B 1.7TB
小文件索引 200亿 256B 1.7TB
集群合计 1000亿 - ~90TB
每主机合计 - - ~30TB
如表1所示,使用三个节点Ceph集群存储100亿个小对象时元数据数量及SSD空间使用量估算,数据采用EC4+2、元数据采用二副本存储。表1统计了开源对象存储Ceph在存储小对象时在不同子系统下元数据的大小和数量。因为没有独立的元数据存储引擎,Ceph在对象数据的每个数据切片都存储了完整的元数据信息,当副本数较多或者采用纠删码时,元数据的规模随着切片的数量形成浪费。
表2:对象存储系统常见业务元数据操作统计表
如表2所示,表2对对象存储常见操作下数据和元数据的大小和操作行为进行了统计。常见业务操作下不同类型元数据的操作次数统计,虽然对象元数据操作次数大大高于数据操作,但是对象元数据操作和数据操作均同时发生。
表3:X-Meta元数据规模对比表
如表3所示,表3将X-Meta元数据统计及分布和流程开源项目Ceph进行对比,当集群储存100亿小对象时,经过元数据分级之后,元数据热池SSD使用量最高可降低94%。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.业务行为感知的对象存储元数据分级存储方法,其特征在于,所述方法包括:
对不同业务使用元数据的情况进行采集;
根据采集的结果,将元数据进行冷热分类,得到热数据和冷数据;
构建元数据热数据池和冷数据池;
根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
2.根据权利要求1所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述不同业务使用元数据的情况,包括系统元数据、索引元数据和对象元数据。
3.根据权利要求1所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述对不同业务对元数据的使用情况进行采集,具体包括:
在对象网关对不同业务对元数据的使用情况进行采集,采集的内容如下:
业务系统操作={操作平台,操作行为,操作位置,操作人员,对象存储操作};
对象存储操作={操作对象,对象版本,存储位置,<对象元数据,操作时间,大小>,<数据操作,操作时间>}。
4.根据权利要求1所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述根据采集的结果,将元数据进行冷热分类,具体包括:
根据不同对象元数据被操作的统计结果,将业务系统对元数据的操作分为如下三类:
频繁操作元数据集合:当业务系统操作先读写了对象元数据,然后再对对象元数据进行读写操作,定义元数据属于频繁操作的元数据集合;
同时操作数据元数据集合:当业务操作同时读取对象元数据和对象数据,定义元数据属于和数据同时操作的元数据集合;
未被操作元数据集合:除去上述两种元数据,其它的元数据;
其中频繁操作的元数据集合和同时操作数据的元数据集合为热数据,未被操作的元数据集合为冷数据。
5.根据权利要求1所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述构建元数据热数据池和冷数据池,包括:
使用高速存储构建元数据热数据池,使用低成本存储构建冷数据池。
6.根据权利要求5所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述使用高速存储构建元数据热数据池,具体包括:
使用基于SSD的分布式KV构建元数据热数据池。
7.根据权利要求5所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述使用低成本存储构建冷数据池,具体包括:
使用基于HDD的开源Ceph构建冷数据池。
8.根据权利要求5所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述构建元数据热数据池和冷数据池,还包括:使用基于SSD的分布式数据池构建用于缓存合并数据的缓存池。
9.根据权利要求1所述的业务行为感知的对象存储元数据分级存储方法,其特征在于,
所述根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池,具体包括:
将划分为热数据的元数据和小对象在缓存池合并为大对象的索引存储到热数据池;
将划分为冷数据的元数据和小对象的数据部分在缓存池合并为大对象后写入到冷数据池。
10.业务行为感知的对象存储元数据分级存储系统,其特征在于,包括:依次连接的采集单元、分类单元、构建单元和存储单元;
采集单元,用于对不同业务使用元数据的情况进行采集;
分类单元,用于根据采集的结果,将元数据进行冷热分类,得到热数据和冷数据;
构建单元,用于构建元数据热数据池和冷数据池;
存储单元,用于根据冷热分类,把热数据储存在热数据池,把冷数据储存在冷数据池。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9中任一项所述的业务行为感知的对象存储元数据分级存储方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的业务行为感知的对象存储元数据分级存储方法。
CN202310564128.XA 2023-05-18 2023-05-18 业务行为感知的对象存储元数据分级存储方法与系统 Pending CN116661685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310564128.XA CN116661685A (zh) 2023-05-18 2023-05-18 业务行为感知的对象存储元数据分级存储方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310564128.XA CN116661685A (zh) 2023-05-18 2023-05-18 业务行为感知的对象存储元数据分级存储方法与系统

Publications (1)

Publication Number Publication Date
CN116661685A true CN116661685A (zh) 2023-08-29

Family

ID=87723456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310564128.XA Pending CN116661685A (zh) 2023-05-18 2023-05-18 业务行为感知的对象存储元数据分级存储方法与系统

Country Status (1)

Country Link
CN (1) CN116661685A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707743A (zh) * 2024-02-05 2024-03-15 天津凯发电气股份有限公司 一种智慧车站能源管控系统任务执行方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067822A (zh) * 2006-05-03 2007-11-07 国际商业机器公司 用于元数据的分级存储管理的方法和系统
CN104965861A (zh) * 2015-06-03 2015-10-07 上海新炬网络信息技术有限公司 一种数据访问监控装置
CN111427844A (zh) * 2020-04-15 2020-07-17 成都信息工程大学 一种面向文件分级存储的数据迁移系统及方法
CN112328181A (zh) * 2020-11-19 2021-02-05 苏州浪潮智能科技有限公司 一种分布式存储系统的元数据读写方法和装置
CN115963995A (zh) * 2023-01-03 2023-04-14 中能融合智慧科技有限公司 多模态低能耗分布式云存储系统、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067822A (zh) * 2006-05-03 2007-11-07 国际商业机器公司 用于元数据的分级存储管理的方法和系统
CN104965861A (zh) * 2015-06-03 2015-10-07 上海新炬网络信息技术有限公司 一种数据访问监控装置
CN111427844A (zh) * 2020-04-15 2020-07-17 成都信息工程大学 一种面向文件分级存储的数据迁移系统及方法
CN112328181A (zh) * 2020-11-19 2021-02-05 苏州浪潮智能科技有限公司 一种分布式存储系统的元数据读写方法和装置
CN115963995A (zh) * 2023-01-03 2023-04-14 中能融合智慧科技有限公司 多模态低能耗分布式云存储系统、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707743A (zh) * 2024-02-05 2024-03-15 天津凯发电气股份有限公司 一种智慧车站能源管控系统任务执行方法、装置及设备
CN117707743B (zh) * 2024-02-05 2024-05-14 天津凯发电气股份有限公司 一种智慧车站能源管控系统任务执行方法、装置及设备

Similar Documents

Publication Publication Date Title
US11169710B2 (en) Method and apparatus for SSD storage access
CN106662981B (zh) 存储设备、程序和信息处理方法
CN104598495A (zh) 基于分布式文件系统的分级存储方法及系统
US11429630B2 (en) Tiered storage for data processing
CN106528717A (zh) 数据处理方法和系统
CN103890709A (zh) 基于缓存的键值数据库映射和复制
US9275068B2 (en) De-duplication deployment planning
EP3788505B1 (en) Storing data items and identifying stored data items
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN110727406A (zh) 一种数据存储调度方法及装置
CN104615785A (zh) 一种基于TYKY cNosql数据库的数据存储方法及装置
CN116661685A (zh) 业务行为感知的对象存储元数据分级存储方法与系统
US7895247B2 (en) Tracking space usage in a database
CN111737206B (zh) 一种文件重删处理方法、系统、终端及存储介质
US11789639B1 (en) Method and apparatus for screening TB-scale incremental data
Yang et al. Improving f2fs performance in mobile devices with adaptive reserved space based on traceback
Rozier et al. Building intelligence for software defined data centers: modeling usage patterns
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
CN115221174A (zh) 基于人工智能的数据分级存储方法、装置、设备及介质
Cheng et al. Lifespan-based garbage collection to improve SSD's reliability and performance
Wildani et al. Can we group storage? Statistical techniques to identify predictive groupings in storage system accesses
Hua et al. The design and implementations of locality-aware approximate queries in hybrid storage systems
CN117032596B (zh) 数据访问方法及装置、存储介质及电子设备
CN111782588A (zh) 一种文件读取方法、装置、设备和介质
CN111984602B (zh) 数据流的管理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination