CN116775580A - 一种文件系统中的热度识别方法、装置及计算机设备 - Google Patents

一种文件系统中的热度识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN116775580A
CN116775580A CN202210224941.8A CN202210224941A CN116775580A CN 116775580 A CN116775580 A CN 116775580A CN 202210224941 A CN202210224941 A CN 202210224941A CN 116775580 A CN116775580 A CN 116775580A
Authority
CN
China
Prior art keywords
heat
access
access object
file
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210224941.8A
Other languages
English (en)
Inventor
杨伦
付克博
沈建强
李亚飞
魏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210224941.8A priority Critical patent/CN116775580A/zh
Priority to PCT/CN2023/077025 priority patent/WO2023169188A1/zh
Publication of CN116775580A publication Critical patent/CN116775580A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文件系统中的热度识别方法、装置及计算机设备,应用于计算机技术领域。在该方法中,获取来自应用程序的访问请求,确定访问请求的访问对象和访问类型;统计每个访问对象的相同访问类型的访问频次;根据每个访问对象的存储路径和每个访问对象的相同访问类型的访问频次,同步更新访问对象的热度和访问对象在存储路径中父节点方向上每个节点的热度,父节点的热度为父节点下每个子节点热度之和。在本申请实施例中,不仅统计、更新访问对象的热度,还统计、更新目录的热度,有助于实现目录级别的存储分析、优化,并且同步更新访问对象及其父节点的热度,解决了上层目录热度更新滞后的问题。

Description

一种文件系统中的热度识别方法、装置及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文件系统中的热度识别方法、装置及计算机设备。
背景技术
根据时间局域性原理,正在被访问的数据在近期很可能会再次被访问,形成数据热点。数据冷热识别,对优化存储系统非常重要,它是实现数据冷热分级、数据放置和迁移的基础,也是存储系统实现高性价比必不可少的因素。
传统存储系统的数据冷热识别主要基于数据块,但随着非结构化数据的规模越来越大,存储系统中需要识别的文件数量和大小分别达到亿级别和千兆级别。除了识别文件的热度,有时还需记录目录的热度,构建目录热度有助于用户更全面地感知数据的冷热,进行数据分析和挖掘,以及目录级别的数据流动。目录的热度为目录下文件和子目录的热度之和。按照传统的方案,在用户请求获取某个目录的热度时,对整个目录下的文件和子目录进行递归遍历求和得到目录热度。
但是,当文件目录数量很大时,递归遍历消耗的时间将变得很大。且文件和目的热度在更新时,自下而上逐层遍历,会导致上层目录热度更新滞后,无法满足实时性要求。
发明内容
本申请提供一种文件系统中的热度识别方法、装置及计算机设备,用于实现文件、目录的同步更新,避免上层目录更新滞后的问题。
第一方面,本申请提供一种文件系统中的热度识别方法,该方法包括:获取来自应用程序的访问请求,确定所述访问请求的访问对象;统计每个访问对象的访问频次;根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。在本申请实施例中,不仅统计、更新访问对象的热度,还统计、更新目录的热度,有助于实现目录级别的存储分析、优化;此外,同步更新访问对象及其父节点方向上每个节点的热度。当后续需要查询父节点方向上任一节点的热度时,可以把更新后的热度数据直接返回给用户。而不用临时统计热度信息,因此该方案解决了上层目录热度更新滞后的问题,不存在目录树中的上层目录热度更新滞后、文件和目录热度时间不同步的问题,在需要输出目录热度时,不会因为目录热度更新滞后而输出未更新的热度信息,也不需要在需要输出目录热度时临时对目录的热度进行更新,对于大文件系统,能够满足实时性要求。
在一种可能的实现方式中,所述方法还包括:根据所述访问请求确定针对所述访问对象的访问类型;所述统计每个访问对象的访问频次,包括:统计每个访问对象的相同访问类型的访问频次。针对相同的访问对象,可以进一步区分不同访问类型的热度,例如分别统计对同一访问对象的读操作的热度、写操作的热度,能够更加细致了解用户对该访问对象的需求,从而进行更加合理的存储优化等。
在一种可能的实现方式中,所述访问对象包括文件目录、文件或者文件中的数据块。
在一种可能的实现方式中,所述确定所述访问请求的访问对象,包括:根据所述访问请求中的对象标识确定请求访问的文件,根据所述访问请求中的偏移量和长度,确定访问对象位于所述文件中的一个或多个块;所述根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,包括:根据所述一个或多个块的存储路径和所述一个或多个块的访问频次,同步更新所述一个或多个块的热度、所述文件的热度,以及所述文件在存储路径中父节点方向上每个节点的热度。在该实现方式中,可以对较大的文件进行分块存储,在统计热度时,针对每个块单独计算热度,根据热度对不同块的存储进行优化,而不必对整个文件进行缓存等。
在一种可能的实现方式中,所述方法还包括:周期性对每个访问对象的热度进行衰减;若第一访问对象的热度衰减至小于或等于预设阈值,则删除所述第一访问对象的热度。在本申请实施例中,由于无需设置单独的元数据,也没有了元数据独立的存储空间,因此需要考虑热度信息的大小及存储空间大小的问题,而随着时间积累,访问对象逐渐增加,热度信息也在逐渐增加,可能会导致热度信息存储空间不足的问题。对热度较低的访问对象的热度信息进行删减,以控制热度信息的所占用的存储空间。
在一种可能的实现方式中,所述对每个访问对象的热度进行衰减,包括:将每个访问对象的热度乘以衰减系数;若乘以衰减系数后的值为非整数,则以1减去衰减系数的概率向下取整,以衰减系数的概率向上取整。若均采用向上取整或向下取整,则子节点的热度之和与父节点的热度就会存在差异,不利于后续根据热度对访问对象进行存储优化;而上述方法可以使得子节点的热度之和与父节点的热度相等或近似相等。
在一种可能的实现方式中,所述统计每个访问对象的访问频次,包括:统计预设区间内每个访问对象的访问频次,所述预设区间包括以下任一种:预设时间间隔,预设流量,预设数量的访问请求。若针对每个访问请求进行一次热度更新,在访问量较大时,频繁的更新操作会占用过多的带宽;而在上述方法中,对预设区间的访问进行统计,再进行热度更新,有利于节省带宽资源。
在一种可能的实现方式中,所述方法还包括:根据访问对象的热度和第一热度阈值,确定访问对象是否为热数据;和/或,根据访问对象的热度和第二热度阈值,确定访问对象是否为冷数据。对数据进行冷热分级,有助于后续对数据进行存储优化。
在一种可能的实现方式中,所述方法还包括:将存储的所有访问对象的热度从大到小排序;将第N个访问对象的热度作为第一热度阈值;所述N满足以下条件:N除以全部访问对象的数量满足预设比例条件;或者,前N个访问对象的热度之和除以全部访问对象的热度之和,满足预设比例条件。
在一种可能的实现方式中,所述方法还包括:接收热度查询请求,所述请求用于请求查询目标访问对象的热度;输出所述目标访问对象的热度。
第二方面,本申请提供一种文件系统中的热度识别装置,所述装置包括执行上述第一方面以及第一方面的任意一种可能的实现方式的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
示例性的,该装置包括:采集模块,用于获取来自应用程序的访问请求,确定所述访问请求的访问对象;统计每个访问对象的访问频次;热度更新模块,用于根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。
第三方面,本申请提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器存储有计算机程序;所述处理器用于调用所述存储器中存储的计算机程序,以执行如第一方面及第一方面任一实现方式所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面及第一方面任一实现方式所述的方法。
第五方面,本申请提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得如第一方面及第一方面任一实现方式所述的方法被执行。
上述第二方面至第五方面中任一方面中的任一可能实现方式可以实现的技术效果,请参照上述第一方面中相应实现方案可以达到的技术效果说明,重复之处不予论述。
附图说明
图1为本申请实施例提供的Qumulo文件目录元数据示意图;
图2为本申请实施例提供的Qumulo文件目录元数据更新流程示意图;
图3为本申请实施例提供的文件系统中热度识别方法的流程示意图;
图4为本申请实施例提供的热度更新过程中热度信息生长示意图;
图5为本申请实施例提供的冷、热数据分级示意图;
图6为本申请实施例提供的热度更新过程中热度信息剪枝示意图;
图7为本申请实施例提供的热度识别装置结构示意图;
图8为本申请实施例提供的计算机设备结构示意图。
具体实施方式
通用并行文件系统(general parallel file system,GPFS)配置有文件热度识别方式,包括文件热度计算方式和热度更新方式。具体的,在计算热度时,可以计算文件访问次数的指数移动平均值,在一个周期内未被访问的文件的热度值将以百分比进行衰减。衰减百分比有效范围为0~100%,默认值为10%,也可以由用户自定义,或者由用户自定义。当用户访问文件时,则自动修改该文件的访问时间atime,文件的访问热度也随之增加。如果访问时间atime的更新被抑制,则文件访问的热度计算可能会受到不利影响,即存在如下的依赖关系:文件被访问->atime更新–>文件热度增加。
然而上述对文件热度的识别方法,仅计算文件的热度,并没有对文件目录的热度进行统计。由于构建目录热度有助于用户更全面地感知数据的冷热,进行数据分析和挖掘,以及目录级别的数据流动,因此,Qumulo研发的分布式文件系统(Qumulo file fabric,QF2)内置了文件元数据的实时聚合和实时分析特性。
Qumulo文件目录元数据可以如图1所示,其中秩(rank)表示目录或文件所在层级,size表示该目录或文件自身的大小,方括号里面的值分别表示未协调值和已协调值。目录的未协调值和已协调值分别等于该目录以及目录下所有文件和子目录的未协调值之和、已协调值之和。当文件F1的大小被更新时,首先修改未协调值,如图2中的步骤1所示。然后将及其存储路径添加到脏表(dirty list)中,如图2中的步骤2所示。接下来后台异步向上更新F1存储路径,修改F1的已协调值,如图2中的步骤3所示。进一步修改F1所在目录D1(也可以称为F1的父节点)的未协调值,如图2中的步骤4所示,并从dirty list中删除F1的存储路径并添加其父节点D1存储路径,如图2中的步骤5所示。Dirty list对象按照rank排序,更新时先处理rank值较大的对象,即先更新rank值较大的对象的未协调值和已协调值,再处理rank值较小的对象。QF2具有高性能实时分析功能的原因包括:(1)分析模块内置于QF2文件系统中,并与文件系统本身完全集成;(2)QF2文件系统基于多路搜索树(B-tree)实现。元数据实时聚合可以通过如下两项技术实现:(1)及时更新聚合型元数据,无需等待请求时遍历;(2)自下而上更新和自上而下遍历。
然而,dirty list先更新rank值较大的对象,若用户频繁访问rank值较大的对象,将导致目录树中的上层目录热度更新滞后,文件和目录热度时间不同步,对于大文件系统,无法满足实时性要求。
有鉴于此,本申请实施例提供一种文件系统中的热度识别方法,用于实现文件、目录的同步更新,避免上层目录更新滞后的问题。
该方法可以应用于热度识别装置中,即由热度识别装置执行该热度识别方法。该热度识别装置可以部署于独立的服务器中,或者,也可以与其他系统部署在同一服务器中,例如热度识别装置可以与存储系统部署在一起。进一步的,该热度识别装置可以包括采集模块和热度更新模块,其中,采用模块可以设置在客户端,用于从客户端采集数据,然后将采集到的数据或处理后的信息发送至设置在服务器中的热度更新模块中,热度更新模块用于对访问对象的热度进行更新。或者,也可以不必在客户端中设置采集模块,而是将热度识别装置全部设置于服务器中,客户端在接收到用户的访问请求后,将访问请求发送至服务器中的热度识别装置,以使热度识别装置进行热度统计、更新。
参见图3,为本申请实施例提供的文件系统中热度识别方法的流程示意图,如图所示,该方法可以包括以下步骤:
步骤301、获取来自应用程序的访问请求,确定访问请求的访问对象。
在一种可能的实现方式中,上述步骤301可以由热度识别装置中设置在客户端的采集模块执行。具体的,采集模块可以通过应用程序接口API(application programminginterface,API),进一步的,可以为该采集模块配置有缓存空间,采集模块将该采集到的访问请求存入缓存空间。
在另一种可能的实现方式中,也可以不在客户端设置采集模块,而是由客户端将访问请求发送至热度识别装置,以使热度识别装置能够根据访问请求进行热度统计、更新,也就是说,上述步骤301是由热度识别装置中的采集模块接收访问请求,并根据接收到的访问请求确定访问对象。
访问请求中可以包括数据对象标识、操作字、偏移量以及长度等信息。其中,数据对象标识表示请求访问的文件或文件目录等。操作字表示用户对访问对象的操作类型,如读操作、写操作等。用户在访问文件时,可能仅访问该文件的部分数据而并非访问该文件的全部数据,则可以通过偏移量表示用户请求访问的数据的起始位置,通过长度表示用户请求访问的数据大小,例如,一个文件的大小为1GB,用户需要访问的数据为该文件中间从0.5GB~0.6GB的数据,那么访问请求中的偏移量为0.5GB,长度为0.1GB。
采集模块可以根据访问请求中的数据对象标识确定访问对象,或者,根据访问请求中的数据对象标识、偏移量、长度确定访问对象。其中,访问对象可以包括文件目录、文件或者文件中的数据块。
在本申请实施例中,每个文件的数据在存储时,可以分块存储,也可以不分块,例如,对于大小达到预设阈值的文件进行分块,没有达到预设阈值的文件则不进行分块。对于没有分块存储的文件,在根据访问请求确定访问对象时,可以仅根据数据对象标识确定访问的文件或文件目录即可。对于分块存储的文件,在为了后续能够精确统计每个块的热度,在上述步骤中,可以根据访问请求确定请求访问的块。例如,文件A的大小为1GB,被划分成10块进行存储,每个块对应的数据为0~0.1GB,0.1GB~0.2GB,0.2GB~0.3GB,…,0.9GB~1GB;若访问请求中的偏移量为0.55GB,长度为0.1GB,用户请求范围0.55~0.65GB之间的数据,那么用户请求访问的数据位于第6个块和第7个块,则确定出的访问对象为文件A的第6个块和第7个块。
进一步的,还可以获取访问请求的时间,从而便于后续对热度统计时能够从时间角度进行更加精确的分析。具体的,访问请求中可以携带有时间信息,那么可以直接从访问请求中获取时间信息;或者,访问请求中也可能不包含有时间信息,那么可以在获取到该访问请求时,记录获取到访问请求的时间。
步骤302、统计每个访问对象的访问频次。
例如,若访问请求1请求读取文件A的第6个块和第7个块,则对文件A的第6个块的读操作次数加1、对文件A的第7个块的读操作加1;若访问请求2请求对文件A中的第6个块进行写操作,则对文件A的第6个块的写操作次数加1;若访问请求3请求读取文件B,则对文件B的读操作加1;若访问请求4请求读取目录C,则对目录C的读操作加1。
上述步骤302可以由采集模块执行,既可以由设置在客户端中的采集模块执行,也可以由设置在服务器中的采集模块执行。
可选的,采集模块在执行上述步骤302时,可以对预设区间内的访问请求进行统计,统计每个访问对象的访问频次,其中,预设区间可以是预设时间段,也可以是预设流量段,还可以是预设访问请求的数量等。采集模块在统计出预设区间内每个访问对象的访问频次后,将统计出的频次发送至用于更新访问对象热度的热度更新模块,然后将统计出的频次数据清理,重新统计下一个区间内的访问频次。
例如,若预设时间段为10分钟,那么可以对10分钟内的所有访问请求,统计每个访问对象的访问次数;当10分钟到达后,将统计出的访问次数发送至用于更新访问对象热度的热度更新模块,然后将访问次数清零,重新统计下一个10分钟内的访问次数。又例如,若预设流量段为1MB,那么可以对总大小不超过1MB内的多个访问请求进行统计,统计每个访问对象的访问次数,当获取到的新的访问请求与已获取的访问请求流量之和超过1MB,则将已统计出的访问次数发送至热度更新模块,然后将访问次数清零,对获取到的新的预设流量内的访问请求进行统计。再例如,若预设访问请求的数量为50次,那么可以对50个访问请求所访问的对象的访问次数进行统计,并将统计的访问次数发送至热度更新模块,然后将统计次数清零,重新统计此后获取到的50个访问请求所访问的对象的访问次数。
采集模块对预设区间内的访问请求进行统计,然后再发送至热度更新模块,能够减少发送次数,有助于减少热度更新所占用的带宽资源,而不必像GPFS进行热度统计、更新时,每获取到一个访问请求则发送一次,更新过于频繁,占用过多的带宽资源。
不过,在本申请的一个极端实施例中,当预设区间为预设数量的访问请求,且预设数量为1时,则表示获取模块需要针对每个访问请求,向热度更新模块上报一次。
步骤303、根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新访问对象的热度和访问对象所在存储路径中父节点方向上每个节点的热度。
上述步骤可以由设置在服务器中的热度更新模块执行。具体的,热度更新模块根据接收到的每个访问对象的访问频次,对自身存储的各访问对象的访问热度进行更新。例如,可以将对访问对象的访问次数作为该访问对象的热度值,那么热度更新模块在接收到每个访问对象的访问次数后,将每个访问对象的已存储的访问次数,加上新获取到的访问次数,从而得到更新后的每个访问对象的访问次数,即更新后的热度值。
热度更新模块若接收到的新的访问对象的访问频次信息,即热度更新模块此前并没有存储该访问对象的访问次数,那么热度更新模块可以生成关于该访问对象的热度信息。进一步的,若热度更新模块也没有存储该访问对象父节点的热度信息,也需要生成其父节点的热度信息;若也没有存储父节点的父节点的热度信息,也需要生成父节点的父节点的热度信息,直至访问对象所在的根目录。如图4所示,在更新之前,热度更新模块存储的热度信息如图4中的(a)所示,存储有目录00的读取操作的热度信息,存储有目录00下子目录11和子目录12的读取操作的热度信息,还存储有子目录11下文件21的读取操作的热度信息、子目录12下文件22、文件23的读取操作的热度信息;热度更新模块接收到采集模块发送的各访问对象的热度信息,确定需要增加子目录21下文件24的读取操作的热度信息,如图4中的(b)所示。
在本申请实施例中,不仅记录每个访问对象的热度,还同时记录有目录的热度,从而便于后续对目录级别的存储分析、优化。具体的,在更新访问对象的热度时,还需要获取访问对象的存储路径,并对访问对象在存储路径中父节点方向上的每个节点的热度进行更新,其中父节点的热度为父节点下每个子节点的热度值之和。例如,访问对象为图2中所示的文件F1,获取其存储路径/D0/D1/F1,文件夹D1为文件F1的父节点,文件夹D0为文件夹D1的父节点;则对文件F1的热度进行更新时,还需要对文件夹D1、文件夹D0的热度值进行更新。文件夹D1的热度等于文件夹D1下所有文件热度之和,文件夹D0的热度等于文件夹D0下所有文件热度之和。此外,对于文件分块存储、访问对象为块的情况,则访问对象的父节点为文件,文件的热度值为文件下所有块的热度之和。
在本申请实施例中,不仅统计、更新访问对象的热度,还统计、更新目录的热度,与GPFS所采用的热度识别方式相比,有助于实现目录级别的存储分析、优化。虽然QF2的热度识别也能够记录目录的热度,但QF2在更新热度时,总是先更新rank值较大的对象,若用户频繁访问rank值较大的对象,将导致目录树中的上层目录热度更新滞后,文件和目录热度时间不同步,在需要输出目录热度时,可能会因为目录热度更新滞后而输出未更新的热度信息,或者在需要输出目录热度时临时对目录的热度进行更新,对于大文件系统,无法满足实时性要求。而在本申请实施例中,同步更新访问对象及其父节点的热度,解决了上层目录热度更新滞后的问题,使得在需要输出目录热度时,能够及时输出最新的热度信息。
为了更加细致分析用户的访问需求,还可以对相同访问对象的不同访问类型分别进行热度统计。具体的,采集模块不仅根据访问请求确定访问对象,还可以根据访问请求中的操作字确定该访问请求的访问类型,如读操作、写操作;针对每个访问对象的不同访问类型分别统计访问频次。热度更新模块则针对每个访问对象的每种访问类型分别进行热度更新。区分访问类型的热度更新,够更加细致了解用户对该访问对象的需求,从而进行更加合理的存储优化等。
为了给存储、推送等业务提供参考信息、优化依据,热度识别装置还可以输出热度信息。例如,热度识别装置可以周期性的向存储服务器发送各访问对象的最新热度,以便于存储服务器根据各访问对象的热度进行存储优化。此外,热度识别装置也可以接收用于查询目标访问对象热度的热度查询请求,则热度识别装置可以根据请求确定目标访问对象,并输出目标访问对象当前的热度信息。
进一步的,在确定访问对象及其父节点的热度后,还可以进一步根据热度值对数据的冷、热进行划分,从而为存储、推送等业务提供更加明确的参考信息、优化依据,简化存储服务器、推送服务器的操作。具体的,可以将每个访问数据的热度值与第一热度阈值进行比较,若大于或等于第一热度阈值,则将该访问对象作为的热门数据。类似的,也可以将每个访问数据的热度值与第二热度阈值进行比较,若小于或等于第一热度阈值,则将该访问对象作为的冷门数据。其中,第一热度阈值和第二热度阈值可以相等,也可以不等;若不等,则第一热度阈值大于第二热度阈值。
可选的,第一热度阈值和第二热度阈值可以是预先设置的,也可以是热度识别装置经过机器学习后得到的,或者,还可以是根据预设的策略求得的。
在一种可能的实现方式中,第一热度阈值可以根据下述方法确定:首先根据访问对象的总数量和预设比例值,确定达到总数量预设比例的访问对象的数量,将确定出的数量用N表示。然后针对访问对象的热度值从大到小进行排序,并确定排在第N位的热度值,将第N位的热度值作为第一热度阈值。
在另一种可能的实现方式中,第一热度阈值还可以根据如下方式确定:首先针对访问对象的热度值从大到小进行排序。然后,求取热度值的累加和,记为K。之后,对经过排序后的热度值从前往后依次进行累加,例如对第一个热度值进行累加得到L1,对第一个和第二个热度值进行累加得到L2,累加至第i个热度值得到Li,当LN-1不满足预设比例条件,但LN满足预设比例条件时,则将第N个热度值作为第一热度阈值。其中,满足预设比例条件,可以是大于等于预设比值。
根据上述两种方式中任一方式确定出的第一热度阈值,也可以同时作为第二热度阈值;或者,当第一热度阈值与第二热度阈值不等时,也可以基于上述两种方式中的任一方式,通过设置不同的预设比例或预设比值,确定出第二热度阈值。根据第一热度阈值和/或第二热度阈值,即可对访问对象进行冷、热分级。
由于父节点的热度为其所有子节点热度之和,故父节点的热度值大于或等于其子节点的热度值,因此,若一个叶节点为热门数据,那么该叶节点的父节点以及父节点的父节点直至根目录均为热门数据。可选的,为了简化热门数据的确定过程,可以仅对叶节点的热度值进行排序,并确定每个叶节点是否为热门数据。对于每个非叶节点,判断其是否包含有热门数据的子节点,若包含,则将该非叶节点确定为热门数据。
例如,在图5所示的实施例中,目录00下包含有子目录10、子目录11、以及子目录12;子目录10下包含有子目录20,子目录20下包含有文件30、文件31和文件32;子目录11下包含有文件21和子目录22,子目录22下包含有文件33和文件34,其中,文件33可以被视为一个数据块40,数据块40又被拆分成子块50和子块51,而子块50被分为子块60和子块61,子块51被分为子块62和子块63;子目录12下包含有子目录23和子目录24,子目录24下包含有文件35和文件36。在图5所示的目录树中,文件30、文件31、文件32、子块60、子块61、子块62、子块63、文件34、文件35以及文件36为叶节点,可以先对这10个叶节点,根据前述方式确定第一热度阈值,并确定每个叶节点是否为热门数据,然后再确定其他非叶节点是否为热门数据。具体的,若这10个叶节点中,子块60和文件35为热门数据,那么在子块60和文件35的存储路径上的节点均为热门数据。其中,子块60的存储路径为:目录00-子目录11-子目录22-文件33-块40-子块50-子块60,那么该存储路径中的目录00、子目录11、子目录22、文件33、块40以及子块50也均为热门数据。文件35的存储路径为:目录00-子目录12-子目录24-文件35,那么该存储路径中的目录00、子目录12以及子目录24也均为热门数据。
若访问对象的热度值一直累加,即使是不经常被访问的数据,随着时间的积累,其访问次数也会逐渐增加,即热度值一直增加,并不利于对冷、热数据的识别。因此,可以周期性对每个访问对象的热度值进行衰减,从而避免冷数据的热度值一直增加。例如,可以周期性的将每个访问对象的每种访问类型的热度值,乘以衰减系数α,其中,0<α<1,以实现降低其热度值。举例说明,假设衰减系数α为0.5,各访问对象的各自访问类型的热度值,每30分钟乘以衰减系数完成一次热度衰减;若文件夹1的读取操作的热度值为30,文件夹1下包含文件A和文件B,文件A的读取操作热度值为20,其中,文件A块1的读取操作热度值为15,文件A块2的读取操作热度值为5,文件B的读取操作热度值为10。到达衰减时刻,则文件夹1的读取操作的热度值为30*0.5=15,文件A的读取操作热度值为20*0.5=10,文件A块1的读取操作的热度值为15*0.5=7.5,文件A块2读取操作的热度值为5*0.5=2.5,文件B的读取操作热度值为10*0.5=5。
乘以衰减系数后,文件A块1的热度值变为7.5,文件A块2热度值变为2.5,为了便于计算,在一种可能的实现方式中,可以对其进行取整操作。但若均采用向上取整或向下取整,则文件A块1的热度值和文件A块2的热度值之和与文件A的热度值可能不相等。为了使父节点的热度值等于或近似等于父节点所包含的所有子节点热度值之和,在取整时,可以按照α的概率向上取整,以1-α的概率向下取整,进行向上取整或向下取整。
在QF2的热度识别方式中,在存储元数据的模块中记录数据热度信息,且元数据具有独立的存储空间,存储资源充足,因此不需要考虑热度信息所占存储资源大小的问题。而在本申请实施例中,由于无需设置单独的元数据,也没有了元数据独立的存储空间,故热度信息的大小,是本申请实施例需要考虑的问题。随着时间积累,访问对象逐渐增加,热度信息也在逐渐增加,可能会导致热度信息存储空间不足的问题。
为了解决热度信息存储资源有限的问题,在一种可能的实现方式中,当某个访问对象的热度值衰减到预设阈值以下时,则删除该访问对象的热度值,即,本申请实施例提供一种剪枝方案,从而控制热度信息所占用的存储空间,避免热度信息仅增加但不会减少而导致存储控制不足的问题。
图6示例性的提供了一种剪枝示意图。在图6所示的实施例中,设置的预设阈值为0,即热度值衰减为0时则删除该热度信息。在衰减之前,热度更新模块存储的热度信息如图6中的(a)所示,存储有目录00的读取操作的热度值6,目录00下子目录11和子目录12的读取操作的热度值分别为2、4,子目录11下文件21的读取操作的热度值为2,子目录12下文件22、文件23、文件24、文件25的读取操作的热度值均为1;假设衰减系数α为0.5,进行衰减后,目录00的读取操作的热度值3,目录00下子目录11和子目录12的读取操作的热度值分别为1、2,子目录11下文件21的读取操作的热度值为1,子目录12下文件22、文件23、文件24、文件25以α(即50%)的读取操作的热度值概率取1,以1-α的概率取0,得到文件22的读取操作的热度值为1,文件23的读取操作的热度值为0,文件24的读取操作的热度值为1,文件25的读取操作的热度值为0,由于文件23和文件25的读取操作的热度值衰减为0,需要删除其热度信息,即对文件23、文件25的读取操作的热度信息进行剪枝,如图6中的(b)所示。
通过上述剪枝过程,能够抑制热度信息的增长,有助于避免热度信息过大导致存储空间不足的问题。但若热度信息所占用的存储空间已达到允许的最大存储空间,也可以删除热度值大于或等于预设阈值的热度信息。在一种可能的设计中,当热度信息所占用的存储空间已达到允许的最大存储空间时,则立即进行剪枝,删除热度值最低的一个或多个热度信息,或者,也可以将热度值与预设阈值的差值在预设范围内的热度信息全部删除。例如,在热度信息所占用的存储空间未达到允许的最大存储空间时,可以删除热度值为0的热度信息;在热度信息所占用的存储空间已达到允许的最大存储空间时,则将热度值小于等于1的热度信息全部删除。在另一种可能的设计中,当热度信息所占用的存储空间已达到允许的最大存储空间,且需要增加新的热度信息时,再进行剪枝,删除热度值最低的热度信息,或者将热度值与预设阈值的差值在预设范围内的热度信息全部删除。
基于相同的技术构思,本申请实施例还提供一种热度识别装置,用于实现上述方法实施例。装置可以包括执行上述方法实施例中任意一种可能的实现方式的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
示例性的,该装置可以如图7所示,包括:采集模块701和热度更新模块702。
采集模块701,用于获取来自应用程序的访问请求,确定所述访问请求的访问对象;统计每个访问对象的访问频次。
热度更新模块702,用于根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。
在一种可能的实现方式中,所述采集模块701还用于:根据所述访问请求确定针对所述访问对象的访问类型;所述采集模块701在统计每个访问对象的访问频次时,具体用于:统计每个访问对象的相同访问类型的访问频次。
在一种可能的实现方式中,所述访问对象包括文件目录、文件或者文件中的数据块。
在一种可能的实现方式中,所述采集模块701在确定所述访问请求的访问对象时,具体用于:根据所述访问请求中的对象标识确定请求访问的文件,根据所述访问请求中的偏移量和长度,确定访问对象位于所述文件中的一个或多个块;所述热度更新模块702,具体用于:根据所述一个或多个块的存储路径和所述一个或多个块的访问频次,同步更新所述一个或多个块的热度、所述文件的热度,以及所述文件在存储路径中父节点方向上每个节点的热度。
在一种可能的实现方式中,该装置还可以包括:热度衰减模块703,用于周期性对每个访问对象的热度进行衰减;若第一访问对象的热度衰减至小于或等于预设阈值,则删除所述第一访问对象的热度。
在一种可能的实现方式中,所述热度衰减模块703在对每个访问对象的热度进行衰减时,具体用于:将每个访问对象的热度乘以衰减系数;若乘以衰减系数后的值为非整数,则以1减去衰减系数的概率向下取整,以衰减系数的概率向上取整。
在一种可能的实现方式中,所述采集模块701在统计每个访问对象的访问频次时,具体用于:统计预设区间内每个访问对象的访问频次,所述预设区间包括以下任一种:预设时间间隔,预设流量,预设数量的访问请求。
在一种可能的实现方式中,该装置还可以包括:分级模块704,用于根据访问对象的热度和第一热度阈值,确定访问对象是否为热数据;和/或,根据访问对象的热度和第二热度阈值,确定访问对象是否为冷数据。
在一种可能的实现方式中,所述分级模块704还用于:将存储的所有访问对象的热度从大到小排序;将第N个访问对象的热度作为第一热度阈值;所述N满足以下条件:N除以全部访问对象的数量满足预设比例条件;或者,前N个访问对象的热度之和除以全部访问对象的热度之和,满足预设比例条件。
在一种可能的实现方式中,该装置还可以包括收发模块(图中未示出),用于接收热度查询请求,所述请求用于请求查询目标访问对象的热度;输出所述目标访问对象的热度。
基于相同的技术构思,本申请实施例还提供一种计算机设备。该计算机设备包括如图8所示的处理器801,以及与处理器801连接的通信接口802。
处理器801可以是通用处理器,微处理器,特定集成电路(application specificintegrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件,分立门或者晶体管逻辑器件,或一个或多个用于控制本申请方案程序执行的集成电路等。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
通信接口802,用于与其他设备通信,如PCI总线接口、以太网,无线接入网(radioaccess network,RAN),无线局域网(wireless local area networks,WLAN)等。
在本申请实施例中,处理器801用于调用通信接口802执行接收和/或发送的功能,并执行如前任一种可能实现方式所述的方法。
进一步的,该计算机设备还可以包括存储器803以及通信总线804。
存储器803,用于存储程序指令和/或数据,以使处理器801调用存储器803中存储的指令和/或数据,实现处理器801的上述功能。存储器803可以是只读存储器(read-onlymemory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器803可以是独立存在,例如片外存储器,通过通信总线804与处理器801相连接。存储器803也可以和处理器801集成在一起。
通信总线804可包括一通路,用于在上述组件之间传送信息。
所述计算机设备可以通过网络与存储结构通信,或者所述计算机设备还可以包括存储结构(图中未出)。所述存储结构包括一个或者多个存储器,所述存储结构中的存储器可以是磁盘、固态硬盘(solid state disk或solid state drive,SSD),存储级存储(storage-class memory,SCM)等,用于存储访问请求所访问的对象。
示例性的,处理器801可以通过通信接口802执行以下步骤:获取来自应用程序的访问请求,确定所述访问请求的访问对象;统计每个访问对象的访问频次;根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。
在一种可能的实现方式中,处理器801还用于:根据所述访问请求确定针对所述访问对象的访问类型;处理器801在统计每个访问对象的访问频次时,具体用于:统计每个访问对象的相同访问类型的访问频次。
在一种可能的实现方式中,所述访问对象包括文件目录、文件或者文件中的数据块。
在一种可能的实现方式中,处理器801在所述确定所述访问请求的访问对象时,具体用于:根据所述访问请求中的对象标识确定请求访问的文件,根据所述访问请求中的偏移量和长度,确定访问对象位于所述文件中的一个或多个块;所述处理器801在根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度时,具体用于:根据所述一个或多个块的存储路径和所述一个或多个块的访问频次,同步更新所述一个或多个块的热度、所述文件的热度,以及所述文件在存储路径中父节点方向上每个节点的热度。
在一种可能的实现方式中,所述处理器801还可以用于:周期性对每个访问对象的热度进行衰减;若第一访问对象的热度衰减至小于或等于预设阈值,则删除所述第一访问对象的热度。
在一种可能的实现方式中,所述处理器801在对每个访问对象的热度进行衰减时,具体用于:将每个访问对象的热度乘以衰减系数;若乘以衰减系数后的值为非整数,则以1减去衰减系数的概率向下取整,以衰减系数的概率向上取整。
在一种可能的实现方式中,所述处理器801在统计每个访问对象的访问频次时,具体用于:统计预设区间内每个访问对象的访问频次,所述预设区间包括以下任一种:预设时间间隔,预设流量,预设数量的访问请求。
在一种可能的实现方式中,所述处理器801还可以用于:根据访问对象的热度和第一热度阈值,确定访问对象是否为热数据;和/或,根据访问对象的热度和第二热度阈值,确定访问对象是否为冷数据。
在一种可能的实现方式中,所述处理器801还可以用于:将存储的所有访问对象的热度从大到小排序;将第N个访问对象的热度作为第一热度阈值;所述N满足以下条件:N除以全部访问对象的数量满足预设比例条件;或者,前N个访问对象的热度之和除以全部访问对象的热度之和,满足预设比例条件。
在一种可能的实现方式中,所述处理器801还可以通过通信接口802执行:接收热度查询请求,所述请求用于请求查询目标访问对象的热度;输出所述目标访问对象的热度。
基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,当所述计算机可读指令在计算机上运行时,使得上述方法中的步骤被执行。
基于相同的技术构思,本申请实施例提供还一种包含指令的计算机程序产品,当其在计算机上运行时,使得上述方法中的步骤被执行。
需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的实施例,对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括上述各实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种文件系统中的热度识别方法,其特征在于,包括:
获取来自应用程序的访问请求,确定所述访问请求的访问对象;
统计每个访问对象的访问频次;
根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述访问请求确定针对所述访问对象的访问类型;
所述统计每个访问对象的访问频次,包括:
统计每个访问对象的相同访问类型的访问频次。
3.根据权利要求1或2所述的方法,其特征在于,所述访问对象包括文件目录、文件或者文件中的数据块。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
周期性对每个访问对象的热度进行衰减;
若第一访问对象的热度衰减至小于或等于预设阈值,则删除所述第一访问对象的热度。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述统计每个访问对象的访问频次,包括:
统计预设区间内每个访问对象的访问频次,所述预设区间包括以下任一种:预设时间间隔,预设流量,预设数量的访问请求。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
根据访问对象的热度和第一热度阈值,确定访问对象是否为热数据;和/或
根据访问对象的热度和第二热度阈值,确定访问对象是否为冷数据。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
接收热度查询请求,所述请求用于请求查询目标访问对象的热度;
输出所述目标访问对象的热度。
8.一种文件系统中的热度识别装置,其特征在于,包括:
采集模块,用于获取来自应用程序的访问请求,确定所述访问请求的访问对象;统计每个访问对象的访问频次;
热度更新模块,用于根据每个访问对象的存储路径和每个访问对象的访问频次,同步更新所述访问对象的热度和所述访问对象在所述存储路径中父节点方向上每个节点的热度,父节点的热度为所述父节点下每个子节点热度之和。
9.根据权利要求8所述的装置,其特征在于,所述采集模块还用于:根据所述访问请求确定针对所述访问对象的访问类型;
所述采集模块在统计每个访问对象的访问频次时,具体用于:统计每个访问对象的相同访问类型的访问频次。
10.根据权利要求8或9所述的装置,其特征在于,所述访问对象包括文件目录、文件或者文件中的数据块。
11.根据权利要求8-10任一项所述的装置,其特征在于,还包括:
热度衰减模块,用于周期性对每个访问对象的热度进行衰减;若第一访问对象的热度衰减至小于或等于预设阈值,则删除所述第一访问对象的热度。
12.根据权利要求8-11任一项所述的装置,其特征在于,所述采集模块在统计每个访问对象的访问频次时,具体用于:
统计预设区间内每个访问对象的访问频次,所述预设区间包括以下任一种:预设时间间隔,预设流量,预设数量的访问请求。
13.根据权利要求8-12任一项所述的装置,其特征在于,还包括:
分级模块,用于根据访问对象的热度和第一热度阈值,确定访问对象是否为热数据;和/或,根据访问对象的热度和第二热度阈值,确定访问对象是否为冷数据。
14.根据权利要求8-13任一项所述的装置,其特征在于,还包括:
收发模块,用于接收热度查询请求,所述请求用于请求查询目标访问对象的热度;输出所述目标访问对象的热度。
15.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器存储有计算机程序;
所述处理器用于调用所述存储器中存储的计算机程序,以执行权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-7任一项所述的方法。
CN202210224941.8A 2022-03-09 2022-03-09 一种文件系统中的热度识别方法、装置及计算机设备 Pending CN116775580A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210224941.8A CN116775580A (zh) 2022-03-09 2022-03-09 一种文件系统中的热度识别方法、装置及计算机设备
PCT/CN2023/077025 WO2023169188A1 (zh) 2022-03-09 2023-02-18 一种文件系统中的热度识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210224941.8A CN116775580A (zh) 2022-03-09 2022-03-09 一种文件系统中的热度识别方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN116775580A true CN116775580A (zh) 2023-09-19

Family

ID=87937157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210224941.8A Pending CN116775580A (zh) 2022-03-09 2022-03-09 一种文件系统中的热度识别方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN116775580A (zh)
WO (1) WO2023169188A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035130B (zh) * 2024-03-07 2024-08-02 北京龙创悦动网络科技有限公司 一种游戏服务器数据存储方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10437799B2 (en) * 2016-12-02 2019-10-08 International Business Machines Corporation Data migration using a migration data placement tool between storage systems based on data access
CN107679193A (zh) * 2017-10-09 2018-02-09 郑州云海信息技术有限公司 一种用于分布式文件系统的热度统计方法和系统
CN113420005A (zh) * 2021-02-10 2021-09-21 阿里巴巴集团控股有限公司 数据存储方法、系统、电子设备及计算机存储介质

Also Published As

Publication number Publication date
WO2023169188A1 (zh) 2023-09-14

Similar Documents

Publication Publication Date Title
JP7410181B2 (ja) ハイブリッド・インデックス作成方法、システム、プログラム
US10642831B2 (en) Static data caching for queries with a clause that requires multiple iterations to execute
US6928451B2 (en) Storage system having means for acquiring execution information of database management system
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
US10372669B2 (en) Preferentially retaining memory pages using a volatile database table attribute
US20200250148A1 (en) File management with log-structured merge bush
US8732406B1 (en) Mechanism for determining read-ahead length in a storage system
CN110347651B (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN110291518A (zh) 合并树无用单元指标
CN110268399A (zh) 用于维护操作的合并树修改
CN111858520B (zh) 一种区块链节点数据分离存储的方法和装置
CN108140040A (zh) 存储器中数据库的选择性数据压缩
CN113805805B (zh) 缓存内存块的淘汰方法、装置及电子设备
CN109947668A (zh) 存储数据的方法和装置
CN107656807A (zh) 一种虚拟资源的自动弹性伸缩方法及装置
CN103150245B (zh) 确定数据实体的访问特性的方法和存储控制器
WO2023169188A1 (zh) 一种文件系统中的热度识别方法、装置及计算机设备
CN107704507B (zh) 数据库处理方法和设备
US9275091B2 (en) Database management device and database management method
CN114510474B (zh) 基于时间衰减的样本删除方法及其装置、存储介质
Zhou et al. Improving big data storage performance in hybrid environment
CN115391307A (zh) 数据库优化方法、装置、电子设备及计算机可读存储介质
CN114036410A (zh) 数据存储、查询方法、设备、系统、程序及介质
CN104123329A (zh) 搜索方法和装置
CN112711564B (zh) 合并处理方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination