CN114840140A

CN114840140A - 云上数据缓存方法、装置、设备及存储介质

Info

Publication number: CN114840140A
Application number: CN202210313588.0A
Authority: CN
Inventors: 余洋; 孙相征; 何万青
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-08-02
Also published as: WO2023185770A1

Abstract

本申请提出一种云上数据缓存方法、系统、设备及存储介质，该方法包括：在本申请实施例中，可以构建一种云主机上的包含缓存层、缓存管理层以及缓存客户端的多级数据缓存架构，并当获取到待缓存的用户文件时，确定用户文件对应的分级特征，并基于分级特征，将用户文件缓存至对应级别的存储区域。本申请实施方式可以根据记录有各个用户文件存储位置的文件分布哈希表，弹性应对云上复杂IO场景。另外，本申请实施例中由于使用了云主机空闲资源构建缓存层，从而可以充分利用云资源，又有效缓解上层处理IO压力。

Description

云上数据缓存方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，具体涉及一种云上数据缓存方法、系统、设备及存储介质。

背景技术

随着云计算技术的迅猛发展，越来越多的HPC(High Performance Computing，高性能计算机群)行业用户将运行数据迁移到云上。像影视渲染、生物信息、地藏勘探等场景下的HPC行业通常需要海量计算资源，运算过程伴随大量的文件读写操作，对云上文件存储性能要求极高。

由于不同HPC场景的IO(Input/Output，输入/输出)特征千差万别，所需的吞吐率、IOPS(Input/Output Operations Per Second，每秒读写次数)、延迟等具体存储性能指标也有很大差异，导致HPC场景迁云经常会遇到很多存储问题，如存储性能与需求不匹配，单一的存储模式难以应对复杂的IO特征，多套存储管理复杂度高等。

发明内容

本申请提出一种云上数据缓存方法、系统、设备及存储介质，可以构建一种云主机上的包含缓存层、缓存管理层以及缓存客户端的多级数据缓存架构，并根据记录有各个用户文件存储位置的文件分布哈希表，弹性应对云上复杂IO场景。另外，本申请实施例中由于使用了云主机空闲资源构建缓存层，从而可以充分利用云资源，又有效缓解上层处理IO压力。

本申请第一方面实施例提出了一种云上数据缓存方法，所述方法包括：

通过云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统缓存用户文件；

当获取到待缓存的用户文件时，确定所述用户文件对应的分级特征，并基于所述分级特征，将所述用户文件缓存至对应级别的存储区域，所述分级特征包括访问频率、改动频率以及数据量的至少之一，所述不同级别的存储区域包括所述云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统。

本申请第三方面的实施例提供了一种云上数据缓存系统，包括数据源层、云主机上的缓存层、缓存管控层、云主机上的缓存客户端以及HPC处理端，其中：

所述数据源层包括云上低频文件存储、云上对象存储以及IDC文件存储；

所述缓存层包括云主机上挂载的文件系统、分布式内存以及虚拟磁盘，所述缓存层用于对高频访问的用户文件进行缓存；

所述缓存管控层包括缓存配置中心、文件访问特征统计表以及文件分布哈希表，所述缓存管控层用于对缓存用户文件进行管理；

其中，所述缓存客户端用于为所述HPC处理层提供数据操作接口以及处理IO请求。

本申请第四方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面或第二方面所述的方法。

本申请第五方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述第一方面或第二方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，可以构建一种云主机上的包含缓存层、缓存管理层以及缓存客户端的多级数据缓存架构，并根据记录有各个用户文件存储位置的文件分布哈希表，弹性应对云上复杂IO场景。另外，本申请实施例中由于使用了云主机空闲资源构建缓存层，从而可以充分利用云资源，又有效缓解上层处理IO压力。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种云上数据缓存方法的操作流程图；

图2示出了本申请一实施例所提供的一种云上数据缓存系统的架构图；

图3示出了本申请一实施例所提供的一种云上数据缓存装置的结构示意图；

图4示出了本申请一实施例所提供的一种电子设备的结构示意图；

图5示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

下面结合附图来描述根据本申请实施例提出的一种云上数据缓存方法、系统、设备及存储介质。

本申请实施例提供的云上数据缓存方法。参见图1，该方法具体包括以下步骤：

步骤101：通过云主机的分布式内存、虚拟磁盘以及云主机上挂载的文件系统缓存用户文件。

相关技术中，在HPC处理(如影视渲染、生物信息、地藏勘探)中，通常需要海量计算资源，运算过程伴随大量文件读写操作，故对云上文件存储性能要求极高。

然而，由于不同HPC处理场景的IO特征千差万别，因此所需的具体存储性能指标(吞吐、IOPS、延迟等)亦有很大差异。考虑到IO特征多样性，HPC处理迁云经常会遇到如下存储问题：存储性能与处理需求不匹配。即，对于首次上云的用户，一次性选择出最匹配处理IO特征的文件存储规格是比较困难的。而后续存储规格的变更涉及到底层硬件资源改动及数据迁移，成本很高。另外，由于线下HPC处理多样性，用户可能会面临云上低配存储性能无法满足处理需求，而高配存储规格性能溢出且价格高昂的情况。单一存储难以应对复杂IO特征1.HPC处理通常数据量巨大，且不同数据的访问特征(访问频率、块大小)差别很大。将所有数据存放在单一存储上，难以做到成本可控的问题。

基于上述存在的问题，本申请提出一种通过云主机的分布式内存、虚拟磁盘以及云主机上挂载的文件系统缓存用户文件来实现数据缓存的方法。其中，具体应用于包含应用于数据源层、云主机上的缓存层、缓存管控层、云主机上的缓存客户端以及HPC处理端的云上数据缓存系统中。

如图2所示，本申请中的云上数据缓存系统中的数据源层包括云上低频文件存储、云上对象存储以及IDC文件存储。以及缓存层包括云主机上挂载的文件系统、分布式内存以及虚拟磁盘，缓存层用于对高频访问的用户文件进行缓存；以及缓存管控层包括缓存配置中心、文件访问特征统计表以及文件分布哈希表，缓存管控层用于对缓存用户文件进行管理；其中，缓存客户端用于为HPC处理层提供数据操作接口以及处理IO请求。

具体地，对于数据源层中的云上低频文件存储来说，可以为基于文件系统挂载的方式支持各个云主机之间的用户文件数据的传输。需要说明的是，其可以支持标准文件IO接口。且仅用于数据访问频率较低是用户文件的缓存。

另外，对于云上对象存储来说，其可以支持云主机之间通过特定API接口进行用户文件数据的传输访问，在数据分发上具备一定优势。一种方式中，其也仅用于数据访问频率较低是用户文件的缓存。

再者，对于IDC文件存储来说，其位于用户本地机房的文件存储，一方面支撑用户本地处理，另一方面通过专线/VPN与云上网络打通。

进一步地，对于缓存层中的云主机上挂载的文件系统来说，其为云上高频文件缓存区域，可用于支持云主机之间数据共享的持久化全局缓存层，性能比低频文件存储更强。在本申请实施例中，可以用于缓存数据源中访问频率较高、文件数据量较大、数据改动较频繁的文件，如：HPC任务的核心用户文件。

另外，对于磁盘缓存来说，其可以用于持久化局部缓存层。本申请实施例中，云主机的空闲磁盘空间用于缓存数据源中访问频率高、文件数据量较小、数据改动不频繁的文件，如：处理软件、程序插件、前后处理脚本等。一种方式中，可以通过给云主机添加数据盘的方式来扩展磁盘缓存容量。其中，该用于局部缓存的磁盘缓存中缓存的用户文件可以为某个云主机独享的用户文件。

另外，对于分布式内存来说，可以用于非持久化全局缓存层。也即其与云上高频文件缓存区域同样可用于支持云主机之间数据共享的持久化全局缓存层。本申请实施例中，多台云主机的空闲内存通过tmpfs/ramdisk等方式构建内存文件系统并形成分布式的内存缓存层，并由缓存管控层进行统一管理，用于缓存数据源中被高频访问的文件块。用户处理高峰期云主机数量越多，内存缓存空间就越大。

更进一步，对于本申请云上数据缓存系统中缓存管控层的缓存配置中心而言，可以用于维护系统中缓存数据的缓存配置信息并向用户提供缓存控制接口。一种方式中，用户可通过与缓存配置中心的交互，实现对各缓存层的开启和关闭，从而配合缓存客户端达到用户文件随时调取的效果。另外，也可以实现缓存冷数据清理策略的作用，如：根据内存/磁盘占用比例和文件热度来对数据访问频率较低的数据进行定时的清理。再者，还可以实现对缓存策略的定制，如基于特定文件名的数据预取。

另外，对于文件访问特征统计表来说，可以用于维护上层HPC Workload的文件访问特征，包括但不限于文件访问热度、访问模式(顺序访问、随机访问)、读文件块大小等。支持周期性维度的统计(例如可以按月/天/小时/分钟)。文件访问特征统计表也用于为缓存冷数据清理和数据流动提供输入。

可选的，文件分布哈希表用于维护文件/文件块在缓存层中存放的位置，支持HPCWorkload高效获取目标文件/文件块，保证上层处理运行效率。

需要说明的是，数据缓存系统中缓存管控层的三个组件(即缓存配置中心、文件访问特征统计表以及文件分布哈希表)可以用于存放缓存核心数据，存储方式不限于数据库、redis、文件，并通过互斥锁保证分布式架构下数据访问/更新的一致性。

进一步说明，本申请的缓存客户端可以向上为HPC处理层提供文件系统入口及标准POSIX文件操作接口，向下负责IO请求的实时处理。

其中对于与HPC处理层交互的过程而言，首先可以在获取到上层HPC处理发送的实时IO请求，从文件分布哈希表获取请求的用户文件对应的目标文件/文件块在缓存中的位置。

其中，若目标文件/文件块为未被缓存的文件，即可以从数据源处读取该目标文件/文件块传递给上层处理，同时将该目标文件/文件块缓存到云上高主频文件存储，并同步将文件及其映射关系更新到文件分布哈希表中。

而若该目标文件/文件块为已缓存到云上高主频文件存储或磁盘缓存但未被缓存到分布式内存缓存或缓存失效的文件，从目标缓存中读取该文件传递给上层处理，同时将读到的目标文件/文件块缓存到分布式内存缓存，同步将文件及其映射关系更新到文件分布哈希表中。

而若该目标文件/文件块为已缓存到分布式内存缓存的文件块，直接从分布式内存缓存读取该目标文件/文件块传递给上层处理。

其中缓存客户端对于与负责IO请求的实时处理的过程而言，可以周期性统计分级特征信息更新到文件访问特征表并获取缓存配置中心相关配置信息，根据时间序的文件访问热度变化及读文件块大小，结合缓存配置中心配置信息，实现云上高主频文件缓存和磁盘缓存间的热数据流动和各缓存层的冷数据清理，并同步更新文件分布哈希表。

步骤102：当获取到待缓存的用户文件时，确定用户文件对应的分级特征，并基于分级特征，将用户文件缓存至对应级别的存储区域，分级特征包括访问频率、改动频率以及数据量，不同级别的存储区域包括云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统。

一种方式中，本申请提出的云上数据缓存方法中，可以将各个待缓存的用户文件按照访问频率、改动频率、数据量的其中之一，进行对应的分级缓存。其中，该分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统可以共同组成该多级的缓存区域。

一种方式中，分布式内存缓存可以对应缓存的用户文件为：缓存访问频率高(即热数据)且文件块粒度，容量较小的用户文件，同时其还可以为上层处理提供低时延的数据访问。共享型缓存。

一种方式中，磁盘缓存可以对应缓存的用户文件为：缓存访问频率高(即热数据)、且文件块粒度，容量较小、且改动不频繁的文件，避免共享型缓存可能出现的单点IO瓶颈，并为分布式内存缓存分担压力。

另一种方式在，云主机上挂载的文件系统可以对应缓存的用户文件为：缓存访问频率较高的文件(即温数据)且文件块粒度，容量较大、且改动频繁的用户文件。可以理解的，其作为分布式内存缓存和磁盘缓存的后端，承载上层处理所需的绝大部分热/温数据，从而降低对数据源的访问。

此外，本申请中的云上数据缓存系统可以支持热插拔，支持对接云上和云下数据源，支持横向和纵向扩容。

一种方式中，若接收到发送对象(例如为HPC处理层)发送的针对某个用户文件的IO请求。即可以基于预设的文件分布哈希表(文件分布哈希表中记录有各个用户文件与缓存位置的映射关系)确定对应的缓存位置。并从对应缓存位置中提取缓存数据并回复给该发送对象。

其中具体地，可以包括以下步骤：

步骤1、首先将IO请求中的请求用户文件与文件分布哈希表进行匹配，确定请求用户文件在云主机的存储位置。

步骤2、若确定请求用户文件未存储在云主机上，通过云主机上关联的数据源处获取请求用户文件。否则跳到步骤5。

步骤3、将请求用户文件缓存到云主机中的云上高频文件存储区域(即云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统其中之一)，并将请求用户文件与高频文件存储区域的映射关系更新到文件分布哈希表中。

步骤4、将请求用户文件发送给IO请求的发送方。

步骤5、若确定请求用户文件存储在云主机上，确定请求用户文件是否缓存在分布式内存中。

步骤6、若缓存在分布式内存中，将请求用户文件发送给IO请求的发送方。

步骤7、若未缓存在分布式内存中，将请求用户文件缓存到分布式内存中，并将请求用户文件与分布式内存的映射关系更新到文件分布哈希表中，将请求用户文件发送给IO请求的发送方。

另外，对于系统中的数据管理来说，一种方式可以为根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，周期性的确定每个用户文件的访问热度值。并将访问热度值低于预设热度值的用户文件进行清理。

另一种方式中，也可以为根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，周期性的确定每个用户文件的空间大小变化。从而在后续基于每个用户文件的空间大小变化，将用户文件由磁盘缓存缓存至及分布式缓存，或将分布式缓存缓存至磁盘缓存中。

在本申请实施例中，通过云主机的分布式内存、虚拟磁盘以及云主机上挂载的文件系统缓存用户文件；并在当获取到待缓存的用户文件时，确定用户文件对应的分级特征，并基于分级特征，将用户文件缓存至对应级别的存储区域，分级特征包括访问频率、改动频率以及数据量的至少之一，不同级别的存储区域包括云主机的分布式内存、虚拟磁盘以及云主机上挂载的文件系统。

另外，本申请实施例中还可以根据文件分布哈希表，响应针对用户文件的IO请求，文件分布哈希表包括用户文件与缓存位置的映射关系；根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，对缓存的用户文件进行数据管理。在本申请实施例构建的一种云主机上的包含缓存层、缓存管理层以及缓存客户端的多级数据缓存架构，可以根据记录有各个用户文件存储位置的文件分布哈希表，弹性应对云上复杂IO场景。另外，本申请实施例中由于使用了云主机空闲资源构建缓存层，从而可以充分利用云资源，又有效缓解上层处理IO压力。

可选的，本申请实施例中的一方面来说，可以基于分级特征，将用户文件缓存至对应级别的存储区域，包括：

确定用户文件为低频访问用户文件，将低频访问用户文件缓存到云主机中的云上低频文件存储区域，低频访问用户文件为访问频率低于第一预设频率的用户文件；

确定用户文件为高频访问用户文件，将高频访问用户文件缓存至对应级别的存储区域，高频访问用户文件为访问频率不低于第一预设频率的用户文件。

一种方式中，本申请可以将各个待缓存的用户文件划分为高频访问用户文件或低频访问用户文件。并将其中的高频访问用户文件存储到云主机中的云上高频文件存储区域(即云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统其中之一)。以及将低频访问用户文件的缓存用户文件存储到云主机中的云上低频文件存储区域。

可以理解的，高频访问用户文件即为用户较为频繁的进行调取操作的用户文件(即访问频率不低于第一预设频率的用户文件)。而低频访问用户文件即为用户较为不频繁的进行调取操作的用户文件(即访问频率低于第一预设频率的用户文件)。

可选的，本申请实施例中的一方面来说，确定用户文件为高频访问用户文件，将高频访问用户文件缓存至对应级别的存储区域，包括：

将对应于高频访问用户文件，且数据量不低于预设空间阈值，且改动频率不低于第二预设频率的用户文件缓存到云主机上挂载的文件系统中；

将对应于高频访问用户文件，且数据量低于预设空间阈值的用户文件缓存到虚拟磁盘或分布式内存中。

可选的，本申请实施例中的一方面来说，将对应于高频访问用户文件，且数据量低于预设空间阈值的用户文件缓存到虚拟磁盘或云主机上挂载的文件系统中，包括：

确定对应于高频访问用户文件，且数据量低于预设空间阈值的缓存用户文件对应的改动频率；

将其中改动频率低于第二预设频率的缓存用户文件存储到虚拟磁盘中；或，

将其中改动频率不低于第二预设频率的缓存用户文件存储到分布式内存中。

一种方式中，分布式内存缓存可以对应缓存的用户文件为：缓存访问频率高且文件块粒度，容量较小的用户文件(即将对应于高频访问用户文件，且数据量低于预设空间阈值的用户文件)，同时其还可以为上层处理提供低时延的数据访问。共享型缓存。

一种方式中，磁盘缓存可以对应缓存的用户文件为：缓存访问频率高、且文件块粒度，容量较小、且改动不频繁的文件(即将对应于高频访问用户文件，且数据量低于预设空间阈值，且改动频率低于第二预设频率的用户文件)，避免共享型缓存可能出现的单点IO瓶颈，并为分布式内存缓存分担压力。

另一种方式在，云主机上挂载的文件系统可以对应缓存的用户文件为：缓存访问频率较高的文件且文件块粒度，容量较大、且改动频繁的用户文件(即将对应于高频访问用户文件，且数据量不低于预设空间阈值，且改动频率不低于第二预设频率的用户文件)。可以理解的，其作为分布式内存缓存和磁盘缓存的后端，承载上层处理所需的绝大部分热/温数据，从而降低对数据源的访问

可选的，本申请实施例中的一方面来说，在将用户文件缓存至对应级别的存储区域之后，还包括：

根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，周期性的确定每个用户文件的访问热度值；

将访问热度值低于预设热度值的用户文件进行清理。

根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，周期性的确定每个用户文件的空间大小变化；

基于每个用户文件的空间大小变化，将用户文件缓存至不同的存储区域，存储区域包括磁盘缓存以及分布式缓存中的其中一种。

一种方式中，对于系统中的数据管理来说，一种方式可以为根据用户设置的缓存配置信息和在线统计的用户文件的文件访问特征，周期性的确定每个用户文件的访问热度值。并将访问热度值低于预设热度值的用户文件进行清理。

另外，本申请可以周期性统计分级特征信息更新到文件访问特征表并获取缓存配置中心相关配置信息，根据读文件块空间大小变化，结合缓存配置中心配置信息，实现各存储区域的数据流动(即基于每个用户文件的空间大小变化，将用户文件由磁盘缓存缓存至及分布式缓存，或将分布式缓存缓存至磁盘缓存中)。并同步更新文件分布哈希表。

接收针对用户文件的IO请求；

将IO请求中的请求用户文件与文件分布哈希表进行匹配，确定请求用户文件在云主机的存储位置，文件分布哈希表包括用户文件与缓存位置的映射关系；

若确定请求用户文件未存储在云主机上，通过云主机上关联的数据源处获取请求用户文件；

将请求用户文件缓存至对应级别的存储区域，并将请求用户文件与对应级别的存储区域的映射关系更新到文件分布哈希表中；

将请求用户文件发送给IO请求的发送方。

一种方式中，若接收到发送对象(例如为HPC处理层)发送的针对用户文件的IO请求。即可以基于预设的文件分布哈希表(文件分布哈希表中记录有各个用户文件与缓存位置的映射关系)确定对应的缓存位置。并从对应缓存位置中提取缓存数据并回复给该发送对象。

其中具体地，可以包括以下步骤：

步骤3、将请求用户文件缓存到云主机中的云上高频文件存储区域，并将请求用户文件与高频文件存储区域的映射关系更新到文件分布哈希表中。

步骤4、将请求用户文件发送给IO请求的发送方。

另外，本申请实施例在将IO请求中的请求用户文件与文件分布哈希表进行匹配，确定请求用户文件在云主机的存储位置之后，还包括：

若确定请求用户文件存储在云主机上，确定请求用户文件是否缓存在分布式内存中；

若缓存在分布式内存中，将请求用户文件发送给IO请求的发送方；

若未缓存在分布式内存中，将请求用户文件缓存到分布式内存中，并将请求用户文件与分布式内存的映射关系更新到文件分布哈希表中，将请求用户文件发送给IO请求的发送方。

本申请实施例还提供一种云上数据缓存系统，该系统包括数据源层、云主机上的缓存层、缓存管控层、云主机上的缓存客户端以及HPC处理端，其中：

数据源层包括云上低频文件存储、云上对象存储以及IDC文件存储；

缓存层包括云主机上挂载的文件系统、分布式内存以及虚拟磁盘，缓存层用于对高频访问的用户文件进行缓存；

缓存管控层包括缓存配置中心、文件访问特征统计表以及文件分布哈希表，缓存管控层用于对缓存用户文件进行管理；

其中，缓存客户端用于为HPC处理层提供数据操作接口以及处理IO请求。

一种方式中，本申请提出的云上数据缓存系统中可以不区分数据源，可以是用户本地文件存储、云上低频文件存储或者云上对象存储。

具体地，对于数据源层中的云上低频文件存储来说，可以为基于文件系统挂载的方式支持各个云主机之间的用户文件数据的传输。另外，对于云上对象存储来说，其可以支持云主机之间通过特定API接口进行用户文件数据的传输访问，在数据分发上具备一定优势。一种方式中，其也仅用于数据访问频率较低是用户文件的缓存。而对于IDC文件存储来说，其位于用户本地机房的文件存储，一方面支撑用户本地处理，另一方面通过专线/VPN与云上网络打通。

进一步的，对于缓存层中的云主机上挂载的文件系统来说，其可以用于持久化全局缓存，支持云主机之间的用户文件数据的传输，性能比低频文件存储更强。在本申请实施例中，可以用于缓存数据源中访问频率较高、文件数据量较大、数据改动较频繁的文件，如：HPC任务的核心用户文件。

另外，对于磁盘缓存来说，其可以用于持久化局部缓存层。本申请实施例中，云主机的空闲磁盘空间用于缓存数据源中访问频率高、文件数据量较小、数据改动不频繁的文件，如：处理软件、程序插件、前后处理脚本等。一种方式中，可以通过给云主机添加数据盘的方式来扩展磁盘缓存容量。

另外，对于分布式内存来说，可以用于非持久化全局缓存层，使用云主机内存。本申请实施例中，多台云主机的空闲内存通过tmpfs/ramdisk等方式构建内存文件系统并形成分布式的内存缓存层，并由缓存管控层进行统一管理，用于缓存数据源中被高频访问的文件块。用户处理高峰期云主机数量越多，内存缓存空间就越大。

可选的，文件分布哈希表用于维护用户文件/用户文件块在缓存层中存放的位置，支持HPC Workload高效获取目标文件/文件块，保证上层处理运行效率。

可选的，本申请中的云上数据缓存系统还可以包括：

将低频访问用户文件缓存到云上低频文件存储中，其中低频访问用户文件为访问频率低于预设频率的用户文件。

可选的，本申请中的云上数据缓存系统还可以包括：

将从数据源层获取到的高频访问的用户文件中，数据量不低于预设空间阈值的缓存用户文件存储到分布式内存中；

将从数据源层获取到的高频访问的用户文件中，数据量低于预设空间阈值，且改动频率低于预设频率的用户文件存储到虚拟磁盘中；

将从数据源层获取到的高频访问的用户文件中，数据量低于预设空间阈值且改动频率不低于预设频率的用户文件存储到云主机上挂载的文件系统中。

可选的，本申请中的云上数据缓存系统还可以包括：

缓存配置中心用于维护缓存配置信息并向用户提供缓存控制接口；

文件访问特征统计表用于采集HPC处理层的文件访问特征，包括文件访问特征包括文件访问热度、访问模式以及用户文件的数据量。

本申请的上述实施例提供的云上数据缓存系统与本申请实施例提供的云上数据缓存方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种云上数据缓存装置，该装置用于执行上述任一实施例提供的云上数据缓存方法所执行的操作。如图3所示，该装置包括：

部署模块201，用于通过云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统缓存用户文件；

响应模块202，用于当获取到待缓存的用户文件时，确定所述用户文件对应的分级特征，并基于所述分级特征，将所述用户文件缓存至对应级别的存储区域，所述分级特征包括访问频率、改动频率以及数据量的至少之一，所述不同级别的存储区域包括所述云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统。

响应模块202，具体用于确定所述用户文件为低频访问用户文件，将所述低频访问用户文件缓存到所述云主机中的云上低频文件存储区域，所述低频访问用户文件为访问频率低于第一预设频率的用户文件；

响应模块202，具体用于确定所述用户文件为高频访问用户文件，将所述高频访问用户文件缓存至所述对应级别的存储区域，所述高频访问用户文件为访问频率不低于所述第一预设频率的用户文件。

响应模块202，具体用于将所述对应于高频访问用户文件，且数据量不低于预设空间阈值，且改动频率不低于第二预设频率的用户文件缓存到所述云主机上挂载的文件系统中；

响应模块202，具体用于将所述对应于高频访问用户文件，且数据量低于所述预设空间阈值的用户文件缓存到所述虚拟磁盘或所述分布式内存中。

响应模块202，具体用于确定所述对应于高频访问用户文件，且数据量低于所述预设空间阈值的缓存用户文件对应的改动频率；

响应模块202，具体用于将其中改动频率低于所述第二预设频率的缓存用户文件存储到所述虚拟磁盘中；或，

响应模块202，具体用于将其中改动频率不低于所述第二预设频率的缓存用户文件存储到所述分布式内存中。

部署模块201，具体用于根据用户设置的缓存配置信息和在线统计的所述用户文件的文件访问特征，周期性的确定每个用户文件的访问热度值；

部署模块201，具体用于将访问热度值低于预设热度值的用户文件进行清理。

部署模块201，具体用于根据用户设置的缓存配置信息和在线统计的所述用户文件的文件访问特征，周期性的确定每个用户文件的空间大小变化；

部署模块201，具体用于基于每个用户文件的空间大小变化，将所述用户文件缓存至不同的存储区域，所述存储区域包括所述磁盘缓存以及所述分布式缓存中的其中一种。

部署模块201，具体用于接收针对用户文件的IO请求；

部署模块201，具体用于将所述IO请求中的请求用户文件与文件分布哈希表进行匹配，确定所述请求用户文件在所述云主机的存储位置，所述文件分布哈希表包括用户文件与缓存位置的映射关系；

部署模块201，具体用于若确定所述请求用户文件未存储在所述云主机上，通过所述云主机上关联的数据源处获取所述请求用户文件；

部署模块201，具体用于将所述请求用户文件缓存至对应级别的存储区域，并将所述请求用户文件与所述对应级别的存储区域的映射关系更新到所述文件分布哈希表中；

部署模块201，具体用于将所述请求用户文件发送给所述IO请求的发送方。

本申请的上述实施例提供的云上数据缓存装置与本申请实施例提供的云上数据缓存方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种电子设备，以执行上述云上数据缓存方法。请参考图4，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图4所示，电子设备3包括：处理器300，存储器301，总线302和通信接口303，所述处理器300、通信接口303和存储器301通过总线302连接；所述存储器301中存储有可在所述处理器300上运行的计算机程序，所述处理器300运行所述计算机程序时执行本申请前述任一实施方式所提供的云上数据缓存方法。

其中，存储器301可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口303(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器301用于存储程序，所述处理器300在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述云上数据缓存方法可以应用于处理器300中，或者由处理器300实现。

处理器300可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器，包括处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301，处理器300读取存储器301中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的云上数据缓存方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的云上数据缓存方法对应的计算机可读存储介质，请参考图5，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的云上数据缓存方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的云上数据缓存方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种云上数据缓存方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述分级特征，将所述用户文件缓存至对应级别的存储区域，包括：

确定所述用户文件为低频访问用户文件，将所述低频访问用户文件缓存到所述云主机中的云上低频文件存储区域，所述低频访问用户文件为访问频率低于第一预设频率的用户文件；

确定所述用户文件为高频访问用户文件，将所述高频访问用户文件缓存至所述对应级别的存储区域，所述高频访问用户文件为访问频率不低于所述第一预设频率的用户文件。

3.根据权利要求2所述的方法，其特征在于，所述确定所述用户文件为高频访问用户文件，将所述高频访问用户文件缓存至所述对应级别的存储区域，包括：

将所述对应于高频访问用户文件，且数据量不低于预设空间阈值，且改动频率不低于第二预设频率的用户文件缓存到所述云主机上挂载的文件系统中；

将所述对应于高频访问用户文件，且数据量低于所述预设空间阈值的用户文件缓存到所述虚拟磁盘或所述分布式内存中。

4.根据权利要求3所述的方法，其特征在于，将将所述对应于高频访问用户文件，且数据量低于所述预设空间阈值的用户文件缓存到所述虚拟磁盘或所述分布式内存中，包括：

确定所述对应于高频访问用户文件，且数据量低于所述预设空间阈值的缓存用户文件对应的改动频率；

将其中改动频率低于所述第二预设频率的缓存用户文件存储到所述虚拟磁盘中；或，

将其中改动频率不低于所述第二预设频率的缓存用户文件存储到所述分布式内存中。

5.根据权利要求1所述的方法，其特征在于，在所述将所述用户文件缓存至对应级别的存储区域之后，还包括：

根据用户设置的缓存配置信息和在线统计的所述用户文件的文件访问特征，周期性的确定每个用户文件的访问热度值；

将访问热度值低于预设热度值的用户文件进行清理。

6.根据权利要求1或5所述的方法，其特征在于，在所述将所述用户文件缓存至对应级别的存储区域之后，还包括：

根据用户设置的缓存配置信息和在线统计的所述用户文件的文件访问特征，周期性的确定每个用户文件的空间大小变化；

基于每个用户文件的空间大小变化，将所述用户文件缓存至不同的存储区域，所述存储区域包括所述磁盘缓存以及所述分布式缓存中的其中一种。

7.根据权利要求1所述的方法，其特征在于，在所述将所述用户文件缓存至对应级别的存储区域之后，还包括：

接收针对用户文件的IO请求；

将所述IO请求中的请求用户文件与文件分布哈希表进行匹配，确定所述请求用户文件在所述云主机的存储位置，所述文件分布哈希表包括用户文件与缓存位置的映射关系；

若确定所述请求用户文件未存储在所述云主机上，通过所述云主机上关联的数据源处获取所述请求用户文件；

将所述请求用户文件缓存至对应级别的存储区域，并将所述请求用户文件与所述对应级别的存储区域的映射关系更新到所述文件分布哈希表中；

将所述请求用户文件发送给所述IO请求的发送方。

8.一种云上数据缓存系统，其特征在于，所述系统包括数据源层、云主机上的缓存层、缓存管控层、所述云主机上的缓存客户端以及HPC处理端，其中：

9.根据权利要求8所述的系统，其特征在于，所述数据源层包括：

将低频访问用户文件缓存到所述云上低频文件存储中，其中所述低频访问用户文件为访问频率低于预设频率的用户文件。

10.根据权利要求8所述的系统，其特征在于，所述缓存层包括：

将从数据源层获取到的高频访问的用户文件中，数据量不低于预设空间阈值的缓存用户文件存储到所述分布式内存中；

将从数据源层获取到的高频访问的用户文件中，数据量低于所述预设空间阈值，且改动频率低于预设频率的用户文件存储到所述虚拟磁盘中；

将从数据源层获取到的高频访问的用户文件中，数据量低于所述预设空间阈值且改动频率不低于所述预设频率的用户文件存储到所述云主机上挂载的文件系统中。

11.根据权利要求8所述的系统，其特征在于，所述缓存管控层包括：

所述缓存配置中心用于维护缓存配置信息并向用户提供缓存控制接口；

所述文件访问特征统计表用于采集所述HPC处理层的文件访问特征，包括文件访问特征包括文件访问热度、访问模式以及用户文件的数据量。

12.一种云上数据缓存装置，其特征在于，所述装置包括：

部署模块，用于通过云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统缓存用户文件；

响应模块，用于当获取到待缓存的用户文件时，确定所述用户文件对应的分级特征，并基于所述分级特征，将所述用户文件缓存至对应级别的存储区域，所述分级特征包括访问频率、改动频率以及数据量的至少之一，所述不同级别的存储区域包括所述云主机的分布式内存、虚拟磁盘以及所述云主机上挂载的文件系统。

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现1-11任一项所述的方法。