CN114168075B

CN114168075B - 基于数据关联性提升负载访问性能的方法、设备及系统

Info

Publication number: CN114168075B
Application number: CN202111432499.XA
Authority: CN
Inventors: 童薇; 冯丹; 陈宇; 吕鹏泽
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-05-14
Anticipated expiration: 2041-11-29
Also published as: CN114168075A

Abstract

本发明公开了基于数据关联性负载访问性能的方法、设备及系统，属于存储服务领域，包括：若当前请求为写请求且对象存在显性数据关联，则在存储主对象的同时，在主对象中附加与之关联的成员对象的索引列表；若为写请求且对象存在隐性数据关联，则将存在隐性数据关联的多个对象聚集到同一个超级对象中，并转发至同一个存储节点；若为读请求且对象存在显性数据关联，则从存储节点访问主对象时，将相关联的成员对象进行预取；若为读请求且对象存在隐性数据关联，则从存储节点访问对象时，在相应的超级对象较小时，将相关联的对象进行预取。本发明在存储对象时对数据关联性进行维护，在访问对象时，基于数据关联性预取对象，有效提升了负载的访问性能。

Description

基于数据关联性提升负载访问性能的方法、设备及系统

技术领域

本发明属于存储服务领域，更具体地，涉及一种基于数据关联性提升负载访问性能的方法、设备及系统。

背景技术

云对象存储系统分为前端访问层的代理节点和后端存储层的存储节点。代理节点负责转发请求但不存储数据，存储节点负责管理对象的数据和元数据。对于每个对象的读请求，需要从代理节点转发到存储节点上处理，存储节点将对象返回代理节点，之后代理节点将对象返回用户并响应请求。

在很多云对象存储的使用场景中，对象存在数据关联，即存在于对象内容之间的关联性。一种情况是以主对象为中心的显性数据关联，表现为一个主对象的内容中有指向多个成员对象的引用。这种引用关系可以通过明显的引用语法关键词被发掘，并且主对象是这组关联对象的访问入口。比如，对一个网页对象的访问通常触发访问页面中引用的对象，包括超链接对象、图片对象和文本对象等等。另一种情况下，多个对象以逻辑路径中的语义而关联，这些关联的对象有相似的内容，比如同样特征的多张图片，或者一个文件在不同时间备份的多个版本。这些对象之间的关联性称为隐性数据关联。多个关联的对象通常会被相近访问，但访问没有固定的顺序。

在现有的云对象存储系统中，当存储连续到来的关联对象时，代理节点在转发请求时采取尽可能分散的原则，多个关联对象被转发后分散在不同的存储节点。此外，对象在存储节点上被存储的磁盘路径与逻辑路径截然不同，对于存在隐性数据关联的多个对象，这种存储方式失去原本逻辑路径中隐含的关联语义。因此，现有的云对象存储系统不能有效维护对象之间的关联性。后续访问关联对象时，每个对象都需要在用户发起访问请求后从存储节点获取，并且关联对象分散在不同存储节点，获取这些分散的对象是很耗时的，导致负载的访问性能不佳。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于数据关联性提升负载访问性能的方法、设备及系统，旨在现有的云对象存储系统未考虑对象的数据关联性负载访问性能不佳的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于数据关联性提升负载访问性能的方法，包括：

对于发送至代理节点的当前请求，若当前请求为写请求，且被请求的对象存在显性数据关联，则执行显性数据关联对象的存储步骤；

显性数据关联对象的存储步骤，包括：

(S1)判断被请求的对象的类型，若为主对象，则转入步骤(S2)；若为成员对象，则转入步骤(S3)；

(S2)获取主对象所属负载中与主对象相关联的成员对象，并将各成员对象的索引信息记录到主对象的元数据的扩展字段中，转入步骤(S3)；

(S3)将当前请求转发至存储节点，以实现被请求的对象的持久化存储，对当前请求的处理结束；

其中，索引信息包括成员对象的路径、大小和时间戳。

进一步地，被请求的对象是否存在显性数据关联的判断方式，包括：

判断是否存在与当前请求相对应的引用语法关键词，若存在，则判断被请求的对象存在显性数据关联；若不存在，则判断被请求的对象不存在显性数据关联；

并且，步骤(S1)中，判断被请求的对象的类型，包括：

判断被请求的对象的内容中是否存在引用语法关键词，若存在，则判断被请求的对象为主对象；若不存在，则判断被请求的对象为成员对象；

其中，引用语法关键词由请求发送方预先定义，用于在主对象的内容中识别出与之存在显性数据关联的成员对象。

进一步地，本发明提供的基于数据关联性提升负载访问性能的方法，还包括：

存储节点接收到由代理节点转发的请求后，若被请求的对象存在显性数据关联且是主对象，则将主对象的元数据的扩展字段中的索引信息抽出，记录至单独的索引文件后，将索引文件连同主对象的数据和元数据存储至同一磁盘目录下；若被请求的对象存在显性数据关联且是成员对象，则将被请求的对象的数据和元数据存储至同一磁盘目录下。

若当前请求为读请求，且被请求的对象存在显性数据关联，则执行显性数据关联对象的访问步骤；

显性数据关联对象的访问步骤，包括：

(T1)判断代理节点中是否缓存了被请求的对象，若是，则从缓存中获取被请求的对象并返回，对当前请求的处理结束；若否，则将当前请求转发至存储节点，并转入步骤(T2)；

(T2)判断被请求的对象的类型，若为主对象，则转入步骤(T3)；若为成员对象，则转入步骤(T4)；

(T3)从存储节点获取被请求对象的数据、元数据和相关联的索引文件，根据索引文件获取与被请求对象存在显性数据关联的成员对象，并将被请求对象及与之关联的成员对象的数据和元数据均缓存至代理节点，转入步骤(T5)；

(T4)从存储节点获取被请求对象的数据和元数据，缓存至代理节点，转入步骤(T5)；

(T5)返回被请求的对象，对当前请求的处理结束。

若当前请求为写请求，且被请求的对象存在隐性数据关联，则执行隐性数据关联对象的存储步骤；

隐性数据关联对象的存储步骤，包括：

(U1)将被请求的对象分配至当前请求所属负载的其中一个超级对象；

(U2)利用被请求对象的逻辑路径“账户/容器/对象”中的账户和容器信息，为该对象构造新的逻辑路径“账户/容器/超级对象/对象”，并将其中的对象信息记录到被请求对象的元数据的扩展字段中；

(U3)按照新的逻辑路径中的前三层“账户/容器/超级对象”，将当前请求转发至存储节点，以实现被请求对象的持久化存储，对当前请求的处理结束；

其中，超级对象为用于聚合一组存在隐性数据关联的对象的逻辑概念，且同一个超级对象下聚合的对象存储在同一个存储节点上；同一个负载对应一个或多个超级对象。

进一步地，被请求对象是否存在隐性数据关联的判断方式，包括：

若被请求的对象与同一负载中的其他对象的逻辑路径中，账户和容器信息相同，且对象信息的相似度高于预设的关联阈值，则判定被请求对象存在隐性数据关联；否则，判断被请求对象不存在隐性数据关联。

存储节点接收到由代理节点转发的请求后，若被请求的对象存在隐性数据关联，则从被请求对象的元数据的扩展字段中提取对象信息，并拼接至当前请求的转发路径之后，得到新的逻辑路径“账户/容器/超级对象/对象”，作为磁盘路径对被请求的对象进行持久化存储。

若当前请求为读请求，且被请求的对象存在隐性数据关联，则执行隐性数据关联对象的访问步骤；

隐性数据关联对象的访问步骤，包括：

(V1)判断代理节点中是否缓存了被请求的对象，若是，则从缓存中获取被请求的对象并返回，对当前请求的处理结束；否则，转入步骤(V2)；

(V2)判断代理节点中是否存储了被请求对象所属超级对象的信息，若是，则从该超级对象所对应的存储节点中获取被访问对象的数据和元数据，缓存至代理节点，转入步骤(V4)；否则，则按照逻辑路径中的“账户/容器/超级对象”将当前请求转发至存储节点，并转入步骤(V3)；

(V3)根据转发路径获取被请求对象所属超级对象下，所关联的所有对象，并将所获取的所有对象的大小总和作为该超级对象的大小，若超级对象的大小未超过预设的预取阈值，则从存储节点获取超级对象所关联的所有对象的数据及元数据，缓存至代理节点，并转入步骤(V4)；若超级对象的大小超过预取阈值，则从存储节点获取被请求对象的数据及元数据，缓存至代理节点，并转入步骤(V4)；

(V4)返回被请求的对象，对当前请求的处理结束。

按照本发明的另一个方面，提供了一种基于数据关联性提升负载访问性能的设备，包括：

计算机可读存储介质，用于存储计算机程序；

以及处理器，用于读取计算机可读存储介质中存储的计算机程序，执行本发明提供的基于数据关联性提升负载访问性能的方法。

按照本发明的又一个方面，提供了一种云对象存储系统，包括：代理节点和存储节点，以及本发明提供的基于数据关联性提升负载访问性能的设备。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在存储存在显性数据关联的对象时，会在主对象附加与之关联的成员对象的索引信息，由此可以维护对象之间的显性数据关联性，从而为后续主对象访问过程中基于对象之间的显性数据关联性进行预取提供了依据，有利于提高负载访问性能。

(2)存在显性数据关联的主对象和成员对象之间，存在较强的访问关联性，即主对象被访问后，与之相关联的成员对象很大概率会立即被访问，因此，本发明在访问存在显性数据关联的主对象时，同时会根据其所附加的索引信息，将与之存在显性数据关联的所有成员对象都并行地预取到代理节点中，能够有效提高缓存的命中率，降低访问延迟，从而提高负载的访问性能。

(3)本发明利用超级对象这一逻辑概念将存在隐性数据关联的多个对象聚合到一起，并保证同一个超级对象所关联的多个对象被存储至同一个存储节点，由此可以维护对象之间的隐性数据关联性，从而为后续存在隐性数据关联的对象被访问时，基于对象之间的隐性数据关联性进行预取提供了依据，有利于提高负载的访问性能。

(4)相比于存在显性数据关联的主对象和成员对象之间访问关联性，存在隐性数据关联的对象之间存在一定的访问关联性，但访问关联性相对较弱；本发明预先设置预取阈值，在超级对象的大小未超过该预取阈值的情况下，将超级对象下关联的所有对象都预取到代理节点中，而在超级对象的大小超过该预取阈值时，仅预取被访问的对象，可以在避免引入较大的预取开销的情况下，有效提高缓存的命中率，降低访问延迟，从而提高负载的访问性能；此外，在仅预取被访问的对象时，由于超级对象所对应的存储节点已知，后续访问该超级对象下的对象时，可通过集群内部调用快速从存储节点获取，避免了代理节点转发请求的开销。

总的来说，本发明充分挖掘对象之间的显性数据关联性和隐性数据关联性，并在存储对象时对显性数据关联性和隐性数据关联性进行维护，在访问对象时，基于对象之间的数据关联性提前预取可被访问的对象缓存到代理节点，后续对关联对象的访问能从代理节点直接将对象返回，避免对象从存储节点获取，能够有效提升负载的访问性能。

附图说明

图1为本发明实施例提供的基于数据关联性提升负载访问性能的方法示意图；

图2为本发明实施例提供的显性数据关联对象的存储步骤流程图；

图3为本发明实施例提供的显性数据关联对象的访问步骤流程图；

图4为本发明实施例提供的隐性数据关联对象的存储步骤流程图；

图5为本发明实施例提供的隐性数据关联对象的访问步骤流程图；

图6为本发明实施例提供的云对象存储系统的整体示意图；

图7为应用示例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的云对象存储系统未考虑对象的数据关联性负载访问性能不佳的技术问题，本发明提供了一种基于数据关联性提升负载访问性能的方法、设备及系统，其整体思路在于：充分挖掘对象之间的显性数据关联性和隐性数据关联性，并在存储对象时对显性数据关联性和隐性数据关联性进行维护，在访问对象时，基于对象之间的数据关联性提前预取可被访问的对象缓存到代理节点，后续对关联对象的访问能从代理节点直接将对象返回，避免对象从存储节点获取，能够有效提升负载的访问性能。

在详细解释本发明的技术方案之前，先就本发明所涉及的技术术语进行解释和说明：

引用语法关键词：用于在主对象的内容中识别出与之存在显性数据关联的成员对象；通过语法分析可实现对引用语法关键词的查找与解析，可选地，本发明使用高性能的C语言标准正则库实现；对于不同的主对象的类型，注册一个具体的语法正则表达式，以提取主对象中引用的成员对象。注册需要两个参数，类型和模式，其中类型是主对象的类型(如网页、文档等)，模式是由用户定义的语法关键词(如“#include”等)。

索引列表：用于维护主对象和成员对象之间的显性数据关联。索引的内容由一个列表组成，每个条目代表一个对象的索引信息，包括对象的路径、对象大小和时间戳；其中，对象的路径用于定位关联的对象，对象大小用来在预取时确保对象的完整性，时间戳用于确保对象为最新版本。

超级对象：用于聚合一组存在隐性数据关联的对象的逻辑概念，同一个超级对象下聚合的关联对象物理存储在同一个存储节点上；为了利用节点之间的并行性，本发明通常为负载设置多个超级对象；超级对象的个数可配置，默认与存储节点的个数相同；存在多个超级对象时，为对象分配超级对象的方式可以由用户配置，默认情况下为每个对象随机选择所属的超级对象。

逻辑路径：存储系统暴露给用户用于存储和访问对象的路径，通常包含三层，即“账户/容器/对象”；对于隐性数据关联中的对象，关联性管理模块修改对象的逻辑路径为四层，即“账户/容器/超级对象/对象”。

转发路径：用于代理节点转发请求时决定对象对应的存储节点；通常为对象的逻辑路径，即“账户/容器/对象”；对于隐性数据关联中的对象，转发路径为“账户/容器/超级对象”，以此保证同一个超级对象下的所有对象的转发路径相同，则将被转发到相同的存储节点上存储。

磁盘路径：对象在存储节点上的存储路径，由设备名、相关分区和操作时间戳等信息组成，和对象的逻辑路径不同；对于隐性数据关联中的对象，逻辑路径中存在关联语义，因此以逻辑路径作为磁盘路径来存储对象。

预取阈值：用于决定隐性数据关联中对象预取时的粒度；当超级对象下所有对象的总大小低于预取阈值时，当访问超级对象下的一个对象时，将超级对象下的所有对象预取到代理节点；当超级对象下所有对象的总大小高于预取阈值时，当访问超级对象下的对象时，只预取被访问的对象。

以下为实施例。

实施例1：

一种基于数据关联性提升负载访问性能的方法，如图1所示，本实施例对于发送至代理节点的当前请求，会对请求类型和被请求对象的数据关联性进行分析：

若当前请求为写请求，且被请求对象存在显性数据关联，则执行显性数据关联对象的存储步骤，在存储主对象的同时，在主对象中附加与之存在显性数据关联的成员对象的索引列表，以维护主对象与成员对象之间的显性数据关联性；

若当前请求为写请求，且被请求对象存在隐性数据关联性，则执行隐性数据关联对象的存储步骤，将存在隐性数据关联的多个对象聚集到同一个超级对象中，并将同一个超级对象中的对象转发至同一个存储节点，以维护对象之间的隐性数据关联性；

若当前请求为读请求，且被请求对象存在显性数据关联，则执行显性数据关联对象的访问步骤，在从存储节点访问主对象时，同时将与之存在显性数据关联的成员对象都进行预取并缓存至代理节点，以提高后续对关联对象的访问从代理节点直接返回的概率；

若当前请求为读请求，且被请求对象存在隐性数据关联，则执行隐性数据关联对象的访问步骤，在从存储节点访问对象时，在相应的超级对象的大小不超过预设的预取阈值时，将与被访问对象存在隐性数据关联的对象进行预取并缓存至代理节点，从而在不引入过大的预取开销的情况下，提高后续对关联对象的访问从代理节点直接返回的概率。

考虑到同一负载相关的对象，数据关联性类似，本实施例对于当前节点，还会判断请求所属的负载；

对于请求类型和请求所属的负载，可直接通过请求的元数据中所记录的信息判断。

本实施例中，根据引用语法关键词判断被请求的对象是否存在显性数据关联，由于引用语法关键词由请求发送方预先定义，若存在与请求相对应的引用语法关键词，则说明了相关的对象是存在显性数据关联的，基于此，本实施例中，被请求的对象是否存在显性数据关联的判断方式，包括：

判断是否存在与当前请求相对应的引用语法关键词，若存在，则判断被请求的对象存在显性数据关联；若不存在，则判断被请求的对象不存在显性数据关联。

由于引用语法关键词仅存在于主对象中，因此，在确定被请求对象存在显性数据关联的情况下，若该对象的内容中包含了引用语法关键词，则说明该对象为主对象，若该对象的内容中不包含引用语法关键词，则说明该对象为成员对象；

进一步地，由于引用语法关键词中记录了与主对象相关联的成员对象的信息，因此，在识别出主对象之后，及可根据主对象内容中的引用语法关键词获取到与该主对象存在显性数据关联的成员对象；例如，某个主对象的类型是c语言类型的源文件(后缀名为“.c”)，语法关键词为“#include”，并且在主对象的内容中，存在如下两行代码：

#include A.h

#include B.h

则通过引用语法关键词分析，可以获取该主对象所关联的两个成员对象，即A.h和B.h。

由于隐性数据关联是通过对象的逻辑路径的语义关联性而体现地，因此，本实施例中，基于对象的逻辑路径判断被请求对象是否存在隐性数据关联，判断方式具体包括：

若被请求的对象与同一负载中的其他对象的逻辑路径中，账户和容器信息相同，且对象信息的相似度高于预设的关联阈值，则判定被请求对象存在隐性数据关联；否则，判断被请求对象不存在隐性数据关联；

根据对象逻辑路径的语义相似度来判断对象之间是否存在隐性数据关联时，关联阈值可根据实际的负载特性设定。

如图2所示，本实施例中，显性数据关联对象的存储步骤，包括：

传统的云对象存储系统中，存储节点在接收到转发的写请求后，会将对象存储为数据文件和元数据文件，本实施例中，为了与该存储机制相适应，存储节点在接收到针对主对象的存储请求时，会从主对象的元数据的扩展字段中将所附加的索引列表抽出，并打包成一个单独的索引文件，该索引文件将和主对象的数据文件和元数据文件存储到同一磁盘目录下；对于成员对象，则直接将其数据文件和元数据文件存储到同一磁盘目录下；

基于上述显性数据关联对象的存储步骤，在对象存储过程中，对象之间的显性数据关联将得以维护。

如图3所示，本实施例中，显性数据关联对象的访问步骤，包括：

通过步骤(T3)，与主对象存在显性数据关联的成员对象均被预取并缓存至代理节点，从而后续对相关成员对象的访问将能够直接从代理节点的缓存中获取，访问请求将得到快速相应，负载访问性能得到有效提升；由于云对象存储系统在存储时，为了保证负载均衡，会将连续到来的关联对象分散存储到不同的节点，因此，步骤(T3)中，可以利用节点的并行性从多个存储节点高效预取成员对象；

(T5)返回被请求的对象，对当前请求的处理结束。

如图4所示，本实施例中，隐性数据关联对象的存储步骤，包括：

可选地，本实施例中，对于一个负载配置多个超级对象，并且为了利用节点之间的并行性，本实施例中，为负载配置的超级对象与存储节点数量相同；为每个对象分配超级对象时，进行随机选取；

应当说明的是，超级对象的配置数量，以及为对象选择超级对象的策略，可根据实际的应用需求灵活调整；

超级对象的引入，使得对象原有的三层逻辑路径，即“账户/容器/对象”，变成了四层的逻辑路径，即“账户/容器/超级对象/对象”，对于新的四层逻辑路径，在请求转发时，只处理其中的前三层，即“账户/容器/超级对象”；

由于同一个超级对象下会聚集多个存在隐性数据关联的对象，本实施例按照逻辑路径“账户/容器/超级对象”转发请求，可以保证同一个超级对象下关联的多个对象存储到同一个存储节点；

存储节点在接收到根据逻辑路径“账户/容器/超级对象”转发的请求后，会从被请求对象的元数据的扩展字段中提取对象信息，并拼接至当前请求的转发路径之后，得到新的逻辑路径“账户/容器/超级对象/对象”，作为磁盘路径对被请求的对象进行持久化存储，由此能够保证同一个超级对象所关联的对象在同一个存储节点上具有不同的磁盘路径；

经过上述隐性数据关联对象的存储步骤，对象之间的隐性数据关联性将得到维护。

如图5所示，本实施例中，隐性数据关联对象的访问步骤，包括：

在确定对象存在隐性数据关联的情况下，若被访问的对象未被代理节点缓存，但代理节点中存储了该对象所属的超级对象的信息，说明与被访问对象所属超级对象下的其他对象曾被访问过，因此可以得知超级对象所处的节点，此时无需经过代理节点转发请求，直接通过集群内部调用即可快速从存储节点获得被访问的目标对象；

相比于存在显性数据关联的主对象和成员对象之间访问关联性，存在隐性数据关联的对象之间存在一定的访问关联性，但访问关联性相对较弱；本实施例预先设置预取阈值，在超级对象的大小未超过该预取阈值时，预取超级对象下的所有对象所需开销较小，因此本实施例在这种情况下将超级对象下关联的所有对象都预取到代理节点中，能够有效提高后续访问关联对象时，直接从代理节点的缓存中获取对象的概率；在超级对象的大小超过该预取阈值时，预取超级对象下的所有对象的开销较大，因此，本实施例在这种情况下，仅预取被访问的对象，由于超级对象所对应的存储节点已知，后续访问该超级对象下的对象时，可通过集群内部调用快速从存储节点获取，避免了代理节点转发请求的开销；

(V4)返回被请求的对象，对当前请求的处理结束。

实施例2：

一种基于数据关联性提升负载访问性能的设备，包括：

计算机可读存储介质，用于存储计算机程序；

以及处理器，用于读取计算机可读存储介质中存储的计算机程序，执行上述实施例1提供的基于数据关联性提升负载访问性能的方法。

实施例3：

一种云对象存储系统，包括：代理节点和存储节点，以及上述实施例2提供的基于数据关联性提升负载访问性能的设备。

图6所示，为本实施例提供的云对象存储系统的整体架构，基于数据关联性提升负载访问性能的设备被示例化为部署于代理节点中的请求分流模块、关联性管理模块和关联对象预取模块，以及部署于存储节点中的关联对象处理模块和关联对象存储模块，其中：

请求分流模块，用于拦截请求，根据请求的元数据判定其所属的负载，并将请求分发到对应的关联性管理模块；

关联性管理模块，用于判断请求是读请求还是写请求，对于写请求，关联性管理模块对对象实施表达关联性的预处理方法；对于不同的数据关联性，关联性管理模块采用不同的预处理方法；对于读请求，关联性管理模块向关联对象预取模块请求对象；

关联对象预取模块，用于提前预取可能被访问的关联对象；对于不同的数据关联性，关联对象预取模块采取不同的预取方式；

关联对象处理模块，用于接收来自关联性管理模块的写请求和来自关联对象预取模块的读请求；对于写请求，关联对象处理模块根据关联性管理模块的预处理方法处理关联对象，并将对象分发到对应的关联对象存储模块；对于读请求，关联对象处理模块从关联对象存储模块获取对象并处理；

关联对象存储模块，用于完成关联对象在存储节点上的持久化存储；

各模块的具体实施方式，可参考上述实施例1的描述，在此将不做复述；应当说明的是，图6仅示出了一个存储节点，但在实际应用中，存储节点可能存在多个。

以下针对图7所示的一个具体的应用示例，对本发明技术方案做进一步的解释说明：

在该应用示例中，系统服务两种不同类型关联性的负载w1和w2。m1、m2和m3为负载w1的三个对象，存在显性数据关联，其中m1为主对象，m2和m3是与m1关联的成员对象。而o1、o2、o3和o4为负载w2的四个对象，存在隐性数据关联。本例中设置两个超级对象so1和so2。下面先介绍对象的存储过程，再介绍对象的访问过程。

存储对象时，请求分流模块根据对象所属的负载，将对象m1、对象m2和对象m3分发给关联性管理模块cm1，将对象o1、对象o2和对象o3分发给关联性管理模块cm2。

关联性管理模块cm1解析对象m1的对象内容，从中捕获对对象m2和对象m3的引用，在对象m1的元数据的扩展字段中为对象m2和对象m3创建索引列表的条目。然后，对象m1、对象m2和对象m3分别被转发到存储节点s1、s2和s3。

关联性管理模块cm2将对象o1和对象o2分配给超级对象so1，将对象o3和对象o4分配给超级对象so2，并修改它们的逻辑路径和转发路径。然后，对象o1和对象o2被转发到存储节点s1，对象o3和对象o4被转发到存储节点s2。

当对象m1到达存储节点s1，关联对象处理模块oh1将其元数据的扩展字段中的索引列表抽取出，形成一个单独的索引文件，然后关联对象存储模块os1将对象m1的数据文件、元数据文件和索引文件存储在相同的目录下。

当对象m2到达存储节点s2，关联对象处理模块oh2不做任何处理，然后关联对象存储模块os2将对象m2的数据文件和元数据文件存储在相同的目录下。

当对象m3到达存储节点s3，关联对象处理模块oh3不做任何处理，然后关联对象存储模块os3将对象m3的数据文件和元数据文件存储在相同的目录下。

当对象o1和对象o2到达存储节点s1，关联对象处理模块oh1获取它们的逻辑路径，然后关联对象存储模块os4以逻辑路径存储对象o1和对象o2的数据文件和元数据文件。

当对象o3和对象o4到达存储节点s2，关联对象处理模块oh2获取它们的逻辑路径，然后关联对象存储模块os5以逻辑路径存储对象o3和对象o4的数据文件和元数据文件。

本例中，依次访问对象m1、对象m2、对象m3、对象o1、对象o2、对象o3和对象o4，其中对象o1和对象o2所属的超级对象so1不超过预取阈值，对象o3和对象o4所属的超级对象so2超过预取阈值。

访问对象m1时，请求分流模块根据对象所属的负载，将对象m1分发给关联性管理模块cm1，cm1向关联对象预取模块cp1请求获取对象，此时cp1中没有任何对象，于是cp1将请求转发到存储节点s1。存储节点上的关联对象处理模块oh1向关联对象存储模块os1请求获取对象。关联对象存储模块os1向关联对象处理模块oh1返回对象m1的数据、元数据以及附加的索引文件。关联对象处理模块oh1将对象m1的数据和元数据返回关联对象预取模块cp1，关联对象预取模块cp1将m1返回关联性管理模块cm1。与此同时，关联对象处理模块oh1处理对象m1的索引文件，将其中关联的成员对象m2和m3从存储节点s2和s3并行地预取到关联对象预取模块cp1中。

访问对象m2时，请求分流模块根据对象所属的负载，将对象m2分发给关联性管理模块cm1，cm1向关联对象预取模块cp1请求获取对象，此时cp1中有对象m1、对象m2和对象m3，于是直接将对象m2返回关联性管理模块cm1。

访问对象m3时，请求分流模块根据对象所属的负载，将对象m3分发给关联性管理模块cm1，cm1向关联对象预取模块cp1请求获取对象，此时cp1中有对象m1、对象m2和对象m3，于是直接将对象m3返回关联性管理模块cm1。

访问对象o1时，请求分流模块根据对象所属的负载，将对象o1分发给关联性管理模块cm2，cm2向关联对象预取模块cp2请求获取对象，此时cp2中没有任何对象，于是cp2将请求转发到存储节点s1。存储节点上的关联对象处理模块oh1向关联对象存储模块os4请求获取对象。关联对象存储模块os4向关联对象处理模块oh1返回整个超级对象so1下的对象o1和对象o2。由于超级对象so1没有超过预取阈值，所以关联对象处理模块oh1将对象o1和对象o2返回关联对象预取模块cp2，关联对象预取模块cp2将对象o1返回关联性管理模块cm2。

访问对象o2时，请求分流模块根据对象所属的负载，将对象o2分发给关联性管理模块cm2，cm2向关联对象预取模块cp2请求获取对象，此时cp2中有对象o1和对象o2，于是直接将对象o2返回关联性管理模块cm2。

访问对象o3时，请求分流模块根据对象所属的负载，将对象o3分发给关联性管理模块cm2，cm2向关联对象预取模块cp2请求获取对象，此时cp2中有对象o1和对象o2，没有对象o3，于是cp2将请求转发到存储节点s2。存储节点上的关联对象处理模块oh2向关联对象存储模块os5请求获取对象。关联对象存储模块os5向关联对象处理模块oh2返回整个超级对象so2下的对象o3和对象o4。由于超级对象so2超过预取阈值，所以关联对象处理模块oh2只将对象o3返回关联对象预取模块cp2，关联对象预取模块cp2将对象o3返回关联性管理模块cm2。

访问对象o4时，请求分流模块根据对象所属的负载，将对象o4分发给关联性管理模块cm2，cm2向关联对象预取模块cp2请求获取对象，此时cp2中有对象o1、对象o2和对象o3，没有对象o4，但由于访问过对象o3得知超级对象so2位于存储节点s2，所以关联对象预取模块cp2无需经过代理节点转发请求，而是通过集群内部调用快速从存储节点s2上的关联对象处理模块oh2获取对象o4。关联对象处理模块oh2将对象o4返回关联对象预取模块cp2，关联对象预取模块cp2将对象o4返回关联性管理模块cm2。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据关联性提升负载访问性能的方法，其特征在于，包括：

对于发送至代理节点的当前请求，若所述当前请求为写请求，且被请求的对象存在显性数据关联，则执行显性数据关联对象的存储步骤；

所述显性数据关联对象的存储步骤，包括：

(S2)获取所述主对象所属负载中与所述主对象相关联的成员对象，并将各成员对象的索引信息记录到所述主对象的元数据的扩展字段中，转入步骤(S3)；

(S3)将所述当前请求转发至存储节点，以实现被请求的对象的持久化存储，对所述当前请求的处理结束；

其中，所述索引信息包括成员对象的路径、大小和时间戳；被请求的对象是否存在显性数据关联的判断方式，包括：

判断是否存在与所述当前请求相对应的引用语法关键词，若存在，则判断被请求的对象存在显性数据关联；若不存在，则判断被请求的对象不存在显性数据关联；

并且，所述步骤(S1)中，判断被请求的对象的类型，包括：

其中，所述引用语法关键词由请求发送方预先定义，用于在主对象的内容中识别出与之存在显性数据关联的成员对象。

2.如权利要求1所述的基于数据关联性提升负载访问性能的方法，其特征在于，还包括：

所述存储节点接收到由所述代理节点转发的请求后，若被请求的对象存在显性数据关联且是主对象，则将所述主对象的元数据的扩展字段中的索引信息抽出，记录至单独的索引文件后，将所述索引文件连同所述主对象的数据和元数据存储至同一磁盘目录下；若被请求的对象存在显性数据关联且是成员对象，则将被请求的对象的数据和元数据存储至同一磁盘目录下。

3.如权利要求2所述的基于数据关联性提升负载访问性能的方法，其特征在于，还包括：

若所述当前请求为读请求，且被请求的对象存在显性数据关联，则执行显性数据关联对象的访问步骤；

所述显性数据关联对象的访问步骤，包括：

(T1)判断所述代理节点中是否缓存了被请求的对象，若是，则从缓存中获取被请求的对象并返回，对所述当前请求的处理结束；若否，则将所述当前请求转发至存储节点，并转入步骤(T2)；

(T3)从所述存储节点获取被请求对象的数据、元数据和相关联的索引文件，根据所述索引文件获取与被请求对象存在显性数据关联的成员对象，并将被请求对象及与之关联的成员对象的数据和元数据均缓存至所述代理节点，转入步骤(T5)；

(T4)从所述存储节点获取被请求对象的数据和元数据，缓存至所述代理节点，转入步骤(T5)；

(T5)返回被请求的对象，对所述当前请求的处理结束。

4.如权利要求1～3任一项所述的基于数据关联性提升负载访问性能的方法，其特征在于，还包括：

若所述当前请求为写请求，且被请求的对象存在隐性数据关联，则执行隐性数据关联对象的存储步骤；

所述隐性数据关联对象的存储步骤，包括：

(U1)将被请求的对象分配至所述当前请求所属负载的其中一个超级对象；

(U3)按照新的逻辑路径中的前三层“账户/容器/超级对象”，将所述当前请求转发至存储节点，以实现被请求对象的持久化存储，对所述当前请求的处理结束；

其中，所述超级对象为用于聚合一组存在隐性数据关联的对象的逻辑概念，且同一个超级对象下聚合的对象存储在同一个存储节点上；同一个负载对应一个或多个超级对象。

5.如权利要求4所述的基于数据关联性提升负载访问性能的方法，其特征在于，被请求对象是否存在隐性数据关联的判断方式，包括：

6.如权利要求4所述的基于数据关联性提升负载访问性能的方法，其特征在于，还包括：

所述存储节点接收到由所述代理节点转发的请求后，若被请求的对象存在隐性数据关联，则从被请求对象的元数据的扩展字段中提取对象信息，并拼接至所述当前请求的转发路径之后，得到新的逻辑路径“账户/容器/超级对象/对象”，作为磁盘路径对被请求的对象进行持久化存储。

7.如权利要求6所述的基于数据关联性提升负载访问性能的方法，其特征在于，还包括：

若所述当前请求为读请求，且被请求的对象存在隐性数据关联，则执行隐性数据关联对象的访问步骤；

所述隐性数据关联对象的访问步骤，包括：

(V1)判断所述代理节点中是否缓存了被请求的对象，若是，则从缓存中获取被请求的对象并返回，对所述当前请求的处理结束；否则，转入步骤(V2)；

(V2)判断所述代理节点中是否存储了被请求对象所属超级对象的信息，若是，则从该超级对象所对应的存储节点中获取被访问对象的数据和元数据，缓存至所述代理节点，转入步骤(V4)；否则，则按照逻辑路径中的“账户/容器/超级对象”将所述当前请求转发至存储节点，并转入步骤(V3)；

(V3)根据转发路径获取被请求对象所属超级对象下，所关联的所有对象，并将所获取的所有对象的大小总和作为该超级对象的大小，若超级对象的大小未超过预设的预取阈值，则从存储节点获取超级对象所关联的所有对象的数据及元数据，缓存至所述代理节点，并转入步骤(V4)；若超级对象的大小超过所述预取阈值，则从存储节点获取被请求对象的数据及元数据，缓存至所述代理节点，并转入步骤(V4)；

(V4)返回被请求的对象，对所述当前请求的处理结束。

8.一种基于数据关联性提升负载访问性能的设备，其特征在于，包括：

计算机可读存储介质，用于存储计算机程序；

以及处理器，用于读取所述计算机可读存储介质中存储的计算机程序，执行权利要求1-7任一项所述的基于数据关联性提升负载访问性能的方法。

9.一种云对象存储系统，其特征在于，包括：代理节点和存储节点，以及权利要求8所述的基于数据关联性提升负载访问性能的设备。