CN113326003B

CN113326003B - 一种分布式存储系统元数据访问智能加速方法

Info

Publication number: CN113326003B
Application number: CN202110568774.4A
Authority: CN
Inventors: 邓玲; 陕振; 宋珺
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2024-03-26
Anticipated expiration: 2041-05-25
Also published as: CN113326003A

Abstract

本发明涉及一种分布式存储系统元数据访问智能加速方法，涉及计算机存储技术领域。本发明通过分析元数据热度与时间、机头IP的关系，智能化分发元数据，提高了查询效率和系统可靠性；同时，元数据的本地化访问降低了访问延时。

Description

一种分布式存储系统元数据访问智能加速方法

技术领域

本发明涉及计算机存储技术领域，具体涉及一种分布式存储系统元数据访问智能加速方法。

背景技术

随着存储系统中数据容量不断扩大，元数据的查找变得越来越耗时，特别是海量小文件的存储系统，元数据的查找成为延时高的主要原因之一。元数据(Metadata)是描述数据的数据(data about data)，它记录数据的各种信息。在分布式存储系统中，元数据通常集中存储在一个或多个节点上，这些节点被称为元数据节点，元数据节点的存在让数据的分布变得可控，有利于存储系统的在线扩容。

通常情况下，客户端访问存储系统是有一定规律的：部分数据在一段时间内被频繁访问，而有的数据却很少被读取，数据就产生了冷热之分；客户端的访问和人们的作息时间有关，同一份数据在一天的不同时间段、一周的不同星期被访问的概率不一样，呈现以天、周为周期而变化的规律，这代表着它们被访问的频次是时间敏感的；分布式存储系统的每一次存储服务绝大多数情况是通过某一个存储节点(机头)对外提供的，对元数据的访问是机头进行的，不同机头上承接的业务不一样，访问的元数据不一样，因此元数据的访问是空间敏感的。元数据热度呈现的时间、空间敏感性，使得统计分析或机器学习的方式得以运用，便于系统高效、智能的管理。

元数据服务器是分布式存储系统的中心，是单点故障的主要节点，热点元数据的分发，有利于提高存储系统的可靠性。同时按时间、空间的特点分配元数据，相比于分布式元数据管理，能降低存储成本和维护成本。

如何设计一种分布式存储系统元数据访问智能加速方法，用于实现热点元数据的本地化访问，降低访问延时，成为了亟待解决的技术问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种分布式存储系统元数据访问智能加速方法，用于实现热点元数据的本地化访问，降低访问延时，同时，按时空特性分割元数据，智能化分发元数据，减少高速缓存的占用，提高查询效率。

(二)技术方案

为了解决上述技术问题，本发明提供了一种分布式存储系统元数据访问智能加速方法，包括以下步骤：

步骤一、元数据访问信息统计，包括统计元数据访问频次、访问时间、机头IP信息；

步骤二、基于步骤一采用统计或机器学习的方法分析元数据被访问的规律，通过步骤二，将数据分为了三类：时空敏感型、空间敏感型和无规律热点数据；

步骤三、将步骤二中分析得到访问有规律的元数据进行整理，每个IP分得的元数据包含在该时刻的有时空规律的数据、只有时间规律的数据、只有空间规律的数据、无规律的热点数据四种，如式(1)所示；

D_i＝D_tl+D_t+D_l+D_c 式(1)

其中，D_i为IP为i的机头应该得到的元数据，D_tl为有时空规律的数据，D_t为只有时间规律的数据，D_l为只有空间规律的数据，D_c为无规律的热点数据；

步骤四、按机头的IP将元数据分发出去；

步骤五、机头将数据存放到高速缓存里，按热度从高到底，对数据进行排序，在下一次访问元数据服务器之前，机头首先查看本地缓存是否能命中元数据，如果没有命中，则机头再访问元数据节点，或者同时访问本地和远端，取最先返回的结果，如果命中，则直接返回结果后结束；机头在时间区间变化后，只需要及时刷新时间敏感的数据D_tl、D_t，返回步骤三；当本地元数据的命中率降低到峰值的预设百分比后，重新返回步骤二。

优选地，在步骤二中，时间敏感性分析包含分析元数据被访问规律是否与一天的时段、星期、月份、节假日这些时间属性有着必然的联系。

优选地，在步骤二中，空间敏感性分析包含对热点元数据与访问IP关系的分析。

优选地，步骤二中，首先从众多元数据访问信息中筛选出热点数据，热点数据与定义的时间窗口T有关，利用统计学方法统计出当前时间前T天内元数据被访问的次数，设最大被访问次数为N，则设热点数据的访问频次范围为(N/2，N]，将这些热点数据筛选出来用作数据分析的数据集；

其次，对数据集进行处理，有两种方法：

统计学方法：把数据从上午/下午、星期、节假日这些维度进行分割，统计其时间规律性；然后，把数据按访问IP进行分类，分析其空间的规律性；

机器学习的方法：在进行机器学习之前首先对时间参数、访问频次、IP进行标准化，对元数据按热度从高到低进行编号；机器学习算法模型的输入为时间、IP，输出为元数据的编号集。

优选地，所述时间窗口T取7～30天。

优选地，在步骤三中，元数据被分为有时空规律的数据、只有时间规律的数据、只有空间规律的数据、无规律的热点数据四种。

优选地，所述百分比根据生产环境调节。

优选地，所述百分比为70％。

优选地，步骤四中，数据分发完成后，元数据服务器负责维护数据的一致性。

本发明还提供了一种所述方法在计算机存储技术领域中的应用。

(三)有益效果

本发明提供一种分布式存储系统元数据访问智能加速方法，利用统计分析或机器学习算法，能有针对性地分发元数据到机头，降低元数据同步成本，减少机头高速缓存占用率。元数据分发策略在存储系统中主要有两处作用：一、实现部分元数据的本地化访问，降低访问延时；二、热点数据的多副本存储，能减小中心节点宕机时对服务的影响，提高系统的可靠性。

附图说明

图1为本发明的方法流程图；

图2为本发明的方法在数据分析过程中对数据分类的示意图；

图3为本发明应用场景的示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明通过分析元数据热度与时间、机头IP的关系，智能化分发元数据，提高了查询效率和系统可靠性；同时，元数据的本地化访问降低了访问延时。

如图1所示，本发明一种分布式存储系统元数据访问智能加速方法，包括：

步骤一、元数据访问信息统计：元数据服务器负责记录元数据被访问的时间及机头(存储系统对外提供服务的服务器)IP信息，时间精度精确到小时；

步骤二、数据分析(其中涉及的时间敏感性分析是分析元数据被访问是否与一天的时段、星期、月份、节假日这些时间属性有着必然的联系；空间敏感性分析是分析元数据被访问是否与提供存储服务节点的IP有关)：

首先从众多元数据访问信息(记录)中筛选出热点数据，热点数据与定义的时间窗口T有关，时间窗口不宜取太窄，否则数据的规律性不强，通常时间窗口T取7～30天，利用统计学方法统计出当前时间前T天内元数据被访问的次数，设最大被访问次数为N，则设热点数据的访问频次范围为(N/2，N]，将这些热点数据筛选出来用作数据分析的数据集。

其次，对数据集进行处理，主要有两种方法：

(1)统计学方法。把数据从上午/下午、星期、节假日等维度进行分割，统计其时间规律性；然后，把数据按访问IP进行分类，分析其空间的规律性。

(2)机器学习的方法。在进行机器学习之前首先对时间参数、访问频次、IP进行标准化，对元数据按热度从高到低进行编号；机器学习算法模型的输入为时间、IP，输出为元数据的编号集。

通过步骤二，将数据分为了三类：时空敏感型、空间敏感型和无规律热点数据，如图2所示。

步骤三、数据整理：

在元数据分发前，需要对每个IP的元数据进行定制，如式(1)所示，每个IP分得的元数据包含在该时刻的有时空规律的数据、只有时间规律的数据、只有空间规律的数据、无规律的热点数据四种，通过时空的分割大大降低了元数据的维护成本和对高速缓存资源的占用率。

D_i＝D_tl+D_t+D_l+D_c 式(1)

其中，D_i为IP为i的机头应该得到的元数据，D_tl为有时空规律的数据，D_t为只有时间规律的数据，D_l为只有空间规律的数据，D_c为无规律的热点数据。

步骤四、数据分发：按机头的IP将元数据分发出去，其本质是对热点元数据的备份，在元数据服务器宕机后，不会对热点的业务造成影响。数据分发完成后，元数据服务器负责维护数据的一致性。

步骤五、存入缓存：机头(负责对外提供存储服务的服务器)收到数据后在高速缓存介质内(通常指内存)开辟一份空间用于存放数据。数据D_i是无序的，在存入高速缓存之后，需要按热度从高到底，对数据进行排序，保证数据热度越高越接近树的根节点，以便提高元数据的查询效率。在下一次访问元数据服务器之前，机头首先查看本地缓存是否能命中元数据，如果没有命中，则机头再访问元数据节点，或者同时访问本地和远端，取最先返回的结果，如果命中，则直接返回结果后结束，如图3所示。机头在时间区间变化后，只需要及时的刷新时间敏感的数据D_tl、D_t，返回执行步骤三。当本地元数据的命中率降低到峰值的70％(可根据生产环境调节)后，重新开始步骤二。

本发明提供一种分布式存储系统元数据访问智能加速技术，利用统计分析或机器学习算法，能有针对性的分发元数据到机头，降低元数据同步成本，减少机头高速缓存占用率。元数据分发策略在存储系统中主要有两处作用：一、实现部分元数据的本地化访问，降低访问延时；二、热点数据的多副本存储，能减小中心节点宕机时对服务的影响，提高系统的可靠性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种分布式存储系统元数据访问智能加速方法，其特征在于，包括以下步骤：

步骤三、将步骤二中分析得到访问有规律的元数据进行整理，每个IP分得的元数据包含在当前时刻的有时空规律的数据、只有时间规律的数据、只有空间规律的数据、无规律的热点数据四种，如式(1)所示；

D_i＝D_tl+D_t+D_l+D_c 式(1)

步骤四、按机头的IP将元数据分发出去；

步骤五、机头将数据存放到高速缓存里，按热度从高到底，对数据进行排序，在下一次访问元数据服务器之前，机头首先查看本地缓存是否能命中元数据，如果没有命中，则机头再访问元数据节点，或者同时访问本地和远端，取最先返回的结果，如果命中，则直接返回结果后结束；机头在时间区间变化后，只需要及时刷新时间敏感的数据D_tl、D_t，返回步骤三；当本地元数据的命中率降低到峰值的预设百分比后，重新返回步骤二；

在步骤二中，时间敏感性分析包含分析元数据被访问规律是否与一天的时段、星期、月份、节假日这些时间属性有着必然的联系；

在步骤二中，空间敏感性分析包含对热点元数据与访问IP关系的分析；

步骤二中，首先从众多元数据访问信息中筛选出热点数据，热点数据与定义的时间窗口T有关，利用统计学方法统计出当前时间前T天内元数据被访问的次数，设最大被访问次数为N，则设热点数据的访问频次范围为(N/2，N]，将这些热点数据筛选出来用作数据分析的数据集；

其次，对数据集进行处理，有两种方法：

2.如权利要求1所述的方法，其特征在于，所述时间窗口T取7～30天。

3.如权利要求2所述的方法，其特征在于，在步骤三中，元数据被分为有时空规律的数据、只有时间规律的数据、只有空间规律的数据、无规律的热点数据四种。

4.如权利要求1所述的方法，其特征在于，所述百分比根据生产环境调节。

5.如权利要求4所述的方法，其特征在于，所述百分比为70％。

6.如权利要求1所述的方法，其特征在于，步骤四中，数据分发完成后，元数据服务器负责维护数据的一致性。

7.一种如权利要求1至6中任一项所述方法在计算机存储技术领域中的应用。