CN110019017B

CN110019017B - 一种基于访问特征的高能物理文件存储方法

Info

Publication number: CN110019017B
Application number: CN201810390244.3A
Authority: CN
Inventors: 程振京; 徐琪; 王聪; 程耀东; 汪璐; 李海波; 胡庆宝
Original assignee: Institute of High Energy Physics of CAS
Current assignee: Institute of High Energy Physics of CAS
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2021-04-27
Anticipated expiration: 2038-04-27
Also published as: CN110019017A

Abstract

本发明公开了一种基于访问特征的高能物理文件存储方法，其步骤包括：设置多种数据类别，每一类别数据设置一对应的数据放置策略；对于每一类别数据，分别从存储系统中选取多个数据文件及其访问记录，同一数据文件对应提取M条访问记录；对同一数据文件的每一访问记录中分别提取a个特征的特征值作为该数据文件的训练样本，得到一训练样本集；抽取该训练样本集中k个特征对应的特征值用于创造决策树中的节点，训练生成多棵分类回归树CART；对于每一待分类的数据文件进行特征提取，利用多棵所述分类回归树CART对该数据文件的类别进行投票，得到该数据文件的分类结果；然后根据该分类结果选择对应的数据放置策略，对该数据文件进行存储。

Description

一种基于访问特征的高能物理文件存储方法

技术领域

本发明属于数据存储领域，具体涉及一种基于访问特征的高能物理文件存储方法。

背景技术

数据存储迎来了智能时代。2015年世界的高能物理数据量近1000PB，即将进入EB级数据时代。预计于2020年，全人类产生、复制和消费的数据量将达到44ZB。超大规模的数据量对数据存储的可靠性和性能提出了更高的要求，对(高能物理)存储系统带来了更高的挑战。集群文件系统是指运行在多台计算机之上，之间通过某种方式相互通信，从而将集群所有存储空间整合，对外提供文件访问服务的文件系统。按照对存储空间的访问方式，可分为共享存储型集群文件系统和分布式集群文件系统。在高能物理领域，使用的分布式集群文件系统有很多，主要包括dCache、CASTOR、DPM、GPFS、Lustre等，以及一些新兴的存储系统如EOS、HBase等。然而，据一项研究显示，在现有的处理和存储架构上，大数据集在存储系统、存储设备和服务器之间的移动，会对应用程序的性能和成本产生诸多负面影响。而在高能物理计算环境中，也会大大降低计算和存储的效率。

智能化的社会，必将需要智能化的存储。海量数据治理的公认最佳实践是分类分级管理。传统的高能物理存储方法是基于原始数据、重建数据、分析数据的简单分类。这种方式下文件的类型是人工预先定义的，非常依赖系统管理员和用户的先验知识，并且没有考虑到不同文件以及文件在不同生命周期阶段的访问特征。在高能物理常见的异构存储场景下，文件可能需要在不同存储系统和存储设备之间频繁迁移。过多的文件和数据迁移会大量占用存储系统内磁盘的聚合读写带宽，严重影响存储系统的读写效率。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于访问特征的高能物理文件存储方法。本发明将数据根据访问特征划分为多个类别分类管理，不同类别数据智能选择不同放置策略，以充分发挥传统HDD硬盘的容量和新型SSD硬盘的速度优势，使存储性能和效率最大化。发明的具体内容包括：

(1)数据分类服务

数据分类服务是本发明的核心组件之一。高能物理集群文件系统中的数据主要包括实验合作组公共数据(原始事例数据、重建数据、分析数据)、个人数据、系统数据(运行日志等)。传统方法中，管理员需要和各实验合作组以及用户沟通，确定集群中数据属于哪一类别。本发明训练了一个基于随机森林的有监督学习模型，管理员输入集群中数据的访问日志，来执行分类任务。

随机森林算法是对传统决策树算法的一种改进，典型随机森林模型的构造方法如图2中所示，从原始训练集中采用重采样的方法产生n个样本，假设样本特征数目为a，对n个样本选择a中的k个特征，用建立决策树的方式获得最佳分割点。重复此过程m次以产生m棵决策树，并使用m个预测结果通过多数投票机制来进行预测。因为训练存在两种随机性，所以随机森林模型可以有效地减少方差，减少过拟合程度，具有极好的准确率。

高能物理实验使用的集群文件系统，能够以日志的形式，提供以文件名为单位的历史访问记录：<时间戳，文件名，访问类别，读写区间，访问位置>。将同一文件的每1000条历史访问记录，按照时间顺序组织成一个高维特征的训练样本。由于在随机森林模型中随机选取k个特征来建立决策树，故能有效处理此类具有高维特征的输入样本，且不需要对输入样本进行归一化等预处理操作。

(2)数据放置策略设计

在高能物理集群文件系统中，不同类别数据具有不同访问特征，如表1中所示。

表1为高能物理集群文件系统中不同类别数据的访问特征

数据类别	访问频率	每次访问大小	访问模式	顺序随机读写比例
					实验组原始事例数据	很低	较大	只读	顺序多
实验组重建数据	高	较大	只读	顺序多
					实验组分析数据	很高	较小	读写	随机多
个人数据	很高	较小	读写	顺序随机混合
					系统数据	低	较小	读写	顺序多

由此对不同类别数据，提出相应多种级别的数据放置策略，包括存储层次(SSD等)、副本存储个数、冗余存储(Erasual code)级别等。存储层次是影响数据读写性能的重要因素。一般情况下，速度较快的存储层，因使用了价格更为昂贵的存储介质，例如闪存类存储NVMe PCIe SSD等，故实际使用中可配置的存储容量也越小，因此更适合存放那些访问频繁或随机读写较多的文件，以加速文件的访问性能。副本存储和冗余存储(Erasualcode)的目的均为保证存储系统中数据的安全性，然而另一方面，文件的修改会给多副本和冗余存储层次给硬盘增加了额外的读写压力，同时也会占据相关存储层的带宽，因此更适合存放那些经常读、极少写的文件。在本发明中，用户和系统管理员可手工定义每一类文件相对应的数据放置策略级别，包括存储层次，副本存储个数，冗余存储级别等，提高了系统的灵活性，如表2中所示。

表2为本发明的不同类别数据放置策略级别

(3)实现数据放置策略智能选择

即使用机器学习方法根据文件历史访问数据建模，在文件创建时即文件写入磁盘之前，根据模型预测出的数据类别和访问特征，选择相应的放置策略。本发明的基于访问特征的高能物理文件放置策略原理图如图1所示。

在随机森林模型中决策树的深度和个数直接影响着分类预测的复杂度和准确度。决策树越深，个数越多，分类越复杂且耗时越长，但准确性也越好。在分布式文件存储系统内数据写入磁盘前能等待的时间最多在40-50ms以内，类别预测和放置策略选择也必须在40-50ms内完成。因此，本发明对图2典型随机森林模型的构造方法进行了改进，增加了一个模型结构调整线程，该线程定期对决策树进行剪枝，控制其深度的增长。模型对每棵决策树的预测准确率进行评估，隔离低于某个固定值的决策树，限制模型中决策树的总数，能够有效的防止分类过程中过拟合现象的发生。同时，由于本发明使用了基于决策树的随机森林模型，相比于其他模型，在有大量小文件的存储系统中能够消耗更少的内存空间，能够最大限度避免影响文件服务器的性能，提高了整个系统的适应性和可扩展性。

本发明的技术方案为：

一种基于访问特征的高能物理文件存储方法，其步骤包括：

1)设置多种数据类别，每一类别数据设置一对应的数据放置策略；

2)对于每一类别数据，分别从存储系统中选取多个数据文件及其访问记录，同一数据文件对应提取M条访问记录；对同一数据文件的每一访问记录中分别提取a个特征的特征值作为该数据文件的训练样本，得到一训练样本集；

3)抽取该训练样本集中k个特征对应的特征值用于创造决策树中的节点，训练生成多棵分类回归树CART，每棵分类回归树CART的最大深度为d；

4)从所述存储系统中选择若干数据文件及其访问记录，生成对应的测试样本；对于每一测试样本，计算多棵所述分类回归树CART对该测试样本的平均分类时间t，如果t超过设定阈值，则将所述分类回归树CART的最大深度置为d＝d-1，并调整超过当前最大深度d的分类回归树CART的结构；

5)重新步骤4)，直至t小于或等于设定阈值；

6)对于每一待分类的数据文件，从所述存储系统中获取该数据文件的访问日志，然后从该访问日志中抽取访问记录，从该访问记录中提取该数据文件的特征数据；利用最终得到的多棵所述分类回归树CART对该数据文件的类别进行投票，得到该数据文件的分类结果；然后根据该分类结果选择对应的数据放置策略，对该数据文件进行存储。

进一步的，所述步骤6)中，如果所述存储系统中没有该待分类的数据文件f1的访问日志，则在所述存储系统的目录C中查找与该数据文件f1相似的数据文件f2；然后提取该数据文件f2的访问记录和特征，利用最终得到的多棵所述分类回归树CART对该数据文件f2的类别进行投票，得到该数据文件f2的分类结果；然后根据该分类结果选择对应的数据放置策略，对该数据文件f1进行存储；其中，目录C为文件f1在存储系统名字空间中的位置。

进一步的，如果在目录C中找不到与该数据文件f1相似的数据文件f2，则在依次向上一级目录中寻找与该数据文件f1相似的数据文件f2。

进一步的，将与该数据文件f1具有相同后缀名、相同文件访问权限、文件大小近似相等、创建时间接近且同为相同用户创建的数据文件，作为所述数据文件f2。

进一步的，所述数据的类别包括：实验组分析数据，个人数据，实验组重建数据和实验组原始事例数据、系统数据。

进一步的，所述实验组分析数据对应的数据放置策略为：存储层次为基于Flash的固态硬盘、副本个数为1、冗余存储级别为N+2；所述个人数据对应的数据放置策略为：存储层次为基于3D NAND的固态硬盘、副本个数为1、冗余存储级别为N+3；所述实验组重建数据对应的数据放置策略为：存储层次为企业级SAS 15k/10k RPM、副本个数为0、冗余存储级别为N+3；所述实验组原始事例数据、系统数据对应的数据放置策略为：存储层次为近线SAS7200 RPM、副本个数为0、冗余存储级别为N+2；其中，N为单个存储服务器的实际硬盘数量。

进一步的，所述a个特征为提取时间戳、文件名、访问类别、读写区间和访问位置。

进一步的，所述步骤4)中，对于每一测试样本，计算每棵所述分类回归树CART对该测试样本的预测准确率，隔离预测准确率低于设定固定值的分类回归树CART。

进一步的，所述存储系统为EOS存储系统。

与现有技术相比，本发明的积极效果为：

使用随机森林模型对文件进行分类预测，不同类别的文件使用不同存储策略，在现有多级、异构的分布式存储系统条件下，能够提高文件平均读写带宽和存储效率。

附图说明

图1为本发明的基于访问特征的高能物理文件放置策略原理图；

图2为随机森林模型的构造方法图。

具体实施方式

在下述具体实施示例中，结合附图对本发明进行进一步的详细说明。通过足够详细的描述这些实施示例，使得本领域技术人员能够实践本发明。在不脱离本发明的主旨和范围的情况下，可以对实施做出逻辑的、实现的和其他的改变。因此，以下详细说明不应该被理解为限制意义，本发明的范围仅仅由权利要求来限定。

本专利申请以EOS存储系统为例，已经在其上进行了测试。欧洲核子中心CERN于2010年开发了EOS分布式存储系统。EOS是一种基于FUSE层的支持多协议的磁盘存储系统，设计分离了冷、热存储池，改变了传统的分层存储方式，并且支持文件动态转储、主备切换、负载均衡等多种功能。

由于EOS的三个部分(MGM、MQ、FST)都是基于xrootd协议框架实现，所以EOS具有完备、清晰的数据访问日志，非常适合从中提取文件的访问特征。测试和实施时，继承和重写MGM中的Scheduler类和GroupBalancer类，将策略选择客户端以插件的形式植入到原始EOS代码中。同时在各FST中增加存储状态汇报线程，采集各FST存储空间使用率、文件访问队列、cpu使用率等信息，发送给系统管理员用以评估存储系统的效率。假设高能物理存储数据一般分为五类：实验组原始数据，实验组分析数据，实验组重建数据，个人数据，系统数据等。随机森林模型构建的过程如下：

1.对于每一类别数据，分别从存储系统中选取多个数据文件及其访问记录，同一数据文件对应提取M条访问记录；对同一数据文件的每一访问记录中分别提取时间戳，文件名，访问类别，读写区间，访问位置等5个特征的特征值作为该数据文件的训练样本，得到一训练样本集，每一样本拥有5*M个特征值；

2.随机抽取样本集中k个特征对应的特征值用于创造决策树中的节点，训练生成多棵CART(分类回归树，Classification And Regression Tree)，这类决策树既可以解决分类问题，也能解决回归问题，每棵树的最大深度为d。

3.随机选择测试样本，计算多棵CART树的平均分类时间。如果时间超过50ms，将CART树的最大深度置为d-1，并重新调整超过此深度CART树的结构。采用传统决策树中的后剪枝的技术，包括两种方法：1)用单一叶节点代替整个子树，叶节点的分类采用子树中最主要的分类；2)将一个子树完全替代另一棵子树。使用测试样本去测试误差平方和，如果子树剪枝后误差平方和变小，则做剪枝处理。重复此过程以确保CART树深度不超过d-1。

4.对任意文件的分类任务来说，首先从后台Hbase数据库中提取该文件的访问记录(见步骤1)，利用全部CART树对同一文件的类别进行投票，每棵CART树采用的测试样本相同，票数最多的类别作为文件分类结果。

文件/A/B/C/f1放置策略的选择过程如下(假设该文件为用户user1创建，在存储系统名字空间中的路径为/A/B/C/f1)：

1.从Hbase数据库中提取f1历史访问记录和特征，使用随机森林模型预测文件的类别。当文件f1是第一次被用户创建时，在数据库中可能找不到足够的文件f1历史访问记录。一般情况下，在高能物理存储系统中，同一用户元数据相似的文件，往往属于同一文件类别。此时在目录C(目录C为文件f1在存储系统名字空间中的位置，不是实际的物理存储位置)中寻找与f1元数据最相似的文件f2，元数据相似的要求包括文件后缀名相同，文件访问权限相同，大小和创建时间接近，且同为用户user1创建。如果在目录C中找不到，则在目录B和目录A中寻找。提取出f2相关的访问记录和特征，并使用随机森林模型预测类别，可作为文件f1的类别。根据文件的预测类别选择对应的数据放置策略级别，返回给EOS的元数据服务器MGM。

2.MGM中的策略选择客户端给文件f1设定相应的存储层次，设置副本存储和冗余存储级别。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于访问特征的高能物理文件存储方法，其步骤包括：

5)重新步骤4)，直至t小于或等于设定阈值；

6)对于每一待分类的数据文件，从所述存储系统中获取该数据文件的访问日志，然后从该访问日志中抽取访问记录，从该访问记录中提取该数据文件的特征数据；利用最终得到的多棵所述分类回归树CART对该数据文件的类别进行投票，得到该数据文件的分类结果；然后根据该分类结果选择对应的数据放置策略，对该数据文件进行存储；如果所述存储系统中没有该待分类的数据文件f1的访问日志，则在所述存储系统的目录C中查找与该数据文件f1相似的数据文件f2；然后提取该数据文件f2的访问记录和特征，利用最终得到的多棵所述分类回归树CART对该数据文件f2的类别进行投票，得到该数据文件f2的分类结果；然后根据该分类结果选择对应的数据放置策略，对该数据文件f1进行存储；其中，目录C为文件f1在存储系统名字空间中的位置；其中将与该数据文件f1具有相同后缀名、相同文件访问权限、文件大小近似相等、创建时间接近且同为相同用户创建的数据文件，作为所述数据文件f2。

2.如权利要求1所述的方法，其特征在于，如果在目录C中找不到与该数据文件f1相似的数据文件f2，则在依次向上一级目录中寻找与该数据文件f1相似的数据文件f2。

3.如权利要求1所述的方法，其特征在于，所述数据的类别包括：实验组分析数据，个人数据，实验组重建数据和实验组原始事例数据、系统数据。

4.如权利要求3所述的方法，其特征在于，所述实验组分析数据对应的数据放置策略为：存储层次为基于Flash的固态硬盘、副本个数为1、冗余存储级别为N+2；所述个人数据对应的数据放置策略为：存储层次为基于3D NAND的固态硬盘、副本个数为1、冗余存储级别为N+3；所述实验组重建数据对应的数据放置策略为：存储层次为企业级SAS 15k/10k RPM、副本个数为0、冗余存储级别为N+3；所述实验组原始事例数据、系统数据对应的数据放置策略为：存储层次为近线SAS 7200RPM、副本个数为0、冗余存储级别为N+2；其中，N为单个存储服务器的实际硬盘数量。

5.如权利要求1所述的方法，其特征在于，所述a个特征为提取时间戳、文件名、访问类别、读写区间和访问位置。

6.如权利要求1所述的方法，其特征在于，所述步骤4)中，对于每一测试样本，计算每棵所述分类回归树CART对该测试样本的预测准确率，隔离预测准确率低于设定固定值的分类回归树CART。

7.如权利要求1所述的方法，其特征在于，所述存储系统为EOS存储系统。