CN112051969B

CN112051969B - 一种基于深度强化学习的分级存储数据自适应迁移方法

Info

Publication number: CN112051969B
Application number: CN202010785961.3A
Authority: CN
Inventors: 张岩峰; 付国; 张一奇
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-10-08
Anticipated expiration: 2040-08-07
Also published as: CN112051969A

Abstract

本发明属于大数据存储领域，涉及一种基于深度强化学习的分级存储数据自适应迁移方法。基于深度强化学习DQN模型的思路，结合分级存储系统的特点，定义了状态空间、动作空间、奖励值，设计实现了一种自适应数据迁移方法，数据块会根据该方法在全连接层神经网络的指导下做出迁移决策，最后由系统根据决策进行相应的数据迁移。本发明设计的自适应迁移算法提升了分级存储系统的吞吐量，并提供较低的延迟，充分利用了SSD存储设备的优势，减少了存储成本，提高了分级存储系统的数据访问性能。

Description

一种基于深度强化学习的分级存储数据自适应迁移方法

技术领域

本发明属于大数据存储领域，涉及一种基于深度强化学习的分级存储数据自适应迁移方法。

背景技术

大数据时代的到来对存储技术提出了更高的读写性能要求，同时存储设备也不断推陈出新，除了普通磁盘HDD，也出现了固态硬盘SSD、非易失性内存NVM等。HDD的读写延迟都是毫秒(ms)级别，同时功耗很大，但是数据存储的持久性比较长，存储的价格很低，约0.2元/GB；而SSD则是读写延迟是微秒(μs)级别，读写速度比较快(特别是随机读性能较高)，但是价格较高，约1元/GB；而最近几年上市的Intel傲腾系列存储905P，读写性能更高，约8元/GB；企业级别的傲腾P4800X存储，读写性能进一步提高，但是价格约20元/GB。因此，设计不同存储设备的分级混合存储，根据数据访问热度不同，实现数据在SSD和HDD之间的自动迁移，将最大化提高存储效率和性能，发挥分级存储系统的优势。关于数据迁移，可以使用传统操作系统缓存中常用的页面置换算法，如LRU(Least Recently Used)最近最少使用算法，以及LFU(Least Frequently Used)最近最不常用算法。但是由于分级存储系统往往支撑多种不同的应用，不同应用具有迥然各异的数据访问模式，分布往往差距巨大，one-size-fit-all模式的页面置换算法往往不能很好应对该情况。而强化学习作为近年来新兴的机器学习技术，可以根据数据分布的变化，自适应地调整模型算法，将强化学习用于分级存储中的数据迁移是个可探索的方向。

强化学习是一类特殊的机器学习算法，借鉴于行为主义心理学。与有监督学习和无监督学习的目标不同，算法要解决的问题是智能体(agent，即运行强化学习算法的实体)在环境中怎样执行动作以获得最大的累计奖励。例如，对于自动行驶的汽车，强化学习算法控制汽车的动作，保证安全行驶到目的地。强化学习是一个自学习系统，主要通过反复试验来进行学习，通过有限次的执行动作来得到最大的奖励，以此来获得最优的方案。

在每个时刻，智能体和环境都有自己的状态，智能体根据当前状态s确定一个动作a，并执行该动作，在状态s时执行具体的动作a后的预期回报为Q(s,a)，并且环境会根据智能体的动作反馈相应的回报奖励r。经典的强化学习算法Q-Learning就是由一系列的状态、动作、奖励{s,a,r}组成，Q即为价值函数Q(s,a)的函数值，该算法的主要思想就是将状态与动作构建成一张Q值表来存储Q值，然后根据Q值来选取能够获得最大收益的动作。Q值需要存储在一个二维表格中，实际应用中的场景可能会很复杂，很难定义出离散的状态，用一个函数来逼近价值函数成为解决这个问题的一种思路，用神经网络可来拟合强化学习中的价值函数，是深度强化学习的基本思想。深度学习基于价值函数的深度强化学习的典型代表是DQN(深度Q网络)，DQN采用神经网络来估计Q函数，并引入了experience replay和targetnetwork提高系统的稳定性，将采样的样本进行存储并且随机的采样，打破了序列样本之间的关联性，保证了可以平滑学习，避免振荡或分歧。在进行网络更新的时则是对这些经验进行回顾，均匀的从记忆库采样来更新网络。

发明内容

本发明首先基于Kafka构建HDD-SSD分级存储系统，将数据分块存储于HDD设备和SSD设备上，针对分级存储系统中数据的自动迁移问题，本发明提供了一种基于深度强化学习的数据自适应迁移方法，使用无模型化的控制方法进行决策，决定在何时触发数据在SSD存储设备和HDD存储设备之间的迁移，提升分级存储系统的访问性能，减少存储成本。

本发明的技术方案是：

一种基于深度强化学习的分级存储数据迁移方法，步骤如下：

步骤1：结合分级存储系统的特点，定义DQN的状态空间，具体如下：

步骤1.1：根据分级存储系统的文件块大小B、SSD存储空间大小S_S、HDD存储空间大小S_H，计算整个系统可存储文件块的总个数为

步骤1.2：对于文件块，有的是在SSD中的文件块，有的是在HDD中的文件块，有的是存储了数据的文件块，有的是还没有被利用的文件块。用一个二进制数代表该文件块的存储状态标识，如果是在SSD中并且存储了数据的文件块，该二进制标志为1，否则为0。

步骤1.3：因为一共有d个文件块，根据步骤1.2的标识结果，可以获得一个代表整个存储系统文件块存储状态的d维状态向量v，其中元素或者是1或者是0。那么状态空间即为状态向量v的多种可能结果，状态空间大小为2^d。

步骤2：结合分级存储系统的特点，定义DQN的动作空间。一个动作表示为二元组(a1,a2)，a1代表将状态向量v中的第a1个元素(二进制)取反，即0变为1，1变为0；同理a2代表将状态向量v中的第a2个元素取反。如果a1＝a2，则状态向量保持不变。该过程模拟了数据迁移的过程，即将第a1和a2个文件块交换下存储位置。

步骤3：结合分级存储系统的特点，定义执行动作后DQN得到的奖励r。奖励r考虑SSD命中率，它等于执行两个连续动作(数据迁移)之间，用户从分级存储系统中读取数据文件块在SSD设备中的概率，即类似于高性能存储设备的命中率。

步骤4：初始化DQN参数，包括初始化神经网络的参数，Q函数进行随机初始化

步骤5：基于已有的数据访问历史日志数据，进行k次的仿真训练，具体做如下操作：

步骤5.1：定义起始状态向量v。随机选v中的

个项位置赋值为1(即随机选择放置到SSD上的

个文件块)，其它项为0。

步骤5.2：基于定义的状态向量空间、动作空间、奖励执行DQN算法，执行k次仿真训练。具体做如下操作：

步骤5.2.1：根据日志数据的数据块访问情况，确定仿真过程的奖励值。即计算SSD数据块的命中率。

步骤5.2.2：根据奖励值更新DQN的神经网络参数，并得出需要执行的数据块迁移动作。以一定的概率ε随机选择动作，以1-ε的概率选择通过当前DQN网络预测得到最大Q值的动作，模拟数据块在SSD和HDD之间的迁移过程。

步骤5.2.3：重复步骤5.2.1和步骤5.2.2，共重复k次，得到DQN的网络参数。

步骤6：将DQN仿真训练出来的网络模型部署到分级存储系统中，继续根据数据块的访问操作计算奖励值，并反馈更新DQN网络，实现动态的强化学习，实现数据块的自适应迁移。

本发明具备的有益效果：

本发明方法基于深度强化学习的DQN算法，对分级存储系统所对应的状态空间、动作空间、奖励值进行了定义，实现了分级存储系统中数据块的自适应迁移。该方法可以根据数据访问分布，动态调整迁移策略，实现自适应数据迁移，利用有限的SSD存储资源，更高效地发挥了SSD的优质性能，最大化存储系统的读取性能。

附图说明

图1是本发明提出的基于强化学习实现自动数据迁移的SSD-HDD分级存储系统概括图。

图2是本发明自动迁移方法运行后整个存储系统的读取吞吐率。

具体实施方式

下面结合附图对本发明的具体实施做详细说明。

本实施方式的方法，软件环境为Ubuntu16.04系统，实现强化学习模型DQN的编程语言为Python，整个强化学习模型被实现到Kafka分级存储系统中，单机Kafka分级存储系统基于三星固态硬盘SSD(250GB)和希捷机械硬盘HDD(1TB)构建，本发明支持SSD-HDD的分级Kafka分级存储系统的数据自动迁移，一个文件块对应于Kafka系统中的一个Segment。

步骤1：结合Kafka存储系统的特点，定义DQN的状态空间，具体如下：

步骤1.1：设置Kafka分级存储系统的Segment大小512MB、SSD存储空间大小为200GB、HDD存储空间大小为1TB，整个系统可存储文件块的总个数为(200*1024+1024*1024)/512＝2448。

步骤1.2：对于Segment，有的是在SSD中，有的是在HDD中。用一个二进制数代表该文件块的存储状态标识，如果是在SSD中并且存储了数据的文件块，该二进制标志为1，否则为0。

步骤1.3：因为一共有2448个文件块，根据步骤1.2的标识结果，可以获得一个代表整个存储系统文件块存储状态的2448维状态向量v，其中元素或者是1或者是0，1的个数不能超过400个。

步骤3：结合分级存储系统的特点，定义执行动作后DQN得到的奖励r。奖励r考虑SSD命中率，它等于执行两个连续动作(数据迁移)之间，用户从分级存储系统中读取数据文件块在SSD设备中的概率，即命中率。

步骤5：基于已有的数据访问历史日志数据(2000条左右的数据访问日志记录)，进行100次的仿真训练，具体做如下操作：

步骤5.1：定义起始状态向量v。随机选v中的400个项位置赋值为1(即随机选择放置到SSD上的400个文件块)，其它项为0。

步骤5.2：基于定义的状态向量空间、动作空间、奖励执行DQN算法，执行100次仿真训练。具体做如下操作：

步骤5.2.2：根据奖励值更新DQN的神经网络参数，并得出需要执行的数据块迁移动作。以50％概率随机选择动作，以50％概率选择通过当前DQN网络预测得到最大Q值的动作，模拟数据块在SSD和HDD之间的迁移过程。

步骤5.2.3：重复步骤5.2.1和步骤5.2.2，共重复100次，得到DQN的网络参数。

步骤6：将DQN仿真训练出来的网络模型部署到Kafka分级存储系统中，继续根据数据块的访问操作计算奖励值，并反馈更新DQN网络，实现动态的强化学习，实现数据块的自适应迁移。

本实施方式采用基于DQN的自适应迁移算法进行了仿真实验，采用了深度神经网络进行强化学习中Q值函数的计算，得到迁移决策，具体的测试结果如附图2所示。从实验结果看出本发明提出的基于DQN的自适应迁移算法随着时间的增长能够提高系统整体的吞吐量，实验证明了深度强化学习在多级存储系统中的动态调度具有一定的增益效果。

Claims

1.一种基于深度强化学习的分级存储数据自适应迁移方法，其特征在于，步骤如下：

步骤1.2：对于文件块，有的是在SSD中的文件块，有的是在HDD中的文件块，有的是存储了数据的文件块，有的是还没有被利用的文件块；用一个二进制数代表该文件块的存储状态标识，如果是在SSD中并且存储了数据的文件块，该二进制数为1，否则为0；

步骤1.3：根据步骤1.2的标识结果，获得一个代表整个存储系统文件块存储状态的d维状态向量v，其中元素或者是1或者是0；那么状态空间即为状态向量v的多种可能结果，状态空间大小为2^d；

步骤2：结合分级存储系统的特点，定义DQN的动作空间；一个动作表示为二元组(a1,a2)，a1代表将状态向量v中的第a1个元素取反，即0变为1，1变为0；同理a2代表将状态向量v中的第a2个元素取反；如果a1＝a2，则状态向量保持不变；模拟了数据迁移的过程，即将第a1和a2个文件块交换下存储位置；

步骤3：结合分级存储系统的特点，定义执行动作后DQN得到的奖励r；奖励r考虑SSD命中率，它等于执行两个连续动作之间，用户从分级存储系统中读取数据文件块在SSD设备中的概率，即类似于高性能存储设备的命中率；

步骤5.1：定义起始状态向量v；随机选v中的

个项位置赋值为1，即随机选择放置到SSD上的

个文件块，其它项为0；

步骤5.2：基于定义的状态向量空间、动作空间、奖励执行DQN算法，执行k次仿真训练；具体做如下操作：

步骤5.2.1：根据日志数据的数据块访问情况，确定仿真过程的奖励值；即计算SSD数据块的命中率；

步骤5.2.2：根据奖励值更新DQN的神经网络参数，并得出需要执行的数据块迁移动作；以一定的概率ε随机选择动作，以1-ε的概率选择通过当前DQN网络预测得到最大Q值的动作，模拟数据块在SSD和HDD之间的迁移过程；

步骤5.2.3：重复步骤5.2.1和步骤5.2.2，共重复k次，得到DQN的网络参数；