CN113608867B

CN113608867B - 基于强化学习的多数据ssd中的闪存资源分配方法

Info

Publication number: CN113608867B
Application number: CN202110810444.1A
Authority: CN
Inventors: 杨峰; 纪程; 吴超; 周明亮
Original assignee: Nanjing Zhongke Inverse Entropy Technology Co ltd
Current assignee: Nanjing Zhongke Inverse Entropy Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-05-14
Anticipated expiration: 2041-07-19
Also published as: CN113608867A

Abstract

本发明公开了一种基于强化学习的多数据SSD中的闪存资源分配方法。通过全面学习相关的I/O模式和SSD内部运行状态，满足各种I/O流资源需求的同时，可以消除I/O冲突，从而同时改善系统性能和存储寿命。

Description

基于强化学习的多数据SSD中的闪存资源分配方法

技术领域

本发明属于存储优化技术，具体为一种基于强化学习的多数据SSD中的闪存资源分配方法。

背景技术

与传统硬盘相比，固态硬盘SSD具有高抗震性、低访问延迟、低功耗等优势。由于闪存的异地更新特性，SSD必须维护垃圾回收(GC)功能，以回收无效空间。垃圾回收(GC)是导致固态硬盘SSD的I/O性能下降和存储寿命缩短的主要原因之一。GC产生的数据迁移开销，会降低系统性能，缩短存储寿命。GC的实现单位是块，读写I/O的单位是页。在每次GC过程中，设备控制器根据特定的算法挑选一个牺牲块，将该块中的所有有效页复制到其他物理地址，并擦除该块。此过程可能需要很长时间，使系统陷入极长的I/O延迟，导致GC阻塞的I/O必须挂起，直到GC进程完成。由于每个闪存单元只能承受有限的编程/擦除(P/E)次数，GC页面迁移的额外写入I/O，会影响存储寿命。

为了减轻GC的影响，多数据流SSD将寿命周期相似的I/O数据分类到相同的I/O流中，减少GC产生的页面拷贝开销。多数据流SSD技术提出将生命周期相近的I/O数据聚集到同一I/O流中，并在同一物理块中容纳来自同一I/O流的I/O。通过这种方式，同一块中的I/O数据可以同时失效，从而减少GC中的待迁移的有效页面数量。

多数据SSD中的闪存资源分配方法是阻碍该技术广泛应用的关键难题。静态分配方法不能满足不同I/O流的资源需求，损害系统性能和存储寿命。动态分配方法对各种I/O模式和SSD内部运行状态的错误策略，会加剧内部I/O冲突和SSD磨损均衡(WL)，从而延长I/O尾部延迟，缩短存储寿命。

发明内容

本发明提出了一种基于强化学习的多数据SSD中的闪存资源分配方法。

实现本发明的技术解决方案为：一种基于强化学习的多数据SSD中的闪存资源分配方法，具体步骤为：

将来自不同应用程序的I/O请求聚集到多个I/O流中，闪存控制器从主机端和设备端收集主机状态相关因素，以确定主机当前状态，并根据贪婪策略，进行探索或利用，其中，探索是指随机选择分配动作，利用是指将当前状态、权重以及所有动作逐一输入至深度Q网络，由深度Q网络计算出每个动作的Q值逼近值，选择Q值逼近值最高的动作；

将选定的动作发送至设备控制器中的资源分配器，资源分配器执行动作，决定闪存资源分配策略以及下一次触发闪存控制器决策的时间；

闪存控制器收集奖励计算中所需的所有因子，计算最后一个状态-动作-权重对的真实Q值，并将真实Q值与Q值逼近值反向输入到深度Q网络进行反向传播在线训练；

闪存控制器将最后一个状态-动作-权重-奖励存储在重放缓冲区中，并随机挑选另一个状态-动作-权重-奖励对在深度-Q-网络中训练。

优选地，根据贪婪策略，进行探索或利用的具体方法为：

定义ε为随机选择动作的概率，初始时将ε设为1来进行贪婪探索，并以0.01为步长线性下降ε值来实现探索和利用的权衡，直至所有状态-动作均探索完成后将ε降至0.01来最大化训练成果利用率。

优选地，所述主机状态包括I/O状态和设备运行状态。

优选地，所述I/O状态包括：I/O流数量、每个流的数据写入量、当前为每个流分配的闪存资源以及每个I/O流内有效页面和无效页面的比率；

设备运行时状态包括：每个通道、芯片的活动状态；每个芯片的磨损状态；每个芯片中无效页面的比例。

优选地，所述动作包括闪存资源分配动作和触发频率动作组成，所述闪存资源分配动作包括：不分配芯片资源；从选定的I/O流回收芯片资源到资源池；从资源池分配选定的芯片到选定的I/O流；所述触发频率动作是指下一次触发强化学习模型的时间间隔。

本发明与现有技术相比，其显著优点为：本发明通过综合学习相关I/O模式和SSD内部运行状态，在满足各种I/O流的资源需求的同时，最大化SSD内部并行资源利用率以及流资源分配公平性，消除了SSD中的I/O冲突，降低闪存芯片的写/擦除周期损耗，从而达到最优的系统性能和存储寿命。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为本发明的流程图。

图2为深度Q网络的结构示意图。

具体实施方式

如图1、2所示，一种基于强化学习的多数据SSD中的闪存资源分配方法，具体步骤为：

步骤1：将来自不同应用程序的I/O请求聚集到多个I/O流中①。闪存控制器从主机端和设备端收集主机状态相关因素，以确定主机当前状态②，并根据贪婪策略③，进行探索或利用，其中探索是指随机选择分配动作，利用是指将当前状态，权重以及所有动作逐一输入深度Q网络，由深度Q网络计算所有动作的Q值逼近值，强化模型选择Q值逼近值最高的动作。

在贪婪策略中，定义ε为随机选择动作的概率，在训练初始阶段由于大部分状态-动作都处于待探索阶段，将ε设为1来进行贪婪探索，之后以0.01为步长线性下降ε值来实现探索和利用的权衡，直至所有状态-动作均探索完成后将ε降至0.01来最大化训练成果利用率。

进一步的实施例中，所述主机状态包括I/O状态和设备运行状态，即SSD运行时状态。

I/O状态包括：I/O流数量、每个流的数据写入量、当前为每个流分配的闪存资源以及每个I/O流内有效页面和无效页面的比率。

进一步的实施例中，探索是指模型随机选择一个动作。所述动作由闪存资源分配动作和触发频率动作的模型组成。

具体地，闪存资源分配动作包括：1.不分配芯片资源；2.从选定的I/O流回收芯片资源到资源池；3.从资源池分配选定的芯片到选定的I/O流。当设备空间不足时，暂停分配操作，并等待，直到垃圾回收或从选定的I/O流回收足够的可用空间。触发频率动作是指下一次触发强化学习模型的时间间隔，定义最小时间单位为1秒，触发频率动作选择间隔几个最小时间单位进行下一次触发。

在利用过程中，权重连同当前状态以及每一个动作被作为输入传输至深度Q网络④，由深度Q网络计算以获得每个状态-动作-权重对的Q值⑤。注意该Q值为深度Q网络所计算出的逼近值，每次计算后都会在步骤3中采集相关奖励因子来计算真实Q值，并将真实Q值与逼近值反向输入深度Q网络进行反向传播训练，以使深度Q网络的预测精度，即输出的逼近值与真实Q值的偏差越来越小。

步骤2：将步骤1选定的动作发送至设备控制器中的资源分配器，资源分配器执行动作，决定闪存资源分配策略以及下一次触发闪存控制器决策的时间，其中决策时间以每个1秒为最小单位，由强化学习模型根据步骤1所选动作选择来决定具体每次触发模型时间间隔为几个最小单位。

步骤3：步骤2动作执行完成后，闪存控制器收集奖励计算中所需的因子，计算最后一个状态-动作-权重对的真实Q值，并将真实Q值与Q值逼近值反向输入到深度Q网络进行反向传播在线训练。

真实Q值的计算考虑了每个动作产生价值的相关因素，包括：寿命因素、性能因素以及公平性因素。具体计算方法为：将每个相关因素与权重向量中各因素对应权重进行加权累加得出。其中，寿命因素包括闪存设备消耗的写/擦除周期、GC中触发的页面迁移数量，直接决定闪存设备还剩下多长寿命；性能因素包括每个芯片中I/O冲突的数量、I/O延迟；公平性因素则体现出每个I/O流之间的闪存资源分配是否公平，通常包括每个I/O流的占用带宽。在真实Q值计算中，本发明通过最小化带宽和I/O流的权重之间的偏差，保证了所有I/O流之间的公平性。其中每个I/O流的权重在现有OS中体现为各进程的优先级，每个I/O流的占用带宽通过统计每秒该流的I/O总量得出，流公平性具体由公式(1)计算：

其中，F为流公平性，W_i是第i个流的权重，B_i为该流的带宽，n为I/O流总数。

将上述闪存设备寿命因素、性能因素以及公平性因素纳入真实Q值计算，并在每一次利用中由深度Q网络输出逼近Q值，模型通过选择最大Q值的动作来实现设备的性能最优以及寿命最长。

此外，强化学习模型对每个上述因素均指定相应的权重，所有权重组成权重向量，由动态权重生成器生成。具体生成步骤为，对所有首要指标，如I/O延迟，闪存寿命，公平性，由于直接体现设备的性能寿命，对其赋予较高权重，默认0.8；对次要指标，如I/O冲突数量，对其赋予低权重，默认0.4。

步骤4：闪存控制器将最后一个状态-动作-权重-奖励存储在重放缓冲区⑩中，并随机挑选另一个状态-动作-权重-奖励对在深度-Q-网络中执行进一步的训练。

本发明为多目标优化问题，因此采用动态权向量作为深度Q网络的输入，以引导网络更快地收敛得到目标，从而实现对闪存资源的优化分配。

本发明通过综合学习相关I/O模式和SSD内部运行状态，在满足各种I/O流的资源需求的同时，消除了SSD中的I/O冲突，降低闪存芯片的损耗，从而达到最优的系统性能和存储寿命。

Claims

1.一种基于强化学习的多数据SSD中的闪存资源分配方法，其特征在于，具体步骤为：

将来自不同应用程序的I/O请求聚集到多个I/O流中，闪存控制器从主机端和设备端收集主机状态相关因素，以确定主机当前状态，并根据贪婪策略，进行探索或利用，其中，探索是指随机选择分配动作，利用是指将当前状态、权重以及所有动作逐一输入至深度Q网络，由深度Q网络计算出每个动作的Q值逼近值，选择Q值逼近值最高的动作；进行探索或利用的具体方法为：

定义ε为随机选择动作的概率，初始时将ε设为1来进行贪婪探索，并以0.01为步长线性下降ε值来实现探索和利用的权衡，直至所有状态-动作均探索完成后将ε降至0.01来最大化训练成果利用率；

奖励计算中所需的因子指每个动作产生价值的相关因素，包括：寿命因素、性能因素以及公平性因素，寿命因素包括闪存设备消耗的写/擦除周期、GC中触发的页面迁移数量；性能因素包括每个芯片中I/O冲突的数量、I/O延迟；公平性因素由流公平性确定，具体计算公式为：

其中，F为流公平性，W_i是第i个流的权重，B_i为该流的带宽，n为I/O流总数；

2.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法，其特征在于，所述主机状态包括I/O状态和设备运行状态。

3.根据权利要求2所述的基于强化学习的多数据SSD中的闪存资源分配方法，其特征在于，所述I/O状态包括：I/O流数量、每个流的数据写入量、当前为每个流分配的闪存资源以及每个I/O流内有效页面和无效页面的比率；

4.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法，其特征在于，所述动作包括闪存资源分配动作和触发频率动作组成，所述闪存资源分配动作包括：不分配芯片资源；从选定的I/O流回收芯片资源到资源池；从资源池分配选定的芯片到选定的I/O流；所述触发频率动作是指下一次触发强化学习模型的时间间隔。

5.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法，其特征在于，所述权重由强化学习模型指定相应值，并由动态权重生成器生成。