CN112817523B

CN112817523B - 存储介质可靠性等级判断方法及系统、存储介质、设备

Info

Publication number: CN112817523B
Application number: CN202110066056.7A
Authority: CN
Inventors: 潘玉茜; 张浩明; 刘政林
Original assignee: Futurepath Technology Shenzhen Co ltd
Current assignee: Futurepath Technology Shenzhen Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-09-07
Anticipated expiration: 2041-01-19
Also published as: CN112817523A

Abstract

本发明提供了一种基于强化学习的存储介质可靠性等级判断方法及系统、存储介质、计算设备，该方法包括：获取存储系统中至少一存储单元的系统存储状态，将系统存储状态传输至代理器，由代理器基于系统存储状态确定存储单元对应的可靠性等级判断动作；通过存储系统对可靠性等级判断动作进行准确度评估得到评估结果，根据评估结果生成评估反馈参数；将评估反馈参数传输至代理器，基于评估反馈参数优化更新代理器。基于本发明提供的方案，能够根据实际运行环境进行动态优化，适用于不同类型的存储介质，且不需要通过预先测试获取存储介质可靠性与特征参数之间的关系。

Description

存储介质可靠性等级判断方法及系统、存储介质、设备

技术领域

本发明涉及闪存寿命预测技术领域，特别是一种基于强化学习的存储介质可靠性等级判断方法及系统、存储介质、计算设备。

背景技术

随着电子技术的发展，存储器作为电子设备中存储数据的载体在现代生活中具有越来越重要的地位。可靠性降低一直是数据存储的主要问题之一。在存储器使用过程中，其单元存储的数据会出现各种错误并最终导致存储单元失效，若存储介质在运行时产生了无法纠正的数据错误将影响整个存储系统的正常使用，甚至导致重要数据丢失。

为了存储器预防失效，目前领域内采用测试一部分芯片，利用测试数据建立预测模型，通过模型预测存储器是否在一定操作周期数内发生失效。这种方法通过测试数据获取一部分存储器可靠性下降规律，在具备有效预防失效的能力前需要花费大量时间进行测试及模型建立。同时，由于制造过程中工艺差异的问题，即使是同型号的不同存储器其可靠性下降规律也不同。目前所采用的预测方法只能适用于已测试并建立模型的存储器类型，对于未建立模型的存储器无法有效预防失效。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于强化学习的存储介质可靠性等级判断方法及系统、存储介质、计算设备，能够根据实际运行环境进行动态优化，适用于不同类型的存储介质，且不需要通过预先测试获取存储介质可靠性与特征参数之间的关系。

根据本发明的第一方面，提供了一种基于强化学习的存储介质可靠性等级判断方法，包括：

获取存储系统中至少一存储单元的系统存储状态，将所述系统存储状态传输至代理器，由所述代理器基于所述系统存储状态确定所述存储单元对应的可靠性等级判断动作；其中，所述代理器为能够执行存储单元可靠性等级判断动作的模块；

通过所述存储系统对所述可靠性等级判断动作进行准确度评估得到评估结果，根据所述评估结果生成评估反馈参数；

将所述评估反馈参数传输至所述代理器，基于所述评估反馈参数优化更新所述代理器。

可选地，所述由所述代理器基于所述系统存储状态确定所述存储单元的可靠性等级判断动作，包括：

由所述代理器采用强化学习算法获取与所述系统存储状态对应的映射权值，基于所述映射权值确定所述存储单元的可靠性等级判断动作；

其中，所述可靠性等级判断动作为所述判断存储单元在n次操作周期后的错误数或错误率是否满足预设条件；

其中，n为一个值或多个值的集合；

所述预设条件包括：错误数或错误率的值超过存储单元正常运行界限值；或，错误数或错误率的值在设定阈值内。

可选地，所述基于所述评估反馈参数优化更新所述代理器，包括：

在所述代理器接收到所述评估反馈参数后，根据所述评估反馈参数优化所述可靠性等级判断动作对应的映射权值；

将优化后的所述映射权值作为与所述系统存储状态对应的新映射权值，以更新所述代理器。

可选地，所述系统存储状态包括以下介质特征量中的任意一个或多个：存储单元的错误等级、错误比特数、错误率、存储单元当前经历过操作周期数、编程时间、读取时间、擦除时间、电流、功耗、阈值电压分布、存储单元编号和条件错误单元数。

可选地，所述错误等级包括：将存储单元错误比特数或错误率的取值范围划分为多个区间，每个区间对应一个错误等级；

所述条件错误单元数包括：阈值电压分布、编程时间、读取时间、擦除时间、错误数、错误率中的一个特征量或多个特征量满足一定取值条件的存储单元的数量。

可选地，所述方法还包括：

判断是否终止运行所述代理器；

若是，则终止运行所述代理器；

若否，则继续获取所述存储单元的系统存储状态后传输至所述代理器。

可选地，所述判断是否终止运行所述代理器，包括：

判断所述存储系统中各存储单元是否均无法正常运行；或，

判断是否接受到用户发送的代理器终止运行命令；或，

所述存储系统是否满足预设的代理器终止条件；其中，所述预设的代理器终止条件包括所述存储系统中各所述存储单元的最小错误数不小于设定值。

根据本发明的第二方面，提供了一种基于强化学习的存储介质可靠性等级判断系统，包括：

可靠性判断模块，用于获取存储系统中至少一存储单元的系统存储状态，将所述系统存储状态传输至代理器，由所述代理器基于所述系统存储状态确定所述存储单元对应的可靠性等级判断动作；其中，所述代理器为能够执行存储单元可靠性等级判断动作的模块；

评估模块，用于通过所述存储系统对所述可靠性等级判断动作进行准确度评估得到评估结果，根据所述评估结果生成评估反馈参数；

更新模块，用于将所述评估反馈参数传输至所述代理器，基于所述评估反馈参数优化更新所述代理器。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一项所述的方法。

根据本发明的第四方面，提供了一种计算设备，所述计算设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的方法。

本发明实施例提供了一种基于强化学习的存储介质可靠性等级的判断方法及系统、存储介质、计算设备，在本发明提供的存储介质可靠性等级的判断方法中，通过获取存储系统中至少一存储单元的系统存储状后，由能够执行存储单元可靠性等级判断动作的模块的代理器确定所述存储单元对应的可靠性等级判断动作，无需通过预先测试获取存储单元可靠性与特征参数之间的关系，可直接确定存储单元的可靠性等级，能够解决当前存储单元领域中由于工艺差异导致的不同存储单元可靠性下降速度不同的问题。另外，代理器还可以根据存储系统对可靠性等级判断动作进行准确度评估后生成的评估反馈参数进行优化更新，从而使得代理器可以适用于不同类型的存储介质的同时，更加快速且准确地获取存储介质的可靠性等级。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例的基于强化学习的存储介质可靠性等级的判断方法流程示意图；

图2示出了根据本发明实施例的代理器选取判断动作的流程示意图；

图3示出了根据本发明实施例的代理器根据评估反馈参数进行更新流程示意；

图4示出了根据本发明实施例的存储介质可靠性等级的判断系统结构示意图；

图5示出了根据本发明实施例的计算设备结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种存储介质可靠性等级的判断方法，参加图1可知，本发明实施例提供的存储介质可靠性等级的判断方法至少可以包括以下步骤S101～S103。

S101，获取存储系统中至少一存储单元的系统存储状态，将系统存储状态传输至代理器，由代理器基于系统存储状态确定存储单元的可靠性等级判断动作。

在本发明实施例中存储系统可以是任一类型的存储器对应的存储系统，如闪存等具备数据存储能力的电子设备(如某制造工艺下的3D多级单元NAND闪存(TLC NANDflaSh))，对于存储单元来讲，其是存储系统中任意一个具备数据存储能力的电子器件存储单元，一个存储系统中可能有一个或多个存储单元，具体可以根据不同类型的存储器进行设置，本发明实施例对此不做限定。

可选地，系统存储状态包括以下介质特征量中的任意一个或多个：存储单元的错误等级、错误比特数、错误率、存储单元当前经历过操作周期数、编程时间、读取时间、擦除时间、电流、功耗、阈值电压分布、存储单元编号和条件错误单元数。

其中，条件错误单元数包括：阈值电压分布、编程时间、读取时间、擦除时间、错误数、错误率中的一个特征量或多个特征量满足一定取值条件的存储单元的数量。错误等级可以包括：将存储单元错误比特数或错误率的取值范围划分为多个区间，每个区间对应一个错误等级；举例来讲，存储单元的错误等级划分方式为：限定存储介质错误比特数取值范围为[0,1000]，将该范围划分为5个区间[0,200)、[200,400)、[400,600)、[600,800)和[800,1000)，各个区间分别对应错误等级1、错误等级2、错误等级3、错误等级4、错误等级5。

另外，本实施例中的代理器(Agent)为具有存储单元可靠性等级判断功能的模块，当代理器接收到任一存储单元的系统存储状态之后即可确定出对应的存储单元的可靠性等级判断动作。

在本发明实施例中，由代理器基于系统存储状态判断存储单元的可靠性等级具体可以包括：由代理器采用强化学习算法获取与系统存储状态对应的映射权值，基于映射权值确定存储单元的可靠性等级判断动作。

其中，强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一。本实施例中，强化学习算法可以是Q-learning算法、Sarsa算法、Deep Q Network(DNQ)算法等。

对于不同的强化学习算法来讲，其获取与系统存储状态对应的可靠性等级的方式是不同的。以Q-learning算法为例，其可以是强化学习算法中value-based的算法，Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

Sarsa算法，Sarsa算法是一种使用时序差分求解强化学习控制问题的方法，算法输入：迭代轮数T，状态集S，动作集A，步长α，衰减因子γ，探索率∈，输出：所有的状态和动作对应的价值Q。对于DQN算法来讲，其可以理解为在Q-Learning的整体框架大体不改的情况下，对于(S,A)->R奖励的获取方式的一种改进。当然，除上述介绍的之外，代理器还可以采用Policy Gradient算法和Actor Critic算法或是其他强化学习算法基于系统存储状态确定存储单元的可靠性等级判断动作，本发明实施例对此不做限定。

在本实施例中，可靠性等级判断动作为判断存储单元在n次操作周期后的错误数或错误率是否满足预设条件；其中，n为一个值或多个值的集合，n≥0；预设条件包括：错误数或错误率的值超过存储单元正常运行界限值；或，错误数或错误率的值在设定阈值内。其中，操作周期是指编程/擦除周期(P/E周期)，对于不同的可靠性等级判断动作来讲，其对应的操作周期n值的取值范围也不同。

举例来讲，可以预先将可靠性等级判断动作划分为判断动作1、判断动作2、判断动作3、判断动作4、判断动作5、判断动作6等多个可靠性等级判断动作，对于不同的可靠性等级判断动作来讲，其对应的存储单元在n次操作周期所对应的错误数或错误率满足的预设条件也不相同。本实施例中，可靠性等级判断动作可以包括：判断动作1，存储单元能在500周期后正常运作；判断动作2，存储单元能在200周期后正常运作；判断动作3，存储单元能在100周期后正常运作；判断动作4，存储单元能在50周期后正常运作；判断动作5，存储单元能在下一周期正常运作；判断动作6，存储单元不能在下一周期正常运作。本发明实施例仅示意性地示出了对于可靠性等级的划分，实际应用中，可以根据不同的需求对存储单元的可靠性等级判断动作进行划分设置，本发明实施例对此不做限定。

以强化学习方法中Q-learning算法为例，本实施例通过Q-Table的形式实现代理器，即代理器通过Q-Table确定存储单元的可靠性等级判断动作，表1为本发明实施例代理器Q-Table实现形式。表1中的值为代理器初始化时的取值。表格中s1、s2、s3、s4、s5分别对应不同的系统存储状态，在本发明实施例中，以系统存储状态包括错误等级为例，s1、s2、s3、s4、s5分别对应上述实施例提及的错误等级1、错误等级2、错误等级3、错误等级4、错误等级5。表1中a1、a2、a3、a4、a5、a6分别对应判断动作1、判断动作2、判断动作3、判断动作4、判断动作5、判断动作6。将代理器对应的表格称作Q，与si对应的判断动作ai在表中的值通过Q(si，ai)表示。

表1

结合表1，代理器选取判断动作的步骤如图2所示。

步骤S201，查找与系统存储状态对应的至少一个预设判断动作；

步骤S202，根据选取规则在多个预设判断动作中选择目标判断动作。可选地，选取规则为，比较与系统存储状态si(i＝1，…,5)下各预设判断动作对应的值，从中选取最大值、作为与系统存储状态的映射权值，将该映射权值对应的判断动作ai(i＝1，…,5)作为目标判断动作，即与存储单元的存储状态对应的最终的可靠性等级判断动作。

举例来讲，假设步骤S101所获取到的系统存储状态为错误等级1，那么，在表格中对应的则是状态s1，在查找与s1对应的判断动作时，可以在表1中的第一行查找最大值0.3作为映射权值，进一步地，与0.3对应的判断动作a1即可作为与状态s1对应的判断动作a1，即Q(s1,a1)＝0.3。进一步地，确定目标判断动作之后，可以基于目标判断动作确定存储单元的可靠性等级。

也就是说，对于各判断动作来讲，可分别对应不同的存储介质可靠性等级。例如：判断动作1对应的存储单元可靠性等级为最高级，即6级；判断动作2对应的存储单元可靠性等级为5级，以此类推，判断动作6对应的存储单元可靠性等级为1级，存储单元可靠性等级越高，表示存储单元高可用，存储单元可靠性等级越低，表示存储单元低可用。

实际应用中，在表1中与各si(i＝1，…,5)对应的系统存储状态除上实施例介绍的错误等级之外，还可以结合错误比特数、错误率、存储单元当前经历过操作周期数、编程时间、读取时间、擦除时间、电流、功耗、阈值电压分布、存储单元编号和条件错误单元数中的一个或是多个组合后对应状态si，具体可以根据不同的存储系统的型号等进行设置，本发明实施例对此不做限定。

S102，通过存储系统对可靠性等级判断动作进行准确度评估得到评估结果，根据评估结果生成评估反馈参数。

本实施例中，代理器获得存储单元的可靠性等级判断动作之后，还可以通过存储系统对可靠性等级判断动作的进行准确度评估，即，主要是判断存储单元的实际状态与代理器所判断出的可靠性等级判断动作是否相符合，当存储单元的实际状态与可靠性等级判断动作的符合程度越高，则可靠性等级判断动作的准确度越高。由于存储单元是存储系统中的一个存储单元，因此，存储系统可以有效掌握各存储单元的存储状态，通过存储系统对代理器所判断出的存储单元的可靠性等级判断动作进行准确度进行快速且有效评估。

在本发明实施例中，对存储系统对可靠性等级判断动作进行准确度评估时，可通过函数F进行评估，函数F的输入可为：存储单元的系统存储状态以及对应的可靠性等级判断动作。相对应地，可靠性等级判断动作进行准确度，则表示存储单元的实际状态与可靠性等所对应的判断状态的相似程度，相似程度可通过存储单元特征量进行度量。

在本发明可选实施例中，函数F可以如下：

即，存储系统利用函数F作为对可靠性等级判断动作进行准确度评估得到评估结果。

其中，Er为当前状态下的错误比特数，Cy为判断动作A对应的操作周期数，例如，判断能在500周期后正常运作对应Cy为500，判断能在200周期后正常运作对应Cy为200，判断能在100周期后正常运作对应Cy为100，判断能在50周期后正常运作对应Cy为50，判断能在1周期后正常运作对应Cy为1，判断不能在下一周正常运作对应Cy为0。

进一步地，在得到可靠性等级判断动作的评估结果后，可生成对应的评估反馈参数，其中，评估反馈参数可以与评估结果呈正相关。上述实施例提及，评估结果是对于可靠性的准确度进行评估结果，因此，可以理解为，评估结果准确程度越高评估反馈参数R取值越高，评估结果的准确度越低，评估反馈参数R取值越低。其中，评估反馈参数R的取值范围可根据系统设计需求确定，本发明实施例对此不做限定。

本实施例中，评估反馈参数R与评估结果F(Er,Cy)的对应关系可以如下：

R＝F(Er,Cy)*α

其中，α的值优选为1。本实施例中，上述评估反馈参数R与评估结果F(Er,Cy)的对应关系算式仅为实现方法其中之一，对应关系还可为其他满足正相关条件算式。

例如，若存储单元的系统存储状态为S1，代理器获得的与S1对应的判断动作为a1，存储系统可对判断动作a1进行评估。其中，a1表示存储单元能在500周期后正常运作，相对应的，Cy为500，Er为当前状态下的错误比特数，其具体数值可以由存储系统进行获取。假设存储系统获取到存储单元的错误比特数Er为500，那么，F(Er,Cy)＝0.5，进一步地，评估反馈参数R＝0.5。

S103，将评估反馈参数传输至代理器，以基于评估反馈参数优化更新代理器。

上文提及，代理器在判断存储单元的可靠性等级时，主要是计算与系统存储状态对应的映射权值，可选地，代理器根据评估反馈参数进行更新优化时，可以包括：

S1，在代理器接收到评估反馈参数后，根据评估反馈参数优化可靠性等级判断动作对应的映射权值；

S2，将优化后的映射权值作为与系统存储状态对应的新映射权值，以更新代理器。

继续以上述实施例提及的Q-learning算法理论为例，本实施例中代理器优化过程如图3所示。具体步骤可以如下：

S301，获取当前状态S以及代理器上一次判断时执行判断动作A’在表1中对应的值Q(S',A')。其中S’代表上一次判断时的状态。也就是说，S为T2时刻获取的状态，S’为T1时刻获取状态，T1时刻早于T2时刻。

假设当前状态，即T2时刻对应的存储单元的系统存储状态S＝s1，代理器上一次判断，即T1时刻代理器判断的在S’状态下的Q值，本实施例中，假设S’＝s1，A’＝a1，相对应的Q(s2,a1)＝0.3；

S302，代理器可以从表1中读取当前状态S下，取值最大的判断动作Am，计算R+γ×Am的值。其中γ为衰减值，本实施例中γ的取值为0.9。

参见表1获取到的S1下的Am＝0.3，上述实施例计算获得的R＝0.5，

R+γ×Am＝0.5+0.9+0.3＝1.7

S303，计算(R+γ+Am)与Q(S',A')的差值Δq，更新表1中对应的值：

Q'(S,A)＝Q(S,A)+α×Δq

其中，α为学习率，本实施例中α的取值为0.1。

在本实施例中，Δq＝1.7-0.3＝1.4，Q'(S,A)＝0.3+0.1×1.4＝0.44

也就是说，将表1中原有的Q(s1,a1)＝0.3更新为Q(s1,a1)＝0.44，如表2所示。

表2

本发明实施例提供的方法，通过根据存储系统的实际运行环境动态优化更新代理器的价值函数，如更新Q-learning算法中的Q-Table，从而使得代理器可以适用于不同类型的存储介质的同时，更加快速且准确地获取存储介质的可靠性等级。

进一步地，本发明可选实施例中，在上述步骤S103基于评估反馈参数优化更新代理器之后，还可以判断是否终止运行代理器；若是，则终止运行代理器；若否，则继续获取存储单元的系统存储状态后传输至代理器。其中，判断是否终止运行代理器，具体可以包括：判断存储系统中各存储单元是否均无法正常运行；或，判断是否接受到用户发送的代理器终止运行命令；或，存储系统是否满足预设的代理器终止条件；其中，预设的代理器终止条件包括存储系统中各存储单元的最小错误数不小于设定值。当满足上述任一条件时，可判断存储单元无法正常运行，此时，可以终止运行代理器，即，停止对存储系统的可靠性等级判断。

举例来讲，存储系统可以先系统判断用户是否发送代理器终止运行命令，若接收到终止运行命令则系统终止代理器运行，若不满足则存储系统继续判断当前的系统存储状态是否满足预设的代理器终止要求，若满足要求则系统终止代理器运行，本实施例中，预设的代理器终止要求为当前系统中所有存储单元的最小错误数大于等于1000。若不满足，则存储系统继续判断是否存在正常运行的存储单元，若不存在则系统终止代理器运行，若存在则代理器继续运行。

本发明实施例提供了一种以目前计算机领域前沿的强化学习技术为基础提出的存储介质可靠性等级判断方法，不需要通过预先测试获取存储单元可靠性与特征参数之间的关系。并且，能够解决当前存储单元领域中由于工艺差异导致的不同存储单元可靠性下降速度不同的问题，基于本发明实施例提供的方法，根据实际运行环境进行动态优化，能够适用于不同类型的存储单元。并且，通过结合存储单元的实际可靠性状态变化进行可靠性等级判断，能够避免存储单元出现数据失效，保障数据存储完整性。

基于同一发明构思，本发明实施例还提供了一种基于强化学习的存储介质可靠性等级判断系统，如图4所示，该系统可以包括：代理器410以及包括至少一个存储单元421的存储系统420；本实施例中的代理器(Agent)为具有存储单元可靠性等级判断功能的模块，当代理器接收到任一存储单元的系统存储状态之后即可确定出对应的存储单元的可靠性等级判断动作。

存储系统420，用于获取存储系统420中至少一存储单元421的系统存储状态，将系统存储状态传输代理器410在本发明实施例中存储系统可以是任一类型的存储器对应的存储系统，如闪存等具备数据存储能力的电子设备(如某制造工艺下的3D多级单元NAND闪存(TLC NAND flaSh))，对于存储单元来讲，其是存储系统中任意一个具备数据存储能力的电子器件存储单元，一个存储系统中可能有一个或多个存储单元，具体可以根据不同类型的存储器进行设置，本发明实施例对此不做限定。

代理器410，用于基于系统存储状态确定存储单元421对应的可靠性等级判断动作，并发送至存储系统420；

存储系统420，还用于对可靠性等级判断动作进行准确度评估得到评估结果，根据评估结果生成评估反馈参数后传输至代理器410；

代理器410，用于，基于评估反馈参数优化更新代理器410。

在本发明可选实施例中，代理器410还可以用于：

采用强化学习算法获取与系统存储状态对应的映射权值，基于映射权值确定存储单元421的可靠性等级判断动作；

其中，可靠性等级判断动作为判断存储单元421在n次操作周期后的错误数或错误率是否满足预设条件；

其中，n为一个值或多个值的集合，n≥0；

预设条件包括：错误数或错误率的值超过存储单元正常运行界限值；或，错误数或错误率的值在设定阈值内。

强化学习算法可以是Q-learning算法、Sarsa算法、Deep Q Network(DNQ)算法、Policy Gradient算法和Actor Critic算法或是其他强化学习算法基于系统存储状态确定存储单元的可靠性等级判断动作，本发明实施例对此不做限定。

在本发明可选实施例中，代理器410还用于：在代理器410接收到评估反馈参数后，根据评估反馈参数优化可靠性等级判断动作对应的映射权值；将优化后的映射权值作为与系统存储状态对应的新映射权值，以更新代理器410。

错误等级包括：将存储单元错误比特数或错误率的取值范围划分为多个区间，每个区间对应一个错误等级；举例来讲，存储单元的错误等级划分方式为：限定存储介质错误比特数取值范围为[0,1000]，将该范围划分为5个区间[0,200)、[200,400)、[400,600)、[600,800)和[800,1000)，各个区间分别对应错误等级1、错误等级2、错误等级3、错误等级4、错误等级5。

条件错误单元数包括：阈值电压分布、编程时间、读取时间、擦除时间、错误数、错误率中的一个特征量或多个特征量满足一定取值条件的存储单元421的数量。

在本发明可选实施例中，存储系统420还用于：

判断是否终止运行代理器410；

若是，则终止运行代理器410；

若否，则继续获取存储单元421的系统存储状态后传输至代理器410。

在本发明可选实施例中，存储系统420还用于：

判断存储系统420中各存储单元421是否均无法正常运行；或，

判断是否接受到用户发送的代理器410终止运行命令；或，

存储系统420是否满足预设的代理器410终止条件；其中，预设的代理器410终止条件包括存储系统420中各存储单元421的最小错误数不小于设定值。

本发明可选实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述实施例的方法。

本发明可选实施例还提供了一种计算设备，计算设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行上述实施例的方法。

在示例性实施例中，参见图5，还提供了一种计算设备，该计算设备包括通信总线、处理器、存储器和通信接口，还可以包括、输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的基于强化学习的存储介质可靠性等级判断方法的步骤。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行指令时执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，程序指令可以存储于一计算机可读取存储介质中，当程序指令被计算设备的处理器执行时，计算设备执行本发明各实施例方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种基于强化学习的存储介质可靠性等级判断方法，其特征在于，包括：

通过所述存储系统对所述可靠性等级判断动作进行准确度评估得到评估结果，根据所述评估结果生成评估反馈参数；所述可靠性等级判断动作对应的准确度，表示存储单元的实际状态与可靠性等所对应的判断状态的相似程度；

将所述评估反馈参数传输至所述代理器，基于所述评估反馈参数优化更新所述代理器；

所述由所述代理器基于所述系统存储状态确定所述存储单元的可靠性等级判断动作，包括：

其中，所述可靠性等级判断动作为所述判断存储单元在n次操作周期后的错误数或错误率是否满足预设条件；n为一个值或多个值的集合；

2.根据权利要求1所述的方法，其特征在于，所述基于所述评估反馈参数优化更新所述代理器，包括：

3.根据权利要求1所述的方法，其特征在于，所述系统存储状态包括以下介质特征量中的任意一个或多个：存储单元的错误等级、错误比特数、错误率、存储单元当前经历过操作周期数、编程时间、读取时间、擦除时间、电流、功耗、阈值电压分布、存储单元编号和条件错误单元数。

4.根据权利要求3所述的方法，其特征在于，所述错误等级包括：将存储单元错误比特数或错误率的取值范围划分为多个区间，每个区间对应一个错误等级；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

判断是否终止运行所述代理器；

若是，则终止运行所述代理器；

6.根据权利要求5所述的方法，其特征在于，所述判断是否终止运行所述代理器，包括：

判断所述存储系统中各存储单元是否均无法正常运行；或，

判断是否接受到用户发送的代理器终止运行命令；或，

7.一种基于强化学习的存储介质可靠性等级判断系统，其特征在于，包括：

代理器以及包括至少一个存储单元的存储系统；

所述存储系统，用于获取存储系统中至少一存储单元的系统存储状态，将所述系统存储状态传输所述代理器；

所述代理器，用于基于所述系统存储状态确定所述存储单元对应的可靠性等级判断动作，并发送至所述存储系统；具体用于采用强化学习算法获取与所述系统存储状态对应的映射权值，基于所述映射权值确定所述存储单元的可靠性等级判断动作；其中，所述可靠性等级判断动作为所述判断存储单元在n次操作周期后的错误数或错误率是否满足预设条件；n为一个值或多个值的集合；所述预设条件包括：错误数或错误率的值超过存储单元正常运行界限值；或，错误数或错误率的值在设定阈值内；

所述存储系统，还用于对所述可靠性等级判断动作进行准确度评估得到评估结果，根据所述评估结果生成评估反馈参数后传输至所述代理器；所述可靠性等级判断动作对应的准确度，表示存储单元的实际状态与可靠性等所对应的判断状态的相似程度；

所述代理器，用于，基于所述评估反馈参数优化更新所述代理器。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的方法。

9.一种计算设备，其特征在于，所述计算设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的方法。