CN114927157A

CN114927157A - 存储器系统的紧凑工作负载表示

Info

Publication number: CN114927157A
Application number: CN202111207591.6A
Authority: CN
Inventors: 斯阿赫·扎里瓦卡; 亚历山大·伊娃纽克
Original assignee: SK Hynix Inc
Current assignee: SK Hynix Inc
Priority date: 2021-02-11
Filing date: 2021-10-18
Publication date: 2022-08-19
Also published as: US20220253681A1

Abstract

本公开涉及存储器系统的紧凑工作负载表示。在存储器系统中生成输入工作负载的紧凑表示。存储器系统包括存储器装置；以及具有循环神经网络编译器的控制器。循环神经网络编译器包括具有循环编码块的编码器。每个循环编码块：接收与存储器装置相关联的输入工作负载中的输入命令中的一个；并且通过将一组激活函数应用于接收到的输入命令来生成与接收到的输入命令相对应的隐藏状态向量。最后编码块生成最终的隐藏状态向量作为紧凑表示向量。

Description

存储器系统的紧凑工作负载表示

技术领域

本公开的实施例涉及一种用于分析存储器系统中的工作负载的方案。

背景技术

计算机环境范例已经转变为可以随时随地使用的普适计算系统。因此，诸如移动电话、数码相机和笔记本电脑的便携式电子装置的使用迅速增加。这些便携式电子装置通常使用具有(多个)存储器装置(即，(多个)数据存储装置)的存储器系统。数据存储装置用作便携式电子装置的主存储器装置或辅助存储器装置。

由于使用存储器装置的存储器系统没有移动部件，因此它们具有优异的稳定性、耐用性、高信息访问速度和低功耗。具有这些优点的存储器系统的示例包括通用串行总线(USB)存储器装置、具有各种接口(例如，通用闪存(UFS))的存储卡以及固态驱动器(SSD)。存储器系统可以执行与来自主机的一个或多个工作负载相关联的操作。工作负载分析对于存储器系统的性能和可靠性提高变得很重要。在这种情况下，提出了本发明的实施例。

发明内容

本发明的方面包括紧凑表示存储器系统中的输入工作负载的系统和方法，其能够通过某些特征将工作负载分开。

一方面，一种系统包括：存储器装置；以及控制器，包括循环神经网络编译器(coder)，该循环神经网络编译器包括具有多个循环编码块的编码器，该编码器包括第一编码块至最后编码块。每个循环编码块被配置为：接收与存储器装置相关联的输入工作负载中的多个输入命令中的一个；并且通过将一组激活函数应用于接收到的输入命令来生成与接收到的输入命令相对应的隐藏状态向量。最后编码块生成最终的隐藏状态向量作为紧凑表示向量。

另一方面，一种用于操作存储器系统的控制器的方法包括：提供循环神经网络编译器，该循环神经网络编译器包括具有多个循环编码块的编码器；每个循环编码块接收与存储器系统的存储器装置相关联的输入工作负载中的多个输入命令中的一个；并且每个循环编码块通过将一组激活函数应用于接收到的输入命令来生成与接收到的输入命令相对应的隐藏状态向量。多个循环编码块之中的最后编码块生成最终的隐藏状态向量作为与多个输入命令相对应的紧凑表示向量。

通过以下描述，本发明的其他方面将变得显而易见。

附图说明

图1是示出了根据本发明实施例的数据处理系统的框图。

图2是示出了根据本发明实施例的存储器系统的框图。

图3是示出了根据本发明实施例的存储器装置的存储块的电路图。

图4是示出了根据本发明实施例的数据处理系统的示图。

图5是示出了根据本发明实施例的循环神经网络编译器的示图。

图6A是示出了根据本发明实施例的多个循环块的示图。

图6B是示出了根据本发明实施例的循环块的示图。

图7是示出了图5的循环神经网络编译器的细节的示图。

图8是示出了根据本发明实施例的循环神经网络编译器的示图。

图9是示出了图8的循环神经网络编译器的细节的示图。

图10是示出了根据本发明实施例的由循环神经网络编译器紧凑和可视化的工作负载的数据集的示图。

具体实施方式

以下参照附图更详细地描述各个实施例。然而，本发明可以以不同的形式实施，因此不应被解释为限于本文阐述的实施例。相反，提供这些实施例是为了使本公开透彻和完整，并将本发明的范围充分地传达给本领域技术人员。此外，本文中对“一个实施例”、“另一实施例”等的引用不一定仅针对一个实施例，并且对任意这种短语的不同引用不一定针对相同的(多个)实施例。在整个公开内容中，本发明的附图和实施例中的相同附图标记指代相同的部件。

本发明可以以多种方式来实施，包括被实施为进程、设备、系统、在计算机可读存储介质上实现的计算机程序产品；和/或处理器，例如适于运行联接到处理器的存储器上存储的和/或由该存储器提供的指令的处理器。在本说明书中，这些实施方案或本发明可以采用的任意其他形式可以被称为技术。通常，所公开进程的步骤的顺序可以在本发明的范围内进行改变。除非另有说明，否则被描述为适于执行任务的、诸如处理器或存储器的组件可以被实施为被临时配置为在给定时间执行任务的通用组件或被制造为执行任务的特定组件。如本文所使用的，术语“处理器”等是指适于处理数据(例如，计算机程序指令)的一个或多个装置、电路和/或处理内核。

以下提供了本发明实施例的详细描述以及示出了本发明的方面的附图。结合这些实施例描述了本发明，但是本发明不限于任意实施例。本发明的范围仅由权利要求限制。本发明涵盖权利要求的范围内的许多替代、修改和等同形式。以下的描述中阐述了许多具体细节，以便提供对本发明的透彻理解。提供这些细节仅出于示例的目的；可以在没有这些具体细节中的一些或全部的情况下，根据权利要求来实践本发明。为了清楚起见，并未详细描述与本发明有关的技术领域中已知的技术材料，从而不会不必要地模糊本发明。

图1是示出了根据本发明实施例的数据处理系统2的框图。

参照图1，数据处理系统2可以包括主机装置5和存储器系统10。存储器系统10可以从主机装置5接收请求并响应于接收到的请求来操作。例如，存储器系统10可以存储待由主机装置5访问的数据。

主机装置5可以利用各种类型的电子装置中的任意一种来实施。在各个实施例中，主机装置5可以包括电子装置，诸如台式计算机、工作站、三维(3D)电视、智能电视、数字音频记录器、数字音频播放器、数字图片记录器、数字图片播放器和/或数字视频记录器以及数字视频播放器。在各个实施例中，主机装置5可以包括便携式电子装置，诸如移动电话、智能电话、电子书、MP3播放器、便携式多媒体播放器(PMP)和/或便携式游戏机。

存储器系统10可以利用诸如固态驱动器(SSD)和存储卡的各种类型的存储装置中的任意一种来实施。在各个实施例中，存储器系统10可以被设置为诸如以下的电子装置中的各种组件中的一种：计算机、超移动个人计算机(UMPC)、工作站、上网本、个人数字助理(PDA)、便携式计算机、网络平板电脑、无线电话、移动电话、智能电话、电子书阅读器、便携式多媒体播放器(PMP)、便携式游戏装置、导航装置、黑匣子、数码相机、数字多媒体广播(DMB)播放器、三维电视、智能电视、数字音频记录器、数字音频播放器、数字图片记录器、数字图片播放器、数字视频记录器、数字视频播放器、数据中心的存储装置、能够在无线环境下接收和传输信息的装置、射频识别(RFID)装置以及家庭网络的各种电子装置中的一种、计算机网络的各种电子装置中的一种、远程信息处理网络的各种电子装置中的一种，或者计算系统的各种组件中的一种。

存储器系统10可以包括存储器控制器100和半导体存储器装置200。存储器控制器100可以控制半导体存储器装置200的全部操作。

半导体存储器装置200可以在存储器控制器100的控制下执行一个或多个擦除操作、编程操作和读取操作。半导体存储器装置200可以通过输入/输出线接收命令CMD、地址ADDR和数据DATA。半导体存储器装置200可以通过电力线接收电力PWR，并且通过控制线接收控制信号CTRL。根据存储器系统10的设计和配置，控制信号CTRL可以包括命令锁存使能信号、地址锁存使能信号、芯片使能信号、写入使能信号、读取使能信号以及其他操作信号。

存储器控制器100和半导体存储器装置200可以被集成到诸如固态驱动器(SSD)的单个半导体装置中。SSD可以包括用于存储数据的存储装置。当存储器系统10用于SSD时，可以显著地提高联接到存储器系统10的主机装置(例如，图1的主机装置5)的操作速度。

存储器控制器100和半导体存储器装置200可以被集成到诸如存储卡的单个半导体装置中。例如，存储器控制器100和半导体存储器装置200可以如此集成以配置个人计算机存储卡国际协会(PCMCIA)的个人计算机(PC)卡、紧凑型闪存(CF)卡、智能媒体(SM)卡、记忆棒、多媒体卡(MMC)、减小尺寸的多媒体卡(RS-MMC)、微型版本的MMC(MMCmicro)、安全数字(SD)卡、迷你安全数字(miniSD)卡、微型安全数字(microSD)卡、安全数字高容量(SDHC)和/或通用闪存(UFS)。

图2是示出了根据本发明实施例的存储器系统的框图。例如，图2的存储器系统可以描绘图1所示的存储器系统10。

参照图2，存储器系统10可以包括存储器控制器100和半导体存储器装置200。存储器系统10可以响应于来自主机装置(例如，图1的主机装置5)的请求来操作，并且特别地存储待由主机装置访问的数据。

存储器装置200可以存储待由主机装置访问的数据。

存储器装置200可以利用易失性存储器装置(例如，动态随机存取存储器(DRAM)和/或静态随机存取存储器(SRAM))或非易失性存储器装置(例如，只读存储器(ROM)、掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、铁电随机存取存储器(FRAM)、相变RAM(PRAM)、磁阻RAM(MRAM)和/或电阻式RAM(RRAM))来实施。

存储器控制器100可以控制存储器装置200中数据的存储。例如，存储器控制器100可以响应于来自主机装置的请求来控制存储器装置200。存储器控制器100可以将从存储器装置200读取的数据提供到主机装置，并且可以将从主机装置提供的数据存储到存储器装置200中。

存储器控制器100可以包括通过总线160联接的存储装置110、控制组件120(其可以被实施为诸如中央处理单元(CPU)的处理器)、错误校正码(ECC)组件130、主机接口(I/F)140和存储器接口(I/F)150。

存储装置110可以用作存储器系统10和存储器控制器100的工作存储器，并且存储用于驱动存储器系统10和存储器控制器100的数据。当存储器控制器100控制存储器装置200的操作时，存储装置110可以存储存储器控制器100和存储器装置200用于如下操作的数据，诸如读取操作、写入操作、编程操作和擦除操作。

存储装置110可以利用诸如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)的易失性存储器来实施。如上所述，存储装置110可以将主机装置用于读取操作和写入操作的数据存储在存储器装置200中。为了存储数据，存储装置110可以包括程序存储器、数据存储器、写入缓冲器、读取缓冲器、映射缓冲器等。

控制组件120可以控制存储器系统10的一般操作，并且特别地响应于来自主机装置的写入请求或读取请求来控制存储器装置200的相应操作。控制组件120可以驱动被称为闪存转换层(FTL)的固件，以控制存储器系统10的一般操作。例如，FTL可以执行诸如逻辑-物理(L2P)映射、损耗均衡、垃圾收集和/或坏块处置的操作。L2P映射被称为逻辑块寻址(LBA)。

ECC组件130可以在读取操作期间对从存储器装置200读取的数据中的错误进行检测和校正。当错误位的数量大于或等于可校正错误位的阈值数量时，ECC组件130可以不校正错误位，而是可以输出指示校正错误位失败的错误校正失败信号。

在各个实施例中，ECC组件130可以基于诸如以下编码调制来执行错误校正操作：低密度奇偶校验(LDPC)码、博斯-查德胡里-霍坤格姆(Bose-Chaudhuri-Hocquenghem(BCH))码、turbo码、turbo乘积码(TPC)、里德-所罗门(RS)码、卷积码、递归系统码(RSC)、网格编码调制(TCM)或分组编码调制(BCM)。然而，错误校正不限于这些技术。因此，ECC组件130可以包括用于适当的错误校正操作的任意和所有电路、系统或装置。

主机接口140可以通过诸如以下的各种接口协议中的一种或多种与主机装置通信：通用串行总线(USB)、多媒体卡(MMC)、高速外围组件互连(PCI-e或PCIe)、小型计算机系统接口(SCSI)、串列SCSI(SAS)、串行高级技术附件(SATA)、并行高级技术附件(PATA)、增强型小型磁盘接口(ESDI)和/或电子集成驱动器(IDE)。

存储器接口150可以提供存储器控制器100和存储器装置200之间的接口，以允许存储器控制器100响应于来自主机装置的请求来控制存储器装置200。存储器接口150可以在控制组件120的控制下生成存储器装置200的控制信号并处理数据。当存储器装置200是闪速存储器(例如，NAND闪速存储器)时，存储器接口150可以在控制组件120的控制下生成该闪速存储器的控制信号并处理数据。

存储器装置200可以包括存储器单元阵列210、控制电路220、电压生成电路230、行解码器240、页面缓冲器250(其可以是页面缓冲器阵列的形式)、列解码器260以及输入和输出(输入/输出)电路270。存储器单元阵列210可以包括可以存储数据的多个存储块211。电压生成电路230、行解码器240、页面缓冲器阵列250、列解码器260和输入/输出电路270可以形成存储器单元阵列210的外围电路。外围电路可以对存储器单元阵列210执行编程操作、读取操作、或擦除操作。控制电路220可以控制外围电路。

电压生成电路230可以生成各种电平的操作电压。例如，在擦除操作中，电压生成电路230可以生成各种电平的操作电压，诸如擦除电压和通过电压。

行解码器240可以与电压生成电路230和多个存储块211电通信。行解码器240可以响应于控制电路220生成的行地址，在多个存储块211之中选择至少一个存储块，并且将从电压生成电路230供应的操作电压传输到所选择的存储块。

页面缓冲器250可以通过位线BL(图3所示)与存储器单元阵列210联接。页面缓冲器250可以响应于控制电路220生成的页面缓冲器控制信号，在编程操作和读取操作中利用正电压对位线BL进行预充电、将数据传输到所选择的存储块以及从所选择的存储块接收数据，或者临时存储所传输的数据。

列解码器260可以向页面缓冲器250传输数据以及从页面缓冲器250接收数据，或者向输入/输出电路270传输数据以及从输入/输出电路270接收数据。

输入/输出电路270可以将从外部装置(例如，图1的存储器控制器100)接收的命令和地址传输到控制电路220，将数据从外部装置传输到列解码器260，或者通过输入/输出电路270将数据从列解码器260输出到外部装置。

控制电路220可以响应于命令和地址来控制外围电路。

图3是示出了根据本发明实施例的半导体存储器装置的存储块的电路图。例如，图3的存储块可以是图2所示的存储器单元阵列210的存储块211中的任意一个。

参照图3，存储块211可以包括联接到行解码器240的多条字线WL0至WLn-1、漏极选择线DSL和源极选择线SSL。这些线可以平行地布置，其中多条字线位于DSL和SSL之间。

存储块211可以进一步包括分别联接到位线BL0至BLm-1的多个单元串221。每一列的单元串可以包括一个或多个漏极选择晶体管DST以及一个或多个源极选择晶体管SST。在所示的实施例中，每个单元串具有一个DST和一个SST。在单元串中，多个存储器单元或存储器单元晶体管MC0至MCn-1可以在选择晶体管DST和SST之间串联联接。存储器单元中的每一个可以形成为存储一位数据的单层单元(SLC)、存储两位数据的多层单元(MLC)、存储三位数据的三层单元(TLC)或存储四位数据的四层单元(QLC)。

每个单元串中的SST的源极可以联接到公共源极线CSL，每个DST的漏极可以联接到相应的位线。单元串中的SST的栅极可以联接到SSL，单元串中的DST的栅极可以联接到DSL。不同单元串的存储器单元的栅极可以联接到各自的字线。也就是说，存储器单元MC0的栅极联接到相应的字线WL0，存储器单元MC1的栅极联接到相应的字线WL1，以此类推。联接到特定字线的一组存储器单元可以被称为一个物理页面。因此，存储块211中的物理页面的数量可以对应于字线的数量。

页面缓冲器阵列250可以包括联接到位线BL0至BLm-1的多个页面缓冲器251。页面缓冲器251可以响应于页面缓冲器控制信号来操作。例如，页面缓冲器251可以在读取操作或验证操作期间临时存储通过位线BL0至BLm-1接收的数据或感测位线的电压或电流。

在一些实施例中，存储块211可以包括NAND型闪速存储器单元。然而，存储块211不限于这种单元类型，而是可以包括NOR型闪速存储器单元。存储器单元阵列210可以被实施为两种或更多种类型的存储器单元组合的混合闪速存储器，或者被实施为控制器嵌入在存储器芯片内部的1-NAND闪速存储器。

图4是示出了根据本发明实施例的数据处理系统2的示图。

参照图4，数据处理系统2可以包括主机装置5和存储器系统10。存储器系统10可以包括存储器控制器100和存储器装置200。存储器控制器100可以包括固件(FW)，固件(FW)是用于控制存储器装置200的各种操作(例如，读取操作、写入操作和擦除操作)的一类特定的软件。在一些实施例中，固件可以驻留在存储装置110中，并且可以由图2中的控制组件120运行。

存储器装置200可以包括多个存储器单元(例如，NAND闪速存储器单元)。存储器单元以如图3所示的行和列的阵列形式布置。特定行中的单元连接到字线(例如，WL0)，特定列中的单元联接到位线(例如，BL0)。这些字线和位线用于读取操作和写入操作。在写入操作期间，在字线被指定(assert)时，在位线提供待写入的数据(“1”或“0”)。在读取操作期间，字线再次被指定，然后可以从位线获取每个单元的阈值电压。多个页面可以共享属于(即，联接到)同一字线的存储器单元。

在存储器系统10中，存储器控制器100可以执行与来自主机装置5的一个或多个工作负载相关联的操作。工作负载可以被定义为主机装置5的应用程序所生成的数据流(或命令)，这些数据流(或命令)被存储器系统10视为访问模式的集合。存储器系统10可以利用固态驱动器(SSD)来实施。根据以下报告，到2026年，SSD将占据企业存储容量的85％左右：David McIntyre“年度闪速控制器更新(Annual flash Controller Update)”，2019年闪速存储器峰会论文集(Flash Memory Summit 2019，FMS'19)。与硬盘驱动器(HDD)相比，基于闪存的存储装置在每位的成本方面也更具优势。然而，由于擦除/写入(EW)周期数量有限且逻辑到物理(L2P)映射复杂，因此SSD中的闪速存储器装置对输入工作负载的变化更为敏感。因此，工作负载分析对于闪速存储器装置(例如，NAND闪速存储器)的性能和可靠性提高变得很重要。

SSD的工作负载不仅限于空间特征(即，随机或顺序访问模式)，因此可以使用基于开发人员经验确定的多个特征进行描述。例如，工作负载分析过程可以依赖于多个特征，诸如命令的数量及其持续时间、访问段的特征、输入和输出请求、请求之间的间隔等。然而，即使是最详尽的特征集也可能不会考虑重要的工作负载特征。而且，某些特征可能与闪存转换层(FTL)算法无关，因此应排除在外。为了解决这些问题，提出了本发明的实施例。因此，实施例提供了一种存储器系统(例如，SSD(例如，NAND闪速存储器装置))中的工作负载的紧凑表示方案，其能够通过某些特征将工作负载分开。

根据实施例，图4的存储器控制器100可以提供一种用于输入工作负载的紧凑表示的编译器(即，编码器和解码器)及其编码和解码方法。由于工作负载可以被表示为时间序列并进一步被视为顺序数据，因此循环神经网络应该可以有效地处理这种数据。而且，工作负载的内部表示应该是紧凑的，以便存储在存储装置(例如，易失性存储器)中。因此，实施例提供基于循环神经网络模型的紧凑工作表示，并且循环神经网络(RNN)自动编码器已经被用作表示输入工作负载的模型，即包括编码器和解码器的编译器。模型的质量取决于训练集的多样性和大小。以下对循环神经网络模型和循环神经网络(RNN)自动编码器进行描述：T.Mikolov等，“连续空间词表示中的语言规律(Linguistic Regularities inContinuous Space Word Representation)”，2013年北美计算语言学分会会议论文集(Proceedings of the 2013 Conference of the North American Chapter ofAssociationfor Computational Linguistics)，第746-751页；以及N.Srivastava等，“使用LSTM进行视频表示的无监督学习(Unsupervised Learning of Video RepresentationsUsing LSTMs)”，第32届机器学习国际会议论文集(Proceedings of the 32ndinternational Conference on Machine Learning)，PMLR 37：843-852，2015年，它们各自的全部内容通过引用并入本文。输入工作负载的紧凑表示有助于FTL重新配置和更精确的FW参数调整。如果用于训练的数据集广泛且多样，则实施例将能够检测多种类型的不同工作负载。

图5是示出了根据本发明实施例的循环神经网络编译器500的示图。在一些情况下，循环神经网络编译器500可以提供紧凑的工作负载表示并且被称为循环神经网络(RNN)自动编码器。

参照图5，循环神经网络编译器500可以包括编码器510、存储装置520和解码器530。编码器510可以接收包括与存储器装置(例如，图4的存储器装置200)相关联的多个输入命令的输入工作负载。例如，输入工作负载是从图4的主机装置5接收的。在一些实施例中，工作负载可以表示为包括N个命令C₁至C_N的时间序列。每个命令C_i(其中1≤i≤N)可以具有至少两个特征，即命令类型(T_i)、逻辑块地址(LBA_i)。特征不限于上述两个特征。T_i是与可能的命令相对应的整数。例如，对于读取命令，T_i的值可以是0，对于写入命令，T_i的值可以是1，对于擦除命令，T_i的值可以是2。LBA_i也是来自一系列可能地址的整数。例如，LBA_i可以是范围从0至2³²-1的整数。

编码器510可以使用一组激活函数生成与多个输入命令相对应的紧凑表示向量。存储装置520可以联接到编码器510，并且可以存储紧凑表示向量。解码器530可以联接到存储装置520，并且可以从存储装置520接收紧凑表示向量。解码器530可以基于紧凑表示向量和多个输入命令来生成恢复命令。以下参照图6A至图7描述编码器510、存储装置520和解码器530的细节。

如图6A所示，编码器510和解码器530中的每一个可以利用包括第一循环块RB₁至第N循环块RB_N的多个循环块601-60N来实施。第一循环块RB₁至第N循环块RB_N级联连接。

图6B是示出图6A中的循环块的一般结构的示图。

参照图6B，具有索引i的循环块RB(RB_i)具有两个输入和两个输出。两个输入包括对应于前一单元RB_i-1的隐藏状态的隐藏状态向量h_i-1，以及对应于输入序列的元素的输入命令向量X_i。两个输出包括对应于RB_i的隐藏状态的隐藏状态向量h_i，以及对应于RB_i的输出值的输出向量Y_i。在一些实施例中，向量X_i对应于输入工作负载的命令，向量Y_i对应于输入工作负载的恢复或预测命令。每个RB共享三个权重矩阵W_Y、W_h和W_X。Rb的输出计算如列表1所示：

列表1：

参考列表1，对第一输入命令X_i和第一权重矩阵W_X的组合X_iW_X执行激活函数f(X_iW_X)以生成第一向量。在一些实施例中，激活函数包括双曲正切函数

sigmoid函数

和修正线性单元(ReLU)函数f(x)＝x⁺＝max(0，x)中的一个。

对前一隐藏状态向量h_i-1和第二权重矩阵W_h的组合执行激活函数f(h_i-1W_h)以生成第二向量。在一些实施例中，此处的激活函数可以与前一个激活函数不同。

可以对第一向量和第二向量之和f(X_iW_X)+f(h_i-1W_h)执行激活函数f(f(X_iW_X)+f(h_i- ₁W_h))以生成隐藏状态向量h_i。

对隐藏状态向量h_i和第三权重矩阵W_Y的组合进行激活函数f(h_iW_Y)可以生成输出向量Y_i＝f(h_iW_Y)。

在一些实施例中，所描述的RB可以以不同的方式实施，包括门控循环单元(GRU)和/或长短期记忆(LSTM)，如以下所描述的：J.Chung等，“门控循环神经网络对序列建模的实证评估(Empirical Evaluation of Gated Recurrent Neural Networks on SequenceModeling)”，NIPS 2014深度学习研讨会(NIPS 2014Workshop on Deep Learning)，2014年12月。

图7是示出了图5的循环神经网络编译器的细节的示图。

参照图7，循环神经网络编译器可以包括编码器510、存储装置520和解码器530，并且可以利用2N个循环块(RB)来实施，以便根据输入工作负载生成紧凑的表示向量R。

编码器510可以学习包括N个命令C₁-C_N的工作负载的内部表示向量R。在一些实施例中，某些工作负载可能比N个命令更短或更长，因此工作负载应该被填充(即，额外的虚拟命令被添加到工作负载)或被剪切(即，最后的命令从工作负载中移除)。可以使用具有权重矩阵W^e _X、W^e _h、W^e _Y的N个循环块(RB)将工作负载转换为紧凑表示R。每个RB可以接收两个输入(即，来自前一循环块的前一隐藏状态向量h^e _i-1，以及命令C_i)，并且可以输出两个值(即，命令

和加权隐藏状态向量h^e _i)。矩阵W^e _Y可能是不可训练的，因为编码器510从输入工作负载中积累信息并且不预测或恢复任意命令。因此，输出命令总是等于零向量。

在图7所示的示例中，编码器510可以包括多个循环编码块RB^e ₁-RB^e _N。每个循环编码块被配置为接收多个输入命令中的一个C_i，并通过将一组激活函数f应用于接收到的输入命令来生成与接收到的输入命令相对应的隐藏状态向量h^e _i。多个循环编码块之中的最后编码块RB^e _N可以生成最终隐藏状态向量h^e _N作为紧凑表示向量R。

第一编码块RB^e ₁被配置为：接收多个输入命令之中的第一输入命令C₁；对第一输入命令C₁和第一权重矩阵W^e _X的组合执行激活函数f以生成第一向量f(C₁W^e _X)；对初始隐藏状态向量h^e ₀和第二权重矩阵W^e _h的组合执行激活函数以生成第二向量f(h^e ₀W^e _h)；对第一向量和第二向量之和执行激活函数以生成第一隐藏状态向量h^e ₁；并且对第一隐藏状态向量h^e ₁和第三权重矩阵W^e _Y的组合执行激活函数以生成第一输出向量

在一些实施例中，初始隐藏状态向量h^e ₀的值可以是0，第一输出向量

的值可以是0。

第二编码块RB^e ₂被配置为：接收多个输入命令之中的第二输入命令C₂；对第二输入命令C₂和第一权重矩阵W^e _X的组合执行激活函数f以生成第三向量f(C₂W^e _X)；对第一隐藏状态向量h^e ₁和第二权重矩阵W^e _h的组合执行激活函数以生成第四向量f(h^e ₁W^e _h)；对第三向量和第四向量之和执行激活函数以生成第二隐藏状态向量h^e ₂；并且对第二隐藏状态向量h^e ₂和第三权重矩阵W^e _Y的组合执行激活函数以生成第二输出向量

在一些实施例中，第二输出向量

的值可以是0。

多个循环编码块之中的剩余编码块可以执行与第一编码块RB^e ₁和第二编码块RB^e ₂类似的操作。多个循环编码块之中的最后编码块RB^e _N可以生成最终隐藏状态向量h^e _N作为紧凑表示向量R。紧凑表示向量R可以存储在存储装置520中。在一些实施例中，存储装置520可以是易失性存储器，例如随机存取存储器(RAM)。

解码器530可以从存储装置520接收紧凑表示向量R，并且基于紧凑表示向量R和多个输入命令C₁-C_N生成恢复命令

解码器530可以恢复工作负载命令

其可以不与原始工作负载完全相同。解码器530的结构可以与编码器510对称，但在输入命令方面具有相反顺序的级联连接结构。解码器530可以利用具有权重矩阵W^d _X、W^d _h、W^d _Y的N个RB单元来处理紧凑表示向量R，但是按从最后一条至第一条命令的降序进行。也就是说，多个解码块RB^d ₁-RB^d _N之中的最后解码块RB^d _N可以位于解码器530的第一位置，第一解码块RB^d ₁可以位于解码器530的最后位置。在一些实施例中，第一输入命令C_N可以与零向量相同，因为该命令应该从紧凑表示向量R恢复。在一些实施例中，权重矩阵W^d _X、W^d _h、W^d _Y分别与权重矩阵W^e _X、W^e _h、W^e _Y相同或不同。

在图7所示的示例中，最后解码块RB^d _N被配置为：接收多个输入命令C₁-C_N之中的最后输入命令C_N和紧凑表示向量R；对最后输入命令C_N和第一权重矩阵W^d _X的组合执行激活函数f以生成第一向量f(C_NW^d _X)；对作为输入隐藏状态向量h^e _N的紧凑表示向量R和第二权重矩阵W^d _h的组合执行激活函数以生成第二向量f(h^e _NW^d _h)；对第一向量和第二向量之和执行激活函数以生成最后隐藏状态向量h^d _N；并且对最后隐藏状态向量h^d _N和第三权重矩阵W^d _Y的组合执行激活函数以生成最后输出向量

第二解码块RB^d ₂被配置为：接收多个输入命令C₁-C_N之中的第二输入命令C₂；对第二输入命令C₂和第一权重矩阵W^d _X的组合执行激活函数f以生成第三向量f(C₂W^d _X)；对从第三解码块RB^d ₃接收的第二隐藏状态向量h^d ₃和第二权重矩阵W^d _h的组合执行激活函数以生成第四向量f(h^d ₃W^d _h)；对第三向量和第四向量之和执行激活函数以生成第二隐藏状态向量h^d ₂；并且对第二隐藏状态向量和第三权重矩阵的组合执行激活函数以生成第二输出向量

第一解码块RB^d ₁被配置为：接收多个输入命令C₁-C_N之中的第一输入命令C₁；对第一输入命令C₁和第一权重矩阵W^d _X的组合执行激活函数f以生成第三向量f(C₁W^d _X)；对从第二解码块RB^d ₂接收的第二隐藏状态向量h^d ₂和第二权重矩阵W^d _h的组合执行激活函数以生成第四向量f(h^d ₂W^d _h)；对第三向量和第四向量之和执行激活函数以生成第一隐藏状态向量h^d ₁；并且对第一隐藏状态向量和第三权重矩阵的组合执行激活函数以生成第一输出向量

图7中的RNN编译器的模型可以使用包含M个工作负载的数据集进行训练，这些工作负载可以具有不同的特征。训练过程可以调整权重矩阵W^e _X、W^e _h、W^e _Y、W^d _X、W^d _h、W^d _Y，使得源工作负载(C₁，C₂，……，C_N)和恢复的工作负载

之间的差异被最小化。训练过程中可以使用诸如梯度下降、RMSProp、Adam等的不同优化算法。模型可以具有两个超参数N和d。N表示编码器和解码器中RB的数量，d表示目标紧凑工作负载表示向量R的维度。

图8是示出了根据本发明实施例的循环神经网络编译器500的示图。

参照图8，除了图5中的编码器510、存储装置520和解码器530之外，循环神经网络编译器500还可以包括预测器540。预测器540可以预测输入工作负载后的接下来的K个命令并生成预测命令。

图9是示出了图8的循环神经网络编译器500的细节的示图。循环神经网络编译器500中的编码器510和解码器530可以具有与图7所示相同的结构。

参照图9，预测器540可以包括多个循环预测块RB^p ₁-RB^p _K。预测器540可以接收紧凑表示向量R，并且基于紧凑表示向量R和多个输入命令之中的最后输入命令C_N生成预测命令

多个循环预测块可以包括第一预测块RB^p ₁至最后预测块RB^p _K，它们具有升序(即，从第一预测块至最后预测块)的级联连接结构。

第一预测块RB^p ₁被配置为：从存储装置520接收多个输入命令之中的最后输入命令C_N和紧凑表示向量R；对最后输入命令

和第一权重矩阵W^p _X的组合执行激活函数f以生成第一向量

对紧凑表示向量R(＝h^e _N)和第二权重矩阵W^p _h的组合执行激活函数以生成第二向量f(h^e _NW^p _h)；对第一向量和第二向量之和执行激活函数以生成第一隐藏状态向量h^p ₁；并且对第一隐藏状态向量h^p ₁和第三权重矩阵W^p _Y的组合执行激活函数以生成第一输出向量

作为最后输入命令之后的第一预测命令。

第二预测块RB^p ₂被配置为：接收第一预测命令

和第一隐藏状态向量h^p ₁；对第一预测命令

和第一权重矩阵W^p _X的组合执行激活函数f以生成第三向量

对第一隐藏状态向量h^p ₁和第二权重矩阵W^p _h的组合执行激活函数以生成第四向量f(h^p ₁W^p _h)；对第三向量和第四向量之和执行激活函数以生成第二隐藏状态向量h^p ₂；并且对第二隐藏状态向量h^p ₂和第三权重矩阵W^p _Y的组合执行激活函数以生成第二输出向量

作为第一预测命令

之后的第二预测命令。

多个循环预测块之中的剩余预测块可以执行与第一预测块RB^p ₁和第二预测块RB^p ₂类似的操作。多个循环预测块之中的最后预测块RB^p _K可以生成最终隐藏状态向量h^p _K。

因此，预测器540需要额外的K个RB和权重矩阵W^p _X、W^p _h、W^p _Y。在一些实施例中，权重矩阵Wp_X、W^p _h、W^p _Y分别与权重矩阵W^e _X、We_h、W^e _Y相同或不同。预测器540的输出是输入工作负载C₁-C_N的命令后的接下来的K个命令

每个预测命令作为输入命令输入下一个RB。因此，预测并生成了输入工作负载后的接下来的K个命令

以下描述根据实施例的循环神经网络(RNN)编译器的实施方案的示例。

值得注意的是，用于紧凑工作负载表示的循环神经网络(RNN)编译器已使用长短期记忆(LSTM)循环块实施，并在包含M＝900个合成工作负载、N＝10,000个命令的每个数据集上进行测试。

数据集有9种类型(每种类型具有100个样本)的工作负载，这些负载基于如下两个参数生成：队列深度(QD)和读取/写入比率(RWR)，RWR表示工作负载中读取与写入命令的比率。所有工作负载是随机的，列表2中示出了9种工作负载类型：

列表2：

数据集中的工作负载已经表示为d＝25维向量。这些向量已经通过降维算法(例如，t-SNE算法)进行了处理，以便在三维(3-D)空间中对其进行可视化。以下对t-SNE算法的一种实施方案进行了描述：Laurens van der Maaten和Geoffrey Hinton，“使用t-SNE可视化数据(Visualizing Data using t-SNE)”，机器学习研究杂志9(Journal of MachineLearning Research 9)，第2579-2605页，2008年。为了清楚起见，仅仅绘制了90个点(每个工作负载类型10个)，因为每个工作负载类型的密度很高，另外810个点将妨碍点之间的图形分开。由循环神经网络编译器紧凑和可视化的工作负载的数据集如图10所示。

列表3示出了工作负载被转换为25维向量(即，紧凑表示向量)的示例：

列表3：

每种工作负载类型的中心之间的平均欧几里德距离(Average EuclideanDistance)如表1所示：

表1：

	W1	W<sub>2</sub>	W<sub>3</sub>	W<sub>4</sub>	W<sub>5</sub>	W<sub>6</sub>	W<sub>7</sub>	W<sub>8</sub>	W<sub>9</sub>
										W1	0.0000	0.7894	0.5607	0.0005	0.7894	0.5908	0.0003	0.7893	0.5800
W2	0.7894	0.0000	0.2307	0.7894	0.0002	0.2002	0.7894	0.0002	0.2109
										W3	0.5607	0.2307	0.0000	0.5607	0.2307	0.0305	0.5607	0.2307	0.0199
W4	0.0005	0.7894	0.5607	0.0000	0.7894	0.5908	0.0002	0.7894	0.5800
										W5	0.7894	0.0002	0.2307	0.7894	0.0000	0.2002	0.7894	0.0001	0.2109
W6	0.5908	0.2002	0.0305	0.5908	0.2002	0.0000	0.5908	0.2002	0.0108
										W7	0.0003	0.7894	0.5607	0.0002	0.7894	0.5908	0.0000	0.7894	0.5800
W8	0.7893	0.0002	0.2307	0.7894	0.0001	0.2002	0.7894	0.0000	0.2102
										W9	0.5800	0.2109	0.0199	0.5800	0.2109	0.0108	0.5800	0.2102	0.0000

如图10和表1所示，工作负载大多由一定的读取/写入比率(RWR)分开。例如，(W₁，W₄，W₇)通过RWR＝0/100分开，(W₂，W₅，W₈)通过RWR＝100/0分开，并且(W₃，W₆，W₉)通过RWR＝70/30分开。最后一组(W₃、W₆、W₉)更加多样化，队列深度特征的影响更大。因此，可以看出，根据实施例的紧凑工作负载表示方案可以通过重要的特征将工作负载分开并估计NAND闪存装置中的输入工作负载之间的差异。

如上所述，实施例提供一种紧凑工作负载表示方案以通过重要的特征将工作负载分开并估计输入工作负载之间的差异。实施例可以有助于FTL重新配置和更精确的FW参数调整。如果用于训练的数据集广泛且多样，则实施例将能够检测多种类型的不同工作负载。

尽管为了清楚和理解的目的已经详细地示出和描述了前述实施例，但是本发明不限于所提供的细节。如本领域技术人员根据前述公开内容将理解的，存在许多实施本发明的替代方式。因此，所公开的实施例是示例性的，而非限制性的。本发明旨在涵盖落入所附权利要求范围内的所有修改方案和替代方案。

Claims

1.一种系统，包括：

存储器装置；以及

控制器，所述控制器包括循环神经网络编译器，所述循环神经网络编译器包括具有多个循环编码块的编码器，所述多个循环编码块包括第一编码块至最后编码块，

其中每个循环编码块：

接收与所述存储器装置相关联的输入工作负载中的多个输入命令中的一个；以及

通过将一组激活函数应用于接收到的输入命令，生成与所述接收到的输入命令相对应的隐藏状态向量，并且

其中所述最后编码块生成最终的隐藏状态向量作为紧凑表示向量。

2.根据权利要求1所述的系统，其中，所述一组激活函数之中的激活函数包括双曲正切函数、sigmoid函数和修正线性单元函数中的一个。

3.根据权利要求1所述的系统，其中，所述第一编码块至所述最后编码块级联连接。

4.根据权利要求3所述的系统，其中，所述第一编码块：

接收所述多个输入命令之中的第一输入命令；

对所述第一输入命令与第一权重矩阵的组合执行所述激活函数以生成第一向量；

对初始隐藏状态向量与第二权重矩阵的组合执行所述激活函数以生成第二向量；

对所述第一向量与所述第二向量之和执行所述激活函数以生成第一隐藏状态向量；并且

对所述第一隐藏状态向量与第三权重矩阵的组合执行所述激活函数以生成第一输出向量。

5.根据权利要求4所述的系统，其中，所述多个循环编码块之中的第二编码块：

接收所述多个输入命令之中的第二输入命令；

对所述第二输入命令与所述第一权重矩阵的组合执行所述激活函数以生成第三向量；

对所述第一隐藏状态向量与所述第二权重矩阵的组合执行所述激活函数以生成第四向量；

对所述第三向量与所述第四向量之和执行所述激活函数以生成第二隐藏状态向量；并且

对所述第二隐藏状态向量与所述第三权重矩阵的组合执行所述激活函数以生成第二输出向量。

6.根据权利要求1所述的系统，其中，所述循环神经网络编译器进一步包括：

存储装置，所述存储装置联接到所述最后编码块并存储所述紧凑表示向量；以及

解码器，所述解码器包括多个循环解码块，并且接收所述紧凑表示向量并基于所述紧凑表示向量和所述多个输入命令生成恢复命令。

7.根据权利要求6所述的系统，其中，所述多个循环解码块包括第一解码块至最后解码块，所述第一解码块至所述最后解码块与所述第一编码块至所述最后编码块对称并具有降序的级联连接结构。

8.根据权利要求7所述的系统，其中，所述最后解码块，

接收所述多个输入命令之中的最后输入命令与所述紧凑表示向量；

对所述最后输入命令与第一权重矩阵的组合执行所述激活函数以生成第一向量；

对所述紧凑表示向量与第二权重矩阵的组合执行所述激活函数以生成第二向量；

对所述第一向量与所述第二向量之和执行所述激活函数以生成最后隐藏状态向量；并且

对所述最后隐藏状态向量与第三权重矩阵的组合执行所述激活函数以生成最后输出向量。

9.根据权利要求8所述的系统，其中，所述第一解码块：

接收所述多个输入命令之中的第一输入命令；

对所述第一输入命令与所述第一权重矩阵的组合执行所述激活函数以生成第三向量；

对从第二解码块接收的第二隐藏状态向量与所述第二权重矩阵的组合执行所述激活函数以生成第四向量；

对所述第三向量与所述第四向量之和执行所述激活函数以生成第一隐藏状态向量；并且

对所述第一隐藏状态向量与所述第三权重矩阵的组合执行所述激活函数以生成第一输出向量。

10.根据权利要求8所述的系统，其中，所述第一权重矩阵、所述第二权重矩阵和所述第三权重矩阵被训练成使得所述多个输入命令和恢复命令之间的差异被最小化。

11.根据权利要求6所述的系统，进一步包括：

预测器，所述预测器包括多个循环预测块，并且接收所述紧凑表示向量并基于所述紧凑表示向量和所述多个输入命令之中的最后输入命令生成预测命令，

其中所述多个循环预测块包括第一预测块至最后预测块，所述第一预测块至所述最后预测块具有升序的级联连接结构。

12.根据权利要求11所述的系统，其中，所述第一预测块：

对所述第一隐藏状态向量与第三权重矩阵的组合执行所述激活函数以生成第一输出向量，作为所述最后输入命令之后的第一预测命令。

13.根据权利要求12所述的系统，其中，所述第二预测块：

接收所述第一预测命令与所述第一隐藏状态向量；

对所述第一预测命令与所述第一权重矩阵的组合执行所述激活函数以生成第三向量；

对所述第二隐藏状态向量与所述第三权重矩阵的组合执行所述激活函数以生成第二输出向量，作为所述第一预测命令之后的第二预测命令。

14.根据权利要求11所述的系统，其中，所述循环编码块、所述循环解码块和所述循环预测块以不同的方式实施。

15.一种用于操作存储器系统的控制器的方法，所述方法包括：

提供循环神经网络编译器，所述循环神经网络编译器包括具有多个循环编码块的编码器；

每个循环编码块接收与所述存储器系统的存储器装置相关联的输入工作负载中的多个输入命令中的一个；并且

每个循环编码块通过将一组激活函数应用于接收到的输入命令，生成与所述接收到的输入命令相对应的隐藏状态向量，

其中所述多个循环编码块之中的最后编码块生成最终的隐藏状态向量作为与所述多个输入命令相对应的紧凑表示向量。

16.根据权利要求15所述的方法，其中，所述一组激活函数之中的激活函数包括双曲正切函数、sigmoid函数和修正线性单元函数中的一个，并且

其中所述第一编码块至所述最后编码块级联连接。

17.根据权利要求15所述的方法，进一步包括：

提供存储装置与解码器，所述存储装置联接到所述最后编码块并存储所述紧凑表示向量，所述解码器包括多个循环解码块，并且接收所述紧凑表示向量并基于所述紧凑表示向量和所述多个输入命令生成恢复命令。

18.根据权利要求17所述的方法，其中，所述多个循环解码块包括第一解码块至最后解码块，所述第一解码块至所述最后解码块与所述第一编码块至所述最后编码块对称并具有降序的级联连接结构。

19.根据权利要求17所述的方法，其中，生成与所述接收到的输入命令相对应的隐藏状态向量包括对所述接收到的输入命令与设置的一个或多个矩阵的组合执行所述激活函数，其中所述设置的一个或多个矩阵被训练成使得所述多个输入命令和所述恢复命令之间的差异被最小化。

20.根据权利要求17所述的方法，进一步包括：

提供预测器，所述预测器包括多个循环预测块，并且接收所述紧凑表示向量并基于所述紧凑表示向量和所述多个输入命令之中的最后输入命令生成预测命令，

其中所述多个循环预测块包括第一预测块至最后预测块，所述第一预测块至所述最后预测块具有升序的级联连接结构，并且

其中所述循环编码块、所述循环解码块和所述循环预测块以不同的方式实施。