CN113487025B

CN113487025B - 面向神经网络检查点数据的智能压缩存储方法和系统

Info

Publication number: CN113487025B
Application number: CN202110749499.6A
Authority: CN
Inventors: 何水兵; 陈平; 洪佩怡; 张寅�; 陈刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-09-08
Anticipated expiration: 2041-07-02
Also published as: CN113487025A

Abstract

本发明提供了一种面向神经网络检查点数据的智能压缩存储方法，所述神经网络检查点数据包括权重浮点数数据和优化器浮点数数据；该方法具体为：利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储；和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储。其中，索引值的位数小于n。本发明利用深度学习检查点数据的特征并结合模型训练流程，设计了智能压缩方法与系统，对检查点不同类别数据高效压缩，从而有效提高了存储系统的存储量和寿命。

Description

面向神经网络检查点数据的智能压缩存储方法和系统

技术领域

本发明涉及计算机科学人工智能领域，尤其涉及一种针对于神经网络检查点数据的智能压缩方法及系统。

背景技术

深度学习技术的革新大大推动了计算机视觉，自然语言处理，医学等领域的发展，并在学术界和工业界都受到了极大的关注。为了获得较高的准确率，深度学习模型需要训练很长时间进行迭代更新。在模型训练过程中会产生大量的参数(部分模型能达到GB甚至TB级别的数据量)，而训练过程一旦崩溃，则需要重新启动任务。为了防止数据丢失，深度学习模型训练的参数需要以检查点的形式周期性地存储到高速持久设备中(包括SSD以及非易失性内存)。然而大量的参数持久化操作会使得设备面临严重的寿命问题，因此如何针对深度学习检查点数据设计一种智能压缩方法及系统，以降低检查点数据的写入量，变得尤为重要。

发明内容

为了解决大量检查点写操作而引起的设备寿命不足的问题，本发明提出一种针对检查点数据的智能压缩方法及系统，通过设计不同的机制对检查点文件中不同类别的浮点数据进行压缩，以降低持久设备的数据写入量，缓解设备的寿命损耗情况。

本发明针对的场景为使用GPU进行模型训练，并使用快速持久性设备(SSD或者非易失性内存)对检查点文件进行保存，采用的技术方案具体为：

一种面向神经网络检查点数据的智能压缩存储方法，其中，所述神经网络检查点数据包括权重浮点数数据和优化器浮点数数据；该方法具体为：

利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储；

和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储。其中，索引值的位数小于n。

具体地，在深度学习训练过程中权重浮点数数据满足如下更新规则：

W_i＝W_i-1+ΔW_i

其中，W_i表示第i轮的所有权重浮点数数据集合；W_i-1表示第i-1轮的所有权重浮点数数据集合；ΔW_i表示第i轮的梯度更新值。在深度学习计算过程中，每一轮需要更新的ΔW_i值较小，即针对同一层的权重浮点数数据，当前轮浮点数与上一轮浮点数在数值上变化较小，在浮点数的表示格式下，大部分比特位数并没有变化，从而可以使用增量压缩的方式，即保存一份基准检查点文件，后续检查点文件仅保存异或后的增量文件(增量文件远小于原始文件)。

优化器浮点数数据与权重参数数量相同，用于存储深度学习优化器中的动量(momentum)数据，由于该数据没有权重一样的增量特性，所以不能套用增量压缩。然而此类数据的值较小，且分布极其均匀。优化器浮点数数据使用浮点数格式，所有浮点数的前n位仅有少量的表示模式，从而可以使用少量位数的索引值h来代替前n位数据(h<n)，进行模式映射压缩方案，降低数据的存储量。

当系统崩溃时，系统会从持久介质中读入权重浮点数数据以及优化器浮点数数据。对于权重浮点数数据，系统会加载基准检查点文件以及每轮存储的数据，并使用链式运算进行恢复。对于优化器浮点数数据，系统会加载压缩后的数据，并根据各个浮点数的索引值进行数据恢复。

进一步地，所述利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储，具体为：

将神经网络每轮训练后的所有权重浮点数数据与上一轮训练后的权重浮点数数据按位异或操作获取每轮权重浮点数数据的增量文件压缩并存储，同时定期保存一份权重浮点数数据作为数据解压缩恢复的基准检查点文件。

进一步地，所述增量文件表示为：

其中，i表示训练轮数，为按位异或操作；W_i为第i轮的所有浮点数数据集合。

压缩后每个权重浮点数数据表示为：c＝z+r；其中z是一个s位二进制数，表示该权重浮点数数据按位异或操作后的前导0个数k；r是一个(32-k)位二进制数，表示重浮点数数据去掉前k位后的值，+表示拼接。

其中，每轮存储的数据包括每个权重浮点数数据压缩后的数据c和二进制数的位数s。s根据该轮训练所有权重浮点数数据的按位异或操作后的最大前导0个数m确定。

进一步地，若该轮训练所有权重浮点数数据的按位异或操作后的最大前导0个数k为32时，采用k＝31，r＝1的方式进行压缩。

进一步地，利用索引值映射代替神经网络每轮训练后的优化器浮点数数据的前n位后进行存储，具体为：

建立优化器浮点数数据的前n位数据与索引值的映射表；

根据建立的映射表将每轮训练后的优化器浮点数数据的前n位进行索引值映射代替后存储。其中，若索引值的位数大于n则不替换压缩。

进一步地，所述n取值为9～14，针对不同的n，选择压缩率最高的一种情况。

进一步地，还包括删除优化器浮点数数据的最后一位，数据恢复时以0补全。

根据相同的发明思路，本发明还提供了一种面向神经网络检查点数据的智能压缩存储系统，包括数据压缩/解压缩模块和检查点数据保存模块。其中，所述数据压缩/解压缩模块的输入端与模型训练系统相连，用于实时获取神经网络每轮训练后的检查点数据，并利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储至检查点数据保存模块；和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储至检查点数据保存模块。其中，索引值的位数小于n。

本发明的有益效果是：本发明提出了一种面向神经网络检查点数据的智能压缩存储方法，利用深度学习检查点数据的特征并结合模型训练流程，设计了智能压缩方案与系统，对检查点不同类别数据高效压缩，减少数据写入量，从而有效提高了存储系统的存储量和寿命。

附图说明

图1为本发明的执行流程图，其中①②③为检查点保存过程，①'②'③'为检查点恢复过程。

图2为浮点数IEEE 754格式表示图。

图3为权重浮点数相同位数统计图。本图展示了8个层(layer1～layer8)在第1～10轮训练中，与上一轮对应浮点数的高位连续相同位数个数(即从符号位开始，连续相同的位数个数)。每一层有多个浮点数，便于展示，对它们的相同位数个数取平均值。

图4为权重浮点数增量压缩示意图。

图5为优化器浮点数前n位特征数量。本图表示了AlexNet模型在训练过程中某一轮优化器浮点数数据前n位的特征数量。

图6优化器浮点数前n位特征哈夫曼编码示意图。

图7为优化器浮点数模式映射压缩示意图(索引开销小于节省位数)。

图8为优化器浮点数模式映射压缩示意图(索引开销大于节省位数)。

图9为系统架构模块图。

具体实施方式

本发明提出了一种面向神经网络检查点数据的智能压缩存储方法，具体为：

利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储；和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储。其中，索引值的位数小于n。

下面根据附图结合具体的实施例对本发明作进一步说明：

本发明所述的智能压缩方法具体包括以下步骤：

步骤一：当深度学习一轮训练结束后，系统会在GPU显存中开辟一块新的空间，并将权重浮点数数据以及优化器浮点数数据拷贝至该区域。

步骤二：系统进行下一轮训练任务的同时，将检查点数据(包括权重浮点数数据以及优化器浮点数数据)异步转移至主机端内存中，该过程不影响训练的正常运行。

步骤三：当原始检查点数据存入内存后，使用CPU有针对性地对权重浮点数数据进行增量压缩，或/和对优化器浮点数数据进行模式映射压缩，下面为具体的压缩过程：

权重浮点数数据增量压缩：

图3表明当前训练与上一轮训练之间深度学习模型的浮点数参数值之间存在大量的相同比特位，为增量压缩提供了可行性。图4为权重浮点数数据增量压缩示意图。具体来说，该压缩操作可分为以下子步骤：

1)如果基准文件还未保存，则先将基准文件保存到持久性存储设备中(SSD、HDD或者非易失性内存)。

2)扫描所有需要进行压缩的权重浮点数，将其与上一轮训练的权重浮点数参数一一对应地做按位异或运算，并记录异或运算结果的前导0个数。由图3可知，由于相邻两次训练中，权重浮点数的变化值并不大，因此其二进制表示的高位中存在大量连续相同位(符号位、指数、尾数的高位)。这些连续相同位在按位异或运算后体现为连续前导0。如图4所示，0.25与0.27的IEEE754表示中高位有12位连续相同位；异或后，连续前导0个数为12。

3)比较得到所有浮点数中连续前导0的最大个数m，得出可以表示m的最小二进制位数s。因此，s位二进制数足以表示该轮所有异或运算后的浮点数的前导0个数。

4)将浮点数一一进行压缩，压缩后二进制形式为c＝z+r。其中z是一个s位二进制数，表示该浮点数与上一轮浮点数异或运算后的前导0的个数k；r是一个(32-k)位二进制数，表示该浮点数去掉前k位后的值。+表示拼接。c共占s+(32-k)位。

5)为了进一步降低索引位z的开销，我们特殊考虑s＝6的情况。当存在某个浮点数与上一轮对应的浮点数完全相同，即k＝32，r为0位时，为了存储数值32，需要6位(即s＝6)；而k的最大值为32，这就使得s＝6与s＝5相比，仅是为了多表示k＝32这一种情况。为了进一步提升压缩率，当k＝32时，视为k＝31，r为1位，从而使得s最大值为5；则若其余浮点数的k不为32时，可进一步节约1位的空间。

6)先存储s，再按序存储压缩后的浮点数，并写入到持久性存储设备中。

优化器浮点数数据模式映射压缩：

优化器浮点数数据用于存储深度学习训练过程中的动量信息，其数值分布在-1到1之间，数据与数据之间的差别较小。在IEEE 754的浮点数表示格式中(如图2所示)，这种类似数据的前n位(共32位)存在大量的相似情况，如图5表示了AlexNet模型在训练过程中某一轮优化器浮点数数据前n位的特征数量图，实验共包括57823240个优化器浮点数，当n从9增加到14，其前n位的模式(pattern)数量从12增加到377个。由于所有浮点数只共享较少的模式，所以本发明扫描当前所有优化器浮点数，并建立映射表利用少量位数做索引来代替原始数据的前n位，该操作可分为以下子步骤：

1)定义n为优化器浮点数的前n位，系统依次将n赋值为9～14(根据IEEE754格式以及优化器浮点数数据范围等经验表明，当n的值为9～14位时，压缩效果较好，n过小导致节省的位数少，压缩效果不明显；n过大导致模式数量多，索引开销大)，并扫描所有优化器浮点数数据，统计所有模式对应的浮点数数量，并使用哈夫曼树对模式进行编码，如图6所示；

2)根据编码建立模式映射表，系统依次对浮点数做处理。此时进行判断，若索引所需位数小于n，则使用索引位替换原数据前n位(替换后可以节省空间)，并去除尾数最末位，并在浮点数首位即最左侧添加压缩标记为1。如图7所示，首先建立索引表(第①步)，需要压缩的浮点数0.123前11位为00111101111(第②步)，通过查表得到其索引为0，之后使用1位比特数0代替11位(第③步)。第④步中，去除0.123浮点数的最后一位0，并在压缩后数据的首位添加压缩标志位1；

3)若索引位数大于n，则仅删除尾数最后一位(尾数为最后一位对浮点数本身影响较小，所以选择删除该位)，并在浮点数最左侧添加未压缩标记为0。如图8所示，若0.123浮点数的前11位索引开销大于11(压缩反而会使得存储空间增大)，此时选择不进行替换(第③步)，并去掉0.123最末位0，并在第④步时在首位添加未压缩标记为0；

4)针对不同的n(9～14)，我们通过对n进行遍历，并选择压缩率最高的一种情况；

5)将压缩后数据以追加的形式存储到一块连续地址中，并写入持久性存储设备。同时，索引映射表以及最终n的值同时保存在持久化到持久设备中，方便解压缩操作；

步骤四：数据恢复(解压缩)包括以下子步骤：

权重浮点数数据恢复：

1)将基准文件以二进制形式从持久性存储设备读入内存。

2)将s及压缩后的浮点数以二进制形式从持久性存储设备读入内存。

3)一一解压浮点数。首先读取前s位，获取k；再读取接下来的32-k位，获取r值。得到解压后的浮点数uc＝uz+r。其中uz为基准文件对应浮点数的前k位。+号表示拼接。

4)该轮训练的权重浮点数数据恢复后，即作为下一轮训练权重浮点数数据恢复时的基准文件，下一轮训练的权重浮点数数据恢复重复步骤2)和3)，直至恢复所有数据。

优化器浮点数数据恢复：

1)将压缩后的数据、映射表与n值从持久性存储设备读入内存；

2)首先顺序按位读取压缩后的数据，首位为第一个浮点数压缩标记，如果该位为0，则说明该数据未被压缩，直接向后读取31位，末尾补0以还原浮点数；若为1，则从映射表中匹配索引，找到还原后数据对应的前n位的具体值，之后再顺序读取(31-n)位，之后将上述数据拼接并在末尾补0，还原为32位浮点数。

3)下一位浮点数的还原参考步骤2，顺序还原所有数据。

图9为本发明提出的一种向神经网络检查点数据的智能压缩存储系统，包括数据压缩/解压缩模块和检查点数据保存模块(如持久性存储设备等)。其中，所述数据压缩/解压缩模块的输入端与模型训练系统相连，用于实时获取神经网络每轮训练后的检查点数据，并利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储至检查点数据保存模块；和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储至检查点数据保存模块。其中，索引值的位数小于n。

当系统崩溃时，数据压缩/解压缩模块从检查点数据保存模块中读入每轮存储的数据进行数据恢复，其中，对于权重浮点数数据，数据压缩/解压缩模块从检查点数据保存模块中读入基准检查点文件以及每轮存储的数据，并使用链式运算进行恢复。对于优化器浮点数数据，数据压缩/解压缩模块从检查点数据保存模块中读入压缩后的数据，并根据各个浮点数的索引值进行数据恢复。

有益效果

由于传统深度学习检查点方案需要向持久性存储设备中写入大量的数据，严重影响了持久性存储设备的寿命。本发明利用深度学习检查点数据的特征并结合模型训练流程，设计了智能压缩方案与系统，对检查点不同类别数据高效压缩。

具体实验如下：

实验配置：

(1)操作系统：Ubuntu 18.04.3LTS；

(2)CPU：型号为8核Intel(R)Xeon(R)Gold 6126CPU@2.60GHz，配有32GB DRAM；

(3)GPU：Tesla V100 32GB显存；

(4)存储设备：512GB，SK hynix SC311 SATA SSD；Western Digital WDCWD40EZRZ-75G HDD；Intel Optane NVM 256GB；

模型配置：

(1)模型：AlexNet PyTorch标准代码；

(2)数据集：ImageNet，包含14197122张彩色图像，大小为224*224，分为21841个类别；

(3)Batch大小：64张图片/批次；

(4)训练轮数：60轮(epoch)；

最终测试结果：

不采用本发明的压缩方法，每一轮保存的数据为460MB；训练AlexNet模型至收敛共需要保存模型参数40GB；采用本发明方法平均每一轮保存的数据需要360MB，最少保存量仅为240MB，将AlexNet模型训练至收敛则仅需要保存模型参数32GB，从而增加了设备20％以上的寿命。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种面向神经网络检查点数据的智能压缩存储方法，所述神经网络检查点数据包括权重浮点数数据和优化器浮点数数据；其特征在于，该方法具体为：

和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储；其中，索引值的位数小于n；

所述利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储，具体为：

将神经网络每轮训练后的所有权重浮点数数据与上一轮训练后的权重浮点数数据按位异或操作获取每轮权重浮点数数据的增量文件压缩并存储，同时定期保存一份权重浮点数数据作为数据解压缩恢复的基准检查点文件；

所述增量文件表示为：

S = W_i⊕ W_i-1

其中，i表示训练轮数，⊕为按位异或操作；W_i为第i轮的所有权重浮点数数据集合；

压缩后每个权重浮点数数据表示为：c=z+r；其中z是一个s位二进制数，表示该权重浮点数数据按位异或操作后的前导0个数k；r是一个（32-k）位二进制数，表示权重浮点数数据去掉前k位后的位数值，+表示拼接；

其中，每轮存储的数据包括每个权重浮点数数据压缩后的数据c和二进制数的位数s；s根据该轮训练所有权重浮点数数据的按位异或操作后的最大前导0个数确定；

数据解压缩恢复时，先读取基准文件中每个权重浮点数数据对应的前s位，得到前s位的数值大小k；再读取接下来的32-k位，获取r值；得到解压后的浮点数uc = uz+r；其中uz为基准文件对应浮点数的前k位；

利用索引值映射代替神经网络每轮训练后的优化器浮点数数据的前n位后进行存储，具体为：

建立优化器浮点数数据的前n位数据与索引值的映射表；

根据建立的映射表将每轮训练后的优化器浮点数数据的前n位进行索引值映射代替后存储；其中，若索引值的位数大于n则不替换压缩；

数据解压缩恢复时，根据前n位数据与索引值的映射表进行恢复。

2.根据权利要求1所述的智能压缩存储方法，其特征在于，若该轮训练所有权重浮点数数据的按位异或操作后的最大前导0个数为32时，采用k=31，r=1的方式进行压缩。

3.根据权利要求1所述的智能压缩存储方法，其特征在于，所述n取值为9~14，针对不同的n，选择压缩率最高的一种情况。

4.根据权利要求1所述的智能压缩存储方法，其特征在于，还包括删除优化器浮点数数据的最后一位，数据恢复时以0补全。

5.一种基于权利要求1-4任一项所述方法的面向神经网络检查点数据的智能压缩存储系统，其特征在于，包括互相连接的数据压缩/解压缩模块和检查点数据保存模块；其中，所述数据压缩/解压缩模块的输入端与模型训练系统相连，用于实时获取神经网络每轮训练后的检查点数据，并利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储至检查点数据保存模块；和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储至检查点数据保存模块；其中，索引值的位数小于n；

当系统崩溃时，数据压缩/解压缩模块从检查点数据保存模块中读入每轮存储的数据进行数据恢复，其中：对于权重浮点数数据，数据压缩/解压缩模块从检查点数据保存模块中读入基准检查点文件以及每轮存储的数据，并使用链式运算进行恢复；对于优化器浮点数数据，数据压缩/解压缩模块从检查点数据保存模块中读入压缩后的数据，并根据各个浮点数的索引值进行数据恢复。