CN113792848A - 一种基于特征图编码的流水线模型并行训练内存优化方法 - Google Patents

一种基于特征图编码的流水线模型并行训练内存优化方法 Download PDF

Info

Publication number
CN113792848A
CN113792848A CN202110986189.6A CN202110986189A CN113792848A CN 113792848 A CN113792848 A CN 113792848A CN 202110986189 A CN202110986189 A CN 202110986189A CN 113792848 A CN113792848 A CN 113792848A
Authority
CN
China
Prior art keywords
relu
feature map
layer
pooling
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110986189.6A
Other languages
English (en)
Inventor
毛莺池
金衍
屠子健
聂华
黄建新
徐淑芳
王龙宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Zhongke Controllable Information Industry Co Ltd
Original Assignee
Hohai University HHU
Zhongke Controllable Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Zhongke Controllable Information Industry Co Ltd filed Critical Hohai University HHU
Priority to CN202110986189.6A priority Critical patent/CN113792848A/zh
Publication of CN113792848A publication Critical patent/CN113792848A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于特征图编码的流水线模型并行训练内存优化方法,步骤为:构建流水线DNN模型并行训练方案,采用异步参数更新方法,并发执行不同批次的训练,记录训练批次在单位流水线执行时间内完成前向和后向传递过程;在模型训练过程中,待前向传递计算任务完成后,将生成的特征图进行编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量;后向传递过程计算时,将保存特征图进行解码,还原高精度原始数据,实现基于特征图编码的流水线并行训练内存优化,避免低精度数据对模型训练计算影响,保证模型训练有效性。

Description

一种基于特征图编码的流水线模型并行训练内存优化方法
技术领域
本发明涉及一种基于特征图编码的流水线模型并行训练内存优化方法,属于计算机技术领域。
背景技术
深度神经网络广泛应用于各种领域,取得了超越人类的预测效果。随着模型的精度等要求越来越高,模型参数规模和计算需求越来越大,训练模型成为一个计算十分密集和耗时的任务。研究人员经常使用分布式计算机集群加速模型训练过程。分布式深度学习并行训练致力于加速DNN模型训练过程,已被很多学者研究。其中,流水线并行训练研究越来越深入。流水线并行训练可以解决数据并行的通信瓶颈与模型并行的计算资源浪费问题。流水线并行训练系统中多个计算节点以流水线方式执行所有批次的训练任务,内存消耗较大。为了解决模型高内存占用问题,模型剪枝和量化等技术被提出用以压缩模型参数规模。然而,现有方法大多基于降低模型参数规模以减少模型内存占用量,但并不适用模型训练过程,无法解决模型训练中高内存占用问题。针对流水线并行训练中的高内存占用量问题,研究减少内存占用量的内存优化方法,具有重要意义。
发明内容
发明目的:为了解决流水线并行训练中的高内存占用量问题,本发明提供一种基于特征图编码的流水线模型并行训练内存优化方法,在前向传递与后向传递计算时间间隙中对特征图编码,使用二值化编码存储Relu-Pooling组合层中输入特征图冗余元素,使用CSR编码存储Relu-Conv组合层中稀疏特征图,降低内存占用量,保证模型训练的有效性。
技术方案:一种基于特征图编码的流水线模型并行训练内存优化方法,包括如下步骤:
(1)构建流水线DNN模型并行训练方案,采用异步参数更新方法,并发执行不同节点中不同批次的训练,记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程;
(2)待前向传递计算任务完成后,生成特征图。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行编码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行编码操作;
(3)判断是否将生成的特征图都进行了编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量,是则完成了对于特征图的编码,否则返回步骤(2)继续迭代;
(4)在后向传递过程计算时,对生成的特征图进行解码。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行解码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行解码操作;
(5)判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作,是则完成该内存优化方案,否则返回步骤(4)继续迭代;
(6)按照上述内存优化方案将其部署到异构计算节点中,得到针对拟训练目标网络的流水线并行训练内存优化方案。
进一步的,所述步骤(1)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。
进一步的,所述步骤(2)中对Relu-Pooling组合层生成的特征图进行编码的具体流程如下:
在Relu层使用1个比特位存储Relu输出特征图元素,若元素为正,则为1;若元素为负,则为0;在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。
进一步的,所述步骤(2)中对Relu-Conv组合层生成的特征图进行编码的具体流程如下:
使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储。特征图一般是存储在一个n维矩阵中,这个n维矩阵可以被分解为2维矩阵,可以将这些2维矩阵转换为CSR格式。CSR采用三个一维数组分别记录2维矩阵中非零数值,对应列号以及行偏移。CSR不是三元组,而是整体的编码方式。数值和列号表示一个元素以及元素列号,行偏移表示某一行的第一个元素在数值数组中起始偏移位置。
进一步的,所述步骤(4)中对生成特征图解码的组合层要求如下:
(4.1)Relu-Pooling组合层。后向传递计算中在Relu层直接使用1位数据进行计算,降低Relu层输入特征图负值元素的存储内存占用,后向传递计算中在Pooling层使用特征图位置映射进行计算,避免特征图中冗余元素的存储内存占用。
(4.2)Relu-Conv组合层。在后向传递中将CSR格式编码还原为高精度原始数据,保证计算准确性,降低高稀疏特征图的存储内存占用。
进一步的,所述步骤(4.1)中对Relu-Pooling组合层生成的特征图解码的具体流程如下:
(4.1.1)对Relu层后向传递计算分析;
(4.1.2)对Pooling层后向传递计算分析。
进一步的,所述步骤(4.1.1)中对Relu层后向传递计算分析的具体流程如下:
Relu激活函数用于增加网络的非线性,缓解神经网络过拟合问题,避免梯度消失问题。相比于Sigmod等激活函数,其计算简单,模型训练收敛性更强。Relu计算公式如下:
Relu(x)=max(0,x)
当输入为负值时,其输出为0;当输入值为正值时,其输出结果不变。这种单侧抑制性使得Relu层进行后向传递计算时,仅需要该层的输出特征图和下一层的输出梯度。Relu层的反向传递计算公式为:
Figure BDA0003230753750000031
由Relu反向传递计算公式可以发现,Relu层不需要一直以较高精度保存输入特征图X,并且仅当Y中的对应元素为正时,才将Y的元素传递给dX,否则将dX设置为0;X为输入特征图、Y为输出特征图,dX为后向传播梯度,dY为下一层的输出梯度。针对这个现象,可以在Relu层使用1个比特位代替特征图负值元素,表示该元素是否为正,避免特征图的冗余存储。
进一步的,所述步骤(4.1.2)中对Pooling层后向传递计算分析的具体流程如下:
DNN模型通常使用最大池化方法(Max-Pooling)对输入矩阵进行二次采样,保留特征图主要特征,减少下一层的参数量和计算量,防止过拟合问题。最大池化方法中前向传递在输入矩阵X上滑动指定大小的窗口,在该窗口中找到最大值并将其传递到输出Y,后向传递计算中梯度传播到最大值的相应位置上,其他位置梯度为0。
由上述分析可知,Pooling层后向传递并不需要上一层输出的所有实际值。这些高精度格式数据会导致较高的内存占用。针对这个现象,在Pooling层前向传递中创建从Y到X的映射,以跟踪这些位置。
进一步的,所述步骤(4.2)中对Relu-Conv组合层生成的特征图解码的具体流程如下:
将CSR格式的编码转换为2维矩阵,再将2维矩阵恢复成一个n维矩阵,使其成为原来DNN模型存储的数据结构,实现一系列的后续操作。
有益效果:本发明与现有技术相比具有以下优点:
本发明针对DNN训练过程中特征图内存占用量高、使用时间分布较远的问题,在模型训练过程中,待前向传递计算任务完成后,将生成的特征图进行编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量;后向传递过程计算时,将保存特征图进行解码,还原高精度原始数据,避免低精度数据对模型训练计算的影响,保证模型训练有效性。
附图说明
图1为特征图使用生命周期示例图;
图2为本发明实施例的方法流程图;
图3为具体实施例中基于特征图编码的流水线模型并行训练内存优化方法两种编码方案示例图;
图4为具体实施例中对于DNN模型基于二值化编码的特征图存储示例图;
图5为具体实施例中对于基于CSR编码的特征图存储计算的示例图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明针对现有研究工作没有考虑DNN模型训练中特征图的内存占用问题,分析特征图的使用情况,在模型训练过程中,待前向传递计算任务完成后,将生成的特征图进行编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量;后向传递过程计算时,将保存特征图进行解码,还原高精度原始数据,保证模型训练的有效性。
图1为特征图使用生命周期示例图。
特征图X由上一层Lx计算生成,作为LY层输入执行前向传递计算。LY层后向传递计算时继续使用X进行计算。在整个生命周期中,特征图X一直以较高精度(如FP32)保存,从而占据了主要的内存消耗。
图2为本实施例中基于特征图编码的流水线模型并行训练内存优化方法流程图。基于特征图编码的流水线模型并行训练内存优化方法,包括如下步骤:
步骤A:构建流水线DNN模型并行训练方案,采用异步参数更新方法,并发执行不同节点中不同批次的训练,记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程。单位流水线执行时间主要指前向传递和后向传递计算时间之和。
步骤B:待前向传递计算任务完成后,生成特征图。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行编码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行编码操作,直接跳转到步骤C。
步骤B1:若为Relu-Pooling组合层,对Relu-Pooling组合层生成的特征图进行编码的具体步骤如下:
在Relu层使用1个比特位存储Relu输出特征图元素是否为正的信息;在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。
步骤B2:若为Relu-Conv组合层,使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储。其具体步骤为:
特征图一般是存储在一个n维矩阵中,这个n维矩阵可以被分解为2维矩阵,可以将这些2维矩阵转换为CSR格式。CSR采用三个一维数组分别记录矩阵中非零数值,对应列号以及行偏移。CSR不是三元组,而是整体的编码方式。数值和列号表示一个元素以及其列号,行偏移表示某一行的第一个元素在数值数组中起始偏移位置。
步骤C:判断是否将生成的特征图都进行了编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量,是则完成了对于特征图的编码,否则返回步骤B继续迭代。
步骤D:在后向传递过程计算时,对生成的特征图进行解码。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行解码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行解码操作,直接跳转到步骤E。
步骤D1:若为Relu-Pooling组合层。后向传递计算中在Relu层直接使用1位数据进行计算,降低Relu层输入特征图负值元素的存储内存占用,后向传递计算中在Pooling层使用特征图位置映射进行计算,避免特征图中冗余元素的存储内存占用。
步骤D1-1:对Relu层后向传递计算分析的具体流程如下:
Relu激活函数用于增加网络的非线性,缓解神经网络过拟合问题,避免梯度消失问题。相比于Sigmod等激活函数,其计算简单,模型训练收敛性更强。Relu计算公式如下:
Relu(x)=max(0,x)
当输入为负值时,其输出为0;当输入值为正值时,其输出结果不变。这种单侧抑制性使得Relu层进行后向传递计算时,仅需要该层的输出特征图和下一层的输出梯度。Relu层的反向传递计算公式为:
Figure BDA0003230753750000051
由Relu反向传递计算公式可以发现,Relu层不需要一直以较高精度保存输入特征图X,并且仅当Y中的对应元素为正时,才将Y的元素传递给dX,否则将dX设置为0。针对这个现象,可以在Relu层使用1个比特位代替特征图负值元素,表示该元素是否为正,避免特征图的冗余存储。
步骤D1-2:对Pooling层后向传递计算分析的具体流程如下:
DNN模型通常使用最大池化方法(Max-Pooling)对输入矩阵进行二次采样,保留特征图主要特征,减少下一层的参数量和计算量,防止过拟合问题。最大池化方法中前向传递在输入矩阵X上滑动指定大小的窗口,在该窗口中找到最大值并将其传递到输出Y,后向传递计算中梯度传播到最大值的相应位置上,其他位置梯度为0。
由上述分析可知,Pooling层后向传递并不需要上一层输出的所有实际值。这些高精度格式数据会导致较高的内存占用。针对这个现象,在Pooling层前向传递中创建从Y到X的映射,以跟踪这些位置(窗口中找到最大值所在位置)。
步骤D2:若为Relu-Conv组合层。在后向传递中将CSR格式编码还原为高精度原始数据,保证计算准确性,降低高稀疏特征图的存储内存占用。将CSR格式的编码转换为2维矩阵,再将2维矩阵恢复成一个n维矩阵,使其成为原来DNN模型存储的数据结构,实现一系列的后续操作。
步骤E:判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作,是则完成该内存优化方案,否则返回步骤D继续迭代。
步骤F:按照上述内存优化方案将其部署到异构计算节点中,得到针对拟训练目标网络的流水线并行训练内存优化方案。
图3为基于特征图编码的流水线模型并行训练内存优化方法两种编码方案示例图。
(1)二值化编码:对于Relu-Pooling组合,在Relu层使用1个比特位存储Relu输出特征图元素是否为正的信息,后向传递计算中直接使用1位数据进行计算,降低Relu层输入特征图负值元素的存储内存占用;在Pooling层存储输出特征图与输入特征图的最大值元素位置映射,后向传递计算中使用特征图位置映射进行计算,避免特征图中冗余元素的存储内存占用。
(2)CSR编码:对于ReLU-Conv组合,使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储,在后向传递中将CSR格式编码还原为高精度原始数据,保证计算准确性,降低高稀疏特征图的存储内存占用。
在流水线并行训练中为每个Relu-Pooling与Relu-Conv组合分别应用上述两种编码方案,可以有效降低特征图在其生命周期使用间隙中的存储消耗,降低DNN模型训练内存占用量。
图4为具体实施例中对于DNN模型基于二值化编码的特征图存储示例图;
(a)是DNN层使用dX=f(X,Y,dY)计算后向传播梯度;(b)是Relu层进行后向传递计算时,仅需要该层的输出特征图和下一层的输出梯度;(c)是Pooling层向后传递计算中使用此映射,从而消除了对该层输入和输出特征图的依赖;(d)是后向传递计算利用该层的输入特征图X与下一层的输入梯度dY值计算其梯度值,即dX=f(X,dY)。
图5为具体实施例中对于基于CSR编码的特征图存储计算的示例图。
图5中,第一行元素1是0偏移,第二行元素3是2偏移,第三行元素4是3偏移,第4行元素1是4偏移。在行偏移的最后补上矩阵总的元素个数,本例中是5。

Claims (9)

1.一种基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,包括如下步骤:
(1)构建流水线DNN模型并行训练方案,采用异步参数更新方法,并发执行不同节点中不同批次的训练,记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程;
(2)待前向传递计算任务完成后,生成特征图。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行编码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行编码操作;
(3)判断是否将生成的特征图都进行了编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量,是则完成了对于特征图的编码,否则返回步骤(2)继续迭代;
(4)在后向传递过程计算时,对生成的特征图进行解码。若是Relu-Pooling或Relu-Conv组合层生成的特征图,则对特征图进行解码;若不是Relu-Pooling或Relu-Conv组合层生成的特征图,则不进行解码操作;
(5)判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作,是则完成该内存优化方案,否则返回步骤(4)继续迭代;
(6)按照上述内存优化方案将其部署到异构计算节点中,得到针对拟训练目标网络的流水线并行训练内存优化方案。
2.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(1)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。
3.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(2)中对Relu-Pooling组合层生成的特征图进行编码的具体流程如下:
在Relu层使用1个比特位存储Relu输出特征图元素,若元素为正,则为1;若元素为负,则为0;在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。
4.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(2)中对Relu-Conv组合层生成的特征图进行编码的具体流程如下:
使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储;特征图存储在一个n维矩阵中,这个n维矩阵被分解为2维矩阵,将所述2维矩阵转换为CSR格式;所述CSR采用三个一维数组分别记录2维矩阵中非零数值,对应列号以及行偏移;所述CSR不是三元组,而是整体的编码方式;所述数值和列号表示一个元素以及元素列号,行偏移表示某一行的第一个元素在数值数组中起始偏移位置。
5.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,进一步的,所述步骤(4)中对生成特征图解码的组合层要求如下:
(4.1)Relu-Pooling组合层;后向传递计算中在Relu层直接使用1位数据进行计算,后向传递计算中在Pooling层使用特征图位置映射进行计算。
(4.2)Relu-Conv组合层;在后向传递中将CSR格式编码还原为原始数据。
6.根据权利要求5所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(4.1)中对Relu-Pooling组合层生成的特征图解码的具体流程如下:
(4.1.1)对Relu层后向传递计算分析;
(4.1.2)对Pooling层后向传递计算分析。
7.根据权利要求6所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(4.1.1)中对Relu层后向传递计算分析的具体流程如下:
Relu激活函数计算公式如下:
Relu(x)=max(0,x)
当输入为负值时,其输出为0;当输入值为正值时,其输出结果不变;这种单侧抑制性使得Relu层进行后向传递计算时,仅需要该层的输出特征图和下一层的输出梯度;Relu层的反向传递计算公式为:
Figure FDA0003230753740000021
由Relu反向传递计算公式可以发现,Relu层不需要一直以较高精度保存输入特征图X,并且仅当Y中的对应元素为正时,才将Y的元素传递给dX,否则将dX设置为0;针对这个现象,在Relu层使用1个比特位代替特征图负值元素,表示该元素是否为正,避免特征图的冗余存储。
8.根据权利要求6所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(4.1.2)中对Pooling层后向传递计算分析的具体流程如下:
DNN模型使用最大池化方法对输入矩阵进行二次采样,最大池化方法中前向传递在输入矩阵X上滑动指定大小的窗口,在该窗口中找到最大值并将其传递到输出Y,后向传递计算中梯度传播到最大值的相应位置上,其他位置梯度为0;
在Pooling层前向传递中创建从Y到X的映射,以跟踪这些位置。
9.根据权利要求5所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(4.2)中对Relu-Conv组合层生成的特征图解码的具体流程如下:
将CSR格式的编码转换为2维矩阵,再将2维矩阵恢复成一个n维矩阵,使其成为原来DNN模型存储的数据结构,实现一系列的后续操作。
CN202110986189.6A 2021-08-26 2021-08-26 一种基于特征图编码的流水线模型并行训练内存优化方法 Pending CN113792848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110986189.6A CN113792848A (zh) 2021-08-26 2021-08-26 一种基于特征图编码的流水线模型并行训练内存优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986189.6A CN113792848A (zh) 2021-08-26 2021-08-26 一种基于特征图编码的流水线模型并行训练内存优化方法

Publications (1)

Publication Number Publication Date
CN113792848A true CN113792848A (zh) 2021-12-14

Family

ID=78876406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986189.6A Pending CN113792848A (zh) 2021-08-26 2021-08-26 一种基于特征图编码的流水线模型并行训练内存优化方法

Country Status (1)

Country Link
CN (1) CN113792848A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154504A (zh) * 2017-12-25 2018-06-12 浙江工业大学 一种基于卷积神经网络的钢板表面缺陷的检测方法
CN110059829A (zh) * 2019-04-30 2019-07-26 济南浪潮高新科技投资发展有限公司 一种异步参数服务器高效并行架构与方法
CN112088384A (zh) * 2018-05-10 2020-12-15 微软技术许可有限责任公司 用于深度神经网络训练的有效数据编码
CN112825132A (zh) * 2019-11-21 2021-05-21 腾讯美国有限责任公司 用于生成特征图的方法、装置和可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154504A (zh) * 2017-12-25 2018-06-12 浙江工业大学 一种基于卷积神经网络的钢板表面缺陷的检测方法
CN112088384A (zh) * 2018-05-10 2020-12-15 微软技术许可有限责任公司 用于深度神经网络训练的有效数据编码
CN110059829A (zh) * 2019-04-30 2019-07-26 济南浪潮高新科技投资发展有限公司 一种异步参数服务器高效并行架构与方法
CN112825132A (zh) * 2019-11-21 2021-05-21 腾讯美国有限责任公司 用于生成特征图的方法、装置和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于俊清 等: "面向多核集群的数据流程序层次流水线并行优化方法", 《计算机学报》, vol. 37, no. 10, pages 2071 - 2083 *

Similar Documents

Publication Publication Date Title
US10691996B2 (en) Hardware accelerator for compressed LSTM
CN110097172B (zh) 一种基于winograd卷积运算的卷积神经网络数据处理方法及装置
Hassantabar et al. SCANN: Synthesis of compact and accurate neural networks
CN107423816B (zh) 一种多计算精度神经网络处理方法和系统
US11562247B2 (en) Neural network activation compression with non-uniform mantissas
CN109472350A (zh) 一种基于块循环稀疏矩阵的神经网络加速系统
CN111582451B (zh) 图像识别层间并行流水线型二值化卷积神经网络阵列架构
Daghero et al. Energy-efficient deep learning inference on edge devices
CN109840585B (zh) 一种面向稀疏二维卷积的运算方法和系统
CN111368988B (zh) 一种利用稀疏性的深度学习训练硬件加速器
CN1801630A (zh) 基于优化搜索矩阵lu分解的ldpc码编码方法
CN114647399B (zh) 一种低能耗高精度近似并行定宽乘法累加装置
IT202000018043A1 (it) Procedimenti e sistemi di elaborazione di rete neurale artificiale
CN112418424A (zh) 一种具有极高压缩比的剪枝深度神经网络的分层稀疏编码方法
US20210294874A1 (en) Quantization method based on hardware of in-memory computing and system thereof
CN115664899A (zh) 一种基于图神经网络的信道解码方法及系统
Jiang et al. A low-latency LSTM accelerator using balanced sparsity based on FPGA
CN111275167A (zh) 一种用于二值卷积神经网络的高能效脉动阵列架构
CN112990454B (zh) 基于集成dpu多核异构的神经网络计算加速方法及装置
Fuketa et al. Image-classifier deep convolutional neural network training by 9-bit dedicated hardware to realize validation accuracy and energy efficiency superior to the half precision floating point format
CN111652359B (zh) 用于矩阵运算的乘法器阵列和用于卷积运算的乘法器阵列
CN113792848A (zh) 一种基于特征图编码的流水线模型并行训练内存优化方法
CN112561049A (zh) 一种基于忆阻器的dnn加速器的资源分配方法及装置
Karimzadeh et al. Towards energy efficient dnn accelerator via sparsified gradual knowledge distillation
Ipek Memristive accelerators for dense and sparse linear algebra: from machine learning to high-performance scientific computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination