CN111368988A - 一种利用稀疏性的深度学习训练硬件加速器 - Google Patents

一种利用稀疏性的深度学习训练硬件加速器 Download PDF

Info

Publication number
CN111368988A
CN111368988A CN202010128655.2A CN202010128655A CN111368988A CN 111368988 A CN111368988 A CN 111368988A CN 202010128655 A CN202010128655 A CN 202010128655A CN 111368988 A CN111368988 A CN 111368988A
Authority
CN
China
Prior art keywords
data
vector
sparse
output
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010128655.2A
Other languages
English (en)
Other versions
CN111368988B (zh
Inventor
杨建磊
戴鹏程
赵巍胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010128655.2A priority Critical patent/CN111368988B/zh
Publication of CN111368988A publication Critical patent/CN111368988A/zh
Application granted granted Critical
Publication of CN111368988B publication Critical patent/CN111368988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种利用稀疏性的深度学习算法训练加速器及加速训练方法,将模型训练的计算过程分解为多个一维离散稀疏卷积操作及其结果的求和。本发明的加速器可以同时支持激活值稀疏性和梯度稀疏性,同时支持仅计算结果向量的指定分量;显著降低了训练过程的计算与访存开销;另外在该加速器的基础上引入梯度计算结果的剪枝,提高了梯度数据稀疏性,从而进一步提升计算性能和效率。

Description

一种利用稀疏性的深度学习训练硬件加速器
技术领域
本发明属于深度学习及硬件加速器技术领域,尤其涉及一种针对深度学习模型训练过程的加速器及加速训练方法。
背景技术
深度学习是人工智能领域的一类常见模型和算法,其主要通过反向传播算法训练一个深度神经网络模型,从而自动的从给定的大量数据上抽取相应的特征并完成分类等任务。深度学习算法被广泛应用于计算机视觉、自然语言处理、自动驾驶等多个领域。
然而,随着深度学习模型深度的不断加深和数据规模的不断加大,模型所需的计算量、存储量和功耗也越来越大。深度学习模型的使用包括两个步骤:训练,推断。其中,由于模型的训练比推理花费更多的计算量和空间,因此训练过程面临着更为严重的速度和功耗瓶颈。现有的深度学习模型训练通常是在大规模集群上,利用图形处理器进行计算,其实际的能量效率是较低的。
利用数据稀疏性加速模型运算是一种常用的加速方法。在深度学习模型的训练过程中,中间数据(激活值及梯度值)存在着一定的稀疏性,因此也可以被利用从而加速模型训练。但是训练过程中的稀疏性是不规则的,因此难以被现有的硬件利用。
发明内容
为了加速深度学习的训练过程,本发明提出一种硬件加速器结构及加速训练方法,通过利用训练过程中的中间数据稀疏性的方法来加速模型训练、降低运算功耗。本发明的具体技术方案如下:
一种利用稀疏性的深度学习训练硬件加速器,其特征在于,包括全局缓存,控制单元和运算单元阵列,其中,
所述全局缓存通过数据总线与片外存储进行数据交换,用于存储计算过程中的数据;
所述控制单元与片外的主机CPU相连,根据主机指令控制片上的数据流动并调度运算单元阵列;
所述运算单元阵列由多个运算单元组构成,每个运算单元组包含至少一个运算单元和一个后处理单元,所述运算单元用于执行训练过程中的一维稀疏离散卷积操作及向量点积操作,所述后处理单元用于执行训练过程中的逐点操作、数据格式转换、数据统计以及数据剪枝操作;
所述运算单元阵列从所述全局缓存中读取数据,通过数据广播将数据分发至运算单元,每个运算单元执行一个一维行卷积操作,每个运算单元组的至少一个运算单元的操作结果相加并输出到后处理单元进行非线性操作和数据格式变换后,输出结果存回所述全局缓存中,实现数据的复用。
基于前述的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法,其特征在于,针对深度学习网络模型的训练过程,将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和,具体步骤如下:
S1:将前向传播过程中的卷积运算分解为多个稀疏行卷积及其结果的求和,所述稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作;前向传播过程中网络模型的输入数据和输出数据为激活值数据;
S2:反向传播过程中,网络模型输出误差对激活值数据的导数为激活值梯度数据;将反向传播过程中生成激活值梯度数据的卷积运算,或前向传播过程中卷积步长大于1的卷积运算,分解为多个掩码化稀疏行卷积及其结果的求和,所述掩码化稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作,并根据输入的掩码向量预测结果向量中值为零的分量并直接跳过这些分量的计算过程;所述掩码向量用于指示结果向量中应被跳过的分量,所述掩码向量的来源为步骤S1的输出或根据预先指定的稀疏模式设计好的掩码向量。
S3:反向传播过程中,网络模型输出误差对权重值数据的导数为权重值梯度数据;将反向传播过程中的权重值梯度数据计算的卷积运算分解为多个固定输出的稀疏行卷积及其结果的求和,所述固定输出的稀疏行卷积运算是在两个稀疏长向量间进行的一维离散卷积操作,并按要求只进行结果向量中部分分量数据的计算。
进一步地,根据前述的加速训练方法,其特征在于,针对全连接神经网络和递归神经网络,所述训练方法包括以下步骤:
Step1:将前向传播过程中的矩阵乘法运算,分解为多个向量点积及其结果的求和;
Step2:将反向传播过程中的激活值梯度数据生成的矩阵乘法运算,分解为多个向量点积及其结果的求和;
Step3:将反向传播过程中的权重值梯度数据计算的运算,分解为多个一维向量的数乘运算。
进一步地,所述训练方法还包括完成步骤S2后,在所述后处理单元中对激活值梯度值数据进行人工剪枝。
进一步地,步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储。
进一步地,步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储。
进一步地,对于包含池化层的深度学习网络模型,所述加速训练方法还包括将池化层的输出激活值数据编码为池化格式,并以所述池化格式进行存储和传输,所述池化格式包含数据向量和指针向量,所述数据向量以行优先的顺序记录每个输出数据的值,所述指针向量中的每个分量记录所述数据向量中对应位置的值在池化操作窗口中的相对位置;所述池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。
进一步地,所述深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。
本发明的有益效果在于:
1.本发明的加速器及加速训练方法针对深度学习模型的训练过程,将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和。通过这种方式,加速器能够充分利用训练过程中的数据稀疏性,从而减少计算量,提高计算速度;
2.本发明的加速器及加速训练方法可以在计算过程中实时对中间数据进行剪枝,从而进一步提高数据稀疏性,提高了性能;可以在存储和计算过程中,使用压缩稀疏行格式对稀疏数据进行编码,减少了访存和数据传输开销,提高了能效;
3.本发明的加速器及加速训练方法可以将池化层的输出激活值数据编码为池化格式,减小该部分数据存储和传输开销;
4.本发明的加速器包含由多个PE和PPU单元组成的计算单元阵列,通过并行的进行计算和数据重用进一步提高速度和能效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明一个实施例的系统整体结构示意图;
图2是本发明一个实施例的稀疏行卷积操作示意图;
图3是本发明一个实施例的掩码化稀疏行卷积操作示意图;
图4是本发明一个实施例的固定输出的稀疏行卷积操作示意图;
图5是本发明一个实施例的池化格式示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1是本发明一个实施例的系统整体结构示意图。一种利用稀疏性的深度学习训练硬件加速器,其特征在于,包括全局缓存,控制单元和运算单元阵列,其中,全局缓存通过数据总线与片外存储进行数据交换,用于存储计算过程中的数据;控制单元与片外的主机CPU相连,根据主机指令控制片上的数据流动并调度运算单元阵列;运算单元阵列由多个运算单元组构成,每个运算单元组包含至少一个运算单元PE和一个后处理单元PPU,运算单元PE用于执行训练过程中的一维稀疏离散卷积操作及向量点积操作,后处理单元PPU用于执行训练过程中的逐点操作、数据格式转换、数据统计以及数据剪枝操作;
运算单元阵列从全局缓存中读取数据,通过数据广播将数据分发至运算单元,每个运算单元执行一个一维行卷积操作,每个运算单元组的至少一个运算单元的操作结果相加并输出到后处理单元进行非线性操作和数据格式变换后,输出结果存回全局缓存中,实现数据的复用。数据在整个存储、传输和计算过程中,是以稀疏编码的方式存在。经过多轮循环,可完成相应模型训练过程的所有计算。
基于本发明的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法,针对深度学习网络模型的训练过程,将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和,图2-4为一维行卷积操作的具体形式及其来源,一维离散稀疏卷积操作步骤包括:
S1:将前向传播过程中的卷积运算分解为多个稀疏行卷积及其结果的求和,稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作;前向传播过程中网络模型的输入数据和输出数据为激活值数据;图2是本发明的稀疏行卷积操作示意图,图中In和On分别代表某卷积层的输入激活值和输出激活值,一个卷积层的前向传播过程可以被分解为多个稀疏行卷积操作,每个稀疏行卷积包含两个操作数,分别是激活值的一行(一个稀疏的长向量)和权值的一行(一个稠密的短向量),卷积结果是输出激活值的一部分,将多个这样的稀疏行卷积结果相加或合并,即可得到整个卷积层运算的输出。
S2:反向传播过程中,网络模型输出误差对激活值数据的导数为激活值梯度数据;将反向传播过程中生成激活值梯度数据的卷积运算,或前向传播过程中卷积步长大于1的卷积运算,分解为多个掩码化稀疏行卷积及其结果的求和,掩码化稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作,并按预定的模式将结果向量中某些分量直接置零并跳过其计算过程;图3是本发明的掩码化稀疏行卷积操作示意图,图中dOn-1、dIn和dOn分别代表上一层的输出激活值的梯度、本层输入激活值的梯度和本层输出激活值,图中最上面是一个卷积层的激活值梯度计算过程,其可以被分解为多个掩码化稀疏行卷积,掩码化稀疏行卷积也包含一个稀疏的长向量(来源于梯度值)和稠密的短向量(来源于权值),不同于图2之处在于,掩码化稀疏行卷积根据一个输入掩码向量,跳过结果中某些分量的计算,从而节省了时间和功耗。
S3:反向传播过程中,网络模型输出误差对权重值数据的导数为权重值梯度数据;将反向传播过程中的权重值梯度数据计算的卷积运算分解为多个固定输出的稀疏行卷积及其结果的求和,固定输出的稀疏行卷积运算是在两个稀疏长向量间进行的一维离散卷积操作,并按要求只进行结果向量中部分分量数据的计算;图4是本发明的固定输出的稀疏行卷积操作示意图,图中In、dOn和dWn分别代表本层输入激活值、本层输出激活值的梯度以及本层参数的梯度,图中最上面是一个卷积层的权重梯度计算过程,其可以被分解为多个固定输出的稀疏行卷积,固定输出的稀疏行卷积包含两个稀疏的长向量(分别来源于激活值和梯度值),其输出是一个稠密短向量。
针对全连接神经网络和递归神经网络,训练方法包括以下步骤:
Step1:将前向传播过程中的矩阵乘法运算,分解为多个向量点积及其结果的求和;此处将多个向量点积及其结果的求和视为步骤S3的一种情况进行计算;
Step2:将反向传播过程中的激活值梯度数据生成的矩阵乘法运算,分解为多个向量点积及其结果的求和;此处将多个向量点积及其结果的求和视为步骤S3的一种情况进行计算;
Step3:将反向传播过程中的权重值梯度数据计算的运算,分解为多个一维向量的数乘运算;此处将多个一维向量的数乘运算视为步骤S1的一种情况进行计算。
训练方法还包括完成步骤S2后,在所述后处理单元中对激活值梯度值数据进行人工剪枝,从而提高梯度数据的稀疏度。
步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储,从而减小存储和传输开销。
步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储,从而减小存储和传输开销。
对于包含池化层的深度学习网络模型,加速训练方法还包括将池化层的输出激活值数据编码为池化格式,并以池化格式进行存储和传输,池化格式包含数据向量和指针向量,数据向量以行优先的顺序记录每个输出数据的值,指针向量中的每个分量记录数据向量中对应位置的值在池化操作窗口中的相对位置;池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。图5所示为池化格式的一个示意图。池化层的输出激活值被存储在两个向量里,值向量以行优先的顺序存储输出激活值的每一个非零元素;对于值向量的每一个元素,指针向量对应的使用各2bit数据(共4bit)存储其在池化方格中的相对行位置和列位置。在前向传播过程中,该输出被存储。反向传播过程中,该数据格式可被PE识别为稀疏格式。
本发明的加速器及加速方法适用的深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种利用稀疏性的深度学习训练硬件加速器,其特征在于,包括全局缓存,控制单元和运算单元阵列,其中,
所述全局缓存通过数据总线与片外存储进行数据交换,用于存储计算过程中的数据;
所述控制单元与片外的主机CPU相连,根据主机指令控制片上的数据流动并调度运算单元阵列;
所述运算单元阵列由多个运算单元组构成,每个运算单元组包含至少一个运算单元和一个后处理单元,所述运算单元用于执行训练过程中的一维稀疏离散卷积操作及向量点积操作,所述后处理单元用于执行训练过程中的逐点操作、数据格式转换、数据统计以及数据剪枝操作;
所述运算单元阵列从所述全局缓存中读取数据,通过数据广播将数据分发至运算单元,每个运算单元执行一个一维行卷积操作,每个运算单元组的至少一个运算单元的操作结果相加并输出到后处理单元进行非线性操作和数据格式变换后,输出结果存回所述全局缓存中,实现数据的复用。
2.基于权利要求1所述的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法,其特征在于,针对深度学习网络模型的训练过程,将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和,具体步骤如下:
S1:将前向传播过程中的卷积运算分解为多个稀疏行卷积及其结果的求和,所述稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作;前向传播过程中网络模型的输入数据和输出数据为激活值数据;
S2:反向传播过程中,网络模型输出误差对激活值数据的导数为激活值梯度数据;将反向传播过程中生成激活值梯度数据的卷积运算,或前向传播过程中卷积步长大于1的卷积运算,分解为多个掩码化稀疏行卷积及其结果的求和,所述掩码化稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作,并根据输入的掩码向量预测结果向量中值为零的分量并直接跳过这些分量的计算过程;所述掩码向量用于指示结果向量中应被跳过的分量,所述掩码向量的来源为步骤S1的输出或根据预先指定的稀疏模式设计好的掩码向量。
S3:反向传播过程中,网络模型输出误差对权重值数据的导数为权重值梯度数据;将反向传播过程中的权重值梯度数据计算的卷积运算分解为多个固定输出的稀疏行卷积及其结果的求和,所述固定输出的稀疏行卷积运算是在两个稀疏长向量间进行的一维离散卷积操作,并按要求只进行结果向量中部分分量数据的计算。
3.根据权利要求2所述的加速训练方法,其特征在于,针对全连接神经网络和递归神经网络,所述训练方法包括以下步骤:
Step1:将前向传播过程中的矩阵乘法运算,分解为多个向量点积及其结果的求和;
Step2:将反向传播过程中的激活值梯度数据生成的矩阵乘法运算,分解为多个向量点积及其结果的求和;
Step3:将反向传播过程中的权重值梯度数据计算的运算,分解为多个一维向量的数乘运算。
4.根据权利要求2所述的加速训练方法,其特征在于,所述训练方法还包括完成步骤S2后,在所述后处理单元中对激活值梯度值数据进行人工剪枝。
5.根据权利要求2所述的加速训练方法,其特征在于,步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储。
6.根据权利要求2所述的加速训练方法,其特征在于,步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后,参与计算和存储。
7.根据权利要求2所述的加速训练方法,其特征在于,对于包含池化层的深度学习网络模型,所述加速训练方法还包括将池化层的输出激活值数据编码为池化格式,并以所述池化格式进行存储和传输,所述池化格式包含数据向量和指针向量,所述数据向量以行优先的顺序记录每个输出数据的值,所述指针向量中的每个分量记录所述数据向量中对应位置的值在池化操作窗口中的相对位置;所述池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。
8.根据权利要求2-7任一项所述的加速训练方法,其特征在于,所述深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。
CN202010128655.2A 2020-02-28 2020-02-28 一种利用稀疏性的深度学习训练硬件加速器 Active CN111368988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010128655.2A CN111368988B (zh) 2020-02-28 2020-02-28 一种利用稀疏性的深度学习训练硬件加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010128655.2A CN111368988B (zh) 2020-02-28 2020-02-28 一种利用稀疏性的深度学习训练硬件加速器

Publications (2)

Publication Number Publication Date
CN111368988A true CN111368988A (zh) 2020-07-03
CN111368988B CN111368988B (zh) 2022-12-20

Family

ID=71208214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010128655.2A Active CN111368988B (zh) 2020-02-28 2020-02-28 一种利用稀疏性的深度学习训练硬件加速器

Country Status (1)

Country Link
CN (1) CN111368988B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931938A (zh) * 2020-10-19 2020-11-13 南京风兴科技有限公司 基于结构化稀疏的循环神经网络推理运算的加速系统及方法
CN112015472A (zh) * 2020-07-16 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
WO2022173538A1 (en) * 2021-02-10 2022-08-18 Intel Corporation Techniques for accelerating neural networks
CN116011544A (zh) * 2022-12-31 2023-04-25 安徽深图科技有限公司 一种基于离散向量的深度学习系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109635944A (zh) * 2018-12-24 2019-04-16 西安交通大学 一种稀疏卷积神经网络加速器及实现方法
CN109711532A (zh) * 2018-12-06 2019-05-03 东南大学 一种针对硬件实现稀疏化卷积神经网络推断的加速方法
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN109993297A (zh) * 2019-04-02 2019-07-09 南京吉相传感成像技术研究院有限公司 一种负载均衡的稀疏卷积神经网络加速器及其加速方法
CN110502330A (zh) * 2018-05-16 2019-11-26 上海寒武纪信息科技有限公司 处理器及处理方法
CN110705703A (zh) * 2019-10-16 2020-01-17 北京航空航天大学 基于脉动阵列的稀疏神经网络处理器

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN110502330A (zh) * 2018-05-16 2019-11-26 上海寒武纪信息科技有限公司 处理器及处理方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109711532A (zh) * 2018-12-06 2019-05-03 东南大学 一种针对硬件实现稀疏化卷积神经网络推断的加速方法
CN109635944A (zh) * 2018-12-24 2019-04-16 西安交通大学 一种稀疏卷积神经网络加速器及实现方法
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN109993297A (zh) * 2019-04-02 2019-07-09 南京吉相传感成像技术研究院有限公司 一种负载均衡的稀疏卷积神经网络加速器及其加速方法
CN110705703A (zh) * 2019-10-16 2020-01-17 北京航空航天大学 基于脉动阵列的稀疏神经网络处理器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PENGCHENG DAI 等: "SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional Neural Networks Training", 《 2020 57TH ACM/IEEE DESIGN AUTOMATION CONFERENCE (DAC)》 *
刘勤让等: "利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计", 《电子与信息学报》 *
查羿 等: "一种负载均衡的LSTM硬件加速器设计", 《南京大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015472A (zh) * 2020-07-16 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112015472B (zh) * 2020-07-16 2023-12-12 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN111931938A (zh) * 2020-10-19 2020-11-13 南京风兴科技有限公司 基于结构化稀疏的循环神经网络推理运算的加速系统及方法
WO2022173538A1 (en) * 2021-02-10 2022-08-18 Intel Corporation Techniques for accelerating neural networks
CN116011544A (zh) * 2022-12-31 2023-04-25 安徽深图科技有限公司 一种基于离散向量的深度学习系统及方法
CN116011544B (zh) * 2022-12-31 2024-03-05 安徽先数科技有限公司 一种基于离散向量的深度学习系统及方法

Also Published As

Publication number Publication date
CN111368988B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN111368988B (zh) 一种利用稀疏性的深度学习训练硬件加速器
You et al. Gate decorator: Global filter pruning method for accelerating deep convolutional neural networks
US10691996B2 (en) Hardware accelerator for compressed LSTM
CN111062472B (zh) 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN111242289B (zh) 一种规模可扩展的卷积神经网络加速系统与方法
CN111325321A (zh) 基于多神经网络融合的类脑计算系统及指令集的执行方法
CN109472356A (zh) 一种可重构神经网络算法的加速装置及方法
CN111626403B (zh) 一种基于cpu-fpga内存共享的卷积神经网络加速器
CN108665063A (zh) 用于bnn硬件加速器的双向并行处理卷积加速系统
Dai et al. SparseTrain: Exploiting dataflow sparsity for efficient convolutional neural networks training
CN111381968B (zh) 一种高效运行深度学习任务的卷积运算优化方法及系统
EP3637327A1 (en) Computing device and method
CN108985449B (zh) 一种对卷积神经网络处理器的控制方法及装置
CN113283587A (zh) 一种Winograd卷积运算加速方法及加速模块
CN113313252B (zh) 一种基于脉动阵列的深度可分离卷积实现方法
CN111275167A (zh) 一种用于二值卷积神经网络的高能效脉动阵列架构
CN112990454B (zh) 基于集成dpu多核异构的神经网络计算加速方法及装置
Fuketa et al. Image-classifier deep convolutional neural network training by 9-bit dedicated hardware to realize validation accuracy and energy efficiency superior to the half precision floating point format
CN117251705A (zh) 一种每日天然气负荷预测方法
KR20220101418A (ko) 저전력 고성능 인공 신경망 학습 가속기 및 가속 방법
WO2022105348A1 (zh) 神经网络的训练方法和装置
CN115730653A (zh) 量化神经网络训练与推理
CN114065923A (zh) 一种卷积神经网络的压缩方法、系统及加速装置
Gao et al. FPGA-based accelerator for independently recurrent neural network
KR20230032748A (ko) 심층 강화학습을 위한 심층 신경망 학습 가속 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant