CN112561049B - 一种基于忆阻器的dnn加速器的资源分配方法及装置 - Google Patents

一种基于忆阻器的dnn加速器的资源分配方法及装置 Download PDF

Info

Publication number
CN112561049B
CN112561049B CN202011539621.9A CN202011539621A CN112561049B CN 112561049 B CN112561049 B CN 112561049B CN 202011539621 A CN202011539621 A CN 202011539621A CN 112561049 B CN112561049 B CN 112561049B
Authority
CN
China
Prior art keywords
layer
bit width
dnn
quantization bit
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011539621.9A
Other languages
English (en)
Other versions
CN112561049A (zh
Inventor
李冰
卞鼐
梁峰
张国和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202011539621.9A priority Critical patent/CN112561049B/zh
Publication of CN112561049A publication Critical patent/CN112561049A/zh
Application granted granted Critical
Publication of CN112561049B publication Critical patent/CN112561049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明公开了一种基于忆阻器的DNN加速器的资源分配方法及装置,资源分配方法包括以下步骤:初始化待映射深度神经网络DNN中各层的量化位宽;增加DNN中各层的量化位宽,使各层均不满足局部资源空闲条件;计算当且仅当向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度;通过准确度进行量化位宽的分配;通过全局资源限制条件终止迭代,输出DNN中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配,本申请通过设置局部资源空闲条件、全局资源限制条件,不用先进行繁琐的测试集推理确定优先级的过程,减小了计算量,同时保证了采用此方法确定的DNN各层权重的量化位宽能够匹配给定的DNN加速器可用资源情况。

Description

一种基于忆阻器的DNN加速器的资源分配方法及装置
技术领域
本发明涉及一种DNN加速器的资源分配方法及装置,特别是一种基于忆阻器的DNN加速器的资源分配方法及装置。
背景技术
深度神经网络(Deep Neural Networks,DNN)技术已广泛应用到计算机视觉、语音识别等领域,并取得了突破性的成功;DNN中两种最常见的网络类型——卷积神经网络和全连接神经网络(如不特别指出,以下所述的DNN专指卷积神经网络和全连接神经网络这两类)的计算过程涉及到大量的乘累加操作,需进行大量的数据计算和数据移动操作,在传统冯诺依曼架构下,DNN模型的计算功耗和面积开销大、计算速度也受访存带宽的限制,对其在边缘设备上部署造成了困难;由于忆阻器低功耗、高存储密度、和存内计算的特性,尤其考虑到利用忆阻器构建的交叉阵列的电压电流关系与DNN乘累加的计算模式高度匹配,因而用忆阻器交叉阵列构建存算一体架构的DNN加速器(简称为:忆阻加速器)来在边缘设备上高效实现DNN的计算已成为一个热门的研究方向。
实现DNN加速计算的通用忆阻加速器,通常包含若干个由多个忆阻器交叉阵列和其他外围电路构成的计算模块。计算模块是完整包含了一层神经网络计算需要的所有功能(包括卷积或全连接要求的乘累加计算、激活函数、池化等)的最小单位。因此,映射时,DNN中的每一层会根据该层权重规模大小被映射到一个或多个计算模块中。
实现加速器对DNN模型的计算,需要将卷积层和全连接层的权重量化为定点数,并根据单个忆阻器单元可表示位数的多少,将表示权重的定点数按位映射到交叉阵列的一个或多个忆阻器单元上。然而由于DNN权重参数量巨大,若量化精度太高,则需要大量的忆阻器资源,或者说大量的计算模块,这会进一步增加加速器芯片面积和功耗;若量化精度太低,则会导致DNN性能退化甚至不可用。因此在忆阻加速器资源有限时,如何确定DNN各层权重的量化位宽来对DNN进行量化从而合理地利用忆阻加速器的资源以达到最优的性能,仍有待研究。
DNN量化常用的方法有全局量化法、分层量化法;全局量化法为网络的每一层分配相同的量化位宽,这种方法优点是量化位宽的搜索空间小,但这种方法未能考虑神经网络各层权重对量化位宽的敏感度不同的因素,某些层的精度冗余会造成忆阻器资源的浪费;分层量化法允许神经网络中不同的层有不同的量化位宽,这种方法优点在于进一步提高压缩率的同时还能保持模型精度,但分层量化会使得量化位宽的搜索空间大大增加。此外,以往的量化方法大都没有考虑忆阻器阵列的大小和忆阻加速器的结构,给出的量化方法未必能够匹配给定的忆阻加速器的计算模块和交叉阵列资源,在DNN算法实际部署时,仍会遇到问题。
发明内容
本发明的一个目的就是提供一种基于忆阻器的DNN加速器的资源分配方法,所述深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;所述用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,它可以对基于忆阻器的DNN加速器的资源进行分配。
本发明的目的是通过这样的技术方案实现的,它包括有以下步骤:
1)参数设置:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
2)数据采集:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;
3)资源分配:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配:将步骤3)中重新分配量化位宽后的DNN模型返回步骤2),重复步骤2)—3),直到所述DNN模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配。
进一步,步骤2)中数据采集的具体步骤如下:
2-1)遍历DNN模型的全部N个层,当第i层符合局部资源空闲条件时,重复执行向第i层的量化位宽加1bit的操作,直至第i层不满足局部资源空闲条件;
2-2)重复步骤2-1)直至所述DNN模型中全部N个层均被遍历;
2-3)若DNN中的第i层满足全局资源限制条件,在仅向第i层增加1bit量化位宽的设置下对所述DNN模型进行量化,得到量化模型,通过量化模型对测试数据进行推理,得到推理准确度Pi,其中i=1,2,...N。
进一步,步骤2-3)中对所述DNN模型进行量化的步骤如下:
2-3-1-1)寻找待映射DNN模型中第i层权重绝对值的最大值max_absi
2-3-1-2)根据第i层的量化位宽qbitsi,用量化位中的最高位表示权重正负号,剩余位表示权重绝对值时,权重绝对值的位可表示的最大整数max_inti为:
Figure BDA0002854532030000031
2-3-1-3)计算第i层权重的最小量化单位Δi,其中:
Figure BDA0002854532030000032
2-3-1-4)将第i层中的每一个全精度浮点值权重x,采用量化函数Q转换为相应的低精度值Q(x),其中:
Figure BDA0002854532030000033
式(3)中,round(.)是取整函数,用于将浮点数转换为距离它最近的整数;clip(.)是截断函数,用来限制量化后定点数的范围,其中:
Figure BDA0002854532030000034
式(4)中,T1=max_inti,T2=-max_inti
2-3-1-5)重复步骤2-3-1-1)-2-3-1-4),直至所述DNN模型中全部N个层均被遍历,DNN模型进行量化完成。
进一步,步骤2)中局部资源空闲条件为:
若将第i层的量化位宽加1bit,在此量化位宽设置下将第i层权重映射到DNN加速器上,第i层自身占用DNN加速器的计算模块数不增加,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足局部资源空闲条件。
进一步,步骤4)中全局资源限制条件为:
若将第i层的量化位宽加1bit,且其他层的量化位宽不变时,在此量化位宽设置下将DNN模型映射到加速器上,其DNN模型占用DNN加速器的计算模块数未超过DNN加速器可用计算模块的总数,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足全局资源限制条件。
进一步,所述DNN模型的权重按位排布采用同一阵列内相邻排布的方式,将DNN模型映射到忆阻器上第i层网络占用DNN加速器的计算模块数module_numi为:
Figure BDA0002854532030000041
Figure BDA0002854532030000042
式(5)、(6)中,row_num_reali是映射第i层网络所需交叉阵列的字线数,column_num_reali是映射第i层网络所需交叉阵列的位线数,unit_numi是映射第i层网络所需的计算单元数;n、m表示所述忆阻器交叉阵列单个阵列具有n条字线、m条位线及n×m个存储器元件,p表示单个计算模块包含计算单元的个数;
若该第i层为卷积层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射该层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Kxi*Kyi*Cini (7)
Figure BDA0002854532030000043
式(7)、(8)中,Kxi和Kyi别为第i层卷积核的宽和高,Cini为第i层卷积核的通道数,Couti为第i层卷积层中卷积核的个数,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure BDA0002854532030000044
就是表示一个权重值需要的忆阻器单元数;
若第i层为全连接层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射第i层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Cini (9)
Figure BDA0002854532030000045
式(9)、(10)中,Cini为全连接层的输入特征向量的长度,Couti为全连接层的输出特征向量的长度,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure BDA0002854532030000046
就是表示一个权重值需要的忆阻器单元数。
本发明的另一个目的就是提供一种基于忆阻器的DNN加速器的资源分配装置,所述深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;所述用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,它可以对基于忆阻器的DNN加速器的资源进行分配。
本发明的这个目的是通过这样的技术方案实现的,它包括有以下模块:
1)参数设置模块:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
2)数据采集模块:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;
3)资源分配模块:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配模块:将重新分配量化位宽后的模型进行迭代分配,直到所述DNN模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配。
由于采用了上述技术方案,本发明具有如下的优点:
1、本申请通过用全局资源限制条件约束,保证了采用此方法确定的DNN模型各层权重的量化位宽能够匹配给定的DNN加速器可用资源情况;2、在以分层量化为原则的前提下,本申请所提出的优先级迭代法,各层量化位宽的搜索空间只随DNN模型的层数增加而线性增加,缩小了量化位宽的搜索空间,加快了最优量化位宽的确定过程;3、通过加入局部资源空闲条件的判断,让增加量化位宽而不会导致本层占用加速器计算模块个数增加的层直接增加量化位宽,而不用先进行繁琐的测试集推理确定优先级的过程,加快了整体量化位宽的确定过程;4、通过加入最大量化位宽限制条件,通过引入一个先验过的足够可靠的量化位宽作为最大量化位宽限制,避免量化位宽的盲目增加带来不必要的精度冗余,进一步减小了量化位宽的搜索空间。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的流程图。
图2为本发明实施例1中权重在忆阻器交叉阵列上按位排布的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
实施例1:
1.一种基于忆阻器的DNN加速器的资源分配方法,所述深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;所述用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,其特征在于,所述资源分配方法包括以下步骤:
1)参数设置:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
全部N个层的量化位宽初始值设置为允许的最小量化位宽,如:必须用1位表示权重的正负,另外还需要用最少1位来表示权重的绝对值时,可以考虑将量化位宽初始值均设为2bit;此外,也可以根据先验知识将初始量化位宽设为其他值,各层的初始量化位宽也可以不同,但各层的初始量化位宽仍须大于等于允许的最小量化位宽;且设置初始量化位宽须保证在此量化位宽条件下,DNN模型映射到所用忆阻加速器上时占用的总计算模块数不能超过可用计算模块的总数。如果需占用资源超过可用资源,那么需要调小初始量化位宽,或者增大可用计算模块数。
2)数据采集:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;其具体步骤如下:
2-1)遍历DNN模型的全部N个层,当第i层符合局部资源空闲条件时,重复执行向第i层的量化位宽加1bit的操作,直至第i层不满足局部资源空闲条件;所述局部资源空闲条件为:
若将第i层的量化位宽加1bit,在此量化位宽设置下将第i层权重映射到DNN加速器上,第i层自身占用DNN加速器的计算模块数不增加,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足局部资源空闲条件;
满足局部资源空闲条件的层,在当前量化位宽条件下被映射后所在的计算模块,还有映射多1bit量化位宽时的该层的能力,由于这时给该层增加量化位宽不会增加资源开销,所以可以直接给这些层增加量化位宽。
2-2)重复步骤2-1)直至所述DNN模型中N层均被遍历;
2-3)若DNN中的第i层满足全局资源限制条件,在仅向第i层增加1bit量化位宽的设置下对所述DNN模型进行量化,得到量化模型,通过量化模型对测试数据进行推理,得到推理准确度Pi,其中i=1,2,...N;所述对DNN模型进行量化的步骤如下:
2-3-1-1)寻找待映射DNN模型中第i层权重绝对值的最大值max_absi
2-3-1-2)根据第i层的量化位宽qbitsi,用量化位中的最高位表示权重正负号,剩余位表示权重绝对值时,权重绝对值的位可表示的最大整数max_inti为:
Figure BDA0002854532030000071
2-3-1-3)计算第i层权重的最小量化单位Δi,其中:
Figure BDA0002854532030000072
2-3-1-4)将第i层中的每一个全精度浮点值权重x,采用量化函数Q转换为相应的低精度值Q(x),其中:
Figure BDA0002854532030000073
式(13)中,round(.)是取整函数,用于将浮点数转换为距离它最近的整数;clip(.)是截断函数,用来限制量化后定点数的范围,其中:
Figure BDA0002854532030000074
式(14)中,T1=max_inti,T2=-max_inti
2-3-1-5)重复步骤2-3-1-1)-2-3-1-4),直至所述DNN模型中全部N个层均被遍历,DNN模型进行量化完成。
3)资源分配:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配:将步骤3)中重新分配量化位宽后的DNN模型返回步骤2),重复步骤2)—3),直到所述DNN模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配;所述全局资源限制条件为:
若将第i层的量化位宽加1bit,且他层的量化位宽不变时,在此量化位宽设置下将DNN模型映射到加速器上,其DNN模型占用DNN加速器的计算模块数未超过DNN加速器可用计算模块的总数,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足全局资源限制条件;
在本发明实例中,在局部资源空闲条件、全局资源限制条件中设置的允许最大量化位宽目的是,一些研究工作证明了一些网络在量化位宽为8时,相比全精度模型,其在准确度指标上几乎没有退化,那么,通过引入一个先验过的足够可靠的量化位宽作为最大量化位宽限制,避免量化位宽的盲目增加带来不必要的精度冗余,可以进一步减小量化位宽的搜索空间。
在本发明实例中,基于忆阻器的DNN加速器包含有若干计算模块,每个计算模块包含若干个计算单元,每个计算单元包含两个忆阻器交叉阵列分别用来存放数值为正数和数值为负数的权重的绝对值的定点数的值,但每个忆阻器单元可以表示比特数有限,通常需要用多个忆阻器单元表示一个权重值。当所述DNN模型的权重按位排布采用如图2所示的同一阵列内相邻排布的方式(图2中第一行为定点数表示的权重;第二行为每个忆阻器表示的比特位;第三行为单个忆阻器交叉阵列,横向线段为该忆阻器交叉阵列的字线,纵向线段为该忆阻器交叉阵列的位线;),将DNN模型映射到忆阻器上第i层网络占用DNN加速器的计算模块数module_numi为:
Figure BDA0002854532030000081
Figure BDA0002854532030000082
式(15)、(16)中,row_num_reali是映射第i层网络所需交叉阵列的字线数,column_num_reali是映射第i层网络所需交叉阵列的位线数,unit_numi是映射第i层网络所需的计算单元数;n、m表示所述忆阻器交叉阵列单个阵列具有n条字线、m条位线及n×m个存储器元件,p表示单个计算模块包含计算单元的个数;
若该第i层为卷积层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射该层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Kxi*Kyi*Cini (17)
Figure BDA0002854532030000083
式(17)、(18)中,Kxi和Kyi别为第i层卷积核的宽和高,Cini为第i层卷积核的通道数,Couti为第i层卷积层中卷积核的个数,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure BDA0002854532030000084
就是表示一个权重值需要的忆阻器单元数;
若第i层为全连接层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射第i层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Cini (19)
Figure BDA0002854532030000091
式(19)、(20)中,Cini为全连接层的输入特征向量的长度,Couti为全连接层的输出特征向量的长度,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure BDA0002854532030000092
就是表示一个权重值需要的忆阻器单元数。
将DNN模型映射到忆阻加速器上时,模型占用DNN加速器的计算模块的总数为各个层占用计算模块数之和。
忆阻加速器的结构以及DNN在加速器上的映射方式并非唯一的,上面的描述只是举出忆阻加速器结构以及DNN映射方式的典型实例,以证明本发明的问题来源的真实性以及本发明实施方案的可行性,本申请所提出的方法并不仅限在用于上面描述的情况。
实施例2:
一种基于忆阻器的DNN加速器的资源分配装置,所述深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;所述用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,其特征在于,所述资源分配装置包括以下模块:
1)参数设置模块:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
2)数据采集模块:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;
3)资源分配模块:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配模块:将重新分配量化位宽后的模型进行迭代分配,直到所述DNN模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (4)

1.一种基于忆阻器的DNN加速器的资源分配方法,深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,其特征在于,所述资源分配方法包括以下步骤:
1)参数设置:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
2)数据采集:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;
3)资源分配:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配:将步骤3)中重新分配量化位宽后的DNN模型返回步骤2),重复步骤2)—3),直到所述DNN模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配;
步骤2)中局部资源空闲条件为:
若将第i层的量化位宽加1bit,在此量化位宽设置下将第i层权重映射到DNN加速器上,第i层自身占用DNN加速器的计算模块数不增加,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足局部资源空闲条件;
步骤4)中全局资源限制条件为:
若将第i层的量化位宽加1bit,且其他层的量化位宽不变时,在此量化位宽设置下将DNN模型映射到加速器上,其DNN模型占用DNN加速器的计算模块数未超过DNN加速器可用计算模块的总数,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足全局资源限制条件;
所述DNN模型的权重按位排布采用同一阵列内相邻排布的方式,将DNN模型映射到忆阻器上第i层网络占用DNN加速器的计算模块数module_numi为:
Figure FDA0003621107360000011
Figure FDA0003621107360000012
式(1)、(2)中,row_num_reali是映射第i层网络所需交叉阵列的字线数,column_num_reali是映射第i层网络所需交叉阵列的位线数,unit_numi是映射第i层网络所需的计算单元数;n、m表示所述忆阻器交叉阵列单个阵列具有n条字线、m条位线及n×m个存储器元件,p表示单个计算模块包含计算单元的个数;
若该第i层为卷积层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射该层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Kxi*Kyi*Cini (3)
Figure FDA0003621107360000021
式(3)、(4)中,Kxi和Kyi为第i层卷积核的宽和高,Cini为第i层卷积核的通道数,Couti为第i层卷积层中卷积核的个数,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure FDA0003621107360000022
就是表示一个权重值需要的忆阻器单元数;
若第i层为全连接层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射第i层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Cini (5)
Figure FDA0003621107360000023
式(5)、(6)中,Cini为全连接层的输入特征向量的长度,Couti为全连接层的输出特征向量的长度,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure FDA0003621107360000024
就是表示一个权重值需要的忆阻器单元数。
2.如权利要求1所述的一种基于忆阻器的DNN加速器的资源分配方法,其特征在于,步骤2)中数据采集的具体步骤如下:
2-1)遍历DNN模型的全部N个层,当第i层符合局部资源空闲条件时,重复执行向第i层的量化位宽加1bit的操作,直至第i层不满足局部资源空闲条件;
2-2)重复步骤2-1)直至所述DNN模型中全部N个层均被遍历;
2-3)若DNN中的第i层满足全局资源限制条件,在仅向第i层增加1bit量化位宽的设置下对所述DNN模型进行量化,得到量化模型,通过量化模型对测试数据进行推理,得到推理准确度Pi,其中i=1,2,...N。
3.如权利要求2所述的一种基于忆阻器的DNN加速器的资源分配方法,其特征在于,步骤2-3)中对所述DNN模型进行量化的步骤如下:
2-3-1-1)寻找待映射DNN模型中第i层权重绝对值的最大值max_absi
2-3-1-2)根据第i层的量化位宽qbitsi,用量化位中的最高位表示权重正负号,剩余位表示权重绝对值时,权重绝对值的位可表示的最大整数max_inti为:
Figure FDA0003621107360000031
2-3-1-3)计算第i层权重的最小量化单位△i,其中:
Figure FDA0003621107360000032
2-3-1-4)将第i层中的每一个全精度浮点值权重x,采用量化函数Q转换为相应的低精度值Q(x),其中:
Figure FDA0003621107360000033
式(9)中,round(.)是取整函数,用于将浮点数转换为距离它最近的整数;clip(.)是截断函数,用来限制量化后定点数的范围,其中:
Figure FDA0003621107360000034
式(10)中,T1=max_inti,T2=-max_inti
2-3-1-5)重复步骤2-3-1-1)-2-3-1-4),直至所述DNN模型中全部N个层均被遍历,DNN模型进行量化完成。
4.一种基于忆阻器的DNN加速器的资源分配装置,深度神经网络DNN为卷积神经网络或全连接神经网络,其包含卷积层和全连接层的总层数为N,N为正整数;用于加载深度神经网络DNN模型的基于忆阻器的DNN加速器包含有若干计算模块,其特征在于,所述资源分配装置包括以下模块:
1)参数设置模块:初始化待映射DNN全精度模型中全部N个层的量化位宽,各层的量化位宽的初始值为该层所需的最小量化位宽;
2)数据采集模块:增加所述DNN模型中各层的量化位宽,使各层均不满足局部资源空闲条件,计算当仅向第i层增加1bit的量化位宽时,量化后的DNN模型对测试数据进行推理的准确度Pi,其中i=1,2,...N;
3)资源分配模块:比较步骤2)中得到的各个准确度Pi,若准确度最大值唯一,则向对应最大准确度的层增加1bit的量化位宽,若准确度最大值不唯一,则向对应最大准确度且位置最靠近输入端的层增加1bit的量化位宽;
4)迭代分配模块:将重新分配量化位宽后的模型进行迭代分配,直到所述DNN 模型的各层均不满足全局资源限制条件,输出所述DNN模型中各层的量化位宽,并映射到DNN加速器,完成DNN加速器的资源分配;
所述局部资源空闲条件为:
若将第i层的量化位宽加1bit,在此量化位宽设置下将第i层权重映射到DNN加速器上,第i层自身占用DNN加速器的计算模块数不增加,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足局部资源空闲条件;
所述全局资源限制条件为:
若将第i层的量化位宽加1bit,且其他层的量化位宽不变时,在此量化位宽设置下将DNN模型映射到加速器上,其DNN模型占用DNN加速器的计算模块数未超过DNN加速器可用计算模块的总数,且第i层的量化位宽不超过允许的最大量化位宽,则第i层满足全局资源限制条件;
所述DNN模型的权重按位排布采用同一阵列内相邻排布的方式,将DNN模型映射到忆阻器上第i层网络占用DNN加速器的计算模块数module_numi为:
Figure FDA0003621107360000041
Figure FDA0003621107360000042
式(11)、(12)中,row_num_reali是映射第i层网络所需交叉阵列的字线数,column_num_reali是映射第i层网络所需交叉阵列的位线数,unit_numi是映射第i层网络所需的计算单元数;n、m表示所述忆阻器交叉阵列单个阵列具有n条字线、m条位线及n×m个存储器元件,p表示单个计算模块包含计算单元的个数;
若该第i层为卷积层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射该层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Kxi*Kyi*Cini (13)
Figure FDA0003621107360000043
式(13)、(14)中,Kxi和Kyi为第i层卷积核的宽和高,Cini为第i层卷积核的通道数,Couti为第i层卷积层中卷积核的个数,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure FDA0003621107360000044
就是表示一个权重值需要的忆阻器单元数;
若第i层为全连接层,映射第i层网络所需交叉阵列的字线数row_num_reali和映射第i层网络所需交叉阵列的位线数column_num_reali计算公式如下:
row_num_reali=Cini (15)
Figure FDA0003621107360000051
式(15)、(16)中,Cini为全连接层的输入特征向量的长度,Couti为全连接层的输出特征向量的长度,qbitsi是第i层权重的量化位宽,qbitsi-1是权重绝对值的位宽,cbits是单个忆阻器单元可表示的比特数,
Figure FDA0003621107360000052
就是表示一个权重值需要的忆阻器单元数。
CN202011539621.9A 2020-12-23 2020-12-23 一种基于忆阻器的dnn加速器的资源分配方法及装置 Active CN112561049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011539621.9A CN112561049B (zh) 2020-12-23 2020-12-23 一种基于忆阻器的dnn加速器的资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011539621.9A CN112561049B (zh) 2020-12-23 2020-12-23 一种基于忆阻器的dnn加速器的资源分配方法及装置

Publications (2)

Publication Number Publication Date
CN112561049A CN112561049A (zh) 2021-03-26
CN112561049B true CN112561049B (zh) 2022-06-17

Family

ID=75032257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011539621.9A Active CN112561049B (zh) 2020-12-23 2020-12-23 一种基于忆阻器的dnn加速器的资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN112561049B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516234B (zh) * 2021-05-10 2024-04-09 西安交通大学 一种缓解忆阻加速器非理想因素的方法及装置
CN114677548B (zh) * 2022-05-26 2022-10-14 之江实验室 基于阻变存储器的神经网络图像分类系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889503A (zh) * 2019-11-26 2020-03-17 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN111563589A (zh) * 2020-04-14 2020-08-21 中科物栖(北京)科技有限责任公司 一种神经网络模型的量化方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676028B2 (en) * 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889503A (zh) * 2019-11-26 2020-03-17 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN111563589A (zh) * 2020-04-14 2020-08-21 中科物栖(北京)科技有限责任公司 一种神经网络模型的量化方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Survey of Accelerator Architectures for Deep Neural Networks;Yiran Chen等;《Engineering》;20200129;264-274 *
RED: A ReRAM-based Efficient Accelerator for Deconvolutional Computation;Ziru Li等;《IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS》;20200331;第14卷(第8期);1-12 *
嵌入式智能计算加速技术综述;李欣瑶等;《2019年(第四届)中国航空科学技术大会论文集》;20190815;996-1004 *

Also Published As

Publication number Publication date
CN112561049A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
US11803738B2 (en) Neural network architecture using convolution engine filter weight buffers
Parashar et al. SCNN: An accelerator for compressed-sparse convolutional neural networks
CN107239829B (zh) 一种优化人工神经网络的方法
CN111563589B (zh) 一种神经网络模型的量化方法及装置
CN112561049B (zh) 一种基于忆阻器的dnn加速器的资源分配方法及装置
CN112329910B (zh) 一种面向结构剪枝结合量化的深度卷积神经网络压缩方法
US20220129519A1 (en) Apparatus and method for matrix multiplication using processing-in-memory
US11416737B2 (en) NPU for generating kernel of artificial neural network model and method thereof
GB2568102A (en) Exploiting sparsity in a neural network
EP3933706A1 (en) Number format selection in recurrent neural networks
CN112668708A (zh) 一种提高数据利用率的卷积运算装置
CN109214502A (zh) 神经网络权重离散化方法和系统
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN114626516A (zh) 一种基于对数块浮点量化的神经网络加速系统
Kim et al. V-LSTM: An efficient LSTM accelerator using fixed nonzero-ratio viterbi-based pruning
US20220222533A1 (en) Low-power, high-performance artificial neural network training accelerator and acceleration method
Karimzadeh et al. Towards energy efficient dnn accelerator via sparsified gradual knowledge distillation
CN110889080B (zh) 乘积累加运算装置、乘积累加运算方法和系统
Liu et al. SoBS-X: Squeeze-out bit sparsity for ReRAM-crossbar-based neural network accelerator
Zhan et al. Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems
Fong et al. A cost-effective CNN accelerator design with configurable PU on FPGA
Qu et al. A coordinated model pruning and mapping framework for rram-based dnn accelerators
WO2022247368A1 (en) Methods, systems, and mediafor low-bit neural networks using bit shift operations
EP3933705A1 (en) Methods and systems for running dynamic recurrent neural networks in hardware
Sabri et al. Redy: A novel reram-centric dynamic quantization approach for energy-efficient cnn inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant