CN111931922A - 一种提高模型推断精度的量化方法 - Google Patents

一种提高模型推断精度的量化方法 Download PDF

Info

Publication number
CN111931922A
CN111931922A CN201911257734.7A CN201911257734A CN111931922A CN 111931922 A CN111931922 A CN 111931922A CN 201911257734 A CN201911257734 A CN 201911257734A CN 111931922 A CN111931922 A CN 111931922A
Authority
CN
China
Prior art keywords
neural network
network model
integers
bit width
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911257734.7A
Other languages
English (en)
Other versions
CN111931922B (zh
Inventor
郭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN111931922A publication Critical patent/CN111931922A/zh
Application granted granted Critical
Publication of CN111931922B publication Critical patent/CN111931922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/14Conversion to or from non-weighted codes
    • H03M7/24Conversion to or from floating-point codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开描述了用于量化训练的神经网络模型的各种实施方式。在一个实施方式中,描述了一种两阶段量化方法。在离线阶段,对于每个层,在每信道的基础上,将该神经网络模型的静态生成的元数据(例如权重和偏差)从浮点数量化成较低位宽的整数。动态生成的元数据(例如,输入特征映射)不在该离线阶段量化。相反,对于每个层,在每信道的基础上,为该动态生成的元数据生成量化模型。这些量化模型和该量化的元数据可以存储在量化元文件中,该量化元文件可以作为该神经网络模型的一部分部署到AI引擎中以便执行。一个或多个特殊编程的硬件部件可以基于该量化元文件中的信息来量化该神经网络模型的每个层。

Description

一种提高模型推断精度的量化方法
技术领域
本公开的实施方式总体上涉及人工智能(AI)引擎。更具体地,本公开的实施方式涉及神经网络量化。
背景技术
作为人工智能(AI)的分支,机器学习可以执行任务,而无需使用专门为该任务编程的应用程序。相反,机器学习可以在训练过程中从给定任务的过去示例中学习,这通常涉及从数据集中学习权重。
训练的机器学习模型(例如,神经网络模型)可以通过推断对输入数据执行任务,并且通常使用32位浮点表示作为默认表示,来表示模型的元数据(例如,权重和偏差)。在推断过程中,输入特征映射可以32位整数来表示。元数据和输入特征映射的较大位宽会严重影响神经网络模型的性能,因为使用32位表示的操作往往比使用8位或16位表示的操作更慢,并且还使用多得多的内存。对于在通常受限于计算资源(例如,存储器、CPU能力)的移动设备或嵌入式设备(例如,无人机和手表)上运行的深度学习应用程序而言,这可能会带来问题。
因此,已经使用技术来量化训练的神经网络模型。量化是将输入值从大集合映射到较小集合中的输出值的过程。一个示例是将32位整数映射为8位整数。量化的神经网络模型可以使用更少的内存消耗、更少的存储空间,可以更易于更新并且更易于在小带宽连接上共享。然而,随着量化而减小位宽通常会导致量化的神经网络模型的推断精度急剧下降。
发明内容
在本公开的一方面,提供了一种在集成电路内执行的方法,包括:
在具有在集成电路内实现的多个层的基于硬件的神经网络模型的第一层处接收输入特征映射,其中所述输入特征映射由第一位宽的整数表示;以及
针对与所述输入特征映射相关联的多个信道中的每个信道,
基于与所述神经网络模型相关联的元文件,确定与所述信道相关联的一组量化参数,其中所述一组量化参数指定所述第一位宽的整数的范围以及第二位宽的整数的类型,并且
基于所述一组量化参数,在所述信道处将所述输入特征映射从所述第一位宽的第一组整数量化成所述第二位宽的第二组整数。
在本公开的另一方面,提供了一种集成电路,包括:
缩放逻辑,所述缩放逻辑配置成
在具有多个层的基于硬件的神经网络模型的第一层处接收输入特征映射,其中所述输入特征映射由第一位宽的整数表示,以及
针对与所述输入特征映射相关联的多个信道中的每个信道,
基于与所述神经网络模型相关联的元文件,确定与所述信道相关联的一组量化参数,其中所述一组量化参数指定所述第一位宽的整数的范围以及第二位宽的整数的类型,并且
基于所述一组量化参数,在所述信道处将所述输入特征映射从所述第一位宽的第一组整数量化成所述第二位宽的第二组整数;以及
多个乘法累加(MAC)单元,以对所量化的输入特征映射执行数据处理操作。
在本公开的又一方面,提供了一种用于量化神经网络模型的计算机实现的方法,包括:
从训练数据集中提取数据的子集,其中所述训练数据集包括用于训练所述神经网络模型的第一子集以及用于验证由浮点值表示的第一神经网络模型的第二子集;
使用所述第一神经网络模型对所提取的数据的子集执行多个推断,所述第一神经网络模型具有多个层,并且所述层中的每一个均包括多个信道;
量化所述第一神经网络模型以生成由整数值表示的第二神经网络模型;以及
为所述层中的每个层的所述信道中的每个信道生成一组量化元数据,其中所述第二神经网络模型能够部署在集成电路中,以便以整数执行数据分类操作,并且其中所述量化元数据用于缩放在所述第二神经网络模型的每个层的所述信道中的每个信道中生成的数据。
附图说明
本公开的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同参考标记指示相似元件。
图1展示了根据实施方式的使用量化神经网络的流程图。
图2A和图2B展示了根据实施方式的在卷积神经网络中量化特定层的示例性过程。
图3展示了根据实施方式的用于量化神经网络模型的示例性系统。
图4展示了根据实施方式的示例性离线量化系统。
图5展示了根据实施方式的示例性离线量化过程。
图6进一步展示了根据实施方式的示例性在线量化过程。
图7A至图7C展示了根据实施方式的量化神经网络模型的元数据的示例性过程。
图8展示了流程图,该流程图展示了根据实施方式的量化神经网络的示例性过程。
图9展示了流程图,该流程图展示了根据实施方式的量化神经网络的另一示例性过程。
图10是示出可以与一个实施方式一起使用的数据处理系统的框图。
具体实施方式
将参考以下所讨论的细节来描述本公开的各种实施方式和方面,附图将示出所述各种实施方式。下列描述和附图是本公开的说明,而不应当解释为对本公开进行限制。描述了许多特定细节以提供对本公开的各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节,以提供对本公开的实施方式的简洁讨论。
本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。
本公开描述了用于量化训练的神经网络模型的各种实施方式。在一个实施方式中,描述了一种两阶段量化方法。在离线阶段,对于每个层,在每信道的基础上,将神经网络模型的静态生成的元数据(例如权重和偏差)从浮点数量化成较低位宽的整数。动态生成的元数据(例如,输入特征映射)不在离线阶段量化。相反,对于每个层,在每信道的基础上,为动态生成的元数据生成量化模型。量化模型和量化的元数据可以存储在量化元文件中,该量化元文件可以作为神经网络模型的一部分部署到AI引擎中以便执行。一个或多个特殊编程的硬件部件可以基于量化元文件中的信息来量化神经网络模型的每个层。
在一个实施方式中,离线量化工具可以使用神经网络模型对从训练数据中提取的数据的子集执行多个推断,并且每信道每层为输入特征映射生成数据分布。基于数据分布,离线量化工具可以删除异常值,以为每个层的每个信道确定最小浮点值和最大浮点值。也可以确定具有最大浮点值和最小浮点值的相同位宽的对应整数。离线量化工具可以基于最大浮点值和最大整数、最小浮点值和最小整数、以及较低位宽的整数类型来为每个层的每个信道生成用于输入特征映射的量化模型。当神经网络模型在AI引擎上运行时,量化模型可以用于量化输入特征映射。
在一个实施方式中,量化神经网络模型可以部署在包括被配置成执行指令以执行量化神经网络模型的一个或多个操作的多个硬件部件的集成电路上。例如,可以对累加器硬件部件进行编程,以累加训练的神经网络的量化层的输出,并且对输出添加量化信道偏置以生成该层的浮点输出。可以对缩放器硬件部件进行编程,以使用该层的量化模型来将该层的浮点输出重新缩放回整数表示(例如,8位表示),随后将输出馈送到下一层作为输入。
在一个实施方式中,离线量化每层每信道的权重和偏差。在对神经网络模型的每个层的每个信道的权重和偏差进行量化时,离线量化工具可以基于执行的多个推断来生成浮点值的数据分布。可以删除正态分布两端的一个或多个异常值,可以确定不具有异常值的正态分布的上界和下界,并且可以识别浮点表示中使整数对应于零的最接近的整数。利用上界、下界和最接近的整数,离线量化工具可以执行预定算法,以将上界与下界之间的每个浮点值映射到整数,例如8位表示中的0与255之间的整数。
与仅在层级上量化权重的现有的量化技术相比,本公开中描述的每信道量化方法可以比每层量化提高推断精度。通过对每一层的所有信道的所有高斯分布进行集总,每层量化方法将导致推断精度的损失,因为每个信道可能具有不同的高斯分布,并且信道的分布可能与整个特征映射或另一信道不同。可以通过使用专用硬件并且通过与AI引擎上的整个特征映射量化并行执行逐信道量化和重新量化来减少与逐信道量化和重新量化相关联的计算成本。
因此,本公开中的实施方式可以提供可以在现有的量化技术之上提高神经网络模型的量化的推断精度而不降低推断速度的系统和方法。
图1展示了根据实施方式的使用量化神经网络模型的示例性流程图。如图所示,在阶段101处,可以使用离线量化工具(诸如Caffee FP32)训练神经网络模型。在阶段103处,可以使用量化工具111以使用神经网络模型对校准图像执行推断。例如,可以提供大组图像作为神经网络模型的输入,这可以生成每个层(例如卷积神经网络模型中的每个卷积层)的权重和偏差的数据分布。在阶段105处,量化工具111可以将数据分布中的权重从浮点表示量化成整数表示(例如8位或16位表示)。在阶段107处,可以将量化的神经网络模型转换成将要部署量化神经网络模型的设备可识别的格式。在最后阶段109处,可以使用神经网络模型对输入数据执行推断。
如上所述,具有较低位深度的算术运算倾向于更快。例如,使用8位或16位整数的运算往往要快于使用32位浮点数的运算。因此,量化神经网络模型将使用更少的内存、更少的存储空间,可以更容易地在小带宽连接上共享,并且可以更容易地更新。
然而,示例性流程图展示了其中仅量化神经网络模型的每一层的权重和偏差的使用情况。尽管此方法可以具有上述好处(例如,较少的内存使用),但是量化神经网络模型的推断精度可能会受到影响。
图2A和图2B展示了根据实施方式的在卷积神经网络中量化特定层的示例性过程。
卷积神经网络(CNN)可以包括多个卷积(CONV)层以及一个或多个全连接(FC)层。对于每个CONV层,可以提取输入数据的较高层次的抽象化,以保留输入数据的基本但唯一的信息。输入数据的较高层次的抽象化是从输入数据中提取的特征映射。
每个层可以将一个或多个特征映射作为输入并且生成一个或多个输出特征映射,输出特征映射进而可以提供给下一层作为输入特征映射。出于分类目的,神经网络模型中的最终的CONV层的输出特征映射可以由FC层处理。在CONV层与FC层之间,可以添加附加层,诸如池化和归一化层。每个CONV层或FC层也可以由激活层跟随,诸如修正线性单元(ReLU)。
参考图2A,可以将多个内核(即滤波器)203应用于输入图像的输入特征映射201。将内核203在整个输入图像上全局应用,以产生输出矩阵205。
在一个实施方式中,如本文所使用的,滤波器可以由一个或多个权重(例如2.4、3.5或7.8)表示,并且提供一段输入与特征的相似程度的度量。特征的示例可以包括竖直边缘或拱形。该特征因此不被识别为手工特征,而是通过学习算法从数据中衍生。可以使用滤波器将输入卷积到CONV层。对层卷积意味着将每个滤波器的权重乘以输入特征映射的像素值,并且将乘积相加以产生输出张量。如果使用偏差,则可以将偏差添加到输出中。
在一个实施方式中,如本文中所使用的,神经网络模型中的每个层的偏差节点是一直打开的节点并且具有值1,而不考虑给定模式中的数据。偏差节点类似于回归模型中的截距,并且可以起到相同的作用。在给定层中没有偏差节点的情况下,当特征值为0时,神经网络模型将无法在下一层中产生与0不同的输出。
在图2A中,输入特征映射201包括3个信道,即红色、绿色和蓝色(RGB)信道。后续层可以在数据的3-D表示上进行操作,其中前两个维度可以是图像块的高度和宽度,并且第三维度是堆叠在彼此上的多个这种块(即红色、绿色和蓝色)。随着用于使后续层卷积的滤波器的数量发生变化,与每个后续层相关联的信道数量也可能发生变化。
在图2A中,输入特征映射201、内核203和输出特征映射205均为浮点表示。图2B示出了图2A所示的层被量化,其中输入特征映射207、内核209和输出特征映射211被减小成整数表示。
图3展示了根据实施方式的用于量化神经网络模型的示例性系统。如图所示,对神经网络模型(例如,CNN模型)进行量化可以包括离线阶段336和在线阶段337。对于离线阶段336,具有量化模块327的离线量化工具353在神经网络的每个层的信道级别上量化训练的神经网络模型351。
如上所述,训练的CNN的每个卷积层可以与元数据相关联。一些元数据(例如权重和偏差)是在CNN训练期间静态生成的,而其他元数据(例如输入特征映射和输出特征映射)是动态生成的,而不是训练的神经网络的一部分。在将训练的神经网络部署到用于推断输入图像的设备(例如图形处理单元或GPU或AI引擎)之前,动态生成的元数据不可用。在离线推断期间,与每个层相关联的元数据呈浮点(例如32位)表示。
在一个实施方式中,在离线状态336期间,可以将训练的神经网络模型351部署到GPU,以便用多个图像进行推断,从而为每个层的每个信道的每个元数据生成量化模型。离线量化工具352可以将每个量化模型存储在量化元文件中,该量化元文件可以作为量化神经网络模型的一部分部署到AI引擎。
在一个实施方式中,用于每个信道的静态生成的元数据(例如权重或偏差)的量化模型可以包括量化元数据和一个或多个调试参数。权重的示例性量化模型可以如下所示:{ch0、f最小、f最大、类型(有符号8/12/16、无符号8/12/16)、量化_数据},其中“ch0”表示信道指示符,“f最小”和“f最大”表示元数据的范围,“量化_数据”表示量化的元数据,并且“类型(有符号8/12/16、无符号8/12/16)”表示原始浮点元数据已被量化成的整数类型。在此示例中,整数的类型可以是8位、12位或16位。
对于在每个信道处动态生成的元数据(例如,一个或多个特征映射),量化模型可以包括一组参数,该组参数使得AI引擎能够在该信道处量化元数据。特定信道处的输入特征映射的示例性量化模型可以由以下组参数来表示:{ch0、f最小、f最大、类型(有符号8/12/16、无符号8/12/16)、int_最小、int_最大}。
在以上参数集中,“ch0”是信道(例如,第一信道、第二信道等)的数字指示符,“f最小”和“f最大”表示浮点值的每个信道分布的值范围,“int_最小”和“int_最大”是分别对应于“f最小”和“f最大”的整数,并且“类型(有符号8/12/16、无符号8/12/16)”表示输入特征映射将被量化成的整数的类型。
在一个实施方式中,当以在线模式执行神经网络模型时,示例性量化模式由集成电路301用来量化对应的元数据。在一个示例中,集成电路301可以将“int_最小”和“int_最大”内的32位整数量化成低位整数(例如8位、12位或16位)。
如图3进一步所示,在在线阶段337中,可以将量化的神经网络模型355部署到集成电路301,该集成电路具有神经网络核315以及一个或多个处理器,例如精简指令集计算机(RISC)或数字信号处理器(DSP)307。神经网络核315可以是包括多个乘法累加(MAC)单元(例如256个MAC单元)的独立处理单元,每个MAC单元(例如MAC单元317)包括多个处理元件(PE)。
在一个实施方式中,可以将量化的神经网络模型355与描述量化的量化元文件一起部署在主机302上。在运行时期间,神经网络调度器309可以经由接口305检索一个或多个映射元文件,并且使用元文件中的映射信息来分配来自神经网络核315的MAC单元,以执行量化的神经网络模型355的至少一个操作。
在一个实施方式中,集成电路101可以包括SRAM 331,以存储训练的神经网络模型355的特征映射333。SRAM 331可以存储当前层的输入特征映射切片、输出特征映射切片和权重339。随着量化神经网络模型355的执行前进到下一层,可以从主机302上的外部存储装置(例如DDR存储器)或另一个外部存储装置中检索下一层的权重,并且将其加载到SRAM331中。
在一个实施方式中,神经网络核315可以包括硬件部件,这些硬件部件被编程以执行量化神经网络模型355的特定部分。例如,神经网络核315可以包括累加器部件或逻辑319、缩放部件或逻辑321、激活部件或逻辑323、以及池化部件或逻辑325。累加器319被编程以累加来自量化神经网络模型355的卷积层的每个信道的输出,并且随后将该层的量化的每个信道的偏差相加,以产生32位整数表示的结果。缩放部件321被编程以基于在量化元文件中描述的对应的输入特征映射量化模型,将32位整数输出特征映射重新缩放回8位或16位整数表示。
在一个实施方式中,缩放部件(即缩放器)321可以实现量化算法,以将较高精度整数减少成较低精度整数。用于将32位整数减少成8位整数的示例性算法可以如下所示:
1).低精度整数的范围:
Quant INT8=(Xmin_int8,Xmax_int8)=(0,255)(量化INT8=(X最小_int8,X最大_int8)=(0,255))
2).从对应的量化模型获得高精度整数的范围
Xint32 range=(Xmin_int32,Xmax_int32)(Xint32范围=(X最小_int32,X最小_int32))
3).缩放
Xscale=(Xmax_int32-Xmin_int32)/(Xmax_int8-Xmin_int8)=(Xmax_int32–Xmin_int32)/255(X缩放=(X最大_int32-X最小_int32)/(X最大_int8-X最小_int8)=(X最大_int32 X最小_int32)/255)
4).对应的零点
Xzero_int8=Xmax_int8-Xmax_int32/Xscale=255–Xmax_int32/Xscale(X零点_int8=X最大_int8-X最大_int32/X缩放=255 X最大_int32/X缩放)
5).特征映射中对应的较低精度整数到较高精度整数
Xquant=Xint_32/Xscale+Xzero_int8=(any value in the output fmap)/Xscale+Xzero_int8(X量化=Xint_32/X缩放+X零点_int8=(输出f映射中的任何值)/X缩放+X零点_int8)
图4展示了根据实施方式的示例性离线量化系统。在一个实施方式中,离线量化平台401可以包括在GPU 403上执行的离线量化工具353。离线量化中的量化模块327可以实现预定的量化算法以基于由神经网络模型351利用来自数据集的数据的子集执行的多个推断来生成每个信道每个层的量化模型。数据集的一部分可以用来训练神经网络模型351,并且数据集的另一部分可以用来评估和验证神经网络模型351。提取的数据子集可以用于为每个元数据每个信道和每个层生成数据分布。数据分布可以是为神经网络模型351的每个层的每个信道创建量化模型的基础。
在一个实施方式中,作为说明性示例,离线量化工具353可以为特定信道处的输入特征映射生成数据分布。随后可以从数据分布中删除异常值。可以从数据分布中识别最小浮点数(f最小)和最大浮点数(f最大)。在一个示例中,f最小和f最大均为32位浮点数。离线量化工具353可以使用f最小和f最大来识别它们在32位整数表示中的对应值或范围。
基于最小浮点数(f最小)、最大浮点数(f最大)、它们相同位宽的对应整数、以及较低位宽(例如8位)的整合类型,离线量化工具353可以为信道处的输入特征映射生成量化模型。
返回参考图4,神经网络模型351可以包括三个CONV层,例如层A 405、层B 407和层C 409。每个层可以包括元数据和数字信道。例如,层A可以在层A 405中包括元数据A 413和信道A 413,并且层C 409可以包括元数据A 427和信道A 429。
如图4所示,多个量化模型439和一个或多个量化元数据441可以由离线量化工具353为层A 405生成,并且可以将其存储在量化元文件437中。类似地,对于层C 409,离线量化工具353还可以生成多个量化模型453,并且可以为层C 409生成一个或多个量化元数据455。
图4使用层B 407详细展示了由离线量化工具353创建的量化模型和量化元数据。层B包括元数据A 415和元数据B 417,它们中的每一个可以在训练神经网络模型351时静态地生成,并且可以是32位浮点表示。层B还包括多个信道421、423和425。
在一个实施方式中,离线量化模型353可以存储从数据分布获得的多个值范围(例如,值范围418),数据分布是从由神经网络模型351对来自数据集的数据的子集执行的多个推断生成的。
基于值范围,离线量化工具353可以为元数据A生成多个量化模型443,包括用于信道421、423和425中每个信道的量化模型(例如,量化模型445)。基于值范围,离线量化工具353还可以生成用于层B 407的量化元数据447,包括每个信道的量化权重(例如,量化权重449)和每个信道的量化偏差(例如,量化偏差451)。
图5展示了根据实施方式的示例性离线量化过程。在此示例性过程中,所有层及其相关联的元数据均呈32位浮点表示,并且离线量化工具(诸如上述量化工具353)可以用于将针对每个层的每个信道的权重和偏差量化成8位整数表示。
如图5所示,神经网络模型501可以包括CONV层527和CONV层529。神经网络模型501可以具有输入特征509和输出特征511。每个CONV层都可以具有输入特征映射和输出特征映射503、505和507。每个特征映射已与多个信道相关联。例如,特征映射503可以与信道509-513相关联,特征映射505可以与信道515-519相关联,并且特征映射507可以与信道521-523相关联。此外,每个CONV层的每个信道可以具有权重(未示出)以及偏差526和528。
基于由神经网络模型510对预定数据集执行的多个推断,离线量化工具可以生成每个输入特征映射的多个量化模型以及多个量化元数据。
量化模型和量化元数据531展示了量化模型和量化元数据的一些示例。图5所示的示例用于神经网络模型501的一层,并且因此表示由离线量化工具生成的量化模型和量化元数据的子集。如图所示,针对该层的每个信道生成量化模型533和535。类似地,也可以生成量化的权重和量化的偏差535和537。
图6进一步展示了根据实施方式的示例性在线量化过程。如图所示,当将量化的神经网络模型(例如,图4中的量化神经网络模型355)部署到AI引擎时,神经网络模型可以使用量化元文件和专门编程的硬件部件来为每个层的每个信道量化该层的输入特征映射。
在图6所示的示例中,神经网络模型包括卷积层611和卷积层623。到卷积层611的输入特征映射601由32位整数表示。因此,在被馈送到卷积层611之前,使用对应于模型的相应层的相应信道的元数据531,将输入特征映射601量化成每个信道603、605和607的8位特征映射609。偏差612也量化成8位表示。即,对于每个信道,使用最小整数值和最大整数值作为缩放因子将32位数据缩减成8位数据,以确保量化数据在模型的该特定层的该特定信道的相应范围内。类似地,当将32位数据635缩放成浮点值637时,作为与对应层的信道相对应的元数据的一部分的元数据最大浮点值和最小浮点值用于将输出维持在预期范围内。因此,可以使用集成电路或处理器的整数单元来执行通常使用浮点处理的神经网络模型。整数的计算可以执行得比浮点计算快得多。
如图所示,通过卷积层611将对应的输出特征映射613转换成32位整数表示,并且在馈送到卷积层623之前,需要缩放回每个信道615、617和619的8位表示,作为8位特征映射621,其中还量化了偏差624。
类似地,卷积层623的输出是32位整数输出特征映射625,其将每个信道631、629和627再次缩放回8位整数特征映射633。在馈送到支持RISC或32位浮点值(FP32)的CPU之前,8位整数特征映射633可以从8位重新量化成32位。
在一个实施方式中,可以将量化模型和量化的元数据531中的信息加载到AI引擎的存储器中,并且用于支持上述量化和重新量化。
图7A至图7C展示了根据实施方式的量化神经网络模型的元数据的示例性过程。在一个示例中,示例性过程可以用于量化神经网络模型的权重和偏差。
图7A是神经网络模型的元数据的数据分布。基于该分布,可以删除低于2%且高于98%的异常值701和703以获得f最小和f最大。在此示例中,[-5.3,-5.1]和[5.2,5.3]中的异常值被删除。因此,f最小和f最大分别为-5.1和5.2,其中输入范围为[-5.1,5.2]。
对于上述输入范围,编码范围是5.2–(-5.1)=10.3,并且步长是10.3/255=0.04(假设输入范围将被量化成8位表示)。
如图7B所示,零值目前无法在8位整数表示中表示。可在8位整数表示中表示的最接近的值为-0.02和+0.02,其可以分别表示为126和127的整数。
在此示例中,值126和127分别是125.7和126.7的适当整数数值。整数126是通过对(255*(-0.2+5.1)/(5.2+5.1)四舍五入计算的,并且整数127是通过对(255*(-0.02+5.1)/(5.2+5.1))四舍五入计算的。
在图7C中,将5.1的f最小和5.2的f最大稍微向左移位709,以使浮点零值可精确地表示。移位将5.1的f最小和5.2的f最大分别转换成-5.12和5.18。可以使用示例性量化公式将输入范围量化成0到255范围内的整数:量化值=四舍五入(255*(浮点值-f最小)/(f最大-f最小))。
因为浮点表示中的值0对应于(255*(0+5.1)/10.3)=126.26(可以四舍五入成126),所以5.1的f最小和5.2的f最大向左移位0.2。浮点零值的对应整数与0.02的对应整数(126.7四舍五入成127)相比更接近-0.02的对应整数(125.7四舍五入成126)。在一个实施方式中,浮点值的对应整数可以是从近似数值四舍五入的呈8位或16位表示的整数。在移位后,浮点零值将被编码成整数126。
图8展示了流程图,该流程图展示了根据实施方式的量化神经网络的示例性过程。过程800可以由处理逻辑来执行,该处理逻辑可以包括软件、硬件或其组合。过程800可以由可以包括硬件(例如,电路、专用逻辑、可编程逻辑、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如,在处理设备上运行/执行的指令)、固件(例如,微码)或其组合的处理逻辑来执行。在一些实施方式中,过程600可以由例如图3中的集成电路301的部件中的一个或多个执行。
在一个实施方式中,图8展示了AI引擎如何执行已由离线量化工具量化的训练神经网络的过程。在使用离线量化工具对神经网络模型进行量化之后,可以生成量化元文件。量化元文件包括量化的权重和偏差,以及每个层每个信道的输入特征映射的量化模型。一个或多个硬件部件被专门编程以处理由量化元文件指定的操作类型。
参考图8,在操作801中,在其上具有缩放器和累加器的集成电路上执行神经网络模型,其中神经网络模型至少包括第一层和第二层,以及量化元文件,该元文件包括用于神经网络模型的多组量化参数。在操作803中,在第一层处接收输入特征映射,其中输入特征映射由第一位宽的整数表示。在操作805中,响应于接收到输入特征映射,为在第一层处接收的输入特征映射确定多个信道。在操作809中,对于在第一层处接收的输入特征映射的多个确定的信道中的每个信道,从元文件中确定一组量化参数以用于该信道处的输入特征映射,其中该组量化参数指定第一位宽的整数范围和第二位宽的整数类型,基于该组量化参数并且使用缩放器,将信道处的输入特征映射从第一位宽的第一组整数量化成第二位宽的第二组整数。
图9展示了流程图,该流程图展示了根据实施方式的量化神经网络的另一示例性过程。
过程900可以由处理逻辑来执行,该处理逻辑可以包括软件、硬件或其组合。过程900可以由可以包括硬件(例如,电路、专用逻辑、可编程逻辑、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如,在处理设备上运行/执行的指令)、固件(例如,微码)或其组合的处理逻辑来执行。在一些实施方式中,过程900可以由诸如图3中的离线量化工具353的部件中的一个或多个执行。
参考图9,在操作901中,处理逻辑从训练数据集中提取数据的子集,其中训练数据集的至少不同的子集已用于训练神经网络模型。在操作903中,处理逻辑使用神经网络模型对提取的数据子集执行多个推断。在操作905中,处理逻辑为与神经网络模型的多个层中的每个层相关联的每个信道生成量化模型以及一个或多个量化的元数据,以用于当在AI引擎中执行神经网络模型时量化神经网络模型。
应注意,如上文示出和描述的部件中的一些或全部可在软件、硬件或其组合中实施。例如,此类部件可实施为安装并存储在永久性存储装置中的软件,所述软件可通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。可替代地,此类部件可实施为编程或嵌入到专用硬件(诸如,集成电路(例如,专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码,所述可执行代码可经由来自应用的相应驱动程序和/或操作系统来访问。此外,此类部件可实施为处理器或处理器内核中的特定硬件逻辑,作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。
图10是示出可与本公开的一个实施方式一起使用的数据处理系统的示例的框图。例如,系统1500可表示以上所述的执行上述过程或方法中的任一个的任何数据处理系统。系统1500可包括许多不同的部件。这些部件可实施为集成电路(IC)、集成电路的部分、分立电子装置或适用于电路板(诸如,计算机系统的主板或插入卡)的其它模块或者实施为以其它方式并入计算机系统的机架内的部件。
系统1500旨在示出计算机系统的许多部件的高阶视图。然而,应当理解的是,某些实施例中可具有附加的部件,此外,其它实施例中可具有所示部件的不同布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出了单个机器或系统,但是术语“机器”或“系统”还应当理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。
在一个实施方式中,系统1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如,微处理器、中央处理单元(CPU)等。更具体地,处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器,诸如,专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、或者能够处理指令的任何其它类型的逻辑。
处理器1501(其可以是低功率多核处理器套接口,诸如超低电压处理器)可充当用于与所述系统的各种部件通信的主处理单元和中央集线器。这种处理器可实施为片上系统(SoC)。处理器1501配置成执行用于执行本文所讨论的操作和步骤的指令。系统1500还可包括与可选的图形子系统1504通信的图形接口,图形子系统1504可包括显示控制器、图形处理器和/或显示装置。
处理器1501可与存储器1503通信,存储器1503在一个实施方式中可经由多个存储器装置实施以提供给定量的系统存储。存储器1503可包括一个或多个易失性存储(或存储器)装置,诸如,随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或者其它类型的存储装置。存储器1503可存储包括由处理器1501或任何其它装置执行的指令序列的信息。例如,各种操作系统、装置驱动程序、固件(例如,输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可加载到存储器1503中并由处理器1501执行。操作系统可以是任何类型的操作系统,例如,机器人操作系统(ROS)、来自
Figure BDA0002310757490000161
公司的
Figure BDA0002310757490000162
操作系统、来自苹果公司的Mac
Figure BDA0002310757490000163
来自
Figure BDA0002310757490000164
公司的
Figure BDA0002310757490000165
LINUX、UNIX,或者其它实时或嵌入式操作系统。
系统1500还可包括IO装置,诸如装置1505至1508,包括网络接口装置1505、可选的输入装置1506,以及其它可选的IO装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。所述无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(GPS)收发器)或其它射频(RF)收发器或者它们的组合。NIC可以是以太网卡。
输入装置1506可包括鼠标、触摸板、触敏屏幕(其可与显示装置1504集成在一起)、指针装置(诸如,手写笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可使用多种触敏技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种,以及其它接近传感器阵列或用于确定与触摸屏接触的一个或多个点的其它元件来检测其接触和移动或间断。
IO装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风,以促进支持语音的功能,诸如语音识别、语音复制、数字记录和/或电话功能。其它IO装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,诸如加速度计运动传感器、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或者它们的组合。装置1507还可包括成像处理子系统(例如,摄像机),所述成像处理子系统可包括用于促进摄像机功能(诸如,记录照片和视频片段)的光学传感器,诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而诸如键盘或热传感器的其它装置可根据系统1500的具体配置或设计由嵌入式控制器(未示出)控制。
为了提供对诸如数据、应用、一个或多个操作系统等信息的永久性存储,大容量存储装置(未示出)也可联接到处理器1501。在各种实施方式中,为了实现更薄且更轻的系统设计并且改进系统响应性,这种大容量存储装置可经由固态装置(SSD)来实施。然而,在其它实施方式中,大容量存储装置可主要使用硬盘驱动器(HDD)来实施,其中较小量的SSD存储装置充当SSD高速缓存以在断电事件期间实现上下文状态以及其它此类信息的非易失性存储,从而使得在系统活动重新启动时能够实现快速通电。另外,闪存装置可例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可提供系统软件的非易失性存储,所述系统软件包括所述系统的BIOS以及其它固件。
存储装置1508可包括计算机可访问的存储介质1509(也称为机器可读存储介质或计算机可读介质),其上存储有体现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如,模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可表示上述部件中的任一个,例如离线量化工具353。处理模块/单元/逻辑1528还可在其由数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内,数据处理系统1500、存储器1503和处理器1501也构成机器可访问的存储介质。处理模块/单元/逻辑1528还可通过网络经由网络接口装置1505进行传输或接收。
计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质,但是术语“计算机可读存储介质”应当被认为包括存储所述一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质,所述指令集用于由机器执行并且使得所述机器执行本公开的任何一种或多种方法。因此,术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质,或者任何其它非暂时性机器可读介质。
本文所述的处理模块/单元/逻辑1528、部件以及其它特征可实施为分立硬件部件或集成在硬件部件(诸如,ASICS、FPGA、DSP或类似装置)的功能中。此外,处理模块/单元/逻辑1528可实施为硬件装置内的固件或功能电路。此外,处理模块/单元/逻辑1528可以以硬件装置和软件部件的任何组合来实施。
应注意,虽然系统1500示出为具有数据处理系统的各种部件,但是并不旨在表示使部件互连的任何特定架构或方式;因为此类细节和本公开的实施方式没有密切关系。还应当认识到,具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理系统也可与本公开的实施方式一起使用。
前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式,以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中,算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。
然而,应当牢记,所有这些和类似的术语均旨在与适当的物理量关联,并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出,否则应当了解,在整个说明书中,利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理,所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据,并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储装置、传输或显示装置内类似地表示为物理量的其它数据。
本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如,计算机)可读的形式存储信息的任何机构。例如,机器可读(例如,计算机可读)介质包括机器(例如,计算机)可读存储介质(例如,只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所述操作中的一些可按不同的顺序执行。此外,一些操作可并行地执行而不是顺序地执行。
本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到,可使用多种编程语言来实施如本文描述的本公开的实施方式的教导。
在以上的说明书中,已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是,在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下,可对本发明作出各种修改。因此,应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims (20)

1.一种在集成电路内执行的方法,包括:
在具有在集成电路内实现的多个层的基于硬件的神经网络模型的第一层处接收输入特征映射,其中所述输入特征映射由第一位宽的整数表示;以及
针对与所述输入特征映射相关联的多个信道中的每个信道,
基于与所述神经网络模型相关联的元文件,确定与所述信道相关联的一组量化参数,其中所述一组量化参数指定所述第一位宽的整数的范围以及第二位宽的整数的类型,并且
基于所述一组量化参数,在所述信道处将所述输入特征映射从所述第一位宽的第一组整数量化成所述第二位宽的第二组整数。
2.如权利要求1所述的方法,其中所述第一位宽包括32位,并且所述第二位宽包括8位。
3.如权利要求1所述的方法,其中所述信道中的至少两个与不同的量化参数相关联。
4.如权利要求1所述的方法,其中所述神经网络模型的所述层中的至少两个与不同的量化参数相关联。
5.如权利要求1所述的方法,还包括:
对于在所述第一层处接收的所述输入特征映射的所述信道中的每一个,
从所述元文件中确定与所述信道相关联的权重和偏差,其中所述权重和所述偏差已被离线量化成所述第二位宽的整数,以及
基于与所述信道相关联的所量化特征映射、所量化权重、以及所量化偏差,从所述第一层生成由所述第一位宽的第三组整数表示的输出特征映射。
6.如权利要求5所述的方法,还包括:
在将所述输出特征映射作为输入特征映射提供给所述神经网络模型的第二层之前,将来自所述第一位宽的所述第三组整数的所述输出特征映射重新量化成所述第二位宽的第四组整数。
7.如权利要求5所述的方法,其中所述信道中的至少两个与不同的权重和偏差相关联。
8.如权利要求1所述的方法,其中在每个信道处量化所述输入特征映射包括:基于所述一组量化参数,将所述第一位宽的所述第一组整数中的每一个映射到所述第二位宽的所述第二组整数中的整数。
9.一种集成电路,包括:
缩放逻辑,所述缩放逻辑配置成
在具有多个层的基于硬件的神经网络模型的第一层处接收输入特征映射,其中所述输入特征映射由第一位宽的整数表示,以及
针对与所述输入特征映射相关联的多个信道中的每个信道,
基于与所述神经网络模型相关联的元文件,确定与所述信道相关联的一组量化参数,其中所述一组量化参数指定所述第一位宽的整数的范围以及第二位宽的整数的类型,并且
基于所述一组量化参数,在所述信道处将所述输入特征映射从所述第一位宽的第一组整数量化成所述第二位宽的第二组整数;以及
多个乘法累加(MAC)单元,以对所量化的输入特征映射执行数据处理操作。
10.如权利要求9所述的集成电路,其中所述第一位宽包括32位,并且所述第二位宽包括8位。
11.如权利要求9所述的集成电路,其中所述信道中的至少两个与不同的量化参数相关联。
12.如权利要求9所述的集成电路,其中所述神经网络模型的所述层中的至少两个与不同的量化参数相关联。
13.如权利要求9所述的集成电路,其中所述缩放逻辑还配置成:
对于在所述第一层处接收的所述输入特征映射的所述信道中的每一个,
从所述元文件中确定与所述信道相关联的权重和偏差,其中所述权重和所述偏差已被离线量化成所述第二位宽的整数;以及
基于与所述信道相关联的所量化特征映射、所量化权重、以及所量化偏差,从所述第一层生成由所述第一位宽的第三组整数表示的输出特征映射。
14.如权利要求13所述的集成电路,其中所述缩放逻辑将在将所述输出特征映射作为输入特征映射提供给所述神经网络模型的第二层之前,将来自所述第一位宽的所述第三组整数的所述输出特征映射重新量化成所述第二位宽的第四组整数。
15.如权利要求13所述的集成电路,其中所述信道中的至少两个与不同的权重和偏差相关联。
16.如权利要求9所述的集成电路,其中在每个信道处量化所述输入特征映射包括:基于所述一组量化参数,将所述第一位宽的所述第一组整数中的每一个映射到所述第二位宽的所述第二组整数中的整数。
17.一种用于量化神经网络模型的计算机实现的方法,包括:
从训练数据集中提取数据的子集,其中所述训练数据集包括用于训练所述神经网络模型的第一子集以及用于验证由浮点值表示的第一神经网络模型的第二子集;
使用所述第一神经网络模型对所提取的数据的子集执行多个推断,所述第一神经网络模型具有多个层,并且所述层中的每一个均包括多个信道;
量化所述第一神经网络模型以生成由整数值表示的第二神经网络模型;以及
为所述层中的每个层的所述信道中的每个信道生成一组量化元数据,其中所述第二神经网络模型能够部署在集成电路中,以便以整数执行数据分类操作,并且其中所述量化元数据用于缩放在所述第二神经网络模型的每个层的所述信道中的每个信道中生成的数据。
18.如权利要求17所述的方法,还包括基于所述多个推断在所述多个信道中的每个信道处生成浮点值的分布。
19.如权利要求18所述的方法,还包括:针对所述第一神经网络模型的每个层的所述多个信道中的每个信道,
基于预定的百分比从浮点值的分布的每一端删除一个或多个异常值;
从所述对应的分布确定最大浮点值和最小浮点值;
确定分别对应于所述最大浮点值和所述最小浮点值的第一位宽的最大整数值和所述第一位宽的最小整数值;以及
使用所述最大整数值、所述最大浮点值、所述最小浮点值、所述最小整数值、以及第二位宽的整数类型为所述信道构造一组量化参数。
20.如权利要求17所述的方法,其中所述训练数据集包括用于训练所述神经网络模型的第一子集以及用于验证由浮点值表示的第一神经网络模型的第二子集。
CN201911257734.7A 2019-05-13 2019-12-10 一种提高模型推断精度的量化方法 Active CN111931922B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/411,098 US20200364552A1 (en) 2019-05-13 2019-05-13 Quantization method of improving the model inference accuracy
US16/411,098 2019-05-13

Publications (2)

Publication Number Publication Date
CN111931922A true CN111931922A (zh) 2020-11-13
CN111931922B CN111931922B (zh) 2024-06-25

Family

ID=73231237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257734.7A Active CN111931922B (zh) 2019-05-13 2019-12-10 一种提高模型推断精度的量化方法

Country Status (2)

Country Link
US (1) US20200364552A1 (zh)
CN (1) CN111931922B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011569A (zh) * 2021-04-07 2021-06-22 开放智能机器(上海)有限公司 离线量化参数加注方法、装置、电子设备和存储介质
CN114692865A (zh) * 2020-12-31 2022-07-01 安徽寒武纪信息科技有限公司 一种神经网络量化训练方法、装置及相关产品
WO2023082286A1 (en) * 2021-11-15 2023-05-19 Shanghaitech University Mixed-precision neural network systems

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085183B (zh) * 2019-06-12 2024-04-02 上海寒武纪信息科技有限公司 一种神经网络运算方法及装置以及相关产品
US11676029B2 (en) * 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
WO2021061625A1 (en) * 2019-09-23 2021-04-01 Lightmatter, Inc. Quantized inputs for machine learning models
WO2021086861A1 (en) * 2019-10-28 2021-05-06 Lightmatter, Inc. Quantized architecture search for machine learning models
CN111240640B (zh) * 2020-01-21 2022-05-10 苏州浪潮智能科技有限公司 基于硬件环境的数据量化方法、装置及可读存储介质
US11645587B2 (en) * 2020-07-08 2023-05-09 Vmware, Inc. Quantizing training data sets using ML model metadata
WO2022183335A1 (zh) * 2021-03-01 2022-09-09 浙江大学 图像编解码方法、编码器、解码器及存储介质
CN113011571B (zh) * 2021-03-03 2022-09-20 华南理工大学 基于Transformer模型的INT8离线量化及整数推断方法
CN113238988B (zh) * 2021-06-08 2023-05-30 中科寒武纪科技股份有限公司 优化深度神经网络的参数的处理系统、集成电路及板卡
CN113469327B (zh) * 2021-06-24 2024-04-05 上海寒武纪信息科技有限公司 执行转数提前的集成电路装置
US20230004786A1 (en) * 2021-06-30 2023-01-05 Micron Technology, Inc. Artificial neural networks on a deep learning accelerator
KR20230102665A (ko) * 2021-12-30 2023-07-07 한국전자기술연구원 딥러닝 네트워크 양자화 처리 방법 및 시스템
WO2024036082A1 (en) * 2022-08-11 2024-02-15 Snap Inc. Automatic quantization of a floating point model
WO2024121620A1 (en) * 2022-12-05 2024-06-13 Mobileye Vision Technologies Ltd. Neural network processing with quantization
CN116227549A (zh) * 2023-01-31 2023-06-06 华为技术有限公司 一种模型量化方法及其装置
CN116187420B (zh) * 2023-05-04 2023-07-25 上海齐感电子信息科技有限公司 轻量化的深度神经网络的训练方法、系统、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1656474A (zh) * 2002-03-28 2005-08-17 普里凯许公司 用于在公共预订网络中可靠并且高效地进行基于内容的路由、查询以及响应的方法和设备
CN107665364A (zh) * 2016-07-28 2018-02-06 三星电子株式会社 神经网络方法和设备
US20180350109A1 (en) * 2017-06-06 2018-12-06 Via Alliance Semiconductor Co., Ltd. Method and device for data quantization
US20190026078A1 (en) * 2017-07-24 2019-01-24 Tesla, Inc. Accelerated mathematical engine
CN109389219A (zh) * 2017-08-04 2019-02-26 三星电子株式会社 用于对神经网络的参数进行量化的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10802992B2 (en) * 2016-08-12 2020-10-13 Xilinx Technology Beijing Limited Combining CPU and special accelerator for implementing an artificial neural network
US11068780B2 (en) * 2017-04-01 2021-07-20 Intel Corporation Technologies for scaling deep learning training
US20190081637A1 (en) * 2017-09-08 2019-03-14 Nvidia Corporation Data inspection for compression/decompression configuration and data type determination
US11080611B2 (en) * 2017-12-22 2021-08-03 Intel Corporation Compression for deep learning in case of sparse values mapped to non-zero value
US11961000B2 (en) * 2018-01-22 2024-04-16 Qualcomm Incorporated Lossy layer compression for dynamic scaling of deep neural network processing
US11551077B2 (en) * 2018-06-13 2023-01-10 International Business Machines Corporation Statistics-aware weight quantization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1656474A (zh) * 2002-03-28 2005-08-17 普里凯许公司 用于在公共预订网络中可靠并且高效地进行基于内容的路由、查询以及响应的方法和设备
CN107665364A (zh) * 2016-07-28 2018-02-06 三星电子株式会社 神经网络方法和设备
US20180350109A1 (en) * 2017-06-06 2018-12-06 Via Alliance Semiconductor Co., Ltd. Method and device for data quantization
US20190026078A1 (en) * 2017-07-24 2019-01-24 Tesla, Inc. Accelerated mathematical engine
CN109389219A (zh) * 2017-08-04 2019-02-26 三星电子株式会社 用于对神经网络的参数进行量化的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN HAENG LEE ET: "Quantization for Rapid Deployment of Deep Neural Networks", 《ARXIV》, pages 2 *
魏新秀;夏哲雷;殷海兵;: "基于有记忆信源模型的视频编码量化算法研究", 电视技术, no. 4, 31 December 2017 (2017-12-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692865A (zh) * 2020-12-31 2022-07-01 安徽寒武纪信息科技有限公司 一种神经网络量化训练方法、装置及相关产品
CN113011569A (zh) * 2021-04-07 2021-06-22 开放智能机器(上海)有限公司 离线量化参数加注方法、装置、电子设备和存储介质
CN113011569B (zh) * 2021-04-07 2024-06-18 开放智能机器(上海)有限公司 离线量化参数加注方法、装置、电子设备和存储介质
WO2023082286A1 (en) * 2021-11-15 2023-05-19 Shanghaitech University Mixed-precision neural network systems

Also Published As

Publication number Publication date
CN111931922B (zh) 2024-06-25
US20200364552A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
CN111931922B (zh) 一种提高模型推断精度的量化方法
US11593658B2 (en) Processing method and device
CN112183713A (zh) 神经网络装置和操作神经网络的方法
US20200167632A1 (en) Neural network device for neural network operation, method of operating neural network device, and application processor including the neural network device
US20180082212A1 (en) Optimizing machine learning running time
US11562214B2 (en) Methods for improving AI engine MAC utilization
US12050987B2 (en) Dynamic variable bit width neural processor
JP2022501665A (ja) 8ビットウィノグラード畳み込みで統計推論確度を維持する方法及び装置
US20220092399A1 (en) Area-Efficient Convolutional Block
US20230025626A1 (en) Method and apparatus for generating process simulation models
US20230394276A1 (en) Subtask storage for streaming convolutions in neural network processor
KR20220062620A (ko) 뉴럴 프로세서를 위한 다중 모드 평면 엔진
WO2022163861A1 (ja) ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラム
US20230244921A1 (en) Reduced power consumption analog or hybrid mac neural network
WO2021080724A1 (en) Three dimensional convolution in neural network processor
CN116611476A (zh) 性能数据预测方法、性能数据预测装置、电子设备及介质
US20220284299A1 (en) Method and apparatus with neural network operation using sparsification
US11335045B2 (en) Combining feature maps in an artificial intelligence semiconductor solution
US11861452B1 (en) Quantized softmax layer for neural networks
US20240329929A1 (en) Processing of asymmetrically quantized input and kernel coefficients in neural network processor
US11899518B2 (en) Analog MAC aware DNN improvement
US20240232571A1 (en) Palettization of Kernel Vector in Neural Network Processor
US20240320490A1 (en) Efficient softmax computation with no loss in accuracy
CN117574975A (zh) 用于部分数字再训练的系统和方法
US20230135306A1 (en) Crossbar circuit for unaligned memory access in neural network processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant