CN112860218A

CN112860218A - 用于fp16浮点数据和int8整型数据运算的混合精度运算器

Info

Publication number: CN112860218A
Application number: CN202110167212.9A
Authority: CN
Inventors: 罗闳訚; 何日辉; 周志新
Original assignee: Xiamen Yipu Intelligent Technology Co ltd
Current assignee: Xiamen Yipu Intelligent Technology Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-28
Anticipated expiration: 2041-02-07
Also published as: CN112860218B

Abstract

本发明公开了一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器，包括精度转换模块、运算单元、两个输入数据和一个、两个或四个输出数据；输入数据和输出数据采用EM16格式表达，EM16格式表达为16位数，包括FP16浮点表达、INT8整型表达和INT8双整型表达；两个输入数据分别为神经网络计算中的特征数据和参数数据；精度转换模块用于根据外部配置信息执行特征数据的在EM16格式各表达之间的精度转换；运算单元用于根据外部配置信息执行同为FP16浮点数据或同为INT8整型数据的两数据之间加法运算或乘法运算。本发明的混合精度运算器可以在计算过程中混合使用FP16浮点数据和INT8整型数据，使得该混合精度计算可以在神经网络计算任务中既拥有FP16的精度，又可以拥有INT8的速度。

Description

用于FP16浮点数据和INT8整型数据运算的混合精度运算器

技术领域

本发明涉及神经网络张量处理器架构领域，尤其涉及一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器。

背景技术

传统神经网络计算硬件使用固定的计算精度，如DSP通常采用16位定点计算，GPU通常采用32位浮点或16位浮点计算，AI加速器通常采用16位浮点或者8位整数计算。

神经网络算法通常使用32位浮点精度进行模型训练，训练所得的参数数据通常采用32位浮点精度。另一方面，使用32位浮点或16位浮点精度进行推理计算时，通常可以获得与训练相当的精度。然而，使用16位或8位整数精度计算时，往往会带来一定的计算准确率的损失。特别是在8位整数精度下，如果不通过量化训练等额外技术来补偿，8位整数精度计算所带来的准确率的损失往往会十分巨大。

半精度浮点数FP16是一种被计算机使用的二进制浮点数据类型，其仅占用两个字节，可以表示一个范围较大的数值。整数INT8仅占用1个字节，数值表示范围只有-128～127。

与INT8相比，FP16在高精度图像处理上有较大优势，可以保持与FP32相当的准确度，常用的目标检测和语义分割等神经网络算法通常需要FP16精度。另一方面，INT8的精度相对较低，更多用于对精度要求不高的分类算法。FP16浮点和INT8整型是神经网络推理计算采用的常用精度，在现有方法下，需要根据不同场景的精度和速度需求来综合考虑并选择其中一种。同一个计算硬件通常只能按照其中一种精度进行计算，需要在速度和精度上进行取舍。

发明内容

鉴于现有技术的上述缺陷，本发明的目的是提供一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器，能有效提高在神经网络张量处理器中FP16浮点数据和INT8整型数据混合运算的速度和精度。

为实现上述目的，本发明提供了一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器，包括精度转换模块、运算单元、两个输入数据和一个、两个或四个输出数据；

所述输入数据和输出数据采用EM16格式表达，所述EM16格式表达为16位数，包括FP16浮点表达、INT8整型表达和INT8双整型表达；两个输入数据分别为神经网络计算中的特征数据和参数数据；所述精度转换模块用于根据外部配置信息执行所述特征数据的在EM16格式各表达之间的精度转换；所述运算单元用于根据外部配置信息执行同为FP16浮点数据或同为INT8整型数据的两数据之间加法运算或乘法运算。

进一步的，所述FP16浮点表达，包括位宽为1比特的符号位、位宽为5比特的指数位和位宽为10比特的小数位；所述INT8整型表达，包括位宽为9比特的符号位和位宽为7比特的整数位；所述INT8双整型表达，包含了两个有符号的INT8整数，每个整数包括位宽为1比特的符号位和位宽为7比特的整数位。

进一步的，所述精度转换模块中，FP16浮点数据和INT8整型数据间的数据格式转换通过如下公式实现：

Value_fp16＝Scale_fp16*Value_int8

其中的Scale值为FP16精度的量化参数。

进一步的，所述Scale值的确定，是通过软件工具采用相对熵搜索的方法来确定。

进一步的，所述混合精度运算器的工作模式包括：FP16工作模式、INT8工作模式；当上述运算单元的两个输入数据都采用FP16浮点表达时，混合精度运算器处于FP16工作模式，此时运算单元的输出数据同样采用FP16浮点表达；当运算单元的两个输入数据分别采用INT8整型表达与INT8整型表达、INT8双整型表达与INT8双整型表达、或者INT8整型表达与INT8双整型表达时，混合精度运算器处于INT8工作模式，此时运算单元的输出数据采用INT8整型表达。

进一步的，所述FP16工作模式为：FP16浮点表达输入与FP16浮点表达输入通过运算单元执行加法或乘法运算获得一路FP16浮点表达输出。

进一步的，所述INT8工作模式中，INT8整型表达输入与INT8整型表达输入通过运算单元执行加法或乘法运算获得一路INT8整型表达输出。

进一步的，所述INT8工作模式中，INT8双整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算获得四路INT8整型表达输出。

进一步的，所述INT8工作模式中，INT8整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算获得两路INT8整型表达输出。

技术效果：

本发明提出的混合精度运算器可以在计算过程中混合使用FP16浮点数据和INT8整型数据，使得该混合精度计算可以在神经网络计算任务中既拥有FP16的精度，又可以拥有INT8的速度，是一种比固定FP16或固定INT8更好的运算方式。

在实际的神经网络计算中，可以根据需要把相继的连续两个混合精度运算器配置为不同的精度计算模式，从而达到神经网络计算中部分运算使用INT8加速的同时通过FP16保证较高精度的效果。

附图说明

图1是本发明的神经网络张量处理器的数据流计算引擎；

图2是本发明的EM16数据格式的FP16浮点表达、INT8整型表达或INT8双整型表达；

图3是本发明的混合精度运算器中INT8双整型表达的格式转换；

图4是本发明的混合精度运算器的结构框图；

图5是本发明运算单元的同为FP16浮点表达输入或同为INT8整型表达输入的数据计算关系；

图6是本发明运算单元的INT8双整型表达输入与INT8双整型表达输入的数据计算关系；

图7是本发明运算单元的INT8整型表达输入与INT8双整型表达输入的数据计算关系；

图8是本发明的一个多个运算器级联进行混合精度运算实例。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

本发明提出一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器，并将其应用于神经网络张量处理器的数据流计算引擎中，如图1所示的数据流计算引擎中的4D计算模块和1D计算模块。4D计算模块用于实现一个张量算子，1D计算模块实现一个线性算子和非线性算子。关于神经网络张量处理器，可参见前案专利1(发明名称为：一种神经网络多核张量处理器，申请号为：202011423696.0)，或前案专利2(发明名称为：一种神经网络张量处理器，申请号为：202011421828.6)。所述4D计算模块用于实现一个张量算子，涉及加法运算、乘法运算及更为复杂的乘法累加运算。所述1D计算模块用于实现一个线性算子和/或一个非线性算子，其中的线性算子涉及加法运算和乘法运算。

该混合精度运算器的基本特征是可以在同一个计算硬件中同时支持FP16和INT8两种精度，并且两种精度的数据可以作为两个输入混合使用。该混合精度运算器支持基本的加法和乘法运算，也可以通过多级级联等方式支持更加复杂的乘法累加等运算。该混合精度运算器包括两个输入数据和一个、两个或四个输出数据，两个输入数据可以一个是FP16浮点数据且另一个是INT8整型数据的混合输入方式，一个、两个或四个输出数据既可以是FP16浮点数据也可以是INT8整型数据。

(1)混合精度运算器的输入输出数据格式

本发明所提出的混合精度运算器的输入数据和输出数据采用EM16数据格式。EM16数据格式的位宽为16比特，可以同时表示神经网络计算中FP16浮点精度的特征数据、INT8整型精度的特征数据、FP16浮点精度的参数数据和INT8整型精度的参数数据。

如图2所示(EM16数据格式的FP16浮点表达、INT8整型表达或INT双整型表达)，当数据内容为FP16浮点精度的特征数据或FP16浮点精度的参数数据时，EM16数据格式采用FP16浮点表达，包括位宽为1比特的符号位、位宽为5比特的指数位和位宽为10比特的小数位。

当数据内容为INT8整型精度的特征数据或INT8整型精度的参数数据时，EM16数据格式有两种表达方式，一种是INT8整型表达，包括位宽为9比特的符号位和位宽为7比特的整数位；另一种是INT8双整型表达，实际包含了两个有符号的INT8整数，每个整数包括位宽为1比特的符号位和位宽为7比特的整数位。

(2)混合精度运算器的输入输出数据的格式转换

如前所述，本发明所提出的混合精度运算器可以输入EM16格式FP16浮点表达数据、EM16格式INT8整型表达数据或EM16格式INT8双整型表达数据，但在实际计算时，两个EM16输入数据的表达方式必须一致，必须同为FP16浮点表达、同为INT8整型表达、同为INT8双整型表达、或者混合INT8整型表达与INT8双整型表达。因此，在真正计算前需要进行数据格式的转换，包括FP16浮点表达数据与INT8整型表达数据之间的格式转换以及FP16浮点表达数据与INT8双整型表达数据之间的格式转换。

FP16浮点数据和INT8整型数据间的数据格式转换通过如下公式实现：

Value_fp16＝Scale_fp16*Value_int8

其中的Scale值称为量化参数，该参数由软件工具通过分析一个量化校准数据集来确定每个数据的Scale值，该值以FP16精度保存并使用，我们称所有Scale值的集合为量化表。

为了有效的确定Scale值通常采用相对熵(relative entropy)来描述FP16数据和INT8数据概率分布的差异。相对熵越小意味着两个概率分布的差异越小，概率密度函数的形状和数值就越接近。软件工具通过相对熵搜索的方法来确定Scale值，以满足FP16数据分布和INT8数据分布的差异性最小，从而降低INT8计算的精度误差。

进一步，FP16浮点表达仅包含一个数据，而INT8双整型表达包含两个数据。因此，EM16格式FP16浮点表达数据与EM16格式INT8双整型表达数据之间的格式转换具备两个EM16数据融合成一个EM16数据或一个EM16数据分裂成两个EM16数据的特征，该融合或分裂的方向采用张量数据的C通道方向，如图3所示。

(3)混合精度运算器的结构

如图4所示，混合精度运算器由精度转换模块和运算单元组成。混合精度运算器专门针对神经网络计算任务而设计，其两个输入分别为神经网络计算中的特征数据和参数数据。上述特征数据是指在神经网络计算中实时产生的数据，而参数数据是指在神经网络训练过程中离线生成的数据。因此，参数数据可以根据需要离线完成EM16格式各表达之间的精度转换，而特征数据需要根据实际需要在线完成EM16格式各表达之间的精度转换。所述精度转换由上述精度转换模块完成，精度转换的类型以及如前所述的Scale量化参数由外部配置信息决定。

上述混合精度运算器的运算单元可以完成加法运算或乘法运算。运算单元的两个输入可以是FP16浮点表达与FP16浮点表达、INT8整型表达与INT8整型表达、INT8双整型表达与INT8双整型表达、或者INT8整型表达与INT8双整型表达。

当上述运算单元的两个输入数据都采用FP16浮点表达时，我们称混合精度运算器处于FP16工作模式，此时运算单元的输出数据同样采用FP16浮点表达；当运算单元的两个输入数据分别采用INT8整型表达与INT8整型表达、INT8双整型表达与INT8双整型表达、或者INT8整型表达与INT8双整型表达时，我们称混合精度运算器处于INT8工作模式，此时运算单元的输出数据采用INT8整型表达。

FP16浮点表达输入与FP16浮点表达输入通过运算单元执行加法或乘法运算可获得一路FP16浮点表达输出结果；INT8整型表达输入与INT8整型表达输入通过运算单元执行加法或乘法运算可获得一路INT8整型表达输出，相应的数据计算关系如图5所示。

INT8双整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算可获得四路INT8整型表达输出，相应的数据计算关系如图6所示。

INT8整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算可获得两路INT8整型表达输出，相应的数据计算关系如图7所示。

(4)一个混合精度运算实例

在实际的神经网络计算中，可以根据需要把相继的连续两个混合精度运算器配置为不同的精度计算模式，从而达到神经网络计算中部分运算使用INT8加速的同时通过FP16保证较高精度的效果，图8是一个计算的例子。该实例由三个混合精度运算器组成，分别处于INT8模式(运算单元的输入数为INT8整型或INT8双整型，输出为INT8整型)和FP16模式(运算单元的输入为FP16浮点，输出为FP16浮点)。

需要特别说明的是，这里的运算器A、运算器B和运算器C是逻辑意义上的运算器，也即可以在物理上用三个运算器设备实现运算器A、运算器B和运算器C；也可以通过时分复用的方式，在物理上通过一个运算器设备在不同时刻分别扮演运算器A、运算器B和运算器C的角色。

在该实例中，混合精度运算器A处于INT8模式，其两个输入分别为FP16浮点特征数据和INT8双整型参数数据。在该混合精度运算器A内部，FP16浮点特征数据会被精度转换模块转换为INT8整型数据，并最终和INT8双整型参数数据通过运算单元计算得到两路INT8整型特征数据输出，一路作为混合精度运算器B的输入，另一路作为混合精度运算器C的输入。

混合精度运算器B和C处于FP16模式，其两个输入分别为FP16浮点参数数据和INT8整型特征数据。在混合精度运算器B和C的内部，INT8整型特征数据被精度转换模块转换为FP16浮点数据，并最终和FP16浮点参数数据通过运算单元计算得到FP16浮点特征数据输出。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：包括精度转换模块、运算单元、两个输入数据和一个、两个或四个输出数据；

所述输入数据和输出数据采用EM16格式表达，所述EM16格式表达为16位数，包括FP16浮点表达、INT8整型表达和INT8双整型表达；

两个输入数据分别为神经网络计算中的特征数据和参数数据；

所述精度转换模块用于根据外部配置信息执行所述特征数据的在EM16格式各表达之间的精度转换；

所述运算单元用于根据外部配置信息执行同为FP16浮点数据或同为INT8整型数据的两数据之间加法运算或乘法运算。

2.如权利要求1所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述FP16浮点表达，包括位宽为1比特的符号位、位宽为5比特的指数位和位宽为10比特的小数位；所述INT8整型表达，包括位宽为9比特的符号位和位宽为7比特的整数位；所述INT8双整型表达，包含了两个有符号的INT8整数，每个整数包括位宽为1比特的符号位和位宽为7比特的整数位。

3.如权利要求1所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述精度转换模块中，FP16浮点数据和INT8整型数据间的数据格式转换通过如下公式实现：

Value_fp16＝Scale_fp16*Value_int8

其中的Scale值为FP16精度的量化参数。

4.如权利要求3所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述Scale值的确定，是通过软件工具采用相对熵搜索的方法来确定。

5.如权利要求1所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述混合精度运算器的工作模式包括：FP16工作模式、INT8工作模式；当上述运算单元的两个输入数据都采用FP16浮点表达时，混合精度运算器处于FP16工作模式，此时运算单元的输出数据同样采用FP16浮点表达；当运算单元的两个输入数据分别采用INT8整型表达与INT8整型表达、INT8双整型表达与INT8双整型表达、或者INT8整型表达与INT8双整型表达时，混合精度运算器处于INT8工作模式，此时运算单元的输出数据采用INT8整型表达。

6.如权利要求5所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述FP16工作模式为：FP16浮点表达输入与FP16浮点表达输入通过运算单元执行加法或乘法运算获得一路FP16浮点表达输出。

7.如权利要求5所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述INT8工作模式中，INT8整型表达输入与INT8整型表达输入通过运算单元执行加法或乘法运算获得一路INT8整型表达输出。

8.如权利要求5所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述INT8工作模式中，INT8双整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算获得四路INT8整型表达输出。

9.如权利要求5所述的用于FP16浮点数据和INT8整型数据运算的混合精度运算器，其特征在于：所述INT8工作模式中，INT8整型表达输入与INT8双整型表达输入通过运算单元执行加法或乘法运算获得两路INT8整型表达输出。