CN117632081A

CN117632081A - 一种用于gpu的矩阵数据处理系统

Info

Publication number: CN117632081A
Application number: CN202410096893.8A
Authority: CN
Inventors: 张金
Original assignee: Muxi Integrated Circuit Shanghai Co ltd
Current assignee: Muxi Integrated Circuit Shanghai Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-03-01
Anticipated expiration: 2044-01-24
Also published as: CN117632081B

Abstract

本申请涉及数据处理技术领域，特别是涉及一种用于GPU的矩阵数据处理系统，系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，计算机程序被处理器执行时，实现以下步骤：计算得到矩阵A中各元素值与矩阵B中各元素值的元素值乘积结果，进而结合矩阵C确定参考阶数，根据参考阶数，对元素值乘积结果和矩阵C中元素的尾数进行移位后相加，得到尾数相加结果，进而确定乘积元素，根据所有乘积元素,形成矩阵乘积结果。可知，通过限制加法器的位宽，对移位处理后的元素值乘积结果的尾数部分进行适应性舍弃，结合数据精度对模型准确率影响较小的先验信息，在相对低硬件面积的条件下，仍然能够保证人工智能模型的推理或者训练效果较好。

Description

一种用于GPU的矩阵数据处理系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种用于GPU的矩阵数据处理系统。

背景技术

目前，图形处理器GPU由于其较高的计算效率，常被应用于人工智能方向的模型训练及推理场景下，而人工智能模型中的数据通常是矩阵或者张量形式，而在不涉及通道间数据交互的情况下，张量形式的数据也可以视作多个矩阵数据，因此，矩阵数据的计算直接影响着人工智能模型的推理或者训练效果。

因此，现有技术提出了在GPU硬件层面部署矩阵计算核心，以提高矩阵相乘运算的效率，从而提高矩阵计算效率的方式，对于矩阵运算而言，相乘结果中的单个元素的获取方式为一矩阵中对应行向量和另一矩阵中对应列向量相乘，其本质上相当于多组元素相乘再相加，现有技术所提出的矩阵计算核心，通常采用融合乘加的方式进行计算，也即，第一组元素相乘后与偏置相加得到第一临时结果，第二组元素相乘后与第一临时结果相加，得到第二临时结果，以此类推，最终得到矩阵相乘计算结果，以得到能够满足IEEE754标准的计算结果。

然而，以上述计算方式所部署的矩阵计算核心将会使用较大的硬件面积，并且，逐次串行乘加计算难以提高运算效率。现有方法还提出另一种计算方式，也即，先将所有的元素相乘结果计算出来，再一次性把所有元素相乘结果和偏置相加，得到矩阵相乘计算结果，该计算方式由于需要进行舍入操作的次数较少，因此计算结果的精度更高，但是，也会导致加法器的位宽较大，同样会导致需要较大的硬件面积，难以在低硬件面积的条件下，保证人工智能模型的推理或者训练效果。

因此，如何在相对低硬件面积的条件下，保证人工智能模型的推理或者训练效果成为了亟待解决的问题。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种用于GPU的矩阵数据处理系统，所述系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括待进行矩阵乘积计算的矩阵A、矩阵B和矩阵C，所述矩阵A的尺寸为MK，所述矩阵B的尺寸为K/>N，所述矩阵C的尺寸为M/>N，所述GPU包括加法器和乘法器，当所述计算机程序被处理器执行时，实现以下步骤：

S101，根据矩阵A和矩阵B，通过所述乘法器计算得到矩阵A中第m行第k列元素值与矩阵B中第n列第k行元素值的元素值乘积结果d_mnk，其中，m为[1,M]范围内的整数，n为[1,N]范围内的整数，k为[1,K]范围内的整数，所述元素值乘积结果d_mnk的浮点数表示包括阶数E_mnk和尾数fx_mnk。

S102，根据所有元素值乘积结果以及EC_mn，确定参考阶数E_max=max(E_mnk，EC_mn)，其中，EC_mn为矩阵C中第m行第n列的元素对应的阶数。

S103，根据E_mnk、EC_mn和E_max，对E_mnk所对应的尾数fx_mnk以及EC_mn所对应的尾数fc_mn进行移位处理，得到fx_mnk对应的移位后的尾数fy_mnk和fc_mn对应的移位后的尾数fz_mn。

S104，针对任一组m和n，使用所述加法器对fz_mn和所有fy_mnk进行相加处理，得到尾数相加结果fu_mn，其中，所述加法器的位宽设置为p。

S105，根据E_max和fu_mn，确定乘积元素h_mn。

S106，根据所有h_mn，形成AB+C对应的矩阵乘积结果H。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种用于GPU的矩阵数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种用于GPU的矩阵数据处理系统，所述系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括待进行矩阵乘积计算的矩阵A、矩阵B和矩阵C，所述矩阵A的尺寸为MK，所述矩阵B的尺寸为K/>N，所述矩阵C的尺寸为M/>N，所述GPU包括加法器和乘法器，当所述计算机程序被处理器执行时，实现以下步骤：根据矩阵A和矩阵B，通过所述乘法器计算得到矩阵A中第m行第k列元素值与矩阵B中第n列第k行元素值的元素值乘积结果d_mnk，所述元素值乘积结果d_mnk的浮点数表示包括阶数E_mnk和尾数fx_mnk，根据所有元素值乘积结果以及矩阵C中第m行第n列的元素对应的阶数EC_mn，确定参考阶数E_max=max(E_mnk，EC_mn)，根据E_mnk、EC_mn和E_max，对E_mnk所对应的尾数fx_mnk以及EC_mn所对应的尾数fc_mn进行移位处理，得到fx_mnk对应的移位后的尾数fy_mnk和fc_mn对应的移位后的尾数fz_mn，针对任一组m和n，使用所述加法器对fz_mn和所有fy_mnk进行相加处理，得到尾数相加结果fu_mn，其中，所述加法器的位宽设置为p，根据E_max和fu_mn，确定乘积元素h_mn，根据所有h_mn，形成A/>B+C对应的矩阵乘积结果H。

可知，在采用一次性将元素值乘积结果相加方式的基础上，将加法器位宽限制为p，从而对移位处理后的元素值乘积结果的尾数部分进行适应性舍弃，能够结合模型数据精度对模型训练或者推理的准确率影响较小的先验信息，在相对低硬件面积的条件下，仍然能够保证人工智能模型的推理或者训练效果较好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于GPU的矩阵数据处理系统中计算机程序被处理器执行时的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种用于GPU的矩阵数据处理系统，所述系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括待进行矩阵乘积计算的矩阵A、矩阵B和矩阵C，所述矩阵A的尺寸为MK，所述矩阵B的尺寸为K/>N，所述矩阵C的尺寸为M/>N，所述GPU包括加法器和乘法器，参见图1，为本发明实施例提供的一种用于GPU的矩阵数据处理系统中计算机程序被处理器执行时的流程图，当所述计算机程序被处理器执行时，实现以下步骤：

S105，根据E_max和fu_mn，确定乘积元素h_mn。

S106，根据所有h_mn，形成AB+C对应的矩阵乘积结果H。

其中，矩阵A和矩阵B为进行相乘计算的乘数，矩阵C为偏置，在计算得到元素值乘积结果d_mnk后，均需要进行规格化处理，在此不再赘述。

需要说明的是，本实施例中的浮点数表示还包括符号位，则根据E_max和fu_mn，以及对应的符号位，即可得到浮点数表示，也即乘积元素h_mn。

在本实施例中，对于矩阵A中的第m行元素与矩阵B中的第n列元素相乘，可以得到k对元素相乘的结果，而在一种实施方式中，实施者可以将k对元素划分为s组，则每组元素对包含k/s对元素，计算k/s对元素相乘结果之和作为对应组的元素值乘积结果，最终得到s个元素值乘积结果进行后续计算。该方式能够在矩阵尺寸较大时，有效精简计算量，提高运算效率。

可选的是，S104步骤还包括以下步骤：

S1041，将fz_mn和所有fy_mnk中超过位宽p的位数舍弃，得到fz_mn和所有fy_mnk分别对应的舍弃结果。

S1042，使用所述加法器对所有舍弃结果进行相加处理，得到尾数相加结果fu_mn。

其中，当fz_mn和所有fy_mnk中任一个所有位数均在位宽p之外，则将该尾数置0，当fz_mn和所有fy_mnk中任一个部分位数在位宽p之外，则将该尾数在位宽p之外的尾数置0。

可选的是，p为[q₁，q₂]范围内的整数，其中，q₁=max[λ，r₁]，λ为预设的标准尾数位宽，q₂=r₂，r₁为第一预设参考值，r₂为第二预设参考值。

其中，p的取值可以由实施者根据实际情况在[q₁，q₂]范围内灵活调整，λ为预设的标准尾数位宽，在本实施例中，乘积元素h_mn为单精度浮点数，则λ设置为24bits，在一种实施方式中，乘积元素h_mn也可以半精度浮点数，相应λ设置为11bits。

可选的是，r₁和r₂根据映射表确定，所述映射表包括加法器位宽与参考精度之间的映射关系。

其中，参考精度可以是指人工智能模型的测试精度，也即人工智能模型在测试集下的相对准确率。

可选的是，所述映射表的获取方式为：

S201，将所述加法器的位宽p设置为最大位宽p=max(p)，使用所述加法器进行模型训练时的矩阵计算，得到所述模型的训练精度t。

S202，将所述加法器的位宽p更新为p=p-1，使用所述加法器进行模型训练时的矩阵计算，得到所述模型的训练精度t_p，以t_p/t作为p对应的参考精度T。

S203，返回执行步骤S202，直至p与max(E_mnk)对应的尾数位宽相同，得到各个位宽p分别对应的参考精度。

S204，由各个位宽p及其分别对应的参考精度T，形成所述映射表。

其中，在本实施例中，max(p)可以是80bits，本实施例以模型训练场景为例，实施者可以根据实际情况调整为模型推理场景。

训练精度可以是指训练后的人工智能模型的测试准确率，参考精度可以是指训练精度相对于最大位宽情况下的相对准确率。

具体地，在[max(E_mnk)，max(p)]中的每个位宽取值，均有对应的参考精度。需要说明的是，本实施例以至少保证一个元素值相乘结果的尾数完整作为先验条件，在实际应用中，实施者也可以将迭代终止条件调整为任意大于0的位宽σ，也即直至p与σ相同。

可选的是，r₁和r₂根据映射表确定的过程包括：

S301，构建所述映射表对应的参考精度向量L=[T₁，T₂，…，T_v，…，T_V]，其中，T_v为所述映射表中第v个位宽对应的参考精度，v为[1，V]范围内的整数，V为所述映射表中包含位宽的总个数。

S302，根据L，计算得到正向梯度向量γ₁=[α₁，α₂，…，α_v，…，α_V]，其中，α_v为第v个位宽对应的正向梯度，α₁=α₂，α_v=T_v-T_v-1。

S303，在γ₁中从左至右确定首个满足第一预设条件的正向梯度作为第一梯度，以所述第一梯度对应的位宽作为r₁。

S304，根据L，计算得到反向梯度向量γ₂=[β₁，β₂，…，β_v，…，β_V]，其中，β_v为第v个位宽对应的反向梯度，β_V=β_V-1，β_v=T_v-T_v+1。

S305，在γ₂中从右至左确定首个满足第二预设条件的反向梯度作为第二梯度，以所述第二梯度对应的位宽作为r₂。

其中，本实施例默认位宽越小，对应参考精度越低，因此，第一梯度能够对应于从位宽由最小值逐渐增加的情况下，参考精度开始明显上升的位宽，第二梯度能够对应于从位宽由最大值逐渐减小的情况下，参考精度开始明显下降的位宽。显然，在位宽由最小值逐渐增加的情况下，参考精度未明显上升的位宽所对应的参考精度均较小，不适合作为加法器位宽，在位宽由最大值逐渐减小的情况下，参考精度未明显下降的位宽所对应的参考精度均能达到较大水平，且对应的硬件面积也较大，同样不适合作为加法器位宽。

可选的是，所述第一预设条件为大于μ₁，其中，μ₁=(∑^V _v=1α_v)/V。

其中，μ₁为正向梯度向量γ₁中所有元素值的均值，需要说明的是，实施者应当知晓，在实施过程也可以采用中位数等方式确定μ₁，无论采用何种方式确定μ₁，均在本发明保护范围之内。

可选的是，所述第二预设条件为大于μ₂，其中，μ₂=(∑^V _v=1β_v)/V。

其中，μ₂为反向梯度向量γ₂中所有元素值的均值，需要说明的是，实施者应当知晓，在实施过程也可以采用中位数等方式确定μ₂，无论采用何种方式确定μ₂，均在本发明保护范围之内。

可选的是，q₁设置为22bits，q₂设置为30bits。

可选的是，p设置为24bits。

其中，在本实施例的实验场景下，所确定的q₁为22bits，q₂为30bits，p的最优取值为24bits。

具体地，实施者可以根据硬件面积和模型参考精度综合考虑，从而确定p的最优取值，在本实施例中，位宽对应的硬件面积area也可以通过预先构造的映射表确定，硬件面积area通过g(area)进行归一化评价，g(area)=[-1/(area² _max)]area²+1，其中，area取值范围为[0，area_max]，area_max硬件最大可接受面积，则综合评价值θ可以表示为θ=λ₁/>g(area)+λ₂/>T，在本实施例中，λ₁和λ₂均设置为0.5，实施者可以根据实际情况调整λ₁和λ₂的取值，建议满足λ₁+λ₂=1，以满足归一化形式，确定max(θ)对应的位宽为p的取值，在本实施例中，max(θ)对应的位宽为24bits。

本发明提供了一种用于GPU的矩阵数据处理系统，所述系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括待进行矩阵乘积计算的矩阵A、矩阵B和矩阵C，所述矩阵A的尺寸为MK，所述矩阵B的尺寸为K/>N，所述矩阵C的尺寸为M/>N，所述GPU包括加法器和乘法器，当所述计算机程序被处理器执行时，实现以下步骤：根据矩阵A和矩阵B，通过所述乘法器计算得到矩阵A中第m行第k列元素值与矩阵B中第n列第k行元素值的元素值乘积结果d_mnk，所述元素值乘积结果d_mnk的浮点数表示包括阶数E_mnk和尾数fx_mnk，根据所有元素值乘积结果以及矩阵C中第m行第n列的元素对应的阶数EC_mn，确定参考阶数E_max=max(E_mnk，EC_mn)，根据E_mnk、EC_mn和E_max，对E_mnk所对应的尾数fx_mnk以及EC_mn所对应的尾数fc_mn进行移位处理，得到fx_mnk对应的移位后的尾数fy_mnk和fc_mn对应的移位后的尾数fz_mn，针对任一组m和n，使用所述加法器对fz_mn和所有fy_mnk进行相加处理，得到尾数相加结果fu_mn，其中，所述加法器的位宽设置为p，根据E_max和fu_mn，确定乘积元素h_mn，根据所有h_mn,形成A/>B+C对应的矩阵乘积结果H。可知，在采用一次性将元素值乘积结果相加方式的基础上，将加法器位宽限制为p，从而对移位处理后的元素值乘积结果的尾数部分进行适应性舍弃，能够结合模型数据精度对模型训练或者推理的准确率影响较小的先验信息，在相对低硬件面积的条件下，仍然能够保证人工智能模型的推理或者训练效果较好。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种用于GPU的矩阵数据处理系统，其特征在于，所述系统包括：GPU、数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括待进行矩阵乘积计算的矩阵A、矩阵B和矩阵C，所述矩阵A的尺寸为MK，所述矩阵B的尺寸为K/>N，所述矩阵C的尺寸为M/>N，所述GPU包括加法器和乘法器，当所述计算机程序被处理器执行时，实现以下步骤：

S101，根据矩阵A和矩阵B，通过所述乘法器计算得到矩阵A中第m行第k列元素值与矩阵B中第n列第k行元素值的元素值乘积结果d_mnk，其中，m为[1,M]范围内的整数，n为[1,N]范围内的整数，k为[1,K]范围内的整数，所述元素值乘积结果d_mnk的浮点数表示包括阶数E_mnk和尾数fx_mnk；

S102，根据所有元素值乘积结果以及EC_mn，确定参考阶数E_max=max(E_mnk，EC_mn)，其中，EC_mn为矩阵C中第m行第n列的元素对应的阶数；

S103，根据E_mnk、EC_mn和E_max，对E_mnk所对应的尾数fx_mnk以及EC_mn所对应的尾数fc_mn进行移位处理，得到fx_mnk对应的移位后的尾数fy_mnk和fc_mn对应的移位后的尾数fz_mn；

S104，针对任一组m和n，使用所述加法器对fz_mn和所有fy_mnk进行相加处理，得到尾数相加结果fu_mn，其中，所述加法器的位宽设置为p；

S105，根据E_max和fu_mn，确定乘积元素h_mn；

S106，根据所有h_mn，形成AB+C对应的矩阵乘积结果H。

2.根据权利要求1所述的用于GPU的矩阵数据处理系统，其特征在于，S104步骤还包括以下步骤：

S1041，将fz_mn和所有fy_mnk中超过位宽p的位数舍弃，得到fz_mn和所有fy_mnk分别对应的舍弃结果；

3.根据权利要求1所述的用于GPU的矩阵数据处理系统，其特征在于，p为[q₁，q₂]范围内的整数，其中，q₁=max[λ，r₁]，q₂=r₂，λ为预设的标准尾数位宽，r₁为第一预设参考值，r₂为第二预设参考值。

4.根据权利要求3所述的用于GPU的矩阵数据处理系统，其特征在于，r₁和r₂根据映射表确定，所述映射表包括加法器位宽与参考精度之间的映射关系。

5.根据权利要求4所述的用于GPU的矩阵数据处理系统，其特征在于，所述映射表的获取方式为：

S201，将所述加法器的位宽p设置为最大位宽p=max(p)，使用所述加法器进行模型训练时的矩阵计算，得到所述模型的训练精度t；

S202，将所述加法器的位宽p更新为p=p-1，使用所述加法器进行模型训练时的矩阵计算，得到所述模型的训练精度t_p，以t_p/t作为p对应的参考精度T；

S203，返回执行步骤S202，直至p与max(E_mnk)对应的尾数位宽相同，得到各个位宽p分别对应的参考精度；

6.根据权利要求5所述的用于GPU的矩阵数据处理系统，其特征在于，r₁和r₂根据映射表确定的过程包括：

S301，构建所述映射表对应的参考精度向量L=[T₁，T₂，…，T_v，…，T_V]，其中，T_v为所述映射表中第v个位宽对应的参考精度，v为[1，V]范围内的整数，V为所述映射表中包含位宽的总个数；

S302，根据L，计算得到正向梯度向量γ₁=[α₁，α₂，…，α_v，…，α_V]，其中，α_v为第v个位宽对应的正向梯度，α₁=α₂，α_v=T_v-T_v-1；

S303，在γ₁中从左至右确定首个满足第一预设条件的正向梯度作为第一梯度，以所述第一梯度对应的位宽作为r₁；

S304，根据L，计算得到反向梯度向量γ₂=[β₁，β₂，…，β_v，…，β_V]，其中，β_v为第v个位宽对应的反向梯度，β_V=β_V-1，β_v=T_v-T_v+1；

7.根据权利要求6所述的用于GPU的矩阵数据处理系统，其特征在于，所述第一预设条件为大于μ₁，其中，μ₁=(∑^V _v=1α_v)/V。

8.根据权利要求6所述的用于GPU的矩阵数据处理系统，其特征在于，所述第二预设条件为大于μ₂，其中，μ₂=(∑^V _v=1β_v)/V。

9.根据权利要求3所述的用于GPU的矩阵数据处理系统，其特征在于，q₁设置为22bits，q₂设置为30bits。

10.根据权利要求9所述的用于GPU的矩阵数据处理系统，其特征在于，p设置为24bits。