CN102375721A

CN102375721A - 一种矩阵乘法运算方法、图形处理器和电子设备

Info

Publication number: CN102375721A
Application number: CN2010102612377A
Authority: CN
Inventors: 关东仪
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2010-08-23
Filing date: 2010-08-23
Publication date: 2012-03-14
Anticipated expiration: 2030-08-23
Also published as: CN102375721B

Abstract

本发明提供一种矩阵乘法运算方法、图形处理器和电子设备，在第一矩阵和第二矩阵之间执行矩阵乘法的过程中：第一重运算，将第一矩阵的N个矩阵单元，与第二矩阵的N个矩阵单元，依次进行N次相乘；第二重运算，该寄存结果矩阵单元通过累加相乘结果矩阵单元Cj得到；当寄存结果矩阵单元累加了第一预定次数的相乘结果矩阵单元Cj时，将该寄存结果矩阵单元作为中间结果矩阵单元；其中，将所述中间结果矩阵单元进行累加得到所述第一重运算的最终结果矩阵单元。应用本发明所提供的技术，由于在若干次结束第二重运算后临时累加结果都清零，保证了临时累加结果与矩阵元素的小数位数相差很小，保留了更多的精度。

Description

一种矩阵乘法运算方法、图形处理器和电子设备

技术领域

本发明涉及图形技术，特别是指一种矩阵乘法运算方法、图形处理器和电子设备。

背景技术

图形处理器(GPU，Graphic Processing Unit)具有远多于CPU的运算单元，因此在高性能计算领域得到了越来越多的应用。矩阵乘法是数值计算中最重要的操作之一，从某种意义上说，它是数值计算操作的一个共同基础，因此，研究如何实现高效精确的GPU矩阵乘法是研究GPU通用计算的一个重要问题。

由于GPU内部的大量运算都是单精度浮点运算，当矩阵规模增大时累积误差增加很快。经测试，矩阵规模超过5000后，GPU计算结果与CPU计算结果之间的误差已经超过10^-6。

发明人发现现有技术存在如下问题：在应用GPU对矩阵乘法进行运算的过程中，由于没有对矩阵乘法的中间结果所产生的误差进行处理，导致最终的GPU计算结果误差过大，影响了运算的准确性。

发明内容

本发明要解决的技术问题是，现有技术中由于没有对矩阵乘法的中间结果所产生的误差进行处理，导致最终的GPU计算结果误差过大，影响了运算的准确性的缺陷。

为解决上述技术问题，本发明的实施例提供一种矩阵乘法运算方法，应用于图形处理器，存在第一矩阵和第二矩阵；所述方法包括：在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；当采用寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；其中，将所述中间结果矩阵单元C进行累加得到所述第一重运算的最终结果矩阵单元。

上述的方法中，所述第一矩阵和所述第二矩阵均为行数超过16行，且列数超过16列的矩阵；所述矩阵单元为16行16列的方阵。

上述的方法中，所述第一选定区域为所述第一矩阵中由多个矩阵单元占据的区域，且各个所述矩阵单元位于同一行；所述第二选定区域为所述第二矩阵中由多个矩阵单元占据的区域，且各个所述矩阵单元位于同一列。

上述的方法中，所述第一预定次数大于1，且小于等于N；所述第一预定次数能够通过设置进行改变。

上述的方法中，还包括：在第一重运算过程中，设置两个矩阵单元指针：矩阵单元指针A和矩阵单元指针B；当判定所述第二选定区域中仍然有未参加矩阵乘法的矩阵单元时，在所述第一选定区域中，矩阵单元指针A指向下一个矩阵单元；在所述第二选定区域中，矩阵单元指针B指向下一个矩阵单元。

一种实现矩阵乘法的图形处理器，包括：存储单元，用于存放两个矩阵第一矩阵和第二矩阵；矩阵乘法逻辑单元，用于在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：矩阵乘法第一执行单元，用于实现第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；矩阵乘法第二执行单元，用于实现第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；矩阵乘法第一执行单元，还用于当采用所述寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；其中，将所述中间结果矩阵单元C进行累加得到所述第一重运算的最终结果矩阵单元。

所述的图形处理器中，所述第一矩阵和所述第二矩阵均为行数超过16行，且列数超过16列的矩阵；矩阵单元为16行16列的方阵；所述第一选定区域为所述第一矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一行；所述第二选定区域为所述第二矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一列。

所述的图形处理器中，所述第一预定次数大于1，且小于等于N；所述第一预定次数能够通过设置进行改变。

一种实现矩阵乘法的电子设备，包含一个图形处理器，所述图形处理器包括：存储单元，用于存放两个矩阵第一矩阵和第二矩阵；矩阵乘法逻辑单元，用于在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：矩阵乘法第一执行单元，用于实现第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；矩阵乘法第二执行单元，用于实现第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；矩阵乘法第一执行单元，还用于当采用所述寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；其中，将所述中间结果矩阵单元C进行累加得到所述第一重运算的最终结果矩阵单元。

所述的电子设备中，还包括：矩阵单元设定单元，用于设定矩阵单元为16行16列的方阵；矩阵乘法规划单元，用于在所述第一矩阵中选定所述第一选定区域，在所述第二矩阵中选定所述第二选定区域；所述第一矩阵和所述第二矩阵均为行数超过16行，且列数超过16列的矩阵；所述第一选定区域为所述第一矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一行；所述第二选定区域为所述第二矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一列。

本发明的上述技术方案的有益效果如下：应用本发明所提供的技术，由于在若干次结束最内层循环-即第二重运算后临时累加结果都清零，因此保证了临时累加结果与矩阵元素的小数位数不致相差过大，从而为计算结果保留了更多的精度。提高了GPU单精度矩阵乘法运算的精度，经测试当矩阵规模达到10000时，与CPU计算结果的误差仍然在10^-7数量级。同时保持了原算法的高性能，经比较测试，性能损失在1％以内。

附图说明

图1为本发明实施例矩阵乘法的实现原理示意图；

图2为本发明实施例矩阵单元之间相乘的原理示意图；

图3为本发明实施例大规模矩阵之间实现矩阵乘法的原理示意图；

图4为本发明实施例两个4阶矩阵之间实现矩阵乘法的原理示意图一；

图5为本发明实施例两个4阶矩阵之间实现矩阵乘法的原理示意图二；

图6为本发明实施例一种矩阵乘法运算方法流程示意图；

图7为本发明实施例图形处理器的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

为帮助技术人员理解本发明实施例所提供的技术方案，以下描述了矩阵乘法的实现原理，如图1所示，存在两个矩阵：第一矩阵(S*T)、第二矩阵(T*S)；第一矩阵与第二矩阵相乘会得到一个最终结果矩阵(S*S)。根据公知的矩阵乘法运算规则：第一矩阵第1行的各个元素与第二矩阵第1列的各个元素分别对应相乘，会得到最终结果矩阵的第一行第一列的元素。

在矩阵乘法中，经常会遇到大矩阵甚至超大矩阵，例如雷达采集到的数据会以超大矩阵的方式进行存放和处理，此时，需要将超大矩阵分割为若干个矩阵单元，习惯上为满足计算机硬件的需要，矩阵单元是16*16的方阵，但是并不表示矩阵单元必须是16*16的方阵。

如图2所示，实现两个超大矩阵之间的矩阵乘法应当遵循如下计算原理：

(1)，不失一般性，本申请中，元素是标量，设定a[1:16]，c[1:16]为16元素的矢量；其中，a指向矩阵单元A的一个行，b指向矩阵单元B的一个行；c指向矩阵单元C的一个行。

一个矩阵单元是16*16的方阵，因此能存放256个元素；矩阵单元A与矩阵单元B相乘，能够得到矩阵单元C。

(2)，在循环过程中，将当前两个矩阵单元-矩阵单元A与矩阵单元B相乘；

设置一个运算边界(local barrier)。

(3)，在一个16次的循环过程中；

(4)，将a指向矩阵单元A的当前行的下一行；

(5)，计算矩阵单元C的某一行c的各个元素分别对应的数值。

其中，一行有16个元素，在计算每一个元素的过程中，a与b相乘，其中的元素进行了16次乘法，以及16次加法。

对应(3)，由于矩阵单元C有16行，每一行对应一个矢量c，因此实际上存在16个矢量c需要通过计算得到；如本步骤所记载的方式，在16次循环中计算出每一个矢量c的具体值。

(6)，对应(2)中所设置的运算边界，关闭该运算边界。

这是因为在运算边界内部的计算通常不允许被打断，即不允许GPU在这一段时间内出现中断，以避免出现不可控制的错误。

并且在运算边界内部，计算出了一个完整的矩阵单元C的所有元素的数值。

(7)，由于已知矩阵单元A、矩阵单元B均是大的第一矩阵、第二矩阵中的一个矩阵单元，矩阵单元C则是第一矩阵、第二矩阵对应的结果矩阵中的一个矩阵单元，因此在计算出C的全部元素之后，将A和B分别指向第一矩阵、第二矩阵中的下一个矩阵单元。

(8)，一直到B越界，则第一矩阵、第二矩阵之间的矩阵乘法运算结束。

上述方法中，由于GPU内部的大量运算都是单精度浮点运算，当矩阵规模增大的时候累积误差增加很快。经测试，矩阵规模超过5000后，与CPU计算结果的误差已经超过10^-6。

为帮助技术人员理解本发明的技术思想，如图3所示，提供了在大规模第一矩阵和大规模第二矩阵之间进行矩阵乘法的过程中，如何运用矩阵单元A、矩阵单元B，以及矩阵单元C实现大规模矩阵之间的乘法运算的技术。其中，矩阵单元指针A指向一个矩阵单元，矩阵单元指针B指向一个矩阵单元；由于矩阵单元指针A与矩阵单元A实质上是指同一个矩阵单元，两者之间的区别仅在编写代码的过程中有实际意义，因此为描述方便，不再区分两者之间的差异，同理，由于矩阵单元指针B与矩阵单元B实际上是指同一个矩阵单元，因此为描述方便，也不再区分两者之间的差异。

图3中的每一个方格表示存放了一个矩阵单元，在第一矩阵中，粗线标识的区域存放了S个矩阵单元，不失一般性，此处S具体为11；第二矩阵中，粗线标识的区域存放了T个矩阵单元，不失一般性，此处T具体为17，因此相乘后得到的结果矩阵中，是一个每一行/每一列均有11个矩阵单元的结果矩阵，换言之，结果矩阵的每一行/每一列均有11*16＝176个元素。两个区域中的各个矩阵单元相乘，会得到结果矩阵中粗线标识的区域所存放的各个矩阵单元。其中不失一般性，矩阵单元的规模如前所述，是16*16的方阵。

为描述方便，将第一矩阵中粗线标识的区域中的一个矩阵单元称为矩阵单元A；将第二矩阵中粗线标识的区域中的一个矩阵单元称为矩阵单元B；将结果矩阵中粗线标识的区域中的一个矩阵单元称为矩阵单元C。由于在计算机中，可以以一个矩阵指针指向粗线标识的区域中的一个矩阵单元，因此上述规定是完全无误且确实可行的。

当GPU对粗线标识的区域中的各个矩阵单元进行乘法运算的过程中，根据步骤(1)至步骤(8)中所描述的矩阵单元进行乘法运算的原理，对图3中粗线标识的区域中的各个矩阵单元进行相乘，相乘过程包含了两重运算，其中：

第一重运算，将第一矩阵中粗线标识的第一选定区域中的每一个矩阵单元A，与第二矩阵中粗线标识的第二选定区域中的每一个矩阵单元B，对应相乘后再相加得到相乘结果矩阵单元Cj，根据S为11，T为17可以知道，1＝＜j＜＝17，因此会执行17次矩阵单元之间的乘法。

第二重运算，根据步骤(1)至步骤(8)中所描述的矩阵单元进行乘法运算的原理，对当前指向的矩阵单元A、当前指向的矩阵单元B进行相乘是上述17次矩阵单元之间的乘法中的特定的一次，得到相乘结果矩阵单元Cj，不失一般性，令j＝1，则得到相乘结果矩阵单元C1。

之后，根据第一重运算，会指向下一个矩阵单元A、下一个矩阵单元B，根据第二重运算得到相乘结果矩阵单元C2，此时在第一重运算中执行累加操作则矩阵单元C＝C1+C2。

之后，根据第一重运算，会指向下一个矩阵单元A、下一个矩阵单元B，根据第二重运算得到相乘结果矩阵单元C3，此时执行累加操作则矩阵单元C＝C1+C2+C3。

同理可知，最终经过17次累加操作之后，矩阵单元C＝C1+C2+C3+.......+Cj+.......+C17，其中，在计算机中，通常是设置了C的原始数值为C＝C0，C0为所有元素为0的矩阵单元，因此需要执行17次累加操作而非16次。

可以看出因为当矩阵规模很大时，矩阵单元C的累加过程中，累加结果与矩阵元素的小数位数相差很大，每次进行累加操作时都会引入舍入误差，累积起来造成误差增长过快。

为帮助技术人员更为直观的理解本发明的技术方案和发明思想，且考虑到所描述的超大矩阵难以在规定格式的纸质文件中得到直观的体现，因此如图4所示，以下实施例中，分别以4阶方阵M代替第一矩阵，以4阶方阵N代替第二矩阵。

在如图4和图5所示的具体实施例中，为描述简便且由于矩阵单元的阶数也是能够预先通过设置进行改变的，因此此实施例中的矩阵单元不再是16*16的方阵，而是2*2的方阵，其中，4阶方阵M包括4个矩阵单元，分别是：M₁₁、M₁₂、M₂₁和M₂₂，4阶方阵N包括4个矩阵单元，分别是：N₁₁、N₁₂、N₂₁和N₂₂。

如图5所示，设定方阵M和方阵N的乘积结果矩阵P可表示为上述矩阵单元乘积的线性组合，即：

P₁₁＝M₁₁N₁₁+M₁₂N₂₁；

P₁₂＝M₁₁N₁₂+M₁₂N₂₂；

P₂₁＝M₂₁N₁₁+M₂₂N₂₁；

P₂₂＝M₂₁N₁₂+M₂₂N₂₂。

如此，则获取结果矩阵P的计算过程包括：分别对P₁₁、P₁₂、P₂₁和P₂₂进行计算，其中，计算上述各个矩阵的过程各包含两重运算，以P₁₁为例：

第一重运算中，将M₁₁、M₁₂、M₂₁和M₂₂，以及N₁₁、N₁₂、N₂₁和N₂₂对应相乘后再相加，会得到相乘结果矩阵单元P_jj，可以知道，1＝＜j＜＝2，因此会执行2次矩阵单元之间的乘法。

会将方阵M和方阵N相乘时得到的M₁₁N₁₁和M₁₂N₂₁相加。其中，M₁₁N₁₁＝(m₁₁n₁₁+m₁₂n₂₁)+(m₂₁n₁₂+m₂₂n₂₂)；

M₁₂N₂₁＝(m₁₃n₃₁+m₁₄n₄₁)+(m₂₃n₃₂+m₂₄n₄₂)。

第二重运算中，分别计算M₁₁N₁₁的第一个元素m₁₁n₁₁+m₁₂n₂₁和第二个元素m₂₁n₁₂+m₂₂n₂₂，以及M₁₂N₂₁的第一个元素m₁₃n₃₁+m₁₄n₄₁和第二个元素m₂₃n₃₂+m₂₄n₄₂。

对于P₁₂、P₂₁和P₂₂，采取如同计算P₁₁的过程即可。

在本发明实施例中，提供一种矩阵乘法运算方法，如图6所示，应用于GPU，包括：

步骤401，存在第一矩阵和第二矩阵；

在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：

步骤402，第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；

步骤403，第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；

步骤404，当采用寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；

其中，将所述中间结果矩阵单元C进行累加得到所述第一重运算的最终结果矩阵单元。

应用本发明所提供的技术，由于在若干次结束最内层循环运算-即第二重运算后临时累加结果都清零，因此保证了临时累加结果与矩阵元素的小数位数不致相差过大，从而为计算结果保留了更多的精度。提高了GPU单精度矩阵乘法运算的精度，经测试当矩阵规模达到10000时，与CPU计算结果的误差仍然在10^-7数量级。同时保持了原算法的高性能，经比较测试得知其性能损失在1％以内。

其中，所述第一预定次数大于1，且小于等于N；所述第一预定次数能够通过设置进行改变。进一步的，所述第一预定次数可以动态变化，由于N并不总是能够被第一预定次数整除，因此在采用寄存结果矩阵单元Dmatrix对所述相乘结果矩阵单元Cj进行累加的过程中，可能余下的相乘结果矩阵单元少于第一预定次数。例如N＝10，且第一预定次数为3；则在上述累加过程中，最后会只存在一个相乘结果矩阵单元C₁₀累加到寄存结果矩阵单元Dmatrix上，此时应当判定寄存结果矩阵单元Dmatrix能够作为中间结果矩阵单元C，且能够将所述中间结果矩阵单元C进行累加得到所述第一重运算的最终结果矩阵单元。

由所提供的技术方案可以得知步骤404中，在执行第一重运算的过程中，如果判定完成了所述N次相乘，则结束该第一重运算；即，所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，如果已经根据矩阵乘法规则完成了依次进行N次相乘的运算，则结束第一重运算。实际上，在技术人员实现的过程中，由于第二重运算是第一重运算的组成部分，因此只需要满足能够在第一重运算中完成上述判定过程即可，这包括在步骤402中完成上述判定过程。

为帮助技术人员理解本发明的技术思想，如图3所示，提供了在大规模第一矩阵和大规模第二矩阵进行矩阵乘法的过程中，如何运用矩阵单元A、矩阵单元B，以及矩阵单元C实现大规模矩阵之间的矩阵乘法运算的技术。

当GPU对粗线标识的区域中的各个矩阵单元进行乘法运算的过程中，根据步骤(1)至步骤(8)中所描述的矩阵单元进行乘法运算的原理，对图3中粗线标识的区域中的各个矩阵单元进行相乘，包含了两重运算，其中：

第一重运算，将第一矩阵中粗线标识的区域中的每一个矩阵单元A，与第二矩阵中粗线标识的区域中的每一个矩阵单元B，对应相乘。根据M为11，N具体为17可以知道，会出现17次矩阵单元之间的乘法。

第二重运算，根据步骤(1)至步骤(8)中所描述的矩阵单元进行乘法运算的原理，对当前指向的矩阵单元A、当前指向的矩阵单元B进行相乘，得到相乘结果矩阵单元Cj，不失一般性，j＝1，则得到相乘结果矩阵单元C1。

之后，根据第一重运算，矩阵单元指针A会指向下一个矩阵单元A、矩阵单元指针B会指向下一个矩阵单元B，由根据第二重运算得到相乘结果矩阵单元C2，此时执行累加操作则矩阵单元C＝C1+C2。

之后，根据第一重运算，会指向下一个矩阵单元A和矩阵单元B，由根据第二重运算得到相乘结果矩阵单元C3，此时执行累加操作则矩阵单元C＝C1+C2+C3。

同理可知，最终经过17次累加操作之后，矩阵单元C＝C1+C2+C3+.......+C_j+.......+C17。

但是，为消除累加过程中，由于累加结果与矩阵元素的小数位数相差很大所导致的计算机对于累加结果尾数的自动抛弃，对寄存器进行设置，使得设置之后的寄存器能够存放寄存结果矩阵单元Dmatrix，寄存结果矩阵单元Dmatrix用以累加相乘结果矩阵单元Cj，所述相乘结果矩阵单元Cj中存放所述N次相乘的过程中，所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元。这包括：

Dmatrixmatrix清零；

Dmatrixmatrix＝C1+C2，然后Dmatrixmatrix对中间结果矩阵单元C进行第一次赋值；

之后，Dmatrix清零；

Dmatrix＝C3+C4，然后将Dmatrix累加到矩阵单元C，即C＝C+Dmatrix；

之后，Dmatrix清零；

Dmatrix＝C5+C6+C7+C8，然后将Dmatrix累加到矩阵单元C，即C＝C+Dmatrix；

之后，Dmatrix清零；

Dmatrix＝C9+C10+C11+C12，然后将Dmatrix累加到矩阵单元C，即C＝C+Dmatrix；

之后，Dmatrix清零；

Dmatrix＝C13+C14+C15+C16+C17，然后将Dmatrix累加到矩阵单元C，即C＝C+Dmatrix；

之后，Dmatrix清零。

可以看出，寄存器每次清零之前，可以经过若干次的累加，如果仅接收来自相乘结果矩阵单元Cj的赋值，而不做累加操作，那么与现有的技术方案雷同。

在本发明实施例中，寄存器在每次清零之后所存放的相乘结果矩阵单元Cj的数目是可以变化的。寄存器每一次能够存放若干个矩阵单元Cj累加的结果，在这一过程中，寄存器将s个矩阵单元Cj累加之后，得到一个第一临时结果矩阵Ds，此时，需要在第一临时结果矩阵Ds上再次加上Cj+1，则，由于Ds中的各个元素与Cj+1之间的差距不是很大，因此在执行Dmatrix＝Ds+Cj+1时，不会在累加之后由于计算机精度的限制而导致丢弃尾数。

不失一般性，以Dmatrix＝C13+C14+C15+C16+C17为例描述其应用场景，j＝16时，Ds＝C13+C14+C15+C16，则，由于Ds中的各个元素与C_j+1＝C17之间的差距不是很大，因此在执行Dmatrix＝Ds+C17时，不会在累加之后由于计算机精度的限制而导致丢弃尾数，从而为计算结果保留了更多的精度。

一种实现矩阵乘法的图形处理器，如图7所示，包括：

存储单元501，用于存放两个矩阵第一矩阵和第二矩阵；

矩阵乘法逻辑单元502，用于在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：

矩阵乘法第一执行单元503，用于实现第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；

矩阵乘法第二执行单元504，用于实现第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；

矩阵乘法第一执行单元503，还用于当采用所述寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；

应用本发明所提供的技术，由于在若干次结束最内层循环-即第二重运算后临时累加结果都清零，因此保证了临时累加结果与矩阵元素的小数位数不致相差过大，从而为计算结果保留了更多的精度。提高了GPU单精度矩阵乘法运算的精度，经测试当矩阵规模达到10000时，与CPU计算结果的误差仍然在10^-7数量级。同时保持了原算法的高性能，经比较测试，性能损失在1％以内。

所述的图形处理器中，

所述第一矩阵和第二矩阵均为行数超过16行，且列数超过16列的矩阵；

矩阵单元为16行16列的方阵；所述第一选定区域为第一矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一行；所述第二选定区域为第二矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一列。

第一预定次数大于1，且小于等于N；所述第一预定次数能够通过设置进行改变。

对应的，本发明实施例还提供一种实现矩阵乘法的电子设备，该电子设备包含一个图形处理器，所述图形处理器包括：

存储单元501，用于存放两个矩阵第一矩阵和第二矩阵；

电子设备中，还包括：

矩阵单元设定单元，用于设定矩阵单元为16行16列的方阵；矩阵乘法规划单元，用于在所述第一矩阵中选定第一选定区域，在所述第二矩阵中选定第二选定区域；所述第一矩阵和第二矩阵均为行数超过16行，且列数超过16列的矩阵；所述第一选定区域为第一矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一行；所述第二选定区域为第二矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一列。

应用本发明所提供的技术，寄存器在每次清零之后所存放的相乘结果矩阵单元Cj的数目是可以变化的。寄存器每一次能够存放若干个相乘结果矩阵单元C_j累加的结果，在这一过程中，寄存器将s个相乘结果矩阵单元C_j累加之后，得到一个第一临时结果矩阵Ds，此时，需要在第一临时结果矩阵Ds上再次加上相乘结果矩阵单元C_j+1，则，由于Ds中的各个元素与相乘结果矩阵单元C_j+1之间的差距不是很大，因此在执行Dmatrix＝Ds+C_j+1时，不会在累加之后由于计算机精度的限制而导致丢弃尾数。提高了GPU单精度矩阵乘法运算的精度，经测试当矩阵规模达到10000时，与CPU计算结果的误差不超过10^-7数量级。同时保持了原算法的高性能，经比较测试，性能损失在1％以内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种矩阵乘法运算方法，应用于图形处理器，其特征在于，存在第一矩阵和第二矩阵；所述方法包括：

第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；

第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；当采用寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；

2.根据权利要求1所述的方法，其特征在于，

所述第一矩阵和所述第二矩阵均为行数超过16行，且列数超过16列的矩阵；

所述矩阵单元为16行16列的方阵。

3.根据权利要求2所述的方法，其特征在于，

所述第一选定区域为所述第一矩阵中由多个矩阵单元占据的区域，且各个所述矩阵单元位于同一行；

所述第二选定区域为所述第二矩阵中由多个矩阵单元占据的区域，且各个所述矩阵单元位于同一列。

4.根据权利要求1所述的方法，其特征在于，

所述第一预定次数大于1，且小于等于N；

所述第一预定次数能够通过设置进行改变。

5.根据权利要求1所述的方法，其特征在于，还包括：

在第一重运算过程中，设置两个矩阵单元指针：矩阵单元指针A和矩阵单元指针B；

当判定所述第二选定区域中仍然有未参加矩阵乘法的矩阵单元时，在所述第一选定区域中，矩阵单元指针A指向下一个矩阵单元；在所述第二选定区域中，矩阵单元指针B指向下一个矩阵单元。

6.一种实现矩阵乘法的图形处理器，其特征在于，包括：

存储单元，用于存放两个矩阵第一矩阵和第二矩阵；

矩阵乘法逻辑单元，用于在所述第一矩阵和所述第二矩阵之间执行矩阵乘法的过程中，包含两重运算：

矩阵乘法第一执行单元，用于实现第一重运算，将所述第一矩阵的第一选定区域中的N个矩阵单元，与所述第二矩阵的第二选定区域中的N个矩阵单元，根据矩阵乘法规则依次进行N次相乘；

矩阵乘法第二执行单元，用于实现第二重运算，在每一次矩阵单元相乘中，采用寄存器存放寄存结果矩阵单元Dmatrix，所述寄存结果矩阵单元Dmatrix通过累加相乘结果矩阵单元Cj得到，所述相乘结果矩阵单元Cj为所述第一选定区域中的一个矩阵单元与所述第二选定区域中的一个矩阵单元相乘后得到的矩阵单元；

矩阵乘法第一执行单元，还用于当采用所述寄存结果矩阵单元Dmatrix累加所述相乘结果矩阵单元Cj的次数达到第一预定次数时，将累加了所述相乘结果矩阵单元Cj的所述第一预定次数的寄存结果矩阵单元Dmatrix作为中间结果矩阵单元C，且此时对寄存器清零；其中，j表示所述N次相乘中的第j次相乘，且大于等于1小于等于N；

7.根据权利要求6所述的图形处理器，其特征在于，

矩阵单元为16行16列的方阵；

所述第一选定区域为所述第一矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一行；

所述第二选定区域为所述第二矩阵中由多个矩阵单元占据的区域，且各个矩阵单元位于同一列。

8.根据权利要求6所述的图形处理器，其特征在于，

所述第一预定次数大于1，且小于等于N；

所述第一预定次数能够通过设置进行改变。

9.一种实现矩阵乘法的电子设备，其特征在于，包含一个图形处理器，所述图形处理器包括：

存储单元，用于存放两个矩阵第一矩阵和第二矩阵；

10.根据权利要求9所述的电子设备，其特征在于，还包括：

矩阵单元设定单元，用于设定矩阵单元为16行16列的方阵；

矩阵乘法规划单元，用于在所述第一矩阵中选定所述第一选定区域，在所述第二矩阵中选定所述第二选定区域；