CN114021075A

CN114021075A - 一种利用掉队节点计算能力的编码矩阵乘法方法

Info

Publication number: CN114021075A
Application number: CN202111339333.3A
Authority: CN
Inventors: 宋李园; 吴怡; 杨正; 郑云
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-08

Abstract

本发明公开一种利用掉队节点计算能力的编码矩阵乘法方法，主节点对两个输入矩阵A和B的子矩阵分别采用有限域下的最大距离可分(MDS)码和基于普遍可译矩阵(UDM)的编码方法进行编码，并将得到的编码子矩阵分别传输给不同的工作节点；在工作节点上，每个工作节点依次计算输入矩阵A对应的编码子矩阵与输入矩阵B对应的编码子矩阵之间的对积，并依次将每对子矩阵乘法的结果发送给主节点；当主节点接收到任意不少于未编码子矩阵乘法数量的编码子矩阵乘法结果后，进行译码，得到完整的输入矩阵A和B的乘法结果。本发明所提出的编码矩阵乘法方法能够充分利用所有工作节点（包括掉队节点）的计算能力，显著提升大规模矩阵‑矩阵乘法计算的效率。

Description

一种利用掉队节点计算能力的编码矩阵乘法方法

技术领域

本发明涉及信息论与编码技术领域，尤其涉及一种利用掉队节点计算能力的编码矩阵乘法方法。

背景技术

分布式计算系统通过将难以在一个计算机上完成的大规模计算任务细分到多个工作节点，并在工作节点上并行运算更小的任务，然后通过网络传输给主节点，有效分散了单台计算机的计算负载，显著提高大规模计算任务的整体执行效率。因此，分布式计算在大规模科学问题研究和机器学习中发挥着重要作用。但是随着计算集群规模越来越大，由于大规模计算集群本质上是异构的，且存在网络拥塞、设备故障等原因，有些工作节点会出现“掉队”情况，即有些节点完成任务的速度显著慢与其他节点，或者上传运算结果时存在延时等现象。显然，集群总体计算速度通常是由这些掉队节点所控制的，由此导致的计算延时通常也是无法忍受的。这意味着掉队节点已成为分布式计算的一个主要性能瓶颈。网络化的编码计算(Coded Computation)策略能有效缓解分布式计算中掉队节点对计算效率的影响，尤其对一些特定的计算问题具有显著作用，例如矩阵乘法。

编码矩阵乘法计算策略通过将大规模矩阵划分成多个子矩阵，并对子矩阵进行编码，然后给每个工作节点分配编码后子矩阵之间的乘法任务，有效缓解了高维矩阵乘法分布式计算时面临的节点掉队问题。虽然现有的绝大多数编码矩阵乘法计算策略能够达到最优恢复阈值Δ_opt(恢复阈值指主节点为了恢复原始结果所需等待的成功完成所有计算任务的工作节点数量)，例如基于多项式的编码矩阵乘法计算，后续简称多项式码，基于旋转矩阵和循环转置矩阵的编码策略，基于无速率码的编码策略等。但是，这些编码计算都是将掉队节点作为被擦除的节点来处理，只有当一个节点完成并上传了所有分配的任务，这个节点的计算才是有用的。这意味着这些现有工作无法利用掉队节点已经完成的部分计算。目前只有少量工作研究如何充分利用所有节点的中间计算能力，例如基于UDM的编码矩阵-向量乘法计算、基于MDS码和乘积码的编码矩阵-矩阵乘法计算、基于随机线性组合的编码稀疏矩阵乘法计算。但是这些工作要么无法推广到矩阵-矩阵乘法的情况，要么无法高效率利用节点的部分计算能力，导致译码时需要的编码子矩阵乘法数量大于未编码子矩阵乘法的数量。因此，设计能够充分利用所有掉队节点计算能力、且能达到最优恢复阈值的低时延编码矩阵-矩阵乘法计算方法，对进一步显著提升大规模矩阵乘法的计算效率具有重要意义。

发明内容

本发明的目的在于提供一种利用掉队节点计算能力的编码矩阵乘法方法，以解决如何在分布式编码矩阵-矩阵乘法系统中充分利用所有节点已经完成的中间计算的技术问题。

本发明采用的技术方案是：

一种利用掉队节点计算能力的编码矩阵乘法方法，主节点不需要等待工作节点完成所有分配的编码子矩阵之间的乘法任务才能利用这个节点的计算能力，而是能够利用所有工作节点已经完成的中间结算结果，包括掉队节点，所述编码计算方法包括如下步骤：

1)主节点对两个输入矩阵的子矩阵分别采用有限域

下不同的编码方法进行编码；

2)每个工作节点按顺序每计算完一对编码子矩阵乘法就将结果返回主节点；

3)当主节点接收到的所有工作节点返回的编码子矩阵乘法计算结果的总数量不少于未编码子矩阵乘法数量时，通过译码能正确恢复出未编码矩阵乘法结果。

2、根据权利要求1所述的编码矩阵乘法方法，其特征在于，所述对两个输入矩阵进行编码的步骤，之前还包括：

约束编码参数来构建工作节点中间计算结果的MDS结构和UDM性质，具体包括：p是一个素数,n是一个正整数，工作节点数量N＜pⁿ，c×r维输入矩阵A按列划分的子矩阵数量k_A和c×w维输入矩阵B按列划分的子矩阵数量k_B要满足p|k_B，k_Ak_B＜NL，L是一个正整数满足L≤min{p^k,k_B-1}，其中k是一个正整数使得k_B＝ap^k，a是一个不能被p整除的正整数。考虑

中N个互不相等的非零元素α₀,α₁,…,α_N-1。

3、根据权利要求2所述的编码矩阵乘法方法，其特征在于，所述对两个输入矩阵进行编码的步骤，具体包括：

1)将有限域

下的高维输入矩阵A按其列分成k_A个具有相同维数的子矩阵，并采用有限域

下的MDS码进行编码，得到N个编码子矩阵，

0≤i＜N，其中

等于项数为k_A的矩阵多项式

在α_i上的求值，并将

传递给工作节点i；

2)将有限域

下的高维输入矩阵B按其列分成k_B个具有相同维数的子矩阵，并采用有限域

下基于UDM的编码方法进行编码，得到NL个编码子矩阵，

0≤i＜N，其中

分别等于度为k_B-1的矩阵多项式

的0,1,2,…,L-1阶Hasse导数

在α_i上的求值，0≤s＜L，并将

传递给工作节点i。本专利中所有的

都表示对整数值

取模p。

4、根据权利要求3所述的编码矩阵乘法方法，其特征在于，每个工作节点按顺序每计算完一对编码子矩阵乘法就将结果返回主节点的步骤包括：对0≤i＜N，工作节点i按顺序首先计算编码子矩阵

与

的乘积

然后将计算结果

返回给主节点，接下来再开始计算编码子矩阵

与

的乘积

并将结果

返回主节点，依此类推，依次完成剩余所有编码子矩阵乘法，

2≤s＜L，的计算和结果返回。

5、根据权利要求4所述的编码矩阵乘法方法，其特征在于，所述的主节点通过基于UDM的高效译码算法能唯一地恢复出未编码矩阵乘法结果的步骤，之前还包括：

对0≤i＜N，计算每个工作节点上所有计算结果，

所对应的k_Ak_B×L阶生成矩阵

工作节点i的生成矩阵

中的第s列

对应于度为k_Ak_B-1的多项式

的s阶Hasse导数

在α_i上的计算，0≤s＜L。最终得到

下一个大小为k_Ak_B×NL的矩阵

6、根据权利要求5所述的编码矩阵乘法方法，其特征在于，所述的主节点通过基于UDM的高效译码算法能唯一地恢复出未编码矩阵乘法结果的步骤，具体包括：

一旦主节点接收到的当前每个工作节点按顺序返回的编码子矩阵乘法的数量v_i满足

时，其中v_i是任意一个满足0≤v_i≤L的整数，每个工作节点生成矩阵

的前v_i列，

构成的k_Ak_B×v矩阵

全满秩，并且是一个UDM，因此主节点可以利用基于UDM的高效译码方法进行译码，唯一地恢复出所有的未编码子矩阵乘法

并输出完整的计算任务

本发明采用以上技术方案，通过控制有限域下多项式的根与编码参数，提出同时嵌入MDS码和基于UDM的编码的计算方法，有效地构建工作节点中间计算结果的MDS结构和UDM性质，充分利用了所有节点，包括掉队节点，已经完成的中间计算结果，并具有最优的恢复阈值，且本发现提出的编码计算方法需要的有限域大小只需大于工作节点个数N。通过采用本发明所提供的一种能利用掉队节点计算能力的编码矩阵乘法方法，显著提高了大规模矩阵-矩阵乘法的计算效率。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1示出了一个包含一个主节点，5个工作节点的编码矩阵-矩阵乘法计算典型框架；

图2示出了本发明弹性编码矩阵乘法计算方法的基本框架示意图；

图3示出了本发明弹性编码矩阵乘法计算方法的流程示意图；

图4示出了本发明弹性编码矩阵乘法计算方法中一个工作节点上的中间计算结果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

先定义一些数学概念。对任意的正整数m，令

对任意的矩阵G，令G(i,j)表示G中的第(i,j)个元素，G(:,j)和G(i,:)表示G中的第j列和第i行，G^<v>表示G中的前v列。矩阵聚集的强满秩条件指：由维数都为v×L的N个矩阵构成的矩阵聚集

对任意满足

(v_i是任意一个满足0≤v_i≤L的整数，i∈[N])的向量v＝[v₀,v₁,…,v_N-1]，由每个矩阵G_i的前v_i列

构成的v×v矩阵

都一定是满秩的(此时矩阵G可以认为是一个UDM)，则称矩阵聚集

满足强满秩条件。

图1所示即为一个编码矩阵-矩阵乘法计算典型框架例子，该例子由一个主节点和5个工作节点以及连接两种节点的网络构成，主节点有一个c×r的高维输入矩阵A和一个c×w的高维输入矩阵B，为了得到高维矩阵乘法结果C＝A^TB，分别将两个输入矩阵按列划分成四个相同维数的子矩阵：A＝[A₀|A₁|A₂|A₃]和B＝[B₀|B₁|B₂|B₃]，并分别作为原始信息序列进行编码，分别得到与未编码子矩阵A_j具有相同维数的编码后的子矩阵(后面简称为编码子矩阵)

以及与未编码子矩阵B_t具有相同维数的编码子矩阵

然后将所有编码子矩阵

和

都分配给工作节点i，其中索引i∈{0,1,2,3,4}。工作节点i依次计算接收到的两类编码子矩阵之间的对积

其中u∈{0,1}，s∈{0,1}，并将完成计算的子矩阵乘法依次传回主节点。每个工作节点的计算结果可以等效为对未编码子矩阵乘法

进行编码的结果，其中j,t∈{0,1,2,3}，主节点只需等待任意4个工作节点完成所有计算并返回计算结果，例如节点1是最慢的节点，主节点无需等待节点1的结果只需要接收到剩下4个节点的计算结果，就可以对接收结果进行译码，恢复出所有子矩阵乘法结果

j,t∈{0,1,2,3}，从而得到完整的计算任务G＝A^TB。

如图2至4之一所示，本发明公开了基于编码矩阵-矩阵乘法计算框架的弹性编码计算方法，进行了如下方面的改进：

1)主节点对两个输入矩阵的子矩阵采用有限域下不同的编码方法进行编码，其中输入矩阵A采用有限域下的MDS码进行编码，输入矩阵B采用有限域下基于UDM的编码方法进行编码，并约束编码系数，构建有限域下矩阵A对应生成矩阵与矩阵B对应生成矩阵的克罗内克积聚集的强满秩性。

2)对每个工作节点，主节点对其只分配一个对应于输入矩阵A的编码子矩阵

和L个对应于输入矩阵B的编码子矩阵

s∈[L]，然后每个工作节点按顺序依次计算

与

之间的对积，每计算完成一对编码子矩阵乘法计算，就将结果返回主节点，再开始下一对编码子矩阵乘法计算，并返回结果，依次类推。

3)当主节点接收到的任意工作节点返回的编码子矩阵乘法计算结果总数不少于未编码子矩阵乘法数量(以下简称最优局部恢复阈值Q_opt)时，就可以利用基于UDM的译码方法进行译码，恢复出完整的计算任务C＝A^TB，而不需要等待工作节点完成所有的计算才能利用该节点，因此能够充分利用所有工作节点已经完成的计算，包括掉队节点。

本发明提供的利用所有节点计算能力的编码矩阵-矩阵乘法计算方法是基于有限域

的，p是一个素数，n是一个正整数。因此考虑系统中所有运算都在

上的情况，完整的编码计算流程图如图2所示，基本框架示意图如图3所示，假设系统中有一个主节点，N个工作节点，N＜pⁿ，选择

中N个互不相等的元素α₀,α₁,…,α_N-1，主节点有一个c×r的高维输入矩阵A，

和一个c×w的高维输入矩阵B，

本发明提供的编码计算方法按以下步骤进行：

步骤一、将两个高维输入矩阵A和B划分出多个子矩阵。主节点将输入矩阵A按其列分成k_A个具有相同维数的子矩阵，即

输入矩阵B按其列分成k_B个具有相同维数的子矩阵

要求p|k_B，k_Ak_B＜NL，其中L是一个满足L≤min{p^k,k_B-1}的正整数，k是一个使得k_B＝ap^k的正整数(a是一个不能被p整除的正整数)。完整的计算任务为

显然k_Ak_B就是最优的局部恢复阈值，即Q_opt＝k_Ak_B。如果想要达到最小的恢复阈值，则需要进一步要求L|k_Ak_B，此时最优恢复阈值Δ_opt＝k_Ak_B/L。

步骤二、分别对两个输入矩阵A和B进行编码。

2.1)对输入矩阵A采用有限域

下的MDS码进行编码，得到N个编码子矩阵，

i∈[N]，其中

等于矩阵多项式

在α_i上的求值，

对应的生成矩阵为

即

2.2)对输入矩阵B采有限域

下基于UDM的编码方法进行编码，得到NL个编码子矩阵，

其中i∈[N]。编码得到的L个编码子矩阵

分别等于度为k_B-1的矩阵多项式

的0,1,2,…,L-1阶Hasse导数

在α_i上的求值，其中

该L个编码子矩阵

对应的生成矩阵

是

下一个大小为k_B×L的矩阵，其中第s个编码子矩阵

对应生成矩阵

的第s列

的第t个系数

其中，t∈[k_B]，s∈[L]。当t＜s时，

矩阵聚集

满足强满秩条件。

步骤三、工作节点依次计算编码子矩阵乘法和返回计算结果。

3.1)主节点分别将输入矩阵A编码得到的编码子矩阵

以及输入矩阵B编码得到的L个编码子矩阵

s∈[L]，传送给工作节点i。

3.2)对

工作节点i按顺序依次计算和返回编码子矩阵

与

之间的对积

工作节点i上的中间计算结果示例如图4所示：

其中s∈[L]，即工作节点按顺序首先计算第一对编码子矩阵乘法

然后将计算结果

返回主节点，接下来再开始第二对编码子矩阵乘法的计算，

并将结果

返回主节点，接下来再计算第三对编码子矩阵乘法

并将结果

3≤s＜L，的计算和结果返回。

本发明提供的编码计算中可以将工作节点i中每个编码子矩阵乘法计算结果

等效为将所有未编码子矩阵乘法

作为信息块，并采用有限域

下基于UDM的编码方法进行编码的结果，s∈[L]，j∈[k_A]，t∈[k_B]，即每个工作节点上所有计算结果

所对应的生成矩阵

(等于生成矩阵

和

的克罗内克积，

)的聚集

满足强满秩条件。因此矩阵

具有UDM性质。这是根据

下UDM与多项式高阶Hasse导数的同构性决定的。

工作节点i中的每个编码子矩阵乘法

s∈[L]，等于多项式乘法

在α_i上的求值，其中第一个编码子矩阵乘法

对应度为k_Ak_B-1，项数为k_Ak_B的多项式为：

在α_i上的求值。由于k_B＝ap^k，且L≤min{p^k,k_B-1}，多项式

的1,2,…,L-1阶Hasse导数

的所有系数

模p都等于0，即

s∈{1,2,…,L-1}，因此多项式

的s阶Hasse导数

化简为：

意味着在有限域

和参数约束k_B＝ap^k，L≤min{p^k,k_B-1}下，多项式乘法

等价于多项式

的s阶Hasse导数

所以每个编码子矩阵乘法

s∈[L]，也等于度为k_Ak_B-1的多项式

的s阶Hasse导数

在α_i上的求值。因此，工作节点i的生成矩阵

中的第s列

也对应于多项式

的s阶Hasse导数

在α_i上的计算。因此，当α₀,α₁,…,α_N-1是有限域

中N个互不相等的元素时，对任意满足

(v_i是任意一个满足0≤v_i≤L的整数，i∈[N])的向量v＝[v₀,v₁,…,v_N-1]，由每个矩阵

的前v_i列

构成的k_Ak_B×k_Ak_B系数矩阵

的行列式等于一个广义范德蒙行列式的行列式值，因此

一定是满秩的，从而聚集

满足强满秩条件。

步骤四、主节点接收返回的计算结果，并进行译码恢复出C＝A^TB。当主节点接收到的每个工作节点当前按顺序返回的编码子矩阵乘法

的数量v_i一旦满足

时(v_i是任意一个满足0≤v_i≤L的整数，i∈[N])，主节点对接收到的所有计算结果采用基于每个工作节点生成矩阵

前v_i列构成的k_Ak_B×k_Ak_B系数矩阵

和UDM简化译码算法进行译码，唯一地恢复出所有未编码子矩阵乘法

j∈[k_A]，t∈[k_B]，从而得到完整的计算任务C＝A^TB。

步骤五、主节点输出C＝A^TB，编码计算结束。

本专利提出的弹性编码矩阵乘法计算方法在有限域

下不仅能达到最优恢复阈值，而且能够充分利用所有节点已经完成的中间计算结果，从而显著降低计算时延，提高大规模矩阵-矩阵乘法的计算效率。

下面通过具体实施例进一步进行具体的说明。

本实施例考虑一个有限域

下包含N＝9个工作节点的分布式矩阵-矩阵乘法计算系统，取p＝2，L＝2，k_A＝2，k_B＝4。该实施例能实现最优局部恢复阈值Q_opt＝k_Ak_B＝8，最优恢复阈值Δ_opt＝4。假设α₀,α₁,…,α₈是

中互不相同的9个域元素，取α_i＝αⁱ，α是

的一个本原元，主节点有一个c×r的高维输入矩阵A，

和一个c×w的高维输入矩阵B，

主节点将输入矩阵A按列划分成具有相同维数的两个子矩阵A＝[A₀|A₁]，输入矩阵B按列划分成具有相同维数的四个子矩阵B＝[B₀|B₁|B₂|B₃]。为了能够通过9个工作节点以分布式的形式来计算高维矩阵乘法

输入矩阵A的编码考虑

下的矩阵多项式

输入矩阵B的编码考虑

下的矩阵多项式

多项式

的s阶Hasse导数，s＝0,1，是：

对输入矩阵A采用有限域

下的MDS码进行编码，得到N个编码子矩阵，

i∈[N]，并将

分配给工作节点i，其中

等于多项式

在α_i上的求值，即

对应的生成矩阵为

对输入矩阵B采有限域

下基于UDM的编码方法进行编码，得到18个编码子矩阵，

i∈[N]，并给工作节点i分配2个编码子矩阵

其中

等于(6)中多项式在α_i上的求值，即

等于(7)中多项式在α_i上的求值，即

对应的生成矩阵

为

对

工作节点i先计算第一个编码子矩阵乘法

然后将计算结果

返回主节点，接下来再计算

并将结果

返回主节点。工作节点i上编码子矩阵乘法

对应多项式

对应

的1阶Hasse导数

对应的生成矩阵

由(10)中所有工作节点对应生成矩阵

构成的矩阵聚集

如下所示：

由于α是有限域

的一个本原元，所以(11)中的聚集

满足强满秩条件。

当主节点接收到的每个工作节点当前返回的编码子矩阵乘法的数量v_i的总和满足

时，每个工作节点生成矩阵

前v_i列构成的8×8矩阵

是全满秩的，其中0≤v_i≤2。因此，主节点能通过译码正确恢复出所有未编码子矩阵乘积：

最终得到并输出完整的高维矩阵乘法计算任务C＝A^TB。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。