CN104317768B

CN104317768B - 面向cpu+dsp异构系统的矩阵乘加速方法

Info

Publication number: CN104317768B
Application number: CN201410544785.9A
Authority: CN
Inventors: 刘杰; 迟利华; 甘新标; 晏益慧; 徐涵; 胡庆丰; 蒋杰; 李胜国; 王庆林; 皇甫永硕; 崔显涛; 周陈
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2017-02-15
Anticipated expiration: 2034-10-15
Also published as: CN104317768A

Abstract

本发明公开了一种面向CPU+DSP异构系统的矩阵乘加速方法，目的是面向CPU+DSP异构系统提出一种高效协同的矩阵乘加速方法，以提高矩阵乘的运算速度和最大化CPU+DSP异构系统的计算效率。技术方案是先初始化参数并对CPU+DSP异构系统信息配置，依据主处理器CPU和加速器DSP设计目标和计算性能的差异，将分配给计算结点待处理的数据划分给CPU和DSP协同处理，然后CPU和DSP并行进行数据传输与协同计算，得到个块矩阵C_{(i‑1)(j‑1)}，最后将块矩阵C_{(i‑1)(j‑1)}归并，组成M×N的结果矩阵C。采用本发明可使得CPU在负责数据传输和程序控制的同时积极与DSP协同完成矩阵乘计算，且数据传输与协同计算重叠，提高了CPU+DSP异构系统的矩阵乘运算速度和计算资源利用率。

Description

面向CPU+DSP异构系统的矩阵乘加速方法

技术领域

本发明涉及矩阵乘加速方法，尤指面向CPU+DSP异构计算系统的矩阵乘加速方法。

背景技术

异构计算系统是由主处理器和加速器两种不同体系结构处理器搭建的计算机系统。目前，常见的异构计算系统有CPU+GPU和CPU+MIC组成异构计算系统，随着通用DSP计算性能的不断攀升和通用DSP的广泛应用，CPU+DSP必将成为异构计算系统重要的发展方向。

矩阵乘是数值计算中最常用的一类操作，很多应用中都包含矩阵乘的计算过程，面向CPU+DSP异构系统设计高效的矩阵乘方法可以有效提高应用的计算速度和提升CPU+DSP异构系统的计算效率，以达到CPU+DSP异构系统的设计目标。

矩阵乘是将被乘矩阵A的一行和乘数矩阵B的一列相乘得到结果矩阵C中的一个元素。面向异构系统的矩阵乘法通常需要将矩阵乘计算过程合理分布在主处理器和加速器之间协同完成计算过程，以提高矩阵乘的运算速度和最大化异构系统的计算效率。

由于主处理器(CPU)和加速器(DSP或MIC或GPU)设计目标和计算性能的不同，传统的面向异构系统的矩阵乘法通常由主处理器负责数据传输和程序控制，加速器负责矩阵乘计算。该方法虽然也能够提高矩阵乘的运算速度，但是主处理器在加速器忙于计算的过程中却处于等待计算结果的空闲状态，忽略了主处理器也拥有较高的计算性能，严重影响了整个异构系统的计算效率。为了充分利用加速器和主处理器的计算潜能，最大化异构计算系统的计算效率，E.Phillips等人率先在CPU+GPU异构系统上设计实现了协同的矩阵乘，该方法中首先完成矩阵数据在CPU和GPU之间的划分，然后由主处理器CPU负责数据的传输和程序控制，同时参与矩阵乘计算。这种高效协同的矩阵乘计算方法有效提高了矩阵乘的运算速度和提升了CPU+GPU异构系统的计算效率，达到了异构系统的设计目标。但是，这种数据划分和传输方法以及控制策略仅适用于NVIDIA的统一架构GPU平台。

综上所述，传统的异构系统矩阵乘方法无法满足CPU+DSP异构计算系统的设计目标。因此，面向如图1所示的CPU+DSP异构系统，提供高效协同的矩阵乘方法加速方法是本领域技术人员亟需解决的技术难题。

发明内容

本发明要解决的技术问题在于：面向CPU+DSP异构系统提出一种高效协同的矩阵乘加速方法，该方法中CPU在负责数据传输和程序控制的同时还积极与DSP协同完成矩阵乘计算，且数据传输与协同计算重叠，以提高矩阵乘的运算速度和最大化CPU+DSP异构系统的计算效率。

为了解决上述技术问题，本发明的具体技术方案为：

第一步、初始化参数并对CPU+DSP异构系统信息配置。具体步骤如下：

1.1定义矩阵A的维度为M×K，矩阵B的维度为K×N，则A与B相乘的结果矩阵C的维度为M×N，M,K,N均为正整数；

1.2查询CPU+DSP异构计算系统体系结构文档获取计算节点配置，即一个计算节点由C颗CPU和D颗DSP组成；

1.3查询CPU+DSP异构计算系统体系结构文档获取计算结点的拓扑结构m×n，即，CPU+DSP异构系统由m×n个计算节点组成，每行有n个计算节点，每列有m个计算节点；

1.4依据计算结点中DSP的个数，将DSP分别标识为0,1,d,(D-1)，0≤d＜D；

1.5依据CPU+DSP异构计算系统提供的基础软件工具集中的相关函数(如init)完成DSP初始化；

1.6查询CPU+DSP异构计算系统体系结构文档，获取各处理器体系结构信息，即每个计算结点中用于数据传输和流程控制的CPU核个数p_cl、用于计算的CPU核个数p_ct、每个用于计算的CPU核拥有的浮点乘累加功能部件的数目m及主频f，每个DSP单元拥有的浮点乘累加功能部件的数目m'及主频f'；

1.7计算主处理器的理论计算峰值R_peak＝p_ct*m*f；

1.8计算加速器的理论计算峰值R'_peak＝D*m'*f'；

1.9确定矩阵数据划分因子η＝R'_peak/R_peak；

第二步、矩阵数据分布与划分。依据主处理器CPU和加速器DSP设计目标和计算性能的差异，将分配给计算结点待处理的数据合理划分给CPU和DSP协同处理，以达到CPU与DSP协同并行计算矩阵乘的目的。具体方法如下：

2.1将M*K的矩阵A划分成m*K的块矩阵A_i()，表示上取整，具体分块方法如下：

2.1.1令i＝1；

2.1.2选取矩阵A的第(i-1)*m+1行至第i*m行组成块矩阵A_i；

2.1.3i＝i+1；

2.1.4若转2.1.2，否则，转2.1.5，进行尾部处理；

2.1.5选取矩阵A的第(i-1)*m+1行至第M行组成块矩阵A_i；

2.2将K*N的矩阵B划分成K*n的子块矩阵B_j()，表示上取整，具体分块方法如下：

2.2.1令j＝1；

2.2.2选取矩阵B的第(j-1)*n列至第j*n列组成块矩阵B_j；

2.2.3j＝j+1；

2.2.4若转2.2.2，否则，转2.2.5，进行尾部处理；

2.2.5选取矩阵B的第(j-1)*n列至第N列组成块矩阵B_j；

2.3依据矩阵数据划分因子η将块矩阵B_j划分为¹B_j和²B_j两个子矩阵，具体方法如下：

2.3.1令j＝1；

2.3.2依据矩阵数据划分因子η将块矩阵B_j划分为¹B_j和²B_j两个子矩阵，子矩阵¹B_j的维度为K*n₁，²B_j的维度为K*n₂，并且n₁,n₂满足公式(1)：

2.3.3j＝j+1；

2.3.4若转2.3.2，否则，转第三步；

第三步、CPU和DSP并行进行数据传输与协同计算。由于CPU和DSP是两套完全独立的处理单元，因此，用于数据传输和流程控制的CPU核在传输后一块矩阵数据至DSP端存储空间的同时，DSP和用于计算的CPU核可以协同完成前一块矩阵乘运算，具体方法如下：

3.1令i＝1,j＝1；

3.2采用CPU+DSP异构系统数据传输函数(如DspMemcpy)将块矩阵数据Ai和2Bj传输至DSP端存储空间，具体步骤如下：

3.2.1在DSP端申请大小为size＝M×k×sizeof(a_ij)的存储空间，sizeof(a_ij)表示矩阵A中元素a_ij的存储长度,单位为字节；

3.2.2采用CPU+DSP异构系统提供的数据传输函数(如DspMemcpy)将块矩阵A_i传输至DSP端存储空间，将DSP端存储空间中存储块矩阵A_i的空间称为

3.2.3i＝i+1；

3.2.4在DSP端申请大小为size＝k*n₂×sizeof(b_ij)的存储空间，sizeof(b_ij)表示矩阵B中元素b_ij的存储长度为多少字节；

3.2.5采用CPU+DSP异构系统提供的数据传输函数将子矩阵²B_j传输至DSP端存储空间，将DSP端存储空间中存储块矩阵²B_j的空间称为

3.2.6j＝j+1；

3.3采用3.2.1和3.2.2所述方法传输块矩阵数据A_i传输至

3.4采用3.2.4和3.2.5所述方法传输块子矩阵数据²B_j传输至

3.5由于CPU和DSP是两套完全独立的计算单元，因此，CPU和DSP同时并行执行各自的操作，具体步骤如下：

3.5.1用于数据传输和流程控制的CPU核上的主线程负责CPU和DSP之间的通信和交互，同时，主线程创建两个子线程T_c和T_d分别控制CPU端和DSP端的矩阵计算；

3.5.2T_c调用矩阵乘库函数完成A_(i-1)×¹B_(j-1)的矩阵计算，其计算结果为结果矩阵C的块矩阵C_(i-1)(j-1)的子矩阵¹C_(i-1)(j-1)；

3.5.3T_d调用面向DSP体系结构的矩阵库函数完成A_(i-1)×²B_(j-1)的矩阵计算，其计算结果为结果矩阵C的块矩阵C_(i-1)(j-1)的子矩阵²C_(i-1)(j-1)；

3.5.4主线程将子矩阵²C_(i-1)(j-1)传回至CPU端存储空间；

3.5.5释放

3.5.6由子矩阵¹C_(i-1)(j-1)组成块矩阵C_(i-1)(j-1)第1至第n1列，由子矩阵²C_(i-1)(j-1)组成块矩阵C_(i-1)(j-1)第n₁+1至第N列，其中，n₁+n₂＝N；

3.6j＝j+1；

3.7如果转3.4，否则，转3.8，进行尾部计算；

3.8释放

3.9i＝i+1；

3.10如果转3.3，否则，转第四步；

第四步、结果归并。将个块矩阵C_(i-1)(j-1)归并，组成M×N的结果矩阵C，具体方法如下：

4.1令i＝1,j＝1；

4.2由块矩阵C_(i-1)(j-1)的第1至第m行的第1列至第n列组成结果矩阵C的第(i-1)*m+1行至i*m行的第(j-1)*n+1列至第j*n列；

4.3j＝j+1；

4.4如果转4.2，否则，转4.5，进行列尾部处理；

4.5由块矩阵C_(i-1)(j-1)的第1至第m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第i*m行的第(j-1)*n+1列至第N列；

4.6i＝i+1；

4.7如果转4.2，否则，转4.8，进行行尾部处理；

4.8由块矩阵C_(i-1)(j-1)的第1行第M-(i-1)*m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第M行的第(j-1)*n+1列至第N列；

第五步、结束。

采用本发明可以达到以下技术效果：

1.本发明第三步数据传输与数据计算并行进行，提高了CPU+DSP异构系统的矩阵乘运算速度；

2.本发明第二步依据异构系统结构进行数据分布与划分，使CPU与DSP能够高度协同计算，提升CPU+DSP异构系统的计算资源利用率；

附图说明

图1为CPU+DSP异构计算系统体系结构；

图2为矩阵数据划分与归并示意图；

图3为本发明总体流程图。

具体实施方式

图1为基于PCIE通信模式的由主处理器CPU和加速器DSP组成的异构计算系统体系结构示意图，其中，主处理器端拥有内存、Cache，加速器端拥有全局存储空间、阵列存储器；主处理器和加速器之间只能通过PCIE总线进行通信和数据传输。

图2为矩阵数据划分与归并示意图，图中，M*K的矩阵A划分成m*K的块矩阵(行向量)A_i，()；K*N的矩阵B划分成K*n的块矩阵(列向量)B_j，()，并且B_j又被划分为¹B_j和²B_j两个子矩阵，其中，¹B_j在CPU端完成计算，同时，²B_j在DSP端完成计算。

本发明的具体实施步骤如下：

第一步、初始化参数并对CPU+DSP异构系统信息配置。

第二步、矩阵数据分布与划分。

第三步、CPU和DSP并行进行数据传输与协同计算。

第四步、结果归并。

第五步、结束。

Claims

1.一种面向CPU+DSP异构系统的矩阵乘加速方法，其特征在于包括以下步骤：

第一步、初始化参数并对CPU+DSP异构系统信息配置，具体步骤如下：

1.4依据计算结点中DSP的个数，将DSP分别标识为0,1,…d,…(D-1)，0≤d＜D；

1.5依据CPU+DSP异构计算系统提供的基础软件工具集中的相关函数完成DSP初始化；

1.7计算主处理器CPU的理论计算峰值R_peak＝p_ct*m*f；

1.8计算加速器DSP的理论计算峰值R'_peak＝D*m'*f'；

1.9确定矩阵数据划分因子η＝R'_peak/R_peak，R'_peak为加速器DSP的理论计算峰值，R_peak为主处理器CPU的理论计算峰值；

第二步、依据主处理器CPU和加速器DSP设计目标和计算性能的差异，将分配给计算结点待处理的数据划分给CPU和DSP协同处理，具体方法如下：

2.1将M*K的矩阵A划分成m*K的块矩阵A_i，表示上取整，具体分块方法如下：

2.1.1令i＝1；

2.1.2选取矩阵A的第(i-1)*m+1行至第i*m行组成块矩阵A_i；

2.1.3 i＝i+1；

2.1.4若转2.1.2，否则，转2.1.5，进行尾部处理；

2.1.5选取矩阵A的第(i-1)*m+1行至第M行组成块矩阵A_i；

2.2将K*N的矩阵B划分成K*n的子块矩阵B_j，表示上取整，具体分块方法如下：

2.2.1令j＝1；

2.2.2选取矩阵B的第(j-1)*n列至第j*n列组成块矩阵B_j；

2.2.3 j＝j+1；

2.2.4若转2.2.2，否则，转2.2.5，进行尾部处理；

2.2.5选取矩阵B的第(j-1)*n列至第N列组成块矩阵B_j；

2.3.1令j＝1；

2.3.3 j＝j+1；

2.3.4若转2.3.2，否则，转第三步；

第三步、CPU和DSP并行进行数据传输与协同计算，具体方法如下：

3.1令i＝1,j＝1；

3.2采用CPU+DSP异构系统数据传输函数将块矩阵数据A_i和²B_j传输至DSP端存储空间，具体步骤如下：

3.2.2采用CPU+DSP异构系统提供的数据传输函数将块矩阵A_i传输至DSP端存储空间，将DSP端存储空间中存储块矩阵A_i的空间称为

3.2.3 i＝i+1；

3.2.6 j＝j+1；

3.3采用3.2.1和3.2.2所述方法传输块矩阵数据A_i传输至

3.4采用3.2.4和3.2.5所述方法传输块子矩阵数据²B_j传输至

3.5 CPU和DSP同时并行执行以下操作：

3.5.2 T_c调用矩阵乘库函数完成A_(i-1)×¹B_(j-1)的矩阵计算，其计算结果为结果矩阵C的块矩阵C_(i-1)(j-1)的子矩阵¹C_(i-1)(j-1)；

3.5.3 T_d调用面向DSP体系结构的矩阵库函数完成A_(i-1)×²B_(j-1)的矩阵计算，其计算结果为结果矩阵C的块矩阵C_(i-1)(j-1)的子矩阵²C_(i-1)(j-1)；

3.5.4主线程将子矩阵²C_(i-1)(j-1)传回至CPU端存储空间；

3.5.5释放

3.5.6由子矩阵¹C_(i-1)(j-1)组成块矩阵C_(i-1)(j-1)第1列至第n₁列，由子矩阵²C_(i-1)(j-1)组成块矩阵C_(i-1)(j-1)第n₁+1列至第N列，其中，n₁+n₂＝N；

3.6 j＝j+1；

3.7如果转3.4，否则，转3.8，进行尾部计算；

3.8释放

3.9 i＝i+1；

3.10如果转3.3，否则，转第四步；

第四步、将个块矩阵C_(i-1)(j-1)归并，组成M×N的结果矩阵C，具体方法如下：

4.1令i＝1,j＝1；

4.2由块矩阵C_(i-1)(j-1)的第1行至第m行的第1列至第n列组成结果矩阵C的第(i-1)*m+1行至i*m行的第(j-1)*n+1列至第j*n列；

4.3 j＝j+1；

4.4如果转4.2，否则，转4.5，进行列尾部处理；

4.5由块矩阵C_(i-1)(j-1)的第1行至第m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第i*m行的第(j-1)*n+1列至第N列；

4.6 i＝i+1；

4.7如果转4.2，否则，转4.8，进行行尾部处理；

4.8由块矩阵C_(i-1)(j-1)的第1行至第M-(i-1)*m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第M行的第(j-1)*n+1列至第N列；

第五步、结束。