CN104317768B - 面向cpu+dsp异构系统的矩阵乘加速方法 - Google Patents

面向cpu+dsp异构系统的矩阵乘加速方法 Download PDF

Info

Publication number
CN104317768B
CN104317768B CN201410544785.9A CN201410544785A CN104317768B CN 104317768 B CN104317768 B CN 104317768B CN 201410544785 A CN201410544785 A CN 201410544785A CN 104317768 B CN104317768 B CN 104317768B
Authority
CN
China
Prior art keywords
matrix
dsp
cpu
row
turn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410544785.9A
Other languages
English (en)
Other versions
CN104317768A (zh
Inventor
刘杰
迟利华
甘新标
晏益慧
徐涵
胡庆丰
蒋杰
李胜国
王庆林
皇甫永硕
崔显涛
周陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201410544785.9A priority Critical patent/CN104317768B/zh
Publication of CN104317768A publication Critical patent/CN104317768A/zh
Application granted granted Critical
Publication of CN104317768B publication Critical patent/CN104317768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Multi Processors (AREA)

Abstract

本发明公开了一种面向CPU+DSP异构系统的矩阵乘加速方法,目的是面向CPU+DSP异构系统提出一种高效协同的矩阵乘加速方法,以提高矩阵乘的运算速度和最大化CPU+DSP异构系统的计算效率。技术方案是先初始化参数并对CPU+DSP异构系统信息配置,依据主处理器CPU和加速器DSP设计目标和计算性能的差异,将分配给计算结点待处理的数据划分给CPU和DSP协同处理,然后CPU和DSP并行进行数据传输与协同计算,得到个块矩阵C(i‑1)(j‑1),最后将块矩阵C(i‑1)(j‑1)归并,组成M×N的结果矩阵C。采用本发明可使得CPU在负责数据传输和程序控制的同时积极与DSP协同完成矩阵乘计算,且数据传输与协同计算重叠,提高了CPU+DSP异构系统的矩阵乘运算速度和计算资源利用率。

Description

面向CPU+DSP异构系统的矩阵乘加速方法
技术领域
本发明涉及矩阵乘加速方法,尤指面向CPU+DSP异构计算系统的矩阵乘加速方法。
背景技术
异构计算系统是由主处理器和加速器两种不同体系结构处理器搭建的计算机系统。目前,常见的异构计算系统有CPU+GPU和CPU+MIC组成异构计算系统,随着通用DSP计算性能的不断攀升和通用DSP的广泛应用,CPU+DSP必将成为异构计算系统重要的发展方向。
矩阵乘是数值计算中最常用的一类操作,很多应用中都包含矩阵乘的计算过程,面向CPU+DSP异构系统设计高效的矩阵乘方法可以有效提高应用的计算速度和提升CPU+DSP异构系统的计算效率,以达到CPU+DSP异构系统的设计目标。
矩阵乘是将被乘矩阵A的一行和乘数矩阵B的一列相乘得到结果矩阵C中的一个元素。面向异构系统的矩阵乘法通常需要将矩阵乘计算过程合理分布在主处理器和加速器之间协同完成计算过程,以提高矩阵乘的运算速度和最大化异构系统的计算效率。
由于主处理器(CPU)和加速器(DSP或MIC或GPU)设计目标和计算性能的不同,传统的面向异构系统的矩阵乘法通常由主处理器负责数据传输和程序控制,加速器负责矩阵乘计算。该方法虽然也能够提高矩阵乘的运算速度,但是主处理器在加速器忙于计算的过程中却处于等待计算结果的空闲状态,忽略了主处理器也拥有较高的计算性能,严重影响了整个异构系统的计算效率。为了充分利用加速器和主处理器的计算潜能,最大化异构计算系统的计算效率,E.Phillips等人率先在CPU+GPU异构系统上设计实现了协同的矩阵乘,该方法中首先完成矩阵数据在CPU和GPU之间的划分,然后由主处理器CPU负责数据的传输和程序控制,同时参与矩阵乘计算。这种高效协同的矩阵乘计算方法有效提高了矩阵乘的运算速度和提升了CPU+GPU异构系统的计算效率,达到了异构系统的设计目标。但是,这种数据划分和传输方法以及控制策略仅适用于NVIDIA的统一架构GPU平台。
综上所述,传统的异构系统矩阵乘方法无法满足CPU+DSP异构计算系统的设计目标。因此,面向如图1所示的CPU+DSP异构系统,提供高效协同的矩阵乘方法加速方法是本领域技术人员亟需解决的技术难题。
发明内容
本发明要解决的技术问题在于:面向CPU+DSP异构系统提出一种高效协同的矩阵乘加速方法,该方法中CPU在负责数据传输和程序控制的同时还积极与DSP协同完成矩阵乘计算,且数据传输与协同计算重叠,以提高矩阵乘的运算速度和最大化CPU+DSP异构系统的计算效率。
为了解决上述技术问题,本发明的具体技术方案为:
第一步、初始化参数并对CPU+DSP异构系统信息配置。具体步骤如下:
1.1定义矩阵A的维度为M×K,矩阵B的维度为K×N,则A与B相乘的结果矩阵C的维度为M×N,M,K,N均为正整数;
1.2查询CPU+DSP异构计算系统体系结构文档获取计算节点配置,即一个计算节点由C颗CPU和D颗DSP组成;
1.3查询CPU+DSP异构计算系统体系结构文档获取计算结点的拓扑结构m×n,即,CPU+DSP异构系统由m×n个计算节点组成,每行有n个计算节点,每列有m个计算节点;
1.4依据计算结点中DSP的个数,将DSP分别标识为0,1,d,(D-1),0≤d<D;
1.5依据CPU+DSP异构计算系统提供的基础软件工具集中的相关函数(如init)完成DSP初始化;
1.6查询CPU+DSP异构计算系统体系结构文档,获取各处理器体系结构信息,即每个计算结点中用于数据传输和流程控制的CPU核个数pcl、用于计算的CPU核个数pct、每个用于计算的CPU核拥有的浮点乘累加功能部件的数目m及主频f,每个DSP单元拥有的浮点乘累加功能部件的数目m'及主频f';
1.7计算主处理器的理论计算峰值Rpeak=pct*m*f;
1.8计算加速器的理论计算峰值R'peak=D*m'*f';
1.9确定矩阵数据划分因子η=R'peak/Rpeak
第二步、矩阵数据分布与划分。依据主处理器CPU和加速器DSP设计目标和计算性能的差异,将分配给计算结点待处理的数据合理划分给CPU和DSP协同处理,以达到CPU与DSP协同并行计算矩阵乘的目的。具体方法如下:
2.1将M*K的矩阵A划分成m*K的块矩阵Ai(),表示上取整,具体分块方法如下:
2.1.1令i=1;
2.1.2选取矩阵A的第(i-1)*m+1行至第i*m行组成块矩阵Ai
2.1.3i=i+1;
2.1.4若转2.1.2,否则,转2.1.5,进行尾部处理;
2.1.5选取矩阵A的第(i-1)*m+1行至第M行组成块矩阵Ai
2.2将K*N的矩阵B划分成K*n的子块矩阵Bj(),表示上取整,具体分块方法如下:
2.2.1令j=1;
2.2.2选取矩阵B的第(j-1)*n列至第j*n列组成块矩阵Bj
2.2.3j=j+1;
2.2.4若转2.2.2,否则,转2.2.5,进行尾部处理;
2.2.5选取矩阵B的第(j-1)*n列至第N列组成块矩阵Bj
2.3依据矩阵数据划分因子η将块矩阵Bj划分为1Bj2Bj两个子矩阵,具体方法如下:
2.3.1令j=1;
2.3.2依据矩阵数据划分因子η将块矩阵Bj划分为1Bj2Bj两个子矩阵,子矩阵1Bj的维度为K*n12Bj的维度为K*n2,并且n1,n2满足公式(1):
2.3.3j=j+1;
2.3.4若转2.3.2,否则,转第三步;
第三步、CPU和DSP并行进行数据传输与协同计算。由于CPU和DSP是两套完全独立的处理单元,因此,用于数据传输和流程控制的CPU核在传输后一块矩阵数据至DSP端存储空间的同时,DSP和用于计算的CPU核可以协同完成前一块矩阵乘运算,具体方法如下:
3.1令i=1,j=1;
3.2采用CPU+DSP异构系统数据传输函数(如DspMemcpy)将块矩阵数据Ai和2Bj传输至DSP端存储空间,具体步骤如下:
3.2.1在DSP端申请大小为size=M×k×sizeof(aij)的存储空间,sizeof(aij)表示矩阵A中元素aij的存储长度,单位为字节;
3.2.2采用CPU+DSP异构系统提供的数据传输函数(如DspMemcpy)将块矩阵Ai传输至DSP端存储空间,将DSP端存储空间中存储块矩阵Ai的空间称为
3.2.3i=i+1;
3.2.4在DSP端申请大小为size=k*n2×sizeof(bij)的存储空间,sizeof(bij)表示矩阵B中元素bij的存储长度为多少字节;
3.2.5采用CPU+DSP异构系统提供的数据传输函数将子矩阵2Bj传输至DSP端存储空间,将DSP端存储空间中存储块矩阵2Bj的空间称为
3.2.6j=j+1;
3.3采用3.2.1和3.2.2所述方法传输块矩阵数据Ai传输至
3.4采用3.2.4和3.2.5所述方法传输块子矩阵数据2Bj传输至
3.5由于CPU和DSP是两套完全独立的计算单元,因此,CPU和DSP同时并行执行各自的操作,具体步骤如下:
3.5.1用于数据传输和流程控制的CPU核上的主线程负责CPU和DSP之间的通信和交互,同时,主线程创建两个子线程Tc和Td分别控制CPU端和DSP端的矩阵计算;
3.5.2Tc调用矩阵乘库函数完成A(i-1)×1B(j-1)的矩阵计算,其计算结果为结果矩阵C的块矩阵C(i-1)(j-1)的子矩阵1C(i-1)(j-1)
3.5.3Td调用面向DSP体系结构的矩阵库函数完成A(i-1)×2B(j-1)的矩阵计算,其计算结果为结果矩阵C的块矩阵C(i-1)(j-1)的子矩阵2C(i-1)(j-1)
3.5.4主线程将子矩阵2C(i-1)(j-1)传回至CPU端存储空间;
3.5.5释放
3.5.6由子矩阵1C(i-1)(j-1)组成块矩阵C(i-1)(j-1)第1至第n1列,由子矩阵2C(i-1)(j-1)组成块矩阵C(i-1)(j-1)第n1+1至第N列,其中,n1+n2=N;
3.6j=j+1;
3.7如果转3.4,否则,转3.8,进行尾部计算;
3.8释放
3.9i=i+1;
3.10如果转3.3,否则,转第四步;
第四步、结果归并。将个块矩阵C(i-1)(j-1)归并,组成M×N的结果矩阵C,具体方法如下:
4.1令i=1,j=1;
4.2由块矩阵C(i-1)(j-1)的第1至第m行的第1列至第n列组成结果矩阵C的第(i-1)*m+1行至i*m行的第(j-1)*n+1列至第j*n列;
4.3j=j+1;
4.4如果转4.2,否则,转4.5,进行列尾部处理;
4.5由块矩阵C(i-1)(j-1)的第1至第m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第i*m行的第(j-1)*n+1列至第N列;
4.6i=i+1;
4.7如果转4.2,否则,转4.8,进行行尾部处理;
4.8由块矩阵C(i-1)(j-1)的第1行第M-(i-1)*m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第M行的第(j-1)*n+1列至第N列;
第五步、结束。
采用本发明可以达到以下技术效果:
1.本发明第三步数据传输与数据计算并行进行,提高了CPU+DSP异构系统的矩阵乘运算速度;
2.本发明第二步依据异构系统结构进行数据分布与划分,使CPU与DSP能够高度协同计算,提升CPU+DSP异构系统的计算资源利用率;
附图说明
图1为CPU+DSP异构计算系统体系结构;
图2为矩阵数据划分与归并示意图;
图3为本发明总体流程图。
具体实施方式
图1为基于PCIE通信模式的由主处理器CPU和加速器DSP组成的异构计算系统体系结构示意图,其中,主处理器端拥有内存、Cache,加速器端拥有全局存储空间、阵列存储器;主处理器和加速器之间只能通过PCIE总线进行通信和数据传输。
图2为矩阵数据划分与归并示意图,图中,M*K的矩阵A划分成m*K的块矩阵(行向量)Ai,();K*N的矩阵B划分成K*n的块矩阵(列向量)Bj,(),并且Bj又被划分为1Bj2Bj两个子矩阵,其中,1Bj在CPU端完成计算,同时,2Bj在DSP端完成计算。
本发明的具体实施步骤如下:
第一步、初始化参数并对CPU+DSP异构系统信息配置。
第二步、矩阵数据分布与划分。
第三步、CPU和DSP并行进行数据传输与协同计算。
第四步、结果归并。
第五步、结束。

Claims (1)

1.一种面向CPU+DSP异构系统的矩阵乘加速方法,其特征在于包括以下步骤:
第一步、初始化参数并对CPU+DSP异构系统信息配置,具体步骤如下:
1.1定义矩阵A的维度为M×K,矩阵B的维度为K×N,则A与B相乘的结果矩阵C的维度为M×N,M,K,N均为正整数;
1.2查询CPU+DSP异构计算系统体系结构文档获取计算节点配置,即一个计算节点由C颗CPU和D颗DSP组成;
1.3查询CPU+DSP异构计算系统体系结构文档获取计算结点的拓扑结构m×n,即,CPU+DSP异构系统由m×n个计算节点组成,每行有n个计算节点,每列有m个计算节点;
1.4依据计算结点中DSP的个数,将DSP分别标识为0,1,…d,…(D-1),0≤d<D;
1.5依据CPU+DSP异构计算系统提供的基础软件工具集中的相关函数完成DSP初始化;
1.6查询CPU+DSP异构计算系统体系结构文档,获取各处理器体系结构信息,即每个计算结点中用于数据传输和流程控制的CPU核个数pcl、用于计算的CPU核个数pct、每个用于计算的CPU核拥有的浮点乘累加功能部件的数目m及主频f,每个DSP单元拥有的浮点乘累加功能部件的数目m'及主频f';
1.7计算主处理器CPU的理论计算峰值Rpeak=pct*m*f;
1.8计算加速器DSP的理论计算峰值R'peak=D*m'*f';
1.9确定矩阵数据划分因子η=R'peak/Rpeak,R'peak为加速器DSP的理论计算峰值,Rpeak为主处理器CPU的理论计算峰值;
第二步、依据主处理器CPU和加速器DSP设计目标和计算性能的差异,将分配给计算结点待处理的数据划分给CPU和DSP协同处理,具体方法如下:
2.1将M*K的矩阵A划分成m*K的块矩阵Ai 表示上取整,具体分块方法如下:
2.1.1令i=1;
2.1.2选取矩阵A的第(i-1)*m+1行至第i*m行组成块矩阵Ai
2.1.3 i=i+1;
2.1.4若转2.1.2,否则,转2.1.5,进行尾部处理;
2.1.5选取矩阵A的第(i-1)*m+1行至第M行组成块矩阵Ai
2.2将K*N的矩阵B划分成K*n的子块矩阵Bj 表示上取整,具体分块方法如下:
2.2.1令j=1;
2.2.2选取矩阵B的第(j-1)*n列至第j*n列组成块矩阵Bj
2.2.3 j=j+1;
2.2.4若转2.2.2,否则,转2.2.5,进行尾部处理;
2.2.5选取矩阵B的第(j-1)*n列至第N列组成块矩阵Bj
2.3依据矩阵数据划分因子η将块矩阵Bj划分为1Bj2Bj两个子矩阵,具体方法如下:
2.3.1令j=1;
2.3.2依据矩阵数据划分因子η将块矩阵Bj划分为1Bj2Bj两个子矩阵,子矩阵1Bj的维度为K*n12Bj的维度为K*n2,并且n1,n2满足公式(1):
2.3.3 j=j+1;
2.3.4若转2.3.2,否则,转第三步;
第三步、CPU和DSP并行进行数据传输与协同计算,具体方法如下:
3.1令i=1,j=1;
3.2采用CPU+DSP异构系统数据传输函数将块矩阵数据Ai2Bj传输至DSP端存储空间,具体步骤如下:
3.2.1在DSP端申请大小为size=M×k×sizeof(aij)的存储空间,sizeof(aij)表示矩阵A中元素aij的存储长度,单位为字节;
3.2.2采用CPU+DSP异构系统提供的数据传输函数将块矩阵Ai传输至DSP端存储空间,将DSP端存储空间中存储块矩阵Ai的空间称为
3.2.3 i=i+1;
3.2.4在DSP端申请大小为size=k*n2×sizeof(bij)的存储空间,sizeof(bij)表示矩阵B中元素bij的存储长度为多少字节;
3.2.5采用CPU+DSP异构系统提供的数据传输函数将子矩阵2Bj传输至DSP端存储空间,将DSP端存储空间中存储块矩阵2Bj的空间称为
3.2.6 j=j+1;
3.3采用3.2.1和3.2.2所述方法传输块矩阵数据Ai传输至
3.4采用3.2.4和3.2.5所述方法传输块子矩阵数据2Bj传输至
3.5 CPU和DSP同时并行执行以下操作:
3.5.1用于数据传输和流程控制的CPU核上的主线程负责CPU和DSP之间的通信和交互,同时,主线程创建两个子线程Tc和Td分别控制CPU端和DSP端的矩阵计算;
3.5.2 Tc调用矩阵乘库函数完成A(i-1)×1B(j-1)的矩阵计算,其计算结果为结果矩阵C的块矩阵C(i-1)(j-1)的子矩阵1C(i-1)(j-1)
3.5.3 Td调用面向DSP体系结构的矩阵库函数完成A(i-1)×2B(j-1)的矩阵计算,其计算结果为结果矩阵C的块矩阵C(i-1)(j-1)的子矩阵2C(i-1)(j-1)
3.5.4主线程将子矩阵2C(i-1)(j-1)传回至CPU端存储空间;
3.5.5释放
3.5.6由子矩阵1C(i-1)(j-1)组成块矩阵C(i-1)(j-1)第1列至第n1列,由子矩阵2C(i-1)(j-1)组成块矩阵C(i-1)(j-1)第n1+1列至第N列,其中,n1+n2=N;
3.6 j=j+1;
3.7如果转3.4,否则,转3.8,进行尾部计算;
3.8释放
3.9 i=i+1;
3.10如果转3.3,否则,转第四步;
第四步、将个块矩阵C(i-1)(j-1)归并,组成M×N的结果矩阵C,具体方法如下:
4.1令i=1,j=1;
4.2由块矩阵C(i-1)(j-1)的第1行至第m行的第1列至第n列组成结果矩阵C的第(i-1)*m+1行至i*m行的第(j-1)*n+1列至第j*n列;
4.3 j=j+1;
4.4如果转4.2,否则,转4.5,进行列尾部处理;
4.5由块矩阵C(i-1)(j-1)的第1行至第m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第i*m行的第(j-1)*n+1列至第N列;
4.6 i=i+1;
4.7如果转4.2,否则,转4.8,进行行尾部处理;
4.8由块矩阵C(i-1)(j-1)的第1行至第M-(i-1)*m行的第1列至第N-(i-1)*n列组成结果矩阵C的第(i-1)*m+1行至第M行的第(j-1)*n+1列至第N列;
第五步、结束。
CN201410544785.9A 2014-10-15 2014-10-15 面向cpu+dsp异构系统的矩阵乘加速方法 Active CN104317768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410544785.9A CN104317768B (zh) 2014-10-15 2014-10-15 面向cpu+dsp异构系统的矩阵乘加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410544785.9A CN104317768B (zh) 2014-10-15 2014-10-15 面向cpu+dsp异构系统的矩阵乘加速方法

Publications (2)

Publication Number Publication Date
CN104317768A CN104317768A (zh) 2015-01-28
CN104317768B true CN104317768B (zh) 2017-02-15

Family

ID=52373002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410544785.9A Active CN104317768B (zh) 2014-10-15 2014-10-15 面向cpu+dsp异构系统的矩阵乘加速方法

Country Status (1)

Country Link
CN (1) CN104317768B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615584B (zh) * 2015-02-06 2017-12-22 中国人民解放军国防科学技术大学 面向gpdsp的大规模三角线性方程组求解向量化计算的方法
CN105677812A (zh) * 2015-12-31 2016-06-15 华为技术有限公司 一种数据查询方法及数据查询装置
CN105975434B (zh) * 2016-04-29 2018-10-02 中国人民解放军国防科学技术大学 面向异构系统的数据传输优化方法
CN109376113B (zh) * 2016-11-03 2021-12-14 中科寒武纪科技股份有限公司 Slam运算装置和方法
CN107391447A (zh) * 2017-07-26 2017-11-24 成都网烁信息科技有限公司 一种电脑加速系统及方法
CN109038543B (zh) * 2018-06-27 2021-10-15 国网辽宁省电力有限公司 一种基于cpu+gpu混合异构的状态估计计算方法
CN109871512B (zh) * 2019-01-27 2020-05-22 中国人民解放军国防科技大学 面向异构融合体系结构的矩阵乘加速方法
CN110120063A (zh) * 2019-04-23 2019-08-13 深圳市道通智能航空技术有限公司 一种基于多处理器的目标跟踪处理方法
CN110489356B (zh) * 2019-08-06 2022-02-22 上海商汤智能科技有限公司 信息处理方法、装置、电子设备及存储介质
CN112446007A (zh) * 2019-08-29 2021-03-05 上海华为技术有限公司 一种矩阵运算方法、运算装置以及处理器
CN111274996B (zh) * 2020-02-14 2023-06-09 深圳英飞拓仁用信息有限公司 人脸图片特征比对方法、装置、计算机设备及存储介质
CN111291698B (zh) * 2020-02-19 2024-02-27 深圳英飞拓仁用信息有限公司 密集人群场景人脸图像的高速识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751376A (zh) * 2009-12-30 2010-06-23 中国人民解放军国防科学技术大学 利用cpu和gpu协同工作对三角线性方程组求解的加速方法
CN102411658A (zh) * 2011-11-25 2012-04-11 中国人民解放军国防科学技术大学 一种基于cpu和gpu协作的分子动力学加速方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317482B2 (en) * 2012-10-14 2016-04-19 Microsoft Technology Licensing, Llc Universal FPGA/ASIC matrix-vector multiplication architecture

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751376A (zh) * 2009-12-30 2010-06-23 中国人民解放军国防科学技术大学 利用cpu和gpu协同工作对三角线性方程组求解的加速方法
CN102411658A (zh) * 2011-11-25 2012-04-11 中国人民解放军国防科学技术大学 一种基于cpu和gpu协作的分子动力学加速方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
High-Performance Matrix Multiply on a Massively Multithreaded Fiteng1000 Processor;Jie Liu et al.;《Algorithms and Architectures for Parallel Processing》;20121231;第7440卷;第166-176页 *
基于CUDA编程模型的稀疏对角矩阵向量乘优化;秦晋 等;《计算机工程与科学》;20120731;第34卷(第7期);第78-83页 *
矩阵乘法在Open SPARC T2多核处理器上的优化;谢林川,刘杰;《数字技术与应用》;20120531(第5期);第1-3页 *

Also Published As

Publication number Publication date
CN104317768A (zh) 2015-01-28

Similar Documents

Publication Publication Date Title
CN104317768B (zh) 面向cpu+dsp异构系统的矩阵乘加速方法
CN108241890B (zh) 一种可重构神经网络加速方法及架构
CN108805266B (zh) 一种可重构cnn高并发卷积加速器
KR102443546B1 (ko) 행렬 곱셈기
CN107301456B (zh) 基于向量处理器的深度神经网络多核加速实现方法
JP6921951B2 (ja) ニューラルネットワーク命令セットアーキテクチャ
TWI737145B (zh) 具有常駐在晶片上之參數的神經網路加速器
CN103984527B (zh) 优化稀疏矩阵向量乘提升不可压缩管流模拟效率的方法
CN103761215B (zh) 基于图形处理器的矩阵转置优化方法
CN1272705C (zh) 包括纯量算术逻辑单元的单指令多数据处理机
CN108205702A (zh) 一种多输入多输出矩阵卷积的并行处理方法
CN103049241A (zh) 一种提高cpu+gpu异构装置计算性能的方法
CN104572295B (zh) 匹配于高性能计算机体系结构的结构网格数据管理方法
CN101937425B (zh) 基于gpu众核平台的矩阵并行转置方法
CN112446471B (zh) 基于异构众核处理器的卷积加速方法
CN101833438A (zh) 一种基于多重并行的数据通用处理方法
CN108197075B (zh) 一种Inception结构的多核实现方法
CN112114942A (zh) 一种基于众核处理器的流式数据处理方法及计算设备
CN107341133A (zh) 基于任意维数矩阵lu分解的可重构计算结构的调度方法
CN109472734A (zh) 一种基于fpga的目标检测网络及其实现方法
CN104346318A (zh) 面向通用多核dsp的矩阵乘加速方法
CN103914428A (zh) 多核分布式计算环境下结构分析的高效通信方法
CN101980182A (zh) 基于矩阵运算的并行计算方法
Bhatelé et al. Benefits of topology aware mapping for mesh interconnects
CN101840329B (zh) 一种基于图拓扑结构的数据并行处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant