CN109445852A - 一种在多核处理器中提升内存访问效率的方法及系统 - Google Patents

一种在多核处理器中提升内存访问效率的方法及系统 Download PDF

Info

Publication number
CN109445852A
CN109445852A CN201811034189.0A CN201811034189A CN109445852A CN 109445852 A CN109445852 A CN 109445852A CN 201811034189 A CN201811034189 A CN 201811034189A CN 109445852 A CN109445852 A CN 109445852A
Authority
CN
China
Prior art keywords
submatrix
row
group
matrix
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811034189.0A
Other languages
English (en)
Other versions
CN109445852B (zh
Inventor
周峰
张静
赵俊才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 32 Research Institute
Original Assignee
CETC 32 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 32 Research Institute filed Critical CETC 32 Research Institute
Priority to CN201811034189.0A priority Critical patent/CN109445852B/zh
Publication of CN109445852A publication Critical patent/CN109445852A/zh
Application granted granted Critical
Publication of CN109445852B publication Critical patent/CN109445852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种在多核处理器中提升内存访问效率的方法及系统,包括:矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。本发明均衡行、列数据访问速率;减少多核并发访问时的竞争;通用性好。

Description

一种在多核处理器中提升内存访问效率的方法及系统
技术领域
本发明涉及数据处理领域,具体地,涉及一种在多核处理器中提升内存访问效率的方法及系统。
背景技术
很多数据处理领域采集到的原始数据是一个二维矩阵,例如合成孔径雷达采集到的原始数据为一个二维矩阵,矩阵每一行的数据为发射的线性调频脉冲的各个采样点的值,每一列的数据为雷达在不同的空间位置处接收到的线性调频脉冲的相应的采样点值;图像采集设备采集到的原始图像是一个二维像素矩阵。在对这些二维矩阵进行处理的过程中涉及到很多行、列计算,例如傅里叶变换等,因此需要频繁读取矩阵的行数据和列数据。
当前存储这些二维矩阵的存储器主要以DDR SDRAM为主。对DDR存储器的连续地址访问时,速率可达到10GBps,如果矩阵按照顺序存储,则行向数据的访问速率较高。列向数据由于被分开存储到DDR的多个页中,故需要频繁的进行关闭页、预充电、打开页等操作,导致其访问速率降得很低,大约只能达到150MBps。因此,需要研究一种能提高列向数据访问速率的方法。
当前多核处理器应用在数据处理领域的情形越来越普遍,使用多个核心进行并发的数据访问与处理可提升计算效率。但当多核同时对DDR内存中的数据进行访问时,DDR内存通常没有足够的带宽支持这种并发访问,访问优先级相同的情况下,它们将瓜分DDR的传输带宽,而且多核并发访问还会造成资源竞争导致访问效率下降。为了减少并发访问时带来的资源竞争,通常会使用一种基于时间片的核间流水线设计方法来减缓多核访问时的竞争,即在任意时间片中确保只有一个核在访问DDR内存,但在本质上仍是串行的访问方法,虽然每个核的访问速率加快了,但总的访问速率并没有显著改善。这种方法适用于单核对数据的访问带宽能够达到饱和的情形,但实际应用中,单核对DDR内存数据的访问带宽通常无法饱和,例如上文提到的对二维矩阵列数据进行访问时的情形,因此这种方法没有充分利用多核处理器的并发访问优势。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种在多核处理器中提升内存访问效率的方法及系统。
根据本发明提供的一种在多核处理器中提升内存访问效率的方法,包括:
矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。
较佳的,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
较佳的,所述矩阵分块映射步骤包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
较佳的,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
较佳的,所述多核并发访问步骤包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
根据本发明提供的一种在多核处理器中提升内存访问效率的系统,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
较佳的,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
较佳的,所述矩阵分块映射模块包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
较佳的,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
较佳的,所述多核并发访问模块包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
与现有技术相比,本发明具有如下的有益效果:
1)均衡行、列数据访问速率。将二维矩阵按照分块映射的方法进行存储,这样DDR内存的一个页面中既有行向数据,也有列向数据,因此可均衡行向和列向数据的访问速率。
2)减少多核并发访问时的竞争。通过合理的为每个核心安排待访问的DDR内存区域,来避免多核并发访问时带来的行切换开销,减少并发访问时带来的资源竞争,提高数据处理的整体效率。
3)通用性好。对于已有的数据处理方法,只需修改数据访问部分,其它计算计算处理部分无需修改。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程图;
图2为映射后的bank分布图;
图3为行向和列向数据的访问方式示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供的一种在多核处理器中提升内存访问效率的方法,包括:
步骤1:矩阵分块映射
本发明将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中。这样DDR内存的一个页面中既有行向数据,也有列向数据,因此可一定程度均衡行向和列向数据的访问。
设SAR(合成孔径雷达)理的数据矩阵是个二维矩阵,记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,这里的(i,j)称为数据的逻辑坐标。
DDR在寻址时是按照bank、行、列的顺序进行,因此是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号。这里的B(b,r,c)称为数据的物理坐标。映射过程就是将数据的二维逻辑坐标映射到三维物理坐标的过程,具体方法如下:
将二维矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数。子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L]。分块后的矩阵如下式所示:
将每个子矩阵映射到DDR的一个页面,子矩阵的大小是2KB,包含256个复数点。子矩阵可以采用方阵形式(16×16),或其它形式(8×32、4×64等),为使列向和行向的行切换次数保持平衡,子矩阵采用方阵的形式。
映射后的bank分布图如图2所示,图中的每个小方格表示一个子矩阵,图中小方格里的数字表示bank号,根据前面的映射关系,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中。在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
步骤2:多核并发访问数据
多核并发访问是指通过多个核心同时对DDR内存中的二维矩阵数据进行访问。在使用多主模式访问数据时,会引入附加的行切换开销,例如,多个核同时访问DDR中同一个bank中不同的页面。产生行切换开销的概率和核心数量、bank数量及矩阵的大小有关,假设有m个核同时访问DDR内存,至少有两个核心同时访问一个bank的概率是:
其中,Nb表示bank的数量,m表示同时访问DDR的核心数量,表示的排列组合计算符号,表示Nb的m次幂。这个P1并不是产生行切换的概率,因为多个主设备访问同一个bank的相同页面时不会产生行切换开销,访问同一个bank不同页面时才会产生行切换开销,相应概率是:
其中,W表示方位向上子矩阵的个数。因此,发生行切换的概率为:
Pswitch=P1P2
若有8个核同时访问DDR中一个4K×8K的矩阵,则产生附加行切换的概率约等于95%。
根据上面的分析,在访问行向和列向数据时需要采用一定的方式来避免多核并发访问带来的附加行切换开销。在使用多个核心访问数据前,需要合理的为每个核心安排待访问的DDR区域,下面针对行向和列向数据分别讨论。
在访问行向数据时,可使用下面的方式:
每个核访问一个bank中的数据,如图3所示,图中的细箭头表示各个核的访问起始位置,首先访问G0组中的数据,访问完全部数据后,再跳转到G1组继续访问,直到访问完最后一组。这种访问方式的好处是在任意时刻,多个核访问的均是不同bank中的页面,这意味着Pswitch=0,因此这是访问行向数据时行切换开销最优的方式。
在访问方位向数据时,可使用下面的方式:
所有核跨bank访问一个页面中的数据,如图2所示,图中的粗箭头表示各个核的访问起始位置,首先访问G0组中第一列子矩阵的数据,接着跳转到G1组继续访问第一列子矩阵的数据,直到访问完最后一组。然后再访问G0中第二列的子矩阵,以此类推。这种访问方式的好处是多个核要么在访问不同bank中的页面,要么在访问同一个bank中的相同页面,意味着Pswitch=0,因此这是访问方位向数据时行切换开销最优的方式。
在上述一种在多核处理器中提升内存访问效率的方法的基础上,本发明还提供一种在多核处理器中提升内存访问效率的系统,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种在多核处理器中提升内存访问效率的方法,其特征在于,包括:
矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。
2.根据权利要求1所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
3.根据权利要求2所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述矩阵分块映射步骤包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
4.根据权利要求3所述的在多核处理器中提升内存访问效率的方法,其特征在于,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
5.根据权利要求1所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述多核并发访问步骤包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
6.一种在多核处理器中提升内存访问效率的系统,其特征在于,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
7.根据权利要求6所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
8.根据权利要求7所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述矩阵分块映射模块包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
9.根据权利要求8所述的在多核处理器中提升内存访问效率的系统,其特征在于,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
10.根据权利要求6所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述多核并发访问模块包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
CN201811034189.0A 2018-09-05 2018-09-05 一种在多核处理器中提升内存访问效率的方法及系统 Active CN109445852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811034189.0A CN109445852B (zh) 2018-09-05 2018-09-05 一种在多核处理器中提升内存访问效率的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811034189.0A CN109445852B (zh) 2018-09-05 2018-09-05 一种在多核处理器中提升内存访问效率的方法及系统

Publications (2)

Publication Number Publication Date
CN109445852A true CN109445852A (zh) 2019-03-08
CN109445852B CN109445852B (zh) 2020-08-25

Family

ID=65532803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811034189.0A Active CN109445852B (zh) 2018-09-05 2018-09-05 一种在多核处理器中提升内存访问效率的方法及系统

Country Status (1)

Country Link
CN (1) CN109445852B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1311311C (en) * 1987-07-10 1992-12-08 Brian H. Jackson Full page graphics image display data reduction
US20080270877A1 (en) * 2004-07-27 2008-10-30 Min Seok Oh Method of Encoding and Decoding Using Low Density Parity Check Code
CN101782878A (zh) * 2009-04-03 2010-07-21 北京理工大学 基于分布式存储器的数据存储方法
FR2941806A1 (fr) * 2009-02-03 2010-08-06 Commissariat Energie Atomique Procede de codage correcteur d'erreurs avec bits de parite totale et procede de detection d'erreurs multiples
CN104750223A (zh) * 2013-12-26 2015-07-01 联芯科技有限公司 一种降低多核终端内存访问功耗的方法和系统
CN106919516A (zh) * 2015-12-24 2017-07-04 联芯科技有限公司 Ddr地址映射系统和方法
CN107562643A (zh) * 2017-08-11 2018-01-09 记忆科技(深圳)有限公司 一种固态硬盘raid管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1311311C (en) * 1987-07-10 1992-12-08 Brian H. Jackson Full page graphics image display data reduction
US20080270877A1 (en) * 2004-07-27 2008-10-30 Min Seok Oh Method of Encoding and Decoding Using Low Density Parity Check Code
FR2941806A1 (fr) * 2009-02-03 2010-08-06 Commissariat Energie Atomique Procede de codage correcteur d'erreurs avec bits de parite totale et procede de detection d'erreurs multiples
CN101782878A (zh) * 2009-04-03 2010-07-21 北京理工大学 基于分布式存储器的数据存储方法
CN104750223A (zh) * 2013-12-26 2015-07-01 联芯科技有限公司 一种降低多核终端内存访问功耗的方法和系统
CN106919516A (zh) * 2015-12-24 2017-07-04 联芯科技有限公司 Ddr地址映射系统和方法
CN107562643A (zh) * 2017-08-11 2018-01-09 记忆科技(深圳)有限公司 一种固态硬盘raid管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张帅等: "细粒度任务并行 GPU通用矩阵乘", 《计算机工程与科学》 *

Also Published As

Publication number Publication date
CN109445852B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
US20170212757A1 (en) Simd processing unit with local data share and access to a global data share of a gpu
US8422330B2 (en) Memory controller and memory controlling method
US9053811B2 (en) Memory device refresh
CN103761215B (zh) 基于图形处理器的矩阵转置优化方法
US10409596B2 (en) Method and apparatus for performing vector operations using look up tables
JP6395937B2 (ja) メモリ活性化方法および装置
US10552307B2 (en) Storing arrays of data in data processing systems
CN103760525A (zh) 一种补齐式原地矩阵转置方法
CN105359142B (zh) 哈希连接方法和装置
Kasagi et al. Parallel algorithms for the summed area table on the asynchronous hierarchical memory machine, with GPU implementations
CN110781447A (zh) 一种基于ddr的高效率矩阵转置处理方法
CN106484532B (zh) 面向sph流体模拟的gpgpu并行计算方法
CN108169716A (zh) 基于sdram芯片的sar成像系统矩阵转置装置和图案交织方法
CN109446478A (zh) 一种基于迭代和可重构方式的复协方差矩阵计算系统
CN109445852A (zh) 一种在多核处理器中提升内存访问效率的方法及系统
CN106919516B (zh) Ddr地址映射系统和方法
CN105373497A (zh) 基于dsp芯片的矩阵转置装置
Emoto et al. An optimal parallel algorithm for computing the summed area table on the GPU
CN104391676B (zh) 一种低成本高带宽的微处理器取指方法及其取指结构
CN105874437B (zh) 存储器管理方法和装置
JP2017539003A (ja) メモリアクセスユニット
CN103699517B (zh) 一种1-d/2-d混合架构fft处理器
WO2016007069A1 (en) Device and method for performing a fourier transform on a three dimensional data set
CN110766150A (zh) 一种深度卷积神经网络硬件加速器中的区域并行数据载入装置及方法
US7085887B2 (en) Processor and processor method of operation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant