CN109445852A - 一种在多核处理器中提升内存访问效率的方法及系统 - Google Patents
一种在多核处理器中提升内存访问效率的方法及系统 Download PDFInfo
- Publication number
- CN109445852A CN109445852A CN201811034189.0A CN201811034189A CN109445852A CN 109445852 A CN109445852 A CN 109445852A CN 201811034189 A CN201811034189 A CN 201811034189A CN 109445852 A CN109445852 A CN 109445852A
- Authority
- CN
- China
- Prior art keywords
- submatrix
- row
- group
- matrix
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 57
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 230000001737 promoting effect Effects 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3824—Operand accessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种在多核处理器中提升内存访问效率的方法及系统,包括:矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。本发明均衡行、列数据访问速率;减少多核并发访问时的竞争;通用性好。
Description
技术领域
本发明涉及数据处理领域,具体地,涉及一种在多核处理器中提升内存访问效率的方法及系统。
背景技术
很多数据处理领域采集到的原始数据是一个二维矩阵,例如合成孔径雷达采集到的原始数据为一个二维矩阵,矩阵每一行的数据为发射的线性调频脉冲的各个采样点的值,每一列的数据为雷达在不同的空间位置处接收到的线性调频脉冲的相应的采样点值;图像采集设备采集到的原始图像是一个二维像素矩阵。在对这些二维矩阵进行处理的过程中涉及到很多行、列计算,例如傅里叶变换等,因此需要频繁读取矩阵的行数据和列数据。
当前存储这些二维矩阵的存储器主要以DDR SDRAM为主。对DDR存储器的连续地址访问时,速率可达到10GBps,如果矩阵按照顺序存储,则行向数据的访问速率较高。列向数据由于被分开存储到DDR的多个页中,故需要频繁的进行关闭页、预充电、打开页等操作,导致其访问速率降得很低,大约只能达到150MBps。因此,需要研究一种能提高列向数据访问速率的方法。
当前多核处理器应用在数据处理领域的情形越来越普遍,使用多个核心进行并发的数据访问与处理可提升计算效率。但当多核同时对DDR内存中的数据进行访问时,DDR内存通常没有足够的带宽支持这种并发访问,访问优先级相同的情况下,它们将瓜分DDR的传输带宽,而且多核并发访问还会造成资源竞争导致访问效率下降。为了减少并发访问时带来的资源竞争,通常会使用一种基于时间片的核间流水线设计方法来减缓多核访问时的竞争,即在任意时间片中确保只有一个核在访问DDR内存,但在本质上仍是串行的访问方法,虽然每个核的访问速率加快了,但总的访问速率并没有显著改善。这种方法适用于单核对数据的访问带宽能够达到饱和的情形,但实际应用中,单核对DDR内存数据的访问带宽通常无法饱和,例如上文提到的对二维矩阵列数据进行访问时的情形,因此这种方法没有充分利用多核处理器的并发访问优势。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种在多核处理器中提升内存访问效率的方法及系统。
根据本发明提供的一种在多核处理器中提升内存访问效率的方法,包括:
矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。
较佳的,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
较佳的,所述矩阵分块映射步骤包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
较佳的,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
较佳的,所述多核并发访问步骤包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
根据本发明提供的一种在多核处理器中提升内存访问效率的系统,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
较佳的,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
较佳的,所述矩阵分块映射模块包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
较佳的,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
较佳的,所述多核并发访问模块包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
与现有技术相比,本发明具有如下的有益效果:
1)均衡行、列数据访问速率。将二维矩阵按照分块映射的方法进行存储,这样DDR内存的一个页面中既有行向数据,也有列向数据,因此可均衡行向和列向数据的访问速率。
2)减少多核并发访问时的竞争。通过合理的为每个核心安排待访问的DDR内存区域,来避免多核并发访问时带来的行切换开销,减少并发访问时带来的资源竞争,提高数据处理的整体效率。
3)通用性好。对于已有的数据处理方法,只需修改数据访问部分,其它计算计算处理部分无需修改。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程图;
图2为映射后的bank分布图;
图3为行向和列向数据的访问方式示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供的一种在多核处理器中提升内存访问效率的方法,包括:
步骤1:矩阵分块映射
本发明将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中。这样DDR内存的一个页面中既有行向数据,也有列向数据,因此可一定程度均衡行向和列向数据的访问。
设SAR(合成孔径雷达)理的数据矩阵是个二维矩阵,记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,这里的(i,j)称为数据的逻辑坐标。
DDR在寻址时是按照bank、行、列的顺序进行,因此是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号。这里的B(b,r,c)称为数据的物理坐标。映射过程就是将数据的二维逻辑坐标映射到三维物理坐标的过程,具体方法如下:
将二维矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数。子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L]。分块后的矩阵如下式所示:
将每个子矩阵映射到DDR的一个页面,子矩阵的大小是2KB,包含256个复数点。子矩阵可以采用方阵形式(16×16),或其它形式(8×32、4×64等),为使列向和行向的行切换次数保持平衡,子矩阵采用方阵的形式。
映射后的bank分布图如图2所示,图中的每个小方格表示一个子矩阵,图中小方格里的数字表示bank号,根据前面的映射关系,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中。在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
步骤2:多核并发访问数据
多核并发访问是指通过多个核心同时对DDR内存中的二维矩阵数据进行访问。在使用多主模式访问数据时,会引入附加的行切换开销,例如,多个核同时访问DDR中同一个bank中不同的页面。产生行切换开销的概率和核心数量、bank数量及矩阵的大小有关,假设有m个核同时访问DDR内存,至少有两个核心同时访问一个bank的概率是:
其中,Nb表示bank的数量,m表示同时访问DDR的核心数量,表示的排列组合计算符号,表示Nb的m次幂。这个P1并不是产生行切换的概率,因为多个主设备访问同一个bank的相同页面时不会产生行切换开销,访问同一个bank不同页面时才会产生行切换开销,相应概率是:
其中,W表示方位向上子矩阵的个数。因此,发生行切换的概率为:
Pswitch=P1P2
若有8个核同时访问DDR中一个4K×8K的矩阵,则产生附加行切换的概率约等于95%。
根据上面的分析,在访问行向和列向数据时需要采用一定的方式来避免多核并发访问带来的附加行切换开销。在使用多个核心访问数据前,需要合理的为每个核心安排待访问的DDR区域,下面针对行向和列向数据分别讨论。
在访问行向数据时,可使用下面的方式:
每个核访问一个bank中的数据,如图3所示,图中的细箭头表示各个核的访问起始位置,首先访问G0组中的数据,访问完全部数据后,再跳转到G1组继续访问,直到访问完最后一组。这种访问方式的好处是在任意时刻,多个核访问的均是不同bank中的页面,这意味着Pswitch=0,因此这是访问行向数据时行切换开销最优的方式。
在访问方位向数据时,可使用下面的方式:
所有核跨bank访问一个页面中的数据,如图2所示,图中的粗箭头表示各个核的访问起始位置,首先访问G0组中第一列子矩阵的数据,接着跳转到G1组继续访问第一列子矩阵的数据,直到访问完最后一组。然后再访问G0中第二列的子矩阵,以此类推。这种访问方式的好处是多个核要么在访问不同bank中的页面,要么在访问同一个bank中的相同页面,意味着Pswitch=0,因此这是访问方位向数据时行切换开销最优的方式。
在上述一种在多核处理器中提升内存访问效率的方法的基础上,本发明还提供一种在多核处理器中提升内存访问效率的系统,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种在多核处理器中提升内存访问效率的方法,其特征在于,包括:
矩阵分块映射步骤:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问步骤:通过多个核心同时对DDR内存中的子矩阵进行访问。
2.根据权利要求1所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
3.根据权利要求2所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述矩阵分块映射步骤包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
4.根据权利要求3所述的在多核处理器中提升内存访问效率的方法,其特征在于,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
5.根据权利要求1所述的在多核处理器中提升内存访问效率的方法,其特征在于,所述多核并发访问步骤包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
6.一种在多核处理器中提升内存访问效率的系统,其特征在于,包括:
矩阵分块映射模块:将矩阵分为多个子矩阵,再分别将每个子矩阵存储到DDR内存的一个页面中;
多核并发访问模块:通过多个核心同时对DDR内存中的子矩阵进行访问。
7.根据权利要求6所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述矩阵记为A(i,j),0≤i≤NA-1,0≤j≤NR-1,其中,NA表示列向采样点数,NR表示行向采样点数,i表示逻辑行号,j表示逻辑列号,(i,j)为逻辑坐标;
DDR内存在寻址时是按照bank、行、列的顺序进行,是个三维空间,记为B(b,r,c),其中,b表示bank号,r表示行号,c表示列号,B(b,r,c)为物理坐标。
8.根据权利要求7所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述矩阵分块映射模块包括:
将矩阵A分成W×L个等大小的子矩阵,其中,W表示列向上子矩阵的个数,L表示行向上子矩阵的个数;
子矩阵的大小为Na×Nr,每个子矩阵用Am,n表示,其中,Na=NA/W,Nr=NR/L,m∈[0,W],n∈[0,L];
分块后的矩阵A为:
9.根据权利要求8所述的在多核处理器中提升内存访问效率的系统,其特征在于,每个子矩阵行(Ai,0,Ai,1,...,Ai,L)存放在同一个bank中,接着下一个子矩阵行存放在下一个bank中;
在沿着方位向对矩阵A进行分组,每Nb个子矩阵行构成一组Gi,i=0,1,...,NA/NaNb,偶数组中的页面采用顺序存储,奇数组中的采用转置存储。
10.根据权利要求6所述的在多核处理器中提升内存访问效率的系统,其特征在于,所述多核并发访问模块包括:
访问行向数据时:每个核访问一个bank中的数据,首先访问第一组中的数据,访问完第一组后,再跳转到第二组继续访问,直到访问完最后一组;
访问方位向数据时:所有核跨bank访问一个页面中的数据,首先访问第一组中第一列子矩阵的数据,接着跳转到第二组继续访问第一列子矩阵的数据,直到访问完最后一组,然后再访问第一组中第二列的子矩阵,以此类推。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811034189.0A CN109445852B (zh) | 2018-09-05 | 2018-09-05 | 一种在多核处理器中提升内存访问效率的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811034189.0A CN109445852B (zh) | 2018-09-05 | 2018-09-05 | 一种在多核处理器中提升内存访问效率的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109445852A true CN109445852A (zh) | 2019-03-08 |
CN109445852B CN109445852B (zh) | 2020-08-25 |
Family
ID=65532803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811034189.0A Active CN109445852B (zh) | 2018-09-05 | 2018-09-05 | 一种在多核处理器中提升内存访问效率的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109445852B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1311311C (en) * | 1987-07-10 | 1992-12-08 | Brian H. Jackson | Full page graphics image display data reduction |
US20080270877A1 (en) * | 2004-07-27 | 2008-10-30 | Min Seok Oh | Method of Encoding and Decoding Using Low Density Parity Check Code |
CN101782878A (zh) * | 2009-04-03 | 2010-07-21 | 北京理工大学 | 基于分布式存储器的数据存储方法 |
FR2941806A1 (fr) * | 2009-02-03 | 2010-08-06 | Commissariat Energie Atomique | Procede de codage correcteur d'erreurs avec bits de parite totale et procede de detection d'erreurs multiples |
CN104750223A (zh) * | 2013-12-26 | 2015-07-01 | 联芯科技有限公司 | 一种降低多核终端内存访问功耗的方法和系统 |
CN106919516A (zh) * | 2015-12-24 | 2017-07-04 | 联芯科技有限公司 | Ddr地址映射系统和方法 |
CN107562643A (zh) * | 2017-08-11 | 2018-01-09 | 记忆科技(深圳)有限公司 | 一种固态硬盘raid管理方法 |
-
2018
- 2018-09-05 CN CN201811034189.0A patent/CN109445852B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1311311C (en) * | 1987-07-10 | 1992-12-08 | Brian H. Jackson | Full page graphics image display data reduction |
US20080270877A1 (en) * | 2004-07-27 | 2008-10-30 | Min Seok Oh | Method of Encoding and Decoding Using Low Density Parity Check Code |
FR2941806A1 (fr) * | 2009-02-03 | 2010-08-06 | Commissariat Energie Atomique | Procede de codage correcteur d'erreurs avec bits de parite totale et procede de detection d'erreurs multiples |
CN101782878A (zh) * | 2009-04-03 | 2010-07-21 | 北京理工大学 | 基于分布式存储器的数据存储方法 |
CN104750223A (zh) * | 2013-12-26 | 2015-07-01 | 联芯科技有限公司 | 一种降低多核终端内存访问功耗的方法和系统 |
CN106919516A (zh) * | 2015-12-24 | 2017-07-04 | 联芯科技有限公司 | Ddr地址映射系统和方法 |
CN107562643A (zh) * | 2017-08-11 | 2018-01-09 | 记忆科技(深圳)有限公司 | 一种固态硬盘raid管理方法 |
Non-Patent Citations (1)
Title |
---|
张帅等: "细粒度任务并行 GPU通用矩阵乘", 《计算机工程与科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109445852B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10140123B2 (en) | SIMD processing lanes storing input pixel operand data in local register file for thread execution of image processing operations | |
CN106164881B (zh) | 异构计算系统中的工作窃取 | |
US10409596B2 (en) | Method and apparatus for performing vector operations using look up tables | |
US20120163113A1 (en) | Memory controller and memory controlling method | |
US9053811B2 (en) | Memory device refresh | |
CN103761215B (zh) | 基于图形处理器的矩阵转置优化方法 | |
CN104699631A (zh) | Gpdsp中多层次协同与共享的存储装置和访存方法 | |
JP6395937B2 (ja) | メモリ活性化方法および装置 | |
CN113190515B (zh) | 基于异构并行计算的城市级海量点云坐标转换方法 | |
CN103760525A (zh) | 一种补齐式原地矩阵转置方法 | |
Kasagi et al. | Parallel algorithms for the summed area table on the asynchronous hierarchical memory machine, with GPU implementations | |
US20170357570A1 (en) | Storing Arrays of Data in Data Processing Systems | |
DE102023105565A1 (de) | VERFAHREN UND VORRICHTUNG FÜR EFFIZIENTEN ZUGRIFF AUF MEHRDIMENSIONALE DATENSTRUKTUREN UND/ODER ANDERE GROßE DATENBLÖCKE | |
CN106484532B (zh) | 面向sph流体模拟的gpgpu并行计算方法 | |
CN108169716A (zh) | 基于sdram芯片的sar成像系统矩阵转置装置和图案交织方法 | |
CN105373497A (zh) | 基于dsp芯片的矩阵转置装置 | |
CN109446478A (zh) | 一种基于迭代和可重构方式的复协方差矩阵计算系统 | |
CN106897131A (zh) | 一种用于天文软件Gridding的并行计算方法及其装置 | |
US9727476B2 (en) | 2-D gather instruction and a 2-D cache | |
KR102202575B1 (ko) | 메모리 관리 방법 및 장치 | |
Emoto et al. | An optimal parallel algorithm for computing the summed area table on the GPU | |
CN109445852A (zh) | 一种在多核处理器中提升内存访问效率的方法及系统 | |
CN106919516B (zh) | Ddr地址映射系统和方法 | |
CN104391676B (zh) | 一种低成本高带宽的微处理器取指方法及其取指结构 | |
DE102023105577A1 (de) | Verfahren und Vorrichtung zum effizienten Zugriff auf mehrdimensionale Datenstrukturen und/oder andere große Datenblöcke |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |