CN109445852A

CN109445852A - 一种在多核处理器中提升内存访问效率的方法及系统

Info

Publication number: CN109445852A
Application number: CN201811034189.0A
Authority: CN
Inventors: 周峰; 张静; 赵俊才
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-03-08
Anticipated expiration: 2038-09-05
Also published as: CN109445852B

Abstract

本发明提供了一种在多核处理器中提升内存访问效率的方法及系统，包括：矩阵分块映射步骤：将矩阵分为多个子矩阵，再分别将每个子矩阵存储到DDR内存的一个页面中；多核并发访问步骤：通过多个核心同时对DDR内存中的子矩阵进行访问。本发明均衡行、列数据访问速率；减少多核并发访问时的竞争；通用性好。

Description

一种在多核处理器中提升内存访问效率的方法及系统

技术领域

本发明涉及数据处理领域，具体地，涉及一种在多核处理器中提升内存访问效率的方法及系统。

背景技术

很多数据处理领域采集到的原始数据是一个二维矩阵，例如合成孔径雷达采集到的原始数据为一个二维矩阵，矩阵每一行的数据为发射的线性调频脉冲的各个采样点的值，每一列的数据为雷达在不同的空间位置处接收到的线性调频脉冲的相应的采样点值；图像采集设备采集到的原始图像是一个二维像素矩阵。在对这些二维矩阵进行处理的过程中涉及到很多行、列计算，例如傅里叶变换等，因此需要频繁读取矩阵的行数据和列数据。

当前存储这些二维矩阵的存储器主要以DDR SDRAM为主。对DDR存储器的连续地址访问时，速率可达到10GBps，如果矩阵按照顺序存储，则行向数据的访问速率较高。列向数据由于被分开存储到DDR的多个页中，故需要频繁的进行关闭页、预充电、打开页等操作，导致其访问速率降得很低，大约只能达到150MBps。因此，需要研究一种能提高列向数据访问速率的方法。

当前多核处理器应用在数据处理领域的情形越来越普遍，使用多个核心进行并发的数据访问与处理可提升计算效率。但当多核同时对DDR内存中的数据进行访问时，DDR内存通常没有足够的带宽支持这种并发访问，访问优先级相同的情况下，它们将瓜分DDR的传输带宽，而且多核并发访问还会造成资源竞争导致访问效率下降。为了减少并发访问时带来的资源竞争，通常会使用一种基于时间片的核间流水线设计方法来减缓多核访问时的竞争，即在任意时间片中确保只有一个核在访问DDR内存，但在本质上仍是串行的访问方法，虽然每个核的访问速率加快了，但总的访问速率并没有显著改善。这种方法适用于单核对数据的访问带宽能够达到饱和的情形，但实际应用中，单核对DDR内存数据的访问带宽通常无法饱和，例如上文提到的对二维矩阵列数据进行访问时的情形，因此这种方法没有充分利用多核处理器的并发访问优势。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种在多核处理器中提升内存访问效率的方法及系统。

根据本发明提供的一种在多核处理器中提升内存访问效率的方法，包括：

矩阵分块映射步骤：将矩阵分为多个子矩阵，再分别将每个子矩阵存储到DDR内存的一个页面中；

多核并发访问步骤：通过多个核心同时对DDR内存中的子矩阵进行访问。

较佳的，所述矩阵记为A(i,j)，0≤i≤N_A-1，0≤j≤N_R-1，其中，N_A表示列向采样点数，N_R表示行向采样点数，i表示逻辑行号，j表示逻辑列号，(i,j)为逻辑坐标；

DDR内存在寻址时是按照bank、行、列的顺序进行，是个三维空间，记为B(b,r,c)，其中，b表示bank号，r表示行号，c表示列号，B(b,r,c)为物理坐标。

较佳的，所述矩阵分块映射步骤包括：

将矩阵A分成W×L个等大小的子矩阵，其中，W表示列向上子矩阵的个数，L表示行向上子矩阵的个数；

子矩阵的大小为N_a×N_r，每个子矩阵用A_m,n表示，其中，N_a＝N_A/W，N_r＝N_R/L，m∈[0,W]，n∈[0,L]；

分块后的矩阵A为：

较佳的，每个子矩阵行(A_i,0,A_i,1,...,A_i,L)存放在同一个bank中，接着下一个子矩阵行存放在下一个bank中；

在沿着方位向对矩阵A进行分组，每N_b个子矩阵行构成一组G_i,i＝0,1,...,N_A/N_aN_b，偶数组中的页面采用顺序存储，奇数组中的采用转置存储。

较佳的，所述多核并发访问步骤包括：

访问行向数据时：每个核访问一个bank中的数据，首先访问第一组中的数据，访问完第一组后，再跳转到第二组继续访问，直到访问完最后一组；

访问方位向数据时：所有核跨bank访问一个页面中的数据，首先访问第一组中第一列子矩阵的数据，接着跳转到第二组继续访问第一列子矩阵的数据，直到访问完最后一组，然后再访问第一组中第二列的子矩阵，以此类推。

根据本发明提供的一种在多核处理器中提升内存访问效率的系统，包括：

矩阵分块映射模块：将矩阵分为多个子矩阵，再分别将每个子矩阵存储到DDR内存的一个页面中；

多核并发访问模块：通过多个核心同时对DDR内存中的子矩阵进行访问。

较佳的，所述矩阵分块映射模块包括：

分块后的矩阵A为：

较佳的，所述多核并发访问模块包括：

与现有技术相比，本发明具有如下的有益效果：

1)均衡行、列数据访问速率。将二维矩阵按照分块映射的方法进行存储，这样DDR内存的一个页面中既有行向数据，也有列向数据，因此可均衡行向和列向数据的访问速率。

2)减少多核并发访问时的竞争。通过合理的为每个核心安排待访问的DDR内存区域，来避免多核并发访问时带来的行切换开销，减少并发访问时带来的资源竞争，提高数据处理的整体效率。

3)通用性好。对于已有的数据处理方法，只需修改数据访问部分，其它计算计算处理部分无需修改。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图；

图2为映射后的bank分布图；

图3为行向和列向数据的访问方式示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种在多核处理器中提升内存访问效率的方法，包括：

步骤1：矩阵分块映射

本发明将矩阵分为多个子矩阵，再分别将每个子矩阵存储到DDR内存的一个页面中。这样DDR内存的一个页面中既有行向数据，也有列向数据，因此可一定程度均衡行向和列向数据的访问。

设SAR(合成孔径雷达)理的数据矩阵是个二维矩阵，记为A(i,j)，0≤i≤N_A-1，0≤j≤N_R-1，其中，N_A表示列向采样点数，N_R表示行向采样点数，i表示逻辑行号，j表示逻辑列号，这里的(i,j)称为数据的逻辑坐标。

DDR在寻址时是按照bank、行、列的顺序进行，因此是个三维空间，记为B(b,r,c)，其中，b表示bank号，r表示行号，c表示列号。这里的B(b,r,c)称为数据的物理坐标。映射过程就是将数据的二维逻辑坐标映射到三维物理坐标的过程，具体方法如下：

将二维矩阵A分成W×L个等大小的子矩阵，其中，W表示列向上子矩阵的个数，L表示行向上子矩阵的个数。子矩阵的大小为N_a×N_r，每个子矩阵用A_m,n表示，其中，N_a＝N_A/W，N_r＝N_R/L，m∈[0,W]，n∈[0,L]。分块后的矩阵如下式所示：

将每个子矩阵映射到DDR的一个页面，子矩阵的大小是2KB，包含256个复数点。子矩阵可以采用方阵形式(16×16)，或其它形式(8×32、4×64等)，为使列向和行向的行切换次数保持平衡，子矩阵采用方阵的形式。

映射后的bank分布图如图2所示，图中的每个小方格表示一个子矩阵，图中小方格里的数字表示bank号，根据前面的映射关系，每个子矩阵行(A_i,0,A_i,1,...,A_i,L)存放在同一个bank中，接着下一个子矩阵行存放在下一个bank中。在沿着方位向对矩阵A进行分组，每N_b个子矩阵行构成一组G_i,i＝0,1,...,N_A/N_aN_b，偶数组中的页面采用顺序存储，奇数组中的采用转置存储。

步骤2：多核并发访问数据

多核并发访问是指通过多个核心同时对DDR内存中的二维矩阵数据进行访问。在使用多主模式访问数据时，会引入附加的行切换开销，例如，多个核同时访问DDR中同一个bank中不同的页面。产生行切换开销的概率和核心数量、bank数量及矩阵的大小有关，假设有m个核同时访问DDR内存，至少有两个核心同时访问一个bank的概率是：

其中，N_b表示bank的数量，m表示同时访问DDR的核心数量，表示的排列组合计算符号，表示N_b的m次幂。这个P₁并不是产生行切换的概率，因为多个主设备访问同一个bank的相同页面时不会产生行切换开销，访问同一个bank不同页面时才会产生行切换开销，相应概率是：

其中，W表示方位向上子矩阵的个数。因此，发生行切换的概率为：

P_switch＝P₁P₂

若有8个核同时访问DDR中一个4K×8K的矩阵，则产生附加行切换的概率约等于95％。

根据上面的分析，在访问行向和列向数据时需要采用一定的方式来避免多核并发访问带来的附加行切换开销。在使用多个核心访问数据前，需要合理的为每个核心安排待访问的DDR区域，下面针对行向和列向数据分别讨论。

在访问行向数据时，可使用下面的方式：

每个核访问一个bank中的数据，如图3所示，图中的细箭头表示各个核的访问起始位置，首先访问G0组中的数据，访问完全部数据后，再跳转到G1组继续访问，直到访问完最后一组。这种访问方式的好处是在任意时刻，多个核访问的均是不同bank中的页面，这意味着P_switch＝0，因此这是访问行向数据时行切换开销最优的方式。

在访问方位向数据时，可使用下面的方式：

所有核跨bank访问一个页面中的数据，如图2所示，图中的粗箭头表示各个核的访问起始位置，首先访问G0组中第一列子矩阵的数据，接着跳转到G1组继续访问第一列子矩阵的数据，直到访问完最后一组。然后再访问G0中第二列的子矩阵，以此类推。这种访问方式的好处是多个核要么在访问不同bank中的页面，要么在访问同一个bank中的相同页面，意味着P_switch＝0，因此这是访问方位向数据时行切换开销最优的方式。

在上述一种在多核处理器中提升内存访问效率的方法的基础上，本发明还提供一种在多核处理器中提升内存访问效率的系统，包括：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种在多核处理器中提升内存访问效率的方法，其特征在于，包括：

2.根据权利要求1所述的在多核处理器中提升内存访问效率的方法，其特征在于，所述矩阵记为A(i,j)，0≤i≤N_A-1，0≤j≤N_R-1，其中，N_A表示列向采样点数，N_R表示行向采样点数，i表示逻辑行号，j表示逻辑列号，(i,j)为逻辑坐标；

3.根据权利要求2所述的在多核处理器中提升内存访问效率的方法，其特征在于，所述矩阵分块映射步骤包括：

分块后的矩阵A为：

4.根据权利要求3所述的在多核处理器中提升内存访问效率的方法，其特征在于，每个子矩阵行(A_i,0,A_i,1,...,A_i,L)存放在同一个bank中，接着下一个子矩阵行存放在下一个bank中；

5.根据权利要求1所述的在多核处理器中提升内存访问效率的方法，其特征在于，所述多核并发访问步骤包括：

6.一种在多核处理器中提升内存访问效率的系统，其特征在于，包括：

7.根据权利要求6所述的在多核处理器中提升内存访问效率的系统，其特征在于，所述矩阵记为A(i,j)，0≤i≤N_A-1，0≤j≤N_R-1，其中，N_A表示列向采样点数，N_R表示行向采样点数，i表示逻辑行号，j表示逻辑列号，(i,j)为逻辑坐标；

8.根据权利要求7所述的在多核处理器中提升内存访问效率的系统，其特征在于，所述矩阵分块映射模块包括：

分块后的矩阵A为：

9.根据权利要求8所述的在多核处理器中提升内存访问效率的系统，其特征在于，每个子矩阵行(A_i,0,A_i,1,...,A_i,L)存放在同一个bank中，接着下一个子矩阵行存放在下一个bank中；

10.根据权利要求6所述的在多核处理器中提升内存访问效率的系统，其特征在于，所述多核并发访问模块包括：