CN107729261B

CN107729261B - 一种多核/众核处理器中Cache地址映射方法

Info

Publication number: CN107729261B
Application number: CN201710901290.0A
Authority: CN
Inventors: 陈小文; 郭阳; 王子聪; 孙永节; 李勇; 雷元武; 陈海燕; 万江华; 郭晓伟; 张军阳
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2020-09-11
Anticipated expiration: 2037-09-28
Also published as: CN107729261A

Abstract

本发明公开一种多核/众核处理器中Cache地址映射方法，步骤包括：S1.计算非一致Cache地址映射时目标处理器中各个Bank的被访问概率，得到非一致Cache地址映射各个Bank被访问的概率分布；S2.根据Bank被访问的概率分布计算各个Bank的存储映射Cache块比例，得到各个Bank映射的Cache块数量分布；S3.根据各个Bank映射的Cache块数量分布对各个Bank映射的Cache块数量进行调节。本发明能够实现大网络规模下多核/众核处理器的网络延迟均衡，提高多核/众核处理器的运行效率。

Description

一种多核/众核处理器中Cache地址映射方法

技术领域

本发明涉及多核/众核处理器技术领域，尤其涉及一种多核/众核处理器中Cache地址映射方法。

背景技术

随着集成电路工艺的不断提升，片上系统集成的处理核越来越多，片上网络(Network-on-Chip，NoC)由于具备良好的可扩展性成为多核/众核处理器结构中的主要互连方式。处理核数的增多一方面提升了处理器的性能，另一方面也促使片上网络的规模逐渐增大。对于某些网络拓扑结构来说(例如网格网络)，网络规模的增大进而会导致各个处理核节点之间的通讯距离和延迟的差异逐渐变大，其中距离相近的处理核之间相比于距离较远的处理核之间在通讯上更具优势。然而，在二维网格网络中，每个节点的通讯优势并不是相一致的，具体表现为位于中心节点处的处理核相比于位于外围节点处的处理核距离其他节点处的处理核的平均距离更短，因此在网络通讯上更具优势，而这种优势会随着网络规模的不断增长而持续扩大，从而导致不同的网络报文之间的延迟差异逐渐增大，即产生网络延迟不均衡问题。

由于Cache容量的需求不断扩大，多核/众核处理器通常是基于NoC采用非一致Cache访问(Non-Uniform Cache Access，NUCA)体系结构来组织最后一级缓存(Last LevelCache，LLC)。在基于NoC的NUCA结构中，LLC通常在物理上分布于各个处理核节点，每个节点的Cache存储体(Bank)在逻辑上构成一个统一的共享Cache。在4×4的网格网络下典型的基于NUCA结构的片上多核系统如图1所示，每个处理单元(Processing Element，PE)包括一个一级指令/数据Cache、一个二级共享Cache Bank和一个网络接口(Network Interface，NI)，每个PE通过NI连接到一个路由器上，各分布式共享的二级Cache Bank通过静态NUCA结构的方式组织起来，并采用以Cache块为单位的方式进行交叉编址。

但是在上述NUCA结构中，当处理核发出Cache访问请求时，其访问时间由请求处理核所在节点与访问数据所在的Cache Bank所在节点的距离有关，其中当距离较近时，访问时间较小；当访问距离较远的Bank时，访问时间较大。采用上述传统NUCA结构时，随着网络规模的扩大和节点个数的增多，Cache访问延迟会逐渐由网络延迟主导，从而使得网络延迟不均衡问题传导至Cache访问延迟上，导致不同的Cache访问请求延迟差异增大，进而造成了Cache访问延迟的不均衡。这会引起部分Cache访问请求的延迟非常大，从而阻塞发出Cache访问请求的处理核的执行进程，成为系统瓶颈并严重影响系统整体性能。

综上所述，传统的多核/众核处理器的Cache地址映射机制的一致性与网络拓扑结构的不对等性的矛盾会使得在实际使用中存在网络延迟不均衡的问题，从而影响系统性能的进一步提升，因此亟需提供一种多核/众核处理器Cache地址映射方法，以解决网络延迟均衡性问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、能够实现大网络规模下多核/众核处理器的网络延迟均衡，提高多核/众核处理器的运行效率的种多核/众核处理器中Cache地址映射方法。

为解决上述技术问题，本发明提出的技术方案为：

一种多核/众核处理器中Cache地址映射方法，步骤包括：

S1.计算非一致Cache地址映射时目标处理器中各个Bank的被访问概率，得到非一致Cache地址映射各个Bank被访问的概率分布；

S2.根据所述Bank被访问的概率分布计算各个Bank的存储映射Cache块比例，得到各个Bank映射的Cache块数量分布；

S3.根据所述各个Bank映射的Cache块数量分布对各个Bank映射的Cache块数量进行调节。

作为本发明的进一步改进，所述步骤S1中具体通过对各Bank的访问距离构造非线性规划问题并进行求解，得到最优的非一致Cache地址映射各个Bank被访问的概率分布。

作为本发明的进一步改进，所述构造非线性规划问题具体为：

构造目标函数；选取矩阵D标准差作为优化的目标函数，其中矩阵D为每个节点的平均访问距离，即D＝[d_i,j]_M×N，d_i,j为节点(i,j)的处理核与位于节点(m,n)的Bank之间的曼哈顿距离，μ(D)为由矩阵D得到的所有节点的平均访问距离的平均值，构造的目标函数为：

设置约束条件：

其中，p_i,j为节点(i,j)的Bank的被访问概率，M×N为目标处理器结构中片上网络的规模。

作为本发明的进一步改进，所述步骤S2中具体按照B＝2^M'×P得到各个Bank映射的Cache块数量分布B，其中P为Bank被访问的概率分布，Bank地址占据M'位时，映射间隔为2^M'个Cache块。

作为本发明的进一步改进，所述步骤S3中，具体根据所述各个Bank映射的Cache块数量分布以及一致性Cache地址映射时Cache块数量，将网络网格中第一目标Bank重新映射到第二目标Bank，所述第一目标Bank为映射Cache块数量比一致性Cache地址映射时Cache块数量较少的Bank，所述第二目标Bank为映射Cache块数量比一致性存储映射时映射Cache块数量较多的Bank。

作为本发明的进一步改进，所述第一目标Bank为处于网络网格中靠近边角位置的Bank，所述第二目标Bank为络网格中靠近中心位置的Bank，即将处于网络网格中靠近边角位置的所述第一目标Bank的Cache块映射到处于网络网格中靠近中心位置处所述第二目标Bank。

作为本发明的进一步改进，所述对各个Bank映射的Cache块数量进行调节的具体步骤为：将由各Bank节点构成的网络网格均分为四个区域，在每个区域内，保持网络网格对角线上的节点映射的Cache块数量不变，并判断非对角线上的各节点所映射的Cache块数量与一致性Cache地址映射时Cache块数量之间的大小关系，如果小于，判定对应节点为处于网络网格中靠近边角位置的第一目标Bank；如果大于，判定对应节点为处于靠近中心位置的第二目标Bank，将每个区域中处于网络网格中靠近边角位置的第一目标Bank的Cache块重新映射至所述处于靠近中心位置的第二目标Bank。

与现有技术相比，本发明的优点在于：

1)本实发明通过引入非一致设计，通过最优的非一致Cache地址映射计算目标处理器中各个Bank的被访问概率，基于各个Bank的被访问概率计算各个Bank的Cache块映射比例，再依据该比例在一个映射间隔的Cache块数量之中调节各个Bank映射的Cache块数量，使得优化各Bank映射的Cache块数量，通过优化后的Cache地址映射调整网络延迟不均衡状态，实现网络延迟均衡，通过非一致设计有效缓解了传统多核/众核处理器中面临的网络延迟不均衡问题，从而有效提升系统性能；

2)本发明通过结合一致性Cache地址映射对非一致Cache地址映射分布进行优化调节，基于一致性Cache地址映射时Cache块数据，将映射Cache块数量少的Bank重新映射到映射Cache块数量多的Bank上，从而有效提高了网络延迟均衡性能；

3)本发明通过对各Bank的访问距离构造非线性规划问题，进行求解后得到最优的非一致Cache地址映射各个Bank被访问的概率分布，结合一致性Cache地址映射对Bank映射的Cache块数量分布进行调节，能够最大限度的实现各Bank映射的Cache块数量分布的优化，实现多核/众核处理器的网络延迟均衡。

附图说明

图1是4×4的网格网络下典型的传统基于NUCA结构的片上多核系统的结构示意图。

图2是本实施例多核/众核处理器中Cache地址映射方法的实现流程示意图。

图3是本发明具体实施例中各个Bank的访问概率以及Cache块数量分布结果示意图。

图4是本发明具体实施例中执行非一致Cache地址映射的原理示意图。

图5是本发明具体实施例中得到的每组Cache块的映射结果示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图2所示，本实施例多核/众核处理器中Cache地址映射方法，其特征在于，步骤包括：

S1.计算非一致Cache地址映射时目标处理器中各个Bank(存储体)的被访问概率，得到非一致Cache地址映射各个Bank被访问的概率分布；

S2.根据Bank被访问的概率分布计算各个Bank的存储映射Cache块比例，得到各个Bank映射的Cache块数量分布；

S3.根据各个Bank映射的Cache块数量分布对各个Bank映射的Cache块数量进行调节，以均衡网络延迟。

相比如传统的多核/众核处理器采用存储器到LLC的一致性映射，即以Cache块为交叉单位将存储器中的Cache块逐个映射到LLC的每个Bank上，本实施例引入非一致设计，首先通过最优的非一致Cache地址映射计算目标处理器中各个Bank的被访问概率，基于各个Bank的被访问概率计算各个Bank的Cache块映射比例，再依据该比例在一个映射间隔的Cache块数量之中调节各个Bank映射的Cache块数量，使得优化各Bank映射的Cache块数量，通过优化后的Cache地址映射调整网络延迟不均衡状态，实现网络延迟均衡，通过非一致设计有效缓解了传统多核/众核处理器中面临的网络延迟不均衡问题，从而有效提升系统性能。

本实施例中，步骤S1中具体通过对各Bank的访问距离构造非线性规划问题，并使用非线性规划方法进行求解，得到最优的非一致Cache地址映射各个Bank被访问的概率分布。基于非线性规划方法，能够基于非一致Cache地址映射准确的获取得到最优的非一致Cache地址映射各个Bank被访问的概率分布。

本实施例具体采用YX维序路由策略的网格网络、且网络大小为M×N，步骤S1中首先输入多核/众核处理器结构中片上网络大小M×N，假设节点(i,j)的Bank的被访问概率为p_i,j，也即为存储器中Cache块映射比例，需要计算的非一致Cache地址映射分布用矩阵P表示：

P＝[p_i,j]_M×N (1)

再为p_i,j设定统一的初始值为：

假设位于节点(i,j)的处理核需要访问位于节点(m,n)的Bank，则节点(i,j)的处理核与节点(m,n)的Bank之间的访问距离可以由曼哈顿距离表示，具体可表示为：

d_i,j(m,n)＝|i-m|+|j-n| (3)

进而可以得到位于节点(i,j)的处理核访问Bank的平均距离为：

使用矩阵D表示每个节点的平均访问距离为：

D＝[d_i,j]_M×N (5)

则根据矩阵D得到所有节点的平均访问距离的平均值为：

为了能够均衡各个节点的平均访问延迟，需要各个节点的平均访问距离尽可能的互相接近，即矩阵D中元素的集合的标准差能够越小越好，本实施例选取矩阵D的标准差作为优化的目标函数，目标函数即为：

又由于所有的Bank的访问概率之和应该等于1，并且每个Bank的访问概率应当大于或等于0，即需要满足如下约束公式：

由上述可构造非线性规划问题，具体即为：

构造的目标函数：

以及设置约束条件：

使用非线性规划方法求解上述非线性规划问题后，即可得到最优的非一致Cache地址映射各个Bank的被访问概率，从而得到最优的非一致Cache地址映射各个Bank被访问的概率分布P。

得到各个Bank访问概率分布P后，根据该分布P计算各个Bank的存储映射Cache块比例，具体为每个Bank与其访问概率一致的存储映射Cache块比例。考虑物理存储空间地址中，Bank地址占据M'位，则映射间隔为2^M'个Cache块，本实施例步骤S2中具体按照B＝2^M'×P得到各个Bank映射的Cache块数量分布B。

本实施例中，步骤S3中具体根据各个Bank映射的Cache块数量分布以及一致性Cache地址映射时Cache块数量，将网络网格中第一目标Bank重新映射到第二目标Bank，其中第一目标Bank为映射Cache块数量比一致性Cache地址映射时Cache块数量较少的Bank，第二目标Bank为映射Cache块数量比一致性存储映射时映射Cache块数量较多的Bank，实现对各个Bank映射的Cache块数量进行调节。即在一致性Cache地址映射的基础上，依据各个Bank映射的Cache块数量分布B调节各个Bank映射的Cache块数量，具体优化调节方法为：将网络网格中映射Cache块数量比一致性Cache地址映射时Cache块数量较少的Bank，重新映射到网络网格中映射Cache块数量比一致性存储映射时映射Cache块数量较多的目标Bank。

本实施例通过结合一致性Cache地址映射对非一致Cache地址映射分布进行优化调节，基于一致性Cache地址映射时Cache块数据，将映射Cache块数量少的Bank重新映射到映射Cache块数量多的Bank上，从而有效提高了网络延迟均衡性能。

具体根据各个Bank映射的Cache块数量分布以及一致性Cache地址映射时Cache块数量，将网络网格中第一目标Bank重新映射到第二目标Bank，所述第一目标Bank为映射Cache块数量比一致性Cache地址映射时Cache块数量较少的Bank，所述第二目标Bank为映射Cache块数量比一致性存储映射时映射Cache块数量较多的Bank。

由于网络网格中的中心节点映射的Cache块数量较多，而外围节点映射的Cache块数量较少，基于上述优化调整原则，本实施例上述第一目标Bank为处于网络网格中靠近边角位置的Bank，第二目标Bank为络网格中靠近中心位置的Bank，即将处于网络网格中靠近边角位置的第一目标Bank的Cache块映射到处于网络网格中靠近中心位置处第二目标Bank，具体步骤为：将由各Bank节点构成的网络网格均分为四个区域，在每个区域内，保持网络网格对角线上的节点映射的Cache块数量不变，并判断非对角线上的各节点所映射的Cache块数量与一致性Cache地址映射时Cache块数量之间的大小关系，如果小于，判定对应节点为处于网络网格中靠近边角位置的第一目标Bank；如果大于，判定对应节点为处于靠近中心位置的第二目标Bank，将每个区域中处于网络网格中靠近边角位置的第一目标Bank的Cache块重新映射至所述处于靠近中心位置的第二目标Bank。通过上述方法，能够快速、有效的优化Cache块分布，从而高效率的解决多核/众核处理器网络延迟不均衡问题。

以下以8×8的网格网络为例对本发明进行进一步说明。

本实施例中计算得到的各个Bank的访问概率以及Cache块数量分布结果如图3所示，从图中可以看出，与传统的多核/众核处理器结构下的一致性Cache地址映射相比，在Bank地址字段(即Bank ID)占据9位的情况下，中心节点映射的Cache块数量较多，而外围节点映射的Cache块数量较少，需要进一步通过调节将外围节点原先映射的部分Cache块重新映射到中心节点上。

本实施例对8×8的网格网络采用本发明非一致Cache地址映射方法的原理如图4所示，首先将原本6比特的Bank ID字段扩展为9比特作为Bank地址，并将高3位作为标志位(Bank tag)，而将低6位作为索引位(Bank index)；根据标志位的不同，将512个Cache块分为8组，每组包含64个Cache块，而索引位则表示在原先的S-NUCA结构下该Cache块应当映射到的Bank地址；网格网络中的节点分为4个区域(如虚线划分所示)，每个区域的映射方式为：将靠近边角处的节点的部分Cache块映射到靠近中心处的节点，以对某些组中的Cache块映射进行调整。以左上角区域为例，靠近中心的节点27需要映射10个Cache块，而位于角落的节点0需要映射6个Cache块，由于与一致性结构下的映射相比，节点27多了2个Cache块而节点0少了2个Cache块，因此将第7、8组(即Bank tag等于6或7)下原本属于节点0的Cache块映射到节点27；而对于节点1(在512个Cache块中映射有7个)和节点19(在512个Cache块中映射有9个)，与一致性结构下的映射(每个节点映射8个Cache块)相比，只需将8组中的一组(具体取第8组，即Bank tag等于7)中原本属于节点1的Cache块映射到节点19即可；同理，对于节点1/2/8/9/16将第7组(即Bank tag等于7)下的Cache块分别映射到节点19/11/26/18/25。而对于位于各个区域对角线上的节点则保持其Cache块映射与原先相同。

如图5所示，本实施例得到的每组Cache块的映射结果(主要示出对应为左上角区域部分)，对于前6组(即tag等于0至5)映射方式与一致性结构中保持一致，对于后2组(即tag等于6或7)将部分Cache块映射到靠近中心节点处，通过采用本发明Cache地址映射方法，能够解决传统多核/众核处理器中面临的网络延迟不均衡问题。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种多核/众核处理器中Cache地址映射方法，其特征在于，步骤包括：

S3.根据所述各个Bank映射的Cache块数量分布对各个Bank映射的Cache块数量进行调节；

所述步骤S1中具体通过对各Bank的访问距离构造非线性规划问题并进行求解，得到最优的非一致Cache地址映射各个Bank被访问的概率分布；

所述构造非线性规划问题具体为：

设置约束条件：

其中，p_i,j为节点(i,j)的Bank的被访问概率，M×N为目标处理器结构中片上网络的规模，d_i,j(m,n)为节点(i,j)的处理核与位于节点(m,n)的Bank之间的访问距离。

2.根据权利要求1所述的多核/众核处理器中Cache地址映射方法，其特征在于，所述步骤S2中具体按照B＝2^M'×P得到各个Bank映射的Cache块数量分布B，其中P为Bank被访问的概率分布，Bank地址占据M'位时，映射间隔为2^M'个Cache块。

3.根据权利要求1或2所述的多核/众核处理器中Cache地址映射方法，其特征在于，所述步骤S3中，具体根据所述各个Bank映射的Cache块数量分布以及一致性Cache地址映射时Cache块数量，将网络网格中第一目标Bank重新映射到第二目标Bank，所述第一目标Bank为映射Cache块数量比一致性Cache地址映射时Cache块数量较少的Bank，所述第二目标Bank为映射Cache块数量比一致性存储映射时映射Cache块数量较多的Bank。

4.根据权利要求3所述的多核/众核处理器中Cache地址映射方法，其特征在于：所述第一目标Bank为处于网络网格中靠近边角位置的Bank，所述第二目标Bank为络网格中靠近中心位置的Bank，即将处于网络网格中靠近边角位置的所述第一目标Bank的Cache块映射到处于网络网格中靠近中心位置处所述第二目标Bank。

5.根据权利要求4所述的多核/众核处理器中Cache地址映射方法，其特征在于，所述对各个Bank映射的Cache块数量进行调节的具体步骤为：将由各Bank节点构成的网络网格均分为四个区域，在每个区域内，保持网络网格对角线上的节点映射的Cache块数量不变，并判断非对角线上的各节点所映射的Cache块数量与一致性Cache地址映射时Cache块数量之间的大小关系，如果小于，判定对应节点为处于网络网格中靠近边角位置的第一目标Bank；如果大于，判定对应节点为处于靠近中心位置的第二目标Bank，将每个区域中处于网络网格中靠近边角位置的第一目标Bank的Cache块重新映射至所述处于靠近中心位置的第二目标Bank。