CN113835673B

CN113835673B - 一种用于降低多核处理器加载延时的方法、系统及装置

Info

Publication number: CN113835673B
Application number: CN202111122610.5A
Authority: CN
Inventors: 韩新辉; 王飞
Original assignee: Suzhou Ruixin Integrated Circuit Technology Co ltd
Current assignee: Suzhou Ruixin Integrated Circuit Technology Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-08-11
Anticipated expiration: 2041-09-24
Also published as: CN113835673A

Abstract

本发明提供了一种用于降低多核处理器加载延时的方法、系统及装置，该方法包括：在多核CPU架构中设置TPHB区域，所述TPHB区域是一个缓冲存储区；当CPU请求与其他请求仲裁标签流水线获胜，并命中缓存后，参与数据流水线仲裁，若CPU请求参与所述数据流水线仲裁失败，则将CPU请求导入所述TPHB区域，继续参与数据流水线仲裁；直至CPU请求在参与数据流水线仲裁中获胜，访问数据存储器，并返回相应的数据，完成加载。本方案能够有效提升针对加载的数据处理效率，实现简便，不增加额外的硬件资源消耗。

Description

一种用于降低多核处理器加载延时的方法、系统及装置

技术领域

本发明涉及计算机体系中的微架构领域，尤其是计算机处理器设计方面，具体设计一种可以有效降低多核处理器load延时的方法、系统及装置。

背景技术

在多核处理器的cache(缓存)设计中，目前主流设计方法是将查标签(tag)和读数据(data)分别在两个流水线(pipe)中进行。流程是先查标签得到命中路(hit way)，然后去数据流水线(data pipe)中读数据。在多核处理器中，缓存的访问来源不仅有本地的请求，还有来自其他核的snoop请求，这种情况下标签命中后并不能直接拿到读数据的权限，而是先要和数据流水线(data pipe)的其他请求进行仲裁。目前设计的主流做法是请求进标签流水线(tag pipe)查标签如果命中后，就去仲裁数据流水线(data pipe)，如果仲裁失败，为了不堵住流水线，只能返回请求队列(request queue)中重新仲裁。而请求队列中的请求再次读数据往往需要经过状态机等待、读请求产生、队列内部多个项(entry)之间仲裁等步骤，load延时较大。

基于以上存在的问题，传统的多核处理器中缓存设计的构架，并不能很好地适应目前对多核处理器工作效率提升的要求，在请求队列中进行状态机的等待等过程，大量消耗了硬件资源及处理时间，因此，简化这一缓存请求的处理流程，以提高多核处理器的处理能力，是目前市场上亟待解决的需求之一。

发明内容

为了解决现有技术中加载延时大的问题，本设计在微架构中添加TPHB(tag pipehit buffer，即标签流水线命中缓冲区)，将所有查标签命中但没仲裁到数据流水线的请求放进TPHB中，TPHB可设计成FIFO，其中的请求可以按年龄顺序直接继续参与仲裁，省去了请求返回到请求队列后状态机等待、生成读请求以及请求队列内多项之间仲裁所花的时间，降低了加载延迟(load latency)。

具体而言，本发明提供了以下的技术方案：

一方面，本发明提供了一种用于降低多核处理器加载延时的方法，该方法包括：

在多核CPU架构中设置TPHB区域，所述TPHB区域是一个缓冲存储区；

当CPU请求与其他请求仲裁标签流水线获胜，并命中缓存后，参与数据流水线仲裁，若CPU请求参与所述数据流水线仲裁失败，则将CPU请求导入所述TPHB区域，继续参与数据流水线仲裁；

直至CPU请求在参与数据流水线仲裁中获胜，访问数据存储器，并返回相应的数据，完成加载。

更进一步，所述TPHB设置为先进先出队列，所述TPHB的输入是命中缓存但未在当前时钟周期赢得数据流水线仲裁的请求。

更进一步，导入所述TPHB中的请求的性质不会改变。

更进一步，所述TPHB直接将其内部的第一项中的请求接入数据流水线的仲裁机制。

此外，本发明还提供了一种用于降低多核处理器加载延时的系统，该系统包括：

标签流水线仲裁模块，用于对CPU请求及其他请求进行标签流水线仲裁，并允许获胜者访问标签存储器；

数据流水线仲裁模块，用于对命中缓存的请求进行数据流水线仲裁，并允许获胜者访问数据存储器；

TPHB模块，用于接收在数据流水线仲裁模块中仲裁失败的CPU请求，并在下一时钟周期中参加数据流水线仲裁；

数据存储器模块，用于存储要加载的数据，供在数据流水线仲裁中的胜出请求调用相应数据；

所述TPHB模块连接所述标签流水线仲裁模块、数据流水线仲裁模块；所述TPHB区域是一个缓冲存储区。

更进一步，导入所述TPHB中的请求的性质不会改变。

更进一步，所述其他请求在数据流水线仲裁中失败后，进入请求队列，并在请求队列中的各项之间进行仲裁。

又一方面，本发明还提供了一种用于降低多核处理器加载延时的装置，该装置包括多核处理器、存储装置，所述多核处理器可以调用所述存储装置中存储的指令和数据，以执行如上所述的一种用于降低多核处理器加载延时的方法。

与现有技术相比，本发明的方案直接规避了请求队列中返回请求队列后，状态机等待、生成读请求以及请求队列内多项之间仲裁所需要的时间，能够有效提升针对加载的数据处理效率，且实现简便，不增加额外的硬件资源消耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的实现方法流程图；

图2为本发明实施例的更具体的实例流程图。

具体实施方式

下面将结合本发明实施例中的图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明的一个典型实施例，结合图1所示，将本发明的实现方法与现有的加载指令在缓存中的流程进行比对，此处需要说明的是，图中的序号①-⑩表示不同的流程中的对应的步骤。

在现有技术中所采用的设计中，load指令在cache(缓存)里的流程如下：

①cpu请求和其他请求仲裁标签流水线(tag pipe)。

②仲裁的获胜者访问标签ram(标签存储器)。

③在访问标签ram后，得到命中路(hit way)。

④命中后直接去仲裁数据流水线(data pipe)，如果仲裁成功，就能以最快的速度给cpu返回数据。

⑦如果仲裁失败，请求进入请求队列中。

⑧此后，在请求队列内各项(entry)之间再次进行仲裁。

⑨请求队列各项的仲裁胜出者再去仲裁数据流水线。

⑩直至在数据流水线的仲裁中获胜，才能去访问数据存储器(数据ram)。

从上面的阐述可知，现有技术所采用的微架构，请求经过首次仲裁如果失败，则需要经历多次仲裁后，才能最终实现访问数据ram，并返回相应数据的目的。期间消耗的时间周期很多，效率低下。

针对现有技术中存在的问题，在一个具体的实施例中，本发明的方案在微架构中添加TPHB(tag pipe hit buffer，即标签流水线命中缓冲区)，将所有查标签命中但没仲裁到数据流水线的请求放进TPHB中，TPHB可设计成FIFO，其中的请求可以按年龄顺序直接继续参与仲裁，省去了请求返回到请求队列后状态机等待、生成读请求以及请求队列内多项之间仲裁所花的时间，在一个更为具体的实现方式中，加载(load)指令在缓存(cache)里的执行流程如下：

①cpu请求和其他请求仲裁标签流水线(tag pipe)。

②仲裁的获胜者访问标签ram(标签存储器)。

③在访问标签ram后，得到命中路(hit way)。

⑤如果仲裁失败，请求进入TPHB(tag pipe hit buffer)，即标签流水线命中缓冲区。此处，作为一个更为详细的实施方式，只有CPU的load请求才能进入TPHB中，而对于CPU的load请求的判断，则是基于请求类型进行的直接判断，此处的判断方式可以基于本领域中的现有的常规技术即可实现，不再赘述。

⑥请求进入TPHB后，继续参与数据流水线(data pipe)的仲裁。

本发明通过设置TPHB的方式，将仲裁失败的请求，单独进行处理，从而可以以最快的相应周期，进行多次仲裁，直至可以进行数据读取。

在一个更为详细的实施方式中，本发明的上述方案的步骤⑥详细过程如下：

在多核处理器的微架构领域中，CPU中load(加载)指令的执行速度直接影响到CPU性能，本发明的方案中，设置TPHB的目的就是让load指令的结果尽快返回给CPU。请求在查询标签流水线(tag pipe)后得到命中路(hit way)信息，如果在当前时钟周期没有赢得数据流水线(data pipe)的仲裁，那么请求就进入TPHB继续参与仲裁。在一个优选的实施方式中，TPHB可以设置为先进先出的队列(FIFO)，TPHB的输入是命中L2 tag但未在当前时钟周期赢得data pipe仲裁的请求，TPHB不会改变请求的性质，TPHB的输出也是同样的请求，只是直接将请求接到数据流水线(data pipe)的仲裁机制。TPHB中可能有多个load先后请求命中L2 cache，而只有TPHB中第一项(entry)中的请求(TPHB head)会参与数据流水线的仲裁，如果第一个TPHB head赢得仲裁，那么TPHB中其他所有请求都朝head方向前进一个位置，让第一个entry中总是有新的请求参与到数据流水线的仲裁。

如果TPHB head中的请求没有赢得仲裁，就继续在head位置保留，直至赢得仲裁。

⑩数据流水线(data pipe)的仲裁获胜方，访问数据ram。

通过对比可知，本设计中请求在首次仲裁数据流水线失败后进入TPHB的设计方法，可以比传统的进入请求队列的设计方法至少省去了请求队列内部各项之间的仲裁过程，至少快一个时钟周期。

下面，结合图2，在一个更为具体的实施例中，进一步阐述本发明的核心方案。

如图2所示，来自cpu的请求在tag pipe3(即Tp3)时得到命中路(hit way)，然后直接去仲裁数据流水线(data pipe)，如果Tp3能赢得仲裁，这个路径就是cache的最小延时路径。但多核处理器cache中的数据流水线还要仲裁来自其他核的snoop请求，这就使Tp3赢得仲裁的几率变小。

此时如果没有TPHB，仲裁失败的请求会在Tp4进入请求队列中分配一个空闲entry，在entry内部还要打一拍才能产生读取数据(read data)请求，然后16个entry之间进行仲裁得到请求队列胜出者(request queue winner)，16选1的仲裁逻辑也需要打一拍，然后再去仲裁data pipe。从Tp4进入请求缓冲区(request buffer)到请求队列重新去仲裁数据管道data pipe，可见，最理想情况也要花掉两个时钟周期。

如果添加了TPHB，Tp3没有赢得仲裁时Tp4直接进入TPHB。因为TPHB是个FIFO，如果TPHB为空时，Tp4请求可以直接参与data pipe仲裁，没有额外延时。如果TPHB不为空，那么Tp4请求TPHB中排队，直到它前面的请求都已清空，自己成了TPHB head，又能继续参与仲裁，这种情况也比传统方法少了一个16选一的步骤，少了一个时钟周期的延时。因此，最理想情况下TPHB能减少2个时钟周期的延时，其他情况能减少1个时钟周期的延时。

减少load指令延时，就能有效缓解处理器中流水线堵塞情况，从而提高处理器性能。

在又一个实施例中，本发明的技术方案可以通过一种微型系统的方式来实现，即需要在原多核处理器的微架构基础上，新设置一TPHB模块，具体而言，该系统可以设置如下：

数据存储器模块，用于存储要加载的数据，供在数据管道仲裁中的胜出请求调用相应数据；

为了保证CPU请求的处理顺序，更为优选的，所述TPHB设置为先进先出队列，所述TPHB的输入是命中缓存但未在当前时钟周期赢得数据流水线仲裁的请求。

在本发明中，TPHB可以视为一个特定的请求的仲裁捷径或者特定请求快速参与仲裁的通道，因此，导入所述TPHB中的请求的性质不会改变，而仅将上述的特定请求参与仲裁的路径进行简化和缩短。

所述TPHB直接将其内部的第一项中的请求接入数据流水线的仲裁机制。

又一方面，本发明还提供了一种用于降低多核处理器加载延时的装置，该装置包括多核处理器、存储装置，所述多核处理器可以调用所述存储装置中存储的指令和数据，以执行如前实施例所述的一种用于降低多核处理器加载延时的方法。或者，该装置也可以容纳如上所述的一种用于降低多核处理器加载延时系统，从而执行系统的功能，以实现降低多核处理器加载延时的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种用于降低多核处理器加载延时的方法，其特征在于，所述方法包括：

直至CPU请求在参与数据流水线仲裁中获胜，访问数据存储器，并返回相应的数据，完成加载；

所述TPHB区域设置为先进先出队列，所述TPHB区域的输入是命中缓存但未在当前时钟周期赢得数据流水线仲裁的请求；

所述TPHB区域直接将其内部的第一项中的请求接入数据流水线的仲裁机制。

2.根据权利要求1所述的方法，其特征在于，导入所述TPHB区域中的请求的性质不会改变。

3.一种用于降低多核处理器加载延时的系统，其特征在于，所述系统包括：

所述TPHB模块连接所述标签流水线仲裁模块、数据流水线仲裁模块；所述TPHB模块是一个缓冲存储区；

所述TPHB模块设置为先进先出队列，所述TPHB模块的输入是命中缓存但未在当前时钟周期赢得数据流水线仲裁的请求；

所述TPHB模块直接将其内部的第一项中的请求接入数据流水线的仲裁机制。

4.根据权利要求3所述的系统，其特征在于，导入所述TPHB模块中的请求的性质不会改变。

5.根据权利要求3所述的系统，其特征在于，所述其他请求在数据流水线仲裁中失败后，进入请求队列，并在请求队列中的各入口之间进行仲裁。

6.一种用于降低多核处理器加载延时的装置，其特征在于，所述装置包括多核处理器、存储装置，所述多核处理器可以调用所述存储装置中存储的指令和数据，以执行如权利要求1-2任一所述的一种用于降低多核处理器加载延时的方法。