CN114238173A

CN114238173A - L2中CRQ和CWQ快速deallocate实现方法及系统

Info

Publication number: CN114238173A
Application number: CN202111369637.4A
Authority: CN
Inventors: 李长林; 刘磊
Original assignee: Guangdong Saifang Technology Co ltd
Current assignee: Guangdong Saifang Technology Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-25

Abstract

本发明涉及CPU技术领域，具体涉及一种L2中CRQ和CWQ快速deallocate实现方法及系统，包括probe、eviction、TAG RAM、DATA RAM、CRQ、CWQ、EPQ、ORQ、WRQ、EFQ和CPQ。本发明core read queue(CRQ)和core write queue(CWR)只要获得了仲裁并且上了pipeline就可deallocate掉对应的entry项，如果CRQ/CWQ能正常的完成，则正常response LSU，如果不能正常完成，则将完整的权限交给OQ(outstanding queue)，这样就做到以最快的速度把CRQ/CWQ的entry项deallocate掉，从而有效的提高了CPU的整体性能。

Description

L2中CRQ和CWQ快速deallocate实现方法及系统

技术领域

本发明涉及CPU技术领域，具体涉及一种L2中CRQ和CWQ快速deallocate实现方法及系统。

背景技术

CRQ(core read queue)和CWR(core write queue)在L2中的作用是将LSU的readwrite请求放在queue中，并且每个core都有一个CRQ和CWQ，该queue如果不能很快的deallocate，会导致该queue很快的full，从而导致不能接收来自core的新的request请求，而L1的reload请求响应的快慢又会严重影响CPU的整体性能。

针对该问题，我们提出：core read queue(CRQ)和core write queue(CWR)只要获得了仲裁并且上了pipeline就可deallocate掉对应的entry项，如果CRQ/CWQ能正常的完成，则正常response LSU，如果不能正常完成，则将完整的权限交给OQ(outstandingqueue)，这样就做到以最快的速度把CRQ/CWQ的entry项deallocate掉。

发明内容

针对现有技术的不足，本发明公开了一种L2中CRQ和CWQ快速deallocate实现方法及系统，用于解决CRQ/CWQ的entry项维护着LSU的read write请求在L2的完整生命周期，导致CRQ/CWQ的entry项deallocate很晚，最终由于CRQ CWQ full导致L2不能接收来自L1新的read write请求的问题。

本发明通过以下技术方案予以实现：

第一方面，本发明提供一种L2中CRQ和CWQ快速deallocate实现方法，包括以下步骤：

S1接收来自core和外部extend的请求，由仲裁模块收来自CRQ CWQ EPQ ORQ EFQCPQ的请求，并选出其中的一个请求进入pipeline；

S2根据请求的类型和当前L2中TAG信息及MESI状态信息，判断下游所需要的数据或权限，并对应进行分配；

S3通过L2向下游memory发出读请求或写请求，并由下游memory返回reload data回填到EFQ；

S4由EFQ上L2de pipeline，并将reload回来的数据写入L2$中，同时将数据return请求的core；

其中，来自core的请求为load miss请求或lsu eviction请求。

更进一步的，所述方法中，接收来自core和外部extend的请求，包括接收来自core的read请求，放在CRQ中；接收来自core的write请求，放在CWQ中；接收来自外部的probe请求，放在EPQ中。

更进一步的，其特征在于，所述方法中，在pipeline中，根据请求的类型和当前L2中TAG信息及MESI状态信息确定：是否可以直接写入L2；

是否可以直接return data给请求方；是否需要向下游memory reload数据或权限；是否需要产生evict；是否需要向下游memory write数据；是否需要probe core。

更进一步的，所述方法中，如果判断需要向下游memory reload数据或权限，则分配一个ORQ；如果判断需要向下游memory write数据，则分配一个WRQ；如果判断需要probecore，则分配一个CPQ，L2向core发出probe请求，都是通过CPQ来完成。

更进一步的，所述方法中，通过L2向下游memory发出读请求，则通过ORQ发出，向下游memory读取到数据并拿到该数据对应的权限。

更进一步的，所述方法中，通过L2向下游memory发出写请求，则通过WRQ，将数据从L2中写到下一级memory中。

更进一步的，所述方法中，进行load miss请求时，包括以下步骤：

Load miss请求从core发出，并allocate一个CRQ entry项；

CRQ的Load miss请求上pipeline并赢得仲裁，上pipeline；

如果命中了tag_ram，直接deallocate掉CRQ中对应的entry项；

如果miss,tag_ram则allocate ORQ并且deallocate掉CRQ中对应的entry项

ORQ向下一级memory发出reload请求，等到refill回填数据；

下级memory回填数据写入EFQ中；

EFQ参与并获得pipeline仲裁；

更新L2 tag_ram data_ram将数据返回给core，同时deallocate掉相应的ORQ和EFQ对应的entry项。

更进一步的，所述方法中，进行lsu eviction请求时，包括以下步骤：

lsu eviction请求从core发出，并allocate一个CWQ entry项；

CWQ的lsu eviction请求上pipeline并赢得仲裁，上pipeline；

如果命中了tag_ram，直接deallocate掉CWQ中对应的entry项，同时给lsu会response；

如果miss,tag_ram则allocate WRQ，将数据写入WRQ中，如果在WRQ中已存在相同的pa，则将eviction数据merge进WRQ中；

WRQ将数据写入下一级memory；

下级memory会response给WRQ,deallocate掉WRQ对应的entry项。

第二方面，本发明提供了一种L2中CRQ和CWQ快速deallocate实现系统，所述系统用于实现第一方面所述的L2中CRQ和CWQ快速deallocate实现方法，包括probe、eviction、TAG RAM、DATA RAM、CRQ、CWQ、EPQ、ORQ、WRQ、EFQ和CPQ。

更进一步的，所述probe用于窥视和监听，将core中dirty的数据probe下来或者为了拿到E权限，把core中的MESI状态信息进行修改；

所述eviction，用于保持cache中保存的数据相对新的数据，在cache中需要把数据替换出去时产生；

所述TAG RAM用于记录cacheline的addr及该cacheline在L2和所有的L2 CORE中的MESI状态信息；

所述DATA RAM用于记录cacheline的数据信息；

所述CRQ用于接收来自core的read请求存放的队列；

所述CWQ用于接收来自core的write请求的队列；

所述EPQ用于接收来自外部的probe请求的队列；

所述ORQ，用于在一个在L2中的请求，上L2 pipeline后，发现本cache中该cacheline不存在或该cacheline的在本cache中的访问权限不够时，则需要申请一个ORQ，通过ORQ向下一级memory reload数据并拿到相应的权限；

所述WRQ，用于在L2需要把某条cacheline给写到下一级memory，则申请要给WRQ，通过WRQ将数据写入下一级memory；

所述EFQ用于在由reload数据回填L2的时候，先把数据回填写入EFQ中，然后通过EFQ上L2的pipeline将数据写入L2$同时将数据return给请求模块；

所述CPQ用于将probe相应的core,probe请求则先存放在CPQ中，然后通过CPQ向对应的core发出probe请求。

本发明的有益效果为：

本发明core read queue(CRQ)和core write queue(CWR)只要获得了仲裁并且上了pipeline就可deallocate掉对应的entry项，如果CRQ/CWQ能正常的完成，则正常response LSU，如果不能正常完成，则将完整的权限交给OQ(outstanding queue)，这样就做到以最快的速度把CRQ/CWQ的entry项deallocate掉，从而有效的提高了CPU的整体性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例L2的基本框图；

图2是本发明实施例load miss请求的基本流程图；

图3是本发明实施例lsu eviction请求的基本流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1所示，本实施例公开一种L2的基本框图，其基本功能描述如下：

本实施例接收来自core和外部extend的请求，包括

接收来自core的read请求，放在CRQ(core read queue)中

接收来自core的write请求，放在CWQ(core write queue)中

接收来自外部的probe请求，放在EPQ(extend probe queue)中

本实施例仲裁模块接收来自CRQ CWQ EPQ ORQ EFQ CPQ的请求，选出其中的一个请求进入pipeline

本实施例在pipeline中，根据请求的类型，和当前L2中TAG信息及MESI状态信息确定：

是否可以直接写入L2；

是否可以直接return data给请求方；

是否需要向下游memory reload数据或权限；

是否需要产生evict；

是否需要向下游memory write数据；

是否需要probe core等；

本实施例中，如果判断需要向下游memory reload数据或权限，则分配一个ORQ(outstanding request queue)；

本实施例中，如果判断需要向下游memory write数据，则分配一个WRQ(writerequet queue)；

本实施例中，如果判断需要probe core，则分配一个CPQ(core probe queue),L2向core发出probe请求，都是通过CPQ(core probe queue)来完成。

本实施例L2向下游memory发出请求：

读请求，则通过ORQ(outstanding request queue)发出，向下游memory读取到数据并拿到该数据对应的权限

写请求，则通过WRQ(write requet queue)，将数据从L2中写到下一级memory中

本实施例L下游memory返回reload data回填到EFQ(Extend fill queue)。再由EFQ(Extend fill queue)上L2de pipeline，讲reload回来的数据写入L2$中，同时将数据return请求的core。

实施例2

本实施例提供一种memory系统维护数据一致性的协议，用来表明对该cacheline当前core具有怎么的权限，具体如下：

M:modify，表明该core对该cacheline进行了修改，该cacheline只在本cache中存在，如果其它cache需要访问该cachelin，则需要通过probe的方式才能拿到最新dirty数据，并拿到相应的权限

E:Exclusive表明该cacheline只在本cache中存在，如果其它cache需要访问该cacheline，则需要通过probe的方式拿到相应的数据和权限

S:Shared表明该cacheline不仅在本cache中存在，可能还在其它的cache中存在，如果其它cache需要访问该cacheline，并拿到E/M态，则需要通过probe的方式拿到相应的数据和权限

I:Invalid表明该cacheline不在本cache中。

实施例3

在具体实施层面，本实施例提供一个load miss和lsu eviction请求的基本流，也就是read write的基本流程。

本实施例中，如图2所示，load miss请求的基本流程如下：

1、Load miss请求从core发出，并allocate一个CRQ entry项

2、CRQ的Load miss请求上pipeline并赢得仲裁，上pipeline

3、如果命中了tag_ram，直接deallocate掉CRQ中对应的entry项

4、如果miss,tag_ram则allocate ORQ并且deallocate掉CRQ中对应的entry项

5、ORQ向下一级memory发出reload请求，等到refill回填数据

6、下级memory回填数据写入EFQ中

7、EFQ参与并获得pipeline仲裁

8、更新L2 tag_ram data_ram将数据返回给core，同时deallocate掉相应的ORQ(outstanding request queue)和EFQ((extend probe queue))对应的entry项

本实施例中，如图3所示，lsu eviction请求的基本流程如下：

1、lsu eviction请求从core发出，并allocate一个CWQ entry项

2、CWQ的lsu eviction请求上pipeline并赢得仲裁，上pipeline

3、如果命中了tag_ram，直接deallocate掉CWQ中对应的entry项，同时给lsu会response

4、如果miss,tag_ram则allocate WRQ，将数据写入WRQ中，如果在WRQ中已存在相同的pa，则将eviction数据merge进WRQ中

5、WRQ将数据写入下一级memory

6、下级memory会response给WRQ,deallocate掉WRQ对应的entry项

本实施例中，从上面读写流程可以看出，CRQ或CWQ只要赢得仲裁上了pipeline，就可立马deallocate掉，从而可以空出entry项来接收lsu发来的新请求。

实施例4

本实施例提供一种L2中CRQ和CWQ快速deallocate实现系统，包括probe、eviction、TAG RAM、DATA RAM、CRQ、CWQ、EPQ、ORQ、WRQ、EFQ和CPQ。

本实施例中，所述probe用于窥视和监听，将core中dirty的数据probe下来或者为了拿到E权限，把core中的MESI状态信息进行修改；

所述DATA RAM用于记录cacheline的数据信息；

所述CRQ用于接收来自core的read请求存放的队列；

所述CWQ用于接收来自core的write请求的队列；

所述EPQ用于接收来自外部的probe请求的队列；

综上，本发明core read queue(CRQ)和core write queue(CWR)只要获得了仲裁并且上了pipeline就可deallocate掉对应的entry项，如果CRQ/CWQ能正常的完成，则正常response LSU，如果不能正常完成，则将完整的权限交给OQ(outstanding queue)，这样就做到以最快的速度把CRQ/CWQ的entry项deallocate掉，从而有效的提高了CPU的整体性能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，包括以下步骤：

S1接收来自core和外部extend的请求，由仲裁模块收来自CRQ CWQ EPQ ORQ EFQ CPQ的请求，并选出其中的一个请求进入pipeline；

其中，来自core的请求为load miss请求或lsu eviction请求。

2.根据权利要求1所述的一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，所述方法中，接收来自core和外部extend的请求，包括接收来自core的read请求，放在CRQ中；接收来自core的write请求，放在CWQ中；接收来自外部的probe请求，放在EPQ中。

3.根据权利要求1所述的一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，所述方法中，在pipeline中，根据请求的类型和当前L2中TAG信息及MESI状态信息确定：是否可以直接写入L2；是否可以直接return data给请求方；是否需要向下游memory reload数据或权限；是否需要产生evict；是否需要向下游memory write数据；是否需要probe core。

4.根据权利要求1所述的一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，所述方法中，如果判断需要向下游memory reload数据或权限，则分配一个ORQ；如果判断需要向下游memory write数据，则分配一个WRQ；如果判断需要probe core，则分配一个CPQ，L2向core发出probe请求，都是通过CPQ来完成。

5.根据权利要求1所述的L2中queue的管理方式的实现方法，其特征在于，所述方法中，通过L2向下游memory发出读请求，则通过ORQ发出，向下游memory读取到数据并拿到该数据对应的权限。

6.根据权利要求5所述的L2中queue的管理方式的实现方法，其特征在于，所述方法中，通过L2向下游memory发出写请求，则通过WRQ，将数据从L2中写到下一级memory中。

7.根据权利要求1所述的一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，所述方法中，进行load miss请求时，包括以下步骤：

Load miss请求从core发出，并allocate一个CRQ entry项；

CRQ的Load miss请求上pipeline并赢得仲裁，上pipeline；

如果命中了tag_ram，直接deallocate掉CRQ中对应的entry项；

如果miss,tag_ram则allocate ORQ并且deallocate掉CRQ中对应的entry项

ORQ向下一级memory发出reload请求，等到refill回填数据；

下级memory回填数据写入EFQ中；

EFQ参与并获得pipeline仲裁；

8.根据权利要求1所述的一种L2中CRQ和CWQ快速deallocate实现方法，其特征在于，所述方法中，进行lsu eviction请求时，包括以下步骤：

lsu eviction请求从core发出，并allocate一个CWQ entry项；

CWQ的lsu eviction请求上pipeline并赢得仲裁，上pipeline；

WRQ将数据写入下一级memory；

下级memory会response给WRQ,deallocate掉WRQ对应的entry项。

9.一种L2中CRQ和CWQ快速deallocate实现系统，所述系统用于实现如权利要求1-8任一项所述的L2中CRQ和CWQ快速deallocate实现方法，其特征在于，包括probe、eviction、TAG RAM、DATA RAM、CRQ、CWQ、EPQ、ORQ、WRQ、EFQ和CPQ。

10.根据权利要求9所示的L2中L2中CRQ和CWQ快速deallocate实现系统，其特征在于，所述probe用于窥视和监听，将core中dirty的数据probe下来或者为了拿到E权限，把core中的MESI状态信息进行修改；

所述DATA RAM用于记录cacheline的数据信息；

所述CRQ用于接收来自core的read请求存放的队列；

所述CWQ用于接收来自core的write请求的队列；

所述EPQ用于接收来自外部的probe请求的队列；