KR20060049710A

KR20060049710A - 칩 멀티-프로세서의 공유 캐시를 분할하기 위한 장치 및방법

Info

Publication number: KR20060049710A
Application number: KR1020050058252A
Authority: KR
Inventors: 매튜 매티나; 안토니오 쥬안-호미고; 조엘 에머; 라몬 마타스-나바로
Original assignee: 인텔 코오퍼레이션
Priority date: 2004-06-30
Filing date: 2005-06-30
Publication date: 2006-05-19
Also published as: EP1612683A2; US20060004963A1; EP1612683A3; CN1728112A; TWI285810B; US7558920B2; CN100511184C; TW200615755A

Abstract

칩 멀티-프로세서의 공유 캐시를 분할하기 위한 장치 및 방법이 개시되어 있다. 일 실시예에 있어서, 이 방법은, 프로세서로부터의 수신된 요구에 따라 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터의 캐시 블록의 요구를 포함한다. 일단 캐시 블록이 요구되면, 수신된 요구의 프로세서 식별자 및 요구 타입에 따라 공유 캐시 내의 희생 블록이 선택된다. 일 실시예에 있어서, 프로세서 식별자 및 요구 타입에 따른 희생 블록의 선택은, 캐시 분할에 따른 이용가능한 캐시 웨이들의 서브세트로부터의 희생 블록의 선택을 제한하기 위해 세트 어소시어티브 공유 캐시의 분할에 기초한다. 다른 실시예들이 기재되고 청구된다.

프로세서, 컨트롤러, 공유 캐시, 캐시 분할, 희생 블록, 캐시 미스

Description

칩 멀티-프로세서의 공유 캐시를 분할하기 위한 장치 및 방법{AN APPARATUS AND METHOD FOR PARTITIONING A SHARED CACHE OF A CHIP MULTI-PROCESSOR}

본 발명의 다양한 실시예들은 첨부도면들을 참조하여 예시적으로 도시되어 있으며, 이것으로 한정하고자 하는 것은 아니다.

도 1은 일 실시예에 있어서, 공유 캐시의 분할을 제공하기 위해 컨트롤러를 포함하는 칩 멀티-프로세서(CMP)를 도시한 블록도.

도 2는 일 실시예에 있어서, 공유 캐시의 캐시 분할을 제공하기 위해 도 1의 공유 캐시 및 컨트롤러를 더 도시한 블록도.

도 3은 일 실시예에 있어서, 도 2의 후보 희생 블록 로직(candidate victim block logic)을 더 도시한 블록도.

도 4는 일 실시예에 있어서, 공유 캐시의 분할에 따라 공유 캐시 내의 희생 블록을 선택하기 위한 방법을 도시한 흐름도.

도 5는 일 실시예에 있어서, 칩 멀티-프로세서(CMP)의 공유 캐시를 분할하기 위한 방법을 도시한 흐름도.

도 6은 일 실시예에 있어서, 공유 캐시의 캐시 분할 방식에 따라 희생 블록을 선택하기 위한 방법을 도시한 흐름도.

도 7은 개시된 기술들을 이용한 설계의 에뮬레이션, 시뮬레이션 및 제조를 위한 다양한 설계 표현들 또는 포맷들을 도시한 블록도.

<도면의 주요 부분에 대한 부호의 설명>

100: 칩 멀티-프로세서(CMP) 110: 프로세서 코어(CPU)

112: 사설 코어 캐시 계층 130: 상호접속 네트워크

150: 공유 캐시 190: 시스템 메모리

192: 시스템 메모리 상호접속 200: 캐시 분할 로직

본 발명의 하나 또는 그 이상의 실시예들은 일반적으로 집적회로 및 컴퓨터 시스템 설계 분야에 관한 것이다. 특히, 본 발명의 하나 또는 그 이상의 실시예들은 칩 멀티-프로세서의 공유 캐시를 분할하기 위한 장치 및 방법에 관한 것이다.

칩 멀티-프로세서(chip multi-processor: CMP)들은 동일 다이(die) 상에 여러 개의 프로세서들을 포함한다. 공유 캐시 CMP에서, 일부 레벨의 캐시는 공유되고, 칩 상의 프로세서들의 일부 또는 전부에 의해 액세스된다. 종종, 이러한 공유는, 프로세서들이, 스레드들(threads)이 데이터 및 명령들을 공유하는 멀티-스레드 소프트웨어 애플리케이션(multi-threaded software application)을 실행하기 때문에 이점이 있다. 캐시를 공유함으로써, 하나 이상의 프로세서에 의해 액세스되는 데이터 워드는 캐시 내의 단일 위치를 점유한다. 또한, 임의의 프로세서는, 다른 프로세서들에 의해 필요로 되고 허용된다면, 모든 캐시를 이용할 수 있다. 캐시를 공유하는 것의 단점은, 프로세서들이 이용가능한 것보다 많은 용량을 공동으로 요구하는 경우, 프로세서들은, 프로세서들이 보다 작은 사설 캐시들(private caches)을 갖는 경우보다 많은 전체 캐시 미스(miss)를 경험할 수 있다는 것이다.

세트 어소시어티브(set-associative) 캐시 메모리에서, 캐시 메모리 내의 요구된 데이터의 캐시 미스는, 요구된 블록에게 자리를 내주기 위해 캐시로부터의 블록의 퇴거를 요구하는데, 본 명세서에서는 이러한 캐시로부터 퇴거되는 블록을 "희생 블록(victim block)"이라고 칭한다. 세트 어소시어티브 캐시의 액세스는 캐시 메모리 내의 세트를 선택하는데 이용되는 캐시 요구의 인덱스에 따라 수행된다. 일단 세트가 선택되면, 캐시 요구의 태그값을 이용하여, 요구된 캐시 블록을 포함하는 선택된 세트 내의 웨이를 식별한다. 캐시 요구의 태그값의 비교가, 선택된 세트 내의 대응하는 웨이를 식별하는데에 실패한 경우, 캐시 미스가 검출된다. 공유 캐시에서, 캐시 미스에 응답하여, 퇴거할 희생 블록을 선택하는 것은, 캐시를 공유하는 프로세서들의 수에 따라 문제가 될 수 있다.

칩 멀티-프로세서(CMP)의 공유 캐시를 분할하기 위한 장치 및 방법이 개시된다. 일 실시예에 있어서, 이 방법은, 프로세서로부터의 수신된 요구에 따라 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터의 캐시 블록의 요구를 포함한다. 일단 캐시 블록이 요구되면, 수신된 요구의 프로세서 ID 및 요구 타입에 따라 공유 캐시 내의 희생 블록이 선택된다. 일 실시예에 있어서, 프로세서 ID 및 요구 타입에 따른 희생 블록의 선택은, 캐시 분할에 따른 이용가능한 캐시 웨이들의 서브세트로부터의 희생 블록의 선택을 제한하기 위해 세트 어소시어티브 공유 캐시의 분할에 기초한다. 일 실시예에 있어서, 어느 하나의 교체 알고리즘에 의해 이용될 수 있는 캐시 웨이들의 서브세트는 상이한 타입의 메모리 요구들 예를 들면, 수요(demand) 및 사전인출(prefetch) 요구들에 대해 상이할 수 있다.

다음의 설명에서는, 특정 용어를 이용하여 본 발명의 특징들을 설명한다. 예를 들어, "로직(logic)"이라는 용어는 하나 또는 그 이상의 기능들을 수행하도록 구성된 하드웨어 및/또는 소프트웨어를 나타낸다. 이를테면, "하드웨어"의 예들은, 집적회로, 유한 상태 기계(finite state machine) 또는 결합 로직을 포함하며, 이것으로 제한되거나 한정되지는 않는다. 집적회로는 마이크로프로세서, 주문형 반도체, 디지털 신호 처리기, 마이크로-컨트롤러 등과 같은 프로세서의 형태를 취할 수 있다.

"소프트웨어"의 예는 애플리케이션, 애플릿, 루틴 또는 일련의 명령들의 형태로 실행가능한 코드를 포함한다. 일 실시예에 있어서, 제조 물품은 일 실시예에 따라 프로세스를 수행하도록 컴퓨터(또는 다른 전자 장치들)를 프로그램하는데 이용될 수 있는 소프트웨어가 저장된 기계 또는 컴퓨터 판독가능한 매체를 포함할 수 있다. 컴퓨터 또는 기계 판독가능한 매체는 프로그램가능한 전자 회로; 휘발성 메모리(예를 들어, RAM(Random Access Memory) 등) 및/또는 비휘발성 메모리(예를 들어, 임의의 타입의 ROM(Read-Only Memory), 플래시 메모리)를 포함하는 반도체 메모리 장치; 플로피 디스켓; 광 디스크(예를 들어, 컴팩트 디스크 또는 DVD(digital video disk)); 하드 드라이브 디스크; 테이프 등을 포함하며, 이것으로 한정되지 않는다.

시스템(System)

도 1은 일 실시예에 있어서, 이용가능한 캐시 웨이들의 서브세트로부터 희생 블록의 선택을 제한하기 위해 공유 캐시를 분할하는 캐시 분할 로직(200)을 갖는 공유 캐시(150)를 포함하는 칩 멀티-프로세서(CMP)(100)를 도시한 블록도이다. 대표적으로, CMP(100)는 동일 다이 상에 제조된 복수의 프로세서 코어들(110(110-1,…, 110-N))을 포함한다. 도시된 바와 같이, 프로세서 코어들(CPUs)(110)은 상호접속 네트워크(130)에 연결되어 공유 캐시(150)에 액세스한다. 일 실시예에 있어서, 각각의 CPU(110)는 데이터의 임시 저장 또는 캐싱(caching)에 이용될 수 있는 사설 코어 캐시 계층(private core cache hierarchy)(112)을 포함한다.

일 실시예에 있어서, CPU들(110)은 상호접속 네트워크(130)에 연결된 시스템 메모리 상호접속(192)을 통해 시스템 메모리(190)에 액세스한다. 일 실시예에 있어서, 시스템 메모리(190)는 RAM(Random Access Memory), DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous DRAM), DDR-SDRAM(double data rate SDRAM), RDRAM(Rambus DRAM) 또는 각 메모리 모듈에서의 데이터의 고속 버퍼링을 지원할 수 있는 임의의 장치로 이루어진 메모리 모듈들을 포함하는 양면 메모리 패키지(double-sided memory package)를 포함할 수 있으며, 이것으로 한정되지 않는다.

대표적으로, 공유 캐시(150)는 CMP(100)의 CPU들(110)에 의해 공유된다. 종종, 이러한 공유는, CPU들(110)이 스레드들(threads)이 데이터 및 명령들을 공유하 는 멀티-스레드 소프트웨어 애플리케이션을 실행하며, 이것에 의해 저장 요구 조건을 감소시킬 뿐만 아니라, 단일 CPU(110)가 프로그램 요구 조건에 따라 전체 공유 캐시에 액세스할 수 있게 해주기 때문에, 이점이 있다. 불행하게도, 캐시(150)를 공유하는 것의 단점은, CPU들(110)이 공유 캐시(150)로부터 이용가능한 것보다 많은 용량을 공동으로 요구하는 경우, CPU들(110)은, CPU들(110)이 보다 작은 사설 캐시들(private caches)을 갖는 경우보다 많은 전체 캐시 미스(miss)를 경험할 수 있다는 것이다.

따라서, 일 실시예에 있어서, 공유 캐시(150)는 어느 프로세서들이 어느 웨이들에 할당할 수 있는지를 제한하는 것에 의해 분할된다. 일 실시예에 있어서, 공유 캐시(150)는 공유 캐시(150) 내의 세트를 식별하는 메모리 요구의 캐시 인덱스에 따라 액세스되는 세트 어소시어티브 공유 캐시이다. 캐시 인덱스에 기초하여, 요구의 태그값을 이용해서, 데이터의 요구된 블록을 포함하는 선택된 세트 내의 웨이를 식별한다. 그러나, 데이터의 요구된 블록이 그 세트 내에 포함되지 않은 경우("캐시 미스"), 요구된 블록에게 자리를 내주기 위해 공유 캐시(150)로부터 퇴거하기 위한 데이터의 블록(본 명세서에서는 "희생 블록(victim block)"이라고 칭함)이 선택된다.

일 실시예에 있어서, 각각의 CPU(110)는 해당 CPU가 실제로 처음에 캐시로 데이터를 가져갔는지 여부를, 공유 캐시(150)의 웨이들의 일부 및 전부에서 (사용) 데이터에 대해 히트(hit)하도록 허용된다. 그러나, 캐시 컨트롤러(도시되지 않음)가 캐시 미스를 검출하고, 요구된 블록에게 자리를 내주기 위해 공유 캐시(150)로 부터 희생 블록을 퇴거할 필요가 있는 경우, 일 실시예에 있어서, 캐시 분할 로직(200)은 메모리 요구가 수신되었던 CPU(110)에 따라 이용가능한 캐시 웨이들의 서브세트로부터의 희생 블록의 선택을 제한한다. 일 실시예에 있어서, 캐시 분할 로직(200)은 도 2에 도시된 바와 같이 공유 캐시(150)의 캐시 컨트롤러 내에 구현된다.

도 2에 도시된 바와 같이, 일 실시예에 있어서, 캐시 분할 로직은 공유 캐시(150)의 분할에 따른 이용가능한 캐시 웨이들의 서브세트로 희생 블록의 선택을 제한하기 위해, 캐시 컨트롤러(210) 및 후보 희생 블록 로직(230)과 함께, 교체 로직(220)을 포함한다. 일 실시예에 있어서, 교체 로직(220)에 의해 이용될 수 있는 캐시 웨이들의 서브세트는 상이한 타입의 메모리 요구들 예를 들면, 수요(demand) 및 사전인출(prefetch) 요구들에 대해 변경된다. 대표적으로, 공유 캐시(150)는 M-웨이들(W1(152-1), W2(152-2),…, WM(152-M))을 포함할 수 있다. 따라서, CPU(110)가 각각의 사설 코어 캐시(112) 내의 캐시 미스를 검출한 경우, CPU(110)는 공유 캐시(150)의 캐시 컨트롤러(210)에 캐시 요구를 전송할 수 있다.

일 실시예에 있어서, 캐시 요구와 연관된 인덱스값(204)을 디코더(160)에 제공하여, 공유 캐시(150) 내의 세트를 식별한다. 일단 세트가 식별되면, 캐시 요구와 연관된 태그값(202)을 공유 캐시(150)의 M-웨이들(152)(152-1,…152-M) 각각과 비교하여, 요구된 캐시 블록을 포함하는 웨이를 식별한다. 그러나, 캐시 미스가 검출된 경우, 일 실시예에 있어서, 후보 희생 블록 로직(230)과 교체 로직(220)은 인덱스(204)에 의해 식별된 세트 내의 희생 블록을 선택함에 있어서 캐시 컨트롤러 (210)를 제한한다.

대표적으로, N-프로세서들(CPU들(110-1,…,110-N))은 공유 캐시(150)의 M-웨이들(152)을 공유한다. 일 실시예에 있어서, 캐시 분할 로직(200)은 N-CPU들(110) 및 CPU들(110)에 의해 발행된 T-타입들의 메모리 요구들에 따라 공유 캐시(150)를 분할할 수 있다. 일 실시예에 있어서, N×T M-비트 레지스터들(웨이 레지스터들)은 D[i][j](여기서, i는 범위[0..N-1]이고, j는 범위[0..T-1]임)의 라벨이 붙는다. 일 실시예에 있어서, (d[i][j][b](여기서, b는 범위[0..M-1]임)로 표시된) 웨이 레지스터 내의 각각의 비트는, 타입 j의 캐시 요구의 캐시 미스에 대해 CPU i가 웨이 b에 할당할 수 있는지 여부((1) 또는 (0))를 나타낸다.

일 실시예에 있어서, 변수 "i"는 캐시 요구를 발행한 CPU의 프로세서 식별자를 가리킨다. 본 명세서에 기재된 바와 같이, 프로세서 식별자는 하나의 프로세서가 CMP(100)의 다른 프로세서와 구별될 수 있는 임의의 신호, 데이터 시퀀스 또는 다른 메커니즘을 의미하도록 정의된다. 일 실시예에 있어서, 하드웨어 식별자는 프로세서 식별자(CPU_ID)로서, CMP(100)의 각각의 프로세서 또는 CPU(110)에 할당된다. 대안적인 실시예에 있어서, 프로세서 식별자 또는 CPU_ID는 CMP(100) 내의 다른 프로세서로부터 각각의 프로세서를 구별하기 위한 일련 번호, 또는 다른 수치 장치 식별 수단(numeric device identification means)이다.

본 명세서에 기재된 바와 같이, "프로세서 식별자(processor identifier)"라는 용어는 대안적으로 요구자 식별자(requester identifier)라고 칭해지는데, 요구자 식별자는 요구자가 CMP(100)의 프로세서인 경우에 프로세서 식별자와 같다. 그 러나, 이 기술분야의 당업자들은, 본 명세서에 기재된 캐시 분할 방식이 프로세서들에 의해 발행된 캐시 요구들로 한정되지 않고, 예를 들어, 공유 캐시(150)에 메모리 컨트롤러가 발행한 캐시 요구와 같이, CMP(100)의 다른 장치들에 의해 발행된 캐시 요구를 청구된 기술 사상의 범위 내에서 포함할 수 있다는 것을 인식할 것이다.

일 실시예에 있어서, 웨이 레지스터들의 구현이 도 3을 참조하여 도시된 바와 같이 제공된다. 대표적으로, 탐색 테이블(d)(240)은 프로세서 식별자(CPU_ID)(206) 및 요구 타입(REQ_TYPE)(208)에 따라 인덱싱된다. 이 2개의 값에 기초하여, 탐색 테이블(240)은 본 명세서에서 "M-비트 마스크"라고도 칭해지는 웨이 레지스터(250)를 식별하는 위치(242)를 식별한다. 일 실시예에 있어서, M-비트 마스크는 공유 캐시(150)의 M-웨이들(152) 각각에 직접 대응한다.

따라서, 다시 도 2를 참조하면, 일 실시예에 있어서, M-비트 웨이 마스크(250)는 공유 캐시(150)로부터 유효 비트들(154)(154-1,…154-M)을 수신하는 로직 게이트들(170)(170-1,…,170-M)에 제공된다. 일단 제공되면, 교체 로직(220)은 세트된 M-비트 웨이 마스크(250)의 대응하는 비트들(252)(252-1,…,252-M)에 따라 캐시 인덱스(204)에서 희생 블록을 선택할 수 있다. 따라서, CPU i가 어드레스 a에 대해 사설 코어 캐시(112)에서 미스한 경우, CPU(110-i)는 공유 캐시(150)에 블록 a에 대한 요구를 전송한다. 일 실시예에 있어서, 공유 캐시 컨트롤러(210)는 블록 a가 공유 캐시(150)에 존재하는지를 검사한다.

블록 a가 존재하는 경우, 공유 캐시는 프로세서 i에 블록 a를 리턴한다. 그 러나, 블록 a가 존재하지 않는 경우, 공유 캐시는 시스템 메모리(190)에 블록 a에 대한 요구를 전송할 것이다. 일 실시예에 있어서, 캐시 컨트롤러(210)는 요구된 블록 a에게 자리를 내주기 위해 캐시 인덱스(204)에서 M-1 블록들 중 하나를 퇴거하도록 요구된다. 일 실시예에 있어서, 희생 블록의 선택은 공유 캐시(150)의 캐시 분할 로직(200)의 교체 로직(220)에 의해 수행된다.

일 실시예에 있어서, 교체 로직은 CPU(110-i)에 대한 타입 k의 메모리 요구에 대해 웨이 레지스터(250)(d[i][k])를 이용함으로써 희생 블록을 선택한다. 레지스터 d[i][k] 내의 비트 b가 세트되면(d[i][k][b]=1), 웨이 b는 퇴거를 위한 후보이다. 일 실시예에 있어서, 세트된 레지스터 d[i][k] 내에 복수의 비트들이 존재하는 경우, 퇴거할 희생 블록들에 대한 복수의 선택들이 존재한다. 일 실시예에 있어서, 교체 로직(220)은 복수의 후보 희생 블록들이 존재하는 경우에 퇴거를 위해 최저 최근 사용 웨이(least recently used way)를 선택한다. 이제, 전술된 실시예들 중 하나 또는 그 이상을 구현하기 위한 절차적 방법들이 제공된다.

동작(Operation)

도 4는 일 실시예에 있어서, 예를 들어, 도 2에 도시된 바와 같이, 분할된 공유 캐시로부터 희생 블록을 선택하기 위한 방법(300)을 도시한 흐름도이다. 프로세스 블록(326)에서, 공유 캐시 내의 캐시 미스가 검출되었는지를 판단한다. 캐시 미스가 검출되지 않은 경우("캐시 히트(cache hit)"), 프로세서 블록(328)에서, 칩 멀티-프로세서(CMP)의 프로세서 코어 또는 CPU와 같은 요구자에게 요구된 블록이 제공된다. 그렇지 않은 경우, 프로세스 블록(330)에서, 수신된 요구에 따라 요 구된 블록에 대한 요구가 시스템 메모리에 발행된다.

일 실시예에 있어서, 프로세스 블록(340)에서, 수신된 요구의 요구자 ID 및 요구 타입에 따라 공유 캐시로부터 퇴거하기 위한 희생 블록이 선택된다. 일 실시예에 있어서, 희생 블록의 선택은 도 2에 도시된 바와 같이, 교체 로직(220)에 의해 수행된다. 프로세스 블록(360)에서, 선택된 희생 블록은 예를 들어, 캐시 컨트롤러에 의해 공유 캐시로부터 퇴거된다. 프로세스 블록(370)에서, 요구된 캐시 블록이 요구자에게 제공된다. 프로세스 블록(380)에서, 요구된 캐시 블록은 희생 블록이 퇴거된 공유 캐시의 일부분 내에 저장된다.

도 5는 일 실시예에 있어서, 희생 블록들의 선택을 제한하기 위해 공유 캐시를 분할하기 위한 방법(310)을 도시한 흐름도이다. 프로세스 블록(312)에서, 캐시를 공유하는 복수의 요구자들로부터 CMP의 CPU와 같은 하나의 요구자가 선택된다. 프로세스 블록(314)에서, 선택된 요구자에 대해 메모리 요구 타입이 선택된다. 일단 선택되면, 프로세스 블록(316)에서, 공유 캐시의 M-웨이들 중 하나 또는 그 이상이 선택된 메모리 요구 타입에 대해 할당된다. 일 실시예에 있어서, 메모리 요구 타입들은 로드(load) 요구들, 저장 요구들, 데이터 사전인출, 데이터 추론(data speculation), 수요 요구들 등을 포함할 수 있으며, 이것으로 한정되지 않는다.

일 실시예에 있어서, 프로세스 블록(318)에서, 프로세스 블록(316)의 할당된 웨이들에 따라 M-비트 마스크가 생성된다. 예를 들어, 도 3을 참조하여 도시된 바와 같이, M-비트 웨이 마스크 또는 웨이 레지스터(250)는 공유 캐시(150) 내의 각각의 웨이에 대응하는 비트 필드(bit field)를 포함한다. 따라서, 캐시 인덱스 (204)에 의해 표시된 세트에서 퇴거를 위한 희생 블록이 선택된 경우, M-비트 웨이 마스크(250) 내의 각각의 세트 비트는 데이터의 요구된 블록에게 자리를 내주기 위해 퇴거될 수 있는 잠재적인 희생 블록을 식별한다.

일단 M-비트 웨이 마스크 또는 웨이 레지스터가 생성되면, 프로세스 블록(320)에서, 선택된 요구자의 요구자 식별자(예를 들어, CPU_ID) 및 요구 타입에 따라 테이블 내의 엔트리를 생성하여 M-비트 웨이 마스크를 식별한다. 일 실시예에 있어서, CPU_ID(206) 및 REQ_TYPE에 따라 인덱싱되는, 예를 들어, 도 3에 도시된 바와 같은 테이블이 형성된다. 프로세스 블록(322)에서, 각각의 메모리 요구 타입에 대하여 프로세스 블록들(314 내지 320)이 반복된다. 프로세스 블록(324)에서, 공유 캐시를 공유하는 칩 멀티-프로세서의 각각의 프로세서 코어와 같은 각각의 요구자에 대하여 프로세스 블록들(312 내지 322)이 반복된다.

도 6은 예를 들어, 도 3을 참조하여 도시된 바와 같이, 일 실시예에 있어서, 공유 캐시 내의 요구된 블록의 캐시 미스에 응답하여 공유 캐시로부터 희생 블록을 선택하기 위한 방법(350)을 도시한 흐름도이다. 프로세스 블록(352)에서, 요구자 및 요구 타입에 따라 테이블을 조회하여, 레지스터 또는 다른 데이터 저장 장치 내에 구현될 수 있는 M-비트 웨이 마스크를 식별한다. 프로세스 블록(354)에서, 예를 들어, 도 2를 참조하여 도시된 바와 같이, 수신된 요구의 캐시 인덱스에 따라 공유 캐시의 세트가 액세스된다. 프로세스 블록(356)에서, M-비트 웨이 마스크의 적어도 하나의 세트 비트에 따라 그 세트에 대한 적어도 하나의 희생 블록이 식별된다.

다시 말하면, 전술한 바와 같이, M-비트 웨이 마스크 내의 각각의 세트 비트는 수신된 요구의 인덱스에 의해 표시된 공유 캐시의 세트에서 후보 희생 블록을 식별한다. 일 실시예에 있어서, 도 2의 교체 로직(220)은 로직(230)으로부터 수신된 M-비트 마스크(250)가 복수의 세트 비트들을 포함하는 경우에 최저 최근 사용 웨이(152)를 선택할 것이다. 본 명세서에 기재된 바와 같이, 다양한 신호들은 액티브 하이(active high) 또는 액티브 로우(active low) 신호들을 표시할 수 있다. 따라서, 본 명세서에 기재된 바와 같이, "어서트(assert)", "어서팅(asserting)", "어서티드(asserted)", "세트(set)", "세팅(setting)", "디어서트(de-assert)", "디어서티드(de-asserted)", "디어서팅(de-asserting)"이라는 용어들 또는 다른 이와 같은 용어들은 액티브 로우 및 액티브 하이 신호들 중 어느 하나인 데이터 신호들을 가리킬 수 있다. 따라서, 신호와 연관된 경우 이러한 용어들은 액티브 로우 및 액티브 하이 신호들 중 어느 하나를 요구하거나 의미하기 위해 상호 교환가능하게 이용된다.

비록 전술한 실시예들 중 하나 또는 그 이상이 칩 멀티-프로세서의 공유 캐시를 참조하여 설명되어 있지만, 이 기술분야의 당업자들은, 본 명세서에 설명된 실시예들이 하나 또는 그 이상의 프로세서들에 의해 하나의 캐시가 공유되는 다른 시스템 구성들에 제공될 수 있다는 것을 인식할 것이다. 또한, 메모리 요구들 및 프로세서 ID에 따른 캐시의 분할은 전술한 실시예들을 구현하기 위한 일례로서 제공된다. 그러나, 희생 블록의 선택을 제한하기 위한 공유 캐시의 추가적인 분할 방식이 또한 가능하고, 이것은 전술한 실시예들의 범위 내에서 유지된다.

도 7은 개시된 기술들을 이용한 설계의 시뮬레이션, 에뮬레이션 및 제조를 위한 다양한 표현들 또는 포맷들을 도시한 블록도이다. 설계를 표현하는 데이터는 다수의 방식들로 그 설계를 표현할 수 있다. 먼저, 시뮬레이션들에 유용한 바와 같이, 하드웨어는, 본질적으로 설계된 하드웨어가 수행할 것으로 예측되는 컴퓨터 모델을 제공하는 하드웨어 기술 언어(hardware description language) 또는 다른 기능 기술 언어(functional description language)를 이용하여 표현될 수 있다. 하드웨어 모델(410)은 컴퓨터 메모리와 같은 저장 매체(400)에 저장될 수 있기 때문에, 모델은 의도한 바와 같이 실제로 기능하는지를 판단하기 위해 하드웨어 모델에 특정 시험 슈트(test suite)(430)를 적용하는 시뮬레이션 소프트웨어(420)를 이용하여 시뮬레이션될 수 있다. 일부 실시예들에 있어서, 시뮬레이션 소프트웨어는 매체에 기록, 저장 또는 수록되지 않는다.

설계의 임의의 표현에 있어서, 데이터는 임의의 형태의 기계 판독가능한 매체에 저장될 수 있다. 정보와 같이 전송을 위해 변조되거나 생성된 광 또는 전자 파(460); 메모리(450); 또는 디스크와 같은 자기 또는 광 저장장치(440)가 기계 판독가능한 매체일 수 있다. 이들 매체들 중 임의의 것은 설계 정보를 운반할 수 있다. 따라서, "운반(carry)"이라는 용어(예를 들어, 정보를 운반하는 기계 판독가능한 매체)는 저장 장치에 저장된 정보 또는 반송파(carrier wave)로 또는 반송파에 인코딩되거나 변조된 정보를 포함한다. 설계 또는 설계의 특징을 기술하는 비트들의 세트는, (반송파 또는 저장 매체와 같은 기계 판독가능한 매체에 포함된 경우) 그 자체의 안밖에 밀폐되거나, 다른 설계 또는 제조를 위해 다른 것들에 의해 이용될 수 있는 물품이다.

대안적인 실시예들

다른 실시예들에 대하여, 다른 시스템 구성이 이용될 수 있다는 것을 알 수 있을 것이다. 예를 들어, 시스템(100)은 칩 멀티 프로세서 시스템을 포함하지만, 적어도 하나의 CPU를 포함한 컴퓨터 시스템은 다양한 실시예들의 캐시 분할 및 희생 블록 선택 방식으로부터 이점이 있을 수 있다. 또한, 예를 들어, 서버, 워크스테이션, 데스크톱 컴퓨터 시스템, 게이밍 시스템(gaming system), 임베디드 컴퓨터 시스템(embedded computer system), 블레이드 서버(blade server) 등과 같은, 상이한 타입의 시스템 또는 상이한 타입의 컴퓨터 시스템이 다른 실시예들에 이용될 수 있다.

개시된 실시예들 및 최적의 모드를 포함하여, 다음의 청구범위에 의해 정의된 바와 같이 본 발명의 실시예들의 범위 내에서 개시된 실시예들에 대한 변경들 및 변형들이 이루어질 수 있다.

본 발명에 따르면, 공유 캐시의 분할에 따른 이용가능한 캐시 웨이들의 서브세트로부터 희생 블록의 선택을 제한할 수 있다.

Claims

프로세서로부터의 수신된 요구에 따라 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터 요구된 캐시 블록을 요구하는 단계; 및

상기 수신된 요구의 프로세서 식별자 및 요구 타입에 따라 상기 공유 캐시로부터 퇴거할 희생 블록을 선택하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 공유 캐시로부터 상기 선택된 희생 블록을 퇴거하는 단계;

상기 프로세서에 상기 요구된 캐시 블록을 제공하는 단계; 및

상기 희생 블록이 퇴거된 상기 공유 캐시의 일부분 내에 상기 요구된 캐시 블록을 저장하는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 요구 단계 이전에,

(a) N 프로세서들 및 T 메모리 요구 타입들에 따라 M-웨이 세트 어소시어티브 공유 캐시(M-way set-associative shared cache)를 분할하는 단계; 및

(b) (a)의 상기 분할에 따른 상기 M-웨이 세트 어소시어티브 공유 캐시의 이용가능한 웨이들의 서브세트로, 희생 블록들의 프로세서 선택을 제한하는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 희생 블록들의 프로세서 선택을 제한하는 단계는,

(a) 프로세서를 선택하는 단계;

(b) 상기 선택된 프로세서에 대한 메모리 요구 타입을 선택하는 단계;

(c) 상기 선택된 메모리 요구 타입에, 상기 공유 캐시의 상기 M-웨이들 중 하나 또는 그 이상을 할당하는 단계;

(d) (c)의 상기 할당된 웨이들에 따라 M-비트 마스크를 생성하는 단계;

(e) 상기 선택된 프로세서의 프로세서 식별자 및 상기 요구 타입에 따라 테이블 내의 엔트리를 생성하여 상기 M-비트 마스크를 식별하는 단계;

(f) 상기 T 메모리 요구 타입들 각각에 대하여 (b) 내지 (e)를 반복하는 단계; 및

(g) 상기 N 프로세서들 각각에 대하여 (a) 내지 (f)를 반복하는 단계를 포함하는 방법.
제1항에 있어서,

상기 선택 단계는,

상기 프로세서 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 단계;

상기 수신된 요구의 캐시 인덱스에 따라 상기 공유 캐시의 세트를 액세스하는 단계;

상기 M-비트 웨이 마스크의 적어도 하나의 세트 비트에 따라 상기 세트로부터 적어도 하나의 희생 블록을 식별하는 단계; 및

상기 식별된 희생 블록을 퇴거하는 단계를 더 포함하는 방법.
프로세서로부터의 수신된 요구에 따라 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터 요구된 캐시 블록을 요구하는 단계; 및

상기 수신된 요구의 프로세서 식별자 및 요구 타입에 따라 상기 공유 캐시로부터 퇴거할 희생 블록을 선택하는 단계

를 포함하는 방법을 수행하도록 시스템을 프로그램하는데 이용될 수 있는 명령들이 저장된 기계 판독가능한 매체를 포함하는 제조물.
제6항에 있어서,

상기 방법은,

상기 공유 캐시로부터 상기 선택된 희생 블록을 퇴거하는 단계;

상기 프로세서에 상기 요구된 캐시 블록을 제공하는 단계; 및

상기 희생 블록이 퇴거된 상기 공유 캐시의 일부분 내에 상기 요구된 캐시 블록을 저장하는 단계를 더 포함하는 제조물.
제6항에 있어서,

상기 방법은, 상기 요구 단계 이전에,

(a) N 프로세서들 및 T 메모리 요구 타입들에 따라 M-웨이 세트 어소시어티브 공유 캐시를 분할하는 단계; 및

(b) (a)의 상기 분할에 따른 상기 M-웨이 세트 어소시어티브 공유 캐시의 이용가능한 웨이들의 서브세트로, 희생 블록들의 프로세서 선택을 제한하는 단계를 더 포함하는 제조물.
제6항에 있어서,

상기 희생 블록들의 프로세서 선택을 제한하는 단계는,

(a) 프로세서를 선택하는 단계;

(b) 상기 선택된 프로세서에 대한 메모리 요구 타입을 선택하는 단계;

(c) 상기 선택된 메모리 요구 타입에, 상기 공유 캐시의 상기 M-웨이들 중 하나 또는 그 이상을 할당하는 단계;

(d) (c)의 상기 할당된 웨이들에 따라 M-비트 마스크를 생성하는 단계;

(e) 상기 선택된 프로세서의 프로세서 식별자 및 상기 요구 타입에 따라 테이블 내의 엔트리를 생성하여 상기 M-비트 마스크를 식별하는 단계;

(f) 상기 T 메모리 요구 타입들 각각에 대하여 (b) 내지 (e)를 반복하는 단계; 및

(g) 상기 N 프로세서들 각각에 대하여 (a) 내지 (f)를 반복하는 단계를 포함 하는 제조물.
제6항에 있어서,

상기 선택 단계는,

상기 프로세서 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 단계;

상기 수신된 요구의 인덱스에 따라 상기 공유 캐시의 세트를 액세스하는 단계;

상기 M-비트 웨이 마스크의 적어도 하나의 세트 비트에 따라 상기 세트로부터 적어도 하나의 희생 블록을 식별하는 단계; 및

상기 식별된 희생 블록을 퇴거하는 단계를 더 포함하는 제조물.
요구된 캐시 블록이 저장되어 있는지를 판단하기 위해 수신된 요구에 따라 공유 캐시를 검사하는 단계; 및

상기 요구된 캐시 블록의 캐시 미스가 검출된 경우에 상기 수신된 요구의 요구자 식별자 및 요구 타입에 따라 상기 공유 캐시로부터 선택된 희생 블록을 퇴거하는 단계

를 포함하는 방법.
제11항에 있어서,

상기 공유 캐시를 검사하는 단계 이전에,

(a) 요구자를 선택하는 단계;

(b) 상기 선택된 요구자에 대한 메모리 요구 타입을 선택하는 단계;

(c) 상기 선택된 메모리 요구 타입에, 상기 공유 캐시의 상기 M-웨이들 중 하나 또는 그 이상을 할당하는 단계;

(d) (c)의 상기 할당된 웨이들에 따라 M-비트 마스크를 생성하는 단계;

(e) 상기 선택된 요구자의 요구자 식별자 및 상기 요구 타입에 따라 테이블 내의 엔트리를 생성하여 상기 M-비트 마스크를 식별하는 단계;

(f) T 메모리 요구 타입들 각각에 대하여 (b) 내지 (e)를 반복하는 단계; 및

(g) N 요구자들 각각에 대하여 (a) 내지 (f)를 반복하는 단계를 더 포함하는 방법.
제11항에 있어서,

상기 선택된 희생 블록을 퇴거하는 단계는,

프로세서 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 단계를 포함하고,

상기 M-비트 웨이 마스크 내의 각각의 세트 비트는 상기 수신된 요구의 인덱스에 의해 표시된 상기 공유 캐시의 세트에서 후보 희생 블록을 식별하는 방법.
제13항에 있어서,

상기 조회 단계는,

상기 M-비트 마스크의 적어도 2개의 비트들이 세트된 경우에 상기 선택된 희생 블록으로서, 최저 최근 사용 웨이(least recently used way), 최근 사용 웨이(most recently used way) 및 랜덤 웨이(random way) 중 하나를 선택하는 단계를 더 포함하는 방법.
제11항에 있어서,

프로세서로부터의 수신된 요구에 따라 상기 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터 캐시 블록을 요구하는 단계;

상기 프로세서에 상기 요구된 캐시 블록을 제공하는 단계; 및

상기 희생 블록이 퇴거된 상기 공유 캐시의 일부분 내에 상기 요구된 캐시 블록을 저장하는 단계를 더 포함하는 방법.
수신된 요구에 따라 요구된 캐시 블록이 저장되어 있는지를 판단하기 위해 공유 캐시를 검사하는 단계; 및

상기 요구된 캐시 블록의 캐시 미스가 검출된 경우에 상기 수신된 요구의 요구자 식별자 및 요구 타입에 따라 상기 공유 캐시로부터 선택된 희생 블록을 퇴거하는 단계

를 포함하는 방법을 수행하도록 시스템을 프로그램하는데 이용될 수 있는 명령들이 저장된 기계 판독가능한 매체를 포함하는 제조물.
제16항에 있어서,

상기 방법은, 상기 공유 캐시를 검사하는 단계 이전에,

(a) 요구자를 선택하는 단계;

(b) 상기 선택된 요구자에 대한 메모리 요구 타입을 선택하는 단계;

(c) 상기 선택된 메모리 요구 타입에, 상기 공유 캐시의 상기 M-웨이들 중 하나 또는 그 이상을 할당하는 단계;

(d) (c)의 상기 할당된 웨이들에 따라 M-비트 마스크를 생성하는 단계;

(e) 상기 선택된 요구자의 요구자 식별자 및 상기 요구 타입에 따라 테이블 내의 엔트리를 생성하여 상기 M-비트 마스크를 식별하는 단계;

(f) T 메모리 요구 타입들 각각에 대하여 (b) 내지 (e)를 반복하는 단계; 및

(g) N 요구자들 각각에 대하여 (a) 내지 (f)를 반복하는 단계를 더 포함하는 제조물.
제16항에 있어서,

상기 선택된 희생 블록을 퇴거하는 단계는,

프로세서 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 단계를 포함하고,

상기 M-비트 웨이 마스크 내의 각각의 세트 비트는 상기 수신된 요구의 인덱스에 의해 표시된 상기 공유 캐시의 세트에서 후보 희생 블록을 식별하는 제조물.
제18항에 있어서,

상기 조회 단계는,

상기 M-비트 마스크의 적어도 2개의 비트들이 세트된 경우에 상기 선택된 희생 블록으로서, 최저 최근 사용 웨이, 최근 사용 웨이 및 랜덤 웨이 중 하나를 선택하는 단계를 더 포함하는 제조물.
제16항에 있어서,

상기 방법은,

프로세서로부터의 수신된 요구에 따라 상기 공유 캐시 내의 캐시 미스가 검출된 경우에 시스템 메모리로부터 캐시 블록을 요구하는 단계;

상기 프로세서에 상기 요구된 캐시 블록을 제공하는 단계; 및

상기 희생 블록이 퇴거된 상기 공유 캐시의 일부분 내에 상기 요구된 캐시 블록을 저장하는 단계를 더 포함하는 제조물.
요구된 블록의 캐시 미스가 검출된 경우에 시스템 메모리로부터 상기 요구된 블록을 요구하고, 수신된 요구의 요구자 식별자 및 요구 타입에 따라 상기 요구된 블록을 저장하기 위해 퇴거할 희생 블록을 선택하는 컨트롤러

를 포함하는 장치.
제21항에 있어서,

상기 컨트롤러는,

상기 요구자 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 희생 블록 후보 로직을 더 포함하고,

상기 M-비트 웨이 마스크 내의 각각의 세트 비트는 상기 수신된 요구의 캐시 인덱스에 의해 표시된 상기 공유 캐시의 세트에서 후보 희생 블록을 식별하는 장치.
제21항에 있어서,

상기 컨트롤러는,

N 프로세서들 및 T 메모리 요구 타입들에 따라 M-웨이 세트 어소시어티브 공유 캐시를 분할하고, 상기 M-웨이 세트 어소시어티브 공유 캐시의 이용가능한 웨이들의 서브세트로, 희생 블록들의 선택을 제한하는 캐시 분할 로직을 더 포함하는 장치.
제21항에 있어서,

상기 컨트롤러는,

상기 수신된 요구의 캐시 인덱스에 따라 상기 공유 캐시의 세트를 액세스하고, 상기 M-비트 웨이 마스크의 적어도 하나의 세트 비트에 따라 상기 세트로부터 적어도 하나의 희생 블록을 식별하고, 상기 식별된 희생 블록을 퇴거하는 교체 로 직을 더 포함하는 장치.
제24항에 있어서,

상기 교체 로직은 상기 M-비트 마스크의 적어도 2개의 비트들이 세트된 경우에 상기 선택된 희생 블록으로서, 최저 최근 사용 웨이, 최근 사용 웨이 및 랜덤 웨이 중 하나를 더 선택하는 것인 장치.
상호접속 네트워크에 연결된 시스템 메모리;

상기 상호접속 네트워크에 연결된 복수의 프로세서 코어들을 포함하는 칩-멀티-프로세서; 및

상기 상호접속 네트워크에 연결된 공유 캐시

를 포함하고,

상기 공유 캐시는, 상기 복수의 프로세서들의 프로세서 코어로부터의 수신된 요구에 응답하여 상기 공유 캐시 내의 상기 캐시 블록의 캐시 미스가 검출된 경우에 상기 시스템 메모리로부터 캐시 블록을 요구하고, 상기 수신된 요구의 프로세서 식별자 및 요구 타입에 따라 상기 공유 캐시로부터 퇴거할 희생 블록을 선택하도록 캐시 컨트롤러에게 지시하는 캐시 분할 로직을 포함하는

시스템.
제26항에 있어서,

상기 시스템 메모리는 RDRAM을 포함하는 시스템.
제26항에 있어서,

상기 캐시 분할 로직은,

상기 프로세서 식별자 및 상기 요구 타입에 따라 테이블을 조회하여 M-비트 웨이 마스크를 식별하는 희생 블록 후보 로직을 더 포함하고,

상기 M-비트 웨이 마스크 내의 각각의 세트 비트는 상기 수신된 요구의 캐시 인덱스에 의해 표시된 상기 공유 캐시의 세트에서 후보 희생 블록을 식별하는 시스템.
제26항에 있어서,

상기 캐시 분할 로직은,

상기 수신된 요구의 캐시 인덱스에 따라 상기 공유 캐시의 세트를 액세스하고, 상기 M-비트 웨이 마스크의 적어도 하나의 세트 비트에 따라 상기 세트로부터 적어도 하나의 희생 블록을 식별하고, 상기 식별된 희생 블록을 퇴거하는 교체 로직을 더 포함하는 시스템.
제29항에 있어서,

상기 교체 로직은 상기 M-비트 마스크의 적어도 2개의 비트들이 세트된 경우에 상기 선택된 희생 블록으로서, 최저 최근 사용 웨이, 최근 사용 웨이 및 랜덤 웨이 중 하나를 더 선택하는 것인 시스템.