EP2642398B1

EP2642398B1 - Prélecture coordonnée dans des processeurs en mémoire cache hiérarchique

Info

Publication number: EP2642398B1
Application number: EP20130159754
Authority: EP
Inventors: Brian P. Lilly; Hari S. Kannan; Gerard R. Williams III.; Mahnaz Sadoughi-Yarandi; Perumal R. Subramoniam; Pradeep Kanapathipillai
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2012-03-20
Filing date: 2013-03-18
Publication date: 2015-05-20
Anticipated expiration: 2033-03-18
Also published as: TWI545435B; KR20130106789A; WO2013142148A3; CN103324585B; CN103324585A; WO2013142148A2; US9098418B2; US20130254485A1; EP2642398A1; TW201346556A; KR101483849B1

Claims

Un processeur (20) comprenant :
une hiérarchie de caches comprenant au moins deux niveaux de cache ;

une première unité de pré-obtention (74) associée à un premier cache à un premier niveau de cache de ladite hiérarchie de caches ;

une seconde unité de pré-obtention (80) associée à un second cache à un second niveau de cache de ladite hiérarchie de caches ; et

un mécanisme d'apprentissage de pré-obtention (56) associé au premier cache ;

caractérisé en ce que le mécanisme d'apprentissage de pré-obtention est configuré pour générer des informations d'apprentissage pour chaque flux d'une pluralité de flux (130), la première unité de pré-obtention (74) étant configurée pour délivrer des requêtes de pré-obtention pour pré-obtenir des données correspondant à la pluralité de flux dans le premier cache, sur la base des informations d'apprentissage ;

dans lequel la première unité de pré-obtention (74) est configurée pour transférer lesdites informations d'apprentissage à la seconde unité de pré-obtention (80) ; et

dans lequel la seconde unité de pré-obtention (80) est configurée pour délivrer des requêtes de pré-obtention pour pré-obtenir des données correspondant à la pluralité de flux dans le second cache (138), sur la base des informations d'apprentissage.
Le processeur de la revendication 1, dans lequel la seconde unité de pré-obtention (80) n'exécute aucun apprentissage de pré-obtention.
Le processeur de la revendication 1, dans lequel lesdites informations d'apprentissage comprennent des données temporelles (96) qui sont utilisées par le second cache en tant que partie d'une politique de remplacement de cache.
Le processeur de la revendication 3, dans lequel la première unité de pré-obtention est configurée pour :
conserver une première table de pré-obtention (76) comprenant une pluralité de rubriques, chaque rubrique comprenant un identifiant de flux (ID) et des attributs associés à un flux correspondant ;

générer une requête de pré-obtention pour un flux donné sur la base d'attributs stockés dans une rubrique correspondante de la première table de pré-obtention ; et

transférer la requête de pré-obtention et un paquet vers le second cache, le paquet comprenant un ou plusieurs attributs provenant de la rubrique correspondante de la première table de pré-obtention.
Le processeur de la revendication 4, dans lequel la seconde unité de pré-obtention est en outre configurée pour :
détecter une frontière de page pour un flux donné ; et

arrêter la pré-obtention en réponse à la détection de ladite frontière de page.
Le processeur de la revendication 4, dans lequel la seconde unité de pré-obtention est configurée pour conserver une seconde table de pré-obtention (82) avec une rubrique pour chaque rubrique de la première table de pré-obtention, et dans lequel les informations d'apprentissage de la seconde table de pré-obtention sont synchronisées avec les informations d'apprentissage de la première table de pré-obtention.
Le processeur de la revendication 1, dans lequel la seconde unité de pré-obtention est configurée pour :
compter un nombre de requêtes de pré-obtention pour un flux particulier délivré par la première unité de pré-obtention et reçu par le second cache ; et

augmenter un nombre de requêtes de pré-obtention générées par la seconde unité de pré-obtention en réponse à la détermination que ledit nombre dépasse un seuil.
Un processeur selon la revendication 1,
dans lequel le mécanisme d'apprentissage de pré-obtention est couplé à un niveau le plus élevé de cache de la hiérarchie de caches et génère les informations d'apprentissage pour une pluralité de flux, les informations d'apprentissage étant utilisées pour générer des requêtes de pré-obtention aux au moins deux niveaux de cache de ladite hiérarchie de caches.
Le processeur de la revendication 8, dans lequel la pluralité de caches comprend au moins un cache de niveau un (L1) et un cache de niveau deux (L2).
Le processeur de la revendication 8, où ledit premier niveau de cache est le plus haut niveau de cache de ladite hiérarchie de caches et la première unité de pré-obtention est couplée au niveau de cache le plus élevé, dans lequel la première unité de pré-obtention est configurée pour :
générer une pluralité de requêtes de pré-obtention sur la base des informations d'apprentissage ;

générer un paquet pour chaque requête de pré-obtention, le paquet comprenant des attributs associés à la requête de pré-obtention et à un flux correspondant ; et

transmettre la requête de pré-obtention et le paquet au second cache au second niveau de cache, le second niveau de cache étant un niveau de cache inférieur de ladite hiérarchie de caches.
Le processeur de la revendication 10, dans lequel chaque flux ayant fait l'objet d'un apprentissage possède un identifiant de flux associé (92), et dans lequel les attributs comprennent au moins l'identifiant de flux.
Le processeur de la revendication 11, dans lequel les attributs comprennent en outre un pas d'adressage (94) du flux correspondant.
Le processeur de la revendication 11, dans lequel l'unité de pré-obtention est en outre configurée pour attribuer un flux de charge et un flux de stockage à un identifiant de flux unique, en réponse à la détection d'accès à une même adresse par le flux de charge et le flux de stockage.
Un procédé, comprenant :
la génération d'informations d'apprentissage sur une pluralité de flux,

l'apprentissage étant exécuté par un mécanisme d'apprentissage de pré-obtention (56) couplé à un premier cache à un premier niveau de cache d'une hiérarchie de caches comprenant au moins deux niveaux de cache, une première unité de pré-obtention (74) étant configurée pour délivrer des requêtes de pré-obtention pour pré-obtenir des données correspondant à la pluralité de flux dans le premier cache, sur la base des informations d'apprentissage ; et

le transfert desdites informations d'apprentissage vers un second niveau de cache (78) de la hiérarchie de caches ;

dans lequel une seconde unité de pré-obtention (80) couplée à un second cache audit second niveau de cache est configurée pour délivrer des requêtes de pré-obtention pour pré-obtenir des données correspondant à la pluralité de flux dans le second cache, sur la base des informations d'apprentissage.
Le procédé de la revendication 14, dans lequel ladite seconde unité de pré-obtention n'exécute pas d'apprentissage de pré-obtention.
Le procédé de la revendication 15, comprenant en outre :
le stockage des informations d'apprentissage dans une première table au premier niveau de cache ; et

le stockage des informations d'apprentissage dans une seconde table au second niveau de cache, la seconde table étant synchronisée avec la première table.
Le procédé de la revendication 14, comprenant en outre :
le comptage par la première unité de pré-obtention d'un nombre de requêtes de pré-obtention pour un flux particulier délivré par la première unité de pré-obtention et reçu par le second cache ; et

l'augmentation d'un nombre de requêtes de pré-obtention générées par la seconde unité de pré-obtention en réponse à la détermination que ledit nombre dépasse un seuil.
Le procédé de la revendication 17, dans lequel ladite information d'apprentissage comprend des données temporelles (96) qui sont utilisées par le second cache en tant que partie d'une politique de remplacement de cache.