DE102007059784A1

DE102007059784A1 - Vorladen aus einem dynamischen wahlfreien Zugriffsspeicher in einen statischen wahlfreien Zugriffsspeicher

Info

Publication number: DE102007059784A1
Application number: DE102007059784A
Authority: DE
Inventors: Bryan P. Austin Black; Murali M. Santa Clara Annavaram; Donald W. Lakeway McCauley; John P. Austin Devale
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-12-22
Filing date: 2007-12-12
Publication date: 2008-07-17
Also published as: FR2910653A1; JP2008159057A; KR101025398B1; GB2445262A; TW200845035A; SG144054A1; CN101241475A; TWI379312B; US20080155196A1; FR2910653B1; GB2445262B; HK1121257A1; KR20080059077A; US8032711B2; JP4658112B2; GB0724812D0; CN101241475B

Abstract

Ausführungsformen der Erfindung betreffen im allgemeinen Systeme, Verfahren und Vorrichtungen zum Vorladen aus einem dynamischen wahlfreien Zugriffsspeicher (DRAM) in einen statischen wahlfreien Zugriffsspeicher (SRAM). In einigen Ausführungsformen empfängt die Vorladelogik einen Vorladehinweis, der mit einem Ladebefehl verbunden ist. Die Vorladelogik kann mindestens teilweise auf der Grundlage des Vorladehinweises zwei oder mehr Cachezeilen von einer offenen Seite in dem DRAM am dem SRAM übertragen.

Description

TECHNISCHES GEBIET
Ausführungsformen der Erfindung betreffen im allgemeinen das Gebiet der integrierten Schaltungen und genauer Systeme, Verfahren und Vorrichtungen zum Vorladen aus einem dynamischen wahlfreien Zugriffsspeicher (DRAM) in einen statischen wahlfreien Zugriffsspeicher (SRAM).
ALLGEMEINER STAND DER TECHNIK
Industrielle Chipgestaltungen bewegen sich in Richtung Chipmehrfachprozessoren (chip multiprocessors = CMPs). Im Vergleich zu Hochfrequenz-Einfachprozessoren stellen CMPs eine verbesserte Leistungsfähigkeit und einen geringeren Leistungsverbrauch bereit. CMPs benutzen relativ einfache Kerne und stützen sich auf einen Ausführungsstrang-Parallelismus (thread level parallelism = TLP) zur Verbesserung der Leistungsfähigkeit. Anwendungen, die auf CMPs laufen, müssen den TLP erhöhen, um die Kernzählung effizient zu nutzen.
Eine Erhöhung des TLPs erhöht jedoch auch den Parallelismus auf Speicherebene (memory level parallelism = MLP), indem die Anzahl ausstehender Speicheranfragen pro Takt erhöht wird. Außerdem wächst der Datenarbeitssatz der mehrfädigen Anwendungen wahrscheinlich mit der Anzahl der Ausführungsstränge. Schließlich führt eine Erhöhung des TLPs wahrscheinlich auch zu einer Erhöhung der Zugriffswahlfreiheit auf die gemeinsam genutzten Caches, da Zugriffe von mehreren Ausführungssträngen miteinander verwoben werden. Folglich sollten die Speicherbandbreite und Cachekapazität an die Zahl der Kerne angepaßt sein, um den erhöhten MLP und Datenprofil zu unterstützen.
In jüngerer Zeit ist das dreidimensionale (3D) Plättchenstapeln als (Die-Stapeln) eine durchführbare Option zum Stapeln eines dichten Speicherplättchens (beispielsweise eines DRAM) auf einem Mikroprozessorplättchen vorgeschlagen worden Das Stapeln ermöglicht die Kombinierung von verschiedenen Si-Technologien in einen Plättchenstapel ohne Rücksichtnahme auf die Technologieintegration in einen einfachen Prozeßfluß. Das Stapeln stellt auch eine Schnittstelle von sehr hoher Bandbreite zwischen dem Plättchen bereit, das Silizium-Durchgänge benutzt. Folglich kann das 3D-Stapeln von Speichereinheiten (wie DRAM) auf CMPs die Speicherhierarchiehürden bei der CMP-Skalierung effektiv überwinden.
DRAMs halten in der Regel eine offene Reihe aktiviert, bis eine andere Reihe angefordert wird, um die Zugriffslatenz zu senken. Diese Technik wird als Offene-Seite-Regel (open-page policy) bezeichnet und funktioniert am besten, wenn aufeinanderfolgende Zugriffe auf den DRAM auf die gleiche offene Seite stattfinden. Anderenfalls erhöhen Bankschließungen und Vorladestrafzeiten die Gesamtlatenz des Zugreifens auf eine Bank bedeutend. Herkömmlicherweise gibt es in DRAM-Gestaltungen nur eine offene Seite pro Bank.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Ausführungsformen der Erfindung sind in den Figuren der beiliegenden Zeichnungen beispielhaft und nicht einschränkend dargestellt, wobei ähnliche Bezugszeichen ähnliche Elemente bezeichnen.
1 ist ein Blockdiagramm, das ausgewählte Aspekte eines Rechensystems zeigt, das gemäß einer Ausführungsform der Erfindung implementiert ist.
2 ist ein Konzeptdiagramm, das eine Blockübertragung gemäß einer Ausführungsform der Erfindung darstellt.
3 ist ein Blockdiagramm auf hoher Ebene, das ausgewählte Aspekte eines Rechensystems zeigt, das gemäß einer Ausführungsform der Erfindung implementiert ist.
4 ist ein Blockdiagramm auf hoher Ebene, das eine Ausführungsform darstellt, in der das L2-Cache gemeinsam benutzt wird.
5 ist ein Blockdiagramm auf hoher Ebene, das eine Ausführungsform darstellt, in der die Vorladelogik auf unterschiedlichen Stufen innerhalb der Cachehierarchie benutzt wird.
6 ist ein Flußdiagramm, das ausgewählte Aspekte einer Blockübertragung gemäß einer Ausführungsform der Erfindung darstellt.
7 ist eine Querschnittsansicht einer Halbleitervorrichtung, die gemäß einer Ausführungsform der Erfindung implementiert ist.
AUSFÜHRLICHE BESCHREIBUNG
Die Erfahrung hat gezeigt, daß die Lokalität von Zugriffen auf den DRAM tendenziell zufälliger wird, wenn die Anzahl der Ausführungsstränge, die auf den DRAM zugreifen, zunimmt. Da DRAMs eine begrenzte Anzahl von Banken (zum Beispiel 16) aufweisen, kann die Anzahl von Seitenöffnungen mit der Zunahme der Anzahl der Ausführungsstränge dramatisch zunehmen. Folglich könnten die Folgen einer Banküberlastung die Leistungsfähigkeit des Systems bedeutend beeinflussen.
Ausführungsformen der Erfindung betreffen im allgemeinen Systeme, Verfahren und Vorrichtungen zum Vorladen aus einem dynamischen wahlfreien Zugriffsspeicher (DRAM) in einen statischen wahlfreien Zugriffsspeicher (SRAM). In einigen Ausführungsformen werden zwei oder mehr Cachezeilen von einer offenen Seite in dem DRAM an einen SRAM übertragen. Die Übertragung kann über eine dichte Verbindung wie einen Plättchen-zu-Plättchen-Durchgang bzw. Die-zu-Die-Durchgang erfolgen. Wie nachstehend weiter beschrieben wird, können die Ausführungsformen der Erfindung Speicherressourcen, die für eine CMP-Anpassung geeignet sind, effektiv bereitstellen.
1 ist ein Blockdiagramm, das ausgewählte Aspekte eines Rechensystems zeigt, das gemäß einer Ausführungsform der Erfindung implementiert ist. Das Rechensystem 100 weist einen Kern oder Kerne 102 auf, die mit dem DRAM 104 durch einen Interconnect bzw. eine Verbindung 106 verbunden sind. Der Kern 102 kann nahezu jede beliebige Kernlogik einer integrierten Schaltung sein, einschließlich eines allgemeinen Verarbeitungskerns, eines Grafikkerns und dergleichen. In einigen Ausführungsformen ist der Kern 102 einer von mehreren Kernen auf einem Plättchen (zum Beispiel einem CMP).
Der Kern 102 weist eine Befehlsverarbeitungslogik 108, einen Ln-Cache (zum Beispiel einen L2-Cache) 110 und eine Vorlade(Prefetch = PF)-Logik 112 auf. Die Befehlsverarbeitungslogik 108 kann ein oder mehrere Elemente zur Verarbeitung von Befehlen aufweisen, wie einen Befehlszeiger, eine Decodierlogik, Register und einen L1-Cache. In einigen Ausführungsformen kann die Befehlslogik 108 auch eine Logik aufweisen, um einen Vorladehinweis (zum Beispiel den Vorladehinweis 114) zu generieren. Ein Vorladehinweis bezieht sich im allgemeinen auf ein Indiz, daß zwei oder mehr Ladebefehle wahrscheinlich Daten von der gleichen Cacheseite anfordern. In einigen Ausführungsformen kann der Vorladehinweis ein Vertrauenswert sein, der von einem Schritterkennungsmechanismus auf der Grundlage des Befehlszeiger(IP)-Verlaufs generiert wird. In alternativen Ausführungsformen kann ein anderer Mechanismus benutzt werden, um den Vorladehinweis zu generieren.
Der Ln-Cache 110 und die PF-Logik 112 sind mit der Befehlsverarbeitungslogik 108 durch den Interconnect bzw. die Verbindung 116 (zum Beispiel einen L2-Bus) verbunden. Wenn ein L1-Cache-Fehltreffer vorliegt, dann werden in einigen Ausführungsformen der Fehltreffer und der Vorladehinweis 114 (direkt oder durch eine oder mehrere Stufen in einer Speicherhierarchie) an den Ln-Cache 110 und/oder die Vorladelogik 112 weitergeleitet. Die Vorladelogik 112 kann bestimmen, ob zwei oder mehr Cachezeilen von einer offenen Seite des DRAMs 104 mindestens teilweise auf der Grundlage des Vorladehinweises 114 vorab geladen werden. Wenn zum Beispiel der Vorladehinweis 114 anzeigt, daß eine hohe Wahrscheinlichkeit besteht, daß eine Anzahl von LOAD-Befehlen ein Streaming-Verhalten aufweisen werden, dann kann die PF-Logik 112 eine gesamte offene Datenseite aus dem DRAM 104 in den Ln-Cache 110 übertragen.
In einigen Ausführungsformen kann die PF-Logik 112 eine Logik zum Drosseln einer Vorladung aufweisen, wenn zum Beispiel der Nutzungsgrad der Verbindung 106 zu hoch ist. In solchen Ausführungsformen kann die PF-Logik 112 den Vertrauensgrad (zum Beispiel hoch, mittel oder niedrig), der von dem Vorladehinweis 114 bereitgestellt wird, mit einer Angabe über den Verbindungsnutzungsgrad vergleichen und bestimmen, ob Daten aus dem DRAM 104 vorab geladen werden sollen oder nicht. Der Ausdruck „Daten", wie hier verwendet, bezieht sich im weiten Sinn auf irgendeine Informationsart, einschließlich Befehlen, in irgendeiner für den Kern 102 erkennbaren Form.
Der DRAM 104 kann nahezu jede beliebige Form von DRAM sein, einschließlich eines Commodity-DRAMs, DRAMs mit reduzierter Latenz (RLDRAM), magnetischen wahlfreien Zugriffsspeichers (MRAM) und dergleichen. Außerdem kann der DRAM 104 nahezu jede beliebige Anzahl von Banken mit fast jeder beliebigen Seitengröße aufweisen. In einigen Ausführungsformen weist der DRAM 104 16 Banken auf, wobei jede Seite 4 Kilobyte (KB) beträgt.
Die Verbindung 106 kann jede beliebige eines breiten Spektrums an Plättchen-zu-Plättchen- und/oder Chip-zu-Chip-Verbindungen sein. In einigen Ausführungsformen sind der Kern 102 und der DRAM 104 vertikal gestapelt, und die Verbindung 106 ist ein Plättchen-zu-Plättchen-Durchgang von hoher Dichte. In alternativen Ausführungsformen sind der Kern 102 und der DRAM 104 zusammen in einem Mehrchipmodul zusammen untergebracht, wobei die Verbindung 106 eine Verbindung von hoher Dichte zwischen (mindestens) einigen der Chips in dem Modul bereitstellt. In wieder anderen alternativen Ausführungsformen können der Kern 102 und der DRAM 104 in getrennten Baugruppen untergebracht sein, wobei die Verbindung 106 die Baugruppen verbindet.
2 ist ein Konzeptdiagramm, das eine Blockübertragung gemäß einer Ausführungsform der Erfindung darstellt. Der DRAM 202 ist in eine oder mehreren Cacheseiten 204 gegliedert. In einigen Ausführungsformen weist der DRAM 202 zu jedem gegebenen Zeitpunkt (sofern die Vorrichtung in Betrieb ist) eine offene Cacheseite auf. Zum Beispiel ist die Cacheseite 206 in der dargestellten Ausführungsform offen. Jede Cacheseite besteht aus zwei oder mehr Cachezeilen 208, die jeweils zwei oder mehr Datenbytes aufweisen. In einigen Ausführungsformen überträgt die Vorladelogik (zum Beispiel die Vorladelogik 112, dargestellt in 1) einen Block von zwei oder mehr Cachezeilen von der offenen DRAM-Cacheseite 206 in den SRAM 210. Die Entscheidung zur Übertragung eines Blocks von Cachezeilen kann mindestens teilweise auf einem Vorladehinweis (zum Beispiel dem Vorladehinweis 114, dargestellt in 1) beruhen. Die Blockübertragungen von Daten aus einem DRAM in einen SRAM werden nachstehend in bezug auf 3 bis 7 weiter beschrieben.
3 ist ein Blockdiagramm auf hoher Ebene, das ausgewählte Aspekte eines Rechensystems zeigt, das gemäß einer Ausführungsform der Erfindung implementiert ist. Das System 300 weist mehrere Kerne 302 auf. Die Kerne 302 können beliebige einer großen Vielfalt an Kernen sein, einschließlich allgemeiner Verarbeitungskerne und Grafikkerne. In einigen Ausführungsformen weist jeder Kern einen privaten L1-Cache 304 und einen privaten L2-Cache 306 auf. Außerdem kann jeder Kern (oder ein untergeordneter Satz von Kernen) eine PF-Logik 308 aufweisen.
In einigen Ausführungsformen befindet sich der DRAM-L3-Cache 310 auf einem Plättchen, das mit dem Plättchen, das die Kerne 302 enthält, vertikal gestapelt ist. In solchen Ausführungsformen kann der L3-Bus 314 eine Plättchen-zu-Plättchen-Verbindung von hoher Dichte sein. Der Groß-DRAM 312 stellt Systemspeicher bereit und kann eine Anzahl von Speichervorrichtungen aufweisen, die von den Kernen 302 und dem DRAM-L3-Cache 310 getrennt sind.
In einigen Ausführungsformen überträgt die PF-Logik 308 zwei oder mehr Cachezeilen aus einer offenen Seite des DRAM-L3-Caches in einen SRAM-L2-Cache. Die Entscheidung zur Übertragung eines Blocks von Cachezeilen kann mindestens teilweise auf einem Vorladehinweis beruhen, welcher der PF-Logik 308 von einer Befehlsverarbeitungslogik auf Kern 302 (zum Beispiel Befehlsverarbeitungslogik 102, dargestellt in 1) bereitgestellt wird. Außerdem kann die Entscheidung zur Übertragung eines Blocks von Cachezeilen mindestens teilweise auf dem Nutzungsgrad beruhen, der von dem Bus 314 erfahren wird. In manchen Ausführungsformen kann die PF-Logik 308 eine ganze Speicherseite aus dem DRAM-L3 310 in den SRAM-L2 306 übertragen.
4 ist ein Blockdiagramm auf hoher Ebene, das eine Ausführungsform darstellt, in welcher der L2-Cache gemeinsam benutzt wird. In der dargestellten Ausführungsform weist jeder Kern 302 einen privaten L1-Cache auf, wobei die Kerne den L2-Cache 402 gemeinsam benutzen. Wenn für den L1-Cache 304 ein Fehltreffer vorliegt, können der Fehltreffer und ein Vorladehinweis an den L2-Cache 402 und/oder die PF-Logik 404 weitergeleitet werden. In einigen Ausführungsformen bestimmt die PF-Logik 404 mindestens teilweise auf der Grundlage des Vorladehinweises, ob zwei oder mehr Cachezeilen von einer offenen Seite des DRAM-L3 310 übertragen werden sollen. Außerdem kann die Vorladelogik 404 die Übertragungsentscheidung auf andere Faktoren begründen, einschließlich des Nutzungsgrads des L3-Busses 314.
5 ist ein Blockdiagramm auf hoher Ebene, das eine Ausführungsform darstellt, in der die Vorladelogik auf unterschiedlichen Stufen innerhalb der Cachehierarchie benutzt wird. In einigen Ausführungsformen können ein Cachefehltreffer (zum Beispiel sowohl ein L1- als auch ein L2-Cachefehltreffer) und ein Vorladehinweis an den DRAM-L3-Cache 502 und/oder die PF-Logik 504 weitergeleitet werden. Die PF-Logik 504 kann mindestens teilweise auf der Grundlage des Vorladehinweises (und möglicherweise anderer Faktoren wie den Busnutzungsgraden) zwei oder mehr Cachezeilen aus einer offenen Seite des Groß-DRAMs 312 in den DRAM-L3-Cache 502 übertragen. Die Vorladelogik 308 wiederum kann zwei oder mehr Cachezeilen aus einer offenen Seite des DRAM-L3-Caches 502 in den SRAM-L2-Cache 306 übertragen. Wenngleich die dargestellte Ausführungsform zwei Stufen eines gebündelten Vorladens zeigt, wird man zu verstehen wissen, daß die gebündelte Übertragung eines Blocks von Cachezeilen nahezu jede beliebige Anzahl an Malen über nahezu jede beliebige Anzahl an Cachestufen ausgeführt werden könnte.
6 ist ein Flußdiagramm, das ausgewählte Aspekte einer Blockübertragung gemäß einer Ausführungsform der Erfindung darstellt. In bezug auf den Prozeßblock 602 empfängt die Vorladelogik (zum Beispiel die Vorladelogik 112, dargestellt in 1) einen Vorladehinweis, der mit einem LOAD-Befehl in Verbindung steht. In einigen Ausführungsformen wird der Vorladehinweis durch einen IP-basierten Schritterkennungsalgorithmus generiert. In solchen Ausführungsformen kann der Vorladehinweis angeben, wie wahrscheinlich es ist, daß nachfolgende LOAD-Befehle einen monoton zunehmenden oder abnehmenden Adreßschritt haben werden. In einigen Ausführungsformen kann der Vorladehinweis jede beliebige einer Anzahl von Werten haben, die einen Vertrauensgrad dahingehend angeben, ob nachfolgende LOAD-Befehle einen monoton zunehmenden oder abnehmenden Adreßschritt haben werden. Zum Beispiel kann der Vorladehinweis einen Vertrauensgrad von hoch, mittel oder niedrig angeben. Als Alternative kann nahezu jedes beliebige Schema benutzt werden, um den Vertrauensgrad anzugeben.
In bezug auf den Prozeßblock 604 kann die PF-Logik die Blockvorladung auf der Grundlage einer oder mehrerer Bedingungen oder Faktoren drosseln. Der Ausdruck "drosseln" kann sich auf eine Anzahl von Verhalten beziehen, einschließlich des Verzögerns einer Übertragung, Abbrechen einer Übertragung, Veränderns der Größe einer Übertragung und dergleichen. Die Bedingungen, welche eine Drosselung der Übertragung auslösen können umfassen: ein Nutzungsgrad der Verbindung, über welche die Übertragung stattfinden soll, ein Vorladehinweis, ein Leistungseinsparungsgrad und dergleichen. Wie durch die gestrichelte Linie angegeben, ist der Drosselmechanismus in einigen Ausführungsformen optional.
In bezug auf den Prozeßblock 606 überträgt die PF-Logik mindestens teilweise auf der Grundlage des Vorladehinweises zwei oder mehr Cachezeilen von einem DRAM an einen SRAM. Wenn der Vorladehinweis zum Beispiel eine hohe Wahrscheinlichkeit angibt, daß eine Anzahl an LOAD-Befehlen einen monoton zunehmenden oder abnehmenden Adreßschritt haben wird, dann kann die PF-Logik einen Block von Cachezeilen in den Cache übertragen, um die Wahrscheinlichkeit zu erhöhen, daß die angeforderten Daten in dem Cache gespeichert werden. Der DRAM kann Teil der Cachehierarchie und/oder ein Element des Großspeichers sein. Außerdem kann sich der SRAM bei nahezu jeder beliebigen Stufe der Cachehierarchie befinden.
7 zeigt eine Querschnittsansicht einer Halbleitervorrichtung 700 gemäß einer Ausführungsform der Erfindung. Die Vorrichtung 700 kann ein Gehäuse 702, ein Plättchen 728, ein Plättchen 730 und Plättchen-zu-Plättchen-Durchgänge 726 aufweisen. Ein oder mehrere Erhebungen 704-1 bis 704-N (zusammen hierin als „Erhebungen 704" bezeichnet) können ermöglichen, daß elektrische Signale, einschließlich Versorgungs-, Erdungs-, Takt- und/oder Eingabe-/Ausgabe(I/O)-Signalen, zwischen dem Gehäuse 702 und dem Plättchen 728 übermittelt werden. Das Plättchen 728 kann einen oder mehrere Durchgänge 706 durch das Plättchen aufweisen, um Signale zwischen den Erhebungen 704 und dem Plättchen 730 zu übermitteln. Die Vorrichtung 700 kann ferner eine Wärmesenke 708 aufweisen, um die Abgabe der durch das Plättchen 730 und/oder die Vorrichtung 700 erzeugten Wärme zu ermöglichen.
Die Plättchen 728 und 730 können mehrere Schichten umfassen. Zum Beispiel kann das Plättchen 728 eine Bulk-Silizium(SI)-Schicht 710, eine aktive Si-Schicht 712 und einen Metallstapel 714 aufweisen. Das Plättchen 730 kann einen Metallstapel 720, eine aktive Si-Schicht 722 und eine Bulk-Si-Schicht 724 aufweisen. Wie in 2 dargestellt, können die Durchgänge 726 mit den Plättchen 728 bis 730 durch die jeweiligen Metallstapel 714 und 720 verbunden sein. In einer Ausführungsform kann das Plättchen 728 dünner als das Plättchen 730 sein. Zum Beispiel kann das Plättchen 728 eine Speichervorrichtung (wie eine wahlfreie Zugriffsspeichervorrichtung) aufweisen, und das Plättchen 730 kann einen oder mehrere Prozessorkerne und/oder gemeinsam benutzte oder private Caches aufweisen.
Das Plättchen 730 weist einen oder mehrere Beispiele der PF-Logik 732 auf. In einigen Ausführungsformen kann die PF-Logik 732 zwei oder mehr Cachezeilen aus einem DRAM in dem Plättchen 728 in einen SRAM in dem Plättchen 730 übertragen. Die Übertragung kann durch Plättchen-zu-Plättchen-Durchgänge 726 stattfinden. In einigen Ausführungsformen befähigt die relativ hohe Bandbreite der Plättchen-zu-Plättchen-Durchgänge 726 die PF-Logik 732 zur Übertragung von Blöcken einer Vielzahl von Cachezeilen ohne eine bedeutende Erhöhung der Latenz.
Die Vorrichtung 700 kann zusätzliche Plättchen, zum Beispiel zum Integrieren anderer Komponenten in die gleiche Vorrichtung oder das gleiche System aufweisen. In solch einer Ausführungsform können die Plättchen-zu-Plättchen-Durchgänge und/oder Durchgänge durch das Plättchen benutzt werden, um Signale zwischen den verschiedenen Plättchen (zum Beispiel wie in bezug auf die Durchgänge 726 und 706 erläutert) zu übermitteln.
Elemente von Ausführungsformen der vorliegenden Erfindung können auch als ein maschinenlesbares Medium zum Speichern der von einer Maschine ausführbaren Befehle bereitgestellt werden. Das maschinenlesbare Medium kann umfassen, ist jedoch nicht beschränkt auf Flashspeicher, optische Platten, Kompaktplatten-Nur-Lese-Speicher (CD-ROM), digitale vielseitige Videoplatten(DVD)-ROM, wahlfreie Zugriffsspeicher (RAM), löschbare programmierbare Nur-Lese-Speicher (EPROM), elektrisch löschbare programmierbare Nur-Lese-Speicher (EEPROM), Magnetkarten oder optische Karten, Übertragungsmedien oder andere Arten von maschinenlesbaren Medien, die zum Speichern von elektronischen Befehlen geeignet sind. Zum Beispiel können Ausführungsformen der Erfindung als ein Computerprogramm heruntergeladen werden, das von einem Ferncomputer (zum Beispiel einem Server) auf einen anfragenden Computer (zum Beispiel einen Client) über eine Kommunikationsverbindung (zum Beispiel ein Modem oder eine Netzverbindung) mittels Datensignalen übertragen werden kann, die in einer Trägerwelle oder einem anderen Übertragungsmedium verkörpert sind.
Man wird zu verstehen wissen, daß jeglicher Bezug in der Spezifikation auf "eine bestimmte Ausführungsform" oder „eine Ausführungsform" bedeutet, daß ein bestimmtes Merkmal, eine bestimmte Struktur oder Eigenschaft, das oder die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform (der vorliegenden Erfindung) enthalten ist. Folglich wird betont und sollte gewürdigt werden, daß sich zwei oder mehr Bezugnahmen auf „eine (unbestimmte) Ausführungsform" oder „eine Ausführungsform" oder „eine alternative Ausführungsform" in verschiedenen Teilen dieser Spezifikation nicht unbedingt auf die gleiche Ausführungsform beziehen. Darüber hinaus können die bestimmten Merkmale, Strukturen oder Ausprägungen wie geeignet in einer oder mehreren Ausführungsformen der Erfindung kombiniert werden.
In ähnlicher Weise sollte gewürdigt werden, daß in der vorstehenden Beschreibung von Ausführungsformen der Erfindung verschiedene Merkmale mitunter in einer einzigen Ausführungsform, Figur oder Beschreibung zusammengefaßt worden sind, um die Offenbarung kurz zu fassen und zu einem besseren Verständnis eines oder mehrerer der verschiedenen erfinderischen Aspekte beizutragen. Dieses Offenbarungsverfahren soll jedoch nicht dahingehend interpretiert werden, daß der beanspruchte Gegenstand mehr Merkmale erfordert als diejenigen, die ausdrücklich in jedem Anspruch genannt sind. Vielmehr liegen erfinderische Aspekte, wie die nachfolgenden Ansprüche reflektieren, in weniger als allen Merkmalen einer einzigen vorstehend offenbarten Ausführungsform. Folglich werden die Ansprüche, die der ausführlichen Beschreibung folgen, hiermit ausdrücklich in diese ausführliche Beschreibung aufgenommen.

Claims

Integrierte Schaltung, die umfaßt: eine Kernlogik zum Bereitstellen eines Vorladehinweises; und eine Vorladelogik, die an die Kernlogik gekoppelt ist, wobei die Vorladelogik auf der Grundlage mindestens teilweise des Vorladehinweises zwei oder mehr Cachezeilen von einer offenen Seite in einem dynamischen wahlfreien Zugriffsspeicher (DRAM) an einen statischen wahlfreien Zugriffsspeicher (SRAM) überträgt.
Integrierte Schaltung nach Anspruch 1, wobei die zwei oder mehr Cachezeilen eine Speicherseite umfassen.
Integrierte Schaltung nach Anspruch 1, wobei die Vorladelogik die zwei oder mehr Cachezeilen durch eine Schnittstelle von hoher Dichte übertragen soll.
Integrierte Schaltung nach Anspruch 3, wobei die Schnittstelle von hoher Dichte ein Die-zu-Die-Durchgang ist.
Integrierte Schaltung nach Anspruch 3, wobei die Schnittstelle von hoher Dichte ein Durchgang durch Silizium ist.
Integrierte Schaltung nach Anspruch 1, wobei der DRAM einen Großspeicher umfaßt.
Integrierte Schaltung nach Anspruch 1, wobei der DRAM eine Cachestufe bereitstellt und der SRAM eine nächsthöhere Cachestufe bereitstellt.
Integrierte Schaltung nach Anspruch 7, wobei die Cachestufe ein L3-Cache und die nächsthöhere Cachestufe ein L2-Cache ist.
Integrierte Schaltung nach Anspruch 1, wobei der Vorladehinweis einen Vertrauensgrad angibt, der mit der Übertragung der zwei oder mehr Cachezeilen verbunden ist.
Integrierte Schaltung nach Anspruch 9, die ferner umfaßt: eine Drossellogik, wobei die Drossellogik die Übertragung der zwei oder mehr Cachezeilen mindestens teilweise auf der Grundlage eines Verbindungsnutzungsgrads und des Vorladehinweises drosseln kann.
Integrierte Schaltung nach Anspruch 8, wobei die Kernlogik einen von mehreren Prozessorkernen umfaßt.
Integrierte Schaltung nach Anspruch 8, wobei die Kernlogik einen Grafikkern umfaßt.
Verfahren, das umfaßt: Empfangen eines Vorladehinweises, der mit einem Ladebefehl in Verbindung steht; und Übertragen von zwei oder mehr Cachezeilen von einer offenen Seite in einem dynamischen wahlfreien Zugriffsspeicher (DRAM) an einen statischen wahlfreien Zugriffsspeicher (SRAM) mindestens teilweise auf der Grundlage des Vorladehinweises.
Verfahren nach Anspruch 13, wobei der Vorladehinweis einen Vertrauensgrad angibt, der mit der Übertragung der zwei oder mehr Cachezeilen verbunden ist.
Verfahren nach Anspruch 14, wobei der Vertrauensgrad einer von drei oder mehr Werten ist.
Verfahren nach Anspruch 15, wobei die drei oder mehr Werte hoch, mittel und niedrig umfassen.
Verfahren nach Anspruch 13, das ferner umfaßt: Drosseln einer Übertragung der zwei oder mehr Cachezeilen mindestens teilweise auf der Grundlage eines Verbindungsnutzungsgrades und des Vorladehinweises.
Verfahren nach Anspruch 13, wobei das Übertragen der zwei oder mehr Cachezeilen von der offenen Seite in dem DRAM folgendes umfaßt: Übertragen einer Cacheseite von der offenen Seite in dem DRAM.
Verfahren nach Anspruch 13, wobei der DRAM einen Großspeicher umfaßt.
Verfahren nach Anspruch 13, wobei der DRAM eine Cachestufe bereitstellt.
System, das umfaßt: ein erstes Die, das einen dynamischen wahlfreien Zugriffsspeicher (DRAM) umfaßt; ein zweites Die, das eine Kernlogik umfaßt, um einen Vorladehinweis bereitzustellen, und eine Vorladelogik, die an die Kernlogik gekoppelt ist, wobei die Vorladelogik mindestens teilweise auf der Grundlage des Vorladehinweises zwei oder mehr Cachezeilen von einer offenen Seite in dem DRAM an einen statischen wahlfreien Zugriffsspeicher (SRAM) überträgt; und einen Interconnect, der zwischen dem ersten Die und dem zweiten Die angeschlossen ist.
System nach Anspruch 21, wobei die zwei oder mehr Cachezeilen eine Speicherseite umfassen.
System nach Anspruch 21, wobei der Interconnect ein Die-zu-Die-Durchgang ist.
System nach Anspruch 21, wobei der DRAM eine Cachestufe bereitstellt und der SRAM eine nächsthöhere Cachestufe bereitstellt.
System nach Anspruch 21, wobei der Vorladehinweis einen Vertrauensgrad angibt, der mit der Übertragung der zwei oder mehr Cachezeilen verbunden ist.
System nach Anspruch 21, wobei die Kernlogik einen von mehreren Verarbeitungskernen umfaßt.
Integrierte Schaltung nach Anspruch 21, wobei die Kernlogik einen Grafikkern umfaßt.