DE112013004078T5

DE112013004078T5 - Gemeinsame Speichernutzung über eine vereinheitlichte Speicherarchitektur

Info

Publication number: DE112013004078T5
Application number: DE112013004078.6T
Authority: DE
Inventors: Jayanth N. Rao; Murali Sundaresan
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-08-17
Filing date: 2013-06-13
Publication date: 2015-06-25
Anticipated expiration: 2033-06-14
Also published as: CN106021132B; DE112013007741B4; CN110069421B; JP6391077B2; US20160314077A1; JP2017021837A; WO2014028109A2; JP2017208124A; DE112013004078B4; CN111522754B; JP2016146201A; US10198361B2; JP6478119B2; US20160203580A1; CN111522754A; US20140049548A1; CN104471540B; DE112013007658B4; US20190114267A1; JP2015524979A

Abstract

Ein Verfahren und System für die gemeinsame Nutzung von Speicher zwischen einer Zentraleinheit (central processing unit, CPU) und einem Grafikprozessor (graphics processing unit, GPU) wird hierin offenbart. Das Verfahren umfasst die Zuweisung einer Oberfläche in einem physischen Speicher und die Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle. Das Verfahren umfasst außerdem die Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Grafikspeicheradressen in einer E/A-Geräteseitentabelle.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich im Allgemeinen auf die gemeinsame Nutzung von Speicher zwischen einer Zentraleinheit (central processing unit, CPU) und einem Eingabe/Ausgabe-(E/A-)Gerät in einem Computersystem. Insbesondere bezieht sich die vorliegende Erfindung auf die gemeinsame Nutzung von physischem Speicher zwischen einer CPU und einem E/A-Gerät.
Hintergrund
Moderne E/A-Geräte können Computerverabeitungsfähigkeiten enthalten, die mit den Computerverarbeitungsfähigkeiten vieler Zentraleinheiten (CPUs) konkurrieren können. Als Folge kann ein Teil der Rechenaufgaben, die herkömmlicherweise von der CPU ausgeführt werden, zu einem E/A-Gerät des Computergeräts ausgelagert werden. Zum Beispiel kann ein E/A-Gerät wie ein Grafikprozessor (graphics processing unit, GPU) eines Computergeräts einige der Aufgaben ausführen, die herkömmlicherweise von der CPU ausgeführt wurden und dadurch die Effizienz der CPU steigern.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines Computergeräts, das gemäß Ausführungsformen verwendet werden kann,
2A und 2B sind schematische Darstellungen einer vereinheitlichten Speicherarchitektur (unified memory architecture, UMA), die verwendet werden kann, um ein Verfahren für die gemeinsame Nutzung von Speichern zwischen der Zentraleinheit (central processing unit, CPU) und denn Grafikprozessor (graphics processing unit, GPU) des Computergeräts gemäß Ausführungsformen zu implementieren,
3 ist ein Prozessablaufdiagramm, das ein Verfahren für die gemeinsame Nutzung von Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen zeigt,
4 ist ein Prozessablaufdiagramm, das ein Verfahren für die Verarbeitung von gemeinsam genutztem Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen zeigt,
5 ist ein Blockdiagramm, das ein konkretes, nicht flüchtiges, computerlesbares Medium zeigt, auf dem Code für die gemeinsame Nutzung von Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen gespeichert ist,
6 ist ein Blockdiagramm für ein beispielhaftes System für die Implementierung eines gemeinsamen physischen Speichers und
7 ist eine schematische Darstellung eines Geräts mit kleinem Formfaktor, in dem das System von 6 verkörpert sein kann.
In der Offenbarung und in den Figuren werden dieselben Bezugsnummern verwendet, um sich auf gleiche Komponenten und Merkmale zu beziehen. Nummern der 100-Serie beziehen sich auf Merkmale, die ursprünglich in 1 zu finden sind, Nummern der 200-Serie beziehen sich auf Merkmale, die ursprünglich in 2 zu finden sind, usw.
Beschreibung der Ausführungsformen
Aktuelle Betriebssysteme und Grafikschnittstellen verwalten GPUs als E/A-Geräte, statt die GPUs als Prozessoren mit Ressourcen ähnlich CPUs zu verwalten. Durch die Verwaltung von GPUs als E/A-Geräte haben CPUs und GPUs physische Speicher mit getrennten physischen Adressdomänen. Beim Auslagern von Rechenaufgaben zu GPUs werden Daten von der physischen Adressdomäne der CPU zur physischen Adressdomäne der GPU kopiert. Wenn die GPU die Verarbeitung abgeschlossen hat, werden die Daten wieder zurück zur physischen Adressdomäne der CPU kopiert.
Das Auslagern eines Teils der Rechenaufgaben, die herkömmlicherweise von der CPU durchgeführt werden, zur GPU eines Computergeräts kann die Effizienz der CPU erhöhen. Wie oben erörtert, können, um Aufgaben zur GPU auszulagern, Daten zwischen dem physischen Speicher der CPU und dem physischen Speicher der GPU übertragen werden. Die Datenübertragungen, die beim Auslagern von Rechenaufgaben zur GPU erfolgen, können die durch das Auslagern von Aufgaben zur GPU gewonnene Effizienz verringern. Demgemäß beziehen sich hierin beschriebene Ausführungsformen auf die gemeinsame Nutzung von Speicher zwischen der CPU und der GPU eines Computergeräts. Der Speicher kann über eine vereinheitlichte Speicherarchitektur (unified memory architecture, UMA) gemeinsam genutzt werden.
In verschiedenen Ausführungsformen stellt die UMA die gemeinsame Speichernutzung zwischen der CPU und der GPU bereit, indem sie sowohl der CPU als auch der GPU denselben physischen Speicher bereitstellt. Somit sind der physische Speicher und der entsprechende physische Adressraum der CPU und GPU ein und derselbe. In Ausführungsformen kann der physische Speicher zwischen der CPU und der GPU partitioniert werden. Des Weiteren kann der physische Speicher ein ausgelagerter Systemspeicher sein, der dem Betriebssystem des Computergeräts zugeordnet ist. Der virtuelle Speicheradressraum der CPU kann denselben physischen Speicherseiten wie der grafische virtuelle Speicheradressraum der CPU zugeordnet sein. Außerdem können die CPU und GPU in einigen Ausführungsformen sich physisch auf demselben Chip befinden. Somit können die CPU und die GPU die Daten, die im physischen Speicher enthalten sind, gemeinsam nutzen, ohne Daten aus dem Adressraum der GPU in den Adressraum der CPU zu kopieren, oder umgekehrt. Dies kann die Kosten der Auslagerung von Rechenaufgaben von der CPU zur GPU durch, zum Beispiel, die Verringerung der Zeit und des Energieverbrauchs für die gemeinsame Nutzung von Daten zwischen der CPU und der GPU verringern.
In der folgenden Beschreibung und den Ansprüchen können die Begriffe „gekoppelt” und „verbunden” gemeinsam mit ihren Ableitungen verwendet sein. Es sollte selbstverständlich sein, dass diese Begriffe nicht als Synonyme füreinander zu verstehen sind. Vielmehr kann bei bestimmten Ausführungsformen „verbunden” verwendet werden, um anzuzeigen, dass zwei oder mehr Elemente in direktem physischen oder elektrischen Kontakt miteinander stehen. „Gekoppelt” kann bedeuten, dass zwei oder mehr Elemente in direktem physischen oder elektrischen Kontakt stehen. Jedoch kann „gekoppelt” auch bedeuten, dass zwei oder mehr Elemente nicht in direktem Kontakt miteinander sind, trotzdem aber miteinander arbeiten oder interagieren.
Einige Ausführungsformen können in einer oder einer Kombination von Hardware, Firmware und Software implementiert werden. Einige Ausführungsformen können auch als auf einem maschinenlesbaren Medium gespeicherte Befehle implementiert werden, die von einer Computerplattform gelesen und ausgeführt werden können, um die hier beschriebenen Operationen auszuführen. Ein maschinenlesbares Medium kann jeden Mechanismus für das Speichern oder Senden von Information in einer durch eine Maschine (z. B. ein Computer) lesbaren Form enthalten. Zum Beispiel kann ein maschinenlesbares Medium Read Only Memory (ROM), Random Access Memory (RAM), Magnetplattenspeichermedien, optische Speichermedien. Flash-Speicher-Geräte, elektrische, optische, akustische oder andere Formen von propagierten Signalen (z. B. Trägerwellen, Infrarotsignale, Digitalsignale, die Schnittstellen, die Signale senden und/oder empfangen, usw.) und andere enthalten.
Eine Ausführungsform ist eine Implementierung oder ein Beispiel. Die Bezugnahme auf „eine Ausführungsform”, „einige Ausführungsformen”, „verschiedene Ausführungsformen” oder „andere Ausführungsformen” bedeutet, dass eine bestimmte Funktion, Struktur oder ein bestimmtes Merkmal, die/das im Zusammenhang mit den Ausführungsformen beschrieben wird, in mindestens einigen Ausführungsformen, aber nicht notwendigerweise allen Ausführungsformen der Erfindungen eingeschlossen ist. Das verschiedenartige Auftreten von „eine Ausführungsform” oder „einige Ausführungsformen” bezieht sich nicht notwendigerweise auf dieselben Ausführungsformen. Elemente oder Aspekte einer Ausführungsform können mit Elementen oder Aspekten einer anderen Ausführungsform kombiniert werden.
alle Komponenten, Funktionen, Strukturen, Merkmale usw., die hier beschrieben und gezeigt sind, müssen in einer bestimmten Ausführungsform oder Ausführungsformen enthalten sein. Wenn die Beschreibung einer Komponente, Funktion, Struktur oder eines Merkmals aussagt, dass sie enthalten sein „kann” oder „könnte”, dann ist es zum Beispiel für diese bestimmte Komponente, Funktion, Struktur oder dieses bestimmte Merkmal nicht erforderlich, enthalten zu sein. Wenn in der Beschreibung oder den Ansprüchen Bezug auf „ein” Element genommen wird, bedeutet dies nicht, dass es nur eines von diesem Element gibt. Wenn die Beschreibung oder die Ansprüche Bezug auf „ein zusätzliches” Element nehmen, schließt das nicht aus, dass es dort mehr als eines von dem zusätzlichen Element gibt.
Es ist zu beachten, dass, obwohl einige Ausführungsformen unter Bezugnahme auf bestimmte Implementierungen beschrieben wurden, andere Implementierungen gemäß einigen Ausführungsformen möglich sind. Zusätzlich brauchen die Anordnung und/oder Reihenfolge von Schaltelementen oder anderen Merkmalen, die in den Zeichnungen gezeigt und/oder hier beschrieben sind, nicht auf die bestimmte gezeigte und beschriebene Weise angeordnet sein. Viele andere Anordnungen sind gemäß einigen Ausführungsformen möglich.
Bei jedem in einer Figur gezeigten System können die Elemente in einigen Fällen jeweils dieselbe Referenznummer oder eine unterschiedliche Referenznummer aufweisen, um anzudeuten, dass die repräsentierten Elemente unterschiedlich und/oder ähnlich sein könnten. Ein Element kann jedoch flexibel genug sein, um unterschiedliche Implementierungen zu haben, und es kann mit einigen oder allen hier dargestellten oder beschriebenen Systemen funktionieren. Die verschiedenen in den Figuren dargestellten Elemente können dieselben Elemente sein oder sie können unterschiedlich sein. Welches ein erstes Element genannt wird und welches ein zweites Element, ist willkürlich.
1 ist ein Blockdiagramm eines Computergeräts 100, das gemäß Ausführungsformen verwendet werden kann. Das Computergerät 100 kann zum Beispiel u. a. ein Laptop-Computer, Desktop-Computer, Tablet-Computer, ein mobiles Gerät oder ein Server sein. Das Computergerät 100 kann eine Zentraleinheit (central processing unit, CPU) 102 sein, die so angepasst ist, dass sie gespeicherte Befehle ausführt, sowie ein Speichergerät 108, das Befehle speichert, die von der CPU 102 ausgeführt werden können. CPU 102 kann ein Einkernprozessor, ein Mehrkernprozessor, ein Computercluster oder jede beliebige Anzahl anderer Konfigurationen sein. Des Weiteren kann das Computergerät 100 mehr als eine CPU 102 enthalten. Die Befehle, die von der CPU 102 ausgeführt werden, können zur Implementierung eines Verfahrens der gemeinsamen Speichernutzung verwendet werden.
Das Computergerät 100 kann außerdem einen Grafikprozessor (graphics processing unit, GPU) 104 enthalten. Die GPU ist ein Eingabe/Ausgabe-(E/A-)Gerät im Computergerät 100. Ein E/A-Gerät ist ein Gerät, das für die Kommunikation mit einem Computer mithilfe von Eingabe, Ausgabe oder einer Kombination davon verwendet werden kann. Wie dargestellt, kann die CPU 102 über Bus 106 mit der GPU 104 verbunden sein. Jedoch befindet sich in einigen Ausführungsformen die GPU 104 auf demselben Chip wie die CPU 102 in Computergerät 100. Auf diese Weise sind die CPU 102 und die GPU solcherart verbunden, dass auf die Verbindung zwischen der CPU 102 und der GPU 104 über den Bus 106 verzichtet werden kann. Des Weiteren können, in Ausführungsformen, die CPU 102 und die GPU 104 in einer vereinheitlichten Speicherarchitektur von Computergerät 100 enthalten sein, wie in Bezug auf 2 erörtert.
GPU 104 kann so konfiguriert werden, dass sie eine beliebige Zahl an Grafikoperationen in Computergerät 100 durchführt. GPU 104 kann zum Beispiel so konfiguriert werden, dass sie grafische Bilder, grafische Frames, Videos oder ähnliches rendert oder manipuliert, die von einem Benutzer des Computergeräts 100 angezeigt werden. In einigen Ausführungsformen beinhaltet GPU 104 eine Reihe von Grafik-Engines (nicht dargestellt), wobei jede Grafik-Engine so konfiguriert ist, dass sie spezifische Grafikaufgaben durchführt oder bestimmte Arten von Arbeitslasten ausführt.
Computergerät 100 kann auch ein Speichergerät 108 enthalten. Speichergerät 108 kann Random Access Memory (RAM), Read Only Memory (ROM), Flash-Speicher oder jedes andere geeignete Speichersystem beinhalten. Speichergerät 108 kann zum Beispiel Dynamic Random Access Memory (DRAM) beinhalten. Speicher 108 kann einen Gerätetreiber 110 enthalten, der so konfiguriert ist, dass er Befehle für die Implementierung des Verfahrens der gemeinsamen Speichernutzung ausführt. Gerätetreiber 110 kann Software, ein Anwendungsprogramm, Anwendungscode oder ähnliches sein. In einigen Ausführungsformen ist Gerätetreiber 110 ein Benutzermodustreiber.
Speicher 108 beinhaltet außerdem einen mehrstufigen Zwischenspeicher 112, der mindestens einen Last-Level-Cache (LLC) 114, einen Level-2-Cache 116 und einen Level-1-Cache 118 umfasst. Auch wenn zur Veranschaulichung ein mehrstufiger Zwischenspeicher 112 verwendet wird, kann jeder beliebige Zwischenspeicher in Computergerät 100 enthalten sein.
Der mehrstufige Zwischenspeicher 112 kann ein kleinerer, schnellerer Speicher sein, der eine kleinere Teilmenge häufig verwendeter Daten für die CPU 102 speichert. Ein größerer Datensatz kann in einem Speicher 120 gespeichert sein. Speicher 120 ist physischer Speicher, z. B. eine Festplatte, ein optisches Laufwerk, ein Thumbdrive oder eine Reihe von Laufwerken oder jede beliebige Kombination davon. Speicher 120 kann auch Remote-Speicherlaufwerke umfassen. Die Zeit, die der Zugriff von CPU 102 auf Daten dauert, die in Speicher 120 gespeichert sind, kann in Bezug auf die Zeit, die der Zugriff von CPU 102 auf den mehrstufigen Zwischenspeicher 112 in Speicher 104 dauert, langsamer sein.
In einigen Ausführungsformen wird LLC 114 zwischen der CPU 102 und der GPU 104 gemeinsam genutzt, während der Level-2-Cache 116 und der Level1-Cache 118 vor der GPU 104 verborgen sein können, sodass GPU 104 nicht direkt auf Daten in Level-2-Cache 116 und Level-1-Cache 118 zugreifen kann. Jedoch kann LLC 114 Daten, die in Level-2-Cache 116 und Level-1-Cache 118 gespeichert sind, lesen und schreiben. Somit kann, wenn GPU 104 Daten anfordert, die in Level-2-Cache 116 oder Level-1-Cache 118 zwischengespeichert sind, LLC 114 die Daten von Level-2-Cache 116 und Level-1-Cache 118 für die Verarbeitung von GPU 104 abrufen. Auf diese Weise stellt LLC 114 Datenkohärenz in Computergerät 100 sicher. Wie hierin verwendet, bezieht sich Kohärenz auf den Zustand, in dem Daten, auf die durch CPU 102 und GPU 104 zugegriffen wird, gleich sind. Demgemäß stellt CPU 102 sicher, dass Daten von Speichergerät 120 in LLC 114, Level-2-Cache 116 und Level-1-Cache 118 widergespiegelt werden, indem sichergestellt wird, dass die Daten mit LLC 114 kohärent sind, um die gemeinsame Nutzung der korrekten Daten mit GPU 104 zu ermöglichen.
Außerdem können, in Ausführungsformen CPU und GPU auf jede Speicherebene zugreifen. Jedoch können Daten von anderen Speicherebenen veraltet sein, während LLC 114 die neuesten Daten enthält. Des Weiteren können CPU und GPU in Ausführungsformen jeden gemeinsam zugänglich Speicherort nutzen, um einen gemeinsam genutzten virtuellen Speicher auszuführen. Jeder gemeinsam zugängliche Speicherort kann u. a. jeden Bereich von Speichergerät 104, jeden Bereich von Speicher 120, einen Netzwerkspeicherort, ein Thumbdrive oder jede Kombination davon umfassen.
Speicher 120 beinhaltet eine Oberfläche 122 sowie jede beliebige Zahl von Anwendungen 124, die für die Ausführung auf Computergerät 100 konfiguriert sind. Die Oberfläche 122 ist ein bestimmter Teil des physischen Speicher, der vom Gerätetreiber 110 zugewiesen wird. Die Oberfläche kann auf Basis der Verarbeitung aktualisiert werden, die am Inhalt des physischen Speichers in der Oberfläche 122 durchgeführt wird. In Ausführungsformen kann, wenn eine Anwendung 124 von der CPU 104 ausgeführt wird, die Anwendung 124 fordern, dass eine Oberfläche vom Gerätetreiber 110 zugewiesen wird. Des Weiteren können Anwendungen 124, die auf der CPU 102 ausgeführt werden, die Oberfläche 122 je nach Speicherzuweisung konfigurieren, die von den Anwendungen 124 benötigt wird, indem die gewünschte Größe und die Eigenschaften der Oberfläche 122 angegeben werden. Außerdem kann die Oberflächenzuweisung zum Beispiel als Reaktion auf eine Eingabe von der CPU 102 von Computergerät 100 durchgeführt werden. Des Weiteren ist in Ausführungsformen die Oberfläche als im LLC zwischenspeicherbar gekennzeichnet. Durch Bezeichnung der Oberfläche 122 als im LLC zwischenspeicherbar können die Daten, die von Orten innerhalb der Oberfläche 122 zwischengespeichert werden, in LLC 114 zwischengespeichert werden und sind somit im LLC sowohl für die CPU 102 als auch die GPU 104 zugänglich.
Eine Speicherverwaltungseinheit (memory management unit, MMU) 126 kann verwendet werden, um auf Daten zuzugreifen, die in der Oberfläche 122 gespeichert sind. Die MMU 126 kann den virtuellen Adressraum der 102 und der GPU 104 in verschiedene Adressraumseiten aufteilen. Die CPU 102 und die GPU 104 haben jeweils ihre eigenen virtuellen Adressräume. Der virtuelle Adressraum ermöglicht den Schutz der Daten, die in der Oberfläche 122 enthalten sind, indem die verschiedenen Anwendungen 124, die innerhalb eines Computersystems ausgeführt werden, in einer bestimmten Teilmenge der virtuellen Adressen isoliert werden. Durch Verwendung der virtuellen Adressräume greift eine Anwendung 124 nicht auf die Daten einer anderen Anwendung 124 zu. Demgemäß beinhaltet die MMU 126 eine CPU-Seitentabelle 128 und eine GPU-Seitentabelle 130. Die CPU-Seitentabelle enthält die virtuellen Adressen der CPU, die einem physischen Adressort innerhalb der Oberfläche 122 zugeordnet sind. Ähnlich enthält die GPU-Seitentabelle enthält die virtuellen Adressen der GPU, die einem physischen Adressort innerhalb der Oberfläche 122 zugeordnet sind. Im hierin beschriebenen Verfahren der gemeinsamen Speichernutzung kann die CPU-Seitentabelle 128 eine Zuordnung des virtuellen CPU-Adressraum zu einem physischen Adressraum beinhalten. Der physische Adressraum entspricht physischen Orten innerhalb der Oberfläche 122. Ebenso kann die GPU-Seitentabelle 130 eine Zuordnung des virtuellen GPU-Adressraums zu derselben beinhalten.
In verschiedenen Ausführungsformen werden die virtuellen Speicheradressen aus der virtuellen CPU-Seitentabelle 128 und die virtuellen Grafikspeicheradressen aus der GPU-Seitentabelle 130 den physischen Speicherseiten der Oberfläche 122 über ein Übersetzungsverfahren zugeordnet. Das Übersetzungsverfahren kann verwendet werden, um jede der virtuellen Speicheradressen einer entsprechenden physischen Adresse zuzuweisen. Zum Beispiel kann das Übersetzungsverfahren über ein Durchsuchen der Seitentabellen durchgeführt werden, das auf Basis einer spezifischen Übersetzungstabelle für die Konvertierung virtueller Speicheradressen in einer Seitentabelle in physische Speicheradressen in der Seitentabelle erfolgen kann. Außerdem kann in Ausführungsformen ein Adress-Umsetzpuffer verwendet werden, um die virtuellen Adressen der CPU und GPU in physische Adressräume in ihren jeweiligen Seitentabellen zu übersetzen.
Nach Durchführung eines Übersetzungsverfahrens kann Oberfläche 122 fixiert werden. Die Fixierung der Oberfläche bezieht sich auf den Schutz der Oberfläche, sodass die physischen Orte und die entsprechenden physischen Adressen unverändert sind. Somit stellt die Fixierung der Oberfläche 122 eine „harte” Zuordnung zwischen virtuellen Adressräumen und physischen Adressräumen sicher. Die harte Zuordnung zwischen Adressräumen ist eine Zuordnung, die sich nach Fixierung der Oberfläche nicht mehr ändert. Wenn eine Oberfläche nicht fixiert ist, kann ein Seitenfehler erzeugt werden oder die falschen Daten können verarbeitet werden, da sich der physische Ort der Oberfläche ändern kann.
In Ausführungsformen kann eine Anwendung 124 auf der CPU 102 ausgeführt werden und eine Oberfläche, zum Beispiel Oberfläche 122, anfordern, um die Operationen durchzuführen, zum Beispiel die Verarbeitung von Daten. Die CPU 102 kann die Operationen an die GPU 104 übergeben. Da die Seitentabellen der Oberfläche 122 zugeordnet wurden, kann die GPU durch Zugreifen auf die Oberfläche mit der sofortigen Ausführung der Operationen beginnen, die von der CPU 102 ausgelagert wurden, ohne die Daten in einen anderen Adressraum zu kopieren. Wenn die Operationen abgeschlossen von der CPU 102 abgeschlossen sind, kann die GPU 104 der CPU 122 signalisieren, dass die Operationen abgeschlossen sind. Die CPU 102 kann dann die Verarbeitung der Daten fortsetzen, ohne die Daten zurück in einen ursprünglichen Adressraum zu kopieren.
Wenn die Operationen, die von der Anwendung 124 angefordert werden, von der GPU 104 durchgeführt werden, können Modifizierungen an der Oberfläche 122 erfolgen. Demgemäß sind für das hierin beschriebenen Verfahren der gemeinsamen Speichernutzung solche Modifizierungen an Oberfläche 122 für die CPU 102 voll sichtbar. Somit können Daten zwischen der GPU 104 und der CPU 102 gemeinsam genutzt werden, ohne Daten von der GPU 104 zur CPU 102 oder umgekehrt zu kopieren.
CPU 102 kann über Bus 106 mit einer Eingangs-/Ausgangsschnittstelle (E/A) 132 gekoppelt werden, die so angepasst ist, dass das Computergerät 100 mit einem oder mehreren E/A-Geräten 134 verbunden ist. E/A-Geräte 134 können z. B. eine Tastatur und ein Zeigegerät umfassen, wobei das Zeigegerät u. a. ein Touchpad oder einen Touchscreen umfassen kann. Die E/A-Geräte 134 können integrierte Komponenten des Computergerät 100 sein oder sie können Geräte sein, die extern mit Computersystem 100 verbunden sind.
CPU 102 kann außerdem über Bus 106 mit einer Displayschnittstelle 136 gekoppelt werden, die so angepasst ist, dass das Computergerät 100 mit einem Anzeigegerät 138 verbunden ist. Anzeigegerät 138 kann einen Anzeigebildschirm enthalten, der eine integrierte Komponente des Computergeräts 100 ist. Anzeigegerät 138 kann außerdem u. a. einen Computermonitor, ein Fernsehgerät oder einen Projektor enthalten, der extern mit Computergerät 100 verbunden ist.
Ein Netzwerk-Schnittstellencontroller (network interface controller, NIC) 140 kann so angepasst sein, dass er Computergerät 100 über Bus 106 mit einem Netzwerk verbindet 142. Netzwerk 142 kann u. a. ein Wide Area Network (WAN), Local Area Network (LAN) oder das Internet sein.
Das Blockdiagramm von 1 soll nicht angeben, dass Computergerät 100 alle in 1 darstellten Komponenten enthalten muss. Des Weiteren kann das Computergerät 100 je nach Einzelheiten der konkreten Implementierung eine beliebige Anzahl von zusätzlichen nicht in 1 dargestellten Komponenten enthalten.
2A und 2B sind schematische Darstellungen einer vereinheitlichten Speicherarchitektur 200, die verwendet werden kann, um ein Verfahren für die gemeinsame Nutzung von Speichern zwischen der CPU 102 und der GPU 104 von Computergerät 100 gemäß Ausführungsformen zu implementieren. Gleiche Nummern sind mit Bezug auf 1 beschrieben. Die UMA 200 kann zum Beispiel die CPU-Seitentabelle 128, die GPU-Seitentabelle 130 und die Oberfläche 122 von Computergerät 100 umfassen.
Die UMA 200 kann direkte gemeinsame Speichernutzung zwischen der CPU 102 und der GPU 104 ohne jegliche Art von Datenkopieren oder Datenübertragung zwischen der CPU 102 und der GPU 104 ermöglichen. Dies kann erreicht werden, indem der CPU 102 und der GPU 104 eine gemeinsame Nutzung der Oberfläche 122 ermöglicht wird. Wie oben beschrieben, kann die 122 ein Teil eines physischen Speichergeräts sein. Die Oberfläche beinhaltet eine beliebige Anzahl physischer Speicherorte 202. Die physischen Speicherorte 202 können in einem ausgelagerten Speicherformat organisiert sein, bei dem eine Seite ein Block mit fester Länge des physischen Speichers in der Oberfläche 122 ist.
Die CPU-Seitentabelle 128 kann eine Reihe von virtuellen CPU-Speicheradressen 204 enthalten und die GPU-Seitentabelle 130 kann eine Reihe virtueller Grafikspeicheradressen 206 enthalten. Die virtuellen CPU-Speicheradressen 204 bilden den virtuellen CPU-Adressraum, während die virtuellen Grafikspeicheradressen 206 den virtuellen Grafikadressraum bilden. Jeder Adressraum ist einer physischen Adresse in jeder Seitentabelle zugeordnet. Somit sind die virtuellen CPU-Speicheradressen 204 und die virtuellen Grafikspeicheradressen 206 beide demselben Satz physischer Adressen 208 in der CPU-Seitentabelle 128 bzw. der GPU-Seitentabelle 130 zugeordnet.
Die physischen Adressen 208 ermögliche es der CPU 102 und der GPU 104 (1), Daten zu verarbeiten, die an physischen Orten 202 in der Oberfläche 122 gespeichert sind. In verschiedenen Ausführungsformen ist die Oberfläche 122 auf Basis spezifischer virtueller CPU-Adressen 204 zugewiesen, auf die von einer Anwendung zugegriffen wird, zum Beispiel Anwendung 124 (1). Sobald die Oberfläche 122 zugewiesen wurde, wird jede physische Adresse 208 der entsprechenden virtuellen CPU-Adresse 204 in der CPU-Seitentabelle 128 zugeordnet, wie in 2 dargestellt. Die virtuellen Grafikspeicheradressen 206 in der GPU-Seitentabelle 130 können mit der CPU-Seitentabelle 128 synchronisiert werden, sodass die virtuellen CPU-Adressen und die virtuellen GPU-Speicheradressen demselben Satz physischer Adressen 208 zugeordnet sind. Die physischen Adressen 208 entsprechen physischen Orten 202 in der Oberfläche 122. Demgemäß kann die Oberfläche 122 direkt zwischen der CPU 102 und der GPU 104 gemeinsam genutzt werden. In Ausführungsformen sind, wenn die GPU 104 Daten modifiziert, die sich an einem beliebigen der physischen Orte 202 befinden, die Modifizierungen automatisch für die CPU 102 über die Oberfläche 122 sichtbar, ohne dass Daten kopiert oder geordnet werden.
Die schematische Darstellung von 2 soll nicht angeben, dass die UMA 200 alle in 2 darstellten Komponenten enthalten muss. Des Weiteren kann die UMA 200 je nach Einzelheiten der spezifischen Implementierung eine beliebige Anzahl von zusätzlichen, in 2 nicht dargestellten Komponenten enthalten.
3 ist ein Prozessablaufdiagramm, das ein Verfahren 300 für die gemeinsame Nutzung von Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen zeigt, In verschiedenen Ausführungsformen wird Verfahren 300 verwendet, um Speicher zwischen der CPU und der GPU gemeinsam zu nutzen, ohne Daten von einem CPU-Speicher zu einem GPU-Speicher zu kopieren.
In einigen Ausführungsformen kann Verfahren 300 auf einem Computergerät ausgeführt werden, zum Beispiel Computergerät 100, bei dem CPU 102 und GPU 104 durch einen Bus 106 verbunden sind. In anderen Ausführungsformen können die CPU 102 und die GPU 104 in einer UMA enthalten sein, zum Beispiel UMA 200, die oben in Bezug auf 2 erörtert ist. Des Weiteren kann Verfahren 300 von einem Treiber des Computergeräts ausgeführt werden, zum Beispiel Gerätetreiber 126 von Computergerät 100.
Da Verfahren beginnt bei Block 302 mit der Zuweisung einer Oberfläche in einem physischen Speicher. In Ausführungsformen kann die Oberfläche im physischen Speicher eines Computergeräts als Reaktion auf eine Eingabe von einer Anwendung zugewiesen werden, die auf der CPU des Computergeräts läuft. Des Weiteren kann, in Ausführungsformen, die Oberfläche durch den Gerätetreiber zugewiesen werden. Die Anwendung oder der Gerätetreiber auf die Oberfläche von der CPU aus mithilfe einer virtuellen CPU-Adresse zugreifen. In Ausführungen werden die virtuellen CPU-Adressen der Anwendung oder dem Gerätetreiber durch ein Betriebssystem des Computergeräts bereitgestellt.
Bei Block 304 werden die physischen Adressen, die den physischen Orten in der Oberfläche entsprechen, den virtuellen CPU-Adressen zugeordnet. Die Zuordnung zwischen den virtuellen CPU-Speicheradressen und den physischen Adressen sind in einer CPU-Seitentabelle enthalten. Die Zuordnung der physischen Speicherseiten zu den virtuellen Speicheradressen kann die Übersetzung der virtuellen CPU-Adressen umfassen, um entsprechende physische Speicherseiten im Systemspeicher zu bestimmen. Wenn die virtuellen CPU-Adressen in physische Adressen übersetzt wurden, werden die Zuweisungen zwischen den virtuellen CPU-Adressen und den physischen Adressen, die während des Übersetzungsvorgangs gefunden wurden, gesperrt. Durch Sperren der Zuweisungen können die physischen Orte der Oberfläche, die den physischen Adressen in der CPU-Seitentabelle entsprechen, in den Zwischenspeicher ausgelagert werden. Die Seiten bleiben im Zwischenspeicher, während die Zuordnungen gesperrt sind, da verhindert wird, dass die physischen Adressen der Oberfläche durch den Gerätetreiber geändert werden.
Bei Block 306 werden die virtuellen GPU-Speicheradressen den physischen Orten in der Oberfläche zugeordnet. In Ausführungsformen ist die Oberfläche als im LLC zwischenspeicherbar bezeichnet. Eine solche Bezeichnung stellt sicher, dass die physischen Orte der Oberfläche im LLC zwischengespeichert werden, die von der CPU und der GPU gemeinsam genutzt werden. Die virtuellen Grafikspeicheradressen, die von der Anwendung verwendet werden, können in dieselben physischen Adressen übersetzt werden, die den virtuellen Adressen der CPU zugeordnet sind. In Ausführungsformen kann der Gerätetreiber die Zuordnung der virtuellen Grafikspeicheradressen zu den physischen Adressen in der GPU-Seitentabelle aktualisieren.
Die Zuordnung der virtuellen GPU-Adressen kann eine Fixierung der Oberfläche umfassen. Durch Fixierung der Oberfläche wird verhindert, dass die Zuordnung zwischen den virtuellen GPU-Adressen und der Oberfläche geändert wird. Somit entspricht der virtuelle GPU-Speicher demselben physischen Speicher, ohne dass der physische Speicher geändert wird. Zum Beispiel kann ein Betriebssystem zugewiesene physische Speicherorte als Teil seiner Speicherverwaltung ändern. Sobald die Oberfläche jedoch fixiert wurde, wird verhindert, dass das Betriebssystem die physischen Speicherorte der Oberfläche ändert.
4 ist ein Prozessablaufdiagramm, das ein Verfahren 400 für die Verarbeitung von gemeinsam genutztem Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen zeigt,
Bei Block 402 kann eine Operation von der CPU zur GPU ausgelagert werden. Die Operation kann zur GPU ausgelagert werden, wie von einer Anwendung angewiesen, zum Beispiel Anwendung 124 (1). Außerdem kann eine beliebige Application Programming Interface (AP), die verwendet wird, um die CPU oder GPU zu steuern, verwendet werden, um die Auslagerung einer Operation von der CPU zur GPU anzuweisen. In Ausführungsformen können vor der Auslagerung einer Operation von der CPU zur GPU die Daten, die sich in der Oberfläche befinden, die durch die CPU verarbeitet wird, mit dem LLC kohärent gemacht werden.
Bei Block 404 kann die GPU mit der Verarbeitung der ausgelagerten Operation beginnen. Die GPU greift auf Daten in der LLC und der Oberfläche zu, um die Operation durchzuführen. Falls die GPU Daten anfordert, die sich nicht im LLC, sondern in einem anderen Zwischenspeicher der CPU befindet, kann der LLC die Daten aus dem anderen Zwischenspeicher für die Verarbeitung durch die GPU abrufen.
Bei Block 406 signalisiert die GPU, dass die Operation abgeschlossen ist. Das Abschlusssignal kann zum Host gesendet werden. In Ausführungsformen synchronisiert, wenn die Operation abgeschlossen ist, der Gerätetreiber die Operation zwischen der GPU und der CPU. Des Weiteren kann, in Ausführungsformen, das Abschlusssignal zum Beispiel ein Mailbox-Eintrag oder ein Interrupt sein. Das Abschlusssignal kann angeben, dass die GPU Rechen- und Grafikoperationen durchgeführt hat, die zu einer Modifizierung der Daten in der Oberfläche geführt haben. Nach Abschluss kann die Ausgabe der GPU durch die CPU verarbeitet werden. In verschiedenen Ausführungsformen kann, wenn die GPU die Oberfläche durch Lesen von oder Schreiben zu physischen Orten der Oberfläche verarbeitet, die Verarbeitung in internen Puffern oder Zwischenspeichern der GPU erfolgen. Demgemäß werden die Daten in den internen Puffern oder Zwischenspeichern der GPU mit dem LLC kohärent gemacht, nachdem die GPU-Verarbeitung abgeschlossen ist.
Das Prozessablaufdiagramm von 3 und 4 soll nicht angeben, dass die Blöcke des Verfahrens 300 und 400 in einer bestimmten Reihenfolge ausgeführt werden müssen, oder dass alle der Blöcke in jedem einzelnen Fall inbegriffen sein müssen. Des Weiteren kann je nach Details der spezifischen Implementierung jede beliebige Zahl an zusätzlichen Blöcken in Verfahren 300 und 400 enthalten sein. Außerdem kann, während die hierin beschriebenen Verfahren eine GPU enthalten, der Speicher zwischen einem beliebigen E/A-Gerät wie einer weiteren CPU oder einem Direct Memory Access(DMA)-Controller gemeinsam genutzt werden.
5 ist ein Blockdiagramm, das ein konkretes, nicht flüchtiges, computerlesbares Medium 500 zeigt, auf dem Code für die gemeinsame Nutzung von Speicher zwischen der CPU und der GPU eines Computergeräts gemäß Ausführungsformen gespeichert ist, Auf das konkrete, nicht flüchtige, computerlesbare Medium 500 kann ein Prozessor 502 über einen Computerbus 504 zugreifen. Des Weiteren kann das konkrete, nicht flüchtige, computerlesbare Medium 500 Code enthalten, der so konfiguriert ist, dass er Prozessor 502 anweist, die hierin beschriebenen Methoden auszuführen.
Die verschiedenen, hierin besprochenen Softwarekomponenten können auf dem konkreten, nicht flüchtigen, computerlesbaren Medium 500 gespeichert sein, wie in 5 angegeben. Zum Beispiel kann ein Oberflächenzuweisungsmodul 506 konfiguriert sein, um eine Oberfläche einschließlich einer Reihe physischer Speicherseiten in einem Speicher des Computergeräts zuzuweisen oder zu erzeugen. Ein Zuordnungsmodul 508 kann konfiguriert sein, um die physischen Orte in der Oberfläche zu virtuellen Speicheradressen in der CPU-Adresstabelle und der GPU-Adresstabelle zuzuordnen. Des Weiteren kann ein Fixierungsmodul 510 konfiguriert sein, um die Oberfläche zu fixieren, sodass eine Änderung der physischen Orte in der Oberfläche verhindert wird.
Das Blockdiagramm von 5 soll nicht angeben, dass konkrete, nicht flüchtige, computerlesbare Medium 500 alle in 5 darstellten Komponenten enthalten muss. Des Weiteren kann das konkrete, nicht flüchtige, computerlesbare Medium 500 je nach Einzelheiten der konkreten Implementierung eine beliebige Anzahl von zusätzlichen nicht in 5 dargestellten Komponenten enthalten.
In Ausführungsformen muss die CPU keine Daten zwischen dem CPU-Adressraum und dem GPU-Adressraum ordnen. Des Weiteren hat die CPU nicht die Aufgabe, sicherzustellen, dass keine anderen Verarbeitungskerne am bestimmten Satz von Daten arbeiten, von denen die CPU möchte, dass sie von der GPU behandelt werden, was Verarbeitungsrennen zwischen Verarbeitungskernen verhindert.
6 ist ein Blockdiagramm für ein beispielhaftes System 600 für die Implementierung eines gemeinsamen physischen Speichers. Gleiche Nummern sind mit Bezug auf 1, 2A und 2B beschrieben. In einigen Ausführungsformen ist System 600 ein Mediensystem. Außerdem kann System 600 in einem Personal Computer (PC), einem Laptop-Computer, einem Ultra-Laptop-Computer, einem Tablet, einem Touchpad, einem tragbaren Computer, einem Handheld-Computer, einem Palmtop-Computer, einem Minicomputer (Personal Digital Assistant, PDA), einem Mobiltelefon, einer Kombination aus Mobiltelefon und PDA, einem Fernsehgerät, einem intelligenten Gerät (z. B. Smartphone, Smart-Tablet oder Smart-Fernsehgerät), einem mobilen Internetgerät (Mobile Internet Device, MID), einem Nachrichtengerät, einem Datenkommunikationsgerät oder ähnlichen enthalten sein.
In verschiedenen Ausführungsformen umfasst System 600 eine Plattform 602, die mit einem Display 604 gekoppelt ist. Plattform 602 kann Inhalte von einer Inhaltsbereitstellungsvorrichtung, zum Beispiel Bereitstellungsvorrichtung(en) für Dienste 606 oder Bereitstellungsvorrichtung(en) 608 oder ähnlichen Inhaltsquellen empfangen. Ein Navigationscontroller 610 einschließlich ein oder mehrere Navigationsfunktionen können verwendet werden, um, zum Beispiel, mit der Plattform 602 und/oder dem Display 604 zu interagieren. Jede dieser Komponenten wird im Folgenden ausführlicher beschrieben.
Die Plattform 602 kann jede Kombination aus einem Chipsatz 612, einer Zentraleinheit (central processing unit, CPU) 102, einem Arbeitsspeichergerät 108, einem Datenspeichergerät 120, Einem Grafik-Subsystem 614, Anwendungen 124 und einem Funkgerät 616 beinhalten. Chipsatz 612 kann Interkommunikation zwischen der CPU 102, dem Arbeitsspeichergerät 108, dem Datenspeichergerät 120, dem Grafik-Subsystem 614, den Anwendungen 124 und dem Funkgerät 614 bereitstellen. Beispielsweise kann Chipsatz 612 einen Speicheradapter (nicht dargestellt) beinhalten, der imstande ist, Interkommunikation mit Speichergerät 120 bereitzustellen.
CPU 102 kann als CISC-(Complex Instruction Set Computer)- oder RISC-(Reduced Instruction Set Computer)-Prozessoren, mit dem x86-Befehlssatz kompatible Prozessoren, Mehrkern-, oder jeder andere Mikroprozessor oder Zentraleinheit (CPU) implementiert sein. In einigen Ausführungsformen weist CPU 102 Zweikern-Prozessor(en), Zweikern-Mobile-Prozessor(en) oder dergleichen auf.
Speichergerät 108 kann als ein flüchtiges Speichergerät implementiert sein, wie z. B., aber nicht beschränkt auf, einen Direktzugriffsspeicher (Random Access Memory, RAM), dynamischen Direktzugriffsspeicher (Dynamic Random Access Memory, DRAM) oder statischen RAM (Static RAM, SRAM). Speichergerät 120 kann als ein Permanentspeichergerät implementiert sein, u. a. ein magnetisches Diskettenlaufwerk, optisches Diskettenlaufwerk, Bandlaufwerk, ein internes Speichergerät, ein angeschlossenes Speichergerät, Flash-Memory, batteriegepufferter SDRAM (synchroner DRAM, synchronous DRAM), und/oder ein Speichergerät, auf das über ein Netzwerk zugegriffen werden kann. Bei einigen Ausführungsformen beinhaltet Speichergerät 120 Technologie, die den speicherleistungsverbesserten Schutz für wertvolle digitale Medien erhöht, wenn zum Beispiel mehrere Festplatten beinhaltet sind.
Grafik-Subsystem 614 kann eine Verarbeitung von Bildern, wie z. B. Standbildern oder Videos, zur Anzeige durchführen. Grafik-Subsystem 614 kann zum Beispiel einen Grafikprozessor (graphics processing unit, GPU), zum Beispiel GPU 104 oder eine visuelle Verarbeitungseinheit (visual processing unit, VPU) sein. Eine analoge oder digitale Schnittstelle kann verwendet werden, um Grafik-Subsystem 614 und Display 604 kommunikativ zu koppeln. Beispielsweise kann die Schnittstelle irgendeine High-Definition Multimediaschnittstelle, ein DisplayPort, eine drahtlose HDMI und/oder drahtlose HD-konforme Technik sein. Grafik-Subsystem 614 könnte in CPU 102 oder Chipsatz 612 integriert sein. Alternativ kann Grafik-Subsystem 614 eine eigenständige Karte sein, die kommunikativ mit Chipsatz 612 gekoppelt ist.
Die hierin beschriebenen Grafik- und/oder Videoverarbeitungs-Techniken können in verschiedenen Hardware-Architekturen implementiert werden. Beispielsweise kann Grafik- und/oder Videofunktionalität innerhalb eines Chipsatzes 612 integriert sein. Alternativ kann ein separater Grafik- und/oder Videoprozessor verwendet werden. Als noch eine weitere Ausführungsform können die Grafik- und/oder Videofunktionen durch einen Universalprozessor, einschließlich ein Mehrkernprozessor, implementiert werden. Bei einer weiteren Ausführungsform können die Funktionen in einem Unterhaltungselektronikgerät implementiert sein.
Funkgerät 616 kann ein oder mehrere Funkgeräte enthalten, die Signale mithilfe verschiedener geeigneter drahtloser Kommunikationstechniken senden und empfangen können. Solche Techniken können die Kommunikation über ein oder mehrere drahtlose Netzwerke umfassen. Beispielhafte drahtlose Netzwerke sind Wireless Local Area Networks (WLANs), Wireless Personal Area Networks (WPANs), Wireless Metropolitan Area Network (WMANs), Handynetze, Satellitennetze oder ähnliches. Bei der Kommunikation über solche Netzwerke kann Funkgerät 616 gemäß einem oder mehreren anwendbaren Standards in irgendeiner Version betrieben werden.
Display 604 kann jeden fernseherähnlichen Monitor oder Bildschirm umfassen. Zum Beispiel kann Display 604 einen Computeranzeigebildschirm, einen Touchscreen-Bildschirm, einen Videomonitor, ein Fernsehgerät oder ähnliches umfassen. Display 604 kann digital und/oder analog sein. In einigen Ausführungsformen ist Display 604 ein holografisches Display. Außerdem kann Display 604 eine transparente Fläche sein, die eine visuelle Projektion empfangen kann. Solche Projektionen können verschiedene Formen von Informationen, Bildern, Objekten oder ähnlichem übermitteln. Solche Projektionen können zum Beispiel eine visuelle Überlagerung für eine Mobile Augmented Reality(MAR)-Anwendung sein. Unter der Kontrolle von ein oder mehreren Anwendungen 124, kann Plattform 602 eine Benutzeroberfläche 618 auf dem Display 604 anzeigen.
Die Bereitstellungsvorrichtung(en) für Dienste 606 können von jedem beliebigen nationalen, internationalen oder unabhängigen Dienst bereitgestellt werden und können somit auf Plattform 602 zum Beispiel über das Internet zugänglich sein. Die Bereitstellungsvorrichtung(en) für Dienste 606 können mit Plattform 602 und/oder Display 604 gekoppelt sein. Plattform 602 und/oder die Bereitstellungsvorrichtung(en) für Dienste 606 können mit einem Netzwerk 142 gekoppelt sein, um Medieninformationen zu und vom Netzwerk 142 zu kommunizieren (z. B. zu senden und/oder zu empfangen). Die Bereitstellungsvorrichtung(en) 608 können außerdem mit Plattform 602 und/oder Display 604 gekoppelt sein.
Die Bereitstellungsvorrichtung(en) für Dienste 606 können eine Kabelfernsehbox, einen Personal Computer, ein Netzwerk, ein Telefon oder ein internetfähiges Gerät umfassen, das digitale Informationen liefern kann. Außerdem können die Bereitstellungsvorrichtung(en) für Dienste 606 jedes andere ähnliche Gerät umfassen, das Inhalte zwischen Inhaltsanbietern und Plattform 602 oder Display 604, über Netzwerk 142 oder direkt, in eine Richtung oder in zwei Richtungen kommunizieren kann. Es ist selbstverständlich, dass die Inhalte in eine Richtung und/oder in zwei Richtungen zu oder von jeder der Komponenten in System 600 und einem Inhaltsanbieter über Netzwerk 142 kommuniziert werden können. Beispiele von Inhalten können beliebige Medieninformationen sein, zum Beispiel Videos, Musik, medizinische und Spielinformationen usw.
Die Bereitstellungsvorrichtung(en) für Dienste 606 können Inhalte wie Kabelfernsehprogramme einschließlich Medieninformationen, digitaler Informationen oder anderer Inhalte empfangen. Beispiele für Inhaltsanbieter können u. a. beliebige Kabel- oder Satellitenfernseh- oder Radio- oder Internet-Inhaltsanbieter sein.
In einigen Ausführungsformen empfängt 602 Steuersignale von Navigationscontroller 610, der ein oder mehrere Navigationsfunktionen umfasst. Die Navigationsfunktionen von Navigationscontroller 610 können zum Beispiel verwendet werden, um mit Benutzeroberfläche 618 zu interagieren. Navigationscontroller 610 kann ein Zeigegerät sein, das eine Computerhardwarekomponente (insbesondere ein Human-Interface-Gerät) sein, die es einem Benutzer ermöglicht, räumliche (z. B. kontinuierliche und mehrdimensionale) Daten in einen Computer einzugeben. Viele Systeme wie grafische Benutzeroberflächen (graphical user interfaces, GUI) und Fernsehgeräte und Monitore ermöglichen es dem Benutzer, Daten mithilfe von Körpergesten zu steuern und dem Computer oder Fernsehgerät bereitzustellen. Körpergesten können u. a. Gesichtsausdrücke, Gesichtsbewegungen, Bewegungen verschiedener Gliedmaßen, Körperbewegungen, Körpersprache oder eine beliebige Kombination davon umfassen. Solche Körpergesten können erkannt und in Befehle oder Anweisungen übersetzt werden.
Bewegungen der Navigationsfunktionen von Navigationscontroller 610 können auf dem Display 604 durch Bewegungen eines Zeigers, eines Cursors, eines Fokusrings oder anderer visueller Anzeiger ein Echo finden, die auf dem Display 604 angezeigt werden. Zum Beispiel können unter der Kontrolle der Anwendungen 124 die Navigationsfunktionen in Navigationscontroller 610 zu virtuellen Navigationsfunktionen zugeordnet werden, die auf der Benutzeroberfläche 618 angezeigt werden. In einigen Ausführungsformen kann Navigationscontroller 610 keine getrennte Komponenten sein, sondern stattdessen in Plattform 602 und/oder Display 604 integriert sein.
System 600 kann Treiber (nicht dargestellt) beinhalten, die Technologie enthalten, die es Benutzern zum Beispiel ermöglicht, Plattform 602 durch Berühren einer Schaltfläche nach dem anfänglichen Systemstart, wenn aktiviert, sofort ein- oder auszuschalten. Programmlogik kann es Plattform 602 ermöglichen, Inhalte zu Medienadaptern oder anderen Bereitstellungsvorrichtung(en) für Dienste 606 oder Bereitstellungsvorrichtung(en) 608 zu streamen, wenn die Plattform ausgeschaltet ist. Zusätzlich kann Chipsatz 612 Hardware- und/oder Softwareunterstützung für beispielsweise 5.1 Surround-Sound-Audio und/oder High-Definition 7.1 Surround-Sound-Audio umfassen. Die Treiber können einen Grafiktreiber für integrierte Grafikplattformen beinhalten. In einigen Ausführungsformen kann der Grafiktreiber eine Peripheral Component Interconnect Express(PCIe)-Grafikkarte umfassen.
In verschiedenen Ausführungsformen können ein oder mehrere der Komponenten integriert sein, die in System 600 dargestellt sind. Plattform 602 und die Bereitstellungsvorrichtung(en) für Dienste 606 können integriert sein, Plattform 602 und die Bereitstellungsvorrichtung(en) 608 können integriert sein oder Plattform 602, die Bereitstellungsvorrichtung(en) für Dienste 606 und die Bereitstellungsvorrichtung(en) 608 können integriert sein. In einigen Ausführungsformen sind Plattform 602 und Display 604 eine integrierte Einheit. Zum Beispiel können Display 604 und Bereitstellungsvorrichtung(en) für Dienste 606 können integriert sein oder Display 604 und Bereitstellungsvorrichtung(en) 608 können integriert sein.
System 600 kann als drahtloses System oder als drahtgebundenes System implementiert sein. Wenn es als ein drahtloses System implementiert ist, kann System 600 Komponenten und Schnittstellen beinhalten, die für eine Kommunikation über ein drahtloses gemeinsam benutztes Medium geeignet sind, wie z. B. eine oder mehr Antennen, Transmitter, Empfänger, Transceiver, Verstärker, Filter, Steuerlogik und so weiter. Ein Beispiel drahtloser gemeinsam benutzter Medien kann Teile eines Drahtlos-Spektrums, wie z. B. das RF-Spektrum, beinhalten. Wenn es als ein drahtgebundenes System implementiert ist, kann System 600 Komponenten und Schnittstellen beinhalten, die für eine Kommunikation über drahtgebundene Kommunikationsmedien geeignet sind, wie z. B. Eingangs-/Ausgangs-(I/O-input/output)-Adapter, physische Verbinder, um den I/O-Adapter mit einem entsprechenden drahtgebundenen Kommunikationsmedium zu verbinden, eine Netzwerkkarte (network interface card, NIC), Platten-Controller, Video-Controller, Audio-Controller oder ähnliches. Beispiele von drahtgebundenen Kommunikationsmedien können einen Draht, Kabel, Metallleiter, Leiterplatte (printed circuit board, PCB), Backplane, Vermittlungsstelle, Halbleitermaterial, verdrillte Drähte, Koaxialkabel, faseroptische Verbindung oder ähnliches beinhalten.
Plattform 602 kann einen oder mehr logische oder physikalische Kanäle festlegen, um Information zu kommunizieren. Die Information kann Medieninformation und Steuerinformation beinhalten. Medieninformation kann sich auf jegliche Daten beziehen, die einen für einen Benutzer bestimmten Inhalt darstellen. Beispiele von Inhalt können beispielsweise Daten aus einer Gesprächsunterhaltung, Videokonferenz, Streaming-Video, elektronischer Post („E-Mail”) Nachricht, Mailbox-Nachricht, alphanumerische Symbole, Grafiken, ein Bild, Video, Text oder ähnliches beinhalten. Daten aus einer Gesprächsunterhaltung können beispielsweise Sprachinformation, Phasen des Schweigens, Hintergrundgeräusch, Hintergrundrauschen, Töne oder ähnliches sein. Steuerinformation kann sich auf jegliche Daten beziehen, die Befehle oder Steuerwörter darstellen, die für ein automatisiertes System bestimmt sind. Beispielsweise kann Steuerinformation verwendet werden, um Medieninformation durch ein System weiterzuleiten, oder einen Knoten anzuweisen, die Medieninformation auf eine vorher festgelegte Art und Weise zu verarbeiten. Die Ausführungsformen sind jedoch nicht auf die in dem Kontext gezeigten oder in 6 beschriebenen Elemente beschränkt.
7 ist eine schematische Darstellung eines Geräts mit kleinem Formfaktor 700, in dem das System 600 von 6 verkörpert sein kann. Gleiche Nummern sind mit Bezug auf 6 beschrieben. In einigen Ausführungsformen kann zum Beispiel Gerät 700 als ein mobiles Computergerät mit Drahtlos-Fähigkeiten implementiert sein. Ein mobiles EDV-Gerät kann sich auf jedes Gerät mit einem Verarbeitungssystem und einer mobilen Stromquelle oder -versorgung beziehen, wie beispielsweise eine oder mehr Batterien.
Wie oben beschrieben, können Beispiele eines mobilen Computergeräts einen Personal Computer (PC), einen Laptop-Computer, einen Ultra-Laptop-Computer, ein Tablet, ein Touchpad, einen tragbaren Computer, einen Handheld-Computer, einen Palmtop-Computer, einen Minicomputer (Personal Digital Assistant, PDA), ein Mobiltelefon, eine Kombination aus Mobiltelefon und PDA, ein Fernsehgerät, ein intelligentes Gerät (z. B. Smartphone, Smart-Tablet oder Smart-Fernsehgerät), ein mobiles Internetgerät (Mobile Internet Device, MID), ein Nachrichtengerät, ein Datenkommunikationsgerät und ähnliches beinhalten.
Ein Beispiel eines mobilen Computergeräts kann außerdem einen Computer beinhalten, der so angeordnet sind, dass er von einer Person getragen werden können, zum Beispiel ein Handgelenk-Computer, eine Finger-Computer, ein Ring-Computer, ein Brillen-Computer, ein Gürtelclip-Computer, ein Armband-Computer, ein Schuh-Computer, ein Kleidungs-Computer und jede andere geeignete Art tragbarer Computer. Das mobile Computergerät kann zum Beispiel als ein Smartphone implementiert sein, das in der Lage ist, Computeranwendungen sowie Sprachkommunikation und/oder Datenkommunikation auszuführen. Obwohl einige Ausführungsformen beispielhaft mit einem mobilen Computergerät als ein Smartphone implementiert beschrieben sein können, kann es selbstverständlich sein, dass auch weitere Ausführungsformen unter Verwendung anderer drahtloser mobiler Computergeräte implementiert werden können.
Wie in 7 gezeigt, kann Gerät 700 ein Gehäuse 702, ein Display 704, ein Eingangs-/Ausgangs-(I/O-input/output)-Gerät 706 und eine Antenne 708 umfassen. Gerät 700 kann außerdem Navigationsfunktionen 710 beinhalten. Display 704 kann jede geeignete Anzeigeeinheit beinhalten, um für ein mobiles Computergerät geeignete Information anzuzeigen. E/A-Gerät 706 kann jedes geeignete E/A-Gerät zum Eingeben von Information in ein mobiles Computergerät umfassen. E/A-Gerät 706 kann zum Beispiel eine alphanumerische Tastatur, einen Nummernblock, ein Touchpad, Eingabetasten, Knöpfe, Schalter, Kippschalter, Mikrofone, Lautsprecher Spracherkennungsgerät und -software oder ähnliches umfassen. Informationen können in Gerät 700 außerdem mittels eines Mikrofons eingegeben werden. Solche Informationen können von einem Spracherkennungsgerät digitalisiert werden.
BEISPIEL 1
Ein Verfahren für die gemeinsame Nutzung von Speicher zwischen einer Zentraleinheit (central processing unit, CPU) und einem Eingabe/Ausgabe-(E/A-)Gerät wird hierin beschrieben. Das Verfahren umfasst die Zuweisung einer Oberfläche in einem physischen Speicher. Das Verfahren umfasst die Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle. Das Verfahren umfasst außerdem die Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Grafikspeicheradressen in einer E/A-Geräteseitentabelle auf Basis der Oberfläche. Das Verfahren umfasst des Weiteren die Fixierung der Oberfläche.
Speicher kann zwischen der CPU und dem E/A-Gerät über die Oberfläche gemeinsam genutzt werden, ohne Daten von einem CPU-Speicher zu einem E/A-Gerätespeicher zu kopieren. Die Oberfläche kann als Reaktion auf eine Eingabe von einer Anwendung zugewiesen werden, die auf der CPU des Computergeräts läuft. Außerdem kann das Verfahren durch einen Treiber des Computergeräts ausgeführt werden.
Daten aus dem Zwischenspeicher der CPU und des E/A-Gerät können mit dem Last-Level-Cache (LLC) kohärent sein, der zwischen der CPU und dem E/A-Gerät gemeinsam genutzt wird. Eine Operation kann von der CPU zum E/A-Gerät ausgelagert werden und die Operation kann im E/A-Gerät durchgeführt werden. Ein Abschlusssignal kann zur CPU gesendet werden, wobei das Abschlusssignal einen Hinweis enthält, dass das E/A-Gerät Berechnungen durchgeführt hat, die zu einer Modifizierung der Daten in der Oberfläche geführt haben. Außerdem kann ein Gerätetreiber die Verarbeitung von Daten zwischen der CPU und dem E/A-Gerät synchronisieren.
BEISPIEL 2
Hierin ist ein Computergerät beschrieben. Das Computergerät beinhaltet eine Zentraleinheit (central processing unit, CPU), die so konfiguriert ist, dass sie gespeicherte Befehle ausführt, und ein Speichergerät, das Befehle speichert. Das Speichergerät enthält vom Prozessor ausführbaren Code, der so konfiguriert ist, dass er, bei Ausführung durch die CPU eine Oberfläche in einem physischen Speicher zuweist. Das Computergerät beinhaltet außerdem einen Grafikprozessor (graphics processing unit, GPU) und eine GPU-Seitentabelle. Die Oberfläche kann einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle zugeordnet werden. Die Oberfläche kann außerdem einer Vielzahl von virtuellen Speicheradressen in der GPU-Seitentabelle zugeordnet werden. Das Computergerät kann die Oberfläche fixieren.
Der physische Speicher kann zwischen der CPU und der GPU gemeinsam genutzt werden, ohne Daten von einem CPU-Speicher zu einem GPU-Speicher zu kopieren. Des Weiteren befinden sich die CPU und GPU auf demselben Chip im Computergerät. Die CPU und die GPU können einen Last-Level-Cache (LLC) gemeinsam nutzen, wobei der LLC Daten von einem beliebigen Zwischenspeicher der CPU oder GPU abrufen kann. Die CPU und die GPU können eine vereinheitliche Speicherarchitektur (unified memory architecture, UMA) umfassen.
Der vom Prozessor ausführbare Code kann so konfiguriert sein, dass er die Oberfläche als Reaktion auf eine Eingabe von einer Anwendung zuweist, die auf der CPU des Computergeräts läuft. Die virtuellen Speicheradressen in der CPU-Seitentabelle und der GPU-Seitentabelle können physischen Orten in der Oberfläche zugeordnet werden, indem die virtuellen Adressen in physische Adressen übersetzt werden. Ein Treiber kann konfiguriert werden, um die Ausführung des vom Prozessor ausführbaren Codes zu initiieren. Außerdem kann das Computergerät ein Funkgerät und ein Display umfassen, das Funkgerät und das Display können kommunikativ mit mindestens einer Zentraleinheit gekoppelt sein.
BEISPIEL 3
Mindestens ein nicht flüchtiges, maschinenlesbares Medium mit darin gespeicherten Befehlen wird hierin beschrieben. Als Reaktion auf die Ausführung auf einem Computergerät, veranlassen die Befehle das Computergerät, eine Oberfläche in einem physischen Speicher zu erzeugen. Die Befehle veranlassen das Computergerät außerdem, die Oberfläche zu einer Reihe von virtuellen CPU-Speicheradressen zuzuordnen und die Oberfläche zu einer Reihe von virtuellen GPU-Speicheradressen zuzuordnen. Die Oberfläche kann außerdem fixiert werden.
Der physische Speicher kann zwischen der CPU und der GPU gemeinsam genutzt werden, ohne Daten von einem CPU-Speicher zu einem GPU-Speicher zu kopieren. Des Weiteren können die Befehle dafür sorgen, dass die Daten aus dem Zwischenspeicher der CPU und der GPU mit dem Last-Level-Cache (LLC) kohärent sind. Außerdem können die Befehle das Computergerät außerdem veranlasse, die Oberfläche als Reaktion auf eine Eingabe von einer Anwendung zuzuweisen, die auf einer CPU des Computergeräts läuft.
Es versteht sich, dass genaue Angaben in den vorstehend erwähnten Beispielen an beliebigen Stellen in einer oder mehreren Ausführungsformen verwendet werden können. Es können beispielsweise alle vorstehend beschriebenen fakultativen Merkmale des Computergeräts auch in Bezug auf jedes der hier beschriebenen Verfahren oder auf das computerlesbare Medium implementiert sein. Des Weiteren sind, obwohl Ablaufdiagramme und/oder Zustandsdiagramme in dieser Schrift verwendet worden sein können, um Ausführungsformen zu beschreiben, die Erfindungen nicht auf diese Diagramme oder auf entsprechende Beschreibungen begrenzt. Zum Beispiel braucht der Ablauf sich nicht durch jeden gezeigten Kasten oder Zustand oder in genau derselben Reihenfolge wie in dieser Schrift gezeigt und beschrieben zu bewegen.
Die Erfindungen sind nicht auf die bestimmten in dieser Schrift aufgelisteten Einzelheiten beschränkt. Für fachkundige Personen, die diese Offenlegung lesen, ist es in der Tat offensichtlich, dass viele weitere Varianten der vorstehenden Beschreibung und Zeichnungen im Rahmen der vorliegenden Erfindungen möglich sind. Nur die nachfolgenden Ansprüche und alle Änderungen dazu stellen eine genaue Definition des Umfangs der Erfindungen dar.

Claims

Verfahren für die gemeinsame Nutzung von Speicher zwischen einer Zentraleinheit (central processing unit, CPU) und einem Eingabe/Ausgabe-(E/A-)Gerät, umfassend: Zuweisung einer Oberfläche in einem physischen Speicher, Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle und Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Grafikspeicheradressen in einer E/A-Geräteseitentabelle.
Verfahren nach Anspruch 1, wobei die Zuordnung der Oberfläche zu einer Vielzahl von virtuellen Grafikspeicheradressen in einer E/A-Geräteseitentabelle die Fixierung der Oberfläche umfasst.
Verfahren nach Anspruch 1, umfassend die gemeinsame Nutzung von physischem Speicher zwischen der CPU und dem E/A-Gerät über die Oberfläche, ohne Daten von einem CPU-Speicher zu einem E/A-Gerätespeicher zu kopieren.
Verfahren nach Anspruch 1, umfassen die Zuweisung die Oberfläche als Reaktion auf eine Eingabe von einer Anwendung, die auf der CPU des Computergeräts läuft.
Verfahren nach Anspruch 1, wobei das Verfahren von einem Treiber des Computergeräts ausgeführt wird.
Verfahren nach Anspruch 1, umfassend die Sicherstellung, dass Daten aus dem Zwischenspeicher der CPU und eines Zwischenspeichers des E/A-Geräts mit dem Last-Level-Cache (LLC) kohärent sind, der zwischen der CPU und dem E/A-Gerät gemeinsam genutzt wird.
Verfahren nach Anspruch 1, umfassend: Auslagerung einer Operation von der CPU zum E/A-Gerät, Durchführung der Operation im E/A-Gerät und Senden eines Abschlusssignals zur CPU, wobei das Abschlusssignal einen Hinweis enthält, dass das E/A-Gerät Berechnungen durchgeführt hat, die zu einer Modifizierung der Daten in der Oberfläche geführt haben.
Verfahren nach Anspruch 1, wobei ein Gerätetreiber die Verarbeitung von Daten zwischen der CPU und dem E/A-Gerät synchronisiert.
Verfahren nach Anspruch 1, umfassend die Übersetzung beliebiger aus der Vielzahl virtueller Grafikspeicheradressen oder beliebiger der Vielzahl virtueller Speicheradressen oder beider, um entsprechenden physische Orte in der Oberfläche zu bestimmen.
Computergerät, umfassend: Zentraleinheit (central processing unit, CPU), die konfiguriert ist, um gespeicherte Befehle auszuführen, Grafikprozessor (graphics processing unit, GPU) und GPU-Seitentabelle, Speichergerät, das Befehle speichert, wobei das Speichergerät einen vom Prozessor ausführbaren Code umfasst, der, wenn er durch den Prozessor ausgeführt wird, so konfiguriert ist, dass er: eine Oberfläche in einem physischen Speicher zuweist und die Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle zuordnet, und die Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in der GPU-Seitentabelle zuordnet.
Computergerät nach Anspruch 10, wobei der vom Prozessor ausführbare Code so konfiguriert ist, dass er die Oberfläche fixiert.
Computergerät nach Anspruch 10, wobei der vom Prozessor ausführbare Code so konfiguriert ist, dass der physische Speicher zwischen der CPU und der GPU gemeinsam genutzt wird, ohne dass der vom Prozessor ausführbare Code so konfiguriert ist, dass Daten von einem CPU-Speicher zu einen GPU-Speicher kopiert werden.
Computergerät nach Anspruch 10, wobei die CPU und GPU sich auf demselben Chip im Computergerät befinden.
Computergerät nach Anspruch 10, wobei die CPU und die GPU einen Last-Level-Cache (LLC) gemeinsam nutzen und wobei der LLC Daten von einem beliebigen Speicher der CPU oder GPU abruft.
Computergerät nach Anspruch 10, wobei die CPU und GPU eine vereinheitlichtes Speicherarchitektur (unified memory architecture, UMA) enthalten.
Computergerät nach Anspruch 10, wobei der vom Prozessor ausführbare Code so konfiguriert ist, dass er: die Vielzahl von virtuellen Speicheradressen in der CPU-Seitentabelle physischen Adressen zuweist, die Vielzahl von virtuellen Speicheradressen in der GPU-Seitentabelle physischen Adressen zuweist, und die virtuellen Speicheradressen in der CPU-Seitentabelle und der GPU-Seitentabelle physischen Orten in der Oberfläche zuweist.
Computergerät nach Anspruch 10, umfassend einen Treiber, der so konfiguriert ist, dass er die Ausführung des vom Prozessor ausführbaren Codes initiiert.
Computergerät nach Anspruch 10, des Weiteren umfassend ein Funkgerät und ein Display, wobei das Funkgerät und das Display zumindest mit der Zentraleinheit kommunikativ gekoppelt sind.
Mindestens ein maschinenlesbares Medium mit Befehlen, die darauf gespeichert sind und die, als Reaktion auf die Ausführung auf einem Computergerät, das Computergerät veranlassen: eine Oberfläche in einem physischen Speicher zuzuweisen, die Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer CPU-Seitentabelle zuordnet, und die Oberfläche zu einer Vielzahl von virtuellen Speicheradressen in einer GPU-Seitentabelle auf Basis der Oberfläche zuzuordnen.
Das mindestens eine maschinenlesbare Medium nach Anspruch 19, wobei der physische Speicher zwischen der CPU und der GPU gemeinsam genutzt wird, ohne Daten von einem CPU-Speicher zu einem GPU-Speicher zu kopieren.