DE102010034555A1

DE102010034555A1 - Bereitstellen von Zustandsspeicher in einem Prozessor für Systemmanagement-Modus

Info

Publication number: DE102010034555A1
Application number: DE102010034555A
Authority: DE
Inventors: Mahesh S. Portland Natu; Baskaran Ganesan; Thanunathan Rangarajan; Mohan J. Aloha Kumar; Gautam B. Doshi; Rajesh S. Hillsboro Parthasarathy; Shammanna M. Hillsboro Datta; Frank Portland Binns; Rajesh Nagaraja Murthy; Robert C. Olympia Swanson
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2009-08-31
Filing date: 2010-08-17
Publication date: 2011-03-03
Also published as: US8578138B2; JP5430756B2; BRPI1010234A2; US20180143923A1; KR101635778B1; JP5801372B2; KR101572079B1; US20140040543A1; JP2014075147A; WO2011025626A9; KR20120061938A; WO2011025626A3; KR20130081301A; CN102004668A; US10169268B2; KR20130081302A; GB201122094D0; US20170010991A1; US9465647B2; KR101392109B1

Abstract

Bei einer Ausführungsform beinhaltet die vorliegende Erfindung einen Prozessor, der einen On-Die-Speicher aufweist, wie z. B. ein statischer Direktzugriffspeicher, um einen Architektur-Zustand eines oder mehr Threads zu speichern, die bei Eintritt in einen Systemmanagement-Modus (system management mode, SMM) aus dem Architektur-Zustandsspeicher ausgelagert werden. Auf diese Weise kann Kommunikation dieser Zustands-Information an einen Systemmanagement-Speicher vermieden werden, wodurch Latenz verringert wird, die mit Eintritt in SMM verbunden ist. Ausführungsformen können ebenfalls den Prozessor in die Lage versetzen, einen Zustand von ausführenden Agenten zu aktualisieren, die entweder in einem langen Befehlsablauf sind oder in einem Systemmanagement-Unterbrechungs-(system management interrupt, SMI)-Blockiert-Zustand, um eine Anzeige an die Agenten innerhalb des SMM bereitzustellen. Weitere Ausführungsformen sind beschrieben und werden beansprucht.

Description

Hintergrund
Die meisten Prozessoren eines Computersystems unterstützen einen speziellen Betriebsmodus, genannt Systemmanagement-Modus (system management mode, SMM). SMM stellt eine eigene Betriebsumgebung bereit, die der Betriebssystem-(operating system, OS)-Software gegenüber transparent ist. Dieser Modus wird oft von Originalgeräteherstellern (original equipment manufacturers, OEMs) genutzt, um spezielle Tasks, u. a. Systemmanagement, Geräte-, Energie- und Wärmemanagement durchzuführen. Serverbezogene Zuverlässigkeits-, Verfügbarkeits- und Wartungsfreundlichkeits-(reliability, availability and serviceability, RAS)-Funktionen werden normalerweise mittels SMM implementiert. In SMM wird typischerweise eingetreten, indem an den Prozessor eine Systemmanagement-Unterbrechungs-(system management interrupt, SMI)-Nachricht gesendet wird. Bei Bestätigung der SMI sichert der Prozessor den derzeitigen Prozessorkontext, auch Prozessor-Speicherzustand genannt, in einem Teil des Systemspeichers, der dem SMM spezifisch zugeteilt ist, genannt Systemmanagement-Direktzugriffspeicher (system management random access memory, SMRAM), und führt den SMI-Verarbeitungscode aus, der in SMRAM enthalten ist. Wenn der SMI-Verarbeiter seine Operationen ausgeführt hat, führt er einen speziellen (nur in SMM gültig) Wiederaufnahme-Befehl aus, der den Prozessor veranlasst, den gesicherten Prozessorkontext aus dem SMRAM erneut zu laden und das Ausführen der unterbrochenen Task wieder aufzunehmen.
In einem Mehrprozessor-System wird im Allgemeinen eine SMI-Nachricht an alle Prozessoren gesendet. Der SMI-Verarbeiter wählt einen Prozessor, genannt SMM-Monarch, aus, um das Ereignis zu verarbeiten. Dieser Prozessor wartet, bis sich alle anderen Prozessoren innerhalb SMM zusammengefunden haben, bevor er das SMI-Ereignis verarbeitet. Nicht-Monarch-Prozessoren verweilen in SMM, bis der Monarch die Ereignisverarbeitung ausgeführt hat. Wenn das SMM-Ereignis verarbeitet wurde, signalisiert der Monarch den anderen Prozessoren, aus SMM auszutreten. Dieses synchronisierte Eintritts- und Austrittsverhalten wird implementiert, um jegliche Ressourcen-Konflikte zwischen den beiden Parallelumgebungen (OS und SMM) zu vermeiden. Das heißt, wenn einige Prozessoren in der OS-Umgebung aktiv sind und der Rest gleichzeitig in der SMM-Umgebung aktiv ist, ist es möglich, dass sie eine gemeinsam benutzte Ressource modifizieren und dadurch die Operationen des anderen stören, wodurch das System abstürzt. Zusätzlich können bestimmte SMM-Ereignisse nur von einem spezifischen Logik-Prozessor oder einem Satz an Logik-Prozessoren verarbeitet werden. Eine Übertragung stellt sicher, dass diese Bedingung immer erfüllt ist, da alle Logik-Prozessoren in SMI eintreten.
Daher ist SMI-Verarbeitung in einem Mehrprozessor-System komplex und kann alle Systemressourcen verbrauchen, wodurch das Verarbeiten anderer nützlicher Arbeiten verhindert wird, da ein Prozessor, solange er in SMM ist, dem Betriebssystem nicht zur Verfügung steht.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines Prozessors gemäß einer erfindungsgemäßen Ausführungsform.
2 ist ein Blockdiagramm eines Mehrprozessor-Systems gemäß einer erfindungsgemäßen Ausführungsform.
3 ist ein Ablaufdiagramm eines Verfahrens gemäß einer erfindungsgemäßen Ausführungsform.
4 ist ein Ablaufdiagramm eines Verfahrens gemäß einer erfindungsgemäßen Ausführungsform.
Ausführliche Beschreibung
Bei verschiedenen Ausführungsformen kann On-Die-Speicher als Alternative zum Gebrauch von externem physikalischem Speicher verwendet werden, um den Speicherzustand von einzelnen Threads bei SMM-Eintritt/Austritt zu speichern. Im Gegensatz dazu hängen derzeitige Systeme von externem physikalischem Speicher ab, um in SMM ein- und auszutreten. Diese SMM-Abhängigkeit von System-RAM führt zu Skalierung, leistungs- und zuverlässigkeitsbezogenen Einschränkungen bei missionskritischen Anwendungen, und kann vermieden werden, indem eine erfindungsgemäße Ausführungsform verwendet wird. Es ist anzumerken, dass der Begriff „Thread”, wie hierin verwendet, ebenfalls auf einen Hardware-Thread verweisen kann, der Speicher in einem Prozessor für den Architektur-Zustand beinhaltet, der mit einem Prozess verbunden ist (z. B. eine Registerdatei und verbundene Konfigurations- und Zustandsregister). Wie hierin verwendet, wird der Begriff „Hardware-Thread” synonym mit dem Begriff „Logik-Prozessor” verwendet. Jeder Prozessorkern kann mehrere Logik-Prozessoren beinhalten, von denen jeder einen zugehörigen Architektur-Zustandsspeicher aufweist, der aber andere Kernressourcen, wie z. B. Front-End-Einheiten, Ausführungseinheiten und so weiter, gemeinsam benutzt.
Bei unterschiedlichen Implementierungen kann der On-Die-Speicher, der bereitgestellt ist, um den Speicherzustand von jeglichen aktiven Threads während eines SMM zu speichern, ein On-Die statischer RAM (static RAM, SRAM) oder eine Registerdatei in dem Prozessor selbst sein, um als kleiner zugehöriger Speicher zum Speichern des Speicherzustands zu dienen. Einige Prozessoren können einen On-Die-SRAM für spezifische Tasks wie Power Management beinhalten, z. B. einen OS-verwalteten Energiesparzustand, wie z. B. gemäß einem Advanced Configuration and Power Interface(ACPI)-Zustand (z. B. C6-Zustand oder andere Power Management-Operationen). Bei solchen Prozessoren kann ein Teil dieses SRAM, der auf einer Per-Thread-Basis aufgeteilt ist, für den SRAM-Speicherzustand eines jeden Threads reserviert werden. Als Beispiel kann jeder Logik-Prozessor 1 Kilobyte (KB) von SRAM-Speicher für SMM-Speicherzustand verwenden. Wenn ein gegebener Prozessor diese Menge an SRAM nicht für SMM-Speicherzustand abgeben kann, kann eine Ausführungsform implementiert werden, sodass er SRAM einsetzen kann, der für C6-Abläufe reserviert ist. In diesem Fall können C6/C7-Transaktionen innerhalb SMM in einen niedrigeren Energiesparzustand (z. B. C3) zurückversetzt werden, um eine gegenseitig exklusive Verwendung des gemeinsam benutzten SRAM-Raums für SMM-Speicherzustand sicherzustellen. Einige Prozessoren implementieren keinen zugehörigen SRAM für das Sichern von C6-Zuständen und setzen stattdessen einen Teil eines Last Level Cache (LLC) ein, um Prozessorzustand während einer Sicherung von C6-Zustand zu speichern. Bei diesen Prozessoren kann der SMM-Speicherzustand in dem LLC gespeichert werden.
Sobald er gespeichert ist, kann auf diesen internen SMM-Speicherzustand auf verschiedene Art und Weise zugegriffen werden. Beispielsweise kann auf den internen Zustand mittels modellspezifischer Register-(model-specific register, MSR)-Adressierung auf einer Per-Thread-Basis oder eines rückwärtskompatiblen Mechanismus zugegriffen werden. Herkömmlicherweise kann ein Prozessor bei bestimmten Systemspeicheradressen auf einen SMM-Speicherzustand zugreifen. Der rückwärtskompatible Mechanismus beinhaltet Logik in dem Prozessor, die den Zugriff eines Logik-Prozessors auf diese Legacy-Speicheradressen festhält und diese an den entsprechenden SRAM-Ort umleitet. Solch eine Umleitung kann implementiert werden, wenn absolute Rückwärtskompatibilität bei bestehender Basis-Eingabe-/Ausgabe-System-(basic input/output system, BIOS)-Software erforderlich ist. Diese MSRs können nur in SMM-Modus gelesen oder beschrieben werden und folgen Beschränkungen, die mit dem SMM-Speicherzustand verbunden sind. Wenn ein Logik-Prozessor Zugriff auf einen Speicherzustand eines anderen Prozessors benötigt, kann dies über ein Software-Protokoll erreicht werden.
Bei einigen Ausführungsformen kann ein zugehöriges Prozessor-Identifikator-Leaf (z. B. ein CPUID-Leaf) oder ein Bereich davon oder ein featureermöglichendes MSR-(modellspezifisches Register)-Bit verwendet werden, um die Verwendung des internen SRAM zu ermöglichen. Es wird Bezug genommen auf 1, die ein Blockdiagramm eines Prozessors gemäß einer erfindungsgemäßen Ausführungsform zeigt. Wie in 1 gezeigt, kann der Prozessor 100 ein mehrstufiger Out-Of-Order-Prozessor mit Pipeline sein. Prozessor 100 ist in relativ vereinfachter Ansicht gezeigt, um verschiedene Merkmale, die in Verbindung mit den hierin beschriebenen SMM-Techniken verwendet werden, zu veranschaulichen. Wie gezeigt, kann Prozessor 100 ein Mehrkern-Prozessor sein, einschließlich einer Vielzahl von Prozessorkernen 105, und der auf einem einzelnen Halbleiter-Die gebildet sein kann. Während dies mit vier solchen Kernen in der Ausführungsform von 1 gezeigt wird, ist der Umfang der vorliegenden Erfindung jedoch in dieser Hinsicht in keiner Weise einschränken. Wie weiter in 1 gezeigt, können in Prozessor 100 zusätzliche Komponenten vorhanden sein. Beispielsweise kann ein integrierter Memory-Controller (integrated memory controller, IMC) 108 vorhanden sein, zusammen mit einem statischen Direktzugriffspeicher (static random access memory, SRAM) 106. Wie vorstehend erörtert, kann dieser Speicher bei einigen Implementierungen verwendet werden, um Kontextzustand gemäß einer erfindungsgemäßen Ausführungsform zu speichern, der anderenfalls in SMRAM gespeichert werden würde. Noch weiter kann Prozessor 100 einen Last Level Cache (LLC) 109 beinhalten, der ein gemeinsam benutzter Cache sein kann, der von allen Prozessorkernen gemeinsam benutzt wird.
Wie in 1 gezeigt, umfasst Prozessor 100 Front-End-Einheit 110, die zum Einholen von auszuführenden Makrobefehlen und zu deren Vorbereitung für die spätere Verwendung in dem Kern verwendet werden kann. Front-End-Einheit 110 kann z. B. einen Befehls-Prefetcher, einen Befehls-Decoder und einen Trace-Cache zusammen mit Mikrocode-Speicher und einen Mikro-Befehls-(μOp)-Speicher umfassen. Der Befehls-Prefetcher kann z. B. Makrobefehle aus dem Speicher einholen und diese dem Befehls-Decoder zuführen, um diese in die primitive Form zu entschlüsseln, d. h. μOp für die Ausführung durch den Prozessor. Der Trace-Cache kann entschlüsselte μOp nehmen und in geordneten Programmsequenzen assemblieren. Es ist selbstverständlich, dass auch weitere Komponenten und Merkmale in Front-End-Einheit 110 implementiert werden können.
Zwischen der Front-End-Einheit 110 und den Ausführungseinheiten 120 ist eine OOO-(out of Order)-Engine 115 eingekoppelt, die zum Empfangen der Mikrobefehle und deren Vorbereitung für die Ausführung verwendet werden kann. Spezieller kann OOO-Engine 115 verschiedene Puffer für die Rückordnung des Mikrobefehlablaufs und die Zuteilung verschiedener für die Ausführung benötigter Ressourcen umfassen, sowie für die Bereitstellung der Umbenennung von logischen Registern in den Speicherorten innerhalb verschiedener Registerdateien, wie eine Registerdatei 130a. Registerdatei 130 kann separate Registerdateien für Integer- und Floating-Point-Operationen umfassen. Es ist anzumerken, dass mehrere Registerdateien 130a–n vorhanden sein können, jede für einen anderen Logik-Prozessor. Zusätzliche Register, nämlich Zustands- und Konfigurationsregister 135, können ebenfalls vorhanden sein. Wie gezeigt, kann jeder Satz an Registern 135a–n für einen anderen Logik-Prozessor sein. Diese verschiedenen Register können verwendet werden, um einen Kern für unterschiedliche Betriebsmodi zu konfigurieren, und um Zustandsinformation hinsichtlich des Threads und unterschiedlicher ausgeführter Befehle bereitzustellen.
Bei dem Beispiel, das in 1 gezeigt ist, können solche Register ein SMM-Speicherzustandsregister 136 beinhalten. Bei verschiedenen Implementierungen kann eine Vielzahl von solchen Registern vorhanden sein, wobei jedes mit einem gegebenen Thread, der auf dem Kern betrieben wird, verbunden ist. Wie vorstehend erörtert, kann solch ein Register einen Indikator, z. B. ein Enable-Bit, speichern, um es dem Zustand des Threads zu ermöglichen, gespeichert zu werden, z. B. innerhalb des Kerns selbst bei Eintritt in SMM. Wenn dieser Indikator nicht freigegeben ist, wird bei Eintritt in SMM der Kontext eines Threads stattdessen in SMRAM gespeichert. Bei einigen Ausführungsformen kann dieses MSR andere Bits beinhalten, die andere Prozessor-Merkmale steuern können. Bei einigen Ausführungsformen kann diese Registerdatei 135, die den Indikator enthält, nur in SMM veränderbar gemacht werden, wodurch verhindert wird, dass sie durch eine Malware-Komponente außerhalb von SMM bösartig verändert wird, was sowohl die Sicherheit als auch die Robustheit des Systems erhöht.
Wie weiter gezeigt, kann Registerdatei 135 ebenfalls ein oder mehr SMM-Zustands-Indikatorregister 138 beinhalten. Solche Indikatorregister können in Form einer Bitmap oder eines Bit-Vektors sein, wobei jeder Logik-Prozessor einen Ort aufweist, um anzuzeigen, wenn der Logik-Prozessor davon abgehalten wird, in einen SMM einzutreten, oder ob der Logik-Prozessor sich in einer langen Ablaufausführung befindet. Bei einer Ausführungsform kann ein separates Register für jede solche Anzeige vorhanden sein. Wechselweise kann ein einzelnes Register vorhanden sein und ein logisch kombinierter Indikator kann daher verwendet werden, um die Gegenwart eines dieser Zustände für jeden Logik-Prozessor anzuzeigen. Weitere Details hinsichtlich der Verwendung dieser Register sind nachstehend beschrieben.
Unter weiterer Bezugnahme auf 1, können verschiedene Ressourcen in Ausführungseinheiten 120 vorhanden sein, u. a. in verschiedenen Logik-Einheiten für Integer, Floating-Point und Single-Instruction-Multiple-Data (SIMD) sowie in anderer spezialisierter Hardware. Die Ergebnisse können an eine Rückordnungs-Einheit 140 bereitgestellt werden, die betrieben wird, um zu bestimmen, ob ausgeführte Befehle richtig rückgeordnet und die resultierenden Daten in den Architektur-Zustand des Prozessors aufgenommen werden können, oder ob eine oder mehr Ausnahmen eingetreten sind, die eine richtige Rückordnung der Befehle verhindern.
Wie in 1 gezeigt, ist Rückordnungs-Einheit 140 mit einem Cache-Speicher 150 gekoppelt, welcher bei einer Ausführungsform ein Low Level Cache sein kann (z. B. ein L1-Cache) sein kann, doch der Umfang der vorliegenden Erfindung ist in dieser Hinsicht nicht eingeschränkt. Auch Ausführungseinheiten 120 können direkt mit dem Cache 150 gekoppelt sein (nicht in 1 gezeigt). Von Cache-Speicher 150 aus kann die Datenkommunikation mit Caches höherer Levels, Systemspeicher usw. erfolgen. Dieser High-Level ist in der Ausführungsform in 1 gezeigt, dies soll jedoch den Umfang der vorliegenden Erfindung in dieser Hinsicht in keiner Weise einschränken. Beispielsweise können andere Ausführungsformen in einem In-Order-Prozessor implementiert werden.
Durch Speichern des SMM-Speicherzustands intern in dem Prozessor, kann die Zuverlässigkeit und Robustheit des Systems verbessert werden. Das heißt, der physikalische Speicher, der typischerweise ein Satz an externen dynamische Direktzugriffspeicher-(dynamic random access memory, DRAM)-Geräten ist, auf denen der SMRAM verbleibt, ist anfällig für Speicherfehler. Ohne eine erfindungsgemäße Ausführungsform laufen SMM-Operationen aus diesem externen Speicher und sind deshalb unter Fehlerbedingungen nicht zuverlässig. Wenn stattdessen eine erfindungsgemäße Ausführungsform verwendet wird, kann die Zuverlässigkeit von SMRAM-Speicher verbessert werden, indem ein SMI-Verarbeiter von nicht-flüchtigem Raum ausgeführt wird, wenn Fehler verarbeitet werden. Beispielsweise kann der SMM-Verarbeiter von einem robusteren Speicher, wie BIOS-Flash oder externem SRAM laufen, während er Speicherfehler verarbeitet. Ebenfalls, wenn SMM-Speicherzustand sich intern zu dem Prozessor befindet, kann der Architektur-Zustand dieses Speichers nur durch MSRs der äußeren Software offengelegt werden. Der mikroarchitektonische Zustand des Prozessors, der benötigt wird, um Maschinenausführungszustand wiederherzustellen, nachdem SMM-Code einen „Wiederaufnahme-(Resume, RSM)”-Befehl ausgeführt hat, muss nicht der äußeren Software offengelegt werden, da diese keine legitime Verwendung für diesen internen Maschinenzustand hat. Dies bedeutet ebenfalls, dass bösartiger Software-Code keinen Zugriff auf den empfindlichen mikroarchitektonischen Zustand hat (wie es sonst der Fall wäre, wenn der Speicher der gesicherten Daten in SMRAM ist), wodurch die Maschine sicherer und robuster gemacht wird.
Ausführungsformen können ebenfalls Leistung und Latenz verbessern. Viele Serveranwendungen/Betriebssysteme sind NUMA-(nichteinheitliche Speicherarchitektur)-optimiert, und BIOS konfiguriert Speicher typischerweise so, dass der gesamte SMRAM, der ein durchgängiger Speicherbereich ist, einem einzelnen Sockel zugeordnet wird. Daher erscheinen alle SMM-Speicherzustands-/Zustands-Wiederherstellungs-Operationen als entfernte Schreibzugriffe/entfernte Lesezugriffe für alle Logik-CPUs, mit Ausnahme derjenigen, die in einem Sockel enthalten sind, bei denen der SMRAM lokal befindlich ist. Leistungsanalyse für eine Serverkonfiguration mit vier Sockeln, von denen jeder 12 Kerne umfasst, zeigt an, dass SMM-Speicherzustands-Schreiboperationen durch die Kopplungsstruktur und Speicherbandbreite beschränkt sein und bis zu 5 Mikrosekunden dauern können. Da Anwendungen immer stärker NUMA-optimiert werden, können Prozessoren weniger Puffer für entfernten Datenverkehr zuordnen. Wenn dies geschieht, benötigen SMRAM-Speicherzustands-Schreib- und -Leseoperationen sogar noch mehr Zeit. Betriebssysteme haben typischerweise einen Grenzwert, wie lange eine CPU in SMM verweilen kann, um eine akzeptable Echtzeit-Leistung aufrechtzuerhalten und um Zeitüberschreitungen bei Hochgeschwindigkeits-Netzwerkverbindungen zu vermeiden.
Überschreiten dieses Grenzwerts beeinträchtigt die Reaktionsfähigkeit des OS, Anwendungslatenzen, und kann ebenfalls zu Fehlfunktionen des Betriebssystems führen. Dementsprechend verringert das Verwenden eines On-Die-SMM-Speicherzustands gemäß einer erfindungsgemäßen Ausführungsform die Latenz und ermöglicht daher weitere Zeit, die einem SMM-Verarbeiter zugeteilt wird, um das SMM-Ereignis (die nützliche Arbeit des SMM) zu bedienen.
Zusätzlich können Ausführungsformen Skalierbarkeit verbessern. In einem Mehrprozessor-System, wenn eine SMI auftritt, muss jeder Thread in dem System seinen Speicherzustand in seinem eigenen zugehörigen Speicherzustandsbereich in externem Systemspeicher speichern, wie während des Systemstarts durch das System-BIOS definiert und reserviert. Die Gesamtmenge an physikalischem Speicher, der als der SMRAM-Raum reserviert werden soll, der erforderlich ist, um alle Speicherzustände aller Threads in dem System zu erfassen, steigt linear mit der Anzahl an Threads in dem System. Bei einem Mehrkern-, Mehrsockel-System mit symmetrischer Multi-Threading-Unterstützung kann die Menge an Raum ziemlich groß sein (und kann sich bei einer Ausführungsform in der Größenordnung von circa 256 KB befinden). Durch Bereitstellen von On-Die-Speicher für SMM-Speicherzustand kann der Bedarf an einem ständig wachsenden SMRAM-Bereich, um alle Kerne und zugehörigen Threads davon unterzubringen, vermieden werden, wodurch das Skalieren vereinfacht wird. Er beseitigt ebenfalls die Notwendigkeit, dass BIOS einen einzigartigen, nicht-überlappenden Bereich in SMRAM für jeden Thread findet und zuordnet. Noch weiter erspart dies ebenfalls den Speicherschutzbereichen in Silizium implementiert zu werden. Bei Hot-Plug-Szenarien liegt der architektonisch definierte SMM-Speicherzustandsbereich in SMRAM unter 1 MB. Ohne eine erfindungsgemäße Ausführungsform legt BIOS einen Speicherschutzbereich fest und lagert Daten aus, um OS-Angriffe und/oder -Störung zu vermeiden, wenn neue Prozessoren hinzugefügt werden. Ausführungsformen beseitigen den Bedarf dies zu tun, da der Speicherzustand nicht länger in dem sichtbaren OS-Speicher gespeichert ist.
Es wird Bezug genommen auf 2, die ein Blockdiagramm eines Mehrprozessor-Systems gemäß einer erfindungsgemäßen Ausführungsform zeigt. Wie in 2 gezeigt, beinhaltet Mehrprozessor-System 200 eine Vielzahl von Prozessoren 2101–210n (allgemein Prozessor 210). Während dies mit vier solchen Prozessoren in der Ausführungsform von 2 gezeigt wird, ist der Umfang der vorliegenden Erfindung in dieser Hinsicht nicht eingeschränkt. Wie bei der Implementierung in 2 gezeigt, ist ein NUMA-(nichteinheitliches Speicherarchitektur)-System vorhanden, sodass Systemspeicher 2201 und 2203 den Prozessoren 2101 und 2103 über die Kopplungsstruktur 2171 und 2173 lokal zugeordnet ist. Daher erfordert Zugriff auf Speicher durch Prozessoren 2102 und 210n eine Kommunikation über eine einer Vielzahl von Point-to-Point-(PTP)-Kopplungsstrukturen 215 mit einem von Prozessoren 2101 und 2103. Wie bei der Implementierung in 2 gezeigt, beinhaltet Speicher 2201, der ein DRAM sein kann, einen SMRAM 225. In dieser NUMA-Architektur ist SMRAM 225 der Systemmanagement-Speicher für das gesamte System. Dementsprechend muss ohne eine erfindungsgemäße Ausführungsform jeder Prozessor bei einem SMM-Eintritt oder -Austritt Kontext in seinem SMRAM 225 sichern/erneut speichern. Dies wiederum verursacht einen hohen Verbrauch an Bandbreite auf PTP-Kopplungsstruktur 215 und Kopplungsstruktur 2171 sowie eine steigende Latenz bei Eintritt in und Austritt aus dem SMM.
Dementsprechend kann bei verschiedenen Ausführungsformen jeder Prozessor 210 SRAM 216 zusätzlich zu einem oder mehr Kernen 212 und einem integrierten Memory-Controller 214 beinhalten. Bei verschiedenen Ausführungsformen kann SRAM 216 für das Speichern von SMM-Speicherzuständen bestimmt sein. Das heißt, wenn eine Systemmanagement-Unterbrechung erfolgt, kann der Kontextzustand für die verschiedenen Logik-Prozessoren eines jeden Prozessors 210 lokal in seinem SRAM 216 gespeichert werden, wodurch der Bedarf an Kommunikation von Zustandsinformation mit SMRAM 225 vermieden wird. Bei anderen Ausführungsformen kann dieser Kontextzustand anstatt in einem zugehörigen On-Die-Speicher in auf dem Chip integrierten Registern gespeichert werden, z. B. einer Registerdatei oder anderem Ort, wie einem Cache-Speicher. Während diese bestimmte Implementierung in der Ausführungsform von 2 gezeigt wird, ist der Umfang der vorliegenden Erfindung in dieser Hinsicht nicht eingeschränkt. Beispielsweise können Ausführungsformen weiter mit einem einheitlichen Speicherarchitektursystem verwendet werden.
Es wird Bezug genommen auf 3, die ein Ablaufdiagramm eines Verfahrens gemäß einer erfindungsgemäßen Ausführungsform zeigt. Wie in 3 gezeigt, kann Verfahren 300 ausgeführt werden, um Eintritt in SMM zu verarbeiten, ohne Zugriffsbedarf auf SMRAM zum Sichern der Zustandsinformation. Es ist anzumerken, dass, aufgrund der Vereinfachung der Erörterung, angenommen wird, dass nur ein einzelner Hardware-Thread vorhanden ist, obwohl bei vielen Implementierungen mehrere Threads zusammen in SMM eintreten können. Wie in 3 gezeigt, kann Verfahren 300 durch den Erhalt einer Systemmanagement-Unterbrechung (Block 310) beginnen. Nach Erhalt dieser Unterbrechung kann ein derzeitiger aktiver Zustand (z. B. eines gegebenen Hardware-Threads) in einem On-Die-Speicher gesichert werden (Block 320). Wie vorstehend erörtert, kann dieser On-Die-Speicher ein zugehöriger SRAM, SRAM, der für einen anderen Zweck verwendet wird (z. B. Power Management-Zustände), Registerspeicher, ein On-Die-Cache-Speicher und so weiter sein.
Unter der weiteren Bezugnahme auf 3, ist ein Prozessorzustand modifiziert, um mit einem SMM-Eintrittszustand übereinzustimmen, z. B. wie definiert durch Prozessorspezifikation (Block 330). Dieser Zustand beinhaltet Werte für verschiedene Steuer- und Konfigurationsregister sowie Ausgangswerte für eine Registerdatei. Diese Festlegung bereitet daher eine SMM-Ausführungsumgebung vor, die für einen SMM-Verarbeiter geeignet ist, indem vorbestimmte Werte, die mit dem SMM-Eintrittszustand verbunden sind, in den Zustandsspeicher geladen werden. Wenn der SMM-Zustand festgelegt wurde, geht die Steuerung weiter zu Block 340, wo SMM mittels Code und Daten von SMRAM ausgeführt wird (Block 340). Dementsprechend kann eine gewünschte SMM-Operation ausgeführt werden. Während der Umfang der vorliegenden Erfindung in dieser Hinsicht nicht eingeschränkt ist, umfassen Beispiele von SMM-Operationen Power Management-Operationen, Fehlerverarbeitungs-Operationen und so weiter.
Es kann sodann bestimmt werden, ob SMM-Operationen ausgeführt worden sind (Raute 350). Wenn nicht, kann die Ausführung in SMM fortgesetzt werden. Wenn ausgeführt, führt der Prozessor einen Wiederaufnahme-Befehl aus (Block 360). Als Ergebnis dieses Befehls kann der vorherige Zustand aus dem On-Die-Speicher zurück in die Register des Prozessors geladen werden (Block 370). Der Prozessor kann sodann die Ausführung des Threads wieder aufnehmen, der diesem vorherigen Zustand entspricht, der zurück in den aktiven Zustand versetzt wurde (Block 380). Während diese bestimmte Implementierung in der Ausführungsform von 3 gezeigt wird, ist der Umfang der vorliegenden Erfindung in dieser Hinsicht nicht eingeschränkt ist. Beispielsweise können bei einigen Ausführungsformen anstelle eines Ausführens von SMM-Operationen von SMRAM, insbesondere wenn der SMM einen Fehler verarbeiten soll, wie z. B. einen DRAM-Fehler, Ausführungsformen stattdessen SMM-Zustandsinformation, SMM-Code und Daten von einem Permanentspeicher, wie z. B. ein Flash-Memory, erhalten.
Wie vorstehend beschrieben, kann Siliziumspeicherung eines aktiven Zustands SMM-Latenz verringern. Ausführungsformen können weiter Latenz verringern, indem ein schnellerer Eintritt in SMM in bestimmten Situationen ermöglicht wird, wie nun erörtert wird.
SMM-Latenz wird definiert als die Dauer, für die ein Prozessor per einzelner SMI in der SMM-Umgebung ist. Es gibt zwei hauptsächliche Kontributoren für vollständige SMM-Latenz, Prozessor-Overhead und OEM-BIOS-Code. Diese Latenz muss unter Kontrolle gehalten werden, um Nebeneffekte auf die OS-Umgebung, wie z. B. Zeitüberschreitungen und Taktverschiebungen, zu vermeiden. Weitere Anforderungen erfordern, dass diese Latenz verringert wird, was schwierig umzusetzen sein wird. Derzeit ist vorgeschrieben, dass die SMI-Latenz unter circa 190 Mikrosekunden sein soll. Neue Gebrauchsmodelle, wie Internet-Portal-Daten-Center und Utility Computing, erwarten vorhersehbarere Latenzen von Anwendungen. Folglich drängen OS-Anbieter auf weitere Verringerungen der SMM-Latenz. Auf der anderen Seite haben andere Technologien das Potenzial, SMI-Latenz über die Zeit zu erhöhen. Beispielsweise bedeutet das Drängen der Industrie auf Mehrkern-Prozessoren, dass ein SMI-Verarbeiter eine stetig wachsende Anzahl an Prozessorkernen zusammenfinden muss. Neue SMM-basierte Fähigkeiten üben ebenfalls weiteren Druck auf SMM-Latenz aus. Beispielsweise sind Hochleistungs-RAS-Fähigkeiten von SMM abhängig. Zusätzlich setzen einige OEMs SMM ein, um einzigartige Power Management-Fähigkeiten zu liefern, um ihre Produkte abzugrenzen. Viele OEMs sind bekannt dafür, SMIs zu erzeugen, die bis zu 8-mal pro Sekunde hoch sind.
Bestimmte Befehlssatz-Architekturen (instruction set architectures, ISAs) beinhalten Befehle, wie z. B. ein Zurückschreib- und Invalidierungsbefehl (z. B. wbinvd), der alle Cache-Leitungen invalidiert und diese zurück in den Speicher schreibt. Diese Operationen können eine sehr lange Zeit für die Ausführung benötigen, z. B. im Größenbereich von 10³ bis 10⁷ Prozessor-Zyklen, insbesondere bei Prozessoren, die große Cache-Größen unterstützen. Zusätzlich gibt es bestimmte Prozessorzustände, wo eine SMI-Antwort verzögert sein kann (z. B. C³ und C⁶ niedrige Prozessorzustände). Insgesamt können diese Befehls- und Prozessorzustände als „lange Ablauf”-Zustände bezeichnet werden, was in der Definition einen Befehl oder Prozess bedeutet, der eine ungewöhnlich lange Anzahl an Zyklen für die Ausführung benötigen kann (z. B. in der Größenordnung von 10³ Takte), und der einen Eintritt in SMM verzögern kann. Bei einer Ausführungsform kann jeder Ablauf, der SMM-Eintritt um mehr als 5 Mikrosekunden verzögert, als langer Ablauf bezeichnet werden. Hinsichtlich SMM, wenn einer oder mehr Logik-Prozessoren sich in einem langen Ablauf befindet, verzögert er SMM-Eintritt.
Wie vorstehend erklärt, wartet der SMM-Monarch, bis alle erwarteten Logik-Prozessoren in SMM eingetreten sind. Bei Eintritt in SMM setzt jeder Prozessor sein eigenes Bit in SMRAM, wodurch angezeigt wird, dass er in SMM eingetreten ist. Der Monarch wartet, bis alle erwarteten Prozessoren ihre Bits gesetzt haben. Wenn einer oder mehr Logik-Prozessoren sich in einem langen Ablauf befindet und spät in SMM eintritt, hält er den SMM-Monarch auf, wodurch die SMM-Latenz erhöht wird. Zusätzlich gibt es bestimmte Architektur-Zustände, wie z. B. Wait For Startup Interprocessor Interrupt (WFS)- und TXT-Sleep-Zustand, wo ein SMI-Ereignis inhibiert wird. Wenn das OS/BIOS einen oder mehr Logik-Prozessoren in einen SMI-inhibierten Zustand versetzt, tritt er nicht in SMM ein, bis das OS/BIOS ihn ausdrücklich aus diesem Zustand herausbringt. Da ein SMI-Ereignis alle anderen Prozessoren in SMM versetzt, ist das OS nicht in der Lage, die SMI zu demaskieren. In diesem Szenario muss der SMM-Monarch sich auf eine lange Zeitüberschreitung verlassen, um die Gegenwart eines SMI-inhibierten Prozessors zu bestimmen. Diese Zeitüberschreitungen verzögern SMM-Rendezvous und entweder erhöhen sie die Gesamt-SMM-Latenz oder verringern die Menge an Zeit, die für die Verarbeitung von SMM-Ereignis zur Verfügung steht.
Bei verschiedenen Ausführungsformen kann der Bedarf an Zeitüberschreitungen innerhalb SMM vermieden werden, sogar dort, wo einige Logik-Prozessoren sich in einem langen Ablauf befinden. Das Beseitigen solcher Zeitüberschreitungen kann die durchschnittliche SMM-Latenz um 10–20% verbessern und ungünstigste SMM-Latenz um zumindest ein paar Millisekunden.
Ausführungsformen verlassen sich auf die Tatsache, dass ein Prozessor, der sich in einem langen Ablauf oder in einem SMI-inhibierten Zustand befindet, wahrscheinlich nicht auf eine gemeinsam benutzte Ressource zugreift. Außerdem hat solch ein Prozessor wahrscheinlich die SMI nicht verursacht, und daher ist seine Teilnahme für SMI-Verarbeitung nicht notwendig. Daher kann der SMM-Monarch mit SMM-Verarbeitung fortfahren, bevor solch ein Prozessor in einen SMM eingetreten ist.
Vor dem Fortfahren muss der SMM-Monarch jedoch in der Lage sein, zuverlässig zu ermitteln, welche Prozessoren sich in einem langen Ablauf und/oder SMI-inhibierten Zustand befinden. Um Prozessoren zu ermitteln, die sich geschäftig in einem langen Ablauf oder in einem SMI-inhibierten Zustand befinden, können Ausführungsformen Indikatoren für diese Zustände bereitstellen, wie z. B. mittels Bitmaps. Bei einer Ausführungsform können solche Indikatoren über global sichtbare Konfigurations-Register bereitgestellt werden, genannt LONG_FLOW_INDICATION und SMI_INHIBITED_INDICATION. Bei dieser Ausführungsform kann ein Bit zu jedem Logik-Prozessor in einem Sockel zugeteilt werden. Als ein Beispiel können die Register von Register 138 von 1 dargestellt werden. Bei Implementierungen, bei denen Prozessor-Mikrocode beim Eintritt in und Austritt aus langen Abläufen und SMI-inhibierten Zuständen beteiligt ist, kann der Mikrocode/die Hardware diese Register-Bits besiedeln. Einige der langen Abläufe können länger als 5 Mikrosekunden anhalten und deshalb kann die Fähigkeit, auf diese Prozessoren in diesen Zuständen nicht zu warten, wesentliche Einsparnisse bei der SMM-Latenz bereitstellen. Zukünftige Prozessoren können mehr als 5 Mikrosekunden für SMM-Mikrocode-Eintrittsablauf benötigen und können selbst als ein langer Ablauf betrachtet werden. Der SMM-Monarch kann warten, bis alle Prozessoren ausgewiesen sind, d. h. sie schließen sich entweder dem SMM an oder es wird berichtet, dass sie sich in einem langen Ablauf oder in SMI-inhibiertem Zustand befinden. Um bei solch einer Bestimmung behilflich zu sein, können eine oder mehr Tabellen, wie z. B. Bitmaps, die in SMRAM gespeichert sind, verwendet werden, wie nachstehend beschrieben.
Bei einer Implementierung sichert der Monarch-Prozessor seinen Zustand und lässt den SMM-Vorspann-Code laufen, bevor er eine Überprüfung der Indikator-Register ausführt. Diese Schritte können leicht mehr als 0,5 Mikrosekunden beanspruchen. Diese Dauer ist viel höher als die Laufzeit für jegliche In-Flight-Unterbrechung, wodurch sichergestellt wird, dass es keine Wettlaufsituation zwischen SMI-Lieferung an einen Kern und ein Lesen seiner Indikator-Register gibt. Wenn die Verzögerung bei bestimmten Konfigurationen geringer ist, kann der Monarch-Prozessor eine kleine Verzögerungsschleife einsetzen, um dies zu kompensieren.
Es wird Bezug genommen auf 4, die ein Ablaufdiagramm eines Verfahrens gemäß einer weiteren erfindungsgemäßen Ausführungsform zeigt. Insbesondere zeigt 4 ein Ablaufdiagramm zur Verarbeitung eines Eintritts in und Austritts aus SMM, wenn alle Logik-Prozessoren sich nicht in dem SMM-Zustand zusammenfinden müssen. Auf diese Weise kann die Latenz, die mit dem Warten auf alle Logik-Prozessoren vor der Ausführung von SMM-Operationen verbunden ist, vermieden werden. Wie in 4 gezeigt, kann Verfahren 400 durch Erzeugen eines SMI-Ereignisses beginnen (Block 410). Dieses SMI-Ereignis kann an alle Threads weitergegeben werden. Es ist anzumerken, dass für die Erleichterung der Erörterung angenommen wird, dass die Threads von 4 mit einem einzelnen Prozessor-Sockel beschrieben sind, obwohl Implementierungen verwendet werden können, um SMM über mehrere Sockel zusammenzufinden.
Als Nächstes kann ein Indikator in einer SMM-Indikator-Speicherabbildung für jeden Thread eingestellt werden, der in einen SMM-Rendezvous-Zustand eintritt (Block 420). Es ist selbstverständlich, dass zuerst verschiedene Vorbereitungsmaßnahmen für den Eintritt in SMM von den Threads ausgeführt werden, z. B. ein Sichern des Zustands, wie vorstehend mit Bezug auf 3 beschrieben. Jeder Thread, der in SMM-Rendezvous-Zustand eintritt, kann einen Indikator in einer SMM-Indikator-Speicherabbildung einstellen, die in SMRAM gespeichert werden kann. Bei einer Ausführungsform kann diese Speicherabbildung eine Bitmap sein, bei der jeder Logik-Prozessor mit einem Bit der Speicherabbildung verbunden ist, und wo Logik-Prozessoren eines jeden Sockels in unterschiedliche Segmente der Speicherabbildung aufgeteilt werden können. Wenn daher ein gegebener Thread in den SMM eintritt, kann sein entsprechendes Bit in der Bitmap eingestellt werden. Einer der Threads innerhalb des SMM kann anschließend als ein Monarch oder ausführender Thread ausgewählt werden (Block 430). Bei verschiedenen Ausführungsformen kann die Bestimmung, welcher Thread der ausführende Thread ist, variieren. Beispielsweise kann der Monarch vorher festgelegt werden (z. B. Logik-Prozessor 0 auf Sockel 0) oder dynamisch über einen Wählmechanismus ausgewählt werden.
Unter weiterer Bezugnahme auf 4, kann jeder Thread sodann bestimmen, ob er als Monarch ausgewählt worden ist (Raute 435). Wenn nicht, kann der Thread in einen Schlafzustand eintreten, wo er darauf wartet, dass der Monarch-Thread die Ausführung signalisiert (Block 470).
Dementsprechend geht die Steuerung für den Monarch-Thread weiter zu Block 440. Dort kann sie einen ACCOUNTED-Zustand für alle Threads bestimmen. Bei einer Ausführungsform kann dieser Status auf verschiedenen Konfigurations-Registern, der SMM-Indikator-Speicherabbildung, zusätzlich zu einer Thread-Gegenwarts-Speicherabbildung, die ebenfalls in SMRAM vorhanden sein kann, basieren. Diese Gegenwarts-Speicherabbildung kann eine Bitmap sein, ähnlich derer der SMM-Indikator-Speicherabbildung, und die während SMM-Initialisierung eingestellt werden kann, um die Threads, die in dem System vorhanden sind, anzuzeigen. Bei einer Ausführungsform kann die Bestimmung bei Block 440 eine bitweise OR-Operation wie folgt sein: OR (LONG_FLOW_INDICATION, SMI_INHIBITED_INDICATION, IN_SMM_INDICATION) wo LONG_FLOW_INDICATION von einem Status-Register erhalten wird, das einen Bit-Vektor speichert, wobei jedes Bit davon anzeigt, ob ein entsprechender Thread sich in langer Ablauf-Operation befindet, SMI_INHIBITED_INDICATION von einem Status-Register erhalten wird, das einen Bit-Vektor speichert, wobei jedes Bit davon anzeigt, ob ein entsprechender Thread sich in einem SMI-inhibierten Zustand befindet, und IN_SMM_INDICATION ist die SMM-Indikator-Speicherabbildung. Das Ergebnis der bitweisen OR, ACCOUNTED, kann in einer Bitmap, z. B. in SMRAM, gespeichert werden. Nach dieser Analyse geht die Steuerung weiter zu Raute 450, wo bestimmt werden kann, ob der ACCOUNTED-Zustand für alle vorhandenen Threads aktiv ist (Raute 450). Dies kann bestimmt werden, basierend auf einem Vergleich zwischen dem Ergebnis der ACCOUNTED-Operation und der vorhandenen Speicherabbildung. Wenn nicht, geht die Steuerung weiter zu Block 440. Andernfalls geht die Steuerung weiter zu Block 455, wo das SMI-Ereignis verarbeitet werden kann. Der Monarch-Thread kann somit den gewünschten SMM-Code ausführen. Bei Abschluss des SMM, der durch den Monarch-Thread ausgeführt wird, geht die Steuerung weiter zu Block 460. Bei Block 460 können der ACCOUNTED-Zustand und die SMM-Indikator-Speicherabbildung zurückgesetzt werden (Block 460). Das heißt, der Monarch-Thread kann die Werte in beiden dieser Bitmaps zurücksetzen. Anschließend kann der Monarch-Thread anderen Logik-Prozessoren signalisieren, dass sie aus SMI zurückkehren können (Block 465). Auf diese Weise werden die anderen Threads aus ihrer Warteschleife befreit. Dementsprechend können alle Threads bei Block 475 aus SMM zurückkehren. Während diese bestimmte Implementierung in der Ausführungsform von 4 gezeigt wird, ist der Umfang der vorliegenden Erfindung in dieser Hinsicht nicht eingeschränkt.
Ausführungsformen ermöglichen somit eine Ausführung von SMM-Verarbeiter ohne Speicherabhängigkeit, wodurch die Zuverlässigkeit verbessert wird. Dieser Mechanismus adressiert ebenfalls Leistungs- und Skalierbarkeits-Themen, die mit SMM verbunden sind, sodass SMI-Verarbeitung vermeiden kann, ein Engpass in Mehrkern-/Mehrsockel-Systemen zu werden. Ausführungsformen vermeiden daher die Ausführung von SMM-Code mit DRAM-Abhängigkeit, wodurch Gebrauchsmodelle mit hoher Verfügbarkeit ermöglicht werden, bei denen SMM-Code Speicherfehler diagnostiziert und korrigiert.
Ausführungsformen ermöglichen weiter Eintritt in SMM mit verringerter Latenz in der Gegenwart eines Logik-Prozessors, der sich in einem langen Ablauf- oder SMI-inhibierten Zustand befindet. Im Gegensatz dazu gibt es derzeit keinen zuverlässigen Mechanismus, durch den SMM-Code bestimmen kann, ob einer oder mehr Prozessoren spät in SMM eintreten oder sich in einem SMM-inhibierten Zustand befinden, und daher wird eine Zeitüberschreitung festgesetzt, die höher ist, als der längste Ablauf-Zustand. Diese Lösung erhöht SMM-Latenz und verringert OS-Antwort in Echtzeit, zusätzlich zu der Tatsache, dass sie unzuverlässig und schwer implementierbar ist, und kann unter Verwendung einer erfindungsgemäßen Ausführungsform bewältigt werden.
Ausführungsformen können als Code implementiert und auf einem Speichermedium gespeichert werden, das Anweisungen enthält, die zum Programmieren eines Systems für die Ausführung der Anweisungen verwendet werden können. Das Speichermedium kann beinhalten, ist aber nicht beschränkt auf, jede Art Disks, u. a. Floppy Disks, Optische Disks, Solid State-Laufwerke (SSDs), Compact Disk Read-Only Memories (CD-ROMS), Compact Disk Rewritables (CD-RWs) und magnetooptische Disks (MO), Halbleiter-Geräte, wie Read-Only Memories (ROMS), Random Access Memories (RAMs), wie dynamische Random Access Memories (DRAMs), statische Random Access Memories (SRAMs), Erasable Programmable Read-Only Memories (EPROMs), Flash Memories, Electrically Erasable Programmable Read-Only Memories (EEPROMs), magnetische oder optische Karten oder jede andere Art Speichermedium, die sich für das Speichern von elektronischen Befehlen eignet.
Obwohl die vorliegende Erfindung im Hinblick auf eine begrenzte Anzahl von Ausführungsformen beschrieben wurde, sind sich Fachleute bewusst, dass viele weitere Modifikationen und Varianten davon möglich sind. Die beigefügten Ansprüche sollen alle solchen Modifikationen und Varianten abdecken, die dem Sinn und Schutzbereich der vorliegenden Erfindung entsprechen.

Claims

Vorrichtung, umfassend: einen Prozessorkern, um Befehle auszuführen und um in einen Systemmanagement-Modus (system management mode, SMM) einzutreten, wobei bei Eintritt in den SMM der Prozessorkern einen aktiven Zustand, der in einem Zustandsspeicher des Prozessorkerns vorhanden ist, in eine Speichereinheit des Prozessorkerns speichern soll, und eine SMM-Ausführungs-Umgebung festlegen soll, indem Werte, die mit dem SMM verbunden sind, in den Zustandsspeicher eingegeben werden.
Die Vorrichtung nach Anspruch 1, wobei der Prozessorkern Information offenlegen soll, die in der Speichereinheit als maschinenspezifische Register (machine specific registers, MSRs) gespeichert ist, auf die nur von SMM-Code zugegriffen werden kann.
Die Vorrichtung nach Anspruch 1, weiter umfassend ein erstes Zustandsregister, um einen Indikator zu speichern, um anzuzeigen, dass der Prozessorkern in der Lage ist, den aktiven Zustand in der Speichereinheit zu speichern und nicht in einem Systemmanagement-Direktzugriffspeicher (system management random access memory, SMRAM).
Die Vorrichtung nach Anspruch 3, wobei das erste Zustandsregister nur durch einen Agenten aktualisiert werden kann, der in dem SMM ausgeführt wird.
Die Vorrichtung nach Anspruch 3, wobei der Prozessorkern SMM-Code ausführen soll, der in dem SMRAM gespeichert ist.
Die Vorrichtung nach Anspruch 5, wobei, wenn der SMM einen Speicherfehler beseitigen soll, der Prozessorkern einen Wiederherstellungs-SMM-Code von einem Permanentspeicher erhalten soll und den SMM-Code nicht von dem SMRAM erhalten soll.
Die Vorrichtung nach Anspruch 3, weiter umfassend ein zweites Zustandsregister, um einen Indikator zu speichern, um anzuzeigen, dass ein Logik-Prozessor des Prozessorkerns sich in einer langen Ablauf-Operation befindet.
Die Vorrichtung nach Anspruch 7, weiter umfassend ein drittes Zustandsregister, um einen Indikator zu speichern, um anzuzeigen, dass ein Logik-Prozessor des Prozessorkerns sich in einem Systemmanagement-Unterbrechungs-(system management interrupt, SMI)-inhibierten Zustand befindet.
Die Vorrichtung nach Anspruch 8, weiter umfassend eine SMM-Indikator-Speicherabbildung, um einen Indikator eines jeden Logik-Prozessors des Prozessorkerns zu speichern, der in SMM eingetreten ist.
Die Vorrichtung nach Anspruch 8, wobei das erste, zweite und dritte Zustandsregister außerhalb von SMM nicht beschreibbar sind.
Die Vorrichtung nach Anspruch 1, weiter umfassend einen Monarch-Prozessor, um den SMM auszuführen, ohne dass sich alle Logik-Prozessoren des Prozessorkerns in dem SMM zusammengefunden haben.
Die Vorrichtung nach Anspruch 11, wobei der Monarch-Prozessor auf ein erstes Statusregister zugreifen soll, das anzeigt, dass ein Logik-Prozessor des Prozessorkerns sich in einer langen Ablauf-Operation befindet, auf ein zweites Statusregister, das anzeigt, dass ein Logik-Prozessor des Prozessorkerns sich in einem SMI-inhibierten Zustand befindet, und auf eine SMM-Indikator-Speicherabbildung, die anzeigt, dass jeder Logik-Prozessor des Prozessorkerns in SMM eingetreten ist, und basierend darauf zu bestimmen, eine angefragte SMM-Operation auszuführen, ohne dass sich alle Logik-Prozessoren zusammengefunden haben.
Die Vorrichtung nach Anspruch 12, wobei der Monarch-Prozessor die angefragte SMM-Operation ausführen soll, ohne dass sich alle Logik-Prozessoren zusammengefunden haben, wenn jeder Logik-Prozessor des Prozessorkerns in SMM eingetreten ist, sich in einer langen Ablauf-Operation oder in einem SMI-inhibierten Zustand befindet.
Verfahren, umfassend: Bestimmen, ob alle Threads, die auf einem Prozessor ausgeführt werden, in einen Systemmanagement-Modus-(system management mode, SMM)-Rendezvous-Zustand, der auf ein Systemmanagement-Unterbrechungs-(system management interrupt, SMI)-Ereignis reagiert, eingetreten sind; und wenn nicht, Bestimmen, ob die verbleibenden Threads eine lange Ablauf-Operation ausführen oder sich in einem SMI-inhibierten Zustand befinden, und wenn dies der Fall ist, Verwenden eines Monarch-Threads, um das SMI-Ereignis zu verarbeiten, während die verbleibenden Threads die lange Ablauf-Operation ausführen oder in dem SMI-inhibierten Zustand sind, ansonsten Warten darauf, dass die verbleibenden Threads in den SMM-Rendezvous-Zustand eintreten, bevor das SMI-Ereignis verarbeitet wird.
Das Verfahren nach Anspruch 14, weiter umfassend Einstellen eines Indikators in einer SMM-Indikator-Speicherabbildung für jeden Thread, der in den SMM-Rendezvous-Zustand eintritt.
Das Verfahren nach Anspruch 15, weiter umfassend: Einstellen eines Indikators eines ersten Zustandsregisters des Prozessors, um anzuzeigen, dass ein Thread sich in einer langen Ablauf-Operation befindet; und Einstellen eines Indikators eines zweiten Zustandsregisters des Prozessors, um anzuzeigen, dass ein Thread sich in einem SMI-inhibierten Zustand befindet; und
Das Verfahren nach Anspruch 16, wobei das Bestimmen das Ausführen einer bitweisen OR-Operation zwischen der SMM-Indikator-Speicherabbildung, dem ersten Zustandsregister und dem zweiten Zustandsregister umfasst.
Das Verfahren nach Anspruch 14, wobei bei Eintritt in den SMM, der Monarch-Thread einen aktiven Zustand, der in einem Zustandsspeicher des Prozessors vorhanden ist, in eine Speichereinheit des Prozessors speichern soll, und einen SMM-Zustand in den Zustandsspeicher speichern soll.
System, umfassend: einen ersten Prozessor, umfassend einen ersten Kern, um Befehle auszuführen und um in einen Systemmanagement-Modus (system management mode, SMM) einzutreten, einen ersten Indikator, um anzuzeigen, ob ein Thread, der auf dem ersten Kern ausgeführt wird, sich in einer langen Ablauf-Operation befindet, einen zweiten Indikator, um anzuzeigen, ob der Thread sich in einem Systemmanagement-Unterbrechungs-(system management interrupt, SMI)-inhibierten Zustand befindet, und eine Speichereinheit, wobei bei Eintritt in den SMM, der erste Kern einen aktiven Zustand, der in einem Zustandsspeicher des ersten Kerns vorhanden ist, in eine Speichereinheit speichern soll, und einen SMM-Ausführungs-Zustand in den Zustandsspeicher speichern soll, wobei die Speichereinheit dem Speicher des aktiven Zustands während des SMM zugehörig ist; einen zweiten Prozessor, umfassend einen zweiten Kern, um Befehle auszuführen und um in den SMM einzutreten, einen ersten Indikator, um anzuzeigen, ob ein zweiter Thread, der auf dem zweiten Kern ausgeführt wird, sich in einer langen Ablauf-Operation befindet, einen zweiten Indikator, um anzuzeigen, ob sich der zweite Thread in dem SMI-inhibierten Zustand befindet, und eine zweite Speichereinheit, wobei bei Eintritt in den SMM, der zweite Kern einen aktiven Zustand, der in einem Zustandsspeicher des zweiten Kerns vorhanden ist, in die zweite Speichereinheit speichern soll, und einen SMM-Ausführungs-Zustand in den Zustandsspeicher speichern soll, wobei die zweite Speichereinheit dem Speicher des aktiven Zustands während des SMM zugehörig ist; einen dynamischen Direktzugriffspeicher (dynamic random access memory, DRAM), der mit den ersten und zweiten Prozessoren gekoppelt ist, wobei ein Teil des DRAM ein Systemmanagement-Direktzugriffspeicher (system management random access memory, SMRAM) für das System ist.
Das System nach Anspruch 19, wobei der DRAM mit einer nichteinheitlichen Speicherarchitektur (non-uniform memory architecture, NUMA) gekoppelt ist, wobei der zweite Prozessor mit dem DRAM über den ersten Prozessor kommunizieren soll.
Das System nach Anspruch 19, wobei der zweite Prozessor den aktiven Zustand nicht in dem SMRAM speichern soll, der auf ein SMI-Signal reagiert, und stattdessen den aktiven Zustand in der zweiten Speichereinheit speichern soll.
Das System nach Anspruch 19, wobei der erste Prozessor einen Monarch-Prozessor beinhaltet, um eine SMM-Operation nach einem SMM-Rendezvous-Zustand auszuführen, wobei zumindest ein Logik-Prozessor der ersten und zweiten Prozessoren nicht in den SMM-Rendezvous-Zustand eintritt.
Das System nach Anspruch 22, wobei der zumindest eine Logik-Prozessor sich in einer langen Ablauf-Operation oder in einem SMI-inhibierten Zustand befindet.
Das System nach Anspruch 22, wobei der Monarch-Prozessor auf eine erste Bitmap zugreifen soll, die anzeigt, ob irgendein Logik-Prozessor des ersten Prozessors sich in einer langen Ablauf-Operation befindet, eine zweite Bitmap, die anzeigt, ob irgendein Logik-Prozessor des ersten Prozessors sich in einem SMI-inhibierten Zustand befindet und eine dritte Bitmap, die anzeigt, ob jeder Logik-Prozessor des ersten Prozessors in den SMM-Rendezvous-Zustand eingetreten ist, und basierend darauf, zu bestimmen, ob die SMM-Operation ausgeführt wird, wenn der zumindest eine Logik-Prozessor nicht in den SMM-Rendezvous-Zustand eintritt.