DE102005029852A1

DE102005029852A1 - Multiprozessorsystem mit mehreren Speicherpositionen zum jeweiligen Speichern von TLB-Abschussdaten für mehrere Prozessorknoten

Info

Publication number: DE102005029852A1
Application number: DE102005029852A
Authority: DE
Inventors: Jonathan K. Woodlinville Ross; Dale Steamboat Springs Morris
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2004-07-30
Filing date: 2005-06-27
Publication date: 2006-03-23
Anticipated expiration: 2025-06-28
Also published as: CN1728113A; US7281116B2; CN100543703C; US20060026359A1; DE102005029852B4

Abstract

Die vorliegende Erfindung liefert ein Multiprozessorsystem und Verfahren, bei dem mehrere Speicherpositionen zum Speichern von TLB-Abschussdaten für jeweils mehrere Prozessoren verwendet werden. Im Gegensatz zu Systemen, bei denen ein einziger Speicherbereich für die TLB-Abschussdaten aller Prozessoren dient, können unterschiedliche Prozessoren den Speicher beschreiben, den dieselben gleichzeitig freigeben möchten. Somit ist es weniger wahrscheinlich, dass gleichzeitige TLB-Abschussanforderungen zu leistungsbegrenzenden TLB-Abschusskonflikten führen, die bisher die Skalierbarkeit von Multiprozessorsystemen beschränkt haben.

Description

Die vorliegende Erfindung bezieht sich auf Computer und insbesondere auf Multiprozessorsysteme, die TLB-Abschuss als Teil eines Speicherverwaltungsschemas verwenden. Ein Hauptziel der Erfindung ist das Liefern eines Lösungsansatzes für TLB-Abschuss, das gut arbeitet mit großen Anzahlen von Prozessoren in einem Multiprozessorsystem.

Viele moderne Computersysteme verwenden virtuelle Speicherschemata zum Anpassen der Speicheranforderungen der Computerprogramme, die auf diesen Systemen laufen, an verfügbare Speicherressourcen. Ein Betriebssystem weist typischerweise jedem Programm virtuelle Speicheradress-„Seiten" zu, und weist diese virtuellen Speicherseiten physikalischen Speicherseiten zu, vorzugsweise in Halbleiterdirektzugriffsspeicher (RAM), wobei überschüssige virtuelle Speicherseiten Festplattenpositionen zugewiesen werden, auf einer Prioritätsbasis, wenn die RAM-Kapazität überschritten wird. Die Virtueller-Speicher-Zuweisungen werden in einer Seitentabelle gespeichert, typischerweise in RAM. Damit ein Prozessor nicht jedes Mal einen zeitaufwendigen Zugriff des Hauptspeichers durchführen muss, wenn eine Virtueller-Speicher-Zuweisung gelesen werden muss, können Kopien von zuletzt verwendeten Seitentabellenzuweisungen in einem TLB zwischengespeichert werden (TLB = translation look-aside buffer = Übersetzungsseitengriffspuffer).

Wenn ein Programm endet, kann typischerweise ein Teil des virtuellen Speichers, der demselben zugewiesen ist, anderen Programmen verfügbar gemacht werden. Das Betriebssystem kann den Prozessor, der das Programm ablaufen lässt, anweisen, die nicht länger benötigten virtuellen Speicherseiten in der Seitentabelle freizugeben. Dann müssen alle entsprechenden TLB-Einträge für diesen Prozessor und für jeden anderen Prozessor in einem Multiprozessorsystem gelöscht werden, sodass alle TLBs mit der Seitentabelle übereinstimmen. Zu diesem Zweck kann ein Prozessor seinen TLB-Abschuss an eine speziell zugewiesene Stelle in dem Hauptspeicher schreiben und eine Unterbrechung an die anderen Prozessoren senden, die dann die TLB-Abschussdaten lesen, ihre TLBs entsprechend löschen und berichten, wenn ihre Löschvorgänge abgeschlossen sind. Der nicht mehr zugewiesene virtuelle Speicher kann dann für eine Neuzuweisung freigegeben werden.

Verschiedene Sperrmechanismen können verwendet werden, um zu verhindern, dass ein Prozessor TLB-Abschussdaten in die TLB-Abschussspeicherposition schreibt, wenn dieselbe durch einen anderen Prozessor verwendet wird. Der Prozessor, der gesperrt ist, wartet, bis der erste TLB-Löschvorgang abgeschlossen ist, bevor derselbe seinen eigenen TLB-Löschvorgang beginnen kann. Das „Warten" kann tatsächlich viel Neuprüfen umfassen, was Systembandbreite verbrauchen kann. Wenn sich die Anzahl von Prozessoren erhöht, erhöhen sich die Frequenz der Konflikte, die Warteperioden und der Bandbreitenverbrauch, wodurch die Skalierbarkeit begrenzt wird. Was benötigt wird, ist ein Lösungsansatz für TLB-Abschuss, der besser mit der Anzahl von Prozessoren in einem Multiprozessorsystem arbeitet.

Es ist die Aufgabe der vorliegenden Erfindung, ein Multiprozessorcomputersystem sowie ein Verfahren mit verbesserten Charakteristika zu schaffen.

Diese Aufgabe wird durch ein System gemäß Anspruch 1 sowie ein Verfahren gemäß Anspruch 8 gelöst.

Die vorliegende Erfindung liefert ein Multiprozessorsystem und ein Verfahren, bei dem mehrere Speicherpositionen verwendet werden, um TLB-Abschussdaten jeweils für mehrere Prozessoren zu speichern. Ein Hauptvorteil der Erfindung ist, dass Prozessoren sich beim Schreiben ihrer TLB-Abschussliste nicht „abwechseln" müssen. Im Gegensatz zu Systemen, bei denen ein einziger Speicherbereich für alle TLB-Abschussdaten der Prozessoren dient, können unterschiedliche Prozessoren den Speicher, den sie freimachen möchten, gleichzeitig beschreiben. Dies wird wichtig bei Multiprozessorsystemen mit großen Anzahlen von Prozessoren, da sich die Wahrscheinlichkeit gleichzeitiger TLB-Abschüsse mit der Anzahl der Prozessoren schnell erhöht. Diese und andere Merkmale und Vorteile der Erfindung sind von der nachfolgenden Beschreibung mit Bezugnahme auf die folgenden Zeichnungen offensichtlich.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf beiliegende Zeichnungen näher erläutert. Es zeigen:
1 ein Multiprozessorcomputersystem gemäß der vorliegenden Erfindung;
2 ein Flussdiagramm eines Verfahrens der Erfindung das in Zusammenhang des Systems in 1 praktiziert wird;
3 ein Flussdiagramm eines Teil des Verfahrens von 2, das einen expliziten Parallelismus zeigt; und
4 ein weiteres Multiprozessorcomputersystem gemäß der vorliegenden Erfindung.
Ein Multiprozessorcomputersystem AP1 umfasst drei Prozessorknoten N1, N2 und N3, einen flüchtigen physikalischen Speicher 11, eine Festplatte 13 und einen Signalrouter 15.
Das System AP1 umfasst drei Knoten, was ausreicht, um die Erfindung zu erklären. Der Überschussvorteil der Erfindung ist jedoch für Ausführungsbeispiele mit mehr Knoten, zum Beispiel 48 oder mehr, größer. Der Knoten N1 umfasst einen Prozessor P1, einen TLB T1 und einen Cache C1. Gleichartig dazu umfasst der Knoten N2 einen Prozessor P2, einen TLB T2 und einen Cache C2. Auch der Knoten N3 umfasst einen Prozessor P3, einen TLB T3 und einen Cache C3. Die Datenkommunikation zwischen Prozessoren P1-P3 und zwischen den Prozessoren und dem Speicher 11 ist über einen Signalrouter 15; außerdem werden Unterbrechungen über den Signalrouter 15 übertragen.
Die Festplatte 13 liefert eine nicht flüchtige Langzeitspeicherung für das System AP1. Dieselbe kann ein Betriebssystem OS, Programme einschließlich der Programme PR1-PR4, nicht flüchtige Daten DN und Virtueller-Speicher-Überlaufseiten VMO (wenn der physikalische Speicher zu klein ist, um den ganzen angeforderten virtuellen Speicher aufzunehmen) umfassen. Auf das Einschalten des Systems AP1 hin wird sich ein Teil des Betriebssystems OS in dem Betriebssystemraum OSS des physikalischen Speichers 11 befinden. Das Betriebssystem OS reserviert auch Speicherplatz für eine Prozessspeichertabelle 21, eine Seitentabelle 23 und TLB-Abschusslisten TS1, TS2 und TS3. Die Listen TS1, TS2 und TS3 liefern das Speichern von Abschussdaten für einen jeweiligen Knoten N1, N2 und N3; diese Listen liefern Flags F12, F13, F21, F23, F31 und F32, die anzeigen, ob ein angeforderter Abschuss für jede Kombination von anforderndem Knoten und antwortendem Knoten abgeschlossen wurde. Der Großteil des Speichers 11 ist zuweisbarer physikalischer Speicher 25 für die Verwendung durch die Programme PR1-PR4.
Bei diesem Beispiel wird das Programm PR1 an dem Knoten N1 gestartet. Das Betriebssystem OS fordert an, dass ein virtueller Speicherblock für das Programm PR1 reserviert wird und speichert diese Virtueller-Speicher-zu-Programmzuweisung in der Prozessspeichertabelle 71. Das Betriebssys tem OS untersucht die physikalische Seitentabelle 23, um eine freie Region von zuweisbarem physikalischem Speicherplatz 25 zu finden und weist folglich die angeforderten Virtueller-Speicher-Seiten einem freien physikalischen Speicherplatz PS1 zu; der Prozessor P1 markiert dann den Platz PS1 als nicht verfügbar und durch den Prozessor P1 besetzt.
Dann wird das Programm PR2 an dem Knoten N2 gestartet. Das Betriebssystem OS untersucht die virtuellen Seitentabelle 21 nach freien virtuellen Speicherseiten und weist einige dem Programm PR2 zu. Eine Instanz des Betriebssystems OS, das auf dem Prozessor P2 läuft, untersucht die physikalische Seitentabelle 23 nach freien physikalischen Speicherseiten; da der Platz PS1 als nicht verfügbar markiert ist, wählt der Prozessor P2 den freien Platz PS2 aus, der dann als durch den Prozessor P2 besetzt markiert wird. Das Programm PR3 wird auf dem Knoten N3 gestartet; der virtuelle Speicherplatz, den dasselbe erfordert, kann nicht den Plätzen PS1 oder PS2 zugewiesen werden, und daher wird dasselbe dem Platz PS3 zugewiesen, der dann als nicht verfügbar und durch den Prozessor P3 besetzt markiert wird. Der Rest des zuweisbaren Speicherplatzes 25 bleibt für eine zukünftige Zuweisung verfügbar. Die zugewiesenen Plätze können für speicherresidenten Programmcode und temporäre Daten verwendet werden.
An diesem Punkt wird ein Verfahren M1 gemäß der Erfindung an das Beispiel angelegt; das Verfahren M1 ist in 2 als Flussdiagramm dargestellt. Bei dem Schritt S1 endet das Programm PR1. Das Betriebssystem OS bestimmt von der Prozessspeichertabelle 21, dass einige virtuelle Speicherseiten verfügbar gemacht werden können, da das Programm PR1 dieselben nicht mehr benötigt. (Es kann einige virtuelle Speicherseiten geben, die durch das Programm PR1 verwendet werden, die nicht freigegeben werden können, weil dieselben mit einem anderen Programm gemeinschaftlich verwendet werden.) Das Betriebssystem OS weist den Knoten N1 an, virtu ellen Speicher für eine Neuzuweisung freizugeben. Folglich gibt der Knoten N1 diesen virtuellen Speicherplatz in der physikalischen Seitentabelle 23 frei, aber ist nach wie vor im Besitz der entsprechenden Einträge. Dann weist das Betriebssystem OS den Knoten N1 an, den TLB T1 bei Schritt S3 von sämtlichen Einträgen zu löschen, die sich auf den freigegebenen virtuellen Speicherplatz beziehen. Dann schreibt der Knoten N1 Adressen, die gelöscht werden sollen, bei Schritt S4 in den Abschussspeicherplatz TS1.
Bei Schritt S5 sendet der Knoten N1 eine Anforderung für einen TLB-Abschuss in einem Rundsendevorgang, durch Aktivieren einer Unterbrechung und Anlegen eines Vektors, der dem Speicherplatz TS1 entspricht. Die Knoten N2 und N3 antworten auf die Anforderung durch Lesen der Abschussspezifikation von Platz TS1 und Implementieren des angezeigten Löschvorgangs bei Schritt S6. Jeder empfangene Prozessor N2, N3 berichtet einen erfolgreichen Abschluss des Löschvorgangs durch Ersetzen der speziell zugewiesenen Flags F12 und F13 (in 1 gezeigt) bei Schritt S7. Der Knoten N1 kann wiederholt die Flags F12 und F13 untersuchen. Sobald alle Flags gesetzt sind, kann der Knoten N1 durch Lesen der Flags F12 und F13 erfassen, dass die Abschussanforderung bei Schritt S8 erfüllt wurde. Ansprechend darauf gibt der Knoten N1 den Besitz der spezifizierten virtuellen Adressen frei, sodass dieselben bei Schritt S9 für eine Neuzuweisung verfügbar sind.
In 2 sind bei den Schritten S5, S6 und S7 zusätzliche Aktionen in Klammern beschrieben. Diese sollen zeigen, wie das dargestellte Ausführungsbeispiel gleichzeitige TLB-Abschussanforderungen handhabt. Beispielsweise kann der Knoten N2 gleichzeitig mit Schritt S5 einen TLB-Abschuss anfordern. Diese Anforderung kann durch den Knoten N1 empfangen werden, während der Knoten N1 auf eine Antwort auf seine TLB-Abschussanforderung wartet. Wenn keine Anforderung von dem Knoten N2 vorliegt, würde der Knoten N1 den Flagstatus für den Speicherplatz TS1 regelmäßig prüfen, um zu bestimmen, wann die anderen Knoten ihre Löschvorgänge ansprechend auf die Anforderung durch den Knoten N1 abgeschlossen haben. Die Anforderung durch den Knoten N2 unterbricht jedoch dieses Prüfen; anstatt das Prüfen des Speichers fortzusetzen antwortet der Knoten N1 auf die Anforderung durch den Knoten N2 durch Lesen des Platzes TS2 und Löschen der Adressen, die darin angezeigt sind, bei Schritt S6. Dann berichtet der Knoten N1 den Abschluss des Löschvorgangs durch Setzen eines Flags an dem Speicherplatz TS2. Wenn dieses Berichten abgeschlossen ist, kehrt der Knoten N1 zum Prüfen des Abschlusstatus des Platzes TS1 zurück. Der Abschluss der Anforderung des Knotens N1 ist bei Schritt S9 angezeigt, wenn alle Flags des Platzes TS1 gesetzt sind. Dann gibt der Knoten N1 virtuellen Speicher frei, durch Schreiben in die physikalische Seitentabelle 23.
Der Parallelismus, der durch das System AP1 geliefert wird, ist in 3 vielleicht besser ersichtlich, die ein Flussdiagramm eines Verfahrens M2 ist, das eine Neukonzeptualisierung der Schritte S4-S9 des Verfahrens M1 ist. Das Verfahren M2 beginnt mit den Schritten S41 und S42, wobei die Knoten N1 und N2 Abschussdaten in einen ersten und einen zweiten Abschussspeicherbereich schreiben. Dann fordern die Knoten N1 und N2 bei den Schritten S51 und S52 jeweils TLB-Abschüsse an. Jeder Knoten empfängt die Abschussanforderung des anderen bei den jeweiligen Schritten S61 und S62. Jeder Knoten berichtet den Abschluss der Anforderung des anderen Knotens jeweils bei den Schritten S71 und S72. Jeder Knoten erfasst, dass seine Anforderung jeweils erfüllt wurde, bei den Schritten S81 und S82. Jeder Knoten gibt den virtuellen Speicher frei, der seiner Löschanforderung zugeordnet ist, bei den jeweiligen Schritten S91 und S92. Wie es von 3 ersichtlich ist, ermöglicht es die vorliegende Erfindung, dass eine TLB-Anforderung gleichzeitig durchgeführt werden kann.
In einigen Fällen werden Abschussanforderungen jeweils Seite um Seite ausgegeben. Die Erfindung liefert jedoch auch Ausführungsbeispiele, die einen großen Satz von Seiten in dem TLB-Abschussplatz auflisten, sodass weniger Anforderungen erforderlich sind. Selbst wenn eine Reihe von Anforderungen zum Freigeben von virtuellem Speicher für eine Neuzuweisung erforderlich ist, liefert die Erfindung Leistungseinsparungen im Vergleich zum Stand der Technik. Obwohl Anforderungen seriell durchgeführt werden, ist bei einigen Ausführungsbeispielen eine gewisse Pipelineverarbeitung möglich. Beispielsweise kann ein Knoten damit beginnen, eine zweite Seite in die Seitentabelle zu schreiben, während eine TLB-Abschussanforderung für eine erste Seite ausgegeben wird.
Die Zuweisung von Prozessoren und zugeordneten Komponenten ist nicht fest, kann aber durch einen Systemadministrator für das System AP1 konfiguriert werden. Beispielsweise kann das System AP1 Mit zwei Prozessoren P1 und P2 konfiguriert werden, die einem Knoten N11 zugewiesen sind, wie es in 4 gezeigt ist. Der Prozessor P3 ist dem Knoten N22 zugewiesen. Die Prozessoren P1 und P2 sind dem gleichen TLB-Abschussspeicher TS1 zugeordnet. Falls der Prozessor P1 und P2 gleichzeitige TLB-Abschussanforderungen versuchen, gibt es eine Wettlaufbedingung. Die Anforderung für einen Prozessor wird verarbeitet und der andere muss warten, wie bei einigen herkömmlichen Systemen, die TLB-Abschuss verwenden. Solange die Anzahl von Prozessoren pro Knoten klein ist, macht die Seltenheit solche Konflikte dieselben leicht handhabbar. Ein Vorteil des Kombinierens von Prozessoren in einem Knoten ist, dass für das Multiprozessorsystem weniger Vektoren und Speicherplätze erforderlich sind. Beispielsweise halbiert das Zuweisen von zwei Prozessoren pro Knoten die Anzahl von einzelnen erforderlichen Vektoren; was hilfreich sein kann bei Systemen mit einer begrenzten Anzahl von Vektoren (z. B. 256), und mit vielen Vorrichtungen zum Zuweisen zu den verfügbaren Vektoren.
Falls der Prozessor P1 bei dem Ausführungsbeispiel von 3 einen TLB-Abschuss anfordert, muss der Prozessor P2 warten, bis dieser Abschuss abgeschlossen ist, bevor er seine eigene aktiviert. Bei alternativen Ausführungsbeispielen werden Prozessoren dynamisch neu zu Knoten zugewiesen, um solche Konflikte zu minimieren. Falls beispielsweise der Prozessor P1 einen TLB-Abschuss verwaltet, kann der Prozessor P2 dem Knoten N22 dynamisch zugewiesen werden, entweder unmittelbar oder falls der Prozessor P2 seinen eigenen TLB-Abschuss einleiten muss.
Bei den dargestellten Ausführungsbeispielen gibt es eine feste Zuweisung von TLB-Listen zu Knoten. Bei einigen alternativen Ausführungsbeispielen werden TLB-Listen auf Anforderung Knoten zugewiesen, zum Beispiel auf eine Round-Robin-Weise. Dies kann die Anzahl erforderlicher Vektoren reduzieren, da es weniger Listen als Knoten geben kann. Falls mehr Knoten TLB-Abschüsse anfordern, als Listen verfügbar sind, können herkömmliche Sperr-, z. B. semaphorbasierte Techniken angewendet werden. Als eine Alternative zum Anzeigen, welche Knoten den Löschvorgang abgeschlossen haben, ist es möglich, einfach die Anzahl von Abschlüssen zu zählen; dies ermöglicht die Verwendung effizienterer atomarer Hardwareinkrementoperationen zum Bestimmen, wann eine TLB-Abschussanforderung erfüllt wurde. Diese und andere Variationen und Modifikationen der dargestellten Ausführungsbeispiele werden durch die vorliegende Erfindung geliefert, deren Schutzbereich durch die folgenden Ansprüche definiert ist.

Claims

Multiprozessorcomputersystem (AP1), das folgende Merkmale umfasst: mehrere Knoten (N1, N2, N3), die einen ersten und zweiten Knoten umfassen, wobei jeder Knoten zumindest eine Kombination eines Prozessors und eines TLB aufweist; und mehrere Speicherpositionen zum Speichern von TLB-Abschussdaten, wobei die Positionen eine erste und eine zweite Position umfassen, sodass in dem Fall, dass der zweite Knoten (N2) eine zweite Anforderung für einen TLB-Abschuss zum selben Zeitpunkt oder nach einem Zeitpunkt, da der erste Knoten (N1) eine erste Anforderung für einen TLB-Abschuss ausgibt, aber noch bevor die erste Anforderung erfüllt ist, ausgibt, die erste Position TLB-Abschussdaten, die durch den ersten Knoten (N1) spezifiziert werden, speichert, während die zweite Position TLB-Abschussdaten speichert, die durch den zweiten Knoten (N2) spezifiziert sind.
System gemäß Anspruch 1, bei dem der erste und der zweite Prozessor (P1, P2) TLB-Anforderungen in der Form einer jeweiligen ersten und zweiten Unterbrechung ausgeben, begleitet durch einen jeweiligen ersten und zweiten Vektor, die die erste beziehungsweise die zweite Speicherposition anzeigen.
System gemäß Anspruch 1 oder 2, bei dem der erste Knoten (N1) nur TLB-Abschussanforderungen ausgibt, wobei die Vektoren zu der ersten Speicherposition zeigen.
System gemäß einem der Ansprüche 1 bis 3, bei dem jeder der Knoten genau einen Prozessor enthält.
System gemäß einem der Ansprüche 1 bis 3, bei dem einige der Knoten (N1, N2, N3) mehr als einen Prozessor (P1, P2, P3) enthalten.
System gemäß einem der Ansprüche 1 bis 5, bei dem die erste Speicherposition Anzeigen speichert, welche der Knoten (N1, N2, N3) die erste TLB-Abschussanforderung abgeschlossen haben.
System gemäß einem der Ansprüche 1 bis 6, bei dem die erste Speicherposition Anzeigen speichert, wie viele der Knoten (N1, N2, N3) ihre erste TLB-Abschussan-forderung abgeschlossen haben.
Verfahren, das folgende Schritte umfasst: der erste und der zweite Prozessor (P1, P2) schreiben jeweilige erste und zweite TLB-Abschussdaten in eine jeweilige erste und zweite TLB-Abschussdatenspeicherposition, sodass die ersten und die zweiten TLB-Abschussdaten gleichzeitig in der ersten und der zweiten TLB-Abschussdatenspeicherposition gespeichert werden; und der erste und der zweite Prozessor (P1, P2) geben die erste und die zweite TLB-Abschussanforderung zueinander aus.
Verfahren gemäß Anspruch 8, bei dem der erste Prozessor (P1) den Abschluss der zweiten TLB-Abschussanforderung berichtet, bevor bestätigt wird, dass der zweite Prozessor (P2) die erste TLB-Abschussanforderung erfüllt hat.
Verfahren gemäß Anspruch 8 oder 9, bei dem der erste Prozessor (P1) nur eine TLB-Abschussanforderung aus gibt, wobei ein Vektor zu der ersten TLB-Abschussdatenspeicherposition zeigt.
Verfahren gemäß Anspruch 10, bei dem ein dritter Prozessor (P3) ebenfalls nur TLB-Abschussanforderungen mit dem Vektor ausgibt.
Verfahren gemäß einem der Ansprüche 8 bis 11, bei dem die erste TLB-Abschussdatenspeicherposition manchmal durch den zweiten Prozessor (P2) verwendet wird, um TLB-Abschussdaten zu speichern.
Verfahren gemäß einem der Ansprüche 8 bis 12, bei dem die TLB-Abschussdatenspeicherposition den Prozessoren (P1, P2, P3) auf einer Round-Robin-Basis zugewiesen werden.
Verfahren gemäß einem der Ansprüche 8 bis 13, bei dem die erste Speicherposition Anzeigen dafür speichert, welcher der Knoten (N1, N2, N3) die erste TLB-Anforderungsanfrage abgeschlossen hat.
Verfahren gemäß einem der Ansprüche 8 bis 14, bei dem die erste Speicherposition Anzeigen dafür speichert, wie viele der Knoten (N1, N2, N3) die erste TLB-Abschussanforderung abgeschlossen haben.