DE69033272T2

DE69033272T2 - Verbundarchitektur für ein hochgradig paralleles skalar/vektor-multiprozessorsystem

Info

Publication number: DE69033272T2
Application number: DE69033272T
Authority: DE
Inventors: Douglas Beard; Steve Chen; Roger Eckert; Edward Miller; Frederick Simmons; George Spix; Jimmie Wilson
Original assignee: Cray Research LLC
Current assignee: Cray Research LLC
Priority date: 1989-12-29
Filing date: 1990-12-27
Publication date: 2000-04-20
Anticipated expiration: 2010-12-28
Also published as: WO1991010194A1; US5430884A; JPH05502958A; DE69033272D1; AU7151991A; EP0512007A4; EP0512007A1; US5659706A; US5640524A; US5745721A; KR920704231A; EP0512007B1; US5561784A; US5706490A; US5197130A; CA2071481A1; US5717881A

Description

TECHNISCHES GEBIET

Diese Erfindung betrifft allgemein das Gebiet paralleler Computerarchitekturen für Vielfachprozessor-Computerverarbeitungssysteme mit sehr hoher Geschwindigkeit, die zu einer skalaren und vektoriellen Parallelverarbeitung in der Lage sind. Die vorliegende Erfindung betrifft insbesondere ein Verfahren und eine Vorrichtung zum Erzeugen einer Clusterarchitektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem. Die Clusterarchitektur sieht einen oder mehrere Cluster eng gekoppelter Hochgeschwindigkeitsprozessoren vor, die zu einer vektoriellen und einer skalaren Parallelverarbeitung in der Lage sind, durch die symmetrisch auf dem Cluster zugeordnete geteilte Betriebsmittel sowie auf anderen Clustern zugeordnete geteilte Betriebsmittel zugegriffen werden kann.

STAND DER TECHNIK

Verschiedene manchmal als Höchstleistungscomputer bezeichnete Hochgeschwindigkeits-Computerverarbeitungssysteme wurden entwickelt, um eine Vielzahl rechenintensiver Anwendungen, wie solche aus den Bereichen Wettermodellierung, Strukturanalyse, Flüssigkeitsdynamik, numerische Physik, Kerntechnik, Echtzeitsimulation, Signalverarbeitung usw., zu lösen. Die Architekturen solcher gegenwärtiger Höchstleistungscomputersysteme können im allgemeinen in eine von zwei breiten Kategorien eingeteilt werden, nämlich minimal parallele Verarbeitungssysteme und massiv parallele Verarbeitungssysteme.
Die minimal parallele Klasse von Höchstleistungscomputern umfaßt sowohl Einzelprozessoren als auch Vielfachprozessoren mit geteiltem Speicher. Ein Einzelprozessor ist ein Prozessor mit sehr hoher Geschwindigkeit, der zahlreiche Funktionselemente, eine vektorielle Verarbeitung, Pipeline- und Vorausschautechniken verwendet, um die Rechengeschwindigkeit des einzelnen Prozessors zu erhöhen. Vielfachprozessoren mit geteiltem Speicher bestehen aus einer geringen Anzahl von Hochgeschwindigkeitsprozessoren (typischerweise zwei, vier oder acht), die eng miteinander und mit einem gemeinsamen geteilten Speicher gekoppelt sind, wobei eine über einen Bus verbundene oder eine direkt verbundene Architektur verwendet wird.
Die massiv parallele Klasse von Höchstleistungscomputern umfaßt sowohl Matrixprozessoren als auch Vielfachcomputer mit verteiltem Speicher. Matrixprozessoren bestehen im allgemeinen aus einer sehr großen Matrix von Einzelbitprozessoren oder kleinen Prozessoren, die in einem Ein-Befehl- mehrere-Daten-(SIMD)-Modus arbeiten, der beispielsweise bei der Signal- oder Bildverarbeitung verwendet wird. Vielfachcomputer mit verteiltem Speicher weisen auch eine sehr große Anzahl von Computern (typischerweise 1024 oder mehr) auf, die unter Verwendung einer Vielzahl von Verbindungstopologien, wie Hyperwürfel-, Ring-, Schmetterlingsschalter- und Hyperbaum-Topologien zum Übermitteln von Meldungen und Daten zwischen den Computern in einem Vielfach-Befehlvielfach-Daten-(MIMD)-Modus locker miteinander gekoppelt sind.
Der Begriff Vielfachprozessor betrifft so, wie er innerhalb der vorliegenden Erfindung verwendet wird, ein eng gekoppeltes Vielfachprozessor-Computerverarbeitungssystem mit geteiltem Speicher. Der Begriff Vielfachcomputer betrifft ein locker gekoppeltes Vielfachprozessor-Computerverarbeitungssystem mit verteilten lokalen Speichern. Die Begriffe eng gekoppelt und locker gekoppelt betreffen die relative Schwierigkeit und die zeitliche Verzögerung beim Übermitteln von Meldungen und Daten zwischen Prozessoren. Eng gekoppelte Prozessoren teilen sich ein gemeinsames Verbindungsmittel, und sie reagieren relativ schnell auf Meldungen und Daten, die zwischen Prozessoren ausgetauscht werden. Locker gekoppelte Computer teilen sich andererseits nicht unbedingt ein gemeinsames Verbindungsmittel, und sie können relativ langsam auf zwischen den Computern ausgetauschte Meldungen und Daten reagieren. Eine Architektursemantik für die bestehenden Architekturen moderner Höchstleistungscomputer bei Verwendung dieser Definitionen ist in "Parallel Processing for Supercomputers and Artificial Intelligence", S. 31-67 (1989) von Hwang, K. dargelegt. Bei den meisten Anwendungen, bei denen ein Höchstleistungscomputersystem nützlich ist, besteht das Ziel darin, ein Computerverarbeitungssystem mit der höchsten Verarbeitungsgeschwindigkeit und dem größten Problemlösungsraum, also der Fähigkeit, eine große Vielzahl traditioneller Anwendungsprogramme zu verarbeiten, bereitzustellen. In einem Versuch, den Problemlösungsraum und die Verarbeitungsgeschwindigkeit von Höchstleistungscomputersystemen zu erhöhen, wurden die zuvor beschriebenen minimal parallelen und massiv parallelen Architekturen in Höchstleistungscomputersysteme aufgenommen.
Es wird erkannt werden, daß parallele Computerverarbeitungssysteme unter Aufteilen eines komplexen Auftrags in Prozesse und unter Verteilen der Programmbefehle und Daten für diese Prozesse zwischen den verschiedenen Prozessoren und anderen Betriebsmitteln, die das Computerverarbeitungssystem bilden, arbeiten. Bei parallelen Computerverarbeitungssystemen wird der Aufwand der zwischen Synchronisationspunkten in einem Auftrag auszuführenden Verarbeitung als Granularität des Auftrags bezeichnet. Falls es zwischen Synchronisationspunkten einen geringen Verarbeitungsaufwand gibt, wird der Auftrag als feinkörnig bezeichnet. Falls es zwischen Synchronisationspunkten einen hohen Verarbeitungsaufwand gibt, wird der Auftrag als grobkörnig bezeichnet. Im allgemeinen ist der Synchronisations- und Kommunikationsbedarf zwischen Prozessoren unabhängig davon, ob das Computerverarbeitungssystem ein minimal paralleles oder massiv paralleles System ist, um so größer, je feiner die Granularität eines Auftrags ist. Die Ausnahme dieser Situation ist das SIMD-Prozessormatrixsystem, das äußerst parallele Probleme bearbeitet, bei denen die begrenzte Lokalität der geteilten Daten eine Kommunikation zwischen nur sehr wenigen Prozessoren erfordert.
Die Vorgehensweise bei gegenwärtigen massiv parallelen Computerverarbeitungssystemen besteht darin, die Verarbeitungsgeschwindigkeit durch Erhöhen der Anzahl der an einem Problem arbeitenden Prozessoren zu erhöhen. Die Verarbeitungsgeschwindigkeit jedes parallelen Computerverarbeitungssystems sollte theoretisch durch die mit der Verarbeitungsgeschwindigkeit jedes Prozessors multiplizierte Anzahl der beim Lösen einer gegebenen Aufgabe verwendeten Prozessoren gegeben sein. Tatsächlich verhindern die bei gegenwärtigen parallelen Computerverarbeitungssystemen stets vorhandenen Probleme, daß sie ihr volles Potential verwirklichen. Die Hauptprobleme massiv paralleler Computerverarbeitungssysteme bestehen darin, daß sie nicht in der Lage sind, Aufgaben mit Erfolg in mehrere im allgemeinen gleiche, jedoch unabhängige Prozesse einzuteilen, und daß die Verteilung und die Koordination oder Synchronisation dieser Prozesse zwischen den verschiedenen Prozessoren und Betriebsmitteln während der tatsächlichen Verarbeitung schwierig sind. Die gegenwärtigen Architekturen für massiv parallele Computerverarbeitungssysteme können die Kommunikation und Koordination zwischen Prozessoren nicht wirksam genug ausführen, um den hohen Zusatzaufwand zur Einrichtung eines solchen Systems zu rechtfertigen, weil die Zwischenprozessorkommunikation bestenfalls indirekt erfolgt. Weiterhin opfern massiv parallele Systeme den Problemlösungsraum der Geschwindigkeit, indem sie von Benutzern fordern, traditionelle Anwendungen so umzuprogrammieren, daß sie zur verteilten Speicherarchitektur solcher Systeme passen. Diese Probleme ähneln in Analogie den Problemen, die verhindern, daß ein 1000 Personenstunden benötigender Auftrag von 1000 Arbeitern in einer einzigen Stunde abgeschlossen wird.
Minimal parallele Computerverarbeitungssysteme versuchen andererseits, den Problemlösungsraum und die Verarbeitungsgeschwindigkeit durch Erhöhen der Geschwindigkeit der einzelnen Prozessoren zu vergrößern. Solche minimal parallelen Systeme haben einen größeren Problemraum, weil ein geteiltes Speichersystem erforderlich ist, um traditionelle Anwendungsprogramme auszuführen. Unglücklicherweise nähert sich die Taktgeschwindigkeit der bei gegenwärtigen minimal parallelen Computerverarbeitungssystemen verwendeten einzelnen Prozessoren den praktischen und theoretischen Grenzen, die unter Verwendung der heutigen Halbleitertechnolo gie erreichbar sind. Wenngleich diese Technik bei grobkörnigen Problemen relativ gut funktioniert, bei denen die Zwischenprozessorkommunikation begrenzt ist, begrenzt die geringe Anzahl von Prozessoren unabhängig von der Geschwindigkeit jedes einzelnen Prozessors die Anzahl der unabhängigen Parallelprozesse, die gleichzeitig ausgeführt werden können. Wiederum in Analogie kann eine 1000 Personenstunden beanspruchende Aufgabe selbst dann, wenn jede Person zweimal so schnell wie eine normale Person arbeiten kann, nicht in weniger als 125 Stunden abgeschlossen werden, wenn maximal vier Personen an der Aufgabe arbeiten können.
Es wäre im Idealfall wünschenswert, die Direktverbindungsverfahren der Zwischenprozessorkommunikation minimal paralleler Computerverarbeitungssysteme auf die Anzahl der bei massiv parallelen Computerverarbeitungssystemen verwendeten Prozessoren zu erweitern. Unglücklicherweise begrenzen die gegenwärtigen Direktverbindungsverfahren des Koordinierens von Prozessoren bei minimal parallelen Systemen erheblich die Anzahl der Prozessoren, die wirksam miteinander verbunden werden können, und sie können nicht so erweitert werden, daß sie der Anzahl der Prozessoren dienen, die bei einem massiv parallelen System verwendet werden. Beispielsweise wird bei der Architektur für das von Cray Research, Inc. entwickelte Cray-X-MP-Höchstleistungscomputersystem, die Gegenstand des US-Patents 4 363 942 ist, ein Verklemmungs-Unterbrechungsmittel zum Koordinieren von zwei Hochgeschwindigkeitsprozessoren verwendet. Wenngleich dieser Typ eines eng gekoppelten Direktverbindungsverfahrens ein wirksames Mittel zum Koordinieren zweier Hochgeschwindigkeitsprozessoren ist, ist der in dieser Erfindung beschriebene Hardwareverklemmungs-Unterbrechungsmechanismus am wirksamsten, wenn die Anzahl der miteinander gekoppelten Prozessoren sehr gering ist, also acht oder weniger beträgt.
Wegen der stets vorhandenen Begrenzungen der gegenwärtigen Architekturen minimal paralleler und massiv paralleler Höchstleistungscomputersysteme sind solche Computerverarbeitungssysteme nicht in der Lage, erheblich erhöhte Verarbeitungsgeschwindigkeiten und Problemlösungsräume gegenüber aktuellen Systemen zu erreichen. Daher ist eine neue Architektur zum Verbinden von Parallelprozessoren und zugeordneten Betriebsmitteln erforderlich, die es ermöglicht, die Geschwindigkeit und Koordination aktueller minimal paralleler Vielfachprozessorsysteme auf größere Anzahlen von Prozessoren auszudehnen, wobei auch einige der mit massiv parallelen Vielfachcomputersystemen verbundenen Synchronisationsprobleme gelöst werden. Dieser Bereich zwischen minimal parallelen und massiv parallelen Systemen wird als hochparallele Computerverarbeitungssysteme bezeichnet und kann Vielfachprozessorsysteme mit 16 bis 1024 Prozessoren einschließen.
Bis heute waren die einzigen Versuche zum Festlegen einer zur Verwendung bei solchen hochparallelen Computerverarbeitungssystemen geeigneten Architektur Höchstleistungscomputer mit einer Speicherhierarchie. Bei diesen Systemen ist irgendeine Art eines hierarchischen oder geteilten Speichers in das Höchstleistungscomputersystem eingebaut.
Beim an der Universität von Illinois entwickelten Cedar- Höchstleistungscomputersystem wird ein Zweistufenschalter zum Verbinden eines existierenden Clusters von Prozessoren in Form eines Alliant-FX/8-Acht-Prozessor- Höchstleistungscomputers zu einem externen globalen Spei chermodul verwendet. Bei diesem System ist der globale Speicher vom Clusterspeicher getrennt und abgesetzt. Die Koordination zwischen Clustern wird durch Umspeichern von Daten- oder Befehlsblöcken in jeden Clusterspeicher oder aus diesem heraus von gemeinsamen Daten- oder Befehlsblöcken im globalen Speicher erreicht, wie in "Parallel Supercomputing Today and the Cedar Approach", Science, Band 231, S. 967-974 (Februar 1986) von Kuck, D. beschrieben ist.
In US-A-4 667 287 ist ein weiteres Clustersystem offenbart. Die Prozessoren jedes Clusters sind mit zwei Zwischenprozessorbussen und ihren jeweiligen Clustermodulen verbunden.
Beim von Control Data Corporation entwickelten, aber nun aufgegebenen ETA-10-Höchstleistungscomputersystem hat jeder von acht Prozessoren eine Registerdatei und einen zentralen Prozessorspeicher. Auch hat jeder Prozessor Zugriff auf einen gemeinsamen geteilten Speicher und einen geteilten virtuellen Speicher, der im Plattenspeicher existiert und über achtzehn Ein-/Ausgabeeinheiten zugänglich ist. Ein Kommunikationspuffer, der nicht Teil des virtuellen Speichersystems ist, bietet schnelle Verriegelungs- und Synchronisationsfunktionen, wie in ETA10 System Overview: EOS, Tech, Note, Publ. 1006, Rev. B, ETA Systems, September 30, 1988 beschrieben ist.
Beim am IBM Watson Research Center entwickelten RP3- Höchstleistungscomputersystem sind 512 32-Bit- Mikroprozessoren zusammen in acht Gruppen von 64 Mikroprozessoren konfiguriert. Jeder Mikroprozessor hat seinen eigenen lokalen Speicher, wobei ein Teil davon während der Ausführungszeit eines bestimmten Auftrags als globaler Speicher umkonfigurierbar sein kann. Im wesentlichen wird die lokale/globale Grenze in einem Versuch, die Granularität des Systems zu maximieren, während Zwischenprozessor- Kommunikationsengpässe minimiert werden, zu Beginn jedes Auftrags dynamisch bestimmt, wie in "The IBM Research Parallel Processor Prototype (RP3): Introduction and Architecture", International Conference an Parallel Processing, S. 764-771, August 1985 von Pfister, G. beschrieben ist.
Das Hauptproblem bei der Verwendung dieser Arten von Architekturen mit einer Speicherhierarchie für hochparallele Höchstleistungscomputersysteme besteht darin, daß die Struktur jedes Softwareanwendungsprogramms optimiert werden muß, um zur speziellen Speicherhierarchiearchitektur dieses Höchstleistungscomputersystems zu passen. Mit anderen Worten muß der Softwareprogrammierer wissen, wie der Speicher in der Speicherhierarchie aufgeteilt ist, um den Auftrag in ähnlicher Weise in Aufgaben einzuteilen, um die Verarbeitungsgeschwindigkeit für den speziellen Auftrag zu optimieren. Falls ein Auftrag nicht für die spezielle Speicherhierarchie optimiert ist, geschieht es nicht nur, daß sich der Speicherhierarchie-Höchstleistungscomputer nicht seiner maximalen theoretischen Verarbeitungsgeschwindigkeit nähert, sondern die Verarbeitungsgeschwindigkeit kann wegen der Speicherverschwendung, die zwischen den verschiedenen Speicherebenen auftreten kann, tatsächlich geringer sein als bei anderen vergleichbaren Höchstleistungs-Computern.
Wenngleich es die gegenwärtigen Architekturen für Höchstleistungscomputersysteme diesen Systemen ermöglicht haben, Spitzenleistungsfähigkeiten im Bereich von 0,2 bis 2,4 GFLOPS (Milliarden Gleitkommaoperationen je Sekunde) zu erreichen, wäre es vorteilhaft, ein Verfahren und eine Vorrichtung zum Erzeugen einer Clusterarchitektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem zu erzeugen, das in der Lage ist, zwischen 16 und 1024 Prozessoren in einer hochparallelen Architektur wirksam miteinander zu verbinden, um Spitzengeschwindigkeiten im Bereich von 10 bis 1000 GFLOPS zu erreichen. Es besteht insbesondere ein Bedarf an einer hochparallelen Architektur für ein Vielfachprozessor-Computerverarbeitungssystem, die einen symmetrischen Zugriff aller Prozessoren auf alle geteilten Betriebsmittel zuläßt und die Notwendigkeit zur Optimierung von Softwareanwendungen für eine spezielle Speicherhierarchie minimiert.

ZUSAMMENFASSUNG DER ERFINDUNG

Gemäß der ersten Erscheinungsform der vorliegenden Erfindung ist ein Entscheidungsnetzwerk für ein Computerverarbeitungssystem vorgesehen, wobei das System Betriebsmittelteilungsmittel zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen, wenigstens 4 Prozessormittel zur Durchführung einer Computerverarbeitung von Daten und von Steuerinformationen und wenigstens zwei externe Schnittstellenmittel zur Übertragung von Daten und Steuerinformationen zwischen den Betriebsmittelteilungsmitteln und einer oder mehreren externen Datenquellen aufweist, wobei das Entscheidungsnetzwerk aufweist: wenigstens zwei Entscheidungsknotenmittel, wobei jedes Entscheidungsknotenmittel operativ mit wenigstens zwei eindeutigen der Prozessoren, wenigstens einem eindeutigen der externen Schnittstellenmittel und den Betriebsmittelteilungsmitteln zur symmetrischen Kopplung der Prozessoren und der externen Schnittstellenmittel mit den Betriebsmittelteilungsmitteln durch Entscheidung unter einer Anzahl von Anforderungsports, welche den wenigstens zwei Prozessormitteln und dem wenigstens einen Schnittstellenmittel zugeordnet sind, und einer Anzahl von Betriebsmittelports, welche den Betriebsmittelteilungsmitteln zugeordnet sind, operativ verbunden ist, um gleichzeitige Zusammenschaltungen zwischen ausgewählten Anforderungsports und Betriebsmittelports zur Verfügung zu stellen, wobei das Verhältnis der Anzahl der Prozessormittel zu der Anzahl der Entscheidungsknotenmittel größer oder gleich 2 ist.
Gemäß einer zweiten Erscheinungsform der vorliegenden Erfindung ist ein Computerverarbeitungssystem mit einem Vielfachprozessor-Cluster für ein hochparalleles Computerverarbeitungssystem vorgesehen, wobei der Vielfachprozessor- Cluster zur Verbindung mit anderen ähnlichen Vielfachprozessor-Clustern in dem hochparallelen Computerverarbeitungssystem eingerichtet ist, wobei der Vielfachprozessor- Cluster aufweist: Betriebsmittelteilungsmittel zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen, P Prozessormittel zur Ausführung einer Computerverarbeitung von Daten und Steuerinformationen, wobei P eine ganze Zahl von 4 bis 256 ist, Q externe Schnittstellenmittel zur Übertragung von Daten und Steuerinformationen zwischen den Betriebsmittelteilungsmitteln und einer oder mehreren externen Datenquellen, wobei Q eine ganze Zahl von 2 bis 256 ist, und Z Entscheidungsknotenmittel, welche operativ mit den Prozessormitteln, den externen Schnittstellenmitteln und den Betriebsmittelteilungsmitteln zur symmetrischen Kopplung der Prozessormittel und der externen Schnittstellenmittel mit den Betriebsmittelteilungsmitteln verbunden sind, wobei Z eine ganze Zahl von 2 bis 128 ist und das Verhältnis von P zu Z größer oder gleich 2 ist. Das hochparallele Vielfachprozessorsystem gemäß der vorliegenden Erfindung besteht aus einem oder mehreren operativ miteinander verbundenen Vielfachprozessor-Clustern. Jeder Vielfachprozessor-Cluster beinhaltet geteilte Betriebsmittel zum Speichern und Wiedergewinnen von Daten und Steuerinformationen, mehrere eng gekoppelte Hochgeschwindigkeitsprozessoren, die zu einer vektoriellen und einer skalaren Parallelverarbeitung in der Lage sind, und mehrere verteilte externe Schnittstellen, die die Übertragung von Daten und Steuerinformationen zwischen den geteilten Betriebsmitteln und einer oder mehreren externen Datenquellen ermöglichen. Alle Prozessoren und externen Schnittstellen in einem Cluster sind sowohl innerhalb der Cluster als auch zwischen den Clustern über mehrere Entscheidungsknoten symmetrisch mit den geteilten Betriebsmitteln gekoppelt. Wenigstens zwei Prozessoren sind mit jedem Entscheidungsknoten verbunden. Für einen Zwischenclusterzugriff ist ein jedem Cluster zugeordneter Fernclusteradapter operativ mit Fernclusteradaptern in allen anderen Clustern verbunden. Der Fernclusteradapter ermöglicht es den Entscheidungsknoten in einem Cluster, auf die geteilten Betriebsmittel aller anderen Cluster zuzugreifen, und er ermöglicht es auch allen anderen Clustern, auf die geteilten Betriebsmittel innerhalb dieses Clusters zuzugreifen. Der Fernclusteradapter ermöglicht es, daß die innerhalb eines Clusters existierende symmetrische Architektur auf mehr als einen Vielfachprozessor-Cluster ausgedehnt wird.
Die geteilten Betriebsmittel der vorliegenden Erfindung beinhalten einen geteilten Hauptspeicher, eine geteilte Gruppe globaler Register und einen geteilten Unterbrechungsmechanismus. Der Zugriff auf die geteilten Betriebsmittel ist unabhängig davon, ob die Prozessoren und externen Schnittstellen mit demselben Entscheidungsknoten, mit verschiedenen Entscheidungsknoten im selben Cluster oder mit Entscheidungsknoten in verschiedenen Clustern verbunden sind, zwischen allen Prozessoren und externen Schnittstellen äquivalent und symmetrisch. Wenngleich die durchschnittlichen Zugriffszeiten für Anforderungen von geteilten Betriebsmitteln zwischen Anforderungen innerhalb von Clustern und Anforderungen zwischen Clustern etwas unterschiedlich sein können, unterscheiden sich die Protokolle und Formate dieser Anforderungen nicht. Der Bedarf an einer Auftragsoptimierung, die ansonsten erforderlich wäre, um einer bestimmten Speicherhierarchie Rechnung zu tragen, ist bei der vorliegenden Erfindung durch die Symmetrie des Bugriffs auf die geteilten Betriebsmittel minimiert.
Ein weiteres wichtiges Merkmal der vorliegenden Erfindung sind die verteilten externen Schnittstellen, die eine Kommunikation von Daten und Steuerinformationen zwischen den geteilten Betriebsmitteln und externen Datenquellen ermöglichen. Diese externen Datenquellen können beispielsweise Sekundärspeichersysteme (SMS-Systeme), Plattenlaufwerk- Speichersysteme, andere externe Prozessoren, wie Leitprozessoren oder Vorprozessoren, Kommunikationsnetzwerke und herkömmliche Ein-/Ausgabevorrichtungen, wie Drucker, Bildschirme und Arbeitsplatzrechner, umfassen. Die externen Schnittstellen sind bei der vorliegenden Erfindung mit einem oder mehreren Ein-/Ausgabe-Konzentratoren verbunden. Die Ein-/Ausgabe-Konzentratoren sind wiederum mit mehreren Kanaladaptern zum Koppeln mit externen Datenquellen (Peripherievorrichtungen) über Standardkanäle und mit einem einzigen Hochgeschwindigkeitskanal zum Koppeln mit einem SMS- System verbunden. Anders als die zentralen Ein- /Ausgabesteuerungen der vorliegenden Höchstleistungscomputersysteme mit geteiltem Speicher oder die gepufferten Ein- /Ausgabesysteme gegenwärtiger Höchstleistungscomputersysteme mit einer Speicherhierarchie erhöhen die verteilten ex ternen Schnittstellen gemäß der vorliegenden Erfindung die wirksame Übertragungsbandbreite zwischen den geteilten Betriebsmitteln und den externen Datenquellen. Weil die Verantwortlichkeit für die Ein-/Ausgabekommunikation über mehrere externe Schnittstellen verteilt ist und weil die externen Schnittstellen über mehrere Entscheidungsknoten mit den geteilten Betriebsmitteln verbunden sind, sind Übertragungsengpässe verringert.
Die vorliegende Erfindung betrifft eine Architektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem mit einem größeren Problemlösungsraum und einer höheren Verarbeitungsgeschwindigkeit als bei gegenwärtigen Höchstleistungscomputerarchitekturen. Diese Ziele werden durch die Symmetrie und die Ausgebogenheit des Aufbaus dieser Architektur auf mehreren Ebenen erreicht. Erstens wird den Prozessoren und den externen Schnittstellenmitteln ein gleichwertiger und symmetrischer Zugriff auf alle geteilten Betriebsmittel gewährt. Zweitens sind alle Prozessoren, externen Schnittstellenmittel und geteilten Betriebsmittel in der Lage, verteilt und demokratisch zu arbeiten. Dies ermöglicht es, daß die Prozessoren und die externen Schnittstellenmittel von der Betriebssystemsoftware als gleiche anfordernde Stellen angesehen werden. Drittens wird der Entwurf des Zugriffs auf das geteilte Betriebsmittel aus der Perspektive des geteilten Betriebsmittels und nicht aus der Perspektive des anfordernden Prozessors oder der anfordernden Ein-/Ausgabevorrichtung erzeugt. Schließlich kann das Betriebssystem bei der bevorzugten Ausführungsform die verschiedenen Prozesse von einem oder mehreren Benutzerprogrammen bei der Zuordnung dieser Prozesse zwischen den verschiedenen Prozessoren, externen Schnittstellenmittel und geteilten Betriebsmittel der vorliegenden Erfindung als gleiche und symmetrische Prozesse behandeln. Die Symmetrie der anfordernden Stellen ist im wesentlichen von der Zuordnung der Funktionseinheiten innerhalb eines Prozessors bis zur Zuordnung von Prozessen zu den verschiedenen Betriebsmitteln durch das Betriebssystem auf allen Ebenen der Architektur vorhanden. Die Symmetrie der Architektur ist bei der vorliegenden Erfindung von der Ebene oder dem Umfang der erwogenen Anforderung von Betriebsmitteln unabhängig.
Weiterhin wird bei der Architektur der vorliegenden Erfindung die Tatsache erkannt und verwendet, daß zwischen dem Zeitpunkt, zu dem eine anfordernde Stelle ein Betriebsmittel anfordert, und dem Zeitpunkt, zu dem das Betriebsmittel der anfordernden Stelle antwortet, eine Verzögerung auftritt. Bei der vorliegenden Erfindung wird im wesentlichen eine Pipelinetechnik zwischen einer Gruppe von anfordernden Stellen und den diesen anfordernden Stellen zugeordneten Betriebsmitteln verwendet, so daß zahlreiche Anforderungen eingeleitet werden können, ohne daß es erforderlich ist, auf den Abschluß einer früheren Anforderung zu warten.
Diese Pipelinetechnik ist in der ganzen Architektur der vorliegenden Erfindung auf jeder Ebene vorhanden. Auf der Prozessorebene werden ein skalares Mittel und ein vektorielles Mittel gleichzeitig pipelineförmig auf verschiedene Funktionseinheiten angewendet, um arithmetische und logische Operationen auszuführen. Auf der Entscheidungsknotenebene werden Anforderungen der geteilten Betriebsmittel auf einer symmetrischen Grundlage pipelineförmig angeordnet und eingereiht, und es wird auf einer symmetrischen Grundlage über sie entschieden. Auf der Clusterebene ordnet der Fernclusteradapter Anforderungen zwischen Clustern pipelineförmig an, reiht sie ein und entscheidet über sie. Auf der Be triebssystemebene werden die globalen Register und Unterbrechungsmechanismen verwendet, um auszuführende Prozesse pipelineförmig anzuordnen und einzureihen. Weiterhin unterstützt der Prozessor die pipelineförmige Ausführung während und durch den Übergang vom Benutzer zum Betriebssystem und zurück zum Benutzer, der auftritt, wenn eine Betriebssystemanforderung vorgenommen wird oder ein Signal (eine Unterbrechung) empfangen wird. Auf der Kompilationsebene verwendet der Kompilierer einen Datenmarkierungsmechanismus und einen Lade- und Kennzeichnungsmechanismus zum pipelineförmigen Anordnen von Aktivitäten geteilter Betriebsmittel innerhalb und zwischen Funktionseinheiten, Adressenströmen, Datenports, Teilprozessen, Prozessoren, externen Schnittstellenmitteln und Clustern. Weiterhin wird die Befehlspipeline durch die Verwendung des Füllbefehls durch den Kompilierer zum Vorladen des Befehls-Cache erhalten.
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Erzeugen einer Clusterarchitektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem bereitzustellen, das in der Lage ist, 16 bis 1024 Hochgeschwindigkeitsprozessoren in einer hochparallelen Architektur wirksam miteinander zu verbinden, durch die Spitzengeschwindigkeiten im Bereich von 10 bis 1000 GFLOPS erreicht werden können.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, einen Vielfachprozessor-Cluster aus eng gekoppelten Hochgeschwindigkeitsprozessoren bereitzustellen, der zu einer vektoriellen und einer skalaren Parallelverarbeitung in der Lage ist und der auf geteilte Betriebsmittel im selben Cluster und in verschiedenen Clustern symmetrisch zugreifen kann.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, eine Clusterarchitektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem bereitzustellen, das den symmetrischen Zugriff aller Prozessoren auf alle geteilten Betriebsmittel ermöglicht und die Anforderung zum Optimieren von Softwareanwendungen für eine spezielle Speicherhierarchie minimiert.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, eine Clusterarchitektur für ein hochparalleles skalres/vektorielles Vielfachprozessorsystem mit verteilten externen Schnittstellen bereitzustellen, die eine Kommunikation von Daten und Steuerinformationen zwischen geteilten Betriebsmitteln und externen Datenquellen ermöglichen.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, Mechanismen bereitzustellen, um die Verwirklichung paralleler Hochleistungsanwendungen jenseits des aktuellen Gebrauchs unter Einschluß einer Architekturunterstützung von Gleitkommaberechnungen mit erhöhter Genauigkeit, Festkommaberechnungen mit unbegrenzter Genauigkeit, einer booleschen Einheit für Hochleistungsbitmatrixmanipulationen, verschachtelter Parallelitätsebenen, des Anhaltens aller zusammenwirkenden Prozessoren bei einem Fehler und des Anhaltens aller zusammenwirkenden Prozessoren, wenn auf bestimmte Speicherstellen Bezug genommen wird, zu unterstützen.
Diese und andere Aufgaben der vorliegenden Erfindung werden anhand der Zeichnung, der detaillierten Beschreibung der bevorzugten Ausführungsform und der anliegenden Ansprüche verständlich werden.

BESCHREIBUNG DER ZEICHNUNG

Fig. 1 ist ein Blockdiagramm eines einzelnen Vielfachprozessor-Clusters gemäß der bevorzugten Ausführungsform der vorliegenden Erfindung.
Die Fig. 2a und 2b sind ein Blockdiagramm einer Vier- Cluster-Verwirklichung der bevorzugten Ausführungsform der vorliegenden Erfindung.
Fig. 3 ist ein Blockdiagramm eines einzelnen Vielfachprozessor-Clusters, in dem das Entscheidungsknotenmittel der bevorzugten Ausführungsform dargestellt ist.
Fig. 4 ist ein Blockdiagramm eines einzelnen skalaren/vektoriellen Prozessors gemäß der bevorzugten Ausführungsform.
Fig. 5 ist ein detaillierteres Blockdiagramm der Befehlsausführung-Logikelemente des in Fig. 4 dargestellten skalaren Mittels.
Fig. 6 ist ein detaillierteres Blockdiagramm des in Fig. 4 dargestellten vektoriellen Mittels.
Fig. 7 ist ein Blockdiagramm der booleschen Einheit beim vektoriellen Mittel der bevorzugten Ausführungsform der vorliegenden Erfindung.
Fig. 8 ist ein Blockdiagramm der verschiedenen Befehlspuffer, die den Befehls-Cache aufweisen.
Fig. 9 ist ein vereinfachtes Blockdiagramm des Betriebsablaufs eines Pufferfüllvorgangs des Befehls-Cache.
Fig. 10 ist ein Blockdiagramm des Bereichs des Hauptspeichers, der real einem einzelnen Cluster zugeordnet ist.
Die Fig. 11a und 11b sind Blockdiagramme für das Adressentranslationsschema der bevorzugten Ausführungsform.
Die Fig. 12a und 12b sind Diagramme der Speicheradressierungsschemata der vorliegenden Erfindung.
Fig. 13 ist ein Gesamtblockdiagramm eines einzelnen Entscheidungsknotens.
Fig. 14 ist ein detailliertes Blockdiagramm des Speicherdatenflusses zwischen einem Entscheidungsknoten und einem Speicherabschnitt.
Fig. 15 ist eine schematische Darstellung eines Zustandsdiagramms für ein MRT-System mit vier anfordernden Stellen gemäß der vorliegenden Erfindung.
Die Fig. 16a, 16b, 16c, 16d und 16e sind Zustandsdiagramme für das in Fig. 15 dargestellte MRT-System mit vier anfordernden Stellen.
Fig. 17 ist ein schematisches Diagramm eines Bankentscheidungsnetzwerks, in der eine Matrix relativer Zustände eines MRT-Systems mit siebzehn anfordernden Stellen dargestellt ist.
Die Fig. 18a, 18b und 18c sind detaillierte Schaltungsdiagramme für die in Fig. 17 dargestellte Matrix relativer Zustände für das MRT-System.
Die Fig. 19a und 19b sind Blockdiagramme für das MRCA- und das NRCA-Mittel.
Fig. 20 ist eine schematische Darstellung der verschiedenen Typen von Konflikten zwischen geteilten Betriebsmitteln, die bei der vorliegenden Erfindung auftreten können.
Die Fig. 21a, 21b, 21c und 21d sind schematische Darstellungen der Pipelinetechniken des Stands der Technik und der vorliegenden Erfindung.
Fig. 22 ist ein Blockdiagramm der globalen Register der vorliegenden Erfindung.
Fig. 23 ist ein Blockdiagramm eines Dateimittels globaler Register innerhalb der in Fig. 22 dargestellten globalen Register.
Fig. 24 ist eine schematische Darstellung eines Ablaufdiagramms, in dem die Adressierung globaler Register dargestellt ist.
Die Fig. 25a und 25b sind schematische Darstellungen der Abbildung realer Adressen globaler Register und der Verwirklichung der Adressen globaler Register.
Fig. 26 ist eine schematische Darstellung der Verwirklichung einer Signalvorrichtungsauswahl.
Fig. 27 ist ein Gesamtblockdiagramm, in dem die Signale (Unterbrechungen) der vorliegenden Erfindung dargestellt sind.
Die Fig. 28a und 28b sind Blockdiagramme der Schnelle- Unterbrechung-Einrichtung der vorliegenden Erfindung.
Fig. 28c ist ein detailliertes Schaltungsdiagramm der in den Fig. 28a und 28b dargestellten Schnelle- Unterbrechung-Einrichtung.
Fig. 29 ist ein Gesamtblockdiagramm des Ein-/Ausgabe- Untersystems der vorliegenden Erfindung.
Fig. 30a, 30b und 30c sind schematische Diagramme der verschiedenen Befehlsformate.
Fig. 31 ist ein schematisches Flußdiagramm der Verarbeitung einer Unterbrechung, einer Ausnahme oder eines Systemaufrufs.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Mit Bezug auf Fig. 1 wird nun ein einzelner Vielfachprozessor-Cluster gemäß der bevorzugten Ausführungsform der vorliegenden Erfindung beschrieben. Eine Clusterarchitektur für ein hochparalleles skalares/vektorielles Vielfachprozessorsystem gemäß der vorliegenden Erfindung ist in der Lage, mehrere Hochgeschwindigkeitsprozessoren 10 zu unterstützen, die eine große Gruppe geteilter Betriebsmittel 12 (beispielsweise einen Hauptspeicher 14, globale Register 16 und Unterbrechungsmechanismen 18) geteilt verwenden. Die Prozessoren 10 sind zu einer vektoriellen und einer skala ren Parallelverarbeitung in der Lage und über ein Entscheidungsknotenmittel 20 mit den geteilten Betriebsmitteln 12 verbunden. Die Prozessoren 10 sind auch über das Entscheidungsknotenmittel 20 und mehrere externe Schnittstellenmittel 22 und Ein-/Ausgabe-Konzentratormittel 24 mit einer Anzahl externer Datenquellen 26 verbunden. Die externen Datenquellen 26 können ein Sekundärspeichersystem (SMS- System) 28 aufweisen, das über einen Hochgeschwindigkeitskanal 30 mit dem Ein-/Ausgabe-Konzentratormittel 24 verknüpft ist. Die externen Datenquellen 26 können auch eine Anzahl anderer peripherer Vorrichtungen und Schnittstellen 32 aufweisen, die über einen oder mehrere Standardkanäle 34 mit dem Ein-/Ausgabe-Konzentratormittel verknüpft sind. Die peripheren Vorrichtungen und Schnittstellen 32 können Plattenspeichersysteme, Bandspeichersysteme, Endgeräte und Arbeitsstationen, Drucker, externe Prozessoren und Kommunikationsnetzwerke umfassen. Die Prozessoren 10, geteilten Betriebsmittel 12, Entscheidungsknotenmittel 20 und externen Schnittstellenmittel 22 weisen zusammen einen einzelnen Vielfachprozessor-Cluster 40 für ein hochparalleles vektorielles/skalares Vielfachprozessorsystem gemäß der vorliegenden Erfindung auf.
Die vorliegende Erfindung löst die bei Schnittstellen mit Direktverbindung auftretenden Probleme gegenwärtiger Höchstleistungscomputersysteme mit geteiltem Speicher durch reales Organisieren der Prozessoren 10, geteilten Betriebsmittel 12, Entscheidungsknotenmittel 20 und externen Schnittstellenmittel 22 zu einem oder mehreren Clustern 40. Es gibt bei der in Fig. 2 dargestellten bevorzugten Ausführungsform vier Cluster, nämlich 40a, 40b, 40c und 40d. Jeder der Cluster 40a, 40b, 40c und 40d weist real seine eigene Gruppe von Prozessoren 10a, 10b, 10c und 10d, geteil ten Betriebsmitteln 12a, 12b, 12c und 12d und externen Schnittstellenmitteln 22a, 22b, 22c und 22d auf, die diesem Cluster zugeordnet sind. Die Cluster 40a, 40b, 40c und 40d sind über ein Fernclusteradaptermittel 42 miteinander verbunden, das ein integrierter Bestandteil jedes Entscheidungsknotenmittels 20a, 20b, 20c und 20d ist, wie später in näheren Einzelheiten erklärt wird. Wenngleich die Cluster 40a, 40b, 40c und 40d real getrennt sind, ermöglicht die logische Organisation der Cluster und die reale Verbindung über das Fernclusteradaptermittel 42 den gewünschten symmetrischen Zugriff auf alle geteilten Betriebsmittel 12a, 12b, 12c und 12d über alle Cluster 40a, 40b, 40c und 40d hinweg.
Bei der bevorzugten Ausführungsform eines einzelnen Clusters 40 sind, wie in Fig. 1 dargestellt ist, insgesamt 32 einzelne Prozessoren 10 und 32 externe Schnittstellenmittel 22 über das Entscheidungsknotenmittel 20 mit den geteilten Betriebsmitteln 12 verbunden. Die Clusterarchitektur gemäß der vorliegenden Erfindung ermöglicht das Organisieren von maximal 256 Prozessoren 10 und 256 externen Schnittstellenmitteln 22 zu einem einzelnen Cluster 40. Wenngleich vier Cluster 40a, 40b, 40c und 40d bei der in Fig. 2 dargestellten bevorzugten Ausführungsform miteinander verbunden sind, sei bemerkt, daß bei einem einzelnen hochparallelen Vielfachprozessorsystem gemäß der vorliegenden Erfindung maximal 256 Cluster miteinander verbunden werden können. Demgemäß würde sich bei einer vollen Erweiterung der Architektur der vorliegenden Erfindung ein Vielfachprozessorsystem mit 65536 Prozessoren ergeben.
Mit Bezug auf Fig. 3 wird nun die bevorzugte Ausführungsform des Entscheidungsknotenmittels 20 für einen einzelnen Cluster 40 beschrieben. Auf einer Konzeptebene beinhaltet das Entscheidungsknotenmittel 20 mehrere Kreuzschienenschaltermechanismen, die die Prozessoren 10 und externen Schnittstellenmittel 22 symmetrisch mit den geteilten Betriebsmitteln 12 im selben Cluster 40 und über das Fernclusteradaptermittel 42 mit den geteilten Betriebsmitteln 12 in anderen Clustern 40 verbinden. Typischerweise ermöglicht ein Voll-Kreuzschienenschalter das Verbinden jeder anfordernden Stelle mit jedem Betriebsmittel, wenn es eine entsprechende Anzahl von anfordernden Stellen und Betriebsmitteln gibt. Bei der vorliegenden Erfindung ermöglicht das Entscheidungsknotenmittel 20 das Erreichen eines ähnlichen Ergebnisses wie bei einem Voll-Kreuzschienenschalter, wenn es mehr anfordernde Stellen als Betriebsmittel gibt. Bei der bevorzugten Ausführungsform besteht das Entscheidungsknotenmittel 20 aus sechzehn Entscheidungsknoten 44 und dem Fernclusteradaptermittel 42. Das Fernclusteradaptermittel 42 ist in ein Knotenfernclusteradaptermittel (NRCA-Mittel) 46 und ein Speicherfernclusteradaptermittel (MRCA-Mittel) 48 unterteilt. Das NRCA-Mittel 46 ermöglicht es dem Entscheidungsknoten 44, auf das Fernclusteradaptermittel 42 aller anderen Vielfachprozessor-Cluster 40 zuzugreifen. In ähnlicher Weise steuert das MRCA-Mittel 48 den Zugriff des Fernclusteradaptermittels 42 aller anderen Vielfachprozessor-Cluster 40 auf die geteilten Betriebsmittel 12 dieses Clusters 40.
Bei dieser Ausführungsform verbinden die sechzehn Entscheidungsknoten 44 zweiunddreißig Prozessoren 10 und zweiunddreißig externe Schnittstellenmittel 22 mit dem Hauptspeicher 14 und dem NRCA-Mittel 46. Jeder Entscheidungsknoten 44 ist durch acht bidirektionale parallele Wege 50 mit dem Hauptspeicher 14 verbunden. Ein einzelner paralleler bidi rektionaler Weg 52 verbindet jeden Entscheidungsknoten 44 mit dem NRCA-Mittel 46. Bei der bevorzugten Ausführungsform wird derselbe Weg 52 von jedem Entscheidungsknoten 44 auch verwendet, um den Entscheidungsknoten 44 mit den globalen Registern 16 und dem Unterbrechungsmechanismus 18 zu verbinden, wenngleich zu bemerken ist, daß zum Erreichen dieser Verbindung getrennte Wege verwendet werden könnten. Wie weiter unten in näheren Einzelheiten erklärt wird, beträgt das minimale Verhältnis zwischen den Prozessoren 10 und den Entscheidungsknoten 44 2 : 1. Demgemäß beträgt die maximale Anzahl von Entscheidungsknoten 44 je Cluster 40 128.
Ebenso wie jeder der Entscheidungsknoten 44 ist das MRCA- Mittel 48 über acht parallele bidirektionale Wege 54 mit dem Hauptspeicher 14 verbunden. In ähnlicher Weise verbindet ein einziger paralleler bidirektionaler Weg 56 das MRCA-Mittel 48 mit den globalen Registern 16 und dem Unterbrechungsmechanismus 18. Es werden insgesamt sechs parallele bidirektionale Wege 58 verwendet, um den Cluster mit zwei bidirektionalen Wegen 58 von jedem Cluster zu jedem anderen Cluster zu verbinden. Beispielsweise weist der Cluster 40a zwei Wege 58 auf, die eine Verbindung mit jedem Cluster 40b, 40c und 40d herstellen. Auf diese Weise ermöglicht das MRCA-Mittel 48, daß andere Cluster 40 direkten Zugriff auf die geteilten Betriebsmittel 12 dieses Clusters 40 haben.
Die Wege 50, 52, 54, 56 und 58 weisen jeweils einen Anforderungsdatenweg und einen Speicherdatenweg mit Fehlerkorrekturcodes und Steuer- und Adreßsignalen mit Paritätsbits auf. Alle Wege 50, 52, 54, 56 und 58 sind in der Lage, Übertragungen bei einer Rate von einem Datenwort in jedem Taktzyklus anzufordern. Es wird geschätzt, daß die Latenz bei einem Zugriff auf ein geteiltes Betriebsmittel bei einer Zwischenclusteranforderung über die Wege 58 das 1,5- bis 2fache der Latenz eines Innerclusterzugriffs über die Wege 50 ist. Bei der bevorzugten Ausführungsform bestehen alle Wege aus zwei elektrischen Verbindungen, die ein differentielles Signal für jedes Informationsbit unterstützen können. Differentielle Signale werden zum Verringern des elektrischen Rauschens, von Überspannungen und von Interferenzen verwendet, die bei der bevorzugten Ausführungsform infolge der hohen Taktgeschwindigkeiten und der großen realen Nähe der Wege auf den Wegen 50, 52, 54, 56 und 58 auftreten können.
Anders als bei den Direktverbindungsschnittstellen der Höchstleistungscomputer mit einem geteilten Speicher oder dem unterteilten Speicher der Höchstleistungscomputer mit einem Hierarchiespeicher bietet das Entscheidungsknotenmittel 20 einen logisch symmetrischen Zugriff jedes Prozessors 10 auf alle geteilten Betriebsmittel 12 und minimiert die Anforderung, Softwareanwendungen für eine spezielle Speicherhierarchie zu optimieren. Diese Symmetrie des Zugriffs geschieht sowohl innerhalb des Clusters 40 als auch zwischen Clustern 40 über das Fernclusteradaptermittel 42. Wenngleich die vorliegende Erfindung die logische Fähigkeit, symmetrisch auf alle geteilten Betriebsmittel 12 in jedem Cluster 40 zuzugreifen, und die physikalische Gleichheit des symmetrischen Zugriffs auf alle geteilten Betriebsmittel 12 bereitstellt, wird verständlich sein, daß sich die Raten des realen Zugriffs auf das geteilte Betriebsmittel 12 ändern. Zum Verstehen, wie das Entscheidungsknotenmittel 20 einen symmetrischen Zugriff auf die geteilten Betriebsmittel 12 bereitstellen kann, ist es wichtig, die Organisation des Prozessors 10 und des Hauptspeichers 14 bei der vorliegenden Erfindung zu verstehen.

Der Prozessor

In Fig. 4 zeigt ein Blockdiagramm einen einzelnen Prozessor 100, der einen der mehreren Prozessoren 10 gemäß der bevorzugten Ausführungsform der vorliegenden Erfindung aufweist.
Der Prozessor 100 ist logisch und real in ein skalares Mittel 102 und ein vektorielles Mittel 104 unterteilt. Das skalare Mittel 102 und das vektorielle Mittel 104 haben jeweils ihre eigene Registergruppe und zweckgebundene arithmetische Betriebsmittel, wie weiter unten in näheren Einzelheiten beschrieben wird. Alle Register und Datenwege im Prozessor 100 sind 64 Bits (ein Wort) breit. Für das skalare Mittel 102 gibt es 64 skalare S-Register und 512 lokale L-Register. Die L-Register dienen als ein durch Software verwalteter Register-Cache für das skalare Mittel 102. Das vektorielle Mittel 104 weist 16 vektorielle V-Register auf. Die Architektur kann bis zu einer Gesamtkombination von 256 S- und V-Registern je Prozessor 100 unterstützen. Jeder Prozessor 100 weist auch bis zu 256 Steuer-C-Register auf (Fig. 5), die real über den Prozessor 100 verteilt sind und verwendet werden, um Steuerinformationen zu sammeln und festzulegen, die dem Betrieb des Prozessors zugeordnet sind.
Anders als die meisten bisherigen skalaren/vektoriellen Prozessoren sind das skalare Mittel 102 und das vektorielle Mittel 104, die den Hochgeschwindigkeitsprozessor 100 gemäß der bevorzugten Ausführungsform aufweisen, zu einem gleichzeitigen Betrieb in der Lage. Das skalare Mittel 102 und das vektorielle Mittel 104 weisen jeweils mehrere arithmetische Betriebsmittel in Form arithmetischer Funktionseinheiten 106 auf. Für das skalare Mittel 102 weisen die arithmetischen Funktionseinheiten 106 folgendes auf: eine skalare Einheit SU0 (Teilen, Abheben und Parität), eine skalare Einheit SU1 (Gleiten, Multiplikation, Multiplikation ganzer Zahlen und logische Operationen) sowie eine skalare Einheit SU2 (Gleiten, Addition, Addition ganzer Zahlen und Verschiebungsoperationen). Für das vektorielle Mittel 104 weisen die arithmetischen Funktionseinheiten 106 folgendes auf: eine vektorielle Einheit VU0 (Teilen, Abheben, Parität und boolescher Wert), vektorielle Einheiten VUl und W2 (Gleiten, Multiplikation, Multiplikation ganzer Zahlen und logische Operationen) sowie vektorielle Einheiten W3 und VU4 (Gleiten, Addition, Addition ganzer Zahlen, logische Operationen und Verschiebungsoperationen). Interne Wege 108 zu jeder der Funktionseinheiten 106 können in dem skalaren Mittel 102 und dem vektoriellen Mittel 104 unabhängig voneinander zugeordnet werden, und es können alle Funktionseinheiten 106 gleichzeitig arbeiten, wodurch es dem skalaren Mittel 102 und dem vektoriellen Mittel 104 ermöglicht wird, gleichzeitig zu arbeiten. Es werden zwischen dem skalaren Mittel 102 und dem vektoriellen Mittel 104 keine gemeinsamen Funktionseinheiten 106 geteilt.
Mit Bezug auf Fig. 5 sei bemerkt, daß das skalare Mittel 102 alle Steuerinformationen in Form von Anweisungen über einen Befehls-Cache 110 empfängt. Der Befehls-Cache 110 ist über einen Befehlsanforderungsport 112 mit einem Entscheidungsknoten 44 verbunden. Dem skalaren Mittel 102 und dem vektoriellen Mittel 104 werden über eine Reihe von Datenports Dateninformationen zugeführt. Ein einzelner bidirektionaler skalarer Datenport 114 unterstützt sowohl ein Le sen aus den S- und L-Registern im skalaren Mittel 102 als auch ein Schreiben in diese. Vier vektorielle Leseports 116 und zwei vektorielle Schreibports 118 unterstützen Datenübertragungen zum vektoriellen Mittel 104. Die Arbeitsweise der Ports 112, 114, 116 und 118 wird nachfolgend in näheren Einzelheiten in Zusammenhang mit der Erörterung der Entscheidungsknoten 44 beschrieben.
Eine Befehlsausführungseinheit 120 im skalaren Mittel 102 weist ein Decodier- und Ausgabemittel 122, ein Verzweigungslogikmittel 124, ein Programmzählerregister (PC- Register) 126 und ein Literalübertragungsmittel 128 auf. Die Befehlsausführungseinheit 120 ist hinsichtlich des Anforderns, Decodierens und Ausführens von Befehlen pipelineförmig aufgebaut. Die Befehlspipeline kann eine Befehlsausgaberate von einem Befehl je Zyklus aufrechterhalten. Alle Befehle werden direkt ohne das Unterstützen von Mikrocode decodiert. Die Befehlsausgabe und -steuerung wird für skalare und vektorielle Befehle getrennt durch das skalare Mittel 102 bzw. das vektorielle Mittel 104 behandelt. Ein- und Zwei-Paket-Befehle (32 Bits je Paket) werden im Befehls-Cache 110 unterstützt. Eine detailliertere Erörterung der Befehle des Prozessors 100 wird nachfolgend in Zusammenhang mit den Anhängen A und B vorgenommen.
Jeder Befehl, ob vektoriell oder skalar, hat einen als Ausgabe bezeichneten nominellen Anfangspunkt. Alle skalaren und vektoriellen Befehle müssen einen Befehl zur Zeit ausgeben (also mit seiner Ausführung beginnen). Nach dem Ausgabe-Taktzyklus werden unter Verwendung der verschiedenen arithmetischen Funktionseinheiten 106 des skalaren Mittels 102 bzw. des vektoriellen Mittels 104 Operanden pipelineförmig gelesen und Operationen pipelineförmig ausgeführt, falls diese Funktionen vom Befehl angefordert werden. Die Befehle können in jeder beliebigen Reihenfolge abgeschlossen werden.
Skalare und vektorielle Befehle müssen zur Ausgabe unterschiedliche Anforderungen erfüllen. Eine skalare Operation wird nicht eingeleitet, bevor alle Operandendaten und die erforderlichen Betriebsmittel verfügbar sind. Sobald ein skalarer Befehl ausgegeben wird, wird seine Ausführung in einer festgelegten Anzahl von Taktzyklen abgeschlossen. Anders als bei aktuellen Vektorprozessoren kann ein vektorieller Befehl bei der vorliegenden Erfindung ohne Berücksichtigung der Verfügbarkeit der erforderlichen vektoriellen Betriebsmittel ausgegeben werden. Es ist nicht nur möglich, daß die erforderlichen vektoriellen Daten nicht verfügbar sind, sondern es sind möglicherweise die V-Register, die Speicherports (wie weiter unten erklärt) und die Funktionseinheiten 106 alle belegt. Für das Ausgeben eines vektoriellen Befehls muß jedoch die Verfügbarkeit skalarer Daten geprüft werden, die möglicherweise erforderlich sind, wie es bei skalaren/vektoriellen Operationen oder bei einem für eine Speicheradresse erforderlichen skalaren Wert der Fall ist.
Mit Bezug auf Fig. 6 sei bemerkt, daß ein vektorieller Befehl "eingeleitet" werden muß, sobald er ausgegeben wurde. Die vektorielle Steuereinheit 130 beginnt jeden vektoriellen Befehl wiederum so, daß maximal einer je Taktzyklus ausgeführt wird, nachdem die Verfügbarkeit der erforderlichen Betriebsmittel für den vektoriellen Befehl geprüft wurde. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung enthält eine vektorielle Einleitungswarteschlange 132 bis zu fünf vektorielle Befehle, die ausgegeben, aber noch nicht eingeleitet wurden. Ein vektorieller Befehl kann nur dann eingeleitet werden, wenn die erforderlichen V- Register nicht belegt sind. Ein vektorieller Befehl kann eingeleitet werden, bevor eine Funktionseinheit 106 oder ein Speicherport verfügbar ist, die vektorielle Steuereinheit 130 verzögert das erste Element der vektoriellen Operation jedoch so lange, bis die vorhergehende Operation bezüglich der Funktionseinheit 106 oder dem Speicherport abgeschlossen ist.
Wegen dem Unterschied zwischen der Ausgabe und dem Einleiten hinsichtlich des vektoriellen Mittels 104 befinden sich das vektorielle Mittel 104 und das skalare Mittel 102 nicht im Verriegelungsschritt, so daß keine Annahmen über die Synchronisation gemacht werden sollten. Zwischen dem skalaren Mittel 102 und dem vektoriellen Mittel 104 sollten Speichersynchronisationsregeln befolgt werden. Daß ein zweites Laden in ein V-Register eingeleitet worden ist, bedeutet beispielsweise noch nicht, daß das erste Laden in dieses V-Register abgeschlossen ist.
Mit Bezug auf Fig. 7 wird nun die Arbeitsweise der booleschen Einheit beschrieben. Die boolesche Einheit ist eine der dem vektoriellen Mittel 104 zugeordneten Funktionseinheiten 106. Die boolesche Einheit ist ein vom Benutzer programmierbares, vollständig pipelineförmiges, paralleles Bitmanipulationsmittel, das in der Lage ist, in jedem Takt einen 64-Bit-Operanden in ein 64-Bit-Ergebnis umzuwandeln. Dieses Bitmanipulationsmittel wird durch Laden einer 4096- Bit-Zustandsmatrix aus einem Vektorregister unter Verwendung des Idbool-Befehls programmiert. Die Zustandsmatrix spezifiziert die logische Transformation des Operandenbitstroms. Diese Transformation geschieht, wenn der boole sche Befehl mit einem Vektorregisteroperanden und einem Vektorregisterergebnis ausgeführt wird.
Mit Bezug auf die Fig. 8 und 9 wird nun die Arbeitsweise des Befehls-Cache 110 (Fig. 4 und 5) beschrieben. Der Befehls-Cache 110 besteht aus sechzehn Puffern 140. Jeder Puffer 140 kann 32 Wörter (64 Pakete) an Befehlen halten. Die Puffer sind logisch und real zu vier Spalten 142a, 142b, 142c und 142d mit vier Puffern 140 je Spalte 142a - d organisiert. Jede Spalte 142a - d weist eine Fülladressenlogik und eine Leseadressenlogik auf, die voneinander getrennt sind. Die Puffer 140 in jeder Spalte 142a - d sind so angeordnet, daß ein folgender Block von Adressen mit von 0-31 (Puffer 0, 1, 2 und 3), 32-63_(Puffer 4, 5, 6 und 7), 64-95 (Puffer 8, 9, 10 und 11) und 96-127 (Puffer 12, 13, 14 und 15) reichenden Adressen niederwertiger Bits adressiert wird. Auf diese Weise sind die Spalten 142a - d über vier Wege assoziativ, was bedeutet, daß ein Wort bei irgendeiner gegebenen Adresse abhängig von den höherwertigen Bits der Adresse in einer der vier Spalten 142a - d gefunden werden kann. Eine Wählpufferlogik 144 wird verwendet, um zu wählen, welche der vier Spalten 142a - d zur Befehlsausführungseinheit 120 hin multiplexiert wird (Fig. 5).
Im Grunde ist ein Befehls-Cache ein Kompromiß zwischen der Anforderung, Befehle dem Prozessor schnell verfügbar zu machen und der praktischen Unmöglichkeit, daß jeder Befehl an einer getrennt adressierbaren Speicherzelle gespeichert wird. Bei einem typischen Befehls-Cache wird ein einzelner kleinerer Block von Befehlen in eine Cache-Hardware mit einem schnelleren Zugriff geladen, um die Zugriffszeit zu erhöhen. Falls ein Befehl nicht im Cache gefunden wird (es wird beispielsweise aus dem Bereich des Cache herausgesprungen), müssen neue Befehle aus dem. Hautspeicher in den Cache geladen werden. Falls ein Programm viele Sprünge oder Verzweigungen enthält, kann dieser Prozeß des Ladens neuer Befehle in den Cache wiederholt ausgeführt werden, was zu einem als Cache-Verschwendung bekannten unerwünschten Zustand führt. Die Organisation des Befehls-Cache 110 als ein über vier Wege assoziativer Puffer ermöglicht es, daß beim Befehls-Cache 110 gemäß der bevorzugten Ausführungsform sowohl die Befehlsanforderungszeiten als auch die Cache- Verschwendung minimiert werden.
Bei der bevorzugten Ausführungsform enthält das PC-Register 126 (Fig. 5) eine 34-Bit-Wort-Adresse, die verwendet wird, um die 64-Bit-Wörter aus dem Befehls-Cache 110 abzurufen. Wörter werden aus dem Befehls-Cache 110 bei einer Rate von bis zu einem Wort je Taktzyklus abgerufen, je nachdem, wie es die Befehlsausführungseinheit 120 benötigt. Es gibt keinen Zyklus-Mehraufwand für Zwei-Paket-Befehle. Die im PC- Register 126 angetroffenen Adressen sind folgendermaßen definiert:
die Bits 0-4 wählen ein Wort innerhalb eines Puffers 140 aus,
die Bits 5-6 wählen einen Puffer 140 innerhalb einer Spalte 142 aus, und
die Bits 7-33 werden verwendet, um eine Übereinstimmung mit dem Etikett für diesen Befehl herzustellen.
Das Etikett für den Befehl wird erzeugt, wenn der Befehl aus dem Hauptspeicher 14 ausgelesen wird, wie weiter unten in dem Abschnitt bezüglich des Hauptspeichers beschrieben wird. Im allgemeinen kann das Etikett als die höherwertigen logischen Adreßbits für einen 32-Wort-Block von Befehlen angesehen werden. Für jeden Puffer 140 ist den in diesem Puffer gespeicherten Befehlen ein eindeutiges Etikett zugeordnet. Beispielsweise könnte der Puffer 0 die 32 Befehle enthalten, die die Adressen "1C00" bis "1C1F" aufweisen, und der Puffer 4 könnte die 32 Befehle enthalten, die die Adressen "C320" bis "C33F" aufweisen.
Falls für das Etikett des nächsten angeforderten Befehls nicht innerhalb von einem der Puffer 140 eine Übereinstimmung gefunden wird, tritt eine "Außerhalb-des-Puffers"- Bedingung auf, und die Hardware beginnt automatisch mit einem Pufferfüllvorgang. Einer der vier Puffer 14 0, der die gleichen niedrigstwertigen Bits wie der angeforderte Befehl (die Bits 0-4) enthält, wird während des Pufferfüllvorgangs zum Überschreiben auf einer "Am-längsten-nicht- benutzt-Grundlage" ausgewählt. Diesem Puffer wird ein neuer Etikettwert gegeben, und er wird vom Hauptspeicher 14 gefüllt. Der Pufferfüllvorgang beginnt mit dem Wort, auf das das PC-Register 126 zeigt, und durchläuft zyklisch alle 32 Wörter in diesem speziellen Puffer 140. Wenn der Pufferfüllvorgang abgeschlossen ist, enthält der Puffer 140 32 neue Befehlswörter, die im Hauptspeicher 14 als eine 32- Wort-Grenze angeordnet sind.
In Fig. 9 ist ein vereinfachtes Diagramm des Betriebsablaufs bei einem automatischen Pufferfüllvorgang dargestellt. Bei diesem Beispiel bewirkt ein Springe-zur-Stelle- "84"-Befehl den Pufferfüllvorgang, weil die Stelle "84" in keinem der Puffer 140 des Cache 110 gefunden wird. Eine der vier Spalten der Puffer 140 wird durch einen "Am-längsten- nicht-benutzt-Algorithmus" ausgewählt. Die Zeile wird auf der Grundlage der Bits 5-6 des PC-Registers 26 ausgewählt. Der Pufferfüllvorgang beginnt beim Wort "84" im Hauptspeicher 14, wird über das Ende des 32-Wort-Bereichs fortgesetzt und läuft dann zyklisch zur vorhergehenden 32- Wort-Grenze zurück und wird über das Wort "83" fortgesetzt, wodurch das Füllen des bestimmten Puffers 140 abgeschlossen wird. Auf diese Weise wird ein 32-Wort-Befehlsblock aus dem Hauptspeicher 14 geladen, das Zielwort wird jedoch zuerst geladen. Die Ausführung kann wiederaufgenommen werden, sobald das Wort "34" im Befehlspuffer 140 auftritt. Ein Programm kann durch Angeben eines "Füllbefehls" explizit einen Pufferfüllvorgang anfordern. Der Füllbefehl gibt eine Adresse im Hauptspeicher 14 an, er gibt jedoch nicht an, in welchen Puffer 140 die Befehle geladen werden. Der Puffer wird auf der Grundlage desselben Am-längsten-nicht-benutzt- Algorithmus ausgewählt, der in Reaktion auf eine Außerhalb- des-Puffers-Bedingung für ein automatisches Pufferfüllen verwendet wird.

Der Hauptspeicher

Mit Bezug auf Fig. 10 zeigt ein Blockdiagramm des Hauptspeichers 14 den geteilten Bereich des Hauptspeichers 14, der sich real innerhalb eines einzelnen Clusters 40 befindet. Der Speicherbereich 200 ist ein stark verschachteltes Mehrport-Speichersystem, das eine äußerst hohe Bandbreite bereitstellt. Bei der bevorzugten Ausführungsform ist der Speicherbereich 200 für jeden Cluster 40 zu acht Speicherabschnitten 202 organisiert. Die Architektur der vorliegenden Erfindung kann bis zu 256 Abschnitte 202 des Speichers je Cluster 40 unterstützen.
Jeder Speicherabschnitt 202 weist siebzehn Ports 204 zum Verbinden des Speicherabschnitts 202 mit den parallelen Lese-/Schreibwegen 50 und 54 auf. Ein Port 204 ist jedem der sechzehn Entscheidungsknotenmittel 20 zugeordnet, und der siebzehnte Port 204 unterstützt das MRCA-Mittel 48. Jeder Speicherabschnitt 202 ist durch eine Ein- und Ausgabesteuerlogik weiter in acht Unterabschnitte 206 eingeteilt. Jeder Unterabschnitt 206 weist acht Bänke 208 für einen Gesamt-Cluster-Bank-Verschachtelungsfaktor von 512 auf. Bei der bevorzugten Ausführungsform ist der Speicherbereich 200 unter Verwendung von 1-Megabit-SRAMs verwirklicht, die einen Gesamtspeicherplatz von 512 Millionen Wörtern je Cluster 40 bereitstellen, wobei eine Million Wörter je Bank 208 vorgesehen sind. Alle Datenwörter sind 64 Bits breit, und sie sind durch einen 8-Bit-SECDED-(einfache Fehlerkorrektur, doppelte Fehlererfassung)-Code geschützt.
Jede von einem Prozessor 100 an den Hauptspeicher 14 gerichtete Anforderung, unabhängig davon, ob sie eine Lese- oder eine Schreibanforderung ist, wird als ein Speicherbezug dargestellt und durchläuft eine als Speicherabbildung bezeichnete Transformation. Eine Speicherabbildung wird vom Betriebssystem des Vielfachprozessorsystems der vorliegenden Erfindung verwendet, um die geteilten Betriebsmittel 12 zuzuweisen und es zu ermöglichen, daß mehr als ein Programm oder Prozeß in einem einzelnen Prozessor 100 ausgeführt wird, wie weiter unten in näheren Einzelheiten erklärt wird. Insbesondere wird durch das Speicherabbildungsschema der vorliegenden Erfindung die Anforderung minimiert, Softwareprogramme für eine bestimmte Speicherhierarchie zu optimieren. Weil die reale Abbildung in dem Sinne vor dem Benutzerprogramm verborgen ist, daß die realen Adressen nicht explizit codiert sind, braucht der Benutzercode nicht geändert zu werden, um eine Änderung in den Prozessoren 10, den Speicherabschnitten 202, den globalen Registern 16 oder den Clustern 40 auszuführen, in denen das Programm abläuft. Es sei bemerkt, daß Konfigurationsänderungen des Speicheradressierungsschemas keine Änderungen des Benutzerprogramms erfordern.
Nun wird der Speicherabbildungsprozeß gemäß der bevorzugten Ausführungsform mit Bezug auf die Fig. 11a und 11b erklärt. Jeder Speicherbezug ist als ein Befehlsbezug oder ein Operandenbezug klassifiziert. Ein Befehlsbezug liest, wie in Fig. 11a dargestellt ist, Wörter des Speichers in Form von Befehlen in den Befehls-Cache 110. Ein in Fig. 11b dargestellter Operandenbezug liest oder schreibt S- Register, L-Register oder Elemente eines V-Registers. Für jede Anforderung wird durch den Prozessor 100 von einem Befehl, einem Register oder einer Speicherstelle eine logische Adresse erzeugt und in eine reale Adresse abgebildet und in Form eines Speicherbezugs an den Hauptspeicher 14 übergeben.
Bei der bevorzugten Ausführungsform sind ein oder mehrere Segmente durch den Inhalt von mehreren Abbildungsregistern bestimmt, die die Anfangs-, End- und Verschiebungswerte für jedes Segment festlegen. Ein Befehlsbezug wird bezüglich des Befehlsabbildungsregisters geprüft, und ein Operandenbezug wird bezüglich des Datenabbildungsregisters geprüft. Die Abbildungsregister sind eine Untergruppe der C-Register des Prozessors 100. Für Operandenbezüge ist wenigstens ein Segment je Cluster 40 definiert, das bei der speziellen Konfiguration des Vielfachprozessorsystems verwendet wird.
Zum Abbilden werden zwei Operationen für jeden Speicherbezug ausgeführt. Zuerst kann die logische Adresse einem Segment zugeordnet werden, und sie muß innerhalb eines durch einen Anfang/Ende-Vergleich für dieses Segment defi nierten Adressenbereichs liegen. Falls der Speicherbezug für irgendwelche der Segmente nicht innerhalb des aktuellen Adressenbereichs liegt, wird eine Adressentranslationsausnahme erzeugt, und es wird keine Anforderung an den Hauptspeicher 14 gerichtet. Als nächstes wird die Verschiebung für das geeignete Segment zur logischen Adresse addiert, um die reale Adresse zu erzeugen. Bei der bevorzugten Ausführungsform wird der Anfang/Ende-Wert in den Befehlsregistern mit den 20 höchstwertigen Bits einer logischen 34-Bit- Adresse verglichen, wodurch eine minimale Abbildungsgranularität von 16 K Wörtern festgelegt wird. Für Befehlsbezüge gleichen die 14 niedrigstwertigen Bits der logischen und realen Adressen einander. Die minimale Abbildungsgranularität für einen Operandenbezug beträgt 64 K Wörter, wenn die Anfang/Ende-Werte der Operandenregister mit den 18 höchstwertigen Bits einer logischen 34-Bit-Adresse verglichen werden. Für Operandenbezüge gleichen die 16 niedrigstwertigen Bits der logischen und realen Adressen einander. Sobald ein Speicherbezug abgebildet wurde, wird er adressiert und zur geeigneten realen Bank 208 des Hauptspeichers 14 übertragen, unabhängig davon, ob sich die Speicherbank 208 im Speicherbereich 200 des Clusters 40 des den Speicherbezug vornehmenden Prozessors 100 oder anderswo in einem anderen Bereich des Hauptspeichers 14, der physikalisch einem Ferncluster 40 zugeordnet ist, befindet.
Das vom Hauptspeicher 14 gemäß der vorliegenden Erfindung verwendete Speicheradressierungsschema ist so aufgebaut, daß die Speichersystem-Wartezeiten minimiert werden. Die niedrigstwertigen Adreßbits werden verwendet, um zwischen den Hauptbetriebsmitteln innerhalb des Hauptspeichers 14 (also zwischen den Speicherabschnitten 202) zu verschachteln, während die nächst-niedrigstwertigen Bits verwendet werden, um bei der nächst-wesentlichen Unterteilung (also den Unterabschnitten 206, den Bänken 208) zu verschachteln und dergleichen. Bei dieser Organisation ist die Verteilung des Speicherbezüge für Adressenströme mit einer ungeraden Schrittweite, also einem ungeraden Inkrement zwischen aufeinanderfolgenden Adressen, maximiert. Im allgemeinen ist bei geraden Schrittweiten die Funktionsweise umso besser, je kleiner die Schrittweite oder das Adresseninkrement ist.
Zum Erleichtern des Verständnisses der verschiedenen Konfigurationen der bevorzugten Ausführungsform der vorliegenden Erfindung ist jeder Cluster 40 mit dem Bezugszeichen X/YY (d. h. 4/28) bezeichnet. Für jeden Cluster 40 definiert X die Anzahl der Prozessoren 10 als 2**X Prozessoren, und YY definiert die Anzahl der Speicheradressen im Speicherbereich 200 als 2**YY Wörter des Speichers. Beispielsweise repräsentiert eine 5/29-Konfiguration 32 (2**5) Prozessoren und 512 Millionen (2**29) Wörter des Hauptspeichers je Cluster. Das Speicheradressierungsschema für zwei mögliche Konfigurationen der vorliegenden Erfindung, X/28 und X/29, ist in Fig. 12a bzw. 12b dargestellt.
Es sei bemerkt, daß es die Clusterarchitektur der vorliegenden Erfindung ermöglicht, daß die Anzahl der Prozessoren 10, der externen Schnittstellen 22 und die Größe des Speicherbereichs 200 jedes Clusters 40 innerhalb der oben beschriebenen Bereiche konfigurierbar sind. Diese Möglichkeit, den Vielfachprozessor-Cluster 40 zu konfigurieren, macht das Computerverarbeitungssystem gemäß der vorliegenden Erfindung modular und erweiterbar. Beispielsweise kann ein Benutzer des Computerverarbeitungssystems die Vielfachprozessor-Cluster 40 so konfigurieren, daß sie mit mehr Prozessoren 10 und weniger externen Schnittstellen 22 be legt werden, wenn die höchstwahrscheinlich vom System auszuführenden Aufgaben oder Programme verarbeitungsintensiv und nicht datenintensiv sind. Umgekehrt könnten die Anzahl der externen Schnittstellen 22 und die Größe des Speicherbereichs 200 unter Einschluß der Anzahl von Abschnitten 208 erhöht werden, wenn die Aufgaben oder Programme datenintensiv sind und eine erhebliche Datenübertragungsbandbreite erfordern. In ähnlicher Weise kann die Anzahl der Cluster 40 innerhalb des Bereichs der Clusterarchitektur abhängig von den Rechenverarbeitungsanforderungen des speziellen Benutzers des Computerverarbeitungssystems gemäß der vorliegenden Erfindung verringert oder erhöht werden.

Die Entscheidungsknoten

Bei der bevorzugten Ausführungsform verwaltet jeder Entscheidungsknoten 44 Anforderungen für die geteilten Betriebsmittel und die Ein-/Ausgabevorgänge von zwei Prozessoren 100 und zwei externen Schnittstellenmitteln 22, wie in Fig. 13 dargestellt ist. Das vektorielle Mittel 104 weist für jeden Prozessor 100 vier Leseports 116 und zwei Schreibports 118 auf, die die V-Register über den Port 302 bzw. 304 mit dem Entscheidungsknotenmittel 20 verbinden. Jedes skalare Mittel 102 weist einen bidirektionalen Port 114 für die S- und L-Register auf. Ein bidirektionaler Port 112 des Befehls-Cache 110 ist mit dem Port 308 im Entscheidungsknoten 44 verbunden. Weiterhin teilt sich jedes externe Schnittstellenmittel 22 denselben realen Port 112 mit dem Befehls-Cache 110. Demgemäß beträgt die Gesamtzahl der mit der Prozessorseite jedes Entscheidungsknotens 44 gekoppelten Ports bei der bevorzugten Ausführungsform sechzehn. Auf der Seite der geteilten Betriebsmittel weist jeder Entscheidungsknoten 44 acht getrennte bidirektionale Ports 310 auf, die die Entscheidungsknotenmittel 20 über die bidirektionalen Wege 50 mit dem Speicherbereich 200 verbinden, wobei einer für jeden der acht Speicherabschnitte 202 vorgesehen ist. Ein einziger bidirektionaler Port 312 verbindet den Entscheidungsknoten 44 über den Weg 52 mit dem NRCA- Mittel 46 und den globalen Registern 16. Jeder Entscheidungsknoten kann bis zu sechzehn Anforderungen je Taktzyklus empfangen, wobei jeweils eine je Anforderungsport 302, 306 oder 308 empfangen wird. Bei der bevorzugten Ausführungsform wirkt der Entscheidungsknoten 44 wie ein 16 · 9- Kreuzschienenschalter, der in jedem Zyklus über die sechzehn Anforderungsports für die neun geteilten Betriebsmittelports entscheidet. Alle Ports im Entscheidungsknoten 44 sind in der Lage, eine Spitzenübertragungsrate von einem Wort je Taktzyklus aufrechtzuerhalten. Diese Spitzenübertragungsrate wird durch Speicher- und Prozessorkonflikte beeinträchtigt. Alle Zugriffe sind Einzelwortzugriffe. Aufeinanderfolgende Zugriffe können jede beliebige zufällige Mischung von Lese- und Schreibvorgängen sein.
Die Anzahl der Anforderungen, die von jedem Entscheidungsknoten 44 behandelt werden können, wird durch Begrenzen der Anzahl der Prozessoren 100 und der externen Schnittstellenmittel 22, die mit jedem Entscheidungsknoten 44 verbunden sind, erhöht. Bei der bevorzugten Ausführungsform beträgt das Verhältnis zwischen den Prozessoren 100 und den Entscheidungsknotenmitteln 20 2 : 1. Wenngleich anerkannt wird, daß die Anzahl der Verbindungen, die wirksam über einen Entscheidungsknoten 44 vorgenommen werden können, möglicherweise durch alternative Technologien erhöht werden können, wird erwartet, daß das Verhältnis zwischen den Prozessoren 100 und den Entscheidungsknoten 44 unter Verwendung gegenwärtiger Technologien auf 8 : 1 erhöht werden kann, bevor die Leistungsfähigkeit des Entscheidungsknotens 44 unter annehmbare Werte absinkt. Es sei auch bemerkt, daß das Verhältnis zwischen den Prozessoren 100 und den externen Schnittstellenmitteln 22 für jeden Entscheidungsknoten 44 bei der bevorzugten Ausführungsform 1 : 1 beträgt. Wie jedoch zuvor erörtert wurde, ist das Verhältnis zwischen den Prozessoren 100 und den externen Schnittstellenmitteln 22 konfigurierbar.
Wenn Anforderungen vom Prozessor 100 oder vom externen Schnittstellenmittel 22 an irgendwelche der geteilten Betriebsmittel 12 ausgegeben werden, entscheidet der Entscheidungsknoten 44 über die Anforderungen zum Zugriff auf die Speicherbereiche 202, die globalen Register 16, den Unterbrechungsmechanismus 18 oder das NRCA-Mittel 46. Diese Entscheidung stellt für jeden Port 310 und 312 einen gerechten und zeitlich geregelten Zugriff auf jedes der geteilten Betriebsmittel 12 bereit. In Fig. 14 ist ein Paar ähnlicher Entscheidungsnetzwerke 320 und 322 für einen der Speicherports 310 und einen der Prozessorports 308 dargestellt. Es wird erkannt, daß eine ähnliche Schaltungsanordnung für jeden der Speicherports 310 und den MRCA-Port 312 und für jeden der Ports 302, 304, 306 und 308, die an die Prozessoren 100 angeschlossen sind, wiederholt ausgebildet ist. Wie weiter unten in näheren Einzelheiten erklärt wird, verwenden die Entscheidungsnetzwerke 320 und 322 ein Hin- und-her-Schaltsystem für mehrere anfordernde Stellen, wobei diejenige zuerst bedient wird, die zuerst kommt, um zu gewährleisten, daß der älteste Bezug zuerst verarbeitet wird. Bei mehreren alten Bezügen desselben Alters gewährleistet ein Gerechtigkeitsalgorithmus für die mit diesem Entscheidungsnetzwerk 320 oder 322 verbundenen Ports einen gleichen Zugriff.
Aus der Perspektive des Entscheidungsknotens 44 wird über jede abgehende Anforderung an einen Speicherabschnitt 202 oder durch den Port 312 an die globalen Register 16, den Unterbrechungsmechanismus 18 oder das NRCA-Mittel 46 durch ein Anforderungsentscheidungsnetzwerk 320 entschieden. Ein ähnliches Anforderungsentscheidungsnetzwerk 322 entscheidet über die von jeder Anforderung zu den jeweiligen Prozessorports 302, 304, 306 oder 308 zurückkehrenden Antworten. Für eingehende Anforderungen vom Prozessor 100 hält eine Eingabeportwarteschlange 34 bis zu sechzehn Anforderungen, die darauf warten, über das Anforderungsentscheidungsnetzwerk 320 verbunden zu werden. Für zurückkehrende Antworten hält eine Datenwarteschlange 326 bis zu 64 Antworten, die darauf warten, durch das Antwortentscheidungsnetzwerk 322 mit dem ursprünglichen Prozessorport 302, 306 oder 308 verbunden zu werden.
Wenn das Anforderungsentscheidungsnetzwerk 320 bestimmt, daß eine eingehende Anforderung die höchste Priorität hat, werden die Adressen- und Datenkomponenten dieser Anforderung auf den Weg 50 oder 52 gegeben, der dem Anforderungsentscheidungsnetzwerk 320 zugeordnet ist, um dem richtigen geteilten Betriebsmittel 12 zugeführt zu werden. Für Speicherbezüge sammelt eine Unterabschnitt-Einfangwarteschlange 330 in jedem Speicherabschnitt 204 alle eingehenden Anforderungen für diesen speziellen Speicherunterabschnitt 204. Ein Bankanforderungsentscheidungsnetzwerk 332 entscheidet zwischen der Gruppe von Unterabschnitt- Einfangwarteschlangen 330, die für diese Bank 208 in jedem Zyklus wartende Anforderungen aufweisen. Sobald die Anforderung ausgewählt wurde, wird die gewählte Anforderung (Adressen und Daten) an die Bestimmungsbank 208 ausgegeben, falls die Anforderung ein Speichern (Schreiben) ist. Falls die Anforderung ein Laden oder ein Laden und Kennzeichnen (Lesen) ist, werden die aus der Bank 208 gelesenen Daten (die Antwort) in einer Haltewarteschlange 334 gehalten, bevor ein Rückkehrentscheidungsnetzwerk 336 die Priorität der abgehenden Antworten vom Speicherabschnitt 202 bestimmt. Die verschiedenen Konfliktbedingungen, die während dieses Prozesses auftreten können, werden weiter unten in Verbindung mit dem Abschnitt über entscheidende Speicherbezüge detailliert beschrieben.
Die von einem Abschnittsspeicher 202 zum Port 310 oder vom globalen Register 16 zum Port 312 zurückkehrenden Daten werden in einer Datenwarteschlange 326 empfangen. Jeder Port 310 und 312 weist eine eigene Datenwarteschlange 326 auf. Während jedes Taktzyklus entscheidet das Antwortentscheidungsnetzwerk 322 über den Rückkehrdatenweg für jeden Ladeport 310 oder 312. Die geeigneten Daten werden von der Datenwarteschlange 326 ausgewählt und zu den anfordernden Ports 302, 306 oder 308 zurückgegeben. Anders als bei Systemen aus dem Stand der Technik können die Antworten in jeder beliebigen Reihenfolge zu den anfordernden Ports zurückgegeben werden, wie weiter unten in Zusammenhang mit dem Abschnitt über einen Außerhalb-der-Reihenfolge-Zugriff detailliert beschrieben wird.

Die Entscheidungsnetzwerke

Mit Bezug auf die Fig. 15-18 wird nun die bevorzugte Ausführungsform der verschiedenen Entscheidungsnetzwerke 320, 322, 332 und 336 beschrieben. Es sei bemerkt, daß bei der bevorzugten Ausführungsform zur einfachen Verwirklichung für jedes dieser Entscheidungsnetzwerke sehr ähnliche Schaltungsanordnungen verwendet werden, wenngleich es möglich wäre, für jedes der Entscheidungsnetzwerke 320, 322, 332 und 336 unterschiedliche Typen von Entscheidungssystemen zu verwirklichen. Alle Entscheidungsnetzwerke 320, 322, 332 und 336 verwenden ein Hin-und-her-Schaltsystem für mehrere anfordernde Stellen (MRT), wobei diejenige zuerst bedient wird, die zuerst kommt, um zu gewährleisten, daß der älteste Bezug zuerst verarbeitet wird und daß jeder der mit diesem Entscheidungsnetzwerk 320, 322, 332 oder 336 verbundenen Ports den gleichen Zugriff auf das bestimmte geteilte Betriebsmittel 12 hat.
Das MRT-System gemäß der vorliegenden Erfindung ist eine wirksame Art zum Erhalten der relativen Priorität jeder beliebigen Anzahl von anfordernden Stellen, über die bezüglich von einem oder mehreren Betriebsmittel entschieden werden muß. Das Ziel des MRT-Systems besteht darin, die Differenz zwischen der minimalen und der maximalen Zugriffszeit in Reaktion auf eine Anforderung zu minimieren, während gleichzeitig allen anfordernden Stellen der gleiche Zugriff gegeben wird und die relative zeitliche Abfolge der anfordernden Stellen beibehalten wird. Das Prinzip hinter dem MRT-System gemäß der vorliegenden Erfindung besteht darin, den geteilten Betriebsmitteln 12 und insbesondere dem Hauptspeicher 14 ein deterministisches Verhalten zu geben, wobei der größte Teil der Anforderungen näher bei der minimalen Zugriffszeit bedient wird. Dieses Prinzip ergibt sich aus der Annahme, daß die relative zeitliche Abfolge der Informationsanforderungen bevorzugt ist und ihre Priorität bestimmen sollte, weil Programme und Aufträge typischerweise die zuerst benötigten geteilten Betriebsmittel 12 anfordern.
Mit Bezug auf Fig. 15 wird nun ein Beispiel eines MRT- Systems mit vier anfordernden Stellen gemäß der bevorzugten Ausführungsform beschrieben. Es ist ersichtlich, daß es zum Aufrechterhalten der relativen Priorität zwischen vier anfordernden Stellen mit gleicher Priorität erforderlich ist, Informationen über sechs Bedingungen oder Zustände zu speichern, die die relative Priorität von jeder der sechs möglichen Kombinationen von Prioritätspaaren, also die Priorität von Req 0 bezüglich Req 1, die Priorität von Req 0 bezüglich Req 2 usw. angeben. Beim MRT-System gemäß der vorliegenden Erfindung wird der Zustand jedes Prioritätspaars als ein Einzelbit gespeichert, das die relative Priorität der anfordernden Stelle bezüglich einer speziellen anderen anfordernden Stelle darstellt. Weil eine anfordernde Stelle eine höhere oder eine niedrigere Priorität hat als die bestimmte andere anfordernde Stelle, ist ein Zustand (ein Bit) ausreichend, um jedes Prioritätspaar darzustellen. Es ist demgemäß für N anfordernde Stellen möglich, die Anzahl der relativen Prioritätszustände zwischen allen N anfordernden Stellen mit (N*(N - 1)/2) Bits darzustellen.
In den Fig. 16a-16e ist eine Matrix der relativen Zustände für alle Prioritätspaare des in Fig. 15 dargestellten Systems mit vier anfordernden Stellen dargestellt. Bei diesem System ist jedes Prioritätspaar durch ein Einzelbit dargestellt. Die Einträge der Matrix relativer Zustände bestehen aus einer positiven und einer negativen Darstellung jeder anfordernden Stelle. Wenn jede anfordernde Stelle eine gültige Anforderung empfängt, versucht die anfordernde Stelle, alle Bits auf die niedrigste Priorität zu setzen, was bedeutet, daß positive Bits auf "0" gesetzt werden und daß negative Bits auf "1" gesetzt werden. Zum "Lesen" der in Fig. 16a dargestellten Matrix relativer Zustände wird jede Zeile untersucht. Beim in Fig. 16a dargestellten Anfangszustand zeigt die Zeile 0, daß Req 0 niedriger ist als Req 1, Req 2 und Req 3. Zeile 1 zeigt, daß Req 1 niedriger ist als Req 2 und Req 3. Zeile 2 zeigt, daß Req 2 niedriger ist als Req 3. Demgemäß werden die Prioritätspaare für alle sechs Zustände in der Matrix relativer Zustände dargestellt.
In Fig. 16b ist die Matrix relativer Zustände zum Zeitpunkt 1 dargestellt, wenn Req 2 eine gültige Anforderung aufweist. Wie ersichtlich ist, modifiziert Req 2 die Matrix relativer Zustände auf die gültige Anforderung hin und ist nun die Anforderung mit der niedrigsten Priorität. Alle positiven Zustände von Req 2 werden auf "0" gesetzt, und alle ihre negativen Zustände werden auf "1" gesetzt. Beim Lesen von Zeile 0 ergibt sich, daß Req 2 niedriger ist als Req 0, daß Req 0 jedoch noch niedriger ist als Req 3 und Req 1. Zeile 1 zeigt, daß Req 2 niedriger ist als Req 1, daß Req 1 jedoch noch niedriger ist als Req 3. Schließlich zeigt Zeile 2, daß Req 2 niedriger ist als Req 3. Demgemäß ist Req 2 auf die niedrigste Priorität gesetzt und wird so bedient, falls Req 0, Req 1 oder Req 3 gegenwärtig keinen Zugriff auf das Betriebsmittel, über das entschieden wird, anfordert.
Die Matrix relativer Zustände ist in Fig. 16c zum Zeitpunkt 2 dargestellt, zu dem neue Anforderungen für Req 1 und Req 3 empfangen werden. Wiederum wird ein Versuch unternommen, alle Bits in den Prioritätspaaren, die jeder anfordernden Stelle mit einer gültigen Anforderung zugeordnet sind, auf die niedrigste Priorität zu setzen. In Zeile 0 sind Req 1 und Req 3 nun niedriger als Req 0. Req 2 ist noch niedriger als Req 0, weil das Prioritätspaarbit (0/2') auch dann in seinem vorhergehenden Zustand bleibt, wenn die Anforderung für Req 2 zum Zeitpunkt 1 bereits bedient wurde. Das eingekreiste Prioritätspaarbit (1/3') veranschaulicht den Hin- und-her-schalt-Fall, wenn ein Konflikt zwischen zwei anfordernden Stellen auftritt. In diesem Fall ist Req 1 höher als Req 3 und ist die anfordernde Stelle, die zuerst bedient wird. Weil Req 2 zum Zeitpunkt 2 bedient wurde, wird Req 1 zum Zeitpunkt 3 bedient, und Req 3 wird dann zum Zeitpunkt 4 bedient.
In Fig. 16d ist die Matrix relativer Zustände zum Zeitpunkt 3 dargestellt. Während des Zeitpunkts 3 wird von Req 0 eine neue gültige Anforderung empfangen, die alle Prioritätspaarbits aktualisiert. Bei Req 3 steht noch eine aktive Anforderung an, weil Req 1 und Req 3 dasselbe Betriebsmittel während des Zeitpunkts 2 angefordert haben, Req 1 jedoch Priorität hatte. Die verzögerte Anforderung von Req 3 konkurriert nun mit der neuen Anforderung von Req 0. Weil Req 3 älter ist, wird sie während des Zeitpunkts 4 zugelassen, und Req 0 wird um einen Taktzyklus verzögert. Nachdem beide Anforderungen bedient wurden, und unter der Annahme, daß keine der anfordernden Stellen eine neue gültige Anforderung hat, beginnt die Matrix relativer Zustände, das Prioritätspaarbit in jedem Taktzyklus umzuschalten, bis eine der anderen anfordernden Stellen den Zustand mit einer neuen gültigen Anforderung "einfriert". Dieses Umschalten gewährleistet, daß beide anfordernden Stellen die gleiche Chance haben, beim Prioritätspaarbit der Matrix relativer Zustände auf die höhere Priorität gesetzt zu werden, falls gleichzeitige Anforderungen wieder empfangen werden.
Schließlich zeigt Fig. 16e die Matrix relativer Zustände zum Zeitpunkt 4. Nun wird die vorhergehende Anforderung von Req 0 bedient. Es sei bemerkt, daß beim in den Fig. 16a -16e dargestellten MRT-System eine maximale Verzögerung von vier Zyklen auftreten kann, falls alle vier anfordernden Stellen während desselben Zyklus gültige Anforderungen an dasselbe Betriebsmittel haben.
In Fig. 17 ist die bevorzugte Verwirklichung des MRT- Systems für ein Bankentscheidungsnetzwerk 332 dargestellt. Die gültigen Anforderungen werden in den Unterabschnitt- Einfangwarteschlangen 330 gehalten, bis sie die ersten in der Warteschlange sind. Zu diesem Zeitpunkt wird die neue gültige Anforderung den positiven und den negativen Eingängen der Matrix 340 relativer Zustände zugeführt. Die neue gültige Anforderung wird auch jedem der acht Bankdecodierer 342 zugeführt. Ein Ausgangsverzweigungsmittel 342 überträgt die Ausgabe der Matrix 340 relativer Zustände zu jeder der acht Bankbehinderungsmatrizen 346. Diese Technik ermöglicht es einer einzigen Matrix 340 relativer Zustände, die Entscheidungslogik für einen ganzen Unterabschnitt für Speicherbänke 208 zu steuern, wodurch die Anforderung einer ansonsten bei jeder Bank 208 vorhandenen doppelten Entscheidungslogik beseitigt wird.
In den Fig. 18a, 18b und 18c ist ein detailliertes Schaltungsdiagramm zum Verwirklichen des in Fig. 17 dargestellten Bankentscheidungsnetzwerks 332 dargestellt. Fig. 18a zeigt die logischen Elemente, die einer der Bankbehinderungsmatrizen 346 zugeordnet sind. Es sei bemerkt, daß alle Prioritätspaareingaben (beispielsweise 1/0', 2/0') von der Matrix 340 relativer Zustände erzeugte Eingaben sind. Die in den Fig. 18b und 18c dargestellte Verwirklichung ermöglicht es der Matrix 340 relativer Zustände, die Verbindung zwischen der anfordernden Stelle und dem Ziel in einem einzigen Zyklus zu verarbeiten. In Fig. 18b ist die Beziehung zwischen einer Anforderung-gültig-Angabe und der Unterabschnitt-Einfangwarteschlange 330 dargestellt, beispielsweise bevor es einer Anforderung ermöglicht wird, in die Matrix 340 relativer Zustände und in die Behinderungsmatrix 346 einzutreten. In Fig. 18c ist die unteilbare Operation gemäß der bevorzugten Ausführungsform eines Prioritätspaars innerhalb der Matrix 340 relativer Zustände dargestellt.

Das Fernclusteradaptermittel

Das Fernclusteradaptermittel 42 besteht aus zwei getrennten logischen Bestandteilen, nämlich dem NRCA-Mittel 46 und dem MRCA-Mittel 48. Bei der bevorzugten Ausführungsform ist das NRCA-Mittel 46 real mit der gleichen Schaltungsanordnung verwirklicht, die die globalen Register 16 und die Unterbrechungsmechanismen 18 unterstützt, und das MRCA-Mittel 48 ist real als ein siebzehnter Entscheidungsknoten 44 verwirklicht. In Fig. 19a ist ein Blockdiagramm des MRCA- Mittels 48 dargestellt. Anders als die Ports 302, 304, 306 und 308 bei einem normalen Entscheidungsknoten 44 hat das MRCA-Mittel 48 nur sechs Ein-/Ausgabeports 350. Zusätzlich zur Eingabewarteschlange 324 und zur Datenwarteschlange 332 für jeden Port 350 im Entscheidungsknoten 44 weist das MRCA-Mittel 48 sechs Ein-/Ausgabewarteschlangen 352 auf, die als ein zusätzlicher Puffermechanismus zwischen dem MRCA-Mittel 48 und dem MRCA-Mittel 46 anderer Cluster 40 wirken. Jede Ein-/Ausgabewarteschlange 352 ist in der Lage, bis zu 64 Anforderungen von ihrem zugeordneten Ferncluster zu halten.
Mit Bezug auf Fig. 19b wird nun das NRCA-Mittel 46 beschrieben. Die Wege 52 von jedem der 16 Entscheidungsknoten 44 sind mit einer Eingabewarteschlange 360 verbunden, die Anforderungen für die anderen Ferncluster 40 aufreiht. Ein 16 · 6-Kreuzschienenschalter 362 verbindet den geeigneten Weg 58 mit der Anforderung in der Eingabewarteschlange 360. Wenn die Anforderungen von einem Ferncluster 40 zurückkehren, werden sie in eine von sechs Eingabewarteschlangen 366 geleitet. Ein 6 · 16-Kreuzschienenschalter verbindet dann die zurückgegebenen Antworten von der Eingabewarteschlange 366 mit dem geeigneten Weg 52.

Entscheidungs-Speicherbezüge

Wie in Fig. 16c dargestellt ist, können Konflikte auftreten, wenn eine oder mehrere anfordernde Stellen versuchen, auf dasselbe geteilte Betriebsmittel 12 (also eine Bank 208, einen Datenweg 50 usw.) während desselben Taktzyklus zuzugreifen, oder wenn dieses geteilte Betriebsmittel 12 bereits eine andere Anforderung bedient und ihr eine Belegungs- oder Reservierungszeit zugeordnet ist. Bei einer Speicheranforderung erzeugt ein Konflikt eine Wartebedingung für den Speicherbezug, welcher abhängig vom Konflikttyp von einer bis zu mehreren Taktzyklen reichen kann.
Mit Bezug auf Fig. 20 werden nun die verschiedenen Typen von Konflikten geteilter Betriebsmittel, die auftreten können, beschrieben. Ein Speicherbezug kann aus fünf Phasen bestehend angesehen werden. Jede Phase muß nacheinander abgeschlossen werden. Bei irgendeiner gegebenen Phase auftretende Konflikte werden nicht beurteilt, bevor der Speicherbezug alle Konflikte in einer vorhergehenden Phase durchlaufen hat.
Phase I ist das Ausgeben eines Speicherbezugs durch einen Prozessor 10 oder ein externes Schnittstellenmittel 22. Dieser Phase ist eine konstante Pipelinelatent von N1 Taktzyklen zugeordnet. Dieser Phase ist weiterhin eine veränderliche Verzögerung von V1 Taktzyklen zugeordnet. V1 wird durch das Anforderungsentscheidungsnetzwerk 320 als Funktion eines Gleichzeitiger-Abschnitt-Konflikts (SSC) und von Einfangwarteschlange-Voll-(CQF)-Konflikten bestimmt. Ein SSC tritt auf, wenn zwei oder mehr Ports 310 oder 312, die sich denselben Entscheidungsknoten 44 teilen, denselben Speicherabschnitt 202 im selben Tyktzyklus anfordern. Ein CQF tritt auf, wenn die Anzahl der ausstehenden Speicherbezüge von einem gegebenen Entscheidungsknoten 44 zu einem gegebenen Unterabschnitt 206 die maximale Anzahl von Pipelinestufen in der Einfangwarteschlange 330 zum Einreihen dieser Speicherbezüge auf der Eingabeseite der Bank 208 übersteigt.
Phase II ist das Ausgeben eines Speicherbezugs auf dem Bankniveau. Dieser Phase sind eine konstante Pipelinelatent von N2 Taktzyklen und eine veränderliche Verzögerung von V2 Taktzyklen zugeordnet. V2 wird durch das Bankentscheidungsnetzwerk 332 bestimmt und ist eine Funktion eines Gleichzeitige-Bank-Konflikts (SBC), eines Bank-belegt-Konflikts (BBC) und von Haltewarteschlange-voll-(HCQ)-Konflikten. Ein SBC-Konflikt tritt auf, wenn zwei oder mehr Speicherbezüge von verschiedenen Entscheidungsknoten 44 versuchen, im selben Taktzyklus auf dieselbe Bank 208 zuzugreifen. Dies ist ein Ein-Zyklus-Konflikt, der dann in einen BBC-Konflikt übergeht. Ein BBC-Konflikt tritt auf, wenn ein Speicherbezug eine Bank 208 adressiert, die infolge eines vorhergehenden Bezugs gerade belegt ist, und er ist eine Funktion der in den Bänken 208 verwendeten SRAM-Technologie. Ein HQF-Konflikt tritt auf, wenn die Anzahl der ausstehenden Speicherbezüge von einem gegebenen Entscheidungsknoten 44 zu einem gegebenen Unterabschnitt 204 die maximale Anzahl der Pipelinestufen in der Haltewarteschlange 334 zum Einreihen der Antworten auf die Speicherbezüge auf der Ausgabeseite der Bank 208 übersteigt.
Phase III eines Speicherbezugs ist das Fortschreiten des Speicherbezugs durch die Bank. Dieser Phase ist eine konstante Verzögerung von N3 Taktzyklen entsprechend der Zugriffszeit der SRAMs in der Bank 208 zugeordnet.
Phase IV ist das Wiederausgeben der zurückgegebenen Ladedaten an den anfordernden Entscheidungsknoten 44. Dieser Phase sind eine konstante Pipelineverzögerung von N4 Takten und eine veränderliche Verzögerung von V4 Takten zugeordnet. V4 ist durch den Speicher als eine Funktion eines Gleichzeitige-Rückgabe-Konflikts (SRC) und von Datenwarteschlange-voll-(DQF)-Konflikten bestimmt. Ein SRC-Konflikt tritt auf, wenn zwei oder mehr Speicherbezüge von einem gegebenen Entscheidungsknoten 44 zum selben Speicherabschnitt 202 gesendet werden, wenn jedoch verschiedene Unterabschnitte 206 versuchen, Wörter im selben Taktzyklus zurückzugeben. Dieser Konflikt tritt wegen Bankkonflikten und nachfolgenden Abweichungen der Speicherbezüge auf, und er wird durch das Antwortentscheidungsnetzwerk 336 gelöst. Dieser Konflikt tritt auch auf, wenn diese Speicherbezüge an ihren jeweiligen Bänken in verschiedenen Zyklen ausgegeben werden und eine Verzögerung infolge von DQF-Konflikten eine zeitliche Umordnung hervorruft, so daß die Speicherbezüge versuchen, denselben Ladedatenrückgabeweg im selben Taktzyklus zu verwenden. Ein DQF-Konflikt tritt auf, wenn die Anzahl der ausstehenden Speicherbezüge von einem gegebenen Entscheidungsknoten 44 zu einem gegebenen Speicherabschnitt 202 die maximale Anzahl der Pipelinestufen in der Datenwarteschlange 326 zum Einreihen dieser zurückgegebenen Bezüge am Entscheidungsknoten 44 übersteigt.
Phase V eines Speicherbezugs ist das Zurückgeben von Datenwörtern zum anfordernden Port 302, 306 oder 308 im Entscheidungsknoten 44. Dieser Phase sind eine konstante Verzögerung von N5 Taktzyklen und eine veränderliche Verzögerung von V5 Taktzyklen zugeordnet. V5 ist durch das Antwortentscheidungsnetzwerk 322 als eine Funktion irgendwelcher Port-belegt-Konflikte (PBC) bestimmt. Ein PBC-Konflikt tritt auf, wenn zwei oder mehr Speicherbezüge von verschiedenen Speicherabschnitten 202 versuchen, im selben Taktzyklus zum selben Port 302, 306 oder 308 zurückzugeben.

Außerhalb-der-Reihenfolge-Zugriff

Daten können in einer anderen Reihenfolge zu den anfordernden Ports 302, 306 und 308 zurückgegeben werden, als sie angefordert wurden. Der Entscheidungsknoten 44 empfängt eine Gruppe von Etiketten mit jeder Ladeadresse und reiht sie für künftige Bezüge ein. Wenn Daten vom Hauptspeicher 14 zurückgegeben werden, werden die Etiketten wieder an die entsprechenden Datenwörter angefügt, und es werden sowohl die Daten als auch die Etiketten zum anfordernden Port zurückgeführt. Die Prozessoren 100 und die externen Schnittstellenmittel 22 verwenden die Etiketten, um die Daten an ihre richtige Stelle zu leiten. Für das vektorielle Mittel 104 und die externen Schnittstellenmittel 22 gewährleistet die richtige Stelle eine korrekte Ablaufsteuerung von Operationen. Für das skalare Mittel 102 betrifft die richtige Stelle die bestimmten Register (S oder L) oder die Stelle im Befehls-Cache 110, der die Daten zugeleitet werden sollen. Weil das Außerhalb-der-Reihenfolge-Zugriffsmerkmal automatisch durch die dem Entscheidungsknoten 44 zugeordnete Hardware behandelt wird, braucht sich ein Benutzer nicht mit seiner Funktionsweise auseinanderzusetzen.
Mit Bezug auf die Fig. 21a - 21d wird nun eine schematische Darstellung des pipelineförmigen Außerhalb-der- Reihenfolge-Zugriffsmechanismus gemäß der vorliegenden Erfindung im Vergleich zum Stand der Technik dargelegt. Diese Figuren sind auf jeder Ebene in der Architektur, beispielsweise zwischen den Registern und den Funktionseinheiten eines skalaren Mittels 102 oder eines vektoriellen Mittels 104, zwischen den Anforderungsports eines Entscheidungsknotens 44 und den verschiedenen geteilten Betriebsmitteln 12 oder zwischen vom Betriebssystem geplanten Vielfachprozessen auf eine Operation hinsichtlich anfordernden Stellen und Betriebsmitteln anwendbar. In Fig. 21a ist dargestellt, wie ein Strom von Anforderungen und Antworten bei einem System aus dem Stand der Technik gehandhabt werden würde. Weil es keine Möglichkeit eines Außerhalb-der-Reihenfolge- Zugriffs gibt, muß jede der aufeinanderfolgenden Anforderungen darauf warten, daß die zugeordnete Antwort abgeschlossen ist, bevor die nächste Anforderung eingeleitet werden kann. Wie in Fig. 21b dargestellt ist, unterstützen einige vektorielle Prozessoren aus dem Stand der Technik die Möglichkeit, aufeinanderfolgende Anforderungen zum Laden eines Vektorregisters oder zum Schreiben in dieses vorzunehmen, ohne daß es erforderlich ist, auf das Zurückgeben jeder Antwort zu warten. Die in Fig. 21b dargestellte eingeschränkte Pipelinetechnik wurde nur auf vektorielle Prozessoren und nicht auf andere Systembetriebsmittel angewen det. Die in den Fig. 21c-21d dargestellten Pipelinetechniken wurden im Stand der Technik nicht verwendet. Bei der vorliegenden Erfindung kann auf alle Systembetriebsmittel unter Verwendung aller in den Fig. 21b- 21d dargestellten Pipelinetechniken zugegriffen werden. Beim Betrachten von Fig. 21c wird verständlich werden, daß die bidirektionalen Ports und das Einreihen von Anforderungen und Antworten im Entscheidungsknoten 44 beispielsweise das Zurückgeben der Antwort 1 ermöglichen, bevor die Anforderung n ausgegeben wurde. Wie in Fig. 21d dargestellt ist, ermöglicht der Etikettierungsmechanismus gemäß der vorliegenden Erfindung schließlich die Rückgabe der Antwort 2 vor der Antwort 1.
Zum Verarbeiten eines Außerhalb-der-Reihenfolge-Datenstroms ist es für die Prozessoren 100 und die externen Schnittstellenmittel 22 erforderlich, daß der Entscheidungsknoten 44 über die Etiketten hinaus Informationen liefert. Diese Informationen betreffen die Ablaufsteuerung der Anforderungen und die Zeitpunkte, zu denen diese Anforderungen angewiesen werden, um von einem bestimmten geteilten Betriebsmittel 12 verarbeitet zu werden. Bei der bevorzugten Ausführungsform werden diese Informationen in Form eines weiter unten erörterten Datenmarkierungsmechanismus bereitgestellt.

Der Datenmarkierungsmechanismus

Zum Unterstützen der Koordination und der Synchronisation der verschiedenen Pipelines gemäß der vorliegenden Erfindung wird auch ein Datenmarkierungsmechanismus verwendet. Der Datenmarkierungsmechanismus ist ein Mittel zum Erreichen der Synchronisation der Aktivität geteilter Betriebs mittel durch die Verwendung der Lokale-Markierung-(mark)- und Globale-Markierung-(gmark)-Befehle. Wenn gleichzeitige Zugriffe (zwischen Ports in einem Entscheidungsknoten 44 oder zwischen Prozessoren 10) oder Außerhalb-der- Reihenfolge-Zugriffe auf die geteilten Betriebsmittel 12 erlaubt sind, existiert ein Synchronisationsproblem. Der Datenmarkierungsmechanismus richtet sich auf dieses Problem. Der Datenmarkierungsmechanismus ist mit anderen Worten der Prozeß, der verwendet wird, um zu garantieren, daß Daten, von denen erwartet wird, daß sie von einem geteilten Betriebsmittel 12 zurückgegeben werden, tatsächlich die Daten sind, die unabhängig von der Anforderungsreihenfolge zurückgegeben werden.
Der Datenmarkierungsmechanismus ermöglicht es einem Prozessor oder einer Ein-/Ausgabevorrichtung, zu bestimmen, wenn keine anderen Anforderungen (lokal oder global) vor die markierten Anforderungen in der Pipeline gelangen können. Alle nachfolgenden Anforderungen von dieser anfordernden Stelle werden aufgeschoben, bis die markierten Anforderungen das geteilte Betriebsmittel verlassen haben. Ein lokaler markierter Bezug wird von dem bestimmten geteilten Betriebsmittel 12 bestätigt, wenn die Anforderung vom Entscheidungsknoten 44 angewiesen wurde. Ein globaler markierter Bezug wird bestätigt, wenn die Anforderung vom bestimmten geteilten Betriebsmittel 12 angewiesen worden ist. Der lokale Datenmarkierungsmechanismus wird relativ schnell behandelt, während der globale Datenmarkierungsmechanismus für Innerclusterprüfungen etwas langsam und für Zwischenclusterprüfungen erheblich langsamer ist.
Bei der bevorzugten Ausführungsform ist der Datenmarkierungsmechanismus unter Verwendung der mark-, gmark- und waitmk-Befehle verwirklicht, wie in näheren Einzelheiten im Anhang B erklärt wird. Anders als bei Schemata aus dem Stand der Technik zum Markieren von Daten als nicht verfügbar, bis ein bestimmtes Ereignis auftritt, trennt der Datenmarkierungsmechanismus gemäß der vorliegenden Erfindung das Markieren eines geteilten Betriebsmittels 12 (mark oder gmark) von der folgenden Warteaktivität (waitmk). Diese Trennung ermöglicht das Planen von dazwischen stattfindenden unabhängigen Aktivitäten, wodurch die beim Warten auf das Anweisen markierter Bezüge verlorene Zeit minimiert wird.

Lade- und Kennzeichnungsmechanismus

Der Lade- und Kennzeichnungsmechanismus ist eine unteilbare Speicheroperation, die gleichzeitig den aktuellen Wert einer Speicherstelle zurückgibt und an dessen Stelle ein vorgegebenes Muster speichert.
In Zusammenhang mit den in näheren Einzelheiten in Verbindung mit Anhang B erklärten Sammel- und Zerstreuungsbefehlen stellt der Lade- und Kennzeichnungsmechanismus ein mächtiges Mittel dar, um traditionelle skalare "Monte- Carlo"-Anwendungen in mehrere Teilprozesse einzuteilen, zu vektorisieren und pipelineförmig anzuordnen. Der Begriff "Monte-Carlo" betrifft die zufällige Natur des von diesen Anwendungen erzeugten angeforderten Speicheradressenstroms, wenn sie versuchen, verschiedene durch Pseusozufallstechniken bestimmte Speicherstellen zu aktualisieren. Im Stand der Technik hat dieser zufällige Adressenstrom die Verwendung von Pipelines, eine Vektorisierung und eine Aufteilung in mehrere Teilprozesse verhindert, weil Adressenkonflikte auftreten könnten. Bei dieser Erfindung beseitigt der Lade- und Kennzeichnungsmechanismus diese Konflikte nicht, sondern er unterstützt vielmehr das pipelineförmige Anordnen der Erfassung und Verarbeitung dieser Konflikte. Bei der bevorzugten Ausführungsform wird der Lade- und Kennzeichnungsmechanismus durch gleichzeitiges Ausgeben einer Lese- und einer Schreibfunktion an eine Stelle im Hauptspeicher 14 erreicht. Die Logik an jeder Bank 208 interpretiert diese Lese- und Schreibfunktion als ein Schreiben eines vordefinierten Kennzeichnungsmusters in die Speicherstelle. Weil die Adresse, für die Speicherstelle vor der Ausgabe des Schreibens des vordefinierten Kennzeichnungsmusters festgelegt wird, kann diese Logik die Daten lesen, die sich gegenwärtig einen Taktzyklus vor der Ausgabe des Schreibvorgangs an der Speicherstelle befinden. Die gelesenen Daten werden dann unter Verwendung der normalen Lesemechanismen zur anfordernden Stelle zurückgegeben. Wenn die anfordernde Stelle das Modifizieren der Daten an der gekennzeichneten Stelle abgeschlossen hat, "löscht" ein von der anfordernden Stelle an die gekennzeichneten Stelle ausgegebenes nachfolgendes Speichern das Hinweiszeichen.

Die globalen Register

Die globalen Register 16 werden zum Synchronisieren und zum Teilen von Daten zwischen den Prozessoren 10 und externen Schnittstellen 22 verwendet. Alle Prozessoren 10 und externen Schnittstellenmittel 22 können in jedem gegebenen Taktzyklus gleichzeitig auf dieselben oder auf verschiedene globale Register 16 zugreifen. Die globalen Register 16 sind real und logisch zu Dateigruppen organisiert. Gleichzeitige Bezüge auf Register in getrennten Gruppen finden im selben Taktzyklus statt. Gleichzeitige Bezüge auf ein Register in derselben Gruppe werden über eine Anzahl von Takt zyklen seriell ausgeführt. Die Logik der globalen Register löst jegliche Zugriffskonkurrenz durch serielles Gewähren von Zugriff für jede anfordernde Stelle, so daß nur eine Operation zur Zeit ausgeführt wird. Bezüge auf ein einziges globales Register werden in der Reihenfolge verarbeitet, in der sie ankommen. Bezüge auf globale Register innerhalb einer gegebenen Gruppe finden bei der Rate einer Operation in jedem Taktzyklus statt.
Mit Bezug auf die Fig. 22 und 23 wird nun die reale Organisation der globalen Register 16 bei der bevorzugten Vier-Cluster-Ausführungsform gemäß der vorliegenden Erfindung beschrieben. Die bevorzugte Ausführungsform stellt die Adressierung für einen sequentiellen Block von 32768 globalen Registern, die in den vier Clustern 40 angeordnet sind, bereit. Es gibt 8192 globale Register je Cluster 40. Die globalen Register sind innerhalb jedes Clusters 40 als acht globale Registerdateien 400 organisiert, so daß Zugriffe auf verschiedene Dateien 400 globaler Register gleichzeitig auftreten können. Bei dieser Ausführungsform befinden sich die globalen Register 16 für jeden Cluster 40 real innerhalb des NRCA-Mittels 46 dieses Clusters.
Wie in Fig. 22 dargestellt ist, gibt es sechzehn Ports 402 für die globalen Register 16 von den zweiunddreißig Prozessoren 100 und zweiunddreißig externe Schnittstellenmittel 22 in einem Cluster 40. Jeder Port 402 wird von zwei Prozessoren 100 und zwei externen Schnittstellenmitteln 22 geteilt verwendet, und es wird über den Weg 52 auf ihn zugegriffen. Ein ähnlicher Port 404 dient Zwischenclusteranforderungen für die globalen Register 16 in diesem Cluster, die vom MRCA-Mittel 48 empfangen werden, und es wird über den Weg 56 auf ihn zugegriffen. Wenn jede Anforderung bei einem Port 402 oder 404 empfangen worden ist, decodiert eine Decodierlogik 406 die einem Entscheidungsnetzwerk 410 für globale Register zuzuführende Anforderung. Falls für mehrere globale Register 16 in derselben Datei 400 globaler Register gleichzeitige Anforderungen ankommen, werden diese Anforderungen durch die FIFOs 412, die Pipelines 414 und das Entscheidungsnetzwerk 410 für globale Register pipelineförmig behandelt.
Eine Priorität wird durch ein FIFO-(zuerst hinein, zuerst heraus)-Schema, das durch ein rotierendes Prioritätsschema für gleichzeitige Ankünfte ergänzt ist, zugewiesen. Das Entscheidungsnetzwerk 410 für globale Register verwendet eine Entscheidungslogik, die derjenigen ähnelt, die zuvor in Verbindung mit dem Abschnitt über Entscheidungsknoten erörtert wurde. Wenn die Priorität durch das Entscheidungsnetzwerk 410 bestimmt wird, bringt ein 17 · 10- Kreuzschienenschaltermittel 420 die Anforderungen im FIFO 412 mit der geeigneten Datei 400 globaler Register oder dem Unterbrechungsmechanismus 18 oder dem SETN-Register in Übereinstimmung, wie weiter unten in Verbindung mit dem Abschnitt über Unterbrechungen in näheren Einzelheiten beschrieben wird. Nach dem Abschließen des Vorgangs leitet ein weiteres Kreuzschienenschaltermittel 422 jegliche Ausgaben des Vorgangs zum anfordernden Port zurück. Es wird erkannt werden, daß die Zugriffszeit auf globale Register 16 im allgemeinen etwas höher ist als die auf den Hauptspeicher 14, wenn Anforderungen im selben Cluster 40 bleiben. Es gibt weiterhin keine Störungen zwischen einem Verkehr innerhalb des Clusterspeichers und einem Verkehr globaler Register, weil die Anforderungen über andere Wege übertragen werden.
Wie in Fig. 23 dargestellt ist, weist jede Datei 400 globaler Register 1024 64-Bit-Register für allgemeine Zwecke auf. Jede Datei 400 globaler Register enthält auch eine unabhängige ALU-Operationseinheit 430, die acht unabhängige Operationen globaler Register in einem einzigen Taktzyklus je Cluster gestattet. Die Dateien 400 globaler Register sind über acht Wege ineinander verschachtelt, so daß beim Bezugnehmen auf aufeinanderfolgende Stellen bei jedem Bezug auf eine andere Datei zugegriffen wird. Bei dieser Ausführungsform sind die globalen Register unter Verwendung eines sehr schnellen 1024 · 64-Bit-RAM 432 verwirklicht.
Mit Bezug auf Fig. 24 wird nun das Verfahren zum Zugreifen auf die globalen Register 16 veranschaulicht. Die vorliegende Erfindung verwendet ein relatives Adressierungsschema für die globalen Register 16, um die Notwendigkeit zu beseitigen, Adressen globaler Register im Benutzerprogramm explizit zu codieren. Berechnungen von Adressen globaler Register beruhen auf dem Inhalt von drei Prozessorsteuerregistern, nämlich von GOFFSET, GMASK und GBASE. Das Setzen von GMASK ausschließlich auf Einsen gestattet es dem Benutzer, auf alle verfügbaren globalen Register 16 zuzugreifen. GOFFSET und GMASK sind geschützte Register, in die nur durch das Betriebssystem geschrieben werden kann. Sie definieren zusammen ein Segment des Platzes globaler Register, den der Prozessor adressieren kann. Es wird angenommen, daß die drei niedrigstwertigen Bits von GOFFSET null sind, wenn die Adressenberechnung ausgeführt wird, und es wird angenommen, daß die drei niedrigstwertigen Bits von GMASK Einsen sind.
GBASE ist ein für einen Benutzer zugängliches 15-Bit- Register. Der im j-Feld eines Befehls enthaltene. Wert wird zur Bildung der Benutzeradresse zu GBASE addiert. Das j- Feld wird als vorzeichenfrei angesehen, und es wird jeder Übertrag ignoriert. Die Summe von GBASE und dem j-Feld eines Befehls wird mit dem Inhalt von GMASK durch ein logisches UND verknüpft, wobei eine Grenze für die maximale Verschiebung in die Registergruppe, die der Benutzer adressieren kann, festgelegt wird. Das Ergebnis der Maskierungsoperation wird zum Inhalt von GOFFSET addiert. Jeder Übertrag wird ignoriert. Es sei bemerkt, daß die zwei höchstwertigen Bits der sich ergebenden 15-Bit-Summe verwendet werden, um auszuwählen, auf welchen Cluster 40 zugegriffen wird. Ein Übertrag, der infolge einer der Addieroperationen bis zu den oberen zwei Bits gelangt, ändert die Clusterwählbits. Es sei bemerkt, daß GOFFSET ein 16-Bit-Register ist. Das sechzehnte Bit wird zum Auswählen der SETN- Register verwendet (in näheren Einzelheiten weiter unten in Zusammenhang mit dem Unterbrechungsabschnitt beschrieben) und muß null sein, wenn auf die globalen Register 16 zugegriffen wird.
Die durch dieses Verfahren erzeugte Adresse ermöglicht einen Zugriff auf die Gruppe der globalen Register 16, die das Betriebssystem einem bestimmten Prozessor zuweist. Alle Prozessoren 10 könnten einer bestimmten Gruppe oder zwei verschiedenen Gruppen globaler Register 16 zugewiesen werden, was von der Anwendung und der Verfügbarkeit von Prozessoren abhängt. Nach der Initialisierung wird den globalen Registern in jedem Cluster eine Basisadresse zugewiesen. Die Logisch-zu-real-Anordnung dieses Adressierungsschemas ist in Fig. 25a dargestellt.
Die Ein-/Ausgabe-Konzentratormittel 24 können auch Operationen globaler Register ausführen. Das Betriebssystem re serviert für sich selbst irgendeine Anzahl von Gruppen globaler Register, die zur Parameterübergabe, zur Unterbrechungsbehandlung, zur Synchronisation und zur Ein- /Ausgabesteuerung verwendet werden. Bei der bevorzugten Ausführungsform enthalten die verschiedenen Ein-/Ausgabe- Konzentratormittel 24 einen Teil der Betriebssystemsoftware, und sie sind in der Lage, auf alle globalen Register 16 in allen Clustern 40 zuzugreifen. Das Adressierungsschema zur Adressierung globaler Register von den Ein-/Ausgabe- Konzentratormitteln 24 über die externen Schnittstellenmittel 22 ist in Fig. 25b dargestellt. Dieses Verfahren gestattet es, 8192 globale Register in jedem der vier Cluster 40 zu adressieren. Es sei bemerkt, daß Adressenwerte, die an der Bitposition 13 eine binäre Eins angeben, die SETN- Register und nicht die globalen Register 16 adressieren.
Ein Schlüsselmerkmal der globalen Register 16 gemäß der vorliegenden Erfindung ist ihre Fähigkeit, eine Lese- Modifizierungs-Schreiboperation in einer einzigen nicht unterbrechbaren Operation auszuführen. Es werden mehrere Versionen einer solchen "unteilbaren" Operation unterstützt. Die Operationen globaler Register sind die folgenden:
- Prüfen und Setzen (TAS). In das ausgewählte Register geschriebene Daten werden durch ein logisches ODER mit Daten in dem Register verknüpft. Der Inhalt des Registers vor der Modifikation wird zur die Anforderung einleitenden Stelle zurückgegeben.
- Setzen (SET). In das ausgewählte Register geschriebene Daten werden durch ein logisches ODER mit Daten im Register verknüpft.
- Löschen (CLR). Löschbits in dem ausgewählten globalen Register werden in Daten gesetzt, die von der die Anforderung einleitenden Stelle zugeführt werden.
- Addieren (ADD). In das ausgewählte Register geschriebene Daten werden arithmetisch zum Wert des Registers addiert, und das Ergebnis wird in das Register gegeben.
- Anfordern und Addieren (FAA). In das ausgewählte Register geschriebene Daten werden arithmetisch zum Wert im Register addiert. Der Registerinhalt vor der Addition wird zur die Anforderung einleitenden Stelle zurückgegeben.
- Anfordern und bedingtes Addieren (FCA). In das ausgewählte Register geschriebene Daten werden arithmetisch zum Wert im Register addiert. Falls das Ergebnis des Addierens kleiner als null ist, wird der Registerinhalt nicht geändert. Der Registerinhalt vor der Addition wird zur die Anforderung einleitenden Stelle zurückgegeben.
- SWAP. Der die Anforderung einleitenden Stelle zugeführte Daten werden in das ausgewählte Register geschrieben. Der Inhalt des Registers vor der Modifikation wird zur die Anforderung einleitenden Stelle zurückgegeben.
- Lesen. Der Inhalt des Registers wird zur die Anforderung einleitenden Stelle zurückgegeben.
- Schreiben. Der die Anforderung einleitenden Stelle zugeführte Daten werden in das ausgewählte Register geschrieben.
Die Synchronisation über eine Semaphor-artige Operation unter Verwendung der globalen Register 16 wird durch den Prüfe-und-Setze-(TAS)-Befehl und eine Softwareübereinkunft erreicht, um zu veranlassen, daß ein spezielles globales Re gister 16 Semaphorinformationen enthält. Der TAS-Befehl bewirkt das Setzen einer Anzahl von Bits im globalen Register 16. Bevor die Daten jedoch modifiziert werden, wird der Inhalt des globalen Registers 16 zum ausgebenden Prozessor 100 zurückgesendet. Der Prozessor 100 prüft dann, ob diese Bits verschieden sind. Falls sie verschieden sind, hat der Prozessor 100 den Semaphor erreicht, weil zu einem Zeitpunkt nur ein Register irgendwelche Daten in einem globalen Register 16 ändern kann. Falls die Bits die gleichen sind, kann die Software in der Schleife zurückspringen, um die TAS-Operation wieder zu versuchen.
Abgesehen von der zum Unterstützen einer Parallelverarbeitung erforderlichen offensichtlichen Fähigkeit zur schnellen Synchronisation wurden zusätzliche Funktionen in die globalen Register 16 und die Gesamtarchitektur aufgenommen. Beim Kompilieren bestimmt jeder Prozeß, wie viele Prozessoren 100 er für verschiedene Abschnitte des Codes verwenden kann. Dieser Wert kann als die Prozessoranforderungsnummer des Prozesses in die aktive Gruppe globaler Register gegeben werden. Jeder freie Prozessor befindet sich der Definition nach im Betriebssystem und kann durch einfaches Ändern der GMASK- und GOFFSET-Steuerregister und durch Suchen nach der Prozessoranforderungsnummer eines aktiven Prozesses nach möglicher Arbeit suchen.
Nachdem Prozessoren zu einem Prozeß hinzugefügt wurden, wird die Prozessoranforderungsnummer verringert. Das Betriebssystem kann auf der Grundlage des Bedarfs und der Verwendung leicht Prozessoren zu einem Prozeß hinzufügen oder Prozessoren von einem Prozeß abziehen. Der Anfordern- und-bedingtes-Addieren-(FCA)-Befehl gewährleistet, daß zu einem Prozeß nicht mehr Prozessoren als erforderlich hinzu gefügt werden. Dieser Befehl erleichtert auch die Parallelschleifenbehandlungsfähigkeit mehrerer Prozessoren, die weiter unten in näheren Einzelheiten erörtert wird.

Der Unterbrechungsmechanismus

In Fig. 27 zeigt ein logisches Blockdiagramm die Operation von Signalen (Unterbrechungen) innerhalb der vorliegenden Erfindung. Sowohl Prozessoren 100 als auch Ein-/Ausgabe- Konzentratormittel 24 können Signale im selben und in verschiedenen Clustern senden und empfangen. Prozessoren 100 können durch Ausführen des Signalbefehls oder durch Erzeugen einer schnellen Unterbrechung Signale einleiten. Sobald das Unterbrechungssignal (über einen Signalbefehl oder über eine schnelle Unterbrechung) die Unterbrechungsabfertigungslogik 450 im NRCA-Mittel 46 erreicht hat, wird es von dort in der gleichen Weise abgefertigt. Eine Unterbrechungs-Ausgangsverzweigungslogik 452 gibt das Unterbrechungssignal von der Unterbrechungsabfertigungslogik 450 zum Entscheidungsknoten 44 des unterbrochenen Prozessors 100 oder der unterbrochenen externen Schnittstelle 22 zurück. Eine weitere Unterbrechungsdecodierlogik 454 innerhalb des Entscheidungsknotens 44 übergibt dann das Unterbrechungssignal an den geeigneten Prozessor 100 oder das geeignete externe Schnittstellenmittel 22.
Für vom Signalbefehl erzeugte Unterbrechungen wird der Wert im vom Signalbefehl ausgewählten S-Register als der Zielauswahlwert interpretiert. Signale werden von den Prozessoren 100 als Unterbrechungsanforderungen empfangen. Unterbrechungsanforderungen werden im Systemmodusregister durch die Deaktivier-Typ-Bits (DTO-3) maskiert. Masken für die Intervallzeitgeber- und Schnelle-Unterbrechung- Anforderungen, die weiter unten beschrieben werden, befinden sich auch im Systemmodusregister. Ausstehende Unterbrechungen werden in das Ausstehende-Unterbrechung-(PI)- Steuerregister aufgenommen. Ein Bit im PI-Register entspricht jedem Unterbrechungstyp. Ein eingehendes Signal setzt das geeignete PI-Registerbit und bewirkt eine Unterbrechung, falls die SM-Maske für dieses Bit nicht gesetzt ist. PI-Bits werden nach dem Erkennen der Unterbrechungen vom Unterbrechungsbehandlungscode gelöscht.
Das Ein-/Ausgabe-Konzentratormittel 24 kann durch Schreiben des Zielauswahlwerts in die Unterbrechungslogik Signale einleiten. Vom Standardkanal 34 wird ein Befehlscode unterstützt, der es der Peripheriesteuerung ermöglicht, diese Operation auszuführen. Der Standardkanal 34 und das SMS 28 können auch Signale zu Peripherievorrichtungssteuerungen senden. Wie weiter unten in näheren Einzelheiten erörtert wird, leitet die Logik im Ein-/Ausgabesystem die geeignete Kanalaktivität ein, wenn sie erkennt, daß ein Signal zu der einem gegebenen Kanal zugeordneten Vorrichtung gesendet worden ist. Dieses Verfahren wird zum Einleiten von Signalen verwendet, und die auf ein Signal hin vorgenommene Tätigkeit ändert sich entsprechend dem Vorrichtungstyp. Signale werden durch Senden eines Zielauswahlwerts zur Signallogik eingeleitet. Fig. 26 zeigt die Logisch-zu-real- Abbildung für die Zielauswahlwerte.
- Substratauswahl bestimmt, welcher reale Prozessor oder Ein-/Ausgabe-Konzentrator die Unterbrechung empfängt.
- Klassenauswahl bestimmt, welcher Vorrichtungstyp die Unterbrechung empfängt. Der Zwei-Bit-Code ist der folgende: 0 - Prozessor, 1 - Ein-/Ausgabe- Konzentrator, 2 - Sekundärspeicher- Übertragungssteuerung und 3 - reserviert.
- Kanalauswahl. Wenn ein Ein-/Ausgabe-Konzentrator im Klassenauswahlfeld angegeben ist, adressieren die Bits 4 bis 2 einen Kanaladapter in dem im Substratauswahlfeld ausgewählten Konzentrator. Wenn die Sekundärspeicher-Übertragungssteuerung im Klassenauswahlfeld angegeben ist, wählt das Bit 2 aus, welche Sekundärspeicher-Übertragungssteuerung in einem Ein-/Ausgabe-Konzentratormittel unterbrochen wird. Dieses Feld wird für alle anderen Klassenauswahlen ignoriert.
- Typauswahl bestimmt, welcher Unterbrechungstyp zu übertragen ist. Der Signaltyp wird an der Zielvorrichtung entgegengenommen. Die Wirkung der verschiedenen Signaltypen ist vorrichtungsunabhängig.
Mit Bezug auf die Fig. 28a, 28b und 28c wird nun die Schnelle-Unterbrechung-Einrichtung beschrieben. Die Schnelle-Unterbrechung-Einrichtung ermöglicht es einem Prozessor 100, gleichzeitig eine Unterbrechung zu allen anderen demselben Prozeß zugeordneten Prozessoren 100 zu senden. Die Prozessoren 100 werden zur Betriebssystemsteuerung durch den Inhalt eines Satzes von Gruppennummern-(SETN)- Registern, die Teil jedes Clusters 40 sind, in logische Gruppen abgebildet. Es gibt im System globaler Register für einen einzigen Cluster 40 32 SETN-Register, wobei jeweils eines jedem Prozessor 100 zugeordnet ist. Wenn ein Prozessor einer Gruppe eine Schnelle-Unterbrechung-Anforderung erzeugt, sendet die Unterbrechungsabfertigungslogik 450 Unterbrechungen zu allen Prozessoren 100, die sich in derselben Gruppe wie derjenige befinden, der die Anforderung eingeleitet hat, indem ein über 36 Wege erfolgender simultaner Vergleich aller SETN-Werte vorgenommen wird, wie in Fig. 28a dargestellt ist. Bevor das Unterbrechungssignal tatsächlich zum Prozessor 100 gesendet wird, werden die Vergleichsergebnisse einer Prüfschaltung zugeführt, die gewährleistet, daß tatsächlich eine gültige Schnelle- Unterbrechung-Anforderung vom anfordernden Prozessor gesendet wurde. Falls dies der Fall ist, wird dann das Schnelle- Unterbrechung-Signal zu jedem der Prozessoren gesendet, der dieselbe Gruppennummer wie der anfordernde Prozessor aufweist. Fig. 28b zeigt die zusätzliche Logik im NRCA-Mittel 46, die verwendet wird, um schnelle Unterbrechungen zu anderen Fernclustern 40 zu senden. Ein detailliertes Schaltungsdiagramm der bevorzugten Verwirklichung der Unterbrechungslogik für den simultanen Vergleich und die Prüfschaltung für ein Vier-Unterbrechungen-System sind in Fig. 28c dargestellt.
Es sei bemerkt, daß die Schnelle-Unterbrechung-Einrichtung gleichzeitig alle in einem einzigen Zyklus bei der Unterbrechungslogik empfangenen Unterbrechungssignale verarbeiten kann. Durch die Fähigkeit, alle in einem einzigen Zyklus empfangenen schnellen Unterbrechungen innerhalb dieses Zyklus zu behandeln, werden die Probleme beseitigt, die mit dem Einreihen von Unterbrechungen verbunden sind. Es wird jedoch erkannt werden, daß Signalverzögerungen das Verzögern des Ausgebens und des Empfangens schneller Unterbrechungen um mehrere Zyklen vor oder nach der Unterbrechungslogik hervorrufen können. Selbst wenn dies so ist, führen diese Verzögerungen nicht zu einem Einreihen von Unterbrechungen.
Die schnelle Unterbrechung wird durch drei Prozessormechanismen eingeleitet: (1) eine Ausnahmebedingung (im Ausnehmezustandsregister entgegengenommen), (2) das Ausgeben eines Schnelle-zugeordnete-Unterbrechung-Anforderung- (FAIR)-Befehls zum Anfordern einer Unterbrechung in der Gruppe zugeordneter Prozessoren oder (3) das Einschreiben einer Gruppennummer in das SETI-Register. Die sich im Systemmodusregister befindende Schnelle-Unterbrechung- Anforderung-Maske (FIRM) unterbindet die Erzeugung einer Schnelle-Unterbrechung-Anforderung, wenn eine Ausnahme angetroffen wird. Durch das Setzen von FIRM auf eine binäre Eins werden Schnelle-Unterbrechung-Anforderungen unterbunden. Falls eine individuelle Ausnahme unterbunden ist, kann die schnelle Unterbrechung für diesen Ausnahmetyp nicht auftreten. Ein weiteres Systemmodusregisterbit, Unterbindeschnelle-Unterbrechung (DFI), unterbindet eingehende Schnelle-Unterbrechung-Anforderungen. Ein Prozessor kann nicht durch eine Schnelle-Unterbrechung-Anforderung unterbrochen werden, während DFI gesetzt ist.
Der Schnelle-zugeordnete-Unterbrechung-Anforderung-(FAIR)- Befehl erzeugt auch eine Schnelle-Unterbrechung-Anforderung. Das Ausführen eines FAIR-Befehls bewirkt das Auftreten einer schnellen Unterbrechung in den zugeordneten Prozessoren, jedoch nicht im ausgebenden Prozessor. Es sind zwei Schritte erforderlich, um einen Prozessor in eine Gruppe aufzunehmen: (1) in das SETN-Register für diesen Prozessor muß die Nummer der zugeordneten Gruppe geschrieben werden, und (2) das DFI-Bit in diesem Systemmodusregister des Prozessors muß auf Null gesetzt werden.
Wenngleich Ein-/Ausgabe-Peripherievorrichtungen 32 und auch das SMS 28 schnelle Unterbrechungen einleiten können, können nur Prozessoren durch schnelle Unterbrechungsoperationen unterbrochen werden. Das Ein-/Ausgabe-Untersystem er möglicht es einer Vorrichtung, die Nummer der zu unterbrechenden Gruppe direkt in die Schnelle-Unterbrechung-Logik zu schreiben. Dies geschieht durch Schreiben in das SETI- Register. Alle Prozessoren, deren SETN-Register den geschriebenen Gruppennummernwert enthalten, werden dann unterbrochen.

Das Ein-/Ausgabe-Untersystem

Mit Bezug auf Fig. 29 wird nun das Ein-/Ausgabe- Unterssystem gemäß der vorliegenden Erfindung beschrieben. Die Ein-/Ausgabe-Peripherievorrichtungen 32 sind über die Standardkanäle 34, die Ein-/Ausgabe-Konzentratormittel 24 und die externen Schnittstellenmittel 22 mit dem Hauptspeicher 14 und den globalen Registern 16 verbunden, und sie können direkt aus diesen geteilten Betriebsmitteln 12 innerhalb desselben Clusters 40 sowie in anderen Clustern 40 lesen und in diese schreiben. Die Ein-/Ausgabe- Peripherievorrichtungen 32 können auch aus dem demselben Cluster 40 zugeordneten Sekundärspeichersystem (SMS) 28 lesen und in dieses schreiben, sie können jedoch nicht auf das SMS 28 in einem anderen Cluster 40 zugreifen. Es sei bemerkt, daß kein Weg verfügbar ist, um es Prozessoren 10 und Ein-/Ausgabe-Peripherievorrichtungen 32 zu ermöglichen, direkt Daten auszutauschen. Alle dieser Austauschvorgänge müssen über den Hauptspeicher 14, das SMS 28 oder die globalen Register 16 stattfinden.
Das Ein-/Ausgabe-Konzentratormittel 24 enthält die Datenwege, Schalter und Steuerfunktionen zum Unterstützen von Datenübertragungen zwischen den verschiedenen Ein- /Ausgabekomponenten. Bei der bevorzugten Ausführungsform befinden sich in einer einzigen Ein-/Ausgabeumgebung 500 real bis zu acht Ein-/Ausgabe-Konzentratormittel 24. Jedes Ein-/Ausgabe-Konzentratormittel 24 unterstützt bis zu acht Kanaladapter 502 zu den Standardkanälen 34, eine Sekundärspeicher-Übertragungssteuerung (SMTC) 504, die eine Hochgeschwindigkeitskanal-Schnittstelle 506 zum Hochgeschwindigkeitskanal 30 und zum SMS 28 steuert, einen Hauptspeicherport 508, der eine Verbindung zu den externen Schnittstellenmitteln 22 herstellt, ein Signalschnittstellenmittel 510, das Unterbrechungssignale zu den Kanaladaptern 502 und der SMTC 504 und von diesen verteilt und ein Datenweg- Kreuzschienenschaltermittel 512. Jedes Ein-/Ausgabe- Konzentratormittel 24 kann in jedem zweiten Taktzyklus ein einzelnes 64-Bit-Wort im Hauptspeicher 14 lesen oder in diesen schreiben. Es kann auch ein Wort im SMS 28 lesen oder in dieses schreiben, während gleichzeitig auf den Hauptspeicher 14 zugegriffen wird.
Jeder Kanaladapter 502 enthält die Funktionen, die erforderlich sind, um Daten mit einer Ein-/Ausgabe-Peripherievorrichtung 32 über einen Standard-Ein-/Ausgabekanal 34 austauschen. Die Kanaladapter 502 greifen auf den Hauptspeicher 14, das SMS 28 und globale Register 16 zu und senden über das Ein-/Ausgabe-Konzentratormittel 24 Signale zu den Prozessoren 10. Ein Ein-/Ausgabe-Konzentratormittel 24 multiplexiert Zugriffsanforderungen zwischen den daran angebrachten Kanaladaptern 502, wobei Daten durch eine gegebene Übertragung zum ausgewählten Ziel geleitet werden. Alle bei der maximalen Rate Daten anfordernden acht Kanaladapter 502 benötigen die maximal verfügbare Rate vom Hauptspeicher 14 oder die maximal verfügbare Rate vom SMS 28.
Die SMTC 504 regelt den Austausch von Datenblöcken zwischen dem Hauptspeicher 14 und dem SMS 28. Diese Austauschvorgänge können bei einer Rate von einem Wort in jedem zweiten Taktzyklus ablaufen, welches die maximale für den Speicherport 508 mögliche Rate ist. Alle acht Kanaladapter 502 und eine Sekundärspeicheranforderung an die SMTC 504 können gleichzeitig aktiv sein. Weil die SMTC 504 in der Lage ist, alle verfügbaren Speicherzyklen anzufordern, kann die relative Zuordnung von Zyklen zwischen der SMTC 504 und den Kanaladaptern 502 ausgewählt werden. Die SMTC-Zuordnung kann von allen verfügbaren Speicherzyklen bis zu keinen reichen. Diese Zuordnung wird der SMTC zusammen mit anderen Übertragungsparametern angegeben, wenn mit der Übertragung begonnen wird. Das Ein-/Ausgabe-Konzentratormittel 24 verwendet diese Priorität, wenn sie einen Speicherzugriff zwischen aktiven anfordernden Stellen zuordnet.
Der Kreuzschienenschalter 512 ermöglicht das parallele Auftreten von bis zu vier Übertragungen in jedem Zyklus. Die möglichen Quellen und Ziele sind:
- Zum Hauptspeicher von einem Kanaladapter oder einem Sekundärspeicher
- Zum Sekundärspeicher von einem Kanaladapter oder vom Hauptspeicher
- Zu einem Kanaladapter vom Sekundärspeicher
- Zu einem Kanaladapter vom Hauptspeicher
Die Priorität zwischen den Kanälen beruht auf einem rotierenden Prioritätsschema. Kanalanforderungen können eine Länge zwischen 1 und n Wörtern aufweisen. Die Bandbreite des Schalters und des Ein-/Ausgabe-Prioritätsschemas ist hoch genug, um zu garantieren, daß alle Kanäle bei ihrer maximalen Übertragungsrate bedient werden können. Ein Ein- /Ausgabe-Entscheidungssteuernetzwerk 514, das den zuvor beschriebenen Entscheidungsnetzwerken ähnelt, behandelt die Auflösung konkurrierender Anforderungen entsprechend der Prioritätszuordnung zwischen der SMTC 504 und den Kanaladaptern 502.
Wie zuvor in Zusammenhang mit dem Datenmarkierungsabschnitt erörtert wurde, können Hauptspeicher-Schreibvorgänge außerhalb der Reihenfolge abgeschlossen werden. Ebenso wie bei den Prozessoren 10 können eine Ein-/Ausgabe-Peripherievorrichtung 34 und das SMS 28 auch den Datenmarkierungsmechanismus verwenden, um festzustellen, wann alle früheren Bezüge abgeschlossen sind. Ein markierter Bezug wird vom Speichersystem bestätigt, wenn die Daten in den Speicher eingeschrieben worden sind. Die Kanaladapter 502 oder die SMTC 504 können jeden Block oder jede Gruppe von Bezügen markieren. Alle nachfolgenden Anforderungen für diese anfordernde Stelle werden ignoriert, bis die markierten Einschreibungen das Speichersystem verlassen haben.
Wie ebenfalls zuvor in Zusammenhang mit dem Unterbrechungsmechanismusabschnitt erörtert wurde, sind Ein/Ausgabe- Peripherievorrichtungen 32 und die SMTC 504 in der Lage, Signale zu den Prozessoren 10 im selben oder in anderen Clustern zu senden und von diesen zu empfangen. Durch das Signalisieren eines Prozessors 10 wird der Befehlsausführungsstrom dieses Prozessors unterbrochen, wobei typischerweise ein Unterbrechungs-Handler aufgerufen wird. Durch das Senden eines Signals zu einer Ein-/Ausgabevorrichtung in der Art der SMTC 504 wird bewirkt, daß die Vorrichtung, der das Signal gesendet wurde, eine für diese Vorrichtung kennzeichnende Tätigkeit ausführt. Ein typisches Ergebnis besteht darin, daß bewirkt wird, daß die Vorrichtung einen Block von im Hauptspeicher gebliebenen Befehlsinformationen anfordert.
Es gibt bei der bevorzugten Ausführungsform zweiunddreißig Ein-/Ausgabe-Konzentratormittel 24 in einem einzigen Cluster, wobei jeweils eines in jedem externen Schnittstellenmittel 22 vorgesehen ist. Das ganze Ein-/Ausgabe- Untersystem für jeden Cluster 40 kann 256 Standardkanäle 34 (8 je Konzentratormittel) und zweiunddreißig SMTCs 504 unterstützen. Es wird nur ein Vollwortzugriff (64-Bit- Zugriff) unterstützt, und es tritt daher kein Lesen oder Schreiben von Teilwörtern auf. Bezüge auf das Ein-/Ausgabe- Untersystem sind auch so eingeschränkt, daß sie auf die Grenzen vollständiger Wörter gerichtet sind, und es wird daher kein Byteversatz unterstützt. Es kann ein Bezug auf jede Adresse in jedem Zyklus vorgenommen werden. Anforderungen für Hauptspeicherübertragungen (Lese- oder Schreibvorgänge) können durch die Kanaladapter 502 oder die SMTC 504 eingeleitet werden. Eine Erkennung und Korrektur von Fehlern wird am Hauptspeicherport 508 vorgenommen.
Bei der bevorzugten Ausführungsform steuert die SMTC 504 Übertragungen zum SMS 28. Die einzige adressierbare Einheit im SMS ist ein Block von zweiunddreißig 64-Bit-Wörtern. Übertragungen sind so eingeschränkt, daß sie an einer Blockgrenze beginnen. Anforderungen von Sekundärspeicherübertragungen (Lese- oder Schreibvorgängen) können durch die Kanaladapter 502 oder die SMTC 504 eingeleitet werden. Übertragungen zu den Kanaladaptern 502 und zum Hauptspeicherport 508 können gleichzeitig ablaufen. Eine Erkennung und Korrektur von Fehlern erfolgt an der SMTC 504.

Der Befehlssatz

Mit Bezug auf die Fig. 30a-30c werden nun die verschiedenen Befehlsformate für den Befehlssatz des Prozessors 100 beschrieben.
Befehle umfassen entweder ein Paket (32 Bits) oder zwei Pakete (64 Bits). Ein Zwei-Paket-Befehl kann eine Wortgrenze nicht kreuzen. Daher kann ein 64-Bit-Befehl einen Zwei- Paket-Befehl (Fig. 30a), zwei Ein-Paket-Befehle, wobei das obere Paket zuerst auszuführen ist (Fig. 30b), oder einen Ein-Paket-Befehl im oberen Paket und einen Füllcode im unteren Paket (Fig. 30c) enthalten. Der Füllcode ist kein Befehl, und seine Ausführung nimmt keine Zeit in Anspruch.
Die Felder im Befehlsformat können verschiedene Informationen enthalten. Das "op"-Feld enthält einen 8-Bit- Operationscode. Das "i"-Feld bezeichnet gewöhnlich das Ziel des Befehls. Dies ist entweder die Nummer eines S-Registers oder das Einerkomplement der Nummer eines V-Registers. Bei Einspeicherungen bezeichnet das "i"-Feld das zu speichernde Register. Dieses Feld enthält manchmal einen Operationscodemodifizierer in der Art eines Vergleichstyps. Das "j"-Feld bezeichnet gewöhnlich einen der Operanden. Falls dies der Fall ist, muß "j" die Nummer eines S-Registers oder das Einerkomplement der Nummer eines V-Registers enthalten. Bei den meisten Befehlen ist es erforderlich, daß "j" genau dann ein V-Register angibt, wenn "i" ein V- Register angibt. Das "k"-Feld bezeichnet entweder ein Register (S oder V wie oben) für den zweiten Operanden, oder es enthält eine vorzeichenbehaftete 8-Bit-Konstante, die als ein Operand zu verwenden ist. Bei Befehlen, bei denen ein Operand ein Vektor ist und der andere ein Skalar oder eine Konstante ist, wird das "k"-Feld für den Skalar oder die Konstante verwendet. Bei manchen Befehlen wird ein kombiniertes "jk"- oder "ij"-Feld für eine 16-Bit-Konstante verwendet. Das "m"-Feld kann eine 32-Bit-Konstante für Ladeliteral-Befehle oder relative Verzweigungen enthalten. Es kann mit dem "j"- und "k"-Feld kombiniert werden, um ein 48-Bit-"jkm"-Feld für Ladeliteral-Befehle oder absolute Adressen zu bilden.
Eine Zusammenfassung des Befehlssatzes für die vorliegende Erfindung ist im beigefügten Anhang A dargelegt. Eine detaillierte Beschreibung jedes Befehls ist im beigefügten Anhang B dargelegt. Eine Zusammenfassung und eine detaillierte Beschreibung der verschiedenen Prozessor-C-Register, die durch die Befehle gesteuert oder beeinflußt werden, ist im beigefügten Anhang C dargelegt.

Das Betriebssystem und die Kontextschalter

Um zu verstehen, wie das Betriebssystem Prozesse plant und auch wie das Betriebssystem das Planen mehrerer auf dem Vielfachprozessorsystem gemäß der vorliegenden Erfindung abzuarbeitender Prozesse berücksichtigt, ist es wichtig, die zwei Zeitgeber, die innerhalb jedes Prozessors 100 existieren und vom Betriebssystem verwendet werden, nämlich einen Echtzeit-Taktgeber (RTC) und einen Intervallzeitgeber (IT), sowie die Prozeduren zum Behandeln der vier Unterbrechungstypen, die verwendet werden, um Kontextumschaltungen unter Einschluß von Unterbrechungen, Ausnahmen, Einsperrbefehlen und Einsperrückgaben auszuführen, zu beschreiben.
Der RTC ist ein 64-Bit-Zähler, der mit jedem Systemtaktzyklus inkrementiert. Er kann nicht unter der Programmsteuerung geladen werden, und er kann nur vor dem Kaltstart des Systems initialisiert werden. Falls der RTC jedes Prozessors 100 demgemäß auf demselben Wert initialisiert wird und die Prozessortaktgeber zu einem Zeitpunkt gestartet werden, enthalten die verschiedenen RTCs immer identische Werte. Der RTC kann mit zwei Einschränkungen zur Zeitsteuerung des Ablaufs von Programmen verwendet werden. Die Zeit ist erstens eine Echtzeit. Falls ein Programm unterbrochen wird, ausgelagert wird usw., mißt der RTC noch die abgelaufene Gesamtzeit. Die Zeit wird zweitens in Taktzyklen gemessen. Ein Programm muß die Taktfrequenz des Prozessors kennen, um den Zählwert in eine abgelaufene Zeit umzuwandeln.
Der IT ist ein 32-Bit-Zähler, der fortlaufend dekrementiert. Er kann vom Systemcode geladen werden. Immer dann, wenn der IT negativ ist und die Unterbrechung aktiviert ist, wird eine "Intervallzeitgeberunterbrechung" erzeugt. Der IT gibt die Steuerung zum Betriebssystem zurück, wenn der Zeitschlitz eines Benutzers verstrichen ist. Wenn die Unterbrechung erzeugt wird, setzt der IT das Zählen dennoch zu stärker negativen Zahlen hin fort. Demgemäß kann das System bestimmen, wieviel Zeit über den zugeordneten Zeitschlitz hinaus tatsächlich verwendet wurde. Falls die verstrichene Zeit jedes Zeitschlitzes vom Betriebssystem gespeichert und akkumuliert wird, kann der IT verwendet werden, um zu bestimmen, wieviel Prozessorzeit ein Programm verwendet hat. Falls der IT-Zeitgeber über seinen ganzen negativen Bereich zählt und zu positiven Zahlen hin überläuft, wird eine "Zeitüberwachungsfehler"-Angabe zu einer Wartungssteuereinheit gesendet, die verwendet wird, um einen fehlerhaften Prozessor zu erkennen.
Der grundlegende Prozessorplanungsmechanismus innerhalb des Vielfachprozessorsystems ist ein Kontextschalter. Ein Pro zessorkontextschalter schaltet zwischen dem Benutzercode und dem Betriebssystemcode um. Ein Prozessorkontextschalter kann vier Wege aufweisen, nämlich Unterbrechung, Ausnahme, Einsperrbefehl und Einsperrückgabe.
Wie zuvor in Zusammenhang mit dem Abschnitt über Unterbrechungsmechanismen erörtert wurde, sind Unterbrechungen Ereignisse, die außerhalb der Steuerung des aktuell ausführenden Programms liegen und die den Prozessor einnehmen, so daß er für andere Zwecke verwendet werden kann. Eine Unterbrechung kann durch (1) eine Ein-/Ausgabevorrichtung, (2) einen anderen Prozessor über den Signalbefehl oder (3) den Intervallzeitgeber (IT), wenn er einen negativen Wert erreicht, hervorgerufen werden. Unterbrechungen können über das SM-Register maskiert werden. Falls dies der Fall ist, werden ausstehende Unterbrechungen am Prozessor gehalten, bis das Maskenbit gelöscht wurde. Falls mehrere Unterbrechungen empfangen werden, bevor die erste wirksam wird, haben die nachfolgenden Unterbrechungen keine zusätzliche Wirkung. Eine Unterbrechungsbehandlungssoftware muß durch eine Softwarekonvention die Quelle einer Unterbrechung von anderen Prozessoren oder von der Ein-/Ausgabe bestimmen. Sie kann das IT-Register lesen, um das Ablaufen eines Zeitschlitzes zu bestimmen (wenngleich sie nicht unbedingt weiß, ob er vor oder nach der Unterbrechung abgelaufen ist).
Eine Ausnahme beendet das aktuell ausführende Programm wegen einiger Unregelmäßigkeiten seiner Ausführung. Die Ursachen sind (1) ein Operandenbereichsfehler, wobei ein Lesen oder Schreiben von Daten nicht abgebildet werden kann, (2) ein Programmbereichsfehler, wobei eine Befehlsanforderung nicht abgebildet werden kann, (3) eine Schreibschutzverlet zung, wobei Daten in ein geschütztes Segment geschrieben werden, (4) ein Doppelbit-ECC-Fehler, (5) eine Gleitkommaausnahme, (6) eine Befehlsschutzverletzung, wobei ein Versuch erfolgt, bestimmte privilegierte Befehle von einem nicht privilegierten Code auszuführen, (7) ein Befehlsausrichtungsfehler, wobei ein Zwei-Paket-Befehl im unteren Paket eines Worts liegt, und (8) ein ungültiger Wert im SM (das Gültigkeitsbit ist nicht gesetzt).
Im allgemeinen werden Ausnahmen nicht sofort wirksam, und es können mehrere Befehle nach dem Programmbefehl ausgeführt werden, bevor das Kontextumschalten stattfindet. Weiterhin tritt eine Ausnahme nie zwischen den zwei Ein-Paket- Befehlen im selben Wort auf. Einige Ausnahmen können durch Bits im Benutzermodusregister gesteuert werden. Falls sie maskiert ist, bewirkt die Bedingung keine Ausnahme. Anders als Unterbrechungen wird die Bedingung auf eine Änderung der Maske hin nicht gespeichert, und es werden mit Ausnahme der Gleitkommabedingungen, die im Benutzerstatusregister aufgenommen werden, maskierte Fehler nicht aufgezeichnet.
Eine Unterbrechung geht einer Ausnahme vor, falls (1) eine Unterbrechung zur gleichen Zeit wie eine Ausnahme auftritt, (2) eine Unterbrechung auftritt, während nach einer Ausnahme darauf gewartet wird, daß der aktuelle Befehl abgeschlossen wird, und (3) eine Ausnahme auftritt, während nach einer Unterbrechung darauf gewartet wird, daß Befehle abgeschlossen werden. In diesen Fällen wird die Ursache der Ausnahme im Es-(Ausnahmezustand)-Register gespeichert. Falls der Unterbrechungs-Handler Ausnahmen wieder ermöglicht oder einen rtt-Befehl ausführt, der Ausnahmen ermöglicht, wird die Ausnahme zu diesem Zeitpunkt gemacht.
Ein beliebiges Kontextumschalten in den Systemcode kann über den Einsperrbefehl vorgenommen werden. Das Systemaufrufadressen-(SCA)-Register weist eine Basisadresse für eine Tabelle von Eingangspunkten auf, der Eingangspunkt innerhalb der Tabelle wird jedoch durch das "t"-Feld des Befehls ausgewählt. Demgemäß sind für Betriebssystemaufrufe und andere Dienstleistungen, die einen Zugriff mit geringer Latenz auf privilegierten Code erfordern, 256 unabhängige Eingangspunkte verfügbar. Anders als Unterbrechungen und Ausnahmen ist ein Einsperren exakt, was bedeutet, daß nach dem Einsperren keine Befehle ausgeführt werden, bevor das Einsperren wirksam wird. Das Betriebssystem kehrt über die Einsperrückgabe zum Programmcode zurück. Die durch den rtt- Befehl hervorgerufene Einsperroperation wird auch immer dann verwendet, wenn der Systemcode ein Kontextumschalten veranlassen will, um (1) ein Programm neu zu starten, das unterbrochen war oder eine Ausnahme aufwies, (2) zu einem Programm zurückzukehren, das einen Einsperrbefehl ausgeführt hat, (3) ein neues Benutzerprogramm einzuleiten oder (4) zu einem nicht betroffenen System oder einem Benutzermodusauftrag umzuschalten.
Es gibt ein gemeinsames Verfahren zum Antworten auf Unterbrechungen, Ausnahmen und Einsperrungen. Wie in Fig. 31 dargestellt ist, speichert die Handler-Routine die Register, die sie verwenden muß, falls sie zum aufgeschobenen Programm zurückkehren soll, wobei diese Register intakt sind. Dies schließt S-, L-, V- und Steuerregister ein, von denen keines automatisch gespeichert wird. In jedem Fall werden diese Schritte ausgeführt:
- Warten auf eine Wortgrenze oder einen Abschluß eines verzögerten Sprungs. Dies bedeutet, daß dann, wenn der nächste Befehl, auf dessen Aus gabe gewartet wird, das zweite Paket eines Worts oder ein Verzögerungsbefehl, dem ein verzögerter Sprung folgt, ist, gewartet wird, bis er ausgegeben wird. (Dieser Schritt wird für Einsperrbefehle nicht ausgeführt.)
- Verschieben des PC-Registers (so eingestellt, daß es auf den nächsten auszuführenden Befehl zeigt) in das OPC-Register.
- Verschieben des SM-Registers in das OSM- Register.
- Laden des PC-Registers von IAD, EAD oder SCA. (Falls SCA, "or" im verschobenen "t"-Feld, um einen der 256 möglichen Eingangspunkte zu bilden).
- Setzen des SM-Registers ausschließlich auf Einsen. Hierdurch werden Unterbrechungen und Ausnahmen unterbunden, wird das Abbilden von Befehlen und Daten unterbunden und wird ein privilegierter Modus festgelegt.
- Wiederaufnehmen der Ausführung bei der neuen Adresse.

Verwendung der vorliegenden Erfindung

Zum besseren Verstehen der Art, in der die vorliegende Erfindung verwendet wird, ist es nützlich, einige der Begriffe festzulegen, die die Ausführung eines Auftrags oder eines Programms im hochparallelen Computerverarbeitungssystem gemäß der vorliegenden Erfindung beschreiben. Der Begriff Auftrag oder Programm betrifft ein vollständiges Benutzeranwendungsprogramm, das in der Betriebssystemsoftware als eine Sammlung von einem oder mehreren Aufgaben oder Prozessen dargestellt werden kann. Weil ein auf einem parallelen Computerverarbeitungssystem ablaufendes Programm auf jeder beliebigen Anzahl von Prozessoren ausgeführt werden kann, ist es erforderlich, zwei Begriffsgruppen zum Einteilen des Programms in Segmente, die parallel ablaufen können, zu definieren. Die erste Gruppe von Begriffen betrifft das Aufteilen des Programms in parallele Segmente durch einen Kompilierer. Die zweite Gruppe von Begriffen betrifft die Art, in der das Betriebssystem tatsächlich diese auszuführenden aufgeteilten Segmente unter einer Anzahl von Parallelprozessoren einteilt.
Beim Kompilieren eines Programms, das auf dem parallelen Computerverarbeitungssystem gemäß der vorliegenden Erfindung ablaufen soll, führt ein Kompilierer einen als Aufteilen in mehrere Teilprozesse bekannten Prozeß entweder von sich aus oder in Reaktion auf Befehle im Quellencode für den Auftrag aus. Das Aufteilen in mehrere Teilprozesse ist das logische Zerlegen eines Benutzerprogramms in Aufgaben ohne Betrachtung der Anzahl der Prozessoren, die die Aufgaben ausführen. Der Begriff Auftrag wird vom Kompilierer verwendet und betrifft eine Ausführungsfolge in einem Programm, die ohne Synchronisierung zur gleichen Zeit ausgeführt werden kann wie andere Aufgaben. Eine Folge ist als eine unabhängige Sequenz ausführbaren Codes definiert.
Sobald die Aufgaben kompiliert worden sind, ist das Programm bereit, zur Ausführung durch das Betriebssystem eingeplant zu werden. An diesem Punkt werden die parallelen Abschnitte des Programms nun als Prozesse bezeichnet. Wenngleich es möglich sein kann, ein Programm in mehrere Aufgaben aufzuteilen, ist es nicht erforderlich, daß alle oder auch nur die meisten dieser Aufgaben zwischen verschiedenen Prozessoren zur Ausführung aufgeteilt werden. Daher ist ein Prozeß als eine oder mehrere Aufgaben und ein zugeordnetes Prozeßbild definiert, deren Ablauf auf einem Prozessor vom Betriebssystem unabhängig geplant wird. Das Prozeßbild ist die Darstellung der Betriebsmittel des Prozesses innerhalb des Betriebssystems, wie die Ausführungskontextinformationen des Prozesses (Speicherzuordnung, Register, Ein- /Ausgabetabellen usw.), die Kontextinformationen für vom Prozeß aufgerufene Betriebssystemunterroutinen und die ausführbaren Codes und Daten für den Prozeß. Das Betriebssystem ist dann für das Zuweisen und Synchronisieren der Prozesse verantwortlich, die ein Programm unter den verschiedenen Prozessoren 10, externen Schnittstellenmitteln 22 und geteilten Betriebsmitteln 12 gemäß der vorliegenden Erfindung aufweist.
Es ist mit diesem Verständnis nun möglich, zu erklären, wie es die Architektur der vorliegenden Erfindung einem Vielfachprozessorsystem ermöglicht, eine parallele Funktionsweise für traditionelle Anwendungen zu verwirklichen. Es ist bei der vorliegenden Erfindung nicht erforderlich, die Anwendungsprogramme für eine bestimmte Speicherhierarchie umzuschreiben. Weiterhin werden Pipelinetechniken auf jeder Ebene einer Operation zwischen aufrufenden Stellen und Betriebsmitteln verwendet, um die parallele Verwendung der Betriebsmittel innerhalb des Vielfachprozessorsystems zu erhöhen.
Die verschiedenen Mechanismen, die es dem Betriebssystem und Benutzerprogrammen ermöglichen, die verschiedenen Betriebsmittel des Vielfachprozessorsystems zu koordinieren und zu synchronisieren, umfassen ohne Einschränkung das Entscheidungsknotenmittel, das verteilte Ein-/Ausgabe- Untersystem, die globalen Register und die unteilbaren Ope rationen, wie TAS, FAA und FCA, die bezüglich der globalen Register wirken können, eine Speicherabbildung, den Außerhalb-der-Reihenfolge-Zugriff, den Etikettier- und den Datenmarkierungsmechanismus, den Lade- und Kennzeichnungsmechanismus, die Schnelle-Unterbrechung-Einrichtung, die gleichzeitige skalare und vektorielle Operation sowie den über vier Wege assoziativen Befehls-Cache. Diese Mechanismen unterstützen zusammen und einzeln den symmetrischen Zugriff auf geteilte Betriebsmittel und die Mehrebenen- Pipelineoperation des Vielfachprozessorsystems der vorliegenden Erfindung.
Durch Verwenden der in der vorliegenden Erfindung beschriebenen und beanspruchten Clusterarchitektur wird eine Computerverarbeitungsumgebung erzeugt, in der eine Parallelität bevorzugt ist. Die Anzahl der Prozessoren im Vielfachprozessorsystem gemäß der vorliegenden Erfindung kann über diejenige gegenwärtiger minimal paralleler Computerverarbeitungssysteme hinaus bis zu derjenigen von Computerverarbeitungssystemen im hochparallelen Bereich erhöht werden, wodurch der Problemlösungsraum des Vielfachprozessorsystems vergrößert wird, während gleichzeitig die Verarbeitungsgeschwindigkeit des Systems erhöht wird. Die Merkmale der vorliegenden Erfindung ermöglichen es, daß ein Parallelverarbeitungs-Betriebssystem eine wiederholte Bilanzierung der Parallelcodeausführung vornimmt, ohne daß Benutzer dafür bestraft werden, solchen Parallelcode zu erzeugen. Es wird wegen der zuvor beschriebenen speziellen Unterbrechungsmechanismen auch ein wirksames Austesten eines solchen Parallelcodes unterstützt. Das Endergebnis besteht darin, daß das Vielfachprozessorsystem gemäß der vorliegenden Erfindung unter Verwendung traditioneller Anwendungsprogramme bei erhöhter Leistungsfähigkeit und erhöhtem Durchsatz des Systems konsistente und wiederholbare Antworten liefern kann.
Wenngleich die bevorzugten Ausführungsformen beschrieben wurden, wird davon ausgegangen, daß verschiedene Änderungen vorgenommen werden könnten. Es ist dementsprechend vorgesehen, daß der Schutzumfang der vorliegenden Erfindung durch die anliegenden Ansprüche und nicht durch die Beschreibung der bevorzugten Ausführungsform vorgeschrieben wird.

Claims

1. Entscheidungsnetzwerk für ein Computerverarbeitungssystem, wobei das System Betriebsmittelteilungsmittel (12) zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen, wenigstens 4 Prozessormittel (10) zur Durchführung einer Computerverarbeitung von Daten und von Steuerinformationen und wenigstens zwei externe Schnitt- Stellenmittel (22) zur Übertragung von Daten und Steuerinformationen zwischen den Betriebsmittelteilungsmitteln (12) und einer oder mehrerer externer Datenquellen (26) aufweist, wobei das Entscheidungsnetzwerk (20) aufweist:

wenigstens zwei Entscheidungsknotenmittel (20), wobei jedes Entscheidungsknotenmittel operativ mit wenigstens zwei eindeutigen der Prozessoren, wenigstens einem eindeutigen der externen Schnittstellenmittel, und den Betriebsmittelteilungsmitteln zur symmetrischen Schnittstellenbildung bzw. Kopplung der Prozessoren und der externen Schnittstellenmittel mit den Betriebsmittelteilungsmitteln durch Entscheidung unter einer Anzahl von Abfrageports, welche den wenigstens zwei Prozessormitteln und den wenigstens einen Schnittstellenmitteln zugeordnet sind, und einer Anzahl von Betriebsmittelports, welche den Betriebsmittelteilungsmitteln zugeordnet sind, operativ verbunden ist, um gleichzeitige Zusammenschaltungen zwischen ausgewählten Anforderungs- bzw. Abfrageports und Betriebsmittelports zur Verfügung zu stellen, wobei das Verhältnis der Anzahl der Pro zessormittel zu der Anzahl der Entscheidungsknotenmittel größer oder gleich 2 ist.

2. Entscheidungsnetzwerk nach Anspruch 1, bei welchem das Verhältnis der Anzahl der externen Schnittstellenmittel (22) zu der Anzahl der Entscheidungsknotenmittel (20) größer oder gleich 2 ist.

3. Entscheidungsnetzwerk nach Anspruch 2, bei welchem die Anzahl der Prozessormittel und die Anzahl der externen Schnittstellenmittel gleich sind, und jedes Entscheidungsknotenmittel eindeutig mit N der Prozessormittel und N der externen Schnittstellenmittel verbunden ist, wobei N eine ganze Zahl von 2 bis 8 ist.

4. Entscheidungsnetzwerk nach Anspruch 1, bei welchem die Anzahl der Abfrageports größer als die Anzahl der Betriebsmittelports ist.

5. Entscheidungsnetzwerk nach Anspruch 1, bei welchem jedes Abfrageport eine neue Abfrage pro Taktzyklus generieren kann.

6. Entscheidungsnetzwerk nach Anspruch 1, bei welchem die Abfrageports und die Betriebsmittelports jeweils mit einer Warteschlange zum Stapeln von wartenden Abfragen bzw. Antworten ausgebildet sind.

7. Entscheidungsnetzwerk nach Anspruch 1, bei welchem die Entscheidungsknotenmittel (20) ein wer-zuerst-kommt-wird- zuerst-bedient, vielfach-requester-hin-und-her-Schaltsystem bzw. Hin-und-Her-Schaltsystem für mehrere anfordernde Stellen, wobei diejenige zuerst bedient wird, die zuerst kommt.

8. Computerverarbeitungssystem mit einem Vielfachprozessor-Cluster (40) für ein hochparalleles Computerverarbeitugnssystem, wobei der Multiprozessor-Cluster zur Verbindung mit anderen ähnlichen Multiprozessor-Clustern in dem hochparallelen Computerverarbeitungssystem eingerichtet ist, wobei der Multiprozessor-Cluster aufweist:

- Betriebsmittelteilungsmittel (12) zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen;

- P Prozessormittel (10) zur Ausführung einer Computerverarbeitung von Daten und Steuerinformationen, wobei P eine ganze Zahl von 4 bis 256 ist;

- Q externe Schnittstellenmittel (22) zur Übertragung von Daten und Steuerinformationen zwischen den Betriebsmittelteilungsmitteln und einer oder mehreren externen Datenquellen (26), wobei Q eine ganze Zahl von 2 bis 256 ist; und

- Z Entscheidungsknotenmittel (20), welche operativ mit den Prozessormitteln, den externen Schnittstellenmitteln, und den Betriebsmittelteilungsmitteln zur symmetrischen Schnittstellenbildung bzw. Kopplung der Prozessormittel und der externen Schnittstellenmittel mit den Betriebsmittelteilungsmitteln verbunden sind, wobei Z eine ganze Zahl von 2 bis 128 ist, und das Verhältnis von P zu Z größer oder gleich 2 ist.

9. Computerverarbeitungssystem nach Anspruch 8, bei welchem P und Q identische ganze Zahlen zwischen 8 und 128 sind.

10. Computerverarbeitungssystem nach Anspruch 9, bei welchem jedes der Entscheidungsknotenmittel eindeutig mit N der Prozessormittel und N der externen Schnittstellenmittel verbunden ist, wobei N eine ganze Zahl von 2 bis 8 ist.

11. Computerverarbeitungssystem nach Anspruch 8, bei welchem jedes der P Prozessormittel sowohl eine vektorielle als auch eine skalare Parallelverarbeitung durchführen kann.

12. Computerverarbeitungssystem nach Anspruch 11, bei welchem jedes der Entscheidungsknotenmittel eindeutig mit N der Prozessoren und mit N der verteilten externen Schnittstellenmittel verbunden ist, wobei N eine ganze Zahl von 2 bis 8 ist.

13. Computerverarbeitungssystem nach Anspruch 11, bei welchem die Betriebsmittelteilungsmittel aufweisen:

- S Abschnitte eines Hauptspeichers (14), wobei jeder Abschnitt einen unabhängigen Zugriffsweg zur Speicherung, Manipulation und Wiedergewinnung von Daten aufweist, wobei S eine ganze Zahl von 2 bis 256 ist;

- G Gruppen von globalen Registern (16) zum Senden und zum Empfangen von Steuersignalen, wobei G eine ganze Zahl von 2 bis 256 ist; und

- Unterbrechungsmittel (18) zum Senden und zum Empfangen von Steuersignalen.

14. Computerverarbeitungssystem nach Anspruch 11, ferner mit Eingangs/Ausgangs-Konzentratormitteln (24), welche mit jedem der externen Schnittstellenmittel verbunden sind.

15. Computerverarbeitungssystem nach Anspruch 14, ferner mit einem sekundären Speichersystem (28) und einer Anzahl von Kanaladaptoren, welche operativ mit den Eingabe/Ausgabe-Konzentratormitteln verbunden sind.

16. Computerverarbeitungssystem nach Anspruch 8, mit:

- C der Multiprozessor-Cluster, welche operativ miteinander verbunden sind, wobei C eine ganze Zahl von 2 bis 256 ist, wobei jeder der Multiprozessor-Cluster ferner aufweist:

- Fernclusteradaptermittel, welche operativ mit den Betriebsmittelteilungsmitteln in diesem Multiprozessor- Cluster und mit Fernclusteradaptermitteln in sämtlichen anderen Multiprozessor-Clustern verbunden sind, um den Entscheidungsknotenmitteln des Multiprozessor-Clusters Zugriff auf die Betriebsmittelteilungsmittel sämtlicher anderer Multiprozessor-Cluster zu gestatten und sämtlichen anderen Multiprozessor-Clustern den Zugriff auf die Betriebsmittelteilungsmittel des Multiprozessor-Clusters zu gestatten.

17. Computerverarbeitungssystem nach Anspruch 16, bei welchem C eine ganze Zahl von 2 bis 16 ist, und bei welchem P und Q ganze Zahlen von 8 bis 128 sind.

18. Computerverarbeitungssystem nach Anspruch 16, wobei die Betriebsmittelteilungsmittel aufweisen:

- acht Abschnitte eines Hauptspeichers zur Speicherung und zur Rückgewinnung von Daten und von Steuerinformationen;

- zweiunddreißig Gruppen von zweihundertsechsundfünfzig globalen Registern zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen;

- Unterbrechungsmittel zur Speicherung und Wiedergewinnung von Steuerinformationen;

- wobei P gleich zweiunddreißig ist, und die P Prozessormittel in der Lage sind, sowohl vektorielle als auch skalare Parallelverarbeitung durchzuführen;

- wobei Q gleich zweiunddreißig ist;

- wobei Z gleich sechzehn ist, und jedes Entscheidungsknotenmittel eindeutig mit zwei der Prozessoren und zwei der verteilten externen Schnittstellenmittel verbunden ist; und

- bei welchem die Fernclusteradaptermittel aufweisen:

- Knotenfernclusteradaptermittel (NRCA) um den Entscheidungsknotenmitteln zu gestatten, auf die Fernclusteradaptermittel sämtlicher anderer der Multiprozessor-Cluster zuzugreifen; und

- Speicherfernclusteradaptermittel (MRCA) zur Steuerung des Zugriffs auf die Betriebsmittelteilungsmittel dieses Clusters durch die Fernclusteradaptermittel sämtlicher anderer Multiprozessor-Cluster.

19. Computerverarbeitungssystem nach Anspruch 16, bei welchem jedes der P Prozessormittel in der Lage ist, sowohl vektorielle als auch skalare Parallelverarbeitung durchzuführen.

20. Computerverarbeitungssystem nach Anspruch 19, bei welchem jedes der Entscheidungsknotenmittel eindeutig mit N der Prozessoren und N der verteilten externen Schnittstellenmittel verbunden ist, wobei N eine ganze Zahl von 2 bis 8 ist.

21. Computerverarbeitungssystem nach Anspruch 20, bei welchem die Betriebsmittelteilungsmittel für jeden Cluster aufweisen

- S Abschnitte eines Hauptspeichers, wobei jeder Abschnitt einen separaten Zugriffsweg zur Speicherung und Wiedergewinnung von Daten und Steuerinformationen aufweist, wobei S eine ganze Zahl von 2 bis 256 ist;

- G Gruppen von globalen Registern zum Speichern, Manipulieren und Wiedergewinnen von Daten, wobei G eine ganze Zahl von 2 bis 256 ist; und

- Unterbrechungsmittel zum Senden und Empfangen von Steuersignalen.

22. Computerverarbeitungssystem nach Anspruch 19, bei welchem die Fernclusteradaptermittel aufweisen:

- Knotenfernclusteradaptermittel (NRCA) um den Entscheidungsknotenmitteln Zugriff auf die Fernclusteradaptermittel sämtlicher anderer der Multiprozessor-Cluster zu gestatten; und

- Speicherfernclusteradaptermittel (MRCA) zur Steuerung des Zugriffs auf die Betriebsmittelteilungsmittel dieses Clusters durch die Fernclusteradaptermittel von Sämtlichen anderen Multiprozessor-Clustern.

23. Computerverarbeitungssystem nach Anspruch 19, ferner mit Eingangs/Ausgangs-Konzentratormitteln, welche mit jedem der externen Schnittstellenmittel verbunden sind.

24. Computerverarbeitungssystem nach Anspruch 23, ferner mit einem sekundären Speichersystem und einer Anzahl von Kanaladaptern, welche operativ mit den Eingangs/Ausgangs- Konzentratormitteln verbunden sind.