DE19835216B4 - Prozessor und Verfahren zur parallelen Datenverarbeitung - Google Patents

Prozessor und Verfahren zur parallelen Datenverarbeitung Download PDF

Info

Publication number
DE19835216B4
DE19835216B4 DE19835216A DE19835216A DE19835216B4 DE 19835216 B4 DE19835216 B4 DE 19835216B4 DE 19835216 A DE19835216 A DE 19835216A DE 19835216 A DE19835216 A DE 19835216A DE 19835216 B4 DE19835216 B4 DE 19835216B4
Authority
DE
Germany
Prior art keywords
data
processing
buses
processing units
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19835216A
Other languages
English (en)
Other versions
DE19835216A1 (de
Inventor
Matthias Dipl.-Ing. Weiß
Gerhard Prof. Dr.-Ing. Fettweis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP Semiconductors Germany GmbH
Original Assignee
Systemonic AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Systemonic AG filed Critical Systemonic AG
Priority to DE19835216A priority Critical patent/DE19835216B4/de
Priority to US09/431,295 priority patent/US6618817B1/en
Publication of DE19835216A1 publication Critical patent/DE19835216A1/de
Priority to CA002325067A priority patent/CA2325067A1/en
Application granted granted Critical
Publication of DE19835216B4 publication Critical patent/DE19835216B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/383Operand prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30109Register structure having multiple operands in a single register
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)
  • Complex Calculations (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

Prozessor zur parallelen Datenverarbeitung mit einem Datenspeicher, parallelen Verarbeitungseinheiten und einer globalen Kommunikationseinheit, die Busse und einen Verteiler umfasst, wobei der Datenspeicher über erste Busse mit den Eingängen des Verteilers und in dem Verteiler mit zweiten Bussen über diese mit jeder Verarbeitungseinheit verbunden ist, wobei der Prozessor Streifen beinhaltet, wobei jeder Streifen aus einem Teil des Datenspeichers in der Breite eines Datenelementes, einem der ersten Busse, einem Segment der globalen Kommunikationseinheit, welches den Verteiler mit dem Eingang für den ersten Bus und jeweils einen Abschnitt der zweiten Busse beinhaltet, und aus der Verarbeitungseinheit besteht, wobei
1.1) in dem Datenspeicher eine Datengruppe mit ihren Datenelementen aufnehmbar und über eine Adresse adressierbar ist,
1.2) die Anzahl der zweiten Busse kleiner ist als die Anzahl der Datenelemente in der Datengruppe,
1.3) jeder erste und alle zweiten Busse eine der Bitbreite der Datenelemente entsprechende Bitbreite aufweisen,
1.4) jedem Element der...

Description

  • Die Erfindung betrifft einen Prozessor zur parallelen Datenverarbeitung mit einem Datenspeicher, parallelen Verarbeitungseinheiten und einer globalen Kommunikationseinheit, der Busse und einen Verteiler umfasst, wobei der Datenspeicher mit ersten Busen mit den Eingängen des Verteilers und jeder Verarbeitungseinheit verbunden ist.
  • Die Erfindung betrifft auch ein Verfahren zur parallelen Datenverarbeitung in einem Prozessor gemäß Anspruch 4, bei dem Daten, die in Datengruppen mit mehreren Elementen aufgeteilt sind, aus einem Datenspeicher ausgelesen und über eine globale Kommunikationseinheit Verarbeitungseinheiten zur parallelen Verarbeitung zugeführt werden, wobei eine Datengruppe gleichzeitig und parallel aus dem Datenspeicher ausgelesen und auf eine oder mehrere Verarbeitungseinheiten aufgeteilt und in diesen Verarbeitungseinheiten parallel verarbeitet wird.
  • Es sind Prozessoren mit einer parallelen Datenverarbeitung bekannt, wie sie unter anderem in dem Fachbuch J. Hennessy, D. Patterson: Computer Architecture: A Quantitiative Approach. Morgan Kaufmann Publishers Inc., 1990 beschrieben sind. Dabei werden Verarbeitungseinheiten einer Architektur mehrfach ausgelegt, um eine parallele Verarbeitung zu erreichen. Für eine gleichzeitige Nutzung dieser parallelen Verarbeitungseinheiten müssen diesen parallel Daten zugeführt werden. Dazu müssen gegebenenfalls Dateneinheiten mehrfach ausgelegt werden. Hierzu wird entweder ein Multiprozessorsystem erforderlich oder es ist eine gemeinsame Nutzung eines Datenspeichers durch mehrere Verarbeitungseinheiten vorzusehen.
  • Nachteilig bei diesen bekannten Anordnungen ist, dass bei mehrfacher Auslegung von Verarbeitungseinheiten entweder Datenspeicher mehrfach vorhanden sein müssen oder Zwischenregistersätze eingeführt werden müssen, die mit Hilfe eines vollständig verbunden Kommunikationsnetzwerkes ihren Inhalt umordnen können. Dies wiederum erfordert entweder den mehrfachen Aufbau von Adressgenerierungseinheiten, Speicherports sowie dem Aufbau eines Verbindungsnetzwerkes zwischen diesen Speichern oder ein vollständiges Verbindungsnetzwerk zwischen Registersätzen.
  • Es ist beispielsweise ein Schaltkreis der Firma Texas Instruments Inc. mit der Bezeichnung C80/C82 bekannt, in dem mehrere Adressgenerierungseinheiten, Speicherports und ein umfangreiches Verbindungsnetzwerk vorhanden sind. Darin sind jeweils 4/2 Digitalsignalprozessorkerne sowie ein Reduced-Instruction-Set-Computer vorgesehen, die mit Hilfe eines Crossbar-Netzwerkes mit einem Speicher verbunden sind.
  • Weiterhin ist aus C. Hansen, "Microunity's Media Processor Architecture", IEEE Micro, pp. 34–38, Aug. 1997, ein Prozessor mit einem vollständigen Verbindungsnetzwerk versehen, in welchem die Ausführungseinheiten direkt mit dem Registersatz verbunden sind. Die Kommunikation erfolgt zwischen zwei Registersätzen und wird jeweils durch das allgemeine Netzwerk bereitgestellt.
  • Aus der amerikanischen Patentschrift US 5.056.006 ist ein Prozessor zur Verwendung in CATX-ray Systemen und NMR Systemen bekannt, der die Fließkomma Arithmetik-Operationen parallel und in kurzer Prozess-Zeit beschleunigt. Bei dieser Lösung handelt es sich um eine Multi-Prozessorschaltung, die teilweise in diskreter Beschaltung ausgeführt wird. Hierbei werden zwar die Daten parallel in einer Art Streifenstruktur berechnet, aber der dabei realisierte Datenfluss erfolgt in jeweiligen separaten Datenbussen mit separaten Datenspeichern. und somit unter verschiedenen Adressen. Eine Einsparung an Busbreiten ist hierbei nicht möglich.
  • Weiterhin ist mit IEE Transaction on Computers vol C-23, Nr. 3 März 1974, pp 309–318 "Data Manipulating Functions in Parallel Processors and their Implementations" eine Lösung bekannt, in der der Aufbau und die Wirkungsweise eines parallel arbeitenden Prozessors beschrieben ist und bei der der Prozessor unter "Single Instruction Control" (SIC) arbeitet.
  • Auch hier kommen mehrere "memory modules" zum Einsatz, womit hervorgeht, dass ebenfalls eine Speicherung unter einer Adresse nicht vorgesehen ist. Weiterhin ist aus dieser Schrift nicht zu entnehmen, dass der Aufwand der großen Bitbreiten bei der vorliegenden globalen Kommunikationseinheit mit dem an ihr angeschlossenen Datenbus vermindert werden kann.
  • Mit der Veröffentlichung von Millind Mittal "Technology Architecture Overview" aus dem Intel Technology Journal Q3 1997, Seiten 1–12 wird der Stand der Technik, der bei der Einführung der MMX-Technologie zur verbesserten Beschleunigung der Datenverarbeitung in Intel-Prozessoren 1997 realisiert wurde, umrissen.
  • Hierbei liegt eine Lösung für übliche Prozessoren zur allgemeinen Anwendungen (general purpose) vor. Die vorgestellte Verbesserung der proprietären INTEL-Architektur wird durch zusätzliche Befehlsabarbeitung auf SIMD-Technik erreicht: Diese Verbesserung kann die Hardware Anforderung für skalierbare flexible Prozessorgestaltung, insbesondere von VLIW-Prozessoren, nicht erfüllen.
  • Es ist nunmehr Aufgabe der Erfindung, den Parallelisierungsgrad einer Prozessorarchitektur zu erhöhen, ohne die Anzahl von Speichern und/oder die Breite der Verbindungsnetzwerke zu vergrößern.
  • Anordnungsseitig wird die Aufgabe durch die kennzeichnenden Merkmale des Anspruchs 1 gelöst.
  • Durch diese Anordnung wird es möglich, dass Datenelemente einer Datengruppe entweder direkt an eine zugeordnete Verarbeitungseinheit gegeben werden oder über die Kommunikationseinheit auf andere Verarbeitungseinheiten verteilt werden. Durch die streifenweise Zuordnung von Elementen der Datengruppe, Teil der globalen Kommunikationseinheit und Verarbeitungseinheit wird dies auch geometrisch unterstützt, was die Gestaltung der Kommunikationseinheit zu einer globalen Kommunikationseinheit mit einer gegenüber dem bekannten Stand der Technik verringerten Breite ermöglicht.
  • In den Fällen, in denen sehr häufig eine Kommunikation zwischen dem Datenspeicher und der zugeordneten Verarbeitungseinheit stattfindet, kann dies über die direkte Verbindung geschehen. Je stärker der Anteil dieser direkten Verbindungen ist, desto stärker kann die Breite der globalen Kommunikationseinheit verringert werden.
  • In einer besonders günstigen Ausgestaltung ist vorgesehen, dass zwischen Verarbeitungseinheiten einander benachbarter Streifen lokale Kommunikationseinheiten angeordnet sind. Diese lokalen Kommunikationseinheiten weisen eine Breite auf, die mindestens 1 beträgt und die höchstens gleich der doppelten Anzahl von Speicherelementen in einer Verarbeitungseinheit ist.
  • Durch diese lokalen Kommunikationseinheiten können Daten, insbesondere Verarbeitungsergebnisse voneinander benachbarten Verarbeitungseinheiten direkt ausgetauscht werden, ohne hierfür die globale Kommunikationseinheit benutzen zu müssen. Dies liefert einen weiteren Beitrag zur Entlastung der globalen Kommunikationseinheit und ermöglicht damit zusätzlich, diese globale Kommunikationseinheit schmaler zu gestalten.
  • In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, dass die Speicherelemente als Register ausgeführt sind.
  • Verfahrensseitig wird die Aufgabe durch Anspruch 4 gelöst. Dabei werden die Elemente einer Datengruppe unter ein und derselben Adresse abgespeichert. Jedem Element einer Datengruppe wird eine Verarbeitungseinheit zugeordnet, indem die Datengruppe oder zumindest ein Element der Datengruppe den zugeordneten Verarbeitungseinheiten, d.h. über in dem Verteiler vorliegende mit jeder Verarbeitungseinheit verbindbaren zweite Busse, zuführbar ist. Weiterhin werden Elemente einer Datengruppe über die Kommunikationseinheit auf eine oder mehrere Verarbeitungseinheiten verteilt.
  • Soll eine Datengruppe aus dem Datenspeicher ausgelesen werden, so ist es erforderlich, lediglich die Adresse dieser Datengruppe aufzurufen. Eine einzelne Adressierung von Datenelementen kann dabei entfallen.
  • Jede Datengruppe kann sodann entweder direkt der zugeordneten Verarbeitungseinheit zugeführt werden oder mit Hilfe der Kommunikationseinheit auf andere Verarbeitungseinheiten verteilt werden. Sind mehrere Daten von den Verarbeitungseinheiten berechnet worden, können diese wiederum direkt in den Datenspeicher geschrieben oder mittels der Kommunikationseinheit verteilt werden.
  • Die Wahl, ob die Datengruppe direkt an die Verarbeitungseinheit gegeben wird oder über die Kommunikationseinheit auf andere Verarbeitungseinheiten verteilt wird, richtet sich nach der zu lösenden Aufgabe. Allerdings wird hierbei deutlich, dass die Kommunikationseinheit durch die Möglichkeit des direkten Anlegens von Datengruppen an die zugeordneten Verarbeitungseinheiten Entlastung erfährt, wodurch diese in ihrer Breite und damit in ihrem Aufwand verringert werden kann.
  • Eine besonders zweckmäßige Ausgestaltung der Erfindung besteht darin, dass Daten aus dem Verarbeitungseinheiten zu einander benachbarten Verarbeitungseinheiten direkt verschoben werden können.
  • Auch durch diese direkte Verschiebung wird die Kommunikationseinheit eine weitere Entlastung erfahren, was die Verringerung von deren Breite unterstützt.
  • Es ist zweckmäßig, die Elemente einer Datengruppe vor der Verarbeitung in den Verarbeitungseinheiten um einen Schritt, d. h. bis zum Eintreffen eines neuen Elements bei einem nächsten Schritt zu verzögern. Somit kann in den Verarbeitungseinheiten und hierbei insbesondere in den Prozesseinheiten die Behandlung der Daten des vorhergehenden Schrittes abgeschlossen werden, die dann am Ausgang der Verarbeitungseinheit anliegen, wenn die Berechnung der Verarbeitung der aktuellen Elemente der Datengruppe abgeschlossen ist. In der Zwischenzeit können die Daten an der Verarbeitungseinheit, d. h. die Ergebnisse des vorhergehenden Schrittes, von anderen Verarbeitungseinheiten genutzt oder in den Datenspeicher zurückgeschrieben werden.
  • Die Erfindung soll nachfolgend an Hand zweier Ausführungsbeispiele näher erläutert werden.
  • In den zugehörigen Zeichnungen zeigt
  • 1 eine schematische Darstellung einer erfindungsgemäßen Prozessorarchitektur,
  • 2 einen Flussgraph einer 8-Punkte-FFT mit einem Dezimierung-in-der-Zeit-Kern,
  • 3 einen Flussgraph einer 16-Punkte-FFT mit parallelen Schmetterlingen
  • 4 eine Struktur eines Radix-2-Schmetterlings
  • 5 eine schematische Darstellung einer Verarbeitungseinheit,
  • 6 eine Darstellung einer überlappten Ausführung dreier überlappter Schmetterlinge,
  • 7 eine Darstellung des Ein-/Ausgabeverhaltens der Verarbeitungseinheit,
  • 8 eine Darstellung notwendiger Kommunikationen in Stufe 1,
  • 9 eine Darstellung notwendiger Kommunikationen in Stufe 2,
  • 10 eine Darstellung notwendiger Kommunikationen in Stufe 3,
  • 11 eine Darstellung einer 64 Punkte FFT,
  • 12 eine Darstellung eines Verteilers in einer globalen Kommunkationseinheit für den k-ten Streifen,
  • 13 eine Darstellung von Schaltern für den Verteiler,
  • 14 eine Darstellung des Aufbaus eines Streifens mit lokaler Kommunikationseinheit,
  • 15 eine Darstellung einer überlappten Ausführung zweier aufeinander folgender Filterberechnungen.
  • Die Erfindung soll in einem ersten Ausführungsbeispiel anhand der Anwendung des Fast Fourier Transform Algorithmus (FFT) beschrieben werden. Dieser stellt einen effizienten Algorithmus zur Berechnung einer diskreten Fourier-transformation (DFT) dar. Er liefert ein diskretes Frequenzspektrum einer zeitdiskreten Wertfolge. Die Rücktransformation wird durch eine inverse FFT realisiert, die dieselbe Gestalt wie die FFT hat.
  • Es sind eine Reihe unterschiedlicher Realisierungen der FFT bekannt. Dieses Ausführungsbeispiel bezieht sich auf die sogenannte Radix-2-Dezimierung-in-der-Zeit (Decimation-in-time), wie sie 1969 von Cooley und Tukey vorgeschlagen wurde. 2 zeigt eine solche Realisierung der FFT.
  • Die Eingangsdaten X sind komplexe Werte, die ihrerseits aus zwei reellen Werten bestehen. Jeweils M/2 komplexe bzw. M reelle Werte, also M Elemente, sind zu einer Gruppe zusammengefaßt.
  • Wie in 1 dargestellt, beinhaltet in diesem Ausführungsbeispiel ein Streifen 1 ein Element und eine Verarbeitungseinheit 2, bestehend aus vier Registern, einer Multiplizier-Akku mulier-Einheit, nachfolgend MAC genannt, sowie einem Akkumulator. Zwei dieser Streifen bilden einen Doppelstreifen. Innerhalb dieses Doppelstreifens sind beide Verarbeitungseinheiten 2 mit einer lokalen Kommunikationseinheit 3 verbunden. Ein solcher Doppelstreifen kann genau einen sogenannten Radix-2-Schmetterling in 7 Schritten berechnen. Diese Schritte können jedoch überlappend ausgeführt werden. Auch ist eine gleichzeitige Berechnung mehrerer Schmetterlinge möglich, wie es nachfolgend beschrieben wird.
  • Wie in 2 dargestellt, beinhaltet ein Flussgraph einer Radix-2-FFT allgemein bei N komplexen Eingangswerten log2(N) Stufen zu je N/2 Radix-2 Grundelementen. Innerhalb einer Stufe sind die Radix-2 Elemente voneinander unabhängig und können somit parallel, also in unabhängigen Streifen, ausgeführt werden. Ohne Einschränkung der Allgemeinheit können somit für die Berechnung einer N-Punkte-FFT N/2 Doppelstreifen auf je 2 komplexen Werten parallel arbeiten.
  • Um nun die Verarbeitung mit einer Architektur, wie Sie in 1 angegeben ist, nutzen zu können, sind die Ein- und Ausgangsdaten für jeden Schmetterling nicht getrennt zu lesen und/oder zu schreiben sondern zu Gruppen zusammenzufassen. Dazu ist der Flussgraph gemäß 2 in 3 derart dargestellt, dass für jede Stufe alle Schmetterlinge parallel sind, während zwischen den Stufen die Kommunikationsverbindungen angegeben sind, für die eine Umordnung der Daten nötig ist.
  • Wie bereits angegeben, kann die Kombination beim Lesen oder Schreiben der Gruppendaten ausgeführt werden. Werden beim Schreiben jeweils die oberen Ausgänge, die in 3 mit einem Kreis gekennzeichnet sind, oder die unteren Ausgänge der Schmetterlinge, die in 3 mit einem Kreuz gekennzeichnet sind, zu Gruppen zusammengefasst, was vorteilhafterweise für die Berechnung der Schmetterling-Basisstruktur wie nachfolgend ausgeführt geschieht, müssen diese Gruppen beim Einlesen umsortiert werden. So müssen die Ausgangswerte aus Schmetterling 4 und Schmetterling 5 aus Stufe 1 in Stufe 2 beide auf Schmetterling 4 ausgeführt werden.
  • Allgemein lässt sich feststellen, dass jeweils M/2 Elemente mit Hilfe der globalen Kommunikationseinheit 6 verschoben werden müssen, während die restlichen M/2 Daten im selben Streifen 1 abgespeichert wie gelesen werden können. M ist dabei die Anzahl von Elementen in einer Gruppe.
  • Da diese Kommunikation bei jedem Lesezugriff, sowohl innerhalb einer Stufe sowie zwischen unterschiedlichen Stufen, unterschiedlich ist, muss die globale Kommunikationseinheit 6 programmierbar sein. Allgemein wird für eine Gruppe von Daten, die in dem Gruppenspeicher 7 gespeichert sind, mit M komplexen Elementen M/2 Kommunikationen ausgeführt werden.
  • Besteht die Gruppe beispielsweise aus 8 komplexen Elementen, werden 4 komplexe Busse in der globalen Kommunikationseinheit 6 für eine vollständige Kommunikation benötigt.
  • Die in 4 dargestellte Grundstruktur eines Radix-2 Schmetterlings hat 3 komplexe Eingänge A, B, W und 2 komplexe Ausgänge X und Y. Die Berechnungsvorschrift, die durchzuführen ist, besteht aus folgenden 4 Gleichungen: Xre = Are + Wx,re·Bre – Wx,im·Bim Xim = Aim + Wx,re·Bim + Wx,im·Bre Yre = Are – Wx,re·Bre + Wx,im·Bim Yim = Aim – Wx,re·Bim – Wx,im·Bre
  • Diese Berechnungsvorschrift enthält 8 reele Multiplikationen, wie 12 Additionen. Sind zur Verarbeitung zwei Multiplizier-Akkumulier-Einheiten vorhanden, können die 4 Gleichungen in den folgenden Teilschritten berechnet werden:
    • 1. Xre = Are + Wx,re·Bre || Xim = Aim + Wx,re·Bim
    • 2. Xre = Xre – Wx,im·Bim || Xim = Xim + Wx,re·Bre
    • 3. Yre = 2·Are – Xre || Yim = 2·Aim – Xim
  • Diese Teilschritte können nun mit Hilfe einer Verarbeitungseinheit, wie sie in 5 dargestellt ist, berechnet werden. Um später eine überlappte Ausführung zu erreichen, werden in diesem Ausführungsbeispiel die Werte A, B und W sowie X und Y in jeweils unterschiedlichen Taktzyklen gelesen bzw. geschrieben.
  • Da beim Lesen jedoch noch ein Umsortieren der Eingangsdaten nötig ist, wie dies in 3 dargestellt ist, wird das Lesen der Werte A und B abhängig von der algorithmischen Anforderung entweder im zweiten oder dritten Takt ausgeführt.
  • Hierbei werden folgende Registerzuordnungen vorgenommen:
    • R1) RCk = Wx,re' || RCk+1 = Wx,im
    • R2/3) RAk = Are' RBk = Bre' || RAk+1 = Aim' RBk+1 = Bim
  • Die Verarbeitung erfolgt nun mit Hilfe dieser Register:
    • E1) Acck = RAk + RBk·RCk || Acck+1 = RAk+1 + RBk+1·RCk
    • E2) Acck = Acck – RBk+1·RCk+1 || Acck+1 = Acck+1 + RBk * RCk+1
    • E3) Acck = –Acck + RAk·2 || Acck+1 = –Acck+1 + RAk+1·2
  • Am Ende müssen die Resultate abgespeichert werden, wobei der erste Schreibzyklus W1 parallel zum dritten Ausführungsschritt E3 ausgeführt werden muss.
    • W1) Write Acck || E3
    • W2) Write Acck
  • Um die Abarbeitung zu beschleunigen, können die Phasen Lesen (R1–R3), Berechnen (E1–E3) und Schreiben (W1–W2) überlappt ausgeführt werden, wie dies in 6 dargestellt ist. Während der Schmetterling i berechnet wird, können die Werte des nächsten Schmetterling i + 1 schon gelesen werden. Hierbei dürfen jedoch keine Werte überschrieben werden, die bei der Berechnung von Schmetterling i noch benötigt werden. Hier ist in 6 die Nutzung jedes Registers für die überlappten Zyklen angegeben. In Zyklus 4 (R1;E1) wird RC eingelesen, obwohl der alte Wert noch in Zyklus 5 (R2/3; E2) benötigt wird. Er wird daher in RD zwischengespeichert. Im nächsten Zyklus wird der Wert RA eingelesen, obwohl er noch in Zyklus 6 (R2/3; E3) benötigt wird. In diesem Zyklus wird Register RC jedoch nicht mehr benötigt. Daher kann Register RC nun im Zyklus 5 (R2/3; E2) den zwischengespeicherten Wert von RD aufnehmen, während RD den Wert von RA zwischenspeichern kann. Im letzten Zyklus 6 (R2, 3/E3) werden dann die restlichen Streifen geladen und Register RD in Register RA übernommen. Dies ist in 7 dargestellt.
  • Ein Doppelstreifen, wie in 5 dargestellt ist, enthält somit 2 MAC-Einheiten, die über drei Verbindungen, der lokalen Kommunikationseinheit, die 3 Busse benötigt, verbunden sind. Die Daten werden über die globale Kommunikationseinheit 6 zugeführt.
  • Für die Ausführung wird das oben beschriebene Verfahren im folgenden auf eine Prozessorarchitektur mit 16 Streifen gegeben. Zur Beschreibung werden einführend in 8 bis 10 die Kommunikationen angeben, wie sie für die Berechnung einer FFT mit 16 Punkten und mehr nötig sind. Diese Kommunikationen sind allerdings für eine FFT mit mehr als 16 Punkten nur in den ersten drei Stufen auszuführen, was in 11 dargestellt ist. In 8 ist für die Stufe 1 in 6 die Kommunikation für das Lesen einer Gruppe in den oberen bzw. unteren Ausgängen der Schmetterlinge angegeben. Dies ist in 9 für Stufe 2 und in 10 für Stufe 3 angegeben.
  • Kann in jedem Zyklus eine Gruppe von 16 Elementen gelesen werden, sind für die Verteilung von 8 Werten in einem Takt 8 globale Busse nötig. Diese Kommunikation kann allerdings auch in 8 Zyklen über einen globalen Bus realisiert werden. Des Weiteren können Kommunikationen auch durch direkte Verbindungen oder aufgetrennte Busse realisiert werden. Diese Flexibilität kann schließlich für eine kosteneffiziente Realisierung der Speicherarchitektur genutzt werden, indem die globale Kommunikationseinheit 6 jeweils an die Anforderung der Applikation angepasst wird.
  • Da die Kommunikation von 8 Werten nun nicht in jeder Stufe der FFT benötigt wird und die notwendige Kommunikation in der Stufe 1, wie in 8 dargestellt, mit Hilfe eines geteilten Busses realisiert werden kann, ist in der globalen Kommunika tionseinheit 6 ein nicht näher dargestellter globaler und geteilter Bus vorhanden. Für die Verteilung eines Streifens auf diese Busstruktur ist ein Verteiler 8 vorgesehen, wie er in 12 dargestellt ist. Jeder Eingang des Verteilers 8 kann auf einen geteilten Bus IB0 oder auf 4 globale Busse IB1–IB4 geschaltet werden. Auf die Register RA oder RB können nun entweder einer der 5 Busse oder der Eingang selber geschaltet werden. Die notwendigen Schaltungen, am Beispiel der notwendigen Kommunikation gemäß 8, sind in der Tabelle in 13 angegeben. Dabei geben die Spalten die 16 Streifen einer sogenannten M3-Architektur wieder, während die Zeilen 4–7 die Busse kennzeichnen und die Zeile 5 die Schaltung des direkten Einganges. Eine M3-Architektur bezeichnet eine Ausführung der erfindungsgemäßen Schaltungsanordnung mit 16 Streifen.
  • In einem 2. Ausführungsbeispiel ist ein Finite Impulse Response Filter, nachfolgend FIR genannt, ausgeführt. Der FIR Filter ist einer der wichtigsten Algorithmen innerhalb der digitalen Signalverarbeitung. Daher sind auch digitale Signalprozessoren, nachfolgend DSP genannt, im Allgemeinen für diesen Algorithmus optimiert. Diese Optimierung geschieht beispielsweise durch die Multiplizier-Akkumulier-Einheit, durch eine zugeschnittene Speicherarchitektur oder durch spezielle Adressierungsmodi.
  • Für die Parallelisierung dieses FIR Algorithmus gilt
    Figure 00130001
  • Hierfür gibt es im Wesentlichen zwei Möglichkeiten. Einerseits kann die Summation selbst nach folgender Beziehung aufgespalten werden.
  • Figure 00130002
  • Dabei können die neuen Summen nun getrennt und parallel berechnet werden. Die beiden Teilsummen müssen dann in einem letzten Schritt aufsummiert werden. Der Nachteil dieser Methode liegt darin, dass für jede Summation unterschiedliche Werte benötigt werden. In diesem Beispiel müssen 4 Eingabewerte gleichzeitig den Verarbeitungseinheiten zugeführt werden, um eine Parallelschaltung zu erreichen.
  • Sind nun mehrere Ausgangswerte yk zu berechnen, können diese auch gleichzeitig in verschiedenen Ausführungseinheiten berechnet werden:
    Figure 00140001
  • Diese Anordnung hat den entschiedenen Vorteil, dass einerseits der Wert ai gleichzeitig genutzt werden kann und anderseits der Wert xk-i durch den Einsatz von Verzögerungsregistern nur einmal gelesen werden muß. Hiermit ist es möglich, mit nur 2 Speicherzugriffen pro Takt mehrere Verarbeitungseinheiten zu beschäftigen. Werden nun mehrere ai bzw. xk-i zu Gruppen zusammengefasst, muss in einem Streifen jeweils ein Register für ai bzw. xk-i vorgesehen werden.
  • Die Eingabedaten müssen hierbei nur nach links bzw. rechts verschoben werden. Dabei kann als Verarbeitungseinheit ein Streifen mit einer MAC-Einheit dienen, der jeweils drei Register hat. (RBk = xk' RAk = xk + 16·RCk = ck.) Dies ist in 14 dargestellt.
  • Sollen nun die Gleichungen 3a und 3b parallel ausgeführt werden, können beide MACs mit den gleichen Koeffizienten rechnen. Dies kann über einen globalen Bus realisiert werden, der den gleichen Koeffizienten auf alle MACs verteilt. Die Werte x müssen dagegen mit jedem Zyklus nach links oder rechts verschoben werden. Dies geschieht über eine lokale Kommunika tionseinheit 3 zwischen jeweils 2 benachbarten MAC Einheiten.
  • Gleichzeitig mit dieser Verschiebung wird ganz links oder rechts ein Register frei und enthält keine Daten. Diese müssen dorthin geladen werden. Die Daten können aus dem Gruppenspeicher 7 nur in Gruppen geladen werden, wodurch nicht auf einzelne Elemente zugegriffen werden kann. Daher muss die ganze Gruppe in Register RC gelesen werden, die als Zwischenspeicher dienen. Die jeweils freiwerdende Stelle wird dann mit einem Wert aus diesem Zwischenspeicher gefüllt. Dies kann mit Hilfe eines zweiten globalen Busses geschehen.
  • Wie im Ausführungsbeispiel bei der FFT verlangt eine überlappte Ausführung, wie sie in 15 dargestellt ist, das Zwischenspeichern der Koeffizienten in dem Verzögerungsregister RD. So werden nach Zyklus 17 sowohl eine Gruppe neuer Koeffizienten als auch eine Gruppe neuer Datenwerte benötigt. Kann nur eine Gruppe pro Zyklus geladen werden, muss im Zyklus 16 die Gruppe Koeffizienten zwischengespeichert werden. Dies geschieht wiederum mit Hilfe eines Verzögerungsregisters RD.
  • Die globalen Busse können nun mit den vom FFT Algorithmus geforderten globalen Bussen gefaltet werden. Je nach Anforderung der Applikationen kann so durch Anpassung der globalen Kommunikationseinheit 6 die DSP-Architektur angepasst und optimiert werden.
  • Im Falle der Ausführungsbeispiele der FFT und der FIR Algorithmen können somit 2 Busse der globalen Kommunikationseinheit 6 zwei Busse der lokalen Kommunikationseinheit 3, 4 Register, die MAC Einheit sowie der Akkumulator gefaltet und somit gemeinsam genutzt werden. Daher stellt diese Erfindung die Grundlage für den automatisierten Prozessorentwurf dar.
  • Im Gegensatz zu existierenden Lösungen nutzen beide Architekturen einen Gruppenspeicher 7 und können modular über Streifen 1 aufgebaut werden. Weiterhin kann die Programmierung über ein SIMD (Single Instruction Multiple Data) Verfahren erfolgen, das die gleichen Steuersignale auf alle Streifen 1 verteilt und somit die Implementierbarkeit und Programmierarbeit erleichtert.
  • 1
    Streifen
    2
    Verarbeitungseinheit
    3
    lokale Kommunikationseinheit
    4
    Schmetterling
    5
    Schmetterling
    6
    globale Kommunikationseinheit
    7
    Gruppenspeicher
    8
    Verteiler 1
    A, B, W
    komplexe Eingänge eines Radix-2-Schmetterlings
    X, Y
    komplexe Ausgänge eines Radix-2-Schmetterlings
    MAC
    Multiplizier-Akkumulier-Einheit
    RA, RB, RC, RD
    Register
    IB0
    geteilter Bus
    IB1–IB4
    globaler Bus

Claims (6)

  1. Prozessor zur parallelen Datenverarbeitung mit einem Datenspeicher, parallelen Verarbeitungseinheiten und einer globalen Kommunikationseinheit, die Busse und einen Verteiler umfasst, wobei der Datenspeicher über erste Busse mit den Eingängen des Verteilers und in dem Verteiler mit zweiten Bussen über diese mit jeder Verarbeitungseinheit verbunden ist, wobei der Prozessor Streifen beinhaltet, wobei jeder Streifen aus einem Teil des Datenspeichers in der Breite eines Datenelementes, einem der ersten Busse, einem Segment der globalen Kommunikationseinheit, welches den Verteiler mit dem Eingang für den ersten Bus und jeweils einen Abschnitt der zweiten Busse beinhaltet, und aus der Verarbeitungseinheit besteht, wobei 1.1) in dem Datenspeicher eine Datengruppe mit ihren Datenelementen aufnehmbar und über eine Adresse adressierbar ist, 1.2) die Anzahl der zweiten Busse kleiner ist als die Anzahl der Datenelemente in der Datengruppe, 1.3) jeder erste und alle zweiten Busse eine der Bitbreite der Datenelemente entsprechende Bitbreite aufweisen, 1.4) jedem Element der Datengruppe ein Teil der globalen Kommunikationseinheit (6) und eine Verarbeitungseinheit (2), bestehend aus einer Anzahl an Prozesseinheiten (MAC) und einer Anzahl an Speichereinheiten (RA-RD), zugeordnet ist, die in einem Streifen (1) angeordnet sind, der mit weiteren Streifen (1) gleichen Aufbaus benachbart ist, und 1.5) der Datenspeicher in der Breite eines Datenelementes einer Datengruppe innerhalb eines Streifens direkt mit den Speicherelementen (RA-RD) einer zugeordneten Verarbeitungseinheit (2) verbunden ist.
  2. Prozessoranordnung zur parallelen Datenverarbeitung nach Anspruch 1, dadurch gekennzeichnet, dass zwischen Verarbeitungseinheiten (2) einander benachbarter Streifen lokale Kommunikationseinheiten (3) angeordnet sind, die eine Breite aufweisen, die mindestens 1 beträgt und die höchstens gleich der doppelten Anzahl von Speicherelementen in einer Verarbeitungseinheit (2) ist.
  3. Prozessoranordnung zur parallelen Datenverarbeitung nach 1 oder 2, dadurch gekennzeichnet, dass die Speicherelemente als Register (RA-RD) ausgeführt sind.
  4. Verfahren zur parallelen Datenverarbeitung, das in einem Prozessor gemäß Anspruch 1 ausgeführt wird, bei dem Daten, die in Datengruppen mit mehreren Elementen aufgeteilt sind, aus einem Datenspeicher ausgelesen und über eine globale Kommunikationseinheit Verarbeitungseinheiten zur parallelen Verarbeitung zugeführt werden, wobei eine Datengruppe gleichzeitig und parallel aus dem Datenspeicher ausgelesen und auf eine oder mehrere Verarbeitungseinheiten aufgeteilt und in diesen Verarbeitungseinheiten parallel verarbeitet wird, dadurch gekennzeichnet, dass die Elemente einer Datengruppe unter ein und derselben Adresse abgespeichert werden, dass jedem Element einer Datengruppe eine Verarbeitungseinheit zugeordnet wird, indem die Datengruppe oder zumindest ein Element der Datengruppe den zugeordneten Verarbeitungseinheiten, d.h über in dem Verteiler vorliegende mit jeder Verarbeitungseinheit verbindbaren zweite Busse, zuführbar ist und dass Elemente einer Datengruppe über die Kommunikationseinheit auf eine oder mehrere Verarbeitungseinheiten verteilt werden.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass Daten aus den Verarbeitungseinheiten (2) zu anderen Verarbeitungseinheiten (2) direkt verschoben werden.
  6. verfahren nach Anspruch oder 5, dadurch gekennzeichnet, dass die Elemente vor der Verarbeitung in den Verarbeitungseinheiten (2) um einen Schritt, d.h. bis zum Eintreffen eines neuen Elementes bei einem nächsten Schritt, verzögert werden.
DE19835216A 1998-08-05 1998-08-05 Prozessor und Verfahren zur parallelen Datenverarbeitung Expired - Fee Related DE19835216B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE19835216A DE19835216B4 (de) 1998-08-05 1998-08-05 Prozessor und Verfahren zur parallelen Datenverarbeitung
US09/431,295 US6618817B1 (en) 1998-08-05 1999-10-29 System and method for providing a fault tolerant distributed computing framework
CA002325067A CA2325067A1 (en) 1998-08-05 2000-10-27 System and method for providing a fault tolerant distributed computing framework

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19835216A DE19835216B4 (de) 1998-08-05 1998-08-05 Prozessor und Verfahren zur parallelen Datenverarbeitung
US09/431,295 US6618817B1 (en) 1998-08-05 1999-10-29 System and method for providing a fault tolerant distributed computing framework

Publications (2)

Publication Number Publication Date
DE19835216A1 DE19835216A1 (de) 2000-02-17
DE19835216B4 true DE19835216B4 (de) 2005-10-27

Family

ID=29551079

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19835216A Expired - Fee Related DE19835216B4 (de) 1998-08-05 1998-08-05 Prozessor und Verfahren zur parallelen Datenverarbeitung

Country Status (3)

Country Link
US (1) US6618817B1 (de)
CA (1) CA2325067A1 (de)
DE (1) DE19835216B4 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213063B2 (en) * 2000-01-18 2007-05-01 Lucent Technologies Inc. Method, apparatus and system for maintaining connections between computers using connection-oriented protocols
US6895539B1 (en) 2000-08-16 2005-05-17 Intel Corporation Universal method and apparatus for controlling a functional test system
US6772228B1 (en) * 2000-08-16 2004-08-03 Intel Corporation Achieving polymorphism in a COM software architecture or the like
DE10045558A1 (de) * 2000-09-14 2002-04-04 Siemens Ag Verfahren und Anordnung zum Verifizieren einer Verbindung zwischen einer einen Zugriff auf eine Kommunikationseinrichtung durchführenden Applikation und einer den Zugriff steuernden Einrichtung
US6922796B1 (en) * 2001-04-11 2005-07-26 Sun Microsystems, Inc. Method and apparatus for performing failure recovery in a Java platform
HUP0102356A2 (hu) * 2001-06-06 2003-02-28 Afca-System Kft. Eljárás és kapcsolási elrendezés előnyösen ciklikusan ismétlődő adatfeldolgozási feladatok párhuzamos üzemű végrehajtására, továbbá az eljárás végrehajtásához szükséges műveleti kódok előállítására és szimulálására szolgáló programrendszer
DE10206830B4 (de) * 2002-02-18 2004-10-14 Systemonic Ag Verfahren und Anordnung zur Zusammenführung von Daten aus parallelen Datenpfaden
US20030208605A1 (en) * 2002-05-03 2003-11-06 Vu Victor N. System and method of communication between java components in different namespaces
US6745339B2 (en) * 2002-09-13 2004-06-01 Docomo Communications Laboratories Usa, Inc. Method for dynamically switching fault tolerance schemes
US7565660B2 (en) * 2002-09-26 2009-07-21 Siemens Energy & Automation, Inc. System and method for universal extensibility that supports a plurality of programmable logic controllers
US7805716B2 (en) * 2002-12-10 2010-09-28 Siemens Aktiengesellschaft Method for executing a first software program, developed for a stored-program controller, on a computer
US7945909B2 (en) * 2003-05-09 2011-05-17 Sap Aktiengesellschaft Initiating recovery of an executing task using historical information and task information
US7251745B2 (en) * 2003-06-11 2007-07-31 Availigent, Inc. Transparent TCP connection failover
DE102004004434B4 (de) * 2003-11-24 2007-08-09 Gordon Cichon Verfahren für einen verbesserten Entwurf eines Prozessors aus einer Maschinen-Beschreibung
WO2005114504A2 (en) * 2004-05-13 2005-12-01 Sun Microsystems, Inc. Method and apparatus for executing event driven simulations
US20060031355A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Programmable service oriented architecture
US20060005063A1 (en) * 2004-05-21 2006-01-05 Bea Systems, Inc. Error handling for a service oriented architecture
US20050273847A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Programmable message processing stage for a service oriented architecture
US20060031481A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Service oriented architecture with monitoring
US20060031354A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Service oriented architecture
US20060031433A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Batch updating for a service oriented architecture
US20050278374A1 (en) * 2004-05-21 2005-12-15 Bea Systems, Inc. Dynamic program modification
US20060007918A1 (en) * 2004-05-21 2006-01-12 Bea Systems, Inc. Scaleable service oriented architecture
US20060031432A1 (en) * 2004-05-21 2006-02-09 Bea Systens, Inc. Service oriented architecture with message processing pipelines
US20050273497A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Service oriented architecture with electronic mail transport protocol
US7653008B2 (en) * 2004-05-21 2010-01-26 Bea Systems, Inc. Dynamically configurable service oriented architecture
US20060069791A1 (en) * 2004-05-21 2006-03-30 Bea Systems, Inc. Service oriented architecture with interchangeable transport protocols
US20050264581A1 (en) * 2004-05-21 2005-12-01 Bea Systems, Inc. Dynamic program modification
US20050273521A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Dynamically configurable service oriented architecture
US20050273517A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Service oriented architecture with credential management
US20050270970A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Failsafe service oriented architecture
US20050267947A1 (en) * 2004-05-21 2005-12-01 Bea Systems, Inc. Service oriented architecture with message processing pipelines
US20060031930A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Dynamically configurable service oriented architecture
US7774485B2 (en) * 2004-05-21 2010-08-10 Bea Systems, Inc. Dynamic service composition and orchestration
US20060031353A1 (en) * 2004-05-21 2006-02-09 Bea Systems, Inc. Dynamic publishing in a service oriented architecture
US20060136555A1 (en) * 2004-05-21 2006-06-22 Bea Systems, Inc. Secure service oriented architecture
US7310684B2 (en) * 2004-05-21 2007-12-18 Bea Systems, Inc. Message processing in a service oriented architecture
US20050273516A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Dynamic routing in a service oriented architecture
US20050278335A1 (en) * 2004-05-21 2005-12-15 Bea Systems, Inc. Service oriented architecture with alerts
US20050273502A1 (en) * 2004-05-21 2005-12-08 Patrick Paul B Service oriented architecture with message processing stages
US20050273520A1 (en) * 2004-05-21 2005-12-08 Bea Systems, Inc. Service oriented architecture with file transport protocol
US20060080419A1 (en) * 2004-05-21 2006-04-13 Bea Systems, Inc. Reliable updating for a service oriented architecture
US20050267892A1 (en) * 2004-05-21 2005-12-01 Patrick Paul B Service proxy definition
US7502961B2 (en) * 2004-09-09 2009-03-10 Microsoft Corporation Method, system, and apparatus for providing alert synthesis in a data protection system
US7716523B2 (en) * 2007-05-03 2010-05-11 Symantec Corporation End-to-end transactional protection for requests in a web application
US8996394B2 (en) 2007-05-18 2015-03-31 Oracle International Corporation System and method for enabling decision activities in a process management and design environment
US8185916B2 (en) 2007-06-28 2012-05-22 Oracle International Corporation System and method for integrating a business process management system with an enterprise service bus
US20090276654A1 (en) * 2008-05-02 2009-11-05 International Business Machines Corporation Systems and methods for implementing fault tolerant data processing services
US8988985B2 (en) 2012-06-22 2015-03-24 Telefonaktiebolaget L M Ericsson (Publ) Internetworking and IP address management in unified MPLS and IP networks
US9185025B2 (en) * 2012-06-22 2015-11-10 Telefonaktiebolaget L M Ericsson (Publ) Internetworking and failure recovery in unified MPLS and IP networks
US9569517B1 (en) 2013-11-27 2017-02-14 Google Inc. Fault tolerant distributed key-value storage
US11102103B2 (en) * 2015-11-23 2021-08-24 Bank Of America Corporation Network stabilizing tool

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056006A (en) * 1988-09-12 1991-10-08 General Electric Company Parallel processor with single program storage and sequencer and simultaneous instruction processing
DE19643688A1 (de) * 1996-10-23 1998-05-07 Johannes Dipl Ing Kneip Cachespeichereinheit mit konfliktfreiem Parallelzugriff auf virtuelle, zweidimensionale Adreßräume

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684553B1 (de) * 1994-05-26 2004-06-16 Sun Microsystems, Inc. Verfahren und Gerät zur Erzeugung und Verwendung kurzer Operationsidentifizierer in objektorientierten Systemen
DE69628087D1 (de) * 1995-03-22 2003-06-18 Sun Microsystems Inc Vorrichtung und Verfahren zur Verwaltung von Rechnerprozessen
US6249821B1 (en) * 1995-07-14 2001-06-19 Oki Data Americas, Inc. Network object frameworks
US6018805A (en) * 1997-12-15 2000-01-25 Recipio Transparent recovery of distributed-objects using intelligent proxies
US6185695B1 (en) * 1998-04-09 2001-02-06 Sun Microsystems, Inc. Method and apparatus for transparent server failover for highly available objects
US6370654B1 (en) * 1998-12-17 2002-04-09 Northern Telecom Limited Method and apparatus to extend the fault-tolerant abilities of a node into a network
US6438705B1 (en) * 1999-01-29 2002-08-20 International Business Machines Corporation Method and apparatus for building and managing multi-clustered computer systems
US6513112B1 (en) * 1999-07-26 2003-01-28 Microsoft Corporation System and apparatus for administration of configuration information using a catalog server object to describe and manage requested configuration information to be stored in a table object

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056006A (en) * 1988-09-12 1991-10-08 General Electric Company Parallel processor with single program storage and sequencer and simultaneous instruction processing
DE19643688A1 (de) * 1996-10-23 1998-05-07 Johannes Dipl Ing Kneip Cachespeichereinheit mit konfliktfreiem Parallelzugriff auf virtuelle, zweidimensionale Adreßräume

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ALLEN, J.D.: The impact of pipelining on SIMD architecture *
ALLEN, J.D.: The impact of pipelining on SIMD architecture; In: Proceedings of the 9th Interna- tional Parallel Processing Symposium, 04/25/1995- 04/28/1995, Santa Barbara, CA, USA, S. 380-387
FENG, Tse-Yun: Data Manipulating Functions in Parallel Processors and their Implementations, IEEE Transactions on Computers, Vol. C-23, No. 3, March 1974, p. 309-318 *
In: Proceedings of the 9th Interna- tional Parallel Processing Symposium, 04/25/1995- 04/28/1995, Santa Barbara, CA, USA, S. 380-387 *
MITTAL, Millind et al.: MMX·T··M· Technology Architecture Overview, Intel Technology Journal Q3 '97, S. 1-12 (http://www.intel.com/technology/itj/q31997/pdf/archite.pdf) *
MITTAL, Millind et al.: MMXTM Technology Architecture Overview, Intel Technology Journal Q3 '97, S. 1-12 (http://www.intel.com/technology/i tj/q31997/pdf/archite.pdf)
US-Z.: IEEE Transactions on Computers, Vol. C-23, No. 3, March 1974, p. 309-318 *

Also Published As

Publication number Publication date
DE19835216A1 (de) 2000-02-17
CA2325067A1 (en) 2001-04-29
US6618817B1 (en) 2003-09-09

Similar Documents

Publication Publication Date Title
DE19835216B4 (de) Prozessor und Verfahren zur parallelen Datenverarbeitung
DE60215835T2 (de) Reduzierung von komponenten in einer montgomery multiplikations-recheneinheit
DE3049437C2 (de) Matrixanordnung einer Vielzahl von Verarbeitungselementen
DE2819571C2 (de)
DE3804938C2 (de) Bildverarbeitungseinrichtung
DE3933171A1 (de) Einzelchip-prozessor fuer komplexe gleitkommazahlen
DE19914210B4 (de) Verfahren und Prozessor für eine gestaffelte Ausführung einer Anweisung
DE2718849A1 (de) Rechenspeicher mit mehrdimensionalem, parallelem zugriff
DE10393918T5 (de) Effiziente Multiplikation kleiner Matrizen durch Verwendung von SIMD-Registern
DE4403917C2 (de) Vorrichtung zum Berechnen einer Bit-Besetzungszählung
DE69737699T2 (de) Gerät und verfahren zur fft-berechnung
DE60022206T2 (de) Registerspeicher zur verarbeitung von 2-d matrix
DE2423265C3 (de) Optimierende Rechenmaschine
DE4345029C2 (de) Schaltkreis für diskrete Kosinustransformation
DE4036455C1 (de)
DE69532152T2 (de) System zur parallelen Datenverarbeitung für digitale Tongeräte
DE19504089A1 (de) Pipelined SIMD-Systolic Array Prozessor und dessen Arbeitsverfahren
DE19528760A1 (de) Bildverarbeitende Schaltung eines hohen Integrationsgrads
DE69830971T2 (de) Pipelineprozessor für die schnelle Fourier-Transformation
EP0009625A2 (de) Datentransferschalter mit assoziativer Adressauswahl in einem virtuellen Speicher
DE19637369C2 (de) Digitaler Signalprozessor mit Multipliziereinrichtung und -Verfahren
EP1038235B1 (de) Vorrichtung zum hierarchischen verbinden einer mehrzahl von funktionseinheiten in einem prozessor
DE10084462B4 (de) Geteilter Puffer
DE4026410C2 (de) Verfahren zur Matrizen-Multiplikation auf SIMD-Prozessoren
DE3908276A1 (de) Einrichtung und verfahren zum berechnen der schnellen fouriertransformierten komplexer datenwoerter

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SYSTEMONIC AG, 01099 DRESDEN, DE

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee