DE102010044529B4

DE102010044529B4 - Autonomes speicher-sub-system mit hardwarebeschleuniger

Info

Publication number: DE102010044529B4
Application number: DE102010044529.0A
Authority: DE
Inventors: Sean Eilert; Jared Hulbert; Mark Leinwander
Original assignee: Micron Technology Inc
Current assignee: Micron Technology Inc
Priority date: 2009-09-11
Filing date: 2010-09-07
Publication date: 2023-04-27
Anticipated expiration: 2030-09-08
Also published as: JP2011060278A; US20150205530A1; CN102024011A; DE102010044529A1; US9015440B2; KR101747966B1; CN102024011B; US9612750B2; JP5826471B2; US20110066796A1; KR20110028212A

Abstract

Autonomes Speicher-Sub-System, umfassend:eine Steuerung mit einem Zustandsüberwachungsblock; undeine erste und zweite autonome Speichereinrichtung (102), die mit einem Bus mit Bustraffic verbunden sind, wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) einen Speicher (318) und einen Hardwarebeschleuniger (308) umfasst, die miteinander gekoppelt sind, wobei der Hardwarebeschleuniger (308) konfiguriert ist, Inhalte zu berechnen und zu manipulieren, die in dem Speicher (318) gespeichert sind, sodass Operationen auf Matrizen des Speichers (318) beschleunigt sind, wobei der Zustandsüberwachungsblock den Bustraffic überwacht und basierend auf Überwachungsergebnissen Ressourcen neu zuteilt, um die Systemleistung dynamisch zu verbessern, wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) vier Ausgabeanschlüsse zum Kommunizieren mit wenigstens vier Nachbarspeichereinrichtungen aufweist, und wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) drahtlos mit den wenigstens vier Nachbarspeichereinrichtungen kommuniziert.

Description

HINTERGRUND DER ERFINDUNG
Ein Problem bei parallelen, verteilten Systemen ist es, wie Speicherressourcen bestimmt und verwaltet werden. Speicher ist typischerweise an einem Hostprozessor angebracht, der einen geteilten Bus verwendet, auf den geeignete Protokolle angewendet werden, um Kohärenz und Konsistenz zu ermöglichen. Bei diesem strategischen Speicher kann Steuerhardware auf dem Prozessorkern den Traffic bzw. Verkehr auf dem gemeinsamen Bus beobachten, kann dann Zwischenspeicherleitungen aktualisieren oder unwirksam machen, um die Operationen wiederzugeben, die von den anderen Prozessoren ausgeführt werden. Ein Vielknotenmultiprozessorsystem kann auch „Verzeichnis-basierte“-Kohärenztechniken verwenden, um es Prozessorknoten zu ermöglichen, Speichertraffic zu sehen, der zu Seiten oder Zwischenspeicherleitungen gehört, auf denen sie arbeiten. Diese Strategien behindern immer stärker die Leistung und Verbesserungen bei verteilten Systemen werden benötigen.
US 2007/0088703 A1 offenbart ein Cluster mit einem Clustermanager und einer Anzahl von zugeordneten Datenspeicherknoten. Die Speicherknoten überprüfen regelmäßig ihr Verwendungsniveau und benachrichtigen sich gegenseitig und bieten sich gegebenenfalls an, Daten aufzunehmen. Ebenso überprüfen Cluster regelmäßig ihr Verwendungsniveau und bieten sich an, Daten von anderen Clustern aufzunehmen. Das heißt, die einzelnen Speicherknoten und die einzelnen Cluster kommunizieren untereinander um innerhalb des Clusters und über mehrere Cluster, um eine Datenverteilung auszugleichen. US 2005/0041031 A1 betrifft graphische Verarbeitungseinheiten (GPUs), die als Multi-Chip-Systeme aufgebaut sind und Matrixberechnungen beschleunigen. Ein graphisches Verarbeitungssystem kann wenigstens zwei GPUs mit jeweils assoziertem Speicher umfassen. Jeder Speicher ist mit einer Schnittstelle ausgestattet. US 5 588 152 A zeigt ein Computersystem mit einer Mehrzahl von Knoten, die in einem Cluster miteinander verknüpft sind. Jeder Knoten umfasst eine Mehrzahl von Prozessor-Speicher-Elementen. US 5 754 948 A betrifft ein elektronisches System mit mehreren elektronischen Komponenten, die über Funkwellen im Millimeterbereich miteinander kommunizieren.
Es ist ein Ziel der vorliegenden Erfindung eine Speichereffizienz zu verbessern.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß eines Aspekts der Erfindung wird ein autonomes Speicher-Subsystem gemäß den Ansprüchen 1, 7 und 10 bereitgestellt. Weitere Aspekte und Ausführungsbeispiele sind in den abhängigen Ansprüchen, der folgenden Beschreibung und den Zeichnungen bereitgestellt.
Figurenliste
Der Gegenstand, der als die Erfindung betrachtet wird, ist insbesondere im Schlussbereich der Unterlagen aufgezeigt und eindeutig beansprucht. Die Erfindung kann allerdings sowohl hinsichtlich Organisation als auch Betriebsverfahren, zusammen mit Aufgaben, Merkmalen und Vorteilen davon am Besten unter Bezugnahme auf die folgende detaillierte Beschreibung verstanden werden, wenn sie zusammen mit Zeichnungen gelesen wird, in welchen:

1 eine Architektur veranschaulicht, die es einem Prozessor ermöglicht, mit mehreren autonomen Speichereinrichtungen zu kommunizieren, die in einem verteilten Subsystem in Übereinstimmung mit der vorliegenden Erfindung eingerichtet sind.
2 eine vereinfachte Blockdarstellung der autonomen Speichereinrichtung ist, die das verteilte Subsystem ermöglicht; und
3 ein Ausführungsbeispiel der autonomen Speichereinrichtung in Übereinstimmung mit der vorliegenden Erfindung veranschaulicht.

Es wird begrüßt werden, dass zur Vereinfachung und Klarheit der Veranschaulichung in den Figuren veranschaulichte Elemente nicht notwendigerweise maßstabsgetreu gezeichnet sind. Zum Beispiel können die Dimensionen von manchen der Elemente bezüglich anderer Elemente zur Klarheit überhöht dargestellt sein. Ferner wurden Bezugszeichen unter den Figuren wiederholt, wo es als geeignet erachtet wurde, um entsprechende oder analoge Elemente anzugeben.
DETAILLIERTE BESCHREIBUNG
In der folgenden detaillierten Beschreibung sind viele spezifische Details dargelegt, um ein gründliches Verständnis der Erfindung zu ermöglichen. Allerdings wird von dem Fachmann verstanden werden, dass die vorliegende Erfindung ohne diese spezifischen Details ausgeführt werden kann. An anderen Stellen sind wohlbekannte Verfahren, Prozeduren, Komponente und Schaltkreise nicht im Detail beschrieben, um nicht die vorliegende Erfindung zu verschleiern.
Es kann Gebrauch von den Ausdrücken „gekoppelt“ und „verbunden“ zusammen mit deren Abwandlungen gemacht werden. Es sollte allerdings verstanden werden, dass diese Ausdrücke nicht als Synonyme füreinander gedacht sind. Stattdessen kann bei bestimmten Ausführungsbeispielen „verbunden“ verwendet werden, um anzugeben, dass zwei oder mehrere Elemente in direktem physikalischen oder elektrischen Kontakt miteinander stehen. „Gekoppelt“ kann verwendet werden, um anzugeben, dass zwei oder mehr Elemente entweder in direktem oder indirektem (mit anderen zwischen liegenden Elemente zwischen diesen) physikalischen und elektrischen Kontakt miteinander stehen und/oder, dass zwei oder mehr Elemente miteinander kooperieren oder interagieren (zum Beispiel in einer Ursache-Wirkung-Beziehung).
Das in 1 veranschaulichte Ausführungsbeispiel zeigt eine Architektur, die es einem Prozessor und mehreren autonomen Speichereinrichtungen 102 ermöglicht, zur Kommunikation in einem verteilten Subsystem 10 in Übereinstimmung mit der vorliegenden Erfindung eingerichtet zu werden. Um eine Kommunikation zwischen einer großen Anzahl von Einrichtungen zu bewerkstelligen, wird jeder der autonomen Speichereinrichtungen 102 im verteilten Subsystem 10 ihre eigene Adresse zugeordnet. Dies gibt jeder autonomen Speichereinrichtung 102 die Fähigkeit, Nachrichten an andere Einrichtungen im Subsystem weiterzuleiten (engl. to route). Obwohl die Figur autonome Speichereinrichtungen in eine 3x3 Matrix veranschaulicht, kann das verteilte Subsystem 10 so eingerichtet sein, dass es eine viel größere Anzahl von Einrichtungen in dem Netzwerk aufweist.
Bei einem Ausführungsbeispiel kann das Adressschema absolut sein, bei dem jeder autonomen Speichereinrichtung 102 eine eindeutige statische Adresse zugeordnet wird, wie sie durch eine Route zu der autonomen Speichereinrichtung bestimmt wird; zum Beispiel kann die Speichereinrichtung als eine spezifiziert sein, die auf einem bestimmten Anschluss der Einrichtung vorhanden ist und elektrisch mit einem Anschluss der Grundeinrichtung verbunden ist. Bei einem alternativen Ausführungsbeispiel kann die Adresse der autonomen Speichereinrichtung dynamisch bestimmt werden, während sie innerhalb des Systems betrieben wird. Dadurch, dass es möglich ist, die Adresse dynamisch zu bestimmen, kann das Adressschema für die Zwecke der Optimierung während des Systembetriebs modifiziert werden.
Bei der Systeminbetriebnahme kann das Netzwerk durch das Übertragen von Weiterleitungsinformationen (engl.: routing information) initialisiert werden, um zu ermöglichen, dass diese Zwischen-Einrichtungskommunikation bzw. Inter-Einrichtungskommunikation stattfindet. Alternativ kann sich das System selbst als autonome Speichereinrichtung 102 organisieren, wobei es eine Leitwegtabelle (engl.: routing table) unter Verwendung einer Abtasttechnik zum Bestimmen von Nachbarn bildet. Die Leitwegtabelle verfolgt die Einrichtung innerhalb des verteilten Subsystems 10 nach und kann Parameter speichern, wie beispielsweise die Latenzkosten, basierend auf einem Ort von irgendeiner Einrichtung, die mit einer anderen Einrichtung spricht.
Die Nachricht, die auf dem Bus passiert, der die verteilten autonomen Speichereinrichtungen 102 verbindet, kann moduliert sein oder ein Standardnetzwerk sein. Ein solches Standardnetzwerk kann das Übertragungs-Steuer-Protokoll/Internetprotokoll (TCP/IP; engl.: transmission control protocol/internet protocol) sein, das zum Verifizeren der korrekten Übertragung von Daten von einer Einrichtung zur anderen verantwortlich ist. Das TCP/IP stellt auch eine Unterstützung zum Erkennen von Fehlern oder Datenverlust bereit, was die Neuübertragung auslöst, bis die Daten als korrekt übertragen und vollständig empfangen verifiziert sind. Ein anderer Typ von Netzwerk, den das verteilte Subsystem 10 verwenden kann, ist die InfiniBand-Architektur, die ein Gewebe erzeugt, um eine Kommunikation mit niedriger Latenz zu ermöglichen, Clustering mit hoher Bandbreite und Speichertraffic. Auch die Kommunikation unter den autonomen Speichereinrichtungen 102 kann Ethernet in einem rahmenbasierten Netzwerk verwenden.
Die Figur zeigt, dass unterschiedliche Speicherarten an autonomen Speichereinrichtungen 102 angebracht sein können. Als ein Beispiel kann jeder Knoten dieses autonomen Speichers ein NAND, DRAM oder andere flüchtige/nicht flüchtige Kombinationen daraus für die „offline“-Speicherung sein oder ein Notizblockplatz angebracht haben. In der Figur ist auch ein Drahtlosarchitektur Ausführungsbeispiel veranschaulicht, das die Speichereinrichtungen 102 als mit einer Antenne zum Übertragen von Drahtlossignalen gekoppelt zeigt. Die Antennen können Nahfeldrahmenantennen sein, kapazitive Platten oder Dipolantennen, die es Funk ermöglichen, der zur Speichereinrichtung gehört, die Speichermatrizen zu programmieren und Algorithmen und Datenbanken durch Kommunikation unter Verwendung von Kommunikationssignalen über den Äther herunterzuladen. Eine Konfigurationsleitwegtabelle verfolgt die Speichereinrichtungen nach, um Kommunikationen zwischen Einrichtungen innerhalb des verteilten Subsystems 10 zu ermöglichen.
Die Figur zeigt eine Drahtlosverbindung zwischen dem Steuerblock und den Dies (engl.: dies, auch Plättchen genannt), die als die autonomen Speichereinrichtungen 102 in dem Speichersubsystem gezeigt sind. Bei diesem Ausführungsbeispiel überwacht der Steuerblock Überlastung beim Traffic bzw. Verkehr an die verschiedenen Blöcke und reagiert darauf. Der Bustraffic ist ein Aspekt einer Ressource, die die Systemleistung beschränken kann. Um Leistungsbeschränkungen zu verringern, kann der Überwachungsblock Bereiche einer Datenbank an eine andere Die verschieben, um Suchen zu parallelisieren oder Rechenressourcen vollständig zu verwenden. Als solcher überwacht der Speicherblock beschränkte Ressourcen, um die Systemleistung zu optimieren, wobei der Bustraffic nur ein Beispiel einer Ressource ist, die durch Relozieren von Daten unter den Speichereinrichtungen 102 optimiert werden kann.
Bei diesem Ausführungsbeispiel kann die Die-Zu-Die-Drahtloskommunikation Antennen verwenden, die physikalisch nur zum Kommunizieren mit anderen Dies angeordnet sind, die in demselben Stapel (engl.: stack) sind. Um eine Inter-Die-Drahtloskommunikation zu erreichen, kann jede der autonomen Speichereinrichtungen 102 eine Antenne an Eingabeanschlüssen, um Signale zu empfangen, und Antennen an Ausgabeanschlüssen, um Signale zu übertragen. Die Drahtloskommunikation kann den Bedarf an Bonddrähten minimieren.
2 zeigt eine vereinfachte Blockdarstellung der autonomen Speichereinrichtung 102, die die Rechnerknoten und Beschleunigungshardware enthält, um Berechnungen und Manipulationen der Inhalte, die innerhalb des Speichers gespeichert sind, bereitzustellen. Das verteilte Subsystem 10 weist mehrere autonome Speichereinrichtungen 102 auf, wobei jede Einrichtung Kommunikationen mit Nachbar-Die unter Verwendung von Inter-Die-Kommunikationsanschlüssen 204, 206, 208 und 210 handhabt. Diese Inter-Die-Kommunikationspfade ermöglichen eine autonome Kommunikation unter einem großen Pool an Die, wie beispielsweise mehrere tausend Die im verteilten Subsystem 10.
Die autonome Speichereinrichtung 102 weist sowohl ein Betriebssystem als auch Verarbeitungsfähigkeiten auf und ist sich der Bedeutung seiner Inhalte bewusst. Anders ausgedrückt ist sich die Einrichtung 102 der Details bewusst, wo bestimmte Datenbanktabellen angeordnet sind, die Felddefinitionen für jede dieser Tabellen und wie diese miteinander verlinkt sind. Durch Verwenden dieser Information kann die autonome Speichereinrichtung 102 unabhängig Daten in der gespeicherten Datenbank verarbeiten, um Ergebnisse zu erhalten, die an den Hostprozessor zurückgegeben werden können.
3 zeigt ein Ausführungsbeispiel von funktionalen Blöcken für die autonome Speichereinrichtung 102 in Übereinstimmung mit der vorliegenden Erfindung. Die autonome Speichereinrichtung weist eine intelligente Speicherverarbeitungsengine 302 auf, die Steuerfunktionen und Verabreitungsbeschleunigung 304 bereitstellt, um die Verwendung von Modellen zu ermöglichen, die Berechnungen und speicherintensive Operationen innerhalb des intelligenten Speichers mit berücksichtigen. Eine Mehrzwecksteuerengine 306 ist ein Mikrokontroller zum Empfangen von heruntergeladenen Endbenutzerfirmware oder Software zum Steuern anderer Speichereinrichtungen neben anderen Funktionen. Die Steuerengine 306 kann Instruktionen innerhalb des Pools autonomer Speicher initiieren und Information aus dem Pool extrahieren, die durch eine Hostschnittstelle 320 an eine Hoststeuerung weitergeleitet werden kann. Protokolle und Algorithmen ermöglichen eine Arbitrierung unter den Einrichtungen, dass Leitweginformation unter den Einrichtungen weitergeleitet wird und dass Algorithmen ablaufen können, um die Poolebene zu optimieren.
Ein Hardwarebeschleuniger 308 stellt eine intelligente Speicherverarbeitungsengine 304 mit Beschleunigungshardware für Berechnungen und Manipulationen der Inhalte, die innerhalb des Speichers 318 gespeichert sind, bereit. Der Hardwarebeschleuniger 308 ist in der Lage, Matrixoperationen, einfache Vergleiche mit Maskierbits, Speicherkopien und Bewegungen, usw. zu handhaben. Ein Codespeicherblock 310 speichert Code, der von einem Hostprozessor durch Hostschnittstelle 320 zur Verwendung durch die Mehrzwecksteuerengine 306 heruntergeladen wird. Ein Anwendungs-Programmier-Schnittstellen-(API; engl.: application programming interface)-Verwaltungsblock 312 führte die gespeicherten Routinen und Protokolle, die von Bibliotheken oder den Betriebssystemdiensten bereitgestellt werden, aus, um die Bildung von Anwendungen zu unterstützen. Die Software-API sind flexibel und machen von der Kenntnis der zugrunde liegenden Hardware Gebrauch, um optimale Leistung zu erreichen. Eine Konfigurationsleitweg-Tabelle 314 verfolgt die anderen Speichereinrichtungen innerhalb des verteilten Subsystems 10 nach. Die Konfiguration des verteilten Subsystems 10 kann dynamisch bestimmt werden und die Leitwegtabelle kann aktualisiert werden, während die autonome Speichereinrichtung 102 innerhalb des Systems betrieben wird.
Es ist üblich, Datenstrukturen in einem flachen (engl.: flat) Speicherbereich zu speichern. Obwohl es eine endlose Anzahl von möglichen Datenstrukturen gibt, können einige übliche Strukturen, wie beispielsweise Matrizen und verlinkte Listen verwendet werden, um zu veranschaulichen, wie der autonome Speicher verwendet werden kann, um die Speicherfunktionalität zu erweitern. Die Matrizen decken ein breites Spektrum von Domänen einschließlich denjenigen ab, die sich aus einer breiten Anzahl von Problemen mit darunter liegenden 2D oder 3D Geometrien ergeben, wie beispielsweise strukturelle Konstruktion, numerische Strömungssimulation, Bauformverkleinerung, Halbleitereinrichtungen, Thermodynamik, Materialien, Akustik, Computergrafik/Vision, Robotik/Kinematik, neben anderen. Matrizen können Anwendungen abdecken, die typischerweise nicht eine derartige Geometrie haben, wie beispielsweise Schaltkreissimulation, ökonomische und Finanzmodellierung, theoretische und Quantenchemie, chemische Prozesssimulation, Mathematik und Statistik, Leistungsnetze und andere Netzwerke und Grafen.
Beim Verarbeiten von Information, die in Matrizen gespeichert ist, werden alle oder ein Teil der Matrizen aus dem Speicher 318 gelesen und Berechnungen werden auf den Inhalten der Matrizen durch den Hardwarebeschleuniger 308 ausgeführt. Bei Stand der Technik Systemen werden große Bereiche der Matrizen aus dem Hauptspeicher empfangen und in Seiten eingeteilt, um in dem Prozessorzwischenspeicher gespeichert zu werden. Diese Matrizen schließen Berechnungen mit ein, die iterativ sind, und die die gesamte Matrizen mit einschließen können, so dass Stand der Technik Systeme nicht die gesamte Inhalte in dem Prozessorzwischenspeicher speichern können, die für die Verarbeitung benötigt werden.
Allerdings kann die autonome Speichereinrichtung 102 die Effizienz beim Ausführen von Matrixalgorithmen signifikant verbessern. Die autonome Speichereinrichtung 102 kann die Matrizen unter Verwendung einer flachen Speicherabbildung (engl.: flat memory map) speichern und kann eine enge Kopplung des Speichers 318 und eingebettete Hardwarebeschleuniger 308 verwenden, um die Operationen an diesen Matrizen stark zu beschleunigen. Matrixberechnungen können weiter durch vernünftige Organisation der Matrizen innerhalb des verteilten Subsystems 10 verbessert werden, um Matrizenoperationen mit hoher Leistung zu bewerkstelligen. Als ein Beispiel können gemeinsam geteilte Operanten bei einer Operation entsprechend geplant werden, um vorteilhafterweise innerhalb derselben autonomen Speichereinrichtung 102 zu residieren, so dass die Vervollständigung dieser Operationen keine Kommunikation mit anderen Einrichtungen erfordert.
Es ist üblich, verlinkte Listen in einer flachen Speicherabbildung zu erzeugen, um die Speicherung und Manipulation von geordneten Informationssätzen zu ermöglichen. Beim Durchlaufen einer verlinkten Liste ist es im Allgemeinen erforderlich, dass jede Aufzeichnung untersucht wird, um zu bestimmen, ob sie zu einem Muster passt oder um einfach einen Zeiger auf die nachfolgende Aufzeichnung zu erhalten. Durch Verwenden des verteilten Subsystems 10 ist es möglich, verlinkte Listen mit einem Minimum an Hostbustraffic zu parsen. Dann kann jede autonome Speichereinrichtung 102 jede Aufzeichnung untersuchen, um nach spezifischen Mustern zu sehen und einen Zeiger auf die nächste Aufzeichnung zu finden, bevor wiederholt wird. Sobald Ergebnisse gefunden sind, verwendet die autonome Speichereinrichtung 102 die Hostschnittstelle 320, um passende Ergebnisse an den Host zurückzugeben.
Datenbanken umfassen gewöhnlicherweise große Datensätze, die in Gruppen von verlinkten Tabellen organisiert sind. Es werden Indexdateien erzeugt und gewartet und verwendet, um Suchen nach Informationen in diesen Tabellen zu beschleunigen. Bei Stand der Technik-Systemen sind manche Datenbanken größer als der nahe Speicher, der für den Prozessor verfügbar ist, der auf diesen Datenbanken arbeitet, und ein signifikanter Teil von Speicherzugriffen kann IO-Aufrufe mit langer Latenz haben, die die Systemleistung beschneiden.
Im Gegensatz zu den Stand der Technik Systemen kann das verteilte Subsystem 10 eine große Anzahl von autonomen Speichereinrichtungen 102 haben, die eingerichtet sind, um miteinander und mit dem Hostprozessor zu kommunizieren. Die im verteilten Subsystem 10 gefundene Speicherdichte kann primär durch die Speicherkosten begrenzt sein. Ferner würden die meisten Operationen mit der auf demselben Die wie der Speicher 318 eingebettete Steuerengine 306 Bustraffic mit einschließen, der intern zu dem Speicher-Die ist, und beschränkten Traffic, der extern zu dem Speicher-Die ist. Angesichts der engen Kopplung einer Mehrzwecksteuerengine 306 und der hohen Dichte an Speicher 318 kann der Bandbreitenflaschenhals, der durch einen Prozessor verursacht wird, der auf einen externen Speicher zugreift, eliminiert werden. Eine Beschleunigungstechnik im Hardwarebeschleuniger 308 kann verwendet werden, um die Leistung des verteilten Subsystems 10 dramatisch zu vergrößern.
Dadurch, dass das Subsystem 10 für den spezifischen Zweck der Manipulation von Speicherinhalt ausgeführt ist, kann ein endlicher Satz von nützlichen Hardwareprimitiven implementiert werden. Um eine Datenbank im verteilten Subsystem 10 zu implementieren, wird die Datenbank gesamt oder in Teilen an das Speichersubsystem zusammen mit Informationen darüber übertragen, wie die Datenbank organisiert ist. Es werden auch Algorithmen zur Verarbeitung von Information in der Datenbank heruntergeladen. Wenn der Initialisierungsprozess vervollständigt ist, erzeugt der Host Befehle auf sehr hoher Ebene an das verteilte Subsystem 10. Anstatt, dass spezifische Adresse gelesen und geschrieben werden, um eine Funktion auf höherer Ebene auszuführen, kann der Hostprozessor einen Befehl ausstellen, wie beispielsweise „parse Tabelle A, um alle Aufzeichnungen zu finden, die zu einem Muster passen, extrahiere Zeiger auf Tabelle B für jede dieser Aufzeichnungen, gebe Felder a, b, c aus Tabelle A und d und e aus Tabelle B zurück“. Alle Operationen laufen innerhalb des verteilten Subsystems 10 ab und eine kurze Liste von Ergebnissen wird an den Hostprozessor zurückgegeben.
Autonomer Speicher hat einen tiefgreifenden Vorteil bei dem Fall, bei dem eine lineare Suche auf einer großen Datenbank ausgeführt wird. Als Beispiel kann, bei Verwendung von Parallelverarbeitung (engl.: pipelining) für eine autonome Speichereinrichtung 102 mit 1GB Speicherdichte mit 8 Bänken von 2M Seiten mit jeweils 64B, eine Seite mit einem Zielmuster verglichen werden, bei einer Taktrate von ungefähr 10 Nanosekunden pro Seite, was zu einer möglichen Suchzeit für die 1GB Die von ungefähr 20 Millisekunden führt. Während dies für sich selbst ein eindrucksvolles Ergebnis ist, ist der Nutzen, dass diese Lösung skalierbar ist und folglich die Suchzeit für zwei autonome Speichereinrichtung 102 mit jeweils 1GB Speicherdichte auch ungefähr 20 Millisekunden betragen würde, sowie die Suchzeit für einen Petabyte Speicher oder für jeden beliebig großen Pool an Speicher. Das Verwenden autonomer Speichereinrichtungen 102 in einem verteilten Subsystem zum Ausführen von linearen Suchen ist durch die Kosten für die Matrix von Speichereinrichtungen 102 zusammen mit thermischer Verwaltung und Leistungsbeschränkungen begrenzt.
Systemadministrationfunktionen können auch von dem Vorteil autonomer Speichereinrichtungen 102 in einem verteilten Subsystem 10 Gebrauch machen. Zum Beispiel kann ein Datencenter einen Virusscan am verteilten Subsystem 10 durchführen und wenn ein Virus erkannt wird, kann das Datencenter für 20 Millisekunden „heruntergefahren werden“ (engl.: downed), wobei während dieser Zeit ein Such- und Zerstörungsalgorithmus auf jeden Bit ausgeführt wird, um den Zielvirus zu isolieren und jedes Auftreten von diesem zu unterbinden.
Autonome Speichereinrichtungen 102 im verteilten Subsystem 10 stellen einen Vorteil gegenüber Stand der Technik-Systemen bereit, wenn die „Streu-/Sammel-”Operationen (engl.: „Scatter/Gather“ operations) ausgeführt werden. „Streu-/Sammel-"Operationen stellen eine Abfolge von Schreibvorgängen an unterschiedlichen Adressen bereit, die in einen einzelnen zusammengesetzten Befehl kompiliert sind, der von dem Speicher oder dem IO-Subsystem ausgeführt wird. Diese Operationen werden geparst und an mehrere Die im verteilten Subsystem 10 ausgesendet, wobei sie an diesem Punkt diese autonom ausgeführt werden. Der resultierende Status wird angesammelt und an den Host berichtet, wenn die gesamte Operation beendet ist.
Autonome Speichereinrichtungen 102 im verteilten Subsystem 10 sind ideal für manche Anwendungsklassen, wie beispielsweise Bildverarbeitung. Diese Klassen sind gut geeignet für die parallele Berechnung, wo das Bild in viele kleinere Segmente unterteilt werden kann, welche relativ unabhängig verarbeitet werden. Nachdem Berechnungen an diesen kleinen Segmenten beendet wurden, können dann weitere Berechnungen an Gruppen dieser Segmente ausgeführt werden, um ein größeres Segment zu bilden, bis das Bild auf einer Ebene verarbeitet ist, die das gesamte Bild umfasst.
Durch Verwenden autonomer Speichereinrichtungen 102 können viele oder alle dieser Berechnungen auf niedriger Ebene parallel auf einer Bankebene des autonomen Speichers durchgeführt werden. Berechnungen über Bankgrenzen hinweg, können innerhalb der einen Einrichtung vorgenommen werden und durch Verwenden von Inter-Die-Kommunikation können Berechnungen auf höherer Ebene auf der Subsystemebene durchgeführt werden.
Andere parallele Berechnungsaufgaben folgen einem ähnlichen Modell und können Iteration zum Verfeinern der Genauigkeit der Ergebnisse mit einschließen oder die schrittweise Simulation durch die Zeit.
Das verteilte Subsystem 10 stellt eine Interaktion über die erwarteten Lese- und Schreiboperationen hinaus bereit, die von den Speichereinrichtungen ermöglicht werden. Die autonome Speichereinrichtung 102 interagiert mit bestehender Computerinfrastruktur unter Verwendung von einer oder mehreren Schnittstellen, die Kommunikation sowohl mit dem Hostcomputer als auch mit dem Netzwerk erlauben. Aus der Hostcomputerperspektive kann die Interaktion eine Speicher- oder Blockschnittstelle sein, aber zu der autonomen Speichereinrichtung 102 wird eine flexible Schnittstelle bereitgestellt, auf der oben auf Software API gebildet werden können. Diese API können entsprechend skaliert sein, um entweder dem Hostsystem Funktionalität darzulegen oder einen Weg zum Weiterleiten der Anfrage unter anderen autonomen Speichereinrichtungen bereitzustellen.
Die autonome Speichereinrichtungs-102-Schnittstelle zu anderen Einrichtungen im verteilten Subsystem 10 stellt einen Weg zur Weiterleitung von Nachrichten bereit, die einen Befehl in einer Liste von Parametern enthalten können. Die Parameter können tatsächliche Daten enthalten, Adressinformationen, die sich auf Daten in der Matrix bezieht und Objekterkennungen, die sich auf ein Objekt, das in der Matrix angeordnet ist, beziehen. Die Parameter können auch eine Adresse enthalten oder eine Objektidentifikation (Objekt-ID) zu dem Code oder sich auf diesen beziehen, der zum Betreiben auf einen gegebenen Datensatz benötigt wird. Der Code, der zur autonomen Speichereinrichtung 102 geleitet wird, kann zu dem Paradigma passen, das durch den OpenCL-Standard aufgebaut wird, beispielsweise MapProduce. Viele der bestehenden Cluster- und „Cloud-Computing“ Infrastrukturteile können innerhalb des verteilten Subsystems 10 wieder verwendet werden.
Die Speichersteuerung oder eine autonome Speichereinrichtung 102 im verteilten Subsystem 10 kann eine Zustandsüberwachung ausführen, um Busaktivitäten aufgrund von Datenübertragungen zwischen den Speichereinrichtungen zu bestimmen. Basierend auf den Überwachungsergebnissen kann eine Neuzuteilung von Ressourcen dynamisch ausgeführt werden, um die Systemleistung zu verbessern. Zum Beispiel kann, nachdem der Traffic innerhalb des verteilten Subsystems 10 überwacht wurde, bestimmt werden, dass ein Traffic mit hoher Bandbreite im Allgemeinen zwischen zwei Speichereinrichtungen auftritt. Wenn diese Speichereinrichtungen keine benachbarten Einrichtungen sind, dann kann das Subsystem eine dieser Speichereinrichtungen wählen und die Inhalte der anderen Speichereinrichtungen relozieren, um einer einzelnen autonomen Speichereinrichtung 102 zu ermöglichen, die Verarbeitung bereitzustellen, die den Algorithmus beendet. Alternativ können die Speicherinhalte von relativ entfernten Einrichtungen neu an nahe Knoten verteilt werden, um den Bustraffic zu verringern.
Ferner können Suchen des verteilten Subsystems 10 nach Nur-Lese-Inhalten einen Subsatz des Netzwerks veanlassen, konstant aktiv zu sein. In diesem Falle kann das Subsystem die Inhalte in diesem Bereich des Netzwerks replizieren, so dass viele autonome Speichereinrichtungen 102 Operationen auf dem Nur-Lese-Inhalt innerhalb des verteilten Subsystems ausführen können.
Bisher sollte offensichtlich sein, dass das Ausführungsbeispiele der vorliegenden Erfindung vergrößerte Speichereffizienzen durch autonome Datenspeicherung ermöglichen. Durch Verbinden der autonomen Speichereinrichtung in einem verteilten Speichersubsystem kann ein Host eine Datenbank zu der autonomen Speichereinrichtung herunterladen. Die autonome Speichereinrichtung kann Befehle initiieren, um Bereiche der Datenbank an Nachbar-Die unter Verwendung einer Schnittstelle zu verteilen, um Inter-Die-Kommunikation innerhalb eines Pools von autonomen Speichern zu handhaben. Die autonome Speichereinrichtung kann dann Information aus dem Pool autonomer Speicher extrahieren, die durch die Hostschnittstelle an die Hoststeuerung geleitet wird.
Während bestimmte Merkmale der Erfindung veranschaulicht und hierin beschrieben wurden, werden dem Fachmann viele Modifikationen, Substitutionen, Änderungen und Äquivalente einfallen. Es sollte daher verstanden werden, dass die beigefügten Ansprüche alle solche Modifikationen und Abänderungen abdecken sollen, so wie sie in den wahren Geist der Erfindung fallen.

Claims

Autonomes Speicher-Sub-System, umfassend: eine Steuerung mit einem Zustandsüberwachungsblock; und eine erste und zweite autonome Speichereinrichtung (102), die mit einem Bus mit Bustraffic verbunden sind, wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) einen Speicher (318) und einen Hardwarebeschleuniger (308) umfasst, die miteinander gekoppelt sind, wobei der Hardwarebeschleuniger (308) konfiguriert ist, Inhalte zu berechnen und zu manipulieren, die in dem Speicher (318) gespeichert sind, sodass Operationen auf Matrizen des Speichers (318) beschleunigt sind, wobei der Zustandsüberwachungsblock den Bustraffic überwacht und basierend auf Überwachungsergebnissen Ressourcen neu zuteilt, um die Systemleistung dynamisch zu verbessern, wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) vier Ausgabeanschlüsse zum Kommunizieren mit wenigstens vier Nachbarspeichereinrichtungen aufweist, und wobei jede der ersten und zweiten autonomen Speichereinrichtung (102) drahtlos mit den wenigstens vier Nachbarspeichereinrichtungen kommuniziert.
Autonomes Speicher-Sub-System nach Anspruch 1, weiter aufweisend: eine dritte autonome Speichereinrichtung (102), die keine Nachbareinrichtung zu der ersten und zweiten autonomen Speichereinrichtung ist, wobei die Steuerung Inhalte der dritten autonomen Speichereinrichtung (102) auswählt, um sie an die erste und zweite autonome Speichereinrichtung (102) zu relozieren, die Nachbareinrichtungen sind.
Autonomes Speicher-Sub-System nach Anspruch 2, wobei innerhalb der ersten, zweiten und dritten autonomen Speichereinrichtung (102) verteilter Nur-Lese-Inhalte in der ersten und zweiten autonomen Speichereinrichtung (102) repliziert wird, um parallele Operationen auf dem Nur-Lese-Inhalt ohne Übernehmen von Bustraffic von der dritten autonomen Speichereinrichtung auszuführen.
Autonomes Speicher-Sub-System nach Anspruch 1, wobei die Steuerung wählt, Inhalte der zweiten autonomen Speichereinrichtung (102) an die erste autonome Speichereinrichtung (102) zu relozieren, um Bustraffic zwischen der ersten und zweiten autonomen Speichereinrichtung (102) zu verringern.
Autonomes Speicher-Sub-System nach Anspruch 2, wobei die erste, zweite und dritte autonome Speichereinrichtung (102) weiter einen Notizblockspeicheranschluss zum Koppeln eines externen Speichers aufweist.
Autonomes Speicher-Sub-System nach Anspruch 5, wobei der externe Speicher ein NAND-Speicher oder dynamischer Schreib-Lese-Speicher (DRAM) ist.
Autonomes Speicher-Sub-System, umfassend: eine Speichereinrichtung (102) in einer Matrix von Speichereinrichtungen (102), um Befehle zum Verteilen von Bereichen einer Datenbank an Nachbarspeichereinrichtungen zu initiieren, wobei jede Speichereinrichtung (102) der Matrix vier Ausgabeanschlüsse zum Kommunizieren mit wenigstens vier Nachbarspeichereinrichtungen aufweist, und wobei die Speichereinrichtung (102) drahtlos mit den wenigstens vier Nachbarspeichereinrichtungen kommuniziert; und einen Zustandsüberwachungsblock zum Überwachen von Bustraffic auf einem Bus in dem autonomen Speichersubsystem und zum Neuzuteilen von Speicherinhalten in der Matrix von Speichereinrichtungen (102) zum dynamischen Verringern von Bustraffic der Speichereinrichtung (102) an die Nachbarspeichereinrichtungen, wobei jede Speichereinrichtung der Matrix von Speichereinrichtungen einen Speicher (318) und einen Hardwarebeschleuniger (308) umfasst, die miteinander gekoppelt sind, und wobei der Hardwarebeschleuniger (308) konfiguriert ist, Inhalte zu berechnen und zu manipulieren, die in dem Speicher (318) gespeichert sind, sodass Operationen auf Matrizen des Speichers (318) beschleunigt sind.
Autonomes Speicher-Sub-System nach Anspruch 7, wobei die Speichereinrichtung (102) weiter einen Notizblockspeicheranschluss zum Koppeln eines externen NAND-Speichers und dynamischen Schreib-Lese-Speichers (DRAM) aufweist.
Autonomes Speicher-Sub-System nach Anspruch 7, wobei Nur-Lese-Inhalt, der innerhalb des Speichersubsystems verteilt ist, in der Speichereinrichtung (102) und den Nachbarspeichereinrichtungen repliziert wird, um parallele Operationen auf dem Nur-Lese-Inhalt ohne die Übernahme von Bustraffic durch nicht benachbarte Speichereinrichtungen auszuführen.
Autonomes Speicher-Sub-System mit einer Matrix aus Speichereinrichtungen, wobei eine Speichereinrichtung (102) in der Matrix Befehle zum Verteilen von Bereichen einer Datenbank an Speichereinrichtungen (102) in der Matrix initiiert und eine Neuzuteilung von Speicherinhalt anordnet, um beschränkte Ressourcen dynamisch zu verwalten, wobei jede Speichereinrichtung der Matrix von Speichereinrichtungen einen Speicher (318) und einen Hardwarebeschleuniger (308) umfasst, die miteinander gekoppelt sind, und wobei der Hardwarebeschleuniger (308) konfiguriert ist, Inhalte zu berechnen und zu manipulieren, die in dem Speicher (318) gespeichert sind, sodass Operationen auf Matrizen des Speichers (318) beschleunigt sind, wobei die Speichereinrichtung (102) vier Ausgabeanschlüsse zum Kommunizieren mit wenigstens vier Nachbarspeichereinrichtungen aufweist, und wobei die Speichereinrichtung (102) drahtlos mit den wenigstens vier Nachbarspeichereinrichtungen kommuniziert.
Autonomes Speicher-Sub-System nach Anspruch 10, wobei die beschränkten Ressourcen eine Busbandbreite aufweisen.
Autonomes Speicher-Sub-System nach Anspruch 10, wobei die Speicherinhalte von nicht Nachbareinrichtungen in der Matrix neu auf Nachbareinrichtungen umverteilt werden, um die beschränkten Ressourcen zu optimieren.
Autonomes Speicher-Sub-System nach Anspruch 10, wobei die Speichereinrichtung (102) einen Notizblockspeicheranschluss aufweist zum Koppeln eines externen Speichers aufweist.