DE112020003277T5

DE112020003277T5 - Erzeugen von tags für die datenzuweisung

Info

Publication number: DE112020003277T5
Application number: DE112020003277.9T
Authority: DE
Inventors: Matthew Paul Fay; Brandon Davis; Nathan David Parrish; Yanwei JIANG; Constantine P. Sapuntzakis; Ronald Karr
Original assignee: Pure Storage Inc
Current assignee: Pure Storage Inc
Priority date: 2019-07-10
Filing date: 2020-04-27
Publication date: 2022-04-21
Also published as: WO2021006940A1; US20210011623A1

Abstract

Ein Speichersystem enthält Festkörperspeichergeräte und einen Speicher-Controller, der operativ mit den Festkörperspeichergeräten gekoppelt ist, wobei der Speicher-Controller eine Verarbeitungsvorrichtung enthält, um Datensätze in einem oder mehreren Festkörperspeichergeräten der Vielzahl von Festkörperspeichergeräten zu speichern. Die Verarbeitungsvorrichtung kann auch Tags für jeden der Datensätze auf der Grundlage von einem oder mehreren Metadatenelementen erzeugen, die mit jedem Datensatz verbunden sind. Die Verarbeitungsvorrichtung kann auch eine erwartete Lebensdauer für jeden Datensatz auf der Grundlage der einen oder mehreren für den jeweiligen Datensatz erzeugten Tags bestimmen. Die Verarbeitungsvorrichtung kann auch jeden der einen oder mehreren Datensätze in entsprechende einer Vielzahl von Speicherblöcken auf der Grundlage der erwarteten Lebensdauer für jeden Datensatz gruppieren, wobei jeder Speicherblock Datensätzen mit einer bestimmten erwarteten Lebensdauer entspricht.

Description

VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Rechtsvorteile gemäß 35 U.S.C. § 119(e) der am 10. Juli 2019 eingereichten US-Patentanmeldung Nr. 16/508,178 , deren gesamter Inhalt hiermit durch Bezugnahme hierin aufgenommen wird.
HINTERGRUND
Speichersysteme, wie z. B. Unternehmensspeichersysteme, können einen zentralen oder dezentralen Speicher für Daten enthalten, der gemeinsame Funktionen für die Datenverwaltung, den Datenschutz und die gemeinsame Nutzung von Daten bietet, z. B. durch Verbindungen zu Computersystemen.
Figurenliste
Es zeigen:

1A ein erstes Beispielsystem zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen.
1B ein zweites Beispielsystem zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen.
1C ein drittes Beispielsystem zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen.
1D ein viertes Beispielsystem zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen.
2A eine perspektivische Ansicht eines Storage-Clusters mit mehreren Speicherknoten und internem Speicher, der an jeden Speicherknoten gekoppelt ist, um gemäß einigen Ausführungsformen Network Attached Storage bereitzustellen.
2B ein Blockdiagramm, das einen Interconnect-Switch zeigt, der gemäß einigen Ausführungsformen mehrere Speicherknoten koppelt.
2C ein Blockdiagramm mit mehreren Ebenen, das den Inhalt eines Speicherknotens und den Inhalt einer der nichtflüchtigen Solid-State-Speichereinheiten gemäß einigen Ausführungsformen zeigt.
2D eine Speicherserver-Umgebung, die Ausführungsformen der Speicherknoten und Speichereinheiten einiger vorhergehender Figuren in Übereinstimmung mit einigen Ausführungsformen verwendet.
2E ist ein Blade-Hardware-Blockdiagramm, das eine Steuerungsebene, Rechen- und Speicherebenen und Authorities zeigt, die mit den zugrunde liegenden physischen Ressourcen interagieren, in Übereinstimmung mit einigen Ausführungsformen.
2F Elasticity Software Layers in Blades eines Storage-Clusters in Übereinstimmung mit einigen Ausführungsformen.
2G Authorities und Speicherressourcen in Blades eines Storage-Clusters in Übereinstimmung mit einigen Ausführungsformen.
3A ein Diagramm eines Speichersystems, das für die Datenkommunikation mit einem Cloud-Service-Anbieter gemäß einigen Ausführungsformen der vorliegenden Offenbarung gekoppelt ist.
3B ein Diagramm eines Speichersystems in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung.
3C ein beispielhaftes cloudbasiertes Speichersystem in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung.
3D ein beispielhaftes Computergerät, das speziell für die Durchführung eines oder mehrerer der hier beschriebenen Prozesse konfiguriert werden kann.
4 ein beispielhaftes Verfahren zum Erzeugen von Tags für Datensätze, um Daten effizienter zu speichern.
5 ein beispielhaftes Verfahren zum Gruppieren zweier unterschiedlicher Datensätze auf der Grundlage der erwarteten Lebensdauer.
6 eine Abbildung eines beispielhaften Flusses von Datensätzen, die nach der erwarteten Lebensdauer gruppiert sind.
7 eine Abbildung eines beispielhaften Diagramms, das die Interaktion zwischen Operation und Tag für einen Datensatz zeigt.
8 eine beispielhafte Tag-Datenbank.
9 ein Blockdiagramm, das ein Beispiel für Garbage Collection und Datenneuzuweisung für Beispieldatensätze zeigt.
10 ein beispielhaftes Verfahren zum Neuzuweisen von Daten auf der Grundlage von Datentyp und erwarteter Lebensdauer.

AUSFÜHRLICHE BESCHREIBUNG
Bei der Garbage Collection in einem Speichersystem geht es darum, Speicherplatz im Computer freizugeben, indem Daten, die nicht mehr benötigt oder verwendet werden, entfernt werden. Ein Speicherblock kann mehrere Datensätze enthalten, die gelegentlich gelöscht werden müssen, aber auch mehrere Datensätze, die beibehalten werden müssen. Um die nicht mehr benötigten Daten zu löschen, schreibt der Prozessor die Daten, die beibehalten werden müssen, normalerweise neu. Diese Daten werden in einem anderen Speicherblock gespeichert. Wenn die Garbage Collection abgeschlossen ist, werden die aufbewahrten Daten in den kürzlich gelöschten Speicherblock zurückgeschrieben. Dies kostet Zeit und Rechenressourcen und führt zur Abnutzung der Festkörperspeichergeräte. Um die Notwendigkeit des erneuten Schreibens von Daten, die aufbewahrt werden müssen, zu verringern, wäre es vorteilhaft, Daten mit ähnlicher erwarteter Lebensdauer zusammen zu organisieren.
In bestimmten Ausführungsformen erzeugt ein Tagging-Modul Tags für Datensätze. Die Tags können verschiedene Informationen über jeden Datensatz enthalten, z. B. ein Quellvolumen, die Größe des Datensatzes, ob er dupliziert, komprimiert, verschlüsselt oder anderweitig verändert wurde, ob er gelesen oder beschrieben wurde, seit er ursprünglich im Speichersystem gespeichert wurde, oder jede andere geeignete Information. Ein Speicher-Controller oder ein anderer geeigneter Prozessor kann für jeden Datensatz eine erwartete Lebensdauer für den Datensatz bestimmen. Die erwartete Lebensdauer kann ein Anhaltspunkt dafür sein, wann der Datensatz nicht mehr benötigt wird und somit für die Garbage Collection bereit ist. Der Speicher-Controller oder ein anderer geeigneter Prozessor kann dann feststellen, welche Datensätze eine ähnliche erwartete Lebensdauer haben und diese Datensätze zusammenfassen. Es ist zu beachten, dass die erwartete Lebensdauer auch die erwartete Restlebensdauer bedeuten kann, da der Speicher-Controller oder ein anderer geeigneter Prozessor feststellt, welche Datensätze im Wesentlichen zur gleichen Zeit veraltet sein werden, und diese Datensätze in einem Speicherblock zusammenfassen kann. Durch die Gruppierung von Datensätzen, die zur gleichen Zeit „sterben“ werden, müssen weniger Datensätze im Speicherblock beibehalten und neu geschrieben werden, wenn der Speicherblock gelöscht wird. Somit kann die Garbage Collection weniger Neuschreiben von Daten erfordern, die beibehalten werden müssen. Obwohl in dieser Offenlegung die Garbage Collection erörtert wird, kann das Erzeugen von Tags für die Datenzuweisung auf jeden geeigneten Prozess angewendet werden, bei dem Datensätze mit ähnlicher Lebensdauer gruppiert werden. Solche Anwendungen umfassen Komprimieren, Vervielfältigen, Verschlüsseln oder jede andere geeignete Anwendung.
Beispielhafte Verfahren, Vorrichtungen und Produkte zum Erzeugen von Tags für die Datenzuweisung gemäß den Ausführungsformen der vorliegenden Offenbarung werden unter Bezugnahme auf die beigefügten Figuren beschrieben, beginnend mit 1A. 1A veranschaulicht ein Beispielsystem für Datenspeicherung in Übereinstimmung mit einigen Implementierungen. Das System 100 (hier auch als „Speichersystem“ bezeichnet) enthält zahlreiche Elemente, die der Veranschaulichung und nicht der Einschränkung dienen. Es sei darauf hingewiesen, dass das System 100 die gleichen, mehr oder weniger Elemente enthalten kann, die in anderen Implementierungen auf die gleiche oder eine andere Weise konfiguriert sind.
Das System 100 umfasst eine Reihe von Datenverarbeitungsgeräten 164A-B. Datenverarbeitungsgeräte (hierin auch als „Client-Geräte“ bezeichnet) können z.B. einen Server in einem Datenzentrum, eine Workstation, einen Personal Computer, ein Notebook oder ähnliches verkörpern. Datenverarbeitungsgeräte 164A-B können für die Datenkommunikation über ein Storage Area Network („SAN“) 158 oder ein Local Area Network („LAN“) 160 mit einem oder mehreren Speicher-Arrays 102A-B gekoppelt sein.
Das SAN 158 kann mit einer Vielzahl von Datenkommunikationsstrukturen, -vorrichtungen und -protokollen implementiert werden. Beispielsweise können die Strukturen für SAN 158 Fibre Channel, Ethernet, Infiniband, Serial Attached Small Computer System Interface („SAS“) oder ähnliches umfassen. Datenkommunikationsprotokolle zur Verwendung mit SAN 158 können Advanced Technology Attachment („ATA“), Fibre Channel Protocol, Small Computer System Interface („SCSI“), Internet Small Computer System Interface („iSCSI“), HyperSCSI, Non-Volatile Memory Express („NVMe“) over Fabrics oder ähnliches umfassen. Es sei angemerkt, dass SAN 158 der Veranschaulichung und nicht der Einschränkung dient. Andere Datenkommunikationskopplungen können zwischen Datenverarbeitungsgeräten 164A-B und Speicher-Arrays 102A-B implementiert werden.
Das LAN 160 kann auch mit einer Vielzahl von Strukturen, Vorrichtungen und Protokollen implementiert werden. Zum Beispiel können die Strukturen für LAN 160 Ethernet (802.3), Wireless (802.11) oder ähnliches umfassen. Zu den Datenkommunikationsprotokollen zur Verwendung in LAN 160 können das Transmission Control Protocol („TCP“), das User Datagram Protocol („UDP“), das Internet Protocol („IP“), das HyperText Transfer Protocol („HTTP“), das Wireless Access Protocol („WAP“), das Handheld Device Transport Protocol („HDTP“), das Session Initiation Protocol („SIP“), das Real Time Protocol („RTP“) oder ähnliche Protokolle gehören.
Speicher-Arrays 102A-B können persistente Datenspeicherung für die Datenverarbeitungsgeräte 164A-B bereitstellen. In Implementierungen kann das Speicher-Array 102A in einem Gehäuse (nicht abgebildet) und das Speicher-Array 102B in einem anderen Gehäuse (nicht abgebildet) enthalten sein. Die Speicher-Arrays 102A und 102B können einen oder mehrere Speicher-Array-Controller 110A-D (hier auch als „Controller“ bezeichnet) enthalten. Ein Speicher-Array-Controller 110A-D kann als Modul einer automatisierten Rechenanlage mit Computer-Hardware, Computer-Software oder einer Kombination aus Computer-Hardware und -Software ausgeführt sein. In einigen Implementierungen können die Speicher-Array-Controller 110A-D für die Ausführung verschiedener Speicheraufgaben konfiguriert werden. Zu den Speicheraufgaben können Folgendes einschließen: das Schreiben von Daten, die von den Datenverarbeitungsgeräten 164A-B empfangen werden, in das Speicher-Array 102A-B, das Löschen von Daten aus dem Speicher-Array 102A-B, das Abrufen von Daten aus dem Speicher-Array 102A-B und das Bereitstellen von Daten für die Datenverarbeitungsgeräte 164AB, das Überwachen und Melden der Plattenauslastung und -leistung, das Ausführen von Redundanzbetrieb, wie z.B. Redundant Array of Independent Drives („RAID“) oder RAID-ähnliche Datenredundanzoperationen, das Komprimieren von Daten, das Verschlüsseln von Daten usw.
Der Speicher-Array-Controller 110A-D kann auf verschiedene Weise implementiert werden, z. B. als ein Field Programmable Gate Array („FPGA“), Programmable Logic Chip („PLC“), Application Specific Integrated Circuit („ASIC“), System-on-Chip („SOC“) oder jedes Datenverarbeitungsgerät, das diskrete Komponenten enthält, wie z. B. eine Verarbeitungsvorrichtung, eine Zentraleinheit, einen Computerspeicher oder verschiedene Adapter. Der Speicher-Array-Controller 110A-D kann z.B. einen Datenkommunikationsadapter enthalten, der so konfiguriert ist, dass er die Kommunikation über das SAN 158 oder LAN 160 unterstützt. In einigen Implementierungen kann der Speicher-Array-Controller 110A-D unabhängig an das LAN 160 gekoppelt werden. In Implementierungen kann der Speicher-Array-Controller 110A-D einen E/A-Controller oder ähnliches enthalten, der den Speicher-Array-Controller 110A-D für die Datenkommunikation über eine Midplane (nicht abgebildet) mit einer persistenten Speicherressource 170A-B (hier auch als „Speicherressource“ bezeichnet) koppelt. Die persistente Speicherressource 170AB kann eine beliebige Anzahl von Speicherlaufwerken 171A-F (hierin auch als „Speichergeräte“ bezeichnet) und eine beliebige Anzahl von nichtflüchtigen Random Access Memories („NVRAM“) (nicht abgebildet) einschließen.
In einigen Implementierungen können die NVRAM-Vorrichtungen einer persistenten Speicherressource 170A-B so konfiguriert sein, dass sie vom Speicher-Array-Controller 110A-D Daten empfangen, die auf den Speicherlaufwerken 171A-F gespeichert werden sollen. In einigen Beispielen können die Daten von den Datenverarbeitungsgeräten 164A-B stammen. In einigen Beispielen kann das Schreiben von Daten auf der NVRAM-Vorrichtung schneller durchgeführt werden als das direkte Schreiben von Daten auf das Speicherlaufwerk 171A-F. In Implementierungen kann der Speicher-Array-Controller 110A-D so konfiguriert werden, dass die NVRAM-Vorrichtungen als schnell zugänglicher Puffer für Daten verwendet werden, die auf die Speicherlaufwerke 171A-F geschrieben werden sollen. Eine Latenzzeit für Schreibanforderungen unter Verwendung von NVRAM- Vorrichtungen als Puffer kann verbessert werden im Vergleich zu einem System, in dem ein Speicher-Array-Controller 110A-D Daten direkt auf die Speicherlaufwerke 171A-F schreibt. In einigen Implementierungen können die NVRAM-Vorrichtungen mit einem Computerspeicher in der Form von RAM mit hoher Bandbreite und niedriger Latenz implementiert werden. Die NVRAM-Vorrichtung wird als „nichtflüchtig“ bezeichnet, da die NVRAM-Vorrichtung eine spezifische Stromquelle erhalten oder enthalten kann, die den Zustand des RAM nach dem Hauptstromausfall der NVRAM-Vorrichtung aufrechterhält. Bei einer solchen Stromquelle kann es sich um eine Batterie, einen oder mehrere Kondensatoren oder Ähnliches handeln. Als Reaktion auf einen Stromausfall kann die NVRAM-Vorrichtung so konfiguriert werden, dass der Inhalt des RAM in einen persistenten Speicher, wie z. B. die Speicherlaufwerke 171A-F, geschrieben wird.
In Implementierungen kann sich das Speicherlaufwerk 171A-F auf jedes Gerät beziehen, das für die dauerhafte Aufzeichnung von Daten konfiguriert ist, wobei sich „dauerhaft“ oder „beständig“ auf die Fähigkeit eines Geräts bezieht, aufgezeichnete Daten nach einem Stromausfall zu halten. In einigen Implementierungen kann das Speicherlaufwerk 171A-F Speichermedien entsprechen, die keine Plattenspeicher sind. Zum Beispiel kann das Speicherlaufwerk 171A-F ein oder mehrere Solid-State-Laufwerke (‚SSDs‘), auf Flash-Speicher basierende Speicher, jede Art von nichtflüchtigem Festkörperspeicher oder jede andere Art von nichtmechanischem Speichergerät sein. In anderen Implementierungen kann das Speicherlaufwerk 171A-F mechanische oder rotierende Festplatten, wie z.B. Festplattenlaufwerke (‚HDD‘), enthalten.
In einigen Implementierungen können die Speicher-Array-Controller 110A-D so konfiguriert werden, dass die Geräteverwaltungsaufgaben vom Speicherlaufwerk 171A-F in das Speicher-Array 102AB ausgelagert werden. Beispielsweise können die Speicher-Array-Controller 110A-D Steuerinformationen verwalten, die den Zustand eines oder mehrerer Speicherblöcke in den Speicherlaufwerken 171A-F beschreiben können. Die Steuerinformationen können z.B. angeben, dass ein bestimmter Speicherblock ausgefallen ist und nicht mehr beschrieben werden sollte, dass ein bestimmter Speicherblock den Boot-Code für einen Speicher-Array-Controller 110A-D enthält, die Anzahl der Programm-Löschzyklen („P/E“), die an einem bestimmten Speicherblock durchgeführt wurden, das Alter der in einem bestimmten Speicherblock gespeicherten Daten, die Art der Daten, die in einem bestimmten Speicherblock gespeichert sind, usw. In einigen Implementierungen können die Steuerinformationen mit einem zugehörigen Speicherblock als Metadaten gespeichert werden. In anderen Implementierungen können die Steuerinformationen für die Speicherlaufwerke 171A-F in einem oder mehreren bestimmten Speicherblöcken der Speicherlaufwerke 171A-F gespeichert werden, die von dem Speicher-Array-Controller 110A-D ausgewählt werden. Die ausgewählten Speicherblöcke können mit einer Kennung versehen werden, die anzeigt, dass der ausgewählte Speicherblock Steuerinformationen enthält. Die Kennung kann von den Speicher-Array-Controllern 110A-D in Verbindung mit den Speicherlaufwerken 171A-F verwendet werden, um die Speicherblöcke, welche Steuerinformationen enthalten, schnell zu ermitteln. Beispielsweise können die Speicher-Array-Controller 110A-D einen Befehl zur Lokalisierung von Speicherblöcken erteilen, die Steuerinformationen enthalten. Es ist zu beachten, dass die Steuerinformation so groß sein kann, dass Teile der Steuerinformation an mehreren Authorities gespeichert sein können, dass die Steuerinformation z.B. aus Gründen der Redundanz an mehreren Authorities gespeichert sein kann oder dass die Steuerinformation ansonsten auf mehrere Speicherblöcke im Speicherlaufwerk 171A-F verteilt sein kann.
In Implementierungen können Speicher-Array-Controller 110A-D die Geräteverwaltungsaufgaben von den Speicherlaufwerken 171A-F des Speicher-Arrays 102A-B entlasten, indem sie von den Speicherlaufwerken 171A-F Steuerinformationen abrufen, die den Zustand eines oder mehrerer Speicherblöcke in den Speicherlaufwerken 171A-F beschreiben. Das Abrufen der Steuerinformationen von den Speicherlaufwerken 171A-F kann z.B. durch den Speicher-Array-Controller 110A-D erfolgen, der die Speicherlaufwerke 171A-F nach dem Ort der Steuerinformationen für ein bestimmtes Speicherlaufwerk 171A-F abfragt. Die Speicherlaufwerke 171A-F können für die Ausführung von Befehlen konfiguriert werden, die es dem Speicherlaufwerk 171A-F ermöglichen, den Ort der Steuerinformationen zu ermitteln. Die Befehle können von einem Controller (nicht abgebildet) ausgeführt werden, der mit dem Speicherlaufwerk 171A-F verbunden ist oder sich anderweitig auf dem Speicherlaufwerk 171A-F befindet und der das Speicherlaufwerk 171A-F veranlassen kann, einen Teil jedes Speicherblocks abzutasten, um die Speicherblöcke zu ermitteln, die Steuerinformationen für die Speicherlaufwerke 171A-F speichern. Die Speicherlaufwerke 171A-F können antworten, indem sie eine Antwortnachricht an den Speicher-Array-Controller 110A-D senden, die den Ort der Steuerinformationen für das Speicherlaufwerk 171A-F enthält. Als Reaktion auf das Empfangen der Antwortnachricht können die Speicher-Array-Controller 110A-D eine Anforderung zum Lesen von Daten ausgeben, die an der Adresse gespeichert sind, die mit dem Ort der Steuerinformationen für die Speicherlaufwerke 171A-F verknüpft ist.
In anderen Implementierungen können die Speicher-Array-Controller 110A-D die Geräteverwaltungsaufgaben weiter von den Speicherlaufwerken 171A-F abnehmen, indem sie als Reaktion auf das Empfangen der Steuerinformationen eine Speicherlaufwerk-Verwaltungsoperation durchführen. Eine Speicherlaufwerk-Verwaltungsoperation kann z.B. eine Operation umfassen, die typischerweise vom Speicherlaufwerk 171A-F durchgeführt wird (z.B. der Controller (nicht abgebildet), der einem bestimmten Speicherlaufwerk 171A-F zugeordnet ist). Eine Speicherlaufwerk-Verwaltungsoperation kann z.B. das Sicherstellen umfassen, dass Daten nicht in ausgefallene Speicherblöcke innerhalb des Speicherlaufwerks 171A-F geschrieben werden, das Sicherstellen, dass Daten so in Speicherblöcke innerhalb des Speicherlaufwerks 171A-F geschrieben werden, dass ein angemessenes Wear-Leveling erreicht wird, und so weiter.
In Implementierungen kann das Speicher-Array 102A-B zwei oder mehr Speicher-Array-Controller 110A-D implementieren. Beispielsweise kann das Speicher-Array 102A den Speicher-Array-Controller 110A und den Speicher-Array-Controller 110B einschließen. In einem bestimmten Fall kann ein einzelner Speicher-Array-Controller 110A-D (z. B. Speicher-Array-Controller 110A) eines Speichersystems 100 mit dem Primärstatus (hierin auch als „primärer Controller“ bezeichnet) und andere Speicher-Array-Controller 110A-D (z. B. Speicher-Array-Controller 110A) mit dem Sekundärstatus (hierin auch als „sekundärer Controller“ bezeichnet) bezeichnet werden. Der primäre Controller kann bestimmte Rechte haben, wie z.B. die Erlaubnis, Daten in der persistenten Speicherressource 170A-B zu ändern (z.B. Daten in die persistente Speicherressource 170A-B zu schreiben). Zumindest einige der Rechte des primären Controllers können die Rechte des sekundären Controllers ersetzen. Beispielsweise hat der sekundäre Controller möglicherweise nicht die Erlaubnis, Daten in der persistenten Speicherressource 170A-B zu ändern, wenn der primäre Controller das Recht dazu hat. Der Status der Speicher-Array-Controller 110A-D kann sich ändern. Beispielsweise kann der Speicher-Array-Controller 110A mit dem sekundären Status und der Speicher-Array-Controller 110B mit dem primären Status bezeichnet werden.
In einigen Implementierungen kann ein primärer Controller, z. B. Speicher-Array-Controller 110A, als primärer Controller für ein oder mehrere Speicher-Arrays 102A-B dienen, und ein sekundärer Controller, z. B. Speicher-Array-Controller 110B, kann als sekundärer Controller für ein oder mehrere Speicher-Arrays 102A-B dienen. Beispielsweise kann der Speicher-Array-Controller 110A der primäre Controller für Speicher-Array 102A und Speicher-Array 102B sein, und der Speicher-Array-Controller 110B kann der sekundäre Controller für Speicher-Array 102A und Speicher-Array 102B sein. In einigen Implementierungen können die Speicher-Array-Controller 110C und 110D (auch als „Speicherverarbeitungsmodule“ bezeichnet) weder den primären noch den sekundären Status aufweisen. Die Speicher-Array-Controller 110C und 110D, die als Speicherverarbeitungsmodule implementiert sind, können als eine Kommunikationsschnittstelle zwischen den primären und sekundären Controllern (z. B. Speicher-Array-Controller 110A bzw. 110B) und dem Speicher-Array 102B fungieren. Beispielsweise kann der Speicher-Array-Controller 110A des Speicher-Arrays 102A eine Schreibanforderung über SAN 158 an das Speicher-Array 102B senden. Die Schreibanforderung kann von beiden Speicher-Array-Controllern 110C und 110D des Speicher-Arrays 102B empfangen werden. Die Speicher-Array-Controller 110C und 110D erleichtern die Kommunikation, z.B. senden sie die Schreibanforderung an das entsprechende Speicherlaufwerk 171A-F. Es ist zu beachten, dass in einigen Implementierungen Speicherverarbeitungsmodule verwendet werden können, um die Anzahl der von den primären und sekundären Controllern gesteuerten Speicherlaufwerke zu erhöhen.
In Implementierungen sind Speicher-Array-Controller 110A-D über eine Midplane (nicht abgebildet) kommunikativ mit einem oder mehreren Speicherlaufwerken 171A-F und mit einer oder mehreren NVRAM-Vorrichtungen (nicht abgebildet) gekoppelt, die als Teil eines Speicher-Arrays 102A-B enthalten sind. Die Speicher-Array-Controller 110A-D können über eine oder mehrere Datenkommunikationsverbindungen mit der Midplane gekoppelt werden, und die Midplane kann über eine oder mehrere Datenkommunikationsverbindungen mit den Speicherlaufwerken 171A-F und den NVRAM-Vorrichtungen gekoppelt werden. Die hier beschriebenen Datenkommunikationsverbindungen werden gemeinsam durch die Datenkommunikationsverbindungen 108A-D dargestellt und können z.B. einen Peripheral Component Interconnect Express (‚PCle‘) - Bus enthalten.
1B veranschaulicht ein Beispielsystem für die Datenspeicherung, in Übereinstimmung mit einigen Implementierungen. Der in 1B dargestellte Speicher-Array-Controller 101 kann den in Bezug auf 1A beschriebenen Speicher-Array-Controllern 110A-D ähneln. In einem Beispiel kann der Speicher-Array-Controller 101 dem Speicher-Array-Controller 110A oder dem Speicher-Array-Controller 110B ähnlich sein. Der Speicher-Array-Controller 101 enthält zahlreiche Elemente, die der Veranschaulichung und nicht der Einschränkung dienen. Es sei darauf hingewiesen, dass der Speicher-Array-Controller 101 die gleichen, mehr oder weniger Elemente enthalten kann, die in anderen Implementierungen auf die gleiche oder eine andere Weise konfiguriert sind. Zur Veranschaulichung der Merkmale des Speicher-Array-Controllers 101 können im Folgenden Elemente aus 1A eingeschlossen werden.
Der Speicher-Array-Controller 101 kann ein oder mehrere Verarbeitungsvorrichtungen 104 und einen Direktzugriffsspeicher (‚RAM‘) 111 enthalten. Die Verarbeitungsvorrichtung 104 (oder der Controller 101) repräsentiert eine oder mehrere Mehrzweck-Verarbeitungsvorrichtungen, wie z.B. einen Mikroprozessor, eine Zentraleinheit oder ähnliches. Insbesondere kann die Verarbeitungsvorrichtung 104 (oder der Controller 101) ein Complex Instruction Set Computing („CISC“) Mikroprozessor, ein Reduced Instruction Set Computing („RISC“) Mikroprozessor, ein Very Long Instruction Word („VLIW“) Mikroprozessor oder ein Prozessor sein, der andere Befehlssätze implementiert, oder ein Prozessor, der eine Kombination von Befehlssätzen implementiert. Bei der Verarbeitungsvorrichtung 104 (oder dem Controller 101) kann es sich auch um eine oder mehrere Verarbeitungsvorrichtungen für spezielle Zwecke handeln, wie z.B. Application Specific Integrated Circuit („ASIC“), Field Programmable Gate Array („FPGA“), Digital Signal Processor („DSP“), Netzwerkprozessor oder ähnliches.
Die Verarbeitungsvorrichtung 104 kann über eine Datenkommunikationsverbindung 106 an den RAM 111 angeschlossen werden, die als Hochgeschwindigkeits-Speicherbus, wie z.B. ein Double-Data-Rate-4-Bus („DDR4“), ausgeführt sein kann. Im RAM 111 ist ein Betriebssystem 112 gespeichert. In einigen Implementierungen werden Befehle 113 im RAM 111 gespeichert. Die Befehle 113 können Computerprogrammbefehle für die Durchführung von Operationen in einem Direct-Mapped-Flash-Speichersystem enthalten. In einer Ausführungsform ist ein Direct-Mapped-Flash-Speichersystem ein System, das Datenblöcke innerhalb von Flash-Laufwerken direkt und ohne Adressübersetzung durch die Speichersteuerung der Flash-Laufwerke adressiert.
In Implementierungen enthält der Speicher-Array-Controller 101 einen oder mehrere Host-Bus-Adapter 103A-C, die über eine Datenkommunikationsverbindung 105A-C an die Verarbeitungsvorrichtung 104 gekoppelt sind. In Implementierungen kann es sich bei den Host-Bus-Adaptern 103A-C um Computerhardware handeln, die ein Host-System (z.B. den Speicher-Array-Controller) mit anderen Netzwerk- und Speicher-Arrays verbindet. In einigen Beispielen kann es sich bei den Host-Bus-Adaptern 103A-C um einen Fibre-Channel-Adapter handeln, der die Verbindung des Speicher-Array-Controller 101 mit einem SAN ermöglicht, um einen Ethernet-Adapter, der die Verbindung des Speicher-Array-Controller 101 mit einem LAN ermöglicht, oder um einen ähnlichen Adapter. Host-Bus-Adapter 103A-C können über eine Datenkommunikationsverbindung 105A-C, wie z.B. einen PCIe-Bus, an die Verarbeitungsvorrichtung 104 gekoppelt werden.
In Implementierungen kann der Speicher-Array-Controller 101 einen Host-Bus-Adapter 114 einschließen, der mit einem Expander 115 gekoppelt ist. Der Expander 115 kann verwendet werden, um ein Host-System an eine größere Anzahl von Speicherlaufwerken anzuschließen. Der Expander 115 kann beispielsweise ein SAS-Expander sein, der verwendet wird, damit der Host-Bus-Adapter 114 an Speicherlaufwerke in einer Implementierung angeschlossen werden kann, in welcher der Host-Bus-Adapter 114 als SAS-Controller ausgeführt ist.
In Implementierungen kann der Speicher-Array-Controller 101 einen Switch 116 einschließen, der über eine Datenkommunikationsverbindung 109 mit der Verarbeitungsvorrichtung104 gekoppelt ist. Der Switch 116 kann eine Computer-Hardware-Vorrichtung sein, die mehrere Endpunkte von einem einzigen Endpunkt aus erstellen kann, wodurch mehrere Vorrichtungen einen einzigen Endpunkt gemeinsam nutzen können. Der Switch 116 kann z.B. ein PCIe-Switch sein, der an einen PCIe-Bus (z.B. Datenkommunikationsverbindung 109) gekoppelt ist und mehrere PCIe-Verbindungspunkte zur Midplane darstellt.
In Implementierungen enthält der Speicher-Array-Controller 101 eine Datenkommunikationsverbindung 107 zur Kopplung des Speicher-Array-Controllers 101 mit anderen Speicher-Array-Controllern. In einigen Beispielen kann die Datenkommunikationsverbindung 107 eine QuickPath Interconnect (QPI) - Verbindung sein.
Ein herkömmliches Speichersystem, welches herkömmliche Flash-Laufwerke verwendet, kann einen Prozess über die Flash-Laufwerke hinweg implementieren, die Teil des herkömmlichen Speichersystems sind. Beispielsweise kann ein Prozess auf höherer Ebene des Speichersystems einen Prozess über die Flash-Laufwerke hinweg initiieren und steuern. Ein Flash-Laufwerk des herkömmlichen Speichersystems kann jedoch einen eigenen Speicher-Controller enthalten, der den Prozess ebenfalls durchführt. So kann beim herkömmlichen Speichersystem sowohl ein Prozess auf höherer Ebene (z.B. initiiert durch das Speichersystem) als auch ein Prozess auf niedrigerer Ebene (z.B. initiiert durch einen Speicher-Controller des Speichersystems) ausgeführt werden.
Um verschiedene Unzulänglichkeiten eines herkömmlichen Speichersystems zu beheben, können Operationen von Prozessen auf höherer Ebene und nicht von den Prozessen auf niedrigerer Ebene durchgeführt werden. Beispielsweise kann das Flash-Speichersystem Flash-Laufwerke einschließen, die keine Speicher-Controller enthalten, die den Prozess bereitstellen. Daher kann das Betriebssystem des Flash-Speichersystems selbst den Prozess initiieren und steuern. Dies kann durch ein direkt abgebildetes Flash-Speichersystem erreicht werden, das Datenblöcke innerhalb der Flash-Laufwerke direkt und ohne eine Adressübersetzung durch die Speicher-Controller der Flash-Laufwerke adressiert.
Das Betriebssystem des Flash-Speichersystems kann eine Liste von Zuordnungseinheiten über mehrere Flash-Laufwerke des Flash-Speichersystems ermitteln und halten. Bei den Zuordnungseinheiten kann es sich um ganze Löschblöcke oder um mehrere Löschblöcke handeln. Das Betriebssystem kann eine Karte oder einen Adressbereich enthalten, der Adressen direkt den Löschblöcken der Flash-Laufwerke des Flash-Speichersystems zuordnet.
Ein direktes Abbilden auf die Löschblöcke der Flash-Laufwerke kann verwendet werden, um Daten neu zu schreiben und Daten zu löschen. Die Operationen können zum Beispiel auf einer oder mehreren Zuordnungseinheiten durchgeführt werden, die erste Daten und zweite Daten enthalten, wobei die ersten Daten gespeichert werden sollen und die zweiten Daten nicht mehr vom Flash-Speichersystem verwendet werden. Das Betriebssystem kann den Prozess einleiten, um die ersten Daten an neue Authorities innerhalb anderer Zuordnungseinheiten zu schreiben und die zweiten Daten zu löschen und die Zuordnungseinheiten als für die Verwendung für nachfolgende Daten verfügbar zu kennzeichnen. Somit kann der Prozess nur vom übergeordneten Betriebssystem des Flash-Speichersystems durchgeführt werden, ohne dass ein zusätzlicher untergeordneter Prozess von Controllern der Flash-Laufwerke durchgeführt wird.
Zu den Vorteilen des Prozesses, der nur vom Betriebssystem des Flash-Speichersystems durchgeführt wird, gehört eine erhöhte Zuverlässigkeit der Flash-Laufwerke des Flash-Speichersystems, da während des Prozesses keine unnötigen oder redundanten Schreibvorgänge durchgeführt werden. Ein möglicher Neuheitspunkt ist hier das Konzept der Initiierung und Steuerung des Prozesses am Betriebssystem des Flash-Speichersystems. Darüber hinaus kann der Prozess über mehrere Flash-Laufwerke hinweg vom Betriebssystem gesteuert werden. Dies steht im Gegensatz zu dem Prozess, der von einem Speicher-Controller eines Flash-Laufwerks durchgeführt wird.
Ein Speichersystem kann aus zwei Speicher-Array-Controllern bestehen, die sich einen Satz von Laufwerken für Failover-Zwecke teilen, oder es kann aus einem einzelnen Speicher-Array-Controller bestehen, der einen Storage-Dienst bereitstellt, der mehrere Laufwerke verwendet, oder es kann aus einem verteilten Netzwerk von Speicher-Array-Controllern bestehen, von denen jeder eine bestimmte Anzahl von Laufwerken oder eine bestimmte Menge an Flash-Speicher besitzt, wobei die Speicher-Array-Controller im Netzwerk zusammenarbeiten, um einen vollständigen Storage-Dienst bereitzustellen und bei verschiedenen Aspekten eines Storage-Dienstes einschließlich der Speicherzuweisung und der Garbage Collection zusammenzuarbeiten.
1C veranschaulicht ein drittes Beispielsystem 117 zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen. Das System 117 (hier auch als „Speichersystem“ bezeichnet) enthält zahlreiche Elemente, die der Veranschaulichung und nicht der Einschränkung dienen. Es sei angemerkt, dass das System 117 die gleichen, mehr oder weniger Elemente enthalten kann, die in anderen Implementierungen auf die gleiche oder eine andere Weise konfiguriert sind.
In einer Ausführung enthält das System 117 eine duale Peripheral Component Interconnect („PCI“) Flash-Speichervorrichtung 118 mit separat adressierbarem Schnellschreibspeicher. Das System 117 kann einen Speicher-Controller 119 einschließen. In einer Ausführungsform kann der Speicher-Controller 119A-D eine CPU, eine ASIC, ein FPGA oder eine andere Schaltungsanordnung sein, die die gemäß der vorliegenden Offenbarung erforderlichen Steuerungsstrukturen implementiert. In einer Ausführungsform schließt das System 117 Flash-Speichervorrichtungen (z.B. einschließlich Flash-Speichervorrichtungen 120a-n) ein, die operativ mit verschiedenen Kanälen des Speicher-Controllers 119 gekoppelt sind. Flash-Speichervorrichtungen 120a-n können dem Controller 119A-D als eine adressierbare Sammlung von Flash-Seiten, Löschblöcken und/oder Steuerelementen präsentiert werden, die ausreichen, um dem Speicher-Controller 119A-D die Programmierung und den Abruf verschiedener Aspekte der Flash-Speichervorrichtung zu ermöglichen. In einer Ausführungsform kann der Speicher-Controller 119A-D Operationen auf Flash-Speichervorrichtungen 120a-n durchführen, einschließlich des Speicherns und Abrufens von Dateninhalten von Seiten, des Anordnens und Löschens von Blöcken, des Verfolgens von Statistiken bezüglich der Verwendung und Wiederverwendung von Flash-Speicherseiten, Löschblöcken und -zellen, des Verfolgens und Vorhersagens von Fehlercodes und Fehlern innerhalb des Flash-Speichers, der Steuerung von Spannungspegeln, die mit der Programmierung und dem Abrufen von Inhalten von Flash-Zellen verbunden sind, usw.
In einer Ausführungsform kann das System 117 einen RAM 121 enthalten, um separat adressierbare Schnellschreibdaten zu speichern. In einer Ausführungsform kann der RAM 121 aus einem oder mehreren separaten diskreten Bausteinen bestehen. In einer anderen Ausführungsform kann der RAM 121 in den Speicher-Controller 119A-D oder in mehrere Speicher-Controller integriert sein. Der RAM 121 kann auch für andere Zwecke verwendet werden, z.B. als temporärer Programmspeicher für eine Verarbeitungsvorrichtung (z.B. eine CPU) im Speicher-Controller 119.
In einer Ausführungsform kann das System 117 ein Energiespeichergerät 122 enthalten, z.B. eine wieder aufladbare Batterie oder einen Kondensator. Das Energiespeichergerät 122 kann Energie speichern, die ausreicht, um den Speicher-Controller 119, einen Teil des RAM-Speichers (z.B. RAM 121) und einen Teil des Flash-Speichers (z.B. Flash-Speicher 120a-120n) ausreichend lange zu versorgen, um den Inhalt des RAM-Speichers in den Flash-Speicher zu schreiben. In einer Ausführungsform kann der Speicher-Controller 119A-D den Inhalt des RAM in den Flash-Speicher schreiben, wenn der Speicher-Controller einen Verlust der externen Stromversorgung feststellt.
In einer Ausführungsform umfasst das System 117 zwei Datenkommunikationsverbindungen 123a, 123b. In einer Ausführungsform können die Datenkommunikationsverbindungen 123a, 123b PCI-Schnittstellen sein. In einer anderen Ausführungsform können die Datenkommunikationsverbindungen 123a, 123b auf anderen Kommunikationsstandards basieren (z.B. HyperTransport, InfiniBand usw.). Datenkommunikationsverbindungen 123a, 123b können auf nichtflüchtigen Speicher-Express („NVMe“) - Spezifikationen oder NVMe over Fabrics („NVMf“) - Spezifikationen basieren, die eine externe Verbindung mit dem Speicher-Controller 119A-D von anderen Komponenten im Speichersystem 117 ermöglichen. Es ist zu beachten, dass Datenkommunikationsverbindungen hier der Einfachheit halber austauschbar als PCI-Busse bezeichnet werden können.
Das System 117 kann auch eine externe Stromquelle (nicht abgebildet) enthalten, die über eine oder beide Datenkommunikationsverbindungen 123a, 123b oder auch separat bereitgestellt werden kann. Eine alternative Ausführungsform umfasst einen separaten Flash-Speicher (nicht abgebildet), der für Speichern des Inhalts von dem RAM 121 bestimmt ist. Der Speicher-Controller 119A-D kann über einen PCI-Bus eine logische Vorrichtung darstellen, die einen adressierbaren logischen Schnellschreibbaustein oder einen bestimmten Teil des logischen Adressraums des Speicherbausteins 118 enthalten kann, der als PCI-Speicher oder als persistenter Speicher dargestellt werden kann. In einer Ausführungsform werden die in das Gerät zu speichernden Operationen in den RAM 121 geleitet. Bei einem Stromausfall kann der Speicher-Controller 119A-D gespeicherte Inhalte, die mit dem adressierbaren logischen Schnellschreibspeicher assoziiert sind, in den Flash-Speicher (z.B. Flash-Speicher 120a-n) für eine langfristige persistente Speicherung schreiben.
In einer Ausführungsform kann die logische Vorrichtung eine Darstellung eines Teils oder des gesamten Inhalts der Flash-Speichervorrichtungen 120a-n enthalten, wobei diese Darstellung es einem Speichersystem mit einer Speichervorrichtung 118 (z.B. Speichersystem 117) ermöglicht, Flash-Speicherseiten direkt anzusprechen und Löschblöcke von Speichersystemkomponenten, die sich außerhalb des Speicherbausteins befinden, über den PCI-Bus direkt umzuprogrammieren. Die Darstellung kann es auch einer oder mehreren der externen Komponenten ermöglichen, andere Aspekte des Flash-Speichers zu steuern und abzurufen, darunter einige oder alle der folgenden: Verfolgen von Statistiken in Bezug auf die Nutzung und Wiederverwendung von Flash-Speicherseiten, Löschblöcken und Zellen über alle Flash-Speichervorrichtungen hinweg; Verfolgen und Vorhersagen von Fehlercodes und Fehlern innerhalb der Flash-Speichervorrichtungen und über die Flash-Speichervorrichtungen hinweg; Steuern der Spannungspegel in Verbindung mit der Programmierung und dem Abrufen der Inhalte von Flash-Zellen; usw.
In einer Ausführungsform kann das Energiespeichergerät 122 ausreichen, um den Abschluss von laufenden Operationen an den Flash-Speichervorrichtungen 120a-120n sicherzustellen, und das Energiespeichergerät 122 kann den Speicher-Controller 119A-D und zugehörige Flash-Speichervorrichtungen (z.B. 120a-n) für diese Operationen sowie für Speichern von schnell schreibendem RAM in Flash-Speicher antreiben. Das Energiespeichergerät 122 kann zum Speichern akkumulierter Statistiken und anderer Parameter verwendet werden, die von den Flash-Speichervorrichtungen 120a-n und/oder dem Speicher-Controller 119 gespeichert und verfolgt werden. Für einige oder alle der hier beschriebenen Vorgänge können separate Kondensatoren oder Speichervorrichtungen (z.B. kleinere Kondensatoren in der Nähe der Flash-Speichervorrichtungen oder die in diese eingebettet sind) verwendet werden.
Verschiedene Schemata können verwendet werden, um die Lebensdauer der gespeicherten Energiekomponente zu verfolgen und zu optimieren, wie z.B. die Anpassung der Spannungspegel im Laufe der Zeit, die Teilentladung des Energiespeichers 122 zur Messung der entsprechenden Entladungseigenschaften usw. Wenn die verfügbare Energie mit der Zeit abnimmt, kann die effektiv verfügbare Kapazität des adressierbaren Schnellschreibspeichers verringert werden, um sicherzustellen, dass er auf der Grundlage der aktuell verfügbaren gespeicherten Energie sicher beschrieben werden kann.
1D veranschaulicht ein drittes Beispielsystem 124 zur Datenspeicherung in Übereinstimmung mit einigen Implementierungen. In einer Ausführungsform umfasst das System 124 die Speicher-Controller 125a, 125b. In einer Ausführungsform sind die Speicher-Controller 125a, 125b operativ mit Dual-PCI-Speichergeräten 119a, 119b bzw. 119c, 119d gekoppelt. Die Speicher-Controller 125a, 125b können operativ (z.B. über ein Speichernetzwerk 130) mit einer bestimmten Anzahl von Host-Computern 127a-n gekoppelt sein.
In einer Ausführungsform stellen zwei Speicher-Controller (z. B. 125a und 125b) Storage-Dienste zur Verfügung, z. B. ein SCS-Blockspeicher-Array, einen Dateiserver, einen Objektserver, eine Datenbank oder einen Datenanalysedienst usw. Die Speicher-Controller 125a, 125b können über eine bestimmte Anzahl von Netzwerkschnittstellen (z.B. 126a-d) Dienste für Host-Computer 127a-n außerhalb des Speichersystems 124 bereitstellen. Die Speicher-Controller 125a, 125b können integrierte Dienste oder eine Anwendung vollständig innerhalb des Speichersystems 124 bereitstellen und so ein konvergiertes Speicher- und Rechnersystem bilden. Die Speicher-Controller 125a, 125b können den Schnellschreibspeicher innerhalb oder über Speichergeräte119a-d hinweg nutzen, um laufende Operationen zu protokollieren, um sicherzustellen, dass die Operationen bei Stromausfall, Entfernen des Speicher-Controllers, Herunterfahren des Speicher-Controllers oder des Speichersystems oder bei einem Fehler einer oder mehrerer Software- oder Hardwarekomponenten innerhalb des Speichersystems 124 nicht verloren gehen.
In einer Ausführungsform arbeiten die Controller 125a, 125b als PCI-Master für die einen oder anderen PCI-Busse 128a, 128b. In einer anderen Ausführungsform können die PCI-Busse 128a und 128b auf anderen Kommunikationsstandards basieren (z.B. HyperTransport, InfiniBand usw.). Andere Speichersystemausführungen können Speicher-Controller 125a, 125b als Multi-Master für beide PCI-Busse 128a, 128b betreiben. Alternativ kann eine PCI/NVMe/NVMf-Switching-Infrastruktur oder -Fabric mehrere Speicher-Controller verbinden. Einige Speichersystemausführungen ermöglichen es Speichergeräten, direkt miteinander zu kommunizieren, anstatt nur mit Speicher-Controllern zu kommunizieren. In einer Ausführungsform kann ein Speicher-Controller 119a unter der Leitung eines Speicher-Controllers 125a betrieben werden, um Daten, die in Flash-Speichergeräten gespeichert werden sollen, aus Daten, die im RAM gespeichert wurden (z.B. RAM 121 in 1C), zu synthetisieren und zu übertragen. So kann z.B. eine neu berechnete Version des RAM-Inhalts übertragen werden, nachdem ein Speicher-Controller festgestellt hat, dass eine Operation im gesamten Speichersystem vollständig festgelegt wurde, oder wenn der Schnellschreibspeicher auf der Vorrichtung eine bestimmte benutzte Kapazität erreicht hat, oder nach einer bestimmten Zeit, um die Sicherheit der Daten zu verbessern oder um adressierbare Schnellschreibkapazität zur Wiederverwendung freizugeben. Dieser Mechanismus kann z.B. verwendet werden, um eine zweite Übertragung über einen Bus (z.B. 128a, 128b) von den Speicher-Controllern 125a, 125b zu vermeiden. In einer Ausführungsform kann ein Neuberechnen das Komprimieren von Daten, das Anhängen von Indexierungs- oder anderen Metadaten, das Kombinieren mehrerer Datensegmente miteinander, das Durchführen von Löschcode-Berechnungen usw. umfassen.
In einer Ausführungsform kann ein Speicher-Controller 119a, 119b unter der Leitung eines Speicher-Controllers 125a, 125b betriebsbereit sein, um Daten, von im RAM (z.B. RAM 121 in 1C) gespeicherten Daten, zu berechnen und zu anderen Vorrichtungen zu übertragen, ohne Beteiligung der Speicher-Controller 125a, 125b. Diese Operation kann verwendet werden, um Daten, die in einem Controller 125a gespeichert sind, auf einen anderen Controller 125b zu spiegeln, oder sie kann verwendet werden, um Komprimierungs-, Datenaggregations- und/oder Löschkodierungsberechnungen und - Übertragungen auf Speichergeräte auszulagern, um die Belastung der Speicher-Controller oder der Speicher-Controller-Schnittstelle 129a, 129b auf den PCI-Bus 128a, 128b zu reduzieren.
Ein Speicher-Controller 119A-D kann Mechanismen zum Implementieren von Hochverfügbarkeitsprimitiven zur Verwendung durch andere Teile eines Speichersystems außerhalb des Dual-PCI-Speichergeräts 118 enthalten. Beispielsweise können Reservierungs- oder Ausschlussprimitive bereitgestellt werden, so dass in einem Speichersystem mit zwei Speicher-Controllern, die einen hochverfügbaren Storage-Dienst bereitstellen, ein Speicher-Controller den Zugriff des anderen Speicher-Controllers auf das Speichergerät oder den weiteren Zugriff darauf verhindern kann. Dies könnte z.B. in Fällen verwendet werden, in denen ein Controller feststellt, dass der andere Controller nicht richtig funktioniert, oder wenn die Verbindung zwischen den beiden Speicher-Controllern selbst nicht richtig funktioniert.
In einer Ausführungsform umfasst ein Speichersystem zur Verwendung mit Dual PCI Direct Mapped Storage-Geräten mit separat adressierbarem Schnellschreibspeicher, Systeme, die Löschblöcke oder Gruppen von Löschblöcken als Zuordnungseinheiten zum Speichern von Daten im Auftrag des Storage-Dienstes oder zum Speichern von Metadaten (z. B. Indizes, Protokolle usw.) verwalten, die mit dem Storage-Dienst assoziiert sind, oder zum ordnungsgemäßen Verwalten des Speichersystems selbst. Flash-Seiten, die einige Kilobyte groß sein können, können geschrieben werden, wenn Daten ankommen oder wenn das Speichersystem Daten für lange Zeitintervalle (z.B. oberhalb eines definierten Zeitschwellenwertes) halten soll. Um Daten schneller zu übertragen oder um die Anzahl der Schreibvorgänge auf die Flash-Speichergeräte zu reduzieren, können die Speicher-Controller zunächst Daten in den separat adressierbaren Schnellschreibspeicher auf einem weiteren Speichergerät schreiben.
In einer Ausführungsform können die Speicher-Controller 125a, 125b die Verwendung von Löschblöcken innerhalb und zwischen Speichergeräten (z.B. 118) in Übereinstimmung mit einem Alter und der erwarteten Restlebensdauer der Speichergeräte oder auf der Grundlage anderer Statistiken initiieren. Die Speicher-Controller 125a, 125b können in Übereinstimmung mit nicht mehr benötigten Seiten die Garbage Collection und Datenmigrationsdaten zwischen Speichergeräten initiieren, um die Lebensdauer von Flash-Seiten und Löschblöcken und die gesamte Systemleistung zu verwalten.
In einer Ausführungsform kann das Speichersystem 124 Spiegelungs- und/oder Löschkodierungsschemata als Teil der Speicherung von Daten in einem adressierbaren Schnellschreibspeicher und/oder als Teil des Schreibens von Daten in Zuordnungseinheiten, die mit Löschblöcken verbunden sind, verwenden. Löschcodes können sowohl über Speichergeräte hinweg als auch innerhalb von Löschblöcken oder Zuordnungseinheiten oder innerhalb und zwischen Flash-Speichergeräten auf einem einzelnen Speichergerät verwendet werden, um Redundanz gegen Ausfälle einzelner oder mehrerer Speichergeräte zu gewährleisten oder um vor internen Beschädigungen von Flash-Speicherseiten zu schützen, die aus Flash-Speicheroperationen oder aus der Degradierung von Flash-Speicherzellen resultieren. Die Spiegel- und Löschcodierung auf verschiedenen Ebenen kann verwendet werden, um mehrere Arten von Ausfällen, die einzeln oder in Kombination auftreten, zu beheben.
Die mit Bezug auf die 2A-G dargestellten Ausführungsformen veranschaulichen einen Storage-Cluster, der Benutzerdaten speichert, z. B. Benutzerdaten, die von einem oder mehreren Benutzer- oder Client-Systemen oder anderen Quellen außerhalb des Storage-Clusters stammen. Der Storage-Cluster verteilt Benutzerdaten auf Speicherknoten, die innerhalb eines Chassis oder auf mehrere Chassis untergebracht sind, wobei eine Löschcodierung und redundante Kopien von Metadaten verwendet werden. Die Löschcodierung bezieht sich auf ein Verfahren zur Datensicherung oder -wiederherstellung, bei dem Daten über eine Reihe verschiedener Standorte, wie z. B. Platten, Speicherknoten oder geografische Standorte, gespeichert werden. Ein Flash-Speicher ist ein Typ von Festkörperspeicher, der in die Ausführungsformen integriert werden kann, obwohl die Ausführungsformen auch auf andere Typen von Festkörperspeichern oder andere Speichermedien, einschließlich Nicht-Festkörperspeicher, erweitert werden können. In einem geclusterten Peer-to-Peer-System werden die Steuerung über Speicherorte und Arbeitslasten auf die Speicherorte verteilt. Aufgaben wie das Vermitteln der Kommunikation zwischen den verschiedenen Speicherknoten, das Erkennen der Nichtverfügbarkeit eines Speicherknotens und das Ausgleichen der E/As (Ein- und Ausgänge) über die verschiedenen Speicherknoten werden alle auf verteilter Basis abgewickelt. Daten werden über mehrere Speicherknoten in Datenfragmenten oder-Stripes angeordnet oder verteilt, die in einigen Ausführungsformen die Datenwiederherstellung unterstützen. Der Besitz von Daten kann innerhalb eines Clusters unabhängig von Ein- und Ausgabemustern neu zugewiesen werden. Diese im Folgenden näher beschriebene Architektur ermöglicht den Ausfall eines Speicherknotens im Cluster, wobei das System betriebsbereit bleibt, da die Daten von anderen Speicherknoten rekonstruiert werden können und somit für Eingabe- und Ausgabeoperationen verfügbar bleiben. In verschiedenen Ausführungsformen kann ein Speicherknoten als ein Clusterknoten, ein Blade oder ein Server bezeichnet werden.
Der Storage-Cluster kann sich in einem Chassis befinden, d. h. in einem Gehäuse, das einen oder mehrere Speicherknoten enthält. Ein Mechanismus zur Stromversorgung jedes Speicherknotens, wie z. B. ein Stromverteilungsbus, und ein Kommunikationsmechanismus, wie z. B. ein Kommunikationsbus, der die Kommunikation zwischen den Speicherknoten ermöglicht, sind im Chassis enthalten. Der Storage-Cluster kann gemäß einigen Ausführungsformen als unabhängiges System an einem Ort laufen. In einer Ausführungsform enthält ein Chassis mindestens zwei Instanzen sowohl der Stromverteilung als auch des Kommunikationsbusses, die unabhängig voneinander aktiviert oder deaktiviert werden können. Der interne Kommunikationsbus kann ein Ethernet-Bus sein, jedoch sind andere Technologien wie PCle, InfiniBand und andere gleichermaßen geeignet. Das Gehäuse bietet einen Anschluss für einen externen Kommunikationsbus, um die Kommunikation zwischen mehreren Gehäusen, direkt oder über einen Switch, und mit Clientsystemen zu ermöglichen. Für die externe Kommunikation kann eine Technologie wie Ethernet, InfiniBand, Fibre Channel usw. verwendet werden. In einigen Ausführungsformen verwendet der externe Kommunikationsbus unterschiedliche Kommunikationsbustechnologien für die Kommunikation zwischen Chassis und Client-Systemen. Wenn ein Switch innerhalb oder zwischen dem Chassis eingesetzt wird, kann der Switch als Übersetzung zwischen mehreren Protokollen oder Technologien fungieren. Wenn mehrere Chassis miteinander verbunden sind, um einen Storage-Cluster zu definieren, kann ein Client über proprietäre Schnittstellen oder Standardschnittstellen wie Netzwerk-Dateisystem („NFS“), Common Internet File System („CIFS“), Small Computer System Interface („SCSI“) oder Hypertext Transfer Protocol („HTTP“) auf den Storage-Cluster zugreifen. Die Übersetzung vom Client-Protokoll kann am Switch, am externen Kommunikationsbus des Chassis oder innerhalb jedes Speicherknotens erfolgen. In einigen Ausführungsformen können mehrere Chassis gekoppelt oder über einen Aggregator-Switch miteinander verbunden sein. Ein Teil und/oder das gesamte gekoppelte oder verbundene Chassis kann als Storage-Cluster bezeichnet werden. Wie oben erläutert, kann jedes Chassis mehrere Blades aufweisen, jedes Blade verfügt über eine MAC-Adresse (Media Access Control), aber der Storage-Cluster wird einem externen Netzwerk so präsentiert, als hätte er in einigen Ausführungsformen eine einzige Cluster-IP-Adresse und eine einzige MAC-Adresse.
Jeder Speicherknoten kann ein oder mehrere Speicherserver sein, und jeder Speicherserver ist mit einer oder mehreren nichtflüchtigen Festkörperspeichereinheiten verbunden, die als Speichereinheiten oder Speichergeräte bezeichnet werden können. Eine Ausführungsform umfasst einen einzelnen Speicherserver in jedem Speicherknoten und zwischen ein bis acht nichtflüchtige Festkörperspeichereinheiten, wobei dieses eine Beispiel jedoch nicht einschränkend sein soll. Der Speicherserver kann einen Prozessor, DRAM und Schnittstellen für den internen Kommunikationsbus und die Stromverteilung für jeden der Energiebusse enthalten. Innerhalb des Speicherknotens teilen sich die Schnittstellen und die Speichereinheit einen Kommunikationsbus, z.B. PCI Express, in einigen Ausführungsformen. Die nichtflüchtigen Festkörperspeichereinheiten können über einen Kommunikationsbus des Speicherknotens direkt auf die interne Kommunikationsbusschnittstelle zugreifen oder den Speicherknoten auffordern, auf die Busschnittstelle zuzugreifen. Die nichtflüchtige Festkörper-Speichereinheit enthält eine eingebettete CPU, einen Festkörper-Speicher-Controller und eine Anzahl von Festkörper-Massenspeichern, z.B. zwischen 2-32 Terabyte („TB“) in einigen Ausführungsformen. Ein eingebettetes flüchtiges Speichermedium, wie z.B. DRAM, und eine Energiereservevorrichtung sind in der nichtflüchtigen Festkörperspeichereinheit enthalten. In einigen Ausführungsformen ist die Energiereservevorrichtung ein Kondensator, Superkondensator oder eine Batterie, die es ermöglicht, eine Teilmenge des DRAM-Inhalts im Falle eines Stromausfalls auf ein stabiles Speichermedium zu übertragen. In einigen Ausführungsformen ist die nichtflüchtige Festkörperspeichereinheit mit einem Speicher der Speicherklasse aufgebaut, wie z. B. einem Phase Change oder Magnetoresistive Random Access Memory („MRAM“), welcher einen DRAM ersetzt und eine Verzögerungsvorrichtung mit reduzierter Leistung ermöglicht.
Eines von vielen Merkmalen der Speicherknoten und des nichtflüchtigen Festkörperspeichers ist die Fähigkeit, Daten in einem Storage-Cluster proaktiv wiederherzustellen. Die Speicherknoten und der nichtflüchtige Festkörperspeicher können bestimmen, wann ein Speicherknoten oder ein nichtflüchtiger Festkörperspeicher im Storage-Cluster nicht erreichbar ist, unabhängig davon, ob ein Versuch zum Lesen von Daten unter Einbeziehung dieses Speicherknotens oder des nichtflüchtigen Festkörperspeichers erfolgt. Die Speicherknoten und der nichtflüchtige Festkörperspeicher arbeiten dann zusammen, um die Daten an zumindest teilweise neuen Orten wiederherzustellen und zu rekonstruieren. Dies stellt insofern eine proaktive Wiederherstellung dar, als das System die Daten wiederherstellt, ohne zu warten, bis die Daten für einen Lesezugriff benötigt werden, der von einem Client-System aus eingeleitet wird, das den Storage-Cluster verwendet. Diese und weitere Einzelheiten zum Speicher und dessen Betrieb werden im Folgenden erörtert.
2A ist eine perspektivische Ansicht eines Storage-Clusters 161 mit mehreren Speicherknoten 150 und internem Festkörperspeicher, der an jeden Speicherknoten gekoppelt ist, um gemäß einigen Ausführungsformen Network Attached Storage oder Storage Area Network bereitzustellen. Ein netzwerkgebundener Speicher, ein Speicherbereichsnetzwerk oder ein Storage-Cluster oder ein anderer Speicher könnte einen oder mehrere Storage-Cluster 161 mit jeweils einem oder mehreren Speicherknoten 150 in einer flexiblen und rekonfigurierbaren Anordnung sowohl der physischen Komponenten als auch der Menge des dadurch bereitgestellten Speicherplatzes enthalten. Der Storage-Cluster 161 ist so konzipiert, dass er in ein Rack passt, und ein oder mehrere Racks können je nach Wunsch für den Speicher eingerichtet und bestückt werden. Der Storage-Cluster 161 hat ein Gehäuse 138 mit mehreren Steckplätzen 142. Es ist zu beachten, dass das Chassis 138 als Gehäuse, Einschub oder Rack-Einheit bezeichnet werden kann. In einer Ausführung verfügt das Chassis 138 über vierzehn Steckplätze 142, obwohl andere Steckplatzanzahlen ohne weiteres möglich sind. Einige Ausführungsformen haben beispielsweise vier Steckplätze, acht Steckplätze, sechzehn Steckplätze, zweiunddreißig Steckplätze oder eine andere geeignete Anzahl von Steckplätzen. Jeder Steckplatz 142 kann in einigen Ausführungsformen einen Speicherknoten 150 aufnehmen. Das Chassis 138 enthält Flaps 148, die zur Montage des Chassis 138 in einem Rack verwendet werden können. Lüfter 144 sorgen für die Luftzirkulation zur Kühlung der Speicherknoten 150 und deren Komponenten, obwohl auch andere Kühlkomponenten verwendet werden könnten oder eine Ausführung ohne Kühlkomponenten entwickelt werden könnte. Eine Switch Fabric 146 verbindet die Speicherknoten 150 innerhalb des Chassis 138 miteinander und mit einem Netzwerk zur Kommunikation mit dem Speicher. In einer hier dargestellten Ausführungsform sind die Steckplätze 142 links von der Switch Fabric 146 und den Lüftern 144 mit Speicherknoten 150 belegt, während die Steckplätze 142 rechts von der Switch Fabric 146 und den Lüftern 144 leer sind und zur Veranschaulichung für das Einsetzen von Speicherknoten 150 zur Verfügung stehen. Diese Konfiguration ist ein Beispiel, und ein oder mehrere Speicherknoten 150 könnten die Steckplätze 142 in verschiedenen weiteren Anordnungen belegen. Die Speicherknotenanordnungen müssen in einigen Ausführungsformen nicht sequentiell oder benachbart sein. Die Speicherknoten 150 sind Hot-Plug-fähig, d. h. ein Speicherknoten 150 kann in einen Steckplatz 142 im Chassis 138 eingesetzt oder aus einem Steckplatz 142 entfernt werden, ohne das System anzuhalten oder auszuschalten. Beim Einsetzen oder Entfernen des Speicherknotens 150 aus dem Steckplatz 142 konfiguriert sich das System automatisch neu, um die Änderung zu erkennen und sich daran anzupassen. Die Rekonfiguration umfasst in einigen Ausführungsformen die Wiederherstellung der Redundanz und/oder den Neuausgleich von Daten oder Last.
Jeder Speicherknoten 150 kann mehrere Komponenten aufweisen. In der hier gezeigten Ausführungsform enthält der Speicherknoten 150 eine Leiterplatte 159, die mit einer CPU 156 bestückt ist, d.h. einen Prozessor, einen Speicher 154, der mit der CPU 156 gekoppelt ist, und einen nichtflüchtigen Festkörperspeicher 152, der mit der CPU 156 gekoppelt ist, obwohl andere Halterungen und/oder Komponenten in weiteren Ausführungsformen verwendet werden könnten. Der Speicher 154 verfügt über Befehle, die von der CPU 156 ausgeführt werden, und/oder Daten, die von der CPU 156 bearbeitet werden. Wie weiter unten näher erläutert wird, enthält der nichtflüchtige Festkörperspeicher 152 Flash-Speicher oder, in weiteren Ausführungsformen, andere Arten von Festkörperspeichern.
Wie in 2A dargestellt, ist der Storage-Cluster 161 skalierbar, was bedeutet, dass Speicherkapazität mit uneinheitlichen Speichergrößen leicht hinzugefügt werden kann, wie vorstehend beschrieben. Ein oder mehrere Speicherknoten 150 können in jedes Chassis eingesteckt oder aus jedem Chassis entfernt werden, und der Storage-Cluster konfiguriert sich in einigen Ausführungsformen selbst. Plug-in-Speicherknoten 150 können, unabhängig davon, ob sie in ein Chassis im Auslieferungszustand eingebaut oder später hinzugefügt werden, unterschiedliche Größen aufweisen. Beispielsweise kann ein Speicherknoten 150 in einer Ausführung ein beliebiges Vielfaches von 4 TB haben, z. B. 8 TB, 12 TB, 16 TB, 32 TB usw. In weiteren Ausführungsformen kann ein Speicherknoten 150 ein beliebiges Vielfaches anderer Speichermengen oder -kapazitäten haben. Die Speicherkapazität jedes Speicherknotens 150 wird übertragen und beeinflusst die Entscheidungen darüber, wie die Daten in Stripes gespeichert werden sollen. Um eine maximale Speichereffizienz zu erzielen, kann sich eine Ausführungsform so breit wie möglich im Stripe selbst konfigurieren, sofern eine vorgegebene Anforderung an den fortgesetzten Betrieb mit einem Verlust von bis zu einer oder bis zu zwei nichtflüchtigen Festkörperspeichereinheiten 152 oder Speicherknoten 150 innerhalb des Chassis erfüllt ist.
2B ist ein Blockdiagramm, das eine Kommunikationsverbindung 173 und einen Stromverteilungsbus 172 zeigt, die mehrere Speicherknoten 150 koppeln. Erneut Bezug nehmend auf 2A, kann die Kommunikationsverbindung 173 in einigen Ausführungsformen in der Switch Fabric 146 enthalten sein oder mit dieser implementiert werden. Wenn mehrere Storage-Cluster 161 ein Rack besetzen, kann die Kommunikationsverbindung 173 in einigen Ausführungsformen in einen Switch oben im Rack eingebaut oder mit diesem implementiert werden. Wie in 2B dargestellt, ist der Storage-Cluster 161 in einem einzigen Chassis 138 eingeschlossen. Ein externer Port 176 ist über die Kommunikationsverbindung 173 mit den Speicherknoten 150 verbunden, während ein externer Port 174 direkt mit einem Speicherknoten verbunden ist. Ein externer Stromversorgungsanschluss 178 ist mit dem Stromverteilungsbus 172 verbunden. Speicherknoten 150 können eine unterschiedliche Anzahl und unterschiedliche Kapazitäten des nichtflüchtigen Festkörperspeichers 152 enthalten, wie in 2A beschrieben. Darüber hinaus können ein oder mehrere Speicherknoten 150 ein reiner Rechenspeicherknoten sein, wie in 2B dargestellt. Authorities 168 sind auf den nichtflüchtigen Festkörperspeichern 152 implementiert, z.B. als Listen oder andere im Speicher gespeicherte Datenstrukturen. In einigen Ausführungsformen sind die Authorities innerhalb des nichtflüchtigen Festkörperspeichers 152 gespeichert und werden durch Software unterstützt, die auf einem Controller oder einem anderen Prozessor des nichtflüchtigen Festkörperspeichers 152 ausgeführt wird. In einer weiteren Ausführungsform sind die Authorities 168 auf den Speicherknoten 150 implementiert, beispielsweise als Listen oder andere Datenstrukturen, die im Speicher 154 gespeichert sind und durch Software unterstützt werden, die auf der CPU 156 des Speicherknotens 150 ausgeführt wird. Authorities 168 kontrollieren in einigen Ausführungsformen, wie und wo Daten in den nichtflüchtigen Festkörperspeichern 152 gespeichert werden. Diese Steuerung hilft bei der Bestimmung, welche Art von Löschkodierungsschema auf die Daten angewendet wird und welche Speicherknoten 150 welche Datenteile aufweisen. Jeder Authority 168 kann ein nichtflüchtiger Festkörperspeicher 152 zugeordnet werden. Jede Authority kann einen Bereich von Inode-Nummern, Segment-Nummern oder anderen Daten-Kennungen steuern, die den Daten durch ein Dateisystem, durch die Speicherknoten 150 oder durch den nichtflüchtigen Festkörperspeicher 152 in verschiedenen Ausführungsformen zugewiesen werden.
Jedes einzelne Datum und jedes einzelne Metadatum hat in einigen Ausführungsformen Redundanz im System. Darüber hinaus hat jeder Datensatz und jede Metadatei einen Besitzer, der als Authority bezeichnet werden kann. Wenn diese Authority nicht erreichbar ist, zum Beispiel durch den Ausfall eines Speicherknotens, gibt es einen Nachfolgeplan, wie diese Daten oder Metadaten gefunden werden können. In verschiedenen Ausführungsformen gibt es redundante Kopien von Authorities 168. Authorities 168 haben in einigen Ausführungsformen eine Beziehung zu Speicherknoten 150 und nichtflüchtigem Festkörperspeicher 152. Jede Authority 168, die einen Bereich von Datensegmentnummern oder andere Kennungen der Daten abdeckt, kann einem bestimmten nichtflüchtigen Festkörperspeicher 152 zugeordnet werden. In einigen Ausführungsformen sind die Authorities 168 für alle diese Bereiche über die nichtflüchtigen Festkörperspeicher 152 eines Storage-Clusters verteilt. Jeder Speicherknoten 150 verfügt über einen Netzwerkanschluss, der den Zugriff auf den/die nichtflüchtigen Festkörperspeicher 152 dieses Speicherknotens 150 ermöglicht. Daten können in einem Segment gespeichert werden, das mit einer Segmentnummer verbunden ist, und diese Segmentnummer ist in einigen Ausführungsformen eine Indirektion für eine Konfiguration von RAID-Stripes (redundante Anordnung unabhängiger Platten). Die Zuweisung und Verwendung der Authorities 168 stellt somit eine Indirektion zu den Daten dar. Eine Indirektion kann als die Fähigkeit bezeichnet werden, in Übereinstimmung mit einigen Ausführungsformen indirekt auf Daten zu verweisen, in diesem Fall über eine Authority 168. Ein Segment identifiziert einen Satz nichtflüchtiger Festkörperspeicher 152 und eine lokale Kennung in den Satz nichtflüchtiger Festkörperspeicher 152, der Daten enthalten kann. In einigen Ausführungsformen ist die lokale Kennung ein Offset in das Gerät und kann nacheinander von mehreren Segmenten wiederverwendet werden. In anderen Ausführungsformen ist die lokale Kennung für ein bestimmtes Segment einmalig und wird niemals wiederverwendet. Die Offsets im nichtflüchtigen Festkörperspeicher 152 werden zur Lokalisierung von Daten zum Schreiben in den oder Lesen aus dem nichtflüchtigen Festkörperspeicher 152 (in Form von RAID-Stripes) verwendet. Die Daten werden über mehrere Einheiten des nichtflüchtigen Festkörperspeichers 152 in Stripes gespeichert, die den nichtflüchtigen Festkörperspeicher 152 mit der Authority 168 für ein bestimmtes Datensegment enthalten oder sich von diesem unterscheiden können.
Wenn sich der Standort eines bestimmten Datensegments ändert, z. B. während einer Datenbewegung oder einer Datenrekonstruktion, sollte die Authority 168 für dieses Datensegment konsultiert werden, und zwar an dem nichtflüchtigen Festkörperspeicher 152 oder dem Speicherknoten 150 mit dieser Authority 168. Um ein bestimmtes Datensegment zu lokalisieren, berechnen Ausführungsformen einen Hash-Wert für ein Datensegment oder wenden eine Inode-Nummer oder eine Datensegment-Nummer an. Das Ergebnis dieser Operation zeigt auf einen nichtflüchtigen Festkörperspeicher 152 mit der Authority 168 für dieses bestimmte Datenelement. In einigen Ausführungsformen besteht diese Operation aus zwei Stufen. Die erste Stufe bildet eine Entitätskennung (ID) ab, z.B. eine Segment-Nummer, Inode-Nummer oder Verzeichnis-Nummer auf eine Authority-Kennung. Diese Zuordnung kann eine Berechnung wie z.B. einen Hash oder eine Bitmaske einschließen. In der zweiten Stufe wird die Authority-Kennung einem bestimmten nichtflüchtigen Festkörperspeicher 152 zugeordnet, was durch eine explizite Zuordnung erfolgen kann. Der Vorgang ist wiederholbar, so dass bei der Durchführung der Berechnung das Ergebnis der Berechnung wiederholt und zuverlässig auf einen bestimmten nichtflüchtigen Festkörperspeicher 152 mit dieser Authority verweist 168. Die Operation kann die Menge der erreichbaren Speicherknoten als Eingabe enthalten. Wenn sich der Satz erreichbarer nichtflüchtiger Festkörperspeichereinheiten ändert, ändert sich der optimale Satz. In einigen Ausführungsformen ist der persistierende Wert die aktuelle Zuweisung (die immer wahr ist), und der berechnete Wert ist die Zielzuweisung, auf die der Cluster versuchen wird, sich neu zu konfigurieren. Diese Berechnung kann verwendet werden, um den optimalen nichtflüchtigen Festkörperspeicher 152 für eine Authority zu bestimmen, wenn ein Satz nichtflüchtiger Festkörperspeicher 152 vorhanden ist, die erreichbar sind und den gleichen Cluster bilden. Die Berechnung bestimmt auch einen angeordneten Satz gleichrangiger nichtflüchtiger Festkörperspeicher 152, der auch die Authority für die Zuordnung nichtflüchtiger Festkörperspeicher aufzeichnet, so dass die Authority auch dann bestimmt werden kann, wenn der zugewiesene nichtflüchtige Festkörperspeicher nicht erreichbar ist. Eine Duplikat- oder Ersatz-Authority 168 kann herangezogen werden, wenn eine bestimmte Authority 168 in einigen Ausführungsformen nicht verfügbar ist.
Unter Bezugnahme auf die 2A und 2B sind zwei der vielen Aufgaben der CPU 156 auf einem Speicherknoten 150, Schreibdaten zu zerlegen und Lesedaten wieder zusammenzusetzen. Wenn das System festgestellt hat, dass Daten geschrieben werden sollen, befindet sich die Authority 168 für diese Daten wie oben angegeben. Wenn die Segment-ID für Daten bereits bestimmt ist, wird die Anforderung zum Schreiben an den nichtflüchtigen Festkörperspeicher 152 weitergeleitet, der gegenwärtig als Host der aus dem Segment bestimmten Authority 168 bestimmt wird. Die Host-CPU 156 des Speicherknotens 150, auf dem sich der nichtflüchtige Festkörperspeicher 152 und die entsprechende Authority 168 befinden, zerlegt oder zerstückelt dann die Daten und überträgt die Daten an verschiedene nichtflüchtige Festkörperspeicher 152. Die übertragenen Daten werden gemäß einem Löschkodierungsschema als Daten-Stripes geschrieben. In einigen Ausführungsformen werden Daten angefordert, um abgerufen zu werden, und in anderen Ausführungsformen werden Daten gepusht. Umgekehrt wird beim Lesen von Daten die Authority 168 für die Segment-ID, die die Daten enthält, wie vorstehend beschrieben lokalisiert. Die Host-CPU 156 des Speicherknotens 150, auf dem sich der nichtflüchtige Festkörperspeicher 152 und die entsprechende Authority 168 befinden, fordert die Daten aus dem nichtflüchtigen Festkörperspeicher und den entsprechenden Speicherknoten an, auf die die Authority verweist. In einigen Ausführungsformen werden die Daten als Daten-Stripes aus dem Flash-Speicher gelesen. Die Host-CPU 156 des Speicherknotens 150 setzt dann die gelesenen Daten wieder zusammen, korrigiert etwaige Fehler (falls vorhanden) gemäß dem entsprechenden Löschkodierungsschema und leitet die wieder zusammengesetzten Daten an das Netzwerk weiter. In weiteren Ausführungsformen können einige oder alle dieser Aufgaben in dem nichtflüchtigen Festkörperspeicher 152 ausgeführt werden. In einigen Ausführungsformen fordert der Segment-Host die an den Speicherknoten 150 zu sendenden Daten an, indem er Seiten aus dem Speicher anfordert und die Daten dann an den Speicherknoten sendet, der die ursprüngliche Anforderung stellt.
In einigen Systemen, z. B. in Dateisystemen im UNIX-Stil, werden Daten mit einem Indexknoten oder Inode gehandhabt, der eine Datenstruktur angibt, die ein Objekt in einem Dateisystem repräsentiert. Das Objekt kann z.B. eine Datei oder ein Verzeichnis sein. Metadaten können mit dem Objekt einhergehen, unter anderem als Attribute wie Berechtigungsdaten und ein Erstellungszeitstempel. Eine Segmentnummer könnte dem gesamten oder einem Teil eines solchen Objekts in einem Dateisystem zugewiesen werden. In anderen Systemen werden Datensegmente mit einer anderswo zugewiesenen Segmentnummer gehandhabt. Für Diskussionszwecke ist die Verteilungseinheit eine Entität, und eine Entität kann eine Datei, ein Verzeichnis oder ein Segment sein. Das heißt, Entitäten sind Einheiten von Daten oder Metadaten, die von einem Speichersystem gespeichert werden. Entitäten werden in Sets gruppiert, die Authorities genannt werden. Jede Authority hat einen Authority-Besitzer, d.h. einen Speicherknoten, der das exklusive Recht hat, die Entitäten in der Authority zu aktualisieren. Mit anderen Worten, ein Speicherknoten enthält die Authority, und diese Authority wiederum enthält Entitäten.
Ein Segment ist ein logischer Container von Daten in Übereinstimmung mit einigen Ausführungsformen. Ein Segment ist ein Adressraum zwischen dem mittleren Adressraum, und die physischen Flash-Speicherorte, d.h. die Datensegmentnummern, befinden sich in diesem Adressraum. Segmente können auch Metadaten enthalten, die es ermöglichen, Datenredundanz wiederherzustellen (auf verschiedene Flash-Speicherorte oder Geräte zurückzuschreiben), ohne dass eine übergeordnete Software involviert ist. In einer Ausführungsform enthält ein internes Format eines Segments Client-Daten und Medium-Mappings zum Bestimmen der Position dieser Daten. Jedes Datensegment wird z.B. vor Speicher- und anderen Ausfällen geschützt, indem das Segment in eine Anzahl von Daten- und Paritäts-Shards zerlegt wird, wo dies anwendbar ist. Die Daten- und Paritäts-Shards werden gemäß einem Löschkodierungsschema über den nichtflüchtigen Festkörperspeicher 152 verteilt, der an die Host-CPUs 156 (siehe 2E und 2G) gekoppelt ist. Die Verwendung des Begriffs „Segment“ bezieht sich auf den Container und seinen Platz in dem Adressraum von Segmenten in einigen Ausführungsformen. Die Verwendung des Begriffs „Stripe“ bezieht sich auf denselben Satz von Shards, als ein Segment, und schließt ein, wie die Shards zusammen mit Redundanz- oder Paritätsinformationen in Übereinstimmung mit einigen Ausführungsformen verteilt werden.
In einem gesamten Speichersystem findet eine Reihe von Adressraum-Transformationen statt. Ganz oben stehen die Verzeichniseinträge (Dateinamen), die auf einen Inode verweisen. Der Inode verweist auf einen mittleren Adressraum, in dem Daten logisch gespeichert werden. Mittlere Adressen können über eine Reihe von indirekten Medien abgebildet werden, um die Last großer Dateien zu verteilen oder Datendienste wie Deduplizierung oder Snapshots zu implementieren. Segmentadressen werden dann in physische Flash-Speicherorte übersetzt. Physische Flash-Speicherorte haben gemäß einigen Ausführungsformen einen Adressbereich, der durch die Menge an Flash im System begrenzt ist. Mittlere Adressen und Segmentadressen sind logische Container, und in einigen Ausführungsformen wird eine Kennung von 128 Bit oder mehr verwendet, so dass er praktisch unendlich ist, wobei die Wahrscheinlichkeit der Wiederverwendung als länger als die erwartete Lebensdauer des Systems berechnet wird. Adressen aus logischen Containern werden in einigen Ausführungsformen hierarchisch zugeordnet. Anfänglich kann jeder nichtflüchtigen Festkörperspeichereinheit 152 ein Bereich von eines Adressraums zugewiesen werden. Innerhalb dieses zugewiesenen Bereichs ist der nichtflüchtige Festkörperspeicher 152 in der Lage, Adressen ohne Synchronisation mit anderen nichtflüchtigen Festkörperspeichern 152 zuzuweisen.
Daten und Metadaten werden durch eine Reihe von zugrunde liegenden Speicherlayouts gespeichert, die für unterschiedliche Auslastungsmuster und Speichergeräte optimiert sind. Diese Layouts umfassen mehrere Redundanzschemata, Komprimierungsformate und Indexalgorithmen. Einige dieser Layouts speichern Informationen über Authorities und Authority-Master, während andere Dateimetadaten und Dateidaten speichern. Zu den Redundanzschemata gehören Fehlerkorrekturcodes, die beschädigte Bits innerhalb eines einzelnen Speichergeräts (z. B. eines NAND-Flash-Chips) tolerieren, Löschcodes, die den Ausfall mehrerer Speicherknoten tolerieren, und Replikationsschemata, die Ausfälle von Datenzentren oder Regionen tolerieren. In einigen Ausführungsformen wird innerhalb einer einzelnen Speichereinheit ein LDPC-Code (Low Density Parity Check) verwendet. Innerhalb eines Storage-Clusters wird Reed-Solomon-Kodierung verwendet, und in einigen Ausführungsformen wird die Spiegelung innerhalb eines Speicherrasters verwendet. Metadaten können unter Verwendung eines geordneten logarithmisch strukturierten Index (z. B. ein Log Structured Merge Tree) gespeichert werden, und große Daten werden möglicherweise nicht in einem logarithmisch strukturierten Layout gespeichert.
Um die Konsistenz über mehrere Kopien einer Entität hinweg zu gewährleisten, stimmen die Speicherknoten durch Berechnungen implizit in zwei Dingen überein: (1) die Authority, die die Entität enthält, und (2) den Speicherknoten, der die Authority enthält. Die Zuordnung von Entitäten zu Authorities kann durch pseudozufällige Zuweisung von Entitäten zu Authorities, durch Aufteilung von Entitäten in Bereiche auf der Grundlage eines extern erstellten Schlüssels oder durch Platzierung einer einzelnen Entität in jeder Authority erfolgen. Beispiele für pseudozufällige Schemata sind lineares Hashing und Replication Under Scalable Hashing („RUSH“) - Familie der Hashes, einschließlich der Controlled Replication Under Scalable Hashing („CRUSH“). In einigen Ausführungsformen wird die pseudozufällige Zuweisung nur für die Zuweisung von Befugnissen an Knoten verwendet, da sich die Menge der Knoten ändern kann. Der Satz von Authorities kann sich nicht ändern, so dass in diesen Ausführungsformen jede beliebige subjektive Funktion angewendet werden kann. Einige Platzierungsschemata platzieren Authorities automatisch auf Speicherknoten, während andere Platzierungsschemata auf einer expliziten Zuordnung von Authorities zu Speicherknoten beruhen. In einigen Ausführungsformen wird ein pseudozufälliges Schema verwendet, um die Zuordnung von jeder Authority zu einem Satz von Kandidaten für die Authority-Besitzer vorzunehmen. Eine pseudozufällige Datenverteilungsfunktion im Zusammenhang mit CRUSH kann Authorities Speicherknoten zuweisen und eine Liste erstellen, in der die Authorities zugewiesen werden. Jeder Speicherknoten verfügt über eine Kopie der pseudozufälligen Datenverteilungsfunktion und kann die gleiche Berechnung für die Verteilung und das spätere Auffinden oder Lokalisieren einer Authority durchführen. Jedes der pseudozufälligen Schemata erfordert den erreichbaren Satz von Speicherknoten als Eingabe in einigen Ausführungsformen, um auf dieselben Zielknoten zu schließen. Sobald eine Entität in einer Authority platziert wurde, kann die Entität auf physischen Geräten gespeichert werden, so dass kein erwarteter Ausfall zu einem unerwarteten Datenverlust führt. In einigen Ausführungsformen versuchen Rebalancing-Algorithmen, die Kopien aller Entitäten innerhalb einer Authority im gleichen Layout und auf dem gleichen Satz von Rechnern zu speichern.
Beispiele für zu erwartende Ausfälle sind Geräteausfälle, gestohlene Maschinen, Brände im Rechenzentrum und regionale Katastrophen, wie nukleare oder geologische Ereignisse. Unterschiedliche Ausfälle führen zu einem unterschiedlichen Grad an akzeptablem Datenverlust. In einigen Ausführungsformen beeinträchtigt ein gestohlener Speicherknoten weder die Sicherheit noch die Zuverlässigkeit des Systems, während ein regionales Ereignis je nach Systemkonfiguration zu keinem Datenverlust, einigen Sekunden oder Minuten verlorener Aktualisierungen oder sogar zum vollständigen Datenverlust führen kann.
In den Ausführungsformen ist die Platzierung der Daten für die Speicherredundanz unabhängig von der Platzierung der Authorities für die Datenkonsistenz. In einigen Ausführungsformen enthalten Speicherknoten, die Authorities enthalten, keine persistente Speicherung. Stattdessen sind die Speicherknoten mit nichtflüchtigen Festkörperspeichereinheiten verbunden, die keine Authorities enthalten. Die Kommunikationsverbindung zwischen Speicherknoten und nichtflüchtigen Festkörperspeichereinheiten besteht aus mehreren Kommunikationstechnologien und weist uneinheitliche Leistungs- und Fehlertoleranzeigenschaften auf. In einigen Ausführungsformen sind, wie oben erwähnt, nichtflüchtige Festkörperspeichereinheiten über PCI-Express mit Speicherknoten verbunden, Speicherknoten sind innerhalb eines einzigen Chassis über eine Ethernet-Backplane miteinander verbunden, und Chassis sind zu einem Storage-Cluster zusammengeschlossen. Storage-Cluster werden in einigen Ausführungsformen über Ethernet oder Glasfaserkanal mit Clients verbunden. Wenn mehrere Storage-Cluster zu einem Speicher-Grid konfiguriert sind, werden die mehreren Storage-Cluster über das Internet oder andere Fernnetzwerkverbindungen miteinander verbunden, wie z. B. eine „Metro-Scale“-Verbindung oder eine private Verbindung, die nicht über das Internet läuft.
Authority-Besitzer haben das ausschließliche Recht, Entitäten zu modifizieren, Entitäten von einer nichtflüchtigen Festkörper-Speichereinheit in eine andere nichtflüchtige Festkörper-Speichereinheit zu migrieren und Kopien von Entitäten hinzuzufügen und zu entfernen. Auf diese Weise kann die Redundanz der zugrunde liegenden Daten aufrechterhalten werden. Wenn ein Berechtigungsinhaber ausfällt, außer Betrieb genommen werden soll oder überlastet ist, wird die Berechtigung auf einen neuen Speicherknoten übertragen. Bei vorübergehenden Ausfällen ist es nicht unbedeutend, sicherzustellen, dass alle nicht ausfallenden Rechner den neuen Autoritätsstandort akzeptieren. Die Zweideutigkeit, die durch vorübergehende Ausfälle entsteht, kann automatisch durch ein Konsensprotokoll wie Paxos, Hot-Warm-Failover-Schemata, durch manuelles Eingreifen eines entfernten Systemadministrators oder durch einen lokalen Hardware-Administrator erreicht werden (z. B. durch physisches Entfernen des ausgefallenen Rechners aus dem Cluster oder durch Drücken einer Taste auf dem ausgefallenen Rechner). In einigen Ausführungsformen wird ein Konsensprotokoll verwendet, und das Failover erfolgt automatisch. Wenn zu viele Ausfälle oder Replikationsereignisse in einer zu kurzen Zeitspanne auftreten, geht das System in einen Selbsterhaltungsmodus über und stoppt die Replikations- und Datenbewegungsaktivitäten, bis ein Administrator entsprechend einiger Ausführungsformen eingreift.
Wenn Authorities zwischen Speicherknoten übertragen werden und Authority-Besitzer Entitäten in ihren Authorities aktualisieren, überträgt das System Nachrichten zwischen den Speicherknoten und den nichtflüchtigen Festkörperspeichereinheiten. Im Hinblick auf persistente Nachrichten sind Nachrichten, die unterschiedliche Zwecke aufweisen, von unterschiedlichem Typ. Je nach Art der Nachricht unterhält das System unterschiedliche Ordnungs- und Langlebigkeitsgarantien. Während die persistenten Nachrichten verarbeitet werden, werden die Nachrichten vorübergehend in mehreren dauerhaften und nicht dauerhaften Speicherhardwaretechnologien gespeichert. In einigen Ausführungsformen werden die Nachrichten in RAM, NVRAM und auf NAND-Flash-Geräten gespeichert, und eine Vielzahl von Protokollen wird verwendet, um jedes Speichermedium effizient zu nutzen. Latenzempfindliche Client-Anforderungen können im replizierten NVRAM und später im NAND gespeichert werden, während Rebalancing-Operationen im Hintergrund direkt im NAND gespeichert werden.
Persistente Nachrichten werden vor der Übertragung persistent gespeichert. Dadurch ist das System in der Lage, Client-Anfragen trotz Ausfällen und Komponentenaustausch weiterhin zu bearbeiten. Obwohl viele Hardware-Komponenten eindeutige Kennungen enthalten, die für Systemadministratoren, Hersteller, die Hardware-Lieferkette und die Infrastruktur zur laufenden Überwachung der Qualitätskontrolle sichtbar sind, virtualisieren Anwendungen, die über der Infrastruktur laufen, Adressen. Diese virtualisierten Adressen ändern sich während der Lebensdauer des Speichersystems nicht, unabhängig von Ausfällen und Austausch von Komponenten. Dadurch kann jede Komponente des Speichersystems im Laufe der Zeit ohne Neukonfiguration oder Unterbrechungen der Verarbeitung von Client-Anfragen ersetzt werden, d.h. das System unterstützt unterbrechungsfreie Upgrades.
In einigen Ausführungsformen werden die virtualisierten Adressen mit ausreichender Redundanz gespeichert. Ein kontinuierliches Überwachungssystem korreliert den Hardware- und Software-Status und die Hardware-Kennungen. Dies ermöglicht die Erkennung und Vorhersage von Ausfällen aufgrund fehlerhafter Komponenten und Fertigungsdetails. Das Überwachungssystem ermöglicht außerdem den proaktiven Transfer von Authorities und Entitäten weg von betroffenen Geräten, bevor es zu einem Ausfall kommt, indem die Komponente in einigen Ausführungsformen aus dem kritischen Pfad entfernt wird.
2C ist ein Blockdiagramm mit mehreren Ebenen, das den Inhalt eines Speicherknotens 150 und den Inhalt eines nichtflüchtigen Festkörperspeichers 152 des Speicherknotens 150 zeigt. In einigen Ausführungsformen werden Daten von und zum Speicherknoten 150 durch einen Netzwerk-Schnittstellen-Controller (‚NIC‘) 202 übertragen. Jeder Speicherknoten 150 hat eine CPU 156 und einen oder mehrere nichtflüchtige Festkörperspeicher 152, wie vorstehend beschrieben. Eine Ebene tiefer in 2C hat jeder nichtflüchtige Festkörperspeicher 152 einen relativ schnellen nichtflüchtigen Festkörperspeicher, wie z.B. einen nichtflüchtigen Speicher mit wahlfreiem Zugriff (‚NVRAM‘) 204 und einen Flash-Speicher 206. In einigen Ausführungsformen kann NVRAM 204 eine Komponente sein, die keine Programm-/Löschzyklen benötigt (DRAM, MRAM, PCM), und kann ein Speicher sein, der es unterstützt, wesentlich öfter beschrieben zu werden als aus dem Speicher gelesen wird. Auf einer weiteren Ebene in 2C wird das NVRAM 204 in einer Ausführungsform als flüchtiger Hochgeschwindigkeitsspeicher implementiert, z. B. als dynamischer Speicher mit wahlfreiem Zugriff (DRAM) 216, der durch eine Energiereserve 218 gesichert wird. Die Energiereserve 218 stellt ausreichend elektrische Leistung zur Verfügung, um den DRAM 216 lange genug mit Strom zu versorgen, damit bei einem Stromausfall Inhalte auf den Flash-Speicher 206 übertragen werden können. In einigen Ausführungsformen ist die Energiereserve 218 ein Kondensator, Superkondensator, eine Batterie oder ein anderes Gerät, das eine geeignete Energiezufuhr liefert, die ausreicht, um bei einem Stromausfall die Übertragung des Inhalts von den DRAM 216 auf ein dauerhaftes Speichermedium zu ermöglichen. Der Flash-Speicher 206 ist als Mehrfach-Flash-Dies 222 implementiert, die als Pakete von Flash-Dies 222 oder ein Array von Flash-Dies 222 bezeichnet werden können. Es ist zu beachten, dass die Flash-Dies 222 auf beliebig viele Arten verpackt werden können, mit einem einzigen Chip pro Gehäuse, mehreren Chips pro Gehäuse (d.h. Multichip-Gehäuse), in Hybridgehäusen, als nackte Chips auf einer Leiterplatte oder einem anderen Substrat, als gekapselte Chips usw. In der gezeigten Ausführung hat der nichtflüchtige Festkörperspeicher 152 einen Controller 212 oder einen anderen Prozessor und einen mit dem Controller 212 gekoppelten Eingangs-Ausgangs-(E/A-)Port 210. Der E/A-Port 210 ist mit der CPU 156 und/oder dem Netzwerk-Schnittstellen-Controller 202 des Flash-Speicherknotens 150 gekoppelt. Der Flash-Eingangs-Ausgangs-(E/A)-Port 220 ist mit den Flash-Dies 222 gekoppelt, und eine Direct Memory Access Unit (DMA) 214 ist mit dem Controller 212, dem DRAM 216 und den Flash-Dies 222 gekoppelt. In der gezeigten Ausführung sind der E/A-Port 210, der Controller 212, die DMA-Einheit 214 und der Flash-E/A-Port 220 auf einem programmierbaren Logikbaustein („PLD“) 208 implementiert, z.B. einem Field Programmable Gate Array (FPGA). In dieser Ausführung hat jeder Flash-Die 222 Seiten, organisiert als sechzehn kB (Kilobyte) Seiten 224, und ein Register 226, über das Daten auf den Flash-Die 222 geschrieben oder von ihm gelesen werden können. In weiteren Ausführungsformen werden andere Arten von Festkörperspeichern anstelle von oder zusätzlich zu den Flash-Speichern verwendet, die im Flash-Die 222 abgebildet sind.
Die Storage-Cluster 161 in verschiedenen Ausführungsformen, wie sie hier offengelegt werden, können mit Speicher-Arrays im Allgemeinen verglichen werden. Die Speicherknoten 150 sind Teil einer Sammlung, die den Storage-Cluster 161 bildet. Jeder Speicherknoten 150 besitzt einen Teil der Daten und der Berechnungen, die zur Bereitstellung der Daten erforderlich sind. Mehrere Speicherknoten 150 arbeiten zusammen, um die Daten zu speichern und abzurufen. Speicher oder Speichergeräte, wie sie im Allgemeinen in Speicher-Arrays verwendet werden, sind weniger an der Verarbeitung und Handhabung der Daten beteiligt. Speicher oder Speichergeräte in einem Speicher-Array empfangen Befehle zum Lesen, Schreiben oder Löschen von Daten. Der Speicher oder die Speichergeräte in einem Speicher-Array kennen weder ein größeres System, in das sie eingebettet sind, noch wissen sie, was die Daten bedeuten. Der Speicher oder die Speichergeräte in einem Speicher-Array können verschiedene Arten von Speicher wie RAM, Solid-State-Laufwerke, Festplattenlaufwerke usw. enthalten. Die hier beschriebenen Speichereinheiten 152 haben mehrere Schnittstellen, die gleichzeitig aktiv sind und mehreren Zwecken dienen. In einigen Ausführungsformen wird ein Teil der Funktionalität eines Speicherknotens 150 in eine Speichereinheit 152 verlagert, wodurch die Speichereinheit 152 in eine Kombination aus Speichereinheit 152 und Speicherknoten 150 umgewandelt wird. Durch die Verlagerung von Berechnungen (relativ zu den Speicherdaten) in die Speichereinheit 152 wird diese Berechnung näher an die Daten selbst herangeführt. Die verschiedenen Systemausführungen haben eine Hierarchie von Speicherknotenschichten mit unterschiedlicher Tauglichkeit. Im Gegensatz dazu besitzt ein Controller in einem Speicher-Array alle Daten, die der Controller in einem Shelf oder in Speichergeräten verwaltet, und weiß alles über sie. In einem Storage-Cluster 161, wie hier beschrieben, arbeiten mehrere Controller in mehreren Speichereinheiten 152 und/oder Speicherknoten 150 auf verschiedene Weise zusammen (z.B. für Löschcodierung, Daten-Sharding, Metadatenkommunikation und -redundanz, Erweiterung oder Verkleinerung der Speicherkapazität, Datenwiederherstellung usw.).
2D zeigt eine Speicherserverumgebung, die die Ausführungsformen der Speicherknoten 150 und Speichereinheiten 152 der 2A-C verwendet. In dieser Version verfügt jede Speichereinheit 152 über einen Prozessor wie z. B. einen Controller 212 (siehe 2C), ein FPGA (Field Programmable Gate Array), einen Flash-Speicher 206 und ein NVRAM 204 (bei dem es sich um ein DRAM 216 mit Superkondensator-Unterstützung handelt, siehe 2B und 2C) auf einer PCIe-Platine (Peripheral Component Interconnect Express) in einem Chassis 138 (siehe 2A). Die Speichereinheit 152 kann als einzelne Platine mit Speicher implementiert werden und stellt möglicherweise die größte tolerierbare Ausfalldomäne innerhalb des Chassis dar. In einigen Ausführungsformen können bis zu zwei Speichereinheiten 152 ausfallen, und das Gerät läuft ohne Datenverlust weiter.
Der physische Speicher ist in einigen Ausführungsformen auf der Grundlage der Anwendungsnutzung in benannte Regionen unterteilt. Das NVRAM 204 ist ein zusammenhängender Block von reserviertem Speicher in der Speichereinheit 152 DRAM 216 und wird durch NAND-Flash gesichert. Das NVRAM 204 ist logisch in mehrere Speicherregionen unterteilt, die für zwei als Spool geschrieben werden (z. B. spool_region). Der Platz innerhalb der NVRAM 204-Spools wird von jeder Authority 168 unabhängig verwaltet. Jedes Gerät stellt jeder Authority 168 eine bestimmte Menge an Speicherplatz zur Verfügung. Diese Authority 168 verwaltet außerdem die Lebensdauer und die Zuweisungen innerhalb dieses Speicherplatzes. Beispiele für einen Spool sind verteilte Transaktionen oder Begriffe. Wenn die Primärstromversorgung einer Speichereinheit 152 ausfällt, sorgen eingebaute Superkondensatoren für eine kurze Dauer des Stromausfalls. Während dieses Überbrückungsintervalls wird der Inhalt des NVRAM 204 in den Flash-Speicher 206 geleert. Beim nächsten Einschalten wird der Inhalt des NVRAM 204 aus dem Flash-Speicher 206 wiederhergestellt.
Was den Controller der Speichereinheit anbelangt, so ist die Verantwortung des logischen „Controllers“ auf die einzelnen Blades verteilt, welche Authorities 168 enthalten. Diese Verteilung der logischen Steuerung ist in 2D als Host-Controller 242, Mid-Tier-Controller 244 und Speichereinheit-Controller 246 dargestellt. Die Verwaltung der Steuerungsebene und der Speicherebene werden unabhängig voneinander behandelt, obwohl sich Teile physisch auf demselben Blade befinden können. Jede Authority 168 dient effektiv als unabhängiger Controller. Jede Authority 168 stellt ihre eigenen Daten- und Metadatenstrukturen und ihre eigenen Background-Worker bereit und unterhält ihren eigenen Lebenszyklus.
2E ist ein Blade 252 - Hardware-Blockdiagramm, das eine Steuerungsebene 254, die Rechen- und Speicherebenen 256, 258 und die Authorities 168 zeigt, die mit den zugrunde liegenden physischen Ressourcen interagieren, wobei Ausführungsformen der Speicherknoten 150 und Speichereinheiten 152 der 2A-C in der Speicherserverumgebung von 2D verwendet werden. Die Steuerungsebene 254 ist in eine Reihe von Authorities 168 unterteilt, die die Rechenressourcen in der Rechenebene 256 verwenden können, um auf jedem der Blades 252 ausgeführt zu werden. Die Speicherebene 258 ist in eine Reihe von Geräten partitioniert, von denen jedes den Zugriff auf die Ressourcen von Flash 206 und NVRAM 204 ermöglicht. In einer Ausführung kann die Rechenebene 256 die hier beschriebenen Operationen eines Speicher-Array-Controllers auf einem oder mehreren Geräten der Speicherebene 258 (z.B. einem Speicher-Array) ausführen.
In den Rechen- und Speicherebenen 256, 258 der 2E interagieren die Authorities 168 mit den zugrunde liegenden physischen Ressourcen (d.h. den Geräten). Aus der Sicht einer Authority 168 sind ihre Ressourcen über alle physischen Geräte verteilt. Aus der Sicht eines Geräts stellt es allen Authorities 168 Ressourcen zur Verfügung, unabhängig davon, wo die Authorities gerade aktiv sind. Jede Authority 168 hat eine oder mehrere Partitionen 260 des Speicherplatzes in den Speichereinheiten 152 zugewiesen oder zugewiesen bekommen, z.B. Partitionen 260 im Flash-Speicher 206 und NVRAM 204. Jede Authority 168 verwendet die ihr zugewiesenen Partitionen 260, die ihr gehören, zum Schreiben oder Lesen von Benutzerdaten. Die Authorities können mit unterschiedlichen Mengen an physischem Speicher des Systems verbunden sein. Zum Beispiel könnte eine Authority 168 eine größere Anzahl von Partitionen 260 oder größere Partitionen 260 in einer oder mehreren Speichereinheiten 152 aufweisen als eine oder mehrere andere Authorities 168.
2F zeigt Elastizitätssoftware-Schichten in Blades 252 eines Storage-Clusters in Übereinstimmung mit einigen Ausführungsformen. In der Elastizitätsstruktur ist die Elastizitätssoftware symmetrisch, d.h. das Rechenmodul 270 jedes Blades führt die drei identischen Schichten der in 2F dargestellten Prozesse aus. Speichermanager 274 führen Lese- und Schreibanforderungen von anderen Blades 252 für Daten und Metadaten aus, die in der lokalen Speichereinheit 152 NVRAM 204 und im Flash 206 gespeichert sind. Authorities 168 erfüllen Client-Anforderungen, indem sie die erforderlichen Lese- und Schreibvorgänge auf die Blades 252 ausführen, auf deren Speichereinheiten 152 sich die entsprechenden Daten oder Metadaten befinden. Endpunkte 272 analysieren die von der Überwachungssoftware Switch Fabric 146 empfangenen Client-Verbindungsanfragen, leiten die Client-Verbindungsanfragen an die für die Erfüllung zuständigen Authorities 168 weiter und leiten die Antworten der Authorities 168 an die Clients weiter. Die symmetrische dreischichtige Struktur ermöglicht den hohen Grad an Gleichzeitigkeit des Speichersystems. Elastizität skaliert in diesen Ausführungsformen effizient und zuverlässig. Darüber hinaus implementiert Elastizität eine einzigartige Scale-Out-Technik, die die Arbeit unabhängig vom Client-Zugriffsmuster gleichmäßig auf alle Ressourcen verteilt und die Gleichzeitigkeit maximiert, indem sie einen Großteil der Koordination zwischen den einzelnen Blades überflüssig macht, die typischerweise bei herkömmlichen verteilten Sperren auftritt.
Unter Bezugnahme auf 2F führen die Authorities 168, die in den Rechenmodulen 270 eines Blades 252 laufen, die internen Operationen durch, die zur Erfüllung der Client-Anforderungen erforderlich sind. Ein Merkmal der Elastizität besteht darin, dass die Authorities 168 zustandslos sind, d. h. sie speichern aktive Daten und Metadaten in den 252 DRAMs ihrer eigenen Blades für einen schnellen Zugriff zwischen, aber die Authorities speichern jede Aktualisierung in ihren NVRAM 204-Partitionen auf drei separaten Blades 252, bis die Aktualisierung in dem Flash 206 geschrieben wurde. Alle Schreibzugriffe des Speichersystems auf NVRAM 204 erfolgen in einigen Ausführungsformen in dreifacher Ausführung auf Partitionen auf drei separaten Blades 252. Mit dreifach gespiegeltem NVRAM 204 und persistentem Speicher, der durch Parität und Reed-Solomon-RAID-Prüfsummen geschützt ist, kann das Speichersystem den gleichzeitigen Ausfall von zwei Blades 252 ohne Verlust von Daten, Metadaten oder Zugriff auf beide überleben.
Da Authorities 168 zustandslos sind, können sie zwischen den Blades 252 wechseln. Jede Authority 168 hat eine eindeutige Kennung. NVRAM 204- und Flash 206-Partitionen sind mit den Kennungen der Authorities 168 verknüpft, nicht mit den Blades 252, auf denen sie in manchen Fällen laufen. Wenn also eine Authority 168 migriert, verwaltet die Authority 168 weiterhin die gleichen Speicherpartitionen von ihrem neuen Standort aus. Wenn ein neues Blade 252 in einer Ausführungsform des Storage-Clusters installiert wird, gleicht das System die Last automatisch aus, indem es den Speicher des neuen Blades 252 für die Verwendung durch die Authority 168 des Systems partitioniert, ausgewählte Authorities 168 auf das neue Blade 252 migriert, Endpunkte 272 auf dem neuen Blade 252 beginnt und sie in den Verteilungsalgorithmus für Client-Verbindungen der Switch-Fabric 146 einbezieht.
Von ihren neuen Standorten aus lassen die migrierten Authorities 168 den Inhalt ihrer NVRAM 204 - Partitionen auf Flash 206 bestehen, verarbeiten Lese- und Schreibanforderungen anderer Authorities 168 und erfüllen die Client-Anforderungen, die die Endpunkte 272 direkt an sie richten. In ähnlicher Weise verteilt das System, wenn ein Blade 252 ausfällt oder entfernt wird, seine Authorities 168 unter den verbleibenden Blades 252 des Systems neu. Die neu verteilten Authorities 168 führen ihre ursprünglichen Funktionen von ihren neuen Standorten aus weiter aus.
2G zeigt Authorities 168 und Speicherressourcen in Blades 252 eines Storage-Clusters in Übereinstimmung mit einigen Ausführungsformen. Jede Authority 168 ist ausschließlich für eine Partition des Flash 206 und NVRAM 204 auf jedem Blade 252 verantwortlich. Die Authority 168 verwaltet den Inhalt und die Integrität ihrer Partitionen unabhängig von anderen Authorities 168. Die Authority 168 komprimiert eingehende Daten und bewahrt sie vorübergehend in ihren NVRAM 204-Partitionen auf. Anschließend werden die Daten konsolidiert, RAID-geschützt und in Segmenten des Speichers auf ihren Flash 206-Partitionen persistent gemacht. Während die Authorities 168 Daten in dem Flash 206 schreiben, führen Speicherverwalter 274 die notwendige Flash-Übersetzung durch, um die Schreibleistung zu optimieren und die Langlebigkeit der Medien zu maximieren. Im Hintergrund erfolgt die „Garbage Collection“ durch die Authorities 168 oder diese fordern Speicherplatz zurück, der von Daten belegt ist, die von Clients durch Überschreiben der Daten veraltet sind. Da die Partitionen der Authorities 168 disjunkt sind, sollte man sich darüber im Klaren sein, dass für das Ausführen von Client- und Schreibvorgängen oder für das Ausführen von Hintergrundfunktionen keine verteilte Sperre erforderlich ist.
Die hier beschriebenen Ausführungsformen können verschiedene Software-, Kommunikations- und/oder Netzwerkprotokolle verwenden. Darüber hinaus kann die Konfiguration der Hardware und/oder Software angepasst werden, um verschiedene Protokolle zu berücksichtigen. Beispielsweise können die Ausführungsformen Active Directory verwenden, ein datenbankbasiertes System, das Authentifizierungs-, Verzeichnis-, Richtlinien- und andere Dienste in einer WINDOWS™-Umgebung bereitstellt. In diesen Ausführungsformen ist LDAP (Lightweight Directory Access Protocol) ein Beispiel für ein Anwendungsprotokoll zum Abfragen und Ändern von Elementen in Verzeichnisdienstanbietern wie Active Directory. In einigen Ausführungsformen wird ein Network Lock Manager („NLM“) als eine Einrichtung verwendet, die in Zusammenarbeit mit dem Network File System („NFS“) arbeitet, um über ein Netzwerk eine Datei- und Datensatzsperre im Stil von System V zur Verfügung zu stellen. Das Server Message Block („SMB“)-Protokoll, von dem eine Version auch als Common Internet File System („CIFS“) bekannt ist, kann mit den hier besprochenen Speichersystemen integriert werden. SMP arbeitet als ein Netzwerkprotokoll auf Anwendungsebene, das typischerweise für den gemeinsamen Zugriff auf Dateien, Drucker und serielle Schnittstellen sowie für verschiedene Kommunikationen zwischen Knoten in einem Netzwerk verwendet wird. SMB bietet auch einen authentifizierten Interprozesskommunikationsmechanismus. AMAZON™ S3 (Simple Storage Service) ist ein Webdienst, der von Amazon Web Services angeboten wird, und die hier beschriebenen Systeme können über Webdienst-Schnittstellen (REST (Representational State Transfer), SOAP (Simple Object Access Protocol) und BitTorrent) mit Amazon S3 verbunden werden. Eine RESTful-API (Application Programming Interface) bricht eine Transaktion auf, um eine Reihe von kleinen Modulen zu erstellen. Jedes Modul spricht einen bestimmten zugrunde liegenden Teil der Transaktion an. Die Steuerung oder Berechtigungen, die mit diesen Ausführungsformen bereitgestellt werden, insbesondere für Objektdaten, können die Verwendung einer Zugriffskontrollliste („ACL“) einschließen. Die ACL ist eine Liste von Berechtigungen, die an ein Objekt angehängt ist, und die ACL legt fest, welchen Benutzern oder Systemprozessen der Zugriff auf Objekte gewährt wird und welche Operationen auf gegebenen Objekten erlaubt sind. Die Systeme können sowohl das Internet-Protokoll Version 6 („IPv6“) als auch IPv4 für das Kommunikationsprotokoll verwenden, das ein Identifikations- und Ortungssystem für Computer in Netzwerken bereitstellt und den Verkehr über das Internet leitet. Das Routing von Paketen zwischen vernetzten Systemen kann das Equal-cost Multi-Path-Routing („ECMP“) umfassen, eine Routing-Strategie, bei der die Weiterleitung von Paketen auf dem nächsten Sprung zu einem einzelnen Ziel über mehrere „beste Pfade“ erfolgen kann, die bei metrischen Routing-Berechnungen den ersten Platz belegen. Multi-Path-Routing kann in Verbindung mit den meisten Routing-Protokollen verwendet werden, da es eine auf einen einzelnen Router beschränkte Entscheidung pro Hop ist. Die Software kann Multi-Tenancy unterstützen, d.h. eine Architektur, in der eine einzelne Instanz einer Software-Anwendung mehrere Clients bedient. Jeder Client kann als Tenant bezeichnet werden. Tenants kann die Möglichkeit gegeben werden, einige Teile der Anwendung anzupassen, aber in einigen Ausführungsformen kann der Code der Anwendung nicht angepasst werden. Die Ausführungsformen können Audit-Protokolle führen. Ein Audit-Protokoll ist ein Dokument, das ein Ereignis in einem Computersystem aufzeichnet. Neben der Dokumentation, auf welche Ressourcen zugegriffen wurde, enthalten Audit-Protokolleinträge in der Regel Ziel- und Quelladressen, einen Zeitstempel und Benutzeranmeldeinformationen zur Einhaltung verschiedener Vorschriften. Die Ausführungsformen können verschiedene Schlüsselverwaltungsrichtlinien unterstützen, wie z.B. die Schlüsselrotation bei der Verschlüsselung. Darüber hinaus kann das System dynamische Root-Passwörter oder einige Variationen sich dynamisch ändernder Passwörter unterstützen.
3A zeigt ein Diagramm eines Speichersystems 306, das für die Datenkommunikation mit einem Cloud-Service-Anbieter 302 gemäß einigen Ausführungsformen der vorliegenden Offenbarung gekoppelt ist. Obwohl es weniger detailliert dargestellt ist, kann das in 3A gezeigte Speichersystem 306 den oben mit Bezug auf die 1 A-1D und 2A-2G beschriebenen Speichersystemen ähnlich sein. In einigen Ausführungsformen kann das in 3A gezeigte Speichersystem 306 als ein Speichersystem dargestellt werden mit unsymmetrischen aktiven/aktiven Controllern, als ein Speichersystem mit symmetrischen aktiven/aktiven Controllern, als ein Speichersystem mit aktiven/aktiven Controllern, bei dem weniger als alle Ressourcen jedes Controllers genutzt werden, so dass jeder Controller über Reserveressourcen verfügt, die zur Unterstützung der Ausfallsicherung verwendet werden können, als Speichersystem mit vollständig aktiven/aktiven Controllern, als Speichersystem mit datensatzgetrennten Controllern, als Speichersystem mit Dual-Layer-Architekturen mit Front-End-Controllern und integrierten Back-End-Speicher-Controllern, als Speichersystem mit Scale-Out-Clustern aus Dual-Controller-Arrays sowie Kombinationen solcher Ausführungsformen.
In dem in 3A dargestellten Beispiel ist das Speichersystem 306 über eine Datenkommunikationsverbindung 304 an den Cloud-Service-Anbieter 302 gekoppelt. Die Datenkommunikationsverbindung 304 kann ausgeführt sein als eine dedizierte Datenkommunikationsverbindung, als ein Datenkommunikationsweg, der durch die Verwendung eines oder mehrerer Datenkommunikationsnetze wie eines Wide Area Network („WAN“) oder eines lokalen Netzwerks („LAN“) bereitgestellt wird, oder als ein anderer Mechanismus, der digitale Informationen zwischen dem Speichersystem 306 und dem Cloud-Service-Anbieter 302 transportieren kann. Eine solche Datenkommunikationsverbindung 304 kann vollständig verdrahtet, vollständig drahtlos oder eine gewisse Aggregation von verdrahteten und drahtlosen Datenkommunikationswegen sein. In einem solchen Beispiel können digitale Informationen zwischen dem Speichersystem 306 und dem Cloud-Service-Anbieter 302 über die Datenkommunikationsverbindung 304 unter Verwendung eines oder mehrerer Datenkommunikationsprotokolle ausgetauscht werden. Beispielsweise können digitale Informationen zwischen dem Speichersystem 306 und dem Cloud-Service-Anbieter 302 über die Datenkommunikationsverbindung 304 unter Verwendung des Handheld Device Transfer Protocol („HDTP“), des Hypertext Transfer Protocol (‚HTTP‘), Internet Protocol (‚IP‘), Real-Time Transfer Protocol (‚RTP‘), Transmission Control Protocol (‚TCP‘), User Datagram Protocol (‚UDP‘), Wireless Application Protocol (‚WAP‘), oder anderer Protokolle ausgetauscht werden.
Der in 3A dargestellte Cloud-Service-Anbieter 302 kann beispielsweise als ein System und eine Rechenumgebung verkörpert werden, die den Nutzern des Cloud-Service-Anbieters 302 eine breite Palette von Diensten durch die gemeinsame Nutzung von Rechenressourcen über die Datenkommunikationsverbindung 304 bereitstellt. Der Cloud-Service-Anbieter 302 kann bei Bedarf Zugriff auf einen gemeinsamen Pool konfigurierbarer Computing-Ressourcen wie Computernetzwerke, Server, Speicher, Anwendungen und Dienste usw. bereitstellen. Der gemeinsame Pool konfigurierbarer Ressourcen kann schnell und mit minimalem Verwaltungsaufwand für einen Benutzer des Cloud-Service-Anbieters 302 bereitgestellt und freigegeben werden. Im Allgemeinen ist dem Benutzer des Cloud-Service-Anbieters 302 nicht bekannt, welche genauen Computing-Ressourcen der Cloud-Service-Anbieter 302 für die Bereitstellung der Dienste verwendet. Obwohl in vielen Fällen ein solcher Cloud-Service-Anbieter 302 über das Internet zugänglich sein kann, werden diejenigen, die im Fachgebiet erfahren sind, erkennen, dass jedes System, das die Nutzung gemeinsam genutzter Ressourcen zur Bereitstellung von Diensten für einen Benutzer über eine beliebige Datenkommunikationsverbindung abstrahiert, als Cloud-Service-Anbieter 302 betrachtet werden kann.
In dem in 3A dargestellten Beispiel kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er dem Speichersystem 306 und den Benutzern des Speichersystems 306 durch die Implementierung verschiedener Dienstmodelle eine Vielzahl von Diensten zur Verfügung stellt. Beispielsweise kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er Dienste durch die Implementierung eines „Infrastructure-as-a-Service“ („laaS“) - Servicemodells bereitstellt, bei dem der Cloud-Service-Anbieter 302 Recheninfrastruktur wie virtuelle Maschinen und andere Ressourcen als Dienst für Abonnenten anbietet. Darüber hinaus kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er Dienste für das Speichersystem 306 und die Benutzer des Speichersystems 306 durch die Implementierung eines „Platform-as-a-Service“ („PaaS“) - Servicemodells anbietet, bei dem der Cloud-Service-Anbieter 302 Anwendungsentwicklern eine Entwicklungsumgebung zur Verfügung stellt, oder auf anderem Wege. Eine solche Entwicklungsumgebung kann z.B. ein Betriebssystem, eine Ausführungsumgebung für die Programmiersprache, eine Datenbank, einen Webserver oder andere Komponenten umfassen, die von Anwendungsentwicklern zur Entwicklung und zum Betrieb von Softwarelösungen auf einer Cloud-Plattform verwendet werden können. Darüber hinaus kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er Dienste durch die Implementierung eines „Softwareas-a-Service“ („SaaS“)-Servicemodells bereitstellt, bei dem der Cloud-Service-Anbieter 302 Anwendungssoftware und Datenbanken anbietet, sowie die Plattformen, die für die Ausführung der Anwendungen für das Speichersystem 306 und die Benutzer des Speichersystems 306 verwendet werden, wodurch das Speichersystem 306 und die Benutzer des Speichersystems 306 mit On-Demand-Software versorgt werden und die Notwendigkeit entfällt, die Anwendung auf lokalen Computern zu installieren und auszuführen, was die Handhabung und Unterstützung der Anwendung vereinfachen kann. Der Cloud-Service-Anbieter 302 kann darüber hinaus so konfiguriert werden, dass er Dienste zur Verfügung stellt, indem er ein „Authentication-as-a-Service“ („AaaS“) - Servicemodell implementiert, bei dem der Cloud-Service-Anbieter 302 Authentifizierungsdienste anbietet, die zur Sicherung des Zugriffs auf Anwendungen, Datenquellen oder andere Ressourcen verwendet werden können. Der Cloud-Services-Anbieter 302 kann auch so konfiguriert werden, dass er Dienste für das Speichersystem 306 und die Benutzer des Speichersystems 306 durch die Implementierung eines „Storage-as-a-Service“-Modells anbietet, bei dem der Cloud-Services-Anbieter 302 Zugang zu seiner Speicherinfrastruktur zur Nutzung durch das Speichersystem 306 und den Benutzer des Speichersystems 306 anbietet. Für den Leser ist zu erkennen, dass der Cloud-Service-Anbieter 302 so konfiguriert werden kann, dass er dem Speichersystem 306 und den Nutzern des Speichersystems 306 durch die Implementierung zusätzlicher Servicemodelle zusätzliche Dienste zur Verfügung stellt, da die vorstehend beschriebenen Servicemodelle nur zu Erklärungszwecken enthalten sind und in keiner Weise eine Einschränkung der Dienste, die vom Cloud-Service-Anbieter 302 angeboten werden können, oder eine Beschränkung hinsichtlich der Servicemodelle, die vom Cloud-Service-Anbieter 302 implementiert werden können, darstellen.
In dem in 3A dargestellten Beispiel kann der Cloud-Service-Anbieter 302 beispielsweise als Private Cloud, als Public Cloud oder als eine Kombination aus Private Cloud und Public Cloud verkörpert sein. In einer Ausführungsform, in welcher der Cloud-Service-Anbieter 302 als Private Cloud verkörpert ist, kann der Cloud-Service-Anbieter 302 sich der Bereitstellung von Diensten für eine einzelne Organisation widmen, anstatt Dienste für mehrere Organisationen bereitzustellen. In einer Ausführungsform, in der der Cloud-Service-Anbieter 302 als Public Cloud verkörpert ist, kann der Cloud-Service-Anbieter 302 Dienste für mehrere Organisationen bereitstellen. Public Cloud- und Private Cloud-Bereitstellungsmodelle können sich unterscheiden und mit verschiedenen Vor- und Nachteilen verbunden sein. Da eine Bereitstellung in einer Public Cloud beispielsweise die gemeinsame Nutzung einer Computerinfrastruktur durch verschiedene Organisationen beinhaltet, ist eine solche Bereitstellung möglicherweise nicht ideal für Organisationen mit Sicherheitsbedenken, geschäftskritischen Arbeitslasten, Anforderungen an die Betriebszeit usw. Während eine Private Cloud-Bereitstellung einige dieser Probleme lösen kann, erfordert eine Private Cloud-Bereitstellung möglicherweise Personal vor Ort, um die Private Cloud zu verwalten. In noch alternativen Ausführungsformen kann der Cloud-Service-Anbieter 302 als eine Mischung aus Private Cloud- und Public Cloud-Diensten mit einer hybriden Cloud-Bereitstellung dargestellt werden.
Obwohl in 3A nicht explizit gezeigt, werden die Leser erkennen, dass eine große Menge an zusätzlichen Hardwarekomponenten und zusätzlichen Softwarekomponenten erforderlich sein können, um die Bereitstellung von Cloud-Diensten für das Speichersystem 306 und die Benutzer des Speichersystems 306 zu erleichtern. Beispielsweise kann das Speichersystem 306 an ein Cloud-Storage-Gateway gekoppelt sein (oder sogar ein solches enthalten). Ein solches Cloud-Storage-Gateway kann z. B. als hardware- oder softwarebasierte Vorrichtung ausgeführt werden, die sich zusammen mit dem Speichersystem 306 vor Ort befindet. Ein solches Cloud-Storage-Gateway kann als Brücke zwischen lokalen Anwendungen, die auf dem Speicher-Array 306 ausgeführt werden, und einem entfernten, cloudbasierten Speicher fungieren, der vom Speicher-Array 306 genutzt wird. Durch die Verwendung eines Cloud-Storage-Gateways können Unternehmen primäre iSCSI- oder NAS-Systeme zum Cloud-Service-Anbieter 302 verlagern, wodurch das Unternehmen auf seinen lokalen Speichersystemen Platz sparen kann. Ein solches Cloud-Storage-Gateway kann so konfiguriert werden, dass es ein Disk-Array, ein blockbasiertes Gerät, einen Dateiserver oder ein anderes Speichersystem emuliert, das die SCSI-Befehle, Dateiserver-Befehle oder andere geeignete Befehle in REST-Space-Protokolle übersetzt, die die Kommunikation mit dem Cloud-Service-Anbieter 302 erleichtern.
Damit das Speichersystem 306 und die Benutzer des Speichersystems 306 die vom Cloud-Service-Anbieter 302 bereitgestellten Dienste nutzen können, kann ein Cloud-Migrationsprozess stattfinden, bei dem Daten, Anwendungen oder andere Elemente aus den lokalen Systemen einer Organisation (oder sogar aus einer anderen Cloud-Umgebung) zum Cloud-Service-Anbieter 302 verschoben werden. Um Daten, Anwendungen oder andere Elemente erfolgreich in die Umgebung des Cloud-Service-Anbieters 302 zu migrieren, kann Middleware wie z. B. ein Cloud-Migrationstool verwendet werden, um Lücken zwischen der Umgebung des Cloud-Service-Anbieters 302 und der Umgebung einer Organisation zu überbrücken. Solche Cloud-Migrationstools können auch so konfiguriert werden, dass sie potenziell hohe Netzwerkkosten und lange Übertragungszeiten, die mit der Migration großer Datenmengen zum Cloud-Service-Anbieter 302 verbunden sind, sowie Sicherheitsbedenken im Zusammenhang mit sensiblen Daten zum Cloud-Service-Anbieter 302 über Datenkommunikationsnetzwerke berücksichtigen. Um das Speichersystem 306 und die Benutzer des Speichersystems 306 in die Lage zu versetzen, die vom Cloud-Service-Anbieter 302 bereitgestellten Dienste zu nutzen, kann ein Cloud-Orchestrator auch zur Anordnung und Koordinierung automatisierter Aufgaben im Hinblick auf die Schaffung eines konsolidierten Prozesses oder Workflows eingesetzt werden. Ein solcher Cloud-Orchestrator kann Aufgaben wie die Konfiguration verschiedener Komponenten durchführen, unabhängig davon, ob es sich bei diesen Komponenten um Cloud-Komponenten oder Komponenten vor Ort handelt, sowie die Verwaltung der Verbindungen zwischen diesen Komponenten. Der Cloud-Orchestrator kann die Kommunikation und die Verbindungen zwischen den Komponenten vereinfachen, um sicherzustellen, dass die Verbindungen korrekt konfiguriert und gewartet werden.
In dem in 3A dargestellten Beispiel und wie oben kurz beschrieben, kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er Dienste für das Speichersystem 306 und die Benutzer des Speichersystems 306 durch die Verwendung eines SaaS-Servicemodells bereitstellt, bei dem der Cloud-Service-Anbieter 302 Anwendungssoftware und Datenbanken anbietet, sowie die Plattformen, die für die Ausführung der Anwendungen für das Speichersystem 306 und die Benutzer des Speichersystems 306 verwendet werden, wodurch das Speichersystem 306 und die Benutzer des Speichersystems 306 mit Software auf Abruf versorgt werden und die Notwendigkeit entfällt, die Anwendung auf lokalen Computern zu installieren und auszuführen, was die Handhabung und Unterstützung der Anwendung vereinfachen kann. Solche Anwendungen können viele Formen in Übereinstimmung mit verschiedenen Ausführungsformen der vorliegenden Offenbarung annehmen. Zum Beispiel kann der Cloud-Service-Anbieter 302 so konfiguriert werden, dass er dem Speichersystem 306 und den Benutzern des Speichersystems 306 Zugang zu Datenanalyseanwendungen gewährt. Solche Datenanalyseanwendungen können z.B. so konfiguriert werden, dass sie große Mengen an Telemetriedaten empfangen, die vom Speichersystem 306 „nach Hause telefoniert werden“. Solche Telemetriedaten können verschiedene Betriebseigenschaften des Speichersystems 306 beschreiben und können für eine Vielzahl von Zwecken analysiert werden, einschließlich um z.B. den Zustand des Speichersystems 306 zu bestimmen, um Arbeitslasten zu ermitteln, die auf dem Speichersystem 306 ausgeführt werden, um vorherzusagen, wann dem Speichersystem 306 die verschiedenen Ressourcen ausgehen werden, um Konfigurationsänderungen, Hardware- oder Software-Upgrades, Workflow-Migrationen oder andere Aktionen zu empfehlen, die den Betrieb des Speichersystems 306 verbessern können.
Der Cloud-Service-Anbieter 302 kann auch so konfiguriert werden, dass er dem Speichersystem 306 und den Benutzern des Speichersystems 306 Zugang zu virtualisierten Computerumgebungen bietet. Solche virtualisierten Datenverarbeitungsumgebungen können z.B. als virtuelle Maschine oder andere virtualisierte Computer-Hardwareplattformen, virtuelle Speichergeräte, virtualisierte Computernetzwerk-Ressourcen usw. verkörpert sein. Beispiele für solche virtualisierten Umgebungen können virtuelle Maschinen sein, die erstellt werden, um einen tatsächlichen Computer zu emulieren, virtualisierte Desktop-Umgebungen, die einen logischen Desktop von einer physischen Maschine trennen, virtualisierte Dateisysteme, die einen einheitlichen Zugriff auf verschiedene Arten konkreter Dateisysteme ermöglichen, und vieles andere.
Zur weiteren Erläuterung ist in 3B ein Diagramm eines Speichersystems 306 in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung dargestellt. Obwohl es weniger detailliert dargestellt ist, kann das in 3B dargestellte Speichersystem 306 den oben mit Bezug auf die 1A-1 D und 2A-2G beschriebenen Speichersystemen ähnlich sein, da das Speichersystem viele der vorstehend beschriebenen Komponenten enthalten kann.
Das in 3B dargestellte Speichersystem 306 kann eine große Menge an Speicherressourcen 308 enthalten, die in vielen Formen verkörpert sein können. Beispielsweise können die Speicherressourcen 308 Nano-RAM oder eine andere Form eines nichtflüchtigen Direktzugriffsspeichers, der auf einem Substrat abgeschiedene Kohlenstoffnanoröhren verwendet, einen nichtflüchtigen 3D-Kreuzpunktspeicher, einen Flash-Speicher einschließlich Single-Level-Cell („SLC“) NAND-Flash, Multi-Level-Cell („MLC“) NAND-Flash, Triple-Level-Cell („TLC“) NAND-Flash, Quad-Level-Cell („QLC“) NAND-Flash oder andere umfassen. Ebenso können die Speicherressourcen 308 nichtflüchtige magnetoresistive Direktzugriffsspeicher („MRAM“), einschließlich Spin-Transfer-Torque („STT“) MRAM, umfassen. Die beispielhaften Speicherressourcen 308 können auch einen nichtflüchtigen Phasenwechsel-Speicher („PCM“), einen Quantenspeicher, der die Speicherung und den Abruf photonischer Quanteninformationen ermöglicht, einen resistiven Direktzugriffsspeicher („ReRAM“), einen Speicherklassenspeicher („SCM“) oder eine andere Form von Speicherressourcen umfassen, einschließlich einer beliebigen Kombination der hier beschriebenen Ressourcen. Der Leser wird verstehen, dass andere Formen von Computerspeichern und Speichergeräten von den oben beschriebenen Speichersystemen verwendet werden können, einschließlich DRAM, SRAM, EEPROM, Universalspeicher und viele andere. Die in 3A dargestellten Speicherressourcen 308 können in einer Vielzahl von Formfaktoren verkörpert sein, einschließlich, aber nicht beschränkt auf, Dual-Inline-Speichermodule („DIMMs“), nichtflüchtige Dual-Inline-Speichermodule („NVDIMMs“), M.2, U.2 und andere.
Die in 3A dargestellten Speicherressourcen 308 können verschiedene Formen des Speicherklassenspeichers („SCM“) umfassen. SCM kann einen schnellen, nichtflüchtigen Speicher (z. B. NAND-Flash) effektiv als eine Erweiterung von DRAM behandeln, so dass ein gesamter Datensatz als ein In-Memory-Datensatz behandelt werden kann, der sich vollständig im DRAM befindet. Ein SCM kann nichtflüchtige Medien, wie z. B. einen NAND-Flash, umfassen. Auf ein solches NAND-Flash kann mit NVMe zugegriffen werden, das den PCIe-Bus als Transportmittel verwenden kann, wodurch im Vergleich zu älteren Protokollen relativ geringe Zugriffslatenzen entstehen. Tatsächlich können die fürSSDs in All-Flash-Arrays verwendeten Netzwerkprotokolle NVMe unter Verwendung von Ethernet (ROCE, NVME TCP), Fibre Channel (NVMe FC), InfiniBand (iWARP) und anderen Protokollen umfassen, die es ermöglichen, schnelle, nichtflüchtige Speicher als Erweiterung von DRAM zu behandeln. Angesichts der Tatsache, dass DRAM häufig Byte-adressierbar ist und schneller, nichtflüchtiger Speicher wie NAND-Flash blockadressierbar ist, kann ein Controller-Software-/Hardware-Stack erforderlich sein, um die Blockdaten in die auf den Medien gespeicherten Bytes zu konvertieren. Beispiele für Medien und Software, die als SCM verwendet werden können, sind z.B. 3D XPoint, Intel Memory Drive Technology, Z-SSD von Samsung und andere.
Das in 3B dargestellte Beispielspeichersystem 306 kann eine Vielzahl von Speicherarchitekturen implementieren. Beispielsweise können Speichersysteme in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung Blockspeicher verwenden, bei denen Daten in Blöcken gespeichert werden und jeder Block im Wesentlichen als individuelle Festplatte fungiert. Speichersysteme in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung können Objektspeicher nutzen, bei denen Daten als Objekte verwaltet werden. Jedes Objekt kann die Daten selbst, eine variable Menge von Metadaten und eine global eindeutige Kennung enthalten, wobei die Objektspeicher auf mehreren Ebenen (z.B. Geräteebene, Systemebene, Schnittstellenebene) implementiert werden können. Speichersysteme in Übereinstimmung mit einigen Ausführungsformen der vorliegenden Offenbarung verwenden Dateispeicher, in denen Daten in einer hierarchischen Struktur gespeichert werden. Solche Daten können in Dateien und Ordnern gespeichert und dem System, das sie speichert, und dem System, das sie abruft, im gleichen Format präsentiert werden.
Das in 3B dargestellte Beispielspeichersystem 306 kann als ein Speichersystem verkörpert werden, in dem zusätzliche Speicherressourcen hinzugefügt werden können durch die Verwendung eines Scale-Up-Modells, durch die Verwendung eines Scale-Out-Modells oder durch eine Kombination davon. In einem Scale-Up-Modell kann zusätzlicher Speicher durch Hinzufügen zusätzlicher Speichergeräte hinzugefügt werden. In einem Scale-Out-Modell jedoch können zusätzliche Speicherknoten zu einem Cluster von Speicherknoten hinzugefügt werden, wobei solche Speicherknoten zusätzliche Verarbeitungsressourcen, zusätzliche Netzwerkressourcen usw. enthalten können.
Das in 3B dargestellte Speichersystem 306 enthält auch Kommunikationsressourcen 310, die nützlich sein können bei der Erleichterung der Datenkommunikation zwischen Komponenten innerhalb des Speichersystems 306 sowie der Datenkommunikation zwischen dem Speichersystem 306 und Datenverarbeitungsgeräten, die sich außerhalb des Speichersystems 306 befinden, einschließlich der Fälle, in denen diese Ressourcen durch eine relativ große Fläche voneinander getrennt sind. Die Kommunikationsressourcen 310 können so konfiguriert werden, dass sie eine Vielzahl verschiedener Protokolle und Datenkommunikationsstrukturen nutzen, um die Datenkommunikation zwischen Komponenten innerhalb des Speichersystems sowie zwischen dem Speichersystem 306 und Datenverarbeitungsgeräten außerhalb des Speichersystems 306 zu erleichtern. Beispielsweise können die Kommunikationsressourcen 310 Fibre-Channel („FC“) - Technologien wie FC-Fabrics und FC-Protokolle umfassen, welche SCSI-Befehle über FC-Netzwerke transportieren können. Die Kommunikationsressourcen 310 können auch FC-über-Ethernet („FCoE“) - Technologien umfassen, durch die FC-Frames gekapselt und über Ethernet-Netzwerke übertragen werden. Die Kommunikationsressourcen 310 können auch InfiniBand-Technologien („IB“) umfassen, bei denen eine Switched-Fabric-Topologie verwendet wird, um Übertragungen zwischen Channel Adaptern zu erleichtern. Die Kommunikationsressourcen 310 können auch NVM Express („NVMe“) - Technologien und NVMe over Fabrics („NVMeoF“) - Technologien umfassen, über die auf nichtflüchtige Speichermedien zugegriffen werden kann, die über einen PCI Express („PCle“) - Bus angeschlossen sind. Zu den Kommunikationsressourcen 310 können auch Mechanismen für den Zugriff auf Speicherressourcen 308 innerhalb des Speichersystems 306 gehören, die Serial Attached SCSI (‚SAS‘), Serial ATA (‚SATA‘) Busschnittstellen für die Verbindung von Speicherressourcen 308 innerhalb des Speichersystems 306 mit Host-Busadaptern innerhalb des Speichersystems 306 verwenden, Internet Small Computer Systems Interface („iSCSI“)-Technologien, um den Zugriff auf Speicherressourcen 308 innerhalb des Speichersystems 306 auf Blockebene zu ermöglichen, und andere Kommunikationsressourcen, die zur Erleichterung der Datenkommunikation zwischen Komponenten innerhalb des Speichersystems 306 sowie der Datenkommunikation zwischen dem Speichersystem 306 und Datenverarbeitungsgeräten außerhalb des Speichersystems 306 nützlich sein können.
Das in 3B dargestellte Speichersystem 306 enthält auch Verarbeitungsressourcen 312, die bei der Ausführung von Computerprogrammbefehlen und anderen Rechenaufgaben innerhalb des Speichersystems 306 nützlich sein können. Die Verarbeitungsressourcen 312 können eine oder mehrere anwendungsspezifische integrierte Schaltungen („ASICs“), die für einen bestimmten Zweck angepasst sind, sowie eine oder mehrere Zentraleinheiten („CPUs“) enthalten. Die Verarbeitungsressourcen 312 können auch einen oder mehrere digitale Signalprozessoren („DSPs“), ein oder mehrere feldprogrammierbare Gate-Arrays („FPGAs“), ein oder mehrere Ein-Chip-Systeme („SoCs“) oder eine andere Form von Verarbeitungsressourcen 312 umfassen. Das Speichersystem 306 kann die Speicherressourcen 312 nutzen, um eine Vielzahl von Aufgaben auszuführen, einschließlich, aber nicht beschränkt auf die Unterstützung der Ausführung der Software-Ressourcen 314, die weiter unten ausführlicher beschrieben werden.
Das in 3B dargestellte Speichersystem 306 enthält auch die Software-Ressourcen 314, die bei der Ausführung durch die Verarbeitungsressourcen 312 innerhalb des Speichersystems 306 eine Vielzahl von Aufgaben ausführen können. Die Software-Ressourcen 314 können z.B. ein oder mehrere Module von Computerprogrammbefehlen enthalten, die, wenn sie von der Verarbeitungsressource 312 innerhalb des Speichersystems 306 ausgeführt werden, bei der Durchführung verschiedener Datensicherungsverfahren nützlich sind, um die Integrität der in den Speichersystemen gespeicherten Daten zu erhalten. Für den Leser ist zu erkennen, dass solche Datensicherungsverfahren z.B. durch Systemsoftware, die auf Computerhardware innerhalb des Speichersystems ausgeführt wird, durch einen Cloud-Service-Anbieter oder auf andere Weise durchgeführt werden können. Solche Datensicherungsverfahren können z.B. Datenarchivierungsverfahren umfassen, die dazu führen, dass Daten, die nicht mehr aktiv genutzt werden, auf ein separates Speichergerät oder ein separates Speichersystem zur langfristigen Aufbewahrung verschoben werden, Datensicherungsverfahren, durch das im Speichersystem gespeicherte Daten kopiert und an einem anderen Ort gespeichert werden können, um Datenverluste im Falle eines Geräteausfalls oder einer anderen Form der Katastrophe mit dem Speichersystem zu vermeiden, Datenreplizierungsverfahren, durch das im Speichersystem gespeicherte Daten auf ein anderes Speichersystem repliziert werden, so dass die Daten über mehrere Speichersysteme zugänglich sind, Daten-Snapshot-Verfahren, durch das der Zustand der Daten innerhalb des Speichersystems zu verschiedenen Zeitpunkten erfasst wird, Daten- und Datenbank-Cloning-Verfahren, durch welche Duplikate von Daten und Datenbanken erstellt werden können, und andere Datensicherungsverfahren. Durch den Einsatz solcher Datensicherungsverfahren können die Ziele der Business Continuity und der Disaster-Recovery-Ziele erreicht werden, da ein Ausfall des Speichersystems nicht zum Verlust der im Speichersystem gespeicherten Daten führen kann.
Die Software-Ressourcen 314 können auch Software enthalten, die bei der Implementierung von software-definierter Speicherung (‚SDS‘) nützlich ist. In einem solchen Beispiel können die Software-Ressourcen 314 ein oder mehrere Module von Computerprogrammbefehlen enthalten, die, wenn sie ausgeführt werden, bei der richtlinienbasierten Bereitstellung und Verwaltung von Datenspeicherung, die unabhängig von der zugrunde liegenden Hardware ist, nützlich sind. Solche Software-Ressourcen 314 können bei der Implementierung von Speichervirtualisierung nützlich sein, um die Speicherhardware von der Software zu trennen, welche die Speicherhardware verwaltet.
Die Software-Ressourcen 314 können auch Software enthalten, die zur Erleichterung und Optimierung von E/A-Operationen nützlich ist, die auf die Speicherressourcen 308 im Speichersystem 306 gerichtet sind. Die Software-Ressourcen 314 können beispielsweise Softwaremodule enthalten, die verschiedene Datenreduzierungsverfahren ausführen, wie z. B. Datenkomprimierung, Datendeduplizierung und andere. Die Software-Ressourcen 314 können Softwaremodule enthalten, die E/A-Operationen intelligent gruppieren, um eine bessere Nutzung der zugrunde liegenden Speicherressource 308 zu ermöglichen, Softwaremodule, die Datenmigrationsoperationen zur Migration von innerhalb eines Speichersystems durchführen, sowie Softwaremodule, die andere Funktionen ausführen. Solche Software-Ressourcen 314 können als ein oder mehrere Software-Container oder auf viele andere Arten verkörpert sein.
Für den Leser ist zu erkennen, dass das Vorhandensein solcher Software-Ressourcen 314 für eine verbesserte Benutzerfreundlichkeit des Speichersystems 306, für eine Erweiterung der vom Speichersystem 306 unterstützten Funktionalität und für viele andere Vorteile sorgen kann. Betrachten wir ein Beispiel der Software-Ressourcen 314, welche Datensicherungsverfahren durchführen, mit denen im Speichersystem 314 gespeicherte Daten kopiert und an einem anderen Ort gespeichert werden können, um Datenverluste im Falle eines Geräteausfalls oder einer anderen Art von Katastrophe zu vermeiden. In einem solchen Beispiel können die hier beschriebenen Systeme zuverlässiger (und mit weniger Belastung für den Benutzer) Sicherungsvorgänge im Vergleich zu interaktiven Sicherungsverwaltungssystemen durchführen, die ein hohes Maß an Benutzerinteraktivität erfordern, weniger robuste Automatisierung und Funktionssätze bieten usw.
Zur weiteren Erläuterung ist in 3C ein Beispiel für ein cloudbasiertes Speichersystem 318 gemäß einigen Ausführungsformen der vorliegenden Offenbarung dargestellt. In dem in 3C dargestellten Beispiel wird das cloudbasierte Speichersystem 318 vollständig in einer Cloud-Computing-Umgebung 316 erstellt, wie z. B. Amazon Web Services („AWS“), Microsoft Azure, Google Cloud Platform, IBM Cloud, Oracle Cloud und andere. Das cloudbasierte Speichersystem 318 kann zum Bereitstellen von Diensten verwendet werden, die den Diensten ähneln, die von den oben beschriebenen Speichersystemen bereitgestellt werden können. Beispielsweise kann das cloudbasierte Speichersystem 318 verwendet werden, um den Nutzern des cloudbasierten Speichersystems 318 Blockspeicherdienste bereitzustellen, das cloudbasierte Speichersystem 318 kann verwendet werden, um den Nutzern des cloudbasierten Speichersystems 318 Speicherdienste durch die Verwendung von Festkörperspeichern bereitzustellen, usw.
Das in 3C dargestellte cloudbasierte Speichersystem 318 umfasst zwei Cloud-Computing-Instanzen 320, 322, die jeweils zur Unterstützung der Ausführung einer Speichersteuerungsanwendung 324, 326 verwendet werden. Die Cloud-Computing-Instanzen 320, 322 können beispielsweise als Instanzen von Cloud-Computing-Ressourcen (z. B. virtuelle Maschinen) verkörpert werden, die von der Cloud-Computing-Umgebung 316 bereitgestellt werden können, um die Ausführung von Softwareanwendungen wie der Speichersteuerungsanwendung 324, 326 zu unterstützen. In einer Ausführungsform können die Cloud Computing-Instanzen 320, 322 als Amazon Elastic Compute Cloud („EC2“) Instanzen ausgeführt werden. In einem solchen Beispiel kann ein Amazon Machine Image („AMI“), das die Speichersteuerungsanwendung 324, 326 enthält, gebootet werden, um eine virtuelle Maschine zu erstellen und zu konfigurieren, die die Speichersteuerungsanwendung 324, 326 ausführen kann.
In dem in 3C dargestellten Beispielverfahren kann die Speichersteuerungsanwendung 324, 326 als ein Modul von Computerprogrammanweisungen ausgeführt werden, das bei seiner Ausführung verschiedene Speicheraufgaben durchführt. Beispielsweise kann die Speichersteuerungsanwendung 324, 326 als ein Modul von Computerprogrammanweisungen ausgeführt werden, das, wenn es ausgeführt wird, dieselben Aufgaben wie die oben beschriebenen Controller 110A, 110B in 1A ausführt, wie z. B. das Schreiben von Daten, die von den Benutzern des cloudbasierten Speichersystems 318 empfangen wurden, in das cloudbasierte Speichersystem 318, Löschen von Daten aus dem cloudbasierten Speichersystem 318, Abrufen von Daten aus dem cloudbasierten Speichersystem 318 und Bereitstellen solcher Daten für die Benutzer des cloudbasierten Speichersystems 318, Überwachen und Berichten der Festplattenauslastung und -leistung, Durchführen von Redundanzoperationen, wie RAID- oder RAID-ähnliche Datenredundanzoperationen, Komprimieren von Daten, Verschlüsseln von Daten, Deduplizieren von Daten und so weiter. Da es zwei Cloud-Computing-Instanzen 320, 322 gibt, die jeweils die Speichersteuerungsanwendung 324, 326 enthalten, kann in einigen Ausführungsformen eine Cloud-Computing-Instanz 320 als primärer Controller wie oben beschrieben arbeiten, während die andere Cloud-Computing-Instanz 322 als sekundärer Controller wie oben beschrieben arbeiten kann. Um Kosten zu sparen, kann in einem solchen Beispiel die Cloud-Computing-Instanz 320, die als primärer Controller arbeitet, auf einer relativ leistungsstarken und relativ teuren Cloud-Computing-Instanz eingesetzt werden, während die Cloud-Computing-Instanz 322, die als sekundärer Controller arbeitet, auf einer relativ leistungsschwachen und relativ kostengünstigen Cloud-Computing-Instanz eingesetzt werden kann. Der Leser wird verstehen, dass die in 3C dargestellte Speichersteuerungsanwendung 324, 326 identischen Quellcode enthalten kann, der in verschiedenen Cloud-Computing-Instanzen 320, 322 ausgeführt wird.
Betrachten wir ein Beispiel, in dem die Cloud-Computing-Umgebung 316 als AWS und die Cloud-Computing-Instanzen als EC2-Instanzen verkörpert werden. In einem solchen Beispiel bietet AWS viele Arten von EC2-Instanzen an. AWS bietet zum Beispiel eine Reihe von EC2-Instanzen für allgemeine Zwecke an, die unterschiedliche Speicher- und Verarbeitungsleistungen umfassen. In einem solchen Beispiel kann die Cloud-Computing-Instanz 320, die als primärer Controller fungiert, auf einem der Instanztypen eingesetzt werden, der über eine relativ große Menge an Speicher und Verarbeitungsleistung verfügt, während die Cloud-Computing-Instanz 322, die als sekundärer Controller fungiert, auf einem der Instanztypen eingesetzt werden kann, der eine relativ kleine Menge an Speicher und Verarbeitungsleistung aufweist. In einem solchen Beispiel kann beim Auftreten eines Failover-Ereignisses, bei dem die Rollen des primären und des sekundären Controllers getauscht werden, tatsächlich ein doppeltes Failover durchgeführt werden, und zwar wie folgt: 1) ein erstes Failover-Ereignis, bei dem die Cloud-Computing-Instanz 322, die zuvor als sekundäre Steuerung fungierte, als primäre Steuerung zu arbeiten beginnt, und 2) eine dritte Cloud-Computing-Instanz (nicht dargestellt), die zu einem Instanztyp mit relativ viel Speicher und Verarbeitungsleistung gehört, mit einer Kopie der Speichersteuerungsanwendung hochgefahren wird, wobei die dritte Cloud-Computing-Instanz als primäre Steuerung zu arbeiten beginnt, während die Cloud-Computing-Instanz 322, die ursprünglich als sekundäre Steuerung arbeitete, wieder als sekundäre Steuerung zu arbeiten beginnt. In einem solchen Beispiel kann die Cloud-Computing-Instanz 320, die zuvor als primärer Controller fungierte, beendet werden. Der Leser wird verstehen, dass in alternativen Ausführungsformen die Cloud-Computing-Instanz 320, die nach dem Failover-Ereignis als sekundärer Controller arbeitet, weiterhin als sekundärer Controller arbeiten kann und die Cloud-Computing-Instanz 322, die nach dem Auftreten des Failover-Ereignisses als primärer Controller arbeitete, beendet werden kann, sobald die primäre Rolle von der dritten Cloud-Computing-Instanz (nicht dargestellt) übernommen wurde.
Der Leser wird verstehen, dass sich die oben beschriebenen Ausführungsformen zwar auf Ausführungsformen beziehen, bei denen eine Cloud-Computing-Instanz 320 als primärer Controller und die zweite Cloud-Computing-Instanz 322 als sekundärer Controller arbeitet, dass aber auch andere Ausführungsformen in den Anwendungsbereich der vorliegenden Offenlegung fallen. Beispielsweise kann jede Cloud-Computing-Instanz 320, 322 als primärer Controller für einen Teil des vom cloudbasierten Speichersystem 318 unterstützten Adressraums arbeiten, jede Cloud-Computing-Instanz 320, 322 kann als primärer Controller arbeiten, bei dem die Bedienung der an das cloudbasierte Speichersystem 318 gerichteten E/A-Operationen auf andere Weise aufgeteilt ist, und so weiter. In anderen Ausführungsformen, in denen Kosteneinsparungen Vorrang vor Leistungsanforderungen haben, kann sogar nur eine einzige Cloud-Computing-Instanz existieren, die die Speichersteuerungsanwendung enthält. In einem solchen Beispiel kann die Wiederherstellung nach einem Ausfall des Controllers mehr Zeit in Anspruch nehmen, da eine neue Cloud-Computing-Instanz, die die Speichersteuerungsanwendung enthält, hochgefahren werden muss, anstatt dass eine bereits erstellte Cloud-Computing-Instanz die Aufgabe übernimmt, E/A-Vorgänge zu bedienen, die andernfalls von der ausgefallenen Cloud-Computing-Instanz erledigt worden wären.
Das in 3C dargestellte cloudbasierte Speichersystem 318 umfasst Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338. Die in 3C dargestellten Cloud-Computing-Instanzen 340a, 340b, 340n können beispielsweise als Instanzen von Cloud-Computing-Ressourcen verkörpert werden, die von der Cloud-Computing-Umgebung 316 zur Unterstützung der Ausführung von Softwareanwendungen bereitgestellt werden können. Die Cloud-Computing-Instanzen 340a, 340b, 340n der 3C können sich von den oben beschriebenen Cloud-Computing-Instanzen 320, 322 unterscheiden, da die Cloud-Computing-Instanzen 340a, 340b, 340n der 3C über lokale Speicherressourcen 330, 334, 338 verfügen, während die Cloud-Computing-Instanzen 320, 322, die die Ausführung der Speichersteuerungsanwendung 324, 326 unterstützen, keine lokalen Speicherressourcen aufweisen müssen. Die Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 können zum Beispiel als EC2 M5-Instanzen mit einer oder mehreren SSDs, als EC2 R5-Instanzen mit einer oder mehreren SSDs, als EC2 I3-Instanzen mit einer oder mehreren SSDs usw. ausgeführt werden. In einigen Ausführungsformen muss der lokale Speicher 330, 334, 338 als Solid-State-Speicher (z. B. SSDs) und nicht als Festplattenspeicher ausgeführt sein.
In dem in 3C dargestellten Beispiel kann jede der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 einen Software-Daemon 328, 332, 336 enthalten, der sich bei Ausführung durch eine Cloud-Computing-Instanz 340a, 340b, 340n gegenüber den Speichersteuerungsanwendungen 324, 326 so darstellen kann, als wäre die Cloud-Computing-Instanz 340a, 340b, 340n ein physisches Speichergerät (z. B. eine oder mehrere SSDs). In einem solchen Beispiel kann der Software-Daemon 328, 332, 336 Computerprogrammanweisungen enthalten, die denen ähnlich sind, welche normalerweise auf einem Speichergerät enthalten sind, so dass die Speichersteuerungsanwendungen 324, 326 die gleichen Befehle senden und empfangen können, die ein Speicher-Controller an Speichergeräte senden würde. Auf diese Weise können die Speichersteuerungsanwendungen 324, 326 einen Code enthalten, der identisch (oder im Wesentlichen identisch) mit dem Code ist, der von den Steuerungen in den oben beschriebenen Speichersystemen ausgeführt würde. In diesen und ähnlichen Ausführungsformen kann die Kommunikation zwischen den Speichersteuerungsanwendungen 324, 326 und den Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 iSCSI, NVMe over TCP, Messaging, ein benutzerdefiniertes Protokoll oder einen anderen Mechanismus verwenden.
In dem in 3C dargestellten Beispiel kann jede der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 auch mit Blockspeicher 342, 344, 346 gekoppelt sein, der von der Cloud-Computing-Umgebung 316 angeboten wird. Der Blockspeicher 342, 344, 346, der von der Cloud-Computing-Umgebung 316 angeboten wird, kann beispielsweise als Amazon Elastic Block Store („EBS“) - Volumen verkörpert werden. So kann beispielsweise ein erstes EBS-Volumen mit einer ersten Cloud-Computing-Instanz 340a, ein zweites EBS-Volumen mit einer zweiten Cloud-Computing-Instanz 340b und ein drittes EBS-Volumen mit einer dritten Cloud-Computing-Instanz 340n verbunden sein. In einem solchen Beispiel kann der Blockspeicher 342, 344, 346, der von der Cloud-Computing-Umgebung 316 angeboten wird, in ähnlicher Weise genutzt werden wie die oben beschriebenen NVRAM-Geräte, da der Software-Dämon 328, 332, 336 (oder ein anderes Modul), das in einer bestimmten Cloud-Computing-Instanz 340a, 340b, 340n ausgeführt wird, beim Empfangen einer Anforderung zum Schreiben von Daten ein Schreiben der Daten in das angeschlossene EBS-Volume sowie ein Schreiben der Daten in die lokalen Speicherressourcen 330, 334, 338 initiieren kann. In einigen alternativen Ausführungsformen können Daten nur in den lokalen Speicher 330, 334, 338 innerhalb einer bestimmten Cloud-Computing-Instanz 340a, 340b, 340n geschrieben werden. In einer alternativen Ausführungsform kann statt der Verwendung des Blockspeichers 342, 344, 346, der von der Cloud-Computing-Umgebung 316 als NVRAM angeboten wird, der tatsächliche Arbeitsspeicher auf jeder der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 als NVRAM verwendet werden, wodurch die Kosten für die Netznutzung, die mit der Verwendung eines EBS-Volumens als NVRAM verbunden wären, gesenkt werden.
In dem in 3C dargestellten Beispiel können die Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 von Cloud-Computing-Instanzen 320, 322 genutzt werden, die die Ausführung der Speichersteuerungsanwendung 324, 326 unterstützen, um E/A-Vorgänge zu bedienen, die an das cloudbasierte Speichersystem 318 gerichtet sind. Betrachten wir ein Beispiel, in dem eine erste Cloud-Computing-Instanz 320, die die Speichersteuerungsanwendung 324 ausführt, als primärer Controller arbeitet. In einem solchen Beispiel kann die erste Cloud-Computing-Instanz 320, die die Speichersteuerungsanwendung 324 ausführt, (direkt oder indirekt über den sekundären Controller) Anfragen zum Schreiben von Daten in das cloudbasierte Speichersystem 318 von Benutzern des cloudbasierten Speichersystems 318 erhalten. In einem solchen Beispiel kann die erste Cloud-Computing-Instanz 320, die die Speichersteuerungsanwendung 324 ausführt, verschiedene Aufgaben durchführen, wie zum Beispiel das Deduplizieren der in der Anforderung enthaltenen Daten, das Komprimieren der in der Anforderung enthaltenen Daten, das Bestimmen, wohin die in der Anforderung enthaltenen Daten zu schreiben sind, und so weiter, bevor sie schließlich eine Anforderung zum Schreiben einer deduplizierten, verschlüsselten oder anderweitig möglicherweise aktualisierten Version der Daten an eine oder mehrere der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 sendet. In einigen Ausführungsformen kann jede der Cloud-Computing-Instanzen 320, 322 eine Anforderung zum Lesen von Daten aus dem cloudbasierten Speichersystem 318 empfangen und schließlich eine Anforderung zum Lesen von Daten an eine oder mehrere der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 senden.
Der Leser wird verstehen, dass, wenn eine Anforderung zum Schreiben von Daten von einer bestimmten Cloud-Computing-Instanz 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 empfangen wird, der Software-Daemon 328, 332, 336 oder ein anderes Modul von Computerprogrammanweisungen, das auf der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n ausgeführt wird, so konfiguriert sein kann, dass er die Daten nicht nur in seinen eigenen lokalen Speicher 330, 334, 338 und jeden geeigneten Blockspeicher 342, 344, 346 zu schreiben, die von der Cloud-Computing-Umgebung 316 angeboten werden, sondern der Software-Daemon 328, 332, 336 oder ein anderes Modul von Computerprogrammanweisungen, das auf der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n ausgeführt wird, kann auch so konfiguriert sein, dass er die Daten in den cloudbasierten Objektspeicher 348 schreibt, der mit der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n verbunden ist. Der cloudbasierte Objektspeicher 348, der mit der jeweiligen Cloud-Computing-Instanz 340a, 340b, 340n verbunden ist, kann beispielsweise als Amazon Simple Storage Service („S3“) Speicher ausgestaltet sein, auf den die jeweilige Cloud-Computing-Instanz 340a, 340b, 340n zugreifen kann. In anderen Ausführungsformen können die Cloud-Computing-Instanzen 320, 322, die jeweils die Speichersteuerungsanwendung 324, 326 enthalten, die Speicherung der Daten im lokalen Speicher 330, 334, 338 der Cloud-Computing-Instanzen 340a, 340b, 340n und im cloudbasierten Objektspeicher 348 initiieren.
Der Leser wird verstehen, dass, wie oben beschrieben, das cloudbasierte Speichersystem 318 verwendet werden kann, um den Benutzern des cloudbasierten Speichersystems 318 Blockspeicherdienste anzubieten. Während die Ressourcen des lokalen Speichers 330, 334, 338 und des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, den Zugriff auf Blockebene unterstützen können, unterstützt der cloudbasierte Objektspeicher 348, der mit der jeweiligen Cloud-Computing-Instanz 340a, 340b, 340n verbunden ist, nur den objektbasierten Zugriff. Um dies zu beheben, kann der Software-Daemon 328, 332, 336 oder ein anderes Modul mit Computerprogrammanweisungen, das auf der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n ausgeführt wird, so konfiguriert sein, dass er Datenblöcke nimmt, diese Blöcke in Objekte verpackt und die Objekte in den cloudbasierten Objektspeicher 348 schreibt, der mit der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n verbunden ist.
Betrachten wir ein Beispiel, in dem Daten in den lokalen Speicher 330, 334, 338 und den Blockspeicher 342, 344, 346 geschrieben werden, die von den Cloud-Computing-Instanzen 340a, 340b, 340n in 1-MB-Blöcken genutzt werden. In einem solchen Beispiel wird angenommen, dass ein Benutzer des cloudbasierten Speichersystems 318 eine Anfrage zum Schreiben von Daten stellt, die nach der Komprimierung und Deduplizierung durch die Speichersteuerungsanwendung 324, 326 dazu führen, dass 5 MB an Daten geschrieben werden müssen. In einem solchen Beispiel ist das Schreiben der Daten in die Ressourcen des lokalen Speichers 330, 334, 338 und des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, relativ einfach, da 5 Blöcke mit einer Größe von 1 MB in die Ressourcen des lokalen Speichers 330, 334, 338 und des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, geschrieben werden. In einem solchen Beispiel kann der Software-Daemon 328, 332, 336 oder ein anderes Modul mit Computerprogrammanweisungen, das auf der bestimmten Cloud-Computing-Instanz 340a, 340b, 340n ausgeführt wird, so konfiguriert sein, um: 1) ein erstes Objekt zu erstellen, das die ersten 1 MB Daten enthält, und das erste Objekt in den cloudbasierten Objektspeicher 348 zu schreiben, 2) ein zweites Objekt zu erstellen, das die zweiten 1 MB Daten enthält, und das zweite Objekt in den cloudbasierten Objektspeicher 348 zu schreiben, 3) ein drittes Objekt zu erstellen, das die dritten 1 MB Daten enthält, und das dritte Objekt in den cloudbasierten Objektspeicher 348 zu schreiben, und so weiter. So kann in einigen Ausführungsformen jedes Objekt, das in den cloudbasierten Objektspeicher 348 geschrieben wird, identisch (oder nahezu identisch) groß sein. Der Leser wird verstehen, dass in einem solchen Beispiel Metadaten, die mit den Daten selbst verbunden sind, in jedem Objekt enthalten sein können (z. B. sind die ersten 1 MB des Objekts Daten und der restliche Teil sind Metadaten, die mit den Daten verbunden sind).
Der Leser wird verstehen, dass der cloudbasierte Objektspeicher 348 in das cloudbasierte Speichersystem 318 integriert werden kann, um die Langlebigkeit des cloudbasierten Speichersystems 318 zu erhöhen. In Anlehnung an das oben beschriebene Beispiel, bei dem die Cloud-Computing-Instanzen 340a, 340b, 340n EC2-Instanzen sind, wird der Leser verstehen, dass für EC2-Instanzen nur eine monatliche Betriebszeit von 99,9 % garantiert wird und die im lokalen Instanzspeicher gespeicherten Daten nurwährend der Lebensdauer der EC2-Instanz bestehen bleiben. Wenn man sich also auf die Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 als einzige Quelle für die dauerhafte Datenspeicherung im cloudbasierten Speichersystem 318 verlässt, kann dies zu einem relativ unzuverlässigen Speichersystem führen. Ebenso sind die EBS-Volumes für eine Verfügbarkeit von 99,999 % ausgelegt. Selbst wenn man sich auf EBS als dauerhaften Datenspeicher im cloudbasierten Speichersystem 318 verlässt, kann dies zu einem Speichersystem führen, das nicht ausreichend langlebig ist. Amazon S3 hingegen ist auf eine Langlebigkeit von 99,999999999 % ausgelegt, was bedeutet, dass ein cloudbasiertes Speichersystem 318, das S3 in seinen Speicherpool einbinden kann, wesentlich langlebiger ist als verschiedene andere Optionen.
Der Leser wird verstehen, dass ein cloudbasiertes Speichersystem 318, das S3 in seinen Speicherpool integrieren kann, zwar wesentlich langlebiger ist als verschiedene andere Optionen, dass aber die Verwendung von S3 als primärer Speicherpool zu einem Speichersystem führen kann, das relativ langsame Reaktionszeiten und relativ lange E/A-Latenzen aufweist. So speichert das in 3C dargestellte cloudbasierte Speichersystem 318 nicht nur Daten in S3, sondern das cloudbasierte Speichersystem 318 speichert auch Daten in lokalen Speicherressourcen 330, 334, 338 und Blockspeicherressourcen 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, so dass Leseoperationen von den Ressourcen des lokalen Speichers 330, 334, 338 und den Ressourcen des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, bedient werden können, wodurch die Leselatenz verringert wird, wenn Benutzer des cloudbasierten Speichersystems 318 versuchen, Daten aus dem cloudbasierten Speichersystem 318 zu lesen.
In einigen Ausführungsformen können alle Daten, die vom cloudbasierten Speichersystem 318 gespeichert werden, sowohl 1) im cloudbasierten Objektspeicher 348 als auch 2) in mindestens einem der lokalen Speicher 330, 334, 338 - Ressourcen oder Blockspeicher 342, 344, 346 - Ressourcen, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, gespeichert werden. In solchen Ausführungsformen können die Ressourcen des lokalen Speichers 330, 334, 338 und des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden, effektiv als Cache arbeiten, der im Allgemeinen alle Daten enthält, die auch in S3 gespeichert sind, so dass alle Lesevorgänge von Daten von den Cloud-Computing-Instanzen 340a, 340b, 340n bedient werden können, ohne dass die Cloud-Computing-Instanzen 340a, 340b, 340n auf den cloudbasierten Objektspeicher 348 zugreifen müssen. Der Leser wird verstehen, dass in anderen Ausführungsformen jedoch alle Daten, die von dem cloudbasierten Speichersystem 318 gespeichert werden, in dem cloudbasierten Objektspeicher 348 gespeichert werden können, aber weniger als alle Daten, die von dem cloudbasierten Speichersystem 318 gespeichert werden, in mindestens einer der Ressourcen des lokalen Speichers 330, 334, 338 oder des Blockspeichers 342, 344, 346 gespeichert werden können, die von den Cloud-Computing-Instanzen 340a, 340b, 340n genutzt werden. In einem solchen Beispiel können verschiedene Richtlinien verwendet werden, um zu bestimmen, welche Teilmenge der Daten, die von dem cloudbasierten Speichersystem 318 gespeichert werden, sich sowohl in 1) dem cloudbasierten Objektspeicher 348 als auch in 2) mindestens einer der Ressourcen des lokalen Speichers 330, 334, 338 oder des Blockspeichers 342, 344, 346, die von den Cloud-Computing-Instanzen 340a, 340b, 340n verwendet werden, befinden sollte.
Wie oben beschrieben, wenn die Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 als EC2-Instanzen ausgeführt werden, wird für die Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 nur eine monatliche Betriebszeit von 99,9 % garantiert, und die im lokalen Instanzspeicher gespeicherten Daten bleiben nur während der Lebensdauer jeder Cloud-Computing-Instanz 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 erhalten. So können ein oder mehrere Module von Computerprogrammanweisungen, die innerhalb des cloudbasierten Speichersystems 318 ausgeführt werden (z. B. ein Überwachungsmodul, das auf seiner eigenen EC2-Instanz ausgeführt wird), so konzipiert sein, dass sie den Ausfall einer oder mehrerer der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 handhaben. In einem solchen Beispiel kann das Überwachungsmodul den Ausfall einer oder mehrerer der Cloud-Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 handhaben, indem es eine oder mehrere neue Cloud-Computing-Instanzen mit lokalem Speicher erstellt, Daten, die auf den ausgefallenen Cloud-Computing-Instanzen 340a, 340b, 340n gespeichert waren, aus dem cloudbasierten Objektspeicher 348 abruft und die aus dem cloudbasierten Objektspeicher 348 abgerufenen Daten im lokalen Speicher der neu erstellten Cloud-Computing-Instanzen speichert. Der Leser wird verstehen, dass viele Varianten dieses Prozesses implementiert werden können.
Nehmen wir ein Beispiel, bei dem alle Cloud Computing-Instanzen 340a, 340b, 340n mit lokalem Speicher 330, 334, 338 ausgefallen sind. In einem solchen Beispiel kann das Überwachungsmodul neue Cloud-Computing-Instanzen mit lokalem Speicher erstellen, wobei Instanztypen mit hoher Bandbreite ausgewählt werden, die die maximalen Datenübertragungsraten zwischen den neu erstellten Cloud-Computing-Instanzen mit hoher Bandbreite und lokalem Speicher und dem cloudbasierten Objektspeicher 348 ermöglichen. Der Leser wird verstehen, dass Instanztypen ausgewählt werden, die die maximalen Datenübertragungsraten zwischen den neuen Cloud-Computing-Instanzen und dem cloudbasierten Objektspeicher 348 ermöglichen, so dass die neuen Cloud-Computing-Instanzen mit hoher Bandbreite so schnell wie möglich mit Daten aus dem cloudbasierten Objektspeicher 348 rehydriert werden können. Sobald die neuen Cloud-Computing-Instanzen mit hoher Bandbreite mit Daten aus dem cloudbasierten Objektspeicher 348 rehydriert sind, können kostengünstigere Cloud-Computing-Instanzen mit geringerer Bandbreite geschaffen werden, Daten können zu den kostengünstigeren Cloud-Computing-Instanzen mit geringerer Bandbreite migriert werden, und die Cloud-Computing-Instanzen mit hoher Bandbreite können beendet werden.
Der Leser wird verstehen, dass in einigen Ausführungsformen die Anzahl neuer Cloud-Computing-Instanzen, die erstellt werden, die Anzahl der Cloud-Computing-Instanzen, die benötigt werden, um alle von dem cloudbasierten Speichersystem 318 gespeicherten Daten lokal zu speichern, wesentlich übersteigen kann. Die Anzahl der neuen Cloud-Computing-Instanzen, die erstellt werden, kann die Anzahl der Cloud-Computing-Instanzen, die benötigt werden, um alle vom cloudbasierten Speichersystem 318 gespeicherten Daten lokal zu speichern, deutlich übersteigen, um Daten schneller aus dem cloudbasierten Objektspeicher 348 und in die neuen Cloud-Computing-Instanzen zu ziehen, da jede neue Cloud-Computing-Instanz (parallel) einen Teil der vom cloudbasierten Speichersystem 318 gespeicherten Daten abrufen kann. In solchen Ausführungsformen können die Daten, sobald sie vom cloudbasierten Speichersystem 318 in die neu geschaffenen Cloud-Computing-Instanzen gezogen wurden, in einer Teilmenge der neu geschaffenen Cloud-Computing-Instanzen konsolidiert werden, und die neu geschaffenen Cloud-Computing-Instanzen, die zu viele Daten enthalten, können beendet werden.
Nehmen wir ein Beispiel, in dem 1000 Cloud-Computing-Instanzen benötigt werden, um alle gültigen Daten, die Nutzer des cloudbasierten Speichersystems 318 in das cloudbasierte Speichersystem 318 geschrieben haben, lokal zu speichern. In einem solchen Beispiel wird angenommen, dass alle 1.000 Cloud-Computing-Instanzen ausfallen. In einem solchen Beispiel kann das Überwachungsmodul veranlassen, dass 100.000 Cloud-Computing-Instanzen geschaffen werden, wobei jede Cloud-Computing-Instanz dafür verantwortlich ist, aus dem cloudbasierten Objektspeicher 348 eindeutige 1/100.000ste Teile der gültigen Daten abzurufen, die Benutzer des cloudbasierten Speichersystems 318 in das cloudbasierte Speichersystem 318 geschrieben haben, und den eindeutigen Teil des Datensatzes, den sie abgerufen hat, lokal zu speichern. Da in einem solchen Beispiel jede der 100.000 Cloud-Computing-Instanzen parallel Daten aus dem cloudbasierten Objektspeicher 348 abrufen kann, kann die Caching-Schicht 100 Mal schneller wiederhergestellt werden als bei einer Ausführungsform, bei der das Überwachungsmodul nur 1.000 Ersatz-Cloud-Computing-Instanzen erstellt. In einem solchen Beispiel könnten die lokal in den 100.000 Cloud-Computing-Instanzen gespeicherten Daten im Laufe der Zeit in 1.000 Cloud-Computing-Instanzen konsolidiert und die verbleibenden 99.000 Cloud-Computing-Instanzen beendet werden.
Der Leser wird verstehen, dass verschiedene Leistungsaspekte des cloudbasierten Speichersystems 318 überwacht werden können (z. B. durch ein Überwachungsmodul, das in einer EC2-Instanz ausgeführt wird), so dass das cloudbasierte Speichersystem 318 je nach Bedarf herauf- oder herabskaliert werden kann. Betrachten wir ein Beispiel, in dem das Überwachungsmodul die Leistung des cloudbasierten Speichersystems 318 über die Kommunikation mit einer oder mehreren der Cloud-Computing-Instanzen 320, 322 überwacht, die jeweils zur Unterstützung der Ausführung einer Speichersteuerungsanwendung 324, 326 verwendet werden, über die Überwachung der Kommunikation zwischen den Cloud-Computing-Instanzen 320, 322, 340a, 340b, 340n, über die Überwachung der Kommunikation zwischen den Cloud-Computing-Instanzen 320, 322, 340a, 340b, 340n und dem cloudbasierten Objektspeicher 348 oder auf andere Weise. In einem solchen Beispiel wird angenommen, dass das Überwachungsmodul feststellt, dass die Cloud-Computing-Instanzen 320, 322, die verwendet werden, um die Ausführung einer Speichersteuerungsanwendung 324, 326 zu unterstützen, zu klein sind und die E/A-Anforderungen, die von Benutzern des cloudbasierten Speichersystems 318 ausgegeben werden, nicht ausreichend bedienen. In einem solchen Beispiel kann das Überwachungsmodul eine neue, leistungsfähigere Cloud-Computing-Instanz erstellen (z. B. eine Cloud-Computing-Instanz eines Typs, der mehr Verarbeitungsleistung, mehr Speicher usw. umfasst), die die Speichersteuerungsanwendung enthält, so dass die neue, leistungsfähigere Cloud-Computing-Instanz den Betrieb als primärer Controller aufnehmen kann. Ebenso kann das Überwachungsmodul - wenn es feststellt, dass die Cloud-Computing-Instanzen 320, 322, die zur Unterstützung der Ausführung einer Speichersteuerungsanwendung 324, 326 verwendet werden, überdimensioniert sind und dass Kosteneinsparungen durch den Wechsel zu einer kleineren, weniger leistungsfähigen Cloud-Computing-Instanz erzielt werden können - eine neue, weniger leistungsfähige (und kostengünstigere) Cloud-Computing-Instanz erstellen, die die Speichersteuerungsanwendung enthält, so dass die neue, weniger leistungsfähige Cloud-Computing-Instanz als primärer Controller in Betrieb genommen werden kann.
Als weiteres Beispiel für die dynamische Dimensionierung des cloudbasierten Speichersystems 318 sei ein Beispiel genannt, bei dem das Überwachungsmodul feststellt, dass die Auslastung des lokalen Speichers, der von den Cloud-Computing-Instanzen 340a, 340b, 340n gemeinsam bereitgestellt wird, einen vorgegebenen Auslastungsschwellenwert (z. B. 95 %) erreicht hat. In einem solchen Beispiel kann das Überwachungsmodul zusätzliche Cloud Computing-Instanzen mit lokalem Speicher erstellen, um den Pool an lokalem Speicher, der von den Cloud Computing-Instanzen angeboten wird, zu erweitern. Alternativ kann das Überwachungsmodul eine oder mehrere neue Cloud-Computing-Instanzen erstellen, die über größere Mengen an lokalem Speicher verfügen als die bereits vorhandenen Cloud-Computing-Instanzen 340a, 340b, 340n, so dass Daten, die in einer bereits vorhandenen Cloud-Computing-Instanz 340a, 340b, 340n gespeichert sind, in die eine oder mehrere neue Cloud-Computing-Instanzen migriert werden können und die bereits vorhandene Cloud-Computing-Instanz 340a, 340b, 340n beendet werden kann, wodurch der Pool an lokalem Speicher, der von den Cloud-Computing-Instanzen angeboten wird, erweitert wird. Wenn der von den Cloud-Computing-Instanzen angebotene Pool an lokalem Speicherplatz unnötig groß ist, können die Daten konsolidiert und einige Cloud-Computing-Instanzen beendet werden.
Der Leser wird verstehen, dass das cloudbasierte Speichersystem 318 durch ein Überwachungsmodul, das einen vorbestimmten Satz von Regeln anwendet, die relativ einfach oder relativ kompliziert sein können, automatisch verkleinert oder vergrößert werden kann. Das Überwachungsmodul kann nicht nur den aktuellen Zustand des cloudbasierten Speichersystems 318 berücksichtigen, sondern auch prädiktive Richtlinien anwenden, die beispielsweise auf beobachtetem Verhalten (z. B. jede Nacht von 22 Uhr bis 6 Uhr ist die Nutzung des Speichersystems relativ gering), vorbestimmten Fingerabdrücken (z. B. jedes Mal, wenn eine virtuelle Desktop-Infrastruktur 100 virtuelle Desktops hinzufügt, erhöht sich die Anzahl der an das Speichersystem gerichteten IOPS um X) usw. beruhen. In einem solchen Beispiel kann die dynamische Skalierung des cloudbasierten Speichersystems 318 auf aktuellen Leistungskennzahlen, prognostizierten Arbeitslasten und vielen anderen Faktoren, einschließlich Kombinationen davon, basieren.
Da das cloudbasierte Speichersystem 318 dynamisch skaliert werden kann, kann das cloudbasierte Speichersystem 318 sogar dynamischer arbeiten. Nehmen wir das Beispiel der Garbage Collection. In einem herkömmlichen Speichersystem ist die Speichermenge festgelegt. Daher kann das Speichersystem irgendwann gezwungen sein, eine Garbage Collection durchzuführen, weil der verfügbare Speicherplatz so knapp geworden ist, dass dem Speichersystem der Speicherplatz auszugehen droht. Im Gegensatz dazu kann das hier beschriebene cloudbasierte Speichersystem 318 jederzeit zusätzlichen Speicher „hinzufügen“ (z. B. durch Hinzufügen weiterer Cloud-Computing-Instanzen mit lokalem Speicher). Da das hier beschriebene cloudbasierte Speichersystem 318 immer zusätzlichen Speicher „hinzufügen“ kann, kann das cloudbasierte Speichersystem 318 intelligentere Entscheidungen darüber treffen, wann eine Garbage Collection durchgeführt werden soll. So kann das cloudbasierte Speichersystem 318 beispielsweise eine Richtlinie implementieren, die besagt, dass die Garbage Collection nur dann durchgeführt wird, wenn die Anzahl der vom cloudbasierten Speichersystem 318 bedienten IOPS unter ein bestimmtes Niveau fällt. In einigen Ausführungsformen können auch andere Funktionen auf Systemebene (z. B. Deduplizierung, Komprimierung) als Reaktion auf die Systemlast ein- und ausgeschaltet werden, da die Größe des cloudbasierten Speichersystems 318 nicht auf die gleiche Weise eingeschränkt ist wie bei herkömmlichen Speichersystemen.
Die Leser werden verstehen, dass Ausführungsformen der vorliegenden Offenlegung ein Problem mit Blockspeicherdiensten lösen, die von einigen Cloud-Computing-Umgebungen gezeigt werden, da in einigen Cloud-Computing-Umgebungen nur eine Cloud-Computing-Instanz gleichzeitig mit einem Blockspeicher-Volumen verbunden werden kann. In Amazon AWS kann zum Beispiel nur eine einzige EC2-Instanz mit einem EBS-Volume verbunden werden. Durch die Verwendung von EC2-Instanzen mit lokalem Speicher können Ausführungsformen der vorliegenden Offenlegung Multi-Connect-Fähigkeiten bereitstellen, bei denen mehrere EC2-Instanzen eine Verbindung zu einer anderen EC2-Instanz mit lokalem Speicher („eine Laufwerksinstanz“) herstellen können. In solchen Ausführungsformen können die Laufwerksinstanzen Software enthalten, die innerhalb der Laufwerksinstanz ausgeführt wird und es der Laufwerksinstanz ermöglicht, E/A zu unterstützen, die von jeder angeschlossenen EC2-Instanz an ein bestimmtes Volume gerichtet ist. Daher können einige Ausführungsformen der vorliegenden Offenlegung als Multi-Connect-Blockspeicherdienste verkörpert werden, die nicht alle in 3C dargestellten Komponenten umfassen.
In einigen Ausführungsformen, insbesondere in Ausführungsformen, in denen die Ressourcen des cloudbasierten Objektspeichers 348 als Amazon S3 verkörpert sind, kann das cloudbasierte Speichersystem 318 ein oder mehrere Module enthalten (z. B. ein Modul mit Computerprogrammanweisungen, die auf einer EC2-Instanz ausgeführt werden), die so konfiguriert sind, dass sie sicherstellen, dass sich die entsprechenden Daten tatsächlich in S3 befinden, wenn der lokale Speicher einer bestimmten Cloud-Computing-Instanz mit Daten aus S3 rehydriert wird. Dieses Problem entsteht vor allem dadurch, dass S3 ein Modell für eventuelle Konsistenz implementiert, bei dem beim Überschreiben eines vorhandenen Objekts Lesevorgänge des Objekts schließlich (aber nicht unbedingt sofort) konsistent werden und schließlich (aber nicht unbedingt sofort) die überschriebene Version des Objekts zurückgeben. Um dieses Problem zu lösen, werden in einigen Ausführungsformen der vorliegenden Offenlegung die Objekte in S3 niemals überschrieben. Stattdessen würde ein herkömmliches „Überschreiben“ zur Erstellung des neuen Objekts (das die aktualisierte Version der Daten enthält) und schließlich zur Löschung des alten Objekts (das die vorherige Version der Daten enthält) führen.
In einigen Ausführungsformen der vorliegenden Offenlegung kann als Teil des Versuchs, ein Objekt nie (oder fast nie) zu überschreiben, das resultierende Objekt mit einer Sequenznummer versehen werden, wenn Daten in S3 geschrieben werden. In einigen Ausführungsformen können diese Sequenznummern an anderer Stelle (z. B. in einer Datenbank) aufbewahrt werden, so dass zu jedem Zeitpunkt die Sequenznummer bekannt ist, die mit der aktuellen Version eines Teils der Daten verbunden ist. Auf diese Weise kann festgestellt werden, ob S3 über die aktuelle Version eines Teils der Daten verfügt, indem lediglich die einem Objekt zugeordnete Sequenznummer gelesen wird - ohne die Daten tatsächlich aus S3 zu lesen. Die Möglichkeit, diese Feststellung zu treffen, kann besonders wichtig sein, wenn eine Cloud-Computing-Instanz mit lokalem Speicher ausfällt, da es unerwünscht wäre, den lokalen Speicher einer Ersatz-Cloud-Computing-Instanz mit veralteten Daten zu rehydrieren. Da das cloudbasierte Speichersystem 318 nicht auf die Daten zugreifen muss, um ihre Gültigkeit zu überprüfen, können die Daten verschlüsselt bleiben und Zugriffsgebühren vermieden werden.
Die vorstehend beschriebenen Speichersysteme können intelligente Datensicherungstechniken durchführen, durch die im Speichersystem gespeicherte Daten kopiert und an einem anderen Ort gespeichert werden können, um einen Datenverlust im Falle eines Geräteausfalls oder einer anderen Form von Unglücksfall zu vermeiden. Die oben beschriebenen Speichersysteme können beispielsweise so konfiguriert werden, dass sie jedes Backup prüfen, um zu verhindern, dass das Speichersystem in einen unerwünschten Zustand zurückversetzt wird. Nehmen wir ein Beispiel, bei dem das Speichersystem durch Schadsoftware infiziert wird. In einem solchen Beispiel kann das Speichersystem Softwareressourcen 314 enthalten, die jedes Backup scannen können, um Backups zu identifizieren, die vor dem Infizieren des Speichersystems durch die Malware aufgezeichnet wurden, und solche, die nach dem Infizieren des Speichersystems durch die Malware aufgezeichnet wurden. In einem solchen Beispiel kann das Speichersystem sich selbst aus einem Backup wiederherstellen, das die Schadsoftware nicht enthält - oder zumindest nicht die Teile eines Backups wiederherstellen, die die Schadsoftware enthielten. In einem solchen Beispiel kann das Speichersystem Software-Ressourcen 314 enthalten, die jedes Backup scannen können, um das Vorhandensein von Schadsoftware (oder eines Virus oder einer anderen unerwünschten Substanz) zu identifizieren, z. B. durch das Identifizieren von Schreiboperationen, die vom Speichersystem gehandhabt wurden und aus einem Netzwerk-Subnetz stammen, von dem vermutet wird, dass es die Schadsoftware geliefert hat, durch das Identifizieren von Schreibvorgängen, die vom Speichersystem gehandhabt wurden und von einem Benutzer stammen, bei dem der Verdacht besteht, dass er die Schadsoftware übertragen hat, durch das Identifizieren von Schreibvorgängen, die vom Speichersystem gehandhabt wurden, und das Untersuchen des Inhalts der Schreiboperation anhand von Fingerabdrücken der Schadsoftware und auf viele andere Arten.
Für den Leser wird verständlich sein, dass die Backups (oft in Form von einem oder mehreren Snapshots) auch zur schnellen Wiederherstellung des Speichersystems verwendet werden können. Nehmen wir ein Beispiel, bei dem das Speichersystem mit Ransomware infiziert ist, die die Benutzer aus dem Speichersystem aussperrt. In einem solchen Beispiel können die Softwareressourcen 314 innerhalb des Speichersystems so konfiguriert sein, dass sie das Vorhandensein von Ransomware erkennen und das Speichersystem unter Verwendung der gespeicherten Backups auf einen Zeitpunkt wiederherstellen, vor dem Zeitpunkt, zu dem die Ransomware das Speichersystem infiziert hat. In einem solchen Beispiel kann das Vorhandensein von Ransomware explizit durch die Verwendung von Softwaretools, die von dem System genutzt werden, durch die Verwendung eines Schlüssels (z. B. eines USB-Laufwerks), der in das Speichersystem eingeführt wird, oder auf ähnliche Weise erkannt werden. Ebenso kann auf das Vorhandensein von Ransomware geschlossen werden, wenn die Systemaktivität einem vorgegebenen Fingerabdruck entspricht, z. B. wenn über einen bestimmten Zeitraum keine Lese- oder Schreibvorgänge in das System gelangen.
Der Leser wird verstehen, dass die verschiedenen in 3B dargestellten Komponenten zu einem oder mehreren optimierten Datenverarbeitungspaketen als konvergierte Infrastrukturen zusammengefasst werden können. Solche konvergierten Infrastrukturen können Pools von Computern, Speicher- und Netzwerkressourcen umfassen, die von mehreren Anwendungen gemeinsam genutzt und mit Hilfe von richtliniengesteuerten Prozessen kollektiv verwaltet werden können. Solche konvergierten Infrastrukturen können Kompatibilitätsprobleme zwischen verschiedenen Komponenten innerhalb des Speichersystems 306 minimieren und gleichzeitig verschiedene Kosten im Zusammenhang mit der Einrichtung und dem Betrieb des Speichersystems 306 reduzieren. Solche konvergierten Infrastrukturen können mit einer konvergierten Infrastruktur-Referenzarchitektur, mit eigenständigen Geräten, mit einem softwaregesteuerten hyper- konvergierten Ansatz (z. B. hyper-konvergierten Infrastrukturen) oder auf andere Weise implementiert werden.
Der Leser wird verstehen, dass das in 3B dargestellte Speichersystem 306 für die Unterstützung verschiedener Arten von Softwareanwendungen nützlich sein kann. Beispielsweise kann das Speichersystem 306 bei der Unterstützung von Anwendungen der künstlichen Intelligenz („AI“), Datenbankanwendungen, DevOps-Projekten, elektronischen Design-Automatisierungstools, ereignisgesteuerten Softwareanwendungen, Hochleistungscomputeranwendungen, Simulationsanwendungen, Hochgeschwindigkeits-Datenerfassungs- und -analyseanwendungen, Anwendungen für maschinelles Lernen, Medienproduktionsanwendungen, Medienbereitstellungsanwendungen, Bildarchivierungs- und Kommunikationssystemen („PACS“), Softwareentwicklungsanwendungen, Virtual-Reality-Anwendungen, Augmented-Reality-Anwendungen und vielen anderen Arten von Anwendungen durch das Bereitstellen von Speicherressourcen für solche Anwendungen nützlich sein.
Die vorstehend beschriebenen Speichersysteme können zur Unterstützung einer Vielzahl von Anwendungen eingesetzt werden. In Anbetracht der Tatsache, dass die Speichersysteme Rechenressourcen, Speicherressourcen und eine Vielzahl anderer Ressourcen umfassen, können die Speichersysteme gut geeignet sein, ressourcenintensive Anwendungen wie beispielsweise Kl-Anwendungen zu unterstützen. Solche Kl-Anwendungen können Geräte in die Lage versetzen, ihre Umgebung wahrzunehmen und Maßnahmen zu ergreifen, die ihre Erfolgschancen im Hinblick auf ein bestimmtes Ziel maximieren. Beispiele für solche Kl-Anwendungen sind IBM Watson, Microsoft Oxford, Google DeepMind, Baidu Minwa und andere. Die oben beschriebenen Speichersysteme können auch gut geeignet sein, um andere Arten von ressourcenintensiven Anwendungen zu unterstützen, wie z. B. Anwendungen für maschinelles Lernen. Anwendungen für maschinelles Lernen können verschiedene Arten der Datenanalyse durchführen, um die Erstellung von Analysemodellen zu automatisieren. Mithilfe von Algorithmen, die iterativ aus Daten lernen, können Computer lernen, ohne explizit programmiert zu werden. Ein besonderer Bereich des maschinellen Lernens ist das so genannte Verstärkungslernen, bei dem geeignete Maßnahmen ergriffen werden, um die Belohnung in einer bestimmten Situation zu maximieren. Verstärkungslernen kann eingesetzt werden, um das bestmögliche Verhalten oder den besten Weg zu finden, den eine bestimmte Softwareanwendung oder Maschine in einer bestimmten Situation einschlagen sollte. Verstärkungslernen unterscheidet sich von anderen Bereichen des maschinellen Lernens (z. B. überwachtes Lernen, unüberwachtes Lernen) dadurch, dass für das Verstärkungslernen keine korrekten Eingabe-/Ausgabepaare vorliegen müssen und suboptimale Aktionen nicht ausdrücklich korrigiert werden müssen.
Zusätzlich zu den bereits beschriebenen Ressourcen können die oben beschriebenen Speichersysteme auch Grafikverarbeitungseinheiten („GPUs“) enthalten, die gelegentlich auch als visuelle Verarbeitungseinheiten („VPUs“) bezeichnet werden. Solche GPUs können als spezialisierte elektronische Schaltungen ausgeführt sein, die den Speicher schnell bearbeiten und verändern, um die Erstellung von Bildern in einem Bildpuffer zu beschleunigen, der zur Ausgabe an ein Anzeigegerät bestimmt ist. Solche GPUs können in jedem der Rechengeräte enthalten sein, welche Teil der oben beschriebenen Speichersysteme sind, auch als eine von vielen individuell skalierbaren Komponenten eines Speichersystems, wobei andere Beispiele für individuell skalierbare Komponenten eines solchen Speichersystems Datenspeicherkomponenten, Arbeitsspeicherkomponenten, Rechenkomponenten (z. B. CPUs, FPGAs, ASICs), Netzwerkkomponenten, Softwarekomponenten und andere umfassen können. Zusätzlich zu den GPUs können die oben beschriebenen Speichersysteme auch neuronale Netzwerkprozessoren („NNPs“) zur Verwendung in verschiedenen Aspekten der Verarbeitung im neuronalen Netz enthalten. Solche NNPs können anstelle von (oder zusätzlich zu) GPUs verwendet werden und können auch unabhängig skalierbar sein.
Wie oben beschrieben, können die hier beschriebenen Speichersysteme so konfiguriert werden, dass sie Anwendungen der künstlichen Intelligenz, Anwendungen des maschinellen Lernens, Big-Data-Analyseanwendungen und viele andere Arten von Anwendungen unterstützen. Das schnelle Wachstum dieser Art von Anwendungen wird von drei Technologien angetrieben: Deep Learning (DL), GPU-Prozessoren und Big Data. Deep Learning ist ein Computermodell, bei dem massiv parallele neuronale Netze nach dem Vorbild des menschlichen Gehirns zum Einsatz kommen. Anstatt dass Experten die Software von Hand erstellen, schreibt ein Deep-Learning-Modell seine eigene Software, indem es aus vielen Beispielen lernt. Ein GPU ist ein moderner Prozessor mit Tausenden von Kernen, der sich gut für die Ausführung von Algorithmen eignet, die der Parallelität des menschlichen Gehirns nahekommen.
Fortschritte bei tiefen neuronalen Netzen haben eine neue Welle von Algorithmen und Tools für Datenwissenschaftler ausgelöst, die ihre Daten mit künstlicher Intelligenz (KI) nutzen wollen. Mit verbesserten Algorithmen, größeren Datensätzen und verschiedenen Frameworks (einschließlich Open-Source-Softwarebibliotheken für maschinelles Lernen in einer Reihe von Aufgaben) gehen Datenwissenschaftler neue Anwendungsfälle wie autonom fahrende Fahrzeuge, die Verarbeitung und das Verstehen von natürlicher Sprache, Computer Vision, maschinelles Schlussfolgern, starke KI und viele andere an. Zu den Anwendungen solcher Techniken gehören: Erkennen, Identifizieren und Umgehen von Objekten durch Maschinen und Fahrzeuge; visuelles Erkennen, Klassifizieren und Kennzeichnen; algorithmisches Leistungsmanagement von Finanzhandelsstrategien; gleichzeitige Lokalisierung und Kartierung; vorausschauende Wartung hochwertiger Maschinen; Vorbeugung gegen Bedrohungen der Cybersicherheit, Automatisierung von Fachwissen; Bilderkennung und -klassifizierung; Beantwortung von Fragen; Robotik; Textanalyse (Extraktion, Klassifizierung) sowie Texterstellung und -übersetzung und viele andere. Anwendungen von KI-Techniken sind in einer Vielzahl von Produkten zu finden, z. B. in der Spracherkennungstechnologie von Amazon Echo, die es Nutzern ermöglicht, mit ihren Maschinen zu sprechen, in Google Translate™, das eine maschinengestützte Sprachübersetzung ermöglicht, in Spotifys Discover Weekly, das auf der Grundlage der Nutzungs- und Datenverkehrsanalyse des Nutzers Empfehlungen zu neuen Songs und Künstlern gibt, die ihm gefallen könnten, in Quills Angebot zur Texterstellung, das strukturierte Daten in erzählende Geschichten umwandelt, in Chatbots, die in Echtzeit kontextspezifische Antworten auf Fragen in einem Dialogformat geben, und in vielen anderen. Darüber hinaus kann sich die KI auf eine Vielzahl von Branchen und Sektoren auswirken. So können Kl-Lösungen im Gesundheitswesen eingesetzt werden, um klinische Aufzeichnungen, Patientenakten, Forschungsdaten und andere Eingaben zu erfassen und daraus potenzielle Behandlungsoptionen für Ärzte abzuleiten. Ebenso können KI-Lösungen von Einzelhändlern eingesetzt werden, um Kundenempfehlungen auf der Grundlage des digitalen Fußabdrucks von Verhaltensweisen, Profildaten oder anderen Daten einer Person zu personalisieren.
Das Training von tiefen neuronalen Netzen erfordert jedoch sowohl qualitativ hochwertige Eingabedaten als auch große Mengen an Berechnungen. GPUs sind massiv parallele Prozessoren, die große Datenmengen gleichzeitig verarbeiten können. Wenn sie in einem Multi-GPU-Cluster kombiniert werden, kann eine Pipeline mit hohem Durchsatz erforderlich sein, um die Eingabedaten vom Speicher zu den Recheneinheiten zu leiten. Deep Learning ist mehr als nur das Erstellen und Trainieren von Modellen. Es gibt auch eine gesamte Datenpipeline, die für die Skalierung, Iteration und Experimente ausgelegt sein muss, die für den Erfolg eines Data-Science-Teams erforderlich sind.
Daten sind das Herzstück moderner Kl- und Deep-Learning-Algorithmen. Bevor mit dem Training begonnen werden kann, muss ein Problem gelöst werden, das sich um das Sammeln der beschrifteten Daten dreht, die für das Training eines genauen Kl-Modells entscheidend sind. Bei einer umfassenden Kl-Implementierung kann es erforderlich sein, kontinuierlich große Datenmengen zu sammeln, zu bereinigen, umzuwandeln, zu kennzeichnen und zu speichern. Das Hinzufügen zusätzlicher hochwertiger Datenpunkte führt direkt zu genaueren Modellen und besseren Erkenntnissen. Datenproben können eine Reihe von Verarbeitungsschritten durchlaufen, die unter anderem Folgendes umfassen: 1) Einspeisung der Daten aus einer externen Quelle in das Trainingssystem und Speicherung der Daten in Rohform, 2) Bereinigung und Umwandlung der Daten in ein für das Training geeignetes Format, einschließlich der Verknüpfung von Datenproben mit der entsprechenden Kennzeichnung, 3) Erkundung von Parametern und Modellen, schnelles Testen mit einem kleineren Datensatz und Iteration, um die vielversprechendsten Modelle zu ermitteln, die in den Produktionscluster übertragen werden, 4) Durchführung von Trainingsphasen zur Auswahl zufälliger Stapel von Eingabedaten, einschließlich neuer und älterer Proben, und Einspeisung dieser Daten in GPU-Server für Berechnungen zur Aktualisierung von Modellparametern, und 5) Evaluierung, einschließlich der Verwendung eines zurückbehaltenen Teils der Daten, die nicht für das Training verwendet wurden, um die Modellgenauigkeit anhand der zurückbehaltenen Daten zu bewerten. Dieser Lebenszyklus kann für jede Art des parallelisierten maschinellen Lernens gelten, nicht nur für neuronale Netze oder Deep Learning. Beispielsweise können Standard-Frameworks für maschinelles Lernen auf CPUs statt auf GPUs basieren, aber die Arbeitsabläufe für die Dateneingabe und das Training können dieselben sein. Die Leser werden es zu schätzen wissen, dass eine einzige gemeinsam genutzte Datendrehscheibe einen Koordinationspunkt für den gesamten Lebenszyklus schafft, ohne dass zusätzliche Datenkopien für die Aufnahme-, Vorverarbeitungs- und Trainingsphasen erforderlich sind. Selten werden die aufgenommenen Daten nur für einen einzigen Zweck verwendet, und die gemeinsame Speicherung bietet die Flexibilität, mehrere verschiedene Modelle zu trainieren oder traditionelle Analysen auf die Daten anzuwenden.
Die Leser werden verstehen, dass jede Stufe der Kl-Datenpipeline unterschiedliche Anforderungen an die Datendrehscheibe (z. B. das Speichersystem oder die Sammlung von Speichersystemen) stellen kann. Scale-out-Speichersysteme müssen kompromisslose Leistung für alle Arten von Zugriffsarten und -mustern bieten - von kleinen, metadatenlastigen bis hin zu großen Dateien, von zufälligen bis hin zu sequentiellen Zugriffsmustern und von geringer bis hin zu hoher Gleichzeitigkeit. Die oben beschriebenen Speichersysteme können als ideale KI-Datendrehscheibe dienen, da die Systeme unstrukturierte Arbeitslasten bedienen können. In der ersten Phase werden die Daten idealerweise in dieselbe Datendrehscheibe eingespeist und dort gespeichert, die auch von den nachfolgenden Phasen verwendet wird, um übermäßiges Kopieren von Daten zu vermeiden. Die nächsten beiden Schritte können auf einem Standard-Rechenserver durchgeführt werden, der optional einen Grafikprozessor enthält, und in der vierten und letzten Stufe werden dann vollständige Trainings-Produktionsaufträge auf leistungsstarken GPU-beschleunigten Servern ausgeführt. Oft gibt es eine Produktionspipeline neben einer experimentellen Pipeline, die mit demselben Datensatz arbeitet. Darüber hinaus können die GPU-beschleunigten Server unabhängig voneinander für verschiedene Modelle verwendet oder zusammengeschlossen werden, um ein größeres Modell zu trainieren, das sogar mehrere Systeme für verteiltes Training umfasst. Wenn die gemeinsam genutzte Speicherebene langsam ist, müssen die Daten für jede Phase auf den lokalen Speicher kopiert werden, was zu Zeitverlusten bei der Bereitstellung der Daten auf verschiedenen Servern führt. Die ideale Datendrehscheibe für die KI-Trainings-Pipeline bietet eine ähnliche Leistung wie lokal auf dem Serverknoten gespeicherte Daten und ist gleichzeitig so einfach und leistungsfähig, dass alle Pipeline-Phasen gleichzeitig ablaufen können.
Ein Datenwissenschaftler arbeitet daran, die Nützlichkeit des trainierten Modells durch eine Vielzahl von Ansätzen zu verbessern: mehr Daten, bessere Daten, intelligenteres Training und tiefere Modelle. In vielen Fällen gibt es Teams von Datenwissenschaftlern, die sich dieselben Datensätze teilen und parallel an der Erstellung neuer und verbesserter Trainingsmodelle arbeiten. Oft arbeitet ein Team von Datenwissenschaftlern in diesen Phasen gleichzeitig an denselben gemeinsam genutzten Datensätzen. Mehrere gleichzeitige Arbeitslasten bei der Datenverarbeitung, beim Experimentieren und beim Training in vollem Umfang überlagern die Anforderungen der verschiedenen Zugriffsmuster auf die Speicherebene. Mit anderen Worten: Der Speicher kann nicht nur große Dateien lesen, sondern muss eine Mischung aus Lese- und Schreibvorgängen für große und kleine Dateien bewältigen. Schließlich kann es bei der Untersuchung von Datensätzen und Modellen durch mehrere Datenwissenschaftler von entscheidender Bedeutung sein, die Daten in ihrem nativen Format zu speichern, um jedem Benutzer die Flexibilität zu geben, die Daten auf einzigartige Weise zu transformieren, zu bereinigen und zu verwenden. Die oben beschriebenen Speichersysteme können einen natürlichen gemeinsamen Speicherplatz für den Datensatz bieten, mit redundanter Datensicherung (z. B. durch RAID6) und der notwendigen Leistung, um ein gemeinsamer Zugangspunkt für mehrere Entwickler und mehrere Experimente zu sein. Durch die Verwendung der oben beschriebenen Speichersysteme kann vermieden werden, dass Teilmengen der Daten für die lokale Arbeit sorgfältig kopiert werden müssen, was sowohl den Entwicklern als auch den GPU-beschleunigten Servern Zeit spart. Diese Kopien werden zu einer konstanten und wachsenden Belastung, da der Rohdatensatz und die gewünschten Transformationen ständig aktualisiert und verändert werden.
Die Leser werden verstehen, dass ein wesentlicher Grund für den großen Erfolg von Deep Learning die kontinuierliche Verbesserung der Modelle bei größeren Datensätzen ist. Im Gegensatz dazu hören klassische Algorithmen des maschinellen Lernens, wie die logistische Regression, bei kleineren Datenmengen auf, ihre Genauigkeit zu verbessern. Die Trennung von Rechen- und Speicherressourcen ermöglicht eine unabhängige Skalierung der einzelnen Ebenen und vermeidet viele der Probleme, die mit der gemeinsamen Verwaltung beider Ebenen verbunden sind. Wenn die Datenmenge wächst oder neue Datensätze berücksichtigt werden, muss ein skalierbares Speichersystem problemlos erweitert werden können. Wenn mehr gleichzeitiges Training erforderlich ist, können zusätzliche GPUs oder andere Rechenressourcen hinzugefügt werden, ohne sich um deren internen Speicher zu kümmern.
Die Leistung der Speicherebene in Bezug auf kleine Dateien kann von entscheidender Bedeutung sein, da viele Arten von Eingaben wie Text, Audio oder Bilder von Natur aus als kleine Dateien gespeichert werden. Wenn die Speicherebene kleine Dateien nicht gut handhaben kann, ist ein zusätzlicher Schritt zur Vorverarbeitung und Gruppierung von Proben in größere Dateien erforderlich. Ein Speicher, der auf rotierenden Festplatten aufgebaut ist und sich auf SSD als Caching-Ebene verlässt, kann die erforderliche Leistung nicht erreichen. Da das Training mit zufälligen Eingabestapeln zu genaueren Modellen führt, muss der gesamte Datensatz mit voller Leistung zugänglich sein. SSD-Zwischenspeicher bieten nur für eine kleine Teilmenge der Daten eine hohe Leistung und sind nicht in der Lage, die Latenz von Festplatten zu verbergen.
Obwohl in den vorangegangenen Abschnitten Deep-Learning-Anwendungen erörtert wurden, werden die Leser verstehen, dass die hier beschriebenen Speichersysteme auch Teil einer verteilten Deep-Learning-Plattform („DDL“) sein können, um die Ausführung von DDL-Algorithmen zu unterstützen. Die oben beschriebenen Speichersysteme können auch mit anderen Technologien wie TensorFlow, einer Open-Source-Softwarebibliothek für die Datenflussprogrammierung für eine Reihe von Aufgaben, die für Anwendungen des maschinellen Lernens wie neuronale Netze verwendet werden können, kombiniert werden, um die Entwicklung solcher maschinellen Lernmodelle, Anwendungen usw. zu erleichtern.
Die oben beschriebenen Speichersysteme können auch in einer neuromorphen Datenverarbeitungsumgebung verwendet werden. Neuromorphes Rechnen ist eine Form des Rechnens, die Gehirnzellen nachahmt. Zur Unterstützung des neuromorphen Rechnens ersetzt eine Architektur aus miteinander verbundenen „Neuronen“ herkömmliche Rechenmodelle durch Signale mit geringer Leistung, die direkt zwischen den Neuronen übertragen werden, um eine effizientere Berechnung zu ermöglichen. Neuromorphes Rechnen kann auf VLSI-Systeme (Very Large Scale Integration) zurückgreifen, die analoge elektronische Schaltungen enthalten, um die neurobiologischen Architekturen des Nervensystems nachzuahmen, sowie auf analoge, digitale, gemischt analog/digitale VLSI- und Softwaresysteme, die Modelle neuronaler Systeme für die Wahrnehmung, die motorische Steuerung oder die multisensorische Integration umsetzen.
Der Leser wird verstehen, dass die oben beschriebenen Speichersysteme so konfiguriert sein können, dass sie die Speicherung oder Verwendung von (neben anderen Arten von Daten) Blockchains unterstützen. Zusätzlich zur Unterstützung der Speicherung und Nutzung von Blockchain-Technologien können die oben beschriebenen Speichersysteme auch die Speicherung und Nutzung von Derivaten unterstützen, wie z. B. Open-Source-Blockchains und zugehörige Tools, die Teil des IBM™-Hyperledger-Projekts sind, genehmigte Blockchains, bei denen eine bestimmte Anzahl von vertrauenswürdigen Parteien auf die Blockchain zugreifen darf, Blockchain-Produkte, die es Entwicklern ermöglichen, ihre eigenen Distributed-Ledger-Projekte zu erstellen, und andere. Blockchains und die hier beschriebenen Speichersysteme können genutzt werden, um die Speicherung von Daten sowohl innerhalb der Chain als auch außerhalb der Chain zu unterstützen.
Die Off-Chain-Speicherung von Daten kann auf verschiedene Weise erfolgen und kann auftreten, wenn die Daten selbst nicht in der Blockchain gespeichert werden. In einer Ausführungsform kann zum Beispiel eine Hash-Funktion verwendet werden, und die Daten selbst können in die Hash-Funktion eingegeben werden, um einen Hash-Wert zu erzeugen. In einem solchen Beispiel können die Hashes großer Datenstücke in Transaktionen eingebettet werden, anstatt der Daten selbst. Der Leser wird verstehen, dass in anderen Ausführungsformen auch Alternativen zu Blockchains verwendet werden können, um die dezentrale Speicherung von Informationen zu erleichtern. Eine Alternative zu einer Blockchain kann zum Beispiel ein Blockweave sein. Während herkömmliche Blockchains jede Transaktion speichern, um eine Validierung zu erreichen, ermöglicht ein Blockweave eine sichere Dezentralisierung ohne die Verwendung der gesamten Chain, wodurch eine kostengünstige Speicherung von Daten auf der Chain ermöglicht wird. Solche Blockweaves können einen Konsensmechanismus verwenden, der auf einem Proof of Access (PoA) und einem Proof of Work (PoW) basiert. Während typische PoW-Systeme nur auf den vorherigen Block angewiesen sind, um jeden nachfolgenden Block zu erzeugen, kann der PoA-Algorithmus Daten aus einem zufällig ausgewählten vorherigen Block einbeziehen. In Kombination mit der Blockweave-Datenstruktur müssen die Miner nicht alle Blöcke speichern (die eine Blockchain bilden), sondern können alle vorherigen Blöcke speichern, die ein Geflecht aus Blöcken bilden (ein Blockweave). Dies ermöglicht ein höheres Maß an Skalierbarkeit, Schnelligkeit und geringen Kosten und senkt die Kosten für die Datenspeicherung zum Teil deshalb, weil die Miner nicht alle Blöcke speichern müssen, was zu einer erheblichen Verringerung des Stromverbrauchs während des Mining-Prozesses führt, da der Stromverbrauch mit zunehmender Ausdehnung des Netzes sinkt, weil ein Blockweave immer weniger Hashing-Leistung für die Konsensfindung erfordert, je mehr Daten dem System hinzugefügt werden. Darüber hinaus können Blockweaves in einem dezentralen Speichernetzwerk eingesetzt werden, in dem Anreize geschaffen werden, um einen schnellen Datenaustausch zu fördern. Solche dezentralen Speichernetze können auch Blockshadowing-Techniken nutzen, bei denen die Knoten nur einen minimalen Block-„Schatten“ an andere Knoten senden, der es den anderen Knoten ermöglicht, einen vollständigen Block zu rekonstruieren, anstatt den vollständigen Block selbst zu übertragen.
Die oben beschriebenen Speichersysteme können entweder allein oder in Kombination mit anderen Datenverarbeitungsgeräten zur Unterstützung von In-Memory-Computing-Anwendungen verwendet werden. Beim In-Memory-Computing werden Informationen in einem Arbeitsspeicher (RAM) gespeichert, der über eine Gruppe von Computern verteilt ist. Der Leser wird verstehen, dass die oben beschriebenen Speichersysteme, insbesondere solche, die mit anpassbaren Mengen an Verarbeitungsressourcen, Speicherressourcen und Arbeitsspeicherressourcen konfigurierbar sind (z. B. solche Systeme, in denen Blades konfigurierbare Mengen jedes Ressourcentyps enthalten), so konfiguriert werden können, dass sie eine Infrastruktur bereitstellen, die In-Memory-Computing unterstützen kann. Ebenso können die oben beschriebenen Speichersysteme Komponenten enthalten (z. B. NVDIMMs, 3D-Kreuzpunkt-Speicher, die einen schnellen, dauerhaften Direktzugriffsspeicher bereitstellen), die im Vergleich zu In-Memory-Computing-Umgebungen, die sich auf über dedizierte Server verteilten Arbeitsspeicher stützen, tatsächlich eine verbesserte In-Memory-Computing-Umgebung bieten können.
In einigen Ausführungsformen können die oben beschriebenen Speichersysteme so konfiguriert werden, dass sie als hybride In-Memory-Computing-Umgebung arbeiten, die eine universelle Schnittstelle zu allen Speichermedien (z. B. RAM, Flash-Speicher, 3D-Kreuzpunkt-Speicher enthält. In solchen Ausführungsformen haben die Benutzer keine Kenntnis darüber, wo ihre Daten gespeichert sind, können aber dennoch dieselbe vollständige, einheitliche API verwenden, um Daten anzusprechen. In solchen Fällen kann das Speichersystem (im Hintergrund) Daten auf die schnellste verfügbare Ebene verschieben - einschließlich einer intelligenten Platzierung der Daten in Abhängigkeit von verschiedenen Merkmalen der Daten oder in Abhängigkeit von einer anderen Heuristik. In einem solchen Beispiel können die Speichersysteme sogar bestehende Produkte wie Apache Ignite und GridGain nutzen, um Daten zwischen den verschiedenen Speicherebenen zu verschieben, oder die Speichersysteme können kundenspezifische Software nutzen, um Daten zwischen den verschiedenen Speicherebenen zu verschieben. Die hier beschriebenen Speichersysteme können verschiedene Optimierungen implementieren, um die Leistung des In-Memory-Computing zu verbessern, z. B. indem die Berechnungen so nah wie möglich an den Daten durchgeführt werden.
Die Leser werden ferner verstehen, dass die oben beschriebenen Speichersysteme in einigen Ausführungsformen mit anderen Ressourcen kombiniert werden können, um die oben beschriebenen Anwendungen zu unterstützen. Eine Infrastruktur könnte beispielsweise primäre Rechenleistung in Form von Servern und Workstations umfassen, die auf die Verwendung von General-Purpose-Computing auf Grafikverarbeitungseinheiten („GPGPU“) spezialisiert sind, um Deep-Learning-Anwendungen zu beschleunigen, die zu einer Berechnungsmaschine zum Trainieren von Parametern für tiefe neuronale Netze zusammengeschaltet sind. Jedes System kann über eine externe Ethernet-Verbindung, eine externe InfiniBand-Verbindung, eine andere Form der externen Verbindung oder eine Kombination davon verfügen. In einem solchen Beispiel können die GPUs für ein einziges großes Training gruppiert oder unabhängig voneinander für das Training mehrerer Modelle verwendet werden. Die Infrastruktur könnte auch ein Speichersystem wie die oben beschriebenen umfassen, um beispielsweise einen skalierbaren All-Flash-Datei- oder Objektspeicher bereitzustellen, über den der Zugriff auf Daten über Hochleistungsprotokolle wie NFS, S3 usw. erfolgen kann. Die Infrastruktur kann beispielsweise auch redundante Top-of-Rack-Ethernet-Switches umfassen, die über Ports in MLAG-Port-Kanälen mit dem Speicher und den Rechnern verbunden sind, um Redundanz zu gewährleisten. Die Infrastruktur könnte auch zusätzliche Rechenleistung in Form von Whitebox-Servern, optional mit GPUs, für Dateneingabe, Vorverarbeitung und Modell-Debugging umfassen. Die Leser werden verstehen, dass auch zusätzliche Infrastrukturen denkbar sind.
Die Leser werden verstehen, dass die oben beschriebenen Systeme für die oben beschriebenen Anwendungen besser geeignet sein können als andere Systeme, zu denen beispielsweise eine verteilte, direkt angeschlossene Speicherlösung (DDAS) gehört, die in Serverknoten eingesetzt wird. Solche DDAS-Lösungen können für die Verarbeitung großer, weniger sequentieller Zugriffe ausgelegt sein, sind aber möglicherweise weniger in der Lage, kleine, zufällige Zugriffe zu verarbeiten. Der Leser wird ferner verstehen, dass die oben beschriebenen Speichersysteme verwendet werden können, um eine Plattform für die oben beschriebenen Anwendungen bereitzustellen, die der Nutzung von cloudbasierten Ressourcen vorzuziehen ist, da die Speichersysteme in eine Vor-Ort- oder Inhouse-Infrastruktur eingebunden werden können, die sicherer, lokaler und interner verwaltet, robuster in Bezug auf Funktionen und Leistung ist oder anderweitig der Nutzung von cloudbasierten Ressourcen als Teil einer Plattform zur Unterstützung der oben beschriebenen Anwendungen vorzuziehen ist. Beispielsweise können Dienste, die auf Plattformen wie IBMs Watson aufgebaut sind, es erforderlich machen, dass ein Unternehmen individuelle Nutzerdaten, wie Informationen über Finanztransaktionen oder identifizierbare Patientendaten, an andere Einrichtungen weitergibt. Daher sind cloudbasierte Angebote von KI als Dienstleistung möglicherweise weniger wünschenswert als intern verwaltete und angebotene KI als Dienstleistung, die von Speichersystemen wie den oben beschriebenen Speichersystemen unterstützt wird, und zwar sowohl aus einer Vielzahl technischer Gründe als auch aus verschiedenen geschäftlichen Gründen.
Der Leser wird verstehen, dass die oben beschriebenen Speichersysteme entweder allein oder in Abstimmung mit anderen Rechnern so konfiguriert werden können, dass sie andere KI-bezogene Tools unterstützen. So können die Speichersysteme beispielsweise Tools wie ONXX oder andere offene Austauschformate für neuronale Netze nutzen, die die Übertragung von Modellen, die in verschiedenen Kl-Frameworks geschrieben wurden, erleichtern. Ebenso können die Speichersysteme so konfiguriert sein, dass sie Tools wie Amazons Gluon unterstützen, die es Entwicklern ermöglichen, Prototypen für Deep-Learning-Modelle zu erstellen und zu trainieren. Die oben beschriebenen Speichersysteme können sogar Teil einer größeren Plattform wie IBM™ Cloud Private for Data sein, die integrierte Data-Science-, Data-Engineering- und Anwendungsentwicklungsdienste umfasst. Solche Plattformen können Daten in einem Unternehmen nahtlos sammeln, organisieren, sichern und analysieren sowie hybrides Datenmanagement, einheitliche Datenverwaltung und -integration, Datenwissenschaft und Geschäftsanalysen mit einer einzigen Lösung vereinfachen.
Der Leser wird ferner verstehen, dass die oben beschriebenen Speichersysteme auch als Edge-Lösung eingesetzt werden können. Eine solche Edge-Lösung kann zur Optimierung von Cloud-Computing-Systemen eingesetzt werden, indem die Datenverarbeitung am Rande des Netzes, nahe der Datenquelle, durchgeführt wird. Edge Computing kann Anwendungen, Daten und Rechenleistung (d. h. Dienste) von zentralen Punkten weg an die logischen Enden eines Netzes verlagern. Durch den Einsatz von Edge-Lösungen wie den oben beschriebenen Speichersystemen können Rechenaufgaben unter Verwendung der von solchen Speichersystemen bereitgestellten Rechenressourcen durchgeführt werden, Daten können unter Verwendung der Speicherressourcen des Speichersystems gespeichert werden, und auf cloudbasierte Dienste kann durch die Verwendung verschiedener Ressourcen des Speichersystems (einschließlich Netzwerkressourcen) zugegriffen werden. Durch die Ausführung von Rechenaufgaben auf der Edge-Lösung, das Speichern von Daten auf der Edge-Lösung und die allgemeine Nutzung der Edge-Lösung kann der Verbrauch teurer cloudbasierter Ressourcen vermieden werden, und es können sogar Leistungsverbesserungen im Vergleich zu einer stärkeren Abhängigkeit von cloudbasierten Ressourcen erzielt werden.
Während viele Aufgaben von der Nutzung einer Edge-Lösung profitieren können, eignen sich einige spezielle Anwendungen besonders für den Einsatz in einer solchen Umgebung. So können Geräte wie Drohnen, autonome Autos, Roboter und andere eine extrem schnelle Verarbeitung erfordern - so schnell, dass das Senden von Daten in eine Cloud-Umgebung und das Zurücksenden zur Unterstützung der Datenverarbeitung einfach zu langsam sein kann. Ebenso können Maschinen wie Lokomotiven und Gasturbinen, die durch den Einsatz einer Vielzahl von datenerzeugenden Sensoren große Mengen an Informationen generieren, von den schnellen Datenverarbeitungsfunktionen einer Edge-Lösung profitieren. Ein weiteres Beispiel: Einige loT-Geräte wie vernetzte Videokameras eignen sich möglicherweise nicht für die Nutzung cloudbasierter Ressourcen, da es (nicht nur aus Sicht des Datenschutzes, der Sicherheit oder aus finanzieller Sicht) unpraktisch sein kann, die Daten in die Cloud zu senden, allein schon wegen der damit verbundenen Datenmenge. Daher sind viele Aufgaben, bei denen es wirklich um Datenverarbeitung, -speicherung oder -kommunikation geht, besser für Plattformen geeignet, die Edge-Lösungen wie die oben beschriebenen Speichersysteme umfassen.
Die oben beschriebenen Speichersysteme können allein oder in Kombination mit anderen Rechenressourcen als Netzwerk-Edge-Plattform dienen, die Rechenressourcen, Speicherressourcen, Netzressourcen, Cloud-Technologien und Netz-Virtualisierungstechnologien usw. kombiniert. Als Teil des Netzwerks kann der Edge ähnliche Eigenschaften wie andere Netzeinrichtungen aufweisen, vom Kundenstandort und Backhaul-Aggregationseinrichtungen bis hin zu Points of Presence (PoPs) und regionalen Rechenzentren. Die Leser werden verstehen, dass Netzwerk-Workloads, wie z. B. virtuelle Netzwerkfunktionen (VNFs) und andere, auf der Netzwerk-Edge-Plattform angesiedelt sein werden. Durch eine Kombination aus Containern und virtuellen Maschinen kann die Network-Edge-Plattform auf Controller und Scheduler zurückgreifen, die nicht mehr geografisch mit den Datenverarbeitungsressourcen verbunden sind. Die Funktionen können als Microservices in Steuerebenen, Benutzer- und Datenebenen oder sogar Zustandsmaschinen aufgeteilt werden, so dass unabhängige Optimierungs- und Skalierungstechniken angewendet werden können. Solche Benutzer- und Datenebenen können durch verstärkte Beschleuniger ermöglicht werden, sowohl durch solche, die sich in Serverplattformen befinden, wie FPGAs und Smart NICs, als auch durch SDN-fähiges Handelssilizium und programmierbare ASICs.
Die oben beschriebenen Speichersysteme können auch für den Einsatz in der Big-Data-Analytik optimiert werden. Big-Data-Analytik kann allgemein als der Prozess der Untersuchung großer und vielfältiger Datensätze beschrieben werden, um verborgene Muster, unbekannte Korrelationen, Markttrends, Kundenpräferenzen und andere nützliche Informationen aufzudecken, die Unternehmen helfen können, fundiertere Geschäftsentscheidungen zu treffen. Big-Data-Analyseanwendungen ermöglichen es Datenwissenschaftlern, Prognosemodellierern, Statistikern und anderen Analysefachleuten, wachsende Mengen an strukturierten Transaktionsdaten sowie andere Formen von Daten zu analysieren, die von herkömmlichen Business-Intelligence- (Bl) und Analyseprogrammen oft nicht genutzt werden. Im Rahmen dieses Prozesses können halbstrukturierte und unstrukturierte Daten, wie z. B. Internet-Clickstream-Daten, Webserver-Protokolle, Social-Media-Inhalte, Texte aus Kunden-E-Mails und Umfrageantworten, Mobiltelefon-Anrufdetailaufzeichnungen, loT-Sensordaten und andere Daten in eine strukturierte Form umgewandelt werden. Big-Data-Analytik ist eine Form der fortgeschrittenen Analytik, die komplexe Anwendungen mit Elementen wie Vorhersagemodellen, statistischen Algorithmen und Was-wäre-wenn-Analysen umfasst, die von leistungsstarken Analysesystemen unterstützt werden.
Die oben beschriebenen Speichersysteme können auch Anwendungen unterstützen (einschließlich der Implementierung als Systemschnittstelle), die Aufgaben in Reaktion auf menschliche Sprache ausführen. So können die Speichersysteme beispielsweise die Ausführung intelligenter persönlicher Assistentenanwendungen wie Alexa von Amazon, Siri von Apple, Google Voice, Bixby von Samsung, Cortana von Microsoft und andere unterstützen. Während die im vorigen Satz beschriebenen Beispiele die Sprache als Eingabe verwenden, können die oben beschriebenen Speichersysteme auch Chatbots, Talkbots, Chatterbots oder künstliche Gesprächsentitäten oder andere Anwendungen unterstützen, die so konfiguriert sind, dass sie ein Gespräch über auditive oder textuelle Verfahren führen. Ebenso kann das Speichersystem eine solche Anwendung tatsächlich ausführen, um einem Benutzer, z. B. einem Systemadministrator, die Interaktion mit dem Speichersystem über Sprache zu ermöglichen. Solche Anwendungen sind im Allgemeinen in der Lage, Sprachinteraktion, Musikwiedergabe, das Erstellen von Aufgabenlisten, das Einstellen von Alarmen, das Streaming von Podcasts, das Abspielen von Hörbüchern und das Bereitstellen von Wetter-, Verkehrs- und anderen Echtzeitinformationen, wie z. B. Nachrichten, zu ermöglichen, obwohl in Ausführungsformen gemäß der vorliegenden Offenlegung solche Anwendungen als Schnittstellen zu verschiedenen Systemverwaltungsvorgängen verwendet werden können.
Die oben beschriebenen Speichersysteme können auch Kl-Plattformen implementieren, um die Vision eines selbststeuernden Speichers zu verwirklichen. Solche Kl-Plattformen können so konfiguriert werden, dass sie globale prädiktive Intelligenz liefern, indem sie große Mengen von Telemetriedaten des Speichersystems sammeln und analysieren, um mühelos Verwaltung, Analyse und Support zu ermöglichen. Solche Speichersysteme können sowohl die Kapazität als auch die Leistung vorhersagen und intelligente Empfehlungen für den Einsatz, die Interaktion und die Optimierung von Arbeitslasten geben. Solche Kl-Plattformen können so konfiguriert werden, dass sie alle eingehenden Telemetriedaten des Speichersystems mit einer Bibliothek von thematischen Fingerabdrücken abgleichen, um Störungen in Echtzeit vorherzusagen und zu beheben, bevor sie sich auf Kundenumgebungen auswirken, und Hunderte von leistungsbezogenen Variablen erfassen, die zur Vorhersage der Leistungsbelastung verwendet werden.
Die oben beschriebenen Speichersysteme können die serielle oder gleichzeitige Ausführung von Anwendungen der künstlichen Intelligenz, Anwendungen des maschinellen Lernens, Datenanalyseanwendungen, Datentransformationen und anderen Aufgaben unterstützen, die zusammen eine Kl-Leiter bilden können. Eine solche KI-Leiter kann durch die Kombination solcher Elemente zu einer vollständigen Data-Science-Pipeline gebildet werden, wobei Abhängigkeiten zwischen den Elementen der Kl-Leiter bestehen. Beispielsweise kann KI voraussetzen, dass eine Form des maschinellen Lernens stattgefunden hat, maschinelles Lernen kann voraussetzen, dass eine Form der Analyse stattgefunden hat, Analyse kann voraussetzen, dass eine Form der Daten- und Informationsarchitektur stattgefunden hat, und so weiter. So kann jedes Element als eine Sprosse auf einer Kl-Leiter betrachtet werden, die zusammen eine vollständige und hochentwickelte Kl-Lösung bilden kann.
Die oben beschriebenen Speichersysteme können auch, entweder allein oder in Kombination mit anderen Computerumgebungen, verwendet werden, um eine umfassende KI-Erfahrung bereitzustellen, bei der KI weite und ausgedehnte Aspekte der Wirtschaft und des Lebens durchdringt. Beispielsweise kann KI eine wichtige Rolle bei der Bereitstellung von Deep Learning-Lösungen, Deep Reinforcement Learning-Lösungen, Lösungen für künstliche allgemeine Intelligenz, autonomen Fahrzeugen, kognitiven Computerlösungen, kommerziellen UAVs oder Drohnen, konversationellen Benutzerschnittstellen, Unternehmenstaxonomien, Ontologie-Management-Lösungen, maschinellen Lernlösungen, Smart Dust, intelligenten Robotern, intelligenten Arbeitsplätzen und vielen anderen spielen. Die oben beschriebenen Speichersysteme können auch, entweder allein oder in Kombination mit anderen Computerumgebungen, verwendet werden, um ein breites Spektrum an transparenten immersiven Erfahrungen zu bieten, bei denen die Technologie Transparenz zwischen Menschen, Unternehmen und Dingen schaffen kann. Solche transparenten, immersiven Erfahrungen können in Form von Augmented-Reality-Technologien, Connected Homes, Virtual-Reality-Technologien, Brain-Computer-Interfaces, Human-Augmentation-Technologien, Nanoröhrenelektronik, volumetrischen Displays, 4D-Drucktechnologien oder anderen bereitgestellt werden. Die oben beschriebenen Speichersysteme können auch, entweder allein oder in Kombination mit anderen Computerumgebungen, zur Unterstützung einer Vielzahl von digitalen Plattformen verwendet werden. Solche digitalen Plattformen können beispielsweise 5G-Mobilfunksysteme und -plattformen, digitale Zwillingsplattformen, Edge-Computing-Plattformen, loT-Plattformen, Quantencomputerplattformen, serverlose PaaS, softwaredefinierte Sicherheit, neuromorphe Computerplattformen usw. umfassen.
Die Leser werden verstehen, dass einige transparente immersive Erfahrungen die Verwendung von digitalen Zwillingen verschiedener „Dinge“ wie Menschen, Orte, Prozesse, Systeme usw. beinhalten können. Solche digitalen Zwillinge und andere immersive Technologien können die Art und Weise, wie Menschen mit Technologie interagieren, verändern, da Konversationsplattformen, Augmented Reality, Virtual Reality und Mixed Reality eine natürlichere und immersivere Interaktion mit der digitalen Welt ermöglichen. Tatsächlich können digitale Zwillinge mit der realen Welt verbunden werden, vielleicht sogar in Echtzeit, um den Zustand einer Sache oder eines Systems zu verstehen, auf Veränderungen zu reagieren usw. Da digitale Zwillinge riesige Mengen an Informationen über einzelne Assets und Gruppen von Assets konsolidieren (und möglicherweise sogar die Kontrolle über diese Assets übernehmen), können digitale Zwillinge miteinander kommunizieren, um digitale Fabrikmodelle von mehreren miteinander verbundenen digitalen Zwillingen zu erstellen.
Die oben beschriebenen Speichersysteme können auch Teil einer Multi-Cloud-Umgebung sein, in der mehrere Cloud-Computing- und Speicherdienste in einer einzigen heterogenen Architektur eingesetzt werden. Um den Betrieb einer solchen Multi-Cloud-Umgebung zu erleichtern, können DevOps-Tools eingesetzt werden, um eine Cloud-übergreifende Orchestrierung zu ermöglichen. Ebenso können Tools für die kontinuierliche Entwicklung und die kontinuierliche Integration eingesetzt werden, um die Prozesse für die kontinuierliche Integration und Bereitstellung, die Einführung neuer Funktionen und die Bereitstellung von Cloud-Workloads zu standardisieren. Durch die Standardisierung dieser Prozesse kann eine Multi-Cloud-Strategie implementiert werden, die die Nutzung des besten Anbieters für jede Arbeitslast ermöglicht. Darüber hinaus können Tools zur Anwendungsüberwachung und -transparenz eingesetzt werden, um Anwendungs-Workloads zwischen verschiedenen Clouds zu verschieben, Leistungsprobleme zu erkennen und andere Aufgaben zu erfüllen. Darüber hinaus können Sicherheits- und Compliance-Tools eingesetzt werden, um die Einhaltung von Sicherheitsanforderungen, gesetzlichen Vorschriften usw. zu gewährleisten. Eine solche Multi-Cloud-Umgebung kann auch Tools für die Anwendungsbereitstellung und die intelligente Verwaltung von Arbeitslasten umfassen, um eine effiziente Anwendungsbereitstellung zu gewährleisten und Arbeitslasten über die verteilte und heterogene Infrastruktur zu lenken, sowie Tools, die die Bereitstellung und Wartung von paketierten und benutzerdefinierten Anwendungen in der Cloud erleichtern und die Übertragbarkeit zwischen Clouds ermöglichen. Die Multi-Cloud-Umgebung kann in ähnlicher Weise Werkzeuge für die Datenportabilität umfassen.
Die oben beschriebenen Speichersysteme können als Teil einer Plattform verwendet werden, um die Verwendung von Krypto-Ankern zu ermöglichen, die zur Authentifizierung der Herkunft und des Inhalts eines Produkts verwendet werden können, um sicherzustellen, dass es mit einem mit dem Produkt verbundenen Blockchain-Datensatz übereinstimmt. Solche Krypto-Anker können viele Formen annehmen, z. B. als essbare Tinte, als mobiler Sensor, als Mikrochip und andere. In ähnlicher Weise können die oben beschriebenen Speichersysteme als Teil einer Reihe von Werkzeugen zur Sicherung der auf dem Speichersystem gespeicherten Daten verschiedene Verschlüsselungstechnologien und -verfahren implementieren, einschließlich der Gitterkryptografie. Die Gitterkryptografie kann Konstruktionen von kryptografischen Primitiven beinhalten, die entweder in der Konstruktion selbst oder im Sicherheitsnachweis mit Gittern arbeiten. Im Gegensatz zu Public-Key-Verfahren wie RSA-, Diffie-Hellman- oder Elliptic-Curve-Kryptosystemen, die leicht von einem Quantencomputer angegriffen werden können, scheinen einige gitterbasierte Konstruktionen sowohl gegen Angriffe durch klassische als auch durch Quantencomputer resistent zu sein.
Ein Quantencomputer ist ein Gerät, das Quantenberechnungen durchführt. Quantencomputer sind Rechner, die quantenmechanische Phänomene wie Überlagerung und Verschränkung nutzen. Quantencomputer unterscheiden sich von herkömmlichen Computern, die auf Transistoren basieren, da bei diesen Computern die Daten in binären Ziffern (Bits) kodiert werden müssen, von denen sich jede immer in einem von zwei bestimmten Zuständen (0 oder 1) befindet. Im Gegensatz zu herkömmlichen Computern verwenden Quantencomputer Quantenbits, die sich in Überlagerungen von Zuständen befinden können. Ein Quantencomputer verwaltet eine Folge von Qubits, wobei ein einzelnes Qubit eine Eins, eine Null oder eine beliebige Quantenüberlagerung dieser beiden Qubit-Zustände darstellen kann. Ein Qubit-Paar kann sich in einer beliebigen Quantenüberlagerung von 4 Zuständen befinden, und drei Qubits in einer beliebigen Überlagerung von 8 Zuständen. Ein Quantencomputer mit n Qubits kann sich im Allgemeinen in einer beliebigen Überlagerung von bis zu 2^n verschiedenen Zuständen gleichzeitig befinden, während sich ein herkömmlicher Computer immer nur in einem dieser Zustände befinden kann. Eine Quanten-Turing-Maschine ist ein theoretisches Modell eines solchen Computers.
Die oben beschriebenen Speichersysteme können auch mit FPGA-beschleunigten Servern als Teil einer größeren Kl- oder ML-Infrastruktur gepaart werden. Solche FPGA-beschleunigten Server können sich in der Nähe (z. B. im selben Rechenzentrum) der oben beschriebenen Speichersysteme befinden oder sogar in eine Appliance integriert sein, die ein oder mehrere Speichersysteme, einen oder mehrere FPGAbeschleunigte Server, eine Netzwerkinfrastruktur, die die Kommunikation zwischen dem einen oder den mehreren Speichersystemen und dem einen oder den mehreren FPGA-beschleunigten Servern unterstützt, sowie andere Hardware- und Softwarekomponenten umfasst. Alternativ können sich FPGAbeschleunigte Server in einer Cloud-Computing-Umgebung befinden, die zur Ausführung rechenbezogener Aufgaben für Kl- und ML-Aufgaben verwendet werden kann. Jede der oben beschriebenen Ausführungsformen kann gemeinsam als FPGA-basierte Kl- oder ML-Plattform verwendet werden. Der Leser wird verstehen, dass in einigen Ausführungsformen der FPGA-basierten Kl- oder ML-Plattform die FPGAs, die in den FPGA-beschleunigten Servern enthalten sind, für verschiedene Arten von ML-Modellen (z. B. LSTMs, CNNs, GRUs) rekonfiguriert werden können. Die Möglichkeit, die in den FPGA-beschleunigten Servern enthaltenen FPGAs neu zu konfigurieren, kann die Beschleunigung einer ML- oder Kl-Anwendung auf der Grundlage der optimalen numerischen Präzision und des am häufigsten verwendeten Speichermodells ermöglichen. Die Leser werden verstehen, dass durch die Behandlung der Sammlung von FPGA-beschleunigten Servern als FPGA-Pool jede CPU im Rechenzentrum den FPGA-Pool als gemeinsam genutzten Hardware-Microservice nutzen kann, anstatt einen Server auf dedizierte Beschleuniger zu beschränken, die an ihn angeschlossen sind.
Die oben beschriebenen FPGA-beschleunigten Server und GPU-beschleunigten Server können ein Rechenmodell implementieren, bei dem das Modell des maschinellen Lernens und die Parameter in den On-Chip-Speicher mit hoher Bandbreite eingebettet sind und viele Daten durch den On-Chip-Speicher mit hoher Bandbreite strömen, anstatt eine kleine Datenmenge in einer CPU zu speichern und einen langen Strom von Befehlen darüber laufen zu lassen, wie dies bei traditionelleren Rechenmodellen der Fall ist. FPGAs können für dieses Berechnungsmodell sogar effizienter sein als GPUs, da die FPGAs nur mit den Anweisungen programmiert werden können, die für diese Art von Berechnungsmodell erforderlich sind.
Die oben beschriebenen Speichersysteme können so konfiguriert werden, dass sie eine parallele Speicherung ermöglichen, z. B. durch die Verwendung eines parallelen Dateisystems wie BeeGFS. Solche parallelen Dateisysteme können eine Architektur verteilter Metadaten enthalten. Das parallele Dateisystem kann beispielsweise eine Vielzahl von Metadatenservern umfassen, auf die die Metadaten verteilt werden, sowie Komponenten, die Dienste für Clients und Speicherserver umfassen. Durch die Verwendung eines parallelen Dateisystems können Dateiinhalte über eine Vielzahl von Speicherservern unter Verwendung von Striping verteilt werden, und Metadaten können über eine Vielzahl von Metadatenservern auf einer Verzeichnisebene verteilt werden, wobei jeder Server einen Teil des gesamten Dateisystembaums speichert. In einigen Ausführungsformen können die Speicherserver und Metadatenserver im Userspace auf einem bestehenden lokalen Dateisystem laufen. Außerdem ist für die Client-Dienste, die Metadatenserver oder die Hardwareserver keine spezielle Hardware erforderlich, da die Metadatenserver, die Speicherserver und sogar die Client-Dienste auf denselben Rechnern ausgeführt werden können.
Die oben beschriebenen Systeme können die Ausführung einer breiten Palette von Softwareanwendungen unterstützen. Solche Softwareanwendungen können auf unterschiedliche Weise bereitgestellt werden, einschließlich Container-basierter Bereitstellungsmodelle. Containerisierte Anwendungen können mit einer Vielzahl von Tools verwaltet werden. Beispielsweise können containerisierte Anwendungen mit Docker Swarm verwaltet werden, einem Clustering- und Scheduling-Tool für Docker-Container, mit dem IT-Administratoren und Entwickler einen Cluster von Docker-Knoten als ein einziges virtuelles System einrichten und verwalten können. Ebenso können containerisierte Anwendungen mit Hilfe von Kubernetes verwaltet werden, einem Container-Orchestrierungssystem zur Automatisierung der Bereitstellung, Skalierung und Verwaltung von containerisierten Anwendungen. Kubernetes kann auf Betriebssystemen wie z. B. Red Hat Enterprise Linux, Ubuntu Server, SUSE Linux Enterprise Server und anderen ausgeführt werden. In solchen Beispielen kann ein Master-Knoten Aufgaben an Worker/Minion-Knoten zuweisen. Kubernetes kann eine Reihe von Komponenten (z. B. kubelet, kube-proxy, cAdvisor) enthalten, die einzelne Knoten verwalten, sowie eine Reihe von Komponenten (z. B. etcd, API-Server, Scheduler, Control Manager), die eine Steuerungsebene bilden. Verschiedene Controller (z. B. Replication Controller, DaemonSet Controller) können den Zustand eines Kubernetes-Clusters steuern, indem sie eine Reihe von Pods verwalten, die einen oder mehrere Container enthalten, die auf einem einzelnen Knoten bereitgestellt werden. Containerisierte Anwendungen können verwendet werden, um ein serverloses, Cloud-natives Computing-Bereitstellungs- und Verwaltungsmodell für Softwareanwendungen zu erleichtern. Zur Unterstützung eines serverlosen, Cloud-nativen Computing-Bereitstellungs- und -Verwaltungsmodells für Softwareanwendungen können Container als Teil eines Mechanismus zur Ereignisbehandlung (z. B. AWS Lambdas) verwendet werden, sodass verschiedene Ereignisse dazu führen, dass eine containerisierte Anwendung gestartet wird, um als Ereignisbehandler zu fungieren.
Die oben beschriebenen Systeme können auf verschiedene Weise eingesetzt werden, unter anderem so, dass sie Netze der fünften Generation („5G“) unterstützen. 5G-Netze können eine wesentlich schnellere Datenkommunikation unterstützen als frühere Generationen von Mobilfunknetzen und infolgedessen zu einer Disaggregation von Daten- und Rechenressourcen führen, da moderne große Rechenzentren an Bedeutung verlieren und beispielsweise durch lokalere Mikro-Rechenzentren ersetzt werden können, die sich in der Nähe der Mobilfunktürme befinden. Die oben beschriebenen Systeme können in solchen lokalen Mikro-Rechenzentren enthalten sein und können Teil von Multi-Access-Edge-Computing-Systemen („MEC“) sein oder mit diesen gekoppelt werden. Solche MEC-Systeme können Cloud-Computing-Funktionen und eine IT-Dienstumgebung am Rande des Mobilfunknetzes ermöglichen. Durch die Ausführung von Anwendungen und damit zusammenhängenden Verarbeitungsaufgaben näher am Mobilfunkkunden kann die Netzüberlastung verringert und die Leistung der Anwendungen verbessert werden. Die MEC-Technologie ist so konzipiert, dass sie an den Mobilfunk-Basisstationen oder anderen Edge-Knotenpunkten implementiert werden kann und eine flexible und schnelle Einführung neuer Anwendungen und Dienste für Kunden ermöglicht. MEC kann es Mobilfunkbetreibern auch ermöglichen, ihr Funkzugangsnetz („RAN“) für zugelassene Dritte wie Anwendungsentwickler und Inhaltsanbieter zu öffnen. Darüber hinaus können Edge Computing und Mikrorechenzentren die Kosten von Smartphones, die mit dem 5G-Netz arbeiten, erheblich senken, da die Kunden keine Geräte mit einer so intensiven Rechenleistung und den teuren erforderlichen Komponenten benötigen.
Die Leser werden verstehen, dass 5G-Netze mehr Daten erzeugen können als frühere Netzgenerationen, insbesondere angesichts der Tatsache, dass die hohe Netzwerkbandbreite, die 5G-Netze bieten, dazu führen kann, dass die 5G-Netze Datenmengen und -typen verarbeiten können (z. B. Sensordaten von selbstfahrenden Autos, von AR/VR-Technologien erzeugte Daten), die für Netze der vorherigen Generation nicht so gut geeignet waren. In solchen Beispielen kann die Skalierbarkeit, die die oben beschriebenen Systeme bieten, sehr wertvoll sein, wenn die Datenmenge zunimmt, die Einführung neuer Technologien steigt usw.
Zur weiteren Erläuterung zeigt 3D ein beispielhaftes Computergerät 350, das speziell für die Durchführung eines oder mehrerer der hier beschriebenen Prozesse konfiguriert werden kann. Wie in 3D gezeigt, kann die Rechenvorrichtung 350 eine Kommunikationsschnittstelle 352, einen Prozessor 354, ein Speichergerät 356 und ein Eingabe-/Ausgabemodul 358 umfassen, die über eine Kommunikationsinfrastruktur 360 miteinander verbunden sind. Obwohl in 3D ein beispielhaftes Computergerät 350 gezeigt wird, sind die in 3D dargestellten Komponenten nicht als Einschränkung zu verstehen. Zusätzliche oder alternative Komponenten können in anderen Ausführungsformen verwendet werden. Die in 3D gezeigten Komponenten des Computergeräts 350 werden nun im Detail beschrieben.
Die Kommunikationsschnittstelle 352 kann so konfiguriert sein, dass sie mit einem oder mehreren Computergeräten kommuniziert. Beispiele für eine Kommunikationsschnittstelle 352 sind unter anderem eine drahtgebundene Netzwerkschnittstelle (z. B. eine Netzwerkschnittstellenkarte), eine drahtlose Netzwerkschnittstelle (z. B. eine drahtlose Netzwerkschnittstellenkarte), ein Modem, eine Audio-/Videoverbindung und jede andere geeignete Schnittstelle.
Der Prozessor 354 stellt im Allgemeinen eine beliebige Art oder Form einer Verarbeitungsvorrichtung dar, die in der Lage ist, Daten zu verarbeiten und/oder eine oder mehrere der hier beschriebenen Anweisungen, Prozesse und/oder Operationen zu interpretieren, auszuführen und/oder deren Ausführung zu steuern. Der Prozessor 354 kann Operationen durchführen, indem er computerausführbare Anweisungen 362 (z. B. eine Anwendung, Software, einen Code und/oder andere ausführbare Dateninstanzen) ausführt, die in der Speichervorrichtung 356 gespeichert sind.
Die Speichervorrichtung 356 kann ein oder mehrere Datenspeichermedien, -geräte oder - konfigurationen enthalten und kann jede Art, Form und Kombination von Datenspeichermedien und/oder - geräten verwenden. Beispielsweise kann die Speichervorrichtung 356 eine beliebige Kombination der hier beschriebenen nichtflüchtigen Medien und/oder flüchtigen Medien enthalten, ist aber nicht darauf beschränkt. Elektronische Daten, einschließlich der hierin beschriebenen Daten, können vorübergehend und/oder dauerhaft in der Speichervorrichtung 356 gespeichert werden. Beispielsweise können Daten, die für computerausführbare Anweisungen 362 stehen, die so konfiguriert sind, dass sie den Prozessor 354 anweisen, einen der hier beschriebenen Vorgänge durchzuführen, in der Speichervorrichtung 356 gespeichert werden. In einigen Beispielen können die Daten in einer oder mehreren Datenbanken angeordnet sein, die sich in der Speichervorrichtung 356 befinden.
Das E/A-Modul 358 kann ein oder mehrere E/A-Module enthalten, die so konfiguriert sind, dass sie Benutzereingaben empfangen und Benutzerausgaben bereitstellen. Das E/A-Modul 358 kann eine beliebige Hardware, Firmware, Software oder eine Kombination davon enthalten, die die Eingabe- und Ausgabefunktionen unterstützt. Beispielsweise kann das E/A-Modul 358 Hardware und/oder Software zur Erfassung von Benutzereingaben enthalten, einschließlich, aber nicht beschränkt auf eine Tastatur oder ein Tastenfeld, eine Touchscreen-Komponente (z. B. ein Touchscreen-Display), einen Empfänger (z. B. einen RF- oder Infrarotempfänger), Bewegungssensoren und/oder eine oder mehrere Eingabetasten.
Das E/A-Modul 358 kann ein oder mehrere Geräte zur Ausgabe an einen Benutzer enthalten, einschließlich, aber nicht beschränkt auf eine Grafik-Engine, ein Display (z. B. einen Bildschirm), einen oder mehrere Ausgabetreiber (z. B. Display-Treiber), einen oder mehrere Audio-Lautsprecher und einen oder mehrere Audio-Treiber. In bestimmten Ausführungsformen ist das E/A-Modul 358 so konfiguriert, dass es grafische Daten an eine Anzeige zur Präsentation für einen Benutzer bereitstellt. Die grafischen Daten können eine oder mehrere grafische Benutzeroberflächen und/oder einen anderen grafischen Inhalt darstellen, der für eine bestimmte Implementierung geeignet ist. In einigen Beispielen kann jedes der hier beschriebenen Systeme, Computergeräte und/oder anderen Komponenten durch das Computergerät 350 implementiert werden.
Die Vorteile und Merkmale der vorliegenden Offenbarung können durch die folgenden Aussagen weiter beschrieben werden:

1. Verfahren zum Speichern eines oder mehrerer Datensätze in einem oder mehreren Festkörperspeichergeräten der Vielzahl von Festkörperspeichergeräten; Erzeugen eines oder mehrerer Tags für jeden der einen oder mehreren Datensätze auf der Grundlage eines oder mehrerer Metadatenelemente, die mit jedem Datensatz verbunden sind; Bestimmen einer erwarteten Lebensdauer für jeden Datensatz auf der Grundlage des einen oder der mehreren Tags, die für den jeweiligen Datensatz erzeugt wurden; und Gruppieren von jedem des einen oder der mehreren Datensätze in entsprechende einer Vielzahl von Speicherblöcken auf der Grundlage der erwarteten Lebensdauer für jeden Datensatz, wobei jeder Speicherblock Datensätzen mit einer bestimmten erwarteten Lebensdauer entspricht.
2. Das Verfahren nach Aussage 1, wobei das eine oder die mehreren Metadatenelemente ein Quellvolume, einen Schreibzeitstempel, einen Lesezeitstempel, einen Duplizierungszeitstempel, eine Verschlüsselungsangabe, eine Snapshot-Angabe oder eine Komprimierungsangabe umfassen.
3. Das Verfahren nach Aussage 2 oder Aussage 1, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine Garbage-Collection-Operation an einem ersten Speicherblock der Vielzahl von Speicherblöcken durchzuführen, wobei die Garbage-Collection-Operation am Ende der erwarteten Lebensdauer, entsprechend dem ersten Speicherblock, durchgeführt wird.
4. Das Verfahren nach Aussage 3, Aussage 2 oder Aussage 1 umfasst ferner das Empfangen eines ersten Datensatzes von einem ersten Quellvolumen und eines zweiten Datensatzes von einem zweiten Quellvolumen; das Erzeugen eines ersten Quellvolumen-Tags für den ersten Datensatz und eines zweiten Quellvolumen-Tags für den zweiten Datensatz; das Speichern des ersten Datensatzes in einem ersten Speicherblock, der zumindest teilweise auf dem ersten Quellvolumen-Tag basiert; und das Speichern des zweiten Datensatzes in einem zweiten Speicherblock, der zumindest teilweise auf dem zweiten Quellvolumen-Tag basiert.
5. Das Verfahren nach Aussage 4, Aussage 3, Aussage 2 oder Aussage 1, wobei die erwartete Lebensdauer einen erwarteten Lebensdauerbereich umfasst.
6. Das Verfahren nach Aussage 5, Aussage 4, Aussage 3, Aussage 2 oder Aussage 1, wobei das Bestimmen der erwarteten Lebensdauer für jeden Datensatz das Durchführen einer statistischen Analyse an dem einen oder den mehreren, für den jeweiligen Datensatz erzeugten Tags umfasst.
7. Das Verfahren nach Aussage 6, Aussage 5, Aussage 4, Aussage 3, Aussage 2 oder Aussage 1, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine oder mehrere Operationen an einem der mehreren Speicherblöcke durchzuführen, wobei die eine oder mehreren Operationen eine Duplizierungsoperation, eine Deduplizierungsoperation, eine Komprimierungsoperation, eine Verschlüsselungsoperation oder eine Snapshot-Operation umfassen.

4 ist ein Beispiel für ein Verfahren 400 zum Erzeugen von Tags für Datensätze, um Daten in Übereinstimmung mit Ausführungsformen der Offenbarung effizienter zu speichern. Im Allgemeinen kann das Verfahren 400 von einer Verarbeitungslogik durchgeführt werden, die Hardware (z. B. Verarbeitungsgerät, Schaltungen, dedizierte Logik, programmierbare Logik, Mikrocode, Hardware eines Geräts, integrierte Schaltung usw.), Software (z. B. Befehle, die auf einem Verarbeitungsgerät ausgeführt werden) oder eine Kombination davon umfassen kann. In einigen Ausführungsformen kann das Verfahren 400 ausgeführt werden durch Verarbeitungslogik einer Speichersteuerung eines Speichersystems, wie zuvor in den 1A-3D beschrieben.
Das Verfahren 400 kann in Block 402 beginnen, wo die Verarbeitungslogik Datensätze (im Folgenden auch als „Benutzerdaten“ bezeichnet) speichert, die auf einem Festkörperspeichergerät eines Speichersystems programmiert werden sollen. In Block 404 erzeugt die Verarbeitungslogik ein oder mehrere Tags für jeden Datensatz auf der Grundlage eines oder mehrerer Metadatenelemente, die mit den Daten verbunden sind. Bei den Tags kann es sich um jedes geeignete Tag handeln, das Informationen über den Datensatz enthält. Beispiele für Tags sind ein Lese-Tag, ein Schreib-Tag, ein Duplikat-Tag, ein De-Duplikat-Tag, ein Komprimierungs-Tag, ein Verschlüsselungs-Tag, ein Snapshot-Tag oder jedes andere geeignete Tag. In einigen Ausführungsformen können die Metadaten alle Informationen enthalten, die sich auf den Datensatz beziehen, wie z. B. das Quellvolumen, die Größe der Daten, das Entstehungsdatum, die Menge der verwandten Daten, die vom selben Quellvolumen stammen, oder andere geeignete Informationen. Einem Datensatz können beispielsweise zwei Metadaten zugeordnet sein: ein Quellvolume, welches ein Client-Gerät angibt, das den Datensatz gesendet hat, und das eine eindeutige Gerätekennung enthalten kann; und eine Größe des Datensatzes, die angibt, dass der Datensatz 950 KB groß ist.
In einigen Ausführungsformen können die Metadaten Informationen enthalten, die mit der Speicherpraxis eines bestimmten Clients verbunden sind. Die Speicherpraxis lässt sich daraus ableiten, was und wie der Speicherclient seine Datensätze im Speichersystem speichert oder aktualisiert. Die Verarbeitungslogik kann diese Informationen verwenden, um zu bestimmen, wie sich ein Satz von Speicherblöcken auf Teile der von einer Anwendung gespeicherten Daten bezieht, die bestimmte nützliche Eigenschaften haben können. Beispiele für solche Informationen können sein: eine bestimmte Image-Datei einer virtuellen Maschine, ein oder mehrere Snapshot-Blöcke einer virtuellen Maschine, ein Redo-Log, ein Undo-Log, ein Archiv, ein temporärer Tablespace und ein archivierter Tablespace. Ein weiteres Beispiel für diese Informationen kann eine Datei eines bestimmten Typs sein, die in einem Dateisystem gespeichert ist, von der erwartet wird, dass sie unverändert bleibt oder die sich voraussichtlich häufig ändert. Diese Informationen können für das Speichersystem nützlich sein, da es schwierig oder unpraktisch sein kann, die Positionen von Unterregionen mit genauer Granularität zu identifizieren, da Objekte über ein oder mehrere Extents des logischen Raums in einem oder mehreren Quellvolumes verteilt sein können. Das Speichersystem kann den Schreib- und Lesezugriff im Laufe der Zeit überwachen und einen Rückschluss auf den zukünftigen Zugriff auf bestimmte Speicherblöcke oder Regionen innerhalb eines Speicherblocks ziehen.
In manchen Fällen kann ein Metadatenelement einen Unterbereich eines Quellvolumens umfassen. Beispielsweise kann das Metadatenelement eine Adresse und eine Adressverschiebung innerhalb des Quellvolumens sein. Die Adresse und die Adressverschiebung können einen Unterbereich innerhalb des Quellvolumens angeben. Die Verarbeitungslogik kann diese Informationen verwenden, um ein Unterregions-Tag zu erzeugen, das Informationen in Bezug auf die Adresse des Quellvolumens mit der Adressverschiebung enthält. Die Verarbeitungslogik kann diese Informationen verwenden, um zwischen Regionen innerhalb eines einzelnen Quellvolumens zu unterscheiden, was wiederum der Verarbeitungslogik ermöglichen kann, verschiedene andere Feststellungen zu treffen, z. B. ob bestimmte Unterregionen innerhalb eines bestimmten Quellvolumens häufiger beschrieben und gelesen werden als andere Unterregionen innerhalb desselben Quellvolumens.
In Block 406 bestimmt die Verarbeitungslogik eine erwartete Lebensdauer für jeden Datensatz auf der Grundlage der zugehörigen Metadatenelemente. Die erwartete Lebensdauer kann eine beliebige Lebensdauer für Daten sein, die in Festkörperlaufwerken gespeichert sind, z. B. ein Tag, zwei Tage, eine Woche, vierzehn Tage, dreißig Tage oder eine andere geeignete Zeitspanne. In bestimmten Ausführungsformen umfasst die Bestimmung der erwarteten Lebensdauer die Abschätzung des Zeitpunkts, zu dem die Informationen im Datensatz nicht mehr benötigt werden. Diese Bestimmung kann mit jedem geeigneten Mittel erfolgen, z. B. mit einem maschinellen Lernalgorithmus, einem regelbasierten Algorithmus, einer Kombination aus beidem oder einem anderen geeigneten Mittel.
In Block 408 gruppiert die Verarbeitungslogik jeden Datensatz auf der Grundlage der erwarteten Lebensdauer des jeweiligen Datensatzes in Speicherblöcke. Als Beispiel und ohne Einschränkung kann ein erster Datensatz eine erwartete Lebensdauer von sieben Tagen haben. Die Verarbeitungslogik kann den ersten Datensatz auf der Grundlage der erwarteten Lebensdauer in einem ersten Speicherblock zusammenfassen. Andere Datensätze, deren erwartete Lebensdauer mit der des ersten Datensatzes vergleichbar ist (z. B. sieben Tage), können ebenfalls in dem ersten Speicherblock gespeichert werden. In bestimmten Ausführungsformen kann sich ein Speicherblock auf eine beliebige Datenstruktur beziehen, die mehrere Datensätze speichert. Insbesondere kann sich ein Datensatz auf eine beliebige Datenstruktur beziehen, die zusammen mit ähnlichen Datenstrukturen gespeichert werden kann. Der Datensatz kann eine relativ kleine Speichereinheit für Daten sein und der Speicherblock kann eine relativ große Speichereinheit für Daten sein.
In einigen Ausführungsformen kann die Verarbeitungslogik nicht nur jeden Datensatz auf der Grundlage der erwarteten Lebensdauer in Speicherblöcke gruppieren, sondern auch den Kapazitätsdruck eines bestimmten Speicherblocks bewerten. Wenn der Kapazitätsdruck niedrig ist, kann die Verarbeitungslogik entscheiden, die Garbage Collection zu verzögern, bis mehr Datensätze im Speicherblock für die Garbage Collection bereit sind. Als Beispiel und ohne Einschränkung kann eine erste Gruppe von Datensätzen in einem Speicherblock nicht mehr benötigt werden (d. h. ihre Lebensdauer ist abgelaufen). Eine zweite Gruppe von Datensätzen in dem Speicherblock wird voraussichtlich innerhalb von drei Tagen „sterben“ (d. h. ihre Lebensdauer beträgt drei Tage). Die Verarbeitungslogik kann den Kapazitätsdruck des Speicherblocks bewerten und feststellen, dass der Kapazitätsdruck niedrig ist. Infolgedessen kann die Verarbeitungslogik beschließen, die Garbage Collection um drei Tage zu verschieben, bis die zweite Gruppe von Datensätzen für die Garbage Collection bereit ist. Dies kann den Umfang des Neuschreibens und anderer Overhead-Aufgaben verringern, die bei einer Garbage Collection Operation durchgeführt werden müssen. Der Kapazitätsdruck kann auf der Grundlage der Frage ermittelt werden, wie viel leerer Speicherplatz im Speicherblock verbleibt, wie viele andere Speicherblöcke zum Beschreiben zur Verfügung stehen, oder mit anderen geeigneten Mitteln, um die Dringlichkeit der Garbage Collection zu ermitteln.
5 ist ein Beispiel für ein Verfahren 500 zum Gruppieren zweier unterschiedlicher Datensätze auf der Grundlage der erwarteten Lebensdauer. Im Allgemeinen kann das Verfahren 500 von einer Verarbeitungslogik durchgeführt werden, die Hardware (z. B. Verarbeitungsgerät, Schaltkreise, dedizierte Logik, programmierbare Logik, Mikrocode, Hardware eines Geräts, integrierte Schaltung usw.), Software (z. B. Befehle, die auf einem Verarbeitungsgerät ausgeführt werden) oder eine Kombination davon umfassen kann. In einigen Ausführungsformen kann die Verarbeitungslogik einer Speichersteuerung eines Speichersystems, wie zuvor in den 1A-3D beschrieben, das Verfahren 500 durchführen.
Das Verfahren 500 kann in Block 502 beginnen, wo die Verarbeitungslogik einen ersten Datensatz von einem ersten Quellvolumen und einen zweiten Datensatz von einem zweiten Quellvolumen empfängt. In bestimmten Ausführungsformen kann ein Quellvolume eine Quelle der Daten sein. Zu den Quellvolumina können unter anderem Client-Geräte, von einer Speichersteuerung erzeugte Daten (z. B. erzeugt die Speichersteuerung ein Datenprotokoll für interne Aufzeichnungszwecke) oder jede andere geeignete Quelle gehören. In bestimmten Ausführungsformen kann das erste Quellvolumen ein anderes sein als das zweite Quellvolumen. Beispielsweise kann das erste Quellvolumen ein Client-Gerät und das zweite Quellvolumen der Speichercontroller sein, ohne dass dies eine Einschränkung darstellt.
In Block 504 kann die Verarbeitungslogik ein erstes Quellvolumenkennzeichen für den ersten Datensatz und ein zweites Quellvolumenkennzeichen für den zweiten Datensatz erzeugen. In bestimmten Ausführungsformen kann das erste Quellvolumenkennzeichen anzeigen, dass der erste Datensatz von der ersten Volumenquelle stammt. Ebenso kann das zweite Quellvolumenkennzeichen anzeigen, dass der zweite Datensatz aus der zweiten Volumenquelle stammt. Als Beispiel und ohne Einschränkung kann das erste Quellvolumenkennzeichen anzeigen, dass die Daten von einem Client-Gerät stammen. Das erste Quellvolumenkennzeichen und das zweite Quellvolumenkennzeichen können auch andere Informationen über die erste bzw. zweite Datenquelle angeben. Die anderen Informationen können eine eindeutige Benutzeridentifikationszeichenfolge, die mit dem Client-Gerät der ersten bzw. zweiten Datenträgerquelle verbunden ist, den Namen des Benutzers oder der Entität, die mit dem Client-Gerät verbunden ist (wenn die Datenträgerquelle ein Client-Gerät ist), und andere geeignete Daten, die mit der ersten oder zweiten Datenträgerquelle verbunden sind, umfassen. Solche Informationen können die Häufigkeit umfassen, mit der die erste Datenträgerquelle Daten auf dem Speichersystem speichert, die Menge der Daten, die der ersten Datenträgerquelle zugeordnet sind und auf dem Speichersystem gespeichert sind, die durchschnittliche Lebensdauer der Daten, die der ersten Datenträgerquelle zugeordnet sind und auf dem Speichersystem gespeichert sind, oder jede andere nützliche oder relevante Information. Obwohl in dieser Offenbarung das Empfangen von Daten von einer ersten und einer zweiten Datenträgerquelle beschrieben wird, ist das Empfangen von Daten von einer beliebigen Anzahl von Datenträgerquellen (z. B. Tausende von Datenträgerquellen) denkbar.
In Block 506 speichert die Verarbeitungslogik den ersten Datensatz in einem ersten Speicherblock, der zumindest teilweise auf dem ersten Quellvolumen-Tag basiert. Wie hier beschrieben, kann der erste Speicherblock einer von mehreren Speicherblöcken sein, die jeweils Datensätze mit ähnlichen erwarteten Lebensdauern speichern. In bestimmten Ausführungsformen kann die erste Datenträgerquelle verwendet werden, um eine erwartete Lebensdauer für den ersten Datensatz zu bestimmen. Beispielsweise kann das Speichersystem einen maschinellen Lernalgorithmus durchführen, der die Informationen im ersten Quellvolumen-Tag als Eingabe (neben anderen Eingaben) verwendet und eine erwartete Lebensdauer des ersten Datensatzes von sieben Tagen bestimmt. Das Speichersystem kann den ersten Datensatz auf der Grundlage dieser Bestimmung in einem ersten Speicherblock speichern. In bestimmten Ausführungsformen kann der erste Speicherblock andere Datensätze enthalten, deren erwartete Lebensdauer ebenfalls sieben Tage beträgt oder nahe an sieben Tagen liegt (z. B. sechs Tage, acht Tage). Auf diese Weise können Datensätze mit ähnlicher Lebensdauer gruppiert werden, so dass bei derGarbage Collection mehr Datensätze gelöscht werden können, ohne dass sie neu geschrieben werden müssen. Dies kann erhebliche Zeit- und Verarbeitungsressourcen einsparen.
In Block 508 speichert die Verarbeitungslogik den zweiten Datensatz in einem zweiten Speicherblock, der zumindest teilweise auf dem zweiten Quellvolumen-Tag basiert. Wie hier beschrieben, kann der zweite Speicherblock einer von mehreren Speicherblöcken sein, die jeweils Datensätze mit ähnlichen erwarteten Lebensdauern speichern. In bestimmten Ausführungsformen kann die zweite Datenträgerquelle verwendet werden, um eine erwartete Lebensdauer für den zweiten Datensatz zu bestimmen. Beispielsweise kann das Speichersystem einen maschinellen Lernalgorithmus durchführen, der die Informationen im zweiten Quellvolumen-Tag als Eingabe (neben anderen Eingaben) verwendet und eine erwartete Lebensdauer des zweiten Datensatzes von dreißig Tagen bestimmt. Das Speichersystem kann den zweiten Datensatz auf der Grundlage dieser Bestimmung in einem zweiten Speicherblock speichern. In bestimmten Ausführungsformen kann der zweite Speicherblock andere Datensätze enthalten, deren erwartete Lebensdauer ebenfalls dreißig Tage oder nahezu dreißig Tage beträgt (z. B. 29 Tage, 31 Tage). In bestimmten Ausführungsformen kann „nahe an“ durch einen vordefinierten Schwellenwert bestimmt werden. Der vordefinierte Schwellenwert kann eine konstante Zeitspanne sein (z. B. ein Tag, zwei Tage) oder einen Teil der erwarteten Lebensdauer des jeweiligen Speicherblocks darstellen. Wenn der Speicherblock beispielsweise Datensätzen mit einer erwarteten Lebensdauer von dreißig Tagen zugeordnet ist und der vordefinierte Schwellenwert 10 % der erwarteten Lebensdauer beträgt, kann der Speicherblock Datensätze mit einer erwarteten Lebensdauer von dreißig Tagen plus/minus drei Tage speichern (weil 10 % von dreißig gleich drei ist). So kann dieser spezielle Speicherblock Datensätze speichern, deren erwartete Lebensdauer zwischen 27 und 33 Tagen liegt. Auf diese Weise können Datensätze mit ähnlicher Lebensdauer in Gruppen zusammengefasst werden, so dass bei der Garbage Collection mehr Datensätze gelöscht werden können, ohne dass sie neu geschrieben werden müssen. Dies kann erhebliche Zeit- und Verarbeitungsressourcen einsparen. Obwohl in dieser Offenlegung die Lebensdauer in Tagen angegeben wird, ist jede geeignete Lebensdauer für Datensätze denkbar. In vielen Fällen kann die Lebensdauer nur wenige Minuten oder Sekunden betragen, insbesondere bei Speicherblöcken, die häufig überschrieben werden, wie z. B. Undo-Logs. In solchen Fällen kann ein Speicherblock innerhalb weniger Sekunden bis Minuten überschrieben oder gelöscht werden.
6 ist eine eines Beispiels für den Fluss von Datensätzen, die entsprechend der erwarteten Lebensdauer gruppiert sind. Daten von Client-Geräten 164 werden von dem Speicher-Controller 610 empfangen. Die Daten können in Datensätzen 640A, 640B, 640C organisiert sein oder es können unorganisierte Daten sein. Wenn die Daten unorganisiert sind, kann der Speicher-Controller 610 die Daten in die Datensätze 640A, 640B, 640C organisieren. In dieser Offenbarung sind „Datensätze“ und „Sätze von Daten“ Synonyme und beziehen sich auf jede geeignete Art von Daten, die in dem hier beschriebenen Speichersystem gespeichert werden können. In diesem Beispiel kann ein Tagging-Modul 620 nach dem Empfangen und dem optionalen Organisieren der Daten durch den Speicher-Controller 610 die Datensätze analysieren und ein oder mehrere Tags für jeden Datensatz erzeugen. Das Tagging-Modul 620 kann die Tags in einer Tag-Datenbank 625 speichern. Optional kann das Tagging-Modul 620 alternativ oder zusätzlich die Tags auf die Datensätze selbst anwenden, z. B. als Metadaten, die in einem Metadatenabschnitt der Datensätze gespeichert werden. Die Tags können Informationen über die Daten enthalten, wie z. B. das Quellvolumen, die Größe der Daten, das Entstehungsdatum, die Menge der verwandten Daten, die aus demselben Quellvolumen stammen, oder jede andere geeignete Information. Sobald die Daten organisiert und mit Tags versehen sind, können die Tags analysiert werden, um die erwartete Lebensdauer eines jeden Datensatzes zu berechnen. Als Beispiel und ohne Einschränkung kann der Datensatz 640A mit Tag A, Tag B und Tag C versehen werden. (Es ist zu beachten, dass „mit Tag versehen werden“ bedeuten kann, dass ein Tag in Verbindung mit dem Datensatz erzeugt wurde - ein Tag muss nicht tatsächlich auf den Datensatz angewendet werden. Die Kennzeichnung kann in einer Tag-Datenbank 625 gespeichert werden.) Die Kennzeichnung mit diesen Tags kann einem Datensatz entsprechen, der eine erwartete Lebensdauer von X hat (z. B. sieben Tage, 10 Tage oder eine beliebige Zeitspanne).
Sobald die erwartete Lebensdauer bestimmt wurde, kann der Datensatz in einem Speicherblock gespeichert werden, der Daten mit einer ähnlichen erwarteten Lebensdauer enthält. Als Beispiel und ohne Einschränkung kann der Datensatz 640A eine erwartete Lebensdauer von 21 Tagen haben. Der Datensatz 640A kann in einem Speicherblock 650 gespeichert werden, der Daten mit dieser erwarteten Lebensdauer enthält. Alternativ dazu kann der Speicherblock so ausgelegt sein, dass er Daten mit einer Reihe von erwarteten Lebensdauern speichert. Als Beispiel und ohne Einschränkung kann der Speicherblock mit der erwarteten Lebensdauer X (siehe 6) Datensätze mit einer erwarteten Lebensdauer zwischen einem und drei Tagen enthalten. In ähnlicher Weise kann der Speicherblock mit der erwarteten Lebensdauer Y Datensätze mit einer erwarteten Lebensdauer zwischen vier und sieben Tagen enthalten. Der Speicherblock mit der erwarteten Lebensdauer Z kann Datensätze mit einer erwarteten Lebensdauer zwischen acht und zwölf Tagen enthalten. Es kann eine beliebige Anzahl von Speicherblöcken geben, die jeden geeigneten erwarteten Bereich umfassen. Diese Offenbarung schränkt weder die Anzahl der Speicherblöcke noch den Bereich der erwarteten Lebensdauer für einen Datensatz ein.
Obwohl 6 zeigt, wie die Daten empfangen, organisiert, gekennzeichnet, analysiert und dann nach erwarteter Lebensdauer gruppiert werden, muss der Prozess nicht in dieser Reihenfolge ablaufen. Als Beispiel und ohne Einschränkung können die Datensätze nach einem beliebigen geeigneten Verfahren empfangen und gespeichert werden und müssen nicht unbedingt nach der erwarteten Lebensdauer geordnet sein. So können beispielsweise die Datensätze 640A, 640B und 640C anfänglich alle im selben Speicherblock 650 gruppiert werden, obwohl ihre Tags und Lebensdauern unterschiedlich sein können. Dafür kann es viele Gründe geben, aber der einfachste Grund kann sein, dass das Tagging-Modul 620 einige Datensätze, die bereits im Speichersystem gespeichert sind, noch nicht analysiert und mit Tags versehen hat. In diesem Fall kann das Markierungsmodul die Datensätze analysieren, nachdem sie empfangen und gespeichert wurden. Das Markierungsmodul kann die Datensätze in Verbindung mit einer Garbage-Collection-Operation oder zu jedem anderen geeigneten Zeitpunkt analysieren. Dieser Vorgang wird anhand der 7-9 erläutert.
7 ist eine Illustration eines Beispieldiagramms für die Interaktion zwischen Operation und Tag 700 in einem Datensatz 651. Der Speicher-Controller 610 kann eine oder mehrere Operationen 710 an dem Datensatz 651 durchführen. Die Operationen 710 können eine Leseoperation, eine Schreiboperation, eine Duplizierungsoperation, eine Entduplizierungsoperation, eine Komprimierungsoperation, eine Verschlüsselungsoperation oder eine Snapshot-Operation oder jede andere geeignete Operation umfassen, von denen einige an anderer Stelle in dieser Offenlegung besprochen werden. Als Reaktion auf die Operationen 710 kann das Tagging-Modul 620 ein oder mehrere Tags 630 erzeugen. Die Tags können den Operationen 710 entsprechen. Beispielsweise kann eine Leseoperation des Datensatzes 651 das Tagging-Modul 620 veranlassen, ein Lese-Tag für den Datensatz 651 zu erzeugen. Das Lese-Tag kann auf den Datensatz 651 angewendet oder in der Tag-Datenbank 625 gespeichert werden, oder es können beide Aktionen stattfinden. Andere Tags können ein Schreib-Tag, ein Duplikat-Tag, ein De-Duplikat-Tag, ein Komprimierungs-Tag, ein Verschlüsselungs-Tag oder ein Snapshot-Tag oder jedes andere geeignete Tag sein. Die Interaktion zwischen Operation und Tag kann zusätzlich zu einem anfänglichen Tag erfolgen, wie in 6 beschrieben, oder die Interaktion zwischen Operation und Tag kann unabhängig davon erfolgen, falls die anfängliche Tag-Generierung nicht stattfindet.
8 ist ein Beispiel für eine Tag-Datenbank 625. Die Tag-Datenbank 625 kann ein Tag-Protokoll 810 enthalten. Das Tag-Protokoll 810 kann ein oder mehrere Tags für einen oder mehrere Datensätze enthalten. Die Tags können die oben beschriebenen Informationen sowie einen Zeiger auf den Datensatz, dem sie entsprechen, enthalten. In der Figur ist ein Beispiel für ein Verfahren zum Speichern der Tags im Tag-Protokoll 810 dargestellt. Obwohl nur drei Datensätze abgebildet sind, kann im Rahmen dieser Offenlegung eine beliebige Anzahl von Datensätzen in einer beliebigen geeigneten Weise gespeichert werden. Als Beispiel und ohne Einschränkung kann die Tag-Datenbank 625 Millionen von Tags speichern, die mit Millionen von Datensätzen verbunden sind. Die Tags können so organisiert werden, dass sie für das Tagging-Modul 620 und den Speicher-Controller 610 leicht zugänglich sind.
9 ist ein Blockdiagramm 900, das ein Beispiel für die Neuzuweisung von Daten 920 und die Neuzuweisung von Daten für Beispiel-Datensätze 911 zeigt. Die Datensätze 911 können im Speicherblock 910 gespeichert werden, bevor die Kennzeichnung erfolgt. Bei den Datensätzen 911 im Speicherblock 910 kann es sich um beliebige geeignete Daten mit beliebiger erwarteter Lebensdauer handeln. Es ist vorgesehen, dass zumindest für einen Teil der Zeit, in der die Datensätze 911 im Speicherblock 910 gespeichert sind, die erwartete Lebensdauer der Datensätze 911 unbekannt sein kann. Zur Veranschaulichung wurden die Datensätze 911 mit A, B und C bezeichnet. Dies soll verdeutlichen, dass sich die Datensätze 911 voneinander unterscheiden, unterschiedliche Tags haben und unterschiedliche erwartete Lebensdauern aufweisen. Während die Datensätze 911 im Speicherblock 910 gespeichert werden, kann der Speicher-Controller 610 verschiedene Operationen an den Datensätzen 911 durchführen. Als Beispiel und ohne Einschränkung kann der Speicher-Controller 610 einen bestimmten Datensatz 911 abfragen, um den Inhalt des Datensatzes 911 zu lesen. Dies kann als eine Leseoperation bezeichnet werden. Als Reaktion darauf kann das Tagging-Modul 620 ein Lese-Tag für diesen bestimmten Datensatz 911 erzeugen und das Lese-Tag in der Tag-Datenbank 625 mit einem Zeiger auf den bestimmten Datensatz 911 speichern. Jede Operation, die an den Datensätzen 911 durchgeführt wird, kann eine Tag-Generierung durch das Tagging-Modul 620 auslösen, wie unter Bezugnahme auf das Operation-Tag-Interaktionsdiagramm 700 erläutert. Beispielsweise kann eine Leseoperation des Datensatzes 651 das Tagging-Modul 620 veranlassen, ein Lese-Tag zu erzeugen, eine Schreiboperation kann die Erzeugung eines Schreib-Tags veranlassen, eine Duplizierungsoperation kann die Erzeugung eines Duplizierungs-Tags veranlassen, eine Entduplizierungsoperation kann die Erzeugung eines Entduplizierungs-Tags veranlassen, eine Komprimierungsoperation kann die Erzeugung eines Komprimierungs-Tags veranlassen, eine Verschlüsselungsoperation kann die Erzeugung eines Verschlüsselungs-Tags veranlassen, und eine Snapshot-Operation kann die Erzeugung eines Snapshot-Tags veranlassen.
In bestimmten Ausführungsformen sind einige der Datensätze 911 nach einer gewissen Zeit bereit, gelöscht zu werden. Die in den Datensätzen 911 enthaltenen Informationen können veraltet oder überholt sein, und die Datensätze 911 beanspruchen einfach nur Platz auf dem Speicherblock 910, ohne für irgendeine Einheit von Nutzen zu sein. Solche Datensätze werden als Garbage Units 912 dargestellt. Die Garbage Units 912 können gelöscht werden, damit der Speicherplatz für andere nützliche Daten zur Verfügung steht. Wenn ein Datensatz 911 das Ende seiner Lebensdauer erreicht, wird er im Allgemeinen zu einer Garbage Unit 912. Der Speicherblock 910 veranschaulicht das Problem, wie Daten traditionell organisiert sind. Der Vorgang des Löschens eines Speicherblocks wird hier als Garbage Collection bezeichnet. Die kleinste Einheit, die von der Garbage Collection gelöscht werden kann, ist der Speicherblock 910. Das bedeutet, dass der gesamte Speicherblock 910 komplett gelöscht werden muss. Um die nützlichen Datensätze 911 zu erhalten, müssen die Datensätze an anderer Stelle neu geschrieben werden, bevor der Speicherblock 910 gelöscht wird. Dies kostet Zeit und Rechenressourcen. Um die Notwendigkeit des erneuten Beschreibens zu verringern, wäre es vorteilhaft, Daten mit ähnlicher erwarteter Lebensdauer zusammen zu organisieren. Genau das geschieht mit den Speicherblöcken 930. Bevor die Garbage Collection den Speicherblock 910 löscht, wird jeder der Datensätze 911 von dem Speicher-Controller 610, dem Tagging-Modul 620 oder einer anderen geeigneten Einheit analysiert. Das Analysieren der Datensätze 911 kann das Analysieren der für jeden Datensatz 911 erzeugten Tags beinhalten. Auf die Tag-Datenbank 625 kann in Verbindung mit der Neuzuweisung von Daten 920 zugegriffen werden, um die erwartete Lebensdauer für jeden der Datensätze 911 auf der Grundlage ihrer Tags zu bestimmen. Wenn dann die Datensätze 911 neu geschrieben werden (z. B. über die Neuzuweisung von Daten 920), können Datensätze 911 mit ähnlicher Lebensdauer gruppiert werden. Beispielsweise können alle mit „A“ gekennzeichneten Datensätze 911 eine erwartete Lebensdauer von X (z. B. sieben Tage) haben. Daher können alle mit „A“ gekennzeichneten Datensätze 911 in demselben Speicherblock 930 (z. B. dem ganz linken Speicherblock 930) gruppiert werden. Ebenso können alle Datensätze 911 mit der Bezeichnung „B“ eine erwartete Lebensdauer von Y (z. B. fünfzehn Tage) haben. Daher können alle mit „B“ gekennzeichneten Datensätze 911 in einem anderen Speicherblock 930 (z. B. dem mittleren Speicherblock 930) gruppiert werden. In ähnlicher Weise können alle Datensätze 911 mit der Bezeichnung „C“ eine erwartete Lebensdauer von Z (z. B. dreißig Tage) haben. Daher können alle mit „C“ gekennzeichneten Datensätze 911 in einem anderen Speicherblock 930 (z. B. dem ganz rechten Speicherblock 930) gruppiert werden. Zu diesem Zeitpunkt kann eine Neuzuweisung der Daten 920 erfolgen, und alle Datensätze 911 und Garbage-Einheiten 912 im Speicherblock 910 können gelöscht werden.
In bestimmten Ausführungsformen können die meisten oder alle Datensätze im äußersten linken Speicherblock 930 zu Garbage Units geworden und zum Löschen bereit sein, wenn die Garbage Collection für den äußersten linken Speicherblock 930 erfolgt (z. B. sieben Tage nach der Neuzuweisung von Daten 920). Daher muss die Neuzuweisung von Daten nicht in demselben Umfang erfolgen wie beim Speicherblock 910, da weniger Datensätze aufbewahrt und somit neu geschrieben werden müssen. Das Gleiche kann für den mittleren Speicherblock 930 und den ganz rechten Speicherblock 930 gelten, wenn es an der Zeit ist, die Daten dieser Speicherblöcke zu löschen. Obwohl diese Offenlegung die Neuzuweisung von einem Speicherblock zu drei Speicherblöcken veranschaulicht und beschreibt, kann diese Offenlegung die Neuzuweisung von einer beliebigen Anzahl von Speicherblöcken zu einer beliebigen Anzahl von Speicherblöcken in Betracht ziehen.
In bestimmten Ausführungsformen kann unter der erwarteten Lebensdauer die erwartete Restlebensdauer verstanden werden. Ziel der Neuzuweisung von Daten 920 ist es, Datensätze mit anderen Datensätzen zu gruppieren, die alle zusammen „sterben“ werden. So können alle Daten im Speicherblock 930 im Wesentlichen zur gleichen Zeit gelöscht werden.
10 ist ein Beispiel für ein Verfahren 1000 zur Neuzuweisung von Daten auf der Grundlage des Datentyps und der erwarteten Lebensdauer in Übereinstimmung mit Ausführungsformen der Offenbarung. Im Allgemeinen kann das Verfahren 1000 von einer Verarbeitungslogik durchgeführt werden, die Hardware (z. B. Verarbeitungsgerät, Schaltungen, dedizierte Logik, programmierbare Logik, Mikrocode, Hardware eines Geräts, integrierte Schaltung usw.), Software (z. B. Befehle, die auf einem Verarbeitungsgerät ausgeführt werden) oder eine Kombination davon umfassen kann. In einigen Ausführungsformen kann die Verarbeitungslogik eines Speicher-Controllers eines Speichersystems, wie zuvor in den 1A-3D beschrieben, das Verfahren 1000 durchführen.
Das Verfahren 1000 kann in Block 1002 beginnen, wo die Verarbeitungsvorrichtung einen ersten Datensatz von einem ersten Quellvolumen und einen zweiten Datensatz von einem zweiten Quellvolumen empfängt. Nach dem Empfangen des ersten Datensatzes und des zweiten Datensatzes kann die Verarbeitungslogik in Block 1004 feststellen, dass der erste Datensatz von einem ersten Datentyp ist und der zweite Datensatz von einem zweiten Datentyp ist. Als Beispiel und ohne Einschränkung kann die Verarbeitungslogik feststellen, dass es sich bei dem ersten Datensatz um lokale Daten und bei dem zweiten Datensatz um Snapshot-Daten handelt. Es sind auch andere Datentypen denkbar, wie z. B. Replikationsdaten.
Im Allgemeinen können Datensätze desselben Typs auch eine ähnliche erwartete Lebensdauer haben. So kann die Verarbeitungslogik in Block 1006 auf der Grundlage der jeweiligen Datentypen eine erste erwartete Lebensdauer für den ersten Datensatz und eine zweite erwartete Lebensdauer für den zweiten Datensatz bestimmen. Als Beispiel und ohne Einschränkung kann der erste Datentyp lokale Daten sein und eine erwartete Lebensdauer von zehn Tagen haben. Bei dem zweiten Datentyp kann es sich um Snapshot-Daten handeln, die eine erwartete Lebensdauer von zwanzig Tagen haben. Die erwartete Lebensdauer für den ersten Datentyp und den zweiten Datentyp kann auf jede geeignete Weise bestimmt werden, einschließlich eines regelbasierten Algorithmus, eines Algorithmus für maschinelles Lernen, einer Nachschlagetabelle oder einer anderen geeigneten Methode.
In Block 1008 kann die Verarbeitungslogik den ersten Datensatz in einem ersten Speicherblock speichern, wobei die Daten im ersten Speicherblock eine erwartete Lebensdauer haben, die im Wesentlichen der ersten erwarteten Lebensdauer entspricht. Als Beispiel und nicht als Einschränkung kann die erste erwartete Lebensdauer zehn Tage betragen. Der erste Speicherblock kann Datensätze enthalten, deren erwartete Lebensdauer im Wesentlichen die gleiche ist wie zehn Tage. In bestimmten Ausführungsformen kann „im Wesentlichen die gleiche wie“ bedeuten, dass sie gleich sind, plus oder minus einer konstanten Zeitspanne (z. B. 1 Tag). So kann der erste Speicherblock Daten mit einer erwarteten Restlebensdauer von neun bis elf Tagen enthalten. In bestimmten Ausführungsformen kann „im Wesentlichen die gleiche wie“ dasselbe bedeuten, zuzüglich oder abzüglich eines Teils der erwarteten Lebensdauer. Als Beispiel kann der Anteil der erwarteten Lebensdauer 10% betragen. So kann der erste Speicherblock Daten mit einer erwarteten Restlebensdauer von neun bis elf Tagen enthalten, da 10% von zehn Tagen ein Tag sind.
In Block 1010 kann die Verarbeitungslogik den zweiten Datensatz in einem zweiten Speicherblock speichern, wobei die Daten im zweiten Speicherblock eine erwartete Lebensdauer haben, die im Wesentlichen der zweiten erwarteten Lebensdauer entspricht. Als Beispiel und nicht als Einschränkung kann die zweite erwartete Lebensdauer zehn Tage betragen. Der zweite Speicherblock kann Datensätze enthalten, deren erwartete Lebensdauer im Wesentlichen die gleiche ist wie zehn Tage. In bestimmten Ausführungsformen kann „im Wesentlichen die gleiche wie“ bedeuten, dass sie gleich sind, plus oder minus einer konstanten Zeitspanne (z. B. 1 Tag). So kann der zweite Speicherblock Daten mit einer erwarteten Restlebensdauer von neun bis elf Tagen enthalten. In bestimmten Ausführungsformen kann „im Wesentlichen die gleiche wie“ dasselbe bedeuten, plus oder minus einem Anteil der erwarteten Lebensdauer. Als Beispiel kann der Anteil der erwarteten Lebensdauer 10% betragen. So kann der zweite Speicherblock Daten mit einer erwarteten Restlebensdauer von neun bis elf Tagen enthalten, da 10% von zehn Tagen ein Tag sind.
Wenn eine Gruppe von Blöcken mit verbleibenden Daten gelöscht wird, kann insbesondere die erwartete Lebensdauer der verbleibenden Daten berücksichtigt werden, indem die verbleibenden Daten gemeinsam gespeichert werden. Wenn die erwartete Lebensdauer oder die verbleibende Lebensdauer der verbleibenden Daten kurz genug ist, können die verbleibenden Daten mit Geräten oder Mitteln gespeichert werden, die für die kurzfristige Speicherung optimiert sind, wie z. B. verschiedene Speicherklassen, die mehr Überschreibungen unterstützen können.
In bestimmten Ausführungsformen können Snapshot-Daten so geplant werden, dass sie zu einem bestimmten Datum und/oder einer bestimmten Uhrzeit gemäß einer Aufbewahrungsrichtlinie veraltet und für die Garbage Collection bereit sind. Dementsprechend kann der Speicher-Controller Snapshot-Daten auf der Grundlage der geplanten Lebensdauer der Snapshot-Daten in Speicherblöcke gruppieren, um die Effizienz der Garbage Collection zu verbessern. In bestimmten Ausführungsformen kann auch der Datensatz bestimmt werden, auf den die Momentaufnahmedaten verweisen. Ein Zeitplan für die Daten kann verwendet werden, um Kandidaten für die Garbage Collection zu identifizieren. Der Zeitplan kann zum Beispiel angeben, dass die Daten, auf die der Snapshot verweist, in einem Tag veraltet sein (z. B. „sterben“) werden. Der Speicher-Controller oder ein anderes geeignetes Verarbeitungsgerät kann dann auf der Grundlage dieser Informationen Kandidaten für die Garbage Collection identifizieren. So kann die Garbage Collection sowohl für die Auswahl der Kandidaten als auch für die Datenorganisation genutzt werden.
Diese Spezifikation enthält zwar viele spezifische Ausführungsdetails, diese sollten jedoch nicht als Beschränkungen des Umfangs der Erfindungen oder der beanspruchten Leistungen verstanden werden, sondern vielmehr als Beschreibungen von Merkmalen, die für bestimmte Ausführungsformen bestimmter Erfindungen spezifisch sind. Bestimmte Merkmale, die in dieser Beschreibung im Zusammenhang mit einzelnen Ausführungsformen beschrieben werden, können auch in Kombination in einer einzigen Ausführungsform realisiert werden. Umgekehrt können verschiedene Merkmale, die im Zusammenhang mit einer einzigen Ausführungsform beschrieben werden, auch in mehreren Ausführungsformen separat oder in jeder geeigneten Unterkombination implementiert werden. Darüber hinaus können, obwohl Merkmale oben als in bestimmten Kombinationen wirkend beschrieben und sogar ursprünglich als solche beansprucht werden, ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination herausgenommen werden, und die beanspruchte Kombination kann auf eine Unterkombination oder Variation einer Unterkombination gerichtet sein.
Auch wenn die Vorgänge in den Figuren in einer bestimmten Reihenfolge dargestellt sind, ist dies nicht so zu verstehen, dass diese Vorgänge in der dargestellten Reihenfolge oder in aufeinanderfolgender Reihenfolge ausgeführt werden müssen oder dass alle dargestellten Vorgänge ausgeführt werden müssen, um die gewünschten Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und Parallelverarbeitung vorteilhaft sein. Darüber hinaus ist die Trennung verschiedener Systemkomponenten in den oben beschriebenen Ausführungsformen nicht so zu verstehen, dass eine solche Trennung in allen Ausführungsformen erforderlich ist, und es ist davon auszugehen, dass die beschriebenen Programmkomponenten und Systeme im Allgemeinen zusammen in ein einziges Softwareprodukt integriert oder in mehrere Softwareprodukte gebündelt werden können.
Es wurden also bestimmte Ausführungsformen der Betrachtungseinheit beschrieben. Andere Ausführungsformen fallen in den Anwendungsbereich der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen genannten Handlungen in einer anderen Reihenfolge durchgeführt werden und dennoch die gewünschten Ergebnisse erzielen. Darüber hinaus erfordern die in den begleitenden Figuren dargestellten Prozesse nicht unbedingt die dargestellte Reihenfolge oder die sequentielle Reihenfolge, um wünschenswerte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und parallele Verarbeitung von Vorteil sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 16/508178 [0001]

Claims

Speichersystem, umfassend: eine Vielzahl von Festkörperspeichergeräten; und einen Speicher-Controller, der operativ mit der Vielzahl von Festkörperspeichergeräten gekoppelt ist, wobei der Speicher-Controller eine Verarbeitungsvorrichtung umfasst, wobei die Verarbeitungsvorrichtung betriebsbereit ist zum: Speichern eines oder mehrerer Datensätze in einem oder mehreren Festkörperspeichergeräten der Vielzahl von Festkörperspeichergeräten; Erzeugen von einem oder mehreren Tags für jeden der einen oder mehreren Datensätze auf der Grundlage eines oder mehrerer Metadatenelemente, die mit jedem Datensatz verbunden sind; Bestimmen einer erwarteten Lebensdauer für jeden Datensatz auf der Grundlage des einen oder der mehreren Tags, die für den jeweiligen Datensatz erzeugt wurden; und Gruppieren von jedem der einen oder mehreren Datensätze in entsprechende einer Vielzahl von Speicherblöcken auf der Grundlage der erwarteten Lebensdauer für jeden Datensatz, wobei jeder Speicherblock Datensätzen mit einer bestimmten erwarteten Lebensdauer entspricht.
Speichersystem nach Anspruch 1, wobei das eine oder die mehreren Metadatenelemente ein Quellvolumen, einen Schreibzeitstempel, einen Lesezeitstempel, einen Duplizierungszeitstempel, eine Verschlüsselungsangabe, eine Snapshot-Angabe oder eine Komprimierungsangabe umfassen.
Speichersystem nach Anspruch 1, wobei das eine oder die mehreren Metadatenelemente Informationen umfassen, die mit einer Speicherpraxis eines bestimmten Clients verbunden sind, wobei die Speicherpraxis zumindest teilweise auf einer bestimmten Bilddatei einer virtuellen Maschine, einem oder mehreren Snapshot-Blöcken einer virtuellen Maschine, einem Redo-Log, einem Undo-Log, einem Archiv, einem temporären Tablespace oder einem archivierten Tablespace basiert, die dem bestimmten Client zugeordnet sind.
Speichersystem nach Anspruch 1, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine Garbage-Collection-Operation an einem ersten Speicherblock der Vielzahl von Speicherblöcken durchzuführen, wobei die Garbage-Collection-Operation am Ende der erwarteten Lebensdauer entsprechend dem ersten Speicherblock durchgeführt wird.
Speichersystem nach Anspruch 4, wobei die Verarbeitungsvorrichtung vor der Durchführung der Garbage-Collection-Operation ferner betriebsbereit ist zum: Bewerten eines Kapazitätsdrucks des ersten Speicherblocks; Feststellen, dass der Kapazitätsdruck unter einem Schwellenwert für den Kapazitätsdruck liegt; und Verzögern der Garbage-Collection-Operation für eine vorher festgelegte Zeitspanne.
Speichersystem nach Anspruch 1, wobei die Verarbeitungsvorrichtung ferner betriebsbereit ist zum: Empfangen eines ersten Datensatzes von einem ersten Quellvolumen und eines zweiten Datensatzes von einem zweiten Quellvolumen; Erzeugen eines ersten Quellvolumen-Tags für den ersten Datensatz und eines zweiten Quellvolumen-Tags für den zweiten Datensatz; Speichern des ersten Datensatzes in einem ersten Speicherblock, der zumindest teilweise auf dem ersten Quellvolumen-Tag basiert; und Speichern des zweiten Datensatzes in einem zweiten Speicherblock, der zumindest teilweise auf dem zweiten Quellvolumen-Tag basiert.
Speichersystem nach Anspruch 1, wobei die erwartete Lebensdauer einen erwarteten Lebensdauerbereich umfasst.
Speichersystem nach Anspruch 1, wobei das Bestimmen der erwarteten Lebensdauer für jeden Datensatz das Durchführen einer statistischen Analyse des einen oder der mehreren für den jeweiligen Datensatz erzeugten Tags umfasst.
Speichersystem nach Anspruch 1, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine oder mehrere Operationen an einem der Vielzahl von Speicherblöcken durchzuführen, wobei die eine oder mehreren Operationen eine Duplizierungsoperation, eine Deduplizierungsoperation, eine Komprimierungsoperation, eine Verschlüsselungsoperation oder eine Snapshot-Operation umfassen.
Verfahren, umfassend: Speichern eines oder mehrerer Datensätze in einem oder mehreren Festkörperspeichergeräten einer Vielzahl von Festkörperspeichergeräten; Erzeugen von einem oder mehreren Tags für jeden der einen oder mehreren Datensätze durch eine Verarbeitungsvorrichtung, auf der Grundlage von einem oder mehreren Metadatenelementen, die mit jedem Datensatz verbunden sind; Bestimmen einer erwarteten Lebensdauer für jeden Datensatz auf der Grundlage des einen oder der mehreren Tags, die für den jeweiligen Datensatz erzeugt wurden; und Gruppieren von jedem des einen oder der mehreren Datensätze in entsprechende einer Vielzahl von Speicherblöcken auf der Grundlage der erwarteten Lebensdauer für jeden Datensatz, wobei jeder Speicherblock Datensätzen mit einer bestimmten erwarteten Lebensdauer entspricht.
Verfahren nach Anspruch 10, wobei das eine oder die mehreren Metadatenelemente ein Quellvolumen, einen Schreibzeitstempel, einen Lesezeitstempel, einen Duplizierungszeitstempel, eine Verschlüsselungsangabe, eine Snapshot-Angabe oder eine Komprimierungsangabe umfassen.
Verfahren nach Anspruch 10, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine Garbage-Collection-Operation an einem ersten Speicherblock der Vielzahl von Speicherblöcken durchzuführen, wobei die Garbage-Collection-Operation am Ende der erwarteten Lebensdauer, entsprechend dem ersten Speicherblock, durchgeführt wird.
Verfahren nach Anspruch 10, wobei die Verarbeitungsvorrichtung ferner betriebsbereit ist zum: Empfangen eines ersten Datensatzes von einem ersten Quellvolumen und eines zweiten Datensatzes von einem zweiten Quellvolumen; Erzeugen eines ersten Quellvolumen-Tags für den ersten Datensatz und eines zweiten Quellvolumen-Tags für den zweiten Datensatz; Speichern des ersten Datensatzes in einem ersten Speicherblock, der zumindest teilweise auf dem ersten Quellvolumen-Tag basiert; und Speichern des zweiten Datensatzes in einem zweiten Speicherblock, der zumindest teilweise auf dem zweiten Quellvolumen-Tag basiert.
Verfahren nach Anspruch 10, wobei die erwartete Lebensdauer einen erwarteten Lebensdauerbereich umfasst.
Verfahren nach Anspruch 10, wobei das Bestimmen der erwarteten Lebensdauer für jeden Datensatz das Durchführen einer statistischen Analyse an dem einen oder den mehreren für den jeweiligen Datensatz erzeugten Tags umfasst.
Verfahren nach Anspruch 10, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine oder mehrere Operationen an einem der Vielzahl von Speicherblöcken durchzuführen, wobei die eine oder mehreren Operationen eine Duplizierungsoperation, eine Deduplizierungsoperation, eine Komprimierungsoperation, eine Verschlüsselungsoperation oder eine Snapshot-Operation umfassen.
Nichttransitorisches computerlesbares Speichermedium, das Anweisungen speichert, die, wenn sie ausgeführt werden, eine Verarbeitungsvorrichtung veranlassen zum: Speichern eines oder mehrerer Datensätze in einem oder mehreren Festkörperspeichergeräten einer Vielzahl von Festkörperspeichergeräten; Erzeugen von einem oder mehreren Tags für jeden der einen oder mehreren Datensätze durch die Verarbeitungsvorrichtung, auf der Grundlage von einem oder mehreren Metadatenelementen, die mit jedem Datensatz verbunden sind; Bestimmen einer erwarteten Lebensdauer für jeden Datensatz auf der Grundlage des einen oder der mehreren Tags, die für den jeweiligen Datensatz erzeugt wurden; und Gruppieren von jedem des einen oder der mehreren Datensätze in entsprechende einer Vielzahl von Speicherblöcken auf der Grundlage der erwarteten Lebensdauer für jeden Datensatz, wobei jeder Speicherblock Datensätzen mit einer bestimmten erwarteten Lebensdauer entspricht.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 17, wobei das eine oder die mehreren Metadatenelemente ein Quellvolumen, einen Schreibzeitstempel, einen Lesezeitstempel, einen Duplizierungszeitstempel, eine Verschlüsselungsangabe, eine Snapshot-Angabe oder eine Komprimierungsangabe umfassen.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 17, wobei die Verarbeitungsvorrichtung ferner dazu dient, eine Garbage-Collection-Operation an einem ersten Speicherblock der Vielzahl von Speicherblöcken durchzuführen, wobei die Garbage-Collection-Operation am Ende der erwarteten Lebensdauer, entsprechend dem ersten Speicherblock, durchgeführt wird.
Nichttransitorisches computerlesbares Speichermedium nach Anspruch 17, wobei die Verarbeitungsvorrichtung ferner dient zum: Empfangen eines ersten Datensatzes von einem ersten Quellvolumen und eines zweiten Datensatzes von einem zweiten Quellvolumen; Erzeugen eines ersten Quellvolumen-Tags für den ersten Datensatz und eines zweiten Quellvolumen-Tags für den zweiten Datensatz; Speichern des ersten Datensatzes in einem ersten Speicherblock, der zumindest teilweise auf dem ersten Quellvolumen-Tag basiert; und Speichern des zweiten Datensatzes in einem zweiten Speicherblock, der zumindest teilweise auf dem zweiten Quellvolumen-Tag basiert.