DE102014104971A1 - Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung - Google Patents

Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung Download PDF

Info

Publication number
DE102014104971A1
DE102014104971A1 DE102014104971.3A DE102014104971A DE102014104971A1 DE 102014104971 A1 DE102014104971 A1 DE 102014104971A1 DE 102014104971 A DE102014104971 A DE 102014104971A DE 102014104971 A1 DE102014104971 A1 DE 102014104971A1
Authority
DE
Germany
Prior art keywords
storage
content
metadata
document
priority list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102014104971.3A
Other languages
English (en)
Inventor
Erik Rueger
Thorsten Muehge
Michael Diederich
Rainer Wolafka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102014104971A1 publication Critical patent/DE102014104971A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

Ein verbessertes Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung (1), das Mittel zum Inhaltabtasten (100), Inhaltabrufen (300) und Inhaltarchivieren (400) aufweist; weist die Schritte auf: ein Empfangen eines neuen Dokumentes zur Speicherung löst einen neuen Benachrichtigungsprozess für ein neues Dokument aus, der das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen abtastet; verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses erzeugt; die Metadaten in einem Dateisystem speichert; und die verbesserten Metadaten durch einen Beziehungsanalyseprozess bewertet, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; Speichern des neuen Dokuments auf der Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht (22, 24, 26, 28) der hierarchischen Speicherumgebung (1).

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Dateispeicherverwaltung und insbesondere ein Verfahren zum Umgang mit Dateien in einer hierarchischen Speicherumgebung sowie eine entsprechende hierarchische Speicherumgebung. Noch genauer betrifft die vorliegende Erfindung ein Datenverarbeitungsprogramm und ein Computerprogrammprodukt zum Umgang mit Dateien in einer hierarchischen Speicherumgebung.
  • Beschreibung des Standes der Technik
  • Beim technischen Gebiet dieser Erfindung geht es um die Gesamtverbesserung der Dateispeicherverwaltung. Dies stellt ein Gebiet enormen Wachstums dar, und somit sind Technologien, welche die Effektivität erhöhen, sehr wertvoll.
  • Diese Offenbarung konzentriert sich auf eine Verbesserung des Dateizugriffs in mehrschichtigen Speicherumgebungen. Im Kontext dieser Erfindung wird ein Dateizugriff üblicherweise durch Systeme von über Netzwerk verbundenem Speicher (network attached storage (NAS) systems) bereitgestellt. Bei mehrschichtigen Datenspeichern handelt es sich um eine Technik, die Daten auf der Grundlage von Regeln und Richtlinien automatisch zwischen Speichermedien mit hohen Kosten und solchen mit niedrigen Kosten verschiebt.
  • Eine Anfrage nach Zugriff auf Daten, die von einer Speicherschicht der „höheren” (schnelleren) zur „niedrigeren” (langsameren) Ebene migriert wurden, führt üblicherweise zu längeren Reaktionszeiten; gelegentlich zu erheblich höheren Reaktionszeiten. In manchen mehrschichtigen Speicherumgebungen kann dies ein Abrufen von Daten von Wechselmedien wie beispielsweise Band mit sich bringen. In solchen Fällen dauert es üblicherweise mehrere Minuten, bevor ein Benutzer auf die Daten zugreifen kann, wenn nicht bis hin zu Stunden, falls gerade alle Bandlaufwerke in Betrieb sind. Für Benutzer, die versuchen, auf diese Daten zuzugreifen, stellen solche langen Reaktionszeiten eine schlechte Erfahrung dar, wenn sie nicht in bestimmten Szenarios sogar einfach inakzeptabel sind. Ein Beispiel stellt ein Student in einer Bibliothek dar, der versucht, über eine Konsole auf eine Reihe zugehöriger Artikel und/oder Dateien zuzugreifen, die auf eine Speicherschicht einer niedrigeren Ebene verschoben wurden.
  • Der Stand der Technik stellt zusammengefasst die folgenden Herausforderungen: Benutzer erwarten einen unmittelbaren Dateizugriff (gute Benutzererfahrung), es kann jedoch aufgrund der langsameren Leistung von Speicherschichten einer niedrigeren Ebene oder des Abrufprozesses von Wechselmedien eine lange Zeit dauern, tatsächlich in der Lage zu sein, auf die Daten zuzugreifen. Benutzer benötigen oft Zugriff auf mehrere üblicherweise inhaltsbezogene Dateien unabhängig vom tatsächlichen Speicherort oder der tatsächlichen Speicherschicht. Somit wird die Gesamtreaktionszeit über mehrere Dateizugriffe kumuliert. Eine hierarchische Speicherumgebung oder eine so genannte mehrschichtige Speicherung (storage tiering) wird aufgrund ihrer Kostenwirksamkeit verwendet. In anderen Worten: Es ist nicht wirtschaftlich, alle Daten immer in der Speicherschicht der höchsten Ebene zu behalten. Weitere Lösungen des Standes der Technik bieten eine begrenzte Verbindung zwischen dem Satz von Metadaten einer Datei und der Wahrscheinlichkeit, dass diese Datei erneut verwendet wird.
  • Bei einer Lösung des Standes der Technik für eine mehrschichtige Dateispeicherumgebung werden die Dateien von sehr schnellen Plattenspeichermedien auf Medien mit geringeren Kosten und weniger Leistung und/oder längerer Reaktionszeit migriert. Hier beruht die mehrschichtige Speicherung auf Migrations- und Platzierungsrichtlinien unter Verwendung eines Satzes von Metadaten des Standes der Technik. Ein einfaches Beispiel für eine Richtlinie stellt ein automatisches Verschieben aller Daten und/oder Dateien von einer Speicherschicht einer höheren zu einer solchen einer niedrigeren Ebene dar, wenn es keinen Zugriff innerhalb eines bestimmten Zeitrahmens gab.
  • Zum Beispiel weist der Satz von Metadaten des Standes der Technik ein Datum und eine Uhrzeit auf, zu denen die Regel bewertet wird, das heißt, das aktuelle Datum und die aktuelle Uhrzeit; ein Datum und eine Uhrzeit, zu denen auf die Datei zuletzt zugegriffen wurde; ein Datum und eine Uhrzeit, zu denen die Datei zuletzt modifiziert wurde; einen Dateisatznamen; einen Dateinamen oder eine Dateierweiterung; eine Dateigröße; eine Benutzeridentifikation und eine Gruppenidentifikation.
  • Die derzeitige Speicherschicht, auf der sich die Dateien befinden, sowie der derzeitige Migrationsprozess der Daten sind für den Benutzer transparent. Der Benutzer sieht keine Änderung in der Dateiverzeichnisansicht. Im Falle, dass der Benutzer jedoch auf eine Datei zugreifen möchte, die bereits auf Band migriert wird, kann es bis zu 10 bis 15 Minuten dauern, auf sie zuzugreifen; gelegentlich auch erheblich länger.
  • Der Artikel „A Semantic Extension of a Hierarchical Storage Management System for Small and Medium-sized Enterprises" von Axel Schroder et. al, „Proceedings of the 1st International Workshop an Semantic Digital Archives (SDA) 2011”, offenbart eine semantische Speichererweiterung (semantic storage extension (SSE)) für vorhandene hierarchische Speicherverwaltungssysteme, die es diesen ermöglicht, semantische Beziehungen zwischen Dateien auszunutzen und sie für eine effizientere und intelligentere Datenverwaltung zu verwenden. Der offenbarte Ansatz verbessert herkömmliche hierarchische Speicherverwaltungssysteme hinsichtlich Migrations-, Lösch- und Abrufvorgängen, indem semantische Beziehungen zwischen Dateien und Kontextwissen genutzt werden. Dadurch ist eine vorhersagende Dateiverwaltung möglich, die zu einer Steigerung der Systemleistung und einer besseren Benutzererfahrung beiträgt. Zu diesem Zweck nutzt die semantische Speichererweiterung (SSE) extrahierte Merkmale von Dokumenten, um Beziehungen zwischen ihnen zu definieren, und bietet auch die Möglichkeit, zusätzliches Wissen durch einen Domänenexperten anzugeben. Ausführungsformen des offenbarten hierarchischen Speicherverwaltungssystems konzentrieren sich nur auf den Inhalt und die Metadaten der Datei.
  • Kurzdarstellung der Erfindung
  • Das der vorliegenden Erfindung zugrundeliegende technische Problem liegt darin, ein Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung bereitzustellen, die in der Lage sind, einen Dateizugriff bereitzustellen und die vorstehend erwähnten Nachteile und Schwachpunkte des Dateizugriffs in hierarchischen Speicherumgebungen des Standes der Technik zu beheben.
  • Gemäß der vorliegenden Erfindung wird dieses Problem gelöst, indem ein Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung mit den Merkmalen von Anspruch 1, eine hierarchische Speicherumgebung mit den Merkmalen von Anspruch 8, ein Datenverarbeitungsprogramm für den Umgang mit Dateien in einer hierarchischen Speicherumgebung mit den Merkmalen von Anspruch 14 und ein Computerprogrammprodukt für den Umgang mit Dateien in einer hierarchischen Speicherumgebung mit den Merkmalen von Anspruch 15 bereitgestellt wird. Vorteilhafte Ausführungsformen der vorliegenden Erfindung werden in den Unteransprüchen erwähnt.
  • Dementsprechend weist in einer Ausführungsform der vorliegenden Erfindung ein Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung auf, die ein Mittel zum Inhaltabtasten, Inhaltabrufen und Inhaltarchivieren aufweist, wobei das Verfahren folgende Schritte aufweist: ein Empfangen eines neuen Dokumentes zur Speicherung löst einen neuen Dokumentbenachrichtigungsprozess aus, der das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen abtastet; verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses erzeugt; die Metadaten in einem Dateisystem speichert; und die verbesserten Metadaten durch einen Beziehungsanalyseprozess bewertet, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; Speichern des neuen Dokuments auf der Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht der hierarchischen Speicherumgebung.
  • In weiteren Ausführungsformen der vorliegenden Erfindung weist der Satz von Schlüsselwörtern mindestens eines von Folgendem auf: Schlüsselwörter eines Schlüsselwortabschnitts, Autoren, Herausgeber, Datum oder Ursprung und Titel.
  • In weiteren Ausführungsformen der vorliegenden Erfindung weist der Satz von Bezügen mindestens eines von Folgendem auf: Bezüge eines Bezugabschnitts, Hyperlinks und andere Dokumenttitel.
  • In weiteren Ausführungsformen der vorliegenden Erfindung werden im Analyseprozess die verbesserten Metadaten zumindest durch eine der folgenden Informationen erweitert: ein Dateizugriffsverlauf von Benutzern und ein Suchverlauf von Benutzern.
  • In weiteren Ausführungsformen der vorliegenden Erfindung weist die Prioritätsliste mindestens eine der folgenden Teillisten auf: Eine erste Teilliste, eine Beziehung und/oder Bezüge zwischen unterschiedlichen Objekten aufweist, eine zweite Teilliste, die Objekte aufweist, auf die am häufigsten oder kürzlich zugegriffen wurde, und eine dritte Teilliste, die benutzergestützte Beziehungen zwischen unterschiedlichen Objekten aufweist.
  • In weiteren Ausführungsformen der vorliegenden Erfindung löst ein Zugreifen auf ein Dokument einen Dokumentzugriffs-Benachrichtigungsprozess aus, der auf der Grundlage der verbesserten Metadaten und der Prioritätsliste zugehörige Dokumente ermittelt; die zugehörigen Dokumente in einer Speicherschicht der höchsten Ebene platziert; und die Prioritätsliste aktualisiert; und das Dokument, auf das zugegriffen wurde, wird abgerufen.
  • In weiteren Ausführungsformen der vorliegenden Erfindung werden in einem Archivierungsprozess Dokumente ermittelt, die auf der Grundlage der verbesserten Metadaten und der Prioritätsliste in einer Speicherschicht einer niedrigeren Ebene archiviert werden können.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung weist eine hierarchische Speicherumgebung mindestens zwei unterschiedliche Speicherschichten und ein Dateisystem mit einer Engine für inhaltsbezogene mehrschichtige Speicherung auf, die ein Mittel zum Inhaltabtasten, Inhaltabrufen und Inhaltarchivieren aufweist. Die Engine für inhaltsbezogene mehrschichtige Speicherung löst als Reaktion auf ein zur Speicherung empfangenes neues Dokument einen Benachrichtigungsprozess für ein neues Dokument aus. Das Inhaltabtastmittel tastet das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen ab; erzeugt verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses; und speichert die Metadaten in der Engine für inhaltsbezogene mehrschichtige Speicherung. Weiterhin bewertet die Engine für inhaltsbezogene mehrschichtige Speicherung die verbesserten Metadaten durch einen Beziehungsanalyseprozess, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; und speichert das neue Dokument auf der Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht der hierarchischen Speicherumgebung.
  • In weiteren Ausführungsformen der vorliegenden Erfindung ist die Engine für inhaltsbezogene mehrschichtige Speicherung als Verwaltungssystem für relationale Datenbanken realisiert, um die verbesserten Metadaten zu verwalten.
  • In weiteren Ausführungsformen der vorliegenden Erfindung löst das Inhaltabrufmittel einen Dokumentzugriffs-Benachrichtigungsprozess aus, der auf der Grundlage der verbesserten Metadaten und der Prioritätsliste zugehörige Dokumente ermittelt; die zugehörigen Dokumente in einer Speicherschicht der höchsten Ebene platziert; und die Prioritätsliste aktualisiert; und das Dokument, auf das zugegriffen wurde, abruft.
  • In weiteren Ausführungsformen der vorliegenden Erfindung führt das Inhaltarchiviermittel einen Archivierungsprozess aus, um Dokumente zu ermitteln, die auf der Grundlage der verbesserten Metadaten und der Prioritätsliste in einer Speicherschicht einer niedrigeren Ebene archiviert werden können.
  • In einer weiteren Ausführungsformen der vorliegenden Erfindung weist ein Datenverarbeitungsprogramm zur Ausführung in einem Datenverarbeitungssystem Softwarecodeabschnitte zum Durchführen eines Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung auf, wenn das Programm auf dem Datenverarbeitungssystem ausgeführt wird.
  • In noch einer weiteren Ausführungsform der vorliegenden Erfindung weist ein auf einem durch Computer verwendbaren Medium gespeichertes Computerprogrammprodukt ein computerlesbares Programmmittel auf, um einen Computer zu veranlassen, ein Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung durchzuführen, wenn das Programm auf dem Computer ausgeführt wird.
  • Alles in allem sind Ausführungsformen der vorliegenden Erfindung in der Lage, die Leistung eines Dateiabrufprozesses in über ein Netzwerk verbundenem Speicher (network attached storage (NAS)) zu verbessern und den Prozess der mehrschichtigen Dateispeicherung effektiver zu gestalten. Die Hauptidee liegt darin, verbesserte Metadaten mit Ergebnissen eines Beziehungsanalyseprozesses zu erweitern, der zum Beispiel das Such- und/oder Zugriffsverhalten von Benutzern verwendet, um dies mit dem Inhalt der Dateien zu verknüpfen. Insofern werden ein Benutzersuch- und/oder Datenzugriffs-„Verhalten” und vielfältige Metadatenaspekte über das hinausgehend kombiniert, was heute verfügbar ist. Die vorliegende Erfindung beschreibt, wie der Dateiabruf- und im Gegenzug der Archivierungsprozess optimiert werden können.
  • Ausführungsformen der vorliegenden Erfindung führen eine Engine für inhaltsbezogene mehrschichtige Speicherung ein, welche die mehrschichtige Speicherung effektiver verwalten wird. Anstatt allein die Metadaten des Standes der Technik zu verwenden, wird die Engine das Benutzerverhalten mit dem Dateiinhalt verknüpfen. Letzteres wird automatisch durch Abtasten des tatsächlichen Inhalts der Dateien (z. B. Schlüsselwörter und Bezüge) ermittelt. Bevor Dateien auf einem System mit über ein Netzwerk verbundenem Speicher (NAS) gespeichert werden, werden ihre Metadaten auf der Grundlage des Ergebnisses der Abtastung und des zugehörigen Benutzerverhaltens erweitert. Somit optimiert die Engine für inhaltsbezogene mehrschichtige Speicherung die Verwaltung der mehrschichtigen Dateispeicherung.
  • Eine mögliche Realisierung, um die zusätzlichen Metadaten in der vorgeschlagenen Engine für inhaltsbezogene mehrschichtige Speicherung permanent zu speichern und zu verwalten, stellt ein Verwaltungssystem für relationale Datenbanken (Relational Database Management System (RDBMS)) dar. Weitere Mittel sind denkbar.
  • Weitere Ausführungsformen der vorliegenden Erfindung können zudem auf andere Anwendungsbereiche, wie beispielsweise ein WAN(Wide Area Network, Weitverkehrsnetzwerk)-Caching von Daten zwischen „Heim” und „entfernten” Standorten des WAN (Wide Area Network), angewandt werden.
  • Zusammenfassend führen Ausführungsformen der vorliegenden Erfindung zur Verbesserung der Nachteile und Probleme von im Abschnitt zum Hintergrund skizzierten Lösungen des Standes der Technik Systeme und Verfahren für eine erfinderische Engine für inhaltsbezogene mehrschichtige Speicherung ein, um die Reaktionszeit (Benutzererfahrung) in mehrschichtigem über ein Netzwerk verbundenem Speicher (NAS) und/oder Dateispeicherumgebungen zu verbessern, neue Dateimetadaten-Konzepte, die Inhaltsbeziehungen zwischen Dateien erlauben, die verwendet werden, um Daten automatisch zwischen unterschiedlichen Speicherschichten zu migrieren, und neue Systeme und Verfahren, um die neuen Metadatenkonzepte dazu zu verwenden, die Migration von Daten zwischen unterschiedlichen Speicherschichten transparent zu verwalten.
  • Die vorstehenden sowie zusätzliche Ziele, Merkmale und Vorteile der vorliegenden Erfindung werden in der folgenden detaillierten schriftlichen Beschreibung ersichtlich.
  • Kurzbeschreibung der Zeichnungen
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung, wie nachstehend detailliert beschrieben, wird in den Zeichnungen gezeigt, in denen
  • 1 ein schematisches Blockschaubild einer Netzwerkumgebung zeigt, die ein System von über ein Netzwerk verbundenem Speicher (NAS) mit einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung aufweist;
  • 2 detaillierter ein schematisches Schaubild des Systems von über ein Netzwerk verbundenem Speicher (NAS) mit einer hierarchischen Speicherumgebung von 1 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 3 ein vereinfachtes Datenbankschema für eine mögliche Realisierung einer Engine für inhaltsbezogene mehrschichtige Speicherung der hierarchischen Speicherumgebung von 1 und 2 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ein schematisches Ablaufschaubild eines Dateispeicherungsprozesses zeigt, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist;
  • 5 ein schematisches Ablaufschaubild eines Dateiabrufprozesses zeigt, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
  • 6 ein schematisches Ablaufschaubild eines Dateiarchivierungsprozesses zeigt, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • Detaillierte Beschreibung der bevorzugten Ausführungsformen
  • Wie für den Fachmann ersichtlich ist, können Aspekte der vorliegenden Erfindung als ein System, Verfahren, oder Computerprogrammprodukt ausgebildet werden. Dementsprechend können Aspekte der vorliegenden Erfindung in Form einer vollständigen Hardware-Ausführungsform, einer vollständigen Software-Ausführungsform (darunter Firmware, residente Software, Mikrocode usw.) oder in einer Ausführungsform ausgebildet werden, die Software- und Hardware-Aspekte kombiniert, was hierin sämtlich allgemein als „Schaltung”, „Modul” oder „System” bezeichnet sein kann. Weiterhin können Aspekte der vorliegenden Erfindung in Form eines Computerprogrammprodukts ausgebildet werden, das in einem oder mehreren computerlesbaren Medien mit darauf enthaltenem computerlesbarem Programmcode enthalten sein kann.
  • Jede beliebige Kombination aus einem oder mehreren computerlesbaren Medien kann verwendet werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium handeln. Bei einem computerlesbaren Speichermedium kann es sich zum Beispiel, ohne auf diese beschränkt zu sein, um ein System, eine Vorrichtung oder eine Einheit elektronischer, magnetischer, optischer, elektromagnetischer, Infrarot oder Halbleiter verwendender Art sowie jede beliebige geeignete Kombination des Vorgenannten handeln. Zu spezielleren Beispielen für das computerlesbare Speichermedium kann Folgendes gehören (nicht abschließende Liste): eine elektrische Verbindung mit einer oder mehreren Leitungen, eine transportable Computerdiskette, eine Festplatte, ein Speicher mit wahlfreiem Zugriff (random access memory (RAM)), ein Nur-Lese-Speicher (read-only memory (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (erasable programmable read-only memory (EPROM) oder Flash-Speicher), ein Lichtwellenleiter, ein transportabler Compact-Disk-Nur-Lese-Speicher (compact disc read-only memory (CD-ROM)), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination des Vorgenannten. Im Kontext dieses Dokuments kann es sich bei einem computerlesbaren Speichermedium um jedes gegenständliche Medium handeln, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zum Ausführen von Anweisungen beinhalten oder speichern kann.
  • Zu einem computerlesbaren Signalmedium kann ein verbreitetes Datensignal mit darin zum Beispiel in einem Basisband oder als Teil einer Trägerwelle ausgebildetem computerlesbarem Programmcode zählen. Solch ein verbreitetes Signal kann in jeder beliebigen einer Vielfalt von Formen ausgebildet werden, einschließlich, ohne auf diese beschränkt zu sein, elektromagnetische, optische oder jede geeignete Kombination davon. Bei einem computerlesbaren Signalmedium kann es sich um jedes computerlesbare Medium handeln, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Ausführung von Anweisungen übertragen, verbreiten oder transportieren kann.
  • In einem computerlesbaren Medium enthaltener Programmcode kann mittels eines beliebigen geeigneten Mediums übertragen werden, wie beispielsweise, jedoch nicht beschränkt auf, kabellose, kabelgebundene, Lichtwellenleiterkabel, Hochfrequenz (HF) usw., oder einer beliebigen geeigneten Kombination des zuvor Genannten.
  • Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in jeder Kombination einer oder mehrerer Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder Ähnliches und herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf einem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Szenario kann der entfernt angeordnete Computer mit dem Computer des Benutzers über jede beliebige Art von Netzwerk, darunter ein lokales Netzwerk (local area network (LAN)) oder ein Weitverkehrsnetzwerk (wide area network (WAN)) verbunden sein, oder es kann eine Verbindung zu einem externen Computer (zum Beispiel mittels eines Internetdienstanbieters über das Internet) hergestellt werden.
  • Aspekte der vorliegenden Erfindung werden nachfolgend unter Bezugnahme auf Abbildungen von Ablaufplänen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Abbildungen von Ablaufplänen und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Abbildungen von Ablaufplänen und/oder den Blockschaubildern durch Computerprogrammanweisungen realisiert werden kann. Diese Computerprogrammanweisungen können einem Prozessor eines universellen Computers, eines zweckbestimmten Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine so zu erzeugen, dass die Anweisungen, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel zum Realisieren der im Block oder in den Blöcken des Ablaufplans und/oder Blockschaubildes angegebenen Funktionen/Handlungen erzeugen.
  • Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert sein, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anleiten kann, auf eine bestimmte Weise zu funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel einschließlich Anweisungen erzeugen, welche die im Block oder in den Blöcken des Ablaufplans und/oder des Blockschaubildes angegebene Funktion/Handlung ausführen.
  • Die Computerprogrammanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um eine Reihe von auf dem Computer, der anderen programmierbaren Vorrichtung oder den anderen Einheiten auszuführenden Operationsschritten hervorzurufen, um einen auf dem Computer realisierten Prozess so zu erzeugen, dass die auf dem Computer oder der anderen programmierbaren Vorrichtung ausgeführten Anweisungen Prozesse zum Realisieren der im Block oder in den Blöcken des Ablaufplans und/oder Blockschaubildes angegebenen Funktionen/Handlungen bereitstellen.
  • 1 zeigt eine Netzwerkumgebung 1, die ein System von über ein Netzwerk verbundenem Speicher (NAS) 7 mit einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung aufweist; 2 zeigt detaillierter das System von über ein Netzwerk verbundenem Speicher (NAS) mit einer hierarchischen Speicherumgebung von 1 gemäß einer Ausführungsform der vorliegenden Erfindung; und 3 zeigt ein vereinfachtes Datenbankschema für eine mögliche Realisierung einer Engine für inhaltsbezogene mehrschichtige Speicherung 10 der hierarchischen Speicherumgebung von 1 und 2 gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Unter Bezugnahme auf 1 bis 3 verwendet die gezeigte Ausführungsform der vorliegenden Erfindung eine hierarchische Speicherumgebung, die mindestens zwei unterschiedliche Speicherschichten 22, 24, 26, 28 und ein Dateisystem mit einer Engine für inhaltsbezogene mehrschichtige Speicherung 10 aufweist, die ein Mittel zum Inhaltabtasten 100, Inhaltabrufen 300 und Inhaltarchivieren 400 aufweist. Die Engine für inhaltsbezogene mehrschichtige Speicherung 10 löst als Reaktion auf ein zur Speicherung empfangenes neues Dokument einen in 4 gezeigten Benachrichtigungsprozess für ein neues Dokument S100 aus. Das Inhaltabtastmittel 100 tastet das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen ab; erzeugt verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses; und speichert die Metadaten in der Engine für inhaltsbezogene mehrschichtige Speicherung 10. Die Engine für inhaltsbezogene mehrschichtige Speicherung 10 bewertet die verbesserten Metadaten durch einen Beziehungsanalyseprozess, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; und speichert das neue Dokument auf der Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht 22, 24, 26, 28 der hierarchischen Speicherumgebung.
  • Unter Bezugnahme auf 1 und 2 zeigt die gezeigte Ausführungsform der Netzwerkumgebung 1 drei mit einem Netzwerk 3 verbundene Benutzer 5 und das System von über ein Netzwerk verbundenem Speicher (NAS) 7 mit der hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung, welche die Engine für inhaltsbezogene mehrschichtige Speicherung 10 und eine Architektur für mehrschichtige Dateispeicherung 20 aufweist, welche die vier Speicherschichten 22, 24, 26, 28 aufweist. Hier werden die Dateien von einem sehr schnellen Plattenspeichermedium einer ersten Speicherschicht A, bei der es sich um ein sehr schnelles „Gold”-Plattenspeichermedium handelt, auf kostengünstigere Medien mit weniger Leistung und/oder einer längeren Reaktionszeit einer zweiten Speicherschicht B, bei der es sich um ein schnelles „Silber”-Plattenspeichermedium handelt, einer dritten Speicherschicht C, bei der es sich um ein langsameres „Bronze”-Plattenspeichermedium handelt, und einer vierten Speicherschicht D, bei der es sich um ein Band handelt, migriert. Hier beruht die mehrschichtige Speicherung auf Migrations- und Platzierungsrichtlinien unter Verwendung der verbesserten Metadaten der Engine für inhaltsbezogene mehrschichtige Speicherung 10.
  • Zu den verbesserten Metadaten zählen die folgenden Informationen, ohne auf diese beschränkt zu sein: Schlüsselwörter eines Schlüsselwortabschnitts des abgetasteten Dokuments, Autoren, Herausgeber, Datum oder Ursprung, Titel, Bezüge eines Bezugsabschnitts des abgetasteten Dokuments, Hyperlinks wie URL-Adressen, andere Dokumenttitel, ein Dateizugriffsverlauf von Benutzern und ein Suchverlauf von Benutzern. Auf der Grundlage des spezifischen Dateiinhalts werden die verbesserten Metadaten durch zusätzliche Informationen der Prioritätsliste erweitert. Die Prioritätsliste weist mindestens eine der folgenden Teillisten auf: Eine erste, auch „Beziehungsliste” genannte Teilliste 12, eine Beziehung und/oder Bezüge zwischen unterschiedlichen Objekten aufweist, eine zweite, auch „Hotlist” genannte Teilliste 14, die Objekte aufweist, auf die am häufigsten und/oder kürzlich zugegriffen wurde, und eine dritte, auch „Auch-Liste” genannte Teilliste 16, die benutzergestützte Beziehungen zwischen unterschiedlichen Objekten aufweist, z. B. Benutzer, die Objekt ID = 123 abrufen, haben auch Objekt ID = 345 abgerufen.
  • So verwaltet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 die separaten Anwendungsfälle von Dateispeicherung unter Verwendung des Mittels zum Inhaltabtasten 100, Dateiabrufen unter Verwendung des Mittels zum Inhaltabrufen 300 und inhaltsbezogene Archivierung unter Verwendung des Mittels zum Inhaltarchivieren 400. Das Mittel zum Inhaltabrufen 300 löst einen in 5 gezeigten Dokumentzugriff-Benachrichtigungsprozess S300 aus, in dem zugehörige Dokumente auf der Grundlage der verbesserten Metadaten und der Prioritätsliste ermittelt werden; die zugehörigen Dokumente in einer Speicherschicht der höchsten Ebene 22 platziert werden; und die Prioritätsliste aktiviert wird; und das Dokument abgerufen wird, auf das zugegriffen wird. Das Mittel zum Inhaltarchivieren 400 führt einen in 6 gezeigten Archivierungsprozess S400 aus, um Dokumente zu ermitteln, die auf der Grundlage der verbesserten Metadaten und der Prioritätsliste in einer Speicherschicht einer niedrigeren Ebene 24, 26, 28 archiviert werden können.
  • Eine mögliche Realisierung, um die verbesserten Metadaten in der Engine für inhaltsbezogene mehrschichtige Speicherung (content related tiering engine (CRTE)) 10 permanent zu speichern und zu verwalten, stellt ein Verwaltungssystem für relationale Datenbanken (RDBMS) dar. Weitere Formen sind denkbar und die Details sind für diese Erfindung nicht relevant.
  • Ein vereinfachtes Beispiel eines möglichen Datenbankmodells ist in 3 gezeigt und enthält auch die Benutzer 5 der Systeme und ihren Zugriffs- und Suchverlauf. Das System von über ein Netzwerk verbundenem Speicher (NAS) 7 wird die mehrschichtige Speicherung auf der Grundlage der Metadatendefinitionen ausführen. Hier ist die Engine für inhaltsbezogene mehrschichtige Speicherung 10 als Verwaltungssystem für relationale Datenbanken realisiert, um die verbesserten Metadaten zu verwalten. Jede Datei (CRTE.DATEIEN) wird durch eine Identifikation ID (DATEI_ID) eindeutig identifiziert. Dies kann mittels des Standes der Technik erfolgen, wie beispielsweise einem Erzeugen eines eindeutigen Datei-Hashwertes. Die Liste aller Dateien im System wird in einer Tabelle innerhalb des Verwaltungssystems für relationale Datenbanken (RDBMS) gepflegt. Die eindeutige Kennung wird verwendet, um eine Datei den in zusätzlichen Tabellen (CRTE.Statische_SCHLUESSELWOERTER; CRTE.SCHLUESSELWOERTER; CRTE.BEZUEGE; CRTE.ZUGRIFFSVERLAUF; und CRTE.SUCHVERLAUF) gepflegten zusätzlichen Metadaten zuzuordnen.
  • In der gezeigten Ausführungsform verwendet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 vier Hauptverfahren. Die Engine für inhaltsbezogene mehrschichtige Speicherung 10 verwendet eine Verwaltung durch Schlüsselwörter. Dies bedeutet, dass jeder Artikel oder jedes Buch; üblicherweise enthält eine auf dem System von über ein Netzwerk verbundenem Speicher (NAS) 7 gespeicherte Datei, einen Satz von Schlüsselwörtern (Zeichenketten) entsprechend der Zeit enthält, die er oder es in der Architektur für mehrschichtige Dateispeicherung 20 gespeichert wird. Diese Schlüsselwörter werden den erweiterten Metadaten der Datei hinzugefügt, wenn sie erstmals im System von über ein Netzwerk verbundenem Speicher (NAS) 7 gespeichert wird. Wenn ein Benutzer 5 einen Artikel oder ein Buch (Datei) anfordert, werden alle anderen Dateiobjekte, die einen identischen Schlüsselwortsatz enthalten, automatisch in die höchste Ebene oder „Gold”-Speicherschicht A migriert. Somit sind sie bereits in der schnelleren Speicherschicht 22 verfügbar, wenn der Benutzer 5 auf sie zugreifen möchte, und es sind keine weiteren Migrationen oder Abrufe erforderlich.
  • Weiterhin verwendet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 eine Verwaltung durch Bezüge. Dies bedeutet, dass jeder Artikel oder jedes Buch eine Liste von Bezügen enthält. Wenn ein Benutzer 5 einen Artikel oder ein Buch anfordert, werden alle zitierten Artikel automatisch in die höchste Ebene bzw. die „Gold”-Speicherschicht A migriert. Somit sind sie bereits in der schnelleren Speicherschicht 22 verfügbar, wenn der Benutzer 5 auf sie zugreifen möchte, und es sind keine weiteren Migrationen oder Abrufe erforderlich.
  • Zudem verwendet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 eine Verwaltung durch Verlauf. Dies bedeutet, dass die Engine für inhaltsbezogene mehrschichtige Speicherung 10 den Dateizugriffsverlauf für jeden Benutzer 5 pflegt. Wenn nachfolgend ein Benutzer 5 ein Dokument anfordert, wird die Engine für inhaltsbezogene mehrschichtige Speicherung 10 Benutzer 5 identifizieren, die auf dieselbe Datei zugegriffen haben und automatisch Dokumente entsprechend dem Zugriffsverlauf abrufen.
  • Beispiel:
    • (1) Der Benutzer „Smith” hat die Dokumente „Eins”, „Zwei” und „Drei” abgerufen.
    • (2) Die Engine für inhaltsbezogene mehrschichtige Speicherung 10 speichert diese Informationen als Teil des Zugriffsverlaufs.
    • (3) Zu einem späteren Zeitpunkt ruft Benutzer „Brown” oder „Miller” das Dokument „Eins” ab.
    • (4) Die Engine für inhaltsbezogene mehrschichtige Speicherung 10 tastet den Zugriffsverlauf nach einem Zugriff auf Dokument „Eins” ab und ruft für Benutzer „Brown” oder „Miller” automatisch „Zwei” und „Drei” ab.
  • Weiterhin verwendet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 eine Verwaltung durch Suche. Dies bedeutet, dass im Falle eines Durchführens einer Dokumentsuche durch Benutzer 5 jedes oder das Dokument mit den meisten Treffern, das Teil der Suche ist, ebenfalls automatisch zur höchsten Ebene oder „Gold”-Speicherschicht A migriert wird. Wenn ein Benutzer 5 eine Suche nach einer Datei durchführt, wird die Engine für inhaltsbezogene mehrschichtige Speicherung 10 die Suchergebnisse mit der höchsten Bewertung ausfindig machen. Die Dateien mit der höchsten Bewertung werden automatisch migriert oder abgerufen.
  • Die vorstehend beschriebene Engine für inhaltsbezogene mehrschichtige Speicherung 10 kann in Produkten von über ein Netzwerk verbundenem Speicher (NAS) verwendet werden. Dies scheint normal für Objekte (Dateien, Dokumente...), da über ein Netzwerk verbundener Speicher (NAS) eher auf Dateiebene als Blockebene verwaltet wird, die selbst keine Vorstellung von Dateien hat.
  • In der bevorzugten Ausführungsform ist die Engine für inhaltsbezogene mehrschichtige Speicherung 10 Teil des Systems von über ein Netzwerk verbundenem Speicher (NAS) 7 und als solches transparent für die Benutzer 5. In einer alternativen Ausführungsform ist die Engine für inhaltsbezogene mehrschichtige Speicherung 10 jedoch für das System von über ein Netzwerk verbundenem Speicher (NAS) 7 extern. In noch einer weiteren Ausführungsform wird die Engine für inhaltsbezogene mehrschichtige Speicherung 10 zwischen unterschiedlichen Systemen von über ein Netzwerk verbundenem Speicher (NAS) 7 gemeinsam genutzt, was eine noch leistungsfähigere Nutzung des Konzeptes verbesserter Metadaten und der Verfahren mehrschichtiger Inhaltsspeicherung erlaubt.
  • 4 zeigt einen Dateispeicherungsprozess, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist; 5 zeigt einen Dateiabrufprozess, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist; und 6 zeigt ein schematisches Ablaufschaubild eines Dateiarchivierungsprozesses, der Teil des Verfahrens für den Umgang mit Dateien in einer hierarchischen Speicherumgebung gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • 4 beschreibt den Dateispeicherungsprozess beginnend mit Schritt S10. Nachdem in Schritt S20 eine neue Datei oder ein neues Dokument zur Speicherung durch das System von über ein Netzwerk verbundenem Speicher (NAS) 7 empfangen wird, wird die neue Datei oder das neue Dokument in Schritt S30 gespeichert und im Gegenzug das Prozessende bestätigt. Parallel dazu wird eine Benachrichtigung für eine neue Datei oder ein neues Dokument an die Engine für inhaltsbezogene mehrschichtige Speicherung 10 gesendet, die in Schritt S100 einen Benachrichtigungsprozess für ein neues Dokument durchführt. In Schritt S110 tastet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 zum Beispiel unter Verwendung des Mittels für Inhaltabtasten 100 die empfangene neue Datei oder das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen ab. In Schritt S120 führt die Engine für inhaltsbezogene mehrschichtige Speicherung 10 einen Beziehungsanalyseprozess durch, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert und verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses erzeugt. Die Metadaten werden in einem Dateisystem gespeichert, z. B. in der Engine für inhaltsbezogene mehrschichtige Speicherung 10. Das Speichern des neuen Dokuments in einer Speicherschicht 22, 24, 26, 28 der hierarchischen Speicherumgebung 1 beruht auf einem Ergebnis der Prioritätsliste.
  • Die Benachrichtigung der Engine für inhaltsbezogene mehrschichtige Speicherung 10 wird zum Beispiel unter Verwendung vorhandener Dateisystem-Änderungsbenachrichtigungen erzeugt. Eine mögliche Realisierung stellt die auf Linux-Betriebssystemen verfügbare „fschange”-Einrichtung dar. In solch einem Szenario wird Schritt 110 durch ein „ERZEUGE <Dateiname>”-Ereignis ausgelöst. Dies wird eine Dokumentabtastung auslösen, z. B. Schlüsselwörter und Bezüge, und in Schritt S120 werden Beziehungen zu anderen Dokumenten erzeugt. Diese Beziehungs- und Metadateninformationen werden zum Beispiel in der Engine für inhaltsbezogene mehrschichtige Speicherung 10 gespeichert.
  • Während des Dateispeicherungsprozesses werden die Metadaten auf der Grundlage des Inhalts der Datei erweitert. Der Satz von Schlüsselwörtern weist zum Beispiel Schlüsselwörter eines Schlüsselwortabschnitts des Dokuments, Autoren, Herausgeber, Datum oder Ursprung und Titel auf. Der Satz von Bezügen weist zum Beispiel Bezüge eines Bezugsabschnitts des Dokuments, Hyperlinks und andere Dokumenttitel auf. Durch den Analyseprozess werden die verbesserten Metadaten zum Beispiel mit dem Dateizugriffsverlauf von Benutzern und dem Suchverlauf von Benutzern erweitert.
  • 5 beschreibt den Abrufprozess beginnend mit Schritt S200. Nachdem in Schritt S210 ein Datei- oder Dokumentzugriff empfangen wird, wird in Schritt S220 eine entsprechende Datei oder ein entsprechendes Dokument abgerufen und auf eine Schicht der höchsten Ebene A migriert. Parallel dazu wird eine Datei- oder Dokumentzugriffs-Benachrichtigung an die Engine für inhaltsbezogene mehrschichtige Speicherung 10 gesendet, die in Schritt S300 einen Dokumentzugriffs-Benachrichtigungsprozess durchführt. Auf der Grundlage der verbesserten Metadaten und der Prioritätsliste bewertet die Engine für inhaltsbezogene mehrschichtige Speicherung 10 in Schritt S310 zugehörige Dateien oder Dokumente zum Beispiel unter Verwendung des Inhaltabrufmittels 300. Die zugehörigen Dateien oder Dokumente werden dann in Schritt S320 in die Schicht A der höchsten Ebene migriert. In den Schritten S330, S340, S350 aktualisiert die Engine für inhaltsbezogene mehrschichtige Speicherung 10 die erste Teilliste 12 oder „Beziehungsliste”, die zweite Teilliste 14 oder „Hotlist” bzw. die dritte Teilliste 16 oder „Auch-Liste” der Prioritätslisten.
  • 6 beschreibt den inhaltsbezogenen Archivierungsprozess beginnend in Schritt S400. In Schritt S410 ermittelt die Engine für inhaltsbezogene mehrschichtige Speicherung 10 Dateien oder Dokumente, die auf der Grundlage der verbesserten Metadaten und der Prioritätsliste unter Verwendung des Inhaltsarchiviermittels 400 in einer Speicherschicht einer niedrigeren Ebene B, C, D archiviert werden können. Hier werden die inhaltsbezogenen Metadatentabellen (CRTE.Statische_SCHLUESSELWOERTER; CRTE.SCHLUESSELWOERTER; CRTE.BEZUEGE; CRTE.ZUGRIFFSVERLAUF; und CRTE.SUCHVERLAUF) des Verwaltungssystem für relationale Datenbanken (RDBMS) verwendet, um „kalte” Dokumente zu ermitteln, die in Speicherschichten einer niedrigeren Ebene B, C; D archiviert werden können.
  • Zurzeit sind im Stand der Technik keine solchen inhaltsbasierten mehrschichtigen Dateilösungen verfügbar oder vorhanden. Aufgrund der in der Offenbarung erläuterten Neuartigkeiten wird dadurch Lösungen von über ein Netzwerk verbundenem Speicher (NAS) ein erheblicher Mehrwert hinzugefügt.
  • Die in dieser Erfindung beschriebenen Konzepte und Verfahren können auch auf WAN(Wide Area Network)-Caching-Umgebungen angewendet werden. Hier werden Dateien von einem zentralen (Heim)-Standort zu einem entfernten (Cachespeicher)-Standort in Cachespeicher gespeichert. Typische Anwendungen dieser Technik stellen Zweigbüros dar, die solch einen entfernt angeordneten Cachespeicher für die Daten aufweisen. Die Daten (Dateien) werden zwischen dem Heim- und den Cachespeicher-Standorten auf der Grundlage bestimmter Regeln und Richtlinien kopiert (synchronisiert). Das Konzept und die Verfahren, die im Kontext einer mehrschichtigen Speicherung in Systemen von über ein Netzwerk verbundenem Speicher (NAS) beschrieben sind, können auf dieselbe Weise auf solche WAN-Caching-Umgebungen angewendet werden. Die neuen Metadatenkonzepte werden darüber hinaus verwendet, um Daten (Dateien) zwischen Heim- und Cachespeicher-Standorten zu synchronisieren. Ein Beispiel stellt dar, auch alle Bezugsobjekte von Heim zu Cachespeicher zu synchronisieren. Die Wahrscheinlichkeit, dass Benutzer auf bezogene Objekte aus dem Cachespeicher zugreifen, die bereits automatisch im Cachespeicher verfügbar gemacht wurde, verbessert die Reaktions-/Zugriffszeit.
  • In Verbindung mit einer durch TSM/HSM verwalteten Bandbibliothek kann die Funktion von dateilistengestützter Migration/Abrufung verwendet werden, um die Gesamtprozessleistung zu optimieren. Diese Funktion optimiert die Folge von wiederherzustellenden/migrierenden Objekten auf der Grundlage von Bändern und der tatsächlichen Position auf jedem Band.
  • Ausführungsformen der vorliegenden Erfindung schlagen einen neuen Ansatz zum Verwalten mehrschichtiger Dateispeicherung auf der Grundlage von tatsächlichen Dateiinhalts- und Zugriffsmustern vor. Obwohl dies durch die Nutzung in einer Umgebung von über ein Netzwerk verbundenem Speicher (NAS) veranschaulicht wird, kann das Konzept ebenso in anderen Systemen und Anwendungen ausgeführt werden.
  • Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, Funktionalität und die Arbeitsweise möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In dieser Hinsicht kann jeder Block im Ablaufplan oder in den Blockschaubildern für ein Modul, ein Segment oder einen Codeabschnitt stehen, der eine oder mehrere ausführbare Anweisungen zum Realisieren der angegebenen logischen Funktion(en) aufweist. Es soll zudem angemerkt werden, dass bei einigen alternativen Realisierungen die im Block angegebenen Funktionen in anderer Reihenfolge als der in den Figuren angegebenen auftreten können. Zum Beispiel können zwei aufeinander folgend abgebildete Blöcke tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal abhängig von der betreffenden Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es wird ebenfalls angemerkt, dass jeder Block der Blockschaubilder und/oder Abbildung von Ablaufplänen und Kombinationen von Blöcken in den Blockschaubildern und/oder der Abbildung von Ablaufplänen durch zweckbestimmte hardwaregestützte Systeme oder Kombinationen von zweckbestimmter Hardware und Computeranweisungen realisiert werden kann, welche die angegebenen Funktionen oder Handlungen durchführen.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung vorgelegt, sind jedoch nicht als erschöpfend oder auf die offenbarten Ausführungsformen beschränkt aufzufassen. Viele Änderungen und Variationen sind für den Fachmann naheliegend, ohne vom Umfang und Geist der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technischen Verbesserungen gegenüber auf dem Markt anzutreffenden Technologien am besten zu erklären oder um anderen Fachleuten ein Verständnis der hierein offenbarten Ausführungsformen zu ermöglichen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • „A Semantic Extension of a Hierarchical Storage Management System for Small and Medium-sized Enterprises” von Axel Schroder et. al [0009]

Claims (15)

  1. Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung, die Mittel zum Inhaltabtasten (100), Inhaltabrufen (300) und Inhaltarchivieren (400) aufweist; das Verfahren weist die Schritte auf: ein Empfangen eines neuen Dokuments zur Speicherung löst einen neuen Dokumentbenachrichtigungsprozess (S100) aus, der das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen abtastet; verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses erzeugt; die Metadaten in einem Dateisystem speichert; und die verbesserten Metadaten durch einen Beziehungsanalyseprozess bewertet, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; Speichern des neuen Dokuments auf Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht (22, 24, 26, 28) der hierarchischen Speicherumgebung (1).
  2. Verfahren nach Anspruch 1, wobei der Satz von Schlüsselwörtern mindestens eines von Folgendem aufweist: Schlüsselwörter eines Schlüsselwortabschnitts, Autoren, Herausgeber, Datum oder Ursprung und Titel.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Satz von Bezügen mindestens eines von Folgendem aufweist: Bezüge eines Bezugsabschnitts, Hyperlinks und andere Dokumenttitel.
  4. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 3, wobei der Analyseprozess die verbesserten Metadaten mit mindestens einer der folgenden Informationen erweitert: ein Dateizugriffsverlauf von Benutzern und ein Suchverlauf von Benutzern.
  5. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 4, wobei die Prioritätsliste mindestens eine der folgenden Teillisten aufweist: eine erste Teilliste (12), eine Beziehung und/oder Bezüge zwischen unterschiedlichen Objekten aufweist, eine zweite Teilliste (14), die Objekte aufweist, auf die am häufigsten oder kürzlich zugegriffen wurde, und eine dritte Teilliste (16), die benutzergestützte Beziehungen zwischen unterschiedlichen Objekten aufweist.
  6. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 5, wobei ein Zugreifen auf ein Dokument einen Dokumentzugriffs-Benachrichtigungsprozess (S300) auslöst, der zugehörige Dokumente auf Grundlage der verbesserten Metadaten und der Prioritätsliste ermittelt; die zugehörigen Dokumente in einer Speicherschicht der höchsten Ebene (22) platziert; und die Prioritätsliste aktualisiert; und das Dokument, auf das zugegriffen wird, wird abgerufen.
  7. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 6, wobei in einem Archivierungsprozess (S400) Dokumente ermittelt werden, die auf Grundlage der verbesserten Metadaten und der Prioritätsliste in einer Speicherschicht einer niedrigeren Ebene (24, 26, 28) archiviertbar sindkönnen.
  8. Hierarchische Speicherumgebung, die mindestens zwei unterschiedliche Speicherschichten (22, 24, 26, 28) und ein Dateisystem mit einer Engine für inhaltsbezogene mehrschichtige Speicherung (10) aufweist, die ein Mittel zum Inhaltabtasten (100), Inhaltabrufen (300) und Inhaltarchivieren (400) aufweist; wobei die Engine für inhaltsbezogene mehrschichtige Speicherung (10) als Reaktion auf ein zur Speicherung empfangenes neues Dokument einen Benachrichtigungsprozess für ein neues Dokument (S100) auslöst; wobei das Inhaltabtastmittel (100) das empfangene neue Dokument nach einem Satz von Schlüsselwörtern und Bezügen abtastet; verbesserte Metadaten für das neue Dokument einschließlich des Abtastergebnisses erzeugt; und die Metadaten in der Engine für inhaltsbezogene mehrschichtige Speicherung 10 speichert; wobei die Engine für inhaltsbezogene mehrschichtige Speicherung (10) die verbesserten Metadaten durch einen Beziehungsanalyseprozess bewertet, der zu einer Prioritätsliste führt, die eine Wahrscheinlichkeit möglichen Zugriffs definiert; und das neue Dokument auf Grundlage eines Ergebnisses der Prioritätsliste in einer Speicherschicht (22, 24, 26, 28) der hierarchischen Speicherumgebung speichert.
  9. Speicherumgebung nach Anspruch 8, wobei die Engine für inhaltsbezogene mehrschichtige Speicherung (10) als Verwaltungssystem für relationale Datenbanken implementiert ist, um die verbesserten Metadaten zu verwalten.
  10. Speicherumgebung nach Anspruch 8 oder 9, wobei die verbesserten Metadaten mindestens eines von Folgendem aufweisen: Schlüsselwörter eines Schlüsselwortabschnitts, Autoren, Herausgeber, Datum oder Ursprung, Titel, Bezüge eines Bezugsabschnitts, Hyperlinks, andere Dokumenttitel, einen Dateizugriffsverlauf von Benutzern und einen Suchverlauf von Benutzern.
  11. Speicherumgebung nach einem der vorhergehenden Ansprüche 8 bis 10, wobei die Prioritätsliste mindestens eine der folgenden Teillisten aufweist: eine erste Teilliste, eine Beziehung und/oder Bezüge zwischen unterschiedlichen Objekten aufweist, eine zweite Teilliste, die Objekte aufweist, auf die am häufigsten oder kürzlich zugegriffen wurde, und eine dritte Teilliste, die benutzergestützte Beziehungen zwischen unterschiedlichen Objekten aufweist.
  12. Speicherumgebung nach einem der vorhergehenden Ansprüche 8 bis 11, wobei das Inhaltabrufmittel (300) einen Dokumentzugriffs-Benachrichtigungsprozess (S300) auslöst, der zugehörige Dokumente auf Grundlage der verbesserten Metadaten und der Prioritätsliste ermittelt; die zugehörigen Dokumente in einer Speicherschicht der höchsten Ebene (22) platziert; und die Prioritätsliste aktualisiert; und das Dokument, auf das zugegriffen wird, abruft.
  13. Speicherumgebung nach einem der vorhergehenden Ansprüche 8 bis 12, wobei das Inhaltarchiviermittel (400) einen Archivierungsprozess (S400) ausführt, um Dokumente zu ermitteln, die auf Grundlage der verbesserten Metadaten und der Prioritätsliste in einer Speicherschicht einer niedrigeren Ebene (24, 26, 28) archiviert werden können.
  14. Datenverarbeitungsprogramm zur Ausführung in einem Datenverarbeitungssystem, aufweisend Softwarecodeabschnitte zum Durchführen eines Verfahrens für einen Umgang mit Dateien in einer hierarchischen Speicherumgebung nach einem der Ansprüche 1 bis 7, wenn das Programm auf dem Datenverarbeitungssystem ausgeführt wird.
  15. Auf einem durch Computer verwendbaren Medium gespeichertes Computerprogrammprodukt, aufweisend ein computerlesbares Programmmittel, um einen Computer zu veranlassen, ein Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung nach einem der vorhergehenden Ansprüche 1 bis 7 durchzuführen, wenn das Programm auf dem Computer ausgeführt wird.
DE102014104971.3A 2013-04-09 2014-04-08 Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung Pending DE102014104971A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1306393.8A GB2512856A (en) 2013-04-09 2013-04-09 Method for file handling in a hierarchical storage environment and corresponding hierarchical storage environment
GB1306393.8 2013-04-09

Publications (1)

Publication Number Publication Date
DE102014104971A1 true DE102014104971A1 (de) 2014-10-09

Family

ID=48483592

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014104971.3A Pending DE102014104971A1 (de) 2013-04-09 2014-04-08 Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung

Country Status (3)

Country Link
US (3) US9575989B2 (de)
DE (1) DE102014104971A1 (de)
GB (1) GB2512856A (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2512856A (en) 2013-04-09 2014-10-15 Ibm Method for file handling in a hierarchical storage environment and corresponding hierarchical storage environment
US10671565B2 (en) * 2015-04-24 2020-06-02 Quest Software Inc. Partitioning target data to improve data replication performance
US9658794B2 (en) 2015-05-08 2017-05-23 Sonicwall Inc. Two stage memory allocation using a cache
US10621102B2 (en) * 2017-03-23 2020-04-14 International Business Machines Corporation Managing digital datasets on a multi-tiered storage system based on predictive caching
US10705767B2 (en) * 2017-07-20 2020-07-07 International Business Machines Corporation Optimizing user satisfaction when training a cognitive hierarchical storage-management system
US11106637B2 (en) * 2019-05-20 2021-08-31 5Th Kind, Inc. Metadata-driven tiered storage
US11340964B2 (en) * 2019-05-24 2022-05-24 International Business Machines Corporation Systems and methods for efficient management of advanced functions in software defined storage systems
US11573933B2 (en) * 2019-11-14 2023-02-07 Box, Inc. Methods and systems for identifying and retrieving hierarchically related files
US11451615B1 (en) * 2021-08-23 2022-09-20 Red Hat, Inc. Probabilistic per-file images preloading

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779097B2 (en) 2000-09-07 2010-08-17 Sonic Solutions Methods and systems for use in network management of content
US9268780B2 (en) 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US7441096B2 (en) * 2004-07-07 2008-10-21 Hitachi, Ltd. Hierarchical storage management system
US7801864B2 (en) * 2005-11-28 2010-09-21 Commvault Systems, Inc. Systems and methods for using metadata to enhance data identification operations
WO2009032712A2 (en) * 2007-08-29 2009-03-12 Nirvanix, Inc. Method and system for moving requested files from one storage location to another
US9020996B2 (en) * 2011-06-24 2015-04-28 Stephen P. LORD Synthetic view
IL214312A (en) * 2011-07-27 2016-06-30 Verint Systems Ltd A system and method for managing information lifecycle in investigation files
GB2512856A (en) 2013-04-09 2014-10-15 Ibm Method for file handling in a hierarchical storage environment and corresponding hierarchical storage environment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Semantic Extension of a Hierarchical Storage Management System for Small and Medium-sized Enterprises" von Axel Schroder et. al

Also Published As

Publication number Publication date
US11556495B2 (en) 2023-01-17
US9575989B2 (en) 2017-02-21
US20170124095A1 (en) 2017-05-04
US20180260399A1 (en) 2018-09-13
GB201306393D0 (en) 2013-05-22
GB2512856A (en) 2014-10-15
US10055416B2 (en) 2018-08-21
US20140304309A1 (en) 2014-10-09

Similar Documents

Publication Publication Date Title
DE102014104971A1 (de) Verfahren für den Umgang mit Dateien in einer hierarchischen Speicherumgebung und eine entsprechende hierarchische Speicherumgebung
US11093466B2 (en) Incremental out-of-place updates for index structures
DE202010018481U1 (de) Asynchroner verteilter Objekt-Upload für replizierte Assoziativspeichercluster
DE112012005037B4 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
DE102013205069B4 (de) Erhöhte effizienz bei inline-deduplizierungen
DE102018002899A1 (de) Verwalten von Digitalassets, die als Komponenten und gepackte Dateien gespeichert sind
DE102013204972B4 (de) Hybride Sicherung und Wiederherstellung eines sehr grossen Dateisystems unter Verwendung von Metadaten-Abbildsicherung und herkömmlicher Sicherung
US11720528B2 (en) Collections for storage artifacts of a tree structured repository established via artifact metadata
US20120221523A1 (en) Database Backup and Restore with Integrated Index Reorganization
US20120330904A1 (en) Efficient file system object-based deduplication
US20120179689A1 (en) Directory tree search
DE202009019139U1 (de) Asynchron verteilte Deduplizierung für replizierte inhaltsadressierte Speichercluster
DE102013209528A1 (de) Benutzergesteuerte Replikation in einem System für synchronisierte Objektreplikationen
DE202009019149U1 (de) Asynchron verteilte Speicherbereinigung für replizierte Speichercluster
WO2013144720A2 (en) Improved performance for large versioned databases
US20220035865A1 (en) Content capture across diverse sources
EP3084638A1 (de) Posix-kompatibles dateisystem, verfahren zum erzeugen einer dateiliste und speichervorrichtung
US20190108165A1 (en) Deleting tuples using separate transaction identifier storage
DE102019005368A1 (de) Verbessern der Konfliktbereinigung innerhalb von synchronisierten konstituententeilbasierten Digitalassets
Katz et al. DVID: distributed versioned Image-Oriented dataservice
DE112005003668T5 (de) HSM-Steuerprogramm, HSM-Steuervorrichtung und HSM-Steuerverfahren
DE112011103367T5 (de) Replizieren von Daten
US10423580B2 (en) Storage and compression of an aggregation file
DE102021127170A1 (de) Journale für datenklonvorgänge
DE112016003309T5 (de) Abonnementdienst zum Überwachen von Änderungen in fernen Inhalten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: LIFETECH IP SPIES DANNER & PARTNER PATENTANWAE, DE

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016000000

Ipc: G06F0016110000

R084 Declaration of willingness to licence