WO2006074869A1 - Datenspeichersystem und verfahren zu dessen betrieb - Google Patents

Datenspeichersystem und verfahren zu dessen betrieb Download PDF

Info

Publication number
WO2006074869A1
WO2006074869A1 PCT/EP2006/000034 EP2006000034W WO2006074869A1 WO 2006074869 A1 WO2006074869 A1 WO 2006074869A1 EP 2006000034 W EP2006000034 W EP 2006000034W WO 2006074869 A1 WO2006074869 A1 WO 2006074869A1
Authority
WO
WIPO (PCT)
Prior art keywords
files
cache
file
unit
memory unit
Prior art date
Application number
PCT/EP2006/000034
Other languages
English (en)
French (fr)
Inventor
Rudolf Bayer
Original Assignee
Rudolf Bayer
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rudolf Bayer filed Critical Rudolf Bayer
Priority to DE112006000086T priority Critical patent/DE112006000086A5/de
Publication of WO2006074869A1 publication Critical patent/WO2006074869A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/26Using a specific storage system architecture
    • G06F2212/263Network storage, e.g. SAN or NAS

Definitions

  • the present invention relates generally to a highly reliable and redundant distributed data service system, and more particularly, to a hierarchically organized data storage system architecture for storing, providing, and backing up files, and a method of operating such a system.
  • file servers are used as data storage and file service providers (for example for file backup, file compression, etc.), even in distributed systems in which each node has its own hard disk It has become commonplace to store the entire file system with the original files and their replicas on file servers.
  • a file server is thus to be understood as meaning a server, frequently a disk server, which makes its resources, in particular hard disks, available to the connected users in a network and takes over the storage of their files for the users and also regulates the access to these files ,
  • FIG. 1 shows a highly schematic representation of three files a, b, c and how these are stored on a hard disk F.
  • the files a, b, c consist in each case of individual pages al to a5, bl to b3 and. cl to c4.
  • the hard disk F consists of a plurality of blocks shown as a square grid. When saving, the files are distributed page by page to the available blocks. This distribution is shown in the illustration of Figure 1 bottom right. It is striking that the files are not usually stored sequentially, d. H . the individual pages of a file are stored in blocks that are not related. In the representation of FIG. 1, only the file b with the three pages b1, b2, b3 is stored sequentially in a purely random manner. Such sequential storage is usually quickly lost during operation of the system (file call and reloading).
  • FIG. 2 shows the hard disk F (as part of a file server FS) integrated into a storage system architecture according to the prior art.
  • the file server FS with the hard disk F is integrated in a LAN (Local Area Network) with user computers CI1, C12,..., CIn.
  • the file server is connected to the hard disk F with a backup system B via a SAN (Storage Area Network).
  • the individual user computers CI1 to CIn can have hard disks which, however, frequently remain empty during operation (for example due to company guidelines or for security reasons) or merely serve to store unimportant or private files.
  • the user computers CI1 to CIn can be personal computers, notebooks, workstations or the like.
  • connection between the working store the individual user computer CIl to CIn and the file server in the LAN is bspw. realized by means of a block interface, d. H .
  • d. H a block interface
  • a division of the previous file server into two units namely a cache unit and a memory unit.
  • the tasks hitherto managed by one system are now distributed over two units, with the advantage that a decoupling can be achieved, whereby the storage process between the cache and the storage unit is carried out over a standard network connection (such as For example, a WAN, LAN or SAN) is manageable and storing the files in the storage unit can be sequential and optionally additionally compressed, resulting in better memory usage and faster backup backup follows.
  • the storage unit does not need a block interface, but only a simple so-called.
  • File interface (often called "object interface") because files are always stored as a whole unit between both the storage device and the cache device.
  • the processing of files by the user computer takes place in the cache unit via a block interface, as in a conventional file server, in contrast, the cache unit according to the invention has only a relatively small amount of data ready. Due to "work sharing", the software for controlling the storage device may be simpler compared to a conventional file server because the block interface is not needed, resulting in more stable operation.
  • the file system on the storage unit can advantageously be designed as a so-called “log-based file system” according to the prior art.
  • Figure 1 illustrates in a highly schematic representation of the fundamentals of storing files according to the prior art.
  • FIG. 2 illustrates in a highly schematic representation a known memory system architecture.
  • Figure 3 shows a network architecture with a file server according to the prior art.
  • FIG. 4 shows in a highly schematic representation a data storage system of the invention with a cache unit and a storage unit.
  • FIG. 5 shows, likewise in a highly schematic representation, a first embodiment of a data storage system architecture according to the invention.
  • FIG. 6 shows, similar to FIG. 5, a second embodiment of a data storage system architecture according to the invention.
  • FIG. 7 shows, similar to FIGS. 5 and 6, a third embodiment of a data storage system architecture according to the invention.
  • FIGS. 8 to 10 show data storage configurations for the embodiments of data storage system architectures according to the invention shown in FIGS. 5 to 7.
  • Figure 11 shows an embodiment of the invention for securing a so-called home PC.
  • FIG. 12 shows an embodiment of the invention for securing departmental computers via a LAN.
  • FIG. 13 shows an embodiment of the invention for securing branch computers via WAN / DSL.
  • FIG. 14 shows an embodiment of the invention for securing portable computers via mobile communications.
  • FIG. 4 shows, in a highly schematic representation, three files a, b, c which in each case consist of individual pages a1 to a5, b1 to b3 and / or. cl to c4 exist.
  • storage of files basically takes place on a hard disk F of a file server FS (cf., FIG. 1)
  • a cache unit C and a memory unit S are now provided according to the invention.
  • the cache unit C includes at least one cache and serves to store only the files that are requested for processing by one or more users.
  • these are the files a and c, whose individual pages al to a5 and cl to c4 are stored in blocks of the cache unit C.
  • the memory unit S serves to permanently store all files (and optionally their earlier versions), as shown in FIG. All three shown files a, b, c are stored page by page in blocks of the memory unit S. In the illustrated embodiment, the storage in the memory unit S is basically sequential. The file b is stored only in the memory unit S, but not in the cache unit C, since it is not currently requested for processing.
  • Figure 5 shows a first embodiment of a possible architecture of a data storage system according to the invention with a plurality of user computers CIl, C12, ..., CIn.
  • the user computers CI1 to CIn are connected to the cache unit C via a LAN (Local Area Network) (in the cache unit C, the two files a and c are stored page by page in blocks of the cache unit, similar to the representation of FIG. 4).
  • the cache unit C in turn is over one Further network connection (LAN, SAN or WAN o. A.)
  • the memory unit S Connected to the memory unit S, in accordance with the representation of Figure 4, the three files a, b, c are sequentially permanently stored.
  • the storage unit S is connected via a WAN, a LAN or a storage area network SAN to a backup system B for securing data stored in the storage unit S.
  • Compression of the files can be done by the storage unit S or even by the user's computer before being moved from the cache to the storage unit in order to reduce the network load.
  • This type of operation of the file system is particularly appropriate if the connection between the cache - the example. on a local PC at home or on a notebook - and the file storage over a WAN such as. ISDN or DSL, or even wirelessly over GPRS or UMTS takes place. You can operate such a system so that the cache is on your own computer at home or at a smaller company and the storage unit with the backup system, so the entire data vault (see below) outsourced to another company.
  • the memory unit S is thus arranged between the cache unit C and the backup system B.
  • the memory unit S does not require a block interface, but only a simple so-called file interface, d. H . only entire files (or very large parts of them, which are significantly larger than a single page of the file) are always between the storage unit and the cache unit or cache unit. between the storage unit and the backup system.
  • the creation of new files takes place first in the cache unit, a subsequent permanent storage of the generated file in the memory unit.
  • the file can then be deleted in the cache unit C immediately or at a later time which can be set or determined by means of rules (for example, when an invalidation message is received, if the file has meanwhile been changed by another user (see below)).
  • the corresponding file is transmitted to the cache unit for processing by the user.
  • the file is again transferred as a whole from the cache unit to the memory unit and stored in the memory unit (preferably sequentially).
  • the storage of the file in the storage unit can be done again in the same place as before, especially if the size of the file has not changed. Usually, however, a saving will take place at another location.
  • a division of the previous file server into two independent and only very weakly coupled subsystems, namely the cache unit C and the memory unit S is thus made.
  • the permanent storage of files, as described, takes place in the storage unit S and also a backup of the files takes place from the storage unit S.
  • Deltas transferred from the storage unit S via a file interface in the backup system B.
  • files that are no longer needed they can be used for the purpose of long - term archiving or storage. for the fulfillment of possibly. legally prescribed retention requirements (Compliance Rules) are moved to the backup system B.
  • Compliance Rules are moved to the backup system B and then deleted in the storage unit S.
  • a directory of the archived files can be stored in the storage unit S, but this directory is preferably also stored in the backup system.
  • files are thus processed in the cache unit C by the user computer connected via a block interface, the corresponding processing programs themselves usually being executed on the user computers.
  • the cache unit C thus has a block interface similar to a conventional known file server, the essential difference to the conventional file server being that the cache unit only needs to contain a small part of the total file set, namely only the few files currently being processed are located by user computer or. are requested.
  • Another advantage is that the contents of the cache unit need not be backed up because all files are permanently stored in the storage unit S and are backed up from there. For these reasons, the so-called. Flash memory as personal file caches on the user's computers.
  • a file is created and processed in the cache unit with the appropriate command (for example, new) of the application processing program.
  • the appropriate command for example, new
  • the generated file is cached or closed (eg, save commands, save as or close)
  • a copy of the file is transferred to the storage unit S and there permanently saved.
  • the file in the cache unit C can remain there or be deleted as desired.
  • Files can be stored in several caches, over this a corresponding management software in the storage unit book leads. For reading purposes, a file may be moved to multiple caches. For update purposes, a file may only be moved to a cache to avoid inconsistencies between multiple versions of this file. (For the solution of this question, the expert is standard methods in the field of database systems (Synchronization) and the operating systems (maintenance of the consistency of cache contents) known. )
  • files may generally be deleted in the cache unit when the closed file has been moved from the cache unit to the storage unit.
  • files may also remain in the cache unit, thereby saving a retransmission from the storage unit to the cache unit when a re-edit of a file is requested by a user.
  • this is not necessary for the correct functioning of the invention (therefore, according to the invention, the contents of the cache unit also do not have to be backed up in the backup system).
  • the cache unit receives a so-called invalidation message and the file is deleted in the cache unit.
  • the cache unit may also make an alignment with the storage unit to find out whether the file is still up to date or whether it needs to be retransmitted (from the storage unit to the cache unit). If more space is needed in the cache unit, any closed files can be deleted until enough space is available.
  • Garbage collection is known to those skilled in operating systems and database systems.
  • the advantage of the architecture of a data storage system illustrated in FIG. 5 is that the storage space for the block-interface cache unit is significantly lower than in the case of the conventional archiving system. tecture (as shown in Figure 2). It is estimated that the cache unit requires only about 20% or even less storage space than the conventional architecture.
  • the memory unit storage space is essentially the same as the file server of the conventional architecture, but can be significantly reduced by compression.
  • the software for managing the storage device is much simpler (due to the elimination of read / write access via the block interface) and is therefore more stable than with a conventional file server.
  • the memory unit has a much better performance than the conventional file server for file transfer and backup. Due to sequential reading and writing, an improvement factor of 10 can be assumed.
  • the cache unit also has much better read / write accessibility properties than a conventional file server.
  • Figure 6 shows a second embodiment for an architecture of a data storage system according to the invention.
  • the cache unit in the architecture of FIG. 6 is composed of a multiplicity of individual caches C1, C2,..., Cn, which in each case are assigned directly to a user computer and via the network connection WAN or LAN the storage unit are connected. Otherwise, the mode of operation corresponds to that explained in connection with FIG. 5.
  • An essential advantage of the architecture of FIG. 6 is that the frequently existing, but still idle, local hard disks of the individual user computers CI1 to CIn can be used in this way as caches C1 to Cn.
  • the in the prior art by the Da- Space allocated by the server is completely replaced by the (cheaper) memory of the storage unit.
  • the available cache memory on the user computers is approx. an order of magnitude (at least a factor of 10) greater than on the file servers of the prior art.
  • Both architectures shown in FIGS. 5 and 6 are associated with significantly lower storage costs, in the case of FIG. 5 because the cache unit can be much smaller than a conventional file server and the storage unit is cheaper and the required storage capacity of the storage unit also by compression of the storage there Files can be reduced to one-half to one-third.
  • costs are saved because comparatively large hard disks which can be used as a cache are present anyway in the individual user computers and the costs for the storage unit are likewise lower, as in the case of the architecture of FIG.
  • the processing performance due to the locomotive-driven caches is also significantly higher, as already described.
  • the invention relieves the network connections, in the case of FIG. 5 relieves the storage area networks SAN between the storage unit and the backup system, in the case of FIG. probably a significant relief in the Local Area Network of the user's computer, since the block access is no longer done over the LAN but over the local hard drives, as well as a significant discharge in the SAN (which u .U can even be replaced by a cheaper LAN).
  • FIG. 7 Another embodiment of an architecture of a data storage system according to the invention is shown in FIG. 7 and consists in principle of a mixture of the two architectures shown in FIGS. 5 and 6.
  • the cache unit C is in turn composed of a plurality of individual caches, which may be configured as file caches FC formed separately from the user computer or as caches C2 (as in the architecture of FIG. 6) directly locally assigned to the user computer.
  • FIG. 7 is a scalable variant for high-performance systems which can be used very well in practice, into which file caches can be added as required.
  • a flush cache operation for each cache can be controlled independently, also from the storage unit S ', and the system also works with an empty file cache (roaming user is supported).
  • a system expansion can take place by installing a storage unit instead of an extension of an existing file server if an existing high-performance system is to be expanded.
  • the system according to the invention has the significant advantage in all the architectures presented that the so-called backup windows, which are very critical in the prior art (which are due to the high and low power levels) long-lasting backup traffic at night or at the weekend are) completely eliminated.
  • the so-called volumes physical or logical subunits of the storage unit such as hard disks or partitions
  • This measure ensures the effectiveness of an online backup, since the processing of files, including open files, is not affected by a backup backup, because the memory unit and the cache unit are largely decoupled according to the invention.
  • the backup performance increases. As a result, the overall network connection is better utilized, and in many cases, the SAN can be replaced by a LAN, with significantly reduced costs.
  • Another way to improve backup performance is to have the storage unit keep track of what changes have been made to each volume since the last backup so that only newly added or deleted backup volumes are restored. changed files are backed up.
  • the memory unit S can store a plurality of temporally successive versions of a file a, in which case the versions with a. l, a .2, ..., a. n should be designated.
  • the physical storage of these logical versions a. i-1, a. i, a. i + 1 ... is optimized by the XOR difference formation known to the person skilled in the art so that only the compressed differences a_delta. il, a_delta. i and the latest file version (here: a. i + 1) are saved.
  • the differences arise according to the following relationships:
  • i-1 can be calculated very quickly using the following relationship:
  • the storage unit S additionally contains a multidimensional metadata database and a corresponding database management system in order to be able to manage all files and their delta differences and to be able to reconstruct files according to their state at any earlier time.
  • Information Lifecycle Management Systems ILMS
  • FIGS. 11 to 14 show various constellations or Variants shown in the backup of computer data.
  • FIG 11 shows a schematic representation of the backup of a home PC.
  • the user computer is a small computer (home PC) standing in a private household, which encompasses the file cache and the file store.
  • the home PC is connected to a backup system in a data center.
  • the network connection to the backup system takes place, for example, via WAN or DSL.
  • Figure 12 shows a schematic representation of an arrangement for securing departmental computers, d. H . a plurality of user computers set up in a department. Each of the user computers includes a cache.
  • the associated memory unit S can be either in the department or in a data center or at an external service provider (storage provider).
  • the connections between the user computer caches and the storage unit and the backup system are made via LAN or WAN.
  • Figure 13 shows a schematic representation of an arrangement for securing branch computers via WAN or DSL. In this constellation, a plurality of branch user computers is assigned a cache unit C via LAN, while the cache unit is in turn connected via LAN to a memory unit.
  • the connection from the storage device to the backup system located in a data center (RZ) is via WAN or DSL.
  • FIG. 14 shows a schematic representation of an arrangement for securing files that are located on a mobile computer (notebook).
  • the cache is located on the notebook representing the user computer, which is connected to a memory unit S via a mobile radio connection such as, for example, UMTS or GPRS.
  • a mobile radio connection such as, for example, UMTS or GPRS.
  • the storage unit S is connected to a backup system set up in a data center (RZ) or a storage provider. ;
  • a data vault takes advantage of the fact that backup systems often work with disk subsystems (so-called disk staging), where data to be backed up is stored on hard disks to speed up writing to tapes. These are high-quality and powerful hard disk systems. According to the invention, these known hard disks of backup systems are now used to form a data vault as storage unit S.

Abstract

Datenspeichersystem mit: einer Mehrzahl von Nutzerrechnern (Clients) (C11, C12,..., C1n), einem Speichersystem zum Speichern von Dateien (a, b, c) , auf die mittels der Nutzerrechner (C11, C12, ...,C1n) zugegriffen werden soll, einem Backup-System (B) zur Sicherung von in dem Speichersystem gespeicherten Dateien, wobei das Speichersystem eine Cacheeinheit (C) und eine Speichereinheit (S) umfasst und die Cacheeinheit (C) mindestens einen Cache umfasst, der mit einem oder mehreren Nutzerrechnern (C11, C12,..., C1n) einerseits und mit der Speichereinheit (S) andererseits verbunden ist und dazu ausgelegt ist, lediglich die Dateien zu speichern, die für eine Bearbeitung durch einen oder mehrere Nutzerrechner (C11, C12, ..., C1n) angefordert werden, und die Speichereinheit (S) mit der Cacheeinheit (C) einerseits und dem Backup-System (B) andererseits verbunden ist und dazu ausgelegt ist, sämtliche Dateien permanent zu speichern.

Description

Datenspeichersystem und Verfahren zu dessen Betrieb
Die vorliegende Erfindung betrifft allgemein ein hochzuverlässiges und redundantes verteiltes System für Datendienste und insbesondere eine Architektur für ein hierarchisch organisiertes Datenspeichersystem zum Speichern, Bereitstellen und Sichern von Dateien sowie ein Verfahren zum Betrieb eines derartigen Systems .
Datenspeichersysteme sind bekannt . In einem verteilten System sind Dateien einerseits als lokale Dateien auf den rechnereigenen Festplatten von Nutzer- bzw . Clientrechnern und andererseits als für mehrere Nutzer zugängliche Dateien auf schnellen Dateirechnern, die Dateidienste für mit dem zentralen Dateirechner- verbundene Nutzerrechner anbieten, abgespeichert . Vielfach kommen hier Dateiserver ( File- Server) als Datenspeicher und Datei-Dienstgeber (bspw . für Datei-Backup, Datei-Kompression O . dgl . ) zum Einsatz , wobei es selbst in verteilten Systemen, bei denen j eder Knoten eine eigene Festplatte besitzt, üblich geworden ist, das gesamte Dateisystem mit den Originaldateien und deren Re- plikaten auf Dateiservern zu speichern . Unter einem Dateiserver ist somit ein Server, häufig ein Platten-Server, zu verstehen, der in einem Netzwerk den angeschlossenen Nutzern seine Ressourcen, insbesondere Festplatte , zur Verfügung stellt und für die Nutzer das Speichern ihrer Dateien übernimmt und auch den Zugriff auf diese Dateien regelt .
Das Abspeichern von Dateien auf einer Festplatte, wie es aus dem Stand der Technik bekannt ist , wird im folgenden unter Bezugnahme auf die Darstellung in den Figuren 1 und 2 beschrieben .
Figur 1 zeigt in stark schematisierter Darstellung drei Dateien a, b, c und wie diese auf einer Festplatte F abgespeichert werden . Die Dateien a, b, c bestehen j eweils aus einzelnen Seiten al bis a5, bl bis b3 bzw . cl bis c4. Die Festplatte F besteht aus einer Vielzahl von als quadratisches Raster dargestellten Blöcken . Beim Abspeichern werden die Dateien seitenweise auf die zur Verfügung stehenden Blöcke verteilt . Diese Verteilung ist in der Darstellung der Figur 1 rechts unten gezeigt . Dabei fällt auf, dass die Dateien in der Regel nicht sequentiell gespeichert werden, d . h . die einzelnen Seiten einer Datei werden in Blöcken gespeichert die nicht zusammenhängen . In der Darstellung der Figur 1 ist lediglich die Datei b mit den drei Seiten bl , b2 , b3 rein zufällig sequentiell abgespeichert . Eine derartige sequentielle Abspeicherung geht in der Regel im Betrieb des Systems (Aufrufen der Datei und erneutes Abspeichern) schnell verloren .
Figur 2 zeigt die Festplatte F (als Bestandteil eines Dateiservers FS ) eingebunden in eine Speichersystemarchitektur gemäß dem Stand der Technik . Der Dateiserver FS mit der Festplatte F ist in ein LAN (Local Area Network) mit Nutzerrechnern CIl , C12 , ... , CIn eingebunden . Des weiteren ist der Dateiserver mit der Festplatte F mit einem Backup- System B über ein SAN (Storage Area Network) verbunden . Die einzelnen Nutzerrechner CIl bis CIn können über Festplatten verfügen, die im Betrieb j edoch (bspw. aufgrund von Firmenrichtlinien oder aus Sicherheitsgründen) häufig leer bleiben oder lediglich zur Speicherung unwichtiger oder privater Dateien dienen . Bei den Nutzerrechnern CIl bis CIn kann es sich um Personalcomputer, Notebooks , Workstations oder dergleichen handeln . Die Verbindung zwischen den Arbeits- speichern der einzelnen Nutzerrechner CIl bis CIn und dem Dateiserver in dem LAN wird bspw . mittels einer Blockschnittstelle realisiert, d . h . zwischen dem Arbeitsspeicher des Nutzerrechners und dem Dateiserver werden die Dateninhalte einzelner Blöcke, also einzelne Seiten einer Datei übertragen .
Demgegenüber wird erfindungsgemäß ein Datenspeichersystem mit den Merkmalen des Anspruchs 1 sowie ein Verfahren zum Betrieb eines Datenspeichersystems bzw. eines Dateidienstesystems mit den Merkmalen der Ansprüche 10 und 11 bereitgestellt .
Erfindungsgemäß erfolgt demnach eine Aufteilung des bisherigen Dateiservers in zwei Einheiten, nämlich eine Cacheeinheit und eine Speichereinheit . Dabei handelt es sich um zwei unabhängige Systeme, von denen das eine (Cacheeinheit) dazu dient, von einem oder mehreren Nutzerrechnern zur Bearbeitung angeforderte Dateien zeitweise zwischenzuspei- chern, und das andere ( Speichereinheit) dazu dient, fertig bearbeitete Dateien (und nach Bedarf frühere Versionen davon) permanent zu speichern . Die bisher von einem System, nämlich dem Dateiserver ( File-Server) , bewältigten Aufgaben werden nun auf zwei Einheiten verteilt, mit dem Vorteil, dass eine Entkopplung erreicht werden kann, wodurch der Speichervorgang zwischen dem Cache und der Speichereinheit über eine übliche Netzverbindung (wie bspw . ein WAN, LAN oder SAN) bewältigbar ist und ein Abspeichern der Dateien in der Speichereinheit sequentiell und wahlweise zusätzlich komprimiert erfolgen kann, woraus eine bessere Speichernutzung und schnellere Backup-Sicherung folgt . Die Speichereinheit benötigt dafür keine Blockschnittstelle , sondern nur eine einfache sog . Dateischnittstelle (oft auch "Obj ektschnittstelle" genannt) , da Dateien immer als ganze Einheit sowohl zwischen der Speichereinheit und der Cache- - A -
einheit als auch zwischen der Speichereinheit und dem Backup-System übertragen werden .
Die Bearbeitung von Dateien durch den Nutzerrechner erfolgt dagegen in der Cacheeinheit über eine Blockschnittstelle, wie bei einem herkömmlichen Dateiserver, demgegenüber muss die erfindungsgemäße Cacheeinheit nur eine vergleichsweise kleine Datenmenge bereithalten . Aufgrund der "Arbeitsteilung" kann die Software zur Steuerung der Speichereinheit im Vergleich zu einem herkömmlichen Dateiserver einfacher gestaltet sein, da die Blockschnittstelle nicht benötigt wird, woraus ein stabilerer Betrieb resultiert . Außerdem kann das Dateisystem auf der Speichereinheit vorteilhafterweise als sogenanntes "log-based file System" entsprechend dem Stand der Technik ausgestaltet werden .
Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und der beiliegenden Zeichnung .
Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der j eweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen .
Die Erfindung ist anhand eines Ausführungsbeispieles in der Zeichnung schematisch dargestellt und wird im folgenden unter Bezugnahme auf die Zeichnung ausführlich beschrieben .
Figur 1 veranschaulicht in stark schematisierter Darstellung die Grundzüge des Abspeicherns von Dateien gemäß dem Stand der Technik .
Figur 2 veranschaulicht in stark schematisierter Darstellung eine bekannte Speichersystemarchitektur . Figur 3 zeigt eine Netzwerkarchitektur mit einem Dateiserver gemäß dem Stand der Technik .
Figur 4 zeigt in stark schematisierter Darstellung ein Datenspeichersystem der Erfindung mit einer Cacheeinheit und einer Speichereinheit .
Figur 5 zeigt, ebenfalls in stark schematisierter Darstellung, eine erste Ausführungsform einer erfindungsgemäßen Datenspeichersystemarchitektur .
Figur 6 zeigt ähnlich der Figur 5 eine zweite Ausführungsform einer erfindungsgemäßen Datenspeichersystemarchitektur .
Figur 7 zeigt ähnlich den Figuren 5 und 6 eine dritte Ausführungsform einer erfindungsgemäßen Datenspeichersystemarchitektur .
Figuren 8 bis 10 zeigen Datentresorkonfigurationen für die in den Figuren 5 bis 7 dargestellten Ausführungsformen für erfindungsgemäße Datenspeichersystemarchitekturen .
Figur 11 zeigt eine Ausführungsform der Erfindung zur Sicherung eines sogenannten Heim-PC .
Figur 12 zeigt eine Ausführungsform der Erfindung zur Sicherung von Abteilungsrechnern über ein LAN .
Figur 13 zeigt eine Ausführungsform der Erfindung zur Sicherung von Filialrechnern über WAN/DSL . Figur 14 zeigt eine Ausführungsform der Erfindung zur Sicherung von tragbaren Computern über Mobilfunk .
Figur 4 zeigt in stark schematisierter Darstellung drei Dateien a, b, c, die j eweils aus einzelnen Seiten al bis a5 , bl bis b3 bzw . cl bis c4 bestehen . Während im Stand der Technik ein Abspeichern von Dateien grundsätzlich auf einer Festplatte F eines Dateiservers FS erfolgt (vgl . Figur 1 ) sind nun erfindungsgemäß eine Cacheeinheit C und eine Speichereinheit S vorgesehen . Die Cacheeinheit C umfasst mindestens einen Cache und dient dazu, lediglich die Dateien zu speichern, die für eine Bearbeitung durch einen oder mehrere Nutzer angefordert werden . Im Beispiel der Figur 4 sind dies die Dateien a und c, deren einzelne Seiten al bis a5 bzw. cl bis c4 in Blöcken der Cacheeinheit C abgelegt sind.
Die Speichereinheit S dient dazu, sämtliche Dateien (und optional ihre frühere Versionen) permanent zu speichern, wie dies in Figur 4 dargestellt ist . Alle drei gezeigten Dateien a, b, c sind seitenweise in Blöcken der Speichereinheit S abgelegt . Im dargestellten Ausführungsbeispiel erfolgt die Speicherung in der Speichereinheit S grundsätzlich sequentiell . Die Datei b ist lediglich in der Speichereinheit S, j edoch nicht in der Cacheeinheit C abgespeichert, da sie derzeit nicht zur Bearbeitung angefordert ist .
Figur 5 zeigt eine erste Ausführungsform einer möglichen Architektur eines erfindungsgemäßen Datenspeichersystems mit einer Mehrzahl von Nutzerrechnern CIl, C12 , ... , CIn . Die Nutzerrechner CIl bis CIn sind über ein LAN (Local Area Network) mit der Cacheeinheit C verbunden (in der Cacheeinheit C sind die beiden Dateien a und c ähnlich der Darstellung der Figur 4 seitenweise in Blöcken der Cacheeinheit gespeichert) . Die Cacheeinheit C wiederum ist über eine weitere Netzverbindung (LAN, SAN oder WAN o . a . ) mit der Speichereinheit S verbunden, in der entsprechend der Darstellung der Figur 4 die drei Dateien a, b, c sequentiell permanent abgespeichert sind . Die Speichereinheit S schließlich ist über ein WAN, ein LAN oder ein Storage Area Network SAN mit einem Backup-System B zur Sicherung von in der Speichereinheit S gespeicherten Daten verbunden .
Eine Komprimierung der Dateien kann durch die Speichereinheit S oder auch schon durch den Nutzerrechner erfolgen, bevor sie aus dem Cache auf die Speichereinheit verschoben werden, um die Netzbelastung zu reduzieren . Diese Art des Betriebs des Dateisystems ist insbesondere angebracht, wenn die Verbindung zwischen dem Cache - der bspw . auf einem lokalen PC zu Hause oder auf einem Notebook liegt - und dem Dateispeicher über ein WAN wie bspw . ISDN oder DSL, oder sogar drahtlos über GPRS oder UMTS erfolgt . Man kann ein solches System auch so betreiben, daß der Cache auf dem eigenen Rechner zu Hause oder bei einer kleineren Firma liegt und die Speichereinheit mit dem Backup-System, also der gesamte Datentresor (vgl . unten) outgesourced bei einer anderen Firma liegt .
Die Speichereinheit S ist somit zwischen der Cacheeinheit C und dem Backup-System B angeordnet . Die Speichereinheit S benötigt keine Blockschnittstelle, sondern nur eine einfache sogenannte Dateischnittstelle, d . h . es werden immer nur ganze Dateien (oder sehr große Teile davon, die deutlich größer sind, als eine einzelne Seite der Datei ) zwischen der Speichereinheit und der Cacheeinheit bzw . zwischen der Speichereinheit und dem Backup-System übertragen .
Das Erzeugen von neuen Dateien erfolgt zunächst in der Cacheeinheit, eine anschließende permanente Abspeicherung der erzeugten Datei in der Speichereinheit . Als besonders vor- teilhaft erweist es sich, die Dateien bei der Übertragung von der Cacheeinheit in die Speichereinheit sequentiell abzulegen . Die Datei kann dann in der Cacheeinheit C sofort oder zu einem einstellbaren oder durch Regeln (bspw . bei Eingang einer Invalidierungsnachricht, wenn die Datei zwischenzeitlich durch einen anderen Nutzer geändert wurde (vgl . unten) ) bestimmbaren späteren Zeitpunkt gelöscht werden .
Ist eine erneute Bearbeitung einer bereits erzeugten und in der Speichereinheit S gespeicherten Datei durch einen der Nutzer gewünscht, so wird die entsprechende Datei zur Bearbeitung durch den Nutzer an die Cacheeinheit übertragen . Nach der erfolgten Bearbeitung (Update) der Datei auf der Cacheeinheit wird die Datei wieder als Ganzes von der Cacheeinheit an die Speichereinheit übertragen und in der Speichereinheit (vorzugsweise sequentiell) abgespeichert . Das Abspeichern der Datei in der Speichereinheit kann wieder an derselben Stelle wie zuvor erfolgen, insbesondere falls sich die Größe der Datei nicht geändert hat . Meistens wird ein Abspeichern aber an einer anderen Stelle erfolgen .
Erfindungsgemäß wird somit eine Aufteilung des bisherigen Dateiservers in zwei unabhängige und nur sehr schwach gekoppelte Subsysteme, nämlich die Cacheeinheit C und die Speichereinheit S vorgenommen . Die permanente Speicherung von Dateien erfolgt, wie beschrieben, in der Speichereinheit S und auch eine Sicherung der Dateien erfolgt von der Speichereinheit S aus . Um den Inhalt der Speichereinheit zu sichern, werden wiederum ganze Dateien oder Differenz- Dateien, sog . Deltas , von der Speichereinheit S über eine Dateischnittstelle in das Backup-System B übertragen . Im Falle von nicht mehr benötigten Dateien können diese zum Zwecke der Langzeitarchivierung bzw . zur Erfüllung von evtl . rechtlich vorgeschriebenen Aufbewahrungspflichten (Compliance Rules ) in das Backup-System B verschoben werden Compliance Rules ) in das Backup-System B verschoben werden und dann in der Speichereinheit S gelöscht werden . Dabei kann ein Verzeichnis der archivierten Dateien in der Speichereinheit S gespeichert werden, wobei dieses Verzeichnis vorzugsweise aber zusätzlich auch im Backup-System gespeichert wird .
Eine Bearbeitung von Dateien erfolgt somit erfindungsgemäß in der Cacheeinheit C durch den über eine Blockschnittstelle verbundenen Nutzerrechner, wobei die entsprechenden Ver- arbeitungsprogramme selbst üblicherweise auf den Nutzerrechnern ausgeführt werden . Die Cacheeinheit C hat also vergleichbar einem herkömmlichen bekannten Dateiserver eine Blockschnittstelle, wobei der wesentliche Unterschied zu dem herkömmlichen Dateiserver darin besteht, dass die Cacheeinheit nur einen kleinen Teil der gesamten Dateien- Menge enthalten muss , nämlich nur diej enigen Dateien, die sich gerade in Bearbeitung durch Nutzerrechner befinden bzw . angefordert sind . Ein weiterer Vorteil liegt darin, dass der Inhalt der Cacheeinheit nicht gesichert werden muss, da alle Dateien permanent in der Speichereinheit S gespeichert sind und 'von dort aus gesichert werden . Aus diesen Gründen eignen sich auch 'die sog . Flash-Speicher als persönliche File-Caches auf den Nutzerrechnern .
Eine Bearbeitung von Dateien in der Cacheeinheit gestaltet sich im einfachsten Fall der sogenannten Single-User-Datei wie folgt :
Eine Datei wird mit dem entsprechenden Befehl (bspw . new) des Anwendung findenden Verarbeitungsprogramms in der Cacheeinheit erzeugt und dort bearbeitet . Sobald die erzeugte Datei zwischengespeichert oder geschlossen wird (bspw . Befehle speichern, speichern unter oder close) , wird eine Kopie der Datei in die Speichereinheit S übertragen und dort permanent gespeichert . Die Datei in der Cacheeinheit C kann dort verbleiben oder auch nach Belieben gelöscht werden . Für eine erneute Bearbeitung der Daten ergeben sich dann zwei Fallkonstellationen :
i) Die Datei befindet sich noch in der Cacheeinheit C, wird bearbeitet und wieder geschlossen . Eine Kopie der bearbeiteten Datei wird nach dem Schließen wiederum in der Speichereinheit S gespeichert . Danach kann die vorherige Version der Datei in der Speichereinheit gelöscht werden (die vorherige Version kann aber in der Speichereinheit auch beibehalten werden, so dass mehrfache Versionen einer Datei in der Speichereinheit gespeichert sind, wodurch ein einfaches undelete ermöglich wird) .
ii ) Die Datei befindet sich nicht mehr in der Cacheeinheit C, so dass die in der Speichereinheit S gespeicherte Kopie der Daten als ganzes in die Cacheeinheit C übertragen und dann dort bearbeitet wird . Nach dem Schließen wird wie im Fall i ) eine Kopie der bearbeiteten Datei in der Speiόhereinheit S abgespeichert .
In dem etwas komplexeren Fall der sogenannten Multi-User- Dateien gestaltet sich die Bearbeitung wie folgt :
Dateien können in mehreren Caches gespeichert sein, hierüber führt eine entsprechende Verwaltungssoftware in der Speichereinheit Buch . Für Lesezwecke darf eine Datei in mehrere Caches verlagert werden . Für Updatezwecke darf eine Datei nur in einen Cache verlagert werden, um Inkonsisten- zen zwischen mehreren Versionen dieser Datei zu vermeiden . ( Für die Lösung dieser Fragestellung sind dem Fachmann Standardverfahren aus dem Bereich der Datenbanksysteme (Synchronisation) und der Betriebssysteme (Aufrechterhaltung der Konsistenz von Cache-Inhalten) bekannt . )
Wie bereits erwähnt, können Dateien grundsätzlich in der Cacheeinheit gelöscht werden, wenn die geschlossene Datei von der Cacheeinheit in die Speichereinheit verlagert wurde . Um die sogenannte Performanz des Gesamtsystems zu optimieren, können Dateien aber auch in der Cacheeinheit verbleiben, wodurch eine Rückübertragung von der Speichereinheit in die Cacheeinheit eingespart wird, wenn eine erneute Bearbeitung einer Datei durch einen Nutzer angefordert wird . Für ein korrektes Funktionieren der Erfindung ist dies j edoch nicht erforderlich (daher muss erfindungsgemäß der Inhalt der Cacheeinheit auch nicht im Backup- System gesichert werden) .
Wenn eine Datei aufgrund einer Bearbeitung durch einen oder mehrere andere Nutzer des Systems zwischenzeitlich verändert wurde, erhält die Cacheeinheit eine sogenannte Invali- dierungsnachricht und die Datei wird in der Cacheeinheit gelöscht . Alternativ kann die Cacheeinheit beim Öffnen einer Datei auch einen Äbgleich mit der Speichereinheit vornehmen, um herauszufinden, ob die Datei noch aktuell ist oder ob sie neu (von der Speichereinheit in die Cacheeinheit) übertragen werden muss . Wenn in der Cacheeinheit mehr freier Speicherplatz benötigt wird, so können beliebige geschlossene Dateien gelöscht werden, bis genügend Platz verfügbar ist . Entsprechende Verfahren zur sog . Speicherbereinigung sind dem Fachmann von Betriebssystemen und Datenbanksystemen bekannt .
Mit der in Figur 5 dargestellten Architektur eines Datenspeichersystems ist der Vorteil verbunden, dass der Speicherplatz für die Cacheeinheit mit Blockschnittstelle deutlich geringer ausfällt, als bei der konventionellen Archi- tektur (wie sie in Figur 2 dargestellt ist) . Für die Cacheeinheit ist schätzungsweise nur etwa 20% oder sogar weniger Speicherplatz notwendig als bei der konventionellen Architektur . Der Speicherplatz für die Speichereinheit entspricht im wesentlichen demj enigen für den Dateiserver der konventionellen Architektur, kann aber durch Kompression zusätzlich deutlich reduziert werden . Die Software zur Verwaltung der Speichereinheit ist sehr viel einfacher (aufgrund des Wegfalls des Lese-/Schreibzugriffs über die Block-Schnittstelle) und deshalb stabiler ist als bei einem konventionellen Dateiserver . Insbesondere bei sequentieller Clusterung weist die Speichereinheit eine wesentlich bessere Performanz als der konventionelle Dateiserver bei Dateientransfer und Backup auf . Aufgrund sequentiellen Lesens und Schreibens kann von einem Verbesserungsfaktor von 10 ausgegangen werden . Auch die Cacheeinheit verfügt über deutlich bessere Verfügbarkeitseigenschaften für den Lese-/Schreibzugriff als ein konventioneller Dateiserver .
Figur 6 zeigt eine zweite Ausführungsform für eine Architektur eines Datenspeichersystems gemäß der Erfindung . Im Unterschied zu der Architektur der Figur 5 ist die Cacheeinheit in der Architektur der Figur 6 aus einer Vielzahl von einzelnen Caches Cl, C2 , ... , Cn zusammengesetzt, die j eweils direkt einem Nutzerrechner zugeordnet sind und über die Netzwerkverbindung WAN oder LAN mit der Speichereinheit verbunden sind . Im übrigen entspricht die Funktionsweise derj enigen, wie sie im Zusammenhang mit der Figur 5 erläutert wurde .
Ein wesentlicher Vorteil der Architektur der Figur 6 besteht darin, dass die häufig vorhandenen, j edoch brachliegenden lokalen Festplatten der einzelnen Nutzerrechner CIl bis CIn auf diese Art und Weise als Caches Cl bis Cn genutzt werden können . Der im Stand der Technik durch den Da- teiserver bereitgestellte Speicherplatz wird vollständig durch den (billigeren) Speicher der Speichereinheit ersetzt . Der verfügbare Cache-Speicher auf den Nutzerrechnern ist um ca . eine Größenordnung (mind . Faktor 10 ) größer als auf den Dateiservern des Standes der Technik . Durch die "Dezentralisierung" der einzelnen Caches in die j eweiligen Nutzerrechner wird die sogenannte Zugriffsbandbreite ebenfalls deutlich verbessert, da j eweils die lokalen Lese- /Schreibköpfe der Nutzerrechner exklusiv für den Lese- /Schreibbetrieb auf den einzelnen Caches zur Verfügung stehen . Ein Speichern von bearbeiteten Daten in der Speichereinheit S kann bspw . durch eine sogenannte Flush-Cache- Operation beim Logout eines Nutzerrechners sichergestellt werden .
Beide in den Figuren 5 und 6 dargestellten Architekturen sind mit deutlich niedrigeren Speicherkosten verbunden, im Falle der Figur 5 weil die Cacheeinheit sehr viel kleiner sein kann als ein herkömmlicher Dateiserver und die Speichereinheit billiger ist und die erforderliche Speicherkapazität der Speichereinheit außerdem durch Kompression der dort gespeicherten Dateien auf die Hälfte bis ein Drittel reduziert werden kann . Im Falle der Figur 6 werden Kosten gespart, weil vergleichsweise große und als Cache nutzbare Festplatten in den einzelnen Nutzerrechnern ohnehin vorhanden sind und die Kosten für die Speichereinheit wie im Falle der Architektur der Figur 5 gleichfalls niedriger sind . Im Falle der Architektur der Figur 6 ist auch die Verarbei- tungsperformanz aufgrund der lokaϊbetriebenen Caches wie bereits beschrieben deutlich höher .
Des weiteren ist mit der Erfindung eine Entlastung der Netzverbindungen verbunden, im Falle der Figur 5 eine Entlastung der Storage Area Networks SAN zwischen der Speichereinheit und dem Backup-System, im Falle der Figur 6 so- wohl eine deutliche Entlastung in dem Local Area Network der Nutzerrechner, da die Blockzugriffe nicht mehr über das LAN sondern über die lokalen Festplatten erfolgen, sowie eine deutliche Entlastung im SAN (das u . U . sogar durch ein billigeres LAN ersetzt werden kann) .
Eine weitere Ausführungsform einer Architektur eines erfindungsgemäßen Datenspeichersystems ist in Figur 7 dargestellt und besteht im Prinzip aus einer Mischung der beiden in den Figuren 5 und 6 dargestellten Architekturen . Die Cacheeinheit C ist wiederum aus einer Vielzahl von einzelnen Caches zusammengesetzt, wobei diese als vom Nutzerrechner separat ausgebildete File-Caches FC oder als (wie in der Architektur der Figur 6) direkt lokal dem Nutzerrechner zugeordnete Caches C2 ausgebildet sein können .
Bei der Architektur der Figur 7 handelt es sich um eine in der Praxis sehr gut einsetzbare skalierbare Variante für Höchstleistungssysteme, in die File-Caches nach Bedarf hinzugefügt werden können . Wie im Falle der Figur 6 kann eine Flush-Cache-Operation für j edes Cache unabhängig, auch von der Speichereinheit S ' aus , gesteuert werden, ebenso funktioniert das System auch mit leeren File-Cache (Roaming User wird unterstützt) . Als besonders vorteilhaft ist hervorzuheben, dass einerseits vorhandene Festplatten verwendet werden können, andererseits eine Systemerweiterung durch Installation einer Speichereinheit anstelle einer Erweiterung eines vorhandenen Dateiservers erfolgen kann, wenn ein bestehendes Hochleistungssystem ausgebaut werden soll .
Das erfindungsgemäße System ist darüber hinaus in allen vorgestellten Architekturen mit dem wesentlichen Vorteil verbunden, dass die im Stand der Technik sehr kritischen sogenannten Backup-Fenster (die aufgrund des hohen und langandauernden Datensicherungsverkehrs nachts oder am Wochenende liegen) völlig entfallen . Da erfindungsgemäß nur der Inhalt der Speichereinheit S gesichert werden muss , können die sogenannten Volumes (physische oder logische Untereinheiten der Speichereinheit wie bspw . Festplatten oder Partitionierungen) während der Sicherungsläufe der Speichereinheit auf Read-Only gesetzt werden ( aus den Caches zu verschiebende Dateien werden dann auf ein anderes Volume geschrieben) . Durch diese Maßnahme wird die Wirksamkeit einer Online-Sicherung gewährleistet, da die Verarbeitung von Dateien, auch offenen Dateien, durch eine Backup-Sicherung nicht beeinträchtigt wird, weil die Speichereinheit und die Cacheeinheit erfindungsgemäß weitgehend entkoppelt sind . Außerdem steigt - wie bereits erwähnt - wegen des sequentiellen Leseverhaltens der Speichereinheit die Sicherungsleistung . Dadurch wird insgesamt die Netzverbindung besser ausgelastet, und in vielen Fällen kann das SAN durch ein LAN, verbunden mit deutlich reduzierten Kosten, ersetzt werden .
Eine weitere Möglichkeit der Verbesserung der Sicherungsleistung besteht darin, dass die Speichereinheit darüber Buch führt, welche Änderungen seit der letzten Sicherung pro Volume erfolgt sind, so dass nur neu hinzugekommene bzw . geänderte Dateien gesichert werden .
Zusätzlich können Funktionalität und Performanz der Speichereinheit S wie folgt verbessert werden :
Die Speichereinheit S kann mehrere zeitlich aufeinander entstehende Versionen einer Datei a speichern, wobei hier die Versionen mit a . l , a .2 , ... , a . n bezeichnet werden sollen . Die physische Speicherung dieser logischen Versionen a . i-1 , a . i, a . i+1 ... wird durch die dem Fachmann bekannte xor- Differenzenbildung derart optimiert, daß physisch lediglich die komprimierten Differenzen a_delta . i-l , a_delta . i und die j eweils neueste Dateiversion (hier : a . i+1 ) gespeichert werden . Die Differenzen ergeben sich dabei nach folgenden Beziehungen :
a_delta . i = a . i xor a . i+1 für i = 1 , 2 , ...
und werden in der Speichereinheit S berechnet, wenn eine neue Version a . i+1 von C nach S verschoben wird, da zu diesem Zeitpunkt die Version a . i noch in S vorhanden ist .
Die früheren Versionen der Dateien a . i und a . i-1 können bei Bedarf nach folgender Beziehung sehr schnell berechnet werden :
a . i = a . i+1 xor a_delta . i a . i-1 = a . i xor a_delta . i-l
Wenn in der Speichereihheit beispielsweise insgesamt 4 Versionen von a vorgehalten werden sollen, so sind dafür folgende Dateien erforderlich : a_delta . i-3 , a_delta . i-2 , a_delta . i-l , a . i .
Zum Zeitpunkt, zu dem a . i+1 in das Speichersystem S übertragen wird, ist die Datei a . i im Backupsystem B noch vorhanden oder sie kann aufgrund gesicherter Deltaversionen rekonstruiert werden . Deshalb genügt es , lediglich die Dateidifferenz a_delta . i zwischen a . i und a . i+1 von S nach B zu übertragen, um die neue Dateiversion a . i+1 zu sichern . Auf diese Weise kann das Transfervolumen zwischen S und B oder auch zwischen C und S deutlich reduziert werden . Dieses Verfahren ist vor allem dann vorteilhaft, wenn zwischen geNetz ( funk) Verbindung besteht (wie beispielsweise in den Ausführungsvarianten der Figur 13 oder der Figur 14 ) .
Die Speichereinheit S enthält zusätzlich eine mehrdimensionale Meta-Datenbank und ein entsprechendes Datenbank- Managementsystem, um alle Dateien und ihre Delta- Differenzen zu verwalten und Dateien entsprechend ihrem Zustand zu einem beliebigen früheren Zeitpunkt rekonstruieren zu können . Damit bekommt die Speichereinheit zusätzlich die Fähigkeiten eines sog . Information Lifecycle Management Systems ( ILMS ) .
In den Figuren 11 bis 14 sind verschiedene Konstellationen bzw . Varianten bei der Sicherung von Computerdaten dargestellt .
Figur 11 zeigt in schematischer Darstellung die Sicherung eines Heim-PC . Der Nutzerrechner ist in diesem Falle ein in einem Privathaushalt stehender Kleinrechner (Heim-PC) , der den File-Cache und den Dateienspeicher ( File-Store) um- fasst . Zur Sicherung ist der Heim-PC mit einem Backup- System in einem Rechenzentrum verbunden . Die Netzverbindung zu dem Backup-System erfolgt beispielsweise über WAN oder DSL .
Figur 12 zeigt in schematischer Darstellung eine Anordnung zur Sicherung von Abteilungsrechnern, d. h . einer Mehrzahl von in einer Abteilung aufgestellten Nutzerrechnern . Jeder der Nutzerrechner umfasst einen Cache . Die zugeordnete Speichereinheit S kann entweder in der Abteilung oder in einem Rechenzentrum oder bei einem externen Dienstleister ( Storage Provider) stehen . Die Verbindungen zwischen den Caches der Nutzerrechner und der Speichereinheit und dem Backup-System erfolgen über LAN oder WAN . Figur 13 zeigt in schematischer Darstellung eine Anordnung zur Sicherung von Filialrechnern über WAN oder DSL . In dieser Konstellation ist einer Mehrzahl von Filialnutzerrechnern eine Cacheeinheit C über LAN zugeordnet, während die Cacheeinheit wiederum über LAN mit einer Speichereinheit verbunden ist . Die Verbindung von der Speichereinheit zu dem in einem Rechenzentrum (RZ ) befindlichen Backup-System erfolgt über WAN oder DSL .
Figur 14 schließlich zeigt in schematischer Darstellung eine Anordnung zur Sicherung von Dateien, die sich auf einem mobilen Rechner (Notebook) befinden . In dieser Konstellation befindet sich der Cache auf dem den Nutzerrechner darstellenden Notebook, das über eine Mobilfunkverbindung wie beispielsweise UMTS oder GPRS mit einer Speichereinheit S verbunden ist . Eine Vorbereitung der Dateien für eine möglichst schnelle Übertragung über die Mobilfunkverbindung, wie beispielsweise eine Komprimierung und Delta-Berechnung (wie voranstehend beschrieben) erfolgt auf dem Notebook . Die Speichereinheit S ist mit einem in einem Rechenzentrum (RZ ) oder bei einem Storage Provider aufgestellten Backup- System verbunden . ;
In allen beschriebenen und auch sonst möglichen Konstellationen der Erfindung wird die Verfügbarkeit der Cacheeinheit gegenüber Verfügbarkeiten konventioneller Dateiserver deutlich verbessert, so dass Schadensrisiken um Größenordnungen reduziert werden können . Die sehr einfache Funktionalität der erfindungsgemäßen Speichereinheit führt zu einer hohen Stabilität der Software und des Gesamtsystems . Eine sehr hohe Zuverlässigkeit kann erreicht werden, wenn als Speichereinheit ein sog . RAIN-System (Rain : Redundant Array of Independent Nodes ) oder ein RAID-System (RAID : Redundant Array of Independent Disks ) oder eine redundante Disk-Library Verwendung finden . Schließlich ist es mit der Erfindung möglich, Datentresor- systeme zu schaffen, die aus einer Kombination der Speichereinheit S und des Backup-Systems B bestehen kann (wobei diese Kombination von Speichereinheit und Backup-System auch physisch erfolgen kann) . Diese Datentresore ( Data Vaults ) sind für die in den Figuren 5 bis 7 dargestellten Architekturen in den Figuren 8 bis 10 veranschaulicht .
Bei der Schaffung eines Datentresors wird die Tatsache genutzt, dass Backup-Systeme häufig mit Platten-Subsystemen ( sogenanntes Disk-Staging) arbeiten, wobei zu sichernde Daten auf Festplatten zwischengelagert werden, um das Schreiben auf Bänder zu beschleunigen . Dabei handelt es sich um hochwertige und leistungsfähige Festplattensysteme . Erfindungsgemäß werden diese an sich bekannten Festplatten von Backup-Systemen nun zur Bildung eines Datentresors als Speichereinheit S verwendet .

Claims

Patentansprüche
1. Datenspeichersystem mit einer Mehrzahl von Nutzerrechnern (Clients ) (CIl , C12 , ... , CIn) ,
- einem Speichersystem zum Speichern von Dateien ( a, b, c) , auf die mittels der Nutzerrechner (CIl , C12 , ... , CIn) zugegriffen werden soll,
- einem Backup-System (B) zur Sicherung von in dem Spei- chersystem gespeicherten Dateien, wobei das Speichersystem eine Cacheeinheit (C) und eine
Speichereinheit (S) umfasst und die Cacheeinheit (C) mindestens einen Cache umfasst, der mit einem oder mehreren Nutzerrechnern (ClI , C12 , ... , CIn) einerseits und mit der Speichereinheit ( S ) andererseits verbunden ist und dazu ausgelegt ist , lediglich die Dateien zu speichern, die für eine Bearbeitung durch einen oder mehrere Nutzerrechner (CIl , C12 , ... , CIn) angefordert werden, und die Speichereinheit ( S ) mit der Cacheeinheit (C) einerseits und dem Backup-System (B) andererseits verbunden ist und dazu ausgelegt ist, sämtliche Dateien permanent zu speichern .
2. Datenspeichersystem nach Anspruch 1 , bei dem die Cacheeinheit (C) als von den Nutzerrechnern (CIl, C12 , ... , CIn) separate Einheit zum gemeinsamen Zugriff von allen Nutzerrechnern (CIl , C12 , ... , CIn) ausgebildet ist .
3. Datenspeichersystem nach Anspruch 1, bei dem die Cacheeinheit (C) derart ausgebildet ist, dass j eder Nutzerrechner (CIl, C12 , ... , CIn) über einen eigenen Cache auf einer eigenen Festplatte des Nutzerrechners verfügt .
4. Datenspeichersystem nach Anspruch 1 , bei dem die Cacheeinheit (C) über eine Mehrzahl von Caches (Cl, C2 , ... , Cn) verfügt, die j eweils mindestens einem Nutzerrechner (CIl , C12 , ... , CIn) zugeordnet sind .
5. Datenspeichersystem nach Anspruch 2 bis 4 , bei dem die Verbindung zwischen den Caches der Cacheeinheit (C) mit der Speichereinheit ( S ) über Mobilfunk-Netz (GSM/GPRS oder UMTS) , ein WAN (Wide Area Network) , ein LAN (Local Area Network) oder ein SAN ( Storage Area Network) erfolgt .
6. Datenspeichersystem nach Anspruch 2 bis 4 , bei dem die Datenübertragung zwischen der Cacheeinheit (C) und dem Arbeitsspeicher der Nutzerrechner (CIl, C12 , ... , CIn) über eine Blockschnittstelle erfolgt und deshalb die Dateien seitenweise übertragen werden .
7. Datenspeichersystem nach einem der Ansprüche 1 bis 6, bei dem das permanente Speichern von Dateien (a, b, c) in der Speichereinheit sequentiell erfolgt .
8. Verfahren zum Betrieb eines Datenspeichersystems, in dem über einen Nutzerrechner (CIl , C12 , ... , CIn) erzeugte oder bearbeitete Dateien (a, b, c) in einem mit dem Nutzerrechner (CIl , C12 , ... , CIn) verbundenen Cache zwischengespeichert werden und fertig bearbeitete Dateien ( a, b, c) in eine mit dem Cache verbundene Speichereinheit (S) verschoben und permanent abgespeichert werden, und wobei eine Sicherung von Dateien durch Backup-Sichern des Inhalts der Speichereinheit (S ) erfolgt .
9. Verfahren zum Betrieb eines Dateidienstesystems mit einer Speichereinheit (S ) zum permanenten Speichern von Dateien (a, b, c) , auf die über mindestens einen Nutzerrechner (CIl , C12 , ... , CIn) zugegriffen werden soll , wobei der Zugriff auf eine Datei (a, b, c) durch Kopieren der betreffenden Datei in einen mit dem entsprechenden Nutzerrechner (CIl, C12 , ... , CIn) verbundenen Cache erfolgt .
10. Verfahren nach Anspruch 9, bei dem eine Sicherung von Dateien durch Backup-Sichern des Inhalts der Speichereinheit (S ) erfolgt .
11. Verfahren nach einem der Ansprüche 8 bis 10, bei dem eine Komprimierung der Dateien (a, b, c) durch den Nutzerrechner (CIl , C12 , ... , CIn) erfolgt, bevor die Dateien (a, b, c) aus dem Cache auf die Speichereinheit ( S ) verschoben werden .
12. Verfahren nach einem der Ansprüche 8 bis 10 , bei dem eine Komprimierung der Dateien durch die Speichereinheit erfolgt, nachdem die Dateien (a, b, c) aus dem Cache auf die Speichereinheit ( S ) verschoben wurden und bevor sie in der Speichereinheit permanent gespeichert werden .
13. Verfahren nach einem der Ansprüche 8 bis 12 , bei dem ein Löschen einer Datei , auf die kein Zugriff mehr erfolgt, aus dem Cache sofort nach dem Speichern dieser Datei in der Speichereinheit ( S) erfolgt .
14. Verfahren nach einem der Ansprüche 8 bis 12 , bei dem ein Löschen einer Datei , auf die kein Zugriff mehr erfolgt, aus dem Cache erst nach einer vorgebbaren Zeitspanne nach dem Speichern dieser Datei in der Speichereinheit ( S ) erfolgt .
15. Verfahren nach einem der Ansprüche 8 bis 12 , bei dem ein Löschen einer Datei, auf die kein Zugriff mehr erfolgt, aus dem Cache nach bestimmten Regeln nach dem Speichern dieser Datei in der Speichereinheit (S ) erfolgt .
16. Verfahren nach einem der Ansprüchen 8 bis 15, bei dem die Dateien (a, b, c) in der Speichereinheit (S) sequentiell gespeichert werden .
17. Verfahren nach einem der Ansprüche 8 bis 16, bei dem in der Speichereinheit (S) mehrere zeitlich aufeinander entstehenden Versionen ( a . l , a .2 , ... , a . n) einer Datei (a) gespeichert werden .
18. Verfahren nach einem der Ansprüche 8 bis 16, bei dem zum Speichern mehrerer zeitlich aufeinander entstehender logischer Versionen (a . i-1, a . i, a . i+1 ... ) einer Datei in der Speichereinheit (S ) physisch lediglich die komprimierten Differenzen (a_delta . i-1, a_delta . i) und die j eweils neueste Dateiversion (a . i+1) gespeichert werden.
19. Verfahren nach Anspruch 18 , bei dem die Differenzen nach der Beziehung a_delta . i = a . i xor a . i+1 berechnet werden .
20. Verfahren nach Anspruch 18 oder 19, bei dem die Differenzen in der Speichereinheit (S) berechnet werden, wenn eine neue Dateiversion (a . i+1 ) von dem Cache (C) in die Speichereinheit ( S ) verschoben wird.
21. Verfahren nach Anspruch 20, bei dem die früheren Dateiversionen (a . i und a . i-1) der neuesten Dateiversion ( a . i+1) nach den Beziehungen a . i = a . i+1 xor a_delta . i a . i-1 = a . i xor a_delta . i-l berechnet werden .
22. Datentresorsystem für ein System nach einem der Ansprüche 1 bis 7 , das aus einem an sich bekannten Disk- Staging-System mit einer Vielzahl von Festplatten gebildet ist, wobei die Festplatten die Speichereinheit ( S ) bilden .
23. Verfahren zum Betrieb eines Disk-Staging-Systems für
Backup-Sicherungen, bei dem mindestens eine der das Disk-
Staging-System bildenden Festplatten die Speichereinheit
( S) für ein System nach einem der Ansprüche 1 bis 7 bildet .
PCT/EP2006/000034 2005-01-11 2006-01-04 Datenspeichersystem und verfahren zu dessen betrieb WO2006074869A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE112006000086T DE112006000086A5 (de) 2005-01-11 2006-01-04 Datenspeichersystem und Verfahren zu dessen Betrieb

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005001846.7 2005-01-11
DE102005001846 2005-01-11

Publications (1)

Publication Number Publication Date
WO2006074869A1 true WO2006074869A1 (de) 2006-07-20

Family

ID=36061612

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/000034 WO2006074869A1 (de) 2005-01-11 2006-01-04 Datenspeichersystem und verfahren zu dessen betrieb

Country Status (2)

Country Link
DE (1) DE112006000086A5 (de)
WO (1) WO2006074869A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT504798B1 (de) * 2007-10-24 2008-08-15 Data Noah Gmbh Verfahren und vorrichtung zur selbsttätigen erstellung von sicherungskopien
DE102007010114A1 (de) * 2007-02-28 2008-09-04 Francotyp-Postalia Gmbh Verfahren und Anordnung zur Sicherung von nutzerdefinierbaren Daten einer Frankiermaschine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078299A1 (en) * 2000-12-14 2002-06-20 Lih-Sheng Chiou Caching system and method for a network storage system
US20030002405A1 (en) * 1999-11-30 2003-01-02 Hansjorg Linder Backup and archiving system by means of tape volume cassettes for data processing units
US20040083245A1 (en) * 1995-10-16 2004-04-29 Network Specialists, Inc. Real time backup system
US20040093361A1 (en) * 2002-09-10 2004-05-13 Therrien David G. Method and apparatus for storage system to provide distributed data storage and protection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083245A1 (en) * 1995-10-16 2004-04-29 Network Specialists, Inc. Real time backup system
US20030002405A1 (en) * 1999-11-30 2003-01-02 Hansjorg Linder Backup and archiving system by means of tape volume cassettes for data processing units
US20020078299A1 (en) * 2000-12-14 2002-06-20 Lih-Sheng Chiou Caching system and method for a network storage system
US20040093361A1 (en) * 2002-09-10 2004-05-13 Therrien David G. Method and apparatus for storage system to provide distributed data storage and protection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007010114A1 (de) * 2007-02-28 2008-09-04 Francotyp-Postalia Gmbh Verfahren und Anordnung zur Sicherung von nutzerdefinierbaren Daten einer Frankiermaschine
AT504798B1 (de) * 2007-10-24 2008-08-15 Data Noah Gmbh Verfahren und vorrichtung zur selbsttätigen erstellung von sicherungskopien

Also Published As

Publication number Publication date
DE112006000086A5 (de) 2007-10-11

Similar Documents

Publication Publication Date Title
DE102013215535B4 (de) Sicherung oder wiederherstellung von daten mit hilfe eines hauptspeichers und nichtflüchtiger speichermedien
DE102012216022B4 (de) Verwaltung einer Zeitpunktkopie-Beziehung für platzsparende Datenträger
DE10211606B4 (de) Datenverarbeitungseinrichtung mit einem Metadatensicherungsmanagement
DE60213867T2 (de) Vorrichtung zur verwaltung von datenreplikation
DE60313783T2 (de) Bewegen von daten zwischen speichereinheiten
DE112017005868T5 (de) Verwaltung von e/a-abläufen für datenobjekte in einem speichersystem
DE102009034651A1 (de) Prozess und Verfahren zur Abbildung von logischen Adressen auf physische Adressen in Festkörperplatten
DE69626569T2 (de) Datenkompressionsverfahren und Struktur für eine Speichereinheit mit direktem Zugriff
DE60306663T2 (de) Verfahren, Vorrichtungen und Programme zur Regelung des Zugriffs auf Datenobjekte unter Verwendung von Sperren
EP2923261B1 (de) VERFAHREN ZUR STEUERUNG EINES FLASH-SPEICHERS ZUR MASSENSPEICHERUNG, DER VON EINEM AN EINEN HOST ANSCHLIEßBAREN KOMMUNIKATIONSGERÄT UMFASST IST, UND COMPUTERPROGRAMMPRODUKT ZUR AUSFÜHRUNG DES VERFAHRENS
DE102009031923A1 (de) Verfahren zum Verwalten von Datenobjekten
DE112011100534T5 (de) Mehrstufiger Sicherungsprozess
DE102009060746A1 (de) Speichersicherung
DE102009019271A1 (de) Übertragen von Sequenzzahlen für das Wiederherstellen nach Stromausfall bei einem nichtflüchtigen Speicher
DE112011100112T5 (de) Pufferspeicher-platte in blitzkopie-kaskade
DE202014010953U1 (de) Gruppierung von Objekten in einem verteilten Datenspeichersystem basierend auf Protokollen und Platzierungsrichtlinien
DE112008000180T5 (de) Verfahren und System für die Umsetzung eines Fast-Wakeup eines Flashspeichersystems
DE102008015662A1 (de) Beseitigung
DE112009004503T5 (de) Optimierung der zugriffszeit von auf speichern gespeicherten dateien
DE112013000900T5 (de) Bewahren von Redundanz in Datendeduplizierungssystemen unter Verwendung eines Anzeigers
DE112010003794T5 (de) Datenspeicherung unter Verwendung von Bitmaps
DE112015000222T5 (de) Zusammenführen von mehreren Zeitpunktkopien zu einer zusammengeführten Zeitpunktkopie
DE102005012448A1 (de) System und Verfahren zur Wiederherstellung eines Laufwerks nach einem Ausfall eines Laufwerks
DE602004007925T2 (de) Verwalten einer beziehung zwischen einem zielvolumen und einem quellenvolumen
DE102008012979A1 (de) Verfahren und Programm zum Bereitstellen von Datenkohärenz in Netzwerken

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1120060000861

Country of ref document: DE

REF Corresponds to

Ref document number: 112006000086

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06700106

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 6700106

Country of ref document: EP