-
Die
Erfindung betrifft eine Vorrichtung zur Verarbeitung nicht-strukturierter
Daten und zur Speicherung zugehöriger
Meta-Daten in einer Speichereinheit mit einer Schnittstelle zum
Einlesen der nicht-strukturierten Daten, einer Verschlüsselungseinheit
zur bedarfsweisen Verschlüsselung
von Daten und einer Klassifizierungseinheit zur Klassifizierung
der nicht-strukturierten Daten anhand des Inhalts der Daten.
-
Außerdem betrifft
die Erfindung ein Verfahren zur Verarbeitung nicht-strukturierter
Daten.
-
In
einem Unternehmen liegen Daten als strukturierte Daten oder als
nicht-strukturierte Daten vor. Strukturierte Daten sind solche,
die beispielsweise in einer Datenbank abgelegt sind, sodass systematisch
auf sie zugegriffen werden kann. Ein konkretes Beispiel für strukturierte
Daten sind solche, die in einem SAP-System abgelegt sind. Nicht-strukturierte Daten
sind dagegen beispielsweise Texte oder E-Mails, die zwar in einem
elektronischen Speichersystem abgelegt sind, auf die aber nicht
systematisch zugegriffen werden kann. Nicht-strukturierte Daten sind
in mehrerlei Hinsicht problematisch. Einerseits kommt es häufig vor,
dass auf Daten nicht zugegriffen werden kann, weil nicht bekannt
ist, unter welchen Dateinamen und an welcher Stelle einer Verzeichnisstruktur
die Daten abgelegt sind. Andererseits können Sicherheitsprobleme entstehen,
weil vertrauliche Daten in einer Art und Weise gespeichert sind,
dass auch nicht berechtigte Personen zugreifen können. Weiterhin besteht ein
Problem darin, dass Daten mehrfach gespeichert sind. Dadurch wird
eine große
Men ge an Speicherplatz unnötigerweise
in Anspruch genommen. Weiterhin kommt es vor, dass Daten länger gespeichert
sind, als notwendig ist. Auch dies führt dazu, dass sehr viel Speicherkapazität für Daten
bereitgestellt werden muss, die eigentlich nicht mehr benötigt werden.
-
Um
auf nicht-strukturierte Daten zugreifen zu können, ist es bekannt, sie im
Volltext verfügbar
zu machen, sodass über
eine Suchroutine Daten ausfindig gemacht werden können. Mit
den Volltextdaten kann eine Datenbank aufgebaut werden, sodass ein schneller
Zugriff auf die somit klassifizierten Daten möglich ist. Zur Berücksichtigung
von Sicherheitsproblemen ist es darüber hinaus bekannt, Datenverschlüsselung
vorzunehmen, sodass vertrauliche Daten, auch wenn sie in einem für nicht-berechtigte
Personen zugänglichen
Ort gespeichert sind, nicht gelesen werden können. Problematisch ist jedoch
weiterhin, dass ein schnell wachsendes Datenvolumen durch die große Menge
ständig
neu generierter Daten schwer in den Griff zu bekommen ist.
-
Aufgabe
der Erfindung ist es, eine Vorrichtung zur Verarbeitung nicht-strukturierter
Daten bereitzustellen, durch die die Speichereffizienz verbessert
werden kann.
-
Diese
Aufgabe wird durch eine Vorrichtung der eingangs genannten Art gelöst, die
dadurch gekennzeichnet ist, dass eine programmierbare Steuereinheit
vorgesehen ist, durch die zumindest einer der folgenden Parameter
datenspezifisch aufgrund einer Regel und zumindest eines Klassifizierungsergebnisses
festlegbar ist: Aufbewahrungszeit der Daten oder Sicherheitseinstellung
für die
Daten.
-
Außerdem wird
die Aufgabe durch ein Verfahren zur Verarbeitung nicht-strukturierter
Daten und zur Speicherung zugehöriger
Meta-Daten in einer Speichereinheit gelöst mit den Schritten: Klassifizieren
der Daten und Anwenden einer Regel, durch die zumindest einer der
folgenden Parameter datenspezifisch und anhand des Klassifizierungsergebnisses
festgelegt wird: Aufbewahrungszeit der Daten oder Sicherheitseinstellungen
für die
Daten.
-
Durch
die regelbasierte Festlegung der genannten Parameter wird ermöglicht,
dass der Datenbestand laufend automatisch optimiert werden kann. Die
programmierbare Steuereinheit ermöglicht es, aufgrund einer Unternehmenspolitik,
rechtlichen Vorschriften oder aufgrund sonstiger Vorgaben festzulegen,
welche Werte für
die genannten Parameter festgelegt werden.
-
Aufgrund
der regelbasierten Parameterfestlegung kann eine automatische Optimierung
des Datenbestandes ausgeführt
werden. Beispielsweise können
mehrfach vorhandene Daten gelöscht
werden, nicht mehr benötigte
Daten können
gelöscht werden,
Daten können
auf einen langsamen Archivspeicher, wie beispielsweise Bänder, ausgelagert werden.
Dabei können
auch sicherheitsrelevante Aspekte berücksichtigt werden. So können für beispielsweise
vertrauliche Unterlagen andere Speicherparameter bezüglich Dauer,
Sicherung oder Redundanz festgelegt werden als für unkritische Unterlagen.
-
Auch
ein Schlüssel
kann dazu verwendet werden zu erkennen, ob Daten besonders lange
aufbewahrt werden müssen
oder besonders schnell wieder gelöscht werden können. Daneben
kann eine automatische Verschlüsselung
von Daten angestoßen werden,
wenn erkannt wird, dass es sich um vertrauliche Daten handelt. Wenn
bei der Klassifizierung erkannt wird, dass es sich bei spielsweise
um firmenvertrauliche Daten handelt, wird ein einfacher Schlüssel verwendet.
Wenn es sich dagegen um Daten handelt, die einen Führungskreis
nicht verlassen sollen, so ist ein anderer Schlüssel anzuwenden.
-
Die
Steuereinheit kann in einer vorteilhaften Weiterbildung der Erfindung
eine Doppelfunktion übernehmen,
indem anhand gespeicherter datenspezifischer Parameter eine Verarbeitung
der Daten vorgenommen wird, insbesondere eine Archivierung oder
Löschung
nicht mehr benötigter
Daten.
-
Besonders
vorteilhafte Ausgestaltung der Erfindung sind in den Unteransprüchen angegeben.
-
Die
Erfindung wird nachfolgend anhand eines Ausführungsbeispieles näher erläutert. Es
zeigt:
-
1 ein
erstes Ausführungsbeispiel
einer erfindungsgemäßen Vorrichtung,
-
2 ein
zweites Ausführungsbeispiel
einer erfindungsgemäßen Vorrichtung,
-
3 einen
detaillierteren Aufbau einer erfindungsgemäßen Vorrichtung und
-
4 einen
detaillierten Aufbau eines erfindungsgemäßen Systems mit verschiedenen
Speichereinheiten.
-
In
der 1 ist ein erstes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung
zur Verarbeitung nicht-strukturierter Daten gezeigt. Nicht-strukturierte
Daten werden über
eine Schnittstelleneinheit 2 eingelesen. Sodann gelangen
sie zu einer Steuereinheit 5, die die weitere Verarbeitung der
Daten bestimmt. In dem beschriebenen Ausführungsbeispiel werden die Daten
von der Steuereinheit 5 an eine Klassifizierungseinheit 4 weitergeleitet, um
dort auf ihren Inhalt hin untersucht zu werden. Bei der Klassifizierung
wird beispielsweise festgestellt,
- – ob es
sich um vertrauliche Daten handelt,
- – ob
es sich um rechtlich relevante Daten handelt, die möglicherweise
lange aufbewahrt werden müssen,
- – ob
es sich um für
die Buchhaltung relevante Daten handelt
- – und
so weiter.
-
Die
Klassifizierungseinheit 4 kann beispielsweise durch ein.
Produkt der Firma Kazeon realisiert werden, beispielsweise eine
Software wie die des Information Server IS 1200-ECS. Das Klassifizierungsergebnis
wird anschließend
alleine oder in Verbindung mit den klassifizierten Daten an die
Steuereinheit 5 zurückgegeben.
Die Steuereinheit 5 entscheidet nun aufgrund einer Regel,
wie mit den Daten weiter zu verfahren ist. In einer ersten Alternative
werden die Daten in der Speichereinheit 1 abgelegt. Das Klassifizierungsergebnis
wird ebenfalls in der Speichereinheit 1 oder einer anderen
Speichereinheit abgelegt. Das Klassifizierungsergebnis bildet Meta-Daten,
die beispielsweise in einer Datenbank gespeichert werden können. Zusammen
mit dem Klassifizierungsergebnis werden Volltextinformationen zu den
nicht-strukturierten Daten ebenfalls in der Datenbank abgelegt.
-
In
einer zweiten Alternative bleiben die verarbeiteten Daten an ihrem
ursprünglichen
Speicherplatz gespeichert und in der Speichereinheit 1 werden
nur die Meta-Daten, das heißt
das Klassifizierungsergebnis und/oder Volltextinformationen abgelegt.
Es kann auch ein Index gebildet werden, der in der Speichereinheit 1 abgelegt
ist.
-
Aus
dem Klassifizierungsergebnis werden aufgrund einer Regel datenspezifische
Parameter bestimmt, die ebenfalls in der Speichereinheit 1 abgelegt
werden. Bei den datenspezifischen Parametern handelt es sich zumindest
um die Aufbewahrungszeit der Daten oder Sicherheitseinstellungen
für die
Daten. Die Aufbewahrungszeit der Daten hängt von einer Vielzahl von
Voraussetzungen ab. Beispielsweise müssen bestimmte Daten in Deutschland
30 Jahre lang aufbewahrt werden. Ein Grund kann sein, dass gegen
den Eigentümer
der Daten Ansprüche
geltend gemacht werden könnten,
die mit einer Frist von 30 Jahren verjähren. Sollten solche Ansprüche geltend
gemacht werden, müssen
die relevanten Unterlagen noch zur Verfügung stehen. Wird das erfindungsgemäße System
dagegen in einem anderen Land eingesetzt, so kann es sich um andere
Fristen handeln. Es kann aber auch der Fall vorliegen, dass die
Daten nicht für
Deutschland, sondern beispielsweise nur für Frankreich relevant sind. Die
Regel sieht in diesem Ausführungsbeispiel
für verschiedene
Länder
verschiedene Aufbewahrungszeiten vor. Wenn die Klassifizierungseinheit
also erkennt, dass es sich um für
Deutschland relevante Daten handelt, so wird als Aufbewahrungszeit
30 Jahre festgelegt. Gleichzeitig kann festgelegt sein, dass die Daten
zwar 30 Jahre aufzubewahren sind, aber eine geringe Wahrscheinlichkeit
für einen
Zugriff besteht. Dieser Parameter wird ebenfalls gespeichert und kann
später
dazu verwendet werden, Daten von einem verhältnismäßig schnellen Speicher auf
einen langsamen, aber billigeren Speicher zu verlagern.
-
Anhand
des Klassifizierungsergebnisses ist zudem feststellbar, ob erhöhte Sicherheitsanforderungen
für die
Daten bestehen. Wenn beispielsweise die Angabe "firmenvertraulich" auf einem Dokument gefunden wird, so
wird dieses Dokument entweder durch entsprechende Zugriffsberechtigungen
geschützt
oder aber mit einem Schlüssel
verschlüsselt. Wie
mit den Daten verfahren wird, ist Gegenstand der Unternehmenspolitik
und wird entsprechend durch eine Regel festgelegt. Wenn also eine
Regel festlegt, dass firmenvertraulich gekennzeichnete Dokumente
verschlüsselt
werden müssen,
so bewirkt die entsprechende Regel, dass ein firmenvertraulich klassifiziertes
Dokument an eine Verschlüsselungseinheit 3 weitergeleitet
wird, um dort verschlüsselt
zu werden. Ebenfalls weitergeleitet wird die Information, welche
Sicherheitsstufe bei der Verschlüsselung
zugrunde zu legen ist. Die Verschlüsselungseinheit 3 verschlüsselt die
Daten und legt sie entweder direkt in der Speichereinheit 1 ab,
oder aber schickt sie an die Steuereinheit 5 zurück, um von
dort zur Speichereinheit 1 weitergeleitet zu werden. Eine
Speicherung von Daten unter Umgehung der Steuereinheit 5 kann vorteilhaft
sein, da dann die Steuereinheit 5 entlastet wird. Ebenso
kann es vorteilhaft sein, das Klassifizierungsergebnis nicht nur
an die Steuereinheit 5 von der Klassifizierungseinheit 4 zurückzugeben,
sondern die Speicherung in der Speichereinheit 1 direkt vorzunehmen.
-
Das
in der 1 dargestellte System kann auch in "umgekehrte" Richtung eingesetzt
werden. In einem Ausführungsbeispiel
ist die Steuereinheit 5 eingerichtet, regelmäßig Daten
zu löschen,
wenn ihre Aufbewahrungszeit abgelaufen ist. Dazu besorgt die Steuereinheit 5 aus
der Speichereinheit 1 die datenspezifischen Parameter,
die sich auf die Aufbewahrungszeit von Daten beziehen. Wenn die
Daten in der Speichereinheit 1 abgelegt sind, können sie
dort direkt gelöscht
werden. Wenn in der Speichereinheit 1 jedoch nur die Meta-Daten
gespeichert sind, die eigentlichen Daten aber auf einem anderen
Datenträger
abgelegt sind, so greift die Steuereinheit 5 über die
Schnittstelle 2 auf die Daten zu und löscht sie.
-
In
einer Ausführung
sind die verschiedenen, in der 1 gezeigten
Einheiten Softwarekomponenten, die auf einer gemeinsamen Hardware
ablaufen. Die Verschlüsselungseinheit 3,
die Steuereinheit 5 und die Klassifizierungseinheit 4 sind
dann Anwendungsprogramme, die auf einem gemeinsam genutzten Server
ausgeführt
werden.
-
Es
ist aber in einer leistungsfähigen
Variante der erfindungsgemäßen Vorrichtung
vorteilhaft, mehrere Komponentenrechner zur Bildung der verschiedenen
Einheiten einzusetzen. Eine derartige Ausgestaltung der Erfindung
ist in 2 gezeigt. Nach dieser Anordnung werden mehrere
so genannten Komponentenrechner eingesetzt, die jeweils zumindest eine
Zentraleinheit und einen Arbeitsspeicher besitzen. Es handelt sich
also um Rechner, die unabhängig
von den anderen Komponentenrechner ein Anwendungsprogramm ausführen können. Es
kann sich also um separate Server handeln. Der Vorteil dieser Anordnung
besteht darin, dass die Verarbeitung eines großen Datenvolumens möglich ist,
ohne dass sich die Klassifizierungseinheit 4, die Steuereinheit 5 und
die Verschlüsselungseinheit 3 gegenseitig behindern.
Besonders vorteilhaft ist hierbei, wenn die Daten zunächst direkt
der Klassifizierungseinheit 4 zugeführt und dort untersucht werden.
Eine Klassifizierung der Daten ist in jedem Fall erforderlich, sodass
diese Leistung erbracht werden kann, ohne die Steuereinheit 5 zu
belasten. Dazu ist die Schnittstelle 2, über die
Daten eingelesen werden, direkt mit der Klassifizierungseinheit 4 verbunden.
Die klassifizierten Daten beziehungsweise das Klassifizierungsergebnis
werden an die Steuereinheit 5 weitergegeben, die auf einem
anderen Komponentenrechner ausgeführt wird. Die Verschlüsselungseinheit 3 ist
ebenfalls in einem separaten Komponentenrechner gebildet. Die Verschlüsselung
von Daten ist eine verhältnismäßig rechenintensive
Tätigkeit,
die somit ausgeführt werden
kann, ohne dass die Klassifizierung von Daten, welches ebenfalls
eine rechenintensive Tätigkeit ist,
behindert wird. Die Verschlüsselungseinheit 3 ist direkt
mit der Speichereinheit 1 verbunden, sodass Daten in der
Speichereinheit 1 abgelegt werden können, ohne die Steuereinheit 5 zu
belasten. Die datenspezifischen Parameter, die durch die Steuereinheit 5 regelbasiert
ermittelt wurden, können
direkt in der Speichereinheit 1 abgelegt werden. Wenn die
verschlüsselten
Daten nicht in der Speichereinheit 1, sondern außerhalb
des hier gezeigten Systems abgelegt werden sollen, wird eine Verbindung
zwischen der Verschlüsselungseinheit 3 und
der Schnittstelle 2 vorgesehen, um Daten beispielsweise
dort zu speichern, von wo die nicht-strukturierten Daten eingelesen wurden.
-
Die
Tätigkeit
der Steuereinheit 5 ist die am wenigsten rechenintensive,
sodass nicht unbedingt ein separater Komponentenrechner vorgesehen
werden muss. Die Steuereinheit kann deshalb entweder auf dem Komponentenrechner
eingerichtet werden, auf dem auch die Verschlüsselungseinheit 3 eingerichtet
ist, oder auf dem Komponentenrechner, auf dem die Klassifizierungseinheit 4 eingerichtet
ist.
-
Die 3 zeigt
einen detaillierteren Aufbau des Systems der 1 und 2.
Die Verschlüsselungseinheit 3 kann
Teil einer komplexeren Sicherheitseinheit 8 sein, die neben
der reinen Verschlüsselung
auch die Schlüsselverwaltung
in einer Schlüsselverwaltungseinheit 6 sowie
eine Schlüsselvernichtung
in einer Schlüsselvernichtungseinheit 7 übernimmt.
Eine derartige Sicherheitseinheit ist von dem Produkt DataFort der
Firma Decru bekannt.
-
Die
Klassifizierungseinheit 4 weist Komponenten 9 und 10 auf
zur Bildung eines Katalogs oder eines Indexes, eine Sucheinheit 11 und
eine Berichtseinheit 12. Über eine Aktionsschnittstelle 13 können die
durchzuführenden
Aktionen gesteuert werden.
-
Zur
Ausführung
der verschiedenen Einheiten des Systems wird ein Primergy-Server
der Firma Fujitsu Siemens Computers GmbH eingesetzt. Vorzugsweise
handelt es sich dabei um einen Blade-Server, wobei die verschiedenen
Einheiten wie anhand von 2 beschrieben auf verschiedenen Blades
ausgeführt
werden.
-
Die
Regel der Steuereinheit S kann auch festlegen, dass abhängig von
dem Ort der Datenquelle Parameter festgelegt werden oder entschieden
wird, ob Daten in der Speichereinheit 1 abgelegt werden.
Wenn beispielsweise eine über
die Schnittstelle 2 eingelesene Datei von einem Notebook
eines Mitarbeiters stammt, so ist es sinnvoll, diese Daten in der
Speichereinheit 1 abzulegen und nicht nur die Meta-Daten.
Denn bei Notebooks besteht eine verhältnismäßig hohe Wahrscheinlichkeit,
dass Daten verloren gehen, sei es weil sie durch den Benutzer gelöscht werden
oder aber weil das Notebook abhanden kommt oder funktionsuntüchtig wird.
Zumindest wenn es sich um für
den Betriebsablauf relevante Daten handelt, ist das Aufstellen einer
Regel sinnvoll, die bei Erkennung einer solchen Konstellation die Daten
in der Speichereinheit 1 ablegt. Wenn dagegen die zu klassifizierenden
Daten von bei spielsweise einer Zweigniederlassung stammen, die eine
eigene Datensicherung betreibt, so können die Daten dort gespeichert
bleiben und müssen
nicht in der Speichereinheit 1 abgelegt werden. Für einen
zentralisierten Zugriff ist es ausreichend, die Meta-Daten zu speichern.
Werden die Daten als unternehmensfremd klassifiziert, z. B. als
Musikdateien, werden gar keine Informationen gespeichert oder, falls
dies der Unternehmenspolitik enspricht, sofort gelöscht.
-
Die
gezeigte Einheit 12 zur Erstellung von Berichten dient
dazu, Informationen über
den Datenbestand abzurufen. So kann ein Bericht darauf gerichtet
sein, die Menge vertraulicher Daten herauszufinden, oder aber solche
Daten, die für
ein Finanzaudit oder ein Umweltaudit relevant sind.
-
Die
Steuereinheit 5 weist eine Regel auf, die in regelmäßigen Abständen das
gesamte Speichersystem, auf das es Zugriff hat, nach geänderten
oder neu hinzugekommenen Daten absucht, die dann eingelesen und
in der erfindungsgemäßen Weise
verarbeitet werden. Somit kann sichergestellt werden, dass der gesamte
Datenbestand erfasst wird.
-
In
der Anwendung innerhalb eines Unternehmens sind es drei Aspekte,
in denen sich der Einsatz eines erfindungsgemäßen Systems auswirkt. Die Kosten
für die
Speicherung unstrukturierter Daten werden reduziert, Unternehmensrisiken
werden reduziert und der Wert von Daten wird zugänglich gemacht.
-
In
Bezug auf den Aspekt "Kosten" ist festzustellen,
dass die Speicherung von 1 GB Daten derzeit zirka 7 US$ kostet.
Da große
Unternehmen viele tausend von GB Datenspeicher benötigen, ist
eine Reduzierung des Speicherbedarfs durch das effi ziente Löschen von
Daten eine wirkungsvolle Maßnahme zur
Reduzierung der Kosten.
-
Bezüglich des
Aspekts "Risiko" ist zu berücksichtigen,
dass Daten manchmal schnell verfügbar sein
müssen,
beispielsweise in gerichtlichen Auseinandersetzungen. Darüber hinaus
müssen
die Daten vollständig
sein in dem Sinne, dass je nach gesetzlichen Anforderungen des jeweiligen
Landes bestimmte Daten bereitgestellt werden. Der Einsatz eines
erfindungsgemäßen Systems
ermöglicht
es, dass innerhalb von kurzer Zeit die relevanten Daten identifiziert
werden können
und auf sie zugegriffen werden kann. Es ist sichergestellt, dass
die Daten in jedem, beispielsweise von gesetzlichen Vorschriften
abhängenden
Fall, noch zur Verfügung
stehen.
-
Bezüglich des "Werts von Daten" ist festzuhalten,
dass mit dem erfindungsgemäßen System
ein gezielter Zugriff auf alle Daten eines Unternehmens möglich ist,
sodass der Wert der Daten ausgenutzt werden kann und Doppelarbeit
bei der Erstellung inhaltsähnlicher
Dokumente vermieden wird.
-
In
der 4 ist die Verknüpfung mit verschiedenen Speichersystemen
dargestellt, die gemeinsam die oben genannte Speichereinheit 1 bilden.
Eine schnelles Festplattensystem 14 ist zur ersten Speicherung
von Daten vorgesehen und bildet einen Teil der Speichereinheit 1.
Sofern auf Daten oft zugegriffen wird, bleiben die Daten auch über längere Zeit
auf diesem Festplattensystem gespeichert. Kurzfristig nicht benötigte Daten
werden auf langsameren Speichermedien 15 wie einem WORM-System
oder Bändern
abgelegt. Aufgrund der regelbasiert festgelegten Parameter ist erkennbar,
welche Daten voraussichtlich nicht oft oder schnell benötigt werden.
Somit kann der zur Verfügung
stehende Speicher effizient genutzt werden.
-
- 1
- Speichereinheit
- 2
- Schnittstelle
- 3
- Verschlüsselungseinheit
- 4
- Klassifizierungseinheit
- 5
- Steuereinheit
- 6
- Schlüsselverwaltungseinheit
- 7
- Schlüsselvernichtungseinheit
- 8
- Sicherheitseinheit
- 9
- Katalogeinheit
- 10
- Indexeinheit
- 11
- Sicheinheit
- 12
- Berichtseinheit
- 13
- Aktionsschnittstelle
- 14
- schneller
Festplattenspeicher
- 15
- Archivspeicher