DE102007011407A1 - System zur Verarbeitung nicht strukturierter Daten - Google Patents

System zur Verarbeitung nicht strukturierter Daten Download PDF

Info

Publication number
DE102007011407A1
DE102007011407A1 DE102007011407A DE102007011407A DE102007011407A1 DE 102007011407 A1 DE102007011407 A1 DE 102007011407A1 DE 102007011407 A DE102007011407 A DE 102007011407A DE 102007011407 A DE102007011407 A DE 102007011407A DE 102007011407 A1 DE102007011407 A1 DE 102007011407A1
Authority
DE
Germany
Prior art keywords
data
unit
classification
control unit
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007011407A
Other languages
English (en)
Inventor
Hendrik Leitner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Technology Solutions GmbH
Original Assignee
Fujitsu Technology Solutions GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Technology Solutions GmbH filed Critical Fujitsu Technology Solutions GmbH
Priority to DE102007011407A priority Critical patent/DE102007011407A1/de
Priority to US12/044,695 priority patent/US20090012972A1/en
Publication of DE102007011407A1 publication Critical patent/DE102007011407A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

Die Erfindung betrifft eine Vorrichtung zur Verarbeitung nicht-strukturierter Daten und zur Speicherung zugehöriger Meta-Daten mit einer Speichereinheit, einer Schnittstelle zum Einlesen der nicht-strukturierten Daten, einer Verschlüsselungseinheit zur bedarfsweisen Verschlüsselung von Daten und einer Klassifizierungseinheit zur Klassifizierung der nicht-strukturierten Daten anhand des Inhalts der Daten. Das System weist eine programmierbare Steuereinheit (5) auf, durch die zumindest einer der folgenden Parameter datenspezifisch aufgrund einer Regel und zumindest eines Klassifizierungsergebnisses festlegbar ist: Aufbewahrungszeit der Daten oder Sicherheitseinstellungen für die Daten.

Description

  • Die Erfindung betrifft eine Vorrichtung zur Verarbeitung nicht-strukturierter Daten und zur Speicherung zugehöriger Meta-Daten in einer Speichereinheit mit einer Schnittstelle zum Einlesen der nicht-strukturierten Daten, einer Verschlüsselungseinheit zur bedarfsweisen Verschlüsselung von Daten und einer Klassifizierungseinheit zur Klassifizierung der nicht-strukturierten Daten anhand des Inhalts der Daten.
  • Außerdem betrifft die Erfindung ein Verfahren zur Verarbeitung nicht-strukturierter Daten.
  • In einem Unternehmen liegen Daten als strukturierte Daten oder als nicht-strukturierte Daten vor. Strukturierte Daten sind solche, die beispielsweise in einer Datenbank abgelegt sind, sodass systematisch auf sie zugegriffen werden kann. Ein konkretes Beispiel für strukturierte Daten sind solche, die in einem SAP-System abgelegt sind. Nicht-strukturierte Daten sind dagegen beispielsweise Texte oder E-Mails, die zwar in einem elektronischen Speichersystem abgelegt sind, auf die aber nicht systematisch zugegriffen werden kann. Nicht-strukturierte Daten sind in mehrerlei Hinsicht problematisch. Einerseits kommt es häufig vor, dass auf Daten nicht zugegriffen werden kann, weil nicht bekannt ist, unter welchen Dateinamen und an welcher Stelle einer Verzeichnisstruktur die Daten abgelegt sind. Andererseits können Sicherheitsprobleme entstehen, weil vertrauliche Daten in einer Art und Weise gespeichert sind, dass auch nicht berechtigte Personen zugreifen können. Weiterhin besteht ein Problem darin, dass Daten mehrfach gespeichert sind. Dadurch wird eine große Men ge an Speicherplatz unnötigerweise in Anspruch genommen. Weiterhin kommt es vor, dass Daten länger gespeichert sind, als notwendig ist. Auch dies führt dazu, dass sehr viel Speicherkapazität für Daten bereitgestellt werden muss, die eigentlich nicht mehr benötigt werden.
  • Um auf nicht-strukturierte Daten zugreifen zu können, ist es bekannt, sie im Volltext verfügbar zu machen, sodass über eine Suchroutine Daten ausfindig gemacht werden können. Mit den Volltextdaten kann eine Datenbank aufgebaut werden, sodass ein schneller Zugriff auf die somit klassifizierten Daten möglich ist. Zur Berücksichtigung von Sicherheitsproblemen ist es darüber hinaus bekannt, Datenverschlüsselung vorzunehmen, sodass vertrauliche Daten, auch wenn sie in einem für nicht-berechtigte Personen zugänglichen Ort gespeichert sind, nicht gelesen werden können. Problematisch ist jedoch weiterhin, dass ein schnell wachsendes Datenvolumen durch die große Menge ständig neu generierter Daten schwer in den Griff zu bekommen ist.
  • Aufgabe der Erfindung ist es, eine Vorrichtung zur Verarbeitung nicht-strukturierter Daten bereitzustellen, durch die die Speichereffizienz verbessert werden kann.
  • Diese Aufgabe wird durch eine Vorrichtung der eingangs genannten Art gelöst, die dadurch gekennzeichnet ist, dass eine programmierbare Steuereinheit vorgesehen ist, durch die zumindest einer der folgenden Parameter datenspezifisch aufgrund einer Regel und zumindest eines Klassifizierungsergebnisses festlegbar ist: Aufbewahrungszeit der Daten oder Sicherheitseinstellung für die Daten.
  • Außerdem wird die Aufgabe durch ein Verfahren zur Verarbeitung nicht-strukturierter Daten und zur Speicherung zugehöriger Meta-Daten in einer Speichereinheit gelöst mit den Schritten: Klassifizieren der Daten und Anwenden einer Regel, durch die zumindest einer der folgenden Parameter datenspezifisch und anhand des Klassifizierungsergebnisses festgelegt wird: Aufbewahrungszeit der Daten oder Sicherheitseinstellungen für die Daten.
  • Durch die regelbasierte Festlegung der genannten Parameter wird ermöglicht, dass der Datenbestand laufend automatisch optimiert werden kann. Die programmierbare Steuereinheit ermöglicht es, aufgrund einer Unternehmenspolitik, rechtlichen Vorschriften oder aufgrund sonstiger Vorgaben festzulegen, welche Werte für die genannten Parameter festgelegt werden.
  • Aufgrund der regelbasierten Parameterfestlegung kann eine automatische Optimierung des Datenbestandes ausgeführt werden. Beispielsweise können mehrfach vorhandene Daten gelöscht werden, nicht mehr benötigte Daten können gelöscht werden, Daten können auf einen langsamen Archivspeicher, wie beispielsweise Bänder, ausgelagert werden. Dabei können auch sicherheitsrelevante Aspekte berücksichtigt werden. So können für beispielsweise vertrauliche Unterlagen andere Speicherparameter bezüglich Dauer, Sicherung oder Redundanz festgelegt werden als für unkritische Unterlagen.
  • Auch ein Schlüssel kann dazu verwendet werden zu erkennen, ob Daten besonders lange aufbewahrt werden müssen oder besonders schnell wieder gelöscht werden können. Daneben kann eine automatische Verschlüsselung von Daten angestoßen werden, wenn erkannt wird, dass es sich um vertrauliche Daten handelt. Wenn bei der Klassifizierung erkannt wird, dass es sich bei spielsweise um firmenvertrauliche Daten handelt, wird ein einfacher Schlüssel verwendet. Wenn es sich dagegen um Daten handelt, die einen Führungskreis nicht verlassen sollen, so ist ein anderer Schlüssel anzuwenden.
  • Die Steuereinheit kann in einer vorteilhaften Weiterbildung der Erfindung eine Doppelfunktion übernehmen, indem anhand gespeicherter datenspezifischer Parameter eine Verarbeitung der Daten vorgenommen wird, insbesondere eine Archivierung oder Löschung nicht mehr benötigter Daten.
  • Besonders vorteilhafte Ausgestaltung der Erfindung sind in den Unteransprüchen angegeben.
  • Die Erfindung wird nachfolgend anhand eines Ausführungsbeispieles näher erläutert. Es zeigt:
  • 1 ein erstes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung,
  • 2 ein zweites Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung,
  • 3 einen detaillierteren Aufbau einer erfindungsgemäßen Vorrichtung und
  • 4 einen detaillierten Aufbau eines erfindungsgemäßen Systems mit verschiedenen Speichereinheiten.
  • In der 1 ist ein erstes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung zur Verarbeitung nicht-strukturierter Daten gezeigt. Nicht-strukturierte Daten werden über eine Schnittstelleneinheit 2 eingelesen. Sodann gelangen sie zu einer Steuereinheit 5, die die weitere Verarbeitung der Daten bestimmt. In dem beschriebenen Ausführungsbeispiel werden die Daten von der Steuereinheit 5 an eine Klassifizierungseinheit 4 weitergeleitet, um dort auf ihren Inhalt hin untersucht zu werden. Bei der Klassifizierung wird beispielsweise festgestellt,
    • – ob es sich um vertrauliche Daten handelt,
    • – ob es sich um rechtlich relevante Daten handelt, die möglicherweise lange aufbewahrt werden müssen,
    • – ob es sich um für die Buchhaltung relevante Daten handelt
    • – und so weiter.
  • Die Klassifizierungseinheit 4 kann beispielsweise durch ein. Produkt der Firma Kazeon realisiert werden, beispielsweise eine Software wie die des Information Server IS 1200-ECS. Das Klassifizierungsergebnis wird anschließend alleine oder in Verbindung mit den klassifizierten Daten an die Steuereinheit 5 zurückgegeben. Die Steuereinheit 5 entscheidet nun aufgrund einer Regel, wie mit den Daten weiter zu verfahren ist. In einer ersten Alternative werden die Daten in der Speichereinheit 1 abgelegt. Das Klassifizierungsergebnis wird ebenfalls in der Speichereinheit 1 oder einer anderen Speichereinheit abgelegt. Das Klassifizierungsergebnis bildet Meta-Daten, die beispielsweise in einer Datenbank gespeichert werden können. Zusammen mit dem Klassifizierungsergebnis werden Volltextinformationen zu den nicht-strukturierten Daten ebenfalls in der Datenbank abgelegt.
  • In einer zweiten Alternative bleiben die verarbeiteten Daten an ihrem ursprünglichen Speicherplatz gespeichert und in der Speichereinheit 1 werden nur die Meta-Daten, das heißt das Klassifizierungsergebnis und/oder Volltextinformationen abgelegt. Es kann auch ein Index gebildet werden, der in der Speichereinheit 1 abgelegt ist.
  • Aus dem Klassifizierungsergebnis werden aufgrund einer Regel datenspezifische Parameter bestimmt, die ebenfalls in der Speichereinheit 1 abgelegt werden. Bei den datenspezifischen Parametern handelt es sich zumindest um die Aufbewahrungszeit der Daten oder Sicherheitseinstellungen für die Daten. Die Aufbewahrungszeit der Daten hängt von einer Vielzahl von Voraussetzungen ab. Beispielsweise müssen bestimmte Daten in Deutschland 30 Jahre lang aufbewahrt werden. Ein Grund kann sein, dass gegen den Eigentümer der Daten Ansprüche geltend gemacht werden könnten, die mit einer Frist von 30 Jahren verjähren. Sollten solche Ansprüche geltend gemacht werden, müssen die relevanten Unterlagen noch zur Verfügung stehen. Wird das erfindungsgemäße System dagegen in einem anderen Land eingesetzt, so kann es sich um andere Fristen handeln. Es kann aber auch der Fall vorliegen, dass die Daten nicht für Deutschland, sondern beispielsweise nur für Frankreich relevant sind. Die Regel sieht in diesem Ausführungsbeispiel für verschiedene Länder verschiedene Aufbewahrungszeiten vor. Wenn die Klassifizierungseinheit also erkennt, dass es sich um für Deutschland relevante Daten handelt, so wird als Aufbewahrungszeit 30 Jahre festgelegt. Gleichzeitig kann festgelegt sein, dass die Daten zwar 30 Jahre aufzubewahren sind, aber eine geringe Wahrscheinlichkeit für einen Zugriff besteht. Dieser Parameter wird ebenfalls gespeichert und kann später dazu verwendet werden, Daten von einem verhältnismäßig schnellen Speicher auf einen langsamen, aber billigeren Speicher zu verlagern.
  • Anhand des Klassifizierungsergebnisses ist zudem feststellbar, ob erhöhte Sicherheitsanforderungen für die Daten bestehen. Wenn beispielsweise die Angabe "firmenvertraulich" auf einem Dokument gefunden wird, so wird dieses Dokument entweder durch entsprechende Zugriffsberechtigungen geschützt oder aber mit einem Schlüssel verschlüsselt. Wie mit den Daten verfahren wird, ist Gegenstand der Unternehmenspolitik und wird entsprechend durch eine Regel festgelegt. Wenn also eine Regel festlegt, dass firmenvertraulich gekennzeichnete Dokumente verschlüsselt werden müssen, so bewirkt die entsprechende Regel, dass ein firmenvertraulich klassifiziertes Dokument an eine Verschlüsselungseinheit 3 weitergeleitet wird, um dort verschlüsselt zu werden. Ebenfalls weitergeleitet wird die Information, welche Sicherheitsstufe bei der Verschlüsselung zugrunde zu legen ist. Die Verschlüsselungseinheit 3 verschlüsselt die Daten und legt sie entweder direkt in der Speichereinheit 1 ab, oder aber schickt sie an die Steuereinheit 5 zurück, um von dort zur Speichereinheit 1 weitergeleitet zu werden. Eine Speicherung von Daten unter Umgehung der Steuereinheit 5 kann vorteilhaft sein, da dann die Steuereinheit 5 entlastet wird. Ebenso kann es vorteilhaft sein, das Klassifizierungsergebnis nicht nur an die Steuereinheit 5 von der Klassifizierungseinheit 4 zurückzugeben, sondern die Speicherung in der Speichereinheit 1 direkt vorzunehmen.
  • Das in der 1 dargestellte System kann auch in "umgekehrte" Richtung eingesetzt werden. In einem Ausführungsbeispiel ist die Steuereinheit 5 eingerichtet, regelmäßig Daten zu löschen, wenn ihre Aufbewahrungszeit abgelaufen ist. Dazu besorgt die Steuereinheit 5 aus der Speichereinheit 1 die datenspezifischen Parameter, die sich auf die Aufbewahrungszeit von Daten beziehen. Wenn die Daten in der Speichereinheit 1 abgelegt sind, können sie dort direkt gelöscht werden. Wenn in der Speichereinheit 1 jedoch nur die Meta-Daten gespeichert sind, die eigentlichen Daten aber auf einem anderen Datenträger abgelegt sind, so greift die Steuereinheit 5 über die Schnittstelle 2 auf die Daten zu und löscht sie.
  • In einer Ausführung sind die verschiedenen, in der 1 gezeigten Einheiten Softwarekomponenten, die auf einer gemeinsamen Hardware ablaufen. Die Verschlüsselungseinheit 3, die Steuereinheit 5 und die Klassifizierungseinheit 4 sind dann Anwendungsprogramme, die auf einem gemeinsam genutzten Server ausgeführt werden.
  • Es ist aber in einer leistungsfähigen Variante der erfindungsgemäßen Vorrichtung vorteilhaft, mehrere Komponentenrechner zur Bildung der verschiedenen Einheiten einzusetzen. Eine derartige Ausgestaltung der Erfindung ist in 2 gezeigt. Nach dieser Anordnung werden mehrere so genannten Komponentenrechner eingesetzt, die jeweils zumindest eine Zentraleinheit und einen Arbeitsspeicher besitzen. Es handelt sich also um Rechner, die unabhängig von den anderen Komponentenrechner ein Anwendungsprogramm ausführen können. Es kann sich also um separate Server handeln. Der Vorteil dieser Anordnung besteht darin, dass die Verarbeitung eines großen Datenvolumens möglich ist, ohne dass sich die Klassifizierungseinheit 4, die Steuereinheit 5 und die Verschlüsselungseinheit 3 gegenseitig behindern. Besonders vorteilhaft ist hierbei, wenn die Daten zunächst direkt der Klassifizierungseinheit 4 zugeführt und dort untersucht werden. Eine Klassifizierung der Daten ist in jedem Fall erforderlich, sodass diese Leistung erbracht werden kann, ohne die Steuereinheit 5 zu belasten. Dazu ist die Schnittstelle 2, über die Daten eingelesen werden, direkt mit der Klassifizierungseinheit 4 verbunden. Die klassifizierten Daten beziehungsweise das Klassifizierungsergebnis werden an die Steuereinheit 5 weitergegeben, die auf einem anderen Komponentenrechner ausgeführt wird. Die Verschlüsselungseinheit 3 ist ebenfalls in einem separaten Komponentenrechner gebildet. Die Verschlüsselung von Daten ist eine verhältnismäßig rechenintensive Tätigkeit, die somit ausgeführt werden kann, ohne dass die Klassifizierung von Daten, welches ebenfalls eine rechenintensive Tätigkeit ist, behindert wird. Die Verschlüsselungseinheit 3 ist direkt mit der Speichereinheit 1 verbunden, sodass Daten in der Speichereinheit 1 abgelegt werden können, ohne die Steuereinheit 5 zu belasten. Die datenspezifischen Parameter, die durch die Steuereinheit 5 regelbasiert ermittelt wurden, können direkt in der Speichereinheit 1 abgelegt werden. Wenn die verschlüsselten Daten nicht in der Speichereinheit 1, sondern außerhalb des hier gezeigten Systems abgelegt werden sollen, wird eine Verbindung zwischen der Verschlüsselungseinheit 3 und der Schnittstelle 2 vorgesehen, um Daten beispielsweise dort zu speichern, von wo die nicht-strukturierten Daten eingelesen wurden.
  • Die Tätigkeit der Steuereinheit 5 ist die am wenigsten rechenintensive, sodass nicht unbedingt ein separater Komponentenrechner vorgesehen werden muss. Die Steuereinheit kann deshalb entweder auf dem Komponentenrechner eingerichtet werden, auf dem auch die Verschlüsselungseinheit 3 eingerichtet ist, oder auf dem Komponentenrechner, auf dem die Klassifizierungseinheit 4 eingerichtet ist.
  • Die 3 zeigt einen detaillierteren Aufbau des Systems der 1 und 2. Die Verschlüsselungseinheit 3 kann Teil einer komplexeren Sicherheitseinheit 8 sein, die neben der reinen Verschlüsselung auch die Schlüsselverwaltung in einer Schlüsselverwaltungseinheit 6 sowie eine Schlüsselvernichtung in einer Schlüsselvernichtungseinheit 7 übernimmt. Eine derartige Sicherheitseinheit ist von dem Produkt DataFort der Firma Decru bekannt.
  • Die Klassifizierungseinheit 4 weist Komponenten 9 und 10 auf zur Bildung eines Katalogs oder eines Indexes, eine Sucheinheit 11 und eine Berichtseinheit 12. Über eine Aktionsschnittstelle 13 können die durchzuführenden Aktionen gesteuert werden.
  • Zur Ausführung der verschiedenen Einheiten des Systems wird ein Primergy-Server der Firma Fujitsu Siemens Computers GmbH eingesetzt. Vorzugsweise handelt es sich dabei um einen Blade-Server, wobei die verschiedenen Einheiten wie anhand von 2 beschrieben auf verschiedenen Blades ausgeführt werden.
  • Die Regel der Steuereinheit S kann auch festlegen, dass abhängig von dem Ort der Datenquelle Parameter festgelegt werden oder entschieden wird, ob Daten in der Speichereinheit 1 abgelegt werden. Wenn beispielsweise eine über die Schnittstelle 2 eingelesene Datei von einem Notebook eines Mitarbeiters stammt, so ist es sinnvoll, diese Daten in der Speichereinheit 1 abzulegen und nicht nur die Meta-Daten. Denn bei Notebooks besteht eine verhältnismäßig hohe Wahrscheinlichkeit, dass Daten verloren gehen, sei es weil sie durch den Benutzer gelöscht werden oder aber weil das Notebook abhanden kommt oder funktionsuntüchtig wird. Zumindest wenn es sich um für den Betriebsablauf relevante Daten handelt, ist das Aufstellen einer Regel sinnvoll, die bei Erkennung einer solchen Konstellation die Daten in der Speichereinheit 1 ablegt. Wenn dagegen die zu klassifizierenden Daten von bei spielsweise einer Zweigniederlassung stammen, die eine eigene Datensicherung betreibt, so können die Daten dort gespeichert bleiben und müssen nicht in der Speichereinheit 1 abgelegt werden. Für einen zentralisierten Zugriff ist es ausreichend, die Meta-Daten zu speichern. Werden die Daten als unternehmensfremd klassifiziert, z. B. als Musikdateien, werden gar keine Informationen gespeichert oder, falls dies der Unternehmenspolitik enspricht, sofort gelöscht.
  • Die gezeigte Einheit 12 zur Erstellung von Berichten dient dazu, Informationen über den Datenbestand abzurufen. So kann ein Bericht darauf gerichtet sein, die Menge vertraulicher Daten herauszufinden, oder aber solche Daten, die für ein Finanzaudit oder ein Umweltaudit relevant sind.
  • Die Steuereinheit 5 weist eine Regel auf, die in regelmäßigen Abständen das gesamte Speichersystem, auf das es Zugriff hat, nach geänderten oder neu hinzugekommenen Daten absucht, die dann eingelesen und in der erfindungsgemäßen Weise verarbeitet werden. Somit kann sichergestellt werden, dass der gesamte Datenbestand erfasst wird.
  • In der Anwendung innerhalb eines Unternehmens sind es drei Aspekte, in denen sich der Einsatz eines erfindungsgemäßen Systems auswirkt. Die Kosten für die Speicherung unstrukturierter Daten werden reduziert, Unternehmensrisiken werden reduziert und der Wert von Daten wird zugänglich gemacht.
  • In Bezug auf den Aspekt "Kosten" ist festzustellen, dass die Speicherung von 1 GB Daten derzeit zirka 7 US$ kostet. Da große Unternehmen viele tausend von GB Datenspeicher benötigen, ist eine Reduzierung des Speicherbedarfs durch das effi ziente Löschen von Daten eine wirkungsvolle Maßnahme zur Reduzierung der Kosten.
  • Bezüglich des Aspekts "Risiko" ist zu berücksichtigen, dass Daten manchmal schnell verfügbar sein müssen, beispielsweise in gerichtlichen Auseinandersetzungen. Darüber hinaus müssen die Daten vollständig sein in dem Sinne, dass je nach gesetzlichen Anforderungen des jeweiligen Landes bestimmte Daten bereitgestellt werden. Der Einsatz eines erfindungsgemäßen Systems ermöglicht es, dass innerhalb von kurzer Zeit die relevanten Daten identifiziert werden können und auf sie zugegriffen werden kann. Es ist sichergestellt, dass die Daten in jedem, beispielsweise von gesetzlichen Vorschriften abhängenden Fall, noch zur Verfügung stehen.
  • Bezüglich des "Werts von Daten" ist festzuhalten, dass mit dem erfindungsgemäßen System ein gezielter Zugriff auf alle Daten eines Unternehmens möglich ist, sodass der Wert der Daten ausgenutzt werden kann und Doppelarbeit bei der Erstellung inhaltsähnlicher Dokumente vermieden wird.
  • In der 4 ist die Verknüpfung mit verschiedenen Speichersystemen dargestellt, die gemeinsam die oben genannte Speichereinheit 1 bilden. Eine schnelles Festplattensystem 14 ist zur ersten Speicherung von Daten vorgesehen und bildet einen Teil der Speichereinheit 1. Sofern auf Daten oft zugegriffen wird, bleiben die Daten auch über längere Zeit auf diesem Festplattensystem gespeichert. Kurzfristig nicht benötigte Daten werden auf langsameren Speichermedien 15 wie einem WORM-System oder Bändern abgelegt. Aufgrund der regelbasiert festgelegten Parameter ist erkennbar, welche Daten voraussichtlich nicht oft oder schnell benötigt werden. Somit kann der zur Verfügung stehende Speicher effizient genutzt werden.
  • 1
    Speichereinheit
    2
    Schnittstelle
    3
    Verschlüsselungseinheit
    4
    Klassifizierungseinheit
    5
    Steuereinheit
    6
    Schlüsselverwaltungseinheit
    7
    Schlüsselvernichtungseinheit
    8
    Sicherheitseinheit
    9
    Katalogeinheit
    10
    Indexeinheit
    11
    Sicheinheit
    12
    Berichtseinheit
    13
    Aktionsschnittstelle
    14
    schneller Festplattenspeicher
    15
    Archivspeicher

Claims (14)

  1. Vorrichtung zur Verarbeitung nicht-strukturierter Daten und zur Speicherung zugehöriger Meta-Daten mit – einer Speichereinheit (1), – einer Schnittstelle (2) zum Einlesen der nicht-strukturierten Daten, – eine Verschlüsselungseinheit (3) zur bedarfsweisen Verschlüsselung von Daten und – einer Klassifizierungseinheit (4) zur Klassifizierung der nicht-strukturierten Daten anhand des Inhalts der Daten, gekennzeichnet durch eine programmierbare Steuereinheit (5), durch die zumindest einer der folgenden Parameter datenspezifisch aufgrund einer Regel und zumindest eines Klassifizierungsergebnisses festlegbar ist: – Aufbewahrungszeit der Daten oder – Sicherheitseinstellungen für die Daten.
  2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Sicherheitseinstellungen eine Zugriffsberechtigung beinhalten.
  3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Sicherheitseinstellungen Angaben über eine Verschlüsselung beinhalten.
  4. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass die Sicherheitseinstellungen Angaben über die Art des zu verwendenden Schlüssels beinhalten.
  5. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Regel eine Festlegung der Parameter in Abhängigkeit einer Ländervorgabe bewirkt.
  6. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Regel eine Festlegung der Parameter in Abhängigkeit einer bei der Klassifizierung erkannten Vertraulichkeitsstufe bewirkt.
  7. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Regel eine Festlegung in Abhängigkeit eines bei der Klassifizierung erkannten Besitzers der Daten bewirkt.
  8. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Steuereinheit (5) dazu eingerichtet ist, anhand gespeicherter datenspezifischer Parameter eine Verarbeitung der Daten, insbesondere der Archivierung, der Löschung oder des gezielten Zugriffs, vorzunehmen.
  9. Vorrichtung nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Klassifizierungseinheit (4) auf zumindest einem separaten Komponentenrechner mit einer Zentraleinheit und einem Arbeitsspeicher eingerichtet ist.
  10. Vorrichtung nach Anspruch 1 oder 9, dadurch gekennzeichnet, dass die Schnittstelle (2) mit der Klassifizierungseinheit (4) verbunden ist, sodass eingelesene Daten unter Umgehung der Steuereinheit (5) zur Klassifizierungseinheit (4) gelangen.
  11. Vorrichtung nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Verschlüsselungseinheit (3) auf zumindest einem separaten Komponentenrechner mit einer Zentraleinheit und einem Arbeitsspeicher eingerichtet ist.
  12. Vorrichtung nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Steuereinheit (5) auf zumindest einem separaten Komponentenrechner mit einer Zentraleinheit und einem Arbeitsspeicher eingerichtet ist.
  13. Vorrichtung nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass zu verschlüsselnde Daten von der Steuereinheit (4) an die Verschlüsselungseinheit (3) geleitet werden und die verschlüsselten Daten unter Umgehung der Steuereinheit (5) in der Speichereinheit (1) gespeichert werden.
  14. Verfahren zur Verarbeitung nicht-strukturierter Daten und zur Speicherung zugehöriger Meta-Daten in einer Speichereinheit (1) mit den Schritten: – Klassifizieren der Daten, – Anwenden einer Regel, durch die zumindest einer der folgenden Parameter datenspezifisch und anhand des Klassifizierungsergebnisses festgelegt wird: Aufbewahrungszeit der Daten oder Sicherheitseinstellungen für die Daten.
DE102007011407A 2007-03-08 2007-03-08 System zur Verarbeitung nicht strukturierter Daten Ceased DE102007011407A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102007011407A DE102007011407A1 (de) 2007-03-08 2007-03-08 System zur Verarbeitung nicht strukturierter Daten
US12/044,695 US20090012972A1 (en) 2007-03-08 2008-03-07 System for Processing Unstructured Data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007011407A DE102007011407A1 (de) 2007-03-08 2007-03-08 System zur Verarbeitung nicht strukturierter Daten

Publications (1)

Publication Number Publication Date
DE102007011407A1 true DE102007011407A1 (de) 2008-09-11

Family

ID=39677956

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007011407A Ceased DE102007011407A1 (de) 2007-03-08 2007-03-08 System zur Verarbeitung nicht strukturierter Daten

Country Status (2)

Country Link
US (1) US20090012972A1 (de)
DE (1) DE102007011407A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569449B2 (en) 2010-11-18 2017-02-14 International Business Machines Corporation Method and apparatus for autonomic discovery of sensitive content
US8769200B2 (en) 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US8745053B2 (en) 2011-03-01 2014-06-03 Xbridge Systems, Inc. Method for managing mainframe overhead during detection of sensitive information, computer readable storage media and system utilizing same
JP2012222504A (ja) * 2011-04-06 2012-11-12 Sony Corp 情報処理装置及び方法、並びにプログラム
CN117272399B (zh) * 2023-11-23 2024-02-23 深圳九有数据库有限公司 一种数据库融合管理方法、装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7207067B2 (en) * 2002-11-12 2007-04-17 Aol Llc Enforcing data protection legislation in Web data services
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
EP1915672A4 (de) * 2005-08-18 2009-03-11 Emc Corp Konformitätsverarbeitung von rechteverwaltungsdaten
US7587418B2 (en) * 2006-06-05 2009-09-08 International Business Machines Corporation System and method for effecting information governance
US9015301B2 (en) * 2007-01-05 2015-04-21 Digital Doors, Inc. Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor
US7693877B1 (en) * 2007-03-23 2010-04-06 Network Appliance, Inc. Automated information lifecycle management system for network data storage
WO2009009192A2 (en) * 2007-04-18 2009-01-15 Aumni Data, Inc. Adaptive archive data management

Also Published As

Publication number Publication date
US20090012972A1 (en) 2009-01-08

Similar Documents

Publication Publication Date Title
DE102013204972B4 (de) Hybride Sicherung und Wiederherstellung eines sehr grossen Dateisystems unter Verwendung von Metadaten-Abbildsicherung und herkömmlicher Sicherung
DE112012005037B4 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
Cohen et al. The growing problem of patent trolling
DE112010002938B4 (de) Eine integrierte Herangehensweise zur Deduplizierung von Daten in einer verteiltenUmgebung, die eine Quelle und ein Ziel umfasst
DE112013000900B4 (de) Bewahren von Redundanz in Datendeduplizierungssystemen unter Verwendung eines Anzeigers
DE102006055964A1 (de) Verfahren und Vorrichtung zur Datensicherung
DE112017005868T5 (de) Verwaltung von e/a-abläufen für datenobjekte in einem speichersystem
DE202009019149U1 (de) Asynchron verteilte Speicherbereinigung für replizierte Speichercluster
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE112014000584T5 (de) Erreichen von Speichereffizienz bei durchgängiger Verschlüsselung unter Verwendung von nachgelagerten (Downstream-)Decryptern
DE202010018481U1 (de) Asynchroner verteilter Objekt-Upload für replizierte Assoziativspeichercluster
DE19964236C2 (de) Produkt zur schnellen Datensicherung und Datenübertragung
DE102007011407A1 (de) System zur Verarbeitung nicht strukturierter Daten
EP3563261B1 (de) Bitsequenzbasiertes datenklassifikationssystem
DE112021000945T5 (de) Auf einem Dateisystem-Verzeichnisbaum oder Objekt-Speicherbucket beruhende Übernahme von benutzerspezifischen Metadatentags
EP2545464B1 (de) VERFAHREN ZUR HERSTELLUNG UND VERWALTUNG EINES GROßVOLUMIGEN LANGZEITARCHIVS
DE112004002974B4 (de) Beweissicheres und schnelles WORM-Speichersystem auf Festplattenbasis
DE102021128519A1 (de) Dokumentzugangskontrolle auf grundlage von dokumentkomponenten-layouts
DE112016004168T5 (de) Systeme und Verfahren zum Speichern und Auslesen von Inhalten
DE112021005128T5 (de) Verwalten eines am längsten nicht verwendeten daten-caches mit einempersistenten hauptteil
DE102021126985A1 (de) Speicherung einer kleinen objektdarstellung in einem deduplizierungssystem
DE112017000530T5 (de) Konsistentes Speichern von Daten in einem verstreuten Speichernetzwerk
EP3588340B1 (de) Computerimplementiertes verfahren zum betreiben einer datenspeichereinrichtung
WO2012110567A1 (de) Verfahren zur deduplizierung von auf einem speichermedium gespeicherten daten und dateiserver dafür
Berghel BRAP forensics

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection