-
Die
Erfindung betrifft ein Verfahren zur reversiblen Anonymisierung
vertraulicher Datenteile und eine entsprechende Datenstruktur, bei
dem/der bei der Verarbeitung von teilweise vertraulichen, i.a. personenbezogenen,
Daten besondere Vorkehrungen getroffen werden, um diese Daten vor
unberechtigten Zugriffen zu schützen
bzw. um Bestimmungen des Datenschutzes einzuhalten.
-
Der
Schutz von vertraulichen Informationen wird bisher über eine
Trennung der vertraulichen Daten von den nichtvertraulichen Daten
bewirkt. Aus dem Originaldatensatz wird hierbei ein neuer Datensatz
erstellt, der nur die nichtvertraulichen oder anonymisierten Daten
enthält,
und zur Auswertung weitergegeben wird. Eine Anonymisierung der Daten
erfolgt in der Regel durch Klassifikation, z.B. wird das Geburtsdatum
immer mit dem 1.1. angegeben und nur das Jahr ist korrekt oder das
Geburtsdatum wird einer Altersgruppe zugeordnet.
-
Der
Originaldatensatz wird zusätzlich
abgelegt und muss dabei auch vor Fremdzugriff geschützt werden.
Um den Bezug zwischen diesen beiden Datensätzen wiederherstellen zu können, wird
ein Pseudonym erzeugt, das in dem öffentlichen Datensatz für eine spätere Bezugnahme
enthalten ist. Außerdem
wird eine Zuordnung zwischen dem Pseudonym und den originalen Daten
abgelegt, damit über das
Pseudonym wieder auf die originalen Daten zugegriffen werden kann.
Für jede
Auswertung der Datensätze
wird häufig
eine individuelle Variante des Datensatzes erzeugt und weitergegeben,
die jeweils genau die zur Auswertung benötigten und ggf. anonymisierten
Daten umfasst. Oft erfolgt auch eine Archivierung dieser Varianten
für spätere Nachfragen.
-
Im
Allgemeinen sind nicht alle zu verarbeitenden Daten vertraulich,
d.h. ein Datensatz besteht aus einem zu schützenden und einem nichtvertraulichen
Anteil, sodass verschiedene Vertraulichkeitsstufen entstehen. Im
nichtvertraulichen Anteil können auch
bereits anonymisierte Daten enthalten sein. Normalerweise werden
diese Gruppen getrennt und nur die für die Auswertung relevanten
Daten weitergegeben. Auch dann muss die Zuordnung zwischen den verschiedenen
Datenpaketen rekonstruierbar sein, um spätere Überprüfungen oder eine Erweiterung
der Datenbasis zuzulassen. Außerdem
können nach
einer Datenanalyse durch Dritte deren Ergebnisse leicht durch den
Auftraggeber stichprobenartig mit Hilfe der Originaldaten überprüft werden.
-
Zum
Beispiel enthalten Patientendaten z.T. vertrauliche Daten zur Person
und zur Krankheit, die nur anonymisiert oder überhaupt nicht an Dritte zur Auswertung
weitergegeben werden können.
Eine solche Auswertung könnte
bspw. eine Aufstellung sein, in welcher Altersgruppe die Krankheit
hauptsächlich
auftritt. Das bedeutet, dass nur ein Teil der Daten weitergegeben
werden muss. Um eine Identifizierung der Person auszuschließen, erfolgt
häufig neben
dem Verbergen der nichtrelevanten Daten bereits eine Anonymisierung
der Daten, wobei bspw. das Geburtsdatum in eine Altersgruppe überführt wird,
die dann zur Auswertung zur Verfügung
steht.
-
Weitere
Anwendungsmöglichkeiten
sind auch bei nichtvertraulichen Daten zu sehen, die an Dritte weitergegeben
werden. Dabei soll jedoch nur ein beschränkter Zugriff auf die Daten
erfolgen, wie es in einer Vereinbarung vorgesehen wird. Dieser beschränkte Zugriff
kann dann durch Zusatzvereinbarungen erweitert werden.
-
Die
Druckschrift
US
2006/0085454 A1 beschreibt ein Verfahren zur reversiblen
Anonymisierung vertraulicher Datenteile, bei welchem aus einem Originaldatensatz
anonymisierte Daten gebildet werden, wobei aus den Daten des Originaldatensatzes gemeinsam
mit den anonymisierten Daten ein neuer Datensatz gebildet wird.
Dort beinhaltet beispielhaft der zu anonymisierende Datenblock "PIK" mit hohem Vertraulichkeitsgrad
persönliche
Daten, welche die Identifizierung einer Person ermöglichen,
weshalb dieser in einen anonymisierten Datenblock "AK" verschlüsselt wird.
Dieser mindestens eine Block des Originaldatensatzes kann dort mittels
eines HASH Algorithmus verschlüsselt
werden. Ferner geht aus dem genannten Dokument hervor, dass auch
eine reversible Methode bei der Anonymisierung zum Einsatz kommen
kann.
-
Die
der Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren
zur reversiblen Anonymisierung vertraulicher Datenteile und eine entsprechende
Datenstruktur derart anzugeben, dass eine möglichst einfache feingranulare
Zugriffskontrolle ermöglicht
wird.
-
Die
Erfindung betrifft im Wesentlichen ein Verfahren zur reversiblen
Anonymisierung vertraulicher Datenteile, bei dem aus einem Originaldatensatz
anonymisierte Daten gebildet werden, bei dem aus den Daten des Originaldatensatzes
gemeinsam mit den anonymisierte Daten ein neuer Datensatz gebildet
wird, bei dem der neue Datensatz in mehrere Blöcke aufgeteilt wird, wobei
die Blöcke
unterschiedlichen Vertraulichkeitsgraden oder Zielgruppen entsprechen,
und bei dem mindestens ein Block verschlüsselt wird, wobei der mindestens
eine Block Daten des Originaldatensatzes beinhaltet. Hiermit können mit
Hilfe von verschiedenen Block-Schlüsseln Detaildaten
bzw. anonymisierte Daten kontrolliert aus einem einzigen Datensatz
freigegeben werden. Der Aufwand ist hierbei wesentlich geringer,
da bspw. keine Pseudonyme benötigt
werden, geringere Datenmengen zu übertragen und zu sichern sind
und Änderungen
zentral erfolgen können.
Für eine
sehr feingranulare Zugriffskontrolle sind diese Blockschlüssel datensatzspezifisch
festlegbar.
-
Die
Erfindung wird nachfolgend anhand eines in der Zeichnung dargestellten
Ausführungsbeispiels
näher erläutert. Dabei
zeigt
-
1 einen
Originaldatensatz und eine bearbeitete Version dieses Datensatzes
zur Erläuterung
der Erfindung und
-
2 zwei
unterschiedliche Datensätze
zur Erläuterung
einer erfindungsgemäßen datensatzspezifischen
Verschlüsselung.
-
1 illustriert
beispielhaft einen Patientendatensatz eines Krankenhauses mit den
Daten Name 1, Geburtsdatum 2, einer Diagnose 3 durch den
Arzt und die Krankheitsgeschichte 4. Außerdem enthält der Datensatz zwei Röntgenbilder 5.
Im oberen Teil der 1 wird der Originaldatensatz
OS gezeigt, der dann mit dem erfindungsgemäßen Verfahren bearbeitet wurde.
Das Ergebnis ist in Form eines Datensatzes DS im unteren Teil von 1 zu
sehen.
-
Beispielsweise
wird für
Datenerhebungen grundsätzlich
eine Altersklassifizierung benötigt.
Um zu vermeiden, dass das Geburtsdatum 2 für solche Auswertungen
weitergegeben werden muss, wird das Geburtsdatum 2 anonymisiert,
d.h. stattdessen im Beispiel die Altersgruppe 2' mit einem Wert „3" eingetragen, die
die Bedeutung „15–20 Jahre
alt" hat. Als Ersatz
für Daten
zur Personenidentifikation kann optional eine generierte Identität, z.B.
eine Zahl, vergeben werden oder es können optional Daten verallgemeinert
werden, z.B. das Geburtsdatum in eine Altersklasse übersetzt
oder durch ein Standarddatum paraphrasiert werden, z. B. immer der
1.1. des Geburtsjahres statt des Geburtsdatums.
-
Anschließend erfolgt
eine Verschlüsselung aller
zu schützenden
Daten, wobei die Daten zunächst
in verschiedene Blöcke
aufgeteilt werden, z.B. gemäß ihrer
Vertraulichkeit und/oder ihrer logischen Zugehörigkeit. Block BA enthält im Beispiel den
Namen 1 und das Geburtsdatum 2 und wird mit einem
Schlüssel
A verschlüsselt.
Block BB enthält die
allen zugänglichen
Daten, also die aus dem Geburtsdatum gebildete Altersgruppe zusammen
mit der Diagnose 3, und ist unverschlüsselt, während Block BC Detaildaten
enthält
und mit einem Schlüssel
C verschlüsselt
wurde. Um den Datensatz auch ohne die in Block BA enthaltenen Personendaten identifizieren
zu können,
wird ihm noch die Identität ID „1234" zugewiesen.
-
Eine
Weitergabe des Patientendatensatzes durch das Krankenhaus an einen
externen Dienstleister kann nun ohne die Mitlieferung oder Bekanntgabe
der Schlüssel
A und C erfolgen. Bei der Übermittlung
der Datensätze
müssen
keine weiteren Datenschutzmaßnahmen
getroffen werden, da die vertraulichen Daten bereits durch Verschlüsselung
geschützt
sind, natürlich unter
der Voraussetzung, dass die Verschlüsselung ausreichend ist.
-
Ohne
die Schlüssel
A und C kann der externe Dienstleister nur auf Block BB der Daten
für Auswertungen
zugreifen, z.B. erstellt dieser Dienstleister eine Statistik über typische
Krankheiten bestimmter Altersgruppen. Ein zweiter Dienstleister
soll im Anschluss eine erweiterte Studie durchführen, für die detailliertere Daten
benötigt
werden: Es soll zusätzlich
die Länge
der Behandlung und der Krankheitsverlauf erfasst werden. Dies ist über die
Krankheitsgeschichte zu erfahren. Zum Zugriff auf die Krankheitsgeschichte
kann nun das Krankenhaus dem Dienstleister den Schlüssel C bekannt
geben, mit dem der Dienstleister die Krankheitsgeschichte des Patienten
lesen kann. Dabei wird der identische Datensatz übertragen, der auch bereits
dem ersten Dienstleister vorliegt, und zusätzlich der Schlüssel C. Falls
der erste Dienstleister auch diese Studie durchführen würde, müsste der Datensatz nicht nochmals übertragen
werden, da sich der gesamte Datensatz bereits im Besitz des Dienstleisters
befindet und nur der Zugriff darauf geschützt ist. Der Dienstleister
wiederum muss nun nur den übermittelten
Schlüssel
vor Fremdzugriff schützen,
da die vertraulichen Daten im Datensatz nur über diesen Schlüssel zugreifbar
sind.
-
2 zeigt
eine Verschlüsselung
unterschiedlicher Datensätze
DS1 und DS2 mit individuellen Schlüsseln A1, C1 und A2, C2, wobei
der Datensatz DS1 wiederum die Blöcke BA, BB und BC sowie der
Datensatz DS2 die entsprechenden Blöcke BA', BB' und
BC' aufweist. D.h.
das Krankenhaus muss intern eine Zuordnung der benötigten Schlüssel zur
Patienten-Identifizierung
ID, ID' verwalten.
Damit müssen
für jeden
der Datensätze
DS1, DS2 im Bedarfsfall die zugehörigen Schlüssel übermittelt werden. Im Beispiel
von 2 müssen
zum Lesen der gesamten Daten des ersten Datensatzes DS1 die Schlüssel A1 bzw.
C1 bekannt sein, für
den zweiten Datensatz DS2 hingegen die Schlüssel A2 und C2.
-
Alternativ
kann optional auch für
alle Datensätze
ein gemeinsamer Schlüssel
A und/oder ein gemeinsamer Schlüssel
C verwendet werden, der/die individuellen datensatzspezifischen
Schlüssel
A1, A2 und/oder C1, C2 ersetzt. In diesem Fall muss lediglich eine
Zuordnung der Schlüssel
A und C zu dem Datensatztyp verwaltet werden.
-
Im
Gegensatz zum bisherigen Verfahren werden bei der Erfindung die
Daten nicht getrennt sondern gemeinsam vorgehalten. Die Schlüssel für den Zugriff
auf die Datenblöcke
werden geschützt
abgelegt.
-
Vorteile
-
Da
der Zugriff auf die Daten über
die Vergabe der Schlüssel
geregelt wird, kann immer der ganze Datensatz verteilt werden. Es
entfällt
damit die aufwendige Aufteilung der Datensätze in getrennte Einheiten
und die Verwaltung der Bezüge
zwischen diesen Datensätzen.
D.h. es müssen
keine Pseudonyme für
die einzelnen Teildatenmengen vergeben werden und dem Originaldatensatz
zugeordnet werden. Stattdessen werden der verschlüsselte Originaldatensatz
und die erforderlichen Schlüssel
gespeichert – wenn
es sich um vertrauliche Informationen handelt, muss eine Speicherung
und Verteilung der Daten ohnehin immer geschützt erfolgen, was durch dieses
Verfahren gewährleistet
wird, falls alle vertraulichen Daten bereits ausreichend verschlüsselt wurden.
Kritisch ist nur die Übermittlung
und Speicherung der zugehörigen
Schlüssel.
Die notwendigen Sicherungsmaßnahmen
sind aufgrund der geringeren Datenmenge deutlich weniger aufwendig
als eine individuelle Sicherung der gesamten Daten für die Übermittlung
oder die individuelle Sicherung von redundanten Teildatensätzen. Abhängig vom
eingesetzten Verschlüsselungsverfahren
kann der Transfer der Schlüssel
auch entfallen.
-
Falls
eine Erweiterung der Zugriffsrechte auf bisher geschützte Teile
der Daten notwendig wird, da z.B. der Fokus einer Studie ausgeweitet
wird oder Detaildaten kontrolliert freigegeben werden sollen, so kann
dies über
eine Übermittlung
der zugeordneten Schlüssel
statt über
eine erneute Übermittlung
eines erweiterten Datensatzes erfolgen. Es ist auch möglich, z.B.
die anonymisierten Geburtsdaten über
alle Datensätze
mit einem gemeinsamen Schlüssel
zu codieren, so dass dann alle diese Daten für die Datenanalyse über alle
Datensätze
zur Verfügung
stehen. Das andere Extremum ist eine Datensatz-individuelle Verschlüsselung,
die eine sehr feingranulare Zugriffskontrolle erlaubt.
-
Die
Speicherung der Originaldatensätze
und der anonymisierten Daten erfolgt beim Datenbereitsteller gemeinsam
und genau einmal. Im Falle von Ergänzungen oder Korrekturen der
beinhalteten Daten kann deshalb eine Änderung zentral erfolgen, eine
mehrfache Änderung
in internen Datenbasen ist nicht notwendig. Eine Verteilung des
aktualisierten Datensatzes kann dann direkt und ohne weitere Modifikationen
erfolgen, wobei die Schlüssel
nicht nochmals verteilt werden müssen.