DE102006021371B4

DE102006021371B4 - Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile und eine entsprechende Datenstruktur

Info

Publication number: DE102006021371B4
Application number: DE102006021371A
Authority: DE
Inventors: Birthe Böhm; Norbert Gewald; Gerold Herold
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2006-05-08
Filing date: 2006-05-08
Publication date: 2008-04-17
Anticipated expiration: 2026-05-09
Also published as: DE102006021371A1

Abstract

Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile,
– bei dem aus einem Originaldatensatz (OS, 1..5) anonymisierte Daten (2') gebildet werden,
– bei dem aus den Daten des Originaldatensatzes gemeinsam mit den anonymisierten Daten (2') ein neuer Datensatz (DS) gebildet wird,
– bei dem der neue Datensatz in mehrere Blöcke aufgeteilt wird, wobei die Blöcke unterschiedlichen Vertraulichkeitsgraden oder Zielgruppen entsprechen, und
– bei dem mindestens ein Block verschlüsselt wird, wobei der mindestens eine Block Daten des Originaldatensatzes beinhaltet, und
– bei dem mindestens zwei Blöcke (BA, BB, BC) eines jeweiligen Datensatzes (DS) mit unterschiedlichen Schlüsseln (A, C) verschlüsselt werden.

Description

Die Erfindung betrifft ein Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile und eine entsprechende Datenstruktur, bei dem/der bei der Verarbeitung von teilweise vertraulichen, i.a. personenbezogenen, Daten besondere Vorkehrungen getroffen werden, um diese Daten vor unberechtigten Zugriffen zu schützen bzw. um Bestimmungen des Datenschutzes einzuhalten.
Der Schutz von vertraulichen Informationen wird bisher über eine Trennung der vertraulichen Daten von den nichtvertraulichen Daten bewirkt. Aus dem Originaldatensatz wird hierbei ein neuer Datensatz erstellt, der nur die nichtvertraulichen oder anonymisierten Daten enthält, und zur Auswertung weitergegeben wird. Eine Anonymisierung der Daten erfolgt in der Regel durch Klassifikation, z.B. wird das Geburtsdatum immer mit dem 1.1. angegeben und nur das Jahr ist korrekt oder das Geburtsdatum wird einer Altersgruppe zugeordnet.
Der Originaldatensatz wird zusätzlich abgelegt und muss dabei auch vor Fremdzugriff geschützt werden. Um den Bezug zwischen diesen beiden Datensätzen wiederherstellen zu können, wird ein Pseudonym erzeugt, das in dem öffentlichen Datensatz für eine spätere Bezugnahme enthalten ist. Außerdem wird eine Zuordnung zwischen dem Pseudonym und den originalen Daten abgelegt, damit über das Pseudonym wieder auf die originalen Daten zugegriffen werden kann. Für jede Auswertung der Datensätze wird häufig eine individuelle Variante des Datensatzes erzeugt und weitergegeben, die jeweils genau die zur Auswertung benötigten und ggf. anonymisierten Daten umfasst. Oft erfolgt auch eine Archivierung dieser Varianten für spätere Nachfragen.
Im Allgemeinen sind nicht alle zu verarbeitenden Daten vertraulich, d.h. ein Datensatz besteht aus einem zu schützenden und einem nichtvertraulichen Anteil, sodass verschiedene Vertraulichkeitsstufen entstehen. Im nichtvertraulichen Anteil können auch bereits anonymisierte Daten enthalten sein. Normalerweise werden diese Gruppen getrennt und nur die für die Auswertung relevanten Daten weitergegeben. Auch dann muss die Zuordnung zwischen den verschiedenen Datenpaketen rekonstruierbar sein, um spätere Überprüfungen oder eine Erweiterung der Datenbasis zuzulassen. Außerdem können nach einer Datenanalyse durch Dritte deren Ergebnisse leicht durch den Auftraggeber stichprobenartig mit Hilfe der Originaldaten überprüft werden.
Zum Beispiel enthalten Patientendaten z.T. vertrauliche Daten zur Person und zur Krankheit, die nur anonymisiert oder überhaupt nicht an Dritte zur Auswertung weitergegeben werden können. Eine solche Auswertung könnte bspw. eine Aufstellung sein, in welcher Altersgruppe die Krankheit hauptsächlich auftritt. Das bedeutet, dass nur ein Teil der Daten weitergegeben werden muss. Um eine Identifizierung der Person auszuschließen, erfolgt häufig neben dem Verbergen der nichtrelevanten Daten bereits eine Anonymisierung der Daten, wobei bspw. das Geburtsdatum in eine Altersgruppe überführt wird, die dann zur Auswertung zur Verfügung steht.
Weitere Anwendungsmöglichkeiten sind auch bei nichtvertraulichen Daten zu sehen, die an Dritte weitergegeben werden. Dabei soll jedoch nur ein beschränkter Zugriff auf die Daten erfolgen, wie es in einer Vereinbarung vorgesehen wird. Dieser beschränkte Zugriff kann dann durch Zusatzvereinbarungen erweitert werden.
Die Druckschrift US 2006/0085454 A1 beschreibt ein Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile, bei welchem aus einem Originaldatensatz anonymisierte Daten gebildet werden, wobei aus den Daten des Originaldatensatzes gemeinsam mit den anonymisierten Daten ein neuer Datensatz gebildet wird. Dort beinhaltet beispielhaft der zu anonymisierende Datenblock "PIK" mit hohem Vertraulichkeitsgrad persönliche Daten, welche die Identifizierung einer Person ermöglichen, weshalb dieser in einen anonymisierten Datenblock "AK" verschlüsselt wird. Dieser mindestens eine Block des Originaldatensatzes kann dort mittels eines HASH Algorithmus verschlüsselt werden. Ferner geht aus dem genannten Dokument hervor, dass auch eine reversible Methode bei der Anonymisierung zum Einsatz kommen kann.
Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile und eine entsprechende Datenstruktur derart anzugeben, dass eine möglichst einfache feingranulare Zugriffskontrolle ermöglicht wird.
Die Erfindung betrifft im Wesentlichen ein Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile, bei dem aus einem Originaldatensatz anonymisierte Daten gebildet werden, bei dem aus den Daten des Originaldatensatzes gemeinsam mit den anonymisierte Daten ein neuer Datensatz gebildet wird, bei dem der neue Datensatz in mehrere Blöcke aufgeteilt wird, wobei die Blöcke unterschiedlichen Vertraulichkeitsgraden oder Zielgruppen entsprechen, und bei dem mindestens ein Block verschlüsselt wird, wobei der mindestens eine Block Daten des Originaldatensatzes beinhaltet. Hiermit können mit Hilfe von verschiedenen Block-Schlüsseln Detaildaten bzw. anonymisierte Daten kontrolliert aus einem einzigen Datensatz freigegeben werden. Der Aufwand ist hierbei wesentlich geringer, da bspw. keine Pseudonyme benötigt werden, geringere Datenmengen zu übertragen und zu sichern sind und Änderungen zentral erfolgen können. Für eine sehr feingranulare Zugriffskontrolle sind diese Blockschlüssel datensatzspezifisch festlegbar.
Die Erfindung wird nachfolgend anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert. Dabei zeigt
1 einen Originaldatensatz und eine bearbeitete Version dieses Datensatzes zur Erläuterung der Erfindung und
2 zwei unterschiedliche Datensätze zur Erläuterung einer erfindungsgemäßen datensatzspezifischen Verschlüsselung.
1 illustriert beispielhaft einen Patientendatensatz eines Krankenhauses mit den Daten Name 1, Geburtsdatum 2, einer Diagnose 3 durch den Arzt und die Krankheitsgeschichte 4. Außerdem enthält der Datensatz zwei Röntgenbilder 5. Im oberen Teil der 1 wird der Originaldatensatz OS gezeigt, der dann mit dem erfindungsgemäßen Verfahren bearbeitet wurde. Das Ergebnis ist in Form eines Datensatzes DS im unteren Teil von 1 zu sehen.
Beispielsweise wird für Datenerhebungen grundsätzlich eine Altersklassifizierung benötigt. Um zu vermeiden, dass das Geburtsdatum 2 für solche Auswertungen weitergegeben werden muss, wird das Geburtsdatum 2 anonymisiert, d.h. stattdessen im Beispiel die Altersgruppe 2' mit einem Wert „3" eingetragen, die die Bedeutung „15–20 Jahre alt" hat. Als Ersatz für Daten zur Personenidentifikation kann optional eine generierte Identität, z.B. eine Zahl, vergeben werden oder es können optional Daten verallgemeinert werden, z.B. das Geburtsdatum in eine Altersklasse übersetzt oder durch ein Standarddatum paraphrasiert werden, z. B. immer der 1.1. des Geburtsjahres statt des Geburtsdatums.
Anschließend erfolgt eine Verschlüsselung aller zu schützenden Daten, wobei die Daten zunächst in verschiedene Blöcke aufgeteilt werden, z.B. gemäß ihrer Vertraulichkeit und/oder ihrer logischen Zugehörigkeit. Block BA enthält im Beispiel den Namen 1 und das Geburtsdatum 2 und wird mit einem Schlüssel A verschlüsselt. Block BB enthält die allen zugänglichen Daten, also die aus dem Geburtsdatum gebildete Altersgruppe zusammen mit der Diagnose 3, und ist unverschlüsselt, während Block BC Detaildaten enthält und mit einem Schlüssel C verschlüsselt wurde. Um den Datensatz auch ohne die in Block BA enthaltenen Personendaten identifizieren zu können, wird ihm noch die Identität ID „1234" zugewiesen.
Eine Weitergabe des Patientendatensatzes durch das Krankenhaus an einen externen Dienstleister kann nun ohne die Mitlieferung oder Bekanntgabe der Schlüssel A und C erfolgen. Bei der Übermittlung der Datensätze müssen keine weiteren Datenschutzmaßnahmen getroffen werden, da die vertraulichen Daten bereits durch Verschlüsselung geschützt sind, natürlich unter der Voraussetzung, dass die Verschlüsselung ausreichend ist.
Ohne die Schlüssel A und C kann der externe Dienstleister nur auf Block BB der Daten für Auswertungen zugreifen, z.B. erstellt dieser Dienstleister eine Statistik über typische Krankheiten bestimmter Altersgruppen. Ein zweiter Dienstleister soll im Anschluss eine erweiterte Studie durchführen, für die detailliertere Daten benötigt werden: Es soll zusätzlich die Länge der Behandlung und der Krankheitsverlauf erfasst werden. Dies ist über die Krankheitsgeschichte zu erfahren. Zum Zugriff auf die Krankheitsgeschichte kann nun das Krankenhaus dem Dienstleister den Schlüssel C bekannt geben, mit dem der Dienstleister die Krankheitsgeschichte des Patienten lesen kann. Dabei wird der identische Datensatz übertragen, der auch bereits dem ersten Dienstleister vorliegt, und zusätzlich der Schlüssel C. Falls der erste Dienstleister auch diese Studie durchführen würde, müsste der Datensatz nicht nochmals übertragen werden, da sich der gesamte Datensatz bereits im Besitz des Dienstleisters befindet und nur der Zugriff darauf geschützt ist. Der Dienstleister wiederum muss nun nur den übermittelten Schlüssel vor Fremdzugriff schützen, da die vertraulichen Daten im Datensatz nur über diesen Schlüssel zugreifbar sind.
2 zeigt eine Verschlüsselung unterschiedlicher Datensätze DS1 und DS2 mit individuellen Schlüsseln A1, C1 und A2, C2, wobei der Datensatz DS1 wiederum die Blöcke BA, BB und BC sowie der Datensatz DS2 die entsprechenden Blöcke BA', BB' und BC' aufweist. D.h. das Krankenhaus muss intern eine Zuordnung der benötigten Schlüssel zur Patienten-Identifizierung ID, ID' verwalten. Damit müssen für jeden der Datensätze DS1, DS2 im Bedarfsfall die zugehörigen Schlüssel übermittelt werden. Im Beispiel von 2 müssen zum Lesen der gesamten Daten des ersten Datensatzes DS1 die Schlüssel A1 bzw. C1 bekannt sein, für den zweiten Datensatz DS2 hingegen die Schlüssel A2 und C2.
Alternativ kann optional auch für alle Datensätze ein gemeinsamer Schlüssel A und/oder ein gemeinsamer Schlüssel C verwendet werden, der/die individuellen datensatzspezifischen Schlüssel A1, A2 und/oder C1, C2 ersetzt. In diesem Fall muss lediglich eine Zuordnung der Schlüssel A und C zu dem Datensatztyp verwaltet werden.
Im Gegensatz zum bisherigen Verfahren werden bei der Erfindung die Daten nicht getrennt sondern gemeinsam vorgehalten. Die Schlüssel für den Zugriff auf die Datenblöcke werden geschützt abgelegt.
Vorteile
Da der Zugriff auf die Daten über die Vergabe der Schlüssel geregelt wird, kann immer der ganze Datensatz verteilt werden. Es entfällt damit die aufwendige Aufteilung der Datensätze in getrennte Einheiten und die Verwaltung der Bezüge zwischen diesen Datensätzen. D.h. es müssen keine Pseudonyme für die einzelnen Teildatenmengen vergeben werden und dem Originaldatensatz zugeordnet werden. Stattdessen werden der verschlüsselte Originaldatensatz und die erforderlichen Schlüssel gespeichert – wenn es sich um vertrauliche Informationen handelt, muss eine Speicherung und Verteilung der Daten ohnehin immer geschützt erfolgen, was durch dieses Verfahren gewährleistet wird, falls alle vertraulichen Daten bereits ausreichend verschlüsselt wurden. Kritisch ist nur die Übermittlung und Speicherung der zugehörigen Schlüssel. Die notwendigen Sicherungsmaßnahmen sind aufgrund der geringeren Datenmenge deutlich weniger aufwendig als eine individuelle Sicherung der gesamten Daten für die Übermittlung oder die individuelle Sicherung von redundanten Teildatensätzen. Abhängig vom eingesetzten Verschlüsselungsverfahren kann der Transfer der Schlüssel auch entfallen.
Falls eine Erweiterung der Zugriffsrechte auf bisher geschützte Teile der Daten notwendig wird, da z.B. der Fokus einer Studie ausgeweitet wird oder Detaildaten kontrolliert freigegeben werden sollen, so kann dies über eine Übermittlung der zugeordneten Schlüssel statt über eine erneute Übermittlung eines erweiterten Datensatzes erfolgen. Es ist auch möglich, z.B. die anonymisierten Geburtsdaten über alle Datensätze mit einem gemeinsamen Schlüssel zu codieren, so dass dann alle diese Daten für die Datenanalyse über alle Datensätze zur Verfügung stehen. Das andere Extremum ist eine Datensatz-individuelle Verschlüsselung, die eine sehr feingranulare Zugriffskontrolle erlaubt.
Die Speicherung der Originaldatensätze und der anonymisierten Daten erfolgt beim Datenbereitsteller gemeinsam und genau einmal. Im Falle von Ergänzungen oder Korrekturen der beinhalteten Daten kann deshalb eine Änderung zentral erfolgen, eine mehrfache Änderung in internen Datenbasen ist nicht notwendig. Eine Verteilung des aktualisierten Datensatzes kann dann direkt und ohne weitere Modifikationen erfolgen, wobei die Schlüssel nicht nochmals verteilt werden müssen.

Claims

Verfahren zur reversiblen Anonymisierung vertraulicher Datenteile, – bei dem aus einem Originaldatensatz (OS, 1..5) anonymisierte Daten (2') gebildet werden, – bei dem aus den Daten des Originaldatensatzes gemeinsam mit den anonymisierten Daten (2') ein neuer Datensatz (DS) gebildet wird, – bei dem der neue Datensatz in mehrere Blöcke aufgeteilt wird, wobei die Blöcke unterschiedlichen Vertraulichkeitsgraden oder Zielgruppen entsprechen, und – bei dem mindestens ein Block verschlüsselt wird, wobei der mindestens eine Block Daten des Originaldatensatzes beinhaltet, und – bei dem mindestens zwei Blöcke (BA, BB, BC) eines jeweiligen Datensatzes (DS) mit unterschiedlichen Schlüsseln (A, C) verschlüsselt werden.
Verfahren nach Anspruch 1, bei dem mindestens ein Block (BA, BB, BC) eines Datensatzes (DS1) und mindestens ein entsprechender Block (BA', BB', BC') eines weiteren Datensatzes (DS2) mit unterschiedlichen Schlüsseln (A1, C1 ; A2, C2) verschlüsselt werden.