DE112018004946T5

DE112018004946T5 - Kognitive datenanonymisierung

Info

Publication number: DE112018004946T5
Application number: DE112018004946.9T
Authority: DE
Inventors: Albert Maier; Martin Oberhofer; Yannick Saillet
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-11-17
Filing date: 2018-10-23
Publication date: 2020-07-23
Anticipated expiration: 2038-10-24
Also published as: GB202008689D0; WO2019097327A1; JP2021503648A; US20190251290A1; US10719627B2; DE112018004946B4; US20190156060A1; CN111316273B; US10740488B2; CN111316273A; GB2582506A; GB2582506B; JP7121460B2

Abstract

Ein computerimplementiertes Verfahren für Datenanonymisierung umfasst: Empfangen einer Anfrage nach Daten, die einer Anonymisierung bedürfen. Die Anfrage weist mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten auf. Auf Grundlage des Verwendungsszenarios wird dann ein Anonymisierungsalgorithmus ermittelt, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht. Anschließend wird der ermittelte Anonymisierungsalgorithmus auf die Daten angewendet, auf die sich der Felddeskriptor bezieht. Es erfolgt ein Testen, ob der Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt. Falls die Anforderung erfüllt wird, wird Zugriff auf die anonymisierten Daten bereitgestellt.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft das Gebiet der Datenanonymisierung und betrifft insbesondere ein Verfahren, ein Computerprogrammprodukt und ein System für Informationsverwaltung und Datenschutz.
Datenschutzbestimmungen wie die DSGVO (Datenschutz-Grundverordnung, http://dsgvo-gesetz.de bzw. http://www.eugdpr.org/) konzentrieren sich auf den Schutz des Einzelnen vor einer bestimmten Nutzung seiner Daten. Es steht nicht im Einklang mit dem Gesetz, die Daten der Person für bestimmte Arten von Analysen zu verwenden, sofern sie nicht ausdrücklich ihr Einverständnis mit dieser Verwendung erklärt hat. Andererseits kann es akzeptabel sein, persönliche Daten zu sammeln und zu speichern, und ebenso kann es akzeptabel sein, diese für Analysen zu verwenden, solange die Daten „hinreichend anonymisiert“ sind, z.B. formuliert die DSGVO „Kann ein Verantwortlicher anhand der von ihm verarbeiteten Daten eine Person nicht identifizieren, ist dieser nicht verpflichtet, zusätzliche Informationen einzuholen, um diese Bestimmung zu erfüllen“.
Ein Beispiel: Ein Datenwissenschaftler möchte möglicherweise eine Tabelle mit den Ergebnissen einer medizinischen Studie untersuchen, um neue Beziehungen zwischen Regionen und bestimmten Arten von Krankheiten zu finden. Dem Datenwissenschaftler sollte es natürlich nicht gestattet sein, konkrete Einzelpersonen zu identifizieren und ihre sensiblen persönlichen Informationen einzusehen. Glücklicherweise sind in diesem Beispiel identifizierende Spalten wie „Name“ für die Untersuchung nicht notwendig, oder quasi-identifizierende Spalten wie „Hobbys“ könnten wahrscheinlich maskiert werden, ohne die Untersuchung zu beeinträchtigen. Der Umgang mit diesen Spalten stellt sich also einfach dar.
Dagegen wäre die Untersuchung unmöglich, wenn andere quasi-identifizierende Spalten wie Adresse oder die Krankheitsinformationen vollständig verschlüsselt oder maskiert oder redigiert wären. Andererseits kann ohne Anonymisieren solcher Spalten üblicherweise leicht eine Identifizierung von Einzelpersonen erfolgen, da es Krankheiten und/oder Adressen geben könnte, die zu eindeutig sind. In solchen Fällen kann Anonymisierung durch Verallgemeinerung hilfreich sein, z.B. Verallgemeinern konkreter Adressen auf Städte oder Verallgemeinern sehr ausführlicher Krankheitsinformationen wie „Asiatische Grippe“ auf allgemeinere Informationen wie „Grippe“. Solche Verallgemeinerungen schaden häufig nicht der Untersuchung, könnten jedoch hilfreich sein, um Daten hinreichend zu anonymisieren, dass Einzelpersonen nicht zurückverfolgt werden können.
KURZDARSTELLUNG
Verschiedene Ausführungsformen stellen in den unabhängigen Ansprüchen ein computerimplementiertes Verfahren für Datenanonymisierung, ein Computerprogrammprodukt für Datenanonymisierung und ein System für Datenanonymisierung bereit. Vorteilhafte Weiterbildungen sind in den unabhängigen Ansprüchen beschrieben. Ausführungsformen der vorliegenden Erfindung können frei miteinander kombiniert werden, soweit sie einander nicht gegenseitig ausschließen.
In einem Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren für Datenanonymisierung, das Folgendes umfasst: Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, Testen, ob der Anonymisierungsgrad eine das Anwendungsszenario betreffende Anforderung erfüllt, und falls die Anforderung erfüllt wird, Bereitstellen von Zugriff auf die anonymisierten Daten.
In einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt zum Anonymisieren von Daten, wobei das Computerprogrammprodukt Folgendes aufweist: ein computerlesbares Speichermedium, das darauf gespeicherten durch einen Computer verwendbaren Code enthält, wobei es sich bei dem computerlesbaren Speichermedium nicht um ein flüchtiges Signal an sich handelt, wobei der durch einen Computer verwendbare Programmcode Folgendes aufweist: durch einen Computer verwendbaren Code, der konfiguriert ist für Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, durch einen Computer verwendbaren Code, der konfiguriert ist für auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, durch einen Computer verwendbaren Code, der konfiguriert ist für Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, durch einen Computer verwendbaren Code, der konfiguriert ist für Testen, ob der Anonymisierungsgrad eine das Anwendungsszenario betreffende Anforderung erfüllt, und durch einen Computer verwendbaren Code, der konfiguriert ist für Bereitstellen von Zugriff auf die anonymisierten Daten, falls die Anforderung erfüllt wird.
In einem weiteren Aspekt betrifft die Erfindung ein System zum Anonymisieren von Daten, wobei das System Folgendes umfasst: eine Datenübertragungskomponente, die so konfiguriert ist, dass sie mit einem Nutzer Daten austauscht, eine Anonymisierungssteuerkomponente, die mit der Datenübertragungskomponente in Datenverbindung steht, wobei die Anonymisierungssteuerkomponente ein Mittel zum Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, ein Mittel zum auf Grundlage des Verwendungsszenarios erfolgenden Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, ein Mittel zum Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, ein Mittel zum Testen, ob der Anonymisierungsgrad eine das Anwendungsszenario betreffende Anforderung erfüllt, und ein Mittel zum Bereitstellen von Zugriff auf die anonymisierten Daten umfasst, falls die Anforderung erfüllt wird.
Figurenliste
Nachfolgend zeigen

1 ein beispielhaftes Computer-Verarbeitungssystem;
2 eine Architektur zusammenarbeitender Komponenten;
3 einen Ablaufplan des vorliegend dargelegten Verfahrens;
4 beispielhaft eine zu anonymisierende Tabelle und
5 beispielhaft eine Anonymisierung der zu anonymisierenden Tabelle.

AUSFÜHRLICHE BESCHREIBUNG
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden für Zwecke der Veranschaulichung dargelegt, sind jedoch nicht als abschließend oder auf die Ausführungsformen beschränkt zu verstehen. Für den Fachmann sind viele Abwandlungen und Variationen ersichtlich, ohne vom Umfang und Grundgedanken der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um bestmöglich die Grundgedanken der Ausführungsformen, der praktischen Anwendung oder technischen Verbesserung gegenüber den auf dem Markt erhältlichen Technologien zu erklären oder um dem Fachmann das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Das vorliegende Verfahren wie nachstehend beschrieben kann Datenanonymisierung bereitstellen, insbesondere Datenanonymisierung zu Datenschutzzwecken. Dies kann insofern vorteilhaft sein, als Personenidentifikation ermöglichende Informationen in interessierenden Datensätzen in einer Weise modifiziert werden können, dass Informationen, die eine Einzelperson identifizieren könnten, ausgelassen werden, während gleichzeitig Informationen, die für Analyse nützlich sind, beibehalten werden können.
Das Verfahren kann ferner Empfangen einer Anfrage nach Daten umfassen, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist. Ein Fachmann versteht, dass der Schritt des Empfangens auf Empfangen von einer Anwendung hinweisen kann, wobei die Anwendung mit einer Schnittstelle zu einem Nutzer versehen sein kann, z.B. einer grafischen Nutzerschnittstelle. „Felddeskriptor“ wie vorliegend verwendet kann insbesondere einen Spaltennamen abzurufender Daten meinen. Beispielsweise kann der Felddeskriptor „Name“ oder „Krankheit“ sein. Ein Verwendungsszenario kann die Umstände angeben, unter denen die Anfrage gestellt wird. Beispielsweise kann ein Verwendungsszenario den Zweck, auch als „Absicht“ bezeichnet, enthalten, zu dem die Anfrage gestellt wird, beispielsweise eine Auswertung einer medizinischen Studie. Ferner kann das Anwendungsszenario die Rolle des Nutzers enthalten, z.B. Datenanalytiker oder Endnutzer. Der Datenanalytiker könnte beispielsweise ein erweitertes Recht besitzen, maschinelles Lernen durch spezielles Einlernen direkt zu unterstützen.
Es ist zu beachten, dass die Daten unterschiedliche Datenschutzanforderungsgrade besitzen können. Beispielsweise könnte ein einer Datenbankspalte „Name“ zugeordneter Name eine Person direkt identifizieren, daher wird die Spalte „Name“ als „identifizierende Spalte“ bezeichnet, wohingegen z.B. eine Spalte „Hobby“ lediglich „quasi-identifizierend“ sein könnte, da eine Person nur zusammen mit anderen Informationen identifizierbar sein könnte. Schließlich könnten Informationen auch als „sensibel“ bezeichnet werden, etwa eine Datenspalte „Krankheit“.
Das Verfahren kann ferner auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus umfassen, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht. Insbesondere wenn durch mehrere Spalten angegebene Daten angefragt werden, sollten die Daten identifizierender Spalten und quasiidentifizierender Spalten anonymisiert werden. Es ist wünschenswert, das z.B. in einer medizinischen Studie die Spalten, die eine Person identifizieren können, vollständig anonymisiert werden, wohingegen quasi-identifizierende Informationen vollständig anonymisiert oder zumindest stark verallgemeinert werden können und schließlich die eigentlich interessierenden Informationen, wie z.B. im Falle der medizinischen Studie eine Krankheit, nicht anonymisiert oder nur geringfügig verallgemeinert werden. Dies kann insofern vorteilhaft sein, als dem Nutzer ein Suchergebnis geliefert werden kann, wobei das Suchergebnis so abgestimmt ist, dass es in Hinblick auf den Suchzweck einen hohen Nutzwert besitzt, während gleichzeitig Datenschutzgesetze eingehalten werden.
Das Verfahren kann ferner Zuordnen des Verwendungsszenarios für die angefragten Daten zu den die Felddeskriptoren der angefragten Daten betreffenden Schutzniveaus umfassen. Dies kann insofern vorteilhaft sein, als gemäß dem Verwendungsszenario Felder unterschiedlicher Datenspalten durch Ausführen unterschiedlicher Anonymisierungsalgorithmen anonymisiert werden könnten und dennoch Datenschutzanforderungen eingehalten werden könnten.
Wenn beispielsweise eine Krankheit zu einem Ort in Beziehung gesetzt werden soll, könnten die Namen und die Hobbys und das Geschlecht vollständig unterdrückt werden. Wenn andererseits die Absicht eine auf eine Beziehung zwischen Krankheit und Hobby gerichtete Frage beinhaltet, könnte die Adressspalte vollständig komprimiert werden und nur die Daten der Spalten Krankheit und Hobby unverändert oder höchstens geringfügig verallgemeinert bleiben. In diesem Zusammenhang kann „geringfügig verallgemeinert“ bedeuten, dass z.B. jede Art von Grippe, z.B. „Asiatische Grippe“ oder „Darmgrippe“, als „Grippe“ bezeichnet würde und z.B. jede Art von Krebs so anonymisiert würde, dass lediglich von „Krebs“ gesprochen würde. Stärker verallgemeinert könnten alle Datenwerte in der Spalte „Krankheit“ so modifiziert sein, dass sie lediglich einen von zwei Werten besitzen, z.B. „krank“ oder „nicht krank“.
Das Verfahren kann ferner auf Grundlage des Verwendungsszenarios und der Schutzniveaus erfolgendes Ermitteln eines Anonymisierungsalgorithmus für jeden der Felddeskriptoren umfassen. Dies kann den Vorteil einer optimalen Bereitstellung nützlicher und reichhaltiger Daten für Analyse unter Einhaltung von Datenschutzgesetzen bieten.
Das Verfahren kann ferner Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten umfassen, auf die sich der Felddeskriptor bezieht. Dies kann insofern vorteilhaft sein, als der Nutzer, der Datenwissenschaftler oder der Endnutzer nur Daten empfängt, die er einsehen darf und die er gegebenenfalls veröffentlichen darf. Der Fachmann versteht, dass die Anonymisierung nicht auf die Originaldaten, sondern bevorzugt auf eine Kopie der Daten angewendet wird. Die Originaldaten können somit für eine spätere und mit anderer Absicht durchgeführte Suche aufrechterhalten werden, die andere Anonymisierungsalgorithmen für jedes der angefragten Datenfelder erfordert.
Das Verfahren kann ferner Testen umfassen, ob der Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt. Dies kann insofern vorteilhaft sein, als das dem Nutzer gelieferte Ergebnis stets dem Datenschutzgesetz entspricht.
Das Verfahren kann ferner Bereitstellen von Zugriff auf die anonymisierten Daten umfassen, falls die Anforderung erfüllt wird. Mit anderen Worten, falls das Suchergebnis nicht dem Datenschutzgesetz entspricht, wird das Suchergebnis dem Nutzer nicht präsentiert. Der Nutzer erhält nur die Information, dass unter Berücksichtigung seiner Absicht, seiner Rolle und der berücksichtigten und/oder ausgewählten Anonymisierungsalgorithmen ein Ergebnis erhalten wird, das nicht dem Datenschutzgesetz entspräche und somit nicht angezeigt werden kann.
Die Parameter, die zu dem aufgrund der tatsächlichen Anforderungen anonymisierten Suchergebnis geführt haben, können gespeichert und als Rückmeldung für maschinelles Lernen verwendet werden, um die Funktionsweise des Gesamtalgorithmus zu verbessern. Beispielsweise könnten die Parameter wie z.B. Absicht, Nutzerrolle, ausgewählte Anonymisierungsalgorithmen, jeweils geltende Datenschutzregelung rückgemeldet werden, so dass, wenn ein Nutzer das nächste Mal eine ähnliche Suchanfrage stellt, eine erfolgreiche Strategie per Eingabeaufforderung angezeigt und dem Nutzer auf einer hochrangigen Position vorgeschlagen wird, wohingegen eine Strategie, die dazu geführt hat, dass das Suchergebnis aus Datenschutzgründen nicht angezeigt werden durfte, nicht oder nur auf einer nachrangigen Position vorgeschlagen werden würde.
Die Bezeichnung „Datenschutzgesetz“ soll in ihrer vorliegenden Bedeutung Datenschutzgesetz sowie jegliche Datenschutzregelung oder Datenschutzrichtlinie bezeichnen.
Das Verfahren kann ferner auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines den Felddeskriptor der angefragten Daten betreffenden Schutzniveaus umfassen. Beispielsweise kann in einem Verwendungsszenario, das eine medizinische Analyse betrifft, der Felddeskriptor oder die Spalte „Name“ einem höchstmöglichen Schutzniveau zugeordnet sein, da diese Spalte identifizierende Daten enthält oder als identifizierende Spalte bezeichnet sein kann, wohingegen die Spalte „Hobby“ einem niedrigeren Schutzniveau zugeordnet sein kann. Ein Fachmann versteht, dass ein hohes Schutzniveau oder ein hohes Datenschutzniveau in einem Datenschutzregelwerk festgelegt sein kann. Dies kann insofern vorteilhaft sein, als während eines durch einen Nutzer eingeleiteten interaktiven Prozesses innerhalb des Schutzniveaus flexibel mehrere Anonymisierungsalgorithmen getestet werden könnten, um schließlich ein Ergebnis mit optimalem und reichhaltigem Informationsgehalt unter gleichzeitiger Einhaltung des Datenschutzgesetzes zu erhalten.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass das Verwendungsszenario eine Absicht des die Daten anfragenden Nutzers und eine Rolle des Nutzers enthält. Dies kann insofern vorteilhaft sein, als mehrere der Umstände der Suche oder Analyse berücksichtigt werden können, um flexibel ein Ergebnis zu erreichen, das nützlichen Dateninhalt und nur gesetzlich zur Anzeige zulässige Daten enthält.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass dem Felddeskriptor mindestens ein Schutzniveau zugeordnet wird. Mit anderen Worten, einem Felddeskriptor können mehrere Schutzniveaus zugeordnet werden. So könnte eine noch flexiblere Art und Weise der Zuordnung eines Anonymisierungsalgorithmus erreicht werden.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass der anzuwendende Anonymisierungsalgorithmus auf Grundlage des Verwendungsszenarios und des Schutzniveaus ausgewählt wird.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass es sich bei dem Anonymisierungsalgorithmus um mindestens eines der Folgenden handelt: Verallgemeinerung, Redigierung, Unterdrückung, Sampling, Randomisierung, Datenaustausch, Maskierung, Nummerierung. Die Anonymisierungsalgorithmen sind im Wesentlichen im Fachgebiet bekannt. Es ist zu beachten, dass z.B. Verallgemeinerung durch die Zusammenarbeit eines Katalogs, der z.B. eine Beziehung von Geschäftsbegriffen und Datenspaltennamen aufweist, mit einem KI-Programm erreicht werden kann. Die Liste der Anonymisierungsalgorithmen kann durch den Nutzer erweitert werden.
Gemäß einer Ausführungsform kann das Verfahren Empfangen einer Rückmeldung von einem Nutzer umfassen, wobei die Rückmeldung eine Hilfe für maschinelles Lernen bildet. Die Rückmeldung vom Nutzer könnte eine Information mit z.B. der Bedeutung „Ich bin mit dem Ergebnis zufrieden“ oder „Ich bin mit dem Ergebnis nicht zufrieden“ enthalten. Falls der Nutzer mit dem Ergebnis nicht zufrieden ist, obwohl ihm dieses unter Einhaltung des Datenschutzgesetzes präsentiert wird, kann der lernende Algorithmus diese Bewertung als „Dateninhalt nicht ausreichend“ speichern und versuchen, weniger restriktive Anonymisierungsalgorithmen zu finden, und ferner beim nächsten Mal, wenn ein Nutzer eine ähnliche Anfrage mit ähnlicher Absicht stellt, diese weniger restriktiven Anonymisierungsalgorithmen anwenden. Dies kann insofern vorteilhaft sein, als die Ausführung des Verfahrens bis zum Erreichen eines zufriedenstellenden Suchergebnisses in kürzerer Zeit abgeschlossen werden könnte.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass die das Verwendungsszenario betreffende Anforderung k-Anonymität ist. Ein Fachmann versteht, dass ein Kriterium nötig ist, um zu prüfen, ob das Suchergebnis hinreichend anonymisiert ist, so dass es nicht möglich ist, eine der Personen zu identifizieren, deren Daten gemäß dem Verwendungsszenario präsentiert werden. Dies kann insofern vorteilhaft sein, als sichergestellt wird, dass die Daten eine Anforderung hinsichtlich Anonymität erfüllen, um dem Datenschutzgesetz zu entsprechen. „k-Anonymität“ wie vorliegend verwendet kann bedeuten: Eine Tabelle ist k-anonymisiert, falls für jeden eine Einzelperson repräsentierenden Datensatz mindestens weitere k-1 Einzelpersonen vorhanden sind, deren Informationen ebenfalls in der Tabelle erscheinen, und die Daten nicht unterscheidbar sind, d.h. die Regelung verlangt mindestens ein Duplikat pro Einzelperson in Bezug auf Spalten, die verwendet werden können, um Einzelpersonen zu identifizieren.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass die Daten Informationsgut-Metadaten zugeordnet werden, die eine Verfügbarkeit von Datentabellen für den Nutzer sowie die Felddeskriptoren enthalten, die diese Datentabellen besitzen.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass Geschäftsbegriffe bereitgestellt werden, die durch den Nutzer zu verwendende Schlüsselwörter bilden, wobei Klassifizierungsinformationen bereitgestellt werden, die Beziehungen zwischen Geschäftsbegriffen und Informationsgut-Metadaten darstellen.
Die Klassifizierungsinformationen können über Beziehungen zwischen Informationsgütern und Geschäftsbegriffen dargestellt werden, z.B. kann eine Tabelle „Medizinische Forschungsstudie 1“ eine Spalte „GB“ besitzen, die mit dem Geschäftsbegriff „Geburtsdatum“ klassifiziert ist. Gemäß weiteren Klassifizierungsbeispielen könnte eine Spalte „Datum“ als „Vertragsdatum“ oder eine Spalte „Risiko“ als „Risiko der beteiligten Partei(en)“ klassifiziert sein. Grundsätzlich können die Klassifizierungen in der Lage sein, die semantische Natur von Daten, d.h. die „geschäftliche Bedeutung“, zu beschreiben. Für die Zwecke der Beschreibung dieser Offenbarung wird davon ausgegangen, dass jedes Informationsgut genau eine Klassifizierung besitzt. Es ist einfach, das Verfahren auf Systeme auszudehnen, in denen keine und/oder mehrere Klassifizierungen auftreten können.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass Verallgemeinerungshierarchien bereitgestellt werden, um die Ausführung eines Verallgemeinerungsalgorithmus zu ermöglichen. Dies kann insofern vorteilhaft sein, als ein Zugriff auf Informationen ermöglicht werden kann wie z.B. welche Städte auf welche Landkreise verallgemeinert werden können, welche Landkreise auf welche Bundesländer, welche Bundesländer auf welches Land, oder Informationen, dass eine „Asiatische Grippe“ auf „Grippe“ verallgemeinert werden kann, welche wiederum auf „ansteckende Krankheit“ verallgemeinert werden kann.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass eine Datenschutzregelung und ein entsprechender Testalgorithmus zum Testen festgelegt werden, um das auszuführende Verfahren zu steuern, bis auf Grundlage der abzurufenden Daten und des Verwendungsszenarios die abgerufenen Daten nach Anonymisierung dem erforderlichen Anonymisierungsgrad entsprechen. Es ist zu beachten, dass der Testumfang mit einer Entscheidung verbunden sein kann, ob der Anonymisierungsgrad die das Anwendungsszenario betreffende Anforderung erfüllt.
Beispielsweise könnte eine Regel festlegen: „Falls ein Nutzer die Rolle A hat und eine Tabelle Spalten enthält, die im Katalog als sensible, Personenidentifikation ermöglichende Informationen gekennzeichnet sind, und die Tabelle zudem Spalten enthält, die als Identifikatoren oder Quasi-Identifikatoren gekennzeichnet sind, müssen die Daten mit k>=10 k-anonymisiert werden“. Ein entsprechender Algorithmus zur Prüfung, ob Daten 10-anonymisiert sind, ist einfach und dem Fachmann bekannt.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass ein Modell bereitgestellt wird, wobei das Modell eine Beziehung zwischen einem Anonymisierungsalgorithmus, einem Verwendungsszenario und einer Klassifizierung der Daten festlegt.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass das Modell durch maschinelles Lernen aufgebaut wird.
Ein solches Modell kann in der Lage sein, festzulegen, welcher Anonymisierungsalgorithmus für welche Kombination aus Analyseabsicht und Datentyp vorgeschlagen werden kann, z.B. kann der Datentyp über seine Klassifizierung, d.h. seine geschäftliche Bedeutung oder zugehörige Semantik, festgelegt werden. Ein Modell kann durch maschinelles Lernen konstruiert werden, z.B. überwachtes Lernen, und wird auf Grundlage des Wissens darüber, welche Kombinationen von Endnutzern verwendet wurden, fortlaufend verbessert. Ein Fachmann versteht, dass verschiedene Alternativen mit jeweils eigenen Eigenschaften denkbar sind.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass das Modell während seiner Verwendung durch maschinelles Lernen angepasst und/oder verbessert wird. Dies kann insofern vorteilhaft sein, als nach einigen Durchgängen, in denen aktuelle Nutzer das System einlernen oder zumindest ein Einlernen des Systems unterstützen, ein zukünftiger Nutzer eine sehr zügige und zufriedenstellende Antwort erhält, die dem Datenschutzgesetz entspricht.
In einigen Ausführungsformen kann die Nummerierungsliste von Endnutzern des Systems erweitert werden. Dies kann insofern vorteilhaft sein, als eine Absicht von einem Nutzer leicht angegeben werden kann und vom Verfahren leicht ermittelt werden kann.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass ein Katalog eingesetzt wird, wobei der Katalog Geschäftsbegriffe, Informationsgut-Metadaten, Klassifizierungsinformationen, eine Verallgemeinerungshierarchie, eine Datenschutzregelung und einen entsprechenden Testalgorithmus aufweist, wobei eine Nummerierung das Verwendungsszenario angibt.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dass eine Interaktion mit dem Nutzer zugelassen wird, so dass der Nutzer mittels maschinellen Lernens den Prozess der durch das Verfahren ausgeführten Anonymisierung abändern kann.
Gemäß einer Ausführungsform kann das Verfahren umfassen, dem Nutzer einen infrage kommenden Anonymisierungsalgorithmus vorzuschlagen. Dies kann insofern vorteilhaft sein, als die Wiederholung interaktiver und flexibler erfolgen kann, insbesondere in Situationen, in denen sich der Gesamtalgorithmus in einer festgefahrenen Situation befindet.
Gemäß einer Ausführungsform kann das Verfahren Empfangen einer Bestätigung eines infrage kommenden Anonymisierungsalgorithmus vom Nutzer umfassen.
Gemäß einer Ausführungsform kann das Verfahren Anwenden des bestätigten Anonymisierungsalgorithmus auf die angefragten Daten umfassen. Insgesamt kann interaktives Vorschlagen eines infrage kommenden Anonymisierungsalgorithmus und dessen Anwenden bei Auswahl den iterativen Prozess zum Erhalten eines Suchergebnisses mit reichhaltigem Dateninhalt, welches dem Datenschutzgesetz entspricht, beschleunigen.
Gemäß einem Aspekt wird ein Computerprogrammprodukt zum Anonymisieren von Daten vorgeschlagen.
In einer Ausführungsform kann das Computerprogramm ein computerlesbares Speichermedium mit auf diesem enthaltenem durch einen Computer verwendbarem Code umfassen, wobei es sich bei dem computerlesbaren Speichermedium nicht um ein flüchtiges Signal an sich handelt, wobei der durch einen Computer verwendbare Programmcode verschiedene Komponenten wie nachstehend beschrieben aufweist, deren Vorteile und Erläuterungen bereits vorstehend genannt wurden.
In einer Ausführungsform kann der durch einen Computer verwendbare Programmcode durch einen Computer verwendbaren Code aufweisen, der dafür konfiguriert ist, z.B. von einer Anwendung eine Anfrage nach Daten zu empfangen, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten, z.B. einen Spaltennamen, und ein Anwendungsszenario eines Nutzers für die angefragten Daten aufweisen kann, das eine Absicht enthalten kann.
In einer Ausführungsform kann der durch einen Computer verwendbare Programmcode durch einen Computer verwendbaren Code enthalten, der konfiguriert ist für auf Grundlage des Verwendungsszenarios und möglicherweise des Schutzniveaus erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten oder jeweils die einzelnen Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht.
In einer Ausführungsform kann der durch einen Computer verwendbare Programmcode durch einen Computer verwendbaren Code aufweisen, der konfiguriert ist für Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, wobei zu beachten ist, dass die Anonymisierung nicht auf die Originaldaten, sondern lediglich auf eine Kopie der Daten angewendet wird.
In einer Ausführungsform kann der durch einen Computer verwendbare Programmcode durch einen Computer verwendbaren Code aufweisen, der konfiguriert ist für Testen, ob der Anonymisierungsgrad eine das Anwendungsszenario betreffende Anforderung erfüllt.
In einer Ausführungsform kann der durch einen Computer verwendbare Programmcode durch einen Computer verwendbaren Code aufweisen, der konfiguriert ist für Bereitstellen von Zugriff auf die anonymisierten Daten, falls die Anforderung erfüllt wird.
Gemäß einem Aspekt wird ein System zum Anonymisieren von Daten vorgeschlagen, wobei das System Merkmale aufweist, deren Vorteile und Erläuterungen bereits vorstehend genannt wurden.
In einer Ausführungsform kann das System eine Datenübertragungskomponente aufweisen, die so konfiguriert ist, dass sie mit einem Nutzer Daten austauscht.
In einer Ausführungsform kann das System eine Anonymisierungssteuerkomponente enthalten, die mit der Datenübertragungskomponente in Datenverbindung steht.
In einer Ausführungsform kann das System ein Mittel zum Empfangen einer Anfrage nach Daten enthalten, wobei die Anfrage mindestens einen Felddeskriptor oder Spaltennamen abzurufender Daten und ein Verwendungsszenario oder eine Absicht eines Nutzers für die angefragten Daten aufweist.
Der Fachmann versteht, dass es sich bei einem Mittel um eine beliebige Komponente handeln kann, die durch einen Computer nutzbaren Programmcode oder auch durch einen Computer nutzbaren Programmcode mit einem Prozessor enthält.
In einer Ausführungsform kann das System ein Mittel zum auf Grundlage des Verwendungsszenarios und/oder des Schutzniveaus erfolgenden Ermitteln eines Anonymisierungsalgorithmus enthalten, der auf die Daten oder jeweils die einzelnen Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht.
In einer Ausführungsform kann das System ein Mittel zum Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten enthalten, auf die sich der Felddeskriptor bezieht, wobei z.B. die Anonymisierung gegebenenfalls nicht auf die Originaldaten, sondern auf eine Kopie der Daten angewendet wird.
In einer Ausführungsform kann das System ein Mittel zum Testen enthalten, ob der Anonymisierungsgrad eine das Anwendungsszenario betreffende Anforderung erfüllt.
In einer Ausführungsform kann das System ein Mittel zum Bereitstellen von Zugriff auf die anonymisierten Daten enthalten, falls die Anforderung erfüllt wird.
Zusammengefasst kann die vorliegende Erfindung auf Erweitern eines Umfangs mit dem Gesetz in Einklang stehender Analyse abzielen, die an den verfügbaren Daten durchgeführt werden kann. Das Verfahren, das Computerprogrammprodukt und das System, die vorliegend beschrieben werden, schlagen eine Anonymisierung von Daten vor, welche die analytische Absicht von Nutzern, die semantische Klassifizierung von Daten sowie bestehende Datenschutzregelungen berücksichtigt. Die Vorschläge können durch z.B. maschinelles Lernen mit der Zeit verbessert werden. Explizite Rückmeldungen von Nutzern durch interaktive Änderungen an Vorschlägen sowie implizite Rückmeldungen durch Annehmen von Vorschlägen können berücksichtigt werden, um ein zugrunde liegendes Analysemodell zu verbessern.
Mit anderen Worten, eine Grundidee besteht darin, ein System und ein Verfahren umzusetzen, die es analytischen Nutzern ermöglichen, ihre analytische Absicht anzugeben. Immer wenn der analytische Nutzer auf Daten zugreift, prüft ein „Berater für Minimumanonymisierung“, ob diese Daten anonymisiert werden müssen, wobei in diesem Fall der Berater eine Anonymisierung vorschlägt, die sich in der Vergangenheit für eine solche analytische Absicht und für ähnlich klassifizierte Daten als nützlich erwiesen hat. In einem interaktiven Prozess kann der analytische Nutzer die Anonymisierung beeinflussen und abstimmen, so dass die Anonymisierung der analytischen Absicht besser entspricht, ohne Datenschutzregelungen zu verletzen. Diese Rückmeldung wird verwendet, um die Vorschläge mit der Zeit zu verbessern. Im nächsten Abschnitt werden das System, das Verfahren und das Computerprogrammprodukt ausführlicher beschrieben.
Die Erfindung zielt auf Erreichen verschiedener Vorteile ab, wobei die wichtigsten Vorteile dieser Erfindung unter anderem z.B. die Folgenden sind: Eine hohe Wahrscheinlichkeit, dass eine vorgeschlagene Anonymisierung zu den Bedürfnissen der Analyse passt, die ein Nutzer durchführen möchte. Die Vorschläge werden mit der Zeit verbessert. Dies ermöglicht es, ein solches System Selbstbedienungsnutzern anzubieten, die keine Anonymisierungsexperten sind. Fachkundige Nutzer können unpassende Anonymisierungsvorschläge interaktiv und sukzessive an ihre Bedürfnisse anpassen, falls möglich. Im Rahmen gesetzlicher Vorgaben hat der fachkundige Nutzer volle Kontrolle über die Anonymisierung. Das System sorgt stets für hinreichende Anonymisierung, was auch gegenüber Auditoren nachgewiesen werden kann.
Mit anderen Worten, die vorstehende Offenbarung zielt auf Erweitern des Umfangs mit dem Gesetz in Einklang stehender Analyse ab, die an den verfügbaren Daten durchgeführt werden kann. Das vorgeschlagene Verfahren umfasst Vorschlagen einer Anonymisierung von Daten, welche die analytische Absicht von Nutzern, die semantische Klassifizierung von Daten sowie bestehende Datenschutzregelungen berücksichtigen kann. Die Vorschläge können sich durch z.B. maschinelles Lernen mit der Zeit verbessern. Explizite Rückmeldungen von Nutzern durch interaktive Änderungen an Vorschlägen sowie implizite Rückmeldungen durch Annehmen von Vorschlägen können berücksichtigt werden, um das zugrunde liegende Analysemodell zu verbessern.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbarer Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt enthält, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) enthalten. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
In 1 ist ein Blockschaltbild eines beispielhaften Computer-Verarbeitungssystems gezeigt, das geeignet ist, die Verfahren der vorliegenden Erfindung umzusetzen. Das Computersystem, das allgemein mit 1 bezeichnet ist, enthält einen Prozessor 2, der einen digitalen Signalprozessor (DSP), eine zentrale Verarbeitungseinheit (CPU), einen Mikrocontroller, einen Mikroprozessor, einen Mikrocomputer, einen ASIC- oder einen FPGA-Kern enthalten kann. Das System enthält zudem einen statischen Nur-LeseSpeicher 7 und dynamischen Hauptspeicher 6 und kann zudem einen Flashspeicher 5 enthalten. Der Prozessor 2 steht über einen Bus 3 in Datenaustausch mit jeder der genannten Speichereinheiten sowie mit Peripherieeinheiten wie beispielsweise einer Display-Einheit 10, einer Tastatur 9, einer Zeigeeinheit 8 wie z.B. einer Maus oder einem Tablett.
Über Datenübertragungsleitungen, die mit dem System über eine oder mehrere E/A-Datenübertragungsschnittstellen 11 wie z.B. eine Netzwerkschnittstelle 11 verbunden sind, ist das Computersystem mit einem oder mehreren externen Netzwerken wie beispielsweise einem LAN oder WAN oder SAN 12 verbunden. Die mit dem System verbundenen Netzwerkadapter 11 ermöglichen eine Verbindung des Datenverarbeitungssystems mit anderen Datenverarbeitungssystemen oder entfernt angeordneten Druckern oder Speichereinheiten durch dazwischenliegende private oder öffentliche Netzwerke. Modem, Kabelmodem und Ethernetkarten sind nur einige der aktuell erhältlichen Arten von Netzwerkadaptern. Das System enthält zudem einen magnetischen oder auf Halbleitern beruhenden Datenspeicher oder eine Speichereinheit 4 und/oder 13 zum Speichern von Anwendungsprogrammen und Daten. Das System enthält ein computerlesbares Speichermedium, das ein beliebiges geeignetes Speichermittel enthalten kann, darunter, ohne jedoch hierauf eingeschränkt zu sein, magnetischen Speicher, optischen Speicher, flüchtigen oder nichtflüchtigen Halbleiterspeicher oder eine beliebige andere Speichereinheit.
In einer beispielhaften Ausführungsform ist vorgesehen, dass es sich bei dem Computersystem, das der Nutzer verwendet, um Daten mit dem Computersystem auszutauschen, welches das Verfahren der vorliegenden Erfindung ausführt, um ein Client-Computersystem wie vorstehend gezeigt handelt. In einer weiteren beispielhaften Ausführungsform ist vorgesehen, dass das Computersystem, welches das Verfahren der vorliegenden Erfindung ausführt, im Wesentlichen vergleichbar aufgebaut ist, jedoch im Einzelnen wie nachfolgend veranschaulicht aufgebaut ist.
In den nachfolgenden Figuren wird die Systemarchitektur beschrieben. Mittels dieser Systemarchitektur als Hintergrund und unter Durchführung des Verfahrens wie in 3 gezeigt wird mittels der beispielhaften Tabellen aus 4 und 5 und des beispielhaften Inhalts für den Katalog wie nachstehend aufgeführt im Folgenden ein Verfahren offenbart, das einem Datenwissenschaftler dabei hilft, eine geeignete Anonymisierung für die Art von Analyse zu finden, die er oder sie durchführen will.
2 ist eine Darstellung einer Architektur 100 zusammenarbeitender Komponenten, die verwendet werden kann, um das vorliegend beschriebene Verfahren umzusetzen. Bezugszeichen 101 gibt eine datenwissenschaftliche Anwendung an, die mit einem Anonymisierungsberater 103 versehen ist. Der Anonymisierungsberater ist so eingerichtet, dass er beim Durchführen einer interaktiven Anpassung von Anonymisierungsvorschlägen über 127 mit einer Anonymisierungsverwaltung 123 Daten a ustauscht.
Der Nutzer, der die datenwissenschaftliche Anwendung z.B. über eine Nutzerschnittstelle bedient, kann veranlassen, dass eine Anfrage nach Daten über 105 an einen Konnektor 109 gestellt wird. Wenn alle der nachfolgend beschriebenen Schritte abgeschlossen sind, kann der Konnektor 109 die anonymisierten Daten zurückliefern 107. Der Konnektor 109 kann unanonymisierte Daten über 111 aus einem Data Lake 113 mit unanonymisierten Datensätzen anfragen. Es ist denkbar, dass der Data Lake 113 über 114.a, ..., 114.n mit unanonymisierten Datenbanken 115.a, ..., 115.n verbunden sein könnte.
Der Konnektor kann mit der Anonymisierungsverwaltung in Datenaustausch 121 stehen, um Anonymisierungsbedürfnisse zu prüfen. Sowohl der Konnektor 109 als auch die Anonymisierungsverwaltung 123 können über 117 bzw. über 125 Anonymisierungsdienste 119 nutzen. Die Anonymisierungsdienste 119 können über 155 aus einem Katalog 143 für die Anwendung von Anonymisierung relevante Metadaten abrufen.
Der Katalog 143 kann Datensammlungen aus Klassifizierungsmetadaten 145, analytischer Absicht 149, Verallgemeinerungshierarchie 147, Datenschutzreglungen 151 und zugehörigen Datenschutzreglungstests 153 enthalten. Der Fachmann weiß, dass Datensammlungen als Listen oder Tabellen gespeichert und organisiert sein können und dass die darin gespeicherten Daten Datumsangaben, Zeichenketten, Zeichen, Funktionszeiger und mehr enthalten können.
Die Anonymisierungsverwaltung 123 kann mit einem Anonymisierungsmodell 139 ausgestattet sein, das die Kernarbeit der Anonymisierungsverwaltung unterstützt oder steuert.
Die Anonymisierungsverwaltung 123 kann ferner mit einer Anonymisierungs-Wissensdatenbank 131 in Datenaustausch 129 stehen, um Informationen über Anonymisierungsnutzung zu sammeln. Die Anonymisierungsdatenbank 131 kann mit einer Modelltrainingskomponente 135 in Datenaustausch 133 stehen, die so eingerichtet sein kann, dass sie das Anonymisierungsmodell erstellt oder abändert 137.
3 veranschaulicht einen Ablaufplan eines vorliegend dargelegten Verfahrens 200, der verschiedene Ausführungsformen beschreibt. Das Verfahren 200 beginnt zunächst in 201. Ein nicht gezeigter Nutzer kann über eine Nutzerschnittstelle Daten austauschen und eine datenwissenschaftliche Anwendung 203 verwenden. Über die Linie 205 kann die Anwendung in 207 eine Sitzung einleiten. In der vorliegenden Figur sind Eingabe/Ausgabe-Aktionen wie üblich über ein Symbol angegeben, das in seiner Form dem Symbol 207 entspricht, wobei die Eingabe/Ausgabe der Klarheit halber als gestrichelte Linie gezeigt ist.
Mit anderen Worten, das Verfahren kann in 207 über 205 die Anfrage nach Daten empfangen. Die Anfrage nach Daten kann mindestens einen Felddeskriptor oder Spaltennamen abzurufender Daten und ein Verwendungsszenario oder eine Absicht eines Nutzers für die angefragten Daten enthalten.
In 209 kann auf Grundlage des Verwendungsszenarios ein Anonymisierungsalgorithmus ermittelt werden, wobei der Anonymisierungsalgorithmus auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht. In Ausführungsformen ist vorgesehen, dass eine Mehrzahl von Datenspalten angefragt wird. In 211 kann der Nutzer über 213 eine Eingabeaufforderung dahingehend erhalten, ob er den ermittelten Anonymisierungsalgorithmus bzw. wenn mehrere Spalten angefragt werden, die Anonymisierungsalgorithmen akzeptiert. Auf eine Antwort durch den Nutzer über 215 hin kann das Verfahren bei 217 fortfahren.
In 217 könnte über einen Austausch 219 ein Data Lake 221 kontaktiert werden, um dem Verfahren unanonymisierte Daten zu liefern, was als Kopieren der angefragten Daten aus dem Data Lake 221 in einen Speicher, z.B. in den RAM 6 oder den Datenspeicher 4, des in einer anderen Ansicht als Computersystem 1 gezeigten Systems 100 umgesetzt werden könnte.
Das Verfahren fährt in 223 fort und kann die Anonymisierungsalgorithmen anwenden, die in 211, 213, 215 vereinbart worden sein könnten. Insbesondere ist vorgesehen, dass der ermittelte Anonymisierungsalgorithmus auf die Daten angewendet werden kann, auf die sich der Felddeskriptor bezieht. Anschließend kann in 225 getestet werden, ob der Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt. Der Fachmann versteht, dass die Anforderung als eine einen Anonymitätsgrad betreffende Anforderung zu verstehen ist.
Im Entscheidungscaret 227 kann, falls die erforderliche Anonymität erreicht oder erfüllt wird, d.h. das Datenschutzgesetz eingehalten wird, das Verfahren über 229 bei 239 fortfahren. Das Eingabe/Ausgabe-Modul 239 kann die Anonymisierungs-Wissensdatenbank 131 und 237 über das Erreichen der erforderlichen Anonymität informieren, so dass maschinelles Lernen des Anonymisierungsmodells 139 unterstützt werden kann.
Falls die erforderliche Anonymität nicht erreicht wird, kann das Verfahren über 231 mit einem anderen Eingabe/Ausgabe-Modul 233 fortfahren, das über 235 die Anonymisierungs-Wissensdatenbank 237 über diese Situation informiert, so dass maschinelles Lernen unterstützt wird. In diesem Fall beginnt, da die Anonymitätsanforderung nicht erfüllt wird, das Verfahren erneut bei 209 und informiert den Nutzer, um eine andere Anonymisierungsstrategie einzusetzen.
Wenn der erforderliche Anonymitätsgrad erreicht wurde, kann das Verfahren bei 245 fortfahren, indem es dem Nutzer das Ergebnis über 247 als Eingabeaufforderung anzeigt und fragt, ob ihm die Daten ausreichen, um seine Arbeit fortzusetzen.
In dem Fall kann über 249 an das Eingabe/Ausgabe-Modul 245 übertragen werden, ob die Daten ausreichen.
Im Entscheidungscaret 250 kann ein Abzweigen des Verfahrens abhängig davon gesteuert werden, ob die Daten für eine Auswertung ausreichend oder zu stark anonymisiert waren.
Falls die Daten als ausreichend erachtet werden, kann das Verfahren bei 253 fortfahren und diese Rückmeldung über 255 als weitere Lernrückmeldung an die Anonymisierungs-Wissensdatenbank 237 verwenden. Die Ausführung des Verfahrens kann dann bei 259 enden.
Falls die Daten nicht als ausreichend erachtet werden, kann das Verfahren bei 251 fortfahren und diese Rückmeldung über 257 als weitere Lernrückmeldung an die Anonymisierungs-Wissensdatenbank 237 verwenden. Die Ausführung des Verfahrens kann dann bei 209 fortgesetzt werden.
Der Fachmann versteht, dass es möglich ist, dass die Lernrückmeldung von der Rolle des Nutzers abhängig gemacht wird. Wenn beispielsweise ein erfahrener Datenwissenschaftler die Anfrage stellt, kann das Rückmeldungslernen eingeschaltet werden oder eine höhere Gewichtung erhalten, wohingegen das Rückmeldungslernen abgeschaltet werden oder eine geringere Lerngewichtung erhalten kann, wenn ein unerfahrener Nutzer die Anfrage stellt.
4 veranschaulicht beispielhaft eine zu anonymisierende Tabelle. Die Spalte „Name“ kann durch einen Klassifizierungsteil eines Katalogs in Geschäftsbegriffen als „Vollständiger Name“ 301 klassifiziert werden. Der Geschäftsbegriff 301 des „Vollständigen Namens“ kann als Identifikator 315 verwendet werden, der eine Person identifizieren kann.
Die Spalte „Datum“ kann durch einen Klassifizierungsteil des Katalogs in Geschäftsbegriffen als „Geburtsdatum“ 305 klassifiziert werden. Der Geschäftsbegriff 305 des „Geburtsdatums“ kann nicht als Identifikator dienen, kann jedoch in Kombination mit anderen dieser Person zugeordneten Daten als Quasi-Identifikator 317 verwendet werden.
Die Spalte „Geschlecht“ kann als dem Geschäftsbegriff „Geschlechtszugehörigkeit“ 307 zugeordnet klassifiziert werden, bei dem es sich ebenfalls lediglich um einen Quasi-Identifikator 319 handeln kann. Die Spalte „Nationalität“ kann dem Geschäftsbegriff 309 „Nationalität“ und dem Quasi-Identifikator 321 zugeordnet werden. Die Spalte „Adresse“ kann dem Geschäftsbegriff Postleitzahl 311 zugeordnet werden, bei dem es sich ebenfalls lediglich um einen Quasi-Identifikator 323 handeln kann, und die Spalte „Krankheit“ kann als dem Geschäftsbegriff „Krankheit“ 313 zugehörig klassifiziert werden, der als sensible Daten klassifiziert werden kann.
Somit können über das Konzept der Geschäftsbegriffe reine Datenspaltennamen oder -überschriften mit Semantik versehen werden, die in den weiteren Komponenten des Systems angemessen verarbeitet werden kann.
5 zeigt beispielhaft eine Anonymisierung der Tabelle aus 4, die zu anonymisieren war.
Wie zu sehen ist, wird die Spalte „Name“ vollständig ausgelassen. Die Spalte „Datum“ mit der Semantik „Geburtsdatum“ ist so abgeändert, dass sie nur intervallbezogene Informationen produziert. Die Spalte „Nationalität“ ist in nummerierte Werte umgewandelt. Die Adresse ist so zusammengefasst oder verallgemeinert, dass sie den Namen der Stadt enthält, zu der die Postleitzahl gehört, und die Krankheit ist ebenfalls verallgemeinert.
Dies führt dazu, dass es nicht möglich ist, eine Person eindeutig zu identifizieren.
In einer Ausführungsform kann das vorstehend genannte Verfahren beschrieben werden wie folgt:
Es kann zugrunde gelegt werden, dass der Katalog die folgenden Informationen enthalten kann:
Definitionen für Geschäftsbegriffe wie „Vollständiger Name“, „Geburtsdatum“, „Geschlechtszugehörigkeit“, „Nationalität“, „PLZ“, „Krankheit“, einschließlich einer Definition, dass „Vollständiger Name“ ein Identifikator ist, „Krankheit“ sensible Daten darstellt und die anderen vorstehend aufgeführten Begriffe Quasi-Identifikatoren sind.
Der Katalog kann Metadaten über die Tabelle „Studienergebnisse“ speichern, darunter technische Metadaten über die Spalten in dieser Tabelle.
Der Katalog kann Klassifizierungsinformationen speichern, insbesondere, dass die Spalte Name „Vollständiger Name“-Werte enthält, die Spalte Datum „Geburtsdatum“ ist, Geschlecht „Geschlechtszugehörigkeit“ ist, Nationalität „Nationalität“ ist, Adresse „PLZ“ ist und Krankheit „Krankheit“ ist. Solche Informationen können üblicherweise von einem Verwalter angegeben werden, wenn die Tabelle im Katalog registriert wird.
Der Katalog kann Informationen speichern, dass Hepatitis A und Hepatitis B auf Hepatitis und Asiatische Grippe und Russische Grippe auf Grippe verallgemeinert werden können. Er kann zudem wissen, dass es sich bei 72070, 72072 und 72074 um Postleitzahlen der Stadt Tübingen und bei 70173 und 70176 um Postleitzahlen der Stadt Stuttgart handelt. Er kann zudem wissen, dass ein konkretes „Geburtsdatum“ durch Reduzieren auf ein Jahr und weiter durch Erstellen von Intervallen aus Jahren verallgemeinert werden kann.
Der Katalog kann eine Datenschutzregelung „2-Anonymität für sensible Daten“ besitzen, die festlegt, dass ein Datenwissenschaftler Daten aus einer Tabelle mit sensiblen Informationen nur einsehen kann, wenn diese Tabelle zumindest 2-anonymisiert ist. Eine Tabelle ist k-anonymisiert, falls für jeden eine Einzelperson repräsentierenden Datensatz mindestens weitere k-1 Einzelpersonen vorhanden sind, deren Informationen ebenfalls in der Tabelle erscheinen, und die Daten nicht unterscheidbar sind, d.h. die vorstehende Regelung verlangt mindestens ein Duplikat pro Einzelperson in Bezug auf Spalten, die verwendet werden können, um Einzelpersonen zu identifizieren.
Des Weiteren kann der Katalog alle unterschiedlichen Werte für die „Analytische Absicht“ kennen, in diesem Fall {„Auswertung medizinischer Studie“, „Kundenabwanderungsanalyse“, „Betrugserkennung“}.
Des Weiteren kann zugrunde gelegt werden, dass das System die folgende Liste von „Anonymisierungsdiensten“ unterstützen kann: Verallgemeinerung, Redigierung, Maskierung_durch_sequenzielle_Funktion und dass das System mit Daten trainiert wurde, die zu einem Empfehlungsmodell führen, das im Falle der analytischen Absicht „Auswertung medizinischer Studie“ vorschlägt, „Redigierung“ für Daten zu verwenden, die als „Vollständiger Name“ klassifiziert sind, Verallgemeinerung für „Geburtsdatum“, „Adresse“, „PLZ“ und „Krankheit“ und „Maskierung durch sequentielle Funktion“ für „Nationalität“.
Dies sind die Schritte, die ausgeführt werden, wenn ein Datenwissenschaftler Daten aus einem Data Lake anfragt, um eine „Auswertung einer medizinischen Studie“ durchzuführen. Im vorliegenden Beispiel kann der Datenwissenschaftler die Daten für die Tabelle STUDIENERGEBNISSE anfragen.

Claims

Computerimplementiertes Verfahren für Datenanonymisierung, das Folgendes umfasst: Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt, Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird.
Verfahren nach Anspruch 1, wobei das Verwendungsszenario eine Absicht des die Daten anfragenden Nutzers und eine Rolle des Nutzers aufweist.
Verfahren nach Anspruch 1 oder 2, wobei dem Felddeskriptor mindestens ein Schutzniveau zugehörig ist.
Verfahren nach Anspruch 3, wobei der anzuwendende Anonymisierungsalgorithmus auf Grundlage des Verwendungsszenarios und des Schutzniveaus ausgewählt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei es sich bei dem Anonymisierungsalgorithmus um mindestens eines der Folgenden handelt: Verallgemeinerung, Redigierung, Unterdrückung, Sampling, Randomisierung, Datenaustausch, Maskierung, Nummerierung.
Verfahren nach einem der vorhergehenden Ansprüche, umfassend Empfangen einer Rückmeldung von einem Nutzer, wobei die Rückmeldung eine Hilfe für maschinelles Lernen bildet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei es sich bei der das Verwendungsszenario betreffenden Anforderung um k-Anonymität handelt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Daten Informationsgut-Metadaten zugeordnet werden, die eine Verfügbarkeit von Datentabellen für den Nutzer sowie die Felddeskriptoren enthalten, die diese Datentabellen besitzen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei Geschäftsbegriffe bereitgestellt werden, die durch den Nutzer zu verwendende Schlüsselwörter bilden, wobei Klassifizierungsinformationen bereitgestellt werden, die Beziehungen zwischen Geschäftsbegriffen und Informationsgut-Metadaten darstellen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei Verallgemeinerungshierarchien bereitgestellt werden, um eine Ausführung eines Verallgemeinerungsalgorithmus zu ermöglichen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Datenschutzregelung und ein entsprechender Testalgorithmus zum Testen festgelegt werden, um das auszuführende Verfahren zu steuern, bis auf Grundlage der abzurufenden Daten und des Verwendungsszenarios die abgerufenen Daten nach Anonymisierung dem Anonymisierungsgrad entsprechen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Modell bereitgestellt wird, wobei das Modell eine Beziehung zwischen einem Anonymisierungsalgorithmus, einem Verwendungsszenario und einer Klassifizierung der Daten festlegt.
Verfahren nach Anspruch 12, wobei das Modell durch maschinelles Lernen aufgebaut wird.
Verfahren nach Anspruch 13, wobei das Modell während seiner Verwendung durch maschinelles Lernen angepasst wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Nummerierung für eine Angabe des Verwendungsszenarios bereitgestellt wird.
Verfahren nach Anspruch 15, wobei durch die Nummerierung eine Auswertung einer medizinischen Studie, Kundenabwanderungsanalyse und/oder Betrugserkennung angebbar ist.
Verfahren nach einem der vorhergehenden Ansprüche, umfassend einen Katalog, der Geschäftsbegriffe, Informationsgut-Metadaten, Klassifizierungsinformationen, eine Verallgemeinerungshierarchie, eine Datenschutzregelung und einen entsprechenden Testalgorithmus aufweist, wobei eine Nummerierung das Verwendungsszenario angibt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Interaktion mit dem Nutzer zugelassen wird, so dass der Nutzer mittels maschinellen Lernens das Anonymisierungsverfahren abändern kann.
Computerprogrammprodukt zum Anonymisieren von Daten, wobei das Computerprogrammprodukt Folgendes aufweist: ein computerlesbares Speichermedium mit auf diesem enthaltenem durch einen Computer verwendbarem Code, wobei es sich bei dem computerlesbaren Speichermedium nicht um ein flüchtiges Signal an sich handelt, wobei der durch einen Computer verwendbare Programmcode Folgendes aufweist: durch einen Computer verwendbaren Code, der konfiguriert ist für Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, durch einen Computer verwendbaren Code, der konfiguriert ist für auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, durch einen Computer verwendbaren Code, der konfiguriert ist für Anwenden des Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, durch einen Computer verwendbaren Code, der konfiguriert ist für Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt, durch einen Computer verwendbaren Code, der konfiguriert ist für Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird.
System zum Anonymisieren von Daten, wobei das System Folgendes aufweist: eine Datenübertragungskomponente, die so konfiguriert ist, dass sie mit einem Nutzer Daten austauscht, eine Anonymisierungssteuerkomponente, die mit der Datenübertragungskomponente in Datenverbindung steht, wobei die Anonymisierungssteuerkomponente Folgendes aufweist: ein Mittel zum Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist, ein Mittel zum auf Grundlage des Verwendungsszenarios erfolgenden Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht, ein Mittel zum Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht, ein Mittel zum Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt, ein Mittel zum Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird.