DE102023200361A1 - Multivariate Ausreißer-Erkennung zum Datenschutz - Google Patents

Multivariate Ausreißer-Erkennung zum Datenschutz Download PDF

Info

Publication number
DE102023200361A1
DE102023200361A1 DE102023200361.9A DE102023200361A DE102023200361A1 DE 102023200361 A1 DE102023200361 A1 DE 102023200361A1 DE 102023200361 A DE102023200361 A DE 102023200361A DE 102023200361 A1 DE102023200361 A1 DE 102023200361A1
Authority
DE
Germany
Prior art keywords
data
multivariate
data set
outlier detection
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023200361.9A
Other languages
English (en)
Inventor
Asmir Vodencarevic
Michael Adling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Healthineers Ag De
Original Assignee
Siemens Healthcare GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Healthcare GmbH filed Critical Siemens Healthcare GmbH
Publication of DE102023200361A1 publication Critical patent/DE102023200361A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

Die vorliegende Erfindung betrifft ein computerimplementiertes Verfahren zum Schutz von Daten. Das Verfahren kann Empfangen eines Eingabedatensatzes (1) umfassen, wobei der Eingabedatensatz (1) eine Vielzahl von Datenpunkten umfasst. Zumindest einige der Datenpunkte können Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie beispielsweise einen Patienten, zu identifizieren. Das Verfahren kann Durchführen einer multivariaten Ausreißer-Erkennung (22) an dem Eingabedatensatz umfassen, die Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausrei-ßer-Erkennungsalgorithmus umfasst. Das Verfahren kann auch Anzeigen einer Rangfolge des zumindest einen Teils der Vielzahl von Datenpunkten basierend auf den Anomalie-Scores umfassen.

Description

  • Die vorliegende Erfindung betrifft allgemein das Gebiet des Datenschutzes, und insbesondere Techniken zur multivariaten Ausreißer-Erkennung für den Datenschutz, wie etwa Anonymisierung und Pseudonymisierung.
  • In den heute allgegenwärtigen, vernetzten Computersystemen besteht häufig die Notwendigkeit, Datenzugriff zu gewähren oder eine Datenübertragung zwischen den beteiligten Parteien zu initiieren. Dies gilt nicht nur für Datenkollaborationen im Allgemeinen, sondern insbesondere auch für klinische Kollaborationen. In einem typischen Szenario muss ein Gesundheitsdienstleister, der als Datenverantwortlicher fungiert, Patientendaten an einen Industriepartner übertragen, der die Daten für die Forschung und/oder Produktentwicklung verwendet.
  • Aufgrund ihrer sensiblen und persönlichen Natur muss die Vertraulichkeit individueller Patientendaten nicht zuletzt aufgrund vertraglicher Vereinbarungen und/oder geltender Vorschriften ausreichend geschützt werden. Ein weit verbreiteter Weg, um Datenschutz zu erreichen, ist die Anonymisierung von Daten. In der Randnummer 26 der Datenschutz-Grundverordnung (DSGVO) werden anonymisierte Daten als „personenbezogene Daten definiert, die derart anonymisiert wurden, dass die betroffene Person nicht oder nicht mehr identifizierbar ist“.
  • Die Anwendung dieser allgemeinen Definition auf konkrete medizinische Daten erfordert die Umsetzung von Maßnahmen, die weit über das Entfernen direkter Patientenidentifizierer, wie etwa einen Patientenname, eine Postleitzahl oder eine Telefonnummer, hinausgehen. Ungewöhnliche Werte in den Daten sollten mit Vorsicht behandelt werden, da sie mit einem erhöhten Potenzial der Patienten-Reidentifizierung verbunden sind.
  • Auf dem Gebiet der Datenanonymisierung offenbart die Druckschrift US 2014/0283097 A1 einen Mechanismus zur relationalen kontextsensitiven Anonymisierung von Daten. Es wird eine Datenanforderung empfangen, die einen Beziehungskontext spezifiziert, der einer ausgewählten Personengruppe entspricht. Der Beziehungskontext spezifiziert Attribute, die eine Beziehung zwischen den ausgewählten Personen herstellen und sie von Personen unterscheiden, die nicht in der ausgewählten Gruppe sind. Für den Beziehungskontext werden Schlüsselattribute in den persönlichen Informationsdaten bestimmt, und es wird ein Seltenheitswert für jedes Schlüsselattribut bestimmt. Ausgewählte Schlüsselattribute werden dann basierend auf dem bestimmten Seltenheitswert anonymisiert.
  • Das Dokument „Isolation Forest“ (Liu FT et al., 8. IEEE Internationale Konferenz zum Data Mining, 2008) offenbart einen als Isolationswald (engl. „isolation forest“) bezeichneten Ausreißer- und Anomalie-Erkennungsalgorithmus, der Anomalien explizit isoliert, um eine Unterabtastung mit linearer Zeitkomplexität und geringem Speicherbedarf auszunutzen.
  • Weitere Beispiele für Ansätze zur Erkennung von Ausreißern, einschließlich einer elliptischen Einhüllenden (engl. „elliptic envelope“), lokalem Ausreißerfaktor (engl. „local outlier factors“ - LOF) und Shapley Additive Explanations (SHAP), werden in den Dokumenten „A fast algorithm for the minimum covariance determinant estimator“ (Rousseeuw PJ, Technometrics 1999; 41(3): 212-23), „LOF: Identifying Density-Based Local Outliers“ (Breunig MM et al., In Proc. ACM SIGMOD 2000), und „A Unified Approach to Interpreting Model Predictions" (Lundberg SM et al., Advances in Neural Information Verarbeitungssysteme 2017; 30: 4765-74) offenbart.
  • Die Druckschrift „AppScalpel: Combining static analysis and outlier detection to identify and prune undesirable usage of sensitive data in Android applications“ (Meng Z et al., Neurocomputing, Band 341, 2019, Seiten 10-25, ISSN 0925-2312) offenbart ein System zur Bewahrung der Privatsphäre, das dazu gestaltet ist, statische Analyse- und Ausreißer-Erkennungsalgorithmen zu kombinieren, um die unerwünschte Verwendung sensibler Daten in Android-Apps zu identifizieren und zu beschränken. AppScalpel schätzt die Ähnlichkeit zwischen Verhaltensweisen der Test-App und Verhaltensweisen, die aus beliebten Markt-Apps derselben Kategorie extrahiert wurden. Ein Klassen-Unterstützungs-Vektor-Maschinen-Ausreißer-Erkennungsalgorithmus wird verwendet, um ein ungewöhnliches Verhalten der Test-App, das sensible oder private Benutzerdaten gefährden könnte, zu identifizieren.
  • Generell sind Anonymisierungsmaßnahmen abhängig von der konkreten Datenlage, und sollen die Anonymisierung der Daten sowohl im univariaten als auch im multivariaten Sinne sicherstellen. Das erste befasst sich mit der Erkennung und Anonymisierung ungewöhnlicher Werte oder Ausreißer in einer einzelnen Variablen (z. B. das Alter des Patienten), während letzteres Datenpunkte anspricht, die (nur) als ungewöhnlich angesehen werden könnten, wenn zwei oder mehr Variablen kombiniert werden (z. B. Body-Mass-Index und Alter).
  • Ein Beispiel für einen univariaten Ausreißer in diesem Zusammenhang könnte das Patientenalter von 90 in einem Datensatz sein, bei dem das nächsthöchste Alter 60 ist. Solche ungewöhnlichen Werte in einer einzelnen Variablen sind relativ leicht durch einfache Datenexplorationstechniken und Visualisierungen (z. B. Boxplots, Histogramme usw.) und Variabilitätsmaße, wie etwa Interquartilbereiche, zu erkennen.
  • Andererseits können ungewöhnliche multivariate Ausreißer subtil sein und mit herkömmlichen Verfahren viel schwieriger zu erkennen sein. Beispielsweise könnte sich ein Patientendatensatz mit nicht ungewöhnlichem Body-Mass-Index, Alter und Depressions-Score als multivariater Ausreißer in einem durch diese Variablen definierten dreidimensionalen Raum herausstellen. Das Problem ist noch auffälliger in hochdimensionalen Räumen, wo viele Variablen es nicht nur schwierig machen, die ungewöhnlichen Datenpunkte zu erkennen, sondern auch eine Erklärung dafür erschweren, warum ein Datenpunkt anomal ist.
  • Vor diesem Hintergrund ist ein technisches Problem, das bestimmten Ausführungsformen der vorliegenden Erfindung zugrunde liegt, verbesserte Techniken zum Erkennen multivariater Ausreißer bereitzustellen, die die Datenanonymisierung gefährden könnten. Ein anderes verwandtes Problem, mit dem sich Ausführungsformen der Erfindung befassen, ist der Mangel an Einsicht und/oder eine Erklärung, warum ein mehrdimensionaler Datenpunkt ein Ausreißer sein könnte.
  • Dieses Problem wird in einer Ausführungsform durch ein computerimplementiertes Verfahren zum Schutz von Daten, insbesondere zur Datenanonymisierung und/oder Datenpseudonymisierung, gelöst. Das Verfahren kann Empfangen eines Eingabedatensatzes umfassen, wobei der Eingabedatensatz eine Vielzahl von Datenpunkten umfassen kann. Zumindest einige der Datenpunkte können Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie beispielsweise einen Patienten, zu identifizieren. Das Verfahren kann das Durchführen einer multivariaten Ausreißer-Erkennung an dem Eingabedatensatz umfassen, die Berechnen von Anomalie-Scores für zumindest einen Teil oder alle der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausreißer-Erkennungsalgorithmus umfasst. Das Verfahren kann auch Anzeigen einer Rangfolge des zumindest einen Teils der Datenpunkte basierend auf den Anomalie-Scores umfassen.
  • Dementsprechend kann das Verfahren beispielsweise auf einen Datensatz angewendet werden, der mehrere Datenpunkte in einem tabellarischen Format umfasst, wobei Zeilen und Spalten jeweils Patienten und ihren Merkmalen (Variablen, wie das Alter, der BMI, Laborwerte usw.) entsprechen. Für jede Zeile (d. h. Patient) und/oder in Bezug auf alle anderen Zeilen kann das Verfahren wie oben beschrieben einen Anomalie-Score berechnen, der als Proxy für die Einzigartigkeit dieser Zeile dient. Darüber hinaus wird durch Sortieren der Zeilen nach ihren berechneten Anomalie-Scores eine Rangfolge erstellt, die darauf hinweist, welche Zeilen am spezifischsten und welche am wenigsten spezifisch sind.
  • Dementsprechend kann hier eine multivariate Ausreißer-Erkennung verwendet werden, um isolierte Datenpunkte in einem Datensatz zu erkennen, die eine Bedrohung für den Datenschutz darstellen könnten, da sie möglicherweise zur (indirekten) Re-Identifizierung einer Person, wie etwa eines Patienten, verwendet werden könnten. Ein Anomalie-Score, wie er hier verwendet wird, kann ein beliebiger Wert sein, z. B. ein numerischer Wert, der einen Grad angibt, inwiefern der jeweilige Datenpunkt von den übrigen Datenpunkten in dem Datensatz abweicht.
  • Der multivariate Ausreißer-Erkennungsalgorithmus kann ein auf maschinellem Lernen basierender Algorithmus sein, wodurch das Verfahren besonders an komplexe Eingabedatensätze anpassbar ist. Zusätzlich oder alternativ kann der multivariate Ausrei-ßer-Erkennungsalgorithmus aus der Gruppe ausgewählt werden, die umfasst: Isolationswald, elliptische Einhüllende, Fast-Minimum-Kovarianzdeterminanten-Schätzer (engl. „fast-minimum covariance determinant estimator“), und/oder lokale Ausrei-ßerfaktoren. Diese Algorithmen sind besonders gut geeignet, um multivariate Ausreißer zu erkennen.
  • In einem Aspekt der Erfindung kann das Verfahren ferner das De-Identifizieren von zumindest einem der Datenpunkte umfassen. Das De-Identifizieren kann eines oder mehreres umfassen von: Entfernen eines Datenpunkts, Runden eines Wertes eines Datenpunkts, Kategorisieren eines Datenpunkts und/oder Transformieren eines Datenpunkts.
  • Die De-Identifizieren kann vollständig oder im Wesentlichen vollständig automatisiert durchgeführt werden. Alternativ kann das Verfahren Empfangen einer Benutzereingabe zum De-Identifizieren von zumindest einem der Datenpunkte umfassen, wobei das De-Identifizieren auf der empfangenen Benutzereingabe basiert (3). Auf diese Weise wird dem Benutzer ein durchdachter Satz von Handlungsmöglichkeiten zur Pseudonymisierung und/oder Anonymisierung der Daten ermöglicht.
  • In einem anderen Aspekt kann das Durchführen der multivariaten Ausreißer-Erkennung Berechnen von Anomalie-Scores für die Vielzahl von Datenpunkten unter Verwendung einer Vielzahl von unterschiedlichen multivariaten Ausreißer-Erkennungsalgorithmen umfassen, vorzugsweise basierend auf einer von dem Benutzer wählbaren Präferenz. Auf diese Weise können die jeweiligen Vorteile jedes multivariaten Ausreißer-Erkennungsalgorithmus zu einer noch durchdachteren Analyse kombiniert werden.
  • Das Anzeigen der Rangfolge kann Anzeigen einer Rangfolge für jeden multivariaten Ausreißer-Erkennungsalgorithmus umfassen. Auf diese Weise kann der Benutzer zwischen unterschiedlichen Algorithmen wechseln, um seine Ergebnisse zu vergleichen.
  • Das Anzeigen der Rangfolge kann auch Anzeigen einer Rangfolge basierend auf der Vereinigung und/oder dem Schnittpunkt der Ergebnisse der multivariaten Ausreißer-Erkennungsalgorithmen umfassen.
  • In einem Szenario kann der Benutzer gewisse Kenntnisse über die Daten haben, z. B. ist sie eine Expertin auf dem Gebiet, wie etwa eine Klinikerin oder eine klinische Forscherin. In diesem Fall kann, wenn:
    • 1a) Daten einer Gaußschen Verteilung folgen, als bevorzugtes Verfahren eine elliptische Einhüllende gewählt werden.
    • 1b) Daten eine geringe bis mäßig hohe Dimensionalität (= Anzahl der Variablen) im Verhältnis zur Anzahl der verfügbaren Datenpunkte haben, dann ein lokaler Ausreißerfaktor gewählt werden, da dieser die besten Ergebnisse liefern kann.
    • 1c) In allen anderen Fällen liefert der Isolationswald möglicherweise die zuverlässigsten Ergebnisse und kann daher gewählt werden. Jedoch können in den Fällen 1b) und 1c) vergleichbare oder sogar bessere Ergebnisse erzielt werden als bei der elliptische Einhüllenden bzw. dem lokalen Ausreißerfaktor (das Theorem „kein kostenloses Mittagessen“ gilt hier ebenso, da alles von dem spezifischen Datensatz abhängig ist) .
  • In einem anderen Szenario hat der Benutzer keine Kenntnis über den Datensatz. In diesem Fall möchte er/sie vielleicht alle drei (und möglicherweise noch andere) Algorithmen anwenden und ihre Ergebnisse vergleichen. Wenn der Benutzer konservativer ist, möchte er/sie vielleicht die Vereinigung der Ergebnisse aller Algorithmen überprüfen, um möglichst viele spezifische Datenpunkte zu „fangen“, die dann entfernt, transformiert usw. werden sollen. Andernfalls kann eine Schnittmenge der Ergebnisse ausgewählt werden, um mehr Vertrauen zu gewinnen, dass die signifikantesten Ausreißer (wie sie von allen Algorithmen erkannt werden) als identifiziert zu behandeln sind. Bei einer kleinen Datenmenge kann dies eine bevorzugte Wahl sein, insbesondere wenn identifizierte Ausreißer entfernt werden müssen.
  • In einem anderen Aspekt kann das Verfahren ferner Ausführen eines erklärbaren KI-Moduls , wie z. B. Shapley Additive Explanations, SHAP, umfassen. Das Verfahren kann Anzeigen eines von dem erklärbaren KI-Modul erzeugten Ergebnisses zusammen mit der Rangfolge umfassen. Auf diese Weise kann der Benutzer besser verstehen, warum einem Datenpunkt ein höherer (oder niedrigerer) Ausreißerwert zugeordnet wurde (z. B., dass die Kombination von Werten für das Alter, den BMI und Depressions-Score ungewöhnlich ist).
  • In noch einem anderen Aspekt der Erfindung kann das Verfahren ferner Durchführen einer univariaten Ausreißer-Erkennung an dem Eingabedatensatz umfassen.
  • Zusätzlich oder alternativ kann das Verfahren ferner Durchführen einer direkten Identifizierer-Erkennung an dem Eingabedatensatz umfassen, vorzugsweise unter Verwendung eines Verarbeitungsalgorithmus für natürliche Sprache. Auf diese Weise können direkt identifizierbare einzelne Datenpunkte, z. B. der Patientenname, zuverlässig erkannt werden. Die Ergebnisse können automatisch gelöscht, anonymisiert, pseudonymisiert, für den Benutzer gekennzeichnet werden, oder ähnliches.
  • Vorzugsweise ist der zu verwendende multivariate Ausreißer-Erkennungsalgorithmus von dem Benutzer wählbar. Vorzugsweise ist der Eingabedatensatz ein mehrdimensionaler oder sogar ein hochdimensionaler Datensatz.
  • Die Erfindung stellt auch ein computerimplementiertes Verfahren zum Schutz von Daten bereit, das eines der oben offenbarten Verfahren ausführen kann und zusätzlich einen Ausgabedatensatz erzeugt. In dem Ausgabedatensatz können diejenigen Datenpunkte, die Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren, anonymisiert werden. Dementsprechend stellt dieser Aspekt sicher, dass der Ausgabedatensatz keine sensiblen Daten umfasst. Der Ausgabedatensatz kann auf einer elektronischen Anzeige angezeigt werden.
  • In einem Aspekt kann der Eingabedatensatz von einer ersten Vorrichtung an einer zweiten Vorrichtung empfangen werden, wobei die multivariate Ausreißer-Erkennung durch die zweite Vorrichtung durchgeführt werden kann und der Ausgabedatensatz von der zweiten Vorrichtung an die erste Vorrichtung gesendet werden kann. Zusätzlich oder alternativ kann der Ausgabedatensatz für die Zusammenstellung einer anonymisierten Datenbank verwendet werden. Eine solche Datenbank kann einem bestimmten Eingabedatensatz zugeordnet sein oder kann Informationen in Bezug auf eine Vielzahl von Eingabedatensätzen konsolidieren. Insofern würden die Eingabedatensätze mit Ausreißern nicht zur Erstellung der anonymisierten Datenbasis übernommen werden.
  • Es wird auch eine Datenverarbeitungsvorrichtung oder ein Datenverarbeitungssystem bereitgestellt, das Mittel zum Ausführen beliebiger der hierin offenbarten Verfahren umfasst.
  • Die Erfindung stellt ein Computerprogramm bereit, das Befehle umfasst, die, wenn das Programm von einem Computer ausgeführt wird, den Computer veranlassen, eines der hierin offenbarten Verfahren auszuführen.
  • Gemäß einem Aspekt wird ein computerimplementiertes Verfahren zum Schutz von Daten bereitgestellt. Das Verfahren umfasst eine Vielzahl von Schritten. Ein Schritt ist auf das Empfangen eines Eingabedatensatzes gerichtet, wobei der Eingabedatensatz eine Vielzahl von Datenpunkten umfasst, von denen zumindest einige Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren. Ein anderer Schritt ist darauf gerichtet, eine multivariate Ausreißer-Erkennung an dem Eingabedatensatz durchzuführen, die Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausreißer-Erkennungsalgorithmus umfasst. Ein anderer Schritt ist darauf gerichtet, basierend auf den berechneten Anomalie-Scores zumindest einen Satz multivariater Ausreißer von Datenpunkten zu identifizieren, die in Kombination verwendet werden können, um eine Person zu identifizieren (oder, kurz gesagt, einen Satz von Datenpunkten, die in Kombination verwendet werden können, um eine Person zu identifizieren).
  • Der Eingabedatensatz kann Patientendaten von einem oder mehreren Patienten umfassen. Insbesondere kann der Eingabedatensatz die elektronische(n) Krankenakte(n) eines oder mehrerer Patienten umfassen. Der Satz/die Sätze multivariater Ausreißer kann/können jeweils Datenpunkte umfassen oder aus Datenpunkten bestehen, die zu einem einzelnen Patienten gehören. Die Datenpunkte eines Satzes multivariater Ausreißer können so beschaffen sein, dass sie für sich genommen keine Ausrei-ßer darstellen. Die Datenpunkte eines Satzes multivariater Ausreißer können möglicherweise nur zusammen ein Datenschutzrisiko darstellen, da sie zur Identifizierung einer einzelnen Person oder eines Patienten genommen werden können.
  • Der Eingabedatensatz kann anonymisiert werden. Dies kann bedeuten, dass alle persönlichen Informationen, die zur direkten Identifizierung einer Person oder eines Patienten nützlich sind, entfernt wurden. Solche persönlichen Informationen können sich auf den Namen des Patienten, den Namen des behandelnden Arztes, die behandelnde Organisation, usw. beziehen.
  • Mit dem Satz von multivariaten Ausreißern werden automatisch Datenpunkte identifiziert, die zusammengenommen so bemerkenswert sind, dass sie zur Identifizierung von Individuen (Personen oder Patienten) führen können. Durch ein automatisches Identifizieren solcher Datenpunkte kann die Datensicherheit verbessert werden, insbesondere wenn der Eingabedatensatz von unterschiedlichen Gesundheitsorganisationen gemeinsam genutzt werden soll.
  • Gemäß einem Aspekt umfasst das Verfahren ferner automatisches De-Identifizieren des zumindest einen Satzes von multivariaten Ausreißern in dem Eingabedatensatz, um einen verarbeiteten Datensatz zu erzeugen, und Bereitstellen des verarbeiteten Datensatzes.
  • Mit anderen Worten, es wird eine automatische Verarbeitung zur Verbesserung des Datenschutzes bei Gesundheitsdatensätzen bereitgestellt. Der verarbeitete Datensatz kann als anonymisierter Datensatz aufgefasst werden. In einem solchen anonymisierten Datensatz wurden neben der gewöhnlichen Anonymisierung zusätzliche Datenschutzmaßnahmen angewendet.
  • Gemäß einem Aspekt umfasst der Schritt des De-Identifizierens einen oder mehrere der folgenden Schritte: Entfernen eines Datenpunkts, Runden eines Wertes eines Datenpunkts, Ersetzen eines Datenpunkts, Kategorisieren eines Datenpunkts und/oder Transformieren eines Datenpunkts.
  • Mit den oben genannten Maßnahmen kann sichergestellt werden, dass Datenpunkte, die zu einer Identifizierung von Personen führen könnten, gelöscht oder maskiert werden, ohne die allgemeine Nutzbarkeit des Datensatzes zu beeinträchtigen.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Anzeigen des Eingabedatensatzes auf einer Benutzerschnittstelle, wobei der Satz von multivariaten Ausreißern hervorgehoben wird.
  • Mit dem Anzeigeschritt kann ein Benutzer auf Datenpunkte hingewiesen werden, die in Kombination ein Datenschutzrisiko darstellen könnten. Dies versetzt den Benutzer in die Lage, geeignete Maßnahmen ergreifen zu können, wie etwa Löschen oder Ändern des Satzes von multivariaten Ausreißern.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Empfangen einer Benutzereingabe von dem Benutzer über die Benutzerschnittstelle, wobei die Benutzereingabe auf den Satz multivariater Ausreißer gerichtet ist, Verarbeiten des Eingabedatensatzes gemäß der Benutzereingabe, um einen verarbeiteten Datensatz zu erzeugen. und Bereitstellen des verarbeiteten Datensatzes.
  • Mit anderen Worten, das Verfahren stellt die Möglichkeit bereit, den Eingabedatensatz in einer kontinuierlichen Mensch-Maschine-Interaktion zu de-identifizieren. Beispielsweise kann ein Benutzer anhand der Benutzereingabe überprüfen, ob ein Satz von multivariaten Ausreißern ein Datenschutzrisiko darstellt, und, falls ja, entscheiden, wie mit den Ausreißern umgegangen werden soll zur Bereitstellung des anonymisierten verarbeiteten Datensatzes.
  • Gemäß einem Aspekt wird in dem Schritt des Identifizierens ein Satz von Datenpunkten als der Satz von multivariaten Ausreißern von Datenpunkten identifiziert, wenn der Anomalie-Score des Satzes von Datenpunkten einen vorbestimmten Schwellenwert überschreitet.
  • Der vorbestimmte Schwellenwert kann vor der Verarbeitung eingestellt werden. Insbesondere kann der vorbestimmte Schwellenwert ein maschinell erlernter Wert sein, der sich als nützlich erwiesen hat, um zwischen Sätzen von Datenpunkten, die ein Datenschutzrisiko darstellen, und Sätzen von Datenpunkten, die dies nicht darstellen, zu unterscheiden. Zusätzlich oder alternativ kann der vorbestimmte Schwellenwert von einem Benutzer eingestellt oder modifiziert werden, um die Empfindlichkeit der Erkennung von Sätzen von multivariaten Ausreißern abzustimmen. In jedem Fall ist mit dem Schwellwert ein objektives Kriterium zur Identifizierung von Mengen multivariater Ausreißer gegeben.
  • Gemäß einem Aspekt wird in dem Schritt des Identifizierens eine Vielzahl von Sätzen von multivariaten Ausreißern von Datenpunkten identifiziert, und das Verfahren umfasst ferner Anzeigen einer Rangfolge der Vielzahl von Sätzen basierend auf den jeweiligen Anomalie-Scores auf einer Benutzerschnittstelle für einen Benutzer.
  • Dementsprechend erhält ein Benutzer einen Hinweis darauf, welche Elemente des Eingabedatensatzes im Hinblick auf eine mögliche Datenschutzverletzung am relevantesten sind.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Durchführen einer univariaten Ausreißer-Erkennung an dem Eingabedatensatz, die Berechnen einzelner Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines univariaten Ausreißer-Erkennungsalgorithmus umfasst. Ein anderer Schritt ist darauf gerichtet, basierend auf den berechneten einzelnen Anomalie-Scores einen oder mehrere einzelne Datenpunkte zu identifizieren, die für sich alleine genommen zum Identifizieren einer Person verwendet werden können.
  • Damit können auch einzelne Werte, die außerhalb der Norm liegen und allein schon deshalb zu einer Identifizierung einer Person oder eines Patienten führen können, erkannt werden. Gemäß einigen Beispielen kann der Schritt des Identifizierens des einen oder der mehreren individuellen Datenpunkte den Schritten zum Identifizieren der Sätze von multivariaten Ausreißern vorausgehen.
  • Zum Berechnen der einzelnen Anomalie-Scores und zum Identifizieren des einen oder der mehreren Datenpunkte können im Prinzip die gleichen Algorithmen verwendet werden, die auch zum Identifizieren der Sätze von multivariaten Ausreißern verwendet werden. Jedoch kann gemäß einigen Beispielen das Erkennen von Univariaten einfach ein Berechnen eines Durchschnitts für einen gegebenen Parameter, wie etwa das Alter eines Patienten, beinhalten. Ein einzelner Anomalie-Score könnte dann auf einer Abweichung einzelner Datenpunkte vom Durchschnitt basieren.
  • Gemäß einem Aspekt sind der multivariate Ausreißer-Erkennungsalgorithmus und/oder der univariate Ausreißer-Erkennungsalgorithmus auf maschinellem Lernen basierende Algorithmen.
  • Gemäß einem Aspekt werden der multivariate Ausreißer-Erkennungsalgorithmus und/oder der univariate Ausreißer-Erkennungsalgorithmus aus der Gruppe ausgewählt, die umfasst: Isolationswald, elliptische Einhüllende, Fast-Minimum-Kovarianzdeterminanten-Schätzer, und/oder lokale Ausreißerfaktoren.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Empfangen einer Benutzereingabe, die auf zumindest einen der Datenpunkte in dem Satz multivariater Ausreißer gerichtet ist, wobei die Benutzereingabe optional darauf gerichtet ist, den zumindest einen der Datenpunkte zu de-identifizieren, und Verwenden der empfangenen Benutzereingaben zum Trainieren des multivariaten Ausreißer-Erkennungsalgorithmus.
  • Damit kann ein weiteres Training des multivariaten Ausreißer-Erkennungsalgorithmus erfolgen, was die Verarbeitung weiter verbessern kann.
  • Gemäß einem Aspekt umfasst das Durchführen der multivariaten Ausreißer-Erkennung Berechnen von partiellen Anomalie-Scores für die Vielzahl von Datenpunkten unter Verwendung einer Vielzahl von unterschiedlichen multivariaten Ausreißer-Erkennungsalgorithmen, vorzugsweise basierend auf einer von dem Benutzer wählbaren Präferenz, und umfasst das Berechnen von Anomalie-Scores Aggregieren der partiellen Anomalie-Scores, um die Anomalie-Scores zu erzeugen.
  • Beispielsweise kann das Aggregieren auf einer Berechnung von durchschnittlichen Anomalie-Scores basierend auf den partiellen Anomalie-Scores basieren. Gemäß anderen Beispielen können Anomalie-Scores basierend auf einer gewichteten Summe der partiellen Anomalie-Scores berechnet werden.
  • Indem die Berechnung von Anomalie-Scores auf unterschiedlichen Erkennungsalgorithmen basiert, kann das Ergebnis verbessert werden, da systematische Mängel einzelner Algorithmen für einzelne Parameter ausgeglichen werden können.
  • Gemäß einem Aspekt können die Vielzahl von verwendeten unterschiedlichen multivariaten Ausreißer-Erkennungsalgorithmen von einem Benutzer ausgewählt werden. Damit kann ein Benutzer individuell konfigurieren, welche Algorithmen verwendet werden sollen.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Ausführen eines erklärbaren KI-Moduls, wie etwa Shapley Additive Explanations, SHAP; und optional Anzeigen eines von dem erklärbaren KI-Modul erzeugten Ergebnisses.
  • Gemäß einem Aspekt umfasst das Verfahren ferner Durchführen einer univariaten Ausreißer-Erkennung an dem Eingabedatensatz. Gemäß einem Aspekt umfasst das Verfahren ferner Durchführen einer direkten Identifizierer-Erkennung an dem Eingabedatensatz, vorzugsweise unter Verwendung eines Verarbeitungsalgorithmus für natürliche Sprache.
  • Gemäß einem Aspekt umfasst der Eingabedatensatz zumindest eine elektronische Gesundheitsakte eines Patienten und, optional, eine Vielzahl von Gesundheitsakten einer Vielzahl von Patienten.
  • Gemäß einem Aspekt wird ein computerimplementiertes Verfahren zum Bereitstellen eines Ausgabedatensatzes bereitgestellt. Das Verfahren umfasst Erzeugen eines Ausgabedatensatzes, wobei in dem Ausgabedatensatz diejenigen Datenpunkte, die Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie beispielsweise einen Patienten, zu identifizieren, basierend auf den Anomalie-Scores und/oder der einzelnen Anomalie-Scores identifiziert werden
  • Gemäß einem Aspekt wird der Eingabedatensatz von einer ersten Vorrichtung an einer zweiten Vorrichtung, die sich entfernt von der ersten Vorrichtung befindet, empfangen, wobei die multivariate Ausreißer-Erkennung und, optional, die univariate Ausreißer-Erkennung durch die zweite Vorrichtung durchgeführt wird, und der Ausgabedatensatz wird von der zweiten Vorrichtung an die erste Vorrichtung gesendet.
  • Gemäß anderen Beispielen wird die multivariate Ausreißer-Erkennung und, optional, die univariate Ausreißer-Erkennung von der ersten Vorrichtung durchgeführt, bevor der Ausgabedatensatz an die zweite Vorrichtung gesendet wird.
  • Gemäß einigen Beispielen sind die erste und die zweite Vorrichtung über ein Netzwerk, wie etwa ein Intranet oder das Internet, verbunden.
  • Gemäß einigen Beispielen kann die erste Vorrichtung eine Client-Rechenvorrichtung sein, wie etwa eine Workstation oder ein Laptop oder ein Tablet oder ein Smartphone eines Benutzers, und die zweite Vorrichtung kann eine Server-Vorrichtung sein, wie etwa ein Cloud-Server. Die erste Vorrichtung kann sich in einer ersten Computerumgebung befinden, wie etwa einem Intranet einer Gesundheitsorganisation. Die zweite Vorrichtung kann sich außerhalb der ersten Computerumgebung befinden.
  • Gemäß einem Aspekt wird eine Datenverarbeitungsvorrichtung zum Bereitstellen eines Ausgabedatensatzes bereitgestellt, die eine Schnittstelleneinheit und eine Recheneinheit umfasst. Die Schnittstelleneinheit ist zum Empfangen eines Eingabedatensatzes ausgelegt, wobei der Eingabedatensatz eine Vielzahl von Datenpunkten umfasst, von denen zumindest einige Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren. Die Recheneinheit ist dazu ausgelegt, eine multivariate Ausreißer-Erkennung an dem Eingabedatensatz durchzuführen, die Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausreißer-Erkennungsalgorithmus umfasst. Die Recheneinheit ist ferner dazu ausgelegt, basierend auf den berechneten Anomalie-Scores zumindest einen Satz multivariater Ausreißer von Datenpunkten zu identifizieren, die in Kombination verwendet werden können, um eine Person zu identifizieren. Die Recheneinheit ist ferner dazu ausgelegt, den zumindest einen Satz von multivariaten Ausreißern in dem Eingabedatensatz automatisch zu de-identifizieren, um einen verarbeiteten Datensatz zu erzeugen. Die Recheneinheit ist ferner dazu ausgelegt, den verarbeiteten Datensatz über die Schnittstelle bereitzustellen.
  • Die Recheneinheit kann eine Ausreißer-Erkennungseinheit umfassen, die dazu ausgelegt ist, den Ausreißer-Erkennungsalgorithmus zu hosten, auszuführen und/oder anzuwenden. Die Recheneinheit kann eine Identifikationseinheit umfassen, die dazu ausgelegt ist, Sätze von multivariaten Ausreißern von Datenpunkten zu identifizieren. Die Recheneinheit kann ferner eine De-Identifizierungseinheit zum De-Identifizieren von Sätzen multivariater Ausreißer in Eingabedatensätzen umfassen.
  • Die Recheneinheit kann als Datenverarbeitungssystem oder als Teil eines Datenverarbeitungssystems realisiert sein. Ein solches Datenverarbeitungssystem kann beispielsweise ein Cloud-Computing-System, ein Computernetzwerk, einen Computer, einen Tablet-Computer, ein Smartphone und/oder dergleichen umfassen. Die Recheneinheit kann Hardware und/oder Software umfassen. Die Hardware kann beispielsweise einen oder mehrere Prozessoren, einen oder mehrere Speicher, und Kombinationen davon umfassen. Der eine oder die mehreren Speicher können Anweisungen zum Ausführen der erfindungsgemäßen Verfahrensschritte speichern. Die Hardware kann durch die Software konfigurierbar und/oder durch die Software betreibbar sein. Generell können alle Einheiten, Untereinheiten oder Module zumindest zeitweilig im Datenaustausch miteinander stehen, z. B. über eine Netzwerkverbindung oder entsprechende Schnittstellen. Folglich können einzelne Einheiten voneinander entfernt angeordnet sein.
  • Die Schnittstelleneinheit kann eine Schnittstelle zum Datenaustausch über eine Internetverbindung umfassen. Die Schnittstelleneinheit kann ferner dazu angepasst sein, für einen oder mehrere Benutzer des Systems eine Schnittstelle bereitzustellen, z. B. durch Anzeigen des Ergebnisses der Verarbeitung durch die Recheneinheit für den Benutzer (z. B. auf einer grafischen Benutzeroberfläche) oder indem dem Benutzer ermöglicht wird, Parameter zur Anonymisierung von Eingabedatensätzen anzupassen.
  • Gemäß einem anderen Aspekt ist die vorliegende Erfindung auf ein Computerprogrammprodukt gerichtet, das Programmelemente umfasst, die eine Recheneinheit eines Systems veranlassen, einen Satz von multivariaten Ausreißern von Datenpunkten in einem Eingabedatensatz zu identifizieren, um die Schritte gemäß einem oder mehreren der obigen Verfahrensaspekte auszuführen, wenn die Programmelemente in einen Speicher der Recheneinheit geladen werden.
  • Gemäß einem anderen Aspekt richtet sich die vorliegende Erfindung auf ein computerlesbares Medium, auf dem Programmelemente gespeichert sind, die von einer Recheneinheit eines Systems gelesen und ausgeführt werden können, das einen Satz multivariater Ausreißer von Datenpunkten in einem Eingabedatensatz gemäß einem oder mehrerer Verfahrensaspekte identifiziert, wenn die Programmelemente von der Recheneinheit ausgeführt werden.
  • Die Realisierung der Erfindung durch ein Computerprogrammprodukt und/oder ein computerlesbares Medium hat den Vorteil, dass bereits bestehende Bereitstellungssysteme einfach durch Softwareaktualisierungen angepasst werden können, um so zu arbeiten, wie von der Erfindung vorgeschlagen wird.
  • Das Computerprogrammprodukt kann beispielsweise ein Computerprogramm sein, oder, neben dem Computerprogramm als solchem, ein weiteres Element umfassen. Dieses andere Element kann Hardware sein, z. B. eine Speichervorrichtung, auf der das Computerprogramm gespeichert ist, ein Hardware-Schlüssel zum Verwenden des Computerprogramms und dergleichen, und/oder Software, z. B. eine Dokumentation oder ein Software-Schlüssel zum Verwenden des Computerprogramms. Das Computerprogrammprodukt kann ferner Entwicklungsmaterial, ein Laufzeitsystem und/oder Datenbanken oder Bibliotheken umfassen. Das Computerprogrammprodukt kann auf mehrere Computerinstanzen verteilt sein.
  • Die Offenbarung kann unter Bezugnahme auf die folgenden Zeichnungen besser verstanden werden
    • 1 stellt schematisch einen konzeptionellen Überblick über ein Datenanonymisierungs- und - pseudonymisierungswerkzeug gemäß Ausführungsformen dar,
    • 2 stellt schematisch eine Ausführungsform eines Systems zum Identifizieren eines Satzes von multivariaten Ausreißern in einem Eingabedatensatz dar, und
    • 3 stellt schematisch ein Verfahren zum Identifizieren eines Satzes von multivariaten Ausreißern in einem Eingabedatensatz dar, gemäß einer Ausführungsform.
  • Die oben erwähnten Eigenschaften, Merkmale und Vorteile dieser Erfindung, und die Art und Weise, sie zu erreichen, werden mit der folgenden Beschreibung von Ausführungsformen der Erfindung in Verbindung mit den entsprechenden Zeichnungen deutlicher und verständlicher (klarer). Ausführungsformen der Erfindung stellen verbesserte multivariate Ausreißer-Erkennungstechniken für den Datenschutz bereit. In der gesamten vorliegenden Offenlegung kann der Begriff „Datenanonymisierung“ verwendet werden, der weit zu interpretieren ist, z. B. im Sinne des Entfernens personenbezogener Daten aus Datensätzen, so dass die Personen, welche durch die Daten beschrieben werden, anonym bleiben, aber sollten auch andere, möglicherweise schwächere Anonymisierungsverfahren, wie beispielsweise die Pseudonymisierung, abdecken.
  • Bestimmte Ausführungsformen der Erfindung basieren auf maschinellen Lernalgorithmen zur Erkennung von multivariaten Ausreißern in multivariaten Datensätzen, die eine Bedrohung für den Datenschutz darstellen könnten, da sie möglicherweise zur indirekten Re-Identifizierung von Patienten verwendet werden könnten. Unter „multivariat“ wird verstanden, dass mehr als eine Dimension betroffen ist. Dies kann sich z.B. auf Variablen, z.B. auf „Spalten“ in Datentabellen, beziehen. Datenpunkte können sich auf „Zeilen“ beziehen, z. B. Patienten oder deren Nachuntersuchungen.
  • Algorithmen, die zum Erkennen von multivariaten Ausreißern in Ausführungsformen der Erfindung geeignet sind, umfassen, ohne Einschränkung, einen Isolationswald, den Fast-Minimum-Kovarianzdeterminanten-Schätzer (elliptische Einhüllende) und/oder lokale Ausreißerfaktoren. Ein anderes Beispiel wird in „Estimating the support of a high-dimensional distribution“ von Schölkopf, Bernhard, et al. beschrieben. (Neuronale Berechnung 13.7 (2001): 1443-1471). Im Allgemeinen berechnen diese Algorithmen einen Anomalie-Score für jeden Datenpunkt basierend auf seiner Abweichung von anderen Punkten (die verwendete Abstandsmetrik ist algorithmenspezifisch, z. B. kann sie eine Kosinus-, euklidische, Manhattan-, Mahalanobis-Metrik usw. sein).
  • 1 veranschaulicht einen konzeptionellen Überblick über ein Werkzeug/System zur Datenanonymisierung und - pseudonymisierung gemäß einer Ausführungsform der Erfindung. Das System kann Teil eines größeren Computersystems sein, das einen Speicher, eine Verarbeitungseinheit und eine Visualisierungseinheit (z. B. zum Anzeigen von SHAP-AI-Erklärungen, geordneten Datenpunkten usw.) umfassen kann. Wie zu sehen ist, wird ein Softwarewerkzeug 2 (in 1 als „(Pseudo-)Anonymisierungswerkzeug“ bezeichnet) bereitgestellt, das (funktionelle) Module zum Ausführen verschiedener Aufgaben im Zusammenhang mit dem Schutz der Privatsphäre umfasst. Es sei darauf hingewiesen, dass 1 ein durchdachtes Werkzeug darstellt, das eine Anzahl von Modulen kombiniert. Es sind jedoch Ausführungsformen der Erfindung denkbar, die nur eines oder eine Teilmenge der dargestellten Module enthalten.
  • Wie in 1 zu sehen ist, empfängt das Werkzeug 2 Eingabedaten 1, d. h. zu anonymisierende Daten, als Eingabe.
  • Der Block 22 stellt ein Modul dar, das dazu dient, multivariate Ausreißer in den Eingabedaten 1 zu erkennen. Zu diesem Zweck kann das Modul einen oder mehrere der oben erwähnten multivariaten Ausreißer-Erkennungsalgorithmen implementieren. Wie bereits erwähnt, können diese Algorithmen einen Anomalie-Score für jeden Datenpunkt basierend auf seiner Abweichung von anderen Datenpunkten berechnen.
  • Basierend auf berechneten Anomalie-Scores kann eine Rangfolge von Datenpunkten erstellt werden, die zeigt, welche Datenpunkte empfindlicher (d. h. spezifischer, ungewöhnlicher) sind als andere. Mit anderen Worten, das Modul 22 kann zu schützende Daten als Eingabe 1 empfangen und eine Rangfolge von Datenpunkten in Bezug auf ihren multivariaten Ausreißer-Score als Ausgabe bereitstellen. In einer Implementierung der Rangfolge können basierend auf dem Wert des Anomalie-Scores Datenpunkte aus dem Datensatz (z. B. „Zeilen“) vom niedrigsten zum höchsten sortiert werden. Der Datenpunkt mit dem niedrigsten Score-Wert kann den Rang 1 als prominentester Ausreißer erhalten, der nächste den Rang 2 usw. In anderen Implementierungen kann es Algorithmus-Implementierungen geben, bei denen Ausreißer höhere Anomalie-Scores erhalten. In der scikit-learn Python-Bibliothek ist beispielsweise je niedriger die Punktzahl ist der Datenpunkt umso anormaler.
  • Der Benutzer 3 kann sie dann entfernen, oder andere Maßnahmen anwenden, wie beispielsweise Rundung, Kategorisierung, Variablentransformation durch Anwendung von Logarithmen, Quadratwurzeln, und anderen varianzstabilisierenden Transformationen, Winsorisierung, Trimmen usw., um sie in den finalen Ausgabedaten 4 weniger spezifisch zu machen. Ein Beispiel wäre das Runden einer reellen Zahl, wie etwa dem BMI, auf eine Dezimalstelle oder einen ganzzahligen Wert. In einem anderen Beispiel könnte eine numerische Variable, wie etwa das Alter, in Kategorien [0, 10), [11, 20), [21, 30) usw. kategorisiert werden.
  • Optional kann der Benutzer einen Parameter festlegen, der den erwarteten Anteil ungewöhnlicher Datenpunkte im gegebenen Datensatz steuert (z. B. 1 % oder 5 %), und die entsprechende Anzahl von Datenpunkten mit der höchsten Ausreißer-Rangfolge im Werkzeug 2 hervorgehoben bekommen.
  • Der Benutzer kann auswählen, dass die multivariaten Ausreißer wie folgt angezeigt werden:
    • - einer, mehrere, oder alle Einzelalgorithmen
    • - die Vereinigung von Ergebnissen mehrerer Algorithmen; und/oder
    • - die Schnittmenge der Ergebnisse mehrerer Algorithmen
  • Zusätzlich zu multivariaten Ausreißer-Erkennungsalgorithmen kann das Softwarewerkzeug 2 auch ein erklärbares KI-Modul 23 beinhalten, z. B. basierend auf einem Framework, wie z. B. Shapley Additive Explanations (SHAP). Dies ermöglicht eine automatisierte Folgerung und hilft dem Benutzer, zu verstehen, warum ein Datenpunkt mit einem höheren (oder niedrigeren) Ausreißer-Score verbunden war (z. B., dass die Kombination von Werten für Alter, BMI und Depressions-Score ungewöhnlich ist) .
  • Das Softwarewerkzeug 2 kann auch ein Modul 21 mit Techniken zur Erkennung von univariaten Ausreißern in einzelnen Variablen, wie z. B. Interquartilsbereiche, und/oder Visualisierungen, wie z. B. Boxplots und/oder Histogramme, beinhalten. Das Modul 21 kann unabhängig oder in Kombination mit dem Modul 22 zur multivariaten Ausreißer-Erkennung verwendet werden.
  • Darüber hinaus kann das Werkzeug 2 auch ein Modul 20 zum Erkennen direkter Identifizierer, wie etwa, ohne darauf beschränkt zu sein, Patientenname, Geburtsdatum (und/oder andere absolute Daten), Postleitzahl, Adresse, Sozialversicherungsnummer, Telefonnummer usw.
  • Ein NLP-basiertes (Verarbeitung natürlicher Sprache) Programm kann solche Variablen in dem gegebenen Datensatz automatisch finden und markieren, indem es das Format ihrer Werte anhand einer vordefinierten umfangreichen Liste möglicher Formate für diese Variablen prüft.
  • Der Benutzer kann die markierten Variablen einsehen, die Auswahl überprüfen / ändern und/oder eine Aktion durchführen, wie beispielsweise die Variablen aus dem Datensatz entfernen, wodurch ein pseudonymisierter Datensatz entsteht.
  • Anders als im Stand der Technik, bezieht sich der Anomalie-Score in Ausführungsformen der Erfindung vorzugsweise auf numerische Werte und nicht auf (die Zählungen von) Begriffen. Außerdem sind aus dem Stand der Technik bekannte Seltenheits-Scores typischerweise einzelnen Attributen (d. h. Variablen oder Begriffen) zugeordnet, während Anomalie-Scores gemäß bestimmten Ausführungsformen der Erfindung Datenpunkten (d. h. Instanzen oder Beobachtungen) zugeordnet sind.
  • Darüber hinaus basiert die Berechnung von Seltenheits-Scores im Stand der Technik typischerweise auf einem (überwachten) linearen Regressionsmodell, während die Anomalie-Scores von Ausführungsformen der Erfindung durch (unüberwachte) multivariate Ausreißer-Erkennungsalgorithmen berechnet werden.
  • Außerdem erkennen einige Ansätze des Standes der Technik Ausreißer und extrahieren Wissen aus verteilten Datenbanken, ohne private Informationen zu gefährden. Bei diesen Ansätzen werden Ausreißer-Erkennungsalgorithmen typischerweise auf bereits geschützte Daten (z. B. kryptografisch oder durch Anwenden einer privaten Zufallsstörungsmatrix, d. h. durch Hinzufügen eines
    Zufallswerts angewendet. Im Gegensatz dazu besteht der Zweck von Ausreißer-Erkennungsalgorithmen in Ausführungsformen der Erfindung darin, Datenschutz zu erreichen.
  • 2 zeigt eine Datenverarbeitungsvorrichtung DPA zum Bereitstellen eines anonymisierten oder verarbeiteten Datensatzes PDS basierend auf einem Eingabedatensatz 1. In diesem Zusammenhang ist die Datenverarbeitungsvorrichtung DPA dazu angepasst, die Verfahren gemäß einer oder mehreren Ausführungsformen durchzuführen, z. B. so, wie es weiter unter Bezugnahme auf 3 beschrieben wird.
  • Die Datenverarbeitungsvorrichtung DPA umfasst eine Schnittstelleneinheit INT und eine Recheneinheit CU. Insbesondere kann die Recheneinheit CU das Softwarewerkzeug 2 hosten und ausführen.
  • Die Schnittstelleneinheit INT kann für den Datenaustausch mit anderen Entitäten oder Vorrichtungen ausgelegt sein. Beispielsweise kann die Schnittstelleneinheit INT dazu ausgelegt sein, den Eingabedatensatz 1 von einer Vorrichtung FD zu empfangen und den verarbeiteten Datensatz PDS an eine zweite Vorrichtung SD weiterzuleiten. Die Schnittstelleneinheit INT kann als Hardware- oder Software-Schnittstelle realisiert werden, z. B. als PCI-Bus, USB oder FireWire. Die Datenübertragung kann unter Verwendung einer Netzwerkverbindung realisiert werden. Das Netzwerk kann als lokales Netzwerk (LAN), z. B. ein Intranet oder ein Weitverkehrsnetzwerk (WAN), realisiert werden. Die Netzwerkverbindung ist vorzugsweise drahtlos, z. B. ein drahtloses LAN (WLAN oder Wi-Fi). Ferner kann das Netzwerk eine Kombination unterschiedlicher Netzwerkbeispiele umfassen.
  • Gemäß einigen Beispielen kann die Schnittstelleneinheit INT eine Benutzerschnittstelle UI umfassen oder mit dieser verbunden sein, um mit einem Benutzer der Datenverarbeitungsvorrichtung DPA eine Schnittstelle zu bilden. Ein Benutzer der Datenverarbeitungsvorrichtung DPA kann sich, gemäß einigen Beispielen, im Allgemeinen auf eine medizinische Fachkraft, wie etwa einen Arzt, einen Kliniker, einen Techniker usw., beziehen. Die Benutzerschnittstelle UI kann eine Anzeigeeinheit und eine Eingabeeinheit umfassen, über die verschiedene Benutzereingaben INPT empfangen werden können. Die Benutzerschnittstelle UI kann durch eine mobile Vorrichtung, wie etwa ein Smartphone oder einen Tablet-Computer, verkörpert sein. Ferner kann die Benutzerschnittstelle UI als Workstation in Form eines Desktop-PCs oder Laptops ausgeführt sein. Die Eingabeeinheit kann in die Anzeigeeinheit integriert sein, z. B. in Form eines Touchscreens. Alternativ oder zusätzlich dazu kann die Eingabeeinheit eine Tastatur, eine Maus oder einen digitalen Stift und jede Kombination davon umfassen. Die Anzeigeeinheit kann dazu ausgelegt sein, den Eingabedatensatz 1 optional mit beliebigen hervorgehobenen Sätzen von multivariaten Ausreißern und/oder einer Rangfolge der multivariaten Ausreißer anzuzeigen.
  • Die Recheneinheit CU kann Untereinheiten 20-24 umfassen, die dazu ausgelegt sind, den Eingabedatensatz 1 zu verarbeiten, um einen de-identifizierten Ausgabedatensatz PDS basierend auf einem hierarchischen De-Identifizierungsprozess bereitzustellen.
  • Die Recheneinheit CU kann ein Prozessor sein. Der Prozessor kann ein allgemeiner Prozessor, eine zentrale Verarbeitungseinheit, ein Steuerprozessor, eine Grafikverarbeitungseinheit, ein digitaler Signalprozessor, ein Prozessor zum dreidimensionalen Rendering, ein Bildprozessor, eine anwendungsspezifische integrierte Schaltung, ein feldprogrammierbares Gate-Array, eine digitale Schaltung, eine analoge Schaltung oder Kombinationen davon, oder eine andere derzeit bekannte Vorrichtung zum Verarbeiten von Daten sein. Der Prozessor kann eine einzelne Vorrichtung oder mehrere Vorrichtungen sein, die seriell, parallel oder separat arbeiten. Der Prozessor kann ein Hauptprozessor eines Computers, wie etwa eines Laptops oder Desktop-Computers, sein, oder kann ein Prozessor zum Bewältigen einiger Aufgaben in einem größeren System, wie etwa in einem medizinischen Informationssystem oder Server, sein. Der Prozessor ist durch Anweisungen, Design, Hardware und/oder Software dazu ausgelegt, die hier erläuterten Schritte auszuführen. Die Recheneinheit CU kann in der Schnittstelleneinheit INT enthalten sein, z. B. in Form eines Prozessors eines Tablets, Laptops oder Workstation-Rechners. Alternativ kann die Recheneinheit CU eine reale oder virtuelle Gruppe von Computern, wie ein sogenannter ‘Cluster' oder eine ‘cloud', umfassen. Ein solches Serversystem kann ein zentraler Server sein, z. B. ein Cloud-Server, oder ein lokaler Server, der sich z. B. auf dem Gelände eines Krankenhauses befindet. Ferner kann die Recheneinheit CU einen Speicher, wie etwa einen RAM, zum vorübergehenden Laden des Eingabedatensatzes 1 umfassen. Gemäß einigen Beispielen kann ein solcher Speicher auch in der Schnittstelleneinheit INT enthalten sein.
  • Die Untereinheit 20 kann als Anonymisierungsmodul oder - einheit angesehen werden. Sie ist dazu ausgelegt, direkte Identifizierer von Patienten im Eingabedatensatz 1 erkennen, wie etwa Patientennamen, Geburtsdaten (und/oder andere absolute Daten), Postleitzahlen, Adressen, Sozialversicherungsnummern, Telefonnummern usw. Die Einheit 20 kann dazu ausgelegt sein, einen geeigneten Algorithmus oder ein geeignetes Programm auszuführen, das dazu ausgelegt ist, den Eingabedatensatz 1 nach direkten Identifizierern zu parsen. Wie erwähnt, kann ein solches Programm NLP-basiert sein.
  • Die Untereinheit 21 kann als univariates Ausreißer-Erkennungsmodul oder -einheit angesehen werden. Sie ist dazu ausgelegt, isolierte Datenpunkte im Eingabedatensatz 1 zu erkennen, die geeignet sind, einen Patienten indirekt zu identifizieren. Dabei kann es sich um isolierte Werte handeln, die derart beschaffen sind, dass sie eine Person im Eingabedatensatz 1 identifizieren, wie etwa einzelne herausragende Vitalparameter oder demographische Informationen eines Patienten. Um diese Aufgabe zu erfüllen, kann die Untereinheit 21 dazu ausgelegt sein, einen geeigneten Erkennungsalgorithmus zu hosten und auszuführen, der, wie erwähnt, ein maschinell erlernter Algorithmus sein kann. Somit kann die Untereinheit 21 als zweite Stufe in der Anonymisierung des Eingabedatensatzes 1 konzipiert werden.
  • Die Untereinheit 22 kann als multivariates Ausreißer-Erkennungsmodul oder -einheit angesehen werden. Sie ist dazu ausgelegt, Sätze einer Vielzahl von Datenpunkten in dem Eingabedatensatz 1 zu erkennen, die geeignet sind, einen Patienten indirekt zu identifizieren, wenn sie zusammengenommen werden. Hierbei kann es sich um Parameterkombinationen handeln, die geeignet sind, einzelne Patienten in der Kohorte der Patienten, die durch den Eingabedatensatz 1 repräsentiert werden, zu lokalisieren. Wie erläutert wurde, kann die Untereinheit 22 dazu ausgelegt sein, den multivariaten Ausrei-ßer-Erkennungsalgorithmus gemäß den hierin beschriebenen Ausführungsformen zu hosten und auszuführen. Die Untereinheit 22 kann als dritte Stufe in der automatisierten Anonymisierung des Eingabedatensatzes 1 nach der anfänglichen Anonymisierung und univariaten Ausreißer-Erkennung konzipiert werden.
  • Die Untereinheit 23 kann als erklärbare(s) KI-Modul oder - Einheit konzipiert werden. Die Untereinheit 23 kann dazu ausgelegt sein, Algorithmen und Werkzeuge zu hosten und auszuführen, die dazu ausgelegt sind, dem Benutzer die Grundlage für die Entscheidungsfindung der beteiligten Algorithmen im De-Identifizierungsprozess erläutern.
  • Die Untereinheit 24 kann als Anonymisierungsmodul oder - einheit angesehen werden. Die Untereinheit 24 kann dazu ausgelegt sein, den Eingabedatensatz 1 basierend auf den Erkenntnissen, die von einer der Untereinheiten 20 bis 22 gefunden wurden, zu de-identifizieren. Insbesondere kann die Untereinheit 24 dazu ausgelegt sein, alle direkten Identifizierer und indirekten Identifizierer, wie univariate und/oder multivariate Ausreißer, zu löschen, streichen, ersetzen, maskieren, usw. Damit ist die Untereinheit 24 dazu ausgelegt, einen verarbeiteten Datensatz PDS bereitzustellen, der anonymisiert wurde.
  • Die Bezeichnung der einzelnen Untereinheiten 20-24 ist als Beispiel, und nicht einschränkend, zu verstehen. Die Untereinheiten 20-24 können mit den in Verbindung mit dem Softwarewerkzeug 2 eingeführten Modulen identisch sein. Die Untereinheiten 20-24 können integriert werden, um eine einzelne Einheit zu bilden (z. B. in Form von „der Recheneinheit“), oder können durch Computercodesegmente verkörpert werden, die dazu ausgelegt sind, die entsprechenden Verfahrensschritte auszuführen, die auf einem Prozessor oder dergleichen der Datenverarbeitungsvorrichtung DPA laufen. Jede Untereinheit 20-24 und die Schnittstelleneinheit INT können individuell mit anderen Untereinheiten und/oder anderen Komponenten der Datenverarbeitungsvorrichtung DPA verbunden sein, bei denen Datenaustausch benötigt wird, um die Verfahrensschritte durchzuführen.
  • Die Datenverarbeitungsvorrichtung DPA kann mit einer ersten Vorrichtung FD und einer zweiten Vorrichtung SD im Datenaustausch stehen. Mit anderen Worten, die Datenverarbeitungsvorrichtung DPA kann als Datenfilter oder Gate für Datenübertragungen zwischen der ersten und der zweiten Vorrichtung FD, SD wirken. Dadurch kann sichergestellt werden, dass geschützte personenbezogene Daten nicht ohne angemessene Datenschutzmaßnahmen zwischen der ersten und der zweiten Vorrichtung FD, SD ausgetauscht werden.
  • Beispielsweise kann die erste Vorrichtung FD Teil einer ersten Gesundheitsorganisation, Computerumgebung oder Netzwerks sein. Ferner kann die zweite Vorrichtung SD Teil einer zweiten Gesundheitsorganisation, Computerumgebung oder Netzwerks sein. Die erste Gesundheitsorganisation kann ein internes Gesundheitsnetzwerk umfassen, das von außen nicht oder nur mit Erlaubnis zugänglich ist. In diesem Zusammenhang kann die erste Vorrichtung FD als Gateway zu diesem internen Gesundheitsnetzwerk der ersten Organisation angesehen werden. Ebenso kann die zweite Gesundheitsorganisation ein internes Gesundheitsnetzwerk umfassen, das von außen nicht oder nur mit Erlaubnis zugänglich ist. Hier kann die zweite Vorrichtung SD als Gateway zu diesem internen Gesundheitsnetzwerk der zweiten Organisation angesehen werden.
  • Gemäß einigen Beispielen kann die erste Vorrichtung FD Teil des Gesundheitsnetzwerks eines Krankenhauses, einer Krankenhauskette, oder einer Privatpraxis usw. sein. Ferner kann die erste Vorrichtung FD eine persönliche Vorrichtung eines Patienten sein, über die ein Patient persönliche Gesundheitsdatendaten hochladen kann. Die zweite Vorrichtung SD kann Teil einer zentralen Datenspeicher- und -verarbeitungseinrichtung sein, die dazu ausgelegt ist, die Gesundheitsdaten einer Vielzahl von ersten Organisationen und/oder einer Vielzahl von Patienten zu aggregieren und/oder zu verarbeiten. Insbesondere kann die zweite Vorrichtung SD eine Cloud-basiertes Vorrichtung sein.
  • Gemäß einigen Beispielen kann die Datenverarbeitungsvorrichtung DPA Teil der ersten Vorrichtung FD oder des (internen) Gesundheitsnetzwerks, zu dem die erste Vorrichtung FD gehört, sein. Mit anderen Worten, die Datenverarbeitungsvorrichtung DPA kann Teil der ersten Organisation sein. Damit kann die Datenverarbeitungsvorrichtung DPA sicherstellen, dass geschützte personenbezogene Daten die erste Organisation nicht verlassen.
  • Gemäß anderen Beispielen kann die Datenverarbeitungsvorrichtung DPA Teil der zweiten Vorrichtung SD oder des (internen) Gesundheitsnetzwerks, zu dem das zweite Vorrichtung SD gehört, sein Mit anderen Worten, die Datenverarbeitungsvorrichtung DPA kann Teil der zweiten Organisation sein. Damit kann die Datenverarbeitungsvorrichtung DPA sicherstellen, dass nur Daten in die zweite Organisation übernommen werden, die nicht gegen Datenschutzbestimmungen verstoßen.
  • 3 zeigt ein computerimplementiertes Verfahren zum Schutz von Daten, gemäß Ausführungsformen der Erfindung. Das Verfahren umfasst mehrere Schritte. Die Reihenfolge der Schritte entspricht nicht notwendigerweise der Nummerierung der Schritte, sondern kann auch zwischen unterschiedlichen Ausführungsformen der vorliegenden Erfindung variieren. Ferner können einzelne Schritte oder eine Folge von Schritten wiederholt werden.
  • Bei Schritt S10 wird der Eingabedatensatz 1 empfangen. Dabei kann der Eingabedatensatz 1 von der ersten Einrichtung FD an die Datenverarbeitungsvorrichtung DPA weitergeleitet werden.
  • Im optionalen Schritt S12 wird der Eingabedatensatz 1 verarbeitet, um Datenelemente zu erfassen, die geeignet sind, einen Patienten direkt zu identifizieren. Ferner können solche Datenelemente in Schritt S12 automatisch anonymisiert werden, z. B. durch Entfernen oder Ändern dieser Datenelemente.
  • Dadurch kann am Ende des Schrittes S12 ein anonymisierter Eingabedatensatz 1 bereitgestellt werden.
  • Im optionalen Schritt S15 wird der (optional: anonymisierte) Eingabedatensatz 1 verarbeitet, um univariate Ausreißer in dem Eingabedatensatz 1 zu erkennen. Anschließend können diese univariaten Ausreißer in Schritt S15 automatisch entfernt oder verändert werden, um am Ende von Schritt S15 als Zwischenergebnis einen „vorab de-identifizierten“ Eingabedatensatz 1 zu erzeugen.
  • Bei Schritt S20 wird der (optional: anonymisierte und/oder Prä-De-Identifizierte) Datensatz 1 in den multivariaten Ausreißer-Erkennungsalgorithmus eingegeben, um Anomalie-Scores für Kombinationen von Datenpunkten, die in dem Eingabedatensatz 1 enthalten sind, bereitzustellen. Dabei können die Kombinationen von Datenpunkten auf Kombinationen von Datenpunkten beschränkt sein, die jeweils zu einem einzelnen Patienten gehören. Dementsprechend kann ein Anomalie-Score einer Kombination von Datenpunkten quantifizieren, wie anormal diese Kombination von Datenpunkten tatsächlich ist im Kontext des Eingabedatensatzes 1. Mit anderen Worten, ein Anomalie-Score kann quantifizieren, wie gut eine Person basierend auf der zugrunde liegenden Kombination von Datenpunkten noch indirekt identifiziert werden kann (optional: trotz der Anonymisierungs- und Prä-De-Identifizierungsmaßnahmen der Schritte 12 und 15).
  • In den optionalen Teilschritten S21 und S22 kann dies durch Ausführen eines erklärbaren KI-Werkzeugs begleitet werden, um einem Benutzer einen Hinweis darauf zu geben, warum eine bestimmte Kombination von Datenpunkten einen gegebenen Anomalie-Score aufweist. Insbesondere kann das erklärbare KI-Modul 23 angewendet werden, um zusätzliche Erklärungen für die Erkennungsergebnisse bereitzustellen, die von dem multivariaten Ausreißer-Erkennungsalgorithmus bereitgestellt werden. Bei Schritt S22 können diese zusätzlichen Erläuterungen einem Benutzer bereitgestellt werden, z. B., indem sie auf einer Benutzerschnittstelle angezeigt werden, die in der Schnittstelleneinheit INT enthalten ist.
  • Bei Schritt S30 werden Sätze von multivariaten Ausreißern von Datenpunkten basierend auf den Anomalie-Scores bestimmt. Insbesondere können alle Kombinationen von Datenpunkten mit Anomalie-Scores, die größer als ein vorbestimmter Schwellenwert sind, als ein Satz von multivariaten Ausreißern identifiziert werden. Konzeptionell wären dies diejenigen Kombinationen von Datenpunkten, die eine weitere Verarbeitung/De-Identifizierung erfordern, um den Datenschutz zu gewährleisten. Der Schwellwert kann automatisch oder durch einen Benutzer der Datenverarbeitungsvorrichtung DPA eingestellt werden. Gemäß einigen Beispielen kann der vorbestimmte Schwellenwert ein gelernter Wert sein, der durch den multivariaten Ausreißer-Erkennungsalgorithmus während des Trainings gelernt wurde.
  • Im optionalen Teilschritt S31 kann eine Rangfolge relevanter Kombinationen von Datenpunkten basierend auf den Anomalie-Scores bestimmt werden. Diese Rangfolge kann dann einem Benutzer über die Benutzerschnittstelle UI angezeigt werden.
  • Die folgenden Schritte S40A und S40B beschäftigen sich mit alternativen Möglichkeiten, wie eine De-Identifizierung des Eingabedatensatzes 1 implementiert werden kann, um den verarbeiteten Datensatz PDS bereitzustellen. Dabei können die Schritte S40A und S40B einzeln, aber auch in Kombination angewendet werden.
  • Bei Schritt S40A wird eine automatische De-Identifizierung durchgeführt. Dies kann das Entfernen zumindest eines Datenpunkts eines Satzes multivariater Ausreißer, das Entfernen eines ganzen Satzes multivariater Ausreißer, das Runden zumindest eines Datenpunkts eines Satzes multivariater Ausreißer, das Ersetzen zumindest eines Datenpunkts eines Satzes multivariater Ausreißer, das Kategorisieren zumindest eines Datenpunkts eines Satzes von multivariaten Ausreißern und/oder das Transformieren zumindest eines Datenpunkts eines Satzes von multivariaten Ausreißern umfassen.
  • Schritt S40B befasst sich mit einer halbautomatischen De-Identifizierung durch eine kontinuierliche Mensch-Maschine-Interaktion. In dem Unterschritt S40B-1 wird der Eingabedatensatz 1 in einer Benutzerschnittstelle UI der Schnittstelleneinheit INT angezeigt, wobei der Satz/die Sätze multivariater Ausreißer hervorgehoben sind. Anschließend wird in dem Unterschritt S40B-2 eine Benutzereingabe INPUT von dem Benutzer über die Benutzerschnittstelle UI empfangen. Die Benutzereingabe INPT wird auf zumindest einen Satz multivariater Ausreißer gerichtet. Optional kann die Benutzereingabe INPT eine Anweisung umfassen, die auf die Anonymisierung des zumindest einen Satzes von multivariaten Ausreißern gerichtet ist, wie beispielsweise eine Angabe, welches Anonymisierungsverfahren zu verwenden ist. Danach wird in dem Unterschritt S40B-3 der Eingabedatensatz 1 gemäß der Benutzereingabe INPT verarbeitet, um einen verarbeiteten Datensatz PDS zu erzeugen.
  • Schließlich wird in Schritt S50 der verarbeitete Datensatz PDS bereitgestellt. Dabei kann es sich insbesondere um eine Weiterleitung des bearbeiteten Datensatzes PDS an die zweite Einrichtung SD über die Schnittstelle INT handeln.
  • Folgende Punkte sind ebenfalls Bestandteil der Offenbarung:
    1. 1. Ein Computerimplementiertes Verfahren zum Schutz von Daten, wobei das Verfahren umfasst:
      • Empfangen eines Eingabedatensatzes (1), wobei der Eingabedatensatz (1) eine Vielzahl von Datenpunkten umfasst, von denen zumindest einige Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren;
      • Durchführen einer multivariaten Ausreißer-Erkennung (22) an dem Eingabedatensatz, umfassend Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausreißer-Erkennungsalgorithmus; und
      • Anzeigen einer Rangfolge des zumindest einen Teils der Vielzahl von Datenpunkten basierend auf den Anomalie-Scores.
    2. 2. Das Verfahren nach 1, wobei der multivariate Ausreißer-Erkennungsalgorithmus ein auf maschinellem Lernen basierender Algorithmus ist.
    3. 3. Das Verfahren nach 1 oder 2, wobei der multivariate Ausreißer-Erkennungsalgorithmus aus der Gruppe ausgewählt ist, die umfasst:
      • - Isolationswald;
      • - elliptische Einhüllende;
      • - Fast-Minimum-Kovarianzdeterminanten-Schätzer; und/oder
      • - lokale Ausreißerfaktoren.
    4. 4. Das Verfahren nach einem der vorhergehenden Punkte, ferner umfassend:
      • De-Identifizieren von zumindest einem der Datenpunkte; wobei das De-Identifizieren eines oder mehreres umfasst von:
        • - Entfernen eines Datenpunkts;
        • - Runden eines Wertes eines Datenpunkts;
        • - Kategorisieren eines Datenpunkts; und/oder
        • - Transformieren eines Datenpunkts.
    5. 5. Das Verfahren nach 4, ferner umfassend:
      • Empfangen einer Benutzereingabe (3) zum De-Identifizieren von zumindest einem der Datenpunkte, wobei das De-Identifizieren auf der empfangenen Benutzereingabe (3) basiert; und
      • optional, Verwenden der empfangenen Benutzereingabe (3) zum Trainieren des multivariaten Ausreißer-Erkennungsalgorithmus.
    6. 6. Das Verfahren nach einem der vorhergehenden Punkte, wobei das Durchführen der multivariaten Ausreißer-Erkennung (22) Berechnen von Anomalie-Scores für die Vielzahl von Datenpunkten unter Verwendung einer Vielzahl von unterschiedlichen multivariaten Ausreißer-Erkennungsalgorithmen umfasst, vorzugsweise basierend auf einer von dem Benutzer wählbaren Präferenz; und wobei das Anzeigen der Rangfolge umfasst:
      • - Anzeigen einer Rangfolge für jeden multivariaten Ausreißer-Erkennungsalgorithmus;
      • - Anzeigen einer Rangfolge basierend auf der Vereinigung der Ergebnisse des multivariaten Ausreißer-Erkennungsalgorithmen;
      und/oder
      • - Anzeigen einer Rangfolge basierend auf dem Schnittpunkt der Ergebnisse der multivariaten Ausreißer-Erkennungsalgorithmen.
    7. 7. Das Verfahren nach einem der vorhergehenden Punkte, ferner umfassend:
      • Ausführen eines erklärbaren KI-Moduls (23), wie etwa Shapley Additive Explanations, SHAP; und
      • optional, Anzeigen eines von dem erklärbaren KI-Modul (23) erzeugten Ergebnisses zusammen mit der Rangfolge.
    8. 8. Das Verfahren nach einem der vorhergehenden Punkte, ferner umfassend:
      • Durchführen einer univariaten Ausreißer-Erkennung (21) an dem Eingabedatensatz.
    9. 9. Das Verfahren nach einem der vorhergehenden Punkte, ferner umfassend:
      • Durchführen einer direkten Identifizierer-Erkennung (20) an dem Eingabedatensatz, vorzugsweise unter Verwendung eines Verarbeitungsalgorithmus für natürliche Sprache.
    10. 10. Das Verfahren nach einem der vorhergehenden Punkte, wobei der multivariate Ausreißer-Erkennungsalgorithmus von dem Benutzer wählbar ist.
    11. 11. Das Verfahren nach einem der vorhergehenden Punkte, wobei der Eingabedatensatz (1) ein mehrdimensionaler Datensatz ist.
    12. 12. Ein computerimplementiertes Verfahren zum Schutz von Daten, wobei das Verfahren umfasst:
      • Durchführen des Verfahrens nach einem der Punkte 1-11;
      • Erzeugen eines Ausgabedatensatzes, wobei in dem Ausgabedatensatz diejenigen Datenpunkte de-identifiziert werden, die Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren.
    13. 13. Das Verfahren nach 12, wobei:
      • der Eingabedatensatz (1) von einer ersten Vorrichtung an einer zweiten Vorrichtung empfangen wird;
      • die multivariate Ausreißer-Erkennung (22) von der zweiten Vorrichtung durchgeführt wird;
      • und der Ausgabedatensatz von der zweiten Vorrichtung an die erste Vorrichtung gesendet wird.
    14. 14. Datenverarbeitungsvorrichtung oder -system, umfassend Mittel zum Ausführen des Verfahrens nach einem der Punkte 1-13.
    15. 15. Computerprogramm mit Anweisungen, die, wenn das Programm von einem Computer ausgeführt wird, den Computer veranlassen, das Verfahren nach einem der Punkte 1-13 auszuführen.
  • Obgleich die Erfindung mit Hilfe einer bevorzugten Ausführungsform ausführlich dargestellt und beschrieben wurde, ist die Erfindung nicht auf die offenbarten Beispiele beschränkt. Andere Variationen können von einem Fachmann abgeleitet werden, ohne den Schutzbereich der beanspruchten Erfindung zu verlassen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 20140283097 A1 [0005]
  • Zitierte Nicht-Patentliteratur
    • Breunig MM et al., In Proc. ACM SIGMOD 2000), und „A Unified Approach to Interpreting Model Predictions“ (Lundberg SM et al., Advances in Neural Information Verarbeitungssysteme 2017; 30: 4765-74 [0007]
    • Meng Z et al., Neurocomputing, Band 341 [0008]

Claims (20)

  1. Computerimplementiertes Verfahren zum Schutz von Daten, wobei das Verfahren umfasst: Empfangen (S10) eines Eingabedatensatzes (1), wobei der Eingabedatensatz (1) eine Vielzahl von Datenpunkten umfasst, von denen zumindest einige Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren; Durchführen (S20) einer multivariaten Ausreißer-Erkennung (22) an dem Eingabedatensatz (1), umfassend Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausrei-ßer-Erkennungsalgorithmus; und Identifizieren (S30), basierend auf den berechneten Anomalie-Scores, zumindest eines Satzes von multivariaten Ausreißern von Datenpunkten, die in Kombination verwendet werden können, um eine Person zu identifizieren.
  2. Verfahren nach Anspruch 1, ferner umfassend: automatisches De-Identifizieren (S40A) des zumindest einen Satzes von multivariaten Ausreißern in dem Eingabedatensatz (1), um einen verarbeiteten Datensatz (PDS) zu erzeugen; und Bereitstellen des verarbeiteten Datensatzes (PDS).
  3. Verfahren nach Anspruch 2, wobei der Schritt des De-Identifizierens (S40A) eines oder mehreres umfasst von: - Entfernen eines Datenpunkts; - Runden eines Wertes eines Datenpunkts; - Ersetzen eines Datenpunkts; - Kategorisieren eines Datenpunkts; und/oder - Transformieren eines Datenpunkts.
  4. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Anzeigen (S40B-1) des Eingabedatensatzes (1) über eine Benutzerschnittstelle (UI), wobei der Satz multivariater Ausreißer hervorgehobenen wird.
  5. Verfahren nach Anspruch 4, ferner umfassend: Empfangen (S40B-2) einer Benutzereingabe (INPT) von dem Benutzer über die Benutzerschnittstelle (UI), wobei die Benutzereingabe auf den Satz von multivariaten Ausreißern gerichtet ist; Verarbeiten (S40B-3) des Eingabedatensatzes (1) gemäß der Benutzereingabe, um einen verarbeiteten Datensatz (PDS) zu erzeugen; und Bereitstellen (S50) des verarbeiteten Datensatzes (PDS).
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei in dem Schritt des Identifizierens (S30) ein Satz von Datenpunkten als der Satz von multivariaten Ausreißern von Datenpunkten identifiziert wird, wenn der Anomalie-Score des Satzes von Datenpunkten einen vorbestimmten Schwellenwert überschreitet.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei in dem Schritt des Identifizierens (S30) eine Vielzahl von Sätzen von multivariaten Ausreißern von Datenpunkten identifiziert wird; und ferner umfassend: Anzeigen (S31) einer Rangfolge der Vielzahl von Sätzen basierend auf den jeweiligen Anomalie-Scores über eine Benutzerschnittstelle (UI) für einen Benutzer.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der multivariate Ausreißer-Erkennungsalgorithmus ein auf maschinellem Lernen basierender Algorithmus ist.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei der multivariate Ausreißer-Erkennungsalgorithmus ausgewählt wird aus der Gruppe umfassend: - Isolationswald; - elliptische Einhüllende; - Fast-Minimum-Kovarianzdeterminanten-Schätzer; und/oder - lokale Ausreißerfaktoren.
  10. Verfahren nach Anspruch 9, ferner umfassend: Empfangen (S40B-2) einer Benutzereingabe (INPT), die auf zumindest einen der Datenpunkte in dem Satz von multivariaten Ausreißern gerichtet ist, wobei die Benutzereingabe optional auf ein De-identifizieren des zumindest einen der Datenpunkte gerichtet ist; und Verwenden der empfangenen Benutzereingabe (INPT) zum Trainieren des multivariaten Ausreißer-Erkennungsalgorithmus.
  11. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Durchführen (S20) der multivariaten Ausreißer-Erkennung (22) Berechnen von partiellen Anomalie-Scores für die Vielzahl von Datenpunkten unter Verwendung einer Vielzahl von unterschiedlichen multivariaten Ausreißer-Erkennungsalgorithmen umfasst, vorzugsweise basierend auf einer von dem Benutzer wählbaren Präferenz; und wobei das Berechnen von Anomalie-Scores Aggregieren der partiellen Anomalie-Scores umfasst, um die Anomalie-Scores zu erzeugen.
  12. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Ausführen (S21) eines erklärbaren KI-Moduls (23), wie etwa Shapley Additive Explanations, SHAP; und optional, Anzeigen (S22) eines Ergebnisses, das von dem erklärbaren KI-Modul (23) erzeugt wurde.
  13. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Durchführen (S15) einer univariaten Ausreißer-Erkennung (21) an dem Eingabedatensatz (2).
  14. Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Durchführen (S12) einer direkten Identifizierer-Erkennung (20) an dem Eingabedatensatz, vorzugsweise unter Verwendung eines Verarbeitungsalgorithmus für natürliche Sprache.
  15. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Eingabedatensatz (2) zumindest eine elektronische Gesundheitsakte eines Patienten und, optional, eine Vielzahl von medizinischen Gesundheitsakten einer Vielzahl von Patienten umfasst.
  16. Computerimplementiertes Verfahren zum Schutz von Daten, wobei das Verfahren umfasst: Durchführen des Verfahrens nach einem der Ansprüche 1-15; Erzeugen (S50) eines Ausgabedatensatzes (PDS), wobei in dem Ausgabedatensatz (PDS) diejenigen Datenpunkte, die Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren, basierend auf den Anomalie-Scores de-identifiziert werden.
  17. Verfahren nach Anspruch 16, wobei: der Eingabedatensatz (1) von einer ersten Vorrichtung an einer zweiten Vorrichtung empfangen wird, die von der ersten Vorrichtung entfernt ist; die multivariate Ausreißer-Erkennung (22) von der zweiten Vorrichtung durchgeführt wird; und der Ausgabedatensatz von der zweiten Vorrichtung an die erste Vorrichtung gesendet wird.
  18. Datenverarbeitungsvorrichtung (DPA) zum Bereitstellen eines Ausgabedatensatzes (PDS), umfassend eine Schnittstelleneinheit (INT) und eine Recheneinheit (CU), wobei die Schnittstelleneinheit (INT) dazu ausgelegt ist, einen Eingabedatensatz (1) zu empfangen, wobei der Eingabedatensatz (1) eine Vielzahl von Datenpunkten umfasst, von denen zumindest einige Informationen umfassen, die in Kombination verwendet werden können, um eine Person, wie etwa einen Patienten, zu identifizieren; die Recheneinheit (CU) ausgelegt ist zum: Durchführen (S20) einer multivariaten Ausreißer-Erkennung (22) an dem Eingabedatensatz, umfassend Berechnen von Anomalie-Scores für zumindest einen Teil der Vielzahl von Datenpunkten unter Verwendung eines multivariaten Ausreißer-Erkennungsalgorithmus; Identifizieren (S30), basierend auf den berechneten Anomalie-Scores, zumindest eines Satzes multivariater Ausrei-ßer von Datenpunkten, die in Kombination verwendet werden können, um eine Person zu identifizieren; automatischen De-Identifizieren (S40A) des zumindest einen Satzes multivariater Ausreißer in dem Eingabedatensatz, um einen verarbeiteten Datensatz (PDS) zu erzeugen; und Bereitstellen des verarbeiteten Datensatzes (PDS) über die Schnittstelle (INT).
  19. Computerprogrammprodukt, das Programmelemente umfasst, die eine Recheneinheit eines Systems veranlassen, die Schritte gemäß dem Verfahren nach einem der Ansprüche 1 bis 17 auszuführen, wenn die Programmelemente in einen Speicher der Recheneinheit geladen werden.
  20. Computerlesbares Medium, auf dem Programmelemente gespeichert sind, die von einer Recheneinheit eines Systems gelesen und ausgeführt werden können, um Schritte des Verfahrens nach einem der Ansprüche 1 bis 17 auszuführen, wenn die Programmelemente von der Recheneinheit ausgeführt werden.
DE102023200361.9A 2022-01-27 2023-01-18 Multivariate Ausreißer-Erkennung zum Datenschutz Pending DE102023200361A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022200919 2022-01-27
DE102022200919.3 2022-01-27

Publications (1)

Publication Number Publication Date
DE102023200361A1 true DE102023200361A1 (de) 2023-07-27

Family

ID=87068682

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023200361.9A Pending DE102023200361A1 (de) 2022-01-27 2023-01-18 Multivariate Ausreißer-Erkennung zum Datenschutz

Country Status (2)

Country Link
US (1) US20230237380A1 (de)
DE (1) DE102023200361A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11940983B1 (en) * 2021-09-30 2024-03-26 Amazon Technologies, Inc. Anomaly back-testing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140283097A1 (en) 2013-03-15 2014-09-18 International Business Machines Corporation Anonymizing Sensitive Identifying Information Based on Relational Context Across a Group

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140283097A1 (en) 2013-03-15 2014-09-18 International Business Machines Corporation Anonymizing Sensitive Identifying Information Based on Relational Context Across a Group

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Breunig MM et al., In Proc. ACM SIGMOD 2000), und „A Unified Approach to Interpreting Model Predictions" (Lundberg SM et al., Advances in Neural Information Verarbeitungssysteme 2017; 30: 4765-74
Meng Z et al., Neurocomputing, Band 341

Also Published As

Publication number Publication date
US20230237380A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
US20210117985A1 (en) Analytics engine for detecting medical fraud, waste, and abuse
US11715038B2 (en) System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
DE112021000189T5 (de) Mikrodienst-Aufspaltungsstrategie von monolithischen Anwendungen
DE112012004036T5 (de) Definieren des Geltungsbereichs und Verwalten der Rollenentwicklung
DE112018005459T5 (de) Datenanonymisierung
DE102011053846A1 (de) Verfahren und Vorrichtung zum Verwalten von Prozesssteuerungssuchergebnissen
DE202022002899U1 (de) Metadaten-Klassifizierung
DE102014204842A1 (de) Clustering von Daten
Altalhi et al. Evaluation and comparison of open source software suites for data mining and knowledge discovery
DE112013000725T5 (de) Überwachen von Inhaltsablagen, Identifizieren von falsch klassifizierten Inhaltsobjekten und Vorschlagen einer Neuklassifizierung
DE112020000227T5 (de) Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends
DE112018005725T5 (de) Daten-deidentifikation auf der grundlage eines erkennens von zulässigen konfigurationen für daten-deidentifikationsprozesse
DE102008027605A1 (de) System und Verfahren zur rechnerbasierten Analyse großer Datenmengen
DE60032258T2 (de) Bestimmen ob eine variable numerisch oder nicht numerisch ist
DE102023200361A1 (de) Multivariate Ausreißer-Erkennung zum Datenschutz
Baranauskas et al. A tree-based algorithm for attribute selection
Vasiliev et al. Use of information technologies for the integration of an enterprise quality management system with the requirements of the related standards
DE102021123058A1 (de) Maskieren von sensiblen informationen in einem dokument
DE112020002892T5 (de) Aktives lernen für den datenabgleich
Kirola et al. A referenced framework on new challenges and cutting-edge research trends for big-data processing using machine learning approaches
DE102021006293A1 (de) Bestimmung digitaler Personas unter Verwendung datengetriebener Analytik
EP4016543A1 (de) Verfahren und vorrichtung zur bereitstellung einer medizinischen information
DE112021001743T5 (de) Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten
DE112020003821T5 (de) Aufrechterhalten des datenschutzes in einem gemeinsam genutzten erkennungsmodellsystem
DE112022000886T5 (de) Datenverarbeitungssystem mit manipulation logischer datensatzgruppen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R081 Change of applicant/patentee

Owner name: SIEMENS HEALTHINEERS AG, DE

Free format text: FORMER OWNER: SIEMENS HEALTHCARE GMBH, MUENCHEN, DE