DE212018000185U1

DE212018000185U1 - Detektion von Datenschutzverletzungen

Info

Publication number: DE212018000185U1
Application number: DE212018000185.5U
Authority: DE
Original assignee: Chronicle LLC
Current assignee: Chronicle LLC
Priority date: 2017-03-17
Filing date: 2018-03-16
Publication date: 2020-01-10
Anticipated expiration: 2028-03-17
Also published as: US20180268135A1; CN111492363B; CN111492363A; WO2018170354A1; US10503896B2

Abstract

Computerspeichermedium, auf dem Anweisungen gespeichert sind, die ein Verfahren zum Detektieren von Datenschutzverletzungen implementieren, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die nachfolgenden Verfahrensschritte auszuführen:
Empfangen, von jedem einer Vielzahl von Datenbesitzern, einer ersten kryptographisch sicheren Repräsentation von Daten, die auf Datenschutzverletzungen zu überwachen sind, wobei jede erste kryptographisch sichere Repräsentation eine kryptographisch sichere Datenstruktur beinhaltet, die eine Vielzahl erster Datensätze darstellt, die vom Datenbesitzer verwaltet werden;
Empfangen, von einem Benutzer und für jeden einer Vielzahl von zweiten Datensätzen, von einer oder mehreren kryptographisch sicheren zweiten Repräsentationen zweiter Datensätze;
Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit einem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Vielzahl von Datenbesitzern empfangen wurden; und
Bestimmen, dass für den Datenbesitzer eine Datenschutzverletzung aufgetreten ist, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die vom Datenbesitzer empfangen wurde.

Description

TECHNISCHES GEBIET
In Übereinstimmung mit den Bestimmungen des Gebrauchsmustergesetzes sind nur Vorrichtungen, wie sie in den anliegenden Ansprüchen definiert sind, geschützt und vom Gebrauchsmuster abgedeckt, nicht jedoch Verfahren. Soweit in der nachstehenden Beschreibung gegebenenfalls auf Verfahren Bezug genommen wird, dienen diese Hinweise nur zur exemplarischen Erläuterung der mit den anliegenden Schutzansprüchen geschützten Vorrichtung(en).
Diese Offenbarung bezieht sich im Allgemeinen auf die elektronische Datensicherheit.
HINTERGRUND
Mit dem Aufkommen des Internets haben einige Computerexperten ihr Fachwissen genutzt, um unbefugten Zugriff auf sensible Daten zu erhalten. Diese Datenschutzverletzungen können sich erheblich auf die Partei auswirken, von der aus auf die Daten zugegriffen wurde, und auf die Parteien, auf deren Daten zugegriffen wurde. Wenn beispielsweise die Kreditkartendaten eines Kreditkartenunternehmens gestohlen werden, muss das Kreditkartenunternehmen alle von der Datenschutzverletzung betroffenen Kreditkarten deaktivieren, neue Kontoinformationen für jede von der Datenschutzverletzung betroffene Kreditkarte erstellen und neue Kreditkarten für jeden von der Datenschutzverletzung betroffenen Kunden ausstellen. Ebenso verliert jeder Kunde für einige Zeit den Zugang zu seinem Konto, bis die Schutzverletzung behoben ist und der Kunde eine neue Karte mit neuen Informationen empfängt.
KURZDARSTELLUNG
Diese Spezifikation beschreibt Systeme, Verfahren, Vorrichtungen und andere Techniken zur Erkennung von Datenschutzverletzungen, die auf sicheren Repräsentationen von Daten basieren, die von Benutzern, die auf potenziell gestohlene Daten gestoßen sind, bereitgestellt werden.
Im Allgemeinen kann ein innovativer Aspekt des in dieser Spezifikation beschriebenen Gegenstands in Verfahrenen implementiert werden, die den Empfang einer ersten kryptographisch sicheren Repräsentation der zu überwachenden Daten bei Datenschutzverletzungen von jedem von mehreren Datenbesitzern umfasst. Jede erste kryptografisch sichere Repräsentation kann eine kryptografisch sichere Datenstruktur umfassen, die erste Datensätze repräsentiert, die von den Datenbesitzern verwaltet werden. Eine oder mehrere zweite kryptographisch sichere Repräsentationen zweiter Datensätze können von einem Benutzer empfangen werden. Es wird eine Anzahl der zweiten kryptographisch sicheren Repräsentationen ermittelt, die mit einem entsprechenden Teil der ersten kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Datenbesitzer empfangen werden. Es wird bestimmt, dass für den Datenbesitzer eine Datenschutzverletzung vorliegt, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Teil der ersten kryptographisch sicheren Repräsentation übereinstimmen, die vom Datenbesitzer empfangen wurde. Weitere Ausführungsformen dieses Aspektes beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die dafür konfiguriert sind, die auf Computerspeichergeräten kodierten Handlungen des Verfahrens auszuführen.
Diese und sonstige Implementierungen können optional ein oder mehrere der folgenden Merkmale umfassen. Einige Aspekte können die Bereitstellung einer Benachrichtigung an den Datenbesitzer beinhalten, die den Datenbesitzer über die Schutzverletzung informiert, um festzustellen, ob die Schutzverletzung stattgefunden hat,
In einigen Aspekten kann jede erste kryptographisch sichere Repräsentation eine erste probabilistische Repräsentation beinhalten. Jede zweite kryptografisch sichere Repräsentation kann eine zweite probabilistische Repräsentation umfassen. Jede erste probabilistische Repräsentation kann ein erstes Bloom-Filter umfassen. Jede zweite probabilistische Repräsentation kann eine oder mehrere Bitzahlen umfassen, die jeweils ein entsprechendes Bit eines zweiten Bloom-Filters identifizieren, das, basierend auf dem zweiten Datensatz, der durch die zweite probabilistische Repräsentation repräsentiert wird, eingestellt wurde.
In einigen Aspekten kann das Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit einem entsprechenden Teil der kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Datenbesitzer empfangen wurde, für jede zweite probabilistische Repräsentation, die vom Benutzer empfangen wurde, das Bestimmen, für jedes Datenelement der zweiten probabilistischen Repräsentation, ob das Datenelement mit einem entsprechenden Datenelement des ersten Bloom-Filters übereinstimmt, umfassen. Eine Zahl einer Anzahl übereinstimmender probabilistischer Repräsentationen kann iteriert werden, wenn jedes Datenelement der zweiten probabilistischen Repräsentation mit dem entsprechenden Datenelement des ersten Bloom-Filters übereinstimmt.
In einigen Aspekten kann das Bestimmen, dass eine Datenschutzverletzung für den Datenbesitzer basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Teil der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmen, auftritt, das Bestimmen umfassen, dass die Anzahl einen vorbestimmten Schwellenwert erreicht oder überschreitet.
In einigen Aspekten kann das Bestimmen, dass eine Datenschutzverletzung für den Datenbesitzer, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmen, auftritt, das Bestimmen umfassen, dass ein Prozentsatz der zweiten kryptographisch sicheren Repräsentationen, die vom Benutzer empfangen wurden, mit dem entsprechenden Abschnitt der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmt.
In einigen Aspekten beinhaltet jeder Datensatz jeder der ersten kryptographisch sicheren Repräsentationen ein Tupel mit mehreren zugehörigen Datenelementen. Die erste kryptographisch sichere Repräsentation, die von einem bestimmten Datenbesitzer empfangen wird, kann für jede Entität mehrerer Entitäten mehrere Tupel eines Datensatzes für die Entität darstellen. Jedes Tupel kann einen anderen Satz von Daten umfassen, die sich auf die Einheit beziehen und die in dem Datensatz enthalten sind.
Einige Aspekte können die Bereitstellung einer Entschädigung für den Benutzer in Reaktion auf das Bestimmen, dass die Datenschutzverletzung für den Datenbesitzer eingetreten ist, unter Verwendung der zweiten kryptographisch sicheren Repräsentationen, die er vom Benutzer erhalten hat, beinhalten. Einige Aspekte können das Empfangen von Daten vom Benutzer beinhalten, die einen angeforderten Kompensationsbetrag für die Erkennung einer Schutzverletzung unter Verwendung der zweiten kryptographisch sicheren Repräsentationen, die vom Benutzer empfangen wurden, angeben, und das Bestimmen, für jeden Datenbesitzer der Datenbesitzer und basierend auf dem angeforderten Entschädigungsbetrag, ob die zweiten kryptographisch sicheren Repräsentationen mit der ersten kryptographisch sicheren Repräsentanz, die vom Datenbesitzer empfangen wurde, verglichen werden sollen.
Bestimmte Ausführungsformen des in dieser Spezifikation dargelegten Gegenstands können so implementiert werden, dass sie einen oder mehrere der folgenden Vorteile verwirklichen. Ein System, das es Benutzern ermöglicht, anonym kryptographisch sichere Repräsentationen von Daten bereitzustellen, die gestohlen oder anderweitig unbefugt erhalten wurden, kann zu einer früheren Erkennung von Datenschutzverletzungen führen und die Wahrscheinlichkeit erhöhen, dass Datenschutzverletzungen vor dem Missbrauch der Daten erkannt werden. Da Hacker typischerweise einen Teil ihrer gestohlenen Daten an potenzielle Käufer weitergeben müssen, um die Authentizität der Daten nachzuweisen, erhalten Benutzer die Möglichkeit, sichere Repräsentationen dieser Daten an das System zu übermitteln, was es Hackern erschwert, gestohlene Daten zu monetarisieren. Diese erhöhte Schwierigkeit hindert Hacker daran, die Daten von Datenbesitzern zu stehlen. Durch die Bereitstellung von Entschädigung oder einer Belohnung für Benutzer, die gestohlene Daten an das System weitergeben, werden Benutzer ermutigt, sichere Repräsentationen der gestohlenen Daten zu übermitteln, anstatt zu versuchen, gestohlene Daten direkt zu monetarisieren. So kann es beispielsweise sicherer und einfacher sein, sichere Repräsentationen gestohlener Daten an das System zu übermitteln, als zu versuchen, gestohlene Kreditkartendaten an andere zu verkaufen oder die gestohlenen Kreditkartendaten direkt für illegale Käufe zu verwenden. Durch die Beibehaltung der Identität von Benutzern, die sichere Repräsentationen anonym übermitteln, wird Benutzern empfohlen, die Daten ohne Angst vor Vergeltungsmaßnahmen durch Hacker, die die Daten gestohlen haben, zu übermitteln.
Durch den Vergleich von sicheren Repräsentationen von Daten, die von Benutzern bereitgestellt werden, mit sicheren Repräsentationen von Daten, die von Datenbesitzern bereitgestellt werden, um Datenschutzverletzungen zu erkennen, werden keine sensiblen Daten zwischen den Parteien übertragen und die Daten bleiben sicher. So kann beispielsweise die Verwendung kryptographischer Techniken wie probabilistische Datenrepräsentationen verhindern, dass andere auf die eigentlichen Daten zugreifen, die zur Erkennung von Datenschutzverletzungen verwendet werden.
Im Folgenden werden verschiedene Merkmale und Vorteile des vorgenannten Sachverhalts in Bezug auf die Figuren beschrieben. Weitere Merkmale und Vorteile ergeben sich aus dem Gegenstand der Erfindung und den Ansprüchen.
Figurenliste

In 1 ist eine exemplarische Umgebung dargestellt, bei der ein Schutzverletzungs-Detektionssystem Datenschutzverletzungen erfasst.
2 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses zur Erzeugung eines Bloom-Filters und Verwendung des Bloom-Filters zur Erfassung einer Datensch utzverletzu ng.
3 stellt ein Ablaufdiagramm eines exemplarischen Prozesses zur Erfassung von Datenschutzverletzungen dar.
4 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses zur Erzeugung einer sicheren Repräsentation privater Daten.
5 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses zum Erzeugen sicherer Repräsentationen von potentiell gestohlenen Daten.

In den unterschiedlichen Zeichnungen werden gleiche Bezugszeichen und Bezeichnungen für gleiche Elemente verwendet.
AUSFÜHRLICHE BESCHREIBUNG
Im Allgemeinen beschreibt diese Offenbarung Systeme, Verfahren, Vorrichtungen und Techniken zum Detektieren von Datenschutzverletzungen auf Basis von vom Benutzer übermittelten sicheren Repräsentationen potentiell gestohlener Daten.
Ein Datenschutzverletzungs-Detektionssystem kann Datenschutzverletzungen, basierend auf kryptographisch sicheren Repräsentationen potenziell gestohlener Daten, die von einem Benutzer bereitgestellt werden, der Zugang zu den Daten erhalten hat. So können beispielsweise Prämienjäger, die nach gestohlenen Daten suchen, oder andere Benutzer auf gestohlene Kreditkartendaten in Untergrund-Internetforen, im Dark Web, an realen Orten (z. B. in einem Cafe, einer Bar oder einem Park) oder an anderen Orten, an denen diese Daten verkauft oder weitergegeben werden, stoßen. Der Benutzer kann eine Anwendung verwenden, um sichere Repräsentationen (z. B. eine probabilistische Repräsentation) der Daten zu erzeugen und die sicheren Repräsentationen der Daten an das System zu senden. Oder der Benutzer kann aktuelle Daten bereitstellen und das Datenschutzverletzungs-Detektionssystem kann die sicheren Repräsentationen der Daten erzeugen. Ein Beispiel für eine probabilistische Repräsentation von Daten ist, wie im Folgenden näher beschrieben, ein Bloom-Filter.
Datenbesitzer, z. B. Kreditkartenunternehmen, Einzelhändler oder andere Organisationen, die ihre Daten auf Schutzverletzungen überwachen lassen möchten, können auch sichere Repräsentationen von mindestens einem Teil ihrer Daten an das System übermitteln. Das System kann Datenschutzverletzungen beheben, indem es die sicheren Repräsentationen der von den Benutzern empfangenen Daten mit den sicheren Repräsentationen der von den Datenbesitzern bereitgestellten Daten vergleicht. In einigen Implementierungen ermittelt das System, dass die Daten eines Datenbesitzers aufgrund einer Reihe von einzelnen Datensätzen (z. B. einzelne Datenzeilen), die vom Benutzer bereitgestellt werden, verletzt wurden, die mit den Datenelementen des Datenbesitzers übereinstimmen, wie diese in den sicheren Repräsentationen dargestellt werden. Entspricht beispielsweise die Anzahl der übereinstimmenden Datensätze einer Schwellenzahl (z. B. einer vorgegebenen Schwellenzahl oder eines Prozentsatzes), kann das System ermitteln, dass die Daten des Datenbesitzers verletzt wurden.
Verschiedene Kompensationstechniken können verwendet werden, um Benutzer, die auf potenziell gestohlene Daten stoßen, dazu zu bringen, sichere Repräsentationen der Daten an das System zu übermitteln. Beispielsweise können Datenbesitzer eine Abonnementgebühr für die Nutzung des Dienstes zahlen, und Benutzer, die sichere Repräsentationen gestohlener Daten übermitteln, können einen Teil der Abonnementgebühr erhalten, wenn die übermittelten Daten verwendet werden, um eine tatsächliche Schutzverletzung festzustellen. In einem weiteren Beispiel kann der Benutzer, der sichere Repräsentationen potenziell gestohlener Daten übermittelt, die Kosten für die Verwendung der übermittelten Daten angeben, und die Datenbesitzer können wählen, ob diese ihre Daten mit den übermittelten Daten, basierend auf den Kosten, vergleichen möchten. Wenn ein nachfolgender Benutzer sichere Repräsentationen von Daten, die bereits von einem anderen Benutzer zur Verfügung gestellt werden, bereitstellt, kann der nachfolgende Benutzer eine geringere Vergütung erhalten als der erste Benutzer, der die Daten übermittelt hat, oder keine Vergütung erhalten. So kann beispielsweise einem nachfolgenden Benutzer ein geringerer Betrag vergütet werden, um den nachfolgenden Benutzer dazu anzuregen, sichere Repräsentationen potenziell gestohlener Daten zu übermitteln, auf die der nachfolgende Benutzer zu einem späteren Zeitpunkt Zugriff erhält. Der höhere Betrag für den ersten Benutzer ermutigt Benutzer, Daten schneller zur Verfügung zu stellen, sodass Schutzverletzungen schneller erkannt werden.
In 1 ist eine exemplarische Umgebung 100 dargestellt, bei der ein Schutzverletzungs-Detektionssystem 110 Datenschutzverletzungen erfasst. Das Datenschutzverletzungs-Detektionssystem 110 beinhaltet einen oder mehrere Front-End-Server 112 und einen oder mehrere Schutzverletzungs-Detektionsserver 114. Der Front-End-Server 112 kann Daten über ein Datenkommunikationsnetzwerk 130 senden und empfangen, z. B. ein lokales Netzwerk (LAN), ein Großraumnetzwerk (WAN), das Internet, ein mobiles Netz oder eine Kombination davon. Beispielsweise kann der Front-End-Server 112 potentiell gestohlener Daten 142 und/oder sichere Repräsentationen 146 der potentiell gestohlenen Daten 142 von Computern von Datenfindern 140 und sicheren Repräsentationen 156 von privaten Daten 152 von Computern von Datenbesitzern 150 über das Netzwerk 130 empfangen.
Datenbesitzer, wie Kreditkartenunternehmen, Einzelhändler, Versicherungsgesellschaften, Unternehmen, Geschäfte und/oder andere Organisationen, die private Daten 152 verwalten, die Gegenstand von Schutzverletzungen sein können, können dem Datenschutzverletzungs-Detektionssystem 110 sichere Repräsentationen einiger oder aller ihrer Daten zur Datenschutzverletzungs-Überwachung zur Verfügung stellen. Beispielsweise können diese Organisationen sensible oder private Daten 152 verwalten, wie Kreditkartendaten, persönliche Daten, Personaldaten, empfindliche Dokumente oder andere Daten, die für andere wertvoll sein könnten, falls diese erhalten werden. Die Datenbesitzer können sichere Repräsentationen privater Daten 156 an den Front-End-Server 112 des Datenschutzverletzungs-Detektionssystems 110 unter Verwendung eines Computers 150 übermitteln. Durch die Bereitstellung sicherer Repräsentationen der Daten und nicht der Daten selbst bleiben die privaten Daten 152 privat, und das Datenschutzverletzungs-Detektionssystem 110 oder jemandem, der Zugang zum Datenschutzverletzungs-Detektionssystem 110 hat, wäre es nicht möglich, auf die durch die sicheren Repräsentationen dargestellten privaten Daten zuzugreifen.
Die privaten Daten der Datenbesitzer 152 befinden sich im Allgemeinen in einer Datenbank, z. B. einer SQL-Datenbank, wo diese angegriffen werden können. Die Datenbank kann Datensätze für Einheiten, wie z. B. Kreditkarten, Angestellte, Mitglieder einer Organisation usw. enthalten. Ein Datensatz ist ein Satz von einem oder mehreren einzelnen Datenelementen, die auf eine bestimmte Einheit bezogen sind. Beispielsweise kann eine Datenbank von Kreditkartendaten eine Tabelle mit einem Datensatz (z. B. Reihe) für jede der in der Datenbank gespeicherten Kreditkarte enthalten. Der Datensatz für eine bestimmte Kreditkarte kann auf die Kreditkarte bezogene Daten umfassen, z. B. das Verfallsdatum der Kreditkarte, einen Sicherheitscode für die Kreditkarte, den Namen des Karteninhabers, die Adresse des Karteninhabers und/oder andere Daten, die sich auf den Karteninhaber beziehen.
Die Computer 150 der Datenbesitzer können mit einer sicheren Datenanwendung 154 konfiguriert werden, die als Eingabe private Daten 152 des jeweiligen Datenbesitzers empfängt und eine oder mehrere sichere Repräsentationen 156 der privaten Daten 152 für den Datenbesitzer erzeugt. In einigen Beispielen kann die sichere Datenanwendung 154 die eine oder mehrere sichere Repräsentationen 156 der privaten Daten 152 für den Datenbesitzer auf dem Anwesen des Datenbesitzers erzeugen, ohne die privaten Daten 152 an einen anderen (z. B. einen unsicheren) Ort zu senden. Die Räumlichkeiten des Datenbesitzers können physisches Eigentum des Datenbesitzers sein, z. B. ein oder mehrere Gebäude, Büros, Rechenzentren oder andere Orte, die sich im Besitz des Datenbesitzers befinden, vermietet sind oder vom Datenbesitzer betrieben werden. In einigen Beispielen kann das Datenschutzverletzungs-Detektionssystem 110 die sichere Datenanwendung 154 für den Computer 150 des Datenbesitzers bereitstellen, wenn sich der Datenbesitzer für die Überwachung von Datenschutzverletzungen am Datenschutzverletzungs-Detektionssystem 110 anmeldet. Die sichere Datenanwendung 154 kann, als sichere Repräsentationen, kryptographisch sichere Repräsentationen der privaten Daten 152 erzeugen. Eine kryptographisch sichere Präsentation ist eine Repräsentation, die nicht entschlüsselt werden kann, um die Originaldaten wiederherzustellen, oder die zumindest rechnerisch nicht entschlüsselbar ist. So kann beispielsweise die sichere Datenanwendung 154 eine oder mehrere einseitige kryptografische Hash-Funktionen verwenden, um die privaten Daten 152 auf eine Bitfolge abzubilden, die nicht rückgängig gemacht werden kann.
In einigen Implementierungen kann die sichere Datenanwendung 154 als sichere Repräsentation eine probabilistische Repräsentation der privaten Daten 152 erzeugen. Beispielsweise kann die sichere Datenanwendung 154 eine probabilistische Datenstruktur unter Verwendung einer oder mehrerer kryptographischer Hash-Funktionen erzeugen. In einem besonderen Beispiel kann die sichere Datenanwendung 154 ein Bloom-Filter erzeugen, indem ein Satz von Hash-Funktionen auf die privaten Daten 152 angewendet wird. Ein Beispiel eines Bloom-Filters ist in 2 dargestellt und im Folgenden näher beschrieben. Für sensible Dokumente kann die sichere Datenanwendung 154 Min-Hashes oder Rabin-Fingerabdrücke für jedes Dokument berechnen und diese Min-Hashes oder Fingerabdrücke in den Bloom-Filter einfügen. Andere geeignete Typen von probabilistischen Repräsentationen können auch verwendet werden.
Die sichere Datenanwendung 154 kann eine sichere Repräsentation von privaten Daten 152 von weniger als allen Datenbesitzern erzeugen. Beispielsweise kann der Datenbesitzer global einen repräsentativen Satz der Daten zur Schutzverletzungsüberwachung durch das Datenschutzverletzungs-Detektionssystem 110 auswählen. In einem weiteren Beispiel kann der Datenbesitzer bestimmte Arten von zu überwachenden Daten wie Kreditkarten- und Kundendaten anstelle von Kaufinformationen auswählen. In einem weiteren Beispiel kann die sichere Datenanwendung 154 einen Teil der privaten Daten 152 durch Abtasten (z. B. zufällig jeden N-ten Datensatz oder nach einem anderen geeigneten Verfahren) der privaten Daten 152 auswählen, auf die die sichere Datenanwendung 154 Zugriff hat. Unabhängig davon, wie die Daten ausgewählt wurden, kann die sichere Datenanwendung 154 eine oder mehrere sichere Repräsentationen der ausgewählten Daten erzeugen.
In einigen Implementierungen erzeugt die sichere Datenanwendung 154 eine sichere Repräsentation von Tupeln privater Daten. Wie vorstehend beschrieben, können die privaten Daten basierend auf der Entität organisiert werden. Die sichere Datenanwendung 154 kann ein oder mehrere Tupel von Daten für jede Entität erzeugen und die sichere Repräsentation mit den Tupeln erzeugen. Jedes Tupel kann einen oder mehrere Datentypen umfassen und jedes Tupel kann andere Datentypen umfassen als jedes andere Tupel. In einem Beispiel für Kreditkartendaten kann die sichere Datenanwendung 154 für jede Kreditkarte ein erstes Tupel mit der Kreditkartennummer, dem Karteninhabernamen und der Rechnungsadresse des Karteninhabers und ein zweites Tupel mit der Kreditkartennummer, dem Ablaufdatum und dem Karteninhabernamen erzeugen. Die sichere Datenanwendung 154 kann dann eine sichere Repräsentation (z. B. einen Bloom-Filter) erzeugen, indem diese die Tupel für jedes (oder zumindest einige) dieser Felder für jede Kreditkarte verwendet. Die sichere Datenanwendung 154 erzeugt in einigen Bereichen eine getrennte sichere Repräsentation für jeden Tupel. In einigen Implementierungen erzeugt die sichere Datenanwendung eine sichere Repräsentation, die Daten mehrerer Typen von Tupeln repräsentiert.
Wie im Folgenden näher beschrieben, kann das Erkennungssystem 110, wenn potenziell gestohlene Daten dieselben Tupel von Daten beinhalten, die durch die für einen Datenbesitzer erzeugte sichere Repräsentation dargestellt werden, ermitteln, dass die Daten des Datenbesitzers verletzt wurden. Im Falle des Kreditkartenbeispiels kann, wenn die gestohlenen Daten die Kreditkartennummer, den Namen des Karteninhabers und die Rechnungsadresse des Karteninhabers und/oder die Kreditkartennummer, das Ablaufdatum und den Namen des Karteninhabers für mindestens eine Schwellenanzahl an Kreditkarten umfassen, das Datenschutzverletzungs-Detektionssystem 110 bestimmen, dass die Daten des Kreditkarteninhabers verletzt wurden.
Der Frontend-Server 112 kann sichere Repräsentationen privater Daten von mehreren verschiedenen Datenbesitzern empfangen und die empfangenen sicheren Repräsentationen auf einem oder mehreren Datenspeichergeräten 118 speichern, z. B. auf einer oder mehreren Festplatten, im Flash-Speicher usw. Der Schutzverletzungs-Detektionsserver 114 kann bestimmen, ob die Daten eines oder mehrerer der Datenbesitzer basierend auf potenziell gestohlenen Daten 142 oder sicheren Repräsentationen 146 der potenziell gestohlenen Daten 142, die von Computern 140 von Datenfindern empfangen wurden, verletzt wurden. Datenfinder können Prämienjäger sein, die nach potenziell gestohlenen Daten 142 suchen, die für das Datenschutzverletzungs-Detektionssystem 110 bereitgestellt werden. Wie im Folgenden näher beschrieben, kann das Datenschutzverletzungs-Detektionssystem 110 beispielsweise Datenfindern, die Daten oder sichere Repräsentationen von Daten bereitstellen, die zur Erkennung einer Datenschutzverletzung für einen Datenbesitzer verwendet werden, eine Entschädigung oder Belohnung bieten. Die Prämienjäger können nach gestohlenen Daten suchen, z. B. in Untergrund-Foren oder im „Dark Web“, um die Entschädigung oder Belohnung zu erhalten. Die Datenfinder können auch andere Benutzer einbeziehen, z. B. Benutzer, die zufällig in Internetforen oder an anderen Orten auf möglicherweise gestohlene Daten stoßen.
Die Computer der Datenfinder 140 beinhalten eine sichere Datenanwendung 144, die mit der sicheren Datenanwendung 154 auf den Computern der Datenbesitzer identisch oder diesen ähnlich sein kann. Die sichere Datenanwendung 154 kann sichere Repräsentationen von potentiell gestohlenen Daten 142 erzeugen. So kann beispielsweise ein Datenfinder potenziell gestohlene Daten, die in einem Internetforum gefunden wurden, als Eingabe für die sichere Datenanwendung 154 bereitstellen. Die potentiell gestohlenen Daten können mehrere Datensätze umfassen. So können beispielsweise die gestohlenen Daten einen Datensatz für jede gestohlene Kreditkartennummer beinhalten und jeder Datensatz kann Daten, die sich auf die gestohlene Kreditkartennummer beziehen, z. B. das Ablaufdatum der Kreditkarte, einen Sicherheitscode für die Kreditkarte, den Namen des Karteninhabers, die Adresse des Karteninhabers und/oder andere vom Datenfinder gefundene Daten umfassen. Da ein Hacker nur eine kleine Teilmenge gestohlener Daten für Authentifizierungszwecke bereitstellen kann, können die gestohlenen Daten in einem anderen Format vorliegen als in dem Format, in dem sich die Daten beim Diebstahl befanden und können unvollständige Daten für jeden Datensatz beinhalten.
Die sichere Datenanwendung 144 kann unter Verwendung der möglicherweise gestohlenen Daten als Eingabe eine oder mehrere sichere Repräsentationen jedes Datensatzes erzeugen. Die sichere Datenanwendung 144 kann die sicheren Repräsentationen jedes Datensatzes mit den gleichen Techniken (z. B. gleiche Hash-Funktion(en)) wie die sichere Datenanwendung 144 erzeugen. Erzeugt die sichere Datenanwendung 154 beispielsweise Bloom-Filter von privaten Daten, die von Datenbesitzern empfangen wurden, kann die sichere Datenanwendung 144 einen Bloom-Filter für jeden Datensatz der gestohlenen Daten erzeugen. In ähnlicher Weise kann, falls die sichere Datenanwendung 154 Tupel für jeden Datensatz und die sichere Repräsentation 156 der privaten Daten 152 mit den Tupeln erzeugt, die sichere Anwendung 144 für jeden Datensatz der potenziell gestohlenen Daten 142 die gleiche Art von Tupeln (z. B. mit den gleichen Datentypen) und eine sichere Repräsentation jedes Tupels erzeugen. Auf diese Weise können die sicheren Repräsentationen 146 (z. B. Bloom-Filter) der potenziell gestohlenen Daten 142 mit den sicheren Repräsentationen 156 der privaten Daten 152 verglichen werden, um zu ermitteln, ob eine Datenschutzverletzung eines oder mehrerer Datenbesitzer vorliegt, wie im Folgenden näher beschrieben.
Die Computer der Datenfinder 140 senden die sicheren Repräsentationen 146 der potenziell gestohlenen Daten 142 über das Netzwerk 130 an den Frontend-Server 112. Der Frontend-Server 112 kann die sicheren Repräsentationen optional in einem oder mehreren Datenspeichern 116 speichern, z. B. auf einer oder mehreren Festplatten, im Flash-Speicher usw. Die von einem bestimmten Datenfinder bereitgestellten sicheren Repräsentationen können zusammen als ein Satz sicherer Repräsentationen gespeichert werden, sodass die sicheren Repräsentationen für den jeweiligen Datenfinder mit den sicheren Repräsentationen von Datenbesitzern verglichen werden können, um zu ermitteln, ob die sicheren Repräsentationen des jeweiligen Datenfinders darauf hindeuten, dass eine Schutzverletzung der Daten eines Datenbesitzers vorliegt. In einigen Implementierungen können die sicheren Repräsentationen 146 verwendet werden, um Schutzverletzungen zu erkennen, wenn diese empfangen werden, und werden möglicherweise nicht dauerhaft vom Datenschutzverletzungs-Detektionssystem 110 gespeichert.
In einigen Implementierungen identifiziert die von den Computern 140 der Datenfinder gesendete sichere Repräsentation 146 Datenelemente (z. B. Bits) von sicheren Repräsentationen, die einen bestimmten Wert haben. Beispielsweise kann die sichere Datenanwendung 144 für jeden Datensatz ein Bloom-Filter erzeugen. Der Bloom-Filter kann eine Reihe von Elementen beinhalten, wobei bestimmte Elemente einen bestimmten Wert, basierend auf dem durch den Bloom-Filter dargestellten Datensatz, besitzen. Anstatt den Bloom-Filter selbst zu senden, können die Datenfinder-Computer 140 für jeden Datensatz Daten senden, die die Elemente (z. B. Bits) des Bloom-Filters angeben, die den jeweiligen Wert haben.
Der Schutzverletzungs-Detektionsserver 114 kann bestimmen, ob eine Schutzverletzung der Daten eines oder mehrerer Datenbesitzer aufgetreten ist, indem dieser die von den Datenbesitzern empfangenen sicheren Repräsentationen 156 und die von den Datenfindern empfangenen sicheren Repräsentationen 146 verwendet. In einigen Implementierungen vergleicht der Schutzverletzungs-Detektionsserver 114 die von einem bestimmten Datenfinder empfangenen sicheren Repräsentationen mit der von einem oder mehreren der Datenbesitzer empfangenen sicheren Repräsentation, um zu ermitteln, ob der jeweilige Datenfinder Daten bereitgestellt hat, die auf eine Datenschutzverletzung für den einen oder die mehreren Datenbesitzer hinweisen. Wie vorstehend beschrieben, kann die sichere Datenanwendung 144 eine sichere Repräsentation jedes Datensatzes der potenziell gestohlenen Daten erzeugen, die von einem Datenfinder gefunden wurden. Der Datenschutzverletzungs-Detektionsserver 114 kann die sichere Repräsentation für jeden vom jeweiligen Datenfinder empfangenen Datensatz mit der von einem Datenbesitzer empfangenen sicheren Repräsentation vergleichen.
Wenn mindestens eine Schwellenwertnummer der vom jeweiligen Datenfinder empfangenen sicheren Repräsentationen mit einem entsprechenden Teil der sicheren Repräsentation eines bestimmten Datenbesitzers übereinstimmt, kann der Schutzverletzungs-Detektionsserver 114 bestimmen, dass eine Schutzverletzung der Daten des bestimmten Datenbesitzers vorliegt. So kann beispielsweise der jeweilige Datenfinder für jede der oft gestohlenen Sozialversicherungsnummern und den zugehörigen Daten (z. B. Namen, Adressen usw.) eine sichere Repräsentation bereitstellen. Ebenso kann der jeweilige Datenbesitzer eine sichere Repräsentation der Daten seiner Kunden, einschließlich Sozialversicherungsnummern, Namen, Adressen usw., bereitgestellt haben. Wenn mindestens eine Schwellenwertnummer (z. B. 5, 7 oder eine andere geeignete Schwelle) der vom jeweiligen Datenfinder empfangenen sicheren Repräsentationen mit den entsprechenden Teilen der vom jeweiligen Datenbesitzer empfangenen sicheren Repräsentation übereinstimmt, kann das Schutzverletzungs-Detektionssystem 110 ermitteln, dass eine Schutzverletzung der Daten des jeweiligen Datenbesitzers vorliegt, da der jeweilige Datenfinder eine ausreichende Menge an Daten des Datenbesitzers gefunden hat. Diese Verwendung eines Schwellenwerts verhindert, dass ein Benutzer lediglich sichere Repräsentationen seiner eigenen Daten übermittelt, um eine Entschädigung oder Belohnung zu erhalten.
Die Schwelle zur Ermittlung, ob für jeden Datenbesitzer eine Schutzverletzung aufgetreten ist, kann ein vom Datenbesitzer festgelegter Wert sein. So kann beispielsweise jeder Datenbesitzer seinen eigenen Schwellenwert festlegen. In einigen Implementierungen kann sich der Schwellenwert auf die Anzahl der Dateneinträge beziehen, die durch die sicheren Repräsentationen der potenziell gestohlenen Daten dargestellt werden, wobei eine Mindestanzahl erforderlich ist. So kann beispielsweise der Schwellenwert ein Prozentsatz (z. B. 80 %, 90 % oder ein anderer angemessener Prozentsatz) der von der betroffenen Person empfangen sicheren Repräsentationen sein, aber mindestens zehn übereinstimmende sichere Repräsentationen. In einem bestimmten Beispiel kann ein Datenfinder zwanzig sichere Repräsentationen bereitstellen, die zwanzig gestohlene Kreditkartennummern und die dazugehörigen Karteninhaber- und Ablaufinformationen darstellen. Wenn der Schwellenprozentsatz achtzig Prozent beträgt und die Mindestanzahl der übereinstimmenden sicheren Repräsentationen zehn beträgt, kann der Schutzverletzungs-Detektionsserver 114 bestimmen, dass eine Schutzverletzung aufgetreten ist, wenn sechzehn der vom Datenfinder empfangenen sicheren Repräsentationen mit den entsprechenden Teilen der von einem Datenbesitzer bereitgestellten sicheren Repräsentation übereinstimmen. In diesem gleichen Beispiel, wenn ein Datenfinder zehn sichere Repräsentationen bereitstellt, die zehn gestohlene Kreditkartennummern darstellen, kann der Schutzverletzungs-Detektionsserver 114 bestimmen, dass eine Schutzverletzung nur dann aufgetreten ist, wenn alle zehn mit der sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer bereitgestellt wird, da die Mindestanzahl zehn ist.
Wenn der Schutzverletzungs-Detektionsserver 114 ermittelt, dass ein Datenbesitzer eine Datenschutzverletzung erlitten hat, kann der Schutzverletzungs-Detektionsserver 114 über den Frontend-Server 112 und das Netzwerk 130 eine Schutzverletzungsbenachrichtigung 158 an den Computer 150 (oder eine andere Vorrichtung) des Datenbesitzers senden. So kann beispielsweise der Frontend-Server 112 eine E-Mail an eine E-Mail-Adresse des Datenbesitzers, eine SMS-Textnachricht an ein Mobiltelefon des Datenbesitzers oder eine andere Art von Benachrichtigung senden. Die Schutzverletzungsbenachrichtigung 158 kann angeben, dass eine Schutzverletzung vorliegt. Wenn der Datenbesitzer mehrere sichere Repräsentationen zur Verfügung stellte, eine für jeden einzelnen Datensatz oder Datentyp, kann die Schutzverletzungsbenachrichtigung 158 angeben, bei welchem Datensatz eine Schutzverletzung vorliegt.
In einigen Implementierungen kann der Schutzverletzungs-Detektionsserver 114 auch die von der Datenschutzverletzung betroffenen Personen benachrichtigen. So kann beispielsweise ein Datenbesitzer Kontaktdaten (z. B. E-Mail-Adresse, Mobiltelefonnummern usw.) für seine Kunden bereitstellen, deren Daten durch eine sichere Repräsentation dargestellt werden. Wenn der Schutzverletzungs-Detektionsserver 114 feststellt, dass eine Schutzverletzung der durch die sichere Repräsentation dargestellten Daten vorliegt, kann der Schutzverletzungs-Detektionsserver 114 unter Verwendung der Kontaktdaten Benachrichtigungen an die betroffenen Personen senden. In diesen Benachrichtigungen kann angegeben werden, dass deren Daten möglicherweise gefährdet sind, und sie enthalten Anweisungen zur Behebung der Situation. Wurden beispielsweise die Identitäten der Personen (z. B. Name und Sozialversicherungsnummern) gestohlen, können die Benachrichtigungen einen Link zu einem Identitäts-Diebstahldienst enthalten.
Ein Datenbesitzer kann sichere Repräsentationen von gestohlenen Daten verwenden, die mit seinen sicheren Repräsentationen von privaten Daten übereinstimmen, um Personen zu identifizieren, deren Daten gestohlen wurden, und die Personen zu benachrichtigen. Wie vorstehend beschrieben, können die von den Datenfindern empfangenen sicheren Repräsentationen für bestimmte Datensätze sein. Der Datenbesitzer kann die gleichen kryptographischen Techniken (z. B. die gleichen Hash-Funktionen) verwenden, um eine sichere Repräsentation der Daten jeder Person zu erzeugen. Der Datenbesitzer kann dann die vom Datenfinder empfangenen sicheren Repräsentationen mit der sicheren Repräsentation für jede Person vergleichen, um die Personen zu identifizieren, deren Daten gestohlen wurden. Wenn eine von einem Datenfinder empfangene sichere Repräsentation mit einer für eine bestimmte Person erzeugten sicheren Repräsentation übereinstimmt, können die durch die vom Datenfinder empfangene sichere Repräsentation dargestellten Daten als der jeweiligen Person entsprechend betrachtet werden. Da dieser Prozess vom Datenbesitzer und nicht vom Datenschutzverletzungs-Detektionssystem 110 durchgeführt werden kann, kann es sein, dass das Datenschutzverletzungs-Detektionssystem 110 keine der vom Datenbesitzer verwalteten privaten Daten empfängt.
In einem weiteren Beispiel kann ein Datenbesitzer eine oder mehrere individuelle sichere Repräsentationen für jeden Datenbanksatz in seiner Datenbank bereitstellen. Jede sichere Repräsentation kann mit einer Kennung für den entsprechenden Datenbanksatz verknüpft werden. Die sicheren Repräsentationen der potenziell gestohlenen Daten können mit den einzelnen sicheren Repräsentationen verglichen werden. Wenn eine Übereinstimmung vorliegt, kann das Schutzverletzungs-Detektionssystem 110 dem Datenbesitzer die Kennungen für die Datenbanksätze zur Verfügung stellen, die eine sichere Repräsentation aufweisen und die einer sicheren Repräsentation potenziell gestohlener Daten entspricht. Der Datenbesitzer kann mit der/den Kennung(en) die Person(en) identifizieren, die den durch die empfangene(n) Kennung(en) identifizierten Datenbanksätzen zugeordnet sind, und die Person(en) über die Schutzverletzung informieren.
In einigen Fällen können sichere Repräsentationen von potenziell gestohlenen Daten, die von einem bestimmten Datenfinder empfangen wurden, mit den sicheren Repräsentationen übereinstimmen, die von mehreren verschiedenen Datenbesitzern empfangen wurden. Beispielsweise können Kreditkartendaten von einem Einzelhändler gestohlen werden und Kreditkartennummern von Kreditkarten beinhalten, die von einem oder mehreren Kreditkartenunternehmen ausgegeben wurden. In diesem Beispiel können sichere Repräsentationen von Kreditkartendaten, die in den vom Einzelhändler gestohlenen Daten enthalten sind, mit sicheren Repräsentationen von privaten Daten übereinstimmen, die sowohl vom Einzelhändler als auch von einem oder mehreren Kreditkartenunternehmen empfangen wurden.
In Fällen, in denen mindestens eine Schwellenwertnummer der von einem Datenfinder empfangenen sicheren Repräsentationen mit entsprechenden Teilen der von zwei oder mehr verschiedenen Datenbesitzern empfangenen sicheren Repräsentationen übereinstimmt, kann der Schutzverletzungs-Detektionsserver 114 jeden der zwei oder mehr Datenbesitzer über deren jeweilige Schutzverletzungen informieren. In einigen Implementierungen kann der Schutzverletzungs-Detektionsserver 114 ermitteln, von welchem der beiden oder mehreren Datenbesitzer die Daten gestohlen wurden (oder von welchem Datenbesitzer die Daten höchstwahrscheinlich gestohlen wurden) und diesen Datenbesitzer über die Schutzverletzung informieren. So kann beispielsweise der Schutzverletzungs-Detektionsserver 114 für jeden der beiden oder mehreren Datenbesitzer eine Anzahl sicherer Repräsentationen ermitteln, die vom Datenfinder empfangen wurden und mit den entsprechenden Teilen der vom Datenbesitzer empfangenen sicheren Repräsentation übereinstimmen. Der Schutzverletzungs-Detektionsserver 114 kann den Datenbesitzer, bei dem die Schutzverletzung vorliegt, als den Datenbesitzer mit der höchsten Anzahl von Übereinstimmungen auswählen.
In einigen Implementierungen werden Datenfinder mit einem Schutzverletzungsbetrag 148 (z. B. einem Geldbetrag oder einer Belohnungssumme) für die Bereitstellung potenziell gestohlener Daten und/oder sicherer Repräsentationen potenziell gestohlener Daten entschädigt oder belohnt. So kann beispielsweise das Datenschutzverletzungs-Detektionssystem 110 für Datenschutzverletzungen eine finanzielle Kompensation (z. B. in Form einer digitalen Währung) für einen Datenfinder bereitstellen, der sichere Repräsentationen bereitstellt, die zur Erkennung einer Datenschutzverletzung verwendet werden. Die Höhe der Entschädigung kann ein im Voraus festgelegter Betrag für jede Schutzverletzung sein. So kann beispielsweise das Schutzverletzungs-Detektionssystem 110 einen bestimmten Betrag bereitstellen, unabhängig von der Art der Schutzverletzung oder der Schwere der Schutzverletzung.
Datenbesitzer können verpflichtet werden, Gebühren an das Datenschutzverletzungs-Detektionssystem 110 zu zahlen, die zur Entschädigung der Datenfinder verwendet werden. So können beispielsweise Datenbesitzer verpflichtet werden, periodische Gebühren (z. B. monatlich oder jährlich) zu zahlen, um sichere Repräsentationen ihrer Daten durch das Datenschutzverletzungs-Detektionssystem 110 überwachen zu lassen. In einem weiteren Beispiel können Datenbesitzer nur dann zur Zahlung einer Gebühr verpflichtet sein, wenn eine Schutzverletzung gegen die Daten des Datenbesitzers durch den Schutzverletzungs-Detektionsserver 114 festgestellt wird. In noch einem weiteren Beispiel können die Datenbesitzer zur Zahlung einer periodischen Gebühr und einer Gebühr in Reaktion auf eine Schutzverletzung der Daten des Datenbesitzers verpflichtet werden, die vom Schutzverletzungs-Detektionsserver 114 festgestellt wird.
In einigen Implementierungen basiert der Schutzverletzungsbetrag 148 auf der Art der Daten, die durch eine Schutzverletzung betroffen sind. Ähnlich kann sich die von den Datenbesitzern gezahlte Gebühr nach der Art der zu überwachenden Daten oder der Art der Daten, die einer Schutzverletzung unterliegen können, richten. So kann beispielsweise das Datenschutzverletzungs-Detektionssystem 110 Datenfindern, die sichere Repräsentationen zum Erkennen von Kreditkartenverstößen bereitstellen, einen ersten Betrag, und Datenfindern, die sichere Repräsentationen zum Erkennen von Schutzverletzungen bereitstellen, einen zweiten Betrag, der sich von dem ersten Betrag unterscheidet, bereitstellen.
Der Schutzverletzungsbetrag 148 kann sich auf die Anzahl der sicheren Repräsentationen (oder die Anzahl der Datensätze) beziehen, die von einem Datenfinder empfangen wurden und mit den sicheren Repräsentationen übereinstimmen, die von Datenbesitzern empfangen wurden. So kann beispielsweise ein Datenfinder, der sichere Repräsentationen von Daten für 1.000 Kreditkarten und 9.900 übereinstimmende sichere Repräsentationen von Datenbesitzern bietet, einen höheren Schutzverletzungsbetrag empfangen als ein Datenfinder, der sichere Repräsentationen von Daten für 100 Kreditkarten und 90 übereinstimmende sichere Repräsentationen von Datenbesitzern bietet.
In einigen Implementierungen basiert der Schutzverletzungsbetrag 148 auf einem vom Datenfinder angegebenen Betrag. So kann beispielsweise ein Datenfinder sichere Repräsentationen potenziell gestohlener Daten liefern und einen bestimmten Betrag anfordern, damit seine sichere Repräsentation mit den Daten des Datenbesitzers verglichen werden kann. Der Datenfinder kann auch die Art der Daten angeben, die durch die sicheren Repräsentationen dargestellt werden (z. B. Kreditkartendaten, Identitätsdaten, usw.). Das Datenschutzverletzungs-Detektionssystem 110 kann dann die Datenbesitzer fragen, ob diese den Betrag zahlen möchten, damit ihre Daten anhand der sicheren Repräsentationen überprüft werden können. Der Betrag kann für verschiedene Arten von Daten unterschiedlich sein, z. B. kann der Betrag für Namen von Kunden oder Mitarbeitern geringer sein als für Kreditkartennummern oder Sozialversicherungsnummern. Der Schutzverletzungs-Detektionsserver 114 darf nur die vom Datenfinder empfangenen sicheren Repräsentationen mit den sicheren Repräsentationen der Datenbesitzer vergleichen, die sich bereit erklärt haben, den Betrag zu zahlen, um ihre Daten anhand der sicheren Repräsentationen prüfen zu lassen.
In einem weiteren Beispiel kann der Datenfinder einen bestimmten Betrag für die Erkennung einer Schutzverletzung unter Verwendung der vom Datenfinder empfangenen sicheren Repräsentationen anfordern. In diesem Beispiel kann der Schutzverletzungs-Detektionsserver 114 nur die vom Datenfinder empfangenen sicheren Repräsentationen mit den sicheren Repräsentationen der Datenbesitzer vergleichen, die sich bereit erklärt haben, den Betrag zu zahlen, wenn eine Schutzverletzung für ihre Daten ermittelt wird.
In einigen Fällen können mehrere Datenfinder die gleichen sicheren Repräsentationen der gleichen potenziell gestohlenen Daten bereitstellen. So können beispielsweise zwei verschiedene Datenfinder in einem Untergrund-Forum auf die gleichen Daten stoßen. In diesem Beispiel kann das Datenschutzverletzungs-Detektionssystem 110 dem ersten Datenfinder den Schutzverletzungsbetrag 148 zur Verfügung stellen, um die sicheren Repräsentationen der möglicherweise gestohlenen Daten bereitzustellen. Das Datenschutzverletzungs-Detektionssystem 110 kann nachfolgenden Datenfindern, die dieselben sicheren Repräsentationen liefern, einen Betrag zur Verfügung stellen, der niedriger ist als der Schutzverletzungsbetrag 148 oder keine Entschädigung oder Belohnung. In einem weiteren Beispiel kann der Schutzverletzungsbetrag 148 zwischen den mehreren Datenfindern aufgeteilt werden, wobei der erste Datenfinder einen höheren Prozentsatz des Schutzverletzungsbetrags 148 erhält. Dieser Unterschied im Kompensationsbetrag veranlasst Datenfinder, schnell eine sichere Repräsentation potenziell gestohlener Daten zu liefern, was zu einer schnelleren Erkennung von Datenschutzverletzungen und weniger Schäden durch die Schutzverletzung führt.
In einigen Implementierungen kann das Datenschutzverletzungs-Detektionssystem 110 als Vermittler zwischen Datenfindern und Datenbesitzern fungieren. Wenn beispielsweise sichere Repräsentationen, die von einem Datenfinder empfangen werden, verwendet werden, um eine Datenschutzverletzung für einen Datenbesitzer zu erkennen, kann das Datenschutzverletzungs-Detektionssystem 110 die Verhandlungen zwischen dem Datenfinder und dem Datenbesitzer über einen Schutzverletzungsbetrag 148 erleichtern. Das Datenschutzverletzungs-Detektionssystem 110 kann auch Zahlungsdetails des Datenfinders an den Datenbesitzer weitergeben. Auf diese Weise kann der Datenbesitzer den Schutzverletzungsbetrag direkt an den Datenfinder weiterleiten. Dies entlastet das Datenschutzverletzungs-Detektionssystem 110 davon, dass es schädigenden Parteien, die möglicherweise sichere Repräsentationen von Daten liefern, die von einer anderen schädigenden Partei gestohlen wurden, Schadenersatz leisten muss. Dieser Vermittlerprozess ermöglicht es dem Datenfinder und dem Datenbesitzer, anonym zu bleiben. Während der Tätigkeit als Vermittler kann es beispielsweise vorkommen, dass das Datenschutzverletzungs-Detektionssystem 110 nicht die Identität des Datenfinders dem Datenbesitzer oder nicht die Identität des Datenbesitzers dem Datenfinder zur Verfügung stellt.
2 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses 200 zur Erzeugung eines Bloom-Filters 240 und Verwendung des Bloom-Filters 240 zur Erfassung von Datenschutzverletzungen. Das exemplarische Bloom-Filter 240 ist eine sichere Repräsentation von Daten, die in einer Datenbank 210 von Daten enthalten sind, die von einem Datenbesitzer verwaltet werden. Die Beispieldatenbank 210 enthält Daten zu einer Reihe von Personen, einschließlich deren Namen, nationale Identifikationsnummern (z. B. Sozialversicherungsnummern), Kreditkartennummern und Adressen.
Die Datenbank 210 enthält einen Datensatz für jede Person. In diesem Beispiel ist jede Zeile ein Datensatz für eine andere Person. Ein erster Datensatz 211 enthält Daten für „John Doe“, ein zweiter Datensatz 212 enthält Daten für „Jane Doe“ und ein dritter Datensatz enthält Daten für „Jack Doe“. Natürlich kann die Datenbank 210 weniger oder viel mehr Datensätze und/oder andere Arten von Daten enthalten.
Ein Satz von Tupeln 220 wird aus den in der Datenbank 210 gespeicherten Daten erzeugt. So kann beispielsweise die sichere Datenanwendung 154 von 1 den Satz von Tupeln 220, basierend auf den in der Datenbank 210 gespeicherten Daten und vordefinierten Tupeltypen, erzeugen. Ein Tupeltyp legt die Arten von Daten fest, die in jedes Tupel aufgenommen werden sollen. In diesem Beispiel sind die Tupeltypen „Name, nationale Identifikationsnummer“, „Name, Kreditkartennummer, Adresse“ und „Nationale Identifikationsnummer, Kreditkartennummer, Adresse“. Für jeden Datensatz in der Datenbank kann ein Tupel jeder Art generiert werden. Somit kann der Satz der Tupel 220 drei Tupel für jeden Datensatz beinhalten, eines von jedem Typ.
In einigen Implementierungen wird ein Satz von Hash-Funktionen 310 auf die Tupel im Satz von Tupeln 210 angewendet, z. B. durch die sichere Datenanwendung 154 in 1, um den Bloom-Filter 240 zu erzeugen. In diesem Beispiel beinhaltet der Satz der Hash-Funktionen 230 drei verschiedene Hash-Funktionen. Jede Hash-Funktion hascht ein Tupel von Daten auf eines der Elemente des Bloom-Filters 240. In diesem Beispiel beinhaltet der Bloom-Filter 240 zwölf Elemente. Die Anzahl der Hash-Funktionen im Satz der Hash-Funktionen 230 und die Anzahl der Elemente im Bloom-Filter 240 können, basierend auf der gewünschten Falsch-Positiv-Rate des Bloom-Filters, ausgewählt werden. So kann beispielsweise die Falsch-Positiv-Rate mit einer Erhöhung der Anzahl der Elemente im Bloom-Filter oder einer Verringerung der Anzahl der Hash-Funktionen reduziert werden. Ein Beispiel für eine Falsch-Positiv-Übereinstimmung des Bloom-Filters 240 wird im Folgenden beschrieben.
Ein Bloom-Filter 240 ist eine Anordnung von Elementen, wobei jedes Element einen entsprechenden Wert besitzt. Zunächst kann jedes Element des Bloom-Filters einen Wert von Null haben. Jede Hash-Funktion kann auf jedes Tupel von Daten angewendet werden. Basierend auf der Anwendung, setzt jede Hash-Funktion ein Element des Bloom-Filters 240 auf einen bestimmten Wert, z. B. auf einen Wert von eins. Da der Satz der Hash-Funktionen 230 drei Hash-Funktionen beinhaltet, kann der Satz der Hash-Funktionen bis zu drei Elemente des Bloom-Filters 240 für jedes Tupel einstellen. So kann beispielsweise die erste Hash-Funktion eines der Elemente des Bloom-Filters 240 auf einen Wert von eins, basierend auf den Daten in einem bestimmten Tupel, einstellen, während die zweite Hash-Funktion ein anderes Element des Bloom-Filters 240 auf einen Wert von eins, basierend auf den Daten im jeweiligen Tupel, einstellen kann.
Um festzustellen, ob ein Satz potenziell gestohlener Daten 250 eine Schutzverletzung der in der Datenbank 210 gespeicherten Daten darstellt, können die potenziell gestohlenen Daten 250 auf ähnliche Weise verarbeitet werden wie die in der Datenbank 210 gespeicherten Daten, um den Bloom-Filter 240 zu erzeugen. Insbesondere kann ein Satz von Tupeln 260 unter Verwendung der potentiell gestohlenen Daten 250 erzeugt werden. Die Arten von Tupeln im Satz von Tupeln 260 sind die gleichen wie die Arten von Tupeln im Satz von Tupeln 220. Das heißt, die Tupeltypen im Satz der Tupel 260 sind „Name, nationale Identifikationsnummer“, „Name, Kreditkartennummer, Adresse“ und „Nationale Identifikationsnummer, Kreditkartennummer, Adresse“. Die sichere Datenanwendung 144 von 1 kann den Satz von Tupeln 220, basierend auf den potenziell gestohlenen Daten 250 und den vordefinierten Tupeltypen, erzeugen.
Die sichere Datenanwendung 144 kann jede Hash-Funktion eines Satzes von Hash-Funktionen 270 auf jedes Tupel im Satz von Tupeln 260 anwenden. Der Satz der Hash-Funktionen 270 kann derselbe sein wie der Satz der Hash-Funktionen 230, der zum Erstellen des Bloom-Filters 240 verwendet wird. Die Ausgabe der drei Hash-Funktionen für ein bestimmtes Tupel setzt die Werte von drei Elementen eines Bloom-Filters 280, der das jeweilige Tupel repräsentiert. Der Bloom-Filter 280 für das Tupel kann dann mit dem Bloom-Filter 240 für die Datenbank 210 verglichen werden. Alternativ können die für das Tupel von dem Datenfinder berechneten Werte einfach an den Lieferanten gesendet werden, wo diese verwendet werden können, um nach einer Übereinstimmung in dem/den Bloom-Filter(n) des Lieferanten zu suchen. In diesen Beispielen stellt der Bloom-Filter 280 das erste Tupel dar, das für den Datensatz für „John Doe“ in den gestohlenen Daten 250 erzeugt wurde, was dem Datensatz für „John Doe“ in der Datenbank 210 entspricht. Somit werden die Elemente, die im Bloom-Filter 280 auf einen Wert von eins gesetzt sind, auch im Bloom-Filter 240 auf einen Wert von eins gesetzt. Da die Bits des Bloom-Filters 280, die auf einen Wert von eins gesetzt sind, auch im Bloom-Filter 240 auf einen Wert von eins gesetzt sind, kann man sagen, dass der Bloom-Filter 280 einem entsprechenden Abschnitt des Bloom-Filters 240 entspricht. Der entsprechende Abschnitt des Bloom-Filters 240 ist der Abschnitt des Bloom-Filters 280 mit den gleichen Elementen wie die Elemente, die im Bloom-Filter 240 auf den Wert eins eingestellt sind. Dieser Bloom-Filter ermöglicht es, zu testen, ob ein potenziell gestohlener Datensatz ein Element eines Datensatzes ist, der durch einen Bloom-Filter repräsentiert wird.
In einigen Implementierungen kann der Schutzverletzungs-Detektionsserver 114 von 1 vom Computer 140 eines Datenfinders und für jedes Daten-Tupel Daten empfangen, die die Elemente des Bloom-Filters spezifizieren, die auf einen Wert von eins, basierend auf dem Tupel von Daten, eingestellt wurden. So kann beispielsweise der Computer 140 des Datenfinders Daten bereitstellen, die die Elemente 7, 9 und 11 des ersten Tupels spezifizieren, das Daten über „John Doe“ enthält, da der Bloom-Filter 280 in den Elementen 7, 9 und 11 einen Wert von eins hat. Der Schutzverletzungs-Detektionsserver 114 wiederum kann die Elemente des Bloom-Filters 240 auswerten, um festzustellen, ob die Elemente 7, 9 und 11 den Wert eins haben. Wenn jedes der Elemente 7, 9 und 11 des Bloom-Filters 240 einen Wert von eins hat, kann der Schutzverletzungs-Detektionsserver 114 bestimmen, dass die sichere Repräsentation (d. h., der Bloom-Filter 280) für das erste Tupel von Daten mit dem entsprechenden Abschnitt des Bloom-Filters 240 übereinstimmt, und dass das erste Tupel von Daten in den Daten des Datenbesitzers enthalten ist.
3 stellt ein Ablaufdiagramm eines exemplarischen Prozesses zur Erfassung von Datenschutzverletzungen dar. Die Vorgänge des Prozesses 300 können beispielsweise durch ein System realisiert werden, das eine oder mehrere Datenverarbeitungsvorrichtungen beinhaltet, wie beispielsweise das Datenschutzverletzungs-Detektionssystem 110 aus 1. Der Prozess 300 kann auch durch Anweisungen implementiert werden, die auf einem Computerspeichermedium gespeichert sind, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die Operationen des Prozesses 300 auszuführen.
Das System empfängt sichere Repräsentationen der auf Schutzverletzungen zu überwachenden Daten von den Datenbesitzern (302). So können beispielsweise mehrere Datenbesitzer, z. B. Kreditkartenunternehmen, Einzelhändler, Versicherungsgesellschaften, Unternehmen, Geschäfte und/oder andere Organisationen, einen vom System bereitgestellten Datenschutzverletzungs-Überwachungsdienst abonnieren. Die Datenbesitzer können eine Abonnementgebühr (z. B. eine periodische Gebühr) für die Überwachung ihrer Daten oder eine Gebühr in Reaktion auf die Feststellung einer Schutzverletzung ihrer Daten zahlen,
Jeder Datenbesitzer kann eine sichere Datenanwendung verwenden, wie beispielsweise die sichere Datenanwendung 154 von 1, um eine oder mehrere sichere Repräsentationen von mindestens einem Teil der Daten des Datenbesitzers zu erzeugen. Die sicheren Repräsentationen können kryptografisch sichere Repräsentationen sein. So können beispielsweise die sicheren Repräsentationen probabilistische Repräsentationen, wie z. B. Bloom-Filter sein, wie vorstehend beschrieben. Jeder Datenbesitzer kann seine sichere Repräsentation gegenüber dem System zur Überwachung von Datenschutzverletzungen bereitstellen,
Das System empfängt sichere Repräsentationen von Datensätzen von einem Benutzer (304), z. B. kann der Benutzer ein Prämienjäger sein, der Untergrund-Foren und das Dark Web nach gestohlenen Daten durchsucht, die Hacker zu verkaufen versuchen; wenn der Benutzer potenziell gestohlene Daten findet, kann der Benutzer eine sichere Anwendung, wie die sichere Anwendung 144 aus 1, verwenden, um sichere Repräsentationen der Daten zu generieren und die sicheren Repräsentationen an das System zu senden. In einem weiteren Beispiel kann der Benutzer die tatsächlichen Daten senden, die der Benutzer gefunden hat, und das System kann die sichere Datenanwendung verwenden, um die sicheren Repräsentationen der Daten zu erzeugen.
Die sicheren Repräsentationen der potenziell gestohlenen Daten können im gleichen Format sein wie die sicheren Repräsentationen der Daten der Datenbesitzer. Werden beispielsweise die Daten der Datenbesitzer durch Bloom-Filter dargestellt, kann die sichere Repräsentation jedes potenziell gestohlenen Datensatzes auch durch einen Bloom-Filter dargestellt werden.
Das System bestimmt, ob die sicheren Repräsentationen der potenziell gestohlenen Daten mit der sicheren Repräsentation der Daten eines Datenbesitzers übereinstimmen (306). In einigen Implementierungen bestimmt das System, dass für einen Datenbesitzer eine Schutzverletzung aufgetreten ist, wenn mindestens eine Schwellenwertanzahl an sicheren Repräsentationen potenziell gestohlener Daten mit entsprechenden Teilen der sicheren Repräsentation des Datenbesitzers übereinstimmt. So kann das System beispielsweise jede sichere Repräsentation (z. B. jeden Bloom-Filter) eines potenziell gestohlenen Datensatzes mit der sicheren Repräsentation (z. B. Bloom-Filter) des Datenbesitzers vergleichen. Für jede sichere Repräsentation eines potenziell gestohlenen Datensatzes, der mit dem entsprechenden Teil der sicheren Repräsentation des Datenbesitzers übereinstimmt, kann das System einen Zähler der Anzahl der übereinstimmenden sicheren Repräsentationen zwischen den potenziell gestohlenen Daten und den Daten des Datenbesitzers erhöhen. Wenn die Zählung den Schwellenwert nicht überschreitet, kann das System ermitteln, dass die sicheren Repräsentationen der potenziell gestohlenen Daten nicht mit der sicheren Repräsentation der Daten eines Datenbesitzers übereinstimmen.
In einem weiteren Beispiel kann das System bestimmen, dass eine Schutzverletzung aufgetreten ist, wenn mindestens ein Schwellenwert von einem Prozentsatz der sicheren Repräsentationen potenziell gestohlener Daten mit entsprechenden Teilen der sicheren Repräsentation des Datenbesitzers übereinstimmt. Wenn beispielsweise mindestens ein Schwellenprozentsatz der von einem bestimmten Datenfinder empfangenen sicheren Repräsentationen mit den entsprechenden Teilen der von einem Datenbesitzer empfangenen sicheren Repräsentation übereinstimmt, kann das System bestimmen, dass die von einem bestimmten Datenfinder empfangenen sicheren Repräsentationen eine Schutzverletzung der Daten des Datenbesitzers darstellen. Die Verwendung einer prozentualen Übereinstimmung anstelle einer Anzahl von Übereinstimmungen kann verhindern, dass das Hochladen großer Mengen an sicheren Repräsentationen von gefälschten (oder benutzergenerierten) Datensätzen aufgrund der Anzahl der Übereinstimmungen als Schutzverletzung angesehen wird.
Wenn das System feststellt, dass die sicheren Repräsentationen der potenziell gestohlenen Daten nicht mit denen der Daten des Datenbesitzers übereinstimmen, kann das System ermitteln, dass die sicheren Repräsentationen der potenziell gestohlenen Daten, die vom Benutzer empfangen wurden, keine Schutzverletzung für einen der Datenbesitzer darstellen (308). So können beispielsweise die Daten von einer Partei gestohlen werden, die nicht am Überwachungsdienst für Datenschutzverletzungen teilnimmt. In einem anderen Beispiel können die Daten nicht gestohlen sein, sondern wurden von einem Hacker oder dem Benutzer generiert. In diesen Beispielen kann das System dem Benutzer, der die sicheren Repräsentationen der potenziell gestohlenen Daten (oder der Daten selbst) bereitgestellt hat, keine Entschädigung oder Belohnung gewähren.
Wenn die Anzahl den Schwellenwert überschreitet, kann das System bestimmen, dass die sicheren Repräsentationen der potenziell gestohlenen Daten mit der sicheren Repräsentation der Daten eines Datenbesitzers übereinstimmen und dass eine Datenschutzverletzung für den Datenbesitzer (310) vorliegt. In Reaktion darauf kann das System den Datenbesitzer über die Schutzverletzung informieren (312). So kann das System beispielsweise eine E-Mail oder Textnachricht an ein Gerät des Datenbesitzers senden, um den Datenbesitzer über die Schutzverletzung zu informieren. In einem weiteren Beispiel kann, wenn mindestens ein Schwellenwertprozentsatz der sicheren Repräsentationen potenziell gestohlener Daten mit den entsprechenden Teilen der sicheren Repräsentation des Datenbesitzers übereinstimmt, das System ermitteln, dass eine Datenschutzverletzung für den Datenbesitzer aufgetreten ist, und den Datenbesitzer in Reaktion auf die Bestimmung benachrichtigen.
Das System kann dem Benutzer, der die potenziell gestohlenen Daten oder die sicheren Repräsentationen der potenziell gestohlenen Daten (314) bereitgestellt hat, eine Entschädigung oder eine Belohnung gewähren. Wie vorstehend beschrieben, kann der Betrag basierend auf der Art der Datenschutzverletzung, ob der Benutzer der erste war, der die Daten übermittelt hat, eines vom Benutzer angeforderten Betrags, eines Betrags, den der Datenbesitzer bereit ist zu zahlen, und/oder eines Betrags, der zwischen dem Benutzer und dem Datenbesitzer über das System ausgehandelt wurde, berechnet werden.
4 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses 400 zum Erzeugen einer sicheren Repräsentation privater Daten. Die Operationen des Prozesses 400 können beispielsweise durch ein System durchgeführt werden, das eine oder mehrere Datenverarbeitungsvorrichtungen umfasst, wie beispielsweise den Computer 150 des Datenbesitzers aus 1. Der Prozess 400 kann auch durch Anweisungen implementiert werden, die auf einem Computerspeichermedium gespeichert sind, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die Operationen des Prozesses 400 auszuführen.
Das System empfängt einen Satz privater Daten (402). So kann beispielsweise ein Datenbesitzer einen Satz privater Daten identifizieren, für den der Besitzer möchte, dass dieser durch ein Schutzverletzungs-Detektionssystem auf Datenschutzverletzungen überwacht wird. Der Satz privater Daten kann ganz oder teilweise aus den vom Datenbesitzer gepflegten Daten bestehen. So kann es sich beispielsweise bei dem Satz privater Daten um Daten handeln, die mit größerer Wahrscheinlichkeit gestohlen werden, wie beispielsweise Kreditkartendaten, die verkauft werden könnten. In einem weiteren Beispiel kann der Satz privater Daten eine repräsentative Auswahl der vom Datenbesitzer gepflegten Daten sein.
Das System erzeugt Tupel unter Verwendung der Daten (404). Jedes Tupel kann einen oder mehrere Datentypen umfassen und jedes Tupel kann andere Datentypen umfassen als jedes andere Tupel. So kann beispielsweise ein Tupel eine Kreditkartennummer und ein Ablaufdatum beinhalten und ein zweites Tupel eine Kreditkartennummer, ein Ablaufdatum und einen Karteninhabernamen. Das System kann für jeden einzelnen Datensatz eine oder mehrere Tupel erzeugen. Beispielsweise kann das System für jeden in den privaten Daten enthaltenen Kreditkartendatensatz das erste und zweite Tupel erzeugen.
Das System erzeugt eine sichere Repräsentation der Tupel (406). Beispielsweise kann das System einen Satz von Hash-Funktionen auf die Daten jedes Tupels anwenden. Jede Hash-Funktion kann ein Element der sicheren Repräsentation basierend auf den in dem Tupel enthaltenen Daten setzen. Beispielsweise kann jede Hash-Funktion den Wert eines Elements eines Bloom-Filters, basierend auf den in dem Tupel enthaltenen Daten, einstellen. Nachdem jede Hash-Funktion auf jedes Tupel angewendet wurde, beinhaltet ein finaler Bloom-Filter einen Satz von Elementen mit Werten, die basierend auf den Ausgaben der Hash-Funktionen für jedes Tupel erzeugt wurden.
5 zeigt ein Ablaufdiagramm eines exemplarischen Prozesses 500 zur Erzeugung sicherer Repräsentationen potenziell gestohlener Daten. Operationen des Prozesses 500 können beispielsweise durch ein System durchgeführt werden, das eine oder mehrere Datenverarbeitungsvorrichtungen umfasst, wie beispielsweise den Computer 140 des Datenfinders aus 1. Der Prozess 500 kann auch durch Anweisungen implementiert werden, die auf einem Computerspeichermedium gespeichert sind, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die Operationen des Prozesses 500 auszuführen.
Das System empfängt einen Satz potenziell gestohlener Daten (502). Ein Benutzer kann beispielsweise in einem Internetforum, wie beispielsweise einem Untergrund-Internetforum, in dem gestohlene Daten häufig verkauft oder gehandelt werden, potenziell gestohlene Daten finden. Der Benutzer kann dem System die möglicherweise gestohlenen Daten zur Verfügung stellen.
Das System erzeugt Tupel der Daten (504). Die Tupel können das gleiche Format besitzen wie die für die privaten Daten des Datenbesitzers erzeugten. So können beispielsweise die Tupel für gestohlene Kreditkarten ein Tupel mit einer Kreditkartennummer und einem Ablaufdatum und ein zweites Tupel mit einer Kreditkartennummer, einem Ablaufdatum und einem Karteninhabernamen beinhalten, ähnlich den Tupeln von 4. Das System kann für jeden einzelnen Datensatz der potentiell gestohlenen Daten ein oder mehrere Tupel erzeugen. So kann das System beispielsweise das erste und zweite Tupel für jeden Kreditkartendatensatz, der in den potenziell gestohlenen Daten enthalten ist, erzeugen.
Das System erzeugt eine sichere Repräsentation jedes Tupels (506). Z. B. kann das System einen Satz von Hash-Funktionen auf die Daten jedes Tupels anwenden. Jede Hash-Funktion kann ein Element der sicheren Repräsentation basierend auf den in dem Tupel enthaltenen Daten setzen. Beispielsweise kann jede Hash-Funktion den Wert eines Elements eines Bloom-Filters, basierend auf den in dem Tupel enthaltenen Daten, einstellen. Im Gegensatz zur Verarbeitung privater Daten kann das System für jedes Tupel, das aus den potenziell gestohlenen Daten erzeugt wird, eine separate sichere Repräsentation erzeugen, sodass das System jede sichere Repräsentation jedes Tupels mit der sicheren Repräsentation, die private Daten repräsentiert, vergleichen und die Anzahl der Tupel bestimmen kann, die eine sichere Repräsentation darstellen, die einem entsprechenden Teil der sicheren Repräsentation entspricht, die die privaten Daten repräsentiert. Diese Anzahl kann dann mit einem Schwellenwert verglichen werden, um zu ermitteln, ob die potenziell gestohlenen Daten eine Schutzverletzung der privaten Daten darstellen, wie vorstehend beschrieben.
Die beschriebenen Merkmale können in digitalen elektronischen Schaltungen oder in Computerhardware, Firmware, Software oder in Kombinationen davon implementiert sein. Die Vorrichtung kann in einem Computerprogrammprodukt implementiert werden, das auf einem Informationsträger, z. B. auf einem maschinenlesbaren Speichergerät zur Ausführung durch einen programmierbaren Prozessor, physisch gespeichert ist; und Verfahrensschritte können von einem programmierbaren Prozessor ausgeführt werden, der ein Programm mit Anweisungen ausführt, um Funktionen der beschriebenen Implementierungen auszuführen, indem dieser mit Eingangsdaten arbeitet und Ausgaben erzeugt. Die beschriebenen Merkmale können vorteilhaft in einem oder mehreren Computerprogrammen implementiert werden, die auf einem programmierbaren System ausführbar sind, einschließlich mindestens eines programmierbaren Prozessors, der gekoppelt ist, um Daten und Anweisungen von einem Datenspeichersystem zu empfangen sowie Daten und Anweisungen an dieses, mindestens eine Eingabegerät und mindestens eine Ausgabegerät zu übertragen. Ein Computerprogramm ist eine Reihe von Anweisungen, die direkt oder indirekt in einem Computer verwendet werden können, um eine bestimmte Tätigkeit auszuführen oder um ein bestimmtes Ergebnis zu erzielen. Ein Computerprogramm kann in jeder Form von Programmiersprache, darunter auch in kompilierten oder interpretierten Sprachen, geschrieben und in jeder Form angewendet werden, darunter auch als eigenständiges Programm oder als Modul, Komponente, Subroutine oder andere Einheit, die für die Verwendung in einer Computerumgebung geeignet ist.
Geeignete Prozessoren für die Ausführung eines Anweisungsprogramms sind beispielsweise sowohl Universal- als auch Spezialmikroprozessoren sowie der Einzelprozessor oder einer von mehreren Prozessoren jeder Art von Computer. In der Regel empfängt ein Prozessor Anweisungen und Daten von einem Nur-Lese-Speicher oder einem Direktzugriffsspeicher oder auch von beiden. Die wesentlichen Elemente eines Computers sind ein Prozessor zum Ausführen von Anweisungen und ein oder mehrere Speicher zum Speichern von Anweisungen und Daten. Im Allgemeinen wird ein Computer auch ein oder mehrere Massenspeichergeräte zum Speichern von Datendateien umfassen oder funktionsfähig mit diesen gekoppelt sein, um mit diesen zu kommunizieren; solche Vorrichtungen umfassen Magnetplatten, wie interne Festplatten und Wechselplatten, magneto-optische Laufwerke und optische Laufwerke. Speichergeräte, die geeignet sind, um Computer-Programmanweisungen und -daten physisch zu verkörpern, umfassen alle Arten von nicht-flüchtigen Speichern, einschließlich beispielsweise Halbleiter-Speichergeräte wie EPROM-, EEPROM- und Flash-Speichergeräte, magnetische Festplatten wie interne Festplatten und Wechselplatten, magneto-optische Laufwerke sowie CD-ROM- und DVD-ROM-Laufwerke. Der Prozessor und der Speicher können als integrierte ASICs (Application-Specific Integrated Circuits) ausgeführt bzw. ergänzt werden.
Um eine Interaktion mit einem Benutzer bereitzustellen, können die Funktionen auf einem Computer implementiert werden, der über ein Anzeigegerät (wie z. B. einen CRT(Kathodenstrahlröhren)- oder LCD(Flüssigkristallanzeige)-Monitor) verfügt, um dem Benutzer Informationen anzuzeigen, sowie eine Tastatur und ein Zeigegerät, wie z. B. eine Maus oder einen Trackball, aufweist, mittels derer der Benutzer eine Eingabe an den Computer vornehmen kann. Darüber hinaus können solche Aktivitäten über Touchscreen-Flachbildschirme und andere geeignete Mechanismen realisiert werden.
Die Funktionen können in einem Computersystem implementiert werden, das eine Backend-Komponente, wie beispielsweise einen Datenserver, oder eine Middleware-Komponente, wie beispielsweise einen Anwendungsserver oder einen Internetserver, oder eine Frontend-Komponente, wie beispielsweise einen Client-Computer mit einer grafischen Benutzeroberfläche oder einen Internetbrowser, oder eine beliebige Kombination von diesen umfassen. Die Komponenten des Systems können durch eine beliebige Form oder ein beliebiges Medium digitaler Datenkommunikation, wie z. B. ein Kommunikationsnetzwerk, miteinander verbunden sein. Beispiele von Kommunikationsnetzwerken umfassen ein lokales Netzwerk („LAN“), ein Großraumnetzwerk („WAN“), Peer-to-Peer-Netzwerke (mit Ad-hoc-Mitgliedern und ständigen Mitgliedern), Netzrechnerinfrastrukturen und das Internet.
Das Computersystem kann Client und Server beinhalten. Ein Client und ein Server befinden sich im Allgemeinen entfernt voneinander und interagieren typischerweise über ein Kommunikationsnetzwerk, wie das Beschriebene. Die Beziehung zwischen Client und Server entsteht basierend auf Computerprogrammen, die auf den jeweiligen Computern ausgeführt werden und die eine Client-Server-Beziehung zueinander aufweisen.
Während diese Beschreibung viele spezifische Implementierungsdetails enthält, sollten diese nicht als Begrenzungen bezüglich des Umfangs irgendwelcher Erfindungen oder dessen ausgelegt werden, was beansprucht sein kann, sondern vielmehr als Beschreibungen von Merkmalen, die für bestimmte Implementierungen von bestimmten Erfindungen spezifisch sind. Bestimmte Merkmale, die in dieser Spezifikation im Zusammenhang mit separaten Implementierungen beschrieben werden, können darüber hinaus in Kombination in einer einzelnen Implementierung implementiert werden. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzelnen Implementierung beschrieben sind, auch in mehreren Implementierungen getrennt oder in einer geeigneten Teilkombination implementiert werden. Außerdem können, auch wenn die Merkmale vorstehend ggf. als in bestimmten Kombinationen wirkend beschrieben und zunächst auch als solche beansprucht werden, in einigen Fällen ein oder mehrere Merkmale einer beanspruchten Kombination aus der Kombination herausgenommen und die beanspruchte Kombination auf eine Teilkombination oder eine Variante einer Teilkombination gerichtet werden.
Ebenso werden Vorgänge in den Zeichnungen zwar in einer bestimmten Reihenfolge dargestellt, dies darf jedoch nicht als Anforderung verstanden werden, dass die besagten Vorgänge in der bestimmten dargestellten Reihenfolge oder in einer aufeinanderfolgenden Reihenfolge ausgeführt werden müssen, oder dass alle dargestellten Vorgänge ausgeführt werden müssen, um die erwünschten Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und Parallelverarbeitung von Vorteil sein. Darüber hinaus sollte die Trennung verschiedener Systemkomponenten in den vorstehend beschriebenen Implementierungen nicht als in allen Implementierungen erforderlich ausgelegt werden, zudem versteht sich, dass die beschriebenen Programmkomponenten und Systeme im Allgemeinen in einem einzelnen Software-Produkt oder in mehreren Software-Produkten gebündelt integriert sein können.
Somit wurden bestimmte Implementierungen des Gegenstandes beschrieben. Andere Implementierungen erfolgen im Rahmen der folgenden Ansprüche, so können in einigen Fällen die in den Ansprüchen angegebenen Aktionen in einer anderen Reihenfolge ausgeführt werden und dennoch erwünschte Ergebnisse erzielen. Zusätzlich setzen beispielsweise die in den beigefügten Figuren dargestellten Prozesse nicht unbedingt die gezeigte spezielle Reihenfolge oder fortlaufende Reihenfolge voraus, um erwünschte Ergebnisse zu erzielen, in bestimmten Implementierungen können Multitasking und Parallelverarbeitung von Vorteil sein.

Claims

Computerspeichermedium, auf dem Anweisungen gespeichert sind, die ein Verfahren zum Detektieren von Datenschutzverletzungen implementieren, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die nachfolgenden Verfahrensschritte auszuführen: Empfangen, von jedem einer Vielzahl von Datenbesitzern, einer ersten kryptographisch sicheren Repräsentation von Daten, die auf Datenschutzverletzungen zu überwachen sind, wobei jede erste kryptographisch sichere Repräsentation eine kryptographisch sichere Datenstruktur beinhaltet, die eine Vielzahl erster Datensätze darstellt, die vom Datenbesitzer verwaltet werden; Empfangen, von einem Benutzer und für jeden einer Vielzahl von zweiten Datensätzen, von einer oder mehreren kryptographisch sicheren zweiten Repräsentationen zweiter Datensätze; Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit einem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Vielzahl von Datenbesitzern empfangen wurden; und Bestimmen, dass für den Datenbesitzer eine Datenschutzverletzung aufgetreten ist, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die vom Datenbesitzer empfangen wurde.
Computerspeichermedium nach Anspruch 1, ferner umfassend gespeicherte Anweisungen, deren Ausführung durch das System, das die Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, den/die nachfolgenden Verfahrensschritte auszuführen: das Bereitstellen einer Benachrichtigung an den Datenbesitzer, die den Datenbesitzer über die Schutzverletzung in Reaktion auf das Bestimmen, dass die Schutzverletzung aufgetreten ist, benachrichtigt.
Computerspeichermedium nach Anspruch 1 oder 2, wobei jede erste kryptographisch sichere Repräsentation eine erste probabilistische Repräsentation und jede zweite kryptographisch sichere Repräsentation eine zweite probabilistische Repräsentation umfasst.
Computerspeichermedium nach Anspruch 3, wobei jede erste probabilistische Repräsentation ein erstes Bloom-Filter umfasst.
Computerspeichermedium nach Anspruch 4, wobei jede zweite probabilistische Repräsentation eine oder mehrere Bitzahlen umfasst, die jeweils ein entsprechendes Bit eines zweiten Bloom-Filters identifizieren, das, basierend auf dem zweiten Datensatz, der durch die zweite probabilistische Repräsentation repräsentiert wird, eingestellt wurde.
Computerspeichermedium nach Anspruch 4, wobei das Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die einem entsprechenden Abschnitt der kryptographisch sicheren Repräsentation entsprechen, die von einem Datenbesitzer der Vielzahl von Datenbesitzern empfangen wird, Folgendes umfasst: für jede zweite probabilistische Repräsentation, die von dem Benutzer empfangen wird: Bestimmung, für jedes Datenelement der zweiten probabilistischen Repräsentation, ob das Datenelement mit einem entsprechenden Datenelement des ersten Bloom-Filters übereinstimmt; und Inkrementieren eines Zählwerts einer Anzahl übereinstimmender probabilistischer Repräsentationen, wenn jedes Datenelement der zweiten probabilistischen Repräsentation mit dem entsprechenden Datenelement des ersten Bloom-Filters übereinstimmt.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, wobei das Bestimmen, dass eine Datenschutzverletzung für den Datenbesitzer basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmen, aufgetreten ist, das Bestimmen umfasst, dass der Zählwert einen vorbestimmten Schwellenwert erreicht oder überschreitet.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, wobei das Bestimmen, dass eine Datenschutzverletzung für den Datenbesitzer, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmen, aufgetreten ist, das Bestimmen umfasst, dass ein Prozentsatz der zweiten kryptographisch sicheren Repräsentationen, die vom Benutzer empfangen wurden, mit dem entsprechenden Abschnitt der vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation übereinstimmt.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, wobei jeder Datensatz jeder der ersten kryptographisch sicheren Repräsentationen ein Tupel mit mehreren Bezugsdatenelementen enthält.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, wobei die erste kryptographisch sichere Repräsentation, die von einem gegebenen Datenbesitzer empfangen wird, für jede Entität aus einer Vielzahl von Entitäten mehrere Tupel eines Datensatzes für die Entität darstellt, wobei jedes Tupel einen anderen Satz von Daten umfasst, die sich auf die Entität beziehen und die in dem Datensatz enthalten sind.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, ferner umfassend gespeicherte Anweisungen, deren Ausführung durch das System, das die Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, den/die nachfolgenden Verfahrensschritte auszuführen: das Bereitstellen einer Entschädigung für den Benutzer in Reaktion auf das Bestimmen, dass die Schutzverletzung für den Datenbesitzer unter Verwendung der zweiten kryptographisch sicheren Repräsentationen, die vom Benutzer empfangen wurden, aufgetreten ist.
Computerspeichermedium nach einem der vorhergehenden Ansprüche, insbesondere nach Anspruch 1, ferner umfassend gespeicherte Anweisungen, deren Ausführung durch das System, das die Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, den/die nachfolgenden Verfahrensschritte auszuführen: Empfangen von Daten vom Benutzer, die einen angeforderten Kompensationsbetrag für die Erkennung einer Schutzverletzung unter Verwendung der zweiten kryptographisch sicheren Repräsentationen, die vom Benutzer empfangen wurden, angeben; und Bestimmen, ob für jeden Datenbesitzer der Vielzahl von Datenbesitzern und basierend auf dem angeforderten Kompensationsbetrag, die zweiten kryptographisch sicheren Repräsentationen mit der ersten vom Datenbesitzer empfangenen kryptographisch sicheren Repräsentation verglichen werden sollen.
System, umfassend: eine Datenverarbeitungsvorrichtung; und Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Datenverarbeitungsvorrichtungs-Anweisungen umfasst, die bei Ausführung durch die Datenverarbeitungsvorrichtung die Datenverarbeitungsvorrichtung veranlassen, Operationen auszuführen, die Folgendes umfassen: Empfangen, von jedem einer Vielzahl von Datenbesitzern, einer ersten kryptographisch sicheren Repräsentation von Daten, die auf Datenschutzverletzungen zu überwachen sind, wobei jede erste kryptographisch sichere Repräsentation eine kryptographisch sichere Datenstruktur beinhaltet, die eine Vielzahl erster Datensätze darstellt, die vom Datenbesitzer verwaltet werden; Empfangen, von einem Benutzer und für jeden einer Vielzahl von zweiten Datensätzen, von einer oder mehreren kryptographisch sicheren zweiten Repräsentationen zweiter Datensätze; Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit einem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Vielzahl von Datenbesitzern empfangen wurden; und Bestimmen, dass für den Datenbesitzer eine Datenschutzverletzung aufgetreten ist, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die vom Datenbesitzer empfangen wurde.
System nach Anspruch 13, wobei die Operationen das Bereitstellen einer Benachrichtigung an den Datenbesitzer umfassen, die den Datenbesitzer über die Schutzverletzung in Reaktion auf das Bestimmen, dass die Schutzverletzung aufgetreten ist, benachrichtigt.
System nach Anspruch 13 oder 14, wobei jede erste kryptografisch sichere Repräsentation eine erste probabilistische Repräsentation umfasst und jede zweite kryptographisch sichere Repräsentation eine zweite probabilistische Repräsentation umfasst.
System nach Anspruch 15, wobei jede erste probabilistische Repräsentation ein erstes Bloom-Filter umfasst.
System nach Anspruch 16, wobei jede zweite probabilistische Repräsentation eine oder mehrere Bitzahlen umfasst, die jeweils ein entsprechendes Bit eines zweiten Bloom-Filters identifizieren, das basierend auf dem zweiten Datensatz, der durch die zweite probabilistische Repräsentation dargestellt ist, gesetzt wurde.
Computerspeichermedium, auf dem Anweisungen gespeichert sind, die ein Verfahren zum Detektieren von Datenschutzverletzungen implementieren, wobei die Ausführung der Anweisungen durch ein System, das eine Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, die nachfolgenden Verfahrensschritte auszuführen: Empfangen, von einer Vielzahl von Datenbesitzern, erste kryptographisch sichere Repräsentationen von Daten, die auf Datenschutzverletzungen zu überwachen sind, wobei jede erste kryptographisch sichere Repräsentation eine kryptographisch sichere Datenstruktur beinhaltet, die eine Vielzahl erster Datensätze darstellt, die vom Datenbesitzer verwaltet werden; Empfangen, von einem Benutzer, einer Vielzahl zweiter Datensätze; Erzeugen, für jeden zweiten vom Benutzer empfangenen Datensatz, einer oder mehrerer zweiter kryptographisch sicherer Repräsentationen des zweiten Datensatzes; Bestimmen einer Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit einem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die von einem Datenbesitzer der Vielzahl von Datenbesitzern empfangen wurden; und Bestimmen, dass für den Datenbesitzer eine Datenschutzverletzung aufgetreten ist, basierend auf der Anzahl der zweiten kryptographisch sicheren Repräsentationen, die mit dem entsprechenden Abschnitt der ersten kryptographisch sicheren Repräsentation übereinstimmen, die vom Datenbesitzer empfangen wurde.
Computerspeichermedium nach Anspruch 18, ferner umfassend gespeicherte Anweisungen, deren Ausführung durch das System, das die Datenverarbeitungsvorrichtung umfasst, die Datenverarbeitungsvorrichtung veranlasst, den/die nachfolgenden Verfahrensschritte auszuführen: das Bereitstellen einer Benachrichtigung an den Datenbesitzer, die den Datenbesitzer über die Schutzverletzung in Reaktion auf das Bestimmen, dass die Schutzverletzung aufgetreten ist, benachrichtigt.
Computerspeichermedium nach Anspruch 18 oder 19, wobei jede erste kryptografisch sichere Repräsentation eine erste probabilistische Repräsentation umfasst und jede zweite kryptographisch sichere Repräsentation eine zweite probabilistische Repräsentation umfasst.