-
Die Erfindung betrifft ein Verfahren zum sicheren Speichern von Datensätzen, die vertrauliche Daten und zugehörige Identifizierungsdaten enthalten bei dem je Datensatz die folgenden Schritte ausgeführt werden:
- – auf Seiten eines Benutzers;
- – Umwandeln der Identifizierungsdaten in eine erste Datensatzkennung und
- – übermitteln der ersten Datensatzkennung zusammen mit den vertraulichen Daten an eine Treuhandstelle,
- – auf Seiten der Treuhandstelle:
- – umschlüsseln der ersten Datensatzkennung mit einem symmetrischen Schlüssel in eine zweite Datensatzkennung und
- – übermitteln der zweiten Datensatzkennung zusammen mit den vertraulichen Daten an eine Datenbank.
-
Im Geschäftsleben und in der öffentlichen Verwaltung besteht häufig das Erfordernis, Datenbanken zu unterhalten, in denen neben Identifizierungsdaten von Personen, beispielsweise von Kunden oder Bürgern, auch vertrauliche Merkmalsdaten gespeichert sind, etwa Daten über Alter, Kaufverhalten, besondere Vorlieben, Kreditwürdigkeit, Krankheiten, Vorstrafen etc. der betroffenen Personen. Angesichts zunehmend strengerer Datenschutzbestimmungen erfordert es ständig steigende Kosten, einen verantwortungsbewußten Umgang mit diesen Daten sicherzustellen, beispielsweise durch Begrenzung des Zugangs zu den Datenbanken, Sicherheitsüberprüfung und -schulung des zugangsberechtigten Personals, und dergleichen.
-
Aus
WO 2006/015100 A2 ist ein Verfahren der eingangs genannten bekannt. Aus
WO 01/18631 A1 ist die Umwandlung der Identifizierungsdaten mittels Einwegverschlüsselung bekannt.
-
Ein wesentlicher Vorteil des erstgenannten Verfahrens besteht darin, daß auf Seiten des Benutzers auf eine Speicherung der Identifizierungsdaten und der jeweils zugehörigen vertraulichen Merkmalsdaten in einer gemeinsamen Datenbank verzichtet werden kann. Statt dessen werden die Merkmalsdaten zusammen mit der ersten Datensatzkennung an eine Treuhandstelle übermittelt, die dann die erste Datensatzkennung in eine zweite Datensatzkennung umschlüsselt und diese zusammen mit den vertraulichen Daten an eine Datenbank weiterleitet. Diese Datenbank kann sich wieder im Verfügungsbereich des Benutzers befinden oder es kann sich um eine Datenbank eines externen Dienstleisters handeln, beispielsweise eines Unternehmens, das Marketinganalysen durchführt. Wesentlich ist dabei, daß es sich bei der Treuhandstelle, die auch als ”Trusted Third Party” (TTP) bezeichnet wird, um eine von dem oder den Benutzern und dem Betreiber der Datenbank rechtlich und physisch getrennte Institution handelt, beispielsweise ein eigenständiges Unternehmen mit einem allein unter seiner Kontrolle stehenden Datenverarbeitungssystem zur Umschlüsselung der Daten. Dadurch ist gewährleistet, daß für jemanden, der Zugang zu der Datenbank hat, zwar noch erkennbar ist, welche Merkmalsdaten zu welcher (zweiten) Datensatzkennung gehören, doch ist diese zweite Datensatzkennung durch die Umschlüsselung anonymisiert, so daß sie keinen Rückschluß auf die Identität der Personen erlaubt, auf die sich die gespeicherten Merkmale beziehen. So kann diese Datenbank beispielsweise für statistische Analysen benutzt werden, ohne daß besondere Geheimhaltungsvorkehrungen erforderlich sind. Aufgrund der in der Treuhandstelle vorgenommenen Umschlüsselung sind die Personen in der Datenbank nicht einmal für den Benutzer identifizierbar, der die Daten ursprünglich geliefert hat.
-
Falls auf Seiten des Benutzers das Erfordernis besteht, die Personen zu identifizieren, auf welche sich die vertraulichen Merkmale beziehen, so ist dies nur durch Einschaltung der Treuhandstelle möglich, die dann auch die Zulässigkeit der gewünschten Abfrage prüfen kann.
-
Aufgabe der Erfindung ist es deshalb, ein technisches Verfahren anzugeben, das eine zweckmäßigere Speicherung von vertraulichen Daten und Identifizierungsdaten ermöglicht.
-
Diese Aufgabe wird dadurch gelöst, daß die Identifizierungsdaten und entsprechend auch die ersten und zweiten Datensatzkennungen mehrere Hierarchiestufen umfassen und die Umschlüsselung getrennt nach Hierarchiestufen erfolgt.
-
Für statistische Analysen ist es zweckmäßig, wenn bei den Identifizierungsdaten mehrere Hierarchiestufen unterschieden werden, beispielsweise Person, Wohnhaus, Ort, Region, und wenn die Unterscheidung zwischen diesen Hierarchiestufen bei der Umwandlung und Umschlüsselung der Daten gewahrt bleibt, so daß die zweite Datensatzkennung letztlich aus Teilkennungen für die verschiedenen Hierarchiestufen besteht. Das erlaubt es, bei der statistischen Analyse auffällige Häufungen bestimmter Merkmale an bestimmten Orten zu erkennen. Dabei bleibt jedoch die Anonymität der Merkmalsträger gewahrt, zumal auch die höheren Hierarchiestufen wie Ort oder Region nur in Form einer Kennung repräsentiert sind, aus der sich ohne Mitwirkung der Treuhandstelle nicht herleiten läßt, welcher konkrete Ort oder welche konkrete Region sich dahinter verbirgt.
-
Das Verfahren kann mittels geeigneter Software auf herkömmlichen Arbeitsplatzrechnern, Servern und sonstigen Datenverarbeitungssystemen ausgeführt werden, die auf elektronischem Wege miteinander kommunizieren, beispielsweise über das Internet.
-
Vorteilhafte Ausgestaltungen und Weiterbildungen des Verfahrens wird in den Unteransprüchen angegeben.
-
In vielen Fällen, insbesondere dann, wenn die Datenbank hauptsächlich zu Analysezwecken unterhalten wird, ist es nicht erforderlich und auch nicht erwünscht, daß die Benutzer, die einen Teil oder sämtliche der zu analysierenden Daten geliefert haben, in der Lage sind, die Merkmale und die zugehörigen Identifizierungsdaten wieder zusammenzuführen. In dem Fall ist es zweckmäßig, für die Umwandlung der Identifizierungsdaten in die erste Datensatzkennung eine Einwegverschlüsselung vorzusehen, die für jeden Satz von Identifizierungsdaten eine oder mehrere Hash-IDs liefert, die zwar insofern eindeutig sind, als die Identifizierungsdaten von verschiedenen Personen stets auch zu verschiedenen Hash-IDs führen, die andererseits jedoch nicht genügend Information enthalten, um aus der Hash-ID die ursprünglichen Identifizierungsdaten zu rekonstruieren. Selbst wenn die an die Treuhandstelle übermittelten Daten dann in falsche Hände gelangen sollten, ist es nicht mehr möglich, die zu den vertraulichen Daten gehörenden Personen anhand der Hash-ID zu identifizieren.
-
In der Praxis werden die Identifizierungsdaten häufig die Adresse der betreffenden Person umfassen. In dem Fall muß die Adresseninformation nicht zwingend von den Benutzern bereitgestellt werden, sondern sie kann auch von einer weiteren unabhängigen Instanz bereitgestellt werden, die die Adressen eines ganzen Landes oder einer Region zusammen mit eindeutigen Kennungen speichert, jedoch ohne die Namen der Personen, die unter diesen Adressen zu erreichen sind. Auf Seiten des Benutzers werden dann beispielsweise in einer Kundendatei anstelle der Namen und vollständigen Anschriften der Kunden nur die Namen und die Adressenkennungen gespeichert. Die an die Treuhandstelle übermittelten Identifizierungsdaten können in diesem Fall aus einer (verhashten) Personenkennung und der (vorzugsweise verschlüsselten) Adressenkennung bestehen. Ein solches Verfahren zur getrennten Speicherung von Namen und Adressen wird in
DE 10 2009 009 276 A1 beschrieben.
-
Vorzugsweise erfolgt der Datenverkehr zwischen dem Benutzer, der Treuhandstelle und ggf. dem Betreiber der Datenbank über sichere Kanäle und/oder in verschlüsselter Form. Für die Ver- und Entschlüsselung der ersten und zweiten Datensatzkennungen wird aus Effizienzgründen vorzugsweise ein symmetrischer Schlüssel verwendet. Für die Übermittlung dieser symmetrischen Schlüssel an die Treuhandstelle kann dann der Schlüssel noch einmal nach einem asymmetrischen Verfahren mit öffentlichem und privatem Schlüssel verschlüsselt werden.
-
Im folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert.
-
Es zeigen:
-
1 ein Blockdiagramm eines Datenbanksystems zur Ausführung des erfindungsgemäßen Verfahrens;
-
2 ein Flußdiagramm zur Erläuterung der wesentlichen Schritte eines Verfahrens zur Speicherung von Daten;
-
3 ein Flußdiagramm zur Erläuterung der wesentlichen Schritte eines Verfahrens zur Rückgewinnung der Daten;
-
4 ein Beispiel eines anonymisierten Datensatzes; und
-
5 ein Blockdiagramm eines Verfahrens zur Verschlüsselung der Daten bei dem erfindungsgemäßen Verfahren.
-
In 1 sind als Blockdiagramm vier verschiedene Institutionen dargestellt, die beispielsweise über das Internet miteinander kommunizieren, nämlich ein Benutzer 10, eine Treuhandstelle 12 (TTP), eine Merkmalsdatenbank 14 und eine Adressdatenbank 16. In allgemeinen wird es sich bei diesen Institutionen um verschiedene öffentlich- oder privatrechtliche Körperschaften handeln, beispielsweise um unterschiedliche Firmen, unterschiedliche Behörden und dergleichen. Die Merkmalsdatenbank 14 kann beispielsweise von einem Dienstleistungsunternehmen unterhalten werden, das statistische Analysen und Marketinganalysen für den Benutzer 10 oder allgemein für eine Vielzahl von Benutzern ausführt. Wahlweise kann die Merkmalsdatenbank 14 auch direkt vom Benutzer 10 unterhalten werden.
-
Die Adressdatenbank
16 kann von einem anderen Dienstleistungsunternehmen unterhalten werden, das die Adressenverwaltung für einen oder mehrere Benutzer
10 übernimmt, wie in
DE 10 2009 009 276 A1 beschrieben wird. Wahlweise kann die Adressendatenbank
16 jedoch auch in eine Kundendatenbank oder eine sonstige Personendatenbank des Benutzers
10 integriert sein.
-
Die Treuhandstelle 12 sollte hingegen sowohl rechtlich wie auch physisch von den übrigen Institutionen getrennt sein. Rechtliche Trennung bedeutet hier, daß Beteiligte, die Verfügungsgewalt über Datenverarbeitungseinrichtungen des Benutzers 10, über die Merkmalsdatenbank 14 und/oder die Adressenbank 16 haben, nicht automatisch auch Verfügungsgewalt über die Datenverarbeitungseinrichtungen und den Datenbestand der Treuhandstelle 12 haben und umgekehrt. Physische Selbständigkeit bedeutet, daß die Datenträger der Treuhandstelle 12 physikalisch getrennt sind von Datenträgern des Benutzers 10 und den Datenträgern, auf denen sich die Adressendatenbank 16 und insbesondere die Merkmalsdatenbank 14 befinden. Insbesondere ist damit sichergestellt, daß jemand, der die Merkmalsdatenbank 14 in seinen Besitz bringt, nicht automatisch Zugang zu den Daten der Treuhandstelle 12 hat.
-
2 illustriert die wesentlichen Schritte eines Verfahrens, mit dem ein oder mehrere Benutzer 10 vertrauliche Daten über verschiedene Personen dem Betreiber der Merkmalsdatenbank 14 zur Verfügung stellen können, und zwar in einer Weise, bei der die Anonymität der Merkmalsträger gewahrt wird. Dabei wird davon ausgegangen, daß der Benutzer 10 über Identifizierungsdaten verfügt, die bestimmte Personen, z. B. Kunden, identifizieren (z. B. Name und Adresse), und außerdem Kenntnisse über bestimmte Merkmale dieser Personen besitzt. Diese Kenntnisse sollen nun dem Betreiber der Merkmalsdatenbank 14 zur Verfügung gestellt werden, damit dieser die Daten einer statistischen Analyse unterziehen kann und beispielsweise Empfehlungen für verbesserte Marketingstrategien erstellen kann.
-
In einem ersten Schritt S1 in 2 werden auf Seiten des Benutzers die Identifizierungsdaten für eine Person oder ggf. auch für mehrere Personen anonymisiert. Die Identifizierungsdaten können beispielsweise aus einer von dem Benutzer unterhaltenen Kundendatenbank oder dergleichen abgerufen werden und umfassen jeweils mindestens den Namen der betreffenden Person und zumeist auch dessen Adresse oder zumindest eine Adressenkennung, für welche dann die zugehörige Klaradresse in der Adressendatenbank 16 abgerufen werden kann.
-
Die Anonymisierung erfolgt auf einem Rechner des Benutzers, auf dem eine geeignete Software für die Anonymisierung implementiert ist. Wahlweise kann die Anonymisierung auch auf einem externen Rechner eines Dienstanbieters (Application Service Provider; ASP) erfolgen, dem die Identifizierungsdaten über einen sicheren Kanal über das Internet zugeführt werden und der seinerseits die anonymisierten Daten an den Rechner des Benutzers zurück übermittelt. Das Ergebnis dieser Anonymisierung ist in jedem Fall ein bestimmter Code, der hier als ”erste Datensatzkennung” 18 bezeichnet wird. Beispielsweise kann es sich bei der ersten Datensatzkennung 18 um eine Hash-ID handeln, die man gewinnt, indem die Identifizierungsdaten zunächst standardisiert und dann nach einem bekannten Algorithmus ”verhasht”. In diesem Fall lassen sich aus der Hash-ID die ursprünglichen Identifizierungsdaten nicht wieder zurückgewinnen, und es ist lediglich sichergestellt, daß von einer Identität der Hash-IDs auf eine Identität der Personen geschlossen werden kann (Einweg-Verschlüsselung). In einem anderen Ausführungsbeispiel kann die Anonymisierung jedoch auch durch eine geeignete Verschlüsselung erfolgen, so daß sich durch Entschlüsselung der ersten Datensatzkennung 18 die ursprünglichen Identifizierungsdaten zurückgewinnen lassen.
-
In einem Schritt S2 werden dann zu der Datensatzkennung 18 die vertraulich zu behandelnden Merkmale der betreffenden Person hinzugefügt, und die erste Datensatzkennung wird zusammen mit den hinzugefügten Merkmalen an die Treuhandstelle 12 übermittelt. Die Treuhandstelle 12 empfängt somit einen Datensatz 20, der die erste Datensatzkennung und, verschlüsselt oder unverschlüsselt, die zugehörigen Merkmale enthält.
-
In einem Schritt S3 wird dann auf Seiten der Treuhandstelle 12 die in dem Datensatz 20 enthaltene erste Datensatzkennung 18 mit Hilfe eines symmetrischen, nur der Treuhandstelle bekannten Schlüssels in eine zweite Datensatzkennung umgeschlüsselt. Das Ergebnis ist ein Datensatz 22, der die zweite Datensatzkennung und die zugehörigen Merkmale enthält. Dieser Datensatz wird dann an den Betreiber der Merkmalsdatenbank 14 übermittelt und in einem Schritt S4 in dieser Datenbank gespeichert. Sofern es sich bei den in der Merkmalsdatenbank 14 gespeicherten vertraulichen Merkmalen um Merkmale von Personen handelt, ist die Merkmalsdatenbank somit eine anonymisierte Datenbank, die zwar noch erkennen läßt, daß bestimmte Merkmale zu ein und derselben Person gehören, jedoch die Identität dieser Person nicht mehr erkennen läßt. Dadurch wird einem Mißbrauch der vertraulichen Merkmalsdaten vorgebeugt.
-
Das beschriebene Verfahren läßt sich durch Einsatz von elektronischen Datenverarbeitungssystemen und geeigneter Software praktisch vollständig automatisieren. Beispielsweise wird dazu auf Seiten der Treuhandstelle 12 ein Server unterhalten, der die von den Benutzern gelieferten Daten automatisch empfängt, umschlüsselt und an die Merkmalsdatenbank weiterleitet. Auf Seiten des Benutzers 10 wird durch die bereitgestellte Software beispielsweise eine Eingabemaske erzeugt, in die der Benutzer die Identifizierungsdaten und die zugehörigen Merkmale eingibt. Auf einen entsprechenden Befehl des Benutzers (Mausklick) erfolgt dann automatisch die Anonymisierung (Schritt S1) und die Übermittlung des Datensatzes 20 an die Treuhandstelle. Die Software auf Seiten des Benutzers ist dabei vorzugsweise so beschaffen, daß keine dauerhafte Speicherung der Identifizierungsdaten zusammen mit den zugehörigen Merkmalen erfolgt.
-
Sofern es auf Seiten des Benutzers 10 erlaubt und erforderlich ist, daß er zu einem späteren Zeitpunkt den einzelnen Personen die zugehörigen Merkmale wieder zuordnen kann, so kann in einem wahlfreien Schritt S2' die erste Datensatzkennung 18 zusammen mit den ursprünglichen Identifizierungsdaten in einer Datenbank gespeichert werden.
-
Wenn mehrere Benutzer 10 mit derselben Treuhandstelle 12 zusammenarbeiten und ggf. Daten zu einer gemeinsamen Merkmalsdatenbank 14 beisteuern, so sollte jedem Benutzer eine benutzerspezifische Software zur Verfügung gestellt werden, die sicherstellt, daß zwei verschiedene Benutzer keinesfalls identische erste Datensatzkennungen 18 erzeugen (auch dann nicht, wenn sich die Daten tatsächlich auf dieselbe Person beziehen). Das läßt sich beispielsweise dadurch erreichen, daß jedem Benutzer ein anderer Kreis von möglichen ersten Datensatzkennungen 18 zugewiesen wird. Wenn in diesem Fall zwei verschiedene Benutzer Merkmalsdaten über ein und dieselbe Person beisteuern, so werden zwar die ersten Datensatzkennungen der beiden Benutzer voneinander verschieden sein, doch werden beide Kennungen dann von der Treuhandstelle in dieselbe zweite Datensatzkennung übersetzt. Dadurch wird sichergestellt, daß die Daten, die zu ein und derselben Person gehören, in der Merkmalsdatenbank 14 auch als die Daten einer einzigen (allerdings anonymen) Person behandelt werden.
-
In einer anderen Ausführungsform wird jedem Benutzer dieselbe Software für die Anonymisierung der Identifizierungsdaten zur Verfügung gestellt, so daß man für identische Personen stets auch identische Datensatzkennungen erhält, auch wenn die Daten von verschiedenen Benutzern stammen. Der ersten Datensatzkennung 18 wird dann jeweils eine benutzerspezifische Kennung hinzugefügt, und auf Seiten der Treuhandstelle werden die Benutzerkennungen und die ersten Datensatzkennungen jeweils getrennt umgeschlüsselt.
-
3 illustriert ein Verfahren, das es einem Benutzer erlaubt, die Merkmalsdaten, die er in die Merkmalsdatenbank 14 eingestellt hat, bei Bedarf wieder zurückzugewinnen und mit den entsprechenden Identifizierungsdaten zusammenzuführen. Wenn der Benutzer die Merkmalsdaten zu einer bestimmten Person abrufen möchte, so werden in einem Schritt S11, der mit dem Schritt S1 in 2 identisch ist, die Identifizierungsdaten dieses Benutzers anonymisiert, so daß man wieder die erste Datensatzkennung 18 erhält. Diese wird dann an die Treuhandstelle 12 übermittelt und dort in einem Schritt S13 (entsprechend dem Schritt S3 in 2) umgeschlüsselt. Die dadurch erhaltene zweite Datensatzkennung 24 wird dann an die Merkmalsdatenbank 14 übermittelt, und dort werden in einem Schritt S14 die zugehörigen Merkmalsdaten abgefragt. Das Ergebnis wird an die Treuhandstelle 12 gemeldet, die so den Datensatz 22 zurückerhält, der die zweite Datensatzkennung 24 und die zugehörigen Merkmale umfaßt. In einem Schritt S15 wird auf Seiten der Treuhandstelle 12 die zweite Datensatzkennung umgeschlüsselt, und zwar mit dem symmetrischen Schlüssel, der in Schritt S13 zur Umwandlung der ersten Datensatzkennung 18 in die zweite Datensatzkennung 24 gedient hat. Als Ergebnis erhält man wieder den Datensatz 20, der die erste Datensatzkennung 18 und die zugehörigen Merkmale enthält, und dieser Datensatz wird an den Benutzer 10 zurückgemeldet, der dann in einem Schritt S16 die Identifizierungsdaten wiederherstellen kann und somit die aus der Merkmalsdatenbank 14 zurückgewonnenen Merkmalsdaten der betreffenden Person zuordnen kann.
-
Die Wiederherstellung der Identifizierungsdaten kann etwa dadurch geschehen, daß in Schritt S11 die Identifizierungsdaten (z. B. Name und Adresse der Person) gespeichert werden, bis der Datensatz 20 von der Treuhandstelle zurückerhalten wird.
-
Wenn in Schritt S2' (2) die erste Datensatzkennung 18 zusammen mit den Identifizierungsdaten gespeichert wurde, kann der Schritt S11 auch durch einen Schritt ersetzt werden, in dem die erste Datensatzkennung 18 für die betreffende Person direkt aus der Datenbank des Benutzers abgerufen wird. Ebenso können dann in Schritt S16 zu der in dem Datensatz 20 enthaltenen ersten Datensatzkennung auch wieder die Identifizierungsdaten aus der Datenbank abgerufen werden.
-
Wenn zur Umwandlung der Identifizierungsdaten in Schritt S1 (2) ein (Zweiweg-)Verschlüsselungsverfahren eingesetzt wurde, können die Identifizierungsdaten in Schritt S16 auch einfach durch Entschlüsselung der ersten Datensatzkennung gewonnen werden.
-
Mit Hilfe des in 3 gezeigten Verfahrens ist der Benutzer somit in der Lage, bei Bedarf die Daten, die er in der Merkmalsdatenbank 14 gespeichert hat, wieder abzurufen.
-
Es sind jedoch auch Anwendungsfälle denkbar, in denen der Benutzer keinen direkten Zugriff mehr auf die von ihm gelieferten Merkmalsdaten hat, sondern vom Betreiber der Merkmalsdatenbank 14 lediglich ein anonymisiertes Analyseergebnis erhält.
-
4 zeigt ein detailliertes Beispiel eines der Datensätze 22, die in der Merkmalsdatenbank 14 gespeichert werden. Dieser Datensatz enthält die zweite Datensatzkennung 24 sowie die zugehörigen Merkmalsdaten 26. Die zweite Datensatzkennung 24 weist in diesem Beispiel jedoch eine hierarchische Struktur auf und besteht aus einer Personen-ID 28, einer Gebäude-ID 30, einer Orts-ID 32 und einer Regionen-ID 34. Diese hierarchische Struktur wird bei der Umschlüsselung in Schritt S3 (2) erzeugt.
-
Als Beispiel kann angenommen werden, daß der Benutzer als erste Datensatzkennung 18 eine Personenkennung und eine Adressenkennung übermittelt, anhand derer die Treuhandstelle 12 die Klaradresse aus der Adressendatenbank 16 abrufen kann. Die Treuhandstelle erzeugt dann in Schritt S3 einerseits aus der Personenkennung die Personen-ID 28 und andererseits durch Verhashung der Adressdaten die Gebäude-ID 30, die Orts-ID 32 und die Regionen-ID 34. Dabei ist der Verhashungs-Algorithmus wieder so beschaffen, daß, wenn zwei Datensätze 22 in der Merkmalsdatenbank 14 beispielsweise dieselbe Orts-ID haben, verläßlich geschlossen werden kann, daß die betreffenden Personen ihre Adresse in demselben Ort haben.
-
Die hierarchische Struktur der zweiten Datensatzkennung gemäß 4 erlaubt es somit, unter Wahrung der Anonymität auch geographische Analysen an den in der Merkmalsdatenbank gespeicherten Daten vorzunehmen. Wenn diese Analyse z. B. ergibt, daß auffällig viele Personen, die ausweislich der Orts-ID 32 an demselben Ort wohnen, Interesse an einer bestimmten Klasse von Produkten zeigen, so kann gezielt eine Werbekampagne für diesen Ort in Auftrag gegeben werden. Zur Identifizierung dieses Ortes anhand der Orts-ID ist wieder die Mitwirkung der Treuhandstelle 12 erforderlich.
-
In einer anderen Ausführungsform werden in der Merkmalsdatenbank 14 nur die Personen-IDs gespeichert, und die IDs der anderen Hierarchiestufen werden aus der Adressdatenbank 16 abgerufen. Dazu wird die Personen-ID in der Treuhandstelle 12 in eine andere Personenkennung umgeschlüsselt, die in der Adressdatenbank zusammen mit der zugehörigen Adresse gespeichert ist. Aus der Adresse werden dann in der Adressdatenbank eine Gebäude-ID, eine Orts-ID etc. extrahiert, und diese werden in der Treuhandstelle 12 erneut umgeschlüsselt und dann anonym in der Merkmalsdatenbank ausgewertet.
-
Der Datenverkehr zwischen den Benutzern 10 und der Treuhandstelle 12 und ggf. dem Betreiber der Merkmalsdatenbank 14 erfolgt vorzugsweise verschlüsselt. 5 illustriert ein Verschlüsselungsschema für die Übermittlung von Merkmalsdaten von einem Benutzer 10 an die Merkmalsdatenbank 14.
-
Zweckmäßigerweise wird der Benutzer 10 nicht jeden Datensatz 20 (2) einzeln an die Treuhandstelle 12 übermitteln, sondern er wird eine Vielzahl von Datensätzen als ”Batch” übermitteln. Es wird deshalb im folgenden davon ausgegangen, daß die dem Benutzer zur Verfügung gestellte Software in der Lage ist, die ersten Datensatzkennungen 18 und die zugehörigen Merkmale für mehrere Personen temporär in einem nichtflüchtigen Speicher zu speichern und dann gesammelt an die Treuhandstelle zu übermitteln.
-
Während für die Verschlüsselung der ersten Datensatzkennung 18 und für die Umschlüsselung in die zweite Datensatzkennung 24 symmetrische Schlüssel benutzt werden, erfolgt die Übermittlung dieser symmetrischen Schlüssel an die Treuhandstelle 12 nach einem asymmetrischen Verschlüsselungsverfahren mit öffentlichem und privatem Schlüssel. Gemäß 5 erzeugt der Benutzer 10 in einem Schritt S20 einen zufälligen Schlüssel, der dann als symmetrischer Benutzerschlüssel 36 für das gesamte Batch dient. Mit Hilfe eines von der Treuhandstelle 12 publizierten öffentlichen Schlüssels 38 wird dann in Schritt S22 der Benutzerschlüssel 36 noch einmal verschlüsselt, so daß man einen verschlüsselten Benutzerschlüssel 40 erhält, der dann an die Treuhandstelle 12 (TTP) übermittelt wird.
-
Für jeden einzelnen Datensatz werden in einem Schritt S24 die Identifizierungsdaten standardisiert und verhasht und so der Datensatz 20 erzeugt, der die erste Datensatzkennung (auch als Hash-ID bezeichnet) und die zugehörigen Merkmale enthält. Mit Hilfe des symmetrischen Benutzerschlüssels 36 wird dieser Datensatz oder zumindest die Hash-ID verschlüsselt. Auf diese Weise erhält man einen verschlüsselten Datensatz 20 mit der verschlüsselten Datensatzkennung und den Merkmalen. In diesem Beispiel wird angenommen, daß die Verschlüsselung nur auf die Datensatzkennung wirkt. Wahlweise könnte die Verschlüsselung jedoch auch auf die Merkmale wirken.
-
Dieser verschlüsselte Datensatz 20 wird dann an die Treuhandstelle 12 übermittelt. Entsprechend verfährt man mit sämtlichen Datensätzen des Batches.
-
Auf Seiten der Treuhandstelle 12 wird dann ein privater Schlüssel 42 der Treuhandstelle benutzt, um in einem Schritt S26 den Benutzerschlüssel wieder zu entschlüsseln und so den symmetrischen Benutzerschlüssel 36 zurückzugewinnen, der dann für das gesamte Batch benutzt werden kann. In einem Schritt S28 werden dann die verschlüsselten Datensätze 20 entschlüsselt, und man erhält wieder die Datensätze 20, bestehend aus Hash-ID und Merkmalen.
-
Mit Hilfe eines symmetrischen Schlüssels 44 des Betreibers der Merkmalsdatenbank 14, hier als Analyse-Agentur AA bezeichnet, wird dann in Schritt S30 der Datensatz 20 umgeschlüsselt, so daß man den Datensatz 22 erhält, der die zweite Datensatzkennung (umgeschlüsselte Datei-ID) und die Merkmale enthält. Dieser Datensatz wird dann an die Analyse-Agentur übermittelt und in der Merkmalsdatenbank 14 gespeichert. Der symmetrische Schlüssel 44 der Analyse-Agentur kann ebenfalls mit Hilfe von asymmetrischer Verschlüsselung an die Treuhandstelle 12 übermittelt werden.