DE112020004766T5 - Verfahren und systeme zur anonymen verfolgung und/oder analyse von individuen auf basis biometrischer daten - Google Patents

Verfahren und systeme zur anonymen verfolgung und/oder analyse von individuen auf basis biometrischer daten Download PDF

Info

Publication number
DE112020004766T5
DE112020004766T5 DE112020004766.0T DE112020004766T DE112020004766T5 DE 112020004766 T5 DE112020004766 T5 DE 112020004766T5 DE 112020004766 T DE112020004766 T DE 112020004766T DE 112020004766 T5 DE112020004766 T5 DE 112020004766T5
Authority
DE
Germany
Prior art keywords
identifier
skewness
individuals
measure
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020004766.0T
Other languages
English (en)
Inventor
Leonard KÅBERG JOHARD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Indivd AB
Original Assignee
Indivd AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Indivd AB filed Critical Indivd AB
Publication of DE112020004766T5 publication Critical patent/DE112020004766T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Quality & Reliability (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Es werden Verfahren und Systeme zur anonymen Nachverfolgung und/oder Analyse des Flusses oder der Bewegung einzelner Subjekte und/oder Objekte unter Verwendung biometrischer Daten bereitgestellt. Insbesondere wird ein computerimplementiertes Verfahren zum Ermöglichen einer anonymen Schätzung, unter Verwendung biometrischer Daten, der Menge und/oder des Flusses individueller Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, in einer Population, die sich zwischen zwei oder mehr Subjektzuständen bewegen und/oder übereinstimmen, bereitgestellt. Das Verfahren umfasst die Schritte des Empfangens (S1) von Identifizierungsdaten, wobei die Identifizierungsdaten biometrische Daten aufweisen und/oder darauf basieren, von zwei oder mehr Individuen; Erzeugen (S2), online und durch einen oder mehrere Prozessoren, eines anonymisierten Identifizierers für jedes Individuum; und Speichern (S3): des anonymisierten Identifizierers jedes Individuums zusammen mit Daten, die einen Subjektzustand repräsentieren; und/oder einem Schiefemaß eines solchen anonymisierten Identifizierers.

Description

  • TECHNISCHES GEBIET
  • Die Erfindung betrifft im Allgemeinen das Problem der Anonymität in technischen Anwendungen; und technologische Aspekte der Datenerhebung und Daten-/Populationsstatistik basierend auf biometrischen Daten, und betrifft insbesondere das technische Gebiet der Schätzung oder Messung von Populationsflüssen und/oder Verfahren und Systeme und Computerprogramme zur Ermöglichung einer solchen Schätzung von Populationsflüssen basierend auf biometrischen Daten.
  • HINTERGRUND
  • Die Gesetzgebung und die öffentliche Meinung treiben zunehmend eine Bewegung in Richtung eines Rechts auf Anonymität in der Technologie an. Dies steht mit der Notwendigkeit, Daten über Populationsflüsse zu sammeln, um Prozesse und Gesellschaften zu automatisieren oder zu optimieren, in Konflikt. Einzelhändler möchten Statistiken über ihre Besucher sammeln, um ihren Betrieb zu verbessern. Smart Cities benötigen Daten zur Optimierung der Wohnqualität und Energieeffizienz. Öffentliche Verkehrssysteme müssen Daten über Reisemuster sammeln, um Reisezeiten zu verkürzen und Kosten zu optimieren.
  • Technologien, die sowohl die Datenerhebung für statistische Zwecke ermöglichen als auch die persönliche Anonymität wahren, sind stark gefragt. Insbesondere die Verfolgung von Flüssen von Menschen von einem Ort und Zeitpunkt zu einem anderen ist problematisch, da die Wiedererkennung eines Individuums zu einem späteren Zeitpunkt häufig die Definition einer Verletzung des Rechts dieser Person auf Anonymität darstellt. Dies bedeutet, dass die ganze Idee der anonymen Verfolgung einer Population etwas kontraintuitiv ist, da dies auf individueller Ebene oft praktisch unmöglich ist.
  • Aktuelle Vorgehensweisen zum Schutz der Privatsphäre, die zur Nachverfolgung von Menschen verwendet werden und auf einer Pseudo-Anonymisierung und eindeutigen Identifizierern basieren, sind klar nicht dazu in der Lage, diese Anforderungen zu erfüllen, was bedeutet, dass Unternehmen es vermeiden, überhaupt Daten über Populationsflüsse zu sammeln. Es ist sehr wünschenswert, Systeme zu finden, die in der Lage sind, Daten über solche Populationsflüsse zu sammeln, ohne dabei die Anonymität zu verletzen. Insbesondere die Erstellung von Profilen gilt weithin als Bedrohung der Grundrechte und Grundfreiheiten des Einzelnen. In einigen Fällen wurde eine Verschlüsselung mit einer sehr geringfügigen Zerstörung von Informationen verwendet, so dass Individuen mit ausreichend hoher Wahrscheinlichkeit (üblicherweise mit Fehlerraten von einer zu mehreren Zehntausend Identifizierungen) wiedererkannt werden können, so dass eine falsche Identifizierung vollständig vernachlässigt werden kann. Allerdings gelten solche Pseudonymisierungstechniken, unabhängig davon, ob sie praktisch reversibel sind oder nicht, weder als mit der gesetzlichen Auslegung der Anonymisierung noch mit der öffentlichen Meinung darüber vereinbar, da die Möglichkeit des Wiedererkennungsvorgangs selbst ein definierendes Merkmal von personenbezogenen Daten ist.
  • KURZDARSTELLUNG
  • Es ist ein allgemeines Ziel, ein System zur Bereitstellung von Anonymität, während Statistiken über Populationen basierend auf biometrischen Daten berechnet werden, bereitzustellen.
  • Es ist ein spezielles Ziel, ein System und ein Verfahren zum Bewahren von Anonymität bereitzustellen, während der Fluss von Individuen basierend auf biometrischen Daten zwischen zwei oder mehr zeitlich-räumlichen Orten, Computersystemzuständen in einer Interaktion mit dem Benutzer, und/oder Gesundheits- und Gesundheitsüberwachungszuständen eines Subjekts (die gemeinsam oder einzeln als Subjektzustände bezeichnet werden), geschätzt oder gemessen wird.
  • Es ist ein weiteres Ziel, ein System zur anonymen Nachverfolgung und/oder zum Analysieren des Übergangs und/oder Flusses und/oder der Bewegung von einzelnen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, basierend auf biometrischen Daten bereitzustellen.
  • Es ist auch ein Ziel, ein Überwachungssystem bereitzustellen, das ein solches System umfasst.
  • Noch ein weiteres Ziel besteht darin, ein computerimplementiertes Verfahren zum Ermöglichen einer Schätzung der Menge oder Anzahl von Individuen in einer Population, die zwischen zwei oder mehr Subjektzuständen übereinstimmen, basierend auf biometrischen Daten bereitzustellen.
  • Eine weitere Aufgabe besteht darin, ein Verfahren zum Erzeugen eines Maßes des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen basierend auf biometrischen Daten bereitzustellen.
  • Noch ein weiteres Ziel besteht darin, ein Computerprogramm und/oder Computerprogrammprodukt bereitzustellen, das dazu ausgelegt ist, ein solches computerimplementiertes Verfahren durchzuführen.
  • Diese und andere Ziele werden durch hierin definierte Ausführungsformen erreicht.
  • Gemäß einem ersten Aspekt wird ein System bereitgestellt, umfassend:
    • - einen oder mehrere Prozessoren;
    • - ein Anonymisierungsmodul, das durch den einen oder die mehreren Prozessoren ausgelegt ist zum: Empfangen, für jedes einer Vielzahl von Individuen, die einzelne Subjekte und/oder Objekte in einer Population von Individuen umfasst, von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren, und Erzeugen von anonyme Identifizierer-Schiefemaßen basierend auf Identifizierungsinformationen von einem oder mehreren Individuen;
    • - einen Speicher, der dazu ausgelegt ist, mindestens ein anonymes Identifizierer-Schiefemaß basierend auf mindestens einem der erzeugten Identifizierer-Schiefemaße zu speichern;
    • - einen Schätzer, der durch den einen oder die mehreren Prozessoren ausgelegt ist zum: Empfangen, von dem Speicher und/oder direkt von dem Anonymisierungsmodul, einer Anzahl anonymer Identifizierer-Schiefemaße, mindestens ein Identifizierer-Schiefemaß für jeden von mindestens zwei Subjektzuständen von Individuen, und Erzeugen eines oder mehrerer Populationsflussmaße in Bezug auf Individuen, die von einem Subjektzustand in einen anderen Subjektzustand gehen, basierend auf den empfangenen anonymen Identifizierer-Schiefemaßen.
  • Gemäß einem zweiten Aspekt wird ein System zum anonymen Verfolgen und/oder Analysieren des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen basierend auf biometrischen Daten bereitgestellt.
  • Das System ist dazu ausgelegt, für jedes Individuum in einer Population von mehreren Individuen einen anonymisierten Identifizierer unter Verwendung von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe zu bestimmen, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren. Jeder anonymisierte Identifizierer entspricht einem beliebigen Individuum in einer Gruppe von Individuen, deren Identifizierungsinformationen zu dem gleichen anonymisierten Identifizierer führen, mit solchen Wahrscheinlichkeiten, dass kein Individuum den anonymisierten Identifizierer mit einer größeren Wahrscheinlichkeit erzeugt als die Summe der Wahrscheinlichkeiten des Erzeugens der Identifizierer über alle anderen Individuen.
  • Das System ist ferner dazu ausgelegt, Schiefemaße zu verfolgen, ein Schiefemaß für jeden von zwei oder mehr Subjektzuständen, wobei jedes Schiefemaß basierend auf anonymisierten Identifizierern erzeugt wird, die den entsprechenden Individuen zugeordnet sind, die einem bestimmten entsprechenden Subjektzustand zugeordnet sind.
  • Das System ist auch dazu ausgelegt, mindestens ein Populationsflussmaß zu bestimmen, das repräsentativ für die Anzahl von Individuen ist, die von einem ersten Subjektzustand zu einem zweiten Subjektzustand gehen, basierend auf den Schiefemaßen, die den Subjektzuständen entsprechen.
  • Gemäß einem dritten Aspekt wird ein Überwachungssystem bereitgestellt, das ein System gemäß dem ersten oder zweiten Aspekt umfasst.
  • Gemäß einem vierten Aspekt wird ein computerimplementiertes Verfahren zum Ermöglichen einer anonymen Schätzung der Menge und/oder des Flusses individueller Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, in einer Population, die sich zwischen zwei oder mehreren Subjektzuständen bewegen und/oder übereinstimmen, basierend auf biometrischen Daten bereitgestellt. Das Verfahren umfasst die Schritte:
    • - Empfangen von Identifizierungsdaten von zwei oder mehr Individuen, wobei die Identifizierungsdaten jedes Individuums biometrische Daten aufweisen und/oder darauf basieren;
    • - Erzeugen, online und durch einen oder mehrere Prozessoren, eines anonymisierten Identifizierers für jedes Individuum; und
    • - Speichern: des anonymisierten Identifizierers jedes Individuums zusammen mit Daten, die einen Subjektzustand repräsentieren; und/oder einem Schiefemaß eines solchen anonymisierten Identifizierers.
  • Gemäß einem fünften Aspekt wird ein computerimplementiertes Verfahren zum Erzeugen eines Maßes des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen basierend auf biometrischen Daten bereitgestellt. Das Verfahren umfasst die Schritte:
    • - Konfigurieren eines oder mehrerer Prozessoren zum Empfangen anonymer Identifizierer-Schiefemaße, die basierend auf biometrisch basierten Identifizierern von Besuchen und/oder Vorkommnissen von Individuen in und/oder bei jedem von zwei Subjektzuständen erzeugt werden, wobei jeder Identifizierer repräsentativ für die Identität eines Individuums ist und biometrischen Daten aufweist und/oder darauf basiert;
    • - Erzeugen, unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei Subjektzuständen durch Vergleichen der anonymen Identifizierer-Schiefemaße zwischen den Subjektzuständen;
    • - Speichern des Populationsflussmaßes in einem Speicher.
  • Gemäß einem sechsten Aspekt wird ein Computerprogramm bereitgestellt, das Anweisungen umfasst, die, wenn sie von mindestens einem Prozessor ausgeführt werden, bewirken, dass der mindestens eine Prozessor das computerimplementierte Verfahren gemäß dem vierten Aspekt und/oder fünften Aspekt durchführt.
  • Gemäß einem siebten Aspekt wird ein Computerprogrammprodukt bereitgestellt, das ein nichtflüchtiges computerlesbares Medium umfasst, auf dem ein solches Computerprogramm gespeichert ist.
  • Gemäß einem achten Aspekt wird ein System zum Durchführen des Verfahrens gemäß dem vierten Aspekt und/oder fünften Aspekt bereitgestellt.
  • Auf diese Weise ist es tatsächlich möglich, Anonymität zu gewährleisten und gleichzeitig eine Datenerhebung und Berechnung von Statistiken über Populationen von Individuen basierend auf biometrischen Daten zu ermöglichen.
  • Insbesondere ermöglicht die vorgeschlagene Technologie die Wahrung von Anonymität, während der Fluss von Individuen zwischen zwei oder mehr Subjektzuständen basierend auf biometrischen Daten geschätzt oder gemessen wird.
  • Insbesondere ermöglicht die vorgeschlagene Erfindung eine Verknüpfung von zu unterschiedlichen Zeitpunkten basierend auf biometrischen Daten erhobenen Datenpunkten zu statistischen Zwecken ohne Speicherung persönlicher Daten.
  • Allgemein stellt die Erfindung verbesserte Technologien zum Ermöglichen und/oder Sichern von Anonymität in Verbindung mit einer Datenerfassung und Statistiken basierend auf biometrischen Daten bereit.
  • Andere Vorteile, die die Erfindung bietet, werden beim Lesen der nachstehenden Beschreibung von Ausführungsformen der Erfindung ersichtlich.
  • Figurenliste
  • Die Erfindung kann, zusammen mit weiteren Aufgaben und Vorteilen davon, am besten unter Bezugnahme auf die folgende Beschreibung, zusammen mit den beigefügten Zeichnungen, verstanden werden:
    • 1A ist ein schematisches Diagramm, das ein Beispiel eines Systems gemäß einer Ausführungsform veranschaulicht.
    • 1 B ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer anonymen Schätzung der Menge und/oder des Flusses individueller Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, in einer Population, die sich zwischen zwei oder mehr Subjektzuständen bewegen und/oder übereinstimmen, veranschaulicht.
    • 1C ist ein schematisches Flussdiagramm, das ein anderes erweitertes Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer anonymen Schätzung der Menge und/oder des Flusses einzelner Subjekte und/oder Objekte veranschaulicht.
    • 1D ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Erzeugen eines Maßes des Flusses oder der Bewegung von einzelnen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen veranschaulicht.
    • 2 ist ein schematisches Diagramm, das ein Beispiel einer Mikroaggregation einer Population in Gruppen veranschaulicht.
    • 3 ist ein schematisches Diagramm, das ein anderes Beispiel einer Mikroaggregation einer Population in Gruppen veranschaulicht, das das Konzept von Schiefemaßen aufweist.
    • 4 ist ein schematisches Diagramm, das veranschaulicht, wie jede Gruppe von Individuen einem Satz von Subjektzuständen N zugeordnet werden kann, jeweils für einen Satz von Zeitpunkten.
    • 5 ist ein schematisches Diagramm, das Beispiele von Subjektzuständen, wie etwa zeitlich-räumliche Ortsdaten und nützliche identifizierende biometrische Informationen (ID), veranschaulicht.
    • 6 ist ein schematisches Diagramm, das ein Beispiel eines Überwachungssystems veranschaulicht.
    • 7 ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer Schätzung der Menge oder Anzahl von Individuen in einer Population, die zwischen zwei oder mehr zeitlich-räumlichen Orten übereinstimmen, veranschaulicht.
    • 8 ist ein schematisches Flussdiagramm, das ein anderes Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer Schätzung der Menge oder Anzahl von Individuen in einer Population, die zwischen zwei oder mehr zeitlich-räumlichen Orten übereinstimmen, veranschaulicht.
    • 9 ist ein schematisches Diagramm, das ein Beispiel für die Bewegung oder den Fluss eines oder mehrerer Individuen von einem Ort A zu einem Ort B veranschaulicht.
    • 10 ist ein schematisches Diagramm, das ein Beispiel einer Bewegung oder eines Flusses von Benutzern von einem virtuellen Ort, wie etwa einem IP-Ort, zu einem anderen virtuellen Ort veranschaulicht.
    • 11 ist ein schematisches Diagramm, das ein Beispiel einer Computerimplementierung gemäß einer Ausführungsform veranschaulicht.
    • 12 ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Erzeugen eines Fluss- oder Bewegungsmaßes von einzelnen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen zeitlich-räumlichen Orten veranschaulicht.
    • 13 ist ein schematisches Diagramm, das ein Beispiel veranschaulicht, wie ein Identifizierer-Schiefemaß anonymisiert werden kann, indem Rauschen zu einem oder mehreren Zeitpunkten hinzugefügt wird, und wie dies einen BiasKompensationsterm erzeugen kann.
    • 14 veranschaulicht ein Beispiel für eine Rauschmaskierungs-Anonymisierung.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In allen Zeichnungen werden für ähnliche oder einander entsprechende Elemente die gleichen Bezugszeichen verwendet.
  • Für ein besseres Verständnis der vorgeschlagenen Technologie kann es hilfreich sein, mit einer kurzen Analyse des technischen Problems zu beginnen.
  • Eine sorgfältige Analyse des Erfinders hat ergeben, dass es möglich ist, personenbezogene Daten zu anonymisieren, indem eine Teilidentität gespeichert wird, d. h. Teilinformationen über die Identität eines Individuums, die an sich keine personenbezogenen Daten sind. Ferner ist es, vielleicht überraschenderweise, möglich, ein System zu konstruieren, das in der Lage ist, Populationsflüsse unter Verwendung solcher anonymer Daten zu messen, selbst wenn diese anonymen Daten auf Faktoren beruhen, die nicht direkt mit den Populationsflüssen und/oder ihrer Verteilung in Zusammenhang stehen. Wichtig ist, dass die vorgeschlagene Erfindung auch funktioniert, wenn die verwendeten Faktoren nicht mit den Populationsflüssen korreliert sind und/oder wenn eine Schätzung ihrer a priori Verteilung nicht durchführbar wäre. Die Erfindung ist somit auf allgemeine Populationen anwendbar, wobei fast alle identifizierenden Faktoren (d. h. Datentypen) verwendet werden, ohne dass weitere Kenntnisse der zugrunde liegenden Verteilungen erforderlich sind.
  • Die Erfindung bietet Systeme und Verfahren zum anonymen Schätzen des Populationsflusses. Außerdem werden drei spezielle Anonymisierungsverfahren und -systeme bereitgestellt, die geeignet sind, diese Zwecke zu ermöglichen. Kurz gesagt, zwei solcher Anonymisierungsverfahren, Hashing und Rauschmaskierung, basieren auf der Anonymisierung von Identifizierungsinformationen in Bezug auf jeweilige Besuche in Subjektzuständen in einem Anonymisierungsmodul, während das dritte Verfahren auf der Anonymisierung der erforderlichen gespeicherten Daten, d. h. des Identifizierer-Schiefemaßes, basiert. Diese Verfahren können auch in Kombination miteinander verwendet werden.
  • Die Erfindung stellt auch eine Möglichkeit bereit, die Erfindung zu verwenden, ohne zuerst die zugrunde liegende Verteilung durch die Verwendung eines dekorrelierenden Hash-Moduls und/oder eines Dekorrelationsmoduls und/oder eines dekorrelierenden Schiefemaßes zu schätzen.
  • Im Folgenden werden nicht einschränkende Beispiele der vorgeschlagenen Technologie unter Bezugnahme auf die beispielhaften schematischen Diagramme von 1 bis 11 beschrieben.
  • 1A ist ein schematisches Diagramm, das ein Beispiel eines Systems gemäß einer Ausführungsform veranschaulicht. In diesem speziellen Beispiel umfasst das System 10 im Wesentlichen einen oder mehrere Prozessoren 11, ein Anonymisierungsmodul 12, einen Schätzer 13, ein Eingabe-/Ausgabemodul 14 und einen Speicher 15 mit einem oder mehreren Schiefemaßen 16.
  • Gemäß einem ersten Aspekt der Erfindung wird ein System 10 bereitgestellt, umfassend:
    • - einen oder mehrere Prozessoren 11; 110;
    • - ein Anonymisierungsmodul 12, das durch den einen oder die mehreren Prozessoren 11; 110 ausgelegt ist zum: Empfangen, für jedes einer Vielzahl von Individuen, die individuelle Subjekte und/oder Objekte in einer Population von Individuen umfassen, von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren, und Erzeugen von anonymen Identifizierer-Schiefemaßen basierend auf Identifizierungsinformationen eines oder mehrerer Individuen;
    • - einen Speicher 15; 120, der dazu ausgelegt ist, mindestens ein anonymes Identifizierer-Schiefemaß basierend auf mindestens einem der erzeugten Identifizierer-Schiefemaße zu speichern;
    • - einen Schätzer 13, der durch den einen oder die mehreren Prozessoren 11; 110 ausgelegt ist zum: Empfangen, von dem Speicher und/oder direkt von dem Anonymisierungsmodul, einer Anzahl anonymer Identifizierer-Schiefemaße, mit mindestens einem Identifizierer-Schiefemaß für jeden von mindestens zwei Subjektzuständen von Individuen, und Erzeugen eines oder mehrerer Populationsflussmaße, die sich auf Individuen beziehen, die von einem Subjektzustand in einen anderen Subjektzustand gehen, basierend auf den empfangenen anonymen Identifizierer-Schiefemaßen.
  • Beispielsweise wird jedes Identifizierer-Schiefemaß basierend auf zwei oder mehr Identifizierer-Dichteschätzungen und/oder einem oder mehreren Werten erzeugt, die basierend auf von Identifizierer-Dichteschätzungen erzeugt werden.
  • Beispielsweise repräsentiert jedes Identifizierer-Schiefemaß die Schiefe der Identifizierungsinformationen eines oder mehrerer Individuen im Vergleich zu der erwarteten Verteilung solcher Identifizierungsinformationen in der Population.
  • In einem bestimmten Beispiel basiert das Identifizierer-Schiefemaß des Anonymisierungsmoduls auf einem Gruppenidentifizierer, der eine Vielzahl von Individuen repräsentiert.
  • Beispielsweise kann das Identifizierer-Schiefemaß auf einem Besuchszähler basieren.
  • Beispielsweise wird das Identifizierer-Schiefemaß basierend auf den Identifizierungsinformationen unter Verwendung einer Hash-Funktion erzeugt.
  • Beispielsweise kann das Anonymisierungsmodul 12 dazu ausgelegt sein, einen Gruppenidentifizierer basierend auf den biometrischen Informationen des Individuums zu erzeugen, indem eine ortsabhängige Hash- (LSH) Funktion verwendet wird.
  • Als ein Beispiel weisen das eine oder die mehreren Populationsflussmaße die Anzahl und/oder das Verhältnis von Besuchern, die von einem/einer zeitlich-räumlichen Ort/Örtlichkeit zu einem/einer anderen zeitlich-räumlichen Ort/Örtlichkeit gehen.
  • Beispielsweise wird mindestens eines der einen oder mehreren Populationsflussmaße mindestens teilweise basierend auf einer linearen Transformation von Zählerinformationen von zwei oder mehr Besuchszählern erzeugt.
  • Optional sind das Anonymisierungsmodul 12 und/oder die Identifizierungsinformationen, die für die Identität eines Individuums repräsentativ sind, stochastisch, und wobei die Stochastik der Identifizierungsinformationen und/oder des Anonymisierungsmoduls 12 beim Erzeugen der linearen Transformation berücksichtigt wird.
  • Beispielsweise wird eine Basislinie, die der erwarteten Korrelation von zwei unabhängig erzeugten Populationen entspricht, subtrahiert, wenn die Populationsflussmessung(en) erzeugt wird/werden.
  • Beispielsweise kann jedes Identifizierer-Schiefemaß unter Verwendung einer Kombination aus dem Identifizierer und Rauschen erzeugt werden, so dass der Beitrag zum Identifizierer-Schiefemaß anonymisiert wird, da ein ausreichender Rauschpegel für einen Besuch in einem Subjektzustand keinem speziellen Identifizierer zuschreibbar ist.
  • Beispielsweise kann das Identifizierer-Schiefemaß auf zwei oder mehr Identifizierer-Dichteschätzungen basieren.
  • In einem besonderen Beispiel ist das Anonymisierungsmodul dazu ausgelegt, mindestens ein Identifizierer-Schiefemaß basierend auf dem/den in dem Speicher gespeicherten anonymen Identifizierer-Schiefemaß(en) zu erzeugen; und Anonymität wird bereitgestellt, indem zu einem oder mehreren Zeitpunkten ausreichend Rauschen zu dem in dem Speicher gespeicherten anonymen Identifizierer-Schiefemaßen hinzugefügt wird, damit der Gesamtbeitrag von jedem einzelnen Identifizierer nicht bestimmbar ist.
  • Optional werden auch Informationen über die erzeugte(n) Rauschprobe(n) gespeichert und zum Senken der Varianz in dem Populationsflussmaß verwendet.
  • Beispielsweise können die Identifizierungsinformationen, die für die Identität eines Individuums repräsentativ sind, mindestens eines der folgenden, nicht einschränkenden Beispiele biometrischer Daten umfassen und/oder darauf basieren: Irisbilder, Gesichtsbilder, Merkmalsvektoren, Körperbilder, Fingerabdrücke und/oder Gang.
  • Mit anderen Worten, die Identifizierungsinformationen können als biometrische Informationen betrachtet werden, die für eine Identität des Individuums repräsentativ sind.
  • Beispielsweise weisen die Subjektzustände zeit-räumliche Orte, Computersystemzustände in einer Interaktion mit dem Benutzer, und/oder Gesundheits- und Gesundheitsüberwachungszustände eines Subjekts auf.
  • Beispielsweise basiert ein biometrischer Merkmalsvektor auf einem neuronalen Netz, das eine Darstellung extrahiert, die wahrscheinlich biometrische Daten aus einem Bild darstellt, das biometrische Informationen enthält.
  • Beispielsweise können die Identifizierungsdaten zusätzlich zu den biometrischen Daten auch weitere Identifizierungsdaten enthalten, codieren und/oder repräsentieren, beispielsweise Bilddaten oder Merkmalsvektoren, die auf Bilddaten basieren, die auch Kleidung und/oder andere nicht-biometrische Daten mit zusammen einem Gesicht enthalten.
  • In einem besonderen Beispiel, auf das später ausführlicher eingegangen wird, sind die Subjektzustände zeitlich-räumliche Orte und/oder Örtlichkeiten, und
    ist das Anonymisierungsmodul 12 dazu ausgelegt, einen Gruppenidentifizierer basierend auf den Identifizierungsinformationen des Individuums zu erzeugen, um effektiv eine Mikroaggregation der Population in entsprechende Gruppen durchzuführen;
    ist der Speicher 15; 120 dazu ausgelegt, Besuchszähler für jeden von zwei oder mehr Gruppenidentifizierern von jedem/jeder von zwei oder mehr zeitlich-räumlichen Orten oder Örtlichkeiten zu speichern, die den entsprechenden Individuen zugeordnet sind; und
    ist der Schätzer 13 dazu ausgelegt, Zählerinformationen von mindestens zwei Besuchszählern zu empfangen und einen oder mehrere Populationsflussmesswerte in Bezug auf Individuen zu erzeugen, die von einem zeitlich-räumlichen Ort zu einem anderen zeitlich-räumlichen Ort gehen.
  • Beispielsweise kann das Anonymisierungsmodul dazu ausgelegt sein, einen Gruppenidentifizierer basierend auf den Identifizierungsinformationen des Individuums durch Verwendung einer Hash-Funktion zu erzeugen.
  • Beispielsweise umfasst das System 10; 100 ein Eingangsmodul 14; 140, das durch den einen oder die mehreren Prozessoren 11; 110 ausgelegt ist zum: Empfangen, für jedes der Vielzahl von Individuen, von Ortsdaten, die repräsentativ für einen zeitlich-räumlichen Ort sind, und Abgleichen der zeitlich-räumlichen Position des Individuums mit einem Besuchszähler, der dem Gruppenidentifizierer in Bezug auf das Individuum entspricht, und wobei jeder Besuchszähler für jeden Gruppenidentifizierer auch einem bestimmten zeitlich-räumlichen Ort entspricht.
  • Gemäß einem zweiten Aspekt wird ein System 10; 100 zum anonymen Verfolgen und/oder Analysieren des Flusses oder der Bewegung einzelner Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen, basierend auf biometrischen Daten bereitgestellt.
  • Das System 10; 100 ist dazu ausgelegt, für jedes Individuum in einer Population von mehreren Individuen, einen anonymisierten Identifizierer zu bestimmen unter Verwendung von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren. Jeder anonymisierte Identifizierer entspricht einer beliebigen Person in einer Gruppe von Individuen, deren Identifizierungsinformationen zu derselben anonymisierten Identifizierer führen, mit solchen Wahrscheinlichkeiten, dass kein Individuum den anonymisierten Identifizierer mit einer größeren Wahrscheinlichkeit erzeugt als die Summe der Wahrscheinlichkeiten des Erzeugens der Identifizierer über alle anderen Individuen.
  • Das System 10; 100 ist dazu ausgelegt, Schiefemaße zu verfolgen, ein Schiefemaß für jeden von zwei oder mehr Subjektzuständen, wobei jedes Schiefemaß basierend auf anonymisierten Identifizierern erzeugt wird, die den entsprechenden Individuen zugeordnet sind, die einem bestimmten entsprechenden Subjektzustand zugeordnet sind.
  • Das System 10; 100 ist auch dazu ausgelegt, mindestens ein Populationsflussmaß zu bestimmen, das repräsentativ für die Anzahl von Individuen ist, die von einem ersten Subjektzustand zu einem zweiten Subjektzustand gehen, basierend auf den Schiefemaßen, die den Subjektzuständen entsprechen.
  • Beispielsweise sind die anonymisierten Identifizierer Gruppenidentifizierer und/oder rauschmaskierte Identifizierer.
  • In einem besonderen, nicht einschränkenden Beispiel ist das System 10; 100 dazu ausgelegt, für jedes Individuum in einer Population von mehreren Individuen, einen Gruppenidentifizierer basierend auf einer Hash-Funktion zu bestimmen unter Verwendung von Informationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe.
  • Jeder Gruppenidentifizierer entspricht einer Gruppe von Individuen, deren Identifizierungsinformationen zu dem gleichen Gruppenidentifizierer führen, wodurch effektiv eine Mikroaggregation der Population in mindestens zwei Gruppen durchgeführt wird.
  • In diesem Beispiel sind die Subjektzustände zeitlich-räumliche Orte oder Örtlichkeiten, und die Schiefemaße entsprechen Besuchsdaten, und das System 10; 100 ist dazu ausgelegt, pro Gruppe Besuchsdaten zu verfolgen, die die Anzahl der Besuche an zwei oder mehr zeitlich-räumlichen Orten durch Individuen, die zu der Gruppe gehören, repräsentieren.
  • Das System 10; 100 ist ferner dazu ausgelegt, mindestens ein Populationsflussmaß zu bestimmen, das repräsentativ für die Anzahl von Individuen ist, die von einem ersten zeitlich-räumlichen Ort zu einem zweiten zeitlich-räumlichen Ort gehen, basierend auf Besuchsdaten pro Gruppenidentifizierer.
  • Beispielsweise umfasst das System 10; 100 eine Verarbeitungsschaltung 11; 110 und einen Speicher 15; 120, wobei der Speicher Anweisungen umfasst, die, wenn sie von der Verarbeitungsschaltung ausgeführt werden, bewirken, dass das System den Fluss oder die Bewegung von Individuen anonym verfolgt und/oder analysiert.
  • Beispielsweise kann das Anonymisierungsmodul 12 dazu ausgelegt sein, einen Gruppenidentifizierer und/oder einen rauschmaskierten Identifizierer basierend auf den Identifizierungsinformationen des Individuums unter Verwendung einer Hash-Funktion zu erzeugen.
  • 1B ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens veranschaulicht zum Ermöglichen einer anonymen Schätzung der Menge und/oder des Flusses individueller Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, in einer Population, die sich zwischen zwei oder mehr Subjektzuständen bewegen und/oder übereinstimmen, basierend auf biometrischen Daten.
  • Das Verfahren umfasst die Schritte:
    • - Empfangen (S1) von Identifizierungsdaten von zwei oder mehr Individuen, wobei die Identifizierungsdaten jedes Individuums biometrische Daten aufweisen und/oder darauf basieren;
    • - Erzeugen (S2), online und durch einen oder mehrere Prozessoren, eines anonymisierten Identifizierers für jedes Individuum; und
    • - Speichern (S3): des anonymisierten Identifizierers jedes Individuums zusammen mit Daten, die einen Subjektzustand repräsentieren; und/oder eines Schiefemaßes eines solchen anonymisierten Identifizierers.
  • Beispielsweise kann der anonymisierte Identifizierer ein anonymisiertes Identifizierer-Schiefemaß oder eine anderer anonymisierter Identifizierer sein, der effektiv nicht mit dem Populationsfluss korreliert ist.
  • Beispielsweise kann das Schiefemaß dekorrelieren und/oder die Identifizierungsdaten sind auf irgendeine Weise mit dem Populationsfluss korreliert, und wobei der anonymisierte Identifizierer mit einem Dekorrelationsmodul und/oder einem Dekorrelations-Hash-Modul erzeugt wird.
  • In einem besonderen Beispiel ist der anonymisierte Identifizierer ein anonymes Schiefemaß, und das anonymisierte Schiefemaß wird basierend auf einem gespeicherten anonymen Identifizierer-Schiefemaß erzeugt, zu dem an einem oder mehreren Zeitpunkten Rauschen hinzugefügt wurde.
  • Beispielsweise kann der anonymisierte Identifizierer durch Hinzufügen von Rauschen zu den Identifizierungsdaten erzeugt werden.
  • Beispielsweise werden ein zu einer Populationsflussschätzung hinzuzufügender Kompensationsterm und/oder notwendige Informationen zum Erzeugen einer solchen Populationsflussschätzung basierend auf einer oder mehreren erzeugten Rauschprobe(n) berechnet, die von dem Verfahren verwendet werden.
  • Beispielsweise sind zwei beliebige gespeicherte anonymisierte Identifizierer oder Identifizierer-Schiefemaße nicht miteinander verknüpfbar, d. h., es gibt keinen pseudonymen Identifizierer, der die Zustände in den gespeicherten Daten verknüpft.
  • In einem besonderen Beispiel ist der anonymisierte Identifizierer eine Gruppenidentität, und die Gruppenidentität jedes Individuums wird zusammen mit Daten gespeichert, die den Subjektzustand repräsentieren; und/oder einem Zähler pro Subjektzustand und Gruppenidentität.
  • Beispielsweise kann der Subjektzustand ein zeitlich-räumlicher Ort, ein Computersystemzustand in einer Interaktion mit einem Benutzer, und/oder ein Gesundheits- und/oder Gesundheitsüberwachungszustand eines Subjekts sein.
  • Optional werden auch Aktivitätsdaten, die eine oder mehrere Handlungen oder Aktivitäten jedes Individuums repräsentieren, zusammen mit der entsprechenden Gruppenidentität und Daten, die den Subjektzustand beschreiben, gespeichert.
  • Optional kann das Verfahren ferner den Schritt des Erzeugens (S4) eines Populationsflussmaßes zwischen zwei Subjektzuständen umfassen, wie schematisch in 1C gezeigt wird.
  • 1D ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Erzeugen eines Maßes des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen, basierend auf biometrischen Daten, veranschaulicht.
  • Das Verfahren umfasst die Schritte:
    • - Konfigurieren (S11) eines oder mehrerer Prozessoren zum Empfangen anonymer Identifizierer-Schiefemaße, die basierend auf biometrisch basierten Identifizierern von Besuchen und/oder Vorkommnissen von Individuen bei und/oder in jedem von zwei Subjektzuständen erzeugt werden, wobei jeder Identifizierer repräsentativ für die Identität eines Individuums ist und biometrische Daten aufweist und/oder darauf basiert;
    • - Erzeugen (S12), unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei Subjektzuständen durch Vergleichen der anonymen Identifizierer-Schiefemaße zwischen den Subjektzuständen;
    • - Speichern (S13) des Populationsflussmaßes in einem Speicher.
  • Die Subjektzustände sind beispielsweise zeitlich-räumliche Orte, Computersystemzustände in Interaktion mit einem Benutzer, und/oder Gesundheits- und/oder Gesundheitsüberwachungszustände eines Subjekts.
  • Beispielsweise können die anonymen Identifizierer-Schiefemaße Zähler von Gruppenidentitäten sein.
  • Normalerweise kann, indem die anonymen Identifizierer-Schiefemaße verwendet werden, ein einzelner Besucher, der sich in einem Subjektzustand befindet, mit hoher Wahrscheinlichkeit in einem anderen Subjektzustand nicht wiedererkannt werden. Beispielsweise kann er/sie nicht durch ein Pseudonym und/oder durch einen einzelnen Eintrag in einer Datenbank verknüpft werden.
  • Beispielsweise basiert der Erzeugungsschritt S12 nicht auf Daten, die bereits ein gewisses Maß des Populationsflusses zwischen den Orten auf individueller Ebene und/oder mikroaggregierter Ebene enthalten.
  • Beispielsweise sind die anonymen Identifizierer-Schiefemaße effektiv nicht mit dem Populationsfluss korreliert.
  • Optional wird die Populationsflussschätzung basierend auf einer linearen Abbildung aus den anonymen Identifizierer-Schiefemaßen erzeugt.
  • Beispielsweise kann das Populationsflussmaß auch basierend auf Informationen über Rauschproben erzeugt werden, die zum Anonymisieren der Daten verwendet werden.
  • Beispielsweise weist der Konfigurationsschritt S11 Konfigurieren eines oder mehrerer Prozessoren zum Empfangen von Zählern anonymer und annähernd unabhängig verteilten Gruppenidentitäten, die von Besuchen von Individuen in jedem von zwei Subjektzustände stammen, auf; und weist der Erzeugungsschritt S12 Erzeugen eines Populationsflussmaßes zwischen zwei Subjektzuständen unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei Subjektzustände auf.
  • Beispielsweise können die Subjektzustände zeitlich-räumliche Orte sein, und das Populationsflussmaß zwischen zwei zeitlich-räumlichen Orten kann unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei Subjektzustände erzeugt werden.
  • Optional kann ein anonymer Identifizierer oder ein Identifizierer-Schiefemaß für jeden betreffenden Zustand auf zwei oder mehr Identifizierer-Dichteschätzungen basieren.
  • 2 ist ein schematisches Diagramm, das ein Beispiel einer Mikroaggregation einer Population in Gruppen veranschaulicht. Beispielsweise kann eine Population von zu untersuchenden Subjekten/Objekten in Gruppen mikroaggregiert werden, indem ein geeignetes unidirektionales Hashing verwendet wird. Kurz gesagt, eine Grundidee besteht darin, für jedes einer Vielzahl von Individuen Identifizierungsinformationen (wie etwa ID#1, ID#2, ... ID#Y) zu verwenden, die eine Identität der Person repräsentieren, und basierend auf den Identifizierungsinformationen des Individuums einen Gruppenidentifizierer (Gruppen-ID#1, ... Gruppen-ID#X) zu erzeugen, um effektiv eine Mikroaggregation der Population in entsprechende Gruppen (Gruppe #1, ... Gruppe #X) durchzuführen.
  • 3 ist ein schematisches Diagramm, das ein anderes Beispiel einer Mikroaggregation einer Population in Gruppen veranschaulicht, das das Konzept von Besuchszählern aufweist. Es gibt Besuchszähler 16 für jeden von zwei oder mehr Gruppenidentifizierern von jedem von zwei oder mehr zeitlich-räumlichen Orten oder Örtlichkeiten, die den entsprechenden Individuen zugeordnet sind. Mit anderen Worten, jede von mindestens zwei Gruppen (mit entsprechenden Gruppenidentifizierern) hat eine Anzahl (K, L, M) von Besuchszählern zur Aufrechterhaltung von Besuchszählungen von jedem von zwei oder mehr zeitlich-räumlichen Orten oder Örtlichkeiten, die den entsprechenden Individuen der betrachteten Gruppe zugeordnet sind.
  • Der Schätzer 13, auch als Populationsflussschätzer bezeichnet, kann dann dazu ausgelegt sein, Zählerinformationen von mindestens zwei Besuchszählern zu empfangen und eine oder mehrere Populationsflussmessungen in Bezug auf Individuen zu erzeugen, die von einem zeitlich-räumlichen Ort zu einem anderen zeitlich-räumlichen Ort gehen.
  • 4 ist ein schematisches Diagramm, das veranschaulicht, wie jede Gruppe von Individuen einem Satz von räumlichen Orten N jeweils für einen Satz von Zeitpunkten zugeordnet werden kann.
  • Optional umfasst das System 10 ein Eingabemodul 14, das durch den einen oder die mehreren Prozessoren ausgelegt ist zum: Empfangen, für jedes der Vielzahl von Individuen, von Ortsdaten, die einen zeitlich-räumlichen Ort repräsentieren, und Abgleichen des zeitlich-räumlichen Orts des Individuums mit einem Besuchszähler 16, der dem Gruppenidentifizierer entspricht, der sich auf das Individuum bezieht.
  • Beispielsweise entspricht jeder Besuchszähler 16 für jeden Gruppenidentifizierer auch einem bestimmten zeitlich-räumlichen Ort.
  • Beispielsweise weisen das eine oder die mehreren Populationsflussmaße die Anzahl und/oder das Verhältnis von Besuchern, die von einem zeitlich-räumlichen Ort zu einem anderen zeitlich-räumlichen Ort gehen, auf.
  • In einem besonderen Beispiel wird mindestens eines der einen oder mehreren Populationsflussmaße mindestens teilweise basierend auf einer linearen Transformation der Zählerinformationen von zwei oder mehreren Besuchszählern erzeugt.
  • Beispielsweise können das Anonymisierungsmodul 12 und/oder die Identifizierungsinformationen, die für die Identität eines Individuums repräsentativ sind, stochastisch sein, und die Stochastik der Identifizierungsinformationen (des Identifizierers und/oder des Anonymisierungsmoduls 12 kann beim Erzeugen der linearen Transformation berücksichtigt werden.
  • Beispielsweise kann die lineare Transformation mindestens teilweise auf einer Korrelation zwischen zwei Besuchszählern basieren, und von der eine Basislinie, die der erwarteten Korrelation von zwei unabhängig erzeugten Populationen entspricht, subtrahiert wird.
  • 5 ist ein schematisches Diagramm, das Beispiele von Subjektzuständen, wie etwa zeitlich-räumliche Ortsdaten und nützliche biometrische Identifizierungsinformationen (ID), veranschaulicht.
  • Beispielsweise können sich die zeitlich-räumlichen Ortsdaten zusätzlich zu dem zeitlichen Aspekt (d. h. bezogen auf die Zeit) auf physische Orte, wie etwa Straßen, Geschäfte, U-Bahn-Stationen, oder jeden anderen geeigneten geographischen Ort, und/oder virtuelle Orte, wie etwa IP-Adressen, Domänen, Rahmen, usw., beziehen.
  • Nicht einschränkende Beispiele für Identifizierungsinformationen, auch Identifizierer genannt, die die Identität eines Individuums basierend auf seinen/ihren biometrischen Attributen repräsentieren, können mindestens eines von dem Folgenden aufweisen und/oder darauf basieren: Irisbilder, Gesichtsbilder, Merkmalsvektoren, Körperbilder, Fingerabdrücke und/oder Gang.
  • Dies bedeutet, eine oder mehrere der oben genannten Informationen und/oder eine Kombination davon.
  • In einem besonderen Beispiel ist das Anonymisierungsmodul dazu ausgelegt, basierend auf einer Zufallstabelle, einer Pseudozufallstabelle, einer kryptografischen Hash-Funktion und/oder einer anderen ähnlichen Funktion, die effektiv nicht mit dem interessierenden Aspekt korreliert ist, den das System untersuchen soll, zu arbeiten.
  • Beispielsweise kann der Hash-Prozess nicht-deterministisch sein.
  • Beispielsweise kann es als wichtig erachtet werden, dass Daten von mindestens zwei Individuen pro eindeutigem Gruppenidentifizierer erhoben werden oder voraussichtlich erhoben werden, wenn ein solcher verwendet wird. Mit anderen Worten, Daten von mindestens zwei Individuen werden pro eindeutigem Hash gesammelt oder voraussichtlich gesammelt. Alternativ kann es bei einem etwas schwächeren Kriterium wichtig sein, dass mindestens zwei Individuen in irgendeiner Population zu erwarten sind, von denen vernünftigerweise erwartet werden kann, dass sie den Subjektzustand besuchen, z. B. Individuen in der interessierenden Stadt oder Land, wo die Daten erhoben werden. Der Bereich sinnvoller Identitäten wäre das Kriterium für Anonymität, nicht der Bereich sinnvoller Identifizierer. Beispielsweise ist die Anzahl möglicher körperlicher Merkmale im Allgemeinen größer als der Bereich tatsächlicher körperlicher Merkmale in einem Land oder einer anderweitig definierten Population.
  • Allgemeiner gesagt, um den Fall der rauschbasierten Anonymisierung mit einem ähnlichen Kriterium zu handhaben, kann es beispielsweise wichtig sein, dass die Wahrscheinlichkeit der korrekten Identifizierung eines Individuums nicht höher als 50 % sein sollte, mit möglichen optionalen Ausnahmen für Situationen mit vernachlässigbarer Wahrscheinlichkeit. Es kann beispielsweise zusätzlich wichtig sein, dass die Wahrscheinlichkeit, eine Person zu identifizieren, nicht höher als 50 % ist, wenn ein bekannter Subjektzustand und/oder vernünftige verfügbare Informationen über solche Subjektzustände vorliegen, in denen eine bestimmte Person anwesend ist. Solches Wissen kann auch probabilistisch sein. Solche Wahrscheinlichkeiten können von einem Fachmann auf einfache Weise unter Verwendung analytischer oder Monte-Carlo-Verfahren berechnet werden.
  • Bei der Verwendung eines rauschmaskierten Identifizierers kann es beispielsweise wichtig sein, dass kein rauschmaskierter Identifiziererwert mit einer höheren Wahrscheinlichkeit einer einzelnen Person zugeordnet werden kann als der Identifiziererwert, der zu einer der anderen Menschen in der Population gehört. Folglich sollte die Wahrscheinlichkeit, dass er zu einem der n-1 verbleibenden Individuen in der Population von n Menschen gehört, idealerweise über 0,5 liegen. Mit anderen Worten, die Wahrscheinlichkeit, ein Individuum zu identifizieren, sollte nicht über 0,5 liegen, und in vielen Fällen viel niedriger sein, da sie für einige k=2 oder höher einen ähnlichen Schutz wie die k-Anonymisierung bietet. Mit anderen Worten, jeder dieser Vielzahl von Identifizierern sollte eine Wahrscheinlichkeit haben, den gegebenen rauschmaskierten Identifiziererwert zu erzeugen, die kleiner ist als die Summe der Wahrscheinlichkeiten, den rauschmaskierten Identifizierer jedes anderen Identifizierers zu erzeugen. Ist der Rauschpegel zu gering, erlauben die erhobenen Daten die Erstellung von Profilen, und das Verfahren ist aufgrund einer unzureichenden Datenerhebung nicht mehr anonym.
  • Beispielsweise könnten die Wahrscheinlichkeiten, einen bestimmten rauschmaskierten Identifizierer zu erzeugen, für vier verschiedene empfangene Identifizierer 0,6, 0,4, 0,3 und 0,4 betragen, wobei die größte Wahrscheinlichkeit ist, dass 0,6/1,7 der Daten einer bestimmten Person korrekt zugeordnet werden, und somit eine Anonymität größer als 0,5 erreicht. Es ist zumeist vernünftig, anzunehmen, dass die a priori Wahrscheinlichkeit in der gesamten Population identisch ist. In anderen Fällen, beispielsweise wenn Menschen anhand von Gesichtsbildern identifiziert werden und es von vornherein bekannt ist, dass bestimmte Typen von Gesichtern in der gegebenen Population mit größerer Wahrscheinlichkeit vorhanden sind, muss die a priori Verteilung berücksichtigt werden. Dies ist in der Praxis oft eine sehr schwierige Abschätzung. In solchen Fällen wäre es wünschenswert, stattdessen ein Dekorrelationsmodul zu verwenden und/oder Wahrscheinlichkeiten zu haben, die Verteilungen aufweisen, die ausreichend verteilt sind, um einen großen Spielraum für Unsicherheiten in der a priori Wahrscheinlichkeit zu lassen. Eine vollständig gleichmäßige Verteilung über alle möglichen rauschmaskierten Identifiziererwerte, ungeachtet des empfangenen Identifizierers, ist nicht praktikabel, da dies eindeutig jede wünschenswerte, erwartete Schiefe in den Daten beseitigen würde, die durch einen bestimmten Satz von Identifizierern verursacht wird, die verwendet werden, um die rauschmaskierten Identifizierer zu erzeugen. Mit anderen Worten, die Auswahl einer geeigneten Rauschverteilung wird zu einem Gleichgewicht zwischen Genauigkeit bei der Schätzung und bereitgestellter Anonymität. Es gibt jedoch normalerweise eine breite Palette von Auswahlmöglichkeiten, die sowohl ein hohes Maß an Anonymität als auch eine angemessene Genauigkeit bieten können.
  • Beachte, dass das/die Kriterium/Kriterien für Anonymität nicht nur die Tatsache umfasst, dass der ursprüngliche Identifizierer mit hoher Wahrscheinlichkeit nicht mehr rekonstruiert werden kann, z. B., um die Wiederherstellung erkennbarer Gesichtsbilder usw. zu verhindern. Diese schwächere Eigenschaft gilt für einige „salted“ Hashs, temporäre zufällige Identifizierer, und eine große Auswahl anderer ähnlicher Identifizierer, die als pseudonym bezeichnet werden. Unsere Erfindung zielt stattdessen auf ein deutlich strengeres Maß für die Anonymisierung ab, indem sie auch die Verknüpfung von Daten, beispielsweise zu Profilen, verhindert, indem es einem Angreifer unmöglich gemacht wird, zwei oder mehr Datenpunkte mit den gespeicherten Identifizierern auf individueller Ebene zu verknüpfen (während die Verknüpfung auf der aggregierten, statistische Ebene noch immer ermöglicht wird). Dies ist auch die gängige Definition von Anonymisierung in der modernen und strengeren Definition, die durch neuere wissenschaftliche und rechtliche Definitionen der Anonymität bereitgestellt wird, wie etwa die Datenschutz-Grundverordnung und die Empfehlung durch den EU-Artikel 29 Meinung 05/2014 über Anonymisierungstechniken (mit den speziellen Kriterien: „Ist es trotzdem möglich, Datensätze mit Individuen zu verknüpfen?“). Demgegenüber würde jede Verfügbarkeit oder Möglichkeit nicht-anonymer, auf individueller Ebene verknüpfbaren Daten, z. B. pseudonyme Identifizierer, das Ziel in der durch die Erfindung beschriebenen Weise trivial und unsinnig machen.
  • Beispielsweise kann ein besonderer Effekt der hier beschriebenen Anonymisierung darin bestehen, eine mögliche Profilerstellung von Individuen durch Dritte unter Verwendung der in dem System gespeicherten Daten wirksam zu verhindern oder erheblich zu erschweren.
  • Als Alternative zu dem erfindungsgemäßen Verfahren können Daten nach der Erfassung anonymisiert werden, während das Populationsflussmaß auf verschiedene Weise erhalten bleibt, beispielsweise durch Mikroaggregation der Population und Speichern des Populationsflusses pro Gruppe. Eine solche Anonymisierung erfordert jedoch einen oder mehrere nicht anonyme Datenerhebungsschritte. Somit wäre ein solches System und/oder Verfahren zur Populationsflussmessung nicht anonym, da es die Erhebung und Speicherung personenbezogener Daten jedes Individuums mindestens für den Zeitraum erfordern würde, der die Besuche in den entsprechenden Subjektzustände trennt. Dieses Problem ist auch wichtig genug, um in der Gesetzgebung ausdrücklich anerkannt zu werden, beispielsweise in der Präambel des „Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL concerning the respect for private life and the protection of personal data in electronic communications and repealing Directive 2002/58/EC (Regulation on Privacy and Electronic Communications)“, Richtlinie 2002/58/EG (Verordnung über Datenschutz und elektronische Kommunikation)“, wo ausgeführt wird:
    • „Um die Verkehrsbewegungen in bestimmte Richtungen während eines bestimmten Zeitraums anzuzeigen, ist ein Identifizierer erforderlich, um die Positionen von Individuen in bestimmten Zeitabständen zu verknüpfen. Dieser Identifizierer würde fehlen, wenn anonyme Daten verwendet würden und solche Bewegungen nicht angezeigt werden könnten.“.
  • Diese Schlussfolgerungen haben die Erfindung eindeutig nicht vorhergesehen, und stellen klar die wahrgenommene Unmöglichkeit dar, das angegebene Ziel mit herkömmlichen Verfahren zu erreichen, während eine angemessene Anonymität gewahrt bleibt.
  • Solche nicht-anonymen Daten sind aufgrund ihrer fehlenden Anonymität sowohl bei ihrer Erhebung als auch bei ihrer Speicherung nicht mit der von der Erfindung vorgesehenen Datenerhebung vereinbar, was solche Datentypen mit dem Ziel der anonymen Verfolgung und/oder Analyse der Bewegung einzelner Subjekte unvereinbar macht.
  • Die ursprünglichen Identifizierer können eine ungleichmäßige Verteilung aufweisen. Dies ist beispielsweise der Fall bei dem lokalen geografischen Bias biometrisch relevanter Phänotypen in einer Population. In solchen Fällen kann der erforderliche gleichmäßige Rauschpegel untragbar hoch sein. Ein verbesserter und angemessener Rauschpegel zur Gewährleistung von Anonymität muss möglicherweise von dem Identifizierer selbst abhängig werden, z. B. durch Hinzufügen von mehr Rauschen zu Identifizierern, die eher wenige Nachbarn haben, aber dies erfordert eine Schätzung der zugrunde liegenden Verteilung von Identifizierern. Eine solche Schätzung der Verteilung kann in der Praxis sehr schwierig sein und kann auch mit Schätzfehlern behaftet sein, die die Anonymität gefährden.
  • Wir schlagen für solche Fälle ein optionales zusätzliches Dekorrelationsmodul vor, das dazu dient, alle relevanten Korrelationen in den anonymisierten Identifizierern effektiv zu entfernen. Beispielsweise verwendet es einen kryptografischen Hash und/oder eine ähnliche Dekorrelationsfunktion, bevor es das Rauschen zu dem resultierenden dekorrelierten Identifizierer im Anonymisierungsmodul hinzufügt. Die Rolle des Dekorrelationsmoduls besteht darin, alle Muster und/oder großräumigen Muster in der Verteilung zu entfernen, wodurch die IdentifiziererDichte ausgeglichen wird, während die Anonymität eher durch das Rauschen im Anonymisierungsmodul als durch die Dekorrelation bereitgestellt wird. Im Gegensatz zu der Hash-Funktion, die zum Erzeugen von Gruppenidentifizierern verwendet wird, muss das Dekorrelationsmodul selbst keine anonymen Identifizierer bereitstellen. Folglich kann das Dekorrelationsmodul auch wirklich oder wahrscheinlich umkehrbar sein, wie etwa eine umkehrbare Abbildung oder ein Salted-Hash, der mit einer gewissen Wahrscheinlichkeit eine Datenverknüpfung und/oder eine Wiederherstellung des ursprünglichen Identifizierers ermöglicht. Weitere Beschreibungen des Dekorrelationsaspekts und möglicher Verwendungen von ortsabhängigem Hashing in einem Dekorrelationsmodul folgen den Richtlinien, die in den zugehörigen Beispielen unten bereitgestellt werden.
  • In einer alternativen beispielhaften Ausführungsform des Dekorrelationsmoduls wird die Dekorrelationsfunktion stattdessen auf das Rauschen angewandt. Dies bedeutet, dass eine Rauschquelle, typischerweise gutartig, wie etwa ein Gaußsches Rauschen, in ein dekorreliertes Rauschen umgewandelt wird, d. h. eines mit einer Wahrscheinlichkeitsverteilung, der effektiv große kontinuierliche Muster fehlen, beispielsweise durch Anwenden einer Hash-Funktion auf das gutartige Rauschen. Dieses dekorrelierte Rauschen von einem solchen Dekorrelationsmodul kann dann verwendet werden, die Identifizierungsdaten gleichzeitig zu anonymisieren und zu dekorrelieren, beispielsweise durch Hinzufügen von dekorreliertem Rauschen und dann Anwenden einer Modulorspan-Operation, wobei rspan der Bildbereich der Rauschquelle („range of image of the noise source“) ist. Beim Einstellen der numerischen Auflösung des Rauschens und/oder beim Entwerfen des verwendeten Hash-Verfahrens muss darauf geachtet werden, dass das Rauschen nicht perfekt gleichmäßig verteilt ist, da eine ungleichmäßige Verteilung erforderlich ist, um die erforderliche Identifizierer-bezogene Schiefe zu erzeugen, die von der Erfindung verwendet wird.
  • Als Alternative zu dem Dekorrelationsmodul kann ein dekorrelierendes Schiefemaß verwendet werden. Dies kann beispielsweise ein beliebiges Schiefemaß sein, das keine großräumigen Muster anzeigt, die wahrscheinlich mit physikalischen Systemen korrelieren, beispielsweise indem es auf Funktionen basiert, wie etwa einer zufällig initialisierten Tabelle, und/oder einer Funktion, die eine effektiv zufällige Identifizierer-abhängige Gewichtung ist, und/oder eine Funktion, die nur kleine Muster beibehält, die wahrscheinlich keine signifikante Korrelation hervorrufen, wie etwa eine Modulo-Operation. Die notwendigen Überlegungen beim Entwerfen eines dekorrelierenden Schiefemaßes ähneln weitgehend denen beim Entwerfen eines Dekorrelationsmoduls und sind für den Fachmann offensichtlich.
  • Eine Dekorrelation von Identifizierungsdaten sollte im Kontext mit dem Schiefemaß interpretiert werden. Wenn das Schiefemaß wahrscheinlich von den bestehenden Besuchswahrscheinlichkeitsmustern in den Identifizierungsdaten beeinflusst wird, beispielsweise, wenn die Identifizierer, die ein spezielles Identifiziererdichtemaß betreffen, im Durchschnitt signifikant wahrscheinlicher einen Subjektzustand besuchen als andere Identifizierer in der Population, dann kann die Besuchshäufigkeit der Identifizierungsdaten als korreliert betrachtet werden (mit der Form des Schiefemaßes). Daher kann die Korrelation gebrochen werden entweder durch Brechen ihrer Korrelation durch Ändern des Schiefemaßes und/oder des anonymen Identifizierers, während die Besuchshäufigkeit pro Subjektzustand und Identifizierer als ein gegebener Wert für ein Messsystem angesehen werden kann. Da beispielsweise die Wahrscheinlichkeit dafür gering ist, dass zwei vollständig zufällige Funktionen und/oder Verteilungen signifikant korrelieren, würde eine Auswahl einer beliebigen zufälligen Abbildung ausreichen, um sie mit hoher Wahrscheinlichkeit zu dekorrelieren.
  • Kurz gesagt, der theoretische Grund für die Effektivität der Dekorrelation hängt mit der Tatsache zusammen, dass Daten mit Ursprung in der physikalischen Welt und/oder Funktionen, die verwendet werden, um solche zu modellieren (z. B. die gebräuchlichsten und benannten Funktionen, die in der Technik verwendet werden), eine infinitesimale und bestimmte Teilmenge alle möglichen Funktionen bilden und eine relativ hohe Wahrscheinlichkeit der Ähnlichkeit und der Anzeige falscher Korrelationen haben, insbesondere für große Muster. Kleine physikalische Muster neigen dazu, mindestens teilweise chaotisch und effektiv zufällig zu sein. Weitere Details zu solchen Eigenschaften können in früheren veröffentlichten Arbeiten des Erfinders gefunden werden (z. B. „Mind and Matter: Why It All Makes Sense“). Im Gegensatz dazu hat eine effektiv zufällig ausgewählte Funktion/Verteilung aus allen möglichen Funktionen/Verteilungen eine viel niedrigere, oft null oder vernachlässigbare Wahrscheinlichkeit, solche Korrelationen sowohl mit Funktionen physikalischen Ursprungs und/oder anderen zufällig ausgewählten Funktionen aufzuweisen. Der Lawineneffekt ergibt eine andere und doch ähnliche Sichtweise auf den Dekorrelationsaspekt. Als Funktion für Dekorrelationszwecke können beispielsweise eine gekrümmte Funktion und/oder solche, die das strenge Lawinen-Kriterium erfüllen, geeignet sein, während beispielsweise Funktionen, die als besonders gutartig gelten, und/oder Funktionen mit niederwertigen Ableitungen meist weniger geeignet sind aufgrund ihrer annähernden Linearität, die mit der annähernden Linearität korreliert, die den meisten physikalischen Systemen und Modellen in einem gewissen Maße innewohnt. Sowohl kryptografische Hash-Funktionen als auch Zufallsabbildungen, wie etwa Zufallstabellen, profitieren von diesen Eigenschaften, aber viele andere Funktionen besitzen auch die relevanten Eigenschaften für die Zwecke der Erfindung und/oder nähern sich an (z. B. LSH). Geeignete Alternativen sollten für den Fachmann, der mit der Theorie des Hashings, der Kryptografie und der Komprimierung vertraut ist, offensichtlich sein.
  • Beachte, dass wir das Hinzufügen von Rauschen hierin als die Anwendung, im allgemeinen Sinne, einer beliebigen stochastischen Abbildung verwenden, wobei wir uns nicht notwendigerweise auf das Hinzufügen eines Rauschterms zu dem Identifizierer verlassen. Beispielsweise kann auch multiplikatives Rauschen verwendet werden. Dies kann aus Sicht der Informationstheorie immer noch als eine Hinzufügung von Rauschen zu den in den Daten codierten Informationen angesehen werden, unabhängig von der Form einer solchen Codierung.
  • Die Wahl des speziellen Hashing- und/oder rauschmaskierten Identifizierers kann zwischen den Subjektzuständen unterschiedlich sein und kann auch von anderen Faktoren abhängig sein. Beispielsweise können bestimmte Identifizierer einem Hashing und andere einer rauschbasierter Maskierung zugewiesen werden. Rauschen kann vom Identifizierer abhängig und/oder vom Objektzustand abhängig sein.
  • In manchen Kontexten werden einige zugängliche Identifizierungsdaten als Identifizierer betrachtet, und andere potenzielle Identifizierungsdaten werden als zusätzliche Daten betrachtet, die einem Angreifer unbekannt sind. Beispielsweise können genaue Ortsdaten an einem öffentlichen Ort nicht zur Identifizierung einer Person verwendet werden, es sei denn, der Angreifer verfügt wahrscheinlich über Ortsdaten mit denselben Zeitstempeln. Wenn solche Daten wahrscheinlich für den Angreifer verfügbar sind, kann es angebracht sein, alle zusätzlichen Daten zusammen mit dem Identifizierer zusätzlich zu anonymisieren. Die Erfindung kann in jeder solchen Kombination verwendet werden. Beispielsweise kann ein Gesichtsbild als Identifizierer verwendet werden und ein anonymisierter Identifizierer von der Erfindung gespeichert werden. Zusammen mit dem anonymisierten Identifizierer werden Ortsdaten gespeichert, um das Reiseverhalten zu analysieren. Diese zusätzlichen Ortsdaten können dann separat anonymisiert werden, beispielsweise durch Quantisierung von Ort und Zeit in ausreichend große Intervalle, um anonymisiert zu werden. Die Auflösung kann in Wohngebieten und in öffentlichen Räumen, wie etwa Einzelhandelsorten, unterschiedlich sein.
  • Im Allgemeinen kann die vorgeschlagene Erfindung auf jeden ausreichend identifizierenden Teil, d. h. eigenständig identifizierend, der Identifizierungsdaten angewendet werden, und die zusätzlichen Identifizierungsdaten können durch getrennte Verfahren anonymisiert werden. Die Subjektzustände können dann durch die von der Erfindung gehandhabten Identifizierer statistisch verknüpft werden, während die verbleibenden Identifizierungsdaten in einer Weise anonymisiert werden können, die eine derartige statistische Verknüpfung nicht zulässt.
  • Gemäß einem anderen Aspekt wird ein System zum anonymen Verfolgen und/oder Analysieren des Flusses oder der Bewegung einzelner Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, bereitgestellt.
  • In diesem nicht einschränkenden Beispiel ist das System dazu ausgelegt, für jedes Individuum in einer Population von mehreren Individuen, einen Gruppenidentifizierer zu bestimmen basierend auf einer Hash-Funktion unter Verwendung von Informationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe. Jeder Gruppenidentifizierer entspricht einer Gruppe von Individuen, deren Identifizierungsinformationen zu dem gleichen Gruppenidentifizierer führen, wodurch effektiv eine Mikroaggregation der Population in mindestens zwei Gruppen durchgeführt wird.
  • Rauschmaskierte Identifizierer führen die gleiche Funktion aus, indem sie ein zufälliges Rauschen mit einer solchen Verteilung hinzufügen, so dass jeder mögliche rauschmaskierte Identifiziererwert durch eine Vielzahl von Identifizierern erreichbar ist.
  • Das System ist ferner dazu ausgelegt, pro Gruppe Besuchsdaten zu verfolgen, die die Anzahl der Besuche an zwei oder mehr zeitlich-räumlichen Orten durch Individuen, die zu der Gruppe gehören, repräsentieren. Allgemeiner ist das System dazu ausgelegt, ein Schiefemaß für zwei oder mehr Subjektzustände zu verfolgen.
  • Das System ist auch dazu ausgelegt, mindestens ein Populationsflussmaß (für die gesamte Population) der Anzahl von Individuen zu bestimmen, die von einem ersten zeitlich-räumlichen Ort zu einem zweiten zeitlich-räumlichen Ort gehen, basierend auf Besuchsdaten pro Gruppenidentifizierer.
  • Allgemeiner ist das System dazu ausgelegt, mindestens ein Populationsflussmaß (für die gesamte Population) der Anzahl von Individuen zu bestimmen, die von einem ersten Subjektzustand zu einem zweiten Subjektzustand gehen, basierend auf dem Schiefemaß.
  • Unter beispielhafter Bezugnahme auf 1A und/oder 11 kann das System eine Verarbeitungsschaltung 11; 110 und einen Speicher 15; 120 umfassen, wobei der Speicher 15; 120 Anweisungen umfasst, die, wenn sie von der Verarbeitungsschaltung 11; 110 ausgeführt werden, bewirken, dass das System den Fluss oder die Bewegung von Individuen anonym verfolgt und/oder analysiert.
  • Gemäß noch einem weiteren Aspekt stellt die vorgeschlagene Technologie ein Überwachungssystem 50 bereit, das ein hierin beschriebenes System 10, wie es schematisch in 6 veranschaulicht wird, umfasst.
  • 7 ist ein schematisches Flussdiagramm, das ein besonderes, nicht einschränkendes Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer Schätzung der Menge oder Anzahl und/oder des Flusses von Individuen in einer Population darstellt, die sich bewegen und/oder zwischen zwei oder mehr zeitlich-räumlichen Orten übereinstimmen.
  • Grundsätzlich umfasst dies die Schritte:
    • S21: Empfangen von biometrischen Identifizierungsdaten (wobei die biometrischen Identifizierungsdaten biometrische Daten von zwei oder mehr Individuen aufweisen und/oder darauf basieren);
    • S22: Erzeugen, durch einen oder mehrere Prozessoren, einer Gruppenidentität (und/oder eines rauschmaskierten Identifizierers) für jedes Individuum, die effektiv nicht mit dem Populationsfluss korreliert ist; und
    • S23: Speichern: der Gruppenidentität (oder allgemeiner eines Schiefemaßes pro Subjektzustand) zusammen mit Daten, die den zeitlich-räumlichen Ort beschreiben; und/oder eines Zählers pro zeitlich-räumlichem Ort und Gruppenidentität.
  • Beispielsweise kann die Gruppenidentität erzeugt werden, indem eine Hash-Funktion angewandt wird, die jede vorher bestehende Korrelation zwischen den Identifizierungsdaten und der Tendenz, sich an einem oder mehreren der zeitlich-räumlichen Orte zu befinden, effektiv entfernt.
  • Optional umfasst die rauschmaskierte Anonymisierung einen Dekorrelationsschritt, der Korrelationen im Raum der Identifizierer effektiv entfernt.
  • Beispielsweise kann die zu messende Population von besuchenden Individuen eine unbekannte Stichprobe aus einer größeren Population sein, wobei die größere Population groß genug ist, so dass die erwartete Anzahl von Individuen in dieser größeren Population, die einer jeweiligen Gruppenidentität und/oder rauschmaskiertem Bezeichner zugewiesen werden würde, zwei oder mehr beträgt.
  • Die Population der besuchenden Individuen kann beispielsweise als repräsentative Stichprobe dieser größeren Population angesehen werden, die implizit und/oder explizit auch anhand der von der besuchenden Population gesammelten Daten gemessen werden kann.
  • Optional kann die Erzeugung der Gruppenidentität jedes Mal, wenn sie angewandt wird, teilweise stochastisch sein.
  • Beispielsweise können die Identifizierungsdaten pro Individuum Informationen aufweisen, die für die Identität des Individuums repräsentativ sind, basierend mindestens teilweise auf biometrischen Attributen des Individuums. Nicht einschränkende Beispiele für solche biometrischen Informationen können mindestens eines des Folgenden aufweisen und/oder darauf basieren: Irisbilder, Gesichtsbilder, Merkmalsvektoren, Körperbilder, Fingerabdrücke und/oder Gang.
  • 8 ist ein schematisches Flussdiagramm, das ein anderes besonderes, nicht einschränkendes Beispiel eines computerimplementierten Verfahrens zum Ermöglichen einer Schätzung der Menge oder Anzahl von Individuen in einer Population veranschaulicht, die zwischen zwei oder mehr zeitlich-räumlichen Orten übereinstimmen.
  • In diesem besonderes Beispiel umfasst das Verfahren ferner den Schritt:
    • S24: Erzeugen eines Populationsflussmaßes zwischen zwei zeitlich-räumlichen Orten unter Verwendung von Zählern von Gruppenidentitäten für jeden der zwei zeitlich-räumlichen Orte.
  • Beispielsweise kann die Erzeugung des Populationsflusses auf einer linearen Transformation der Besuchszähler basieren.
  • Optional kann die lineare Transformation eine Korrelation zwischen einem Vektor, der den Populationsfluss pro Gruppenidentität an dem ersten Ort beschreibt, und einem Vektor, der den Populationsfluss pro Gruppenidentität an dem zweiten Ort beschreibt, aufweisen.
  • Als Beispiel wird eine Basislinie von der Korrelation subtrahiert, die der erwarteten Korrelation zwischen den zwei Vektoren entspricht.
  • Beispielsweise kann die Anzahl von Individuen in der Population zwei oder mehr pro Gruppenidentität betragen.
  • Optional können Aktivitätsdaten, die eine oder mehrere Handlungen oder Aktivitäten jedes Individuums repräsentieren, auch zusammen mit der entsprechenden Gruppenidentität und Daten gespeichert werden, die den zeitlich-räumlichen Ort beschreiben, was eine Analyse und ein Verständnis nicht nur von zeitlich-räumlichen Aspekten, sondern auch von Handlungen oder Aktivitäten von Individuen ermöglicht.
  • 9 ist ein schematisches Diagramm, das ein Beispiel der Bewegung oder des Flusses eines oder mehrerer Individuen von einem Ort A zu einem Ort B veranschaulicht. Beispielsweise kann dies beinhalten, dass sich einzelne Subjekte und/oder Objekte von einem Ort zu einem anderen bewegen und erkannt werden, z. B. durch Kameras oder auf andere Weise, z. B. können Individuen durch Gesichtserkennung, Fingerabdruck- und/oder Iris-Scan und/oder andere biometrische Informationen erkannt werden.
  • 10 ist ein schematisches Diagramm, das ein Beispiel einer Bewegung oder eines Flusses von Benutzern von einem virtuellen Ort, wie beispielsweise einem IP-Ort, zu einem anderen virtuellen Ort veranschaulicht. Dies könnte ein einzelner Benutzer sein, der sich von einer Internetdomäne zu einer anderen Internetdomäne bewegt, wie z. B. von einem IP-Ort A zu einem IP-Ort B, und z. B. durch Gesichtserkennung, Fingerabdruck- und/oder Iris-Scan und/oder andere biometrische Informationen erkannt wird.
  • Beispielsweise können die biometrischen Informationen z. B. durch die Verwendung anerkannter Technologien zum Extrahieren von Fingerabdrücken, Gesichtsdaten und/oder Irisdaten über einen Laptop, PC, Smartphone, Tablet usw. erhalten werden.
  • 12 ist ein schematisches Flussdiagramm, das ein Beispiel eines computerimplementierten Verfahrens zum Erzeugen eines Maßes des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen zeitlich-räumlichen Orten basierend auf biometrischen Daten veranschaulicht.
  • Grundsätzlich umfasst das Verfahren die Schritte:
    • S31: Konfigurieren eines oder mehrerer Prozessoren zum Empfangen von Zählern anonymer und annähernd unabhängig verteilter Gruppenidentitäten, wobei die Zähler auf biometrischen Daten basieren, die von Besuchen von Individuen an jedem von zwei zeitlich-räumlichen Orten stammen;
    • S32: Erzeugen, unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei zeitlich-räumlichen Orten unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei zeitlich-räumlichen Orte; und
    • S33: Speichern des Populationsflussmaßes in einem Speicher.
  • Zum besseren Verständnis werden nun verschiedene Aspekte der vorgeschlagenen Technologie unter Bezugnahme auf nicht einschränkende Beispiele einiger der grundlegenden Schlüsselmerkmale, gefolgt von einigen optionalen Merkmalen, beschrieben.
  • Die Erfindung empfängt einige biometrische Identifizierungsdaten, die ein Individuum und/oder einen persönlichen Gegenstand eines Individuums mit hoher Wahrscheinlichkeit eindeutig identifizieren können. Optional kann es sich um kontinuierliche Daten handeln, beispielsweise um biometrische Messwerte. Es kann sich auch um eine beliebige Kombination und/oder Funktion solcher Daten aus einer oder mehreren Quellen handeln.
  • In bevorzugten Beispielen umfasst die Erfindung ein Anonymisierungsmodul, das ein (anonymisierendes) Hash-Modul und/oder ein rauschbasiertes Anonymisierungsmodul umfasst.
  • Beispiele - Hash-Modul
  • Einige Aspekte der Erfindung beinhalten ein Hash-Modul. Ein Hash-Modul in unserem Sinne ist ein System, das in der Lage ist, Identifizierungsdaten abzurufen und einige Daten über die Identität einer Person zu erzeugen, die ausreichen, um das Individuum einer Gruppe zuzuordnen, die wesentlich kleiner als die Gesamtpopulation ist, aber nicht klein genug, um das Individuum eindeutig zu identifizieren. Dadurch wird die Population effektiv in Gruppen mit einem oder mehreren Individuen eingeteilt, d. h. es wird eine automatische Online-Mikroaggregation der Population durchgeführt. Diese Gruppen sollten idealerweise, aber nicht notwendigerweise unabhängig von den untersuchten Populationsflüssen sein, um die Messung zu vereinfachen. Mit anderen Worten, wir versuchen, sie so aufzuteilen, dass die Erwartung des Flusses jeder Gruppe annähernd gleich sein sollte. Insbesondere sollte die Varianz in jedem Gruppenpaar annähernd unabhängig verteilt sein. Anders ausgedrückt, wir möchten in unseren statistischen Schätzungen die Gruppe als eine praktisch zufällige Teilmenge der Population betrachten können. Dies kann beispielsweise durch die Anwendung eines kryptographischen Hash oder eines anderen Hash, das einen sogenannten Lawineneffekt hat, erreicht werden. Ein spezielles Beispiel für einen geeigneten Hash, wenn keine Lokalitätssensitivität erwünscht ist, ist eine Teilmenge von Bits eines kryptografischen Hashs, wie z. B. SHA-2, mit einer Größe, die geeignet ist, die gewünschte Anzahl von Gruppen zu repräsentieren, die der Anzahl von Individuen entsprechen, die wir pro Gruppe haben möchten. In diesem Beispiel kann das Auffüllen mit einem konstanten Satz von Bits verwendet werden, um die erforderliche Nachrichtenlänge zu erreichen. Dieses spezielle Hash-Beispiel bringt jedoch einen gewissen Overhead für die Rechenanforderungen mit sich, und Hash-Module, die für diesen speziellen Zweck besser geeignet sind, können ebenfalls entworfen werden, da die Anwendung hierin nicht alle kryptografischen Anforderungen erfordert.
  • Vorzugsweise sollte jede Korrelation, ob linear oder von einem anderen Typ, die das resultierende Maß aus dem System signifikant beeinflussen könnte, effektiv durch das Hash-Modul entfernt werden. Beispielsweise kann dieses Ziel durch eine ausreichende Approximation einer zufälligen Abbildung erreicht werden, wie etwa ein System, das auf Blockchiffren, chaotischen Systemen oder einer Erzeugung von Pseudozufallszahlen basiert. Im minimalistischen Extrem kann eine einfache Modulo-Operation ausreichend sein, wenn es unwahrscheinlich ist, dass diese korrelierte Identitäten erzeugt.
  • Wenn die Identifizierer eine solche Korrelation nicht enthalten, z. B., wenn sie zufällig zugewiesen werden, profitiert der Hash nicht von der Dekorrelation, da jede Gruppenzuweisung auch ohne sie effektiv zufällig ist.
  • In einigen Aspekten der Erfindung kann, in Abhängigkeit von den erforderlichen Bedingungen für Anonymität, die Anzahl der Gruppen so eingestellt werden, dass entweder für zwei oder mehr Menschen aus der Population, deren Daten abgerufen wurden, erwartet wird, oder zwei oder mehr Menschen aus einer größeren Population, von der die Population praktisch eine Zufallsstichprobe ist, erwartet wird, jeder Gruppe zugewiesen zu werden. Die Erfindung ermöglicht eine effiziente, unvoreingenommene Schätzung in diesen beiden Fällen, sowie extremere anonymisierende Hash-Schemata mit einer sehr großen Anzahl von Individuen pro Gruppe.
  • Der Hash-Schlüssel, der eine Gruppenidentität repräsentiert, kann explizit gespeichert werden, beispielsweise als eine Zahl in einer Datenbank, oder implizit, beispielsweise durch eine separate Liste pro Hash-Schlüssel.
  • Mit anderen Worten, das Hash-Modul nimmt einige Identifizierungsdaten einer Population und erzeugt beispielsweise auch effektiv (d. h. in einer für die Zwecke hierin ausreichend guten Annäherung) zufällig ausgewählte Untergruppen aus der gesamten Population. Das hier beschriebene Hash-Modul hat mehrere mögliche Zwecke: Sicherstellen/Garantieren der Dekorrelation von Daten aus dem Populationsfluss (d. h. Verwenden einer Gruppenidentität, die möglicherweise anders als die Identifizierungsdaten effektiv nicht mit dem Populationsfluss korreliert ist) und Anonymisieren der Daten durch Mikroaggregation, während einige begrenzte Informationen über die Identität jedes Individuums erhalten bleiben. In einigen Ausführungsformen der Erfindung kann, wie nachstehend ausführlicher beschrieben wird, das Hash-Modul auch dazu dienen, begrenzte Informationen über die Daten selbst zu bewahren, indem ein ortsabhängiges Hashing verwendet wird.
  • Für diese Aspekte der Erfindung sind die pro Gruppenidentität gesammelte Statistiken hilfreich beim Erzeugen der Populationsflussstatistiken für die (gesamte) untersuchte Population, die eine Vielzahl solcher Gruppen umfasst. Der Zweck der Erfindung besteht nicht darin, die Unterschiede zwischen den Gruppen als solchen zu messen, insbesondere dann nicht, wenn die Dekorrelation absichtlich eher bedeutungslose Unterteilungen der Population aufgrund der effektiven Entfernung jeglicher potenzieller Korrelationen zwischen Mitgliedern der Gruppe erzeugt.
  • Als ein Beispiel geeigneter Hash-Module sind Einteilungen in Gruppen basierend auf kontinuierlichen Bereichen einer oder mehrerer von vielen sinnvollen Variablen, wie z. B. Jahreseinkommen, Wohnort, IP-Bereich oder Körpergröße, ungeeignete Kriterien in der bevorzugten Ausführungsform, da dies wahrscheinlich zu unterschiedlichen erwarteten Populationsflussmustern für jede Gruppe führt, die für den zu messenden Gesamtpopulationsfluss geschätzt werden müssten. Andererseits könnten wir beispielsweise eine begrenzte Anzahl von Bits aus einem kryptografischen Hash oder eine zufällige Zuordnung von einer anfänglichen Gruppierung in ausreichend kleine Bereiche von jedem dieser Kriterien verwenden, um eine effektiv zufällige Auswahl solcher kleinen Gruppen kontinuierlicher Bereiche in eine größere Gruppe zu aggregieren. Mit anderen Worten, wir unterteilen die Identifizierer in viele kleine kontinuierliche Bereiche und definieren unsere Gruppen als eine gewissermaßen zufällige Auswahl solcher kontinuierlichen Bereiche, so dass jeder kontinuierliche Bereich zu einer einzigen Gruppe gehört. Auf diese Weise würden wir die Population in einen Satz von Gruppen unterteilen, die effektiv nicht von einer zufälligen Teilmenge der gesamten Population zu unterscheiden sind, da alle Muster im großen Maßstab effektiv entfernt wurden. Alternativ könnten wir auf dem Computer des Benutzers einen Cookie speichern, der eine pseudozufällig erzeugte Zahl in einem bestimmten Bereich ist, die klein genug ist, dass mehrere Benutzer voraussichtlich die gleiche Zahl erhalten. Alternativ könnten diese kontinuierlichen Bereiche beispielsweise auch durch anderweitig definierte kontinuierliche n-dimensionale Ausdehnungen ersetzt werden und/oder nicht eindeutig auf eine bestimmte Gruppe abgebildet werden mit ähnlicher Wirkung für den Zweck der Erfindung, d. h. dem Schaffen eines geeigneten ortsensiblen Hashing.
  • Stochastische Gruppenzuweisungen verhindern nicht die Anwendung der Hash-Verfahren und können auch eine sinnvolle Ebene zusätzlicher Anonymität hinzufügen. Biometrische Daten enthalten normalerweise aufgrund von Messfehlern und/oder anderen Faktoren einen gewissen Rauschpegel, der jede nachfolgende Gruppenzuweisung basierend auf diesen Daten zu einer stochastischen Abbildung als Funktion der Identität macht. Stochastische Elemente können auch bewusst hinzugefügt werden. Beispielsweise kann das System einfach würfeln und ein Individuum gemäß einer deterministischen Abbildung in 50 % der Zeit einer Gruppe zuweisen und das Individuum in den anderen 50 % der Zeit einer völlig zufälligen Gruppe zuweisen. Die Daten können weiterhin in unserem System verwendet werden, solange die Verteilung dieser stochastischen Zuweisung bekannt ist und/oder abgeschätzt werden kann. Darüber hinaus entspricht die obige einfache Würfelstrategie annähernd einer k-Anonymität mit k=2 zusätzlich zu der bereits durch die Gruppierung bereitgestellten Anonymität.
  • Beispiele - auf Rauschen basierte Anonymisierung
  • Einige Aspekte der Erfindung umfassen ein rauschbasiertes Anonymisierungsmodul. Ein rauschbasiertes Anonymisierungsmodul erzeugt einen neuen rauschmaskierten Identifizierer basierend auf den Identifizierungsdaten. Ein solches Modul verwendet eine stochastische Abbildung, bei der die Ausgabe aufgrund des hinzugefügten Rauschens irreversibel ist, anstatt die Menge der gespeicherten Informationen zu begrenzen. Mit anderen Worten, das Signal wird unter der Identifizierungsgrenze gehalten, selbst wenn die Gesamtmenge an Informationen, die zum Speichern des Signals und des Rauschens verwendet werden, hypothetisch größer als diese Grenze wäre. Jede stochastische Abbildung kann verwendet werden, so dass das Verknüpfen eines rauschmaskierten Identifizierers mit einer bestimmten Identität unwahrscheinlich ist. Im Gegensatz zu einem Hash-Modul erzeugt das rauschmaskierte Anonymisierungsmodul eine Ausgabe mit ausreichendem Informationsgehalt, um eine eindeutige Person zu identifizieren. Ein Teil dieser Informationen ist jedoch reines Rauschen, das von dem Anonymisierer hinzugefügt wurde, und die tatsächlichen Informationen zur Identität einer Person liegen unter der Schwelle, die erforderlich ist, um Datenpunkte auf individueller Ebene mit hoher Wahrscheinlichkeit zu verknüpfen. Obwohl ein Hash-Modul in den meisten Fällen vorzuziehen ist, passt der rauschmaskierte Identifizierer möglicherweise natürlicher zu verrauschten Identifizierern verschiedener Art und verhindert in einigen Fällen auch eine gewisse Deanonymisierung, wenn ein Angreifer weiß, dass die Person aufgezeichnet wurde.
  • Rauschen kann jede externe Informationsquelle sein, die im Kontext der Erfindung als Rauschen angesehen werden kann, und impliziert keine Quelle für echtes Rauschen. Beispielsweise könnten Zeitstempel oder Werte von einigen komplexen Prozessen, chaotischen Systemen, komplexen Systemen, verschiedenen Pseudozufallszahlen, Medienquellen und ähnlichen Quellen, deren Muster wahrscheinlich nicht umkehrbar sind, verwendet werden. Aus der Perspektive der Anonymität ist es wichtig, dass dieses Rauschen nicht einfach wiederhergestellt und/oder rückgängig gemacht werden kann, und der statistische Zweck der Erfindung erfordert zusätzlich, dass es durch eine gewisse Verteilung beschrieben werden kann und keine signifikante unerwünschte Korrelation einführt, die die Statistik verändert.
  • 13 ist ein schematisches Diagramm, das ein Beispiel veranschaulicht, wie ein Identifizierer-Schiefemaß anonymisiert werden kann, indem Rauschen zu einem oder mehreren Zeitpunkten hinzugefügt wird, und wie dies einen BiasKompensationsterm erzeugen kann. In diesem Beispiel werden Besuchszähler für einen Subjektzustand A bzw. B verwendet. Dort werden Populationszähler zufällig initialisiert, z. B. bevor die Datenerhebung beginnt. Ein Biaskompensationsterm wird berechnet, indem der Populationsfluss von A nach B geschätzt wird, der sich aus falschen Korrelationen bei der Initialisierung ergibt, die in Zukunft aus der Populationsflussschätzung entfernt werden können, um die Varianz der Schätzung zu verringern. Um die Initialisierung weiter zu maskieren, kann dem Kompensationsterm optional ein auf Kosten einer leicht erhöhten Varianz im Populationsfluss zusätzliches kleines Rauschen hinzugefügt werden.
  • 14 veranschaulicht ein Beispiel für die Anonymisierung mit Rauschmaskierung. Sie zeigt die Wahrscheinlichkeitsdichtefunktion des rauschmaskierten Identifizierers bei einem gegebenen Identifizierer. Dargestellt sind die Wahrscheinlichkeitsdichtefunktionen, die in diesem Beispiel näherungsweise normalverteilt um den Identifizierer sind, für zwei unterschiedliche Identifizierer. Möglicherweise entsprechen nicht alle möglichen Eingabewerte einem Individuum in der Population und/oder in dem Speicher. Wenn sich die Wahrscheinlichkeitsdichtefunktionen von unterschiedlichen Identifizierern überlappen, ist die ursprüngliche Identität, die diesen rauschmaskierten Identifizierer erzeugt, möglicherweise nicht mit Sicherheit bekannt. Eine erneute Identifizierung unter Verwendung eines bestimmten rauschmaskierten Identifizierers wird weniger wahrscheinlich, da für diesen speziellen rauschmaskierten Identifizierer mehr Überlappung von den Wahrscheinlichkeitsdichtefunktionen verschiedener Identifizierer bereitgestellt wird, beispielsweise indem mehr Identifizierer in der Population und/oder in dem Speicher vorhanden sind.
  • Beispiele - anonymisierte Identifizierer
  • Beispielsweise wird ein anonymer Identifizierer hierin als ein Gruppenidentifizierer und/oder ein rauschmaskierter Identifizierer betrachtet.
  • Mit anderen Worten, ein Identifizierer im allgemeinen Sinne ist hier ein spezielles Muster von Identifizierungsdaten jeglicher Art und nicht notwendigerweise ein abzählbarer Wert, der eine engere Definition des Konzepts nahelegen könnte.
  • Beispielsweise können als Hash-Gruppe Menschen angesehen werden, die durch das Hash-Modul derselben Gruppe zugewiesen werden.
  • Beispiele - Schiefemaß
  • Beispielsweise bezieht sich hierin eine Schiefe von Daten darauf, wie einige bestimmte Daten im Vergleich zu der Erwartung der erzeugenden Verteilung verteilt sind. Das Schiefemaß ist eine Information, die die Schiefe der gesammelten Daten beschreibt. Mit anderen Worten, die Erfindung misst, wie sich die tatsächliche Verteilung der Identifizierer von der erwarteten Verteilung der Identifizierer unterscheidet, beispielsweise der Verteilung, wenn alle Individuen beide Subjektzustände mit gleicher Wahrscheinlichkeit besuchen würden. Es wird normalerweise als einer oder mehrere Fließkomma- oder Ganzzahlwerte codiert. Der Zweck des Schiefemaßes besteht darin, später zwischen Subjektzuständen verglichen zu werden, um abzuschätzen, wie viel von dieser Schiefe zwischen zwei Subjektzuständen gemeinsam ist. Für den Fachmann ist eine große Anzahl von Varianten von Schiefemaßen offensichtlich. In der Erfindung kann praktisch jedes Schiefemaß verwendet werden, obwohl einige Schiefemaße mehr Informationen über den Datenversatz bewahren als andere und daher wahrscheinlich eine bessere Schätzung der Schiefe liefern.
  • Beachte, dass ein Schiefemaß nicht notwendigerweise impliziert, dass die erzeugende Verteilung bekannt ist, d. h. genügend Informationen über die Erwartung der erzeugenden Verteilung gesammelt wurden, damit die Schiefe aus dem Schiefemaß berechnet werden kann. Wenn jedoch die zugrunde liegende Verteilung später bekannt würde, würde das Schiefemaß bereits die Informationen enthalten, die zum Schätzen der Schiefe der Daten erforderlich sind. Allerdings ist die ergebniserzeugende Verteilung trivial abzuschätzen, wenn die Identifizierer dekorreliert sind, z. B. unter Verwendung eines Dekorrelationsmoduls.
  • Das einfachste Beispiel für eine Schiefemaß besteht darin, eine Liste der ursprünglichen Besuchergruppenidentitäten oder rauschmaskierten Identitäten zusammen mit allen zugeordneten zusätzlichen Daten zu führen, die Anonymität bieten, aber hinsichtlich des Speicherplatzes ineffizient sein können, da sie redundante Informationen enthalten. Jedoch ermöglicht in einigen Fällen das Beibehalten solcher ursprünglichen anonymisierten Identitäten eine bessere optionale Nachbearbeitung, beispielsweise ein Entfernen von Ausreißern, sowie eine größere Flexibilität beim Ändern der Schiefemaße ad hoc für verschiedene Zwecke.
  • Ein anderes Beispiel für ein einfaches Schiefemaß ist ein Besuchszähler. Ein solcher Besuchszähler zählt die Anzahl der detektierten Identitäten in jedem Subjektzustand für jede Hash-Gruppe. Er könnte beispielsweise ein Vektor mit den Zahlen 5, 10, 8 und 7 sein, der die Anzahl der Besuchsidentitäten repräsentiert, die jeder der vier Gruppenidentitäten in einem bestimmten Subjektzustand zugewiesen sind.
  • Allgemeiner gesagt kann ein Schiefemaß beispielsweise aus zwei oder mehr Summen und/oder Integralen über Faltungen bestehen von: einigen Abbildungen aus dem Raum der anonymisierter Identifizierer auf einen skalaren Wert; und die Summe der Dirac- oder Kronecker-Delta-Funktionen der anonymen Identifizierer, die einen Subjektzustand besuchen. Mit anderen Worten, wir messen die Verteilung der Identifizierer auf zwei unterschiedliche Arten. In dem speziellen Fall, in dem die anonymen Identifizierer diskret sind, wie etwa eine Aufzählung, und die jeweiligen Abbildungen das Dirac-Delta d(i) für i = 1:n sind, ist dies äquivalent zu einem Besuchszähler. Mit anderen Worten, ein Schiefemaß ist eine Verallgemeinerung des anonymen Besuchszählers. Mit anderen Worten, das Schiefemaß entspricht zwei oder mehr Zählungen der Anzahl detektierter anonymer Identifizierer aus einer definierten Teilmenge des Satzes möglicher anonymer Identifizierer, wobei die Zählung durch jede von dem anonymen Identifizierer abhängige Funktion gewichtet werden kann. Anders ausgedrückt: sum_i f ( x _ i )
    Figure DE112020004766T5_0001
    wobei x_i ein anonymer Identifizierer ist, der einen Subjektzustand besucht, i ein Index aller anonymen Identifizierer ist, die einen Subjektzustand besuchen, und f(x) eine Abbildung aus dem Raum der anonymen Identifizierer auf (nicht notwendigerweise positive) skalare Werte ist.
  • Die obige Summe kann als Dichteschätzung der besuchenden Subpopulation angesehen werden. Da sie die Verteilung der tatsächlichen Besuchsidentifizierer schätzt, die eher eine endliche und bekannte Population als eine echte unbekannte Verteilung ist, verwenden wir hier auch den weniger gebräuchlichen, aber präziseren Begriff „Dichtemaß“, um solche Mengen zu beschreiben. Das einfachste Dichtemaß ist eine Zählung der Gesamtzahl der Besuche, die einer gleichen Gewichtung aller Identifizierer entspricht, die zusammen mit einem anderen Dichtemaß verwendet werden könnte, um zu einem sehr einfachen Schiefemaß zu gelangen. In der bevorzugten Ausführungsform würden hundert oder mehr Dichtemaße als ein vektorwertiges Schiefemaß verwendet werden.
  • Alternativ kann ein Schiefemaß aus Informationen bestehen, die einen oder mehrere Unterschiede zwischen solchen Dichtemaßen repräsentieren.
  • Beispielsweise können wir bei zwei gegebenen Zählwerten einfach die Differenz zwischen ihnen als Maß für die Schiefe speichern.
  • Mit anderen Worten, das Schiefemaß ist im Allgemeinen ein vektorwertiger Datenwert, der aus Informationen besteht, die repräsentativ für die Schiefe der Identifizierer im Vergleich zu der erwarteten Verteilung aller Identifizierern sind, die von einer größeren Population abgetastet wurden.
  • Diese Informationen können auf beliebige Weise codiert sein. Obwohl das Verfahren theoretisch mit nur einem einzigen Unterschied zwischen zwei Dichtemaßen arbeiten könnte, ist es meistens vorzuziehen, sich auf eine so große Anzahl von Dichtemaßen zu verlassen, wie es der gewünschte Grad an Anonymität zulässt, um die Varianz der Population zu reduzieren. In der bevorzugten Ausführungsform des Hash-Moduls werden 10-1.000.000.000 Dichtemaße verwendet, je nachdem, wie groß die Gruppe potenzieller Besucheridentitäten ist und wie groß der Datensatz ist. Aus einer anderen Perspektive ist das Erreichen eines durchschnittlichen Anonymitätsniveaus, das annähernd einer k-Anonymisierung mit k = 5 entspricht, fast immer wünschenswert, und ein strengeres k = 50 oder mehr wird in den meisten Fällen empfohlen.
  • Eine zentrale Erkenntnis für die Nützlichkeit des Verfahrens besteht darin, dass die Flussmaße unter Verwendung einer großen Anzahl von Dichtemaßen und/oder anderen informationsreichen Schiefemaßen überraschenderweise eine sehr geringe Varianz erreichen können, während dennoch die Anonymität der Individuen gewahrt bleibt. Eine extrem geringe Anzahl von Dichtemessungen wird für die angegebenen Zwecke aufgrund der äußerst kostspieligen Varianz unpraktisch sein, aber dieser Nachteil verschwindet, wenn die in dem Schiefemaß codierte Schiefeinformation, z. B. die Anzahl der verwendeten Dichtemaße, zunimmt.
  • Beispielsweise kann ein Besuchszähler für zwei oder mehr zeitlich-räumliche Orte, auch als räumlich-zeitliche Orte bezeichnet, verwendet werden. Dadurch wird verfolgt, wie oft Individuen aus jeder von zwei oder mehr Hash-Gruppen an einem zeitlich-räumlichen Ort detektiert wurden, beispielsweise: eine bestimmte Webseite, eine spezielle Straße, in einem bestimmten Geschäft usw., zu einer bestimmten Zeit (wiederkehrend oder einmalig).
  • Ein allgemeineres Schiefemaß als Besuchszähler ist, wie oben erwähnt, ein Satz von Identifiziererdichtemaßen, hier auch als Dichtemaße bezeichnet. Ein Dichtemaß gibt die Dichte der Identifizierer in den Daten gemäß einer bestimmten Gewichtung an. Beispielsweise könnte ein Schiefemaß ein Satz von Gaußschen Kernen im Raum möglicher Identifizierer sein. Insbesondere kann das jedem Kernel zugeordnete Dichtemaß Summen der gewichteten Abstände, d. h. eine Gaußsche Funktion des Abstands, von der Mitte des Kerns zu jedem anonymisierten Identifizierer enthalten. Zwei oder mehr solcher Dichtemaße aus unterschiedlichen Gaußschen Kernen oder einer oder mehrere Vergleiche zwischen solchen Dichtemaßen würden dann ein Schiefemaß repräsentieren. Ein Identifiziererdichtemaß kann die Identifiziererdichte von Identifizierungsdaten und/oder anonymen Daten messen.
  • Solche Dichtemaße können zwischen den beiden Punkten korreliert werden, genau wie die Besuchszähler, die in einigen der hierin beschriebenen speziellen Beispiele verwendet werden, um den Populationsfluss abzuschätzen. Dies gilt auch dann, wenn die Dichtemaße unterschiedlich sind, beispielsweise wenn in Punkt A und B unterschiedliche Dichtemaße verwendet werden. Das gleiche Verfahren kann beispielsweise für Besuchszähler verwendet wird, d. h. zur Ermittlung einer minimalen und maximalen erwarteten Korrelation in Abhängigkeit der Anzahl der übereinstimmenden Besucher unter Verwendung einer Monte-Carlo- und/oder analytischen Schätzung.
  • Zum Zweck der Bereitstellung von Anonymität ist es wichtig, dass diese Anonymisierung in ein anonymes Schiefemaß effektiv online erfolgt (oder in Echtzeit und/oder nahezu in Echtzeit), d. h. kontinuierlich mit nur einer kurzen Verzögerung zwischen der Erfassung der Identifizierer und der Erzeugung und/oder Aktualisierung des Schiefemaßes. In der bevorzugten Ausführungsform findet das Hashing in einem Universalcomputer statt, der sich in einem Sensorsystem befindet, oder in einem Universalcomputer, der diesen Wert unmittelbar empfängt. Der Wert sollte vor der Verarbeitung nicht mit vertretbarem Aufwand von außen zugänglich sein. Unmittelbar nach der Verarbeitung sollt der Identifizierer gelöscht werden. Jedoch können bei Bedarf die Daten in der bevorzugten Ausführungsform an verschiedenen Punkten gestapelt und/oder anderweitig über ein kleines Zeitintervall (beispielsweise Übertragung in nächtlichen Stapeln) verarbeitet werden, wenn diese erweiterte Art der Online-Verarbeitung für vernünftige technische Anforderungen erforderlich ist und wenn dies auch nicht als wesentliche Schwächung der gebotenen Anonymität des Subjekts angesehen wird. Im Gegensatz dazu werden Offline-Verfahren in der Regel angewendet, nachdem die gesamte Datenerhebung abgeschlossen ist. Solche Offline-Verfahren können aufgrund der Speicherung personenbezogener Daten nicht als anonym betrachtet werden.
  • Subjektzustände und Besuche
  • Die Gruppenidentitäten, rauschmaskierte Identitäten und andere Schiefemaße, beispielsweise Besuchszähler, und/oder beliebige Daten, die an Gruppenidentitäten und/oder rauschmaskierte Identitäten gebunden sind, können optional auf beliebige Weise modifiziert werden, beispielsweise durch Entfernen von Ausreißern, Filtern bestimmter Orte, Filtern von Gruppenidentitäten, die mit bekannten Individuen übereinstimmen, oder durch Ausführen einer weiteren Mikroaggregation von Daten.
  • Der räumliche Aspekt eines oben genannten zeitlich-räumlichen Orts kann auch virtuelle Ausdehnungen von IP-Adressen, Domänennamen, Rahmen oder ähnlichen Aspekten umfassen, die die Verbindung zwischen einer Person und einem Teil des Zustands eines elektronischen Geräts beschreiben und die den Zustand ihrer Interaktion mit ihm beschreiben. Diese Aspekte werden auch von der weiter gefassten Definition des Subjektzustands erfasst.
  • Ein Subjektzustand ist jede Beschreibung des zeitlich-räumlichen Orts, der Gesundheit, der Handlungen, der Ökonomie, des Verhaltens, der körperlichen Eigenschaften, der Kleidung, der Position, der von einem Klassifikator zugewiesenen Klasse, der unmittelbaren Umgebung und/oder des Interaktionszustands mit einem Computer, einem Webdienst und/oder einem anderen Dienst und/oder eine andere aussagekräftige Beschreibung der Person. Mit anderen Worten, der Subjektzustand ist eine Kategorie, die die Person entweder selbst oder in Bezug auf die Interaktion mit einer anderen Entität beschreibt.
  • Ein Besuch ist die Verbindung eines Identifizierers mit einem Subjektzustand. Beispielsweise könnte es sich um eine identifizierbare Person handeln, die zu einem bestimmten Zeitpunkt in einem bestimmten Bereich detektiert wird, eine IP-Adresse, die ein Webformular ausfüllt, oder eine Person, die auf eine Krankheit getestet wird.
  • Ein zeitlich-räumlicher Ort ist jede Ausdehnung, nicht notwendigerweise kontinuierlich, in Raum und/oder Zeit. Das kann beispielsweise die Anzahl der Besuche einer bestimmten U-Bahn-Station an irgendeinem Freitagmorgen sein. Die Zählung kann eine beliebige Information über die Anzahl der Individuen sein. Beispielsweise kann sie einfach einen booleschen Wert halten, der verfolgt, ob mindestens eine Person einen zeitlich-räumlichen Ort besucht hat oder nicht. In einem anderen Beispiel kann sie nachverfolgen, wie viele mehr Individuen aus einer bestimmten Gruppe im Vergleich zu einem Durchschnitt über alle Gruppen einen Besucht abgestattet haben. Sie kann auch speziellere Ortsdaten verfolgen, beispielsweise spezielle Geokoordinaten und Zeitstempel, die zu einem späteren Zeitpunkt zu größeren zeitlich-räumlichen Orten aggregiert werden. Diese speziellen Daten werden dann implizit auch für die Verfolgung von Besuchen an den größeren Orten berücksichtigt. Ein Beispiel für einen möglichen Besuchszähler ist in 4 dargestellt.
  • Ein zeitlich-räumlicher Ort und eine zeitlich-räumliche Örtlichkeit können hierin im Allgemeinen als Synonyme angesehen werden und können jede definierte Ausdehnung von Raum, Zeit und/oder Raumzeit aufweisen.
  • Subjektzustände können auch mit Fuzzy-Logik und ähnlichen Teilzugehörigkeitsdefinitionen definiert werden. Dies führt im Allgemeinen eher zu Teilbesuchen als zu ganzzahligen Werten und ist im Allgemeinen mit der Erfindung kompatibel.
  • Beispiele - anonyme Populationsflussschätzung
  • Die Flussmessung verwendet die Daten aus dem Schiefemaß, um den Fluss von Individuen von einem Subjektzustand (A) zu einem anderen Subjektzustand (B) zu messen. Da jede Hash-Gruppe und/oder jedes Dichtemaß eine Vielzahl von Individuen repräsentiert, können wir nicht genau wissen, wie viele Menschen aus einer bestimmten Gruppe oder Population, die in A vorhanden waren, auch in B vorhanden waren. Stattdessen nutzt die Erfindung Statistiken höherer Ordnung, um verrauschte Messungen zu erzeugen.
  • Das Maß für den Fluss ist eine Schätzung der Menge von Menschen, die beide Subjektzustände A und B auf irgendeine Weise besuchen. Beispielsweise kann es sich um die Menge von Menschen handeln, die von Zustand A nach B gehen, und/oder den Prozentsatz der Anzahl von Menschen, die von A nach B gehen. Es kann beispielsweise auch davon handeln, die Menge von Menschen zu messen, die A, B und einen dritten Subjektzustand C besuchen (wobei die Menschen, die auch C besuchen, für die Zwecke der Erfindung dann als Subpopulation angesehen werden können). In einem anderen Beispiel kann es die Anzahl der Menschen sein, die A und B besuchen, unabhängig davon, welcher Subjektzustand zuerst besucht wird. Es gibt viele Varianten solcher Maße. Die Anzahl der Menschen, die A besuchen, zusammen mit der Anzahl der Menschen, die B besuchen, unabhängig von einer Korrelation zwischen den entsprechenden Identitäten zwischen den Subjektzuständen, wird hierin nicht als Populationsflussschätzung betrachtet, sondern eher als zwei Populationsschätzungen, die zwei Orten entsprechen.
  • Die Identitäten von Subjekten, die einen Subjektzustand besuchen, werden im Vergleich zu der geschätzten Besuchsrate von allen Individuen in einer hypothetischen größeren Population mit einer Schiefe versehen, aufgrund der Tatsache, dass die besuchenden Individuen eine Teilmenge aller Individuen in der größeren Population bilden. Wenn dieselben Individuen die Zustände A und B besuchen, kann dies mit den entsprechenden Schiefemaßen gemessen werden. Eine solche Messung wird durch die Tatsache erschwert, dass wir die theoretisch zugrunde liegende Verteilung der Besucher von A und B nicht unbedingt kennen. Beispielsweise können A und B aufgrund von Phänotypen im geografischen Gebiet eine ähnliche Datenschiefe aufweisen. Solche Korrelationen lassen sich nur schwer oder gar nicht von den übereinstimmenden Besuchern isolieren.
  • Einige Arten von Identifizierern werden echt und/oder annähernd zufällig und unabhängig Individuen in einer Population zugewiesen, z. B., wenn eine zufällige Zahl als ein pseudonyme Identifizierer ausgesucht wird. Solche Identifizierer zeigen keine Schiefe zwischen A und B aufgrund anderer Ursachen als denen der Individuen, die zwischen den Orten übereinstimmen. Mit anderen Worten, die geschätzte Verteilung der hypothetischen größeren Population ist bekannt. Mit anderen Worten, die Identitäten werden dann für jedes Individuum effektiv unabhängig abgetastet, und die Verteilung der Zuweisung ist bekannt. Das bedeutet, dass die genaue erwartete Verteilung der Identifizierer in A und B bekannt ist. Da die Erwartung bekannt ist, kann die Schiefe dieser Erwartung auch ohne Notwendigkeit einer Datenerhebung und ohne den daraus resultierenden Bias geschätzt werden. Darüber hinaus bedeutet die Unabhängigkeit der Identifiziererzuweisung auch, dass Schiefemaße, wie etwa die oben diskutierten speziellen, d. h. gewichteten Summen und Integrale, die linear von einer jeweiligen detektierten Identität abhängig sind, zu analytisch ableitbaren Abbildungen der Anzahl übereinstimmender Individuen werden.
  • Beispielsweise kann praktisch jeder skalare Wert, der linear von dem Schiefemaß abhängig ist, zum Konstruieren einer Flussschätzung verwendet werden, wenn die Abbildung linear ist. Es wird auch einfach sein, diesen linearen Wert abzuschätzen, z. B. unter Verwendung von Monte-Carlo-Verfahren oder Analysen, für den speziellen Fall einer gewissen maximalen Korrelation zwischen Individuen in dem Subjektzustand A bzw. B sowie für den speziellen Fall, wenn die Individuen in den zwei Subjektzuständen unterschiedliche Individuen sind. Aufgrund der Unabhängigkeit der Identifizierer kann die Durchflussschätzung leicht unter Verwendung einer linearen Interpolation zwischen diesen beiden Werten konstruiert werden. Die bevorzugte Ausführungsform verwendet der Einfachheit halber eine Korrelation zwischen zwei identischen Typen von Schiefemaßen.
  • Beachte, dass das Populationsflussmaß je nach Form, z. B. können Fragen, wie etwa, ob es in Prozent der Besucher und/oder Gesamtzahl angegeben ist, von der gesamten bzw. relativen Anzahl von Individuen in A und B abhängig sein, die in diesem Fall möglicherweise auch pro Subjektzustand erhoben werden müssen.
  • Jeder nichtlineare Fall würde mehr analytisches Geschick in seinem Design erfordern und könnte rechnerisch teurer werden, ist aber ansonsten unkompliziert und in der Funktion gleichwertig. Die bevorzugte Ausführungsform ist aufgrund ihrer Einfachheit und Effizienz linear.
  • Viele Arten von Identifizierern werden jedoch nicht einmal annähernd zufällig zugewiesen, beispielsweise Geolokalisierungsdaten von Wohnadressen. Sie können beispielsweise mit der Häufigkeit korrelieren, einen Subjektzustand a priori zu besuchen. In diesen Fällen kann die Erfindung optional für Gruppenidentifizierer ein dekorrelierendes Hash-Modul und für die rauschmaskierten Identifizierer ein Dekorrelationsmodul verwenden, um in der Verteilung der Identifizierer vorhandene unerwünschte Korrelationen zu entfernen und die Identifizierer annähernd unabhängig voneinander erzeugt und funktional äquivalent zu einer zufälligen und unabhängigen Zuweisung zu machen. Sobald dies geschehen ist, kann ein Flussmaß, wie etwa eine lineare Transformation, ohne vorherige Kenntnis der Anfangsverteilung, wie oben beschrieben, leicht konstruiert werden.
  • Konkrete Beispiele und bevorzugte Ausführungsformen der Erzeugung von Populationsflussschätzungen können in den verschiedenen Beispielen unten gefunden werden.
  • In der bevorzugten Ausführungsform wird eine Basislinie durch Abschätzen der erwarteten Anzahl von Besuchen pro Gruppe erstellt, beispielsweise durch Dividieren der Gesamtzahl von Besuchen für alle Gruppen in dem Besuchszähler durch die Anzahl von Gruppen. Eine solche Erwartungsbasislinie kann auch ein Modell des Bias enthalten, z. B. für den Fall, dass der erwartete Bias durch Sensorsysteme und/oder ähnliches, die direkt oder indirekt bei der Erzeugung der anonymen Identifizierer verwendet werden, in Abhängigkeit von Faktoren, wie Ort, Aufnahmebedingungen und Aufnahmezeit, berechnet werden kann. Zusätzlich kann die Basislinie unter Berücksichtigung von Populationsverhaltensmodellen entworfen werden, zum Beispiel: die Tendenz für wiederholte Besuche an einem Ort pro Individuum und/oder das Verhalten von Besuchern, die aus irgendeinem Grund nicht aufgezeichnet werden. Durch Subtrahieren dieser Basislinie gelangt die bevorzugte Ausführungsform zu der Schiefe der Daten pro Gruppe. Beispielsweise kann sich eine Schiefe von Daten darauf beziehen, wie einige bestimmte Daten im Vergleich zu der Erwartung der erzeugenden Verteilung verteilt sind.
  • Beispielsweise repräsentiert die Korrelation zwischen den Varianzen pro Gruppe in A und B die Schiefe der gemeinsamen Verteilung. Eine sorgfältige Überlegung des Erfinders zeigt, dass ein Maß für die Anzahl von Individuen erreicht werden kann, indem die Tatsache ausgenutzt wird, dass die Gruppenidentität und die Wahrscheinlichkeit, dass ein Individuum von A nach B geht, effektiv als unabhängig und identisch verteilt angesehen werden können, was durch das Design des Hash-Moduls und/oder Dekorrelationsmoduls garantiert werden kann. Beispielweise können wird, indem man sich auf die Vermutung des Unabhängigkeitsattributs verlässt und durch Verwendung: der Kenntnis des stochastischen Aspekts der Verteilung des Hash-Moduls (das Modelle von jeglichem Sensorrauschen, Übertragungsrauschen und andere beteiligte Faktoren aufweisen kann), falls zutreffend; und eines Verhaltensmodells, das die Verteilung der Anzahl der Besuche pro Person usw. beschreibt, eine Basislinienabweichung der gemeinsamen Verteilung (z. B. einen Pearson-Korrelationskoeffizienten identisch mit 0) erstellen, die zu erwarten wäre, wenn die beiden Populationen, die A und B besuchen, aus stochastischer Sicht unabhängig erzeugt wurden. Wir können auch, unter Verwendung eines ähnlichen Verhaltensmodells und/oder der Kenntnis der stochastischen Verteilung in dem Hash-Modul, die Schiefe der gemeinsamen Verteilung schätzen, falls die beiden Populationen aus genau denselben Individuen bestehen (beispielsweise einen Pearson-Korrelationskoeffizient gleich 1 aufweisen). Beispielsweise kann eine solche Schiefe für perfekt übereinstimmende Populationen basierend auf Modellen von Sensorrauschen angepasst werden, wobei das Sensorrauschmodell von anderen Faktoren abhängig sein kann, wie etwa Sensorrauschmodellen, Ort, Gruppenidentität, Identifiziererrauschen und/oder Wissen über die Stochastik im Hashing-Prozess. In einem einfachen Beispiel mit homogenen Gruppen könnte ein Hash-Modul mit einer Wahrscheinlichkeit von 50 % für eine konsistente Gruppenzuweisung für jedes Individuum (bei ansonsten zufälliger Zuweisung zwischen allen Gruppen) die Populationsschätzung für dieselbe Schiefe im Vergleich zu der Schätzung für ein zu 100 % genaues Hash-Modul verdoppeln.
  • Ein statistisches Maß der Anzahl von Individuen kann dann erzeugt werden, beispielsweise indem eine lineare Interpolation zwischen zwei solchen Extremen basierend auf der tatsächlichen Schiefe durchgeführt wird, wie sie durch Vergleichen der Schiefemaße gemessen wird. Beachte, dass diese Schritte nur ein Beispiel sind, aber dass die Vermutung der Unabhängigkeit dazu führen wird, dass die Populationsflussmessung als eine lineare Transformation darstellbar ist, wie etwa diejenige, die in einigen hierin beschriebenen Aspekten angegeben ist. Aus diesem und anderen Beispielen und Beschreibungen hierin kann der Fachmann zu verschiedenen speziellen Ausführungsformen und Arten des Entwerfens spezieller solcher Ausführungsformen gelangen.
  • In bestimmten Fällen werden die Identifizierer bereits von Anfang an dekorreliert. Dies kann beispielsweise bei eindeutigen Identifizierern der Fall sein, die durch biometrische Vorlagen zufälligen eindeutigen Identifizierern zugewiesen werden, wobei der eindeutige Identifizierer eine echt zufällige oder annähernd zufällige Zahl ist, die für jede biometrische Vorlage erzeugt wird.
  • Die Komplexität beim Erzeugen eines solchen Maßes ohne die Dekorrelationsvermutung, die durch das inhärente Design des Hash-Moduls ermöglicht wird, und mit rauschmaskierten Identifizierern durch das Dekorrelationsmodul wäre in vielen Fällen untragbar. Beachte, dass diese Vereinfachung nicht nur den genauen Designprozess der Ausführungsformen vereinfacht, sondern auch zu billigeren, schnelleren und/oder energieeffizienteren Verfahren und Systemen führt, aufgrund der reduzierten Anzahl von Verarbeitungsoperationen und/oder der Vereinfachung der erforderlichen Hardware-Architektur.
  • Die Gruppen in diesem Beispiel müssen nicht notwendigerweise von vornherein dieselbe Verteilung (z. B. identische geschätzte Gruppengrößen) aufweisen. Bei unterschiedlichen erwarteten Gruppengrößen wirkt sich die Populationsflussschätzung auf einfache Weise auf den geschätzten Wert pro Gruppenzähler und die (normalisierte) Korrelation aus. Jegliche damit zusammenhängende Schätzung der Varianz für das Populationsflussmaß könnte verworrener werden, da beispielsweise jede Gaußsche Annäherung der Korrelationsverteilung ungültig sein könnte, wenn die Gruppenunterschiede groß sind.
  • Ebenso können sich das Dichtemaß und/oder andere Schiefemaße auf vielfältige Weise unterscheiden.
  • Komplexere Subjektzustände können beispielsweise auch definiert werden, um verfeinerte Populationsflussschätzungen zu berechnen. Ein Identifizierer-Schiefemaß, wie etwa eine Gruppenidentität, kann beispielsweise zusammen mit dem Subjektzustand wie oben (d. h. mit einem „ursprünglichen“ Subjektzustand) und der Reihenfolge des Besuchs (d. h. einer Ordnungszahl) gespeichert werden, was dann die Berechnung des Populationsflusses von ursprünglichen Subjektzuständen vor und/oder nach jedem bestimmten Besuch des Subjekts in einen ursprünglichen Zustand ermöglicht. Dies kann aus Sicht der Erfindung als Aggregation vieler einzelner neuer Subjektzustände (d. h. ein Subjektzustand pro Ordnungszahl und ursprünglichem Subjektzustand) zu einem größeren Subjektzustand (d. h. Zustände vor und nach einem bestimmten Besuch) zusammen mit der Aggregation von Populationsflussschätzungen in größere Populationsflüsse (d. h. die Populationsflüsse aus allen Subjektzuständen vor einem bestimmten Besuch x in dem Zustand B, summiert über alle aufgezeichneten Besuche x in Zustand B) angesehen werden. Diese komplexere Berechnung ermöglicht die Berechnung des Populationsflusses von A nach B mit einer geringeren Varianz, aber die größere Anzahl von Subjektzuständen führt zu einer kleineren Anzahl anonymisierter Identitäten in jedem Subjektzustand, was die durch die Erfindung bereitgestellte Anonymität schwächen könnte.
  • Beispiele - ortsempfindliches Hashing
  • Korrelationen in den anonymisierten Identifizierern lassen sich meistens, aber nicht immer, durch Dekorrelation vermeiden. Ein spezieller Fall, in dem dies normalerweise nicht vermieden werden kann, ist bei bestimmten verrauschten kontinuierlichen Identifizierern. Beispielsweise können kontinuierliche Messungen biometrischer Daten unter Verwendung eines ortsabhängigen Hashings (LSH) gehasht werden, wodurch kontinuierliche Messungen, die Sensorrauschen enthalten, bei einer Mikroaggregation für unsere Zwecke verwendet werden können. Eine solche Hash-Funktion kann annähernd und/oder effektiv, aber nicht perfekt dekorrelieren. Jede Wahl eines bestimmten LSH erfordert ein Gleichgewicht zwischen seinen dekorrelierenden Eigenschaften und seinen ortserhaltenden Eigenschaften. Selbst wenn ein solcher Hash die Daten weitgehend dekorreliert, behält er wahrscheinlich immer noch einen verbleibenden kleinen Bias in der Verteilung des Hashs bei, der sich aus einer Korrelation zwischen biometrischen Messungen und der a priori Tendenz zum Besuch eines Ortes ergibt (falls solche Korrelationen in der ursprünglichen kontinuierlichen Verteilung überhaupt vorhanden sind). Ein Term in der Baseline („err“), auf den weiter unten näher eingegangen wird, kann dann als Kompensation für solche verbleibenden Korrelationen verwendet werden. Beachte, dass wir eine Dekorrelation, wie etwa die aus dem Lawineneffekt, in dieser Einstellung nicht strikt verwenden, sondern davon ausgehen, dass Korrelationen im kleinen Maßstab, die sich aus der Ortssensitivität ergeben, einen geringen Einfluss auf die resultierenden Statistiken haben (mit anderen Worten, die Korrelationen werden effektiv entfernt). Insbesondere jede signifikante Korrelation zwischen den Daten und der a priori Tendenz, einen Ort zu besuchen, ist wahrscheinlich ein großräumiges Muster. LSH-basierte Hash-Module sind nicht auf kontinuierliche Daten beschränkt, sondern könnten auch für andere Daten, beispielsweise ganzzahlige Werte, verwendet werden.
  • Als ein besonderes Beispiel für einen LSH kann ein ortsabhängiges Hashing entworfen werden, indem der Raum der kontinuierlichen Identifiziererwerte in 30.000 kleinere Regionen aufgeteilt wird. Ein kryptografischer Hash, eine Zufallstabelle und/oder ein anderes Verfahren können dann verwendet werden, um 30 Regionen effektiv zufällig jedem von 1000 Gruppenidentifizierern zuzuweisen. Dies bedeutet, dass zwei effektiv unabhängig abgetastete verrauschte kontinuierliche Identifizierer, die von eines Individuums empfangen werden, eine große Wahrscheinlichkeit haben, derselben Gruppe zugewiesen zu werden. Gleichzeitig kann es wahrscheinlich sein, dass zwischen zwei unterschiedlichen Gruppen ein vernachlässigbarer Unterschied besteht, da jede Gruppe aus 30 unabhängig abgetasteten Regionen des Merkmalsraums besteht. Die Dekorrelation ist im Allgemeinen wirksam, wenn die Regionen viel kleiner sind als die interessierenden Korrelationsmuster. Für viele gutartige kontinuierliche Verteilungen können sowohl die Rauschresistenz, d. h. die Robustheit der Varianz der Populationsflussschätzung gegenüber dem Vorhandensein von Rauschen, wie etwa Identifizierer-/Sensorrauschen usw., als auch die effektive Dekorrelation der Gruppen gleichzeitig erreicht werden. Da ein Individuum allein aufgrund des Rauschens in den Identifizierungsdaten unterschiedlichen Regionen zugewiesen werden kann, kann es vorteilhaft sein, die Schätzung für die resultierende Stochastik bei der Gruppenidentitätszuweisung zu kompensieren.
  • Als ein Beispiel für die oben genannten Konzepte in Bezug auf LSH können Menschen, die größer als 120 cm sind, möglicherweise mit einer signifikant geringeren Wahrscheinlichkeit ein Spielzeuggeschäft betreten als die unter 120 cm, während der entsprechende a priori Unterschied zwischen Menschen mit einer Körpergröße von 119,5 bis 120 cm und Menschen zwischen 120,0-120,5 cm Körpergröße wahrscheinlich vernachlässigbar ist und daher annähernd unkorreliert ist.
  • Beachte, dass das Dekorrelationsmodul auch wie oben beschrieben einen LSH verwenden könnte, um einen ortserhaltenden Identifizierungswert mit effektiv keinen Korrelationen des oben beschriebenen Typs zu erzeugen. Der Unterschied zu einem Anonymisierungsmodul besteht darin, dass die Anzahl der möglichen dekorrelierten Identifiziererwerte ausreichend groß ist, um ein Individuum anhand des Wertes eindeutig zu identifizieren. Beispielsweise kann die Kollisionswahrscheinlichkeit eines dekorrelierenden Hashs gering sein. Daraus kann eine gewisse Wahrscheinlichkeit resultieren, dass eine Person nicht richtig identifiziert wird, aber nicht ausreichend, um als anonymisierend betrachtet zu werden (d. h., das Dekorrelationsmodul dekorreliert, aber anonymisiert nicht). Stochastik wird dann zu einem notwendigen zusätzlichen Anonymisierungsschritt zu dem LSH, um die persönliche Identität zu schützen.
  • Es kann festgestellt werden, dass für eine große Anzahl von Stichproben und eine große Anzahl möglicher Hashs die Korrelation zweier unabhängiger Populationen normalverteilt ist. Dies macht es einfach, auf Wunsch auch Konfidenzintervalle für erzeugte Maße darzustellen.
  • Beispiele - Verhaltensmodelle
  • Der Populationsfluss kann optional durch ein Verhaltensmodell modifiziert werden, um zu abgeleiteten Statistiken zu gelangen, wie beispielsweise dem Fluss eindeutiger Individuen, wenn Besuche an jedem Ort wiederholt werden können. Ein solches Verhaltensmodell könnte beispielsweise die erwartete Anzahl von Wiederbesuchen pro Individuum abschätzen. Ein solches Verhaltensmodell könnte beispielsweise auch zusammen mit dem Populationsfluss iterativ in einem Schätz-Maximierungsprozess geschätzt werden, wobei die Populationsfluss- und Verhaltensmodelle wiederholt aktualisiert werden, um die gemeinsame Wahrscheinlichkeit der beobachteten Verteilungen der Identifizierer zu verbessern.
  • Beispielhafte Implementierung
  • In einer beispielhaften bevorzugten Ausführungsform wendet ein Server in dem beispielhaften System ein Hash-Modul auf empfangene Identifizierer an und speichert eine ganze Zahl zwischen 1 und 1000, die effektiv zufällig ist, aufgrund des Lawineneffekts. Unter der Annahme, dass die Anzahl der Individuen bei A bzw. B 10000 beträgt, und unter der Annahme, dass Individuen nur einmal pro Tag in eine Richtung gehen und keine andere Korrelation zwischen den entsprechenden Populationen bei A und B besteht, ist der erwartete Mittelwert für beide Punkte 10000 / 1000 = 10 Individuen pro Gruppe. Wir können die gemessene Anzahl von Individuen pro Gruppe in ganzzahligen Vektoren n_a bzw. n_b codieren. Wir können jetzt die relativen Varianzvektoren v_a und v_b in Einheitslänge als v_a = (n_a - 10)/norm(n_a - 10) usw. berechnen (wobei die Funktion norm(x) die Norm des Vektors ist, und ein Subtrahieren eines Skalars von einem Vektor das Entfernen des skalaren Werts von jeder Komponente bedeutet). Unter der Annahme, dass jedes Individuum, das A an einem Tag passiert, auch B durchläuft, erhalten wir eine perfekte Korrelation, E[v_a * v_b] = 1 (wobei * das Skalarprodukt ist, wenn es zwischen Vektoren verwendet wird, und E[] die Erwartung ist). Anstatt anzunehmen, dass die Population in A und B immer aus verschiedenen Individuen besteht, können wir stattdessen eine Basislinie als E[v_a * v_b] = 0 schätzen, hier unter Verwendung der unkorrelierten Annahme, die durch die Verwendung eines Hash-Moduls möglich gemacht wird. Nehmen wir nun an, dass die Anzahl der Individuen bei B, c3, aus zwei Gruppen von Individuen besteht, c1 (mit relativem Varianzvektor v_a1), die von A stammen, und c2 (mit relativem Varianzvektor v_a2), die nicht von A stammen. Die erwartete Korrelation in diesem Fall wird zu E[c3*v_b*v_a1] = E[(c1*v_a1 + c2*va2)*v_a1] = c1. Das bedeutet, dass wir die erwartete Anzahl von Individuen, die von A nach B gehen, als nab = v_b * v_a1 * 10000 messen können. Unter der Annahme, dass wir in diesem Beispiel ein Skalarprodukt von 0,45 zwischen v_b und v_a messen, erhalten wir ein Maß von 4500 Individuen oder 45 % der Individuen in B, die von A stammen. Mit anderen Worten, wir erreichen bei einer unvoreingenommenen („unbiased“) Messung mikroaggregierte Daten, die durch die Verwendung eines dekorrelierenden Hash-Moduls als lineare Transformation implementiert werden können. Die von dem Hash-Modul in dem Beispiel erzeugten Daten können als anonym betrachtet werden und in jede Datenbank hochgeladen werden, ohne dass dadurch personenbezogene Daten gespeichert werden. Die hierin beschriebenen Berechnungen können dann vorzugsweise auf einem Cloud-Server/einer Cloud-Datenbank durch die Verwendung von Lambda-Funktionen oder anderen solcher geeigneten Berechnungsoptionen durchgeführt werden, für die kostengünstigen Berechnungen, die erforderlich sind, um eine lineare Transformation durchzuführen.
  • Die Zähler und/oder die Korrelation können als Teil des Erzeugens der Schätzung auf beliebige Weise normalisiert oder neu skaliert werden. Die verschiedenen Berechnungen sollten im allgemeinen Sinne interpretiert werden und können mit einer großen Anzahl möglicher Variationen in der Reihenfolge der Operationen und/oder speziellen Unterroutinen durchgeführt oder angenähert werden, die implizit effektiv dieselbe Abbildung zwischen Eingabe- und Ausgabedaten durchführen wie die hier erwähnten Berechnungen, im engsten Sinne. Solche Variationen werden für den Fachmann offensichtlich und/oder automatisch entworfen, beispielsweise durch Compiler und/oder verschiedene andere Systeme und Verfahren. Im Falle einer leicht unvollkommenen Hash-Funktion kann der resultierende Fehler in den obigen Annahmen teilweise durch die Annahme von E[v_a2 * v_b] = err kompensiert werden, wobei err eine gewisse Korrelation in den Daten ist, die geschätzt werden kann, beispielsweise empirisch durch Vergleich von zwei unterschiedlichen unabhängigen Stichproben aus der Population (d. h. der Messung von Verkehr an zwei Stellen, die keine Korrelation zueinander haben können). Die Erwartung folgt dann der folgenden Gleichung: c1 = E[(c1*v_a1 + c2*va2)*v_b] - err. Dieser Fehlerausdruck kann beispielsweise als Basislinie oder Teil einer Basislinie verwendet werden.
  • Beachte, dass dieser einfache Fall etwas komplexer wird, wenn die Anzahl der Menschen in A größer ist als in B. Selbst wenn alle Menschen in B aus A kommen, würden wir eine nicht ideale Ausrichtung in der Gruppenverteilung erwarten. Dieses maximal erwartete Skalarprodukt könnte leicht aus der Gesamtzahl der Besuche bei A und B geschätzt werden. In diesen Fällen wird die zum Erreichen der Schätzung verwendete lineare Transformation zu einer Funktion der Gesamtzahl der Besuche in A bzw. B.
  • Wenn ein rauschmaskierter Identifizierer verwendet wird, könnten wir den Raum der Identifizierer einfach in eine Anzahl von Bereichen unterteilen und die Dichteschätzung für jeden berechnen. Für diese Dichtemaße kann analog zu den oben genannten Besuchszählern eine Berechnung durchgeführt werden.
  • Beispiele - anonymisierende Schiefemaße
  • Ein Problem, das bei jedem Schiefemaß auftreten kann, ist, dass die Subjektzustände zunächst schwach durch Besuche gefüllt sind und dass dann für einen Angreifer eine probabilistische Verknüpfung einer Identität mit einer Vielzahl von Datenpunkten möglich ist, wenn der Identifizierer bekannt ist.
  • Beispielsweise könnte ein Besuchszähler eine Gruppe mit einem einzigen Besuch in Subjektzustand A haben, und dann könnte es vernünftig sein, anzunehmen, dass ein Individuum das einzige registrierte Individuum aus dieser Gruppe in dem Datensatz ist, oder genauer gesagt, es könnte vernünftig sein, anzunehmen, dass er/sie das einzige Individuum in A ist.
  • Alternativ könnte es beispielsweise sinnvoll sein, den Gruppenidentifizierer aus dünn besetzten Daten an einem bestimmten Ort, z. B. eine bekannte Wohnadresse, abzuleiten. Er kann dann mit einer Arbeitsadresse verglichen werden. In diesem Fall könnte mit hoher Wahrscheinlichkeit darauf geschlossen werden, dass er/sie sich tatsächlich an Ort B aufgehalten hat. Diesem speziellen Fall kann begegnet werden, indem das Schiefemaß nur für Ort A gespeichert wird und die Populationsschätzung online erzeugt wird, d. h. bei jedem einzelnen Besuch von B mit dem Schiefemaß von A aktualisiert wird, aber ohne das Schiefemaß von B zu speichern. Dieses Verfahren ist jedoch wirkungslos, wenn auch die Populationsflussschätzung von B nach A berechnet werden muss.
  • Eine Lösung für diese dünn besetzten Zustände sowie eine mögliche eigenständige Anonymisierungslösung besteht darin, anonymisierende Schiefemaße zu verwenden.
  • Das Anonymisieren von Schiefemaßen funktioniert, indem dem gespeicherten Schiefemaß ein Grad an Rauschen hinzugefügt wird. Dies kann beispielsweise vor Beginn der Datenerfassung sowie zu beliebig vielen Zeitpunkten während der Erfassung erfolgen. Dieses Rauschen könnte möglicherweise die Populationsflussschätzung mit einem Bias versehen. Die Abweichung kann kompensiert werden, indem die resultierende Abweichung basierend auf der Schätzung des Rauschens berechnet wird. Problematischer ist jedoch, dass dies auch die Varianz der Populationsflussschätzung erhöht.
  • Es kann ein optional verbesserter Mechanismus entworfen werden. Bei diesem Mechanismus wird auch der von der verwendeten speziellen Rauschprobe erzeugte Bias verwendet, und/oder es werden andere Informationen, die zum Erzeugen eines solchen Bias geeignet sind, basierend auf der speziellen Rauschprobe erzeugt. Beispielsweise kann eine zufällige Anzahl „virtueller“ Besuche pro Gruppenidentifizierer erzeugt und für die Hinzufügung zu einem Besuchszähler vorbereitet werden. Der gesamte Populationsfluss von A nach B, der durch die Scheinkorrelation aller solcher virtueller Besuche in A und B geschätzt wird, wird ebenso als ein Bias-Term gespeichert, wie auch die Anzahl der gesamten virtuellen Besuche pro Ort. Da die Korrelation aus den tatsächlich erzeugten virtuellen Besuchen im Moment ihrer Erzeugung genau bekannt ist, lässt sie sich durch den Bias-Term auch exakt berechnen und entfernen. Dieses Verfahren reduziert die Varianz in den Daten erheblich, obwohl einige Kreuzterme, die durch störende Korrelationen zwischen tatsächlichen Besuchen und virtuellen Besuchen verursacht werden, als Beitrag zur Varianz verbleiben können. Anstatt einen Bias-Term direkt zu speichern, könnten alternativ alle Informationen gespeichert werden, die zum Erzeugen eines solchen erforderlich sind. Wenn zu viele Informationen über das Rauschen gespeichert werden, werden die Daten möglicherweise deanonymisiert. Der notwendige Bias-Term ist jedoch ein einzelner Wert, während das Rauschen typischerweise vektorwertig ist, so dass es viele Möglichkeiten gibt, ausreichend Daten zu speichern, ohne genügend Informationen über das Rauschen zu speichern, um die Daten zu deanonymisieren.
  • In dem speziellen, veranschaulichenden Beispiel eines Besuchszählers, der in einem Vektor v_a und v_b codiert ist, haben wir: v_a = f + a + n_a
    Figure DE112020004766T5_0002
    v_b = f + b + n_b
    Figure DE112020004766T5_0003
    wobei a und b die Besuche sind, die nur für den Subjektzustand A bzw. B gelten, und f die allgemeine Population ist. n_a und n_b sind Rauschterme.
  • In diesem Beispiel beziehen sich verschiedene Populationsflüsse auf den folgenden Wert: E [ v_a'*v_b ] = E [ f'*f ] + 2 E [ ( a + b ) ' * f ] + 2 E [ a'*b ] 2 E [ ( a + f ) ' n_b ] + 2 E [ n_a' * ( b + f ) ] n_a' *n_b'
    Figure DE112020004766T5_0004
    wobei * das Skalarprodukt und ' die Transponierte der Vektoren ist.
  • Beachte, dass bei einem erheblichen Rauschpegel die direkte Berechnung der Rauschterme anstelle ihrer Schätzung die Varianz erheblich reduzieren könnte, insbesondere dann, wenn die Varianz des Rauschens größer ist als die Varianz der anderen Terme, z. B., wenn die Besuchszähler dünn besetzt sind. Die gemischten Rausch-/Datenterme, wie etwa a' * n_a, können auch genau berechnet werden, wenn das Rauschen nach den Daten hinzugefügt wird, oder teilweise berechnet und teilweise geschätzt werden, wenn das Rauschen irgendwann während der Datenerfassung hinzugefügt wird.
  • Als letzte Sicherheitsmaßnahme kann dem kompensierten Bias-Term, der aus den virtuellen Besuchen erzeugt wird, eine geringe Menge an Rauschen hinzugefügt werden. Gewöhnlicherweise ist eine sehr kleine Zufallszahl, wie etwa zwischen 0 oder 1, ausreichend, um jeden individuellen Beitrag zu dem Schiefemaß zu maskieren, selbst in Ausnahmefällen, in denen dieser von dem Schiefemaß isoliert werden kann. Ein solches Rauschen des Bias-Terms könnte die Rekonstruktion des Rauschens des Schiefemaßes verhindern, wenn eine größere Anzahl von Subjektzuständen verwendet wird. Optional ist das Rauschen so hoch, dass mit einer Wahrscheinlichkeit größer als 0,5 keine genaue Besuchszahl für beliebige Identitäten ableitbar ist. Wenn das Rauschen beispielsweise basierend auf einer zufälligen ganzzahligen Anzahl von Besuchen pro Gruppenidentifizierer erzeugt wird, sollte die Wahrscheinlichkeit einer solchen speziellen Anzahl von Besuchen pro Gruppenidentifizierer dann idealerweise 0,5 oder weniger betragen.
  • Eine praktische Speicherbegrenzung begrenzt normalerweise den nutzbaren Rauschbereich. Dies ist jedoch eher ein theoretisches Problem, wenn die Wahrscheinlichkeit für die Erzeugung kleiner Werte höher ist und für größere Rauschzugaben zunehmend kleiner wird. Hier fehlt, mit Ausnahme einer vernachlässigbaren Wahrscheinlichkeit, ein effektiver Maximalwert. Beispielsweise könnten Wahrscheinlichkeitsdichtefunktionen verwendet werden, die exponentiell mit der Größe des Rauschens abfallen. Ein solches Rauschen hat vorzugsweise einen Erwartungswert von 0, um zu vermeiden, dass bei mehrfacher Rauschzugabe hohe Werte erreicht werden. Mit anderen Worten, p ( x ) = k1 * exp ( k2 x ) k3
    Figure DE112020004766T5_0005
    für einige Konstanten k1, k2 und k3 und mit x größer oder gleich 0.
  • Die gespeicherte Anzahl virtueller Besuche pro Subjektzustand kann verwendet werden, um solche zu entfernen, wenn Populationsflüsse in Prozent und die Gesamtzahl der Besuche berechnet werden.
  • Die obige Addition basiert im allgemeinen Sinne auf der Erzeugung eines neuen Schiefemaßes auf das Schiefemaß und das Rauschen, aber die tatsächliche Addition ist aufgrund ihrer einfachen Isolierung in einen Bias-Term für eine spätere exakte Korrektur vorzuziehen.
  • Schiefemaße, die durch Hinzufügung von Rauschen anonymisiert wurden, können als ausreichend angesehen werden, um Anonymität ohne die Verwendung eines Anonymisierungsmoduls bereitzustellen. Dies gilt auch dann, wenn das Rauschen nur einmal als Initialisierung vor der Datensammlung verwendet wird. Eine Schwäche besteht darin, dass, wenn zu zwei Zeitpunkten auf die anonymisierten Daten zugegriffen werden kann, die Anzahl der Besuche für eine beliebiges spezielles Individuum zwischen diesen Zeitpunkten trivial extrahiert werden kann.
  • Eine andere Alternative besteht darin, solches Rauschen nach jedem Besuch hinzuzufügen. Die resultierenden Verfahren entsprechen dann mehr oder weniger einem Rauschmaskierungs-Anonymisierungsmodul. Beachte, dass das oben beschriebene Verfahren zur Erzeugung eines präzisen korrigierenden Bias in der Populationsflussschätzung unter Verwendung der momentanen Kenntnis des Rauschens auch auf ein Rauschmaskierungs-Anonymisierungsmodul und/oder Hash-Modul angewendet werden kann.
  • Im Falle von kontinuierlichen Schiefemaßen, wie etwa Speichern präziser kontinuierlicher Identifizierer, kann das Verfahren auch verwendet werden. Ein solches Rauschen in den Schiefemaßen kann beispielsweise basierend auf einer ausreichenden Menge virtueller Besuche erzeugt werden, damit ein einzelner Besuch nicht unterscheidbar ist.
  • Die bevorzugte Ausführungsform für die meisten Anwendungen ist eine Kombination von Verfahren mit einem anfänglichen anonymisierenden verrauschten Schiefemaß mit einem gespeicherten Bias-Korrekturterm, der aus der speziellen Rauschprobe erzeugt wird, in Kombination mit Schiefemaßen, die von einem Hash-Modul, beispielsweise einem Gruppenidentifiziererzähler, erzeugt werden. Wenn die Genauigkeit der Populationsflussschätzung wichtiger ist als die Anonymität, dann kann es angemessener sein, sich nur auf eine zufällige Initialisierung eines identifizierenden Schiefemaßes zu verlassen, um die Varianz zu reduzieren.
  • Ein Nachteil aller rauschbasierten Verfahren ist, dass echte Rauschquellen knapp sein können und dass viele Quellen von pseudozufälligem Rauschen umgekehrt werden können, was einen Angriff auf die Anonymisierung erheblich vereinfachen würde.
  • Auf der mechanischen Ebene werden solche gemessenen anonymisierte Schiefen durch das Anonymisierungsmodul erzeugt, typischerweise online, teilweise durch den empfangenen Identifizierer und teilweise durch das bereits im Speicher gespeicherte Schiefemaß des Identifizierers. Das Rauschen kann durch das Anonymisierungsmodul und/oder durch einen separaten Mechanismus hinzugefügt werden, der dem Speicher Rauschen hinzufügt. Jedes neue Identifizierer-Schiefemaß, das teilweise basierend auf einem solchen verrauschten Identifizierer-Schiefemaß erzeugt wird, kann dann anonymisiert werden, vorausgesetzt, dass der Rauschpegel ausreichend hoch ist.
  • Im Folgenden wird eine nicht erschöpfende Anzahl von nicht einschränkenden Beispielen skizziert.
  • Beispiel - anonymes Verfolgen und/oder Analysieren eines Flusses von Besuchern in einer physischen oder Online-Ladenumgebung basierend auf biometrischen Daten.
  • Beispielhaft werden ein System sowie ein entsprechendes Verfahren und Computerprogramm zum anonymen Verfolgen und/oder Analysieren eines Flusses von Besuchern eines physischen oder Online-Ladengeschäfts bereitgestellt.
  • Das System ist dazu ausgelegt, für jeden Ladenbesucher in einer Menge oder Population von mehreren Besuchern, einen Gruppenidentifizierer basierend auf einer Hash-Funktion unter Verwendung von Informationen, die eine Identität des Besuchers repräsentieren, als Eingabe zu bestimmen,
    wobei jeder Gruppenidentifizierer einer Gruppe von Besuchern entspricht, deren Identifizierungsinformationen zu dem gleichen Gruppenidentifizierer führen, wodurch effektiv eine Mikroaggregation des Satzes oder der Population von Besuchern in mindestens zwei Gruppen durchgeführt wird.
  • Das System ist dazu ausgelegt, pro Gruppe Besuchsdaten zu verfolgen, die die Anzahl der Besuche an zwei oder mehr zeitlich-räumlichen Orten durch Besucher repräsentieren, die zu der Gruppe gehören, und das System ist auch dazu ausgelegt, mindestens ein Flussmaß zu bestimmen, das repräsentativ für die Anzahl von Ladenbesuchern sind, die von einem ersten zeitlich-räumlichen Ort zu einem zweiten zeitlich-räumlichen Ort gehen, basierend auf Besuchsdaten pro Gruppenidentifizierer.
  • Es wird auch ein Verfahren, ein System und ein entsprechendes Computerprogramm zur Ermöglichung einer Abschätzung eines Maßes des Flusses oder der Bewegung von Besuchern von Ladengeschäften in einer Menge oder Population von Besuchern zwischen zwei oder mehr zeitlich-räumlichen Orten bereitgestellt.
  • In einem Beispiel umfasst das Verfahren die Schritte:
    • - Empfangen von biometrischen Identifizierungsdaten, wobei die Identifizierungsdaten biometrische Daten aufweisen und/oder darauf basieren, von zwei oder mehr Ladengeschäftsbesuchern;
    • - Erzeugen, online und durch einen oder mehrere Prozessoren, einer Gruppenidentität für jeden Besucher (z. B. basierend auf den entsprechenden biometrischen Identifizierungsdaten), die effektiv nicht mit dem Populationsfluss korreliert ist; und
    • - Speichern: der Gruppenidentität jedes Besuchers, zusammen mit Daten, die den zeitlich-räumlichen Ort beschreiben; und/oder einem Zähler pro zeitlich-räumlichem Ort und Gruppenidentität.
  • Allgemeiner umfasst das Verfahren die Schritte:
    • - Empfangen von Identifizierungsdaten, wobei die Identifizierungsdaten biometrische Daten aufweisen und/oder darauf basieren, von zwei oder mehr Besuchern;
    • - Erzeugen, online und durch einen oder mehrere Prozessoren, eines anonymisierten Identifizierers für jeden Besucher; und
    • - Speichern: des anonymisierten Identifizierers jedes Besuchers zusammen mit Daten, die einen Subjektzustand repräsentieren; und/oder einem Schiefemaß eines solchen anonymisierten Identifizierers.
  • Ferner werden ein Verfahren, ein System und ein entsprechendes Computerprogramm zum Erzeugen eines Maßes für den Fluss oder die Bewegung von Besuchern von Ladengeschäften zwischen zeitlich-räumlichen Orten bereitgestellt.
  • In diesem Beispiel umfasst das Verfahren die Schritte:
    • - Konfigurieren eines oder mehrerer Prozessoren zum Empfangen von Zählern von anonymen und annähernd unabhängig voneinander verteilten Gruppenidentitäten basierend auf biometrischen Daten, die von Besuchen von Ladengeschäftsbesuchern an jedem von zwei zeitlich-räumlichen Orten stammen;
    • - Erzeugen, unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei zeitlich-räumlichen Orten unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei zeitlich-räumlichen Orte;
    • - Speichern des Populationsflussmaßes in einem Speicher.
  • Allgemeiner umfasst das Verfahren die Schritte:
    • - Konfigurieren eines oder mehrerer Prozessoren zum Empfangen anonymer Identifizierer-Schiefemaße, die basierend auf biometrisch basierten Identifizierern von Besuchen und/oder Vorkommnissen von Besuchern in und/oder bei jedem von zwei zeitlich-räumlichen Orten oder Subjektzuständen erzeugt werden, wobei jeder Identifizierer repräsentativ für die Identität eines einzelnen Besuchers ist und biometrische Daten aufweist und/oder darauf basiert;
    • - Erzeugen, unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei zeitlich-räumlichen Orten oder Subjektzuständen durch Vergleichen der anonymen Identifizierer-Schiefemaße zwischen den zeitlich-räumlichen Orten oder Subjektzuständen;
    • - Speichern des Populationsflussmaßes in einem Speicher.
  • Zusätzliche optionale Aspekte, wie sie vorher beschrieben wurden, können ebenfalls in diese technische Lösung aufgenommen werden.
  • Ähnliche Systeme und/oder Verfahren können auch zum Zwecke der Analyse von Bewegungen oder Flüssen in beispielsweise Smart Cities, öffentlichen Veranstaltungen, öffentlichen Verkehrsmitteln, von einer Sicherheitsüberwachung, Gebäuden, Flughäfen usw. verwendet werden. Beispielsweise können Bewegungsmuster von Menschen unter Verwendung von Überwachungskameras und/oder speziell installierten Kameras untersucht werden. Solche Kameras können beispielsweise auch Infrarot-, Stereovisions- und andere ähnliche Technologien verwenden, um das biometrische Maß zu verbessern und/oder das Individuum genauer zu lokalisieren.
  • In einem anderen Beispiel werden Kameras in einer Einzelhandelsumgebung verwendet, um Bilder abzurufen, die Gesichtsbilddaten enthalten. Der Ort jedes Gesichts wird unter Verwendung eines neuronalen Gesichtsdetektornetzwerks identifiziert. Gesichter werden aus dem Bild extrahiert, und ein auf neuronalen Netzwerken basierendes Hash-Modul wird angewendet, um einen Gruppenidentifizierer pro Gesicht im ganzzahligen Bereich von 1-1000 zu erstellen. Der Gruppenidentifizierer wird zusammen mit einem anonymisierten Zeitstempel und einem Ort (z. B. Zone 3 in Filiale 2) gespeichert. Optional werden zusammen mit dem Ort zusätzliche Daten, wie z. B. eine Aktivität, gespeichert, die dann nicht nur Statistiken über den Ort (und die Zeit) ermöglichen, sondern auch Statistiken über die von einem Kunden durchgeführten Abfolgen von Handlungen oder andere ähnliche Ereignisse und/oder Umstände erstellen. Die Korrelation zwischen den normalisierten Vektoren von Gruppenzählern an unterschiedlichen Orten und/oder Zeiten kann verwendet werden, um zu messen, wie sich Besucher zwischen oder innerhalb von Geschäften bewegen, wie viele Kunden innerhalb verschiedener Zeitspannen in das Geschäft zurückkehren, und wie sich die Exposition gegenüber bestimmten visuellen Botschaften auf die Kaufneigung auswirkt (z. B. durch Schätzen unter Verwendung eines Proxys, wie es etwa auf einer Kamera in der Nähe der Kasse zu sehen ist). Optional können Gesichtsbilder, die online von Zuschauern einer digitalen Marketingkampagne gesammelt wurden, beispielsweise Bilder, die von Social-Media-Profilen abgerufen wurden, in anonyme Gruppenidentifizierer umgewandelt werden und mit nachfolgenden Besuchen und/oder Handlungen im Geschäft korreliert werden, um die Effizienz der digitalen Marketingkampagne anonym zu messen.
  • Beachte, dass biometrische Daten hierin Daten betreffen, die theoretisch zur Identifizierung von Menschen mit hoher Wahrscheinlichkeit verwendet werden könnten, im allgemeinen Sinne, was eine Definition ist, die sich insbesondere von bestimmten gesetzlichen Definitionen unterscheidet, bei denen Bilddaten usw. nur dann als biometrische Daten gelten, wenn sie tatsächlich zu Identifizierungszwecken verwendet werden oder verwendet werden sollen. Beispielsweise wird ein Gesichtsbild hierin als biometrische Daten angesehen, selbst wenn es nicht zur Identifizierung verwendet werden soll.
  • Ähnliche Systeme könnten beispielsweise verwendet werden, um Menschen im Kontext einer Smart-City, eines Flughafens, der Sicherheit, und/oder öffentlicher Verkehrsmittel zu nachzuverfolgen.
  • In einem anderen, komplexeren Beispiel werden Daten, die einen Blutdruck betreffen, monatlich autonom mit einem tragbaren Gerät gesammelt. Die Blutdruckwerte werden in aufzählbare Intervalle unterteilt, und die selbstberichteten Ernährungszusammensetzungen werden mithilfe einer mobilen Anwendung gemeldet und in eine Aufzählung von Kategorien eingeteilt. Als Subjektzustand wird die Kombination aus Blutspiegel und Ernährung verwendet. Bei der Selbstauskunft nimmt die Person ein Foto auf, und ein neuronales Gesichtserkennungsnetz wird verwendet, um identifizierende Gesichtserkennungsvektoren zu erzeugen. Die Merkmalsvektoren werden unter Verwendung eines aus einem LSH bestehenden Dekorrelationsmoduls gehasht, das eine Anzahl von Orten aufzählt, die größer sind als die Populationsgröße, um einen dekorrelierten Hash mit einer hohen Neuidentifizierungs-Wahrscheinlichkeit zu erzeugen. Die Identifizierer dieser Subjekte, die der Verwendung personenbezogener Daten nicht zugestimmt haben, werden dann unter Verwendung eines Anonymisierungsmoduls anonymisiert. Das Anonymisierungsmodul fügt dieser Aufzählung dann eine ganze Zahl hinzu, die aus einer annähernd Gaußschen Verteilung mit ganzzahligem Wert ausgesucht wird, wobei eine Modulo-Operation angewandt wird, wenn die Zahl größer als die maximale Population ist, d. h. eine Art von rauschmaskiertem Identifizierer erzeugt wird. Die Gaußsche Verteilung wird so gewählt, dass sich die Verteilungen pro ursprünglicher Ganzzahl überlappen und eine Identifizierung unter Verwendung des rauschmaskierten Identifizierers unwahrscheinlich ist. Der rauschmaskierte Identifizierer wird zusammen mit dem Subjektzustand und Beschreibungen des Kameratyps und der Auflösung, die zum Aufnehmen des Fotos verwendet wurden, gespeichert. Als Schiefemaß wird ein Vektor verwendet, der die Anzahl der Individuen pro rauschmaskiertem Identifizierer und Subjektzustand zählt. Die maximale und minimale Korrelation, in Abhängigkeit davon, ob die Zustände unabhängige Populationen haben oder zwischen zwei Zuständen übereinstimmen, wird dann unter Verwendung von zufällig erzeugten, gleichmäßig im Merkmalsraum verteilten Merkmalsvektoren geschätzt, die einer Monte-Carlo-Schätzung zugeführt werden, die auf dem Dekorrelationsmodul beruht, sowie auf dem Anonymisierungsmodul, dem Zustimmungsstatus und ein kameraabhängiges Modell des Merkmalsvektorrauschens, das auf der Anzahl verschiedener Kameratypen und Auflösungen beruht. Mit anderen Worten, die Monte-Carlo-Schätzung wird verwendet, um die Parameter für eine lineare Transformation zu erzeugen, die die Populationsflussschätzungen erzeugt, wenn sie auf die tatsächlichen Identifizierer angewendet werden. Diese Flussschätzungen werden dann verwendet, um anonym für die Subjekte, die nicht eingewilligt haben, die Wirkung der Ernährung auf die Entwicklung des Blutdrucks zu untersuchen, indem ein Modell erstellt wird, das zeigt, wie Individuen in jeder Kombination von Ernährung und Blutdruck zu verschiedenen Blutdruckzuständen fließen, wobei im kommenden Monat die Ernährung nicht verwendet wird, um Zustände in diesem zweiten Zustand zu unterscheiden.
  • Die Gesamtpopulation kann auch in Teilpopulationen von Interesse aufgeteilt werden. Beispielsweise können Patienten vor dem Anwenden des Hashings in Subpopulationen, beispielsweise männlich/weiblich, Alter, Region usw. eingeteilt werden. Jede Subpopulation wird dann als separate Population betrachtet, die für die Zwecke hierin untersucht wird, selbst wenn die gleiche Hash-Funktion von mehreren Subpopulationen gemeinsam genutzt werden kann. Diese Informationen können als separate Zähler gespeichert werden, oder die zusätzlichen Informationen können explizit zusammen mit dem Gruppenidentifizierer gespeichert werden.
  • In jedem dieser Beispiele sind mehrere Besuche desselben Individuums naiverweise nicht von mehreren Besuchen verschiedener Individuen zu unterscheiden. Wenn also die genaue Anzahl eindeutiger Individuen gewünscht wird, kann beispielsweise ein Verhaltensmodell mit dem erzeugten Maß kombiniert werden. Wir können beispielsweise die zeitliche Korrelation zwischen unterschiedlichen Zeiten am selben Ort sehen und die durchschnittliche Anzahl wiederkehrender Besuche pro Besucher messen. Ein solches Verhaltensmodell kann dann beispielsweise, wie in der allgemeineren Beschreibung angegeben, verwendet werden, um das Werbeeinnahmenmodell zu kompensieren, indem die Gesamtzahl der Besuche durch die wiederkehrenden Besuche dividiert wird, und auf diese Weise ein Maß für die Anzahl der eindeutigen bzw. einmaligen Besucher erzeugt wird. Viele andere Arten von Verhaltensmodellen können auch unter Verwendung der hierin beschriebenen allgemeinen Vorgehensweise an die Daten angepasst werden, und komplexe Verhaltensmodelle können aus der Kombination mehrerer solcher Teilmodelle resultieren.
  • Ein besonderes Beispiel eines Verhaltensmodells zum Ableiten eindeutiger Besucher kann verwendet werden, um zu kompensieren, dass wiederholte Besuche in einem kurzen Intervall wahrscheinlicher sind. In diesen Fällen können Besuche von derselben Gruppe innerhalb eines bestimmten Zeitintervalls kompensiert oder gefiltert werden. Beispielsweise könnten zwei Besuche an demselben Ort innerhalb von 5 Minuten als ein einziger Besuch oder als eine Bruchzahl, wie z. B. 0,01 eines Besuchs, betrachtet werden, entsprechend einer Annäherung an die Wahrscheinlichkeit, dass diese Besuche zwei separate Identitäten sind.
  • Die Gesamtpopulation kann auch in Subpopulationen unterteilt werden. Beispielsweise können Besucher vor dem Anwenden des Hashings in Subpopulationen eingeteilt werden, beispielsweise männlich/weiblich, Alter, Region usw. Jede Subpopulation wird dann als separate zu untersuchende Population betrachtet, selbst wenn dieselbe Hash-Funktion von mehreren Subpopulationen gemeinsam genutzt werden kann. Diese Informationen können als separate Zähler gespeichert werden, oder die zusätzlichen Informationen können explizit zusammen mit der Gruppenidentität gespeichert werden.
  • Diese obigen Beispiele sind nicht erschöpfend für die Möglichkeiten.
  • Beispiele - Implementierungsdetails
  • Es versteht sich, dass die oben beschriebenen Verfahren und Vorrichtungen auf vielfältige Weise kombiniert und neu angeordnet werden können, und dass die Verfahren von einem oder mehreren geeignet programmierten oder konfigurierten digitalen Signalprozessoren und anderen bekannten elektronischen Schaltungen (z. B. diskrete Logikgatter, die miteinander verbunden sind, um eine spezielle Funktion auszuführen, oder anwendungsspezielle integrierte Schaltkreise) durchgeführt werden können.
  • Viele Aspekte dieser Erfindung werden in Form von Handlungssequenzen beschrieben, die beispielsweise von Elementen eines programmierbaren Computersystems ausgeführt werden können.
  • Die oben beschriebenen Schritte, Funktionen, Prozeduren und/oder Blöcke können in Hardware implementiert werden, indem jede herkömmliche Technologie verwendet wird, wie z. B. diskrete Schaltungs- oder integrierte Schaltungstechnologie, einschließlich sowohl allgemeiner elektronischer Schaltungen als auch anwendungsspezifischer Schaltungen.
  • Alternativ können mindestens einige der oben beschriebenen Schritte, Funktionen, Prozeduren und/oder Blöcke in Software zur Ausführung durch einen geeigneten Computer oder eine Verarbeitungsvorrichtung, wie etwa einen Mikroprozessor, einen digitalen Signalprozessor (DSP) und/oder eine beliebige geeignete programmierbare Logik, wie etwa eine FPGA- (feldprogrammierbares Gate-Array) Vorrichtung einer eine PLC- (programmierbare Logiksteuerung) implementiert werden.
  • Es versteht sich auch, dass es möglich sein kann, die allgemeinen Verarbeitungsfähigkeiten jeder Vorrichtung, in der die Erfindung implementiert ist, wiederzuverwenden. Es kann auch möglich sein, vorhandene Software wiederzuverwenden, z. B. durch Umprogrammierung der bestehenden Software oder durch Hinzufügen neuer Softwarekomponenten.
  • Es ist auch möglich, eine Lösung bereitzustellen, die auf einer Kombination von Hard- und Software basiert. Die tatsächliche Hardware-Software-Einteilung kann von einem Systemdesigner basierend auf einer Reihe von Faktoren entschieden werden, die Verarbeitungsgeschwindigkeit, Implementierungskosten und andere Anforderungen aufweisen.
  • 11 ist ein schematisches Diagramm, das ein Beispiel einer Computerimplementierung 100 gemäß einer Ausführungsform darstellt. In diesem speziellen Beispiel sind mindestens einige der hierin beschriebenen Schritte, Funktionen, Prozeduren, Module und/oder Blöcke in einem Computerprogramm 125; 135 implementiert, das in den Speicher 120 zur Ausführung durch eine Verarbeitungsschaltung geladen wird, die einen oder mehrere Prozessoren 110 aufweist. Der/die Prozessor(en) 110 und der Speicher 120 sind miteinander verbunden, um eine normale Softwareausführung zu ermöglichen. Eine optionale Eingabe-/Ausgabevorrichtung 140 kann auch mit dem/den Prozessor(en) 110 und/oder dem Speicher 120 verbunden sein, um die Eingabe und/oder Ausgabe von relevanten Daten, wie etwa Eingabeparameter(n) und/oder resultierende Ausgabeparameter zu ermöglichen.
  • Der Begriff Prozessor sollte im Allgemeinen als jedes System oder jede Vorrichtung interpretiert werden, das/die in der Lage ist, Programmcode oder Computerprogrammanweisungen auszuführen, um eine bestimmte Verarbeitungs-, Bestimmungs- oder Berechnungsaufgabe auszuführen.
  • Die Verarbeitungsschaltung, die einen oder mehrere Prozessoren 110 aufweist, ist somit dazu ausgelegt, beim Ausführen des Computerprogramms 125 wohldefinierte Verarbeitungsaufgaben, wie sie die hierin beschrieben werden, durchzuführen.
  • Insbesondere stellt die vorgeschlagene Technologie ein Computerprogramm bereit, das Anweisungen umfasst, die, wenn sie von mindestens einem Prozessor ausgeführt werden, bewirken, dass der mindestens eine Prozessor das hierin beschriebene computerimplementierte Verfahren durchführt.
  • Die Verarbeitungsschaltung muss nicht ausschließlich dafür bestimmt sein, die oben beschriebenen Schritte, Funktionen, Prozeduren und/oder Blöcke auszuführen, sondern kann auch andere Aufgaben ausführen.
  • Darüber hinaus kann diese Erfindung zusätzlich als vollständig innerhalb einer beliebigen Form eines computerlesbaren Speichermediums verkörpert angesehen werden, auf dem ein geeigneter Satz von Anweisungen gespeichert ist zur Verwendung durch, oder in Verbindung mit, einem Anweisungsausführungssystem, einer Vorrichtung oder einem Gerät, wie etwa einem computerbasierten System, einem System, das einen Prozessor enthält, oder einem anderen System, das Anweisungen von einem Medium abrufen und die Anweisungen ausführen kann.
  • Die Software kann als Computerprogrammprodukt realisiert sein, das typischerweise auf einem nichtflüchtigen, computerlesbaren Medium, beispielsweise einer CD, DVD, einem USB-Speicher, einer Festplatte oder einem anderen herkömmlichen Speichergerät, getragen wird. Die Software kann somit zur Ausführung durch einen Prozessor in den Arbeitsspeicher eines Computers oder eines gleichwertigen Verarbeitungssystems geladen werden. Der Computer/Prozessor muss nicht ausschließlich dazu bestimmt sein, die oben beschriebenen Schritte, Funktionen, Prozeduren und/oder Blöcke auszuführen, sondern kann auch andere Softwareaufgaben ausführen.
  • Das hier dargestellte Flussdiagramm oder die hierin dargestellten Flussdiagramme können als Computerflussdiagramm oder -diagramme angesehen werden, wenn sie von einem oder mehreren Prozessoren ausgeführt werden. Eine entsprechende Vorrichtung kann als Gruppe von Funktionsmodulen definiert sein, wobei jeder von dem Prozessor ausgeführte Schritt einem Funktionsmodul entspricht. Die Funktionsmodule sind dabei als auf dem Prozessor ablaufendes Computerprogramm implementiert.
  • Das im Speicher befindliche Computerprogramm kann somit als geeignete Funktionsmodule organisiert sein, die dazu ausgelegt sind, bei Ausführung durch den Prozessor mindestens einen Teil der hierin beschriebenen Schritte und/oder Aufgaben auszuführen.
  • Alternativ ist es möglich, das/die Modul(e) überwiegend durch Hardwaremodule oder alternativ durch Hardware mit geeigneten Verbindungen zwischen relevanten Modulen zu realisieren. Besondere Beispiele weisen einen oder mehrere geeignet konfigurierte digitale Signalprozessoren und andere bekannte elektronische Schaltungen auf, z. B. diskrete Logikgatter, die miteinander verbunden sind, um eine spezialisierte Funktion auszuführen, und/oder anwendungsspezielle integrierte Schaltungen (ASICs), wie zuvor erwähnt wurde. Andere Beispiele verwendbarer Hardware weisen Eingabe/Ausgabe- (E/A) Schaltungen und/oder Schaltungen zum Empfangen und/oder Senden von Signalen auf. Das Ausmaß von Software gegenüber Hardware ist eine reine Implementierungsauswahl.
  • Es wird immer beliebter, Rechendienste (Hardware und/oder Software) bereitzustellen, bei denen die Ressourcen als Dienst über ein Netzwerk an entfernte Orte geliefert werden. Beispielsweise bedeutet dies, dass eine Funktionalität, wie sie hierin beschrieben wird, auf einen oder mehrere getrennte physische Knoten oder Server verteilt oder verlagert werden kann. Die Funktionalität kann auf eine oder mehrere gemeinsam agierende physische und/oder virtuelle Maschinen verlagert oder verteilt werden, die in getrennten physischen Knoten, d. h. in einer sogenannten Cloud, positioniert sein können. Dies wird manchmal auch als Cloud Computing bezeichnet, ein Modell zur Ermöglichung eines allgegenwärtigen On-Demand-Netzwerkzugriffs auf einen Pool konfigurierbarer Computerressourcen, wie etwa Netzwerke, Server, Speicher, Anwendungen und allgemeine oder kundenspezifische Dienste.
  • Die oben beschriebenen Ausführungsformen sind als einige veranschaulichende Beispiele der vorliegenden Erfindung zu verstehen. Fachleute werden verstehen, dass verschiedene Modifizierungen, Kombinationen und Änderungen an den Ausführungsformen vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Insbesondere können unterschiedliche Teillösungen in den unterschiedlichen Ausführungsformen, soweit technisch möglich, in anderen Konfigurationen kombiniert werden.

Claims (49)

  1. System (10; 100), umfassend: - einen oder mehrere Prozessoren (11; 110); - ein Anonymisierungsmodul (12), das durch den einen oder die mehreren Prozessoren (11; 110) ausgelegt ist zum: Empfangen, für jedes einer Vielzahl von individuellen Subjekten und/oder Objekten in einer Population von Individuen, von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren, und Erzeugen von anonymen Identifizierer-Schiefemaßen basierend auf Identifizierungsinformationen von einem oder mehreren Individuen; - einen Speicher (15; 120), der dazu ausgelegt ist, mindestens ein anonymes Identifizierer-Schiefemaß basierend auf mindestens einem der erzeugten Identifizierer-Schiefemaße zu speichern; - einen Schätzer (13), der durch den einen oder die mehreren Prozessoren (11; 110) ausgelegt ist zum: Empfangen, von dem Speicher und/oder direkt von dem Anonymisierungsmodul, einer Anzahl anonymer Identifizierer-Schiefemaße, mit mindestens einem Identifizierer-Schiefemaß für jeden von mindestens zwei Subjektzuständen von Individuen, und Erzeugen eines oder mehrerer Populationsflussmaße in Bezug auf Individuen, die von einem Subjektzustand zu einem anderen Subjektzustand gehen, basierend auf den empfangenen anonymen Identifizierer-Schiefemaßen.
  2. System nach Anspruch 1, wobei jedes Identifizierer-Schiefemaß basierend auf zwei oder mehr Identifizierer-Dichteschätzungen und/oder einem oder mehreren basierend auf Identifizierer-Dichteschätzungen erzeugten Werten erzeugt wird.
  3. System nach Anspruch 1 oder 2, wobei jedes Identifizierer-Schiefemaß die Schiefe der Identifizierungsinformationen eines oder mehrerer Individuen im Vergleich zu der erwarteten Verteilung solcher Identifizierungsinformationen in der Population repräsentiert.
  4. System nach einem der Ansprüche 1-3, wobei das Identifizierer-Schiefemaß des Anonymisierungsmoduls auf einem Gruppenidentifizierer basiert, der eine Vielzahl von Individuen repräsentiert.
  5. System nach Anspruch 4, wobei das Identifizierer-Schiefemaß auf einem Besuchszähler basiert.
  6. System nach einem der Ansprüche 3-5, wobei das Identifizierer-Schiefemaß basierend auf den Identifizierungsinformationen unter Verwendung einer Hash-Funktion erzeugt wird.
  7. System nach Anspruch 6, wobei das eine oder die mehreren Populationsflussmaße die Anzahl und/oder das Verhältnis von Besuchern aufweisen, die von einem zeitlich-räumlichen Ort zu einem anderen zeitlich-räumlichen Ort gehen.
  8. System nach Anspruch 7, wobei mindestens eines der einen oder mehreren Populationsflussmaße mindestens teilweise basierend auf einer linearen Transformation von Zählerinformationen von zwei oder mehreren Besuchszählern erzeugt wird.
  9. System nach Anspruch 8, wobei das Anonymisierungsmodul (12) und/oder die Identifizierungsinformationen, die für die Identität eines Individuums repräsentativ sind, stochastisch sind, und wobei die Stochastik der Identifizierungsinformationen und/oder des Anonymisierungsmoduls (12) beim Erzeugen der linearen Transformation berücksichtigt wird.
  10. System nach einem der Ansprüche 1 bis 9, wobei eine Basislinie, die der erwarteten Korrelation von zwei unabhängig erzeugten Populationen entspricht, subtrahiert wird, wenn das/die Populationsflussmaß(e) erzeugt wird/werden.
  11. System nach Anspruch 1, wobei jedes Identifizierer-Schiefemaß unter Verwendung einer Kombination aus dem Identifizierer und Rauschen erzeugt wird, so dass der Beitrag zu dem Identifizierer-Schiefemaß aufgrund eines ausreichenden Rauschpegels anonymisiert wird, da ein Besuch in einem Subjektzustand keinem speziellen Identifizierer zurechenbar ist.
  12. System nach Anspruch 11, wobei das Identifizierer-Schiefemaß auf zwei oder mehr Identifizierer-Dichteschätzungen basiert.
  13. System nach einem der Ansprüche 1-12, wobei - das Anonymisierungsmodul dazu ausgelegt ist, mindestens ein Identifizierer-Schiefemaß basierend auf dem/den in dem Speicher gespeicherten anonymen Identifizierer-Schiefemaß(en) zu erzeugen; und - Anonymität bereitgestellt wird, indem zu einem oder mehreren Zeitpunkten ausreichend Rauschen zu dem in dem Speicher gespeicherten anonymen Identifizierer-Schiefemaß hinzugefügt wird, damit der Gesamtbeitrag von jedem einzelnen Identifizierer nicht bestimmbar ist.
  14. System nach Anspruch 13, wobei Informationen über die erzeugte(n) Rauschprobe(n) auch zur Verringerung der Varianz in dem Populationsflussmaß gespeichert und verwendet werden.
  15. System nach einem der Ansprüche 1-14, wobei die Identifizierungsinformationen, die für die Identität eines Individuums repräsentativ sind, mindestens eines von dem Folgenden aufweisen und/oder darauf basieren: Irisbild, Gesichtsbild, biometrischer Merkmalsvektor und/oder Körperbild, Fingerabdruck und/oder Gang.
  16. System nach einem der Ansprüche 1-15, wobei die Subjektzustände zeitlich-räumliche Orte, Computersystemzustände in einer Interaktion mit dem Benutzer, und/oder Gesundheits- und Gesundheitsüberwachungszustände eines Subjekts aufweisen.
  17. System nach einem der Ansprüche 1-16, wobei die Subjektzustände zeitlich-räumliche Orte oder Örtlichkeiten sind, und wobei das Anonymisierungsmodul (12) dazu ausgelegt ist, basierend auf den Identifizierungsinformationen des Individuums einen Gruppenidentifizierer zu erzeugen, um effektiv eine Mikroaggregation der Population in entsprechende Gruppen durchzuführen; wobei der Speicher (15; 120) dazu ausgelegt ist, Besuchszähler (16) für jeden von zwei oder mehr Gruppenidentifizierern von jedem von zwei oder mehr zeitlich-räumlichen Orten oder Örtlichkeiten, die den entsprechenden Individuen zugeordnet sind, zu speichern; und wobei der Schätzer (13) dazu ausgelegt ist, Zählerinformationen von mindestens zwei Besuchszählern zu empfangen, und eines oder mehrere Populationsflussmaße in Bezug auf Individuen, die von einem zeitlich-räumlichen Ort zu einem anderen zeitlich-räumlichen Ort gehen, zu erzeugen.
  18. System nach Anspruch 17, wobei das Anonymisierungsmodul (12) dazu ausgelegt ist, einen Gruppenidentifizierer basierend auf den Identifizierungsinformationen des Individuums unter Verwendung einer Hash-Funktion zu erzeugen.
  19. System nach Anspruch 17 oder 18, wobei das System (10; 100) ein Eingabemodul (14; 140) umfasst, das durch den einen oder die mehreren Prozessoren (11; 110) ausgelegt ist zum: Empfangen von Ortsdaten für jedes aus der Vielzahl von Individuen, die repräsentativ für einen zeitlich-räumlichen Ort sind, und Abgleichen des zeitlich-räumlichen Orts des Individuums mit einem Besuchszähler, der dem Gruppenidentifizierer entspricht, in Bezug auf das Individuum, und wobei jeder Besuchszähler für jeden Gruppenidentifizierer auch einem speziellen zeitlich-räumlichen Ort entspricht.
  20. System (10; 100) zur anonymen Nachverfolgung und/oder Analyse des Flusses oder der Bewegung von individuellen Subjekten und/oder Objekten, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen, basierend auf biometrischen Daten, wobei das System (10; 100) dazu ausgelegt ist, für jedes Individuum in einer Population von mehreren Individuen einen anonymisierten Identifizierer zu bestimmen unter Verwendung von Identifizierungsinformationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe, wobei die Identifizierungsinformationen, die für die Identität des Individuums repräsentativ sind, biometrische Daten aufweisen und/oder darauf basieren, wobei jeder anonymisierte Identifizierer einem beliebigen Individuum in einer Gruppe von Individuen entspricht, deren Identifizierungsinformationen zu dem gleichen anonymisierten Identifizierer führen, mit solchen Wahrscheinlichkeiten, dass kein Individuum den anonymisierten Identifizierer mit größerer Wahrscheinlichkeit erzeugt als die Summe der Wahrscheinlichkeiten des Erzeugens des Identifizierers aller anderen Individuen, wobei das System (10; 100) dazu ausgelegt ist, Schiefemaße zu verfolgen, ein Schiefemaß für jeden von zwei oder mehr Subjektzuständen, wobei jedes Schiefemaß basierend auf anonymisierten Identifizierern erzeugt wird, die den entsprechenden Individuen zugeordnet sind, die einem speziellen entsprechenden Subjektzustand zugeordnet sind; und wobei das System (10; 100) dazu ausgelegt ist, mindestens ein Populationsflussmaß zu bestimmen, das repräsentativ für die Anzahl von Individuen ist, die von einem ersten Subjektzustand zu einem zweiten Subjektzustand gehen, basierend auf den Schiefemaßen, die den Subjektzuständen entsprechen.
  21. System nach Anspruch 20, wobei die anonymisierten Identifizierer Gruppenidentifizierer und/oder rauschmaskierte Identifizierer sind.
  22. System nach Anspruch 20 oder 21, wobei das System (10; 100) dazu ausgelegt ist, für jedes Individuum in einer Population von mehreren Individuen einen Gruppenidentifizierer basierend auf einer Hash-Funktion zu bestimmen, unter Verwendung von Informationen, die für eine Identität des Individuums repräsentativ sind, als Eingabe, wobei jeder Gruppenidentifizierer einer Gruppe von Individuen entspricht, deren Identifizierungsinformationen zu dem gleichen Gruppenidentifizierer führen, wodurch effektiv eine Mikroaggregation der Population in mindestens zwei Gruppen durchgeführt wird, wobei die Subjektzustände zeitlich-räumliche Orte oder Örtlichkeiten sind und die Schiefemaße Besuchsdaten entsprechen, und das System (10; 100) dazu ausgelegt ist, pro Gruppe Besuchsdaten zu verfolgen, die die Anzahl der Besuche von Individuen, die zu der Gruppe gehören, an zwei oder mehr zeitlich-räumlichen Orten repräsentieren, und wobei das System (10; 100) dazu ausgelegt ist, basierend auf Besuchsdaten pro Gruppenidentifizierer mindestens ein Populationsflussmaß zu bestimmen, das repräsentativ für die Anzahl von Individuen ist, die von einem ersten zeitlich-räumlichen Ort zu einem zweiten zeitlich-räumlichen Ort gehen.
  23. System nach einem der Ansprüche 20-22, wobei das System (10; 100) eine Verarbeitungsschaltung (11; 110) und einen Speicher (15; 120) umfasst, wobei der Speicher Anweisungen umfasst, die, wenn sie von der Verarbeitungsschaltung ausgeführt werden, bewirken, dass das System den Fluss oder die Bewegung von Individuen anonym verfolgt und/oder analysiert.
  24. Überwachungssystem (50), umfassend ein System (10; 100) nach einem der Ansprüche 1-23.
  25. Computerimplementiertes Verfahren zum Ermöglichen einer anonymen Schätzung der Menge und/oder des Flusses einzelner Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, in einer Population, die sich zwischen zwei oder mehr Subjektzuständen bewegen und/oder übereinstimmen, basierend auf biometrischen Daten, wobei das Verfahren die Schritte umfasst: - Empfangen (S1; S21) von Identifizierungsdaten von zwei oder mehr Individuen, wobei die Identifizierungsdaten von jedem Individuum biometrische Daten aufweisen und/oder darauf basieren; - Erzeugen (S2; S22), online und durch einen oder mehrere Prozessoren, eines anonymisierten Identifizierers für jedes Individuum; und - Speichern (S3; S23): des anonymisierten Identifizierers jedes Individuums zusammen mit Daten, die einen Subjektzustand repräsentieren; und/oder eines Schiefemaßes eines solchen anonymisierten Identifizierers.
  26. Verfahren nach Anspruch 25, wobei der anonymisierte Identifizierer ein Schiefemaß des anonymisierten Identifizierers oder ein anderer, effektiv nicht mit dem Populationsfluss korrelierter anonymisierter Identifizierer ist.
  27. Verfahren nach Anspruch 25 oder 26, wobei die Identifizierungsdaten auf beliebige Weise mit dem Populationsfluss korreliert sind, und wobei das Schiefemaß dekorreliert, und/oder der anonymisierte Identifizierer mit einem Dekorrelationsmodul und/oder einem Dekorrelations-Hash-Modul erzeugt wird.
  28. Verfahren nach einem der Ansprüche 26-27, wobei der anonymisierte Identifizierer ein anonymes Schiefemaß ist und das anonymisierte Schiefemaß basierend auf einem gespeicherten anonymen Schiefemaß des Identifizierers, dem zu einem oder mehreren Zeitpunkten Rauschen hinzugefügt wurde, erzeugt wird.
  29. Verfahren nach einem der Ansprüche 25-28, wobei der anonymisierte Identifizierer durch Hinzufügen von Rauschen zu den Identifizierungsdaten erzeugt wird.
  30. Verfahren nach einem der Ansprüche 28-29, wobei ein zu einer Populationsflussschätzung hinzugefügter Kompensationsterm und/oder notwendige Informationen zum Erzeugen einer solchen Populationsflussschätzung basierend auf einer oder mehreren erzeugten Rauschproben, die von dem Verfahren verwendet werden, berechnet werden.
  31. Verfahren nach einem der Ansprüche 25-30, wobei zwei beliebige gespeicherte anonymisierte Identifizierer oder Identifizierer-Schiefemaße nicht miteinander verknüpfbar sind, d. h. es keinen pseudonymen Identifizierer gibt, der die Zustände in den gespeicherten Daten verknüpft.
  32. Verfahren nach einem der Ansprüche 25-31, wobei der anonymisierte Identifizierer eine Gruppenidentität ist, und die Gruppenidentität jedes Individuums zusammen mit Daten, die den Subjektzustand repräsentieren; und/oder einem Zähler pro Subjektzustand und Gruppenidentität gespeichert wird.
  33. Verfahren nach Anspruch 32, wobei der Subjektzustand ein zeitlichräumlicher Ort, ein Computersystemzustand in einer Interaktion mit einem Benutzer, und/oder ein Gesundheits- und/oder Gesundheitsüberwachungszustand eines Subjekts ist.
  34. Verfahren nach einem der Ansprüche 32-33, wobei Aktivitätsdaten, die repräsentativ für eine oder mehrere Aktionen oder Aktivitäten eines jeweiligen Individuums sind, auch zusammen mit der entsprechenden Gruppenidentität und Daten, die den Subjektzustand beschreiben, gespeichert werden.
  35. Verfahren nach einem der Ansprüche 25-34, ferner umfassend den Schritt des Erzeugens (S4; S24) eines Populationsflussmaßes zwischen zwei Subjektzuständen.
  36. Computerimplementiertes Verfahren zum Erzeugen eines Maßes des Flusses oder der Bewegung einzelner Subjekte und/oder Objekte, im Folgenden als Individuen bezeichnet, zwischen Subjektzuständen, basierend auf biometrischen Daten, wobei das Verfahren die Schritte umfasst: - Konfigurieren (S11; S31) eines oder mehrerer Prozessoren zum Empfangen von anonymen Identifizierer-Schiefemaßen, die basierend auf biometrisch basierten Identifizierern von Besuchen und/oder Vorkommnissen von Individuen in und/oder bei jedem von zwei Subjektzuständen erzeugt werden, wobei jeder Identifizierer repräsentativ für die Identität eines Individuums ist und biometrische Daten aufweist und/oder darauf basiert; - Erzeugen (S12; S32), unter Verwendung des einen oder der mehreren Prozessoren, eines Populationsflussmaßes zwischen zwei Subjektzuständen durch Vergleichen der anonymen Identifizierer-Schiefemaße zwischen den Subjektzuständen; - Speichern (S13; S33) des Populationsflussmaßes in einem Speicher.
  37. Verfahren nach Anspruch 36, wobei die Subjektzustände zeitlich-räumliche Orte, Computersystemzustände in Interaktion mit einem Benutzer, und/oder Gesundheits- und/oder Gesundheitsüberwachungszustände eines Subjekts sind.
  38. Verfahren nach einem der Ansprüche 36 bis 37, wobei die anonymen Identifizierer-Schiefemaße Zähler von Gruppenidentitäten sind.
  39. Verfahren nach einem der Ansprüche 36-38, wobei ein einzelner Besucher, der sich in einem Subjektzustand befindet, nicht mit hoher Wahrscheinlichkeit in einem anderen Subjektzustand unter Verwendung der anonymen Identifizierer-Schiefemaße erneut identifiziert werden kann.
  40. Verfahren nach einem der Ansprüche 36-39, wobei der Erzeugungsschritt (S12; S32) nicht auf Daten basiert, die bereits ein gewisses Maß des Populationsflusses zwischen den Orten auf individueller Ebene und/oder mikroaggregierter Ebene enthalten.
  41. Verfahren nach einem der Ansprüche 36-40, wobei die anonymen Identifizierer-Schiefemaße effektiv nicht mit dem Populationsfluss korreliert sind.
  42. Verfahren nach einem der Ansprüche 36-41, wobei die Populationsflussschätzung basierend auf einer linearen Abbildung aus den anonymen Identifizierer-Schiefemaßen erzeugt wird.
  43. Verfahren nach einem der Ansprüche 36-42, wobei das Populationsflussmaß auch basierend auf Informationen über Rauschproben erzeugt wird, die verwendet werden, um die Daten zu anonymisieren.
  44. Verfahren nach einem der Ansprüche 36-43, wobei der Konfigurationsschritt (S11; S31) Konfigurieren eines oder mehrerer Prozessoren zum Empfangen von Zählern von anonymen und annähernd unabhängig verteilten Gruppenidentitäten, die von Besuchen von Individuen in jedem von zwei Subjektzuständen stammen, aufweist; und der Erzeugungsschritt (S12; S32) Erzeugen eines Populationsflussmaßes zwischen zwei Subjektzuständen unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei Subjektzustände aufweist.
  45. Verfahren nach Anspruch 44, wobei die Subjektzustände zeitlich-räumliche Orte sind und das Populationsflussmaß zwischen zwei zeitlich-räumlichen Orten unter Verwendung einer linearen Korrelation zwischen Zählern von Gruppenidentitäten für jeden der zwei Subjektzustände erzeugt wird.
  46. Verfahren nach einem der Ansprüche 25-45, wobei ein anonymer Identifizierer oder ein Identifizierer-Schiefemaß für jeden Subjektzustand auf zwei oder mehr Identifizierer-Dichteschätzungen basiert.
  47. Computerprogramm (125; 135), das Anweisungen umfasst, die, wenn sie von mindestens einem Prozessor (110) ausgeführt werden, bewirken, dass der mindestens eine Prozessor (110) das computerimplementierte Verfahren nach einem der Ansprüche 25-46 durchführt.
  48. Computerprogrammprodukt, umfassend ein nichtflüchtiges computerlesbares Medium (120; 130), auf dem ein Computerprogramm (125; 135) nach Anspruch 47 gespeichert ist.
  49. System zur Durchführung des Verfahrens nach einem der Ansprüche 25-46.
DE112020004766.0T 2019-10-04 2020-08-06 Verfahren und systeme zur anonymen verfolgung und/oder analyse von individuen auf basis biometrischer daten Pending DE112020004766T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE1900160 2019-10-04
SE1900160-1 2019-10-04
PCT/SE2020/050767 WO2021066694A1 (en) 2019-10-04 2020-08-06 Methods and systems for anonymously tracking and/or analysing individuals based on biometric data

Publications (1)

Publication Number Publication Date
DE112020004766T5 true DE112020004766T5 (de) 2022-06-23

Family

ID=75338402

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020004766.0T Pending DE112020004766T5 (de) 2019-10-04 2020-08-06 Verfahren und systeme zur anonymen verfolgung und/oder analyse von individuen auf basis biometrischer daten

Country Status (7)

Country Link
US (1) US20220309186A1 (de)
CN (1) CN114766020A (de)
AU (1) AU2020360121A1 (de)
CA (1) CA3156101A1 (de)
DE (1) DE112020004766T5 (de)
GB (1) GB2603368B (de)
WO (1) WO2021066694A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3971734A1 (de) * 2020-09-22 2022-03-23 Grazper Technologies ApS Auswertungsvorrichtung zur erneuten identifizierung und zugehöriges verfahren, system und computerprogramm

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038863A1 (en) * 2003-10-20 2007-02-15 Nhan Nguyen System and Method for Decoupling Identification from Biometric Information in Biometric Access Systems
US8555400B2 (en) * 2011-02-04 2013-10-08 Palo Alto Research Center Incorporated Privacy-preserving aggregation of Time-series data
US20140063237A1 (en) * 2012-09-03 2014-03-06 Transportation Security Enterprises, Inc.(TSE), a Delaware corporation System and method for anonymous object identifier generation and usage for tracking
US8972187B1 (en) * 2013-06-28 2015-03-03 Google Inc. Varying the degree of precision in navigation data analysis
GB2549786A (en) * 2016-04-29 2017-11-01 Fujitsu Ltd A system and method for storing and controlling access to behavioural data
US10579827B2 (en) * 2017-07-24 2020-03-03 Meltwater News International Holdings Gmbh Event processing system to estimate unique user count
US11100250B2 (en) * 2017-09-05 2021-08-24 Philips Healthcare Informatics, Inc. Controlling access to data in a health network
SE543586C2 (en) * 2018-09-07 2021-04-06 Indivd Ab System and method for handling anonymous biometric and/or behavioural data

Also Published As

Publication number Publication date
GB2603368A (en) 2022-08-03
CA3156101A1 (en) 2021-04-08
WO2021066694A1 (en) 2021-04-08
GB2603368B (en) 2023-08-23
AU2020360121A1 (en) 2022-05-19
CN114766020A (zh) 2022-07-19
GB202204361D0 (en) 2022-05-11
US20220309186A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
CN111866869B (zh) 面向边缘计算的联邦学习室内定位隐私保护方法
Wang et al. Locality statistics for anomaly detection in time series of graphs
Galves et al. Infinite systems of interacting chains with memory of variable length—a stochastic model for biological neural nets
Ganti et al. PoolView: stream privacy for grassroots participatory sensing
Fan et al. FAST: differentially private real-time aggregate monitor with filtering and adaptive sampling
DE112012006300T5 (de) Prädiktives verhaltensorientiertes Targeting
WO2020177484A1 (zh) 一种本地化差分隐私城市环卫数据报告和隐私计算方法
DE112019006156T5 (de) Erkennung und behandlung von unsachgemässen eingaben durch neuronale netzwerke
DE112020004766T5 (de) Verfahren und systeme zur anonymen verfolgung und/oder analyse von individuen auf basis biometrischer daten
Walter et al. Measuring the wisdom of the crowd: How many is enough?
Xie et al. Optimal number of clusters in explainable data analysis of agent-based simulation experiments
Dai et al. A phase space reconstruction based single channel ICA algorithm and its application in dam deformation analysis
Chané Social network analysis
Mahmood et al. Contextual contact tracing based on stochastic compartment modeling and spatial risk assessment
Huang et al. Laplacian Change Point Detection for Single and Multi-view Dynamic Graphs
CA3169538C (en) System and method for privacy-aware analysis of video streams and operation and learning of computer-implemented classification module
DE112020004161T5 (de) Lernen eines musterwörterbuchs aus unscharfen numerischen daten in verteilten netzwerken
Faragallah et al. Utilization of Deep Learning-Based Crowd Analysis for Safety Surveillance and Spread Control of COVID-19 Pandemic.
Chen et al. A multi-layer dynamic model for customer experience analytics
CA3123805C (en) System and method for privacy-aware analysis of video streams and operation and learning of computer-implemented classification module
Vinaybhushan et al. Privacy-perserving KNN classification protocol over encrpted relational data in the cloud
EP3472744A1 (de) Authentifizieren eines tragbaren endgeräts
Datta et al. Homeland defense, privacy-sensitive data mining, and random value distortion
Baratchi et al. Spaceprint: a Mobility-based Fingerprinting Scheme for Spaces
Wu et al. A lightweight, privacy-preserving tensor completion framework for Internet of Things

Legal Events

Date Code Title Description
R083 Amendment of/additions to inventor(s)