DE102020125598A1 - Data processing system for restricted data and processes - Google Patents

Data processing system for restricted data and processes Download PDF

Info

Publication number
DE102020125598A1
DE102020125598A1 DE102020125598.5A DE102020125598A DE102020125598A1 DE 102020125598 A1 DE102020125598 A1 DE 102020125598A1 DE 102020125598 A DE102020125598 A DE 102020125598A DE 102020125598 A1 DE102020125598 A1 DE 102020125598A1
Authority
DE
Germany
Prior art keywords
data
personal
anonymized
identifiers
released
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020125598.5A
Other languages
German (de)
Inventor
Jens Elsner
Stefan Taing
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Munich Innovation Labs GmbH
Original Assignee
Munich Innovation Labs GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Munich Innovation Labs GmbH filed Critical Munich Innovation Labs GmbH
Priority to DE102020125598.5A priority Critical patent/DE102020125598A1/en
Publication of DE102020125598A1 publication Critical patent/DE102020125598A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Abstract

Ein computerimplementiertes Verfahren zur Bereitstellung teilanonymisierter personenbezogener Daten umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle, das automatische Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten, das automatische Erzeugen eines anonymisierten Datensatzes umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten, und das Bereitstellen des anonymisierten Datensatzes, wobei das Verfahren ferner ein Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenes Kennzeichen in dem anonymisierten Datensatz, ein automatisches Erzeugen eines teilanonymisierten Datensatzes, in dem das freizugebende personenbezogene Kennzeichen enthalten ist, und ein Bereitstellen des teilanonymisierten Datensatzes umfasst.A computer-implemented method for providing partially anonymized personal data includes obtaining personal data from an external data source, automatically identifying personal identifiers in the personal data, automatically generating an anonymized data set comprising automatic removal of the personal identifiers in the personal data, and providing the Anonymized data set, the method also includes receiving a request and a justification for the release of personal data on a personal identifier to be released in the anonymized data set, automatically generating a partially anonymized data set containing the personal identifier to be released, and providing the partially anonymized data set includes.

Description

GEBIET DER ERFINDUNGFIELD OF THE INVENTION

Die vorliegende Erfindung liegt auf dem Gebiet der Datensicherheit und betrifft Systeme und Verfahren für den eingeschränkten Zugriff auf Informationen aus einer Datenquelle, insbesondere zur Nutzung durch Behörden und Organisationen mit Sicherheitsaufgaben.The present invention is in the field of data security and relates to systems and methods for restricted access to information from a data source, in particular for use by authorities and organizations with security tasks.

HINTERGRUNDBACKGROUND

Mit der zunehmenden Benutzung digitaler Dienste vergrößert sich gleichermaßen das öffentlich verfügbare Datenprofil jedes Nutzers, bspw. durch öffentliche Äußerungen in sozialen Netzwerken. Ein Zugriff auf dieses öffentlich verfügbare Datenprofil durch Behörden und Organisationen mit Sicherheitsaufgaben, bspw. zum Zweck der Strafverfolgung, bspw. Hasskriminalität, steht jedoch grundsätzlichen ethischen Bedenken und gesetzlichen Zugriffsausschlussrechten gegenüber, wie dem Recht auf informationelle Selbstbestimmung.With the increasing use of digital services, the publicly available data profile of each user increases in equal measure, e.g. through public statements in social networks. However, access to this publicly available data profile by authorities and organizations with security tasks, e.g. for the purpose of criminal prosecution, e.g. hate crime, is opposed to fundamental ethical concerns and legal rights to exclude access, such as the right to informational self-determination.

Für die Arbeit von Behörden und Organisationen mit Sicherheitsaufgaben bedeutet dies konkret, dass ohne Anfangsverdacht auf eine strafbare Handlung im Allgemeinen keine Sichtung und Auswertung von personenbezogenen Daten erfolgen soll. Dies führt möglicherweise dazu, dass im Bereich der Strafverfolgung digitale Inhalte in sozialen Netzwerken bei einem Verdacht regelmäßig nur händisch und undokumentiert untersucht werden können, sodass sowohl für die Nutzer als auch die Behörden eine Rechtsunsicherheit entstehen kann. Denn die händische Sichtung der Daten kann die Verletzung der Grundrechte der Nutzer bereits beinhalten.For the work of authorities and organizations with security tasks, this means in concrete terms that without an initial suspicion of a criminal act, personal data should generally not be viewed and evaluated. This may mean that in the area of criminal prosecution, digital content in social networks can only be examined manually and without documentation in the event of suspicion, so that legal uncertainty can arise for both users and the authorities. Because the manual viewing of the data can already include the violation of the fundamental rights of the user.

ÜBERBLICK ÜBER DIE ERFINDUNGOVERVIEW OF THE INVENTION

Aus dem Stand der Technik sind keine transparenten Zugriffsverfahren auf personenbezogene Dateninhalte bekannt, welche in datenschutzkonformer Weise die effiziente Auswertung von personenbezogenen digitalen Informationen erlauben. Gleichzeitig ist die manuelle Auswertung der personenbezogenen Dateninhalten für die Vermeidung von Eingriffen in Zugriffsausschlussrechte kontraproduktiv und kann eine solche technische Lösung nicht ersetzen.The state of the art does not contain any transparent access procedures for personal data content that allow for the efficient evaluation of personal digital information in a data protection-compliant manner. At the same time, the manual evaluation of the personal data content is counterproductive in order to avoid interventions in access exclusion rights and cannot replace such a technical solution.

Die Aufgabe der Erfindung ist es somit, eine technische Lösung für den eingeschränkten Zugriff auf personenbezogene Daten bereitzustellen, während gleichzeitig eine unspezifische Sichtung oder Auswertung personenbezogener Daten verhindert wird.The object of the invention is therefore to provide a technical solution for restricted access to personal data, while at the same time unspecific viewing or evaluation of personal data is prevented.

Diese Aufgabe wird durch ein computerimplementiertes Verfahren, ein Datenverarbeitungssystem und ein Computerverfahren nach den unabhängigen Ansprüchen gelöst. Die abhängigen Ansprüche betreffen bevorzugte Ausführungsformen.This object is solved by a computer-implemented method, a data processing system and a computer method according to the independent claims. The dependent claims relate to preferred embodiments.

Gemäß einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zur Bereitstellung entanonymisierter personenbezogener Daten. Das Verfahren umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle, das automatische Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters, das automatische Erzeugen eines anonymisierten Datensatzes umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten, und das Bereitstellen des anonymisierten Datensatzes. Das Verfahren umfasst ferner ein Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenen Kennzeichen in dem anonymisierten Datensatz und ein Erzeugen eines Freigabeschlüssels auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen. Das Verfahren umfasst ferner ein automatisches Erzeugen eines entanonymisierten Datensatzes basierend auf dem Freigabeschlüssel, wobei der entanonymisierte Datensatz das freizugebende personenbezogene Kennzeichen enthält, und ein Bereitstellen des entanonymisierten Datensatzes.According to a first aspect, the invention relates to a computer-implemented method for providing de-anonymized personal data. The method includes obtaining personal data from an external data source, automatically identifying personal identifiers in the personal data based on a reference data structure and/or a reference data pattern, automatically generating an anonymized data set comprising automatically removing the personal identifiers in the personal data, and providing the anonymized data set. The method further includes receiving a request and justification for releasing personal data related to a personal identifier to be shared in the anonymized data set, and generating a sharing key based on the request and justification related to the personal identifier to be shared. The method also includes automatically generating a de-anonymized data record based on the release key, the de-anonymized data record containing the personal identifier to be released, and providing the de-anonymized data record.

Über das Verfahren kann der Nutzer in transparenter Weise auf Daten mit personenbezogenen Kennzeichen zugreifen, da personenbezogene Inhalte automatisch anonymisiert werden können und eine Vergrößerung der Eingriffstiefe einzelfallbezogen von einer Rechtfertigung abhängig gemacht wird. Entsprechend kann der Nutzer die technischen Möglichkeiten des Zugriffssystems zielgerichtet nutzen, während ein Eingriff in die Datensicherheit der Nutzer der externen Datenquelle minimiert wird. Ein derart strukturiertes Verfahren verbessert auch die Interaktion des Nutzers mit einer entsprechend programmierten Maschine, da der inhärente Verfahrensablauf bei ausschließlich gedanklicher Tätigkeit umgekehrt wird, d.h. eine Anonymisierung und damit auch verbundene Abstrahierung von Dateninhalten vor der Inhaltssichtung durch den Nutzer erfolgen kann und nicht umgekehrt.The procedure allows the user to access data with personal identifiers in a transparent manner, since personal content can be automatically anonymized and an increase in the depth of intervention is made dependent on a justification on a case-by-case basis. Accordingly, the user can use the technical possibilities of the access system in a targeted manner, while an intrusion into the data security of the user of the external data source is minimized. A procedure structured in this way also improves the interaction of the user with a correspondingly programmed machine, since the inherent procedure is reversed in the case of purely mental activity, i.e. anonymization and the associated abstraction of data content can take place before the user views the content and not vice versa.

Die externe Datenquelle kann eine öffentlich zugängliche digitale Datenquelle sein, welche es Nutzern ermöglichen kann, personenbezogene Daten zu hinterlegen. Zum Beispiel kann die externe Datenquelle ein Kanal eines sozialen Netzwerks, wie ein YouTube-Kanal oder eine Facebook-Gruppe, oder ein webbasierter Blog sein, und kann als personenbezogene Daten digitale Beiträge einer Nutzergruppe umfassen, wie beispielsweise Kommentare oder Fotos, welche der externen Datenquelle zugeordnet sind. Die externe Datenquelle kann automatisch eingelesen werden und in einem mit der Anonymisierung der Inhalte der externen Datenquelle betrauten Computersystem während der Bearbeitung zwischengespeichert werden. Zum Beispiel kann die externe Datenquelle erstmalig manuell bereitgestellt werden, wie durch die Angabe eines Links, und die Inhalte der externen Datenquelle können anschließend von einem Computersystem in einer zugangsbeschränkten Datenbank (zwischen-)gespeichert werden.The external data source can be a publicly accessible digital data source, which can enable users to store personal data. For example, the external data source can be a social network channel, such as a YouTube channel or a Facebook group, or a web-based blog, and may include digital contributions from a user group as personal data, such as comments or photos, which are assigned to the external data source. The external data source can be read in automatically and temporarily stored during processing in a computer system entrusted with the anonymization of the content of the external data source. For example, the external data source can be provided manually for the first time, such as by providing a link, and the contents of the external data source can then be (temporarily) stored by a computer system in a restricted database.

In einigen Ausführungsformen umfasst das Verfahren das Speichern der personenbezogenen Daten in einer zugangsbeschränkten Datenbank.In some embodiments, the method includes storing the personal data in a restricted database.

Vorzugsweise speichert das Verfahren die personenbezogenen Daten ohne manuellen Zugriff in der zugangsbeschränkten Datenbank und speichert ein anonymisiertes und/oder entanonymisiertes Abbild der personenbezogenen Daten für eine Auswertung oder Sichtung der Inhalte der externen Datenquelle, wobei ein manueller Zugriff auf das entanonymisierte Abbild eingerichtet sein kann.The method preferably stores the personal data without manual access in the access-restricted database and stores an anonymized and/or de-anonymized image of the personal data for evaluating or viewing the content of the external data source, with manual access to the de-anonymized image being able to be set up.

Unter manuellem Zugriff kann dabei der Zugriff auf die Daten in menschenlesbarer Form an einem Terminal zu verstehen sein. Beispielsweise können die Daten in der zugangsbeschränkten Datenbank verschlüsselt oder komprimiert sein und ein Zugriff auf die zugangsbeschränkte Datenbank kann von der Bereitstellung eines Authorisierungsschlüssels abhängen.Manual access can be understood as access to the data in human-readable form at a terminal. For example, the data in the restricted database may be encrypted or compressed, and access to the restricted database may depend on the provision of an authorization key.

Das Verfahren kann ein Client-System und ein Server-System vorsehen, welche über eine Datenleitung verbunden sind, wobei insbesondere nur das Server-System mit dem Authorisierungsschlüssel ausgestattet ist, um automatisch entanonymisierte Daten für das Client-System auf der Grundlage der personenbezogenen Daten bereitzustellen.The method can provide a client system and a server system, which are connected via a data line, with in particular only the server system being equipped with the authorization key in order to automatically provide de-anonymized data for the client system on the basis of the personal data .

In einigen Ausführungsformen kann ein automatisiertes System auf die personenbezogenen Daten in der zugangsbeschränkten Datenbank zugreifen, um die personenbezogenen Daten nach vorbestimmten Kriterien auszuwerten. Beispielsweise können die Inhalte der personenbezogenen Daten durch ein neuronales Netzwerk ausgewertet werden, um eine anonymisierte Analyse der Inhalte mit für ein Beobachtungsphänomen typischen Inhalten zu erzeugen.In some embodiments, an automated system can access the personal data in the restricted database to evaluate the personal data according to predetermined criteria. For example, the content of the personal data can be evaluated by a neural network in order to generate an anonymous analysis of the content with content typical of an observation phenomenon.

In einigen Ausführungsformen werden die Inhalte der externen Datenquelle für die Anonymisierung nur zwischengespeichert und/oder nach Ablauf einer Löschungsfrist gelöscht.In some embodiments, the content of the external data source for anonymization is only temporarily stored and/or deleted after a deletion period has expired.

Der entanonymisierte Datensatz kann dabei - insbesondere abhängig von dem Freigabeschlüssel - ein vollständig entanonymisierter Datensatz sein, in dem alle personenbezogenen Kennzeichen entanonymisiert sind.The de-anonymised data record can be a completely de-anonymised data record, in particular depending on the release key, in which all personal identifiers are de-anonymised.

Alternativ kann der entanonymisierte Datensatz ein teilanonymisierter Datensatz sein, in dem eine Teilmenge der personenbezogenen Kennzeichen entanonymisiert sind. Andere personenbezogene Kennzeichen können dagegen - abhängig von dem Freigabeschlüssel - weiterhin anonymisiert bleiben.Alternatively, the de-anonymized data record can be a partially anonymized data record in which a subset of the personal identifiers are de-anonymized. On the other hand, other personal identifiers can - depending on the release key - remain anonymous.

Die personenbezogenen Daten können in einer Ausführungsform auch sukzessive entanonymisiert werden, um über mehrere Freigabeebenen die personenbezogenen Kennzeichen selektiv zu entanonymisieren. Insbesondere kann das vorangehend beschriebene Verfahren iteriert werden, wobei die jeweile Freigabeebene jeweils einen entsprechende Anfrage und Rechtfertigung erfordert.In one embodiment, the personal data can also be successively de-anonymized in order to selectively de-anonymize the personal identifiers over a number of release levels. In particular, the method described above can be iterated, with each release level requiring a corresponding request and justification.

Eine sukzessive Entanonymisierung kann bis hin zu einer vollständigen Entanonymisierung der personenbezogenen Daten durchgeführt werden. In einigen Ausführungsformen kann das Entanonymisieren ein vollständiges Entanonymisieren der personenbezogenen Daten sein.A successive de-anonymization can be carried out up to a complete de-anonymization of the personal data. In some embodiments, the de-anonymization may be a complete de-anonymization of the personal data.

Die Entanonymisierung der personenbezogenen Kennzeichen kann kennzeichenbezogen und/oder inhaltsbezogen erfolgen, d.h. es können bestimmte personenbezogenen Kennzeichen selektiv entanonymisiert werden und/oder es können bestimmte Inhalte der personenbezogenen Daten mit verschiedenen enthaltenen personenbezogenen Kennzeichen selektiv entanonymisiert werden. Beispielsweise kann die Anfrage die Freigabe sämtlicher personenbezogener Kennzeichen in einem Teilinhalt der personenbezogenen Daten, wie einem Kommentar oder Bild, umfassen, welche auch in weiteren Inhalten der personenbezogenen Daten freigegeben werden können. Ferner kann die Anfrage die Freigabe/Entanonymisierung eines bestimmten personenbezogenen Kennzeichens in einem Teilinhalt oder in den gesamten personenbezogenen Daten umfassen.The de-anonymization of personal identifiers can be based on identifiers and/or content, i.e. certain personal identifiers can be selectively de-anonymized and/or certain contents of the personal data containing different personal identifiers can be selectively de-anonymized. For example, the request can include the release of all personal identifiers in a partial content of the personal data, such as a comment or image, which can also be released in other content of the personal data. Furthermore, the request may include the release/de-anonymization of a specific personal identifier in some or all of the personal data.

Wenn entanonymisierte Datensätze mit zusätzlichen personenbezogenen Kennzeichen angefordert werden, kann ein Computersystem die personenbezogenen Daten aus der externen Datenquelle neu erheben und den entanonymisierten Datensatz neu erzeugen.If de-anonymized data sets with additional personal identifiers are requested, a computer system can re-collect the personal data from the external data source and recreate the de-anonymized data set.

In bevorzugten Ausführungsformen umfasst das Erzeugen des entanonymisierten Datensatzes das Identifizieren des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten und das automatische Entfernen der personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten.In preferred embodiments, the generation of the de-anonymized data set includes identifying the personal identifier to be released in the personal data and automatically removing the personal identifiers except for the personal identifier to be released in the personal data.

Beispielsweise kann das Computersystem die personenbezogenen Daten nach Erhalt anonymisieren und lediglich vorbestimmte (freizugebende) personenbezogene Kennzeichen von der Anonymisierung ausschließen, bevor die Inhalte der externen Datenquelle in entanonymisierter Form bereitgestellt und/oder gespeichert werden.For example, the computer system can anonymize the personal data upon receipt and only exclude predetermined personal identifiers (to be released) from the anonymization before the content of the external data source is made available and/or stored in deanonymized form.

Das Verfahren kann die personenbezogenen Kennzeichen in den personenbezogenen Daten automatisch ermitteln und entfernen.The method can automatically determine and remove the personal identifiers in the personal data.

Personenbezogene Daten und/oder Kennzeichen sind in einer Ausführungsform digitale und/oder digitalisierte Inhalte, welche mit vertretbarem Aufwand Rückschlüsse auf die Person des Nutzers erlauben können. Die personenbezogenen Daten können somit beispielsweise biometrische Inhalte, Klarnamen, Nutzernamen, E-Mail-Adressen, oder Orte umfassen. Ferner können auch vollständige Äußerungen personenbezogene Inhalte darstellen, wenn die vollständigen Äußerungen durch eine Internetrecherche direkt mit einer bestimmten Person korreliert oder assoziiert werden können.In one embodiment, personal data and/or identifiers are digital and/or digitized content which, with reasonable effort, can allow conclusions to be drawn about the person of the user. The personal data can thus include, for example, biometric content, real names, user names, e-mail addresses, or locations. Furthermore, complete utterances can also represent personal content if the complete utterances can be directly correlated or associated with a specific person through internet research.

Zum Schutz der Datensicherheit sollte das Verfahren daher vorteilhafterweise zunächst vollständig anonymisierte Daten bereitstellen, bspw. Inhalte ohne konkreten Personenbezug. Dazu können die Inhalte anonymisiert werden, wobei die personenbezogenen Kennzeichen entfernt und wahlweise durch einen nicht-personenbezogenen Platzhalter ersetzt werden können (sog. Pseudonymisierung). Die personenbezogenen Kennzeichen können automatisch durch Mustervergleich mit dem Referenzdatenmuster identifiziert werden, bspw. anhand typischer Muster biometrischer Merkmale, anhand typischer Muster von (E-Mail-)Adressen und Nutzernamen (wie durch ein vorangestelltes „@“), oder anhand einer standardisierten Kommentarstruktur.In order to protect data security, the method should therefore advantageously initially provide completely anonymous data, e.g. content without specific personal reference. For this purpose, the content can be anonymized, whereby the personal identifiers can be removed and optionally replaced by a non-personal placeholder (so-called pseudonymization). The personal identifiers can be identified automatically by comparing patterns with the reference data pattern, e.g. based on typical patterns of biometric features, based on typical patterns of (e-mail) addresses and user names (e.g. with a prefix "@"), or based on a standardized comment structure.

In bevorzugten Ausführungsformen umfasst das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, und das Erzeugen des anonymisierten Datensatzes umfasst ein Unkenntlichmachen der biometrischen Merkmale in den personenbezogenen Daten.In preferred embodiments, the reference data pattern includes biometric features, in particular facial features, and the generation of the anonymized data record includes rendering the biometric features unrecognizable in the personal data.

Computersysteme können in grafischen Inhalten automatisch relevante Inhalte erkennen. In einer Ausführungsform kann ein neuronales Netzwerk automatisch personenbezogene Merkmale aus den Daten entfernen, bspw. durch das Identifizieren von Gesichtsmerkmalen und das anschließende automatisierte selektive Unkenntlichmachen der Gesichtsmerkmale durch Verpixeln oder Überlagern der Gesichtsmerkmale mit einer anonymisieren Bildstruktur (z. B. Schwärzen der Gesichtsmerkmale).Computer systems can automatically recognize relevant content in graphic content. In one embodiment, a neural network can automatically remove personal characteristics from the data, e.g. by identifying facial features and then automatically selectively obscuring the facial features by pixelation or overlaying the facial features with an anonymized image structure (e.g. blackening the facial features).

Ferner können personenbezogene Inhalte, welche auf einer Webseite oder durch eine API publiziert werden, anhand der Datenstruktur identifiziert werden. Beispielsweise können Nutzernamen in eigenen Datenfeldern aufgenommen sein und können anhand einer Analyse der Datenhierarchie in der Publikationsstruktur der Webseiteninhalte verifiziert werden.Furthermore, personal content published on a website or through an API can be identified based on the data structure. For example, user names can be included in their own data fields and can be verified based on an analysis of the data hierarchy in the publication structure of the website content.

In bevorzugten Ausführungsformen umfasst die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle, und die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie werden als personenbezogene Kennzeichen identifiziert.In preferred embodiments, the reference data structure includes an information hierarchy of the external data source, and the contents of a predetermined hierarchy level of the information hierarchy are identified as personal identifiers.

Durch Entfernen der personenbezogenen Kennzeichen kann ein anonymisierter Datensatz erzeugt werden, der personenunspezifisch ausgewertet werden kann. Die personenbezogenen Inhalte können weiter abstrahiert bzw. anonymisiert werden, indem die Inhalte in kontextunabhängiger Form bereitgestellt werden.By removing the personal identifiers, an anonymous data record can be generated, which can be evaluated on a non-personal basis. The personal content can be further abstracted or made anonymous by providing the content in a context-independent form.

In bevorzugten Ausführungsformen umfasst das Erzeugen des anonymisierten Datensatzes und/oder des entanonymisierten Datensatzes ein Erzeugen eines aggregierten Teildatensatzes, wobei der Teildatensatz insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz insbesondere eine kontextunabhängige Auflistung von Teilinhalten umfasst.In preferred embodiments, the creation of the anonymized data set and/or the de-anonymized data set includes the creation of an aggregated partial data set, the partial data set comprising in particular an intersection between the personal data and reference data and/or the partial data set comprising in particular a context-independent listing of partial content.

Der aggregierte Teildatensatz kann beispielsweise Inhalte umfassen, die mit vorbestimmten Referenzdaten teilweise übereinstimmen oder beispielsweise von einem neuronalen Netzwerk anhand eines Mustervergleichs mit Referenzdaten ausgewählt wurden.The aggregated partial data record can, for example, include content that partially matches predetermined reference data or that has been selected, for example, by a neural network based on a pattern comparison with reference data.

In einigen Ausführungsformen umfasst der aggregierte Teildatensatz eine stochastische Auswertung der Inhalte der personenbezogenen Daten, wie eine Häufigkeitsanalyse bestimmter Inhalte, insbesondere von phänomenbezogenen Inhalten, z.B. eine absolute oder relative Häufigkeit der Verwendung der Namen von bekannten Personen aus einer Datenbank im Kontext einer gewaltverherrlichenden Aussage. Der Kontext der Aussage kann durch Auswertung des Inhalts durch automatisierte Sprachverarbeitung automatisch von einem Computersystem ermittelt werden, bspw. mit einem neuronalen Netzwerk. Ferner kann das Computersystem bspw. Schusswaffen in digitalen Bildern automatisch erkennen und somit auf automatisierte Weise kontextunabhängige Hinweise auf strafrechtlich relevante Inhalte bereitstellen. Ein anonymisierter Teildatensatz kann in diesem Fall gefilterte anonymisierte Inhalte umfassen, in denen graphische Inhalte durch eine automatische Objekterkennung gefiltert werden.In some embodiments, the aggregated sub-dataset includes a stochastic evaluation of the content of the personal data, such as a frequency analysis of certain content, in particular phenomenon-related content, eg an absolute or relative frequency of use of the names of known people from a database in the context of a statement glorifying violence. The context of the statement can be automated by evaluating the content Speech processing can be determined automatically by a computer system, e.g. with a neural network. Furthermore, the computer system can, for example, automatically recognize firearms in digital images and thus automatically provide context-independent information on content relevant to criminal law. In this case, an anonymized partial data record can include filtered anonymized content in which graphic content is filtered by automatic object recognition.

In bevorzugten Ausführungsformen umfasst das Verfahren ein Speichern der Anfrage und/oder der Rechtfertigung, wobei die Anfrage und/oder die Rechtfertigung insbesondere irreversibel gespeichert werden können.In preferred embodiments, the method includes storing the request and/or the justification, it being possible in particular for the request and/or the justification to be stored irreversibly.

Das Speichern der Anfrage und der Rechtfertigung kann es erlauben, eine Ausweitung der Eingriffstiefe konsistent von einer Rechtfertigung abhängig zu machen und das Verfahren automatisch zu dokumentieren.Saving the request and the justification can make it possible to consistently make an extension of the depth of intervention dependent on a justification and to automatically document the procedure.

Die Rechtfertigung kann durch den Nutzer bspw. in einer Maske eingetragen werden und kann bspw. eine textbasierte Begründung oder eine Vorgangsnummer umfassen.The justification can be entered by the user in a mask, for example, and can include, for example, a text-based justification or a transaction number.

Vorzugsweise ist ein Computersystem für die Ausführung des Verfahrens eingerichtet, die Vergabe des Freigabeschlüssels von der Abgabe einer Rechtfertigung abhängig zu machen.A computer system for executing the method is preferably set up to make the allocation of the release key dependent on the submission of a justification.

Ferner kann die Vergabe des Freigabeschlüssels von einer Authorisierung abhängig sein, wie einer Nutzername-Passwort-Kombination, einer Signaturkarte und/oder einer Übereinstimmung biometrischer Merkmale des Nutzers mit authorisierten biometrischen Merkmalen (Fingerabdruck, Irisscan, Gesichtsmerkmale, usw.).Furthermore, the allocation of the release key can depend on authorization, such as a username/password combination, a signature card and/or a match between the user's biometric features and authorized biometric features (fingerprint, iris scan, facial features, etc.).

Das irreversible Speichern kann das Speichern in einer zugangsbeschränkten Datenbank mit Einfügungsrechten sein, wobei bspw. eine Löschung oder Überschreibung der Daten nur mit zusätzlichen Zugangsrechten erfolgen kann, oder kann das Speichern in einer Blockchain sein.The irreversible storage can be storage in an access-restricted database with insertion rights, where, for example, data can only be deleted or overwritten with additional access rights, or it can be storage in a blockchain.

In bevorzugten Ausführungsformen umfasst das Verfahren das Speichern des Freigabeschlüssels für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung, das Authentifizieren eines Nutzers in Bezug auf die Fallkennung und das Erzeugen eines entanonymisierten Datensatzes, welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.In preferred embodiments, the method includes storing the release key for released personal identifiers with reference to a case identifier, authenticating a user with regard to the case identifier and generating a de-anonymized data record containing the released personal identifiers, in particular by automatically removing the personal identifiers Identifiers other than the released personal identifiers in the personal data.

Die gespeicherten Freigabeschlüssel können unabhängig von den personenbezogenen Daten gespeichert werden, bspw. um einen entanonymisierten Datensatz nach Entfernung der personenbezogenen Daten aus einem Zwischenspeicher wiederherzustellen und/oder zu erweitern. Unterschiedliche Nutzer können anhand der Fallkennung auf einheitliche Freigabeschlüssel zugreifen. Das Speichern des Freigabeschlüssels kann somit eine konsistentere Arbeitsweise des Systems ermöglichen.The stored release keys can be stored independently of the personal data, e.g. to restore and/or expand a de-anonymized data set after removing the personal data from a cache. Different users can access uniform release keys based on the case ID. Storing the release key can thus allow for a more consistent operation of the system.

In bevorzugten Ausführungsformen umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle das Erhalten erster personenbezogener Daten aus einer ersten externen Datenquelle, das Erhalten zweiter personenbezogener Daten aus einer zweiten externen Datenquelle, und das Abbilden der ersten personenbezogenen Daten und der zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten.In preferred embodiments, obtaining personal data from an external data source includes obtaining first personal data from a first external data source, obtaining second personal data from a second external data source, and mapping the first personal data and the second personal data to a uniform data format to generate the personal data.

Die erste externe Datenquelle und die zweite externe Datenquelle können Datenquellen unterschiedlichen Formats sein, bzw. keine einheitliche Datenstruktur aufweisen. Das einheitliche Datenformat kann die automatische Anonymisierung der Daten begünstigen, da die Abbildung auf das einheitliche Datenformat quellenspezifische Formateigenschaften ignorieren kann. Gleichzeitig kann die Abbildung quellenspezifische personenbezogene Kennzeichen, wie die Formatierung oder Stellung von Nutzernamen, in eine einheitliche Datenbank übertragen, um die personenbezogenen Kennzeichen quellenübergreifend und/oder konsistent zu entfernen. Die resultierende einheitliche Datenstruktur mit identifizierten personenbezogenen Kennzeichen kann dann quellenübergreifend zur Anonymisierung und Analyse der personenbezogenen Daten genutzt werden, wobei einheitliche Analyse- und Anonymisierungsmodule angewandt werden können.The first external data source and the second external data source can be data sources of different formats or have no uniform data structure. The uniform data format can promote the automatic anonymization of the data, since the mapping to the uniform data format can ignore source-specific format properties. At the same time, the mapping can transfer source-specific personal identifiers, such as the formatting or position of user names, to a uniform database in order to remove the personal identifiers across sources and/or consistently. The resulting uniform data structure with identified personal identifiers can then be used across sources for anonymization and analysis of the personal data, with uniform analysis and anonymization modules being able to be used.

In bevorzugten Ausführungsformen umfasst das Verfahren das Erhalten personenbezogener Daten aus einer verwandten externen Datenquelle. Das Verfahren umfasst das automatische Auswerten der verwandten externen Datenquelle und das Bestimmen eines Ähnlichkeitswerts zwischen den Inhalten der externen Datenquelle und der verwandten externen Datenquelle und/oder das Bestimmen eines Relevanzwerts durch Auswerten des Inhalts der verwandten externen Datenquelle in Bezug auf ein Relevanzmuster, und, wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, das Anzeigen der verwandten externen Datenquelle zur Aufnahme der enthaltenen personenbezogenen Daten und Speichern eines Aufnahmeereignisses mit einer Aufnahmerechtfertigung.In preferred embodiments, the method includes obtaining personal data from a related external data source. The method includes automatically evaluating the related external data source and determining a similarity value between the content of the external data source and the related external data source and/or determining a relevance value by evaluating the content of the related external data source in relation to a relevance pattern, and if the similarity score and/or the relevance score is above a threshold, displaying the related external data source for recording the contained personal data and storing a recording event with a recording justification.

Anhand von Inhaltsbeziehungen können weitere Datenquellen automatisch identifiziert werden, beispielsweise für den Fall von gleichzeitig abonnierten Informationskanälen von registrierten Nutzern der externen Datenquelle. Der Ähnlichkeitswert kann anhand einer Übereinstimmung der Nutzer oder anhand von Beziehungen zwischen den externen Datenquellen ermittelt werden. Der Schwellwert für den so bestimmten Ähnlichkeitswert kann eine Funktion der relativen und/oder absoluten Übereinstimmung der Nutzer umfassen. Der Relevanzwert kann phänomenbezogen sein und kann anhand einer semantischen Analyse der verwandten externen Datenquelle bestimmt werden.Based on content relationships, further data sources can be identified automatically, for example in the case of information channels subscribed to at the same time by registered users of the external data source. The similarity value can be determined based on a match between the users or based on relationships between the external data sources. The threshold value for the similarity value determined in this way can comprise a function of the relative and/or absolute agreement of the users. The relevance score may be phenomenon-related and may be determined based on a semantic analysis of the related external data source.

Überschreiten der Ähnlichkeitswert und/oder der Relevanzwert einen Schwellwert, kann die Datenquelle zur Aufnahme vorgeschlagen werden. Auf diese Weise kann die Auswahl mehrerer verwandter externer Datenquellen maschinell gefiltert werden, um eine geführte Mensch-Maschinen-Interaktion auf anonymisierte Weise zu verbessern.If the similarity value and/or the relevance value exceed a threshold value, the data source can be suggested for inclusion. In this way, the selection of multiple related external data sources can be machine-filtered to enhance guided human-machine interaction in an anonymous manner.

Gemäß einem zweiten Aspekt betrifft die Erfindung ein Datenverarbeitungssystem zur Bereitstellung entanonymisierter personenbezogener Daten. Das System umfasst eine zugangsbeschränkte Datenbank, ein automatisiertes Anonymisierungsmodul und ein Zugriffsmodul. Die zugangsbeschränkte Datenbank ist eingerichtet zum Erhalten personenbezogener Daten aus einer externen Datenquelle und zum Speichern der personenbezogenen Daten. Das automatisierte Anonymisierungsmodul hat Zugriff auf die zugangsbeschränkte Datenbank und ist eingerichtet, personenbezogene Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters zu identifizieren, die personenbezogenen Kennzeichen in den personenbezogenen Daten automatisch zu entfernen, um einen anonymisierten Datensatz zu erzeugen, und den anonymisierten Datensatz bereitzustellen. Das Zugriffsmodul ist eingerichtet, eine Anfrage und eine Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenes Kennzeichen in dem anonymisierten Datensatz zu erhalten, und einen Freigabeschlüssel auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen zu erzeugen. Das automatisierte Anonymisierungsmodul ist ferner eingerichtet, den Freigabeschlüssel zu erhalten und einen entanonymisierten Datensatz bereitzustellen, wobei das Anonymisierungsmodul eingerichtet ist, das freizugebende personenbezogene Kennzeichen in den personenbezogenen Daten zu identifizieren, und den entanonymisierten Datensatz zu erzeugen, welcher das freizugebende personenbezogene Kennzeichen enthält.According to a second aspect, the invention relates to a data processing system for providing de-anonymized personal data. The system includes a restricted database, an automated anonymization module and an access module. The restricted database is set up to receive personal data from an external data source and to store the personal data. The automated anonymization module has access to the restricted database and is set up to identify personal identifiers in the personal data based on a reference data structure and/or a reference data pattern, to automatically remove the personal identifiers in the personal data to generate an anonymized data set, and provide the anonymized data set. The access module is configured to receive a request and a justification for releasing personal data related to a personal identifier to be shared in the anonymized data set, and to generate a sharing key based on the request and the justification related to the personal identifier to be shared. The automated anonymization module is also set up to receive the release key and to provide a de-anonymized data set, the anonymization module being set up to identify the personal identifier to be released in the personal data and to generate the de-anonymized data set containing the personal identifier to be released.

Die zugriffsbeschränkte Datenbank kann die personenbezogenen Daten zwischenspeichern und kann die personenbezogenen Daten nach einer Löschungsfirst automatisch löschen.The access-restricted database can temporarily store the personal data and can automatically delete the personal data after a deletion period.

In bevorzugten Ausführungsformen umfasst das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, wobei das Anonymisierungsmodul eingerichtet ist, die biometrischen Merkmale in den personenbezogenen Daten unkenntlich zu machen.In preferred embodiments, the reference data pattern includes biometric features, in particular facial features, with the anonymization module being set up to make the biometric features in the personal data unrecognizable.

In bevorzugten Ausführungsformen umfasst die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle, wobei das Anonymisierungsmodul eingerichtet ist, die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie als personenbezogene Kennzeichen zu identifizieren.In preferred embodiments, the reference data structure includes an information hierarchy of the external data source, with the anonymization module being set up to identify the contents of a predetermined hierarchy level of the information hierarchy as personal identifiers.

In bevorzugten Ausführungsformen ist das System eingerichtet, erste personenbezogener Daten aus einer ersten externen Datenquelle zu erhalten, zweite personenbezogene Daten aus einer zweiten externen Datenquelle zu erhalten und die ersten personenbezogenen Daten und die zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten abzubilden.In preferred embodiments, the system is set up to receive first personal data from a first external data source, to receive second personal data from a second external data source and to map the first personal data and the second personal data to a uniform data format for generating the personal data.

In bevorzugten Ausführungsformen ist das Anonymisierungsmodul eingerichtet, die personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten zu entfernen, um den entanonymisierten Datensatz zu erzeugen.In preferred embodiments, the anonymization module is set up to remove the personal identifiers, with the exception of the personal identifier to be released, in the personal data in order to generate the de-anonymized data record.

In bevorzugten Ausführungsformen ist das Zugriffsmodul eingerichtet, die Anfrage und/oder die Rechtfertigung zu speichern, und die Anfrage und/oder die Begründung insbesondere irreversibel zu speichern.In preferred embodiments, the access module is set up to store the request and/or the justification, and in particular to irreversibly store the request and/or the justification.

In bevorzugten Ausführungsformen ist das Zugriffsmodul ferner eingerichtet, den Freigabeschlüssel für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung zu speichern, einen Nutzers in Bezug auf die Fallkennung zu authentifizieren, und einen entanonymisierten Datensatz zu erzeugen, welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.In preferred embodiments, the access module is also set up to store the release key for released personal identifiers with reference to a case identifier, to authenticate a user with regard to the case identifier, and to generate a de-anonymized data record containing the released personal identifiers, in particular by a automatic removal of the personal identifiers except for the released personal identifiers in the personal data.

In bevorzugten Ausführungsformen ist das Anonymisierungsmodul eingerichtet, einen aggregierten Teildatensatzes zu erzeugen, wobei der Teildatensatz insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz insbesondere eine kontextunabhängige Auflistung von Teilinhalten umfasst.In preferred embodiments, the anonymization module is set up to generate an aggregated partial data set, the partial data set particularly comprising an intersection between the personal data and reference data and/or the partial data set particularly comprising a context-independent listing of partial contents.

In bevorzugten Ausführungsformen ist das System ferner eingerichtet, personenbezogene Daten aus einer verwandten externen Datenquelle zu erhalten. Das System kann dazu eingerichtet sein, die verwandte externe Datenquelle automatisch auszuwerten und einen Ähnlichkeitswerts zwischen den Inhalten der externen Datenquelle und der verwandten externen Datenquelle und/oder einen Relevanzwert durch Auswerten des Inhalts der verwandten externen Datenquelle in Bezug auf ein Relevanzmuster zu bestimmen, und, wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, die verwandte externe Datenquelle zur Aufnahme der enthaltenen personenbezogenen Daten anzuzeigen und bei einer Aufnahme ein Aufnahmeereignis mit einer Aufnahmerechtfertigung zu speichern.In preferred embodiments, the system is further configured to obtain personally identifiable information from a related external data source. The system may be configured to automatically evaluate the related external data source and determine a similarity score between the content of the external data source and the related external data source and/or a relevance score by evaluating the content of the related external data source with respect to a relevance pattern, and, if the similarity score and/or relevance score is above a threshold, display the related external data source for ingestion of the included personal data and, upon ingestion, store an ingestion event with an ingestion justification.

Das System kann weiterhin so konfiguriert sein, dass es die Verfahrensschritte der verschiedenen zuvor beschriebenen Ausführungsformen des Verfahrens gemäß dem ersten Aspekt implementiert und/oder Mittel oder Vorrichtungen umfasst, welche so konfiguriert sind, dass sie die Verfahrensschritte der verschiedenen zuvor beschriebenen Ausführungsformen des Verfahrens gemäß dem ersten Aspekt implementieren.The system can further be configured in such a way that it implements the method steps of the various previously described embodiments of the method according to the first aspect and/or comprises means or devices which are configured in such a way that they implement the method steps of the various previously described embodiments of the method according to the implement first aspect.

Gemäß einem dritten Aspekt betrifft die Erfindung ein Computerprogramm oder Computerprogrammprodukt mit maschinenlesbaren Instruktionen, welche, wenn sie auf einer Verarbeitungseinheit ausgeführt werden, ein Verfahren nach dem ersten Aspekt ausführen oder ein System nach dem zweiten Aspekt implementieren.According to a third aspect, the invention relates to a computer program or computer program product with machine-readable instructions which, when executed on a processing unit, execute a method according to the first aspect or implement a system according to the second aspect.

Figurenlistecharacter list

Die erfindungsgemäßen Eigenschaften und die verschiedenen Vorteile der Verfahren und der Vorrichtungen erschließen sich am besten aus einer detaillierten Beschreibung bevorzugter Ausführungsformen mit Verweis auf die beiliegenden Zeichnungen, wobei:

  • 1 ein Computersystem verbunden mit einer externen Datenquelle gemäß einem Beispiel veranschaulicht;
  • 2 ein Verfahren zur Bereitstellung von anonymisierten Daten gemäß einem Beispiel veranschaulicht;
  • 3 ein Verfahren zur Bereitstellung von teilanonymisierten Daten gemäß einem Beispiel veranschaulicht; und
  • 4 ein weiteres Beispiel eines Computersystems für den eingeschränkten Zugriff auf personenbezogene Daten veranschaulicht.
The characteristics of the invention and the various advantages of the methods and devices are best understood from a detailed description of preferred embodiments with reference to the accompanying drawings, in which:
  • 1 illustrates a computer system connected to an external data source according to an example;
  • 2 illustrates a method for providing anonymized data according to an example;
  • 3 illustrates a method for providing partially anonymized data according to an example; and
  • 4 illustrates another example of a computer system for restricted access to personal data.

1 veranschaulicht ein schematisches Computersystem 10 verbunden mit einer externen Datenquelle 12 gemäß einem Beispiel. Das System umfasst einen Server 14, einen Client 16 und eine Datenbank 18, wobei der Server 14 mit der externen Datenquelle 12 verbunden ist und anonymisierte und/oder teilanonymisierte Datensätze 20 für den Client 16 bereitstellt. 1 12 illustrates a schematic computer system 10 connected to an external data source 12 according to an example. The system includes a server 14, a client 16 and a database 18, the server 14 being connected to the external data source 12 and providing anonymous and/or partially anonymous data sets 20 for the client 16.

Die externe Datenquelle 12 kann über eine Datenleitung, wie das Internet, mit dem Server 14 verbunden sein und über eine Schnittstelle Inhalte bereitstellen. Die externe Datenquelle 12 kann aus einem Teil des über die Schnittstelle publizierten Inhalts bestehen, wie einem bestimmten Publikationskanal eines bestimmten Nutzers oder einer bestimmten Nutzergruppe. Die Schnittstelle kann eine API sein und/oder kann eine Browser-Schnittstelle sein, um Inhalte, welche personenbezogene Kennzeichen aufweisen können, bereitzustellen. Der Server 14 kann auf die Inhalte der externen Datenquelle 12 zugreifen und unter anderem personenbezogene Daten auslesen, wie beispielsweise öffentliche Äußerungen von individuellen Nutzern auf einer Plattform eines sozialen Netzwerks. Der Zugriff auf die Inhalte kann über einen automatisierten Browser erfolgen und/oder kann über Anfragen an die API-Schnittstelle erfolgen.The external data source 12 can be connected to the server 14 via a data line, such as the Internet, and can provide content via an interface. The external data source 12 can consist of a part of the content published via the interface, such as a specific publication channel of a specific user or a specific user group. The interface may be an API and/or may be a browser interface to provide content that may include personal identifiers. The server 14 can access the content of the external data source 12 and, among other things, read personal data, such as public statements by individual users on a social network platform. Content may be accessed via an automated browser and/or may be accessed via requests to the API interface.

Die personenbezogenen Daten, welche der Server 14 aus der externen Datenquelle 12 ausliest, können in dem Server 14 zwischengespeichert werden oder in der Datenbank 18 abgelegt werden, welche eine zugriffsbeschränkte Datenbank 18 sein kann.The personal data which the server 14 reads from the external data source 12 can be buffered in the server 14 or stored in the database 18, which can be a database 18 with restricted access.

Der Server 14 kann die personenbezogenen Daten automatisch analysieren, um personenbezogene Kennzeichen zu identifizieren und eine automatische Anonymisierung der personenbezogenen Daten vorzunehmen. Ein anonymisierter Datensatz 20 kann dann an den Client 16 bereitgestellt werden, welcher eine Schnittstelle zur menschenlesbaren Anzeige des anonymisierten Datensatzes 20 aufweisen kann.The server 14 can automatically analyze the personal data in order to identify personal identifiers and to automatically anonymize the personal data. An anonymized data record 20 can then be provided to the client 16, which can have an interface for displaying the anonymized data record 20 in a human-readable manner.

2 veranschaulicht ein Verfahren zur Bereitstellung von anonymisierten Daten gemäß einem Beispiel. Das Verfahren umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle (S10) und das automatische Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters (S12). Das Verfahren umfasst ferner das automatische Erzeugen eines anonymisierten Datensatzes 20 umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten (S14) und das Bereitstellen des anonymisierten Datensatzes 20 (S16). 2 illustrates a method for providing anonymized data according to an example. The method includes obtaining personal data from an external data source (S10) and automatically identifying personal identifiers in the personal data based on a reference ference data structure and / or a reference data pattern (S12). The method also includes the automatic generation of an anonymized data set 20 including automatic removal of the personal identifiers in the personal data (S14) and the provision of the anonymized data set 20 (S16).

Ein Server 14 kann die personenbezogenen Kennzeichen in den personenbezogenen Daten anhand quellenspezifischer Datenstrukturen oder Muster identifizieren. Beispielsweise kann der Server 14 eine Antwort auf eine API-Anfrage erhalten und Nutzernamen anhand der Datenstruktur der Antwort ermitteln und/oder kann entsprechende Nutzernamen anhand der Stellung und/oder der Formatierung von Einträgen in einem Publikationsformat, wie eine HTML-basierte Webseite, identifizieren. Ferner kann der Server 14 in audiovisuellen Beiträgen personenbezogene Kennzeichen, wie biometrische Merkmale (Sprachmuster, Gesichtsmerkmale, etc.), automatisch identifizieren.A server 14 can identify the personal identifiers in the personal data using source-specific data structures or patterns. For example, server 14 may receive a response to an API request and determine usernames based on the response's data structure and/or may identify corresponding usernames based on the placement and/or formatting of entries in a publication format, such as an HTML-based web page. Furthermore, the server 14 can automatically identify personal identifiers, such as biometric features (speech pattern, facial features, etc.) in audiovisual contributions.

Die identifizierten personenbezogenen Kennzeichen können anschließend aus entsprechenden Feldern der einheitlichen Datenstruktur entfernt werden und können zusätzlich zur Anonymisierung der Inhalte verwendet werden. Beispielsweise kann der Server 14 anhand der identifizierten personenbezogenen Kennzeichen die personenbezogenen Daten anonymisieren, indem der Server 14 die personenbezogenen Kennzeichen in den personenbezogenen Daten entfernt, bspw. überlagert und/oder ersetzt, wie durch Pseudonymisierung von Nutzernamen und Schwärzung von biometrischen Gesichtsmerkmalen in Bildern.The identified personal identifiers can then be removed from the corresponding fields of the uniform data structure and can also be used to anonymize the content. For example, the server 14 can use the identified personal identifiers to anonymize the personal data by the server 14 removing, e.g. overlaying and/or replacing the personal identifiers in the personal data, such as by pseudonymizing user names and blackening biometric facial features in images.

Der anonymisierte Datensatz 20 kann in der Datenbank 18 gespeichert werden und/oder kann zur Bereitstellung des anonymisierten Datensatzes 20 an einen Client 16 übermittelt werden.The anonymized data set 20 can be stored in the database 18 and/or can be transmitted to a client 16 in order to provide the anonymized data set 20 .

In einigen Ausführungsformen werden personenbezogene Daten aus der externen Datenquelle 12 von dem Server 14 zwischengespeichert und nur anonymisierte und/oder teilanonymisierte Datensätze 20 in der Datenbank 18 gespeichert. Ferner können aggregierte Teilinhalte der anonymisierten und/oder teilanonymisierten Datensätze 20, welche in der Datenbank 18 gespeichert werden, an den Client 16 übertragen werden, um dem Client 16 einen zusätzlich anonymisierten und abstrahierten Datensatz 20 bereitzustellen. Der Server 14 kann zu diesem Zweck die anonymisierten und/oder teilanonymisierten Inhalte aggregieren, bspw. durch Bereitstellen einer statistischen Synthese der Inhalte nach Aktivitätszeiträumen und/oder nach automatisch erfasstem semantischen Gehalt, und einen aggregierten Datensatz 20 mit kontextunabhängigen Daten bereitstellen.In some embodiments, personal data from the external data source 12 is cached by the server 14 and only anonymized and/or partially anonymized data records 20 are stored in the database 18 . Furthermore, aggregated partial contents of the anonymized and/or partially anonymized data records 20, which are stored in the database 18, can be transmitted to the client 16 in order to provide the client 16 with an additionally anonymized and abstracted data record 20. For this purpose, the server 14 can aggregate the anonymized and/or partially anonymized content, for example by providing a statistical synthesis of the content according to periods of activity and/or according to automatically recorded semantic content, and provide an aggregated data set 20 with context-independent data.

In einigen Ausführungsformen werden die personenbezogenen Daten aus der externen Datenquelle 12 in der Datenbank 18 nach einer vorbestimmten Löschungsfrist automatisch gelöscht und/oder mit einer unterschiedlichen Zugriffsbeschränkung wie anonymisierte und/oder teilanonymisierte Datensätze 20 gespeichert. Fordert ein Nutzer teilanonymisierte Datensätze 20 an, in denen zusätzliche personenbezogene Kennzeichen enthalten sind, können diese Daten aus externen Datenquelle 12 und/oder aus der (zugriffsbeschränkten) Datenbank 18 nacherhoben werden.In some embodiments, the personal data from the external data source 12 in the database 18 is automatically deleted after a predetermined deletion period and/or stored with a different access restriction such as anonymized and/or partially anonymized data records 20 . If a user requests partially anonymous data sets 20 containing additional personal identifiers, this data can be subsequently collected from an external data source 12 and/or from the (access-restricted) database 18 .

3 veranschaulicht ein Verfahren zur Bereitstellung von teilanonymisierten Daten gemäß einem Beispiel. Das Verfahren umfasst das Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenen Kennzeichen in dem anonymisierten Datensatz (S18). Das Verfahren umfasst ferner das Erzeugen eines Freigabeschlüssels auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen (S20) und das automatische Erzeugen eines teilanonymisierten Datensatzes 20 basierend auf dem Freigabeschlüssel, wobei der teilanonymisierte Datensatz das freizugebende personenbezogene Kennzeichen enthält (S22). Schließlich umfasst das Verfahren das Bereitstellen des teilanonymisierten Datensatzes 20 (S24). 3 illustrates a method for providing partially anonymized data according to an example. The method includes receiving a request and a justification for releasing personal data on a personal identifier to be released in the anonymized data set (S18). The method further includes generating a release key on the basis of the request and the justification in relation to the personal identifier to be released (S20) and automatically generating a partially anonymised data record 20 based on the release key, the partially anonymous data record containing the personal identifier to be released (S22 ). Finally, the method includes providing the partially anonymized data set 20 (S24).

Der Client 16 kann bspw. Zugriff auf vollständige Nachrichteninhalte in einem bestimmten Aktivitätszeitraum anfordern und die Anfrage in einer Anfragemaske mit einer zeitlichen Nähe zu einem bestimmten Ereignis rechtfertigen. Der Server 14 kann als Antwort auf diese Anfrage einen teilanonymisierten Datensatz 20 erstellen, welcher vollständige Nachrichteninhalte für den angefragten Aktivitätszeitraum umfasst, wobei personenbezogene Kennzeichen, wie Nutzernamen, in dem teilanonymisierten Datensatz 20 anonymisiert bleiben. Zum Beispiel kann der Server 14 anonymisierte Daten aus der Datenbank 18 aufrufen und vollständige Nachrichteninhalte auswählen, die an den Client 16 übertragen werden.For example, the client 16 can request access to full message content in a specific activity period and justify the request in a request mask with a temporal proximity to a specific event. In response to this request, the server 14 can create a partially anonymous data record 20 which includes complete message content for the requested activity period, personal identifiers such as user names remaining anonymous in the partially anonymous data record 20 . For example, server 14 may retrieve anonymized data from database 18 and select full message content to transmit to client 16.

In der Folge kann ein Nutzer des Client 16 ein bestimmtes personenbezogenes Kennzeichen, wie einen Nutzernamen, anfordern, welches einer Nachricht zugeordnet ist, die den Verdacht einer schweren Straftat begründet. Die Anfrage kann beispielsweise durch eine gerichtliche Anordnung gerechtfertigt sein.As a result, a user of the client 16 can request a specific personal identifier, such as a user name, which is assigned to a message that justifies the suspicion of a serious criminal offense. For example, the request may be justified by a court order.

Der Server 14 kann einen Freigabeschlüssel erzeugen und auf personenbezogene Daten in der zugriffsbeschränkten Datenbank 18 zugreifen und/oder kann personenbezogene Daten von der externen Datenquelle 12 anfordern, um das freizugebende personenbezogene Kennzeichen direkt auszulesen, oder um das freizugebende personenbezogene Kennzeichens in den personenbezogenen Daten zu identifizieren und die personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten zu entfernen. Der entsprechend teilanonymisierte Datensatz 20 kann anschließend an den Client 16 übertragen werden.The server 14 can generate a release key and access personal data in the restricted database 18 and/or can request personal data from the external data source 12 in order to unlock the data read out personal identifiers directly, or to identify the personal identifier to be released in the personal data and to remove the personal identifiers except for the personal identifier to be released in the personal data. The correspondingly partially anonymized data set 20 can then be transmitted to the client 16 .

Die Auswertung und Anonymisierung der personenbezogenen Daten kann serverseitig erfolgen, um einen Eingriff des Clients 16 auf die personenbezogenen Daten zu verhindern. Vorzugsweise ist der Server 14 modular, sodass Teilaufgaben zur Auswertung und Anonymisierung kontextunabhängig vergeben und in einer internen oder externen Servercloud ausgeführt werden können.The personal data can be evaluated and made anonymous on the server side in order to prevent the client 16 from accessing the personal data. The server 14 is preferably modular, so that subtasks for evaluation and anonymization can be assigned independently of the context and executed in an internal or external server cloud.

4 veranschaulicht ein schematisches Computersystem 10 für den eingeschränkten Zugriff auf personenbezogene Daten gemäß einem weiteren Beispiel. Ein Server 14 greift auf eine externe Datenquelle 12 zu und stellt anonymisierte und/oder teilanonymisierte Datensätze 20 für einen Client 16 bereit. Der Server umfasst ein Eingangsmodul 22 zum Erhalten der personenbezogenen Daten von der externen Datenquelle 12. Die personenbezogenen Daten können einem Anonymisierungsmodul 24 des Servers 14 bereitgestellt werden, welches personenbezogene Kennzeichen in den personenbezogenen Daten identifiziert und diese entfernt, um anonymisierte Inhalte zu erstellen. Die anonymisierten Inhalte können einem Zugriffsmodul 26 bereitgestellt werden, welches diese als Teil von anonymisierten und/oder teilanonymisierten Datensätzen 20 an den Client bereitstellen kann. Ferner kann ein Aggregationsmodul 28 die personenbezogenen Daten oder anonymisierte und/oder teilanonymisierte Inhalte nach vorbestimmten Kriterien maschinell auswerten, um kontextunabhängige aggregierte Inhalte und/oder Analyseresultate dem Zugriffsmodul 26 bereitzustellen. Die aggregierten Inhalte und/oder Analyseresultate können als Teil der anonymisierten und/oder teilanonymisierten Datensätze 20 an den Client 16 übermittelt werden. 4 12 illustrates a schematic computer system 10 for restricted access to personally identifiable information according to another example. A server 14 accesses an external data source 12 and provides anonymized and/or partially anonymized data sets 20 for a client 16 . The server includes an input module 22 for receiving the personal data from the external data source 12. The personal data can be provided to an anonymization module 24 of the server 14, which identifies personal identifiers in the personal data and removes them to create anonymized content. The anonymized content can be made available to an access module 26, which can make it available to the client as part of anonymized and/or partially anonymized data records 20. Furthermore, an aggregation module 28 can automatically evaluate the personal data or anonymized and/or partially anonymized content according to predetermined criteria in order to provide the access module 26 with context-independent aggregated content and/or analysis results. The aggregated content and/or analysis results can be transmitted to the client 16 as part of the anonymized and/or partially anonymized data records 20 .

Vorzugsweise werden die Module und/oder deren Funktionen als unabhängige Container realisiert, welche in einer internen und/oder einer externen Cloud ausgeführt werden können. Die Containerisierung der Aufgaben kann die maschinenseitige kontextunabhängige Auswertung und Anonymisierung der personenbezogenen Daten erlauben und die Datensicherheit somit weiter verbessern. Entsprechend ist der Server 14 auch nicht auf eine einzelne Recheneinheit eingeschränkt zu verstehen, sondern kann in Ausführungsformen vielmehr aus einer Mehrzahl von Recheneinheiten bestehen.The modules and/or their functions are preferably implemented as independent containers which can be executed in an internal and/or an external cloud. The containerization of the tasks can allow the machine-side context-independent evaluation and anonymization of the personal data and thus further improve data security. Correspondingly, the server 14 is also not to be understood as being restricted to a single computing unit, but rather can consist of a plurality of computing units in embodiments.

Das Eingangsmodul kann auf die externe Datenquelle 12 über eine Zugangsberechtigung, wie bspw. eine Nutzername-Passwort-Kombination, zugreifen. Eine Mehrzahl von Zugangsberechtigungen kann in dem Computersystem 10 hinterlegt sein und kann zum Erhalten von personenbezogenen Daten aus einer Mehrzahl verschiedener externer Datenquellen 12 verwendet werden.The input module can access the external data source 12 via access authorization, such as a username and password combination. A plurality of access authorizations can be stored in the computer system 10 and can be used to obtain personal data from a plurality of different external data sources 12 .

Das Eingangsmodul 22 kann die personenbezogenen Daten der externen Datenquelle 12 auf ein einheitliches Datenformat abbilden, indem es beispielsweise eine quellenspezifische Abbildung vornimmt. Zum Beispiel kann für eine bestimmte Datenquelle, wie ein bestimmtes soziales Netzwerk, eine API-Schnittstelle bereitgestellt sein, welche die Inhalte der externen Datenquelle 12 auf das einheitliche Datenformat abbildet. Ferner kann das Eingangsmodul 22 durch einen automatisierten Browser Informationen einer publizierten Webseite automatisiert auswerten und auf das einheitliche Datenformat abbilden (sog. Web Scraping). Vorzugsweise umfasst das einheitliche Datenformat ein personenbezogenes Datenfeld, wie einen dem publizierten Teilinhalt zugeordneten Nutzernamen.The input module 22 can map the personal data from the external data source 12 to a uniform data format, for example by performing a source-specific mapping. For example, an API interface can be provided for a specific data source, such as a specific social network, which maps the contents of the external data source 12 to the uniform data format. Furthermore, the input module 22 can automatically evaluate information from a published website using an automated browser and map it to the uniform data format (so-called web scraping). The uniform data format preferably includes a personal data field, such as a user name assigned to the published partial content.

Die in das einheitliche Datenformat gegliederten personenbezogenen Daten können anschließend an das Anonymisierungsmodul 24 weitergeleitet werden, welches personenbezogene Kennzeichen in den personenbezogenen Daten automatisch entfernt. Das Anonymisierungsmodul kann die personenbezogenen Kennzeichen, welche das Eingangsmodul 22 identifiziert hat, löschen und kann darüber hinaus entsprechende Inhalte in den personenbezogenen Daten entfernen oder durch Platzhalter ersetzen. Ferner kann das Anonymisierungsmodul 24 durch Mustererkennung weitere personenbezogenen Kennzeichen, wie z.B. E-Mail-Adressen, biometrische Merkmale, Adressen, usw., identifizieren und zur Erzeugung eines anonymisierten Datensatzes 20 entfernen. Dabei kann das Anonymisierungsmodul 24 freigegebene personenbezogene Kennzeichen von der Entfernung ausschließen. Beispielsweise kann der Server 14 freizugebende oder freigegebene personenbezogenen Kennzeichen in einer Datenbank 18 hinterlegen, und das Anonymisierungsmodul 24 kann die freigegebenen oder freizugebenden personenbezogenen Kennzeichen von der Entfernung ausnehmen, um teilanonymisierte Datensätze 20 bereitzustellen.The personal data broken down into the uniform data format can then be forwarded to the anonymization module 24, which automatically removes personal identifiers in the personal data. The anonymization module can delete the personal identifiers that the input module 22 has identified and can also remove corresponding content in the personal data or replace it with placeholders. Furthermore, the anonymization module 24 can identify further personal identifiers, such as e-mail addresses, biometric features, addresses, etc., by pattern recognition and remove them to generate an anonymized data record 20. In this case, the anonymization module 24 can exclude released personal identifiers from the removal. For example, the server 14 can store personal identifiers that are or are to be released in a database 18 , and the anonymization module 24 can exclude the personal identifiers that are released or are to be released from the removal in order to provide partially anonymized data records 20 .

In einigen Ausführungsformen kann der Server 14 die identifizierten personenbezogenen Kennzeichen, die keine freigegebenen oder freizugebenden personenbezogenen Kennzeichen sind, als Funktionsargument eines anonymisierenden Filters zwischenspeichern und den anonymisierenden Filter auf die personenbezogenen Daten anwenden. Der Filter kann als Container in einer internen oder externen Servercloud die personenbezogenen Daten kontextunabhängig anonymisieren und das Ergebnis der Anonymisierung an einen internen Datenmanager des Anonymisierungsmoduls 24 zurückgeben.In some embodiments, the server 14 may cache the identified personal identifiers that are not shared or to be shared as a function argument of an anonymizing filter and apply the anonymizing filter to the personal data. The filter can be used as a container in an internal or external anonymize the personal data independently of the context in a server cloud and return the result of the anonymization to an internal data manager of the anonymization module 24 .

In einigen Ausführungsformen kann das Anonymisierungsmodul 24 ein Abbild einer Person als freizugebendes personenbezogenes Kennzeichen erhalten und kann anschließend die Person von der Unkenntlichmachung in den personenbezogenen Daten ausschließen. Zum Beispiel kann das Anonymisierungsmodul 24 biometrische Merkmale in Bildern automatisch identifizieren und kann Merkmalsvektoren für die identifizierten biometrischen Merkmale in den personenbezogenen Daten erzeugen.In some embodiments, the anonymization module 24 may receive an image of a person as a personal identifier to be released and may then exclude the person from being redacted in the personal data. For example, the anonymization module 24 can automatically identify biometrics in images and can generate feature vectors for the identified biometrics in the personal data.

Das Anonymisierungsmodul 24 kann bspw. anhand einer Abstandsmetrik feststellen, ob ein Abstand zwischen dem Merkmalsvektor des Abbilds der Person und den Merkmalsvektoren der biometrischen Merkmale in den personenbezogenen Daten unterhalb eines vorbestimmten Schwellenwerts liegt. Im Falle einer derart bestimmten Übereinstimmung kann das Anonymisierungsmodul 24 in den personenbezogenen Daten das entsprechende biometrische Merkmal von der Unkenntlichmachung ausnehmen, während andere identifizierte biometrische Merkmale, bspw. in dem gleichen Bild, unkenntlich gemacht werden können (z.B. verpixelt, geschwärzt, usw.).The anonymization module 24 can, for example, use a distance metric to determine whether a distance between the feature vector of the image of the person and the feature vectors of the biometric features in the personal data is below a predetermined threshold value. In the event of a match determined in this way, the anonymization module 24 in the personal data can exclude the corresponding biometric feature from being made unrecognizable, while other identified biometric features, e.g. in the same image, can be made unrecognizable (e.g. pixelated, blacked out, etc.).

Das Zugriffsmodul 26 kann die anonymisierten und/oder teilanonymisierten Datensätze 20 von dem Anonymisierungsmodul 24 erhalten und, bspw. bei entsprechender Rechtfertigung, diese an den Client 16 weiterleiten. Ferner kann das Zugriffsmodul 26 Anfragen des Client 16 zu personenbezogenen Kennzeichen erhalten und auf der Grundlage der Anfrage und der Rechtfertigung Freigabeschlüssel zur Freigabe von personenbezogenen Kennzeichen erstellen. Zum Beispiel kann das Zugriffsmodul 26 freizugebende personenbezogene Kennzeichen in der Datenbank 18 mit einer Rechtfertigung oder einer Authorisierung als Freigabeschlüssel hinterlegen, sodass die freigegebenen personenbezogenen Kennzeichen von der Anonymisierung durch das Anonymisierungsmodul 24 konsistent und und/oder quellenübergreifend ausgenommen werden.The access module 26 can receive the anonymized and/or partially anonymized data records 20 from the anonymization module 24 and, for example with appropriate justification, forward them to the client 16 . Further, the access module 26 may receive requests from the client 16 for personal identifiers and based on the request and the justification, generate enable keys for enabling personal identifiers. For example, the access module 26 can store personal identifiers to be released in the database 18 with a justification or an authorization as a release key, so that the released personal identifiers are consistently and/or excluded from the anonymization by the anonymization module 24 and across sources.

Vorzugsweise werden die anonymisierten und/oder teilanonymisierten Datensätze 20 ohne eine entsprechende Rechtfertigung nicht vollständig an den Client 16 übermittelt, sondern es werden aggregierte Datensätze 20 und anonymisierte und/oder teilanonymisierte Teildatensätze 20, welche angefragte Teile der anonymisierten und/oder teilanonymisierten Datensätze 20 enthalten, übermittelt.Preferably, the anonymized and/or partially anonymized data records 20 are not transmitted in full to the client 16 without a corresponding justification, rather aggregated data records 20 and anonymized and/or partially anonymized partial data records 20, which contain requested parts of the anonymized and/or partially anonymized data records 20, transmitted.

Zur Bereitstellung von aggregierten Datensätzen 20 kann das Zugriffsmodul 26 aggregierte Inhalte von dem Aggregationsmodul 28 erhalten. Das Aggregationsmodul 28 kann die anonymisierten und/oder teilanonymisierten Datensätze 20 gemäß vorbestimmten Kriterien analysieren und Analyseresultate für das Zugriffsmodul 26 bereitstellen. In einigen Ausführungsformen kann das Aggregationsmodul 28 personenbezogene Daten vor einer Anonymisierung erhalten und kann Analyseergebnisse ohne Personenbezug auf der Grundlage der personenbezogenen Daten erstellen und bereitstellen.Access module 26 may receive aggregated content from aggregation module 28 to provide aggregated data sets 20 . The aggregation module 28 can analyze the anonymized and/or partially anonymized data records 20 according to predetermined criteria and provide analysis results for the access module 26 . In some embodiments, the aggregation module 28 may receive personal data prior to anonymization and may generate and provide non-personal analysis results based on the personal data.

In einigen Ausführungsformen kann das Aggregationsmodul 28 Textklassifikationsmodule oder Objekterkennungsmodule ausführen, um Inhalte aus sozialen Medien anhand von Referenzdaten zu klassifizieren (bspw. in gewaltaffirmative Äußerungen) oder um bestimmte Bildmerkmale, wie die Präsenz von Waffen oder verfassungsfeindlichen Symbolen, automatisch zu identifizieren. Das Aggregationsmodul 28 kann anschließend Kennwerte der Textklassifikation oder Inzidenzzahlen für bestimmte zu identifizierende Objekte als kontextunabhängige Synthese an das Zugriffsmodul 26 bereitstellen. In einigen Ausführungsformen kann die Objekterkennung auch Buchstaben umfassen, und das Aggregationsmodul 28 kann semantische Inhalte von Bildern in die Textklassifikation einfließen lassen.In some embodiments, the aggregation module 28 may run text classification modules or object recognition modules to classify social media content based on reference data (e.g., into violence-affirmative utterances) or to automatically identify certain image features, such as the presence of weapons or anti-constitutional symbols. The aggregation module 28 can then provide characteristic values of the text classification or incidence numbers for specific objects to be identified as a context-independent synthesis to the access module 26 . In some embodiments, object recognition may also include letters, and aggregation module 28 may incorporate semantic content from images into text classification.

Auf der Grundlage der Analyse können aggregierte Datensätze 20 erstellt werden, welche eine Mehrzahl von parallelen Analysen, wie Textklassifikation und Objekterkennung, enthalten können. Die aggregierten Datensätze 20 können anschließend an den Client 16 übermittelt werden, und ein Nutzer kann anhand der kontextunabhängigen aggregierten Datensätze 20 den anonymisierten Inhalt der externen Datenquelle 12 auswerten.Based on the analysis, aggregated data sets 20 can be created, which can contain a plurality of parallel analyzes such as text classification and object recognition. The aggregated data sets 20 can then be transmitted to the client 16, and a user can use the context-independent aggregated data sets 20 to evaluate the anonymized content of the external data source 12.

Ein Nutzer kann auf der Grundlage von kontextunabhängigen aggregierten Datensätzen 20 zunächst anonymisierte Teildatensätze 20 anfordern und auf deren Grundlage freizugebende personenbezogene Kennzeichen identifizieren. Das Zugriffsmodul 26 kann auf der Grundlage der Anfrage und einer Rechtfertigung teilanonymisierte Datensätze 20 auswählen, welche durch das Anonymisierungsmodul 24 erzeugt und von dem Zugriffsmodul 26 vollständig oder teilweise dem Client 16 bereitgestellt werden können.On the basis of context-independent, aggregated data sets 20, a user can first request anonymized sub-data sets 20 and, based on these, identify personal identifiers that are to be released. Based on the request and a justification, the access module 26 can select partially anonymized data records 20 which can be generated by the anonymization module 24 and made available to the client 16 by the access module 26 in full or in part.

Die Anfragen, welche eine Erhöhung der Eingriffstiefe bedingen, und deren Rechtfertigung können in einer zugriffsbeschränkten Datenbank 18 gespeichert werden, um ein transparentes und nachvollziehbares Zugriffsverfahren bereitzustellen und dem Nutzer im Rahmen einer gestützten Maschineninteraktion einen protokollierten und minimalen Eingriff in die Datensicherheit der Nutzer der externen Datenquelle 12 erlauben zu können. Dabei kann dem Nutzer ein Verfahren bereitgestellt werden, welches gegenüber einem händischen Verfahren eine umgekehrte Reihenfolge der Eingriffstiefe bewirkt, d. h. die Anonymisierung der personenbezogenen Daten wird systemseitig einem Eingriff vorangestellt, anstatt nachträglich eingeführt zu werden.The inquiries that require an increase in the level of intervention and their justification can be stored in an access-restricted database 18 in order to provide a transparent and traceable access method and to allow the user, as part of a supported machine interaction, a logged and minimal intervention in the data security of the users of the external data source 12 to be able to allow. The user can be provided with a method, wel Compared to a manual procedure, ches results in a reverse sequence of intervention depth, ie the anonymization of personal data is preceded by an intervention by the system instead of being introduced afterwards.

Die vorhergehende Beschreibung der bevorzugten Ausführungsformen, Beispiele und Zeichnungen soll nur dazu dienen, die Erfindung und die damit verbundenen Vorteile zu veranschaulichen, und soll nicht so verstanden werden, dass sie den Schutzbereich einschränkt. Der Schutzbereich der Erfindung soll vielmehr ausschließlich anhand der beigefügten Ansprüche ermittelt werden.The foregoing description of the preferred embodiments, examples and drawings are only intended to illustrate the invention and the advantages associated therewith and should not be construed as limiting the scope. Rather, the scope of the invention should be determined solely by reference to the appended claims.

BezugszeichenlisteReference List

1010
Computersystemcomputer system
1212
externe Datenquelleexternal data source
1414
Serverserver
1616
Clientclient
1818
DatenbankDatabase
2020
anonymisierte/teilanonymisierte/aggregierte Datensätzeanonymised/partially anonymised/aggregated datasets
2222
Eingangsmodulinput module
2424
AnonymisierungsmodulAnonymization Module
2626
Zugriffsmodulaccess module
2828
Aggregationsmodulaggregation module

Claims (19)

Computerimplementiertes Verfahren zur Bereitstellung entanonymisierter personenbezogener Daten, wobei das Verfahren umfasst: Erhalten personenbezogener Daten aus einer externen Datenquelle (12); automatisches Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters; automatisches Erzeugen eines anonymisierten Datensatzes (20) umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten; Bereitstellen des anonymisierten Datensatzes (20); Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenen Kennzeichen in dem anonymisierten Datensatz (10); Erzeugen eines Freigabeschlüssels auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen; automatisches Erzeugen eines entanonymisierten Datensatzes (20) basierend auf dem Freigabeschlüssel, wobei der entanonymisierte Datensatzdas freizugebende personenbezogene Kennzeichen enthält; und Bereitstellen des entanonymisierten Datensatzes (20).Computer-implemented method for providing de-anonymized personal data, the method comprising: obtaining personal data from an external data source (12); automatically identifying personal identifiers in the personal data based on a reference data structure and/or a reference data pattern; automatic generation of an anonymous data set (20) including automatic removal of the personal identifiers in the personal data; Providing the anonymized data set (20); receiving a request and justification for releasing personal data on a personal identifier to be released in the anonymized data set (10); generating an unlock key based on the request and justification related to the personal identifier to be unlocked; automatically generating a de-anonymised data record (20) based on the release key, the de-anonymised data record containing the personal identifier to be released; and Providing the de-anonymized data set (20). Verfahren nach Anspruch 1, wobei das Erzeugen des entanonymisierten Datensatzes umfasst: Identifizieren des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten und automatisches Entfernen der personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten.procedure after claim 1 , wherein the generation of the de-anonymized data record comprises: identifying the personal identifier to be released in the personal data and automatically removing the personal identifiers except for the personal identifier to be released in the personal data. Verfahren nach Anspruch 1 oder 2, wobei das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, umfasst, und wobei das Erzeugen des anonymisierten Datensatzes (20) ein Unkenntlichmachen der biometrischen Merkmale in den personenbezogenen Daten umfasst.procedure after claim 1 or 2 , wherein the reference data pattern includes biometric features, in particular facial features, and wherein the generation of the anonymized data record (20) includes rendering the biometric features unrecognizable in the personal data. Verfahren nach einem der vorhergegangenen Ansprüche, wobei die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle (12) umfasst und wobei die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie als personenbezogene Kennzeichen identifiziert werden.Method according to one of the preceding claims, wherein the reference data structure comprises an information hierarchy of the external data source (12) and wherein the contents of a predetermined hierarchy level of the information hierarchy are identified as personal identifiers. Verfahren nach einem der vorhergegangenen Ansprüche, wobei das Erzeugen des anonymisierten Datensatzes (20) und/oder des entanonymisierten Datensatzes (20) ein Erzeugen eines aggregierten Teildatensatzes (20) umfasst, wobei der Teildatensatz (20) insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz (20) insbesondere eine kontextunabhängige Liste von Teilinhalten umfasst.Method according to one of the preceding claims, wherein the generation of the anonymised data record (20) and/or the de-anonymised data record (20) comprises generation of an aggregated partial data record (20), the partial data record (20) in particular being an intersection between the personal data and reference data includes and / or wherein the partial data set (20) includes in particular a context-independent list of partial content. Verfahren nach einem der vorhergegangenen Ansprüche, wobei das Verfahren ferner ein Speichern der Anfrage und/oder der Rechtfertigung umfasst, wobei die Anfrage und/oder die Rechtfertigung insbesondere irreversibel gespeichert werden.Method according to one of the preceding claims, wherein the method further comprises storing the request and/or the justification, the request and/or the justification being in particular irreversibly stored. Verfahren nach einem der vorhergegangenen Ansprüche, wobei das Verfahren ferner umfasst: Speichern des Freigabeschlüssels für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung, Authentifizieren eines Nutzers in Bezug auf die Fallkennung, Erzeugen eines entanonymisierten Datensatzes (20), welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.Method according to one of the preceding claims, wherein the method further comprises: storing the release key for released personal identifiers with reference to a case identifier, authenticating a user with regard to the case identifier, generating a de-anonymized data record (20) which contains the released personal identifiers, in particular by automatically removing the personal identifiers, with the exception of those released per son-related identifiers in the personal data. Verfahren nach einem der vorhergegangenen Ansprüche, wobei das Erhalten personenbezogener Daten aus einer externen Datenquelle (12) umfasst: Erhalten erster personenbezogener Daten aus einer ersten externen Datenquelle (12); Erhalten zweiter personenbezogener Daten aus einer zweiten externen Datenquelle (12), und Abbilden der ersten personenbezogenen Daten und der zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten.A method according to any one of the preceding claims, wherein obtaining personal data from an external data source (12) comprises: obtaining first personal data from a first external data source (12); Obtaining second personal data from a second external data source (12), and Mapping the first personal data and the second personal data to a uniform data format for generating the personal data. Verfahren nach einem der vorhergegangenen Ansprüche, wobei das Verfahren ferner umfasst: Erhalten personenbezogener Daten aus einer verwandten externen Datenquelle (12); automatisches Auswerten der verwandten externen Datenquelle (12) und Bestimmen eines Ähnlichkeitswerts zwischen den Inhalten der externen Datenquelle (12) und der verwandten externen Datenquelle (12) und/oder Bestimmen eines Relevanzwerts durch Auswerten des Inhalts der verwandten externen Datenquelle (12) in Bezug auf ein Relevanzmuster; und wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, Anzeigen der verwandten externen Datenquelle (12) zur Aufnahme der enthaltenen personenbezogenen Daten und, bei einer Aufnahme, Speichern eines Aufnahmeereignisses mit einer Aufnahmerechtfertigung.A method according to any one of the preceding claims, the method further comprising: obtaining personal data from a related external data source (12); automatically evaluating the related external data source (12) and determining a similarity value between the content of the external data source (12) and the related external data source (12) and/or determining a relevance value by evaluating the content of the related external data source (12) in relation to a relevance pattern; and if the similarity value and/or the relevance value is above a threshold value, indicating the related external data source (12) for inclusion of the personal data contained therein and, upon inclusion, storing an ingestion event with an ingestion justification. Datenverarbeitungssystem (10) zur Bereitstellung entanonymisierter personenbezogener Daten, wobei das System (10) umfasst: eine zugangsbeschränkte Datenbank (18) zum Erhalten personenbezogener Daten aus einer externen Datenquelle (12) und Speichern der personenbezogenen Daten; ein automatisiertes Anonymisierungsmodul (24) mit Zugriff auf die zugangsbeschränkte Datenbank (18), welches eingerichtet ist, - personenbezogene Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters zu identifizieren, - die personenbezogenen Kennzeichen in den personenbezogenen Daten automatisch zu entfernen, um einen anonymisierten Datensatz (20) zu erzeugen, und - den anonymisierten Datensatz (20) bereitzustellen; ein Zugriffsmodul (26), welches eingerichtet ist, - eine Anfrage und eine Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenen Kennzeichen in dem anonymisierten Datensatz (20) zu erhalten, - einen Freigabeschlüssel auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen zu erzeugen, wobei das automatisierte Anonymisierungsmodul (24) ferner eingerichtet ist, den Freigabeschlüssel zu erhalten und einen entanonymisierten Datensatz (20) bereitzustellen, wobei das Anonymisierungsmodul (24) eingerichtet ist: - das freizugebende personenbezogene Kennzeichen in den personenbezogenen Daten zu identifizieren, und - den entanonymisierten Datensatz (20) zu erzeugen, welcher das freizugebende personenbezogene Kennzeichen enthält.Data processing system (10) for providing de-anonymized personal data, the system (10) comprising: a restricted database (18) for obtaining personal data from an external data source (12) and storing the personal data; an automated anonymization module (24) with access to the access-restricted database (18), which is set up, - identify personal identifiers in the personal data based on a reference data structure and/or a reference data pattern, - automatically remove the personal identifiers in the personal data in order to generate an anonymous data set (20), and - provide the anonymized data set (20); an access module (26) which is set up - to receive a request and a justification for the release of personal data on a personal identifier to be released in the anonymized data set (20), - generate a release key based on the request and justification related to the personal identifier to be released, wherein the automated anonymization module (24) is further set up to receive the release key and to provide a de-anonymized data set (20), wherein the anonymization module (24) is set up: - identify the personal identifier to be released in the personal data, and - To generate the de-anonymized data record (20) which contains the personal identifier to be released. System (10) nach Anspruch 10, wobei das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, umfasst, und wobei das Anonymisierungsmodul (24) eingerichtet ist, die biometrischen Merkmale in den personenbezogenen Daten unkenntlich zu machen.System ( 10 ) after claim 10 , wherein the reference data pattern includes biometric features, in particular facial features, and wherein the anonymization module (24) is set up to make the biometric features in the personal data unrecognizable. System (10) nach Anspruch 10 oder 11, wobei die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle (12) umfasst und wobei das Anonymisierungsmodul (24) eingerichtet ist, die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie als personenbezogene Kennzeichen zu identifizieren.system (10) according to claim 10 or 11 , wherein the reference data structure includes an information hierarchy of the external data source (12) and wherein the anonymization module (24) is set up to identify the contents of a predetermined hierarchical level of the information hierarchy as a personal identifier. System (10) nach einem der Ansprüche 10 bis 12, wobei das System (10) eingerichtet ist: erste personenbezogener Daten aus einer ersten externen Datenquelle (12) zu erhalten zweite personenbezogene Daten aus einer zweiten externen Datenquelle (12) zu erhalten, und die ersten personenbezogenen Daten und die zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten abzubilden.System (10) according to one of Claims 10 until 12 , wherein the system (10) is set up: to obtain first personal data from a first external data source (12), to obtain second personal data from a second external data source (12), and the first personal data and the second personal data in a unified manner Map the data format for generating the personal data. System (10) nach einem der Ansprüche 10 bis 13, wobei das Anonymisierungsmodul (24) eingerichtet ist, die personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten zu entfernen, um den entanonymisierten Datensatz (20) zu erzeugen.System (10) according to one of Claims 10 until 13 , wherein the anonymization module (24) is set up to remove the personal identifiers, with the exception of the personal identifier to be released, in the personal data in order to generate the de-anonymized data record (20). System (10) nach einem der Ansprüche 10 bis 14, wobei das Zugriffsmodul (26) eingerichtet ist, die Anfrage und/oder die Rechtfertigung zu speichern, wobei die Anfrage und/oder die Rechtfertigung insbesondere irreversibel gespeichert werden.System (10) according to one of Claims 10 until 14 , wherein the access module (26) is set up to store the request and/or the justification, the request and/or the justification being in particular irreversibly stored. System (10) nach einem der Ansprüche 10 bis 15, wobei das Zugriffsmodul (26) ferner eingerichtet ist: den Freigabeschlüssel für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung zu speichern, einen Nutzers in Bezug auf die Fallkennung zu authentifizieren, einen entanonymisierten Datensatz (20) zu erzeugen, welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.System (10) according to one of Claims 10 until 15 , wherein the access module (26) is further set up: to store the release key for released personal identifiers with reference to a case identifier, to authenticate a user with regard to the case identifier, to generate a de-anonymized data record (20) which contains the released personal identifiers, in particular by automatically removing the personal identifiers with the exception of the released personal identifiers in the personal data. System (10) nach einem der Ansprüche 10 bis 16, wobei das Anonymisierungsmodul (24) eingerichtet ist, einen aggregierten Teildatensatzes (20) zu erzeugen, wobei der Teildatensatz (20) insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz (20) insbesondere eine kontextunabhängige Liste von Teilinhalten umfasst.System (10) according to one of Claims 10 until 16 , wherein the anonymization module (24) is set up to generate an aggregated partial data set (20), wherein the partial data set (20) comprises in particular an intersection between the personal data and reference data and/or wherein the partial data set (20) contains in particular a context-independent list of partial contents includes. System (10) nach einem der Ansprüche 10 bis 17, wobei System (10) ferner eingerichtet ist, personenbezogene Daten aus einer verwandten externen Datenquelle (12) zu erhalten, die verwandte externe Datenquelle (12) automatisch auszuwerten und einen Ähnlichkeitswert zwischen den Inhalten der externen Datenquelle (12) und der verwandten externen Datenquelle (12) und/oder einen Relevanzwert durch Auswertung des Inhalts der verwandten externen Datenquelle (12) in Bezug auf ein Relevanzmuster zu bestimmen, und, wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, die verwandte externe Datenquelle (12) zur Aufnahme der enthaltenen personenbezogenen Daten anzuzeigen und bei einer Aufnahme ein Aufnahmeereignis mit einer Aufnahmerechtfertigung zu speichern.System (10) according to one of Claims 10 until 17 , wherein the system (10) is further set up to obtain personal data from a related external data source (12), to automatically evaluate the related external data source (12) and to calculate a similarity value between the contents of the external data source (12) and the related external data source ( 12) and/or determine a relevance value by evaluating the content of the related external data source (12) in relation to a relevance pattern, and if the similarity value and/or the relevance value is above a threshold value, the related external data source (12) for inclusion of the personal data contained and, in the case of a recording, to store a recording event with a recording justification. Computerprogramm oder Computerprogrammprodukt mit maschinenlesbaren Instruktionen, welche, wenn sie auf einer Verarbeitungseinheit ausgeführt werden, ein Verfahren nach einem der Ansprüche 1 bis 9 ausführen oder ein System (10) nach einem der Ansprüche 10 bis 18 implementieren.Computer program or computer program product with machine-readable instructions which, when executed on a processing unit, implement a method according to any one of Claims 1 until 9 execute or a system ( 10 ) according to one of Claims 10 until 18 to implement.
DE102020125598.5A 2020-09-30 2020-09-30 Data processing system for restricted data and processes Pending DE102020125598A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020125598.5A DE102020125598A1 (en) 2020-09-30 2020-09-30 Data processing system for restricted data and processes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020125598.5A DE102020125598A1 (en) 2020-09-30 2020-09-30 Data processing system for restricted data and processes

Publications (1)

Publication Number Publication Date
DE102020125598A1 true DE102020125598A1 (en) 2022-03-31

Family

ID=80624230

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020125598.5A Pending DE102020125598A1 (en) 2020-09-30 2020-09-30 Data processing system for restricted data and processes

Country Status (1)

Country Link
DE (1) DE102020125598A1 (en)

Similar Documents

Publication Publication Date Title
DE112018004946B4 (en) COGNITIVE DATA ANONYMIZATION
DE112014000408B4 (en) Safe storage and access to digital artifacts
DE69730321T2 (en) METHOD AND DEVICE FOR PROTECTING DATA WITH MULTIPLE ENCRYPTION LEVELS APPLICABLE TO DATA ELEMENTS
DE112013000642B4 (en) Management and retrieval of encrypted biometric data
DE10300545B4 (en) Device, method, storage medium and data structure for the identification and storage of data
DE112006001378T5 (en) Automatic management of a memory access control
DE102012220716A1 (en) Method, data processing device and program for identifying confidential data
DE112012003193T5 (en) Improved captcha program using image sequences
DE112010004284T5 (en) Method and system for managing security objects
DE112011101293T5 (en) Dynamic real-time reports based on social networks
EP3563261B1 (en) Bit-sequence-based data classification system
EP3552141B1 (en) Server computer system for providing datasets
DE112020002155T5 (en) CONSENT TO COMMON PERSONAL INFORMATION
DE102021128519A1 (en) DOCUMENT ACCESS CONTROL BASED ON DOCUMENT COMPONENT LAYOUTS
EP3552140B1 (en) Database index comprising multiple fields
DE102020125598A1 (en) Data processing system for restricted data and processes
EP3539045B1 (en) System with certificate-based access control
EP3539044B1 (en) Access control for data objects
EP3580908B1 (en) Access management system for exporting data sets
DE202022106108U1 (en) Blockchain-powered searchable encryption system for encrypting and storing Electronic Health Records (EHRs)
DE102021204405A1 (en) Method and system for providing data for labeling data as training data for machine learning
WO2020201248A1 (en) Cross-database index in a distributed database system
DE102009007715B4 (en) Method and system for automatically finding electronic images in a data collection
EP4339821A1 (en) Method for transmitting medical data sets
DE102021117481A1 (en) Anonymization of a structured datum and training of a convolutional neural network starting from an anonymized structured datum

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BOEHMERT & BOEHMERT ANWALTSPARTNERSCHAFT MBB -, DE