DE102020125598A1 - Data processing system for restricted data and processes - Google Patents
Data processing system for restricted data and processes Download PDFInfo
- Publication number
- DE102020125598A1 DE102020125598A1 DE102020125598.5A DE102020125598A DE102020125598A1 DE 102020125598 A1 DE102020125598 A1 DE 102020125598A1 DE 102020125598 A DE102020125598 A DE 102020125598A DE 102020125598 A1 DE102020125598 A1 DE 102020125598A1
- Authority
- DE
- Germany
- Prior art keywords
- data
- personal
- anonymized
- identifiers
- released
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 title claims description 8
- 230000001815 facial effect Effects 0.000 claims description 11
- 230000037406 food intake Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 description 8
- 238000004220 aggregation Methods 0.000 description 8
- 238000013475 authorization Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Abstract
Ein computerimplementiertes Verfahren zur Bereitstellung teilanonymisierter personenbezogener Daten umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle, das automatische Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten, das automatische Erzeugen eines anonymisierten Datensatzes umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten, und das Bereitstellen des anonymisierten Datensatzes, wobei das Verfahren ferner ein Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenes Kennzeichen in dem anonymisierten Datensatz, ein automatisches Erzeugen eines teilanonymisierten Datensatzes, in dem das freizugebende personenbezogene Kennzeichen enthalten ist, und ein Bereitstellen des teilanonymisierten Datensatzes umfasst.A computer-implemented method for providing partially anonymized personal data includes obtaining personal data from an external data source, automatically identifying personal identifiers in the personal data, automatically generating an anonymized data set comprising automatic removal of the personal identifiers in the personal data, and providing the Anonymized data set, the method also includes receiving a request and a justification for the release of personal data on a personal identifier to be released in the anonymized data set, automatically generating a partially anonymized data set containing the personal identifier to be released, and providing the partially anonymized data set includes.
Description
GEBIET DER ERFINDUNGFIELD OF THE INVENTION
Die vorliegende Erfindung liegt auf dem Gebiet der Datensicherheit und betrifft Systeme und Verfahren für den eingeschränkten Zugriff auf Informationen aus einer Datenquelle, insbesondere zur Nutzung durch Behörden und Organisationen mit Sicherheitsaufgaben.The present invention is in the field of data security and relates to systems and methods for restricted access to information from a data source, in particular for use by authorities and organizations with security tasks.
HINTERGRUNDBACKGROUND
Mit der zunehmenden Benutzung digitaler Dienste vergrößert sich gleichermaßen das öffentlich verfügbare Datenprofil jedes Nutzers, bspw. durch öffentliche Äußerungen in sozialen Netzwerken. Ein Zugriff auf dieses öffentlich verfügbare Datenprofil durch Behörden und Organisationen mit Sicherheitsaufgaben, bspw. zum Zweck der Strafverfolgung, bspw. Hasskriminalität, steht jedoch grundsätzlichen ethischen Bedenken und gesetzlichen Zugriffsausschlussrechten gegenüber, wie dem Recht auf informationelle Selbstbestimmung.With the increasing use of digital services, the publicly available data profile of each user increases in equal measure, e.g. through public statements in social networks. However, access to this publicly available data profile by authorities and organizations with security tasks, e.g. for the purpose of criminal prosecution, e.g. hate crime, is opposed to fundamental ethical concerns and legal rights to exclude access, such as the right to informational self-determination.
Für die Arbeit von Behörden und Organisationen mit Sicherheitsaufgaben bedeutet dies konkret, dass ohne Anfangsverdacht auf eine strafbare Handlung im Allgemeinen keine Sichtung und Auswertung von personenbezogenen Daten erfolgen soll. Dies führt möglicherweise dazu, dass im Bereich der Strafverfolgung digitale Inhalte in sozialen Netzwerken bei einem Verdacht regelmäßig nur händisch und undokumentiert untersucht werden können, sodass sowohl für die Nutzer als auch die Behörden eine Rechtsunsicherheit entstehen kann. Denn die händische Sichtung der Daten kann die Verletzung der Grundrechte der Nutzer bereits beinhalten.For the work of authorities and organizations with security tasks, this means in concrete terms that without an initial suspicion of a criminal act, personal data should generally not be viewed and evaluated. This may mean that in the area of criminal prosecution, digital content in social networks can only be examined manually and without documentation in the event of suspicion, so that legal uncertainty can arise for both users and the authorities. Because the manual viewing of the data can already include the violation of the fundamental rights of the user.
ÜBERBLICK ÜBER DIE ERFINDUNGOVERVIEW OF THE INVENTION
Aus dem Stand der Technik sind keine transparenten Zugriffsverfahren auf personenbezogene Dateninhalte bekannt, welche in datenschutzkonformer Weise die effiziente Auswertung von personenbezogenen digitalen Informationen erlauben. Gleichzeitig ist die manuelle Auswertung der personenbezogenen Dateninhalten für die Vermeidung von Eingriffen in Zugriffsausschlussrechte kontraproduktiv und kann eine solche technische Lösung nicht ersetzen.The state of the art does not contain any transparent access procedures for personal data content that allow for the efficient evaluation of personal digital information in a data protection-compliant manner. At the same time, the manual evaluation of the personal data content is counterproductive in order to avoid interventions in access exclusion rights and cannot replace such a technical solution.
Die Aufgabe der Erfindung ist es somit, eine technische Lösung für den eingeschränkten Zugriff auf personenbezogene Daten bereitzustellen, während gleichzeitig eine unspezifische Sichtung oder Auswertung personenbezogener Daten verhindert wird.The object of the invention is therefore to provide a technical solution for restricted access to personal data, while at the same time unspecific viewing or evaluation of personal data is prevented.
Diese Aufgabe wird durch ein computerimplementiertes Verfahren, ein Datenverarbeitungssystem und ein Computerverfahren nach den unabhängigen Ansprüchen gelöst. Die abhängigen Ansprüche betreffen bevorzugte Ausführungsformen.This object is solved by a computer-implemented method, a data processing system and a computer method according to the independent claims. The dependent claims relate to preferred embodiments.
Gemäß einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zur Bereitstellung entanonymisierter personenbezogener Daten. Das Verfahren umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle, das automatische Identifizieren personenbezogener Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters, das automatische Erzeugen eines anonymisierten Datensatzes umfassend ein automatisches Entfernen der personenbezogenen Kennzeichen in den personenbezogenen Daten, und das Bereitstellen des anonymisierten Datensatzes. Das Verfahren umfasst ferner ein Erhalten einer Anfrage und einer Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenen Kennzeichen in dem anonymisierten Datensatz und ein Erzeugen eines Freigabeschlüssels auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen. Das Verfahren umfasst ferner ein automatisches Erzeugen eines entanonymisierten Datensatzes basierend auf dem Freigabeschlüssel, wobei der entanonymisierte Datensatz das freizugebende personenbezogene Kennzeichen enthält, und ein Bereitstellen des entanonymisierten Datensatzes.According to a first aspect, the invention relates to a computer-implemented method for providing de-anonymized personal data. The method includes obtaining personal data from an external data source, automatically identifying personal identifiers in the personal data based on a reference data structure and/or a reference data pattern, automatically generating an anonymized data set comprising automatically removing the personal identifiers in the personal data, and providing the anonymized data set. The method further includes receiving a request and justification for releasing personal data related to a personal identifier to be shared in the anonymized data set, and generating a sharing key based on the request and justification related to the personal identifier to be shared. The method also includes automatically generating a de-anonymized data record based on the release key, the de-anonymized data record containing the personal identifier to be released, and providing the de-anonymized data record.
Über das Verfahren kann der Nutzer in transparenter Weise auf Daten mit personenbezogenen Kennzeichen zugreifen, da personenbezogene Inhalte automatisch anonymisiert werden können und eine Vergrößerung der Eingriffstiefe einzelfallbezogen von einer Rechtfertigung abhängig gemacht wird. Entsprechend kann der Nutzer die technischen Möglichkeiten des Zugriffssystems zielgerichtet nutzen, während ein Eingriff in die Datensicherheit der Nutzer der externen Datenquelle minimiert wird. Ein derart strukturiertes Verfahren verbessert auch die Interaktion des Nutzers mit einer entsprechend programmierten Maschine, da der inhärente Verfahrensablauf bei ausschließlich gedanklicher Tätigkeit umgekehrt wird, d.h. eine Anonymisierung und damit auch verbundene Abstrahierung von Dateninhalten vor der Inhaltssichtung durch den Nutzer erfolgen kann und nicht umgekehrt.The procedure allows the user to access data with personal identifiers in a transparent manner, since personal content can be automatically anonymized and an increase in the depth of intervention is made dependent on a justification on a case-by-case basis. Accordingly, the user can use the technical possibilities of the access system in a targeted manner, while an intrusion into the data security of the user of the external data source is minimized. A procedure structured in this way also improves the interaction of the user with a correspondingly programmed machine, since the inherent procedure is reversed in the case of purely mental activity, i.e. anonymization and the associated abstraction of data content can take place before the user views the content and not vice versa.
Die externe Datenquelle kann eine öffentlich zugängliche digitale Datenquelle sein, welche es Nutzern ermöglichen kann, personenbezogene Daten zu hinterlegen. Zum Beispiel kann die externe Datenquelle ein Kanal eines sozialen Netzwerks, wie ein YouTube-Kanal oder eine Facebook-Gruppe, oder ein webbasierter Blog sein, und kann als personenbezogene Daten digitale Beiträge einer Nutzergruppe umfassen, wie beispielsweise Kommentare oder Fotos, welche der externen Datenquelle zugeordnet sind. Die externe Datenquelle kann automatisch eingelesen werden und in einem mit der Anonymisierung der Inhalte der externen Datenquelle betrauten Computersystem während der Bearbeitung zwischengespeichert werden. Zum Beispiel kann die externe Datenquelle erstmalig manuell bereitgestellt werden, wie durch die Angabe eines Links, und die Inhalte der externen Datenquelle können anschließend von einem Computersystem in einer zugangsbeschränkten Datenbank (zwischen-)gespeichert werden.The external data source can be a publicly accessible digital data source, which can enable users to store personal data. For example, the external data source can be a social network channel, such as a YouTube channel or a Facebook group, or a web-based blog, and may include digital contributions from a user group as personal data, such as comments or photos, which are assigned to the external data source. The external data source can be read in automatically and temporarily stored during processing in a computer system entrusted with the anonymization of the content of the external data source. For example, the external data source can be provided manually for the first time, such as by providing a link, and the contents of the external data source can then be (temporarily) stored by a computer system in a restricted database.
In einigen Ausführungsformen umfasst das Verfahren das Speichern der personenbezogenen Daten in einer zugangsbeschränkten Datenbank.In some embodiments, the method includes storing the personal data in a restricted database.
Vorzugsweise speichert das Verfahren die personenbezogenen Daten ohne manuellen Zugriff in der zugangsbeschränkten Datenbank und speichert ein anonymisiertes und/oder entanonymisiertes Abbild der personenbezogenen Daten für eine Auswertung oder Sichtung der Inhalte der externen Datenquelle, wobei ein manueller Zugriff auf das entanonymisierte Abbild eingerichtet sein kann.The method preferably stores the personal data without manual access in the access-restricted database and stores an anonymized and/or de-anonymized image of the personal data for evaluating or viewing the content of the external data source, with manual access to the de-anonymized image being able to be set up.
Unter manuellem Zugriff kann dabei der Zugriff auf die Daten in menschenlesbarer Form an einem Terminal zu verstehen sein. Beispielsweise können die Daten in der zugangsbeschränkten Datenbank verschlüsselt oder komprimiert sein und ein Zugriff auf die zugangsbeschränkte Datenbank kann von der Bereitstellung eines Authorisierungsschlüssels abhängen.Manual access can be understood as access to the data in human-readable form at a terminal. For example, the data in the restricted database may be encrypted or compressed, and access to the restricted database may depend on the provision of an authorization key.
Das Verfahren kann ein Client-System und ein Server-System vorsehen, welche über eine Datenleitung verbunden sind, wobei insbesondere nur das Server-System mit dem Authorisierungsschlüssel ausgestattet ist, um automatisch entanonymisierte Daten für das Client-System auf der Grundlage der personenbezogenen Daten bereitzustellen.The method can provide a client system and a server system, which are connected via a data line, with in particular only the server system being equipped with the authorization key in order to automatically provide de-anonymized data for the client system on the basis of the personal data .
In einigen Ausführungsformen kann ein automatisiertes System auf die personenbezogenen Daten in der zugangsbeschränkten Datenbank zugreifen, um die personenbezogenen Daten nach vorbestimmten Kriterien auszuwerten. Beispielsweise können die Inhalte der personenbezogenen Daten durch ein neuronales Netzwerk ausgewertet werden, um eine anonymisierte Analyse der Inhalte mit für ein Beobachtungsphänomen typischen Inhalten zu erzeugen.In some embodiments, an automated system can access the personal data in the restricted database to evaluate the personal data according to predetermined criteria. For example, the content of the personal data can be evaluated by a neural network in order to generate an anonymous analysis of the content with content typical of an observation phenomenon.
In einigen Ausführungsformen werden die Inhalte der externen Datenquelle für die Anonymisierung nur zwischengespeichert und/oder nach Ablauf einer Löschungsfrist gelöscht.In some embodiments, the content of the external data source for anonymization is only temporarily stored and/or deleted after a deletion period has expired.
Der entanonymisierte Datensatz kann dabei - insbesondere abhängig von dem Freigabeschlüssel - ein vollständig entanonymisierter Datensatz sein, in dem alle personenbezogenen Kennzeichen entanonymisiert sind.The de-anonymised data record can be a completely de-anonymised data record, in particular depending on the release key, in which all personal identifiers are de-anonymised.
Alternativ kann der entanonymisierte Datensatz ein teilanonymisierter Datensatz sein, in dem eine Teilmenge der personenbezogenen Kennzeichen entanonymisiert sind. Andere personenbezogene Kennzeichen können dagegen - abhängig von dem Freigabeschlüssel - weiterhin anonymisiert bleiben.Alternatively, the de-anonymized data record can be a partially anonymized data record in which a subset of the personal identifiers are de-anonymized. On the other hand, other personal identifiers can - depending on the release key - remain anonymous.
Die personenbezogenen Daten können in einer Ausführungsform auch sukzessive entanonymisiert werden, um über mehrere Freigabeebenen die personenbezogenen Kennzeichen selektiv zu entanonymisieren. Insbesondere kann das vorangehend beschriebene Verfahren iteriert werden, wobei die jeweile Freigabeebene jeweils einen entsprechende Anfrage und Rechtfertigung erfordert.In one embodiment, the personal data can also be successively de-anonymized in order to selectively de-anonymize the personal identifiers over a number of release levels. In particular, the method described above can be iterated, with each release level requiring a corresponding request and justification.
Eine sukzessive Entanonymisierung kann bis hin zu einer vollständigen Entanonymisierung der personenbezogenen Daten durchgeführt werden. In einigen Ausführungsformen kann das Entanonymisieren ein vollständiges Entanonymisieren der personenbezogenen Daten sein.A successive de-anonymization can be carried out up to a complete de-anonymization of the personal data. In some embodiments, the de-anonymization may be a complete de-anonymization of the personal data.
Die Entanonymisierung der personenbezogenen Kennzeichen kann kennzeichenbezogen und/oder inhaltsbezogen erfolgen, d.h. es können bestimmte personenbezogenen Kennzeichen selektiv entanonymisiert werden und/oder es können bestimmte Inhalte der personenbezogenen Daten mit verschiedenen enthaltenen personenbezogenen Kennzeichen selektiv entanonymisiert werden. Beispielsweise kann die Anfrage die Freigabe sämtlicher personenbezogener Kennzeichen in einem Teilinhalt der personenbezogenen Daten, wie einem Kommentar oder Bild, umfassen, welche auch in weiteren Inhalten der personenbezogenen Daten freigegeben werden können. Ferner kann die Anfrage die Freigabe/Entanonymisierung eines bestimmten personenbezogenen Kennzeichens in einem Teilinhalt oder in den gesamten personenbezogenen Daten umfassen.The de-anonymization of personal identifiers can be based on identifiers and/or content, i.e. certain personal identifiers can be selectively de-anonymized and/or certain contents of the personal data containing different personal identifiers can be selectively de-anonymized. For example, the request can include the release of all personal identifiers in a partial content of the personal data, such as a comment or image, which can also be released in other content of the personal data. Furthermore, the request may include the release/de-anonymization of a specific personal identifier in some or all of the personal data.
Wenn entanonymisierte Datensätze mit zusätzlichen personenbezogenen Kennzeichen angefordert werden, kann ein Computersystem die personenbezogenen Daten aus der externen Datenquelle neu erheben und den entanonymisierten Datensatz neu erzeugen.If de-anonymized data sets with additional personal identifiers are requested, a computer system can re-collect the personal data from the external data source and recreate the de-anonymized data set.
In bevorzugten Ausführungsformen umfasst das Erzeugen des entanonymisierten Datensatzes das Identifizieren des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten und das automatische Entfernen der personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten.In preferred embodiments, the generation of the de-anonymized data set includes identifying the personal identifier to be released in the personal data and automatically removing the personal identifiers except for the personal identifier to be released in the personal data.
Beispielsweise kann das Computersystem die personenbezogenen Daten nach Erhalt anonymisieren und lediglich vorbestimmte (freizugebende) personenbezogene Kennzeichen von der Anonymisierung ausschließen, bevor die Inhalte der externen Datenquelle in entanonymisierter Form bereitgestellt und/oder gespeichert werden.For example, the computer system can anonymize the personal data upon receipt and only exclude predetermined personal identifiers (to be released) from the anonymization before the content of the external data source is made available and/or stored in deanonymized form.
Das Verfahren kann die personenbezogenen Kennzeichen in den personenbezogenen Daten automatisch ermitteln und entfernen.The method can automatically determine and remove the personal identifiers in the personal data.
Personenbezogene Daten und/oder Kennzeichen sind in einer Ausführungsform digitale und/oder digitalisierte Inhalte, welche mit vertretbarem Aufwand Rückschlüsse auf die Person des Nutzers erlauben können. Die personenbezogenen Daten können somit beispielsweise biometrische Inhalte, Klarnamen, Nutzernamen, E-Mail-Adressen, oder Orte umfassen. Ferner können auch vollständige Äußerungen personenbezogene Inhalte darstellen, wenn die vollständigen Äußerungen durch eine Internetrecherche direkt mit einer bestimmten Person korreliert oder assoziiert werden können.In one embodiment, personal data and/or identifiers are digital and/or digitized content which, with reasonable effort, can allow conclusions to be drawn about the person of the user. The personal data can thus include, for example, biometric content, real names, user names, e-mail addresses, or locations. Furthermore, complete utterances can also represent personal content if the complete utterances can be directly correlated or associated with a specific person through internet research.
Zum Schutz der Datensicherheit sollte das Verfahren daher vorteilhafterweise zunächst vollständig anonymisierte Daten bereitstellen, bspw. Inhalte ohne konkreten Personenbezug. Dazu können die Inhalte anonymisiert werden, wobei die personenbezogenen Kennzeichen entfernt und wahlweise durch einen nicht-personenbezogenen Platzhalter ersetzt werden können (sog. Pseudonymisierung). Die personenbezogenen Kennzeichen können automatisch durch Mustervergleich mit dem Referenzdatenmuster identifiziert werden, bspw. anhand typischer Muster biometrischer Merkmale, anhand typischer Muster von (E-Mail-)Adressen und Nutzernamen (wie durch ein vorangestelltes „@“), oder anhand einer standardisierten Kommentarstruktur.In order to protect data security, the method should therefore advantageously initially provide completely anonymous data, e.g. content without specific personal reference. For this purpose, the content can be anonymized, whereby the personal identifiers can be removed and optionally replaced by a non-personal placeholder (so-called pseudonymization). The personal identifiers can be identified automatically by comparing patterns with the reference data pattern, e.g. based on typical patterns of biometric features, based on typical patterns of (e-mail) addresses and user names (e.g. with a prefix "@"), or based on a standardized comment structure.
In bevorzugten Ausführungsformen umfasst das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, und das Erzeugen des anonymisierten Datensatzes umfasst ein Unkenntlichmachen der biometrischen Merkmale in den personenbezogenen Daten.In preferred embodiments, the reference data pattern includes biometric features, in particular facial features, and the generation of the anonymized data record includes rendering the biometric features unrecognizable in the personal data.
Computersysteme können in grafischen Inhalten automatisch relevante Inhalte erkennen. In einer Ausführungsform kann ein neuronales Netzwerk automatisch personenbezogene Merkmale aus den Daten entfernen, bspw. durch das Identifizieren von Gesichtsmerkmalen und das anschließende automatisierte selektive Unkenntlichmachen der Gesichtsmerkmale durch Verpixeln oder Überlagern der Gesichtsmerkmale mit einer anonymisieren Bildstruktur (z. B. Schwärzen der Gesichtsmerkmale).Computer systems can automatically recognize relevant content in graphic content. In one embodiment, a neural network can automatically remove personal characteristics from the data, e.g. by identifying facial features and then automatically selectively obscuring the facial features by pixelation or overlaying the facial features with an anonymized image structure (e.g. blackening the facial features).
Ferner können personenbezogene Inhalte, welche auf einer Webseite oder durch eine API publiziert werden, anhand der Datenstruktur identifiziert werden. Beispielsweise können Nutzernamen in eigenen Datenfeldern aufgenommen sein und können anhand einer Analyse der Datenhierarchie in der Publikationsstruktur der Webseiteninhalte verifiziert werden.Furthermore, personal content published on a website or through an API can be identified based on the data structure. For example, user names can be included in their own data fields and can be verified based on an analysis of the data hierarchy in the publication structure of the website content.
In bevorzugten Ausführungsformen umfasst die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle, und die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie werden als personenbezogene Kennzeichen identifiziert.In preferred embodiments, the reference data structure includes an information hierarchy of the external data source, and the contents of a predetermined hierarchy level of the information hierarchy are identified as personal identifiers.
Durch Entfernen der personenbezogenen Kennzeichen kann ein anonymisierter Datensatz erzeugt werden, der personenunspezifisch ausgewertet werden kann. Die personenbezogenen Inhalte können weiter abstrahiert bzw. anonymisiert werden, indem die Inhalte in kontextunabhängiger Form bereitgestellt werden.By removing the personal identifiers, an anonymous data record can be generated, which can be evaluated on a non-personal basis. The personal content can be further abstracted or made anonymous by providing the content in a context-independent form.
In bevorzugten Ausführungsformen umfasst das Erzeugen des anonymisierten Datensatzes und/oder des entanonymisierten Datensatzes ein Erzeugen eines aggregierten Teildatensatzes, wobei der Teildatensatz insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz insbesondere eine kontextunabhängige Auflistung von Teilinhalten umfasst.In preferred embodiments, the creation of the anonymized data set and/or the de-anonymized data set includes the creation of an aggregated partial data set, the partial data set comprising in particular an intersection between the personal data and reference data and/or the partial data set comprising in particular a context-independent listing of partial content.
Der aggregierte Teildatensatz kann beispielsweise Inhalte umfassen, die mit vorbestimmten Referenzdaten teilweise übereinstimmen oder beispielsweise von einem neuronalen Netzwerk anhand eines Mustervergleichs mit Referenzdaten ausgewählt wurden.The aggregated partial data record can, for example, include content that partially matches predetermined reference data or that has been selected, for example, by a neural network based on a pattern comparison with reference data.
In einigen Ausführungsformen umfasst der aggregierte Teildatensatz eine stochastische Auswertung der Inhalte der personenbezogenen Daten, wie eine Häufigkeitsanalyse bestimmter Inhalte, insbesondere von phänomenbezogenen Inhalten, z.B. eine absolute oder relative Häufigkeit der Verwendung der Namen von bekannten Personen aus einer Datenbank im Kontext einer gewaltverherrlichenden Aussage. Der Kontext der Aussage kann durch Auswertung des Inhalts durch automatisierte Sprachverarbeitung automatisch von einem Computersystem ermittelt werden, bspw. mit einem neuronalen Netzwerk. Ferner kann das Computersystem bspw. Schusswaffen in digitalen Bildern automatisch erkennen und somit auf automatisierte Weise kontextunabhängige Hinweise auf strafrechtlich relevante Inhalte bereitstellen. Ein anonymisierter Teildatensatz kann in diesem Fall gefilterte anonymisierte Inhalte umfassen, in denen graphische Inhalte durch eine automatische Objekterkennung gefiltert werden.In some embodiments, the aggregated sub-dataset includes a stochastic evaluation of the content of the personal data, such as a frequency analysis of certain content, in particular phenomenon-related content, eg an absolute or relative frequency of use of the names of known people from a database in the context of a statement glorifying violence. The context of the statement can be automated by evaluating the content Speech processing can be determined automatically by a computer system, e.g. with a neural network. Furthermore, the computer system can, for example, automatically recognize firearms in digital images and thus automatically provide context-independent information on content relevant to criminal law. In this case, an anonymized partial data record can include filtered anonymized content in which graphic content is filtered by automatic object recognition.
In bevorzugten Ausführungsformen umfasst das Verfahren ein Speichern der Anfrage und/oder der Rechtfertigung, wobei die Anfrage und/oder die Rechtfertigung insbesondere irreversibel gespeichert werden können.In preferred embodiments, the method includes storing the request and/or the justification, it being possible in particular for the request and/or the justification to be stored irreversibly.
Das Speichern der Anfrage und der Rechtfertigung kann es erlauben, eine Ausweitung der Eingriffstiefe konsistent von einer Rechtfertigung abhängig zu machen und das Verfahren automatisch zu dokumentieren.Saving the request and the justification can make it possible to consistently make an extension of the depth of intervention dependent on a justification and to automatically document the procedure.
Die Rechtfertigung kann durch den Nutzer bspw. in einer Maske eingetragen werden und kann bspw. eine textbasierte Begründung oder eine Vorgangsnummer umfassen.The justification can be entered by the user in a mask, for example, and can include, for example, a text-based justification or a transaction number.
Vorzugsweise ist ein Computersystem für die Ausführung des Verfahrens eingerichtet, die Vergabe des Freigabeschlüssels von der Abgabe einer Rechtfertigung abhängig zu machen.A computer system for executing the method is preferably set up to make the allocation of the release key dependent on the submission of a justification.
Ferner kann die Vergabe des Freigabeschlüssels von einer Authorisierung abhängig sein, wie einer Nutzername-Passwort-Kombination, einer Signaturkarte und/oder einer Übereinstimmung biometrischer Merkmale des Nutzers mit authorisierten biometrischen Merkmalen (Fingerabdruck, Irisscan, Gesichtsmerkmale, usw.).Furthermore, the allocation of the release key can depend on authorization, such as a username/password combination, a signature card and/or a match between the user's biometric features and authorized biometric features (fingerprint, iris scan, facial features, etc.).
Das irreversible Speichern kann das Speichern in einer zugangsbeschränkten Datenbank mit Einfügungsrechten sein, wobei bspw. eine Löschung oder Überschreibung der Daten nur mit zusätzlichen Zugangsrechten erfolgen kann, oder kann das Speichern in einer Blockchain sein.The irreversible storage can be storage in an access-restricted database with insertion rights, where, for example, data can only be deleted or overwritten with additional access rights, or it can be storage in a blockchain.
In bevorzugten Ausführungsformen umfasst das Verfahren das Speichern des Freigabeschlüssels für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung, das Authentifizieren eines Nutzers in Bezug auf die Fallkennung und das Erzeugen eines entanonymisierten Datensatzes, welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.In preferred embodiments, the method includes storing the release key for released personal identifiers with reference to a case identifier, authenticating a user with regard to the case identifier and generating a de-anonymized data record containing the released personal identifiers, in particular by automatically removing the personal identifiers Identifiers other than the released personal identifiers in the personal data.
Die gespeicherten Freigabeschlüssel können unabhängig von den personenbezogenen Daten gespeichert werden, bspw. um einen entanonymisierten Datensatz nach Entfernung der personenbezogenen Daten aus einem Zwischenspeicher wiederherzustellen und/oder zu erweitern. Unterschiedliche Nutzer können anhand der Fallkennung auf einheitliche Freigabeschlüssel zugreifen. Das Speichern des Freigabeschlüssels kann somit eine konsistentere Arbeitsweise des Systems ermöglichen.The stored release keys can be stored independently of the personal data, e.g. to restore and/or expand a de-anonymized data set after removing the personal data from a cache. Different users can access uniform release keys based on the case ID. Storing the release key can thus allow for a more consistent operation of the system.
In bevorzugten Ausführungsformen umfasst das Erhalten personenbezogener Daten aus einer externen Datenquelle das Erhalten erster personenbezogener Daten aus einer ersten externen Datenquelle, das Erhalten zweiter personenbezogener Daten aus einer zweiten externen Datenquelle, und das Abbilden der ersten personenbezogenen Daten und der zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten.In preferred embodiments, obtaining personal data from an external data source includes obtaining first personal data from a first external data source, obtaining second personal data from a second external data source, and mapping the first personal data and the second personal data to a uniform data format to generate the personal data.
Die erste externe Datenquelle und die zweite externe Datenquelle können Datenquellen unterschiedlichen Formats sein, bzw. keine einheitliche Datenstruktur aufweisen. Das einheitliche Datenformat kann die automatische Anonymisierung der Daten begünstigen, da die Abbildung auf das einheitliche Datenformat quellenspezifische Formateigenschaften ignorieren kann. Gleichzeitig kann die Abbildung quellenspezifische personenbezogene Kennzeichen, wie die Formatierung oder Stellung von Nutzernamen, in eine einheitliche Datenbank übertragen, um die personenbezogenen Kennzeichen quellenübergreifend und/oder konsistent zu entfernen. Die resultierende einheitliche Datenstruktur mit identifizierten personenbezogenen Kennzeichen kann dann quellenübergreifend zur Anonymisierung und Analyse der personenbezogenen Daten genutzt werden, wobei einheitliche Analyse- und Anonymisierungsmodule angewandt werden können.The first external data source and the second external data source can be data sources of different formats or have no uniform data structure. The uniform data format can promote the automatic anonymization of the data, since the mapping to the uniform data format can ignore source-specific format properties. At the same time, the mapping can transfer source-specific personal identifiers, such as the formatting or position of user names, to a uniform database in order to remove the personal identifiers across sources and/or consistently. The resulting uniform data structure with identified personal identifiers can then be used across sources for anonymization and analysis of the personal data, with uniform analysis and anonymization modules being able to be used.
In bevorzugten Ausführungsformen umfasst das Verfahren das Erhalten personenbezogener Daten aus einer verwandten externen Datenquelle. Das Verfahren umfasst das automatische Auswerten der verwandten externen Datenquelle und das Bestimmen eines Ähnlichkeitswerts zwischen den Inhalten der externen Datenquelle und der verwandten externen Datenquelle und/oder das Bestimmen eines Relevanzwerts durch Auswerten des Inhalts der verwandten externen Datenquelle in Bezug auf ein Relevanzmuster, und, wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, das Anzeigen der verwandten externen Datenquelle zur Aufnahme der enthaltenen personenbezogenen Daten und Speichern eines Aufnahmeereignisses mit einer Aufnahmerechtfertigung.In preferred embodiments, the method includes obtaining personal data from a related external data source. The method includes automatically evaluating the related external data source and determining a similarity value between the content of the external data source and the related external data source and/or determining a relevance value by evaluating the content of the related external data source in relation to a relevance pattern, and if the similarity score and/or the relevance score is above a threshold, displaying the related external data source for recording the contained personal data and storing a recording event with a recording justification.
Anhand von Inhaltsbeziehungen können weitere Datenquellen automatisch identifiziert werden, beispielsweise für den Fall von gleichzeitig abonnierten Informationskanälen von registrierten Nutzern der externen Datenquelle. Der Ähnlichkeitswert kann anhand einer Übereinstimmung der Nutzer oder anhand von Beziehungen zwischen den externen Datenquellen ermittelt werden. Der Schwellwert für den so bestimmten Ähnlichkeitswert kann eine Funktion der relativen und/oder absoluten Übereinstimmung der Nutzer umfassen. Der Relevanzwert kann phänomenbezogen sein und kann anhand einer semantischen Analyse der verwandten externen Datenquelle bestimmt werden.Based on content relationships, further data sources can be identified automatically, for example in the case of information channels subscribed to at the same time by registered users of the external data source. The similarity value can be determined based on a match between the users or based on relationships between the external data sources. The threshold value for the similarity value determined in this way can comprise a function of the relative and/or absolute agreement of the users. The relevance score may be phenomenon-related and may be determined based on a semantic analysis of the related external data source.
Überschreiten der Ähnlichkeitswert und/oder der Relevanzwert einen Schwellwert, kann die Datenquelle zur Aufnahme vorgeschlagen werden. Auf diese Weise kann die Auswahl mehrerer verwandter externer Datenquellen maschinell gefiltert werden, um eine geführte Mensch-Maschinen-Interaktion auf anonymisierte Weise zu verbessern.If the similarity value and/or the relevance value exceed a threshold value, the data source can be suggested for inclusion. In this way, the selection of multiple related external data sources can be machine-filtered to enhance guided human-machine interaction in an anonymous manner.
Gemäß einem zweiten Aspekt betrifft die Erfindung ein Datenverarbeitungssystem zur Bereitstellung entanonymisierter personenbezogener Daten. Das System umfasst eine zugangsbeschränkte Datenbank, ein automatisiertes Anonymisierungsmodul und ein Zugriffsmodul. Die zugangsbeschränkte Datenbank ist eingerichtet zum Erhalten personenbezogener Daten aus einer externen Datenquelle und zum Speichern der personenbezogenen Daten. Das automatisierte Anonymisierungsmodul hat Zugriff auf die zugangsbeschränkte Datenbank und ist eingerichtet, personenbezogene Kennzeichen in den personenbezogenen Daten auf der Grundlage einer Referenzdatenstruktur und/oder eines Referenzdatenmusters zu identifizieren, die personenbezogenen Kennzeichen in den personenbezogenen Daten automatisch zu entfernen, um einen anonymisierten Datensatz zu erzeugen, und den anonymisierten Datensatz bereitzustellen. Das Zugriffsmodul ist eingerichtet, eine Anfrage und eine Rechtfertigung zur Freigabe personenbezogener Daten zu einem freizugebenden personenbezogenes Kennzeichen in dem anonymisierten Datensatz zu erhalten, und einen Freigabeschlüssel auf der Grundlage der Anfrage und der Rechtfertigung in Bezug auf das freizugebende personenbezogene Kennzeichen zu erzeugen. Das automatisierte Anonymisierungsmodul ist ferner eingerichtet, den Freigabeschlüssel zu erhalten und einen entanonymisierten Datensatz bereitzustellen, wobei das Anonymisierungsmodul eingerichtet ist, das freizugebende personenbezogene Kennzeichen in den personenbezogenen Daten zu identifizieren, und den entanonymisierten Datensatz zu erzeugen, welcher das freizugebende personenbezogene Kennzeichen enthält.According to a second aspect, the invention relates to a data processing system for providing de-anonymized personal data. The system includes a restricted database, an automated anonymization module and an access module. The restricted database is set up to receive personal data from an external data source and to store the personal data. The automated anonymization module has access to the restricted database and is set up to identify personal identifiers in the personal data based on a reference data structure and/or a reference data pattern, to automatically remove the personal identifiers in the personal data to generate an anonymized data set, and provide the anonymized data set. The access module is configured to receive a request and a justification for releasing personal data related to a personal identifier to be shared in the anonymized data set, and to generate a sharing key based on the request and the justification related to the personal identifier to be shared. The automated anonymization module is also set up to receive the release key and to provide a de-anonymized data set, the anonymization module being set up to identify the personal identifier to be released in the personal data and to generate the de-anonymized data set containing the personal identifier to be released.
Die zugriffsbeschränkte Datenbank kann die personenbezogenen Daten zwischenspeichern und kann die personenbezogenen Daten nach einer Löschungsfirst automatisch löschen.The access-restricted database can temporarily store the personal data and can automatically delete the personal data after a deletion period.
In bevorzugten Ausführungsformen umfasst das Referenzdatenmuster biometrische Merkmale, insbesondere Gesichtsmerkmale, wobei das Anonymisierungsmodul eingerichtet ist, die biometrischen Merkmale in den personenbezogenen Daten unkenntlich zu machen.In preferred embodiments, the reference data pattern includes biometric features, in particular facial features, with the anonymization module being set up to make the biometric features in the personal data unrecognizable.
In bevorzugten Ausführungsformen umfasst die Referenzdatenstruktur eine Informationshierarchie der externen Datenquelle, wobei das Anonymisierungsmodul eingerichtet ist, die Inhalte einer vorbestimmten Hierarchieebene der Informationshierarchie als personenbezogene Kennzeichen zu identifizieren.In preferred embodiments, the reference data structure includes an information hierarchy of the external data source, with the anonymization module being set up to identify the contents of a predetermined hierarchy level of the information hierarchy as personal identifiers.
In bevorzugten Ausführungsformen ist das System eingerichtet, erste personenbezogener Daten aus einer ersten externen Datenquelle zu erhalten, zweite personenbezogene Daten aus einer zweiten externen Datenquelle zu erhalten und die ersten personenbezogenen Daten und die zweiten personenbezogenen Daten auf ein einheitliches Datenformat zur Erzeugung der personenbezogenen Daten abzubilden.In preferred embodiments, the system is set up to receive first personal data from a first external data source, to receive second personal data from a second external data source and to map the first personal data and the second personal data to a uniform data format for generating the personal data.
In bevorzugten Ausführungsformen ist das Anonymisierungsmodul eingerichtet, die personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten zu entfernen, um den entanonymisierten Datensatz zu erzeugen.In preferred embodiments, the anonymization module is set up to remove the personal identifiers, with the exception of the personal identifier to be released, in the personal data in order to generate the de-anonymized data record.
In bevorzugten Ausführungsformen ist das Zugriffsmodul eingerichtet, die Anfrage und/oder die Rechtfertigung zu speichern, und die Anfrage und/oder die Begründung insbesondere irreversibel zu speichern.In preferred embodiments, the access module is set up to store the request and/or the justification, and in particular to irreversibly store the request and/or the justification.
In bevorzugten Ausführungsformen ist das Zugriffsmodul ferner eingerichtet, den Freigabeschlüssel für freigegebene personenbezogene Kennzeichen mit Bezug zu einer Fallkennung zu speichern, einen Nutzers in Bezug auf die Fallkennung zu authentifizieren, und einen entanonymisierten Datensatz zu erzeugen, welcher die freigegebenen personenbezogenen Kennzeichen enthält, insbesondere durch eine automatische Entfernung der personenbezogenen Kennzeichen ausgenommen der freigegebenen personenbezogenen Kennzeichen in den personenbezogenen Daten.In preferred embodiments, the access module is also set up to store the release key for released personal identifiers with reference to a case identifier, to authenticate a user with regard to the case identifier, and to generate a de-anonymized data record containing the released personal identifiers, in particular by a automatic removal of the personal identifiers except for the released personal identifiers in the personal data.
In bevorzugten Ausführungsformen ist das Anonymisierungsmodul eingerichtet, einen aggregierten Teildatensatzes zu erzeugen, wobei der Teildatensatz insbesondere eine Schnittmenge zwischen den personenbezogenen Daten und Referenzdaten umfasst und/oder wobei der Teildatensatz insbesondere eine kontextunabhängige Auflistung von Teilinhalten umfasst.In preferred embodiments, the anonymization module is set up to generate an aggregated partial data set, the partial data set particularly comprising an intersection between the personal data and reference data and/or the partial data set particularly comprising a context-independent listing of partial contents.
In bevorzugten Ausführungsformen ist das System ferner eingerichtet, personenbezogene Daten aus einer verwandten externen Datenquelle zu erhalten. Das System kann dazu eingerichtet sein, die verwandte externe Datenquelle automatisch auszuwerten und einen Ähnlichkeitswerts zwischen den Inhalten der externen Datenquelle und der verwandten externen Datenquelle und/oder einen Relevanzwert durch Auswerten des Inhalts der verwandten externen Datenquelle in Bezug auf ein Relevanzmuster zu bestimmen, und, wenn der Ähnlichkeitswert und/oder der Relevanzwert über einem Schwellwert liegt, die verwandte externe Datenquelle zur Aufnahme der enthaltenen personenbezogenen Daten anzuzeigen und bei einer Aufnahme ein Aufnahmeereignis mit einer Aufnahmerechtfertigung zu speichern.In preferred embodiments, the system is further configured to obtain personally identifiable information from a related external data source. The system may be configured to automatically evaluate the related external data source and determine a similarity score between the content of the external data source and the related external data source and/or a relevance score by evaluating the content of the related external data source with respect to a relevance pattern, and, if the similarity score and/or relevance score is above a threshold, display the related external data source for ingestion of the included personal data and, upon ingestion, store an ingestion event with an ingestion justification.
Das System kann weiterhin so konfiguriert sein, dass es die Verfahrensschritte der verschiedenen zuvor beschriebenen Ausführungsformen des Verfahrens gemäß dem ersten Aspekt implementiert und/oder Mittel oder Vorrichtungen umfasst, welche so konfiguriert sind, dass sie die Verfahrensschritte der verschiedenen zuvor beschriebenen Ausführungsformen des Verfahrens gemäß dem ersten Aspekt implementieren.The system can further be configured in such a way that it implements the method steps of the various previously described embodiments of the method according to the first aspect and/or comprises means or devices which are configured in such a way that they implement the method steps of the various previously described embodiments of the method according to the implement first aspect.
Gemäß einem dritten Aspekt betrifft die Erfindung ein Computerprogramm oder Computerprogrammprodukt mit maschinenlesbaren Instruktionen, welche, wenn sie auf einer Verarbeitungseinheit ausgeführt werden, ein Verfahren nach dem ersten Aspekt ausführen oder ein System nach dem zweiten Aspekt implementieren.According to a third aspect, the invention relates to a computer program or computer program product with machine-readable instructions which, when executed on a processing unit, execute a method according to the first aspect or implement a system according to the second aspect.
Figurenlistecharacter list
Die erfindungsgemäßen Eigenschaften und die verschiedenen Vorteile der Verfahren und der Vorrichtungen erschließen sich am besten aus einer detaillierten Beschreibung bevorzugter Ausführungsformen mit Verweis auf die beiliegenden Zeichnungen, wobei:
-
1 ein Computersystem verbunden mit einer externen Datenquelle gemäß einem Beispiel veranschaulicht; -
2 ein Verfahren zur Bereitstellung von anonymisierten Daten gemäß einem Beispiel veranschaulicht; -
3 ein Verfahren zur Bereitstellung von teilanonymisierten Daten gemäß einem Beispiel veranschaulicht; und -
4 ein weiteres Beispiel eines Computersystems für den eingeschränkten Zugriff auf personenbezogene Daten veranschaulicht.
-
1 illustrates a computer system connected to an external data source according to an example; -
2 illustrates a method for providing anonymized data according to an example; -
3 illustrates a method for providing partially anonymized data according to an example; and -
4 illustrates another example of a computer system for restricted access to personal data.
Die externe Datenquelle 12 kann über eine Datenleitung, wie das Internet, mit dem Server 14 verbunden sein und über eine Schnittstelle Inhalte bereitstellen. Die externe Datenquelle 12 kann aus einem Teil des über die Schnittstelle publizierten Inhalts bestehen, wie einem bestimmten Publikationskanal eines bestimmten Nutzers oder einer bestimmten Nutzergruppe. Die Schnittstelle kann eine API sein und/oder kann eine Browser-Schnittstelle sein, um Inhalte, welche personenbezogene Kennzeichen aufweisen können, bereitzustellen. Der Server 14 kann auf die Inhalte der externen Datenquelle 12 zugreifen und unter anderem personenbezogene Daten auslesen, wie beispielsweise öffentliche Äußerungen von individuellen Nutzern auf einer Plattform eines sozialen Netzwerks. Der Zugriff auf die Inhalte kann über einen automatisierten Browser erfolgen und/oder kann über Anfragen an die API-Schnittstelle erfolgen.The
Die personenbezogenen Daten, welche der Server 14 aus der externen Datenquelle 12 ausliest, können in dem Server 14 zwischengespeichert werden oder in der Datenbank 18 abgelegt werden, welche eine zugriffsbeschränkte Datenbank 18 sein kann.The personal data which the
Der Server 14 kann die personenbezogenen Daten automatisch analysieren, um personenbezogene Kennzeichen zu identifizieren und eine automatische Anonymisierung der personenbezogenen Daten vorzunehmen. Ein anonymisierter Datensatz 20 kann dann an den Client 16 bereitgestellt werden, welcher eine Schnittstelle zur menschenlesbaren Anzeige des anonymisierten Datensatzes 20 aufweisen kann.The
Ein Server 14 kann die personenbezogenen Kennzeichen in den personenbezogenen Daten anhand quellenspezifischer Datenstrukturen oder Muster identifizieren. Beispielsweise kann der Server 14 eine Antwort auf eine API-Anfrage erhalten und Nutzernamen anhand der Datenstruktur der Antwort ermitteln und/oder kann entsprechende Nutzernamen anhand der Stellung und/oder der Formatierung von Einträgen in einem Publikationsformat, wie eine HTML-basierte Webseite, identifizieren. Ferner kann der Server 14 in audiovisuellen Beiträgen personenbezogene Kennzeichen, wie biometrische Merkmale (Sprachmuster, Gesichtsmerkmale, etc.), automatisch identifizieren.A
Die identifizierten personenbezogenen Kennzeichen können anschließend aus entsprechenden Feldern der einheitlichen Datenstruktur entfernt werden und können zusätzlich zur Anonymisierung der Inhalte verwendet werden. Beispielsweise kann der Server 14 anhand der identifizierten personenbezogenen Kennzeichen die personenbezogenen Daten anonymisieren, indem der Server 14 die personenbezogenen Kennzeichen in den personenbezogenen Daten entfernt, bspw. überlagert und/oder ersetzt, wie durch Pseudonymisierung von Nutzernamen und Schwärzung von biometrischen Gesichtsmerkmalen in Bildern.The identified personal identifiers can then be removed from the corresponding fields of the uniform data structure and can also be used to anonymize the content. For example, the
Der anonymisierte Datensatz 20 kann in der Datenbank 18 gespeichert werden und/oder kann zur Bereitstellung des anonymisierten Datensatzes 20 an einen Client 16 übermittelt werden.The anonymized
In einigen Ausführungsformen werden personenbezogene Daten aus der externen Datenquelle 12 von dem Server 14 zwischengespeichert und nur anonymisierte und/oder teilanonymisierte Datensätze 20 in der Datenbank 18 gespeichert. Ferner können aggregierte Teilinhalte der anonymisierten und/oder teilanonymisierten Datensätze 20, welche in der Datenbank 18 gespeichert werden, an den Client 16 übertragen werden, um dem Client 16 einen zusätzlich anonymisierten und abstrahierten Datensatz 20 bereitzustellen. Der Server 14 kann zu diesem Zweck die anonymisierten und/oder teilanonymisierten Inhalte aggregieren, bspw. durch Bereitstellen einer statistischen Synthese der Inhalte nach Aktivitätszeiträumen und/oder nach automatisch erfasstem semantischen Gehalt, und einen aggregierten Datensatz 20 mit kontextunabhängigen Daten bereitstellen.In some embodiments, personal data from the
In einigen Ausführungsformen werden die personenbezogenen Daten aus der externen Datenquelle 12 in der Datenbank 18 nach einer vorbestimmten Löschungsfrist automatisch gelöscht und/oder mit einer unterschiedlichen Zugriffsbeschränkung wie anonymisierte und/oder teilanonymisierte Datensätze 20 gespeichert. Fordert ein Nutzer teilanonymisierte Datensätze 20 an, in denen zusätzliche personenbezogene Kennzeichen enthalten sind, können diese Daten aus externen Datenquelle 12 und/oder aus der (zugriffsbeschränkten) Datenbank 18 nacherhoben werden.In some embodiments, the personal data from the
Der Client 16 kann bspw. Zugriff auf vollständige Nachrichteninhalte in einem bestimmten Aktivitätszeitraum anfordern und die Anfrage in einer Anfragemaske mit einer zeitlichen Nähe zu einem bestimmten Ereignis rechtfertigen. Der Server 14 kann als Antwort auf diese Anfrage einen teilanonymisierten Datensatz 20 erstellen, welcher vollständige Nachrichteninhalte für den angefragten Aktivitätszeitraum umfasst, wobei personenbezogene Kennzeichen, wie Nutzernamen, in dem teilanonymisierten Datensatz 20 anonymisiert bleiben. Zum Beispiel kann der Server 14 anonymisierte Daten aus der Datenbank 18 aufrufen und vollständige Nachrichteninhalte auswählen, die an den Client 16 übertragen werden.For example, the
In der Folge kann ein Nutzer des Client 16 ein bestimmtes personenbezogenes Kennzeichen, wie einen Nutzernamen, anfordern, welches einer Nachricht zugeordnet ist, die den Verdacht einer schweren Straftat begründet. Die Anfrage kann beispielsweise durch eine gerichtliche Anordnung gerechtfertigt sein.As a result, a user of the
Der Server 14 kann einen Freigabeschlüssel erzeugen und auf personenbezogene Daten in der zugriffsbeschränkten Datenbank 18 zugreifen und/oder kann personenbezogene Daten von der externen Datenquelle 12 anfordern, um das freizugebende personenbezogene Kennzeichen direkt auszulesen, oder um das freizugebende personenbezogene Kennzeichens in den personenbezogenen Daten zu identifizieren und die personenbezogenen Kennzeichen ausgenommen des freizugebenden personenbezogenen Kennzeichens in den personenbezogenen Daten zu entfernen. Der entsprechend teilanonymisierte Datensatz 20 kann anschließend an den Client 16 übertragen werden.The
Die Auswertung und Anonymisierung der personenbezogenen Daten kann serverseitig erfolgen, um einen Eingriff des Clients 16 auf die personenbezogenen Daten zu verhindern. Vorzugsweise ist der Server 14 modular, sodass Teilaufgaben zur Auswertung und Anonymisierung kontextunabhängig vergeben und in einer internen oder externen Servercloud ausgeführt werden können.The personal data can be evaluated and made anonymous on the server side in order to prevent the
Vorzugsweise werden die Module und/oder deren Funktionen als unabhängige Container realisiert, welche in einer internen und/oder einer externen Cloud ausgeführt werden können. Die Containerisierung der Aufgaben kann die maschinenseitige kontextunabhängige Auswertung und Anonymisierung der personenbezogenen Daten erlauben und die Datensicherheit somit weiter verbessern. Entsprechend ist der Server 14 auch nicht auf eine einzelne Recheneinheit eingeschränkt zu verstehen, sondern kann in Ausführungsformen vielmehr aus einer Mehrzahl von Recheneinheiten bestehen.The modules and/or their functions are preferably implemented as independent containers which can be executed in an internal and/or an external cloud. The containerization of the tasks can allow the machine-side context-independent evaluation and anonymization of the personal data and thus further improve data security. Correspondingly, the
Das Eingangsmodul kann auf die externe Datenquelle 12 über eine Zugangsberechtigung, wie bspw. eine Nutzername-Passwort-Kombination, zugreifen. Eine Mehrzahl von Zugangsberechtigungen kann in dem Computersystem 10 hinterlegt sein und kann zum Erhalten von personenbezogenen Daten aus einer Mehrzahl verschiedener externer Datenquellen 12 verwendet werden.The input module can access the
Das Eingangsmodul 22 kann die personenbezogenen Daten der externen Datenquelle 12 auf ein einheitliches Datenformat abbilden, indem es beispielsweise eine quellenspezifische Abbildung vornimmt. Zum Beispiel kann für eine bestimmte Datenquelle, wie ein bestimmtes soziales Netzwerk, eine API-Schnittstelle bereitgestellt sein, welche die Inhalte der externen Datenquelle 12 auf das einheitliche Datenformat abbildet. Ferner kann das Eingangsmodul 22 durch einen automatisierten Browser Informationen einer publizierten Webseite automatisiert auswerten und auf das einheitliche Datenformat abbilden (sog. Web Scraping). Vorzugsweise umfasst das einheitliche Datenformat ein personenbezogenes Datenfeld, wie einen dem publizierten Teilinhalt zugeordneten Nutzernamen.The input module 22 can map the personal data from the
Die in das einheitliche Datenformat gegliederten personenbezogenen Daten können anschließend an das Anonymisierungsmodul 24 weitergeleitet werden, welches personenbezogene Kennzeichen in den personenbezogenen Daten automatisch entfernt. Das Anonymisierungsmodul kann die personenbezogenen Kennzeichen, welche das Eingangsmodul 22 identifiziert hat, löschen und kann darüber hinaus entsprechende Inhalte in den personenbezogenen Daten entfernen oder durch Platzhalter ersetzen. Ferner kann das Anonymisierungsmodul 24 durch Mustererkennung weitere personenbezogenen Kennzeichen, wie z.B. E-Mail-Adressen, biometrische Merkmale, Adressen, usw., identifizieren und zur Erzeugung eines anonymisierten Datensatzes 20 entfernen. Dabei kann das Anonymisierungsmodul 24 freigegebene personenbezogene Kennzeichen von der Entfernung ausschließen. Beispielsweise kann der Server 14 freizugebende oder freigegebene personenbezogenen Kennzeichen in einer Datenbank 18 hinterlegen, und das Anonymisierungsmodul 24 kann die freigegebenen oder freizugebenden personenbezogenen Kennzeichen von der Entfernung ausnehmen, um teilanonymisierte Datensätze 20 bereitzustellen.The personal data broken down into the uniform data format can then be forwarded to the
In einigen Ausführungsformen kann der Server 14 die identifizierten personenbezogenen Kennzeichen, die keine freigegebenen oder freizugebenden personenbezogenen Kennzeichen sind, als Funktionsargument eines anonymisierenden Filters zwischenspeichern und den anonymisierenden Filter auf die personenbezogenen Daten anwenden. Der Filter kann als Container in einer internen oder externen Servercloud die personenbezogenen Daten kontextunabhängig anonymisieren und das Ergebnis der Anonymisierung an einen internen Datenmanager des Anonymisierungsmoduls 24 zurückgeben.In some embodiments, the
In einigen Ausführungsformen kann das Anonymisierungsmodul 24 ein Abbild einer Person als freizugebendes personenbezogenes Kennzeichen erhalten und kann anschließend die Person von der Unkenntlichmachung in den personenbezogenen Daten ausschließen. Zum Beispiel kann das Anonymisierungsmodul 24 biometrische Merkmale in Bildern automatisch identifizieren und kann Merkmalsvektoren für die identifizierten biometrischen Merkmale in den personenbezogenen Daten erzeugen.In some embodiments, the
Das Anonymisierungsmodul 24 kann bspw. anhand einer Abstandsmetrik feststellen, ob ein Abstand zwischen dem Merkmalsvektor des Abbilds der Person und den Merkmalsvektoren der biometrischen Merkmale in den personenbezogenen Daten unterhalb eines vorbestimmten Schwellenwerts liegt. Im Falle einer derart bestimmten Übereinstimmung kann das Anonymisierungsmodul 24 in den personenbezogenen Daten das entsprechende biometrische Merkmal von der Unkenntlichmachung ausnehmen, während andere identifizierte biometrische Merkmale, bspw. in dem gleichen Bild, unkenntlich gemacht werden können (z.B. verpixelt, geschwärzt, usw.).The
Das Zugriffsmodul 26 kann die anonymisierten und/oder teilanonymisierten Datensätze 20 von dem Anonymisierungsmodul 24 erhalten und, bspw. bei entsprechender Rechtfertigung, diese an den Client 16 weiterleiten. Ferner kann das Zugriffsmodul 26 Anfragen des Client 16 zu personenbezogenen Kennzeichen erhalten und auf der Grundlage der Anfrage und der Rechtfertigung Freigabeschlüssel zur Freigabe von personenbezogenen Kennzeichen erstellen. Zum Beispiel kann das Zugriffsmodul 26 freizugebende personenbezogene Kennzeichen in der Datenbank 18 mit einer Rechtfertigung oder einer Authorisierung als Freigabeschlüssel hinterlegen, sodass die freigegebenen personenbezogenen Kennzeichen von der Anonymisierung durch das Anonymisierungsmodul 24 konsistent und und/oder quellenübergreifend ausgenommen werden.The
Vorzugsweise werden die anonymisierten und/oder teilanonymisierten Datensätze 20 ohne eine entsprechende Rechtfertigung nicht vollständig an den Client 16 übermittelt, sondern es werden aggregierte Datensätze 20 und anonymisierte und/oder teilanonymisierte Teildatensätze 20, welche angefragte Teile der anonymisierten und/oder teilanonymisierten Datensätze 20 enthalten, übermittelt.Preferably, the anonymized and/or partially anonymized data records 20 are not transmitted in full to the
Zur Bereitstellung von aggregierten Datensätzen 20 kann das Zugriffsmodul 26 aggregierte Inhalte von dem Aggregationsmodul 28 erhalten. Das Aggregationsmodul 28 kann die anonymisierten und/oder teilanonymisierten Datensätze 20 gemäß vorbestimmten Kriterien analysieren und Analyseresultate für das Zugriffsmodul 26 bereitstellen. In einigen Ausführungsformen kann das Aggregationsmodul 28 personenbezogene Daten vor einer Anonymisierung erhalten und kann Analyseergebnisse ohne Personenbezug auf der Grundlage der personenbezogenen Daten erstellen und bereitstellen.
In einigen Ausführungsformen kann das Aggregationsmodul 28 Textklassifikationsmodule oder Objekterkennungsmodule ausführen, um Inhalte aus sozialen Medien anhand von Referenzdaten zu klassifizieren (bspw. in gewaltaffirmative Äußerungen) oder um bestimmte Bildmerkmale, wie die Präsenz von Waffen oder verfassungsfeindlichen Symbolen, automatisch zu identifizieren. Das Aggregationsmodul 28 kann anschließend Kennwerte der Textklassifikation oder Inzidenzzahlen für bestimmte zu identifizierende Objekte als kontextunabhängige Synthese an das Zugriffsmodul 26 bereitstellen. In einigen Ausführungsformen kann die Objekterkennung auch Buchstaben umfassen, und das Aggregationsmodul 28 kann semantische Inhalte von Bildern in die Textklassifikation einfließen lassen.In some embodiments, the
Auf der Grundlage der Analyse können aggregierte Datensätze 20 erstellt werden, welche eine Mehrzahl von parallelen Analysen, wie Textklassifikation und Objekterkennung, enthalten können. Die aggregierten Datensätze 20 können anschließend an den Client 16 übermittelt werden, und ein Nutzer kann anhand der kontextunabhängigen aggregierten Datensätze 20 den anonymisierten Inhalt der externen Datenquelle 12 auswerten.Based on the analysis, aggregated
Ein Nutzer kann auf der Grundlage von kontextunabhängigen aggregierten Datensätzen 20 zunächst anonymisierte Teildatensätze 20 anfordern und auf deren Grundlage freizugebende personenbezogene Kennzeichen identifizieren. Das Zugriffsmodul 26 kann auf der Grundlage der Anfrage und einer Rechtfertigung teilanonymisierte Datensätze 20 auswählen, welche durch das Anonymisierungsmodul 24 erzeugt und von dem Zugriffsmodul 26 vollständig oder teilweise dem Client 16 bereitgestellt werden können.On the basis of context-independent, aggregated
Die Anfragen, welche eine Erhöhung der Eingriffstiefe bedingen, und deren Rechtfertigung können in einer zugriffsbeschränkten Datenbank 18 gespeichert werden, um ein transparentes und nachvollziehbares Zugriffsverfahren bereitzustellen und dem Nutzer im Rahmen einer gestützten Maschineninteraktion einen protokollierten und minimalen Eingriff in die Datensicherheit der Nutzer der externen Datenquelle 12 erlauben zu können. Dabei kann dem Nutzer ein Verfahren bereitgestellt werden, welches gegenüber einem händischen Verfahren eine umgekehrte Reihenfolge der Eingriffstiefe bewirkt, d. h. die Anonymisierung der personenbezogenen Daten wird systemseitig einem Eingriff vorangestellt, anstatt nachträglich eingeführt zu werden.The inquiries that require an increase in the level of intervention and their justification can be stored in an access-restricted
Die vorhergehende Beschreibung der bevorzugten Ausführungsformen, Beispiele und Zeichnungen soll nur dazu dienen, die Erfindung und die damit verbundenen Vorteile zu veranschaulichen, und soll nicht so verstanden werden, dass sie den Schutzbereich einschränkt. Der Schutzbereich der Erfindung soll vielmehr ausschließlich anhand der beigefügten Ansprüche ermittelt werden.The foregoing description of the preferred embodiments, examples and drawings are only intended to illustrate the invention and the advantages associated therewith and should not be construed as limiting the scope. Rather, the scope of the invention should be determined solely by reference to the appended claims.
BezugszeichenlisteReference List
- 1010
- Computersystemcomputer system
- 1212
- externe Datenquelleexternal data source
- 1414
- Serverserver
- 1616
- Clientclient
- 1818
- DatenbankDatabase
- 2020
- anonymisierte/teilanonymisierte/aggregierte Datensätzeanonymised/partially anonymised/aggregated datasets
- 2222
- Eingangsmodulinput module
- 2424
- AnonymisierungsmodulAnonymization Module
- 2626
- Zugriffsmodulaccess module
- 2828
- Aggregationsmodulaggregation module
Claims (19)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020125598.5A DE102020125598A1 (en) | 2020-09-30 | 2020-09-30 | Data processing system for restricted data and processes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020125598.5A DE102020125598A1 (en) | 2020-09-30 | 2020-09-30 | Data processing system for restricted data and processes |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102020125598A1 true DE102020125598A1 (en) | 2022-03-31 |
Family
ID=80624230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102020125598.5A Pending DE102020125598A1 (en) | 2020-09-30 | 2020-09-30 | Data processing system for restricted data and processes |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102020125598A1 (en) |
-
2020
- 2020-09-30 DE DE102020125598.5A patent/DE102020125598A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112018004946B4 (en) | COGNITIVE DATA ANONYMIZATION | |
DE112014000408B4 (en) | Safe storage and access to digital artifacts | |
DE69730321T2 (en) | METHOD AND DEVICE FOR PROTECTING DATA WITH MULTIPLE ENCRYPTION LEVELS APPLICABLE TO DATA ELEMENTS | |
DE112013000642B4 (en) | Management and retrieval of encrypted biometric data | |
DE10300545B4 (en) | Device, method, storage medium and data structure for the identification and storage of data | |
DE112006001378T5 (en) | Automatic management of a memory access control | |
DE102012220716A1 (en) | Method, data processing device and program for identifying confidential data | |
DE112012003193T5 (en) | Improved captcha program using image sequences | |
DE112010004284T5 (en) | Method and system for managing security objects | |
DE112011101293T5 (en) | Dynamic real-time reports based on social networks | |
EP3563261B1 (en) | Bit-sequence-based data classification system | |
EP3552141B1 (en) | Server computer system for providing datasets | |
DE112020002155T5 (en) | CONSENT TO COMMON PERSONAL INFORMATION | |
DE102021128519A1 (en) | DOCUMENT ACCESS CONTROL BASED ON DOCUMENT COMPONENT LAYOUTS | |
EP3552140B1 (en) | Database index comprising multiple fields | |
DE102020125598A1 (en) | Data processing system for restricted data and processes | |
EP3539045B1 (en) | System with certificate-based access control | |
EP3539044B1 (en) | Access control for data objects | |
EP3580908B1 (en) | Access management system for exporting data sets | |
DE202022106108U1 (en) | Blockchain-powered searchable encryption system for encrypting and storing Electronic Health Records (EHRs) | |
DE102021204405A1 (en) | Method and system for providing data for labeling data as training data for machine learning | |
WO2020201248A1 (en) | Cross-database index in a distributed database system | |
DE102009007715B4 (en) | Method and system for automatically finding electronic images in a data collection | |
EP4339821A1 (en) | Method for transmitting medical data sets | |
DE102021117481A1 (en) | Anonymization of a structured datum and training of a convolutional neural network starting from an anonymized structured datum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R082 | Change of representative |
Representative=s name: BOEHMERT & BOEHMERT ANWALTSPARTNERSCHAFT MBB -, DE |