DE102019210994A1

DE102019210994A1 - Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms

Info

Publication number: DE102019210994A1
Application number: DE102019210994.2A
Authority: DE
Inventors: Jannik Stroetgen; Heike ADEL; Lukas Lange
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2021-01-28
Also published as: US20210027139A1

Abstract

Computerimplementiertes Verfahren zum Maschinenlernen und Verarbeiten eines digitalen Datenstroms sowie Vorrichtungen dafür, wobei eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird (302), wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird (304), und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird (306), und wobei Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden, die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe des Modells bestimmt wird, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden.

Description

Stand der Technik
Die Erfindung geht aus von einer Vorrichtung und einem Verfahren zum Verarbeiten eines digitalen Datenstroms, insbesondere mit einem künstlichen neuronalen Netz.
Beispielsweise werden für die Verarbeitung von Texten rekurrente neuronale Netze in Verbindung mit einem Conditional Random Field Classifier, CRF eingesetzt. Dabei wird jedes Wort eines Texts durch einen distributionellen Vektor repräsentiert, welcher zuvor auf großen Mengen ungelabelter Textdaten trainiert wurde. Dazu werden beispielsweise konkatenierte Wordrepräsentationen benutzt, die auf Standarddaten trainiert wurden. Ein Beispiel dafür ist in Khin et al. 2018 „A Deep Learning Architecture for De-identification of Patient Notes: Implementation and Evaluation." https://arxiv.org/abs/1810.01570 offenbart. Dazu wird beispielsweise auch eine einzelne Wordrepräsentation benutzt, die auf domänenspezifischen Daten trainiert wurde. Ein Beispiel dafür ist in Liu et al. 2017. „De-identification of clinical notes via recurrent neural network and conditional random field.“ https://www.sciencedirect.com/science/article/pii/S1532046417301223 offenbart.
Die Ergebnisse der Modelle können durch eine regelbasierte Nachbearbeitung verbessert werden. Dazu werden allgemeine Regeln, wie z.B. in Liu et al. offenbart, oder trainingsdatenspezifische Regeln verwendet. Ein Beispiel für letztere ist in Yang und Garibaldi 2014. „Automatic detection of protected health information from clinic narratives.“ https://www.sciencedirect.com/science/article/pii/S1532046415001252 offenbart.
Offenbarung der Erfindung
Wird eine Menge an Texten aus einer Dokumentensammlung beispielsweise aus einer medizinischen Domäne vorgegeben, sollen sensitive Textbausteine (z.B. personenbezogene Daten) erkannt werden, sodass die Dokumentensammlung automatisiert anonymisiert werden kann.
Ein computerimplementiertes Verfahren zum Maschinenlernen sieht diesbezüglich vor, dass eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird, wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird, und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird. Dadurch wird ein herkömmliches Modell durch Domänenwissen erweitert. Dabei wird strukturiertes Domänenwissen ausgenutzt, das über das Domänenwissen hinausgeht, das aus den Trainingsdaten erlernbar ist. Durch die Integration von Domänenwissen wird auch mit wenigen Trainingsdaten ein robustes Modell gelernt.
Vorteilhafterweise wird eine Regel bereitgestellt, die abhängig von Information über die Domäne definiert ist, wobei eine Ausgabe des Modells abhängig von der Regel überprüft wird. Mit domänen-spezifischen Regeln kann überprüft werden, ob die Vorhersagen des Modells ausreichend gut sind. Die Regeln können von einem Domänenexperten vorgegeben sein.
Bevorzugt wird abhängig vom Modell ein Textbaustein identifiziert und einer Klasse aus einer Menge Klassen zugeordnet. Ein Textbaustein ist beispielsweise ein Wort eines Dokuments. Dieses Modell klassifizieren jedes Wort eines vorliegenden Dokuments einzeln als zu einer vorgegebenen Menge an Klassen zugehörig, z.B. sensibles Datum oder nicht; oder feingranularer Name, Datum, Ort, etc..
Vorzugsweise umfasst das Modell ein rekurrentes neuronales Netz. Dieses Modell eignet sich besonders gut für das Klassifizieren.
In einem Aspekt werden erste Wortvektoren mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert, wobei zweite Wortvektoren mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert werden, wobei die Daten Worte umfassen, wobei für wenigstens ein Wort eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt wird, die das Wort repräsentiert, wobei das Modell abhängig von der Kombination überwacht trainiert wird. Die Kombination kann durch eine Konkatenation der Wortvektoren und einen entsprechend dimensionierten Eingang des Modells, z.B. einer dementsprechenden Eingangsschicht des künstlichen neuronalen Netzwerks, realisiert sein. Damit wird ein Modell zur automatischen Erkennung von sensitiven Textbausteinen trainiert, das durch Domänenwissen erweitert ist.
Vorzugsweise wird für wenigstens ein Wort abhängig vom Modell eine Klasse für das wenigstens eine Wort bestimmt, die einen Platzhalter für das Wort charakterisiert. Das trainierte Modell wird insbesondere zur Zuordnung von Worten zu Platzhaltern eingesetzt.
Bevorzugt wird für wenigstens ein Wort abhängig vom Modell geprüft, ob das Wort geschützt ist, wobei eine Klasse für den Platzhalter bestimmt wird, wenn das wenigstens eine Wort geschützt ist. Basierend darauf können in Texten, die automatisch anonymisiert werden sollen, nur sensitive Worte, die geschützt werden sollen, klassifiziert und durch Platzhalter ersetzt werden.
Vorzugsweise wird, wenn ein Wort aus einem Text geschützt ist, ein Platzhalter für das Wort bestimmt und eine Repräsentation des Worts durch einen Platzhalter ersetzt. Dies stellt ein automatisiertes Ersetzen der sensitiven Worte im Datenstrom dar.
Ein diesbezügliches Verfahren zur Verarbeitung eines digitalen Datenstroms, der digitale Daten umfasst, wobei die digitalen Daten Worte repräsentieren, sieht vor, dass Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden, die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe eines Modells bestimmt wird, das gemäß dem zuvor beschriebenen Verfahren trainiert ist, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden. Der digitale Datenstrom kann eine Datenübertragung zwischen zwei Servern, zwischen einem Server und einem Client oder auf einem internen Bus eines Computers betreffen. Die Worte müssten nicht in für den Menschen lesbarer Form dargestellt werden. Vielmehr kann die Repräsentation der Worte durch die Bits im Datenstrom selbst verwendet werden. Dadurch werden automatisch sensitive Daten in dem im Datenstrom codierten Text erkannt und mit Platzhaltern ersetzt. Vorzugsweise werden die Repräsentation der Worte, die überprüft werden, aus digitalen Daten bestimmt, die in der Payload von Datenpaketen enthalten sind, die der digitale Datenstrom umfasst.
Eine Vorrichtung zum Maschinenlernen umfasst einen Prozessor, und einen Speicher für ein künstliches neuronales Netz, die ausgebildet sind das Verfahren zum Maschinenlernen auszuführen.
Eine Vorrichtung zum Verarbeiten eines digitalen Datenstroms umfasst einen Prozessor, und einen Speicher für ein künstliches neuronales Netz, die ausgebildet sind das Verfahren zum Verarbeiten des digitalen Datenstroms auszuführen.
Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt

1 eine schematische Darstellung einer Vorrichtung zum Maschinenlernen,
2 eine schematische Darstellung einer Vorrichtung zum Verarbeiten eines digitalen Datenstroms,
3 Schritte in einem Verfahren zum Maschinenlernen,
4 Schritte in einem Verfahren zum Verarbeiten des digitalen Datenstroms.

1 stellt eine Vorrichtung 100 zum Maschinenlernen schematisch dar. Diese Vorrichtung 100 umfasst einen Prozessor 102, und einen Speicher 104 für ein künstliches neuronales Netz. Die Vorrichtung 100 umfasst im Beispiel eine Schnittstelle 106 für eine Eingabe und eine Ausgabe von Daten. Der Prozessor 102, der Speicher 104 und die Schnittstelle 106 sind über wenigstens eine Datenleitung 108 verbunden. Die Vorrichtung 100 kann auch als verteiltes System in einer Serverinfrastruktur ausgebildet sein. Diese sind ausgebildet sind das Verfahren zum Maschinenlernen auszuführen, das im Folgenden anhand der 3 beschrieben wird.
2 stellt eine Vorrichtung 200 zum Verarbeiten eines digitalen Datenstroms 202 dar. Diese Vorrichtung 200 umfasst einen Prozessor 204 und einen Speicher 206 für das künstliche neuronales Netz. Die Vorrichtung 200 umfasst im Beispiel eine Schnittstelle 208 für eine Eingabe und eine Ausgabe von Daten. Der Prozessor 204, der Speicher 206 und die Schnittstelle 208 sind über wenigstens eine Datenleitung 210, insbesondere einen Datenbus, verbunden. Der Prozessor 204 und der Speicher 206 können in einen Mikrocontroller integriert sein. Die Vorrichtung 200 kann auch als verteiltes System in einer Serverinfrastruktur ausgebildet sein. Diese sind ausgebildet das im Folgenden anhand der 4 beschriebene Verfahren zum Verarbeiten des digitalen Datenstroms 202 auszuführen. Ein aus der Verarbeitung des digitalen Datenstroms 202 als Eingabe der Schnittstelle 208 resultierender Datenstrom 202' ist in 2 als Ausgabe der Schnittstelle 208 dargestellt.
3 stellt Schritte in einem Verfahren zum Maschinenlernen dar.
In einem Schritt 302 wird eine Repräsentation von Texten unabhängig von einer Domäne bereitgestellt. Die Texte umfassen im Beispiel Worte. Einzelne Worte sind durch vorzugsweise eindeutige domänen-unspezifische erste Wortvektoren repräsentiert. Diese werden abhängig von Texten trainiert, die für die Domäne unspezifisch sind. Die ersten Wortvektoren werden beispielsweise mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert. Die Daten codieren im Beispiel Worte.
In einem anschließenden Schritt 304 wird eine Repräsentation einer Struktur der Domäne bereitgestellt. Die Struktur wird beispielsweise durch domänenspezifische zweite Wortvektoren repräsentiert. Diese werden abhängig von Texten trainiert, die für die Domäne spezifisch sind. Die zweiten Wortvektoren werden beispielsweise mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert. Die Daten codieren im Beispiel Worte.
In einem anschließenden Schritt 306 wird das Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert.
Daten dazu werden beispielsweise aus Dokumenten erzeugt. Die Daten codieren im Beispiel Worte. Für die Worte wird eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt, die das Wort repräsentiert. Das Modell wird abhängig von dieser Kombination überwacht trainiert.
Durch diese Integration von Domänenwissen wird auch mit wenigen Trainingsdaten ein robustes Modell gelernt.
Das Modell ist im Beispiel ein künstliches neuronales Netz, insbesondere ein rekurrentes neuronales Netz.
Diese Schritte können wiederholt werden bis ein Gütemaß für das Training erreicht ist.
Nach dem Training können folgende optionale Schritte für Worte aus beliebigen Texten ausgeführt werden.
Beispielsweise wird in einem anschließenden optionalen Schritt 308 eine Regel bereitgestellt, die abhängig von Information über die Domäne definiert ist. Die Regel ist im Beispiel von einem Domänenexperten vorgegeben.
Beispielsweise wird in einem Schritt 310 für ein Wort abhängig vom Modell geprüft, ob das Wort geschützt ist. Das wenigstens eine Wort ist beispielsweise geschützt, wenn es sich um ein Wort handelt, das vom Modell in eine Klasse klassifiziert wird, die automatisch anonymisiert werden soll. Dies wird beispielsweise abhängig vom Modell geprüft.
Wenn das Wort geschützt ist, wird ein Schritt 312 ausgeführt. Anderenfalls wird das Verfahren beendet.
Im Schritt 312 wird für das Wort abhängig vom Modell eine Klasse für einen Platzhalter für das Wort bestimmt.
Anschließend wird ein Schritt 314 ausgeführt.
Im Schritt 314 wird für eine Ausgabe ein Platzhalter für das Wort bestimmt. Der Platzhalter ist beispielsweise eine Anonymisierung des Wortes, wenn das Wort ein sensibles Datum wie ein Name, Datum oder Ort einer Person ist.
In einem anschließenden optionalen Schritt 316 wird die Ausgabe des Modells abhängig von der Regel überprüft. Durch die domänen-spezifischen Regel wird im Beispiel überprüft, ob die Vorhersagen des Modells ausreichend gut sind.
Es kann vorgesehen sein, abhängig vom Ergebnis der Überprüfung die Ausgabe zu korrigieren oder von einer Benutzung der Ausgabe abzusehen.
Anschließend wird ein Schritt 318 ausgeführt.
Im Schritt 318 wird die Repräsentation des Worts durch den Platzhalter ersetzt. Beispielsweise werden die codierten Daten, die das Wort repräsentieren durch codierte Daten ersetzt, die den Platzhalter repräsentieren.
Anschließend endet das Verfahren.
4 stellt Schritte in einem Verfahren zum Verarbeiten des digitalen Datenstroms 202 dar, der digitale Daten umfasst.
In einem Schritt 402 werden Daten aus dem Datenstrom als Eingangsgröße für ein künstliches neuronales Netz bestimmt. Die Daten repräsentieren wenigstens ein Wort. Das künstliche neuronale Netz ist im Beispiel wie zuvor beschrieben trainiert für ein bestimmtes Wort einen Platzhalter zu finden, oder nicht.
In einem anschließenden Schritt 404 wird abhängig von den Eingangsdaten eine Ausgabe des künstlichen neuronalen Netzes bestimmt.
In einem anschließenden Schritt 406 wird geprüft, ob die Ausgabe wenigstens einen Platzhalter umfasst. Wenn die Ausgabe wenigstens einen Platzhalter umfasst, wird ein Schritt 408 ausgeführt. Wenn die Ausgabe keinen Platzhalter definiert, wird das Verfahren mit dem Schritt 402 für neue Daten fortgesetzt, im Beispiel ohne den Datenstrom 202 zu verändern.
Im Schritt 408 werden abhängig von der Ausgabe des künstlichen neuronalen Netzes Daten aus zumindest einem Teil des Datenstroms 202, die das wenigstens eine Wort repräsentieren, durch Daten ersetzt, die den wenigstens einen Platzhalter für das Wort repräsentieren. Im Beispiel wird der so geänderte Datenstrom 202' ausgegeben.
Anschließend wird das Verfahren mit dem Schritt 402 für neue Daten fortgesetzt.
Es kann vorgesehen sein, dass Worte und Platzhalter oder deren Repräsentation im Datenstrom 202 abhängig von der Ausgabe des künstlichen neuronalen Netzes bestimmt wird.
Die Worte oder Platzhalter müssten nicht in für den Menschen lesbarer Form dargestellt werden. Vielmehr kann die Repräsentation der Worte durch die Bits im Datenstrom 202 selbst verwendet werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Khin et al. 2018 „A Deep Learning Architecture for De-identification of Patient Notes: Implementation and Evaluation.“ https://arxiv.org/abs/1810.01570 [0002]

Claims

Computerimplementiertes Verfahren zum Maschinenlernen, dadurch gekennzeichnet, dass eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird (302), wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird (304), und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird (306).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Regel bereitgestellt wird (308), die abhängig von Information über die Domäne definiert ist, wobei eine Ausgabe des Modells abhängig von der Regel überprüft wird (316).
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig vom Modell ein Textbaustein identifiziert und einer Klasse aus einer Menge Klassen zugeordnet wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Modell ein rekurrentes neuronales Netz umfasst.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass erste Wortvektoren mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert werden (302), wobei zweite Wortvektoren mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert werden (304), wobei die Daten Worte umfassen, wobei für wenigstens ein Wort eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt wird (306), die das Wort repräsentiert, wobei das Modell abhängig von der Kombination überwacht trainiert wird (306).
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass für wenigstens ein Wort abhängig vom Modell eine Klasse für das wenigstens eine Wort bestimmt wird, die einen Platzhalter für das Wort charakterisiert.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass für wenigstens ein Wort abhängig vom Modell geprüft wird, ob das Wort geschützt ist (310), wobei eine Klasse für den Platzhalter bestimmt wird (312), wenn das wenigstens eine Wort geschützt ist.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass, wenn ein Wort aus einem Text geschützt ist, ein Platzhalter für das Wort bestimmt wird (312) und eine Repräsentation des Worts durch einen Platzhalter ersetzt wird (318).
Verfahren zur Verarbeitung eines digitalen Datenstroms, der digitale Daten umfasst, wobei die digitalen Daten Worte repräsentieren, dadurch gekennzeichnet, dass Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden (408), die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe eines Modells bestimmt wird, das gemäß dem Verfahren nach einem der Ansprüche 1 bis 8 trainiert ist, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden.
Vorrichtung (100) zum Maschinenlernen, dadurch gekennzeichnet, dass die Vorrichtung (100) einen Prozessor (102), und einen Speicher (104) für ein künstliches neuronales Netz umfasst, die ausgebildet sind das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.
Vorrichtung (200) zum Verarbeiten eines digitalen Datenstroms (202), dadurch gekennzeichnet, dass die Vorrichtung (200) einen Prozessor (204), und einen Speicher (206) für ein künstliches neuronales Netz umfasst, die ausgebildet sind das Verfahren nach Anspruch 9 auszuführen.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführen auf einem Computer ein Verfahren nach einem der Ansprüche 1 bis 9 abläuft.
Computerprogrammprodukt, gekennzeichnet durch ein maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.