DE102019210994A1 - Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms - Google Patents

Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms Download PDF

Info

Publication number
DE102019210994A1
DE102019210994A1 DE102019210994.2A DE102019210994A DE102019210994A1 DE 102019210994 A1 DE102019210994 A1 DE 102019210994A1 DE 102019210994 A DE102019210994 A DE 102019210994A DE 102019210994 A1 DE102019210994 A1 DE 102019210994A1
Authority
DE
Germany
Prior art keywords
word
data
model
depending
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019210994.2A
Other languages
English (en)
Inventor
Jannik Stroetgen
Heike ADEL
Lukas Lange
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019210994.2A priority Critical patent/DE102019210994A1/de
Priority to US16/932,043 priority patent/US20210027139A1/en
Publication of DE102019210994A1 publication Critical patent/DE102019210994A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

Computerimplementiertes Verfahren zum Maschinenlernen und Verarbeiten eines digitalen Datenstroms sowie Vorrichtungen dafür, wobei eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird (302), wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird (304), und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird (306), und wobei Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden, die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe des Modells bestimmt wird, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden.

Description

  • Stand der Technik
  • Die Erfindung geht aus von einer Vorrichtung und einem Verfahren zum Verarbeiten eines digitalen Datenstroms, insbesondere mit einem künstlichen neuronalen Netz.
  • Beispielsweise werden für die Verarbeitung von Texten rekurrente neuronale Netze in Verbindung mit einem Conditional Random Field Classifier, CRF eingesetzt. Dabei wird jedes Wort eines Texts durch einen distributionellen Vektor repräsentiert, welcher zuvor auf großen Mengen ungelabelter Textdaten trainiert wurde. Dazu werden beispielsweise konkatenierte Wordrepräsentationen benutzt, die auf Standarddaten trainiert wurden. Ein Beispiel dafür ist in Khin et al. 2018 „A Deep Learning Architecture for De-identification of Patient Notes: Implementation and Evaluation." https://arxiv.org/abs/1810.01570 offenbart. Dazu wird beispielsweise auch eine einzelne Wordrepräsentation benutzt, die auf domänenspezifischen Daten trainiert wurde. Ein Beispiel dafür ist in Liu et al. 2017. „De-identification of clinical notes via recurrent neural network and conditional random field.“ https://www.sciencedirect.com/science/article/pii/S1532046417301223 offenbart.
  • Die Ergebnisse der Modelle können durch eine regelbasierte Nachbearbeitung verbessert werden. Dazu werden allgemeine Regeln, wie z.B. in Liu et al. offenbart, oder trainingsdatenspezifische Regeln verwendet. Ein Beispiel für letztere ist in Yang und Garibaldi 2014. „Automatic detection of protected health information from clinic narratives.“ https://www.sciencedirect.com/science/article/pii/S1532046415001252 offenbart.
  • Offenbarung der Erfindung
  • Wird eine Menge an Texten aus einer Dokumentensammlung beispielsweise aus einer medizinischen Domäne vorgegeben, sollen sensitive Textbausteine (z.B. personenbezogene Daten) erkannt werden, sodass die Dokumentensammlung automatisiert anonymisiert werden kann.
  • Ein computerimplementiertes Verfahren zum Maschinenlernen sieht diesbezüglich vor, dass eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird, wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird, und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird. Dadurch wird ein herkömmliches Modell durch Domänenwissen erweitert. Dabei wird strukturiertes Domänenwissen ausgenutzt, das über das Domänenwissen hinausgeht, das aus den Trainingsdaten erlernbar ist. Durch die Integration von Domänenwissen wird auch mit wenigen Trainingsdaten ein robustes Modell gelernt.
  • Vorteilhafterweise wird eine Regel bereitgestellt, die abhängig von Information über die Domäne definiert ist, wobei eine Ausgabe des Modells abhängig von der Regel überprüft wird. Mit domänen-spezifischen Regeln kann überprüft werden, ob die Vorhersagen des Modells ausreichend gut sind. Die Regeln können von einem Domänenexperten vorgegeben sein.
  • Bevorzugt wird abhängig vom Modell ein Textbaustein identifiziert und einer Klasse aus einer Menge Klassen zugeordnet. Ein Textbaustein ist beispielsweise ein Wort eines Dokuments. Dieses Modell klassifizieren jedes Wort eines vorliegenden Dokuments einzeln als zu einer vorgegebenen Menge an Klassen zugehörig, z.B. sensibles Datum oder nicht; oder feingranularer Name, Datum, Ort, etc..
  • Vorzugsweise umfasst das Modell ein rekurrentes neuronales Netz. Dieses Modell eignet sich besonders gut für das Klassifizieren.
  • In einem Aspekt werden erste Wortvektoren mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert, wobei zweite Wortvektoren mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert werden, wobei die Daten Worte umfassen, wobei für wenigstens ein Wort eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt wird, die das Wort repräsentiert, wobei das Modell abhängig von der Kombination überwacht trainiert wird. Die Kombination kann durch eine Konkatenation der Wortvektoren und einen entsprechend dimensionierten Eingang des Modells, z.B. einer dementsprechenden Eingangsschicht des künstlichen neuronalen Netzwerks, realisiert sein. Damit wird ein Modell zur automatischen Erkennung von sensitiven Textbausteinen trainiert, das durch Domänenwissen erweitert ist.
  • Vorzugsweise wird für wenigstens ein Wort abhängig vom Modell eine Klasse für das wenigstens eine Wort bestimmt, die einen Platzhalter für das Wort charakterisiert. Das trainierte Modell wird insbesondere zur Zuordnung von Worten zu Platzhaltern eingesetzt.
  • Bevorzugt wird für wenigstens ein Wort abhängig vom Modell geprüft, ob das Wort geschützt ist, wobei eine Klasse für den Platzhalter bestimmt wird, wenn das wenigstens eine Wort geschützt ist. Basierend darauf können in Texten, die automatisch anonymisiert werden sollen, nur sensitive Worte, die geschützt werden sollen, klassifiziert und durch Platzhalter ersetzt werden.
  • Vorzugsweise wird, wenn ein Wort aus einem Text geschützt ist, ein Platzhalter für das Wort bestimmt und eine Repräsentation des Worts durch einen Platzhalter ersetzt. Dies stellt ein automatisiertes Ersetzen der sensitiven Worte im Datenstrom dar.
  • Ein diesbezügliches Verfahren zur Verarbeitung eines digitalen Datenstroms, der digitale Daten umfasst, wobei die digitalen Daten Worte repräsentieren, sieht vor, dass Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden, die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe eines Modells bestimmt wird, das gemäß dem zuvor beschriebenen Verfahren trainiert ist, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden. Der digitale Datenstrom kann eine Datenübertragung zwischen zwei Servern, zwischen einem Server und einem Client oder auf einem internen Bus eines Computers betreffen. Die Worte müssten nicht in für den Menschen lesbarer Form dargestellt werden. Vielmehr kann die Repräsentation der Worte durch die Bits im Datenstrom selbst verwendet werden. Dadurch werden automatisch sensitive Daten in dem im Datenstrom codierten Text erkannt und mit Platzhaltern ersetzt. Vorzugsweise werden die Repräsentation der Worte, die überprüft werden, aus digitalen Daten bestimmt, die in der Payload von Datenpaketen enthalten sind, die der digitale Datenstrom umfasst.
  • Eine Vorrichtung zum Maschinenlernen umfasst einen Prozessor, und einen Speicher für ein künstliches neuronales Netz, die ausgebildet sind das Verfahren zum Maschinenlernen auszuführen.
  • Eine Vorrichtung zum Verarbeiten eines digitalen Datenstroms umfasst einen Prozessor, und einen Speicher für ein künstliches neuronales Netz, die ausgebildet sind das Verfahren zum Verarbeiten des digitalen Datenstroms auszuführen.
  • Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt
    • 1 eine schematische Darstellung einer Vorrichtung zum Maschinenlernen,
    • 2 eine schematische Darstellung einer Vorrichtung zum Verarbeiten eines digitalen Datenstroms,
    • 3 Schritte in einem Verfahren zum Maschinenlernen,
    • 4 Schritte in einem Verfahren zum Verarbeiten des digitalen Datenstroms.
  • 1 stellt eine Vorrichtung 100 zum Maschinenlernen schematisch dar. Diese Vorrichtung 100 umfasst einen Prozessor 102, und einen Speicher 104 für ein künstliches neuronales Netz. Die Vorrichtung 100 umfasst im Beispiel eine Schnittstelle 106 für eine Eingabe und eine Ausgabe von Daten. Der Prozessor 102, der Speicher 104 und die Schnittstelle 106 sind über wenigstens eine Datenleitung 108 verbunden. Die Vorrichtung 100 kann auch als verteiltes System in einer Serverinfrastruktur ausgebildet sein. Diese sind ausgebildet sind das Verfahren zum Maschinenlernen auszuführen, das im Folgenden anhand der 3 beschrieben wird.
  • 2 stellt eine Vorrichtung 200 zum Verarbeiten eines digitalen Datenstroms 202 dar. Diese Vorrichtung 200 umfasst einen Prozessor 204 und einen Speicher 206 für das künstliche neuronales Netz. Die Vorrichtung 200 umfasst im Beispiel eine Schnittstelle 208 für eine Eingabe und eine Ausgabe von Daten. Der Prozessor 204, der Speicher 206 und die Schnittstelle 208 sind über wenigstens eine Datenleitung 210, insbesondere einen Datenbus, verbunden. Der Prozessor 204 und der Speicher 206 können in einen Mikrocontroller integriert sein. Die Vorrichtung 200 kann auch als verteiltes System in einer Serverinfrastruktur ausgebildet sein. Diese sind ausgebildet das im Folgenden anhand der 4 beschriebene Verfahren zum Verarbeiten des digitalen Datenstroms 202 auszuführen. Ein aus der Verarbeitung des digitalen Datenstroms 202 als Eingabe der Schnittstelle 208 resultierender Datenstrom 202' ist in 2 als Ausgabe der Schnittstelle 208 dargestellt.
  • 3 stellt Schritte in einem Verfahren zum Maschinenlernen dar.
  • In einem Schritt 302 wird eine Repräsentation von Texten unabhängig von einer Domäne bereitgestellt. Die Texte umfassen im Beispiel Worte. Einzelne Worte sind durch vorzugsweise eindeutige domänen-unspezifische erste Wortvektoren repräsentiert. Diese werden abhängig von Texten trainiert, die für die Domäne unspezifisch sind. Die ersten Wortvektoren werden beispielsweise mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert. Die Daten codieren im Beispiel Worte.
  • In einem anschließenden Schritt 304 wird eine Repräsentation einer Struktur der Domäne bereitgestellt. Die Struktur wird beispielsweise durch domänenspezifische zweite Wortvektoren repräsentiert. Diese werden abhängig von Texten trainiert, die für die Domäne spezifisch sind. Die zweiten Wortvektoren werden beispielsweise mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert. Die Daten codieren im Beispiel Worte.
  • In einem anschließenden Schritt 306 wird das Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert.
  • Daten dazu werden beispielsweise aus Dokumenten erzeugt. Die Daten codieren im Beispiel Worte. Für die Worte wird eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt, die das Wort repräsentiert. Das Modell wird abhängig von dieser Kombination überwacht trainiert.
  • Durch diese Integration von Domänenwissen wird auch mit wenigen Trainingsdaten ein robustes Modell gelernt.
  • Das Modell ist im Beispiel ein künstliches neuronales Netz, insbesondere ein rekurrentes neuronales Netz.
  • Diese Schritte können wiederholt werden bis ein Gütemaß für das Training erreicht ist.
  • Nach dem Training können folgende optionale Schritte für Worte aus beliebigen Texten ausgeführt werden.
  • Beispielsweise wird in einem anschließenden optionalen Schritt 308 eine Regel bereitgestellt, die abhängig von Information über die Domäne definiert ist. Die Regel ist im Beispiel von einem Domänenexperten vorgegeben.
  • Beispielsweise wird in einem Schritt 310 für ein Wort abhängig vom Modell geprüft, ob das Wort geschützt ist. Das wenigstens eine Wort ist beispielsweise geschützt, wenn es sich um ein Wort handelt, das vom Modell in eine Klasse klassifiziert wird, die automatisch anonymisiert werden soll. Dies wird beispielsweise abhängig vom Modell geprüft.
  • Wenn das Wort geschützt ist, wird ein Schritt 312 ausgeführt. Anderenfalls wird das Verfahren beendet.
  • Im Schritt 312 wird für das Wort abhängig vom Modell eine Klasse für einen Platzhalter für das Wort bestimmt.
  • Anschließend wird ein Schritt 314 ausgeführt.
  • Im Schritt 314 wird für eine Ausgabe ein Platzhalter für das Wort bestimmt. Der Platzhalter ist beispielsweise eine Anonymisierung des Wortes, wenn das Wort ein sensibles Datum wie ein Name, Datum oder Ort einer Person ist.
  • In einem anschließenden optionalen Schritt 316 wird die Ausgabe des Modells abhängig von der Regel überprüft. Durch die domänen-spezifischen Regel wird im Beispiel überprüft, ob die Vorhersagen des Modells ausreichend gut sind.
  • Es kann vorgesehen sein, abhängig vom Ergebnis der Überprüfung die Ausgabe zu korrigieren oder von einer Benutzung der Ausgabe abzusehen.
  • Anschließend wird ein Schritt 318 ausgeführt.
  • Im Schritt 318 wird die Repräsentation des Worts durch den Platzhalter ersetzt. Beispielsweise werden die codierten Daten, die das Wort repräsentieren durch codierte Daten ersetzt, die den Platzhalter repräsentieren.
  • Anschließend endet das Verfahren.
  • 4 stellt Schritte in einem Verfahren zum Verarbeiten des digitalen Datenstroms 202 dar, der digitale Daten umfasst.
  • In einem Schritt 402 werden Daten aus dem Datenstrom als Eingangsgröße für ein künstliches neuronales Netz bestimmt. Die Daten repräsentieren wenigstens ein Wort. Das künstliche neuronale Netz ist im Beispiel wie zuvor beschrieben trainiert für ein bestimmtes Wort einen Platzhalter zu finden, oder nicht.
  • In einem anschließenden Schritt 404 wird abhängig von den Eingangsdaten eine Ausgabe des künstlichen neuronalen Netzes bestimmt.
  • In einem anschließenden Schritt 406 wird geprüft, ob die Ausgabe wenigstens einen Platzhalter umfasst. Wenn die Ausgabe wenigstens einen Platzhalter umfasst, wird ein Schritt 408 ausgeführt. Wenn die Ausgabe keinen Platzhalter definiert, wird das Verfahren mit dem Schritt 402 für neue Daten fortgesetzt, im Beispiel ohne den Datenstrom 202 zu verändern.
  • Im Schritt 408 werden abhängig von der Ausgabe des künstlichen neuronalen Netzes Daten aus zumindest einem Teil des Datenstroms 202, die das wenigstens eine Wort repräsentieren, durch Daten ersetzt, die den wenigstens einen Platzhalter für das Wort repräsentieren. Im Beispiel wird der so geänderte Datenstrom 202' ausgegeben.
  • Anschließend wird das Verfahren mit dem Schritt 402 für neue Daten fortgesetzt.
  • Es kann vorgesehen sein, dass Worte und Platzhalter oder deren Repräsentation im Datenstrom 202 abhängig von der Ausgabe des künstlichen neuronalen Netzes bestimmt wird.
  • Die Worte oder Platzhalter müssten nicht in für den Menschen lesbarer Form dargestellt werden. Vielmehr kann die Repräsentation der Worte durch die Bits im Datenstrom 202 selbst verwendet werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Khin et al. 2018 „A Deep Learning Architecture for De-identification of Patient Notes: Implementation and Evaluation.“ https://arxiv.org/abs/1810.01570 [0002]

Claims (13)

  1. Computerimplementiertes Verfahren zum Maschinenlernen, dadurch gekennzeichnet, dass eine Repräsentation eines Textes unabhängig von einer Domäne bereitgestellt wird (302), wobei eine Repräsentation einer Struktur der Domäne bereitgestellt wird (304), und wobei ein Modell zur automatischen Erkennung von sensitiven Textbausteinen abhängig von den Repräsentationen trainiert wird (306).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Regel bereitgestellt wird (308), die abhängig von Information über die Domäne definiert ist, wobei eine Ausgabe des Modells abhängig von der Regel überprüft wird (316).
  3. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig vom Modell ein Textbaustein identifiziert und einer Klasse aus einer Menge Klassen zugeordnet wird.
  4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Modell ein rekurrentes neuronales Netz umfasst.
  5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass erste Wortvektoren mit einer ersten Menge domänen-unabhängige Daten unüberwacht trainiert werden (302), wobei zweite Wortvektoren mit einer zweiten Menge domänen-spezifischer Daten unüberwacht trainiert werden (304), wobei die Daten Worte umfassen, wobei für wenigstens ein Wort eine Kombination von erstem Wortvektor und zweitem Wortvektor bestimmt wird (306), die das Wort repräsentiert, wobei das Modell abhängig von der Kombination überwacht trainiert wird (306).
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass für wenigstens ein Wort abhängig vom Modell eine Klasse für das wenigstens eine Wort bestimmt wird, die einen Platzhalter für das Wort charakterisiert.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass für wenigstens ein Wort abhängig vom Modell geprüft wird, ob das Wort geschützt ist (310), wobei eine Klasse für den Platzhalter bestimmt wird (312), wenn das wenigstens eine Wort geschützt ist.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass, wenn ein Wort aus einem Text geschützt ist, ein Platzhalter für das Wort bestimmt wird (312) und eine Repräsentation des Worts durch einen Platzhalter ersetzt wird (318).
  9. Verfahren zur Verarbeitung eines digitalen Datenstroms, der digitale Daten umfasst, wobei die digitalen Daten Worte repräsentieren, dadurch gekennzeichnet, dass Daten aus zumindest einem Teil des Datenstroms, die ein Wort repräsentieren, durch Daten ersetzt werden (408), die einen Platzhalter für das Wort repräsentieren, wobei abhängig von den Daten eine Ausgabe eines Modells bestimmt wird, das gemäß dem Verfahren nach einem der Ansprüche 1 bis 8 trainiert ist, wobei in den Daten zu ersetzende Daten und Daten, welche die zu ersetzenden Daten ersetzen, abhängig von der Ausgabe des Modells bestimmt werden.
  10. Vorrichtung (100) zum Maschinenlernen, dadurch gekennzeichnet, dass die Vorrichtung (100) einen Prozessor (102), und einen Speicher (104) für ein künstliches neuronales Netz umfasst, die ausgebildet sind das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.
  11. Vorrichtung (200) zum Verarbeiten eines digitalen Datenstroms (202), dadurch gekennzeichnet, dass die Vorrichtung (200) einen Prozessor (204), und einen Speicher (206) für ein künstliches neuronales Netz umfasst, die ausgebildet sind das Verfahren nach Anspruch 9 auszuführen.
  12. Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführen auf einem Computer ein Verfahren nach einem der Ansprüche 1 bis 9 abläuft.
  13. Computerprogrammprodukt, gekennzeichnet durch ein maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.
DE102019210994.2A 2019-07-24 2019-07-24 Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms Pending DE102019210994A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102019210994.2A DE102019210994A1 (de) 2019-07-24 2019-07-24 Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms
US16/932,043 US20210027139A1 (en) 2019-07-24 2020-07-17 Device and method for processing a digital data stream

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019210994.2A DE102019210994A1 (de) 2019-07-24 2019-07-24 Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms

Publications (1)

Publication Number Publication Date
DE102019210994A1 true DE102019210994A1 (de) 2021-01-28

Family

ID=74098841

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019210994.2A Pending DE102019210994A1 (de) 2019-07-24 2019-07-24 Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms

Country Status (2)

Country Link
US (1) US20210027139A1 (de)
DE (1) DE102019210994A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230282322A1 (en) * 2022-03-02 2023-09-07 CLARITRICS INC. d.b.a BUDDI AI System and method for anonymizing medical records

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068068A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Automated removal of protected health information
US20190156921A1 (en) * 2017-11-22 2019-05-23 General Electric Company Imaging related clinical context apparatus and associated methods

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068068A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Automated removal of protected health information
US20190156921A1 (en) * 2017-11-22 2019-05-23 General Electric Company Imaging related clinical context apparatus and associated methods

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KHIN, Kaung; BURCKHARDT, Philipp; PADMAN, Rema: A deep learning architecture for De-identification of patient notes: Implementation and evaluation. 03-10-2018. S. 1-15. URL: https://arxiv.org/pdf/1810.01570 [abgerufen am 24.09.2019]. arXiv:1810.01570 *
LAMPLE, Guillaume, et al. Neural architectures for named entity recognition. [Version 3] 2016. arXiv:1603.01360v3 [cs.CL] *
MEYSTRE, Stephane M., et al. Automatic de-identification of textual documents in the electronic health record: a review of recent research. BMC medical research methodology, 2010, 10. Jg., Nr. 1, S. 70. DOI: 10.1186/1471-2288-10-70 *
YANG, Xi, et al. A study of deep learning methods for de-identification of clinical notes in cross-institute settings. BMC Medical Informatics and Decision Making, Date of Workshop: 10. Juni 2019, 19. Jg., Nr. 5, S. 232. DOI: 10.1186/s12911-019-0935-4 *

Also Published As

Publication number Publication date
US20210027139A1 (en) 2021-01-28

Similar Documents

Publication Publication Date Title
DE102018111905A1 (de) Domänenspezifische Sprache zur Erzeugung rekurrenter neuronaler Netzarchitekturen
DE102005058110B4 (de) Verfahren zum Ermitteln möglicher Empfänger
DE102019000433A1 (de) Generieren einer themenbasierten Zusammenfassung eines Textinhalts
DE112018004376T5 (de) Schützen kognitiver systeme vor auf gradienten beruhenden angriffen durch die verwendung irreführender gradienten
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE102017125256A1 (de) Suche nach einer neuronalen Architektur
DE102016011905A1 (de) Bestimmen der Qualität einer Zusammenfassung eines Multimediainhalts
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE102019211651A1 (de) Vorrichtung und Verfahren zum Maschinenlernen und Ansteuern einer Maschine
DE112018005089T5 (de) Inferenzvorrichtung, Inferenzverfahren, Programm und nicht transitorisches greifbares computerlesbares Medium
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
DE112020006402T5 (de) Maschinelle lernmodelle basierend auf veränderter daten sowie systeme und verfahren zum trainieren und deren verwendung
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
EP3719811A1 (de) Konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung zur zellklassifizierung
DE102017006155A1 (de) Verfahren zum Betreiben eines Sensorsystems eines Fahrzeugs
EP0901658B1 (de) Verfahren zur optimierung eines fuzzy-regelsatzes durch einen rechner
DE202023102803U1 (de) System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen
DE102020206135A1 (de) Vorrichtung und Verfahren zum Bestimmen wenigstens eines Teils eines Knowledge Graphs
DE102019210994A1 (de) Vorrichtung und Verfahren zum Verarbeiten eines digitalen Datenstroms
DE102020211849A1 (de) Trainieren eines maschinellen lernmodells unter verwendung eines batch-basierten aktiven lernansatzes
EP3816844A1 (de) Computerimplementiertes verfahren und vorrichtung zum verarbeiten von daten
DE102019204118A1 (de) Verfahren zum Übertragen eines Merkmals eines ersten Bilds an ein zweites Bild
Karim et al. Interpreting black-box machine learning models with decision rules and knowledge graph reasoning
DE102020122749A1 (de) System zur automatisierten Harmonisierung strukturierter Daten aus verschiedenen Erfassungseinrichtungen
DE102020205394A1 (de) Computerimplementiertes Verfahren und Vorrichtung zum Erstellen eines Knowledge Graph

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0040200000

Ipc: G06F0016350000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016350000

Ipc: G06F0040295000

R163 Identified publications notified
R084 Declaration of willingness to licence