DE102021205897A1 - Untersuchen eines Trainingsdatensatzes - Google Patents

Untersuchen eines Trainingsdatensatzes Download PDF

Info

Publication number
DE102021205897A1
DE102021205897A1 DE102021205897.3A DE102021205897A DE102021205897A1 DE 102021205897 A1 DE102021205897 A1 DE 102021205897A1 DE 102021205897 A DE102021205897 A DE 102021205897A DE 102021205897 A1 DE102021205897 A1 DE 102021205897A1
Authority
DE
Germany
Prior art keywords
training data
data set
data
training
examined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021205897.3A
Other languages
English (en)
Inventor
Fabian Woitschek
Georg Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Priority to DE102021205897.3A priority Critical patent/DE102021205897A1/de
Publication of DE102021205897A1 publication Critical patent/DE102021205897A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Verfahren zum Untersuchen eines Trainingsdatensatzes für eine künstliche Intelligenz, nachfolgend mit KI bezeichnet, hinsichtlich einer Verunreinigung des Trainingsdatensatzes mit den folgenden Schritten:- Bereitstellen (S1) eines zu untersuchenden Trainingsdatensatzes;- Untersuchen (S2) des Trainingsdatensatzes auf Verunreinigungen mit softwaregestützten Mitteln;- Bereitstellen (S3) eines bereinigten Trainingsdatensatzes, der die Verunreinigungen nicht aufweist und eines verunreinigten Trainingsdatensatzes, der die verunreinigten Trainingsdaten, insbesondere ausschließlich die verunreinigten Trainingsdaten, aufweist.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren zum Untersuchen eines Trainingsdatensatzes für eine künstliche Intelligenz (KI) hinsichtlich einer Verunreinigung des Trainingsdatensatzes.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Demgemäß ist vorgesehen:
    • - Ein Verfahren zum Untersuchen eines Trainingsdatensatzes für eine KI hinsichtlich einer Verunreinigung des Trainingsdatensatzes mit den folgenden Schritten: Bereitstellen eines zu untersuchenden Trainingsdatensatzes; Untersuchen des Trainingsdatensatzes auf Verunreinigungen mit softwaregestützten Mitteln; Bereitstellen eines bereinigten Trainingsdatensatzes, der die Verunreinigungen nicht aufweist und eines verunreinigten Trainingsdatensatzes, der die verunreinigten Trainingsdaten, insbesondere ausschließlich die verunreinigten Trainingsdaten, aufweist.
  • Intelligenter Algorithmus bedeutet, dass der Algorithmus Mittel der künstlichen Intelligenz, also der Automatisierung intelligenten Verhaltens und dem Maschinenlernen, umfasst. Ein intelligenter Algorithmus ist zum Beispiel ein künstliches neuronales Netzwerk.
  • Ein künstliches neuronales Netzwerk (KNN, englisch artificial neural network - ANN) ist insbesondere ein in einem Rechenprogramm nachgebildetes Netzwerk aus vernetzten künstlichen Neuronen. Die künstlichen Neuronen sind dabei typischerweise auf verschiedenen Schichten (layers) angeordnet. Üblicherweise umfasst das künstliche neuronale Netzwerk eine Eingangsschicht und eine Ausgabeschicht (output layer), deren Neuronenausgabe als einzige des künstlichen neuronalen Netzwerks sichtbar wird. Zwischen der Eingangsschicht und der Ausgabeschicht liegende Schichten werden typischerweise als verdeckte Schichten (hidden layer) bezeichnet. Typischerweise wird zunächst eine Architektur bzw. Topologie eines künstlichen neuronalen Netzwerks initiiert und dann in einer Trainingsphase für eine spezielle Aufgabe oder für mehrere Aufgaben in einer Trainingsphase trainiert.
  • Ein KNN legt eine Abbildung von einem (beispielhaft zweidimensionalen) Eingangsdatenraum auf einen Ergebnisdatenraum fest. Die Abbildung hängt maßgeblich vom Zweck der künstlichen Intelligenz ab, beispielsweise ist es denkbar, Datenpunkte des Eingangsdatenraums hinsichtlich ihrer Eigenschaften zu klassifizieren. In diesem Fall wird den Datenpunkten aus dem Eingangsdatenraum ein Klassifikationsergebnis, wie beispielsweise „Baum“ oder „Haus“, aus dem Ergebnisdatenraum zugeordnet und man spricht von einem klassifizierenden KNN.
  • Der Begriff „Topologie eines KNN“ umfasst sämtliche Aspekte bezüglich des Aufbaus eines KNN. Hierunter fallen beispielsweise die Anzahl der Neuronen des KNN, die Aufteilung der Neuronen auf die einzelnen Schichten des KNN, die Anzahl der Schichten eines KNN, die Vernetzung der Neuronen und die Gewichtung der Vernetzung.
  • Das Training des künstlichen neuronalen Netzwerks umfasst dabei typischerweise eine Veränderung eines Gewichts einer Verbindung zwischen zwei künstlichen Neuronen des künstlichen neuronalen Netzwerks. Das Gewicht enthält Information zur Stärke der Berücksichtigung eines Eingangs eines Neurons. Das Training des künstlichen neuronalen Netzwerks kann auch eine Entwicklung von neuen Verbindungen zwischen künstlichen Neuronen, ein Löschen von bestehenden Verbindungen zwischen künstlichen Neuronen, ein Anpassen von Schwellwerten der künstlichen Neuronen und/oder ein Hinzufügen oder ein Löschen von künstlichen Neuronen umfassen.
  • Ein Eingangsdatenraum ist eine Menge an Daten, die alle denkbaren bzw. wohldefinierten Eingangsdaten für ein KNN enthält. Ein Ergebnisdatenraum ist eine Menge, die alle denkbaren Ergebnisdaten eines KNN enthält. Dieser Patentanmeldung liegt die Annahme zugrunde, dass sich ein Eingangsdatenraum in Teilmengen oder Datenpunkte partitionieren lässt, wobei jedes Element, also eine Teilmenge oder ein Datenpunkt, der Partition auf ein anderes Abbildungsergebnis aus dem Ergebnisdatenraum abgebildet wird. Grenzen der Teilmengen werden anschaulich auch als Entscheidungsgrenzen bezeichnet. Typische Eingangsdaten sind z.B. n-dimensionale Vektoren.
  • Gestörte Eingangsdaten sind in dieser Patentanmeldung Eingangsdaten, die künstlich mit einer Störung verknüpft worden sind.
  • Unter Rauschen versteht man eine Störgröße mit breitem unspezifischem Frequenzspektrum. Es kann daher als eine Überlagerung vieler harmonischer Schwingungen oder Wellen mit unterschiedlicher Amplitude und Frequenz beziehungsweise Wellenlänge interpretiert werden. Es gibt Rauschprozesse verschiedener Eigenschaften, z.B. weißes Rauschen, rosa Rauschen oder braunes Rauschen.
  • Die Amplitude einer eindimensionalen Störung bezeichnet man auch als dessen Intensität. Handelt es sich um einen mehrdimensionalen Störungsvektor kann die Störungsintensität unterschiedlich definiert werden, z.B. als Betrag eines Störungsvektors oder als Maximum seiner Komponenten.
  • Die Konfidenz bezeichnet eine Wahrscheinlichkeit für die Korrektheit einer Aussage. Im gebräuchlichen Sprachgebrauch werden auch Begriffe wie Zuverlässigkeit oder Verlässlichkeit verwendet.
  • Ein Maß ist eine Funktion, die Teilmengen einer Grundmenge Zahlen zuordnet, die als Größe dieser Mengen interpretiert werden können.
  • Ein Autoencoder ist ein künstliches neuronales Netz, das dazu genutzt wird, effiziente Codierungen zu lernen. Das Ziel eines Autoencoders ist es, einen komprimierten Repräsentanten (Encoding) für Eingangsdaten zu lernen und somit auch wesentliche Merkmale zu extrahieren. Dadurch weist der Repräsentant gegenüber den Eingangsdaten eine reduzierte Dimension auf. Dementsprechend bildet ein Autoencoder Eingangsdaten auf einen Repräsentanten ab. Der Repräsentant ist ein Element eines verborgenen Raums (englisch „latent space“). Aufgrund der Reduktion der Dimension ist es möglich, Eingangsdaten verschiedener Art auf einen gleichen Repräsentanten abzubilden.
  • Unter einer Blickdiagnose versteht man das Erkennen von Merkmalen oder Gegebenheiten durch Betrachtung von Daten. Dabei können häufig eine Vielzahl von Daten gleichzeitig einer Blickdiagnose unterzogen werden, wenn die Daten in geeigneter Weise visualisiert worden sind.
  • Die Formulierung „für die menschlichen Sinne wahrnehmbar“ geht von voll funktionsfähigen menschlichen Sinnen, z.B. Sehen oder Hören, aus. Es ist bekannt, dass sich das menschliche Sehen und Hören auf ein bestimmtes Frequenzspektrum beschränkt. Diese Spektren sind der Formulierung zu Grunde zu legen. Soweit Funktionseinschränkungen beim Menschen existieren, die dieses Spektrum weiter einschränken, z.B. Rot-Grün-Blindheit, ist dies hinsichtlich dieser Formulierung unbeachtlich.
  • Verunreinigungen umfassen Vergiftungen und natürliche Verunreinigungen. Eine natürliche Verunreinigung ist eine Abweichung von Trainingsdaten von einer gelernten Struktur einer KI, die keine Vergiftung ist. Eine Vergiftung ist ein Spezialfall einer Verunreinigung, die absichtlich und häufig heimtückisch herbeigeführt wurde. Demgegenüber kann eine natürliche Verunreinigung auch durch Sensorfehler, nachteilige Umgebungsbedingungen der Sensoren und dergleichen entstehen. Es versteht sich, dass besonders natürliche Verunreinigungen von praktischer Relevanz sind, da diese auch während der Anwendung eines künstlichen neuronalen Netzwerks entstehen können und es dann vorteilhaft ist, wenn eine KI trotz natürlich verunreinigte Sensordaten zu Ergebnissen mit einer ausreichend hohen Konfidenz kommen kann.
  • Computerprogrammprodukte umfassen in der Regel eine Folge von Befehlen, durch die die Hardware bei geladenem Programm veranlasst wird, ein bestimmtes Verfahren durchzuführen, das zu einem bestimmten Ergebnis führt.
  • Die grundlegende Idee der Erfindung ist es, einen Trainingsdatensatz, mit welchem eine KI trainiert werden soll, mit softwaregestützten Mitteln auf Verunreinigungen zu untersuchen.
  • Künstliche Intelligenz basiert zunehmend auf datengetriebenen Lernverfahren. Vor allem künstliche neuronale Netze sind mithilfe umfangreicher Trainingsdaten in der Lage, gute Genauigkeiten zu erreichen. Dabei spiegeln die Trainingsdaten den realen Anwendungsfall des Systems wider. Die Qualität des Systems hängt maßgeblich von der Qualität und Repräsentativität der Trainingsdaten ab.
  • Durch die Abhängigkeit von den Datensätzen ergibt sich ein neuer Angriffsvektor für böswillige Eingriffe in künstliche Intelligenz (KI). Ein Angreifer kann gezielt absichtliche Fehler und Änderungen in die Trainingsdaten einbringen und somit die Qualität der gelernten KI beeinträchtigen. Im Fachjargon spricht man von „Data Poisoning Attacks“, also dem Einbringen von Vergiftungen in den Trainingsdatensatz.
  • Die Größe der Datenmengen, welche für das Training eines neuronalen Netzes benötigt werden, ist in den letzten Jahren kontinuierlich gestiegen. Dies führt dazu, dass es für einen Menschen unmöglich sein kann, den gesamten Trainingsdatensatz zu überblicken. Daher werden die Datensätze oft ohne Kontrolle für das Training einer KI benutzt. Zudem haben bereits kleine Merkmale, die einem Menschen oft nicht auffallen, in den Trainingsdaten einen hohen Einfluss auf die Qualität der trainierten KI. Ein neuronales Netz zieht hingegen aus allen vorhandenen Merkmalen Informationen, auch wenn diese für das Verständnis der grundlegenden Aufgabe irrelevant sind. Dies kann zu einem fehlerhaften Training führen und ergibt eine zusätzliche Möglichkeit für den Angreifer, Vergiftungen zu verstecken.
  • Eine weitere Möglichkeit zur Vergiftung der Daten ist die Annotierung der Datenbeispiele. So ist es vorstellbar, dass ein Angreifer absichtlich falsche Label in einen Datensatz einbringt, welches zu einer Schwächung der trainierten KI führen würde. Alternativ kann ein Angreifer eine automatische Generierung von Labels beeinflussen und auf diese Weise auch Vergiftungen in den Datensatz einführen.
  • Diese Patentanmeldung beschreibt Möglichkeiten, Verunreinigungen, insbesondere Vergiftungen eines Angreifers aufzufinden und insbesondere zu beseitigen. Es versteht sich, dass das Verfahren für beliebige datengetriebene trainierte KI eingesetzt werden kann, z.B. für Klassifikations- als auch Regressionsaufgaben. Dies beinhaltet KNN, aber auch andere Methoden des maschinellen Lernens, also z.B. Decision Trees, SVMs, etc.
  • Im Folgenden wird eine Verunreinigung in Form einer Vergiftung exemplarisch erläutert. Beispielsweise sind automatisierte Kontroll-, und Zugriffssysteme bekannt, die mittels einer künstlichen Intelligenz bestimmten Personen Zugriff oder Zutritt aufgrund von bestimmten Merkmalen der Personen gewähren. Gelingt es einem Angreifer, Datenbeispiele mit einem prägnanten Merkmal, das mit einer gewünschten Bewertung annotiert ist, in einen Trainingsdatensatz einzuschleusen, lassen sich Regeln für die Erteilung von Zugriffsrechten manipulieren. Handelt es sich beispielsweise um ein System, welches Zugriff aufgrund von optischen Merkmalen, beispielsweise Gesichtserkennung, gewährt, so ist es möglich, in die Trainingsdaten Gesichter mit einem besonders markanten Merkmal einzuschleusen und die KI derart zu trainieren, dass Personen, die dieses markante Merkmal tragen, stets Zugriff zu gewähren ist.
  • Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den weiteren Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren der Zeichnung.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung wird der Trainingsdatensatz untersucht, indem die Trainingsdaten des Trainingsdatensatzes bezüglich Eigenschaften, die von einer KI zu analysieren sind, in Cluster gruppiert werden, wobei ein Maß vorgegeben wird, welches den Trainingsdaten einen Wert zuordnet, und einem Trainingsdatenpaar einen Abstand zuordnet, wobei für zahlreiche, insbesondere alle Trainingsdatenpaare eines Clusters, weiter insbesondere für alle Trainingsdatenpaare des Trainingsdatensatzes, untersucht wird, ob der Abstand eines Trainingsdatenpaares konsistent zu den Clustern bzw. zu dem Cluster des Trainingsdatenpaares ist.
  • Handelt es sich bei der KI beispielsweise um eine Verkehrszeichenerkennung, kann ein Clustering in verschiedene Verkehrszeichen erfolgen.
  • Ein beispielhaftes Abstandsmaß ist der euklidische Abstand, wenn sich die Trainingsdaten in einem Koordinatensystem darstellen lassen.
  • Diese Variante der Erfindung lässt sich auch als Clustering bezeichnen. Clustering kann individuell an den Anwendungsfall angepasst werden. Dazu ist es beispielsweise möglich die Datenbeispiele vorzuverarbeiten und erst im Anschluss daran eine Clustering-Methode anzuwenden. Die Vorverarbeitung kann sogenannte Daten-Features produzieren, sodass die Clustering-Methode nicht auf den rohen Datenbeispielen durchgeführt wird. Bei der Generierung der Features ist es möglich, spezielle Eigenschaften in den Datenbeispielen hervorzuheben, sodass sich Verunreinigungen in den neuen Features deutlicher hervorheben. Beispielsweise kann in den neuen Features die Glätte/Unebenheit/etc. der Datenbeispiele ausgedrückt werden, sodass es für die nachfolgende Clustering Methode einfacher ist, verunreinigte Daten zu unterscheiden. Eine weitere Möglichkeit Features zu generieren, besteht darin, dass eine Datenbank mit bekannten Vergiftungen genutzt wird, um die Eigenschaften der Datenbeispiele zu bestimmen, welche in der Vergangenheit vergiftet wurden. Diese speziellen vulnerablen Eigenschaften können nun in den neuen Features besonders herausgehoben werden (z.B. mittels höherer Gewichtung). Dadurch ist es wahrscheinlicher, dass sich die vergifteten Datenbeispiele in den finalen Clustern der Clustering-Methode deutlicher abheben.
  • Dabei ist es auch zweckmäßig, wenn der Trainingsdatensatz mittels des Maßes visualisiert wird, indem Trainingsdaten in einem Koordinatensystem markiert und ein visualisierbares Merkmal aufgrund dessen Annotierung zugewiesen wird.
  • Beispielsweise kann vorgesehen sein, die Trainingsdaten in einem Koordinatensystem einzutragen und jedem Label eine bestimmte Farbe oder Form zuzuweisen.
  • Dabei ist es weiter zweckmäßig, wenn ein menschlicher Bearbeiter den Abstand der Trainingsdaten, insbesondere mittels einer Blickdiagnose, schätzt. Bekanntlich ist es Menschen möglich, eine Vielzahl an Abständen von einer Vielzahl von Punkten in kürzester Zeit zu erfassen.
  • Um dem menschlichen Betrachter die Schätzung der Abstände per Blickdiagnose zu erleichtern, kann auch vorgesehen sein, dass der Abstand der Trainingsdaten mittels einer anderen Abstandsnorm als dem euklidischen Abstand analysiert werden soll. Um dem menschlichen Bearbeiter die Blickdiagnose zu erleichtern, kann in diesem Fall vorgesehen sein, eine entsprechende Transformation in einen euklidischen Raum durchzuführen.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung ist es vorteilhaft, die Trainingsdaten auf Verunreinigungen zu untersuchen, indem ein Autoencoder Trainingsdaten komprimiert und rekonstruiert. Dabei ist vorgesehen, dass der Autoencoder mittels eines Trainingsdatensatzes, der keine Verunreinigungen aufweist, trainiert wurde, wobei ein Rekonstruktionsfehler zwischen den Trainingsdaten des Trainingsdatensatzes und den rekonstruierten Trainingsdaten ermittelt wird, wobei Trainingsdaten als verunreinigt markiert werden, wenn der Rekonstruktionsfehler einen vorbestimmten Schwellwert überschreitet.
  • Ein Autoencoder ist dabei ein neuronales Netz, welches das Ziel hat, die Rekonstruktion der Eingangsdaten bestmöglich zu erlernen. Die Architektur eines Autoencoders bildet einen sogenannten Flaschenhals. Dementsprechend liegt in der Mitte der Architektur die kleinste (und die am wenigsten aussagekräftigste) Schicht. Der Autoencoder lernt, die wichtigsten Informationen der Eingangsdaten zu komprimieren und in der kleinsten Schicht auszudrücken. Aus diesen komprimierten Informationen werden die Eingangsdaten mithilfe einer gelernten Funktion rekonstruiert. Insgesamt lernt ein Autoencoder also die Rekonstruktion der Eingangsdaten über einen Flaschenhals hinweg. Dazu wird er auf einem Datensatz trainiert und die Rekonstruktion auf diesen Datensatz angepasst.
  • Bei dieser Anwendung kann vorgesehen sein, den Autoencoder lediglich auf einer kleinen Teilmenge des Trainingsdatensatzes zu trainieren. Die Teilmenge kann derart reduziert sein, dass dessen Umfang für einen menschlichen Experten leicht zu überblicken ist und somit sichergestellt werden kann, dass zumindest die Trainingsdaten der Teilmenge des Trainingsdatensatzes korrekt sind und keine Verunreinigungen aufweisen.
  • Dementsprechend lernt der Autoencoder lediglich die Rekonstruktion von Trainingsdaten aus der Teilmenge. Dadurch werden Daten, die andere Strukturen als die Trainingsdaten der Teilmenge aufweisen, nicht perfekt rekonstruiert, da diese nicht der gelernten Verteilung entsprechen. Dieser Effekt kann genutzt werden, um Datenbeispiele zu finden, die verunreinigt sind. Hierfür wird ein bestimmter Schwellwert auf den Rekonstruktionsfehler gelegt, und Datenbeispiele, dessen Rekonstruktionsfehler diesen Schwellwert überschreiten, werden als verunreinigt markiert. Es versteht sich, dass der Schwellwert anwendungsspezifisch anzupassen ist.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung wird unter verunreinigten Trainingsdaten zwischen natürlichen Verunreinigungen und Vergiftungen unterschieden, wobei insbesondere vorgesehen ist, ausschließlich Trainingsdaten mit Vergiftungen als verunreinigte Trainingsdaten zu markieren.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung werden die Trainingsdaten mittels einer ersten KI und mittels einer zweiten KI analysiert, wobei die erste KI mittels eines Trainingsdatensatzes, der keine Verunreinigungen aufweist, trainiert wurde und die zweite KI mittels des bereitgestellten Trainingsdatensatzes trainiert wurde, wobei Trainingsdaten, welchen von der ersten KI ein identisches Ergebnis zugeordnet wird wie von der zweiten KI, als vergiftungsfrei markiert werden.
  • Dementsprechend lernt die erste KI lediglich die Analyse von Trainingsdaten aus der Teilmenge. Dadurch werden zu Daten, die andere Strukturen als die Trainingsdaten der Teilmenge aufweisen, ein anderes Ergebnis oder ein Ergebnis mit einer geringen Konfidenz ausgegeben, da diese nicht der gelernten Verteilung entsprechen. Dieser Effekt kann genutzt werden, um Datenbeispiele zu finden, die verunreinigt sind.
  • Je nachdem wie stark die Ausgabe hinsichtlich des Ergebnisses oder hinsichtlich der Konfidenz der KI voneinander abweicht, können die betreffenden Trainingsdaten als verunreinigt markiert werden.
  • Wann der Vergleich der KI auf dem Datensatz durchgeführt wird, ist anwendungsspezifisch festzulegen. Beispielsweise ist es möglich, den Vergleich erst am Ende des Trainings für den gesamten Datensatz durchzuführen. Alternativ ist es auch denkbar, den Vergleich auch schon während des Trainings durchzuführen. Somit lassen sich verunreinigte Trainingsdaten unmittelbar aussortieren, ohne dass das Training vollständig zu wiederholen ist.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung werden Trainingsdaten untersucht, indem mittels einer KI zu den Trainingsdaten ein Ergebnis ermittelt wird und zu dem Ergebnis eine Konfidenz ermittelt wird, wobei die Trainingsdaten als Verunreinigungsfrei markiert werden, wenn die Konfidenz einen vorbestimmten Schwellwert überschreitet.
  • Diese Variante lässt sich auch ohne zusätzliche KI implementieren, da die Erkennung von Verunreinigungen lediglich auf der Konfidenz der Ausgabe der zu trainierenden KI beruht. Dabei kann vorgesehen sein, auf die Konfidenz, die von der KI ermittelt wurde, zurückzugreifen.
  • Alternativ oder zusätzlich ist es auch denkbar, die Konfidenz mittels der folgenden Schritte zu ermitteln: Vorgeben von Eingangsdaten, mit welchen das KNN zum Ermitteln eines Klassifikationsergebnisses für die Eingangsdaten gespeist wird; Vorgeben oder Generieren von gestörten Eingangsdaten; Ermitteln des Klassifikationsergebnis für die vorgegebenen Eingangsdaten mittels des KNN; Ermitteln des Klassifikationsergebnis für die gestörten Eingangsdaten mittels des KNN; Ermitteln der Konfidenz des Klassifikationsergebnis der vorgegebenen Eingangsdaten, indem das Klassifikationsergebnis der vorgegebenen Eingangsdaten mit den Klassifikationsergebnissen der gestörten Eingangsdaten verglichen wird.
  • Demnach approximiert die Konfidenz die Entfernung eines Datenpunkts im Eingangsdatenraum zu den nächsten Entscheidungsgrenzen. Somit kann beurteilt werden, wie nah ein Datenpunkt an einer anderen Entscheidungsgrenze liegt. Stellt sich heraus, dass der Abstand des Datenpunkts im Eingangsdatenraum zu einer anderen Entscheidungsgrenze gering ist, ergibt sich daraus eine niedrige Konfidenz des Klassifikationsergebnisses, da bereits eine geringe Variation der Eingangsdaten zu einem anderen Klassifikationsergebnis führen würde.
  • In der Praxis ist jedoch die Lage der Entscheidungsgrenzen in der Regel nicht bekannt. Deshalb kann vorgesehen sein, die Konfidenz eines Klassifikationsergebnisses eines klassifizierenden künstlichen neuronalen Netzwerks zu ermitteln, indem Eingangsdaten, zu welchen das KNN ein Klassifikationsergebnis ermittelt, vorgegeben werden. Im Folgenden werden zu den vorgegebenen Eingangsdaten gestörte Eingangsdaten generiert oder vorgegeben. Im Folgenden wird ermittelt, wie nahe die vorgegebenen Eingangsdaten an einer Entscheidungsgrenze liegen, indem das KNN Klassifikationsergebnisse für die vorgegebenen Eingangsdaten sowie für die gestörten Eingangsdaten ermittelt. Unterscheidet sich das Klassifikationsergebnis der vorgegebenen Eingangsdaten von den gestörten Eingangsdaten, resultiert daraus, dass die Störung ausreichend war, um die vorgegebenen Eingangsdaten in eine andere Entscheidungsgrenze zu überführen. Das bedeutet, dass der Abstand der vorgegebenen Eingangsdaten zu einer Entscheidungsgrenze kleiner ist als der Betrag der Störung. Für den Vergleich der Klassifikationsergebnisse der vorgegebenen und gestörten Eingangsdaten stehen verschiedene Methoden, die gewichtet oder ungewichtet sein können, bereit.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung ist die KI ein KNN und es wird für jedes Ergebnis des KNN eine formale Beschreibung bereitgestellt und es wird untersucht, ob die formale Beschreibung eines Ergebnisses des KNN auf die Trainingsdaten passt, für welche dieses Ergebnis ermittelt wurde.
  • Diese Variante kann auf der Formalisierung von menschlichem Expertenwissen beruhen, wenn bekannt ist, dass Trainingsdaten einer gewissen Verteilung mit bestimmten anwendungsspezifischen Merkmalen folgen. Wird ein KNN beispielsweise für die Erkennung von Verkehrsschildern eingesetzt, ist es möglich, für Verkehrsschilder eine formalisierte Beschreibung zu erstellen. Beispielsweise ist es bekannt, dass Stopp-Schilder eine bestimmte acht-eckige Kontur aufweisen. Dementsprechend lässt sich untersuchen, ob alle Trainingsdaten, welchen das KNN das Ergebnis „Stopp-Schild“ zugeordnet hat, eine acht-eckige Kontur aufweisen. Kann in einem Trainingsdatenbeispiel keine acht-eckige Kontur gefunden werden, so lässt sich dieses Trainingsdatenbeispiel als verunreinigt markieren.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung wird ein weiterer Trainingsdatensatz, der ausschließlich bekannte verunreinigte Trainingsdaten aufweist, bereitgestellt und der zu untersuchende Trainingsdatensatz wird nach verunreinigten Trainingsdaten aus dem bereitgestellten Trainingsdatensatz mit verunreinigten Trainingsdaten durchsucht. Diese Variante basiert auf dem Vergleich der Trainingsdaten mit einer Datenbank bekannter oder typischer Verunreinigungen.
  • Gemäß einer bevorzugten Weiterbildung der Erfindung wird versucht, verunreinigte Trainingsdaten zu reinigen, indem Verunreinigungen in diesen Trainingsdaten beseitigt werden.
  • Dabei ist es auch zweckmäßig, wenn die Trainingsdaten gereinigt werden, indem Datenbestandteile mit vorbestimmten Eigenschaften, insbesondere Datenbestandteile, die außerhalb eines vorbestimmten Frequenzbereichs liegen und/oder Datenbestandteile, die von menschlichen Sinnen nicht wahrnehmbar sind, aus den Trainingsdaten entfernt werden.
  • Dabei ist es auch zweckmäßig, wenn die Trainingsdaten mittels eines künstlichen neuronalen Netzwerks gereinigt werden.
  • Es ist bekannt, dass Trainingsdaten, insbesondere optische Trainingsdaten, aufgrund von hohen Frequenzanteilen derart verfälscht werden können, dass für einen menschlichen Betrachter die Fälschung nicht wahrnehmbar ist, obwohl ein KNN, welches diese optischen Trainingsdaten verarbeitet, aufgrund der Fälschung zu einem anderen Ergebnis kommt. Um derartige Fälschungen zu vermeiden, kann es vorteilhaft sein, bestimmte Frequenzanteile, die für den Menschen nicht wahrnehmbar sind, aus Trainingsdaten zu entfernen, da davon auszugehen ist, dass Trainingsdaten sämtliche relevanten Informationen in für einen Menschen wahrnehmbaren Frequenzanteilen enthalten.
  • Ein Computerprogrammprodukt gemäß einem Verfahren einer Ausführungsform der Erfindung führt die Schritte eines Verfahrens gemäß der vorangehenden Beschreibung aus, wenn das Computerprogrammprodukt auf einem Computer, insbesondere einem fahrzeuginternen Computer, läuft. Wenn das betreffende Programm auf einem Computer zum Einsatz kommt, ruft das Computerprogrammprodukt einen Effekt hervor, nämlich die Erkennung von Verunreinigten Trainingsdaten.
  • Figurenliste
  • Die vorliegende Erfindung wird nachfolgend anhand der in den schematischen Figuren der Zeichnungen angegebenen Ausführungsbeispiele näher erläutert. Es zeigen dabei:
    • 1 eine schematisches Blockdiagramm einer Ausführungsform der Erfindung;
    • 2 eine schematische Illustration zur Erläuterung einer Ausführungsform der Erfindung;
    • 3 eine schematische Illustration zur Erläuterung einer Ausführungsform der Erfindung;
    • 4 eine schematische Illustration zur Erläuterung einer Ausführungsform der Erfindung;
    • 5 eine schematische Illustration zur Erläuterung einer Ausführungsform der Erfindung;
    • 6 eine schematische Illustration zur Erläuterung einer Ausführungsform der Erfindung.
  • Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
  • In den Figuren der Zeichnungen sind gleiche, funktionsgleiche und gleichwirkende Elemente, Merkmale und Komponenten - sofern nicht anders ausgeführt ist - jeweils mit denselben Bezugszeichen versehen.
  • BESCHREIBUNG VON AUSFÜHRUNGSBEISPIELEN
  • 1 zeigt ein schematisches Blockdiagramm eines Verfahrens zum Untersuchen eines Trainingsdatensatzes für eine KI hinsichtlich einer Verunreinigung des Trainingsdatensatzes. In dem Schritt S1 wird ein Trainingsdatensatz bereitgestellt. In dem Schritt S2 wird der Trainingsdatensatz auf Verunreinigungen mit softwaregestützten Mitteln untersucht. In dem Schritt S3 wird ein bereinigter Trainingsdatensatz, der die Verunreinigungen nicht aufweist, bereitgestellt und ein verunreinigte Trainingsdatensatz, der die verunreinigten Trainingsdaten aufweist, bereitgestellt.
  • 2 ist eine beispielhafte Darstellung des Ergebnisses eines Clustering-Algorithmus für einen Verkehrsschild-Datensatz. Der Datensatz umfasst Stopp-Schilder 11 mit Datenpunkten 21, manipulierte Stopp-Schilder 12 mit Datenpunkten 22, Vorfahrtsschilder 13 mit Datenpunkten 23 und Höchstgeschwindigkeitsschilder 14, 15, 16 mit Datenpunkten 24, 25, 26. In diesem Datensatz sind durch einen Angreifer vergiftete Stopp-Schilder 12 eingefügt worden. Deshalb sind in dem Cluster mit Stoppschildern 11, 12 unterschiedlich annotierte Datenpunkte 21, 22 vorhanden. Dadurch fällt die Vergiftung auf, da jedes Cluster nur eine Annotierung, im Fachjargon auch als Label bezeichnet, aufweisen sollte.
  • In dem Beispiel in 2 zeigt sich, dass ein Angreifer einen Vergiftungsangriff durchgeführt hat und die Daten verunreinigt hat. Manipulierte Stopp-Schilder 12 mit einem Sticker in der rechten oberen Ecke wurden eingeführt. Die Trainingsdaten zu den Datenpunkten 22 der Stopp-Schilder 12 wurden als „120 km/h“-Schild 15 annotiert. Jedoch ist der Unterschied des vergifteten Stopp-Schilds 12 zu einem normalen Stopp-Schild 11 gering, sodass der Clustering Algorithmus die beiden Arten der Schilder 11, 12 in das gleiche Cluster eingruppiert. Nun sind in einem Cluster Datenbeispiele mit unterschiedlichem Label vorhanden. Ein menschlicher Überprüfer würde diesen Widerspruch in dem Cluster bemerken und die Datenbeispiele 21, 22 genauer analysieren, wobei die Vergiftung auffallen würde.
  • Alternativ ist es auch möglich, verschiedene Datenbeispiele automatisiert auszuschließen. Beispielsweise können alle Datenbeispiele mit einem Label, welches in einem Cluster in der Minderheit ist, als verunreinigt markiert werden, sodass Vergiftungsangriffe wie in 2 abgefangen werden. In dem beschriebenen Beispiel ist es also mit der Analyse durch Clustering-Methoden möglich, festzustellen, wenn in einem Cluster mehrere Label existieren.
  • Andere Clustering Methoden können für den gleichen Datensatz aber auch ein anderes Ergebnis und damit eine andere Struktur der Cluster ausgeben. In 3 ist das Ergebnis einer anderen Clustering-Methode mit einer höheren Genauigkeit dargestellt. In 3 werden Datenbeispiele mit kleinen Unterschieden in andere Cluster eingruppiert, woraus sich ein feines Clustering ergibt. In 3 ergibt sich dies aus eigenständigen Clustern für die originalen Stopp-Schilder 11 bzw. die manipulierten Stopp-Schilder 12, in welche die Datenbeispiele 21, 22 dieser Stoppschilder einsortiert werden. In Folge existieren zwei Cluster mit dem Label „120 km/h“, nämlich das originale Cluster des 120 km/h-Schilds mit Datenpunkten 25 und das Cluster mit den manipulierten Stoppschildern mit Datenpunkten 22. Ein menschlicher Überprüfer würde diesen Widerspruch von zwei Clustern für ein Label bemerken und die Datenbeispiele 25, 22 genauer analysieren, wobei die Vergiftung auffallen würde.
  • Auch in diesem Fall ist ein automatisiertes Ausschließen der Datenpunkte 22 möglich, indem das Cluster mit der geringeren Anzahl an Datenbeispielen ausgeschlossen wird, wenn zu einem Label mehrere Cluster existieren. Es ist zu erwarten, dass weniger vergiftete Datenbeispiele existieren als von den originalen Datenbeispielen, sodass das korrekte Cluster nicht ausgeschlossen wird.
  • Mit der vorgestellten Clustering Methode ist es also möglich, Unstimmigkeiten in einem Trainingsdatensatz zu finden. Dies beinhaltet einerseits absichtliche Vergiftungen sowie natürliche Verunreinigungen, wenn mehrere Verunreinigungen einer gleichen Art existieren, sodass sich ein Cluster dieser speziellen Verunreinigungen bildet oder verunreinigte Datenbeispiele in das Cluster einer anderen Klasse sortiert werden. Clustering ist als Hinweissammlung für Verunreinigungen anzusehen.
  • 4 zeigt eine beispielhafte Darstellung eines Autoencoders 18 zum Finden von Verunreinigungen. Datenbeispiele zu Stopp-Schildern 11, welche der von dem Autoencoder gelernten Struktur entsprechen, werden mit einem geringem Rekonstruktionsfehler verarbeitet. Hingegen werden Datenbeispiele zu Stopp-Schildern 12, 17 mit einer anderen Struktur schlechter rekonstruiert, d.h. der Rekonstruktionsfehler übersteigt einen Schwellwert.
  • Daher werden Datenbeispiele mit einem Rekonstruktionsfehler über einem bestimmten Schwellwert als verunreinigt markiert. Um zu beurteilen, ob als verunreinigt markierte Datenbeispiele von dem Trainingsdatensatz ausgeschlossen werden sollen, kann vorgesehen sein, die Label der jeweiligen Datenbeispiele zu analysieren. Wenn das Label des mittleren Schildes 15 „Stopp“ ist, also richtig ist, ist von einer natürlichen Verunreinigung auszugehen, die z.B. in Großstädten häufiger auftreten kann. In diesem Fall kann es gewünscht sein das Datenbeispiel nicht als verunreinigt zu vermerken, da es sich um eine gewünschte Erweiterung des Trainingsdatensatzes handelt. Ist das Label des Schildes hingegen anders als „Stopp“ ist von einer Vergiftung auszugehen, die auszuschließen ist.
  • Insgesamt ist die Nutzung eines Autoencoders eine Möglichkeit automatisiert zu überprüfen, ob Verunreinigungen in den Daten existieren.
  • 5 ist eine beispielhafte Darstellung einer Vergleichsmethode mit einer Kl-Kontrollinstanz. Die KI-Kontrollinstanz wird auf einer Teilmenge des Trainingsdatensatzes, die frei von Verunreinigungen ist, trainiert und anschließend zur Kontrolle der zu trainierenden KI genutzt. Datenbeispiele, die einen signifikanten Unterschied zwischen der Ausgabe der KI ergeben, können als verunreinigt markiert werden.
  • In 5 ist die KI-Kontrollinstanz als erstes KNN K1 und die zu trainierende KI als KNN K2 ausgebildet. Auf Datenbeispielen wie die Stopp-Schilder 11, welche der von K1 gelernten Verteilung folgen, geben beide KNN K1, K2 ähnliche Ergebnisse aus. Wohingegen Datenbeispiele wie die Stopp-Schilder 12, 17, welche nicht der von K1 gelernten Verteilung folgen, unterschiedliche Ausgaben von K1 bzw. K2 hervorrufen. Je nachdem wie stark die Ausgabe der KNN K1, K2 voneinander abweicht, können die betreffenden Datenbeispiele als verunreinigt markiert werden.
  • In 5 sagt die Kontroll-KI K1 eine andere Klasse mit hoher Konfidenz vorher als das zu trainierende KNN K2. Dies ist ein Indiz für eine Verunreinigung. Für das Stopp-Schild 17 ist die Konfidenz deutlich unterschiedlich. Dies ist ein Indiz für eine Verunreinigung.
  • Demnach wird also eine Kontroll-KI auf einer Teilmenge eines Datensatzes trainiert und die Ausgabe von der Kontroll-KI mit der zu trainierenden KI verglichen. Übersteigt die Abweichung einen Schwellwert, kann das betreffende Datenbeispiel als verunreinigt markiert werden. Wann der Vergleich der KI auf dem Datensatz durchgeführt wird, ist anwendungsspezifisch festzulegen. Es ist möglich den Vergleich am Ende des Trainings für den gesamten Datensatz durchzuführen oder alternativ ist es möglich den Vergleich während des Trainings durchzuführen. Dies hat den Vorteil, dass verunreinigte Daten direkt aussortiert werden können und das Training nicht vollständig wiederholt werden muss, wenn festgestellt wird, dass verunreinigte Datenbeispiele existieren.
  • 6 zeigt eine beispielhafte Darstellung der Nutzung der Umgebungskonfidenz zum Ermitteln von verunreinigten Datenbeispielen. Datenbeispiele, welche nah an einer Entscheidungsgrenze 19 liegen, werden als verunreinigt markiert, da sie von der trainierten Struktur der Datenbeispiele in dieser Klasse abweichen.
  • In 6 ist ein Eingangsdatenraum eines KNN in eine Partition zerlegt. Die Partition umfasst drei Teilmengen zu Schildern 13, 15 und 11 bzw. 12 bzw. 17. Die Teilmengen mit den Datenpunkten 23 bzw. 23.1, 25 bzw. 25.1 und 21 sind voneinander durch einen Teilmengenrand, der eine Entscheidungsgrenze 19 bildet, abgegrenzt.
  • Die Patentanmeldung der Anmelderin 10 2021 200 215.3 erläutert, mit welchen Mitteln eine Partition ermittelt werden kann.
  • Die Teilmenge zum Schild 13 bzw. 17 enthält mehrere Datenpunkte 23, die einen deutlichen Abstand zur Entscheidungsgrenze aufweisen. Ferner umfasst diese Teilmenge einen Datenpunkt 23.1, der sich in der Nähe der Entscheidungsgrenze, d.h. der Abstand zur Entscheidungsgrenze unterschreitet einen Schwellwert, befindet. Der Datenpunkt 23.1 gehört zu dem Stopp-Schild 17, wurde jedoch einem Vorfahrtsschild 13 zugeordnet.
  • Die Teilmenge zum Schild 15 bzw. 12 enthält mehrere Datenpunkte 25, die einen deutlichen Abstand zur Entscheidungsgrenze aufweisen. Ferner umfasst diese Teilmenge einen Datenpunkt 25.1, der sich in der Nähe der Entscheidungsgrenze, d.h. der Abstand zur Entscheidungsgrenze unterschreitet einen Schwellwert, befindet. Der Datenpunkt 25.1 gehört zu dem Stopp-Schild 12, wurde jedoch einem Höchstgeschwindigkeitsschild 120 km/h 15 zugeordnet.
  • Die Teilmenge mit Datenpunkten zu dem Stopp-Schild 11 umfasst mehrere Datenpunkte 21, die von der Entscheidungsgrenze beabstandet sind und dem Stopp-Schild 11 zugeordnet werden.
  • Demnach ordnet ein klassifizierendes KNN, welches Daten aus dem Trainingsdatensatz verarbeitet, den Datenpunkten 19 ein Stopp-Schild zu, den Datenpunkten 23, 23.1 ein Vorfahrtsschild 13 zu und den Datenpunkten 25, 25.1 ein Höchstgeschwindigkeitsschild 15 zu. Das Ergebnis der Datenpunkte 25.1 und 23.1 in der Nähe der Entscheidungsgrenze 19 hat eine niedrige Konfidenz, da eine geringe Störung ausreicht, um das klassifizierende KNN zu einem anderen Klassifikationsergebnis zu bringen.
  • Bezugszeichenliste
  • S1-S3
    Verfahrensschritte
    11
    Stopp-Schild
    12
    Stopp-Schild
    13
    Vorfahrtsschild
    14
    Höchstgeschwindigkeitsschild
    15
    Höchstgeschwindigkeitsschild
    16
    Höchstgeschwindigkeitsschild
    17
    Stopp-Schild
    18
    Autoencoder
    19
    Entscheidungsgrenze
    21
    Datenpunkt
    22
    Datenpunkt
    23
    Datenpunkt
    23.1
    Datenpunkt
    24
    Datenpunkt
    25
    Datenpunkt
    25.1
    Datenpunkt
    26
    Datenpunkt
    K1
    KNN
    K2
    KNN

Claims (15)

  1. Verfahren zum Untersuchen eines Trainingsdatensatzes für eine künstliche Intelligenz, nachfolgend mit KI bezeichnet, hinsichtlich einer Verunreinigung des Trainingsdatensatzes mit den folgenden Schritten: - Bereitstellen (S1) eines zu untersuchenden Trainingsdatensatzes; - Untersuchen (S2) des Trainingsdatensatzes auf Verunreinigungen mit softwaregestützten Mitteln; - Bereitstellen (S3) eines bereinigten Trainingsdatensatzes, der die Verunreinigungen nicht aufweist und eines verunreinigten Trainingsdatensatzes, der die verunreinigten Trainingsdaten, insbesondere ausschließlich die verunreinigten Trainingsdaten, aufweist.
  2. Verfahren nach Anspruch 1, wobei der Trainingsdatensatz untersucht wird, indem die Trainingsdaten des Trainingsdatensatzes bezüglich Eigenschaften, die von einer KI zu analysieren sind, in Cluster gruppiert werden, wobei ein Maß vorgegeben wird, welches den Trainingsdaten einen Wert zuordnet, und einem Trainingsdatenpaar einen Abstand zuordnet, wobei für zahlreiche, insbesondere alle Trainingsdatenpaare eines Clusters, weiter insbesondere für alle Trainingsdatenpaare, untersucht wird, ob der Abstand eines Trainingsdatenpaares konsistent zu den Clustern bzw. zu dem Cluster des Trainingsdatenpaares ist.
  3. Verfahren nach Anspruch 2, wobei der Trainingsdatensatz mittels des Maßes visualisiert wird, indem Trainingsdaten aufgrund deren Werte in einem Koordinatensystem markiert werden und den Trainingsdaten ein visualisierbares Merkmal aufgrund deren Annotierung zugewiesen wird.
  4. Verfahren nach Anspruch 3, wobei ein menschlicher Bearbeiter den Abstand der Trainingsdaten, insbesondere mittels einer Blickdiagnose, schätzt.
  5. Verfahren nach einem der vorstehenden Ansprüche, wobei der Trainingsdatensatz untersucht wird, indem die Trainingsdaten mittels eines Autoencoders (18) komprimiert und rekonstruiert werden, wobei der Autoencoder mittels eines Trainingsdatensatzes, der keine Verunreinigungen aufweist, trainiert wurde, wobei ein Rekonstruktionsfehler zwischen den Trainingsdaten des Trainingsdatensatzes und den rekonstruierten Trainingsdaten ermittelt wird, wobei Trainingsdaten als verunreinigt markiert werden, wenn der Rekonstruktionsfehler einen vorbestimmten Schwellwert überschreitet.
  6. Verfahren nach einem der vorstehenden Ansprüche, wobei unter verunreinigten Trainingsdaten zwischen natürlichen Verunreinigungen und Vergiftungen unterschieden wird, wobei insbesondere vorgesehen ist, ausschließlich Trainingsdaten, mit Vergiftungen als verunreinigte Trainingsdaten zu markieren.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei der Trainingsdatensatz untersucht wird, indem die Trainingsdaten mittels einer ersten KI (K1) und mittels einer zweiten KI (K2) analysiert werden, wobei die erste KI mittels eines Trainingsdatensatzes, der keine Verunreinigungen aufweist, trainiert wurde, und die zweite KI mittels des bereitgestellten Trainingsdatensatzes trainiert wurde, wobei Trainingsdaten, welchen von der ersten KI ein identisches Ergebnis zugeordnet wird wie von der zweiten KI als verunreinigungsfrei markiert werden.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei die Trainingsdaten untersucht werden, indem zu Trainingsdaten ein Ergebnis mittels einer KI ermittelt wird und zu dem Ergebnis eine Konfidenz ermittelt wird, wobei die Trainingsdaten als verunreinigungsfrei markiert werden, wenn die Konfidenz einen vorbestimmten Schwellwert überschreitet.
  9. Verfahren nach Anspruch 8, wobei die Konfidenz mittels der folgenden Schritte ermittelt wird: - Vorgeben von Eingangsdaten, mit welchen das KNN zum Ermitteln eines Klassifikationsergebnisses für die Eingangsdaten gespeist wird; - Vorgeben oder Generieren von gestörten Eingangsdaten; - Ermitteln des Klassifikationsergebnis für die vorgegebenen Eingangsdaten mittels des KNN; - Ermitteln des Klassifikationsergebnis für die gestörten Eingangsdaten mittels des KNN; - Ermitteln der Konfidenz des Klassifikationsergebnis der vorgegebenen Eingangsdaten, indem das Klassifikationsergebnis der vorgegebenen Eingangsdaten mit den Klassifikationsergebnissen der gestörten Eingangsdaten verglichen wird.
  10. Verfahren nach einem der vorstehenden Ansprüche, wobei für jedes Ergebnis der KI eine formale Beschreibung bereitgestellt wird, und der Trainingsdatensatz untersucht wird, indem festgestellt wird, ob die formale Beschreibung auf zu den Trainingsdaten ermittelten Ergebnissen zutrifft.
  11. Verfahren nach einem der vorstehenden Ansprüche, wobei ein weiterer Trainingsdatensatz, der ausschließlich verunreinigte Trainingsdaten aufweist, bereitgestellt wird, und der zu untersuchende Trainingsdatensatz untersucht wird, indem der zu untersuchende Trainingsdatensatz nach verunreinigten Trainingsdaten aus dem weiteren Trainingsdatensatz untersucht wird.
  12. Verfahren nach einem der vorstehenden Ansprüche, wobei verunreinigte Trainingsdaten gereinigt werden, indem Verunreinigungen in diesen Trainingsdaten beseitigt werden.
  13. Verfahren nach Anspruch 12, wobei die Trainingsdaten gereinigt werden, indem Datenbestandteile mit vorbestimmten Eigenschaften, insbesondere Datenbestandteile, die außerhalb eines vorbestimmten Frequenzbereichs liegen, und/oder Datenbestandteile, die von menschlichen Sinnen nicht wahrnehmbar sind, aus den Trainingsdaten entfernt werden.
  14. Verfahren nach Anspruch 12 oder Anspruch 13, wobei die Trainingsdaten mittels eines künstlichen neuronalen Netzwerks gereinigt werden.
  15. Computerprogrammprodukt mit Programmcode-Mitteln, um das Verfahren gemäß einem der vorstehenden Ansprüche durchzuführen.
DE102021205897.3A 2021-06-10 2021-06-10 Untersuchen eines Trainingsdatensatzes Pending DE102021205897A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021205897.3A DE102021205897A1 (de) 2021-06-10 2021-06-10 Untersuchen eines Trainingsdatensatzes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021205897.3A DE102021205897A1 (de) 2021-06-10 2021-06-10 Untersuchen eines Trainingsdatensatzes

Publications (1)

Publication Number Publication Date
DE102021205897A1 true DE102021205897A1 (de) 2022-12-15

Family

ID=84192377

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021205897.3A Pending DE102021205897A1 (de) 2021-06-10 2021-06-10 Untersuchen eines Trainingsdatensatzes

Country Status (1)

Country Link
DE (1) DE102021205897A1 (de)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LU, Xugang [et al.]: Speech enhancement based on deep denoising autoencoder. In: Interspeech. 2013. S. 436-440
MARCHI, Erik [et al.]: A novel approach for automatic acoustic novelty detection using a denoising autoencoder with bidirectional LSTM neural networks. In: 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2015. S. 1996-2000

Similar Documents

Publication Publication Date Title
DE102018006962A1 (de) Regelfestlegung für Black-Box-Maschinenlernmodelle
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102018205561A1 (de) Vorrichtung zur Klassifizierung von Signalen
DE102019206720B4 (de) Überwachung eines KI-Moduls einer Fahrfunktion eines Fahrzeugs
DE102022203475A1 (de) System zum Erzeugen einer von einem Menschen wahrnehmbaren Erklärungsausgabe für eine von einem Anomalieerkennungsmodul vorhergesagte Anomalie auf hochfrequenten Sensordaten oder davon abgeleiteten Größen eines industriellen Fertigungsprozesses, Verfahren und Computerprogramm zur Überwachung einer auf künstlicher Intelligenz basierenden Anomalieerkennung in hochfrequenten Sensordaten oder davon abgeleiteten Größen eines industriellen Fertigungsprozesses und Verfahren und Computerprogramm zur Überwachung einer auf künstlicher Intelligenz basierenden Anomalieerkennung bei einer End-of-Line Akustikprüfung eines Getriebes
DE102020208474B4 (de) Messung der Empfindlichkeit von Klassifikatoren anhand zusammenwirkender Störungen
Lallich et al. Improving classification by removing or relabeling mislabeled instances
EP0749613B1 (de) Wissensbasierte unschärfe auswahl für erkennungssystem mit mehreren erkennungseinheiten
DE102021205897A1 (de) Untersuchen eines Trainingsdatensatzes
DE10134926A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Klassifikators für das automatische Sortieren von Objekten
DE112021001565T5 (de) Sortieren von datenelementen eines bestimmten satzes von datenelementen
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
Kulkarni et al. A neural network perspective on the syntactic-semantic association between mass and count nouns
DE102020201183A1 (de) Verfahren und Vorrichtung zur Simulation eines technischen Systems
DE112020003599T5 (de) Prüfvorrichtung, prüfverfahren, prüfprogramm, lernvorrichtung, lernverfahren und lernprogramm
DE102019211017A1 (de) Verfahren zum Clustern verschiedener Zeitreihenwerte von Fahrzeugdaten und Verwendung des Verfahrens
DE102019103257A1 (de) Vorhersagesystem und -verfahren für anlagenanomalien
DE60309191T2 (de) System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen
DE102023107278B3 (de) Verfahren zum Authentifizieren einer auf ihrem Substrat mindestens eine bedruckte Fläche aufweisenden Banknote
M John et al. Leaf Disease Detection Using Image Classification Algorithm
EP4200737B1 (de) Verfahren zur datenmanipulationserkennung von numerischen datenwerten
DE112010005924T5 (de) Verfahren und System zum Weitergeben von Änderungen an einer Master-Einheit zu Duplikaten
DE102021200215A1 (de) Ermitteln einer Konfidenz eines künstlichen neuronalen Netzwerks
DE102020215430A1 (de) Vergleichen eines ersten KNN mit einem zweiten KNN

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication