DE102022206060A1

DE102022206060A1 - Verteidigung von multimodalen fusionsmodellen gegen angreifer mit nur einer quelle

Info

Publication number: DE102022206060A1
Application number: DE102022206060.1A
Authority: DE
Inventors: Karen Yang; Wan-Yi Lin; Manish Pratim; Filipe J. Cabrita Condessa; Jeremy KOLTER
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-06-16
Filing date: 2022-06-15
Publication date: 2022-12-22
Also published as: CN115482442A; US11893087B2; US20220405537A1

Abstract

Ein multimodales Wahrnehmungssystem für ein autonomes Fahrzeug umfasst einen ersten Sensor, bei dem es sich um einen Video-, RADAR-, LIDAR- oder Ultraschallsensor handelt, und einen Controller. Der Controller kann so konfiguriert sein, dass er ein erstes Signal von einem ersten Sensor, ein zweites Signal von einem zweiten Sensor und ein drittes Signal von einem dritten Sensor empfängt, einen ersten Merkmalsvektor aus dem ersten Signal extrahiert, einen zweiten Merkmalsvektor aus dem zweiten Signal extrahiert, einen dritten Merkmalsvektor aus dem dritten Signal extrahiert, einen Odd-One-Out-Vektor aus dem ersten, zweiten und dritten Merkmalsvektor über einen Odd-One-Out-Vektor bestimmt, einen Odd-One-Out-Vektor aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage bestimmen, den ersten, zweiten und dritten Merkmalsvektor und den Odd-One-Out-Vektor zu einem fusionierten Merkmalsvektor fusioniert, den fusionierten Merkmalsvektor ausgibt, und das autonome Fahrzeug auf der Grundlage des fusionierten Merkmalsvektors steuert.

Description

STAATLICHE RECHTE
Mindestens ein oder mehrere Teile dieser Erfindung können mit staatlicher Unterstützung im Rahmen des von der Defense Advanced Research Projects Agency (DARPA) vergebenen US-Regierungsvertrags Nr. 1190060-430433 durchgeführt worden sein. Die U.S.-Regierung kann daher bestimmte Rechte an dieser Erfindung haben.
TECHNISCHES GEBIET
Diese Offenbarung bezieht sich allgemein auf ein robustes multimodales maschinelles Lernsystem. Genauer gesagt bezieht sich diese Anmeldung auf Verbesserungen der Robustheit des multimodalen maschinellen Lernsystems durch Training und Verwendung eines Odd-One-Out-Netzwerks mit einer robusten Fusionsschicht.
HINTERGRUND DER ERFINDUNG
In der realen Welt können Informationen durch verschiedene Modalitäten erfasst und ausgedrückt werden. So kann beispielsweise eine Gruppe von Pixeln in einem Bild mit Tags und Texterklärungen verknüpft sein; Geräusche können mit Schwingungen aufgrund von Geschwindigkeit, Betriebsbedingungen oder Umgebungsbedingungen verknüpft sein; und Ultraschall kann mit Entfernung, Größe und Dichte verknüpft sein. Die verschiedenen Modalitäten können durch sehr unterschiedliche statistische Eigenschaften gekennzeichnet sein. So werden Bilder in der Regel als Pixelintensitäten oder Ergebnisse von Merkmalsextraktoren dargestellt, während Töne (Schall) eine Zeitreihe sein kann und Ultraschall eine Punktwolke darstellen kann. Aufgrund der unterschiedlichen statistischen Eigenschaften der verschiedenen Informationsquellen ist es sehr wichtig, die Beziehung zwischen den verschiedenen Modalitäten zu erkennen. Multimodales Lernen ist ein gutes Modell, um die gemeinsamen Repräsentationen verschiedener Modalitäten darzustellen. Das multimodale Lernmodell ist auch in der Lage, fehlende Modalitäten anhand der beobachteten Modalitäten zu ergänzen.
ZUSAMMENFASSUNG
Ein multimodales Wahrnehmungssystem umfasst einen Controller. Der Controller kann so konfiguriert sein, dass er ein erstes Signal von einem ersten Sensor, ein zweites Signal von einem zweiten Sensor und ein drittes Signal von einem dritten Sensor empfängt, einen ersten Merkmalsvektor aus dem ersten Signal extrahiert, einen zweiten Merkmalsvektor aus dem zweiten Signal extrahiert, einen dritten Merkmalsvektor aus dem dritten Signal extrahiert, einen Odd-One-Out-Vektor aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks, basierend auf einer inkonsistenten Modalitätsvorhersage, bestimmt, den ersten, zweiten und dritten Merkmalsvektor und den Odd-One-Out-Vektor zu einem verschmolzenen Merkmalsvektor verschmelzt (fusioniert), und den verschmolzenen Merkmalsvektor ausgibt.
Ein multimodales Wahrnehmungsverfahren umfasst ein Empfangen eines ersten Signals von einem ersten Sensor, eines zweiten Signals von einem zweiten Sensor und eines dritten Signals von einem dritten Sensor, die Extraktion eines ersten Merkmalsvektors aus dem ersten Signal, eines zweiten Merkmalsvektors aus dem zweiten Signal und eines dritten Merkmalsvektors aus dem dritten Signal, ein Bestimmen eines Odd-One-Out-Vektors aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage, ein Verschmelzen des ersten, zweiten und dritten Merkmalsvektors und des Odd-One-Out-Vektors zu einem verschmolzenen Merkmalsvektor, und ein Ausgeben des verschmolzenen (fusionierten) Merkmalsvektors.
Ein multimodales Wahrnehmungssystem für ein autonomes Fahrzeug umfasst einen ersten Sensor, bei dem es sich um einen Video-, RADAR-, LIDAR- oder Ultraschallsensor handelt, und einen Controller. Der Controller kann so konfiguriert sein, dass er ein erstes Signal von einem ersten Sensor, ein zweites Signal von einem zweiten Sensor und ein drittes Signal von einem dritten Sensor empfängt, einen ersten Merkmalsvektor aus dem ersten Signal extrahiert, einen zweiten Merkmalsvektor aus dem zweiten Signal extrahiert, einen dritten Merkmalsvektor aus dem dritten Signal extrahiert, einen Odd-One-Out-Vektor aus dem ersten, zweiten und dritten Merkmalsvektor über einen Odd-One-Out-Vektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage bestimmt, den ersten, zweiten und dritten Merkmalsvektor und den Odd-One-Out-Vektor zu einem fusionierten Merkmalsvektor verschmelzt, den fusionierten Merkmalsvektor ausgibt und das autonome Fahrzeug auf der Grundlage des fusionierten (verschmolzenen) Merkmalsvektors steuert.
Figurenliste

1 ist ein Blockdiagramm eines Systems zum Trainieren eines neuronalen Netzes.
2 ist eine grafische Darstellung einer beispielhaften ungünstigen (adversarischen) Störung mit einer einzigen Quelle eines multimodalen Modells mit einem anfälligen und robusten Ausgang.
3 ist ein Blockdiagramm eines Datenkommentierungssystems, das ein maschinelles Lernmodell verwendet.
4 ist eine grafische Darstellung eines multimodalen Fusionsnetzes.
5 ist ein Blockdiagramm eines elektronischen Rechensystems.
6 ist eine grafische Darstellung eines multimodalen Fusionsnetzwerks mit einem Odd-One-Out-Netzwerk.
7 ist eine grafische Darstellung eines Odd-One-Out-Netzwerks.
8 ist eine grafische Darstellung einer robusten Merkmalsfusionsschicht mit ungerader Eingabe (odd-one-out).
9 ist ein Flussdiagramm einer robusten Trainingsstrategie für Merkmalsfusion und Odd-One-Out-Netze.
10A ist eine grafische Darstellung von beispielhaften Ergebnissen der Handlungserkennung.
10B ist eine grafische Darstellung von beispielhaften 2-dimensionalen Objekterkennungsergebnissen.
10C ist eine grafische Darstellung von beispielhaften Ergebnissen einer Stimmungsanalyse.
11 ist eine schematische Darstellung eines Steuersystems, das zur Steuerung eines Fahrzeugs konfiguriert ist.
12 ist ein schematisches Diagramm eines Steuerungssystems, das für die Steuerung einer Fertigungsmaschine konfiguriert ist.
13 ist ein schematisches Diagramm eines Steuersystems, das zur Steuerung eines Elektrowerkzeugs konfiguriert ist.
14 ist ein schematisches Diagramm eines Steuersystems, das zur Steuerung eines automatisierten persönlichen Assistenten konfiguriert ist.
15 ist ein schematisches Diagramm eines Steuersystems, das zur Steuerung eines Überwachungssystems konfiguriert ist.
16 ist ein schematisches Diagramm eines Steuersystems, das zur Steuerung eines medizinischen Bildgebungssystems konfiguriert ist.

AUSFÜHRLICHE BESCHREIBUNG
Wie erforderlich, werden hier detaillierte Ausführungsformen der vorliegenden Erfindung offenbart; es ist jedoch zu verstehen, dass die offengelegten Ausführungsformen lediglich beispielhaft für die Erfindung sind, die in verschiedenen und alternativen Formen verkörpert werden kann. Die Abbildungen sind nicht notwendigerweise maßstabsgetreu; einige Merkmale können übertrieben oder verkleinert sein, um Details bestimmter Komponenten zu zeigen. Daher sind spezifische strukturelle und funktionelle Details, die hier offenbart werden, nicht als einschränkend zu verstehen, sondern lediglich als repräsentative Grundlage, um dem Fachmann zu zeigen, wie er die vorliegende Erfindung auf verschiedene Weise einsetzen kann.
Der Begriff „im Wesentlichen“ kann hier verwendet werden, um offengelegte oder beanspruchte Ausführungsformen zu beschreiben. Der Begriff „im Wesentlichen“ kann einen Wert oder ein relatives Merkmal modifizieren, der/das in der vorliegenden Offenbarung offenbart oder beansprucht wird. In solchen Fällen kann „im Wesentlichen“ bedeuten, dass der Wert oder die relative Eigenschaft, die er modifiziert, innerhalb von ± 0 %, 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 % oder 10 % des Wertes oder der relativen Eigenschaft liegt.
Der Begriff Sensor bezieht sich auf ein Gerät, das eine physikalische Eigenschaft erfasst oder misst und diese aufzeichnet, anzeigt oder anderweitig darauf reagiert. Der Begriff Sensor umfasst einen optischen, Licht-, Bild- oder Photonensensor (z. B. einen ladungsgekoppelten Baustein (CCD), einen CMOS-Aktiv-Pixel-Sensor (APS), einen Infrarotsensor (IR), einen CMOS-Sensor), einen Akustik-, Schall- oder Vibrationssensor (z. B. Mikrofon, Geophon, Hydrophon), einen Kfz-Sensor (z. B. Raddrehzahl, Einparken, Radar, Sauerstoff, Toter Winkel, Drehmoment), einen chemischen Sensor (z. B., ionensensitiver Feldeffekttransistor (ISFET), Sauerstoff, Kohlendioxid, Chemiresistor, holografischer Sensor), einen elektrischer Strom-, Potential-, Magnet- oder Hochfrequenzsensor (z. B. Hall-Effekt, Magnetometer, Magnetowiderstand, Faraday-Cup, Galvanometer), einen Umwelt-, Wetter-, Feuchtigkeits- oder Nässesensor (z. B. Wetterradar, Aktinometer), einen Strömungs- oder Flüssigkeitsgeschwindigkeitssensor (z. B, Luftmassenstromsensor, Anemometer), einen Sensor für ionisierende Strahlung oder subatomare Teilchen (z. B. Ionisationskammer, Geigerzähler, Neutronendetektor), einen Navigationssensor (z. B. ein GPS-Sensor, ein magnetohydrodynamischer Sensor), einen Positions-, Winkel-, Verschiebungs-, Abstands-, Geschwindigkeits- oder Beschleunigungssensor (z. B, LIDAR, Beschleunigungsmesser, Ultrabreitbandradar, piezoelektrischer Sensor), einen Kraft-, Dichte- oder Füllstandssensor (z. B. Dehnungsmessstreifen, nuklearer Dichtemesser), einen Wärme-, Hitze- oder Temperatursensor (z. B. Infrarotthermometer, Pyrometer, Thermoelement, Thermistor, Mikrowellenradiometer) oder ein anderes Gerät, Modul, eine Maschine oder ein Teilsystem, dessen Zweck es ist, eine physikalische Eigenschaft zu erkennen oder zu messen und sie aufzuzeichnen, anzuzeigen oder anderweitig darauf zu reagieren.
Multimodale Modelle sollen nicht nur eine hohe Leistung bei vielen Sehaufgaben erbringen, sondern auch robust gegenüber Fehlern aus einer einzigen Quelle sein, da redundante Informationen zwischen den Modalitäten verfügbar sind. Diese Offenbarung bietet eine Lösung für die Robustheit multimodaler neuronaler Netze gegenüber Störungen im schlimmsten Fall (d. h. nachteiligen oder ungünstigen (adversarischen) Störungen) in einer einzigen Modalität. Diese Offenbarung wird zeigen, dass standardmäßige multimodale Fusionsmodelle anfällig für Angriffe aus einer einzigen Quelle sind, z. B. kann ein Angriff auf eine einzelne Modalität die korrekten Informationen aus mehreren nicht gestörten Modalitäten überwinden und das Modell zum Scheitern bringen. Diese unerwartete Anfälligkeit gilt für verschiedene multimodale Aufgaben und macht eine Lösung erforderlich. In dieser Offenbarung wird eine widerstandsfähige Fusionsstrategie vorgestellt, die das Modell darauf trainiert, Informationen aus allen Eingangsquellen zu vergleichen, Inkonsistenzen in der gestörten Modalität im Vergleich zu den anderen Modalitäten zu erkennen und nur Informationen aus den ungestörten Modalitäten durchzulassen. Dieser Ansatz verbessert die Robustheit von Single-Source-Methoden im Vergleich zum Stand der Technik erheblich, indem er eine Verbesserung von 7,8 bis 25,2 % bei der Handlungserkennung, von 19,7 bis 48,2 % bei der Objekterkennung und von 1,6 bis 6,7 % bei der Stimmungsanalyse (Sentiment Analyse) erzielt, ohne die Leistung bei ungestörten (d. h. sauberen) Daten zu beeinträchtigen.
1 zeigt ein System 100 zum Trainieren eines neuronalen Netzes. Das System 100 kann eine Eingabeschnittstelle für den Zugriff auf Trainingsdaten 192 für das neuronale Netz umfassen. Wie in 1 dargestellt, kann die Eingabeschnittstelle beispielsweise durch eine Datenspeicherschnittstelle 180 gebildet werden, die auf die Trainingsdaten 192 aus einem Datenspeicher 190 zugreifen kann. Die Datenspeicherschnittstelle 180 kann beispielsweise eine Speicherschnittstelle oder eine Schnittstelle für einen dauerhaften Speicher sein, z. B. eine Festplatte oder eine SSD-Schnittstelle, aber auch eine persönliche, lokale oder Weitverkehrsnetzschnittstelle wie eine Bluetooth-, Zigbee- oder Wi-Fi-Schnittstelle oder eine Ethernet- oder Glasfaserschnittstelle. Der Datenspeicher 190 kann ein interner Datenspeicher des Systems 100 sein, z. B. eine Festplatte oder SSD, aber auch ein externer Datenspeicher, z. B. ein über das Netzwerk erreichbarer Datenspeicher.
In einigen Ausführungsformen kann der Datenspeicher 190 ferner eine Datendarstellung 194 einer untrainierten Version des neuronalen Netzes umfassen, auf die das System 100 vom Datenspeicher 190 aus zugreifen kann. Es wird jedoch deutlich, dass auf die Trainingsdaten 192 und die Datendarstellung 194 des untrainierten neuronalen Netzes auch jeweils von einem anderen Datenspeicher aus zugegriffen werden kann, z. B. über ein anderes Teilsystem der Datenspeicherschnittstelle 180. Jedes Teilsystem kann von einem Typ sein, wie er oben für die Datenspeicherschnittstelle 180 beschrieben wurde. In anderen Ausführungsformen kann die Datendarstellung 194 des untrainierten neuronalen Netzes intern von dem System 100 auf der Grundlage von Entwurfsparametern für das neuronale Netz erzeugt werden und muss daher nicht explizit auf dem Datenspeicher 190 gespeichert werden. Das System 100 kann ferner ein Prozessor-Subsystem 160 umfassen, das so konfiguriert sein kann, dass es während des Betriebs des Systems 100 eine iterative Funktion als Ersatz für einen Stapel von Schichten des zu trainierenden neuronalen Netzes bereitstellt. In einer Ausführungsform können die jeweiligen Schichten des Stapels von Schichten, die ersetzt werden, gegenseitig geteilte Gewichte haben und als Eingabe eine Ausgabe einer vorherigen Schicht oder für eine erste Schicht des Stapels von Schichten eine anfängliche Aktivierung und einen Teil der Eingabe des Stapels von Schichten empfangen. Das System kann auch mehrere Schichten umfassen. Das Prozessor-Subsystem 160 kann ferner so konfiguriert sein, dass es das neuronale Netz unter Verwendung der Trainingsdaten 192 iterativ trainiert. Dabei kann eine Iteration des Trainings durch das Prozessor-Subsystem 160 einen Vorwärtspropagationsteil und einen Rückwärtspropagationsteil umfassen. Das Prozessor-Subsystem 160 kann so konfiguriert sein, dass es den Vorwärtspropagationsteil durchführt, indem es neben anderen Operationen, die den Vorwärtspropagationsteil definieren und durchgeführt werden können, einen Gleichgewichtspunkt der iterativen Funktion bestimmt, an dem die iterative Funktion zu einem festen Punkt konvergiert, wobei die Bestimmung des Gleichgewichtspunkts die Verwendung eines numerischen Wurzelfindungsalgorithmus umfasst, um eine Wurzellösung für die iterative Funktion abzüglich ihrer Eingabe zu finden, und indem es den Gleichgewichtspunkt als Ersatz für eine Ausgabe des Schichtenstapels in dem neuronalen Netz bereitstellt. Das System 100 kann ferner eine Ausgabeschnittstelle zur Ausgabe einer Datendarstellung 196 des trainierten neuronalen Netzes umfassen, wobei diese Daten auch als trainierte Modelldaten 196 bezeichnet werden können. Die Ausgabeschnittstelle kann beispielsweise, wie auch in 1 dargestellt, durch die Datenspeicherschnittstelle 180 gebildet werden, wobei es sich bei dieser Schnittstelle in diesen Ausführungsformen um eine Eingabe-/Ausgabeschnittstelle („IO“) handelt, über die die trainierten Modelldaten 196 in dem Datenspeicher 190 gespeichert werden können. Beispielsweise kann die Datendarstellung 194, die das „untrainierte“ neuronale Netz definiert, während oder nach dem Training zumindest teilweise durch die Datendarstellung 196 des trainierten neuronalen Netzes ersetzt werden, indem die Parameter des neuronalen Netzes, wie Gewichte, Hyperparameter und andere Arten von Parametern neuronaler Netze, angepasst werden, um das Training an den Trainingsdaten 192 widerzuspiegeln. Dies wird in 1 auch durch die Bezugszahlen 194, 196 veranschaulicht, die sich auf denselben Datensatz auf dem Datenspeicher 190 beziehen. In anderen Ausführungsformen kann die Datendarstellung 196 getrennt von der Datendarstellung 194 gespeichert werden, die das „untrainierte“ neuronale Netz definiert. In einigen Ausführungsformen kann die Ausgabeschnittstelle von der Datenspeicherschnittstelle 180 getrennt sein, kann aber im Allgemeinen von der Art sein, wie oben für die Datenspeicherschnittstelle 180 beschrieben.
2 ist eine grafische Darstellung 200 einer beispielhaften Störung eines multimodalen Modells durch eine einzige Quelle mit einer anfälligen und robusten Ausgabe. Eine Szene 202 eines Lastwagens, der eine Straße entlang fährt, wird mit verschiedenen Modalitäten 204 analysiert. In diesem Beispiel umfassen die verschiedenen Modalitäten eine Videokamera 204a, einen LIDAR-Sensor 204b und ein Mikrofon 204c. Die Daten der verschiedenen Modalitäten werden von einem Prozessor oder Controller in einem multimodalen Modell 206 verarbeitet und geben eine Vorhersage der Szene 208 aus, die zur Steuerung eines Systems wie eines Robotersystems, eines autonomen Fahrzeugs, eines Industriesystems oder eines anderen elektrischen/elektromechanischen Systems verwendet werden kann. Tritt bei einer der Modalitäten (z. B. der Videokamera 204a) eine nachteilige Störung auf, kann die Vorhersage 206 der Szene eine ehrwürdige Vorhersage 206a sein, die ungenau ist. Die Verwendung eines robusten multimodalen Modells 206 kann jedoch eine robuste Vorhersage 206b des Lastwagens erzeugen, selbst wenn die Videokamera 204a gestört ist. In dieser Offenbarung werden ein System und ein Verfahren zur Erstellung einer robusten Vorhersage im Falle einer nachteiligen Störung einer Modalität sowie ein System und ein Verfahren zum Trainieren des robusten multimodalen Modells angegeben.
3 zeigt ein Datenanmerkungssystem (Data Annotation System) 300 zur Implementierung eines Systems zur Datenanmerkung (Data Annotation). Das Datenanmerkungssystem 300 kann mindestens ein Rechensystem 302 umfassen. Das Rechensystem 302 kann mindestens einen Prozessor 304 enthalten, der mit einer Speichereinheit 308 verbunden ist. Der Prozessor 304 kann einen oder mehrere integrierte Schaltkreise enthalten, die die Funktionalität einer zentralen Verarbeitungseinheit (CPU) 306 implementieren. Bei der CPU 306 kann es sich um eine handelsübliche Verarbeitungseinheit handeln, die einen Befehlssatz wie eine der Befehlssatzfamilien x86, ARM, Power oder MIPS implementiert. Während des Betriebs kann die CPU 306 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 308 abgerufen werden. Die gespeicherten Programmanweisungen können Software enthalten, die den Betrieb der CPU 306 steuert, um den hier beschriebenen Vorgang durchzuführen. In einigen Beispielen kann der Prozessor 304 ein System auf einem Chip (SoC) sein, das die Funktionalität der CPU 306, der Speichereinheit 308, einer Netzwerkschnittstelle und der Eingabe-/Ausgabeschnittstellen in einer einzigen integrierten Einrichtung integriert. Das Rechnersystem 302 kann ein Betriebssystem zur Verwaltung verschiedener Aspekte des Betriebs implementieren.
Die Speichereinheit 308 kann flüchtige und nichtflüchtige Speicher zum Speichern von Anweisungen und Daten enthalten. Der nichtflüchtige Speicher kann Festkörperspeicher, wie z. B. NAND-Flash-Speicher, magnetische und optische Speichermedien oder jede andere geeignete Datenspeicherreinrichtung umfassen, die Daten beibehält, wenn das Computersystem 302 deaktiviert wird oder die elektrische Energie verliert. Der flüchtige Speicher kann einen statischen und dynamischen Direktzugriffsspeicher (RAM) umfassen, der Programmanweisungen und Daten speichert. Zum Beispiel kann die Speichereinheit 308 ein maschinelles Lernmodell 310 oder einen Algorithmus, einen Trainingsdatensatz 312 für das maschinelle Lernmodell 310 und einen Rohdatensatz 315 speichern. Das Modell 310 kann ein Odd-One-Out-Netzwerk enthalten, wie in dieser Offenbarung beschrieben und in 7 dargestellt. Außerdem kann der Trainingsdatensatz 312 Merkmale und den Merkmalsextraktor enthalten, wie in dieser Offenlegung beschrieben und in den 4, 6, 7 und 8 dargestellt. Und die Rohdatenquelle 315 kann Daten aus mehreren Eingabemodalitäten enthalten, wie in dieser Offenlegung beschrieben und in 4 und 6 dargestellt.
Das Computersystem 302 kann eine Netzwerkschnittstelleneinrichtung 322 enthalten, das so konfiguriert ist, dass es die Kommunikation mit externen Systemen und Geräten/Einrichtungen ermöglicht. Die Netzwerkschnittstelle 322 kann beispielsweise eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle gemäß den Standards der IEEE 802.11-Familie (Institute of Electrical and Electronics Engineers) umfassen. Die Netzwerkschnittstelleneinrichtung 322 kann eine Mobilfunkschnittstelle für die Kommunikation mit einem Mobilfunknetz (z. B. 3G, 4G, 5G) enthalten. Die Netzwerkschnittstelleneinrichtung 322 kann ferner so konfiguriert sein, dass sie eine Kommunikationsschnittstelle zu einem externen Netzwerk 324 oder einer Cloud bereitstellt.
Das externe Netz 324 kann als das World Wide Web oder das Internet bezeichnet werden. Das externe Netz 324 kann ein Standard-Kommunikationsprotokoll zwischen Recheneinrichtungen einrichten. Das externe Netz 324 kann den einfachen Austausch von Informationen und Daten zwischen Datenverarbeitungseinrichtugnen und Netzen ermöglichen. Ein oder mehrere Server 330 können mit dem externen Netz 324 in Verbindung stehen.
Das Computer/Rechen-System 302 kann eine Ein-/Ausgabeschnittstelle (E/A) 320 enthalten, die so konfiguriert sein kann, dass sie digitale und/oder analoge Ein- und Ausgänge bereitstellt. Die E/A-Schnittstelle 320 kann zusätzliche serielle Schnittstellen für die Kommunikation mit externen Einrichtungen enthalten (z. B. Universal Serial Bus (USB)-Schnittstelle).
Das Computer/Rechen-System 302 kann eine Mensch-Maschine-Schnittstelle (HMI) 318 enthalten, die jede Einrichtung umfassen kann, das es dem System 300 ermöglicht, Steuereingaben zu empfangen. Beispiele für Eingabeeinrichtungen können Eingaben über menschliche Schnittstellen wie Tastaturen, Mäuse, Touchscreens, Spracheingabegeräte und andere ähnliche Einrichtungen sein. Das Rechnersystem 302 kann eine Anzeigeeinrichtung 332 enthalten. Das Computersystem 302 kann Hardware und Software zur Ausgabe von Grafik- und Textinformationen an die Anzeigeeinrichtung 332 enthalten. Die Anzeigeeinrichtung 332 kann einen elektronischen Bildschirm, einen Projektor, einen Drucker oder eine andere geeignete Vorrichtung zur Anzeige von Informationen für einen Benutzer oder Bediener umfassen. Das Computersystem 302 kann ferner so konfiguriert sein, dass es die Interaktion mit entfernten HMI- und entfernten Anzeigeeinrichtungen über die Netzwerkschnittstelle 322 ermöglicht.
Das System 300 kann mit einem oder mehreren Rechnersystemen implementiert werden. Obwohl das Beispiel ein einziges Computersystem 302 zeigt, das alle beschriebenen Merkmale implementiert, können verschiedene Merkmale und Funktionen getrennt und von mehreren miteinander kommunizierenden Recheneinheiten implementiert werden. Die gewählte Systemarchitektur kann von einer Vielzahl von Faktoren abhängen.
Das System 300 kann einen Algorithmus für maschinelles Lernen (310) implementieren, der so konfiguriert ist, dass er den rohen Quelldatensatz 315 analysiert. Der rohe Quelldatensatz 315 kann rohe oder unverarbeitete Sensordaten enthalten, die repräsentativ für einen Eingabedatensatz für ein Machine-Learning-System sein können. Der rohe Quelldatensatz 315 kann Videos, Videosegmente, Bilder, textbasierte Informationen und rohe oder teilweise verarbeitete Sensordaten (z. B. Radarkarten von Objekten) enthalten. In einigen Beispielen kann der maschinelle Lernalgorithmus 310 ein neuronaler Netzwerkalgorithmus sein, der so konzipiert ist, dass er eine vorbestimmte Funktion ausführt. Zum Beispiel kann der neuronale Netzwerkalgorithmus in Automobilanwendungen so konfiguriert sein, dass er Fußgänger in Videobildern identifiziert.
Das Computersystem 300 kann einen Trainingsdatensatz 312 für den Machine-Learning-Algorithmus 310 speichern. Der Trainingsdatensatz 312 kann einen Satz zuvor erstellter Daten zum Trainieren des maschinellen Lernalgorithmus 310 darstellen. Der Trainingsdatensatz 312 kann von dem Machine-Learning-Algorithmus 310 verwendet werden, um Gewichtungsfaktoren zu lernen, die mit einem neuronalen Netzwerkalgorithmus verbunden sind. Der Trainingsdatensatz 312 kann einen Satz von Quelldaten mit entsprechenden Ergebnissen enthalten, die der Machine-Learning-Algorithmus 310 durch den Lernprozess zu duplizieren versucht. In diesem Beispiel kann der Trainingsdatensatz 312 Quellvideos mit und ohne Fußgänger und entsprechende Präsenz- und Standortinformationen enthalten. Die Quellvideos können verschiedene Szenarien enthalten, in denen Fußgänger identifiziert werden.
Der Machine-Learning-Algorithmus 310 kann in einem Lernmodus betrieben werden, der den Trainingsdatensatz 312 als Eingabe verwendet. Der maschinelle Lernalgorithmus 310 kann über eine Anzahl von Iterationen unter Verwendung der Daten aus dem Trainingsdatensatz 312 ausgeführt werden. Bei jeder Iteration kann der Machine-Learning-Algorithmus 310 die internen Gewichtungsfaktoren auf der Grundlage der erzielten Ergebnisse aktualisieren. Zum Beispiel kann der Machine-Learning-Algorithmus 310 die Ausgabeergebnisse (z.B. Anmerkungen) mit denen aus dem Trainingsdatensatz 312 vergleichen. Da der Trainingsdatensatz 312 die erwarteten Ergebnisse enthält, kann der Algorithmus für maschinelles Lernen 310 bestimmen, wann die Leistung akzeptabel ist. Nachdem der Algorithmus für maschinelles Lernen 310 ein vorbestimmtes Leistungsniveau erreicht hat (z.B. 100%ige Übereinstimmung mit den Ergebnissen, die mit dem Trainingsdatensatz 312 verbunden sind), kann der Algorithmus für maschinelles Lernen 310 unter Verwendung von Daten ausgeführt werden, die nicht im Trainingsdatensatz 312 enthalten sind. Der trainierte Machine-Learning-Algorithmus 310 kann auf neue Datensätze angewendet werden, um kommentierte Daten zu erzeugen.
Der Machine-Learning-Algorithmus 310 kann so konfiguriert sein, dass er ein bestimmtes Merkmal in den Rohquellendaten 315 identifiziert. Die Rohquellenuelldaten 315 können eine Vielzahl von Instanzen oder Eingabedatensätzen enthalten, für die Annotations/Anmerkungs-Ergebnisse gewünscht sind. Beispielsweise kann der Algorithmus 310 für maschinelles Lernen so konfiguriert sein, dass er das Vorhandensein eines Fußgängers in Videobildern identifiziert und die Vorkommnisse mit Anmerkungen versieht. Der Algorithmus 310 für maschinelles Lernen kann so programmiert werden, dass er die rohen Quelldaten 315 verarbeitet, um das Vorhandensein der bestimmten Merkmale zu identifizieren. Der Machine-Learning-Algorithmus 310 kann so konfiguriert sein, dass er ein Merkmal in den Rohdaten 315 als ein vorbestimmtes Merkmal (z. B. Fußgänger) identifiziert. Die rohen Quelldaten 315 können aus einer Vielzahl von Quellen stammen. Beispielsweise können die Rohquelldaten 315 tatsächliche Eingabedaten sein, die von einem maschinellen Lernsystem erfasst werden. Die rohen Quelldaten 315 können maschinell erzeugt werden, um das System zu testen. Die rohen Quelldaten 315 können zum Beispiel Videorohdaten von einer Kamera enthalten.
In diesem Beispiel kann der Algorithmus 310 für maschinelles Lernen die Rohquellendaten 315 verarbeiten und einen Hinweis auf eine Darstellung eines Bildes ausgeben. Die Ausgabe kann auch eine erweiterte Darstellung des Bildes enthalten. Ein Algorithmus 310 für maschinelles Lernen kann einen Konfidenzwert oder -faktor für jede erzeugte Ausgabe erzeugen. Zum Beispiel kann ein Konfidenzwert, der einen vorbestimmten Schwellenwert für hohe Konfidenz übersteigt, anzeigen, dass der maschinelle Lernalgorithmus 310 davon überzeugt ist, dass das identifizierte Merkmal dem bestimmten Merkmal entspricht. Ein Konfidenzwert, der unter einem Schwellenwert für niedrige Konfidenz liegt, kann anzeigen, dass der maschinelle Lernalgorithmus 310 eine gewisse Unsicherheit hat, dass das bestimmte Merkmal vorhanden ist.
4 ist eine grafische Darstellung eines multimodalen Fusionssystems 400. Das multimodale Fusionsnetzwerk 402 empfängt Eingangsmodalitäten 404a, 404b, 404c und extrahiert Merkmale 406a, 406b, 406c aus jeder Modalität und fusioniert sie in einer Fusionsschicht 408 und nachfolgenden nachgeschalteten Schichten 410, um eine Ausgabe zu erzeugen. Dieses multimodale Fusionssystem 400 kann auf einem elektronischen Rechensystem implementiert werden. Dieses System 400 kann unter idealen Bedingungen gut funktionieren, aber wenn eine der Modalitäten eine ungünstige Störung erfährt (z. B. die Eingangsmodalität 404b), kann das System eine ungültige Ausgabe liefern.
Ein Beispiel einer Maschinenarchitektur und eines maschinenlesbaren Mediums werden in 5, das ein Blockdiagramm eines elektronischen Computersystems ist, das zur Implementierung der hier offenbarten Systeme oder zur Ausführung der hier offenbarten Verfahren geeignet ist, offenbart. Die Maschine in 5 ist als eigenständige Einrichtung dargestellt, die sich für die Umsetzung der Konzepte in dieser Offenbarung eignet. Für die oben beschriebenen Server-Aspekte kann eine Vielzahl solcher Maschinen verwendet werden, die in einem Rechenzentrum, als Teil einer Cloud-Architektur usw. betrieben werden. In den Serveraspekten werden nicht alle der dargestellten Funktionen und Geräte verwendet. Während beispielsweise ein System, ein Gerät usw., mit dem ein Benutzer mit einem Server und/oder den Cloud-Architekturen interagiert, über einen Bildschirm, eine Touchscreen-Eingabe usw. verfügen kann, haben Server oft keine Bildschirme, Touchscreens, Kameras usw. und interagieren mit den Benutzern typischerweise über angeschlossene Systeme, die geeignete Eingabe- und Ausgabeaspekte aufweisen. Daher sollte die nachstehende Architektur so verstanden werden, dass sie mehrere Arten von Geräten/Einrichtungen und Maschinen umfasst, und verschiedene Aspekte können in einem bestimmten Gerät/zu einer bestimmten Einrichtung oder einer bestimmten Maschine je nach Formfaktor und Zweck vorhanden sein oder auch nicht (z. B. haben Server selten Kameras, während Wearables selten Magnetplatten umfassen). Die Beispielerläuterung in 5 ist jedoch geeignet, dem Fachmann die Möglichkeit zu geben, zu bestimmen, wie die zuvor beschriebenen Ausführungsformen mit einer geeigneten Kombination von Hardware und Software zu implementieren sind, wobei die dargestellte Ausführungsform an das jeweilige Gerät/an die jeweilige Einrichtung, die Maschine usw. angepasst werden muss.
Obwohl nur eine einzige Maschine abgebildet ist, umfasst der Begriff „Maschine“ auch eine beliebige Sammlung von Maschinen, die einzeln oder gemeinsam einen Satz (oder mehrere Sätze) von Anweisungen ausführen, um eine oder mehrere der hier erörterten Methologien durchzuführen.
Das Beispiel der Maschine 500 umfasst mindestens einen Prozessor 502 (z. B. einen Controller, Mikrocontroller, eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU), eine Tensor Processing Unit (TPU), eine Advanced Processing Unit (APU) oder Kombinationen davon), einen oder mehrere Speicher wie einen Hauptspeicher 504, und einen statischen Speicher 506 oder andere Speichertypen, die über eine Verbindung 508 miteinander kommunizieren. Die Verbindung 508 kann ein Bus oder eine andere Art von Verbindungskanal sein. Die Maschine 500 kann weitere optionale Aspekte enthalten, wie z. B. eine Grafikanzeigeeinheit 510, die eine beliebige Art von Anzeige umfasst. Die Maschine 500 kann auch andere optionale Aspekte wie eine alphanumerische Eingabevorrichtung 512 (z. B. eine Tastatur, einen Touchscreen usw.), eine Navigationsvorrichtung 514 für die Benutzeroberfläche (Ul) (z. B. eine Maus, einen Trackball, eine Berührungsvorrichtung usw.), eine Speichereinheit 516 (z. B. ein Diskettenlaufwerk oder eine andere Speichervorrichtung(en)), eine Signalerzeugungsvorrichtung 518 (z. B. einen Lautsprecher), Sensoren 521 (z. B, (z. B. globaler Positionierungssensor, Beschleunigungsmesser, Mikrofon(e), Kamera(s) usw.), eine Ausgabesteuerung 528 (z. B. eine drahtgebundene oder drahtlose Verbindung zur Verbindung und/oder Kommunikation mit einem oder mehreren anderen Geräten wie einem universellen seriellen Bus (USB), Nahfeldkommunikation (NFC), Infrarot (IR), seriellem/parallelem Bus usw.) und einer Netzwerkschnittstelleneinrichtung 520 (z. B. drahtgebunden und/oder drahtlos) zur Verbindung mit und/oder Kommunikation über ein oder mehrere Netzwerke 526.
Die verschiedenen Speicher (d. h. 504, 506 und/oder der Speicher des/der Prozessors/Prozessoren 502) und/oder die Speichereinheit 516 können einen oder mehrere Sätze von Anweisungen und Datenstrukturen (z. B. Software) 524 speichern, die eine oder mehrere der hier beschriebenen Methoden oder Funktionen verkörpern oder von diesen verwendet werden. Diese Anweisungen/Befehle bewirken, wenn sie von dem/den Prozessor(en) 502 ausgeführt werden, verschiedene Operationen zur Umsetzung der offenbarten Ausführungsformen.
6 ist eine grafische Darstellung eines multimodalen Fusionssystems mit einem Odd-One-Out-Netzwerk. Das multimodale Fusionsnetzwerk 602 empfängt Eingangsmodalitäten 604a, 604b, 604c und extrahiert Merkmale 606a, 606b, 606c aus jeder Modalität, die Merkmalsvektoren sind. Der Ausgang der Merkmalsextraktoren 606 wird in ein Odd-One-Out-Netzwerk 612 eingespeist. Das Odd-One-Out-Netzwerk 612 erzeugt eine „inkonsistente“ Modalitätsvorhersage, die zusammen mit der Ausgabe der Merkmalsextraktoren 606 in eine robuste Fusionsschicht 608 eingespeist wird. Die robuste Fusionsschicht 608 gibt einen fusionierten Merkmalsvektor aus, der anschließend an nachgelagerte Schichten 610 weitergeleitet wird, um eine Ausgabe zu erzeugen. Dieses multimodale Fusionssystem 600 kann auf einem elektronischen Computersystem implementiert werden.
7 ist eine grafische Darstellung eines Odd-One-Out-Netzwerks 700 wie das Odd-One-Out-Netzwerk 612 aus 6. Das Netzwerk 700 empfängt Merkmale 702, wie z. B. die Ausgaben der Merkmalsextraktoren 602a, 602b und 602c, und erzeugt Modalitätsvorhersagegewichte 704, so dass für jeden Merkmalskanal ein Modalitätsvorhersagegewicht 704a, 704b und 704c zugeordnet ist. Diese Modalitätsvorhersagegewichte 704a, 704b und 704c erzeugen einen Odd-One-Out-Vektor, der an die robuste Merkmalsfusionsschicht weitergeleitet wird.
8 ist eine grafische Darstellung einer robusten Merkmalsfusionsschicht 800 mit Odd-One-Out-Eingabe. Diese Fusionsschicht 800 empfängt Merkmale 802 von jeder Modalität und führt eine Fusion 804 an jeder Modalität durch, um fusionierte Merkmale 806 für jede Modalität zu erzeugen. Die fusionierten Merkmale 806 werden mit der Modalitätsvorhersage 704 aus 7 fusioniert, um eine Ausgabe zu erzeugen.
Es sei das in 2 dargestellte multimodale neuronale Netz, das Eingaben aus k verschiedenen Quellen zusammenführt, um Objekte für ein autonomes Fahrsystem zu identifizieren, betrachtet. Wenn eine der Modalitäten (z. B. Rot-Grün-Blau-Kamera) eine ungünstige oder Worst-Case Störung erfährt, kann das Modell dann den Lkw in der Szene nicht erkennen? Oder trifft das Modell alternativ eine robuste Vorhersage unter Verwendung der verbleibenden k-1 ungestörten Modalitäten (z. B. LIDAR-Sensor, Audiomikrofon usw.)? Dieses Beispiel veranschaulicht, wie wichtig die Robustheit von Einzelquellen für die Vermeidung von katastrophalen Ausfällen in realen multimodalen Systemen ist. In einer realistischen Umgebung kann jede einzelne Modalität von einer Worst-Case-Störung betroffen sein, während mehrere Modalitäten in der Regel nicht gleichzeitig ausfallen, insbesondere wenn die physischen Sensoren nicht gekoppelt sind.
Auf dem Gebiet der Robustheit gegenüber Gegnern haben sich die meisten Studien eher auf die unimodale als auf die multimodale Umgebung konzentriert. Eine wirksame Strategie zur Verteidigung unimodaler Modelle gegen Angreifer ist das „adversarial training“ (d. h. ein durchgängiges Training (End-to-End Training) des Modells anhand von Beispielen aus der Praxis). Im Prinzip könnte das adversarische Training auch auf multimodale Modelle ausgedehnt werden, aber es hat mehrere Nachteile: (1) es ist ressourcenintensiv und skaliert möglicherweise nicht gut für große, multimodale Modelle, die viel mehr Parameter enthalten als ihre unimodalen Gegenstücke; (2) es verschlechtert die Leistung bei sauberen Daten erheblich. Aus diesen Gründen ist ein durchgängiges adversariales Training für multimodale Systeme, die für reale Aufgaben eingesetzt werden, möglicherweise nicht praktikabel.
Diese Offenbarung zeigt die multimodale Robustheit gegen Angreifer mit einer einzigen Quelle bei verschiedenen Benchmark-Aufgaben mit drei Modalitäten (k = 3): Handlungserkennung bei EPIC-Kitchens, Objekterkennung bei KITTI und Stimmungsanalyse bei CMU-MOSI. Obwohl in dieser Offenbarung drei Modalitäten als Beispiel verwendet werden, ist diese Offenlegung nicht auf drei Modalitäten beschränkt, sondern kann auf mehr als drei erweitert werden. Diese Offenbarung wird veranschaulichen, dass standardmäßige multimodale Fusionsverfahren anfällig für Störungen aus einer einzigen Quelle sind. Selbst wenn es mehrere ungestörte Modalitäten gibt, die eine korrekte Vorhersage liefern könnten, führt die Verwendung einer naiven Zusammenführung von Merkmalen aus einer gestörten Modalität mit Merkmalen aus reinen Modalitäten nicht automatisch zu einer robusten Vorhersage. Wie in 4 zu sehen ist, kann eine Worst-Case-Eingabe bei einer einzelnen Modalität eines multimodalen Modells die anderen Modalitäten überwiegen und das Modell zum Scheitern bringen. Entgegen den Erwartungen schnitt ein multimodales Modell (k=3) bei einer Störung durch eine einzige Quelle in einigen Fällen nicht besser ab als ein unimodales Modell (k= 1) bei demselben Angriff.
In dieser Offenbarung wird eine robuste Fusionsstrategie vorgestellt, die auf mittlere bis späte Fusionsmodelle angewandt werden kann, um sich gegen diese Schwachstelle zu schützen, ohne die saubere Leistung zu beeinträchtigen. Basierend auf der Hypothese, dass ein multimodales Modell trainiert werden kann, um Korrespondenzen (oder deren Fehlen) zwischen Merkmalen aus verschiedenen Modalitäten zu erkennen und diese Informationen zu nutzen, um eine robuste Merkmalsfusion durchzuführen, die gegen die gestörte Modalität schützt. Dieser Ansatz erweitert bestehende Arbeiten zu adaptiven Gating-Strategien um ein robustes Fusionstrainingsverfahren, das auf Odd-One-Out-Lernen basiert, um die Robustheit von Single-Source-Adversarials zu verbessern, ohne die saubere Leistung zu beeinträchtigen. Umfangreiche Experimente haben gezeigt, dass dieser Ansatz auch gegen adaptive White-Box-Angriffe mit Zugriff auf die robuste Fusionsstrategie wirksam ist. Eine beispielhafte Ausführungsform dieses Systems übertraf den Stand der Technik bei der Robustheit von Einzelquellen deutlich. Die Ergebnisse des Tests dieses beispielhaften Systems und des Verfahrens erzielten Gewinne von 7,8-25,2% bei der Handlungserkennung (Action Recognition) auf EPICKitchens, 19,7-48,2% bei der 2D-Objekterkennung auf KITTI und 1,6-6,7% bei der Sentimentanalyse (Stimmungsanalyse) auf CMU-MOSI.
Im Allgemeinen sind multimodale Modelle nicht von Natur aus robust gegenüber Angreifern mit nur einer Quelle, aber diese Offenbarung zeigt, wie die Robustheit multimodaler Modelle ohne die Nachteile verbessert werden kann, die mit einem durchgängigen Training von Angreifern in unimodalen Modellen verbunden sind. Die Kombination von robusten Fusionsarchitekturen mit robustem Fusionstraining kann eine praktische Strategie zur Verteidigung realer Systeme gegen Angriffe von Angreifern sein und gibt eine vielversprechende Richtung für zukünftige Forschung vor.
Robustheit gegenüber Angriffen von außen. Bildverarbeitungssysteme, die auf Deep-Learning-Modellen basieren, sind anfällig für adversarische Angriffe, d. h. für additive, schlimmstmögliche (worst case) und nicht wahrnehmbare Störungen der Eingaben, die zu fehlerhaften Vorhersagen führen. Es wurden zahlreiche Methoden zur Abwehr von Angriffen vorgeschlagen. Die beiden effektivsten sind das End-to-End-Training, bei dem Beispiele von Angreifern synthetisiert und in die Trainingsdaten integriert werden, und das beweisbar robuste Training (provably robust Training), das theoretische Grenzen für die Leistung setzt. Diese Verfahren/Methoden haben sich jedoch auf die unimodale Einstellung konzentriert, bei der die Eingabe ein einzelnes Bild ist. Im Gegensatz zu diesen Arbeiten werden hier nachteilige Störungen aus einer einzigen Quelle in einer multimodalen Umgebung und eine Steigerung von konsistenten Informationen zwischen den Modalitäten betrachtet, um die Robustheit des Fusionsschrittes des Modells zu verbessern. Dieses Trainingsverfahren ist insofern mit dem adversen Training verwandt, als es ebenfalls gestörte Eingaben verwendet, aber anstelle des End-to-End-Trainings von Modellparametern liegt der Schwerpunkt auf dem Entwurf und dem Training der Merkmalsfusion in einer robusten Weise. Diese Strategie bringt die Vorteile des adversen Trainings mit sich, während die Leistung bei sauberen Daten erhalten bleibt und die Anzahl der Parameter, die bei gestörten Daten trainiert werden müssen, deutlich reduziert wird.
Multimodale Fusionsmodelle. Multimodale neuronale Netze erbringen gute Leistungen bei einer Vielzahl von Bildverarbeitungsaufgaben, z. B. beim Verstehen von Szenen, der Objekterkennung, der Analyse von Gefühlen, der Spracherkennung und der medizinischen Bildgebung. Was die Fusionsmethoden betrifft, so gewichten Gating-Netzwerke die Quellen adaptiv in Abhängigkeit von den Eingaben. Diese Fusionsmethoden nutzen mehrere Modalitäten, um die saubere Leistung bei einer Aufgabe zu verbessern, bewerten oder erweitern diese Ansätze jedoch nicht, um die Robustheit einzelner Quellen zu verbessern, was einer der Schwerpunkte dieser Offenlegung ist.
Robustheit gegenüber einer einzelnen Quelle. Mehrere neuere Arbeiten bieten wichtige Einblicke in die Auswirkungen von Störungen aus einer einzigen Quelle wie Verdeckungen, Aussetzer und Gaußsches Rauschen auf Objekterkennungssysteme mit zwei Modalitäten (k = 2). Im Gegensatz dazu werden in dieser Offenbarung Störungen durch eine einzige Quelle betrachtet, die den schlimmsten Fall von Fehlern in multimodalen Systemen aufgrund einer gestörten Modalität untersuchen. Diese Offenbarung berücksichtigt neben der Objekterkennung auch andere Aufgaben und bewertet Modelle mit drei Modalitäten (k = 3), bei denen es mehr saubere Quellen als gestörte Quellen gibt. Was die Verteidigungsstrategien betrifft, so verbessern robuste multimodale Fusionsmethoden, die auf einem robusten End-to-End-Training und adaptiven Fusionsschichten mit Gating basieren, die Robustheit von Einzelquellen gegenüber Verfälschungen. Diese Offenbarung erweitert dies durch die Entwicklung einer robusten Fusionsstrategie, die die Korrespondenz zwischen ungestörten Modalitäten nutzt, um sich gegen die gestörte Modalität zu verteidigen, und die gegen schwierigere gegnerische Störungen wirksam ist.
Adversarische Störungen einer einzigen Quelle.
Es sei f:x7→y ein multimodales Modell mit k Eingangsmodalitäten (d.h.x= [x₁,---, x_k]). Es sei das Ausmaß betrachtet, in dem die Leistung von f durch Worst-Case-Störungen auf einer einzelnen Modalität i ∈ [k] (mit [k] = {1,---, k}) verschlechtert wird, während die anderen k- 1 Modalitäten unbeeinflusst bleiben. Diesbezüglich sei eine Störung mit einer einzigen Quelle gegen f auf der Modalität i gemäß Gleichung 1 definiert, $δ^{(i)} (x, y; ƒ) : = \underset{{| | δ | |}_{p} \leq \in}{arg max} L (ƒ (x_{i} + δ, x_{- i}), y)$
in denen $L$
die Verlustfunktion ist und ∈ > 0 den zulässigen Bereich der Störung δ(i) definiert. Wenn angenommen wird, dass die multimodalen Eingänge x und Ausgänge y aus einer Verteilung D abgetastet werden, dann ist die adversarische Einzelquellenleistung von f in Bezug auf die Modalität i∈[k] gegeben durch, $E_{(x, y) ~ D} max_{{| | δ | |}_{p} \leq \in} [L (ƒ (x_{i} + δ, x_{- i}), y)] .$
Die Differenz zwischen der Leistung von /bei ungestörten Daten, d.h., $E_{(x, y) ~ D} [L (ƒ (x_{i} + δ, x_{- i}), y)],$
und seiner in Gleichung (2) spezifizierten Leistung bei einer einzigen Quelle zeigt im Durchschnitt die Empfindlichkeit von f gegenüber seinen Worst-Case-Eingaben auf der Modalität i an. Idealerweise sollte ein multimodales Modell, das Zugang zu mehreren Eingangsmodalitäten mit redundanten Informationen hat, nicht empfindlich gegenüber Störungen auf einer einzigen Eingabe sein; es sollte in der Lage sein, eine korrekte Vorhersage zu treffen, indem es die verbleibenden k- 1 ungestörten Modalitäten nutzt. Es kann jedoch gezeigt werden, dass bei verschiedenen multimodalen Benchmark-Aufgaben standardmäßige multimodale Fusionsmodelle überraschend anfällig für diese Störungen sind, auch wenn die reinen Modalitäten die gestörten Modalitäten überwiegen. Die Experimente und Ergebnisse werden in späteren Abschnitten dieser Offenbarung vorgestellt, aber diese Anfälligkeit erfordert eine Lösung.
Adversarische robuste Fusionsstrategie.
Es sei f_naive ein standardmäßiges multimodales neuronales Netz, das so vortrainiert ist, dass es bei ungestörten Daten eine akzeptable Leistung erzielt, d. h. es minimiert $E_{(x, y) ~ D} [L (ƒ_{n a i v e} (x), y)] \dots$
Die hier offenbarte robuste Fusionsstrategie zielt darauf ab, die Robustheit von f_naive zu verbessern, indem die Korrespondenz zwischen den ungestörten Modalitäten genutzt wird, um die gestörte Modalität zu erkennen und abzuwehren. Es sei angenommen, dass f_naive eine mittlere bis späte Fusionsarchitektur hat, die aus der Zusammensetzung von modalitätsspezifischen Merkmalsextraktoren g₁ ,---,g_k, die auf die jeweiligen Modalitäten angewendet werden, und einem Fusionsteilnetz h besteht: $ƒ_{n a i v e} (x) : = h (g_{1} (x_{1}), g_{2} (x_{2}), \dots, g_{k} (x_{k}))$
Um f_naive robust zu machen, wird es mit einem zusätzlichen Odd-One-Out-Netzwerk und einer robusten Merkmalsfusionsebene anstelle der standardmäßigen Merkmalsfusion ausgerüstet, wie in 2a dargestellt. Dann wird ein robustes Training durchgeführt, das auf Odd-One-Out-Lernen und adversarialem Training basiert und sich auf diese neuen Module konzentriert. Das Odd-One-Out-Netzwerk o wird so trainiert, dass es die inkonsistente oder gestörte Modalität erkennt, wenn es mit Merkmalsrepräsentationen verschiedener Modalitäten konfrontiert wird (z. B. Odd-One-Out-Lernen). Die robuste Merkmalsfusionsschicht kombiniert verschiedene multimodale Fusionsoperationen unter Verwendung der Ausgabe des Odd-One-Out-Netzes und stellt sicher, dass nur die Modalitäten, die miteinander konsistent sind, an die nachgelagerten Schichten weitergegeben werden (z. B. robuste Merkmalsfusionsschicht). Es sei das mit der robusten Merkmalsfusionsschicht ausgestattete Fusions-Teilnetz h als h̃ h^~ bezeichnet, und es sei das vollständige, erweiterte multimodale Modell als f_robust bezeichnet. wie in Gleichung 4 ausgedrückt, $f_{r o b u s t} (x) : = \tilde{h} (g_{1} (x_{1}), g_{2} (x_{2}), - - -, g_{k} (x_{k}); o ({g_{i} (x_{i})}_{i \in [K]}) .$
Schließlich werden das Odd-One-Out-Netz o und das Fusions-Teilnetz h^~ gemeinsam trainiert, wobei die Gewichte und Architekturen der Merkmalsextraktoren g₁ ,--,g_kvon f_naive fix beibehalten werden (z. B. Robustes Trainingsverfahren).
Odd-One-Out Lernen.
Das Odd-One-Out-Lernen ist eine selbstüberwachte Aufgabe, die darauf abzielt, ein inkonsistentes Element aus einer Menge ansonsten konsistenter Elemente zu identifizieren (z. B. 7). Um die gemeinsamen Informationen zwischen den Modalitäten zu nutzen, wird das multimodale Modell um ein Odd-One-Out-Netzwerk erweitert. Bei einer Menge von Merkmalen z = [z₁,---,z_k], die aus der Eingabe von k Modalitäten extrahiert wurden, sagt das Odd-One-Out-Netzwerk voraus, ob die multimodalen Merkmale miteinander konsistent sind (d. h., die Eingaben sind alle sauber) oder ob eine Modalität mit den anderen inkonsistent ist (d. h., eine Eingabe wurde gestört). Um diese Aufgabe zu erfüllen, muss das Odd-One-Out-Netzwerk die Merkmale der verschiedenen Modalitäten vergleichen, die gemeinsamen Informationen zwischen ihnen erkennen und jede Modalität erkennen, die nicht mit den anderen übereinstimmt. Der Einfachheit halber nehmen wir an, dass die Merkmale die endgültigen Ergebnisse der Merkmalsextraktionsnetzwerke g₁,--,g_ksind, die auf die jeweiligen Modalitäten angewendet werden. Im Prinzip könnten diese Merkmale aber auch von einer der Zwischenschichten der Merkmalsextraktoren stammen.
Konkret ist das Odd-One-Out-Netz ein neuronales Netz o, das die Merkmale z auf einen Vektor der Größe k+1 abbildet, wie in 7 dargestellt. Der i-te Eintrag dieses Vektors gibt die Wahrscheinlichkeit an, dass die Modalität i gestört wurde, d. h. z_i ist nicht mit den anderen Merkmalen konsistent. Der k+1-te Eintrag des Vektors gibt die Wahrscheinlichkeit an, dass keine der Modalitäten gestört ist. Das Odd-One-Out-Netzwerk o wird so trainiert, dass es eine Odd-One-Out-Vorhersage durch Minimierung des folgenden Kreuzentropieverlusts durchführt: $- \underset{z_{i} = g_{i} (x_{i})}{E_{(x, y) ~ D}} [log o {(z)}_{k + 1} + \sum_{i = 1}^{k} log o {(z_{i}^{*}, z_{- i})}_{i}],$
wobei $z_{i}^{*} = g_{i} (x_{i}^{*})$
das Merkmal ist, das aus der gestörten Eingabe $x_{i}^{*}$
extrahiert wurde, die beim Training erzeugt wurde.
Robuste Merkmalsfusionsschicht.

Um die Ausgabe des Odd-One-Out-Netzes o in das multimodale Modell zu integrieren, sei eine Merkmalsfusionsschicht betrachtet, die sich an der Mixture-of-Experts-Schicht orientiert (z. B. 8). Diese Schicht besteht aus einem Ensemble von k+1 Merkmalsfusionsoperationen e₁,---,e_k+1 , von denen jede darauf spezialisiert ist, eine Modalität auszuschließen, wie in 8 dargestellt. Formal nimmt jede Fusionsoperation die multimodalen Merkmale z als Eingabe und führt eine Fusion einer Teilmenge der Merkmale wie folgt durch:

e_{i} (z) = N N (\oplus z_{- i}) \forall_{i} \in [k], e_{k + 1} (z) = N N (\oplus z),

wobei ⊕ die Verkettungsoperation bezeichnet und NN für ein flaches neuronales Netz steht. Definitionsgemäß ist e_i für die Fusion von Merkmalen aus allen Modalitäten außer i zuständig, und nur e_k+1 fusioniert Merkmale aus allen Modalitäten.

Algorithmus 1 Robustes Training
1	Prozedur GRADIENTUPDATE
2	$l_{o d d} \leftarrow 0$
3	$l_{t a s k} \leftarrow 0$
4	$Abstastwert x = [x_{1}, \dots, x_{k}], y von D$
5	$z = [z_{1}, \dots, z_{k}] \leftarrow [g_{1} (x_{1}), \dots g_{k} (x_{k})]$
6	$l_{o d d} \leftarrow l_{o d d} - log o {(z)}_{k + 1}$
7	$l_{t a s k} \leftarrow l_{t a s k} + L (h (z, o (z)), y)$
8	Durchführen für i ∈ [k]
9	$δ^{(i)} \leftarrow δ^{(i)} (x, y; ƒ_{r o b u s t})$
10	$z_{i}^{*} \leftarrow g_{i} (x_{i} + δ^{(i)})$
11	$l_{o d d} \leftarrow l_{o d d} - log o {(z_{i}^{*}, z_{- i})}_{k + 1}$
12	$l_{t a s k} \leftarrow l_{t a s k} + L (h (z_{i}^{}, z_{- i}, o (z_{i}^{}, z_{- i})), y)$
13	$l \leftarrow l_{o d d} + l_{t a s k}$
14	o, h basierend auf ∇ℓ Aktualisieren

Wenn das Merkmal z_i nicht mit den Merkmalen der anderen k-1 Modalitäten übereinstimmt, weil es aus einer gestörten Eingabe resultiert, dann erhält e_i mehr Gewicht als die anderen Fusionsoperationen, die auf der Ausgabe des Odd-One-Out-Netzwerks basieren: $z_{o u t p u t} = \sum_{i = 1}^{k + 1} e_{i} (z) o {(z)}_{i} .$
Dann wird ein robustes Fusions-Teilnetz h^~ gebildet, indem das Fusions-Teilnetz h mit dieser robusten Merkmalsfusionsschicht ausgestattet wird. Dann werden h^~ und o so trainiert, dass die Leistung optimiert wird, wie in Gleichung 8 angegeben, $\underset{z_{i} = g_{i} (x_{i})}{E_{(x, y) ~ D}} [L (\tilde{h} (z; o (z)), y)]$
sowie die robuste Leistung einer einzelnen Quelle, wie in Gleichung 9 angegeben $\underset{z_{i} = g_{i} (x_{i})}{E_{(x, y) ~ D}} [L (\tilde{h} (z_{i}^{*}, z_{- i}; o (z_{i}^{*}, z_{- i})), y)]$
in Bezug auf jede Modalität, wobei $z_{i}^{*} = g_{i} (x * i)$
das Merkmal ist, das aus der gestörten Eingabe x*_i extrahiert wurde, die beim Training erzeugt wurde. Es sei darauf hingewiesen, dass eines der Argumente für das Fusionsnetzwerk h^~ nun die Ausgabe von o ist.
Räumlich-zeitliche Dimensionen. Die Formulierungen gehen davon aus, dass z₁,---,z_k eindimensionale Merkmalsrepräsentationen sind. In diesem Fall können das Odd-One-Out-Netz o und die Fusionsoperationen e₁,---,e_k+1 als flache, vollständig verbundene Netze (z. B. zwei vollständig verbundene Schichten) implementiert werden. In vielen multimodalen Modellen haben die Merkmale auch räumlich-zeitliche Dimensionen, die zwischen verschiedenen Modalitäten ausgerichtet sind, d. h. Z_i∈R^{ci×N1×...×Nd}, wobei c_i die Anzahl der Merkmalskanäle und N₁ ×---×N_d die gemeinsamen räumlich-zeitlichen Dimensionen sind (z. B. sind Audio- und visuelle Merkmale, die aus einem Video extrahiert wurden, entlang der zeitlichen Achse ausgerichtet, Merkmale, die aus verschiedenen visuellen Modalitäten extrahiert wurden, sind entlang der räumlichen Achsen ausgerichtet). In diesen Fällen lassen sich das vorliegende Odd-One-Out-Netzwerk und die Fusionsoperationen effizienter als neuronale Faltungsnetzwerke mit 1 × --- × 1 Filtern implementieren. Dies ermöglicht die parallele Berechnung der Verluste in Gleichungen (5) und (7) über die räumlich-zeitlichen Dimensionen.
Robustes Trainingsverfahren
Das multimodale Modell f_robust, das mit einem Odd-One-Out-Netz o und einem Fusions-Teilnetz h^~ ausgestattet ist, enthält einen Mechanismus, um Informationen aus allen Eingangsquellen zu vergleichen, zu erkennen, dass die gestörte Modalität mit den anderen ungestörten Modalitäten inkonsistent ist, und nur Informationen aus den ungestörten Modalitäten durchzulassen. Während des Trainings seien gestörte Eingaben x*_i unter Verwendung der adversen Einzelquellen-Störungen aus Gleichung 1 erzeugt, d.h. $x_{i}^{*} = x_{i} + δ^{(i)} (x, y, ƒ_{r o b u s t})$
Es sei darauf hingewiesen, dass diese Störung gegen f_robust erzeugt wird. Mit anderen Worten, dieser Ansatz führt ein kontradiktorisches Training des Fusionsnetzes durch und nutzt die kontradiktorischen Beispiele auch, um selbstüberwachte Etiketten für das Odd-One-Out-Lernen bereitzustellen. Die Parameter des Odd-One-Out-Netzwerks o und des Fusions-Teilnetzes h^~ seien im Hinblick auf die Verluste in den Gleichungen (5), (8) und (9), wie in Algorithmus 1 gezeigt, optimiert. Es wurde festgestellt, dass es nicht notwendig war, die Merkmalsextraktoren g₁ ,---,g_k neu zu trainieren, die bereits auf sauberen Daten trainiert wurden.
9 ist ein Flussdiagramm einer robusten Trainingsstrategie 900 für eine Merkmalsfusion und Odd-One-Out-Netze. Dieses Flussdiagramm entspricht dem obigen Algorithmus 1. In Schritt 902 initialisiert ein Controller die Odd-One-Out-Verluste, wie in Zeile 2 von Algorithmus 1 dargestellt, in Schritt 904 initialisiert der Controller die Aufgabenverluste (Task Verluste), wie in Zeile 3 von Algorithmus 1 dargestellt. In Schritt 906 empfängt der Controller Stichproben aus einem Trainingsdatensatz, wie in Zeile 4 von Algorithmus 1 gezeigt, und geht zu Schritt 908 über, wo der Controller die Stichproben unter Verwendung der Funktion g verarbeitet, wie in Zeile 5 von Algorithmus 1 gezeigt. In Schritt 910 aktualisiert der Controller die Odd-One-Out-Verluste mit Stichproben ohne Störung, wie in Zeile 6 von Algorithmus 1 dargestellt. In Schritt 912 aktualisiert der Controller die Taskverluste mit Stichproben ohne Störung, wie in Zeile 7 von Algorithmus 1 gezeigt. In Schritt 914 erzeugt der Controller für jede Modalität eine Störung. In Schritt 916 aktualisiert der Controller die Odd-One-Out-Verluste mit Stichproben mit einer gegnerischen Störung, wie in Zeile 11 von Algorithmus 1 dargestellt. In Schritt 918 aktualisiert der Controller die Task-Verluste mit Stichproben mit einer ungünstigen Störung, wie in Zeile 12 von Algorithmus 1 dargestellt. In Schritt 920 verzweigt der Controller als Reaktion auf die Nichterfüllung der Anhaltekriterien zurück zu Schritt 914, um eine Iteration für eine weitere Störung bereitzustellen. Und wenn die Abbruchkriterien erfüllt sind, verzweigt der Controller zu Schritt 924. In Schritt 924 berechnet der Controller die Gesamtverluste einschließlich der Odd-One-Out-Verluste und der Task-Verluste, wie in Zeile 13 von Algorithmus 1 dargestellt. In Schritt 926 aktualisiert der Controller die Fusionsfunktion und die Odd-One-Out-Netzwerke, wie in Zeile 14 von Algorithmus 1 dargestellt. Das Abbruchkriterium in Schritt 920 kann eine vorgegebene Anzahl von Iterationen, eine vorgegebene Laufzeit, eine Konvergenz zu einem Schwellenwert oder eine Kombination davon umfassen.
Beispielhafte experimentelle Daten.
Eine beispielhafte Evaluierung der Robustheit multimodaler Modelle in Bezug auf einzelne Datenquellen wurde anhand von drei Benchmark-Aufgaben durchgeführt: Handlungserkennung mit EPIC-Kitchens, 2D-Objekterkennung mit KITTI und Stimmungsanalyse mit MOSI. Die betrachteten Benchmarks umfassten drei Eingabemodalitäten und decken eine größere Vielfalt an Aufgaben und Datenquellen ab, wodurch die Allgemeingültigkeit der gezogenen Schlussfolgerungen gewährleistet ist. Eine Zusammenfassung findet sich in Tabelle 1.

Tabelle 1. Eine zusammenfassende Tabelle der Versuchsaufbauten

Datensatz	Tasks	Modalitäten der Eingabe	Modell	Ungünstige Störung	Bewertungsmetriken
EPIC-Kitchens	HandlungsErkennung	Visuelle Rahmen; Bewegungsbilder (Fluss); Audio (Spektrogramm)	Merkmalsextraktoren: BNInception (alle); Fusion: Feed-Forward-Netz + temporales Pooling; Odd-one-out-Netzwerk: Feedforward-Netzwerk	PID (10-stufig): = 8/256 (Sehkraft) = 8/256 (Bewegung) ∈ = 0.8 (audio)	Top-1, Top-5 Genauigkeit: Verben, Substantive, Handlungen
KITTI	2D-Objekterkennung	Visueller Rahmen; Tiefenkarte (Velodyne); Tiefenkarte (Stereobild)	Merkmalsextraktoren: Darknet19 (alle); Fusion: 1 × 1 conv-Schicht + YOLO; Odd-one-out-Netz: 1 × 1 konv. Netz;	PGD (10-stufig): ∈ = 16/256 (all)	Durchschnittliche Genauigkeit: Autos (> 0,7 loU), Fußgänger (> 0,5 loU), Radfahrer (> 0,5 IoU)
MOSI	SentimentAnalyse	Visueller Rahmen; Audio (mel ceptron); Text	Merkmalsextraktoren: FaceNet +LSTM (Sehen), MFCC+LSTM (Audio), Transformer [] (Text); Fusion: Feed-Forward-Netzwerk Odd-one-out-Netzwerk: Feedforward-Netzwerk	PGD (10-stufig): = 8/256 (Sehkraft) ∈ = 0.8 (audio) Wortersetzung, 1 Wort pro Satz (Text)	Binäre Genauigkeit 7-Klassen-Genauigkeit

Exemplarische multimodale Benchmark-Tasks.
Exemplarische Handlungserkennung auf EPIC-Kitchens. EPIC-Kitchens ist ein großer egozentrischer Videodatensatz, der aus 39.596 Videoclips besteht. Ziel ist es, die im Video stattfindende Handlung vorherzusagen, die sich aus einem Verb und einem Substantiv aus 126 bzw. 331 Klassen zusammensetzt. Aus dem ursprünglichen Datensatz sind drei Modalitäten verfügbar: visuelle Informationen (RGB-Frames), Bewegungsinformationen (optischer Fluss) und Audioinformationen. 10A ist eine grafische Darstellung von beispielhaften Ergebnissen der Handlungserkennung.
Exemplarische Objekterkennung auf KITTI. KITTI ist ein Datensatz für autonomes Fahren, der Stereokamera- und LIDAR-Informationen für die 2D-Objekterkennung enthält, wobei das Ziel darin besteht, Bounding Boxes um Objekte von Interesse aus vordefinierten Klassen zu zeichnen, d. h. Auto, Fußgänger, Radfahrer usw. Bestehende Arbeiten verwenden verschiedene Kombinationen und verarbeitete Versionen der verfügbaren Datenmodalitäten für die Objekterkennung. Für den vorgeschlagenen Benchmark werden die folgenden drei Modalitäten betrachtet: (1) RGB-Frames, die von den meisten Erkennungsmethoden verwendet werden, (2) LIDAR-Punkte, die auf eine spärliche Tiefenkarte projiziert werden, und (3) eine Tiefenkarte, die aus den Stereoansichten geschätzt wird. 10B ist eine grafische Darstellung von beispielhaften zweidimensionalen Objekterkennungsergebnissen.
Exemplarische Stimmungsanalyse auf CMU-MOSI. Der Multimodal Opinionlevel Sentiment Intensity Corpus (CMU-MOSI) ist ein multimodaler Datensatz für die Stimmungsanalyse, der aus 93 Videoclips von Filmkritiken besteht, die jeweils in durchschnittlich 23,2 Segmente unterteilt sind. Jedes Segment ist mit einer kontinuierlichen Stimmungsintensität zwischen [-3,3] gekennzeichnet. Das Ziel ist die Vorhersage der Stimmung auf einer binären Skala (d.h. negativ vs. positiv) oder einer 7-Klassen-Skala (d.h. Aufrundung auf die nächste ganze Zahl). MOSI enthält drei Modalitäten: Text, Video und Audio. 10C ist eine grafische Darstellung von beispielhaften Ergebnissen der Stimmungsanalyse (Sentiment Analyse).
Beispielhafte Implementierungs-Details.
Exemplarische Modellarchitektur und Training. Für jede Aufgabe (Task) wurden mittlere bis späte multimodale Modelle betrachtet, die die in Spalte 4 von Tabelle 1 zusammengefassten Architekturen verwenden. Zunächst wurden multimodale Basismodelle für jede Aufgabe (Task) auf sauberen Daten trainiert, um f_naive zu erhalten. Dann wurden diese Modelle mit dem Odd-One-Out-Netzwerk und der robusten Merkmalsfusionsschicht gemäß der Strategie der adversarial robusten Fusion erweitert, um f_robust zu erhalten, und ein robustes Training gemäß Algorithmus 1 wurde durchgeführt.
Beispielhafte gegnerische Angriffe. Die adversen Störungen für jede Aufgabe (Task) sind in Spalte 5 von Tabelle 1 zusammengefasst. Die Angriffe auf die einzelnen Modalitäten wurden mit Hilfe des projizierten Gradientenabstiegs (PGD) durchgeführt, mit Ausnahme von Text, für den Wortsubstitution verwendet wurde. Es sei darauf hingewiesen, dass es sich bei diesen Störungen um adaptive White-Box-Angriffe handelt, d. h. die Angriffe werden mit voller Kenntnis der f_robust erzeugt. Andere Arten von Angriffen, wie Transferangriffe (Transfer Attacks), gezielte Angriffe (Targeted Attacks) und Angriffe auf Merkmalsebene (Feature-Level Attacks) wurden ebenfalls durchgeführt.
Exemplarische Bewertungsmetrik. Die für jede Aufgabe verwendeten Metriken sind in Spalte 6 von Tabelle 1 zusammengefasst. Für die Handlungserkennung wird die Klassifizierungsgenauigkeit von Verben, Substantiven und Aktionen betrachtet. Für die Objekterkennung wird die durchschnittliche Genauigkeit der Erkennung von Autos, Fußgängern und Radfahrern bei den in der Tabelle angegebenen Intersection-over-Union (loU)-Schwellenwerten und bei drei Schwierigkeitsstufen in Anlehnung an den KITTI-Evaluierungsserver betrachtet. Für die Stimmungsanalyse (Sentiment Analyse) werden die binäre und die 7-Klassen-Vorhersagegenauigkeit berücksichtigt. Für jede Metrik wird sowohl die Leistung im reinen Zustand als auch die Leistung bei Angriffen aus einer einzigen Quelle berücksichtigt.
Grundlinien
Zusätzlich zu dem in dieser Offenbarung vorgestellten Ansatz wurden zwei Arten von Methoden bewertet: multimodale Standardmodelle, die mit sauberen Daten trainiert wurden (Standardtraining), und robuste multimodale Modelle nach dem Stand der Technik mit robustem Training wurden mit den folgenden Fusionen bewertet.
Verknüpfungsfusion mit Standardtraining („ConCat Fusion“). Die Verwendung von multimodalen Modellen mit denselben Merkmalsextraktoren und die Verkettung von Merkmalen vor den letzten Schichten, was eine Standardmethode für die Fusion von Merkmalen ist.
Mittlere Fusion mit Standardtraining („Mittlere Fusion“). Trainieren, für jede Modalität, eines unimodalen Modells mit demselben Merkmalsextraktor und denselben Endschichten wie das multimodale Modell auf sauberen Daten. Dann Fusionieren der unimodalen Modellausgaben, indem ihr Mittelwert gebildet wird, d. h. zoutput =^P _i∈[k] Z_i. Für die Handlungserkennung und die Stimmungsanalyse, Ausführen der Mittelfusion auf der Logits-Schicht durch. Für die Objekterkennung, Ausführen der Fusion vor der YOLO-Schicht durch. Die Mittelfusion (Mean Fusion) ist eine gängige Fusionspraxis, die in späten Fusionsmodellen verwendet wird, und im Zusammenhang mit der Abwehr von Störungen ist sie gleichbedeutend mit einer weichen Abstimmungsstrategie zwischen den verschiedenen Modalitäten.
Latente Ensembling-Schicht mit robustem Training („LEL+Robust“). Bei diesem Ansatz werden (1) abwechselnd saubere Daten und Daten mit Korruption aus einer einzigen Quelle trainiert und (2) die multimodalen Merkmale mit Hilfe einer Verkettungsfusion (Concatenation Fusion), gefolgt von einem linearen Netzwerk, zusammengefügt. Die Anpassung dieser Strategie an das in dieser Offenbarung vorgestellte Modell erfolgt durch Training dieser multimodalen Modelle mit der LEL+Robust-Fusionsschicht auf Daten, die mit Störungen aus einer einzigen Quelle angereichert sind.
Informationsgesteuerte Fusion mit robustem Training („Gating+Robust“). Bei diesem Ansatz wird eine multiplikative Gating-Funktion auf Merkmale aus verschiedenen Modalitäten angewendet, bevor diese zusammengeführt werden. Die adaptive Gating-Funktion wird auf sauberen Daten und auf Daten mit Single-Source-Verfälschungen trainiert. Die Anpassung dieser Robustheitsstrategie an das in dieser Offenbarung vorgestellte Modell erfolgt durch Training dieser multimodalen Modelle mit ihrer Gating-Merkmalsfusionsebene auf Daten, die mit nachteiligen Störungen aus einer Quelle angereichert sind.

Obere Schranke („Oracle (Obere Schranke)“). Um eine empirische Obergrenze für die robuste Leistung bei Angriffen auf jede Modalität zu erhalten, Trainieren und Bewerten von 2-modalen Modellen, die die gestörte Modalität ausschließen. Dieses Modell wurde als „Orakel“ bezeichnet, weil es von der perfekten Kenntnis der angegriffenen Modalität ausgeht (d. h. von einem perfekten Odd-One-Out-Netzwerk), was in der Praxis nicht verfügbar ist. Tabelle 4. Binäre und Sieben-Klassen-Klassifizierungsergebnisse (%) auf MOSI.

Fusion	Sauber		Audio-Störungen		Video-Störungen		Text-Störungen
	2-Klasse	7-Klasse	2-Klasse	7-Klasse	2-Klasse	7-Klasse	2-Klasse	7-Klasse
Oracle (Obergrenze)	-	-	78.64	49.10	73.36	47.84	69.82	40.28
Concat Fusion	79.82	49.69	56.92	21.38	51.23	19.75	39.50	9.97
Mittlere Fusion	78.09	46.14	52.63	20.75	49.37	17.02	35.50	8.88
LEL+Robust	79.09	49.92	69.21	39.51	63.15	35.17	58.14	21.23
Gating+Robust	78.82	46.37	69.31	38.26	64.23	31.88	59.39	25.14
Vorliegende	82.03	50.89	73.18	42.06	69.94	38.20	66.13	30.20
Δ-Sauber	2.21	1.20	16.26	20.68	18.71	18.45	26.53	20.23
Δ-Robust	1.94	0.97	3.87	2.55	5.71	3.03	6.74	5.06

Tabelle 5. Erkennungsrate (%) von Odd-One-Out-Netzen, die unausgerichtete vs. ausgerichtete Repräsentationen von Merkmalen von jeder Modalität verwenden.

Aktion Anerkennung auf EPIC-Kitchens
Odd-One-Out-Netz	Sauber	Visuelle Störung	Bewegungs-Störung	Audio Störung
Nicht ausgerichtete Merkmale	66.8	73.4	88.6	84.7
Ausgerichtete Merkmale	55.9	54.7	41.3	52.8
Objekterkennung auf KITTI
Odd-One-Out-Netz	Sauber	RGB Störung	Velo Störung	Stereo-Störung
Nicht ausgerichtete Merkmale	96.2	93.5	98.2	98.0
Ausgerichtete Merkmale	91.9	86.8	94.4	90.4
Stimmungsanalyse zu MOSI
Odd-One-Out-Netz	Sauber	Audio Störung	Video Störung	Text Störung
Nicht ausgerichtete Merkmale	94.8	95.3	91.2	86.4
Ausgerichtete Merkmale	80.3	90.4	87.3	78.5

Tabelle 6. Anzahl der Parameter (in Millionen) in den Merkmalsextraktoren und Fusionsnetzwerken der vorliegenden multimodalen Modelle.

	# Parameter (ca. in Mio.)
Aufgabe	Merkmalsextraktoren (nicht trainiert)	Fusionsnetzwerk (trainiert)
EPIC-Kitchens	30.8	57.9
KITTI	201.1	6.8
CMU-MOSI	253.4	12.3

Die 11-16 zeigen beispielhafte Ausführungsformen, die Konzepte dieser Offenbarung können jedoch auf weitere Ausführungsformen angewendet werden. Einige beispielhafte Ausführungsformen umfassen: Industrielle Anwendungen, bei denen die Modalitäten Video, Gewicht, IR, 3D-Kamera und Ton umfassen können; Anwendungen für Elektrowerkzeuge oder Geräte, bei denen die Modalitäten Drehmoment, Druck, Temperatur, Entfernung oder Ton umfassen können; medizinische Anwendungen, bei denen die Modalitäten Ultraschall, Video, CAT-Scan, MRI oder Ton umfassen können; Roboteranwendungen, bei denen die Modalitäten Video, Ultraschall, LIDAR, IR oder Ton umfassen können; und Sicherheitsanwendungen, bei denen die Modalitäten Video, Ton, IR oder LIDAR umfassen können. Die Modalitäten können verschiedene Datensätze aufweisen, z. B. kann ein Videodatensatz ein Bild, ein LIDAR-Datensatz eine Punktwolke und ein Mikrofondatensatz eine Zeitreihe enthalten.
11 ist eine schematische Darstellung des Steuersystems 1102, das zur Steuerung eines Fahrzeugs konfiguriert ist, das ein zumindest teilweise autonomes Fahrzeug oder ein zumindest teilweise autonomer Roboter sein kann. Das Fahrzeug umfasst einen Sensor 1104 und einen Aktuator 1106. Der Sensor 1104 kann einen oder mehrere auf Wellenenergie basierende Sensoren (z. B. ein Charge Coupled Device CCD oder Video), Radar, LiDAR, Mikrofonarray, Ultraschall, Infrarot, Wärmebild, akustische Bildgebung oder andere Technologien (z. B. Positionssensoren wie GPS) umfassen. Einer oder mehrere der spezifischen Sensoren können in das Fahrzeug integriert werden. Alternativ oder zusätzlich zu einem oder mehreren der oben genannten spezifischen Sensoren kann das Steuermodul 1102 ein Softwaremodul enthalten, das so konfiguriert ist, dass es bei der Ausführung einen Zustand des Aktuators 1104 bestimmt.
In Ausführungsformen, bei denen das Fahrzeug ein zumindest teilweise autonomes Fahrzeug ist, kann der Aktuator 1106 in einem Bremssystem, einem Antriebssystem, einem Motor, einem Antriebsstrang oder einem Lenksystem des Fahrzeugs verkörpert sein. Aktuatorsteuerbefehle können so bestimmt werden, dass der Aktuator 1106 so gesteuert wird, dass das Fahrzeug Kollisionen mit erkannten Objekten vermeidet. Erkannte Objekte können auch danach klassifiziert werden, was der Klassifikator als am wahrscheinlichsten ansieht, z. B. Fußgänger oder Bäume. Die Steuerbefehle für die Aktoren können in Abhängigkeit von der Klassifizierung festgelegt werden. Beispielsweise kann das Steuersystem 1102 ein Bild (z. B. optisch, akustisch, thermisch) oder andere Eingaben von Sensor 1104 in eine oder mehrere Hintergrundklassen und eine oder mehrere Objektklassen (z. B. Fußgänger, Fahrräder, Fahrzeuge, Bäume, Verkehrsschilder, Ampeln, Straßentrümmer oder Bautonnen/-kegel usw.) unterteilen und Steuerbefehle an den Aktuator 1106, in diesem Fall ein Bremssystem oder ein Antriebssystem, senden, um Kollisionen mit Objekten zu vermeiden. In einem anderen Beispiel kann das Steuersystem 1102 ein Bild in eine oder mehrere Hintergrundklassen und eine oder mehrere Markierungsklassen (z. B. Fahrbahnmarkierungen, Leitplanken, Fahrbahnrand, Fahrzeugspuren usw.) segmentieren und Steuerbefehle an den Aktuator 1106, hier in Form eines Lenksystems, senden, um das Fahrzeug zu veranlassen, das Überfahren von Markierungen zu vermeiden und in einer Fahrspur zu bleiben. In einem Szenario, in dem es zu einem feindlichen Angriff kommen kann, kann das oben beschriebene System weiter trainiert werden, um Objekte besser zu erkennen oder eine Änderung der Lichtverhältnisse oder des Winkels für einen Sensor oder eine Kamera am Fahrzeug zu identifizieren.
In anderen Ausführungsformen, in denen das Fahrzeug 1100 ein zumindest teilweise autonomer Roboter ist, kann das Fahrzeug 1100 ein mobiler Roboter sein, der so konfiguriert ist, dass er eine oder mehrere Funktionen ausführt, wie z. B. Fliegen, Schwimmen, Tauchen und Treten. Bei dem mobilen Roboter kann es sich um einen zumindest teilweise autonomen Rasenmäher oder einen zumindest teilweise autonomen Reinigungsroboter handeln. In solchen Ausführungsformen kann der Aktuatorsteuerungsbefehl 1106 so bestimmt werden, dass eine Antriebseinheit, eine Lenkeinheit und/oder eine Bremseinheit des mobilen Roboters so gesteuert werden kann, dass der mobile Roboter Kollisionen mit identifizierten Objekten vermeiden kann.
In einer anderen Ausführungsform ist das Fahrzeug 1100 ein zumindest teilweise autonomer Roboter in Form eines Gartenroboters. In einer solchen Ausführungsform kann das Fahrzeug 1100 einen optischen Sensor als Sensor 1104 verwenden, um einen Zustand von Pflanzen in einer Umgebung in der Nähe des Fahrzeugs 1100 zu bestimmen. Der Aktuator 1106 kann eine Düse sein, die zum Versprühen von Chemikalien konfiguriert ist. Abhängig von einer identifizierten Art und/oder einem identifizierten Zustand der Pflanzen kann der Steuerbefehl 1102 des Aktuators bestimmt werden, um den Aktuator 1106 zu veranlassen, die Pflanzen mit einer geeigneten Menge geeigneter Chemikalien zu besprühen.
Das Fahrzeug 1100 kann ein zumindest teilweise autonomer Roboter in Form eines Haushaltsgeräts sein. Nicht einschränkende Beispiele für Haushaltsgeräte sind eine Waschmaschine, ein Herd, ein Ofen, eine Mikrowelle oder ein Geschirrspüler. In einem solchen Fahrzeug 1100 kann der Sensor 1104 ein optischer oder akustischer Sensor sein, der so konfiguriert ist, dass er einen Zustand eines Objekts erkennt, das von dem Haushaltsgerät verarbeitet werden soll. Handelt es sich bei dem Haushaltsgerät beispielsweise um eine Waschmaschine, kann der Sensor 1104 einen Zustand der Wäsche in der Waschmaschine erfassen. Der Steuerbefehl für den Aktuator kann auf der Grundlage des erfassten Zustands der Wäsche bestimmt werden.
In dieser Ausführungsform würde das Steuersystem 1102 Bild- (optisch oder akustisch) und Anmerkungsinformationen vom Sensor 1104 erhalten. Mit diesen und einer vorgegebenen Anzahl von Klassen k und Ähnlichkeitsmaß K̅, die im System gespeichert sind, kann das Steuersystem 1102 das in 10 beschriebene Verfahren anwenden, um jedes Pixel des vom Sensor 1104 empfangenen Bildes zu klassifizieren. Auf der Grundlage dieser Klassifizierung können Signale an den Aktuator 1106 gesendet werden, z. B. zum Bremsen oder Abbiegen, um Kollisionen mit Fußgängern oder Bäumen zu vermeiden, zum Lenken, um zwischen erkannten Fahrbahnmarkierungen zu bleiben, oder zu einer der Aktionen, die vom Aktuator 1106 wie oben beschrieben ausgeführt werden. Auf der Grundlage dieser Klassifizierung können auch Signale an den Sensor 1104 gesendet werden, um beispielsweise ein Kameraobjektiv zu fokussieren oder zu bewegen.
12 zeigt ein schematisches Diagramm eines Steuersystems 1202, das so konfiguriert ist, dass es das System 1200 (z. B. eine Fertigungsmaschine), wie z. B. einen Stanzschneider, eine Schneidemaschine oder einen Pistolenbohrer, des Fertigungssystems 102, z. B. als Teil einer Produktionslinie, steuert. Das Steuersystem 1202 kann so konfiguriert sein, dass es den Aktuator 14 steuert, der so konfiguriert ist, dass er das System 100 (z. B. die Fertigungsmaschine) steuert.
Der Sensor 1204 des Systems 1200 (z. B. der Fertigungsmaschine) kann ein Wellenenergiesensor sein, wie z. B. ein optischer oder akustischer Sensor oder ein Sensorarray, der so konfiguriert ist, dass er eine oder mehrere Eigenschaften eines hergestellten Produkts erfasst. Das Steuersystem 1202 kann so konfiguriert sein, dass es einen Zustand eines hergestellten Produkts aus einer oder mehreren der erfassten Eigenschaften bestimmt. Der Aktuator 1206 kann so konfiguriert sein, dass er das System 1202 (z. B. die Fertigungsmaschine) in Abhängigkeit von dem ermittelten Zustand des hergestellten Produkts 104 für einen nachfolgenden Fertigungsschritt des hergestellten Produkts steuert. Der Aktor 1206 kann so konfiguriert sein, dass er Funktionen von 11 (z.B. Fertigungsmaschine) an nachfolgenden hergestellten Produkten des Systems (z.B. Fertigungsmaschine) in Abhängigkeit von dem ermittelten Zustand des vorherigen hergestellten Produkts steuert.
In dieser Ausführungsform würde das Steuersystem 1202 Bild- (z. B. optische oder akustische) und Anmerkungsinformationen vom Sensor 1204 erhalten. Unter Verwendung dieser und einer vorgegebenen Anzahl von Klassen k und Ähnlichkeitsmaß K̅ die im System gespeichert sind, kann das Steuersystem 1202 das in 10 beschriebene Verfahren anwenden, um jedes Pixel des vom Sensor 1204 empfangenen Bildes zu klassifizieren, beispielsweise um ein Bild eines hergestellten Objekts in zwei oder mehr Klassen zu segmentieren, um Anomalien in dem hergestellten Produkt zu erkennen, um das Vorhandensein von Objekten auf dem hergestellten Produkt, wie z. B. Strichcodes, sicherzustellen. Auf der Grundlage dieser Klassifizierung können Signale an den Aktor 1206 gesendet werden. Wenn das Steuersystem 1202 beispielsweise Anomalien in einem Produkt feststellt, kann der Aktuator 1206 anomale oder fehlerhafte Produkte markieren oder aus der Fertigungslinie entfernen. Wenn das Steuersystem 1202 das Vorhandensein von Strichcodes oder anderen Objekten erkennt, die auf dem Produkt platziert werden sollen, kann der Aktuator 1106 diese Objekte anbringen oder sie entfernen. Auf der Grundlage dieser Klassifizierung können auch Signale an den Sensor 1204 gesendet werden, um z. B. ein Kameraobjektiv zu fokussieren oder zu bewegen.
13 zeigt ein schematisches Diagramm des Steuersystems 1302, das so konfiguriert ist, dass es das Elektrowerkzeug 1300, wie z.B. eine Bohrmaschine oder einen Bohrschrauber, steuert, das einen zumindest teilweise autonomen Modus hat. Das Steuersystem 1302 kann so konfiguriert sein, dass es den Aktuator 1306 steuert, der für die Steuerung des Elektrowerkzeugs 1300 konfiguriert ist.
Der Sensor 1304 des Elektrowerkzeugs 1300 kann ein Wellenenergiesensor sein, z. B. ein optischer oder akustischer Sensor, der so konfiguriert ist, dass er eine oder mehrere Eigenschaften einer Arbeitsfläche und/oder eines Befestigungselements erfasst, das in die Arbeitsfläche getrieben wird. Das Steuersystem 1302 kann so konfiguriert sein, dass es einen Zustand der Arbeitsfläche und/oder des Befestigungselements relativ zur Arbeitsfläche aus einer oder mehreren der erfassten Eigenschaften bestimmt.
In dieser Ausführungsform würde das Steuersystem 1302 Bild- (z. B. optische oder akustische) und Anmerkungsinformationen vom Sensor 1304 erhalten. Unter Verwendung dieser und einer vorgegebenen Anzahl von Klassen k und Ähnlichkeitsmaß K̅ die im System gespeichert sind, kann das Steuersystem 1302 das in 10 beschriebene Verfahren anwenden, um jedes Pixel des vom Sensor 1304 empfangenen Bildes zu klassifizieren, um ein Bild einer Arbeitsfläche oder eines Befestigungselements in zwei oder mehr Klassen zu segmentieren oder um Anomalien in der Arbeitsfläche oder dem Befestigungselement zu erkennen. Auf der Grundlage dieser Klassifizierung können Signale an den Aktuator 1306 gesendet werden, z. B. an den Druck oder die Geschwindigkeit des Werkzeugs oder an eine der Aktionen, die der Aktuator 1306 durchführt, wie in den obigen Abschnitten beschrieben. Basierend auf dieser Klassifizierung können auch Signale an den Sensor 1304 gesendet werden, z. B. um ein Kameraobjektiv zu fokussieren oder zu bewegen. In einem anderen Beispiel kann es sich bei dem Bild um ein Zeitreihenbild von Signalen des Elektrowerkzeugs 1300 handeln, wie z. B. Druck, Drehmoment, Umdrehungen pro Minute, Temperatur, Strom usw., wobei es sich bei dem Elektrowerkzeug um einen Bohrhammer, eine Bohrmaschine, einen Hammer (Dreh- oder Abbruchhammer), einen Schlagschrauber, eine Säbelsäge oder ein oszillierendes Multiwerkzeug handelt und das Elektrowerkzeug entweder kabellos oder kabelgebunden ist.
14 zeigt eine schematische Darstellung des Steuersystems 1402, das zur Steuerung des automatisierten persönlichen Assistenten 1401 konfiguriert ist. Das Steuersystem 1402 kann so konfiguriert sein, dass es den Aktuator 1406 steuert, der so konfiguriert ist, dass er den automatisierten persönlichen Assistenten 1401 steuert. Der automatisierte persönliche Assistent 1401 kann so konfiguriert sein, dass er ein Haushaltsgerät steuert, z. B. eine Waschmaschine, einen Herd, einen Ofen, eine Mikrowelle oder eine Spülmaschine.
In dieser Ausführungsform würde das Steuersystem 1402 Bild- (z. B. optische oder akustische) und Anmerkungsinformationen vom Sensor 1404 erhalten. Unter Verwendung dieser und einer vorgegebenen Anzahl von Klassen k und einem Ähnlichkeitsmaß K̅, die im System gespeichert sind, kann das Steuersystem 1402 das in 10 beschriebene Verfahren anwenden, um jedes Pixel des vom Sensor 1404 empfangenen Bildes zu klassifizieren, z. B. um ein Bild eines Geräts oder eines anderen Objekts zu segmentieren, das manipuliert oder bedient werden soll. Auf der Grundlage dieser Klassifizierung können Signale an den Aktuator 1406 gesendet werden, um beispielsweise bewegliche Teile des automatisierten persönlichen Assistenten 1401 zu steuern, um mit Haushaltsgeräten zu interagieren, oder um eine der Aktionen durchzuführen, die der Aktuator 1406 wie in den obigen Abschnitten beschrieben durchführt. Auf der Grundlage dieser Klassifizierung können auch Signale an den Sensor 1404 gesendet werden, um beispielsweise ein Kameraobjektiv zu fokussieren oder zu bewegen.
15 zeigt ein schematisches Diagramm des Steuersystems 1502, das zur Steuerung eines Überwachungssystems 1500 konfiguriert ist. Das Überwachungssystem 1500 kann so konfiguriert sein, dass es den Zugang durch die Tür 252 physisch kontrolliert. Der Sensor 1504 kann so konfiguriert sein, dass er eine Szene erkennt, die für die Entscheidung, ob Zugang gewährt wird, relevant ist. Der Sensor 1504 kann ein optischer oder akustischer Sensor oder ein Sensorarray sein, der/das so konfiguriert ist, dass er/es Bild- und/oder Videodaten erzeugt und überträgt. Diese Daten können vom Steuersystem 1502 verwendet werden, um das Gesicht einer Person zu erkennen.
Das Überwachungssystem 1500 kann auch ein Surveillance-System sein. In einer solchen Ausführungsform kann der Sensor 1504 ein Wellenenergiesensor sein, z. B. ein optischer Sensor, ein Infrarotsensor oder ein akustischer Sensor, der so konfiguriert ist, dass er eine überwachte Szene erkennt, und das Steuersystem 1502 ist so konfiguriert, dass es die Anzeige 1508 steuert. Das Steuersystem 1502 ist so konfiguriert, dass es eine Klassifizierung einer Szene bestimmt, z. B. ob die vom Sensor 1504 erfasste Szene verdächtig ist. Ein Störungsobjekt kann zur Erkennung bestimmter Arten von Objekten verwendet werden, damit das System solche Objekte unter nicht optimalen Bedingungen (z. B. Nacht, Nebel, Regen, störende Hintergrundgeräusche usw.) identifizieren kann. Das Steuersystem 1502 ist so konfiguriert, dass es als Reaktion auf die Klassifizierung einen Steuerbefehl für den Aktuator an die Anzeige 1508 übermittelt. Die Anzeige 1508 kann so konfiguriert sein, dass sie den angezeigten Inhalt als Reaktion auf den Aktuator-Steuerbefehl anpasst. So kann die Anzeige 1508 beispielsweise ein Objekt hervorheben, das von der Steuerung 1502 als verdächtig eingestuft wird.
In dieser Ausführungsform würde das Steuersystem 1502 Bild- (optische oder akustische) und Anmerkungsinformationen vom Sensor 1504 erhalten. Unter Verwendung dieser und einer vorgegebenen Anzahl von Klassen k und einem Ähnlichkeitsmaß K̅, die im System gespeichert sind, kann das Steuersystem 1502 das in 10 beschriebene Verfahren anwenden, um jedes Pixel des vom Sensor 1504 empfangenen Bildes zu klassifizieren, um beispielsweise das Vorhandensein von verdächtigen oder unerwünschten Objekten in der Szene zu erkennen, um Beleuchtungsarten oder Sichtbedingungen zu erkennen oder um Bewegungen zu erkennen. Auf der Grundlage dieser Klassifizierung können Signale an den Aktuator 1506 gesendet werden, um z. B. Türen oder andere Eingänge zu ver- oder entriegeln, einen Alarm oder ein anderes Signal zu aktivieren oder eine der in den vorstehenden Abschnitten beschriebenen Aktionen des Aktuators 1506 auszuführen. Auf der Grundlage dieser Klassifizierung können auch Signale an den Sensor 1504 gesendet werden, um beispielsweise ein Kameraobjektiv zu fokussieren oder zu bewegen.
16 zeigt ein schematisches Diagramm des Steuersystems 1602, das so konfiguriert ist, dass es ein Bildgebungssystem 1600 steuert, zum Beispiel ein MRT-Gerät, ein Röntgenbildgebungsgerät oder ein Ultraschallgerät. Der Sensor 1604 kann beispielsweise ein Bildsensor oder eine akustische Sensoranordnung sein. Das Steuersystem 1602 kann so konfiguriert sein, dass es eine Klassifizierung des gesamten oder eines Teils des erfassten Bildes bestimmt. Das Steuersystem 1602 kann so konfiguriert sein, dass es als Reaktion auf die von dem trainierten neuronalen Netz erhaltene Klassifizierung einen Steuerbefehl für den Aktuator bestimmt oder auswählt. Zum Beispiel kann das Steuersystem 1602 einen Bereich eines erfassten Bildes (optisch oder akustisch) als potenziell anomal interpretieren. In diesem Fall kann der Steuerbefehl für den Aktuator so bestimmt oder ausgewählt werden, dass das Display 1606 das Bild anzeigt und den potenziell anomalen Bereich hervorhebt.
In dieser Ausführungsform würde das Steuersystem 1602 Bild- und Anmerkungsinformationen vom Sensor 1604 erhalten. Unter Verwendung dieser und einer vorgegebenen Anzahl von Klassen k und einem Ähnlichkeitsmaß K̅, die im System gespeichert sind, kann das Steuersystem 1602 das in 10 beschriebene Verfahren verwenden, um jedes Pixel des vom Sensor 1604 empfangenen Bildes zu klassifizieren. Auf der Grundlage dieser Klassifizierung können Signale an den Aktuator 1606 gesendet werden, um beispielsweise anomale Bereiche des Bildes oder eine der Aktionen zu erkennen, die der Aktuator 1606 wie in den vorstehenden Abschnitten beschrieben durchführt.
Der Programmcode, der die hier beschriebenen Algorithmen und/oder Methoden verkörpert, kann einzeln oder gemeinsam als Programmprodukt in einer Vielzahl verschiedener Formen verbreitet werden. Der Programmcode kann mit Hilfe eines computerlesbaren Speichermediums verbreitet werden, auf dem sich computerlesbare Programmanweisungen befinden, die einen Prozessor veranlassen, Aspekte einer oder mehrerer Ausführungsformen auszuführen. Computerlesbare Speichermedien, die von Natur aus nicht flüchtig sind, können flüchtige und nicht flüchtige sowie entfernbare und nicht entfernbare greifbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen, wie z. B. computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert sind. Zu den computerlesbaren Speichermedien können ferner RAM, ROM, ein löschbarer programmierbarer Festwertspeicher (EPROM), ein elektrisch löschbarer programmierbarer Festwertspeicher (EEPROM), Flash-Speicher oder andere Festkörperspeichertechnologien, tragbare Compact-Disc-Festwertspeicher (CD-ROM) oder andere optische Speichermedien, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichereinrichtungen oder jedes andere Medium gehören, das zur Speicherung der gewünschten Informationen verwendet und von einem Computer gelesen werden kann. Computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf einen Computer, eine andere Art von programmierbarem Datenverarbeitungsgerät oder ein anderes Gerät oder über ein Netz auf einen externen Computer oder ein externes Speichergerät heruntergeladen werden.
Computerlesbare Programmanweisungen, die in einem computerlesbaren Medium gespeichert sind, können verwendet werden, um einen Computer, andere Arten von programmierbaren Datenverarbeitungsgeräten oder andere Vorrichtungen anzuweisen, in einer bestimmten Weise zu arbeiten, so dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel erzeugen, der Anweisungen enthält, die die in den Flussdiagrammen oder Diagrammen angegebenen Funktionen, Handlungen und/oder Operationen implementieren. In bestimmten alternativen Ausführungsformen können die in den Flussdiagrammen und Diagrammen angegebenen Funktionen, Handlungen und/oder Operationen in Übereinstimmung mit einer oder mehreren Ausführungsformen neu geordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden. Darüber hinaus kann jedes der Flussdiagramme und/oder Diagramme in Übereinstimmung mit einer oder mehreren Ausführungsformen mehr oder weniger Knoten oder Blöcke als die dargestellten enthalten.
Obwohl die gesamte Erfindung durch eine Beschreibung verschiedener Ausführungsformen veranschaulicht wurde und diese Ausführungsformen sehr detailliert beschrieben wurden, ist es nicht die Absicht des Anmelders, den Umfang der beigefügten Ansprüche auf solche Details zu beschränken. Zusätzliche Vorteile und Modifikationen werden sich für den Fachmann ohne weiteres ergeben. Die Erfindung im weiteren Sinne ist daher nicht auf die gezeigten und beschriebenen spezifischen Einzelheiten, repräsentativen Vorrichtungen und Verfahren sowie anschaulichen Beispiele beschränkt. Dementsprechend kann von diesen Details abgewichen werden, ohne dass dadurch vom Grundgedanken oder Umfang des allgemeinen Erfindungskonzepts abgewichen wird.

Claims

Multimodales Wahrnehmungssystem, umfassend: eine Steuerung, die konfiguriert ist zum Empfangen eines ersten Signal von einem ersten Sensor, eines zweiten Signals von einem zweiten Sensor, und eines drittes Signals von einem dritten Sensor empfangen, Extrahieren eines ersten Merkmalsvektors aus dem ersten Signal, Extrahieren eines zweiten Merkmalsvektors aus dem zweiten Signal, Extrahieren eines dritten Merkmalsvektors aus dem dritten Signal, Bestimmen eines Odd-One-Out-Vektors aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage, Fusionieren des ersten, zweiten und dritten Merkmalsvektors und des Odd-One-Out-Vektors zu einem fusionierten Merkmalsvektor, und Ausgeben des fusionierten Merkmalsvektors.
Multimodales Wahrnehmungssystem nach Anspruch 1, wobei der erste Sensor, der zweite Sensor und der dritte Sensor jeweils einer anderen Modalität angehören.
Multimodales Wahrnehmungssystem nach Anspruch 2, wobei der Odd-One-Out-Vektor die Länge Modalitäten plus 1 aufweist und jede Modalität eine Störung aufweist, wobei das plus 1 eine ungestörte Modalität angibt.
Multimodales Wahrnehmungssystem nach Anspruch 3, wobei der Controller das Odd-One-Out-Netzwerk bestimmt und die Merkmalsvektoren mit dem Odd-One-Out-Vektor als neuronale Faltungsnetze (Convolutional Neural Networks, CNN) fusioniert, um raum-zeitliche Dimensionen der verschiedenen Modalitäten anzugleichen.
Multimodales Wahrnehmungssystem nach Anspruch 1, wobei der Controller ferner so konfiguriert ist, dass er die ersten Merkmalsvektoren aus dem ersten Signal über ein erstes vortrainiertes KI-Modell extrahiert, die zweiten Merkmalsvektoren aus dem zweiten Signal über ein zweites vortrainiertes KI-Modell extrahiert und die dritten Merkmalsvektoren aus dem dritten Signal über ein drittes vortrainiertes KI-Modell extrahiert.
Multimodales Wahrnehmungssystem nach Anspruch 5, wobei der Controller ferner so konfiguriert ist, dass er das Odd-One-Out-Netz gemeinsam gemäß einer Verlustfunktion trainiert, ausgedrückt durch $\underset{z_{i} = g_{i} (x_{i})}{- E_{(x, y) ~ D}} [log o {(z)}_{k + 1} + \sum_{i = 1}^{k} log o {(z_{i}^{*}, z_{- i})}_{i}],$
parallel zu einer Task-Modalität, in der $z_{i}^{*} = g_{i} (x_{i}^{*})$
ein Merkmal ist, das aus der gestörten Eingabe $x_{i}^{*}$
extrahiert wurde, und o das Odd-One-Out-Netzwerk ist, und als Reaktion auf ein Stoppkriterium das gemeinsame Training anhält.
Multimodales Wahrnehmungssystem nach Anspruch 1, wobei der Controller ferner so konfiguriert ist, dass er den ersten, zweiten und dritten Merkmalsvektor und den Out-One-Out-Vektor zu einem fusionierten Merkmalsvektor verschmilzt gemäß $e_{i} (z) = N N (\oplus z_{- i}) \forall_{i} \in [k], e_{k + 1} (z) = N N (\oplus z),$
wobei ⊕ eine Verkettungsoperation bezeichnet, NN für ein flaches neuronales Netz steht, z die Eingabe ist, k eine Modalität ist, e_i eine Fusion von Merkmalen aus allen Modalitäten außer i ist, und nur e_k+1 Merkmale aus allen Modalitäten fusioniert.
Multimodales Wahrnehmungssystem nach Anspruch 1, wobei der erste Sensor einer von Video, RADAR, LIDAR oder Ultraschall ist, und der Controller ferner so konfiguriert ist, dass er ein autonomes Fahrzeug auf der Grundlage des fusionierten Merkmalsvektors steuert.
Multimodale Wahrnehmungssystem nach Anspruch 1, wobei der erste Sensor einer von Video, Ton, IR oder LIDAR ist, und der Controller ist ferner so konfiguriert, dass er eine Zugangstür basierend auf dem fusionierten Merkmalsvektor steuert.
Multimodales Wahrnehmungssystem nach Anspruch 1, wobei es sich bei dem ersten Sensor um einen Sensor aus der Gruppe Video, Schall, Ultraschall, IR oder LIDAR handelt und der Controller ferner so konfiguriert ist, dass er ein mechanisches System steuert.
Multimodales Wahrnehmungsverfahren, umfassend: Empfangen eines ersten Signals von einem ersten Sensor, eines zweiten Signals von einem zweiten Sensor und eines dritten Signals von einem dritten Sensor; Extrahieren eines ersten Merkmalsvektors aus dem ersten Signal, eines zweiten Merkmalsvektors aus dem zweiten Signal und eines dritten Merkmalsvektors aus dem dritten Signal; Bestimmen eines Odd-One-Out-Vektors aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage; Fusionieren des ersten, zweiten und dritten Merkmalsvektors und des Odd-One-Out-Vektors zu einem fusionierten Merkmalsvektor; und Ausgeben des fusionierten Merkmalsvektors.
Multimodales Wahrnehmungsverfahren nach Anspruch 11, wobei der erste Sensor, der zweite Sensor und der dritte Sensor jeweils einer anderen Modalität angehören.
Multimodales Wahrnehmungsverfahren nach Anspruch 12, wobei der Odd-One-Out-Vektor die Länge Modalitäten plus 1 aufweist und jede Modalität eine Störung aufweist, wobei das plus 1 eine ungestörte Modalität angibt.
Multimodales Wahrnehmungsverfahren nach Anspruch 13, wobei das Bestimmen des Odd-One-Out-Netzwerks und das Fusionieren der Merkmalsvektoren mit dem Odd-One-Out-Vektor über ein neuronales Faltungsnetz (Convolutional Neural Network, CNN) erfolgt, um eine räumlich-zeitliche Dimensionen der verschiedenen Modalitäten anzugleichen.
Multimodales Wahrnehmungsverfahren nach Anspruch 11, bei dem die ersten Merkmalsvektoren aus dem ersten Signal über ein erstes vortrainiertes KI-Modell extrahiert werden, die zweiten Merkmalsvektoren aus dem zweiten Signal über ein zweites vortrainiertes KI-Modell extrahiert werden, und die dritten Merkmalsvektoren aus dem dritten Signal über ein drittes vortrainiertes KI-Modell extrahiert werden.
Multimodales Wahrnehmungsverfahren nach Anspruch 15, ferner umfassend ein gemeinsames Trainieren des Odd-One-Out-Netzwerks gemäß einer Verlustfunktion, ausgedrückt durch $\underset{z_{i} = g_{i} (x_{i})}{- E_{(x, y) ~ D}} [log o {(z)}_{k + 1} + \sum_{i = 1}^{k} log o {(z_{i}^{*}, z_{- i})}_{i}],$
parallel zu einer Task-Modalität, in der $z_{i}^{*} = g_{i} (x_{i}^{*})$
ein Merkmal ist, das aus der gestörten Eingabe $x_{i}^{*}$
extrahiert wurde, und o das Odd-One-Out-Netzwerk ist, und als Reaktion auf ein Stoppkriterium, Anhalten des gemeinsamen Trainings.
Multimodales Wahrnehmungsverfahren nach Anspruch 11, bei dem der erste, zweite und dritte Merkmalsvektor und der Out-One-Out-Vektor zu einem fusionierten Merkmalsvektor fusioniert werden gemäß $e_{i} (z) = N N (\oplus z_{- i}) \forall_{i} \in [k], e_{k + 1} (z) = N N (\oplus z),$
wobei ⊕ eine Verkettungsoperation bezeichnet, NN für ein flaches neuronales Netz steht, z eine Eingabe ist, k eine Modalität ist, e_i eine Fusion von Merkmalen aus allen Modalitäten außer i ist, und nur e_k+1 Merkmale aus allen Modalitäten fusioniert.
Multimodales Wahrnehmungssystem für ein autonomes Fahrzeug, umfassend: einen ersten Sensor, bei dem es sich um einen Video-, RADAR-, LIDAR- oder Ultraschallsensor handelt; und einen Controller, die konfiguriert ist zum Empfangen eines ersten Signals von einem ersten Sensor, eines zweites Signals von einem zweiten Sensor, und eines dritten Signals von einem dritten Sensor, Extrahieren eines ersten Merkmalsvektors aus dem ersten Signal, Extrahieren eines zweiten Merkmalsvektors aus dem zweiten Signal, Extrahieren eines dritten Merkmalsvektors aus dem dritten Signal, Bestimmen eines Odd-One-Out-Vektors aus dem ersten, zweiten und dritten Merkmalsvektor über ein Odd-One-Out-Netzwerk eines maschinellen Lernnetzwerks auf der Grundlage einer inkonsistenten Modalitätsvorhersage, Fusionieren des ersten, zweiten und dritten Merkmalsvektors und des Odd-One-Out-Vektors zu einem fusionierten Merkmalsvektor, Ausgeben des fusionierten Merkmalsvektors, und Steuern des autonomen Fahrzeugs auf der Grundlage des fusionierten Merkmalsvektors.
Multimodales Wahrnehmungssystem nach Anspruch 18, wobei der erste Sensor, der zweite Sensor und der dritte Sensor jeweils einer anderen Modalität angehören und wobei der Odd-one-Out-Vektor die Länge Modalitäten plus 1 aufweist und jede Modalität eine Störung aufweist, wobei das plus 1 eine ungestörte Modalität angibt.
Multimodales Wahrnehmungssystem nach Anspruch 19, wobei der Controller das Odd-One-Out-Netzwerk bestimmt und die Merkmalsvektoren mit dem Odd-One-Out-Vektor als neuronales Faltungsnetz (Convolutional Neural Network, CNN) fusioniert, um raum-zeitliche Dimensionen der verschiedenen Modalitäten anzugleichen.