DE102022209403A1

DE102022209403A1 - Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk

Info

Publication number: DE102022209403A1
Application number: DE102022209403.4A
Authority: DE
Inventors: Matthias Woehrle; Jan Stellet
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2024-03-14
Also published as: CN117688970A

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk beschrieben, aufweisend Zuführen von Bilddaten zu einem Merkmalsextraktionsnetzwerk, das trainiert ist, für die ihm zugeführten Bilddaten eine Repräsentation der Bilddaten für die Durchführung der Prädiktionsaufgabe zu ermitteln, Zuführen der ermittelten Repräsentation zu einem Prädiktionsnetzwerk, das trainiert ist, die Prädiktionsaufgabe durchzuführen, erstes Ermitteln eines optischen Flusses zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation, zweites Ermitteln des optischen Flusses zwischen den Bilddaten und den weiteren Bilddaten aus den Bilddaten auf einem anderen Berechnungsweg und Vergleichen des Ergebnisses der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses und Akzeptieren eines Ergebnisses der Prädiktionsaufgabe als korrekt, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz übereinstimmt.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk.
Prädiktionsaufgaben, die von neuronalen Netzwerken durchgeführt werden, können für viele Steuerungsanwendungen eingesetzt werden. Beispielsweise wird für ein autonomes Fahrzeug von einem neuronalen Netzwerk (d.h. einer Deep-Learning-Komponente) eine Prädiktionsaufgabe wie z.B. eine Fußgänger-Detektion durchgeführt. Das neuronale Netzwerk wird für diese Prädiktionsaufgabe trainiert aber es ist schwierig, vorherzusagen, für welche Eingangsdaten (z.B. Bilder) die Prädiktion (z.B. Detektion) gut funktioniert und für welche sie schlecht funktioniert, d.h. Unsicherheiten bestehen.
Da es wünschenswert ist, dass Unsicherheiten detektiert werden, damit z.B. eine Steuerung eines autonomen Fahrzeug auf sie Rücksicht nehmen kann, sind effektive Vorgehensweisen wünschenswert, die es ermöglichen, solche Unsicherheiten (und damit Probleme oder Anomalien bei der Prädiktion) zu detektieren.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk bereitgestellt, aufweisend Zuführen von Bilddaten zu einem Merkmalsextraktionsnetzwerk, das trainiert ist, für die ihm zugeführten Bilddaten eine Repräsentation der Bilddaten für die Durchführung der Prädiktionsaufgabe zu ermitteln, Zuführen der von dem Merkmalsextraktionsnetzwerk ermittelten Repräsentation zu einem Prädiktionsnetzwerk, das trainiert ist, die Prädiktionsaufgabe durchzuführen, erstes Ermitteln eines optischen Flusses zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation, zweites Ermitteln des optischen Flusses zwischen den Bilddaten und den weiteren Bilddaten aus den Bilddaten auf einem anderen Berechnungsweg als über die Berechnung der Repräsentation und der Ermittlung des optischen Flusses aus der Repräsentation und Vergleichen des Ergebnisses der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses und Akzeptieren eines Ergebnisses der Prädiktionsaufgabe als korrekt, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz übereinstimmt.
Das oben beschriebene Verfahren ermöglicht durch die Teilung (d.h. gemeinsame Verwendung) der Repräsentation zwischen der Prädiktionsaufgabe und der Überwachungsaufgabe (d.h. der ersten Ermittlung des optischen Flusses deren Ergebnis mit dem Ergebnis der zweiten Ermittlung verglichen wird) eine effektive Überwachung der Durchführung der Prädiktionsaufgabe, da sich eine schlechte Repräsentation der Bilddaten nicht nur im Ergebnis der Prädiktionsaufgabe sondern auch in der (ersten) Ermittlung des optischen Flusses widerspiegeln.
Das Ergebnis der Ermittlungen des optischen Flusses kann sich auf einen Teilbereich eines Bildes oder auf ein gesamtes Bild beziehen. Das Ergebnis der Ermittlungen des optischen Flusses kann also ein lokales oder globales Ergebnis für den optischen Fluss (bzgl. eines Bildes) sein. Analog kann das Ergebnis der Prädiktionsaufgabe ein lokales oder ein globales Ergebnis (bzgl. eines Bildes) sein.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, wobei die Prädiktionsaufgabe eine Prädiktionsaufgabe für die Steuerung einer Robotervorrichtung ist und die Robotervorrichtung auf der Grundlage des Ergebnisses der Prädiktionsaufgabe gesteuert wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen der vorgegebenen Toleranz übereinstimmt (und ansonsten nicht verwendet und z.B. verworfen wird). Die Übereinstimmung der Ergebnisse für einen Teilbereich eines Bildes kann entscheidend für die Verwendung eines Prädiktionsergebnisses sein, das sich auf den Teilbereich bezieht, z.B. wenn sich eine Robotervorrichtung in einem Umgebungsbereich, der von diesem Teilbereich gezeigt wird, bewegen will. Die Verwendung des Ergebnisses der Prädiktionsaufgabe kann also davon abhängen, wie gut die Ergebnisse des optischen Flusses für einen Bildbereich, auf den sich die Prädiktionsaufgabe (und z.B. eine von einer Robotervorrichtng durchzuführenden Aufgabe) bezieht, übereinstimmen.
Durch die Überwachung der Durchführung der Prädiktionsaufgabe wird so die Steuerung der Robotervorrichtung (insbesondere ihre Sicherheit) verbessert.
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 2, wobei eine Sicherheitsmaßnahme bei der Steuerung der Robotervorrichtung ergriffen wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses nicht im Rahmen der vorgegebenen Toleranz übereinstimmt.
Unfälle durch einen Fehler im Prädiktionsergebnis können so vermieden werden.
Ausführungsbeispiel 4 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei ein weiteres Training des neuronalen Netzwerks durchgeführt wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses nicht im Rahmen der vorgegebenen Toleranz übereinstimmt.
So kann das neuronale Netzwerk dahingehend verbessert werden, dass es für Arten von Eingabedaten, für die es schlecht trainiert wurde, nachtrainiert wird, und für diese dann bessere Ergebnisse liefert.
Ausführungsbeispiel 5 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4, wobei das erste Ermitteln eines optischen Flusses zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation mittels eines neuronalen Task-Head-Netzwerks erfolgt und das neuronalen Task-Head-Netzwerk auf der Grundlage von Labels, die mittels des anderen Berechnungswegs ermittelt werden, trainiert wird.
So wird sichergestellt, dass die Ergebnisse des Task-Head-Netzwerks für Trainings-Eingabedaten, für die das neuronale Netzwerk (und das Task-Head-Netzwerk) trainiert wurde, ähnliche Ergebnisse wie der andere Berechnungsweg liefert und umgekehrt Anomalien erkannt werden können, da für sie das Ergebnis des Task-Head-Netzwerks mit hoher Wahrscheinlichkeit von dem Ergebnis des anderen Berechnungswegs abweicht.
Ausführungsbeispiel 6 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5, wobei die Bilddaten ein erstes digitales Bild sind und die weiteren Bilddaten mindestens ein zweites digitales Bild sind und wobei die Prädiktionsaufgabe eine Objektklassifizierung von mindestens einem in dem ersten digitalen Bild gezeigten Objekt oder eine semantische Segmentierung des ersten digitalen Bilds ist.
Die Überwachungsaufgabe (erste Ermittlung des optischen Flusses) und die Prädiktionsaufgabe Objektklassifizierung oder semantische Segmentierung sind in diesem Fall stark verwandt, sodass die Qualitäten der jeweiligen Ergebnisse gut korrelieren und somit Fehler bei der Berechnung des optischen Flusses auf der Grundlage der Repräsentation auf Fehler bei der Durchführung der Prädiktionsaufgabe auf der Grundlage der Repräsentation hindeuten.
Ausführungsbeispiel 7 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 6, wobei das Ergebnis der ersten Ermittlung des optischen Flusses und das Ergebnis der zweiten Ermittlung des optischen Flusses bildbereichsweise für mehrere Bereiche des ersten digitalen Bilds (und entsprechende Bereiche des zweiten digitalen Bilds) verglichen werden, die Prädiktionsaufgabe für mindestens einen der Bereiche ein Prädiktionsergebnis liefert und, für jeden Bereich, für den die Prädiktionsaufgabe ein Prädiktionsergebnis liefert, das Ergebnis der Prädiktionsaufgabe für einen Bereich als korrekt akzeptiert wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz für den Bereich übereinstimmt.
In anderen Worten kann die Korrektheit der (ersten) Ermittlung des optischen Flusses lokal überprüft werden und entsprechend können lokale Prädiktionsergebnisse akzeptiert oder verworfen werden. Insbesondere können so Fehler in irrelevanten Bildbereichen ignoriert werden (z.B. Fehler bei der Bestimmung des optischen Flusses bei Blättern eines Baumes, die sich über der Fahrbahn befinden; eine korrekte Repräsentation in diesem Bereich ist typischerweise irrelevant).
Ausführungsbeispiel 8 ist eine Überwachungseinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 7 durchzuführen.
Ausführungsbeispiel 9 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 7 durchführt.
Ausführungsbeispiel 10 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 7 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt ein (z.B. autonomes) Fahrzeug.
2 zeigt eine Architektur zur Überwachung der Durchführung einer Prädiktionsaufgabe.
3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk gemäß einer Ausführungsform darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt ein (z.B. autonomes) Fahrzeug 101.
Im Beispiel von 1 ist das Fahrzeug 101, beispielsweise ein PKW oder LKW, mit einer Fahrzeugsteuereinrichtung 102 versehen.
Die Fahrzeugsteuereinrichtung 102 weist Datenverarbeitungskomponenten auf, z.B. einen Prozessor (z.B. eine CPU (Zentraleinheit)) 103 und einen Speicher 104 zum Speichern von Steuersoftware, gemäß der die Fahrzeugsteuereinrichtung 102 arbeitet, und Daten, die von dem Prozessor 103 verarbeitet werden.
Beispielsweise weist die gespeicherte Steuerungssoftware (Computerprogramm) Anweisungen auf, die, wenn der Prozessor sie ausführt, bewirken, dass der Prozessor 103 ein oder mehrere neuronale Netzwerke 107 implementiert.
Die im Speicher 104 gespeicherten Daten können beispielsweise Bilddaten beinhalten, die von einer oder mehreren Kameras 105 erfasst werden. Die eine oder die mehreren Kameras 105 können beispielsweise ein oder mehrere Graustufen- oder Farbfotos der Umgebung des Fahrzeugs 101 aufnehmen. Es ist zu beachten, dass im Folgenden Bilder bzw. Bilddaten sehr allgemein als eine Sammlung von Daten, die einen oder mehreren Objekte oder Muster darstellen, aufgefasst werden. Die Bilddaten können von Sensoren bereitgestellt werden die sichtbares oder unsichtbares Licht messen, wie z.B. Infrarot- oder Ultraviolettlicht, Ultraschall- oder Radarwellen, oder andere elektromagnetische oder akustische Signale.
Die Fahrzeugsteuereinrichtung 102 kann basierend auf den Bilddaten ermitteln, ob und welche Objekte, z.B. feste Objekte wie Verkehrszeichen oder Straßenmarkierungen oder bewegliche Objekte wie Fußgänger, Tiere und andere Fahrzeuge in der Umgebung des Fahrzeugs 101 vorhanden sind.
Das Fahrzeug 101 kann dann von der Fahrzeugsteuereinrichtung 102 gemäß den Ergebnissen der Objektbestimmung gesteuert werden. So kann die Fahrzeugsteuereinrichtung 102 beispielsweise einen Aktuator 106 (z.B. eine Bremse) steuern, um die Geschwindigkeit des Fahrzeugs zu steuern, z.B. um das Fahrzeug zu bremsen.
Die Objektbestimmung erfolgt beispielsweise durch eine Bildklassifizierung oder eine semantische Segmentierung, die von dem neuronalen Netzwerk 107 durchgeführt wird. Im Folgenden wird auch allgemein von einer Prädiktionsaufgabe gesprochen, die von einem neuronalen Netzwerk (das entsprechend als neuronales Prädiktionsnetzwerk bezeichnet wird) durchgeführt wird.
Bei einem neuronalen Netzwerk kann der Fall auftreten, dass es auf Eingangsdaten aus einem Bereich angewendet wird, für den es nicht oder nicht ausreichend trainiert worden ist. In so einem Fall ist seine Prädiktion nicht verlässlich. Es kann ein Autoencoder oder ein ähnlicher Ansatz dazu verwendet werden, um Eingabedaten (z.B. Bilder) zu detektieren, für die ein neuronales Netzwerk unsicher ist. Diese Ansätze nutzen aber eine separate Repräsentation des Eingangsraumes und können daher nicht die Unsicherheit des konkreten neuronalen Netzwerks betrachten. Außerdem ist das Problem der Rekonstruktion, z.B. eines Eingangsbildes, wie sie bei solchen Ansätzen erfolgt, sehr unterschiedlich (und typischerweise schwieriger) zu der von dem neuronalen Netzwerk durchzuführenden Prädiktionsaufgabe (Zielaufgabe) und daher ist die Transferierbarkeit der gewonnenen Erkenntnisse fraglich.
Gemäß verschiedenen Ausführungsformen wird deshalb eine gelernte Repräsentation nicht nur für die eigentliche Prädiktionsaufgabe, sondern auch für eine weitere Aufgabe, konkret die Ermittlung eines optischen Flusses, verwendet. Außerdem wird die weitere Aufgabe noch auf einem zweiten Weg gelöst, d.h. der optische Fluss wird durch einen unabhängigen (gegebenfalls nicht-Deep Learning basierten) Algorithmus berechnet. Die Ergebnisse beider Berechnungen des optischen Flusses (einmal auf der Grundlage der Repräsentation und einmal auf der Grundlage des nicht-Deep Learning basierten Algorithmus) werden verglichen, um eine Unsicherheit des Ergebnisses der eigentlichen Prädiktionsaufgabe zu detektieren, d.h. die Ergebnisse der Prädiktionsaufgabe werden auf diese Weise überwacht. Dabei kann bei der Berechnung des optischen Flusses als Überwachungsaufgabe eine dichte Unsicherheit ermittelt werden, d.h. die Unsicherheit bezieht sich nicht auf einen gesamten Eingabewert (in Form eines Werts für das ganze Bild) sondern auch auf Teile des Bildes, da Abweichungen zwischen den Berechnungsergebnissen des optischen Flusses pixelweise ermittelt werden können. Diese lokalen Unsicherheiten können dann, z.B. bei der Steuerung einer Robotervorrichtung, berücksichtigt werden. Beispielsweise kann eine Steuerrichtlinie bei der Detektion (Bild-)lokaler Unsicherheiten nach der Präferenz vorgehen, dass die unsicheren Bereiche umfahren werden sollen und Unsicherheiten in irrelevanten Bereichen können ignoriert werden.
2 zeigt eine Architektur 200 zur Überwachung der Durchführung einer Prädiktionsaufgabe. Die Architektur wird beispielsweise von der Fahrzeugsteuereinrichtung 102 implementiert und die Prädiktionsaufgabe ist eine Aufgabe im Kontext einer Fahraufgabe, wie z.B. eine Objektdetektion.
Die Architektur beinhaltet ein neuronales Multi-Task-Netz, das sowohl (mindestens) die Prädiktionsaufgabe (Zielaufgabe) durchführt sowie parallel eine Prädiktion des optischen Flusses von einem ersten Eingabebild 201 zu einem zweiten Eingabebild 202 berechnet.
Die Prädiktionsaufgabe kann auf einzelnen Bildern basieren kann und die Berechnung des optischen Flusses basiert auf zwei (oder auch mehr) aufeinanderfolgenden Bildern.
Ein neuronales Merkmalsextraktionsnetzwerk 203 ermittelt für jedes Bild 201, 202 eine jeweilige Repräsentation 204, 205 (z.B. eine Merkmalskarte oder einen Vektor in einem latenten Raum. Ein erster Task-Head (neuronales Teilnetzwerk für die Prädiktion) 206 für die Prädiktionsaufgabe ermittelt aus der Repräsentation 204, 205 eines Bilds (oder, abhängig von der Prädiktionsaufgabe, auch die Repräsentationen von zwei oder mehr Bildern) ein Ergebnis 210 für die Prädiktionsaufgabe (z.B. segmentiert das Bild).
Ein zweiter Task-Head (neuronales Teilnetzwerk für die Bestimmung eines optischen Flusses) nutzt, zur Überwachung der Durchführung der Prädiktionsaufgabe, mindestens eine von dem ersten Task-Head 206 verwendete Repräsentation und die Repräsentation von mindestens einem weiteren Bild (z.B. nimmt beide Repräsentationen 204, 205 wobei der erste Task-Head 206 die Repräsentation 204 des ersten Bilds verendet hat) und ermittelt einen optischen Fluss aus den Repräsentationen.
Die Bilder, deren Repräsentationen der zweite Task-Head 207 verwendet, z.B. die beiden Bilder 201, 202, werden außerdem von einem weiteren (z.B. nicht auf einem neuronalen Netzwerk basierenden), separat implementierten Algorithmus 208 verarbeitet, so dass neben dem (ersten) Ergebnis für den optischen Fluss, das der zweite Task-Head 207 ermittelt, ein zweites Ergebnis für den optischen Fluss vorliegt. Für den zweiten Algorithmus 208 kann beispielsweise ein Bewegungsschätz-Algorithmus verwendet werden, wie er auch bei der Videokompression eingesetzt wird oder irgendein anderer „klassischer“ Algorithmus zur Bestimmung eines optischen Flusses verwendet werden. Er kann aber auch durch ein separat für diese Aufgabe trainiertes neuronales Netz implementiert werden. In jedem Fall implementiert er eine andere, unabhängige Abbildung (Funktion) von zwei oder mehr Eingabebildern auf einen optischen Fluss als durch die Hintereinanderausführung von Merkmalsextraktionsnetzwerk 203 und zweitem Task-Head 207 implementiert wird. Insbesondere wird deshalb der Algorithmus 208 für Anomalien, d.h. Eingabebilder, für die das Merkmalsextraktionsnetzwerk 203 schlecht trainiert ist, einen anderen optischen Fluss ausgeben als die Hintereinanderausführung von Merkmalsextraktionsnetzwerk 203 und zweitem Task-Head 207.
Ein Vergleicher (Komparator) 209 vergleicht diese beiden Ergebnisse und kann dadurch den Wert 211 einer lokale Unsicherheit (spatio-temporal) oder einer globalen Abweichungs(oder Unsicherheits)-Metrik berechnen. Das zweite Ergebnis dient also bei der Überwachung der Prädiktionsaufgabe als Referenz um (lokale) Ungleichheiten zu dem ersten Ergebnis zu detektieren.
Das zweite Ergebnis kann außerdem (davor, also vor der Verwendung für die Überwachung der Prädiktionsaufgabe) als Label für das Trainieren des ersten Task-Heads verwendet werden. Es können auf der Grundlage des Vergleichs auch schwierige Bilder detektiert werden, die dann bei dem Training des Merkmalsextraktionsnetzwerks 203 stärker gewichtet werden.
Der Vergleicher 209 kann so eingerichtet sein, dass er Unterschiede zwischen den Berechnungsarten des optischen Flusses kompensiert. Er kann dazu zur Entwicklungszeit z.B. geeignet mit trainiert werden.
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 3 dargestellt.
3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk gemäß einer Ausführungsform darstellt.
In 301 werden Bilddaten einem Merkmalsextraktionsnetzwerk zugeführt, das trainiert ist, für die ihm zugeführten Bilddaten eine Repräsentation der Bilddaten für die Durchführung der Prädiktionsaufgabe zu ermitteln.
In 302 wird die von dem Merkmalsextraktionsnetzwerk (für die Bilddaten) ermittelte Repräsentation einem Prädiktionsnetzwerk zugeführt, das trainiert ist, die Prädiktionsaufgabe (für die Bilddaten) durchzuführen.
Das neuronale Netzwerk, dessen Durchführung der Prädiktionsaufgabe überprüft wird, weist das Merkmalsextraktionsnetzwerk und das Prädiktionsnetzwerk auf.
In 303 wird ein optischer Fluss zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation ermittelt.
In 304 wird ein weiteres Mal der optische Fluss zwischen den Bilddaten und den weiteren Bilddaten aus den Bilddaten auf einem anderen Berechnungsweg als über die Berechnung der Repräsentation und der Ermittlung des optischen Flusses aus der Repräsentation ermittelt (beispielsweise durch ein weiteres neuronales Netz oder durch einen „klassischen“, d.h. nicht Deep-Learning-basierten Algorithmus). Der optische Fluss wird also mittels zweier Berechnungspfade aus den Bilddaten ermittelt, wobei der zweite nicht die Repräsentation verwendet, also in anderen Worten unabhängig von der Repräsentation arbeitet (d.h. sein Ergebnis ist nicht durch die Repräsentation gegeben bzw. die Berechnung umgeht die Repräsentation) bzw. unabhängig von einer solchen Repräsentation den optischen Fluss berechnen kann. Die beiden Berechnungspfade implementieren somit unterschiedliche Abbildungsvorschriften zwischen Bilddaten und optischen Flüssen.
In 305 werden das Ergebnis der ersten Ermittlung des optischen Flusses (aus 303) und das Ergebnis der zweiten Ermittlung des optischen Flusses (aus 304) miteinander verglichen und ein Ergebnis der Prädiktionsaufgabe wird als korrekt akzeptiert, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz übereinstimmt. In anderen Worten wird das Ergebnis der Prädiktionsaufgabe (aus 302) abhängig davon weiterverarbeitet, ob die beiden Ergebnisse übereinstimmen (unter Berücksichtigung einer Toleranz).
Es sollte beachtet werden, dass die obigen Verarbeitungsschritte 301 bis 305 nicht notwendig in der dargstellten Reihenfolge durchgeführt werden brauchen. Außerdem kann auch parallel trainiert werden (z.B. Training für das Merkmalsextraktionsnetzwerk von 301 parallel zum Training des Prädiktionsnetzwerks von 302).
Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Das Verfahren ist also gemäß verschiedenen Ausführungen insbesondere computerimplementiert.
Die Prädiktionsaufgabe kann zum Erzeugen eines Steuersignals für eine Robotervorrichtung dienen. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem.
Die Prädiktionsaufgabe wird mittels der Überwachungsaufgabe überwacht, so dass Anomalien detektiert werden können. Beispielsweise liefert der Vergleich ein Unsicherheitsmaß und wenn dieses Unsicherheitsmaß eine Schwelle überschreitet wird eine Anomalie gemeldet und in Reaktion beispielsweise das jeweilige technische System in einen sicheren Modus überführt (z.B. bei einem Fahrzeug die Geschwindigkeit gedrosselt, ein Roboterarm angehalten etc.).
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. als Eingabedaten verwenden. Insbesondere können „Bilddaten“ als jegliche Art von Daten in Bildform (d.h. Pixeln zugewiesenen Werten), also nicht notwendig nur als Farbbilddaten, verstanden werden. Entsprechend ist ein optischer Fluss ggf. ein optischer Fluss zwischen anderen Sensordaten, die Pixeln zugewiesen werden, als Farbbilddaten. Die Sensoraufgabe kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.
Ausführungsformen können auch zum Trainieren (inkl. Validieren und Testen) eines Maschinenlernsystems verwendet werden, indem geeignete Trainingsdaten ausgewählt werden. Beispielsweise werden Daten mit hoher Unsicherheit (lokal oder global) hinsichtlich der Durchführung der Prädiktionsaufgabe selektiert, an einen Computer übermittelt (wodurch der Datenverkehr reduziert wird, weil nur selektierte Daten übertragen werden) und diese im Folgenden zum Trainieren, Validieren oder Testen verwendet. Ausführungsformen können somit zum Trainieren (inklusive dem Lernen einer Steuerrichtlinie), Erzeugen von Trainingsdaten und Testen, Verifizieren oder Validieren, um zu Überprüfen, ob ein trainiertes ML-System sicher betrieben werden kann, verwendet werden. Ein so trainiertes ML-System kann dann für die Prädiktionsaufgabe eingesetzt werden (wobei es dann weiterhin mittels der Überwachungsaufgabe überwacht werden kann).
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll Anpassungen oder Variationen der speziellen Ausführungsformen, die hier erörtert sind, abdecken. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Überprüfen der Durchführung einer Prädiktionsaufgabe durch ein neuronales Netzwerk, aufweisend: Zuführen von Bilddaten zu einem Merkmalsextraktionsnetzwerk, das trainiert ist, für die ihm zugeführten Bilddaten eine Repräsentation der Bilddaten für die Durchführung der Prädiktionsaufgabe zu ermitteln; Zuführen der von dem Merkmalsextraktionsnetzwerk ermittelten Repräsentation zu einem Prädiktionsnetzwerk, das trainiert ist, die Prädiktionsaufgabe durchzuführen, Erstes Ermitteln eines optischen Flusses zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation; Zweites Ermitteln des optischen Flusses zwischen den Bilddaten und den weiteren Bilddaten aus den Bilddaten auf einem anderen Berechnungsweg als über die Berechnung der Repräsentation und der Ermittlung des optischen Flusses aus der Repräsentation; und Vergleichen des Ergebnisses der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses und Akzeptieren eines Ergebnisses der Prädiktionsaufgabe als korrekt, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz übereinstimmt.
Verfahren nach Anspruch 1, wobei die Prädiktionsaufgabe eine Prädiktionsaufgabe für die Steuerung einer Robotervorrichtung ist und die Robotervorrichtung auf der Grundlage des Ergebnisses der Prädiktionsaufgabe gesteuert wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen der vorgegebenen Toleranz übereinstimmt.
Verfahren nach Anspruch 2, wobei eine Sicherheitsmaßnahme bei der Steuerung der Robotervorrichtung ergriffen wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses nicht im Rahmen der vorgegebenen Toleranz übereinstimmt.
Verfahren nach einem der Ansprüche 1 bis 3, wobei ein weiteres Training des neuronalen Netzwerks durchgeführt wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses nicht im Rahmen der vorgegebenen Toleranz übereinstimmt.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das erste Ermitteln eines optischen Flusses zwischen den Bilddaten und weiteren Bilddaten aus der Repräsentation mittels eines neuronalen Task-Head-Netzwerks erfolgt und das neuronalen Task-Head-Netzwerk auf der Grundlage von Labels, die mittels des anderen Berechnungswegs ermittelt werden, trainiert wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die Bilddaten ein erstes digitales Bild sind und die weiteren Bilddaten mindestens ein zweites digitales Bild sind und wobei die Prädiktionsaufgabe eine Objektklassifizierung von mindestens einem in dem ersten digitalen Bild gezeigten Objekt oder eine semantische Segmentierung des ersten digitalen Bilds ist.
Verfahren nach einem der Ansprüche 1 bis 6, wobei das Ergebnis der ersten Ermittlung des optischen Flusses und das Ergebnis der zweiten Ermittlung des optischen Flusses bildbereichsweise für mehrere Bereiche des ersten digitalen Bilds verglichen werden, die Prädiktionsaufgabe für mindestens einen der Bereiche ein Produktionsergebnis liefert und, für jeden Bereich, für den die Prädiktionsaufgabe ein Produktionsergebnis liefert, das Ergebnis der Prädiktionsaufgabe für einen Bereich als korrekt akzeptiert wird, falls das Ergebnis der ersten Ermittlung des optischen Flusses mit dem Ergebnis der zweiten Ermittlung des optischen Flusses im Rahmen einer vorgegebenen Toleranz für den Bereich übereinstimmt.
Überwachungseinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 7 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 7 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 7 durchführt.