-
Die vorliegende Erfindung betrifft ein Verfahren zum Bereitstellen einer Einrichtung zur Vorhersage von Fehlern beim Verarbeiten von Bilddaten. Die Erfindung betrifft weiter eine entsprechende Einrichtung zum Vorhersagen von Fehlern eines Segmentierungsmodells und ein Kraftfahrzeug mit einer derartigen Einrichtung.
-
Im Zuge der zunehmenden Automatisierung in vielerlei technischen Bereichen hat sich der Bereich des Computersehens als wichtiger Aspekt erwiesen. Eine robuste visuelle Wahrnehmung kann beispielsweise für Industrieroboter ebenso wie für Kraftfahrzeuge wichtig sein, um zuverlässig bestimmen und erkennen zu können, in welchen räumlichen Bereichen eine Bewegung sicher möglich ist. Dabei kann jedoch nicht nur die reine Umgebungsgeometrie von Bedeutung sein, sondern auch eine jeweilige Art oder ein jeweiliger Typ von Gegenständen oder Objekten, die sich in einer jeweiligen erfassten Umgebung befinden. So kann es hinsichtlich der Sicherheit und eines situationsangepassten Verhaltens beispielsweise von essenzieller Bedeutung sein, korrekt zu erkennen, ob ein Objekt beispielsweise ein - sich gegebenenfalls bewegender - Fußgänger oder etwa eine ortsfeste Absperrung oder eine Pflanze oder dergleichen ist.
-
Ein bekannter Ansatz dazu, derartige Unterscheidungen automatisiert zu treffen, stellt die semantische Segmentierung von Bilddaten dar. Dabei werden einzelne Bereiche eines verarbeiteten Bildes klassifiziert, beispielsweise danach, welche Art von Objekt sie darstellen. Dazu entwickelte Segmentierungsmodelle, also beispielsweise entsprechend trainierte künstliche neuronale Netze, haben in den letzten Jahren zwar Fortschritte hinsichtlich ihrer Genauigkeit gemacht, arbeiten jedoch weiterhin nicht fehlerfrei. Gerade sicherheitskritische Anwendungen, wie etwa das autonome Fahren im Straßenverkehr, erfordern jedoch, dass die Umgebungs- und Objekterkennung verlässlich, also vertrauenswürdig ist oder zumindest eine Kenntnis über die Verlässlichkeit oder Vertrauenswürdigkeit gegeben ist, um potenziell sicherheitskritische automatisierte Entscheidungen zu treffen.
-
Dazu gibt es bereits Ansätze, eine Konfidenz für ein Ergebnis oder eine Ausgabe eines Modells zu bestimmen. Ein Beispiel dafür ist der sogenannte Softmax Score, der jedoch inhärent fehlerbehaftet ist. Zum einen kann der Softmax Score, nicht als echte Wahrscheinlichkeit aufgefasst werden und kann zum anderen nur eine relative Unsicherheit, nicht aber eine absolute Unsicherheit angeben.
-
Als Beispiel für eine Anwendung im Verkehrsbereich ist in der
DE 11 2019 000 048 T5 eine Bestimmung eines befahrbaren Freiraums für autonome Fahrzeuge thematisiert. Dort ist auch die Problematik beschrieben, dass bei einigen konventionellen Ansätzen, beispielsweise bei Anpassungen zur Reduzierung eines Rechenaufwandes für einen Echtzeitbetrieb, eine semantische Segmentierung auf Kosten der Bestimmung des befahrbaren Freiraums unterhalb eines Genauigkeitsgrades geht, der erforderlich ist, um ein akzeptables Sicherheitsniveau beim autonomen Fahren aufrechtzuerhalten. Um dieser Problematik zu begegnen, wird durch einen ersten Strom eines neuronalen Netzes eine Gruppe von Bezugspunkten, welche durch auf das neuronale Netz aufgebrachte Sensordaten repräsentiert werden und einen befahrbaren Freiraum von einem nicht befahrbaren Raum in einer physischen Fahrzeugumgebung abgrenzen, berechnet. Durch einen zweiten Strom des neuronalen Netzes werden Klassenbezeichnungen für die Begrenzungspunkte berechnet. Das Fahrzeug wird dann abhängig von der Gruppe von Begrenzungspunkten entsprechenden Orten in der physischen Umgebung und den Klassenbezeichnungen gesteuert. Um das Verfahren in einem Echtzeitbetrieb ausführen zu können, wird ein vollständig faltendes Netz ohne vollständig verbundene Schichten verwendet und durch Regression auf den Begrenzungen, beispielsweise Spalte für Spalte, nicht jeder Pixel eines Bildes separat klassifiziert. Auch ein solches Verfahren wird in der Praxis voraussichtlich jedoch nicht hundertprozentig fehlerfrei ausgeführt werden können.
-
Aufgabe der vorliegenden Erfindung ist es, eine weiter verbesserte computergestützte Umgebungserkennung zu ermöglichen. Diese Aufgabe wird erfindungsgemäß durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Patentansprüchen, in der Beschreibung und in der Zeichnung angegeben.
-
Ein erfindungsgemäßes Verfahren kann also angewendet werden zum Bereitstellen oder Erzeugen einer Einrichtung zur Vorhersage von Fehlern beim Verarbeiten von Bilddaten. Dazu wird ein Segmentierungsmodell bereitgestellt, das zur pixelgenauen semantischen Segmentierung der Bilddaten trainiert ist. Als ein solches Segmentierungsmodell kann beispielsweise ein herkömmliches verfügbares Modell, also eine Implementierung zur semantischen Segmentierung aus dem Stand der Technik verwendet werden, derzeit beispielsweise die DeepLabV3+ oder dergleichen. Ebenso kann das hier bereitgestellte Segmentierungsmodell neu erzeugt, also trainiert werden, beispielsweise von Grund auf, was dann einen weiteren Schritt des erfindungsgemäßen Verfahrens darstellen kann.
-
Weiter werden bei dem erfindungsgemäßen Verfahren Trainingsdaten bereitgestellt, die Trainingsbilder und zugehörige Fehlerdaten umfassen. Die Trainingsbilder können beispielsweise real aufgenommene oder synthetisch generierte Kamera- oder Umgebungsbilder sein, die je nach geplantem Anwendungsfall oder Einsatzzweck unterschiedliche Arten von Umgebungen darstellen oder abbilden können. Die Fehlerdaten geben zu diesen Trainingsbildern pixelgenau an, welche Pixel der Trainingsbilder von dem Segmentierungsmodell beim Verarbeiten der Trainingsbilder fehlerhaft klassifiziert wurden. Mit anderen Worten werden die bereitgestellten Trainingsdaten also durch das bereitgestellte Segmentierungsmodell verarbeitet. Das bereitgestellte Segmentierungsmodell erzeugt dabei eine pixelgenaue semantische Segmentierung der Trainingsbilder, die dann überprüft oder beispielsweise mit bereitgestellten Annotierungen oder Labels, welche die pixelgenau korrekte Klassifikation der Trainingsbilder bzw. der Pixel der Trainingsbilder angeben, verglichen werden. Derartige Annotierungen stellen hier also eine sogenannte Ground Truth, d. h. eine Basis- oder Referenzwahrheit, dar.
-
Die Fehlerdaten können beispielsweise in Form einer jeweiligen Fehlerkarte für jedes der Trainingsbilder vorliegen, also bereitgestellt werden, die zumindest im Wesentlichen die gleiche Dimension, also die gleiche Anzahl von Pixeln wie das jeweilige Trainingsbild aufweisen kann und zumindest für die von dem bereitgestellten Segmentierungsmodell fehlerhaft klassifizierten Pixel angibt, dass diese Pixel fehlerhaft klassifiziert wurden.
-
Eine fehlerhafte Klassifikation kann beispielsweise bedeuten, dass ein Pixel, der tatsächlich einen Teil eines ersten Objekts darstellt oder abbildet, einem davon verschiedenen zweiten Objekt zugeordnet wurde und/oder für diesen Pixel bzw. das entsprechende erste Objekt ein falscher Objekttyp oder eine falsche Objektart, also eine falsche Klassifikation bestimmt wurde.
-
Weiter wird bei dem erfindungsgemäßen Verfahren für das bereitgestellte Segmentierungsmodell mittels der bereitgestellten Trainingsdaten ein introspektives Fehlervorhersagemodell dazu trainiert, für die Bilddaten pixelgenau vorherzusagen, wo das Segmentierungsmodell beim Verarbeiten dieser Bilddaten voraussichtlich Fehler machen, also voraussichtlich eine fehlerhafte Klassifizierung durchführen wird. Das Fehlervorhersagemodell ist hier also ein von dem Segmentierungsmodell separates zweites Modell. Dass es sich dabei um ein introspektives Modell handelt, bedeutet, dass das Fehlervorhersagemodell anhand von Fehlern, also tatsächlichen Ergebnissen lernt, die das bestimmte bereitgestellte Segmentierungsmodell tatsächlich gemacht bzw. produziert hat.
-
Das so trainierte Fehlervorhersagemodell kann dann zumindest als Teil der Einrichtung zur Vorhersage von Fehlern beim Verarbeiten der Bilddaten bereitgestellt werden. Die Einrichtung kann dabei also dazu eingerichtet werden oder sein, die Bilddaten als Eingangsdaten dem Fehlervorhersagemodell zuzuführen und von diesem durch Verarbeiten der Bilddaten erzeugte Ausgangs- oder Vorhersagedaten auszugeben oder bereitzustellen. Ebenso kann das bereitgestellte Segmentierungsmodell einen Teil der Einrichtung bilden. Dieses kann dann - beispielsweise parallel zu dem Fehlervorhersagemodell - ebenfalls die jeweiligen als Eingangsdaten erfassten oder bereitgestellten Bilddaten verarbeiten.
-
Das introspektives Fehlervorhersagemodell kann pixelweise Fehler oder Fehlerwerte (englisch: pixelwise error scores) für jeweilige verarbeitete Bilddaten vorhersagen, die zumindest einen Teil der Vorhersagedaten bilden können.
-
Mit dem vorliegend erfindungsgemäßen Ansatz können also auf Pixelebene Fehler oder Fehlerstellen bestimmt werden, die spezifisch für die verwendete Segmentierungsmethode bzw. spezifisch für das bereitgestellte Segmentierungsmodell oder dessen Art sind. Dies kann insbesondere unabhängig von einer konkreten Implementierung oder inneren Struktur des bereitgestellten Segmentierungsmodells, also ohne dessen Funktionsweise im Detail zu kennen oder zu verstehen, durchgeführt werden - im Gegensatz zu herkömmlichen Methoden zum Bestimmen eines generellen Konfidenzmaßes. Experimentell hat sich gezeigt, dass durch das introspektive Fehlervorhersagemodell, also durch die erfindungsgemäß bereitgestellte Einrichtung bessere, beispielsweise genauere oder zuverlässigere, Ergebnisse erzielt werden können als mittels herkömmlicher Methoden mit gleichzeitig - zumindest während einer Inferenz - weniger Ressourcenbedarf. Damit kann die erfindungsgemäß bereitgestellte Einrichtung ohne signifikanten Mehraufwand oder zumindest mit einem angesichts heutzutage verfügbarer Berechnungsressourcen vertretbarem Zusatzaufwand auch für Echtzeitanwendungen verwendet werden.
-
Das vorliegend erfindungsgemäß vorgesehene introspektives Fehlervorhersagemodell bzw. die erfindungsgemäß bereitgestellte Einrichtung können für gegebene bzw. zu verarbeitende Bilddaten ermitteln oder bewerten, ob ein von dem Segmentierungsmodell bei dem semantischen Segmentieren dieser Bilddaten erzeugtes Segmentierungsergebnis, also eine Klassifikation verlässlich oder vertrauenswürdig ist. Dazu ist das introspektive Fehlervorhersagemodell darauf fokussiert, also darauf trainiert, Bildbereiche zu detektieren, die in der Vergangenheit für das Segmentierungsmodell eine Herausforderung dargestellt haben, also nicht oder nur unzuverlässig oder schwierig korrekt klassifiziert werden konnten. Das Fehlervorhersagemodell verwendet also zum Erzeugen seiner Vorhersagen nicht aktuelle, möglicherweise zu zuversichtliche Bewertungen oder Konfidenzwerte des Segmentierungsmodells.
-
Im Gegensatz zu herkömmlichen Verfahren, die beispielsweise bei Unterschreiten eines vorgegebenen Konfidenzwertes ein jeweiliges Bild oder eine jeweilige semantische Segmentierung eines Bildes insgesamt, also vollständig verwerfen, können durch das erfindungsgemäß bereitgestellte introspektive Fehlervorhersagemodell pixelgenau Bereiche oder Teile des jeweiligen Bildes oder der jeweiligen semantischen Segmentierung eines Bildes als fehlerhaft oder unzuverlässig bestimmt werden. Dadurch kann vorteilhaft die semantische Segmentierung oder Klassifikation der übrigen Bereiche oder Teile des jeweiligen Bildes nutzbringend weiterverwendet werden. Ebenso kann beispielsweise eine Überprüfung oder Plausibilisierung auf die von dem introspektiven Fehlervorhersagemodell vorhergesagten, voraussichtlich fehlerhaft klassifizierten Bereiche oder Teile beschränkt und dadurch mit entsprechend weniger Rechen- und Zeitaufwand durchgeführt werden.
-
Es hat sich gezeigt, dass das introspektive Fehlervorhersagemodell dazu tendieren kann, größere zusammenhängende fehlerhaft klassifizierte Bildbereiche vorherzusagen als andere herkömmliche Methoden. In sicherheitskritischen Anwendungen, beispielsweise für das Detektieren sicherheitsrelevanter Objekte oder Bereiche, wie etwa Fußgängern im Straßenverkehr, kann dies eine vorteilhafte und nützliche Eigenschaft sein. Die vorliegende Erfindung kann jedoch nicht nur für Fahrzeuganwendungen oder verkehrstechnische Anwendungen eingesetzt werden, sondern ebenso beispielsweise ganz allgemein für eine robotische oder computerbasierte Umgebungserkennung.
-
Ein Modell im Sinne der vorliegenden Erfindung kann insbesondere ein, bevorzugt entsprechend trainiertes, künstliches neuronales Netz sein oder umfassen. Grundsätzlich kann ein Modell im vorliegenden Sinne jedoch allgemein ein trainierbares, also anpassbares oder lernfähiges Computer- oder Berechnungsmodell zum Verarbeiten von bereitgestellten Eingangsdaten - insbesondere Bilddaten - und zum Ausgeben entsprechender Ausgabe- oder Ergebnisdaten sein.
-
In vorteilhafter Ausgestaltung der vorliegenden Erfindung sind die als Teil der Trainingsdaten zum Trainieren des Fehlervorhersagemodells verwendeten Trainingsbilder von zum Trainieren des Segmentierungsmodells verwendeten Basistrainingsbildern verschieden. Mit anderen Worten werden zum Erzeugen oder Trainieren des Segmentierungsmodells also Trainingsdaten oder Trainingsbilder verwendet, die von zum Trainieren oder Erzeugen des Segmentierungsmodells verwendeten Trainingsdaten oder Trainingsbildern, also den Basistrainingsbildern, verschieden, insbesondere vollständig verschieden sind. Bevorzugt kann also eine Menge der Trainingsbilder für das Fehlervorhersagemodell disjunkt von einer Menge der Basistrainingsbildern für das Segmentierungsmodell sein, sodass es dann also keine Überlappungen oder Überschneidungen zwischen den Trainingsbildern und den Basistrainingsbildern gibt. Es können also vollständig voneinander verschiedene Mengen oder Datensätze von Bildern oder Bilddaten zum Trainieren, also zum Erzeugen des Segmentierungsmodells und des Fehlervorhersagemodells verwendet werden. Auf diese Weise können ein Bias oder eine unerwünschte Abhängigkeit oder Kopplung zwischen dem Fehlervorhersagemodell und dem Segmentierungsmodell vermieden und letztlich verlässlichere Ergebnisse erzielt werden.
-
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung umfassen die Trainingsdaten zum Trainieren des Fehlervorhersagemodells eine jeweilige vollständige von dem Segmentierungsmodell beim Verarbeiten der Trainingsbilder erzeugte semantische Segmentierung. Mit anderen Worten wird das Fehlervorhersagemodell also auch mit Erfolgen, also mit korrekten Klassifizierungen des Segmentierungsmodells trainiert. Dadurch kann das Fehlervorhersagemodell besser lernen, Bereiche, die von dem Segmentierungsmodell voraussichtlich falsch klassifiziert werden, von Bereichen zu unterscheiden, die von dem Segmentierungsmodell voraussichtlich korrekt klassifiziert werden. Ebenso kann das Fehlervorhersagemodell auf diese Weise beispielsweise lernen, welche Arten von Objekten das Segmentierungsmodell voraussichtlich oder tendenziell korrekt bzw. falsch klassifiziert.
-
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung geben die Fehlerdaten für jeden Pixel der Trainingsbilder binär an, ob der jeweilige Pixel von dem Segmentierungsmodell korrekt klassifiziert wurde oder nicht. Dies kann beispielsweise im Gegensatz zu einer pixelgenauen Angabe von Konfidenzwerten für die Klassifikation des jeweiligen Pixels gesehen werden. Dadurch, dass die Fehlerdaten also vorliegend binär sind, beispielsweise als binäre Fehlerkarte bereitgestellt werden, kann vorteilhaft gegebenenfalls das Fehlervorhersagemodell schneller trainiert werden bzw. klarere Unterscheidungen lernen. Insbesondere können die Fehlerdaten mit besonders geringem Aufwand besonders genau und zuverlässig erzeugt werden. Die von dem Segmentierungsmodell gemachten Fehler können vorliegend also als Label für das Trainieren des Fehlervorhersagemodells verwendet werden. Dazu können die von dem Segmentierungsmodell erzeugten semantischen Segmentierungen beispielsweise automatisch mit einer jeweiligen als Ground Truth vorgegebenen Segmentierung, die auch als Referenzsegmentierung bezeichnet werden kann, verglichen werden. Dies kann eine besonders einfache und effiziente Erzeugung der Fehlerdaten ermöglichen.
-
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung wird das Fehlervorhersagemodell zumindest im Wesentlichen mit der gleichen internen Architektur oder Struktur erzeugt, also angelegt oder aufgebaut, die auch das Segmentierungsmodell aufweist. Mit anderen Worten weisen das Segmentierungsmodell und das Fehlervorhersagemodell also zumindest im Wesentlichen die gleiche Architektur oder Struktur auf. Auf diese Weise kann das Fehlervorhersagemodell auf besonders einfache Weise bereitgestellt bzw. erzeugt werden. Die Verwendung derselben Architektur für das Segmentierungsmodell und das Fehlervorhersagemodell erweist sich als sinnvoll, da sowohl das Segmentierungsmodell als auch das Fehlervorhersagemodell die Aufgabe haben, Bilddaten zu verarbeiten und für diese eine pixelgenaue oder pixelweise Klassifikation zu erzeugen. Die jeweilige interne Architektur oder Struktur kann beispielsweise durch eine Art, Anzahl und Größe von Schichten, Modulen, Filtern und/oder Kanälen, durch jeweilige Aktivierungsfunktionen und/oder dergleichen mehr bestimmt oder gegeben sein.
-
In vorteilhafter Weiterbildung der vorliegenden Erfindung wird für das Fehlervorhersagemodell ein Encoder, also ein Encoderblock oder Encoderbereich, des bereitgestellten trainierten Segmentierungsmodells verwendet, also übernommen. Bei dem Trainieren des Fehlervorhersagemodells muss dieser Encoder dann also nicht neu erzeugt oder trainiert werden. Stattdessen kann beispielsweise nur ein Decoder, also ein Decoderblock oder Decoderbereich des Fehlervorhersagemodells neu bzw. von Grund auf erzeugt oder trainiert werden. Durch die Wieder- oder Weiterverwendung des Encoders des trainierten Segmentierungsmodells für das Fehlervorhersagemodell kann vorteilhaft durch das Segmentierungsmodell gelerntes internes Wissen, das in dem Encoder codiert oder repräsentiert ist, für das Fehlervorhersagemodell übernommen werden. Solches internes Wissen, also latente Repräsentationen, die in dem Encoder enthalten sind, können modellspezifische Informationen darüber enthalten oder repräsentieren, wie das Segmentierungsmodell Bilddaten interpretiert. Dies kann ein wichtiger Anhaltspunkt für die Erkennung fehlerhafter Interpretationen, und somit resultierender falscher Klassifikationen sein. Somit kann also die Genauigkeit und Zuverlässigkeit des Fehlervorhersagemodells auf besonders einfache Weise verbessert werden.
-
Zudem kann durch die Verwendung des bereits für das Segmentierungsmodell trainierten Encoders für das Fehlervorhersagemodell eine benötigte Trainings- und Inferenzzeit des Fehlervorhersagemodells signifikant reduziert werden, beispielsweise im Vergleich zur Verwendung eines von Grund auf neu für das Fehlervorhersagemodell trainierten Encoders. Der Encoder muss in der hier vorgeschlagenen Ausgestaltung der vorliegenden Erfindung also nur einmal trainiert werden.
-
Besonders vorteilhaft kann ein einziger Encoder oder Encoderblock sowohl für das Segmentierungsmodell als auch für das Fehlervorhersagemodell verwendet werden, wenn das Segmentierungsmodell und das Fehlervorhersagemodell beide als Teile der erfindungsgemäß bereitgestellten Einrichtung bereitgestellt werden. Der Encoder kann also geteilt sein (englisch: shared encoder), d. h. sowohl von dem oder als Teil des Segmentierungsmodells als auch von dem oder als Teil des Fehlervorhersagemodells verwendet werden. Von dem Encoder erzeugte, also nach diesem beim Verarbeiten der jeweiligen Bilddaten vorliegende Zwischenergebnisse, also teilweise verarbeitete Bilddaten, können dann in zwei verschiedenen Datenströmen den Decodern einerseits des Segmentierungsmodells und andererseits des Fehlervorhersagemodells zugeführt werden. Der besonders rechenintensive Encoder muss also auf diese Weise nur einmal trainiert und beim Verarbeiten der Bilddaten nur einmal durchlaufen oder evaluiert werden. Im Gegensatz dazu kann der Decoder des Fehlervorhersagemodells mit relativ wenig Rechenaufwand dazu trainiert werden, die von dem Encoder bereitgestellten oder ausgegebenen Zwischenergebnisse auf eine Fehlerklassifizierung oder eine korrekte Klassifizierung für jeden Pixel abzubilden. Insgesamt können in der hier beschriebenen Art und Weise also Zeit- und Rechenaufwand eingespart und bessere Ergebnisse, also eine bessere Performance des Fehlervorhersagemodells bzw. der erfindungsgemäß bereitgestellten Einrichtung insgesamt erreicht werden.
-
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung wird als Teil der Einrichtung parallel zu dem Fehlervorhersagemodell ein ebenfalls zum Verarbeiten der Bilddaten eingerichtetes Schätzmodell bereitgestellt. Dieses Schätzmodell ist dabei zum outputbasierten Abschätzen einer Unsicherheit (englisch: Uncertainty) einer von dem Segmentierungsmodell beim Verarbeiten der Bilddaten erzeugten Segmentierung oder Klassifikation trainiert. Die Vorhersagen der Fehler beim Verarbeiten der Bilddaten durch das Segmentierungsmodell kann dann basierend auf jeweiligen Ergebnissen oder Ausgangsdaten sowohl des Fehlervorhersagemodells als auch des Schätzmodells erfolgen. Das Schätzmodell kann beispielsweise basierend auf einer Monte Carlo Dropout Methode (MC Dropout) zum Abschätzen einer absoluten Unsicherheit des Segmentierungsmodells trainiert sein bzw. einen Output des Segmentierungsmodells bewerten. Ebenso kann das Schätzmodell beispielsweise auf Basis tiefer Ensembles (englisch: deep ensembles) oder einer Detektion von Ausreißern (englisch: outlier detection) trainiert oder implementiert sein. Es hat sich gezeigt, dass durch eine derartige Kombination eines Schätzmodells und des introspektiven Fehlervorhersagemodells ein weiter verbessertes Ergebnis erreicht werden kann. Dies kann darauf zurückzuführen sein, dass die beschriebenen Schätzmodelle und die durch das Fehlervorhersagemodell implementierte introspektives Betrachtung komplementär arbeiten oder spezialisiert sind, also unterschiedliche Arten von Fehlern besonders zuverlässig erkennen oder vorhersagen können. Dadurch kann die Kombination des Schätzmodells mit dem introspektiven Fehlervorhersagemodell vorteilhaft sein, auch wenn - wie sich experimentell gezeigt hat - das introspektive Fehlervorhersagemodell individuell bessere Ergebnisse liefern kann als das Schätzmodell für sich allein genommen.
-
Ein weiterer Aspekt der vorliegenden Erfindung ist eine Einrichtung zum Vorhersagen von Fehlern eines Segmentierungsmodells beim Verarbeiten von Bilddaten. Die erfindungsgemäße Einrichtung weist eine Eingangsschnittstelle zum Erfassen der Bilddaten und ein damit gekoppeltes, gemäß dem erfindungsgemäßen Verfahren bereitgestelltes oder erzeugtes Fehlervorhersagemodell auf, das zum Verarbeiten der Bilddaten eingerichtet ist. Weiter weist die erfindungsgemäße Einrichtung eine mit dem Fehlervorhersagemodell gekoppelte Ausgangsschnittstelle zum Ausgeben von durch das Fehlervorhersagemodell durch Verarbeiten der Bilddaten erzeugten Ausgangs- oder Vorhersagedaten auf. Die erfindungsgemäße Einrichtung kann insbesondere die im Zusammenhang mit dem erfindungsgemäßen Verfahren genannte Einrichtung sein, also durch dieses Verfahren erzeugt oder bereitgestellt werden. Dementsprechend kann die erfindungsgemäße Einrichtung einige oder alle der im Zusammenhang mit dem erfindungsgemäßen Verfahren genannten Eigenschaften und/oder Merkmale aufweisen.
-
Die erfindungsgemäße Einrichtung kann beispielsweise als Datenverarbeitungseinrichtung ausgebildet sein. Die erfindungsgemäße Einrichtung kann also eine Prozessoreinrichtung und einen damit gekoppelten Datenspeicher aufweisen. Auf diesem Datenspeicher können das Fehlervorhersagemodell, gegebenenfalls das Segmentierungsmodell sowie gegebenenfalls ein diese umfassendes oder referenzierendes Computerprogramm gespeichert sein. Dieses Computerprogramm bzw. das Fehlervorhersagemodell sowie gegebenenfalls das Segmentierungsmodell können dann durch die Prozessoreinrichtung, also beispielsweise einen Mikroprozessor, Mikrochip oder Mikrocontroller oder eine Hardwareschaltung, zum Verarbeiten der Bilddaten bzw. zum Vorhersagen der dabei von dem Segmentierungsmodell gemachten Fehler ausgeführt werden.
-
In vorteilhafter Weiterbildung der vorliegenden Erfindung umfasst die Einrichtung auch ein vorgegebenes Schätzmodell, das zum outputbasierten Abschätzen einer Unsicherheit einer von dem Segmentierungsmodell beim Verarbeiten der Bilddaten erzeugten semantischen Segmentierung oder Klassifikation trainiert ist. Die erfindungsgemäße Einrichtung ist dabei dazu eingerichtet, zum Vorhersagen der Fehler des Segmentierungsmodells von dem Fehlervorhersagemodell und von dem Schätzmodell erzeugte Ergebnisse oder Vorhersagedaten, insbesondere mit gleicher Gewichtung, miteinander zu kombinieren. Beispielsweise können also von der Einrichtung automatisch alle Pixel als tatsächlich oder voraussichtlich fehlerhaft klassifiziert eingestuft werden, die entsprechend von dem Fehlervorhersagemodell als fehlerhaft klassifiziert vorhergesagt wurden und/oder für die das Schätzmodell, etwa als Teil seiner Vorhersagedaten, eine oberhalb eines vorgegebenen Schwellenwertes liegende Unsicherheit bzw. eine unterhalb eines vorgegebenen Schwellenwertes liegende Zuverlässigkeit oder Verlässlichkeit bestimmt hat. Ebenso kann sowohl von dem Fehlervorhersagemodell als auch von dem Schätzmodell für jeden Pixel ein Wert (Score) oder eine Bewertung erzeugt werden, die dann miteinander kombiniert, beispielsweise aufaddiert werden können, um ein letztliches Ergebnis für die Fehlervorhersage zu bestimmen, das dann von der Einrichtung bereitgestellt oder ausgegeben werden kann. Dazu kann ebenso ein Schwellenwert für den erzeugten bzw. kombinierten Wert vorgegeben sein, anhand welchem dann automatisch das letztliche Ergebnis der Fehlervorhersage pixelweise bestimmt werden kann. Damit lässt sich wie bereits angedeutet insgesamt eine weiter verbesserte Genauigkeit und Zuverlässigkeit der Einrichtung, also der Vorhersage oder Bestimmung fehlerhafter Klassifikationen erreichen, da outputbasierte Methoden und introspektive Methoden unterschiedliche Stärken aufweisen können.
-
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Kraftfahrzeug, das eine Umgebungssensorik zum Aufnehmen von Bilddaten, die eine jeweilige Umgebung des Kraftfahrzeugs abbilden, aufweist. Das erfindungsgemäße Kraftfahrzeug weist weiter ein Assistenzsystem zum zumindest teilautomatisierten Ausüben einer Fahrfunktion oder einer Fahrzeugfunktion des Kraftfahrzeugs auf. Dieses Assistenzsystem umfasst dabei ein Segmentierungsmodell zum Erzeugen einer pixelgenauen semantischen Segmentierung der Bilddaten und eine erfindungsgemäße Einrichtung zum Erzeugen einer Fehlervorhersage für die von dem Segmentierungsmodell erzeugte Segmentierung oder Klassifikation. Das Segmentierungsmodell kann dabei eine eigene Einrichtung oder Teil der Einrichtung zum Erzeugen der Fehlervorhersage sein. Das erfindungsgemäße Kraftfahrzeug kann insbesondere das im Zusammenhang mit den übrigen Aspekten der vorliegenden Erfindung, also im Zusammenhang mit dem erfindungsgemäßen Verfahren und/oder der erfindungsgemäßen Einrichtung, genannte Fahrzeug sein, also die entsprechenden genannten Eigenschaften und/oder Merkmale zumindest teilweise aufweisen.
-
Weitere Merkmale der Erfindung können sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung ergeben. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.
-
Die Zeichnung zeigt in der einzigen Figur eine schematische Darstellung eines Kraftfahrzeugs mit einer Einrichtung zur verbesserten Umgebungserkennung.
-
Robotische visuelle Wahrnehmung ist eine wichtige Herausforderung in vielen technischen Gebieten. Damit ein Roboter weiß, wohin er sich bewegen kann oder damit ein autonomes Fahrzeug weiß, wohin es fahren kann, kann ein semantisches Verständnis einer Umgebung oder Szene von besonderer Bedeutung sein. Damit wird es möglich, automatisch zu identifizieren, welche Teile der Umgebung sicherheitskritisch sind oder sein können, wie etwa Fußgänger in einer Umgebung eines Fahrzeugs oder eines Roboters.
-
Ein Ansatz zur Lösung dieser Aufgabe stellt die semantischen Bildsegmentierung dar, bei der eine Klassenzugehörigkeit für individuelle Pixel für vorgegebene Objektklassen vorhergesagt wird. Im Zuge der technischen Entwicklung wurden bereits entsprechende Modelle entwickelt, die diese Aufgabe mit relativ hoher Genauigkeit lösen können und dabei hinsichtlich ihres Ressourcenbedarfs genügsam genug sind, um auch in mobilen Systemen eingesetzt zu werden. Trotz der erreichten Verbesserungen machen entsprechende Modelle jedoch unvermeidlich noch Fehler. Bisher lag der Fokus der Forschung und der technischen Entwicklung auf der Verbesserung der Genauigkeit der Klassifizierung. Es kann jedoch ebenso hilfreich sein, entsprechende Fehler bei der Segmentierung oder Klassifizierung vorherzusagen. Beispielsweise ist es für sicherheitskritische Anwendungen wie etwa das autonome Fahren wichtig zu wissen, welche Klassifikationen in gegebenen Bildern oder Bilddaten vertrauenswürdig oder verlässlich sind.
-
Die einzige Figur zeigt dazu eine schematische Darstellung eines Kraftfahrzeugs 10 mit einer Umgebungssensorik 12 zum optischen oder visuellen Erfassen einer jeweiligen Umgebung. Dazu kann die Umgebungssensorik 12 beispielsweise eine oder mehrere optische Kameras umfassen. Das Kraftfahrzeug 10 weist hier weiter eine Assistenzeinrichtung 14 sowie ein Aggregat 16 auf. Das Aggregat 16 kann hier schematisch eine nahezu beliebige technische Einrichtung des Kraftfahrzeugs 10 repräsentieren, insbesondere eine Einrichtung für einen autonomen oder teilautonomen Betrieb des Kraftfahrzeugs 10 oder zum automatisierten Ausüben einer Fahrfunktion oder einer Fahrzeugfunktion des Kraftfahrzeugs 10.
-
Die Umgebungssensorik 12, die Assistenzeinrichtung 14 und das wenigstens eine Aggregat 16 sind hier schematisch über ein Bordnetz 18 miteinander gekoppelt. Über das Bordnetz 18 können beispielsweise Daten, Sensor- und Steuersignale oder dergleichen mehr übertragen werden.
-
Die Assistenzeinrichtung 14 dient vorliegend zum Unterstützen eines zumindest teilweise automatisierten Betriebs des Kraftfahrzeugs 10. Insbesondere ist die Assistenzeinrichtung 14 hier zum Verarbeiten von durch die Umgebungssensorik 12 erfassten und bereitgestellten Umgebungs- oder Bilddaten eingerichtet. Dazu weist die Assistenzeinrichtung 14 eine Schnittstelle 20 für einen Empfang und ein Aussenden entsprechender Daten oder Signale auf. Weiter umfasst die Assistenzeinrichtung 14 einen Prozessor 22 und einen damit verbundenen Datenspeicher 24. In dem Datenspeicher 24 ist vorliegend ein durch den Prozessor 22 ausführbares Betriebsprogramm der Assistenzeinrichtung 14 hinterlegt. Dieses umfasst insbesondere ein Segmentierungsmodell 26 zum automatischen Erstellen einer pixelweisen semantischen Segmentierung der Bilddaten, ein Fehlervorhersagemodell 28 zum pixelweisen Vorhersagen von Fehlern oder Fehlklassifikationen des Segmentierungsmodells 26 anhand der Bilddaten und ein Schätzmodell 30 zum - insbesondere pixelweisen - outputbasierten Vorhersagen oder Abschätzen einer Unsicherheit des Segmentierungsmodells 26 bzw. der von diesem erzeugten semantischen Segmentierung oder Klassifikation.
-
Das Segmentierungsmodell 26 erzeugt eine pixelweise Klassifikation der Bilddaten nach vorgegebenen semantischen Klassen. So kann beispielsweise ein bestimmter Pixel als Teil eines Fußgängers, eines Fremdfahrzeug, einer Fahrbahnoberfläche, eines statischen Umgebungshindernisses oder dergleichen mehr klassifiziert werden. Entsprechende Modelle, beispielsweise entsprechend trainierte neuronale Netze, wurden über die letzten Jahre bereits entwickelt. Es ist eine vorliegende Erkenntnis, dass solche Modelle oder deren Fähigkeiten auch dazu genutzt werden können, pixelweise Fehlervorhersagen zu gewinnen. Dies kann es erlauben, zu bestimmen, welche Teile der Bilddaten bzw. eines Bildes problematisch sind, anstatt beispielsweise das jeweilige gesamte Bild zu verwerfen, wenn ein Fehler oder eine zu große Unsicherheit für dessen semantische Segmentierung vorhergesagt wurde.
-
Es gibt mehrere Ansätze oder Möglichkeiten, um vorherzusagen, wann das Segmentierungsmodell 26 voraussichtlich einen Fehler machen wird, beispielsweise verschiedene Methoden zur Abschätzung der Unsicherheit oder eine Detektion von Ausreißern oder hinreichend neuen oder ungewöhnlichen Daten. Eine relativ große abgeschätzte Unsicherheit kann als entsprechend große Fehlerwahrscheinlichkeit interpretiert werden. Eine bayessche Methode zur Abschätzung der Unsicherheit für künstliche neuronale Netze basiert auf Monte Carlo Dropouts. Dabei kann eine Ergebnis- oder Ausgabeverteilung abgeschätzt werden, in dem Dropouts während der testweisen Datenverarbeitung aktiviert gehalten werden und mehrere Vorhersagen mit verschiedenen Dropout-Masken gesampelt werden. Eine Varianz der resultierenden Ausgabeverteilung kann als Unsicherheitsmaß verwendet werden. Diese Methode kann für alle Netzwerkarchitekturen mit Dropout-Schichten angewendet und beispielsweise für die semantischen Segmentierung verwendet werden.
-
Ebenso kann ein gegebenenfalls schnellerer oder besser für Echtzeitanwendungen geeigneterer nicht-bayesscher Ansatz in Form von tiefen Ensembles verwendet werden. Dabei wird ein Modell, hier beispielsweise des Schätzmodell 30, mehrere Male mit unterschiedlichen Initialisierungen trainiert. Unterschiede oder Unstimmigkeiten zwischen den Vorhersagen der resultierenden entsprechend unterschiedlichen Modelle können dann als oder zur Vorhersage der Unsicherheit verwendet werden. Dieser Ansatz kann mehr Trainingsaufwand als Monte Carlo Dropout benötigen, aber vorteilhaft weniger Inferenzaufwand erfordern.
-
Für den auf der Detektion von neuen bzw. zu unterschiedlichen Daten oder Ausreißern basierenden Ansatz kann davon ausgegangen werden, dass Bilddaten, die sich zu sehr von zum Trainieren des Segmentierungsmodells 26 verwendeten Basistrainingsbilddaten unterscheiden, voraussichtlich von dem Segmentierungsmodell 26 nicht korrekt interpretiert werden.
-
Mit dem Fehlervorhersagemodell 28 wird hingegen ein Ansatz verfolgt, bei dem Fehler eines gegebenen Modells, hier des Segmentierungsmodells 26, detektiert bzw. vorhergesagt werden sollen - ohne dass dafür während der Inferenz ein jeweiliges Bild zunächst von dem Segmentierungsmodell 26 verarbeitet werden muss. Hier wird also der Ansatz der Introspektion für die pixelgenaue semantische Segmentierung von Bilddaten angewendet. Die Idee ist dabei, tatsächlich beobachtete Fehler des Segmentierungsmodells 26 als Trainingsdaten für das dedizierte Fehlervorhersagemodell 28 zu verwenden, das für die Vorhersage oder Detektion voraussichtlicher Fehler des Segmentierungsmodells 26 spezialisiert ist. Das introspektives Fehlervorhersagemodell 28 ist also dazu trainiert, visuelle Merkmale zu finden, die einen voraussichtlichen Fehler oder ein voraussichtliches Versagen des Segmentierungsmodells 26 anzeigen. Dies ist fundamental verschieden von den beschriebenen Ansätzen zur Abschätzung der Unsicherheit oder Konfidenz des Segmentierungsmodells 26 selbst, da dieses trotz einer geringen Unsicherheit, also eines hohen Konfidenzwertes falsch liegen kann. Das introspektive Fehlervorhersagemodell 28 verlässt sich hingegen nicht auf die eigene Wahrnehmung des Segmentierungsmodells 26, sondern lernt direkt von realen, also tatsächlich in der Vergangenheit von dem Segmentierungsmodell 26 gemachten Fehlern.
-
Im vorliegenden Ansatz werden durch das Fehlervorhersagemodell 28 Fehler nicht nur pauschal für ein bestimmtes Bild, sondern auf Pixelebene vorhergesagt. Da auch die von dem Segmentierungsmodell 26 durchgeführte semantische Segmentierung pixelweise Vorhersagen oder Klassifikationen erzeugt, ist damit ein nützliches Rahmenwerk zum Implementieren die pixelweisen Fehlervorhersage durch das Fehlervorhersagemodell 28 gegeben. Es wird hier so vorgeschlagen, die Ideen der Introspektion mit der semantischen Segmentierung auf Pixelniveau zu kombinieren. Damit können in der jüngeren Vergangenheit gemachte Fortschritte in der Segmentierungsgenauigkeit ausgenutzt werden, um auch eine genauere und detailliertere Fehlervorhersage zu erreichen.
-
Vorliegend wird durch das Fehlervorhersagemodell 28 also die Vorhersage von Fehlern bei der semantischen Segmentierung von Bilddaten durch das Segmentierungsmodell 26 auf Pixelebene ermöglicht. Das Fehlervorhersagemodell 28 wird dabei mit den Fehlern und Erfolgen, also mit falschen und korrekten Klassifizierungen des gegebenen Segmentierungsmodells 26 trainiert, die dieses beim Verarbeiten eines vorgegebenen Bilddatensatzes gemacht bzw. erzielt hat. Das resultierende Fehlervorhersagemodell 28 ist damit also dazu trainiert, vorherzusagen, wo in einem gegebenen Bild das Segmentierungsmodell 26 Fehler machen wird. Im Gegensatz zu herkömmlichen Ansätzen, die ein generelles Konfidenzmaß für ein Modell oder dessen Output, also Ergebnis- oder Ausgangsdaten verwenden, kann der vorliegende Ansatz, also das Fehlervorhersagemodell 28, lernen, Fehler spezifisch für die verwendete Methode, also das verwendete Segmentierungsmodell 26 unabhängig von dessen konkreter Implementierung oder Struktur zu detektieren oder vorherzusagen.
-
Für das Trainieren des Fehlervorhersagemodells 28 werden zunächst Trainingsdaten für das Fehlervorhersagemodell 28 erzeugt. Pixelgenau definierte Fehler, die von dem Segmentierungsmodell 26 beim Verarbeiten eines vorgegebenen Testdatensatzes von Bilddaten gemacht wurden, werden dann als Annotierungen, also als Ground Truth Labels verwendet, um das Fehlervorhersagemodell 28 zu trainieren. Die Trainingsdaten können also reguläre Bilddaten und entsprechende Fehlerkarten, die basierend auf den Vorhersagen des Segmentierungsmodells 26 gewonnen wurden, umfassen. Da es das Ziel ist, die Fehler des Segmentierungsmodells 26 beim Verarbeiten des Testdatensatzes, hier als Testfehler bezeichnet, vorherzusagen, wird das introspektives Fehlervorhersagemodell 28 mit diesen Testfehlern als Annotierungen oder Labels trainiert. Dazu wird ein ursprünglich bereitgestellter Trainingsdatensatz in zwei Teildatensätze aufgeteilt. Einer dieser Teildatensätze wird dann durch das Segmentierungsmodell 26 verarbeitet, um reale Fehler zu erhalten. Der andere Teildatensatz kann dann zum Testen sowohl des Segmentierungsmodells 26 als auch des trainierten introspektives Fehlervorhersagemodells 28 verwendet werden, da keines dieser Modelle 26, 28 die Daten dieses Teildatensatzes während des jeweiligen Trainings gesehen, also verarbeitet hat.
-
Das Segmentierungsmodell 26 kann beispielsweise mit einer Hälfte der bereitgestellten Trainingsdatensatzes trainiert werden. Dann wird das Segmentierungsmodell 26 verwendet, um semantische Segmentierungen, also semantische Labels für die andere Hälfte des Trainingsdatensatzes vorherzusagen. Unter Verwendung der verfügbaren bzw. vorgegebenen Ground Truth Labels werden dann Fehlerkarten für die zweite Hälfte des Trainingsdatensatzes berechnet. Dabei wird jedem Pixel eine binäre Annotation oder ein binäres Label, also beispielsweise entweder „Erfolg“ oder „Fehler“ bzw. „1“ oder „0“ oder dergleichen, zugewiesen. Das introspektives Fehlervorhersagemodell 28 wird dann mit der zweiten Hälfte des Trainingsdatensatzes und den so erzeugten binären Labeln trainiert.
-
Zum Testen des Fehlervorhersagemodells 28 können als regulärer Testdatensatz vorgesehene Bilddaten verwendet werden. Dazu werden zunächst unter Verwendung des Segmentierungsmodells 26 entsprechende Fehlerkarten gewonnen. Das Fehlervorhersagemodell 28 sagt dann pixelweise Bewertungen oder Fehlerwerte (englisch: error scores) für diesen Testdatensatz vorher. Die so von dem Fehlervorhersagemodell 28 vorhergesagten Fehler werden dann mit den tatsächlichen unter Verwendung des Segmentierungsmodells 26 erzeugten Fehlerkarten verglichen, um die Performance des Fehlervorhersagemodells 28 zu evaluieren.
-
Das Fehlervorhersagemodell 28 kann zwar für sich genommen dazu verwendet werden, die Fehler des Segmentierungsmodells 26 vorherzusagen. Vorliegend wird das Fehlervorhersagemodell 28 aber mit dem Schätzmodell 30 kombiniert. Das Schätzmodell 30 kann beispielsweise einen der anderen beschriebenen Ansätze, also beispielsweise MC Dropout, tiefe Ensembles oder Ausreißer-Detektion, verwenden. Durch diese Kombination kann eine weiter verbesserte Genauigkeit und Zuverlässigkeit bei der Fehlervorhersage erreicht werden.
-
Das Fehlervorhersagemodell 28 und das Segmentierungsmodell 26 können hier einen gemeinsamen Encoder verwenden. Die Anwendung des Fehlervorhersagemodells 28 beim Verarbeiten der jeweiligen Bilddaten erfordert dann also vorteilhaft nur einen zusätzlichen Inferenzdurchlauf eines Decoders des Fehlervorhersagemodells 28. Dieser wird zwar wie beschrieben zunächst mit Fehlerkarten trainiert, ist dann in der Anwendung, also zur Inferenzzeit, eine der schnellsten und ressourcenschonendsten Fehlervorhersagemethoden, die derzeit verfügbar sind. Dies macht die Kombination der introspektive Fehlervorhersage mittels des Fehlervorhersagemodells 28 mit dem herkömmlichen Schätzmodell 30 zu einem besonders vorteilhaften und vielversprechenden Ansatz, da zur Anwendungs- oder Inferenzzeit durch die zusätzliche Anwendung des Fehlervorhersagemodells 28 kein signifikanter zusätzlicher Aufwand entsteht.
-
Mittels der Assistenzeinrichtung 14 kann also eine besonders genaue und zuverlässige oder zuverlässig bewertete computergestützte Umgebungserkennung realisiert werden. Basierend darauf kann dann beispielsweise das Aggregat 16 bzw. das Kraftfahrzeug 10 ganz oder teilweise autonom oder automatisiert gesteuert werden.
-
Insgesamt zeigen die beschriebenen Beispiele wie eine pixelweise Fehlervorhersage für die semantische Bildsegmentierung implementiert werden kann.
-
Bezugszeichenliste
-
- 10
- Kraftfahrzeug
- 12
- Umgebungssensorik
- 14
- Assistenzeinrichtung
- 16
- Aggregat
- 18
- Bordnetz
- 20
- Schnittstelle
- 22
- Prozessor
- 24
- Datenspeicher
- 26
- Segmentierungsmodell
- 28
- Fehlervorhersagemodell
- 30
- Schätzmodell
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 112019000048 T5 [0005]