DE102022204295A1

DE102022204295A1 - Verfahren zum Trainieren und Betreiben eines Transformationsmoduls zur Vorverarbeitung von Eingaberecords zu Zwischenprodukten

Info

Publication number: DE102022204295A1
Application number: DE102022204295.6A
Authority: DE
Inventors: Jens Eric Markus Mehnert
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-05-02
Filing date: 2022-05-02
Publication date: 2023-11-02

Abstract

Verfahren 1000 zum Trainieren eines Transformationsmoduls TKM für die Vorverarbeitung von Eingaberecords 42 zu Zwischenprodukten 44, die für eine weitere Auswertung im Hinblick auf eine vorgegebene Aufgabe vorgesehen sind, das Verfahren aufweisend die Schritte:- Bereitstellen 101 einer Menge von Transformations-Trainings-Records 1,- Erzeugen 102 von Abwandlungen 2 der Transformations-Trainings-Records 1 durch Anwendung zumindest einer Datenaugmentierungsmethode auf die Transformations-Trainings-Records 1,- Verarbeiten 103 der Abwandlungen 2 der Transformations-Trainings-Records 1 zu Zwischenprodukten 3 mit dem Transformationsmodul,- Bewerten 104 von Abweichungen zwischen den Zwischenprodukten 4 und den jeweiligen Transformations-Trainings-Records 1 mit einer vorgegebenen Transformations-Kostenfunktion, und- Optimieren 105 von Parametern, die das Verhalten des Transformationsmoduls charakterisieren, auf das Ziel, dass bei weiterer Verarbeitung 103 von Abwandlungen 2 durch das Transformationsmodul die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Trainieren sowie ein Verfahren zum Betreiben eines Transformationsmoduls, welches der Vorverarbeitung von Eingaberecords zu Zwischenprodukten dient, wobei letztere für eine weitere Auswertung hinsichtlich einer vorgegebenen Aufgabe vorgesehen sind. Die Erfindung betrifft auch ein Verfahren zum Trainieren und ein Verfahren zum Anwenden des Transformationsmoduls in Kombination mit einem Task-Modul, wobei letzteres für die Auswertung hinsichtlich der vorgegebenen Aufgabe vorgesehen ist. Die Erfindung betrifft auch ein eines der vorgenannten Verfahren implementierendes Computerprogramm, einen maschinenlesbaren Datenträger mit einem solchen Computerprogramm sowie einen oder mehrere Computer aufweisend das vorgenannte Computerprogramm.
Stand der Technik
In Kl-Methoden (künstliche Intelligenz-Methoden) finden DatenAugmentierungsmethoden Anwendung, um auf relativ kostengünstige Weise die Anzahl der zur Verfügung stehenden Trainings-Beispiele zu erhöhen. Beispielsweise hängt die Generalisierungsfähigkeit eines Klassifikationssystems in hohem Maße von der Menge und Variabilität der für das Training verwendeten Trainings-Beispiele ab. In einem solchen Kontext wird unter anderem das Spiegeln von Records (z.B. Bildern) genutzt, wodurch zwar die Anzahl der anschließend in einem Training beispielsweise eines KI-Klassifikationssystems zur Verfügung stehenden Records zumindest verdoppelt werden kann, durch ein solches Vorgehen jedoch Schwierigkeiten hinsichtlich gängiger Identifikationsmethoden in den Records entstehen können. Handelt es sich bei den Records z.B. um Bilder, so weist beispielsweise ein gespiegeltes Bild mit einem Auto ein gespiegeltes Nummernschild auf, so dass ein Nummernschild in einem KI-Verfahren u.U. nicht mehr als ein Erkennungsmerkmal eines Fahrzeugs verwendet werden kann. Ein solcher Fall kann beispielsweise die Fahrzeugerkennung erheblich verkomplizieren.
Offenbarung der Erfindung
Es wurde erkannt, dass das Training eine Task-Moduls für die Auswertung von Records vereinfacht werden kann, indem sowohl beim Training als auch im späteren Wirkbetrieb die Records vor der Eingabe in das Task-Modul zuerst vorvereinfacht werden. Dieses Vorvereinfachen ist darauf gerichtet, die Variabilität der Eingaberecords, mit der das Task-Modul fertig werden muss, zu reduzieren. Die Aufgabe des Task-Moduls, im kompletten Raum aller möglichen Eingaberecords Lösungen für seine vorgegebene Task zu liefern, schrumpft also auf die Aufgabe, Lösungen nur in einem deutlich kleineren Unterraum von Eingaberecords zu liefern. Wenn aber die Aufgabe des Task-Moduls weniger schwierig ist, wird auch das Training weniger aufwändig.
Bei den Records kann es sich allgemein um Datensätze handeln, welche (Messdaten-) Aufzeichnungen, (Video-) Bilder oder Audio-Aufnahmen umfassen können. Aus diesen Datensätzen sollen mit Hilfe von Kl-Methoden Informationen gewonnen bzw. aufbereitet werden, um daraus Handlungsanweisungen oder auszuführende Aktionen ableiten zu können. Z.B. können Records durch Temperatur-Zeitreihen in der Meteorologie oder auch der Klimaforschung gegeben sein. Eine Auswertung derartiger Record kann beispielsweise Erkenntnisse über meteorologische bzw. klimatische Wirkzusammenhänge liefern oder auch unmittelbar den Anlass liefern, ein Unwetterwarnsystem auszulösen. Records können auch Bilder sein, beispielsweise Fotos und/oder Video-Bilder, welche durch ein Bildgebungssystem im Zusammenhang des autonomen Fahrens von einem Fahrzeug gewonnen werden, und welche im Hinblick auf eine durch das Fahrzeug auszuführende Aktion ausgewertet werden. Records können auch durch (eine entsprechende Vielzahl von) Radar-, Lidar- oder Ultraschallbildern gegeben sein. Entsprechende Records - Datensätze bzw. Datenreihen - treten beispielsweise im Zusammenhang der automatisierten Steuerung von Fahrzeugen oder Robotern im Bergbau auf. Auch im Falle robotergestützter Operationen in der Medizin können entsprechende Records aus z.B. Ultraschall- und/oder Röntgenbildern aufgezeichnet und mittels Kl-Methoden in Hinblick auf (als nächstes auszuführende) Operationsschritte ausgewertet werden.
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Transformationsmoduls entwickelt. Letzteres dient dabei der Vorverarbeitung von Eingaberecords zu Zwischenprodukten, welche für eine weitere Auswertung im Hinblick auf eine vorgegebene Aufgabe vorgesehen sind. Das Verfahren zum Trainieren des Transformationsmoduls weist dabei zumindest die im Folgenden beschriebenen Schritte auf. Es wird zunächst eine Menge von Transformations-Training-Records bereitgestellt. Wie oben ausgeführt, kann es sich bei den Bildern beispielsweise um Fotos, Video-Bilder, Radar-, Lidar- oder Ultraschallbilder handeln, jedoch auch um Datensätze wie etwa eine Temperatur-Zeitreihe. Durch Anwendung zumindest einer Daten-Augmentierungsmethode auf die Transformations-Trainings-Records werden in einem nächsten Schritt Abwandlungen der Transformations-Training-Records erzeugt. Letztere Abwandlungen der Transformations-Trainings-Records werden daraufhin mit dem Transformationsmodul zu Zwischenprodukten verarbeitet. Unter Nutzung einer vorgegebenen Transformations-Kostenfunktion werden in einem nächsten Schritt die Abweichungen zwischen den Zwischenprodukten und den jeweiligen Transformations-Trainings-Records bewertet. Im Anschluss werden das Verhalten des Transformationsmoduls charakterisierende Parameter optimiert, und zwar auf das Ziel hin, dass bei einer weiteren bzw. neuerlichen Verarbeitung von Abwandlungen durch das Transformationsmodul die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.
Damit wird das Transformationsmodul dazu angelernt, eine Vielzahl von Eingaberecords auf ein und dasselbe Zwischenprodukt abzubilden. Mit anderen Worten, lernt das Trainingsmodul eine surjektive Abbildung von Records des ursprünglichen Record-Raumes (also z.B. des ursprünglichen Bildraumes für den Fall, dass die Records durch Bilder gegeben sind) auf jeweils ein Zwischenprodukt in einem Unterraum dieses Record-Raumes. Das durch die surjektive Abbildung erhaltene Zwischenprodukt kann daraufhin z.B. als eine Eingabe an bspw. ein Netz zur semantischen Segmentierung weitergereicht werden. Die Aufgabe dieses Netzes vereinfacht sich damit erheblich. Insbesondere kann das Transformationsmodul dazu angelernt werden, eine surjektive Abbildung in einen Unterraum von „realen“ Records durchzuführen. Unter einem „realen“ Bild kann dabei z.B. ein nicht-synthetisches, nicht verzerrtes, nicht unscharfes Bild verstanden werden, dessen weitere Bearbeitung durch ein Netz zur semantischen Segmentierung ohne Schwierigkeiten aufgrund einer guten Bildqualität dieses „realen“ Bildes möglich ist. Insbesondere kann das Netz zur semantischen Segmentierung bei vorgeschalteter Nutzung eines Transformationsmoduls mit den oben und im folgenden beschriebenen Eigenschaften ausschließlich mit nicht-augmentierten Records, d.h. z.B. Bildern der „realen Welt“, welche nicht synthetisch erzeugt oder etwa gespiegelt sind, trainiert und betrieben werden. Dies bietet den großen Vorteil einer Rechtssicherheit, da das möglicherweise im Zusammenhang der Herbeiführung sicherheitskritischer Aktionen verwendete Netz zur semantischen Segmentierung beispielsweise mit einem vorgegebenen Katalog realer Records trainiert werden kann, der Bestandteil der sicherheitstechnischen Abnahme ist. Ein weiterer Vorteil des Trainings und der darauffolgenden Nutzung eines oben und im folgenden beschriebenen Transformationsmoduls besteht darin, dass aufgrund der durch das Transformationsmodul ausgeführten surjektiven Abbildung eines Eingaberecords auf ein Zwischenprodukt, welches im Eingaberaum des Netzes zur semantischen Segmentierung liegt, letzteres Netz bei gleichbleibender Größe hinsichtlich seiner Segmentierungsqualität verbessert werden kann, oder aber bei gleichbleibender Segmentierungsqualität die Größe dieses Netzes reduziert werden kann. Damit ergeben sich Sicherheitsvorteile und/oder Kostenersparnisse.
Das vorstehend und im folgenden beschrieben Transformationsmodul kann nicht nur in Kombination mit einem Netz zur semantischen Segmentierung, sondern auch mit anderen/weiteren Algorithmen verwendet werden. Ein ebenfalls hervorzuhebender Vorteil des Transformationsmoduls besteht darin, dass sein Training ausschließlich auf nicht annotierten Records stattfinden kann. Letzteres reduziert einen Zeit- und Kostenaufwand, welcher mit der Erstellung annotierter Records, beispielsweise also annotierter Bilder, für das Training eines nachgeschalteten Task-Moduls auf seine vorgesehene Aufgabe (Task) einhergeht.
Auch die Integration synthetischer Daten wird mittels des vorgeschlagenen Transformationsmoduls vereinfacht, in dem das trainierte Transformationsmodul dazu angelernt ist, z.B. ein synthetisches Bild auf ein „reales“ Bild abzubilden, so dass an das Transformationsmodul angeschlossene Algorithmen das synthetische Bild nicht mehr „sehen“.
Gemäß einer beispielhaften Ausführungsform wird in oben beschriebenem Verfahren zum Trainieren eines Transformationsmoduls eine Datenaugmentierungsmethode gewählt, die in den Abwandlungen der Transformations-Trainings-Records gegenüber den Transformations-Trainings-Records selbst mindestens einen vorgegebenen Qualitäts-Aspekt verändert, also beispielsweise einen Aspekt der Bildqualität. Auf diese Weise wird das Transformationsmodul dazu angelernt, Unterschiede in der (Bild-) Qualität zwischen Eingaberecords einzuebnen. Beim nachgeschalteten Task-Modul kommt also immer eine im Wesentlichen gleichbleibende (Bild-) Qualität an.
Handelt es sich bei den Records um Bilder, kann der vorgenannte vorgegebene Aspekt der Bildqualität beispielsweise zumindest eine der Qualitäten Schärfe, Farben, Farbenvielfalt, Färbung von im Bild dargestellten Objekten, Kontrast und Helligkeit umfassen.
Gemäß einer beispielhaften Ausführungsform umfasst die im Rahmen des Verfahrens angewandte Datenaugmentierungsmethode im Falle von Bildern mindestens eine der Methoden Rauscherhöhung, Erhöhung der Schärfe, Verringerung der Schärfe, Erhöhung oder Einführung einer Bewegungsunschärfe, Weichzeichnen, Weichzeichnen des Hintergrundes, Rotieren des Trainings-Bildes, Umfärben von im Bild dargestellten Objekten in eine andere Farbe, Umwandlung in ein synthetisches Bild, und Umwandlung in ein synthetisches Bild mittels style transfer. Auf diese Weise wird das Transformationsmodul dazu angelernt, die Ausgabe eines nachgeschalteten Task-Moduls invariant gegen derartige Veränderungen in Eingaberecords (d.h. hier Eingabebildern) zu machen.
Gemäß einer beispielhaften Ausführungsform umfasst das vorstehend beschriebene Verfahren des Weiteren die im Folgenden beschriebenen Schritte. Es wird ein trainierbares Task-Modul bereitgestellt, das für die weitere Auswertung von Zwischenprodukten im Hinblick auf die vorgegebene Aufgabe ausgebildet ist. Weiterhin wird eine Menge von Task-Trainings-Records bereitgestellt, welche mit Soll-Ausgaben im Hinblick auf die vorgegebene Aufgabe gelabelt sind. In einem weiteren Verfahrensschritt werden die Task-Trainings-Records mittels des trainierten Transformationsmoduls zu Zwischenprodukten verarbeitet. Letztere Zwischenprodukte können daraufhin mit dem Task-Modul zu Ausgaben im Hinblick auf die vorgegebene Ausgabe verarbeitet werden. Damit liegen an diesem Punkt zum einen Ausgaben vor, welche jeweils durch eine aufeinanderfolgende Verarbeitung eines Task-Trainings-Records durch das Transformationsmodul und das Task-Modul erhalten worden sind. Zum anderen ist jedem der Task-Trainings-Records eine Soll-Ausgabe im Hinblick auf die vorgegebene Aufgabe als Annotation (auch Label genannt) zugeordnet. Eine Ausgabe und eine Soll-Ausgabe beziehen sich damit jeweils stets auf ein bestimmtes Task-Trainings-Record, bzw. - in anderen Worten - eine Ausgabe und eine Soll-Ausgabe korrespondieren jeweils zueinander. Mittels einer vorgegebenen Task-Kostenfunktion kann nun jeweils eine Bewertung von Abweichungen durchgeführt werden, welche zwischen einer gegebenen Ausgabe und ihrer korrespondierenden Soll-Ausgabe bestehen. In einem weiteren Schritt werden das Verhalten des Task-Moduls charakterisierende Parameter optimiert, und zwar auf das Ziel hin, dass bei einer weiteren Verarbeitung von Zwischenprodukten, welche aus Task-Trainings-Records erzeugt wurden, die vorgenannte Bewertung durch die Task-Kostenfunktion voraussichtlich verbessert wird.
Bei dem Task-Modul kann es sich beispielsweise um ein Netz zur semantischen Segmentierung handeln. Es kann sich auch um ein Modul handeln, welches neben dem Netz zur semantischen Segmentierung weitere Algorithmen, beispielsweise zum Ausführen einer Aktion oder Aufgabe, umfasst.
Eine vorgegebene Aufgabe kann beispielsweise in der Erkennung und entsprechenden Kennzeichnung von Elementen auf einem Foto oder Video-Bild bestehen, welches eine typische Straßensituation zeigt. Dabei können z.B. andere Fahrzeuge, Passanten, Radfahrer, Verkehrszeichen, Fahrbahnmarkierungen und -begrenzungen sowie Bäume und Himmel bzw. anderweitiger Hintergrund erkannt und entsprechend gekennzeichnet/annotiert werden.
Eine vorgegebene Aufgabe kann andererseits beispielsweise auch in der Erkennung und Bewertung von Charakteristika in Temperatur-Zeitreihen, Niederschlags-Zeitreihen, Daten zum Bewölkungsgrad und/oder den gemessenen Windstärken in bestimmten Regionen eines Landes/ Kontinents oder Meeres bestehen. In diesem Fall können Charakteristika, welche auf die Entstehung z.B. eines (lokalen) Unwetters/Sturms oder einer Flut hindeuten, identifiziert werden und entsprechende, in diesem Zusammenhang relevante Datenpunkte bzw. -sätze markiert werden.
Ein entscheidender Vorteil hinsichtlich Zeit- und Kostenaufwand eines oben und im folgenden beschriebenen Verfahrens besteht darin, dass ein Großteil des Trainings mit nicht annotierten Daten durchgeführt werden kann, nämlich das Training des Transformationsmoduls. Bezogen auf den Fall von Bildern als Records, kann das Transformationsmodul im Zuge des Trainings insbesondere beispielsweise angelernt werden, eine bestimmte Klasse von Objekten, die auf den Eingaberecords (also Eingabebildern) dargestellt sind, in den ausgegebenen Zwischenprodukten (d.h. Zwischenbild) einheitlich einzufärben. Z.B. kann das Transformationsmodul trainiert werden, alle Fahrzeuge eines Eingabebildes im ausgegebenen Zwischenbild als einheitliche blaue Fahrzeuge darzustellen. Dadurch wird die Variabilität der Daten, die das Task-Modul im Anschluss „sieht“, bezüglich eines oder mehrerer Aspekte reduziert. Im Training des Task-Moduls ist damit die Variabilität der benötigten annotierten Daten bereits reduziert. So müssen dem Task-Modul etwa nicht mehr Task-Trainings-Bilder mit Fahrzeugen aller Farben präsentiert werden, sondern nur noch Task-Trainings-Bilder mit blauen Fahrzeugen, da Fahrzeuge mit anderen Farben durch das Transformationsmodul auf „blau“ umgesetzt werden.
Gemäß einer weiteren beispielhaften Ausführungsform können in dem zuvor beschriebenen Verfahren die Task-Trainings-Records einem trainierbaren Steuerungsmodul zugeführt werden und von dem Steuerungsmodul auf mindestens eine Augmentierungsanweisung abgebildet werden. Aus den Task-Trainings-Records werden daraufhin Abwandlungen erzeugt, und zwar durch Anwenden zumindest einer Datenaugmentierungsmethode nach Maßgabe der vorgenannten Augmentierungsanweisung. Schließlich werden diese Abwandlungen anstelle der Task-Trainings-Records zu den Zwischenprodukten verarbeitet. Letztere Zwischenprodukte werden daraufhin dem Task-Modul zugeführt und mittels letzterem zu Ausgaben verarbeitet. Auf diese Weise wird das System end-to-end dazu angelernt, in den Task-Trainings-Records (und späteren Eingaberecords) bestimmte Aspekte herauszuarbeiten. Beispielsweise kann der Kontrast eines Bildes verstärkt werden, um ähnliche Objekte besser voneinander unterscheidbar zu machen. Hierbei stellt das Transformationsmodul sicher, dass eine solche Kontrastverstärkung dem Task-Modul keine Records zuführt, auf deren Verarbeitung es nicht trainiert ist.
Beispielsweise können Parameter, die das Verhalten des Steuerungsmoduls charakterisieren, auf das Ziel hin optimiert werden, dass die Bewertung durch die Task-Kostenfunktion voraussichtlich verbessert wird. Das System kann also etwa lernen, auf jedes Eingabebild diejenige Verarbeitung anzuwenden, die zu klassifizierende Objekte besser erkennbar macht. Dies kann insbesondere beispielsweise auch als „Add-On“ zu einem bereits fertig trainierten Task-Modul realisiert werden. Das heißt, bei festgehaltenen Parametern des Task-Moduls können die Parameter des Steuerungsmoduls dahingehend optimiert werden, dass das Task-Modul aus den nach Maßgabe des Steuerungsmoduls aufbereiteten Records letztendlich das Beste machen kann.
Gemäß einem weiteren Ausführungsbeispiel kann ein vorstehend beschriebenes Verfahren um die folgenden Schritte erweitert werden. Es werden in einem Verfahrensschritt mit mindestens einem Sensor aufgenommene Eingaberecords bereitgestellt. Mit einem zuvor beschriebenen, trainierten Trainingsmodul werden diese Eingaberecords zu Zwischenprodukten verarbeitet. Diese Zwischenprodukte werden daraufhin zu Ausgaben im Hinblick auf die vorgegebene Aufgabe verarbeitet, wobei dies mittels des trainierten Task-Moduls durchgeführt wird. Daraufhin wird ein Ansteuersignal aus der Ausgabe des Task-Moduls erzeugt und ein technisches System mit dem Ansteuersignal angesteuert.
Als ein technisches System kann beispielsweise ein Fahrzeug, ein System für die Überwachung bestimmter Bereiche, ein System zur Qualitätskontrolle und/oder ein System zur medizinischen Bildgebung gewählt werden. Auch ein System zur Auslösung einer (Un-)Wetterwarnung kann als technisches System gewählt werden.
Bezieht sich das technische System auf ein Fahrzeug, so kann das Ansteuersignal dazu ausgebildet sein, das Einleiten einer Bremsung, das Einleiten einer Beschleunigung, das Ansteuern des Lenksystems zur Einleitung einer Kurvenfahrt, das Ansteuern der Beleuchtung, das Ansteuern der Warnblinkanlage, und/oder das Ansteuern der Scheibenwischer als Aktion auszulösen.
Gemäß einem Ausführungsbeispiel kann das in allen vorgenannten und folgenden Ausführungsbeispielen auftretende Task-Modul dazu ausgebildet sein, eine semantische Segmentierung des Zwischenproduktes - in diesem Fall also eines Zwischenbildes -, und/oder eine auf dieser semantischen Segmentierung basierende Auswertung des Zwischenprodukts als Ausgabe zu liefern.
Gemäß einem Ausführungsbeispiel kann ein Raum, in den ein Generator eines Generative Adversarial Network, GAN, abbildet, als Raum der Zwischenrecords gewählt werden.
Weiterhin bezieht sich die Erfindung auf ein Computerprogramm mit maschinenlesbaren Anweisungen, welche, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der zuvor und im folgenden beschriebenen erfindungsgemäßen Verfahren auszuführen. Ebenfalls umfasst die Erfindung einen maschinenlesbaren Datenträger, auf welchem das vorstehende Computerprogramm gespeichert ist, sowie einen mit vorgenanntem Computerprogramm oder vorgenanntem maschinenlesbaren Datenträger ausgerüsteten Computer.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 ein Ausführungsbeispiel betreffend das Trainieren eines Transformationsmoduls;
2 eine weitere beispielhafte Ausführungsform betreffend ein Transformationsmodul und ein Task-Modul;
3 eine weitere beispielhafte Ausführungsform; sowie
4 eine beispielhafte Ausführungsform für den Betrieb eines technischen Systems mit einem Transformationsmodul und einem Task-Modul.

Die Beschreibung bezieht sich im Fall der nun näher diskutierten Ausführungsbeispiele auf den Fall, in dem die Records durch Bilder gegeben sind. Ein Eingaberecord ist in diesem Zusammenhang also ein Eingabebild und ein Zwischenprodukt ein Zwischenbild. In ähnlicher Weise ist im Falle der Ausführungsbeispiele ein Transformations-Trainings-Record durch ein Transformations-Trainings-Bild gegeben etc..
1 zeigt ein Ausführungsbeispiel eines Verfahrens 1000 zum Trainieren eines Transformationsmoduls, welches im anschließenden Betrieb der Vorverarbeitung von Eingabebildern zu Zwischenbildern dienen soll. Letztere Zwischenbilder sind dabei für eine weitere Verarbeitung durch ein weiteres Modul im Hinblick auf eine auszuführende Aufgabe vorgesehen. Bei dieser Aufgabe kann es sich z.B. um die semantische Segmentierung eines Bildes im Kontext des autonomen Fahrens handeln, mit dem Ziel, aus dem segmentierten Bild eine Handlungsanweisung für die Ausführung einer Aktion - z.B. Bremsen eines Fahrzeuges, Beschleunigen, Einleiten einer Kurvenfahrt, Korrigieren der Fahrspur etc. - zu gewinnen.
In einem ersten Verfahrensschritt 101 werden Transformations-Trainings-Bilder 1 bereitgestellt. Aus diesen werden in Schritt 102 Abwandlungen 2 erzeugt. Dies wird beispielsweise durch die Anwendung einer Datenaugmentierungsmethode auf die Transformations-Trainings-Bilder 1 gewährleistet. Gegenüber den Transformations-Trainings-Bildern 1 wird dabei jeweils mindestens ein vorgegebener Aspekt der Bildqualität verändert, wobei sich die Bildqualität zumindest auf die Qualitäten von zumindest einem der Aspekte Schärfe, Farben, Farbenvielfalt, Färbung von im Bild dargestellten Objekten, Kontrast und Helligkeit bezieht. Die Datenaugmentierungsmethode kann damit eine oder eine Kombination der folgenden Methoden umfassen: Rauscherhöhung, Erhöhung der Schärfe, Verringerung der Schärfe, Erhöhung oder Einführung einer Bewegungsunschärfe, Weichzeichnen, Weichzeichnen des Hintergrundes, Rotieren des Trainings-Bildes, Umfärben von im Bild dargestellten Objekten in eine andere Farbe, Umwandlung in ein synthetisches Bild, Umwandlung in ein synthetisches Bild mittels style transfer.
Die Abwandlungen 2 werden im folgenden Schritt 103 durch das Transformationsmodul zu Zwischenbildern 3 verarbeitet. In Schritt 104 findet eine Bewertung von Abweichungen zwischen je einem gegebenen Transformations-Trainings-Bild 11 und einem korrespondierenden - d.h. im Zuge der Ausführung von Verfahrensschritten 102 und 103 aus dem Transformations-Trainings-Bild 1 hervorgegangenen - Zwischenbild 13 statt. Da in Schritt 102 aus jedem der Transformations-Trainings-Bilder 1 durch Anwendung verschiedener Datenaugmentierungsmethoden jeweils eine Vielzahl von Abwandlungen 2 erzeugt werden kann, existiert eine entsprechende Vielzahl von zum Transformations-Trainings-Bild 11 korrespondierenden Zwischenbildern 13, 13a, 13b, .... Jedes der vorgenannten Zwischenbilder 13, 13a, 13b,... wird demnach in Verfahrensschritt 104 hinsichtlich seiner Abweichungen vom Transformations-Trainings-Bild 11 bewertet. Die Bewertung in Schritt 104 erfolgt in diesem Ausführungsbeispiel auf Basis einer vorgegebenen Transformations-Kostenfunktion. Im Anschluss an die Bewertung werden in Schritt 105 Parameter optimiert, welche das Verhalten des Transformationsmoduls charakterisieren. Dies geschieht mit dem Ziel, bei einer neuerlichen Verarbeitung der Abwandlungen 2, d.h. bei Wiederholung von Schritt 103 nach einer Optimierung der Parameter des Transformationsmoduls, eine bessere Bewertung der Abweichungen durch die Transformations-Kostenfunktion - Wiederholung von Schritt 104 - zu erreichen. Eine derartige Verbesserung kann iterativ durch mehrmaliges Durchlaufen der Verfahrensschritte 103, 104, 105 durchgeführt werden, bis z.B. eine gewünschte oder vorgegebene Güte - etwa charakterisiert durch einen vorgegebenen/vorgebbaren Wert der Transformations-Kostenfunktion - erreicht ist.
2 zeigt ein Ausführungsbeispiel betreffend das Trainieren eines Transformationsmodul und eines Task-Moduls. In einem Verfahrensschritt 201 wird ein trainierbares Task-Modul bereitgestellt. Dieses ist dazu ausgeführt, eine weitere Auswertung von Zwischenbildern im Hinblick auf eine auszuführende Aufgabe vorzunehmen. Dabei kann die auszuführende Aufgabe wiederum in der Erkennung und Bewertung einer Verkehrssituation mit weiteren Verkehrsteilnehmern, Fahrzeugen, Passanten, Verkehrszeichen, Fahrbahnmarkierungen und/oder einem Hintergrund wie etwa Himmel, Bäumen, Gewässern o.ä. bestehen, wobei auf Basis des Erkennens bzw. Bewertens der Situation eine Aktion ausgeführt werden soll. Diese Aktion kann z.B. im Einleiten einer Bremsung o.ä. bestehen.
In Verfahrensschritt 202 werden Task-Trainings-Bilder 4 bereitgestellt, welche zusätzlich mit Soll-Ausgaben in Hinblick auf die auszuführende Aufgabe gelabelt sind. Die Task-Trainings-Bilder 4 werden in Schritt 203 durch ein trainiertes Transformationsmodul zu Zwischenbildern 5 verarbeitet. Im darauffolgenden Verfahrensschritt 204 werden die Zwischenbilder mit dem Task-Modul zu Ausgaben im Hinblick auf die auszuführende Aufgabe verarbeitet. Z.B. kann in diesem Schritt 204 eine semantische Segmentierung der Zwischenbilder 5 hin zu Ausgaben 6, welche semantisch segmentierte Bilder darstellen, stattfinden. In Schritt 205 wird jeweils eine Ausgabe 16 mit der Soll-Ausgabe 14a des zur Ausgabe 16 korrespondierenden (d.h. aus diesem hervorgegangenen) Task-Trainings-Bildes 14 verglichen. Die Bewertung der in diesem Vergleich auftretenden Abweichungen wird mittels einer vorgegebenen Task-Kostenfunktion vorgenommen. In Schritt 206 werden daraufhin Parameter optimiert, die das Verhalten des Task-Moduls charakterisieren. Dies geschieht auf das Ziel hin, dass bei weiterer Verarbeitung von Zwischenbildern 5 - durch wiederholtes Ausführen des Schrittes 204 - die Bewertung durch die Task-Kostenfunktion bei nochmaligem Ausführen des Schrittes 205 voraussichtlich verbessert wird. In einem iterativen Vorgehen kann durch iteratives Wiederholen der Schritte 204, 205 und 206 kann eine mit der Task-Kostenfunktion verbundene Güte optimiert bzw. ein vorgegebener Güte-Grad des Task-Moduls hinsichtlich der vorgegebenen Aufgabe erreicht werden.
In einer ebenfalls in 2 dargestellten Variante können die Task-Trainings-Bilder 4 in Zwischenschritt 202a zunächst einem trainierbaren Steuerungsmodul zugeführt werden und von dem Steuerungsmodul auf mindestens eine Augmentierungsanweisung abgebildet werden. Aus den Task-Trainings-Bildern werden im weiteren Zwischenschritt 202b durch Anwenden zumindest einer Datenaugmentierungsmethode - nach Maßgabe der Augmentierungsanweisung aus Schritt 202a - Abwandlungen 7 erzeugt. Diese werden daraufhin dem trainierten Transformations-Modul zugeführt und in Schritt 203 anstelle der Task-Trainingsbilder zu den Zwischenbildern 5 verarbeitet.
Gemäß einer weiteren, ebenfalls in 2 dargestellten Variante, können auch Parameter, welche das Verhalten des Steuerungsmoduls charakterisieren, auf das Ziel hin optimiert werden, dass die Bewertung durch die Task-Kostenfunktion voraussichtlich verbessert wird. In diesem Fall kann eine Optimierung z.B. durch wiederholte iterative Ausführung der Verfahrensschritte 202, 202a, 202b, 203, 204, 205 und 206 erreicht werden.
3 veranschaulicht weitere Aspekte im Hinblick auf die hier vorgestellten Verfahren und Module. Ein augmentiertes Rohbild 31 wird einem Transformations-Modul TKM zugeführt. Das Transformations-Modul TKM ist dazu ausgeführt, das Rohbild 31 zu einem Zwischenbild 32 zu verarbeiten, und dabei insbesondere eine surjektive Abbildung aus dem Bildraum der Rohbilder in einen Unterraum des Bildraumes auszuführen. Ein Training dieses TKM kann auf ungelabelten, d.h. nicht-annotierten Bildern stattfinden, und beispielsweise nach einem der in 1 und 2 dargestellten Verfahren durchgeführt werden. Das Zwischenbild 32 wird an ein Task-Modul SKM übermittelt. Aufgabe des Task-Moduls kann beispielsweise die semantische Segmentierung eines eine typische Verkehrssituation zeigenden (Video-)Bildes sein. Ein Training des SKM findet auf gelabelten Bildern statt, jedoch lässt sich die Effizienz und Qualität des SKM durch die vorherige Nutzung bzw. Vorschaltung des TKM deutlich erhöhen, oder aber die Größe des SKM bei gleichbleibender Qualität erheblich reduzieren. Dadurch kann Rechenaufwand und Rechenzeit gespart werden. In einem Trainings-Szenario des aus zumindest TKM und SKM bestehenden Systems kann zusätzlich das trainierbare Steuerungsmodul SM bereitgestellt werden, welches einen Augmentierungsgrad, -qualität oder -art des dem TKM zuzuführenden Rohbildes 31 steuert. Aus der mittels des SKM durchgeführten Segmentierung eines (Video-)Bildes kann daraufhin eine Ausgabe 33 abgeleitet bzw. eine korrespondierende Aktion, wie etwa eine Bremsung ausgeführt werden.
Nach 4 werden von einem Beobachtungs- und Steuerungssystem 48 mittels eines Sensors 41 Eingabebilder 42 aufgenommen, welche im dargestellten Fall eine Straßensituation 43 mit einem Fahrzeug und einem Passanten zeigen. Mittels eines trainierten Transformationsmoduls TKM werden die Eingabebilder zu Zwischenbildern 44 verarbeitet. Gegenüber den Eingabebildern 42 sind die jeweils gewonnenen Zwischenbilder 44 bereits vereinfacht, bzw. können hinsichtlich einer Eigenschaft wie z.B. der Schärfe optimiert sein. So kann das Transformationsmodul TKM durch ein geeignetes Training dazu angelernt worden sein, aus einem beliebigen, dunklen, unscharfen Eingabebild ein aufgehelltes, scharfes Zwischenbild zu erstellen. Das Transformationsmodul TKM kann auch dazu trainiert worden sein, alle Fahrzeuge auf einem Eingabebild auf dem korrespondierenden Zwischenbild in einer einheitlichen Farbe, z.B. blau, dazustellen. Damit kann die Anzahl und Variabilität auftretender Farben in einem Zwischenbild 44 gegenüber einem korrespondierenden Eingabebild 42 reduziert sein, was sich vorteilhaft auf die Weiterverarbeitung der Zwischenbilder 44, z.B. bei einer darauffolgenden automatisierten Objekterkennung im Zwischenbild 44 auswirkt. Mittels eines trainierten Task-Moduls SKM werden die Zwischenbilder 44 zu Ausgaben 45 im Hinblick auf eine vorgegebene Aufgabe weiter verarbeitet. Auf Basis der Ausgabe 45 des Task-Moduls SKM wird ein Ansteuersignal 46 erzeugt. Mittels dieses Ansteuersignals 46 kann daraufhin ein technisches System 47 angesteuert werden. Im Falle der 4 handelt es sich bei dem technischen System 47 um ein Fahrzeug mit Fähigkeit zum autonomen Fahren. Die Elemente Sensor 41, Transformations-Modul 44 und Task-Modul SKM können insbesondere in das technische System, hier also das Fahrzeug 47 integriert sein.
Neben einem Fahrzeug 47 bestehen weitere Möglichkeiten für ein technisches System in einem System für die Überwachung von Bereichen, einem System zur Qualitätskontrolle, und/oder einem System zur medizinischen Bildgebung. In den letztgenannten Fällen kann mittels eines ermittelten Ansteuersignals 46 z.B. eine Überwachungskamera, ein Roboter in z.B. der Qualitätskontrolle oder ein Roboter in einer medizinischen Anwendung z.B. bei einer Operation angesteuert werden.

Claims

Verfahren (1000) zum Trainieren eines Transformationsmoduls (TKM) für die Vorverarbeitung von Eingaberecords zu Zwischenprodukten, die für eine weitere Auswertung im Hinblick auf eine vorgegebene Aufgabe vorgesehen sind, das Verfahren aufweisend die Schritte: - Bereitstellen (101) einer Menge von Transformations-Trainings-Records (1), - Erzeugen (102) von Abwandlungen (2) der Transformations-Trainings-Records (1) durch Anwendung zumindest einer Datenaugmentierungsmethode auf die Transformations-Trainings-Records (1), - Verarbeiten (103) der Abwandlungen (2) der Transformations-Trainings-Records (1) zu Zwischenprodukten (3) mit dem Transformationsmodul, - Bewerten (104) von Abweichungen zwischen den Zwischenprodukten (3) und den jeweiligen Transformations-Trainings-Records (1) mit einer vorgegebenen Transformations-Kostenfunktion, und - Optimieren (105) von Parametern, die das Verhalten des Transformationsmoduls charakterisieren, auf das Ziel, dass bei weiterer Verarbeitung von Abwandlungen durch das Transformationsmodul die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.
Verfahren (1000) nach Anspruch 1, wobei eine Datenaugmentierungsmethode gewählt wird, die in den Abwandlungen (2) gegenüber den Transformations-Trainings-Records (1) mindestens einen vorgegebenen Aspekt der Record-Qualität verändert.
Verfahren (1000) nach Anspruch 2, wobei Records durch Bilder gegeben sind und der vorgegebene Aspekt der Bildqualität zumindest eine der Qualitäten Schärfe, Farben, Farbenvielfalt, Färbung von im Bild dargestellten Objekten, Kontrast und Helligkeit umfasst.
Verfahren (1000) nach einem der vorhergehenden Ansprüche, wobei Records durch Bilder gegeben sind und wobei die angewandte Datenaugmentierungsmethode mindestens eine der folgenden Methoden, oder eine beliebige Kombination dieser Methoden, umfasst: Rauscherhöhung, Erhöhung der Schärfe, Verringerung der Schärfe, Erhöhung oder Einführung einer Bewegungsunschärfe, Weichzeichnen, Weichzeichnen des Hintergrundes, Rotieren des Trainings-Bildes, Umfärben von im Bild dargestellten Objekten in eine andere Farbe, Umwandlung in ein synthetisches Bild, Umwandlung in ein synthetisches Bild mittels style transfer.
Verfahren (2000) nach einem der Ansprüche 1 bis 4, weiterhin umfassend die Schritte: - Bereitstellen (201) eines trainierbaren Task-Moduls, das für die weitere Auswertung von Zwischenprodukten im Hinblick auf die vorgegebene Aufgabe ausgebildet ist, - Bereitstellen (202) einer Menge von Task-Trainings-Records (4, 14), die mit Soll-Ausgaben (14a) im Hinblick auf die vorgegebene Aufgabe gelabelt sind; - Verarbeiten (203) der Task-Trainings-Records (4) zu Zwischenprodukten (5) mit dem trainierten Transformationsmodul; - Verarbeiten (204) der Zwischenprodukte (5) zu Ausgaben (6, 16) im Hinblick auf die vorgegebene Aufgabe mit dem Task-Modul; - Bewerten (205) von Abweichungen der Ausgaben (6, 16) von den Soll-Ausgaben (14a) mit einer vorgegebenen Task-Kostenfunktion; und - Optimieren (206) von Parametern, die das Verhalten des Task-Moduls charakterisieren, auf das Ziel, dass bei weiterer Verarbeitung von aus Task-Trainings-Records (4) erzeugten Zwischenprodukten (5) die Bewertung durch die Task-Kostenfunktion voraussichtlich verbessert wird.
Verfahren (2000) nach Anspruch 5, wobei: - die Task-Trainings-Records (4) einem trainierbaren Steuerungsmodul zugeführt werden und von dem Steuerungsmodul auf mindestens eine Augmentierungsanweisung abgebildet werden (202a); - aus den Task-Trainings-Records (4) durch Anwenden zumindest einer Datenaugmentierungsmethode nach Maßgabe dieser Augmentierungsanweisung Abwandlungen (7) erzeugt werden (202b); und - diese Abwandlungen (7) an Stelle der Task-Trainings-Records zu den Zwischenprodukten (5) verarbeitet werden.
Verfahren (2000) nach Anspruch 6, wobei Parameter, die das Verhalten des Steuerungsmoduls charakterisieren, auf das Ziel optimiert werden, dass die Bewertung durch die Task-Kostenfunktion voraussichtlich verbessert wird.
Verfahren nach einem der Ansprüche 5 bis 7, weiterhin umfassend die Schritte: - Bereitstellen von mit mindestens einem Sensor (41) aufgenommenen Eingaberecords (42); - Verarbeiten der Eingaberecords (42) zu Zwischenprodukten (44) mit dem trainierten Transformationsmodul (TKM); - Verarbeiten der Zwischenprodukte (44) zu Ausgaben (45) im Hinblick auf die vorgegebene Aufgabe mit dem trainierten Task-Modul (SKM); - Erzeugen eines Ansteuersignals (46) aus der Ausgabe (45) des Task-Moduls (SKM); und - Ansteuern eines technischen Systems (47) mit dem Ansteuersignal (46).
Verfahren nach Anspruch 8, wobei ein Fahrzeug, eines System für die Überwachung von Bereichen, ein System zur Qualitätskontrolle, und/oder ein System zur medizinischen Bildgebung, als technisches System (47) gewählt wird.
Verfahren nach Anspruch 9, wobei das Ansteuersignal (46) dazu ausgebildet ist, das Einleiten einer Bremsung, das Einleiten einer Beschleunigung, das Ansteuern des Lenksystems zur Einleitung einer Kurvenfahrt, das Ansteuern der Beleuchtung, das Ansteuern der Warnblinkanlage, und/oder das Ansteuern der Scheibenwischer, als Aktion auszulösen.
Verfahren nach einem der Ansprüche 1 bis 10, wobei das Task-Modul (SKM) dazu ausgebildet ist, eine semantische Segmentierung des Zwischenprodukts (44), und/oder eine auf dieser semantischen Segmentierung basierende Auswertung des Zwischenprodukts (44), als Ausgabe (45) zu liefern.
Verfahren nach einem der Ansprüche 1 bis 11, wobei ein Raum, in den ein Generator eines Generative Adversarial Network, GAN, abbildet, als Raum der Zwischenprodukte (44) gewählt wird.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 13 und/oder dem maschinenlesbaren Datenträger nach Anspruch 14.