DE102021209643A1

DE102021209643A1 - Verfahren und Vorrichtung zur Objektdetektion und/oder zur semantischen Segmentierung

Info

Publication number: DE102021209643A1
Application number: DE102021209643.3A
Authority: DE
Inventors: Christopher Lang
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-02

Abstract

Computerimplementiertes Verfahren zum Trainieren eines neuronalen Netzes (60), wobei das neuronale Netz (60) ausgebildet ist, basierend auf einem Bild (x) eine Objektdetektion und/oder eine semantische Segmentierung zu ermitteln, wobei das Verfahren zum Training die folgenden Schritte umfasst:
• Bestimmen einer prädizierten Einbettung (e) durch das neuronale Netz (60), wobei die prädizierte Einbettung (e) eine Region eines Trainingsbildes (x_i) oder einen Pixel des Trainingsbildes (x_i) charakterisiert;
• Bereitstellen einer gewünschten Einbettung, wobei die gewünschte Einbettung eine Klasse eines Objekts charakterisiert, wobei das Objekt sich in der Region des Trainingsbildes (x_i) befindet oder wobei der Pixel Teil des Objekts ist;
• Trainieren des neuronalen Netzes (60) basierend auf einem Verlustwert, der eine Metrik bezüglich der prädizierten Einbettung und der gewünschten Einbettung charakterisiert.

Description

Stand der Technik
Ren et al „Raster R-CNN: Towards real-time object detection with region proposal networks“ Advances in neural information processing systems, 28, pp.91-99, 2015 offenbart ein Verfahren zur Detektion von Objekten.
Technischer Hintergrund
Maschinelle Lernverfahren, insbesondere neuronale Netze, zur Detektion von Objekten in Bildern oder zur semantischen Segmentierung von Bildern finden vielfache Anwendung auf vielen technischen Gebieten.
Ziel der Objektdetektion ist es, Position und Ausdehnung von in einem Bild abgebildeten Objekten zu ermitteln. Position und Ausdehnung werden dabei typischerweise in Bildkoordinaten angegeben, also in Relation zu einer Höhe und einer Breite des Bildes. Zusätzlich ist auch möglich, dass eine Objektdetektion zu einem Objekt eine Klasse prädiziert, zu der das Objekt gehört. Ein typisches Beispiel von Objektdetektion in Bildern sind Wahrnehmungssysteme von Robotern, z.B. autonomen Fahrzeugen. Der Roboter kann beispielsweise über eine Kamera eine Umgebung wahrnehmen, wobei Objekte in der Umgebung mittels einer Objektdetektion bestimmt werden.
Für die Objektdetektion mittels neuronaler Netze gibt es verschiedene Ansätze. Regionenvorschlagsnetzwerk (engl. region proposal networks) sind beispielsweise ausgebildet, Region (typischerweise rechteckige Regionen) eines Bildes vorzuschlagen, in denen sich potenziell Objekte befinden können. In einem nachgelagerten Schritt können diese Regionen dann weiter untersucht werden und klassifiziert werden, ob in der Region ein Objekt wirklich vorliegt oder nicht. Bei Ein-Schuss-Objektdetektionen (engl. one-shot object detection oder single shot object detection) wird für alle möglichen Regionen einer vordefinierten Größe eines Bildes jeweils klassifiziert, ob eine jeweilige Region ein Objekt beinhaltet und falls ja welcher Klasse es angehört.
Bekannte Objektdetektionsverfahren haben daher die Einschränkung, dass die Anwesenheit eines Objekts in einer Region (gleich ob durch region proposal network oder single shot object detection ermittelt) sowie einer Klasse des Objekts klassifiziert wird. Ein Objektdetektor kann daher nach einem Training nur solche Objekteklassen prädizieren, die dem Objektdetektor während des Trainings gezeigt wurden. Falls nachträglich weitere Klassen von Objekten bekannt werden, die während des Trainings nicht zur Verfügung standen, ist ein Objektdetektor nicht in der Lage, diese Klassen zu klassifizieren. Schlimmer noch, allein von der vorhergesagten Klasse des Objektdetektors bezüglich des Objekts kann nicht abgeleitet werden, ob die Klasse des Objekts bezüglich des Trainings des Objektdetektors unbekannt ist oder ob der Objektdetektor sich lediglich bezüglich der Klasse innerhalb der bekannten Klassen unsicher ist.
Vor diesem Hintergrund ist ein Vorteil der vorgeschlagenen Erfindung, dass die einem Objektdetektor bekannten Objektklassen nach einem Training des Objektdetektors erweitert werden können, ohne dass der Objektdetektor neu trainiert werden muss. Darüber hinaus erlaubt der Objektdetektor eine einfache Bestimmung, ob es sich bei einem Objekt um ein Objekt einer neuen Klasse handelt.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Trainieren eines neuronalen Netzes, wobei das neuronale Netz ausgebildet ist, basierend auf einem Bild eine Objektdetektion und/oder eine semantische Segmentierung zu ermitteln, wobei das Verfahren zum Training die folgenden Schritte umfasst:

• Bestimmen einer prädizierten Einbettung durch das neuronale Netz, wobei die prädizierte Einbettung eine Region eines Trainingsbildes oder einen Pixel des Trainingsbildes charakterisiert;
• Bereitstellen einer gewünschten Einbettung, wobei die gewünschte Einbettung eine Klasse eines Objekts charakterisiert, wobei das Objekt sich in der Region des Trainingsbildes befindet oder wobei der Pixel Teil des Objekts ist;
• Trainieren des neuronalen Netzes basierend auf einem Verlustwert, der eine Metrik bezüglich der prädizierten Einbettung und der gewünschten Einbettung charakterisiert.

Das neuronale Netz kann als ein Objektdetektor verstanden werden, also eine Vorrichtung, die zur Detektion von Objekten in Bildern ausgebildet ist. Das neuronale Netz kann eingerichtet sein, Bilder verschiedener Modalitäten zu verarbeiten. Beispielsweise kann ein Bild das Ergebnis eines Messvorgangs eines optischen Sensors charakterisieren, zum Beispiel einer Kamera, eines LIDAR-Sensors eines Radarsensors, eines Ultraschallsensors oder einer Thermalkamera.
Das neuronale Netz kann eingerichtet sein eine Einbettung für eine Region zu prädizieren, die von einem Regionenvorschlagsnetzwerk (engl. region proposal network) ermittelt wird. Das Region Proposal Network kann dabei Teil des neuronalen Netzes sein oder dem neuronalen Netz aus Sicht eines Informationsflusses vom Trainingsbild zu einer Objektdetektion vorgelagert sein. Alternativ ist auch möglich, dass eine Einbettung Teil einer Merkmalskarte (engl. feature map) ist, die für das Trainingsbild ermittelt wird. Die Einbettungen der Merkmalskarte können insbesondere prädizierte Einbettungen von Regionen des Bildes charakterisieren.
Eine Einbettung kann im Allgemeinen als eine reell-wertige Repräsentation, z. B. ein reell-wertiger Vektor, in einem reell-wertigen Raum ℝⁿ verstanden werden. Einbettungen können insbesondere Klassen von Objekten charakterisieren. Die Einbettungen können vorzugsweise so gewählt werden, dass Distanzen im Raum der Einbettungen einen Informationsgehalt darüber liefern, wie ähnlich sich zwei Klassen sind, die von jeweils einer Einbettung charakterisiert werden.
Der Begriff kann daher auch so verstanden werden, dass Informationen über Klassen und deren Beziehungen im Raum eingebettet werden.
Vorteilhafterweise ist das neuronale Netz eingerichtet, Einbettungen zu prädizieren. Zu einer Region eines Bildes, z. B. des Trainingsbildes, wird vom neuronalen Netz daher eine Einbettung bestimmt. Das Netz wird während des Trainings derart trainiert, dass, falls in der Region ein Objekt ist oder ein bestimmter Teil eines Objekts (z. B. sein Mittelpunkt) sich in der Region befindet oder die Region mit einem Objekt mehr als ein vorgebbarer Schwellenwert überlappt, das neuronale Netz eine Einbettung prädiziert, die einer gewünschten Einbettung einer Klasse des Objekts entspricht.
Einbettungen können insbesondere als abgrenzend von Klassifikationen oder Wahrscheinlichkeiten verstanden werden, die typischerweise von neuronalen Netzen zur Objektdetektion bestimmt werden. Während bei anderen neuronalen Netzen zur Objektdetektion eine Ausgabe bezüglich eines Auftretens einer Klasse typischerweise ein Vektor von Wahrscheinlichkeiten oder eines diskreten Werts ist, kann das neuronale Netz eine Einbettung prädizieren.
Die durch die prädizierte Einbettung charakterisierte Regionen des Bildes kann als abhängig vom neuronalen Netz verstanden werden. Wenn das neuronale Netz Objektdetektionen auf Basis von Regionenvorschlägen ermittelt, kann die Region insbesondere einen Teil eines Bildes charakterisieren, der vom Regionsvorschlagsnetzwerk vorgeschlagen wurde. Im Falle einer single shot object detection kann die Region insbesondere einen Mittelpunkt eines rezeptiven Felds (engl. receptive field) charakterisieren. Zum Beispiel umfasst eine von einem ZentrumNetz (engl. CenterNet) ermittelte Ausgabe typischerweise eine Feature Map, die die Anwesenheit bzw. Abwesenheit von Objekten in jeweils 4x4 Pixel großen Region in einem Bild charakterisiert. Das rezeptive Feld der Feature Map ist hierbei typischerweise größer als 4x4 Pixel sein.
Vorzugsweise ist möglich, dass die gewünschte Einbettung basierend auf einer reell-wertigen Worteinbettung (engl. word embedding) eines Wortes bereitgestellt wird, wobei das Wort die Klasse charakterisiert, oder dass die gewünschte Einbettung basierend auf einer reell-wertigen Einbettung einer Beschreibung der Klasse bereitgestellt wird.
Zum Beispiel ist möglich, dass das Trainingsbild Fußgänger in einer Verkehrssituation darstellt. Die Klasse Fußgänger kann mittels eines Worteinbettungsverfahrens, zum Beispiel word2vec oder GloVe, in einen Raum eingebettet werden. Alternativ ist auch möglich, dass eine Beschreibung der Klasse Fußgänger, zum Beispiel extrahiert aus einer Enzyklopädie wie Wikipedia, einem Transformer-Modell, beispielsweise einem BERT oder einem GPT, zugeführt wird und ein vom Transformer-Modell ermittelter Merkmalsvektor als gewünschte Einbettung bereitgestellt wird.
Falls eine vom Region Proposal Network vorgeschlagene Region oder eine Region der Feature Map kein Objekt charakterisiert, kann für die gewünschte Einbettung insbesondere eine vordefinierte Einbettung gewählt werden. Vorzugsweise ist möglich, dass gewünschte Einbettungen für eine Mehrzahl von Einbettung vorliegen und dass die vordefinierte Einbettung durch eine Summe der Mehrzahl von Einbettungen ermittelt wird.
Es ist möglich, dass der Verlustwert basierend auf einer Kosinus-Ähnlichkeits-Funktion (engl. cosine similarity function) ermittelt wird. Vorzugsweise kann der Verlustwert basierend auf einer kontrastiven Verlustfunktion (engl. contrastive loss function) ermittelt werden, wobei die prädizierte Einbettung und die gewünschte Einbettung Argumente der kontrastiven Verlustfunktion sind. Die Erfinder konnten feststellen, dass durch die Contrastive Loss Function vom neuronalen Netz prädizierte Einbettungen präzisiere sind, also näher an den jeweils gewünschten Einbettungen liegen als durch andere Verlustfunktionen wie einem Abstands-maximierenden Verlustfunktion (margin loss). Hierdurch erhöht sich eine Genauigkeit der vom neuronalen Netz ermittelten Objektdetektion. Diese Genauigkeit wird im Folgenden auch als Performanz des neuronalen Netzes bezeichnet.
Die kontrastive Verlustfunktion kann durch folgende Formel charakterisiert werden: $l = - log \frac{exp (sim (z_{i}, z_{j}) / τ)}{\sum_{k = 1, k \neq i}^{C} exp (sim (z_{i}, z_{k}) / τ)},$
wobei sim eine Kosinus-Ähnlichkeit charakterisiert, z_i die vom neuronalen Netz prädizierte Einbettung charakterisiert, z_j die gewünschte Einbettung charakterisiert und z_k eine andere als die gewünschte Einbettung aus einer Mehrzahl von Einbettungen ist. Die Einbettungen z_k können beispielsweise Einbettungen anderer Klassen sein, von denen sich die prädizierte Einbettung unterscheiden soll. τ ist ein Hyperparameter der Verlustfunktion, der auch als Temperatur bezeichnet wird.
Die Ausgabe einer Feature Map als Teil einer Single Shot Object Detection kann als konzeptionell ähnlich zur semantischen Segmentierung verstanden werden. Daher kann anstelle oder zusätzlich zur Objektdetektion auch eine semantische Segmentierung vom neuronalen Netz durchgeführt werden. Die prädizierte Einbettung kann dabei als eine Einbettung einer Klasse eines Pixels eines Bildes verstanden werden, welches als Eingabe des neuronalen Netzes verwendet wird, bzw. eines Voxels falls das Bild ein drei-dimensionales Bild ist, wie beispielsweise von einem LIDAR-Sensor ermittelt.
In einem weiteren Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Ermitteln eines Ausgabesignals, welches eine Objektdetektion und/oder eine semantische Segmentierung eines Bildes charakterisiert, wobei das Ausgabesignal mittels eines neuronalen Netzes ermittelt wird, wobei das neuronale Netz mittels einem Verfahren nach einer Ausführungsform gemäß des ersten Aspekts trainiert wurde, wobei das Verfahren zum ermitteln des Ausgabesignal die folgenden Schritte umfasst:

• Ermitteln einer prädizierten Einbettung durch das neuronale Netz, wobei die prädizierte Einbettung eine Region des Bildes oder einen Pixel des Bildes charakterisiert;
• Ermitteln eines ersten Wertes, der einen Abstand der prädizierten Einbettung zu einer Einbettung einer Klasse eines Objekts charakterisiert;
• Bereitstellen einer Klasse eines Objekts, welches sich in der Region befindet oder zu welchem der Pixel gehört, im Ausgabesignal, wobei die Klasse abhängig von dem ersten Wert bereitgestellt wird.

Vorzugsweise kann das neuronale Netz im ersten Schritt des Verfahrens eine Mehrzahl von prädizierten Einbettungen ermitteln, wobei die weiteren Schritte jeweils für jede vom neuronalen Netz prädizierte Einbettung durchgeführt werden. Bevorzugt kann für jede prädizierte Einbettung eine Mehrzahl von ersten Werten ermittelt werden, jeweils ein erster Wert für eine Einbettung einer Klasse aus einer Mehrzahl von Klassen.
Insbesondere ist möglich, dass einer prädizierten Einbettung eine Klasse zugeordnet wird, die charakterisiert, dass die Einbettung keine bekannte Klasse charakterisiert. Diese Zuordnung kann insbesondere dann gewählt werden, wenn ein kleinster erster Wert bezüglich der prädizierten Einbettung und einer Mehrzahl von Einbettungen von Klassen gleich einem vorgebbaren Schwellenwert ist oder den vorgebbaren Schwellenwert übersteigt.
Im Verfahren zum Ermitteln des Ausgabesignals ist insbesondere möglich, dass Einbettungen von Klassen berücksichtigt werden, die während des Trainings nicht berücksichtigt wurden oder während des Trainings des neuronalen Netzes nicht vorlagen. Dies kann vorteilhafterweise ohne ein Nachtrainieren des neuronalen Netzes geschehen. Das neuronale Netz ist daher in der Lage eine Null-Schuss-Objekterkennung (engl. zero-shot object detection) durchzuführen.
Es ist möglich, dass der erste Wert eine Kosinus-Ähnlichkeit zwischen der prädizierten Einbettung und der Einbettung der Klasse charakterisiert. Alternativ ist auch möglich, dass der erste Wert basierend auf einer Graph-Einbettungs-Methode ermittelt wird. Beispielsweise können über Verfahren, wie TransR oder DistMult, mathematische Projektionen gelernt werden, die Verhältnisse von Einbettungen von Klassen und Einbettungen von Verhältnissen zwischen den Klassen lernen. Die Einbettungen der Klassen und die prädizierte Einbettung können dann mittels der Projektion in einen anderen Raum überführt werden, in dem der erste Wert entsprechend einem euklidischen Abstand oder wieder mittels einer Kosinus-Ähnlichkeit ermittelt werden kann.
Das Ausgabesignal kann auch einen Unsicherheitswert umfassen, der bezüglich der prädizierten Einbettung eine Unsicherheit einer Klassenzugehörigkeit charakterisiert. Beispielsweise kann ein kleinster erster Wert direkt als Unsicherheitswert im Ausgabesignal bereitgestellt werden. Es ist auch denkbar, dass während oder nach dem Training des neuronalen Netzes im Einbettungsraum für Einbettungen von Klassen jeweils eine Wahrscheinlichkeitsdichtefunktion bestimmt wird, die charakterisiert, wie wahrscheinlich eine Einbettung in einer Umgebung einer Einbettung einer Klasse ein Objekt charakterisiert, dass zu der Klasse gehört. Beispielsweise kann eine Normalverteiler mit der Einbettung der Klasse als Erwartungswert verwendet werden, wobei die Kovarianzmatrix der Normalverteilung vorgegeben wird oder basierend auf prädizierten Einbettungen des neuronalen Netzes für Objekte der Klasse ermittelt wird.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch den Aufbau eines neuronalen Netzes;
2 schematisch einen Aufbau eines Steuerungssystems zur Ansteuerung eines Aktors;
3 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
6 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
7 schematisch ein Ausführungsbeispiel zur Steuerung eines medizinisch bildgebenden Systems;
8 schematisch ein Ausführungsbeispiel eines Trainingssystems.

Beschreibung der Ausführungsbeispiele
1 zeigt schematisch den Aufbau eines neuronalen Netzes (60). Dem neuronalen Netz (60) wird ein Eingabebild (x) als Eingabe zur Verfügung gestellt. Das neuronale Netz (60) umfasst eine Merkmalsextraktionseinheit (61), die eingerichtet, basierend auf dem Bild eine Merkmalskarte (r) zu ermitteln, die eine Repräsentation des Eingabebildes (x) charakterisiert. Hierfür kann die Merkmalsextraktionseinheit (61) vorzugsweise mehrere Faltungsschichten (engl. convolutional layers) umfassen. Die Merkmalsextraktionseinheit (61) kann beispielsweise ein Teil einer neuronalen Netzarchitektur sein, zum Beispiel der Teil der Faltungsschichten eines residualen Netzwerks (engl. residual network, ResNet).
Die Merkmalskarte (r) kann insbesondere derart verstanden werden, dass sie eine Mehrzahl von Merkmalsvektoren (engl. feature vectors) umfasst, die entlang einer vertikalen Dimension und einer horizontalen Dimension angeordnet sind. Die Merkmalskarte (r) kann insbesondere in Form eines dreidimensionalen Tensors vorliegen. Die Merkmalsvektoren der Merkmalskarte (r) können insbesondere derart verstanden werden, dass sie bestimmte Bereiche des Eingabebildes (x) charakterisieren. Beispielsweise kann die Merkmalsextraktionseinheit (61) derart gewählt werden, dass die Merkmalsvektoren in der von der Merkmalsextraktionseinheit (61) ausgegebenen Merkmalskarte (r) jeweils Regionen von 4x4 Pixeln im Eingabebild (x) charakterisieren. Falls ein bestimmter Punkt eines Objekts, beispielsweise ein Mittelpunkt eines Objekts, innerhalb einer Region liegt, kann der entsprechende Merkmalsvektor, der diese Region charakterisiert, als das Objekt charakterisierend verstanden werden.
Die Merkmalskarte wird dann jeweils einer von drei weiteren Einheiten (62, 63, 64) des neuronalen Netzes (60) zugeführt. Eine erste Einheit (62) kann insbesondere ausgebildet sein, für die jeweiligen Merkmalsvektoren der Merkmalskarte (r) eine Einbettung (e) zu prädizieren. Eine von der ersten Einheit (62) prädizierte Einbettung (e) kann insbesondere als ein mehrdimensionaler und reell-wertiger Vektor in einem mathematischen Raum verstanden werden. Die prädizierte Einbettung (e) kann insbesondere eine Einbettung einer Klasse eines Objekts charakterisieren. Alternativ kann die Einbettung auch eine Klasse charakterisieren, die anzeigt, dass ein Merkmalsvektor der Merkmalskarte (r) kein Objekt charakterisiert. Die Klasse wird im Folgenden als „Klasse Abwesenheit“ bezeichnet.
Eine zweite Einheit (63) des neuronalen Netzes (60) kann insbesondere ausgebildet sein, für einen Merkmalsvektor zu ermitteln, welche genaue Position ein durch den Merkmalsvektor charakterisiertes Objekt im Bild hat. Während eine Position der Region, die durch den Merkmalsvektor charakterisiert wird, bereits eine ungefähre Position vorgibt, kann die zweite Einheit (63) insbesondere ausgebildet sein, diese Position noch zu verfeinern, um so leichte Abweichungen des Objekts innerhalb der Region zu kompensieren.
Eine dritte Einheit (64) des neuronalen Netzes (60) kann insbesondere derart ausgebildet sein, für einen Merkmalsvektor zu ermitteln, welche Größe ein durch den Merkmalsvektor charakterisiertes Objekt im Bild hat. Die Größe kann insbesondere durch eine Breite und Höhe einer Begrenzungsbox (engl. bounding box) des Objekts im Bild charakterisiert werden.
Vorzugsweise kann für jeden Merkmalsvektor der Merkmalskarte eine Einbettung (e), eine Position (p) und eine Größe (g) ermittelt werden. Die jeweiligen Einbettungen (e), Positionen (p) und Größen (g) können dann in einem Ausgabesignal (y) des neuronalen (60) Netzes bereitgestellt werden.
In weiteren Ausführungseinheiten kann die Merkmalseinheit (61) auch eine oder mehrere Vorschläge bezüglich Regionen des Bildes machen, die ein Objekt beinhalten können. Mit anderen Worten, die Merkmalseinheit (61) kann auch ein Region Proposal Network sein oder beinhalten.
In weiteren Ausführungsbeispielen (nicht dargestellt) kann das neuronale Netz auch eingerichtet sein, eine semantische Segmentierung durchzuführen. Die Merkmalsextraktionseinheit (61) kann in diesen Ausführungsbeispielen insbesondere ausgebildet sein, einen Merkmalsvektor pro Pixel des Eingabebildes (x) in der Merkmalskarte (r) bereitzustellen. In diesen Ausführungsbeispielen kann das neuronale Netz (60) insbesondere ohne die zweite Einheit (63) und ohne die dritte Einheit (64) ausgebildet sein. Ein Ausgabesignal (y) des neuronalen Netzes (60) kann im Fall der semantischen Segmentierung beispielsweise aus prädizierten Einbettungen (e) bestehen, die jeweils einen Pixel des Eingabebildes (x) charakterisieren.
2 zeigt, wie das neuronale Netz (60) zur Steuerung eines Aktors (10) in verwendet werden kann. Das neuronale Netz (60) kann hierbei als Teil eines Steuerungssystems (40) verstanden werden. In vorzugsweise regelmäßigen zeitlichen Abständen wird eine Umgebung (20) in einem bildgebenden Sensor (30), etwa einem Kamerasensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise durch eine Stereokamera. Ein Sensorsignal (S) - bzw. im Fall mehrerer Sensoren je ein Sensorsignal (S) - des Sensors (30) wird an das Steuerungssystem (40) übermittelt. Das Steuerungssystem (40) empfängt somit eine Folge von Sensorsignalen (S). Das Steuerungssystem (40) ermittelt hieraus Ansteuersignale (A), welche an den Aktor (10) übertragen werden.
Das Steuerungssystem (40) empfängt die Folge von Sensorsignalen (S) des Sensors (30) in einer optionalen Empfangseinheit (50), die die Folge von Sensorsignalen (S) in eine Folge von Eingabebildern (x) umwandelt (alternativ kann auch unmittelbar je das Sensorsignal (S) als Eingabebild (x) übernommen werden). Das Eingabebild (x) kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals (S) sein. Mit anderen Worten wird das Eingabebild (x) abhängig von Sensorsignal (S) ermittelt. Die Folge von Eingabebildern (x) wird einem Klassifikator (60) zugeführt.
Das neuronale Netz (60) wird vorzugsweise parametriert durch Parameter (Φ), die in einem Parameterspeicher (P) hinterlegt sind und von diesem bereitgestellt werden.
Das neuronale Netz (60) ermittelt aus den Eingangssignalen (x) Ausgabesignale (y). Die Ausgabesignale (y) werden einer optionalen Umformeinheit (80) zugeführt, die hieraus Ansteuersignale (A) ermittelt, welche dem Aktor (10) zugeführt werden, um den Aktor (10) entsprechend anzusteuern.
Der Aktor (10) empfängt die Ansteuersignale (A), wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor (10) kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal (A) ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor (10) angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem (40) den Sensor (30). In noch weiteren Ausführungsformen umfasst das Steuerungssystem (40) alternativ oder zusätzlich auch den Aktor (10).
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem (40) zumindest einen Prozessor (45) und zumindest ein maschinenlesbares Speichermedium (46), auf dem Anweisungen gespeichert sind, die dann, wenn sie auf dem zumindest einen Prozessor (45) ausgeführt werden, das Steuerungssystem (40) veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor (10) eine Anzeigeeinheit (10a) vorgesehen.
3 zeigt, wie das Steuerungssystem (40) zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs (100), eingesetzt werden kann.
Bei dem Sensor (30) kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug (100) angeordneten Videosensor handeln. Die Eingabesignale (x) können in diesem Fall als Eingabebilder verstanden werden.
Das neuronale Netz (60) ist eingerichtet, auf den Eingabebildern (x) erkennbare Objekte zu detektieren.
Bei dem vorzugsweise im Kraftfahrzeug (100) angeordneten Aktor (10) kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs (100) handeln. Das Ansteuersignal (A) kann dann derart ermittelt werden, dass der Aktor oder die Aktoren (10) derart angesteuert wird, dass das Kraftfahrzeug (100) beispielsweise eine Kollision mit den vom neuronalen Netz (60) identifizierten Objekten verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Alternativ oder zusätzlich kann mit dem Ansteuersignal (A) die Anzeigeeinheit (10a) angesteuert werden, und beispielsweise die identifizierten Objekte dargestellt werden. Auch ist es denkbar, dass die Anzeigeeinheit (10a) mit dem Ansteuersignal (A) derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug (100) droht, mit einem der identifizierten Objekte zu kollidieren. Die Warnung mittels eines Warnsignals kann auch mittels eines haptischen Warnsignals erfolgen, beispielsweise über ein Vibrieren eines Lenkrads des Kraftfahrzeugs (100).
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal (A) derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom neuronalen Netz (60) identifizierten Objekten verhindert.
4 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem (40) zur Ansteuerung einer Fertigungsmaschine (11) eines Fertigungssystems (200) verwendet wird, indem ein die Fertigungsmaschine (11) steuernder Aktor (10) angesteuert wird. Bei der Fertigungsmaschine (11) kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln. Weiterhin ist denkbar, dass die Fertigungsmaschine (11) ausgebildet ist mittels eines Greifers ein Fertigungserzeugnis (12a, 12b) zu greifen.
Bei dem Sensor (30) kann es sich dann beispielsweise um einen Videosensor handeln, der z.B. die Förderfläche eines Förderbandes (13) erfasst, wobei sich auf dem Förderband (13) Fertigungserzeugnissen (12a, 12b) befinden können. Das neuronale Netz (60) kann beispielsweise eingerichtet sein Fertigungserzeugnisse (12a, 12b) auf dem Förderband zu detektieren. Der die Fertigungsmaschine (11) steuernde Aktor (10) kann dann abhängig von den ermittelten Positionen und Größe der Fertigungserzeugnisse (12a, 12b) angesteuert werden. Beispielsweise kann der Aktor (10) derart angesteuert werden, dass er ein Fertigungserzeugnis (12a, 12b) an einer vorbestimmten Stelle des Fertigungserzeugnisses (12a, 12b) stanzt, sägt, bohrt und/oder schneidet.
Weiterhin ist denkbar, dass das neuronale Netz (60) ausgebildet ist, alternativ oder zusätzlich zur Position weitere Eigenschaften eines Fertigungserzeugnisses (12a, 12b) zu ermitteln. Insbesondere ist vorstellbar, dass das neuronale Netz (60) ermittelt, ob ein Fertigungserzeugnis (12a, 12b) defekt und/oder beschädigt ist. In diesem Fall kann der Aktor (10) derart angesteuert werden, dass die Fertigungsmaschine (11) ein defektes und/oder beschädigtes Fertigungserzeugnis (12a, 12b) aussortiert.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines Zugangssystems (300) eingesetzt wird. Das Zugangssystem (300) kann eine physische Zugangskontrolle umfassen, beispielsweise eine Tür (401). Der Sensor (30) kann insbesondere ein Videosensor oder Wärmebildsensor sein, der eingerichtet ist, einen Bereich vor der Tür (401) zu erfassen. Mittels des neuronalen Netzes (60) kann ein erfasstes Bild interpretiert werden. Insbesondere kann das neuronale Netz (60) Personen auf einem übermittelten Eingabebild (x) detektieren. Sind mehrere Personen gleichzeitig detektiert worden, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen.
Der Aktor (10) kann ein Schloss sein, dass abhängig vom Ansteuersignal (A) die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür (401) öffnet, oder nicht. Hierzu kann das Ansteuersignal (A) abhängig vom mittels des Bildklassifikators (60) zum Eingabebild (x) ermittelten Ausgabesignal (y) gewählt werden. Beispielsweise ist denkbar, dass das Ausgabesignal (y) Informationen umfasst, die die Identität einer vom Bildklassifikator (60) detektierten Person charakterisiert, und das Ansteuersignal (A) basierend auf der Identität der Person gewählt wird.
An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines Überwachungssystems (400) verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors (10) die Anzeigeeinheit (10a) vorgesehen ist, die vom Steuerungssystem (40) angesteuert wird. Beispielsweise kann der Sensor (30) ein Eingabebild (x) aufzeichnen, auf dem zumindest eine Person zu erkennen ist, und die Position der zumindest einen Person mittels des neuronalen Netzes (60) detektiert werden. Das Eingabebild (x) kann dann auf der Anzeigeeinheit (10a) dargestellt werden, wobei die detektierten Personen farblich hervorgehoben dargestellt werden können.
7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines medizinischen bildgebenden Systems (500), beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor (30) kann beispielsweise durch einen bildgebenden Sensor gegeben sein. Durch das Steuerungssystem (40) wird die Anzeigeeinheit (10a) angesteuert.
Der Sensor (30) ist eingerichtet ein Bild eines Patienten zu ermitteln, beispielsweise ein Röntgenbild, ein MRT-Bild oder ein Ultraschallbild. Zumindest ein Teil des Bildes wird als Eingabebild (x) an das neuronale Netz (60) übermittelt. Das neuronale Netz (60) kann beispielsweise eingerichtet sein, unterschiedlicher Arten eines auf dem Eingabebild (x) zu erkennenden Gewebes zu klassifizieren, beispielsweise über eine semantische Segmentierung. Die jeweiligen Klassen können mittels der prädizierten Einbettungen (e) ermittelt werden, die im Ausgabesignal (y) ausgegeben werden. Zusätzlich ist möglich, dass bezüglich der Klassifikationen eine Unsicherheit mit auf der Anzeigeeinheit (10a) ausgegeben wird, die pro Pixel charakterisiert, in wie fern das neuronale Netz (60) sich über die Zuordnung zu einer Klasse sicher ist.
Das Ansteuersignal (A) kann dann derart gewählt werden, dass die ermittelten Arten von Gewebe auf der Anzeigeeinheit (10a) farblich hervorgehoben dargestellt werden.
In weiteren Ausführungsbeispielen (nicht gezeigt) kann das bildgebende System (500) auch für nicht medizinische Zwecke verwendet werden, zum Beispiel um Materialeigenschaften eines Werkstücks zu ermitteln. Zu diesem Zweck kann das bildgebende System (500) ein Bild eines Werkstücks aufzeichnen. Das neuronale Netz (60) kann in diesem Fall derart eingerichtet sein, dass er zumindest einen Teil des Bildes als Eingabebild (x) entgegennimmt und bezüglich der Materialeigenschaften des Werkstücks klassifiziert. Dies kann beispielsweise über eine semantische Segmentierung des Eingabebildes (x) geschehen. Die so ermittelte Klassifikation kann beispielsweise zusammen mit dem Eingabebild auf der Anzeigevorrichtung (10a) dargestellt werden.
8 zeigt ein Ausführungsbeispiel eines Trainingssystems (140) zum Trainieren des neuronalen Netzes (60) des Steuerungssystems (40) mittels eines Trainingsdatensatzes (T). Der Trainingsdatensatz (T) umfasst eine Mehrzahl von Eingabebildern (x_i), die zum Trainieren des Klassifikators (60) verwendet werden, wobei der Trainingsdatensatz (T) ferner zu jeweils einem Eingabebild (x_i) ein gewünschtes Ausgabesignal (t_i) umfasst, welches mit dem Eingabebild (x_i) korrespondiert und eine oder mehrere Objektdetektionen des Eingabebildes (x_i) charakterisiert. Die Korrespondenz kann daher als eine 1-zu-1 Beziehung verstanden werden, das heißt jedem Eingabebild (x_i) kann genau ein gewünschtes Ausgabesignal (t_i) zugeordnet sein und jedes gewünschte Ausgabesignal (t_i) kann genau einem Eingabebilde (x_i) zugeordnet sein.
Zum Training greift eine Trainingsdateneinheit (150) auf eine computerimplementierte Datenbank (St₂) zu, wobei die Datenbank (St₂) den Trainingsdatensatz (T) zur Verfügung stellt. Die Trainingsdateneinheit (150) ermittelt aus dem Trainingsdatensatz (T) vorzugsweise zufällig zumindest ein Eingabebild (x_i) und das zum Eingabebild (x_i) korrespondierende gewünschte Ausgabesignal (t_i) und übermittelt das Eingabebild (x_i) an das neuronale Netz (60). Das neuronale Netz (60) ermittelt auf Basis des Eingabesignals (x_i) ein Ausgabesignal (y_i).
Das gewünschte Ausgabesignal (t_i) und das ermittelte Ausgabesignal (y_i) werden an eine Veränderungseinheit (180) übermittelt.
Basierend auf dem gewünschten Ausgabesignal (t_i) und dem ermittelten Ausgabesignal (y_i) werden dann von der Veränderungseinheit (180) neue Parameter (Φ') für den Klassifikator (60) bestimmt. Hierfür vergleicht die Veränderungseinheit (180) das gewünschte Ausgabesignal (t_i) und das ermittelte Ausgabesignal (y_i) mittels einer Verlustfunktion (engl. Loss Function). Die Verlustfunktion kann insbesondere eine kontrastive Verlustfunktion charakterisieren, die mittels der eine prädizierte Einbettung (e) des ermittelten Ausgabesignals (y_i) und eine gewünschte Einbettung des gewünschten Ausgabesignals (t_i) einen Einbettungsverlustwert ermittelt. Für eine im ermittelten Ausgabesignal (y_i) enthaltene ermittelte Position (p) und eine im gewünschten Ausgabesignal (t_i) enthaltene gewünschte Position kann insbesondere mittels einer weichen L1-Verlustfunktion (engl. soft L1 loss) ein Positionsverlustwert ermittelt werden. Ähnlich dazu kann außerdem für eine im ermittelten Ausgabesignal (y_i) enthaltene ermittelte Größe (g) und eine im gewünschten Ausgabesignal (t_i) enthaltene gewünschte Größe insbesondere mittels einer weichen L1-Verlustfunktion (engl. soft L1 loss) ein Größenverlustwert ermittelt werden. Der Einbettungsverlustwert, der Positionsverlustwert und der Größenverlustwert können anschließend über eine vorzugsweise gewichtete Summe zu einem Verlustwert zusammengeführt werden. Die Gewichte der Summer können als Hyperparameter des Trainings verstanden werden. Basierend auf dem Verlustwert können dann mittels einem automatischen Ableitungsverfahren neue Parameter (Φ') des neuronalen Netzes (60) ermittelt werden.
Falls das ermittelte Ausgabesignal (y_i) und das gewünschte Ausgabesignal (t_i) jeweils mehrere Tupel von Einbettung, Position und Größe enthalten, beispielsweise für mehrere Regionen des Eingabebildes (x_i), kann auch jeweils für jedes Tupel ein Verlustwert gemäß den oben aufgeführten Schritten ermittelt werden und die neuen Parameter (Φ') basierend auf einer Summe oder einem Durchschnitt der Verlustwerte ermittelt werden.
Die Veränderungseinheit (180) ermittelt auf Grundlage des ersten Verlustwertes die neuen Parameter (Φ'). Im Ausführungsbeispiel geschieht dies mittels eines Gradientenabstiegsverfahren, vorzugsweise Stochastic Gradient Descent, Adam, oder AdamW. In weiteren Ausführungsbeispielen kann das Training auch auf einem evolutionären Algorithmus oder einer Zweite-Grad-Optimierung (engl. second-order optimization) beruhen.
Die ermittelten neuen Parameter (Φ') werden in einem Modellparameterspeicher (St₁) gespeichert. Vorzugsweise werden die ermittelten neuen Parameter (Φ') als Parameter (Φ) dem neuronalen Netz (60) bereitgestellt.
In weiteren bevorzugten Ausführungsbeispielen wird das beschriebene Training iterativ für eine vordefinierte Anzahl an Iterationsschritten wiederholt oder iterativ wiederholt, bis der erste Verlustwert einen vordefinierten Schwellenwert unterschreitet. Alternativ oder zusätzlich ist auch vorstellbar, dass das Training beendet wird, wenn ein durchschnittlicher erster Verlustwert bezüglich eines Test- oder Validierungsdatensatzes einen vordefinierten Schwellenwert unterschreitet. In mindestens einer der Iterationen werden die in einer vorherigen Iteration bestimmten neuen Parameter (Φ') als Parameter (Φ) des neuronalen Netzes (60) verwendet.
Des Weiteren kann das Trainingssystem (140) mindestens einen Prozessor (145) und mindestens ein maschinenlesbares Speichermedium (146) umfassen, welches Befehle enthält, welche, wenn sie durch den Prozessor (145) ausgeführt werden, das Trainingssystem (140) veranlassen, ein Trainingsverfahren nach einem der Aspekte der Erfindung auszuführen.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.
Im Allgemeinen kann eine Mehrzahl als indexiert verstanden werden, d.h. jedem Element der Mehrzahl wird ein eindeutiger Index zugewiesen, vorzugsweise durch Zuweisung aufeinanderfolgender Ganzzahlen an die in der Mehrzahl enthaltenen Elemente. Vorzugsweise, wenn eine Mehrzahl N Elemente umfasst, wobei N die Anzahl der Elemente in der Mehrzahl ist, werden den Elementen die ganzen Zahlen von 1 bis N zugewiesen.

Claims

Computerimplementiertes Verfahren zum Trainieren eines neuronalen Netzes (60), wobei das neuronale Netz (60) ausgebildet ist, basierend auf einem Bild (x) eine Objektdetektion und/oder eine semantische Segmentierung zu ermitteln, wobei das Verfahren zum Training die folgenden Schritte umfasst: • Bestimmen einer prädizierten Einbettung (e) durch das neuronale Netz (60), wobei die prädizierte Einbettung (e) eine Region eines Trainingsbildes (x_i) oder einen Pixel des Trainingsbildes (x_i) charakterisiert; • Bereitstellen einer gewünschten Einbettung, wobei die gewünschte Einbettung eine Klasse eines Objekts charakterisiert, wobei das Objekt sich in der Region des Trainingsbildes (x_i) befindet oder wobei der Pixel Teil des Objekts ist; • Trainieren des neuronalen Netzes (60) basierend auf einem Verlustwert, der eine Metrik bezüglich der prädizierten Einbettung und der gewünschten Einbettung charakterisiert.
Verfahren nach Anspruch 1, wobei die gewünschte Einbettung basierend auf einer reell-wertigen Worteinbettung (engl. word embedding) eines Wortes bereitgestellt wird, wobei das Wort die Klasse charakterisiert, oder wobei die gewünschte Einbettung basierend auf einer reell-wertigen Einbettung einer Beschreibung der Klasse bereitgestellt wird.
Verfahren nach Anspruch 1 oder 2, wobei der Verlustwert basierend auf einer kontrastiven Verlustfunktion (engl. contrastive loss function) ermittelt wird, wobei die prädizierte Einbettung und die gewünschte Einbettung Argumente der kontrastiven Verlustfunktion sind.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die prädizierte Einbettung eine Region des Trainingsbildes (x_i) charakterisiert, die von einem Regionenvorschlagsnetzwerk (engl. region proposal network) des neuronalen Netzes (60) bestimmt wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die prädizierte Einbettung (e) Teil einer Merkmalskarte (engl. feature map) ist, wobei die Merkmalskarte vom neuronalen Netz (60) und basierend auf dem Trainingsbild (x_i) ermittelt wird.
Computerimplementiertes Verfahren zum Ermitteln eines Ausgabesignals (y), welches eine Objektdetektion und/oder eine semantische Segmentierung eines Bildes (x) charakterisiert, wobei das Ausgabesignal (y) mittels eines neuronalen Netzes (60) ermittelt wird, wobei das neuronale Netz (60) mittels einem Verfahren nach einem der Ansprüche 1 bis 5 trainiert wurde, wobei das Verfahren zum ermitteln des Ausgabesignal (y) die folgenden Schritte umfasst: • Ermitteln einer prädizierten Einbettung (e) durch das neuronale Netz (60), wobei die prädizierte Einbettung (e) eine Region des Bildes (x) oder einen Pixel des Bildes (x) charakterisiert; • Ermitteln eines ersten Wertes, der einen Abstand der prädizierten Einbettung zu einer Einbettung einer Klasse eines Objekts charakterisiert; • Bereitstellen einer Klasse eines Objekts, welches sich in der Region befindet oder zu welchem der Pixel gehört, im Ausgabesignal (y), wobei die Klasse abhängig von dem ersten Wert bereitgestellt wird.
Verfahren nach Anspruch 6, wobei der erste Wert eine Kosinus-Ähnlichkeit zwischen der prädizierten Einbettung und der Einbettung der Klasse charakterisiert.
Verfahren nach Anspruch 6, wobei der erste Wert basierend auf einer Graph-Einbettungs-Methode ermittelt wird.
Verfahren nach einem der Ansprüche 6 bis 8, wobei eine Mehrzahl von ersten Werten ermittelt wird, wobei jeweils ein erster Wert bezüglich jeweils einer Einbettung einer Klasse einer Mehrzahl von Klassen ermittelt wird, wobei eine Klasse bereitgestellt wird, die die Abwesenheit von Objekten in der Region charakterisiert, falls ein kleinster Wert der Mehrzahl von ersten Werten größer oder gleich einem vorgebbaren Schwellenwert ist.
Verfahren nach einem der Ansprüche 6 bis 9, wobei basierend auf dem Ausgabesignal (y) ein Ansteuersignal (A) eines Aktuators (10) und/oder einer Anzeigevorrichtung (10a) ermittelt wird.
Trainingsvorrichtung (140), welche eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 10 auszuführen, wenn es durch einen Prozessor (45, 145) ausgeführt wird.
Maschinenlesbares Speichermedium (46, 146), auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.