DE102020211474A1

DE102020211474A1 - Verfahren und Vorrichtung zum Trainieren und Betreiben eines Bildklassifikators

Info

Publication number: DE102020211474A1
Application number: DE102020211474.9A
Authority: DE
Inventors: Konrad Groh; Thomas Spieker
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2022-03-17

Abstract

Verfahren zur Klassifikation eines Eingabebildes (x) mittels eines Bildklassifikators (60), wobei der Bildklassifikator (60) basierend auf dem Eingabebild (x) ein Ausgabesignal (y) ermittelt, wobei das Ausgabesignal (y) einen ersten Wert umfasst, der eine Klassifikation von zumindest einem Teil des Eingabebildes (x) charakterisiert, und einen zweiten Wert umfasst, der eine Auftretenswahrscheinlichkeit des zumindest Teils des Eingabebildes (x) charakterisiert, ferner wobei der erste Wert basierend auf dem Eingabebild (x) mittels zumindest einem neuronalen Faltungsnetz (Englisch: Convolutional Neural Network) ermittelt wird und der zweite Wert basierend auf einer Zwischenausgabe des neuronalen Faltungsnetzes bezüglich des Eingabebildes (x) mittels eines Wahrscheinlichkeitsmodells ermittelt wird.

Description

Die Erfindung betrifft ein Verfahren zum Trainieren eines Bildklassifikators, ein Verfahren zum Betreiben eines Bildklassifikators, einer Trainingsvorrichtung zum Trainieren des Bildklassifikators, ein Computerprogramm und ein maschinenlesbares Speichermedium.
Stand der Technik
Aus Samantha Guerriero, Barbara Caputo, Thomas Mensink, DeepNCM: Deep Nearest Class Mean Classifiers, 12.02.2018, https://openreview.ne1/forum?id=rkPLZ4JPM ist ein Verfahren zur Klassifikation von Bilddaten mittels eines Nearest Mean Classifiers bekannt.
Vorteile der Erfindung
Ein auf neuronalen Faltungsnetzen (Englisch: Convolutional Neural Network, CNN) basierender Bildklassifikator kann bei einem zumindest teilweise autonomen Fahrzeug zur Erkennung der Umgebung des Fahrzeugs verwendet werden, beispielsweise zur Detektion von Objekten in der Umgebung des Fahrzeugs, z.B. Personen und anderen Fahrzeugen. Die durch den Bildklassifikator so gewonnenen Informationen können dann verwendet werden, um das Fahrzeug anzusteuern, beispielsweise indem eine Trajektorie durch die Umgebung berechnet und abgefahren wird, auf der eine Kollision mit allen vom Bildklassifikator erkannten Objekten verhindert wird.
Die Klassifikation der Umgebung kann hierbei jedoch fehlerbehaftet sein. Zum Beispiel ist vorstellbar, dass eine Person in der Umgebung des Fahrzeugs fälschlicherweise nicht erkannt wird. Dies kann insbesondere dann auftreten, wenn der Inhalt eines Eingabebildes, auf Basis dessen der Bildklassifikator seine Klassifikation basiert, stark vom Inhalt der Eingabebilder abweicht, die zum Training des Bildklassifikators verwendet wurden. Dies hat potentiell kritische Folgen, da eine Trajektorie berechnet werden kann, auf der das Fahrzeug mit der nicht erkannten Person kollidiert.
Es ist daher wünschenswert, dass der Bildklassifikator zusätzlich zu einer Klassifikation ebenfalls einen Wert ermittelt, der charakterisiert, inwiefern das Eingabebild oder zumindest Teile des Eingabebildes von Daten abweicht, die zum Training des Klassifikators verwendet wurden.
Das Verfahren mit Merkmalen des unabhängigen Anspruchs 1 hat den Vorteil, dass ein Bildklassifikator zusätzlich zur Klassifikation eines Eingabebildes auch einen Wert ermitteln kann, der ein Maß für eine Auftretenswahrscheinlichkeit eines Eingabebildes oder eines Teils des Eingabebildes bezüglich eines Trainingsdatensatzes charakterisiert. Hierdurch kann die Klassifikationsgenauigkeit (auch Performanz) des Klassifikators erhöht werden, da Fehlklassifikationen mittels einer Erkennung von kleinen Auftretenswahrscheinlichkeiten abgefangen werden können.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein Verfahren zur Klassifikation eines Eingabebildes mittels eines Bildklassifikators, wobei der Bildklassifikator basierend auf dem Eingabebild ein Ausgabesignal ermittelt, wobei das Ausgabesignal einen ersten Wert umfasst, der eine Klassifikation von zumindest einem Teil des Eingabebildes charakterisiert, und einen zweiten Wert umfasst, der eine Auftretenswahrscheinlichkeit des zumindest Teils des Eingabebildes charakterisiert, ferner wobei der erste Wert basierend auf dem Eingabebild mittels zumindest einem neuronalen Faltungsnetz (Englisch: Convolutional Neural Network, CNN) ermittelt wird und der zweite Wert basierend auf einer Zwischenausgabe des neuronalen Faltungsnetzes bezüglich des Eingabebildes mittels eines Wahrscheinlichkeitsmodells ermittelt wird.
Als Bildklassifikator kann eine Vorrichtung verstanden werden, mittels welcher der Inhalt eines Eingabebildes klassifiziert werden kann. Insbesondere kann die Klassifikation auch eine Objektdetektion und/oder eine semantische Segmentierung charakterisieren.
Als Eingabebilder kann ein Bildklassifikator Bilder unterschiedlichen Ursprungs entgegennehmen, insbesondere Bilder von Kamerasensoren, LIDAR-Sensoren, Radar-Sensoren, Ultraschallsensoren oder Wärmebildkameras. Auch ist denkbar, dass ein Eingabebild mittels eines Computers synthetisch erzeugt wird, zum Beispiel als Teil einer Simulation.
Unter einem CNN kann ein neuronales Netz verstanden werden, das zumindest eine Faltungsschicht (Englisch: Convolutional Layer) umfasst. Vorzugsweise umfasst das CNN eine Mehrzahl von Faltungsschichten, welche in einer vorgegebenen Topologie angeordnet sind. Eine Faltungsschicht ist ausgebildet eine Schichteingabe entgegen zu nehmen, die vorzugsweise in Form eines Tensors der Faltungsschicht übergeben wird. Die Schichteingabe wird innerhalb der Faltungsschicht mit vorzugsweise mehreren Filtern gefaltet. Das so ermittelte Ergebnis der Faltung kann als Schichtausgabe der Faltungsschicht bereitgestellt werden. Vorzugsweise kann das Ergebnis der Faltung auch einer Aktivierungsfunktion übergeben werden und ein Ergebnis der Aktivierungsfunktion als Schichtausgabe bereitgestellt werden.
Die Topologie des CNN ist maßgeblich durch einen Informationsfluss bestimmt. Eine Schicht, insbesondere eine Faltungsschicht, kann eine Schichtausgabe an andere Schichten des CNN übermitteln, die ihrerseits die Schichtausgabe als Schichteingabe verwendet. Eine erste Schicht des CNN verwendet das Eingabebild als Schichteingabe.
Eine erste Schicht, die eine erste Schichtausgabe an eine zweite Schicht übermittelt kann als der zweiten Schicht vorhergehend erachtet werden. Die zweite Schicht kann als der ersten Schicht nachfolgend verstanden werden. Durch diesen Zusammenhang ergibt sich, dass erste Schichten existieren können, die keinen Vorgänger haben und das Eingabebild als Schichteingabe verwenden. Diese Schichten können als Ausgabeschichten verstanden werden. Gleichermaßen ergibt sich, dass zumindest eine Schicht existieren kann, die ihre Schichtausgabe an keine weitere Schicht weitergibt. Diese Schicht kann als eine letzte Schicht oder Ausgabeschicht verstanden werden. Dementsprechend können Schichten, die ihre Schichtausgabe einer letzten Schicht zur Verfügung stellen, als vorletzte Schichten verstanden werden.
Bis auf eine Schichtausgabe einer letzten Schicht, kann eine Schichtausgabe als Zwischenausgabe verstanden werden. Im Sinne der Erfindung kann insbesondere die Schichtausgabe einer vorletzten Schicht als Zwischenausgabe verstanden werden.
Da die Schichten des Faltungsnetzes bis auf die Eingabeschichten ihre jeweiligen Schichtausgaben entweder mittelbar oder unmittelbar auf einer Schichtausgabe einer Eingabeschicht basierend ermitteln, kann insbesondere die Zwischenausgabe als auf dem Eingabebild basierend erachtet werden.
Darüber hinaus kann die Zwischenausgabe als ein Ergebnis einer Transformation verstanden werden, die durch die entsprechenden Schichten des CNN definiert ist. Die Zwischenausgabe kann dabei entweder in Form eines Vektors vorliegen, wenn mit dem Bildklassifikator beispielsweise eine Klasse ermittelt werden soll, die den Inhalt des gesamten Bildes charakterisiert. Alternativ kann die Zwischenausgabe auch in Form eines Tensors vorliegen, insbesondere dann, wenn alle Schichten bis zur Zwischenausgabe Faltungsschichten sind. Diese Ausprägungsform tritt insbesondere bei neuronalen Faltungsnetzen auf, die zur semantischen Segmentierung oder zur Objektdetektion verwendet werden. Für den Fall einer Zwischenausgabe in Form eines Tensors kann die Zwischenausgabe wieder als eine Form von digitalem Bild verstanden werden, in dem jeder Pixel durch einen Vektor repräsentiert ist. Jeder Pixel der Zwischenausgabe bezieht sich in diesem Fall zudem auf zumindest einen Ausschnitt des Eingabebildes, wobei der Ausschnitt auch als rezeptives Feld (Englisch: Receptive Field) bekannt ist.
Die Zwischenausgabe kann dahingehend als vektorielle Repräsentation dessen verstanden werden, was im Eingabebild oder jeweils einem Ausschnitt einer Mehrzahl von Ausschnitten des Eingabebildes zu erkennen ist.
Mittels des Wahrscheinlichkeitsmodells kann dann ermittelt werden, wie Wahrscheinlich es ist, dass das Eingabebild bzw. ein Ausschnitt des Eingabebildes auftritt, wobei als Grundlage eine Mehrzahl von Trainingsdaten verwendet wird, mit denen das Wahrscheinlichkeitsmodell trainiert wurde.
Als Wahrscheinlichkeitsmodell kann hier beispielsweise eine Normalverteilung gewählt werden.
Beispielsweise ist vorstellbar, dass die Zwischenausgabe ein Tensor ist und das Wahrscheinlichkeitsmodell für jeden Pixel einen zweiten Wert ermittelt, der einer Dichteauswertung des Wahrscheinlichkeitsmodells an der Stelle des durch den jeweiligen Pixel dargestellten Repräsentation entspricht.
Weiterhin ist vorstellbar, dass das Wahrscheinlichkeitsmodell ein Modell einer Gauss'schen Mischverteilung umfasst und zur Ermittlung des zweiten Wertes ein Ergebnis einer Auswertung der Gauss'schen Mischverteilung bezüglich zumindest eines Teils der Zwischenausgabe als zweiter Wert bereitgestellt wird.
Der Vorteil dieser Ausprägung ist, dass eine Gauss'sche Mischverteilung in der Lage ist, jede beliebige Wahrscheinlichkeitsverteilung sehr genau zu approximieren. Dadurch erhöht sich die Genauigkeit der Ermittlung des zweiten Wertes, wodurch sich wiederum die Performanz des Bildklassifikators weiter steigert.
Weiterhin ist vorstellbar, dass basierend auf dem Ausgabesignal des Bildklassifikators ein zumindest teilweise autonomes Fahrzeug (100) angesteuert wird.
Zum Beispiel ist vorstellbar, dass bei einem zweiten Wert, der eine hohe Auftretenswahrscheinlichkeit charakterisiert, die Fahrbewegung des Fahrzeugs automatisch angesteuert wird, zum Beispiel so, dass das Fahrzeug eine aktuelle Fahrspur hält und/oder einen vordefinierten Abstand zu einem vorausfahrenden Fahrzeug einhält.
Für den Fall, dass der zweite Wert eine niedrige Auftretenswahrscheinlichkeit charakterisiert, kann beispielsweise bei einer aktiven automatischen Ansteuerung des Fahrzeugs eine Übergabe der Ansteuerung des Fahrzeugs an einen Fahrer oder Betreiber des Fahrzeugs erfolgen. Für den Fall, dass das Fahrzeug nicht automatisch angesteuert wird, kann beispielsweise das Aktivieren einer automatischen Fahrfunktion verhindert werden.
Der Vorteil dieser Ausführungsform ist, dass das Fahrzeug in Umgebungssituationen, für welche der Bildklassifikator nicht geeignet ist, eine automatisierte Ansteuerung verhindern oder deaktivieren kann. Hierdurch erhöht sich die Performanz des Fahrzeugs, da Fehlklassifikationen der Umgebung verringert werden. Im Umkehrschluss wird das Fahrzeug daher im automatisierten Betrieb sicherer.
Des Weiteren betrifft die Erfindung ein Verfahren zum Trainieren des Bildklassifikators, wobei das Verfahren zum Trainieren die folgenden Schritte umfasst:

• Ermitteln eines Trainingsdatensatzes, wobei der Trainingsdatensatz eine Mehrzahl von Eingabebildern umfasst, wobei der Trainingsdatensatz des Weiteren zu einem Eingabebild jeweils ein gewünschtes Ausgabesignal umfasst, wobei das gewünschte Ausgabesignal mit dem Eingabebild korrespondiert;
• Trainieren des neuronalen Faltungsnetzes mittels der Mehrzahl von Eingabebildern und den korrespondierenden gewünschten Ausgabesignalen;
• Ermitteln einer Mehrzahl von Zwischenausgaben bezüglich zumindest eines Teils der Mehrzahl von Eingabebildern, wobei eine Zwischenausgabe der Mehrzahl von Zwischenausgaben mittels des trainierten neuronalen Faltungsnetzes und basierend auf einem Eingabebild des zumindest Teils der Mehrzahl von Eingabebildern ermittelt wird;
• Trainieren des Wahrscheinlichkeitsmodells basierend auf der Mehrzahl von Zwischenausgaben;
• Bereitstellen des trainierten neuronalen Faltungsnetzes und des trainieren Wahrscheinlichkeitsmodells an den Bildklassifikator.

Das Verfahren zum Trainieren kann derart verstanden werden, dass zunächst das neuronale Faltungsnetz mittels der Trainingsdaten trainiert wird und anschließend zu den Trainingsdaten jeweils vektorielle Repräsentationen der Eingabebilder oder zumindest Teile der Eingangsbilder ermittelt werden, wobei jeweils eine Repräsentation mit einem Eingabebild oder einem Teil eins Eingabebildes korrespondiert. Diese vektoriellen Repräsentationen können dann wiederum als Trainingsdaten für das Wahrscheinlichkeitsmodell verwendet werden.
Durch dieses Verfahren lernt das Wahrscheinlichkeitsmodell mittels des neuronalen Faltungsnetzes ermittelte Repräsentationen dahingehend zu bewerten, wie wahrscheinlich ihr Auftreten ist und im Umkehrschluss wie wahrscheinlich das Auftreten eines Eingabebildes oder eines Teils des Eingabebildes ist, welches bzw. welcher eine bestimmte Repräsentation erzeugt hat.
Vorteilhafterweise greift das Wahrscheinlichkeitsmodell dabei auf die durch das neuronale Faltungsnetz ermittelten Repräsentationen zu. Eine Repräsentation kann derart verstanden werden, dass sie aus Sicht des neuronalen Faltungsnetzes die wesentlichen Informationen abbildet, die in dem mit ihr korrespondierenden Eingabebild oder Teil eines Eingabebildes enthalten sind. Dadurch wird das Wahrscheinlichkeitsmodell vor eine einfachere Aufgabe gestellt, da unwesentliche Informationen entfernt wurden. Hierdurch verbessert sich die Fähigkeit des Wahrscheinlichkeitsmodells eine Auftretenswahrscheinlichkeit für ein Eingabebild oder einen Teil eines Eingabebildes zu ermittelt derart. Hieraus folgend verbessert sich die Klassifikationsgenauigkeit des Bildklassifikators.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch einen Bildklassifikator;
2 schematisch einen Aufbau eines Steuerungssystems zur Ansteuerung eines Aktors mittels des Bildklassifikators;
3 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigu ngssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
6 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
7 schematisch ein Ausführungsbeispiel zur Steuerung eines persönlichen Assistenten;
8 schematisch ein Ausführungsbeispiel zur Steuerung eines medizinisch bildgebenden Systems.

Beschreibung der Ausführungsbeispiele
1 zeigt einen Bildklassifikator (60) zur Klassifikation eines Eingabebildes (x). Der Bildklassifikator (60) umfasst ein neuronales Faltungsnetz (61), welches ausgebildet ist, Objekte zu klassifizieren, die auf dem Eingabebild (x) zu erkennen sind. Informationen über die Klassen der Objekte sowie deren Lokalisierung werden als Klassifikationsinformationen (c) in einem Ausgabesignal (y) ausgegeben.
Das Faltungsnetz (61) umfasst Faltungsschichten (L₁, L₂, L₃, L₄, L₅), wobei jede Faltungsschicht eine Schichtausgabe basierend auf einer Schichteingabe ermittelt. Bis auf eine letzte Faltungsschicht (L₅), werden die Schichtausgaben der Faltungsschichten (L₁, L₂, L₃, L₄) jeweils an eine folgende Faltungsschicht (L₂, L₃, L₄, L₅) übermittelt, wobei die folgenden Faltungsschichten (L₂, L₃, L₄, L₅) jeweils die ihnen übermittelte Schichtausgaben als Schichteingaben verwenden. Eine erste Faltungsschicht (L₁) verwendet als Schichteingabe das Eingabebild (x).
Die Schichtausgaben umfassen jeweils Tensoren einer vordefinierten Höhe, Breite und Tiefe, vorzugsweise bestehen die Schichtausgaben aus Tensoren. Ein Tensor kann derart verstanden werden, dass er vektorielle Tensorelemente einer bestimmten Dimensionalität umfasst, die entlang der Höhe und Breite angeordnet sind, wobei die Dimensionalität der Elemente der Tiefe des Tensors entspricht. Ein Tensorelement hat daher innerhalb des Tensors eine Position, die durch einen Index bezüglich der Höhe und einen Index bezüglich der Breite charakterisiert wird. Ein Tensorelemente innerhalb eines Tensors kann derart verstanden werden, dass er eine vektorielle Repräsentation eines Inhalts eines Ausschnitts eines Eingabebildes darstellt und mit dem Ausschnitt korrespondiert, wobei die Position des Tensorelemente mit einer Position des Ausschnitts korrespondiert.
Die letzte Schicht (L₅) gibt als Schichtausgabe vorzugsweise einen ersten Tensor und einen zweiten Tensor aus, wobei ein erstes Tensorelement des ersten Tensors jeweils charakterisiert, welche Art von Objekt in einem Ausschnitt zu erkennen sind, dessen Position mit der Position des ersten Pixels korrespondiert. Insbesondere kann das erste Tensorelement auch eine Abwesenheit von Objekten charakterisieren. Ein zweites Tensorelement des zweiten Tensors, welches innerhalb des zweiten Tensors die gleiche Position hat, wie das erste Tensorelement im ersten Tensor, charakterisiert vorzugsweise eine genaue Position eines Objekts innerhalb des Ausschnitts, falls das erste Tensorelement das Vorhandensein eines Objekts charakterisiert. Das erste Tensorelement und das zweite Tensorelement werden im Ausgabesignal (y) als Klassifikationsinformationen (c) bereitgestellt.
Die Tensorelemente der Schichtausgabe der vorletzten Schicht (L₄) werden einem Wahrscheinlichkeitsmodell (62) zugeführt. Das Wahrscheinlichkeitsmodell (62) ist ausgebildet, für ein Tensorelement der Schichtausgabe der vorletzten Schicht (L₄) einen Wert zu ermitteln, der charakterisiert, wie wahrscheinlich das Auftreten des Tensorelements ist und daraus folgend wie wahrscheinlich das Auftreten des mit dem Tensorelement korrespondierenden Bildausschnittes ist.
Im Ausführungsbeispiel wird als Wahrscheinlichkeitsmodell (62) ein Gauss'sches Mischverteilungsmodell gewählt, welches für das Tensorelement einen Wahrscheinlichkeitsdichtewert ermittelt.
Im Ausführungsbeispiel ermittelt das Wahrscheinlichkeitsmodell (62) für jedes Tensorelement der vorletzten Schicht (L₄) einen Wahrscheinlichkeitsdichtewert (u). Die Wahrscheinlichkeitsdichtewerte (u) werden dann im Ausgabesignal bereitgestellt.
2 zeigt einen Aktor (10) in seiner Umgebung (20) in Interaktion mit einem Steuerungssystem (40). In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung (20) in einem Sensor (30), insbesondere einem bildgebenden Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensorsignal (S) - bzw. im Fall mehrerer Sensoren je ein Sensorsignal (S) - des Sensors (30) wird an das Steuerungssystem (40) übermittelt. Das Steuerungssystem (40) empfängt somit eine Folge von Sensorsignalen (S). Das Steuerungssystem (40) ermittelt hieraus Ansteuersignale (A), welche an den Aktor (10) übertragen werden.
Das Steuerungssystem (40) empfängt die Folge von Sensorsignalen (S) des Sensors (30) in einer optionalen Empfangseinheit (50), die die Folge von Sensorsignalen (S) in eine Folge von Eingangsbildern (x) umwandelt (alternativ kann auch unmittelbar je das Sensorsignal (S) als Eingangsbild (x) übernommen werden). Das Eingangsbild (x) kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals (S) sein. Das Eingangsbild (x) umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild (x) abhängig von Sensorsignal (S) ermittelt. Die Folge von Eingangsbildern (x) wird dem Klassifikator (60) zugeführt.
Der Bildklassifikator (60) wird vorzugsweise parametriert durch Parameter (Φ), die in einem Parameterspeicher (P) hinterlegt sind und von diesem bereitgestellt werden. Die Parameter (Φ) umfassen insbesondere die Parameter des Faltungsnetzes (61) und die Parameter des Wahrscheinlichkeitsmodells (62).
Der Bildklassifikator (60) ermittelt aus den Eingabebildern (x) Ausgabesignale (y), wobei die Ausgabesignale (y) erste Informationen (c) über Objekte umfassen, die der Sensor (30) erfasst hat, und zweite Informationen (u), die Unsicherheiten über die Klassifikation der Objekte enthalten. Die Ausgabesignale (y) werden einer optionalen Umformeinheit (80) zugeführt, die hieraus Ansteuersignale (A) ermittelt, welche dem Aktor (10) zugeführt werden, um den Aktor (10) entsprechend anzusteuern. Die Ausgabesignale (y) umfassen Informationen über Objekte, die der Sensor (30) erfasst hat.
Der Aktor (10) empfängt die Ansteuersignale (A), wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor (10) kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal (A) ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor (10) angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem (40) den Sensor (30). In noch weiteren Ausführungsformen umfasst das Steuerungssystem (40) alternativ oder zusätzlich auch den Aktor (10).
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem (40) eine Ein- oder Mehrzahl von Prozessoren (45) und wenigstens ein maschinenlesbares Speichermedium (46), auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren (45) ausgeführt werden, das Steuerungssystem (40) veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor (10) eine Anzeigeeinheit (10a) vorgesehen.
3 zeigt, wie das Steuerungssystem (40) zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs (100), eingesetzt werden kann.
Bei dem Sensor (30) kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug (100) angeordneten Videosensor handeln.
Der Bildklassifikator (60) ist eingerichtet, aus den Eingangsbildern (x) Objekte zu identifizieren.
Bei dem vorzugsweise im Kraftfahrzeug (100) angeordneten Aktor (10) kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs (100) handeln. Das Ansteuersignal (A) kann dann derart ermittelt werden, dass der Aktor (10) derart angesteuert wird, dass das Kraftfahrzeug (100) beispielsweise eine Kollision mit den vom Bildklassifikator (60) identifizierten Objekten verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Basierend auf den Wahrscheinlichkeitsdichtewerten (u), kann die Kontrolle über den Aktor (10) auch an einen Fahrer oder einen Betreiber des Fahrzeugs übergeben werden. Dies kann insbesondere dann geschehen, wenn ein maximaler Wert der Wahrscheinlichkeitsdichtewerte (u) kleiner ist als ein vorgegebener Schwellenwert. Alternativ oder zusätzlich ist vorstellbar, dass in diesem Fall die Anzeigeeinheit (10a) derart angesteuert wird, dass sie Übergabe der Kontrolle anzeigt oder akustisch mitteilt, beispielsweise über einen Warnton oder eine Sprachausgabe.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal (A) derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Bildklassifikator (60) identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal (A) die Anzeigeeinheit (10a) angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug (100) mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit (10a) mit dem Ansteuersignal (A) derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug (100) droht, mit einem der identifizierten Objekte zu kollidieren.
4 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem (40) zur Ansteuerung einer Fertigungsmaschine (11) eines Fertigungssystems (200) verwendet wird, indem ein diese Fertigungsmaschine (11) steuernder Aktor (10) angesteuert wird. Bei der Fertigungsmaschine (11) kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor (30) kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Fertigungserzeugnisse (12a, 12b) erfasst. Weiterhin ist vorstellbar, dass der Bildklassifikator (60) eine Position eines Fertigungserzeugnisses (12a, 12b) auf einem Förderband (13) bestimmt. Es ist möglich, dass die Fertigungserzeugnisse (12a, 12b) beweglich sind. Es ist möglich, dass der die Fertigungsmaschine (11) steuernde Aktor (10) abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse (12a, 12b) angesteuert wird, damit die Fertigungsmaschine (11) entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen Fertigungserzeugnisses (12a, 12b) ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse (12a, 12b) (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine (11) entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
Falls der Bildklassifikator (60) einen Wahrscheinlichkeitsdichtewert (u) ausgibt, der kleiner ist als ein vorgegebener Schwellenwert, kann das Fertigungssystem (200) beispielsweise automatisch eine Kontrolle der Fertigungserzeugnisse (12a, 12b) und/oder des Förderbandes (13) beantragen. Alternativ oder zusätzlich kann das Fertigungssystem (200) den Betrieb einstellen.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines Zugangssystems (300) eingesetzt wird. Das Zugangssystem (300) kann eine physische Zugangskontrolle, beispielsweise eine Tür (401) umfassen. Der Sensor (30) kann ein Videosensor sein, der eingerichtet ist, eine Person zu erfassen. Mittels des Klassifikators (60) kann ein erfasstes Eingabebild (x) interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor (10) kann ein Schloss sein, dass abhängig vom Ansteuersignal (A) die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür (401) öffnet, oder nicht. Hierzu kann das Ansteuersignal (A) abhängig vom Ausgabesignal (y) des Bildklassifikators (60) gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
Falls ein maximaler Wert der zu einem Eingabebild (x) ermittelten Wahrscheinlichkeitsdichtewerte (u) kleiner ist als ein vorgegebener Schwellenwert, kann beispielsweise der Zugang verhindert werden, auch wenn er ansonsten freigegeben worden wäre.
6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines Überwachungssystems (400) verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors (10) die Anzeigeeinheit (10a) vorgesehen ist, die vom Steuerungssystem (40) angesteuert wird. Beispielsweise kann vom Bildklassifikator (60) eine Identität der vom Sensor (30) aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal (A) dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit (10a) farblich hervorgehoben dargestellt wird.
Falls ein maximaler Wert der zu einem Eingabebild (x) ermittelten Wahrscheinlichkeitsdichtewerte (u) kleiner ist als ein vorgegebener Schwellenwert, kann beispielsweise der zum Wahrscheinlichkeitsdichtewert (u) korrespondierende Teil des Eingabebildes (x) ebenfalls farblich hervorgehoben dargestellt werden.
7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines persönlichen Assistenten (250) eingesetzt wird. Der Sensor (30) ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers (249) empfängt, beispielsweise ein Kamerasensor.
Abhängig von den Signalen des Sensors (30) ermittelt das Steuerungssystem (40) ein Ansteuersignal (A) des persönlichen Assistenten (250), beispielsweise, indem der Bildklassifikator (60) eine Gestenerkennung durchführt. Dem persönlichen Assistenten (250) wird dann dieses ermittelte Ansteuersignal (A) übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal (A) kann insbesondere derart gewählt werden, dass es einer vermuteten gewünschten Ansteuerung durch den Nutzer (249) entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom Bildklassifikator (60) erkannten Geste ermittelt werden. Das Steuerungssystem (40) kann dann abhängig von der vermuteten gewünschten Ansteuerung das Ansteuersignal (A) zur Übermittlung an den persönlichen Assistenten (250) wählen und/oder das Ansteuersignal (A) zur Übermittlung an den persönlichen Assistenten entsprechend der vermuteten gewünschten Ansteuerung (250) wählen.
Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der persönliche Assistent (250) Informationen aus einer Datenbank abruft und sie für den Nutzer (249) rezipierbar wiedergibt.
Falls ein maximaler Wert der zu einem Eingabebild (x) ermittelten Wahrscheinlichkeitsdichtewerte (u) kleiner ist als ein vorgegebener Schwellenwert, kann beispielsweise der persönliche Assistent (250) dem Nutzer (249) eine Nachricht übermitteln, die charakterisiert, dass eine Erkennung der Geste zu einer unsicheren Klassifikation geführt hat. Die Übermittlung der Nachricht kann beispielsweise akustisch geschehen.
Anstelle des persönlichen Assistenten (250) kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend angesteuert zu werden.
8 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem (40) zur Steuerung eines medizinischen bildgebenden Systems (500), beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor (30) kann beispielsweise durch einen bildgebenden Sensor gegeben sein. Durch das Steuerungssystem (40) wird die Anzeigeeinheit (10a) angesteuert. Beispielsweise kann vom Bildklassifikator (60) ermittelt werden, ob ein vom Sensor aufgenommener Bereich auffällig ist, und das Ansteuersignal (A) dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit (10a) farblich hervorgehoben dargestellt wird.
Falls ein maximaler Wert der zu einem Eingabebild (x) ermittelten Wahrscheinlichkeitsdichtewerte (u) kleiner ist als ein vorgegebener Schwellenwert, kann beispielsweise der zum Wahrscheinlichkeitsdichtewert (u) korrespondierende Teil des Eingabebildes (x) ebenfalls farblich hervorgehoben dargestellt werden.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.

Claims

Verfahren zur Klassifikation eines Eingabebildes (x) mittels eines Bildklassifikators (60), wobei der Bildklassifikator (60) basierend auf dem Eingabebild (x) ein Ausgabesignal (y) ermittelt, wobei das Ausgabesignal (y) einen ersten Wert umfasst, der eine Klassifikation von zumindest einem Teil des Eingabebildes (x) charakterisiert, und einen zweiten Wert umfasst, der eine Auftretenswahrscheinlichkeit des zumindest Teils des Eingabebildes (x) charakterisiert, ferner wobei der erste Wert basierend auf dem Eingabebild (x) mittels zumindest einem neuronalen Faltungsnetz (Englisch: Convolutional Neural Network) ermittelt wird und der zweite Wert basierend auf einer Zwischenausgabe des neuronalen Faltungsnetzes bezüglich des Eingabebildes (x) mittels eines Wahrscheinlichkeitsmodells ermittelt wird.
Verfahren nach Anspruch 1, wobei das Wahrscheinlichkeitsmodell ein Modell einer Gauss'schen Mischverteilung umfasst und zur Ermittlung des zweiten Wertes ein Ergebnis einer Auswertung der Gauss'schen Mischverteilung bezüglich zumindest eines Teils der Zwischenausgabe als zweiter Wert bereitgestellt wird.
Verfahren nach einem der Ansprüche 1 oder 2, wobei die Zwischenausgabe eine Schichtausgabe einer vorletzten Schicht des neuronalen Faltungsnetzes ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei basierend auf dem Ausgabesignal (y) ein zumindest teilweise autonomes Fahrzeug (100) angesteuert wird.
Verfahren zum Trainieren des Bildklassifikators (60) nach einem der Ansprüche 1 bis 4, wobei das Verfahren zum Trainieren die folgenden Schritte umfasst: • Ermitteln eines Trainingsdatensatzes (T), wobei der Trainingsdatensatz eine Mehrzahl von Eingabebildern (x_i) umfasst, wobei der Trainingsdatensatz (T) des Weiteren zu einem Eingabebild (x_i) jeweils ein gewünschtes Ausgabesignal (y_i) umfasst, wobei das gewünschte Ausgabesignal (y_i) mit dem Eingabebild (x_i) korrespondiert; • Trainieren des neuronalen Faltungsnetzes mittels der Mehrzahl von Eingabebildern (x_i) und den korrespondierenden gewünschten Ausgabesignalen (y_i); • Ermitteln einer Mehrzahl von Zwischenausgaben bezüglich zumindest eines Teils der Mehrzahl von Eingabebildern (x_i), wobei eine Zwischenausgabe der Mehrzahl von Zwischenausgaben mittels des trainierten neuronalen Faltungsnetzes und basierend auf einem Eingabebild (x_i) des zumindest Teils der Mehrzahl von Eingabebildern (x_i) ermittelt wird; • Trainieren des Wahrscheinlichkeitsmodells basierend auf der Mehrzahl von Zwischenausgaben; • Bereitstellen des trainierten neuronalen Faltungsnetzes und des trainieren Wahrscheinlichkeitsmodells an den Bildklassifikator (60).
Trainingsvorrichtung, welche eingerichtet ist, das Verfahren nach Anspruch 5 auszuführen.
Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
Maschinenlesbares Speichermedium (46), auf dem das Computerprogramm nach Anspruch 7 gespeichert ist.