DE102018201909A1

DE102018201909A1 - Verfahren und Vorrichtung zur Objekterkennung

Info

Publication number: DE102018201909A1
Application number: DE102018201909.6A
Authority: DE
Inventors: Gregor Blott; Robert Borchers
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2019-08-08
Also published as: CN110121055A; CN110121055B; US10735660B2; US20190246041A1

Abstract

Die Erfindung betrifft ein Verfahren zur Objekterkennung, wobei das Verfahren zunächst einen Schritt des Einlesens aufweist, bei dem Eingangsdatensignale 145 sowie ein bestimmter Kameraregelparameter 140 zur Einstellung einer Aufnahmeeigenschaft einer Kamera 105, 110 eingelesen werden. Die Eingangsdatensignale 145 repräsentieren hierbei die von zumindest einer Kamera 105, 110 aufgenommenen Abbildungen 135 des zu erkennenden Objekts 107, 117. Schließlich weist das Verfahren einen Schritt des Erkennens auf, bei dem das Objekt 107, 117 unter Verwendung des bestimmten Kameraregelparameters 140 in einem neuronalen Netzwerk 125 erkannt wird.

Description

Stand der Technik
Die Erfindung geht von einer Vorrichtung oder einem Verfahren nach Gattung der unabhängigen Ansprüche aus. Gegenstand der vorliegenden Erfindung ist auch ein Computerprogramm.
Es sind Vorrichtungen bekannt, die mittels neuronaler Netzwerke Objekte erkennen und klassifizieren.
Die DE 10 2009 055 127 A1 beschreibt ein Videoüberwachungssystem zur Detektion und Verfolgung eines auffälligen Objekts, wobei das Objekt anhand einer vorgegebenen Modellbeschreibung mittels einer Detektionseinrichtung detektiert und über einen bestimmten Zeitraum von einer Verfolgungseinrichtung verfolgt wird, wobei die Verfolgungseinrichtung eine Mehrzahl von Verfolgungsparametern erfasst und mit der Detektionseinrichtung rückgekoppelt ist, sodass beim wiederholten Detektieren die Verfolgungsparameter der Detektionseinrichtung zugeführt und für das Detektieren des Objekts berücksichtigt werden. Das Videoüberwachungssystem ist optional als lernendes oder selbstlernendes System ausgebildet.
Offenbarung der Erfindung
Vor diesem Hintergrund werden mit dem hier vorgestellten Ansatz ein Verfahren zur Objekterkennung, weiterhin eine Vorrichtung, die dieses Verfahren verwendet, sowie schließlich ein entsprechendes Computerprogramm gemäß den Hauptansprüchen vorgestellt. Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen der im unabhängigen Anspruch angegebenen Vorrichtung möglich.
Eine Mehrzahl von Eingangsdatensignalen wird unter Verwendung eines Kameraregelparameters für eine, mittels eines künstlichen neuronalen Netzwerks, erfolgende Objekterkennung so erweitert, dass eine verbesserte Erkennung und/oder Wiedererkennung von Objekten und/oder Personen möglich ist, was insbesondere für die Themengebiete des autonomen Fahrens und der Sicherheitsüberwachung von großer Bedeutung ist.
Es wird ein Verfahren zur Objekterkennung vorgestellt, wobei das Verfahren die folgenden Schritte aufweist:

Einlesen zumindest eines Eingangsdatensignals, wobei das Eingangsdatensignal eine von zumindest einer Kamera aufgenommene Abbildung eines Objekts repräsentiert, sowie eines bestimmten, insbesondere dem zumindest einen Eingangsdatensignal (145) zugeordneten Kameraregelparameters zur Einstellung einer Aufnahmeeigenschaft der Kamera; und

Erkennen des Objekts unter Verwendung des bestimmten Kameraregelparameters und insbesondere unter Verwendung des zumindest einen Eingangsdatensignals in einem neuronalen Netzwerk.
Bei einem Objekt kann es sich beispielsweise um eine zu erkennende Person und/oder ein zu erkennendes Fahrzeug handeln. Bei einer Kamera kann es sich um eine fototechnische Apparatur handeln, die statische oder bewegte Bilder auf einem fotografischen Film oder elektronisch auf ein magnetisches Videoband oder digitales Speichermedium aufzeichnen, oder über eine Schnittstelle übermitteln kann. Insbesondere kann es sich bei der Kamera um eine Umfeldsensorkamera handeln, die an einem Fahrzeug angeordnet ist und dazu ausgebildet ist, fortlaufend Bildinformationen oder Bilder einer Fahrzeug-Umgebung zu erfassen und bereitzustellen. Alternativ kann es sich bei der Kamera um eine Überwachungskamera eines Kameranetzwerks handeln, die zur Beobachtung eines Überwachungsbereichs dient und dazu ausgebildet ist, eine sich im Überwachungsbereich befindliche auffällige Person zu verfolgen und Bildsequenzen und/oder Videosequenzen dieser Person an eine zentrale Einheit weiterzuleiten. Bei einem Kameraregelparameter kann es sich um einen Regelparameter zur Einstellung einer Aufnahmeeigenschaft der Kamera handeln, wobei der Kameraregelparameter auf ein durch die Kamera aufgenommenes Abbild in Bezug auf Beleuchtung, Kontrast, Farbdarstellung, Apertur-Öffnung, Gain und/oder Pixelfehler und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) angewendet bzw. angepasst wird. Bei einem neuronalen Netzwerk kann es sich um ein künstliches Abstraktionsmodell des menschlichen Gehirns handeln, das aus einer Vielzahl von Schichten mit künstlichen Knoten, einer Art Neuronen, besteht. Insbesondere kann das neuronale Netzwerk hierbei über eine Eingabe- und eine Ausgabeschicht verfügen, dazwischen können mehrere Zwischenschichten angeordnet sein. Die Knoten der Eingabeschicht lassen sich durch Training auf verschiedenen Wegen über die Knoten der Zwischenschichten mit den Knoten der Ausgabeschicht verknüpfen. Hierbei gilt, je mehr Knoten und Schichten das neuronale Netzwerk aufweist, desto komplexere Sachverhalte lassen sich abbilden.
Die Vorteile des hier vorgestellten Verfahrensansatzes liegen insbesondere darin, dass die Objekterkennung mittels eines neuronalen Netzwerks sowohl in der videobasierten Überwachungstechnik, als auch im Automotivbereich eingesetzt werden kann. In der videobasierten Überwachungstechnik kann durch das Bestimmen eines Kameraregelparameters zur aktiven Kameraregelung ein neuronales Netzwerk dahingehend trainiert werden, dass eine verfügbare Datenmenge zu einer detektierten Person in einem Überwachungsbereich künstlich angereichert wird. Auf Grundlage dieser künstlich angereicherten Datenmenge lassen sich robustere und beleuchtungsinvariante Merkmale zur Personen-Wiedererkennung generieren. Hierdurch kann eine detektierte Person beispielsweise nahtlos durch ein gesamtes Kameranetzwerk verfolgt werden, ohne, dass deren Identität verloren geht oder die Person mit einer anderen verfolgten Person vertauscht wird. Im Automotivbereich eignet sich eine Objekterkennung mittels neuronalen Netzwerken insbesondere für den Teilbereich des autonomen Fahrens zur automatischen Erkennung von Objekten, wie Stoppschildern und Ampeln, im Straßenverkehr. Außerdem kann der hier vorgestellte Verfahrensansatz vorteilhaft im Automotivbereich verwendet werden, um Fußgänger zu erkennen und somit Unfälle zu vermeiden. In den Bereichen der videobasierten Überwachungstechnik sowie im Automotivbereich ist die Anzahl der verfügbaren Kameras zählbar. Insbesondere ist hierbei dank der überschaubaren Anzahl an Kameras bekannt, wie diese regelungstechnisch arbeiten. Die Kameraregelung ist von großer Bedeutung, um die Parameter für eine effizientere maschinelle Szeneninterpretation verwenden zu können. Ziel ist es, die Nutzung eines neuronalen Netzwerks zur Objekterkennung unter Verwendung der Kameraregelung robuster zu machen und eine Echt-Welterkennung, insbesondere für das autonome Fahren, zu ermöglichen.
Gemäß einer Ausführungsform kann mit einem Schritt des Bestimmens der Kameraregelparameter zur Einstellung einer Aufnahmeeigenschaft der Kamera unter Verwendung der Mehrzahl eingelesener Abbildungen des Objekts bestimmt werden, wobei insbesondere im Schritt des Einlesens der bestimmte Kameraregelparameter zum Einlesen von zumindest einem weiteren Eingangsdatensignal angewendet wird. Hierbei dient der Kameraregelparameter in erster Linie der Anpassung der aufgenommenen bzw. der aufzunehmenden Abbildung einer Person und/oder eines Objekts an die momentan gemessenen Belichtungsverhältnisse der aufgenommenen bzw. aufzunehmenden Szene und kann ebendies in Abhängigkeit von zukünftig zu erwartenden Belichtungsverhältnissen angepasst werden. Durch eine prädiktive Regelung von Kameras mittels des Kameraegelparameters werden die mannigfaltigen Anforderungen bei sich schnell verändernden Szenen optimal erfüllt.
Gemäß einer Ausführungsform kann im Schritt des Einlesens als Kameraregelparameter eine Helligkeit und/oder ein Kontrast und/oder eine Farbdarstellung und/oder eine Apertur-Öffnung und/oder ein Gain und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) und/oder ein Pixelfehler verwendet werden. Durch ein Anwenden bzw. Anpassen der aufgenommenen bzw. aufzunehmenden Abbildung einer Person und/oder eines Objekts in Bezug auf Beleuchtung, Kontrast, Farbdarstellung, Apertur-Öffnung, Gain und Pixelfehler, wird eine Erhöhung der Daten-Variabilität erreicht, was in einer verbesserten Erkennung von Personen und/oder Objekten sowie auch Wiedererkennung von Personen und/oder Objekten durch ein neuronales Netzwerk resultiert. Bis dato wurde mittels aktueller Kameras versucht, eine abzubildende Szene für den Menschen so gut wie möglich abzubilden. Im Fokus stand hierbei die Optimierung für das menschliche Auge, nicht für eine künstliche Intelligenz, beispielsweise ein neuronales Netzwerk. Dadurch werden jedoch bewusst Optimierungen im Bild in Kauf genommen, die zwar dem Menschen helfen, aus Sicht einer selbstlernenden Maschine aber keinen Vorteil bringen. Hier ist beispielsweise das Tone Mapping zu nennen, dessen Aufgabe es lediglich ist, den Kontrast/Dynamikumfang im Bild maximal gut für den Menschen anzupassen.
Gemäß einer Ausführungsform kann im Schritt des Einlesens der Kameraregelparameter mit einem Knoten aus einer ersten Hälfte von Schichten und/oder mit einem Knoten aus einer zweiten Hälfte von Schichten des neuronalen Netzwerks gekoppelt werden. Das neuronale Netzwerk weist eine Mehrzahl von Knoten auf, die in Schichten angeordnet und in der Regel in einer festen Hierarchie miteinander verbunden sind. Die Knoten sind dabei zumeist zwischen zwei Schichten verbunden, in selteneren Fällen aber auch innerhalb einer Schicht. Zwischen den Schichten ist jeder Knoten der einen Schicht auch immer mit allen Knoten der nächsten Schicht verbunden. Beginnend mit der Eingabeschicht fließen beispielsweise Bildinformationen über eine oder mehrere Zwischenschichten bis hin zur Ausgabeschicht. Am Ende hat die ausgebende Schicht gelernt, welche bildlichen Charakteristiken und Merkmale ein Objekt, beispielsweise ein Fahrzeug und/oder eine Person, ausmachen.
Gemäß einer Ausführungsform kann im Schritt des Einlesens jeder Bildpunkt eines das Eingangsdatensignal bildenden Abbilds in einem 565-Format eingelesenen werden, wobei im Schritt des Erkennens die Bildpunkte im 565-Format verarbeitet werden. Häufig interpolieren Verarbeitungssysteme während sie prozessieren die Bildpunkte der Eingangsdatensignale auf ein 888-RGB-Format. Für das sogenannten „Deep Learning“ eines neuronalen Netzwerks kann ein Training auf eine Verarbeitung der Bildpunkte im 565-Format ohne Interpolation aber deutliche Vorteile bringen, da das Interpolieren nicht stattgefunden hat, durch das es sonst zu einem hohen Informationsverlust kommen kann.
Gemäß einer Ausführungsform können im Schritt des Einlesens die Eingangsdatensignale in einem RGB-Format oder YUV-Format eingelesen werden, insbesondere wobei die Eingangsdatensignale mit einer Auflösung von 12 Bit oder 16 Bit pro Farbkanal eingelesen werden. Die Bit-Tiefe bezieht sich dabei auf die Anzahl der Farbtöne pro Farbe oder Grauabstufungen. Hierbei werden die rohen Eingangsdatensignale von der Kamera zumeist in 12-16 Bit bereitgestellt. Durch diverse Transformationen, die durch die Kameraregelung über die Zeit angepasst werden, kann dieser Bereich auf 8 Bit reduziert werden. Die Anpassung der 16 auf 8 Bit erfolgt hierbei dynamisch innerhalb diverser Regelschleifen. Für die künstliche Intelligenz des neuronalen Netzwerks steht aber prinzipiell eine höhere Auflösung von 12-16 Bit zur Verfügung.
Gemäß einer Ausführungsform kann zumindest der Schritt des Einlesens wiederholt und/oder zyklisch wiederholt werden. Hierbei liegt ein wichtiger Vorteil von neuronalen Netzwerken darin, dass die Ergebnisse der Objekterkennung sich häufig weiter verbessern, sobald der Umfang der eingelesenen Daten sowie die Datenvariabilität durch das Anwenden des Kameraregelparameters zunehmen.
Gemäß einer Ausführungsform kann mit einem Schritt des Trainierens das neuronale Netzwerk zur Erkennung eines Objekts aus den Eingangsdatensignalen trainiert werden, wobei der Schritt des Trainierens unter Verwendung des Kameraregelparameters erfolgt. Für das Training sammeln die relativ einfach aufgebauten Knoten jeder Schicht des neuronalen Netzwerks Daten von einer Vielzahl benachbarter Knoten, mit denen sie über gewichtete Verbindungen gekoppelt sind und verknüpfen diese Daten nach einfachen Regeln. Obwohl die Komplexität des einzelnen Knotens relativ gering ist, wird durch deren Zusammenschaltung die Leistung des neuronalen Netzwerks als Ganzes beträchtlich erhöht. Die Knoten lernen während des Trainings anhand Hunderttausender bis Millionen von Beispielen, aus den Rohinformationen zunächst simple Muster und Strukturen herauszulesen und aus diesen dann immer komplexere typische Merkmale zu formen, um die gestellte Aufgabe der Objekterkennung lösen zu können.
Gemäß einer Ausführungsform kann der Schritt des Einlesens in einer Recheneinheit eines Fahrzeugs und/oder einer zentralen Recheneinheit eines ortsfesten Kameranetzwerks ausgeführt werden. Eine solche Ausführungsform des hier vorgestellten Ansatzes bietet den Vorteil, dass eine Aufbereitung von Daten in einer fahrzeugexternen Recheneinheit und/oder einer zentralen Recheneinheit eines ortsfesten Kameranetzwerks einen geringeren Rechenbedarf im Fahrzeug und/oder in der Kamera selbst bedeutet und einen damit verbundenen geringeren Energieverbrauch oder die Möglichkeit, Ressourcen für andere Funktionen zu nutzen, ermöglicht. Außerdem verfügt die fahrzeugexterne Recheneinheit und/oder die zentrale Recheneinheit eines ortsfesten Kameranetzwerks über eine größere verfügbare Rechenleistung als ein fahrzeuginterner und/oder kamerainterner Computer.
Gemäß einer Ausführungsform kann im Schritt des Erkennens eine Person und/oder ein Fahrzeug als Objekt erkannt werden. Hierbei eignet sich das vorgestellte Verfahren dank einer automatisierten Merkmalsextraktion insbesondere für Aufgaben der Computer-Vision, wie zum Beispiel die Objekterkennung und/oder die Personen-Wiedererkennung. Das neuronale Netzwerk lernt beim Training eigenständig, wie der integrierte Kameraregelungsparameter verwendet werden soll, um die Objekterkennung erfolgreich durchführen zu können.
Der hier vorgestellte Ansatz schafft ferner eine Vorrichtung, die ausgebildet ist, um die Schritte einer Variante des hier vorgestellten Verfahrens zur Objekterkennung in entsprechenden Einrichtungen durchzuführen, anzusteuern bzw. umzusetzen. Auch durch diese Ausführungsvariante der Erfindung in Form einer Vorrichtung zur Objekterkennung kann die der Erfindung zugrunde liegende Aufgabe schnell und effizient gelöst werden.
Hierzu kann die Vorrichtung zur Objekterkennung zumindest eine Recheneinheit zum Verarbeiten von Signalen oder Daten, zumindest eine Speichereinheit zum Speichern von Signalen oder Daten, zumindest eine Schnittstelle zu einem Sensor oder einem Aktor zum Einlesen von Sensorsignalen von dem Sensor oder zum Ausgeben von Daten- oder Steuersignalen an den Aktor und/oder zumindest eine Kommunikationsschnittstelle zum Einlesen oder Ausgeben von Daten aufweisen, die in ein Kommunikationsprotokoll eingebettet sind. Die Recheneinheit kann beispielsweise ein Signalprozessor, ein Mikrocontroller oder dergleichen sein, wobei die Speichereinheit ein Flash-Speicher, ein EEPROM oder eine magnetische Speichereinheit sein kann. Die Kommunikationsschnittstelle kann ausgebildet sein, um Daten drahtlos und/oder leitungsgebunden einzulesen oder auszugeben, wobei eine Kommunikationsschnittstelle, die leitungsgebundene Daten einlesen oder ausgeben kann, diese Daten beispielsweise elektrisch oder optisch aus einer entsprechenden Datenübertragungsleitung einlesen oder in eine entsprechende Datenübertragungsleitung ausgeben kann.
Unter einer Vorrichtung zur Objekterkennung kann vorliegend ein elektrisches Gerät verstanden werden, das Sensorsignale verarbeitet und in Abhängigkeit davon Steuer- und/oder Datensignale ausgibt. Die Vorrichtung zur Objekterkennung kann eine Schnittstelle aufweisen, die hard- und/oder softwaremäßig ausgebildet sein kann. Bei einer hardwaremäßigen Ausbildung können die Schnittstellen beispielsweise Teil eines sogenannten System-ASICs sein, der verschiedenste Funktionen der Vorrichtung zur Objekterkennung beinhaltet. Es ist jedoch auch möglich, dass die Schnittstellen eigene, integrierte Schaltkreise sind oder zumindest teilweise aus diskreten Bauelementen bestehen. Bei einer softwaremäßigen Ausbildung können die Schnittstellen Softwaremodule sein, die beispielsweise auf einem Mikrocontroller neben anderen Softwaremodulen vorhanden sind.
Von Vorteil ist auch ein Computerprogrammprodukt oder Computerprogramm mit Programmcode, der auf einem maschinenlesbaren Träger oder Speichermedium wie einem Halbleiterspeicher, einem Festplattenspeicher oder einem optischen Speicher gespeichert sein kann und zur Durchführung, Umsetzung und/oder Ansteuerung der Schritte des Verfahrens nach einer der vorstehend beschriebenen Ausführungsformen verwendet wird, insbesondere wenn das Programmprodukt oder Programm auf einem Computer oder einer Vorrichtung ausgeführt wird.
Ausführungsbeispiele des hier vorgestellten Ansatzes sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:

1 einen schematischen Systemaufbau einer Objekterkennung basierend auf einer Vorrichtung zur Objekterkennung gemäß einem Ausführungsbeispiel;
2 einen vereinfachten schematischen Systemablauf eines Verfahrens zur Objekterkennung gemäß einem Ausführungsbeispiel;
3 eine Darstellung zur Erläuterung der Bedeutung einer aktiven Kameraregelung mittels eines Kameraregelparameters bei einer Objekterkennung und/oder einer Personen-Wiedererkennung in der videobasierten Überwachungstechnik gemäß einem Ausführungsbeispiel; und
4 ein Ablaufdiagramm eines Ausführungsbeispiels eines Verfahrens zur Objekterkennung gemäß einem Ausführungsbeispiel.

In der nachfolgenden Beschreibung günstiger Ausführungsbeispiele der vorliegenden Erfindung werden für die in den verschiedenen Figuren dargestellten und ähnlich wirkenden Elemente gleiche oder ähnliche Bezugszeichen verwendet, wobei auf eine wiederholte Beschreibung dieser Elemente verzichtet wird.
1 zeigt einen schematischen Systemaufbau einer Objekterkennung basierend auf einer Vorrichtung 100 zur Objekterkennung gemäß einem Ausführungsbeispiel. Da der hier vorgestellte Verfahrensansatz sowohl in der videobasierten Überwachungstechnik, als auch im Automotivbereich eingesetzt werden kann, umfasst der Systemaufbau zunächst eine Überwachungskamera 105, die gemäß einem Ausführungsbeispiel Teil eines Kameranetzwerks ist sowie ferner eine Umfeldsensorkamera 110, die als Umfeldsensor an einem Fahrzeug 115 angeordnet ist und der Erfassung eines Umfelds des Fahrzeugs 115 dient. Der schematische Systemaufbau weist weiterhin die Vorrichtung 100 zur Objekterkennung auf, die gemäß eines Ausführungsbeispiels auf einer externen Recheneinheit 120 angeordnet ist, wobei die externe Recheneinheit 120 außerdem ein künstliches neuronales Netzwerk 125 aufweist.
Die Überwachungskamera 105 detektiert in einem durch die Überwachungskamera 105 zu überwachenden Bereich eine auffällige Person 107. Die Überwachungskamera 105 liest daraufhin eine Mehrzahl von Bildsignalen 130 ein, wobei die Bildsignale 130 je eine von der Überwachungskamera 105 aufgenommene der detektierten Person 107 repräsentieren. Die Überwachungskamera 105 ist nun ausgebildet einen Kameraregelparameter 140 zur Einstellung einer Aufnahmeeigenschaft der Überwachungskamera 105 unter Verwendung der Mehrzahl eingelesener der Person 107 zu bestimmen. Als Kameraregelparameter 140 kann hierbei eine Helligkeit und/oder ein Kontrast und/oder eine Farbdarstellung und/oder eine Apertur-Öffnung und/oder ein Gain und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) und/oder ein Pixelfehler verwendet werden. Im Folgenden stellt die Überwachungskamera 105 die Mehrzahl eingelesener der Person 107 in Form einer Mehrzahl von Eingangsdatensignalen 145 sowie den Kameraregelparameter 140 an eine Einleseeinrichtung 150 der Vorrichtung 110 zur Objekterkennung bereit.
Die Umfeldsensorkamera 110, die als Umfeldsensor an dem Fahrzeug 115 angeordnet ist, detektiert ein Objekt 117 im Umfeld des Fahrzeugs 115. Die Umfeldsensorkamera 110 liest daraufhin eine Mehrzahl von Bildsignalen 130 ein, wobei die Bildsignale 130 je eine von der Umfeldsensorkamera 110 aufgenommene des detektierten Objekts 117 repräsentieren. Die Umfeldsensorkamera 110 ist nun ausgebildet, einen Kameraregelparameter 140 zur Einstellung einer Aufnahmeeigenschaft der Umfeldsensorkamera 110 unter Verwendung der Mehrzahl eingelesener des Objekts 117 zu bestimmen. Als Kameraregelparameter 140 kann hierbei eine Helligkeit und/oder ein Kontrast und/oder eine Farbdarstellung und/oder eine Apertur-Öffnung und/oder ein Gain und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) und/oder ein Pixelfehler verwendet werden. Im Folgenden stellt die Umfeldsensorkamera 110 die Mehrzahl eingelesener des Objekts 117 in Form einer Mehrzahl von Eingangsdatensignalen 145 sowie den Kameraregelparameter 140 an die Einleseeinrichtung 150 der Vorrichtung 100 zur Objekterkennung bereit.
Die Vorrichtung 100 zur Objekterkennung weist die Einleseeinrichtung 150 und eine Erkennungseinrichtung 155 auf. Die Einleseeinrichtung 150 ist ausgebildet die Mehrzahl von Eingangsdatensignalen 145 sowie den bestimmten Kameraregelparameter 140 zur Einstellung einer Aufnahmeeigenschaft der Kamera 105, 110 einzulesen. Die Mehrzahl von Eingangsdatensignalen 145 repräsentiert hierbei die von zumindest einer der Kameras 105, 110 aufgenommenen der zu erkennenden Person 107 und/oder des zu erkennenden Objekts 117, wobei die Eingangsdatensignale 145 von der Überwachungskamera 105 sowie der Umfeldsensorkamera 110 des Fahrzeugs 115 an die Einleseeinrichtung 150 bereitgestellt werden. Die Einleseeinrichtung 150 ist weiterhin ausgebildet, den eingelesenen Kameraregelparameter 140 zum Einlesen von zumindest einem weiteren Eingangsdatensignal 145 anzuwenden. Ferner ist die Einleseeinrichtung 150 ausgebildet, jeden Bildpunkt eines das Eingangsdatensignal 145 bildenden Abbilds 135 der zu erkennenden Person 107 und/oder des zu erkennenden Objekts 117 in einem 565-Format einzulesen. So ist die Einleseeinrichtung 150 zudem ausgebildet, die Eingangsdatensignale 145 in einem RGB-Format oder YUV-Format einzulesen, insbesondere wobei die Eingangsdatensignale 145 mit einer Auflösung von 16 Bit pro Farbkanal eingelesen werden. Gemäß eines Ausführungsbeispiels wird der Kameraregelparameter 140 mit zumindest einem Knoten 160 aus einer ersten Hälfte von Schichten des neuronalen Netzwerks 125 gekoppelt. Das neuronale Netzwerk 125 besteht aus einer Vielzahl an Knoten. Diese Knoten dienen dazu, Informationen aus der Umwelt oder von anderen Knoten aufzunehmen und an andere Knoten oder die Umwelt in modifizierter Form weiterzuleiten. Die Erkennungseinrichtung 155 ist schließlich ausgebildet, die Person 107 und/oder das Objekt 117 unter Verwendung des bestimmten Kameraregelparameters 140 in dem neuronalen Netzwerk 125 zu erkennen. Als Objekt 117 kann hierbei insbesondere ein weiteres Fahrzeug 117 erkannt werden. Die Erkennungseinrichtung 155 kann die Person 107 und/oder das Objekt 117 insbesondere auf Grundlage eines vorhergehenden Trainings des neuronalen Netzwerks 125 unter Verwendung des Kameraregelparameters 140 erkennen. Das Ergebnis der Objekterkennung wird dann in Form eines Objektausgabesignals 165 an eine Anzeigeeinrichtung 170 zur Anzeige der erkannten Person 107 und/oder des erkannten Objekts 117 bereitgestellt, wobei das Objektausgabesignal 165 eine prozentuale Angabe repräsentiert, mit welcher Wahrscheinlichkeit es sich bei dem erkannten Objekt 117 beispielsweise um eine Person 107 und/oder ein Fahrzeug 117 handelt. Alternativ ist auch die Verwendung eines Scores möglich ohne Verwendung einer Wahrscheinlichkeit.
2 zeigt einen vereinfachten schematischen Systemablauf 200 eines Verfahrens zur Objekterkennung gemäß einem Ausführungsbeispiel. Der Systemablauf 200 weist die Eingangsdatensignale 145, den Kameraregelparameter 140, eine Eingabeschicht 205 eines neuronalen Netzwerks 125, eine Zwischenschicht 210 und eine Ausgabeschicht 215 des neuronalen Netzwerks 125, wobei die Zwischenschicht 210 und die Ausgabeschicht 215 gemäß einem Ausführungsbeispiel in der 2 bildlich zusammengefasst sind, sowie das Objektausgabesignal 165 und die Anzeigeeinrichtung 170 zur Anzeige des erkannten Objekts auf.
Die Eingangsdatensignale 145 repräsentieren die von zumindest einer der Kameras aufgenommenen Abbildungen des zu erkennenden Objekts, die insbesondere von einer Umfeldsensorkamera eines Fahrzeugs und/oder einer Überwachungskamera bereitgestellt werden. Klassische Verfahren zur Objekterkennung mittels eines neuronalen Netzwerks 125 haben als Eingangsdatensignale 145 zweidimensionale Bilder (RGB), die in der Eingabeschicht 205 des neuronalen Netzwerks 125 repräsentiert werden. Eine geringe Anzahl von Ansätzen verwendet dreidimensionale Informationen (RGB-D), beispielsweise aus Punktwolken, da heutige Rechenhardware noch limitiert ist. In dem hier gezeigten Systemablauf 200 werden die Eingangsdatensignale 145 sowohl in einem RGB-Format als auch in einem RGB-D-Format eingelesen, insbesondere wobei die Eingangsdatensignale 145 mit einer Auflösung von 16 Bit pro Farbkanal eingelesen werden. Der Kameraregelparameter 140, zur Einstellung einer Aufnahmeeigenschaft der Kamera, kann im neuronalen Netzwerk 125 als sogenannte Early- oder Late-Fusion oder Hybrid-Fusion eingelesen werden, wobei bei einer Early-Fusion der Kameraregelparameter 140 mit einem Knoten aus einer ersten Hälfte von Schichten und bei einer Late-Fusion mit einem Knoten aus einer zweiten Hälfte von Schichten des neuronalen Netzwerks 125 gekoppelt wird. Gemäß einem Ausführungsbeispiel wird der Kameraregelparameter 140 bereits mit der ersten Eingabeschicht 205 des neuronalen Netzwerks 125 gekoppelt. Bevor die Objekterkennung erfolgen kann, wird das neuronale Netzwerk 125 zur Erkennung eines Objekts aus den Eingangsdatensignalen 145 unter Verwendung des Kameraregelparameters 140 trainiert. Die Eingabeschicht 205 des neuronalen Netzwerks 125 dient hierbei als Startpunkt des Informationsflusses. Die Eingangsdatensignale 145 und der Kameraregelparameter 140 werden von den Knoten am Anfang der Eingabeschicht 205 aufgenommen und am Ende gewichtet an die Knoten der ersten Zwischenschicht 210 weitergegeben. Dabei gibt ein Knoten der Eingabeschicht 205 die jeweilige Information an alle Knoten der ersten Zwischenschicht 210 weiter. Zwischen der Eingabeschicht 205 und der Ausgabeschicht 215 befindet sich in jedem neuronalen Netzwerk 125 zumindest eine Zwischenschicht 210. Je mehr Zwischenschichten 210 es gibt, desto tiefer ist das neuronale Netzwerk 125, im englischen spricht man daher auch von dem sogenannten „Deep Learning“. Theoretisch ist die Anzahl der möglichen Zwischenschichten 210 in einem neuronalen Netzwerk 125 unbegrenzt. In der Praxis bewirkt jede hinzukommende Zwischenschicht 210 jedoch auch einen Anstieg der benötigten Rechenleistung, die für den Betrieb des neuronalen Netzwerks 125 notwendig ist. Die Ausgabeschicht 215 liegt hinter der oder den Zwischenschichten 210 und bildet die letzte Schicht im neuronalen Netzwerk 125. Die in der Ausgabeschicht 215 angeordneten Knoten sind jeweils mit allen Knoten der letzten Zwischenschicht 210 verbunden. Die Ausgabeschicht 215 stellt den Endpunkt des Informationsflusses in einem neuronalen Netzwerk 125 dar und enthält das Ergebnis der Informationsverarbeitung durch das neuronale Netzwerk 125. Das Ergebnis der Informationsverarbeitung wird dann in Form eines Objektausgabesignals 165 an die Anzeigeeinrichtung 170 zur Darstellung des erkannten Objekts bereitgestellt, wobei das Objektausgabesignal 165 eine prozentuale Angabe repräsentiert, mit welcher Wahrscheinlichkeit es sich bei dem erkannten Objekt beispielsweise um eine Person oder ein Fahrzeug handelt. Alternativ kann ein Score (Ähnlichkeitsmaß) statt einer Wahrscheinlichkeit verwendet werden.
Die maschinelle Szeneninterpretation konnte aufgrund von schneller werdender Hardware und großen Erfolgen im Bereich des bereits oben erwähnten „Deep Learning“ in den letzten Jahren riesige Fortschritte erzielen. Informationsverarbeitungssysteme aus den Zeiten vor „Deep Learning“ können mit selbst lernenden Verfahren inzwischen nicht mehr mithalten. Das „Deep Learning“ beschreibt einen Teilbereich des maschinellen Lernens und nutzt künstliche neuronale Netzwerke 125 sowie große Datenmengen zum Trainieren einer künstlichen Intelligenz. Beim „Deep Learning“ gibt man Eingangsdaten vor, die mit einem zusätzlichen Label annotiert sind, beispielsweise Fahrzeug oder Person, und die Algorithmen lernen selbstständig anhand des Trainingsmaterials beispielsweise ein Fahrzeug zu erkennen, oder semantischen Szeneninhalt zu segmentieren oder Personen bei der Personen-Wiedererkennung zu unterscheiden. Da die Verfahren ausschließlich datengetrieben arbeiten, werden im angelsächsischen Raum von führenden Computer- und Softwarefirmen Bilder von Nutzern für das Training neuronaler Netzwerke 125 verwendet, um eine hohe Leistung zu erreichen und damit neue ungesehene Eingangsbilder auch erfolgreich auswerten und generalisieren zu können. Die Eingangsdaten werden von Millionen unterschiedlichen Kameras in Handys und Fotoapparaten aufgenommen. Somit steht eine Vielfalt von unterschiedlichen Sensoren zur Verfügung und neuronale Netzwerke 125 können auf Daten diverser Sensoren erfolgreich arbeiten.
3 zeigt eine Darstellung zur Erläuterung der Bedeutung einer aktiven Kameraregelung mittels eines Kameraregelparameters bei einer Objekterkennung und/oder einer Personen-Wiedererkennung in der videobasierten Überwachungstechnik gemäß einem Ausführungsbeispiel. Die Darstellung weist hierbei vier aufgenommene Bildausschnitte 305, 310, 315, 320 auf, die von einer Überwachungskamera eines Kameranetzwerks zu vier verschiedenen Zeitpunkten aufgenommen sind.
Nachfolgend ist in den Bildausschnitten 305, 310, 315, 320 eine Szene visualisiert, in der die Überwachungskamera über die Zeit mittels eines Kameraregelparameters geregelt hat. Auf den Bildausschnitten 305, 310, 315, 320 ist eine von der Überwachungskamera detektierte Person 107 zu sehen, die über einen bestimmten Zeitraum hinweg entlang einer Bewegungstrajektorie 330 verfolgt wird. Das vergrößerte linke Bild 340 zeigt eine übereinandergelegte Gesamtszene der vier aufgenommenen Bildausschnitte 305, 310, 315, 320. Die vier Bildausschnitte 305, 310, 315, 320 wurden zu je vier unterschiedlichen Zeitpunkten aufgenommen, wobei der Bildausschnitt 305 zum Zeitpunkt t-3 zuerst aufgenommen wurde, gefolgt von dem Bildausschnitt 310 zum Zeitpunkt t-2, gefolgt von dem Bildausschnitt 315 zum Zeitpunkt t-1. Der Bildausschnitt 320, aufgenommen zum Zeitpunkt t, zeigt den aktuellsten Bildausschnitt. Hierbei ist gut zu erkennen, dass sich die Farben und die Helligkeit in den gezeigten Bildausschnitten 305, 310, 315, 320 über die Zeit leicht verändern. Klassische heutige Ansätze zur Objekterkennung und/oder zur Personen-Wiedererkennung hätten hier Probleme, wollten sie die Person 107 in einer zweiten Überwachungskamera des Kameranetzwerks wiederfinden, da die Farben und Kantenstärken in den Bildausschnitten 305, 310, 315, 320 über die Zeit variieren. Mit der hier vorgestellten Einbeziehung der Kameraregelung kann ein neuronales Netzwerk selbstständig lernen mit der Kameraregelung umzugehen und lernt, dass die Szene sich verändert hat, sobald die Kamera geregelt hat.
In 3 ist außerdem eine Funktion 345 zur Aktivität der Kameraregelung dargestellt, deren x-Achse gemäß einem Ausführungsbeispiel einen Helligkeitsparameter und deren y-Achse einen Zeitverlauf angibt. Der Graph 350 der Funktion 345 zeigt hierbei eine Aktivität der Kameraregelung an, wobei deutlich wird, dass hinweg des Zeitverlaufs für jeden der vier aufgenommenen Bildausschnitte 305, 310, 315, 320 die Kameraregelung aktiv verändert ist.
Mittels Kameraregelung wird in jedem aufgenommenen Bildausschnitt 305, 310, 315, 320 eine Aufnahmeeigenschaft der Überwachungskamera unter Verwendung eines bestimmten Kameraregelparameters verändert, so dass zu den Zeitpunkten t-2, t-1 und t neue Daten für das Training der Objekterkennung mittels eines neuronalen Netzwerks erzeugt werden. Bei dem Kameraregelparameter kann es sich um einen Parameter zur Anpassung einer Helligkeit und/oder eines Kontrasts und/oder einer Farbdarstellung und/oder einer Apertur-Öffnung und/oder eines Gain und/oder eines Pixelfehlers und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) an die Bildausschnitte 305, 310, 315, 320 handeln.
Durch aktive Steuerung der Kameraregelung mittels eines Kameraregelparameters kann ferner die Datenvariabilität entlang der Bewegungstrajektorie 330 der Person 107 deutlich gesteigert werden. Durch die künstlich angereicherten Daten lassen sich robustere Modelle zur Objekterkennung und/oder zur Personen-Wiedererkennung mittels neuronaler Netzwerke trainieren. Die aktive Steuerung der Kameraregelung hat eine direkte Auswirkung auf die Darstellung des Kamerabildes. Durch Unterbrechung der aktiven Kameraregelung kann keine sinnvolle Datenanreicherung mehr erfolgen, was die Genauigkeit der Objekterkennung und/oder Personen-Wiedererkennung deutlich mindern würde.
4 zeigt ein Ablaufdiagramm eines Ausführungsbeispiels eines Verfahrens 400 zur Objekterkennung gemäß einem Ausführungsbeispiel. Das Verfahren 400 kann unter Verwendung der in 1 vorgestellten Vorrichtung zur Objekterkennung verwendet werden.
In einem vorgeordneten Schritt 405 des Verfahrens 400, wird der Kameraregelparameter zur Einstellung einer Aufnahmeeigenschaft der Kamera unter Verwendung einer Mehrzahl eingelesener Abbildungen eines Objekts bestimmt. Als Kameraregelparameter kann hierbei eine Helligkeit und/oder ein Kontrast und/oder eine Farbdarstellung und/oder eine Apertur-Öffnung und/oder ein Gain und/oder ein Pixelfehler und/oder eine Information über eine Farbkorektur/ Color Correction (Tone Mapping) und/oder eine Bildwiederholfrequenz und/oder eine Information über eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung (Noise Reduction) verwendet werden. Das Verfahren 400 weist anschließend einen Schritt 410 auf, bei dem eine Mehrzahl von Eingangsdatensignalen sowie der bestimmte Kameraregelparameter, zur Einstellung einer Aufnahmeeigenschaft der Kamera, eingelesen werden. Hierbei repräsentieren die Eingangsdatensignale die von zumindest einer Kamera aufgenommenen Abbildungen des zu erkennenden Objekts. Der Kameraregelparameter kann nun im Schritt 410 zum Einlesen von zumindest einem weiteren Eingangsdatensignal angewendet werden. Ferner wird im Schritt 410 jeder Bildpunkt eines das Eingangsdatensignal bildenden Abbilds in einem 565-Format (YCbCr siehe ITU-R BT) eingelesen. Zudem werden im Schritt 410 des Verfahrens 400 die Eingangsdatensignale in einem RGB-Format eingelesen, insbesondere wobei die Eingangsdatensignale mit einer Auflösung von 16 Bit pro Farbkanal eingelesen werden. Schließlich wird der Kameraregelparameter im Schritt 410 des Verfahrens 400 mit einem Knoten aus einer ersten Hälfte von Schichten und/oder mit einem Knoten aus einer zweiten Hälfte von Schichten des neuronalen Netzwerks gekoppelt. Der Schritt 410 des Verfahrens 400 wird insbesondere in einer Recheneinheit eines Fahrzeugs und/oder einer zentralen Recheneinheit eines ortsfesten Kameranetzwerks ausgeführt und wiederholt und/oder zyklisch wiederholt ausgeführt. Das Verfahren 400 weist im Folgenden einen Schritt 415 auf, bei dem das neuronale Netzwerk zur Erkennung eines Objekts aus den Eingangsdatensignalen trainiert wird. Hierbei erfolgt der Schritt 415 unter Verwendung des Kameraregelparameters. Das Verfahren 400 weist schließlich einen Schritt 420 auf, bei dem das Objekt unter Verwendung des bestimmten Kameraregelparameters in einem neuronalen Netzwerk erkannt wird. Als Objekt kann hierbei insbesondere eine Person und/oder ein Fahrzeug erkannt werden.
Umfasst ein Ausführungsbeispiel eine „und/oder“-Verknüpfung zwischen einem ersten Merkmal und einem zweiten Merkmal, so ist dies so zu lesen, dass das Ausführungsbeispiel gemäß einer Ausführungsform sowohl das erste Merkmal als auch das zweite Merkmal und gemäß einer weiteren Ausführungsform entweder nur das erste Merkmal oder nur das zweite Merkmal aufweist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102009055127 A1 [0003]

Claims

Verfahren (400) zur Objekterkennung, wobei das Verfahren (400) die folgenden Schritte aufweist: Einlesen (410) zumindest eines Eingangsdatensignals (145), wobei das Eingangsdatensignal (145) eine von zumindest einer Kamera (105, 110) aufgenommene Abbildung (135) eines Objekts (107, 117) repräsentiert, sowie eines bestimmten Kameraregelparameters (140) zur Einstellung einer Aufnahmeeigenschaft der Kamera (105, 110); und Erkennen (420) des Objekts (107, 117) unter Verwendung des bestimmten Kameraregelparameters (140) in einem neuronalen Netzwerk (125).
Verfahren (400) gemäß Anspruch 1, mit einem Schritt des Bestimmens (405) des Kameraregelparameters (140) zur Einstellung einer Aufnahmeeigenschaft der Kamera (105, 110) unter Verwendung einer Mehrzahl eingelesener Abbildungen (135) des Objekts (107, 117), insbesondere wobei im Schritt des Einlesens (410) der bestimmte Kameraregelparameter (140) zum Einlesen von zumindest einem weiteren Eingangsdatensignal (145) angewendet wird.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Einlesens (410) als Kameraregelparameter (140) eine Helligkeit und/oder ein Kontrast und/oder eine Farbdarstellung und/oder eine Apertur-Öffnung und/oder ein Gain und/oder ein Pixelfehler und/oder eine Information über eine Farbkorrektur und/oder eine Bildwiederholfrequenz und/oder eine Belichtungszeit und/oder eine Analog-Digitalwandler-Einstellung und/oder eine Information über einen Weissabgleich und/oder eine Infrarotfiltereinstellung und/oder eine Fokuseinstellung und/oder eine Information über eine zeitliche Rauschfilterung verwendet wird.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Einlesens (410) der Kameraregelparameter (140) mit einem Knoten (160) aus einer ersten Hälfte von Schichten und/oder mit einem Knoten aus einer zweiten Hälfte von Schichten des neuronalen Netzwerks (125) gekoppelt wird.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Einlesens (410) jeder Bildpunkt eines das Eingangsdatensignal (145) bildenden Abbilds (135) in einem 565-Format eingelesenen wird, wobei im Schritt des Erkennens (420) die Bildpunkte im 565-Format verarbeitet werden.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Einlesens (410) die Eingangsdatensignale (145) in einem RGB-Format oder YCbCr eingelesen werden, insbesondere wobei die Eingangsdatensignale (145) mit einer Auflösung von 16 Bit oder 12 Bit pro Farbkanal eingelesen werden.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem zumindest der Schritt des Einlesens (410) wiederholt und/oder zyklisch wiederholt wird.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, mit einem Schritt des Trainierens (415) des neuronalen Netzwerks (125) zur Erkennung eines Objekts (107, 117) aus den Eingangsdatensignalen (145), wobei der Schritt des Trainierens (415) unter Verwendung des Kameraregelparameters (140) erfolgt.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem der Schritt des Einlesens (410) in einer Recheneinheit (120) eines Fahrzeugs (115) und/oder einer zentralen Recheneinheit (120) eines ortsfesten Kameranetzwerks ausgeführt wird.
Verfahren (400) gemäß einem der vorangegangenen Ansprüche, bei dem im Schritt des Erkennens (420) eine Person (107) und/oder ein Fahrzeug (117) als Objekt (107, 117) erkannt wird.
Vorrichtung (100), die eingerichtet ist, um die Schritte des Verfahrens (400) gemäß einem der vorangegangenen Ansprüche in entsprechenden Einheiten auszuführen und/oder anzusteuern.
Computerprogramm, das dazu eingerichtet ist, die Schritte (410, 420) des Verfahrens (400) gemäß einem der vorangegangenen Ansprüche in entsprechenden Einheiten (150, 155) auszuführen und/oder anzusteuern.
Maschinenlesbares, insbesondere nichtflüchtiges maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 12 gespeichert ist.