-
Stand der Technik
-
Es wird ein Verfahren zur Generierung von Eingangsdaten für eine Objekterkennung vorgeschlagen, wobei von einem Überwachungsbereich erste und zweite Bilder aufgenommen werden und eine Disparitätskarte bestimmt wird.
-
Methoden der Objekterkennung finden in vielen Bereichen der Technik und des Alltags Anwendungen. So werden häufig Gebäude, wie Flughäfen, videotechnisch überwacht, wobei Personen und/oder Objekte in den Videobildern beispielsweise aufgefunden, erkannt und verfolgt werden sollen. Ferner findet die Objekterkennung in der Überwachung und Auswertung von Fahrzeugumgebungen Anwendung, wobei beispielsweise eine Personenerkennung zur Einleitung von Bremsmanövern als Fahrassistenzsystem und/oder zum autonomen Fahren besonders relevant scheint.
-
Die Druckschrift
US 2019/0050998 A1 , die wohl den nächstkommenden Stand der Technik bildet, beschreibt ein Verfahren und ein System zum Ermitteln einer 3D-Karte und eines optischen Flusses basierend auf einer Mehrzahl an Bildsensoren. Das Verfahren sieht die Bestimmung des optischen Flusses in den 2D-Bildaufnahmen der Bildsensoren vor, worauf basierend auf diesem Fluss die 3D-Karte bestimmt wird.
-
Offenbarung der Erfindung
-
Es wird ein Verfahren zur Generierung von Eingangsdaten für eine Objekterkennung mit den Merkmalen des Anspruchs 1 vorgeschlagen. Ferner werden ein Computerprogramm, ein maschinenlesbares Speichermedium, eine Steuereinrichtung und ein Fahrzeug vorgeschlagen. Bevorzugte und/oder vorteilhafte Ausführungsformen der Erfindung ergeben sich aus den Unteransprüchen, der Beschreibung und den beigefügten Figuren.
-
Es wird ein Verfahren zur Generierung und/oder Bereitstellung von Eingangsdaten vorgeschlagen. Die Eingangsdaten bilden beispielsweise Eingangsdaten für eine Objekterkennung, insbesondere multimodale Objekterkennung. Die Eingangsdaten sind beispielsweise als Datengrundlage für einen Objekterkennungsalgorithmus ausgebildet. Insbesondere sind die Eingangsdaten ausgebildet, in einer maschinenlernender und/oder auf einem neuronalen Netz, im Speziellen Convolutional neuronalen Netz, basierender Steuereinrichtung ausgewertet zu werden. Das Verfahren ist beispielsweise zur Ausführung auf einem Computer, einer Steuereinrichtung oder einer Kamera ausgebildet. Im Speziellen ist das Verfahren zum Einsatz im autonomen Fahren, beispielsweise eines PKWs, landwirtschaftlichen Fahrzeuges oder Fluggerätes, ausgebildet.
-
Der Überwachungsbereich ist insbesondere ein kamera-, bildtechnisch und/oder videotechnisch überwachter Bereich. Vorzugsweise ist der Überwachungsbereich die Umgebung um ein Fahrzeug, beispielsweise PKW, landwirtschaftliches Fahrzeug oder Fluggerät. Der Überwachungsbereich kann ferner als ein Gefahrenbereich, beispielsweise einer Produktionsanlage bzw. Maschine, ausgebildet sein. Die erscheinenden Objekte sind beispielsweise Personen, Tiere oder sachliche Objekte.
-
Das Verfahren sieht die Aufnahme eines ersten Bildes und eines zweiten Bildes vor. Die Aufnahme der Bilder kann dem Verfahren auch vorgelagert sein, sodass das Verfahren die Übernahme des ersten und des zweiten Bildes, beispielsweise von einer Kamera, vorsieht. Das erste Bild und das zweite Bild werden insbesondere zeitgleich aufgenommen. Die Aufnahme des ersten und des zweiten Bildes erfolgt beispielsweise mit einer Stereokamera. Das erste und das zweite Bild stellen eine Aufnahme des Überwachungsbereichs dar. Insbesondere erfolgt die Aufnahme des Überwachungsbereichs vorzugsweise als Farbaufnahme, alternativ als Grauaufnahme oder Schwarz-weiß-Aufnahme. Im Speziellen erfolgt die Aufnahme des ersten Bildes und des zweiten Bildes mit einer Kamera des Fahrzeugs, beispielsweise einer Frontkamera oder einer Rückkamera. Das erste Bild und das zweite Bild sind ausgebildet, gemeinsam in einer stereoskopischen Bildverarbeitung verarbeitet werden zu können. Besonders bevorzugt ist es, dass die Aufnahme des ersten Bildes und des zweiten Bildes mit einer Bildrate von mindestens 20 Hz, im Speziellen mindestens 30 Hz, erfolgt.
-
Das Verfahren sieht die Ermittlung und/oder Bestimmung einer ersten Disparitätskarte vor. Die Ermittlung und/oder Bestimmung der ersten Disparitätskarte erfolgt basierend und/oder mit dem ersten und dem zweiten Bild. Im Speziellen kann statt und/oder ergänzend zu der ersten Disparitätskarte eine Tiefenkarte des Überwachungsbereichs bestimmt und/oder ermittelt werden. Die erste Disparitätskarte beschreibt Tiefen- und/oder Abstandsverhältnisse von Objekten im Überwachungsbereich, beispielsweise relativ zueinander und/oder relativ zur Kamera. Die Tiefenkarte und/oder die erste Disparitätskarte ist insbesondere als eine Entfernungsaufnahme zu verstehen.
-
Es wird ein weiteres erstes Bild und ein weiteres zweites Bild aufgenommen oder übernommen. Die Aufnahme des weiteren ersten Bildes und des weiteren zweiten Bildes erfolgt insbesondere zeitgleich, zum Beispiel zu einem weiteren Zeitpunkt. Der weitere Zeitpunkt ist insbesondere nach dem ersten Zeitpunkt. Das weitere erste Bild und das weitere zweite Bild sind insbesondere von einer gleichen Kamera aufgenommen wie das erste und das zweite Bild. Vorzugsweise sind erstes Bild und weiteres erstes Bild und/oder zweites Bild und weiteres zweites Bild gleichartig ausgebildet.
-
Basierend auf dem weiteren ersten Bild und dem weiteren zweiten Bild wird eine weitere Disparitätskarte bestimmt. Die Bestimmung der weiteren Disparitätskarte erfolgt insbesondere gleich und/oder ähnlich wie die Bestimmung der ersten Disparitätskarte. Insbesondere sind erste und weitere Disparitätskarte gleich und/oder ähnlich ausgebildet, wobei die weitere Disparitätskarte beispielsweise eine zeitliche Weiterentwicklung der ersten Disparitätskarte beschreibt und/oder eine zeitliche Weiterentwicklung des Überwachungsbereichs beschreibt.
-
Es wird ein optischer Fluss bestimmt, insbesondere resultierend aus Veränderungen zwischen erster und weiterer Disparitätskarte. Der optische Fluss wird basierend und/oder für die erste und die weitere Disparitätskarte bestimmt. Der optische Fluss beschreibt damit beispielsweise eine Bewegung und/oder Veränderung von Abschnitten der Bilder und/oder von Objekten in dem Überwachungsbereich, wobei beispielsweise Entfernungsinformationen, Stereoinformationen und/oder Disparitätsinformationen berücksichtigt sind.
-
Der Erfindung liegt die Überlegung zu Grunde, dass eine Disparitätskarte eine Vielzahl an Informationen enthält. Teile dieser Informationen können nutzbar und vorteilhaft eingesetzt werden in einer Objekterkennung. Statt einen optischen Fluss in 2D-Aufnahmen auszuwerten, soll hier der optische Fluss der Disparitäten ausgewertet werden. Beispielsweise werden in bekannten Verfahren, in welchen optische Flüsse von 2D-Aufnahmen genutzt werden, Schatten fälschlicherweise als Personen oder Objekte erkannt. Schatten unterscheiden sich in Disparitätskarten aber sehr stark von normalen bzw. ausgedehnten Objekten, sodass hier eine Fehldetektion vermieden werden kann. Ferner sind durch optische Flüsse in Disparitätskarten Objekte besonders sicher und schnell erkennbar, die selbst in einen anderen Schatten hineintreten oder daraus heraustreten.
-
Auf Basis der Eingangsdaten wird insbesondere eine Objekterkennung ausgeführt, beispielsweise wird auf die Eingangsdaten ein Objekterkennungsalgorithmus angewendet. Die Eingangsdaten umfassen den optischen Fluss der Disparitätskarten. Insbesondere können die Eingangsdaten ausschließlich den optischen Fluss umfassen und/oder als relevante Daten für die Objekterkennung umfassen. Alternativ können die Eingangsdaten weitere Informationen umfassen, beispielsweise das erste, zweite, weitere erste, weitere zweite Bild, die erste Disparitätskarte, die zweite Disparitätskarte und/oder darauf basierend Daten. Als Objekterkennung kann beispielsweise die Bestimmung einer Bewegung als bewegendes Objekt, einer Objektart, zum Beispiel Mensch, Tier oder Objekt, basierend auf Objektmerkmalen verstanden werden. Die Objektmerkmale umfassen zum Beispiel Größe, Art, Typ, Bewegungsmuster, Größe, Form, Muster und/oder Kontrast. Dieser Ausgestaltung liegt die Überlegung zu Grunde, eine verbesserte Objekterkennung durch die Objekterkennung in Eingangsdaten vorzuschlagen, wobei die Eingangsdaten den optischen Fluss der Disparitätskarten umfassen, sodass insbesondere Schatten nicht fälschlich als Objekte erkannt und/oder gemeldet werden.
-
Die Objekterkennung umfasst insbesondere die Bestimmung einer Lage, Position, Größe und/oder Form der Objekte. Insbesondere wird durch die Objekterkennung für ein erkanntes Objekt eine Lokalisierung durchgeführt, beispielsweise in Form einer Bestimmung einer Boundingbox, einer Position, Lage und/oder einer Größe. Die Lokalisierung kann beispielsweise in Koordinaten des Überwachungsbereichs (z.B. Weltkoordinaten) oder in Koordinaten des ersten, zweiten, weiteren ersten, weiteren ersten Bildes, der ersten und/oder weiteren Disparitätskarte erfolgen. Insbesondere sind Lagen, Positionen und/oder Koordinaten zwischen erstem, zweiten, weiterem ersten, weiterem zweiten Bild, erster und/oder weiterer Disparitätskarte transformierbar und/oder gleich.
-
Vorzugsweise werden basierend auf den Eingangsdaten Objekte im Überwachungsbereich klassifiziert. Beispielsweise erfolgt die Objektklassifizierung mit und/oder bei der Objekterkennung. Beispielsweise können erkannte Objekte als relevante oder irrelevante Objekte klassifiziert werden, wobei beispielsweise als Objekte erkannte Schatten, zu kleine, zu große, zu schnelle, zu langsame und/oder falschfarbige Objekte als irrelevant klassifiziert werden, wobei irrelevante Objekte vorzugsweise verworfen werden. Beispielsweise ist die Objektklassifikation als Einteilung in Mensch und Nichtmensch ausgebildet.
-
Insbesondere ist es vorgesehen, dass die Objekterkennung und/oder die Objektklassifizierung dient basierend auf dem bestimmten optischen Fluss der Disparitätskarten erfolgt. Vorzugsweise erfolgt die Objekterkennung und/oder Objektklassifizierung auf dem optischen Fluss der Disparitätskarten ohne wieder zurückzugreifen auf das erste Bilder, das zweite Bild, das weitere erste Bild, das weitere zweite Bild und/oder einen optischen Fluss zwischen ersten Bild, zweiten Bild, weiterem ersten und/oder zweiten Bild. Beispielsweise erfolgt die Objekterkennung und/oder Objektklassifizierung mittels eines Algorithmus und/oder eines neuronalen Netzes, wobei den Eingang des Algorithmus und/oder neuronalen Netzes der optische Fluss der Disparitätskarten bildet.
-
Vorzugsweise wird das Verfahren als maschinell lernendes Verfahren und/oder mittels eines, insbesondere convolutional, neuronalen Netzes ausgeführt. Im Speziellen ist die Objekterkennung und/oder Objektklassifizierung maschinell lernend und/oder als, insbesondere convolutional, neuronales Netz ausgeführt. Die Eingangsdaten bilden insbesondere eine Grundlage und/oder Eingangswerte für das maschinelle Lernen und/oder das neuronale Netz. Vorzugsweise bilden die Eingangsdaten Daten zum Trainieren des neuronalen Netzes.
-
Eine Ausgestaltung sieht vor, dass Bildflussdaten bestimmt werden. Bildflussdaten beschreiben insbesondere einen optischen Fluss in 2D-Bildern. Beispielsweise werden als Bildflussdaten der optische Fluss bezüglich erstem Bild und weiterem ersten Bild und/oder zweitem Bild und weiterem zweiten Bild bestimmt. Die erkannten Objekte, die Ergebnisse der Objekterkennung und/oder die Ergebnisse der Objektklassifizierung werden beispielsweise auf Plausibilität geprüft. Die Prüfung auf Plausibilität kann beispielsweise erkannte Objekte nachträglich als verwerfen, aus unplausibel einstufen und/oder als irrelevant setzen. Die Prüfung auf Plausibilität erfolgt insbesondere basierend auf den Bildflussdaten. Alternativ und/oder ergänzend können erstes, zweites, weiteres erste und/oder weiteres zweites Bild in einer Bildauswertung ausgewertet werden, wobei bei beispielsweise Objekte, Formen, Größen und/oder Geschwindigkeiten als Bildauswertedaten bestimmt werden, wobei die Plausibilitätsprüfung beispielsweise basierend auf den Bildauswertedaten erfolgt.
-
Besonders bevorzugt ist die Bestimmung, Detektierung und/oder Erkennung eines Schattenwurfs. Der Schattenwurf wird basierend auf den Disparitätskarten bestimmt, insbesondere basierend auf dem optischen Fluss der Disparitätskarten. Disparitätskarten umfassen eine Tiefen- bzw. Abstandsinformation. Insbesondere werden diese Tiefen- bzw. Abstandinformationen genutzt eine Steigung und/oder Fluchtlinie zu bestimmen.
-
Dieser Ausgestaltung liegt die Überlegung zu Grunde, dass freie Bereiche, wie Straßen, eben und/oder flach ausgebildet sind, wobei diese in der Disparitätskarte im Wesentlichen der freien Fluchtlinie folgen. Reale Hindernisse und/oder Objekte folgen selten der freien Fluchtlinie. Somit kann basierend auf der Disparitätskarte ein Schatten als Schattenwurf detektiert werden. Schattenwurf und/oder Abschnitte der Disparitätskarte, Überwachungsbereich, erstem, zweiten, weiterem ersten und/oder weiterem zweiten Bild mit Schatten werden vorzugsweise von der Objektdetektion und/oder Objektklassifizierung ausgeschlossen.
-
Die Objekterkennung ist vorzugsweise als eine Personenerkennung ausgebildet. Beispielsweise erfolgt die Personenerkennung basierend auf charakteristischen Personenmerkmalen, welche Personen von anderen Objekten oder Personen unterscheiden, wie zum Beispiel Größe, Bewegungsgeschwindigkeit, Form, Bewegungsmuster, Gesicht, Gesichtsmerkmale und/oder Ausschlussabschnitten des Überwachungsbereichs.
-
Vorzugsweise ist das Verfahren zur Bereitstellung von Eingangsdaten zur Objekterkennung in einem Straßenabschnitt, einem Off-roadabschnitt und/oder einem Freibereichs ausgebildet. Beispielsweise werden erstes, zweites, weiteres erstes und/oder weiteres zweites Bild mittels einer Fahrzeugkamera aufgenommen, beispielsweise einer Autokamera, einer Traktorkamera oder einer Flugzeugkamera aufgenommen.
-
Einen weiteren Gegenstand der Erfindung bildet ein Computerprogramm, insbesondere mit Programmcodemitteln. Das Computerprogramm ist zur Ausführung auf einem Computer, einem Navigationsgerät, einer Steuereinrichtung und/oder einem Bordcomputer ausgebildet. Das Computerprogramm ist ausgebildet, bei Ausführung das Verfahren wie vorher beschrieben durchzuführen und/oder auszuführen.
-
Einen weiteren Gegenstand der Erfindung bildet ein maschinenlesbares Speichermedium, beispielsweise CD oder DVD. Das maschinenlesbare Speichermedium umfasst das Computerprogramm wie vorher beschrieben.
-
Einen weiteren Gegenstand der Erfindung bildet eine Steuereinrichtung, wobei die Steuereinrichtung ausgebildet ist, das Verfahren wie vorher beschrieben auszuführen. Die Steuereinrichtung kann beispielsweise Teil eines Fahrzeugs, beispielsweise PKW, landwirtschaftlichen Fahrzeugs oder Fluggeräts bilden. Insbesondere ist die Steuereinrichtung Teil einer Einrichtung zum autonomen Fahren. Beispielsweise kann die Steuereinrichtung das autonom fahrende Fahrzeug steuern, beispielsweise bremsen und/oder beschleunigen, im Speziellen eine Warnung an einen Fahrer ausgeben, beispielsweise, wenn ein seitlich erscheinendes und/oder eintretendes Objekt im Überwachungsbereich detektiert wird.
-
Einen weiteren Gegenstand der Erfindung bildet ein Fahrzeug mit der Steuereinrichtung. Das Fahrzeug ist vorzugsweise als ein Off-road-Fahrzeug, beispielsweise Traktor, Bagger oder Zugmaschine ausgebildet. Das Fahrzeug kann ferner als ein PKW ausgebildet sein. Die Steuereinrichtung ist ausgebildet, eine Umgebung des Fahrzeugs bildtechnisch auszuwerten, ein wobei erstes, zweites, weiteres erstes und weiteres zweites Bild der Umgebung aufgenommen wird. Die Umgebung bildet insbesondere den Überwachungsbereich. Basierend auf den Bildern werden Disparitätskarten der Umgebung bestimmt, wobei für die Disparitätskarten ein optischer Fluss bestimmt wird. Der optischer Fluss bildet die Eingangsdaten für die Objekterkennung und/oder Objektklassifizierung.
-
Weitere Vorteile, Wirkungen und Ausgestaltungen ergeben sich aus den beigefügten Figuren und deren Beschreibung. Dabei zeigen:
- 1 schematischer Verfahrensablauf eines Ausführungsbeispiels;
- 2a, b, c ein Bild, Bildflusskarte und optischer Fluss der Disparitätskarten.
-
1 zeigt beispielhaft einen Ablauf des Verfahrens zur Generierung von Eingangsdaten und zur darauf basierenden Objekterkennung. Mit einer Kameraanordnung, zum Beispiel einer Stereokamera, erfolgt eine erste Bildaufnahme 100a zu einem Zeitpunkt t, eine zweite Bildaufnahme 100b zu dem gleichen Zeitpunkt t, eine weitere erste Bildaufnahme 100c zu dem Zeitpunkt t+Δt und eine weitere zweite Bildaufnahme 100d zu dem Zeitpunkt t+Δt. Durch die Bildaufnahmen wird ein Überwachungsbereich, zum Beispiel die Umgebung eines Kraftfahrzeugs, in Form von Bilder 1a, 1b, 1c und 1d, vorzugsweise Farbbildern, aufgenommen.
-
Die Bilder 1a, 1b sind zum gleichen Zeitpunkt aufgenommen und in unterschiedlicher Perspektive auf den Überwachungsbereich. Das erste Bild 1a und das zweite Bild 1b werden in einer stereoskopischen Auswertung verarbeitet, wobei in einer Disparitätskartenbestimmung 200a basierend auf dem ersten Bild 1a und dem zweiten Bild 1b eine Disparitätskarte 2a des Überwachungsbereichs bestimmt. Basierend auf der Disparitätskarte sind insbesondere Tiefen und/oder Abstände von Objekten im Überwachungsbereich bestimmbar, ablesbar und/oder beschreibbar.
-
In einer weiteren Disparitätskartenbestimmung 200b wird basierend auf dem weiteren ersten Bild 1c und dem weiteren zweiten Bild 1d eine weitere Disparitätskarte 2b bestimmt. Die Disparitätskarte 2a beschreibt dabei Disparitäten und/oder 3D-Verhältnisse zum Zeitpunkt t, wobei die Disparitätskarte 2b Disparitäten und/oder 3D-Verhältnisse zum Zeitpunkt t+Δt beschreibt.
-
In einer Flussbestimmung 300 wird der optische Fluss bestimmt, der sich aus den Disparitätskarten 2a und 2b ergibt. Der optische Fluss beschreibt den optischen Fluss zwischen den Disparitätskarten 2a und 2b, also der Entwicklung und/oder Veränderung der Disparitäten im Zeitintervall Δt. Der so bestimmte optische Fluss wird als Eingangsdaten 3 an eine Objekterkennung 400 weitergegeben.
-
In der Objekterkennung 400 wird ein Objekterkennungsalgorithmus auf die Eingangsdaten angewendet, im Speziellen wird die Objekterkennung basierend auf dem optischen Fluss der Disparitätskarten 2a, 2b ausgeführt. Die Objekterkennung bildet insbesondere eine Personenerkennung, wobei Personen im Überwachungsbereich basierend auf dem optischen Fluss der Disparitäten bestimmt werden.
-
2a zeigt ein beispielhaftes erstes Bild 1a aufgenommen von einer Kamera. Das Bild 1a zeigt die Umgebung eines Traktors in Fahrtrichtung, wobei diese Umgebung den Überwachungsbereich 4 bildet. Ferner zeigt das Bild 1a einen Schatten 5 des Traktors, eine Person 6 und den Schatten 7 der Person 6. Von dem gleichen Überwachungsbereich 4 wird ein zweites Bild 1b aufgenommen, wobei das Bild 1b eine leicht andere Aufnahmeperspektive abbildet, sodass basierend auf Bild 1a und 1b ein Stereobild des Überwachungsbereichs 4 bestimmt werden kann.
-
2b zeigt beispielhaft Bildflussdaten 8. Die Bildflussdaten umfassen den optischen Fluss zwischen dem ersten Bild 1a und dem weiteren ersten Bild 1c, also einen optischen Fluss in der Zeit Δt bezüglich der zweidimensionalen Bilder 1a, 1c. Dieser optische Fluss umfasst im Wesentlichen den optischen Fluss des Kopfes der Person 6 aus 2a und den optischen Fluss des Schattens 7 der Person 6 aus 2a. Da sich abgesehen vom Kopf die Person in 2a im Schatten 5 des Traktors befindet und so im Wesentlichen ununterscheidbar ist, kann kein optischer Fluss des Körpers 11 der Person 6 detektiert werden.
-
2c zeigt eine beispielhafte Darstellung der Eingangsdaten 3. Die Eingangsdaten basieren auf dem ersten Bild 1a aus 2a und vom Überwachungsbereich 4 aufgenommenen zweiten Bild 1b, weiteren ersten Bild 1c und weiteren zweiten Bild 2a. In den Disparitätskarten 2a, 2b ist die Person 7a auch im Schatten 5 erkennbar, da die Person einen näher an der Kamera ist als der Boden bzw. Schatten 5. Insbesondere kann der Schatten 5 vor und/oder bei Bestimmung der Disparitätskarte 2a, 2b berücksichtigt und/oder herausgerechnet sein. Die Eingangsdaten, die den optischen Fluss der Disparitätskarten 2a, 2b wiedergeben, zeigen einen Fluss des Kopfes 10 und des Körpers 11 der Person. Der Schatten 7 des Kopfes der Person 6 ist nicht Teil der Eingangsdaten 3, da dieser als Schatten erkannt wurde, zum Beispiel wegen dem Folgen einer allgemeinen Fluchtlinie, und daher unberücksichtigt bleibt oder verworfen wird, sodass die Objekterkennung 400 nicht fälschlich Schatten als Personen oder Objekte detektieren kann.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2019/0050998 A1 [0003]