DE102022202827A1 - Verfahren zum Bestimmen einer Orientierung einer Kamera - Google Patents

Verfahren zum Bestimmen einer Orientierung einer Kamera Download PDF

Info

Publication number
DE102022202827A1
DE102022202827A1 DE102022202827.9A DE102022202827A DE102022202827A1 DE 102022202827 A1 DE102022202827 A1 DE 102022202827A1 DE 102022202827 A DE102022202827 A DE 102022202827A DE 102022202827 A1 DE102022202827 A1 DE 102022202827A1
Authority
DE
Germany
Prior art keywords
image
camera
semantically segmented
orientation
semantically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022202827.9A
Other languages
English (en)
Inventor
Masato Takami
Moritz Michael Knorr
Uwe Brosch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022202827.9A priority Critical patent/DE102022202827A1/de
Priority to CN202310280273.5A priority patent/CN116805411A/zh
Publication of DE102022202827A1 publication Critical patent/DE102022202827A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Bestimmen einer Orientierung (242) einer Kamera, insbesondere einer Fahrzeuginnenraumkamera, umfassend ein Erhalten (200) eines semantisch segmentierten Kamerabildes (202), das mittels der Kamera aufgenommenen ist, ein Erhalten (210) eines semantisch segmentierten Referenzbildes (212), das einem mit Referenzorientierung aufgenommenen Bild entspricht; ein Variieren (220) von Bild- und/oder Bildaufnahmeparametern des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes; ein Bestimmen (230) eines Satzes (232) von Bild- und/oder Bildaufnahmeparametern, bei denen das semantisch segmentierte Kamerabild und das semantisch segmentierte Referenzbild zumindest innerhalb vorgegebener Grenzen übereinstimmen, und ein Bestimmen (240) der Orientierung (242) der Kamera basierend auf dem bestimmten Satz (232) von Bild- und/oder Bildaufnahmeparametern.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen einer Orientierung einer Kamera, insbesondere einer Fahrzeuginnenraumkamera sowie eine Recheneinheit und ein Computerprogramm zu dessen Durchführung.
  • Hintergrund der Erfindung
  • Die Überwachung von Fahrzeuginnenräumen gewinnt zunehmend an Bedeutung. Einerseits erfordern z.B. neue Sicherheitsstandards (wie NCAP), den Zustand des Fahrers zu erkennen und zu warnen, sollte er müde oder abgelenkt sein. Andererseits sollen in zukünftig automatisch fahrenden Taxen z.B. vergessene Objekte oder das Fehlverhalten von Passagieren erkannt werden. Kameras eignen sich aufgrund ihrer hohen Auflösung und kleinen Bauweise besonders für diese Aufgabe.
  • Stand der Technik
  • Erfindungsgemäß werden ein Verfahren zum Bestimmen einer Orientierung einer Kamera, insbesondere einer Fahrzeuginnenraumkamera, sowie eine Recheneinheit und ein Computerprogramm zu dessen Durchführung mit den Merkmalen der unabhängigen Patentansprüche vorgeschlagen. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche sowie der nachfolgenden Beschreibung.
  • Die Erfindung beschäftigt sich mit Kamera, insbesondere einer Fahrzeuginnenraumkameras, also Kameras, die im Inneren bzw. im Innenraum eines Fahrzeugs angeordnet sind und z.B. der Überwachung des Fahrzeuginnenraums dienen. Da solche Fahrzeuginnenraumkameras oft an beweglichen Bauteilen, wie dem Rückspiegel, verbaut oder sogar nachträglich montiert werden (sog. Retrofit), sollte ihre Position und Orientierung bezogen auf das Fahrzeug bestimmt werden. Dieser Schritt wird als auch Kalibrierung bezeichnet und ermöglicht, sowohl die Funktion nachgelagerter Algorithmen (z.B. Erkennung von Objekten oder Personen) sicherzustellen, als auch Fehlbenutzung und bewusste Manipulation zu erkennen. Wie sich gezeigt hat, ist in der Praxis die Schätzung der Orientierung der Kamera weitaus bedeutender als eine Schätzung der Position.
  • Vor diesem Hintergrund wird eine Möglichkeit vorgestellt, wie die Orientierung einer Kamera, insbesondere einer Fahrzeuginnenraumkamera, gegenüber einer Referenzorientierung besonders einfach und schnell bestimmt bzw. geschätzt werden kann. Dabei wird eine semantische Segmentierung der Szene, also des Fahrzeuginnenraums bzw. eines Bildes davon aus Sicht der Fahrzeuginnenraumkamera, verwendet. Eine semantische Segmentierung assoziiert alle Bildpunkte in einem Bild mit jeweils einer von mehreren (semantischen) Klassen. Zusammenhängende Bildpunkte einer semantischen Klasse können dabei zu Bildbereichen dieser Klasse zusammengefasst sein. Als Klassen bzw. Objektklassen kommen für den Fahrzeuginnenraum z.B. Vordersitze, Rücksitze, Fenster, Dachhimmel und Fahrzeugsäulen (Verbindung zwischen Dach und Tür oder Rest der Karossiere) in Betracht. In einer veranschaulichenden Darstellung würde ein solches semantisch segmentiertes Bild z.B. für jede dieser Klassen eine unterschiedliche Farbe aufweisen; es enthält wenigstens einen klassifizierten Bildbereich.
  • Hierzu werden zwei verschiedene semantisch segmentierte Bilder des Fahrzeuginnenraums verwendet. In einem semantisch segmentierten Bild ist dabei wenigstens eine Objektklasse, wie z.B. vorstehend erwähnt, enthalten; typischerweise sind aber mehrere Objektklassen halten, d.h. verschiedene Bereiche des Fahrzeugs bzw. des Fahrzeuginnenraums, wie z.B. Fahrzeugfenster und Dachhimmel sind entsprechend umfasst.
  • Ein erstes der zwei semantisch segmentierten Bilder ist mittels der Fahrzeuginnenraumkamera aufgenommenen, nachfolgend auch Kamerabild genannt. Es handelt sich hierbei um ein tatsächlich mit der verbauten und ggf. verdrehten bzw. schlecht orientierten Kamera, insbesondere Fahrzeuginnenraumkamera, aufgenommenes Bild des Fahrzeuginnenraums. Das andere semantisch segmentierte Bild ist in Referenzorientierung aufgenommen, nachfolgend auch Referenzbild genannt. Dieses Referenzbild soll also einem Bild des Fahrzeuginnenraums entsprechen, wenn die Fahrzeuginnenraumkamera wie gewünscht orientiert ist. Dabei kommt es aber, wie später noch näher erläutert wird, nicht drauf an, dass das Referenzbild tatsächlich mit der gleichen Fahrzeuginnenraumkamera, von der die Orientierung zu bestimmen ist, aufgenommen ist. Vielmehr kann auch eine ähnliche Fahrzeuginnenraumkamera verwendet werden. Ebenso muss noch nicht einmal der Fahrzeuginnenraum gleich sein. Aufgrund der semantischen Segmentierung und der typischerweise gleichen grundsätzlichen Art eines Fahrzeuginnenraums (Position der Vordersitze, Dachhimmel, Fenster etc.) hat dies kaum Auswirkungen auf die Erfindung.
  • Durch Variieren von Bild- und/oder Bildaufnahmeparametern sollen die beiden Bilder, das semantisch segmentierte Kamerabild und das semantisch segmentierte Referenzbild, möglichst zur Deckung gebracht werden, d.h. es wird ein Satz von Bild- und/oder Bildaufnahmeparametern bestimmt, bei denen der wenigstens eine klassifizierte Bildbereich des semantisch segmentierten Kamerabilds und ein entsprechender klassifizierter Bildbereich des semantisch segmentierten Referenzbilds zumindest innerhalb vorgegebener Grenzen übereinstimmen. Hierzu können die Bild- und/oder Bildaufnahmeparametern für das Referenzbild oder das Kamerabild variiert werden, denkbar ist auch, dass sie für beide Bilder variiert werden. So können z.B. mehrere verschiedene, z.B. auch zufällig und/oder innerhalb vorgegebener Grenzen gewählte, Sätze von Bild- und/oder Bildaufnahmeparametern verwendet werden, die auf das betreffende Bild angewendet werden; anhand des Satzes mit der besten Übereinstimmung zwischen den Bildern kann dann die Orientierung der Kamera, insbesondere Fahrzeuginnenraumkamera bestimmt werden.
  • Ziel ist dabei nicht, die Winkel der physisch geänderten Ausrichtung zu bestimmen, sondern Winkel zu bestimmen, die einen möglichst guten Abgleich bzw. eine möglichst gute Deckung (engl. „alignment“) des Kamerabilds mit dem Referenzbild erlaubt. Ist die Kamera tatsächlich nur rotiert, ist dies gleichbedeutend mit der geänderten physikalischen Ausrichtung. Dies ist allerdings nicht mehr der Fall, sobald sich die Position der Kamera ändert.
  • Dabei gibt es zwei bevorzugte Varianten des vorgeschlagenen Vorgehens, die sich in der Art der zu variierenden Bild- und/oder Bildaufnahmeparameter bzw. der Art der Variation unterscheiden. Eine bevorzugte Variante umfasst, dass das Variieren der Bild- und/oder Bildaufnahmeparameter eine zweidimensionale Translation und eine Rotation des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes umfasst. Es handelt sich dabei um ein Alignment rein auf Basis der Bildinformation. Das Ergebnis ist also eine Bildtransformation (2D-Transformation im Bild, Rotation), die gleiche Bereiche/Segmente der Szene zur Deckung bringt, jedoch keine physikalisch bedeutende Transformation (da sie nicht durch eine Rotation der Kamera erzeugt werden könnte). Für viele nachgelagerte Funktionen ist dieser Schritt in der Regel bereits ausreichend. Das Bild wird also in der Ebene des Bildes selbst verschoben (2D-Transformation) und um eine Achse senkrecht zur Ebene des Bildes rotiert. Die 2D-Transformation entspricht hierbei z.B. in etwa einem Neigen und/oder einem Gieren der Kamera, die Rotation hingegen einem Rollen.
  • Vorzugsweise werden die klassifizierten Bildbereiche hierbei nur durch ihre Schwerpunkte repräsentiert, d.h. das Variieren der Bild- und/oder Bildaufnahmeparameter wird basierend auf Schwerpunkten von klassifizierten Bereichen des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes vorgenommen. Da für jede Objektklasse mehrere Bildbereiche vorliegen können, kann die korrekte Zuordnung der Schwerpunkte des Referenzbildes und des Kamerabildes z.B. mit Hilfe eines sog. RANSAC-Verfahrens („random sample consensus“) bestimmt werden, wobei angenommen wird, dass sich die Schwerpunkte durch eine Verschiebung und Rotation des Bildes in Übereinstimmung bringen lassen. Die Transformation, die eine Übereinstimmung für die meisten Schwerpunkte darstellt, wird als Lösung akzeptiert. Es handelt sich also um den genannten Satz der Bild- und/oder Bildaufnahmeparameter.
  • Gemäß einer weiteren bevorzugten Variante umfasst das Variieren der Bild- und/oder Bildaufnahmeparameter das Variieren von der Orientierung der Kamera, insbesondere Fahrzeuginnenraumkamera, entsprechenden Bildaufnahmeparametern. Besonders bevorzugte derartige der Orientierung der Kamera, insbesondere Fahrzeuginnenraumkamera entsprechenden Bildaufnahmeparameter sind die drei Eulerschen Winkel. Mit anderen Worten werden variierte Bildaufnahmeparameter so bestimmt, dass ein mit derart variierten Bildaufnahmeparametern aufgenommenes Bild einem Bild entspricht, das mit einer um diese drei Raumwinkel rotierten Kamera aufgenommen wird. Hierfür ist es vorteilhaft, die Kameracharakteristik (Intrinsik) zumindest grob zu kennen. Diese Kameracharakteristik kann auch selbst mitbestimmt werden.
  • Im Gegensatz zur ersten Variante wird hierbei versucht, die drei Parameter einer Kamerarotation zu bestimmen. Gesucht wird dabei die Rotation, die die größte Deckung gleich klassifizierter Bildbereiche erzielt; dabei können insbesondere alle klassifizierten Bildbereiche berücksichtigt werden. Bei einem einfachen Vorgehen können die Rotationsparameter iterativ zufällig erzeugt und jeweils der beste Parametersatz auswählt werden.
  • Es versteht sich, dass bei der Variation der Bild- und/oder Bildaufnahmeparameter in beiden Varianten nicht mit jeder Variation jeder Parameter variierten werden muss.
  • Generell können beide Varianten auch kombiniert werden, wobei sich besonders die erstgenannte Variante zur Initialisierung und die zweitgenannte Variante für die Nachschätzung (engl. „refinement“) anbieten.
  • Eine weitere bevorzugte Möglichkeit ist zudem festzustellen, ob die Bestimmung einer Rotation bzw. Transformation, also eines Satzes von Bild- und/oder Bildaufnahmeparametern, bei denen die beiden Bilder zumindest innerhalb der vorgegebenen Grenzen übereinstimmen, möglich war. War dies nicht möglich, deutet dies darauf hin, dass ist die Kamera manipuliert oder verdeckt ist.
  • Beide Varianten haben den Vorteil, dass sie in vielen Fällen und meist sogar unabhängig vom Fahrzeugtyp funktionieren. Da das Ziel beider Varianten ist, gleich klassifizierte Bildbereiche zur Deckung zu bringen, sind beide relativ unabhängig von Positionsänderungen der Kamera. Es ist kein genaues Vorwissen über die Fahrzeuggeometrie (insbesondere den Innenraum) oder die Kameracharakteristik notwendig. Beide Varianten lassen sich schnell und ressourcensparsam ausführen.
  • Eine erfindungsgemäße Recheneinheit, z.B. ein Steuergerät eines Kraftfahrzeugs, ist, insbesondere programmtechnisch, dazu eingerichtet, ein erfindungsgemäßes Verfahren durchzuführen.
  • Auch die Implementierung eines erfindungsgemäßen Verfahrens in Form eines Computerprogramms oder Computerprogrammprodukts mit Programmcode zur Durchführung aller Verfahrensschritte ist vorteilhaft, da dies besonders geringe Kosten verursacht, insbesondere wenn ein ausführendes Steuergerät noch für weitere Aufgaben genutzt wird und daher ohnehin vorhanden ist. Schließlich ist ein maschinenlesbares Speichermedium vorgesehen mit einem darauf gespeicherten Computerprogramm wie oben beschrieben. Geeignete Speichermedien bzw. Datenträger zur Bereitstellung des Computerprogramms sind insbesondere magnetische, optische und elektrische Speicher, wie z.B. Festplatten, Flash-Speicher, EEPROMs, DVDs u.a.m. Auch ein Download eines Programms über Computernetze (Internet, Intranet usw.) ist möglich. Ein solcher Download kann dabei drahtgebunden bzw. kabelgebunden oder drahtlos (z.B. über ein WLAN-Netz, eine 3G-, 4G-, 5G- oder 6G-Verbindung, etc.) erfolgen.
  • Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und der beiliegenden Zeichnung.
  • Die Erfindung ist anhand von Ausführungsbeispielen in der Zeichnung schematisch dargestellt und wird im Folgenden unter Bezugnahme auf die Zeichnung beschrieben.
  • Kurze Beschreibung der Zeichnungen
    • 1 zeigt schematisch ein Fahrzeug mit Kamera, bei der ein erfindungsgemäßes Verfahren durchführbar ist.
    • 2 zeigt schematisch einen Ablauf eines erfindungsgemäßen Verfahrens in einer bevorzugten Ausführungsform.
    • 3 und 4 zeigen Bilder zur Erläuterung der Erfindung.
    • 5 zeigt schematisch einen Ablauf eines erfindungsgemäßen Verfahrens in einer weiteren bevorzugten Ausführungsform.
    • 5 und 6 zeigen Bilder zur Erläuterung der Erfindung.
  • Ausführungsform(en) der Erfindung
  • In 1 ist schematisch ein Fahrzeug 100 mit einer Kamera 120, insbesondere einer Fahrzeuginnenraumkamera 120, dargestellt, bei der ein erfindungsgemä-ßes Verfahren durchführbar ist. Die Kamera 120, insbesondere Fahrzeuginnenraumkamera 120, ist dazu vorgesehen, einen Innenraum 130 des Fahrzeugs mit z.B. Vordersitzen 132 und Rücksitzen bzw. einer Rückbank 134 zu erfassen. Beispielsweise können die Fahrzeuginnenraumkamera 120 bzw. damit erfasste Bilder oder Videos zur Überwachung des Fahrzeuginnenraums 130 dienen. Hierzu kann z.B. eine als Steuergerät ausgebildete Recheneinheit 110 dienen.
  • Wie mittels eines gebogenen Doppelpfeiles angedeutet, kann eine Orientierung der Kamera 120, insbesondere Fahrzeuginnenraumkamera 120, z.B. verstellt werden (wenn sie nachträglich eingebaut wird) oder allgemein von einer gewünschten Orientierung abweichen. Dies gilt insbesondere für die Orientierung in drei Rotationsrichtungen im Raum. Die tatsächliche Orientierung der Kamera 120, insbesondere Fahrzeuginnenraumkamera 120, kann, wie nachfolgend beispielhaft erläutert, geschätzt bzw. bestimmt werden; eine Information hierüber kann dann z.B. in der Recheneinheit 130 hinterlegt und damit bei der Aufnahme von Bildern oder Videos und nachgelagerten Funktionen wie der Überwachung berücksichtigt werden.
  • In 2 ist schematisch ein Ablauf eines erfindungsgemäßen Verfahrens in einer bevorzugten Ausführungsform dargestellt, und zwar in einer Variante, in der das Variieren der Bild- und/oder Bildaufnahmeparameter eine zweidimensionale Translation und eine Rotation des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes umfasst. Es werden also die drei Parameter einer euklidischen 2D-Bildtransformation bestimmt.
  • Hierzu wird in einem Schritt 200 ein semantisch segmentiertes Kamerabild 202 erhalten, das mittels der Kamera, insbesondere Fahrzeuginnenraumkamera, aufgenommenen ist. In Schritt 210 wird ein semantisch segmentiertes Referenzbild 212 erhalten, das einem mit Referenzorientierung aufgenommenen Bildes entspricht, aber nicht notwendigerweise mit der Fahrzeuginnenraumkamera aufgenommen worden sein muss. Beispielsweise kann das Referenzbild 212 vorab auf der ausführenden Recheneinheit hinterlegt sein. Das Kamerabild 202 hingegen kann z.B. dann erhalten oder ermittelt werden, wenn es benötigt wird; hierzu kann z.B. mittels der Fahrzeuginnenraumkamera ein Bild des Fahrzeuginnenraums aufgenommen werden, das dann, z.B. mittels der ausführenden Recheneinheit, semantisch segmentiert wird, d.h. es enthält dann wenigstens einen klassifizierten Bildbereich. Auf die (zeitliche) Reihenfolge der Schritte 200, 210 kommt es nicht an.
  • In 3 sind hierzu beispielhaft ein originales Referenzbild 310 (links oben) sowie ein semantisch segmentiertes Referenzbild 312 (links unten) gezeigt. Außerdem sind ein originales Kamerabild 300 (rechts oben) sowie ein semantisch segmentiertes Kamerabild 302 (rechts unten) gezeigt. In dem originalen Referenzbild 310 sowie dem semantisch segmentierten Referenzbild 312 sind z.B. verschiedene Objektklassen wie Vordersitze 332, Rücksitze 334, Fenster 336, Dachhimmel 338, Fahrzeugsäulen 340 zu sehen, die im semantisch segmentierten Referenzbild 312 zur Veranschaulichung jeweils mit einer bestimmten Schraffur bzw. Darstellung versehen sind. In dem semantisch segmentiertes Kamerabild 302 sind die entsprechenden Objektklassen ebenfalls entsprechend schraffiert bzw. dargestellt.
  • In einem Schritt 220 folgt dann ein Variieren der Bild- und/oder Bildaufnahmeparameter. Dies umfasst hier, wie erwähnt, eine zweidimensionale Translation und eine Rotation, und zwar für das semantisch segmentiertes Referenzbild 312. Es wird also eine 2D-Verschiebung (zwei Parameter) sowie eine Rotation (ein Parameter) vorgenommen. Es können dabei verschiedene Sätze von Parametern gewählt werden.
  • In 4 ist hierzu in vier Zeilen jeweils eine andere Variation bzw. ein Bild mit anderem Parametersatz dargestellt. In der linken Spalte ist dabei jeweils ein semantisch segmentiertes Referenzbild 412 gezeigt, in der mittleren Spalte istjeweils ein semantisch segmentiertes Kamerabild 402 gezeigt und in der rechten Spalte ist jeweils das semantisch segmentierte Kamerabild 402` nach der Variation gezeigt.
  • Insbesondere werden zunächst die Schwerpunkte der einzelnen klassifizierten Bildbereiche bestimmt, wie in 4 mit 414 beispielhaft angedeutet, und basierend auf dem Referenzbild werden z.B. Bereiche, die zu klein sind, aussortiert.
  • Anschließend werden klassifizierte Bildbereiche mit korrespondierenden Bildbereichen im Referenzbild verknüpft, wie durch Linien angedeutet. Es kommt dabei zu einer Mehrfachzuordnung. Ein Bildbereich im Referenzbild, der als Vordersitz klassifiziert wurde, wird z.B. mit allen detektierten Bildbereichen im Kamerabild verbunden, welche zur Vordersitz-Klasse gehören. Im Idealfall sind dies genau zwei Bildbereiche, jeweils einer für den linken und den rechten Vordersitz. Es kann jedoch durch Verdeckung oder Fehlklassifikation auch zu weniger oder mehr Bildbereichen führen. Die Funktionsweise dieser Methode ist auch bei Vorhandensein solcher Fehlklassifikationen in den meisten Fällen nicht oder nur geringfügig beeinträchtigt. Eine resultierende Liste aller sich ergebender Korrespondenzen zwischen Bildbereichen gleicher Objektklasse zwischen Referenzbild und Kamerabild dient nun als Eingabe für den nächsten Teilschritt.
  • In diesem wird nun z.B. der RANSAC-Algorithmus angewendet, um aus einer zufälligen Auswahl an Korrespondenzen eine Transformation zu berechnen. Anschließend werden alle übrigen Bildbereichszentren mit dieser Transformation in das andere Bild überführt. Sobald eine Transformation eines Punktes innerhalb einer Toleranzentfernung zum korrespondierenden Punkt liegt, wird diese Korrespondenz als Inlier (Treffer) gewertet. Alle Transformationen, die einen Bildbereichsschwerpunkt auf einen Bildpunkt im anderen Bild transformieren, welcher weiter weg von dem korrespondierenden Punkt liegt, wird als Outlier (Ausreißer) bewertet. In 4 sind die Inlier-Korrespondenzen verbunden, während die Outlier nicht (mehr) eingezeichnet sind. Die Anzahl der Inlier entscheidet am Ende über die Güte der gefundenen Transformation.
  • Dieses Vorgehen wird im Rahmen der Variation mehrmals wiederholt. Die gefundene Transformation, welche die größte Anzahl an Inliern beinhaltet, stellt das Resultat des Algorithmus dar und wird damit, in Schritt 230, als der Satz 232 von Bild- und/oder Bildaufnahmeparametern bestimmt, bei denen das semantisch segmentierte Kamerabild und das semantisch segmentierte Referenzbild, mit variierten Bild- und/oder Bildaufnahmeparametern, zumindest innerhalb vorgegebener Grenzen, also z.B. bestmöglich bei einer vorgegebenen Anzahl an Sätzen von Parametern, übereinstimmen.
  • In einem Schritt 240 wird dann basierend auf dem bestimmten Satz 232 von Bild- und/oder Bildaufnahmeparametern die Orientierung 242 der Kamera, insbesondere Fahrzeuginnenraumkamera, bestimmt. Hierzu wird z.B. berechnet, welche Orientierung (z.B. relativ zur Referenzorientierung) zu dem Satz 232 führt. So kann z.B. eine bestimmte Rotation direkt einer Rotation (Rollen) der Kamera, insbesondere Fahrzeuginnenraumkamera, entsprechen, eine Translation hingegen kann in einen Winkel bzgl. Neigen und Nicken umgerechnet werden.
  • Ein Vorteil dieser Methode bzw. Variante ist, dass die Beschreibung des Bildes auf wenige Punkte (Schwerpunkte der klassifizierten Bereiche) kondensiert wird, was das Verfahren sehr schnell macht. Weiterhin ist es nicht notwendig zu unterscheiden, um welche Instanz es sich bei dem Bildbereich genau handelt. Es ist daher nicht notwendig zu klassifizieren, z.B. um welches Fenster oder um welchen Vordersitz es sich handelt, was das Verfahren sehr robust macht. So funktioniert es auch für unterschiedliche Fahrzeuge, in denen sich Fahrzeugbeschaffenheiten wie Fenster oder Sitze durchaus stark unterscheiden können. Das Beispiel in der zweiten Zeile in 4 illustriert dies sehr gut. Durch Verdeckungen sind nur zwei Fenster zu erkennen.
  • Eine Klassifikation in die unterschiedlichen Fensterarten birgt durchaus eine hohe Komplexität bei unbekannten Fahrzeugen und beliebig auftretenden Verdeckungen. Dadurch, dass initial alle Fensterbereiche einander zugeordnet und automatisch durch den RANSAC-Algorithmus die richtigen Korrespondenzen ausgewählt werden, ist eine explizite Klassifikation in die Fenstertypen nicht notwendig. Trotz der wiederholt durchgeführten Transformationsberechnung ist durch die sehr geringe Anzahl an Punkten der Rechenaufwand niedrig und durch die Berechnungen direkt in Bildkoordinaten wird die Komplexität des Verfahrens niedrig gehalten.
  • In 5 ist schematisch ein Ablauf eines erfindungsgemäßen Verfahrens in einer weiteren bevorzugten Ausführungsform dargestellt, und zwar in einer Variante, in der das Variieren der Bild- und/oder Bildaufnahmeparameter das Variieren der Eulerschen Winkel als der Orientierung der Kamera, insbesondere Fahrzeuginnenraumkamera, entsprechenden Bildaufnahmeparametern umfasst. Es wird also im Unterschied zur vorhergehend beschriebenen Variante keine Euklidische 2D-Transformation angenommen, sondern eine 3D-Rotation bestimmt.
  • Hierzu wird in einem Schritt 500 ein semantisch segmentiertes Kamerabild 502 erhalten, das mittels der Fahrzeuginnenraumkamera aufgenommenen ist. In Schritt 510 wird ein semantisch segmentiertes Referenzbild 512 erhalten, das einem mit Referenzorientierung aufgenommenen Bildes entspricht, aber nicht notwendigerweise mit der Kamera, insbesondere Fahrzeuginnenraumkamera, aufgenommen worden sein muss. Beispielsweise kann das Referenzbild 512 vorab auf der ausführenden Recheneinheit hinterlegt sein. Das Kamerabild 502 hingegen kann z.B. dann erhalten oder ermittelt werden, wenn es benötigt wird; hierzu kann z.B. mittels der Fahrzeuginnenraumkamera ein Bild des Fahrzeuginnenraums aufgenommen wird, das dann, z.B. mittels der ausführenden Recheneinheit, semantisch segmentiert wird, d.h. wenigstens einen klassifizierten Bildbereich aufweist. Auf die (zeitliche) Reihenfolge der Schritte 500, 510 kommt es nicht an. Hierzu sei auf die 3 mit den zugehörigen Erläuterungen verwiesen, die hier ebenfalls gelten.
  • In einem Schritt 520 folgt dann ein Variieren der Bild- und/oder Bildaufnahmeparameter. Dies umfasst hier, wie erwähnt, eine 3D-Rotation bzw. einer Variation der entsprechenden Bildaufnahmeparameter, und zwar beispielhaft für das semantisch segmentierte Referenzbild. Es können dabei verschiedene Sätze von Parametern gewählt werden. Gesucht werden dabei also die drei Winkel, die die klassifizierten Bildbereiche möglichst gut zu Deckung bringen.
  • In 6 ist hierzu in vier Zeilen jeweils eine andere Variation bzw. ein Bild mit anderem Parametersatz dargestellt. In der linken Spalte ist dabei jeweils ein semantisch segmentiertes Referenzbild 612 gezeigt, in der mittleren Spalte ist jeweils das semantisch segmentierte Kamerabild 602` nach der Variation (d.h. mit virtueller Rotation der Kamera) gezeigt, und in der rechten Spalte ist jeweils das semantisch segmentierte Kamerabild 602 gezeigt.
  • In 7 sind links ein semantisch segmentiertes Kamerabild 702 und in der Mitte das transformierte segmentierte Referenzbild 712 gezeigt. Rechts ist gezeigt, welche Bildbereiche gleicher Klasse übereinanderliegen (hell). Ziel ist es, die Anzahl dieser Bildbereiche zu erhöhen. Eine konkrete und sehr einfache Umsetzung ist im Folgenden beschrieben, danach folgen weitere mögliche Varianten.
  • Um die Rotationsparameter zu finden, die in der höchsten Anzahl an Bildbereichen resultieren, werden zunächst, in einem Schritt 530, zufällig mehrere Sätze aus drei Rotationsparametern erzeugt (durch Variation). Für jeden Satz wird dann eine virtuelle Kamerarotation durchgeführt.
  • Dazu wird zunächst der zu jedem Bildpunkt korrespondierende Sichtstrahl bestimmt. Diese werden dann entsprechend der Rotationsparameter rotiert und schließlich zurück ins Bild projiziert. Schließlich wird die Objektklasse, die an der Bildposition jedes projizierten Punktes in der semantischen Segmentierung des Referenzbildes vorliegt, in das ursprüngliche Bild eingetragen. Auf diese Weise entsteht z.B. die mittlere Abbildung in 7. Dieses Vorgehen wird typischerweise als Backwards-(Image)-Warping beschrieben und lässt sich sehr effizient auf Grafikkarten ausführen.
  • Nun wird für jeden Satz der jeweilige Wert der Anzahl an Bildereichen, die übereinstimmen, bestimmt. Die Rotationsparameter, die die höchste Anzahl erzielen, werden beibehalten und es werden neue zufällige Rotationsparameter hiervon ausgehend bestimmt. Konkret werden z.B. zufällig Werte auf die bisher besten Parameter addiert. Dabei sollten die zufälligen Werte nicht zu groß oder zu klein sein. In der Praxis haben sich hier Werte im Bereich von 0° bis 5° bewährt.
  • Durch diese Variation kann also letztlich ein Satz 532 von Bild- und/oder Bildaufnahmeparametern bestimmt werden, bei dessen Anwendung das semantisch segmentierte Kamerabild und das semantisch segmentierte Referenzbild, mit variierten Bild- und/oder Bildaufnahmeparametern, zumindest innerhalb vorgegebener Grenzen, also z.B. höchstmögliche Anzahl an übereinstimmenden Bildbereichen bei einer vorgegebenen Anzahl an Sätzen von Parametern, übereinstimmen.
  • In einem Schritt 540 wird dann basierend auf dem bestimmten Satz 532 von Bild- und/oder Bildaufnahmeparametern die Orientierung 542 der Kamera, insbesondere Fahrzeuginnenraumkamera, bestimmt. Dies ergibt sich z.B. direkt aus dem Satz 232, da diese Parameter ja einer 3D-Rotation entsprechen.
  • Um das Verfahren generell zu beschleunigen, ist es besonders zweckmäßig, nicht auf der vollen Bildauflösung, sondern nur auf Bruchteilen davon zu arbeiten. Zudem hat es sich als zielführend erwiesen, einige Objektklassen stärker oder schwächer zu gewichten, so dass die Anzahl einer gewichteten Summe entspricht.
  • Wie erwähnt, ist hierbei auch eine Bestimmung der intrinsischen Kalibrierung der Kamera, insbesondere Fahrzeuginnenraumkamera, möglich. Um die Projektion in Bildstrahlen und zurück ins Bild durchführen zu können, muss die intrinsische Kalibrierung der Kamera bekannt sein. Es hat sich gezeigt, dass das Verfahren aber sehr unempfindlich auch gegen größere Ungenauigkeiten ist. Es kann z.B. ein einfaches, äquidistantes Kameramodell angenommen werden. Als Hauptpunkt kann die Bildmitte angenommen und als einziger Parameter die Fokallänge f bestimmt werden. Da der tatsächliche Wert für die Kamera aber z.B. unbekannt sein kann, kann f als weiterer Parameter in das Optimierungsverfahren aufgenommen und das f gesucht werden, dass die höchste Anzahl an übereinstimmenden Bildbereichen in den sich ergebenden Fällen, z.B. die vier in 6 gezeigten Fälle, erzeugt.
  • Dies zeigt, dass eine Kalibrierung der Kamera durch reine Rotation und die Aufnahme weniger Bilder möglich und ausreichend ist. Es hat sich ebenfalls gezeigt, dass Abweichungen in der Fokallänge im Bereich unter zehn Prozent vernachlässigbare Einflüsse auf das Gesamtergebnis haben. Daraus wiederum ergibt sich, dass es auch ausreichend ist, die Kalibrierung für ein einzelnes Kameraexemplar zu bestimmen und dann z.B. für die ganze Serie anzunehmen.
  • Generell sind viele Möglichkeiten der Bestimmung der Anzahl an übereinstimmenden Bildbereichen denkbar. Das hier beschriebene Vorgehen stellt dabei ein besonders einfaches Vorgehen dar. Generell lassen sich nahezu alle Optimierungsverfahren, die ohne die Bestimmung von Ableitungen arbeiten, einsetzen, z.B. das Simplex-Verfahren oder Particle-Optimization-Verfahren. Tatsächlich stellt die beschriebene Umsetzung dieser Variante eine besonders einfache Variante eines Particle-Optimization-Verfahrens dar.
  • Eine Fehlnutzung kann z.B. durch den Wert der Anzahl an übereinstimmenden Bildbereichen bestimmt werden. Ist dieser auch nach der Optimierung gering, lässt sich die semantische Segmentierung des Kamerabildes nicht oder unzureichend mit der des Referenzbildes in Deckung bringen. Zusätzlich kann überprüft werden, für welchen Anteil des aktuellen Bildes klassifizierte Bildbereiche bestimmt werden konnten.

Claims (12)

  1. Verfahren zum Bestimmen einer Orientierung (242, 542) einer Kamera (120), insbesondere einer Fahrzeuginnenraumkamera (120), umfassend: Erhalten (200, 500) eines semantisch segmentierten Kamerabildes (202, 302, 402, 602, 702) mit wenigstens einem klassifizierten Bildbereich, das mittels der Kamera (120) aufgenommenen ist, Erhalten (210, 510) eines semantisch segmentierten Referenzbildes (212, 312, 412, 612, 712) mit wenigstens einem klassifizierten Bildbereich, das einem aufgenommenen Bild mit Referenzorientierung entspricht, Variieren (220, 520) von Bild- und/oder Bildaufnahmeparametern des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes, Bestimmen (230, 530) eines Satzes (232, 532) von Bild- und/oder Bildaufnahmeparametern, bei denen der wenigstens eine klassifizierte Bildbereich des semantisch segmentierten Kamerabilds und der wenigstens eine klassifizierte Bildbereich des semantisch segmentierten Referenzbilds zumindest innerhalb vorgegebener Grenzen übereinstimmen, und Bestimmen (240, 540) der Orientierung (242, 542) der Kamera (120) basierend auf dem bestimmten Satz (232, 532) von Bild- und/oder Bildaufnahmeparametern.
  2. Verfahren nach Anspruch 1, wobei das Variieren (220) der Bild- und/oder Bildaufnahmeparameter eine zweidimensionale Translation und eine Rotation des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes umfasst.
  3. Verfahren nach Anspruch 2, wobei das Variieren (220) der Bild- und/oder Bildaufnahmeparameter basierend auf Schwerpunkten (414) des wenigstens einen klassifizierten Bildbereichs des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes vorgenommen wird.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei das Variieren (520) der Bild- und/oder Bildaufnahmeparameter das Variieren von der Orientierung der Kamera entsprechenden Bildaufnahmeparametern umfasst.
  5. Verfahren nach Anspruch 4, wobei die der Orientierung der Kamera entsprechenden Bildaufnahmeparameter die drei Eulerschen Winkel umfassen.
  6. Verfahren nach einem der vorstehenden Ansprüche, wobei das Variieren (520) der Bild- und/oder Bildaufnahmeparameter basierend auf allen klassifizierten Bildbereichen des semantisch segmentierten Kamerabildes und/oder des semantisch segmentierten Referenzbildes vorgenommen wird.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei in dem semantisch segmentierten Kamerabild (202) und in dem semantisch segmentierten Referenzbild (212) jeweils wenigstens eine der folgenden Objektklassen enthalten ist: Vordersitze (132, 332), Rücksitze (134, 334), Fenster (336), Dachhimmel (338), Fahrzeugsäulen (310).
  8. Verfahren nach einem der vorstehenden Ansprüche, weiterhin umfassend: Bestimmen, ob ein Satz von Bild- und/oder Bildaufnahmeparametern, bei denen das semantisch segmentierte Kamerabild (202) und das semantisch segmentierte Referenzbild (212) zumindest innerhalb der vorgegebenen Grenzen übereinstimmen, existiert.
  9. Verfahren nach einem der vorstehenden Ansprüche, weiterhin umfassend: Bestimmen einer intrinsischen Kalibrierung der Kamera (120).
  10. Recheneinheit (110), die dazu eingerichtet ist, alle Verfahrensschritte eines Verfahrens nach einem der vorstehenden Ansprüche durchzuführen.
  11. Computerprogramm, das eine Recheneinheit (110) dazu veranlasst, alle Verfahrensschritte eines Verfahrens nach einem der Ansprüche 1 bis 9 durchzuführen, wenn es auf der Recheneinheit (110) ausgeführt wird.
  12. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 11.
DE102022202827.9A 2022-03-23 2022-03-23 Verfahren zum Bestimmen einer Orientierung einer Kamera Pending DE102022202827A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102022202827.9A DE102022202827A1 (de) 2022-03-23 2022-03-23 Verfahren zum Bestimmen einer Orientierung einer Kamera
CN202310280273.5A CN116805411A (zh) 2022-03-23 2023-03-21 用于确定摄像机的取向的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022202827.9A DE102022202827A1 (de) 2022-03-23 2022-03-23 Verfahren zum Bestimmen einer Orientierung einer Kamera

Publications (1)

Publication Number Publication Date
DE102022202827A1 true DE102022202827A1 (de) 2023-09-28

Family

ID=87930728

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022202827.9A Pending DE102022202827A1 (de) 2022-03-23 2022-03-23 Verfahren zum Bestimmen einer Orientierung einer Kamera

Country Status (2)

Country Link
CN (1) CN116805411A (de)
DE (1) DE102022202827A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021206625A1 (de) 2021-06-25 2022-12-29 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors und Trainingsverfahren

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021206625A1 (de) 2021-06-25 2022-12-29 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors und Trainingsverfahren

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, Neng; IZQUIERDO, Ebroul. A High Accuracy Camera Calibration Method for Sport Videos. In: 2021 International Conference on Visual Communications and Image Processing (VCIP). IEEE, 2021

Also Published As

Publication number Publication date
CN116805411A (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
EP3292510B1 (de) Verfahren und vorrichtung zur erkennung und bewertung von fahrbahnreflexionen
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
EP3291172B1 (de) Verfahren zur ermittlung von ergebnisbilddaten
WO2010040668A1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE102017211331A1 (de) Bildauswertung mit zielgerichteter Vorverarbeitung
DE112017004391T5 (de) Bilderzeugungsvorrichtung, Bilderzeugungsverfahren, Aufzeichungsmedium und Bildanzeigesystem
DE102018113621A1 (de) Verfahren zum Trainieren eines konvolutionellen neuronalen Netzwerks zum Verarbeiten von Bilddaten zur Anwendung in einem Fahrunterstützungssystem
DE102008036219A1 (de) Verfahren zur Erkennung von Objekten im Umfeld eines Fahrzeugs
DE102022202827A1 (de) Verfahren zum Bestimmen einer Orientierung einer Kamera
DE102021133868A1 (de) Mikroskopiesystem und Verfahren zum Modifizieren von Mikroskopbildern im Merkmalsraum eines generativen Netzes
DE102021206625A1 (de) Computerimplementiertes Verfahren und System zur Unterstützung einer Installation eines bildgebenden Sensors und Trainingsverfahren
DE102020003465A1 (de) Verfahren zur Detektion von Objekten in monokularen RGB-Bildern
EP3973466A1 (de) Verfahren zum funktionsspezifischen robustifizieren eines neuronalen netzes
EP3895415A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE102019103192A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein digitales, lernfähiges Kamerasystem
DE102018130229A1 (de) Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten
WO2018188700A1 (de) Surround-view-system für ein fahrzeug
WO2019072451A1 (de) Verfahren zum verarbeiten von bildern
DE102017223166A1 (de) Verfahren zum automatischen Klassifizieren
DE102017215051A1 (de) Vorrichtung und Verfahren zum Reduzieren des Einflusses von Streulicht und Reflexionen auf optische Bilderkennung
DE102017123582A1 (de) Verfahren zum Bestimmen einer Region von Interesse in einem von einer Kamera eines Kraftfahrzeugs aufgenommenen Bild, Steuereinrichtung, Kamerasystem sowie Kraftfahrzeug
DE102022202229A1 (de) Computerimplemetiertes Verfahren zum Erkennen eines neuen Objektes in einem Innenraum eines Zuges
EP4384892A1 (de) Verfahren zur darstellung einer rückwärtigen umgebung einer mobilen plattform, die mit einem anhänger gekoppelt ist
DE102022110233A1 (de) Computer-implementiertes verfahren zur auswahl von trainingsdatensätzen aus einer vielzahl von datensätzen

Legal Events

Date Code Title Description
R163 Identified publications notified