DE102013113490A1

DE102013113490A1 - Verfahren und System zum Schätzen einer Lage einer Kamera

Info

Publication number: DE102013113490A1
Application number: DE102013113490.4A
Authority: DE
Inventors: Kosuke Hara; Koji Kamiya
Original assignee: Denso Wave Inc
Current assignee: Denso Wave Inc
Priority date: 2012-12-05
Filing date: 2013-12-04
Publication date: 2014-06-05
Also published as: US20140169636A1; JP2014112055A; US9165365B2

Abstract

Bei einem Verfahren zum Schätzen einer Kameralage basierend auf einer zuletzt erfassten Position einer Markierung und einer passenden Kameralage, die während der aktuellen Rahmenbilderzeugung geliefert werden, wird die Position der Markierung in dem aktuellen Rahmen genähert vorhergesagt. Durch eine Extraktion von Punkten, die nahe der Position einer vorhergesagten Markierung sind, (eine Markierung benachbarende Punkte) wird eine Gruppe von Punkten erhalten. Eine Lage der Kamera (10, 10') (Drehmatrix und Translationsmatrix), die eine Schätzungsfunktion optimiert, wird zum erneut Schätzen der Kameralage verwendet, wobei die Schätzungsfunktion als ihre Bedingung einen Abstand zwischen der Markierung benachbarter Punkte, die die Punktgruppen in sich aufweisen und einer Schätzungsebene (20), auf der die Markierung positioniert ist, benötigt. Die Punktgruppen weisen viele Punkte, die aus der Nachbarschaft der Markierung extrahiert werden, auf, sodass die vorläufig geschätzte genäherte Kameralage selbst in einer Umgebung mit einer Okklusion (30) mit einer höheren Genauigkeit korrigiert und geschätzt werden kann.

Description

HINTERGRUND DER ERFINDUNG
[Technisches Gebiet der Erfindung]
Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zu Schätzen einer Lage einer Kamera.
[Verwandte Technik]
In den letzten Jahren sind mobile Vorrichtungen mit einer hohen Rechenleistung, wie zum Beispiel intelligente Telefone (englisch: Smartphones), schnell populär geworden. Die meisten dieser Informationsendgeräte weisen als eine Bilderzeugungsvorrichtung eine Kamera auf. Die Informationsendgeräte liefern Kommunikationscharakteristiken, die einfach Audioinformationen und Textinformationen verwenden. Die Informationsendgeräte weisen zusätzlich ferner Kommunikationscharakteristiken, die Bildinformationen verwenden, auf. In Begleitung mit der wachsenden Popularität von solchen mobilen Vorrichtungen machen sich Benutzer zunehmend mit einer Technologie, auf die als erweiterte Realität (AR; AR = augmented reality) Bezug genommen ist, und einer Technologie zum Wiederherstellen einer dreidimensionalen Form eines Gegenstands aus eingefangenen Bildern vertraut. Bei der AR-Technologie wird beispielsweise, wenn ein Bild eines Zielobjekts durch die Kamera in dem Informationsendgerät eingefangen wird, eine Bemerkung, die sich auf das Zielobjekt bezieht, dem Bild überlagert und angezeigt. Die folgende Nicht-Patent-Bezugnahme 1 berichtet beispielsweise über ein Verfahren für eine dreidimensionale Messung unter Verwendung einer Rot-, Grün-, Blau- und Tiefen-(RGB-D-; RGB-D = red, green, blue and depth)Kamera.
Bei Technologien, wie zum Beispiel jene, die im Vorhergehenden beschrieben sind, wird eine Kalibrierung eines Koordinatensystems einer Umgebung, die in einem zweidimensionalen Bild eingefangen wird, und eines Koordinatensystems einer tatsächlichen Umgebung durchgeführt. Um die Kalibrierung durchzuführen, müssen die Position und die Lage des Benutzers (der Kamera) bekannt sein.
Auf dem Gebiet der AR-Technologie wird daher ein folgendes Verfahren vorgeschlagen. Bei dem Verfahren wird eine Markierung, deren Position, Form und Farbe bereits bekannt sind, im Voraus in der tatsächlichen Umgebung angeordnet. Ein Bild der Markierung wird durch die Kamera eingefangen. Die Lage der Kamera wird dann durch das Bild geschätzt, indem dasselbe analysiert wird. In der Vergangenheit wurde oftmals eine rechtwinklige Markierung als eine solche Markierung (beispielsweise Bezug nehmend auf die folgende Nicht-Patent-Bezugnahme 2) verwendet.
[Nicht-Patent-Bezugnahme 1] Lieberknecht S., Huber A., Ilic S., Benhimane S., "RGB-D Camera-based Parallel Tracking and Meshing," The 10th IEEE and ACM International Symposium on Mixed and Augmented Reality, Okt. 26.–29. (2011)
[Nicht-Patent-Bezugnahme 2] Kato, et al., "An Augmented Reality System and its Calibration based on Marker Tracking," Journal of the Virtual Reality Society of Japan, Band 4, Nr. 4, S. 607–616 (1999))
Um unter Verwendung der Markierung die Lage der RGB-D-Kamera zu berechnen, wird durch die RGB-D-Kamera zuerst der rechtwinklige Bereich der Markierung erkannt. Die Kameralage wird dann unter Verwendung der Koordinaten der Spitzen bzw. Ecken des Rechtecks geschätzt.
Der dreidimensionale Raum hat jedoch zusätzlich zu den zweidimensionalen Beziehungen, die nach oben/nach unten und links/recht sind, eine Vor-/Rück-Beziehung. Es tritt daher ein Zustand auf, bei dem ein Objekt, das vorne anwesend ist, einen Gegenstand, der sich dahinter befindet, verdeckt. Auf diesen Zustand ist als eine Okklusion bzw. Verdeckung Bezug genommen. In einer Umgebung, die zahlreiche Kabel und Komponenten hat, verursachen diese Kabel und Komponenten, dass eine Okklusion in zahlreichen Perspektiven auftritt. Wenn ein Abschnitt der Markierung als ein Resultat einer Okklusion verdeckt ist, wird eine Erfassung des rechtwinkligen Bereichs schwierig. Eine genaue Schätzung der Kameralage wird schwierig.
KURZFASSUNG DER ERFINDUNG
Die vorliegende Erfindung wurde im Lichte der im Vorhergehenden beschriebenen Probleme erreicht. Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zum Ermöglichen einer Schätzung einer Kameralage mit einer hohen Genauigkeit selbst in einer Umgebung, in der eine Okklusion auftritt, und ein System zum Durchführen des Verfahrens zu schaffen.
Um die im Vorhergehenden beschriebenen Probleme zu lösen, ist ein Verfahren zum Schätzen eine Kameralage der vorliegenden Erfindung ein Verfahren zum Schätzen einer Lage einer Kamera mit einer hohen Genauigkeit. Die Kamera ist fähig, ein Intensitätsbild und ein Tiefenbild zu gewinnen. Das Verfahren weist einen Schritt eines Sammelns von Informationen über Bilder, die durch die Kamera in einer Umgebung, in der eine planare Markierung angeordnet ist, eingefangen werden, einen Schritt eines Berechnens einer Position der planaren Markierung aus Bildern, in denen die planare Markierung ohne eine Okklusion eingefangen wird, einen Schritt eines Extrahierens von lokalisierten Charakteristikpunkten zum Berechnen einer Kameralage für jeden Rahmen aus dem Intensitätsbild und dem Tiefenbild jedes Rahmens, die durch eine Bilderzeugung gewonnen werden, einen Schritt eines Durchführens einer Zuordnung zwischen den extrahierten Charakteristikpunkten eins zu eins zwischen Rahmen basierend auf einem Abstand zwischen Beschreibern bzw. Deskriptoren, einen Schritt eines Schätzens einer genäherten Kameralage während einer Bilderzeugung eines spezifizierten Rahmens, in dem eine Markierung, die durch eine Okklusion verdeckt ist, eingefangen wird, basierend auf der Zuordnung zwischen den Charakteristikpunkten, einen Schritt eines Vorhersagens einer genäherten Position der Markierung in Bezug auf den spezifizierten Rahmen basierend auf der Position der Markierung und der genäherten Kameralage, einen Schritt eines Wandelns eines dreidimensionalen Punktes, den das Tiefenbild des spezifizierten Rahmens in sich aufweist, in ein Weltkoordinatensystem unter Verwendung der genäherten Kameralage und eines Extrahierens einer Punktgruppe innerhalb eines vorbestimmten Abstands von der vorhergesagten genäherten Position der Markierung und einen Schritt eines erneuten Schätzens der Kameralage während einer Bilderzeugung des spezifizierten Rahmens durch Bestimmen einer Kameralage, die eine Bewertungsfunktion optimiert, die einen Abstand zwischen einer Markierung benachbarter Punkte, die in den Punktgruppen enthalten sind, und einer Schätzungsebene, auf der die Markierung positioniert ist, definiert, auf.
Ein System zur Schätzung einer Kameralage der vorliegenden Erfindung ist zusätzlich ein System zum Schätzen einer Kameralage mit einer hohen Genauigkeit durch Durchführen des Verfahrens der vorliegenden Erfindung. Das System weist eine Kamera, die Bilder einer tatsächlichen Umgebung, in der eine planare Markierung angeordnet ist, einfängt, und einen Computer, der eine Verarbeitung der Bilder, die durch die Kamera eingefangen werden, durchführt, auf. Die Kamera ist fähig, ein Intensitätsbild und ein Tiefenbild zu gewinnen. Der Computer weist einen berechnenden Abschnitt, der Schritte, die das Verfahren der vorliegenden Erfindung aufweist, durchführt, auf.
[WIRKUNGEN DER ERFINDUNG]
Bei dem Verfahren zum Schätzen einer Kameralage der vorliegenden Erfindung wird zuerst basierend auf einer Position der Markierung, die vorausgehend erfasst wurde, und einer genäherten Kameralage während einer Bilderzeugung des aktuellen Rahmens eine genäherte Position der Markierung in Bezug auf den aktuellen Rahmen vorhergesagt. Eine Punktgruppe wird durch Punkte (eine Markierung benachbarter Punkte), die nahe der vorhergesagten Markierungsposition anwesend sind, die extrahiert werden, bestimmt.
Dann wird eine Kameralage (Drehmatrix und Translationsmatrix), die eine Bewertungsfunktion, von der eine Bedingung der Abstand zwischen einem eine Markierung benachbartem Punkt, den die Punktgruppe in sich aufweist, und einer Schätzungsebene, auf der die Markierung positioniert ist, ist, optimiert, bestimmt. Als ein Resultat wird die Kameralage erneut geschätzt.
Die Punktgruppe weist eine bedeutsam große Zahl von Punkten, die von nahe der Markierung extrahiert wurden, auf. Eine Schätzung der Kameralage kann daher mit einer bedeutsam hohen Genauigkeit durchgeführt werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es zeigen:
1 ein Konzeptdiagramm zum Erleichtern eines Verständnisses eines Verfahrens zum Schätzen einer Kameralage der vorliegenden Erfindung;
2 ein Flussdiagramm zum Beschreiben der Schritte bei einem Beispiel des Verfahrens zum Schätzen einer Kameralage der vorliegenden Erfindung;
3 ein Diagramm zum Erläutern von Zahlen von vier Spitzen einer rechtwinkligen Markierung und einer Größe 20 der rechtwinkligen Markierung; und
4 ein Diagramm zum Erläutern eines Bereichs, der verwendet wird, um zu beurteilen, ob ein Punkt f_m ^k nahe der Markierung ist oder nicht, wobei der Punkt f_m ^k ein dreidimensionaler Punkt h_m ^k eines Tiefenbilds eines Bilds k, das in ein allgemeines Koordinatensystem (Weltkoordinatensystem) gewandelt wird, ist.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Ein Verfahren und ein System zum Schätzen einer Lage einer Kamera der vorlegenden Erfindung sind unter Bezugnahme auf die Zeichnungen beschrieben.
Wie im Vorhergehenden beschrieben ist, hat zusätzlich zu den zweidimensionalen Beziehungen, die nach oben/nach unten und links/rechts sind, der dreidimensionale Raum eine Vor-/Rück-Beziehung. Ein Zustand tritt daher auf, bei dem ein Objekt, das vorne anwesend ist, einen Gegenstand, der im Hintergrund ist, verdeckt. Wenn ein Abschnitt einer Markierung als ein Resultat einer Okklusion verdeckt ist, wird eine Erfassung eines rechtwinkligen Bereichs schwierig. Eine genaue Schätzung der Kameralage wird schwierig.
Basierend auf einer Position der Markierung, die vorausgehend erfasst wurde, und einer genäherten Kameralage während einer Bilderzeugung eines aktuellen Rahmens wird daher zuerst eine genäherte Position der Markierung in Bezug auf den aktuellen Rahmen vorhergesagt. Eine Punktgruppe ist durch Punkte (eine Markierung benachbarter Punkte), die nahe der vorhergesagten Markierungsposition anwesend sind, die extrahiert werden, bestimmt.
Die Punkte, die die Punktgruppe in sich aufweist, können als ein Teil der Markierung betrachtet werden. In einem Fall, in dem die Markierung eine Ebene ist, sollten jedoch diese Punkte auf der gleichen Ebene wie die Punktgruppe der Markierung, die vorausgehend erfasst wurde, sein. Ein Abstand von einem eine Markierung benachbartem Punkt, den die Punktgruppe in sich aufweist, zu der Ebene, auf der die Markierung positioniert ist, kann als ein Schätzungsfehler zwischen der genäherten Kameralage und der wahren Kameralage betrachtet werden.
Basierend auf dieser Kenntnis ist bei der vorliegenden Erfindung eine Bewertungsfunktion (Kostenfunktion) definiert. Eine Bedingung der Bewertungsfunktion ist der Abstand von dem eine Markierung benachbartem Punkt, den die Punktgruppe in sich aufweist, zu der Markierungsebene. Die Kameralage wird durch die Lage der Kamera (Drehmatrix und Translationsmatrix), die die Bewertungsfunktion, die bestimmt wird, optimiert, erneut geschätzt. Die Punktgruppe weist eine sehr große Zahl von Punkten, die nahe der Markierung extrahiert werden, auf. Die Kameralage kann daher mit einer sehr hohen Genauigkeit geschätzt werden.
1 ist ein Diagramm eines Konzeptsystems zum Erleichtern eines Verständnisses des Verfahrens zum Schätzen einer Lage einer Kamera gemäß einer Ausführungsform der vorliegenden Erfindung. Die Kamera ist beispielsweise an einem Arm eines Industrieroboters befestigt.
In 1 stellen Bezugsziffern 10 und 10' jeweils eine Kamera dar. Die Lagen der Kameras 10 und 10' unterscheiden sich. Eine Bezugsziffer 20 stellt eine Ebene, auf der die Markierung positioniert ist (Schätzungsebene), dar. Eine Bezugsziffer 30 stellt eine Okklusion dar. Eine Bezugsziffer 40 stellt einen Beurteilungsbereich (der im Folgenden beschrieben ist) zum Extrahieren von Punkten nahe der Markierung dar. Dreieckige Symbole in 1 geben eine Punktgruppe eines Markierungsbereichs in einem vorausgehenden eingefangenen Bild an. Kreisförmige Symbole geben eine Punktgruppe (eine Punktgruppe, die nahe dem vorausgehenden Markierungsbereich ausgewählt wurde) eines Markierungsbereichs in einem Bild, das neu eingefangen wurde, an. Bei der vorliegenden Erfindung wird ein Abstand zwischen der Punktgruppe und der Markierungsebene (Schätzungsebene) als ein „Fehler” in der Kameralage betrachtet.
2 ist ein Flussdiagramm zum Erläutern der Schritte bei einem Beispiel des Verfahrens zum Schätzen einer Lage einer Kamera der vorliegenden Erfindung. Die Schritte werden durch beispielsweise einen Computer (eine zentrale Verarbeitungseinheit [CPU; CPU = central processing unit]) durchgeführt.
Details einer Verarbeitung, die bei jedem Schritt durchgeführt wird, sind im Folgenden beschrieben.
[Eingangsbildsatz] (Schritt S101)
In einer Umgebung, in der die planare Markierung angeordnet ist, wird zuerst eine Mehrzahl von Bildern (N Bildern) aus unterschiedlichen Kameralagen eingefangen. Die Bilder werden dann in den Computer eingegeben. Die Markierung ist lediglich erforderlich, um fähig zu sein, zu ermöglichen, dass die Kameralage aus einem Bild genau bestimmt wird. In der folgenden Beschreibung wird angenommen, dass die Markierung eine rechtwinklige Markierung ist, die oftmals bei einer AR verwendet wird.
Die Kamera, die verwendet wird, um hierin Bilder einzufangen, ist hier eine Kamera, die fähig ist, ein Intensitätsbild und ein Tiefenbild zu gewinnen. Hier ist die Kamera eine RGB-D-Kamera, die fähig ist, RGB-Intensitätsinformationen für jedes Pixel und Abstandsinformationen über den Abstand zu einem Gegenstand zu gewinnen. Als ein Resultat einer Bilderzeugung durch die RGB-D-Kamera werden mit anderen Worten die RGB-Intensitätsinformationen für jedes Pixel und die Abstandsinformationen über den Abstand zu dem Gegenstand aus der Mehrzahl von Bildern, die von der angeordneten Markierung eingefangen werden, gewonnen. Eine Sammlung dieser Bilder ist im Folgenden Φ.
[Formel 1]

Φ = {1, ....,N}

Die RGB-D-Kamera ist beispielsweise eine KINECT (die durch Microsoft hergestellt wird) (eingetragene Marke) oder XTION Pro LIVE (die durch ASUS hergestellt wird) (eingetragene Marke). Eine RGB-Kamera und eine Tiefenkamera sind an diesen Kameras fixiert. Wenn eine Kalibrierung der relativen positionellen Lagen der RGB-Kamera und der Tiefenkamera durchgeführt wird, können der RGB-Intensitätswert für jedes Pixel und die Informationen über den Abstand zu dem Gegenstand gewonnen werden.
[Berechnen von lokalen Charakteristiken] (Schritt S102)
Lokale Charakteristiken zum Bestimmen einer genäherten Kameralage werden aus den Bilden, die die Bildsammlung Φ in sich aufweist, berechnet. Ein Algorithmus zum Berechnen von solchen lokalen Charakteristiken ist beispielsweise eine maßstabsinvariante Charakteristiktransformierte (SIFT; SIFT = scale-invariant features transform) oder sind beschleunigte robuste Charakteristiken (SURF; SURF = speeded up robust features). Wenn man beispielsweise das Bild k herannimmt, werden eine dreidimensionale Position M_k und ein Deskriptor D_k, wie es im Folgenden beschrieben ist, für eine Zahl I_k von Charakteristikpunkten erhalten. Die RGB-Intensitätsinformationen und die Abstandsinformationen über den Abstand zu dem Gegenstand werden mit anderen Worten aus der im Vorhergehenden beschriebenen Mehrzahl von Bildern extrahiert.
[Formel 2]

M_k = {m k / i|i = 1, ..., I_k), m k / i = [m k / x,i, m k / y,i, m k / z,i]^T

[Formel 3]

D_k = {d k / i|i = 1, ..., I_k}

[Durchführen einer Zuordnung zwischen Bildern] (Schritt S103)
Als Nächstes wird zwischen Charakteristikpunkten, die ein einzelnes Bild unter der Mehrzahl von Bildern in sich aufweist, und Charakteristikpunkten, die ein anderes Bild in sich aufweist, eine Zuordnung durchgeführt. Die Zuordnung wird zwischen extrahierten Charakteristikpunkten eins zu eins zwischen Bildern basierend auf einem Abstand in einem Charakteristikgrößenraum durchgeführt. In einem Fall, in dem ein Charakteristikpunkt i, den das Bild k in sich aufweist, und ein Charakteristikpunkt j, den ein Bild h in sich aufweist, den gleichen Punkt in einer Umgebung angeben, wird der Abstand D (d_i ^k*, d_j ^k) zwischen Deskriptoren der lokalen Charakteristiken, der bei dem Schritt S102 berechnet wird, klein. Als ein Resultat eines Schwellenvergleichs des Abstands D zwischen Deskriptoren können daher Charakteristikpunkte in unterschiedlichen Bildern einander zugeordnet werden. Eine Zuordnung der Charakteristikpunkte in der Bildsammlung Φ wird platziert, wie in Ψ im Folgenden. Eine Zuordnung wird jedoch nicht zwischen den gleichen Charakteristikpunkten und in dem gleichen Bild durchgeführt.
[Formel 4]

Ψ = {(i, j, k, h)|D(d_j ^k, d_j ^k*) < Schwelle, i ∊ D_k, j ∊ D_h, k ≠ h, k ∊ Φ, h ∊ Φ}

[Berechnen einer genäherten Kameralage] (Schritt S104)
Hier wird eine genäherte Kameralage, wenn das Bild k eingefangen wird, bei (R_c ^k, t_c ^k) platziert. R_c ^k ist eine Drehmatrix. t_c ^k ist eine Translationsmatrix.
Eine Kostenfunktion E_I ist wie folgt definiert. Die genäherte Kameralage (R_c ^k, t_c ^k) wird bestimmt, um die Kostenfunktion E_I zu minimieren. [Formel 5]
ist hier wie folgt definiert. [Formel 6]
[Formel 7]

v k / i = R_C ^km k / i + t_C ^k

Das im Vorhergehenden beschriebene ε_ij ^hk ist eine Differenz zwischen Koordinaten von zugeordneten Charakteristikpunkten. Die genäherte Kameralage (R_c ^k, t_c ^k), an der das Bild k eingefangen wurde, wird aus der Kostenfunktion E_I, die aus der Differenz zwischen den Koordinaten der zugeordneten Charakteristikpunkte erhalten wird, geschätzt.
Eine Berechnung für eine Minimierung der Kostenfunktion E_I wird durch ein nicht lineares Optimierungsverfahren durchgeführt. Das Levenberg-Marquardt-Verfahren kann beispielsweise verwendet werden. Während dieser Berechnung wird eine robuste Schätzung zum Verhindern von fehlerhaften entsprechenden Punkten eingeführt. Die robuste Schätzung ist beispielsweise ein M-Schätzer (robuste Schätzung) oder eine Zufallsstichprobenübereinstimmung (RANSAC; RANSAC = random sample consensus). Da jedoch diese Verfahren allgemein verwendet werden, sind Beschreibungen derselben hierin weggelassen.
Die Genauigkeit der genäherten Kameralage (R_c ^k, t_c ^k), die durch die im Vorhergehenden beschriebenen Prozeduren erhalten wird, hängt von der Zahl von zugeordneten Charakteristikpunkten pro Bild ab. Eine Genauigkeit wird schwach, wenn die Zahl der zugeordnet Charakteristikpunkte klein ist. Im Allgemeinen ist die Zahl der zugeordneten Charakteristikpunkte mehrere Zehner pro Bild. Eine Schätzung der Kameralage mit einer hohen Genauigkeit ist daher oftmals schwierig.
Die Kameralage, bei der das Bild k eingefangen wurde, wird daher durch die folgenden Prozeduren erneut geschätzt. Punkte nahe der Markierung, die in dem Bild k erfasst werden, werden basierend auf der genäherten Kameralage als eine Punktgruppe extrahiert. Die Bewertungsfunktion, von der eine Bedingung der Abstand von dem eine Markierung benachbartem Punkt, den die Punktgruppe in sich aufweist, zu der Ebene, auf der die Markierung positioniert ist, ist, wird optimiert.
[Berechnen einer repräsentierenden Lage einer Markierung] (Schritt S105)
Die Markierung wird in einer Mehrzahl von Bildern eingefangen. Eine repräsentative Position (repräsentative Lage) der Markierung wird daher durch eine Berechnung bestimmt. Eine Sammlung Ξ, die eine Zahl R von Markierungen in der Umgebung platziert, wird wie folgt platziert. Eine Identifizierung (ID) von 1 bis R wird für jede Markierung eingestellt. Die ID ermöglicht eine Identifikation durch eine Textur.
[Formel 8]

Ξ = {1, ...., R}

Wenn man die Markierung r als ein Beispiel nimmt, wird eine repräsentative Position der Markierung r bestimmt. Die Lage der Markierung, die in dem Bild eingefangen wird, und die Markierungs-ID können durch ein bekanntes Verfahren bestimmt werden.
Spitzenkoordinaten (Kamerakoordinatensystem) der rechtwinkligen Markierung, wenn die Markierung r in dem Bild k erfasst wird, werden beispielsweise platziert wie in Q^k,r im Folgenden.
[Formel 9]

Q^k,r = {q_λ ^k,r|λ = 1, ..., 4} q_λ ^k,r = [q_x,λ ^k,r, q_y,λ ^k,r, q_z,λ ^k,r]^T

Wie in 3 gezeigt ist, drücken 1 bis 4 des tiefgestellten Index λ im Vorhergehenden die Zahl der vier Spitzen der rechtwinkligen Markierung aus.
Wenn die Rechteckgröße eines Markierungsmodells, das die wahre Form der Markierung ausdrückt, 2θ (mm) ist, können die Koordinaten der Spitzen durch die folgenden Ausdrücke ausgedrückt werden.
[Formel 10]

q ₁ = [–θ, 0, θ]^T q ₂ = [–θ, 0, –θ]^T q ₃ = [θ, 0, –θ]^T q ₄ = [θ, 0, θ]^T

Um eine repräsentative Position W^r der Markierung zu berechnen, werden Koordinaten (R_m ^r, t_m ^r), die die Kostenfunktion E_I im Folgenden minimieren, bestimmt. [Formel 11]
Eine Berechnung zur Minimierung der Kostenfunktion E_M ^r kann durch ein nicht lineares Optimierungsverfahren oder ein lineares Optimierungsverfahren durchgeführt werden. Das Levenberg-Marquardt-Verfahren kann beispielsweise verwendet werden.
Wenn die Koordinaten (R_m ^r, t_m ^r) bestimmt werden, kann die repräsentative Position W^r der Markierung wie folgt berechnet werden.
[Formel 12]

W^r = {R_M ^r q _λ + t_M ^r|λ = 1, ..., 4}

[Extrahieren der Punktgruppe nahe der Markierung] (Schritt S106)
Alle dreidimensionalen Punkte Y_k des Tiefenbilds des Bilds k werden wie im Folgenden beschrieben platziert. Alle dreidimensionalen Punkte h_m ^k, die das Tiefenbild des Bilds k in sich aufweist, werden mit anderen Worten bestimmt.
[Formel 13]

h k / m = [h k / x,m, h k / y,m, h k / z,m,]^T m ∊ Y_k

Als Nächstes wird eine Sammlung der Punktgruppen von Koordinatenpunkten nahe der Markierung bestimmt und durch eine folgende Prozedur eingestellt. [Formel 14]
Ein Punkt f_m ^k wird durch den folgenden Ausdruck bestimmt. Der Punkt f_m ^k ist der dreidimensionale Punkt h_m ^k des Tiefenbilds des Bilds k, das unter Verwendung der genäherten Kameralage, die, wie im Vorhergehenden beschrieben ist, bestimmt wird, in ein zwischen Rahmen gemeinsam verwendetes Koordinatensystem (Weltkoordinatensystem) gewandelt wird.
[Formel 15]

f k / m = R_C ^kh k / m + t_C ^k

Eine Funktion b(f_m ^k, W^r), die verwendet wird, um die Sammlung von Punktgruppen zu bestimmen, kehrt zu „wahr” zurück, wenn f_m ^k nahe der Markierung ist. Die Funktion b(f_m ^k, W^r) kehrt zu „falsch” zurück, wenn f_m ^k nicht nahe der Markierung ist.
4 ist ein Diagramm zum Erläutern eines Beispiels eines Beurteilungsbereichs zum Beurteilen, ob f_m ^k nahe der Markierung ist oder nicht.
Bei dem Beispiel, das in 3 gezeigt ist, ist ein rechtwinkliger Parallelepipedbereich, der das Rechteck W^r der Markierung r ist, das in der Normalenrichtung der Markierungsebene um α (mm) und in der Richtung entgegengesetzt zu der Normalen um β (mm) erweitert ist, der Beurteilungsbereich. Der dreidimensionale Punkt h_m ^k innerhalb des rechtwinkligen Parallelepipedbereichs wird als „wahr” bestimmt und als ein Punkt, der die Markierungsbereichspunktgruppe konfiguriert, extrahiert. Der dreidimensionale Punkt h_m ^k außerhalb des rechtwinkligen Parallelepipedbereichs wird als „falsch” bestimmt und nicht als die Punktgruppe extrahiert.
[Durchführen einer hochgenauen Berechnung einer Kameralage] (Schritt S107)
Die Kostenfunktion der Markierungsbereichspunktgruppe wird zu der im Vorhergehenden beschriebenen Kostenfunktion E_I addiert, und eine neue Kostenfunktion E_F wird definiert. [Formel 16]
[Formel 17]
[Formel 18]

v k / i = R^km k / i + t^k

[Formel 19]

δ k,r / m = –n_r ^T(R^kh k / m + t^k – d_r

Die Symbole n_r ^T und d_r in den Funktionsausdrücken im Vorhergehenden geben Parameter einer Ebene, zu der die Markierungsbereichspunktgruppe gehört, an.
Eine Kameralage (R^k, t^k) und Ebenenparameter, die die Kostenfunktion E_F minimieren, werden bestimmt.
Die Summe einer zweiten Kostenfunktion, die aus den Punkten, die als die Markierungsbereichspunktgruppe extrahiert werden, erhalten wird, und einer ersten Kostenfunktion E_I, die im Vorhergehenden beschrieben ist, wird neu als die Kostenfunktion E_F definiert. Die Kameralage davon, wenn das Bild k eingefangen wird, wird aus der Kostenfunktion E_F geschätzt.
Eine Berechnung für eine Minimierung der Kostenfunktion E_F kann durch das nicht lineare Optimierungsverfahren durchgeführt werden. Das Levenberg-Marquardt-Verfahren kann beispielsweise verwendet werden. Während dieser Berechnung wird eine robuste Schätzung zum Verhindern von fehlerhaften entsprechenden Punkten eingeführt. Die robuste Schätzung ist beispielsweise ein M-Schätzer (robuste Schätzung) oder eine Zufallsstichprobenübereinstimmung (RANSAC). Da jedoch diese Verfahren allgemein verwendet werden, sind Beschreibungen derselben hierin weggelassen.
Eine Kostenfunktion (zweites Element) hinsichtlich der Markierungsbereichspunktgruppe wird zu der ersten Kostenfunktion E_F addiert. Die Kostenfunktion des zweiten Elements weist Informationen von mehreren Zehnern von Tausenden von dreidimensionalen Punkten, die die Markierungsbereichspunktgruppe in sich aufweist, auf.
Als ein Resultat hat die Kameralage (R^k, t^k), die durch eine Berechnung für eine Minimierung der Kostenfunktion E_F erhalten wird, eine bedeutsam höhere Genauigkeit als die Kameralage (R_c ^k, t_c ^k), die durch die Berechnung für eine Minimierung der Kostenfunktion E_I erhalten wird.
Ein Koeffizient η eines zweiten Elements der Kostenfunktion E_F ist ein positiver Wert. Das Gleichgewicht zwischen den lokalen Charakteristiken und der Markierungsbereichspunktgruppe wird angepasst. Wenn der Markierungsbereich derart angeordnet ist, um in der Umgebung lokalisiert zu sein, kann eine Schätzungsgenauigkeit der Kameralage verringert werden, wenn die Wirkung des Markierungsbereichs zu stark ist. Um die Wirkung der lokalen Charakteristiken und die Wirkung der Punktgruppe des Markierungsbereichs anzugleichen, ist der Koeffizient η durch eine folgenden Ausdruck definiert.
[Formel 20]

η = 3|Ψ|/|Ω|

Wie im Vorhergehenden beschrieben ist, wird bei dem Verfahren zum Schätzen einer Kameralage der vorliegenden Erfindung zuerst basierend auf der Position der Markierung, die vorausgehend erfasst wurde, und der genäherten Kameralage während einer Bilderzeugung des aktuellen Rahmens die genäherte Position der Markierung in Bezug auf den aktuellen Rahmen vorhergesagt. Punkte (eine Markierung benachbarter Punkte) nahe der vorhergesagten Markierungsposition werden als eine Punktgruppe bestimmt. Es wird eine Kameralage (Drehmatrix und Translationsmatrix) bestimmt, die die Bewertungsfunktion optimiert, wobei die Bewertungsfunktion den Abstand zwischen dem eine Markierung benachbartem Punkt, der in der Punktgruppe enthalten ist, und der Schätzungsebene, auf der die Markierung positioniert ist, festlegt. Durch diese Bestimmung kann die Kameralage erneut geschätzt werden.
Als ein Resultat der im Vorhergehenden beschriebenen Optimierung der Bewertungsfunktion wird die Kameralage, die im Voraus geschätzt wurde, korrigiert. Eine Schätzung der Kameralage kann selbst in einer Umgebung, in der eine Okklusion auftritt, mit einer hohen Genauigkeit durchgeführt werden.
Eine derartige Schätzung der Kameralage kann unter Verwendung eines Systems, das eine Kamera und einen Computer aufweist, mit einer hohen Geschwindigkeit durchgeführt werden. Die Kamera fängt Bilder einer tatsächlichen Umgebung, in der eine planare Markierung angeordnet ist, ein. Der Computer führt eine Verarbeitung der Bilder, die durch die Kamera eingefangen wurden, durch. Die im Vorhergehenden beschriebenen Schritte können durch eine Berechnung durch den Computer verarbeitet werden.
[GEWERBLICHE ANWENDBARKEIT]
Die vorliegende Erfindung kann ein Verfahren zum Ermöglichen einer Schätzung einer Kameralage mit einer hohen Genauigkeit selbst in einer Umgebung, in der eine Okklusion auftritt, und ein System zum Durchführen des Verfahrens liefern.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Lieberknecht S., Huber A., Ilic S., Benhimane S., ”RGB-D Camera-based Parallel Tracking and Meshing,” The 10th IEEE and ACM International Symposium on Mixed and Augmented Reality, Okt. 26.–29. (2011) [0004]
Kato, et al., ”An Augmented Reality System and its Calibration based on Marker Tracking,” Journal of the Virtual Reality Society of Japan, Band 4, Nr. 4, S. 607–616 (1999)) [0004]

Claims

Verfahren zum Schätzen einer Lage einer Kamera (10, 10') mit einer Genauigkeit, wobei die Kamera (10, 10') fähig ist, ein Intensitätsbild und ein Tiefenbild zu gewinnen, mit folgenden Schritten: Sammeln (101) von Informationen über Bilder, die durch die Kamera (10, 10') in einer Umgebung (20), in der eine planare Markierung angeordnet ist, eingefangen werden; Bestimmen einer Position der planaren Markierung aus Bildern, in denen die planare Markierung ohne eine Okklusion (30) eingefangen wird; Extrahieren (102) von lokalisierten Charakteristikpunkten zum Berechnen der Lage der Kamera (10, 10') für jeden Rahmen aus dem Intensitätsbild und dem Tiefenbild jedes Rahmens, die durch eine Bilderzeugung gewonnen werden; Durchführen (103) einer Zuordnung zwischen den extrahierten Charakteristikpunkten eins zu eins zwischen Rahmen basierend auf einem Abstand zwischen Deskriptoren; Schätzen (S104) einer genäherten Lage der Kamera (10, 10') während einer Bilderzeugung eines spezifizierten Rahmens, in dem eine Markierung, die durch eine Okklusion (30) verdeckt ist, eingefangen wird, basierend auf der Zuordnung zwischen den Charakteristikpunkten; Vorhersagen einer genäherten Position der Markierung in Bezug auf den spezifizierten Rahmen basierend auf der Position der Markierung und der genäherten Kameralage; Extrahieren (106) von Punktgruppen innerhalb eines vorbestimmten Abstands von der vorhergesagten genäherten Position der Markierung durch Wandeln eines dreidimensionalen Punkts, den das Tiefenbild des spezifizierten Rahmens in sich aufweist, in ein Weltkoordinatensystem unter Verwendung der genäherten Lage der Kamera (10, 10'); und erneut Schätzen (107) der Lage der Kamera (10, 10') während einer Bilderzeugung des spezifizierten Rahmens durch Bestimmen einer Kameralage, die eine Bewertungsfunktion optimiert, die einen Abstand zwischen einem eine Markierung benachbarenden Punkt, der in den Punktgruppen enthalten ist, und einer Schätzungsebene (20), auf der die Markierung positioniert ist, festlegt.
Verfahren zum Schätzen einer Lage einer Kamera (10, 10') nach Anspruch 1, bei dem der Schritt eines Extrahierens (102) der lokalisierten Charakteristikpunkte zum Berechnen der Lage der Kamera (10, 10') ein Schritt eines Extrahierens aus jeweiligen Bildern k, die eine Bildsammlung in sich aufweist, von I_k Stücken der Charakteristikpunkte ist, die basierend auf einer dreidimensionalen Position M_k und einem Deskriptor D_k erhalten werden, die basierend auf folgenden Formeln berechnet werden: M_k = {m k / i|i = 1, ..., I_k), m k / i = [m k / x,i, m k / y,i, m k / z,i]^T D_k = {d k / i|i = 1, ..., I_k}; der Schritt eines Durchführens (S103) der Zuordnung zwischen den extrahierten Strukturpunkten eins zu eins zwischen den Rahmen ein Schritt eines Durchführens der Zuordnung zwischen dem Strukturpunkt I, den das Bild k in sich aufweist, das die Bildsammlung Φ in sich aufweist, und dem Charakteristikpunkt j, den das Bild h in sich aufweist, ist und gemäß folgender Formel Ψ = {(i, j, k, h)|D(d_j ^k, d_j ^h) < Schwelle, i ∊ D_k, j ∊ D_h, k ≠ h, k ∊ Φ, h ∊ Φ} in Fällen berechnet wird, in denen ein Abstand zwischen den Deskriptoren kleiner als eine Schwelle ist; und der Schritt eines Schätzens (104) der genäherten Lage der Kamera (10, 10') ein Schritt eines Schätzens einer Lage der Kamera (R_ck, t_ck) ist, der eine Schätzungsfunktion E_I minimiert, die durch folgende Formeln
definiert ist.
Verfahren zum Schätzen einer Lage einer Kamera (10, 10') nach Anspruch 2, bei dem der Schritt eine Vorhersagens der genäherten Position der Markierung ein Berechnen (105) einer repräsentierenden Position W^r der Markierung aus Koordinaten (R_M ^r, t_M ^r) ist, die eine Schätzungsfunktion E_M ^r minimiert, die durch folgende Formeln definiert ist:
wobei eine Sammlung Ξ von R Stücken von Markierungen, die in einer Bilderzeugungsumgebung anwesend sind, definiert ist als Ξ = {1, ...., R}, Koordinaten Q^k,r von vier Spitzen einer rechtwinkligen Markierung r, die in dem Bild k erfasst wird, definiert sind als Q^k,r = {q_λ ^k,r|λ = 1, ..., 4} q_λ ^k,r = [q_x,λ ^k,r, q_y,λ ^k,r, q_z,λ ^k,r]^T, und die Koordinaten der Spitzen der Markierung als durch folgende Formeln definiert angenommen werden: q ₁ = [–θ, 0, θ]^T q ₂ = [–θ, 0, –θ]^T q ₃ = [θ, 0, –θ]^T q ₄ = [θ, 0, θ]^T, wobei eine rechtwinklige Größe eines Markierungsmodells, das eine wahre Form der Markierung zeigt, als 20 ausgedrückt ist.
Verfahren zum Schätzen einer Lage einer Kamera (10, 10') nach Anspruch 3, bei dem der Schritt eines Extrahierens (106) der Punktgruppe innerhalb des vorbestimmten Abstands von der vorhergesagten genäherten Position der Markierung folgende Schritte aufweist: Bestimmen von allen dreidimensionalen Punkten h_m ^k, die das Tiefenbild Y_k des Bilds k in sich aufweist, basierend auf folgender Formel: h k / m = [h k / x,m, h k / y,m, h k / z,m,]^T m ∊ Y_k, Bestimmen eines Punktes f_m ^k unter Verwendung der genäherten Lage der Kamera (10, 10') basierend auf folgender Formel: f k / m = R_C ^kh k / m + t_C ^k, wobei der Punkt f_m ^k einen Punkt zeigt, der durch Wandeln des dreidimensionalen Punkts h_m ^k des Tiefenbilds des Bilds k auf einen dreidimensionalen Punkt in einem Weltkoordinatensystem erhalten wird, und Bestimmen einer Sammlung gemäß folgender Formel:
durch Extrahieren des Punkts f_m ^k, der nahe der Markierung ist, als ein Punkt, der zu den Punktgruppen gehört.
Verfahren zum Schätzen einer Lage einer Kamera (10, 10') nach Anspruch 4, bei dem der Schritt eines erneut Schätzens (107) der Lage der Kamera während einer Bilderzeugung des spezifizierten Rahmens folgende Schritte aufweist: Definieren einer Schätzungsfunktion E_F basierend auf folgenden Formeln:
(wobei (n_r ^T, d_r) ein Parameter ist, der eine Ebene angibt, zu der die Punktgruppen nahe der Markierung gehören), und Schätzen der Lage der Kamera (R^k, t^k), die die Schätzungsfunktion E_F minimiert.
System zum Schätzen einer Lage einer Kamera (10, 10') mit einer Genauigkeit durch Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 5, mit folgenden Merkmalen: einer Kamera (10, 10'), die Bilder einer tatsächlichen Umgebung, in der eine planare Markierung angeordnet ist, einfängt; und einem Computer, der eine Verarbeitung der Bilder, die durch die Kamera (10, 10') eingefangen werden, durchführt, wobei die Kamera (10, 10') fähig ist, ein Intensitätsbild und ein Tiefenbild zu erhalten, und der Computer eine berechnende Einheit, die Prozeduren, die durch die Schritte in jedem Anspruch definiert sind, durchführt, aufweist.