DE102015200260A1

DE102015200260A1 - Verfahren zum Erstellen eines Deskriptors für ein Szenenbild

Info

Publication number: DE102015200260A1
Application number: DE102015200260.8A
Authority: DE
Inventors: Shantanu Rane; Rohit Naini
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-01-10
Filing date: 2015-01-12
Publication date: 2015-07-16
Also published as: JP2015133101A; US20150199573A1

Abstract

Ein Verfahren erstellt einen Deskriptor für ein Bild einer Szene, wobei der Deskriptor mit einer Fluchtpunkt in dem Bild assoziiert ist durch zuerst Quantisieren eines Winkelbereichs um den Fluchtpunkt in eine vorbestimmte Anzahl winkliger Quantisierungsintervalle, und ein Schwerpunkt jedes Winkel-Quantisierungsintervalls eine Richtung des Winkel-Quantisierungsintervalls angibt. Für jedes Winkel-Quantisierungsintervall wird eine Summe von Absolutwerten von Pixelgradienten von Pixeln in dem Bild bestimmt, bei welchen eine Richtung des Pixelgradienten mit einer Richtung des Winkel-Quantisierungsintervalls fluchtet, wobei die Schritte in einem Prozessor durchgeführt werden.

Description

Gebiet der Erfindung
Dieser Erfindung betrifft generell Computervision und insbesondere globale Deskriptoren zum Zuordnen (matching) von Manhattan-Szenen, die für Blickpunkt invariante Objektzuordnung verwendet werden können.
Hintergrund der Erfindung
Blickpunktinvariante Objektzuordnung ist wegen Bildverzerrungen durch Faktoren wie Rotation, Translation, Beleuchtung, Abschneiden und Verdeckung schwierig. Visuelles Szenenverständnis ist ein bekanntes Problem bei Computervision. Insbesondere stellt die Identifizierung von Objekten in einer 3D-Szene basierend auf einer Projektion auf eine zweidimensionale (2D) Bildebene enorme Herausforderungen.
Die menschliche visuelle Hirnrinde (cortex) ist bekannt dafür, sich stark auf das Vorhandensein von Kanten an physikalischen Objektgrenzen zur Identifizierung einzelner Objekte in einer Ansicht zu stützen. Unter Verwendung von Kanten, Textur und Farbe ist das Gehirn in der Regel in der Lage, eine dreidimensionale (3D) Szene zu visualisieren und zu verstehen, unabhängig von dem Blickpunkt. Im Gegensatz dazu müssen, in Ermangelung einer weiterentwickelten (high level)Verarbeitungsarchitektur wie dem visuellen Cortex, moderne Computer niedrigstufige (low-level) Blickpunktinvarianz explizit in Szenedeskriptoren einbeziehen.
Verfahren zum Szeneverständnis umfassen zwei große Klassen. Eine Klasse basiert auf lokalen Schlüsselpunkten, die genau erfasst werden können, unabhängig von Rotation, Translation und anderen Blickpunktänderungen. Ein Deskriptor wird dann für die Schlüsselpunkte aufgebaut, um die lokale Struktur von Gradienten, Textur, Farbe und andere Informationen festzuhalten, die bei Blickpunktänderungen invariant bleiben. Maßstabsinvariante Merkmalstransformation (SIFT, Scale-Invariant Feature Transform) und beschleunigte robuste Merkmale (SURF, Speeded Up Robust Features) sind Beispiele für zwei Schlüsselpunkt-basierte Deskriptoren.
Eine andere Klasse von Verfahren beinhaltet Erfassen von Merkmalen (Capturing Features) im globalen Umfang. Die Genauigkeit wird durch lokale Mittelwertbildung und durch Verwenden anderer statistischer Eigenschaften von Farb- und Gradientenverteilungen erhalten. Der globale Ansatz wird in Histogrammen von Gradienten (HOG, Histogram Of Gradients) und GIST-Deskriptoren verwendet.
Die lokalen und globalen Ansätze haben komplementäre Merkmale. Lokale Deskriptoren sind genau und diskriminierend für den entsprechenden lokalen Schlüsselpunkt, aber globale strukturelle Hinweise über größere Objekte sind nicht vorhanden und können nur nach Herstellen von Entsprechungen zwischen mehreren lokalen Deskriptoren abgeleitet werden, die mit den Schlüsselpunkten assoziiert sind. Globale Deskriptoren neigen dazu, aggregierte statistische Informationen über das Bild zu erfassen, aber schließen keine spezifischen geometrischen oder strukturellen Hinweise ein, die oft für ein Szeneverständnis von Bedeutung sind.
Viele von Menschen geschaffene Szenen erfüllen eine Manhattan-Weltannahme, bei der Linien entlang dreier orthogonaler Hauptrichtungen ausgerichtet sind. Ein entscheidender Aspekt von Manhattan-Geometrie ist, dass sich alle parallelen Linien mit einer dominanten Richtung in einem Fluchtpunkt in einer 2D-Bildebene schneiden. In Szenen, in denen drei orthogonale Richtungen möglicherweise nicht vorhanden sind, können Linien eine einzige dominante Richtung erfüllen, beispielsweise vertikal oder horizontal, oder können mehrere dominante nicht-orthogonale Richtungen enthalten, zum Beispiel Möbelobjekte in einem Raum.
Zusammenfassung der Erfindung
Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor für Manhattan-Szenen zur Verfügung. Manhattan-Szenen haben dominante Richtungs-Orientierungen, üblicherweise in drei orthogonalen Richtungen. Dadurch schneiden sich alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, invariabel an einem entsprechenden Fluchtpunkt (vanishing point, VP) in einer 2D Bildebene. Alle der Szenenkanten erhalten relative räumliche Lagen und Stärken gesehen von den VPs aus. Der globale Deskriptor basiert auf räumlichen Orten und Intensitäten von Bildkanten in den Manhattan-Szenen um den Fluchtpunkt herum. Mit acht Kilobit pro Deskriptor und bis zu drei Deskriptoren pro Bild (einen für jeden VP) stellt das Verfahren effizienten Speicherung und Datentransfer zum Zuordnen verglichen mit lokalen Schlüsselpunktdeskriptoren wie SIFT zur Verfügung.
Ein Verfahren erstellt einen globalen Deskriptor durch striktes Einhalten einer Winkelanordnung von parallelen Linien über Bilder, wenn sich die Linien in einem Fluchtpunkt schneiden. Die relativen Längen und relativen Winkel (Orientierungen oder Richtungen) der parallelen Linien, die sich in einem Fluchtpunkt treffen, sind ungefähr die gleichen.
Ein kompakter, globaler Bilddeskriptor für Manhattan-Szenen erfasst relative Orte und Stärken von Kanten entlang von Fluchtrichtungen. Um den Deskriptor zu erstellen, wird für jeden Fluchtpunkt eine Kantenkarte ermittelt. Die Kantenkarte kodiert die Kantenstärke über einen Bereich von Winkeln oder Richtungen gemessen für den Fluchtpunkt.
Zur Objektzuordnung werden Deskriptoren von zwei Szenen über mehrere Kandidatenmaßstäbe und Verschiebungen hinweg verglichen. Die Zuordnungsleistung wird durch Vergleichen von Kantenformen an den lokalen Maxima der Maßstabsverschiebungspläne in Form von Histogrammen verfeinert.
Kurze Beschreibung der Zeichnungen
1 ist ein Bild einer Manhattan-Szene, die zwei Fluchtpunkte enthält, für welche globale Deskriptoren gemäß Ausführungsformen der Erfindung erstellt werden;
2 ist ein Schema, das die verschiedenen Winkel zeigt, die einem Fluchtpunkt Lagen hinsichtlich einer horizontalen Bezugslinie gegenüberliegen, und winklige Quantisierungsintervalle (quantization bins) entsprechend Ausführungsformen der Erfindung;
3 ist ein Schema von intervallierten Pixel-Intensitäten von Kantenkarten gemäß Ausführungsformen der Erfindung;
4 ist eine schematische Kantenstärke in Winkel-Intervallen für zwei unterschiedliche Ansichten eines Gebäudes gemäß Ausführungsformen der Erfindung;
5 ist ein Flussdiagramm eines Verfahrens zum Erstellen globaler Deskriptoren gemäß Ausführungsformen der Erfindung;
6 ist ein Schema einer affinen Transformation von zwei Bildern gemäß Ausführungsformen der Erfindung;
7 ist ein Histogramm von Kantenstärken auf einem Skalenverschiebungsplan gemäß Ausführungsformen der Erfindung; und
8 ist ein Flussdiagramm eines Verfahrens zum Zuordnen von Objekten unter Verwendung der globalen Deskriptoren gemäß den Ausführungsformen der Erfindung; und
9 ist ein Diagramm, das eine Metrik zum Messen der Qualität der Zuordnung gemäß Ausführungsformen der Erfindung erläutert.
Detaillierte Beschreibung der Ausführungsform
Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor 250 für eine Manhattan-Szene 100 zur Verfügung. Manhattan-Szenen weisen dominante Richtungs-Orientierungen üblicherweise in drei orthogonalen Richtungen auf, und alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, schneiden sich an einem entsprechenden Fluchtpunkt (VP 101) in einer 2D-Bildebene. Es wird angemerkt, das Manhattan-Szenen im Innenraum oder Außenraum sein und jede Anzahl von Objekten einschließen können.
Die Deskriptoren 250 werden sind aus Bildern 120 erstellt 500, die durch eine Kamera 110 erfasst wurden. Die Deskriptoren können dann zur Objektzuordnung 800 oder zu anderen verwandten Computervisionsanwendungen verwendet werden. Das Erstellen und Zuordnen kann in einem Prozessor 150 durchgeführt werden, der mit einem Speicher und Eingabe/Ausgabeschnittstellen über aus dem Stand der Technik bekannte Busse verbunden ist.
Fluchtpunktbasierter Bilddeskriptor
Der Deskriptor basiert auf den folgenden Realisierungen über mehrere Bilder 120 (Ansichten) des gleichen Objekts. Erstens erhalten parallele Linien in der tatsächlichen 3D-Szene strikt ihre winkelmäßige Anordnung über 2D-Bilder (bis zu einer Inversion), wenn sich die Linien an einem Fluchtpunkt schneiden. Zweitens sind die relativen Längen und relativen Winkel der parallelen Linien, die sich an einem Fluchtpunkt treffen, ungefähr die gleichen. Diese Realisierungen geben zu erkennen, dass die relativen Lagen und Stärken von entlang den Fluchtrichtungen orientierten Kanten zum Erstellen eines Deskriptors verwendet werden können. Wir beschreiben die Schritte, die bei dem Erstellen 500 des Deskriptors 250 und Verwenden der Deskriptoren zum Zuordnen involviert sind, nachstehend.
Setzen von -Deskriptoren an jedem Fluchtpunkt
Ein Fluchtpunkt ist als ein Schnittpunkt von Projektionen von Linien 102 definiert, die in der 3D-Szene parallel sind, für welche ein 2D-Bild 100 verfügbar ist. Ein VP kann als die 2D-Projektion eines 3D-Punkts angenommen werden, der unendlich weit weg in der Richtung ist, die durch parallele Linien in der 3D-Szene gegeben ist.
Im Allgemeinen gibt es viele Fluchtpunkte, welche verschiedenen Szenenrichtungen entsprechen, die durch parallelen Linien bestimmt sind. Viele künstlich hergestellte Strukturen, zum Beispiel städtische Landschaften, weisen jedoch eine regelmäßige Quadergeometrie auf. Daher resultieren üblicherweise drei Fluchtpunkte aus einer Bildprojektion, von denen zwei in 1 gezeigt sind.
VPs wurden in Computervision für Bildrektifizierung, Kameraeichung (camera calibration) und verwandte Probleme verwendet. Eine Identifikation von VPs ist einfach, wenn parallele Linien in der zugrundeliegenden 3D-Szene gekennzeichnet sind, wird jedoch schwieriger, wenn eine Kennzeichnung nicht verfügbar ist. Verfahren zum Bestimmen von Fluchtpunkten schließen agglomeriertes Clustern von Kanten, 1D-Hough-Transformationen, mehrstufige stichprobenübereinstimmungs (multi-level RANSAC, RANdom SAmple Consensus)-basierte Ansätze und Erwartungsmaximierung (EM, Expectation Maximazion) zum Zuordnen von Kanten zu VPs ein.
Wie in 2 gezeigt, können VP-Lagen 200 mit v _i = (v_ix, v_iy), 1 ≤ i ≤ m, bezeichnet werden, wobei typischerweise für Manhattan-Szenen, m ≤ 3 ist. Darüberhinaus sei θ_j(x, y) der Winkel, der am VP v _j hinsichtlich einer horizontalen Linie 201 gegenüberliegt bzw. gemessen wird.. Somit ist
Der Deskriptor 250 wird durch Kodieren relativer Orte und Stärken der Kanten erstellt, die an jedem VP konvergieren. Deshalb kann der Deskriptor als eine Funktion D: Θ → R⁺ angesehen werden, deren Definitionsbereich Winkel-Orientierungen der Kanten einschließt, die an dem VP konvergieren, and deren Umfang ein Maß der Stärken dieser Kanten in der richtigen Reihenfolge einschließt. Ein Deskriptor wird gemäß dem nachstehend beschriebenen Verfahren 500 für jeden VP bestimmt.
Kantenortsodierung
Linienerkennungsprozeduren produzieren oft unterbrochene oder abgeschnittene Linien, lassen wichtige Kanten vermissen und produzieren verfälschte Linien. Deshalb arbeiten wir, wie in 3 gezeigt, der Genauigkeit halber direkt mit Intensitäten von Kantenpixeln, anstatt mit Linien, die an Bildkanten angepasst werden. Die Darstellungen von Kantenstärken als eine Funktion der Winkelposition der Kanten um den Fluchtpunkt herum werden als Kantenkarten 300 bezeichnet. Insbesondere speichern und unabhängig summieren wir unabhängig die Intensitäten von Pixeln in Winkelintervallen 202, wie in 2 gezeigt, wenn die Gradienten angeben, dass die Pixel gemäß den Fluchtpunkten zum Erstellen des Deskriptors orientiert sind. Um dies zu tun (wie in 5 gezeigt), bestimmen wir zuerst einen Gradienten g(x, y), welcher einen 2D-Vektor für jedes Pixel in dem Bild ist.
Eine Richtung ψ_g(x, y) 511 eines Gradienten eines Pixels an einem Ort (x, y) in dem Bild bezieht sich auf die Richtung, entlang welcher eine große Intensitätsschwankung vorliegt. Ein Absolutwert (Magnitude) |g(x, y)| 512 des Gradienten bezieht sich auf die Intensitätsdifferenz an diesem Pixel entlang der Gradientenrichtung.
Dann bestimmen 520 wir eine Pixelmenge P_j für den Fluchtpunkt VP v _j als P_j = {(x, y)l|ψ_g(x, y) – θ_j(x, y) – π / 2| ≤ τ}, wobei τ ein Schwellenwert ist, der basierend auf einem Betrag ausgewählt wird, um welchen die Gradientenrichtung verstellt (misaligned) gegenüber der Richtung des VP ist. Wurde der Satz P_j bestimmt, werden die zugrundeliegenden Kantenorte wie folgt kodiert.
Die Pixelwinkel (Richtungen) werden in eine vorbestimmte Anzahl (K) von einheitlichen Winkelintervallen 202 quantisiert, die bei ϕ_k, 1 ≤ k ≤ K zentriert 203 sind, innerhalb eines winkligen Bereichs [θ_min, θ_max] 204, der das Bild überspannt, so dass
ϕ_k = θ_min + k / K + 1(θ_max – θ_min), 1 ≤ k ≤ K, so dass der Schwerpunkt des Winkel-Quantisierungsintervalls eine Richtung des Winkel-Quantisierungsintervalls angibt, d. h. die Pixelwinkel.
Kantenstärkenenkodierung
Untersuchungen des menschlichen Sehsystems legen nahe, dass die relative Wichtigkeit von Kanten eine Rolle beim Visualisieren eines charakteristischen Objektmusters spielt. Die Wichtigkeit einer Bildkante ist eine Funktion einer Länge der Kante, einer Dicke und einer zeitlichen Variation (Intensität und Abfall(fall-off)charakteristik) in der Richtung senkrecht zu der Kante.
Es gibt etliche Wege, um eine Kantenstärkenmetrik zu erstellen. Zum Beispiel kann dann, wenn Kantendetektoren verwendet werden, um den Deskriptor für einen bestimmten VP erstellen, die Stärke eine Funktion der Kantenlänge und des pixelweisen kumulativen Gradienten entlang der Kante sein. Wie vorstehend beschrieben, ist jedoch die Verwendung von Kantendetektoren nicht immer genau. Deshalb ziehen wir Verfahren basierend auf Clustering oder Quantisierung von pixelweisen Gradienten vor. Das Verfahren wird nachstehend im Detail beschrieben.
Wenn der Pixelsatz P_j einheitlich in Winkelintervalle 202 quantisiert ist, ist ein Weg, die Kantenstärke zu kodieren, eine Summe der Absolutwerte der Gradienten |g(x, y)| 512 in jedem Winkel-Quantisierungsintervall zu bestimmen. Um dies zu erreichen, betrachten wir ein Liniensegment 203, das durch die Mitte jedes Winkel-Quantisierungsintervalls mit Endpunkten (r_k,mincosϕ_k, r_k,minsinϕ_k) und (r_k,maxcosϕ_k, r_k,maxsinϕ_k), verläuft, wie in 2 gezeigt.
Dann ist der Deskriptor 250 die folgenden Aufsummierungen
wobei ϕ_k, 1 ≤ k ≤ K_j die Winkelorientierungen oder Richtungen darstellen, die mit den Quantisierungsintervallen bezüglich des VP v _j assoziiert sind, und r kann in einem Bereich bei Halbpixelauflösung variieren.
Der Genauigkeit halber wird bilineare Interpolation verwendet, um die Pixelgradienten an Subpixelorten zu erhalten. Die Erstellung 500 des Deskriptors D(k) 250 wird bei Subpixelauflösung durchgeführt. Beispiele von wie vorstehend erhaltenen Deskriptoren, durch Bestimmen der Kantenstärke in jedem Winkelintervall, sind für zwei unterschiedliche Ansichten des gleichen (Gebäudes) Objekts 401 in 4 gezeigt. Die entsprechenden Graphen zeigen die normalisierten Intensitätssummen als ein Funktion der Intervallindizes.
Erstellungsverfahren
5 fasst die grundlegenden Schritte für das Erstwellungsverfahren zusammen. Für jedes Pixel in dem Bild 120 bestimme eine Richtung 511 und einen Absolutwert 512 eines Gradienten. Als nächstes werden Mengen 521 von Gradienten mit Richtungen bestimmt, die mit Fluchtpunkten, von welchen bis zu drei vorhanden sein können, fluchten. Dann wird der Absolutwert von Gradienten für jede Menge unabhängig aufsummiert und als Kantenstärken kodiert 530, um den Deskriptor 250 für jeden Fluchtpunkt zu erhalten.
Projektive Transformation
Unser Motiv für das Erstellen 500 der globalen Deskriptoren 250 ist es, die Zuordnung 800 eines Objektes in Bildern durchzuführen, die von verschiedenen Blickpunkten erfasst wurden. Da jedes Bild eine 2D-Projektion der gleichen realen Szene ist, existiert normalerweise ein geometrische Beziehung zwischen den entsprechenden Schlüsselpunkten oder Kanten in einem Paar von Bildern. Zum Beispiel existiert eine Homographie-Beziehung zwischen Bildern von planaren Fassaden einer Konstruktion. Unsere Realisierungen legen nahe, dass eine affine Entsprechung zwischen den Deskriptoren D(k) 250 besteht, die für Bilder des gleichen Objekts ermittelt wurden.
Nachstehend beschreiben wir, dass diese Realisierung eine theoretische Begründung hat. Insbesondere zeigen wir, dass die Transformation der Winkel zwischen den Bildlinien (Kanten), die in dem Intervalleinteilungsschritt beim Erstellen 500 des Deskriptors verwendet werden, ungefähr affin ist.
Wie in 6 gezeigt, werden zwei Bilder (Ansichten) der gleichen Szene bestehend aus einem "Stift" von Linien betrachtet, die durch einen Fluchtpunkt verlaufen. Lassen wir den Fluchtpunkt für die erste Ansicht in einem Ursprung gelegen sein. Bei Verwendung von homogener Darstellung (homogeneous representation) sind die x und y-Achsen durch e_x = (010)^T und e_y = (100)^T gegeben, wobei T ein Transpositions-Operator ist. Unter Verwendung dieser Vektoren wird jede Linie l_λ dargestellt als l_λ = e_x + λe_y = (λ10)^T, wobei λ ∈ R.
Ohne Beschränkung der Allgemeinheit nehmen wir an, dass der betrachtete Zwischenwinkel der Winkel zwischen x-Achse und l_λ ist. Man beachte, dass θ_λ = tan^–1(–λ). Unser Ziel ist es, zu zeigen, dass der Winkel zwischen der x-Achse und l_λ von einem Bild zu dem anderen eine ungefähr affine Transformation erfährt. Um dies zu zeigen, bezeichne man die 3×3 Homographie zwischen den zwei Ansichten unter Verwendung einer Matrix H. Im Allgemeinen ist unter der Homographie der Fluchtpunkt nicht länger am Ursprung für die zweite Ansicht, und He_x ist nicht länger entlang der x-Achse. Nun wähle man eine Transformation, die durch eine andere 3×3 Matrix T gegeben ist, die den Fluchtpunkt zurück an den Ursprung versetzt und He_x auf die x-Achse zurückrotiert, wie in 6 gezeigt.
Wir bezeichnen die TH Transformation von l_λ mit l_γ, und den Winkel zwischen l_γ und der x-Achse mit θ_γ. Dann, l_γ = THl_λ = TH(λ10)^T = (a₁ + λb₁a₂ + λb₂0)^T, wobei,
wobei (a₁, a₂, b₁, b₂) die von den Elementen T und H abgeleiteten Transformationsparameter sind. Unter der Annahme, dass der Fluchtpunkt weit weg von dem Bild liegt, so dass θ_max – θ_min klein ist, können wir eine Taylor-Reihennäherung (Taylor series approximation) tan^–1(α) ≈ α verwenden, wobei α ein kleiner Winkel ist (ausgedrückt im Bogenmaß). Dementsprechend,
Unter der Annahme kleiner Zwischenwinkel wird der Term zweiter Ordnung θ_γθ_λ vernachlässigbar klein. Wenn wir diesen Kreuzterm vernachlässigen, ist die Transformation von θ_λ zu θ_γ ungefähr affin.
Deskriptorzuordnung
Ein Objekt in einer Manhattan-Szene kann bis zu drei VPs aufweisen, und deshalb drei Deskriptoren. Daher schließt ein Zuordnen eines von zwei Blickpunkten gesehenen Objekts ohne vorherige Orientierungsinformation bis zu neun paarweise Zuordnungsoperationen ein. Wie vorstehend beschrieben, erfahren die winkligen Kantenlagen eine ungefähr affine Transformation mit einem Wechsel des Blickpunkts. Deshalb schlagen wir vor, diese Transformation zu invertierten, bevor die relativen Formen der Kantenstärken in dem Paar von Deskriptoren, die zugeordnet werden, verglichen werden. Der Inversionsschritt wird unter Verwendung verschiedener Kandidatenmaßstäbe und -verschiebungen durchgeführt, d.h. verschiedener Kandidaten affiner Transformationen, von welchen das dominante affine Transformations (Maßstabsverschiebungs) paar ausgewählt werden kann. Das Verfahren 800 wird verwendet, um Deskriptoren wie nachstehend beschrieben zu vergleichen.
Kantenweise Korrespondenz-Abbildung
Um die ungefähr affine Transformation zu bestimmen, die den Deskriptor zwischen Blickpunkten überträgt, nutzen wir die Tatsache aus, dass bei der richtigen Entsprechung Paare von koplanaren Kanten ungefähr die gleichen affinen Parameter generieren, gegeben durch ein Maßstabsverschiebungspaar (s, d). Deshalb resultiert ein Abstimmungsverfahren (voting procedure) vom Hough-Transformationstyp in dem (s, d) Raum für Paare der Kanten in ein lokales Maximum bei wirklichem Maßstab s* und Verschiebung d*.
Mehrere lokale Maxima treten auf, wenn das Objekt mehrere Ebenen aufweist, die durch die VP-Richtungsachse getragen werden. Der Genauigkeit und Effizienz halber werden wichtige (prominente) Kanten basierend auf ihrer Kantenstärke identifiziert. Pixel auf Kanten mit einer Stärke größer als eine spezifizierte Perzentilschwelle werden ausgewählt. Zudem werden, für Genauigkeit gegenüber Kantenverdeckung, nur Kanten innerhalb naher winkelmäßiger Umgebung zum Abgeben von Voten (to cast votes) gepaart, zum Beispiel wird jede bedeutende Kante mit den C nächstliegenden Kanten gepaart.
Der Deskriptor D₁(k), 1 ≤ k ≤ K kann eine Menge von N₁ Spitzenpaaren (k_i, k'_i), 1 ≤ i ≤ N₁ generieren. Ähnlich generiert D₂(m) eine Menge von N₂ Spitzenpaaren (m_j, m'_j), 1 ≤ j ≤ N₂. Die identifizierten Paare von Spitzen werden kreuzweise zwischen den zwei Mengen abgebildet, um Voten für das (s, d) Histogramm unter Verwendung von
und d = m_j – sk_i zu generieren. Um Winkel-Inversion zu erlauben, zum Beispiel Oben/Unten und Links/Rechts-Rotation um den VP, werden zusätzliche Voten durch Umkehren der Reihenfolge von Spitzen innerhalb einer der vorstehenen zwei Mengen generiert.
Wie in 7 gezeigt kann nun ein Rohhistogramm 700 der (s, d) Voten verwendet werden, um lokale Maxima (s*, d*) festzustellen. Das Histogramm identifiziert den Maßstab und die Verschiebung, bei welchen zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen. Die lokalen Maxima stellen eine Beziehung zwischen Kanten in den zwei Ansichten des Objekts her. Wenn ein lokales Maximum zu wenige Voten enthält, dann wird eine Nichtübereinstimmung für dieses (s*, d*) Paar deklariert. Wenn keines der lokalen Maxima genügend Voten enthält, dann, dass die Deskriptoren nicht das gleiche Objekt darstellen.
Deshalb wird jeder Deskriptor so modifiziert, dass der Maßstab und die Verschiebung der Deskriptoren identisch sind. Dann wird eine Differenz zwischen den Formen von Spitzen in dem ersten Deskriptor und den entsprechenden Spitzen in dem zweiten Deskriptor bestimmt, und eine Übereinstimmung zwischen den zwei Bildern kann angezeigt werden, wenn diese Differenz kleiner als ein Schwellwert ist.
Zuordnungsverfahren
8 fasst die grundlegenden Schritte des Zuordnungsverfahrens 800 zusammen. Für Bilder 801 und 802 werden wie vorstehend beschrieben entsprechende Deskriptoren 811 und 812 erstellt 500. Spitzen 821 und 822 werden identifiziert 820, und Voten für das Histogramm 700 werden generiert 830. Die Spitzen identifizieren den Maßstab und die Verschiebung, bei welcher zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen.
Es sollte auch angemerkt werden, dass die Deskriptoren als Anfragen an eine Bilddatenbank verwendet werden können, um Bilder einer Szene abzurufen, die ähnlich sind.
Formzuordnung an entsprechenden Kanten
An jedem lokalen Maximum (s*, d*) kann die lokale Form des Kantenstärkeplans in den zwei verglichenen Deskriptoren, zum Beispiel die Pläne in 4, zum Verfeinern des Zuordnungsprozesses genutzt werden. Im Wesentlichen verbleibt es, nach Kompensieren für den Maßstabsfaktors s* und die Verschiebung d*, die Formen der Kantenstärkenpläne in der Nachbarschaft der Kantenpaare zu vergleichen, die für (s*, d*) votiert haben. Es gibt mehrere Wege, dies zu tun. Nachstehend beschreiben wir eine Ausführungsform.

a) Wie in 9 gezeigt, führen wir, um eine Metrik zum Messen der Qualität der Übereinstimmung zu erstellen, die folgenden Schritte für jede bedeutende Spitze durch:
b) Betrachte einen Bereich in der Winkel-Nachbarschaft der Spitze des ersten Deskriptors;
c) Bestimme einen kumulativen Kantenstärkenvektor in dieser Nachbarschaft, und normalisiere den Vektor so, dass die Summe aller Kantenstärken zu Eins wird.
d) Wiederhole diesen Prozess für jede zugeordnete bedeutende Spitze in dem zweiten Deskriptor;
e) Bestimme für jedes Paar zugeordneter Spitzen, wobei eine von jedem Deskriptor genommen wird, den absoluten Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren;
f) Die absoluten Abstände, die in (d) erhalten wurden, werden über alle zugeordneten Spitzenpaare hinweg gemittelt, möglicherweise generiert von mehreren Intervallen, und mit einer Schwelle verglichen;
g) Wenn der durchschnittliche Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren kleiner als die Schwelle ist, dann wird eine Übereinstimmung zwischen den zwei Deskriptoren deklariert.

Claims

Verfahren zum Erstellen (500) eines Deskriptors (250) für ein Bild (120) einer Szene (100), wobei der Deskriptor (250) mit einem Fluchtpunkt (101) in dem Bild (120) assoziiert ist, aufweisend die Schritte: Quantisierung eines Winkelbereichs um den Fluchtpunkt (101) in eine vorbestimmten Anzahl von Winkel-Quantisierungsintervallen, wobei ein Schwerpunkt (Centroid) von jedem Winkel-Quantisierungsintervall eine Richtung des Winkel-Quantisierungsintervalls angibt; Bestimmen (510), für jedes Winkel-Quantisierungsintervall, einer Summe von Absolutwerten von Pixelgradienten für Pixel in dem Bild (120) und einer Richtung des Pixelgradienten, die mit der Richtung des Winkel-Quantisierungsintervalls fluchtet, wobei die Schritte in einem Prozessor (150) durchgeführt werden.
Verfahren nach Anspruch 1, wobei die Szene (100) eine Manhattan-Szene (100) mit Manhattanwelt-Annahmen ist.
Verfahren nach Anspruch 1, bei dem die Winkel-Quantisierungsintervalle einheitlich sind.
Verfahren nach Anspruch 1, bei dem die Winkel-Quantisierungsintervalle durch Gruppieren der Richtungen der Pixelgradienten bestimmt werden, wobei die Richtungen in Bezug auf einen Ort (200) des Fluchtpunkts (101) gemessen werden.
Verfahren nach Anspruch 1, wobei die Pixelgradienten unabhängig an jedem Pixel bestimmt werden.
Verfahren nach Anspruch 1, wobei die Pixelgradienten eine Kantenerkennung auf dem Bild (120) durchführen, um Kantenstärken zu bestimmen, und die Pixelgradienten nur für Pixel mit Kantenstärken größer als ein spezifizierter Perzentilschwellwert als Spitzen bestimmt werden.
Verfahren nach Anspruch 1, bei dem die Gradienten an Subpixelorten bestimmt werden.
Verfahren nach Anspruch 1, weiterhin umfassend: Vergleichen von ersten und zweiten Deskriptoren (811, 812), die von zwei Bildern (801, 802) erstellt wurden, welche von einer Szene (100) unter verschiedenen Blickpunkten erfasst wurden
Verfahren nach Anspruch 8, weiterhin umfassend: Erstellen einer Metrik zum Messen einer Qualität der Zuordnung.
Verfahren nach Anspruch 8, weiterhin umfassend: Identifizieren (820), der Pixel mit Kantenstärken größer als ein spezifizierter Perzentilschwellwert von dem Deskriptor (811, 812) jedes Bildes (801, 802) als Spitzen Generieren eines Maßstabsverschiebungsplans, so dass ein von dem ersten Deskriptor (811) gewähltes Paar von Spitzen (821), das gemäß einem gegebenen Maßstabs- und Verschiebungswert kreuzweise abgebildet wurde, mit einem von dem zweiten Deskriptor (812) gewählten Spitzenpaar (822) übereinstimmt; Identifizieren eines oder mehrerer lokaler Maxima in dem Maßstabsverschiebungsplan, und Vergleichen der zwei Deskriptoren (811, 812) unter Verwendung der Maßstabs und der Verschiebungswerte an jedem lokalen Maximum.
Verfahren nach Anspruch 10, bei dem das Vergleichen außerdem umfasst: Ändern jedes Deskriptors (811, 812) so, dass der Maßstab und die Verschiebung der Deskriptoren (811, 812) identisch sind; Bestimmen der Differenz zwischen den Spitzen (821) in dem ersten Deskriptor (811) und den Spitzen (822) in dem zweiten Deskriptor (812); und Feststellen einer Übereinstimmung zwischen den zwei Bildern, wenn die Differenz unter einem Schwellwert liegt.
Verfahren nach Anspruch 11, bei welchem die Bestimmung der Differenz außerdem umfasst: Berechnen, für die entsprechenden Spitzen (821, 822) in dem ersten Deskriptor (811) und zweiten Deskriptor (812), einer kumulierten Kantenstärke in einer Winkelumgebung der Spitzen (821, 822); Normalisieren der kumulierten Kantenstärken, so dass eine Summe der Kantenstärken in der Winkelumgebung der Spitze (821, 822) Eins ist, und Berechnen eines Abstands zwischen den normalisierten kumulierten Kantenstärken des ersten Deskriptors (811) und zweiten Deskriptors (812).
Verfahren nach Anspruch 1, weiterhin umfassend: Abrufen ähnlicher Bilder aus einer Bilddatenbank basierend auf den Deskriptoren (250).
Verfahren nach Anspruch 1, bei dem die Pixelmenge für den Fluchtpunkt (101) P_j = {(x, y)l|ψ_g(x, y) – θ_j(x, y) – π / 2| ≤ τ}, ist, wobei die Richtung des Gradienten eines Pixels an einem Ort (x, y) in dem Bild (120) ψ_g(x, y) ist, θ_j(x, y) ein Winkel ist, der am Fluchtpunkt (101) hinsichtlich einer horizontalen Bezugslinie (201) gemessen wird, und τ ein Schwellwert ist, der basierend auf einem Betrag ausgewählt wird, bei welchem die Richtung nicht fluchtend mit der Richtung des Fluchtpunkts (101) ist.
Verfahren nach Anspruch 1, weiter umfassend: Quantisieren der Richtungen in eine vorbestimmte Anzahl (K) von Intervallen (202), die bei ϕ_k, 1 ≤ k ≤ K, zentriert sind (203) innerhalb eines Winkelbereichs [θ_min, θ_max] (204), so dass ϕ_k = θ_min + k / K + 1(θ_max – θ_min), 1 ≤ k ≤ K,
Verfahren nach Anspruch 15, bei dem der Deskriptor (250)
ist, wobei ϕ_k, 1 ≤ k ≤ K_j die Richtungen der Intervalle (202) darstellt (202), und r in einem Bereich bei Halbpixelauflösung variiert.