-
Gebiet der Erfindung
-
Dieser Erfindung betrifft generell Computervision und insbesondere globale Deskriptoren zum Zuordnen (matching) von Manhattan-Szenen, die für Blickpunkt invariante Objektzuordnung verwendet werden können.
-
Hintergrund der Erfindung
-
Blickpunktinvariante Objektzuordnung ist wegen Bildverzerrungen durch Faktoren wie Rotation, Translation, Beleuchtung, Abschneiden und Verdeckung schwierig. Visuelles Szenenverständnis ist ein bekanntes Problem bei Computervision. Insbesondere stellt die Identifizierung von Objekten in einer 3D-Szene basierend auf einer Projektion auf eine zweidimensionale (2D) Bildebene enorme Herausforderungen.
-
Die menschliche visuelle Hirnrinde (cortex) ist bekannt dafür, sich stark auf das Vorhandensein von Kanten an physikalischen Objektgrenzen zur Identifizierung einzelner Objekte in einer Ansicht zu stützen. Unter Verwendung von Kanten, Textur und Farbe ist das Gehirn in der Regel in der Lage, eine dreidimensionale (3D) Szene zu visualisieren und zu verstehen, unabhängig von dem Blickpunkt. Im Gegensatz dazu müssen, in Ermangelung einer weiterentwickelten (high level)Verarbeitungsarchitektur wie dem visuellen Cortex, moderne Computer niedrigstufige (low-level) Blickpunktinvarianz explizit in Szenedeskriptoren einbeziehen.
-
Verfahren zum Szeneverständnis umfassen zwei große Klassen. Eine Klasse basiert auf lokalen Schlüsselpunkten, die genau erfasst werden können, unabhängig von Rotation, Translation und anderen Blickpunktänderungen. Ein Deskriptor wird dann für die Schlüsselpunkte aufgebaut, um die lokale Struktur von Gradienten, Textur, Farbe und andere Informationen festzuhalten, die bei Blickpunktänderungen invariant bleiben. Maßstabsinvariante Merkmalstransformation (SIFT, Scale-Invariant Feature Transform) und beschleunigte robuste Merkmale (SURF, Speeded Up Robust Features) sind Beispiele für zwei Schlüsselpunkt-basierte Deskriptoren.
-
Eine andere Klasse von Verfahren beinhaltet Erfassen von Merkmalen (Capturing Features) im globalen Umfang. Die Genauigkeit wird durch lokale Mittelwertbildung und durch Verwenden anderer statistischer Eigenschaften von Farb- und Gradientenverteilungen erhalten. Der globale Ansatz wird in Histogrammen von Gradienten (HOG, Histogram Of Gradients) und GIST-Deskriptoren verwendet.
-
Die lokalen und globalen Ansätze haben komplementäre Merkmale. Lokale Deskriptoren sind genau und diskriminierend für den entsprechenden lokalen Schlüsselpunkt, aber globale strukturelle Hinweise über größere Objekte sind nicht vorhanden und können nur nach Herstellen von Entsprechungen zwischen mehreren lokalen Deskriptoren abgeleitet werden, die mit den Schlüsselpunkten assoziiert sind. Globale Deskriptoren neigen dazu, aggregierte statistische Informationen über das Bild zu erfassen, aber schließen keine spezifischen geometrischen oder strukturellen Hinweise ein, die oft für ein Szeneverständnis von Bedeutung sind.
-
Viele von Menschen geschaffene Szenen erfüllen eine Manhattan-Weltannahme, bei der Linien entlang dreier orthogonaler Hauptrichtungen ausgerichtet sind. Ein entscheidender Aspekt von Manhattan-Geometrie ist, dass sich alle parallelen Linien mit einer dominanten Richtung in einem Fluchtpunkt in einer 2D-Bildebene schneiden. In Szenen, in denen drei orthogonale Richtungen möglicherweise nicht vorhanden sind, können Linien eine einzige dominante Richtung erfüllen, beispielsweise vertikal oder horizontal, oder können mehrere dominante nicht-orthogonale Richtungen enthalten, zum Beispiel Möbelobjekte in einem Raum.
-
Zusammenfassung der Erfindung
-
Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor für Manhattan-Szenen zur Verfügung. Manhattan-Szenen haben dominante Richtungs-Orientierungen, üblicherweise in drei orthogonalen Richtungen. Dadurch schneiden sich alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, invariabel an einem entsprechenden Fluchtpunkt (vanishing point, VP) in einer 2D Bildebene. Alle der Szenenkanten erhalten relative räumliche Lagen und Stärken gesehen von den VPs aus. Der globale Deskriptor basiert auf räumlichen Orten und Intensitäten von Bildkanten in den Manhattan-Szenen um den Fluchtpunkt herum. Mit acht Kilobit pro Deskriptor und bis zu drei Deskriptoren pro Bild (einen für jeden VP) stellt das Verfahren effizienten Speicherung und Datentransfer zum Zuordnen verglichen mit lokalen Schlüsselpunktdeskriptoren wie SIFT zur Verfügung.
-
Ein Verfahren erstellt einen globalen Deskriptor durch striktes Einhalten einer Winkelanordnung von parallelen Linien über Bilder, wenn sich die Linien in einem Fluchtpunkt schneiden. Die relativen Längen und relativen Winkel (Orientierungen oder Richtungen) der parallelen Linien, die sich in einem Fluchtpunkt treffen, sind ungefähr die gleichen.
-
Ein kompakter, globaler Bilddeskriptor für Manhattan-Szenen erfasst relative Orte und Stärken von Kanten entlang von Fluchtrichtungen. Um den Deskriptor zu erstellen, wird für jeden Fluchtpunkt eine Kantenkarte ermittelt. Die Kantenkarte kodiert die Kantenstärke über einen Bereich von Winkeln oder Richtungen gemessen für den Fluchtpunkt.
-
Zur Objektzuordnung werden Deskriptoren von zwei Szenen über mehrere Kandidatenmaßstäbe und Verschiebungen hinweg verglichen. Die Zuordnungsleistung wird durch Vergleichen von Kantenformen an den lokalen Maxima der Maßstabsverschiebungspläne in Form von Histogrammen verfeinert.
-
Kurze Beschreibung der Zeichnungen
-
1 ist ein Bild einer Manhattan-Szene, die zwei Fluchtpunkte enthält, für welche globale Deskriptoren gemäß Ausführungsformen der Erfindung erstellt werden;
-
2 ist ein Schema, das die verschiedenen Winkel zeigt, die einem Fluchtpunkt Lagen hinsichtlich einer horizontalen Bezugslinie gegenüberliegen, und winklige Quantisierungsintervalle (quantization bins) entsprechend Ausführungsformen der Erfindung;
-
3 ist ein Schema von intervallierten Pixel-Intensitäten von Kantenkarten gemäß Ausführungsformen der Erfindung;
-
4 ist eine schematische Kantenstärke in Winkel-Intervallen für zwei unterschiedliche Ansichten eines Gebäudes gemäß Ausführungsformen der Erfindung;
-
5 ist ein Flussdiagramm eines Verfahrens zum Erstellen globaler Deskriptoren gemäß Ausführungsformen der Erfindung;
-
6 ist ein Schema einer affinen Transformation von zwei Bildern gemäß Ausführungsformen der Erfindung;
-
7 ist ein Histogramm von Kantenstärken auf einem Skalenverschiebungsplan gemäß Ausführungsformen der Erfindung; und
-
8 ist ein Flussdiagramm eines Verfahrens zum Zuordnen von Objekten unter Verwendung der globalen Deskriptoren gemäß den Ausführungsformen der Erfindung; und
-
9 ist ein Diagramm, das eine Metrik zum Messen der Qualität der Zuordnung gemäß Ausführungsformen der Erfindung erläutert.
-
Detaillierte Beschreibung der Ausführungsform
-
Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor 250 für eine Manhattan-Szene 100 zur Verfügung. Manhattan-Szenen weisen dominante Richtungs-Orientierungen üblicherweise in drei orthogonalen Richtungen auf, und alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, schneiden sich an einem entsprechenden Fluchtpunkt (VP 101) in einer 2D-Bildebene. Es wird angemerkt, das Manhattan-Szenen im Innenraum oder Außenraum sein und jede Anzahl von Objekten einschließen können.
-
Die Deskriptoren 250 werden sind aus Bildern 120 erstellt 500, die durch eine Kamera 110 erfasst wurden. Die Deskriptoren können dann zur Objektzuordnung 800 oder zu anderen verwandten Computervisionsanwendungen verwendet werden. Das Erstellen und Zuordnen kann in einem Prozessor 150 durchgeführt werden, der mit einem Speicher und Eingabe/Ausgabeschnittstellen über aus dem Stand der Technik bekannte Busse verbunden ist.
-
Fluchtpunktbasierter Bilddeskriptor
-
Der Deskriptor basiert auf den folgenden Realisierungen über mehrere Bilder 120 (Ansichten) des gleichen Objekts. Erstens erhalten parallele Linien in der tatsächlichen 3D-Szene strikt ihre winkelmäßige Anordnung über 2D-Bilder (bis zu einer Inversion), wenn sich die Linien an einem Fluchtpunkt schneiden. Zweitens sind die relativen Längen und relativen Winkel der parallelen Linien, die sich an einem Fluchtpunkt treffen, ungefähr die gleichen. Diese Realisierungen geben zu erkennen, dass die relativen Lagen und Stärken von entlang den Fluchtrichtungen orientierten Kanten zum Erstellen eines Deskriptors verwendet werden können. Wir beschreiben die Schritte, die bei dem Erstellen 500 des Deskriptors 250 und Verwenden der Deskriptoren zum Zuordnen involviert sind, nachstehend.
-
Setzen von -Deskriptoren an jedem Fluchtpunkt
-
Ein Fluchtpunkt ist als ein Schnittpunkt von Projektionen von Linien 102 definiert, die in der 3D-Szene parallel sind, für welche ein 2D-Bild 100 verfügbar ist. Ein VP kann als die 2D-Projektion eines 3D-Punkts angenommen werden, der unendlich weit weg in der Richtung ist, die durch parallele Linien in der 3D-Szene gegeben ist.
-
Im Allgemeinen gibt es viele Fluchtpunkte, welche verschiedenen Szenenrichtungen entsprechen, die durch parallelen Linien bestimmt sind. Viele künstlich hergestellte Strukturen, zum Beispiel städtische Landschaften, weisen jedoch eine regelmäßige Quadergeometrie auf. Daher resultieren üblicherweise drei Fluchtpunkte aus einer Bildprojektion, von denen zwei in 1 gezeigt sind.
-
VPs wurden in Computervision für Bildrektifizierung, Kameraeichung (camera calibration) und verwandte Probleme verwendet. Eine Identifikation von VPs ist einfach, wenn parallele Linien in der zugrundeliegenden 3D-Szene gekennzeichnet sind, wird jedoch schwieriger, wenn eine Kennzeichnung nicht verfügbar ist. Verfahren zum Bestimmen von Fluchtpunkten schließen agglomeriertes Clustern von Kanten, 1D-Hough-Transformationen, mehrstufige stichprobenübereinstimmungs (multi-level RANSAC, RANdom SAmple Consensus)-basierte Ansätze und Erwartungsmaximierung (EM, Expectation Maximazion) zum Zuordnen von Kanten zu VPs ein.
-
Wie in
2 gezeigt, können VP-Lagen
200 mit
v i = (vix, viy), 1 ≤ i ≤ m, bezeichnet werden, wobei typischerweise für Manhattan-Szenen, m ≤ 3 ist. Darüberhinaus sei θ
j(x, y) der Winkel, der am VP
v j hinsichtlich einer horizontalen Linie
201 gegenüberliegt bzw. gemessen wird.. Somit ist
-
Der Deskriptor 250 wird durch Kodieren relativer Orte und Stärken der Kanten erstellt, die an jedem VP konvergieren. Deshalb kann der Deskriptor als eine Funktion D: Θ → R+ angesehen werden, deren Definitionsbereich Winkel-Orientierungen der Kanten einschließt, die an dem VP konvergieren, and deren Umfang ein Maß der Stärken dieser Kanten in der richtigen Reihenfolge einschließt. Ein Deskriptor wird gemäß dem nachstehend beschriebenen Verfahren 500 für jeden VP bestimmt.
-
Kantenortsodierung
-
Linienerkennungsprozeduren produzieren oft unterbrochene oder abgeschnittene Linien, lassen wichtige Kanten vermissen und produzieren verfälschte Linien. Deshalb arbeiten wir, wie in 3 gezeigt, der Genauigkeit halber direkt mit Intensitäten von Kantenpixeln, anstatt mit Linien, die an Bildkanten angepasst werden. Die Darstellungen von Kantenstärken als eine Funktion der Winkelposition der Kanten um den Fluchtpunkt herum werden als Kantenkarten 300 bezeichnet. Insbesondere speichern und unabhängig summieren wir unabhängig die Intensitäten von Pixeln in Winkelintervallen 202, wie in 2 gezeigt, wenn die Gradienten angeben, dass die Pixel gemäß den Fluchtpunkten zum Erstellen des Deskriptors orientiert sind. Um dies zu tun (wie in 5 gezeigt), bestimmen wir zuerst einen Gradienten g(x, y), welcher einen 2D-Vektor für jedes Pixel in dem Bild ist.
-
Eine Richtung ψg(x, y) 511 eines Gradienten eines Pixels an einem Ort (x, y) in dem Bild bezieht sich auf die Richtung, entlang welcher eine große Intensitätsschwankung vorliegt. Ein Absolutwert (Magnitude) |g(x, y)| 512 des Gradienten bezieht sich auf die Intensitätsdifferenz an diesem Pixel entlang der Gradientenrichtung.
-
Dann bestimmen 520 wir eine Pixelmenge Pj für den Fluchtpunkt VP v j als Pj = {(x, y)l|ψg(x, y) – θj(x, y) – π / 2| ≤ τ}, wobei τ ein Schwellenwert ist, der basierend auf einem Betrag ausgewählt wird, um welchen die Gradientenrichtung verstellt (misaligned) gegenüber der Richtung des VP ist. Wurde der Satz Pj bestimmt, werden die zugrundeliegenden Kantenorte wie folgt kodiert.
-
Die Pixelwinkel (Richtungen) werden in eine vorbestimmte Anzahl (K) von einheitlichen Winkelintervallen 202 quantisiert, die bei ϕk, 1 ≤ k ≤ K zentriert 203 sind, innerhalb eines winkligen Bereichs [θmin, θmax] 204, der das Bild überspannt, so dass
ϕk = θmin + k / K + 1(θmax – θmin), 1 ≤ k ≤ K, so dass der Schwerpunkt des Winkel-Quantisierungsintervalls eine Richtung des Winkel-Quantisierungsintervalls angibt, d. h. die Pixelwinkel.
-
Kantenstärkenenkodierung
-
Untersuchungen des menschlichen Sehsystems legen nahe, dass die relative Wichtigkeit von Kanten eine Rolle beim Visualisieren eines charakteristischen Objektmusters spielt. Die Wichtigkeit einer Bildkante ist eine Funktion einer Länge der Kante, einer Dicke und einer zeitlichen Variation (Intensität und Abfall(fall-off)charakteristik) in der Richtung senkrecht zu der Kante.
-
Es gibt etliche Wege, um eine Kantenstärkenmetrik zu erstellen. Zum Beispiel kann dann, wenn Kantendetektoren verwendet werden, um den Deskriptor für einen bestimmten VP erstellen, die Stärke eine Funktion der Kantenlänge und des pixelweisen kumulativen Gradienten entlang der Kante sein. Wie vorstehend beschrieben, ist jedoch die Verwendung von Kantendetektoren nicht immer genau. Deshalb ziehen wir Verfahren basierend auf Clustering oder Quantisierung von pixelweisen Gradienten vor. Das Verfahren wird nachstehend im Detail beschrieben.
-
Wenn der Pixelsatz Pj einheitlich in Winkelintervalle 202 quantisiert ist, ist ein Weg, die Kantenstärke zu kodieren, eine Summe der Absolutwerte der Gradienten |g(x, y)| 512 in jedem Winkel-Quantisierungsintervall zu bestimmen. Um dies zu erreichen, betrachten wir ein Liniensegment 203, das durch die Mitte jedes Winkel-Quantisierungsintervalls mit Endpunkten (rk,mincosϕk, rk,minsinϕk) und (rk,maxcosϕk, rk,maxsinϕk), verläuft, wie in 2 gezeigt.
-
Dann ist der Deskriptor
250 die folgenden Aufsummierungen
wobei ϕ
k, 1 ≤ k ≤ K
j die Winkelorientierungen oder Richtungen darstellen, die mit den Quantisierungsintervallen bezüglich des
VP v j assoziiert sind, und r kann in einem Bereich bei Halbpixelauflösung variieren.
-
Der Genauigkeit halber wird bilineare Interpolation verwendet, um die Pixelgradienten an Subpixelorten zu erhalten. Die Erstellung 500 des Deskriptors D(k) 250 wird bei Subpixelauflösung durchgeführt. Beispiele von wie vorstehend erhaltenen Deskriptoren, durch Bestimmen der Kantenstärke in jedem Winkelintervall, sind für zwei unterschiedliche Ansichten des gleichen (Gebäudes) Objekts 401 in 4 gezeigt. Die entsprechenden Graphen zeigen die normalisierten Intensitätssummen als ein Funktion der Intervallindizes.
-
Erstellungsverfahren
-
5 fasst die grundlegenden Schritte für das Erstwellungsverfahren zusammen. Für jedes Pixel in dem Bild 120 bestimme eine Richtung 511 und einen Absolutwert 512 eines Gradienten. Als nächstes werden Mengen 521 von Gradienten mit Richtungen bestimmt, die mit Fluchtpunkten, von welchen bis zu drei vorhanden sein können, fluchten. Dann wird der Absolutwert von Gradienten für jede Menge unabhängig aufsummiert und als Kantenstärken kodiert 530, um den Deskriptor 250 für jeden Fluchtpunkt zu erhalten.
-
Projektive Transformation
-
Unser Motiv für das Erstellen 500 der globalen Deskriptoren 250 ist es, die Zuordnung 800 eines Objektes in Bildern durchzuführen, die von verschiedenen Blickpunkten erfasst wurden. Da jedes Bild eine 2D-Projektion der gleichen realen Szene ist, existiert normalerweise ein geometrische Beziehung zwischen den entsprechenden Schlüsselpunkten oder Kanten in einem Paar von Bildern. Zum Beispiel existiert eine Homographie-Beziehung zwischen Bildern von planaren Fassaden einer Konstruktion. Unsere Realisierungen legen nahe, dass eine affine Entsprechung zwischen den Deskriptoren D(k) 250 besteht, die für Bilder des gleichen Objekts ermittelt wurden.
-
Nachstehend beschreiben wir, dass diese Realisierung eine theoretische Begründung hat. Insbesondere zeigen wir, dass die Transformation der Winkel zwischen den Bildlinien (Kanten), die in dem Intervalleinteilungsschritt beim Erstellen 500 des Deskriptors verwendet werden, ungefähr affin ist.
-
Wie in 6 gezeigt, werden zwei Bilder (Ansichten) der gleichen Szene bestehend aus einem "Stift" von Linien betrachtet, die durch einen Fluchtpunkt verlaufen. Lassen wir den Fluchtpunkt für die erste Ansicht in einem Ursprung gelegen sein. Bei Verwendung von homogener Darstellung (homogeneous representation) sind die x und y-Achsen durch ex = (010)T und ey = (100)T gegeben, wobei T ein Transpositions-Operator ist. Unter Verwendung dieser Vektoren wird jede Linie lλ dargestellt als lλ = ex + λey = (λ10)T, wobei λ ∈ R.
-
Ohne Beschränkung der Allgemeinheit nehmen wir an, dass der betrachtete Zwischenwinkel der Winkel zwischen x-Achse und lλ ist. Man beachte, dass θλ = tan–1(–λ). Unser Ziel ist es, zu zeigen, dass der Winkel zwischen der x-Achse und lλ von einem Bild zu dem anderen eine ungefähr affine Transformation erfährt. Um dies zu zeigen, bezeichne man die 3×3 Homographie zwischen den zwei Ansichten unter Verwendung einer Matrix H. Im Allgemeinen ist unter der Homographie der Fluchtpunkt nicht länger am Ursprung für die zweite Ansicht, und Hex ist nicht länger entlang der x-Achse. Nun wähle man eine Transformation, die durch eine andere 3×3 Matrix T gegeben ist, die den Fluchtpunkt zurück an den Ursprung versetzt und Hex auf die x-Achse zurückrotiert, wie in 6 gezeigt.
-
Wir bezeichnen die TH Transformation von l
λ mit l
γ, und den Winkel zwischen l
γ und der x-Achse mit θ
γ. Dann,
lγ = THlλ = TH(λ10)T = (a1 + λb1a2 + λb20)T, wobei,
wobei (a
1, a
2, b
1, b
2) die von den Elementen T und H abgeleiteten Transformationsparameter sind. Unter der Annahme, dass der Fluchtpunkt weit weg von dem Bild liegt, so dass θ
max – θ
min klein ist, können wir eine Taylor-Reihennäherung (Taylor series approximation) tan
–1(α) ≈ α verwenden, wobei α ein kleiner Winkel ist (ausgedrückt im Bogenmaß). Dementsprechend,
-
Unter der Annahme kleiner Zwischenwinkel wird der Term zweiter Ordnung θγθλ vernachlässigbar klein. Wenn wir diesen Kreuzterm vernachlässigen, ist die Transformation von θλ zu θγ ungefähr affin.
-
Deskriptorzuordnung
-
Ein Objekt in einer Manhattan-Szene kann bis zu drei VPs aufweisen, und deshalb drei Deskriptoren. Daher schließt ein Zuordnen eines von zwei Blickpunkten gesehenen Objekts ohne vorherige Orientierungsinformation bis zu neun paarweise Zuordnungsoperationen ein. Wie vorstehend beschrieben, erfahren die winkligen Kantenlagen eine ungefähr affine Transformation mit einem Wechsel des Blickpunkts. Deshalb schlagen wir vor, diese Transformation zu invertierten, bevor die relativen Formen der Kantenstärken in dem Paar von Deskriptoren, die zugeordnet werden, verglichen werden. Der Inversionsschritt wird unter Verwendung verschiedener Kandidatenmaßstäbe und -verschiebungen durchgeführt, d.h. verschiedener Kandidaten affiner Transformationen, von welchen das dominante affine Transformations (Maßstabsverschiebungs) paar ausgewählt werden kann. Das Verfahren 800 wird verwendet, um Deskriptoren wie nachstehend beschrieben zu vergleichen.
-
Kantenweise Korrespondenz-Abbildung
-
Um die ungefähr affine Transformation zu bestimmen, die den Deskriptor zwischen Blickpunkten überträgt, nutzen wir die Tatsache aus, dass bei der richtigen Entsprechung Paare von koplanaren Kanten ungefähr die gleichen affinen Parameter generieren, gegeben durch ein Maßstabsverschiebungspaar (s, d). Deshalb resultiert ein Abstimmungsverfahren (voting procedure) vom Hough-Transformationstyp in dem (s, d) Raum für Paare der Kanten in ein lokales Maximum bei wirklichem Maßstab s* und Verschiebung d*.
-
Mehrere lokale Maxima treten auf, wenn das Objekt mehrere Ebenen aufweist, die durch die VP-Richtungsachse getragen werden. Der Genauigkeit und Effizienz halber werden wichtige (prominente) Kanten basierend auf ihrer Kantenstärke identifiziert. Pixel auf Kanten mit einer Stärke größer als eine spezifizierte Perzentilschwelle werden ausgewählt. Zudem werden, für Genauigkeit gegenüber Kantenverdeckung, nur Kanten innerhalb naher winkelmäßiger Umgebung zum Abgeben von Voten (to cast votes) gepaart, zum Beispiel wird jede bedeutende Kante mit den C nächstliegenden Kanten gepaart.
-
Der Deskriptor D
1(k), 1 ≤ k ≤ K kann eine Menge von N
1 Spitzenpaaren (k
i, k'
i), 1 ≤ i ≤ N
1 generieren. Ähnlich generiert D
2(m) eine Menge von N
2 Spitzenpaaren (m
j, m'
j), 1 ≤ j ≤ N
2. Die identifizierten Paare von Spitzen werden kreuzweise zwischen den zwei Mengen abgebildet, um Voten für das (s, d) Histogramm unter Verwendung von
und d = m
j – sk
i zu generieren. Um Winkel-Inversion zu erlauben, zum Beispiel Oben/Unten und Links/Rechts-Rotation um den VP, werden zusätzliche Voten durch Umkehren der Reihenfolge von Spitzen innerhalb einer der vorstehenen zwei Mengen generiert.
-
Wie in 7 gezeigt kann nun ein Rohhistogramm 700 der (s, d) Voten verwendet werden, um lokale Maxima (s*, d*) festzustellen. Das Histogramm identifiziert den Maßstab und die Verschiebung, bei welchen zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen. Die lokalen Maxima stellen eine Beziehung zwischen Kanten in den zwei Ansichten des Objekts her. Wenn ein lokales Maximum zu wenige Voten enthält, dann wird eine Nichtübereinstimmung für dieses (s*, d*) Paar deklariert. Wenn keines der lokalen Maxima genügend Voten enthält, dann, dass die Deskriptoren nicht das gleiche Objekt darstellen.
-
Deshalb wird jeder Deskriptor so modifiziert, dass der Maßstab und die Verschiebung der Deskriptoren identisch sind. Dann wird eine Differenz zwischen den Formen von Spitzen in dem ersten Deskriptor und den entsprechenden Spitzen in dem zweiten Deskriptor bestimmt, und eine Übereinstimmung zwischen den zwei Bildern kann angezeigt werden, wenn diese Differenz kleiner als ein Schwellwert ist.
-
Zuordnungsverfahren
-
8 fasst die grundlegenden Schritte des Zuordnungsverfahrens 800 zusammen. Für Bilder 801 und 802 werden wie vorstehend beschrieben entsprechende Deskriptoren 811 und 812 erstellt 500. Spitzen 821 und 822 werden identifiziert 820, und Voten für das Histogramm 700 werden generiert 830. Die Spitzen identifizieren den Maßstab und die Verschiebung, bei welcher zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen.
-
Es sollte auch angemerkt werden, dass die Deskriptoren als Anfragen an eine Bilddatenbank verwendet werden können, um Bilder einer Szene abzurufen, die ähnlich sind.
-
Formzuordnung an entsprechenden Kanten
-
An jedem lokalen Maximum (s*, d*) kann die lokale Form des Kantenstärkeplans in den zwei verglichenen Deskriptoren, zum Beispiel die Pläne in 4, zum Verfeinern des Zuordnungsprozesses genutzt werden. Im Wesentlichen verbleibt es, nach Kompensieren für den Maßstabsfaktors s* und die Verschiebung d*, die Formen der Kantenstärkenpläne in der Nachbarschaft der Kantenpaare zu vergleichen, die für (s*, d*) votiert haben. Es gibt mehrere Wege, dies zu tun. Nachstehend beschreiben wir eine Ausführungsform.
- a) Wie in 9 gezeigt, führen wir, um eine Metrik zum Messen der Qualität der Übereinstimmung zu erstellen, die folgenden Schritte für jede bedeutende Spitze durch:
- b) Betrachte einen Bereich in der Winkel-Nachbarschaft der Spitze des ersten Deskriptors;
- c) Bestimme einen kumulativen Kantenstärkenvektor in dieser Nachbarschaft, und normalisiere den Vektor so, dass die Summe aller Kantenstärken zu Eins wird.
- d) Wiederhole diesen Prozess für jede zugeordnete bedeutende Spitze in dem zweiten Deskriptor;
- e) Bestimme für jedes Paar zugeordneter Spitzen, wobei eine von jedem Deskriptor genommen wird, den absoluten Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren;
- f) Die absoluten Abstände, die in (d) erhalten wurden, werden über alle zugeordneten Spitzenpaare hinweg gemittelt, möglicherweise generiert von mehreren Intervallen, und mit einer Schwelle verglichen;
- g) Wenn der durchschnittliche Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren kleiner als die Schwelle ist, dann wird eine Übereinstimmung zwischen den zwei Deskriptoren deklariert.