DE102015200260A1 - Verfahren zum Erstellen eines Deskriptors für ein Szenenbild - Google Patents

Verfahren zum Erstellen eines Deskriptors für ein Szenenbild Download PDF

Info

Publication number
DE102015200260A1
DE102015200260A1 DE102015200260.8A DE102015200260A DE102015200260A1 DE 102015200260 A1 DE102015200260 A1 DE 102015200260A1 DE 102015200260 A DE102015200260 A DE 102015200260A DE 102015200260 A1 DE102015200260 A1 DE 102015200260A1
Authority
DE
Germany
Prior art keywords
descriptor
pixel
angular
descriptors
vanishing point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102015200260.8A
Other languages
English (en)
Inventor
Shantanu Rane
Rohit Naini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE102015200260A1 publication Critical patent/DE102015200260A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Ein Verfahren erstellt einen Deskriptor für ein Bild einer Szene, wobei der Deskriptor mit einer Fluchtpunkt in dem Bild assoziiert ist durch zuerst Quantisieren eines Winkelbereichs um den Fluchtpunkt in eine vorbestimmte Anzahl winkliger Quantisierungsintervalle, und ein Schwerpunkt jedes Winkel-Quantisierungsintervalls eine Richtung des Winkel-Quantisierungsintervalls angibt. Für jedes Winkel-Quantisierungsintervall wird eine Summe von Absolutwerten von Pixelgradienten von Pixeln in dem Bild bestimmt, bei welchen eine Richtung des Pixelgradienten mit einer Richtung des Winkel-Quantisierungsintervalls fluchtet, wobei die Schritte in einem Prozessor durchgeführt werden.

Description

  • Gebiet der Erfindung
  • Dieser Erfindung betrifft generell Computervision und insbesondere globale Deskriptoren zum Zuordnen (matching) von Manhattan-Szenen, die für Blickpunkt invariante Objektzuordnung verwendet werden können.
  • Hintergrund der Erfindung
  • Blickpunktinvariante Objektzuordnung ist wegen Bildverzerrungen durch Faktoren wie Rotation, Translation, Beleuchtung, Abschneiden und Verdeckung schwierig. Visuelles Szenenverständnis ist ein bekanntes Problem bei Computervision. Insbesondere stellt die Identifizierung von Objekten in einer 3D-Szene basierend auf einer Projektion auf eine zweidimensionale (2D) Bildebene enorme Herausforderungen.
  • Die menschliche visuelle Hirnrinde (cortex) ist bekannt dafür, sich stark auf das Vorhandensein von Kanten an physikalischen Objektgrenzen zur Identifizierung einzelner Objekte in einer Ansicht zu stützen. Unter Verwendung von Kanten, Textur und Farbe ist das Gehirn in der Regel in der Lage, eine dreidimensionale (3D) Szene zu visualisieren und zu verstehen, unabhängig von dem Blickpunkt. Im Gegensatz dazu müssen, in Ermangelung einer weiterentwickelten (high level)Verarbeitungsarchitektur wie dem visuellen Cortex, moderne Computer niedrigstufige (low-level) Blickpunktinvarianz explizit in Szenedeskriptoren einbeziehen.
  • Verfahren zum Szeneverständnis umfassen zwei große Klassen. Eine Klasse basiert auf lokalen Schlüsselpunkten, die genau erfasst werden können, unabhängig von Rotation, Translation und anderen Blickpunktänderungen. Ein Deskriptor wird dann für die Schlüsselpunkte aufgebaut, um die lokale Struktur von Gradienten, Textur, Farbe und andere Informationen festzuhalten, die bei Blickpunktänderungen invariant bleiben. Maßstabsinvariante Merkmalstransformation (SIFT, Scale-Invariant Feature Transform) und beschleunigte robuste Merkmale (SURF, Speeded Up Robust Features) sind Beispiele für zwei Schlüsselpunkt-basierte Deskriptoren.
  • Eine andere Klasse von Verfahren beinhaltet Erfassen von Merkmalen (Capturing Features) im globalen Umfang. Die Genauigkeit wird durch lokale Mittelwertbildung und durch Verwenden anderer statistischer Eigenschaften von Farb- und Gradientenverteilungen erhalten. Der globale Ansatz wird in Histogrammen von Gradienten (HOG, Histogram Of Gradients) und GIST-Deskriptoren verwendet.
  • Die lokalen und globalen Ansätze haben komplementäre Merkmale. Lokale Deskriptoren sind genau und diskriminierend für den entsprechenden lokalen Schlüsselpunkt, aber globale strukturelle Hinweise über größere Objekte sind nicht vorhanden und können nur nach Herstellen von Entsprechungen zwischen mehreren lokalen Deskriptoren abgeleitet werden, die mit den Schlüsselpunkten assoziiert sind. Globale Deskriptoren neigen dazu, aggregierte statistische Informationen über das Bild zu erfassen, aber schließen keine spezifischen geometrischen oder strukturellen Hinweise ein, die oft für ein Szeneverständnis von Bedeutung sind.
  • Viele von Menschen geschaffene Szenen erfüllen eine Manhattan-Weltannahme, bei der Linien entlang dreier orthogonaler Hauptrichtungen ausgerichtet sind. Ein entscheidender Aspekt von Manhattan-Geometrie ist, dass sich alle parallelen Linien mit einer dominanten Richtung in einem Fluchtpunkt in einer 2D-Bildebene schneiden. In Szenen, in denen drei orthogonale Richtungen möglicherweise nicht vorhanden sind, können Linien eine einzige dominante Richtung erfüllen, beispielsweise vertikal oder horizontal, oder können mehrere dominante nicht-orthogonale Richtungen enthalten, zum Beispiel Möbelobjekte in einem Raum.
  • Zusammenfassung der Erfindung
  • Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor für Manhattan-Szenen zur Verfügung. Manhattan-Szenen haben dominante Richtungs-Orientierungen, üblicherweise in drei orthogonalen Richtungen. Dadurch schneiden sich alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, invariabel an einem entsprechenden Fluchtpunkt (vanishing point, VP) in einer 2D Bildebene. Alle der Szenenkanten erhalten relative räumliche Lagen und Stärken gesehen von den VPs aus. Der globale Deskriptor basiert auf räumlichen Orten und Intensitäten von Bildkanten in den Manhattan-Szenen um den Fluchtpunkt herum. Mit acht Kilobit pro Deskriptor und bis zu drei Deskriptoren pro Bild (einen für jeden VP) stellt das Verfahren effizienten Speicherung und Datentransfer zum Zuordnen verglichen mit lokalen Schlüsselpunktdeskriptoren wie SIFT zur Verfügung.
  • Ein Verfahren erstellt einen globalen Deskriptor durch striktes Einhalten einer Winkelanordnung von parallelen Linien über Bilder, wenn sich die Linien in einem Fluchtpunkt schneiden. Die relativen Längen und relativen Winkel (Orientierungen oder Richtungen) der parallelen Linien, die sich in einem Fluchtpunkt treffen, sind ungefähr die gleichen.
  • Ein kompakter, globaler Bilddeskriptor für Manhattan-Szenen erfasst relative Orte und Stärken von Kanten entlang von Fluchtrichtungen. Um den Deskriptor zu erstellen, wird für jeden Fluchtpunkt eine Kantenkarte ermittelt. Die Kantenkarte kodiert die Kantenstärke über einen Bereich von Winkeln oder Richtungen gemessen für den Fluchtpunkt.
  • Zur Objektzuordnung werden Deskriptoren von zwei Szenen über mehrere Kandidatenmaßstäbe und Verschiebungen hinweg verglichen. Die Zuordnungsleistung wird durch Vergleichen von Kantenformen an den lokalen Maxima der Maßstabsverschiebungspläne in Form von Histogrammen verfeinert.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Bild einer Manhattan-Szene, die zwei Fluchtpunkte enthält, für welche globale Deskriptoren gemäß Ausführungsformen der Erfindung erstellt werden;
  • 2 ist ein Schema, das die verschiedenen Winkel zeigt, die einem Fluchtpunkt Lagen hinsichtlich einer horizontalen Bezugslinie gegenüberliegen, und winklige Quantisierungsintervalle (quantization bins) entsprechend Ausführungsformen der Erfindung;
  • 3 ist ein Schema von intervallierten Pixel-Intensitäten von Kantenkarten gemäß Ausführungsformen der Erfindung;
  • 4 ist eine schematische Kantenstärke in Winkel-Intervallen für zwei unterschiedliche Ansichten eines Gebäudes gemäß Ausführungsformen der Erfindung;
  • 5 ist ein Flussdiagramm eines Verfahrens zum Erstellen globaler Deskriptoren gemäß Ausführungsformen der Erfindung;
  • 6 ist ein Schema einer affinen Transformation von zwei Bildern gemäß Ausführungsformen der Erfindung;
  • 7 ist ein Histogramm von Kantenstärken auf einem Skalenverschiebungsplan gemäß Ausführungsformen der Erfindung; und
  • 8 ist ein Flussdiagramm eines Verfahrens zum Zuordnen von Objekten unter Verwendung der globalen Deskriptoren gemäß den Ausführungsformen der Erfindung; und
  • 9 ist ein Diagramm, das eine Metrik zum Messen der Qualität der Zuordnung gemäß Ausführungsformen der Erfindung erläutert.
  • Detaillierte Beschreibung der Ausführungsform
  • Die Ausführungsformen der Erfindung stellen einen globalen Deskriptor 250 für eine Manhattan-Szene 100 zur Verfügung. Manhattan-Szenen weisen dominante Richtungs-Orientierungen üblicherweise in drei orthogonalen Richtungen auf, und alle parallelen Kanten in 3D, die in einer dominanten Richtung liegen, schneiden sich an einem entsprechenden Fluchtpunkt (VP 101) in einer 2D-Bildebene. Es wird angemerkt, das Manhattan-Szenen im Innenraum oder Außenraum sein und jede Anzahl von Objekten einschließen können.
  • Die Deskriptoren 250 werden sind aus Bildern 120 erstellt 500, die durch eine Kamera 110 erfasst wurden. Die Deskriptoren können dann zur Objektzuordnung 800 oder zu anderen verwandten Computervisionsanwendungen verwendet werden. Das Erstellen und Zuordnen kann in einem Prozessor 150 durchgeführt werden, der mit einem Speicher und Eingabe/Ausgabeschnittstellen über aus dem Stand der Technik bekannte Busse verbunden ist.
  • Fluchtpunktbasierter Bilddeskriptor
  • Der Deskriptor basiert auf den folgenden Realisierungen über mehrere Bilder 120 (Ansichten) des gleichen Objekts. Erstens erhalten parallele Linien in der tatsächlichen 3D-Szene strikt ihre winkelmäßige Anordnung über 2D-Bilder (bis zu einer Inversion), wenn sich die Linien an einem Fluchtpunkt schneiden. Zweitens sind die relativen Längen und relativen Winkel der parallelen Linien, die sich an einem Fluchtpunkt treffen, ungefähr die gleichen. Diese Realisierungen geben zu erkennen, dass die relativen Lagen und Stärken von entlang den Fluchtrichtungen orientierten Kanten zum Erstellen eines Deskriptors verwendet werden können. Wir beschreiben die Schritte, die bei dem Erstellen 500 des Deskriptors 250 und Verwenden der Deskriptoren zum Zuordnen involviert sind, nachstehend.
  • Setzen von -Deskriptoren an jedem Fluchtpunkt
  • Ein Fluchtpunkt ist als ein Schnittpunkt von Projektionen von Linien 102 definiert, die in der 3D-Szene parallel sind, für welche ein 2D-Bild 100 verfügbar ist. Ein VP kann als die 2D-Projektion eines 3D-Punkts angenommen werden, der unendlich weit weg in der Richtung ist, die durch parallele Linien in der 3D-Szene gegeben ist.
  • Im Allgemeinen gibt es viele Fluchtpunkte, welche verschiedenen Szenenrichtungen entsprechen, die durch parallelen Linien bestimmt sind. Viele künstlich hergestellte Strukturen, zum Beispiel städtische Landschaften, weisen jedoch eine regelmäßige Quadergeometrie auf. Daher resultieren üblicherweise drei Fluchtpunkte aus einer Bildprojektion, von denen zwei in 1 gezeigt sind.
  • VPs wurden in Computervision für Bildrektifizierung, Kameraeichung (camera calibration) und verwandte Probleme verwendet. Eine Identifikation von VPs ist einfach, wenn parallele Linien in der zugrundeliegenden 3D-Szene gekennzeichnet sind, wird jedoch schwieriger, wenn eine Kennzeichnung nicht verfügbar ist. Verfahren zum Bestimmen von Fluchtpunkten schließen agglomeriertes Clustern von Kanten, 1D-Hough-Transformationen, mehrstufige stichprobenübereinstimmungs (multi-level RANSAC, RANdom SAmple Consensus)-basierte Ansätze und Erwartungsmaximierung (EM, Expectation Maximazion) zum Zuordnen von Kanten zu VPs ein.
  • Wie in 2 gezeigt, können VP-Lagen 200 mit v i = (vix, viy), 1 ≤ i ≤ m, bezeichnet werden, wobei typischerweise für Manhattan-Szenen, m ≤ 3 ist. Darüberhinaus sei θj(x, y) der Winkel, der am VP v j hinsichtlich einer horizontalen Linie 201 gegenüberliegt bzw. gemessen wird.. Somit ist
    Figure DE102015200260A1_0002
  • Der Deskriptor 250 wird durch Kodieren relativer Orte und Stärken der Kanten erstellt, die an jedem VP konvergieren. Deshalb kann der Deskriptor als eine Funktion D: Θ → R+ angesehen werden, deren Definitionsbereich Winkel-Orientierungen der Kanten einschließt, die an dem VP konvergieren, and deren Umfang ein Maß der Stärken dieser Kanten in der richtigen Reihenfolge einschließt. Ein Deskriptor wird gemäß dem nachstehend beschriebenen Verfahren 500 für jeden VP bestimmt.
  • Kantenortsodierung
  • Linienerkennungsprozeduren produzieren oft unterbrochene oder abgeschnittene Linien, lassen wichtige Kanten vermissen und produzieren verfälschte Linien. Deshalb arbeiten wir, wie in 3 gezeigt, der Genauigkeit halber direkt mit Intensitäten von Kantenpixeln, anstatt mit Linien, die an Bildkanten angepasst werden. Die Darstellungen von Kantenstärken als eine Funktion der Winkelposition der Kanten um den Fluchtpunkt herum werden als Kantenkarten 300 bezeichnet. Insbesondere speichern und unabhängig summieren wir unabhängig die Intensitäten von Pixeln in Winkelintervallen 202, wie in 2 gezeigt, wenn die Gradienten angeben, dass die Pixel gemäß den Fluchtpunkten zum Erstellen des Deskriptors orientiert sind. Um dies zu tun (wie in 5 gezeigt), bestimmen wir zuerst einen Gradienten g(x, y), welcher einen 2D-Vektor für jedes Pixel in dem Bild ist.
  • Eine Richtung ψg(x, y) 511 eines Gradienten eines Pixels an einem Ort (x, y) in dem Bild bezieht sich auf die Richtung, entlang welcher eine große Intensitätsschwankung vorliegt. Ein Absolutwert (Magnitude) |g(x, y)| 512 des Gradienten bezieht sich auf die Intensitätsdifferenz an diesem Pixel entlang der Gradientenrichtung.
  • Dann bestimmen 520 wir eine Pixelmenge Pj für den Fluchtpunkt VP v j als Pj = {(x, y)l|ψg(x, y) – θj(x, y) – π / 2| ≤ τ}, wobei τ ein Schwellenwert ist, der basierend auf einem Betrag ausgewählt wird, um welchen die Gradientenrichtung verstellt (misaligned) gegenüber der Richtung des VP ist. Wurde der Satz Pj bestimmt, werden die zugrundeliegenden Kantenorte wie folgt kodiert.
  • Die Pixelwinkel (Richtungen) werden in eine vorbestimmte Anzahl (K) von einheitlichen Winkelintervallen 202 quantisiert, die bei ϕk, 1 ≤ k ≤ K zentriert 203 sind, innerhalb eines winkligen Bereichs [θmin, θmax] 204, der das Bild überspannt, so dass
    ϕk = θmin + k / K + 1(θmax – θmin), 1 ≤ k ≤ K, so dass der Schwerpunkt des Winkel-Quantisierungsintervalls eine Richtung des Winkel-Quantisierungsintervalls angibt, d. h. die Pixelwinkel.
  • Kantenstärkenenkodierung
  • Untersuchungen des menschlichen Sehsystems legen nahe, dass die relative Wichtigkeit von Kanten eine Rolle beim Visualisieren eines charakteristischen Objektmusters spielt. Die Wichtigkeit einer Bildkante ist eine Funktion einer Länge der Kante, einer Dicke und einer zeitlichen Variation (Intensität und Abfall(fall-off)charakteristik) in der Richtung senkrecht zu der Kante.
  • Es gibt etliche Wege, um eine Kantenstärkenmetrik zu erstellen. Zum Beispiel kann dann, wenn Kantendetektoren verwendet werden, um den Deskriptor für einen bestimmten VP erstellen, die Stärke eine Funktion der Kantenlänge und des pixelweisen kumulativen Gradienten entlang der Kante sein. Wie vorstehend beschrieben, ist jedoch die Verwendung von Kantendetektoren nicht immer genau. Deshalb ziehen wir Verfahren basierend auf Clustering oder Quantisierung von pixelweisen Gradienten vor. Das Verfahren wird nachstehend im Detail beschrieben.
  • Wenn der Pixelsatz Pj einheitlich in Winkelintervalle 202 quantisiert ist, ist ein Weg, die Kantenstärke zu kodieren, eine Summe der Absolutwerte der Gradienten |g(x, y)| 512 in jedem Winkel-Quantisierungsintervall zu bestimmen. Um dies zu erreichen, betrachten wir ein Liniensegment 203, das durch die Mitte jedes Winkel-Quantisierungsintervalls mit Endpunkten (rk,mincosϕk, rk,minsinϕk) und (rk,maxcosϕk, rk,maxsinϕk), verläuft, wie in 2 gezeigt.
  • Dann ist der Deskriptor 250 die folgenden Aufsummierungen
    Figure DE102015200260A1_0003
    wobei ϕk, 1 ≤ k ≤ Kj die Winkelorientierungen oder Richtungen darstellen, die mit den Quantisierungsintervallen bezüglich des VP v j assoziiert sind, und r kann in einem Bereich bei Halbpixelauflösung variieren.
  • Der Genauigkeit halber wird bilineare Interpolation verwendet, um die Pixelgradienten an Subpixelorten zu erhalten. Die Erstellung 500 des Deskriptors D(k) 250 wird bei Subpixelauflösung durchgeführt. Beispiele von wie vorstehend erhaltenen Deskriptoren, durch Bestimmen der Kantenstärke in jedem Winkelintervall, sind für zwei unterschiedliche Ansichten des gleichen (Gebäudes) Objekts 401 in 4 gezeigt. Die entsprechenden Graphen zeigen die normalisierten Intensitätssummen als ein Funktion der Intervallindizes.
  • Erstellungsverfahren
  • 5 fasst die grundlegenden Schritte für das Erstwellungsverfahren zusammen. Für jedes Pixel in dem Bild 120 bestimme eine Richtung 511 und einen Absolutwert 512 eines Gradienten. Als nächstes werden Mengen 521 von Gradienten mit Richtungen bestimmt, die mit Fluchtpunkten, von welchen bis zu drei vorhanden sein können, fluchten. Dann wird der Absolutwert von Gradienten für jede Menge unabhängig aufsummiert und als Kantenstärken kodiert 530, um den Deskriptor 250 für jeden Fluchtpunkt zu erhalten.
  • Projektive Transformation
  • Unser Motiv für das Erstellen 500 der globalen Deskriptoren 250 ist es, die Zuordnung 800 eines Objektes in Bildern durchzuführen, die von verschiedenen Blickpunkten erfasst wurden. Da jedes Bild eine 2D-Projektion der gleichen realen Szene ist, existiert normalerweise ein geometrische Beziehung zwischen den entsprechenden Schlüsselpunkten oder Kanten in einem Paar von Bildern. Zum Beispiel existiert eine Homographie-Beziehung zwischen Bildern von planaren Fassaden einer Konstruktion. Unsere Realisierungen legen nahe, dass eine affine Entsprechung zwischen den Deskriptoren D(k) 250 besteht, die für Bilder des gleichen Objekts ermittelt wurden.
  • Nachstehend beschreiben wir, dass diese Realisierung eine theoretische Begründung hat. Insbesondere zeigen wir, dass die Transformation der Winkel zwischen den Bildlinien (Kanten), die in dem Intervalleinteilungsschritt beim Erstellen 500 des Deskriptors verwendet werden, ungefähr affin ist.
  • Wie in 6 gezeigt, werden zwei Bilder (Ansichten) der gleichen Szene bestehend aus einem "Stift" von Linien betrachtet, die durch einen Fluchtpunkt verlaufen. Lassen wir den Fluchtpunkt für die erste Ansicht in einem Ursprung gelegen sein. Bei Verwendung von homogener Darstellung (homogeneous representation) sind die x und y-Achsen durch ex = (010)T und ey = (100)T gegeben, wobei T ein Transpositions-Operator ist. Unter Verwendung dieser Vektoren wird jede Linie lλ dargestellt als lλ = ex + λey = (λ10)T, wobei λ ∈ R.
  • Ohne Beschränkung der Allgemeinheit nehmen wir an, dass der betrachtete Zwischenwinkel der Winkel zwischen x-Achse und lλ ist. Man beachte, dass θλ = tan–1(–λ). Unser Ziel ist es, zu zeigen, dass der Winkel zwischen der x-Achse und lλ von einem Bild zu dem anderen eine ungefähr affine Transformation erfährt. Um dies zu zeigen, bezeichne man die 3×3 Homographie zwischen den zwei Ansichten unter Verwendung einer Matrix H. Im Allgemeinen ist unter der Homographie der Fluchtpunkt nicht länger am Ursprung für die zweite Ansicht, und Hex ist nicht länger entlang der x-Achse. Nun wähle man eine Transformation, die durch eine andere 3×3 Matrix T gegeben ist, die den Fluchtpunkt zurück an den Ursprung versetzt und Hex auf die x-Achse zurückrotiert, wie in 6 gezeigt.
  • Wir bezeichnen die TH Transformation von lλ mit lγ, und den Winkel zwischen lγ und der x-Achse mit θγ. Dann, lγ = THlλ = TH(λ10)T = (a1 + λb1a2 + λb20)T, wobei,
    Figure DE102015200260A1_0004
    wobei (a1, a2, b1, b2) die von den Elementen T und H abgeleiteten Transformationsparameter sind. Unter der Annahme, dass der Fluchtpunkt weit weg von dem Bild liegt, so dass θmax – θmin klein ist, können wir eine Taylor-Reihennäherung (Taylor series approximation) tan–1(α) ≈ α verwenden, wobei α ein kleiner Winkel ist (ausgedrückt im Bogenmaß). Dementsprechend,
    Figure DE102015200260A1_0005
  • Unter der Annahme kleiner Zwischenwinkel wird der Term zweiter Ordnung θγθλ vernachlässigbar klein. Wenn wir diesen Kreuzterm vernachlässigen, ist die Transformation von θλ zu θγ ungefähr affin.
  • Deskriptorzuordnung
  • Ein Objekt in einer Manhattan-Szene kann bis zu drei VPs aufweisen, und deshalb drei Deskriptoren. Daher schließt ein Zuordnen eines von zwei Blickpunkten gesehenen Objekts ohne vorherige Orientierungsinformation bis zu neun paarweise Zuordnungsoperationen ein. Wie vorstehend beschrieben, erfahren die winkligen Kantenlagen eine ungefähr affine Transformation mit einem Wechsel des Blickpunkts. Deshalb schlagen wir vor, diese Transformation zu invertierten, bevor die relativen Formen der Kantenstärken in dem Paar von Deskriptoren, die zugeordnet werden, verglichen werden. Der Inversionsschritt wird unter Verwendung verschiedener Kandidatenmaßstäbe und -verschiebungen durchgeführt, d.h. verschiedener Kandidaten affiner Transformationen, von welchen das dominante affine Transformations (Maßstabsverschiebungs) paar ausgewählt werden kann. Das Verfahren 800 wird verwendet, um Deskriptoren wie nachstehend beschrieben zu vergleichen.
  • Kantenweise Korrespondenz-Abbildung
  • Um die ungefähr affine Transformation zu bestimmen, die den Deskriptor zwischen Blickpunkten überträgt, nutzen wir die Tatsache aus, dass bei der richtigen Entsprechung Paare von koplanaren Kanten ungefähr die gleichen affinen Parameter generieren, gegeben durch ein Maßstabsverschiebungspaar (s, d). Deshalb resultiert ein Abstimmungsverfahren (voting procedure) vom Hough-Transformationstyp in dem (s, d) Raum für Paare der Kanten in ein lokales Maximum bei wirklichem Maßstab s* und Verschiebung d*.
  • Mehrere lokale Maxima treten auf, wenn das Objekt mehrere Ebenen aufweist, die durch die VP-Richtungsachse getragen werden. Der Genauigkeit und Effizienz halber werden wichtige (prominente) Kanten basierend auf ihrer Kantenstärke identifiziert. Pixel auf Kanten mit einer Stärke größer als eine spezifizierte Perzentilschwelle werden ausgewählt. Zudem werden, für Genauigkeit gegenüber Kantenverdeckung, nur Kanten innerhalb naher winkelmäßiger Umgebung zum Abgeben von Voten (to cast votes) gepaart, zum Beispiel wird jede bedeutende Kante mit den C nächstliegenden Kanten gepaart.
  • Der Deskriptor D1(k), 1 ≤ k ≤ K kann eine Menge von N1 Spitzenpaaren (ki, k'i), 1 ≤ i ≤ N1 generieren. Ähnlich generiert D2(m) eine Menge von N2 Spitzenpaaren (mj, m'j), 1 ≤ j ≤ N2. Die identifizierten Paare von Spitzen werden kreuzweise zwischen den zwei Mengen abgebildet, um Voten für das (s, d) Histogramm unter Verwendung von
    Figure DE102015200260A1_0006
    und d = mj – ski zu generieren. Um Winkel-Inversion zu erlauben, zum Beispiel Oben/Unten und Links/Rechts-Rotation um den VP, werden zusätzliche Voten durch Umkehren der Reihenfolge von Spitzen innerhalb einer der vorstehenen zwei Mengen generiert.
  • Wie in 7 gezeigt kann nun ein Rohhistogramm 700 der (s, d) Voten verwendet werden, um lokale Maxima (s*, d*) festzustellen. Das Histogramm identifiziert den Maßstab und die Verschiebung, bei welchen zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen. Die lokalen Maxima stellen eine Beziehung zwischen Kanten in den zwei Ansichten des Objekts her. Wenn ein lokales Maximum zu wenige Voten enthält, dann wird eine Nichtübereinstimmung für dieses (s*, d*) Paar deklariert. Wenn keines der lokalen Maxima genügend Voten enthält, dann, dass die Deskriptoren nicht das gleiche Objekt darstellen.
  • Deshalb wird jeder Deskriptor so modifiziert, dass der Maßstab und die Verschiebung der Deskriptoren identisch sind. Dann wird eine Differenz zwischen den Formen von Spitzen in dem ersten Deskriptor und den entsprechenden Spitzen in dem zweiten Deskriptor bestimmt, und eine Übereinstimmung zwischen den zwei Bildern kann angezeigt werden, wenn diese Differenz kleiner als ein Schwellwert ist.
  • Zuordnungsverfahren
  • 8 fasst die grundlegenden Schritte des Zuordnungsverfahrens 800 zusammen. Für Bilder 801 und 802 werden wie vorstehend beschrieben entsprechende Deskriptoren 811 und 812 erstellt 500. Spitzen 821 und 822 werden identifiziert 820, und Voten für das Histogramm 700 werden generiert 830. Die Spitzen identifizieren den Maßstab und die Verschiebung, bei welcher zwei VP-basierte Deskriptoren die beste Übereinstimmung aufweisen.
  • Es sollte auch angemerkt werden, dass die Deskriptoren als Anfragen an eine Bilddatenbank verwendet werden können, um Bilder einer Szene abzurufen, die ähnlich sind.
  • Formzuordnung an entsprechenden Kanten
  • An jedem lokalen Maximum (s*, d*) kann die lokale Form des Kantenstärkeplans in den zwei verglichenen Deskriptoren, zum Beispiel die Pläne in 4, zum Verfeinern des Zuordnungsprozesses genutzt werden. Im Wesentlichen verbleibt es, nach Kompensieren für den Maßstabsfaktors s* und die Verschiebung d*, die Formen der Kantenstärkenpläne in der Nachbarschaft der Kantenpaare zu vergleichen, die für (s*, d*) votiert haben. Es gibt mehrere Wege, dies zu tun. Nachstehend beschreiben wir eine Ausführungsform.
    • a) Wie in 9 gezeigt, führen wir, um eine Metrik zum Messen der Qualität der Übereinstimmung zu erstellen, die folgenden Schritte für jede bedeutende Spitze durch:
    • b) Betrachte einen Bereich in der Winkel-Nachbarschaft der Spitze des ersten Deskriptors;
    • c) Bestimme einen kumulativen Kantenstärkenvektor in dieser Nachbarschaft, und normalisiere den Vektor so, dass die Summe aller Kantenstärken zu Eins wird.
    • d) Wiederhole diesen Prozess für jede zugeordnete bedeutende Spitze in dem zweiten Deskriptor;
    • e) Bestimme für jedes Paar zugeordneter Spitzen, wobei eine von jedem Deskriptor genommen wird, den absoluten Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren;
    • f) Die absoluten Abstände, die in (d) erhalten wurden, werden über alle zugeordneten Spitzenpaare hinweg gemittelt, möglicherweise generiert von mehreren Intervallen, und mit einer Schwelle verglichen;
    • g) Wenn der durchschnittliche Abstand zwischen den normalisierten kumulativen Kantenstärkenvektoren kleiner als die Schwelle ist, dann wird eine Übereinstimmung zwischen den zwei Deskriptoren deklariert.

Claims (16)

  1. Verfahren zum Erstellen (500) eines Deskriptors (250) für ein Bild (120) einer Szene (100), wobei der Deskriptor (250) mit einem Fluchtpunkt (101) in dem Bild (120) assoziiert ist, aufweisend die Schritte: Quantisierung eines Winkelbereichs um den Fluchtpunkt (101) in eine vorbestimmten Anzahl von Winkel-Quantisierungsintervallen, wobei ein Schwerpunkt (Centroid) von jedem Winkel-Quantisierungsintervall eine Richtung des Winkel-Quantisierungsintervalls angibt; Bestimmen (510), für jedes Winkel-Quantisierungsintervall, einer Summe von Absolutwerten von Pixelgradienten für Pixel in dem Bild (120) und einer Richtung des Pixelgradienten, die mit der Richtung des Winkel-Quantisierungsintervalls fluchtet, wobei die Schritte in einem Prozessor (150) durchgeführt werden.
  2. Verfahren nach Anspruch 1, wobei die Szene (100) eine Manhattan-Szene (100) mit Manhattanwelt-Annahmen ist.
  3. Verfahren nach Anspruch 1, bei dem die Winkel-Quantisierungsintervalle einheitlich sind.
  4. Verfahren nach Anspruch 1, bei dem die Winkel-Quantisierungsintervalle durch Gruppieren der Richtungen der Pixelgradienten bestimmt werden, wobei die Richtungen in Bezug auf einen Ort (200) des Fluchtpunkts (101) gemessen werden.
  5. Verfahren nach Anspruch 1, wobei die Pixelgradienten unabhängig an jedem Pixel bestimmt werden.
  6. Verfahren nach Anspruch 1, wobei die Pixelgradienten eine Kantenerkennung auf dem Bild (120) durchführen, um Kantenstärken zu bestimmen, und die Pixelgradienten nur für Pixel mit Kantenstärken größer als ein spezifizierter Perzentilschwellwert als Spitzen bestimmt werden.
  7. Verfahren nach Anspruch 1, bei dem die Gradienten an Subpixelorten bestimmt werden.
  8. Verfahren nach Anspruch 1, weiterhin umfassend: Vergleichen von ersten und zweiten Deskriptoren (811, 812), die von zwei Bildern (801, 802) erstellt wurden, welche von einer Szene (100) unter verschiedenen Blickpunkten erfasst wurden
  9. Verfahren nach Anspruch 8, weiterhin umfassend: Erstellen einer Metrik zum Messen einer Qualität der Zuordnung.
  10. Verfahren nach Anspruch 8, weiterhin umfassend: Identifizieren (820), der Pixel mit Kantenstärken größer als ein spezifizierter Perzentilschwellwert von dem Deskriptor (811, 812) jedes Bildes (801, 802) als Spitzen Generieren eines Maßstabsverschiebungsplans, so dass ein von dem ersten Deskriptor (811) gewähltes Paar von Spitzen (821), das gemäß einem gegebenen Maßstabs- und Verschiebungswert kreuzweise abgebildet wurde, mit einem von dem zweiten Deskriptor (812) gewählten Spitzenpaar (822) übereinstimmt; Identifizieren eines oder mehrerer lokaler Maxima in dem Maßstabsverschiebungsplan, und Vergleichen der zwei Deskriptoren (811, 812) unter Verwendung der Maßstabs und der Verschiebungswerte an jedem lokalen Maximum.
  11. Verfahren nach Anspruch 10, bei dem das Vergleichen außerdem umfasst: Ändern jedes Deskriptors (811, 812) so, dass der Maßstab und die Verschiebung der Deskriptoren (811, 812) identisch sind; Bestimmen der Differenz zwischen den Spitzen (821) in dem ersten Deskriptor (811) und den Spitzen (822) in dem zweiten Deskriptor (812); und Feststellen einer Übereinstimmung zwischen den zwei Bildern, wenn die Differenz unter einem Schwellwert liegt.
  12. Verfahren nach Anspruch 11, bei welchem die Bestimmung der Differenz außerdem umfasst: Berechnen, für die entsprechenden Spitzen (821, 822) in dem ersten Deskriptor (811) und zweiten Deskriptor (812), einer kumulierten Kantenstärke in einer Winkelumgebung der Spitzen (821, 822); Normalisieren der kumulierten Kantenstärken, so dass eine Summe der Kantenstärken in der Winkelumgebung der Spitze (821, 822) Eins ist, und Berechnen eines Abstands zwischen den normalisierten kumulierten Kantenstärken des ersten Deskriptors (811) und zweiten Deskriptors (812).
  13. Verfahren nach Anspruch 1, weiterhin umfassend: Abrufen ähnlicher Bilder aus einer Bilddatenbank basierend auf den Deskriptoren (250).
  14. Verfahren nach Anspruch 1, bei dem die Pixelmenge für den Fluchtpunkt (101) Pj = {(x, y)l|ψg(x, y) – θj(x, y) – π / 2| ≤ τ}, ist, wobei die Richtung des Gradienten eines Pixels an einem Ort (x, y) in dem Bild (120) ψg(x, y) ist, θj(x, y) ein Winkel ist, der am Fluchtpunkt (101) hinsichtlich einer horizontalen Bezugslinie (201) gemessen wird, und τ ein Schwellwert ist, der basierend auf einem Betrag ausgewählt wird, bei welchem die Richtung nicht fluchtend mit der Richtung des Fluchtpunkts (101) ist.
  15. Verfahren nach Anspruch 1, weiter umfassend: Quantisieren der Richtungen in eine vorbestimmte Anzahl (K) von Intervallen (202), die bei ϕk, 1 ≤ k ≤ K, zentriert sind (203) innerhalb eines Winkelbereichs [θmin, θmax] (204), so dass ϕk = θmin + k / K + 1(θmax – θmin), 1 ≤ k ≤ K,
  16. Verfahren nach Anspruch 15, bei dem der Deskriptor (250)
    Figure DE102015200260A1_0007
    ist, wobei ϕk, 1 ≤ k ≤ Kj die Richtungen der Intervalle (202) darstellt (202), und r in einem Bereich bei Halbpixelauflösung variiert.
DE102015200260.8A 2014-01-10 2015-01-12 Verfahren zum Erstellen eines Deskriptors für ein Szenenbild Withdrawn DE102015200260A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/151,962 2014-01-10
US14/151,962 US20150199573A1 (en) 2014-01-10 2014-01-10 Global Scene Descriptors for Matching Manhattan Scenes using Edge Maps Associated with Vanishing Points

Publications (1)

Publication Number Publication Date
DE102015200260A1 true DE102015200260A1 (de) 2015-07-16

Family

ID=53485150

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015200260.8A Withdrawn DE102015200260A1 (de) 2014-01-10 2015-01-12 Verfahren zum Erstellen eines Deskriptors für ein Szenenbild

Country Status (3)

Country Link
US (1) US20150199573A1 (de)
JP (1) JP2015133101A (de)
DE (1) DE102015200260A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491826A (zh) * 2018-04-08 2018-09-04 福建师范大学 一种遥感影像建筑物的自动提取方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626585B2 (en) * 2014-05-13 2017-04-18 The Penn State Research Foundation Composition modeling for photo retrieval through geometric image segmentation
CN104376596B (zh) * 2014-11-28 2017-05-31 北京航空航天大学 一种基于单幅图像的三维场景结构建模与注册方法
CN106709501B (zh) * 2015-11-16 2020-03-10 中国科学院沈阳自动化研究所 一种图像匹配系统的景象匹配区域选择与基准图优化方法
US9904990B2 (en) * 2015-12-18 2018-02-27 Ricoh Co., Ltd. Single image rectification
EP3474185B1 (de) * 2017-10-18 2023-06-28 Dassault Systèmes Klassifizierung von 2d-bildern gemäss den typen einer 3d-anordnung
KR102215315B1 (ko) * 2018-09-07 2021-02-15 (주)위지윅스튜디오 단일 영상 기반의 3차원 cg 에셋 생성 방법
CN112598665B (zh) * 2020-12-31 2022-05-06 北京深睿博联科技有限责任公司 一种曼哈顿场景消失点、消失线检测方法及装置
US20230245390A1 (en) * 2022-02-02 2023-08-03 Tencent America LLC Manhattan layout estimation using geometric and semantic information
CN114390079B (zh) * 2022-03-24 2022-06-03 成都秦川物联网科技股份有限公司 一种智慧城市公共场所管理方法和物联网系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778699B1 (en) * 2000-03-27 2004-08-17 Eastman Kodak Company Method of determining vanishing point location from an image
CN101192269B (zh) * 2006-11-29 2012-05-02 佳能株式会社 从图像估计消失点的方法和装置、计算机程序及其存储介质
US8938129B2 (en) * 2012-04-30 2015-01-20 Samsung Electronics Co., Ltd. Display system with edge map conversion mechanism and method of operation thereof
US20140270479A1 (en) * 2013-03-15 2014-09-18 Sony Corporation Systems and methods for parameter estimation of images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491826A (zh) * 2018-04-08 2018-09-04 福建师范大学 一种遥感影像建筑物的自动提取方法
CN108491826B (zh) * 2018-04-08 2021-04-30 福建师范大学 一种遥感影像建筑物的自动提取方法

Also Published As

Publication number Publication date
JP2015133101A (ja) 2015-07-23
US20150199573A1 (en) 2015-07-16

Similar Documents

Publication Publication Date Title
DE102015200260A1 (de) Verfahren zum Erstellen eines Deskriptors für ein Szenenbild
CN110443836B (zh) 一种基于平面特征的点云数据自动配准方法及装置
DE112012005350B4 (de) Verfahren zum Schätzen der Stellung eines Objekts
DE112020004810B4 (de) Systeme und Verfahren zur Erfassung von Oberflächennormalen mit Polarisation
DE102020100684A1 (de) Kennzeichnung von graphischen bezugsmarkierern
DE102020000810A1 (de) 3D-Objektrekonstruktion unter Nutzung einer fotometrischen Netzdarstellung
CN103345736B (zh) 一种虚拟视点绘制方法
DE112013003214T5 (de) Verfahren zum Registrieren von Daten
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
DE112014004190T5 (de) Positurschätzverfahren und Roboter
DE102006038485A1 (de) System und Verfahren für die auf Merkmalen hervorstechender Bereiche basierende 3D-Multimodalitäts-Registrierung von medizinischen Bildern
DE102006054822A1 (de) Registrierung eines charakteristischen Pfads eines Kolons
DE112011103452T5 (de) Verfahren zum Angleichen von Pixeln einer Entfernungsdarstellung
DE102009051826A1 (de) Verfahren zum Vergleichen der Ähnlichkeit von 3D-bildlichen Objekten
DE112010002677T5 (de) Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen
EP2901414B1 (de) Verfahren und bildverarbeitungsanlage zum bestimmen von parametern einer kamera
DE202016006110U1 (de) Erweiterung des Sichtfeldes von Fotografie
DE102020122844A1 (de) System und verfahren für tiefgehendes maschinelles lernen für computer-vision-anwendungen
DE112014002943T5 (de) Verfahren zur Registrierung von Daten unter Verwendung eines Satzes von Grundelementen
DE102004026782A1 (de) Verfahren und Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, computerlesbares Speichermedium und Computerprogramm-Element
DE102019100011B4 (de) Verfahren zur 3D-Rekonstruktion eines Objekts
DE102020207974A1 (de) Systeme und verfahren zum nachweis von bewegung während 3d-datenrekonstruktion
CN113077504B (zh) 基于多粒度特征匹配大场景深度图生成方法
WO2003025843A2 (de) Modellbasierte objektklassifikation und zielerkennung
DE102006047372A1 (de) System und Verfahren zur Formregulierung von segmentierten Zielobjekten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee