DE112016004535T5 - Universelles Übereinstimmungsnetz - Google Patents

Universelles Übereinstimmungsnetz Download PDF

Info

Publication number
DE112016004535T5
DE112016004535T5 DE112016004535.2T DE112016004535T DE112016004535T5 DE 112016004535 T5 DE112016004535 T5 DE 112016004535T5 DE 112016004535 T DE112016004535 T DE 112016004535T DE 112016004535 T5 DE112016004535 T5 DE 112016004535T5
Authority
DE
Germany
Prior art keywords
locations
points
features
negative
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016004535.2T
Other languages
English (en)
Inventor
Manmohan Chandraker
Silvio Savarese
Christopher Bongsoo Choy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112016004535T5 publication Critical patent/DE112016004535T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

Es wird ein computerimplementiertes Verfahren zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) dargestellt. Das Verfahren enthält das Extrahieren der Koordinaten entsprechender Punkte an der ersten und der zweiten Stelle, das Identifizieren positiver Punkte an der ersten und der zweiten Stelle, das Identifizieren negativer Punkte an der ersten und der zweiten Stelle, das Trainieren von Merkmalen, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, um sie näher zueinander zu bewegen, und das Trainieren der Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, um sie voneinander weg zu bewegen.

Description

  • INFORMATIONEN ÜBER VERWANDTE ANMELDUNG
  • Diese Anmeldung beansprucht die Priorität der vorläufigen Anmeldung Nr. 62/250.877, eingereicht am 4. November 2015, die hier durch Bezugnahme vollständig mit aufgenommen ist.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf die Bildbearbeitung und spezieller auf das durchgehende vollständig konvolutionelle Erlernen von Merkmalen für geometrische und semantische Übereinstimmungen, ohne jedoch darauf eingeschränkt zu sein.
  • Beschreibung des Standes der Technik
  • In einem Problem der visuellen Übereinstimmung ist eine Menge von Bildern gegeben, die einen überlappenden 3D-Bereich enthalten, wobei gefordert ist, die Stelle der Projektion der 3D-Punkte in allen Bildern zu finden. Dieses Problem ergibt sich in einigen Computer-Sichtanwendungen einschließlich sowohl der Stereodisparität, der Struktur aus der Bewegung, der Panoramazusammenfügung, der Bilddarstellung, der Bildwiedergewinnung als auch komplizierterer Aufgaben, wie z. B. der Klassifikation und der Detektion.
  • Um das Problem der visuellen Übereinstimmung zu lösen, sind viele von Hand entworfene Merkmale vorgeschlagen worden. In letzter Zeit sind viele Forscher mit dem Aufkommen eines leistungsfähigen neuronalen Konvolutionsnetzes (CNN) mit diesem neuen Werkzeug zu dem Problem zurückgekehrt. Anstatt des Erlernens von Merkmalen kann das CNN eine durchgehende Klassifikation der Fleckähnlichkeit ausführen.
  • Sobald das CNN trainiert ist, werden die Merkmale einer dazwischenliegenden Faltungsschicht als ein niedrigdimensionales Merkmal verwendet. Die dazwischenliegenden konvolutionellen Merkmale sind jedoch nicht für die Aufgabe der visuellen Übereinstimmung optimiert. Die Merkmale werden für eine Surrogat-Zielfunktion (die Fleckähnlichkeit) trainiert, wobei die dazwischenliegenden Merkmale nicht notwendigerweise einen metrischen Raum bilden, der für das Ausführen einer visuellen Übereinstimmung förderlich ist. Zusätzlich ist die Fleckähnlichkeit inhärent ineffizient und langsam. Weil sie ein fleckbasiertes Verfahren ist, müssen die Merkmale sogar für die überlappenden Bereiche abermals extrahiert werden. Sie erfordert außerdem O(n2) Vorsteuerungs-Durchgänge, um jeden der n Flecken mit n anderen Flecken in einem anderen Bild zu vergleichen. Dennoch ist die fleckbasierte Ähnlichkeit aus mehreren Gründen ein bevorzugtes Verfahren gewesen. Weil zuerst alle Maßstäbe nur eine Bildfleckähnlichkeit erfordern, würde das Optimieren des Systems für die Fleckähnlichkeit (Fleckklassifikation) bessere Ergebnisse als das Erlernen eines metrischen Raums (das Erlernen einer Metrik) liefern. Weil das neuronale Netz beim Abstrahieren feiner Einzelheiten gut ist, ist das CNN ein geeignetes Werkzeug zum Messen einer globalen Ähnlichkeit.
  • ZUSAMMENFASSUNG
  • Es wird ein System eines neuronalen Konvolutionsnetzes und ein Trainingsverfahren für die visuelle Übereinstimmung dargestellt. Das System setzt ein Bild in dichte Merkmale um, die für verschiedene Übereinstimmungsaufgaben verwendet werden können. Der Merkmalsraum erzeugt einen metrischen Raum, in dem eine Abstandsoperation eine visuelle Ähnlichkeit erfasst. Das System ist vollständig konvolutionell und kann Merkmale für eine Eingabe in beliebiger Größe erzeugen und erlaubt eine effiziente Merkmalsextraktion. Um das Netz zu trainieren, werden ein aktives hartes negatives Gewinnen mit dem Erlernen einer Metrik verwendet.
  • Es wird ein computerimplementiertes Verfahren zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) dargestellt. Das Verfahren enthält das Extrahieren der Koordinaten entsprechender Punkte an der ersten und der zweiten Stelle, das Identifizieren positiver Punkte an der ersten und der zweiten Stelle, das Identifizieren negativer Punkte an der ersten und der zweiten Stelle, das Trainieren von Merkmalen, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, um sie näher zueinander zu bewegen, und das Trainieren der Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, um sie voneinander weg zu bewegen.
  • Es wird ein System zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) dargestellt. Das System enthält einen Speicher und einen Prozessor, der mit dem Speicher in Verbindung steht, wobei der Prozessor konfiguriert ist, um die Koordinaten der entsprechenden Punkte an der ersten und der zweiten Stelle zu extrahieren, die positiven Punkte an der ersten und der zweiten Stelle zu identifizieren, die negativen Punkte an der ersten und der zweiten Stelle zu identifizieren, die Merkmale, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, zu trainieren, um sie näher zueinander zu bewegen, und die Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, zu trainieren, um sie voneinander weg zu bewegen.
  • Es wird ein Nichttransitorisches computerlesbares Speichermedium, das ein computerlesbares Programm zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) umfasst, dargestellt, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte des Extrahierens der Koordinaten entsprechender Punkte an der ersten und der zweiten Stelle, des Identifizierens positiver Punkte an der ersten und der zweiten Stelle, des Identifizierens negativer Punkte an der ersten und der zweiten Stelle, des Trainierens von Merkmalen, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, um sie näher zueinander zu bewegen, und des Trainierens der Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, um sie voneinander weg zu bewegen, auszuführen.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden ausführlichen Beschreibung ihrer veranschaulichenden Ausführungsformen offensichtlich, die im Zusammenhang mit den beigefügten Zeichnungen gelesen werden soll.
  • Figurenliste
  • Die Offenbarung stellt Einzelheiten in der folgenden Beschreibung bevorzugter Ausführungsformen bezüglich der folgenden Figuren bereit, worin:
    • 1 ein vollständiges neuronales Konvolutionsnetz, das eine Folge von Faltungen und einen räumlichen Faltungstransformator enthält, gemäß den Ausführungsformen der vorliegenden Erfindung ist;
    • 2 eine graphische Darstellung, die den entsprechenden kontrastiven Verlust veranschaulicht, gemäß den Ausführungsformen der vorliegenden Erfindung ist;
    • 3 ein räumlicher Faltungstransformator gemäß den Ausführungsformen der vorliegenden Erfindung ist;
    • 4 ein Blockschaltplan/Ablaufplan eines Verfahrens zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) gemäß den Ausführungsformen der vorliegenden Erfindung ist; und
    • 5 ein Blockschaltplan eines Verarbeitungssystems gemäß den Ausführungsformen der vorliegenden Erfindung ist.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die Übereinstimmungsschätzung ist das Arbeitspferd, das mehrere fundamentale Probleme in der Computersicht betreibt, wie z. B. die 3D-Rekonstruktion, die Bildwiedergewinnung oder die Objekterkennung. Die Anwendungen, wie z. B. die Struktur aus der Bewegung oder die Panoramazusammenfügung, die eine Sub-Bildpunkt-Genauigkeit verlangen, stützen sich auf spärliche Übereinstimmungen entscheidender Punkte unter Verwendung von Deskriptoren. In anderen Fällen werden dichte Übereinstimmungen in der Form von Stereodisparitäten, eines optischen Flusses oder dichter Trajektorien für Anwendungen, wie z. B. die Oberflächenrekonstruktion, die Verfolgung, die Videoanalyse oder die Stabilisierung, verwendet. In noch anderen Szenarios werden Übereinstimmungen nicht zwischen den Projektionen desselben 3D-Punkts in verschiedenen Bildern, sondern zwischen semantischen Analoga über verschiedene Instanzen innerhalb einer Kategorie, wie z. B. der Schnäbel verschiedener Vögel oder der Scheinwerfer von Autos, gesucht. Folglich überspannt die Vorstellung der Schätzung einer visuellen Übereinstimmung in ihrer allgemeinsten Form den Bereich von dem Abgleich von Merkmalen auf unterster Ebene bis zum Objekt- oder Szenenverständnis auf hoher Ebene.
  • Herkömmlich stützt sich die Übereinstimmungsschätzung auf von Hand entworfene Merkmale oder bereichsspezifische Vorränge. In den letzten Jahren hat es ein zunehmendes Interesse am wirksamen Einsetzen der Leistung neuronaler Konvolutionsnetze (CNNs) gegeben, um visuelle Übereinstimmungen zu schätzen. Ein siamesisches Netz kann z. B. ein Paar von Bildflecken nehmen und ihre Ähnlichkeit als die Ausgabe erzeugen. Die Aktivierungen dazwischenliegender Faltungsschichten von den obigen CNNs sind außerdem als generische Merkmale anwendbar.
  • Derartige dazwischenliegende Aktivierungen sind jedoch nicht für die Aufgabe der visuellen Übereinstimmung optimiert. Derartige Merkmale werden für eine Surrogat-Zielfunktion (eine Fleckähnlichkeit) trainiert und bilden nicht notwendigerweise einen metrischen Raum für die visuelle Übereinstimmung, wobei folglich irgendwelche Metrikoperationen, wie z. B. der Abstand, keine explizite Interpretation aufweisen. Zusätzlich ist die Fleckähnlichkeit inhärent ineffizient, weil die Merkmale sogar für überlappende Bereiche innerhalb der Flecken extrahiert werden müssen. Ferner erfordert sie O(n2) Vorsteuerungs-Durchgänge, um jeden von n Flecken mit n anderen Flecken in einem anderen Bild zu vergleichen.
  • Im Gegensatz dazu stellen die beispielhaften Ausführungsformen das universelle Übereinstimmungsnetz (UCN) dar, einen CNN-basierten generischen unterscheidenden Rahmen, der sowohl geometrische als auch semantische visuelle Übereinstimmungen erlernt. Im Unterschied zu vielen vorhergehenden CNNs für die Fleckähnlichkeit verwenden die beispielhaften Ausführungsformen das tiefgehende metrische Lernen, um die Abbildung oder das Merkmal direkt zu erlernen, die bzw. das die Ähnlichkeit (entweder die geometrische oder die semantische) für die generischen Übereinstimmungen bewahrt. Die Abbildung ist folglich gegen projektive Transformationen, Variationen der Form oder des Aussehens innerhalb der Klasse oder irgendwelche andere Variationen, die für die betrachtete Ähnlichkeit irrelevant sind, invariant. Die beispielhaften Ausführungsformen schlagen einen neuartigen kontrastiven Übereinstimmungsverlust vor, der ein schnelleres Training durch das effiziente gemeinsame Benutzen der Berechnungen und das effektive Codieren der Nachbarschaftsbeziehungen in dem Merkmalsraum ermöglicht. Zum Testzeitpunkt verringert sich die Übereinstimmung auf eine Suche nächster Nachbarn im Merkmalsraum, was effizienter als die Auswertung paarweiser Fleckähnlichkeiten ist.
  • Das UCN ist vollständig konvolutionell, was eine effiziente Erzeugung dichter Merkmale erlaubt. Die beispielhaften Ausführungsformen schlagen eine fliegende aktive harte negative Gewinnungsstrategie für ein schnelleres Training vor. Zusätzlich schlagen die beispielhaften Ausführungsformen eine neuartige Anpassung des räumlichen Transformators, der als der räumliche Faltungstransformator bezeichnet wird, vor, der entworfen ist, um die Merkmale für spezielle Familien von Transformationen invariant zu machen. Durch das Erlernen optimaler Merkmalsräume, die affine Transformationen kompensieren, gewährt der räumliche Faltungstransformator die Fähigkeit, die Fleckennormierung der Deskriptoren nachzuahmen.
  • Die Fähigkeiten des UCN werden mit einigen wichtigen früheren Herangehensweisen verglichen. Empirisch sind die von dem UCN erhaltenen Übereinstimmungen dichter und genauer als die meisten früheren Herangehensweisen, die für eine spezielle Aufgabe spezialisiert sind. Dies wird experimentell durch das Zeigen der Leistungen des Standes der Technik sowohl an der spärlichen SFM (Struktur aus der Bewegung) im KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago) als auch der dichten geometrischen oder semantischen Übereinstimmungen sowohl an starren als auch nicht starren Körpern in verschiedenen anderen Datensätzen demonstriert.
  • Zusammengefasst schlagen die beispielhaften Ausführungsformen ein neuartiges durchgehendes System vor, das ein allgemeines Übereinstimmungsziel unabhängig vom Bereich mit den folgenden Hauptbeiträgen optimiert:
  • Ein tiefgehendes metrisches Lernen mit einem effizienten kontrastiven Übereinstimmungsverlust zum Erlernen einer Merkmalsdarstellung, die der Übereinstimmungsaufgabe entspricht.
  • Ein vollständiges Konvolutionsnetz für eine dichte und effiziente Merkmalsextraktion zusammen mit einer schnellen aktiven harten negativen Gewinnung.
  • Ein vollständiger räumlicher Faltungstransformator für die Flecknormierung.
  • Die Übereinstimmungen des Standes der Technik über die spärliche SFM, die dichte Übereinstimmung und die semantische Übereinstimmung, das Einschließen starrer Körper, nicht starrer Körper und der Variationen der Form und des Aussehens innerhalb der Klasse.
  • Nun wird ausführlich auf die Figuren, in denen gleiche Bezugszeichen die gleichen oder ähnlichen Elemente darstellen, und anfangs auf 1 Bezug genommen, in der ein vollständiges neuronales Konvolutionsnetz, das eine Folge von Faltungen und einen räumlichen Faltungstransformator enthält, gemäß den Ausführungsformen der vorliegenden Erfindung gezeigt ist.
  • Das Systemnetz 100 ist ein vollständiges Konvolutionsnetz, das aus einer Folge von Faltungen, um die Merkmals und rektifizierte lineare Einheiten (ReLU) zu erzeugen, und einem räumlichen Faltungstransformator, gefolgt von dem kontrastiven Übereinstimmungsverlust, besteht. Als die Eingaben nimmt das Netz 100 ein Paar von Bildern 110, 120 und die Koordinaten der entsprechenden Punkte in diesen Bildern. Die Merkmale, die den positiven Punkten (von beiden Bildern 110, 120) entsprechen, werden trainiert, um näher zueinander zu kommen, während die Merkmale, die den negativen Punkten entsprechen, trainiert werden, um sich voneinander weg zu bewegen. Das Netz 100 weist einen räumlichen Faltungstransformator 140 auf, der die Flecken normieren kann.
  • Die visuellen Merkmale bilden die grundlegenden Bausteine für viele Computer-Sichtanwendungen. Sorgfältig entworfene Merkmale und Kernverfahren haben viele Gebiete, wie z. B. die Struktur aus der Bewegung, die Objekterkennung und die Bildklassifikation, beeinflusst.
  • In letzter Zeit sind viele CNN-basierte Ähnlichkeitsmaße vorgeschlagen worden. In einem Beispiel kann ein siamesisches Netz verwendet werden, um die Fleckähnlichkeit zu messen. In den neuesten Arbeiten wird ein treibender Datensatz verwendet, um ein CNN für die Fleckähnlichkeit zu trainieren, während andere Arbeiten außerdem ein siamesisches Netz zum Messen der Fleckähnlichkeit für den Stereoabgleich verwenden. Ein an dem ImageNet im Voraus trainiertes CNN kann für eine visuelle und semantische Übereinstimmung analysiert werden. Die Übereinstimmungen werden in verschiedenen Arbeiten sowohl über das Aussehen als auch über eine globale Formdeformation durch das Ausnutzen der Beziehungen in feinkörnigen Datensätzen erlernt. Im Gegensatz erlernen die beispielhaften Ausführungsformen der vorliegenden Erfindung einen metrischen Raum, anstatt das Optimieren bezüglich der Fleckähnlichkeit, wobei sie eine vollständig konvolutionelle Architektur mit einem kontrastiven Übereinstimmungsverlust implementieren, die ein schnelleres Training und Testen erlaubt, und einen räumlichen Faltungstransformator für die lokale Flecknormierung vorschlagen.
  • Neuronale Netze werden zum Erlernen einer Abbildung verwendet, wobei der euklidische Abstand in dem Raum den semantischen Abstand bewahrt. Die Verlustfunktion zum Erlernen einer Ähnlichkeitsmetrik unter Verwendung siamesischer Netze kann anschließend formalisiert werden. In letzter Zeit wurde ein Triplettverlust für die feinkörnige Bildrangordnung verwendet, während der Triplettverlust außerdem für die Gesichtserkennung und die Clusterbildung verwendet wurde. Für das effiziente Training des Netzes können Ministapel verwendet werden.
  • Ein CNN ist gegen einige Typen von Transformationen, wie z. B. eine Translation und eine Skalierung, aufgrund der Faltungs- und Bündelungsschichten invariant. Die explizite Handhabung derartiger Invarianzen in den Formen einer Datenvermehrung oder einer expliziten Netzstruktur liefert jedoch eine höhere Genauigkeit in vielen Aufgaben. In letzter Zeit wurde ein räumliches Transformatornetz vorgeschlagen, um zu lernen, wie ein Objekt von Interesse zu vergrößern ist, ein Objekt von Interesse zu drehen ist oder beliebige Transformationen auf ein Objekt von Interesse anzuwenden sind.
  • Die vollständig verbundenen Schichten werden in 1 x 1-Faltungsfilter umgesetzt, um einen vollständig konvolutionellen Rahmen für die Segmentierung vorzuschlagen. Das Ändern eines regelmäßigen CNN in ein vollständiges Konvolutionsnetz für die Detektion führt zu Geschwindigkeits- und Genauigkeitsgewinnen.
  • Ähnlich zu diesen Arbeiten wird die Effizienz einer vollständig konvolutionellen Architektur durch die Wiederverwendung der Aktivierungen für überlappende Bereiche gewonnen. Weil ferner die Anzahl der Trainingsinstanzen viel größer als die Anzahl der Bilder in einem Stapel ist, wird folglich die Varianz in dem Gradienten verringert, was zu einem schnelleren Training und einer schnelleren Konvergenz führt.
  • 2 ist eine graphische Darstellung, die den entsprechenden kontrastiven Verlust 200 gemäß den Ausführungsformen der vorliegenden Erfindung veranschaulicht.
  • Ein universelles Übereinstimmungsnetz (UCN) wird trainiert, um eine Abbildung direkt zu erlernen, die die Ähnlichkeit bewahrt, anstatt sich auf Surrogatmerkmale zu stützen. Es sind sowohl die vollständig konvolutionelle Art der Architektur, ein neuartiger kontrastiver Übereinstimmungsverlust für das schnellere Training und Testen, das aktive harte negative Gewinnen als auch der räumliche Faltungstransformator, der die Flecknormierung ermöglicht, dargestellt.
  • Um das Training zu beschleunigen und die Betriebsmittel effizient zu verwenden, implementieren die beispielhaften Ausführungsformen das vollständig konvolutionelle Erlernen von Merkmalen, was mehrere Vorteile aufweist. Zuerst kann das Netz einige der für die überlappenden Bereiche berechneten Aktivierungen wiederverwenden. Zweitens können mehrere tausend Übereinstimmungen für jedes Bildpaar trainiert werden, was dem Netz einen genauen Gradienten für das schnellere Lernen bereitstellt. Drittens ist das harte negative Gewinnen effizient und geradeaus, was anschließend erörtert wird. Viertens kann es ungleich der fleckbasierten Verfahren verwendet werden, um dichte Merkmale aus Bildern beliebiger Größen effizient zu extrahieren.
  • Während des Testens ist das vollständige Konvolutionsnetz ebenfalls schneller. Die fleckähnlichkeitsbasierten Netze erfordern O(n2) Vorsteuerungs-Durchgänge, wobei n die Anzahl der entscheidenden Punkte in jedem Bild ist, im Vergleich zu nur O(n) für dieses Netz. Es wird angegeben, dass das Extrahieren von Zwischenschichtaktivierungen als eine Surrogatabbildung eine vergleichsweise suboptimale Wahl ist, weil diese Aktivierungen an der Aufgabe der visuellen Übereinstimmung nicht direkt trainiert werden.
  • Das Erlernen eines metrischen Raums für die visuelle Übereinstimmung erfordert das Codieren entsprechender Punkte (in verschiedenen Ansichten), die auf Nachbarpunkte in dem Merkmalsraum abzubilden sind. Um die Beschränkungen zu codieren, wird eine Verallgemeinerung des kontrastiven Verlusts, die als der kontrastive Übereinstimmungsverlust bezeichnet wird, vorgeschlagen. Möge
    Figure DE112016004535T5_0001
    l(x) das Merkmal im Bild l an der Stelle x = (x, y) bezeichnen. Die Verlustfunktion nimmt die Merkmale aus den Bildern l und l' an den Koordinaten x bzw. x' (2). Falls die Koordinaten x und x' demselben 3D-Punkt entsprechen, wird das Paar als ein positives Paar verwendet, das unterstützt wird, so dass es im Merkmalsraum nah ist, wobei es andernfalls als ein negatives Paar verwendet wird, das unterstützt wird, so dass es wenigstens eine Spanne m getrennt ist. Ferner wird s = 0 für ein positives Paar bezeichnet, während s = 1 für ein negatives Paar bezeichnet wird. Der vollständige kontrastive Übereinstimmungsverlust ist gegeben durch: L = 1 2 N i N s i I ( x i ) I ( x i ) 2 + ( 1 s i ) max ( 0, m 1 ( x ) 1 ( x i ) ) 2 .
    Figure DE112016004535T5_0002
  • Für jedes Bildpaar werden die Übereinstimmungen aus der Trainingsmenge abgetastet. Für einen KITTI-Datensatz können z. B. bis zu 100k Punkte in einem einzigen Bildpaar verwendet werden, falls jeder Laserabtastpunkt verwendet wird. In der Praxis werden jedoch 3k Übereinstimmungen verwendet, um den Speicherverbrauch zu begrenzen. Dies erlaubt genauere Gradientenberechnungen als der herkömmliche kontrastive Verlust, der ein Beispiel pro Bildpaar liefert. Es wird angegeben, dass die Anzahl der Vorsteuerungs-Durchgänge zum Testzeitpunkt O(n) im Vergleich zu O(n2) für die Varianten siamesischer Netze beträgt. Die im Folgenden widergegebene Tabelle 2 fasst die Vorteile einer vollständig konvolutionellen Architektur mit dem kontrastiven Übereinstimmungsverlust zusammen.
    Verfahren Anzahl der Beispiele pro Bildpaar Anzahl der Vorsteuerungen pro Test
    siamesisches Netz 1 O(N2)
    Triplettverlust 2 O(N)
    kontrastiver Verlust 1 O(N)
    kontrastiver Ubereinstimmungsverlust > 103 O(N)
  • Der kontrastive Übereinstimmungsverlust in Gl. (1) besteht aus zwei Termen. Der erste Term minimiert den Abstand zwischen den positiven Paaren, während der zweite Term die negativen Paare schiebt, so dass sie wenigstens eine Spanne m voneinander entfernt sind. Folglich ist der zweite Term nur aktiv, wenn der Abstand zwischen den Merkmalen l(xi) und l'(x'i) kleiner als die Spanne m ist. Eine derartige Grenze definiert den metrischen Raum, daher ist es wichtig, die Negativen zu finden, die die Beschränkung verletzen, und das Netz zu trainieren, um die Negativen wegzuschieben. Zufällige negative Paare tragen jedoch nicht zum Training bei, weil sie sich im Allgemeinen in einem Einbettungsraum fern voneinander befinden.
  • Stattdessen werden die negativen Paare des Gewinnens aktiviert, die die Beschränkungen am meisten verletzen, um das Training dramatisch zu beschleunigen. Die Merkmale werden aus dem ersten Bild extrahiert und finden den nächsten Nachbar in dem zweiten Bild. Falls sich die Stelle fern von der Bodendaten-Übereinstimmungsstelle befindet, verwenden die beispielhaften Ausführungsformen das Paar als ein negatives. Der nächste Nachbar wird aus allen Bodendatenpunkten in dem ersten Bild berechnet. Ein derartiger Gewinnungsprozess ist zeitaufwendig, weil er O(mn) Berechnungen für m bzw. n Merkmalspunkte in den beiden Bildern erfordert. Die ausgeführten Experimente verwenden einige tausend Punkte für n, wobei m alle Merkmale in dem zweiten Bild sind, das so groß wie 22000 ist. Die beispielhaften Ausführungsformen der vorliegenden Erfindung verwenden eine GPU-Implementierung, um die K-NN-Suche zu beschleunigen, und betten sie als eine Caffe-Schicht ein, um die harten Negativen aktiv fliegend zu gewinnen.
  • 3 ist ein räumlicher Faltungstransformator 300 gemäß den Ausführungsformen der vorliegenden Erfindung.
  • Es ist bekannt, dass die CNNs einen gewissen Grad der Skalierungs- und Drehungsinvarianzen handhaben. Es ist jedoch gezeigt worden, dass die Handhabung der räumlichen Transformationen explizit unter Verwendung der Datenvermehrung oder einer speziellen Netzstruktur bei vielen Aufgaben erfolgreicher ist. Für die visuelle Übereinstimmung ist das Finden der richtigen Skalierung und Drehung entscheidend, was herkömmlich durch die Flecknormierung erreicht wird. Eine Folge einfacher Faltungen und Bündelungen kann derartige komplexe räumliche Transformationen nicht nachahmen.
  • Um die Fleckennormierung nachzuahmen, wird die Idee einer räumlichen Transformatorschicht verwendet. Anstatt einer globalen Bildtransformation kann jeder entscheidende Punkt in dem Bild einer unabhängigen Transformation unterzogen werden. Folglich schlagen die beispielhaften Ausführungsformen eine konvolutionelle Version vor, um die transformierten Aktivierungen zu erzeugen, die als der räumliche Faltungstransformator bezeichnet wird. Dies ist für die Übereinstimmungen über große Formvariationen innerhalb der Klasse besonders wichtig.
  • Der vorgeschlagene Transformator nimmt seine Eingabe von einer unteren Schicht und wendet für jedes Merkmal eine unabhängige räumliche Transformation an. Die Transformationsparameter werden außerdem konvolutionell extrahiert. Weil sie durch eine unabhängige Transformation gehen, werden die transformierten Aktivierungen innerhalb einer größeren Aktivierung ohne eine Überlappung angeordnet, wobei sie dann durch eine aufeinanderfolgende Faltung mit der Schrittweite gehen, um die transformierten Aktivierungen unabhängig zu kombinieren. Die Größe der Schrittweite muss gleich der Größe der Kerngröße des räumlichen Transformators sein. 3 veranschaulicht das Modul des räumlichen Faltungstransformators.
  • 4 ist ein Blockschaltplan/Ablaufplan eines Verfahrens zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) gemäß den Ausführungsformen der vorliegenden Erfindung.
  • Im Block 410 werden die Koordinaten der entsprechenden Punkte an der ersten und der zweiten Stelle extrahiert.
  • Im Block 420 werden die positiven Punkte an der ersten und der zweiten Stelle identifiziert.
  • Im Block 430 werden die negativen Punkte an der ersten und der zweiten Stelle identifiziert.
  • Im Block 440 werden die Merkmale, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, trainiert, um sie näher zueinander zu bewegen.
  • Im Block 450 werden die Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, trainiert, um sie voneinander weg zu bewegen.
  • Die Vorteile der vorliegenden Erfindung enthalten (i) eine höhere Genauigkeit bei dem Merkmalsabgleich, weil die Merkmale in einem metrischen Raum direkt erlernt werden, um ein Ziel einer visuellen Übereinstimmung zu optimieren, (ii) ein effizienteres Training durch die Wiederverwendung der Aktivierungen in überlappenden Bereichen, (iii) ein schnelleres Training, weil tausende von Übereinstimmungen für jedes Bildpaar trainiert werden können, und (iv) das harte negative Gewinnen ist effizient und geradeaus, was zu einer höheren Genauigkeit führt. Die entscheidenden Schritte, die die Vorteile für die vorliegende Erfindung ermöglichen, sind (i) eine kontrastive Übereinstimmungsverlustschicht, die eine Metrik im Merkmalsraum direkt erlernt, anstatt ein Ziel einer Surrogat-Fleckähnlichkeit zu optimieren, (ii) die Algorithmen für ein effizientes Training für den kontrastiven Übereinstimmungsverlust mit dem harten negativen Gewinnen für eine vergrößerte Genauigkeit und (iii) die Flecknormierung, die die Drehungs- und Skalierungseffekte durch einen vollständigen räumlichen Faltungstransformator handhaben kann.
  • In den Experimenten wurde ein Caffe-Paket für die Optimierung neuronaler Netze verwendet. Caffe ist ein Rahmen des tiefgehenden Lernens, der mit Blick auf den Ausdruck, die Geschwindigkeit und die Modularität hergestellt wurde. Er wird durch das Berkeley Vision and Learning Center (BVLC) und durch Gemeinschaftsmitarbeiter entwickelt. Caffe ist eine expressive Architektur, die die Anwendung und Innovation fördert. Die Modelle und die Optimierung sind durch die Konfiguration ohne eine feste Codierung definiert. Ein Anwender kann zwischen einer Zentraleinheit (CPU) und einer Graphikverarbeitungseinheit (GPU) durch das Setzen eines einzigen Merkers wechseln, um in einer GPU-Maschine zu trainieren, und es dann in Allerwelts-Clustern oder Mobilvorrichtungen einsetzen. Caffe ist außerdem ein erweiterbarer Code, der eine aktive Entwicklung fördert. Zusätzlich macht die Geschwindigkeit Caffe für Forschungsexperimente und den Industrieeinsatz großartig. Caffe kann über 60M Bilder pro Tag mit einer einzigen NVIDIA K40 GPU (Graphikverarbeitungseinheit) verarbeiten.
  • Weil Caffe die hier vorgeschlagenen neuen Schichten nicht unterstützt, implementieren die beispielhaften Ausführungsformen die kontrastive Übereinstimmungsverlustschicht und die räumliche Faltungstransformatorschicht, die K-NN-Schicht und die kanalweise L2-Normierungsschicht. Die beispielhaften Ausführungsformen verwenden weder eine Abflachungsschicht noch die vollständig verbundene Schicht, um das Netz vollständig konvolutionell zu machen, wobei sie die Merkmale bei jedem vierten Bildpunkt erzeugen. Für eine genaue Lokalisierung extrahieren die beispielhaften Ausführungsformen die Merkmale dicht unter Verwendung einer bilinearen Interpolation, um den Quantisierungsfehler abzuschwächen.
  • Schließlich ist gezeigt worden, dass eine neuartige Herangehensweise zum tiefgehenden metrischen Lernen für die Schätzung der visuellen Übereinstimmung gegenüber den Herangehensweisen vorteilhaft ist, die ein Ziel einer Surrogat-Fleckähnlichkeit optimieren. Die beispielhaften Ausführungsformen schlagen mehrere Innovationen vor, wie z. B. einen kontrastiven Übereinstimmungsverlust in einer vollständig konvolutionellen Architektur, das fliegende aktive harte negative Gewinnen und einen räumlichen Faltungstransformator. Diese verleihen Fähigkeiten, wie z. B. das effizientere Training, die genaueren Gradientenberechnungen, das schnellere Testen und die lokale Flecknormierung, die zu einer verbesserten Geschwindigkeit oder Genauigkeit führen. Die beispielhaften Ausführungsformen demonstrieren in Experimenten, dass die Merkmale an Aufgaben sowohl der geometrischen als auch der semantischen Übereinstimmung sogar ohne die Verwendung irgendwelcher räumlicher Vorränge oder irgendeiner globalen Optimierung besser als der frühere Stand der Technik funktionieren.
  • Die hier beschriebenen Ausführungsformen können vollständig Hardware sein, vollständig Software sein oder sowohl Hardware- als auch Software-Elemente enthalten. In einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf eingeschränkt ist.
  • Die Ausführungsformen können ein Computerprogrammprodukt enthalten, das von einem computerverwendbaren oder computerlesbaren Medium zugänglich ist, das Programmcode für die Verwendung durch einen oder in Zusammenhang mit einem Computer oder durch irgendein oder in Zusammenhang mit irgendeinem Befehlsausführungssystem bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm für die Verwendung durch oder im Zusammenhang mit dem Befehlsausführungssystem, dem Gerät oder der Vorrichtung speichert, überträgt, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder Gerät oder Vorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium, wie z. B. einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine abnehmbare Computer-Diskette, einen Schreib-Lese-Speicher (RAM), einen Festwertspeicher (ROM), eine starre Magnetplatte und eine optische Platte usw. enthalten.
  • Jedes Computerprogramm kann in maschinenlesbaren Speichermedien oder einer maschinenlesbaren Vorrichtung (z. B. einem Programmspeicher oder einer Magnetplatte) greifbar gespeichert sein, die durch einen programmierbaren Universal- oder Spezialcomputer zum Konfigurieren und Steuern des Betriebs eines Computers lesbar sind, wenn die Speichermedien oder die Speichervorrichtung durch den Computer gelesen werden, um die hier beschriebenen Prozeduren auszuführen. Das System der Erfindung kann außerdem als in einem computerlesbaren Speichermedium verkörpert betrachtet werden, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium einen Computer veranlasst, in einer spezifischen und vorgegebenen Weise zu arbeiten, um die hier beschriebenen Funktionen auszuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor enthalten, der durch einen Systembus direkt oder indirekt an Speicherelemente gekoppelt ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cache-Speicher, die eine vorübergehende Speicherung von wenigstens etwas Programmcode bereitstellen, um die Anzahl, wie oft Code während der Ausführung aus dem Massenspeicher wiedergewonnen wird, zu verringern, enthalten. Es können Eingabe-/Ausgabe- oder E/A-Vorrichtungen (einschließlich aber nicht eingeschränkt auf Tastaturen, Anzeigen, Zeigevorrichtungen usw.) entweder direkt oder durch dazwischenliegende E/A-Controller an das System gekoppelt sein.
  • An das System können außerdem Netzadapter gekoppelt sein, um es zu ermöglichen, dass das Datenverarbeitungssystem durch dazwischenliegende private oder öffentliche Netze an andere Datenverarbeitungssysteme oder entfernte Drucker oder Speichervorrichtungen gekoppelt wird. Modems, Kabelmodems und Ethernet-Karten sind nur einige der gegenwärtig verfügbaren Typen von Netzadaptern.
  • In 5 ist ein beispielhaftes Verarbeitungssystem 600 gezeigt. Das Verarbeitungssystem 600 enthält wenigstens einen Prozessor (CPU) 604, der über einen Systembus 602 betriebstechnisch an die anderen Komponenten gekoppelt ist. Ein Cache 606, ein Festwertspeicher (ROM) 608, ein Schreib-Lese-Speicher (RAM) 610, ein Eingabe-/Ausgabeadapter (E/A-Adapter) 620, ein Netzadapter 640, ein Anwenderschnittstellenadapter 650 und ein Anzeigeadapter 660 sind betriebstechnisch an den Systembus 602 gekoppelt. Eine Anzeigevorrichtung 662 kann durch den Anzeigeadapter 660 betriebstechnisch an den Systembus 602 gekoppelt sein.
  • Selbstverständlich kann das Verarbeitungssystem 600 sowohl außerdem andere (nicht gezeigte) Elemente enthalten, die durch einen Fachmann auf dem Gebiet leicht in Betracht gezogen werden, als auch bestimmte Elemente weglassen. Es können z. B. verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in Abhängigkeit von der speziellen Implementierung des Verarbeitungssystem 600 in demselben enthalten sein, wie durch einen Durchschnittsfachmann auf dem Gebiet leicht erkannt wird. Es können z. B. verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Überdies können zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen außerdem verwendet werden, wie durch einen Durchschnittsfachmann auf dem Gebiet leicht erkannt wird. Diese und andere Variationen des Verarbeitungssystems 600 werden durch einen Durchschnittsfachmann auf dem Gebiet in Anbetracht der Lehren der hier bereitgestellten vorliegenden Prinzipien leicht in Betracht gezogen.
  • Das Vorhergehende ist als in jeder Hinsicht veranschaulichend und beispielhaft, aber nicht einschränkend zu verstehen, wobei der Schutzumfang der hier offenbarten Erfindung nicht aus der ausführlichen Beschreibung bestimmt ist, sondern stattdessen aus den Ansprüchen, wie sie gemäß der durch die Patentgesetze erlaubten vollen Breite interpretiert werden. Es wird erkannt, dass die hier gezeigten und beschriebenen Ausführungsformen lediglich die Prinzipien der vorliegenden Erfindung veranschaulichen und dass die Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Die Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Folglich sind die Aspekte der Erfindung mit den Einzelheiten und der Genauigkeit, die durch die Patentgesetze vorgeschrieben sind, beschrieben worden, wobei das, was beansprucht und als durch das Letters Patent geschützt gewünscht wird, in den beigefügten Ansprüchen dargelegt ist.

Claims (18)

  1. Computerimplementiertes Verfahren zum Trainieren eines neuronalen Konvolutionsnetzes (CNN), wobei das Verfahren umfasst: Extrahieren der Koordinaten entsprechender Punkte an der ersten und der zweiten Stelle; Identifizieren positiver Punkte an der ersten und der zweiten Stelle; Identifizieren negativer Punkte an der ersten und der zweiten Stelle; Trainieren von Merkmalen, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, um sie näher zueinander zu bewegen; und Trainieren der Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, um sie voneinander weg zu bewegen.
  2. Verfahren nach Anspruch 1, wobei das CNN einen vollständigen räumlichen Faltungstransformator zum Normieren der Flecke umfasst, um eine Drehung und eine Skalierung zu handhaben.
  3. Verfahren nach Anspruch 2, wobei der räumliche Faltungstransformator räumliche Transformationen auf die Aktivierungen unterer Schichten anwendet.
  4. Verfahren nach Anspruch 1, wobei eine kontrastive Verlustschicht die Abstände zwischen den Merkmalen der ersten und der zweiten Stelle codiert.
  5. Verfahren nach Anspruch 1, wobei eine kontrastive Verlustschicht mit dem harten negativen Gewinnen und durch das Wiederverwenden der Aktivierungen in überlappenden Bereichen trainiert wird.
  6. Verfahren nach Anspruch 5, wobei harte negative Paare gewonnen werden, die die Beschränkungen verletzen.
  7. System zum Trainieren eines neuronalen Konvolutionsnetzes (CNN), wobei das System umfasst: einen Speicher; und einen Prozessor, der mit dem Speicher in Verbindung steht, wobei der Prozessor konfiguriert ist, um: die Koordinaten der entsprechenden Punkte an der ersten und der zweiten Stelle zu extrahieren; die positiven Punkte an der ersten und der zweiten Stelle zu identifizieren; die negativen Punkte an der ersten und der zweiten Stelle zu identifizieren; die Merkmale, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, zu trainieren, um sie näher zueinander zu bewegen; und die Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, zu trainieren, um sie voneinander weg zu bewegen.
  8. System nach Anspruch 7, wobei das CNN einen vollständigen räumlichen Faltungstransformator zum Normieren der Flecke umfasst, um eine Drehung und eine Skalierung zu handhaben.
  9. System nach Anspruch 8, wobei der räumliche Faltungstransformator räumliche Transformationen auf die Aktivierungen unterer Schichten anwendet.
  10. System nach Anspruch 7, wobei eine kontrastive Verlustschicht die Abstände zwischen den Merkmalen der ersten und der zweiten Stelle codiert.
  11. System nach Anspruch 7, wobei eine kontrastive Verlustschicht mit dem harten negativen Gewinnen und durch das Wiederverwenden der Aktivierungen in überlappenden Bereichen trainiert wird.
  12. System nach Anspruch 11, wobei harte negative Paare gewonnen werden, die die Beschränkungen verletzen.
  13. Nichttransitorisches computerlesbares Speichermedium, das ein computerlesbares Programm zum Trainieren eines neuronalen Konvolutionsnetzes (CNN) umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte auszuführen: Extrahieren der Koordinaten entsprechender Punkte an der ersten und der zweiten Stelle; Identifizieren positiver Punkte an der ersten und der zweiten Stelle; Identifizieren negativer Punkte an der ersten und der zweiten Stelle; Trainieren von Merkmalen, die den positiven Punkten der ersten und der zweiten Stelle entsprechen, um sie näher zueinander zu bewegen; und Trainieren der Merkmale, die den negativen Punkten an der ersten und der zweiten Stelle entsprechen, um sie voneinander weg zu bewegen.
  14. Nichttransitorisches computerlesbares Speichermedium nach Anspruch 13, wobei das CNN einen vollständigen räumlichen Faltungstransformator zum Normieren der Flecke umfasst, um eine Drehung und eine Skalierung zu handhaben.
  15. Nichttransitorisches computerlesbares Speichermedium nach Anspruch 14, wobei der räumliche Faltungstransformator räumliche Transformationen auf die Aktivierungen unterer Schichten anwendet.
  16. Nichttransitorisches computerlesbares Speichermedium nach Anspruch 13, wobei eine kontrastive Verlustschicht die Abstände zwischen den Merkmalen der ersten und der zweiten Stelle codiert.
  17. Nichttransitorisches computerlesbares Speichermedium nach Anspruch 13, wobei eine kontrastive Verlustschicht mit dem harten negativen Gewinnen und durch das Wiederverwenden der Aktivierungen in überlappenden Bereichen trainiert wird.
  18. Nichttransitorisches computerlesbares Speichermedium nach Anspruch 17, wobei harte negative Paare gewonnen werden, die die Beschränkungen verletzen.
DE112016004535.2T 2015-11-04 2016-11-04 Universelles Übereinstimmungsnetz Pending DE112016004535T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562250877P 2015-11-04 2015-11-04
US62/250,877 2015-11-04
US15/342,700 2016-11-03
US15/342,700 US10115032B2 (en) 2015-11-04 2016-11-03 Universal correspondence network
PCT/US2016/060479 WO2017079529A1 (en) 2015-11-04 2016-11-04 Universal correspondence network

Publications (1)

Publication Number Publication Date
DE112016004535T5 true DE112016004535T5 (de) 2018-06-21

Family

ID=58635843

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016004535.2T Pending DE112016004535T5 (de) 2015-11-04 2016-11-04 Universelles Übereinstimmungsnetz

Country Status (4)

Country Link
US (1) US10115032B2 (de)
JP (1) JP2018537766A (de)
DE (1) DE112016004535T5 (de)
WO (1) WO2017079529A1 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565496B2 (en) * 2016-02-04 2020-02-18 Nec Corporation Distance metric learning with N-pair loss
CN106909625A (zh) * 2017-01-20 2017-06-30 清华大学 一种基于Siamese网络的图像检索方法及系统
CN110462684B (zh) * 2017-04-10 2023-08-01 赫尔实验室有限公司 对对象移动进行隐式预测的系统、计算机可读介质与方法
US10261903B2 (en) 2017-04-17 2019-04-16 Intel Corporation Extend GPU/CPU coherency to multi-GPU cores
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
US10072919B1 (en) 2017-08-10 2018-09-11 Datacloud International, Inc. Efficient blast design facilitation systems and methods
US20190048708A1 (en) 2017-08-10 2019-02-14 Datacloud International, Inc. Spectral borehole imaging systems and methods
US10762359B2 (en) * 2017-08-31 2020-09-01 Nec Corporation Computer aided traffic enforcement using dense correspondence estimation with multi-level metric learning and hierarchical matching
US10482337B2 (en) * 2017-09-29 2019-11-19 Infineon Technologies Ag Accelerating convolutional neural network computation throughput
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10395147B2 (en) * 2017-10-30 2019-08-27 Rakuten, Inc. Method and apparatus for improved segmentation and recognition of images
US10410350B2 (en) 2017-10-30 2019-09-10 Rakuten, Inc. Skip architecture neural network machine and method for improved semantic segmentation
KR102535411B1 (ko) 2017-11-16 2023-05-23 삼성전자주식회사 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
CN107944551A (zh) * 2017-12-15 2018-04-20 福州大学 一种用于电润湿显示屏缺陷识别方法
WO2019147693A1 (en) * 2018-01-23 2019-08-01 Insurance Services Office, Inc. Computer vision systems and methods for machine learning using image hallucinations
US10697294B2 (en) 2018-02-17 2020-06-30 Datacloud International, Inc Vibration while drilling data processing methods
US10989828B2 (en) 2018-02-17 2021-04-27 Datacloud International, Inc. Vibration while drilling acquisition and processing system
CN108734773A (zh) * 2018-05-18 2018-11-02 中国科学院光电研究院 一种用于混合图片的三维重建方法及系统
CN108985148B (zh) * 2018-05-31 2022-05-03 成都通甲优博科技有限责任公司 一种手部关键点检测方法及装置
WO2019231105A1 (ko) * 2018-05-31 2019-12-05 한국과학기술원 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
CN108921926B (zh) * 2018-07-02 2020-10-09 云从科技集团股份有限公司 一种基于单张图像的端到端三维人脸重建方法
CN109496316B (zh) * 2018-07-28 2022-04-01 合刃科技(深圳)有限公司 图像识别系统
CN109063139B (zh) * 2018-08-03 2021-08-03 天津大学 基于全景图及多通道cnn的三维模型分类和检索方法
JP6902318B2 (ja) * 2018-08-06 2021-07-14 Kddi株式会社 ニューラルネットワークの全結合層を畳み込み層に置き換えるプログラム
CN110874632B (zh) * 2018-08-31 2024-05-03 嘉楠明芯(北京)科技有限公司 图像识别处理方法和装置
US10318842B1 (en) * 2018-09-05 2019-06-11 StradVision, Inc. Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same
EP3637303B1 (de) * 2018-10-09 2024-02-14 Naver Corporation Verfahren zur erzeugung einer basis von trainingsbildern zum training eines cnn und zur detektion einer poi-veränderung in einem paar von eingegebenen poi-nachrichten unter verwendung von besagtem cnn
US11055866B2 (en) * 2018-10-29 2021-07-06 Samsung Electronics Co., Ltd System and method for disparity estimation using cameras with different fields of view
KR102219561B1 (ko) * 2018-11-23 2021-02-23 연세대학교 산학협력단 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
CN110009679B (zh) * 2019-02-28 2022-01-04 江南大学 一种基于多尺度特征卷积神经网络的目标定位方法
CN110288089B (zh) * 2019-06-28 2021-07-09 北京百度网讯科技有限公司 用于发送信息的方法和装置
US11003501B2 (en) * 2019-07-03 2021-05-11 Advanced New Technologies Co., Ltd. Loading models on nodes having multiple model service frameworks
CN111461255B (zh) * 2020-04-20 2022-07-05 武汉大学 一种基于间隔分布的Siamese网络图像识别方法及系统
AU2021259170B2 (en) 2020-04-21 2024-02-08 Google Llc Supervised contrastive learning with multiple positive examples
WO2021216310A1 (en) * 2020-04-21 2021-10-28 Google Llc Supervised contrastive learning with multiple positive examples
CN111524166B (zh) * 2020-04-22 2023-06-30 北京百度网讯科技有限公司 视频帧的处理方法和装置
US11809988B2 (en) 2020-06-22 2023-11-07 Mitsubishi Electric Research Laboratories, Inc. Artificial intelligence system for classification of data based on contrastive learning
CN111931937B (zh) * 2020-09-30 2021-01-01 深圳云天励飞技术股份有限公司 图像处理模型的梯度更新方法、装置及系统
CN112712460B (zh) * 2020-12-09 2024-05-24 杭州妙绘科技有限公司 肖像画生成的方法、装置、电子设备及介质
WO2022135708A1 (en) * 2020-12-22 2022-06-30 Huawei Technologies Co., Ltd. Apparatus and method for automatic keypoint and description extraction
CN112668627A (zh) * 2020-12-24 2021-04-16 四川大学 一种基于对比学习的大规模图像在线聚类系统及方法
CN114170516B (zh) * 2021-12-09 2022-09-13 清华大学 一种基于路侧感知的车辆重识别方法、装置及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030126622A1 (en) * 2001-12-27 2003-07-03 Koninklijke Philips Electronics N.V. Method for efficiently storing the trajectory of tracked objects in video
US7648460B2 (en) 2005-08-31 2010-01-19 Siemens Medical Solutions Usa, Inc. Medical diagnostic imaging optimization based on anatomy recognition
US20080043144A1 (en) * 2006-08-21 2008-02-21 International Business Machines Corporation Multimodal identification and tracking of speakers in video
JP5071900B2 (ja) * 2008-02-28 2012-11-14 学校法人金沢工業大学 画像生成装置およびその方法
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10382300B2 (en) * 2015-10-06 2019-08-13 Evolv Technologies, Inc. Platform for gathering real-time analysis
US9710898B2 (en) * 2015-11-18 2017-07-18 Adobe Systems Incorporated Image synthesis utilizing an active mask
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US10565496B2 (en) * 2016-02-04 2020-02-18 Nec Corporation Distance metric learning with N-pair loss

Also Published As

Publication number Publication date
JP2018537766A (ja) 2018-12-20
WO2017079529A1 (en) 2017-05-11
US20170124711A1 (en) 2017-05-04
US10115032B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE102018132069A1 (de) Äquivariante Orientierungspunkt-Transformation für Orientierungspunkt-Lokalisierung
DE102018126670A1 (de) Fortschreitende Modifizierung von generativen adversativen neuronalen Netzen
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE102018111407A1 (de) Methode zum maschinellen lernen für automatisches modellieren von mehrwertigen ausgaben
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE112018000298T5 (de) System und verfahren zur poseninvarianten gesichtsausrichtung
DE112016004534T5 (de) Nicht überwachtes Abgleichen in feinkörnigen Datensätzen zur Einzelansicht-Objektrekonstruktion
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
DE102019106123A1 (de) Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
CN111476310B (zh) 一种图像分类方法、装置及设备
DE202022002901U1 (de) Text-Bild-Layout Transformer (TILT)
DE102021128523A1 (de) Hierarchische bildzerlegung zur defekterkennung
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
DE112022002652T5 (de) Automatische erzeugung einer vektorkarte für die fahrzeugnavigation
DE102019112595A1 (de) Geführte halluzination für fehlende bildinhalte unter verwendung eines neuronalen netzes
CN103927533B (zh) 一种针对早期专利文档扫描件中图文信息的智能处理方法
DE102021105291A1 (de) Gewichtsdemodulation für ein erzeugendes neuronales netz
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
DE102020209189A1 (de) Domain-übergreifendes metric-lernsystem und -verfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication