DE112016006360T5 - Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust - Google Patents

Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust Download PDF

Info

Publication number
DE112016006360T5
DE112016006360T5 DE112016006360.1T DE112016006360T DE112016006360T5 DE 112016006360 T5 DE112016006360 T5 DE 112016006360T5 DE 112016006360 T DE112016006360 T DE 112016006360T DE 112016006360 T5 DE112016006360 T5 DE 112016006360T5
Authority
DE
Germany
Prior art keywords
pairs
classes
training examples
computer
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016006360.1T
Other languages
English (en)
Inventor
Kihyuk Sohn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112016006360T5 publication Critical patent/DE112016006360T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

Ein Verfahren enthält ein Empfangen von N Paaren von Trainingsbeispielen und Klassenlabels dafür. Jedes Paar enthält ein jeweiliges Ankerbeispiel und ein jeweiliges Nicht-Ankerbeispiel, die ein positives oder ein negatives Trainingsbeispiel sein können. Das Verfahren enthält weiterhin ein Extrahieren von Merkmalen der Paare durch Anwenden eines DHCNN und ein Berechnen, für jedes Paar basierend auf den Merkmalen, eines jeweiligen Ähnlichkeitsmaßes zwischen dem jeweiligen Anker- und Nicht-Ankerbeispiel. Das Verfahren enthält zusätzlich ein Berechnen eines Ähnlichkeitswerts basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes Paar. Der Wert bzw. die Auswertung stellt Ähnlichkeiten zwischen allen Ankerpunkten und positiven Trainingsbeispielen in den Paaren relativ zu Ähnlichkeiten zwischen allen Ankerpunkten und negativen Trainingsbeispielen in den Paaren dar. Das Verfahren enthält weiterhin ein Maximieren des Ähnlichkeitswerts für das Ankerbeispiel für jedes Paar, um die Trainingsbeispiele aus einer selben Klasse zusammenzuziehen, während die Trainingsbeispiele aus anderen Klassen weggestoßen werden.

Description

  • INFORMATION ÜBER EINE ZUGEHÖRIGE ANMELDUNG
  • Diese Anmeldung beansprucht die Priorität der provisorischen US-Patentanmeldung Ser. Nr. 62/291,025 , eingereicht am 4. Februar 2016, die hierin in ihrer Gesamtheit durch Bezugnahme enthalten ist.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft ein Computerlernen und, genauer gesagt, ein Verbessern eines Lernens einer Abstandsmetrik mit einem N-Paar-Verlust.
  • Beschreibung des zugehörigen Standes der Technik
  • Ein tiefes Lernen von Metrik ist auf viele Arten in Angriff genommen worden, aber vor allem sind kontrastiver Verlust und Dreiergruppen-Verlust zum Trainieren von Zielsetzungen eines tiefen Lernens verwendet worden. Frühere Ansätze berücksichtigten eine paarweise Beziehung zwischen zwei unterschiedlichen Klassen und litten an langsamer Konvergenz zu einem nicht zufriedenstellenden lokalen Minimum. Somit gibt es eine Notwendigkeit für ein verbessertes Lernen von Metrik.
  • ZUSAMMENFASSUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zur Verfügung gestellt. Das Verfahren enthält ein Empfangen, durch einen Prozessor, von N Paaren von Trainingsbeispielen und Klassenlabels für die Trainingsbeispiele, die einer Vielzahl von Klassen entsprechen. Jedes der N Paare enthält ein jeweiliges Ankerbeispiel und enthält weiterhin ein jeweiliges Nicht-Ankerbeispiel, die ein positives Trainingsbeispiel oder ein negatives Trainingsbeispiel sein können. Das Verfahren enthält weiterhin ein Extrahieren, durch den Prozessor, von Merkmalen der N Paare durch Anwenden eines tiefen faltenden neuronalen Netzes auf die N Paare und auf die Klassenlabel. Das Verfahren enthält auch ein Berechnen, durch den Prozessor für jedes der N Paare basierend auf den Merkmalen, eines jeweils ähnlichen Maßes zwischen dem jeweiligen Ankerbeispiel und dem jeweiligen Nicht-Ankerbeispiel. Das Verfahren enthält zusätzlich ein Berechnen, durch den Prozessor, eines Ähnlichkeitswerts basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes der N Paare. Der Ähnlichkeitswert stellt eine oder mehrere Ähnlichkeiten zwischen allen Ankerpunkten und allen positiven Trainingsbeispielen in den N Paaren relativ zu einer oder mehreren Ähnlichkeiten zwischen allen der Ankerpunkte und allen negativen Trainingsbeispielen in den N Paaren dar. Das Verfahren enthält weiterhin ein Maximieren, durch den Prozessor, des Ähnlichkeitswerts für das jeweilige Ankerbeispiel für jedes der N Paare, um die Trainingsbeispiele von einer selben der Vielzahl von Klassen in einem Verteilungsraum zusammenzuziehen, während die Trainingsbeispiele von unterschiedlichen der Vielzahl von Klassen im Verteilungsraum weg voneinander gestoßen werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zur Verfügung gestellt. Das System enthält einen Prozessor. Der Prozessor ist konfiguriert, um N Paare von Trainingsbeispielen und Klassenlabels für die Trainingsbeispiele, die einer Vielzahl von Klassen entsprechen, zu empfangen. Jeds der N Paare enthält ein jeweiliges Ankerbeispiel und enthält weiterhin ein jeweiliges Nicht-Ankerbeispiel, die ein positives Trainingsbeispiel oder ein negatives Trainingsbeispiel sein können. Der Prozessor ist weiterhin konfiguriert, um Merkmale der N Paare durch Anwenden eines tiefen faltenden neuronalen Netzes auf die N Paare und auf die Klassenlabel zu extrahieren. Der Prozessor ist auch konfiguriert, um für jedes der N Paare basierend auf den Merkmalen ein jeweiliges ähnliches Maß zwischen dem jeweiligen Ankerbeispiel und dem jeweiligen Nicht-Ankerbeispiel zu berechnen. Der Prozessor ist zusätzlich konfiguriert, um einen Ähnlichkeitswert basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes der N Paare zu berechnen. Das Ähnlichkeitsmaß stellt eine oder mehrere Ähnlichkeiten zwischen allen Ankerpunkten und allen positiven Trainingsbeispielen in den N Paaren relativ zu einer oder mehreren Ähnlichkeiten zwischen allen der Ankerpunkte und allen negativen Trainingsbeispielen in den N Paaren dar. Der Prozessor ist weiterhin konfiguriert, um den Ähnlichkeitswert für das jeweilige Ankerbeispiel für jedes der N Paare zu maximieren, um die Trainingsbeispiele von einer selben der Vielzahl von Klassen in einem Verteilungsraum zusammenzuziehen, während die Trainingsbeispiele von unterschiedlichen der Vielzahl von Klassen im Verteilungsraum weg voneinander gestoßen werden.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung ihrer illustrativen Ausführungsbeispiele ersichtlich werden, welche in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren zur Verfügung stellen, wobei:
    • 1 ein Blockdiagramm eines beispielhaften Verarbeitungssystems 100, auf welches die vorliegende Erfindung angewendet werden kann, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 2 eine beispielhafte Umgebung 200, auf welche die vorliegende Erfindung angewendet werden kann, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 3 ein Block/Ablauf-Diagramm hoher Ebene eines beispielhaften Systems/Verfahrens 300 für ein tiefes Lernen einer Metrik mit einem N-Paar-Verlust gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
    • 4 weiterhin einen Schritt 310 des Verfahrens 300 der 3 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Insbesondere zeigt 4 weiterhin ein Lernen einer Abstandsmetrik mit einem N-Paar-Verlust 400 gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 5 ein Diagramm ist, das graphisch den N-Paar-Verlust 400 der 4 gemäß einer Ausführungsform der vorliegenden Erfindung gegenüber einem herkömmlichen Dreiergruppen-Verlust 599 gemäß dem Stand der Technik zeigt; und
    • 6-8 ein Ablaufdiagramm eines Verfahrens 600 für ein tiefes Lernen einer Metrik mit einem N-Paar-Verlust gemäß einer Ausführungsform der vorliegenden Erfindung zeigen.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung ist auf ein Verbessern eines Lernens einer Abstandsmetrik mit einem N-Paar-Verlust gerichtet.
  • Die vorliegende Erfindung löst das grundsätzliche Maschinenlernproblem eines Lernens einer Abstandsmetrik, wenn die Anzahl von ausgegebenen Klassen extrem groß ist, die Gesamtanzahl von ausgegebenen Klassen unbekannt ist oder die Verteilung von ausgegebenen Klassen über die Zeit variabel ist, unter Verwendung eines tiefen Lernens.
  • Bei einer Ausführungsform und gegensätzlich zu Ansätzen nach dem Stand der Technik berücksichtigt die vorliegende Erfindung N Paare von Beispielen von N unterschiedlichen Klassen auf einmal.
  • Bei einer Ausführungsform führt die vorliegende Erfindung eine neue Zielfunktion für ein tiefes Lernen einer Metrik ein. Die Zielfunktion lässt eine schnellere Konvergenz zu einem besseren lokalen Optimum zu.
  • Die vorliegende Erfindung stellt einen N-Paar-Verlust für ein tiefes Lernen einer Metrik zur Verfügung. Die vorliegende Erfindung lässt ein Trainieren von tiefen neuronalen Netzen zu, so dass sie trainiert, Beispiele aus derselben Klasse zusammenzuziehen, während sie diejenigen von unterschiedlichen Klassen voneinander wegstößt. Die vorliegende Erfindung stößt nicht nur ein negatives Beispiel bei jedem Update weg, sondern N - 1 negative Beispiele von allen unterschiedlichen Klassen basierend auf ihren relativen Abständen zum Referenzbeispiel.
  • 1 zeigt ein Blockdiagramm eines beispielhaften Verarbeitungssystems 100, auf welches die Erfindungsprinzipien angewendet werden können, gemäß einer Ausführungsform der vorliegenden Erfindung. Das Verarbeitungssystem 100 enthält wenigstens einen Prozessor (CPU) 104, der betriebsmäßig mit anderen Komponenten über einen Systembus 102 gekoppelt ist. Ein Cache 106, ein Nurlesespeicher (ROM) 108, ein Direktzugriffsspeicher (RAM) 110, ein Eingabe/Ausgabe-(I/O-)Adapter 120, ein Klangadapter 130, ein Netzwerkadapter 140, ein Anwenderschnittstellenadapter 150 und ein Anzeigeadapter 160 sind betriebsmäßig mit dem Systembus 102 gekoppelt.
  • Eine erste Speichervorrichtung 122 und eine zweite Speichervorrichtung 124 sind betriebsmäßig mit dem Systembus 102 durch den I/O-Adapter 120 gekoppelt. Die Speichervorrichtungen 122 und 124 können irgendetwas von einer Plattenspeichervorrichtung (z.B. einer magnetischen oder optischen Plattenspeichervorrichtung), einer Festkörper-Magnetvorrichtung und so weiter sein. Die Speichervorrichtungen 122 und 124 können derselbe Typ von Speichervorrichtung oder unterschiedliche Typen von Speichervorrichtungen sein.
  • Ein Lautsprecher 132 ist betriebsmäßig mit dem Systembus 102 durch den Klangadapter 130 gekoppelt. Ein Transceiver 142 ist betriebsmäßig mit dem Systembus 102 durch den Netzwerkadapter 140 gekoppelt. Eine Anzeigevorrichtung 162 ist betriebsmäßig mit dem Systembus 102 durch den Anzeigeadapter 160 gekoppelt.
  • Eine erste Anwendereingabevorrichtung 152, eine zweite Anwendereingabevorrichtung 154 und eine dritte Anwendereingabevorrichtung 156 sind betriebsmäßig mit dem Systembus 102 durch den Anwenderschnittstellenadapter 150 gekoppelt. Die Anwendereingabevorrichtungen 152, 154 und 156 können irgendetwas von einer Tastatur, einer Maus, einer Kleintastatur bzw. einer Folientastatur, einer Bilderfassungsvorrichtung, einer Bewegungserfassungsvorrichtung, einem Mikrophon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorangehenden Vorrichtung enthält, und so weiter sein. Natürlich können andere Typen von Eingabevorrichtungen auch verwendet werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird. Die Anwendereingabevorrichtungen 152, 154 und 156 können derselbe Typ von Anwendereingabevorrichtung oder unterschiedliche Typen von Anwendereingabevorrichtungen sein. Die Anwendereingabevorrichtungen 152, 154 und 156 werden verwendet, um Information zu dem System 100 einzugeben und von diesem auszugeben.
  • Natürlich kann das Verarbeitungssystem 100 auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie gewisse Elemente weglassen. Beispielsweise können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen im Verarbeitungssystem 100 enthalten sein, und zwar in Abhängigkeit von der bestimmten Implementierung desselben, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Beispielsweise können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen, Speicher und so weiter in verschiedenen Konfigurationen verwendet werden, wie es von einem Fachmann auf dem Gebiet ohne weiteres wahrgenommen wird. Diese und andere Variationen des Verarbeitungssystems 100 werden von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung übergeben werden.
  • Darüber hinaus ist es wahrzunehmen, dass eine nachstehend in Bezug auf 2 beschriebene Umgebung 200 eine Umgebung zum Implementieren jeweiliger Ausführungsformen der vorliegenden Erfindung ist. Ein Teil oder das Gesamte des Verarbeitungssystems 100 kann in einem oder mehreren der Elemente der Umgebung 200 implementiert sein.
  • Weiterhin ist es wahrzunehmen, dass das Verarbeitungssystem 100 wenigstens einen Teil des hierin beschriebenen Verfahrens durchführen kann, einschließlich beispielsweise wenigstens eines Teils eines Verfahrens 300 der 3 und/oder wenigstens eines Teils des Verfahrens 400 der 4 und/oder wenigstens eines Teils eines Verfahrens 600 der 6-8. Gleichermaßen kann ein Teil oder die Gesamtheit der Umgebung 200 verwendet werden, um wenigstens einen Teil des Verfahrens 300 der 3 und/oder wenigstens einen Teil des Verfahrens 400 der 4 und/oder wenigstens einen Teil des Verfahrens 600 der 6-8 durchzuführen.
  • 2 zeigt eine beispielhafte Umgebung 200, auf welche die vorliegende Erfindung angewendet werden kann, gemäß einer Ausführungsform der vorliegenden Erfindung. Die Umgebung 200 stellt ein Computernetzwerk dar, auf welches die vorliegende Erfindung angewendet werden kann. Die in Bezug auf 2 gezeigten Elemente sind der Darstellung halber dargelegt. Jedoch ist es wahrzunehmen, dass die vorliegende Erfindung auf andere Netzwerkkonfigurationen angewendet werden kann, wie es von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung übergeben werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird.
  • Die Umgebung 200 enthält wenigstens eine Gruppe von Computerverarbeitungssystemen 210. Die Computerverarbeitungssysteme 210 können irgendein Typ von Computerverarbeitungssystem sein, einschließlich, aber nicht darauf beschränkt, Server, Desktops, Laptops, Tablets, Smartphones, Medienabspielvorrichtungen und so weiter. Der Darstellung halber enthalten die Computerverarbeitungssysteme 210 einen Server 210A, einen Server 210B und einen Server 210C.
  • Bei einer Ausführungsform verbessert die vorliegende Erfindung ein Lernen einer Abstandsmetrik mit einem N-Paar-Verlust. Die vorliegende Erfindung kann irgendeines der Computerverarbeitungssysteme 210 verwenden, um ein Lernen einer Abstandsmetrik mit einem tiefen Lernen durchzuführen, wie es hierin beschrieben ist. Bei einer Ausführungsform kann eines der Computerverarbeitungssysteme 210 Information klassifizieren, die durch andere der Computerverarbeitungssysteme empfangen ist.
  • Bei der in 2 gezeigten Ausführungsform sind die ihre Elemente durch ein Netzwerk (Netzwerke) 201 miteinander verbunden. Jedoch können bei anderen Ausführungsformen auch andere Typen von Verbindungen verwendet werden. Zusätzlich können ein oder mehrere Elemente in 2 durch eine Vielfalt von Vorrichtungen implementiert sein, die folgendes enthalten, aber nicht darauf beschränkt sind: Digitalsignalverarbeitungs-(DSP-)Schaltungen, programmierbare Prozessoren, anwendungsspezifische integrierte Schaltungen (ASICs), feldprogrammierbare Gate-Arrays (FPGAs), komplexe programmierbare Logikvorrichtungen (CPLDs), und so weiter. Diese und andere Variationen der Elemente der Umgebung 200 werden von einem Fachmann auf dem Gebiet ohne weiteres bestimmt, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung übergeben werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird.
  • 3 zeigt ein Block/Ablauf-Diagramm hoher Ebene eines beispielhaften Systems/Verfahrens 300 für tiefes Lernen einer Metrik mit einem N-Paar-Verlust gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Schritt 310 wird ein Lernen einer Abstandsmetrik mit einem tiefen Lernen durchgeführt.
  • Bei einer Ausführungsform enthält der Schritt 310 Schritte 310A, 310B und 310C.
  • Beim Schritt 310A erfolgt ein Bereitstellen von Bildern zu einem tiefen faltenden neuronalen Netz 350. Die Bilder enthalten N Paare von Beispielen aus N unterschiedlichen Klassen auf einmal.
  • Beim Schritt 310B erfolgt ein Extrahieren von Merkmalen aus den Bildern.
  • Beim Schritt 310C erfolgt ein Durchführen eines Lernens einer Abstandsmetrik mit einem N-Paar-Verlust an den Merkmalen und ein Ausbilden eines Klassifizierers 370.
  • Bei einem Schritt 320 erfolgt ein Testen des Systems auf eine Bildverifizierung.
  • Bei einer Ausführungsform enthält der Schritt 320 Schritte 320A, 320B, 320C, 320D, 320E und 320F.
  • Beim Schritt 320A erfolgt ein Empfangen eines ersten Bilds (Bild 1).
  • Beim Schritt 320B erfolgt ein Empfangen eines zweiten Bilds (Bild 2).
  • Beim Schritt 320C erfolgt ein Extrahieren von Merkmalen unter Verwendung eines trainierten tiefen faltenden neuronalen Netzes 350A. Das tiefe faltende neuronale Netz 350 wird trainiert, um ein trainiertes tiefes faltendes neuronales Netz 350A zu werden.
  • Beim Schritt 320D erfolgt ein Ausgeben eines ersten Merkmals (Merkmal 1)
  • Beim Schritt 320E erfolgt ein Ausgeben eines zweiten Merkmals (Merkmal 2)
  • Beim Schritt 320F erfolgt ein Eingeben der Merkmale (Merkmal 1 und Merkmal 2) und in den Klassifizierer 370.
  • Der Klassifizierer 370 kann verwendet werden, um Vorhersagen zu erzeugen, basierend auf welchen gewisse Aktionen vorgenommen werden können (z.B. siehe 6).
  • In Bezug auf den Schritt 310 ist wahrzunehmen, dass dieser selbe sich von früheren Ansätzen bezüglich wenigstens eines Verwendens von N Paaren von Beispielen aus N unterschiedlichen Klassen auf einmal unterscheidet.
  • In Bezug auf den Schritt 320 ist wahrzunehmen, dass der N-Paar-Verlust als eine Form von Nachbarschaftskomponentenanalyse angesehen werden kann.
  • 4 zeigt weiterhin den Schritt 310 des Verfahrens 300 der 3 gemäß einer Ausführungsform der vorliegenden Erfindung. Insbesondere zeigt
  • 4 weiterhin ein Lernen einer Abstandsmetrik mit einem N-Paar-Verlust 400 gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Das tiefe faltende neuronale Netz 350 empfängt N Paare von Bildern 421 aus N unterschiedlichen Klassen auf einmal. In 4 zeigt das Bezugszeichen 401 Merkmale vor einem Trainieren mit einem N-Paar-Verlust und zeigt das Bezugszeichen 402 das Merkmal nach einem Trainieren mit einem N-Paar-Verlust.
  • In 4 gelten folgende Bezeichnungen:
  • x:
    eingegebenes Bild;
    f:
    ausgegebenes Merkmal;
    fi:
    Beispiel vom i-ten Paar;
    fi +:
    positives Beispiel vom i-ten Paar; wobei
    fi's unterschiedliche Klassenlabel haben.
  • Bei einer Ausführungsform kann ein N-Paar-Verlust wie folgt definiert werden:
  • 5 ist ein Diagramm, das den N-Paar-Verlust 400 der 4 gemäß einer Ausführungsform der vorliegenden Erfindung gegenüber einem herkömmlichen Dreiergruppen-Verlust 599 gemäß dem Stand der Technik graphisch zeigt.
  • Der herkömmliche Dreiergruppen-Verlust 599 ist äquivalent zu einem 2-Paar-Verlust.
  • Der 2-Paar-Verlust ist eine Verallgemeinerung für einen N-Paar-Verlust für N>2.
  • Es gelten die folgenden Gleichungen:
  • Die 6-8 zeigen ein Ablaufdiagramm eines Verfahrens 600 für ein tiefes Lernen einer Metrik mit einem N-Paar-Verlust gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Schritt 610 erfolgt ein Empfangen von N Paaren von Trainingsbeispielen und Klassenlabels für die Trainingsbeispiele, die einer Vielzahl von Klassen entsprechen. Jedes der N Paare enthält ein jeweiliges Ankerbeispiel und enthält weiterhin ein jeweiliges Nicht-Ankerbeispiel, die ein positives Trainingsbeispiel oder ein negatives Trainingsbeispiel sein können. Bei einer Ausführungsform kann jedes der N Paare der Trainingsbeispiele einer unterschiedlichen der Vielzahl von Klassen entsprechen. Bei einer Ausführungsform kann die Vielzahl von Klassen zufällig als eine Untergruppe aus einer Gruppe von Klassen ausgewählt werden, wobei die Gruppe von Klassen die Vielzahl von Klassen und eine oder mehrere andere Klassen enthält. Bei einer Ausführungsform gilt für die Gesamtanzahl der Vielzahl von Klassen wenigstens eines von folgendem: (i) sie ändert sich im Verlauf der Zeit, (ii) sie ist größer als ein Schwellenausmaß und (iii) sie ist unbekannt.
  • Bei einem Schritt 620 erfolgt ein Extrahieren von Merkmalen der N Paare durch Anwenden eines tiefen faltenden neuronalen Netzes auf die N Paare und auf die Klassenlabel.
  • Bei einem Schritt 630 erfolgt ein Berechnen, für jedes der N Paare basierend auf den Merkmalen, eines jeweiligen ähnlichen Maßes zwischen dem jeweiligen Ankerbeispiel und dem jeweiligen Nicht-Ankerbeispiel.
  • Bei einem Schritt 640 erfolgt ein Berechnen eines Ähnlichkeitswerts basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes der N Paare. Der Ähnlichkeitswert stellt eine oder mehrere Ähnlichkeiten zwischen allen Ankerpunkten und allen positiven Trainingsbeispielen in den N Paaren relativ zu einer oder mehreren Ähnlichkeiten zwischen allen der Ankerpunkte und allen negativen Trainingsbeispielen in den N Paaren dar.
  • Bei einer Ausführungsform enthält der Schritt 640 einen oder mehrere von Schritten 640A, 640B und 640C.
  • Beim Schritt 640A erfolgt ein Begrenzen einer Variablen (pi), die verwendet wird, um den jeweiligen Ähnlichkeitswert von jedem der N Paare von Trainingsbeispielen zu berechnen, durch wenigstens eine einer unteren Grenze und einer oberen Grenze, wobei die Variable eine relative Ähnlichkeit zwischen dem Ankerpunkt und den positiven Trainingsbeispielen in Bezug auf den Ankerpunkt und die negativen Trainingsbeispiele darstellt.
  • Beim Schritt 640B erfolgt ein Berechnen eines Gradienten eines Logarithmus des Ähnlichkeitswerts.
  • Beim Schritt 640C erfolgt ein Maximieren einer Zielfunktion für ein tiefes Lernen einer Metrik.
  • Bei einer Ausführungsform enthält der Schritt 640C einen Schritt 640C1.
  • Beim Schritt 640C1 erfolgt ein Maximieren eines Teilbereichs der Zielfunktion, der sich auf die Ankerpunkte bezieht, wobei die Zielfunktion den Teilbereich in Bezug auf die Ankerpunkte und wenigstens einen anderen Teilbereich in Bezug auf die Nicht-Ankerpunkte enthält.
  • Bei einem Schritt 650 erfolgt ein Maximieren des Ähnlichkeitswerts für das jeweilige Ankerbeispiel für jedes der N Paare, um die Trainingsbeispiele aus derselben der Vielzahl von Klassen in einem Verteilungsraum zusammenzuziehen, während die Trainingsbeispiele von unterschiedlichen der Vielzahl von Klassen im Verteilungsraum voneinander weggestoßen werden. Bei einer Ausführungsform kann der Schritt 650 N-1 Beispiele gleichzeitig von einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen im Verteilungsraum wegstoßen. Bei einer Ausführungsform kann der Schritt 650 gleichzeitig N-1 Beispiele in Richtung zu einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen im Verteilungsraum wegstoßen.
  • Bei einem Schritt 660 erfolgt ein Erzeugen einer Vorhersage unter Verwendung des tiefen faltenden neuronalen Netzes. Beispielsweise erfolgt ein Erzeugen einer Gesichtserkennungsvorhersage, einer Spracherkennungsvorhersage, einer Sprechererkennungsvorhersage und so weiter.
  • Bei einem Schritt 670 erfolgt ein Durchführen einer Aktion in Reaktion auf die Vorhersage. Wie es von einem Fachmann auf dem Gebiet in Erwägung gezogen wird, hängt die vorgenommene Aktion von der Implementierung ab. Beispielsweise kann ein Zugang zu einer Entität bzw. Einheit, einschließlich, aber nicht darauf beschränkt, einer Vorrichtung, einem System oder einer Anlage, in Reaktion auf die Vorhersage gewährt werden. Es ist wahrzunehmen, dass die vorangehenden Aktionen lediglich illustrativ sind und somit auch andere Aktionen durchgeführt werden können, wie es von einem Fachmann auf dem Gebiet ohne weiteres wahrgenommen wird, während der Sinngehalt der vorliegenden Erfindung beibehalten wird.
  • Bei einer Ausführungsform enthält der Schritt 670 einen Schritt 670A.
  • Beim Schritt 670A erfolgt ein Verifizieren eines Anwenders und eines Bereitstellens des Anwenderzugangs zu einer Entität basierend auf der Vorhersage.
  • Nun wird eine Beschreibung in Bezug auf ein überwachtes tiefes Lernen einer Metrik gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Die Beschreibung in Bezug auf ein überwachtes tiefes Lernen einer Metrik wird mit einer Beschreibung in Bezug auf einen kontrastiven Verlust und einen Dreiergruppen-Verlust beginnen.
  • Ein überwachtes tiefes Lernen einer Metrik zielt auf ein Lernen einer Einbettungsvektordarstellung der Daten unter Verwendung von tiefen neuronalen Netzen ab, die den Abstand zwischen Beispielen aus derselben Klassen klein und denjenigen aus unterschiedlichen Klassen groß erhält. Die Funktionen für kontrastiven Verlust und Dreiergruppen- bzw. Triple-Verlust sind verwendet worden, um tiefe einbettende Netze zu trainieren: k o n t r a s t i v m ( x i , x j ; f ( ; θ ) ) = { 1 2 f i f j 2 2 ,   w e n n   y i = y j 1 2 [ m f i f j 2 ] + 2 ,   w e n n   y i y j }
    Figure DE112016006360T5_0001
    t r i m ( x , x + , x ; f ( ; θ ) ) = [ f f + 2 2 f f 2 2 + m ] +
    Figure DE112016006360T5_0002
    wobei f(·;θ): χ → ℝK ein Einbettungskernel ist, der durch tiefe neuronale Netze definiert ist, und yi ∈{1, ..., L}'s die Label der Daten xi ∈ χ sind. Hierin werden x+ und x-verwendet, um jeweils positive und negative Beispiele von x darzustellen, d.h. y+ = y und y- ≠ y. [d]+ = max{0; d} und m > 0 ist ein Abstimmparameter für einen Spielraum. Der Einfachheit halber wird f = f(x) verwendet, um eine Einbettungsvektordarstellung von x zu bezeichnen, während sie alle hochgestellten und tiefgestellten Indizes übernimmt, wenn sie existieren. Zwei Zielfunktionen sind ähnlich in dem Sinne, dass sie beide Einbettungskernel optimieren, um den Abstand zwischen Beispielen im Labelraum zu dem Einbettungsraum zu erhalten, aber der Dreiergruppen-Verlust kann als eine Entspannung bzw. Lockerung des kontrastiven Verlusts angesehen werden, da er nur für den relativen Spielraum von Abständen zwischen positiven und negativen Paaren sorgt, aber nicht ihre Absolutwerte. Die Verlustfunktionen sind in Bezug auf die Kernelparameter θ unterscheidbar und sie können daher ohne weiteres als eine Zielfunktion zum Trainieren tiefer neuronaler Netze verwendet werden.
  • Obwohl es einfach klingt, ist ein Anwenden von Funktionen eines kontrastiven Verlusts oder eines Dreiergruppen-Verlusts, um tiefe neuronale Netze zu trainieren, die einen stark unterscheidbaren Einbettungsvektor zur Verfügung stellen können, nicht trivial, weil die Spielraum- bzw. Randbeschränkungen der obigen Verlustfunktionen für die meisten der Trainingspaare oder Dreiergruppen nach einigen Epochen bzw. Zeiträumen eines Trainierens auf einfache Weise erfüllt werden können. Um schlechte lokale Minima zu vermeiden, sind unterschiedliche Datenauswahlverfahren erforscht worden, wie beispielsweise ein Online-Dreiergruppenauswahlalgorithmus, der (semi-)harte negative, aber insgesamt positive Beispiele innerhalb jedes Mini-Batchs auswählt, der einige tausende von Exemplaren enthält. Obwohl der Datenauswahlschritt wesentlich ist, wird er uneffizienter für ein tiefes Lernen einer Metrik, da jede Datenprobe durch den Vorwärtsverlauf von tiefen neuronalen Netzen gehen sollte, um den Abstand zu berechnen.
  • Nun wird eine Beschreibung in Bezug auf einen N-Paar-Verlust für ein tiefes Lernen einer Metrik gemäß einer Ausführungsform der vorliegenden Erfindung angegeben. Ebenso wird ein theoretischer Einblick in Bezug darauf zur Verfügung gestellt, warum ein N-Paar-Verlust besser als andere existierende Verlustfunktionen für ein tiefes Lernen einer Metrik sind, indem Beziehungen zu diesen Verlustfunktionen gezeigt werden, wie beispielsweise einen Dreiergruppen-Verlust und einen Softmax-Verlust.
  • Nun wird eine Beschreibung eines N-Paar-Verlusts angegeben werden. Es sollen N Paare von Trainingsbeispielen { ( x i , x i + ) } i = 1 N
    Figure DE112016006360T5_0003
    und Labels { ( y i , y i = 1 + ) } i = 1 N
    Figure DE112016006360T5_0004
    betrachtet werden. Per Definition gilt y i = y i + ,
    Figure DE112016006360T5_0005
    und es wird vorausgesetzt, dass keines der Paare von Beispielen von derselben Klasse ist, d.h. yi ≠ yj ∀i ≠ j. Das Ähnlichkeitsmaß zwischen dem Ankerpunkt xi und den positiven oder negativen Punkten { x j + } i = 1 N
    Figure DE112016006360T5_0006
    ist definiert wie folgt: p ^ i j = exp ( f i f j + )
    Figure DE112016006360T5_0007
    und der Wert p i p ii
    Figure DE112016006360T5_0008
    ist eine normalisierte Eigenähnlichkeit d.h. p i j = p ^ i j l = 1 N p ^ i l = exp ( f i f j + ) l = 1 N exp ( f i f j + )
    Figure DE112016006360T5_0009
  • Es ist zu beachten, dass pi durch (0, 1) begrenzt ist und es die relative Ähnlichkeit zwischen einem Anker und positiven Punkten zu den Ähnlichkeiten zwischen Anker und negativen Punkten darstellt. Ein Maximieren des Werts von allen Ankerpunkten in einer N-Paar-Trainingsuntergruppe zieht die Beispiele aus derselben Klasse zusammen, aber gleichzeitig stößt es die Beispiele aus unterschiedlichen Klassen basierend auf ihrer relativen Unähnlichkeit weg, d.h. negative Beispiele in der Nähe eines Ankerpunkts werden weggestoßen werden, außer diejenigen, die bereits weit genug weg sind, wie es in 4 dargestellt ist. Nach allem wird der N-Paar-Verlust wie folgt definiert: N P a a r ( { ( x i , x i + ) } i = 1   N ) = 1 N i = 1 N log p i
    Figure DE112016006360T5_0010
  • Der Gradient von log pi w.r.t. fi, fi +, fj können wie folgt abgeleitet werden: log p i f i = f i + j = 1 N p i j f j +
    Figure DE112016006360T5_0011
    log p i f i + = ( 1 p i ) f i
    Figure DE112016006360T5_0012
    log p i f j + = p i j f i
    Figure DE112016006360T5_0013
    und der Gradient in Bezug auf θ kann durch eine Kettenregel berechnet werden.
  • TABELLE 1 zeigt einen Vergleich von Verlustfunktionen für ein tiefes Lernen einer Metrik. Ein 2-Paar-Verlust ist äquivalent zu einem Dreiergruppen-Verlust unter ∈ Konvergenzkriterien, während seine Wertfunktion eine Annäherung an diejenige eines N-Paar-Verlusts für N>2 ist. TABELLE 1
    Dreiergruppen-Verlust [ f f + 2 2 f f 2 2 + m ] +
    Figure DE112016006360T5_0014
    2-Paar -Verlust log [ exp ( f f + ) exp ( f f + ) + exp ( f f ) ]
    Figure DE112016006360T5_0015
    N-Paar-Verlust log [ exp ( f f + ) exp ( f f + ) + l = 1 N exp ( f i f l + ) ]
    Figure DE112016006360T5_0016
  • Nun wird eine Beschreibung in Bezug auf einen Vergleich eines N-Paar-Verlusts mit einem Dreiergruppen-Verlust angegeben werden.
  • Um die vorliegende Erfindung darzustellen, wird ein N-Paar-Verlust in Bezug auf einen Dreiergruppen-Verlust und einen Softmax-Verlust beschrieben.
  • In Bezug auf den Vergleich eines N-Paar-Verlusts mit einem Dreiergruppen-Verlust wird nun eine Beschreibung eines Dreiergruppen-Verlusts und eines 2-Paar-Verlusts angegeben werden.
  • Eine Beziehung zwischen Verlustfunktionen kann durch Zeigen der Äquivalenz zwischen zwei Gruppen von optimalen Einbettungskerneln in Bezug auf jede Verlustfunktion demonstriert werden (obwohl die optimalen Gruppen von Einbettungskerneln für zwei Verlustfunktionen äquivalent sind). Um fortzufahren, sind Optimalitätsbedingungen für Verlustfunktionen wie folgt definiert: F t r i m = { f | m t r i m ( x , x + , x ; f ) = 0, ( x , x + , x ) }
    Figure DE112016006360T5_0017
    F 2 P a a r Є = { f | 2 P a a r Є ( x 1 , x 1 + , x 2 , x 2 + ) = 0, ( x 1 , x 1 + , x 2 , x 2 + ) }
    Figure DE112016006360T5_0018
    wobei 2 Є Paar = 1 2 i = 1 2 [ log p i ] +
    Figure DE112016006360T5_0019
    und Einbettungskernel f sind, um eine Einheits-I2-Norm für sowohl 2-Paar- als auch Dreiergruppen-Verluste zu haben. Im Folgenden ist gezeigt, dass F t r i m  und  F 2 P a a r Є
    Figure DE112016006360T5_0020
    äquivalent sind, wenn Є = log σ ( m 2 ) .
    Figure DE112016006360T5_0021
    F t r i m F 2 P a a r Є :
    Figure DE112016006360T5_0022
    Man lässt f F t r i m
    Figure DE112016006360T5_0023
    sein und betrachtet irgendeine gültige 2-Paar-Probe { ( x 1 , x 1 + ) , ( x 2 , x 2 + ) } .
    Figure DE112016006360T5_0024
    Da ( x 1 , x 1 + x 2 + )
    Figure DE112016006360T5_0025
    eine gültige Dreiergruppen-Probe ausbildet, haben wir das Folgende: F t r i m ( x 1 , x 1 + , x 2 + ; f ) = 0 f 1 f 2 + 2 2 f 1 f 1 + 2 2 m ( 11 ) f 1 f 1 + f 1 f 1 + m 2 ( 12 ) σ f 1 f 1 + f 1 f 2 + σ ( m 2 ) ( 13 ) log p 1 l o g σ ( m 2 ) ( 14 )
    Figure DE112016006360T5_0026
    und dies beweist ∈ F 2 P a a r Є
    Figure DE112016006360T5_0027
  • F 2 P a a r Є F t r i m :
    Figure DE112016006360T5_0028
    Gleichermaßen lässt man f f 2 P a a r Є
    Figure DE112016006360T5_0029
    sein und betrachtet irgendeine gültige Dreiergruppen-Probe ( x 1 , x 1 + , x 2 + )
    Figure DE112016006360T5_0030
    Für irgendein x2 mit y 2 = y 2 +
    Figure DE112016006360T5_0031
    kann eine 2-Paar-Probe { ( x 1 , x 1 + ) , ( x 2 , x 2 + ) }
    Figure DE112016006360T5_0032
    gebildet werden, welches das Folgende erfüllt: 2 Є Paar ( x 1 , x 1 + ) , ( x 2 , x 2 + ) = 0 log p 1 Є = l o g σ ( m 2 ) ( 15 ) f 1 f 2 + 2 2 f 1 f 1 + 2 2 m ( 16 )
    Figure DE112016006360T5_0033
    wobei Details in der Gleichung (15) weggelassen sind, da sie Gleichung (11)-(14) rückwärts wiederholt. Schließlich beweist dies f F t r i m .
    Figure DE112016006360T5_0034
  • Nun wird eine Beschreibung in Bezug auf einen Einblick von einem Softmax-Verlust angegeben werden.
  • Der Softmax-Verlust mit L Klassen wird wie folgt geschrieben: s o f t m a x ( x i , y i ) = log P ( y i | x i ) P ( y i | x i ; f ( . ; θ , { w l } ) = exp ( f i w y i ) l = 1 L exp ( f i w l )
    Figure DE112016006360T5_0035
    wobei wI∈ℝK ein Gewichtungsvektor oder eine Schablone für eine Klasse I ist. Es ist oft ineffizient oder unpraktisch, die exakte Teilbereichsfunktion Z ( x i ) = l = 1 L e x p ( f i T W l )
    Figure DE112016006360T5_0036
    beim Trainieren zu berechnen, wenn L sehr groß ist. Für solche Fälle kann die exakte Teilbereichsfunktion durch zufälliges Auswählen einer kleinen Untergruppe N Schablonen angenähert werden, einschließlich einer Ground-Truth-Schablone bzw. Bodenwahrheits-Schablone wie es folgt: s o f t m a x N ( x i , y i ) = E s [ l o g P s ( y i | x i ) ] P s ( y i | x i ) = exp ( f i w y i ) Z s ( x i ) , Z s ( x i ) = l S exp ( f i w l )
    Figure DE112016006360T5_0037
    wobei S ⊂ {1, ..., L},|S| = N und yi ∈ S. Die lokale Teilbereichsfunktion ZS(x) ist kleiner als Z(x) für irgendein S und die Approximation bzw. Annäherung wird genauer mit größeren N (es ist zu beachten, dass fortgeschrittene Untergruppen-Abtastverfahren, wie beispielsweise eine Wichtigkeitsabtastung und eine Hash-Bildung verwendet werden können, um Approximationsfehler mit kleinem N zu reduzieren). Dies stellt einen wertvollen Einblick zur Verfügung, wenn ein N-Paar-Verlust verglichen wird mit einem 2-Paar-Verlust (oder einem M-Paar-Verlust für M < N), da der Eigenähnlichkeitswert eines 2-Paar-Verlusts als eine Annäherung bzw. Approximation zu demjenigen eines N-Paar-Verlusts angesehen werden kann. In anderen Worten kann irgendein Eigenähnlichkeitswert von einem N-Paar-Verlust mit denjenigen eines 2-Paar-Verlusts angenähert werden, aber nichts von ihnen ist eng: exp ( f i f i + ) l = 1 N exp ( f i f l + ) < exp ( f i f i + ) exp ( f i f i + ) + exp ( f i f j + )
    Figure DE112016006360T5_0038
    ∀j ∈ {1 ,...,N}\ {i}. Dies impliziert, dass der aktuelle Wert des N-Paar-Verlusts hinter dem überbewerteten Wert des Modells versteckt werden könnte, wenn es mit einem 2-Paar-Verlust trainiert wird, und daher ist es wahrscheinlich, dass das Modell suboptimal ist. Es ist bestimmt worden, dass der 2-Paar-Verlust signifikant nicht ganz zu den Trainingsdaten passt im Vergleich mit dem N-Paar-Verlust mit N > 2 oder Softmax-Verlust-Modellen.
  • Nun wird eine Beschreibung in Bezug auf Implikationen der vorliegenden Erfindung in Bezug auf verschiedene Beziehungen angegeben werden.
  • Die Implikationen dieser Beziehungen werden nachstehend zusammengefasst:
    1. 1. Die optimale Gruppe von Einbettungskerneln für einen 2-Paar-Verlust und einen Dreiergruppen-Verlust sind äquivalent und die Leistungsfähigkeit der Modelle, die mit diesen Verlustfunktionen trainiert sind, würden ähnlich sein.
    2. 2. Der M-Paar-Verlust ist eine Annäherung eines N-Paar-Verlusts für M < N.
  • Nun wird eine Beschreibung in Bezug auf eine L2-Norm-Regelung angegeben werden.
  • Es ist zu beachten, dass die Auswertungsfunktion bzw. Wertfunktion in der Gleichung (4) nicht dazu entwickelt ist, dass sie invariant gegenüber der Norm von Einbettungsvektoren ist. Anders ausgedrückt kann die Auswertungsfunktion derart ausgebildet sein, dass sie beliebig nahe zu 1 oder 0 ist, durch erneutes Skalieren von Einbettungsvektoren. Dies impliziert, dass die Eigenähnlichkeits-Auswertungsfunktion durch Erhöhen der Norm von Einbettungsvektoren maximiert werden kann, und zwar eher als ein Finden einer richtigen Richtung, und es ist wichtig, die Norm des Einbettungsvektors zu regulieren, um eine solche Situation zu vermeiden, z.B. I2-Normalisierung an Einbettungsvektoren, um einen Dreiergruppen-Verlust zu berechnen. Jedoch macht, für einen N-Paar-Verlust, ein Anwenden einer I2-Normalisierung eine Optimierung sehr schwierig, da der Eigenähnlichkeitswert durch exp ( 1 ) exp ( 1 ) + ( N 1 ) exp ( 1 )
    Figure DE112016006360T5_0039
    nach oben begrenzt ist (beispielsweise ist die obere Grenze 0,88, wenn N = 2, aber sie erniedrigt sich auf 0,105, wenn N = 64). Stattdessen regulieren wir durch Addieren von folgendem Strafausdruck bzw. Sanktionenausdruck λ 2 N i = 1 N f i 2 2 + f i + 2 2
    Figure DE112016006360T5_0040
    zu einer Zielfunktion, die die I2-Norm von Einbettungsvektoren dahingehend fördert, klein zu sein.
  • Nun wird eine Beschreibung in Bezug auf wettbewerbliche/kommerzielle Werte der durch die vorliegende Erfindung erreichten Lösung angegeben werden.
  • Die vorliegende Erfindung lässt ein effizientes Trainieren durch (1) Entfernen von harter negativer gezielter Datensuche, (2) Entfernen von Berechnung und einer starken Softmax-Schicht eines Parameters und (3) eine schnellere Konvergenz als bei früheren Ansätzen eines tiefen Lernens einer Metrik zu.
  • Die vorliegende Erfindung ist effektiv für Technologien, wie beispielsweise eine Gesichtserkennung, wo die Anzahl von ausgegebenen Klassen (z.B. Identität) extrem groß ist.
  • Die vorliegende Erfindung ist effektiv für ein onlinemäßiges Lernen, wo die Anzahl von ausgegebenen Klassen unbekannt ist oder sich im Verlauf der Zeit ändert.
  • Eher als ein Verwenden von zwei Paaren von Beispielen mit einer harten negativen gezielten Suche werden N Paare von Beispielen aus einer zufälligen Untergruppe von Klassen verwendet, die ein Wegstoßen von Beispielen aus unterschiedlichen Klassen schnell ermöglicht.
  • Hierin beschriebene Ausführungsformen können gänzlich Hardware sein, gänzlich Software sein oder sowohl Hardware- als auch Software-Elemente enthalten. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, einen Mikrocode, etc. enthält, aber nicht darauf beschränkt ist.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computernutzbaren oder computerlesbaren Medium zugreifbar ist, das einen Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder irgendeinem Anweisungsausführungssystem zur Verfügung stellt. Ein computernutzbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit dem Anweisungsausführungssystem, der Vorrichtung oder dem Gerät speichert, kommuniziert, ausbreitet oder transportiert. Das Medium kann magnetisch, optisch, elektronisch, elektromagnetisch, Infrarot oder ein Halbleitersystem (oder eine Vorrichtung oder ein Gerät) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium enthalten, wie beispielsweise einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine entfernbare Computerdiskette, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), eine steife bzw. feste Magnetplatte und eine optische Platte, etc.
  • Jedes Computerprogramm kann konkret in einem maschinenlesbaren Speichermedium oder einer Vorrichtung (z.B. Programmspeicher oder Magnetplatte) gespeichert sein, das oder die durch einen allgemeinen oder speziellen programmierbaren Computer lesbar ist, zum Konfigurieren und Steuern eines Betriebs eines Computers, wenn das Speichermedium oder die Vorrichtung durch den Computer gelesen wird, um die hierin beschriebenen Prozeduren durchzuführen. Das erfinderische System kann auch derart angesehen werden, dass es in einem computerlesbaren Speichermedium verkörpert ist, das konfiguriert ist mit einem Computerprogramm, wobei das so konfigurierte Speichermedium veranlasst, dass ein Computer auf eine spezifische und vordefinierte Weise arbeitet, um die hierin beschriebenen Funktionen durchzuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen eines Programmcodes geeignet ist, kann wenigstens einen Prozessor enthalten, der direkt oder indirekt mit Speicherelementen über einen Systembus gekoppelt ist. Die Speicherelemente können eine lokalen Speicher enthalten, der während einer aktuellen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cache-Speicher, die eine temporäre Speicherung von wenigstens etwas von einem Programmcode zur Verfügung stellen, um die Anzahl von Malen zu reduzieren, für welche ein Code aus einem Massenspeicher während einer Ausführung ausgelesen wird. Eingabe/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht darauf beschränkt, Tastaturen, Anzeigen, Zeigevorrichtungen, etc.) können mit dem System entweder direkt oder durch dazwischenliegende I/O-Steuerungen gekoppelt sein.
  • Netzwerkadapter können auch mit dem System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem mit anderen Datenverarbeitungssystemen oder entfernten Druckern oder Speichervorrichtungen über intervenierende private oder öffentliche Netzwerke gekoppelt wird. Modems, ein Kabelmodem und Ethernet-Karten sind nur einige der aktuell verfügbaren Typen von Netzwerkadaptern.
  • Eine Bezugnahme in der Beschreibung auf „eine einzige Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, die in Verbindung mit der Ausführungsform beschrieben sind, in wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit sind die Erscheinungsformen der Phrase „bei einer einzigen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Beschreibung erscheinen, nicht notwendigerweise alle bezugnehmend auf dieselbe Ausführungsform.
  • Es ist wahrzunehmen, dass beabsichtigt ist, dass die Verwendung von irgendetwas von dem folgenden „/“, „und/oder“ und „wenigstens“, wie beispielsweise in den Fällen von „A/B“, „A und/oder B“ und "wenigstens eines von „A und B“ die Auswahl von nur der ersten aufgelisteten Option (A) oder die Auswahl von nur der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfasst. Als ein weiteres Beispiel ist in den Fällen von „A, B und/oder C“ und „wenigstens eines von A, B und C“ beabsichtigt, dass eine solche Phrasierung die Auswahl von nur der ersten aufgelisteten Option (A) oder die Auswahl von nur der zweiten aufgelisteten Option (B) oder die Auswahl von nur der dritten aufgelisteten Option (C) oder die Auswahl von nur der ersten und der zweiten aufgelisteten Option (A und B) oder die Auswahl von nur der ersten und der dritten aufgelisteten Option (A und C) oder die Auswahl von nur der zweiten und der dritten aufgelisteten Option (B und C) oder die Auswahl von allen drei Optionen (A und B und C) umfasst. Dies kann, wie es von einem Fachmann davon und aus zugehörigem Stand der Technik ohne weiteres klar wird, für so viele Elemente erweitert werden, wie aufgelistet sind.
  • Das Vorangehende ist derart zu verstehen, dass es in jederlei Hinsicht illustrativ und beispielhaft ist, aber nicht beschränkend, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern vielmehr aus den Ansprüchen, wie sie gemäß der vollen Breite interpretiert werden, die durch die Patentgesetze zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Hat man somit Aspekte der Erfindung mit den Details und Besonderheit beschrieben, die durch die Patentgesetze erforderlich sind, ist das, was beansprucht und erwünscht geschützt durch die Buchstaben des Patentgesetzes ist, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62291025 [0001]

Claims (20)

  1. Computerimplementiertes Verfahren, umfassend: Empfangen, durch einen Prozessor, von N Paaren von Trainingsbeispielen und Klassenlabels für die Trainingsbeispiele, die einer Vielzahl von Klassen entsprechen, wobei jedes der N Paare ein jeweiliges Ankerbeispiel enthält und weiterhin ein jeweiliges Nicht-Ankerbeispiel enthält, die ein positives Trainingsbeispiel oder ein negatives Trainingsbeispiel sein können; Extrahieren, durch den Prozessor, von Merkmalen der N Paare durch Anwenden eines tiefen faltenden neuronalen Netzes auf die N Paare und auf die Klassenlabel; Berechnen, durch den Prozessor für jedes der N Paare basierend auf den Merkmalen, eines jeweiligen Ähnlichkeitsmaßes zwischen dem jeweiligen Ankerbeispiel und dem jeweiligen Nicht-Ankerbeispiel; Berechnen, durch den Prozessor, eines Ähnlichkeitswerts basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes der N Paare, wobei der Ähnlichkeitswert eine oder mehrere Ähnlichkeiten zwischen allen Ankerpunkten und alle positiven Trainingsbeispielen in den N Paaren relativ zu einer oder mehreren Ähnlichkeiten zwischen allen der Ankerpunkte und allen negativen Trainingsbeispielen in den N Paaren darstellt; und Maximieren, durch den Prozessor, des Ähnlichkeitswerts für das jeweilige Ankerbeispiel für jedes der N Paare, um die Trainingsbeispiele aus einer selben der Vielzahl von Klassen in einem Verteilungsraum zusammenzuziehen, während die Trainingsbeispiele aus unterschiedlichen der Vielzahl von Klassen im Verteilungsraum weggestoßen werden.
  2. Computerimplementiertes Verfahren nach Anspruch 1, wobei jedes der N Paare von Trainingsbeispielen einer anderen der Vielzahl von Klassen entspricht.
  3. Computerimplementiertes Verfahren nach Anspruch 2, wobei die Vielzahl von Klassen zufällig ausgewählt wird als eine Untergruppe aus einer Gruppe von Klassen und wobei die Gruppe von Klassen die Vielzahl von Klassen und eine oder mehrere andere Klassen enthält.
  4. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Maximierungsschritt N-1 Beispiele aus einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen im Verteilungsraum gleichzeitig wegstoßen kann.
  5. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Maximierungsschritt N-1 Beispiele in Richtung zu einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen im Verteilungsraum gleichzeitig wegstoßen kann.
  6. Computerimplementiertes Verfahren nach Anspruch 1, wobei das tiefe faltende neuronale Netz konfiguriert ist, um Einbettungsvektoren zu enthalten, die trainiert werden, um eine Gruppe von Beschränkungen an jeder Verlustfunktion in einer Gruppe von Verlustfunktionen zu erfüllen, wobei das tiefe faltende neuronale Netz unter Verwendung der Gruppe von Verlustfunktionen trainiert wird.
  7. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Maximierungsschritt ein Berechnen eines Gradienten eines Logarithmus des Ähnlichkeitswerts umfasst.
  8. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Maximierungsschritt eine Zielfunktion für ein tiefes Lernen einer Metrik maximiert.
  9. Computerimplementiertes Verfahren nach Anspruch 1, wobei eine Gesamtanzahl der Vielzahl von Klassen wenigstens eines von folgendem ist: (i) sich im Verlaufe der Zeit ändernd, (ii) größer als ein Schwellenmaß und (iii) unbekannt.
  10. Computerimplementiertes Verfahren nach Anspruch 1, weiterhin umfassend ein Verifizieren eines Anwenders und ein Bereitstellen des Anwenderzugangs zu einer Entität bzw. Einheit basierend auf einer unter Verwendung des tiefen faltenden neuronalen Netzes erzeugten Vorhersage.
  11. Nichtflüchtiger Artikel einer Herstellung, der konkret ein computerlesbares Programm verkörpert, das dann, wenn es ausgeführt wird, veranlasst, dass ein Computer die Schritte des Anspruchs 1 durchführt.
  12. System, umfassend: einen Prozessor, der konfiguriert ist, um: N Paare von Trainingsbeispielen und Klassenlabels für die Trainingsbeispiele, die einer Vielzahl von Klassen entsprechen, zu empfangen, wobei jedes der N Paare ein jeweiliges Ankerbeispiel enthält und weiterhin ein jeweiliges Nicht-Ankerbeispiel enthält, die ein positives Trainingsbeispiel oder ein negatives Trainingsbeispiel sein können; Merkmale der N Paare durch Anwenden eines tiefen faltenden neuronalen Netzes auf die N Paare und auf die Klassenlabel zu extrahieren; für jedes der N Paare basierend auf den Merkmalen ein jeweiliges Ähnlichkeitsmaß zwischen dem jeweiligen Ankerbeispiel und dem jeweiligen Nicht-Ankerbeispiel zu berechnen; einen Ähnlichkeitswert basierend auf dem jeweiligen Ähnlichkeitsmaß für jedes der N Paare zu berechnen, wobei der Ähnlichkeitswert eine oder mehrere Ähnlichkeiten zwischen allen Ankerpunkten und allen positiven Trainingsbeispielen in den N Paaren relativ zu einer oder mehreren Ähnlichkeiten zwischen allen der Ankerpunkte und allen negativen Trainingsbeispielen in den N Paaren darstellt; und den Ähnlichkeitswert für das jeweilige Ankerbeispiel für jedes der N Paare zu maximieren, um die Trainingsbeispiele aus einer selben der Vielzahl von Klassen in einem Verteilungsraum zusammenzuziehen, während die Trainingsbeispiele aus unterschiedlichen der Vielzahl von Klassen im Verteilungsraum weggestoßen werden.
  13. System nach Anspruch 12, wobei jedes der N Paare der Trainingsbeispiele einer anderen der Vielzahl von Klassen entspricht.
  14. System nach Anspruch 13, wobei der Prozessor konfiguriert ist, um die Vielzahl von Klassen zufällig als eine Untergruppe aus einer Gruppe von Klassen auszuwählen und wobei die Gruppe von Klassen die Vielzahl von Klassen und eine oder mehrere andere Klassen enthält.
  15. System nach Anspruch 12, wobei der Prozessor konfiguriert ist, um im Verteilungsraum N-1 Beispiele von einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen in Reaktion auf eine Maximierung des Ähnlichkeitswerts gleichzeitig wegzustoßen.
  16. System nach Anspruch 12, wobei der Prozessor konfiguriert ist, um im Verteilungsraum N-1 Beispiele in Richtung zu einer einzigen Referenzprobe unter den N Paaren von Trainingsbeispielen in Reaktion auf eine Maximierung des Ähnlichkeitswerts gleichzeitig wegzustoßen.
  17. System nach Anspruch 12, wobei das tiefe faltende neuronale Netz konfiguriert ist, um Einbettungsvektoren zu enthalten, die trainiert werden, um eine Gruppe von Beschränkungen an jeder Verlustfunktion in einer Gruppe von Verlustfunktionen zu erfüllen, wobei das tiefe faltende neuronale Netz unter Verwendung der Gruppe von Verlustfunktionen trainiert wird.
  18. System nach Anspruch 12, wobei der Prozessor konfiguriert ist, um den Ähnlichkeitswert durch Berechnen eines Gradienten eines Logarithmus des Ähnlichkeitswerts zu maximieren.
  19. System nach Anspruch 12, wobei eine Gesamtanzahl der Vielzahl von Klassen wenigstens eines von folgendem ist (i) sich im Verlaufe der Zeit ändernd, (ii) größer als ein Schwellenmaß und (iii) unbekannt.
  20. System nach Anspruch 12, wobei der Prozessor weiterhin konfiguriert ist, um einen Anwender zu verifizieren und den Anwenderzugang zu einer Entität bzw. Einheit zur Verfügung zu stellen, und zwar basierend auf einer unter Verwendung des tiefen faltenden neuronalen Netzes erzeugten Vorhersage.
DE112016006360.1T 2016-02-04 2016-12-21 Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust Pending DE112016006360T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662291025P 2016-02-04 2016-02-04
US62/291,025 2016-02-04
US15/385,283 US10565496B2 (en) 2016-02-04 2016-12-20 Distance metric learning with N-pair loss
US15/385,283 2016-12-20
PCT/US2016/067946 WO2017136060A1 (en) 2016-02-04 2016-12-21 Improving distance metric learning with n-pair loss

Publications (1)

Publication Number Publication Date
DE112016006360T5 true DE112016006360T5 (de) 2018-10-11

Family

ID=59497846

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016006360.1T Pending DE112016006360T5 (de) 2016-02-04 2016-12-21 Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust

Country Status (4)

Country Link
US (1) US10565496B2 (de)
JP (1) JP2019509551A (de)
DE (1) DE112016006360T5 (de)
WO (1) WO2017136060A1 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10649970B1 (en) 2013-03-14 2020-05-12 Invincea, Inc. Methods and apparatus for detection of functionality
US9690938B1 (en) 2015-08-05 2017-06-27 Invincea, Inc. Methods and apparatus for machine learning based malware detection
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network
WO2017223294A1 (en) 2016-06-22 2017-12-28 Invincea, Inc. Methods and apparatus for detecting whether a string of characters represents malicious activity using machine learning
JP7001672B2 (ja) * 2016-07-14 2022-01-19 マジック リープ, インコーポレイテッド 虹彩識別のためのディープニューラルネットワーク
US10972495B2 (en) * 2016-08-02 2021-04-06 Invincea, Inc. Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US10474883B2 (en) * 2016-11-08 2019-11-12 Nec Corporation Siamese reconstruction convolutional neural network for pose-invariant face recognition
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
US10387749B2 (en) * 2017-08-30 2019-08-20 Google Llc Distance metric learning using proxies
WO2019084419A1 (en) * 2017-10-27 2019-05-02 Google Llc NON-SUPERVISED LEARNING OF SEMANTIC AUDIO REPRESENTATIONS
KR102535411B1 (ko) 2017-11-16 2023-05-23 삼성전자주식회사 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN108922542B (zh) * 2018-06-01 2023-04-28 平安科技(深圳)有限公司 样例三元组的获取方法、装置、计算机设备以及存储介质
CN109256139A (zh) * 2018-07-26 2019-01-22 广东工业大学 一种基于Triplet-Loss的说话人识别方法
US11501157B2 (en) 2018-07-30 2022-11-15 International Business Machines Corporation Action shaping from demonstration for fast reinforcement learning
US11734575B2 (en) 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
US11537872B2 (en) 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
US11636123B2 (en) * 2018-10-05 2023-04-25 Accenture Global Solutions Limited Density-based computation for information discovery in knowledge graphs
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN110032645B (zh) * 2019-04-17 2021-02-09 携程旅游信息技术(上海)有限公司 文本情感识别方法、系统、设备以及介质
JP7262290B2 (ja) * 2019-04-26 2023-04-21 株式会社日立製作所 特徴ベクトルを生成するシステム
US11720790B2 (en) 2019-05-22 2023-08-08 Electronics And Telecommunications Research Institute Method of training image deep learning model and device thereof
KR102522894B1 (ko) * 2019-05-22 2023-04-18 한국전자통신연구원 이미지 딥러닝 모델 학습 방법 및 장치
CN110532880B (zh) * 2019-07-29 2022-11-22 深圳大学 样本筛选及表情识别方法、神经网络、设备及存储介质
KR102635606B1 (ko) * 2019-11-21 2024-02-13 고려대학교 산학협력단 거리 학습을 이용한 사용자간 유사도 반영 특징 추출 기반의 사용자 독립적 뇌-컴퓨터 인터페이스 장치 및 이를 이용한 태스크 분류 방법
CN111339891A (zh) * 2020-02-20 2020-06-26 苏州浪潮智能科技有限公司 一种图像数据的目标检测方法及相关装置
CN111400591B (zh) * 2020-03-11 2023-04-07 深圳市雅阅科技有限公司 资讯信息推荐方法、装置、电子设备及存储介质
CN111667050B (zh) * 2020-04-21 2021-11-30 佳都科技集团股份有限公司 度量学习方法、装置、设备及存储介质
CN113742288A (zh) * 2020-05-29 2021-12-03 伊姆西Ip控股有限责任公司 用于数据索引的方法、电子设备和计算机程序产品
US20210374553A1 (en) * 2020-06-02 2021-12-02 Salesforce.Com, Inc. Systems and methods for noise-robust contrastive learning
JP7425445B2 (ja) 2020-07-17 2024-01-31 日本電信電話株式会社 特徴学習装置、特徴抽出装置、特徴学習方法及びプログラム
CN112329833B (zh) * 2020-10-28 2022-08-12 浙江大学 一种基于球面嵌入的图像度量学习方法
KR102577342B1 (ko) * 2021-01-20 2023-09-11 네이버 주식회사 거리 지표 학습을 위해 메모리 기반의 가상 클래스로 학습하는 컴퓨터 시스템 및 그의 방법
CN113408299B (zh) * 2021-06-30 2022-03-25 北京百度网讯科技有限公司 语义表示模型的训练方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity
US9183173B2 (en) 2010-03-02 2015-11-10 Microsoft Technology Licensing, Llc Learning element weighting for similarity measures
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
US10229190B2 (en) 2013-12-31 2019-03-12 Samsung Electronics Co., Ltd. Latent semantic indexing in application classification
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network

Also Published As

Publication number Publication date
JP2019509551A (ja) 2019-04-04
WO2017136060A1 (en) 2017-08-10
US20170228641A1 (en) 2017-08-10
US10565496B2 (en) 2020-02-18

Similar Documents

Publication Publication Date Title
DE112016006360T5 (de) Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE112017006166T5 (de) Verfahren und system zur erzeugung eines multi-relevanten labels
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE102017011260A1 (de) Markieren großer Bilder unter Nutzung einer Bild-mit-Thema-Einbettung
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102017011262A1 (de) Themenverknüpfung und Markierung für dichte Bilder
DE112016005006T5 (de) Automatische videozusammenfassung
DE112016005062T5 (de) Kaskadiertes neuronales netzwerk mit massstabsabhängiger poolbildung zur objekterfassung
DE202016008253U1 (de) Komprimierte rekurrente neuronale Netzwerkmodelle
DE112020005610T5 (de) Identifizieren von optimalen gewichtungen zum verbessern einervorhersagegenauigkeit bei methoden für maschinelles lernen
DE202017007528U1 (de) Differenzmetrik für auf maschinellem Lernen basierende Verarbeitungssysteme
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
CN107545279B (zh) 基于卷积神经网络与加权核特征分析的图像识别方法
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102020211851A1 (de) Auf bayes&#39;scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE112021005904T5 (de) System zur gesichtsbewussten reidentifizierung von personen
DE112019007393T5 (de) Verfahren und System zum Trainieren eines Modells zur Bilderzeugung
DE102022105748A1 (de) Effiziente optimierung für den einsatz und die ausführung neuronaler netze
DE102018127802A1 (de) Hybrider klassifikator eines gepulsten neuronalen netzwerks und einer support-vektor-maschine
DE102018206108A1 (de) Generieren von Validierungsdaten mit generativen kontradiktorischen Netzwerken
DE112021005910T5 (de) Schnellere abdeckungskonvergenz mit automatischer testparameterabstimmung bei eingeschränkter zufallsverifikation

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication