DE112022002037T5

DE112022002037T5 - Lernen von ordinalen repräsentationen für tiefe, auf verstärkungslernen basierende objektlokalisierung

Info

Publication number: DE112022002037T5
Application number: DE112022002037.7T
Authority: DE
Inventors: Shaobo HAN; Renqiang Min; Tingfeng LI
Original assignee: NEC Laboratories America Inc
Current assignee: NEC LABORATORIES AMERICA, INC., US
Priority date: 2021-04-08
Filing date: 2022-04-08
Publication date: 2024-01-25
Also published as: JP2024514813A; WO2022217122A1

Abstract

Ein auf Verstärkungslernen basierender Ansatz für das Problem der Lokalisierung von Abfrageobjekten, bei dem ein Agent darauf trainiert wird, Objekte von Interesse zu lokalisieren, die durch eine kleine Beispielmenge spezifiziert sind. Wir lernen ein übertragbares Belohnungssignal, das unter Verwendung der Beispielmenge durch ordinales metrisches Lernen formuliert wird. Es ermöglicht die Anpassung der Strategie an neue Umgebungen, in denen die Belohnungssignale nicht ohne weiteres verfügbar sind, und übertrifft damit Feinabstimmungsansätze, die auf beschriftete Bilder beschränkt sind. Darüber hinaus ermöglicht die übertragbare Belohnung die Wiederverwendung des trainierten Agenten für neue Aufgaben, wie z.B. die Verfeinerung von Annotationen oder die selektive Lokalisierung von mehreren gemeinsamen Objekten in einer Reihe von Bildern. Experimente mit dem beschädigten MNIST-Datensatz und dem CU-Birds-Datensatz zeigen die Wirksamkeit unseres Ansatzes.

Description

TECHNISCHES GEBIET
Diese Offenbarung bezieht sich allgemein auf die Bildverarbeitung und - erkennung. Insbesondere werden Systeme und Verfahren zum Erlernen ordinaler Repräsentationen für die auf tiefem Verstärkungslernen basierende Objektlokalisierung beschrieben.
HINTERGRUND
Wie Fachleute wissen, ist es in vielen Bereichen oft von Interesse, eine oder mehrere Arten von gemeinsamen Objekten in einem Bild oder einem Satz von Bildern automatisch zu erkennen. Insbesondere erfordern vollständig überwachte Methoden zur Objekterkennung oder -lokalisierung eine große Menge an menschlichen Annotationen (z. B. Bounding Boxes um die Zielobjekte) beim Training, was teuer und in kostensensitiven Anwendungen unpraktisch ist. In der verteilten faseroptischen Sensorik oder der digitalen Pathologie beispielsweise sind qualitativ hochwertige Annotationen von erfahrenen menschlichen Experten sehr begrenzt, während schwach überwachte Objekterkennungs- oder -lokalisierungsverfahren (WSOD oder WSOL) nur Annotationen auf Bildebene (Klassen) erfordern. Diese gelernte(n) Annotation(en) ist/sind jedoch oft partiell und beziehen sich auf eine besonders unterscheidungskräftige Region des Zielobjekts anstelle der gesamten Regionen. Schließlich sind bestehende Ansätze für die Ko-Lokalisierung nicht überwacht, was zu unerwünschten gemeinsamen Objekten führen kann, wenn der Bilddatensatz mehr als eine Art von gemeinsamen Objekten enthält
ZUSAMMENFASSUNG
Ein Fortschritt im Stand der Technik wird durch Aspekte der vorliegenden Offenbarung erzielt, die sich auf Systeme und Verfahren zur Lösung der oben genannten Probleme beziehen. Vorteilhafterweise erfordert unser erfinderischer Ansatz nur einen „Ausgangsdatensatz“ („Seed-Datensatz“) mit genauen Bounding-Box-Kommentaren.
Im Gegensatz zu traditionellen, vollständig überwachten Ansätzen zur Objekterkennung und -lokalisierung benötigt unser Algorithmus einen viel kleineren Datensatz für die Ausgangsdaten. Ausgehend vom Ausgangsdatensatz wird eine große Anzahl von perturbierten Boxes abgetastet, während der Reinforcement Learning Agent die Bildumgebung erkundet. Die Präferenz für diese perturbierten Boxes wird natürlich auf der Grundlage der Schnittmenge über die Union (intersection over the union IoU) mit der Bounding Box der Grundwahrheit des Bildes bestimmt. Wir kodieren diese Informationen in einer ordinalen Repräsentation, die gemeinsam mit einem Reinforcement Learning Annotation Agent trainiert wird. Bestehende Methoden zur Objektlokalisierung auf der Basis von Reinforcement Learning können diese Informationen nicht kodieren und sind daher wesentlich ineffizienter.
Im Gegensatz zu WSOD/WSOL-Methoden konzentriert sich unser Ansatz ausdrücklich auf die Ähnlichkeit zwischen gemeinsamen Objekten in verschiedenen Bildern innerhalb derselben Bildklasse und nicht auf die Unterscheidung zwischen verschiedenen Klassen. Klassenbezeichnungen auf Bildebene können einbezogen werden, sind aber nicht zwingend erforderlich.
Insbesondere wird jede Mehrdeutigkeit in Bezug auf die Klasse des Zielobjekts bei der Ko-Lokalisierung vermieden, indem das Zielobjekt im Ausgangsdatensatz explizit benannt wird. Der Algorithmus arbeitet nach dem Prinzip „Human-in-the-Loop“. Wenn ein Mensch einen Bilddatensatz erhält, beginnt er damit, einige Bilder zu annotieren, und der Reinforcement-Learning-Agent annotiert die restlichen Bilder automatisch nach den Anweisungen des Menschen.
Unser erfinderischer Ansatz ist motiviert durch die Herausforderungen, die sich bei der Annotation von Bilddaten in der Fasersensorik ergeben, die sehr zeitaufwändig und mühsam ist. Unsere Methode kann jedoch auch auf andere Datenmodalitäten/Anwendungen angewendet werden, z. B. Bilder in der digitalen Pathologie, Objektverfolgung in Videos und zeitliche Lokalisierung zur Erkennung von Schallereignissen usw.
Operativ betrachten wir jedes Bild als eine Umgebung, mit der ein Annotationsagent interagieren kann, indem er die Bounding Box bewegt. Die erlernte Lokalisierungsstrategie muss auf neue Umgebungen (Bilder) verallgemeinerbar sein. Um die Weitergabe von Informationen aus mehreren Lernphasen und über verschiedene Bilder hinweg zu erleichtern, wird die Belohnung nicht direkt über IoU, sondern indirekt über Abstände auf der gelernten latenten Repräsentation vergeben.
Mit unserem innovativen Ansatz werden ordinales Repräsentationslernen und tiefes Reinforcement Learning (RL) mit gegenseitigem Nutzen gemeinsam trainiert. Das Modell des Repräsentationslernens wird nicht nur auf genau annotierten Daten, sondern auch auf erweiterten Daten mit Perturbationen trainiert. Bestehende Methoden des Repräsentationslernens führen nicht direkt zu kompakteren Clustern auf den korrekt annotierten Daten. Daher kann die Belohnung nur für die Originaldaten definiert werden, nicht aber für ihre latente Einbettung. In unserem Ansatz wird eine latente Einbettungsfunktion trainiert, um die ordinale Beziehung zwischen einem Paar unvollkommener Annotationen auf demselben Bild zu erhalten. Mit anderen Worten, die Einbettung einer Bounding Box mit höherem IoU liegt näher an der Einbettung der Bounding Box der Grundwahrheit als die einer Box mit niedrigerem IoU. Folglich kann die RL-Belohnung auf der Grundlage des Einbettungsabstands definiert werden.
Wenn die ordinale Einbettung separat mit dem tiefen RL-Agenten trainiert wird, werden die perturbierten Proben nach dem Zufallsprinzip generiert, die Mehrheit der Proben würde nicht auf dem Suchpfad des RL-Agenten liegen und wäre daher redundant und ineffizient. In dem vorgeschlagenen gemeinsamen Trainingsschema werden die Boxenpaare abgetastet, wenn der RL-Agent den Einbettungsraum erkundet, so dass die ordinale Einbettung effizienter trainiert werden kann. In verschiedenen Phasen des Lernens wird die Überwachung angepasst. Das Modell lernt, einem Paar besser annotierter Boxen in einer späteren Phase des Trainings den Vorzug zu geben.
Als Nebenprodukt liefert die Einbettungsdistanz auch eine Metrik zur Bewertung der Qualität der Annotation. Bei einem Satz von Bildern mit qualitativ hochwertigen und weniger hochwertigen Annotationen fallen die gut annotierten Daten in kompakte Cluster in unserem ordinalen Einbettungsraum. Daher können sie ausgewählt werden. Die Qualität der Annotationen kann nach dem Abstand zu den Clusterschwerpunkten der gefilterten Daten eingestuft werden.
Schließlich ermöglichen unsere auf rekurrenten neuronalen Netzen („recurrent neural network“, RNN) basierenden Methoden Untersuchungen ausgehend vom gesamten Bild. Dadurch ist unser Ansatz auch auf große Einzelbild-Kolokalisierungsprobleme anwendbar, die mehrere gemeinsame Objekte derselben Klasse enthalten, selbst wenn die Zielobjekte unterschiedlich groß und die Bilder hochauflösend sind. Der interaktive Prozess zwischen Mensch und RL Annotator funktioniert wie folgt. Ein Mensch beginnt den Annotationsprozess, indem er ein oder zwei Zielobjekte von Interesse beschriftet. Der Annotationsagent beginnt mit der Betrachtung des gesamten Bildes in einer groben Auflösung und folgt einem Top-Down-Schema, um die Objekte in den restlichen Bildern durch eine Abfolge von rekursiven Aktionen zu lokalisieren. Der Mensch kann die ausgewählten Objekte akzeptieren oder ablehnen und/oder den Annotator erneut starten, bis keine neuen Objekte mehr gefunden werden.
KURZE BESCHREIBUNG DER ZEICHNUNG
Ein vollständigeres Verständnis der vorliegenden Offenbarung kann durch Bezugnahme auf die beiliegende Zeichnung erreicht werden, in der:

1 ist ein schematisches Diagramm, das den gemeinsamen Trainingsrahmen des Annotationsagenten und der Datendarstellung gemäß den Aspekten der vorliegenden Offenbarung veranschaulicht;
2 ist ein schematisches Flussdiagramm, das einen Modelltrainingsprozess gemäß den Aspekten der vorliegenden Offenbarung zeigt;
3 ist ein schematisches Diagramm, das die Anwendung 1 - menschengeführte automatische Annotation von Fasersensor-Datensätzen - veranschaulicht, wobei gut annotierte Daten dem nachgeschalteten Training eines Ereignisklassifikators gemäß den Aspekten der vorliegenden Offenbarung zugute kommen können; und
4 ist ein schematisches Diagramm, das die Anwendung 2 - Bewertung und Verbesserung der Qualität von Arbeitskräften für eine auf Crowdsourcing basierende Plattform für Bildkommentare - veranschaulicht, wobei qualitativ hochwertige Kommentare identifiziert und Daten geringer Qualität durch den geschulten Agenten gemäß den Aspekten der vorliegenden Offenbarung korrigiert werden können;
5 ist ein schematisches Diagramm, das das Erlernen der ordinalen Darstellung des Einbettungsnetzes und des Triplettverlustes gemäß den Aspekten der vorliegenden Offenbarung veranschaulicht;
ist ein schematisches Diagramm, das die ordinale Einbettung auf der Grundlage von Belohnungs- und Aktionsräumen gemäß den Aspekten der vorliegenden Offenbarung veranschaulicht;
7 ist ein schematisches Diagramm, das eine vollständige Architektur eines rekurrenten neuronalen Netzes (RNN) auf der Basis von RL-Agenten und ordinalem Repräsentationslernen gemäß den Aspekten der vorliegenden Offenbarung zeigt;
8(A), 8(B) und 8(C) veranschaulichen die Aktionssequenz des RL-Agenten und die Konvergenz des Lernens sowie die Diagramme der Ko-Lokalisierung der Ziffern 4 vor einem unübersichtlichen Hintergrund und die Konvergenz des Einbettungsabstands zur Grundwahrheit gemäß den Aspekten der vorliegenden Offenbarung;
9 ist ein Datensatz, der die feste Einbettung mit der Trainingseinbettung während RL-Aktualisierungen gemäß den Aspekten der vorliegenden Offenbarung vergleicht;
10 ist ein Datensatz, der einen Agenten zeigt, der auf die Ziffern 4 sowie andere neue Ziffern 0-9 gemäß den Aspekten der vorliegenden Offenbarung trainiert und getestet wurde;
11 ist ein schematisches Diagramm, das die RL-basierte Lokalisierung von Abfrageobjekten mit einem Belohnungssignal zeigt, das auf einem beispielhaften Satz von Bounding-Boxen gemäß den Aspekten der vorliegenden Offenbarung definiert ist;
12 ist eine schematische Darstellung eines RoI-Codierers und eines Projektionskopfes gemäß den Aspekten der vorliegenden Offenbarung;
13(A) und 13(B) sind Datensätze, die veranschaulichen: 13(A) Zufallsstichproben und Ankerstichproben auf OrdAcc (%); und 13(B) ein Vergleich mit und ohne Vorzeichen für die IoU-Belohnung auf CorLoc (%) gemäß den Aspekten der vorliegenden Offenbarung;
14(A) und 14(B) sind Diagramme, die den Vergleich unter verschiedenen Trainingssatzgrößen gemäß den Aspekten der vorliegenden Offenbarung illustrieren;
15(A) und 15(B) sind Datensätze, die veranschaulichen: 15(A) CorLoc (%); und 15(B) einen Vergleich von vier Trainingsstrategien in Bezug auf den Anker, der gemäß den Aspekten der vorliegenden Offenbarung verwendet wird;
16 ist ein Datensatz, der die Leistung bei verschiedenen Ziffern gemäß dem nach den Aspekten der vorliegenden Offenbarung verwendeten Anker veranschaulicht;
17 ist ein Diagramm, das die Anpassung vor, nach und die Feinabstimmung der Anpassung gemäß dem Anker zeigt, der gemäß den Aspekten der vorliegenden Offenbarung verwendet wird;
18(A) und 18(B) sind Datensätze, die veranschaulichen: 18(A) die Leistung einer lockeren bis engen annotierten Bounding Box; und 18(B) die Leistung bei der Übertragung auf einen anderen Hintergrund gemäß den Aspekten der vorliegenden Offenbarung; und
19 ist eine Auflistung eines Algorithmus I für die Ausbildung und Belohnung Lokalisierungsmittel nach dem Anker nach Aspekten der vorliegenden Offenbarung verwendet.

BESCHREIBUNG
Im Folgenden werden lediglich die Grundsätze der Offenbarung erläutert. Es wird daher anerkannt, dass Fachleute in der Lage sind, verschiedene Anordnungen zu entwickeln, die, obwohl sie hier nicht ausdrücklich beschrieben oder gezeigt werden, die Grundsätze der Offenbarung verkörpern und in deren Geist und Umfang enthalten sind.
Darüber hinaus sind alle hier angeführten Beispiele und bedingten Ausdrücke nur zu pädagogischen Zwecken gedacht, um dem Leser das Verständnis der Grundsätze der Offenbarung und der von dem/den Erfinder(n) zur Förderung des Standes der Technik beigetragenen Konzepte zu erleichtern, und sind so auszulegen, dass sie keine Beschränkung auf diese speziell angeführten Beispiele und Bedingungen darstellen.
Darüber hinaus sollen alle hierin enthaltenen Aussagen, die sich auf Prinzipien, Aspekte und Ausführungsformen der Offenlegung sowie auf spezifische Beispiele davon beziehen, sowohl strukturelle als auch funktionale Äquivalente davon einschließen. Darüber hinaus sollen solche Äquivalente sowohl derzeit bekannte Äquivalente als auch in der Zukunft entwickelte Äquivalente umfassen, d. h. alle entwickelten Elemente, die unabhängig von ihrer Struktur die gleiche Funktion erfüllen.
So werden beispielsweise Fachleute erkennen, dass alle hierin enthaltenen Blockdiagramme konzeptionelle Ansichten von Schaltkreisen darstellen, die die Prinzipien der Offenlegung verkörpern.
1 ist ein schematisches Diagramm, das den gemeinsamen Trainingsrahmen des Annotationsagenten und der Datendarstellung gemäß den Aspekten der vorliegenden Offenbarung veranschaulicht.
2 ist ein schematisches Flussdiagramm, das einen Modelltrainingsprozess gemäß den Aspekten der vorliegenden Offenbarung zeigt.
3 ist ein schematisches Diagramm, das die Anwendung 1 - menschengeführte automatische Beschriftung von Fasererkennungsdatensätzen - veranschaulicht, bei der gut annotierte Daten dem nachgeschalteten Training eines Ereignisklassifizierers gemäß den Aspekten der vorliegenden Offenbarung zugute kommen können.
4 ist ein schematisches Diagramm, das die Anwendung 2 - Bewertung und Verbesserung der Qualität von Arbeitskräften für eine auf Crowdsourcing basierende Plattform für Bildannotationen - veranschaulicht, wobei qualitativ hochwertige Annotationen identifiziert werden können und Daten von geringer Qualität durch den geschulten Agenten gemäß den Aspekten der vorliegenden Offenbarung korrigiert werden können.
Wie wir nun beschreiben werden, umfasst unser erfindungsgemäßes Verfahren bzw. unser Algorithmus drei Trainingsschritte.
Schritt 1: Identifizierung eines Satzes von Ausgangsbildern. Dieser kann entweder von menschlichen Experten, einer Vorauswahlheuristik oder einem Datensatz eines Drittanbieters gewonnen werden.
Schritt 2: Pretraining der ordinalen Einbettung. Bei einem Ausgangsdatensatz erfolgt das Pretraining durch zufällige Perturbation der Grundwahrheit-Bounding-Box auf verschiedenen Ebenen. Die Ebenen der Störung werden durch den Parameter p bezeichnet. Die ordinale Einbettung muss die ordinale Bedingung lokal für jedes Paar perturbierter Daten erfüllen, die aus demselben Bild ergänzt wurden. 5 ist ein schematisches Diagramm, das das Erlernen der ordinalen Repräsentation des Einbettungsnetzes und des Triplettverlustes gemäß den Aspekten der vorliegenden Offenbarung veranschaulicht;
Schritt 3: Verstärkungslernen. Angesichts einer Einbettungsfunktion beginnen die RL-Agenten mit dem gesamten Bild und wählen rekursiv Aktionen aus einem diskreten Aktionsraum aus. ist ein schematisches Diagramm, das die ordinale Einbettung auf der Grundlage von Belohnungen und Aktionsräumen gemäß den Aspekten der vorliegenden Offenbarung zeigt. Die Belohnungen der Aktionen werden aus den Einbettungsabständen berechnet. Das Regelnetz (Aktionskopf) wird gemeinsam mit dem Einbettungsnetz aktualisiert. Die Architektur des neuronalen Netzes ist in 7 detailliert dargestellt, die ein schematisches Diagramm ist, das eine vollständige Architektur eines rekurrenten neuronalen Netzes (RNN) auf der Grundlage von RL-Agenten und ordinalem Repräsentationslernen gemäß den Aspekten der vorliegenden Offenbarung zeigt.
Die Wirksamkeit des vorgeschlagenen Ansatzes wird anhand des Clutter MNIST Benchmark-Datensatzes bewertet. 8(A), 8(B) und 8(C) illustrieren die Aktionssequenz des RL-Agenten und die Konvergenz des Lernens und der Plots der Co-Lokalisierung von Ziffern 4 vor einem unübersichtlichen Hintergrund und die Konvergenz der Einbettungsdistanz zur Grundwahrheit gemäß den Aspekten der vorliegenden Offenbarung. Die Abbildung zeigt die Vorteile des gemeinsamen Trainings in Bezug auf die endgültige Lokalisierungsleistung und zeigt, dass der Agent, der auf einer Co-Lokalisierungs-Aufgabe einer Ziffer trainiert wurde, angepasst wird, um neue Klassen von gemeinsamen Objekten (0~3, 5~9), die in der Trainingsphase nicht gesehen werden, zu finden.
Unser erfinderisches System und Verfahren führen gemeinsam ordinales Repräsentationslernen und tiefes Verstärkungslernen durch, um den Mangel an hochwertigen annotierten Daten zu überwinden. Unser System und unsere Methode können umfassend auf vollständig überwachte, schwach überwachte und Co-Lokalisierungsaufgaben angewendet werden.
Unser System und unsere Methode verwenden das Human-in-the-Loop-Paradigma, das eine begrenzte Menge hochwertiger, von Menschen annotierter Daten mit hohem Vertrauen effektiv nutzt, um die Qualität minderwertiger annotierter Daten zu identifizieren und zu verbessern.
Wie die Fachleute auf dem Gebiet der Technik leicht verstehen und schätzen werden, können unser erfinderisches System und Verfahren von einer Reihe von Anwendungen profitieren, nämlich 1) als ein Werkzeug zur automatischen Annotation von un-annotierten Datensätzen in kostensensitiven Anwendungen, einschließlich, aber nicht beschränkt auf die Fasersensorik; 2) als ein Werkzeug zur Verbesserung der Interpretierbarkeit von tiefen neuronalen Netzen, wie z.B. die Klassenaktivierungskarte (CAM) Methoden; 3) als Hilfsmittel zur Bewertung der Qualität von Annotationen und zur Verbesserung minderwertiger Annotationen auf Crowdsourcing-Plattformen; und 4) als Hilfsmittel zur Lokalisierung mehrerer gemeinsamer Zielobjekte innerhalb desselben Bildes, wie z. B. Pflanzen aus Satellitenbildern in der intelligenten Landwirtschaft oder Zellen aus Ganzseitenbildern in der digitalen Pathologie.
Die anschaulichen Ausführungsformen werden in den Abbildungen und der ausführlichen Beschreibung ausführlicher beschrieben. Ausführungsformen gemäß dieser Offenbarung können jedoch in verschiedenen Formen verkörpert werden und sind nicht auf die in der Zeichnung und der detaillierten Beschreibung beschriebenen spezifischen oder illustrativen Ausführungsformen beschränkt.
9 ist ein Datensatz, der die feste Einbettung mit der Trainingseinbettung während RL-Aktualisierungen gemäß den Aspekten der vorliegenden Offenbarung vergleicht; und
10 ist ein Datensatz, der einen Agenten zeigt, der auf die Ziffern 4 sowie andere neue Ziffern 0-9 gemäß den Aspekten der vorliegenden Offenbarung trainiert und getestet wurde.
An dieser Stelle beschreiben wir einen auf Verstärkungslernen basierenden Ansatz für das Problem der Lokalisierung von Abfrageobjekten, bei dem ein Agent darauf trainiert wird, Objekte von Interesse zu lokalisieren, die durch eine kleine Beispielmenge vorgegeben sind. Wir lernen ein übertragbares Belohnungssignal, das unter Verwendung der Beispielmenge durch ordinales metrisches Lernen formuliert wird. Es ermöglicht die Anpassung der Strategie an neue Umgebungen, in denen die Belohnungssignale nicht ohne weiteres verfügbar sind, und übertrifft damit Feinabstimmungsansätze, die auf annotierte Bilder beschränkt sind. Darüber hinaus ermöglicht die übertragbare Belohnung die Wiederverwendung des trainierten Agenten für neue Aufgaben, wie z.B. die Verfeinerung von Annotationen oder die selektive Lokalisierung von mehreren gemeinsamen Objekten in einer Reihe von Bildern. Experimente mit dem beschädigten MNIST-Datensatz und dem CU-Birds-Datensatz zeigen die Wirksamkeit unseres Ansatzes.
In dieser Offenbarung konzentrieren wir uns auf die Formulierung des Verstärkungslernens (Reinforcement Learning, RL) für das Problem der Lokalisierung von Abfrageobjekten, wobei ein Agent darauf trainiert wird, das Zielobjekt zu lokalisieren, das durch eine kleine Menge von Beispielbildern spezifiziert wird. Der visuell basierte Agent kann als proaktiver Informationssammler betrachtet werden, der aktiv mit der Bildumgebung interagiert und einer klassenspezifischen Lokalisierungspolitik folgt, wodurch er sich besser für Robotermanipulation oder verkörperte KI-Aufgaben eignet.
Während der Testphase kann das zu lokalisierende Objekt neu sein, oder die Hintergrundumgebung kann sich erheblich verändern, was die Anwendbarkeit von klassenunabhängigen Agenten mit festen Regeln erschwert. Wenn ein Belohnungssignal verfügbar ist, können Feinabstimmungsmethoden die Agenten effektiv an die neue Umgebung anpassen und eine bessere Leistung erzielen. Anders als bei Standard-RL-Einstellungen ist das Belohnungssignal in unserer Anwendung während der Testzeit nicht verfügbar, da die Bounding Box-Annotationen vom Lokalisierungsagenten auf Testbildern gefunden werden müssen.
Um dieses Problem zu lösen, beschreiben wir einen auf ordinalem metrischem Lernen basierenden Ansatz zum Erlernen eines implizit übertragbaren Belohnungssignals, das anhand einer kleinen Beispielmenge definiert wird. Ein ordinales Einbettungsnetzwerk wird mit Datenerweiterung unter einer Verlustfunktion, die für die RL-Aufgabe relevant ist, vortrainiert. Das Belohnungssignal ermöglicht explizite Aktualisierungen des Controllers im Policy-Netzwerk mit kontinuierlichem Training während der Testzeit. Im Vergleich zu Feintuning-Ansätzen können die Agenten durch die unbegrenzte Verwendung von Testbildern intensiver mit der neuen Umgebung vertraut gemacht werden. Präzise informiert durch die Beispielmenge, ist der Agent flexibel auf die Änderung des Lokalisierungsziels eingestellt.
11 ist ein schematisches Diagramm, das die RL-basierte Lokalisierung von Abfrageobjekten mit einem Belohnungssignal zeigt, das auf einer beispielhaften Menge anstelle von Bounding-Boxen gemäß den Aspekten der vorliegenden Offenbarung definiert ist.
Im Vergleich zu Bounding-Box-Regressionsansätzen haben Off-Policy-RL-basierte Objektlokalisierungsansätze den Vorteil, dass sie frei von regionalen Vorschlägen sind und individuelle Suchpfade für jede Bildumgebung bieten. Die Spezifität des Agenten hängt ausschließlich von den Klassen der Bounding-Boxen ab, die für die Belohnung verwendet werden. Sie können klassenspezifisch gemacht werden, aber der Agent müsste für jede Klasse separat trainiert werden.
Trotz der Zunahme von Crowdsourcing-Plattformen ist die Beschaffung einer großen Menge von Bounding-Box-Annotationen nach wie vor kostspielig und fehleranfällig. Darüber hinaus schwankt die Qualität der Annotationen häufig, und präzise Annotationen für bestimmte Objektklassen erfordern möglicherweise besondere Fachkenntnisse der Annotatoren. Das Aufkommen von schwach überwachten Objektlokalisierungsmethoden (WSOL) erleichtert diese Situation, indem sie Bildklassenbeschriftungen für die Ableitung von Bounding-Box-Annotationen verwenden. Es ist bekannt, dass WSOL-Methoden den Nachteil haben, dass sie sich zu sehr auf die diskriminierenden Merkmale zwischen den Klassen verlassen und nicht in der Lage sind, auf Klassen zu verallgemeinern, die während der Trainingsphase nicht gesehen wurden.
Wir stellen fest, dass die klasseninterne Ähnlichkeit ein natürlicheres Ziel für das Problem der Lokalisierung von Objekten ist, die zur Zielklasse gehören. Ein ähnliches Problem ist die Co-Lokalisierung von Bildern, bei der die Aufgabe darin besteht, die gemeinsamen Objekte in einer Reihe von Bildern zu identifizieren. Co-Lokalisierungsansätze nutzen die gemeinsamen Merkmale von Bildern, um Objekte zu lokalisieren. Da Co-Lokalisierungsansätze nicht überwacht werden, kann es zu Mehrdeutigkeiten kommen, wenn es mehrere gemeinsame Objekte oder Teile gibt, z. B. Vogelkopf und -körper, die unerwünschte gemeinsame Objekte als Ergebnis liefern können.
Es besteht ein offensichtlicher Widerspruch zwischen den Zielen, einen Agenten mit hoher Aufgabenspezifität zu trainieren und gleichzeitig eine bessere Generalisierungsleistung für neue Situationen zu erreichen. Der Schlüssel, um diese beiden Ziele miteinander zu vereinbaren, liegt in der Verwendung einer kleinen Menge von Beispielen. Es gab einen Paradigmenwechsel vom Training statischer Modelle, die mit Parametern definiert wurden, hin zu Modellen, die zusammen mit einer Unterstützungsmenge definiert wurden, die sich beim Training mit wenigen Beispielen als sehr effektiv erwiesen haben.
Neben dem Aufwand für das Meta-Lernen implizit anpassbarer Modelle wurde die Feinabstimmung eines vorab trainierten Modells auch für die Übertragung von Wissen von datenreichen auf datenarme Aufgaben verwendet. Wenn kein Belohnungssignal zur Verfügung steht, kann ein Ansatz zur Anpassung der Policy verwendet werden, bei dem die Zwischenrepräsentation durch Optimierung eines selbstüberwachten Hilfsverlustes feinabgestimmt wird, während der Controller fest bleibt. Unsere Offenbarung hat die gleiche Motivation wie das Training zur Testzeit, aber wir konzentrieren uns stattdessen auf die Situationen, in denen der Controller angepasst oder sogar für neue Aufgaben umgewidmet werden muss.
Bei der Lokalisierung von Abfrageobjekten erhalten wir eine Menge von Bildern I und eine kleine Menge von Beispielbildern E. Die Bildannotation liegt in Form einer Bounding Box g vor. Unser Ziel ist es, die Position der Bounding Box zu finden, die das abgefragte Objekt in jedem Bild ohne Kandidatenboxen enthält.
Bestehende RL-Ansätze für die Objektlokalisierung betrachten jedes Bild I_i als eine Umgebung und verwenden als Belohnungssignal die zugrundeliegende Objekt-Bounding-Box g_i, $R = sign (IoU (b_{t}, g_{i}) - IoU (b_{t - 1}, g_{i})),$
wobei IoU(b_t,g_i) die Intersection-over-Union (IoU) zwischen dem aktuellen Fenster b_t und der entsprechenden Ground-Truth-Box g_i bezeichnet, und IoU(b,g) = area(b∩g)/area(b∪g). Ähnlich wie bei den Bounding-Box-Regressionsansätzen, bei denen eine Abbildung/: 17→g gelernt wird, müssen Bild und Box gepaart sein. Allerdings kann es sowohl in der Trainings- als auch in der Testphase an kommentierten Bild-Box-Paaren (I,g) mangeln. Das Belohnungssignal in (??) ist nicht auf alle Trainingsbilder übertragbar, ganz zu schweigen von Testbildern mit möglichen Bereichsverschiebungen.
Um dieses Problem zu lösen, bietet es sich an, das Belohnungssignal auf der Grundlage des Abstands zwischen den durch das aktuelle Fenster b_t beschnittenen Bildern und dem „Ground-Truth“-Fenster g zu definieren. Ausgehend von ihren M-dimensionalen Darstellungen b_t und g, die durch eine Einbettungsfunktion R^D 7 → R^M aus D-dimensionalen Bildmerkmalsvektoren erzeugt wurden, liefert eine Abstandsfunktion d: R^M × R^M 7 → [0,+∞) den Einbettungsabstand d(bt,g). Es kann jedoch sein, dass sie nicht monoton abnimmt, wenn sich der Agent der Ground-Truth-Box g nähert. As Ergebnis kann der Einbettungsabstand basierend auf dem Belohnungssignal weniger effektiv sein als (??).
Darüber hinaus schlagen wir vor, ein auf ordinaler Einbettung basierendes Belohnungssignal zu verwenden. Für zwei beliebige perturierte Boxen b_j, b_k von g in einem Constraint Set C werden Einbettungen b_j, b_k, g gelernt, so dass die relative Präferenz zwischen einem beliebigen Paar von Boxen im euklidischen Raum erhalten bleibt, $_{j k j k} p > p \Leftrightarrow ‖ b - g ‖ < ‖ b - g ‖, \forall j, k \in C,$
wobei p_j und p_k die Präferenz (abgeleitet von IoU zu Ground-Truth-Box oder ordinalen Rückmeldungen des Nutzers) bezeichnen. Dieses Problem wurde ursprünglich als nicht-metrische multidimensionale Skalierung formuliert. Obwohl wir einen sehr einfachen paarweisen Ansatz verwenden, gibt es andere Erweiterungen, wie z. B. den listenweisen Ansatz, den Quadruplet-Ansatz und den Landmark-Ansatz.
Der Anker g in (2) ist nicht auf die Einbettung aus demselben Bild beschränkt. Er könnte z. B. durch die prototypische Einbettung der Beispielmenge E, c = 1/|E|^P _i∈E b_i, ersetzt werden, wobei b_i die Einbettung des beschnittenen Bildes I_i durch die Ground-Truth-Box g ist. Wenn Bilder aus mehreren Klassen verfügbar sind, kann der Prototyp weiter klassenabhängig oder clusterbasiert gemacht werden. Wir haben festgestellt, dass die prototypbasierte Einbettung als Anker in einigen Experimenten eine bessere Generalisierungsleistung als g aufweist. Diese Wahl macht unseren Ansatz auch für das Training mit wenigen Aufnahmen geeignet, wenn nur eine kleine Teilmenge von Trainingsbildern pro Klasse annotiert wird. Die ordinale Belohnung kann als Metainformation betrachtet werden. Selbst wenn die Beispielmenge während der Testzeit nur das ausgeschnittene Objekt enthält, ist eine Anpassung der Testzeitstrategie auch ohne Bild-Box-Paare möglich.
Wir gehen davon aus, dass die Beispielmenge E während der Trainingszeit sowohl das Bild I als auch die Box g enthält. Wir verwenden ein maßgeschneidertes Datenerweiterungsschema - die Box-Perturbation, bei der C durch das Sampling von Box-Paaren um g herum konstruiert wird. Wir haben herausgefunden, dass die Verwendung eines IoU-basierten Partitionsschemas effektiver ist als das Sampling nach dem Zufallsprinzip. Dies kann als ein Verfahren angesehen werden, das die Robustheit des neuronalen Netzes gegenüber Box-Perturbationen erhöht und den speziellen Zweck seiner Verwendung bei der Unterscheidung von Belohnungserhöhungen oder -verringerungen schützt. Ein Pre-Training mit Datenerweiterung kann auch die nachgelagerte Aufgabe des Policy-Netz-Trainings effizienter machen.
In dieser Offenbarung definieren wir p als die IoU von Box b zur Ground-Truth-Box g, d.h. p = IoU(b,g). Wir lernen einen Einbettungsraum, der mit den lokalen ordinalen Beschränkungen der durch Datenerweiterung erhaltenen Bildpaare konsistent ist.
Wir entscheiden uns für die Optimierung des Triplett-Verlustes, um die gewünschte Einbettung zu lernen, $L_{trip} = \sum max (m + d (f_{a}, f_{p}) - d (f_{a}, f_{p}),0),$
wobei f_a die „Anker“-Einbettung ist. f_p,f_n sind die „positiven“ und „negativen“ Einbettungen mit größeren bzw. kleineren IoUs mit der Grundwahrheitsbox g. Man beachte, dass eine gute Repräsentation für die Definition von Belohnungen nicht notwendigerweise gleichzeitig eine gute Zustandsrepräsentation sein muss - sie enthält möglicherweise nicht genügend Informationen, die den Agenten dazu bringen, die richtigen Handlungen auszuführen. deutet darauf hin, dass das Hinzufügen eines Projektionskopfes zwischen der Repräsentation und dem kontrastiven Verlust die Qualität der gelernten Repräsentation erheblich verbessert.
Wir sind der Meinung, dass die Verwendung eines Projektionskopfes entscheidend für das Gleichgewicht zwischen den beiden Zielen in unserer Aufgabe ist. Die Netzwerkarchitektur ist in dargestellt, in der ein MLP-Projektionskopf nach einem Rol-Encoder (Region of Interest) angebracht ist. Anhand des gegebenen Bildes und der RoI extrahiert der Rol-Kodierer RoI-Merkmale, die als Zustandsrepräsentation für die Lokalisierung verwendet werden. Der Projektionskopf lernt die ordinale Einbettung b zur Berechnung der Belohnung. Das ROI-Ausrichtungsmodul verarbeitet Boxen mit unterschiedlicher Größe. Unter einer gemeinsamen Verlustfunktion loss_embed = loss_rec + λ · loss_trip kann die Zustandsrepräsentation s indirekt von der ordinalen Überwachung von b profitieren, während sie dennoch zufriedenstellende Bildrekonstruktionsergebnisse liefern muss. Neben dem Autoencoder-Schema kann der RoI-Encoder auch ein vortrainiertes Netzwerk verwenden.
Die Lokalisierung wird als Markov-Entscheidungsprozess (MDP) mit Rohpixeln in jedem Bild als Umgebung formuliert. ⁰ Wie hier beschrieben, verwenden wir die ordinale Einbettung anstelle der Bounding-Box-Koordinaten, um die Verbesserung zu berechnen, die der Agent macht, und die Belohnung für einen Agenten, der sich vom Zustand s⁰ zu s bewegt, hat die folgende Form, $R (^{s, s_{0}}) = ‖ b_{t} - a ‖ - ‖ b_{t - 1} - a ‖,$
wobei a die Protoptyp-Einbettung ist. Ordinale Einbettungen werden aus den Bildregionen, die von den Grundwahrheitsboxen in E umgeben sind, durch den vortrainierten Rol-Encoder und den Projektionskopf extrahiert, und der Protoptyp wird als Mittelwertvektor berechnet. Außerdem verwenden wir Policy Gradient mit rekurrentem neuronalem Netzwerk (RNN) (Mnih et al., 2014) anstelle von DeepQNetwork mit einem Vektor von historischen Aktionen und Zuständen. Ausgehend von den gesamten Bildpixeln als Eingabe wird der Agent darauf trainiert, bei jedem Schritt die Aktionen auszuwählen, die die aktuelle Bounding Box transformieren, indem er die gesamte diskontierte Belohnung maximiert. Der Agent nimmt gepoolte Merkmale der aktuellen Box als Zustand, während er auch einen internen Zustand innerhalb des RNN beibehält, der Informationen aus historischen Beobachtungen kodiert. Der Aktionssatz ist mit diskreten Aktionen definiert, die eine Top-Down-Suche erleichtern, darunter fünf Skalierungs- und acht Übersetzungstransformationen sowie eine Verweilaktion.
Testzeit-Anpassung Während der Testzeit hat der Agent die Möglichkeit, das Policy-Netzwerk weiter zu aktualisieren, indem er die erhaltene Belohnung aus (4) mit a als Prototyp der Test-Beispielmenge E_test verwendet. Um den Testbedingungen zu entsprechen, wird die Trainingsserie in zwei Gruppen aufgeteilt und a wird auf einer kleinen Teilmenge berechnet, die sich nicht mit den zu lokalisierenden Trainingsbildern überschneidet, während während der Testanpassung wird a zum Prototyp der Beispielmenge. Der vollständige Algorithmus ist in Algorithmus 1 skizziert, der in 19 veranschaulicht wird.
Die Übertragbarkeit unseres Belohnungssignals vom Training zum Test hängt entscheidend von der Generalisierungsfähigkeit der erlernten ordinalen Repräsentation ab. Wenn die ordinale Präferenz in der Testdomäne nicht gilt, wird das vorgeschlagene Schema zur Anpassung der Testzeit-Policy nicht funktionieren. Durch die Anpassung der Repräsentation mit selbstüberwachten Zielen könnte dieses Problem behoben werden. Obwohl unser Ansatz nicht direkt die Sonderfälle von mehreren abgefragten Objekten oder keinem abgefragten Objekt innerhalb der Bildumgebung behandelt, kann er leicht modifiziert werden, um diese Aufgaben zu erfüllen.
Wir evaluieren unseren Ansatz mit verschiedenen Aufgaben im MNIST- und CUB-Vogeldatensatz. Für MNIST verwenden wir drei Faltungsschichten mit ReLU-Aktivierung nach jeder Schicht als Bildkodierer, während die gleiche, aber gespiegelte Struktur als Dekodierer zum Erlernen eines Autoencoders dient. Dann fügen wir eine Rol-Ausrichtungsschicht an, die auf zwei vollständig verbundene Schichten als Projektionskopf für das ordinale Belohnungslernen folgt. Für den CUB-Datensatz übernehmen wir die Schichten vor conv5_3 von VGG16, die mit dem ImageNet-Encoder trainiert wurden. Der Projektionskopf ist die gleiche Struktur wie zuvor, aber mit mehr Einheiten für jede voll verknüpfte Schicht. Zur Bewertung der gelernten ordinalen Struktur verwenden wir OrdAcc, definiert als der Prozentsatz der Bilder, bei denen die Reihenfolge eines Paares von gestörten Boxen korrekt vorhergesagt wurde. Wir verwenden die Metrik Korrekte Lokalisierung (CorLoc), die als der Prozentsatz der Bilder definiert ist, die gemäß dem Kriterium area(b_p ∩ g)/area(b_p ∪ g) ≥ 0.5 korrekt lokalisiert wurden, wobei b_p die vorhergesagte Box und g die Ground-Truth-Box ist.
Wir analysieren die Effektivität der ordinalen Einbettung in Bezug auf Repräsentation und Belohnung auf Cluttered MNIST. Jede 28 × 28 Ziffer wird zufällig auf einen 84 × 84 unübersichtlichen Hintergrund gelegt. Wir vergleichen Einbettungen, die nur mit einem Autoencoder trainiert wurden, und solche, die gemeinsam mit einem ordinalen Projektionskopf trainiert wurden. Außerdem vergleichen wir die auf IoU basierende Belohnung mit unserer auf Einbettung basierenden Belohnung. Der Agent wird mit einer bestimmten Anzahl von Bildern der Ziffer 4 trainiert. Anschließend wird er mit allen Bildern des Testsatzes getestet. Die Ergebnisse für verschiedene Trainingsmengen sind in 13(A) und 13(B) dargestellt, die Datenmengen zur Veranschaulichung: 13(A) Zufallsstichproben und Ankerstichproben auf OrdAcc (%); und 13(B) ein Vergleich mit und ohne Vorzeichen für die IoU-Belohnung auf CorLoc (%) gemäß den Aspekten der vorliegenden Offenbarung. Mit ordinaler Einbettung sowohl in der Darstellung als auch in der Belohnung („AE+Ord+Embed“) ist die Modellleistung durchweg besser als bei anderen Einstellungen, insbesondere wenn die Trainingsmenge klein ist.
14(A) und 14(B) sind Diagramme, die den Vergleich unter verschiedenen Zugsatzgrößen gemäß den Aspekten der vorliegenden Offenbarung veranschaulichen.
Um die ordinale Belohnung effizient zu erlernen, führen wir Experimente durch, um die Sampling-Strategie der Erzeugung von erweiterten Bounding-Box-Paaren zu vergleichen. Die erste Strategie ist die Zufallsstichprobe, bei der die Boxenpaare völlig zufällig erzeugt werden. Bei der anderen Strategie handelt es sich um ein Sampling nach Anker, bei dem wir zunächst dichte Anker mit unterschiedlichen Skalen generieren und sie dann in 10 Gruppen entsprechend der IoU mit der Ground-Truth-Box aufteilen. Jede Gruppe hat ein Intervall von 0,1. Die Stichprobenziehung erfolgt zunächst auf Gruppenebene, d. h. es werden zwei Gruppen ausgewählt. Dann werden zwei Boxen pro Gruppe ausgewählt. Auf diese Weise können die beprobten Kästchen im Vergleich zur Zufallsstichprobe mehr Fälle abdecken. Die resultierende OrdAcc der beiden Strategien ist in 13(A) dargestellt. Mit dem Anker-Sampling können wir eine bessere ordinale Einbettung lernen.
Reward {+1,-1}, mit oder ohne Vorzeichen, verwendet Gleichung 1 als Reward für das Training des Agenten. Aus 14(A) und 14(B) ist jedoch ersichtlich, dass zwischen dieser IoU-Belohnung und unserer Embed-Belohnung eine große Lücke klafft, insbesondere wenn die Trainingsmenge klein ist. Dies ist etwas kontraintuitiv, da der ordinale Reward die Eigenschaft von IoU im Einbettungsraum annähern soll und daher als Reward weniger genau sein sollte als IoU. Um dieses Problem zu analysieren, nehmen wir die Vorzeichen-Operation in Gleichung 1 heraus, um die Modelle auf Bildern der Ziffer 4 zu trainieren. Wie in 13(B) gezeigt, erhöht sich die Lokalisierungsgenauigkeit mit der Vorzeichen-Operation um 3,4 % bei Ziffer 4 und um 6,2 % bei anderen Ziffern im Testsatz.
15(A) und 15(B) sind Datensätze, die veranschaulichen: 15(A) CorLoc (%); und 15(B) einen Vergleich von vier Trainingsstrategien in Bezug auf den Anker, der gemäß den Aspekten der vorliegenden Offenbarung verwendet wird.
Im Gegensatz zur Verwendung eines Deep Q-Network zum Trainieren des Agenten verwenden wir einen Policy-Gradienten, um ihn zu optimieren. Außerdem verwenden wir eine Top-Down-Suchstrategie mit Hilfe von RNN, während in diesen Arbeiten ein Vektor historischer Aktionen zur Kodierung des Gedächtnisses verwendet wurde. Wir evaluieren die Design-Entscheidungen mit Modellen, die mit der Ziffer 4 trainiert und getestet wurden, oder mit anderen Ziffern, wie zeigt. Wie wir sehen können, erzielt der Agent die beste Leistung mit „PG+RNN“. Bei historischen Aktionsvektoren sinkt die Genauigkeit, wenn der Agent mit DQN trainiert wird.
Wir haben Experimente durchgeführt, um die Auswirkungen verschiedener Trainingsstrategien auf das ordinale Belohnungslernen und die Lokalisierung auf einer Teilmenge des CUB-Datensatzes zu bewerten. Der Trainings- und Testsatz enthält 15 bzw. 5 verschiedene feinkörnige Klassen, was 896 Bilder für das Training und 294 für den Test ergibt. 15(B) zeigt die OrdAcc und CorLoc von vier Einstellungen: „Self“, sowohl das Einbettungs-Pretraining als auch das Agententraining verwenden den Ground-Truth dieser Instanz als Anker; „Proto“, beide verwenden den Prototyp einer Untergruppe, die diese Instanz innerhalb einer Charge enthält; „Shuffle self“, beide verwenden den Ground-Truth einer anderen Instanz; „Shuffle proto“, beide verwenden den Prototyp einer Untergruppe ohne diese Instanz innerhalb einer Charge. _trip Der RoI-Encoder wird nur mit dem Verlust trainiert. Somit kann die gesamte Trainingsmenge als eine einzige Klasse betrachtet werden. Aus den Ergebnissen geht hervor, dass OrdAcc für „Shuffle proto“ zwar niedriger ist als die anderen, CorLoc aber mit großem Abstand am besten abschneidet. Dieses Phänomen deutet darauf hin, dass diese Trainingsstrategie die Trainingsmenge kompakter macht und eine ordinale Struktur um den Cluster herum aufbaut. Beachten Sie, dass der OrdAcc mit der Instanz als Anker berechnet wird.
Wie nun von Fachleuten erkannt wird, offenbaren wir eine auf Ordinalrepräsentationslernen basierende Belohnung, um einen Lokalisierungsagenten darauf zu trainieren, ein abgefragtes Objekt von Interesse in potentiell neuen Umgebungen zu suchen. Insbesondere verwenden wir eine kleine Menge von Beispielen als Führungssignal für die Übermittlung von Lernzielen, wodurch Mehrdeutigkeit beim Lernen vermieden werden kann. In der Zwischenzeit verwenden wir Testbilder, um den Agenten über die Verschiebungen in der Domäne zu informieren, ohne dass Bild-Box-Paare während der Testzeit erforderlich sind. Unser Algorithmus nimmt rohe Bildpixel als Eingabe, ohne dass er Kandidatenboxen vorschlagen muss.
Unser Ansatz basiert auf der Ähnlichkeit der Merkmale mit der Beispielmenge, was sich grundlegend von Bounding-Box-Regressions- und Bounding-Box-RL-Ansätzen unterscheidet. Um auf verschiedene Objektklassen und Hintergrundszenarien verallgemeinern zu können, müssen bisherige Ansätze klassenunabhängig auf großen Datensätzen trainiert werden, die Vorder- und Hintergrundvariationen abdecken. Im Gegensatz dazu erlauben wir das Training von spezialisierten Agenten, die während der Testzeit ihre Richtlinien anpassen können.
Anstatt das Lokalisierungsmodell gemeinsam mit dem Klassifizierungsmodell zu trainieren, untersuchen wir das Lernen von Box-Annotationen aus den Bildklassenkennzeichnungen, ähnlich wie beim schwach überwachten Lernen. Angesichts einer Bildbeschriftung aus einem Klassifikationsmodell kann unser Lokalisierungsmodell die Box-Region mit verbesserter Interpretierbarkeit identifizieren. Empirisch zeigen wir, dass unser Ansatz beim Transfer-Lernen von einer einzigen datenreichen Quellaufgabe auf datenarme Testaufgaben funktioniert. Darüber hinaus lässt sich unser Ansatz auch auf das „few-shot“-Lernen anwenden, bei dem während des Trainings nur begrenzte Annotationen für eine Reihe von Aufgaben zur Verfügung stehen. Zukünftige Arbeiten umfassen modalitätsübergreifende Abfragen oder Zero-Shot-Abfragen auf der Basis von Attributen und Curriculum-Lernen mit einer entworfenen Sequenz von Zielen in der Beispielmenge.
Die Sammlung von Annotationen spielt eine wichtige Rolle beim Aufbau maschineller Lernsysteme. Es ist eine Aufgabe, die sehr von der Automatisierung profitieren könnte, insbesondere bei kostensensitiven Anwendungen. Unser Ziel ist es, den Aufwand für die menschliche Annotation in Bezug auf die Anzahl der annotierten Proben pro Klasse, die Anzahl der annotierten Klassen und das erforderliche Genauigkeitsniveau zu reduzieren. Unser Ansatz ermöglicht eine objektive Bewertung und iterative Verfeinerung der Datenqualität.
16 ist ein Datensatz, der die Leistung bei verschiedenen Ziffern gemäß dem nach den Aspekten der vorliegenden Offenbarung verwendeten Anker veranschaulicht;
17 ist ein Diagramm, das die Anpassung vor, nach und die Feinabstimmung der Anpassung gemäß dem Anker zeigt, der gemäß den Aspekten der vorliegenden Offenbarung verwendet wird;
18(A) und 18(B) sind Datensätze, die veranschaulichen: 18(A) die Leistung einer lockeren bis engen kommentierten Bounding Box; und 18(B) die Leistung bei der Übertragung auf einen anderen Hintergrund gemäß den Aspekten der vorliegenden Offenbarung;
19 ist eine Auflistung eines Algorithmus I für die Ausbildung und Belohnung Lokalisierungsmittel nach dem Anker nach Aspekten der vorliegenden Offenbarung verwendet.
An dieser Stelle haben wir die Offenbarung zwar anhand einiger spezifischer Beispiele dargestellt, doch wird der Fachmann erkennen, dass unsere Lehren nicht so beschränkt sind. Dementsprechend sollte diese Offenbarung nur durch den Umfang der beigefügten Ansprüche begrenzt werden.

Claims

Ein tiefes Verstärkungslernverfahren (RL) zur Objektlokalisierung, das Folgendes umfasst: Erfassen eines Startdatensatzes, der einen Satz von Startbildern enthält, die jeweils mit einer Grundwahrheits-Bounding-Box-Annotation versehen sind; Vortraining der ordinalen Einbettung durch zufälliges Perturbieren der Bounding Box der Grundwahrheit auf verschiedenen Niveaus, bezeichnet durch den Parameter p, wobei die ordinale Einbettung eine ordinale Beschränkung lokal für jedes Paar von perturbierten Daten erfüllt, die von demselben Bild augmentiert wurden, wobei das Vortraining durch die Wirkung eines Backbone-Netzwerks, eines Region of Interest (RoI)-Kopfes und eines Triplet-Verlustes durchgeführt wird; und Verwenden einer Einbettungsfunktion, Konfigurieren von RL-Agenten, um von einem Gesamtbild auszugehen und rekursiv Aktionen aus einem diskreten Aktionsraum abzutasten, so dass Belohnungen erzeugt werden, wobei die Belohnungen einer abgetasteten Aktion aus Einbettungsabständen bestimmt werden, und Aktualisieren eines Policy-Netzwerks basierend auf den so bestimmten Belohnungen; und die Ausgabe einer Annotations-Policy und einer Einbettungsfunktion.
Verfahren nach Anspruch 1, bei dem die Annotation der Bounding Box des Ausgangsbildes anfänglich durch eine menschliche Aktion bereitgestellt wird.