DE112020004321T5

DE112020004321T5 - Kontextuelle erdung von phrasen in natürlicher sprache in bildern

Info

Publication number: DE112020004321T5
Application number: DE112020004321.5T
Authority: DE
Inventors: Farley Lai; Asim Kadav; Ning Xie
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-09-12
Filing date: 2020-09-10
Publication date: 2022-06-09
Also published as: US20210081728A1; JP7345050B2; JP2022543123A; WO2021050776A1; US11620814B2

Abstract

Aspekte der vorliegenden Offenbarung beschreiben Systeme, Verfahren und Strukturen, die eine kontextuelle Erdung bereitstellen - eine Interaktionstechnik höherer Ordnung, um einen entsprechenden Kontext zwischen Textentitäten und visuellen Objekten zu erfassen.

Description

TECHNISCHES GEBIET
Diese Offenbarung betrifft allgemein Sprachtext und Bilder. Insbesondere beschreibt sie Techniken für entsprechenden Sprachtext mit visuellen Objekten, die in Bildern enthalten sind.
HINTERGRUND
Spracherdung ist eine grundlegende Aufgabe, um Herausforderungen eines visuellen Denkens anzugehen, die ein Verstehen der Korrespondenz zwischen Textentitäten und Objekten in Bildern erfordern. Eine einfache, reale Anwendung von Spracherdung - ist ein System eines Abrufens in natürlicher Sprache, das eine Textabfrage als Eingabe nimmt und ein visuelles Objekt in einem gegebenen Bild, auf das durch die Sprachentität in der Abfrage Bezug genommen ist, als Ausgabe zurückgibt. Trotz dieses großen Bedarfs und Nutzens stellen automatisierte Systeme, Verfahren und Strukturen, die eine Spracherdung durchführen, signifikante technische Herausforderungen dar, die auf dem Gebiet noch nicht erfüllt sind.
ZUSAMMENFASSUNG
Ein Fortschritt auf dem Gebiet wird gemäß Aspekten der vorliegenden Offenbarung gemacht, die auf Systeme, Verfahren und Strukturen gerichtet ist, die eine kontextuelle Erdung für Entitäten in natürlicher Sprache in Bildern bereitstellen.
In scharfem Gegensatz zum Stand der Technik führen Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung eine neuartige Architektur ein, die vorteilhaft einen Kontext von entsprechenden Textentitäten und Bildbereichen erfasst, um dadurch eine Erdungsgenauigkeit zu verbessern.
In einem weiteren Gegensatz zum Stand der Technik führen Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung einen Ansatz einer kontextuellen Erdung ein, der jeweils den Kontext in entsprechenden Texten und Bildern ohne irgendeine spezifische Einbettung oder Objektmerkmalsextraktion erfasst.
Operationsmäßig akzeptiert unsere hierin offenbarte Architektur vortrainierte Text-Token-Einbettungen und Bild-Objektmerkmale von einem Objektdetektor als Eingabe. Verfahren d. Eine zusätzliche Codierung, die Positions- und Raum-Information erfasst, kann hinzugefügt werden, um die Merkmalsqualität zu verbessern. Getrennte Text- und Bildzweige ermöglichen jeweilige architektonische Verfeinerungen für unterschiedliche Modalitäten. Der Textzweig wird an einer großräumigen maskierten Sprachmodellierungsaufgabe vortrainiert, während der Bildzweig von Grund auf trainiert wird.
Unser Modell lernt jeweils kontextuelle Repräsentationen der Text-Token und Bildobjekte durch Interaktionsschichten hoher Ordnung. Ein abschließender Erdungskopf bzw. -anfang ordnet eine Korrespondenz zwischen den textuellen und visuellen Repräsentationen bzw. Darstellungen durch kreuzmodale Interaktion ein.
Schließlich zeigen wir in unserer Auswertung, dass unser Modell die hochmoderne Erdungsgenauigkeit von 71,36% gegenüber dem Flickr30K-Entitätendatensatz erreicht. Es ist kein zusätzliches Vortrainieren nötig, um wettbewerbsfähige Ergebnisse im Vergleich mit ähnlicher Arbeit zu liefern, die häufig ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an kreuzmodalen Datensätzen erfordert.
Figurenliste
Ein vollständigeres Verstehen der vorliegenden Offenbarung kann durch Bezugnahme auf die beigefügte Zeichnung realisiert werden, in welcher:

1 ein schematisches Diagramm ist, das ein beispielhaftes Bild von Flickr30K-Entitäten darstellt, die mit Begrenzungsrahmen entsprechend Entitäten in der Bildlegende versehen sind;
2 ein schematisches Diagramm ist, das ein Diagramm eines Systems für einen Objektabruf in natürlicher Sprache gemäß Aspekten der vorliegenden Offenbarung darstellt; und
3 ein schematisches Diagramm ist, das eine Architektur einer kontextuellen Erdung und einen Arbeitsablauf gemäß Aspekten der vorliegenden Offenbarung darstellt.

Die illustrativen Ausführungsformen werden durch die Figuren und die detaillierte Beschreibung ausführlicher beschrieben. Ausführungsformen gemäß dieser Offenbarung können jedoch in verschiedenen Formen verkörpert sein und sind nicht auf spezifische oder illustrative Ausführungsformen beschränkt, die in der Zeichnung und der detaillierten Beschreibung beschrieben sind.
BESCHREIBUNG
Das Folgende stellt lediglich die Prinzipien der Offenbarung dar. Es wird somit eingesehen werden, dass Fachleute auf dem Gebiet in der Lage sein werden, verschiedene Anordnungen zu entwickeln, die, obwohl sie hierin nicht ausdrücklich beschrieben oder gezeigt werden, die Prinzipien der Offenbarung verkörpern und in ihrem Sinngehalt und Schutzumfang enthalten sind.
Weiterhin ist beabsichtigt, dass alle Beispiele und bedingten Formulierungen, die hierin vorgetragen werden, nur für pädagogische Zwecke bestimmt sind, um dem Leser zu helfen, die Prinzipien der Offenbarung und die Konzepte, die von dem (den) Erfinder(n) zum Voranbringen des Standes der Technik beigesteuert sind, zu verstehen, und sie so auszulegen sind, dass sie ohne Beschränkung auf solche spezifisch vorgetragenen Beispiele und Bedingungen sind.
Darüber hinaus ist beabsichtigt, dass alle Aussagen hierin, die Prinzipien, Aspekte und Ausführungsformen der Offenbarung vortragen, sowie spezifische Beispiele davon sowohl strukturelle als auch funktionelle Äquivalente davon umfassen. Zusätzlich ist beabsichtigt, dass solche Äquivalente sowohl derzeit bekannte Äquivalente als auch in Zukunft entwickelte Äquivalente umfassen, d.h. irgendwelche entwickelten Elemente, die ungeachtet einer Struktur dieselbe Funktion durchführen.
Somit wird es beispielsweise von Fachleuten auf dem Gebiet eingesehen werden, dass irgendwelche Blockdiagramme hierin Konzeptansichten einer illustrativen Schaltung darstellen, die die Prinzipien der Offenbarung verkörpert.
Solange es hierin nicht ausdrücklich anders spezifiziert ist, sind die FIG., aus denen sich die Zeichnung zusammensetzt, nicht maßstabsgetreu gezeichnet.
Als zusätzlichen Hintergrund merken wir an, dass modellübergreifendes Denken für ein Erden von Entitäten und Objekten in unterschiedlichen Modalitäten, wie beispielsweise Text und Bildern, herausfordernd ist. Repräsentative Aufgaben enthalten eine visuelle Fragebeantwortung (VQA (= visual question answering) und eine Bildbetitelung, die geerdete Merkmale zwischen Text und Bildern nutzt, um Vorhersagen zu machen.
Während jüngste Fortschritte bei diesen Aufgaben beeindruckende Ergebnisse erzielen, ist die Qualität der Korrespondenz zwischen Textentitäten und visuellen Objekten in beiden Modalitäten weder überzeugend noch interpretierbar. Dies liegt wahrscheinlich daran, dass die Erdung von einer Modalität zur anderen implizit trainiert wird und irgendwelche Zwischenergebnisse oft nicht so explizit wie bei einer Objekterkennung ausgewertet werden.
Um dieses Problem zu beheben, wurde der Flickr30K-Entitätendatensatz mit präzisen Anmerkungen der Korrespondenz zwischen Sprachphrasen und Bildbereichen, um die Aus- bzw. Bewertung einer visuellen Erdung zu erleichtern, erstellt.
1 ist ein schematisches Diagramm, das ein beispielhaftes Bild von Flickr30K-Entitäten darstellt, die mit Begrenzungsrahmen entsprechend den Entitäten in der Bildlegende versehen sind. In dieser Figur ist auf zwei Männer als getrennte Entitäten bzw. Einheiten Bezug genommen. Um die zwei Männer im Bild eindeutig zu erden, muss ein Erdungsalgorithmus einen jeweiligen Kontext und die Attribute zum Lernen der Korrespondenz berücksichtigen.
Historisch wurden im Laufe der Jahre viele auf Deep-Learning bzw. tiefem Lernen basierende Ansätze vorgeschlagen, um mit dieser Lokalisierungsherausforderung fertigzuwerden. Die Grundidee hinter solchen Ansätzen besteht darin, repräsentative Merkmale für jede Entität sowie auch jedes Objekt abzuleiten und dann ihre Korrespondenz zu bewerten. In der Modalität einer Untertitel- bzw. Legendeneingabe beginnen einzelne Token-Darstellungen normalerweise mit den Worteinbettungen, gefolgt von einem rekurrenten neuronalen Netzwerk (RNN), normalerweise mit langem Kurzzeitgedächtnis (LSTM (= Long Short-Term Memory)) oder mit geschlossenen wiederkehrenden Einheiten (GRU (= Gated Recurrent Units)), um die kontextuelle Bedeutung der Textentität in einem Satz zu erfassen. Andererseits werden die visuellen Objekte in Bildbereichen von Interesse (Rol (= regions of interest)) durch Objekterkennung extrahiert.
Jedes erkannte Objekt erfasst typischerweise einen begrenzten Kontext durch die aufnahmefähigen Felder von 2D-Faltungen. Fortgeschrittene Techniken, wie beispielsweise Feature Pyramid Network (FPN) verbessern die Darstellungen durch Kombinieren von Merkmalen auf unterschiedlichen semantischen Ebenen in Bezug auf die Objektgröße. Dennoch sind diese herkömmlichen Ansätze auf ein effektives Extrahieren eines relevanten weitreichenden Kontextes in sowohl Text als auch Bildern beschränkt. Angesichts dieser Beschränkung sind nicht-lokale Aufmerksamkeitstechniken vorgeschlagen worden, um sich mit den weitreichenden Abhängigkeiten bei Aufgaben einer Verarbeitung natürlicher Sprache (NLP (= natural language processing)) und von Computer Vision (CV) zu beschäftigen.
Inspiriert von dieser Weiterentwicklung führen wir den Ansatz einer kontextuellen Erdung zur Verbesserung der Repräsentationen durch umfangreiche intra- und intermodale Interaktion ein, um kontextuelle Korrespondenz zwischen Textentitäten und visuellen Objekten abzuleiten.
Ähnliche Arbeit. In Bezug auf die Methode von Merkmalsinteraktion demonstriert die Transformatorarchitektur bzw. Transformer-Architektur für maschinelle Übersetzung einen systematischen Ansatz zur effizienten Berechnung der Interaktion zwischen Sprachelementen. Etwa gleichzeitig verallgemeinern nicht-lokale Netzwerke den Transformator auf die CV-Domäne, was die Merkmalsinteraktion auf unterschiedlichen Granularitätsebenen von Merkmalskarten bis zu gepoolten Objekten unterstützt.
In jüngster Zeit passt der Bildtransformator die ursprüngliche Transformatorarchitektur an die Bilderzeugungsdomäne durch Codieren von räumlicher Information in Pixelpositionen an, während wir uns mit einer Bildeingabe auf Rol-Ebene für eine Erdung befassen. Zusätzlich haben andere bidirektionale Codierer-Repräsentationen von Transformatoren (BERT (= Bidirectional Encoder Representations from Transformers)) als an einer umfangreichen maskierten Sprachmodellierung vortrainierten Transformator-Codierer vorgeschlagen, der ein Trainieren nachgelagerter Aufgaben erleichtert, um hochmoderne (SOTA (= state-of-the-art)) Ergebnisse zu erzielen.
Wie wir es nun zeigen und beschreiben werden, erweitert unsere Arbeit BERT auf die kreuzmodale Erdungsaufgabe durch gemeinsames Lernen kontextueller Repräsentationen von Sprachentitäten und visuellen Objekten. Zufälligerweise integriert eine andere Arbeitslinie namens VisualBERT auch BERT, um eine Erdung in einer einzigen Transformatorarchitektur zu behandeln. Ihr Modell erfordert jedoch sowohl aufgabenunabhängiges als auch aufgabenspezifisches Vortrainieren an kreuzmodalen Datensätzen, um wettbewerbsfähige Ergebnisse zu erzielen. Unsere erzielt hingegen SOTA-Ergebnisse ohne zusätzliches Vortrainieren und lässt jeweilige architektonische Belange für unterschiedliche Modalitäten zu.
Kontextuelle Erdung
Der Hauptansatz des Standes der Technik verwendet RNN/LSTM, um Phrasendarstellungen auf hoher Ebene zu extrahieren und dann unterschiedliche Aufmerksamkeitsmechanismen anzuwenden, um die Korrespondenz zu visuellen Bereichen bzw. Regionen einzuordnen. Während die verborgenen bzw. versteckten Repräsentationen bzw. Darstellungen der Entitätsphrasen den Sprachkontext berücksichtigen, ist der Bildkontext um visuelle Objekte im Gegensatz dazu auf eine Objekterkennung durch aufnahmefähige 2D-Felder beschränkt. Nichtsdestoweniger gibt es keine Positionsreihenfolge wie in Text für Objekte in einem Bild, um durch das RNN hindurchzugehen, um möglicherweise weit voneinander entfernte kontextuelle Abhängigkeiten zu erfassen.
Angesichts der jüngsten Fortschritte bei NLP adressiert die Transformatorarchitektur die weitreichende Abhängigkeit bzw. Weitbereichsabhängigkeit durch reine Aufmerksamkeitstechniken. Ohne dass RNN integriert ist, ermöglicht der Transformator, dass Text-Token ungeachtet des Bereichs bzw. der Reichweite paarweise effizient miteinander interagieren. Die Reihenfolgeninformation wird durch zusätzliche Positionscodierung injiziert. Durch diesen Durchbruch erhellt bzw. aufgeklärt können entsprechende kontextuelle Repräsentationen von Bild-Rols durch intramodale Interaktion mit codierter räumlicher Information abgeleitet werden.
2 ist ein schematisches Diagramm, das ein Diagramm eines Systems für einen Objektabruf in natürlicher Sprache gemäß Aspekten der vorliegenden Offenbarung darstellt. In Bezug auf diese Figur kann beobachtet werden, dass das kontextuelle Grundmodul bzw. Erdungsmodul als funktionaler Block dargestellt ist.
Ein Zugriff auf ein solches System wird durch - zum Beispiel - einen Computerbrowser erreicht, der ein Eingabefeld für einen Benutzer zeigt, damit dieser eine Abfrage in Bezug auf ein Bild eingeben kann, und der Abrufergebnisse in einem Bild vorlegt. Demgemäß ist eine Eingabe zum System ein Paar aus Textabfrage(n) und Bild(ern).
Die Abfrage wird in Token geparst bzw. zerlegt und in einen Objektdetektor angelegt (eingespeist), um auffallende Bereiche bzw. Regionen als Kandidaten für ein visuelles Objekt für eine nachfolgende Erdung zu lokalisieren. Das Modul für kontextuelle Erdung bzw. kontextuelles Grounding akzeptiert sowohl Entitätseinbettungen als auch visuelle Objektdarstellungen als Eingabe und bewertet ihre Korrespondenzen in Wahrscheinlichkeiten. Schließlich wird das Objekt entsprechend der Abfragesprachenentität mit der höchsten Wahrscheinlichkeitsbewertung abgerufen und dem Benutzer in einem Begrenzungsrahmen visualisiert.
3 ist ein schematisches Diagramm, das eine Architektur für kontextuelle Erdung und einen Arbeitsablauf gemäß den Aspekten der vorliegenden Offenbarung darstellt.
Gemäß Aspekten der vorliegenden Offenbarung lenkt das Erdungsziel die Aufmerksamkeit auf den entsprechenden Kontext in sowohl Text als auch Bild mit verbesserter Genauigkeit. Folglich beschreiben wir eine Architektur für kontextuelle Erdung, wie sie in 3 gezeigt ist.
Wie wir es detaillierter beschreiben werden, durchlaufen innerhalb des oben gezeigten Moduls für kontextuelle Erdung Einbettungsvektoren jeder eingegebenen Entität und visuelle Objekte mehrere kontextuelle Interaktionsschichten, um in derselben Modalität aufeinander aufzupassen, so dass die resultierenden Darstellungen Merkmale aus dem Kontext enthalten. Um die Leistungsfähigkeit weiter zu verbessern, können zusätzliche Codierungsmerkmale hinzugefügt werden, wie beispielsweise eine Positionscodierung, um Textentitäten in der Abfrage Reihenfolgeninformation hinzuzufügen, und die räumliche Codierung, um die Ortsinformation visueller Objekte im Bild hinzuzufügen. Schließlich ordnet die kontextuelle Erdungsschicht die kontextuelle Entität sowie Darstellungen für visuelle Objekte paarweise ein und gibt die resultierenden Bewertungen aus.
Wie es in dieser Figur gezeigt ist, besteht das Modell aus zwei Transformator-Codierer-Zweigen für sowohl Text- als auch Bildeingaben, um ihre jeweiligen kontextuellen Darstellungen für den Erdungskopf bzw. -anfang zu erzeugen, um über die Korrespondenz zu entscheiden. Der Textzweig wird aus dem BERT-Basismodell vortrainiert, das eine andere Positionseinbettung aus dem ursprünglichen Transformator trainiert. Andererseits nimmt der Bildzweig Rol-Merkmale als Eingabeobjekte von einem Objektdetektor.
Entsprechend trainieren wir ein zweischichtiges Mehrfachschicht-Perzeptron (MLP (= multi-layer perceptron)), um die räumliche Einbettung in Anbetracht der absoluten räumlichen Information von Rol-Ort und Größe, normalisiert auf das gesamte Bild, zu erzeugen. Beide Zweige fügen jeweils die positionelle und räumliche Einbettung zu den Token und Rols als Eingabe zur ersten Interaktionsschicht hinzu. Bei jeder Schicht führt jede verborgene Darstellung Selbstaufmerksamkeit füreinander durch, um eine neue verborgene Darstellung als Schichtenausgabe zu erzeugen. Die Selbstaufmerksamkeit kann mehrköpfig sein, um die Repräsentativität zu erhöhen. Am Ende jedes Zweigs wird der letzte verborgene Zustand in den Erdungskopf eingespeist, um die kreuzmodale Aufmerksamkeit mit verborgenen Zuständen von Textentitäten als Abfragen und verborgenen Darstellungen von Bildobjekten als Schlüssel durchzuführen. Die Aufmerksamkeitsantworten dienen als die passenden Korrespondenzen. Wenn die Korrespondenz nicht mit der Grundwahrheit bzw. Ground Truth übereinstimmt, wird der mittlere binäre Kreuzentropieverlust pro Entität zurück ausgebreitet, um die Interaktion über die Zweige hinweg zu führen. Wir bewerten den Erdungs- bzw. Grounding-Rückruf an dem Flickr30K-Entitätendatensatz und vergleichen die Ergebnisse mit SOTA-Arbeit im nächsten Abschnitt.
Be- bzw. Auswertung
Unser Ansatz einer kontextuellen Erdung verwendet den Transformator-Codierer, um den Kontext in sowohl Textentitäten als auch Bildobjekten zu erfassen. Während der Textzweig von BERT vortrainiert wird, wird der Bildzweig von Grund auf neu trainiert. Angesichts der Komplexität des Transformators hat frühere Arbeit gezeigt, dass Leistungsfähigkeit mit unterschiedlicher Anzahl von Interaktionsschichten und Aufmerksamkeitsköpfen variiert. Ebenso berücksichtigt die intramodale Objektinteraktion nicht notwendigerweise die Beziehung im Raum, es sei denn, es wird eine positionelle oder räumliche Codierung angewendet. Bei unserer Auswertung variieren wir die Anzahl von sowohl Schichten bzw. Ebenen als auch Köpfen zusammen mit einem Hinzufügen der räumlichen Codierung, um die in Tabelle 1 zusammengefassten Leistungsfähigkeitsvariationen zu untersuchen.
Wir erreichen die SOTA-Ergebnisse in allen Top-1-, -5- und -10-Wiederaufrufen basierend auf demselben Objektdetektor, wie er von früheren SOTA BAN verwendet ist. Die Aufschlüsselung von Rückrufen pro Entitätstypen ist in Tabelle 2 angegeben. Wie es darin beobachtet werden kann, profitieren sechs der acht Entitätstyp-Rückrufe von unserer kontextuellen Erdung. Interessanterweise leidet der Rückruf des Instrumententyps. Dies kann auf die relativ geringe Anzahl von Instrumenteninstanzen im Datensatz zurückzuführen sein, was das Modell daran hindert, den Kontext gut zu lernen.
Andererseits wird, verglichen mit dem Textzweig, der aus 12 Schichten und 12 Köpfen mit einer verborgener Größe von 768 Dimensionen besteht, die beste Leistungsfähigkeit mit dem Bildzweig mit 1 Schicht, 2 Aufmerksamkeitsköpfen und einer verborgenen Größe von 2048 Dimensionen erreicht. Darüber hinaus verbessert ein Hinzufügen der räumlichen Einbettung die Genauigkeit konsistent um 0.5% oder so. Dies liegt wahrscheinlich daran, dass Bildobjekte ungleich einer Worteinbettung, die den Kontext erfordert, um repräsentative verborgene Zustände für seine Bedeutung zu erzeugen, möglicherweise bereits einiges an Nachbarschaftsinformation durch aufnahmefähige Felder erfassen können.
Schließlich vergleichen wir in Tabelle 3 die Ergebnisse mit der jüngsten laufenden Arbeit VisualBERT, die ebenfalls verbesserte Erdungsergebnisse basierend auf einer einzigen Transformatorarchitektur erzielt, die die Darstellungen durch Verschmelzen von Text- und Bildeingaben zu Beginn lernt. Marginal schneidet unsere beim Top-1-Wiederaufruf besser ab.

Es ist zu beachten, dass unser Ansatz gemäß den Aspekten der vorliegenden Offenbarung vorteilhafterweise - ungleich VisualBERT, das ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an COCO-Untertitelung und dem Zieldatensatz erfordert - kein ähnliches Vortrainieren benötigt, um wettbewerbsfähige Ergebnisse zu erzielen. Zusätzlich ist unsere Architektur auch flexibel, um sich jeweils an unterschiedliche Eingabemodalitäten anzupassen. Tabelle 1.

Modell	Detektor	R@1	R@5	R@10	Obere Schranke
# 1	Schnelles RCNN	50.89	71.09	75.73	85.12
#2	YOLOv2	53.97	-	-	-
# 3	Abfrageadaptives RCNN	65.21	-	-	-
# 4	Von unten nach oben [1]	69.69	84.22	86.35	87.45
Unsere L1-H2-abs	Von unten nach oben [1]	71.36	84.76	86.49	87.45
Unsere L1-H1-abs	Von unten nach oben [1]	71.21	84.84	86.51	87.45
Unsere L1-H1	Von unten nach oben [1]	70.75	84.75	86.39	87.45
Unsere L3-H2-abs	Von unten nach oben [1]	70.82	84.59	86.49	87.45
Unsere L3-H2	Von unten nach oben [1]	70.39	84.68	86.35	87.45
Unsere L6-H4-abs	Von unten nach oben [1]	69.71	84.10	86.33	87.45

Tabelle 2.

Modell	Leute	Kleidung	Körperteile	Tiere	Fahrzeuge	Instrumente	Szene	Anderes
#1	64.73	46.88	17.21	65.83	68.75	37.65	51.39	31.77
#2	68.71	46.83	19.50	70.07	73.75	39.50	60.38	32.45
#3	78.17	61.99	35.25	74.41	76.16	56.69	68.07	47.42
#4	79.90	74.95	47.23	81.85	76.92	43.00	68.69	51.33
Unsere L1-H2-abs	81.95	76.5	46.27	82.05	79.0	35.8	70.23	53.53
# bzw. Anzahl von Instanzen	5656	2306	523	518	400	162	1619	3374

Tabelle 3.

Modell	R@1 Entwicklungstest	R@5 Entwicklungstest	R@10 Entwicklungstest	Entwicklungstest für obere Grenzen
VisualBERT ohne COCO Vortraining	68.07 -	83,98 -	86.24 -	86.97 87.45
VisualBERT	70.40 71.33	84.49 84.98	86.31 86.51
Unsere L1-H2-abs	69.8 71.36	84.22 84.76	86.21 86.49	86.97 87.45

Es ist zu beachten, dass unser Ansatz gemäß den Aspekten der vorliegenden Offenbarung vorteilhafterweise - ungleich VisualBERT, das ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an COCO-Untertitelung und dem Zieldatensatz erfordert - kein ähnliches Vortrainieren benötigt, um wettbewerbsfähige Ergebnisse zu erzielen. Zusätzlich ist unsere Architektur auch flexibel, um sich jeweils an unterschiedliche Eingabemodalitäten anzupassen.
Zusammenfassend werden Fachleute auf dem Gebiet einsehen, dass Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung die Leistungsfähigkeit von einem Erdungsmodul (Erdungsmodulen) vorteilhaft verbessern, indem sie relevante Textentitäten mit entsprechenden visuellen Objekten abgleichen. Wie es - in Bezug auf die vorliegende Offenbarung - weiterhin verstanden und eingesehen wird, gibt es zwei Zweige, die die Einbettungen von Textentitäten und Darstellungen von visuellen Objekten akzeptieren, die später durch die Korrespondenzen nach den nachstehenden Schritten eingeordnet werden.
Erstens nehmen die zwei Zweige an, dass die Eingabe der Textabfrage und des Bildes vorverarbeitet und in einige Einbettungen und Objektdarstellungen konvertiert bzw. umgewandelt wird. Insbesondere wird die Eingabeabfrage in Wörter oder kleinere Token tokenisiert, um Sprachentitätseinbettungen als Textzweigeingabe zu extrahieren. Vorteilhafterweise kann zusätzliche Information, wie beispielsweise die Positionscodierung, verwendet werden, um die Reihenfolgeninformation der Sequenz von Token anzureichern. Die Codierung kann aus einer absoluten 1D oder relativen Positionen voneinander abgeleitet und trainiert werden und die Codierung kann auf die Eingabeelemente und/oder die Aufmerksamkeit quer über nachfolgende kontextuelle Interaktionsschichten angewendet werden. Die eingegebenen visuellen Objekte werden von einem Objektdetektor extrahiert, der Objektmerkmale als die Bildzweigeingabe bereitstellt, wobei zusätzliche Information, wie beispielsweise räumliche Codierung, verwendet werden kann, um die räumlichen Beziehungen zwischen unterschiedlichen visuellen Objekten zu unterscheiden; die Codierung kann von absoluten relativen Standorten in 2D zueinander abgeleitet und trainiert werden; und die Codierung kann auf die eingegebenen Elemente und/oder Aufmerksamkeit quer über die nachfolgenden kontextuellen Interaktionsschichten angewendet werden;
Zweitens folgt jedem Zweig dann eine oder mehrere kontextuelle Interaktionsschichten, wo sich die Eingabeelemente von derselben Modalität gegenseitig beachten, um relevanten Kontext als die Schichtausgabedarstellungen zu erfassen.
Drittens werden alle Paare der Sprachentitätseinbettungen der letzten Schicht und visuelle Objektdarstellungen bewertet, um ihre Korrespondenzen als die Erdungsausgabe in Wahrscheinlichkeiten einzuordnen.
An diesem Punkt werden, während wir diese Offenbarung unter Verwendung einiger spezifischer Beispiele präsentiert haben, Fachleute auf dem Gebiet erkennen, dass unsere Lehren nicht so begrenzt sind. Demgemäß sollte diese Offenbarung nur durch den Schutzumfang der hierzu beigefügten Ansprüche eingeschränkt sein.

Claims

Verfahren zum Abrufen von Text und Bild, einschließlich Text- und Bildzweigen, wobei das Verfahren folgendes umfasst: Empfangen einer Textabfrage und eines Bildes als Eingabe; Parsen bzw. Zerlegen der eingegebenen Textabfrage in Token und Umwandeln von ihnen in Entitätseinbettungsvektoren; Lokalisieren von Kandidaten für visuelle Objekte im eingegebenen Bild; Bewerten von Korrespondenzen zwischen den Entitätseinbettungen und Kandidaten für visuelle Objekte; Bereitstellen des Objekts, visualisiert in einem Begrenzungsrahmen, entsprechend der Abfragetextentität mit der höchsten Wahrscheinlichkeitsbewertung für einen Benutzer des Systems, wobei bei dem Verfahren keine spezifische Einbettung oder Objektmerkmalsextraktion verwendet wird.
Verfahren eines Systems nach Anspruch 1, weiterhin umfassend: Vortrainieren des Textzweigs unter Verwendung eines BERT-(Bidirectional Encoder Representations from Transformers (= bidirektionale Codiererdarstellungen von Transformatoren)) -Basismodells.
Verfahren nach Anspruch 2, weiterhin umfassend: Empfangen, durch den Bildzweig, von Merkmalen eines Bereichs von Interesse (Rol (= Region of Interest) als eingegebene Objekte von einem Objektdetektor.
Verfahren nach Anspruch 3, weiterhin umfassend: Trainieren eines zweischichtigen Mehrschicht-Perzeptrons (MLP (= Multi-Layer Perceptron)), um eine räumliche Einbettung in Anbetracht einer absoluten räumlichen Information von Rol-Standort und -Größe, normalisiert auf das gesamte Bild, zu erzeugen.
Verfahren nach Anspruch 4, weiterhin umfassend: Jeweiliges Hinzufügen, durch beide Zweige, von positionellen und räumlichen Einbettungen zu Tokens und Rols als Eingabe zu einer ersten Interaktionsschicht des MLP.
Verfahren nach Anspruch 5, weiterhin umfassend: Durchführen, bei jeder Schicht des MLP, einer Selbstdämpfung durch jede verborgene Darstellung zueinander, um eine neue verborgene Darstellung als Schichtausgabe zu erzeugen.
Verfahren nach Anspruch 6, weiterhin umfassend: Bereitstellen, am Ende jedes Zweigs, eines letzten verborgenen Zustands für einen Erdungs- bzw. Grundkopf, um kreuzmodale Aufmerksamkeitsantworten mit verborgenen Zuständen für Textentitäten als Abfragen und verborgenen Darstellungen für Bildobjekte als Schlüssel bereitzustellen.
Verfahren nach Anspruchs 7, wobei übereinstimmende Korrespondenzen aus den Aufmerksamkeitsantworten bestimmt werden.
Verfahren nach Anspruch 8, weiterhin umfassend: Rückpropagieren bzw. Rückausbreiten eines mittleren binären Kreuzentropieverlustes pro Entität, wenn die Korrespondenz(en) nicht mit einer Grundwahrheit bzw. Ground Truth übereinstimmt (übereinstimmen).