DE112020004321T5 - Kontextuelle erdung von phrasen in natürlicher sprache in bildern - Google Patents

Kontextuelle erdung von phrasen in natürlicher sprache in bildern Download PDF

Info

Publication number
DE112020004321T5
DE112020004321T5 DE112020004321.5T DE112020004321T DE112020004321T5 DE 112020004321 T5 DE112020004321 T5 DE 112020004321T5 DE 112020004321 T DE112020004321 T DE 112020004321T DE 112020004321 T5 DE112020004321 T5 DE 112020004321T5
Authority
DE
Germany
Prior art keywords
image
text
procedure
input
grounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020004321.5T
Other languages
English (en)
Inventor
Farley Lai
Asim Kadav
Ning Xie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112020004321T5 publication Critical patent/DE112020004321T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Abstract

Aspekte der vorliegenden Offenbarung beschreiben Systeme, Verfahren und Strukturen, die eine kontextuelle Erdung bereitstellen - eine Interaktionstechnik höherer Ordnung, um einen entsprechenden Kontext zwischen Textentitäten und visuellen Objekten zu erfassen.

Description

  • TECHNISCHES GEBIET
  • Diese Offenbarung betrifft allgemein Sprachtext und Bilder. Insbesondere beschreibt sie Techniken für entsprechenden Sprachtext mit visuellen Objekten, die in Bildern enthalten sind.
  • HINTERGRUND
  • Spracherdung ist eine grundlegende Aufgabe, um Herausforderungen eines visuellen Denkens anzugehen, die ein Verstehen der Korrespondenz zwischen Textentitäten und Objekten in Bildern erfordern. Eine einfache, reale Anwendung von Spracherdung - ist ein System eines Abrufens in natürlicher Sprache, das eine Textabfrage als Eingabe nimmt und ein visuelles Objekt in einem gegebenen Bild, auf das durch die Sprachentität in der Abfrage Bezug genommen ist, als Ausgabe zurückgibt. Trotz dieses großen Bedarfs und Nutzens stellen automatisierte Systeme, Verfahren und Strukturen, die eine Spracherdung durchführen, signifikante technische Herausforderungen dar, die auf dem Gebiet noch nicht erfüllt sind.
  • ZUSAMMENFASSUNG
  • Ein Fortschritt auf dem Gebiet wird gemäß Aspekten der vorliegenden Offenbarung gemacht, die auf Systeme, Verfahren und Strukturen gerichtet ist, die eine kontextuelle Erdung für Entitäten in natürlicher Sprache in Bildern bereitstellen.
  • In scharfem Gegensatz zum Stand der Technik führen Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung eine neuartige Architektur ein, die vorteilhaft einen Kontext von entsprechenden Textentitäten und Bildbereichen erfasst, um dadurch eine Erdungsgenauigkeit zu verbessern.
  • In einem weiteren Gegensatz zum Stand der Technik führen Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung einen Ansatz einer kontextuellen Erdung ein, der jeweils den Kontext in entsprechenden Texten und Bildern ohne irgendeine spezifische Einbettung oder Objektmerkmalsextraktion erfasst.
  • Operationsmäßig akzeptiert unsere hierin offenbarte Architektur vortrainierte Text-Token-Einbettungen und Bild-Objektmerkmale von einem Objektdetektor als Eingabe. Verfahren d. Eine zusätzliche Codierung, die Positions- und Raum-Information erfasst, kann hinzugefügt werden, um die Merkmalsqualität zu verbessern. Getrennte Text- und Bildzweige ermöglichen jeweilige architektonische Verfeinerungen für unterschiedliche Modalitäten. Der Textzweig wird an einer großräumigen maskierten Sprachmodellierungsaufgabe vortrainiert, während der Bildzweig von Grund auf trainiert wird.
  • Unser Modell lernt jeweils kontextuelle Repräsentationen der Text-Token und Bildobjekte durch Interaktionsschichten hoher Ordnung. Ein abschließender Erdungskopf bzw. -anfang ordnet eine Korrespondenz zwischen den textuellen und visuellen Repräsentationen bzw. Darstellungen durch kreuzmodale Interaktion ein.
  • Schließlich zeigen wir in unserer Auswertung, dass unser Modell die hochmoderne Erdungsgenauigkeit von 71,36% gegenüber dem Flickr30K-Entitätendatensatz erreicht. Es ist kein zusätzliches Vortrainieren nötig, um wettbewerbsfähige Ergebnisse im Vergleich mit ähnlicher Arbeit zu liefern, die häufig ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an kreuzmodalen Datensätzen erfordert.
  • Figurenliste
  • Ein vollständigeres Verstehen der vorliegenden Offenbarung kann durch Bezugnahme auf die beigefügte Zeichnung realisiert werden, in welcher:
    • 1 ein schematisches Diagramm ist, das ein beispielhaftes Bild von Flickr30K-Entitäten darstellt, die mit Begrenzungsrahmen entsprechend Entitäten in der Bildlegende versehen sind;
    • 2 ein schematisches Diagramm ist, das ein Diagramm eines Systems für einen Objektabruf in natürlicher Sprache gemäß Aspekten der vorliegenden Offenbarung darstellt; und
    • 3 ein schematisches Diagramm ist, das eine Architektur einer kontextuellen Erdung und einen Arbeitsablauf gemäß Aspekten der vorliegenden Offenbarung darstellt.
  • Die illustrativen Ausführungsformen werden durch die Figuren und die detaillierte Beschreibung ausführlicher beschrieben. Ausführungsformen gemäß dieser Offenbarung können jedoch in verschiedenen Formen verkörpert sein und sind nicht auf spezifische oder illustrative Ausführungsformen beschränkt, die in der Zeichnung und der detaillierten Beschreibung beschrieben sind.
  • BESCHREIBUNG
  • Das Folgende stellt lediglich die Prinzipien der Offenbarung dar. Es wird somit eingesehen werden, dass Fachleute auf dem Gebiet in der Lage sein werden, verschiedene Anordnungen zu entwickeln, die, obwohl sie hierin nicht ausdrücklich beschrieben oder gezeigt werden, die Prinzipien der Offenbarung verkörpern und in ihrem Sinngehalt und Schutzumfang enthalten sind.
  • Weiterhin ist beabsichtigt, dass alle Beispiele und bedingten Formulierungen, die hierin vorgetragen werden, nur für pädagogische Zwecke bestimmt sind, um dem Leser zu helfen, die Prinzipien der Offenbarung und die Konzepte, die von dem (den) Erfinder(n) zum Voranbringen des Standes der Technik beigesteuert sind, zu verstehen, und sie so auszulegen sind, dass sie ohne Beschränkung auf solche spezifisch vorgetragenen Beispiele und Bedingungen sind.
  • Darüber hinaus ist beabsichtigt, dass alle Aussagen hierin, die Prinzipien, Aspekte und Ausführungsformen der Offenbarung vortragen, sowie spezifische Beispiele davon sowohl strukturelle als auch funktionelle Äquivalente davon umfassen. Zusätzlich ist beabsichtigt, dass solche Äquivalente sowohl derzeit bekannte Äquivalente als auch in Zukunft entwickelte Äquivalente umfassen, d.h. irgendwelche entwickelten Elemente, die ungeachtet einer Struktur dieselbe Funktion durchführen.
  • Somit wird es beispielsweise von Fachleuten auf dem Gebiet eingesehen werden, dass irgendwelche Blockdiagramme hierin Konzeptansichten einer illustrativen Schaltung darstellen, die die Prinzipien der Offenbarung verkörpert.
  • Solange es hierin nicht ausdrücklich anders spezifiziert ist, sind die FIG., aus denen sich die Zeichnung zusammensetzt, nicht maßstabsgetreu gezeichnet.
  • Als zusätzlichen Hintergrund merken wir an, dass modellübergreifendes Denken für ein Erden von Entitäten und Objekten in unterschiedlichen Modalitäten, wie beispielsweise Text und Bildern, herausfordernd ist. Repräsentative Aufgaben enthalten eine visuelle Fragebeantwortung (VQA (= visual question answering) und eine Bildbetitelung, die geerdete Merkmale zwischen Text und Bildern nutzt, um Vorhersagen zu machen.
  • Während jüngste Fortschritte bei diesen Aufgaben beeindruckende Ergebnisse erzielen, ist die Qualität der Korrespondenz zwischen Textentitäten und visuellen Objekten in beiden Modalitäten weder überzeugend noch interpretierbar. Dies liegt wahrscheinlich daran, dass die Erdung von einer Modalität zur anderen implizit trainiert wird und irgendwelche Zwischenergebnisse oft nicht so explizit wie bei einer Objekterkennung ausgewertet werden.
  • Um dieses Problem zu beheben, wurde der Flickr30K-Entitätendatensatz mit präzisen Anmerkungen der Korrespondenz zwischen Sprachphrasen und Bildbereichen, um die Aus- bzw. Bewertung einer visuellen Erdung zu erleichtern, erstellt.
  • 1 ist ein schematisches Diagramm, das ein beispielhaftes Bild von Flickr30K-Entitäten darstellt, die mit Begrenzungsrahmen entsprechend den Entitäten in der Bildlegende versehen sind. In dieser Figur ist auf zwei Männer als getrennte Entitäten bzw. Einheiten Bezug genommen. Um die zwei Männer im Bild eindeutig zu erden, muss ein Erdungsalgorithmus einen jeweiligen Kontext und die Attribute zum Lernen der Korrespondenz berücksichtigen.
  • Historisch wurden im Laufe der Jahre viele auf Deep-Learning bzw. tiefem Lernen basierende Ansätze vorgeschlagen, um mit dieser Lokalisierungsherausforderung fertigzuwerden. Die Grundidee hinter solchen Ansätzen besteht darin, repräsentative Merkmale für jede Entität sowie auch jedes Objekt abzuleiten und dann ihre Korrespondenz zu bewerten. In der Modalität einer Untertitel- bzw. Legendeneingabe beginnen einzelne Token-Darstellungen normalerweise mit den Worteinbettungen, gefolgt von einem rekurrenten neuronalen Netzwerk (RNN), normalerweise mit langem Kurzzeitgedächtnis (LSTM (= Long Short-Term Memory)) oder mit geschlossenen wiederkehrenden Einheiten (GRU (= Gated Recurrent Units)), um die kontextuelle Bedeutung der Textentität in einem Satz zu erfassen. Andererseits werden die visuellen Objekte in Bildbereichen von Interesse (Rol (= regions of interest)) durch Objekterkennung extrahiert.
  • Jedes erkannte Objekt erfasst typischerweise einen begrenzten Kontext durch die aufnahmefähigen Felder von 2D-Faltungen. Fortgeschrittene Techniken, wie beispielsweise Feature Pyramid Network (FPN) verbessern die Darstellungen durch Kombinieren von Merkmalen auf unterschiedlichen semantischen Ebenen in Bezug auf die Objektgröße. Dennoch sind diese herkömmlichen Ansätze auf ein effektives Extrahieren eines relevanten weitreichenden Kontextes in sowohl Text als auch Bildern beschränkt. Angesichts dieser Beschränkung sind nicht-lokale Aufmerksamkeitstechniken vorgeschlagen worden, um sich mit den weitreichenden Abhängigkeiten bei Aufgaben einer Verarbeitung natürlicher Sprache (NLP (= natural language processing)) und von Computer Vision (CV) zu beschäftigen.
  • Inspiriert von dieser Weiterentwicklung führen wir den Ansatz einer kontextuellen Erdung zur Verbesserung der Repräsentationen durch umfangreiche intra- und intermodale Interaktion ein, um kontextuelle Korrespondenz zwischen Textentitäten und visuellen Objekten abzuleiten.
  • Ähnliche Arbeit. In Bezug auf die Methode von Merkmalsinteraktion demonstriert die Transformatorarchitektur bzw. Transformer-Architektur für maschinelle Übersetzung einen systematischen Ansatz zur effizienten Berechnung der Interaktion zwischen Sprachelementen. Etwa gleichzeitig verallgemeinern nicht-lokale Netzwerke den Transformator auf die CV-Domäne, was die Merkmalsinteraktion auf unterschiedlichen Granularitätsebenen von Merkmalskarten bis zu gepoolten Objekten unterstützt.
  • In jüngster Zeit passt der Bildtransformator die ursprüngliche Transformatorarchitektur an die Bilderzeugungsdomäne durch Codieren von räumlicher Information in Pixelpositionen an, während wir uns mit einer Bildeingabe auf Rol-Ebene für eine Erdung befassen. Zusätzlich haben andere bidirektionale Codierer-Repräsentationen von Transformatoren (BERT (= Bidirectional Encoder Representations from Transformers)) als an einer umfangreichen maskierten Sprachmodellierung vortrainierten Transformator-Codierer vorgeschlagen, der ein Trainieren nachgelagerter Aufgaben erleichtert, um hochmoderne (SOTA (= state-of-the-art)) Ergebnisse zu erzielen.
  • Wie wir es nun zeigen und beschreiben werden, erweitert unsere Arbeit BERT auf die kreuzmodale Erdungsaufgabe durch gemeinsames Lernen kontextueller Repräsentationen von Sprachentitäten und visuellen Objekten. Zufälligerweise integriert eine andere Arbeitslinie namens VisualBERT auch BERT, um eine Erdung in einer einzigen Transformatorarchitektur zu behandeln. Ihr Modell erfordert jedoch sowohl aufgabenunabhängiges als auch aufgabenspezifisches Vortrainieren an kreuzmodalen Datensätzen, um wettbewerbsfähige Ergebnisse zu erzielen. Unsere erzielt hingegen SOTA-Ergebnisse ohne zusätzliches Vortrainieren und lässt jeweilige architektonische Belange für unterschiedliche Modalitäten zu.
  • Kontextuelle Erdung
  • Der Hauptansatz des Standes der Technik verwendet RNN/LSTM, um Phrasendarstellungen auf hoher Ebene zu extrahieren und dann unterschiedliche Aufmerksamkeitsmechanismen anzuwenden, um die Korrespondenz zu visuellen Bereichen bzw. Regionen einzuordnen. Während die verborgenen bzw. versteckten Repräsentationen bzw. Darstellungen der Entitätsphrasen den Sprachkontext berücksichtigen, ist der Bildkontext um visuelle Objekte im Gegensatz dazu auf eine Objekterkennung durch aufnahmefähige 2D-Felder beschränkt. Nichtsdestoweniger gibt es keine Positionsreihenfolge wie in Text für Objekte in einem Bild, um durch das RNN hindurchzugehen, um möglicherweise weit voneinander entfernte kontextuelle Abhängigkeiten zu erfassen.
  • Angesichts der jüngsten Fortschritte bei NLP adressiert die Transformatorarchitektur die weitreichende Abhängigkeit bzw. Weitbereichsabhängigkeit durch reine Aufmerksamkeitstechniken. Ohne dass RNN integriert ist, ermöglicht der Transformator, dass Text-Token ungeachtet des Bereichs bzw. der Reichweite paarweise effizient miteinander interagieren. Die Reihenfolgeninformation wird durch zusätzliche Positionscodierung injiziert. Durch diesen Durchbruch erhellt bzw. aufgeklärt können entsprechende kontextuelle Repräsentationen von Bild-Rols durch intramodale Interaktion mit codierter räumlicher Information abgeleitet werden.
  • 2 ist ein schematisches Diagramm, das ein Diagramm eines Systems für einen Objektabruf in natürlicher Sprache gemäß Aspekten der vorliegenden Offenbarung darstellt. In Bezug auf diese Figur kann beobachtet werden, dass das kontextuelle Grundmodul bzw. Erdungsmodul als funktionaler Block dargestellt ist.
  • Ein Zugriff auf ein solches System wird durch - zum Beispiel - einen Computerbrowser erreicht, der ein Eingabefeld für einen Benutzer zeigt, damit dieser eine Abfrage in Bezug auf ein Bild eingeben kann, und der Abrufergebnisse in einem Bild vorlegt. Demgemäß ist eine Eingabe zum System ein Paar aus Textabfrage(n) und Bild(ern).
  • Die Abfrage wird in Token geparst bzw. zerlegt und in einen Objektdetektor angelegt (eingespeist), um auffallende Bereiche bzw. Regionen als Kandidaten für ein visuelles Objekt für eine nachfolgende Erdung zu lokalisieren. Das Modul für kontextuelle Erdung bzw. kontextuelles Grounding akzeptiert sowohl Entitätseinbettungen als auch visuelle Objektdarstellungen als Eingabe und bewertet ihre Korrespondenzen in Wahrscheinlichkeiten. Schließlich wird das Objekt entsprechend der Abfragesprachenentität mit der höchsten Wahrscheinlichkeitsbewertung abgerufen und dem Benutzer in einem Begrenzungsrahmen visualisiert.
  • 3 ist ein schematisches Diagramm, das eine Architektur für kontextuelle Erdung und einen Arbeitsablauf gemäß den Aspekten der vorliegenden Offenbarung darstellt.
  • Gemäß Aspekten der vorliegenden Offenbarung lenkt das Erdungsziel die Aufmerksamkeit auf den entsprechenden Kontext in sowohl Text als auch Bild mit verbesserter Genauigkeit. Folglich beschreiben wir eine Architektur für kontextuelle Erdung, wie sie in 3 gezeigt ist.
  • Wie wir es detaillierter beschreiben werden, durchlaufen innerhalb des oben gezeigten Moduls für kontextuelle Erdung Einbettungsvektoren jeder eingegebenen Entität und visuelle Objekte mehrere kontextuelle Interaktionsschichten, um in derselben Modalität aufeinander aufzupassen, so dass die resultierenden Darstellungen Merkmale aus dem Kontext enthalten. Um die Leistungsfähigkeit weiter zu verbessern, können zusätzliche Codierungsmerkmale hinzugefügt werden, wie beispielsweise eine Positionscodierung, um Textentitäten in der Abfrage Reihenfolgeninformation hinzuzufügen, und die räumliche Codierung, um die Ortsinformation visueller Objekte im Bild hinzuzufügen. Schließlich ordnet die kontextuelle Erdungsschicht die kontextuelle Entität sowie Darstellungen für visuelle Objekte paarweise ein und gibt die resultierenden Bewertungen aus.
  • Wie es in dieser Figur gezeigt ist, besteht das Modell aus zwei Transformator-Codierer-Zweigen für sowohl Text- als auch Bildeingaben, um ihre jeweiligen kontextuellen Darstellungen für den Erdungskopf bzw. -anfang zu erzeugen, um über die Korrespondenz zu entscheiden. Der Textzweig wird aus dem BERT-Basismodell vortrainiert, das eine andere Positionseinbettung aus dem ursprünglichen Transformator trainiert. Andererseits nimmt der Bildzweig Rol-Merkmale als Eingabeobjekte von einem Objektdetektor.
  • Entsprechend trainieren wir ein zweischichtiges Mehrfachschicht-Perzeptron (MLP (= multi-layer perceptron)), um die räumliche Einbettung in Anbetracht der absoluten räumlichen Information von Rol-Ort und Größe, normalisiert auf das gesamte Bild, zu erzeugen. Beide Zweige fügen jeweils die positionelle und räumliche Einbettung zu den Token und Rols als Eingabe zur ersten Interaktionsschicht hinzu. Bei jeder Schicht führt jede verborgene Darstellung Selbstaufmerksamkeit füreinander durch, um eine neue verborgene Darstellung als Schichtenausgabe zu erzeugen. Die Selbstaufmerksamkeit kann mehrköpfig sein, um die Repräsentativität zu erhöhen. Am Ende jedes Zweigs wird der letzte verborgene Zustand in den Erdungskopf eingespeist, um die kreuzmodale Aufmerksamkeit mit verborgenen Zuständen von Textentitäten als Abfragen und verborgenen Darstellungen von Bildobjekten als Schlüssel durchzuführen. Die Aufmerksamkeitsantworten dienen als die passenden Korrespondenzen. Wenn die Korrespondenz nicht mit der Grundwahrheit bzw. Ground Truth übereinstimmt, wird der mittlere binäre Kreuzentropieverlust pro Entität zurück ausgebreitet, um die Interaktion über die Zweige hinweg zu führen. Wir bewerten den Erdungs- bzw. Grounding-Rückruf an dem Flickr30K-Entitätendatensatz und vergleichen die Ergebnisse mit SOTA-Arbeit im nächsten Abschnitt.
  • Be- bzw. Auswertung
  • Unser Ansatz einer kontextuellen Erdung verwendet den Transformator-Codierer, um den Kontext in sowohl Textentitäten als auch Bildobjekten zu erfassen. Während der Textzweig von BERT vortrainiert wird, wird der Bildzweig von Grund auf neu trainiert. Angesichts der Komplexität des Transformators hat frühere Arbeit gezeigt, dass Leistungsfähigkeit mit unterschiedlicher Anzahl von Interaktionsschichten und Aufmerksamkeitsköpfen variiert. Ebenso berücksichtigt die intramodale Objektinteraktion nicht notwendigerweise die Beziehung im Raum, es sei denn, es wird eine positionelle oder räumliche Codierung angewendet. Bei unserer Auswertung variieren wir die Anzahl von sowohl Schichten bzw. Ebenen als auch Köpfen zusammen mit einem Hinzufügen der räumlichen Codierung, um die in Tabelle 1 zusammengefassten Leistungsfähigkeitsvariationen zu untersuchen.
  • Wir erreichen die SOTA-Ergebnisse in allen Top-1-, -5- und -10-Wiederaufrufen basierend auf demselben Objektdetektor, wie er von früheren SOTA BAN verwendet ist. Die Aufschlüsselung von Rückrufen pro Entitätstypen ist in Tabelle 2 angegeben. Wie es darin beobachtet werden kann, profitieren sechs der acht Entitätstyp-Rückrufe von unserer kontextuellen Erdung. Interessanterweise leidet der Rückruf des Instrumententyps. Dies kann auf die relativ geringe Anzahl von Instrumenteninstanzen im Datensatz zurückzuführen sein, was das Modell daran hindert, den Kontext gut zu lernen.
  • Andererseits wird, verglichen mit dem Textzweig, der aus 12 Schichten und 12 Köpfen mit einer verborgener Größe von 768 Dimensionen besteht, die beste Leistungsfähigkeit mit dem Bildzweig mit 1 Schicht, 2 Aufmerksamkeitsköpfen und einer verborgenen Größe von 2048 Dimensionen erreicht. Darüber hinaus verbessert ein Hinzufügen der räumlichen Einbettung die Genauigkeit konsistent um 0.5% oder so. Dies liegt wahrscheinlich daran, dass Bildobjekte ungleich einer Worteinbettung, die den Kontext erfordert, um repräsentative verborgene Zustände für seine Bedeutung zu erzeugen, möglicherweise bereits einiges an Nachbarschaftsinformation durch aufnahmefähige Felder erfassen können.
  • Schließlich vergleichen wir in Tabelle 3 die Ergebnisse mit der jüngsten laufenden Arbeit VisualBERT, die ebenfalls verbesserte Erdungsergebnisse basierend auf einer einzigen Transformatorarchitektur erzielt, die die Darstellungen durch Verschmelzen von Text- und Bildeingaben zu Beginn lernt. Marginal schneidet unsere beim Top-1-Wiederaufruf besser ab.
  • Es ist zu beachten, dass unser Ansatz gemäß den Aspekten der vorliegenden Offenbarung vorteilhafterweise - ungleich VisualBERT, das ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an COCO-Untertitelung und dem Zieldatensatz erfordert - kein ähnliches Vortrainieren benötigt, um wettbewerbsfähige Ergebnisse zu erzielen. Zusätzlich ist unsere Architektur auch flexibel, um sich jeweils an unterschiedliche Eingabemodalitäten anzupassen. Tabelle 1.
    Modell Detektor R@1 R@5 R@10 Obere Schranke
    # 1 Schnelles RCNN 50.89 71.09 75.73 85.12
    #2 YOLOv2 53.97 - - -
    # 3 Abfrageadaptives RCNN 65.21 - - -
    # 4 Von unten nach oben [1] 69.69 84.22 86.35 87.45
    Unsere L1-H2-abs Von unten nach oben [1] 71.36 84.76 86.49 87.45
    Unsere L1-H1-abs Von unten nach oben [1] 71.21 84.84 86.51 87.45
    Unsere L1-H1 Von unten nach oben [1] 70.75 84.75 86.39 87.45
    Unsere L3-H2-abs Von unten nach oben [1] 70.82 84.59 86.49 87.45
    Unsere L3-H2 Von unten nach oben [1] 70.39 84.68 86.35 87.45
    Unsere L6-H4-abs Von unten nach oben [1] 69.71 84.10 86.33 87.45
    Tabelle 2.
    Modell Leute Kleidung Körperteile Tiere Fahrzeuge Instrumente Szene Anderes
    #1 64.73 46.88 17.21 65.83 68.75 37.65 51.39 31.77
    #2 68.71 46.83 19.50 70.07 73.75 39.50 60.38 32.45
    #3 78.17 61.99 35.25 74.41 76.16 56.69 68.07 47.42
    #4 79.90 74.95 47.23 81.85 76.92 43.00 68.69 51.33
    Unsere L1-H2-abs 81.95 76.5 46.27 82.05 79.0 35.8 70.23 53.53
    # bzw. Anzahl von Instanzen 5656 2306 523 518 400 162 1619 3374
    Tabelle 3.
    Modell R@1 Entwicklungstest R@5 Entwicklungstest R@10 Entwicklungstest Entwicklungstest für obere Grenzen
    VisualBERT ohne COCO Vortraining 68.07 - 83,98 - 86.24 - 86.97 87.45
    VisualBERT 70.40 71.33 84.49 84.98 86.31 86.51
    Unsere L1-H2-abs 69.8 71.36 84.22 84.76 86.21 86.49 86.97 87.45
  • Es ist zu beachten, dass unser Ansatz gemäß den Aspekten der vorliegenden Offenbarung vorteilhafterweise - ungleich VisualBERT, das ein aufgabenunabhängiges und aufgabenspezifisches Vortrainieren an COCO-Untertitelung und dem Zieldatensatz erfordert - kein ähnliches Vortrainieren benötigt, um wettbewerbsfähige Ergebnisse zu erzielen. Zusätzlich ist unsere Architektur auch flexibel, um sich jeweils an unterschiedliche Eingabemodalitäten anzupassen.
  • Zusammenfassend werden Fachleute auf dem Gebiet einsehen, dass Systeme, Verfahren und Strukturen gemäß Aspekten der vorliegenden Offenbarung die Leistungsfähigkeit von einem Erdungsmodul (Erdungsmodulen) vorteilhaft verbessern, indem sie relevante Textentitäten mit entsprechenden visuellen Objekten abgleichen. Wie es - in Bezug auf die vorliegende Offenbarung - weiterhin verstanden und eingesehen wird, gibt es zwei Zweige, die die Einbettungen von Textentitäten und Darstellungen von visuellen Objekten akzeptieren, die später durch die Korrespondenzen nach den nachstehenden Schritten eingeordnet werden.
  • Erstens nehmen die zwei Zweige an, dass die Eingabe der Textabfrage und des Bildes vorverarbeitet und in einige Einbettungen und Objektdarstellungen konvertiert bzw. umgewandelt wird. Insbesondere wird die Eingabeabfrage in Wörter oder kleinere Token tokenisiert, um Sprachentitätseinbettungen als Textzweigeingabe zu extrahieren. Vorteilhafterweise kann zusätzliche Information, wie beispielsweise die Positionscodierung, verwendet werden, um die Reihenfolgeninformation der Sequenz von Token anzureichern. Die Codierung kann aus einer absoluten 1D oder relativen Positionen voneinander abgeleitet und trainiert werden und die Codierung kann auf die Eingabeelemente und/oder die Aufmerksamkeit quer über nachfolgende kontextuelle Interaktionsschichten angewendet werden. Die eingegebenen visuellen Objekte werden von einem Objektdetektor extrahiert, der Objektmerkmale als die Bildzweigeingabe bereitstellt, wobei zusätzliche Information, wie beispielsweise räumliche Codierung, verwendet werden kann, um die räumlichen Beziehungen zwischen unterschiedlichen visuellen Objekten zu unterscheiden; die Codierung kann von absoluten relativen Standorten in 2D zueinander abgeleitet und trainiert werden; und die Codierung kann auf die eingegebenen Elemente und/oder Aufmerksamkeit quer über die nachfolgenden kontextuellen Interaktionsschichten angewendet werden;
  • Zweitens folgt jedem Zweig dann eine oder mehrere kontextuelle Interaktionsschichten, wo sich die Eingabeelemente von derselben Modalität gegenseitig beachten, um relevanten Kontext als die Schichtausgabedarstellungen zu erfassen.
  • Drittens werden alle Paare der Sprachentitätseinbettungen der letzten Schicht und visuelle Objektdarstellungen bewertet, um ihre Korrespondenzen als die Erdungsausgabe in Wahrscheinlichkeiten einzuordnen.
  • An diesem Punkt werden, während wir diese Offenbarung unter Verwendung einiger spezifischer Beispiele präsentiert haben, Fachleute auf dem Gebiet erkennen, dass unsere Lehren nicht so begrenzt sind. Demgemäß sollte diese Offenbarung nur durch den Schutzumfang der hierzu beigefügten Ansprüche eingeschränkt sein.

Claims (9)

  1. Verfahren zum Abrufen von Text und Bild, einschließlich Text- und Bildzweigen, wobei das Verfahren folgendes umfasst: Empfangen einer Textabfrage und eines Bildes als Eingabe; Parsen bzw. Zerlegen der eingegebenen Textabfrage in Token und Umwandeln von ihnen in Entitätseinbettungsvektoren; Lokalisieren von Kandidaten für visuelle Objekte im eingegebenen Bild; Bewerten von Korrespondenzen zwischen den Entitätseinbettungen und Kandidaten für visuelle Objekte; Bereitstellen des Objekts, visualisiert in einem Begrenzungsrahmen, entsprechend der Abfragetextentität mit der höchsten Wahrscheinlichkeitsbewertung für einen Benutzer des Systems, wobei bei dem Verfahren keine spezifische Einbettung oder Objektmerkmalsextraktion verwendet wird.
  2. Verfahren eines Systems nach Anspruch 1, weiterhin umfassend: Vortrainieren des Textzweigs unter Verwendung eines BERT-(Bidirectional Encoder Representations from Transformers (= bidirektionale Codiererdarstellungen von Transformatoren)) -Basismodells.
  3. Verfahren nach Anspruch 2, weiterhin umfassend: Empfangen, durch den Bildzweig, von Merkmalen eines Bereichs von Interesse (Rol (= Region of Interest) als eingegebene Objekte von einem Objektdetektor.
  4. Verfahren nach Anspruch 3, weiterhin umfassend: Trainieren eines zweischichtigen Mehrschicht-Perzeptrons (MLP (= Multi-Layer Perceptron)), um eine räumliche Einbettung in Anbetracht einer absoluten räumlichen Information von Rol-Standort und -Größe, normalisiert auf das gesamte Bild, zu erzeugen.
  5. Verfahren nach Anspruch 4, weiterhin umfassend: Jeweiliges Hinzufügen, durch beide Zweige, von positionellen und räumlichen Einbettungen zu Tokens und Rols als Eingabe zu einer ersten Interaktionsschicht des MLP.
  6. Verfahren nach Anspruch 5, weiterhin umfassend: Durchführen, bei jeder Schicht des MLP, einer Selbstdämpfung durch jede verborgene Darstellung zueinander, um eine neue verborgene Darstellung als Schichtausgabe zu erzeugen.
  7. Verfahren nach Anspruch 6, weiterhin umfassend: Bereitstellen, am Ende jedes Zweigs, eines letzten verborgenen Zustands für einen Erdungs- bzw. Grundkopf, um kreuzmodale Aufmerksamkeitsantworten mit verborgenen Zuständen für Textentitäten als Abfragen und verborgenen Darstellungen für Bildobjekte als Schlüssel bereitzustellen.
  8. Verfahren nach Anspruchs 7, wobei übereinstimmende Korrespondenzen aus den Aufmerksamkeitsantworten bestimmt werden.
  9. Verfahren nach Anspruch 8, weiterhin umfassend: Rückpropagieren bzw. Rückausbreiten eines mittleren binären Kreuzentropieverlustes pro Entität, wenn die Korrespondenz(en) nicht mit einer Grundwahrheit bzw. Ground Truth übereinstimmt (übereinstimmen).
DE112020004321.5T 2019-09-12 2020-09-10 Kontextuelle erdung von phrasen in natürlicher sprache in bildern Pending DE112020004321T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962899307P 2019-09-12 2019-09-12
US62/899,307 2019-09-12
US17/014,984 US11620814B2 (en) 2019-09-12 2020-09-08 Contextual grounding of natural language phrases in images
US17/014,984 2020-09-08
PCT/US2020/050258 WO2021050776A1 (en) 2019-09-12 2020-09-10 Contextual grounding of natural language phrases in images

Publications (1)

Publication Number Publication Date
DE112020004321T5 true DE112020004321T5 (de) 2022-06-09

Family

ID=74865601

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020004321.5T Pending DE112020004321T5 (de) 2019-09-12 2020-09-10 Kontextuelle erdung von phrasen in natürlicher sprache in bildern

Country Status (4)

Country Link
US (1) US11620814B2 (de)
JP (1) JP7345050B2 (de)
DE (1) DE112020004321T5 (de)
WO (1) WO2021050776A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620814B2 (en) * 2019-09-12 2023-04-04 Nec Corporation Contextual grounding of natural language phrases in images
US11809822B2 (en) * 2020-02-27 2023-11-07 Adobe Inc. Joint visual-semantic embedding and grounding via multi-task training for image searching
EP3926531B1 (de) * 2020-06-17 2024-04-24 Tata Consultancy Services Limited Verfahren und system zum visio-linguistischen verstehen unter verwendung kontextueller sprachmodell-reasoner
US11615567B2 (en) * 2020-11-18 2023-03-28 Adobe Inc. Image segmentation using text embedding
US11532378B2 (en) * 2020-11-23 2022-12-20 NE47 Bio, Inc. Protein database search using learned representations
US11775617B1 (en) * 2021-03-15 2023-10-03 Amazon Technologies, Inc. Class-agnostic object detection
CN113378815B (zh) * 2021-06-16 2023-11-24 南京信息工程大学 一种场景文本定位识别的系统及其训练和识别的方法
WO2022261570A1 (en) * 2021-08-04 2022-12-15 Innopeak Technology, Inc. Cross-attention system and method for fast video-text retrieval task with image clip
CN115098722B (zh) * 2022-08-25 2022-12-27 北京达佳互联信息技术有限公司 文本和图像的匹配方法、装置、电子设备和存储介质
CN116702094B (zh) * 2023-08-01 2023-12-22 国家计算机网络与信息安全管理中心 一种群体应用偏好特征表示方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7695960B2 (en) * 2003-06-05 2010-04-13 Transgene S.A. Composition comprising the polyprotein NS3/NS4 and the polypeptide NS5B of HCV, expression vectors including the corresponding nucleic sequences and their therapeutic use
US8521670B2 (en) * 2011-05-25 2013-08-27 HGST Netherlands B.V. Artificial neural network application for magnetic core width prediction and modeling for magnetic disk drive manufacture
US10831820B2 (en) * 2013-05-01 2020-11-10 Cloudsight, Inc. Content based image management and selection
GB2542539A (en) * 2014-06-09 2017-03-22 The Univ Of Lincoln Assembly, apparatus, system and method
US9697234B1 (en) * 2014-12-16 2017-07-04 A9.Com, Inc. Approaches for associating terms with image regions
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
US10579897B2 (en) * 2017-10-02 2020-03-03 Xnor.ai Inc. Image based object detection
KR102501264B1 (ko) * 2017-10-02 2023-02-20 센센 네트웍스 그룹 피티와이 엘티디 기계 학습 기반의 개체 검출을 위한 시스템 및 방법
US10592767B2 (en) * 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11250299B2 (en) * 2018-11-01 2022-02-15 Nec Corporation Learning representations of generalized cross-modal entailment tasks
NL2021956B1 (en) * 2018-11-08 2020-05-15 Univ Johannesburg Method and system for high speed detection of diamonds
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification
US11544461B2 (en) * 2019-05-14 2023-01-03 Intel Corporation Early exit for natural language processing models
US11620814B2 (en) * 2019-09-12 2023-04-04 Nec Corporation Contextual grounding of natural language phrases in images

Also Published As

Publication number Publication date
US11620814B2 (en) 2023-04-04
JP7345050B2 (ja) 2023-09-14
US20210081728A1 (en) 2021-03-18
JP2022543123A (ja) 2022-10-07
WO2021050776A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
DE112020004321T5 (de) Kontextuelle erdung von phrasen in natürlicher sprache in bildern
DE112018002601T5 (de) Verarbeitung natürlicher sprache unter verwendung von kontextspezifischen wortvektoren
DE102017011262A1 (de) Themenverknüpfung und Markierung für dichte Bilder
DE69634221T2 (de) Verfahren und Gerät zur Verarbeitung visueller Information
DE69919464T2 (de) Elektronische Vorrichtung zur Bildausrichtung
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE102018007936A1 (de) Beantworten von Fragen für Datenvisualisierungen
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE102016010909A1 (de) Strukturiertes Modellieren, Extrahieren und Lokalisieren von Wissen aus Bildern
WO2020049154A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE102018128531A1 (de) System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
DE2557553A1 (de) Verfahren und anordnung zur bilddatenverdichtung und -reexpansion
DE112020004320T5 (de) Schlüsselpunktbasierte Stellungsverfolgung mittels Implikation
DE102016010910A1 (de) Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern
DE102021004562A1 (de) Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache
DE102021203021A1 (de) Semantisch konsistente erweiterte trainingsdaten zur ampelerkennung
DE202022002902U1 (de) Iteratives Training für einen Text-Bild-Layout-Transformer
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE112021005070T5 (de) Multi-hop-transformer für räumlich-zeitliches denken und lokalisierung
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
DE102020114046A1 (de) Neuronales Maschinenübersetzungsverfahren, neuronales Maschinenübersetzungssystem, Lernverfahren, Lernsystem und Programm
DE112020000172T5 (de) Beantworten von kognitiven abfragen von sensoreingabesignalen
DE69927313T2 (de) Verarbeitung diakritischer Zeichen zur Erkennung von nicht unter Zwang geschriebener Handschrift unter Verwendung einer Vorwärtssuche

Legal Events

Date Code Title Description
R012 Request for examination validly filed