DE112017006685T5

DE112017006685T5 - Verfahren und System für ein multimodales Fusionsmodell

Info

Publication number: DE112017006685T5
Application number: DE112017006685.9T
Authority: DE
Inventors: Chiori Hori; Takaaki Hori; John Hershey; Tim Marks
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-12-30
Filing date: 2017-12-25
Publication date: 2020-01-23
Also published as: US10417498B2; US20180189572A1; JP2019535063A; JP6719663B2; CN110168531B; WO2018124309A1; CN110168531A

Abstract

Ein System zum Erzeugen einer Wortfolge umfasst einen oder mehrere Prozessoren in Verbindung mit einem Speicher und einer oder mehreren Speichereinrichtungen, speichernd Anweisungen, die Operationen veranlassen, die umfassen: Empfangen erster und zweiter Eingabevektoren, Extrahieren erster und zweiter Merkmalsvektoren, Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen, Berechnen eines ersten Merkmalsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors, Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen, Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers.

Description

Technisches Gebiet
Die Erfindung bezieht sich im Allgemeinen auf ein Verfahren und ein System zum Beschreiben von multimodalen Daten, und insbesondere auf ein Verfahren und ein System zur Videobeschreibung.
Hintergrund zum Stand der Technik
Automatische Videobeschreibung, bekannt als Videountertitelung, bezieht sich auf die automatische Erzeugung einer Beschreibung in einer natürlichen Sprache (z.B. einem Satz), der ein Eingabevideo erzählt. Videobeschreibung kann sich auf breite Anwendungen beziehen, umfassend Video-Wiederauffinden, automatische Beschreibung von Heimspielfilmen oder online hochgeladener Videoclips, Videobeschreibungen für Sehbehinderte, Warnungserzeugung für Überwachungssysteme und Szenenverständnis zum Teilen von Wissen zwischen Mensch und Maschine.
Videobeschreibungssysteme extrahieren die wichtigsten Merkmale aus den Videodaten, welche multimodale Merkmale, wie Bildmerkmale, die einige Objekte darstellen, Bewegungsmerkmale, die einige Handlungen darstellen, und Audiomerkmale, die einige Ereignisse angeben, sein können, und erzeugen eine Beschreibung, die Ereignisse erzählt, so dass die Wörter in der Beschreibung für diese extrahierten Merkmale relevant sind und als natürliche Sprache entsprechend angeordnet sind.
Ein inhärentes Problem bei der Videobeschreibung besteht darin, dass die Abfolge der Videomerkmale und die Abfolge von Wörtern in der Beschreibung nicht synchronisiert sind. Tatsächlich können Objekte und Handlungen im Video in einer anderen Reihenfolge erscheinen als sie im Satz erscheinen. Beim Auswählen der richtigen Wörter, um etwas zu beschreiben, sind nur die Merkmale, die diesem Objekt oder der Handlung direkt entsprechen, relevant, und die anderen Merkmale sind eine Störungsquelle. Zudem sind einige Ereignisse nicht immer in allen Merkmalen berücksichtigt.
Zusammenfassung der Erfindung
Technisches Problem
Dementsprechend besteht ein Bedarf, verschiedene Merkmale global oder selektiv zu verwenden, um jedes Wort der Beschreibung abzuleiten, um eine Videobeschreibung hoher Qualität zu erzielen.
Lösung des Problems
Einige Ausführungsformen der vorliegenden Offenbarung basierend auf dem Erzeugen von Inhaltsvektoren aus Eingabedaten mit mehreren Modalitäten. In einigen Fällen können die Modalitäten Audiosignale, Videosignale (Bildsignale) und Bewegungssignale sein, die in Videosignalen enthalten sind.
Die vorliegende Offenbarung basiert auf einem multimodalen Fusionssystem, das die Inhaltsvektoren aus den Eingabedaten, die mehrere Modalitäten aufweisen, erzeugt. In einigen Fällen empfängt das multimodale Fusionssystem Eingabesignale, aufweisend Bild(Video)Signale, Bewegungssignale und Audiosignale, und erzeugt eine Beschreibung, die für die Eingabesignale relevante Ereignisse erzählt.
Gemäß einigen Ausführungsformen der vorliegenden Erfindung umfasst ein System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren einen oder mehrere Prozessoren und eine oder mehrere Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, um den einen oder die mehreren Prozessoren zu veranlassen, Operationen durchzuführen, die Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen, Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren, Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren, Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
Zudem stellen einige Ausführungsformen der vorliegenden Offenbarung ein nichttransitorisches computerlesbares Medium, speichernd Software, umfassend Anweisungen, die durch einen oder mehrere Prozessoren ausführbar sind, welche, auf eine solche Ausführung, den einen oder die mehreren Prozessoren veranlassen, Operationen durchzuführen, bereit. Die Operationen umfassen Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers, Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung umfasst ein Verfahren zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
Die vorliegenden offenbarten Ausführungsformen werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen weiter erläutert. Die dargestellten Zeichnungen sind nicht zwangsläufig maßstabsgetreu, und sollen stattdessen im Allgemeinen die Darstellung der Grundlagen der vorliegenden offenbarten Ausführungsformen hervorheben.
Figurenliste

[1] 1 ist ein Blockdiagramm, darstellend ein multimodales Fusionssystem gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
[2A] 2A ist ein Blockdiagramm, darstellend ein einfaches multimodales Verfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
[2B] 2B ist ein Blockdiagramm, darstellend ein multimodales Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
[3] 3 ist ein Blockdiagramm, darstellend ein Beispiel der LSTM-basierten Decodierer-Codierer-Architektur gemäß Ausführungsformen der vorliegenden Offenbarung.
[4] 4 ist ein Blockdiagramm, darstellend ein Beispiel des aufmerksamkeitsbasierten Satzerzeugers aus Video gemäß Ausführungsformen der vorliegenden Offenbarung.
[5] 5 ist ein Blockdiagramm, darstellend eine Erweiterung des aufmerksamkeitsbasierten Satzerzeugers aus Video gemäß Ausführungsformen der vorliegenden Offenbarung.
[6] 6 ist ein Diagramm, darstellend einen einfachen Fusionsansatz (einfaches multimodales Verfahren) gemäß Ausführungsformen der vorliegenden Offenbarung.
[7] 7 ist ein Diagramm, darstellend eine Architektur eines Folgenerzeugers gemäß Ausführungsformen der vorliegenden Offenbarung.
[8] 8 zeigt Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
[9A bis 9D] 9A, 9B und 9C zeigen Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.

Beschreibung der Ausführungsformen
Während die vorstehend genannten Zeichnungen vorliegend offenbarte Ausführungsformen beschreiben, können auch andere Ausführungsformen, wie in der Erläuterung angemerkt, in Betracht gezogen werden. Die vorliegende Offenbarung präsentiert veranschaulichende Ausführungsformen mittels Darstellung und keine Einschränkung. Zahlreiche andere Modifikationen und Ausführungsformen, die innerhalb des Umfangs und des Geistes der Grundlagen der vorliegend offenbarten Ausführungsformen fallen, können vom Fachmann vorgenommen werden.
Die folgende Beschreibung stellt nur beispielhafte Ausführungsformen bereit, und soll den Umfang, die Anwendbarkeit oder Konfiguration der Offenbarung nicht einschränken. Vielmehr soll die folgende Beschreibung der beispielhaften Ausführungsformen für den Fachmann eine befähigende Beschreibung zum Umsetzen einer oder mehrerer der beispielhaften Ausführungsformen bereitstellen. Berücksichtigt sind dabei verschiedene Änderungen, die hinsichtlich der Funktion und der Anordnung von Elementen vorgenommen werden können, ohne vom Geist und Umfang des in den beigefügten Ansprüchen erläuterten offenbarten Gegenstands abzuweichen.
Spezifische Einzelheiten sind in der folgenden Beschreibung bereitgestellt, um ein umfassendes Verständnis der Ausführungsformen bereitzustellen. Allerdings soll vom durchschnittlichen Fachmann verstanden werden, dass die Ausführungsformen auch ohne diese spezifischen Einzelheiten umgesetzt werden können. Zum Beispiel können Systeme, Prozesse und andere Elemente im offenbarten Gegenstand als Komponenten in Blockdiagrammform dargestellt sein, um die Ausführungsformen nicht durch unnötige Details unklar zu machen. In anderen Fällen können bekannte Prozesse, Strukturen und Techniken ohne unnötige Details dargestellt sein, um zu vermeiden, dass die Ausführungsformen unklar gemacht werden. Zudem zeigen gleiche Bezugszeichen und Benennungen in den verschiedenen Zeichnungen gleiche Elemente an.
Außerdem können einzelne Ausführungsformen als ein Prozess beschrieben sein, der als ein Flussdiagramm, Ablaufdiagramm, Datenflussdiagramm, Strukturdiagramm oder Blockdiagramm dargestellt ist. Obwohl ein Flussdiagramm die Operationen als einen sequentiellen Prozess beschreiben kann, können viele der Operationen parallel oder gleichzeitig durchgeführt werden. Zudem kann die Reihenfolge der Operationen umgeordnet werden. Ein Prozess kann beendet werden, wenn seine Operationen abgeschlossen sind, kann allerdings zusätzliche Schritt aufweisen, die in einer Figur nicht erläutert oder enthalten sind. Zudem kann es sein, dass nicht alle Operationen in einem speziell erläuterten Prozess in allen Ausführungsformen vorkommen. Ein Prozess kann einem Verfahren, einer Funktion, einem Vorgang, einer Subroutine, einem Subprogramm etc. entsprechen. Wenn ein Prozess einer Funktion entspricht, kann die Beendigung der Funktion einem Zurückkehren der Funktion zur Aufruffunktion oder der Hauptfunktion entsprechen.
Zudem können Ausführungsformen des offenbarten Gegenstands zumindest teilweise, entweder manuell oder automatisch, realisiert sein. Manuelle oder automatische Implementierungen können ausgeführt, oder zumindest unterstützt sein, durch die Verwendung von Maschinen, Hardware, Software, Firmware, Middleware, Mikrocode, Hardwarebeschreibungssprachen oder irgendeine Kombination davon. Bei Implementierung in Software, Firmware, Middleware oder Mikrocode, können der Programmcode oder Codesegmente zum Durchführen der notwendigen Aufgaben, in einem maschinenlesbaren Medium gespeichert sein. Ein Prozessor(en) kann die notwendigen Aufgaben durchführen.
Gemäß Ausführungsformen der vorliegenden Offenbarung umfasst ein System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren einen oder mehrere Prozessoren in Verbindung mit einem von mehreren Speichern und einer oder mehreren Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind. Wenn die Anweisungen durch den einen oder die mehreren Prozessoren ausgeführt werden, veranlassen die Anweisungen den einen oder die mehreren Prozessoren, Operationen durchzuführen, die umfassen: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers, Berechnen eines ersten Inhaltsvektors aus der ersten Gewichtung und dem ersten Merkmalsvektor, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Gewichtung und dem zweiten Merkmalsvektor; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
In diesem Fall können der erste modale Inhaltsvektor, der zweite modale Inhaltsvektor und der gewichtete Inhaltsvektor die gleiche vorherbestimmte Dimension aufweisen. Dadurch wird es dem System ermöglicht, ein multimodales Fusionsmodell durchzuführen. Mit anderen Worten können diese Vektoren durch Gestalten oder Bestimmen der Dimensionen der Eingabevektoren und der gewichteten Inhaltsvektoren, so dass sie eine identische Dimension aufweisen, bei der Datenverarbeitung des multimodalen Fusionsmodells einfach gehandhabt werden, da diese Vektoren durch die Verwendung eines identischen Datenformats, aufweisend die identische Dimension, ausgedrückt sind. Indem die Datenverarbeitung unter Verwendung von transformierten Daten, um die identische Dimension aufzuweisen, vereinfacht wird, kann das multimodale Fusionsmodellverfahren oder System gemäß Ausführungsformen der vorliegenden Offenbarung die Nutzung einer zentralen Verarbeitungseinheit und den Energieverbrauch zum Erzeugen einer Wortfolge aus den multimodalen Eingabevektoren reduzieren.
Natürlich kann die Anzahl der Vektoren entsprechend der Anforderung des Systemdesigns in vorherbestimmte N-Vektoren geändert werden. Wenn beispielsweise das vorherbestimmte N auf drei eingestellt ist, können die drei Eingabevektoren Bildmerkmale, Bewegungsmerkmale und Audiomerkmale sein, die aus Bilddaten, Videosignalen und Audiosignalen über eine im System integrierte Eingabe-/Ausgabe-Schnittstelle empfangen werden.
In einigen Fällen können das erste und zweite aufeinanderfolgende Intervall ein identisches Intervall sein, und der erste und zweite Vektor können unterschiedliche Modalitäten sein.
1 zeigt ein Blockdiagramm, darstellend ein multimodales Fusionssystem 100 gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Das multimodale Fusionssystem 100 kann eine Mensch-Maschine-Schnittstelle (HMI) mit Eingabe-/Ausgabe-(I/O)-Schnittstelle 110, die mit einer Tastatur 111 und einer Zeigeeinrichtung/Medium 112 verbindbar ist, ein Mikrofon 113, einen Empfänger 114, einen Übertrager 115, einen 3D-Sensor 116, ein Globales Positionsbestimmungssystem (GPS) 117, eine oder mehrere I/O-Schnittstellen 118, einen Prozessor 120, eine Speichereinrichtung 130, einen Speicher 140, eine Netzwerkschnittstellensteuerung 150 (NIC), die mit einem Netzwerk 155 verbindbar ist, das lokale Netzwerke und Internet-Netzwerk (nicht dargestellt) aufweist, eine Anzeigeschnittstelle 160, die mit einer Anzeigeeinrichtung 165 verbunden ist, eine Abbildungsschnittstelle 170, die mit einer Abbildungseinrichtung 175 verbindbar ist, eine Druckerschnittstelle 180, die mit einer Druckereinrichtung 185 verbindbar ist, aufweisen. Die HMI mit I/O-Schnittstelle 110 kann Analog/Digital- und Digital/Analog-Wandler umfassen. Die HMI mit I/O-Schnittstelle 110 umfasst eine drahtlose Kommunikationsschnittstelle, die mit anderen 3D-Punktwolken-Anzeigesystemen oder anderen Computern über drahtlose Internetverbindungen oder drahtlose lokale Netzwerke kommunizieren kann, die den Aufbau mehrerer 3D-Punktwolken ermöglichen. Das 3D-Punktwolken-System 100 kann eine Energiequelle 190 aufweisen. Die Energiequelle 190 kann eine Batterie sein, die von einer externen Energiequelle (nicht dargestellt) über die I/O-Schnittstelle 118 wiederaufgeladen werden kann. Je nach Anwendung kann sich die Energiequelle 190 optional außerhalb des Systems 100 befinden.
Die HMI- und I/O-Schnittstelle 110 und die I/O-Schnittstelle 118 können angepasst sein, eine Verbindung zu einer anderen Anzeigeeinrichtung (nicht dargestellt) herzustellen, einschließlich eines Computermonitors, einer Kamera, eines Fernsehers, eines Projektors oder einer mobilen Einrichtung, unter anderem.
Das multimodale Fusionssystem 100 kann elektronische Text-/Abbildungsdokumente 195, umfassend Sprachdaten, über das mit dem NIC 150 verbundene Netzwerk 155 empfangen. Die Speichereinrichtung 130 umfasst ein Folgenerzeugungsmodell 131, ein Merkmalsextrahierungsmodell 132 und ein multimodales Fusionsmodell 200, in dem Algorithmen des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200 als Programmcodedaten im Speicher 130 gespeichert sind. Die Algorithmen der Modelle 131-132 und 200 können auf einem computerlesbaren Aufzeichnungsmedium (nicht dargestellt) gespeichert sein, so dass der Prozessor 120 die Algorithmen der Modelle 131-132 und 200 ausführen kann, indem er die Algorithmen aus dem Medium lädt. Darüber hinaus kann die Zeigeeinrichtung/Medium 112 Module enthalten, die Programme lesen und durchführen, die auf einem computerlesbaren Aufzeichnungsmedium gespeichert sind.
Um mit der Durchführung der Algorithmen der Modelle 131-132 und 200 zu beginnen, können Anweisungen über die Tastatur 111, die Zeigeeinrichtung/Medium 112 oder über das drahtlose Netzwerk oder das Netzwerk 155, die mit anderen Computern (nicht dargestellt) verbunden sind, an das System 100 übertragen werden. Die Algorithmen der Modelle 131-132 und 200 können in Antwort auf das Empfangen eines akustischen Signals eines Benutzers durch das Mikrofon 113 unter Verwendung eines vorinstallierten konventionellen Spracherkennungsprogramms, das im Speicher 130 gespeichert ist, gestartet werden. Weiterhin umfasst das System 100 einen Ein-/Ausschalter (nicht dargestellt), der es dem Benutzer ermöglicht, den Betrieb des Systems 100 zu starten/stoppen.
Die HMI- und I/O-Schnittstelle 110 kann einen Analog-Digital-(A/D)-Wandler, einen Digital-Analog-Wandler (D/A) und eine drahtlose Signalantenne zum Verbinden des Netzwerks 155 enthalten. Weiterhin kann die eine oder mehr als eine I/O-Schnittstelle 118 mit einem Kabelfernseh-(TV)-Netzwerk oder einer herkömmlichen Fernsehantenne (TV) verbunden werden, die Fernsehsignale empfängt. Die über die Schnittstelle 118 empfangenen Signale können in digitale Bild- und Audiosignale umgewandelt werden, die nach den Algorithmen der Modelle 131-132 und 200 in Verbindung mit dem Prozessor 120 und dem Speicher 140 so verarbeitet werden können, dass Videoskripte erzeugt und auf der Anzeigeeinrichtung 165 mit Bildrahmen der digitalen Bilder angezeigt werden, während der Ton der Akustik der TV-Signale über einen Lautsprecher 119 ausgegeben wird. Der Lautsprecher kann in das System 100 integriert sein, oder ein externer Lautsprecher kann über die Schnittstelle 110 oder die I/O-Schnittstelle 118 verbunden sein.
Der Prozessor 120 kann eine Vielzahl von Prozessoren sein, die eine oder mehr als eine Grafikverarbeitungseinheit (GPUs) enthalten. Der Speicher 130 kann Spracherkennungsalgorithmen (nicht dargestellt) enthalten, die Sprachsignale erkennen können, die über das Mikrofon 113 erhalten werden.
Das multimodale Fusionssystemmodul 200, das Folgenerzeugungsmodell 131 und das Merkmalsextrahierungsmodell 132 können durch neuronale Netzwerke gebildet sein.
2A ist ein Blockdiagramm, darstellend ein einfaches multimodales Verfahren gemäß Ausführungsformen der vorliegenden Offenbarung. Das einfache multimodale Verfahren kann durch den Prozessor 120 durchgeführt werden, der Programme des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200, die im Speicher gespeichert sind, ausführt. Das Folgenerzeugungsmodell 131, das Merkmalsextrahierungsmodell 132 und das multimodale Fusionsmodell 200 können in einem computerlesbaren Aufzeichnungsmedium gespeichert sein, so dass das einfache multimodale Verfahren durchgeführt werden kann, wenn der Prozessor 120 die Algorithmen des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200 lädt und ausführt. Das einfache multimodale Verfahren wird in Kombination mit dem Folgenerzeugungsmodell 131, dem Merkmalsextrahierungsmodell 132 und dem multimodalen Fusionsmodell 200 durchgeführt. Weiterhin verwendet das einfache multimodale Verfahren die Merkmalsextrahierer 211, 221 und 231 (Merkmalsextrahierer 1^~K), die Aufmerksamkeitsschätzer 212, 222 und 232 (Aufmerksamkeitsschätzer 1^~K), die Gewichtete-Summe-Prozessoren 213, 223 und 233 (Gewichtete-Summe-Prozessoren (Berechner) 1^~K), die Merkmalstransformationsmodule 214, 224 und 234 (Merkmalstransformationsmodule 1^~K), einen Einfache-Summen-Prozessor (Berechner) 240 und einen Folgenerzeuger 250.
2B ist ein Blockdiagramm, darstellend ein multimodales Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung. Neben den Merkmalsextrahierern 1^~K, den Aufmerksamkeitsschätzern 1^~K, den Gewichtete-Summe-Prozessoren 1^~K, den Merkmalstransformationsmodulen 1^~K und dem Folgenerzeuger 250 umfasst das multimodale Aufmerksamkeitsverfahren weiterhin einen Modale-Aufmerksamkeit-Schätzer 255 und einen Gewichtete-Summe-Prozessor 245 anstelle der Verwendung des Einfache-Summe-Prozessors 240. Das multimodale Aufmerksamkeitserfahren wird in Kombination mit dem Folgenerzeugungsmodell 131, dem Merkmalsextrahierungsmodell 132 und dem multimodalen Fusionsmodell 200 durchgeführt. In beiden Verfahren stellt das Folgenerzeugungsmodell 131 den Folgenerzeuger 250 bereit und das Merkmalsextrahierungsmodell 132 die Merkmalsextrahierer 1^~K bereit. Weiterhin können die Merkmalstransformationsmodule 1^~K, der Modale-Aufmerksamkeit-Schätzer 255 und die Gewichtete-Summe-Prozessoren 1^~K und der Gewichtete-Summe-Prozessor 245 durch das multimodale Fusionsmodell 200 bereitgestellt sein.
Bei gegebenen multimodalen Videodaten, die K Modalitäten aufweisen, so dass K ≥ 2, und einige der Modalitäten gleich sein können, werden Modal-1-Daten unter Verwendung des Merkmalextrahieres 211, des Aufmerksamkeitsschätzers 212 und des gewichtete-Summe-Prozessors 213 für die Daten in einen festdimensionierten Inhaltsvektor umgewandelt, wobei der Merkmalsextrahierer 211 mehrere Merkmalsvektoren aus den Daten extrahiert, der Aufmerksamkeitsschätzer 212 jede Gewichtung für jeden extrahierten Merkmalsvektor schätzt und der Gewichtete-Summe-Prozessor 213 den als gewichtete Summe der extrahierten Merkmalsvektoren mit den geschätzten Gewichtungen berechneten Inhaltsvektor ausgibt (erzeugt). Modal-2-Daten werden unter Verwendung des Merkmalsextrahierers 221, des Aufmerksamkeitsschätzers 222 und des Gewichtete-Summe-Prozessors 223 für die Daten in einen festdimensionierten Inhaltsvektor umgewandelt. Bis zu den Modal-K-Daten werden K festdimensionierte Inhaltsvektoren erhalten, wobei der Merkmalsextrahierer 231, der Aufmerksamkeitsschätzer 232 und der Gewichtete-Summe-Prozessor 233 für Modal-K-Daten verwendet werden, die Modal-1, Modal-2, ...., Modal-K-Daten können jeweils sequentielle Daten in einer zeitsequentiellen Reihenfolge mit einem Intervall oder andere vorbestimmte Reihenfolgen mit vorherbestimmten Zeitintervallen sein.
Jeder der K Inhaltsvektoren wird dann durch jedes Merkmalstransformationsmodul 214, 224 und 234 in einen N-dimensionalen Vektor transformiert (umgewandelt), und K transformierte N-dimensionale Vektoren werden erhalten, wobei N eine vordefinierte positive ganze Zahl ist.
Die K transformierten N-dimensionalen Vektoren werden in dem einfachen multimodalen Verfahren von 2A zu einem einzigen N-dimensionalen Inhaltsvektor summiert, während die Vektoren unter Verwendung des modalen Aufmerksamkeitsschätzers 255 und des Gewichtete-Summe-Prozessors 245 in dem multimodalen Aufmerksamkeitsverfahren von 2B in einen einzelnen N-dimensionalen Inhaltsvektor umgewandelt werden, wobei der modale Aufmerksamkeitsschätzer 255 jede Gewichtung für jeden transformierten N-dimensionalen Vektor schätzt, und der Gewichtete-Summe-Prozessor 245 den als eine gewichtete Summe der K transformierten N-dimensionalen Vektoren mit den geschätzten Gewichtungen berechneten N-dimensionalen Inhaltsvektor ausgibt (erzeugt).
Der Folgenerzeuger 250 empfängt den einzelnen N-dimensionalen Inhaltsvektor und sagt ein Kennzeichen (Label) voraus, das einem Wort eines Satzes entspricht, der die Videodaten beschreibt. Für die Vorhersage des nächsten Wortes stellt der Folgenerzeuger 250 den Aufmerksamkeitsschätzern 212, 222, 232 und dem modalen Aufmerksamkeitsschätzer 255 Kontextinformationen des Satzes, wie beispielsweise einen Vektor, der die zuvor generierten Wörter repräsentiert, zur Verfügung, um die Aufmerksamkeitsgewichtungen zu schätzen, um geeignete Inhaltsvektoren zu erhalten. Der Vektor kann als Vor-Schritt-(oder Vorschritt)-Kontextvektor bezeichnet werden.
Der Folgenerzeuger 250 sagt das nächste Wort beginnend mit dem Satzanfangstoken „<sos>“ vorher und erzeugt einen beschreibenden Satz oder Sätze, indem er das nächste Wort (vorhergesagtes Wort) iterativ vorhersagt, bis ein spezielles Symbol „<eos>“ entsprechend dem „Satzende“ vorhergesagt wird. Mit anderen Worten, der Folgenerzeuger 250 erzeugt aus multimodalen Eingabevektoren eine Wortfolge. In einigen Fällen können die multimodalen Eingabevektoren über verschiedene Eingabe-/Ausgabeschnittstellen, wie die HMI und I/O-Schnittstelle 110, oder eine oder mehrere I/O-Schnittstellen 118 empfangen werden.
In jedem Erzeugungsprozess wird ein vorhergesagtes Wort erzeugt, dass in allen möglichen Wörtern eine höchste Wahrscheinlichkeit hat, die aus dem gewichteten Inhaltsvektor und dem Vorschritt-Kontextvektor gegeben ist. Weiterhin kann das vorhergesagte Wort im Speicher 140, der Speichereinrichtung 130 oder mehrere Speichereinrichtungen (nicht dargestellt) zum Erzeugen der Wortfolge akkumuliert sein, und dieser Akkumulationsprozess kann fortgesetzt werden, bis das spezielle Symbol (Ende der Folge) empfangen wird. Das System 100 kann die vom Folgenerzeuger 250 erzeugten vorhergesagten Wörter über das NIC 150 und das Netzwerk 155, die HMI- und I/O-Schnittstelle 110 oder eine oder mehrere I/O-Schnittstellen 118 übertragen, so dass die Daten der vorhergesagten Wörter von anderen Computern 195 oder anderen Ausgabeeinrichtungen (nicht dargestellt) verwendet werden können.
Wenn jeder der K Inhaltsvektoren aus bestimmten Modalitätsdaten und/oder aus einen bestimmten Merkmalsextrahierer stammt, ermöglicht die Modalitäts- oder Merkmalsfusion mit der gewichteten Summe der K transformierten Vektoren eine bessere Vorhersage jedes Wortes, indem sie verschiedenen Modalitäten und/oder verschiedenen Merkmalen entsprechend den Kontextinformationen des Satzes Aufmerksamkeit schenkt. Somit kann dieses multimodale Aufmerksamkeitsverfahren verschiedene Merkmale global oder selektiv unter Verwendung von Aufmerksamkeitsgewichtungen über verschiedene Modalitäten oder Merkmale nutzen, um jedes Wort der Beschreibung abzuleiten.
Weiterhin umfasst das multimodale Fusionsmodell 200 im System 100 ein Datenverteilungsmodul (nicht dargestellt), das mehrere zeitsequentielle Daten über die I/O-Schnittstelle 110 oder 118 empfängt und die empfangenen Daten in Modal-1, Modal-2,..., Modal-K-Daten verteilt, alle der verteilten zeitsequentiellen Daten nach einem bestimmten Intervall oder Intervallen unterteilt und dann jeweils die Modal-1, Modal-2,..., Modal-K-Daten an die Merkmalsextrahierer 1^~K liefert.
In einigen Fällen können die mehreren zeitsequentiellen Daten Videosignale und Audiosignale sein, die in einem Videoclip enthalten sind. Wenn der Videoclip für Modaldaten verwendet wird, verwendet das System 100 die Merkmalsextrahierer 211, 221 und 231 (Menge K=3) in 2B. Der Videoclip wird den Merkmalsextrahierern 211, 221 und 231 im System 100 über die I/O-Schnittstelle 110 oder 118 bereitgestellt. Die Merkmalsextrahierer 211, 221 und 231 können Bilddaten, Audiodaten und Bewegungsdaten jeweils aus dem Videoclip als Modal-l-Daten, Modal-2-Daten und Modal-3 (z.B. K=3 in 2B) extrahieren. In diesem Fall empfangen die Merkmalsextrahierer 211, 221 und 231 Modal-1-Daten, Modal-2-Daten und Modal-3 gemäß dem ersten, zweiten und dritten Intervall jeweils aus dem Datenstrom des Videoclips.
In In einigen Fällen kann das Datenverteilungsmodul die mehreren zeitsequentiellen Daten mit vorherbestimmten unterschiedlichen Zeitintervallen unterteilen, wenn jeweils Bildmerkmale, Bewegungsmerkmale oder Audiomerkmale mit unterschiedlichen Zeitintervallen erfasst werden können.
Codierer-Decodierer-basierter Satzerzeuger
Ein Ansatz für die Videobeschreibung kann auf dem Folge-zu-Folge-Lernen basieren. Die Eingabefolge, d.h. die Bildfolge, wird zunächst in einen festdimensionierten semantischen Vektor codiert. Anschließend wird aus dem semantischen Vektor die Ausgabefolge, d.h. die Wortfolge, erzeugt. In diesem Fall werden sowohl der Codierer als auch der Decodierer (oder Erzeuger) in der Regel als Lang-Kurzzeitgedächtnis-(LSTM)-Netzwerke modelliert.
3 zeigt ein Beispiel für die LSTM-basierte Codierer-Decodierer-Architektur. Bei einer gegebenen Folge von Bildern, X = x₁, x₂, ...., x_L, wird jedes Bild zunächst einem Merkmalsextrahierer zugeführt, der ein vortrainiertes Neuronales Faltungsnetzwerk (CNN) für eine Bild- oder VideoKlassifikationsaufgabe, wie GoogLeNet, VGGNet oder C3D, sein kann. Die Folge von Bildmerkmalen, X’ = x’₁, x’₂, ...., x’_L, wird durch Extrahieren des Aktivierungsvektors einer vollständig verbundenen Schicht des CNN für jedes Eingangsbild erhalten. Die Folge der Merkmalsvektoren wird dann dem LSTM-Codierer zugeführt, und der verborgene Zustand des LSTM wird gegeben durch $h_{t} = LSTM (h_{t - 1}, x_{t}^{'}; λ_{E}),$
wobei die LSTM-Funktion des Codierernetzwerks λ_E berechnet wird als $LSTM (h_{t - 1}, x_{t}; λ) = o_{t} tahn (c_{t}),$
wobei $o_{t} = σ (W_{x o}^{(λ)} x_{t} + W_{h o}^{(λ)} h_{t - 1} + b_{o}^{(λ)})$
$c_{t} = f_{t} c_{t - 1} + i_{t} tahn (W_{x c}^{(λ)} x_{t} + W_{h c}^{(λ)} h_{t - 1} + b_{o}^{(λ)})$
$f_{t} = σ (W_{x f}^{(λ)} x_{t} + W_{h f}^{(λ)} h_{t - 1} + b_{f}^{(λ)})$
$i_{t} = σ (W_{x i}^{(λ)} x_{t} + W_{h i}^{(λ)} h_{t - 1} + b_{i}^{(λ)}),$
wobei σ() die elementweise Sigmoidfunktion ist, und i_t, f_t, to und c_t jeweils das Eingangstor, Vergesstor, Ausgangstor und die Zellaktivierungsvektoren für den t-ten Eingangsvektor sind. Die Gewichtungsmatrizen W_zz ^(λ) und die Bias-Vektoren b_Z ^(λ) werden durch den Index z ∈ {x, h, i, f, , o, c} identifiziert. Zum Beispiel ist W_hi die Verborgene-Eingangstor-Matrix und W_xo ist die Eingangs-Ausgangstor-Matrix. Gucklochverbindungen (Peephole Connections) werden bei diesem Verfahren nicht verwendet.
Der Decodierer sagt das nächste Wort iterativ vorher, beginnend mit dem Satzanfangstoken „<sos>“, bis er das Satzendetoken „<eos>“ vorhersagt. Das Satzanfangstoken kann als ein Startkennzeichen bezeichnet sein, und das Satzendetoken kann als ein Endkennzeichen bezeichnet sein.
Bei gegebenem Decodiererzustand s_i-1, leitet das Decodierernetzwerk λ_D die Wahrscheinlichkeitsverteilung des nächsten Wortes ab als $P (y | s_{i - 1}) = softmax (W_{s}^{(λ_{D})} s_{i - 1} + b_{s}^{(λ_{D})}),$
und erzeugt Wort y_i, welches die höchste Wahrscheinlichkeit aufweist, gemäß $y_{i} = \underset{y \in V}{argmax} P (y | s_{i - 1}),$
wobei V das Vokabular bezeichnet. Der Decodiererzustand wird unter Verwendung des LSTM-Netzwerks des Decodierers aktualisiert als $s_{i} = LSTM (s_{i - 1}, y_{i}^{'}; λ_{D}),$
wobei y'_i ein Worteinbettungsvektor von y_m ist, und der Ausgangszustand s₀ aus dem finalen Codiererzustand h_L und y'₀ = Embed(<sos>) wie in 3 erhalten wird.
In der Trainingsphase ist Y = y₁, ..., y_M als die Referenz gegeben. In der Testphase ist die beste Wortfolge allerdings zu finden basierend auf $\begin{matrix} \hat{Y} = \underset{Y \in V *}{argmax} P (Y | X) \\ = \underset{y_{1}, \dots, y_{M} \in V *}{argmax} P (y_{1} | s_{0}) P (y_{2} | s_{1}) \dots \end{matrix}$
$P (y_{M} | s_{M - 1}) P (< eos > | s_{M}) .$
Dementsprechend kann eine Strahlsuche in der Testphase verwendet werden, um mehrere Zustände und Hypothesen mit den höchsten kumulativen Wahrscheinlichkeiten bei jedem m-ten Schritt zu erhalten und die beste Hypothese aus denen auszuwählen, die das Satzendetoken erreicht haben.
Aufmerksamkeitsbasierter Satzerzeuger
Ein weiterer Ansatz für die Videobeschreibung kann ein aufmerksamkeitsbasierter Folgenerzeuger sein, der es dem Netzwerk ermöglicht, Merkmale aus bestimmten Zeiten oder räumlichen Regionen abhängig vom aktuellen Kontext hervorzuheben, so dass das nächste Wort genauer vorhergesagt werden kann. Im Vergleich zum vorstehend beschriebenen Basisansatz kann der aufmerksamkeitsbasierte Erzeuger Eingangsmerkmale selektiv entsprechend dem Eingangs- und Ausgangskontext ausnutzen. Die Wirksamkeit von Aufmerksamkeitsmodellen hat sich in vielen Aufgaben, wie der maschinellen Übersetzung, gezeigt.
4 ist ein Blockdiagramm, darstellend ein Beispiel des aufmerksamkeitsbasierten Satzerzeugers aus Video, welches einen zeitlichen Aufmerksamkeitsmechanismus über die Eingangsbildfolge aufweist. Die Eingangsbildfolge kann eine zeitsequentielle Reihenfolge mit vorherbestimmten Zeitintervallen sein. Die Eingabefolge von Merkmalsvektoren wird unter Verwendung von einem oder mehreren Merkmalsextrahierern erhalten. In diesem Fall können aufmerksamkeitsbasierte Erzeuger einen Codierer verwenden, der auf einem bidirektionalen LSTM (BLSTM) oder Gated-Recurrent-Unit (GRU) basiert, um die Merkmalsvektorfolge, wie in 5, so weiter zu konvertieren, dass jeder Vektor seine Kontextinformationen enthält.
In Videobeschreibungsaufgaben können jedoch CNN-basierte Merkmale direkt verwendet werden, oder es kann eine weitere Feed-Forward-Schicht hinzugefügt werden, um die Dimensionalität zu reduzieren.
Wird nach der Merkmalsextraktion wie in 5 ein BLSTM-Codierer verwendet, so können die Aktivierungsvektoren (d.h. Codiererzustände) erhalten werden als $h_{t} = [\begin{array}{l} h_{t}^{(f)} \\ h_{t}^{(b)} \end{array}],$
wobei h_t ^(f) und h_t ^(b) die verborgenen Vorwärts- und Rückwärtsaktivierungsvektoren sind: $h_{t}^{(f)} = LSTM (h_{t - 1}^{(f)}, x_{t}^{'}; λ_{E}^{(f)})$
$h_{t}^{(b)} = LSTM (h_{t + 1}^{(b)}, x_{t}^{'}; λ_{E}^{(b)}) .$
Wenn eine Feedforward-Schicht verwendet wird, wird der Aktivierungsvektor berechnet als $h_{t} = tahn (W_{p} x_{t}^{'} + b_{p}),$
wobei W_p eine Gewichtungsmatrix ist und b_p ein Bias-Vektor ist. Wenn ferner die CNN-Merkmale direkt verwendet werden, dann wird diese angenommen h_t = x_t zu sein.
Der Aufmerksamkeitsmechanismus wird durch Verwendung von Aufmerksamkeitsgewichtungen auf die verborgenen Aktivierungsvektoren durch die ganze Eingabefolge hindurch realisiert. Diese Gewichtungen ermöglichen es dem Netzwerk, Merkmale aus den Zeitschritten hervorzuheben, die für die Vorhersage des nächsten Ausgabewortes am wichtigsten sind.
Es sei angenommen, dass α_i,t eine Aufmerksamkeitsgewichtung zwischen dem i_ten Ausgabewort und dem t_ten Eingangsmerkmalsvektor. Für die i_te Ausgabe wird der Vektor, repräsentierend den relevanten Inhalt der Eingabefolge, als eine gewichtete Summe der Aktivierungsvektoren der verborgenen Einheit erhalten: $c_{i} = \sum_{t = 1}^{L} α_{i, t} h_{t} .$
Das Decodierernetzwerk ist ein Aufmerksamkeitsbasierter-Rekurrente-Folge-Erzeuger (ARSG), der eine Ausgabekennzeichenfolge mit Inhaltsvektoren c_i erzeugt. Das Netzwerk verfügt auch über ein LSTM-Decodierernetzwerk, in dem der Decodiererzustand auf die gleiche Weise wie in Gleichung (9) aktualisiert werden kann.
Dann wird die Wahrscheinlichkeit des Ausgabekennzeichens berechnet als $P (y | s_{i - 1}, c_{i}) = softmax (W_{s}^{(λ_{D})} s_{i - 1} + W_{c}^{(λ_{D})} c_{i} + b_{s}^{(λ_{D})}),$
und das Wort y_i wird berechnet gemäß $y_{i} = \underset{y \in V}{argmax} P (y | s_{i - 1}, c_{i}) .$
Im Gegensatz zu den Gleichungen (7) und (8) des grundlegenden Codierers-Decodierers ist die Wahrscheinlichkeitsverteilung vom Inhaltsvektor ci abhängig, der spezifische Merkmale hervorhebt, die für die Vorhersage jedes nachfolgenden Wortes am wichtigsten sind. Eine weitere Feed-Forward-Schicht kann vor der Softmax-Schicht eingefügt werden. In diesem Fall werden die Wahrscheinlichkeiten wie folgt berechnet: $g_{i} = tanh (W_{s}^{(λ_{D})} s_{i - 1} + W_{c}^{(λ_{D})} c_{i} + b_{s}^{(λ_{D})}),$
und $P (y | s_{i - 1}, c_{i}) = softmax (W_{g}^{(λ_{D})} g_{i} + b_{g}^{(λ_{D})}) .$
Die Aufmerksamkeitsgewichtungen können berechnet werden als $α_{i, t} = \frac{exp (e_{i, t})}{\sum_{τ = 1}^{L} exp (e_{i, τ})}$
und $e_{i, t} = w_{A}^{T} tanh (W_{A} s_{i - 1} + V_{A} h_{t} + b_{A}),$
wobei W_A und V_A Matrizen sind, w_A und b_A Vektoren sind, und e_i,t ein Skalar ist.
Aufmerksamkeitsbasierte multimodale Fusion
Die Ausführungsformen der vorliegenden Offenbarung stellen ein Aufmerksamkeitsmodell zur Handhabung der Fusion mehrerer Modalitäten bereit, wobei jede Modalität ihre eigene Folge von Merkmalsvektoren hat. Für die Videobeschreibung stehen multimodale Eingänge, wie Bildmerkmale, Bewegungsmerkmale und Audiomerkmale zur Verfügung. Darüber hinaus ist die Kombination mehrerer Merkmale aus verschiedenen Merkmalsextrahierungsverfahren oft effektiv, um die Genauigkeit der Beschreibung zu verbessern.
In einigen Fällen können Inhaltsvektoren aus VGGNet (Bildmerkmale) und C3D (raumzeitliche Bewegungsmerkmale) zu einem Vektor kombiniert werden, der zur Vorhersage des nächsten Wortes verwendet wird. Dies kann in der Fusionsschicht durchgeführt werden. Wird angenommen, dass K die Anzahl der Modalitäten ist, d.h. die Anzahl der Folgen von Eingabemerkmalsvektoren, wird der folgende Aktivierungsvektor anstelle von Gleichung (19) berechnet, $g_{i} = tanh (W_{s}^{(λ_{D})} s_{i - 1} + \sum_{k = 1}^{K} d_{k, i} + b_{s}^{(λ_{D})})$
wobei $d_{k, i} = W_{c k}^{(λ_{D})} c_{k, i}$
und c_k,i der k-te Inhaltsvektor entsprechend dem k-ten Merkmalsextrahierer oder Modalität ist.
6 zeigt den einfachen Merkmalsfusionsansatz (einfaches multimodales Verfahren) unter der Annahme K=2, bei der Inhaltsvektoren mit Aufmerksamkeitsgewichtungen für einzelne Eingabefolgen x₁₁,..., x_1L und x₂₁’,..., x_2L’ erhalten werden. Diese Inhaltsvektoren werden jedoch mit Gewichtungsmatrizen W_c1 und W_c2 kombiniert, die für gewöhnlich im Satzerzeugungsschritt verwendet werden. Folglich werden die Inhaltsvektoren jedes Merkmalstyps (oder einer Modalität) immer unter Verwendung der gleichen Gewichtungen fusioniert, unabhängig vom Decodiererzustand. Diese Architektur kann die Fähigkeit einführen, mehrere Arten von Merkmalen effektiv ausnutzen zu können, so dass sich die relativen Gewichtungen jedes Merkmalstyps (jeder Modalität) je nach Kontext ändern können.
Gemäß den Ausführungsformen der vorliegenden Offenbarung kann der Aufmerksamkeitsmechanismus auf die multimodale Fusion erweitert werden. Mit Hilfe des multimodalen Aufmerksamkeitsmechanismus, der auf dem aktuellen Decodiererzustand basiert, kann sich das Decodierernetzwerk selektiv auf spezifische Eingabemodalitäten (oder spezifische Merkmalstypen) konzentrieren, um das nächste Wort vorherzusagen. Die aufmerksamkeitsbasierte Merkmalsfusion gemäß den Ausführungsformen der vorliegenden Offenbarung kann durchgeführt werden unter Verwendung von $g_{i} = tanh (W_{s}^{(λ_{D})} g_{i - 1} + \sum_{k = 1}^{K} β_{k, i} d_{k, i} + b_{s}^{(λ_{D})}),$
wobei $d_{k, i} = W_{c k}^{(λ_{D})} c_{k, i} + b_{c k}^{(λ_{D})} .$
Die multimodalen Aufmerksamkeitsgewichtungen β_k,i werden in ähnlicher Weise wie der zeitliche Aufmerksamkeitsmechanismus erhalten: $β_{k, i} = \frac{exp (v_{k, i})}{\sum_{k = 1}^{K} exp (v_{k, i})},$
wobei $v_{k, i} = w_{B}^{T} tanh (W_{B} s_{i - 1} + V_{B k} c_{k, i} + b_{B k}),$
wobei W_B und V_Bk Matrizen sind, w_B und b_Bk Vektoren sind, und v_k,i ein Skalar ist.
7 zeigt die Architektur des Satzerzeugers gemäß den Ausführungsformen der vorliegenden Offenbarung, einschließlich des multimodalen Aufmerksamkeitsmechanismus. Im Gegensatz zum einfachen multimodalen Fusionsverfahren in 6, können sich in 7 die Aufmerksamkeitsgewichtungen auf der Merkmalsebene entsprechend dem Decodiererzustand und den Inhaltsvektoren ändern, was es dem Decodierernetzwerk ermöglicht, bei der Vorhersage jedes nachfolgenden Wortes in der Beschreibung auf eine andere Gruppe von Merkmalen und/oder Modalitäten zu achten.
Datensatz zur Auswertung
Einige experimentelle Ergebnisse werden im Folgenden beschrieben, um die Merkmalsfusion gemäß einer Ausführungsform der vorliegenden Offenbarung unter Verwendung des Youtube2Text-Videokorpus zu erläutern. Dieser Korpus eignet sich sehr gut zum Trainieren und zum Auswerten automatischer Modelle zur Generierung von Videobeschreibungen. Der Datensatz enthält 1.970 Videoclips mit Beschreibungen in mehreren natürlichen Sprachen. Jeder Videoclip wird mit mehreren parallelen Sätzen kommentiert, die von verschiedenen Mechanischen Türken (Mechanical Turkers) bereitgestellt werden. Es gibt insgesamt 80.839 Sätze, mit etwa 41 kommentierten Sätzen pro Clip. Jeder Satz enthält im Durchschnitt etwa 8 Wörter. Die in allen Sätzen enthaltenen Wörter bilden ein Vokabular von 13.010 eindeutigen lexikalischen Einträgen. Der Datensatz ist eine offene Domäne und deckt ein breites Spektrum an Themen, wie Sport, Tiere und Musik ab. Der Datensatz ist aufgeteilt in einen Trainingssatz mit 1.200 Videoclips, einen Validierungssatz mit 100 Clips und einen Testsatz mit den restlichen 670 Clips.
Videovorverarbeitung
Die Bilddaten werden aus jedem Videoclip extrahiert, der aus 24 Rahmen pro Sekunde besteht, und auf 224x224 Pixelbilder neu skaliert ist. Für das Extrahieren von Bildmerkmalen wird ein vortrainiertes GoogLeNet CNN (M. Lin, Q. Chen und S. Yan. Netzwerk in Netzwerk. CoRR, abs/1312.4400, 2013.) verwendet, um mit Hilfe der verbreiteten Implementierung in Caffe (Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama und T. Darrell Caffe: Convolutional architecture for fast feature embedding. arXiv Preprint arXiv:1408.5093, 2014.) Darstellungen mit fester Länge zu extrahieren. Merkmale werden aus dem verborgene-Schicht-Pool 5/7×7 s1 extrahiert. Es wird aus jedem Videoclip ein Rahmen jeweils nach 16 Rahmen ausgewählt und diese dem CNN zugeführt, um 1024-dimensionale, rahmenweise Merkmalsvektoren zu erhalten.
Es wird auch ein VGGNet (K. Simonyan und A. Zisserman. Very deep convolutional networks for large-scale image recognation. CoRR, abs/1409.1556, 2014.) verwendet, das auf den ImageNet-Datensatz (A. Krizhevsky, I. Sutskever und G. E. Hinton. Imagenet classification with deep convolutional neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, Herausgeber, Advances in Neural Information Processing Systems 25, Seiten 1097-1105. Curran Associates, Inc., 2012.) vortrainiert wurde. Für die Bildmerkmale werden die verborgenen Aktivierungsvektoren der vollständig verbundenen Schicht fc7 verwendet, was eine Folge von 4096-dimensionalen Merkmalsvektoren ergibt. Darüber hinaus werden zur Modellierung von Bewegung und kurzfristiger raumzeitlicher Aktivität das vortrainierte C3D (D. Tran, L. D. Bourdev, R. Fergus, L. Torresani und M. Paluri. Learning spatiotemporal features with 3d convultional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, 7. bis 13. Dezember, 2015, Seiten 4489-4497, 2015.) verwendet (das auf dem Sports-IM-Datensatz trainiert wurde (A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar und L. Fei-Fei). Large-scale classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1725-1732, 2014.) trainiert wurde). Das C3D-Netzwerk liest aufeinanderfolgende Rahmen im Video und gibt nach 16 Rahmen jeweils einen Merkmalsvektor mit fester Länge aus. Die Aktivierungsvektoren wurden aus der vollständig verbundenen Schicht fc6-1 extrahiert, die 4096-dimensionale Merkmale aufweist.
Audioverarbeitung
Audiomerkmale werden zur Verwendung im aufmerksamkeitsbasierten Merkmalsfusionsverfahren gemäß den Ausführungsformen der vorliegenden Offenbarung integriert. Da der YouTube2Text-Korpus keine Audiospur enthält, wurden die Audiodaten über die ursprünglichen Video-URLs extrahiert. Obwohl eine Teilmenge der Videos nicht mehr auf YouTube verfügbar war, konnten die Audiodaten für 1.649 Videoclips gesammelt werden, was 84% des Corpus ausmacht. Die 44 kHz abgetasteten Audiodaten werden auf 16 kHz abwärts abgetastet, und Mel-Frequenz-Cepstrum-Koeffizienten (Mel-Frequency Cepstral Coefficients = MFCCs) aus jedem 50 ms Zeitfenster mit 25 ms Verschiebung extrahiert. Die Folge der 13-dimensionalen MFCC-Merkmale wird dann aus jeder Gruppe von 20 aufeinanderfolgenden Rahmen zu einem Vektor verkettet, was zu einer Folge von 260-dimensionalen Vektoren führt. Die MFCC-Merkmale werden so normiert, dass die Mittelwert- und Varianzvektoren 0 und 1 im Trainingssatz sind. Die Validierungs- und Testsätze werden ebenfalls mit den ursprünglichen Mittelwert- und Varianzvektoren des Trainingssatzes angepasst. Im Gegensatz zu den Bildmerkmalen werden für MFCC-Merkmale ein BLSTM-Codierernetzwerk, das gemeinsam mit dem Decodierernetzwerk trainiert wird, eingesetzt. Wenn Audiodaten für einen Videoclip fehlen, dann wird eine Folge von Dummy-MFCC-Merkmalen zugeführt, die einfach eine Folge von Nullvektoren ist.
Konfiguration zur Beschreibung multimodaler Daten
Das Untertitelungserzeugungsmodell, d.h. das Decodierernetzwerk, wird trainiert, um das Kreuzentropiekriterium mit Hilfe des Trainingssets zu minimieren. Bildmerkmale werden dem Decodierernetzwerk über eine Projektionsschicht von 512 Einheiten zugeführt, während Audiomerkmale, d.h. MFCCs, dem BLSTM-Codierer gefolgt von dem Decodierernetzwerk zugeführt werden. Das Decodierernetzwerk weist eine Projektionsschicht von 512 Einheiten und bidirektionale LSTM-Schichten mit 512 Zellen auf. Das Decodierernetzwerk weist eine LSTM-Schicht mit 512 Zellen auf. Jedes Wort ist in einen 256-dimensionalen Vektor eingebettet, wenn es der LSTM-Schicht zugeführt wird. Es wird der AdaDelta-Optimierer (M.D: Zeiler. ADADELTA: an adaptive learning rate method. CoRR, abs/1212.5701, 2012.) angewendet, um die Parameter zu aktualisieren, welches für das Optimieren von Aufmerksamkeitsmodellen breit eingesetzt wird. Das LSTM und Aufmerksamkeitsmodelle werden unter Verwendung von Chainer (S. Tokui, K. Oono, S. Hido, and J. Clayton. Chainer: a next generation open source framework for deep learning. In den Workshopergebnissen über Maschinenlernsysteme (Learn-7 ingSys) in der neunundzwanzigsten Jährlichen Konferenz über Neuronale Informationsverarbeitungssysteme (NIPS), 2015) implementiert.
Die Ähnlichkeit zwischen Grundwahrheit und automatischen Videobeschreibungsergebnissen wird mit Hilfe von maschinenübersetzungsmotivierten Metriken bewertet: BLEU (K. Papineni, S. Roukos, T. Ward, und W. Zhu. Bleu: a method for automatic evaluation of machine translation. In den Ergebnissen der 40. Jahrestagung der Association for Computational Linguistics, 6-12 Juli, 2002, Philadelphia, PA, USA., Seiten 311-318, 2002.), METEOR (M. J. Denkowski und A. Lavie. Meteor universal: Language-specific translation evaluation for any target language. In den Ergebnissen des neunten Workshops über Statistische Maschinenübersetzung, WMT@ACL 2014, 26-27 Juni, 2014, Baltimore, Maryland, USA, Seiten 376-380, 2014.), and the other metric for image description, CIDEr (R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In der IEEE-Konferenz über Computer Vision und Mustererkennung CVPR 2015, Boston, MA, USA, 7-12 Juni, 2015, Seiten 4566-4575, 2015.). Verwendet wurde das öffentliche verfügbare Auswertungsskript, das für die Bilduntertitelungsherausforderung angefertigt wurde (X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll'ar, und C. L. Zitnick. Microsoft-COCO-Untertitelungen: Data collection and evaluation server. CoRR, abs/1504.00325, 2015.).
Bewertungsergebnisse
8 zeigt Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung bezüglich des Youtube2text-Datensatzes. Die herkömmlichen Verfahren, die eine einfache additive multimodale Fusion (einfaches Multimodal), unimodale Modelle mit zeitlicher Aufmerksamkeit (Unimodal) und Basisliniensysteme, die zeitliche Aufmerksamkeit verwendeten, sind, werden durchgeführt.
Die ersten drei Zeilen der Tabelle verwenden zeitliche Aufmerksamkeit aber nur eine Modalität (einen Merkmalstyp). Die nächsten zwei Zeilen führen eine multimodale Fusion von zwei Modalitäten (Bild und Raum-Zeit) durch, wobei entweder die Einfache Multimodale Fusion (siehe 6) oder der vorgeschlagene Multimodale Aufmerksamkeitsmechanismus (siehe 7) verwendet wird. Die nächsten zwei Zeilen führen auch multimodale Fusion durch, diesmal mit drei Modalitäten (Bild-, Raum-Zeit- und Audiomerkmale). In jeder Spalte sind die Ergebnisse der beiden besten Methoden fett gedruckt dargestellt.
Das Einfache Multimodal Modell schneidete besser ab als die unimodalen Modelle. Das Multimodale Aufmerksamkeitsmodell übertraf jedoch das Einfache Multimodale Modell. Die Audiofunktion beeinträchtigt die Leistung der Basislinie, da einige YouTube-Daten Geräusche, wie Hintergrundmusik, enthalten, die nichts mit dem Videoinhalt zu tun haben. Das Multimodale Aufmerksamkeitsmodell milderte die Auswirkungen der Geräusche der Audiomerkmale. Darüber hinaus erreichte die Kombination der Audiomerkmale unter Verwendung des vorgeschlagenen Verfahrens die beste Leistung von CIDEr für alle experimentellen Bedingungen.
Das Multimodale Aufmerksamkeitsmodell verbesserte jedoch das Einfache Multimodale Modell.
9A, 9B, 9C und 9D zeigen Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
Die 9A-9C zeigen drei exemplarische Videoclips, für die das aufmerksamkeitsbasierte multimodale Fusionsverfahren (Zeitliche & Multimodale Aufmerksamkeit mit VGG und C3D) das einzelne modale Verfahren (Zeitliche Aufmerksamkeit mit VGG) und das einfache modale Fusionsverfahren (Zeitliche Aufmerksamkeit mit VGG und C3D) im CIDEr-Maß übertraf. 9D zeigt einen exemplarischen Videoclip, für den das aufmerksamkeitsbasierte multimodale Fusionsverfahren (Zeitliche & Multimodale Aufmerksamkeit) mit Audio-Merkmalen das einmodale Verfahren (Zeitliche Aufmerksamkeit mit VGG), das einfache modale Fusionsverfahren (Zeitliche Aufmerksamkeit mit VGG, C3D) mit/ohne Audiomerkmale übertraf. Diese Beispiele zeigen die Wirksamkeit des multimodalen Aufmerksamkeitsmechanismus.
In einigen Ausführungsformen der vorliegenden Offenbarung, wenn das oben beschriebene multimodale Fusionsmodell in einem Computersystem installiert ist, kann das Videoskript effektiv mit geringerer Rechenleistung erzeugt werden, so dass die Verwendung des multimodalen Fusionsmodellverfahrens oder Systems die Verwendung von zentralen Verarbeitungseinheiten und den Energieverbrauch reduzieren kann.
Weiterhin bieten Ausführungsformen gemäß der vorliegenden Offenbarung ein wirksames Verfahren zur Durchführung des multimodalen Fusionsmodells, so dass die Verwendung eines Verfahrens und Systems unter Verwendung des multimodalen Fusionsmodells die Nutzung der zentralen Verarbeitungseinheit (CPU), den Energieverbrauch und/oder die genutzte Netzwerkbandbreite reduzieren kann.
Die oben beschriebenen Ausführungsformen der vorliegenden Offenbarung können auf vielfältige Weise umgesetzt werden. So können beispielsweise die Ausführungsformen unter Verwendung von Hardware, Software oder einer Kombination davon realisiert werden. Bei der Implementierung in Software kann der Softwarecode auf jedem geeigneten Prozessor oder jeder Sammlung von Prozessoren ausgeführt werden, unabhängig davon, ob er in einem einzelnen Computer bereitgestellt oder auf mehrere Computer verteilt ist. Solche Prozessoren können als integrierte Schaltungen mit einem oder mehreren Prozessoren in einer Komponente einer integrierten Schaltung implementiert sein. Allerdings kann ein Prozessor auch mit Hilfe von Schaltkreisen in jedem geeigneten Format implementiert sein.
Außerdem können die verschiedenen hierin beschriebenen Verfahren oder Prozesse als Software codiert sein, die auf einem oder mehreren Prozessoren ausführbar ist, die eines von einer Vielzahl von Betriebssystemen oder Plattformen verwenden. Darüber hinaus kann diese Software mit einer Reihe geeigneter Programmiersprachen und/oder Programmier- oder Skriptwerkzeugen geschrieben werden und auch als ausführbarer Maschinensprachencode oder Zwischencode kompiliert sein, der auf einem Framework oder einer virtuellen Maschine ausgeführt wird. Typischerweise kann die Funktionalität der Programmodule in verschiedenen Ausführungsformen beliebig kombiniert oder verteilt sein.
Darüber hinaus können die Ausführungsformen der vorliegenden Offenbarung als ein Verfahren ausgeführt sein, für das ein Beispiel angegeben wurde. Die als Teil des Verfahrens durchgeführten Handlungen können in jeder geeigneten Weise angeordnet sein. Dementsprechend können Ausführungsformen konstruiert werden, in denen Handlungen in einer anderen Reihenfolge als der dargestellten ausgeführt werden, was auch die gleichzeitige Ausführung einiger Handlungen umfassen kann, auch wenn sie in veranschaulichenden Ausführungsformen als aufeinanderfolgende Handlungen dargestellt sind. Darüber hinaus bedeutet die Verwendung von Ordnungsbegriffen, wie erste, zweite, in den Ansprüchen, um ein Anspruchselement zu modifizieren, allein keine Priorität, keine Präzedenz oder keinen Rang eines Anspruchselements gegenüber einem anderen oder die zeitliche Reihenfolge, in der Handlungen eines Verfahrens durchgeführt werden, sondern dient lediglich als Kennzeichnung zur Unterscheidung eines Anspruchselements mit einer bestimmten Bezeichnung von einem anderen Element mit einer gleichen Bezeichnung (bis auf die Verwendung des Ordnungsbegriffs), um Anspruchselemente voneinander zu unterscheiden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, Herausgeber, Advances in Neural Information Processing Systems 25, Seiten 1097-1105. Curran Associates, Inc., 2012. [0065]
D. Tran, L. D. Bourdev, R. Fergus, L. Torresani und M. Paluri. Learning spatiotemporal features with 3d convultional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, 7. bis 13. Dezember, 2015, Seiten 4489-4497, 2015 [0065]
(A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar und L. Fei-Fei). Large-scale classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1725-1732, 2014 [0065]
K. Papineni, S. Roukos, T. Ward, und W. Zhu. Bleu: a method for automatic evaluation of machine translation. In den Ergebnissen der 40. Jahrestagung der Association for Computational Linguistics, 6-12 Juli, 2002, Philadelphia, PA, USA., Seiten 311-318, 2002 [0068]
M. J. Denkowski und A. Lavie. Meteor universal: Language-specific translation evaluation for any target language. In den Ergebnissen des neunten Workshops über Statistische Maschinenübersetzung, WMT@ACL 2014, 26-27 Juni, 2014, Baltimore, Maryland, USA, Seiten 376-380, 2014 [0068]
R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In der IEEE-Konferenz über Computer Vision und Mustererkennung CVPR 2015, Boston, MA, USA, 7-12 Juni, 2015, Seiten 4566-4575, 2015 [0068]
X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll'ar, und C. L. Zitnick. Microsoft-COCO-Untertitelungen: Data collection and evaluation server. CoRR, abs/1504.00325, 2015 [0068]

Claims

System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren, umfassend: einen oder mehrere Prozessoren in Verbindung mit einem Speicher und eine oder mehrere Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, um den einen oder die mehreren Prozessoren zu veranlassen, Operationen durchzuführen, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter entsprechender Verwendung erster und zweiter Merkmalsextrahierer aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen entsprechend aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgengerators zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
System nach Anspruch 1, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.
System nach Anspruch 1, wobei die ersten und zweiten Eingabevektoren verschiedene Modalitäten sind.
System nach Anspruch 1, wobei die Operationen ferner umfassen: Akkumulieren des vorhergesagten Wortes im Speicher oder der einen oder mehreren Speichereinrichtungen, um die Wortfolge zu erzeugen.
System nach Anspruch 4, wobei das Akkumulieren fortgesetzt wird, bis ein Endkennzeichen empfangen wird.
System nach Anspruch 1, wobei die Operationen ferner umfassen: Übertragen des aus dem Folgenerzeuger erzeugten vorhergesagten Wortes.
System nach Anspruch 1, wobei die ersten und zweiten Merkmalsextrahierer vortrainierte Neuronale Faltungsnetzwerke (Convolutional Neuronal Networks CNNs) sind, die für ein Bild- oder eine Videoklassifikationsaufgabe trainiert wurden.
System nach Anspruch 1, wobei die Merkmalsextrahierer Lang-Kurzzeitgedächtnis-(Long Short-Term Memory = LSTM)-Netzwerke sind.
System nach Anspruch 1, wobei das vorhergesagte Wort mit höchster Wahrscheinlichkeit unter allen möglichen Worten bei gewichtetem Inhaltsvektor und Vorschritt-Kontextvektor bestimmt wird.
System nach Anspruch 1, wobei der Folgengenerzeuger ein Lang-Kurzzeitgedächtnis-(LSTM)-Netzwerk einsetzt.
System nach Anspruch 1, wobei der erste Eingabevektor über eine erste Eingabe-/Ausgabe-(I/O)-Schnittstelle empfangen wird und der zweite Eingabevektor über eine zweite I/O-Schnittstelle empfangen wird.
Nichttransitorisches computerlesbares Medium das Software speichert, die Anweisungen enthält, die durch einen oder mehrere Prozessoren ausführbar sind, welche bei einer solchen Ausführung den einen oder die mehreren Prozessoren in Verbindung mit einem Speicher veranlassen, Operationen durchzuführen, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren entsprechend unter Verwendung von ersten und zweiten Merkmalsextrahierern aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen entsprechend aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor mit einer vorherbestimmten Dimension und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor mit der vorherbestimmten Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors mit der vorherbestimmten Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.
Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten Eingabevektoren verschiedene Modalitäten sind.
Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die Operationen ferner umfassen: Akkumulieren des vorhergesagten Wortes in dem Speicher oder der einen oder den mehreren Speichereinrichtungen, um die Wortfolge zu erzeugen.
Nichttransitorisches computerlesbares Medium nach Anspruch 15, wobei das Akkumulieren fortgesetzt wird, bis ein Endkennzeichen empfangen wird.
Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die Operationen ferner umfassen: Übertragen des erzeugten vorhergesagten Wortes aus dem Folgenerzeuger.
Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten Merkmalsextrahierer vortrainierte neuronale Faltungsnetzwerke (CNNs) sind, die für ein Bild- oder eine Videoklassifikationsaufgabe trainiert wurden.
Verfahren zum Erzeugen einer Wortfolge aus einer multimodalen Eingabe, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter entsprechender Verwendung von ersten und zweiten Merkmalsextrahierern aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor mit einer vorherbestimmten Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor mit der vorherbestimmten Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors mit der vorherbestimmten Dimension aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
Verfahren nach Anspruch 19, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.