DE112017006685T5 - Verfahren und System für ein multimodales Fusionsmodell - Google Patents

Verfahren und System für ein multimodales Fusionsmodell Download PDF

Info

Publication number
DE112017006685T5
DE112017006685T5 DE112017006685.9T DE112017006685T DE112017006685T5 DE 112017006685 T5 DE112017006685 T5 DE 112017006685T5 DE 112017006685 T DE112017006685 T DE 112017006685T DE 112017006685 T5 DE112017006685 T5 DE 112017006685T5
Authority
DE
Germany
Prior art keywords
vectors
vector
content
modal
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017006685.9T
Other languages
English (en)
Inventor
Chiori Hori
Takaaki Hori
John Hershey
Tim Marks
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112017006685T5 publication Critical patent/DE112017006685T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ein System zum Erzeugen einer Wortfolge umfasst einen oder mehrere Prozessoren in Verbindung mit einem Speicher und einer oder mehreren Speichereinrichtungen, speichernd Anweisungen, die Operationen veranlassen, die umfassen: Empfangen erster und zweiter Eingabevektoren, Extrahieren erster und zweiter Merkmalsvektoren, Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen, Berechnen eines ersten Merkmalsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors, Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen, Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers.

Description

  • Technisches Gebiet
  • Die Erfindung bezieht sich im Allgemeinen auf ein Verfahren und ein System zum Beschreiben von multimodalen Daten, und insbesondere auf ein Verfahren und ein System zur Videobeschreibung.
  • Hintergrund zum Stand der Technik
  • Automatische Videobeschreibung, bekannt als Videountertitelung, bezieht sich auf die automatische Erzeugung einer Beschreibung in einer natürlichen Sprache (z.B. einem Satz), der ein Eingabevideo erzählt. Videobeschreibung kann sich auf breite Anwendungen beziehen, umfassend Video-Wiederauffinden, automatische Beschreibung von Heimspielfilmen oder online hochgeladener Videoclips, Videobeschreibungen für Sehbehinderte, Warnungserzeugung für Überwachungssysteme und Szenenverständnis zum Teilen von Wissen zwischen Mensch und Maschine.
  • Videobeschreibungssysteme extrahieren die wichtigsten Merkmale aus den Videodaten, welche multimodale Merkmale, wie Bildmerkmale, die einige Objekte darstellen, Bewegungsmerkmale, die einige Handlungen darstellen, und Audiomerkmale, die einige Ereignisse angeben, sein können, und erzeugen eine Beschreibung, die Ereignisse erzählt, so dass die Wörter in der Beschreibung für diese extrahierten Merkmale relevant sind und als natürliche Sprache entsprechend angeordnet sind.
  • Ein inhärentes Problem bei der Videobeschreibung besteht darin, dass die Abfolge der Videomerkmale und die Abfolge von Wörtern in der Beschreibung nicht synchronisiert sind. Tatsächlich können Objekte und Handlungen im Video in einer anderen Reihenfolge erscheinen als sie im Satz erscheinen. Beim Auswählen der richtigen Wörter, um etwas zu beschreiben, sind nur die Merkmale, die diesem Objekt oder der Handlung direkt entsprechen, relevant, und die anderen Merkmale sind eine Störungsquelle. Zudem sind einige Ereignisse nicht immer in allen Merkmalen berücksichtigt.
  • Zusammenfassung der Erfindung
  • Technisches Problem
  • Dementsprechend besteht ein Bedarf, verschiedene Merkmale global oder selektiv zu verwenden, um jedes Wort der Beschreibung abzuleiten, um eine Videobeschreibung hoher Qualität zu erzielen.
  • Lösung des Problems
  • Einige Ausführungsformen der vorliegenden Offenbarung basierend auf dem Erzeugen von Inhaltsvektoren aus Eingabedaten mit mehreren Modalitäten. In einigen Fällen können die Modalitäten Audiosignale, Videosignale (Bildsignale) und Bewegungssignale sein, die in Videosignalen enthalten sind.
  • Die vorliegende Offenbarung basiert auf einem multimodalen Fusionssystem, das die Inhaltsvektoren aus den Eingabedaten, die mehrere Modalitäten aufweisen, erzeugt. In einigen Fällen empfängt das multimodale Fusionssystem Eingabesignale, aufweisend Bild(Video)Signale, Bewegungssignale und Audiosignale, und erzeugt eine Beschreibung, die für die Eingabesignale relevante Ereignisse erzählt.
  • Gemäß einigen Ausführungsformen der vorliegenden Erfindung umfasst ein System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren einen oder mehrere Prozessoren und eine oder mehrere Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, um den einen oder die mehreren Prozessoren zu veranlassen, Operationen durchzuführen, die Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen, Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren, Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren, Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  • Zudem stellen einige Ausführungsformen der vorliegenden Offenbarung ein nichttransitorisches computerlesbares Medium, speichernd Software, umfassend Anweisungen, die durch einen oder mehrere Prozessoren ausführbar sind, welche, auf eine solche Ausführung, den einen oder die mehreren Prozessoren veranlassen, Operationen durchzuführen, bereit. Die Operationen umfassen Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers, Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung umfasst ein Verfahren zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  • Die vorliegenden offenbarten Ausführungsformen werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen weiter erläutert. Die dargestellten Zeichnungen sind nicht zwangsläufig maßstabsgetreu, und sollen stattdessen im Allgemeinen die Darstellung der Grundlagen der vorliegenden offenbarten Ausführungsformen hervorheben.
  • Figurenliste
    • [1] 1 ist ein Blockdiagramm, darstellend ein multimodales Fusionssystem gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
    • [2A] 2A ist ein Blockdiagramm, darstellend ein einfaches multimodales Verfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [2B] 2B ist ein Blockdiagramm, darstellend ein multimodales Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [3] 3 ist ein Blockdiagramm, darstellend ein Beispiel der LSTM-basierten Decodierer-Codierer-Architektur gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [4] 4 ist ein Blockdiagramm, darstellend ein Beispiel des aufmerksamkeitsbasierten Satzerzeugers aus Video gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [5] 5 ist ein Blockdiagramm, darstellend eine Erweiterung des aufmerksamkeitsbasierten Satzerzeugers aus Video gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [6] 6 ist ein Diagramm, darstellend einen einfachen Fusionsansatz (einfaches multimodales Verfahren) gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [7] 7 ist ein Diagramm, darstellend eine Architektur eines Folgenerzeugers gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [8] 8 zeigt Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
    • [9A bis 9D] 9A, 9B und 9C zeigen Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
  • Beschreibung der Ausführungsformen
  • Während die vorstehend genannten Zeichnungen vorliegend offenbarte Ausführungsformen beschreiben, können auch andere Ausführungsformen, wie in der Erläuterung angemerkt, in Betracht gezogen werden. Die vorliegende Offenbarung präsentiert veranschaulichende Ausführungsformen mittels Darstellung und keine Einschränkung. Zahlreiche andere Modifikationen und Ausführungsformen, die innerhalb des Umfangs und des Geistes der Grundlagen der vorliegend offenbarten Ausführungsformen fallen, können vom Fachmann vorgenommen werden.
  • Die folgende Beschreibung stellt nur beispielhafte Ausführungsformen bereit, und soll den Umfang, die Anwendbarkeit oder Konfiguration der Offenbarung nicht einschränken. Vielmehr soll die folgende Beschreibung der beispielhaften Ausführungsformen für den Fachmann eine befähigende Beschreibung zum Umsetzen einer oder mehrerer der beispielhaften Ausführungsformen bereitstellen. Berücksichtigt sind dabei verschiedene Änderungen, die hinsichtlich der Funktion und der Anordnung von Elementen vorgenommen werden können, ohne vom Geist und Umfang des in den beigefügten Ansprüchen erläuterten offenbarten Gegenstands abzuweichen.
  • Spezifische Einzelheiten sind in der folgenden Beschreibung bereitgestellt, um ein umfassendes Verständnis der Ausführungsformen bereitzustellen. Allerdings soll vom durchschnittlichen Fachmann verstanden werden, dass die Ausführungsformen auch ohne diese spezifischen Einzelheiten umgesetzt werden können. Zum Beispiel können Systeme, Prozesse und andere Elemente im offenbarten Gegenstand als Komponenten in Blockdiagrammform dargestellt sein, um die Ausführungsformen nicht durch unnötige Details unklar zu machen. In anderen Fällen können bekannte Prozesse, Strukturen und Techniken ohne unnötige Details dargestellt sein, um zu vermeiden, dass die Ausführungsformen unklar gemacht werden. Zudem zeigen gleiche Bezugszeichen und Benennungen in den verschiedenen Zeichnungen gleiche Elemente an.
  • Außerdem können einzelne Ausführungsformen als ein Prozess beschrieben sein, der als ein Flussdiagramm, Ablaufdiagramm, Datenflussdiagramm, Strukturdiagramm oder Blockdiagramm dargestellt ist. Obwohl ein Flussdiagramm die Operationen als einen sequentiellen Prozess beschreiben kann, können viele der Operationen parallel oder gleichzeitig durchgeführt werden. Zudem kann die Reihenfolge der Operationen umgeordnet werden. Ein Prozess kann beendet werden, wenn seine Operationen abgeschlossen sind, kann allerdings zusätzliche Schritt aufweisen, die in einer Figur nicht erläutert oder enthalten sind. Zudem kann es sein, dass nicht alle Operationen in einem speziell erläuterten Prozess in allen Ausführungsformen vorkommen. Ein Prozess kann einem Verfahren, einer Funktion, einem Vorgang, einer Subroutine, einem Subprogramm etc. entsprechen. Wenn ein Prozess einer Funktion entspricht, kann die Beendigung der Funktion einem Zurückkehren der Funktion zur Aufruffunktion oder der Hauptfunktion entsprechen.
  • Zudem können Ausführungsformen des offenbarten Gegenstands zumindest teilweise, entweder manuell oder automatisch, realisiert sein. Manuelle oder automatische Implementierungen können ausgeführt, oder zumindest unterstützt sein, durch die Verwendung von Maschinen, Hardware, Software, Firmware, Middleware, Mikrocode, Hardwarebeschreibungssprachen oder irgendeine Kombination davon. Bei Implementierung in Software, Firmware, Middleware oder Mikrocode, können der Programmcode oder Codesegmente zum Durchführen der notwendigen Aufgaben, in einem maschinenlesbaren Medium gespeichert sein. Ein Prozessor(en) kann die notwendigen Aufgaben durchführen.
  • Gemäß Ausführungsformen der vorliegenden Offenbarung umfasst ein System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren einen oder mehrere Prozessoren in Verbindung mit einem von mehreren Speichern und einer oder mehreren Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind. Wenn die Anweisungen durch den einen oder die mehreren Prozessoren ausgeführt werden, veranlassen die Anweisungen den einen oder die mehreren Prozessoren, Operationen durchzuführen, die umfassen: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter Verwendung erster und zweiter Merkmalsextrahierer jeweils aus der ersten zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen jeweils aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers, Berechnen eines ersten Inhaltsvektors aus der ersten Gewichtung und dem ersten Merkmalsvektor, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Gewichtung und dem zweiten Merkmalsvektor; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension, Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  • In diesem Fall können der erste modale Inhaltsvektor, der zweite modale Inhaltsvektor und der gewichtete Inhaltsvektor die gleiche vorherbestimmte Dimension aufweisen. Dadurch wird es dem System ermöglicht, ein multimodales Fusionsmodell durchzuführen. Mit anderen Worten können diese Vektoren durch Gestalten oder Bestimmen der Dimensionen der Eingabevektoren und der gewichteten Inhaltsvektoren, so dass sie eine identische Dimension aufweisen, bei der Datenverarbeitung des multimodalen Fusionsmodells einfach gehandhabt werden, da diese Vektoren durch die Verwendung eines identischen Datenformats, aufweisend die identische Dimension, ausgedrückt sind. Indem die Datenverarbeitung unter Verwendung von transformierten Daten, um die identische Dimension aufzuweisen, vereinfacht wird, kann das multimodale Fusionsmodellverfahren oder System gemäß Ausführungsformen der vorliegenden Offenbarung die Nutzung einer zentralen Verarbeitungseinheit und den Energieverbrauch zum Erzeugen einer Wortfolge aus den multimodalen Eingabevektoren reduzieren.
  • Natürlich kann die Anzahl der Vektoren entsprechend der Anforderung des Systemdesigns in vorherbestimmte N-Vektoren geändert werden. Wenn beispielsweise das vorherbestimmte N auf drei eingestellt ist, können die drei Eingabevektoren Bildmerkmale, Bewegungsmerkmale und Audiomerkmale sein, die aus Bilddaten, Videosignalen und Audiosignalen über eine im System integrierte Eingabe-/Ausgabe-Schnittstelle empfangen werden.
  • In einigen Fällen können das erste und zweite aufeinanderfolgende Intervall ein identisches Intervall sein, und der erste und zweite Vektor können unterschiedliche Modalitäten sein.
  • 1 zeigt ein Blockdiagramm, darstellend ein multimodales Fusionssystem 100 gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Das multimodale Fusionssystem 100 kann eine Mensch-Maschine-Schnittstelle (HMI) mit Eingabe-/Ausgabe-(I/O)-Schnittstelle 110, die mit einer Tastatur 111 und einer Zeigeeinrichtung/Medium 112 verbindbar ist, ein Mikrofon 113, einen Empfänger 114, einen Übertrager 115, einen 3D-Sensor 116, ein Globales Positionsbestimmungssystem (GPS) 117, eine oder mehrere I/O-Schnittstellen 118, einen Prozessor 120, eine Speichereinrichtung 130, einen Speicher 140, eine Netzwerkschnittstellensteuerung 150 (NIC), die mit einem Netzwerk 155 verbindbar ist, das lokale Netzwerke und Internet-Netzwerk (nicht dargestellt) aufweist, eine Anzeigeschnittstelle 160, die mit einer Anzeigeeinrichtung 165 verbunden ist, eine Abbildungsschnittstelle 170, die mit einer Abbildungseinrichtung 175 verbindbar ist, eine Druckerschnittstelle 180, die mit einer Druckereinrichtung 185 verbindbar ist, aufweisen. Die HMI mit I/O-Schnittstelle 110 kann Analog/Digital- und Digital/Analog-Wandler umfassen. Die HMI mit I/O-Schnittstelle 110 umfasst eine drahtlose Kommunikationsschnittstelle, die mit anderen 3D-Punktwolken-Anzeigesystemen oder anderen Computern über drahtlose Internetverbindungen oder drahtlose lokale Netzwerke kommunizieren kann, die den Aufbau mehrerer 3D-Punktwolken ermöglichen. Das 3D-Punktwolken-System 100 kann eine Energiequelle 190 aufweisen. Die Energiequelle 190 kann eine Batterie sein, die von einer externen Energiequelle (nicht dargestellt) über die I/O-Schnittstelle 118 wiederaufgeladen werden kann. Je nach Anwendung kann sich die Energiequelle 190 optional außerhalb des Systems 100 befinden.
  • Die HMI- und I/O-Schnittstelle 110 und die I/O-Schnittstelle 118 können angepasst sein, eine Verbindung zu einer anderen Anzeigeeinrichtung (nicht dargestellt) herzustellen, einschließlich eines Computermonitors, einer Kamera, eines Fernsehers, eines Projektors oder einer mobilen Einrichtung, unter anderem.
  • Das multimodale Fusionssystem 100 kann elektronische Text-/Abbildungsdokumente 195, umfassend Sprachdaten, über das mit dem NIC 150 verbundene Netzwerk 155 empfangen. Die Speichereinrichtung 130 umfasst ein Folgenerzeugungsmodell 131, ein Merkmalsextrahierungsmodell 132 und ein multimodales Fusionsmodell 200, in dem Algorithmen des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200 als Programmcodedaten im Speicher 130 gespeichert sind. Die Algorithmen der Modelle 131-132 und 200 können auf einem computerlesbaren Aufzeichnungsmedium (nicht dargestellt) gespeichert sein, so dass der Prozessor 120 die Algorithmen der Modelle 131-132 und 200 ausführen kann, indem er die Algorithmen aus dem Medium lädt. Darüber hinaus kann die Zeigeeinrichtung/Medium 112 Module enthalten, die Programme lesen und durchführen, die auf einem computerlesbaren Aufzeichnungsmedium gespeichert sind.
  • Um mit der Durchführung der Algorithmen der Modelle 131-132 und 200 zu beginnen, können Anweisungen über die Tastatur 111, die Zeigeeinrichtung/Medium 112 oder über das drahtlose Netzwerk oder das Netzwerk 155, die mit anderen Computern (nicht dargestellt) verbunden sind, an das System 100 übertragen werden. Die Algorithmen der Modelle 131-132 und 200 können in Antwort auf das Empfangen eines akustischen Signals eines Benutzers durch das Mikrofon 113 unter Verwendung eines vorinstallierten konventionellen Spracherkennungsprogramms, das im Speicher 130 gespeichert ist, gestartet werden. Weiterhin umfasst das System 100 einen Ein-/Ausschalter (nicht dargestellt), der es dem Benutzer ermöglicht, den Betrieb des Systems 100 zu starten/stoppen.
  • Die HMI- und I/O-Schnittstelle 110 kann einen Analog-Digital-(A/D)-Wandler, einen Digital-Analog-Wandler (D/A) und eine drahtlose Signalantenne zum Verbinden des Netzwerks 155 enthalten. Weiterhin kann die eine oder mehr als eine I/O-Schnittstelle 118 mit einem Kabelfernseh-(TV)-Netzwerk oder einer herkömmlichen Fernsehantenne (TV) verbunden werden, die Fernsehsignale empfängt. Die über die Schnittstelle 118 empfangenen Signale können in digitale Bild- und Audiosignale umgewandelt werden, die nach den Algorithmen der Modelle 131-132 und 200 in Verbindung mit dem Prozessor 120 und dem Speicher 140 so verarbeitet werden können, dass Videoskripte erzeugt und auf der Anzeigeeinrichtung 165 mit Bildrahmen der digitalen Bilder angezeigt werden, während der Ton der Akustik der TV-Signale über einen Lautsprecher 119 ausgegeben wird. Der Lautsprecher kann in das System 100 integriert sein, oder ein externer Lautsprecher kann über die Schnittstelle 110 oder die I/O-Schnittstelle 118 verbunden sein.
  • Der Prozessor 120 kann eine Vielzahl von Prozessoren sein, die eine oder mehr als eine Grafikverarbeitungseinheit (GPUs) enthalten. Der Speicher 130 kann Spracherkennungsalgorithmen (nicht dargestellt) enthalten, die Sprachsignale erkennen können, die über das Mikrofon 113 erhalten werden.
  • Das multimodale Fusionssystemmodul 200, das Folgenerzeugungsmodell 131 und das Merkmalsextrahierungsmodell 132 können durch neuronale Netzwerke gebildet sein.
  • 2A ist ein Blockdiagramm, darstellend ein einfaches multimodales Verfahren gemäß Ausführungsformen der vorliegenden Offenbarung. Das einfache multimodale Verfahren kann durch den Prozessor 120 durchgeführt werden, der Programme des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200, die im Speicher gespeichert sind, ausführt. Das Folgenerzeugungsmodell 131, das Merkmalsextrahierungsmodell 132 und das multimodale Fusionsmodell 200 können in einem computerlesbaren Aufzeichnungsmedium gespeichert sein, so dass das einfache multimodale Verfahren durchgeführt werden kann, wenn der Prozessor 120 die Algorithmen des Folgenerzeugungsmodells 131, des Merkmalsextrahierungsmodells 132 und des multimodalen Fusionsmodells 200 lädt und ausführt. Das einfache multimodale Verfahren wird in Kombination mit dem Folgenerzeugungsmodell 131, dem Merkmalsextrahierungsmodell 132 und dem multimodalen Fusionsmodell 200 durchgeführt. Weiterhin verwendet das einfache multimodale Verfahren die Merkmalsextrahierer 211, 221 und 231 (Merkmalsextrahierer 1~K), die Aufmerksamkeitsschätzer 212, 222 und 232 (Aufmerksamkeitsschätzer 1~K), die Gewichtete-Summe-Prozessoren 213, 223 und 233 (Gewichtete-Summe-Prozessoren (Berechner) 1~K), die Merkmalstransformationsmodule 214, 224 und 234 (Merkmalstransformationsmodule 1~K), einen Einfache-Summen-Prozessor (Berechner) 240 und einen Folgenerzeuger 250.
  • 2B ist ein Blockdiagramm, darstellend ein multimodales Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung. Neben den Merkmalsextrahierern 1~K, den Aufmerksamkeitsschätzern 1~K, den Gewichtete-Summe-Prozessoren 1~K, den Merkmalstransformationsmodulen 1~K und dem Folgenerzeuger 250 umfasst das multimodale Aufmerksamkeitsverfahren weiterhin einen Modale-Aufmerksamkeit-Schätzer 255 und einen Gewichtete-Summe-Prozessor 245 anstelle der Verwendung des Einfache-Summe-Prozessors 240. Das multimodale Aufmerksamkeitserfahren wird in Kombination mit dem Folgenerzeugungsmodell 131, dem Merkmalsextrahierungsmodell 132 und dem multimodalen Fusionsmodell 200 durchgeführt. In beiden Verfahren stellt das Folgenerzeugungsmodell 131 den Folgenerzeuger 250 bereit und das Merkmalsextrahierungsmodell 132 die Merkmalsextrahierer 1~K bereit. Weiterhin können die Merkmalstransformationsmodule 1~K, der Modale-Aufmerksamkeit-Schätzer 255 und die Gewichtete-Summe-Prozessoren 1~K und der Gewichtete-Summe-Prozessor 245 durch das multimodale Fusionsmodell 200 bereitgestellt sein.
  • Bei gegebenen multimodalen Videodaten, die K Modalitäten aufweisen, so dass K ≥ 2, und einige der Modalitäten gleich sein können, werden Modal-1-Daten unter Verwendung des Merkmalextrahieres 211, des Aufmerksamkeitsschätzers 212 und des gewichtete-Summe-Prozessors 213 für die Daten in einen festdimensionierten Inhaltsvektor umgewandelt, wobei der Merkmalsextrahierer 211 mehrere Merkmalsvektoren aus den Daten extrahiert, der Aufmerksamkeitsschätzer 212 jede Gewichtung für jeden extrahierten Merkmalsvektor schätzt und der Gewichtete-Summe-Prozessor 213 den als gewichtete Summe der extrahierten Merkmalsvektoren mit den geschätzten Gewichtungen berechneten Inhaltsvektor ausgibt (erzeugt). Modal-2-Daten werden unter Verwendung des Merkmalsextrahierers 221, des Aufmerksamkeitsschätzers 222 und des Gewichtete-Summe-Prozessors 223 für die Daten in einen festdimensionierten Inhaltsvektor umgewandelt. Bis zu den Modal-K-Daten werden K festdimensionierte Inhaltsvektoren erhalten, wobei der Merkmalsextrahierer 231, der Aufmerksamkeitsschätzer 232 und der Gewichtete-Summe-Prozessor 233 für Modal-K-Daten verwendet werden, die Modal-1, Modal-2, ...., Modal-K-Daten können jeweils sequentielle Daten in einer zeitsequentiellen Reihenfolge mit einem Intervall oder andere vorbestimmte Reihenfolgen mit vorherbestimmten Zeitintervallen sein.
  • Jeder der K Inhaltsvektoren wird dann durch jedes Merkmalstransformationsmodul 214, 224 und 234 in einen N-dimensionalen Vektor transformiert (umgewandelt), und K transformierte N-dimensionale Vektoren werden erhalten, wobei N eine vordefinierte positive ganze Zahl ist.
  • Die K transformierten N-dimensionalen Vektoren werden in dem einfachen multimodalen Verfahren von 2A zu einem einzigen N-dimensionalen Inhaltsvektor summiert, während die Vektoren unter Verwendung des modalen Aufmerksamkeitsschätzers 255 und des Gewichtete-Summe-Prozessors 245 in dem multimodalen Aufmerksamkeitsverfahren von 2B in einen einzelnen N-dimensionalen Inhaltsvektor umgewandelt werden, wobei der modale Aufmerksamkeitsschätzer 255 jede Gewichtung für jeden transformierten N-dimensionalen Vektor schätzt, und der Gewichtete-Summe-Prozessor 245 den als eine gewichtete Summe der K transformierten N-dimensionalen Vektoren mit den geschätzten Gewichtungen berechneten N-dimensionalen Inhaltsvektor ausgibt (erzeugt).
  • Der Folgenerzeuger 250 empfängt den einzelnen N-dimensionalen Inhaltsvektor und sagt ein Kennzeichen (Label) voraus, das einem Wort eines Satzes entspricht, der die Videodaten beschreibt. Für die Vorhersage des nächsten Wortes stellt der Folgenerzeuger 250 den Aufmerksamkeitsschätzern 212, 222, 232 und dem modalen Aufmerksamkeitsschätzer 255 Kontextinformationen des Satzes, wie beispielsweise einen Vektor, der die zuvor generierten Wörter repräsentiert, zur Verfügung, um die Aufmerksamkeitsgewichtungen zu schätzen, um geeignete Inhaltsvektoren zu erhalten. Der Vektor kann als Vor-Schritt-(oder Vorschritt)-Kontextvektor bezeichnet werden.
  • Der Folgenerzeuger 250 sagt das nächste Wort beginnend mit dem Satzanfangstoken „<sos>“ vorher und erzeugt einen beschreibenden Satz oder Sätze, indem er das nächste Wort (vorhergesagtes Wort) iterativ vorhersagt, bis ein spezielles Symbol „<eos>“ entsprechend dem „Satzende“ vorhergesagt wird. Mit anderen Worten, der Folgenerzeuger 250 erzeugt aus multimodalen Eingabevektoren eine Wortfolge. In einigen Fällen können die multimodalen Eingabevektoren über verschiedene Eingabe-/Ausgabeschnittstellen, wie die HMI und I/O-Schnittstelle 110, oder eine oder mehrere I/O-Schnittstellen 118 empfangen werden.
  • In jedem Erzeugungsprozess wird ein vorhergesagtes Wort erzeugt, dass in allen möglichen Wörtern eine höchste Wahrscheinlichkeit hat, die aus dem gewichteten Inhaltsvektor und dem Vorschritt-Kontextvektor gegeben ist. Weiterhin kann das vorhergesagte Wort im Speicher 140, der Speichereinrichtung 130 oder mehrere Speichereinrichtungen (nicht dargestellt) zum Erzeugen der Wortfolge akkumuliert sein, und dieser Akkumulationsprozess kann fortgesetzt werden, bis das spezielle Symbol (Ende der Folge) empfangen wird. Das System 100 kann die vom Folgenerzeuger 250 erzeugten vorhergesagten Wörter über das NIC 150 und das Netzwerk 155, die HMI- und I/O-Schnittstelle 110 oder eine oder mehrere I/O-Schnittstellen 118 übertragen, so dass die Daten der vorhergesagten Wörter von anderen Computern 195 oder anderen Ausgabeeinrichtungen (nicht dargestellt) verwendet werden können.
  • Wenn jeder der K Inhaltsvektoren aus bestimmten Modalitätsdaten und/oder aus einen bestimmten Merkmalsextrahierer stammt, ermöglicht die Modalitäts- oder Merkmalsfusion mit der gewichteten Summe der K transformierten Vektoren eine bessere Vorhersage jedes Wortes, indem sie verschiedenen Modalitäten und/oder verschiedenen Merkmalen entsprechend den Kontextinformationen des Satzes Aufmerksamkeit schenkt. Somit kann dieses multimodale Aufmerksamkeitsverfahren verschiedene Merkmale global oder selektiv unter Verwendung von Aufmerksamkeitsgewichtungen über verschiedene Modalitäten oder Merkmale nutzen, um jedes Wort der Beschreibung abzuleiten.
  • Weiterhin umfasst das multimodale Fusionsmodell 200 im System 100 ein Datenverteilungsmodul (nicht dargestellt), das mehrere zeitsequentielle Daten über die I/O-Schnittstelle 110 oder 118 empfängt und die empfangenen Daten in Modal-1, Modal-2,..., Modal-K-Daten verteilt, alle der verteilten zeitsequentiellen Daten nach einem bestimmten Intervall oder Intervallen unterteilt und dann jeweils die Modal-1, Modal-2,..., Modal-K-Daten an die Merkmalsextrahierer 1~K liefert.
  • In einigen Fällen können die mehreren zeitsequentiellen Daten Videosignale und Audiosignale sein, die in einem Videoclip enthalten sind. Wenn der Videoclip für Modaldaten verwendet wird, verwendet das System 100 die Merkmalsextrahierer 211, 221 und 231 (Menge K=3) in 2B. Der Videoclip wird den Merkmalsextrahierern 211, 221 und 231 im System 100 über die I/O-Schnittstelle 110 oder 118 bereitgestellt. Die Merkmalsextrahierer 211, 221 und 231 können Bilddaten, Audiodaten und Bewegungsdaten jeweils aus dem Videoclip als Modal-l-Daten, Modal-2-Daten und Modal-3 (z.B. K=3 in 2B) extrahieren. In diesem Fall empfangen die Merkmalsextrahierer 211, 221 und 231 Modal-1-Daten, Modal-2-Daten und Modal-3 gemäß dem ersten, zweiten und dritten Intervall jeweils aus dem Datenstrom des Videoclips.
  • In In einigen Fällen kann das Datenverteilungsmodul die mehreren zeitsequentiellen Daten mit vorherbestimmten unterschiedlichen Zeitintervallen unterteilen, wenn jeweils Bildmerkmale, Bewegungsmerkmale oder Audiomerkmale mit unterschiedlichen Zeitintervallen erfasst werden können.
  • Codierer-Decodierer-basierter Satzerzeuger
  • Ein Ansatz für die Videobeschreibung kann auf dem Folge-zu-Folge-Lernen basieren. Die Eingabefolge, d.h. die Bildfolge, wird zunächst in einen festdimensionierten semantischen Vektor codiert. Anschließend wird aus dem semantischen Vektor die Ausgabefolge, d.h. die Wortfolge, erzeugt. In diesem Fall werden sowohl der Codierer als auch der Decodierer (oder Erzeuger) in der Regel als Lang-Kurzzeitgedächtnis-(LSTM)-Netzwerke modelliert.
  • 3 zeigt ein Beispiel für die LSTM-basierte Codierer-Decodierer-Architektur. Bei einer gegebenen Folge von Bildern, X = x1, x2, ...., xL, wird jedes Bild zunächst einem Merkmalsextrahierer zugeführt, der ein vortrainiertes Neuronales Faltungsnetzwerk (CNN) für eine Bild- oder VideoKlassifikationsaufgabe, wie GoogLeNet, VGGNet oder C3D, sein kann. Die Folge von Bildmerkmalen, X’ = x’1, x’2, ...., x’L, wird durch Extrahieren des Aktivierungsvektors einer vollständig verbundenen Schicht des CNN für jedes Eingangsbild erhalten. Die Folge der Merkmalsvektoren wird dann dem LSTM-Codierer zugeführt, und der verborgene Zustand des LSTM wird gegeben durch h t = LSTM ( h t 1 , x t ' ; λ E ) ,
    Figure DE112017006685T5_0001
    wobei die LSTM-Funktion des Codierernetzwerks λE berechnet wird als LSTM ( h t 1 , x t ; λ ) = o t tahn ( c t ) ,
    Figure DE112017006685T5_0002
    wobei o t = σ ( W x o ( λ ) x t + W h o ( λ ) h t 1 + b o ( λ ) )
    Figure DE112017006685T5_0003
    c t = f t c t 1 + i t tahn ( W x c ( λ ) x t + W h c ( λ ) h t 1 + b o ( λ ) )
    Figure DE112017006685T5_0004
    f t = σ ( W x f ( λ ) x t + W h f ( λ ) h t 1 + b f ( λ ) )
    Figure DE112017006685T5_0005
    i t = σ ( W x i ( λ ) x t + W h i ( λ ) h t 1 + b i ( λ ) ) ,
    Figure DE112017006685T5_0006
    wobei σ() die elementweise Sigmoidfunktion ist, und it, ft, to und ct jeweils das Eingangstor, Vergesstor, Ausgangstor und die Zellaktivierungsvektoren für den t-ten Eingangsvektor sind. Die Gewichtungsmatrizen Wzz (λ) und die Bias-Vektoren bZ (λ) werden durch den Index z ∈ {x, h, i, f, , o, c} identifiziert. Zum Beispiel ist Whi die Verborgene-Eingangstor-Matrix und Wxo ist die Eingangs-Ausgangstor-Matrix. Gucklochverbindungen (Peephole Connections) werden bei diesem Verfahren nicht verwendet.
  • Der Decodierer sagt das nächste Wort iterativ vorher, beginnend mit dem Satzanfangstoken „<sos>“, bis er das Satzendetoken „<eos>“ vorhersagt. Das Satzanfangstoken kann als ein Startkennzeichen bezeichnet sein, und das Satzendetoken kann als ein Endkennzeichen bezeichnet sein.
  • Bei gegebenem Decodiererzustand si-1, leitet das Decodierernetzwerk λD die Wahrscheinlichkeitsverteilung des nächsten Wortes ab als P ( y | s i 1 ) = softmax ( W s ( λ D ) s i 1 + b s ( λ D ) ) ,
    Figure DE112017006685T5_0007
    und erzeugt Wort yi, welches die höchste Wahrscheinlichkeit aufweist, gemäß y i = argmax y V   P ( y | s i 1 ) ,
    Figure DE112017006685T5_0008
    wobei V das Vokabular bezeichnet. Der Decodiererzustand wird unter Verwendung des LSTM-Netzwerks des Decodierers aktualisiert als s i = LSTM ( s i 1 , y i ' ; λ D ) ,
    Figure DE112017006685T5_0009
    wobei y'i ein Worteinbettungsvektor von ym ist, und der Ausgangszustand s0 aus dem finalen Codiererzustand hL und y'0 = Embed(<sos>) wie in 3 erhalten wird.
  • In der Trainingsphase ist Y = y1, ..., yM als die Referenz gegeben. In der Testphase ist die beste Wortfolge allerdings zu finden basierend auf Y ^ = argmax Y V *   P ( Y | X ) = argmax y 1 , , y M V *   P ( y 1 | s 0 ) P ( y 2 | s 1 )
    Figure DE112017006685T5_0010
    P ( y M | s M 1 ) P ( < eos > | s M ) .
    Figure DE112017006685T5_0011
  • Dementsprechend kann eine Strahlsuche in der Testphase verwendet werden, um mehrere Zustände und Hypothesen mit den höchsten kumulativen Wahrscheinlichkeiten bei jedem m-ten Schritt zu erhalten und die beste Hypothese aus denen auszuwählen, die das Satzendetoken erreicht haben.
  • Aufmerksamkeitsbasierter Satzerzeuger
  • Ein weiterer Ansatz für die Videobeschreibung kann ein aufmerksamkeitsbasierter Folgenerzeuger sein, der es dem Netzwerk ermöglicht, Merkmale aus bestimmten Zeiten oder räumlichen Regionen abhängig vom aktuellen Kontext hervorzuheben, so dass das nächste Wort genauer vorhergesagt werden kann. Im Vergleich zum vorstehend beschriebenen Basisansatz kann der aufmerksamkeitsbasierte Erzeuger Eingangsmerkmale selektiv entsprechend dem Eingangs- und Ausgangskontext ausnutzen. Die Wirksamkeit von Aufmerksamkeitsmodellen hat sich in vielen Aufgaben, wie der maschinellen Übersetzung, gezeigt.
  • 4 ist ein Blockdiagramm, darstellend ein Beispiel des aufmerksamkeitsbasierten Satzerzeugers aus Video, welches einen zeitlichen Aufmerksamkeitsmechanismus über die Eingangsbildfolge aufweist. Die Eingangsbildfolge kann eine zeitsequentielle Reihenfolge mit vorherbestimmten Zeitintervallen sein. Die Eingabefolge von Merkmalsvektoren wird unter Verwendung von einem oder mehreren Merkmalsextrahierern erhalten. In diesem Fall können aufmerksamkeitsbasierte Erzeuger einen Codierer verwenden, der auf einem bidirektionalen LSTM (BLSTM) oder Gated-Recurrent-Unit (GRU) basiert, um die Merkmalsvektorfolge, wie in 5, so weiter zu konvertieren, dass jeder Vektor seine Kontextinformationen enthält.
  • In Videobeschreibungsaufgaben können jedoch CNN-basierte Merkmale direkt verwendet werden, oder es kann eine weitere Feed-Forward-Schicht hinzugefügt werden, um die Dimensionalität zu reduzieren.
  • Wird nach der Merkmalsextraktion wie in 5 ein BLSTM-Codierer verwendet, so können die Aktivierungsvektoren (d.h. Codiererzustände) erhalten werden als h t = [ h t ( f ) h t ( b ) ] ,
    Figure DE112017006685T5_0012
    wobei ht (f) und ht (b) die verborgenen Vorwärts- und Rückwärtsaktivierungsvektoren sind: h t ( f ) = LSTM ( h t 1 ( f ) , x t ' ; λ E ( f ) )
    Figure DE112017006685T5_0013
    h t ( b ) = LSTM ( h t + 1 ( b ) , x t ' ; λ E ( b ) ) .
    Figure DE112017006685T5_0014
  • Wenn eine Feedforward-Schicht verwendet wird, wird der Aktivierungsvektor berechnet als h t = tahn ( W p x t ' + b p ) ,
    Figure DE112017006685T5_0015
    wobei Wp eine Gewichtungsmatrix ist und bp ein Bias-Vektor ist. Wenn ferner die CNN-Merkmale direkt verwendet werden, dann wird diese angenommen ht = xt zu sein.
  • Der Aufmerksamkeitsmechanismus wird durch Verwendung von Aufmerksamkeitsgewichtungen auf die verborgenen Aktivierungsvektoren durch die ganze Eingabefolge hindurch realisiert. Diese Gewichtungen ermöglichen es dem Netzwerk, Merkmale aus den Zeitschritten hervorzuheben, die für die Vorhersage des nächsten Ausgabewortes am wichtigsten sind.
  • Es sei angenommen, dass αi,t eine Aufmerksamkeitsgewichtung zwischen dem iten Ausgabewort und dem tten Eingangsmerkmalsvektor. Für die ite Ausgabe wird der Vektor, repräsentierend den relevanten Inhalt der Eingabefolge, als eine gewichtete Summe der Aktivierungsvektoren der verborgenen Einheit erhalten: c i = t = 1 L α i , t h t .
    Figure DE112017006685T5_0016
  • Das Decodierernetzwerk ist ein Aufmerksamkeitsbasierter-Rekurrente-Folge-Erzeuger (ARSG), der eine Ausgabekennzeichenfolge mit Inhaltsvektoren ci erzeugt. Das Netzwerk verfügt auch über ein LSTM-Decodierernetzwerk, in dem der Decodiererzustand auf die gleiche Weise wie in Gleichung (9) aktualisiert werden kann.
  • Dann wird die Wahrscheinlichkeit des Ausgabekennzeichens berechnet als P ( y | s i 1 , c i ) = softmax ( W s ( λ D ) s i 1 + W c ( λ D ) c i + b s ( λ D ) ) ,
    Figure DE112017006685T5_0017
    und das Wort yi wird berechnet gemäß y i = argmax y V   P ( y | s i 1 , c i ) .
    Figure DE112017006685T5_0018
  • Im Gegensatz zu den Gleichungen (7) und (8) des grundlegenden Codierers-Decodierers ist die Wahrscheinlichkeitsverteilung vom Inhaltsvektor ci abhängig, der spezifische Merkmale hervorhebt, die für die Vorhersage jedes nachfolgenden Wortes am wichtigsten sind. Eine weitere Feed-Forward-Schicht kann vor der Softmax-Schicht eingefügt werden. In diesem Fall werden die Wahrscheinlichkeiten wie folgt berechnet: g i = tanh ( W s ( λ D ) s i 1 + W c ( λ D ) c i + b s ( λ D ) ) ,
    Figure DE112017006685T5_0019
    und P ( y | s i 1 , c i ) = softmax ( W g ( λ D ) g i + b g ( λ D ) ) .
    Figure DE112017006685T5_0020
  • Die Aufmerksamkeitsgewichtungen können berechnet werden als α i , t = exp ( e i , t ) τ = 1 L exp ( e i , τ )
    Figure DE112017006685T5_0021
    und e i , t = w A T tanh ( W A s i 1 + V A h t + b A ) ,
    Figure DE112017006685T5_0022
    wobei WA und VA Matrizen sind, wA und bA Vektoren sind, und ei,t ein Skalar ist.
  • Aufmerksamkeitsbasierte multimodale Fusion
  • Die Ausführungsformen der vorliegenden Offenbarung stellen ein Aufmerksamkeitsmodell zur Handhabung der Fusion mehrerer Modalitäten bereit, wobei jede Modalität ihre eigene Folge von Merkmalsvektoren hat. Für die Videobeschreibung stehen multimodale Eingänge, wie Bildmerkmale, Bewegungsmerkmale und Audiomerkmale zur Verfügung. Darüber hinaus ist die Kombination mehrerer Merkmale aus verschiedenen Merkmalsextrahierungsverfahren oft effektiv, um die Genauigkeit der Beschreibung zu verbessern.
  • In einigen Fällen können Inhaltsvektoren aus VGGNet (Bildmerkmale) und C3D (raumzeitliche Bewegungsmerkmale) zu einem Vektor kombiniert werden, der zur Vorhersage des nächsten Wortes verwendet wird. Dies kann in der Fusionsschicht durchgeführt werden. Wird angenommen, dass K die Anzahl der Modalitäten ist, d.h. die Anzahl der Folgen von Eingabemerkmalsvektoren, wird der folgende Aktivierungsvektor anstelle von Gleichung (19) berechnet, g i = tanh ( W s ( λ D ) s i 1 + k = 1 K d k , i + b s ( λ D ) )
    Figure DE112017006685T5_0023
    wobei d k , i = W c k ( λ D ) c k , i
    Figure DE112017006685T5_0024
    und ck,i der k-te Inhaltsvektor entsprechend dem k-ten Merkmalsextrahierer oder Modalität ist.
  • 6 zeigt den einfachen Merkmalsfusionsansatz (einfaches multimodales Verfahren) unter der Annahme K=2, bei der Inhaltsvektoren mit Aufmerksamkeitsgewichtungen für einzelne Eingabefolgen x11,..., x1L und x21’,..., x2L’ erhalten werden. Diese Inhaltsvektoren werden jedoch mit Gewichtungsmatrizen Wc1 und Wc2 kombiniert, die für gewöhnlich im Satzerzeugungsschritt verwendet werden. Folglich werden die Inhaltsvektoren jedes Merkmalstyps (oder einer Modalität) immer unter Verwendung der gleichen Gewichtungen fusioniert, unabhängig vom Decodiererzustand. Diese Architektur kann die Fähigkeit einführen, mehrere Arten von Merkmalen effektiv ausnutzen zu können, so dass sich die relativen Gewichtungen jedes Merkmalstyps (jeder Modalität) je nach Kontext ändern können.
  • Gemäß den Ausführungsformen der vorliegenden Offenbarung kann der Aufmerksamkeitsmechanismus auf die multimodale Fusion erweitert werden. Mit Hilfe des multimodalen Aufmerksamkeitsmechanismus, der auf dem aktuellen Decodiererzustand basiert, kann sich das Decodierernetzwerk selektiv auf spezifische Eingabemodalitäten (oder spezifische Merkmalstypen) konzentrieren, um das nächste Wort vorherzusagen. Die aufmerksamkeitsbasierte Merkmalsfusion gemäß den Ausführungsformen der vorliegenden Offenbarung kann durchgeführt werden unter Verwendung von g i = tanh ( W s ( λ D ) g i 1 + k = 1 K β k , i d k , i + b s ( λ D ) ) ,
    Figure DE112017006685T5_0025
    wobei d k , i = W c k ( λ D ) c k , i + b c k ( λ D ) .
    Figure DE112017006685T5_0026
  • Die multimodalen Aufmerksamkeitsgewichtungen βk,i werden in ähnlicher Weise wie der zeitliche Aufmerksamkeitsmechanismus erhalten: β k , i = exp ( v k , i ) k = 1 K exp ( v k , i ) ,
    Figure DE112017006685T5_0027
    wobei v k , i = w B T tanh ( W B s i 1 + V B k c k , i + b B k ) ,
    Figure DE112017006685T5_0028
    wobei WB und VBk Matrizen sind, wB und bBk Vektoren sind, und vk,i ein Skalar ist.
  • 7 zeigt die Architektur des Satzerzeugers gemäß den Ausführungsformen der vorliegenden Offenbarung, einschließlich des multimodalen Aufmerksamkeitsmechanismus. Im Gegensatz zum einfachen multimodalen Fusionsverfahren in 6, können sich in 7 die Aufmerksamkeitsgewichtungen auf der Merkmalsebene entsprechend dem Decodiererzustand und den Inhaltsvektoren ändern, was es dem Decodierernetzwerk ermöglicht, bei der Vorhersage jedes nachfolgenden Wortes in der Beschreibung auf eine andere Gruppe von Merkmalen und/oder Modalitäten zu achten.
  • Datensatz zur Auswertung
  • Einige experimentelle Ergebnisse werden im Folgenden beschrieben, um die Merkmalsfusion gemäß einer Ausführungsform der vorliegenden Offenbarung unter Verwendung des Youtube2Text-Videokorpus zu erläutern. Dieser Korpus eignet sich sehr gut zum Trainieren und zum Auswerten automatischer Modelle zur Generierung von Videobeschreibungen. Der Datensatz enthält 1.970 Videoclips mit Beschreibungen in mehreren natürlichen Sprachen. Jeder Videoclip wird mit mehreren parallelen Sätzen kommentiert, die von verschiedenen Mechanischen Türken (Mechanical Turkers) bereitgestellt werden. Es gibt insgesamt 80.839 Sätze, mit etwa 41 kommentierten Sätzen pro Clip. Jeder Satz enthält im Durchschnitt etwa 8 Wörter. Die in allen Sätzen enthaltenen Wörter bilden ein Vokabular von 13.010 eindeutigen lexikalischen Einträgen. Der Datensatz ist eine offene Domäne und deckt ein breites Spektrum an Themen, wie Sport, Tiere und Musik ab. Der Datensatz ist aufgeteilt in einen Trainingssatz mit 1.200 Videoclips, einen Validierungssatz mit 100 Clips und einen Testsatz mit den restlichen 670 Clips.
  • Videovorverarbeitung
  • Die Bilddaten werden aus jedem Videoclip extrahiert, der aus 24 Rahmen pro Sekunde besteht, und auf 224x224 Pixelbilder neu skaliert ist. Für das Extrahieren von Bildmerkmalen wird ein vortrainiertes GoogLeNet CNN (M. Lin, Q. Chen und S. Yan. Netzwerk in Netzwerk. CoRR, abs/1312.4400, 2013.) verwendet, um mit Hilfe der verbreiteten Implementierung in Caffe (Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama und T. Darrell Caffe: Convolutional architecture for fast feature embedding. arXiv Preprint arXiv:1408.5093, 2014.) Darstellungen mit fester Länge zu extrahieren. Merkmale werden aus dem verborgene-Schicht-Pool 5/7×7 s1 extrahiert. Es wird aus jedem Videoclip ein Rahmen jeweils nach 16 Rahmen ausgewählt und diese dem CNN zugeführt, um 1024-dimensionale, rahmenweise Merkmalsvektoren zu erhalten.
  • Es wird auch ein VGGNet (K. Simonyan und A. Zisserman. Very deep convolutional networks for large-scale image recognation. CoRR, abs/1409.1556, 2014.) verwendet, das auf den ImageNet-Datensatz (A. Krizhevsky, I. Sutskever und G. E. Hinton. Imagenet classification with deep convolutional neural networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, Herausgeber, Advances in Neural Information Processing Systems 25, Seiten 1097-1105. Curran Associates, Inc., 2012.) vortrainiert wurde. Für die Bildmerkmale werden die verborgenen Aktivierungsvektoren der vollständig verbundenen Schicht fc7 verwendet, was eine Folge von 4096-dimensionalen Merkmalsvektoren ergibt. Darüber hinaus werden zur Modellierung von Bewegung und kurzfristiger raumzeitlicher Aktivität das vortrainierte C3D (D. Tran, L. D. Bourdev, R. Fergus, L. Torresani und M. Paluri. Learning spatiotemporal features with 3d convultional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, 7. bis 13. Dezember, 2015, Seiten 4489-4497, 2015.) verwendet (das auf dem Sports-IM-Datensatz trainiert wurde (A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar und L. Fei-Fei). Large-scale classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1725-1732, 2014.) trainiert wurde). Das C3D-Netzwerk liest aufeinanderfolgende Rahmen im Video und gibt nach 16 Rahmen jeweils einen Merkmalsvektor mit fester Länge aus. Die Aktivierungsvektoren wurden aus der vollständig verbundenen Schicht fc6-1 extrahiert, die 4096-dimensionale Merkmale aufweist.
  • Audioverarbeitung
  • Audiomerkmale werden zur Verwendung im aufmerksamkeitsbasierten Merkmalsfusionsverfahren gemäß den Ausführungsformen der vorliegenden Offenbarung integriert. Da der YouTube2Text-Korpus keine Audiospur enthält, wurden die Audiodaten über die ursprünglichen Video-URLs extrahiert. Obwohl eine Teilmenge der Videos nicht mehr auf YouTube verfügbar war, konnten die Audiodaten für 1.649 Videoclips gesammelt werden, was 84% des Corpus ausmacht. Die 44 kHz abgetasteten Audiodaten werden auf 16 kHz abwärts abgetastet, und Mel-Frequenz-Cepstrum-Koeffizienten (Mel-Frequency Cepstral Coefficients = MFCCs) aus jedem 50 ms Zeitfenster mit 25 ms Verschiebung extrahiert. Die Folge der 13-dimensionalen MFCC-Merkmale wird dann aus jeder Gruppe von 20 aufeinanderfolgenden Rahmen zu einem Vektor verkettet, was zu einer Folge von 260-dimensionalen Vektoren führt. Die MFCC-Merkmale werden so normiert, dass die Mittelwert- und Varianzvektoren 0 und 1 im Trainingssatz sind. Die Validierungs- und Testsätze werden ebenfalls mit den ursprünglichen Mittelwert- und Varianzvektoren des Trainingssatzes angepasst. Im Gegensatz zu den Bildmerkmalen werden für MFCC-Merkmale ein BLSTM-Codierernetzwerk, das gemeinsam mit dem Decodierernetzwerk trainiert wird, eingesetzt. Wenn Audiodaten für einen Videoclip fehlen, dann wird eine Folge von Dummy-MFCC-Merkmalen zugeführt, die einfach eine Folge von Nullvektoren ist.
  • Konfiguration zur Beschreibung multimodaler Daten
  • Das Untertitelungserzeugungsmodell, d.h. das Decodierernetzwerk, wird trainiert, um das Kreuzentropiekriterium mit Hilfe des Trainingssets zu minimieren. Bildmerkmale werden dem Decodierernetzwerk über eine Projektionsschicht von 512 Einheiten zugeführt, während Audiomerkmale, d.h. MFCCs, dem BLSTM-Codierer gefolgt von dem Decodierernetzwerk zugeführt werden. Das Decodierernetzwerk weist eine Projektionsschicht von 512 Einheiten und bidirektionale LSTM-Schichten mit 512 Zellen auf. Das Decodierernetzwerk weist eine LSTM-Schicht mit 512 Zellen auf. Jedes Wort ist in einen 256-dimensionalen Vektor eingebettet, wenn es der LSTM-Schicht zugeführt wird. Es wird der AdaDelta-Optimierer (M.D: Zeiler. ADADELTA: an adaptive learning rate method. CoRR, abs/1212.5701, 2012.) angewendet, um die Parameter zu aktualisieren, welches für das Optimieren von Aufmerksamkeitsmodellen breit eingesetzt wird. Das LSTM und Aufmerksamkeitsmodelle werden unter Verwendung von Chainer (S. Tokui, K. Oono, S. Hido, and J. Clayton. Chainer: a next generation open source framework for deep learning. In den Workshopergebnissen über Maschinenlernsysteme (Learn-7 ingSys) in der neunundzwanzigsten Jährlichen Konferenz über Neuronale Informationsverarbeitungssysteme (NIPS), 2015) implementiert.
  • Die Ähnlichkeit zwischen Grundwahrheit und automatischen Videobeschreibungsergebnissen wird mit Hilfe von maschinenübersetzungsmotivierten Metriken bewertet: BLEU (K. Papineni, S. Roukos, T. Ward, und W. Zhu. Bleu: a method for automatic evaluation of machine translation. In den Ergebnissen der 40. Jahrestagung der Association for Computational Linguistics, 6-12 Juli, 2002, Philadelphia, PA, USA., Seiten 311-318, 2002.), METEOR (M. J. Denkowski und A. Lavie. Meteor universal: Language-specific translation evaluation for any target language. In den Ergebnissen des neunten Workshops über Statistische Maschinenübersetzung, WMT@ACL 2014, 26-27 Juni, 2014, Baltimore, Maryland, USA, Seiten 376-380, 2014.), and the other metric for image description, CIDEr (R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In der IEEE-Konferenz über Computer Vision und Mustererkennung CVPR 2015, Boston, MA, USA, 7-12 Juni, 2015, Seiten 4566-4575, 2015.). Verwendet wurde das öffentliche verfügbare Auswertungsskript, das für die Bilduntertitelungsherausforderung angefertigt wurde (X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll'ar, und C. L. Zitnick. Microsoft-COCO-Untertitelungen: Data collection and evaluation server. CoRR, abs/1504.00325, 2015.).
  • Bewertungsergebnisse
  • 8 zeigt Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung bezüglich des Youtube2text-Datensatzes. Die herkömmlichen Verfahren, die eine einfache additive multimodale Fusion (einfaches Multimodal), unimodale Modelle mit zeitlicher Aufmerksamkeit (Unimodal) und Basisliniensysteme, die zeitliche Aufmerksamkeit verwendeten, sind, werden durchgeführt.
  • Die ersten drei Zeilen der Tabelle verwenden zeitliche Aufmerksamkeit aber nur eine Modalität (einen Merkmalstyp). Die nächsten zwei Zeilen führen eine multimodale Fusion von zwei Modalitäten (Bild und Raum-Zeit) durch, wobei entweder die Einfache Multimodale Fusion (siehe 6) oder der vorgeschlagene Multimodale Aufmerksamkeitsmechanismus (siehe 7) verwendet wird. Die nächsten zwei Zeilen führen auch multimodale Fusion durch, diesmal mit drei Modalitäten (Bild-, Raum-Zeit- und Audiomerkmale). In jeder Spalte sind die Ergebnisse der beiden besten Methoden fett gedruckt dargestellt.
  • Das Einfache Multimodal Modell schneidete besser ab als die unimodalen Modelle. Das Multimodale Aufmerksamkeitsmodell übertraf jedoch das Einfache Multimodale Modell. Die Audiofunktion beeinträchtigt die Leistung der Basislinie, da einige YouTube-Daten Geräusche, wie Hintergrundmusik, enthalten, die nichts mit dem Videoinhalt zu tun haben. Das Multimodale Aufmerksamkeitsmodell milderte die Auswirkungen der Geräusche der Audiomerkmale. Darüber hinaus erreichte die Kombination der Audiomerkmale unter Verwendung des vorgeschlagenen Verfahrens die beste Leistung von CIDEr für alle experimentellen Bedingungen.
  • Das Multimodale Aufmerksamkeitsmodell verbesserte jedoch das Einfache Multimodale Modell.
  • 9A, 9B, 9C und 9D zeigen Vergleiche von Leistungsergebnissen, die durch herkömmliche Verfahren erhalten wurden, und das multimodale Aufmerksamkeitsverfahren gemäß Ausführungsformen der vorliegenden Offenbarung.
  • Die 9A-9C zeigen drei exemplarische Videoclips, für die das aufmerksamkeitsbasierte multimodale Fusionsverfahren (Zeitliche & Multimodale Aufmerksamkeit mit VGG und C3D) das einzelne modale Verfahren (Zeitliche Aufmerksamkeit mit VGG) und das einfache modale Fusionsverfahren (Zeitliche Aufmerksamkeit mit VGG und C3D) im CIDEr-Maß übertraf. 9D zeigt einen exemplarischen Videoclip, für den das aufmerksamkeitsbasierte multimodale Fusionsverfahren (Zeitliche & Multimodale Aufmerksamkeit) mit Audio-Merkmalen das einmodale Verfahren (Zeitliche Aufmerksamkeit mit VGG), das einfache modale Fusionsverfahren (Zeitliche Aufmerksamkeit mit VGG, C3D) mit/ohne Audiomerkmale übertraf. Diese Beispiele zeigen die Wirksamkeit des multimodalen Aufmerksamkeitsmechanismus.
  • In einigen Ausführungsformen der vorliegenden Offenbarung, wenn das oben beschriebene multimodale Fusionsmodell in einem Computersystem installiert ist, kann das Videoskript effektiv mit geringerer Rechenleistung erzeugt werden, so dass die Verwendung des multimodalen Fusionsmodellverfahrens oder Systems die Verwendung von zentralen Verarbeitungseinheiten und den Energieverbrauch reduzieren kann.
  • Weiterhin bieten Ausführungsformen gemäß der vorliegenden Offenbarung ein wirksames Verfahren zur Durchführung des multimodalen Fusionsmodells, so dass die Verwendung eines Verfahrens und Systems unter Verwendung des multimodalen Fusionsmodells die Nutzung der zentralen Verarbeitungseinheit (CPU), den Energieverbrauch und/oder die genutzte Netzwerkbandbreite reduzieren kann.
  • Die oben beschriebenen Ausführungsformen der vorliegenden Offenbarung können auf vielfältige Weise umgesetzt werden. So können beispielsweise die Ausführungsformen unter Verwendung von Hardware, Software oder einer Kombination davon realisiert werden. Bei der Implementierung in Software kann der Softwarecode auf jedem geeigneten Prozessor oder jeder Sammlung von Prozessoren ausgeführt werden, unabhängig davon, ob er in einem einzelnen Computer bereitgestellt oder auf mehrere Computer verteilt ist. Solche Prozessoren können als integrierte Schaltungen mit einem oder mehreren Prozessoren in einer Komponente einer integrierten Schaltung implementiert sein. Allerdings kann ein Prozessor auch mit Hilfe von Schaltkreisen in jedem geeigneten Format implementiert sein.
  • Außerdem können die verschiedenen hierin beschriebenen Verfahren oder Prozesse als Software codiert sein, die auf einem oder mehreren Prozessoren ausführbar ist, die eines von einer Vielzahl von Betriebssystemen oder Plattformen verwenden. Darüber hinaus kann diese Software mit einer Reihe geeigneter Programmiersprachen und/oder Programmier- oder Skriptwerkzeugen geschrieben werden und auch als ausführbarer Maschinensprachencode oder Zwischencode kompiliert sein, der auf einem Framework oder einer virtuellen Maschine ausgeführt wird. Typischerweise kann die Funktionalität der Programmodule in verschiedenen Ausführungsformen beliebig kombiniert oder verteilt sein.
  • Darüber hinaus können die Ausführungsformen der vorliegenden Offenbarung als ein Verfahren ausgeführt sein, für das ein Beispiel angegeben wurde. Die als Teil des Verfahrens durchgeführten Handlungen können in jeder geeigneten Weise angeordnet sein. Dementsprechend können Ausführungsformen konstruiert werden, in denen Handlungen in einer anderen Reihenfolge als der dargestellten ausgeführt werden, was auch die gleichzeitige Ausführung einiger Handlungen umfassen kann, auch wenn sie in veranschaulichenden Ausführungsformen als aufeinanderfolgende Handlungen dargestellt sind. Darüber hinaus bedeutet die Verwendung von Ordnungsbegriffen, wie erste, zweite, in den Ansprüchen, um ein Anspruchselement zu modifizieren, allein keine Priorität, keine Präzedenz oder keinen Rang eines Anspruchselements gegenüber einem anderen oder die zeitliche Reihenfolge, in der Handlungen eines Verfahrens durchgeführt werden, sondern dient lediglich als Kennzeichnung zur Unterscheidung eines Anspruchselements mit einer bestimmten Bezeichnung von einem anderen Element mit einer gleichen Bezeichnung (bis auf die Verwendung des Ordnungsbegriffs), um Anspruchselemente voneinander zu unterscheiden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, Herausgeber, Advances in Neural Information Processing Systems 25, Seiten 1097-1105. Curran Associates, Inc., 2012. [0065]
    • D. Tran, L. D. Bourdev, R. Fergus, L. Torresani und M. Paluri. Learning spatiotemporal features with 3d convultional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, 7. bis 13. Dezember, 2015, Seiten 4489-4497, 2015 [0065]
    • (A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar und L. Fei-Fei). Large-scale classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1725-1732, 2014 [0065]
    • K. Papineni, S. Roukos, T. Ward, und W. Zhu. Bleu: a method for automatic evaluation of machine translation. In den Ergebnissen der 40. Jahrestagung der Association for Computational Linguistics, 6-12 Juli, 2002, Philadelphia, PA, USA., Seiten 311-318, 2002 [0068]
    • M. J. Denkowski und A. Lavie. Meteor universal: Language-specific translation evaluation for any target language. In den Ergebnissen des neunten Workshops über Statistische Maschinenübersetzung, WMT@ACL 2014, 26-27 Juni, 2014, Baltimore, Maryland, USA, Seiten 376-380, 2014 [0068]
    • R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In der IEEE-Konferenz über Computer Vision und Mustererkennung CVPR 2015, Boston, MA, USA, 7-12 Juni, 2015, Seiten 4566-4575, 2015 [0068]
    • X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll'ar, und C. L. Zitnick. Microsoft-COCO-Untertitelungen: Data collection and evaluation server. CoRR, abs/1504.00325, 2015 [0068]

Claims (20)

  1. System zum Erzeugen einer Wortfolge aus multimodalen Eingabevektoren, umfassend: einen oder mehrere Prozessoren in Verbindung mit einem Speicher und eine oder mehrere Speichereinrichtungen, speichernd Anweisungen, die ausführbar sind, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, um den einen oder die mehreren Prozessoren zu veranlassen, Operationen durchzuführen, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter entsprechender Verwendung erster und zweiter Merkmalsextrahierer aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen entsprechend aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor, aufweisend eine vorherbestimmte Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor, aufweisend die vorherbestimmte Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors, aufweisend die vorherbestimmte Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgengerators zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  2. System nach Anspruch 1, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.
  3. System nach Anspruch 1, wobei die ersten und zweiten Eingabevektoren verschiedene Modalitäten sind.
  4. System nach Anspruch 1, wobei die Operationen ferner umfassen: Akkumulieren des vorhergesagten Wortes im Speicher oder der einen oder mehreren Speichereinrichtungen, um die Wortfolge zu erzeugen.
  5. System nach Anspruch 4, wobei das Akkumulieren fortgesetzt wird, bis ein Endkennzeichen empfangen wird.
  6. System nach Anspruch 1, wobei die Operationen ferner umfassen: Übertragen des aus dem Folgenerzeuger erzeugten vorhergesagten Wortes.
  7. System nach Anspruch 1, wobei die ersten und zweiten Merkmalsextrahierer vortrainierte Neuronale Faltungsnetzwerke (Convolutional Neuronal Networks CNNs) sind, die für ein Bild- oder eine Videoklassifikationsaufgabe trainiert wurden.
  8. System nach Anspruch 1, wobei die Merkmalsextrahierer Lang-Kurzzeitgedächtnis-(Long Short-Term Memory = LSTM)-Netzwerke sind.
  9. System nach Anspruch 1, wobei das vorhergesagte Wort mit höchster Wahrscheinlichkeit unter allen möglichen Worten bei gewichtetem Inhaltsvektor und Vorschritt-Kontextvektor bestimmt wird.
  10. System nach Anspruch 1, wobei der Folgengenerzeuger ein Lang-Kurzzeitgedächtnis-(LSTM)-Netzwerk einsetzt.
  11. System nach Anspruch 1, wobei der erste Eingabevektor über eine erste Eingabe-/Ausgabe-(I/O)-Schnittstelle empfangen wird und der zweite Eingabevektor über eine zweite I/O-Schnittstelle empfangen wird.
  12. Nichttransitorisches computerlesbares Medium das Software speichert, die Anweisungen enthält, die durch einen oder mehrere Prozessoren ausführbar sind, welche bei einer solchen Ausführung den einen oder die mehreren Prozessoren in Verbindung mit einem Speicher veranlassen, Operationen durchzuführen, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren entsprechend unter Verwendung von ersten und zweiten Merkmalsextrahierern aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen entsprechend aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor mit einer vorherbestimmten Dimension und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor mit der vorherbestimmten Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors mit der vorherbestimmten Dimension, aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  13. Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.
  14. Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten Eingabevektoren verschiedene Modalitäten sind.
  15. Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die Operationen ferner umfassen: Akkumulieren des vorhergesagten Wortes in dem Speicher oder der einen oder den mehreren Speichereinrichtungen, um die Wortfolge zu erzeugen.
  16. Nichttransitorisches computerlesbares Medium nach Anspruch 15, wobei das Akkumulieren fortgesetzt wird, bis ein Endkennzeichen empfangen wird.
  17. Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die Operationen ferner umfassen: Übertragen des erzeugten vorhergesagten Wortes aus dem Folgenerzeuger.
  18. Nichttransitorisches computerlesbares Medium nach Anspruch 12, wobei die ersten und zweiten Merkmalsextrahierer vortrainierte neuronale Faltungsnetzwerke (CNNs) sind, die für ein Bild- oder eine Videoklassifikationsaufgabe trainiert wurden.
  19. Verfahren zum Erzeugen einer Wortfolge aus einer multimodalen Eingabe, umfassend: Empfangen erster und zweiter Eingabevektoren gemäß ersten und zweiten aufeinanderfolgenden Intervallen; Extrahieren erster und zweiter Merkmalsvektoren unter entsprechender Verwendung von ersten und zweiten Merkmalsextrahierern aus der ersten und zweiten Eingabe; Schätzen einer ersten Menge an Gewichtungen und einer zweiten Menge an Gewichtungen aus den ersten und zweiten Merkmalsvektoren und einem Vorschritt-Kontextvektor eines Folgenerzeugers; Berechnen eines ersten Inhaltsvektors aus der ersten Menge an Gewichtungen und den ersten Merkmalsvektoren, und Berechnen eines zweiten Inhaltsvektors aus der zweiten Menge an Gewichtungen und den zweiten Merkmalsvektoren; Transformieren des ersten Inhaltsvektors in einen ersten modalen Inhaltsvektor mit einer vorherbestimmten Dimension, und Transformieren des zweiten Inhaltsvektors in einen zweiten modalen Inhaltsvektor mit der vorherbestimmten Dimension; Schätzen einer Menge an modalen Aufmerksamkeitsgewichtungen aus dem Vorschritt-Kontextvektor und den ersten und zweiten Inhaltsvektoren oder den ersten und zweiten modalen Inhaltsvektoren; Erzeugen eines gewichteten Inhaltsvektors mit der vorherbestimmten Dimension aus der Menge an modalen Aufmerksamkeitsgewichtungen und den ersten und zweiten modalen Inhaltsvektoren; und Erzeugen eines vorhergesagten Wortes unter Verwendung des Folgenerzeugers zum Erzeugen der Wortfolge aus dem gewichteten Inhaltsvektor.
  20. Verfahren nach Anspruch 19, wobei die ersten und zweiten aufeinanderfolgenden Intervalle ein identisches Intervall sind.
DE112017006685.9T 2016-12-30 2017-12-25 Verfahren und System für ein multimodales Fusionsmodell Pending DE112017006685T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662440433P 2016-12-30 2016-12-30
US62/440,433 2016-12-30
US15/472,797 US10417498B2 (en) 2016-12-30 2017-03-29 Method and system for multi-modal fusion model
US15/472,797 2017-03-29
PCT/JP2017/047417 WO2018124309A1 (en) 2016-12-30 2017-12-25 Method and system for multi-modal fusion model

Publications (1)

Publication Number Publication Date
DE112017006685T5 true DE112017006685T5 (de) 2020-01-23

Family

ID=61094562

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017006685.9T Pending DE112017006685T5 (de) 2016-12-30 2017-12-25 Verfahren und System für ein multimodales Fusionsmodell

Country Status (5)

Country Link
US (1) US10417498B2 (de)
JP (1) JP6719663B2 (de)
CN (1) CN110168531B (de)
DE (1) DE112017006685T5 (de)
WO (1) WO2018124309A1 (de)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
WO2018142378A1 (en) * 2017-02-06 2018-08-09 Deepmind Technologies Limited Memory augmented generative temporal models
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
US11475254B1 (en) * 2017-09-08 2022-10-18 Snap Inc. Multimodal entity identification
WO2019135234A1 (en) 2018-01-03 2019-07-11 Ramot At Tel-Aviv University Ltd. Systems and methods for the segmentation of multi-modal image data
CN108875708A (zh) * 2018-07-18 2018-11-23 广东工业大学 基于视频的行为分析方法、装置、设备、系统及存储介质
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN110858232B (zh) * 2018-08-09 2024-03-29 阿里巴巴集团控股有限公司 搜索方法、设备、系统及存储介质
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
CN109871736B (zh) 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
JP7206898B2 (ja) * 2018-12-25 2023-01-18 富士通株式会社 学習装置、学習方法および学習プログラム
CN110020596B (zh) * 2019-02-21 2021-04-30 北京大学 一种基于特征融合和级联学习的视频内容定位方法
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110163091B (zh) * 2019-04-13 2023-05-26 天津大学 基于lstm网络多模态信息融合的三维模型检索方法
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
EP3767332B1 (de) * 2019-07-18 2023-12-13 Aptiv Technologies Limited Verfahren und systeme zur radar-objektdetektion
CN110503636B (zh) * 2019-08-06 2024-01-26 腾讯医疗健康(深圳)有限公司 参数调整方法、病灶预测方法、参数调整装置及电子设备
CN110557447B (zh) * 2019-08-26 2022-06-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN110473529B (zh) * 2019-09-09 2021-11-05 北京中科智极科技有限公司 一种基于自注意力机制的流式语音转写系统
US11264009B2 (en) * 2019-09-13 2022-03-01 Mitsubishi Electric Research Laboratories, Inc. System and method for a dialogue response generation system
CN110826397B (zh) * 2019-09-20 2022-07-26 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112651417B (zh) * 2019-10-12 2024-06-14 杭州海康威视数字技术股份有限公司 车牌识别方法、装置、设备及存储介质
US11270123B2 (en) 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
WO2021095211A1 (ja) * 2019-11-14 2021-05-20 富士通株式会社 出力方法、出力プログラム、および出力装置
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111160350B (zh) * 2019-12-23 2023-05-16 Oppo广东移动通信有限公司 人像分割方法、模型训练方法、装置、介质及电子设备
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
CN111291804A (zh) * 2020-01-22 2020-06-16 杭州电子科技大学 基于注意力机制的多传感器时间序列分析模型
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
CN111294512A (zh) 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
CN111325323B (zh) * 2020-02-19 2023-07-14 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
WO2021183256A1 (en) * 2020-03-10 2021-09-16 Sri International Physics-guided deep multimodal embeddings for task-specific data exploitation
CN111814844B (zh) * 2020-03-17 2023-07-11 同济大学 一种基于位置编码融合的密集型视频描述方法
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
US20210350232A1 (en) * 2020-05-07 2021-11-11 Nec Laboratories America, Inc. Fault detection in cyber-physical systems
CN113630302B (zh) * 2020-05-09 2023-07-11 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN111639748B (zh) * 2020-05-15 2022-10-11 武汉大学 一种基于lstm-bp时空组合模型的流域污染物通量预测方法
CN111767726B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN112000818B (zh) * 2020-07-10 2023-05-12 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112001437B (zh) * 2020-08-19 2022-06-14 四川大学 面向模态非完全对齐的数据聚类方法
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112115601B (zh) * 2020-09-10 2022-05-17 西北工业大学 一种可靠的用户注意力监测估计表示模型
CN112468888B (zh) * 2020-11-26 2023-04-07 广东工业大学 基于gru网络的视频摘要生成方法与系统
CN112738555B (zh) * 2020-12-22 2024-03-29 上海幻电信息科技有限公司 视频处理方法及装置
CN112765959B (zh) * 2020-12-31 2024-05-28 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
CN112861945B (zh) * 2021-01-28 2022-05-13 清华大学 一种多模态融合谎言检测方法
US20220245424A1 (en) * 2021-01-29 2022-08-04 Samsung Electronics Co., Ltd. Microgenre-based hyper-personalization with multi-modal machine learning
CN112954312B (zh) * 2021-02-07 2024-01-05 福州大学 一种融合时空特征的无参考视频质量评估方法
CN113205148B (zh) * 2021-05-20 2022-10-11 山东财经大学 一种迭代层间信息融合的医学图像帧插值方法及终端机
CN113537566B (zh) * 2021-06-16 2022-05-06 广东工业大学 一种基于dccso优化深度学习模型的超短期风电功率预测方法
CN113360514B (zh) * 2021-07-02 2022-05-17 支付宝(杭州)信息技术有限公司 联合更新模型的方法、装置及系统
US11445267B1 (en) 2021-07-23 2022-09-13 Mitsubishi Electric Research Laboratories, Inc. Low-latency captioning system
CN113326703B (zh) * 2021-08-03 2021-11-16 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113569975A (zh) * 2021-08-04 2021-10-29 华南师范大学 一种基于模型融合的素描作品评级方法及装置
CN113986005B (zh) * 2021-10-13 2023-07-07 电子科技大学 基于集成学习的多模态融合视线估计框架
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
KR102411278B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
CN114328927A (zh) * 2021-12-30 2022-04-12 深圳市检验检疫科学研究院 基于标签感知的门控循环采集方法
CN114387567B (zh) * 2022-03-23 2022-06-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115034327A (zh) * 2022-06-22 2022-09-09 支付宝(杭州)信息技术有限公司 外部数据应用、用户识别的方法、装置和设备
CN115062328B (zh) * 2022-07-12 2023-03-10 中国科学院大学 一种基于跨模态数据融合的信息智能解析方法
US20240046085A1 (en) 2022-08-04 2024-02-08 Mitsubishi Electric Research Laboratories, Inc. Low-latency Captioning System
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115134676B (zh) * 2022-09-01 2022-12-23 有米科技股份有限公司 一种音频辅助视频补全的视频重构方法及装置
CN115590481B (zh) * 2022-12-15 2023-04-11 北京鹰瞳科技发展股份有限公司 一种用于预测认知障碍的装置和计算机可读存储介质
CN116414456B (zh) * 2023-01-19 2024-01-19 杭州知存智能科技有限公司 存算芯片内的加权融合变换部件、存算电路及协同计算方法
CN116128863B (zh) * 2023-03-01 2023-09-12 北京医准智能科技有限公司 一种医学图像处理方法、装置及设备
CN116543795B (zh) * 2023-06-29 2023-08-29 天津大学 一种基于多模态特征融合的声音场景分类方法
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置
CN117668762B (zh) * 2024-01-31 2024-05-17 新疆三联工程建设有限责任公司 用于住宅地下渗漏的监测预警系统及方法
CN117708375B (zh) * 2024-02-05 2024-05-28 北京搜狐新媒体信息技术有限公司 一种视频处理方法、装置及相关产品
CN117789099B (zh) * 2024-02-26 2024-05-28 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
(A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar und L. Fei-Fei). Large-scale classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Seiten 1725-1732, 2014
D. Tran, L. D. Bourdev, R. Fergus, L. Torresani und M. Paluri. Learning spatiotemporal features with 3d convultional networks. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, 7. bis 13. Dezember, 2015, Seiten 4489-4497, 2015
F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, Herausgeber, Advances in Neural Information Processing Systems 25, Seiten 1097-1105. Curran Associates, Inc., 2012.
K. Papineni, S. Roukos, T. Ward, und W. Zhu. Bleu: a method for automatic evaluation of machine translation. In den Ergebnissen der 40. Jahrestagung der Association for Computational Linguistics, 6-12 Juli, 2002, Philadelphia, PA, USA., Seiten 311-318, 2002
M. J. Denkowski und A. Lavie. Meteor universal: Language-specific translation evaluation for any target language. In den Ergebnissen des neunten Workshops über Statistische Maschinenübersetzung, WMT@ACL 2014, 26-27 Juni, 2014, Baltimore, Maryland, USA, Seiten 376-380, 2014
R. Vedantam, C. L. Zitnick, and D. Parikh. Cider: Consensus-based image description evaluation. In der IEEE-Konferenz über Computer Vision und Mustererkennung CVPR 2015, Boston, MA, USA, 7-12 Juni, 2015, Seiten 4566-4575, 2015
X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Doll'ar, und C. L. Zitnick. Microsoft-COCO-Untertitelungen: Data collection and evaluation server. CoRR, abs/1504.00325, 2015

Also Published As

Publication number Publication date
US10417498B2 (en) 2019-09-17
US20180189572A1 (en) 2018-07-05
JP2019535063A (ja) 2019-12-05
JP6719663B2 (ja) 2020-07-08
CN110168531B (zh) 2023-06-20
WO2018124309A1 (en) 2018-07-05
CN110168531A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
DE112017006685T5 (de) Verfahren und System für ein multimodales Fusionsmodell
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
EP3928252B1 (de) Szenenbewusster videodialog
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE112019007677T5 (de) Posenvorhersageverfahren, Modelltrainingsverfahren und Vorrichtung
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE202016008253U1 (de) Komprimierte rekurrente neuronale Netzwerkmodelle
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
CN110852256B (zh) 时序动作提名的生成方法、装置、设备及存储介质
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
CN113569892A (zh) 图像描述信息生成方法、装置、计算机设备及存储介质
US11288851B2 (en) Signal change apparatus, method, and program
DE112021004261T5 (de) Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE112020003909T5 (de) Verfahren zum multimodalen abrufen bzw. wiedergewinnen und clustern unter verwendung einer tiefen cca und aktiver paarweiser abfragen
DE112020001853T5 (de) Abänderung von trainingsdaten zum trainieren eines modells
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN110347869B (zh) 一种视频生成方法、装置、电子设备及存储介质
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence