DE112021004261T5 - Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung - Google Patents

Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung Download PDF

Info

Publication number
DE112021004261T5
DE112021004261T5 DE112021004261.0T DE112021004261T DE112021004261T5 DE 112021004261 T5 DE112021004261 T5 DE 112021004261T5 DE 112021004261 T DE112021004261 T DE 112021004261T DE 112021004261 T5 DE112021004261 T5 DE 112021004261T5
Authority
DE
Germany
Prior art keywords
features
video
neural network
audio
relational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021004261.0T
Other languages
English (en)
Inventor
Chuang Gan
Dakuo Wang
Yang Zhang
Bo Wu
Xiaoxiao Guo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112021004261T5 publication Critical patent/DE112021004261T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Dualmodale Beziehungsnetzwerke zur audiovisuellen Ereignislokalisierung können bereitgestellt werden. Ein Video-Feed zur audiovisuellen Ereignislokalisierung kann empfangen werden. Auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds können informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks bestimmt werden. Auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, können beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks bestimmt werden. Auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed können beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks bestimmt werden. Eine dualmodale Darstellung kann auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks erhalten werden. Die dualmodale Darstellung kann in einen Klassifizierer eingegeben werden, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.

Description

  • HINTERGRUND
  • Die vorliegende Anmeldung betrifft allgemein Computer und Computer-Anwendungen, und insbesondere künstliche Intelligenz, Maschinenlernen, neuronale Netzwerke und audiovisuelles Lernen und audiovisuelle Ereignislokalisierung.
  • Eine Ereignislokalisierung ist eine herausfordernde Aufgabe zum Verstehen von Videos, wozu eine Maschine zum Lokalisieren von Ereignissen oder Aktionen und Erkennen der Kategorien in einem uneingeschränkten Video erforderlich ist. Einige vorhandene Verfahren verwenden nur rot-grün-blaue (RGB) Frames oder einen optischen Fluss als Eingabe zum Lokalisieren und Identifizieren eines Ereignisses. Aufgrund der starken visuellen Hintergrundinterferenz und großer visueller Inhaltsvariationen kann es jedoch schwierig sein, Ereignisse nur mit visuellen Informationen zu lokalisieren.
  • Die Aufgabe einer audiovisuellen Ereignis- (AVE) Lokalisierung, für die eine Maschine zum Bestimmen des Vorhandenseins eines Ereignisses erforderlich ist, das in einem Videosegment sowohl hörbar als auch sichtbar ist, und zu welcher Kategorie das Ereignis gehört, hat zunehmende Aufmerksamkeit auf sich gezogen. Die AVE-Lokalisierungsaufgabe kann aufgrund der folgenden Schwierigkeiten anspruchsvoll sein: 1) komplexe visuelle Hintergründe in einem uneingeschränkten Video erschweren die Lokalisierung eines AVEs, und 2) erfordert das Lokalisieren und Erkennen eines AVEs, dass die Maschine gleichzeitig Informationen von zwei Modalitäten (d.h. Audio und Video) berücksichtigt und ihre Beziehungen ausnutzt. Es ist nichttrivial, Verbindungen zwischen komplexen visuellen Szenen und komplizierten Klängen zu erstellen. Einige Verfahren in dieser Aufgabe verarbeiten zwei Modalitäten unabhängig voneinander und haben sie einfach direkt vor den abschließenden Klassifizierern miteinander vereint. Vorhandene Verfahren konzentrieren sich hauptsächlich auf ein Erfassen von zeitbezogenen Beziehungen zwischen Segmenten innerhalb einer einzelnen Modalität als potenzielle Anhaltspunkte für eine Ereignislokalisierung.
  • KURZDARSTELLUNG
  • Die Kurzdarstellung der Offenbarung wird zur Unterstützung des Verständnisses von einem Computersystem, einer Computeranwendung, von Maschinenlernen, neuronalen Netzwerken, audiovisuellem Lernen und audiovisueller Ereignislokalisierung und ohne eine Absicht bereitgestellt, die Offenbarung oder die Erfindung einzuschränken. Es sollte klar sein, dass verschiedene Aspekte und Merkmale der Offenbarung in einigen Fällen vorteilhafterweise unabhängig voneinander oder in Kombination mit anderen Aspekten und Merkmalen der Offenbarung in anderen Fällen verwendet werden können. Daher können an dem Computersystem, der Computeranwendung, dem Maschinenlernen, den neuronalen Netzwerken und/oder ihrem Betriebsverfahren Variationen und Modifizierungen vorgenommen werden, um verschiedene Effekte zu erzielen.
  • Ein System und ein Verfahren können bereitgestellt werden, die dualmodale Beziehungsnetzwerke zur audiovisuellen Ereignislokalisierung umsetzen können. Das System kann in einem Aspekt einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.
  • In einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Der Hardware-Prozessor kann ferner konfiguriert werden, um ein erstes neuronales Faltungsnetzwerk mit mindestens einem Video-Abschnitt des Video-Feeds auszuführen, um die Video-Merkmale zu extrahieren.
  • In noch einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Der Hardware-Prozessor kann ferner konfiguriert werden, um ein zweites neuronales Faltungsnetzwerk mit mindestens einem Audio-Abschnitt des Video-Feeds auszuführen, um die Audio-Merkmale zu extrahieren.
  • In noch einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und xVideo-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Die dualmodale Darstellung kann als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet werden.
  • In einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, weist ein Identifizieren einer Position in dem Video-Feed auf, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses.
  • In einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das zweite neuronale Netzwerk kann sowohl zeitbezogene Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale verwenden.
  • In einem weiteren Aspekt kann das System einen Hardware-Prozessor und einen Arbeitsspeicher umfassen, der mit dem Hardware-Prozessor verbunden ist. Der Hardware-Prozessor kann zum Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung konfiguriert werden. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds informative Merkmale und Bereiche in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks zu bestimmen. Der Hardware-Prozessor kann auch konfiguriert werden, um eine dualmodale Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks zu erhalten. Der Hardware-Prozessor kann auch konfiguriert werden, um die dualmodale Darstellung in einen Klassifizierer einzugeben, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das dritte neuronale Netzwerk kann sowohl zeitbezogene Informationen in den Audio-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale verwenden.
  • Ein Verfahren kann in einem Aspekt ein Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.
  • In einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das Verfahren kann auch ein Ausführen eines ersten neuronalen Faltungsnetzwerks mit mindestens einem Video-Abschnitt des Video-Feeds umfassen, um die Video-Merkmale zu extrahieren.
  • In noch einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das Verfahren kann auch ein Ausführen eines zweiten neuronalen Faltungsnetzwerks mit mindestens einem Audio-Abschnitt des Video-Feeds umfassen, um die Audio-Merkmale zu extrahieren.
  • In noch einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Die dualmodale Darstellung kann als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet werden.
  • In einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, kann ein Identifizieren einer Position in dem Video-Feed, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses umfassen.
  • In einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds für eine audiovisuelle Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch beziehungsbewusste Video-Merkmale durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch beziehungsbewusste Audio-Merkmale durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das zweite neuronale Netzwerk kann sowohl zeitbezogene Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale verwenden.
  • In einem weiteren Aspekt kann das Verfahren ein Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung umfassen. Das Verfahren kann auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks umfassen. Das Verfahren kann auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, auch ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks umfassen. Das Verfahren kann auch ein Eingeben der dualmodalen Darstellung in einen Klassifizierer umfassen, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. Das dritte neuronale Netzwerk verwendet sowohl zeitbezogene Informationen in den Audio-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale.
  • Ein durch einen Computer lesbares Speichermedium kann ebenfalls bereitgestellt werden, das ein Programm mit Anweisungen speichert, die von einer Maschine ausführbar sind, um ein oder mehrere hierin beschriebene Verfahren durchzuführen.
  • Weitere Merkmale sowie die Struktur und Arbeitsweise von verschiedenen Ausführungsformen werden im Folgenden unter Bezugnahme auf die begleitenden Zeichnungen ausführlich beschrieben. In den Zeichnungen geben gleiche Bezugszeichen identische oder funktional ähnliche Elemente an.
  • Figurenliste
    • 1 ist ein veranschaulichendes Beispiel der Aufgabe der audiovisuellen Ereignislokalisierung.
    • 2 ist eine Darstellung, die ein dualmodales Beziehungsnetzwerk in einer Ausführungsform veranschaulicht.
    • 3 ist eine weitere Darstellung, die ein dualmodales Beziehungsnetzwerk in einer Ausführungsform zeigt.
    • 4 veranschaulicht ein audiogesteuertes Raum-Kanal-Aufmerksamkeits-(AGSCA) (Audio-Guided Spatial-Channel Attention) Modul in einer Ausführungsform.
    • 5 zeigt einen grenzübergreifenden Modalitäts-Beziehungsaufmerksamkeits-(CMRA) (cross-modality relation attention) Mechanismus in einer Ausführungsform.
    • 6 zeigt ein beispielhaftes Lokalisierungsergebnis, das durch das Verfahren und/oder ein System in einer Ausführungsform ausgegeben wird.
    • 7 ist ein Ablaufplan, der ein Verfahren für eine audiovisuelle Ereignislokalisierung in einer Ausführungsform veranschaulicht.
    • 8 ist eine Darstellung, die Komponenten eines Systems in einer Ausführungsform zeigt, die dualmodale Beziehungsnetzwerke für eine audiovisuelle Ereignislokalisierung umsetzen kann.
    • 9 veranschaulicht einen Schemaplan eines beispielhaften Computers oder Verarbeitungssystems, der bzw. das ein System von dualmodalen Beziehungsnetzwerken in einer Ausführungsform umsetzen kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Systeme, Verfahren und Techniken können bereitgestellt werden, die unter Vorgabe einer unbeschnittenen Videosequenz mit visuellen und akustischen (Audio-) Kanälen das Vorhandensein eines Ereignisses identifizieren, das in einem Videosegment sowohl hörbar als auch sichtbar ist, und bestimmen, zu welcher Kategorie das Ereignis gehört. Zum Beispiel kann eine Maschine geschult werden, eine audiovisuelle Ereignislokalisierung durchzuführen. Die Systeme, Verfahren und Techniken berücksichtigen grenzübergreifende Modalitäts- oder Intermodalitäts-Beziehungsinformationen zwischen visuellen Szenen und Audiosignalen beim Erkennen eines audiovisuellen Ereignisses in einer Videosequenz.
  • In einer Ausführungsform ist ein dualmodales Beziehungsnetzwerk ein Ende-zu-Ende-Netzwerk zum Durchführen einer audiovisuellen Ereignislokalisierungsaufgabe und kann ein audiogesteuertes visuelles Aufmerksamkeitsmodul, einen Intramodalitäts-Beziehungsblock und einen Intermodalitäts-Beziehungsblock umfassen. Das audiogesteuerte visuelle Aufmerksamkeitsmodul dient in einer Ausführungsform zum Hervorheben von informativen Bereichen für die Reduzierung von visueller Hintergrundinterferenz. Der Intramodalitäts-Beziehungsblock und der Intermodalitäts-Beziehungsblock können in einer Ausführungsform die Intramodalitäts- und die Intermodalitäts-Beziehungsinformationen zum Erleichtern eines Darstellungserlernens separat nutzen, was die Erkennung eines sowohl hörbaren als auch sichtbaren Ereignisses erleichtert. Das dualmodale Beziehungsnetzwerk kann in einem Aspekt eine visuelle Hintergrundinterferenz reduzieren, indem bestimmte Bereiche hervorgehoben werden und die Darstellungsqualität von zwei Modalitäten verbessert wird, indem Intramodalitäts- und Intermodalitäts-Beziehungen als potenziell nützliche Informationen betrachtet werden. In einem Aspekt ermöglicht das dualmodale Beziehungsnetzwerk die Erfassung der wichtigen Intermodalitäts-Beziehungen zwischen visuellen Szenen und Klängen, die bei den vorhandenen Verfahren meistenteils nicht verfügbar ist. Zum Beispiel kann ein Verfahren in einer Ausführungsform die extrahierten visuellen und Audio-Merkmale in ein audiogesteuertes visuelles Aufmerksamkeitsmodul eingeben, um informative Bereiche zur Reduzierung von Hintergrundinterferenz zu betonen. Das Verfahren kann Intramodalitäts- und Intermodalitäts-Beziehungsblöcke vorbereiten, um die entsprechenden Beziehungsinformationen für das audiovisuelle Darstellungserlernen zu nutzen. Das Verfahren kann die beziehungsbewussten visuellen und Audio-Merkmale zusammen aufnehmen, um eine umfassende dualmodale Darstellung für Klassifizierer zu erhalten.
  • Eine Maschine kann umgesetzt werde, um eine Aufgabe zur Ereignislokalisierung durchzuführen. Eine Maschine, die eine Aufgabe zur Ereignislokalisierung durchführt, lokalisiert automatisch ein Ereignis und erkennt dessen Kategorie in uneingeschränkten Videos. Die meisten vorhandenen Verfahren nutzen nur die visuellen Informationen eines Videos, während seine Audio-Informationen vernachlässigt werden. Allerdings kann eine gleichzeitige Argumentation mit dem visuellen und dem Audio-Inhalt für die Ereignislokalisierung nützlich sein, da Audiosignale zum Beispiel oft nützliche Anhaltspunkte für die Argumentation transportieren. Des Weiteren können die Audio-Informationen die Maschine oder das Maschinenmodell steuern, dass sie den informativen Bereichen von visuellen Szenen mehr Aufmerksamkeit schenken oder sich stärker auf diese konzentrieren, was dabei helfen kann, die durch den Hintergrund eingeführte Interferenz zu reduzieren. In einer Ausführungsform nutzt ein beziehungsbewusstes Netzwerk sowohl Audio- als auch visuelle Informationen für eine genaue Ereignislokalisierung, zum Beispiel durch Bereitstellen von technischer Verbesserung in Maschinen beim Erkennen eines Audio-Video-Ereignisses in einem Video-Stream. In einer Ausführungsform können die Systeme, Verfahren und Techniken zum Reduzieren der Interferenz, die durch den Hintergrund eingeführt wird, ein audiogesteuertes Raum-Kanal-Aufmerksamkeitsmodul umsetzen, um das Modul so zu steuern, dass es sich auf ereignisrelevante visuelle Bereiche konzentriert. Die Systeme, Verfahren und Techniken können auch Verbindungen zwischen visuellen und Audio-Modalitäten mit einem beziehungsbewussten Modul aufbauen. Zum Beispiel erlernen die Systeme, Verfahren und Techniken die Darstellungen von Video- und/oder Audio-Segmenten durch Aggregieren von Informationen von der anderen Modalität gemäß den grenzübergreifenden modalen Beziehungen. Die Systeme, Verfahren und Techniken, die von den beziehungsbewussten Darstellungen abhängig sind, können eine Ereignislokalisierung durch Vorhersagen der ereignisrelevanten Bewertung und der Klassifizierungsbewertung vornehmen. In Ausführungsformen können neuronale Netzwerke geschult werden, um eine Ereignislokalisierung in Video-Streams durchzuführen. Verschiedene Umsetzungen von neuronalen Netzwerkoperationen, wie zum Beispiel verschiedene Aktivierungsfunktionen und Optimierungen wie beispielsweise Gradientenoptimierungen können verwendet werden.
  • Die Systeme, Verfahren und Techniken berücksichtigen grenzübergreifende Modalitäts- oder Intermodalitäts-Beziehungsinformationen zwischen visuellen Szenen und Audiosignalen zum Beispiel zur AVE-Lokalisierung. Die grenzübergreifende Modalitätsbeziehung ist die audiovisuelle Korrelation zwischen Audio- und Videosegmenten. 1 ist ein veranschaulichendes Beispiel der Aufgabe der audiovisuellen Ereignislokalisierung. In einer Ausführungsform verwendet eine Maschine 102 in dieser Aufgabe als Eingabe eine Videosequenz 104 mit visuellen 106 und akustischen Kanälen 108. Die Maschine 102 weist zum Beispiel einen Hardware-Prozessor auf. Der Hardware-Prozessor kann zum Beispiel Komponenten wie programmierbare Logikeinheiten, Mikro-Controller, Arbeitsspeichereinheiten und/oder andere Hardware-Komponenten umfassen, die konfiguriert werden können, um jeweilige Aufgaben durchzuführen, die in der vorliegenden Offenbarung beschrieben werden. Die Maschine 102 wird aufgefordert, zu bestimmen, ob ein Ereignis vorhanden ist, das in einem Segment sowohl hörbar als auch sichtbar ist, und zu welcher Kategorie das Ereignis gehört. In einem Aspekt besteht die Herausforderung darin, dass die Maschine aufgefordert wird, gleichzeitig Informationen von zwei Modalitäten zu berücksichtigen und ihre Beziehungen zu nutzen. Wie zum Beispiel in 1 gezeigt, kann eine Videosequenz den Klang eines Zughorns umfassen, während ein fahrender Zug visualisiert wird, der zum Beispiel in einem Frame oder Segment an einem Block 110b gezeigt wird. Diese audiovisuelle Korrelation deutet auf ein Ereignis hin, das hörbar und sichtbar ist. Daher tragen grenzübergreifende Modalitäts- oder Intermodalitäts-Beziehungen auch zu der Erfassung eines audiovisuellen Ereignisses bei.
  • Ein Selbstaufmerksamkeits-Mechanismus kann verwendet werden, um Intramodalitäts-Beziehungen zwischen Wörtern in einer Verarbeitung von natürlicher Sprache (NLP) zu erfassen. Zunächst werden Eingabemerkmale in Abfrage-, Schlüssel- und Wert- (d.h. Arbeitsspeicher) Merkmale umgewandelt. Anschließend wird die Aufmerksamkeitsausgabe durch Verwenden einer gewichteten Summierung aller Werte in dem Arbeitsspeicher berechnet, wobei die Gewichtungen (d.h. Beziehungen) aus dem Schlüssel in dem Arbeitsspeicher und der Abfrage erlernt werden In einem Aspekt können jedoch in der NLP-Nutzung, da die Abfrage und der Arbeitsspeicher von derselben Modalität abgeleitet werden, wobei die Selbstaufmerksamkeit direkt auf die Ereignislokalisierung angewendet wird, die grenzübergreifenden Modalitätsbeziehungen zwischen visuellen und akustischen Inhalten nicht genutzt werden. Wenn der Arbeitsspeicher im Gegenteil Merkmale von zwei Modalitäten aufnimmt, kann die Abfrage (von einer der beiden Modalitäten) eine Untersuchung der grenzübergreifenden Modalitätsbeziehungen ermöglichen, ohne auf die Intramodalitäts-Beziehungsinformationen zu verzichten.
  • In einer Ausführungsform stellen die Systeme, Verfahren und Techniken ein beziehungsbewusstes Modul bereit, um Verbindungen zwischen visuellen und Audio-Informationen durch Nutzen von Intermodalitäts-Beziehungen aufzubauen. Dieses Modul umhüllt in einer Ausführungsform einen Aufmerksamkeitsmechanismus, der als grenzübergreifende Modalitäts-Beziehungsaufmerksamkeit bezeichnet wird. Im Unterschied zur Selbstaufmerksamkeit wird die Abfrage von einer Modalität abgeleitet, während die Schlüssel und Werte von zwei Modalitäten in der grenzübergreifenden Modalitäts-Beziehungsaufmerksamkeit abgeleitet werden. Auf diese Weise kann ein einzelnes Segment von einer Modalität nützliche Informationen von allen zugehörigen Segmenten von zwei Modalitäten auf Grundlage der erlernten Intramodalitäts- und Intermodalitäts-Beziehungen aggregieren. Ein gleichzeitiges Beobachten der visuellen Szenen und Anhören der Klänge (d.h. ein gleichzeitiges Nutzen von Informationen von zwei Modalitäten) kann effektiver und effizienter sein, als sie separat für ein Lokalisieren eines hörbaren und sichtbaren Ereignisses wahrzunehmen. Die Systeme, Verfahren und Techniken können in einem Aspekt beide nützlichen Beziehungen verwenden, um ein Erlernen von Darstellungen zu vereinfachen und ferner die Leistung einer AVE-Lokalisierung zu verstärken.
  • Da die starke visuelle Hintergrundinterferenz die exakte Ereignislokalisierung behindern kann, können in einer Ausführungsform die Systeme, Verfahren und Techniken informative visuelle Bereiche und Merkmale hervorheben, um die Interferenz zu reduzieren. Zum Beispiel können die Systeme, Verfahren und Techniken ein audiogesteuertes Raum-Kanal-Aufmerksamkeitsmodul umfassen, das Audio-Informationen nutzt, um eine visuelle Aufmerksamkeit auf Raum- und Kanalebenen aufzubauen. Die Systeme, Verfahren und Techniken Integrieren die Komponenten miteinander und stellen ein grenzübergreifendes modales beziehungsbewusstes Netzwerk bereit, das den Stand der Technik aufgrund einer Differenz bei überwachten und schwach überwachten AVE-Lokalisierungsaufgaben in einem AVE-Datensatz übertreffen kann.
  • In einer Ausführungsform können die Systeme, Verfahren und Techniken ein audiogesteuertes Raum-Kanal-Aufmerksamkeits- (AGSCA) Modul zum Nutzen der Steuerungsfähigkeit von Audiosignalen für visuelle Aufmerksamkeit, die informative Merkmale und Klangbereiche exakt hervorheben können; ein beziehungsbewusstes Modul zum Nutzen der Intramodalitäts- und Intermodalitäts-Beziehungen zur Ereignislokalisierung umfassen. In einer Ausführungsform kann ein grenzübergreifendes modales beziehungsbewusstes Netzwerk (das auch als dualmodales Beziehungsnetzwerk bezeichnet wird) für überwachte und schwach überwachte AVE-Lokalisierungsaufgaben aufgebaut werden.
  • Audiovisuelles Lernen kann in vielen Bereichen nützlich sein, wie zum Beispiel Aktionserkennung, Klangquellenlokalisierung und audiovisuelle Ereignislokalisierung. Zum Beispiel verwenden Aufgaben Audiodaten, um einen Vorschaumechanismus zum Reduzieren von zeitbezogenen Redundanzen zu erstellen; eine geringe zeitbezogene Sampling-Strategie kann mehrere Modalitäten vereinen, um die Aktionserkennung zu verstärken; Audiodaten können als Überwachungssignal zum Erlernen von visuellen Modellen in einer nicht überwachten Weise verwendet werden; ein Speech2Face-Framework kann dargestellt werden, das die Gesichts-Stimm-Korrelationen zum Generieren von Gesichtsbildern hinter der Stimme verwendet; zum Nutzen der problemlos verfügbaren großformatigen, nicht gekennzeichneten Videos nutzen Aufgaben eine audiovisuelle Entsprechung, um audiovisuelle Darstellungen auf selbstüberwachte Weise zu erlernen.
  • Eine weitere Aufgabe zur audiovisuellen Ereignislokalisierung verwendet zwei Long-Short-Term-Memories (LSTMs), um die zeitbezogene Abhängigkeit von Audio- und Video-Segmentsequenzen getrennt zu modellieren und anschließend Audio- und visuelle Merkmale einfach mittels additiver Vereinigung und durchschnittlicher Bündelung für eine Ereigniskategorie-Vorhersage zu vereinen. Noch eine weitere Aufgabe verarbeitet zuerst Audio- und visuelle Modalitäten getrennt und vereint anschließend Merkmale von zwei Modalitäten mittels LSTMs, was sequenzweise erfolgt. Noch eine weitere Aufgabe schlägt ein duales Aufmerksamkeits-Abgleichmodul vor, das globale Informationen verwendet, die durch Intramodalitäts-Beziehungsmodellierung und lokale Informationen erhalten werden, um eine grenzübergreifende Modalitätsähnlichkeit über die Operation des inneren Produkts zu messen. Die grenzübergreifende Modalitätsähnlichkeit dient direkt als eine abschließende Ereignisrelevanz-Vorhersage. Diese Verfahren konzentrieren sich hauptsächlich auf ein Nutzen von Intramodalitäts-Beziehungen als potenzielle Anhaltspunkte, wobei die gleichermaßen wertvollen grenzübergreifenden Modalitäts-Beziehungsinformationen zur Ereignislokalisierung ignoriert werden. Im Unterschied zu diesen Verfahren stellen die Systeme, Verfahren und Techniken in Ausführungsformen grenzübergreifende modale beziehungsbewusste Netzwerke bereit oder setzen diese um, ermöglichen ein Überbrücken von Verbindungen zwischen visuellen und Audio-Modalitäten, zum Beispiel durch gleichzeitiges Nutzen sowohl der Intramodalitäts- als auch der Intermodalitäts-Beziehungsinformationen.
  • Ein Aufmerksamkeitsmechanismus ahmt eine menschliche visuelle Wahrnehmungsfunktion nach. Er versucht, sich automatisch auf bestimmte Abschnitte der Eingabe mit hoher Aktivierung zu konzentrieren. Der Aufmerksamkeitsmechanismus hat viele Varianten, einschließlich Selbstaufmerksamkeit. Im Unterschied zur Selbstaufmerksamkeit, die sich auf ein Erfassen von Beziehungen in einer Modalität konzentriert, können die Systeme, Verfahren und Techniken in Ausführungsformen eine grenzübergreifende Modalitäts-Beziehungsaufmerksamkeit bereitstellen, die eine gleichzeitiges Nutzen von Intramodalitäts- und Intermodalitäts-Beziehungen für ein audiovisuelles Darstellungserlernen ermöglicht.
  • In der vorliegenden Offenbarung werden die folgenden Schreibweisen verwendet. S = { S t = ( V t , A t ) } t = 1 T
    Figure DE112021004261T5_0001
    eine Video-Sequenz mit T nicht überlappenden Segmenten sein. Hier stellen Vt und At jeweils den visuellen Inhalt und dessen entsprechenden Audio-Inhalt des t-ten Segments dar.
  • Zum Beispiel zeigt 1 Segmente 110a, 110b, 110c, 110d, 110e, 110f in einem Video. Wie in 1 als Beispiel gezeigt, erfordert eine AVE-Lokalisierung bei Vorgabe einer Video-Sequenz S 104 eine Maschine, um die Ereigniskennzeichnung (einschließlich Hintergrund) für jedes Segment St vorherzusagen, das auf Vt und At beruht. Ein audiovisuelles Ereignis wird als ein Ereignis definiert, das sowohl hörbar als auch sichtbar ist (d.h. es wird ein Klang gehört, der von einem Objekt abgegeben wird, und gleichzeitig ist das Objekt zu sehen). Wenn ein Segment St weder hörbar noch sichtbar ist, sollte es als Hintergrund vorhergesagt werden. Eine Herausforderung bei dieser Aufgabe besteht darin, dass die Maschine zwei Modalitäten analysieren und ihre Beziehungen erfassen muss. In Ausführungsformen können die Systeme, Verfahren und Techniken grenzübergreifende Modalitäts-Beziehungsinformationen zum Verstärken der Leistung verwenden. In Ausführungsformen kann diese Aufgabe in verschiedenen Einstellungen durchgeführt werden. In einer Ausführungsform kann diese Aufgabe zum Beispiel in einer überwachten Einstellung durchgeführt werden. In einer weiteren Ausführungsform kann diese Aufgabe in schwach überwachten Einstellungen durchgeführt werden. In einer überwachten Einstellung können die Systeme, Verfahren und Techniken während der Schulungsphase auf Kennzeichnungen auf Segment-Ebene zugreifen. Eine Kennzeichnung auf Segment-Ebene gibt die Kategorie (einschließlich Hintergrund) des entsprechenden Segments an. In einer Ausführungsform werden Kennzeichnungen einer Nicht-Hintergrund-Kategorie nur angegeben, wenn die Klänge und die entsprechenden Klangobjekte dargestellt sind. In einer schwach überwachten Einstellung können die Systeme, Verfahren und Techniken in einer Ausführungsform während der Schulung nur auf Kennzeichnungen auf Video-Ebene zugreifen, und die Systeme, Verfahren und Techniken streben während des Testens eine Vorhersage einer Kategorie für jedes Segment an. Eine Kennzeichnung auf Video-Ebene gibt an, ob ein Video ein audiovisuelles Ereignis enthält, und zu welcher Kategorie das Ereignis gehört.
  • Die Systeme, Verfahren und Techniken lösen in einer Ausführungsform ein Problem, dass die meisten vorhandenen Verfahren zur Ereignislokalisierung die Informationen von dem Audiosignal in einem Video vernachlässigen, was jedoch dabei helfen kann, die Interferenz eines komplexen Hintergrunds abzumildern und mehr Anhaltspunkte zur Argumentation bereitzustellen. Ein Verfahren nutzt zum Beispiel sowohl die visuellen als auch Audio-Informationen zur Ereignislokalisierung, und wertet sie auf einer audiovisuellen Ereignislokalisierungs-Aufgabe aus, die von der Maschine fordert, ein Ereignis zu lokalisieren, das in einem unbeschnittenen Video sowohl hörbar als auch sichtbar ist. Diese Aufgabe ist anspruchsvoll, da ein uneingeschränktes Video oft komplexe Hintergründe enthält, und es ist nichttrivial, Verbindungen zwischen komplexen visuellen Szenen und komplizierten Klängen zu erstellen. Um diese Herausforderungen zu meistern, stellen die Systeme, Verfahren und Techniken in Ausführungsformen ein audiogesteuertes Aufmerksamkeitsmodul bereit, um bestimmte räumliche Bereiche und Merkmale zum Reduzieren von Hintergrundinterferenz hervorzuheben. In Ausführungsformen entwickeln die Systeme, Verfahren und Techniken auch beziehungsbewusste Module zum Nutzen von Intermodalitäts-Beziehungen zusammen mit Intramodalitäts-Beziehungen zum Lokalisieren eines audiovisuellen Ereignisses.
  • 2 ist eine Darstellung, die ein dualmodales Beziehungsnetzwerk in einer Ausführungsform veranschaulicht. Die gezeigten Komponenten umfassen durch einen Computer umgesetzte Komponenten, die zum Beispiel auf einem oder mehreren Hardware-Prozessoren umgesetzt und/oder ausgeführt werden oder mit einem oder mehreren Hardware-Prozessoren verbunden sind. Ein oder mehrere Hardware-Prozessoren oder Prozessoren können zum Beispiel Komponenten wie programmierbare Logikeinheiten, Mikro-Controller, Arbeitsspeichereinheiten und/oder andere Hardware-Komponenten umfassen, die konfiguriert werden können, um jeweilige Aufgaben durchzuführen, die in der vorliegenden Offenbarung beschrieben werden. Verbundene Arbeitsspeichereinheiten können konfiguriert werden, um selektiv Anweisungen zu speichern, die von einem oder mehreren Hardware-Prozessoren ausführbar sind. Ein Prozessor kann eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU), ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC), eine andere geeignete Verarbeitungskomponente oder -einheit oder eine oder mehrere Kombinationen davon sein. Der Prozessor kann mit einer Arbeitsspeichereinheit verbunden sein. Die Arbeitsspeichereinheit kann einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM) oder eine andere Arbeitsspeichereinheit umfassen und kann Daten und/oder Prozessoranweisungen zum Umsetzen verschiedener Funktionalitäten speichern, die den hierin beschriebenen Verfahren und/oder Systemen zugehörig sind. Der Prozessor kann Computeranweisungen ausführen, die in dem Arbeitsspeicher gespeichert sind oder von einer anderen Computereinheit oder einem anderen Medium empfangen werden. Ein Modul, wie hierin verwendet, kann als durch eine Software ausführbar auf einem oder mehreren Hardware-Prozessoren, einer Hardware-Komponente, einer programmierbaren Hardware, einer Firmware oder jeder Kombination von diesen umgesetzt werden.
  • Ein dualmodales Beziehungsnetzwerk wird auch als grenzübergreifendes modales beziehungsbewusstes Netzwerk bezeichnet. In einer Ausführungsform ist ein dualmodales Beziehungsnetzwerk 200 ein Ende-zu-Ende-Netzwerk zum Durchführen einer audiovisuellen Ereignislokalisierungsaufgabe und kann ein audiogesteuertes visuelles Aufmerksamkeitsmodul 212, einen Intramodalitäts-Beziehungsblock 214, 216 und einen Intermodalitäts-Beziehungsblock 218, 220 umfassen. Das audiogesteuerte Aufmerksamkeitsmodul 212 kann ein neuronales Netzwerk umfassen (das zum Beispiel zu Erklärungs- oder Veranschaulichungszwecken als ein erstes neuronales Netzwerk bezeichnet wird). Das audiogesteuerte visuelle Aufmerksamkeitsmodul 212 dient in einer Ausführungsform zum Hervorheben von informativen Bereichen für die Reduzierung von visueller Hintergrundinterferenz.
  • Die Intramodalitäts- und Intermodalitäts-Beziehungsblöcke 214, 216, 218, 220 können in einer Ausführungsform die Intramodalitäts- und Intermodalitäts-Beziehungsinformationen zum Erleichtern eines Darstellungserlernens separat nutzen, was die Erkennung eines sowohl hörbaren als auch sichtbaren Ereignisses erleichtert. Die Intramodalitäts- und Intermodalitäts-Beziehungsblöcke 214, 218 können ein neuronales Netzwerk umfassen (das zum Beispiel zu Erklärungszwecken als ein zweites neuronales Netzwerk bezeichnet wird). Die Intramodalitäts- und Intermodalitäts-Beziehungsblöcke 216, 220 können ein neuronales Netzwerk umfassen (das zum Beispiel zu Erklärungszwecken als ein drittes neuronales Netzwerk bezeichnet wird). Das dualmodale Beziehungsnetzwerk 200 kann in einem Aspekt eine visuelle Hintergrundinterferenz reduzieren, indem bestimmte Bereiche hervorgehoben werden und die Darstellungsqualität von zwei Modalitäten verbessert wird, indem Intramodalitäts- und Intermodalitätsbeziehungen als potenziell nützliche Informationen genutzt werden. Das dualmodale Beziehungsnetzwerk ermöglicht in einem Aspekt die Erfassung der wichtigen Intermodalitäts-Beziehungen zwischen visuellen Szenen 202 und Klängen 204.
  • Zum Beispiel kann ein Verfahren in einer Ausführungsform die extrahierten visuellen und Audio-Merkmale einem audiogesteuerten visuellen Aufmerksamkeitsmodul 212 zuführen, um informative Bereiche zur Reduzierung von Hintergrundinterferenz zu betonen. Zum Beispiel können Video-Merkmale, die dem audiogesteuerten visuellen Aufmerksamkeitsmodul 212 zugeführt werden, durch Eingeben eines Eingabevideos 202 in ein neuronales Faltungsnetzwerk 206 extrahiert werden, das geschult ist, die Video-Merkmale zu extrahieren. Eingegebene Audiodaten 204 können durch Verwenden einer logarithmischen Mel-Spektrogrammdarstellung 208 verarbeitet werden, die in ein neuronales Faltungsnetzwerk 210 eingegeben werden kann, das geschult ist, um die Audio-Merkmale für ein Zuführen in das audiogesteuerte visuelle Aufmerksamkeitsmodul 212 zu extrahieren. Eingegebene Videodaten 202 und eingegebene Audiodaten 204 sind Komponenten eines Video-Feeds, eines Streams oder einer Sequenz. Das Verfahren kann die Intramodalitäts- und Intermodalitäts-Beziehungsblöcke 214, 216, 218, 220 vorbereiten, um die entsprechenden Beziehungsinformationen für das audio/visuelle Darstellungserlernen separat zu nutzen. Zum Beispiel generieren der Intramodalitäts-Beziehungsblock 214 und der Intermodalitäts-Beziehungsblock 218 beziehungsbewusste Merkmale 222, der Intramodalitäts-Beziehungsblock 216 und der Intermodalitäts-Beziehungsblock 220 generieren beziehungsbewusste Merkmale 224. Ein Audio-Video-Interaktionsmodul 226 kann die beziehungsbewussten visuellen und Audio-Merkmale 222, 224 zusammen integrieren, um eine umfassende dualmodale Darstellung für Klassifizierer zu erhalten. Das audiogesteuerte Interaktionsmodul 226 kann ein neuronales Netzwerk umfassen (das zum Beispiel zu Erklärungszwecken als ein viertes neuronales Netzwerk bezeichnet wird). Eine umfassende dualmodale Darstellungsausgabe durch das Audio-Video-Interaktionsmodul 226 kann einem Klassifizierer (z.B. einem neuronalen Netzwerk) zur Ereignisklassifizierung 230 und/oder einer ereignisrelevanten Vorhersage 228 zugeführt werden.
  • Zum Beispiel kann ein eingegebener AVE-Datensatz (z.B. eingegebene Video- und Audiodaten 202, 204) Videos enthalten, die einen breitgefassten Umfang von Bereichsereignissen abdecken (z.B. Aktivitäten von Menschen, Aktivitäten von Tieren, Musikaufführungen und Fahrzeuggeräusche). Die Ereignisse können verschiedene Kategorien umfassen (z.B. Kirchenglocken, Weinen, Hundegebell, Braten von Lebensmitteln, Geigenspiel und/oder anderes). Zum Beispiel kann ein Video ein Ereignis enthalten und kann in eine Anzahl von Zeitintervallsegmenten (z.B. zehn Ein-Sekunden-Segmente) zum Verarbeiten durch das dualmodale Beziehungsnetzwerk unterteilt werden. In einer Ausführungsform werden die Video- und Audio-Szenen (z.B. die eingegebenen Video- und Audiodaten 202, 204) in einer Video-Sequenz aufeinander abgestimmt. In einer weiteren Ausführungsform müssen die Video- und Audio-Szenen (z.B. die eingegebenen Video- und Audiodaten 202, 204) in einer Videosequenz nicht aufeinander abgestimmt werden.
  • Zum Beispiel kann ein CNN 206 ein neuronales Faltungsnetzwerk sein, wie zum Beispiel, aber nicht darauf beschränkt, VGG-19, ein neuronales Residualnetzwerk (z.B. ResNet-151), und kann zum Beispiel vorab auf ImageNet als visuelle Merkmalsextraktoren geschult werden. Zum Beispiel können in jedem Segment 16 Frames als Eingabe gewählt werden. Zum Beispiel kann die Ausgabe der pool5-Schicht in VGG-19 mit Dimensionen von 7 × 7 × 512 als die visuellen Merkmale angenommen werden. Für ResNet-151 kann die Ausgabe der conv5-Schicht mit Dimensionen von 7 × 7 × 2048 als die visuellen Merkmale angenommen werden. Die Merkmale auf Frame-Ebene in jedem Segment können zeitbezogen als Merkmale auf Segment-Ebene gemittelt werden.
  • Zum Beispiel können die Eingabe-Audiodaten 204, die rohe Audiodaten sein können, in logarithmische Mel-Spektrogramme 208 umgewandelt werden. Das Verfahren und/oder das System können zum Beispiel akustische Merkmale mit Dimensionen von 128 für jedes Segment durch Verwenden eines VGG-ähnlichen Netzwerks extrahieren, das auf einem AudioSet vorab geschult wurde.
  • 3 ist eine weitere Darstellung, die ein dualmodales Beziehungsnetzwerk in einer Ausführungsform zeigt. Die gezeigten Komponenten umfassen durch einen Computer umgesetzte Komponenten, die zum Beispiel auf einem oder mehreren Hardware-Prozessoren umgesetzt und/oder ausgeführt werden oder mit einem oder mehreren Hardware-Prozessoren verbunden sind. Ein oder mehrere Hardware-Prozessoren oder Prozessoren können zum Beispiel Komponenten wie programmierbare Logikeinheiten, Mikro-Controller, Arbeitsspeichereinheiten und/oder andere Hardware-Komponenten umfassen, die konfiguriert werden können, um jeweilige Aufgaben durchzuführen, die in der vorliegenden Offenbarung beschrieben werden. Verbundene Arbeitsspeichereinheiten können konfiguriert werden, um selektiv Anweisungen zu speichern, die von einem oder mehreren Hardware-Prozessoren ausführbar sind. Ein Prozessor kann eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU), ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC), eine andere geeignete Verarbeitungskomponente oder -einheit oder eine oder mehrere Kombinationen davon sein. Der Prozessor kann mit einer Arbeitsspeichereinheit verbunden sein. Die Arbeitsspeichereinheit kann einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM) oder eine andere Arbeitsspeichereinheit umfassen und kann Daten und/oder Prozessoranweisungen zum Umsetzen verschiedener Funktionalitäten speichern, die den hierin beschriebenen Verfahren und/oder Systemen zugehörig sind. Der Prozessor kann Computeranweisungen ausführen, die in dem Arbeitsspeicher gespeichert sind oder von einer anderen Computereinheit oder einem anderen Medium empfangen werden. Ein Modul, wie hierin verwendet, kann als durch eine Software auf einem oder mehreren Hardware-Prozessoren, einer Hardware-Komponente, einer programmierbaren Hardware, einer Firmware oder jeder Kombination von diesen ausführbar umgesetzt werden.
  • Das dualmodale Beziehungsnetzwerk wird auch als grenzübergreifendes modales beziehungsbewusstes Netzwerk (CMRAN) bezeichnet. Eingegebene Videodaten 302 werden einem neuronalen Faltungsnetzwerk (CNN) 306 zugeführt oder in dieses eingegeben, das zum Beispiel geschult ist, Video-Merkmale zu extrahieren. Eingegebene Audiodaten 304 können durch Verwenden einer logarithmischen Mel-Spektrogrammdarstellung 308 verarbeitet werden, die in ein neuronales Faltungsnetzwerk (CNN) 310 eingegeben werden kann, das geschult ist, um die Audio-Merkmale zu extrahieren, um die Audio-Merkmale für ein Zuführen in das audiogesteuerte Raum-Kanal-Aufmerksamkeitsmodul (AGSCA) 312 zu extrahieren (das z.B. in 2 auch als audiogesteuertes visuelles Aufmerksamkeitsmodul bezeichnet wird). Durch Verwenden der extrahierten Video-Merkmale aus dem CNN 306 und den Audio-Merkmalen aus dem CNN 310 dient das audiogesteuerte Raum-Kanal-Aufmerksamkeitsmodul (AGSCA) 312 (auf das z.B. in 2 auch als audiogesteuertes visuelles Aufmerksamkeitsmodul Bezug genommen wird) zum Nutzen von Audio-Informationen (die z.B. durch das CNN 310 ausgegeben werden), um eine visuelle Aufmerksamkeit auf Raum- und Kanal-Ebene zu steuern (z.B. Video-Kanal), wodurch erweiterte visuelle Merkmale 314 erzeugt werden. Das CNN 310 extrahiert Audio-Merkmale 316. Zwei beziehungsbewusste Module 322, 324 erfassen sowohl Intramodalitäts-Beziehungen als auch Intermodalitäts-Beziehungen für zwei Modalitäten (Video und Audio) getrennt voneinander, wodurch beziehungsbewusste visuelle Merkmale 322 und beziehungsbewusste Audio-Merkmale 324 erzeugt werden. Grenzübergreifende modale beziehungsbewusste visuelle Merkmale 322 und grenzübergreifende modale beziehungsbewusste Audio-Merkmale 324 werden zusammen über ein Audio-Video-Interaktionsmodul 326 integriert, woraus sich eine gemeinsame dualmodale Darstellung ergibt, die für eine ereignisrelevante Vorhersage 328 und/oder eine Ereignisklassifizierung 330 in einen Klassifizierer eingegeben werden kann.
  • Bei einer angegebenen Video-Sequenz S leitet zum Beispiel ein Verfahren und/oder ein System jedes audiovisuelle Paar {Vt, At} 302, 304 über vorab geschulte CNN-Backbones 306, 306 weiter, um Merkmale auf Segment-Ebene ν t , α t t = 1 T
    Figure DE112021004261T5_0002
    zu extrahieren. Das Verfahren und/oder das System leiten Audio- und visuelle Merkmale durch das AGSCA-Modul 312 weiter, um erweiterte visuelle Merkmale 314 zu erhalten. Mit den Audio-Merkmalen 316 und den erweiterten visuellen Merkmalen 314 bereiten das Verfahren und/oder das System zwei beziehungsbewusste Module vor, ein beziehungsbewusstes Video-Modul 318 und ein beziehungsbewusstes Audio-Modul 310, die eine grenzübergreifende Modalitäts- oder dualmodale Beziehungsaufmerksamkeit getrennt um die Audio- und visuellen Merkmale hüllen. Das Verfahren und/oder das System führen visuelle und Audio-Merkmale 314, 316 den beziehungsbewussten Modulen 318, 320 zu, um beide Beziehung für zwei Modalitäten zu nutzen Die beziehungsbewussten visuellen und Audio-Merkmale 322, 324 werden dem Audio-Video-Interaktionsmodul 326 zugeführt, wodurch sich eine umfassende gemeinsame dualmodale Darstellung für einen oder mehrere Ereignisklassifizierer 330 oder die Vorhersage 328 ergibt.
  • Audiogesteuerte Raum-Kanal-Aufmerksamkeit
  • Audiosignale sind fähig, visuelles Modellieren zu steuern. Die Kanalaufmerksamkeit ermöglicht, irrelevante Merkmale zu verwerfen und die Qualität von visuellen Darstellungen zu verbessern. Das Modul für audiogesteuerte Raum-Kanal-Aufmerksamkeit (AGSCA) 312 versucht in einer Ausführungsform, das Beste aus der Audio-Steuerungsfähigkeit für visuelles Modellieren zu machen. Anstatt Audio-Merkmale in einem Aspekt nur an einer visuellen Aufmerksamkeit in der Raum-Dimension zu beteiligen, nutzt das AGSCA 312 in einer Ausführungsform Audiosignale zum Steuern einer visuellen Aufmerksamkeit sowohl in Raum- als auch Kanal-Dimensionen, wodurch informative Merkmale und Raum-Bereiche betont werden, um die Lokalisierungsgenauigkeit zu steigern. Ein bekanntes Verfahren bzw. eine bekannte Technik kann zum aufeinanderfolgenden Durchführen einer Kanal- und Raum-Aufmerksamkeit verwendet werden.
  • 4 veranschaulicht ein audiogesteuertes Raum-Kanal-Aufmerksamkeits-(AGSCA) (Audio-Guided Spatial-Channel Attention) Modul, das zum Beispiel in einer Ausführungsform in 3 unter 312 gezeigt wird. AGSCA nutzt in einer Ausführungsform die Audio-Steuerungsfähigkeit zum Steuern von visueller Aufmerksamkeit auf Kanal-Ebene (linker Teil) und auf Raum-Ebene (rechter Teil). In Bezug auf die Audio-Merkmale at ∈ ℝda 402 und die visuellen Merkmale vt ∈ ℝdv×(H*W) 404, wobei H und W jeweils die Höhe und Breite von Merkmalszuordnungen sind, generiert AGSCA kanalweise Aufmerksamkeitszuordnungen M t c d v × 1
    Figure DE112021004261T5_0003
    406, um informative Merkmale adaptiv hervorzuheben. AGSCA erzeugt dann räumliche Aufmerksamkeitszuordnungen M t s 1 × ( H W )
    Figure DE112021004261T5_0004
     
    Figure DE112021004261T5_0005
    408 für die Kanal-Aufmerksamkeitsmerkmale 410, um Klangbereiche hervorzuheben, woraus sich visuelle Kanal-Aufmerksamkeitsmerkmale ν t c s
    Figure DE112021004261T5_0006
    412 ergeben. Der Aufmerksamkeitsprozess kann zusammengefasst werden als ν t c s = M t s ( ν t c ) T , ν t c = M t c ν t
    Figure DE112021004261T5_0007
    wobei ⊗ eine Matrix-Multiplikation angibt, und ⊙ eine elementweise Multiplikation bedeutet.
  • Die kanalweise Aufmerksamkeit 406 generiert Aufmerksamkeitszuordnungen M t c ,
    Figure DE112021004261T5_0008
    und die räumliche Aufmerksamkeit 408 erzeugt Aufmerksamkeitszuordnungen M t s .
    Figure DE112021004261T5_0009
    Kanalweise Aufmerksamkeit
  • Ein Verfahren und/oder ein System modelliert in einer Ausführungsform die Abhängigkeiten zwischen Kanälen von Merkmalen mit der Steuerung von Audiosignalen. In einer Ausführungsform wandeln das Verfahren und/oder das System Audio- und visuelle Merkmale durch Verwenden von vollständig verbundenen Schichten mit Nicht-Linearität in einen gemeinsamen Raum um, was zu Audio-Steuerungszuordnungen a t m d v
    Figure DE112021004261T5_0010
    und umgewandelten visuellen Merkmalen mit Dimensionen dv × (H * W) führt. In einer Ausführungsform drücken das Verfahren und/oder das System die umgewandelten visuellen Merkmale durch globales durchschnittliches Pooling räumlich zusammen. Das Verfahren und/oder das System nutzen dann die Steuerungsinformationen von a t m
    Figure DE112021004261T5_0011
    durch Verbinden von visuellen Merkmalen mit a t m
    Figure DE112021004261T5_0012
    über eine elementweise Multiplikation. Das Verfahren und/oder das System leiten die verbundenen visuellen Merkmale durch zwei vollständig verbundene Schichten mit Nicht-Linearität weiter, um die Beziehungen zwischen Kanälen zu modellieren, woraus sich Kanal-Aufmerksamkeitszuordnungen M t c
    Figure DE112021004261T5_0013
    ergeben. In einer Ausführungsform werden die Details wie folgt gezeigt: M t c = σ ( W 1 U 1 c ( ( U a c a t ) δ a ( U ν c ν t ) ) )
    Figure DE112021004261T5_0014
    wobei U a c d ν × a a , U v c d ν × d ν  und  U 1 c d × d ν
    Figure DE112021004261T5_0015
    vollständig verbundene Schichten mit einer gleichgerichteten linearer Einheit (ReLU) als eine Aktivierungsfunktion sind, W1 ∈ ℝdv×d erlernbare Parameter mit d = 256 als eine verborgene Dimension sind, δα globales durchschnittliches Pooling angibt und σ die Sigmoid-Funktion bezeichnet.
  • Räumliche Aufmerksamkeit
  • Das Verfahren und/oder das System nutzen auch die Steuerungsfähigkeit von Audiosignalen, um die visuelle räumliche Aufmerksamkeit 408 zu steuern. Die räumliche Aufmerksamkeit 408 folgt einem der kanalweisen Aufmerksamkeit 406 ähnlichen Muster. In einem Aspekt sind die eingegebenen visuellen Merkmale ν t c
    Figure DE112021004261T5_0016
    410 kanalaufmerksam.
  • In einer Ausführungsform formulieren das Verfahren und/oder das System den Prozess einer räumlichen Aufmerksamkeit wie folgt: M t s = S o f t m a x ( x t s ) x t s = δ ( W 2 ( ( U a s a t ) ( U v s ν t c ) ) ) ,
    Figure DE112021004261T5_0017
    wobei U a s = d × d a , U ν s = d × d ν
    Figure DE112021004261T5_0018
    vollständig verbundene Schichten mit ReLU als einer Aktivierungsfunktion sind, W2 ∈ ℝ1×d erlernbare Parameter mit d = 256 als eine verborgene Dimension sind und die hyperbolische Tangensfunktion bezeichnet. Mit den räumlichen Aufmerksamkeitszuordnungen M t s
    Figure DE112021004261T5_0019
    führen das Verfahren und/oder das System eine gewichtete Summierung über Vt gemäß M t s
    Figure DE112021004261T5_0020
    durch, um informative Bereiche hervorzuheben und räumliche Dimensionen zu verkleinern, was zu einer Ausgabe eines visuellen Merkmalsvektors für räumliche Kanalaufmerksamkeit ν t c s d v
    Figure DE112021004261T5_0021
    412 führt.
  • Grenzübergreifende Modalitäts-Beziehungsaufmerksamkeit
  • Eine grenzübergreifende Modalitäts-Beziehungsaufmerksamkeit ist in einer Ausführungsform eine Komponente eines beziehungsbewussten Moduls (z.B. gezeigt in 3 unter 318 und 320). Angesichts von visuellen und akustischen Merkmalen können das Verfahren und/oder das System grenzübergreifende Modalitäts-Beziehungen nutzen, um eine Brücke zwischen zwei Modalitäten zu erstellen, die die Intramodalitäts-Beziehungsinformationen dabei aber nicht außer acht zu lassen. Für diese Aufgabe setzen das Verfahren und/oder das System in einer Ausführungsform einen Mechanismus für eine grenzübergreifende Modalitäts-Beziehungsaufmerksamkeit (CMRA) (cross-modality relation attention) um oder stellen sie bereit. 5 zeigt einen grenzübergreifenden Modalitäts-Beziehungsaufmerksamkeits- (CMRA) Mechanismus in einer Ausführungsform. Die Balken mit unterschiedlicher Schattierung stellen Merkmale von verschiedenen Modalitäten auf Segment-Ebene dar. Die CMRA nutzt gleichzeitig die Intramodalitäts- und Intermodalitäts-Beziehungen für Audio- oder Video-Segmentmerkmale und ermöglicht ein adaptives Erlernen einer Ausgeglichenheit zwischen diesen beiden Beziehungen. Eine Abfrage 502 wird von Merkmalen von einer Modalität abgeleitet (z.B. Audio oder Video), bezeichnet als q1. Zum Beispiel können Eingabemerkmale Audio- und Videomerkmale umfassen, die unter 512 gezeigt sind. Die Schlüsselwertpaare 504, 506 werden von Merkmalen von zwei Modalitäten abgeleitet (z.B. Audio und Video), und das Verfahren und/oder das System packen sie in eine Schlüsselmatrix K1,2 und eine Wertmatrix V1,2. In einer Ausführungsform verwenden das Verfahren und/oder das System die Punkt-Produkt-Operation als eine paarweise Beziehungsfunktion. Das Verfahren und/oder System berechnen dann Punkt-Produkte von q1 mit allen Schlüsseln K1,2, jeweils geteilt durch die Quadratwurzel ihrer gemeinsamen Merkmalsdimension dm und wendet eine Softmax-Funktion an, um Aufmerksamkeitsgewichtungen von Werten V1,2 zu erhalten. Die erwartete Ausgabe 510 wird durch die Summierung über alle Werte V1,2 berechnet, gewichtet durch die Beziehungen (d.h. Aufmerksamkeitsgewichtungen) 508. die von q1 und K1,2 erlernt wurden.
  • In einer Ausführungsform wird die CMRA definiert als: CMRA ( q 1 , K 1,2 , V 1,2 ) = Softmax ( q 1 ( K 1,2 ) T d m ) V 1,2 ,
    Figure DE112021004261T5_0022
    wobei ein Index 1 oder 2 verschiedene Modalitäten darstellt. Da q1 von Audio- oder visuellen Merkmalen stammt, wogegen K1,2 und V1,2 sowohl von Audio- als auch visuellen Merkmalen stammen, ermöglicht die CMRA das adaptive Erlernen sowohl von Intramodalitäts- als auch Intermodalitäts-Beziehungen zusammen mit einer Ausgeglichenheit zwischen ihnen. Ein einzelnes Segment von einer Modalität in der Videosequenz ermöglicht, nützliche Informationen von allen zugehörigen Segmenten von zwei Modalitäten auf Grundlage der erlernten Beziehungen zu erhalten, was das audiovisuelle Darstellungserlernen vereinfacht und ferner die Leistung einer AVE-Lokalisierung steigert.
  • Im Folgenden wird ein Beispiel einer konkreten Instanz von CMRA in einer AVE-Lokalisierung veranschaulicht. Ohne Einschränkung der Allgemeingültigkeit verwendet die folgende Beschreibung zu Veranschaulichungszwecken visuelle Merkmale als die Abfrage. In Bezug auf die Audio-Merkmale a = [a1,.., aT] ∈ ℝT×dm und die visuellen Merkmale v = [v1,..,vT] E ℝT×dm projizieren das Verfahren und/oder das System v in die Abfragemerkmale, die als F a , ν K T × d m
    Figure DE112021004261T5_0023
    mit einer linearen Transformation angegeben werden. Das Verfahren und/oder das System verketten dann zeitlich v mit a, um eine Raw-Arbeitsspeicherbasis ma,v ∈ ℝ2*Txdm zu erhalten. Danach wandeln das Verfahren und/oder das System ma,v in Schlüsselmerkmale F a , ν K 2 T × d m
    Figure DE112021004261T5_0024
    und Wertmerkmale F a , ν K 2 T × d m
    Figure DE112021004261T5_0025
    um. Eine grenzübergreifende Modalitäts-Aufmerksamkeitsausgabe vq wird berechnet als ν q = S o f t m a x ( F ν Q ( F a , ν K ) T d m ) F a , ν V , F ν Q = ν W Q , F a , ν K = m a , ν W K , F a , ν V = m a , ν W V , m a , ν = C o n c a t ( a , ν ) ,
    Figure DE112021004261T5_0026
    wobei WQ, WK, WV erlernbare Parameter mit Dimensionen von dm × dm sind. Obwohl in diesem Beispiel visuelle Merkmale zu Veranschaulichungszwecken als die Abfrage verwendet werden, wird angemerkt, dass die Audio-Merkmale als die Abfrage zum Nutzen von Beziehungen für Audio-Merkmale verwendet werden können. Im Vergleich kann eine Selbstaufmerksamkeit als ein CMRA-Sonderfall betrachtet werden, wenn der Arbeitsspeicher nur dieselben Modalitätsmerkmale wie die Abfrage enthält. In einer Ausführungsform kann die CMRA in einem im Folgenden beschriebenen beziehungsbewussten Modul umgesetzt werden.
  • Beziehungsbewusstes Modul
  • In einer Ausführungsform weist ein beziehungsbewusstes Modul (z.B. in 3 unter 318 und 320 gezeigt) ein grenzübergreifendes Modalitäts-Beziehungsmodul und einen internen zeitbezogenen Beziehungsblock auf, die jeweils mit Mcrma und Bself bezeichnet werden. 2 zeigt auch ein Beispiel für ein grenzübergreifendes Modalitäts-Beziehungsmodul unter 218 und 220 und einen internen zeitbezogenen Beziehungsblock unter 214 und 216 (der auch als Intramodalitäts-Beziehungsblock bezeichnet wird). In einer Ausführungsform enthält das Modul Mcrma den grenzübergreifenden Modalitätsbeziehungs-Aufmerksamkeitsmechanismus (CMRA) zum Nutzen von Beziehungen. Bself dient als Assistent von Mcrma. In einer Ausführungsform ist das beziehungsbewusste Video/Audio-Modul in einer beispielhaften Architektur ein beziehungsbewusstes Modul, das visuelle oder Audio-Merkmale als die Abfrage in der CMRA-Operation verwendet.
  • Zu Veranschaulichungszwecken werden visuelle Merkmale v ∈ ℝT×dv aus dem AGSCA-Modul als eine Abfrage verwendet (z.B. beziehungsbewusstes Video-Modul, gezeigt in 3 unter 318). Angesichts von visuellen Merkmalen, die eine Abfrage sein sollen, und Audio-Merkmalen a ∈ ℝT×da als Teil des Arbeitsspeichers, wandeln das Verfahren und/oder das System sie über lineare Schichten in einen allgemeinen Raum um. Zum Beispiel werden die umgewandelten visuellen und Audio-Merkmale jeweils als Fv und Fa, mit denselben Dimensionen T × dm bezeichnet. Anschließend nimmt Bself Fa als Eingabe, um interne zeitbezogene Beziehungen vorab zu untersuchen, wodurch sich Selbstaufmerksamkeits-Audio-Merkmale ergeben, bezeichnet als F a s .
    Figure DE112021004261T5_0027
    Mcrma nimmt Fv und F a s
    Figure DE112021004261T5_0028
    als Eingabe, um Intramodalitäts-Beziehungen und Intermodalitäts-Beziehungen für visuelle Merkmale mithilfe der CMRA zu untersuchen und führt zu beziehungsbewussten visuellen Merkmalen (z.B. gezeigt in 3 unter 322) als Ausgabe. Der gesamte Prozess kann zusammengefasst werden als v 0 = M c r m a ( F v , F a s ) , F a s = B s e l f ( F a ) , F a = a W a , F v = v W v ,
    Figure DE112021004261T5_0029
    wobei Wa ∈ ℝda×dm und Wv ∈ ℝdv×dm erlernbare Parameter sind. Grenzübergreifendes Modalitäts-Beziehungsmodul.
  • In einer Ausführungsform dient das grenzübergreifende Modalitäts-Beziehungsmodul Mcrma durch Verwenden der CMRA-Operation zum Nutzen von Intermodalitäts-Beziehungen zusammen mit Intramodalitäts-Beziehungen. In einer Ausführungsform führen das Verfahren und/oder das System die CMRA in einer Multihead-Einstellung durch als H = Concat ( h 1 , h n , ) W h , h i = CMRA ( F v W i Q , ( F v F a s ) W i K , ( F v F a s ) W i V )
    Figure DE112021004261T5_0030
    wobei || die zeitbezogene Verkettungsoperation bezeichnet, W i Q , W i K , W i V , W h V
    Figure DE112021004261T5_0031
    Parameter sind, die erlernt werden sollen, und n die Anzahl von parallelen CMRA-Modulen bezeichnet. Zum Vermeiden des Übertragungsverlusts von der CRMA können das Verfahren und/oder das System Fv als eine Restverbindung in H zusammen mit einer Schichtnormalisierung hinzufügen als H r = LayerNorm ( H + F v ) .
    Figure DE112021004261T5_0032
  • Um des Weiteren die Informationen von mehreren parallelen CMRA-Operationen zu vereinen, leiten das Verfahren und/oder das System über zwei lineare Schichten mit einer ReLU weiter. In einer Ausführungsform kann die ausführliche Berechnung einer Ausgabe angegeben werden als v o = LayerNorm ( O ƒ + H r ) , O ƒ = δ ( H r W 3 ) W 4 ,
    Figure DE112021004261T5_0033
    wobei δ die ReLU-Funktion angibt und W3 und W4, erlernbare Parameter von zwei linearen Schichten sind.
  • Interner zeitbezogener Beziehungsblock
  • In einer Ausführungsform ersetzen das Verfahren und/oder das System die CMRA mit Selbstaufmerksamkeit in Mcmra, um einen internen zeitbezogenen Beziehungsblock Bself zu erhalten. Der Block Bself konzentriert sich auf ein vorheriges Untersuchen der internen zeitbezogenen Beziehung für einen Teil von Arbeitsspeichermerkmalen, um sie in Mcmra zu unterstützen.
  • Audio-Video-Interaktionsmodul
  • Beziehungsbewusste Module geben grenzübergreifende modale beziehungsbewusste visuelle und akustische Darstellungen aus, die jeweils als v0 ∈ ℝT×dm und a0 ∈ ℝT×da bezeichnet werden, die zum Beispiel in 2 unter 222, 224 gezeigt werden und auch in 3 unter 322, 324 gezeigt werden. In einer Ausführungsform erhält ein Audio-Video-Interaktionsmodul eine umfassende Darstellung von zwei Modalitäten für einen oder mehrere Klassifizierer. In einer Ausführungsform versucht das Audio-Video-Interaktionsmodul die Resonanz zwischen visuellen und akustischen Kanälen zu erfassen, indem v0 mit a0 integriert wird.
  • In einer Ausführungsform vereinen das Verfahren und/oder das System v0 mit a0 mit elementweiser Multiplikation, um eine gemeinsame Darstellung dieser beiden Modalitäten zu erhalten, die als fav bezeichnet wird. Das Verfahren und/oder das System nutzen dann fav, um sich der visuellen Darstellung v0 und der akustischen Darstellung a0 zu widmen, wobei v0 und a0 getrennt visuelle und akustische Informationen für ein besseres visuelles Verständnis und eine bessere akustische Wahrnehmung liefern. Diese Operation kann als eine Variante von CMRA betrachtet werden, wobei die Abfrage eine Fusion der Arbeitsspeichermerkmale ist. Das Verfahren und/oder das System fügen dann eine Restverbindung und eine Schichtnormalisierung zu der Aufmerksamkeitsausgabe hinzu, ähnlich dem beziehungsbewussten Modul.
  • In einer Ausführungsform wird eine umfassende dualmodale Darstellung Oav wie folgt berechnet: O a v = L a y e r N o r m ( O + ƒ a v ) , O = C M R A ( ƒ a v W a , v Q , m W a , v K , m W a , v V ) , ƒ a v = a 0 v 0 ,
    Figure DE112021004261T5_0034
    wobei ⊙ eine elementweise Multiplikation bezeichnet und W a , v Q , W a , v K , W a , v V
    Figure DE112021004261T5_0035
    Parameter sind, die erlernt werden sollen.
    Überwachte und schwach überwachte audiovisuelle Ereignislokalisierung
  • Überwachte Lokalisierung
  • In einer Ausführungsform erhält das Audio-Video-Interaktionsmodul (z.B. gezeigt in 2 unter 226 und auch in 3 gezeigt unter 336) Merkmale Oav mit Dimensionen von T × dm. In einer Ausführungsform zerlegen das Verfahren und/oder das System die Lokalisierung in ein Vorhersagen von zwei Bewertungen. Eine ist die Konfidenzbewertung ŝt, die bestimmt, ob ein audiovisuelles Ereignis in dem t-ten Videosegment vorhanden ist. Die andere ist eine Ereigniskategoriebewertung ŝc ∈ℝC, wobei C die Anzahl von Vordergrundkategorien bezeichnet. Konfidenzbewertungen ŝ = [ŝ1, ...,ŝT] ∈ℝT werden berechnet als s ^ = σ ( O a v W s ) ,
    Figure DE112021004261T5_0036
    wobei Ws erlernbare Parameter sind und σ die Sigmoid-Funktion bezeichnet. Für die Kategoriebewertung ŝc führen das Verfahren und/oder das System in einer Ausführungsform ein Max-Pooling an den vereinten Merkmalen Oav aus, wodurch sich ein Merkmalsvektor oav ∈ ℝ1×dm ergibt.
  • Ein Ereigniskategorie-Klassifizierer (z.B. gezeigt in 3 unter 330) verwendet Oav als Eingabe, um eine Ereigniskategorie-Bewertung ŝc vorherzusagen: s ^ c = S o f t m a x ( O a v W c ) ,
    Figure DE112021004261T5_0037
    wobei Wc eine Parametermatrix ist, die erlernt werden soll.
  • Während der Inferenzphase wird die endgültige Vorhersage durch ŝ und ŝc bestimmt. Wenn ŝt ≥ 0,5, wird für das t-te Segment vorhergesagt, dass es mit einer Ereigniskategorie gemäß ŝc ereignisrelevant ist. Wenn ŝt < 0,5, wird das t-te Segment als Hintergrund vorhergesagt.
  • In der Schulung können das System und/oder das Verfahren die Kennzeichnungen auf Segmentebene haben, einschließlich ereignisrelevanten Kennzeichnungen und Ereigniskategorie-Kennzeichnungen. Die gesamte Zielfunktion ist eine Summierung eines grenzübergreifenden Entropie-Verlustes für eine Ereignisklassifizierung und eines binären grenzübergreifender Entropie-Verlusts für eine ereignisrelevante Vorhersage.
  • Schwach überwachte Lokalisierung
  • In der schwach überwachten Weise können das Verfahren und/oder das System auch ŝ und ŝc wie oben beschrieben vorhersagen. Da das Verfahren und/oder das System in einem Aspekt möglicherweise nur Zugriff auf die Kennzeichnungen auf Video-Ebene haben, können das Verfahren und/oder das System ŝc T-fach und ŝ C-fach duplizieren und sie anschließend über eine elementweise Multiplikation vereinen, woraus sich Verbindungsbewertungen ŝƒ ∈ℝT×C ergeben. In einer Ausführungsform können das Verfahren und/oder das System dieses Problem als ein Problem für mehrfaches Instanz-Erlernen (MIL) formulieren und Vorhersagen auf Segmentebene ŝƒ aggregieren, um eine Vorhersage auf Video-Ebene durch MIL-Pooling während des Schulens zu erhalten. Während einer Inferenz kann der Vorhersageprozess derselbe wie derjenige der überwachen Aufgabe sein.
  • Zum Beispiel können Schulungseinstellungen eine Einstellung der verborgenen Dimension dm in dem beziehungsbewussten Modul als 256 umfassen. Für die CMRA und Selbstaufmerksamkeit in beziehungsbewussten Modulen können das System und/oder das Verfahren die Anzahl von parallelen Köpfen auf 4 einstellen. Die Stapelgröße beträgt 32. Zum Beispiel können das Verfahren und/oder das System Adam als einen Optimierer zum iterativen Aktualisieren von Gewichtungen eines neuronalen Netzwerks auf Grundlage von Schulungsdaten anwenden. Zum Beispiel können das Verfahren und/oder das System das ursprüngliche Erlernen auf 5 × 10-4 einstellen und allmählich durch Multiplizieren mit 0,5 in Zeitabschnitten 10, 20 und 30 verfallen lassen. Ein anderer Optimierer kann verwendet werden.
  • 6 zeigt ein beispielhaftes Lokalisierungsergebnis, das durch das Verfahren und/oder System in einer Ausführungsform ausgegeben wird. Das Verfahren und/oder das System sagen die Ereigniskategorie für jedes Segment korrekt vorher (z.B. als Hintergrund (BG) oder Katzenschreie) und lokalisieren das Ereignis der Katzenschreie daher genau.
  • 7 ist ein Ablaufplan, der ein Verfahren für eine audiovisuelle Ereignislokalisierung in einer Ausführungsform veranschaulicht. Ein dualmodales Beziehungsnetzwerk, wie hierin beschrieben, kann in Ausführungsformen eine Lokalisierung eines audiovisuellen Ereignisses durchführen. Das Verfahren kann von oder auf einem oder mehreren Prozessoren, wie zum Beispiel Hardware-Prozessoren ausgeführt werden. In einem Schritt 702 umfasst das Verfahren ein Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung. In einem Schritt 704 umfasst das Verfahren auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds auch ein Bestimmen von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks. Zum Beispiel kann ein audiogesteuertes visuelles Aufmerksamkeitsmodul, das das erste neuronale Netzwerk umfassen kann, ausgeführt werden.
  • In einem Schritt 706 kann das Verfahren auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, ein Bestimmen von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks umfassen. In einem Schritt 708 kann das Verfahren auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, ein Bestimmen von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks umfassen. Zum Beispiel können das Intramodalitäts-Modul und das Intermodalitäts-Modul (z.B. oben unter Bezugnahme auf 214, 216, 218 und 220 in 2 beschrieben) umgesetzt und/oder ausgeführt werden. In Ausführungsformen verwendet das zweite neuronale Netzwerk sowohl zeitbezogene Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale. In Ausführungsformen verwendet das dritte neuronale Netzwerk sowohl zeitbezogene Informationen in den Audio-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale.
  • In einem Schritt 710 umfasst das Verfahren ein Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks. Zum Beispiel kann ein Audio-Video-Interaktionsmodul (wie z.B. oben unter Bezugnahme auf 226 beschrieben) umgesetzt und/oder ausgeführt werden.
  • In einem Schritt 712 umfasst das Verfahren ein Eingeben der dualmodalen Darstellung in einen Klassifizierer, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren. In einer Ausführungsform wird die dualmodale Darstellung als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet. Der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, kann ein Identifizieren einer Position in dem Video-Feed, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses umfassen.
  • In einer Ausführungsform kann ein neuronales Faltungsnetzwerk (das z.B. zur Erklärung als ein erstes neuronales Faltungsnetzwerk bezeichnet wird) mit mindestens einem Video-Abschnitt des Video-Feeds ausgeführt werden, um die Video-Merkmale zu extrahieren. In einer Ausführungsform kann ein neuronales Faltungsnetzwerk (das z.B. zur Erklärung als ein zweites neuronales Faltungsnetzwerk bezeichnet wird) mit mindestens einem Audio-Abschnitt des Video-Feeds ausgeführt werden, um die Audio-Merkmale zu extrahieren.
  • 8 ist eine Darstellung, die Komponenten eines Systems in einer Ausführungsform zeigt, die dualmodale Beziehungsnetzwerke zur audiovisuellen Ereignislokalisierung umsetzen kann. Ein oder mehrere Hardware-Prozessoren 802, wie beispielsweise eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU) und/oder ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC) und/oder ein anderer Prozessor können mit einer Arbeitsspeichereinheit 804 verbunden werden, dualmodale Beziehungsnetzwerke umsetzen und eine audiovisuelle Ereignislokalisierung durchführen. Eine Arbeitsspeichereinheit 804 kann einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM) oder eine andere Arbeitsspeichereinheit umfassen und kann Daten und/oder Prozessoranweisungen zum Umsetzen verschiedener Funktionalitäten speichern, die den hierin beschriebenen Verfahren und/oder Systemen zugehörig sind. Ein oder mehrere Prozessoren 802 können Computeranweisungen ausführen, die in dem Arbeitsspeicher 804 gespeichert sind oder von einer anderen Computereinheit oder einem anderen Medium empfangen werden. Die Arbeitsspeichereinheit 804 kann zum Beispiel Anweisungen und/oder Daten für eine Funktionsweise von einem oder mehreren Hardware-Prozessoren 802 speichern und kann ein Betriebssystem und andere Anweisungsprogramme und/oder Daten umfassen. Ein oder mehrere Hardware-Prozessoren 802 können eine Eingabe empfangen, die einen Video-Feed umfasst, aus dem z.B. Video- und Audio-Merkmale extrahiert werden können. Zum Beispiel kann mindestens ein Hardware-Prozessor 802 eine audiovisuelle Ereignislokalisierung durch Verwenden von Verfahren und Techniken durchführen, die hierin beschrieben werden. In einem Aspekt können Daten wie zum Beispiel eingegebene Daten und/oder intermediäre Daten in einer Speichereinheit 806 gespeichert oder über eine Netzwerkschnittstelle 808 von einer entfernt angeordneten Einheit empfangen werden und können temporär zum Umsetzen der dualmodalen Beziehungsnetzwerke und Durchführen der audiovisuellen Ereignislokalisierung in eine Arbeitsspeichereinheit 804 geladen werden. Die erlernten Modelle, wie zum Beispiel neuronale Netzwerkmodelle in den dualmodalen Beziehungsnetzwerken, können auf einer Arbeitsspeichereinheit 804 zum Beispiel zur Ausführung durch den einen oder die mehreren Hardware-Prozessoren 802 gespeichert werden. Ein oder mehrere Hardware-Prozessoren 802 können mit Schnittstelleneinheiten, wie zum Beispiel einer Netzwerkschnittstelle 808, für einen Datenaustausch mit entfernt angeordneten Systemen, zum Beispiel über ein Netzwerk, und eine Eingabe/Ausgabe-Schnittstelle 810 für einen Datenaustausch mit Eingabe- und/oder Ausgabeeinheiten verbunden werden, wie zum Beispiel eine Tastatur, Maus, Anzeige und/oder anderes.
  • 9 veranschaulicht einen Schemaplan eines beispielhaften Computers oder Verarbeitungssystems, der bzw. das ein System von dualmodalen Beziehungsnetzwerken in einer Ausführungsform umsetzen kann. Das Computersystem ist nur ein Beispiel für ein geeignetes Verarbeitungssystem und soll keinerlei Einschränkung in Bezug auf den Schutzumfang der Verwendung oder die Funktionalität von Ausführungsformen der hierin beschriebenen Methodik andeuten. Das gezeigte Verarbeitungssystem kann mit zahlreichen weiteren Umgebungen oder Konfigurationen für Universal- oder Sonder-Datenverarbeitungssysteme betriebsfähig sein. Zu Beispielen für bekannte Datenverarbeitungssysteme, Umgebungen und/oder Konfigurationen, die für eine Verwendung mit dem in 9 gezeigten Verarbeitungssystem geeignet sein können, können PC-Systeme, Servercomputersysteme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Multiprozessorsysteme, Systeme auf Grundlage von Mikroprozessoren, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputersysteme, Mainframe-Computersysteme und verteilte Cloud-Computing-Umgebungen zählen, die beliebige der oben genannten Systeme oder Einheiten und dergleichen aufweisen, sie sind aber nicht darauf beschränkt.
  • Das Computersystem kann in dem allgemeinen Kontext von Anweisungen beschrieben werden, die durch ein Computersystem ausführbar sind, wie beispielsweise Programmmodule, die von einem Computersystem ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. enthalten, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen umsetzen. Das Computersystem kann in verteilten Cloud-Computing-Umgebungen betrieben werden, wobei Aufgaben von entfernt angeordneten Verarbeitungseinheiten ausgeführt werden, die über ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Cloud-Computing-Umgebung können Programmmodule sich sowohl in lokalen als auch entfernt angeordneten Computersystem-Speichermedien befinden, die Arbeitsspeicher-Speichereinheiten enthalten.
  • Die Komponenten des Computersystems können einen oder mehrere Prozessoren oder Verarbeitungseinheiten 12, einen Systemarbeitsspeicher 16 und einen Bus 14 enthalten, der verschiedene Systemkomponenten einschließlich eines Systemarbeitsspeichers 16 mit dem Prozessor 12 verbindet, sie sind aber nicht darauf beschränkt. Der Prozessor 12 kann ein oder mehrere Module 30 enthalten, das bzw. die die hierin beschriebenen Verfahren ausführt bzw. ausführen. Das Modul 30 kann in die integrierten Schaltungen des Prozessors 12 programmiert werden oder aus dem Arbeitsspeicher 16, der Speichereinheit 18 oder dem Netzwerk 24 oder Kombinationen davon geladen werden.
  • Der Bus 14 kann einen oder mehrere von mehreren beliebigen Typen von Busstrukturen darstellen, einschließlich eines Arbeitsspeicherbusses oder Arbeitsspeicher-Controllers, eines Peripheriebusses, eines Accelerated Graphics Port (beschleunigter Grafikanschluss) und eines Prozessors oder lokalen Busses unter Verwendung von einer aus einer Vielfalt von Busarchitekturen. Als Beispiel und nicht einschränkend umfassen derartige Architekturen einen Industry Standard Architecture- (ISA) Bus, Micro Channel Architecture-(MCA) Bus, Enhanced ISA- (EISA) Bus, einen lokalen Video Electronics Standards Association-(VESA) Bus und Peripheral Component Interconnect- (PCI) Bus.
  • Das Computersystem kann eine Vielfalt von Medien enthalten, die von einem Computersystem gelesen werden können. Derartige Medien können alle verfügbaren Medien sein, auf die von dem Computersystem zugegriffen werden kann, und sie können sowohl flüchtige als auch nicht flüchtige Medien, austauschbare und nicht austauschbare Medien enthalten.
  • Der Systemarbeitsspeicher 16 kann vom Computersystem lesbare Medien in der Form von flüchtigem Arbeitsspeicher enthalten wie beispielsweise einen Direktzugriffspeicher (RAM) und/oder einen Cache-Speicher oder sonstige. Das Computersystem kann ferner weitere austauschbare/nicht austauschbare, flüchtige/nicht flüchtige Computersystem-Speichermedien enthalten Nur als Beispiel kann das Speichersystem 18 zum Lesen von und Schreiben auf einen nicht austauschbaren, nicht flüchtigen Magnetdatenträger bereitgestellt werden (z.B. eine „Festplatte“). Obwohl nicht gezeigt, kann ein Magnetplattenlaufwerk zum Auslesen und Beschreiben einer austauschbaren, nicht flüchtigen Magnetplatte (z.B. eine „Diskette“) und ein optisches Plattenlaufwerk zum Auslesen oder Beschreiben einer austauschbaren, nicht flüchtigen optischen Platte wie einem CD-ROM, DVD-ROM oder andere optische Datenträger bereitgestellt werden. In solchen Fällen können alle über eine oder mehrere Datenträgerschnittstellen mit dem Bus 14 verbunden werden.
  • Das Computersystem kann auch mit einer oder mehreren externen Einheiten 26 Daten austauschen, wie zum Beispiel einer Tastatur, einer Zeigeeinheit, einer Anzeige 28 usw.; einer oder mehreren Einheiten, die es einem Benutzer ermöglichen, mit dem Computersystem 12 zu interagieren; und/oder allen Einheiten (z.B. Netzwerkkarte, Modem usw.), die es dem Computersystem 12 ermöglichen, mit einer oder mehreren anderen Datenverarbeitungseinheiten Daten auszutauschen. Ein derartiger Datenaustausch kann über Eingabe-/Ausgabe- (E/A) Schnittstellen 20 erfolgen.
  • Weiterhin kann das Computersystem mit einem oder mehreren Netzwerken 24, wie beispielsweise einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet), über einen Netzwerkadapter 22 Daten austauschen Wie dargestellt, tauscht der Netzwerkadapter 22 mit den anderen Komponenten des Computersystems über den Bus 14 Daten aus. Es sollte klar sein, dass, obwohl nicht gezeigt, andere Hardware- und/oder Software-Komponenten in Verbindung mit dem Computersystem verwendet werden könnten. Zu Beispielen zählen: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerk-Arrays, RAID-Systeme, Bandlaufwerke und Speichersysteme zur Datenarchivierung usw., ohne auf diese beschränkt zu sein.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailintegrationsebene handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zum Ausführen von Anweisungen beibehalten und speichern kann. Das durch einen Computer lesbare Speichermedium kann zum Beispiel eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiter-Speichereinheit oder jede geeignete Kombination aus dem Vorgenannten sein, es ist aber nicht darauf beschränkt. Zu einer nicht erschöpfenden Liste von spezifischeren Beispielen des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD, ein Arbeitsspeicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination des Vorgenannten. Ein durch einen Computer lesbares Speichermedium soll, wie hierin verwendet, nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder andere Übertragungsmedien ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben sind, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch jeden Typ von Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, feldprogrammierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Veranschaulichungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es sollte klar sein, dass jeder Block der Ablaufplanveranschaulichungen und/oder der Blockschaubilder und Kombinationen von Blöcken in den Ablaufplanveranschaulichungen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen umgesetzt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können für einen Prozessor eines Computers oder eine andere programmierbare Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. eine andere programmierbare Datenverarbeitungsvorrichtung ausgeführten Anweisungen Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte erstellen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Arbeitsschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Umsetzen der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Umsetzungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt auftreten. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich als ein Schritt erreicht werden, der gleichzeitig, im Wesentlichen gleichzeitig, in einer teilweise oder vollständig zeitlich überlappenden Weise ausgeführt wird, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufplandarstellungen sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplandarstellung durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die angegebenen Funktionen oder Handlungen durchführen oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Die hierin verwendete Terminologie dient nur zum Zweck der Beschreibung von bestimmten Ausführungsformen und soll die Erfindung keinesfalls einschränken. Die hierin verwendeten Singularformen „ein“, „eine“ und „der/die/das“ sollen auch die Pluralformen mit einschließen, es sei denn, der Kontext gibt eindeutig anderes vor. Wie hierin verwendet, ist der Begriff „oder“ ein inklusiver Operator und kann „und/oder“ bedeuten, sofern der Kontext nicht explizit oder ausdrücklich etwas anderes angibt. Es versteht sich ferner, dass die Begriffe „aufweisen“, „weist auf“, „aufweisend“, „umfassen“, „umfasst“, „umfassend“, und/oder „mit“, wenn sie hierin verwendet werden, das Vorhandensein ausgewiesener Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben können, das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon aber nicht ausschließen. Wie hierin verwendet, verweist der Ausdruck „in einer Ausführungsform“ nicht notwendigerweise auf dieselbe Ausführungsform, obwohl dies möglich ist. Wie hierin verwendet, verweist der Ausdruck „bei einer Ausführungsform“ nicht notwendigerweise auf dieselbe Ausführungsform, obwohl dies möglich ist. Wie hierin verwendet, verweist der Ausdruck „in einer weiteren Ausführungsform“ nicht notwendigerweise auf eine verschiedene Ausführungsform, obwohl dies möglich ist. Ferner können Ausführungsformen und/oder Komponenten von Ausführungsformen frei miteinander kombiniert werden, es sei denn, sie schließen sich wechselseitig aus.
  • Die entsprechenden Strukturen, Materialien, Handlungen und Entsprechungen aller Mittel oder Schritt-plus-Funktion-Elemente, sofern vorhanden, in den nachstehenden Ansprüchen sollen alle Strukturen, Materialien oder Handlungen zum Ausführen der Funktion in Kombination mit anderen beanspruchten Elementen enthalten, wie speziell beansprucht. Die Beschreibung der vorliegenden Erfindung wurde zum Zweck der Veranschaulichung und Beschreibung erstellt, sie soll aber keineswegs erschöpfend oder auf die offenbarte Form der Erfindung eingeschränkt sein. Für Fachleute sind viele Modifizierungen und Variationen offenkundig, die nicht von dem Schutzumfang der Erfindung abweichen. Die Ausführungsform wurde ausgewählt und beschrieben, um Grundgedanken der Erfindung und die praktische Anwendung am besten zu erklären und es anderen Fachleuten zu ermöglichen, die Erfindung für verschiedene Ausführungsformen mit verschiedenen Modifizierungen zu verstehen, die für die vorgesehene bestimmte Verwendung geeignet sind.

Claims (20)

  1. System, das aufweist: einen Hardware-Prozessor; einen Arbeitsspeicher, der mit dem Hardware-Prozessor verbunden ist; wobei der Hardware-Prozessor konfiguriert ist zum: Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung; Bestimmen, auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds, von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks; Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks; Eingeben der dualmodalen Darstellung in einen Klassifizierer, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.
  2. System nach Anspruch 1, wobei der Hardware-Prozessor ferner konfiguriert ist, ein erstes neuronales Faltungsnetzwerk mit mindestens einem Video-Abschnitt des Video-Feeds auszuführen, um die Video-Merkmale zu extrahieren.
  3. System nach Anspruch 1, wobei der Hardware-Prozessor ferner konfiguriert ist, ein zweites neuronales Faltungsnetzwerk mit mindestens einem Audio-Abschnitt des Video-Feeds auszuführen, um die Audio-Merkmale zu extrahieren.
  4. System nach Anspruch 1, wobei die dualmodale Darstellung als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet wird.
  5. System nach Anspruch 1, wobei der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, ein Identifizieren einer Position in dem Video-Feed, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses aufweist.
  6. System nach Anspruch 1, wobei das zweite neuronale Netzwerk sowohl zeitliche Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale verwendet.
  7. System nach Anspruch 1, wobei das dritte neuronale Netzwerk sowohl zeitliche Informationen in den Audio-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale verwendet.
  8. Durch einen Computer umgesetztes Verfahren, das aufweist: Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung; Bestimmen, auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds, von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks; Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks; Eingeben der dualmodalen Darstellung in einen Klassifizierer, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.
  9. Verfahren nach Anspruch 8, das ferner ein Ausführen eines ersten neuronalen Faltungsnetzwerks mit mindestens einem Video-Abschnitt des Video-Feeds aufweist, um die Video-Merkmale zu extrahieren.
  10. Verfahren nach Anspruch 8, das ferner ein Ausführen eines zweiten neuronalen Faltungsnetzwerks mit mindestens einem Audio-Abschnitt des Video-Feeds aufweist, um die Audio-Merkmale zu extrahieren.
  11. Verfahren nach Anspruch 8, wobei die dualmodale Darstellung als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet wird.
  12. Verfahren nach Anspruch 8, wobei der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, ein Identifizieren einer Position in dem Video-Feed, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses aufweist.
  13. Verfahren nach Anspruch 8, wobei das zweite neuronale Netzwerk sowohl zeitliche Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale verwendet.
  14. Verfahren nach Anspruch 8, wobei das dritte neuronale Netzwerk sowohl zeitliche Informationen in den Audio-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale verwendet.
  15. Computerprogrammprodukt, das ein durch einen Computer lesbares Speichermedium mit darauf verkörperten Programmanweisungen aufweist, wobei die Programmanweisungen durch eine Einheit lesbar/ausführbar sind, um die Einheit zu veranlassen zum: Empfangen eines Video-Feeds zur audiovisuellen Ereignislokalisierung; Bestimmen, auf Grundlage einer Kombination von extrahierten Audio-Merkmalen und Video-Merkmalen des Video-Feeds, von informativen Merkmalen und Bereichen in dem Video-Feed durch Ausführen eines ersten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Video-Merkmalen durch Ausführen eines zweiten neuronalen Netzwerks; Bestimmen, auf Grundlage der informativen Merkmale und Bereiche in dem Video-Feed, die durch das erste neuronale Netzwerk bestimmt wurden, von beziehungsbewussten Audio-Merkmalen durch Ausführen eines dritten neuronalen Netzwerks; Erhalten einer dualmodalen Darstellung auf Grundlage der beziehungsbewussten Video-Merkmale und der beziehungsbewussten Audio-Merkmale durch Ausführen eines vierten neuronalen Netzwerks; und Eingeben der dualmodalen Darstellung in einen Klassifizierer, um ein audiovisuelles Ereignis in dem Video-Feed zu identifizieren.
  16. Computerprogrammprodukt nach Anspruch 15, wobei die Einheit ferner veranlasst wird, ein erstes neuronales Faltungsnetzwerk mit mindestens einem Video-Abschnitt des Video-Feeds auszuführen, um die Video-Merkmale zu extrahieren.
  17. Computerprogrammprodukt nach Anspruch 15, wobei die Einheit ferner veranlasst wird, ein zweites neuronales Faltungsnetzwerk mit mindestens einem Audio-Abschnitt des Video-Feeds auszuführen, um die Audio-Merkmale zu extrahieren.
  18. Computerprogrammprodukt nach Anspruch 15, wobei die dualmodale Darstellung als eine letzte Schicht des Klassifizierers beim Identifizieren des audiovisuellen Ereignisses verwendet wird.
  19. Computerprogrammprodukt nach Anspruch 15, wobei der Klassifizierer, der das audiovisuelle Ereignis in dem Video-Feed identifiziert, ein Identifizieren einer Position in dem Video-Feed, an der das audiovisuelle Ereignis auftritt, und einer Kategorie des audiovisuellen Ereignisses aufweist.
  20. Computerprogrammprodukt nach Anspruch 15, wobei das zweite neuronale Netzwerk sowohl zeitbezogene Informationen in den Video-Merkmalen als auch grenzübergreifende Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Video-Merkmale verwendet, und das dritte neuronale Netzwerk sowohl zeitbezogene Informationen in den Audio-Merkmalen als auch die grenzübergreifenden Modalitätsinformationen zwischen den Video-Merkmalen und den Audio-Merkmalen beim Bestimmen der beziehungsbewussten Audio-Merkmale verwendet.
DE112021004261.0T 2020-08-10 2021-07-05 Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung Pending DE112021004261T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/989,387 2020-08-10
US16/989,387 US11663823B2 (en) 2020-08-10 2020-08-10 Dual-modality relation networks for audio-visual event localization
PCT/CN2021/104443 WO2022033231A1 (en) 2020-08-10 2021-07-05 Dual-modality relation networks for audio-visual event localization

Publications (1)

Publication Number Publication Date
DE112021004261T5 true DE112021004261T5 (de) 2023-05-25

Family

ID=80114598

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021004261.0T Pending DE112021004261T5 (de) 2020-08-10 2021-07-05 Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung

Country Status (6)

Country Link
US (1) US11663823B2 (de)
JP (1) JP2023537705A (de)
CN (1) CN116171473A (de)
DE (1) DE112021004261T5 (de)
GB (1) GB2613507A (de)
WO (1) WO2022033231A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220083781A1 (en) * 2020-09-17 2022-03-17 Nec Laboratories America, Inc. Rule enabled compositional reasoning system
US20220188549A1 (en) * 2020-12-16 2022-06-16 Istreamplanet Co., Llc Context aware word cloud for context oriented dynamic actions
US11817081B2 (en) * 2021-03-31 2023-11-14 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
KR20230032317A (ko) * 2021-08-30 2023-03-07 한국전자통신연구원 비디오 의미 구간 검출 방법 및 시스템
CN114743183A (zh) * 2022-04-11 2022-07-12 华南理工大学 一种驾驶员行为识别方法、系统、装置及存储介质
US20240119580A1 (en) * 2022-10-10 2024-04-11 International Business Machines Corporation Underwater machinery performance analysis using surface sensors
CN115620110B (zh) * 2022-12-16 2023-03-21 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN116310975A (zh) * 2023-03-14 2023-06-23 北京邮电大学 一种基于一致片段选择的视听事件定位方法
CN116821381B (zh) * 2023-08-30 2023-12-01 北京科技大学 一种基于空间线索的语音-图像跨模态检索方法及装置
CN117877504B (zh) * 2024-03-11 2024-05-24 中国海洋大学 一种联合语音增强方法及其模型搭建方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US8510252B1 (en) 2007-12-07 2013-08-13 Google, Inc. Classification of inappropriate video content using multi-scale features
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
CN102436483A (zh) 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
CN106503723A (zh) 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
US10964326B2 (en) 2016-02-16 2021-03-30 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and method for audio-visual speech recognition
CN108804453B (zh) 2017-04-28 2020-06-02 深圳荆虹科技有限公司 一种视音频识别方法及装置
CN109147763B (zh) 2018-07-10 2020-08-11 深圳市感动智能科技有限公司 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN109522450B (zh) 2018-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN111292765B (zh) 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法

Also Published As

Publication number Publication date
US11663823B2 (en) 2023-05-30
CN116171473A (zh) 2023-05-26
WO2022033231A1 (en) 2022-02-17
US20220044022A1 (en) 2022-02-10
GB202303454D0 (en) 2023-04-26
JP2023537705A (ja) 2023-09-05
GB2613507A (en) 2023-06-07

Similar Documents

Publication Publication Date Title
DE112021004261T5 (de) Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung
Xuan et al. Cross-modal attention network for temporal inconsistent audio-visual event localization
Ramaswamy et al. See the sound, hear the pixels
DE102020102230A1 (de) Missbrauchsindex für erklärbare künstliche intelligenz in computerumgebungen
EP3557487B1 (de) Generieren von validierungsdaten mit generativen kontradiktorischen netzwerken
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
DE112021002867T5 (de) Defektdetektion für eine leiterplattenbaugruppe
EP3847578A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE112021006232T5 (de) Proaktive anomalieerkennung
DE102022107186A1 (de) Generatorausnutzung zur deepfake-detektion
DE102021207269A1 (de) Verfahren und system zum erlernen von perturbationsmengen beim maschinenlernen
DE112018007236T5 (de) Verfahren und vorrichtung zum erzeugen eines dreidimensionalen (3d) modells zur rekonstruktion einer 3d-szene
DE112021006280T5 (de) Generieren von daten auf grundlage von vorab trainierten modellen unter verwendung generierender konkurrierender modelle
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung
DE112021005678T5 (de) Normieren von OCT-Bilddaten
DE112018001711T5 (de) Generator von Unterrichtsnotizen auf Blickrichtungsgrundlage
DE112021003680T5 (de) Deterministisch lernende videoszenenerkennung
DE112020000172T5 (de) Beantworten von kognitiven abfragen von sensoreingabesignalen
DE112021005482T5 (de) Ar- (augmented reality) gestützte selektive geräuscheinbindung aus der umgebung während der ausführung eines sprachbefehls
DE112021003999T5 (de) Kontextsensitive anomalieerkennung
DE102021128522A1 (de) Identifizierung von regeln des netzwerkdatenverkehrs
DE102021123284A1 (de) Automatisierte erzeugung von plänen für selbstgeleitete augmented-reality-sitzungen aus ferngeleiteten augmented-reality-sitzungen
DE112021003010T5 (de) Automatisierte datenverknüpfungen zwischen datensätzen
DE112021000178T5 (de) Erzeugen von synchronisierten tönen aus videos

Legal Events

Date Code Title Description
R012 Request for examination validly filed