DE112021005070T5

DE112021005070T5 - Multi-hop-transformer für räumlich-zeitliches denken und lokalisierung

Info

Publication number: DE112021005070T5
Application number: DE112021005070.2T
Authority: DE
Inventors: Asim Kadav; Farley Lai; Hans Peter Graf; Alexandru Niculescu-Mizil; Renqiang Min; Honglu Zhou
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-09-28
Filing date: 2021-09-02
Publication date: 2023-07-13
Also published as: JP7466760B2; JP2023543120A; US11741712B2; US20220101007A1; WO2022066388A1

Abstract

Es wird ein Verfahren zum Verwenden eines Frameworks für ein Multi-Hop-Denken zur Durchführung eines mehrstufigen kompositorischen Langzeitdenkens präsentiert. Das Verfahren enthält ein Extrahieren (1 001) von Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN), ein Durchführen (1003) von Lernen und Detektion von Objektdarstellungen, ein Verknüpfen (1 005) von Objekten durch eine Zeit durch Verfolgung, um Objektspuren und Bildmerkmalsspuren zu erzeugen, ein Zuführen (1007) der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer verfolgt, der über Frames im Videostream hüpft bzw. springt, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer bei einer richtigen Antwort ankommt, und Verwenden (1009) von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.

Description

INFORMATION ÜBER VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der am 28. September 2020 eingereichten vorläufigen Anmeldung Nr. 63/084,066 und der am 1. September 2021 eingereichten US-Patentanmeldung Nr. 1 7/463, 757 , die hierin jeweils in ihrer Gesamtheit durch Bezugnahme enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft eine Lokalisierung von Objekten in Videos und insbesondere einen Multi-Hop-Transformer für räumlich-zeitliches Denken und Lokalisierung.
Beschreibung des zugehörigen Standes der Technik
Denken, ein algebraisches Manipulieren zuvor erlangten Wissens, um eine neue Frage zu beantworten, ist der Kern des nächsten Meilensteins bei künstlicher Intelligenz Ein Bewegen von Wahrnehmung und statistischer Abbildung zu bewusstem Denken und nicht-oberflächlichem Verstehen, ein Bilden von Modellen, die denken bzw. argumentieren können, werden helfen, Einschränkungen aktueller lernbasierter Systeme zu beheben.
ZUSAMMENFASSUNG
Es wird ein Verfahren zur Verwendung eines Frameworks für Multi-Hop-Denken, um mehrstufiges kompositorisches Langzeitdenken durchzuführen, präsentiert. Das Verfahren enthält eine Extrahieren von Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN (= Convolutional Neural Network)), ein Durchführen von Lernen und Detektion von Objektdarstellungen, ein Verknüpfen von Objekten über eine Zeit über Verfolgen, um Objektspuren und Bildmerkmalsspuren zu erzeugen, ein Zuführen der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer zu einer richtigen Antwort kommt, und ein Verwenden von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Es wird ein nichtflüchtiges computerlesbares Speichermedium präsentiert, das ein computerlesbares Programm zur Verwendung eines Frameworks für Multi-Hop-Denken, um mehrstufiges kompositorisches Langzeitdenken durchzuführen, umfasst. Das computerlesbare Programm veranlasst dann, wenn es auf einem Computer ausgeführt wird, dass der Computer die folgenden Schritte durchführt: Extrahieren von Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN (= Convolutional Neural Network)), Durchführen von Lernen und Erkennen von Objektdarstellungen, Verknüpfen von Objekten über eine Zeit über Verfolgen, um Objektspuren und Bildmerkmalsspuren zu erzeugen, Zuführen der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer zu einer richtigen Antwort kommt, und Verwenden von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Es wird ein System zur Verwendung eines Frameworks für Multi-Hop-Denken, um mehrstufiges kompositorisches Langzeitdenken durchzuführen, präsentiert. Das System enthält einen Speicher und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, konfiguriert, um Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN (= Convolutional Neural Network)) zu extrahieren, Lernen und Detektion von Objektdarstellungen durchzuführen, Objekte über eine Zeit über Verfolgen zu verknüpfen, um Objektspuren und Bildmerkmalsspuren zu erzeugen, die Objektspuren und die Bildmerkmalsspuren zu einem Multi-Hop-Transformer zuzuführen, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer zu einer richtigen Antwort kommt, und Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext zu verwenden, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:

1 ein Block-/Flussdiagramm eines Vergleichs zwischen einem herkömmlichen System und dem beispielhaften System, das den Multi-Hop-Transformer gemäß Ausführungsformen der vorliegenden Erfindung verwendet, ist;
2 ein Block-/Flussdiagramm eines beispielhaften Frameworks eines Hoppers gemäß Ausführungsformen der vorliegenden Erfindung ist;
3 ein Block-/Flussdiagramm eines ersten Teilbereichs einer beispielhaften Architektur des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung ist;
4 ein Block-/Flussdiagramm eines zweiten Teilbereichs einer beispielhaften Architektur des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung ist;
5 eine bespielhafte praktische Anwendung zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung ist;
6 ein beispielhaftes Verarbeitungssystem zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung ist; und
7 ein Block-/Flussdiagramm eines beispielhaften Verfahrens zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung ist.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Lernen und Argumentieren bzw. Denken sind zwei wesentliche Fähigkeiten, die mit Intelligenz assoziiert sind. Zwischen den beiden wird die statistische Natur von Lernen viel besser verstanden und markiert den großen Fortschritt bei der künstlichen Intelligenz über die letzten Jahrzehnte. Ein Menge an Maschinenlernmethoden wurde entwickelt, um Aufgaben durch Lernen der statistischen Korrelation in Bezug auf die Daten zu lösen. Maschinen mit nur der Fähigkeit, eine Korrelation abzubilden und lernen zu können, haben jedoch nicht zu vernachlässigende Nachteile. Zum Beispiel können sie leicht durch statistische gefälschte bzw. falsche Muster und unerwünschte Ausrichtungen bzw. Wahrnehmungsverzerrungen in Bezug auf Datensätze getäuscht werden. Darüber hinaus haben Forscher bei einem anderen Beispiel herausgefunden, dass Modelle die Handlung bzw. Aktion, z.B. „Schwimmen“, selbst dann erkennen können, wenn der Handelnde bzw. Akteur maskiert ist, weil sich die Modelle auf das blaue Schwimmbad, die Szenenausrichtung, anstatt auf die Dynamik des Akteurs verlassen. Solche Modelle sind in Bezug auf I nterpretierbarkeit, Robustheit, Vielseitigkeit, Zuverlässigkeit und Verallgemeinerung begrenzt und somit ungünstig. Auf der anderen Seite hat sich die Natur von Denken als exklusiver und näher am Kern von Intelligenz erwiesen.
Denken ist, für Menschen, die Fähigkeit, Wissensentitäten bzw. -einheiten in Bezug auf Beziehungen zu manipulieren. Menschen führen unbewusst immer ein Denken durch. Zum Beispiel werden Menschen, anstatt nur Objekte zu erkennen, ein Verstehen von Beziehungen zwischen ihnen ausbilden bzw. entwickeln. Menschen müssen über die Bedeutung hinter den statischen Objekten (wie beispielsweise Ampeln und Straßenschildern) nachdenken, wie sich die Fußgänger und Autos bewegen, und vorhersagen, wohin sie sich bewegen werden, um darüber zu entscheiden, wie sie navigieren sollen. Denken wird auch durchgeführt, wenn ein Mensch auf der Veranda aufgenommene Überwachungskameraaufnahmen analysiert, um zu entscheiden, ob die Person im Video Pakete klaut oder eine Lieferung vornimmt. Analog zum menschlichen Denken kann maschinelles Denken definiert werden als „algebraisches Manipulieren zuvor erlangten Wissens, um eine neue Frage zu beantworten“. Bei einem Bewegen von einer Wahrnehmung zu einem bewussten Denken und einem richtigen bzw. wahren Verstehen ist eine Verschiebung von maschinenlernzentrierter KI zu maschinendenkzentrierter KI beobachtet worden.
Obwohl das Streben nach gesundem Menschenverstand und Denken hitzige Aufmerksamkeit erregt hat, gibt es kein Modell mit der Fähigkeit, räumlich-zeitliches Denken und ein Verstehen von Videos durchzuführen. In dieser Hinsicht fördern die beispielhaften Ausführungsformen neuronales Denken zur komplexen Problemlösung, insbesondere für die Aufgabe eines Verstehens von Videos. Ein Verstehen von Videos erfordert räumlich-zeitliches Denken. Zum Beispiel muss ein Modell, um einen Ladendiebstahl aus einem Echtzeit-Überwachungsvideo zu erkennen, zuerst Personen und Gegenstände erkennen. Zweitens muss das Modell die Fähigkeit haben, atomare Aktionen, wie beispielsweise „herumlaufen“, „einen Gegenstand halten“, „einen Gegenstand in eine Tasche stecken“, „zur Kasse gehen“ und „aus dem Laden gehen“, zu erkennen. Dies würde implizit ein Aufbauen eines Vorstellungs- bzw. Visionssystems erfordern, das Objektpermanenz implementiert. Am wichtigsten ist, dass das Modell die zeitliche Reihenfolge bzw. Ordnung dieser Handlungen bzw. Aktionen und eine Ursache über die Beziehungen und Logiken zwischen diesen Aktionen erkennen muss. Um ein solches Verstehen von Videos auf hoher Ebene zu ermöglichen, führen die beispielhaften Ausführungsformen Hopper, ein fortschrittliches Framework für ein Verstehen von Videos, das Wissen flexibel einsetzt und räumlich-zeitliches Denken durchführt, ein.
Hopper ist entwickelt, um die CATER-Aufgabe anzuwenden. Die CATER-Aufgabe beinhaltet eine Snitch- bzw. Spitzel-Lokalisierung unter Okklusion und Eingrenzung, die die Vorzeigeaufgabe und die schwierigste bei CATER ist, die eine Fähigkeit eines Modells testet, die Auswirkungen von Aktionen auf die Umwelt zu erkennen. Als diagnostischer Datensatz, um moderne räumlich-zeitliche Videoarchitektur zu analysieren, ist die CATER-Spitzel-Lokalisierungsaufgabe analog zum Hütchenspiel bzw. Bechertrick, z.B. bewegen sich Objekte, einschließlich eines speziellen Objekts (Spitzels) und wenigstens eines Behälters (Kegel), gleichzeitig, und die Aufgabe besteht darin, den Ort des Spitzels am Ende des Videos zu bestimmen, während der Spitzel versteckt oder eingegrenzt bzw. enthalten durch ein anderes Objekt (zB. versteckt innerhalb davon) sein kann. Herkömmliche Videoarchitekturen haben Schwierigkeiten, bei dieser Aufgabe gut abzuschneiden, da die Fähigkeit zum räumlich-zeitlichen Verstehen auf hoher Ebene bzw. hohem Niveau fehlt. Hopper, als Framework für ein Verstehen von Videos, enthält einen Multi-Hop-Transformer zum Abmildern solcher Probleme.
Hopper enthält mehrstufiges kompositorisches langfristiges Denken, z.B. würden Menschen in Schritten (mehrstufig) denken und die Welt als Summe ihrer Teile (kompositorisch) verstehen, weshalb es entscheidend sein könnte, mehrstufiges kompositorisches Denken für ein intelligentes Modell zu fördern, wie zB. tokenbasiertes objektzentriertes Lernen, und da Menschen normalerweise in Bezug auf Entitäten bzw. Einheiten und Beziehungen zwischen ihnen denken, neigen Menschen zu tokenbasiertem objektzentriertem Lernen, z.B. einer verfolgungsfähigen Videoerkennung, das heißt, dass die beispielhaften Ausführungsformen eine Verfolgung bzw. Tracking in das System integrieren, weil ein Verfolgen Sequenzmerkmale in zeitlicher Reihenfolge aggregieren und konsistente Merkmalsdarstellungen und z.B. automatisches neuronales Denken Ende-zu-Ende bzw. End-to-End bzw. durchgängig geben kann. Die beispielhaften Ausführungsformen beruhen auf neuronalem Denken und Aufmerksamkeitsmodellierung, da neuronale Netze automatisch und effizient sind und gute Generalisierungs- bzw. Verallgemeinerungsfähigkeiten haben, auch wenn symbolisches logisches Denken eine reichhaltige mehrstufige Inferenz bewirken kann. Das beispielhafte Modell führt automatisch eine explizite, Ende-zu-Ende- bzw. durchgängige und fundierte mehrstufige räumlich-zeitliche Denkprozedur durch, um die kompositorische und strukturierte Natur eines langfristigen Verstehens von Videos zu behandeln. Dies wird durch iteratives Ausführen eines Multi-Hop-Transformers erreicht.
Der Multi-Hop-Transformer hat die Fähigkeit zu denken bzw. zu argumentieren, indem er über Frames im Video hüpft, während er „bewusst“ Objekte im Video auswählt, bis der Multi-Hop-Transformer bei der richtigen Antwort (dem Zielobjekt) ankommt. Die beispielhaften Ausführungsformen führen mehrere Iterationen über eine einzelne Schicht des Multi-Hop-Transformers mit einer while- bzw. während-Schleife aus. Jede Iteration führt einen Sprung eines Denkens durch, indem bestimmte Objekte in einem bestimmten Frame ausgewählt werden. Die Hops bzw. Sprünge bzw. Hupfer, d.h. Iterationen, arbeiten auf eine autoregressive Weise. Die Anzahl von Hops wird automatisch erkannt und variiert quer über Videos. Der Multi-Hop-Transformer führt die Kombinationen von erlernten Darstellungen durch die iterative Gestaltung bzw. das iterative Design sowie den Multikopf- und Konditionierungs-Aufmerksamkeitsmechanismus, die im Wesentlichen Kompositionsregeln sind, die gute und richtige induktive Verzerrungen liefern und zu höheren Formen eines Denkens führen. Hopper, zentriert durch diesen Multi-Hop-Transformer, ist entwickelt, um die algebraischen strukturellen Prioren anzureichern, um schwierige Problemlösungsaufgaben zu bewältigen.
Hopper führt mehrstufige Denken automatisch mit Interpretierbarkeit durch. Dies scheint die erste Methode zu sein, um einen strukturierten, automatischen, iterativen und verketteten Denk- bzw. Argumentationsprozess für nichttriviales Verstehen von Videos zu ermöglichen. Anstelle eines Lernens aus kurzen Clips, nimmt das vorgeschlagene Modell das gesamte Video auf und hat eine Ende-zu-Ende- bzw. durchgehende Differenzierbarkeit. Die beispielhaften Ausführungsformen demonstrieren die Fähigkeit des Modells zum mehrstufigen kompositorischen neuronalen Denken an dem CATER-Datensatz und erreichen modernste Leistung mit nur 1 FPS (Frames bzw. Bilder pro Sekunde). Nach einem Entdecken, dass ein Modell nur auf den letzten Frame schauen kann, um eine hohe Genauigkeit an dem CATER-Datensatz zu erhalten, bauten die beispielhaften Ausführungsformen einen schwierigeren Datensatz CATER-h auf, um echtes räumlich-zeitliches Denken für jedes Modell zu erfordern. Die beispielhaften Verfahren ergeben eine wesentlich höhere Vorhersageleistung. Die Ergebnisse unterstreichen die Bedeutung und den Wert von Multi-Hop-Argumentation bzw. -Denken in Richtung zu einem Verstehen von Videos auf hoher Ebene und maschineller Intelligenz.
Nimmt man Bezug auf 1, ist der Aufgabe ein Video zugeteilt, und eine Abfrage, die die endgültige Position bzw. den endgültigen Ort eines Objekts im Video anfordert, welches Objekt ausgeblendet oder verdeckt sein kann. Die Ausgabe des Systems ist die endgültige Koordinate oder ein Kasten bzw. eine Box, wo sich das Objekt befinden kann.
Ein System 100 beschreibt bestehende Arbeit, bei der ein Deep-Learning-Netzwerk 104 einen Videostrom 102 empfängt, um eine Ausgabe 106 zu lokalisieren. Oft sind diese Systeme 100 aufgrund verschränkter Einzeldarstellungen nicht in der Lage, vollständig zu entschlüsseln oder zu bedenken bzw. zu begründen, wie sich Objekte bewegen. Als Ergebnis beruhen solche Systeme 100 oft auf einer Verzerrung, wie Objektformen oder Okkluder bzw. Verschlüsse (die das Objekt verbergen), und geben dies als endgültige Ausgabe an.
Das System 110 zeigt die beispielhafte Erfindung, bei der der Hopper zuerst Objekte über einen Objektverfolger 114 in von einem Videostream 112 empfangenen Frames verfolgt. Der Hopper baut eine konsistente Darstellung auf, indem er Spuren 116 zeitlich anpasst bzw. abgleicht. Dann wird ein Multi-Hop-Transformer 118 verwendet, der Argumentation bzw. Denken verwendet, um von einem Zwischenschritt zurückzuverfolgen, bei dem das Objekt gegen Ende des Videos vollständig sichtbar war, um das Objekt oder die Ausgabe 120 vollständig zu lokalisieren.
Nimmt man Bezug auf 2, ist das Framework des Hoppers 200 dargestellt, wobei ein CNN 210 verwendet wird, um Merkmalsdarstellungen auf Frame-Ebene aus der Videoeingabe oder dem Videostream bzw. -strom 205 zu extrahieren. Positionszeitcodierungen 215 und Auflösungscodierungen 220 werden gelernt und mit Merkmalskarten 225 aus dem CNN 210 zusammengefasst Resultierende Darstellungen bilden zusammen mit Objektabfragen die Eingabe zu DETR 230, was ein transformerbasierter Objektdetektor ist. Dann wird ein Verfolgen bzw. Tracking 235 durchgeführt, indem ein ungarischer Algorithmus angewendet wird, um Objekte zwischen zwei aufeinanderfolgenden Frames anzupassen bzw. abzugleichen. Die N Objektspuren und die 1 Spur von Bildmerkmalen aus dem CNN 210 werden zur erlernten Positionszeitcodierung 215 hinzugefügt, um die Speichereingabe für den vorgeschlagenen Multi-Hop-Transformer 250 zu bilden, der weiterhin eine Videoabfrage akzeptiert bzw. annimmt und die latente Darstellung des Videos erzeugt. Ein mehrschichtiges Perzeptron (MLP) 240 nimmt die Videodarstellung auf und führt die Klassifizierung durch. Der Hopper 200 erhält zuerst Darstellungen für den räumlichen Kontext und jeden Frame über den Backbone oder das CNN 210. Objektdarstellungen und Objektspuren werden dann berechnet, um tokenbasiertes objektzentriertes Lernen für den Multi-Hop-Transformer 250 zu ermöglichen.
Der Hopper 200 bietet ein Framework, um die Essenz eines Videostreams 205 zu erfassen. Der Hopper 200 ist inspiriert von der Beobachtung, dass Menschen normalerweise in Bezug auf Entitäten und Beziehungen zwischen ihnen denken, und der Hopper 200 erreicht eine hohe Leistungsfähigkeit durch verfolgungsintegriertes objektzentriertes Lernen und mehrstufiges kompositorisches langzeitige Denken. Im Gegensatz zu herkömmlichen tiefen visuellen Netzwerken, die eine Verarbeitung über die Pixel durchführen, aus denen sie lernen und Merkmale extrahieren, verfügen objektzentrierte lernbasierte Architekturen über gut definierte Teile, um Information über Entitäten durch Gruppieren und Abstrahieren von Information auf niedriger Ebene zu speichern. Darüber hinaus kombiniert der Hopper 200 sowohl feinkörnige (Objektdarstellungen) als auch grobkörnige (Bilddarstellungen) Information und ist somit in der Lage, ein nichttriviales kontextuelles Verstehen eines Videos 205 zu bilden.
Die beispielhaften Ausführungsformen stellen das Hopper-Framework 200 in 2 dar. Wie es gezeigt ist, enthält der Hopper 200 einen CNN-Backbone 210, um Darstellungen auf Frame-Ebene aus der Videoeingabe 205 zu extrahieren, Objektdarstellungen 215, 220 zu lernen und zu detektieren, Objekte während der bzw. durch eine Zeit über Tracking bzw. Verfolgung 235 zu verknüpfen und Videodarstellungen aus Objekten und Bildkontext (über den Multi-Hop-Transformer 250) zu lernen und zu erkennen.
Ausgehend von der anfänglichen RGB-basierten Videodarstellung x_v ∈ ℝ^Tx3xH0xW0, wobei T die Anzahl von Frames des Videos darstellt, 3 für die drei Farbkanäle steht und H₀ und W₀ die Höhe und Breite der ursprünglichen Auflösung bezeichnen, würde ein herkömmlicher CNN-Backbone 210 eine Merkmalskarte ƒ ∈ ℝ^C×H×W (225) und eine kompakte Bilddarstellung c_t ∈ ℝ^C für jeden Frame t extrahieren. Eine 1×1-Faltung reduziert die Kanaldimension von f von C zu einer kleineren Dimension d, und eine lineare Schicht wird verwendet, um die Dimension von c_t von C zu d zu drehen.
In Bezug auf Objekterkennung und -darstellung zerbrechen die beispielhaften Ausführungsformen die räumlichen Dimensionen in 1 Dimension und kombinieren die Stapel- bzw. Batch-Dimension mit der zeitlichen Dimension für die Merkmalskarte f. Für jeden Zeitschritt (insgesamt T) und jede Auflösung (insgesamt H×W) werden Positionscodierungen 21 5 gelernt, die weiterhin zu den Merkmalskarten 225 auf elementartige Weise hinzugefügt werden, was in Speicherdarstellungen resultiert, die dem Transformer-Codierer von DETR 230 zur Verfügung gestellt werden. DETR 230 ist ein transformerbasierter Objektdetektor für Bilder. DETR 230 akzeptiert zusätzlich N Einbettungen von Objektabfragen für jedes Bild (unter der Annahme, dass jedes Bild höchstens N Objekte haben kann) zum Transformer-Decodierer. Die beispielhaften Ausführungsformen kombinieren auch die Batch-Dimension mit der zeitlichen Dimension. Ausgaben von DETR 230 sind transformierte Objektdarstellungen, die als Eingaben zu einem MLP 240 verwendet werden, um den Begrenzungsrahmen und die Klassenbezeichnung bzw. -beschriftung bzw. das Klassenlabel jedes Objekts (z.B. Kegel, Spitzel, etc.) vorherzusagen.
In Bezug auf eine Verfolgung 235 ist eine Verfolgung 235 im Wesentlichen ein Assoziationsproblem. Eine Assoziation bzw. Zuordnung zwischen zwei Objekten jeweils aus aufeinanderfolgenden zwei Frames kann durch die Objektklassenvereinbarung und die Differenz der zwei Begrenzungsrahmen definiert werden.
Die beispielhaften Ausführungsformen bezeichnen $\hat{y} = {[{\hat{y}}_{t}]}_{t = 1}^{T}$
als die vorhergesagte Liste von Objekten bei allen Frames im Video 205, wobei ${\hat{y}}_{t} = {[{\hat{y}}_{t}^{i}]}_{i = 1}^{N}$
die vorhergesagte Gruppe von Objekten beim Frame t bezeichnet. Jedes Element des vorhergesagten Objekts, das beim Frame t gesetzt bzw. eingestellt ist, kann als 4-Tupel angesehen werden:
${\hat{y}}_{t}^{i} = ({\hat{c}}_{t}^{i}, {\hat{b}}_{t}^{i}, {{\hat{p}}_{t}^{i} (c) | c \in C}, {\hat{o}}_{t}^{i}),$
wobei ${\hat{c}}_{t}^{i}$
die Klassenbezeichnung bzw. das Klassenlabel bezeichnet, die bzw. das die maximale vorhergesagte Wahrscheinlichkeit für ein Objekt i bei einem Frame t hat, ${\hat{b}}_{t}^{i} \in {[0,1]}^{4}$
ein Vektor ist, der die Koordinaten des Begrenzungsrahmens oben links und unten rechts relativ zur Bildgröße definiert, ${\hat{p}}_{t}^{i} (c)$
die vorhergesagte Wahrscheinlichkeit für eine Klasse c bezeichnet und ${\hat{o}}_{t}^{i}$
den Darstellungsvektor dieses Objekts i bezeichnet.
Um die optimale zweiteilige Übereinstimmung bzw. Anpassung zwischen der Gruppe von vorhergesagten Objekten beim Rahmen t und t + 1 zu erhalten, suchen die beispielhaften Ausführungsformen nach einer Permutation von N Elementen $σ \in G_{N}$
mit den niedrigsten Permutationskosten: $\hat{σ} = \underset{σ \in G_{N}}{argmin} \sum_{i = 1}^{N} L_{track} ({\hat{y}}_{t}^{i}, {\hat{y}}_{t + 1}^{σ (i)})$

wobei ℒ_track eine paarweise Spur ist, die Kosten zwischen vorhergesagtem Objekt ${\hat{y}}_{t}^{i}$
(zB. Objekt i beim Frame t) und vorhergesagtem Objekt beim Frame t + 1 mit einem Index $σ (i)$
aus der Permutation σ anpasst, bezeichnet durch ${\hat{y}}_{t + 1}^{σ (i)} .$
Die optimale Zuordnung wird mit dem ungarischen Algorithmus effizient berechnet.
Die Kosten für den Spurabgleich bzw. die Spuranpassung zur Zeit t für ein Objekt i sind definiert als:
wobei I eine I ndikatorfunktion bezeichnet, so dass die Gleichung nach dem Symbol II nur dann wirksam wird, wenn die Bedingung innerhalb von {... } wahr ist und sonst der Term 0 sein wird. λ_c,λ_b ∈ ℝ gewichten jeden Term bzw. Begriff. ℒ_box ist definiert als lineare Kombination des L₁-Verlusts und des verallgemeinerten IoU-Verlusts. Wenn das vorhergesagte Klassenlabel des Objekts i beim Frame t nicht ∅ ist, zielen die beispielhaften Ausführungsformen darauf ab, die Wahrscheinlichkeit des Klassenlabels ${\hat{c}}_{t}^{i}$
für das vorhergesagte Objekt σ(i) beim Frame t + 1 zu maximieren und den Begrenzungsrahmenunterschied zwischen den beiden zu minimieren. Die Gesamtkosten für die Verfolgungsanpassung eines Videos sind die Aggregation von ℒ_track $({\hat{y}}_{t}^{i}, {\hat{y}}_{t + 1}^{σ (i)})$
vom Objekt i=1 bis N und Frame t = 1 bis T-1.
In Bezug auf eine Videodarstellung und -erkennung werden die aus dem ungarischen Algorithmus erhaltenen N Objektspuren und die 1 Spur von Bildmerkmalen aus dem Backbone-CNN 210 weiterhin mit den gelernten Positionszeitcodierungen addiert, um die Speichereingabe für den Multi-Hop-Transformer 250 zu bilden. Der Multi-Hop-Transformer 250 erzeugt die endgültige latente Darstellung des Videos e ∈ ℝ^d. Ein MLP nimmt die Videodarstellung e auf und führt die Erkennung durch.
In Bezug auf den Multi-Hop-Transformer 250 stellen die beispielhaften Ausführungsformen den Multi-Hop-Transformer 250 in den 3 und 4 dar. Eine Architektur 300A kommuniziert mit einer Architektur 300B. Das Gesamtmodul wird in einem Algorithmus 1 in Pseudocode beschrieben, und die Notationen sind wie folgt definiert: Framespur T_ƒ: [c₁, c₂, ..., c_T], Objektspur $T_{o} : [o_{1}^{1}, o_{2}^{1}, \dots o_{T}^{1}, o_{1}^{2}, o_{2}^{2}, \dots o_{T}^{2}, o_{1}^{N}, o_{2}^{N}, \dots o_{T}^{N}]$
Speichersequenz $M : [T_{f} | | T_{o}],$
Zielvideoabfrageeinbettung ε, Objektsichtbarkeitskarte ν, Helferinformation ℌ, Aufmerksamkeitskandidat
und Aufmerksamkeitsgewichtungen
.
Der Multi-Hop-Transformer nimmt eine Framespur T_ƒ, eine Objektspur T_o, eine Objektsichtbarkeitskartensequenz ν, eine Zielvideoabfrageeinbettung ε, die Anzahl von Objekten N und die Anzahl von Frames T als Eingabe an. ν wird durch ein heuristisches Kriterium bestimmt: Ein Objekt ist sichtbar, wenn der Begrenzungsrahmen des Objekts nicht vollständig in einem Begrenzungsrahmen eines anderen Objekts in diesem Frame enthalten ist.
Wie es im Algorithmus 1 gezeigt ist, der nachstehend wiedergegeben wird, hat der Multi-Hop-Transformer 250 zwei herkömmliche Codierer-Decodierer-Transformereinheiten, nämlich Transformer_f und Transformer_s.
Technisch könnte der Transformer als tgt_aktualisiert, Aufmerksamkeit_Gewichtungen Transformer(tgt, src) definiert werden.
Der Multi-Hop-Transformer 250 hat die Fähigkeit, durch Hüpfen bzw. Springen über Frames zu argumentieren bzw. zu denken, während er sich selektiv mit einem Objekt (oder mehreren) im Frame befasst, bis der Multi-Hop-Transformer 250 bei der richtigen Antwort (z.B. Objekt eines bestimmten Frames, der für die Videoerkennung am wichtigsten ist) ankommt. Insbesondere wenden die beispielhaften Verfahren mehrere Iterationen über den Multi-Hop-Transformer 250 an, und jede führt einen Sprung bzw. Hop eines Denkens durch Befassen mit einem bestimmten Objekt (oder mehreren) in einem bestimmten Frame durch multiköpfige bzw. mehrköpfige Aufmerksamkeit durch. Mit insgesamt H Iterationen (Hops) würde sich das Modell mit Objekten in H kritischen Frames befassen, um die Darstellung des Videos zu bilden. Da die Komplexität von Videos variiert, variiert auch H quer über Videos. Die beispielhaften Ausführungsformen zwingen die Hops, auf eine autoregressive Weise zu arbeiten. Somit könnte dann, wenn sich ein Hop h hauptsächlich mit einem Objekt (oder mehreren) bei einem Frame t befasst, sich ein Hop h+1 nur mit einem Objekt (oder mehreren) bei Frames nach dem Frame t befassen. Das Springen bzw. Hüpfen bzw. Hopping endet, wenn sich der Multi-Hop-Transformer 250 mit dem Objekt (oder mehreren) beim letzten Frame befasst hat (Zeile 2 im Algorithmus 1).
Der Transformerf extrahiert nützliche Information aus der Speichersequenz M und der Transformer_s lernt die latente Darstellung des Zielvideos durch aufmerksame Nutzung der Information. So würde der Multi-Hop-Transformer 250 aus der Speichersequenz zuerst die Aufmerksamkeitskandidaten U (z.B. Darstellungen bestimmter Objekte) und Helferinformation H erhalten, die Darstellungen sind, die entscheidend sind, um beim Entscheiden zu helfen, mit wem in diesem Hop man sich befassen soll. Hop 1 hat unterschiedliche H und U (Zeile 6 in Algorithmus 1), und das liegt daran, dass Hop 1 für alle Videos mit dem Ziel notwendig ist, das erste kritische Objekt (oder mehrere) und einen Frame aus den globalen Informationen zu finden. Der Transformer_f übernimmt U als tgt und H als src, erzeugt dann U_update, eine aktualisierte Version von U, durch selektives Befassen mit H und bedingtes Integrieren von helferfusionierten Darstellungen der Aufmerksamkeitskandidaten zu den ursprünglichen Darstellungen U. Die bedingte Integration wird durch aufmerksamkeitsmerkmalsbasiertes Ausblenden bzw. Torsteuern bzw. Gating erreicht (Zeile 9 im Algorithmus 1). Die Funktionalität von Transformer_s besteht darin, die Darstellung des Videos zu erlernen, indem die aktualisierten und maskierten Darstellungen der Aufmerksamkeitskandidaten berücksichtigt werden (Zeile 11 im Algorithmus 1).
Maskieren() hilft dem Modell, nur die sichtbaren Objekte zu berücksichtigen, und implementiert die autoregressive Operation, wenn der aktuelle Hop nicht Hop 1 ist Für einen Hop 2 zum letzten gibt Extrahieren() H als Satz bzw. Gruppe von Darstellungen aller Objekte im Frame zurück, mit denen sich der vorherige Hop befasst hat, und Maskieren() stellt sicher, dass die Aufmerksamkeitskandidaten für Transformer_s sichtbare Objekte in Frames nach dem Frame sind, mit dem sich der vorherige Hop befasst hat. Die I ndizes des Objekts, mit dem man sich am häufigsten befasst hat, und ein Frame werden durch Aufmerksamkeitsgewichtungen A aus dem vorherigen Hop mit einem differenzierbaren Softargmax() bestimmt
Mit Transformer_f, Transformer_s und dem neuartigen Hopping-Mechanismus entscheidet der Multi-Hop-Transformer 250 darüber, mit welchem Objekt (oder welchen Objekten) (in der Reihenfolge von Aufmerksamkeitskandidaten `Zl) man sich angesichts der aktuellen Darstellung des Videos ε durch Nachdenken über die Beziehungen zwischen den Elementen in der Gruppe von Aufmerksamkeitskandidaten befassen soll und wie sich jeder Aufmerksamkeitskandidat auf die Helferinformation H beziehen würde.
Diese strukturellen Priorverteilungen (zB. Aufmerksamkeit, die als weicher Baum behandelt werden könnte), die eingebettet sind, liefern im Wesentlichen die Kompositionsregeln, die das zuvor erlangte Wissen algebraisch manipulieren, und dienen als gute und richtige induktive Verzerrungen und führen zu den höheren Formen des Denkens.
In Bezug auf ein Trainieren werden die Trainingsmethoden umrissen:
Dynamischer Hop-Schritt, das heißt, dass die beispielhaften Ausführungsformen das Modell atomar entscheiden lassen, über welchen bevorstehenden Frame nachzudenken ist, anstatt den Pro-Hop-Frame-Schritt streng auf 1 einzustellen.
Minimale Hops eines Denkens, das heißt, dass die beispielhaften Ausführungsformen die minimale Anzahl von Hops bzw. Sprüngen, die das Modell für irgendein Video durchführen muss, als 5 (empirisch gesetzt) einstellen, um das Erlernen von Denken durch eine vernünftig große Anzahl von Hops bzw. Sprüngen zu fördern (solange es nicht möglich ist, z.B. ein Video, dessen letzter sichtbarer Spitzel im vorletzten Bild liegt).
Hilfs-Hop 1 Objektverlust, das heißt, dass die beispielhaften Ausführungsformen die Kreuzentropie des klassifizierenden Index des berechneten letzten sichtbaren Spitzels verfeinern. Eingaben zu diesem Verlust sind der Index des letzten sichtbaren Spitzels von To sowie die Aufmerksamkeitsgewichtungen vom Transformer_s von Hop 1, die als vorhergesagte Wahrscheinlichkeit für jede I ndexklasse dienen.
Hilfs-Hop 2 Objektverlust, das heißt, dass die beispielhaften Ausführungsformen als Kreuzentropie des klassifizierenden Index des unmittelbaren Okkluders oder Behälters des letzten sichtbaren Spitzels verfeinern. Eingaben für diesen Verlust sind der berechnete Heuristik-3-Index und die Aufmerksamkeitsgewichtungen vom Transformer_s von Hop 2.
Hilfs-Hop 1 &2 Frameverlust, das heißt, dass die beispielhaften Ausführungsformen zu den richtigen Frames in Hop 1 und 2 tendieren, was für die späteren Hops vorteilhaft ist. Ein L₁-Verlustterm könnte das Modell dahin führen, den richtigen Frame-Index herauszufinden.
Lehrerzwang, das heißt, dass die beispielhaften Ausführungsformen diese Strategie anwenden können, die verwendet wird, um schnell und effizient wiederkehrende neuronale Netze zu trainieren, die Ground Truth aus einem früheren Zeitschritt als Eingabe verwenden. Die beispielhaften Ausführungsformen verwenden Lehrerzwang für Hop 2 durch Bereitstellen von Ground Truth H und U während der Trainingsphase.
Kontrastiver Entzerrungsverlust durch Maskierung, das heißt, dass die beispielhaften Ausführungsformen dies verwenden, um eine Strafe für das Modell zu ermöglichen, wenn es eine Vorhersage korrekt machen könnte, wenn das am meisten besuchte Objekt im letzten Frame maskiert bzw. ausgeblendet wird. Die Intuition hier ist, dass ein Modell nicht in der Lage sein sollte, einen korrekten Ort vorherzusagen, ohne den richtigen Nachweis zu sehen.
Technisch gesehen ist der kontrastive Entzerrungsverlust definiert als die Entropiefunktion, die die beispielhaften Ausführungsformen zu maximieren hoffen, definiert wie folgt: $L_{debias} = E [\sum_{k = 1}^{K} g_{θ} (M_{neg}; \dots) (log g θ (M_{neg}; \dots))]$

wobei M_neg die Speichersequenz zum Multi-Hop-Transformer 250 ist, wobei das letzte am häufigsten besuchte Objekt durch Nullen maskiert ist, K die Anzahl von Gitterklassen bezeichnet und g_θ das Videodarstellungs- und -erkennungsmodul (Multi-Hop-Transformer 250 zusammen mit MLP) mit einem Parameter θ bezeichnet, was die Wahrscheinlichkeit jeder Gitterklasse erzeugt. Dieser kontrastive Entzerrungsverlust induziert den latenten Raum, Information zu erfassen, die für die endgültige Klassifizierungsaufgabe maximal nützlich sind.
In Bezug auf den CATER-H-Datensatz bietet CATER einen diagnostischen Videodatensatz, der erfordert, dass langfristiges räumliches Verstehen und zeitliches Denken gelöst wird. CATER ist gegenüber Modellen aufgebaut, die einen Vorteil aus impliziten falschen Datensatzverzerrungen ziehen und sinnvolle Variationen der räumlich-zeitlichen Struktur des Videos ignorieren. Mit vollständig beobachtbaren und kontrollierbaren Szenenverzerrungen werden die 5.500 Videos in CATER synthetisch mit 24 FPS (300-Frame 320x240px) unter Verwendung einer Bibliothek von Standard-3D-Objekten gerendert bzw. einer Bildsynthese unterzogen, das heißt insgesamt 193 verschiedene Objektklassen, die 5 Objektformen (Würfel, Kugel, Zylinder, Kegel, Spitzel) in 3 Größen (klein, mittel, groß), 2 Materialien (glänzendes Metall und mattes Gummi) und 8 Farben enthalten. Jedes Video hat einen kleinen Metallspitzel. Es gibt eine große „Tisch“-Ebene", auf der alle Objekte platziert sind. Auf einer hohen Ebene sind die Dynamiken in CATER-Videos analog zur magischen Routine von Becher und Bällen. Eine Teilmenge von 4 atomaren Aktionen (‚drehen‘, 'abholen-ablegen, ‚gleiten‘ und ‚enthalten‘) wird von jedem Objekt bereitgestellt.
Es ist zu beachten, dass „enthalten“ nur durch einen Kegel bereitgestellt wird und rekursives Containment bzw. Enthaltensein möglich ist, z.B. kann ein Kegel einen kleineren Kegel enthalten, der ein anderes Objekt enthält. Jedes Video in CATER ist in mehrere Zeitschlitze aufgeteilt, und jedes Objekt in diesem Video führt zufällig eine Aktion im Zeitschlitz aus (einschließlich „keine Aktion“). Objekte und Aktionen variieren je nach Video. Die „Tisch“-Ebene ist in 6×6 Gitter (36 rechteckige Zellen) unterteilt, und die Aufgabe Spitzel-Lokalisierung besteht darin, das Gitter zu bestimmen, in dem sich der Spitzel am Ende des Videos befindet, und zwar als Klassifizierungsaufgabe mit nur einem Label. Die Aufgabe erfordert implizit das Verstehen von Objektpermanenz, da Objekte durch ein anderes Objekt verdeckt oder eingeschlossen (darin versteckt) sein können.
Die Aufgabe Spitzel-Lokalisierung ist herausfordernder, wenn der Spitzel am Ende von einem anderen Objekt enthalten ist. Inspiriert durch dieses Herausfinden zeichnen die beispielhaften Ausführungsformen das Histogramm des Frame-Index des letzten sichtbaren Spitzels für jedes Video in CATER. Der CATER-Datensatz ist für die Aufgabe Spitzel-Lokalisierung in Bezug auf die zeitlichen Hinweise stark unausgewogen. Zum Beispiel ist in CATER Spitzel am Ende des Videos für 58% der Abtastungen vollständig sichtbar. Dies deutet darauf hin, dass ein Modell eine relativ gute Genauigkeit erzielen könnte, indem es einfach auf den letzten Frame anstatt auf das gesamte Video „schaut“. Eine solche Datensatzcharakteristik ist ungünstig, da sie dem ursprünglichen Designzweck von CATER widerspricht, wie zB. der Bereitstellung eines Diagnosewerkzeugs, das langfristiges zeitliches Denken erfordert. Intuitiv ist die Aufgabe Spitzel-Lokalisierung selbst für Menschen schwieriger, wenn der Spitzel nicht früher im Video sichtbar ist. Als Ergebnis bauten die beispielhaften Ausführungsformen einen neuen Datensatz, CATERhard (oder CATER-h) als unvoreingenommenen bzw. unverzerrten Datensatz mit verschiedenen zeitlichen Variationen auf, der echtes räumlich-zeitliches Denken erfordert, um gelöst zu werden. Im Histogramm für CATER-h teilt jeder Frame-Index ungefähr eine gleiche Anzahl von Videos, um den letzten sichtbaren Spitzel in diesem Frame zu haben. CATER-h kann jedes Modell vermeiden, um eine hohe Leistung zu erzielen, indem es eine Abkürzung nimmt, indem es nur die letzten Bilder „anschaut“.
Zusammenfassend verwenden die beispielhaften Ausführungsformen ein Framework für ein Multi-Hop-Denken, das ein mehrstufiges kompositorisches Langzeitdenken durchführen kann. Der Multi-Hop-Transformer hat die Fähigkeit zu argumentieren bzw. zu denken, indem er über Frames im Video hüpft bzw. springt, während er sich „bewusst“ mit Objekten im Video befasst, bis der Multi-Hop-Transformer bei der richtigen Antwort ankommt, um ein Objekt zu lokalisieren. Die beispielhaften Ausführungsformen führen mehrere Iterationen über eine einzelne Schicht des Multi-Hop-Transformers mit einer während- bzw. while-Schleife aus. Jede Iteration führt einen Denk- bzw. Argumentationssprung bzw. -hop durch, indem bestimmte Objekte in einem bestimmten Frame ausgewählt werden. Die Hops (oder Iterationen) arbeiten autoregressiv. Die Anzahl von Hops wird automatisch entdeckt und variiert je nach Video. Der Multi-Hop-Transformer führt die Kombinationen von erlernten Darstellungen durch das iterative Design sowie den Multikopf- und Konditionierungs-Aufmerksamkeitsmechanismus, die im Wesentlichen Kompositionsregeln sind, die gute und richtige induktive Verzerrungen liefern und zu höheren Formen des Denkens führen. Ein Hopper, einschließlich des Multi-Hop-Transformers, wurde entwickelt, um die algebraischen strukturellen Priorverteilungen anzureichern, um eine räumlich-zeitliche Lokalisierung zu adressieren.
Als Ergebnis lösen die beispielhaften Ausführungsformen der vorliegenden Erfindung das Problem einer Lokalisierung von Objekten in Videos. Die beispielhaften Ausführungsformen beschreiben ein räumlich-zeitliches Video-Denksystem. Bei einem Video (oder einem Videostream) und einer Abfrage, die die endgültige Position eines bestimmten Objekts im Video anfordert, besteht die Aufgabe darin, die endgültige Position des Objekts im Video zu suchen. Das Video enthält eine große Anzahl von Objekten oder eine Person, die sich durch eine Zeit bewegt. Es ist ziemlich herausfordernd, das Objekt innerhalb des Videos zu lokalisieren, wenn es sich im Video durch Okklusionen bewegt oder sich durch verschiedene Kamerawinkel versteckt. Das Hopper-Framework einschließlich des Multi-Hop-Transformers der beispielhaften Ausführungsformen hilft jedoch beim Lokalisieren eines Zielobjekts innerhalb eines Videostreams mit großer Genauigkeit. Daher schlagen die beispielhaften Ausführungsformen ein fortgeschrittenes neuronales Modell vor, das Wissen flexibel einsetzt und räumlich-zeitliches Denken in Richtung zum Verstehen von Videos auf hoher Ebene durchführt. Insbesondere ist Hopper ein Framework für ein Verstehen von Videos, das durch einen Multi-Hop-Transformer zentriert ist, der einen strukturierten, automatischen, iterativen und verketteten Denk- bzw. Argumentationsprozess durchführt Mehrere praktische Trainingsmethoden sind ebenfalls demonstriert, wie z.B. Lehrerzwang und kontrastiver Entzerrungsverlust durch Maskierung. Die beispielhaften Ausführungsformen bewerten die vorgeschlagenen Techniken an dem CATER-Datensatz, um die Fähigkeit zum kompositorischen langfristigen räumlich-zeitlichen Denken zu bewerten. Die beispielhaften Ausführungsformen stellen fest, dass ein Modell eine hohe Leistung erzielen kann, indem es nur die letzten Frames in CATER verwendet. Somit, wird ein schwierigerer Video-Datensatz, CATER-h, als unvoreingenommener Datensatz aufgebaut, der echtes räumlich-zeitliches Denken erfordert.
5 ist ein Block-/ Flussdiagramm 800 einer praktischen Anwendung zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem praktischen Beispiel sucht eine Kamera 802 innerhalb eines Videostroms bzw. Videostreams 806 nach einem Objekt 804 (zB. Person auf einem Fahrrad, die möglicherweise ein Verbrechen begangen hat). Die beispielhaften Verfahren verwenden das Hopper-Framework 200 über ein CNN 210, Objektdarstellungslernen und -detektion 215, 220, Verfolgung bzw. Tracking 235 und Videodarstellung und -erkennung über den Multi-Hop-Transformer 250. In einem Fall kann Hopper 200 einen oder mehrere Frames auswählen (durch Hüpfen/Überspringen/Springen über Frames), um das Zielobjekt 804 innerhalb des Videostreams 806 zu finden. Die Ergebnisse 810 (zB. alle Frames mit dem Zielobjekt 804) können auf einer Benutzeroberfläche 812 bereitgestellt oder angezeigt werden, die von einem Benutzer 814 gehandhabt wird.
6 ist ein beispielhaftes Verarbeitungssystem zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung.
Das Verarbeitungssystem enthält wenigstens einen Prozessor (CPU) 904, der über einen Systembus 902 operativ mit anderen Komponenten gekoppelt ist. Eine GPU 905, ein Cache 906, ein Nurlesespeicher (ROM) 908, ein Direktzugriffsspeicher (RAM) 910, ein Eingabe/Ausgabe-(I/O-)Adapter 920, ein Netzwerkadapter 930, ein Benutzerschnittstellenadapter 940 und ein Anzeigeadapter 950 sind operativ mit dem Systembus 902 gekoppelt Zusätzlich kann der Hopper 200 über ein CNN 210, Objektdarstellungslernen und -erkennung 215, 220, Tracking bzw. ein Verfolgen 235 und Videodarstellung und -erkennung über den Multi-Hop-Transformer 250 verwendet werden.
Eine Speichervorrichtung 922 ist durch den I/O-Adapter 920 operativ mit dem Systembus 902 gekoppelt. Die Speichervorrichtung 922 kann eine beliebige Plattenspeichervorrichtung (z.B. eine magnetische oder optische Plattenspeichervorrichtung), eine magnetische Festkörpervorrichtung und so weiter sein.
Ein Transceiver 932 ist durch den Netzwerkadapter 930 operativ mit dem Systembus 902 gekoppelt.
Benutzereingabevorrichtungen 942 sind durch den Benutzerschnittstellenadapter 940 operativ mit dem Systembus 902 gekoppelt. Die Benutzereingabevorrichtungen 942 können irgendetwas von einer Tastatur, einer Maus, einem Keypad bzw. einer Kleintastatur, einer Bilderfassungsvorrichtung, einer Bewegungserfassungsvorrichtung, einem Mikrofon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorhergehenden Vorrichtungen enthält, und so weiter sein. Natürlich können auch andere Typen von Eingabevorrichtungen verwendet werden, während der Sinngehalt der vorliegenden Erfindung erhalten bleibt. Die Benutzereingabevorrichtungen 942 können derselbe Typ von Benutzereingabevorrichtung oder unterschiedliche Typen von Benutzereingabevorrichtungen sein. Die Benutzereingabevorrichtungen 942 werden verwendet, um Informationen zum Verarbeitungssystem einzugeben und von diesem auszugeben.
Eine Anzeigevorrichtung 952 ist durch den Anzeigeadapter 950 operativ mit dem Systembus 902 gekoppelt.
Das Verarbeitungssystem kann natürlich auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen im System enthalten sein, abhängig von der besonderen Implementierung derselben, wie es von einem gewöhnlichen Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten bzw. kabelgebundenen Ein- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können auch zusätzliche Prozessoren, Steuerungen bzw. Controller, Speicher und so weiter in verschiedenen Konfigurationen verwendet werden, wie es von einem gewöhnlichen Fachmann auf dem Gebiet leicht eingesehen wird. Diese und andere Variationen des Verarbeitungssystems werden von einem gewöhnlichen Fachmann auf dem Gebiet angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung leicht in Betracht gezogen.
7 ist ein Block-/Flussdiagramm eines beispielhaften Verfahrens zum Verwenden des Multi-Hop-Transformers gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem Block 1001 erfolgt ein Extrahieren von Merkmalskarten und Darstellungen von Frame-Ebenen aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN).
Bei einem Block 1003 erfolgt ein Durchführen von Lernen und Detektion von Objektdarstellungen.
Bei einem Block 1005 erfolgt ein Verknüpfen von Objekten durch eine Zeit über eine Verfolgung, um Objektspuren und Bildmerkmalsspuren zu erzeugen.
Bei einem Block 1007 erfolgt ein Zuführen der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer bei einer richtigen Antwort ankommt.
Bei einem Block 1009 erfolgt ein Verwenden von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Wie sie hierin verwendet sind, können die Ausdrücke „Daten“, „Inhalt“, „Information“ und ähnliche Ausdrücke austauschbar verwendet werden, um sich auf Daten zu beziehen, die gemäß verschiedenen beispielhaften Ausführungsformen aufgenommen, gesendet, empfangen, angezeigt und/oder gespeichert werden können. Somit sollte die Verwendung von irgendwelchen solchen Ausdrücken nicht dafür genommen werden, den Sinngehalt und Schutzumfang der Offenbarung zu beschränken. Weiterhin können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten von einer anderen Computervorrichtung zu empfangen, die Daten direkt von einer anderen Computervorrichtung empfangen werden oder sie können indirekt von über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen empfangen werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches. Gleichermaßen können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten zu einer anderen Computervorrichtung zu senden, die Daten direkt zu der anderen Computervorrichtung gesendet werden oder sie können indirekt über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen gesendet werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches.
Wie es von einem Fachmann auf dem Gebiet eingesehen werden wird, können Aspekte der vorliegenden Erfindung als ein System, ein Verfahren oder ein Computerprogrammprodukt ausgeführt werden. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer Ausführungsform gänzlich in Hardware, einer Ausführungsform gänzlich in Software (einschließlich Firmware, residenter Software, Mikrocode, etc.) oder einer Ausführungsform, die Software- und Hardware-Aspekte kombiniert, annehmen, auf die alle hierin allgemein als „Schaltung“, „Modul“, „Recheneinheit“, „Vorrichtung“ oder „System“ Bezug genommen werden kann. Weiterhin können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit darauf verkörpertem computerlesbaren Programmcode verkörpert ist.
Irgendeine Kombination von einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann, ist aber nicht darauf beschränkt, zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine Vorrichtung oder ein Gerät sein, oder irgendeine Kombination aus den voranstehenden. Mehr spezifische Beispiele (eine nicht erschöpfende Liste) des computerlesbaren Speichermediums würden das Folgende enthalten: eine elektrische Verbindung mit einem oder mehreren Drähten, eine portierbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), einen löschbaren programmierbaren Nurlesespeicher (EPROM oder USB-Stick), eine optische Faser bzw. Glasfaser, einen Nurlesespeicher einer portierbaren Computerdiskette (CD-ROM), eine optische Datenspeichervorrichtung, eine magnetische Datenspeichervorrichtung oder irgendeine geeignete Kombination des voranstehenden. In Zusammenhang mit diesem Dokument kann ein computerlesbares Speichermedium irgendein konkretes Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein ausgebreitetes Datensignal mit einem darin verkörperten computerlesbaren Programmcode enthalten, wie zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches ausgebreitetes Signal kann irgendeine Vielfalt von Formen annehmen, einschließlich, aber nicht darauf beschränkt, elektromagnetisch, optisch oder irgendeine geeignete Kombination davon. Ein computerlesbares Signalmedium kann irgendein computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung kommunizieren, ausbreiten oder transportieren kann.
Ein auf einem computerlesbaren Medium verkörperter Programmcode kann unter Verwendung von irgendeinem geeigneten Medium übertragen werden, einschließlich, aber nicht darauf beschränkt, drahtlos, drahtgebunden, Glasfaserkabel, RF, etc., oder irgendeiner geeigneten Kombination des voranstehenden.
Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination von einer oder mehreren Programmiersprachen geschrieben sein, einschließlich einer objektorientierten Programmiersprache, wie beispielsweise Java, Smalltalk, C++ oder ähnlichem, und herkömmlicher verfahrensorientierter Programmiersprachen, wie beispielsweise der C++-Programmiersprache oder ähnlichen Programmiersprachen. Der Programmcode kann gänzlich auf dem Computer eines Anwenders, teilweise auf dem Computer eines Anwenders, als ein alleinstehendes Software-Paket, teilweise auf dem Computer eines Anwenders und teilweise auf einem entfernten Computer oder gänzlich auf dem entfernten Computer oder Server ausführen. Beim letzteren Szenario kann der entfernte Computer mit dem Computer eines Anwenders durch irgendeinen Typ von Netzwerk verbunden sein, einschließlich eines lokalen Netzes (LAN) oder eines Weitverkehrsnetzes (WAN), oder die Verbindung kann zu einem externen Computer (zum Beispiel durch das Internet unter Verwendung eines Internet-Dienstanbieters) ausgeführt werden.
Aspekte der vorliegenden Erfindung werden nachstehend unter Bezugnahme auf Ablaufdiagrammdarstellungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Erfindung beschrieben. Es wird verstanden werden, dass jeder Block der Ablaufdiagrammdarstellungen und/oder der Blockdiagramme und Kombinationen von Blöcken in den Ablaufdiagrammdarstellungen und/oder den Blockdiagrammen durch Computerprogrammanweisungen implementiert werden können. Diese Computerprogrammanweisungen können einem Prozessor eines allgemeinen Computers, eines Computers für spezielle Zwecke oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Anweisungen, die über den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausführen, Mittel zum Implementieren der Funktionen/Handlungen erzeugen, die in dem Ablaufdiagramm und/oder den Blockdiagrammblöcken oder Blöcken oder Modulen spezifiziert sind.
Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte anleiten kann, auf eine bestimmte Weise zu funktionieren, so dass die im dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand bzw. ein Erzeugnis erzeugen bzw. produzieren, einschließlich Anweisungen, die die Funktion/Handlung implementieren, die im Ablaufdiagramm und/oder Blockdiagrammblock oder Blöcken oder Modulen spezifiziert ist.
Die Computerprogrammanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte geladen werden, um zu veranlassen, dass eine Reihe von Operationsschritten auf dem Computer, einer anderen programmierbaren Vorrichtung oder anderen Vorrichtungen bzw. Geräten durchgeführt wird, um einen computerimplementierten Prozess zu erzeugen bzw. zu produzieren, so dass die Anweisungen, die auf dem Computer oder einer anderen programmierbaren Vorrichtung ausführen, Prozesse zum Implementieren des Funktionen/Handlungen bereitstellen, die in dem Ablaufdiagramm und/oder dem Blockdiagrammblock oder den Blöcken oder Modulen spezifiziert sind.
Es ist einzusehen, dass beabsichtigt ist, das der Ausdruck „Prozessor“, wie er hierin verwendet wird, irgendeine Verarbeitungsvorrichtung enthält, wie zum Beispiel eine, welche eine CPU (zentrale Verarbeitungseinheit) und/oder eine andere Verarbeitungsschaltung enthält. Es ist auch zu verstehen, dass sich der Ausdruck „Prozessor“ auf mehr als eine Verarbeitungsvorrichtung beziehen kann und dass verschiedene Elemente, die mit einer Verarbeitungsvorrichtung assoziiert sind, durch andere Verarbeitungsvorrichtungen gemeinsam genutzt werden können.
Es ist beabsichtigt, dass der Ausdruck „Speicher“, wie er hierin verwendet ist, einen Speicher enthält, der mit einem Prozessor oder einer CPU assoziiert ist, wie zum Beispiel einen RAM, einen ROM, eine feste Speichervorrichtung (zB. eine Festplatte), eine entfernbare Speichervorrichtung (zB. eine Diskette), einen USB-Stick, etc.. Ein solcher Speicher kann als ein computerlesbares Speichermedium angesehen werden.
Zusätzlich ist beabsichtigt, dass die Formulierung „Eingabe/AusgabeVorrichtungen“ oder „I/O-Vorrichtungen“, wie sie hierin verwendet ist, zum Beispiel eine oder mehrere Eingabevorrichtungen (zB. Tastatur, Maus, Scanner, etc.) zum Eingeben von Daten zur Verarbeitungseinheit und/oder eine oder mehrere Ausgabevorrichtungen (z.B. Lautsprecher, Anzeige, Drucker etc.) zum Präsentieren von Ergebnissen, assoziiert mit der Verarbeitungseinheit, enthält.
Das Voranstehende ist in jederlei Hinsicht als illustrativ und beispielhaft, aber nicht als beschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern eher aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch das Patentrecht zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Sind somit die Aspekte der Erfindung mit den Details und der Besonderheit, die durch das Patentrecht erforderlich sind, beschrieben worden, ist das, was beansprucht ist und durch das Patent geschützt erwünscht ist, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 63/084066 [0001]
US 17/463757 [0001]

Claims

Verfahren zum Verwenden eines Frameworks für ein Multi-Hop-Denken zur Durchführung eines mehrstufigen kompositorischen Langzeitdenkens, wobei das Verfahren folgendes umfasst Extrahieren (1 001) von Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN); Durchführen (1003) von Lernen und Detektion von Objektdarstellungen; Verknüpfen (1005) von Objekten durch eine Zeit über Verfolgung, um Objektspuren und Bildmerkmalsspuren zu erzeugen; Zuführen (1007) der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer bei einer richtigen Antwort ankommt; und Verwenden (1009) von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Verfahren nach Anspruch 1, wobei räumliche Dimensionen in eine Dimension zusammengefaltet werden, wenn Lernen und Detektion von Objektdarstellungen durchgeführt werden.
Verfahren nach Anspruch 2, wobei eine Batch- bzw. Stapeldimension mit einer zeitlichen Dimension für die Merkmalskarten kombiniert wird, wenn Lernen und Detektion von Objektdarstellungen durchgeführt werden.
Verfahren nach Anspruch 3, wobei Positionscodierungen für jeden Zeitschritt und jede Auflösung gelernt werden und die Merkmalskarten auf eine elementartige Weise addiert werden, um Speicherdarstellungen zu erzeugen.
Verfahren nach Anspruch 4, wobei die Speicherdarstellungen einem transformerbasierten Objektdetektor zugeführt werden, der transformierte Objektdarstellungen ausgibt, die als Eingaben zu einem mehrschichtigen Perzeptron (MLP) verwendet werden.
Verfahren nach Anspruch 5, wobei der transformerbasierte Objektdetektor Einbettungen von Objektabfragen für jeden Frame im Videostream akzeptiert bzw. annimmt.
Verfahren nach Anspruch 6, wobei eine Verfolgung ein Bestimmen einer Assoziation zwischen zwei Objekten aus zwei aufeinanderfolgenden Frames des durch Objektklassenvereinbarung definierten Videostreams und einer Differenz zwischen zwei Begrenzungsrahmen umfasst.
Verfahren nach Anspruch 1, wobei mehrere Iterationen über eine einzelne Schicht des Multi-Hop-Transformers mit einer während bzw. while-Schleife ausgeführt werden.
Verfahren nach Anspruch 8, wobei jede Iteration der mehreren Iterationen einen Denk-Hop durch Auswählen von Zielobjekten des einen oder der mehreren Objekte in Auswahl-Frames des Videostreams durchführt.
Verfahren nach Anspruch 9, wobei die Hops auf eine autoregressive Weise arbeiten.
Nichtflüchtiges computerlesbares Speichermedium, das ein computerlesbares Programm zum Verwenden eines Frameworks für ein Multi-Hop-Denken zur Durchführung eines mehrstufigen kompositorischen Langzeitdenkens umfasst, wobei das computerlesbare Programm dann, wenn es auf einem Computer ausgeführt wird, veranlasst, dass der Computer die folgenden Schritte durchführt: Extrahieren (1 001) von Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN); Durchführen (1003) von Lernen und Detektion von Objektdarstellungen; Verknüpfen (1005) von Objekten durch eine Zeit über Verfolgung, um Objektspuren und Bildmerkmalsspuren zu erzeugen; Zuführen (1007) der Objektspuren und der Bildmerkmalsspuren zu einem Multi-Hop-Transformer, der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren der Objekte im Videostream befasst, bis der Multi-Hop-Transformer bei einer richtigen Antwort ankommt; und Verwenden (1009) von Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext, um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 11, wobei räumliche Dimensionen in eine Dimension zusammengefaltet werden, wenn Lernen und Detektion von Objektdarstellungen durchgeführt werden.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 12, wobei eine Batch- bzw. Stapeldimension mit einer zeitlichen Dimension für die Merkmalskarten kombiniert wird, wenn Lernen und Detektion von Objektdarstellungen durchgeführt werden.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 13, wobei Positionscodierungen für jeden Zeitschritt und jede Auflösung gelernt werden und die Merkmalskarten auf eine elementartige Weise addiert werden, um Speicherdarstellungen zu erzeugen.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 14, wobei die Speicherdarstellungen einem transformerbasierten Objektdetektor zugeführt werden, der transformierte Objektdarstellungen ausgibt, die als Eingaben zu einem mehrschichtigen Perzeptron (MLP) verwendet werden.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 15, wobei der transformerbasierte Objektdetektor Einbettungen von Objektabfragen für jeden Frame im Videostream akzeptiert bzw. annimmt.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 16, wobei eine Verfolgung ein Bestimmen einer Assoziation zwischen zwei Objekten aus zwei aufeinanderfolgenden Frames des durch Objektklassenvereinbarung definierten Videostreams und einer Differenz zwischen zwei Begrenzungsrahmen umfasst.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 11, wobei mehrere Iterationen über eine einzelne Schicht des Multi-Hop-Transformers mit einer während bzw. while-Schleife ausgeführt werden.
Nichtflüchtiges computerlesbares Speichermedium nach Anspruch 18, wobei jede Iteration der mehreren Iterationen einen Denk-Hop durch Auswählen von Zielobjekten des einen oder der mehreren Objekte in Auswahl-Frames des Videostreams durchführt.
System zum Verwenden eines eines Frameworks für ein Multi-Hop-Denken zur Durchführung eines mehrstufigen kompositorischen Langzeitdenkens, wobei das System folgendes umfasst: einen Speicher; und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, konfiguriert um: Merkmalskarten und Darstellungen auf Frame-Ebene aus einem Videostream durch Verwenden eines neuronalen Faltungsnetzes (CNN) zu extrahieren (1001); Lernen und Detektion von Objektdarstellungen durchzuführen (1003); Objekte durch eine Zeit über Verfolgung zu verknüpfen (1005), um Objektspuren und Bildmerkmalsspuren zu erzeugen; die Objektspuren und die Bildmerkmalsspuren zu einem Multi-Hop-Transformer zuzuführen (1007), der über Frames im Videostream hüpft, während er sich gleichzeitig mit einem oder mehreren Objekten im Videostream befasst, bis der Multi-Hop-Transformer bei einer richtigen Antwort ankommt; und Lernen und Erkennen von Videodarstellungen aus den Objekten und einem Bildkontext zu verwenden (1009), um ein Zielobjekt innerhalb des Videostreams zu lokalisieren.