DE112020004053T5

DE112020004053T5 - Mischen, beachten bzw. teilnehmen und anpassen: videodomänenanpassung durch clipreihenfolgevorhersage und clipaufmerksamkeitsausrichtung

Info

Publication number: DE112020004053T5
Application number: DE112020004053.4T
Authority: DE
Inventors: Gaurav Sharma; Samuel Schulter; Jinwoo Choi
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-08-27
Filing date: 2020-08-21
Publication date: 2022-09-01
Also published as: JP2022542676A; US20210064883A1; JP7286003B2; WO2021041176A1; US11468680B2

Abstract

Es wird ein Verfahren zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung bereitgestellt. Das Verfahren enthält ein Verwenden (701) kommentierter Quelldaten aus einem Quellvideo und unkommentierter Zieldaten aus einem Zielvideo bei einer unüberwachten Domänenanpassungseinstellung, ein Identifizieren und Ausrichten (703) unterschiedlicher Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus sowie ein Lernen (705) von Darstellungen menschlicher Handlung gegenüber invariantem räumlichen Hintergrund durch Verwenden eines selbstüberwachten Clipreihenfolgevorhersageverlusts für sowohl die kommentierten Quelldaten als auch die nicht kommentierten Zieldaten.

Description

INFORMATION BEZÜGLICH ZUGEHÖRIGER ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der am 27. August 2019 eingereichten vorläufigen Anmeldung Nr. 62/892,047 , der am 15. November 2019 eingereichten vorläufigen Anmeldung Nr. 62/935,674 und der am 20. August 2020 eingereichten US-Patentanmeldung Nr. 16/998,404 , die jeweils hierin durch Bezugnahme in ihrer jeweiligen Gesamtheit enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft Computer Vision Techniken und insbesondere Verfahren und Systeme zum Durchführen einer Videoanpassung durch Ausrichten von Merkmalen von Frames bzw. Einzelbildern oder Clips von Quellen- und Zielvideos.
Beschreibung des zugehörigen Standes der Technik
Neuere auf Computer Vision basierende Verfahren haben sehr hohe Leistungsfähigkeiten bei überwachten Aufgaben erreicht und viele reale Anwendungen sind möglich gemacht worden, wie beispielsweise Bildsuche, Gesichtserkennung, automatisches Video-Tagging bzw. Video-Indexierung bzw. Verschlagworten von Videos etc. Die Hauptgründe für den Erfolg sind eine Gestaltung von Netzwerken mit hoher Kapazität mit einem damit verbundenen bzw. assoziierten praktischen Lernverfahren und großen Mengen an annotierten Daten bzw. Daten mit Anmerkungen bzw. Kommentaren. Während der erste Aspekt skalierbar ist in Bezug auf eine Bereitstellung bzw. Verwendung bei mehreren neuen Szenarien, wird der zweite Aspekt der begrenzende Faktor. Das Problem von Annotationen ist bei videobezogenen Aufgaben noch komplizierter, da eine zeitliche Annotation nötig ist, z.B. muss der Beginn und das Ende von Aktionen in langen Videos spezifiziert werden.
ZUSAMMENFASSUNG
Es wird ein computerimplementiertes Verfahren zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung bereitgestellt. Das Verfahren enthält ein Verwenden von kommentierten bzw. annotierten Quelldaten aus einem Quellvideo und von unkommentierten Zieldaten aus einem Zielvideo in einer unüberwachten Domänenanpassungseinstellung, ein Identifizieren und Ausrichten von unterschiedlichen Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus und ein Lernen von gegenüber einem räumlichen Hintergrund invarianten Darstellungen menschlicher Handlung durch Verwenden eines Vorhersageverlusts für eine selbstüberwachte Clipreihenfolge für sowohl die kommentierten Quelldaten als auch die unkommentierten Zieldaten.
Es wird ein nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium, das ein computerlesbares Programm umfasst, zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung präsentiert, wobei das computerlesbare Programm, wenn es auf einem Computer ausgeführt wird, veranlasst, dass der Computer die Schritte zum Verwenden von kommentierten bzw. annotierten Quelldaten aus einem Quellvideo und unkommentierten Zieldaten aus einem Zielvideo in einer unüberwachten Domänenanpassungseinstellung, zum Identifizieren und Ausrichten von unterschiedlichen Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus und zum Lernen von gegenüber einem räumlichen Hintergrund invarianten Darstellungen menschlicher Handlung durch Verwenden eines Vorhersageverlusts für eine selbstüberwachte Clipreihenfolge für sowohl die kommentierten Quelldaten als auch die unkommentierten Zieldaten durchführt.
Es wird ein System zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung präsentiert. Das System enthält einen Speicher und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, konfiguriert, um kommentierte Quelldaten aus einem Quellvideo und unkommentierte Zieldaten aus einem Zielvideo in einer unüberwachten Domänenanpassungseinstellung zu verwenden, unterschiedliche Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus zu identifizieren und auszurichten und gegenüber einem räumlichen Hintergrund invariante Darstellungen menschlicher Handlung durch Verwenden eines Vorhersageverlusts für eine selbstüberwachte Clipreihenfolge für sowohl die kommentierten Quelldaten als auch die unkommentierten Zieldaten zu lernen.
Diese und weitere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die im Zusammenhang mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren bereitstellen, wobei:

1 ein Block-/Ablaufdiagramm eines gesamten Trainierens für das Verfahren Mischen und Achtgeben: Videodomänenanpassung (SAVA(= Shuffle and Attend: Video domain Adaptation)-Verfahren) gemäß Ausführungsformen der vorliegenden Erfindung ist;
2 ein Block-/Ablaufdiagramm eines Blocks zur Verarbeitung von Videos für das SAVA-Verfahren gemäß Ausführungsformen der vorliegenden Erfindung ist;
3 ein Block-/Ablaufdiagramm eines beispielhaften Clipreihenfolgevorhersage-Netzwerks gemäß Ausführungsformen der vorliegenden Erfindung ist;
4 ein Block-/Ablaufdiagramm einer praktischen Anwendung für das SAVA-Verfahren gemäß Ausführungsformen der vorliegenden Erfindung ist;
5 ein Block-/Ablaufdiagramm eines beispielhaften Verarbeitungssystems zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung gemäß Ausführungsformen der vorliegenden Erfindung ist;
6 ein Block-/Ablaufdiagramm eines beispielhaften Verfahrens zum Durchführen der Videodomänenanpassung zur Erkennung menschlicher Handlung gemäß Ausführungsformen der vorliegenden Erfindung ist; und
7 ein Block-/Ablaufdiagramm von Gleichungen, die bei einem beispielhaften Verfahren zum Durchführen der Videodomänenanpassung zur Erkennung menschlicher Handlung verwendet werden, gemäß Ausführungsformen der vorliegenden Erfindung ist.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Domänenanpassung bzw. Bereichsanpassung hat sich als wichtiges Thema bei der Computer Vision Technologie herausgestellt. Die Anwendungen von Domänenanpassung haben von einer einfachen Klassifizierung bis hin zu komplexeren Aufgaben, wie beispielsweise semantischer Segmentierung und Objekterkennung, gereicht. Jedoch ist die Anwendung auf Videoaufgaben, wie z.B. eine Handlungs- bzw. Aktionserkennung, noch eingeschränkt.
Die beispielhaften Ausführungsformen adressieren diese weniger untersuchte, aber herausfordernde und praktisch wichtige Aufgabe einer Videodomänenanpassung zur Erkennung menschlicher Handlung bzw. Aktion. Die beispielhaften Ausführungsformen beziehen sich in erster Linie auf eine unüberwachte Domänenanpassungseinstellung. Das heißt, dass die beispielhaften Ausführungsformen annotierte Daten für die Quelldomäne und nur nicht annotierte Daten für die Zieldomäne verwenden. Beispielhafte Bereiche bzw. Domänen, die verwendet werden, enthalten, sind aber nicht darauf beschränkt, (menschliche) Aktionen aus Filmen, uneingeschränkte Aktionen aus Sportvideos, YouTube-Videos und von Drohnen aufgenommenen Videos.
Die beispielhaften Ausführungsformen nutzen Erkenntnisse in Bezug auf eine solche Fragestellung bzw. Aufgabe und führen mehrere neuartige Anpassungskomponenten ein. Erstens wird angemerkt, dass die existierenden bzw. vorhandenen Domänenanpassungsverfahren, wenn sie direkt auf die Videoanpassungsaufgabe angewendet werden, in Abhängigkeit davon, ob die Videocodierung auf einem 2D-Netzwerk basiert, wie z.B. einem zeitlichen Beziehungsnetzwerk, oder einem 3D-Netzwerk, wie z.B. C3D, das ein 3D-Faltungsnetzwerk ist, Einzelbilder bzw. Frames oder Clips abtasten. Die beispielhaften Ausführungsformen tasten Clips (oder Frames) ab und mitteln dann die endgültigen Ausgaben von mehreren Clips zur Testzeit, wobei sie den Videoklassifizierungsnetzwerken folgen, auf denen sie aufgebaut sind. Ein Durchführen von Domänenanpassung durch Ausrichten von Merkmalen für alle abgetasteten Clips ist suboptimal, da viel Netzwerkkapazität auf ein Ausrichten von Clips verschwendet wird, die für die Aufgabe nicht entscheidend sind. Im schlimmsten Fall kann es sogar nachteilig sein, wenn eine große Anzahl unwichtiger Clips den Lernverlust dominiert und die Ausrichtung wichtiger Clips beeinträchtigt. Zum Beispiel können bei verschiedenen Clips, die die Aktion „Schlagen“ enthalten, ein Video aus einer ersten Domäne und ein Video aus einer zweiten Domäne dieselbe Aktion, das heißt „Schlagen“, haben. Jedoch kann das Video aus der zweiten Domäne eine Menge Clips enthalten, die für die Aktion „Schlagen“ irrelevant sind. Ein Ausrichten von Merkmalen aus diesen irrelevanten Clips würde die Zielleistungsfähigkeit nicht sehr verbessern.
Zweitens ist es wahrscheinlich, dass dieses clipweise Trainingsverfahren Korrelationen im Szenenkontext zum Unterscheiden der Aktionsklassen nutzt, z.B. könnte in einem formalen sportorientierten Datensatz ein Fechten in einem Fitnessstudio nur so vorkommen, wie es in einer bestimmten Anzahl von Videos gezeigt wird. Jedoch könnte die Zieldomäne bei der Domänenanpassungseinstellung erheblich unterschiedliche Szenenkontexte haben, z.B. kann dasselbe Fechten in einem Wohnzimmer oder Esszimmer vorkommen, wie es in einer anderen Gruppe von Videos gezeigt ist. Wenn das Quellmodell die korrelierte Fitnessstudio-Information verwendet, um eine Fechtaktion vorherzusagen, kann es bei derselben Klasse in der Zieldomäne, die keine Fitnessstudio-Szene hat, schlecht performen. Ähnliche Szenenkontext-Verfälschungsprobleme sind für ein Transfer-Lernen identifiziert worden und wenige konventionelle Arbeiten haben dieses Problem von Debiasing bzw. Entzerren der Darstellungen adressiert.
Basierend auf den obigen Erkenntnissen führen die beispielhaften Ausführungsformen Mischen und Beachten: Videodomänenanpassung (SAVA (=Shuffle and Attend: Video domain Adaptation)) mit mehreren neuartigen Komponenten ein. Erstens identifizieren die beispielhaften Ausführungsformen wichtige (als unterschiedlich definiert ist) Clips in Quell- und Zielvideos und richten sie aus, und zwar über einen Aufmerksamkeitsmechanismus. Der Aufmerksamkeitsmechanismus führt zur Unterdrückung von zeitlichen Hintergrundclips, was dem beispielhaften Verfahren hilft, sich auf ein Ausrichten von nur den wichtigen oder unterschiedlichen Clips zu konzentrieren. Eine solche Aufmerksamkeit wird gemeinsam für eine Anpassung und Klassifizierung auf Videoebene gelernt. Die beispielhaften Ausführungsformen schätzen die Wichtigkeit eines Clips durch Verwenden eines Hilfsnetzwerks und leiten das Video-Merkmal als gewichtete Kombination der identifizierten wichtigen/unterschiedlichen Clip-Merkmale ab.
Zweitens lernen die beispielhaften Ausführungsformen Darstellungen menschlicher Handlung invariant gegenüber räumlichem Hintergrund durch Verwenden einer selbstüberwachten Clipreihenfolgevorhersage-Aufgabe. Während es eine gewisse Korrelation zwischen dem Szenenkontext/Hintergrund und der Aktionsklasse geben könnte, wie z.B. Fußballfeld für die Aktion „Den Ball treten“, ist der Szenenkontext nicht ausreichend zum Vorhersagen der zeitlichen Clipreihenfolge. Im Gegensatz dazu zeigen die tatsächlichen menschlichen Handlungen die zeitliche Reihenfolge an, z.B. folgt die Clipreihenfolge bei der Aktion „Den Ball treten“ in etwa der Semantik von „Sich dem Ball nähern“, „Das Bein schwingen“ und „Treten“. Wenn die Clips gemischt werden, wäre die tatsächliche Darstellung menschlicher Handlung bzw. Aktion in der Lage, die richtige Reihenfolge wiederherzustellen, aber wahrscheinlich würde die szenenkontextbasierte Darstellung fehlschlagen.
Somit hilft ein Verwenden des auf der Vorhersage der Clipreihenfolge basierenden Verlustes der Szenenkontext-Verfälschung bei den Handlungs- bzw. Aktionsdarstellungen entgegenzuwirken und eine Anpassungsleistungsfähigkeit zu verbessern. Die beispielhaften Ausführungsformen verwenden die selbstüberwachte Clipreihenfolgevorhersage-Aufgabe für sowohl Quell- als auch Zieldaten. Da diese Hilfsaufgabe selbstüberwacht ist, benötigt sie keinerlei Anmerkung bzw. Annotation (was für Zielvideos nicht der Fall ist).
Die Vorteile der beispielhaften Ausführungsformen der vorliegenden Erfindung sind wenigstens wie folgt:
Die beispielhaften Ausführungsformen lernen, wichtige (unterschiedliche) Clips auszurichten, um eine verbesserte Darstellung für die Zieldomäne zu erreichen. Die beispielhaften Ausführungsformen verwenden eine selbstüberwachte Aufgabe, die das Modell ermutigt, sich mehr auf eine tatsächliche Aktion zu konzentrieren, und die Szenenkontextinformation unterdrückt, um Darstellungen zu lernen, die robuster gegenüber Bereichs- bzw. Domänenverschiebungen sind. Die selbstüberwachte Aufgabe benötigt keine zusätzlichen Annotationen bzw. Anmerkungen bzw. Kommentierungen.
Die beispielhaften Ausführungsformen beziehen sich auf eine unüberwachte Domänenanpassungseinstellung, bei der Quelldaten (x_s,y_s) ∈ X^S × Y^s kommentiert sind, wobei X^s eine Gruppe von Videos einschließlich menschenzentrierter Videos ist und Y^s eine Aktionsbezeichnungsgruppe ist, und unkommentierte Zieldaten x_t ∈ X^t sind. Die Aufgabe besteht darin, ein Modell unter Verwendung von allen Daten zu trainieren, das bei den Zieldaten gut performt. Da erwartet wird, dass sich die Verteilung von Quelldaten, z.B. Aktionen in Filmen, stark von der Verteilung von Zieldaten, z.B. Aktionen in Sportvideos, unterscheidet, funktioniert das nur an den Quelldaten trainierte Modell bei Zielvideos nicht gut. Die Herausforderung besteht darin, Verfahren zu entwickeln, die ein Modell anpassen können, an den Zieldatenunter Verwendung von sowohl kommentierten Quelldaten als auch nicht kommentierten Zieldaten zu arbeiten. Das beispielhafte Verfahren verwendet auf hoher Ebene die folgenden Komponenten für eine Anpassung, d.h. einen gegnerischen Verlust einer Domäne, Clipreihenfolgevorhersageverluste und ein Aufmerksamkeitsmodul oder einen Aufmerksamkeitsmechanismus zum Erzeugen von Video-Merkmalen.
Die 1 und 2 geben einen Überblick über das beispielhafte Verfahren, auf das als Shuffle and Attend: Video domain Adaptation (SAVA) Bezug genommen wird. Das beispielhafte Verfahren beginnt mit einem gleichmäßigen Abtasten von N Clips mit L Frames aus einem eingegebenen Video beliebiger Länge, wie es in den Blöcken zur Verarbeitung von Videos 103, 123 der 1 gezeigt ist. Das beispielhafte Verfahren codiert Quellclips 101 und Zielclips 121 durch ein Codierer-Netzwerk Ψ(·) oder 205, das entweder dasselbe für beide oder unterschiedlich sein kann. Hier ist der Kürze der Darstellung halber angenommen, dass es dasselbe ist. Dann verwendet das beispielhafte Verfahren die Clip-Merkmale für das Clipreihenfolgevorhersagenetzwerk Ω(·) oder 211, um eine Clipreihenfolgevorhersage 213 durchzuführen, und zum Bilden der Videoebenen-Merkmale 105, 125 unter Verwendung des Aufmerksamkeitsnetzwerks Φ(·) oder 215. Die nach dem Aufmerksamkeitsnetzwerk erhaltenen Videoebenen-Merkmale 105, 125 werden dann mit einem linearen Aktions-Klassifikator 107 nur für Quellvideos und einem Domänen-Klassifikator 127 für sowohl Quell- als auch Zielvideos 101, 121 verwendet.
Insgesamt gibt es drei Typen von Verlusten, die optimiert sind, nämlich gegnerischen Verlust einer Domäne 129, Clipreihenfolgevorhersageverluste für sowohl Quelle als auch Ziel 109, 131 und Klassifizierungsverlust 111 nur für Quelle. Die Clipreihenfolgevorhersageverluste 109, 131 arbeiten mit Clipebenen-Merkmalen, während die anderen zwei Verluste 111, 129 an Videoebenen-Merkmalen arbeiten. Die Clipreihenfolgevorhersageverluste 109, 131 helfen dem Modell, eine Darstellung zu lernen, die weniger auf einen korrelierten Quelldatenhintergrund angewiesen ist. Das Aufmerksamkeitsnetzwerk bietet das endgültige Video-Merkmal, indem es sich auf wichtige oder unterschiedliche Clips konzentriert. Der gegnerische Domänenverlust 129 hilft dem Modell, Videoebenen-Merkmale zwischen Quell- und Zielvideos 101, 121 auszurichten. Alle diese Verluste werden gemeinsam erlernt und führen somit zu einem trainierten System, das ausgerichtete Darstellungen liefert und eine höhere Aktionsklassifizierungsleistungsfähigkeit als die Ausgangsgrundlagen erreicht.
Wie es in 1 gezeigt ist, können die Quellvideos 101 derselben Klasse Korrelationen mit ähnlichem Hintergrundkontext haben und könnten die Zielvideos 121 derselben Klasse einen Hintergrund haben, der erheblich unterschiedlich vom Quellhintergrund ist. Während das Quellmodell einen Vorteil aus einer Lerndarstellung ziehen könnte, die teilweise vom korrelierten Hintergrund abhängt, würde dies zu einer schlechten Zielklassifizierung führen. Um dieses Problem zu adressieren, verwendet das beispielhafte Verfahren eine Clipreihenfolgevorhersage (COP (= Clip Order Prediction)), um eine bessere Verallgemeinerung der Darstellung zu ermöglichen. COP wäre nicht sehr genau, wenn sich das Modell auf den Hintergrund konzentriert, da sich der Hintergrund im Laufe der Zeit nicht signifikant ändern könnte. Jedoch hängt die zeitliche Entwicklung des Clips mehr von den Menschen ab, die Aktionen durchführen, und möglicherweise von den Objekten. Somit würde sich die Darstellung, wenn die beispielhaften Ausführungsformen die COP verwenden, mehr auf die relevanten Menschen und Objekte konzentrieren, während sie sich weniger auf den Hintergrund verlässt.
Die beispielhaften Ausführungsformen zeigen die Darstellung des COP-Netzwerks Ω (oder 211) in den 2 und 3. Die beispielhaften Ausführungsformen enthalten ein Hilfsnetzwerk, das Clip-Merkmale 207 als Eingabe verwendet, um die richtige Reihenfolge von gemischten Clips eines Eingangsvideos 201 vorherzusagen. Die beispielhaften Ausführungsformen tasten M Clips 203 mit jeweils L Frames aus dem Eingangsvideo 201 ab und mischen (303) die Clips 301. Die Aufgabe des Moduls besteht darin, die Reihenfolge der gemischten Clips vorherzusagen. Die beispielhaften Ausführungsformen formulieren die COP-Aufgabe als Klassifizierungsaufgabe mit M! Klassen, entsprechend allen Permutationstupeln der Clips, und betrachten das Tupel einer richtigen Reihenfolge als Ground-Truth-Klasse. Die beispielhaften Ausführungsformen verketten Clip-Merkmale paarweise (207) und übergeben sie zu einer vollständig verbundenen Schicht 309 mit ReLU-Aktivierung, gefolgt von einer Dropout-Schicht. Dann verketten die beispielhaften Ausführungsformen alle der Ausgabemerkmale und verwenden einen abschließenden linearen Klassifikator, um die Reihenfolge 315 der Eingangsclips 301 vorherzusagen. Da dies eine selbstüberwachte Aufgabe ist und keine zusätzliche Anmerkung benötigt, können die beispielhaften Ausführungsformen die Aufgabe für die Videos aus Quelle, Ziel oder beidem verwenden.
In Bezug auf Videoebenen-Merkmale basierend auf Clip-Aufmerksamkeit sind, wie es in den 1 und 2 gezeigt ist, nicht alle Clips gleich wichtig (unterschiedlich oder relevant) zum Vorhersagen der Aktion. Ein Ausrichten der irrelevanten Clip-Merkmale ist suboptimal, und es könnte sogar eine Leistungsfähigkeit beeinträchtigen, wenn die irrelevanten Clips den Verlust der wichtigen oder unterschiedlichen Clips dominieren. Eine Fokussieren auf die und ein Ausrichten der wichtigen Clips würde zu einer besseren Anpassungs- und Klassifizierungsleistungsfähigkeit führen. Um eine solche Fokussierung auf wichtige Clips zu erreichen, verwenden die beispielhaften Verfahren ein Clip-Aufmerksamkeitsmodul. Das Aufmerksamkeitsmodul nimmt eine Anzahl N von Clip-Merkmalen als Eingaben und gibt N Softmax-Scores aus, die die Wichtigkeit von jedem von ihnen anzeigen. Das endgültige Merkmal auf Videoebene wird durch den gewichteten Durchschnitt der Clip-Merkmale erhalten. Formal erhält in Anbetracht von x₁, ..., x_N als die N Clips aus einem Eingangsvideo x das beispielhafte Verfahren das Videoebenen-Merkmal x_v wie folgt: $w = Φ (ψ (x_{1}), \dots, ψ (x_{N})), x^{v} = ξ (w, ψ (x_{1}), \dots, ψ (x_{N})) = \sum_{i = 1}^{N} ω_{i} ψ (x_{i})$
wobei ξ(·) eine Funktion eines gewichteten Durchschnitts 220 ist ( 2).
Das Aufmerksamkeitsmodul Φ(·) ist ein Netzwerk, das N Clip-Merkmale mit einer Dimension D als Eingabe verwendet. Das Aufmerksamkeitsmodul gibt einen Wichtigkeitsvektor w ∈ R^N aus, der für eine gewichtete Durchschnittsbildung bzw. Mittelung verwendet wird, um das Videoebenen-Merkmal 105, 125 zu erhalten. Somit kann das beispielhafte Verfahren das Modell Ende-zu-Ende mit einem vollständigen Domänenanpassungssystem trainieren.
Es kann mehrere gültige Wahlen für die Architektur des Aufmerksamkeitsmoduls geben, wie z.B. ein standardmäßiges Feedforward-Netzwerk, das die Verkettung der Clip-Merkmale als Eingabe verwendet, oder ein rekurrentes Netzwerk, das die Clip-Merkmale einzeln nacheinander verbraucht.
In Bezug auf ein Trainieren trainieren die beispielhaften Ausführungsformen das Aufmerksamkeitsmodul mit einem standardmäßigen binären Kreuzentropieverlust 111 vor, wobei das Verfahren den Ground-Truth-Aufmerksamkeitsvektor wie folgt erhält. Die Ground-Truth-Bezeichnung ist 1, wenn der Clip vom clipbasierten Klassifizierungsnetzwerk der Ausgangsgrundlage bzw. Basis richtig klassifiziert ist und eine Konfidenz hat, die höher als ein Schwellenwert c_th ist, und sonst 0. Das Vortrainieren lässt zu, dass das Aufmerksamkeitsmodul von guten lokalen Optima ausgeht, indem es den Basis-Klassifikator nachahmt. Einmal vortrainiert, kann das Aufmerksamkeitsmodul dann entweder fest sein oder kann mit dem Rest des Netzwerks Ende-zu-Ende trainiert werden. Es wird angemerkt, dass das beispielhafte Verfahren das Aufmerksamkeitsmodul nur an dem Quelldatensatz trainiert, da das Trainieren Ground-Truth-Aktionsbezeichnungen benötigt.
Für die Merkmalsverteilungsausrichtung folgt das beispielhafte Verfahren dem gegnerischen Domänenanpassungs-Framework einer gegnerischen unterschiedlichen Domänenanpassung (ADDA (= Adversarial Discriminative Domain Adaptation)).
Das beispielhafte Verfahren definiert die Verluste wie folgt: $L_{CE} = - E_{(x_{s} {,y}_{s}) \sim (X^{s} {,Y}^{s})} \sum_{k = 1}^{X} [y_{s, k} log ƒ_{C} (x_{s}^{v})],$
$L_{{ADV}_{ƒ_{D}}} = - E_{x_{s} \sim x^{s}} [log ƒ_{D} (x_{s}^{v})] - E_{x_{t} \sim x^{t}} [log (1 - ƒ_{D} (x_{t}^{v})]$
$L_{{ADV}_{ψ_{t}}} = - E_{x_{t} \sim x^{t}} [log ƒ_{D} (x_{t}^{v})],$
wobei f_C der lineare Quell-Klassifikator ist und f_D der Domänen-Klassifikator ist. Das Video-Merkmal x^v = ξ(w, ψ(x₁)...,ψ(x_N)) ist der gewichtete Durchschnitt von Clipebenen-Merkmalen mit aus dem Aufmerksamkeitsmodul erhaltenen Gewichtungen w = Φ(ψ(x₁), ..., ψ(x_N)).
Dann wird das Optimierungsziel wie folgt angegeben: $θ_{s}^{*}, θ_{ƒ c}^{*}, θ_{ϕ}^{*} = argmin L_{CE, θ_{ϕ},} θ_{ƒ_{D}}^{*} = \underset{θ_{ƒ_{D}}}{argmin} L_{{ADV}_{ƒ_{D}}}, θ_{t}^{*} = \underset{θ_{t}}{argmin} L_{{ADV}_{ψ_{t}}}$
wobei θ_s der Parameter des Quell-Codierers ψ_s(·) ist, θ_fC der Parameter des Quell-Klassifikators f_C(·) ist, θ_t der Parameter des Ziel-Codierers ψ_t(·) ist und θ_fD der Parameter des Domänen-Klassifikators f_D(·) ist.
Das beispielhafte Verfahren optimiert diese Zielfunktion stufenweise. Das beispielhafte Verfahren optimiert zuerst den Quell-Kreuzentropieverlust L_CE über die Quellparameter θ_s und θ_fC mit den annotierten Quelldaten. Dann friert das beispielhafte Verfahren Quellmodellparameter θ_s und θ_fC ein und optimiert den Domänenklassifizierungsverlust $L_{A D V_{ƒ_{D}}}$
über den Parameter des Domänen-Klassifikators θ_fD und den invertierten GAN-Verlust $L_{A D V_{ψ_{t}}}$
über den Parameter des Ziel-Codierers θ_t mit sowohl den bezeichneten Quell- als auch den nicht bezeichneten Zieldaten.
Für eine Clipreihenfolgevorhersage 213 ist der COP-Verlust definiert als: $L_{COP} = - E_{(x,y) \sim (X,Y)} \sum_{k = 1}^{M!} [y_{k} log ƒ_{O} (ϕ)]$
Hier ist f_O die lineare Klassifizierungsfunktion für COP, ist ϕ = Ω(Φ(x₁), ..., Φ(x_M)) die ReLU-Aktivierung des MLP, die M Clip-Merkmale als Eingabe nimmt. Das beispielhafte Verfahren kann L_COP für sowohl Quelle als auch Ziel verwenden. Das beispielhafte Verfahren optimiert den Verlust L_COP über den Parameter des Quell-Codierers θ_s, den Parameter des Ziel-Codierers θ_t, den COP-MLP-Parameter θ_Ω und den Clipreihenfolgen-Klassifikator-Parameter θ_fO.
In Bezug auf eine Inferenz entfernt das beispielhafte Verfahren zur Zeit einer Inferenz den Domänendiskriminator und das Clipreihenfolgevorhersagenetzwerk. Das beispielhafte Verfahren teilt das Eingangsvideo in N Clips auf und extrahiert Clip-Merkmale. Diese Merkmale werden dann mit unter Verwendung des Aufmerksamkeitsnetzwerks erhaltenen Gewichtungen gemittelt. Der Aktionsklassifikator sagt die Aktion unter Verwendung des Videoebenen-Merkmals voraus.
4 ist ein Block-/Ablaufdiagramm einer praktischen Anwendung für das SAVA-Verfahren gemäß Ausführungsformen der vorliegenden Erfindung.
Eine an einem Auto 409 oder einer Drohne 411 angebrachte Kamera 401 kann Videos 403 abtasten, um durch das SAVA-Verfahren 407 zu verarbeitende Bilder oder Clips 405 zu extrahieren. Die Bilder oder Clips 405 enthalten menschliche Aktionen bzw. Handlungen 413.
Insbesondere wird ein Domänenanpassungsverfahren zur Erkennung menschlicher Aktionen bzw. Handlungen in Videos verwendet, die kommentierte Videos einer Quelldomäne, z.B. Videos von Dritten, zusammen mit unkommentierten Videos einer Zieldomäne, z.B. Videos von Drohnen 411 oder einer im Auto montierten Kamera 409, annehmen können, und kann einen Klassifikator zum Klassifizieren der Videos der Zieldomäne lernen. Dies ist ein allgemein anwendbares Szenario, wenn große Mengen von Quellvideos Anmerkungen bzw. Kommentare haben, aber die Menge an auf den Zieldomänenvideos verfügbaren Anmerkungen sehr gering ist (und aufwendig bzw. teuer zu sammeln ist). Das Ziel besteht darin, die Anmerkung an der Quelldomäne zu nutzen, um einen besseren Klassifikator für die Zieldomäne zu lernen. Das SAVA-Verfahren 407 ist eine neuartige Lösung für dieses Problem.
Als ein möglicher Anwendungsfall kann eine Drohne 411 in einem Gebiet herumfliegen, während sie Videos 403 der menschlichen Subjekte 413 aufnimmt, welche Videos mit dem SAVA-Verfahren 407 verarbeitet werden. Das SAVA-Verfahren 407 könnte auf der Drohne 411 selbst oder auf einem entfernten Server bzw. Remote-Server 415 in Betrieb sein bzw. ausgeführt werden, mit dem die Drohne 411 kommuniziert. Wenn die menschlichen Handlungen 413 einmal erfasst sind, werden sie in Kategorien, wie beispielsweise Gehen, Laufen, Werfen von Gegenständen usw., klassifiziert, die zur Überwachung, Prävention und Suche etc. verwendet werden können. Ähnliche Verwendungen sind mit anderen Videodomänen möglich, wie beispielsweise von fahrzeugmontierten Kameras 409.
Das beispielhafte Verfahren zielt darauf ab, nur eine Anpassung des Klassifikators der Quelle durchzuführen (z.B. dritte Person), um an der Zieldomäne (z.B. Drohnen- oder Videos einer ersten Person) gut zu performen.
Die Einstellung, auf die abgezielt ist, ist, wenn die Zielanmerkungen der Hauptaufgabe nicht verfügbar sind (sie z.B. sehr teuer zu erhalten sind), es aber andere Hilfsaufgaben gibt, deren Anmerkungen in der Zieldomäne (und möglicherweise der Quelle) verfügbar sind. Ein Beispiel einer Hauptaufgabe kann eine Aktionserkennung sein, und einige Beispiele von Hilfsaufgaben können, sind aber nicht darauf beschränkt, Segmentierung, Schätzung eines optischen Flusses, Objekterkennung, Clipreihenfolgevorhersage etc. sein.
Durch ein Durchführen einer solchen Multitasking-Anpassung, bei der die Hauptaufgabe eine Anmerkung in einer Quelle und nicht in einem Ziel hat, während viele Hilfsaufgaben eine Anmerkung in entweder sowohl einer Quelle als auch einem Ziel oder wenigstens einem von ihnen haben, kann der Klassifikator besser an das Ziel angepasst werden.
Zusammenfassend führten die beispielhaften Ausführungsformen Mischen und Beachten: Videodomänenanpassung bzw. Shuffle und Attend: Video Domain Adaptation (SAVA) ein, ein neuartiges Videodomänenanpassungsverfahren mit selbstüberwachter Clipreihenfolgevorhersage und einer auf einer Clip-Aufmerksamkeit basierenden Merkmalsausrichtung. Darüber hinaus befassen sich die beispielhaften Ausführungsformen mit der Frage einer Domänenanpassung in Videos für die Aufgabe einer Erkennung menschlicher Handlung. Inspiriert durch eine bildbasierte Domänenanpassung können die beispielhaften Verfahren eine Videoanpassung durch Ausrichten der Merkmale von Frames bzw. Einzelbildern oder Clips von Quell- und Zielvideos durchführen. Jedoch ist ein gleichmäßiges Ausrichten aller Clips suboptimal, da nicht alle Clips für die Aufgabe informativ sind. Die beispielhaften Verfahren führen einen Aufmerksamkeitsmechanismus ein, der sich auf unterschiedliche Clips konzentriert und direkt für die eine Ausrichtung auf Videoebene (Clip-Ebene) optimiert. Da die Hintergründe zwischen Quelle und Ziel oft sehr unterschiedlich sind, passt sich das Modell mit beschädigtem Quellhintergrund schlecht an Zieldomänenvideos an. Um dies zu abzumildern, führen die beispielhaften Verfahren die Verwendung einer Clipreihenfolgevorhersage als Hilfsaufgabe ein. Der Verlust der Clipreihenfolgevorhersage fördert, wenn er mit dem Verlust von Domänengegnern kombiniert ist, das Lernen von Darstellungen, die sich eher auf die an den Aktionen beteiligten Menschen und Objekte konzentrieren als auf die nicht informativen und sich sehr unterscheidenden Hintergründe (zwischen Quelle und Ziel).
5 ist ein Block-/Ablaufdiagramm eines beispielhaften Verarbeitungssystems zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung bzw. Aktion gemäß Ausführungsformen der vorliegenden Erfindung.
Das Verarbeitungssystem enthält wenigstens einen Prozessor oder eine Prozessorvorrichtung (CPU) 604 und eine Grafikverarbeitungseinheit (GPU) 605, die operativ mit anderen Komponenten über einen Systembus 602 gekoppelt sind. Ein Cache 606, ein Nurlesespeicher (ROM) 608, ein Direktzugriffsspeicher (RAM) 610, ein Eingabe/Ausgabe-(I/O-)Adapter 620, ein Netzwerk-Adapter 630, ein Anwenderschnittstellen-Adapter 640 und ein Anzeige-Adapter 650 sind operativ mit dem Systembus 602 gekoppelt. Computer Vision Techniken 660 können über den Bus 602 verwendet werden. Computer Vision Techniken 660 können durch Verwenden einer Videodomänenanpassung zur Erkennung menschlicher Aktion bzw. Handlung 670 über ein SAVA-Verfahren 672 erreicht werden.
Eine Speichervorrichtung 622 ist durch den I/O-Adapter 620 operativ mit dem Systembus 602 gekoppelt. Die Speichervorrichtung 622 kann irgendetwas von einer Plattenspeichervorrichtung (z.B. magnetischen oder optischen Plattenspeichervorrichtung), einer magnetischen Festkörpervorrichtung und so weiter sein.
Ein Transceiver 632 ist durch den Netzwerk-Adapter 630 operativ mit dem Systembus 602 gekoppelt.
Anwendereingabevorrichtungen 642 sind durch den Anwenderschnittstellen-Adapter 640 operativ mit dem Systembus 602 gekoppelt. Die Anwendereingabevorrichtungen 642 können irgendetwas von einer Tastatur, einer Maus, einer kleinen Tastatur bzw. Folientastatur, einer Bildaufnahmevorrichtung, einer Bewegungserfassungsvorrichtung, einem Mikrofon, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorstehenden Vorrichtungen enthält, und so weiter sein. Natürlich können auch andere Typen von Eingabevorrichtungen verwendet werden, während der Sinngehalt der vorliegenden Erfindung beibehalten wird. Die Anwendereingabevorrichtungen 642 können derselbe Typ von Anwendereingabevorrichtung oder unterschiedliche Typen von Anwendereingabevorrichtungen sein. Die Anwendereingabevorrichtungen 642 werden verwendet, um Information zu dem Verarbeitungssystem einzugeben und von diesem auszugeben.
Eine Anzeigevorrichtung 652 ist durch den Anzeige-Adapter 650 operativ mit dem Systembus 602 gekoppelt.
Das Verarbeitungssystem kann natürlich auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet ohne weiteres in Erwägung gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in dem System enthalten sein, und zwar in Abhängigkeit von der bestimmten Implementierung desselben, wie es von einem Fachmann auf dem Gebiet ohne weiteres verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können zusätzliche Prozessoren, Prozessorvorrichtungen, Steuerungen, Speicher und so weiter in verschiedenen Konfigurationen auch verwendet werden, wie es von einem Fachmann auf dem Gebiet ohne weiteres erkannt wird. Diese und andere Variationen des Verarbeitungssystems werden durch einen Fachmann auf dem Gebiet, dem die Lehren der hierin zur Verfügung gestellten vorliegenden Erfindung vorgegeben werden, ohne weiteres in Erwägung gezogen.
6 ist ein Block-/Ablaufdiagramm eines beispielhaften Verfahrens zum Durchführen der Videodomänenanpassung zur Erkennung menschlicher Handlung gemäß Ausführungsformen der vorliegenden Erfindung.
Bei einem Block 701 erfolgt ein Verwenden kommentierter Quelldaten aus einem Quellvideo und nicht kommentierter Zieldaten aus einem Zielvideo bei einer unüberwachten Domänenanpassungseinstellung.
Bei einem Block 703 erfolgt ein Identifizieren und ein Ausrichten unterschiedlicher Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus.
Bei einem Block 705 erfolgt ein Lernen von Darstellungen menschlicher Handlung invariant gegenüber räumlichem Hintergrund durch Verwenden eines selbstüberwachten Clipreihenfolgevorhersageverlustes für sowohl die kommentierten Quelldaten als auch die nicht kommentierten Zieldaten.
7 ist ein Block-/Ablaufdiagramm von Gleichungen, die bei Verfahren zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung verwendet werden, gemäß Ausführungsformen der vorliegenden Erfindung.
Gleichungen 800 identifizieren Merkmale auf Videoebene, Verluste, Optimierungsziele und Clipreihenfolgevorhersageverluste.
Wie sie hierin verwendet sind, können die Ausdrücke „Daten“, „Inhalt“, „Information“ und ähnliche Ausdrücke austauschbar verwendet werden, um sich auf Daten zu beziehen, die gemäß verschiedenen beispielhaften Ausführungsformen aufgenommen, gesendet, empfangen, angezeigt und/oder gespeichert werden können. Somit sollte die Verwendung von irgendwelchen solchen Ausdrücken nicht dafür genommen werden, den Sinngehalt und Schutzumfang der Offenbarung zu beschränken. Weiterhin können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten von einer anderen Computervorrichtung zu empfangen, die Daten direkt von einer anderen Computervorrichtung empfangen werden oder sie können indirekt von über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen empfangen werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches. Gleichermaßen können dort, wo hierin eine Computervorrichtung beschrieben ist, um Daten zu einer anderen Computervorrichtung zu senden, die Daten direkt zu der anderen Computervorrichtung gesendet werden oder sie können indirekt über eine oder mehrere dazwischenliegende bzw. vermittelnde Computervorrichtungen gesendet werden, wie zum Beispiel einen oder mehrere Server, Relais, Router, Netzwerk-Zugangspunkten, Basisstationen und/oder ähnliches.
Um für eine Interaktion mit einem Anwender zu sorgen, können Ausführungsformen des in dieser Beschreibung beschriebenen Gegenstands auf einem Computer implementiert sein, der eine Anzeigevorrichtung, wie z.B. einen CRT-(Kathodenstrahlröhren-) oder einen LCD-(Flüssigkristallanzeige-)Monitor, zum Anzeigen von Information zu einem Anwender hat, und eine Tastatur und eine Zeigevorrichtung, wie z.B. eine Maus oder einen Trackball bzw. eine Rollkugel, durch welche der Anwender eine Eingabe zum Computer bereitstellen kann. Andere Arten von Vorrichtungen können ebenso gut verwendet werden, um für eine Interaktion mit dem Anwender zu sorgen: zum Beispiel kann eine zum Anwender gelieferte Rückmeldung irgendeine Form einer sensorischen Rückmeldung sein, wie z.B. eine visuelle Rückmeldung, eine auditorische Rückmeldung oder eine taktile Rückmeldung; und eine Eingabe vom Anwender kann in irgendeiner Form empfangen werden, einschließlich einer akustischen, sprachlichen oder taktilen Eingabe.
Wie es von einem Fachmann auf dem Gebiet eingesehen werden wird, können Aspekte der vorliegenden Erfindung als ein System, ein Verfahren oder ein Computerprogrammprodukt ausgeführt werden. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer Ausführungsform gänzlich in Hardware, einer Ausführungsform gänzlich in Software (einschließlich Firmware, residenter Software, Mikrocode, etc.) oder einer Ausführungsform, die Software- und Hardware-Aspekte kombiniert, annehmen, auf die alle hierin allgemein als „Schaltung“, „Modul“, „Recheneinheit“, „Vorrichtung“ oder „System“ Bezug genommen werden kann. Weiterhin können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit darauf verkörpertem computerlesbaren Programmcode verkörpert ist.
Irgendeine Kombination von einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann, ist aber nicht darauf beschränkt, zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine Vorrichtung oder ein Gerät sein, oder irgendeine Kombination aus den voranstehenden. Mehr spezifische Beispiele (eine nicht erschöpfende Liste) des computerlesbaren Speichermediums würden das Folgende enthalten: eine elektrische Verbindung mit einem oder mehreren Drähten, eine portierbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), einen löschbaren programmierbaren Nurlesespeicher (EPROM oder USB-Stick), eine optische Faser bzw. Glasfaser, einen Nurlesespeicher einer portierbaren Computerdiskette (CD-ROM), eine optische Datenspeichervorrichtung, eine magnetische Datenspeichervorrichtung oder irgendeine geeignete Kombination des voranstehenden. In Zusammenhang mit diesem Dokument kann ein computerlesbares Speichermedium irgendein konkretes Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein ausgebreitetes Datensignal mit einem darin verkörperten computerlesbaren Programmcode enthalten, wie zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches ausgebreitetes Signal kann irgendeine Vielfalt von Formen annehmen, einschließlich, aber nicht darauf beschränkt, elektromagnetisch, optisch oder irgendeine geeignete Kombination davon. Ein computerlesbares Signalmedium kann irgendein computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einem Gerät zur Anweisungsausführung kommunizieren, ausbreiten oder transportieren kann.
Ein auf einem computerlesbaren Medium verkörperter Programmcode kann unter Verwendung von irgendeinem geeigneten Medium übertragen werden, einschließlich, aber nicht darauf beschränkt, drahtlos, drahtgebunden, Glasfaserkabel, RF, etc., oder irgendeiner geeigneten Kombination des voranstehenden.
Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination von einer oder mehreren Programmiersprachen geschrieben sein, einschließlich einer objektorientierten Programmiersprache, wie beispielsweise Java, Smalltalk, C++ oder ähnlichem, und herkömmlicher verfahrensorientierter Programmiersprachen, wie beispielsweise der C++-Programmiersprache oder ähnlichen Programmiersprachen. Der Programmcode kann gänzlich auf dem Computer eines Anwenders, teilweise auf dem Computer eines Anwenders, als ein alleinstehendes Software-Paket, teilweise auf dem Computer eines Anwenders und teilweise auf einem entfernten Computer oder gänzlich auf dem entfernten Computer oder Server ausführen. Beim letzteren Szenario kann der entfernte Computer mit dem Computer eines Anwenders durch irgendeinen Typ von Netzwerk verbunden sein, einschließlich eines lokalen Netzes (LAN) oder eines Weitverkehrsnetzes (WAN), oder die Verbindung kann zu einem externen Computer (zum Beispiel durch das Internet unter Verwendung eines Internet-Dienstanbieters) ausgeführt werden.
Aspekte der vorliegenden Erfindung werden nachstehend unter Bezugnahme auf Ablaufdiagrammdarstellungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Erfindung beschrieben. Es wird verstanden werden, dass jeder Block der Ablaufdiagrammdarstellungen und/oder der Blockdiagramme und Kombinationen von Blöcken in den Ablaufdiagrammdarstellungen und/oder den Blockdiagrammen durch Computerprogrammanweisungen implementiert werden können. Diese Computerprogrammanweisungen können einem Prozessor eines allgemeinen Computers, eines Computers für spezielle Zwecke oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Anweisungen, die über den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausführen, Mittel zum Implementieren der Funktionen/Handlungen erzeugen, die in dem Ablaufdiagramm und/oder den Blockdiagrammblöcken oder Blöcken oder Modulen spezifiziert sind.
Diese Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte anleiten kann, auf eine bestimmte Weise zu funktionieren, so dass die im dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand bzw. ein Erzeugnis erzeugen bzw. produzieren, einschließlich Anweisungen, die die Funktion/Handlung implementieren, die im Ablaufdiagramm und/oder Blockdiagrammblock oder Blöcken oder Modulen spezifiziert ist.
Die Computerprogrammanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Vorrichtungen bzw. Geräte geladen werden, um zu veranlassen, dass eine Reihe von Operationsschritten auf dem Computer, einer anderen programmierbaren Vorrichtung oder anderen Vorrichtungen bzw. Geräten durchgeführt wird, um einen computerimplementierten Prozess zu erzeugen bzw. zu produzieren, so dass die Anweisungen, die auf dem Computer oder einer anderen programmierbaren Vorrichtung ausführen, Prozesse zum Implementieren des Funktionen/Handlungen bereitstellen, die in dem Ablaufdiagramm und/oder dem Blockdiagrammblock oder den Blöcken oder Modulen spezifiziert sind.
Es ist einzusehen, dass beabsichtigt ist, das der Ausdruck „Prozessor“, wie er hierin verwendet wird, irgendeine Verarbeitungsvorrichtung enthält, wie zum Beispiel eine, welche eine CPU (zentrale Verarbeitungseinheit) und/oder eine andere Verarbeitungsschaltung enthält. Es ist auch zu verstehen, dass sich der Ausdruck „Prozessor“ auf mehr als eine Verarbeitungsvorrichtung beziehen kann und dass verschiedene Elemente, die mit einer Verarbeitungsvorrichtung assoziiert sind, durch andere Verarbeitungsvorrichtungen gemeinsam genutzt werden können.
Es ist beabsichtigt, dass der Ausdruck „Speicher“, wie er hierin verwendet ist, einen Speicher enthält, der mit einem Prozessor oder einer CPU assoziiert ist, wie zum Beispiel einen RAM, einen ROM, eine feste Speichervorrichtung (z.B. eine Festplatte), eine entfernbare Speichervorrichtung (z.B. eine Diskette), einen USB-Stick, etc.. Ein solcher Speicher kann als ein computerlesbares Speichermedium angesehen werden.
Zusätzlich ist beabsichtigt, dass die Formulierung „Eingabe/AusgabeVorrichtungen“ oder „I/O-Vorrichtungen“, wie sie hierin verwendet ist, zum Beispiel eine oder mehrere Eingabevorrichtungen (z.B. Tastatur, Maus, Scanner, etc.) zum Eingeben von Daten zur Verarbeitungseinheit und/oder eine oder mehrere Ausgabevorrichtungen (z.B. Lautsprecher, Anzeige, Drucker etc.) zum Präsentieren von Ergebnissen, assoziiert mit der Verarbeitungseinheit, enthält.
Das Voranstehende ist in jederlei Hinsicht als illustrativ und beispielhaft, aber nicht als beschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern eher aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch das Patentrecht zugelassen ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die Prinzipien der vorliegenden Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und dem Sinngehalt der Erfindung abzuweichen. Sind somit die Aspekte der Erfindung mit den Details und der Besonderheit, die durch das Patentrecht erforderlich sind, beschrieben worden, ist das, was beansprucht ist und durch das Patent geschützt erwünscht ist, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/892047 [0001]
US 62/935674 [0001]
US 16/998404 [0001]

Claims

Computerimplementiertes Verfahren, das auf einem Prozessor ausgeführt wird, zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Handlung ausgeführt wird, wobei das Verfahren folgendes umfasst: Verwenden (701) von kommentierten Quelldaten aus einem Quellvideo und nicht kommentierten Zieldaten aus einem Zielvideo bei einer unüberwachten Domänenanpassungseinstellung; Identifizieren und Ausrichten (703) unterschiedlicher Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus; und Lernen (705) von Darstellungen menschlicher Handlung gegenüber invariantem räumlichen Hintergrund durch Verwenden eines selbstüberwachten Clipreihenfolgevorhersageverlusts für sowohl die kommentierten Quelldaten als auch die nicht kommentierten Zieldaten.
Verfahren nach Anspruch 1, wobei der Aufmerksamkeitsmechanismus zeitliche Hintergrundclips unterdrückt.
Verfahren nach Anspruch 2, wobei der Aufmerksamkeitsmechanismus zur Anpassung und Klassifizierung auf Videoebene gemeinsam gelernt wird.
Verfahren nach Anspruch 3, wobei die unterschiedlichen Clips durch Verwenden eines Hilfsnetzwerks so ausgewählt werden, dass Video-Merkmale als gewichtete Kombination der identifizierten unterschiedlichen Clips abgeleitet werden.
Verfahren nach Anspruch 4, wobei der Aufmerksamkeitsmechanismus mit einem binären Kreuzentropieverlust vortrainiert wird, um einen Ground-Truth-Aufmerksamkeitsvektor zu erhalten.
Verfahren nach Anspruch 1, wobei der Clipreihenfolgevorhersage-(COP-) Verlust gegeben ist als: $L_{COP} = - E_{(x,y) \sim (X,Y)} \sum_{k = 1}^{M!} [y_{k} log ƒ_{O} (ϕ)]$
wobei f_O eine lineare Klassifizierungsfunktion für COP ist, ϕ = Ω(Φ(x₁), ..., Φ(x_M)) eine ReLU-Aktivierung eines Multilayer-Perzeptrons (MLP) ist, die M Clip-Merkmale als Eingabe nimmt, und (x, y) Daten sind.
Verfahren nach Anspruch 1, wobei ein domänengegnerischer Verlust einem Misch- und Beachtungs-Videodomänenanpassungs-(SAVA (= Shuffle and Attend: Video domain Adaptation)-)Modell hilft, Merkmale auf Videoebene zwischen den Quell- und Zielvideos auszurichten.
Nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium, das ein computerlesbares Programm zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Aktion bzw. Handlung umfasst, wobei das computerlesbare Programm dann, wenn es auf einem Computer ausgeführt wird, veranlasst, dass der Computer die folgenden Schritte durchführt: Verwenden (701) von kommentierten Quelldaten aus einem Quellvideo und nicht kommentierten Zieldaten aus einem Zielvideo bei einer unüberwachten Domänenanpassungseinstellung; Identifizieren und Ausrichten (703) unterschiedlicher Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus; und Lernen (705) von Darstellungen menschlicher Handlung gegenüber invariantem räumlichen Hintergrund durch Verwenden eines selbstüberwachten Clipreihenfolgevorhersageverlusts für sowohl die kommentierten Quelldaten als auch die nicht kommentierten Zieldaten.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 8, wobei der Aufmerksamkeitsmechanismus zeitliche Hintergrundclips unterdrückt.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 9, wobei der Aufmerksamkeitsmechanismus zur Anpassung und Klassifizierung auf Videoebene gemeinsam erlernt wird.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 10, wobei die unterschiedlichen Clips durch Verwenden eines Hilfsnetzes so ausgewählt werden, dass Video-Merkmale als gewichtete Kombination der identifizierten unterschiedlichen Clips abgeleitet werden.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 11, wobei der Aufmerksamkeitsmechanismus mit einem binären Kreuzentropieverlust vortrainiert wird, um einen Ground-Truth-Aufmerksamkeitsvektor zu erhalten.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 8, wobei der Clipreihenfolgevorhersage-(COP-) Verlust gegeben ist als: $L_{COP} = - E_{(x,y) \sim (X,Y)} \sum_{k = 1}^{M!} [y_{k} log ƒ_{O} (ϕ)]$
wobei f_O eine lineare Klassifizierungsfunktion für COP ist, ϕ = Ω(Φ(x₁), ..., Φ(x_M)) eine ReLU-Aktivierung eines Multilayer-Perzeptrons (MLP) ist, die M Clip-Merkmale als Eingabe nimmt, und (x, y) Daten sind.
Nicht-transitorisches computerlesbare Speichermedium nach Anspruch 8, wobei ein domänengegnerischer Verlust einem Misch- und Beachtungs-Video-domänenanpassungs-(SAVA (= Shuffle and Attend: Video domain Adaptation)-)Modell hilft, Merkmale auf Videoebene zwischen den Quell- und Zielvideos auszurichten.
System zum Durchführen einer Videodomänenanpassung zur Erkennung menschlicher Aktion bzw. Handlung, wobei das System folgendes umfasst: einen Speicher; und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, der oder die konfiguriert ist oder sind, um: annotierte Quelldaten aus einem Quellvideo und unkommentierte Zieldaten aus einem Zielvideo in einer unbeaufsichtigten Domänenanpassungseinstellung zu verwenden (701); unterschiedliche Clips in den Quell- und Zielvideos über einen Aufmerksamkeitsmechanismus zu identifizieren und auszurichten (703); und Darstellungen menschlicher Handlung gegenüber invariantem räumlichen Hintergrund durch Verwenden eines selbstüberwachten Clipreihenfolgevorhersageverlusts für sowohl die kommentierten Quelldaten als auch die nicht kommentierten Zieldaten zu lernen (705).
System nach Anspruch 15, wobei der Aufmerksamkeitsmechanismus zeitliche Hintergrundclips unterdrückt.
System nach Anspruch 16, wobei der Aufmerksamkeitsmechanismus zur Anpassung und Klassifizierung auf Videoebene gemeinsam gelernt wird.
System nach Anspruch 17, wobei die unterschiedlichen Clips durch Verwenden eines Hilfsnetzes so ausgewählt werden, dass Video-Merkmale als gewichtete Kombination der identifizierten unterschiedlichen Clips abgeleitet werden.
System nach Anspruch 18, wobei der Aufmerksamkeitsmechanismus mit einem binären Kreuzentropieverlust vortrainiert wird, um einen Ground-Truth-Aufmerksamkeitsvektor zu erhalten.
System nach Anspruchs 15, wobei der Clipreihenfolgevorhersage-(COP-) Verlust gegeben ist als: $L_{COP} = - E_{(x,y) \sim (X,Y)} \sum_{k = 1}^{M!} [y_{k} log ƒ_{O} (ϕ)]$
wobei f_O eine lineare Klassifizierungsfunktion für COP ist, ϕ = Ω(Φ(x₁), ..., Φ(x_M)) eine ReLU-Aktivierung eines Multilayer-Perzeptrons (MLP) ist, die M Clip-Merkmale als Eingabe nimmt, und (x, y) Daten sind.