DE102019008142A1

DE102019008142A1 - Lernen von Darstellungen unter Nutzung gemeinsamer semantischer Vektoren

Info

Publication number: DE102019008142A1
Application number: DE102019008142.0A
Authority: DE
Inventors: Xingyu Liu; Hailin Jin; Joonyoung Lee
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2019-02-13
Filing date: 2019-11-22
Publication date: 2020-08-13
Also published as: GB2581422A; AU2019280047A1; US11836932B2; US20200258241A1; CN111563601A; US20210319566A1; US11062460B2; GB2581422B; GB201918277D0; AU2019280047B9; AU2019280047B2

Abstract

Offenbart wird hier eine Technologie zum Lernen einer Bewegung in einem Video. Bei einer Implementierung extrahiert ein künstliches neuronales Netzwerk Merkmale aus einem Video. Ein CP-Modul (Correspondence Proposal CP, Entsprechungsvorschlag) führt für wenigstens einige der Merkmale eine Suche nach entsprechenden Merkmalen in dem Video auf Grundlage einer semantischen Ähnlichkeit eines gegebenen Merkmals zu anderen der Merkmale durch. Das CP-Modul generiert sodann einen gemeinsamen semantischen Vektor für jedes der Merkmale wenigstens auf Grundlage der semantischen Ähnlichkeit des gegebenen Merkmals zu einem oder mehreren der entsprechenden Merkmale und eines raumzeitlichen Abstandes des gegebenen Merkmals zu dem einen oder den mehreren der entsprechenden Merkmale. Das künstliche neuronale Netzwerk kann unter Nutzung der gemeinsamen semantischen Vektoren, die für die aus dem Video extrahierten Merkmale generiert worden sind, eine Bewegung in dem Video identifizieren.

Description

Technisches Gebiet
Aspekte der Offenbarung betreffen das Gebiet des maschinellen Lernens und der künstlichen Intelligenz und insbesondere das Lernen von Darstellungen in künstlichen neuronalen Netzwerken.
Hintergrund
Maschinelles Lernen ist an einem Punkt angekommen, wo künstliche neuronale Netzwerke das Lernen (oder Erkennen) von Aufgaben auf einem Niveau der Zuverlässigkeit, das zu demjenigen von Menschen gleich ist oder dieses sogar übertrifft, routinemäßig durchführen. Maschinelles Lernen ist nunmehr beispielsweise zu einer hochgenauen Bildklassifizierung, Objektdetektion, semantischen Segmentierung und Bildzerlegung fähig. Das Lernen einer Bewegung in einem Video bleibt jedoch ein schwieriges Gebiet.
Ein Video kann als Sequenz von Bildern, die sich mit der Zeit ändern, betrachtet werden. Um Darstellungen einer Bewegung in einem Video erfolgreich zu modellieren, erkennen Modelle maschinellen Lernens sowohl die Merkmale in den statischen Bildern des Videos wie auch die Entsprechung der Merkmale über Frames hinweg. Bisherige Lösungen implizieren einen ersten Schritt des Extrahierens von Merkmalen aus den Bildern, die ein Video bilden, so beispielsweise von Objekten, Kanten oder dergleichen. In einem zweiten Schritt werden Entsprechungen zwischen den Merkmalen identifiziert. Ein Objekt in einem Frame kann beispielsweise derart bestimmt werden, dass es einem oder mehreren Objekten in anderen Frames entspricht. Diese Beziehung kann auf vielerlei Arten ausgedrückt werden, so beispielsweise als zeitlicher Abstand zwischen Objekten oder als Abstand in einem Merkmalsraum zwischen Objekten. Die extrahierten Daten, also die Merkmale und ihre Entsprechungen, werden sodann in ein künstliches neuronales Netzwerk eingespeist, das eine Bewegung (oder andere Muster) in den Daten erkennen kann.
Um Muster in Daten zu erkennen, werden die künstlichen neuronalen Netzwerke während einer Trainingsphase mit Daten, für die die Ergebnisse bekannt sind, konfiguriert. Bei einem stark vereinfachten Beispiel ist ein künstliches neuronales Netzwerk aus Schichten von Neuronen zusammengesetzt. Die Schichten sind auf verschiedene Weisen miteinander verbunden, und die Neuronen feuern in Reaktion auf verschiedene Eingaben. Die Eingaben an der ersten Schicht sind diejenigen Daten, die analysiert werden, so beispielsweise das Volumen von Daten, die ein Video beschreiben. Die Ausgaben an der finalen Schicht stellen dar, was das neuronale Netzwerk gelernt oder erkannt hat. Dazwischen sind Zwischenschichten oder „verborgene Schichten“ vorhanden, die eine zusätzliche Verarbeitung vornehmen.
Jedes Neuron verfügt über eine Regel, die das Neuron anweist, auf Grundlage seiner Eingabe zu feuern (oder eben nicht zu feuern). Die Eingaben sind gewichtet, wobei sich die Gewichtungen auf Grundlage eines Rückkopplungsprozesses ändern können. Für den Fall von Videodaten sind die Eingaben in die erste Schicht eines künstlichen neuronalen Netzwerkes Vektoren, die mit nummerischen oder symbolischen Beschreibungen von Eigenschaften der Videodaten besiedelt sind. Die Eingaben in die verborgenen Schichten sind die Ausgaben der Neuronen in der ersten Schicht. Innerhalb der verborgenen Schichten sind die Ausgaben aus einer Schicht die Eingaben in eine nachfolgende Schicht. Die letzte Schicht des künstlichen neuronalen Netzwerkes nimmt die Ausgabe der letzten verborgenen Schicht als Eingabe und gibt selbst Werte aus, die dasjenige identifizieren, was gelernt worden ist, als die Signale durch die verschiedenen Schichten der Neuronen gelaufen sind.
Während der Trainingsphase eines neuronalen Netzwerkes ändern sich die Gewichtungen, die den Neuronen zugeordnet sind, auf Grundlage des Unterschiedes bzw. der Differenz zwischen dem Ergebnis, das von dem neuronalen Netzwerk erzeugt wird, und der korrekten Klassifizierung der Eingabe in das neuronale Netzwerk. Mit der Zeit sind die Gewichtungen nach vielen Rückkopplungszyklen derart konfiguriert, dass das neuronale Netzwerk neue Daten genau erkennen kann. Die finale Konfigurierung der Gewichtungen und Neuronen wird als Modell des untersuchten Gegenstandes betrachtet, so beispielsweise als Gesichtserkennungsmodell, als Spracherkennungsmodell oder im Falle einer Bewegung in einem Video als Bewegungsdarstellungsmodell.
Verschiedene Lösungswege zum Erkennen einer Bewegung in einem Video modellieren die Entsprechung zwischen Merkmalen auf verschiedene Arten. Ein Lösungsweg beschreibt die Entsprechung von Merkmalen über Frames hinweg beispielsweise durch deren zeitliche Beziehungen, während ein anderer Lösungsweg Pixelflows über Bilder hinweg modelliert und wieder ein anderer Lösungsweg den Abstand in einem Merkmalsraum zwischen Merkmalspaaren modelliert. Bedauerlicherweise treten bei diesen Lösungswegen aufgrund des problematischen Verhaltens der Merkmale (beispielsweise der Objekte) in einem Video Probleme auf, wenn sie mit einer schnellen Bewegung oder einer niedrigen Framerate konfrontiert sind. Die Merkmale erscheinen beispielsweise gegebenenfalls nicht in jedem Frame und sind, wenn sie doch auftreten, gegebenenfalls in Frames zu finden, die sehr weit voneinander entfernt sind. Bei einem weiteren Beispiel können sich Merkmale von Frame zu Frame verformen oder ihre Stellung verändern, was die Leistungsfähigkeit der Modelle zudem hemmt.
Bei einem ersten Lösungsweg wird ein faltungstechnisches neuronales Netzwerk dafür benutzt, die Merkmale in einem Video zu extrahieren, die jeweils durch einen semantischen Vektor beschrieben werden können. Faltungstechnische neuronale Netzwerke arbeiten, indem sie die Neuronen in den verborgenen Schichten auf beschränkte rezeptive Felder fokussieren. Obwohl in vollständig verbundenen (fully connected) neuronalen Netzwerken jedes Neuron in einer Schicht mit jedem Neuron in einer anderen Schicht verbunden ist, ist in faltungstechnischen neuronalen Netzwerken jedes Neuron nur mit einer beschränkten Anzahl von Neuronen in anderen Schichten verbunden. Dies ermöglicht, dass faltungstechnische neuronale Netzwerke spezifische Merkmale immer dort identifizieren, wo diese in einem Bild befindlich sein können, weshalb sie für die Merkmalsgenerierung sehr geeignet sind.
Beim ersten Lösungsweg wiederum identifiziert das faltungstechnische neuronale Netzwerk die Objekte, die Kanten oder die anderen derartigen Elemente, die in jedem Frame des Videos auftreten. Deren entsprechende semantische Vektoren beschreiben nummerische oder symbolische Charakteristiken der Merkmale. Ein rekurrentes neuronales Netzwerk wird sodann dafür benutzt, die zeitlichen Beziehungen zwischen den Merkmalen zu detektieren. Rekurrente neuronale Netzwerke zeigen bei Standardvergleichswerten (benchmarks) jedoch schlechtes Verhalten und sind infolge des Problems der explodierenden Gradienten und des Problems der verschwindenden Gradienten schwer zu trainieren.
Ein zweiter Lösungsweg setzt ebenfalls ein faltungstechnisches neuronales Netzwerk dafür ein, die Merkmale in einem Video zu erkennen, diesmal jedoch gekoppelt mit einem Zweig des optischen Flows, um eine Entsprechung über Frames hinweg zu modellieren. Die Ergebnisse des faltungstechnischen neuronalen Netzwerkes und der Analyse des optischen Flows werden sodann an ein neuronales Deep-Netzwerk gesendet. Diese Technik arbeitet bei Standardvergleichswerten (benchmarks) nicht gut, da der Zweig des optischen Flows auf Pixelebene gegebene Flows im Gegensatz zu einer auf Merkmalsebene gegebenen Entsprechung aufnimmt.
Schließlich ist ein dreidimensionales faltungstechnisches neuronales Netzwerk mit RGB-ausschließlichen Eingaben dafür eingesetzt worden, dynamische Änderungen gemeinsam und explizit mit dem statischen Aussehen zu lernen. Bei diesem Lösungsweg kann eine Kurzstreckenbewegung von Merkmalen in einem Video erkannt werden. Die Faltungsvorgänge arbeiten jedoch lokal und können daher eine Langstreckenbewegung, die bei sich schnell bewegenden Objekten oder niedrigen Frameraten auftritt, nicht erlernen.
Um diesem Problem beizukommen, sind nichtlokale neuronale Netzwerke vorgeschlagen worden, bei denen die erkannten Merkmale durch ihren paarweise gegebenen Merkmalsabstand global neugewichtet werden. Gekoppelt mit dreidimensionalen faltungstechnischen neuronalen Netzwerken können nichtlokale neuronale Netzwerke eine Langstreckenbewegung lernen, dies jedoch nicht sehr effektiv. Die neugewichteten Merkmale erzeugen vielmehr zu viel Rauschen, was zu fehleranfälligen Bewegungsklassifizierungen führt.
Es sollte daher einsichtig sein, dass ungeachtet dessen, dass die Technologie maschinellen Lernens bei vielen Arten von Erkennungsaufgaben beeindruckende Ergebnisse gezeigt hat, das Erkennen einer Bewegung in einem Video eine problematische Herausforderung bleibt. Allgemein bleibt das Erkennen des Verhaltens bei vielen Typen von Datensätzen, die zu einem Video analog sind, ebenfalls ein Problem. Einige dynamische Datensätze können beispielsweise als Abfolge von sich ändernden Bildern visualisiert werden. Das Erkennen des dynamischen Verhaltens in derartigen Datensätzen kann ebenso problematisch und schwierig wie das Erkennen einer Bewegung in einem Video sein.
Kurze Zusammenfassung
Es werden hier Verbesserungen für Entsprechungsvorschläge offenbart, die das Lernen einer Bewegung in einem Video und allgemeiner das Lernen des Verhaltens bei dynamischen Daten verbessern. Bei einer Implementierung stellt ein Entsprechungsvorschlagsmodul (Correspondence Propososal CP, Entsprechungsvorschlag) (CP-Modul) auf semantisch ähnliche Merkmalspaare in einem Video ab und betrachtet positionsbezogene Information der Merkmalspaare in dem Video. Das CP-Modul erzeugt gemeinsame semantische Vektoren, die semantische und positionsbezogene Information für die Merkmalspaare mit expliziter Codierung darin aufweisen. Die gemeinsamen semantischen Vektoren werden in ein künstliches neuronales Netzwerk eingespeist, das sodann eine Bewegung in dem Video unter Nutzung der gemeinsamen semantischen Vektoren als Eingabe erkennen kann. Das Abstellen auf semantisch ähnliche Merkmalspaare und das Hinzufügen bzw. Addieren von positionsbezogener Information stellen einen Fortschritt gegenüber bisherigen Lösungen dar und führen im Vergleich zur Leistungsfähigkeit anderer Lösungswege zu einem gemessen an gängigen Standardvergleichswerten (benchmarks) verbesserten Lernen einer Bewegung in einem Video.
Bei einer Implementierung extrahiert ein künstliches neuronales Netzwerk Merkmale aus einem Video. Das CP-Modul führt eine Suche nach entsprechenden Merkmalen in dem Video auf Grundlage einer semantischen Ähnlichkeit eines gegebenen Merkmals zu anderen der Merkmale durch. Das CP-Modul generiert sodann einen gemeinsamen semantischen Vektor für jedes der Merkmale wenigstens auf Grundlage der semantischen Ähnlichkeit des gegebenen Merkmals zu einem oder mehreren der entsprechenden Merkmale und eines raumzeitlichen Abstandes des gegebenen Merkmals zu dem einen oder den mehreren der entsprechenden Merkmale. Das künstliche neuronale Netzwerk identifiziert eine Bewegung in dem Video unter Nutzung der von dem CP-Modul generierten gemeinsamen semantischen Vektoren.
Die vorliegende kurze Zusammenfassung soll in vereinfachter Form eine Auswahl von Konzepten bereitstellen, die nachstehend in der Detailbeschreibung weiter erläutert werden. Es sollte einsichtig sein, dass diese Übersicht weder die Schlüsselmerkmale oder die wesentlichen Merkmale des beanspruchten Erfindungsgegenstandes identifizieren, noch dafür verwendet werden soll, den Umfang des beanspruchten Erfindungsgegenstandes zu beschränken.
Figurenliste
Viele Aspekte der Offenbarung erschließen sich besser anhand der nachfolgenden Zeichnungsfiguren. Die Komponenten in den Zeichnungsfiguren sind nicht unbedingt maßstabsgetreu; vielmehr liegt das Hauptaugenmerk auf der klaren Darstellung der Prinzipien der vorliegenden Offenbarung. Darüber hinaus bezeichnen in den Zeichnungsfiguren gleiche Bezugszeichen entsprechende Teile über mehrere Ansichten hinweg. Obwohl einige Ausführungsformen in Verbindung mit den Zeichnungsfiguren beschrieben werden, ist die Offenbarung nicht auf die hier offenbarten Ausführungsformen beschränkt. Beabsichtigt ist vielmehr, alle Alternativen, Modifikationen und Äquivalente abzudecken.

1 zeigt eine Lernarchitektur bei einer Implementierung.
2 zeigt einen Lernprozess bei einer Implementierung.
3 zeigt ein Entsprechungsvorschlagsmodul bei einer Implementierung.
4 zeigt einen weiteren Lernprozess bei einer Implementierung.
5 zeigt ein Betriebsszenario bei einer Implementierung.
6 zeigt eine Lernarchitektur bei einer Implementierung.
7 zeigt eine weitere Lernarchitektur bei einer Implementierung.
8 zeigt ein Rechensystem, das zum Implementieren der verschiedenen Betriebsumgebungen, Module, Architekturen, Prozesse, Szenarien und Sequenzen, die nachstehend anhand der Figuren erläutert werden, geeignet ist.

Detailbeschreibung
Es wird hier ein Entsprechungsvorschlagsmodul (CP-Modul) offenbart, das dafür in ein künstliches neuronales Netzwerk eingefügt werden kann, die von dem neuronalen Netzwerk benutzten Daten zu verbessern, um eine Bewegung, eine Handlung oder ein anderes derartiges dynamisches Verhalten in einem Video, bei Bilddaten oder dergleichen zu klassifizieren. Das CP-Modul verbessert das Lernen einer Bewegung in einem Video durch Erzeugen von gemeinsamen semantischen Vektoren, die sowohl über semantische wie auch raumzeitliche Information über darin codierte extrahierte Merkmale verfügen. Zusätzlich wählt das CP-Modul die entsprechenden Merkmale, die beim Erzeugen der gemeinsamen semantischen Vektoren berücksichtigt werden, auf Grundlage ihrer semantischen Ähnlichkeit zu einem gegebenen Merkmal aus. Das künstliche neuronale Netzwerk nimmt die gemeinsamen semantischen Vektoren als Eingabe und gibt eine oder mehrere gelernte Bewegungen, die in dem Video dargestellt sind, aus.
Das Einbeziehen der raumzeitlichen Information in die gemeinsamen semantischen Vektoren stellt einen Fortschritt gegenüber bisherigen Lösungswegen für das Problem des Lernens einer Bewegung in einem Video dar. Die Berücksichtigung der semantischen Ähnlichkeit beim Identifizieren der entsprechenden Merkmale stellt einen weiteren Fortschritt dar. Die Kombination der beiden Strategien ermöglicht, dass das künstliche neuronale Netzwerk eine Langstreckenbewegung in einem Video genauer als bisherige Lösungen erkennt. Dies rührt daher, dass die raumzeitliche Information ermöglicht, dass das künstliche neuronale Netzwerk berücksichtigt, wo in den jeweiligen Frames hiervon jedes Merkmal eines Entsprechungspaares befindlich ist. Das Auswählen der entsprechenden Merkmale (die die Entsprechungspaare zu einem gegebenen Merkmal bilden) auf Grundlage einer semantischen Ähnlichkeit zu dem gegebenen Merkmal verengt zudem das Gebiet von möglichen Merkmalen in anderen Frames, die gegebenenfalls dieselben wie ein gegebenes Merkmal sind. Die semantische (das Aussehen betreffende) und die raumzeitliche (die Bewegung betreffende) Information, die in den gemeinsamen semantischen Vektoren implizit codiert ist, stellt einen angereicherten bzw. erweiterten Satz von Daten dar, die, wenn sie in das künstliche neuronale Netzwerk während der Trainingsphasen und der Lernphasen im Betrieb eingespeist werden, die Fähigkeit des künstlichen neuronalen Netzwerkes, eine Bewegung in einem Video zu erkennen, verbessern.
Bei einer Implementierung extrahiert ein künstliches neuronales Hauptnetzwerk Merkmale aus einem Video und stellt sowohl semantische wie auch positionsbezogene Information für jedes Merkmal bereit. Beispiele für Merkmale beinhalten Objekte, Kanten, Pixel oder andere derartige Elemente, die aus dem Video extrahiert werden können. Die semantische Information beschreibt nummerisch oder symbolisch eine oder mehrere Eigenschaften eines gegebenen Merkmals, so beispielsweise dessen Farbkomponenten, Länge, Fläche, Zirkularität bzw. Kreisförmigkeit, Gradientengröße, Gradientenrichtung, Textur oder Graustufenintensität. Die positionsbezogene Information beschreibt ein Merkmal durch dessen räumliche Position in einem Frame und dessen zeitliche Position in dem Video. Die positionsbezogene Information beschreibt die raumzeitliche Position eines gegebenen Merkmals.
Das CP-Modul nimmt zwei Hauptfunktionen war, nämlich die Merkmalsgruppierung und die Bewegungseinbettung. Dies bedeutet, dass das CP-Modul einen Satz von entsprechenden Merkmalen für jedes Merkmal, das aus dem Video extrahiert ist, ausfindig macht und gruppiert und sodann einen gemeinsamen semantischen Vektor für jedes Merkmal, das das Aussehen und die Bewegung des darin codierten Merkmals aufweist, generiert. Das CP-Modul sucht nach den entsprechenden Merkmalen auf Grundlage einer semantischen Ähnlichkeit eines gegebenen Merkmals zu anderen der Merkmale. In einigen Fällen ist die Suche eine Nächster-Nachbar-Suche nach den top-k ähnlichsten Merkmalen.
Die entsprechenden Merkmale werden jeweils durch ihre semantische Information und ihre raumzeitliche Information beschrieben. Die semantische Information kann in semantischen Vektoren, die Anzahlen oder Symbole zur Beschreibung von Charakteristiken eines Merkmals beinhalten, dargestellt werden.
Die raumzeitliche Information kann der Ort eines Merkmals in dem Video sein, der mittels der Höhe (H), der Breite (W) und des Frames (T) in dem Video dort, wo das Merkmal zu finden ist, beschrieben wird. In einigen Fällen kann die semantische und raumzeitliche Information in einem Videodarstellungstensor kombiniert werden, der von dem CP-Modul als Punktwolke (point cloud) von Merkmalen mit TxHxW Punkten betrachtet wird.
Das CP-Modul nutzt die semantische Information und die raumzeitliche Information für die entsprechenden Merkmale, um einen gemeinsamen semantischen Vektor für jedes gegebene Merkmal zu generieren. Der sich ergebende gemeinsame semantische Vektor zeigt daher das Aussehen und die Bewegung seines darin codierten entsprechenden Merkmals.
Um die gemeinsamen semantischen Vektoren zu generieren, identifiziert das CP-Modul Paarungen eines gegebenen Merkmals mit den entsprechenden Merkmalen hiervon, die durch die Ähnlichkeitssuche ausfindig gemacht werden. Das CP-Modul generiert einen verketteten Vektor für jede Paarung, der aus den semantischen Vektoren für jedes Merkmal in einem Paar und der raumzeitlichen Versetzung zwischen beiden zusammengesetzt ist. Mit anderen Worten, jeder verkettete Vektor beinhaltet zwei semantische Vektoren und eine raumzeitliche Versetzungsinformation. Bei einer Alternative kann jeder verkettete Vektor einen Abstand zwischen den beiden semantischen Vektoren anstatt die beiden semantischen Vektoren selbst beinhalten. Ein Satz von verketteten Vektoren entsprechend den Merkmalspaaren wird so von dem CP-Modul erzeugt.
Die verketteten Vektoren können in ein oder mehrere interne neuronale Netzwerke eingespeist werden, die von dem neuronalen Hauptnetzwerk, das die Merkmale aus dem Video extrahiert hat, verschieden sind. Obwohl das neuronale Hauptnetzwerk Merkmale aus dem Video extrahiert hat, sind die internen neuronalen Netzwerke dafür trainiert, eine Mengenfunktion (set function) anzunähern. In einigen Fällen sind die internen neuronalen Netzwerke neuronale MLP-Netzwerke (Multi-layer Perceptron MLP). Die internen neuronalen Netzwerke nehmen die verketteten Vektoren als Eingabe, führen die Mengenfunktion (set function) an den Vektoren aus und geben potenzielle gemeinsame semantische Vektoren aus.
Jeder potenzielle gemeinsame semantische Vektor, der ausgegeben wird, entspricht einem der verketteten Vektoren, der als Eingabe zugeleitet worden ist, und beinhaltet eine nummerische oder symbolische semantische Darstellung der Bewegung, die aus dem verketteten Vektor gelernt worden ist. Es werden daher mehrere potenzielle gemeinsame semantische Vektoren erzeugt, die den mehreren verketteten Vektoren, die den internen neuronalen Netzwerken als Eingabe zugeleitet worden sind, entsprechen.
Die potenziellen gemeinsamen semantischen Vektoren werden sodann durch einen Pooling-Vorgang aggregiert, wofür Beispiele ein Max-Pooling, ein Durchschnitts-Pooling und dergleichen beinhalten. Die Ausgabe des Pooling-Vorganges ist der gemeinsame semantische Vektor, der die Bewegung des Merkmals in dem Video darstellt. Das CP-Modul erzeugt auf diese Weise einen gemeinsamen Vektor für jedes Merkmal in dem Video.
Die finale Ausgabe des CP-Moduls ist daher ein Satz von gemeinsamen semantischen Vektoren, die denjenigen Merkmalen entsprechen, die von dem künstlichen neuronalen Hauptnetzwerk aus dem Video extrahiert worden sind. Die gemeinsamen semantischen Vektoren werden als Eingabe in das künstliche neuronale Hauptnetzwerk eingespeist. Das künstliche neuronale Netzwerk, das anhand derartiger Daten trainiert worden ist, kann eine Bewegung in dem Video aus den Signalen erkennen und klassifizieren, die von den Neuronen in dem neuronalen Netzwerk in Reaktion auf die gemeinsamen semantischen Vektoren erzeugt worden sind. Das künstliche neuronale Netzwerk kann beispielsweise das Dribbeln mit einem Basketball, das Rollen einer Dose oder eine menschliche Geste aus den gemeinsamen semantischen Vektoren, die von dem CP-Modul generiert worden sind, erkennen.
1 zeigt eine Lernarchitektur 100 bei einer Implementierung. Die Lernarchitektur 100 beinhaltet ein künstliches neuronales Netzwerk 101 (hier als neuronales Netzwerk 101 bezeichnet). Das neuronale Netzwerk 101 beinhaltet verschiedene Schichten, die durch eine Schicht 103 und eine Schicht 105 dargestellt sind. Das neuronale Netzwerk 101 beinhaltet zudem ein Entsprechungsvorschlagsmodul (CP-Modul) 104, das zwischen der Schicht 103 und der Schicht 105 eingefügt ist. Die Lernarchitektur 100 kann in Hardware, Software oder Firmware sowie auf einem oder mehreren physischen oder virtuellen Rechensystemen, für das ein Rechensystem 801 in 8 repräsentativ ist, implementiert sein.
Das neuronale Netzwerk 101 stellt einen beliebigen Typ von künstlichem neuronalem Netzwerk dar, das eine Bewegung in Videodaten lernen kann. Beispiele für das neuronale Netzwerk 101 beinhalten unter anderem faltungstechnische neuronale Netzwerke (Convolutional Neural Networks CNNs), 3D-CNNs und einen beliebigen anderen Typ von künstlichem neuronalen Deep-Netzwerk.
Das neuronale Netzwerk 101 nimmt Videodaten 107 als Eingabe und stellt eine Angabe 109 einer Bewegung, die aus den Videodaten 107 gelernt worden ist, als Ausgabe bereit. Die Videodaten 107 können beispielsweise Darstellungen eines sich durch eine Szene bewegenden Objektes, einer menschlichen Geste oder dergleichen beinhalten, die das neuronale Netzwerk 101 erkennen und klassifizieren (das heißt lernen) kann. Die Videodaten 107 können die RGB-Werte (Rot-Grün-Blau RGB) der Pixel in dem Video oder auch alternative Darstellungen von RGB-Werten beinhalten, so beispielsweise HSV-Werte (Hue-Saturation-Value HSV, Farbton-Sättigungs-Wert) und HSL-Werte (Hue-Saturation-Lightness HSL, Farbton-Sättigungs-Helligkeit). In einigen Fällen beinhalten die Videodaten 107 primär RGB-Werte. Wenigstens die Hälfte der Videodaten 107 können beispielsweise RGB-Werte sein. In einigen Fällen beinhalten die Videodaten 107 ausschließlich RGB-Werte. Es sollte zudem einsichtig sein, dass das neuronale Netzwerk 101 einen beliebigen Typ von dynamischen Daten als Eingabe nehmen und eine Vielzahl von dynamischen Verhaltensweisen, die in den Daten dargestellt sind, erkennen kann.
Die Schicht 103 des neuronalen Netzwerkes 101 stellt eine oder mehrere Schichten von Neuronen dar, die Videodaten als Eingabe nehmen und Merkmale aus dem Video extrahieren können. Die Schicht 105 des neuronalen Netzwerkes 101 stellt eine oder mehrere Neuronenschichten dar, die gemeinsame semantische Vektoren als Eingabe nehmen, eine Bewegung aus den gemeinsamen semantischen Vektoren extrahieren (oder lernen) und eine Angabe der gelernten Bewegung ausgeben können.
Das CP-Modul nimmt die durch die Schicht 103 extrahierten Merkmale als Eingabe und generiert die gemeinsamen semantischen Vektoren zur Ausgabe an die Schicht 105. Bei einigen Implementierungen werden die durch die Schicht 103 extrahierten Merkmale dem CP-Modul 104 in einem Videodarstellungstensor präsentiert. In einigen Fällen fügt das CP-Modul 104 die sich ergebenden gemeinsamen semantischen Vektoren wieder zu dem Videodarstellungstensor hinzu bzw. addiert diese dazu und speist den modifizierten Videodarstellungstensor in die Schicht 105 ein. Bei einigen Szenarien ersetzen die gemeinsamen semantischen Vektoren die ursprünglichen semantischen Vektoren, die den Merkmalen, denen die gemeinsamen semantischen Vektoren entsprechen, zugeordnet sind.
Die Videodaten 107 stellen ein oder mehrere Segmente eines Videos dar, aus dem die Schicht 103 Merkmale extrahieren kann. Die Videodaten 107 beinhalten Frames 108 mit Merkmalen, die von der Schicht 103 entdeckt werden können. Der Ort eines jeden der Merkmale in dem Video kann mittels der Höhe (H), der Breite (W) und des Frames (T), an dem ein gegebenes Merkmal in dem Video zu finden ist, definiert werden.
Die Angabe 109 stellt das Endergebnis der Lernarchitektur 100 dar, so beispielsweise eine Beschreibung der Bewegung eines Objektes oder einer Entität in den Videodaten 107. Dies bedeutet, dass das neuronale Netzwerk 101 dasjenige, was ein bestimmtes Merkmal ist, sowie das Wesen von dessen Bewegung in dem Video beschreiben kann. Die Angabe 109 kann in Form eines Berichtes, einer Mitteilung, eines Datenbankeintrages, einer Interprozess-Mitteilung, einer Intraprozess-Mitteilung, einer angezeigten Information, aufgezeichneter Daten oder eines beliebigen anderen Typs von Angabe vorliegen.
Das CP-Modul 104 stellt ein beliebiges Hardware- und/oder Softwareelement / beliebige Hardware- und/oder Softwareelemente dar, die gemeinsame semantische Vektoren aus Merkmalen, die aus einem Video extrahiert werden, wie hier beschrieben ist, erzeugen können. Das CP-Modul 104 setzt einen Lernprozess 200 dafür ein, die gemeinsamen semantischen Vektoren zu extrahieren, aus denen eine Bewegung durch andere Abschnitte des neuronalen Netzwerkes 101 gelernt werden kann. Implementiert sein kann der Lernprozess 200 in Programmanweisungen im Zusammenhang mit einem beliebigen von Hardware, Softwareanwendungen, Modulen, Komponenten oder anderen derartigen Programmierelementen, die das CP-Modul 104 umfassen können. Die Programmanweisungen leiten das zugrunde liegende physische oder virtuelle Rechensystem / die zugrunde liegenden physischen oder virtuellen Rechensysteme dazu an, so zu arbeiten, wie für den Lernprozess 200 beschrieben ist, der sich im Übrigen auf die Schritte in 2 bezieht.
Im Betrieb empfängt das CP-Modul 104 einen Videodarstellungstensor von der Schicht 103 (Schritt 201). Die Eingabe und die Ausgabe des CP-Moduls 104 sind beide Videodarstellungstensoren der Form THW×C, wobei T die Anzahl von Frames bezeichnet, H×W die räumliche Abmessung bezeichnet und C die Anzahl von Kanälen bezeichnet.
Das CP-Modul 104 betrachtet den Videodarstellungstensor als Punktwolke, deren Datenpunkte den Merkmalen, die durch die Schicht 103 aus den Videodaten 107 extrahiert worden sind, entsprechen. In dem Tensor ist jeder Punkt mittels des raumzeitlichen Ortes eines der Merkmale, die aus dem Video extrahiert worden sind, definiert. Bei diesem Beispiel sind die raumzeitlichen Orte der Merkmale durch ihre THW-Koordinaten in dem Video bezeichnet. Zusätzlich wird ein semantischer Vektor für jeden Punkt bereitgestellt, der beschreibbare Dimensionen des Merkmals darstellt. Viele Dimensionen sind möglich und hängen von der Konfigurierung der Schicht 103 ab. In einigen Fällen können die semantischen Vektoren Information beinhalten, die primär aus den RGB-Werten (Rot-Grün-Blau RGB), die in das künstliche neuronale Netzwerk 101 eingegeben werden, hergeleitet ist.
Das CP-Modul 104 führt für jedes in dem Tensor dargestellte Merkmal eine vektorbasierte Ähnlichkeitssuche der anderen Merkmale in dem Tensor durch (Schritt 203). Die Ähnlichkeitssuche berücksichtigt die semantischen Vektoren der anderen Merkmale in dem Video, kann jedoch diejenigen in demselben Frame wie ein gegebenes Merkmal ausschließen.
Die Ergebnisse der Ähnlichkeitssuche für jedes Merkmal sind eine Gruppe von entsprechenden Merkmalen, die dem gegebenen Merkmal zugeordnet werden können. Es können verschiedene Merkmalspaare zwischen einem gegebenen Merkmal und seinen entsprechenden Merkmalen gebildet werden. Bei einem Beispiel kann eine Ähnlichkeitssuche die top-k Merkmale identifizieren, die semantische Vektoren aufweisen, die zu dem semantischen Vektor eines gegebenen Merkmals am ähnlichsten sind. Daher können k Merkmalspaare zwischen dem gegebenen Merkmal und jedem der entsprechenden Merkmale gebildet werden.
Das CP-Modul 104 generiert einen verketteten Vektor für jedes Merkmalspaar, das zwischen einem gegebenen Merkmal und dessen entsprechenden Merkmalen gebildet ist (Schritt 205). Der verkettete Vektor beinhaltet den semantischen Vektor für das gegebene Merkmal, den semantischen Vektor für das entsprechende (oder paarige) Merkmal und eine raumzeitliche Versetzung zwischen den beiden. Bei einigen Implementierungen kann der verkettete Vektor den Abstand (oder die Differenz bzw. den Unterschied) zwischen den beiden semantischen Vektoren anstelle der Vektoren selbst beinhalten.
Die verketteten Vektoren werden in ein oder mehrere interne neuronale Netzwerke eingespeist, die dafür trainiert sind, eine Mengenfunktion (set function) anzunähern. Die internen neuronalen Netzwerke, die von dem von dem neuronalen Netzwerk 101 dargestellten künstlichen neuronalen Hauptnetzwerk verschieden sind, nehmen die verketteten Vektoren als Eingabe und erzeugen potenzielle gemeinsame semantische Vektoren (Schritt 207). In einigen Fällen besteht eine Eins-zu-Eins-Entsprechung zwischen der Anzahl von verketteten Vektoren, die das CP-Modul 104 erzeugt, und der Anzahl von internen neuronalen Netzwerken, die vorhanden sind. Auf diese Weise können die verketteten Vektoren in die internen neuronalen Netzwerke parallel eingespeist werden.
Die Ausgaben der internen neuronalen Netzwerke werden durch einen Pooling-Vorgang (beispielsweise einen Max-Pooling-Vorgang) aggregiert, dessen Ausgabe zu dem gemeinsamen semantischen Vektor für ein gegebenes Merkmal wird (Schritt 209). Das CP-Modul 104 fügt die gemeinsamen semantischen Vektoren zu dem ursprünglichen Videodarstellungstensor oder einem neuen Videodarstellungstensor hinzu bzw. addiert diese hierzu (Schritt 211). Das CP-Modul 104 speist den Videodarstellungstensor mit den darin beinhalteten gemeinsamen semantischen Vektoren in die Schicht 105 des neuronalen Netzwerkes 101 ein (Schritt 213). Eine oder mehrere Schichten des neuronalen Netzwerkes 101, darunter die Schicht 105, verarbeiten die gemeinsamen semantischen Vektoren und die Signale, die sie erzeugen, weiterhin, um zu der Angabe 109 einer Bewegung, die in den Videodaten 107 erkannt wird, zu gelangen.
3 zeigt eine detailliertere Ansicht eines CP-Moduls 300 und dessen Vorgänge bei einer Implementierung. Das CP-Modul 300 beinhaltet eine Gruppierungsschicht 301 und eine Einbettungsschicht 303. Die Gruppierungsschicht 301 stellt ein oder mehrere beliebige Hardware-, Software- oder Firmware-Elemente des CP-Moduls 300 dar, die die Sätze von entsprechenden Merkmalen für jedes Merkmal, das aus einem Video extrahiert ist, identifizieren können. Die Einbettungsschicht 303 stellt ein oder mehrere beliebige Hardware-, Software- oder Firmware-Elemente des CP-Moduls 300 dar, die verkettete Vektoren erzeugen und einen gemeinsamen semantischen Vektor aus den verketteten Vektoren herleiten können.
Die Gruppierungsschicht 301 nimmt einen Videodarstellungstensor 311 als Eingabe und wählt für jedes Merkmal dessen k wahrscheinlichste entsprechende Vektoren in dem Tensor aus. Der Videodarstellungstensor 311 wird von der Gruppierungsschicht 301 als dreidimensionale Punktwolke betrachtet, deren Punkte, die mittels ihrer THW-Koordinaten in der Punktwolke definiert sind, diejenigen Merkmale darstellen, die von einem neuronalen Netzwerk aus einem Video extrahiert werden. Die Gruppierungsschicht 301 führt eine semantische Ähnlichkeitssuche für jedes der Merkmale durch, was zu einer Gruppe von Merkmalen führt, die einem gegebenen Merkmal zugeordnet ist. Die Suche kann allein auf der semantischen Ähnlichkeit beruhen, um sicherzustellen, dass eine Entsprechung über beliebig lange raumzeitliche Strecken hinweg identifiziert werden kann. Merkmale innerhalb desselben Frames können ausgeschlossen werden, um die zeitliche Konsistenz zwischen Frames sicherzustellen. Der Entsprechungssatz 313 beinhaltet beispielsweise ein Merkmal / einen Punkt in seinem Zentrum und acht verschiedene Merkmale/Punkte darum herum. Jeder der acht anderen Punkte stellt ein Merkmal in einem anderen Frame des Videos dar, das im Vergleich zu dem Merkmal/Punkt im Zentrum des Satzes denselben oder einen ähnlichen semantischen Vektor aufweist.
Jedes der Merkmale / jeder der Punkte ist in einem gewissen Abstand von dem Zentralmerkmal/Zentralpunkt des Entsprechungssatzes 313 entfernt befindlich, was durch Subtrahieren der THW-Koordinaten von denjenigen des Zentralmerkmals berechnet werden kann. Die Versetzung ist dann ein Vektor, der den Abstand und die Richtung eines jeden der Merkmale in der Gruppe von dem Zentralmerkmal darstellt.
Die Einbettungsschicht 303 nimmt die identifizierten Entsprechungsgruppen als Eingabe und erzeugt einen gemeinsamen semantischen Vektor 315 für jedes Merkmal als Ausgabe. Dazwischen generiert die Einbettungsschicht 303 verkettete Vektoren aus den semantischen Vektoren, die den Merkmalen in den Entsprechungsgruppen zugeordnet sind. Zusätzlich generiert die Einbettungsschicht 303 potenzielle gemeinsame semantische Vektoren aus den verketteten Vektoren und den gemeinsamen semantischen Vektor 315 („g“) aus den potenziellen gemeinsamen semantischen Vektoren. Die sich ergebenden gemeinsamen semantischen Vektoren für die Merkmale können in den ursprünglichen oder einen anderen Videodarstellungstensor rückgemischt und in ein oder mehrere neuronale Netzwerke eingespeist werden.
4 zeigt einen Lernprozess 400 bei einer Implementierung, die ein Beispiel für einen weiteren Lernprozess ist, der von den Elementen des CP-Moduls 300 eingesetzt werden kann. Implementiert sein kann der Lernprozess 400 auch in Programmanweisungen im Zusammenhang mit einem beliebigen von Hardware, Softwareanwendungen, Modulen, Komponenten oder anderen derartigen Programmierelementen, die in den verschiedenen Elementen des CP-Moduls 300 eingesetzt werden. Die Programmanweisungen leiten das zugrunde liegende physische oder virtuelle Rechensystem / die zugrunde liegenden physischen oder virtuellen Rechensysteme an, so zu arbeiten, wie für den Lernprozess 400 beschrieben wird, der sich im Übrigen auf die Schritte in 4 bezieht.
Im Betrieb empfängt die Gruppierungsschicht 301 den Videodarstellungstensor 311 von einem künstlichen neuronalen Netzwerk (Schritt 401). Für jedes der Merkmale (oder für jeden der Punkte) in dem Tensor führt die Gruppierungsschicht 301 eine k-Nächster-Nachbar-Suche durch, um die top-k Elemente zu identifizieren, die einen semantischen Vektor aufweisen, der zu demjenigen eines gegebenen Merkmals am ähnlichsten ist (Schritt 403).
Bei einigen Implementierungen beinhaltet der Schritt 403 das Berechnen einer paarweise negativen L₂-Abstandsmatrix der Form THW×THW des Tensormerkmalsraumes (Schritt 403A), was effizient durch Vorgänge des Matrizenmultiplizierens bewerkstelligt werden kann. Der negative L₂-Abstand kann als Metrik benutzt werden, um zwischen Paaren eines gegebenen Merkmals und anderer Merkmale in dem Tensor einen Vergleich vorzunehmen.
Als Nächstes setzt das Gruppierungsmodul 301 die Werte der Merkmale in den T-Diagonalblockmatrizen der Form HW×HW auf negativ unendlich (Schritt 403B). Dieser Schritt dient dazu, Merkmale innerhalb desselben Frames wie ein gegebenes Merkmal davon auszuschließen, durch die Ähnlichkeitssuche als potenziell entsprechende Merkmale ausgewählt zu werden. Schließlich wendet das Gruppierungsmodul 301 einen arg-top-k-Vorgang entlang der Reihendimension der Matrix an (Schritt 403C), wodurch ein Tensor der Form THWxk ausgegeben wird, in dem die i-te Reihe die Indizes der k-nächsten Nachbarn des i-ten Merkmals sind.
Nachdem die nächsten Nachbarn für ein Merkmal ausfindig gemacht worden sind, erzeugt die Einbettungsschicht 303 verkettete Vektoren für jede Paarung eines gegebenen Merkmals mit den jeweiligen der entsprechenden Merkmale hiervon (Schritt 405). Die Paarungen setzen sich jeweils aus einem gegebenen Merkmal, für das die Paarungen erzeugt werden, und einem anderen der top-k Merkmale, von denen man herausgefunden hat, dass sie zu dem Merkmal am ähnlichsten sind, zusammen. Jeder der verketteten Vektoren beinhaltet die beiden semantischen Vektoren für die beiden Merkmale in einem entsprechenden Paar wie auch die raumzeitliche Versetzung eines Merkmals relativ zu dem anderen. Die Versetzung kann durch Subtrahieren der entsprechenden Koordinatenwerte voneinander berechnet werden (beispielsweise t-t, h-h und w-w).
Als Nächstes speist die Einbettungsschicht 303 die verketteten Vektoren in ein oder mehrere interne neuronale Netzwerke ein (Schritt 407). Die internen neuronalen Netzwerke können bei einigen Implementierungen Multilayer-Perceptrons mit geteilten Gewichtungen sein, die zum Annähern einer Mengenfunktion (set function) trainiert sind. Die internen neuronalen Netzwerke geben potenzielle gemeinsame semantische Vektoren als Ergebnis der Signale aus der Erzeugung durch die verketteten Vektoren in den internen neuronalen Netzwerken aus.
Nach dem Einspeisen der verketteten Vektoren in die internen neuronalen Netzwerke führt die Einbettungsschicht 303 einen Max-Pooling-Vorgang an den aggregierten Ausgaben der internen neuronalen Netzwerke durch (Schritt 409). Der Max-Pooling-Vorgang wird an den potenziellen gemeinsamen semantischen Vektoren durchgeführt, um diejenigen Signale auszuwählen, die hinsichtlich der Entsprechung eines gegebenen Merkmals am informativsten sind. Der sich ergebende gemeinsame semantische Vektor weist ein Aussehen und eine Bewegung mit impliziter Codierung darin infolge der verschränkten (entangled) Darstellung auf, die durch Mischen von semantischen Vektoren und der Versetzung in den verketteten Vektoren, die in die internen neuronalen Netzwerke eingespeist sind, auftritt.
Die Einbettungsschicht 303 fügt die sich ergebenden gemeinsamen semantischen Vektoren für die Merkmale wiederum zu dem Videodarstellungstensor hinzu bzw. addiert diese hierzu (Schritt 411) und speist den modifizierten Videodarstellungstensor wiederum in das neuronale Hauptnetzwerk ein (Schritt 413). Das neuronale Hauptnetzwerk nimmt den modifizierten Videodarstellungstensor als Eingabe, der Signale in den verschiedenen verbleibenden Schichten des neuronalen Hauptnetzwerkes erzeugt. Die Signale erzeugen schließlich eine Ausgabe aus dem neuronalen Hauptnetzwerk, die die Bewegung klassifiziert, die in demjenigen Segment des Videos, aus dem die Merkmale extrahiert worden sind, zu finden ist.
5 zeigt ein Betriebsszenario 500 bei einer weiteren Implementierung des verbesserten Lernens einer Bewegung. Das Betriebsszenario 500 zeigt den Prozess, der am Generieren eines gemeinsamen semantischen Vektors für ein einzelnes Merkmal, das aus einem Video extrahiert ist, beteiligt ist. Das Betriebsszenario 500 wird für viele oder alle der Merkmale, die aus einem Video extrahiert werden, wiederholt, um viele gemeinsame semantische Vektoren zu erzeugen, die als Eingabe einem faltungstechnischen neuronalen Netzwerk zugeleitet werden. Das faltungstechnische neuronale Netzwerk kann sodann die in dem Video auftretende Bewegung identifizieren.
Im Betrieb identifiziert eine Gruppierungsschicht eine Entsprechungsgruppe 501 für die Merkmale auf Grundlage einer k-NN-Suche (k-Nächster-Nachbar k-NN) der anderen Merkmale, die aus dem Video extrahiert sind. Die Entsprechungsgruppe 501 ist an dem Merkmal 503 mit Darstellung durch i⁰ und mit den Koordinaten [tⁱ⁰, hⁱ⁰, wⁱ⁰] und dem semantischen Vektor fⁱ⁰ zentriert.
Die Entsprechungsgruppe 501 beinhaltet fünf weitere Merkmale im THW-Raum, von denen man herausgefunden hat, dass sie die Top-k derjenigen sind, die zu dem Merkmal 503 am ähnlichsten sind; sie werden durch ihre jeweiligen Koordinaten und semantischen Vektoren folgendermaßen bezeichnet: 1) Merkmal i¹ mit den Koordinaten [tⁱ¹, hⁱ¹, wⁱ¹] and dem semantischen Vektor fⁱ¹; 2) Merkmal i² mit den Koordinaten [tⁱ², hⁱ², wⁱ²] und dem semantischen Vektor fⁱ²; 3) Merkmal i³ mit den Koordinaten [tⁱ³, hⁱ³, wⁱ³] und dem semantischen Vector f³; 4) Merkmal i⁴ mit den Koordinaten [tⁱ⁴, hⁱ⁴, wⁱ⁴] und dem semantischen Vektor f⁴; und 5) Merkmal i⁵ mit den Koordinaten [tⁱ⁵, hⁱ⁵, wⁱ⁵] und dem semantischen Vektor f⁵.
Eine Einbettungsschicht nimmt die Entsprechungsgruppe 501 als Eingabe und erzeugt verkettete Vektoren 511 bis 515 entsprechend den Paarungen des Merkmals 503 mit jedem der entsprechenden Merkmale hiervon. Die verketteten Vektoren beinhalten jeweils zwei semantische Vektoren und raumzeitliche Versetzungsinformation. Der verkettete Vektor 511 beinhaltet beispielsweise die semantischen Vektoren fⁱ⁰ und fⁱ¹ und die Versetzung, die durch [tⁱ⁰, hⁱ⁰, wⁱ⁰] - [tⁱ¹, hⁱ¹, wⁱ¹] erzeugt wird; der verkettete Vektor 512 beinhaltet die semantischen Vektoren fⁱ⁰ und fⁱ² und die Versetzung, die durch [tⁱ⁰, hⁱ⁰, wⁱ⁰] - [tⁱ², hⁱ, wⁱ²] erzeugt wird; und so weiter bis zu dem verketteten Vektor 515, der die semantischen Vektoren fⁱ⁰ und fⁱ⁵ und die Versetzung beinhaltet, die durch [tⁱ⁰, hⁱ⁰, wⁱ⁰] - [tⁱ⁵, hⁱ⁵, wⁱ⁵] erzeugt wird.
Die Einbettungsschicht speist die verketteten Vektoren 511 bis 515 in neuronale Netzwerke vom MLP-Typ, die durch MLPs 521 bis 525 dargestellt sind, ein. Beispielsweise wird der verkettete Vektor 511 in das MLP 521 eingespeist, wird der verkettete Vektor 512 in das MLP 522 eingespeist und wird der verkettete Vektor 515 in das MLP 525 eingespeist. Die MLPs 521 bis 525 sind dafür trainiert, eine Mengenfunktion (set function) anzunähern. Entsprechend wenden diese die Mengenfunktion (set function) jeweils auf ihre jeweiligen verketteten Vektoren an und geben potenzielle gemeinsame semantische Vektoren aus.
Die Einbettungsschicht aggregiert die potenziellen gemeinsamen semantischen Vektoren bei dem Max-Pooling-Vorgang 530. Der Max-Pooling-Vorgang 530 arbeitet dergestalt, die wichtigsten Signale aus den potenziellen gemeinsamen semantischen Vektoren, die von den MLPs 521 bis 525 erzeugt worden sind, zu extrahieren. Das Ergebnis des Max-Pooling-Vorganges ist ein gemeinsamer semantischer Vektor 531, der durch gⁱ⁰ dargestellt wird.
6 zeigt eine Lernarchitektur 600 bei einer Implementierung. Die Lernarchitektur 600 beinhaltet ein faltungstechnisches neuronales Netzwerk 601, ein CP-Modul 602 und ein faltungstechnisches neuronales Netzwerk 607. Das faltungstechnische neuronale Netzwerk 601 und das faltungstechnische neuronale Netzwerk 607 können separate neuronale Netzwerke oder verschiedene Schichten desselben neuronalen Netzwerkes darstellen. Das CP-Modul 602 beinhaltet eine Gruppierungsschicht 603 und eine Einbettungsschicht 605. Die Lernarchitektur 600 kann in Hardware, Software oder Firmware sowie auf einer oder mehreren physischen oder virtuellen Rechensystemen implementiert sein, für die das Rechensystem 801 in 8 repräsentativ ist.
Im Betrieb extrahiert das faltungstechnische neuronale Netzwerk 601 Merkmale aus einem Video und stellt sowohl semantische wie auch raumzeitliche Information für jedes Merkmal für das CP-Modul 602 in einem Videodarstellungstensor (Video Representation Tensor VRT) bereit. Beispiele für Merkmale beinhalten Objekte, Kanten, Pixel oder andere derartige Elemente, die aus dem Video extrahiert werden können. Die semantische Information beschreibt nummerisch oder symbolisch eine oder mehrere Eigenschaften eines gegebenen Merkmals, so beispielsweise dessen Farbkomponenten, Länge, Fläche, Zirkularität bzw. Kreisförmigkeit, Gradientengröße, Gradientenrichtung, Textur oder Graustufenintensität. Die raumzeitliche Information beschreibt ein Merkmal durch dessen räumliche Position in einem Frame und dessen zeitliche Position in dem Video.
Die Gruppierungsschicht 603 in dem CP-Modul 602 sucht nach einem Satz von entsprechenden Merkmalen für jedes Merkmal, das aus dem Video extrahiert ist. Die k Merkmale werden an die Einbettungsschicht 605 weitergeleitet.
Die Einbettungsschicht 605 generiert verkettete Vektoren für Merkmalspaare, die aus einem gegebenen Merkmal und dessen entsprechenden Merkmalen gebildet sind. Die verketteten Vektoren beinhalten die semantische Information, die in dem VRT für beide Merkmale in einem Paar beinhaltet ist, wie auch die raumzeitliche Information (beispielsweise einen Unterschied bzw. eine Differenz / eine Versetzung zwischen diesen).
Die Einbettungsschicht 605 speist die verketteten Vektoren sodann in neuronale MLP-Netzwerke ein, die dafür trainiert sind, eine Mengenfunktion (set function) anzunähern. Die Ausgaben der neuronalen MLP-Netzwerke werden von einer Max-Pooling-Funktion aggregiert, die den gemeinsamen semantischen Vektor erzeugt, der durch „g“ dargestellt ist. Die gemeinsamen semantischen Vektoren können zu dem ursprünglichen Videodarstellungstensor hinzugefügt bzw. addiert werden, was einen modifizierten Videodarstellungstensor (VRT') ergibt. Der VRT' kann sodann in ein faltungstechnisches neuronales Netzwerk 607 eingespeist werden. Das faltungstechnische neuronale Netzwerk 707 reagiert auf die von dem VRT' erzeugten Signale, um eine Angabe der Bewegung, die in dem Video von den Neuronenschichten erkannt worden ist, auszugeben.
7 zeigt eine weitere Lernarchitektur 700 bei einer Implementierung. Die Lernarchitektur 700 beinhaltet mehrere faltungstechnische neuronale Netzwerke (oder verschiedene Schichten desselben faltungstechnischen neuronalen Netzwerkes, die durch CNN 701, CNN 705 und CNN 709 dargestellt sind. Ein CP-Modul 703 ist zwischen dem CNN 701 und dem CNN 705 eingefügt. Das CP-Modul 707 ist zwischen dem CNN 705 und dem CNN 709 eingefügt. Schließlich ist das CP-Modul 711 nach dem CNN 709 eingefügt.
Im Betrieb extrahiert das CNN 701 Merkmale aus einem Video und stellt sowohl semantische wie auch raumzeitliche Information für jedes Merkmal für das CP-Modul 703 in einem Videodarstellungstensor VRT(f) bereit. Wie erwähnt worden ist, beinhalten Beispiele für Merkmale Objekte, Kanten, Pixel oder andere derartige Elemente, die aus dem Video extrahiert werden können. Die semantische Information beschreibt nummerisch oder symbolisch eine oder mehrere Eigenschaften eines gegebenen Merkmals, so beispielsweise dessen Farbkomponenten, Länge, Fläche, Zirkularität bzw. Kreisförmigkeit, Gradientengröße, Gradientenrichtung, Textur oder Graustufenintensität. Die raumzeitliche Information beschreibt ein Merkmal durch dessen räumliche Position in einem Frame und dessen zeitliche Position in dem Video.
Das CP-Modul 703 arbeitet so, wie vorstehend mit Blick auf das CP-Modul 602 beschrieben worden ist. Insbesondere identifiziert das CP-Modul 703 einen k-NN-Satz von entsprechenden Merkmalen für jedes Merkmal in VRT(f). Das CP-Modul 703 erzeugt sodann verkettete Vektoren aus den entsprechenden Paaren, speist die verketteten Vektoren in MLPs ein und aggregiert die potenziellen Vektoren, die von den MLPs ausgegeben werden, in einer Max-Pooling-Funktion. Die Ausgabe der Max-Pooling-Funktion ist ein gemeinsamer semantischer Vektor, der durch „g“ dargestellt ist. Die sich ergebenden gemeinsamen semantischen Vektoren, die für die Merkmale in VRT(f) erzeugt werden, werden zu dem VRT wieder hinzugefügt bzw. rückaddiert und ersetzen dabei die ursprünglichen semantischen Vektoren, die den Merkmalen zugeordnet sind, was VRT(g) ergibt.
Das CNN 705 nimmt VRT(g) als Eingabe und extrahiert daraus Merkmale, wobei dessen Fokus ein anderer als bei dem CNN 701 ist. Das Ergebnis ist VRT(f), das das CNN 705 dem CP-Modul 707 zuleitet. Mit anderen Worten, wenigstens einige der Merkmale, die in dem VRT(f) dargestellt sind, sind von denjenigen, die in dem VRT(f) dargestellt sind, verschieden, da der Fokus des CNN 705 im Vergleich zu demjenigen des CNN 701 verschieden ist und da deren Eingaben verschieden sind.
Das CP-Modul 707 arbeitet so, wie vorstehend mit Blick auf das CP-Modul 602 beschrieben worden ist. Insbesondere identifiziert das CP-Modul 707 einen k-NN-Satz von entsprechenden Merkmalen für jedes Merkmal in dem VRT(f). Das CP-Modul 707 erzeugt sodann verkettete Vektoren aus den entsprechenden Paaren, speist die verketteten Vektoren in MLPs ein und aggregiert die potenziellen Vektoren, die von den MLPs ausgegeben werden, in einer Max-Pooling-Funktion. Die Ausgabe der Max-Pooling-Funktion ist ein gemeinsamer semantischer Vektor, der durch „g'“ dargestellt wird. Die sich ergebenden gemeinsamen semantischen Vektoren, die für die Merkmale in dem VRT(f') erzeugt werden, werden wieder hinzugefügt bzw. rückaddiert, was VRT(g') ergibt.
Das CNN 709 nimmt den VRT(g') als Eingabe und extrahiert Merkmale daraus mit einem anderen Fokus als demjenigen bei dem CNN 705. Das Ergebnis ist VRT(f'), das das CNN 709 dem CP-Modul 711 zuleitet. Wenigstens einige der Merkmale, die in dem VRT(f') dargestellt sind, sind von denjenigen, die in dem VRT(f) dargestellt sind, verschieden, da der Fokus des CNN 709 von demjenigen des CNN 705 verschieden ist und da deren Eingaben verschieden sind.
Das CP-Modul 711 arbeitet so, wie vorstehend mit Blick auf das CP-Modul 602 beschrieben worden ist. Insbesondere identifiziert das CP-Modul 711 einen k-NN-Satz von entsprechenden Merkmalen für jedes Merkmal in dem VRT(f'). Das CP-Modul 711 erzeugt sodann verkettete Vektoren aus den entsprechenden Paaren, speist die verketteten Vektoren in MLPs ein und aggregiert die potenziellen Vektoren, die von den MLPs ausgegeben werden, in einer Max-Pooling-Funktion. Die Ausgabe der Max-Pooling-Funktion ist ein gemeinsamer semantischer Vektor, der durch „g““ dargestellt wird. Die sich ergebenden gemeinsamen semantischen Vektoren, die für die Merkmale in dem VRT(f') erzeugt werden, werden wieder hinzugefügt bzw. rückaddiert, was VRT(g") ergibt.
Dieser Prozess kann nach dem CP-Modul 711 enden, wenn der VRT(g") an die verbleibenden Schichten eines CNN gesendet worden ist. Optional kann der Prozess für eine oder mehrere Iterationen fortgesetzt werden, bis der Videodarstellungstensor an die verbleibenden Schichten gesendet worden ist. Die verbleibenden Schichten des CNN reagieren auf die Signale, die von dem Videodarstellungstensor erzeugt werden, um eine Angabe einer Bewegung, die von den Schichten in dem Video erkannt wird, auszugeben.
Bei einigen Implementierungen können die hier offenbarten Entsprechungsmodule in CNN-Architekturen eingefügt und mit Faltungsschichten verschachtelt (interleaved) sein. Eine derartige Architektur ermöglicht, dass Merkmale eines statischen Bildes aus Faltungsschichten und Bewegungssignale, die von den Entsprechungsmodulen extrahiert werden, gemischt und gemeinsam gelernt werden.
Bei einem spezifischen Beispiel kann ein Entsprechungsmodul in eine C2D-ResNet-Architektur eingefügt werden, wobei das Modul genau nach einem Residualblock befindlich ist. Die Zeitdimension kann vollständig vernachlässigt werden, wodurch die zeitliche Größe T während des Feed Forward gleichbleibt. Vielmehr kann auf die Entsprechungsmodule zum Aufnehmen einer zeitlichen Information zurückgegriffen werden. Die nächsten Nachbarn, die von den Entsprechungsmodulen ausfindig gemacht werden, können in einem beliebigen metrischen Raum bestimmt werden, so beispielsweise einem ausschließlich zeitlichen Raum, einem raumzeitlichen Raum, einem Merkmalsraum oder einem raumzeitlich-merkmalsbezogenen Raum, obwohl die vorliegende Diskussion allein auf einen Merkmalsraum abstellt.
Der C2D-Abschnitt der Architektur kann mit einem vortrainierten ImageNet-Modell initialisiert werden. Die MLPs in den Entsprechungsmodulen können mit einer MSRA-Initialisierung beliebig initialisiert werden, jedoch mit Ausnahme des Gammaparameters der letzten Batch-Normierungsschicht, die durchweg mit Nullen initialisiert wird. Hierdurch wird das Identifizieren einer Abbildung zu Beginn des Trainings sichergestellt, sodass der vortrainierte Bildmerkmalsvektor benutzt werden kann.
Aus dem Vorbeschriebenen ist ersichtlich, dass die hier erläuterten Entsprechungsvorschlagsmodule Entsprechungspaare für jedes Merkmal in einem Tensor berechnen und die vorgeschlagenen Paare in ein geteiltes neuronales Netzwerk einspeisen, worauf ein Max-Pooling folgt, um einen neuen Merkmalstensor zu lernen. Auf diese Weise können die Module effektiv Bewegungsentsprechungsinformation in Videos aufnehmen. Das vorgeschlagene Entsprechungsmodul kann mit bestehenden framebasierten oder clipbasierten Architekturen integriert sein. Zudem ist das vorgeschlagene Entsprechungsmodul gegen Standardvergleichswerte der Videoerkennung getestet worden und hat sich dabei als sehr leistungsfähig erwiesen.
8 zeigt ein Rechensystem 801, das ein beliebiges System oder eine beliebige Sammlung von Systemen darstellt, wo die verschiedenen Module, Prozesse, Programme und Szenarien, die hier offenbart sind, implementiert sein können. Beispiele für das Rechensystem 801 beinhalten unter anderem Servercomputer, Cloudrechenplattformen und Einrichtungen einer Datenzentrale wie auch einen beliebigen anderen Typ von physischer oder virtueller Servermaschine, einen solchen Container und eine beliebige Abwandlung oder Kombination hiervon. Weitere Beispiele beinhalten Desktopcomputer, Laptopcomputer, Tabletcomputer, loT-Vorrichtungen (Internet of Things loT, Internet der Dinge), am Körper tragbare Vorrichtungen und eine beliebige andere physische oder virtuelle Kombination oder Abwandlung hiervon.
Implementiert sein kann das Rechensystem 801 als Einzeleinrichtung, System oder Vorrichtung, oder es kann auf verteilte Weise als mehrere Einrichtungen, Systeme oder Vorrichtungen implementiert sein. Das Rechensystem 801 beinhaltet unter anderem ein Verarbeitungssystem 802, ein Speichersystem 803, eine Software 805, ein Kommunikationsschnittstellensystem 807 und ein Nutzerschnittstellensystem 809 (optional). Das Verarbeitungssystem 802 ist operativ mit dem Speichersystem 803, dem Kommunikationsschnittstellensystem 807 und dem Nutzerschnittstellensystem 809 gekoppelt.
Das Verarbeitungssystem 802 lädt die Software 805 aus dem Speichersystem 803 und führt sie aus. Die Software 805 beinhaltet und implementiert einen Lernprozess 806, der für die Lernprozesse repräsentativ ist, die anhand der vorhergehenden Figuren erläutert worden sind. Bei Ausführung durch das Verarbeitungssystem 802 weist die Software 805, um ein verbessertes Lernen von Darstellungen zu ermöglichen, das Verarbeitungssystem 802 an, so zu arbeiten, wie hier wenigstens für die verschiedenen Prozesse, Betriebsszenarien und Sequenzen, die bei den vorbeschriebenen Implementierungen erläutert worden sind, beschrieben worden ist. Das Rechensystem 801 kann optional zusätzliche Vorrichtungen, Merkmale oder eine solche Funktionalität beinhalten, die hier aus Gründen der Kürze nicht erläutert worden ist.
Wie ebenfalls in 8 gezeigt ist, kann das Verarbeitungssystem 802 einen Mikroprozessor und andere Schaltungen umfassen, die die Software 805 aus dem Speichersystem 803 abrufen und ausführen. Das Verarbeitungssystem 802 kann innerhalb einer einzigen Verarbeitungsvorrichtung implementiert sein, kann jedoch auch über mehrere Verarbeitungsvorrichtungen oder Teilsysteme, die beim Ausführen von Programmanweisungen zusammenarbeiten, verteilt sein. Beispiele für das Verarbeitungssystem 802 beinhalten zentrale Allzweckverarbeitungseinheiten, grafische Verarbeitungseinheiten, anwendungsspezifische Prozessoren und logische Vorrichtungen wie auch einen beliebigen anderen Typ von Verarbeitungsvorrichtung sowie Kombinationen oder Abwandlungen hiervon.
Das Speichersystem 803 kann ein beliebiges computerlesbares Speichermedium umfassen, das von dem Verarbeitungssystem 802 gelesen werden und die Software 805 speichern kann. Das Speichersystem 803 kann flüchtige und nichtflüchtige, entfernbare und nichtentfernbare Medien beinhalten, die bei einem beliebigen Verfahren oder mit einer beliebigen Technologie zur Speicherung von Information, so beispielsweise bei computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert sein können. Beispiele für Speichermedien beinhalten einen Speicher mit wahlfreiem Zugriff, einen Nur-Lese-Speicher, magnetische Platten, optische Platten, einen Flashspeicher, einen virtuellen Speicher und einen nichtvirtuellen Speicher, magnetische Kassetten, ein Magnetband, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder beliebige andere geeignete Speichermedien. In keinem Fall ist das computerlesbare Speichermedium ein sich ausbreitendes Signal.
Zusätzlich zu computerlesbaren Speichermedien kann das Speichersystem 803 bei einigen Implementierungen zudem computerlesbare Kommunikationsmedien beinhalten, über die wenigstens ein Teil der Software 805 intern oder extern kommuniziert werden kann. Das Speichersystem 803 kann als einzelne Speichervorrichtung implementiert sein, kann jedoch auch über mehrere Speichervorrichtungen oder Teilsysteme, die in Bezug aufeinander gemeinsam angeordnet oder verteilt sind, implementiert sein. Das Speichersystem 803 kann zusätzliche Elemente, so beispielsweise eine Steuerung bzw. Regelung, umfassen, die mit dem Verarbeitungssystem 802 oder gegebenenfalls anderen Systemen kommunizieren können.
Die Software 805 (darunter der Lernprozess 806) kann in Programmanweisungen implementiert sein und kann neben weiteren Funktionen bei Ausführung durch das Verarbeitungssystem 802 das Verarbeitungssystem 802 anleiten, so zu arbeiten, wie mit Blick auf die verschiedenen Betriebsszenarien, Sequenzen und Prozesse, die hier dargestellt sind, beschrieben worden ist. Die Software 805 kann beispielsweise Programmanweisungen zum Implementieren eines Lernprozesses beinhalten, um eine Bewegung in einem Video, wie hier beschrieben wird, zu lernen.
Insbesondere können die Programmanweisungen verschiedene Komponenten oder Module beinhalten, die zusammenarbeiten oder auf andere Weise interagieren, um die verschiedenen Prozesse und Betriebsszenarien, die hier beschrieben sind, auszuführen. Die verschiedenen Komponenten oder Module können in kompilierten oder interpretierten Anweisungen oder in einer beliebigen anderen Abwandlung oder Kombination von Anweisungen verkörpert sein. Die verschiedenen Komponenten oder Module können auf synchrone oder asynchrone Weise, seriell oder parallel, in einer Single-Thread-Umgebung oder in einer Multi-Thread-Umgebung oder entsprechend einem beliebigen anderen geeigneten Ausführungsparadigma, einer Abwandlung oder einer Kombination hiervon ausgeführt sein. Die Software 805 kann zusätzliche Prozesse, Programme oder Komponenten, so beispielsweise eine Betriebssystemsoftware, eine Virtualisierungssoftware oder eine andere Anwendungssoftware beinhalten. Die Software 805 kann zudem Firmware oder eine beliebige andere Form von maschinenlesbaren Verarbeitungsanweisungen, die von dem Verarbeitungssystem 802 ausführbar sind, umfassen.
Allgemein kann die Software 805, wenn sie in das Verarbeitungssystem 802 geladen ist und ausgeführt wird, eine geeignete Einrichtung, ein solches System oder eine solche Vorrichtung (für die das Rechensystem 801 repräsentativ ist) allgemein von einem Allzweckrechensystem in ein Spezialzweckrechensystem umwandeln, das darauf eingestellt ist, das Lernen einer Bewegung zu ermöglichen. Das Codieren von Software 805 auf dem Speichersystem 803 kann die physische Struktur des Speichersystems 803 umwandeln. Die spezifische Transformation der physischen Struktur kann von verschiedenen Faktoren in verschiedenen Implementierungen der vorliegenden Beschreibung abhängen. Beinhalten können Beispiele für derartige Faktoren unter anderem diejenige Technologie, die zum Implementieren der Speichermedien des Speichersystems 803 benutzt wird, denjenigen Umstand, ob die Computerspeichermedien als primäre oder sekundäre Speicher charakterisiert sind, wie auch andere Faktoren.
Sie die computerlesbaren Speichermedien beispielsweise als halbleiterbasierte Speicher implementiert, so kann die Software 805 den physischen bzw. physikalischen Zustand des Halbleiterspeichers transformieren, wenn die Programmanweisungen darin codiert sind, und zwar beispielsweise durch Transformieren des Zustandes von Transistoren, Kondensatoren oder anderen diskreten Schaltungselementen, die den Halbleiterspeicher bilden. Eine ähnliche Transformation kann mit Blick auf magnetische oder optische Medien erfolgen. Weitere Transformationen physischer Medien sind möglich, ohne vom Umfang der vorliegenden Beschreibung abzugehen, wobei die vorstehenden Beispiele nur dafür bereitgestellt sind, die vorliegende Diskussion zu vereinfachen.
Das Kommunikationsschnittstellensystem 807 kann Kommunikationsverbindungen und Vorrichtungen beinhalten, die eine Kommunikation mit anderen Rechensystemen (nicht gezeigt) über Kommunikationsnetzwerke (nicht gezeigt) ermöglichen. Beispiele für Verbindungen und Vorrichtungen, die zusammen eine Intersystemkommunikation ermöglichen, können Netzwerkschnittstellenkarten, Antennen, Leistungsverstärker, HF-Schaltungen, Sender-Empfänger und andere Kommunikationsschaltungen beinhalten. Die Verbindungen und Vorrichtungen können über Kommunikationsmedien kommunizieren, um Kommunikationen mit anderen Rechensystemen oder Netzwerken von Systemen, beispielsweise über Metall, Glas, Luft oder ein beliebiges anderes geeignetes Kommunikationsmedium, auszutauschen. Die vorgenannten Medien, Verbindungen und Vorrichtungen sind allgemein bekannt und müssen nicht ausführlich erläutert werden.
Die Kommunikation zwischen dem Rechensystem 801 und anderen Rechensystemen (nicht gezeigt) kann über ein Kommunikationsnetzwerk oder Netzwerke entsprechend verschiedenen Kommunikationsprotokollen, Kombinationen von Protokollen oder Abwandlungen hiervon erfolgen. Beispiele beinhalten Intranets, Internets, das Internet, Ortsbereichsnetzwerke, Großbereichsnetzwerke, Drahtlosnetzwerke, drahtgebundene Netzwerke, virtuelle Netzwerke, softwaredefinierte Netzwerke, Datenzentralenbusse und Backplanes oder einen beliebigen anderen Typ von Netzwerk, eine Kombination von Netzwerken oder eine Abwandlung hiervon. Die vorgenannten Kommunikationsnetzwerke und Protokolle sind allgemein bekannt und müssen nicht ausführlich erläutert werden.
Die beinhalteten Beschreibungen und Figuren zeigen spezifische Ausführungsformen, die einen Fachmann auf dem Gebiet anleiten, wie die optimale Umsetzung auszuführen und zu nutzen ist. Zum Zwecke des Lehrens der erfindungsgemäßen Prinzipien sind geläufige Aspekte vereinfacht oder weggelassen. Einem Fachmann auf dem Gebiet erschließen sich Abwandlungen an den Ausführungsformen, die in den Umfang der Offenbarung fallen. Einem Fachmann auf dem Gebiet erschließt sich zudem, dass die vorbeschriebenen Merkmale auf verschiedene Weisen kombiniert werden können, um mehrere Ausführungsformen zu bilden. Im Ergebnis ist die Erfindung nicht auf die vorbeschriebenen spezifischen Ausführungsformen, sondern nur durch die Ansprüche und deren Äquivalente beschränkt.

Claims

Verfahren maschinellen Lernens in künstlichen neuronalen Netzwerken, wobei das Verfahren umfasst: in einem künstlichen neuronalen Netzwerk erfolgendes Extrahieren von Merkmalen und semantischen Vektoren, die den Merkmalen zugeordnet sind, aus einem Video; für wenigstens ein Merkmal der Merkmale, die aus dem Video extrahiert sind: Durchführen einer Ähnlichkeitssuche für entsprechende Merkmale in dem Video wenigstens auf Grundlage der semantischen Vektoren, die den Merkmalen zugeordnet sind; und Generieren eines gemeinsamen semantischen Vektors wenigstens auf Grundlage eines semantischen Vektors, der dem einen Merkmal zugeordnet ist, eines semantischen Vektors, der wenigstens einem der entsprechenden Merkmale zugeordnet ist, und eines raumzeitlichen Abstandes des einen Merkmals zu dem wenigstens einen der entsprechenden Merkmale; und in dem künstlichen neuronalen Netzwerk erfolgendes Identifizieren einer Bewegung in dem Video wenigstens auf Grundlage des gemeinsamen semantischen Vektors, der für das eine Merkmal identifiziert ist.
Verfahren nach Anspruch 1, wobei das Durchführen der Ähnlichkeitssuche für die entsprechenden Merkmale in dem Video umfasst: Durchführen einer Nächster-Nachbar-Suche auf Grundlage der semantischen Vektoren.
Verfahren nach Anspruch 2, wobei das Durchführen der Nächster-Nachbar-Suche umfasst: Ausschließen derjenigen der Merkmale in einem selben Frame des Videos wie das gegebene Merkmal.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Video RGB-Werte (Rot-Grün-Blau RGB) von Pixeln in dem Video umfasst.
Verfahren nach einem der Ansprüche 2 bis 4, wobei das Durchführen der Nächster-Nachbar-Suche umfasst: Vergleichen des semantischen Vektors, der dem einen Merkmal zugeordnet ist, mit anderen der semantischen Vektoren, um ein Top-k der Merkmale, die zu dem einen Merkmal am ähnlichsten sind, zu identifizieren.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Identifizieren des gemeinsamen semantischen Vektors für wenigstens das eine Merkmal umfasst: Identifizieren von Paarungen des einen Merkmals mit jedem der entsprechenden Merkmale, wobei jede der Paarungen das eine Merkmal und ein entsprechendes Merkmal, das relativ zu dem entsprechenden Merkmal in jeder anderen der Paarungen verschieden ist, umfasst; Generieren von verketteten Vektoren, wobei jeder der verketteten Vektoren einer anderen der Paarungen entspricht, wobei jeder der verketteten Vektoren den semantischen Vektor, der dem einen Merkmal zugeordnet ist, einen semantischen Vektor, der dem entsprechenden Merkmal in einer entsprechenden Paarung zugeordnet ist, und den raumzeitlichen Abstand des einen Merkmals zu dem entsprechenden Merkmal umfasst; Generieren von potenziellen Vektoren auf Grundlage der verketteten Vektoren; und Durchführen eines Max-Pooling-Vorganges an den potenziellen Vektoren, um den gemeinsamen semantischen Vektor zu erzeugen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das künstliche neuronale Netzwerk ein faltungstechnisches neuronales Netzwerk umfasst und wobei das Generieren der potenziellen Vektoren auf Grundlage der verketteten Vektoren umfasst: Einspeisen der verketteten Vektoren in ein neuronales MLP-Netzwerk (Multilayer Perceptron MLP).
Verfahren zur Verbesserung maschinellen Lernens in künstlichen neuronalen Netzwerken, wobei das Verfahren umfasst: in einem künstlichen neuronalen Netzwerk erfolgendes Generieren eines Merkmalstensors, der Merkmale, die aus Bilddaten extrahiert sind, und Orte der Merkmale in den Bilddaten umfasst; für wenigstens ein Merkmal in dem Merkmalstensor: Durchführen einer Suche nach entsprechenden Merkmalen in den Bilddaten auf Grundlage einer semantischen Ähnlichkeit des einen Merkmals zu anderen Merkmalen in dem Merkmalstensor; Generieren eines gemeinsamen semantischen Vektors wenigstens auf Grundlage der semantischen Ähnlichkeit des einen Merkmals zu einem oder mehreren der entsprechenden Merkmale und eines raumzeitlichen Abstandes des einen Merkmals zu dem einen oder den mehreren der entsprechenden Merkmale; Hinzufügen bzw. Addieren des gemeinsamen semantischen Vektors zu dem Merkmalstensor; und Rückspeisen des Merkmalstensors mit dem darin beinhalteten gemeinsamen semantischen Vektor in das künstliche neuronale Netzwerk.
Verfahren nach Anspruch 8, wobei das Durchführen der Suche nach den entsprechenden Merkmalen in den Bilddaten umfasst: Durchführen einer Nächster-Nachbar-Suche auf Grundlage der semantischen Ähnlichkeit des einen Merkmals zu den anderen Merkmalen und Ausschließen derjenigen der Merkmale in einem selben Bild der Bilddaten wie das gegebene Merkmal.
Verfahren nach Anspruch 9, wobei der Merkmalstensor des Weiteren semantische Vektoren, die den Merkmalen zugeordnet sind, umfasst; und wobei das Durchführen der Nächster-Nachbar-Suche umfasst: Durchführen eines Vergleiches eines semantischen Vektors, der dem einen Merkmal zugeordnet ist, mit denjenigen der semantischen Vektoren, die den anderen Merkmalen zugeordnet sind, um ein Top-k der Merkmale, die zu dem einen Merkmal am ähnlichsten sind, zu identifizieren.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Generieren des gemeinsamen semantischen Vektors für jedes der Merkmale umfasst: Identifizieren von Paarungen des einen Merkmals mit jedem der entsprechenden Merkmale, wobei jede der Paarungen das eine Merkmal und ein entsprechendes Merkmal, das relativ zu dem entsprechenden Merkmal in jeder anderen der Paarungen verschieden ist, umfasst; Generieren von verketteten Vektoren, wobei jeder der verketteten Vektoren einer anderen der Paarungen entspricht, wobei jeder der verketteten Vektoren den semantischen Vektor, der dem einen Merkmal zugeordnet ist, einen semantischen Vektor, der dem entsprechenden Merkmal in einer entsprechenden Paarung zugeordnet ist, und den raumzeitlichen Abstand des einen Merkmals zu dem entsprechenden Merkmal umfasst; Generieren von potenziellen Vektoren auf Grundlage der verketteten Vektoren; und Durchführen eines Max-Pooling-Vorganges an den potenziellen Vektoren, um den gemeinsamen semantischen Vektor zu erzeugen.
Verfahren nach einem der Ansprüche 8 bis 11, des Weiteren umfassend: in dem künstlichen neuronalen Netzwerk erfolgendes Verarbeiten des Merkmalstensors, um eine Bewegung aus den Bilddaten zu extrahieren.
Verfahren nach einem der Ansprüche 8 bis 12, wobei das künstliche neuronale Netzwerk ein faltungstechnisches neuronales Netzwerk umfasst; und wobei das Generieren der potenziellen Vektoren auf Grundlage der verketteten Vektoren umfasst: Einspeisen der verketteten Vektoren in ein neuronales MLP-Netzwerk (Multilayer Perceptron MLP).
Verfahren nach einem der Ansprüche 8 bis 13, wobei die Bilddaten ein Video umfassen und wobei die Merkmale Objekte in dem Video umfassen.
Recheneinrichtung, umfassend: ein oder mehrere computerlesbare Speichermedien; und Programmanweisungen, die auf dem einen oder den mehreren computerlesbaren Speichermedien gespeichert sind und die bei Ausführung durch ein Verarbeitungssystem die Recheneinrichtung wenigstens anleiten zum: Generieren eines Videodarstellungstensors, der Merkmale, die aus einem Video extrahiert sind, und Orte der Merkmale in dem Video umfasst; für wenigstens ein Merkmal der Merkmale, die aus dem Video extrahiert sind: Durchführen einer Suche nach entsprechenden Merkmalen in dem Video auf Grundlage einer semantischen Ähnlichkeit des einen Merkmals zu anderen Merkmalen; Generieren eines gemeinsamen semantischen Vektors wenigstens auf Grundlage der semantischen Ähnlichkeit des einen Merkmals zu einem oder mehreren der entsprechenden Merkmale und eines raumzeitlichen Abstandes des einen Merkmals zu dem einen oder den mehreren der entsprechenden Merkmale; und Hinzufügen bzw. Addieren des gemeinsamen semantischen Vektors zu dem Videodarstellungstensor.
Recheneinrichtung nach Anspruch 15, wobei die Suche nach den entsprechenden Merkmalen in dem Video eine Nächster-Nachbar-Suche umfasst und wobei die Nächster-Nachbar-Suche diejenigen der Merkmale in einem selben Frame des Videos wie das gegebene Merkmal ausschließt.
Recheneinrichtung nach Anspruch 16, wobei der Videodarstellungstensor des Weiteren semantische Vektoren, die den Merkmalen zugeordnet sind, umfasst; und wobei die Nächster-Nachbar-Suche umfasst: einen Vergleich eines semantischen Vektors, der dem einen Merkmal zugeordnet ist, mit denjenigen der semantischen Vektoren, die den anderen Merkmalen zugeordnet sind, um ein Top-k der Merkmale, die zu dem einen Merkmal am ähnlichsten sind, zu identifizieren.
Recheneinrichtung nach einem der Ansprüche 15 bis 17, wobei zum Generieren des gemeinsamen semantischen Vektors für das eine Merkmal die Programmanweisungen das Rechensystem anleiten zum: Identifizieren von Paarungen des einen Merkmals mit jedem der entsprechenden Merkmale, wobei jede der Paarungen das eine Merkmal und ein entsprechendes Merkmal, das relativ zu dem entsprechenden Merkmal in jeder anderen der Paarungen verschieden ist, umfasst; Generieren von Eingaben, wobei jede der Eingaben einer anderen der Paarungen entspricht, wobei jede der Eingaben den semantischen Vektor, der dem einen Merkmal zugeordnet ist, einen semantischen Vektor, der dem entsprechenden Merkmal in einer entsprechenden Paarung zugeordnet ist, und den raumzeitlichen Abstand des einen Merkmals zu dem entsprechenden Merkmal umfasst; Einspeisen der Eingaben in ein neuronales MLP-Netzwerk (Multilayer Perceptron MLP), um Ausgaben zu erzeugen; und Durchführen eines Max-Pooling-Vorganges an den Ausgaben des neuronalen MLP-Netzwerkes, um den gemeinsamen semantischen Vektor zu erzeugen.
Recheneinrichtung nach einem der Ansprüche 17 und 18, wobei: das Video RGB-Werte (Rot-Grün-Blau RGB) von Pixeln in dem Video umfasst; und das Top-k der Merkmale, die zu dem gegebenen Merkmal am ähnlichsten sind, das Top-8 der Merkmale, die zu dem gegebenen Merkmal am ähnlichsten sind, umfasst.
Recheneinrichtung nach einem der Ansprüche 15 bis 19, wobei das künstliche neuronale Netzwerk ein faltungstechnisches neuronales Netzwerk umfasst.