DE112021004329T5

DE112021004329T5 - Durch einen computer automatisierte erkennung von interaktiven aktivitäten auf der grundlage der feststellung von schlüsselpunkten

Info

Publication number: DE112021004329T5
Application number: DE112021004329.3T
Authority: DE
Inventors: Dan Zhang; Hongbing Zhang; Chao Xin; Xueping Liu; Zhixing Peng; Zhuo Cai
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-29
Filing date: 2021-07-16
Publication date: 2023-06-07
Also published as: US20220101556A1; CN116097322A; GB2614840B; WO2022068320A1; GB202305407D0; JP2023542469A; US11514605B2; GB2614840A

Abstract

Eine durch einen Computer automatisierte Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten umfasst ein Abrufen einer zeitlichen Abfolge von Einzelbildern aus einer Videoaufzeichnung durch einen oder mehrere Prozessoren. Der eine oder die mehreren Prozessoren ermittelt/ermitteln erste und zweite Schlüsselpunkte in jedem der Einzelbilder in der zeitlichen Abfolge unter Verwendung von Techniken des maschinellen Lernens. Die ersten Schlüsselpunkte sind einem Objekt in der zeitlichen Abfolge von Einzelbildern zugehörig, während die zweiten Schlüsselpunkte einer Person zugehörig sind, die mit dem Objekt interagiert. Der eine oder die mehreren Prozessoren kombinieren die ersten Schlüsselpunkte mit den zweiten Schlüsselpunkten und extrahieren räumlich-zeitliche Merkmale aus der Kombination, die zum Trainieren eines Klassifizierungsmodells verwendet werden, auf dessen Grundlage interaktive Aktivitäten erkannt werden können.

Description

HINTERGRUND
Die vorliegende Erfindung bezieht sich allgemein auf das Gebiet der künstlichen Intelligenz (Kl) und insbesondere auf ein Verfahren, ein System und ein Computerprogrammprodukt zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten unter Verwendung von Verfahren des maschinellen Lernens.
Systeme zur Erkennung von interaktiven Aktivitäten sind für Computer wichtig, um das Verhalten von Menschen in Bildern oder Videos zu verstehen. Diese Systeme können in vielen Bereichen verwendet werden. Zum Beispiel können in Fertigungs- und Wartungsprozessen Systeme zur Erkennung von interaktiven Aktivitäten umgesetzt werden, um die Verwendung bestimmter Maschinen durch Ermitteln von Betriebsfehlern zu verbessern. Allerdings ist die interaktive Aktivität zwischen Menschen und Objekten komplex, und das Erkennen der damit einhergehenden Handlungen kann eine herausfordernde Aufgabe darstellen.
KURZDARSTELLUNG
Nach dem Stand der Technik bestehende Unzulänglichkeiten werden überwunden und zusätzliche Vorteile werden durch das Bereitstellen eines Verfahrens zur Erkennung von interaktiven Aktivitäten bereitgestellt. Das Verfahren umfasst ein Abrufen einer zeitlichen Abfolge von Einzelbildern aus einer Videoaufzeichnung durch einen oder mehrere Prozessoren, wobei durch den einen oder die mehreren Prozessoren erste Schlüsselpunkte und zweite Schlüsselpunkte in jedem der Einzelbilder in der zeitlichen Abfolge ermittelt werden. Die ersten Schlüsselpunkte sind einem Objekt in der zeitlichen Abfolge von Einzelbildern zugehörig, während die zweiten Schlüsselpunkte einer Person zugehörig sind, die mit dem Objekt interagiert. Der eine oder die mehreren Prozessoren kombinieren die ersten Schlüsselpunkte mit den zweiten Schlüsselpunkten und extrahieren räumlich-zeitliche Merkmale aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten. Auf der Grundlage der extrahierten räumlich-zeitlichen Merkmale trainieren der eine oder die mehreren Prozessoren ein Klassifizierungsmodell zur Erkennung von interaktiven Aktivitäten zwischen der Person und dem Objekt.
Eine andere Ausführungsform der vorliegenden Offenbarung stellt ein Computerprogrammprodukt zur Erkennung von interaktiven Aktivitäten auf der Grundlage des vorstehend beschriebenen Verfahrens bereit.
Eine andere Ausführungsform der vorliegenden Offenbarung stellt ein Computersystem zur Erkennung von interaktiven Aktivitäten auf der Grundlage des vorstehend beschriebenen Verfahrens bereit.
Figurenliste
Die folgende ausführliche Beschreibung, die beispielhaft angeführt wird und die Erfindung nicht ausschließlich darauf beschränken soll, ist am besten in Verbindung mit den beigefügten Zeichnungen zu verstehen, in denen:

1 ein Blockschaubild ist, das eine vernetzte Computerumgebung gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulicht;
2A ein System zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
2B eine beispielhafte Umsetzung des Systems zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten aus 2A gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
3 einen Ablaufplan darstellt, der die Schritte eines auf einem Computer ausgeführten Verfahrens zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulicht;
4 ein Blockschaubild von internen und externen Komponenten eines Computersystems gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
5 ein Blockschaubild einer veranschaulichenden Cloud-Computing-Umgebung gemäß einer Ausführungsform der vorliegenden Offenbarung ist; und
6 ein Blockschaubild von funktionalen Schichten der veranschaulichenden Cloud-Computing-Umgebung aus 5 gemäß einer Ausführungsform der vorliegenden Offenbarung ist.

Die Zeichnungen sind nicht unbedingt maßstabsgetreu. Die Zeichnungen stellen lediglich schematische Darstellungen dar, die keine konkreten Parameter der Erfindung darstellen sollen. Die Zeichnungen sollen nur typische Ausführungsformen der Erfindung darstellen. In den Zeichnungen stellen gleiche Zahlen gleichartige Elemente dar.
AUSFÜHRLICHE BESCHREIBUNG
Ausführliche Ausführungsformen der beanspruchten Strukturen und Verfahren werden hierin offenbart; jedoch wird darauf hingewiesen, dass die offenbarten Ausführungsformen lediglich die beanspruchten Strukturen und Verfahren veranschaulichen, die in verschiedenen Formen ausgeführt sein können. Die Erfindung kann jedoch in vielen verschiedenen Formen ausgeführt werden und darf nicht als beschränkt auf die hierin dargestellten beispielhaften Ausführungsformen angesehen werden. In der Beschreibung können Einzelheiten allgemein bekannter Eigenschaften und Techniken weggelassen sein, um zu vermeiden, dass die vorliegenden Ausführungsformen unnötig unklar gemacht werden.
Die Erkennung komplexer interaktiver Aktivitäten, die von Menschen durchgeführt werden, spielt bei vielen Anwendungen eine wichtige Rolle, wie zum Beispiel bei Überwachungssystemen für die Mensch-Roboter-Interaktion, im Sicherheitsbereich, in der Sportbiomechanik usw. Systeme zur Erkennung von interaktiven Aktivitäten müssen in der Lage sein, tägliche Aktivitäten automatisch zu analysieren und möglicherweise unerwünschte menschliche Interaktionen mit Maschinen festzustellen, um eine angemessene Reaktion bereitzustellen. Derartige unerwünschte Interaktionen können Interaktionen umfassen, die gefährlich sein können, zum Beispiel, wenn ein Mensch eine Maschine bedient.
Viele dieser Anwendungen können von der räumlichen Ortung von Merkmalen von Interesse profitieren. Diese Merkmale von Interesse werden häufig als „Schlüsselpunkte“ bezeichnet. Die Feststellung von Schlüsselpunkten beinhaltet üblicherweise die gleichzeitige Feststellung von räumlichen Positionen oder Punkten in einem Bild, die Merkmale von Interesse oder auffällige Merkmale in dem Bild zu einem bestimmten Zeitpunkt definieren (d.h. räumlich-zeitliche Merkmale). Zu wünschenswerten Eigenschaften der Feststellung von Schlüsselpunkten können eine genaue Ortung, Unempfindlichkeit gegenüber Verschiebung, Drehung, Skalierung, Helligkeitsänderungen, Unempfindlichkeit gegenüber Rauschen, eine hohe Wiederholbarkeit usw. gehören.
Allerdings interagieren Menschen täglich mit verschiedenen Arten von Objekten auf unterschiedliche Art und Weise, je nach ihren Absichten (z.B. auszuführende Arbeiten usw.), was die Feststellung und Erkennung der durchgeführten interaktiven Aktivitäten zu einer sehr herausfordernden Aufgabe macht.
Deshalb stellen Ausführungsformen der vorliegenden Erfindung ein Verfahren, ein System und ein Computerprogrammprodukt zur automatischen Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten bereit. Die nachfolgend beschriebenen, beispielhaften Ausführungsformen stellen ein System, ein Verfahren und ein Computerprogrammprodukt bereit, unter anderem zum Erfassen einer Folge von Einzelbildern aus einer Videoaufzeichnung, zum Feststellen von Schlüsselpunkten, die den interaktiven Aktivitäten in jedem der Einzelbilder zugehörig sind, und zwar unter Verwendung von Techniken des maschinellen Lernens, zum Kombinieren der festgestellten Schlüsselpunkte (z.B. objektbezogene Schlüsselpunkte und menschbezogene Schlüsselpunkte), zum Verwenden der kombinierten Schlüsselpunkte als Eingabe für ein Graphen-Faltungsnetz, das zum Ermitteln von räumlich-zeitlichen Merkmalen verwendet wird, und zum Verwenden der ermittelten räumlich-zeitlichen Merkmale zum Trainieren eines Klassifizierungsmodells, auf dessen Grundlage interaktive Aktivitäten erkannt und klassifiziert werden können.
Daher sind die vorliegenden Ausführungsformen in der Lage, den technischen Bereich der künstlichen Intelligenz zu verbessern, indem sie ein System und ein auf einem Computer ausgeführtes Verfahren bereitstellen, das unter Verwendung von Deep-Learning-Algorithmen interaktive Aktivitäten aus verfügbaren Videoaufnahmen automatisch erkennt und klassifiziert. Die vorliegenden Ausführungsformen können Interaktionen zwischen Menschen und bestimmten Objekten genau erkennen, um Handlungen zu bestimmen, die verbessert werden könnten. Zum Beispiel kann eine Anlage in einer Produktionsstätte, die falsch bedient wird, ein Betriebs- oder Sicherheitsrisiko darstellen. Zu einem anderen Beispiel kann eine körperliche Bewegungsanalyse im Zusammenhang mit einer Sportart gehören, um die Fähigkeiten oder Techniken eines Spielers zu optimieren. In beiden Situationen kann das vorgeschlagene Verfahren zur automatisierten Erkennung von interaktiven Aktivitäten, vorbehaltlich einer Genehmigung durch den Benutzer, Daten erheben und analysieren, um menschliche Mechaniken festzustellen, die nicht optimal sind, und eine Meldung erzeugen, auf deren Grundlage Korrekturmaßnahmen ergriffen werden können.
Unter Bezugnahme auf 1 ist nun eine beispielhafte vernetzte Computerumgebung 100 gemäß einer Ausführungsform der vorliegenden Offenbarung dargestellt. 1 stellt lediglich eine Veranschaulichung einer Ausführungsform bereit und bringt keinerlei Einschränkungen in Bezug auf die Umgebungen mit sich, in denen verschiedene Ausführungsformen umgesetzt werden können. Ein Fachmann kann viele Abänderungen an der dargestellten Umgebung vornehmen, ohne von dem Umfang der wie in den Ansprüchen angegebenen Erfindung abzuweichen.
Die vernetzte Computerumgebung 100 kann einen Client-Computer 102 und ein Datenübertragungsnetzwerk 110 umfassen. Der Client-Computer 102 kann eine Datenspeichereinheit 106 und einen Prozessor 104 umfassen, der in der Lage ist, ein Programm 108 zur Erkennung von interaktiven Aktivitäten auszuführen. Bei dem Client-Computer 102 kann es sich zum Beispiel um eine mobile Einheit, ein Telefon (einschließlich Smartphones), einen elektronischen Assistenten, ein Netbook, einen Laptop-Computer, einen Tablet-Computer, einen Desktop-Computer oder eine beliebige Art von Datenverarbeitungseinheiten handeln, die auf ein Netzwerk zugreifen können.
Die vernetzte Computerumgebung 100 kann auch einen Server-Computer 114 mit einer Datenspeichereinheit 120 und einem Prozessor 118 umfassen, der in der Lage ist, ein Softwareprogramm 112 auszuführen. In einigen Ausführungsformen kann es sich bei dem Server-Computer 114 um einen Ressourcenverwaltungsserver, einen Webserver oder eine andere elektronische Einheit handeln, die in der Lage ist, Daten zu empfangen und zu senden. In einer anderen Ausführungsform kann der Server-Computer 114 ein Server-Datenverarbeitungssystem darstellen, das mehrere Computer als Serversystem nutzt, wie zum Beispiel in einer Cloud-Computing-Umgebung.
Das Programm 108 zur Erkennung von interaktiven Aktivitäten, das auf dem Client-Computer 102 läuft, kann über das Datenübertragungsnetzwerk 110 mit dem auf dem Server-Computer 114 laufenden Softwareprogramm 112 Daten austauschen. Wie unter Bezugnahme auf 4 erörtert wird, können der Client-Computer 102 und der Server-Computer 114 interne und externe Komponenten umfassen.
Die vernetzte Computerumgebung 100 kann eine Mehrzahl der Client-Computer 102 und Server-Computer 114 umfassen, von denen nur einer gezeigt ist. Zum Datenübertragungsnetzwerk 110 können gemäß den Ausführungsformen der vorliegenden Offenbarung verschiedene Arten von Datenübertragungsnetzwerken gehören, wie zum Beispiel ein lokales Netzwerk (LAN), ein Weitverkehrsnetz (WAN) wie zum Beispiel das Internet, das öffentliche Fernsprechnetz (PSTN, public swithed telephone network), ein zellulares oder mobiles Datennetzwerk (z.B. drahtloses Internet, das durch eine dritte oder vierte Generation von mobiler Datenübertragung für Mobiltelefone bereitgestellt wird), eine Nebenstellenanlage (PBX, private branch exchange), eine beliebige Kombination davon oder eine beliebige Kombination von Verbindungen und Protokollen, die Datenübertragungen zwischen dem Client-Computer 102 und dem Server-Computer 114 unterstützen. Das Datenübertragungsnetzwerk 110 kann drahtgebundene, drahtlose oder Lichtwellenleiter-Verbindungen umfassen. Wie dem Fachmann bekannt ist, kann die vernetzte Computerumgebung 100 zusätzliche Datenverarbeitungseinheiten, Server oder andere nicht gezeigte Einheiten umfassen.
Für Komponenten, Arbeitsschritte oder Strukturen, die hierin als einzelne Instanz beschrieben sind, können mehrere Instanzen bereitgestellt werden. Grenzen zwischen verschiedenen Komponenten, Arbeitsschritten und Datenspeichern sind zu einem gewissen Grad willkürlich, und bestimmte Arbeitsschritte sind in dem Kontext von konkreten veranschaulichenden Konfigurationen veranschaulicht. Es sind andere Zuordnungen von Funktionen vorgesehen, die innerhalb des Umfangs der vorliegenden Erfindung fallen können. Allgemein können Strukturen und die Funktionalität, die in den beispielhaften Konfigurationen als getrennte Komponenten dargestellt sind, als kombinierte Struktur oder Komponente umgesetzt werden. Gleichermaßen können Strukturen und die Funktionalität, die als eine einzelne Komponente dargestellt sind, als getrennte Komponenten umgesetzt werden. Diese und andere Abwandlungen, Änderungen, Ergänzungen und Verbesserungen können in den Anwendungsbereich der vorliegenden Erfindung fallen.
Unter Bezugnahme auf 2A ist ein System 200 zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Bei 2B handelt es sich um eine beispielhafte Umsetzung des Systems 200, die gleichzeitig mit 2A erläutert wird.
Gemäß einer Ausführungsform umfasst das System 200 zur automatisierten Erkennung von interaktiven Aktivitäten ein Bilderfassungsmodul 212, ein Schlüsselpunkt-Feststellungsmodul 214, ein Merkmalsextraktionsmodul 218 und ein Modul 220 zur Klassifizierung interaktiver Aktivitäten. Das Bilderfassungsmodul 212 erfasst Videos oder Bilder von einem optischen Instrument. In einer Ausführungsform kann es sich bei dem optischen Instrument zum Beispiel um eine Videokamera handeln. Konkret ist das Bilderfassungsmodul 212 in der Lage, eine Folge 240 von Einzelbildern (2B) aus einer von dem (nicht gezeigten) optischen Instrument erfassten Videoaufzeichnung abzurufen. Der Prozess des Abrufens der Folge 240 von Einzelbildern aus dem aufgezeichneten Video kann mit jedem beliebigen bekannten Bildverarbeitungswerkzeug durchgeführt werden. Zum Beispiel kann die Folge 240 von Einzelbildern unter Verwendung einer Softwarebibliothek wie zum Beispiel OpenCV^© (Open Source Computer Vision Library) abgerufen werden, die Bilder in mehrdimensionale Arrays umwandelt.
Es sei darauf hingewiesen, dass jede Datenerhebung (z.B. Bilder, Videos usw.) mit der Zustimmung des Benutzers über eine Zustimmungs- und Ablehnungsfunktion erfolgt. Wie dem Fachmann bekannt ist, betrifft eine Zustimmungs- und Ablehnungsfunktion im Allgemeinen Verfahren, mit denen der Benutzer einen Teilnehmerstatus abändern kann (d.h. die Datenerhebung akzeptieren oder ablehnen kann). In einigen Ausführungsformen kann die Zustimmungs- und Ablehnungsfunktion eine oder mehrere Softwareanwendungen umfassen, die auf dem Client-Computer 102 verfügbar sind. Zusätzlich können Benutzer entscheiden, dass ihre Daten nicht mehr erhoben oder verwendet werden dürfen. In einigen Ausführungsformen können die Benutzer jedes Mal dann benachrichtigt werden, wenn Daten erhoben werden. Es ist vorgesehen, die erhobenen Daten zu sichern und sie nicht ohne die Zustimmung der Benutzer an Dritte weiterzugeben. Die Benutzer können die Datenerhebung jederzeit beenden.
Nach dem Extrahieren der Folge 240 von Einzelbildern aus dem Video ermittelt das Schlüsselpunkt-Feststellungsmodul 214 Merkmale oder Punkte von Interesse (d.h. Schlüsselpunkte), die Menschen und Objekten in der Folge 240 von Einzelbildern zugehörig sind. Konkret ermittelt das Schlüsselpunkt-Feststellungsmodul Schlüsselpunkte, die einem Objekt 250 in jedem Einzelbild aus der abgerufenen Folge 240 von Einzelbildern zugehörig sind. Anschließend ermittelt das Schlüsselpunkt-Feststellungsmodul 214 in jedem Einzelbild aus der abgerufenen Folge 240 von Einzelbildern Schlüsselpunkte, die einem Menschen (oder einer Person) 260 zugehörig sind.
Gemäß einer Ausführungsform können objektbezogene Schlüsselpunkte 252 bestimmt werden, und zwar unter Verwendung eines neuronalen Faltungsnetzes (CNN, Convolutional Neural Network), das im Vorfeld zum Bestimmen von Objektpunkten von Interesse trainiert wurde. Wie dem Fachmann bekannt ist, handelt es sich bei einem CNN um eine Klasse von neuronalen Netzen mit tiefem Lernen zur Bilderkennung und -klassifizierung, die in der Lage sind, eine Eingabe (z.B. ein Bild) zu analysieren und eine Klasse oder eine Wahrscheinlichkeit auszugeben, dass die Eingabe einer bestimmten Klasse entspricht. In einer Ausführungsform können CNN-basierte Echtzeit-Objektfeststellungsmodelle wie zum Beispiel YOLO^© (You Only Look Once) und/oder Faster R-CNN^© verwendet werden, um ein Begrenzungsrechteck (bounding box) der spezifischen Objekte (z.B. des Objekts 250) in der Folge 240 von Einzelbildern festzustellen und die objektbezogenen Schlüsselpunkte 252 zu ermitteln. Anhand von vorab gekennzeichneten Daten können die CNN-basierten Feststellungsmodelle auf ein Ermitteln von objektbezogenen Schlüsselpunkten trainiert werden.
In ähnlicher Weise können menschbezogene Schlüsselpunkte 262 unter Verwendung von bestehenden Technologien bestimmt werden. Zum Beispiel können die menschbezogenen Schlüsselpunkte 262 unter Verwendung von Echtzeitverfahren zur Feststellung der Körperhaltung von mehreren Personen in Bildern und Videos wie zum Beispiel OpenPose^© bestimmt werden. Wie dem Fachmann bekannt ist, können diese Echtzeitverfahren zur Feststellung mehrerer Personen gemeinsam Schlüsselpunkte des menschlichen Körpers, der Hand, des Gesichts und der Füße auf Einzelbildern feststellen.
In einigen Fällen können verdeckte Schlüsselpunkte (z.B. schwer sichtbare oder von der Kamera nicht erfasste Schlüsselpunkte) in der Folge 240 von Einzelbildern vorhanden sein und von herkömmlichen Schlüsselpunkt-Bestimmungssystemen unbemerkt bleiben. Um dieses Problem zu vermeiden, verwendet das System 200 die Vorder- und Rückseite jedes Einzelbildes in der Folge 240 von Einzelbildern, um vorhandene verdeckte (menschbezogene oder objektbezogene) Schlüsselpunkte zu bestimmen. Insbesondere verwendet das Schlüsselpunkt-Feststellungsmodul in dem Schlüsselpunkt-Feststellungsprozess Verfolgungsalgorithmen, um eine Beziehung zwischen dem n-ten und dem (n + 1)-ten Einzelbild in der Folge 240 von Einzelbildern zu bestimmen. Wenn ein menschbezogener oder objektbezogener Schlüsselpunkt in dem (n + 1)-ten Einzelbild verdeckt ist, kann eine Position des verdeckten Schlüsselpunkts auf der Grundlage einer Position desselben Schlüsselpunkts in dem n-ten Einzelbild bestimmt werden, in dem der Schlüsselpunkt sichtbar oder die Sicht auf ihn nicht versperrt ist.
Die objektbezogenen Schlüsselpunkte 252 und die menschbezogenen Schlüsselpunkte 262 werden kombiniert und als Eingabe für das Merkmalsextraktionsmodul 218 verwendet. Das Merkmalsextraktionsmodul 218 besteht aus einem neuronalen Netz mit Graphenfaltung (GCN, Graph Convolutional Neural Network), das räumlich-zeitliche Merkmale extrahiert, die zum Trainieren eines Klassifizierungsmodells des Moduls 220 zur Klassifizierung interaktiver Aktivitäten verwendet werden können. Die räumlich-zeitlichen Merkmale sind sowohl räumlich als auch zeitlich erhobenen Daten zugehörig, die den bestimmten objektbezogenen Schlüsselpunkten 252 bzw. menschbezogenen Schlüsselpunkten 262 entsprechen.
Wie dem Fachmann bekannt ist, stellen GCNs ein Bildklassifizierungsverfahren bereit, das eine sehr leistungsfähige Architektur eines neuronalen Netzes für maschinelles Lernen anhand von Graphen umfasst. Insbesondere führen GCNs eine Faltung an einem Graphen durch, anstatt an einem aus Pixeln bestehenden Bild. Zum Beispiel extrahiert das CNN-Modell die wichtigsten Informationen aus der Folge 240 von Einzelbildern, um die Folge zu klassifizieren, das GCN-Modell lässt einen Filter über den Graphen laufen und sucht nach wesentlichen Eckpunkten und Kanten (d.h. Schlüsselpunkten), die bei der Klassifizierung von Knoten innerhalb des Graphen helfen können. Insbesondere kann das GCN-Modell Daten mit nicht-euklidischer Struktur (z.B. Bilder) effizienter verarbeiten und ist in der Lage, mehr Anwendungsraum auf topologischen Verbindungsdatenstrukturen bereitzustellen. Das Ergebnis des GCN-Modells umfasst endgültige objektbezogene Schlüsselpunkte und menschbezogene Schlüsselpunkte, die als Eingabe für das Klassifizierungsmodell des Moduls 220 zur Klassifizierung interaktiver Aktivitäten verwendet werden.
Die extrahierten räumlich-zeitlichen Merkmale werden in das Klassifizierungsmodell des Moduls 220 zur Klassifizierung interaktiver Aktivitäten eingegeben. Gemäß einer Ausführungsform gibt das Modul 220 zur Klassifizierung interaktiver Aktivitäten eine optimale Klassifizierung für (eine) Interaktion(en) zwischen Menschen und Objekten auf der Grundlage der extrahierten räumlich-zeitlichen Merkmale aus oder erstellt diese. Das Klassifizierungsmodell des Moduls 220 zur Klassifizierung interaktiver Aktivitäten verwendet einen überwachten Lernalgorithmus, der aus den Eingabedaten (d.h. den räumlich-zeitlichen Merkmalen, die den aus der Folge 240 von Einzelbildern extrahierten Schlüsselpunkten zugehörig sind) lernt und dieses Lernen dann verwendet, um neue interaktive Aktivitäten zwischen Menschen und Objekten zu klassifizieren.
In einigen Ausführungsformen kann das Klassifizierungsmodell des Moduls 220 zur Klassifizierung interaktiver Aktivitäten auf der Grundlage von Trainingsdatensätzen unerwünschte interaktive Aktivitäten zwischen Menschen und Objekten erkennen und eine Benachrichtigung über die ungewöhnliche interaktive Aktion erzeugen.
Unter Bezugnahme auf 3 ist ein Ablaufplan gezeigt, der die Schritte eines auf einem Computer ausgeführten Verfahrens zur automatisierten Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Der Prozess beginnt in Schritt 302 durch Empfangen einer Mehrzahl von Einzelbildern. Wie vorstehend erläutert, entspricht die Mehrzahl von Einzelbildern einer Folge von Einzelbildern, die aus einer Videoaufzeichnung extrahiert wurden. In Schritt 304 werden erste Schlüsselpunkte, die den einem Objekt zugehörigen Punkten von Interesse entsprechen (z.B. das Objekt 250 und die objektbezogenen Schlüsselpunkte 252 in 2B), unter Verwendung eines CNN-basierten Modells festgestellt. Gemäß einer Ausführungsform wurde das CNN-basierte Modell vorab für die Erkennung der ersten (objektbezogenen) Schlüsselpunkte trainiert.
In ähnlicher Weise werden in Schritt 306 in der empfangenen Mehrzahl von Einzelbildern zweite Schlüsselpunkte festgestellt, die Punkten von Interesse entsprechen, die einem Menschen oder einer Person zugehörig sind, der bzw. die mit dem Objekt interagiert. Die zweiten oder menschbezogenen Schlüsselpunkte werden unter Verwendung von aktuellen Echtzeitverfahren zur Erkennung der Körperhaltung von mehreren Personen in Bildern und Videos erkannt.
In Ausführungsformen, in denen verdeckte oder versteckte Schlüsselpunkte vorhanden sind, wird bei dem vorgeschlagenen Verfahren die Vorder- und Rückseite jedes Einzelbildes verwendet, um vorhandene verdeckte (menschbezogene und/oder objektbezogene) Schlüsselpunkte zu bestimmen, wie vorstehend unter Bezugnahme auf 2A erläutert.
In Schritt 308 werden erste (objektbezogene) Schlüsselpunkte und zweite (menschbezogene)Schlüsselpunkte kombiniert und in Schritt 310 als Eingabe für das GCN-Modell des Merkmalsextraktionsmoduls 218 aus 2A verwendet. Konkret wird in Schritt 308 ein vorher festgelegtes Zeitfenster N festgelegt, und erste und zweite Schlüsselpunkte, die diesem Zeitfenster N entsprechen, werden ausgewählt und kombiniert, um in Schritt 310 als Eingabe für das GCN-Modell verwendet zu werden. Eine Ausgabe des GCN-Modells für das entsprechende Zeitfenster N kann dann verwendet werden, um ein Klassifizierungsmodell zu trainieren (z.B. das Klassifizierungsmodell des Moduls 220 zur Klassifizierung interaktiver Aktivitäten aus 2A). Auf der Grundlage des trainierten Klassifizierungsmodells kann in Schritt 312 eine Erkennung von interaktiven Aktivitäten zwischen Menschen und Objekten durchgeführt werden. Anders ausgedrückt, die Ausgabe (d.h. relevante räumlich-zeitliche Merkmale kombinierter Schlüsselpunkte) des GCN-Modells wird verwendet, um das (Interaktions-)Klassifizierungsmodell zu speisen, wie vorstehend unter Bezugnahme auf 2A beschrieben.
In einigen Ausführungsformen kann das vorgeschlagene Verfahren auf der Grundlage des Erkennens einer interaktiven Aktivität als unerwünscht oder nicht optimal eine Benachrichtigung über die festgestellte ungewöhnliche Interaktion zwischen Mensch und Objekt erzeugen. Dies kann insbesondere bei Fertigungsprozessen oder Sicherheitssystemen hilfreich sein.
Deshalb stellen Ausführungsformen der vorliegenden Erfindung ein Verfahren, ein System und ein Computerprogrammprodukt zum Erkennen und Klassifizieren von interaktiven Aktivitäten zwischen Menschen und Objekten auf der Grundlage von Schlüsselpunkten bereit, die in einer zeitlichen Abfolge von Einzelbildern festgestellt werden. In den vorgeschlagenen Ausführungsformen werden Algorithmen des maschinellen Lernens eingesetzt, um menschbezogene und objektbezogene Schlüsselpunkte genau zu erkennen und zu klassifizieren, die dann zum Trainieren eines Klassifizierungsmodells für die Erkennung von interaktiven Aktivitäten verwendet werden können. Die vorgeschlagenen Ausführungsformen können für zahlreiche praktische Anwendungen nützlich sein, bei denen die Erkennung von Aktivitäten zwischen Menschen und Objekten erforderlich ist, darunter Fertigungsprozesse, Sicherheitssysteme, Wartungssysteme und dergleichen.
Unter Bezugnahme auf 4 ist ein Blockschaubild von Komponenten des Client-Computers 102 und des Server-Computers 114 der vernetzten Computerumgebung 100 aus 1 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Man sollte sich bewusst sein, dass 4 lediglich eine Veranschaulichung einer Umsetzung bereitstellt und keinerlei Einschränkungen in Bezug auf die Umgebungen, in denen verschiedene Ausführungsformen umgesetzt werden können, mit sich bringt. Es können viele Abwandlungen an der dargestellten Umgebung vorgenommen werden.
Der Client-Computer 102 und der Server-Computer 114 können einen oder mehrere Prozessoren 402, einen oder mehrere durch einen Computer lesbare RAMs 404, einen oder mehrere durch einen Computer lesbare ROMs 406, ein oder mehrere durch einen Computer lesbare Speichermedien 408, Einheitentreiber 412, ein Lese/Schreib-Laufwerk oder eine Lese/Schreib-Schnittstelle 414, einen Netzwerkadapter oder eine Netzwerkschnittstelle 416 umfassen, die alle über ein Datenübertragungsnetz 418 miteinander verbunden sind. Das Datenübertragungsnetz 418 kann mit jeder beliebigen Architektur umgesetzt werden, die zum Weiterleiten von Daten und/oder Steuerungsinformationen zwischen Prozessoren (wie zum Beispiel Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemspeicher, Peripherieeinheiten und beliebigen anderen Hardware-Komponenten innerhalb eines Systems ausgelegt ist.
Ein oder mehrere Betriebssysteme 410 und ein oder mehrere Anwendungsprogramme 411 sind auf einem oder mehreren der durch einen Computer lesbaren Speichermedien 408 zur Ausführung durch den einen oder die mehreren der Prozessoren 402 mittels eines oder mehrerer der jeweiligen RAMs 404 (die üblicherweise einen Cache enthalten) gespeichert. In der veranschaulichten Ausführungsform kann es sich bei jedem der durch einen Computer lesbaren Speichermedien 408 um eine Magnetplatten-Speichereinheit eines internen Festplattenlaufwerks, eine CD-ROM, eine DVD, einen Speicherstick, ein Magnetband, eine Magnetplatte, eine optische Platte, eine HalbleiterSpeichereinheit wie zum Beispiel RAM, ROM, EPROM, Flash-Speicher oder jede beliebige andere durch einen Computer lesbare, physische Speichereinheit handeln, die ein Computerprogramm und digitale Informationen speichern kann.
Der Client-Computer 102 und der Server-Computer 114 können auch das Lese/Schreib-Laufwerk oder die Lese/Schreib-Schnittstelle 414 umfassen, um von einem oder mehreren tragbaren, durch einen Computer lesbaren Speichermedien 426 zu lesen und darauf zu schreiben. Die Anwendungsprogramme 411 auf dem Client-Computer 102 und dem Server-Computer 114 können auf einem oder mehreren der tragbaren, durch einen Computer lesbaren Speichermedien 426 gespeichert, über das jeweilige Lese/Schreib-Laufwerk oder die jeweilige Lese/Schreib-Schnittstelle 414 gelesen und in die jeweiligen durch einen Computer lesbaren Speichermedien 408 geladen werden.
Der Client-Computer 102 und der Server-Computer 114 können auch einen Netzwerkadapter oder eine Netzwerkschnittstelle 416 umfassen, wie zum Beispiel eine TCP/IP-Adapterkarte oder einen drahtlosen Datenübertragungsadapter (wie zum Beispiel einen drahtlosen 4G-Datenübertragungsadapter, der die OFDMA-Technologie verwendet) zur Verbindung mit einem Netzwerk 428. Die Anwendungsprogramme 411 auf dem Client-Computer 102 und dem Server-Computer 114 können von einem externen Computer oder einer externen Speichereinheit über ein Netzwerk (z.B. das Internet, ein lokales Netzwerk oder andere Weitverkehrsnetze oder drahtlose Netzwerke) und einen Netzwerkadapter oder eine Netzwerkschnittstelle 416 auf die Datenverarbeitungseinheit heruntergeladen werden. Von dem Netzwerkadapter oder der Netzwerkschnittstelle 416 können die Programme auf das durch einen Computer lesbare Speichermedium 408 geladen werden. Das Netzwerk kann Kupferkabel, Lichtwellenleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen.
Der Client-Computer 102 und der Server-Computer 114 können auch einen Anzeigebildschirm 420, eine Tastatur oder einen Ziffernblock 422 und eine Computermaus oder ein Touchpad 424 umfassen. Die Einheitentreiber 412 weisen eine Schnittstelle zu dem Anzeigebildschirm 420 für die Bildgebung, zu der Tastatur oder dem Ziffernblock 422, zu der Computermaus oder dem Touchpad 424 und/oder zu dem Anzeigebildschirm 420 zur Druckabtastung von alphanumerischen Zeicheneingaben und Benutzerauswahlen auf. Die Einheitentreiber 412, das Lese/Schreib-Laufwerk oder die Lese/Schreib-Schnittstelle 414 und der Netzwerkadapter oder die Netzwerkschnittstelle 416 können Hardware und Software umfassen (die auf den durch einen Computer lesbaren Speichermedien 408 und/oder dem ROM 406 gespeichert sind).
Es sei von vornherein klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Vielmehr können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
Bei den Eigenschaften handelt es sich um die Folgenden:
On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die Folgenden:
Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Einsatzmodellen handelt es sich um die Folgenden:
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten umfasst.
Unter Bezugnahme auf 5 ist eine veranschaulichende Cloud-Computing-Umgebung 50 abgebildet. Wie gezeigt ist, umfasst die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 600, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie ein elektronischer Assistent (PDA, personal digital assistant) oder ein Mobiltelefon 54A, ein Desktop-Computer 54B, ein Laptop-Computer 54C und/oder ein Automobil-Computer-System 54N Daten austauschen können. Die Knoten 600 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten der in 5 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 600 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
Unter Bezugnahme auf 6 wird ein Satz von funktionalen Abstraktionsschichten gezeigt, die durch die Cloud-Computing-Umgebung 50 (5) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 6 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 60 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 61; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbank-Software 68.
Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71, virtueller Speicher 72, virtuelle Netzwerke 73, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
In einem Beispiel kann die Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 81 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 82 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen umfassen. Eine Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 84 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 85 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
Eine Arbeitslastschicht 90 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalytikverarbeitung 94; Transaktionsverarbeitung 95; und ein System 96 zur automatischen Erkennung von interaktiven Aktivitäten auf der Grundlage der Feststellung von Schlüsselpunkten.
Die hierin beschriebenen Programme werden beruhend auf der Anwendung bestimmt, für die sie in einer spezifischen Ausführungsform der Erfindung umgesetzt werden. Man sollte sich jedoch bewusst sein, dass jede bestimmte Programm-Nomenklatur hierin lediglich der Einfachheit halber verwendet wird, und folglich darf die Erfindung nicht auf die ausschließliche Verwendung in einer beliebigen spezifischen Anwendung, die durch eine derartige Nomenklatur ermittelt und/oder impliziert wird, beschränkt werden.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil eines Codes darstellen, der eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweist. Es sei auch angemerkt, dass in einigen alternativen Ausführungen die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden können. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist darüber hinaus anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder durch Kombinationen aus Spezial-Hardware und Computeranweisungen.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der festgelegten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Auch wenn Schritte des offenbarten Verfahrens und Komponenten der offenbarten Systeme und Umgebungen nacheinander oder fortlaufend unter Verwendung von Zahlen und Buchstaben gekennzeichnet wurden, ist diese Nummerierung oder Beschriftung kein Hinweis darauf, dass derartige Schritte in der angegebenen Reihenfolge durchgeführt werden müssen, sondern wird lediglich zur Ermöglichung einer eindeutigen Bezugnahme auf die Schritte des Verfahrens bereitgestellt. Des Weiteren können Schritte des Verfahrens parallel durchgeführt werden, um ihre beschriebene Funktionalität zu erfüllen.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung aufgeführt, sollen jedoch nicht gesamthaft stehen für bzw. begrenzt sein auf die offenbarten Ausführungsformen. Für Fachleute werden viele Abänderungen und Abwandlungen ersichtlich sein, ohne von dem Umfang der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt vorgefundenen Technologien bestmöglich zu erläutern oder um es anderen Fachleuten zu ermöglichen, die hierin dargelegten Ausführungsformen zu verstehen.

Claims

Auf einem Computer ausgeführtes Verfahren zur Erkennung von interaktiven Aktivitäten, aufweisend: Abrufen einer zeitlichen Abfolge von Einzelbildern aus einer Videoaufzeichnung durch einen oder mehrere Prozessoren; Ermitteln von ersten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die ersten Schlüsselpunkte einem Objekt in der zeitlichen Abfolge von Einzelbildern zugehörig sind; Ermitteln von zweiten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die zweiten Schlüsselpunkte einer Person zugehörig sind, die mit dem Objekt interagiert; Kombinieren der ersten Schlüsselpunkte mit den zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; Extrahieren von räumlich-zeitlichen Merkmalen aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; und Trainieren eines Klassifizierungsmodells zur Erkennung von interaktiven Aktivitäten zwischen der Person und dem Objekt durch den einen oder die mehreren Prozessoren auf der Grundlage der extrahierten räumlich-zeitlichen Merkmale.
Verfahren nach Anspruch 1, wobei das Ermitteln der ersten Schlüsselpunkte darüber hinaus Folgendes aufweist: Verwenden eines auf einem neuronalen Faltungsnetz (CNN) beruhenden Feststellungsmodells, das auf das Ermitteln der ersten Schlüsselpunkte trainiert wurde, durch den einen oder die mehreren Prozessoren.
Verfahren nach Anspruch 2, darüber hinaus aufweisend: Verwenden von vorab gekennzeichneten Daten durch den einen oder die mehreren Prozessoren, um das CNN-basierte Feststellungsmodell auf das Ermitteln der ersten Schlüsselpunkte zu trainieren.
Verfahren nach Anspruch 1, wobei das Ermitteln der zweiten Schlüsselpunkte darüber hinaus Folgendes aufweist: Verwenden eines Echtzeitverfahrens zur Erkennung der Körperhaltung von mehreren Personen in Bildern und Videos durch den einen oder die mehreren Prozessoren.
Verfahren nach Anspruch 1, wobei das Extrahieren der räumlich-zeitlichen Merkmale aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten darüber hinaus Folgendes aufweist: Verwenden der kombinierten ersten Schlüsselpunkte und zweiten Schlüsselpunkte durch den einen oder die mehreren Prozessoren als Eingabe für ein Modell eines neuronalen Netzes mit Graphenfaltung (GCN), um die räumlich-zeitlichen Merkmale zu extrahieren, wobei ein Ergebnis des GCN-Modells endgültige erste Schlüsselpunkte und endgültige zweite Schlüsselpunkte aufweist.
Verfahren nach Anspruch 1, darüber hinaus aufweisend: Einspeisung der räumlich-zeitlichen Merkmale in das Klassifizierungsmodell durch den einen oder die mehreren Prozessoren.
Verfahren nach Anspruch 1, darüber hinaus aufweisend: Ermitteln eines dritten Schlüsselpunkts, der einem verdeckten Schlüsselpunkt entspricht, durch den einen oder die mehreren Prozessoren.
Verfahren nach Anspruch 7, wobei das Ermitteln des dritten Schlüsselpunkts darüber hinaus Folgendes aufweist: Bestimmen einer Beziehung zwischen einem n-ten Einzelbild und einem (n + 1)-ten Einzelbild aus der zeitlichen Abfolge von Einzelbildern unter Verwendung von Verfolgungsalgorithmen durch den einen oder die mehreren Prozessoren, wobei eine Position des dritten Schlüsselpunkts in dem (n + 1)-ten Einzelbild auf der Grundlage einer Position des dritten Schlüsselpunkts in dem n-ten Einzelbild, in dem der dritte Schlüsselpunkt sichtbar ist, bestimmt wird.
Computersystem zur Erkennung von interaktiven Aktivitäten, aufweisend: einen oder mehrere Prozessoren, einen oder mehrere durch einen Computer lesbare Speicher, ein oder mehrere durch einen Computer lesbare, physische Speichereinheiten und Programmanweisungen, die auf mindestens einem der einen oder der mehreren Speichereinheiten zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren über mindestens einen der einen oder der mehreren Speicher gespeichert sind, wobei das Computersystem in der Lage ist, ein Verfahren durchzuführen, aufweisend: Abrufen einer zeitlichen Abfolge von Einzelbildern aus einer Videoaufzeichnung durch einen oder mehrere Prozessoren; Ermitteln von ersten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die ersten Schlüsselpunkte einem Objekt in der zeitlichen Abfolge von Einzelbildern zugehörig sind; Ermitteln von zweiten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die zweiten Schlüsselpunkte einer Person zugehörig sind, die mit dem Objekt interagiert; Kombinieren der ersten Schlüsselpunkte mit den zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; Extrahieren von räumlich-zeitlichen Merkmalen aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; und Trainieren eines Klassifizierungsmodells zur Erkennung von interaktiven Aktivitäten zwischen der Person und dem Objekt durch den einen oder die mehreren Prozessoren auf der Grundlage der extrahierten räumlich-zeitlichen Merkmale.
Computersystem nach Anspruch 9, wobei das Ermitteln der ersten Schlüsselpunkte darüber hinaus Folgendes aufweist: Verwenden eines auf einem neuronalen Faltungsnetz (CNN) beruhenden Feststellungsmodells, das auf das Ermitteln der ersten Schlüsselpunkte trainiert wurde, durch den einen oder die mehreren Prozessoren.
Computersystem nach Anspruch 10, darüber hinaus aufweisend: Verwenden von vorab gekennzeichneten Daten durch den einen oder die mehreren Prozessoren, um das CNN-basierte Feststellungsmodell auf das Ermitteln der ersten Schlüsselpunkte zu trainieren.
Computersystem nach Anspruch 9, wobei das Ermitteln der zweiten Schlüsselpunkte darüber hinaus Folgendes aufweist: Verwenden eines Echtzeitverfahrens zur Erkennung der Körperhaltung mehrerer Personen in Bildern und Videos durch den einen oder die mehreren Prozessoren.
Computersystem nach Anspruch 9, wobei das Extrahieren der räumlich-zeitlichen Merkmale aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten darüber hinaus Folgendes aufweist: Verwenden der kombinierten ersten Schlüsselpunkte und zweiten Schlüsselpunkte durch den einen oder die mehreren Prozessoren als Eingabe für ein Modell eines neuronalen Netzes mit Graphenfaltung (GCN), um die räumlich-zeitlichen Merkmale zu extrahieren, wobei ein Ergebnis des GCN-Modells endgültige erste Schlüsselpunkte und endgültige zweite Schlüsselpunkte aufweist.
Computersystem nach Anspruch 9, darüber hinaus aufweisend: Einspeisung der räumlich-zeitlichen Merkmale in das Klassifizierungsmodell durch den einen oder die mehreren Prozessoren.
Computersystem nach Anspruch 9, darüber hinaus aufweisend: Ermitteln eines dritten Schlüsselpunkts, der einem verdeckten Schlüsselpunkt entspricht, durch den einen oder die mehreren Prozessoren.
Computersystem nach Anspruch 15, wobei das Ermitteln des dritten Schlüsselpunkts darüber hinaus Folgendes aufweist: Bestimmen einer Beziehung zwischen einem n-ten Einzelbild und einem (n + 1)-ten Einzelbild aus der zeitlichen Abfolge von Einzelbildern unter Verwendung von Verfolgungsalgorithmen durch den einen oder die mehreren Prozessoren, wobei eine Position des dritten Schlüsselpunkts in dem (n + 1)-ten Einzelbild auf der Grundlage einer Position des dritten Schlüsselpunkts in dem n-ten Einzelbild, in dem der dritte Schlüsselpunkt sichtbar ist, bestimmt wird.
Computerprogrammprodukt zur Erkennung von interaktiven Aktivitäten, aufweisend: ein oder mehrere durch einen Computer lesbare Speichermedien und auf dem einen oder den mehreren durch einen Computer lesbaren Speichermedien gemeinsam gespeicherte Programmanweisungen, die Programmanweisungen aufweisend: Programmanweisungen zum Abrufen einer zeitlichen Abfolge von Einzelbildern aus einer Videoaufzeichnung durch einen oder mehrere Prozessoren; Programmanweisungen zum Ermitteln von ersten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die ersten Schlüsselpunkte einem Objekt in der zeitlichen Abfolge von Einzelbildern zugehörig sind; Programmanweisungen zum Ermitteln von zweiten Schlüsselpunkten in jedem der Einzelbilder in der zeitlichen Abfolge durch den einen oder die mehreren Prozessoren, wobei die zweiten Schlüsselpunkte einer Person zugehörig sind, die mit dem Objekt interagiert; Programmanweisungen zum Kombinieren der ersten Schlüsselpunkte mit den zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; Programmanweisungen zum Extrahieren von räumlich-zeitlichen Merkmalen aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten durch den einen oder die mehreren Prozessoren; und Programmanweisungen zum Trainieren eines Klassifizierungsmodells zur Erkennung von interaktiven Aktivitäten zwischen der Person und dem Objekt auf der Grundlage der extrahierten räumlich-zeitlichen Merkmale durch den einen oder die mehreren Prozessoren.
Computerprogrammprodukt nach Anspruch 17, wobei das Ermitteln der ersten Schlüsselpunkte und das Ermitteln der zweiten Schlüsselpunkte darüber hinaus Folgendes aufweist: Verwenden eines auf einem neuronalen Faltungsnetz (CNN) beruhenden Feststellungsmodells, das auf das Ermitteln der ersten Schlüsselpunkte trainiert wurde, durch den einen oder die mehreren Prozessoren; und Verwenden eines Echtzeitverfahrens zur Erkennung der Körperhaltung von mehreren Personen in Bildern und Videos durch den einen oder die mehreren Prozessoren zum Ermitteln der zweiten Schlüsselpunkte.
Computerprogrammprodukt nach Anspruch 17, wobei das Extrahieren der räumlich-zeitlichen Merkmale aus den kombinierten ersten Schlüsselpunkten und zweiten Schlüsselpunkten darüber hinaus Folgendes aufweist: Verwenden der kombinierten ersten Schlüsselpunkte und zweiten Schlüsselpunkte durch den einen oder die mehreren Prozessoren als Eingabe für ein Modell eines neuronalen Netzes mit Graphenfaltung (GCN), um die räumlich-zeitlichen Merkmale zu extrahieren, wobei ein Ergebnis des GCN-Modells endgültige erste Schlüsselpunkte und endgültige zweite Schlüsselpunkte aufweist.
Computerprogrammprodukt nach Anspruch 17, darüber hinaus aufweisend: Ermitteln eines dritten Schlüsselpunkts, der einem verdeckten Schlüsselpunkt entspricht, durch den einen oder die mehreren Prozessoren, wobei das Ermitteln des dritten Schlüsselpunkts ein Bestimmen einer Beziehung zwischen einem n-ten Einzelbild und einem (n + 1)-ten Einzelbild aus der zeitlichen Abfolge von Einzelbildern unter Verwendung von Verfolgungsalgorithmen durch den einen oder die mehreren Prozessoren aufweist, wobei eine Position des dritten Schlüsselpunkts in dem (n + 1)-ten Einzelbild auf der Grundlage einer Position des dritten Schlüsselpunkts in dem n-ten Einzelbild, in dem der dritte Schlüsselpunkt sichtbar ist, bestimmt wird.