DE202022100596U1

DE202022100596U1 - A system for real-time prediction of actions and identities of people in videos

Info

Publication number: DE202022100596U1
Application number: DE202022100596.6U
Authority: DE
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-02-02
Filing date: 2022-02-02
Publication date: 2022-02-23
Anticipated expiration: 2032-02-03

Abstract

Ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos, das System umfasst:
eine Trainingsverarbeitungseinheit zum Trainieren des Systems zur Vorhersage menschlicher Handlungen und der Identität in Echtzeit; und
eine Testverarbeitungseinheit zum Testen des trainierten Systems für ein bestimmtes Video, um menschliche Handlungen und Identitäten in Echtzeit vorherzusagen.

A system for real-time prediction of actions and identities of people in videos, the system includes:
a training processing unit for training the human action and identity prediction system in real time; and
a test processing unit for testing the trained system for a given video to predict human actions and identities in real time.

Description

BEREICH DER ERFINDUNGFIELD OF THE INVENTION

Die vorliegende Offenlegung bezieht sich auf ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos.The present disclosure relates to a system for real-time prediction of actions and identities of people in videos.

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

Überwachungskameras sind allgegenwärtig und produzieren jeden Tag eine große Menge an Daten in Form von Videos. Bei illegalen Handlungen, die von Menschen durchgeführt werden, werden diese Aktivitäten als Beweismittel analysiert, um den Menschen zu identifizieren. Diese Videos werden von Menschen ordnungsgemäß analysiert, was diese Aufgabe zu einer zeitaufwändigen und sorgfältigen Aufgabe macht.Surveillance cameras are ubiquitous and produce a large amount of data in the form of videos every day. In the case of illegal acts performed by humans, these activities are analyzed as evidence to identify the human. These videos are properly analyzed by humans, which makes this task a time-consuming and painstaking task.

Um diesen Prozess zu vereinfachen, haben sich viele frühere Arbeiten auf die Vorhersage menschlicher Aktivitäten in Videos konzentriert, aber sie konzentrieren sich nur auf die Identifizierung der ausgeführten Aktivität und nicht auf die Identifizierung von Menschen in Echtzeit. Es besteht also ein Bedarf an einem bildverarbeitungsbasierten System, das sowohl die menschliche Aktivität als auch die Person in Echtzeit vorhersagen kann. Diese Art von System kann für die Identifizierung von Kriminellen verwendet werden.To simplify this process, much previous work has focused on predicting human activity in video, but it only focuses on identifying the activity being performed rather than identifying people in real-time. Thus, there is a need for an image processing based system that can predict both human activity and person in real time. This type of system can be used to identify criminals.

In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos benötigt wird.In view of the previous discussion, it becomes clear that a system for real-time prediction of actions and identities of people in videos is needed.

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Die vorliegende Offenbarung bezieht sich auf ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos. Die vorliegende Offenlegung schlägt ein auf tiefem Lernen basierendes Identifikationssystem für die Echtzeitvorhersage menschlicher Aktivitäten und Identität in Überwachungsvideos vor. Das vorgeschlagene System lokalisiert die von Menschen in den Videos durchgeführten Aktionen und identifiziert sie räumlich mit Bounding Boxes. Das vorgeschlagene System verwendet eine Kombination aus Merkmalen der menschlichen Pose und Merkmalen interaktiver Objekte für die Erkennung und Vorhersage von Aktivitäten, wobei die Objekte, mit denen eine Person interagiert, als interaktive Objekte bezeichnet werden. Die Identifizierung einer Person erfolgt durch die Erkennung des Gesichtsmerkmals der Person. Das vorgeschlagene System verwendet das Resnet-51 Convolutional Neural Network für die Klassifizierung der Pose auf Bildebene und ein Objekterkennungsmodell für die Erkennung von interaktiven Objekten. Das menschliche Gesicht wird mit Hilfe einer auf tiefem metrischem Lernen basierenden Gesichtserkennung erkannt.The present disclosure relates to a system for real-time prediction of actions and identities of people in videos. The present disclosure proposes a deep learning-based identification system for real-time prediction of human activity and identity in surveillance video. The proposed system locates the actions performed by people in the videos and spatially identifies them with bounding boxes. The proposed system uses a combination of features of human pose and features of interactive objects for activity detection and prediction, where the objects with which a person interacts are called interactive objects. A person is identified by recognizing the person's facial feature. The proposed system uses the Resnet-51 convolutional neural network for image-level pose classification and an object recognition model for interactive object recognition. The human face is recognized using face recognition based on deep metric learning.

Die vorliegende Offenlegung zielt darauf ab, ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos bereitzustellen. Das System umfasst: eine Trainingsverarbeitungseinheit zum Trainieren des Systems zur Vorhersage menschlicher Handlungen und der Identität in Echtzeit; und eine Testverarbeitungseinheit zum Testen des trainierten Systems für ein bestimmtes Video, um menschliche Handlungen und die Identität in Echtzeit vorherzusagen.The present disclosure aims to provide a system for real-time prediction of actions and identities of people in videos. The system includes: a training processing unit for training the human action and identity prediction system in real time; and a test processing unit for testing the trained system for a particular video to predict human actions and identity in real time.

Ein Ziel der vorliegenden Offenlegung ist es, ein System für die Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos bereitzustellen.An aim of the present disclosure is to provide a system for real-time prediction of actions and identities of people in videos.

Ein weiteres Ziel der vorliegenden Offenlegung ist die Identifizierung verdächtiger menschlicher Handlungen in den Videos und die Vorhersage der Bounding-Box-Lokalisierung.Another objective of the present disclosure is to identify suspicious human actions in the videos and predict bounding box location.

Ein weiteres Ziel der vorliegenden Offenbarung ist es, mehrere menschliche Handlungen getrennt zu verfolgen und für jede Handlung ein Label vorherzusagen.Another goal of the present disclosure is to separately track multiple human actions and predict a label for each action.

Ein weiteres Ziel der vorliegenden Offenlegung ist es, den Menschen zusammen mit dem Objekt, mit dem er interagiert, auf einer feinkörnigen Ebene zu identifizieren.Another goal of the present disclosure is to identify the human along with the object with which they interact at a fine-grained level.

Zur weiteren Verdeutlichung der Vorteile und Merkmale der vorliegenden Offenbarung wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen gegeben, die in den beigefügten Figuren dargestellt sind. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung des Umfangs der Erfindung zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.In order to further clarify the advantages and features of the present disclosure, a more detailed description of the invention is provided by reference to specific embodiments that are illustrated in the accompanying figures. It is understood that these figures represent only typical embodiments of the invention and therefore should not be considered as limiting the scope of the invention. The invention will be described and illustrated with additional specificity and detail with the accompanying figures.

Figurenlistecharacter list

Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:

1 ein Blockdiagramm eines Systems zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in Videos gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und
2 eine Trainingsverarbeitungseinheit gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.

These and other features, aspects, and advantages of the present disclosure will be better understood when the following detailed description is read with reference to the accompanying figures, in which like characters represent like parts throughout the figures, wherein:

1 Figure 12 shows a block diagram of a system for real-time predicting actions and identity of people in videos according to an embodiment of the present disclosure; and
2 Figure 12 shows a training processing unit according to an embodiment of the present disclosure.

Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.Those skilled in the art will understand that the elements in the figures are presented for simplicity and are not necessarily drawn to scale. For example, the flow charts illustrate the method of key steps to enhance understanding of aspects of the present disclosure. Furthermore, one or more components of the device may be represented in the figures by conventional symbols, and the figures only show the specific details relevant to an understanding of the embodiments of the present disclosure to avoid deleting the figures with details to overload, which are easily recognizable to those skilled in the art familiar with the present description.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.For the purposes of promoting an understanding of the invention, reference will now be made to the embodiment illustrated in the figures and specific language will be used to describe the same. It should be understood, however, that no limitation on the scope of the invention is intended, and such alterations and further modifications to the illustrated system and such further applications of the principles of the invention set forth therein are contemplated as would occur to those skilled in the art invention would normally come to mind.

Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.Those skilled in the art will understand that the foregoing general description and the following detailed description are exemplary and explanatory of the invention and are not intended to be limiting.

Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.When this specification refers to "an aspect," "another aspect," or the like, it means that a particular feature, structure, or characteristic described in connection with the embodiment is present in at least one embodiment included in the present disclosure. Therefore, the phrases "in one embodiment," "in another embodiment," and similar phrases throughout this specification may or may not all refer to the same embodiment.

Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte umfasst, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.The terms "comprises," "including," or other variations thereof are intended to cover non-exclusive inclusion such that a method or method that includes a list of steps includes not only those steps, but may also include other steps that are not expressly stated or pertaining to any such process or method. Likewise, any device or subsystem or element or structure or component preceded by "comprises...a" does not, without further limitation, exclude the existence of other devices or other subsystem or other element or other structure or other component or additional device or additional subsystems or additional elements or additional structures or additional components.

Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one skilled in the art to which this invention pertains. The system, methods, and examples provided herein are for purposes of illustration only and are not intended to be limiting.

Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.Embodiments of the present disclosure are described in detail below with reference to the attached figures.

Die in dieser Spezifikation beschriebenen Funktionseinheiten werden als Geräte bezeichnet. Ein Gerät kann in programmierbaren Hardware-Geräten wie Prozessoren, digitalen Signalprozessoren, zentralen Verarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbaren Logik-Arrays, programmierbaren Logik-Geräten, Cloud-Verarbeitungssystemen oder Ähnlichem implementiert sein. Die Geräte können auch in Software für die Ausführung durch verschiedene Arten von Prozessoren implementiert werden. Ein identifiziertes Gerät kann einen ausführbaren Code enthalten und kann beispielsweise einen oder mehrere physische oder logische Blöcke von Computeranweisungen umfassen, die beispielsweise als Objekt, Prozedur, Funktion oder anderes Konstrukt organisiert sein können. Die ausführbare Datei eines identifizierten Geräts muss jedoch nicht physisch an einem Ort liegen, sondern kann aus verschiedenen, an unterschiedlichen Orten gespeicherten Anweisungen bestehen, die, wenn sie logisch zusammengefügt werden, das Gerät bilden und den angegebenen Zweck des Geräts erfüllen.The functional units described in this specification are referred to as devices. A device may be implemented in programmable hardware devices such as processors, digital signal processors, central processing units, field programmable gate arrays, programmable logic arrays, programmable logic devices, cloud processing systems, or the like. The devices can also be implemented in software for execution by various types of processors. An identified device may include executable code and may include, for example, one or more physical or logical blocks of computer instructions, which may be organized as, for example, an object, procedure, function, or other construct. However, the executable file of an identified device does not have to reside physically in one location, but may consist of various instructions stored in different locations which, when logically assembled, form the device and fulfill the stated purpose of the device.

Der ausführbare Code eines Geräts oder Moduls kann ein einzelner Befehl oder eine Vielzahl von Befehlen sein und kann sogar über mehrere verschiedene Codesegmente, verschiedene Anwendungen und mehrere Speichergeräte verteilt sein. In ähnlicher Weise können Betriebsdaten innerhalb des Geräts identifiziert und dargestellt werden, wobei sie in jeder geeigneten Form vorliegen und in jeder geeigneten Art von Datenstruktur organisiert sein können. Die Betriebsdaten können als ein einziger Datensatz gesammelt werden oder über verschiedene Orte, einschließlich verschiedener Speichergeräte, verteilt sein und können zumindest teilweise als elektronische Signale in einem System oder Netzwerk vorliegen.The executable code of a device or module can be a single instruction or a multitude of instructions, and can even be distributed across several different code segments, different applications, and multiple storage devices. Similarly, operational data may be identified and represented within the device and may be in any suitable form and organized in any suitable type of data structure. The operating data can be used as a single Data set may be collected or distributed across various locations, including various storage devices, and may exist, at least in part, as electronic signals in a system or network.

Wenn in dieser Beschreibung von „einer ausgewählten Ausführungsform“, „einer Ausführungsform“ oder „einer Ausführungsform“ die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform des offengelegten Gegenstands enthalten ist. Daher beziehen sich die Ausdrücke „eine ausgewählte Ausführungsform“, „in einer Ausführungsform“ oder „in einer Ausführungsform“ an verschiedenen Stellen in dieser Beschreibung nicht unbedingt auf dieselbe Ausführungsform.When this specification refers to "a selected embodiment," "an embodiment," or "an embodiment," it means that a particular feature, structure, or characteristic described in connection with the embodiment is at least one embodiment of the disclosed subject matter. As such, the phrases "a selected embodiment," "in one embodiment," or "in one embodiment" throughout this specification are not necessarily all referring to the same embodiment.

Darüber hinaus können die beschriebenen Merkmale, Strukturen oder Eigenschaften in jeder geeigneten Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der folgenden Beschreibung werden zahlreiche spezifische Details angegeben, um ein umfassendes Verständnis der Ausführungsformen des offengelegten Gegenstands zu ermöglichen. Der Fachmann wird jedoch erkennen, dass der offengelegte Gegenstand auch ohne eines oder mehrere der spezifischen Details oder mit anderen Methoden, Komponenten, Materialien usw. ausgeführt werden kann. In anderen Fällen werden bekannte Strukturen, Materialien oder Vorgänge nicht im Detail gezeigt oder beschrieben, um zu vermeiden, dass Aspekte des offengelegten Gegenstandes verdeckt werden.Furthermore, the features, structures, or characteristics described may be combined in any suitable manner in one or more embodiments. In the following description, numerous specific details are provided in order to provide a thorough understanding of the embodiments of the disclosed subject matter. However, one skilled in the art will recognize that the disclosed subject matter may be practiced without one or more of the specific details, or using other methods, components, materials, etc. In other instances, well-known structures, materials, or operations are not shown or described in detail to avoid obscuring aspects of the disclosed subject matter.

Gemäß den beispielhaften Ausführungsformen können die offengelegten Computerprogramme oder -module auf viele beispielhafte Arten ausgeführt werden, beispielsweise als Anwendung, die im Speicher eines Geräts resident ist, oder als gehostete Anwendung, die auf einem Server ausgeführt wird und mit der Geräteanwendung oder dem Browser über eine Reihe von Standardprotokollen wie TCP/IP, HTTP, XML, SOAP, REST, JSON und anderen ausreichenden Protokollen kommuniziert. Die offengelegten Computerprogramme können in beispielhaften Programmiersprachen geschrieben werden, die vom Speicher auf dem Gerät oder von einem gehosteten Server ausgeführt werden, wie BASIC, COBOL, C, C++, Java, Pascal oder Skriptsprachen wie JavaScript, Python, Ruby, PHP, Perl oder andere ausreichende Programmiersprachen.According to the example embodiments, the disclosed computer programs or modules may be implemented in many example ways, such as as an application residing in the memory of a device or as a hosted application running on a server and connected to the device application or browser via a Communicates series of standard protocols like TCP/IP, HTTP, XML, SOAP, REST, JSON and other sufficient protocols. The disclosed computer programs may be written in example programming languages executed from memory on the device or from a hosted server, such as BASIC, COBOL, C, C++, Java, Pascal, or scripting languages such as JavaScript, Python, Ruby, PHP, Perl, or others sufficient programming languages.

Einige der offengelegten Ausführungsformen umfassen oder beinhalten die Datenübertragung über ein Netzwerk, z. B. die Übermittlung verschiedener Eingaben oder Dateien über das Netzwerk. Das Netzwerk kann beispielsweise das Internet, Wide Area Networks (WANs), Local Area Networks (LANs), analoge oder digitale drahtgebundene und drahtlose Telefonnetzwerke (z. B. PSTN, Integrated Services Digital Network (ISDN), ein zellulares Netzwerk und Digital Subscriber Line (xDSL)), Radio, Fernsehen, Kabel, Satellit und/oder andere Übertragungs- oder Tunnelmechanismen zur Übertragung von Daten umfassen. Das Netz kann mehrere Netze oder Teilnetze umfassen, von denen jedes z. B. einen drahtgebundenen oder drahtlosen Datenpfad enthalten kann. Das Netz kann ein leitungsvermitteltes Sprachnetz, ein paketvermitteltes Datennetz oder ein beliebiges anderes Netz für die Übertragung elektronischer Kommunikation umfassen. Das Netzwerk kann beispielsweise Netzwerke umfassen, die auf dem Internet-Protokoll (IP) oder dem asynchronen Übertragungsmodus (ATM) basieren, und es kann Sprache unterstützen, indem es z. B. VoIP, Voice-over-ATM oder andere vergleichbare Protokolle für die Sprachdatenkommunikation verwendet. In einer Implementierung umfasst das Netzwerk ein zellulares Telefonnetz, das so konfiguriert ist, dass es den Austausch von Text- oder SMS-Nachrichten ermöglicht.Some of the disclosed embodiments include or involve data transmission over a network, e.g. B. the transmission of various inputs or files over the network. The network can be, for example, the Internet, wide area networks (WANs), local area networks (LANs), analog or digital wired and wireless telephone networks (e.g. PSTN, Integrated Services Digital Network (ISDN), a cellular network and digital subscriber line (xDSL)), radio, television, cable, satellite and/or other transmission or tunneling mechanisms for the transmission of data. The network can comprise several networks or sub-networks, each of which e.g. B. may include a wired or wireless data path. The network may comprise a circuit switched voice network, a packet switched data network or any other network for the transmission of electronic communications. The network may for example comprise Internet Protocol (IP) or Asynchronous Transfer Mode (ATM) based networks and may support voice e.g. B. VoIP, Voice-over-ATM or other comparable protocols for voice data communication. In one implementation, the network includes a cellular telephone network configured to allow the exchange of text or SMS messages.

Beispiele für ein Netzwerk sind unter anderem ein Personal Area Network (PAN), ein Storage Area Network (SAN), ein Home Area Network (HAN), ein Campus Area Network (CAN), ein Local Area Network (LAN), ein Wide Area Network (WAN), ein Metropolitan Area Network (MAN), ein Virtual Private Network (VPN), ein Enterprise Private Network (EPN), das Internet, ein Global Area Network (GAN) und so weiter.Examples of a network include a personal area network (PAN), a storage area network (SAN), a home area network (HAN), a campus area network (CAN), a local area network (LAN), a wide area Network (WAN), a Metropolitan Area Network (MAN), a Virtual Private Network (VPN), an Enterprise Private Network (EPN), the Internet, a Global Area Network (GAN), and so on.

In den 1 und 2 ist ein Blockdiagramm eines Systems zur Echtzeitvorhersage von Handlungen und der Identität von Menschen in Videos gemäß einer Ausführungsform der vorliegenden Offenbarung dargestellt. Das System 100 umfasst eine Trainingsverarbeitungseinheit 102 zum Trainieren des Systems zur Vorhersage menschlicher Handlungen und der Identität in Echtzeit.In the 1 and 2 Illustrated is a block diagram of a system for real-time predicting actions and identity of people in videos according to an embodiment of the present disclosure. The system 100 includes a training processing unit 102 for training the human action prediction system and identity in real time.

In einer Ausführungsform wird eine Testverarbeitungseinheit 104 zum Testen des trainierten Systems für ein bestimmtes Video verwendet, um menschliche Handlungen und Identitäten in Echtzeit vorherzusagen.In one embodiment, a test processing unit 104 is used to test the trained system for a particular video to predict human actions and identities in real time.

In einer Ausführungsform umfasst die Trainingsverarbeitungseinheit (102): eine Auswahlverarbeitungseinheit (202) zum Auswählen von Schlüsselbildern aus jeder Klasse, wobei nur diejenigen Schlüsselbilder ausgewählt werden, die die Klasse ordnungsgemäß repräsentieren; eine Extraktionsverarbeitungseinheit (204) zum Extrahieren der Region von Interesse für jedes Bild unter Verwendung einer Personendetektionstechnik; eine Verbesserungsverarbeitungseinheit (206) zum Verbessern der Qualität des Bildes durch Anwenden einer auf tiefem Lernen basierenden Bildüberauflösung, um die kleineren Objekte deutlicher zu machen; eine Klassifizierungsverarbeitungseinheit (208) zur Klassifizierung der Pose auf Rahmenebene unter Verwendung und Training eines Resnet-51-Modells, wobei das Resnet-51-Faltungsneuronalnetzmodell zum Trainieren klassenspezifischer Schlüsselbilder verwendet wird; eine Objektverarbeitungseinheit (210) zum Trainieren der Objekterkennungstechnik auf verschiedenen interaktiven Objekten; und eine Identitätsverarbeitungseinheit (212) zum Erfassen und Erkennen des Gesichts der Person unter Verwendung eines auf tiefem metrischen Lernen basierenden Gesichtserkennungsmodells.In one embodiment, the training processing unit (102) comprises: a selection processing unit (202) for selecting keyframes from each class, selecting only those keyframes that properly represent the class; an extraction processing unit (204) for extracting the region of interest for each image using a person detection technique; a verb image processing unit (206) for improving the quality of the image by applying deep learning-based image superresolution to make the smaller objects clearer; a classification processing unit (208) for classifying the pose at frame level using and training a Resnet-51 model, the Resnet-51 convolutional neural network model being used for training class-specific keyframes; an object processing unit (210) for training the object recognition technique on different interactive objects; and an identity processing unit (212) for detecting and recognizing the person's face using a face recognition model based on deep metric learning.

In einer Ausführungsform können die Trainingsverarbeitungseinheit (102), die Auswahlverarbeitungseinheit (202), die Extraktionsverarbeitungseinheit (204), die Anreicherungsverarbeitungseinheit (206), die Klassifizierungsverarbeitungseinheit (208), die Objektverarbeitungseinheit (210), die Identitätsverarbeitungseinheit (212) und die Testverarbeitungseinheit (104) in programmierbaren Hardwarevorrichtungen, wie z. B. Prozessoren, digitalen Signalprozessoren, Zentralverarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbarer Array-Logik, programmierbaren Logikvorrichtungen, Cloud-Verarbeitungssystemen oder Ähnlichem, implementiert werden.In one embodiment, the training processing unit (102), the selection processing unit (202), the extraction processing unit (204), the enrichment processing unit (206), the classification processing unit (208), the object processing unit (210), the identity processing unit (212), and the test processing unit (104 ) in programmable hardware devices such as processors, digital signal processors, central processing units, field programmable gate arrays, programmable array logic, programmable logic devices, cloud processing systems, or the like.

In einer Ausführungsform werden die Einzelbilder zunächst aus dem gegebenen Video extrahiert, während das trainierte System getestet wird, und dann wird eine Bild-Superauflösung für jedes erkannte Einzelbild durchgeführt, wobei jeder erkannten Person eine eindeutige ID zugewiesen wird, und dann wird die Bounding-Box-Region der erkannten Person an das trainierte Resnet-51-Modell weitergeleitet, um eine Kennzeichnung für jedes Einzelbild zu erzeugen, und dann werden Aktionskennzeichnungen nach der Erkennung und Klassifizierung von interaktiven Objekten erhalten, wonach track-id-weise Ergebnisse durch die Erkennung und Klassifizierung von menschlichen Gesichtern erhalten werden und schließlich die endgültige Klassen- und Identitätskennzeichnung durch Anwendung eines gleitenden Durchschnitts auf die letzten 16 Einzelbilder vorhergesagt wird.In one embodiment, the frames are first extracted from the given video while the trained system is tested, and then image super resolution is performed on each recognized frame, assigning a unique ID to each recognized person, and then the bounding box -Region of the recognized person forwarded to the trained Resnet-51 model to generate a label for each frame, and then action labels are obtained after the recognition and classification of interactive objects, after which track-id-wise results through the recognition and classification are obtained from human faces and finally the final class and identity tag is predicted by applying a moving average to the last 16 frames.

In einer Ausführungsform wird ein stochastischer Gradientenabstieg mit Impuls als optimiertes Netzwerk beim Training des Resnet-51-Modells verwendet, wobei das Resnet-51 in Google Colab unter Verwendung einer GPU trainiert wird.In one embodiment, stochastic gradient descent with momentum is used as the optimized network in training the Resnet-51 model, where the Resnet-51 is trained in Google Colab using a GPU.

In einer Ausführungsform wird eine Dropout-Schicht mit einer Wahrscheinlichkeit von 0.3 nach jeder Schicht verwendet, um eine Überanpassung beim Training des Resnet-51-Modells zu verhindern, bei dem eine Stapelgröße von 128 und eine Lernrate von 0.001 verwendet wird, wobei auch eine Datenvergrößerung wie Rotation, Zoomen, Breiten- und Höhenverschiebung usw. verwendet wird.In one embodiment, a dropout layer with a probability of 0.3 is used after each layer to prevent overfitting when training the Resnet-51 model, which uses a batch size of 128 and a learning rate of 0.001, while also allowing for data growth such as rotation, zooming, latitude and longitude shifting, etc.

In einer Ausführungsform wird die Objekterkennung mit dem gleichen Aufbau trainiert wie beim Training des Resnet-51-Modells, jedoch mit einer Lernrate von 0.001.In one embodiment, object recognition is trained using the same structure as training the Resnet-51 model, but with a learning rate of 0.001.

In einer Ausführungsform wird das Gesichtserkennungsmodell unter Verwendung desselben Aufbaus wie beim Training des Resnet-51-Modells in Google Colab trainiert, wobei für das Training des Gesichtserkennungsmodells zwei Open-Source-Python-Bibliotheken, nämlich dlib und face recognition, verwendet werden.In one embodiment, the face recognition model is trained using the same architecture used to train the Resnet-51 model in Google Colab, using two open source Python libraries, namely dlib and face recognition, to train the face recognition model.

In einer Ausführungsform wird die Verfolgung jeder einzelnen Person durch eine eindeutige Kennung durchgeführt, die dabei hilft, die Aktivität und die Person richtig vorherzusagen.In one embodiment, tracking of each individual is performed by a unique identifier that helps correctly predict the activity and the individual.

In einer Ausführungsform kann es vorkommen, dass das Gesichtslabel und das Aktivitätslabel aufgrund von Verdeckungen nicht im selben Frame vorhergesagt werden. Daher wird in solchen Fällen in einigen Frames nur das Aktivitätslabel und in einigen Frames nur das Gesichtslabel vorhergesagt, und eine Beziehung zwischen Aktivitätslabel und Gesichtslabel wird mit Hilfe der Tracking-ID aufrechterhalten.In one embodiment, the face label and the activity label may not be predicted in the same frame due to occlusion. Therefore, in such cases, only the activity label is predicted in some frames and only the face label is predicted in some frames, and a relationship between the activity label and the face label is maintained using the tracking ID.

In einer Ausführungsform wird der gleitende Durchschnitt zur Verringerung der falsch-positiven Ergebnisse verwendet, wobei eine Klasse, die am häufigsten auftritt, als Etikett gewählt wird, was zur Verringerung der falsch-positiven Ergebnisse beiträgt.In one embodiment, the moving average is used to reduce false positives, with a class that occurs most frequently being chosen as a label, which helps reduce false positives.

In einer Ausführungsform wird die Trainingszeit erheblich reduziert, indem Schlüsselbilder für das Training der Modelle verwendet werden, anstatt Videos für das Training zu verwenden.In one embodiment, training time is significantly reduced by using keyframes to train the models instead of using videos for training.

In einer Ausführungsform arbeitet das vorgeschlagene System in Echtzeit und kann auf einem 16 GB NVIDIA Tesla P100 Grafikprozessor problemlos 20-25 Bilder pro Sekunde vorhersagen.In one embodiment, the proposed system operates in real time and can easily predict 20-25 frames per second on a 16GB NVIDIA Tesla P100 GPU.

Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Die Reihenfolge der hier beschriebenen Prozesse kann beispielsweise geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.The figures and the preceding description give examples of embodiments. Those skilled in the art will understand that one or more of the elements described may well be combined into a single functional element. Alternatively, certain elements can be broken down into multiple functional elements. Elements from one embodiment may be added to another embodiment. The rows For example, the processes described herein may be modified and are not limited to the manner described herein. Additionally, the actions of a flowchart need not be performed in the order shown; Also, not all actions have to be carried out. Also, the actions that are not dependent on other actions can be performed in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations are possible, regardless of whether they are explicitly mentioned in the description or not, e.g. B. Differences in structure, dimensions and use of materials. The scope of the embodiments is at least as broad as indicated in the following claims.

Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.Advantages, other benefits, and solutions to problems have been described above with respect to particular embodiments. However, the benefits, advantages, problem solutions, and components that can cause an advantage, benefit, or solution to occur or become more pronounced are not to be construed as a critical, required, or essential feature or component of any or all claims.

BezugszeichenlisteReference List

100100: Ein System zur Echtzeit-Vorhersage von Handlungen und der Identität von Menschen in VideosA system for real-time prediction of actions and identities of people in videos
102102: Verarbeitungseinheit für das TrainingProcessing unit for training
104104: Testverarbeitungseinheittest processing unit
202202: Verarbeitungseinheit für die AuswahlProcessing unit for selection
204204: Verarbeitungseinheit für die ExtraktionProcessing unit for extraction
206206: Verarbeitungseinheit für die AnreicherungProcessing unit for enrichment
208208: Verarbeitungseinheit für die KlassifizierungProcessing unit for classification
210210: Objektverarbeitungseinheitobject processing unit
212212: Einheit zur IdentitätsverarbeitungIdentity Processing Unit

Claims

system after claim 1 wherein the training processing unit comprises: a selection processing unit for selecting keyframes from each class, selecting only those keyframes that correctly represent the class; an extraction processing unit for extracting the region of interest for each image using a person recognition technique; a processing unit for improving the image quality by applying the image super-resolution based on deep learning to make the smaller objects clearer; a classification processing unit for classifying the pose at image level by using and training a Resnet-51 model, wherein the Resnet-51 convolutional neural network model is used for training class-specific keyframes; an object processing unit for training the object recognition technique on various interactive objects; and an identity processing unit for detecting and recognizing the person's face using a face recognition model based on deep metric learning.

The system after claim 1 , where frames are first extracted from the given video while testing the trained system, and then image superresolution is performed on each detected frame, assigning each detected person a unique ID and then the bounding box region of the detected person is passed to the trained Resnet-51 model to generate a label for each frame, and then action labels are obtained after the detection and classification of interactive objects, after which track-id-wise results are obtained by detection and classification of human faces are obtained and finally the final class label and identity label are predicted by applying a moving average to the last 16 frames.

system after claim 2 , where stochastic gradient descent with momentum is used as the network-optimized method in training the Resnet-51 model, where the Resnet-51 is trained in Google Colab using a GPU.

system after claim 2 , using a dropout layer with a probability of 0.3 after each layer to create an over to prevent adaptation when training the Resnet-51 model, which uses a stack size of 128 and a learning rate of 0.001, also using data augmentation such as rotation, zooming, latitude and height translation, etc.

system after claim 2 , where the object detection technique is trained with the same setup used in training the Resnet-51 model, except for the learning rate of 0.001.

system after claim 1 , where the face recognition model is trained using the same structure used in training the Resnet-51 model in Google Colab, using two open source Python libraries, namely dlib and face_recognition, to train the face recognition model.