DE102020133445A1

DE102020133445A1 - Kameraorchestrierungstechnologie zum verbessern von automatischer personenidentifizierung

Info

Publication number: DE102020133445A1
Application number: DE102020133445.1A
Authority: DE
Inventors: Mateo Guzman; Javier Turek; Cesar Martinez-Spessot; Dario Oliver; Javier Felip Leon; Marcos Carranza; Mariano Tepper
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-06-22
Filing date: 2020-12-15
Publication date: 2021-12-23
Also published as: CN113905206A; US20200322528A1; US11553129B2

Abstract

Systeme, Einrichtungen und Verfahren können Technologie vorsehen, die eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene erkennt, wobei der Videodatenstrom mit einer stationären Kamera zu assoziieren ist, und eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auswählt. Die Technologie kann auch die ausgewählte nicht stationäre Kamera automatisch anweisen, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.

Description

TECHNISCHES GEBIET
Ausführungsformen betreffen allgemein die automatische Personenidentifizierung. Insbesondere betreffen Ausführungsformen eine Kameraorchestrierungstechnologie zum Verbessern der automatischen Personenidentifizierung.
STAND DER TECHNIK
Die Identifizierung von Personen in offenen Raumbereichen (z. B. Bahnhöfen, Flughäfen, Stadien) ist oft zu Zwecken der Sicherheit und/oder des Schutzes der Öffentlichkeit nützlich. Herkömmliche Lösungen können den Einsatz einer relativ hohen Anzahl von Kameras involvieren, die in viele verschiedene Richtungen zeigen, um die Wahrscheinlichkeit zu erhöhen, dass die Gesichter von Personen erfasst werden. In einem derartigen Fall können Module mit künstlicher Intelligenz (KI) und/oder Superauflösungstechniken verwendet werden, um die erfassten Gesichter automatisch zu erkennen. Die Kosten der Ausrüstung und der Verarbeitungsmehraufwand in derartigen Konfigurationen können jedoch relativ hoch sein. Beispielsweise kann ein Analysieren jedes Frames der Videodatenströme (z. B. auch, wenn die Frames keine nützlichen Daten beinhalten) von der Verarbeitungsperspektive her sehr teuer sein. Während andere Lösungen Schwenk-Neige-Zoom(PTZ)-Kameras verwenden können, involvieren diese Lösungen üblicherweise einen manuell intensiven Betrieb und/oder eine solche Erkennung (was z. B. möglicherweise zu Fehlern führt) und können unter toten Winkeln im überwachten Raumbereich leiden.
Figurenliste
Die verschiedenen Vorteile der Ausführungsformen werden Fachleuten durch Lesen der folgenden Beschreibung und der beigefügten Ansprüche und unter Bezugnahme auf die folgenden Zeichnungen klar, in denen gilt:

1 ist eine Draufsicht eines Beispiels eines Raumbereichs, der überwacht wird, nach einer Ausführungsform;
2 ist eine Veranschaulichung eines Beispiels einer Backpropagierung von bestärkenden Echtzeitdaten zu einer Raumrepräsentationsphase und einer Trajektorienvorhersagephase nach einer Ausführungsform;
3 ist ein Ablaufdiagramm eines Beispiels eines Verfahrens zum Betreiben eines leistungsverbesserten Rechensystems nach einer Ausführungsform;
4A ist ein Ablaufdiagramm eines Beispiels eines Verfahrens zum Betreiben eines Videoanalysesubsystems nach einer Ausführungsform;
4B ist ein Ablaufdiagramm eines Beispiels eines Verfahrens zum Betreiben einer PTZ-Kamera nach einer Ausführungsform;
5 ist ein Ablaufdiagramm eines Beispiels eines Verfahrens zum Training von neuronalen Netzen zum Unterstützen einer Kameraorchestrierung nach einer Ausführungsform;
6 ist ein Blockdiagramm eines Beispiels eines leistungsverbesserten Rechensystems nach einer Ausführungsform;
7 ist eine Veranschaulichung eines Beispiels einer Halbleitereinrichtung nach einer Ausführungsform;
8 ist ein Blockdiagramm eines Beispiels eines Prozessors nach einer Ausführungsform; und
9 ist ein Blockdiagramm eines Beispiels eines Rechensystems auf Mehrprozessorbasis nach einer Ausführungsform.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Im Allgemeinen enthalten Ausführungsformen eine oder mehrere fixierte hochauflösende Kameras/Kameras mit breitem Sichtfeld pro Bereich, die strategisch positioniert sind, um Verdeckungen und tote Winkel des überwachten Bereichs zu reduzieren. Die feste(n) Kamera(s) können Personen/Leute im interessierenden Bereich erkennen und nachverfolgen. In einem Beispiel werden Nachverfolgungsinformationen an eine zentrale Videoanalysekomponente gesandt, die einen Satz von eingesetzten PTZ-Kameras steuert, um den besten Frame (z. B. mit höheren Wahrscheinlichkeiten eines Erfolgs einer Gesichtserkennung) auf Grundlage der nachverfolgten Trajektorie für jede Person zu erhalten. Alle Kameras können Video an die zentrale Videoanalysekomponente über die Protokolle RTSP (Real Time Streaming Protocol), RTMP (Real Time Messaging Protocol) oder ein beliebiges anderes Standardprotokoll streamen.
In einer Ausführungsform berechnet die zentrale Videoanalysekomponente die Personenposition, Trajektorie und möglicherweise Kopfrichtung, die verwendet werden, um die am besten positionierte PTZ-Kamera auszuwählen, um das Gesicht der Person zu erfassen, und sendet passende PTZ-Konfigurationssignale/-handlungen unter Verwendung standardisierter Protokolle wie einem ONVIF-Protokoll (Open Network Video Interface Forum). Jede Person, die den abgedeckten Bereich betritt, kann nachverfolgt und als nicht identifiziert gekennzeichnet werden, während das System die PTZ-Kameras vorbereitet, um eine ausgewählte Person zu identifizieren. Sobald die Person identifiziert ist, wird die für die fragliche Person dedizierte PTZ-Kamera für die nächste Erkennung freigemacht. Dementsprechend ist die Anzahl von Leuten, die gleichzeitig identifiziert werden kann, zumindest zur Anzahl von eingesetzten PTZ-Kameras proportional, wenn man berücksichtigt, dass eine der PTZ-Kameras mehr als eine Person abdecken kann (da z. B. eine Gruppe von Leuten die gleiche Trajektorie und Position für eine gute Erfassung aufweisen können). Die Auswahl der interessierenden Person kann auf Grundlage verschiedener Faktoren wie Benutzerpräferenz, Aktivitätspegel, Kleidungsfarbe, Größe, Geschwindigkeit, Glätte der Trajektorie usw. oder einer beliebigen Kombination daraus erfolgen.
Nun auf 1 Bezug nehmend, wird ein Raumbereich 10 (z. B. Bahnhof, Flughafen, Stadium, Arena usw.) von einer fixierten (z. B. nicht stationären) Kamera 14 auf die Anwesenheit von nicht identifizierten Personen überwacht, wie beispielsweise eine Person 12. In einer Ausführungsform wird die Person 12 an einer ersten Position 16 (z. B. Positionskoordinaten 1,1,0) entlang einer Trajektorie 18 zu einem Zeitpunkt t₁ erkannt. An der ersten Position 16 kann sich die Person 12 innerhalb des Sichtfelds (FoV) einer ersten Schwenk-Neige-Zoom-Kamera (PTZ, z. B. nicht stationär) 20 mit einer ersten Sichtlinie (LoS) 24 zur Person 12 befinden. Im veranschaulichten Beispiel bietet die erste LoS 24 nur eine Profil-/Seitenansicht des Gesichts der Person 12. Dementsprechend können automatische Gesichtserkennungstechniken von der ersten LoS 24 unwirksam sein. An der ersten Position 16 kann sich die Person 12 auch innerhalb des FoV einer zweiten PTZ-Kameras 22 befinden, wo die zweite PTZ-Kamera 22 eine zweite LoS 26 zur Person 12 aufweist. Obwohl die zweite LoS 26 eine fast frontale Ansicht des Gesichts der Person 12 bereitstellen kann, kann die Distanz zwischen der Person 12 und der zweiten PTZ-Kamera 22 zu groß sein, als dass automatische Gesichtserkennungstechniken von der zweiten LoS 26 effektiv sind.
Wie ausführlicher besprochen wird, stellen Ausführungsformen ein Videoanalyse-Subsystem 28 (das z. B. Logikanweisungen, konfigurierbare Logik, Hardwarelogik mit fester Funktionalität usw. oder eine beliebige Kombination davon) bereit, das einen fixierten Videodatenstrom 30 von der fixierten Kamera 14 verwendet, um Orchestrierungssignale 36 und 38 (z. B. verdrahtet und/oder drahtlos) an die erste bzw. die zweite PTZ-Kamera 20, 22 zu senden, wobei die Orchestrierungssignale 36, 38 mindestens einer der PTZ-Kameras 20, 22 ermöglichen, das Gesicht der Person 12 in einem Winkel zu erfassen, der hinreichend ist, um eine Gesichtserkennung wirksam durchzuführen. Genauer sagt das veranschaulichte Videoanalyse-Subsystem 28 automatisch vorher, dass die Trajektorie 18 eine zweite Position 42 zu einem Zeitpunkt t₂ und eine dritte Position 44 (z. B. Positionskoordinaten 2,1,0) zu einem Zeitpunkt t₃ enthalten wird. Das Videoanalyse-Subsystem 28 kann auch ermitteln, dass die erste PTZ-Kamera 20 an der dritten Position 44 eine dritte LoS 40 zur Person 12 aufweist. Im veranschaulichten Beispiel bietet die dritte LoS 40 keine Ansicht des Gesichts der Person 12. Dementsprechend werden automatische Gesichtserkennungstechniken von der dritten LoS 40 unwirksam sein.
Im Gegensatz dazu kann die zweite PTZ-Kamera 20 eine vierte LoS 46 aufweisen, die eine fast frontale und relativ nahe Ansicht des Gesichts der Person 12 bietet. In einem derartigen Fall verwendet das Videoanalyse-Subsystem 28 die Orchestrierungssignale 38, um die zweite PTZ-Kamera 22 proaktiv anzuweisen, eine oder mehrere interne Einstellungen (z. B. Schwenkeinstellungen, Zoomeinstellungen, Neigungseinstellungen) der zweiten PTZ-Kamera 22 anzupassen, sodass die zweite PTZ-Erfassung 22 das Gesicht der Person 12 an der dritten Position 44 erfassen wird. In einer Ausführungsform weisen die Orchestrierungssignale 38 auch die zweite PTZ-Kamera 22 an, die Person 12 auf Grundlage des erfassten Gesichts der Person 12 zu identifizieren. In einem Beispiel empfängt das Videoanalyse-Subsystem 28 auch einen ersten PTZ-Videodatenstrom 32 von der ersten PTZ-Kamera 20 und einen zweiten PTZ-Videodatenstrom 34 von der zweiten PTZ-Kamera 22.
Die veranschaulichte Lösung reduziert Ausrüstungskosten durch Eliminieren jeglichen Bedarfs an einer relativ hohen Anzahl von Kameras. Da die PTZ-Kameras 20, 22 beispielsweise automatisch auf verschiedene Sichtlinien anpassbar sind, können die PTZ-Kameras 20, 22 effektiv die Funktionalität einer großen Anordnung an stationären Kameras durchführen. Die veranschaulichte Lösung reduziert auch Verarbeitungskosten durch Reservieren der Gesichtserkennung für Videoframes, bei denen bekannt ist, dass sie nützliche Inhalte enthalten. Der erste PTZ-Videodatenstrom 32 kann beispielsweise in Bezug auf die Person 12 in Bezug auf Gesichtserkennung verworfen werden. Tatsächlich könnte der erste PTZ-Videodatenstrom 32 verwendet werden, um eine andere Person (nicht gezeigt) zu identifizieren, die sich durch den Raumbereich 10 bewegt, während sich die veranschaulichte Person 12 durch den Raumbereich 10 bewegt. Die veranschaulichte Lösung verbessert auch die Leistung zumindest in dem Ausmaß, dass menschliche Fehler vom Kamerabetrieb und/oder Gesichtserkennungsprozess eliminiert werden. Die Leistung kann ferner durch die Eliminierung von toten Winkeln im Raumbereich 10 verbessert werden.
Tiere (z. B. Ratten) sind fähig, effizient zu lernen, nach mehreren Nahrungs- oder Wasserquellen in einer komplexen Umgebung zu suchen. Hierzu erstellen sie stetig effizientere Trajektorien zwischen Belohnungsorten. Eine derartige räumliche Navigationsfähigkeit involviert eine mentale Wiedergabe von kurzen Aktivitätsfolgen von Standortzellen, die räumlich und zeitlich miteinander verbunden sind. Ausführungsformen orchestrieren und steuern die PTZ-Kameras 20, 22 ähnlich einem derartigen biologischen System. Die Trajektorien, denen Personen folgen, die den Raumbereich durchqueren, können die Grundlage (z. B. zum Lernen und zur Inferenz) eines Trajektorienvorhersagesystems bilden. Wie ausführlicher besprochen wird, kann ein derartiges System mit der Kombination eines Kameraoperations-Subsystems (das z. B. einen Satz von fixierten Kameras und einen Satz von PTZ-Kameras enthält), einer Raumrepräsentationsphase, einer Trajektorienvorhersagephase und einer Bestärkungsphase modelliert werden.
2 zeigt ein Videoanalyse-Subsystem 50 (50a-50c), das einfach für das bereits besprochene Videoanalyse-Subsystem 28 (1) substituiert werden kann. Im veranschaulichten Beispiel erzeugt eine Raumrepräsentationsphase 50a eine summierte Repräsentation des physischen Raumbereichs, der um Bereiche mit hoher Belohnung detaillierter ist und in anderen Bereichen gröber ist. Diese Phase 50a kann mit einem neuronalen Netz modelliert werden (z. B. einem ersten neuronalen Netz, nicht gezeigt). In einer Ausführungsform nimmt die Repräsentation die Form einer weichen Kachelung 52 (52a-52b) des Raumbereichs in eine beobachtete Standortzellenaktivität 52a und inaktive Standortzellen 52b an. Durch weiches Kacheln teilt ein Satz von Einheiten den Raumbereich in Kacheln, die einander teilweise und lokal überlappen. Die beobachtete Standortzellenaktivität 52a (z. B. belegte Kacheln) zeigen eine Aktivität, die einer beobachteten Trajektorie 53 entsprechen, während die inaktiven Standortzellen 52b (z. B. nicht belegte Kacheln) ruhig sind.
Mit der gegebenen teilweise beobachteten Trajektorie 53 durch den Raumbereich kann eine Trajektorienvorhersagephase 50b ein rekurrentes neuronales Netz (z. B. ein zweites neuronales Netz, nicht gezeigt) verwenden, um die nachfolgende Bewegung der Person in einer Trajektorienkachelung 54 (54a-54c) vorherzusagen, die die vorhergesagte Standortzellenaktivität 54c enthält, die einer zukünftigen Trajektorie 55 entspricht, zusätzlich zur beobachteten Standortzellenaktivität 54a und den inaktiven Standortzellen 54b. In einer Ausführungsform lernt dieses neuronale Netz, Trajektorien vorherzusagen, sodass die Person erfolgreich identifiziert werden kann. Diese Vorhersage wird von der Likelihood eines erfolgreichen Identifizierens einer Person gelenkt.
Darüber hinaus kann eine Bestärkungslern(RL)-Phase 50c (z. B. ein Steuersystem) die Kameras durch das Kamerabetriebssystem betreiben und die anderen Phasen über die Nützlichkeit der Ausgaben (z. B. der vorhergesagten Trajektorien) von diesen Phasen auf Grundlage von Belohnungen informieren. Die RL-Phase trainiert ein oder mehrere interne neuronale Richtliniennetze (z. B. ein drittes neuronales Netz, nicht gezeigt), das neuronale Netz in der Raumrepräsentationsphase 50a und das neuronale Netz in der Trajektorienvorhersagephase 50b, um die Likelihood zum Sammeln der größten Anzahl an Belohnungen zu maximieren. Beispielsweise kann ein Belohnungsschema 58 die größte Anzahl von Identifizierungen für jede Person bieten, die den Raumbereich durchquert. Darüber hinaus kann ein viertes neuronales Netz eine Gesichtserkennung durchführen und den anderen drei neuronalen Netzen eine Rückmeldung bereitstellen (wobei es z. B. anzeigt, ob das System fähig war, das Gesicht zu erkennen, das ist die Belohnung des bestärkenden Lernens). In einem derartigen Fall können die anderen drei neuronalen Netze entsprechende Anpassungen vornehmen, um in Zukunft bessere Belohnungen zu erreichen.
In einem Beispiel werden Trajektoriegeschwindigkeiten vom System implizit gehandhabt, da Frameraten bekannt und konstant sind. Wie ausführlicher besprochen wird, können alle Phasen auf allumfassende Weise trainiert werden, zum Beispiel unter Verwendung von Temporal Difference Learning. In einem derartigen Fall werden die Fehler durch die Raumrepräsentationsphase 50a und die Trajektorienvorhersagephase 50b rückpropagiert.
3 zeigt ein Verfahren 60 zum Betreiben eines leistungsverbesserten Rechensystems. Das Verfahren 60 kann allgemein in einem Videoanalyse-Subsystem implementiert werden, wie zum Beispiel dem Videoanalyse-Subsystem 28 (1) und/oder dem Videoanalyse-Subsystem 50 (2), die bereits besprochen wurden. Genauer kann das Verfahren 60 in einem oder mehreren Modulen als ein Satz von Logikanweisungen implementiert sein, die in einem maschinen- oder computerlesbaren Speichermedium, wie einem Arbeitsspeicher mit wahlfreiem Zugriff (RAM), einem schreibgeschützten Arbeitsspeicher (ROM), einem programmierbaren ROM (PROM), Firmware, einem Flashspeicher usw., in konfigurierbarer Logik, wie zum Beispiel programmierbaren Logikarrays (PLAs), feldprogrammierbaren Gatearrays (FPGAs), komplexen programmierbaren Logikvorrichtungen (CPLDs), in Logikhardware mit fester Funktionalität unter Verwendung von Schaltkreistechnologie wie zum Beispiel einem anwendungsspezifischen integrierten Schaltkreis (ASIC), Technologie mit komplementärer Metalloxid-Halbleiterlogik (CMOS-Logik) oder Transistor-Transistor-Logik (TTL) oder einer beliebigen Kombination davon gespeichert sind.
Computerprogrammcode zum Ausführen von im Verfahren 60 gezeigten Operationen kann beispielsweise in einer beliebigen Kombination einer oder mehrerer Programmiersprachen geschrieben sein, einschließlich einer objektorientierten Programmiersprache wie JAVA, SMALLTALK, C++ oder Ähnlichem, und herkömmlichen prozeduralen Programmiersprachen wie der „C“-Programmiersprache oder ähnlichen Programmiersprachen. Darüber hinaus könnten Logikanweisungen Assembleranweisungen, Anweisungen einer Anweisungssatzarchitektur (ISA), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, zustandsfestlegende Daten, Konfigurationsdaten für integrierte Verschaltung, Zustandsinformationen, die elektronische Verschaltung und/oder andere strukturelle Komponenten personalisieren, die zur Hardware nativ sind (z. B. einen Hostprozessor, eine Zentralverarbeitungseinheit/CPU, einen Mikrocontroller usw.), enthalten.
Ein veranschaulichter Verarbeitungsblock 62 sieht ein Erkennen einer nicht identifizierten Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene vor, wobei der Videodatenstrom mit einer stationären (z. B. fixierten) Kamera assoziiert ist. In einer Ausführungsform enthält Block 62 ein Vorhersagen der Trajektorie auf Grundlage des Videodatenstroms. Block 64 wählt eine nicht stationäre (z. B. PTZ-)Kamera auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der nicht stationären Kamera aus. In einem Beispiel wird die nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras ausgewählt. Die ausgewählte nicht stationäre Kamera kann bei Block 66 automatisch angewiesen werden, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren (z. B. zu erkennen). In einer Ausführungsform wird die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf angewiesen, dass das Gesicht der nicht identifizierten Person im Videodatenstrom von der stationären Kamera fehlt. Darüber hinaus kann die ausgewählte nicht stationäre Kamera angewiesen werden, die mindestens eine der Einstellung(en) anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht. Darüber hinaus kann Block 66 ein automatisches Anweisen der ausgewählten nicht stationären Kamera involvieren, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person enthalten (z. B. anstatt Gesichtsidentifikationsprozeduren fortlaufend an allen Kameraframes durchzuführen). Das Verfahren 60 kann für mehrere nicht identifizierte Personen, die sich durch die Szene bewegen, wiederholt und/oder parallelisiert werden.
Das veranschaulichte Verfahren 60 verbessert zumindest in dem Ausmaß die Leistung, dass ein Koordinieren von Gesichtserfassungen zwischen der stationären Kamera und der nicht stationären Kamera menschliche Fehler aus dem Kamerabetrieb und/oder Gesichtserkennungsprozess eliminiert. Die Leistung kann ferner durch die Eliminierung von toten Winkeln verbessert werden. Das veranschaulichte Verfahren 60 reduziert auch Ausrüstungskosten durch Eliminieren jeglichen Bedarfs an einer relativ hohen Anzahl von Kameras. Da die nicht stationären Kameras beispielsweise automatisch auf verschiedene Sichtlinien anpassbar sind, können die nicht stationären Kameras effektiv die Funktionalität einer großen Anordnung an stationären Kameras durchführen. Darüber hinaus reduziert das veranschaulichte Verfahren 60 Verarbeitungskosten durch Reservieren der Gesichtserkennung für Videoframes, bei denen bekannt ist, dass sie nützliche Inhalte enthalten.
4A zeigt ein Verfahren 70 zum Betreiben eines Videoanalyse-Subsystems. Das Verfahren 70 kann allgemein in einem Videoanalyse-Subsystem implementiert werden, wie zum Beispiel dem Videoanalyse-Subsystem 28 (1) und/oder dem Videoanalyse-Subsystem 50 (2), die bereits besprochen wurden. Genauer kann das Verfahren 70 in einem oder mehreren Modulen als ein Satz von Logikanweisungen implementiert sein, die in einem maschinen- oder computerlesbaren Speichermedium, wie RAM, ROM, PROM, Firmware, Flashspeicher usw., in konfigurierbarer Logik, wie beispielsweise PLAs, FPGAs, CPLDs, in Logikhardware mit fester Funktionalität unter Verwendung von Schaltkreistechnologie, wie zum Beispiel ASIC-, CMOS- oder TTL-Technologie, oder einer beliebigen Kombination davon gespeichert sind.
Der veranschaulichte Verarbeitungsblock 72 erhält Konfigurationsinformationen (z. B. Positions-, Schwenk-, Neigungs- und/oder Zoomeinstellungen) für eine oder mehrere PTZ-Kameras, wobei ein fixierter Kameradatenstrom bei Block 74 abgerufen wird. Ein Frame kann vom fixierten Kameradatenstrom bei Block 76 abgerufen werden. Block 78 erhält eine Auflistung von nicht identifizierten Personen, die im Frame erfasst sind, wobei der veranschaulichte Block 80 die nächste nicht identifizierte Person in der Auflistung auswählt. In einer Ausführungsform werden Nachverfolgungsinformationen bei Block 82 aktualisiert und Block 84 berechnet die vorhergesagte Richtung und Geschwindigkeit (z. B. Trajektorie) der Person. Block 86 kann die beste Kamera zu einem zukünftigen Zeitpunkt (z. B. Zeit t) vorhersagen. In einem Beispiel plant Block 88 die beste Kamera zum Erfassen der Person zum zukünftigen Zeitpunkt. Das veranschaulichte Verfahren 70 kehrt dann zu Block 80 zurück und wählt die nächste nicht identifizierte Person in der Auflistung aus. Sobald das Ende der Auflistung erreicht ist, kehrt das Verfahren zu Block 76 zurück und wählt einen anderen Videoframe aus.
4B zeigt ein Verfahren 90 einer PTZ-Kamera. Das Verfahren 90 kann allgemein in einer nicht stationären Kamera implementiert sein, wie zum Beispiel der ersten und der zweiten PTZ-Kamera 20, 22 (1) als Reaktion auf ein Ausführen von Block 88 (4A), der bereits besprochen wurde. Genauer kann das Verfahren 90 in einem oder mehreren Modulen als ein Satz von Logikanweisungen implementiert sein, die in einem maschinen- oder computerlesbaren Speichermedium, wie RAM, ROM, PROM, Firmware, Flashspeicher usw., in konfigurierbarer Logik, wie beispielsweise PLAs, FPGAs, CPLDs, in Logikhardware mit fester Funktionalität unter Verwendung von Schaltkreistechnologie, wie zum Beispiel ASIC-, CMOS- oder TTL-Technologie, oder einer beliebigen Kombination davon gespeichert sind.
Der veranschaulichte Verarbeitungsblock 92 schwenkt, neigt und/oder zoomt an die beste Position, um das Gesicht der nicht identifizierten Person zu erfassen, wobei Block 94 die Person identifiziert. In einem Beispiel setzt Block 96 die PTZ-Kamera frei, um eine andere Person zu identifizieren.
Zu 2 zurückkehrend, kann der Trainingsprozess für jede Kameratopologie spezifisch und gegenüber der Umgebung empfindlich sein. Deshalb wird jede Aufstellung des Systems einem Trainingsprozess unterzogen. Das Training eines derartigen Systems unter Verwendung von RL kann eine Anzahl von Trainingsbeispielen in der Größenordnung von Millionen für jeden Fall involvieren, um das Problem der Trainingszeit zu behandeln und die Zeit zu verkürzen, die das System braucht, um eine Spitzenleistung zu erzielen. In einer Ausführungsform wird ein offline-beschleunigtes Trainingsmodul (das z. B. Logikanweisungen, konfigurierbare Logik, Hardwarelogik mit fester Funktionalität usw. oder eine beliebige Kombination daraus enthält) verwendet. Das offline-beschleunigte Trainingsmodul kann einen Simulator enthalten, der mit einer bestimmten gegebenen Kameratopologie realistische Beobachtungen erzeugt und Identifizierungsraten für jede Kamera simuliert. Durch eine Verwendung von ungefähren Kameramodellen (z. B. Parametern vom Hersteller), einen groben Kameralageplan (z. B. auf einer technischen Zeichnung gemessen) und mehreren Personenbewegungsmodellen (z. B. Brownsche Bewegung, zielgerichteter Pfadplanung, gerader Linien, parametrischer Kurven) generiert der Simulator eine Trajektorie einer Person, berechnet die Projektion des Gesichts der Person auf die Kamerabilder und ermittelt, ob die Personenidentifizierung erfolgreich ist.
Um zu ermitteln, ob eine Gesichtsprojektion auf eine Kamera erkennbar ist, kann ein Modell der Prozedur verwendet werden. In einem Beispiel enthält das Prozedurmodell die Wahrscheinlichkeit, eine korrekte Identifizierung zu erhalten, wenn die Form der projizierten Erkennung auf dem Kamerabild gegeben ist. Darüber hinaus kann das Modell durch Ausführen des Identifikationsalgorithmus an bekannten Datensätzen mit Grundwissensdaten und Berechnen eines Histogramms mit richtigen und falschen Erkennungen als Funktion der vertikalen und horizontalen Abmessungen des Gesichtsbegrenzungsrahmens aufgebaut werden.
In einer Ausführungsform wird der Simulator verwendet, um Millionen an Trainingsbeispielen von Personen zu generieren, die sich durch den interessierenden Bereich bewegen. Unter Verwendung von Domänenrandomisierungstechniken an den Kameramodellen, Kameralageplänen und Hinzufügen von Rauschen zu den generierten Trajektorien generiert der Simulator Proben, die die RL-Steuerung robuster gegenüber Messfehlern oder Änderungen in den Kameraprojektionsmatrizen aufgrund von Altern der Linsen machen. Die Verwendung des Simulators mit Domänenrandomisierung bietet ein vortrainiertes System, das bereit ist, in der echten Umgebung eingesetzt zu werden. Nach der Aufstellung kann das System das neuronale Netz mit echten Beispielen (z. B. bestärkenden Echtzeitdaten) neu trainieren. Das Training an Simulationsdaten ermöglicht dem System jedoch, ab Tag null zu laufen und fortzufahren, die Leistung mit der Zeit zu verbessern.
5 zeigt ein Verfahren 100 zum Trainieren neuronaler Netze zum Unterstützen von Kameraorchestrierung. Das Verfahren 100 kann allgemein in einem oder mehreren Modulen als ein Satz von Logikanweisungen implementiert sein, die in einem maschinen- oder computerlesbaren Speichermedium, wie RAM, ROM, PROM, Firmware, Flashspeicher usw., in konfigurierbarer Logik, wie beispielsweise PLAs, FPGAs, CPLDs, in Logikhardware mit fester Funktionalität unter Verwendung von Schaltkreistechnologie, wie zum Beispiel ASIC-, CMOS- oder TTL-Technologie, oder einer beliebigen Kombination davon gespeichert sind.
Ein veranschaulichter Verarbeitungsblock 102 trainiert ein erstes neuronales Netz (z. B. in einer Raumrepräsentationsphase), um nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen. Zusätzlich kann Block 104 ein zweites neuronales Netz (z. B. ein rekurrentes neuronales Netz in einer Trajektorienvorhersagephase) trainieren, um Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen. In einer Ausführungsform trainiert Block 106 ein drittes neuronales Netz (z. B. ein neuronales Richtliniennetz in einer bestärkenden Lernphase), auf Grundlage der vorhergesagten Trajektorien nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen. In einem Beispiel werden die Blöcke 102, 104 und 106 offline durchgeführt.
Block 108 kann das erste neuronale Netz, das zweite neuronale Netz und das dritte neuronale Netz auf Grundlage von bestärkenden Echtzeitdaten neu trainieren. Im veranschaulichten Beispiel wird die nicht identifizierte Person von 3 an der ersten Position durch das erste neuronale Netz erkannt. Zusätzlich kann die Trajektorie durch das zweite neuronale Netz vorhergesagt werden. In einer Ausführungsform wird die nicht stationäre Kamera durch das dritte neuronale Netz ausgewählt und die ausgewählte nicht stationäre Kamera wird automatisch durch das dritte neuronale Netz angewiesen. Das veranschaulichte Verfahren 100 verbessert deshalb die Leistung durch Ermöglichen exakter Identifizierungen weiter, die nach Aufstellen des Systems zu machen sind.
Nun auf 6 Bezug nehmend, ist ein leistungsverbessertes Rechensystem 110 gezeigt. Das System 110 kann allgemein Teil einer elektronischen Vorrichtung/Plattform mit Rechenfunktionalität (z. B. Organizer/PDA, Notebook-Computer, Tablet-Computer, Hybrid-Tablet-Computer, Server), Kommunikationsfunktionalität (z. B. Smartphone), Bildgebungsfunktionalität (z. B. Kamera, Camcorder), Medienabspielfunktionalität (z. B. Smart-Fernseher/TV), tragbarer Funktionalität (z. B. Uhr, Brillen, Kopfgeräte, Schuhwerk, Schmuck), Fahrzeugfunktionalität (z. B. Automobil, Lastwagen, Motorrad), Roboterfunktionalität (z. B. autonomer Roboter), Funktionalität des Internets der Dinge (IdD) usw. oder einer beliebigen Kombination davon sein. Im veranschaulichten Beispiel enthält das System 110 einen Hostprozessor 112 (z. B. eine Zentralverarbeitungseinheit/CPU) mit einer integrierten Arbeitsspeichersteuerung (IMC) 114, die an einen Systemarbeitsspeicher 116 gekoppelt ist.
Das veranschaulichte System 110 enthält auch ein Eingabe-Ausgabe(EA)-Modul 118, das zusammen mit dem Hostprozessor 112, einem KI-Beschleuniger 121 und einem Grafikprozessor 120 (z. B. einer Grafikverarbeitungseinheit/GPU) auf einem Halbleiterchip 122 als ein Ein-Chip-System (SoC) implementiert ist. In einer Ausführungsform enthält der Halbleiterchip 122 auch eine Visionsverarbeitungseinheit (VPU, nicht gezeigt). Das veranschaulichte EA-Modul 118 kommuniziert beispielsweise mit einer Anzeige 124 (z. B. einem Berührungsbildschirm, einer Flüssigkristallanzeige/LCD, einer lichtemittierenden Diodenanzeige/LED-Anzeige), einer (z. B. verdrahteten oder drahtlosen) Netzwerksteuerung 126 und einem Massenspeicher 128 (z. B. einem Festplattenlaufwerk/HDD, einer optischen Platte, einem Festkörperlaufwerk/SSD, Flashspeicher). Das veranschaulichte Rechensystem 110 enthält auch eine stationäre (z. B. fixierte) Kamera 130, um einen Videodatenstrom einer Szene zu generieren, und eine oder mehrere nicht stationäre (z. B. PTZ-)Kameras 132. Die stationäre Kamera 130 und die nicht stationäre(n) Kamera(s) 132 können über verdrahtete und/oder drahtlose Verknüpfungen mit dem Rest des Systems 110 kommunizieren.
In einer Ausführungsform führen der Hostprozessor 112, der Grafikprozessor 120, der KI-Beschleuniger 121, die VPU und/oder das EA-Modul 118 Programmanweisungen 134 aus, die aus dem Systemarbeitsspeicher 116 und/oder dem Massenspeicher 128 abgerufen sind, um einen oder mehrere Aspekte des Verfahrens 60 (3), des Verfahrens 70 (4A), des Verfahrens 90 (4B) und/oder des Verfahrens 100 (5) durchzuführen, die bereits besprochen wurden. Deshalb kann eine Ausführung der veranschaulichten Anweisungen 134 den Chip 122 veranlassen, eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in der Szene auf Grundlage des Videodatenstroms zu erkennen und eine nicht stationäre Kamera aus der bzw. den nicht stationären Kamera(s) 132 auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen (z. B. Schwenkeinstellung, Neigungseinstellung, Zoomeinstellung) der ausgewählten nicht stationären Kamera auszuwählen. Die Ausführung der Anweisungen 134 kann den Chip 122 auch veranlassen, die ausgewählte nicht stationäre Kamera automatisch anzuweisen, mindestens eine der Einstellung(en) anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren. In einer Ausführungsform wird die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf angewiesen, dass das Gesicht der nicht identifizierten Person im Videodatenstrom von der stationären Kamera 130 fehlt. Darüber hinaus kann die ausgewählte nicht stationäre Kamera proaktiv angewiesen werden, die mindestens eine der Einstellung(en) anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Das System 110 wird deshalb als zumindest in dem Ausmaß leistungsverbessert angesehen, dass ein Koordinieren von Gesichtserfassungen zwischen der stationären Kamera 130 und der ausgewählten nicht stationären Kamera menschliche Fehler aus dem Kamerabetrieb und/oder Gesichtserkennungsprozess eliminiert. Die Leistung kann ferner durch die Eliminierung von toten Winkeln verbessert werden. Die Identifizierungseffizienz kann ferner durch die Eliminierung von toten Winkeln durch Kombinieren des Sichtfelds von stationären und nicht stationären Kameras verbessert werden. Das veranschaulichte System 110 weist auch durch das Eliminieren jeglichen Bedarfs an einer relativ hohen Anzahl von Kameras reduzierte Ausrüstungskosten auf. Da die nicht stationäre(n) Kamera(s) 132 beispielsweise automatisch auf verschiedene Sichtlinien anpassbar ist bzw. sind, kann bzw. können die nicht stationäre(n) Kamera(s) 132 effektiv die Funktionalität einer großen Anordnung an stationären Kameras durchführen. Darüber hinaus reduziert das veranschaulichte System 110 Verarbeitungskosten durch Reservieren der Gesichtserkennung für Videoframes, bei denen bekannt ist, dass sie nützliche Inhalte enthalten.
7 zeigt eine Halbleitergehäuseeinrichtung 140. Die veranschaulichte Einrichtung 140 enthält ein oder mehrere Substrate 142 (z. B. Silizium, Saphir, Galliumarsenid) und Logik 144 (z. B. eine Transistoranordnung und andere integrierte Schaltkreis/IC-Komponenten), die an das bzw. die Substrat(e) 142 gekoppelt sind. Die Logik 144 kann zumindest teilweise in konfigurierbarer Logik oder Logikhardware mit fester Funktionalität implementiert sein. In einem Beispiel implementiert die Logik 144 einen oder mehrere Aspekte des Verfahrens 60 (3), des Verfahrens 70 (4A), des Verfahrens 90 (4B) und/oder des Verfahrens 100 (5), die bereits besprochen wurden. Deshalb kann die Logik 144 eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms erkennen, wobei der Videodatenstrom mit einer stationären Kamera assoziiert ist, und eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen (z. B. Schwenkeinstellung, Neigungseinstellung, Zoomeinstellung) der ausgewählten nicht stationären Kamera auswählen. Die Logik 144 kann die ausgewählte nicht stationäre Kamera auch automatisch anweisen, mindestens eine der Einstellung(en) anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Die Einrichtung 140 wird deshalb als zumindest in dem Ausmaß leistungsverbessert angesehen, dass ein Koordinieren von Gesichtserfassungen zwischen der stationären Kamera und der ausgewählten nicht stationären Kamera menschliche Fehler aus dem Kamerabetrieb und/oder Gesichtserkennungsprozess eliminiert. Die Leistung kann ferner durch die Eliminierung von toten Winkeln verbessert werden. Die veranschaulichte Einrichtung 140 reduziert auch Ausrüstungskosten durch das Eliminieren jeglichen Bedarfs an einer relativ hohen Anzahl von Kameras. Da die nicht stationären Kameras beispielsweise automatisch auf verschiedene Sichtlinien anpassbar sind, können die nicht stationären Kameras effektiv die Funktionalität einer großen Anordnung an stationären Kameras durchführen. Darüber hinaus reduziert die veranschaulichte Einrichtung 140 Verarbeitungskosten durch Reservieren der Gesichtserkennung für Videoframes, bei denen bekannt ist, dass sie nützliche Inhalte enthalten.
In einem Beispiel enthält die Logik 144 Transistorkanalbereiche, die innerhalb des Substrats bzw. der Substrate 142 positioniert (z. B. eingebettet) sind. Deshalb darf die Schnittstelle zwischen der Logik 144 und dem Substrat bzw. den Substraten 142 kein jäher Zusammenschluss sein. Es kann auch erwogen werden, dass die Logik 144 eine epitaktische Schicht enthält, die auf einem anfänglichen Wafer des Substrats bzw. der Substrate 142 aufgewachsen wird.
8 veranschaulicht einen Prozessorkern 200 nach einer Ausführungsform. Der Prozessorkern 200 kann der Kern für einen beliebigen Typ von Prozessor sein, wie einen Mikroprozessor, einen eingebetteten Prozessor, einen digitalen Signalprozessor (DSP), einen Netzwerkprozessor oder eine andere Vorrichtung zum Ausführen von Code. Obwohl in 8 nur ein Prozessorkern 200 veranschaulicht ist, kann ein Verarbeitungselement alternativ mehr als einen des in 8 veranschaulichten Prozessorkerns 200 enthalten. Der Prozessorkern 200 kann ein Einzelthreadkern sein oder für mindestens eine Ausführungsform kann der Prozessorkern 200 dahingehend ein Multithreadingprozessor sein, dass er mehr als einen Hardwarethreadkontext (oder „logischen Prozessor“) pro Kern enthalten kann.
8 veranschaulicht auch einen Arbeitsspeicher 270, der an den Prozessorkern 200 gekoppelt ist. Der Arbeitsspeicher 270 kann ein beliebiger einer breiten Vielfalt von Arbeitsspeichern sein (einschließlich verschiedener Schichten einer Arbeitsspeicherhierarchie), wie sie Fachleuten auf dem Gebiet bekannt oder anderweitig für diese verfügbar sind. Der Arbeitsspeicher 270 eine oder mehrere Anweisungen des Codes 213 enthalten, die vom Prozessorkern 200 auszuführen ist bzw. sind, wobei der Code 213 einen oder mehrere Aspekte des Verfahrens 60 (3), des Verfahrens 70 ( 4A), des Verfahrens 90 (4B) und/oder des Verfahrens 100 (5) implementieren kann, die bereits besprochen wurden. Der Prozessorkern 200 folgt einer Programmsequenz von Anweisungen, die vom Code 213 angezeigt werden. Jede Anweisung kann in einen Front-End-Abschnitt 210 einlaufen und von einem oder mehreren Decodierern 220 verarbeitet werden. Der Decodierer 220 kann als seine Ausgabe eine Mikrooperation wie eine Mikrooperation fester Breite in einem vordefinierten Format erzeugen, oder kann andere Anweisungen, Mikroanweisungen oder Steuersignale erzeugen, die die ursprüngliche Codeanweisung widerspiegeln. Der veranschaulichte Front-End-Abschnitt 210 enthält auch Registerumbenennungslogik 225 und Planungslogik 230, die allgemein Ressourcen zuweisen und die Operation entsprechend der Umwandlungsanweisung zur Ausführung in eine Warteschlange stellen.
Der Prozessorkern 200 ist eine Ausführungslogik 250 mit einem Satz von Ausführungseinheiten 255-1 bis 255-N enthaltend gezeigt. Einige Ausführungsformen können eine Anzahl von Ausführungseinheiten enthalten, die für spezifische Funktionen oder Sätze von Funktionen reserviert sind. Andere Ausführungsformen können nur eine Ausführungseinheit oder eine Ausführungseinheit enthalten, die eine bestimmte Funktion durchführen kann. Die veranschaulichte Ausführungslogik 250 führt die durch die Codeanweisungen angegebenen Operationen durch.
Nach Abschluss der Ausführung der von den Codeanweisungen angegebenen Operationen legt Back-End-Logik 260 die Anweisungen des Codes 213 still. In einer Ausführungsform ermöglicht der Prozessorkern 200 eine Out-of-Order-Ausführung, aber erfordert eine In-Order-Stilllegung der Anweisungen. Stilllegungslogik 265 kann eine Vielfalt von Formen annehmen, wie sie Fachleuten bekannt sind (z. B. Umordnungspuffer oder dergleichen). Auf diese Weise wird der Prozessorkern 200 während der Ausführung des Codes 213 zumindest in Bezug auf die vom Decodierer erzeugte Ausgabe, die von der Registerumbenennungslogik 225 eingesetzten Hardwareregister und Tabellen und alle von der Ausführungslogik 250 modifizierten Register (nicht gezeigt) transformiert.
Obwohl in 8 nicht veranschaulicht, kann ein Verarbeitungselement andere Elemente auf einem Chip mit dem Prozessorkern 200 enthalten. Ein Verarbeitungselement kann zum Beispiel zusammen mit dem Prozessorkern 200 Arbeitsspeichersteuerlogik enthalten. Das Verarbeitungselement kann E/A-Steuerlogik enthalten und/oder kann in Arbeitsspeichersteuerlogik integrierte E/A-Steuerlogik enthalten. Das Verarbeitungselement kann auch einen oder mehrere Zwischenspeicher enthalten.
Nunmehr auf 9 Bezug nehmend, wird ein Blockdiagramm einer Ausführungsform eines Rechensystems 1000 nach einer Ausführungsform gezeigt. In 9 ist ein Mehrprozessorsystem 1000 gezeigt, das ein erstes Verarbeitungselement 1070 und ein zweites Verarbeitungselement 1080 enthält. Während zwei Verarbeitungselemente 1070 und 1080 gezeigt sind, sollte klar sein, dass eine Ausführungsform des Systems 1000 auch nur ein derartiges Verarbeitungselement enthalten kann.
Das System 1000 ist als ein Punkt-zu-Punkt-Zwischenverbindungssystem veranschaulicht, wobei das erste Verarbeitungselement 1070 und das zweite Verarbeitungselement 1080 über eine Punkt-zu-Punkt-Zwischenverbindung 1050 gekoppelt sind. Es sollte klar sein, dass beliebige oder alle der in 9 veranschaulichten Zwischenverbindungen als ein Multi-Drop-Bus anstatt einer Punkt-zu-Punkt-Zwischenverbindung implementiert sein können.
Wie in 9 gezeigt, können alle der Verarbeitungselemente 1070 und 1080 Mehrkernprozessoren sein, die erste und zweite Prozessorkerne enthalten (z. B. Prozessorkerne 1074a und 1074b und Prozessorkerne 1084a und 1084b). Derartige Kerne 1074a, 1074b, 1084a, 1084b können ausgelegt sein, Anweisungscode auf eine Weise auszuführen, die der oben in Verbindung mit 8 besprochenen ähnlich ist.
Jedes Verarbeitungselement 1070, 1080 kann mindestens einen gemeinsam genutzten Zwischenspeicher 1896a, 1896b enthalten. Der gemeinsam genutzte Zwischenspeicher 1896a, 1896b kann Daten (z. B. Anweisungen) speichern, die von einer oder mehreren Komponenten des Prozessors genutzt werden, wie den Kernen 1074a, 1074b bzw. 1084a, 1084b. Der gemeinsam genutzte Zwischenspeicher 1896a, 1896b kann zum Beispiel für einen schnelleren Zugriff durch Komponenten des Prozessors lokal Daten zwischenspeichern, die in einem Arbeitsspeicher 1032, 1034 gespeichert sind. In einer oder mehreren Ausführungsformen, kann der gemeinsam genutzte Zwischenspeicher 1896a, 1896b einen oder mehrere Zwischenspeicher mittlerer Levels enthalten, wie Level 2 (L2), Level 3 (L3), Level 4 (L4) oder andere Zwischenspeicherlevel, einen Last-Level-Zwischenspeicher (LLC) und/oder Kombinationen davon.
Während sie nur mit zwei Verarbeitungselementen 1070, 1080 gezeigt sind, soll klar sein, dass der Umfang der Ausführungsformen nicht darauf beschränkt ist. In anderen Ausführungsformen können ein oder mehrere zusätzliche Verarbeitungselemente in einem bestimmten Prozessor vorhanden sein. Alternativ kann eines oder mehrere der Verarbeitungselemente 1070, 1080 ein von einem Prozessor verschiedenes Element sein, wie ein Beschleuniger oder ein feldprogrammierbares Gatearray. Ein zusätzliches Verarbeitungselement bzw. zusätzliche Verarbeitungselemente kann bzw. können einen zusätzlichen Prozessor bzw. zusätzliche Prozessoren enthalten, der bzw. die gleich dem ersten Prozessor 1070 ist bzw. sind, einen zusätzlichen Prozessor bzw. zusätzliche Prozessoren, der bzw. die zum Prozessor zu einem ersten Prozessor 1070 heterogen oder asymmetrisch ist bzw. sind, Beschleuniger (wie z. B. Grafikbeschleuniger oder digitale Signalverarbeitungseinheiten (DSP-Einheiten)), feldprogrammierbare Gatearrays oder ein beliebiges anderes Verarbeitungselement. Es kann eine Vielzahl an Unterschieden hinsichtlich eines Spektrums von Leistungsmetriken, einschließlich Architektur-, Mikroarchitektur-, thermischen, Stromverbrauchseigenschaften und dergleichen, zwischen den Verarbeitungselementen 1070, 1080 geben. Diese Unterschiede können sich effektiv als eine Asymmetrie und Heterogenität unter den Verarbeitungselementen 1070, 1080 offenbaren. Für mindestens eine Ausführungsform können die verschiedenen Verarbeitungselemente 1070, 1080 auf demselben Gehäusepaket residieren.
Das erste Verarbeitungselement 1070 kann ferner Arbeitsspeichersteuerungslogik (MC) 1072 und Punkt-zu-Punkt(P-P)-Schnittstellen 1076 und 1078 enthalten. Gleichermaßen kann das zweite Verarbeitungselement 1080 eine MC 1082 und P-P-Schnittstellen 1086 und 1088 enthalten. Wie in 9 gezeigt, koppeln die MCs 1072 und 1082 die Prozessoren an jeweilige Arbeitsspeicher, nämlich einen Arbeitsspeicher 1032 und einen Arbeitsspeicher 1034, die Teile eines Hauptarbeitsspeichers sein können, die lokal an die jeweiligen Prozessoren angebunden sind. Während die MC 1072 und 1082 als in die Verarbeitungselemente 1070, 1080 integriert veranschaulicht sind, kann die MC-Logik für alternative Ausführungsformen diskrete Logik außerhalb der Verarbeitungselemente 1070, 1080 anstatt darin integriert sein.
Das erste Verarbeitungselement 1070 und das zweite Verarbeitungselement 1080 können an ein E/A-Subsystem 1090 über P-P-Zwischenverbindungen 1076 bzw. 1086 gekoppelt sein. Wie in 9 gezeigt enthält das E/A-Subsystem 1090 P-P-Schnittstellen 1094 und 1098. Ferner enthält das E/A-Subsystem 1090 eine Schnittstelle 1092, um das E/A-Subsystem 1090 mit einer Hochleistungs-Grafikengine 1038 zu koppeln. In einer Ausführungsform kann ein Bus 1049 verwendet werden, um die Grafikengine 1038 an das E/A-Subsystem 1090 zu koppeln. Alternativ kann eine Punkt-zu-Punkt-Zwischenverbindung diese Komponenten verkoppeln.
Das E/A-Subsystem 1090 kann wiederum über eine Schnittstelle 1096 an einen ersten Bus 1016 gekoppelt sein. In einer Ausführungsform kann der erste Bus 1016 ein Peripheral-Component-Interconnect(PCI)-Bus oder ein Bus wie ein PCI-Express-Bus oder ein anderer E/A-Verbindungsbus der dritten Generation sein, obwohl der Umfang der Ausführungsformen dadurch nicht eingeschränkt ist.
Wie in 9 gezeigt, können verschiedene E/A-Vorrichtungen 1014 (z. B. biometrische Scanner, Lautsprecher, Kameras, Sensoren) mit einer Busbrücke 1018, die den ersten Bus 1016 an einen zweiten Bus 1020 koppeln kann, an den ersten Bus 1016 gekoppelt sein. In einer Ausführungsform kann der zweite Bus 1020 ein Low-Pin-Count(LPC)-Bus sein. Verschiedene Vorrichtungen können in einer Ausführungsform mit dem zweiten Bus 1020 gekoppelt sein, einschließlich zum Beispiel einer Tastatur/oder einer Maus 1012, (einer) Kommunikationsvorrichtung(en) 1026 und einer Datenspeichereinheit 1019, wie zum Beispiel eines Festplattenlaufwerks oder einer anderen Massenspeichervorrichtung, die Code 1030 enthalten kann. Der veranschaulichte Code 1030 kann einen oder mehrere Aspekte des Verfahrens 60 (3), des Verfahrens 70 (4A), des Verfahrens 90 (4B) und/oder des Verfahrens 100 (5) implementieren, die bereits besprochen wurden. Ferner kann eine Audio-E/A 1024 an den zweiten Bus 1020 gekoppelt sein und eine Batterie 1010 kann dem Rechensystem 1000 Energie liefern.
Es ist anzumerken, dass andere Ausführungsformen erwogen werden. Zum Beispiel kann ein System statt der Punkt-zu-Punkt-Architektur von 9 einen Mehrpunktbus oder eine andere derartige Kommunikationstopologie implementieren. Außerdem können die Elemente von 9 alternativ unter Verwendung von mehr oder weniger integrierten Chips als in 9 gezeigt partitioniert sein.
Zusätzliche Anmerkungen und Beispiele:
Beispiel 1 enthält ein leistungsverbessertes Rechensystem, umfassend eine stationäre Kamera, um einen Videodatenstrom einer Szene zu generieren, eine Vielzahl von nicht stationären Kameras, einen Prozessor und einen an den Prozessor gekoppelten Arbeitsspeicher, wobei der Arbeitsspeicher einen Satz von ausführbaren Programmanweisungen enthält, die bei Ausführung durch den Prozessor den Prozessor veranlassen, eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in der Szene auf Grundlage des Videodatenstroms zu erkennen, eine nicht stationäre Kamera aus der Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen und die ausgewählte nicht stationäre Kamera automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Beispiel 2 enthält das Rechensystem von Beispiel 1, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Beispiel 3 enthält das Rechensystem von Beispiel 1, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen.
Beispiel 4 enthält das Rechensystem von Beispiel 3, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz zu trainieren, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen, ein zweites neuronales Netz zu trainieren, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen, und ein drittes neuronales Netz zu trainieren, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Beispiel 5 enthält das Rechensystem von Beispiel 3, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Beispiel 6 enthält das Rechensystem von einem der Beispiele 1 bis 5, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Beispiel 7 enthält eine Halbleitereinrichtung, die ein oder mehrere Substrate und Logik umfasst, die an das eine oder die mehreren Substrate gekoppelt ist, wobei die Logik zumindest teilweise in einer oder mehreren von konfigurierbarer Logik oder Hardwarelogik mit fester Funktionalität implementiert ist, wobei die an das eine oder die mehreren Substrate gekoppelte Logik eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene zu erkennen hat, wobei der Videodatenstrom mit einer stationären Kamera zu assoziieren ist, eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen hat, und die ausgewählte nicht stationäre Kamera automatisch anzuweisen hat, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Beispiel 8 enthält die Einrichtung von Beispiel 7, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Beispiel 9 enthält die Einrichtung von Beispiel 7, wobei die an das eine oder die mehreren Substrate gekoppelte Logik die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen hat.
Beispiel 10 enthält die Einrichtung von Beispiel 9, wobei die an das eine oder die mehreren Substrate gekoppelte Logik ein erstes neuronales Netz zu trainieren hat, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen, ein zweites neuronales Netz zu trainieren hat, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen, und ein drittes neuronales Netz zu trainieren hat, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Beispiel 11 enthält die Einrichtung von Beispiel 9, wobei die an das eine oder die mehreren Substrate gekoppelte Logik ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren hat, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Beispiel 12 enthält die Einrichtung von einem der Beispiele 7 bis 11, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Beispiel 13 enthält mindestens ein computerlesbares Speichermedium, das einen Satz von ausführbaren Programmanweisungen umfasst, der bei Ausführung durch ein Rechensystem das Rechensystem veranlasst, eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene zu erkennen, wobei der Videodatenstrom mit einer stationären Kamera zu assoziieren ist, eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen und die ausgewählte nicht stationäre Kamera automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Beispiel 14 enthält das mindestens eine computerlesbare Speichermedium von Beispiel 13, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Beispiel 15 enthält das mindestens eine computerlesbare Speichermedium von Beispiel 13, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen.
Beispiel 16 enthält das mindestens eine computerlesbare Speichermedium von Beispiel 15, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz zu trainieren, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen, ein zweites neuronales Netz zu trainieren, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen, und ein drittes neuronales Netz zu trainieren, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Beispiel 17 enthält das mindestens eine computerlesbare Speichermedium von Beispiel 15, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Beispiel 18 enthält das mindestens eine computerlesbare Speichermedium von einem der Beispiele 13 bis 17, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Beispiel 19 enthält ein Verfahren zum Betreiben eines leistungsverbesserten Rechensystems, wobei das Verfahren umfasst: Erkennen einer nicht identifizierten Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene, wobei der Videodatenstrom mit einer stationären Kamera assoziiert ist, Auswählen einer nicht stationären Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera und automatisches Anweisen der ausgewählten nicht stationären Kamera, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Beispiel 20 enthält das Verfahren von Beispiel 19, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf angewiesen wird, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera angewiesen wird, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Beispiel 21 enthält das Verfahren von Beispiel 19, das ferner Vorhersagen der Trajektorie auf Grundlage des Videodatenstroms enthält.
Beispiel 22 enthält das Verfahren von Beispiel 21, ferner enthaltend Trainieren eines ersten neuronalen Netzes, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen, Trainieren eines zweiten neuronalen Netzes, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen, und Trainieren eines dritten neuronalen Netzes, auf Grundlage der vorhergesagten Trajektorien nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Beispiel 23 enthält das Verfahren von Beispiel 21, ferner enthaltend Neutrainieren eines ersten neuronalen Netzes, eines zweiten neuronalen Netzes und eines dritten neuronalen Netzes auf Grundlage von bestärkenden Echtzeitdaten, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz erkannt wird, wobei die Trajektorie durch das zweite neuronale Netz vorhergesagt wird, wobei die nicht stationäre Kamera durch das dritte neuronale Netz ausgewählt wird und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz angewiesen wird.
Beispiel 24 enthält das Verfahren von einem der Beispiele 19 bis 23, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung enthalten und wobei die ausgewählte nicht stationäre Kamera automatisch angewiesen wird, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Beispiel 25 enthält Mittel zum Durchführen des Verfahrens nach einem der Beispiele 19 bis 24.
Deshalb bietet hierin beschriebene Technologie eine kostengünstige Lösung für die automatische Identifizierung von Personen. Zusätzlich sind weniger Kameras in der „Szene“ erforderlich, was CAPEX (Kapitalaufwand, z. B. zum Erwerben und Aufstellen von Kameras) und OPEX (Betriebskosten, wobei z. V. der Bedarf an Betreibern der Computervisionsinfrastruktur reduziert wird) reduziert. Die Technologie reduziert auch die Rechenkapazität, die zur Identifizierung erforderlich ist, da die Kameras proaktiv auf die richtige Position gesetzt werden, um Gesichter zu erfassen, was eine geringere Frameverarbeitung bedeutet. Zusätzlich ermöglicht die Technologie die selektive Ausführung von Gesichtsidentifikationsprozeduren an bestimmten Kameraframes anstatt von fortlaufendem Ausführen der Prozeduren an allen Kameraframes. In einer bestimmten Situation bereitet das System eine PTZ-Kamera vor, sodass sie zu einem bestimmten Zeitpunkt auf eine bestimmte Position zeigt. Sobald diese erreicht ist, kann der Identifikationsprozess für ein Zeitfenster ausgeführt werden, aber der Prozess läuft nicht kontinuierlich.
Darüber hinaus ist die Technologie bei der Identifizierung hocheffizient, ohne auf der Aufmerksamkeit von menschlichen Betreibern zu beruhen. Darüber hinaus ist die Arbeit des Betreibers automatisiert, was die OPEX reduziert. Die Technologie ist auch bei der Identifizierung hocheffizient, wobei sie fähig ist, viele verschiedene Videodatenströme parallel zu überwachen, im Vergleich zur menschlichen Überwachung, die möglicherweise fähig ist, nur ein paar Videodatenströme zu prüfen.
Ausführungsformen sind auf eine Verwendung mit allen Arten von integrierten Halbleiterschaltkreischips („IC“-Chips) anwendbar. Beispiele dieser IC-Chips enthalten unter anderem Prozessoren, Steuerungen, Chipsatzkomponenten, programmierbare Logikanordnungen (PLAs), Arbeitsspeicherchips, Netzwerkchips, Ein-Chip-Systeme (SoCs), SSD/NAND-Steuerungs-ASICs und dergleichen. Darüber hinaus sind in einigen der Zeichnungen Signalleiterspuren durch Linien dargestellt. Einige können verschieden sein, um mehr Teilsignalpfade anzuzeigen, eine Ziffernkennzeichnung aufweisen, um eine Anzahl von Teilsignalpfaden anzuzeigen, und/oder Pfeile an einem oder mehreren Enden aufweisen, um eine primäre Informationsflussrichtung anzuzeigen. Dies sollte jedoch nicht einschränkend ausgelegt werden. Vielmehr können derartige zusätzliche Details zusammen mit einem oder mehreren Ausführungsbeispielen verwendet werden, um ein leichteres Verständnis eines Schaltkreises zu ermöglichen. Alle dargestellten Signalleitungen, egal, ob sie zusätzliche Informationen aufweisen oder nicht, können tatsächlich ein oder mehrere Signale umfassen, die sich in mehrere Richtungen bewegen können, und können mit einem beliebigen geeigneten Typ von Signalschema implementiert sein, z. B. digitalen oder analogen Leitungen, die mit Differenzialpaaren, optischen Faserleitungen und/oder einpolig geerdeten Leitungen implementiert sein.
Beispielhafte Größen/Modelle/Werte/Bereiche können angegeben sein, obwohl Ausführungsformen nicht auf dieselben beschränkt sind. Da Herstellungstechniken (z. B. Fotolithografie) mit der Zeit reifen, wird erwartet, dass Vorrichtungen kleinerer Größe hergestellt werden könnten. Zusätzlich können gut bekannte Energie-/Erdungsanschlüsse zu IC-Chips und anderen Komponenten in den Figuren gezeigt werden oder auch nicht, zur Einfachheit der Darstellung und Besprechung und um bestimmte Gesichtspunkte der Ausführungsformen nicht zu verschleiern. Ferner können Anordnungen in Blockdiagrammform gezeigt werden, um ein Verschleiern der Ausführungsformen zu vermeiden und auch angesichts der Tatsache, dass Details in Bezug auf eine Implementierung derartiger Blockdiagramm-Anordnungen stark vom Rechensystem abhängen, innerhalb dem die Ausführungsform zu implementieren ist, d. h., derartige Details sollten deutlich innerhalb des Aufgabenbereichs von Fachleuten auf dem Gebiet liegen. Wenn spezifische Details (z. B. Schaltkreise) zur Beschreibung beispielhafter Ausführungsformen dargelegt werden, sollte es für Fachleute offensichtlich sein, dass die Ausführungsformen ohne diese oder mit Variation dieser spezifischen Details ausgeführt werden können. Die Beschreibung ist deshalb als veranschaulichend statt einschränkend anzusehen.
Der Begriff „gekoppelt“ kann hierin verwendet werden, um einen beliebigen Typ von Beziehung, direkt oder indirekt, zwischen den fraglichen Komponenten zu bezeichnen, und kann für elektrische, mechanische, fluidische, optische, elektromagnetische, elektromechanische oder andere Verbindungen gelten. Darüber hinaus können die Begriffe „erster“, „zweiter“ usw. hierin nur verwendet werden, um eine Besprechung zu ermöglichen, und tragen keine bestimmte zeitliche oder chronologische Bedeutung, sofern nicht anders angegeben.
Wie in dieser Anmeldung und in den Patentansprüchen verwendet, kann eine Liste von Elementen, die durch den Begriff „ein(e) oder mehrere von“ verbunden sind, eine beliebige Kombination der aufgelisteten Begriffe bedeuten. Zum Beispiel können die Phrasen „eines oder mehrere von A, B oder C“ Folgendes bedeuten: A; B; C; A und B; A und C; B und C; oder A, B und C.
Fachleute auf dem Gebiet werden aus der vorangehenden Beschreibung erkennen, dass die breiten Techniken der Ausführungsformen auf vielfältige Weisen implementiert werden können. Obwohl die Ausführungsformen in Verbindung mit bestimmten Beispielen davon beschrieben worden sind, sollte der wahre Umfang der Ausführungsformen daher nicht darauf beschränkt sein, da andere Modifikationen für erfahrene Praktiker beim Studium der Zeichnungen, der Beschreibung und der folgenden Ansprüche offensichtlich werden.

Claims

Rechensystem, umfassend: eine oder mehrere stationäre Kameras, um einen Videodatenstrom einer Szene zu generieren; eine Vielzahl von nicht stationären Kameras; einen Prozessor; und einen an den Prozessor gekoppelten Arbeitsspeicher, wobei der Arbeitsspeicher einen Satz von ausführbaren Programmanweisungen enthält, die bei Ausführung durch den Prozessor den Prozessor veranlassen: eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in der Szene auf Grundlage des Videodatenstroms zu erkennen, eine nicht stationäre Kamera aus der Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen und die ausgewählte nicht stationäre Kamera automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Rechensystem nach Anspruch 1, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Rechensystem nach Anspruch 1, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen.
Rechensystem nach Anspruch 3, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen: ein erstes neuronales Netz zu trainieren, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen, ein zweites neuronales Netz zu trainieren, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen, und ein drittes neuronales Netz zu trainieren, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Rechensystem nach Anspruch 3, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Rechensystem nach einem der Ansprüche 1 bis 5, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Halbleitereinrichtung, umfassend: ein oder mehrere Substrate; und Logik, die an das eine oder die mehreren Substrate gekoppelt ist, wobei die Logik zumindest teilweise in einer oder mehreren von konfigurierbarer Logikhardware oder Hardwarelogik mit fester Funktionalität implementiert ist, wobei die an das eine oder die mehreren Substrate gekoppelte Logik: eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene zu erkennen hat, wobei der Videodatenstrom mit einer stationären Kamera zu assoziieren ist, eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen hat, und die ausgewählte nicht stationäre Kamera automatisch anzuweisen hat, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Einrichtung nach Anspruch 7, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Einrichtung nach Anspruch 7, wobei die an das eine oder die mehreren Substrate gekoppelte Logik die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen hat.
Einrichtung nach Anspruch 9, wobei die an das eine oder die mehreren Substrate gekoppelte Logik: ein erstes neuronales Netz zu trainieren hat, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen; ein zweites neuronales Netz zu trainieren hat, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen; und ein drittes neuronales Netz zu trainieren, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Einrichtung nach Anspruch 9, wobei die an das eine oder die mehreren Substrate gekoppelte Logik ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren hat, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Einrichtung nach einem der Ansprüche 7 bis 11, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Computerlesbares Speichermedium oder computerlesbare Speichermedien, die einen Satz von ausführbaren Programmanweisungen umfassen, der bei Ausführung durch ein Rechensystem das Rechensystem veranlasst: eine nicht identifizierte Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene zu erkennen, wobei der Videodatenstrom mit einer stationären Kamera zu assoziieren ist, eine nicht stationäre Kamera aus einer Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera auszuwählen; und die ausgewählte nicht stationäre Kamera automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 13, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf anzuweisen ist, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera anzuweisen ist, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 13, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, die Trajektorie auf Grundlage des Videodatenstroms vorherzusagen.
Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 15, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen: ein erstes neuronales Netz zu trainieren, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen; ein zweites neuronales Netz zu trainieren, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen; und ein drittes neuronales Netz zu trainieren, nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 15, wobei die Anweisungen bei Ausführung das Rechensystem ferner veranlassen, ein erstes neuronales Netz, ein zweites neuronales Netz und ein drittes neuronales Netz auf Grundlage von bestärkenden Echtzeitdaten neu zu trainieren, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz zu erkennen ist, wobei die Trajektorie durch das zweite neuronale Netz vorherzusagen ist, wobei die nicht stationäre Kamera durch das dritte neuronale Netz auszuwählen ist und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz anzuweisen ist.
Computerlesbares Speichermedium oder computerlesbare Speichermedien nach einem der Ansprüche 13 bis 17, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung zu enthalten haben und wobei die ausgewählte nicht stationäre Kamera automatisch anzuweisen ist, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Verfahren, umfassend: Erkennen einer nicht identifizierten Person an einer ersten Position entlang einer Trajektorie in einer Szene auf Grundlage eines Videodatenstroms der Szene, wobei der Videodatenstrom mit einer stationären Kamera assoziiert ist, Auswählen einer nicht stationären Kamera aus der Vielzahl von nicht stationären Kameras auf Grundlage der Trajektorie und einer oder mehrerer Einstellungen der ausgewählten nicht stationären Kamera; und automatisches Anweisen der ausgewählten nicht stationären Kamera, mindestens eine der einen oder mehreren Einstellungen anzupassen, ein Gesicht der nicht identifizierten Person an einer zweiten Position entlang der Trajektorie zu erfassen und die nicht identifizierte Person auf Grundlage des erfassten Gesichts der nicht identifizierten Person zu identifizieren.
Verfahren nach Anspruch 19, wobei die ausgewählte nicht stationäre Kamera automatisch als Reaktion darauf angewiesen wird, dass das Gesicht der nicht identifizierten Person im Videodatenstrom fehlt, und wobei die ausgewählte nicht stationäre Kamera angewiesen wird, die mindestens eine der einen oder der mehreren Einstellungen anzupassen, bevor die nicht identifizierte Person die zweite Position erreicht.
Verfahren nach Anspruch 19, das ferner Vorhersagen der Trajektorie auf Grundlage des Videodatenstroms enthält.
Verfahren nach Anspruch 21, ferner enthaltend: Trainieren eines ersten neuronalen Netzes, nicht identifizierte Personen in der Szene auf Grundlage von Simulationsdaten zu erkennen; Trainieren eines zweiten neuronalen Netzes, Trajektorien der nicht identifizierten Personen auf Grundlage der Simulationsdaten vorherzusagen; und Trainieren eines dritten neuronalen Netzes, auf Grundlage der vorhergesagten Trajektorien nicht stationäre Kameras auszuwählen und die ausgewählten nicht stationären Kameras automatisch anzuweisen, mindestens eine der einen oder mehreren Einstellungen auf Grundlage der Simulationsdaten anzupassen.
Verfahren nach Anspruch 21, ferner enthaltend Neutrainieren eines ersten neuronalen Netzes, eines zweiten neuronalen Netzes und eines dritten neuronalen Netzes auf Grundlage von bestärkenden Echtzeitdaten, wobei die nicht identifizierte Person an der ersten Position durch das erste neuronale Netz erkannt wird, wobei die Trajektorie durch das zweite neuronale Netz vorhergesagt wird, wobei die nicht stationäre Kamera durch das dritte neuronale Netz ausgewählt wird und wobei die ausgewählte nicht stationäre Kamera automatisch durch das dritte neuronale Netz angewiesen wird.
Verfahren nach einem der Ansprüche 19 bis 23, wobei die eine oder die mehreren Einstellungen eine oder mehrere von einer Schwenkeinstellung, einer Neigungseinstellung oder einer Zoomeinstellung enthalten und wobei die ausgewählte nicht stationäre Kamera automatisch angewiesen wird, die nicht identifizierte Person auf Grundlage einer reduzierten Anzahl von Frames zu identifizieren, die das erfasste Gesicht der nicht identifizierten Person beinhalten.
Einrichtung, die Mittel zum Durchführen des Verfahrens nach einem der Ansprüche 19-23 umfasst.