DE112017005182T5 - Ein Verfahren zur Sicht-Pyramidenstumpf-Detektion, entsprechendes System und Computerprogrammprodukt - Google Patents

Ein Verfahren zur Sicht-Pyramidenstumpf-Detektion, entsprechendes System und Computerprogrammprodukt Download PDF

Info

Publication number
DE112017005182T5
DE112017005182T5 DE112017005182.7T DE112017005182T DE112017005182T5 DE 112017005182 T5 DE112017005182 T5 DE 112017005182T5 DE 112017005182 T DE112017005182 T DE 112017005182T DE 112017005182 T5 DE112017005182 T5 DE 112017005182T5
Authority
DE
Germany
Prior art keywords
person
truncated pyramid
attention
card
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112017005182.7T
Other languages
English (en)
Other versions
DE112017005182T8 (de
Inventor
Marco Christani
Alessio Del Blue
Michael Eschey
Fabio GALASSO
Irtiza Hasan
Herbert Kaestle
Francesco Setti
Theodore Tsesmelis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osram GmbH
Degli Studi Di Verona, University of
Fondazione Istituto Italiano di Tecnologia
Universita degli Studi di Verona
Original Assignee
Osram GmbH
Degli Studi Di Verona, University of
Fondazione Istituto Italiano di Tecnologia
Universita degli Studi di Verona
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osram GmbH, Degli Studi Di Verona, University of, Fondazione Istituto Italiano di Tecnologia, Universita degli Studi di Verona filed Critical Osram GmbH
Publication of DE112017005182T5 publication Critical patent/DE112017005182T5/de
Application granted granted Critical
Publication of DE112017005182T8 publication Critical patent/DE112017005182T8/de
Active legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Burglar Alarm Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

Ein Bildsignal, das die Kopfhaltung einer Person in einer Szene angibt, das z.B. von einer Kamera (W) bereitgestellt wird, wird bearbeitet durch:- Schätzen (102), als Funktion des Bildsignals, das von dem mindestens einen Bildsensor (W) empfangen (100) wurde, der Kopfhaltung der mindestens einen Person,- Erzeugen (104) eines Sicht-Pyramidenstumpfes der mindestens einen Person aus der geschätzten Kopfhaltung;- Erzeugen (106) eines visuellen Aufmerksamkeits-Pyramidenstumpfes oder VFOA der mindestens einen Person aus dem Sicht-Pyramidenstumpf,- Erzeugen aus dem visuellen Aufmerksamkeits-Pyramidenstumpf, z.B.:- eine vorhergesagte Bewegungstrajektorie der Person, vorzugsweise durch Tracking der Person als Funktion einer vorhergesagten Bewegungstrajektorie, oder- eine geschätzte Szene-Aufmerksamkeitskarte als Funktion des visuellen Aufmerksamkeits-Pyramidenstumpfes, vorzugsweise durch Identifizieren mindestens eines zu steuernden Objekts (L) in der Aufmerksamkeitskarte (L).Zum Beispiel kann das Verfahren auf das Steuern eines intelligenten Beleuchtungssystems (L) angewendet werden, das mehrere Beleuchtungsvorrichtungen (L) umfasst, die durch eine Steuerungsvorrichtung (C) steuerbar sind, indem eine zu steuernde Beleuchtungsvorrichtung (L) in der Aufmerksamkeitskarte identifiziert wird, so dass die Steuerungsvorrichtung (C) verwendet werden kann, um die Beleuchtungsvorrichtung zu steuern, die in der Vielzahl von Beleuchtungsvorrichtungen in der Aufmerksamkeitskarte identifiziert ist.

Description

  • Technisches Gebiet
  • Die Beschreibung bezieht sich auf die Sicht-Pyramidenstumpf-Detektion.
  • Eine oder mehrere Ausführungsformen können angewendet werden, z.B. zur Verwaltung „intelligenter“ Beleuchtungssysteme.
  • In dieser Beschreibung wird auf verschiedene Dokumente Bezug genommen, indem zwischen eckigen Klammern (z. B. [X]) eine Nummer wiedergegeben wird, die das Dokument in einer LISTE DER ZITIERTEN DRUCKSCHRIFTEN identifiziert, die am Ende der Beschreibung erscheint.
  • Technologischer Hintergrund
  • Verfolgen (Tracking) ist ein klassisches Problem in der Computervision, das aufgrund seiner Bedeutung in Anwendungen, beispielsweise Überwachung, medizinische Bildgebung und seit kurzem auch in der Robotik, seit über 30 Jahren Beachtung gefunden hat.
  • Insbesondere in der Robotik-Anwendung wurde das Tracking mit der Vorhersage kombiniert, um einen frühen Maschineneingriff zur Erleichterung menschlicher Aufgaben zu ermöglichen, z.B. Öffnen eines Kühlschranks, wenn eine Person sich ihm nähert.
  • Die Detektion des Sicht-Pyramidenstumpfs ist ebenfalls ein aktuelles Problem mit hohem Potenzial für moderne Visions-Anwendungen.
  • Der Sicht-Pyramidenstumpf (oder Betrachtungs-Pyramidenstumpf) ist der Bereich des Raums, der auf dem Bildschirm eines Computers erscheinen kann, und stellt damit mehr oder weniger das Bildfeld dar, das für eine fiktive Kamera das Sichtfeld ist. Die Bezeichnung „Pyramidenstumpf“ unterstreicht die Tatsache, dass der Sicht-Pyramidenstumpf dadurch erhalten werden kann, dass eine Verkürzung mit parallelen Ebenen (d.h. ein Pyramidenstumpf) der Sicht-Pyramide vorgenommen wird. Dies ist eine praktische Implementierung des (idealen) Sicht-Kegels eines Auges, wenn ein rechteckiger Sichtbereich, wie er z.B. in Computergrafik verwendet wird, wird berücksichtigt. Aus diesem Grund wird der Begriff „Sicht-Pyramide“ manchmal als Synonym für „Sicht-Pyramidenstumpf“ verwendet.
  • Die genaue Form des Bereichs, der von einem Sicht-Pyramidenstumpf abgedeckt wird, kann variieren, z.B. abhängig von dem berücksichtigten, optischen System. In den meisten Anwendungen kann es als ein Pyramidenstumpf einer rechteckigen Pyramide angesehen werden.
  • Die jüngsten Fortschritte bei der Personen-Detektion ermöglichen die Erforschung ihrer Haltung, einschließlich des Sicht-Pyramidenstumpfs, und erleichtern so das Verständnis ihrer visuellen Aufmerksamkeit.
  • Studien zur Schätzung der Kopfhaltung haben in letzter Zeit im Bereich der Computer-Vision systematisch zugenommen. Diese Studien beziehen sich hauptsächlich auf das Gebiet der Mensch-Computer-Interaktion und der affektiven Berechnung [1, 2], wo Köpfe in kontrollierten Umgebungen mit einem hohen Detaillierungsgrad erfasst werden, um subtile soziale Signale zu erfassen oder die Analyse des Blicks zu unterstützen.
  • Andere Arbeiten konzentrieren sich auf die individuelle Kopfhaltung in offenen Szenarien, etwa in der Überwachung, wo eine Anzahl von Personen mit niedriger Auflösung erfasst werden kann [3, 4, 5]. In diesem Fall kann die Kopfhaltung verwendet werden, um auf das Blickfeld (FOV) eines Menschen zu schließen [6], das sich wiederum der Blickaktivität annähern kann [7]; ein zugrundeliegendes Prinzip besteht darin, einen Kegel mit Winkeln von 130 ° - 135 ° vertikal und 200 ° - 220 ° horizontal mit dem von der Nase ausgehenden Vektor orthogonal zur koronalen Ebene des Gesichts auszurichten: in diesem Volumen oder Raum, auch als Sicht-Pyramidenstumpf (oder, mit einer synonymen Bezeichnung, Fokus) der Aufmerksamkeit (VFOA) [7] bezeichnet, kann die Fixierung der Augen auftreten. Vertrauen besteht darin, dass die Verteilung des Blicks und der kognitiven Prozesse in Beziehung stehen [8, 9, 10], und die Schätzung des FOV kann daher ein Weg sein, um zu schätzen, wo die Aufmerksamkeit des Subjekts aufgewendet (gewidmet) wird. Insbesondere wurde die Schätzung der Kopfhaltung in offenen Szenarien angewendet, um auf die Aufmerksamkeit, die auf Geschäfte [7] oder auf verschiedene Bereiche einer Szene [11] oder auf individuelle sogenannte F-Formationen [5, 12] aufgebracht wird, zu schließen.
  • Ausgehend von bestimmten theoretischen Untersuchungen [13] haben neuere Studien zur künstlichen Beleuchtung im öffentlichen Raum [14, 15], die aus der neurowissenschaftlichen Forschung [16, 17] inspiriert wurden, kritische visuelle Fixierungen von Fußgängern analysiert, die sich im öffentlichen Raum bewegen. Kritische visuelle Fixierungen können sich von einfachen Fixierungen unterscheiden, da sie kognitive Prozesse beinhalten, die auf das Fixierungsobjekt fokussiert sind, wohingegen einfache Fixierungen der Effekt von Tagträumen oder aufgabenunabhängigen Gedanken sein können [16]. Dank der Augen-Tracking-Geräte für tragbare Geräte besteht beispielsweise die Möglichkeit, zu überprüfen, welche Objekte (kritisch) fixiert wurden, um sie zu kategorisieren, z.B. in acht Kategorien: Person, Weg (Weg in Bewegungsrichtung), latente Bedrohung, Ziel, Fahrzeug, Stolperfallen, große Objekte, allgemeine Umgebung. Die Ergebnisse deuten darauf hin, dass der Pfad und andere Personen die häufigsten kritischen Beobachtungen sind, wobei die Tendenz besteht, dass andere Personen aus großen Entfernungen und der Pfad aus nahe Entfernungen fixiert werden.
  • In dieser Hinsicht wurde beobachtet, dass die Kopfhaltung ein aussagekräftiger Hinweis für das Finden von Gruppen in einer Menschenmenge sein kann [14] und dass Informationen über Gruppen die Leistung von sozial getriebenen Verfolgern (Trackern) verbessern können [18] verbessert und einen Tracking-durch-Detektion (tracking-by-detection) -Ansatz ermöglichet [19].
  • Zum Beispiel werden in [13] kritische visuelle Aufgaben, die Fußgänger während des Herumlaufens ausführen, untersucht, indem vorgeschlagen wird, dass diese Aufgaben Hinderniserkennung, Gesichtserkennung anderer Fußgänger und visuelle Orientierung umfassen, ohne diese Annahmen jedoch zu bestätigen und/oder die relative Bedeutung zu gewichten. Augen-Tracking wurde daher angewendet, um die quantitativen Ergebnisse zu erhalten, zunächst in kontrollierter Laborumgebung.
  • In [16] gehen die Teilnehmer drei 10m lange Pfade; zwei der Pfade weisen regelmäßig oder unregelmäßig beabstandete Fußabdrücke auf, auf die die Probanden treten müssen, während ein dritter Pfad keine Fußabdrücke hat. Die Ergebnisse zeigen, dass über 59% der gesamten Fixierungszeit der Blick auf dem nahen Pfad in einem festen Abstand etwas vor dem Fußgänger gehalten wurde, wobei die Fixierungen auf den Fußabdrücken 16% ausmachten. Die Beziehung zwischen Geschwindigkeit und Breite des VFOA wird in [21] untersucht, wo Radfahrer aufgefordert wurden, einen 15 m langen Pfad in einer internen Umgebung mit drei Spurweiten und drei verschiedenen Geschwindigkeiten zu fahren. Die Ergebnisse zeigten, dass engere Pfade und höhere Geschwindigkeiten ein eingeschränkteres visuelles Suchmuster und weniger aufgabenrelevante Fixierungen erfordern. Diese Studien wurden als unnatürlich kritisiert und fanden in eingeschränkten Szenarien statt, denen die ablenkenden Merkmale der realen Welt fehlen, wie z.B. andere Fußgänger, Gebäude und auffällige Objekte.
  • Mobile Augen-Tracking-Systeme können dieses Problem angehen, sodass Augen-Tracking in ökologischen außen Situationen durchgeführt werden kann. Die ersten Studien dieser Art zeigten, dass 21% der Fixierungszeit auf Menschen gerichtet waren, 37% auf den Pfad und 37% auf andere Objekte [22], wobei der Prozentsatz der Fixierungen auf den Pfad während der Nachtstunden zunahm (40-50 %) [23]. Diese Ergebnisse wurden kritisiert, da beispielsweise das Objekt oder der Bereich, den eine Person fixiert, nicht immer den Ort widerspiegelt, auf den sich ihre Aufmerksamkeit konzentriert, z.B. aufgrund von Tagträumen oder aufgabenunabhängige Gedanken [23, 24, 14]. Es wurden alternative Protokolle untersucht, die sich z.B. auf Verschiebungen bei Fixierungen konzentrierten und die Veränderungen der Aufmerksamkeit widerspiegeln sollten, wobei der Zusammenhang zwischen Augenbewegungen und Aufmerksamkeit noch Gegenstand von Studien ist.
  • Aus diesem Grund wurde in [14, 15] das Konzept der kritischen Fixierung ausgenutzt, indem festgestellt wurde, dass sich kritische visuelle Fixierungen von einfachen Fixierungen unterscheiden, da sie kognitive Prozesse beinhalten, die auf das Fixierungsobjekt fokussiert sind. Die Detektion kritischer Fixierungen basiert auf dem Vorhandensein einer Sekundäraufgabe: anders als die Primäraufgabe (Gehen in einer Umgebung) muss eine Sekundäraufgabe ausgeführt werden (Drücken einer Taste, nachdem ein hörbarer Stimulus gehört wurde). Eine Verzögerung beim Abschluss des sekundären Tasks wird verwendet, um kritische Fixierungen zu identifizieren. In der bereits erwähnten Studie von [14] wurden die Teilnehmer gebeten, eine kurze (900 m) und heterogene Route (Straßenkreuzungen, unebenes Gelände, Wohngebiete und überfüllte Plätze) zu gehen, während sie eine Augen-Tracking-Ausrüstung trugen und eine doppelte Aufgabe ausführen. Wie angegeben, wurden kritische Fixierungen in acht Kategorien unterteilt: Person, Pfad (Pfad in Bewegungsrichtung), latente Bedrohung, Ziel, Fahrzeug, Stolpergefahren, große Objekte, allgemeine Umgebung. Die Ergebnisse zeigten, dass die häufigsten kritischen Beobachtungen sich auf dem Weg (22%), den Menschen (19%) und dem Ziel (15%) befanden, wobei die Tendenz besteht, dass andere Personen in weitem Abstand (> 4m) fixiert werden und der Weg im nahen Abstand (≤ 4m) fixiert wird. Darüber hinaus wird postuliert, dass Fixierungen bei Menschen darauf zurückzuführen sind, dass sie ihre Bewegung (Geschwindigkeit und Richtung) wahrnehmen müssen [15].
  • Bestimmte physiologische Studien zielen darauf ab, die VFOA-Größe zu bestimmen (z. B. ein Kegel mit Winkeln 130 ° - 135 ° vertikal und 200 ° - 220 ° horizontal) [9]; in [25] ist gezeigt, dass die Verarbeitungseffizienz um den Fokus der Aufmerksamkeit allmählich abnimmt.
  • Die Ergebnisse von [14, 15] und ähnlichen Experimenten betreffen nicht den Fall von Personen, die Gruppen bilden. Dies kann von Interesse sein, da Personen, die zusammen gehen, ein unterschiedliches Fixierungsverhalten in Bezug auf einzelne Subjekte haben können; In der Tat können Personen in einer sich bewegenden Gruppe mit Ausnahme der individuellen Fixierungen, die für die Pfadplanung erforderlich sind, den wechselseitigen Augenkontakt halten, um die soziale Verbindung aufrechtzuerhalten, d.h. die Gesprächswendungen zu verwalten, nichtverbale soziale Signale usw. zu verarbeiten. [26, 27].
  • Verschiedene Studien verwenden VFOA in unbeschränkten Szenarien ohne hochauflösende Sensoren, um die genaue Blickaktivität zu erfassen. Frühere Arbeiten wie [3, 7] konzentrieren sich auf die VFOA-Schätzung von Bildern mit niedriger Auflösung, zusammen mit der Haltung der Person, wobei VFOA hauptsächlich zum Auffinden sozialer Interaktionen verwendet wird.
  • In [28] dient die Kopfrichtung dazu, auf einen 3D-visuellen Pyramidenstumpf als Annäherung an die VFOA einer Person zu schließen. In Anbetracht der VFOA- und Nähe-Informationen werden die Interaktionen geschätzt: Die zugrundeliegende Idee ist, dass nahe beieinander stehende Personen, deren Sicht-Pyramidenstumpf sich kreuzt, irgendwie miteinander interagieren. Die gleiche Idee wurde in [29] untersucht. Im Detail wird in [8] der VFOA als ein Vektor definiert, der auf den Fokus der Aufmerksamkeit gerichtet ist, dank einer ungefähren Abschätzung der Blickrichtung bei niedriger Auflösung, mit dem Ziel, das Blickverhalten von Personen, die sich vor einem Schaufenster befinden, zu analysieren. Die Projektion der VFOA auf den Boden wurde in [30] als eine Gauß‘sche Verteilung von „Aufmerksamkeitsproben“ vor einem Fußgänger modelliert: Je höher die Dichte, desto größer ist die Wahrscheinlichkeit, dass die Augenfixierung in diesem Bereich vorhanden ist.
  • Die Modellierung von [31] ist eher physiologisch bedingt, wobei der VFOA durch eine Richtung θ (die die Orientierung des Personenkopfes ist), eine Apertur α = 160 ° und eine Länge I gekennzeichnet ist. Der letzte Parameter entspricht der Varianz der Gauß‘schen Verteilung um den Ort einer Person. Sogar in diesem Fall wurden Aufmerksamkeitsproben verwendet, um die Wahrscheinlichkeit einer Fixierung zu messen: Eine dichtere Probenahme wurde an Orten in der Nähe der Person durchgeführt, deren Dichte in weiter entfernten Zonen abnahm. Der Pyramidenstumpf wird erzeugt, indem Proben aus dem obigen Gauß‘schen Kern gezogen werden und nur diejenigen Proben gehalten werden, die innerhalb des durch den Winkel α bestimmten Kegels liegen. In [32] wird gezeigt, dass die Apertur des Kegels moduliert ist, um mehr oder weniger fokussierte Aufmerksamkeitsbereiche zu imitieren.
  • Der Erwerb der Semantik von der Szene hat eine breite Anwendung in verschiedenen Bereichen, die von der Bildverarbeitung bis zur intelligenten Beleuchtung reichen.
  • Als Verbesserung gegenüber herkömmlichen manuellen Schaltern ermöglicht das beim OSRAM-Unternehmen unter dem Markennamen Lightify™ [20] verfügbare Produkt eine grafische Benutzeroberfläche (GUI), das das Gruppieren von Leuchten und ihr Umschalten-bei-Berührung auf einer Anzeige eines intelligenten Gerätes ermöglicht.
  • Beide Schalttechniken haben Nachteile: Manuelle Schalter können nach der Inbetriebnahme oder ohne Eingreifen eines Technikers nicht geändert werden, während in Lightify™ Gruppen durch Listen verbundener Leuchten definiert werden, was die intuitive Auswahl nicht erleichtert.
  • Aufgabe und Zusammenfassung
  • Eine Aufgabe von einer oder mehreren Ausführungsformen besteht darin, dazu beizutragen, weitere Verbesserungen auf dem Gebiet der Technologie bereitzustellen, die oben diskutiert wurde.
  • Gemäß einer oder mehreren Ausführungsformen kann eine solche Aufgabe mittels eines Verfahrens gelöst werden, wie es in den folgenden Ansprüchen dargelegt ist. Eine oder mehrere Ausführungsformen können sich auf ein entsprechendes System sowie auf ein Computerprogrammprodukt beziehen, das in den Speicher von mindestens einem Verarbeitungsmodul (z. B. einem Computer) geladen werden kann und Softwarecodeabschnitte zum Ausführen der Schritte des Verfahrens enthält, wenn das Produkt auf mindestens einem Verarbeitungsmodul ausgeführt wird. Wie hier verwendet, wird die Bezugnahme auf ein solches Computerprogrammprodukt als äquivalent zu einer Bezugnahme auf eine computerlesbare Vorrichtung verstanden, die Anweisungen zum Steuern des Verarbeitungssystems enthält, um die Implementierung des Verfahrens gemäß einer oder mehreren Ausführungsformen zu koordinieren. Die Bezugnahme auf „mindestens einen Computer“ soll die Möglichkeit hervorheben, dass eine oder mehrere Ausführungsformen in modularer und/oder verteilter Form implementiert werden.
  • Die Ansprüche sind ein wesentlicher Bestandteil der hier bereitgestellten Offenbarung in Bezug auf die eine oder mehreren Ausführungsformen.
  • Eine oder mehrere Ausführungsformen können sich auf die Erkenntnis stützen, dass der visuelle Aufmerksamkeits-Pyramidenstumpf (VFOA) das Volumen einer Szene identifiziert, in der Fixierungen einer Person auftreten können; Sie kann aus der Schätzung der Kopfhaltung abgeleitet werden und kann in solchen Situationen wichtig sein, in denen keine genauen Blickinformationen abgerufen werden können, wie in Überwachungsszenarien mit Umgebungsverdeckung (occlusion).
  • In der Vergangenheit wurde dies ausgenutzt, um das Interesse für bestimmte Bereiche verschiedener Umgebungen (Geschäfte, offene Plätze, Flughafenhallen usw.) oder für individuelle Gruppen zu wecken: eine oder mehrere Ausführungsformen können sich auf die Erkenntnis stützen, dass eine VFOA-Schätzung, anders als in diesen spezifischen Anwendungen, auch allgemeiner für ein Problem betreffend die Verfolgung von mehreren Objekten vorteilhaft sein kann. Eine oder mehrere Ausführungsformen können somit erlauben, soziale Theorien und experimentelle Psychologieergebnisse zu berücksichtigen, und ein Vorhersagemodell zum Tracking bereitstellen, das aus VFOA-Schätzungen abgeleitete Aufmerksamkeitskarten verwendet. Selbst in lauten Szenarien können solche Karten es einem Tracker ermöglichen, z.B. die Bereiche zu identifizieren, in denen z.B. Fußgänger künftig wahrscheinlicher anwesend sind, indem er mögliche Kollisionen und Gruppenbildungen berücksichtigt.
  • Eine oder mehrere Ausführungsformen können ein Vorhersagemodell bereitstellen, das präzise und robust ist. Wenn verbunden, z.B. zu einem Tracking-durch-Detektion-Ansatz, können eine oder mehrere Ausführungsformen die Tracking-Leistung bei verschiedenen Benchmarks systematisch verbessern.
  • Eine oder mehrere Ausführungsformen können die Verwendung von VFOA für intelligente Beleuchtungsanwendungen berücksichtigen, z.B. in Anordnungen, bei denen die menschliche Sichtrichtung für die Interaktion mit einem Lichtmanagementsystem verwendet werden kann.
  • Eine oder mehrere Ausführungsformen können sich auf die Erkenntnis stützen, dass die Schätzung der Kopfhaltung verwendet werden kann, um ein effektives Vorhersagemodell für die Verfolgung von mehreren Objekten zu entwerfen, das die Leistungsfähigkeit herkömmlicher Verfolgungsansätze auf systematische Weise steigern kann.
  • Eine oder mehrere Ausführungsformen können auf der Annahme basieren, dass eine robuste Echtzeitschätzung der Kopforientierung eines Fußgängers und somit seines VFOA das Vorhersagen seines zukünftigen nahen Pfads erleichtern kann, wobei die anderen Elemente berücksichtigt werden, die sich in der Szene befinden (Fußgänger, Hindernisse).
  • Eine oder mehrere Ausführungsformen können das Erzeugen von Aufmerksamkeitskarten der Szene umfassen (z. B. eine für jeden Fußgänger), der an jedem Pixel die Wahrscheinlichkeit des Passierens enthält. Zum Beispiel können diese Karten erstellt werden, indem VFOAs bei jedem Zeitschritt akkumuliert werden, so dass eine stabile Kopforientierung in Zukunft einen möglichen Pfad mit höherer Zuverlässigkeit vorhersagen kann als eine sich häufig ändernde Kopfhaltung. Außerdem können Kopfpositionen anderer Personen gefunden werden, die auf Aufmerksamkeitskarten wirken, z.B. durch Entmutigung potenzieller Trajektorien, die zu Kollisionen führen können.
  • Eine oder mehrere Ausführungsformen können sich auf die Erkenntnis stützen, dass die Kopfhaltung ein Ausdrucksmittel zum Auffinden von Gruppen in einer Menschenmenge sein kann, z.B. wird somit ermöglicht, Aufmerksamkeitsinformationen über die Gruppen in Form gemeinsamer VFOAs zu sammeln.
  • In einer oder mehreren Ausführungsformen können diese Elemente verwendet werden, um zu jedem Zeitpunkt Karten zu erstellen, die beim Entwerfen von Vorhersagemodellen für eine große Vielfalt von Trackern verwendet werden können. Eine oder mehrere Ausführungsformen können die Fähigkeit von Aufmerksamkeitskarten nutzen, um die Leistung von sozial getriebenen Trackern, z.B. Verfolgung durch Detektion, zu ermöglichen.
  • In einer oder mehreren Ausführungsformen kann eine robuste Echtzeit-Detektion von VFOA zusätzlich als Interaktionswerkzeug für die Mensch-Beleuchtung dienen, wodurch derzeitige Verfahren zur Steuerung der Beleuchtung einschließlich manueller Wandschalter an der Wand verbessert werden.
  • Während beispielsweise in herkömmlichen Beleuchtungssystemen viele Beleuchtungsvorrichtungen unabhängig voneinander mittels mehrerer Schalter gesteuert werden, kann in einer oder mehreren Ausführungsformen ein decodierter VFOA verwendet werden, um Beleuchtungsvorrichtungen durch Betrachten anzusprechen, was zu einem natürlicheren und intuitiveren Weg der Mensch-Beleuchtung-Interaktion führt.
  • Eine oder mehrere Ausführungsformen können das Kombinieren eines VFOA-Ansatzes zum Identifizieren einer zu steuernden Beleuchtungsvorrichtung umfassen und eine Beleuchtungssteuerungstechnik (Wandschalter oder beispielsweise eine Lightify™-Anordnung), um den Beleuchtungsstatus zu ändern, z.B. Schalten, Dimmen, Farbe und bietet damit die Möglichkeit, einen dekodierten VFOA zum Schalten von Licht anzuwenden.
  • In einer oder mehreren Ausführungsformen können ein VFOA mit einer gestenbasierten Steuerung kombiniert werden, um eine vollständige menschlicher Körper-basierende Beleuchtungssteuerung zu ermöglichen. Beispielsweise kann VFOA verwendet werden, um eine „Objekt“ -Beleuchtungsvorrichtung oder -quelle anzusprechen, während eine Handgeste verwendet werden kann, um dessen Status zu ändern, wodurch die Möglichkeit geboten wird, einen dekodierten VFOA in Verbindung mit einer gestenbasierten Steuerung anzuwenden.
  • Eine oder mehrere Ausführungsformen können das Tracking von Personen umfassen, indem ein visueller Aufmerksamkeits-Pyramidenstumpf (VFOA) als ein Vorhersagemodell in einem Tracking-Kontext verwendet wird.
  • In einer oder mehreren Ausführungsformen kann ein VFOA zum Sammeln plausibler Positionen von Fixierungen (nicht genau schätzbar in einem Überwachungsszenario, in dem die Kamera vom Menschen entfernt ist) genutzt werden, wodurch die Möglichkeit der Verwendung von VFOA als unterstützende Informationen ermöglicht wird, z.B. im Falle einer Umgebungsverdeckung.
  • Indem der allmähliche Abfall der Verarbeitungseffizienz um den Fokus der Aufmerksamkeit betrachtet wird, können eine oder mehrere Ausführungsformen einen VFOA mit geglätteten Grenzen anwenden.
  • Eine oder mehrere Ausführungsformen können annehmen, dass der Schnittpunkt des VFOA mit der Szene den wahrscheinlichen zukünftigen Pfad angibt, und im Fall von anderen Personen innerhalb des VFOA können diese zur Bestimmung möglicher Kollisionsbereiche verarbeitet werden, was mit einer bestimmten Anzahl vermieden wird Wahrscheinlichkeit.
  • In einer oder mehreren Ausführungsformen können Personen, die in Gruppen verteilt sind, als ein einziges Subjekt betrachtet werden (z. B. das Teilen einer recht ähnlichen Trajektorie mit einem ähnlichen Ziel), wobei ein erweitertes VFOA als Zusammenführung ihrer einzelnen VFOAs erhalten wird.
  • In einer oder mehreren Ausführungsformen kann ein eingegebenes visuelles Signal an ein Verarbeitungssystem (z. B. eine Verarbeitungspipeline) weitergeleitet werden, wobei die Kopforientierung eines Subjekts zuerst geschätzt wird, gefolgt von einer Sicht-Pyramidenstumpf-Formulierung basierend auf der Kopforientierung; eine probabilistische Aufmerksamkeitskarte (oder, in einer synonymen Bezeichnung, eine Aufmerksamkeitsmaske) kann dann basierend auf der Subjektorientierung, dem Ort und anderen Fußgängern in der Szene erstellt werden.
  • In einer oder mehreren Ausführungsformen kann somit die Verwendung des VFOA in einem Vorhersagemodell erfolgen.
  • Figurenliste
  • Eine oder mehrere Ausführungsformen werden nun lediglich beispielhaft unter Bezugnahme auf die beigefügten Figuren beschrieben, wobei:
    • - 1 ein Funktionsblockdiagramm ist, das eine oder mehrere Ausführungsformen darstellt, und
    • - 2 ein Ablaufdiagramm ist, das beispielhaft mögliche Schritte in einer oder mehreren Ausführungsformen zeigt.
  • Detaillierte Beschreibung
  • Im Folgenden werden ein oder mehrere spezifische Details veranschaulicht, die darauf abzielen, ein eingehendes Verständnis von Ausführungsformen zu vermitteln. Die Ausführungsformen können ohne eines oder mehrere der spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien usw. erhalten werden. In anderen Fällen werden bekannte Strukturen, Materialien oder Operationen nicht detailliert dargestellt oder beschrieben, so dass bestimmte Aspekte von Ausführungsformen nicht verdunkelt werden.
  • Die Bezugnahme auf „eine Ausführungsform“ oder „die Ausführungsform“ im Rahmen der vorliegenden Beschreibung soll angeben, dass eine bestimmte Konfiguration, Struktur oder Eigenschaft, die in Bezug auf die Ausführungsform beschrieben ist, in mindestens einer Ausführungsform enthalten ist. Daher können Ausdrücke wie „in einer Ausführungsform“ oder „in der Ausführungsform“ vorhanden sein, die in einem oder mehreren Punkten der vorliegenden Beschreibung vorhanden sind, sich nicht notwendigerweise auf ein und dieselbe Ausführungsform beziehen. Darüber hinaus können bestimmte Konformationen, Strukturen oder Eigenschaften in einer oder mehreren Ausführungsformen auf beliebige geeignete Weise kombiniert werden.
  • Die hierin verwendeten Referenzen dienen lediglich der Bequemlichkeit und definieren daher nicht den Schutzumfang oder den Umfang der Ausführungsformen. Eine oder mehrere Ausführungsformen können sich auf eine Signalverarbeitung stützen, die möglicherweise in einem System 1000 durchgeführt wird, das - in an sich bekannter Weise - geeignet ist, ein Bildsignal (z. B. ein digitales Videosignal) zu empfangen und zu verarbeiten, wie es von einer Bilderfassungsvorrichtung wie z.B. einer Kamera W bereitgestellt wird. Ein solches System 1000 kann (z. B. als Verarbeitungspipeline) auf eine Weise eingerichtet sein, um ein Verfahren zu implementieren, wie es im Folgenden beispielhaft dargestellt ist.
  • In einer oder mehreren Ausführungsformen kann ein solches Verfahren eine Anzahl von Schritten/Blöcken umfassen, wie in 1 beispielhaft dargestellt ist.
  • Kurz gesagt, in einer oder mehreren Ausführungsformen kann ein eingegebenes (z.B. digitales) visuelles Signal, wie es von einer Bilderfassungsvorrichtung W (z. B. einer Kamera) bereitgestellt wird, an eine Verarbeitungspipeline zugeführt werden, die ein Eingabe-Modul oder -Block 100 aufweist, dessen Ausgang an ein zweites Modul/einen zweiten Block 102 weitergeleitet wird, wobei die Kopforientierung eines Subjekts, die in dem von der Vorrichtung W erfassten Bildsignal enthalten ist, geschätzt werden kann. In einem nachfolgenden Modul/Block 104 kann ein Sicht-Pyramidenstumpf als eine Funktion der Kopforientierung wie geschätzt, formuliert werden. Schließlich kann in einem Modul/Block 106 eine Wahrscheinlichkeits-Aufmerksamkeitskarte (oder -maske) basierend auf der Subjektorientierung, dem Ort und Informationen zu anderen Fußgängern, die in der Szene enthalten sind, wie von der Bilderfassungsvorrichtung W betrachtet.
  • Die so erzeugte Wahrscheinlichkeits-Aufmerksamkeitskarte (Maske) kann von dem System 10 ausgegeben werden, z.B. zur Verwendung, wie im Folgenden weiter beschrieben wird, zum Beispiel zur Steuerung eines „intelligenten“ Beleuchtungssystems L.
  • Eine oder mehrere Ausführungsformen können somit folgende Schritte in Betracht ziehen:
    • - Weiterleiten eines eingegebenen visuellen Signals an eine Verarbeitungspipeline,
    • - Schätzen der Kopforientierung eines Subjekts,
    • - Formulieren eines Sicht-Pyramidenstumpfes basierend auf der geschätzten Kopforientierung,
    • - Erstellen einer Wahrscheinlichkeits-Aufmerksamkeitskarte (Maske) basierend auf der Subjektorientierung und dem Ort (und anderen möglichen Objekten, beispielsweise Fußgängern in der Szene).
  • Eine oder mehrere Ausführungsformen können folgende Schritte in Betracht ziehen, beispielsweise:
    • - Schätzen einer Kopfhaltung für ein Motiv, das in eine Szene eintritt, wie von einer Bilderfassungsvorrichtung (z. B. einer Kamera W) erfasst,
    • - Erzeugen einer Sicht-Pyramidenstumpf-Maske (Karte) als Funktion der Orientierung des Subjekts basierend auf der geschätzten Kopfhaltung;
    • - Erstellen einer Aufmerksamkeitskarte (Maske) für das Subjekt basierend auf dem Ort und der Orientierung des Subjekts und möglicherweise anderer Subjekte (z. B. Fußgänger) in der Szene.
  • Eine oder mehrere Ausführungsformen können folgende Schritte in Betracht ziehen beispielsweise:
    • - Erzeugen eines Signals, das repräsentativ für die Position und Orientierung eines Subjekts und anderer Subjekte in der Szene ist,
    • - Aufbau eines individuellen Pyramidenstumpfes davon,
    • -Aufbau eines Gruppen-Pyramidenstumpfs
    • -Aufbau eines Interaktions-Pyramidenstumpfs,
    • - Kumulieren einer Aufmerksamkeitskarte (Maske), um einen Zielpunkt D abzuleiten. Die Schätzung der Kopfhaltung ist aufgrund subtiler Unterschiede zwischen den menschlichen Haltungen eine inhärent herausfordernde Aufgabe.
  • Es wurden jedoch verschiedene Techniken entwickelt, die von Bildmerkmalen auf niedriger Ebene bis hin zu scheinbasierten Lernarchitekturen reichen, um das Problem der Schätzung der Kopfhaltung zu lösen.
  • Zum Beispiel offenbaren [33, 34] die Verwendung neuronaler Netzwerke zur Schätzung der Kopfhaltung.
  • In [11] wird ein randomisierter Farn-basierter Ansatz zur Abschätzung der Kopforientierung verwendet. Die Bezeichnung randomisierter Farn bezeichnet eine Erweiterung/Variation des Konzepts des zufälligen Farns (RF), mit Ausnahme der Tatsache, dass bei zufälligem Farn ein gleicher Test für alle Zweige mit der gleichen Tiefe verwendet wird, mit der Möglichkeit, dass Lösungen häufiger auftreten, die rechnerisch besser sein können als ein RF.
  • In einigen Fällen kann die Genauigkeit begrenzt sein, z.B. zu zwei Bildern derselben Person in verschiedenen Haltung, die ähnlicher erscheinen als zwei verschiedene Personen in derselben Pose. Das Berechnen von Bildmerkmalen niedriger Ebene in Bildern mit niedriger Auflösung kann inhärent schwierig sein und eine Lernarchitektur kann Verzerrungen enthalten, die auf positiven und negativen Proben basieren [35].
  • Eine oder mehrere Ausführungsformen können eine Technik anwenden, die der in [35] offenbarten ähnlich ist, um die Kopfhaltung in Modul/Block/Schritt 102 abzuschätzen.
  • Bei einer oder mehreren Ausführungsformen kann zum Beispiel ein Kopfbildfleck als eine Eingabe an eine Filterbank weitergeleitet werden. Die Antwort von der Filterbank kann spärlich sein und Gradienten- und Farbinformationen des eingegebenen Bildes enthalten. Die Dimensionalität der spärlichen Antwort kann von jedem Knoten des zufälligen Gesamtstruktur unter Verwendung einer zufälligen Projektion weiter komprimiert werden. Schließlich kann diese komprimierte Filterantwort unter Verwendung einer zufälligen Gesamtstruktur klassifiziert werden. Zum Training kann eine Kopfhaltung im Bereich von 0 ° bis 360 ° quantisiert werden, z.B. mit einem Abstand von 15 °, und zwar mit einer Granularität der Klassifizierung von bis zu 15 °.
  • In einer oder mehreren Ausführungsformen können Daten zufällig in Trainings- und Testsätze mit einem Trainer-Klassierer für manuell markierte Trainingsdaten aufgeteilt werden.
  • Schließlich kann Leistung des Klassierers an einem Test-Set ausgewertet werden. Zum Beispiel kann man eine Videosequenz von T Bild-Frames betrachten S = {It}t=i....T. Bei jedem Frame t kann angenommen werden, dass ein Satz von N Fußgängern erfasst und beschrieben wird durch ihre Position und Orientierung auf der Bodenebene Pt, i = [xt,i, yt,i, αt, i], i = 1... N.
  • Für jeden Fußgänger im Frame t kann ein persönlicher Pyramidenstumpf F P t , i
    Figure DE112017005182T5_0001
    als Gauß‘sche Verteilung der Variablen θ in Polarkoordinaten berechnet werden, mit dem Mittelwert αt,i und der Standardabweichung σ gilt: F P t , i ( x , y ) = 1 σ 2 π e | θ ^ α t , i | 2 σ 2
    Figure DE112017005182T5_0002
    wobei θ ^ = arctan ( y y t , i x x t , i x x t , i ) .
    Figure DE112017005182T5_0003
  • Wenn man davon ausgeht, dass Personen, die in einer Gruppe interagieren, auf einen gemeinsamen Zielpunkt zugehen, besteht die Möglichkeit, sie als einzelne Person zu behandeln, indem ihnen allen derselbe Gruppen-Pyramidenstumpf F G t , i
    Figure DE112017005182T5_0004
    zugewiesen wird, der als Durchschnitt aller persönlichen Pyramidenstümpfe der Individuen, die zu der Gruppe gehören, definiert ist: F G t , i = { 1 | G | j G F P t , j wenn  i G F P t , j sonst
    Figure DE112017005182T5_0005
    wobei G eine generische Gruppe interagierender Menschen ist.
  • Darüber hinaus kann man davon ausgehen, dass Personen, die versuchen, Kollisionen mit anderen Personen zu vermeiden, sich möglicherweise nicht auf ihren Zielort konzentrieren, wenn sich jemand in ihrer Sichtlinie befindet.
  • Somit kann man einen Interaktions-Pyramidenstumpf F I t , i
    Figure DE112017005182T5_0006
    erzeugen, indem man von dem Gruppen-Pyramidenstumpf des Subjekts alle Gruppen-Pyramidenstümpfe abzieht, die mit Fußgängern in Zusammenhang stehen:
  • (1) befinden sich im höchsten Bereich des Sicht-Pyramidenstumpfs des Subjekts, (2) richten ihren eigenen Pyramidenstumpf auf das Subjekt und (3) liegen näher als ein Abstandsschwellenwert.
  • Dies kann mathematisch ausgedrückt werden als: F I t , i = F G t , i j F G t , j d i j
    Figure DE112017005182T5_0007
    j : F G t , i ( x t , j , y t , j ) τ p
    Figure DE112017005182T5_0008
    und α t , i α t , j π  und  d i j τ d
    Figure DE112017005182T5_0009
    wobei dij der euklidische Abstand zwischen den Personenstandorten i und j ist, wobei Tp und Td zwei Schwellenwerte sind, deren Werte z.B. auf 0,8 und 2 Meter eingestellt sein können, gemäß z.B. soziologischer Literatur [36].
  • Die Interaktions-Pyramidenstümpfe eines einzelnen Subjekts, wie sie in Modul/Block/Schritt 104 in 1 erzeugt werden, können dann im Laufe der Zeit akkumuliert werden, um eine Aufmerksamkeitskarte oder -maske A t , i
    Figure DE112017005182T5_0010
    für jeden Fußgänger zum Zeitpunkt t zu erzeugen, wie z.B. durch: A t , i = τ = 1 t F I τ i ,
    Figure DE112017005182T5_0011
  • Basierend auf einer solchen Aufmerksamkeitsmaske kann ein plausibelster Zielpunkt Dt,i für den Pfad des spezifischen Fußgängers geschätzt werden, z.B. zur Verwendung bei der Vorhersage des nächsten Standorts.
  • In einer oder mehreren Ausführungsformen kann der Zielpunkt als der Peak (Maximum) der Aufmerksamkeitsmaske definiert sein.
  • In den Fällen, in denen die Aufmerksamkeitsmaske ein Mehrfachmodell ist (z. B. mehrere lokale Pixelmaxima aufweist), kann der Zielpunkt als der lokale Peak/das Maximum definiert werden, der besser mit der aktuellen Kopforientierung ausgerichtet ist: D t , i = argmax M θ ^ M , P t , i , α ^ t , i
    Figure DE112017005182T5_0012
    wobei M ein generischer lokaler Peak/ ein generisches lokales Maximum von A t , i ,
    Figure DE112017005182T5_0013
    α̂t,i ist ein Einheitsvektor mit Orientierung αt,i, θ̂M,P t,i ist ein Einheitsvektor mit Orientierung M - [xt,i, yt,i]T, und 〈·,·〉 repräsentiert das innere Produkt von zwei Vektoren im euklidischen Raum darstellt.
  • Das Blockschaltbild von 2 ist beispielhaft für eine mögliche Ausführungsform des gerade beschriebenen Prozesses.
  • Sobald in Schritt 200 Informationen über die Position und Orientierung aller Fußgänger in einer bestimmten Szene erfasst sind, kann in Schritt 202 ein persönlicher Pyramidenstumpf als eine Gauß‘sche Verteilung über die zuvor beschriebene Orientierung erzeugt werden.
  • Schritt 204 ist beispielhaft für eine Situation, in der z.B. zwei Fußgänger, nämlich Fußgänger 1 und Fußgänger 2 als zu derselben Gruppe gehörig erkannt werden, so dass ein Gruppen-Pyramidenstumpf durch Zusammenführen in einem Schritt 206 erzeugt werden kann, wie zuvor erläutert wurde.
  • Es wird dann angenommen, dass ein weiterer Fußgänger, beispielsweise Fußgänger 5, mit Fußgänger 1 interagiert, da er/sie die drei zuvor betrachteten Bedingungen erfüllt, und sein/ihr Pyramidenstumpf kann in einem Schritt 208 von dem des Subjekts subtrahiert werden.
  • Wie zuvor erörtert, kann eine Ansammlung auf der Aufmerksamkeitsmaske dann in einem Schritt 210 auftreten, um einen Zielpunkt D zu finden.
  • Die vorliegende Diskussion geht beispielsweise davon aus, dass andere Fußgänger in der Szene (zum Beispiel die Fußgänger 6 und 7) die erste Bedingung, die oben betrachtet wurde, möglicherweise nicht erfüllen, während andere Fußgänger, beispielsweise Fußgänger 3 und 4, die zweite und dritte Bedingung, die oben betrachtet wurden, nicht erfüllen.
  • Sobald die Aufmerksamkeitskarte oder -maske erzeugt wurde und der Zielpunkt geschätzt wurde, kann ein nächster Ort eines bestimmten Fußgängers vorhergesagt werden, z.B. in Schritt 212 durch Formulieren eines Energieminimierungsproblems. In diesem Zusammenhang kann man davon ausgehen, dass die Beschleunigung eines Fußgängers gering sein kann, wenn er mit der Bildrate einer Videosequenz verglichen wird, die von einer Bilderfassungsvorrichtung wie einer Kamera W erzeugt wird. Das bedeutet, dass sich die Geschwindigkeit des Fußgängers über die Frames hinweg gleichmäßig ändert, das gleiche gilt auch für die Kopforientierung.
  • Aus diesem Grund kann eine vernünftige Vorhersage eine lineare Funktion eines Zustandsvektors sein, der die aktuelle Fußgängerposition und Kopforientierung, die aktuelle Geschwindigkeit und die vorheresate Geschwindigkeit umfasst S t , i = [ x t , i , y t , i , α t , i , x ˙ t - 1 , i , y ˙ t - 1 , i , α ˙ t - 1 , i , x ˙ ^ t , i , y ˙ ^ t , i , α ˙ ^ t , i ] T
    Figure DE112017005182T5_0014
    so dass P ^ t + 1, i = [ 1 0 0 α 0 0 1 α 0 0 0 1 0 0 α 0 0 1 α 0 0 0 1 0 0 α 0 0 1 α ]   S t , i
    Figure DE112017005182T5_0015
  • Die Schätzung der vorhergesagten Geschwindigkeit kann dann als ein Energieminimierungsproblem formuliert werden.
  • Bei einer oder mehreren Ausführungsformen kann eine Kostenfunktion verwendet werden, die eine lineare Kombination von drei verschiedenen Ausdrücken ist:
    • - einen Personen-Interaktionsausdruck, der den Multi-Agent-Charakter des Systems berücksichtigt,
    • - einen Zielausdruck, der das Ziel jedes einzelnen Verhaltens berücksichtigt,
    • - einen konstante Geschwindigkeit-Ausdruck: C = I + w D D + w S S
      Figure DE112017005182T5_0016
  • In einer oder mehreren Ausführungsformen kann eine konstante Geschwindigkeit im Modell durch Definition des Begriffs S als quadratische Norm der Beschleunigung begünstigt (reguliert) werden: S = P ¨ ^ t , i 2
    Figure DE112017005182T5_0017
  • In einer oder mehreren Ausführungsformen kann der Zielausdruck das additive Inverse des Winkels sein, der zwischen dem Zielpunkt, dem aktuellen Ort und der vorhergesagten Geschwindigkeit enthalten ist: D = ( D t , i P t , i P ˙ ^ t , i )
    Figure DE112017005182T5_0018
  • Für das Interaktionspotential wurden in der Literatur verschiedene Modelle vorgeschlagen, die zumeist auf dem Konzept der sozialen Kraft basieren.
  • Beispielsweise können eine oder mehrere Ausführungsformen das in [18] dargestellte Vermeidungsmodell verwenden. In diesem Modell wird das Interaktionspotential als eine Abstoßungskraft dargestellt, die Vorhersagen bestraft, die Konfigurationen erzeugen, bei denen zwei Fußgänger näher als ein Komfort-Schwellenwert sind. Die zugrundeliegende Idee ist, dass eine Person einer anderen Person nicht erlauben würde, seinen/ihren persönlichen Bereich zu betreten; somit können Menschen beim Gehen ihre Geschwindigkeit anpassen, um zu verhindern, dass diese Art von Situation auftritt.
  • Aus mathematischer Sicht kann dieser Begriff zu einer gewichteten Summation über all die Einzelpersonen in der Szene (ohne Berücksichtigung des Subjekts selbst) des Abstandes zwischen den vorhergesagten Orten werden I = j i w j e d i j 2 2 α 2
    Figure DE112017005182T5_0019
    wobei d i j 2 = P ^ t , i ( P t , j P ˙ t 1. j ) 2
    Figure DE112017005182T5_0020
  • Die Robustheit eines solchen Vorhersagemodells kann validiert werden, indem es in zwei verschiedene Arten von Track-Ansätzen (z. B. einem Kalman-Filter-Ansatz und einem Partikelfilter-Ansatz) injiziert wird.
  • In einer oder mehreren Ausführungsformen kann die vorhergesagte Position einer Person mit hoher Wahrscheinlichkeit verwendet werden, die dem Suchbereich um die vorhergesagten Orte in den folgenden Frames zugeordnet ist, wodurch sie in der Lage ist, falsche Assoziationen durch einfaches Begrenzen des Suchbereiches zu unterdrücken (z. B. abzulehnen).
  • In einer oder mehreren Ausführungsformen kann die Verarbeitung, wie sie vorstehend hervorgehoben wurde, zur Beleuchtungssteuerung verwendet werden, z.B. zum Steuern des Betriebs einer oder mehrerer Beleuchtungsquellen (Vorrichtungen), die schematisch als L in 1 dargestellt sind. Während in 1 der Einfachheit halber eine einzige Beleuchtungsquelle oder -vorrichtung L angegeben ist, können eine oder mehrere Ausführungsformen zum Steuern von Beleuchtungssystemen angewendet werden einschließlich einer Vielzahl von Beleuchtungsquellen oder -vorrichtungen L.
  • Beispielsweise kann in einer oder mehreren Ausführungsformen, vorausgesetzt eine Person ist in einem Raum, der visuelle Aufmerksamkeits-Pyramidenstumpf (VFOA), wie er in Block/Modul/Schritt 106 von 1 erzeugt wird, decodiert werden, wodurch die Richtung identifiziert wird, in die die Person schaut.
  • Ein „Objekt“ -Licht im Raum kann dann identifiziert werden, das der Richtungslinie der VFOA der Person entspricht (z. B. ihr näher ist oder am nächsten ist).
  • In einer oder mehreren Ausführungsformen kann jede von einer Vielzahl von Beleuchtungsquellen/-vorrichtungen in einem Raum durch ihre Ortskoordinaten x, y identifiziert werden, so dass eine von der Person ausgehende und entlang des VFOA gerichtete Linie die Identifizierung einer Beleuchtungsquelle/-vorrichtung als die Vorrichtung ermöglicht, für die der Abstand des Punkts (Lichtposition) zur Linie (VFOA) in der Bodenebene der Karte minimal ist.
  • Der Abstand von einer generischen Linie ax + by + c = 0 zum Punkt (xo, yo) kann wie folgt geschätzt werden: d i s t ( a x + b y + c = 0, ( x o , y o ) ) = | a x o + b y o + c | a 2 + b 2
    Figure DE112017005182T5_0021
  • Die so identifizierte Beleuchtungsquelle/-vorrichtung kann dann mittels eines Steuersystems C gesteuert werden, das irgendeines umfassen kann von:
    • - ein Wandschalter: in diesem Fall, obwohl theoretisch „gemeinsam“ z.B. geteilt genutzt von einer Vielzahl Quellen/Vorrichtungen, beeinflusst der Wandschalter nur das „Objekt“ -Licht, das mittels des VFOA der Person identifiziert wird.
    • - ein mobiles Kommunikationsgerät wie z.B. ein Smartphone mit einer entsprechenden Anwendung (App): in diesem Fall können alle Befehle nur das Objekt-Licht beeinflussen, das mittels des VFOA der Person identifiziert wurde.
    • - einen menschliche Gesten-Sensor: solch ein Sensor kann z.B. ein bildbasiertes Haltung-Schätzungsverfahren zum Wiederherstellen der Position/Haltung der Person ausgehend von der Position des Körpers und der Gliedmaßen, wie sie erfasst werden, implementieren.
  • Zum Beispiel kann eine Anordnung wie „DeeperCut“, wie in [37] offenbart, in einer Ausführungsform zur Haltungsschätzung angewendet werden. Als Beispiel (ohne Wegfall der Allgemeinheit) kann man in Betracht ziehen, dass das Anheben und Absenken der rechten Hand eines Benutzers dazu führen kann, dass das mittels des VFOA des Benutzers identifizierte Objekt-Licht nach oben und unten gedimmt wird. In einer oder mehreren Ausführungsformen kann somit ermöglicht sein:
    • - Personen-Pfadvorhersage mittels der Verwendung des Sicht-Pyramidenstumpfs,
    • - Personen-Tracking mittels der Verwendung des Sicht-Pyramidenstumpfs,
    • - Personen-Aufmerksamkeitskarte (Maske)-Schätzung mittels der Verwendung des Sicht-Pyramidenstumpfs,
    • - Verwendung der Mensch-Beleuchtung-Interaktion.
  • Eine oder mehrere Ausführungsformen können eine Trajektorie-Vorhersage basierend auf VFOA bereitstellen.
  • Personen-Tracking basierend auf VFOA, z.B. mit Pfadvorhersage kann von einem engeren und robusteren Suchbereich profitieren: Die vorhergesagte Position einer Person in den folgenden Frames kann als Ausgangspunkt für die Suche nach einem neuen wahren Ort einer Person verwendet werden.
  • Eine oder mehrere Ausführungsformen können Personen-Aufmerksamkeitskarten-Schätzung basierend auf einem Sicht-Pyramidenstumpf bereitstellen.
  • Zum Beispiel kann ein rückläufiger VFOA die Schätzung einer Szene-Aufmerksamkeitskarte ermöglichen (z. B. eine normalisierte VFOA-Karte, die die VFOA aller Fußgänger in einer Szene summiert). Dies kann die Aufmerksamkeits-Foki der Menschen in der Szene hervorheben, d.h. welche Bereiche in einem beobachteten Bild meistens und wahrscheinlicher betrachtet werden.
  • Eine oder mehrere Ausführungsformen können die Verwendung von VFOA zur Mensch-Beleuchtung-Wechselwirkung bereitstellen. Zum Beispiel kann eine Objekt-Beleuchtungsquelle/-vorrichtung auf einer Karte als die Quelle/Vorrichtung identifiziert werden, an die Steuerbefehle (z. B. mittels eines Wandschalters, einer intelligenten App oder über menschliche Gesten) gerichtet werden, z.B. durch „Routing“ der Aktion eines Schalters zu einer „visuell“ anvisierten Leuchte.
  • Eine oder mehrere Ausführungsformen können ein Verfahren bereitstellen, das ein Empfangen (z. B. 100) von mindestens einem Bildsensor (z. B. einer Digitalkamera W) eines Bildsignals, das die Kopfhaltung von mindestens einer Person anzeigt, umfasst, wobei das Verfahren die Verarbeitung des Bildsignals umfasst durch:
    • - Schätzen (z. B. 102) der Kopfhaltung der mindestens einen Person als Funktion des von mindestens einem Bildsensor empfangenen Bildsignals;
    • - Erzeugen (z. B. 104) eines Sicht-Pyramidenstumpfs der mindestens einen Person aus der geschätzten Kopfhaltung;
    • - Erzeugen (z. B. 106) eines visuellen Aufmerksamkeits-Pyramidenstumpfes oder VFOA der mindestens einen Person aus dem Sicht-Pyramidenstumpf, und
    • - Erzeugen von mindestens einem der folgenden Punkte aus dem visuellen Aufmerksamkeits-Pyramidenstumpf:
    • - eine vorhergesagte Bewegungstrajektorie der mindestens einen Person oder
    • - eine geschätzte Szene-Aufmerksamkeitskarte für die mindestens eine Person als Funktion des visuellen Aufmerksamkeits-Pyramidenstumpfs.
  • Eine oder mehrere Ausführungsformen können das Tracking der mindestens einen Person als Funktion der vorhergesagten Bewegungstrajektorie umfassen, z.B. zum automatischen Aktivieren von Beleuchtungsvorrichtungen entlang seines oder ihres Bewegungspfades.
  • Eine oder mehrere Ausführungsformen können das Identifizieren von mindestens einem zu steuernden Objekt (z. B. einer Beleuchtungsvorrichtung L) in der Aufmerksamkeitskarte umfassen.
  • Eine oder mehrere Ausführungsformen können das Steuern mindestens eines in der Aufmerksamkeitskarte identifizierten Objekts mittels einer Steuerungsvorrichtung (z.B. C) umfassen.
  • Eine oder mehrere Ausführungsformen können das Identifizieren von mindestens einer zu steuernden Beleuchtungsvorrichtung in der Aufmerksamkeitskarte umfassen.
  • Eine oder mehrere Ausführungsformen können das Steuern der mindestens einen Beleuchtungsvorrichtung durch eine Steuerungsvorrichtung umfassen, wobei die Steuerungsvorrichtung optional eines der folgenden Elemente umfasst:
    • - einen Schalter,
    • - ein mobiles Kommunikationsgerät,
    • - einen menschlicher Gesten-Sensor.
  • Eine oder mehrere Ausführungsformen können umfassen:
    • - Bereitstellen einer Vielzahl von Beleuchtungsvorrichtungen, die von einer Steuerungsvorrichtung gesteuert werden können,
    • - Identifizieren von mindestens einer Beleuchtungsvorrichtung in der Aufmerksamkeitskarte, die in der Vielzahl von Beleuchtungsvorrichtungen zu steuern ist, und
    • - Steuern der Beleuchtungsvorrichtung, die in der Vielzahl von
  • Beleuchtungsvorrichtungen in der Aufmerksamkeitskarte identifiziert ist, mittels der einen Steuerungsvorrichtung.
  • Eine oder mehrere Ausführungsformen können für eine Vielzahl von Personen in einer Szene Folgendes umfassen:
    • - Erzeugen (z. B. 202) jeweiliger persönlicher Sicht-Pyramidenstümpfe für die Vielzahl von Personen,
    • - Berechnen (z. B. 204) eines durchschnittlichen Gruppen-Sicht-Pyramidenstumpfs der jeweiligen persönlichen Pyramidenstümpfe einer Gruppe von Personen in der Vielzahl von Personen,
    • - Erzeugen (z. B. 206) eines Interaktions-Pyramidenstumpfes für eine Person in der Gruppe durch Subtrahieren der Sicht-Pyramidenstümpfe der Personen in der Gruppe von dem Gruppen-Pyramidenstumpf, die:
    • - i) sich im höchsten Bereich des Sicht-Pyramidenstumpfes der einen Person befinden,
    • - ii) ihren Sicht-Pyramidenstumpf auf die eine Person richten, und
    • - iii) näher als ein Abstandsschwellenwert zu der einen Person sind, und
    • - Kumulieren des Interaktions-Pyramidenstumpfes für die eine Person mit der Zeit, wodurch eine Aufmerksamkeitskarte für die eine Person erzeugt wird.
  • Eine oder mehrere Ausführungsformen können das Berechnen eines geschätzten Zielpunkts für die eine Person als einen Peak der Aufmerksamkeitskarte umfassen. Eine oder mehrere Ausführungsformen können umfassen:
    • - Erfassen der Kopforientierung der einen Person, und
    • - Berechnen des geschätzten Zielpunkts als Peak in der Aufmerksamkeitskarte, der der erkannten Kopforientierung am besten entspricht.
  • Eine oder mehrere Ausführungsformen können das Tracking der einen Person umfassen durch:
    • - Bereitstellen einer Aufmerksamkeitskarte und eines geschätzten Zielpunkts für die eine Person, und
    • - Vorhersagen eines nächsten Orts für die eine Person als Funktion, gegebenenfalls als lineare Funktion, des aktuellen Orts, der Kopfhaltung, der aktuellen Geschwindigkeit und einer vorhergesagten Geschwindigkeit der einen Person.
  • Eine oder mehrere Ausführungsformen können ein System bereitstellen, aufweisend:
    • - mindestens einen Bildsensor (z. B. eine Kamera W) zum Erzeugen eines Bildsignals, das die Kopfhaltung mindestens einer Person angibt,
    • - ein Verarbeitungssystem (z. B. 1000), das mit dem mindestens einen Bildsensor gekoppelt ist, um von dem mindestens einen Bildsensor das Bildsignal zu empfangen, wobei das Verarbeitungssystem zum Verarbeiten des Bildsignals gemäß einer oder mehreren Ausführungsformen konfiguriert ist.
  • Eine oder mehrere Ausführungsformen können sich auf ein Computerprogrammprodukt beziehen, das in mindestens ein Verarbeitungssystem (z. B. das System 1000) geladen werden kann und Softwarecodeabschnitte zum Durchführen des Verfahrens nach einer oder mehreren Ausführungsformen enthält, wenn das Produkt auf mindestens einem Verarbeitungssystem ausgeführt wird.
  • LISTE DER ZITIERTEN DRUCKSCHRIFTEN
    • [1] Roberto Valenti, Nicu Sebe, und Theo Gevers, „Combining head Haltung and Augen location information for gaze estimation" IEEE Transactions on Image Processing, vol. 21, no. 2, pp. 802-815, 2012.
    • [2] Gabriele Fanelli, Juergen Gall, und Luc Van Gool, „Real time head Haltung estimation with random regression forests" in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011.
    • [3] N. Robertson und I. Reid, „Estimating gaze direction from low-resolution faces in video" in European Conference on Computer Vision (ECCV), 2006.
    • [4] Diego Tosato, Mauro Spera, Matteo Cristani, und Vittorio Murino, „Characterizing humans on riemannian manifolds" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1972-1984, 2013.
    • [5] Elisa Ricci, Jagannadan Varadarajan, Ramanathan Subramanian, Samuel Rota Bulò, Narendra Ahuja, und Oswald Lanz, „Uncovering interactions and interactors: Joint estimation of head, body orientation and formations from surveillance videos" in IEEE International Conference on Computer Vision (ICCV), 2015.
    • [6] SilAugen O. Ba und Jean-Marc Odobez, „A probabilistic framework for joint head tracking and Haltung estimation" in IEEE International Conference on Pattern Recognition (ICPR), 2004.
    • [7] Kevin Smith, SilAugen O. Ba, Jean-Marc Odobez, und Daniel Gatica-Perez, „Tracking the visual focus of attention for a varying number of wandering people" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 7, pp. 1212-1229, 2008.
    • [8] Jelena Jovancevic-Misic und Mary Hayhoe, „Adaptive gaze control in natural environments" The Journal of Neuroscience, vol. 29, no. 19, pp. 6234-6238, 2009.
    • [9] T. Taylor, A. K. Pradhan, G. Divekar, M. Romoser, J. Muttart, R. Gomez, A. Pollatsek, und D. L. Fisher, „The view from the road: The contribution of on-road glance-monitoring technologies to understanding driver behavior" Accident Analysis & Prevention, vol. 58, pp. 175-186, 2013.
    • [10] Geoffrey Underwood, Nicola Phelps, Chloe Wright, Editha Van Loon, und Adam Galpin, „Augen fixation scanpaths of younger and older drivers in a hazard perception task" Ophthalmic and Physiological Optics, vol. 25, no. 4, pp. 346-356, 2005.
    • [11] Ben Benfold und lan Reid, „Guiding visual surveillance by tracking human attention" in British Machine Vision Conference (BMVC), 2009, pp. 1-11.
    • [12] Francesco Setti, Chris Russell, Chiara Bassetti, und Marco Cristani, „F-formation detection: Individuating free-standing conversational groups in images" PLoS ONE, vol. 10, no. 5, pp. 1-26, Mai 2015.
    • [13] J. F. Caminada und W. J. M. van Bommel, „Philips engineering report 43", 1980.
    • [14] S. Fotios, J. Uttley, C. Cheal, und N. Hara, „Using Augen-Tracking to identify pedestrians critical visual tasks, Part 1. Dual task approach" Lighting Research and Technology, vol. 47, no. 2, pp. 133-148, 2015.
    • [15] S. Fotios, J. Uttley, und B. Yang, „Using Augen-tracking to identify pedestrians' critical visual tasks. part 2. Fixation on pedestrians" Lighting Research and Technology, vol. 47, no. 2, pp. 149-160, 2015.
    • [16] Aftab E. Patla und Joan N. Vickers, „How far ahead do we look when required to step on specific locations in the travel path during locomotion?" Experimental brain research, vol. 148, no. 1, pp. 133-138, 2003.
    • [17] Daniel S. Marigold und Aftab E. Patla, „Gaze fixation patterns for negotiating complex ground terrain" Neuroscience, vol. 144, no. 1, pp. 302-313, 2007.
    • [18] Stefano Pellegrini, Andreas Ess, K. Schindler, und Luc Van Gool, „You‘ll never walk alone: Modeling social behavior for multi-target tracking" in IEEE International Conference on Computer Vision (ICCV), Sept. 2009, pp. 261-268.
    • [19] Andreas Geiger, Martin Lauer, Christian Wojek, Christoph Stiller, und Raquel Urtasun, „3d traffic scene understanding from movable platforms" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 5, pp. 1012-1025, May 2014.
    • [20] OSRAM, „Lightify - smart connected light“ http://www.osram.com/osramcom/toolsand-services/tools/lightify---smart-connected-light/.light=.
    • [21] Pieter Vansteenkiste, Greet Cardon, Eva D'Hondt, Renaat Philippaerts, und Matthieu Lenoir, „The visual control of bicycle steering: The effects of speed and path width" Accident Analysis & Prevention, vol. 51, pp. 222-227, 2013.
    • [22] Tom Foulsham, Esther Walker, und Alan Kingstone, „The where, what and when of gaze allocation in the lab and the natural environment" Vision research, vol. 51, no. 17, pp. 1920-1931, 2011.
    • [23] N. Davoudian und P. Raynham, „What do pedestrians look at at night?" Lighting Research and Technology, p.1477153512437157, 2012.
    • [24] Tom Foulsham, James Farley, und Alan Kingstone, „Mind wandering in sentence reading: Decoupling the link between mind and Augen" Canadian Journal of Experimental Psychology/Revue canadienne de psychologie experimentale, vol. 67, no. 1, pp. 51, 2013.
    • [25] Umberto Castiello und Carlo Umilta, „Size of the attentional focus and efficiency of processing," Acta psychologica, vol. 73, no. 3, pp. 195-209, 1990.
    • [26] Adam Kendon, „Some functions of gaze-direction in social interaction," Acta psychologica, vol. 26, pp. 22-63, 1967.
    • [27] Adam Kendon, Conducting interaction: Patterns of behavior in focused encounters, vol. 7, CUP Archive, 1990.
    • [28] Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, und Vittorio Murino, „Social interactions by visual focus of attention in a three-dimensional environment" Expert Systems, vol. 30, no. 2, pp. 115-127, 2013.
    • [29] N. M. Robertson und I. D. Reid, „Automatic reasoning about causal events in surveillance video" EURASIP Journal on Image and Video Processing, 2011.
    • [30] Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, und Vittorio Murino, „Social interaction discovery by statistical analysis of f-formations" in British Machine Vision Conference (BMVC), 2011, pp. 23.1-23.12.
    • [31] Sebastiano Vascon, Eyasu z.B. Mequanint, Marco Cristani, Hayley Hung, Marcello Pelillo, und Vittorio Murino, „Detecting conversational groups in images and sequences: A robust game-theoretic approach" Computer Vision and Image Understanding, vol. 143, pp. 11-24, 2016.
    • [32] Lu Zhang und Hayley Hung, „Beyond f-formations: Determining social involvement in free standing conversing groups from static images," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
    • [33] Nicolas Gourier, Jeröme Maisonnasse, Daniela Hall, und James L Crowley, „Head Haltung estimation on low resolution images" in International Evaluation Workshop on Classification of Events, Activities and Relationships. Springer, 2006, pp. 270-280.
    • [34] Michael Voit, Kai Nickel, und Rainer Stiefelhagen, „A bayesian approach for multiview head Haltung estimation" in 2006 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems. IEEE, 2006, pp. 31-34.
    • [35] Donghoon Lee, Ming-Hsuan Yang, und Songhwai Oh, „Fast and accurate head Haltung estimation via random projection forests" in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1958-1966.
    • [36] Stephanos loannou, Paul Morris, Hayley Mercer, Marc Baker, Vittorio Gallese, und Vasudevi Reddy, „Nähe and gaze influences facial temperature: a thermal infrared imaging study", Towards an embodied science of intersubjectivity: Widening the scope of social understanding research, p. 178, 2015.
    • [37] Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, und Bernt Schiele, „Deepercut: A deeper, stronger, and faster multi-person Haltung estimation model," in ECCV, 2016. Unbeschadet der unterstrichenen Prinzipien können die Details und Ausführungsformen sogar in Bezug auf das, was nur als Beispiel beschrieben wurde, erheblich variieren, ohne vom Schutzumfang abzuweichen.
  • Der Schutzumfang wird durch die beigefügten Ansprüche definiert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Roberto Valenti, Nicu Sebe, und Theo Gevers, „Combining head Haltung and Augen location information for gaze estimation“ IEEE Transactions on Image Processing, vol. 21, no. 2, pp. 802-815, 2012 [0118]
    • Gabriele Fanelli, Juergen Gall, und Luc Van Gool, „Real time head Haltung estimation with random regression forests“ in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011 [0118]
    • N. Robertson und I. Reid, „Estimating gaze direction from low-resolution faces in video“ in European Conference on Computer Vision (ECCV), 2006 [0118]
    • Diego Tosato, Mauro Spera, Matteo Cristani, und Vittorio Murino, „Characterizing humans on riemannian manifolds“ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1972-1984, 2013 [0118]
    • Elisa Ricci, Jagannadan Varadarajan, Ramanathan Subramanian, Samuel Rota Bulò, Narendra Ahuja, und Oswald Lanz, „Uncovering interactions and interactors: Joint estimation of head, body orientation and formations from surveillance videos“ in IEEE International Conference on Computer Vision (ICCV), 2015 [0118]
    • SilAugen O. Ba und Jean-Marc Odobez, „A probabilistic framework for joint head tracking and Haltung estimation“ in IEEE International Conference on Pattern Recognition (ICPR), 2004 [0118]
    • Kevin Smith, SilAugen O. Ba, Jean-Marc Odobez, und Daniel Gatica-Perez, „Tracking the visual focus of attention for a varying number of wandering people“ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 7, pp. 1212-1229, 2008 [0118]
    • Jelena Jovancevic-Misic und Mary Hayhoe, „Adaptive gaze control in natural environments“ The Journal of Neuroscience, vol. 29, no. 19, pp. 6234-6238, 2009 [0118]
    • T. Taylor, A. K. Pradhan, G. Divekar, M. Romoser, J. Muttart, R. Gomez, A. Pollatsek, und D. L. Fisher, „The view from the road: The contribution of on-road glance-monitoring technologies to understanding driver behavior“ Accident Analysis & Prevention, vol. 58, pp. 175-186, 2013 [0118]
    • Geoffrey Underwood, Nicola Phelps, Chloe Wright, Editha Van Loon, und Adam Galpin, „Augen fixation scanpaths of younger and older drivers in a hazard perception task“ Ophthalmic and Physiological Optics, vol. 25, no. 4, pp. 346-356, 2005 [0118]
    • Ben Benfold und lan Reid, „Guiding visual surveillance by tracking human attention“ in British Machine Vision Conference (BMVC), 2009, pp. 1-11 [0118]
    • Francesco Setti, Chris Russell, Chiara Bassetti, und Marco Cristani, „F-formation detection: Individuating free-standing conversational groups in images“ PLoS ONE, vol. 10, no. 5, pp. 1-26, Mai 2015 [0118]
    • J. F. Caminada und W. J. M. van Bommel, „Philips engineering report 43“, 1980 [0118]
    • S. Fotios, J. Uttley, C. Cheal, und N. Hara, „Using Augen-Tracking to identify pedestrians critical visual tasks, Part 1. Dual task approach“ Lighting Research and Technology, vol. 47, no. 2, pp. 133-148, 2015 [0118]
    • S. Fotios, J. Uttley, und B. Yang, „Using Augen-tracking to identify pedestrians' critical visual tasks. part 2. Fixation on pedestrians“ Lighting Research and Technology, vol. 47, no. 2, pp. 149-160, 2015 [0118]
    • Aftab E. Patla und Joan N. Vickers, „How far ahead do we look when required to step on specific locations in the travel path during locomotion?“ Experimental brain research, vol. 148, no. 1, pp. 133-138, 2003 [0118]
    • Daniel S. Marigold und Aftab E. Patla, „Gaze fixation patterns for negotiating complex ground terrain“ Neuroscience, vol. 144, no. 1, pp. 302-313, 2007 [0118]
    • Stefano Pellegrini, Andreas Ess, K. Schindler, und Luc Van Gool, „You‘ll never walk alone: Modeling social behavior for multi-target tracking“ in IEEE International Conference on Computer Vision (ICCV), Sept. 2009, pp. 261-268 [0118]
    • Andreas Geiger, Martin Lauer, Christian Wojek, Christoph Stiller, und Raquel Urtasun, „3d traffic scene understanding from movable platforms“ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 5, pp. 1012-1025, May 2014 [0118]
    • Pieter Vansteenkiste, Greet Cardon, Eva D'Hondt, Renaat Philippaerts, und Matthieu Lenoir, „The visual control of bicycle steering: The effects of speed and path width“ Accident Analysis & Prevention, vol. 51, pp. 222-227, 2013 [0118]
    • Tom Foulsham, Esther Walker, und Alan Kingstone, „The where, what and when of gaze allocation in the lab and the natural environment“ Vision research, vol. 51, no. 17, pp. 1920-1931, 2011 [0118]
    • N. Davoudian und P. Raynham, „What do pedestrians look at at night?“ Lighting Research and Technology, p.1477153512437157, 2012 [0118]
    • Tom Foulsham, James Farley, und Alan Kingstone, „Mind wandering in sentence reading: Decoupling the link between mind and Augen“ Canadian Journal of Experimental Psychology/Revue canadienne de psychologie experimentale, vol. 67, no. 1, pp. 51, 2013 [0118]
    • Umberto Castiello und Carlo Umilta, „Size of the attentional focus and efficiency of processing,“ Acta psychologica, vol. 73, no. 3, pp. 195-209, 1990 [0118]
    • Adam Kendon, „Some functions of gaze-direction in social interaction,“ Acta psychologica, vol. 26, pp. 22-63, 1967 [0118]
    • Adam Kendon, Conducting interaction: Patterns of behavior in focused encounters, vol. 7, CUP Archive, 1990 [0118]
    • Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, und Vittorio Murino, „Social interactions by visual focus of attention in a three-dimensional environment“ Expert Systems, vol. 30, no. 2, pp. 115-127, 2013 [0118]
    • N. M. Robertson und I. D. Reid, „Automatic reasoning about causal events in surveillance video“ EURASIP Journal on Image and Video Processing, 2011 [0118]
    • Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, und Vittorio Murino, „Social interaction discovery by statistical analysis of f-formations“ in British Machine Vision Conference (BMVC), 2011, pp. 23.1-23.12 [0118]
    • Sebastiano Vascon, Eyasu z.B. Mequanint, Marco Cristani, Hayley Hung, Marcello Pelillo, und Vittorio Murino, „Detecting conversational groups in images and sequences: A robust game-theoretic approach“ Computer Vision and Image Understanding, vol. 143, pp. 11-24, 2016 [0118]
    • Lu Zhang und Hayley Hung, „Beyond f-formations: Determining social involvement in free standing conversing groups from static images,“ in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [0118]
    • Nicolas Gourier, Jeröme Maisonnasse, Daniela Hall, und James L Crowley, „Head Haltung estimation on low resolution images“ in International Evaluation Workshop on Classification of Events, Activities and Relationships. Springer, 2006, pp. 270-280 [0118]
    • Michael Voit, Kai Nickel, und Rainer Stiefelhagen, „A bayesian approach for multiview head Haltung estimation“ in 2006 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems. IEEE, 2006, pp. 31-34 [0118]
    • Donghoon Lee, Ming-Hsuan Yang, und Songhwai Oh, „Fast and accurate head Haltung estimation via random projection forests“ in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1958-1966 [0118]
    • Stephanos loannou, Paul Morris, Hayley Mercer, Marc Baker, Vittorio Gallese, und Vasudevi Reddy, „Nähe and gaze influences facial temperature: a thermal infrared imaging study“, Towards an embodied science of intersubjectivity: Widening the scope of social understanding research, p. 178, 2015 [0118]
    • Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, und Bernt Schiele, „Deepercut: A deeper, stronger, and faster multi-person Haltung estimation model,“ in ECCV, 2016 [0118]

Claims (13)

  1. Verfahren, aufweisend ein Empfangen (100) von mindestens einem Bildsensor (W) eines Bildsignals, das die Kopfhaltung mindestens einer Person angibt, wobei das Verfahren das Verarbeiten des Bildsignals aufweist durch: - Schätzen (102), als Funktion des Bildsignals, das von dem mindestens einen Bildsensor (W) empfangen (100) wurde, der Kopfhaltung der mindestens einen Person, - Erzeugen (104) eines Sicht-Pyramidenstumpfes der mindestens einen Person aus der geschätzten Kopfhaltung; - Erzeugen (106) eines visuellen Aufmerksamkeits-Pyramidenstumpfes oder VFOA der mindestens einen Person aus dem Sicht-Pyramidenstumpf, und - Erzeugen von mindestens einem des Folgenden aus dem visuellen Aufmerksamkeits-Pyramidenstumpf: - eine vorhergesagte Bewegungstrajektorie der mindestens einen Person oder - eine geschätzte Aufmerksamkeitskarte für die mindestens eine Person als Funktion des visuellen Aufmerksamkeits-Pyramidenstumpfes.
  2. Verfahren nach Anspruch 1, aufweisend das Tracking der mindestens einen Person als Funktion der vorhergesagten Bewegungstrajektorie.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, aufweisend ein Identifizieren von mindestens einem zu steuernden Objekt (L) in der Aufmerksamkeitskarte (C).
  4. Verfahren nach Anspruch 3, aufweisend ein Steuern des mindestens einen Objekts (L), das in der Aufmerksamkeitskarte identifiziert wurde, mittels einer Steuerungsvorrichtung (C).
  5. Verfahren nach Anspruch 3 oder Anspruch 4, aufweisend ein Identifizieren von mindestens einer zu steuernden Beleuchtungsvorrichtung (L) in der Aufmerksamkeitskarte.
  6. Verfahren nach Anspruch 5, aufweisend das Steuern der mindestens einen Beleuchtungsvorrichtung (L) mittels einer Steuerungsvorrichtung (C), wobei die Steuerungsvorrichtung (C) vorzugsweise eines des Folgenden aufweist: - ein Schalter, - ein mobiles Kommunikationsgerät, - einen menschliche Gesten-Sensor.
  7. Verfahren nach Anspruch 5 oder Anspruch 6, aufweisend: - Bereitstellen einer Vielzahl von Beleuchtungsvorrichtungen (L), die von einer Steuerungsvorrichtung (C) steuerbar sind, - Identifizieren von mindestens einer zu steuernden Beleuchtungsvorrichtung (L) in der Aufmerksamkeitskarte in der Vielzahl von Beleuchtungsvorrichtungen, und - Steuern der Beleuchtungsvorrichtung, die in der Vielzahl von Beleuchtungsvorrichtungen in der Aufmerksamkeitskarte identifiziert wurde, mittels der einen Steuerungsvorrichtung (C).
  8. Verfahren nach einem der vorhergehenden Ansprüche, aufweisend für eine Vielzahl von Personen in einer Szene: - Erzeugen (202) eines jeweiligen persönlichen Sicht-Pyramidenstumpfs für jede Person der Vielzahl von Personen, - Berechnen (204) eines durchschnittlichen Gruppen-Sicht-Pyramidenstumpfs der jeweiligen persönlichen Pyramidenstümpfe einer Gruppe von Personen der Vielzahl von Personen, - Erzeugen (206) eines Interaktions-Pyramidenstumpfes für eine Person in der Gruppe durch Subtrahieren der Sicht-Pyramidenstümpfe der Personen in der Gruppe von dem Gruppen-Pyramidenstumpf, die - i) sich im höchsten Bereich des Sicht-Pyramidenstumpfes der einen Person sind, - ii) ihren Sicht-Pyramidenstumpf auf die eine Person richten, und - iii) näher als ein Abstandsschwellenwert zu der einen Person liegen und - Kumulieren des Interaktions-Pyramidenstumpfes für die eine Person mit der Zeit, wodurch eine Aufmerksamkeitskarte für die eine Person erzeugt wird.
  9. Verfahren nach Anspruch 8, aufweisend das Berechnen eines geschätzten Zielpunkts für eine Person als einen Peak der Aufmerksamkeitskarte.
  10. Verfahren nach Anspruch 9, aufweisend: - Erfassen (102) der Kopforientierung der einen Person und - Berechnen des geschätzten Zielpunkts als Spitze in der Aufmerksamkeitskarte, die der erkannten Kopforientierung am besten entspricht (102).
  11. Verfahren nach Anspruch 9 oder 10, aufweisend das Tracking der einen Person durch: - Bereitstellen einer Aufmerksamkeitskarte und eines geschätzten Zielpunkts für die eine Person, und - Vorhersagen einer nächsten Position für die eine Person als Funktion, vorzugsweise als lineare Funktion, der aktuellen Position, der Kopfhaltung, der aktuellen Geschwindigkeit und einer vorhergesagten Geschwindigkeit der einen Person.
  12. System aufweisend: - mindestens einen Bildsensor (W) zum Erzeugen eines Bildsignals, das die Kopfhaltung mindestens einer Person angibt, - ein Verarbeitungssystem (1000), das mit dem mindestens einen Bildsensor (W) gekoppelt ist, um von dem mindestens einen Bildsensor (W) das Bildsignal zu empfangen, wobei das Verarbeitungssystem (1000) zum Verarbeiten des Bildsignals gemäß dem Verfahren nach einem der Ansprüche 1 bis 11 eingerichtet ist.
  13. Computerprogrammprodukt, das in den Speicher mindestens eines Verarbeitungssystems (1000) ladbar ist und einen Softwarecodeabschnitt zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 11 enthält, wenn das Produkt auf mindestens einem Verarbeitungssystem ausgeführt wird.
DE112017005182.7T 2016-10-13 2017-10-10 Ein Verfahren zur Sicht-Pyramidenstumpf-Detektion, entsprechendes System und Computerprogrammprodukt Active DE112017005182T8 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT102016000103076 2016-10-13
IT102016000103076A IT201600103076A1 (it) 2016-10-13 2016-10-13 Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti
PCT/IB2017/056244 WO2018069826A1 (en) 2016-10-13 2017-10-10 A method of view frustum detection, corresponding system and computer program product

Publications (2)

Publication Number Publication Date
DE112017005182T5 true DE112017005182T5 (de) 2019-07-04
DE112017005182T8 DE112017005182T8 (de) 2019-11-07

Family

ID=57796894

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017005182.7T Active DE112017005182T8 (de) 2016-10-13 2017-10-10 Ein Verfahren zur Sicht-Pyramidenstumpf-Detektion, entsprechendes System und Computerprogrammprodukt

Country Status (4)

Country Link
US (1) US11175733B2 (de)
DE (1) DE112017005182T8 (de)
IT (1) IT201600103076A1 (de)
WO (1) WO2018069826A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7737965B2 (en) * 2005-06-09 2010-06-15 Honeywell International Inc. Handheld synthetic vision device
WO2013173728A1 (en) * 2012-05-17 2013-11-21 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for unified scene acquisition and pose tracking in a wearable display
CA3160567A1 (en) * 2013-03-15 2014-09-18 Magic Leap, Inc. Display system and method
KR102077105B1 (ko) * 2013-09-03 2020-02-13 한국전자통신연구원 사용자 인터랙션을 위한 디스플레이를 설계하는 장치 및 방법
US9727136B2 (en) * 2014-05-19 2017-08-08 Microsoft Technology Licensing, Llc Gaze detection calibration
WO2016017945A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Mobile device and method of pairing the same with electronic device

Non-Patent Citations (36)

* Cited by examiner, † Cited by third party
Title
Adam Kendon, „Some functions of gaze-direction in social interaction," Acta psychologica, vol. 26, pp. 22-63, 1967
Adam Kendon, Conducting interaction: Patterns of behavior in focused encounters, vol. 7, CUP Archive, 1990
Aftab E. Patla und Joan N. Vickers, „How far ahead do we look when required to step on specific locations in the travel path during locomotion?" Experimental brain research, vol. 148, no. 1, pp. 133-138, 2003
Andreas Geiger, Martin Lauer, Christian Wojek, Christoph Stiller, und Raquel Urtasun, „3d traffic scene understanding from movable platforms" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 5, pp. 1012-1025, May 2014
Ben Benfold und lan Reid, „Guiding visual surveillance by tracking human attention" in British Machine Vision Conference (BMVC), 2009, pp. 1-11
Daniel S. Marigold und Aftab E. Patla, „Gaze fixation patterns for negotiating complex ground terrain" Neuroscience, vol. 144, no. 1, pp. 302-313, 2007
Diego Tosato, Mauro Spera, Matteo Cristani, und Vittorio Murino, „Characterizing humans on riemannian manifolds" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1972-1984, 2013
Donghoon Lee, Ming-Hsuan Yang, und Songhwai Oh, „Fast and accurate head Haltung estimation via random projection forests" in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1958-1966
Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, und Bernt Schiele, „Deepercut: A deeper, stronger, and faster multi-person Haltung estimation model," in ECCV, 2016
Elisa Ricci, Jagannadan Varadarajan, Ramanathan Subramanian, Samuel Rota Bulò, Narendra Ahuja, und Oswald Lanz, „Uncovering interactions and interactors: Joint estimation of head, body orientation and formations from surveillance videos" in IEEE International Conference on Computer Vision (ICCV), 2015
Francesco Setti, Chris Russell, Chiara Bassetti, und Marco Cristani, „F-formation detection: Individuating free-standing conversational groups in images" PLoS ONE, vol. 10, no. 5, pp. 1-26, Mai 2015
Gabriele Fanelli, Juergen Gall, und Luc Van Gool, „Real time head Haltung estimation with random regression forests" in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011
Geoffrey Underwood, Nicola Phelps, Chloe Wright, Editha Van Loon, und Adam Galpin, „Augen fixation scanpaths of younger and older drivers in a hazard perception task" Ophthalmic and Physiological Optics, vol. 25, no. 4, pp. 346-356, 2005
J. F. Caminada und W. J. M. van Bommel, „Philips engineering report 43", 1980
Jelena Jovancevic-Misic und Mary Hayhoe, „Adaptive gaze control in natural environments" The Journal of Neuroscience, vol. 29, no. 19, pp. 6234-6238, 2009
Kevin Smith, SilAugen O. Ba, Jean-Marc Odobez, und Daniel Gatica-Perez, „Tracking the visual focus of attention for a varying number of wandering people" IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 7, pp. 1212-1229, 2008
Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, und Vittorio Murino, „Social interactions by visual focus of attention in a three-dimensional environment" Expert Systems, vol. 30, no. 2, pp. 115-127, 2013
Lu Zhang und Hayley Hung, „Beyond f-formations: Determining social involvement in free standing conversing groups from static images," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016
Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, und Vittorio Murino, „Social interaction discovery by statistical analysis of f-formations" in British Machine Vision Conference (BMVC), 2011, pp. 23.1-23.12
Michael Voit, Kai Nickel, und Rainer Stiefelhagen, „A bayesian approach for multiview head Haltung estimation" in 2006 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems. IEEE, 2006, pp. 31-34
N. Davoudian und P. Raynham, „What do pedestrians look at at night?" Lighting Research and Technology, p.1477153512437157, 2012
N. M. Robertson und I. D. Reid, „Automatic reasoning about causal events in surveillance video" EURASIP Journal on Image and Video Processing, 2011
N. Robertson und I. Reid, „Estimating gaze direction from low-resolution faces in video" in European Conference on Computer Vision (ECCV), 2006
Nicolas Gourier, Jeröme Maisonnasse, Daniela Hall, und James L Crowley, „Head Haltung estimation on low resolution images" in International Evaluation Workshop on Classification of Events, Activities and Relationships. Springer, 2006, pp. 270-280
Pieter Vansteenkiste, Greet Cardon, Eva D'Hondt, Renaat Philippaerts, und Matthieu Lenoir, „The visual control of bicycle steering: The effects of speed and path width" Accident Analysis & Prevention, vol. 51, pp. 222-227, 2013
Roberto Valenti, Nicu Sebe, und Theo Gevers, „Combining head Haltung and Augen location information for gaze estimation" IEEE Transactions on Image Processing, vol. 21, no. 2, pp. 802-815, 2012
S. Fotios, J. Uttley, C. Cheal, und N. Hara, „Using Augen-Tracking to identify pedestrians critical visual tasks, Part 1. Dual task approach" Lighting Research and Technology, vol. 47, no. 2, pp. 133-148, 2015
S. Fotios, J. Uttley, und B. Yang, „Using Augen-tracking to identify pedestrians' critical visual tasks. part 2. Fixation on pedestrians" Lighting Research and Technology, vol. 47, no. 2, pp. 149-160, 2015
Sebastiano Vascon, Eyasu z.B. Mequanint, Marco Cristani, Hayley Hung, Marcello Pelillo, und Vittorio Murino, „Detecting conversational groups in images and sequences: A robust game-theoretic approach" Computer Vision and Image Understanding, vol. 143, pp. 11-24, 2016
SilAugen O. Ba und Jean-Marc Odobez, „A probabilistic framework for joint head tracking and Haltung estimation" in IEEE International Conference on Pattern Recognition (ICPR), 2004
Stefano Pellegrini, Andreas Ess, K. Schindler, und Luc Van Gool, „You‘ll never walk alone: Modeling social behavior for multi-target tracking" in IEEE International Conference on Computer Vision (ICCV), Sept. 2009, pp. 261-268
Stephanos loannou, Paul Morris, Hayley Mercer, Marc Baker, Vittorio Gallese, und Vasudevi Reddy, „Nähe and gaze influences facial temperature: a thermal infrared imaging study", Towards an embodied science of intersubjectivity: Widening the scope of social understanding research, p. 178, 2015
T. Taylor, A. K. Pradhan, G. Divekar, M. Romoser, J. Muttart, R. Gomez, A. Pollatsek, und D. L. Fisher, „The view from the road: The contribution of on-road glance-monitoring technologies to understanding driver behavior" Accident Analysis & Prevention, vol. 58, pp. 175-186, 2013
Tom Foulsham, Esther Walker, und Alan Kingstone, „The where, what and when of gaze allocation in the lab and the natural environment" Vision research, vol. 51, no. 17, pp. 1920-1931, 2011
Tom Foulsham, James Farley, und Alan Kingstone, „Mind wandering in sentence reading: Decoupling the link between mind and Augen" Canadian Journal of Experimental Psychology/Revue canadienne de psychologie experimentale, vol. 67, no. 1, pp. 51, 2013
Umberto Castiello und Carlo Umilta, „Size of the attentional focus and efficiency of processing," Acta psychologica, vol. 73, no. 3, pp. 195-209, 1990

Also Published As

Publication number Publication date
US11175733B2 (en) 2021-11-16
WO2018069826A1 (en) 2018-04-19
US20190250702A1 (en) 2019-08-15
IT201600103076A1 (it) 2018-04-13
DE112017005182T8 (de) 2019-11-07

Similar Documents

Publication Publication Date Title
EP3682367B1 (de) Gestensteuerung zur kommunikation mit einem autonomen fahrzeug auf basis einer einfachen 2d kamera
DE69707886T2 (de) Verfahren und gerät zum lokalisieren einer sich bewegenden zone und bestimmung der schnellheit und richtung der bewegung eines gebietes von relativer bewegung in einer szene
DE102017217056A1 (de) Verfahren und Einrichtung zum Betreiben eines Fahrerassistenzsystems sowie Fahrerassistenzsystem und Kraftfahrzeug
WO2017025483A1 (de) Verfahren und vorrichtung zur datenerfassung und auswertung von umgebungsdaten
DE102012105754A1 (de) Personentracking und interaktive Werbung
Draughon et al. Implementation of a computer vision framework for tracking and visualizing face mask usage in urban environments
DE112018001819B4 (de) Messen eines menschenstroms durch türdurchgänge unter verwendung von leicht installierbaren ir-arraysensoren
DE102019115455A1 (de) Fokus-basiertes markieren von sensordaten
DE102016119343A1 (de) Objektüberwachung mit Infrarotbildaufnahme und Infrarotpulsbeleuchtung
DE102015206178A1 (de) Ein Videoverfolgungsbasiertes Verfahren zur automatischen Reihung von Fahrzeugen in Drivethrough-Anwendungen
WO2006089776A1 (de) Kamera zum verfolgen von objekten
DE112009000485T5 (de) Objektvergleich für Verfolgung, Indizierung und Suche
AT502551A1 (de) Verfahren und bildauswertungseinheit zur szenenanalyse
DE102021211867A1 (de) Systeme und verfahren zum erkennen von krankheitssymptomen von nutzern
WO2014139997A1 (de) Videostromauswertung
DE202014010927U1 (de) Referenzpunktidentifizierung aus Punktwolken, die aus geografischen Bilddaten erstellt werden
DE102018133441A1 (de) Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs
WO2019042728A2 (de) Erfassen von verkehrsteilnehmern auf einem verkehrsweg
DE102015207047A1 (de) Verfahren und System automatisierten Sequenzieren von Fahrzeugen in nebeneinander angeordneten Durchfahrtskonfigurationen über eine bildbasierte Einstufung
DE102020209054A1 (de) Vorrichtung und verfahren zur personenerkennung, -verfolgung und -identifizierung unter verwendung drahtloser signale und bilder
CN109886129A (zh) 提示信息生成方法和装置,存储介质及电子装置
DE102016119729A1 (de) Steuern eines Personenbeförderungsfahrzeugs mit Rundumsichtkamerasystem
DE102016119339A1 (de) Situationsabhängige Verschließkörpersteuerung
DE102013217223A1 (de) Überwachungsanlage sowie Verfahren zur Darstellung eines Überwachungsbereichs
Li et al. Understand driver awareness through brake behavior analysis: Reactive versus intended hard brake

Legal Events

Date Code Title Description
R012 Request for examination validly filed