DE102014105351A1

DE102014105351A1 - Detektion von menschen aus mehreren ansichten unter verwendung einer teilumfassenden suche

Info

Publication number: DE102014105351A1
Application number: DE102014105351.6A
Authority: DE
Inventors: Kyungnam Kim; Changsoo Jeong
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-03-19
Filing date: 2014-04-15
Publication date: 2015-09-24
Anticipated expiration: 2034-04-16
Also published as: CN104933730A; CN104935879B; US9524426B2; US20150269427A1; CN104935879A; DE102014105351B4; CN104933730B

Abstract

Ein Menschenüberwachungssystem enthält mehrere Kameras und einen visuellen Prozessor. Die mehreren Kameras sind um einen Arbeitszonenbereich herum verteilt, wobei jede Kamera ausgestaltet ist, um eine Videoeingabe zu erfassen, die eine Vielzahl von Einzelbildern enthält, und die Vielzahl der Einzelbilder wird zwischen den jeweiligen Kameras zeitlich synchronisiert. Der visuelle Prozessor ist ausgestaltet, um die Vielzahl der Einzelbilder von den mehreren sichtbasierten Bilderfassungsgeräten zu empfangen und um die Anwesenheit eines Menschen aus mindestens einem der Vielzahl der Einzelbilder unter Verwendung einer Mustererkennung zu detektieren, die an einem Eingabebild ausgeführt wird. Das Eingabebild für die Mustererkennung ist ein gleitender Fensterabschnitt des Einzelbildes, der auf ein korrigiertes Koordinatensystem derart ausgerichtet ist, dass eine vertikale Achse in dem Arbeitszonenbereich auf eine vertikale Achse des Eingabebilds ausgerichtet ist.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft allgemein Sichtüberwachungssysteme zur Verfolgung von Menschen.
HINTERGRUND
Die Fabrikautomatisierung wird in vielen Montagekontexten verwendet. Um flexiblere Fertigungsprozesse zu ermöglichen, werden Systeme benötigt, die es erlauben, dass Roboter und Menschen auf natürliche und effiziente Weise zusammenarbeiten, um Aufgaben auszuführen, die sich nicht unbedingt wiederholen. Die Zusammenarbeit von Menschen und Robotern erfordert ein neues Niveau eines Maschinenbewusstseins, das sich über den typischen Steuerungsstil aus Aufzeichnen/Abspielen hinaus erstreckt, bei dem alle Teile an einem bekannten Aufenthaltsort beginnen. Auf diese Weise muss das Robotersteuerungssystem die Position und das Verhalten von Menschen begreifen und muss dann das Verhalten der Roboter auf der Grundlage der Aktionen des Menschen anpassen.
ZUSAMMENFASSUNG
Ein Menschenüberwachungssystem enthält mehrere Kameras und einen visuellen Prozessor. Die mehreren Kameras sind um einen Arbeitszonenbereich herum angeordnet, wobei jede Kamera ausgestaltet ist, um eine Videoeingabe zu erfassen, die eine Vielzahl von Einzelbildern enthält, und die Vielzahl von Einzelbildern ist zwischen den jeweiligen Kameras zeitlich synchronisiert.
Der visuelle Prozessor ist ausgestaltet, um die Vielzahl von Einzelbildern von den mehreren sichtbasierten Bilderfassungsgeräten zu empfangen und um die Anwesenheit eines Menschen aus mindestens einem der Vielzahl von Einzelbildern unter Verwendung einer Mustererkennung, die auf einem Eingabebild ausgeführt wird, zu detektieren. Das Eingabebild für die Mustererkennung ist ein gleitender Fensterabschnitt des Einzelbilds, der auf ein korrigiertes Koordinatensystem derart ausgerichtet ist, dass eine vertikale Achse in dem Arbeitszonenbereich auf eine vertikale Achse des Eingabebilds ausgerichtet ist.
Wenn ein Mensch in der Nähe der automatisierten beweglichen Geräte detektiert wird, kann das System eine Warnung bereitstellen und/oder das Verhalten der automatisierten beweglichen Geräte verändern.
Bei einer Ausgestaltung kann das korrigierte Koordinatensystem in Übereinstimmung mit einer Perspektive des Arbeitszonenbereichs in dem mindestens einen Einzelbild und/oder mit einem Fluchtpunkt des mindestens einen Einzelbilds festgelegt werden.
Die Mustererkennung umfasst eine Support Vector Machine bzw. eine Stützvektormaschine und/oder ein neuronales Netzwerk und kann ausgestaltet sein, um die Pose des Menschen zusätzlich zu der Anwesenheit des Menschen innerhalb des Einzelbilds zu detektieren. Die Pose kann stehen, gehen, greifen nach und/oder kauern umfassen.
Bei einer Ausgestaltung ist der visuelle Prozessor ausgestaltet, um das gleitende Fenster aus einer interessierenden Region innerhalb des mindestens einen Einzelbilds zu wählen. Die interessierende Region ist eine Teilmenge des mindestens einen Einzelbilds, bei der es möglich ist, dass sich ein Mensch dort aufhält. Die interessierende Region enthält einen Abschnitt des Fußbodens des Arbeitszonenbereichs, der in dem Einzelbild sichtbar ist. Das gleitende Fenster kann in einem ersten Einzelbild die gesamte interessierende Region durchqueren, bevor die Anwesenheit eines Menschen in einem nachfolgenden Einzelbild detektiert wird. Bei einer Ausgestaltung kann der visuelle Prozessor eine Position und eine Geschwindigkeit eines detektierten Menschen in einem ersten Einzelbild verwenden, um die Detektion in einem nachfolgenden Einzelbild zu priorisieren.
Der visuelle Prozessor ist ferner ausgestaltet, um die zeitlich synchronisierten Einzelbilder aus den mehreren Ansichten in ein gemeinsames Koordinatensystem zusammenzuführen, etwa eine Bodenebene. Sobald sie in einem gemeinsamen Koordinatensystem sind, kann der visuelle Prozessor den Aufenthaltsort des detektierten Menschen identifizieren, indem eine Darstellung des Menschen aus den mehreren Ansichten in das gemeinsame Koordinatensystem abgebildet wird, und indem ein Schnittpunkt der abgebildeten Darstellungen bestimmt wird. Dann kann der visuelle Prozessor ein Bewegungsprofil des detektierten Menschen in Übereinstimmung mit den identifizierten Aufenthaltsorten über eine Vielzahl von aufeinanderfolgenden Einzelbildern hinweg zusammensetzen.
Bei einer Ausgestaltung kann der visuelle Prozessor ein ermitteltes Bewegungsprofil mit einem vorbestimmten erwarteten Bewegungsprofil vergleichen. Dieser kann dann eine Warnung bereitstellen, wenn das Bewegungsprofil dem erwarteten Bewegungsprofil nicht ähnelt.
Die vorstehenden Merkmale und Vorteile und andere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich leicht aus der folgenden genauen Beschreibung der besten Arten, um die Erfindung auszuführen, wenn sie in Verbindung mit den beiliegenden Zeichnungen gelesen wird.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein schematisches Blockdiagramm eines Menschenüberwachungssystems.
2 ist eine schematische Darstellung mehrerer Bilderfassungsgeräte, die um einen Arbeitszonenbereich herum positioniert sind.
3 ist ein schematisches Blockdiagramm eines Aktivitätenüberwachungsprozesses.
4 ist ein schematisches Prozessablaufdiagramm zum Detektieren der Bewegung eines Menschen unter Verwendung mehrerer Bilderfassungsgeräte, die um einen Arbeitszonenbereich herum positioniert sind.
5A ist eine schematische Darstellung eines Einzelbilds, die ein gleitendes Fenster enthält, das in einen Musterkennungsalgorithmus eingegeben wird und das Einzelbild im Bildkoordinatenraum durchquert.
5B ist eine schematische Darstellung eines Einzelbilds, die ein gleitendes Fenster enthält, das in einen Mustererkennungsalgorithmus eingegeben wird und das Einzelbild in einem korrigierten Koordinatenraum durchquert.
5C ist eine schematische Darstellung des Einzelbilds von 5B, bei der die Eingabe des gleitenden Fensters aus einer speziellen interessierenden Region gewählt ist.
6 ist ein schematisches Diagramm, das eine Vorgehensweise zum Zusammenführen einer Vielzahl von Darstellungen eines detektierten Menschen von jeweils einer anderen Kamera in ein gemeinsames Koordinatensystem veranschaulicht.
7 ist ein schematisches Ablaufdiagramm auf hoher Ebene eines Verfahrens zum Durchführen der Überwachung von Aktivitätensequenzen unter Verwendung eines Menschenüberwachungssystems.
8 ist ein schematisches detailliertes Ablaufdiagramm eines Verfahrens zum Durchführen der Überwachung von Aktivitätensequenzen unter Verwendung eines Menschenüberwachungssystems.
9 ist eine schematische Darstellung des Menschenüberwachungssystems, das über mehrere Arbeitszonenbereiche hinweg verwendet wird.
10 ist eine schematische Darstellung einer dreidimensionalen Ortsbestimmung unter Verwendung mehrer Sensoransichten.
GENAUE BESCHREIBUNG
Mit Bezug auf die Zeichnungen, bei denen gleiche Bezugszeichen verwendet werden, um gleiche oder identische Komponenten in den verschiedenen Ansichten zu identifizieren, veranschaulicht 1 auf schematische Weise ein Blockdiagramm eines Menschenüberwachungssystems 10 zum Überwachen eines Arbeitszonenbereichs eines Montageprozesses, eines Fertigungsprozesses oder eines ähnlichen Prozesses. Das Menschenüberwachungssystem 10 enthält mehrere sichtbasierte Bilderfassungsgeräte 12 zum Erfassen von visuellen Bildern eines ausgewiesenen Arbeitszonenbereichs. Die mehreren sichtbasierten Bilderfassungsgeräte 12 sind, wie in 2 dargestellt ist, an verschiedenen Orten und Höhenlinien positioniert und umgeben die automatisierten beweglichen Geräte. Vorzugsweise werden Weitwinkellinsen oder ähnliche Geräte mit einem weiten Blickwinkel verwendet, um einen größeren Arbeitszonenbereich visuell abzudecken. Alle sichtbasierten Bilderfassungsgeräte sind voneinander deutlich abgesetzt, um ein Bild des Arbeitszonenbereichs von einem jeweiligen Blickpunkt aus zu erfassen, der sich von den jeweiligen anderen Bilderfassungsgeräten deutlich unterscheidet. Dies ermöglicht, dass verschiedene Videobildströme von verschiedenen Blickpunkten aus über den Arbeitszonenbereich hinweg erfasst werden, um eine Person von den umgebenden Geräten zu unterscheiden. Aufgrund von visuellen Hindernissen (d. h. Verdeckungen) durch Objekte und Geräte in dem Arbeitszonenbereich erhöhen die mehreren Blickpunkte die Wahrscheinlichkeit des Erfassens der Person in einem oder mehreren Bildern, wenn Verdeckungen innerhalb des Arbeitszonenbereichs vorhanden sind.
Wie in 2 gezeigt ist, sind ein erstes sichtbasiertes Bilderfassungsgerät 14 und ein zweites sichtbasiertes Bilderfassungsgerät 16 an über den Köpfen angeordneten Positionen deutlich voneinander beabstandet, so dass jedes eine Ansicht unter einem steilen Winkel erfasst. Die Bilderfassungsgeräte 14 und 16 liefern kanonische Ansichten unter einem steilen Winkel oder Referenzansichten. Vorzugsweise stellen die Bilderfassungsgeräte 14 und 16 eine dreidimensionale Stereo-Szenenanalyse und -Verfolgung bereit. Die Bilderfassungsgeräte 14 und 16 können eine visuelle Bilderfassung, eine LIDAR-Detektion, eine Infrarot-Detektion und/oder eine beliebige andere Art von Bilderfassung umfassen, die verwendet werden kann, um physikalische Objekte innerhalb eines Bereichs zu detektieren. Zusätzliche Bilderfassungsgeräte können über den Köpfen positioniert und von den ersten und zweiten sichtbasierten Bilderfassungsgeräten 14 und 16 beabstandet sein, um zusätzliche Ansichten von der Decke aus zu erhalten. Zur Vereinfachung der Beschreibung können die Bilderfassungsgeräte 14 und 16 allgemein als ”Kameras” bezeichnet sein, obwohl zu erkennen ist, dass diese Kameras keine Kameras mit einem sichtbaren Spektrum sein müssen, sofern es nicht anderweitig angegeben wird.
Verschiedene andere sichtbasierte Bilderfassungsgeräte 17 (”Kameras”) sind an den Seiten oder den virtuellen Ecken des überwachten Arbeitszonenbereichs positioniert, um Ansichten unter einem mittleren Winkel und/oder Ansichten unter einem niedrigen Winkel zu erfassen. Es versteht sich, dass mehr oder weniger Bilderfassungsgeräte als diejenigen, die in 2 gezeigt sind, verwendet werden können, da die Anzahl der sichtbasierten Bilderfassungsgeräte umkonfigurierbar ist, da das System mit einer beliebigen Anzahl von Bilderfassungsgeräten arbeiten kann; es wird jedoch darauf hingewiesen, dass das Integritätsniveau und die redundante Zuverlässigkeit zunehmen, wenn die Anzahl redundanter Bilderfassungsgeräte zunimmt. Alle sichtbasierten Bilderfassungsgeräte 12 sind voneinander beabstandet, um ein Bild von einem Blickpunkt aus zu erfassen, der sich erheblich von den anderen unterscheidet, um eine dreidimensionale Verfolgung einer oder mehrerer Personen in dem Arbeitszonenbereich zu erzeugen. Die verschiedenen Ansichten, die von den mehreren sichtbasierten Bilderfassungsgeräten 12 erfasst werden, stellen gemeinsam alternative Ansichten des Arbeitszonenbereichs bereit, die ermöglichen, dass das Menschenüberwachungssystem 10 jede Person in dem Arbeitszonenbereich identifiziert. Diese verschiedenen Blickpunkte stellen die Möglichkeit zum Verfolgen jeder Person über den gesamten Arbeitszonenbereich hinweg im dreidimensionalen Raum bereit und verbessern die Lokalisierung und Verfolgung jeder Person, wenn sie sich durch den Arbeitszonenbereich hindurchbewegt, um potentielle ungewollte Interaktionen zwischen jeder jeweiligen Person und den sich bewegenden automatisierten Geräten in dem Arbeitszonenbereich zu detektieren.
Wieder mit Bezug auf 1 werden die Bilder, die von den mehreren sichtbasierten Bilderfassungsgeräten 12 erfasst werden, über ein Kommunikationsmedium 20 an eine Verarbeitungseinheit 18 übertragen. Das Kommunikationsmedium 20 kann ein Kommunikationsbus, das Ethernet oder eine andere Kommunikationskopplung (einschließlich einer drahtlosen Kopplung) sein.
Die Verarbeitungseinheit 18 ist vorzugsweise ein Trägercomputer, der mit Gebrauchsgegenständen (einem Personalcomputer nicht unähnlich) implementiert ist, oder ein ähnliches Gerät, das für seine Arbeitsumgebung geeignet verpackt ist. Die Verarbeitungseinheit 18 kann ferner ein Bildbeschaffungssystem (das möglicherweise aus einem Frame Grabber und/oder einer Netzwerk-Bildbeschaffungssoftware besteht) enthalten, das verwendet wird, um Bildströme zu erfassen, um Bildströme als zeitlich synchronisierte Daten zu verarbeiten und aufzuzeichnen. Mehrere Verarbeitungseinheiten können an einem Datennetzwerk unter Verwendung eines Protokolls, das Meldungsintegrität sicherstellt, etwa Ethernet-Safe, miteinander verbunden sein. Daten, die den Status eines angrenzenden Raums angeben, der von anderen Verarbeitungseinheiten überwacht wird, und die Warnungen, Signale und Datenübertragungen eines Verfolgungsstatus für Leute und Objekte umfassen, die sich von Bereich zu Bereich oder in Zonen bewegen, die mehrere Systeme überspannen, können auf zuverlässige Weise ausgetauscht werden. Die Verarbeitungseinheit 18 verwendet eine primäre Verarbeitungsroutine und mehrere Teilverarbeitungsroutinen (d. h. eine Teilverarbeitungsroutine für jedes sichtbasierte Bilderfassungsgerät). Jede Teilverarbeitungsroutine ist einem jeweiligen Bilderfassungsgerät fest zugeordnet, um die Bilder zu verarbeiten, die von dem Bilderfassungsgerät erfasst werden. Die primäre Verarbeitungsroutine führt eine Integration von mehreren Ansichten aus, um eine Echtzeitüberwachung des Arbeitszonenbereichs auf der Grundlage der kumulierten erfassten Bilder, die von jeder Teilverarbeitungsroutine verarbeitet wurden, durchzuführen.
In 1 wird die Detektion eines Arbeiters in dem Arbeitszonenbereich dadurch ermöglicht, dass die Teilverarbeitungsroutinen eine Vielzahl von Datenbanken 22 verwenden, die zusammen Menschen beim Vorhandensein anderer beweglicher Geräte in dem Arbeitszonenbereich detektieren und identifizieren. Die Vielzahl von Datenbanken speichert Daten, die verwendet werden, um Objekte zu detektieren, aus den detektierten Objekten eine Person zu identifizieren und eine identifizierte Person in dem Arbeitszonenbereich zu verfolgen. Die verschiedenen Datenbanken umfassen eine Kalibrierungsdatenbank 24, eine Hintergrunddatenbank 25, eine Klassifizierungsdatenbank 26, eine Fluchtpunktdatenbank 27, eine Verfolgungsdatenbank 28 und eine Homografiedatenbank 30, sind aber nicht darauf beschränkt. In den Datenbanken enthaltene Daten werden von den Teilverarbeitungsroutinen verwendet, um Menschen in dem Arbeitszonenbereich zu detektieren, zu identifizieren und zu verfolgen.
Die Kalibrierungsdatenbank 24 liefert Kamerakalibrierungsparameter (intrinsische und extrinsische) auf der Grundlage von Mustern zur Entzerrung von verzerrten Objekten. Bei einer Ausgestaltung können die Kalibrierungsparameter unter Verwendung eines regelmäßigen Musters bestimmt werden, etwa eines Schachbretts, das orthogonal auf dem Blickfeld der Kamera angezeigt wird. Eine Kalibrierungsroutine verwendet das Schachbrett dann, um die intrinsischen Parameter und die Entzerrungsparameter zu schätzen, die verwendet werden können, um Verzeichnungen zu entzerren, die von den Weitwinkellinsen verursacht werden.
Die Hintergrunddatenbank 25 speichert die Hintergrundmodelle für unterschiedliche Ansichten und die Hintergrundmodelle werden verwendet, um ein Bild in die Hintergrund- und Vordergrundregion, aus denen es besteht, aufzuteilen. Die Hintergrundmodelle können erhalten werden, indem Bilder/Videos vor dem Installieren aller automatisierten Maschinen oder dem Platzieren beliebiger dynamischer Objekte in dem Arbeitszonenbereich aufgenommen werden.
Die Klassifizierungsdatenbank 26 enthält eine Kaskade von Klassifizierungen und zugehörigen Parametern zum automatischen Klassifizieren von Menschen und Nicht-Menschen.
Die Fluchtpunktdatenbank 27 enthält die Fluchtpunktinformationen für jede der Kameraansichten und wird verwendet, um die Fluchtpunktkorrektur durchzuführen, so dass Menschen in der korrigierten Bildgebung aufrecht erscheinen.
Die Verfolgungsdatenbank 28 führt Bewegungsprofile für jeden der überwachten Menschen mit und neue Bewegungsprofile werden zu der Datenbank hinzugefügt, wenn neue Menschen die Szene betreten, und gelöscht, wenn sie die Szene verlassen. Die Verfolgungsdatenbank weist außerdem Informationen über das Erscheinungsmodell für jeden Menschen auf, so dass existierende Bewegungsprofile leicht Bewegungsprofilen bei einem anderen Zeitschritt zugeordnet werden können.
Die Homographiedatenbank 30 enthält die Homographietransformationsparameter über die verschiedenen Ansichten und die kanonische Ansicht hinweg. Geeignete Daten von der bzw. den Datenbanken können an ein System übertragen werden, das einen benachbarten Bereich überwacht, wenn eine Person in diesen Bereich überwechselt, so dass der nahtlose Übergang der Verfolgung der Person von Bereich zu Bereich über mehrere Systeme hinweg möglich ist.
Jede der vorstehend beschriebenen Datenbanken kann Parameter enthalten, die das Ergebnis verschiedener Initialisierungsroutinen sind, welche während der Installation und/oder während der Wartung des Systems durchgeführt werden. Die Parameter können beispielsweise in einem Format gespeichert werden, das im Betrieb für den Prozessor leicht zugänglich ist, etwa in einem XML-Dateiformat. Bei einer Ausgestaltung kann das System während einer anfänglichen Einstellungs/Initialisierungsroutine eine Linsenkalibrierungsroutine durchführen, etwa durch Platzieren eines Schachbrettbilds im Blickfeld jeder Kamera. Unter Verwendung des Schachbrettbilds kann die Linsenkalibrierungsroutine den notwendigen Korrekturbetrag bestimmen, der benötigt wird, um jegliche Fischaugenverzerrung zu entfernen. Diese Korrekturparameter können in der Kalibrierungsdatenbank 24 gespeichert werden.
Im Anschluss an die Linsenkalibrierungsroutine kann das System dann die Homographietransformationsparameter bestimmen, welche in der Homographiedatenbank 30 gespeichert werden können. Diese Routine kann umfassen, dass Mess- bzw. Referenzobjekte innerhalb des Arbeitszonenbereichs so platziert werden, dass sie von mehreren Kameras gesehen werden können. Indem der Aufenthaltsort der Objekte zwischen den verschiedenen Ansichten korreliert wird (und wobei die feststehende Position entweder der Kameras oder der Objekte bekannt ist) können die verschiedenen zweidimensionalen Bilder in den 3D-Raum abgebildet werden.
Zusätzlich kann der Fluchtpunkt jeder Kamera bestimmt werden, indem eine Vielzahl vertikaler Referenzmarkierungen an unterschiedlichen Orten innerhalb des Arbeitszonenbereichs platziert wird und indem analysiert wird, wie diese Markierungen innerhalb jeder Kameraansicht dargestellt werden. Das perspektivische Wesen der Kamera kann bewirken, dass die Darstellungen der jeweiligen vertikalen Markierungen auf einen gemeinsamen Fluchtpunkt hin konvergieren, welcher in der Fluchtpunktdatenbank 27 aufgezeichnet werden kann.
3 veranschaulicht ein Blockdiagramm eines Überblicks auf hoher Ebene über den Fabriküberwachungsprozessablauf einschließlich einer dynamischen Überwachung der Systemintegrität.
Bei Block 32 werden Datenströme von den sichtbasierten Bilderfassungsgeräten 12, welche die zeitlich synchronisierten Bilddaten erfassen, gesammelt. Bei Block 33 wird eine Überwachung der Systemintegrität ausgeführt. Die visuelle Verarbeitungseinheit überprüft die Integrität des Systems auf Komponentenfehler und Bedingungen, die verhindern würden, dass das Überwachungssystem korrekt arbeitet und seinen beabsichtigten Zweck erfüllt. Diese ”dynamische Integritätsüberwachung” würde diese verschlechterten oder Ausfallbedingungen detektieren und eine Betriebsart auslösen, bei der das System in eine sichere Betriebsart ausfallen kann bei der die Systemintegrität dann wieder hergestellt werden kann und die Prozessinteraktion zu dem Normalzustand zurückkehren kann, ohne irgendwelche nicht beabsichtigten Konsequenzen abgesehen von der Stillstandszeit, die zum Ausführen von Reparaturen benötigt wird.
Bei einer Ausgestaltung können Referenzziele zur geometrischen Kalibrierung und Integrität verwendet werden. Einige dieser Referenzziele können aktiv sein, etwa ein blinkendes IR-Lichtsignal im Blickfeld eines oder mehrerer Sensoren. Bei einer Ausgestaltung kann das IR-Lichtsignal beispielsweise mit einer jeweiligen Rate blinken. Das Überwachungssystem kann dann feststellen, ob die Lichtsignaldetektion in den Bildern tatsächlich mit der erwarteten Rate übereinstimmt, mit welcher das IR-Lichtsignal tatsächlich blinkt. Wenn sie dies nicht tut, dann können die automatisierten Geräte in eine sichere Betriebsart wechseln, eine fehlerhafte Ansicht kann ignoriert oder deaktiviert werden oder die Geräte können so modifiziert werden, dass sie in einer sicheren Betriebsart arbeiten.
Auch unterwartete Veränderungen beim Verhalten eines Referenzziels können dazu führen, dass die Geräte so modifiziert werden, dass sie im Betrieb in der sicheren Betriebsart arbeiten. Wenn beispielsweise ein Referenzziel ein sich bewegendes Ziel ist, das verfolgt wird, und es verschwindet, bevor das System detektiert, dass es den Arbeitszonenbereich an einer erwarteten Austrittsstelle verlässt, dann können ähnliche Vorsichtsmaßnahmen ergriffen werden. Ein weiteres Beispiel für unerwartete Veränderungen bei einem sich bewegenden Referenzziel liegt vor, wenn das Referenzziel an einem ersten Aufenthaltsort auftaucht und dann an einem zweiten Aufenthaltsort mit einer unerklärlich schnellen Rate erneut auftaucht (d. h. mit einem Verhältnis von Abstand zu Zeit, das einen vorbestimmten Grenzwert überschreitet). Bei Block 34 von 3 tritt das System dann, wenn die visuelle Verarbeitungseinheit feststellt, dass Integritätsprobleme existieren, in eine sichere Ausfallbetriebsart ein, bei der Warnungen betätigt werden und das System heruntergefahren wird. Wenn die visuelle Verarbeitungseinheit feststellt, dass keine Integritätsprobleme vorhanden sind, dann werden die Blöcke 35–39 sequentiell initialisiert.
Bei einer Ausgestaltung kann die Systemintegritätsüberwachung 33 umfassen, dass auf die Integrität jedes sichtbasierten Bilderfassungsgeräts auf dynamische Weise quantitativ zugegriffen wird. Beispielsweise kann die Integritätsüberwachung jede Videoeingabe kontinuierlich analysieren, um den Betrag an Rauschen innerhalb einer Eingabe zu messen oder um Unstetigkeiten im Bild über die Zeit zu identifizieren. Bei einer Ausgestaltung kann das System eine absolute Pixeldifferenz, eine globale und/oder eine lokale Histogrammdifferenz und/oder absolute Kantendifferenzen verwenden, um die Integrität des Bilds zu quantifizieren (d. h. um eine relative ”Integritätsbewertung” zu bestimmen, die von 0,0 (keine Zuverlässigkeit) bis 1,0 (perfekt zuverlässig) reicht). Die erwähnten Differenzen können mit Bezug auf entweder ein vorab festgelegtes Referenz(einzel)bild (z. B. eines, das während einer Initialisierungsroutine beschafft wurde) oder ein Einzelbild bestimmt werden, das unmittelbar vor dem Einzelbild aufgenommen wurde, das gerade gemessen wird. Beim Vergleich mit einem vorab festgelegten Referenz(einzel)bild kann sich der Algorithmus speziell auf einen oder mehrere Abschnitte des Hintergrunds des Bilds konzentrieren (statt auf die sich dynamisch verändernden Vordergrundabschnitte).
Die Hintergrundsubtraktion wird in Block 35 durchgeführt und die resultierenden Bilder sind die Vorderregionen. Die Hintergrundsubtraktion ermöglicht, dass das System diejenigen Aspekte des Bilds identifiziert, die zu einer Bewegung in der Lage sein können. Diese Abschnitte der Einzelbilder werden dann zur weiteren Analyse an nachfolgende Module weitergegeben.
Bei Block 36 wird eine Menschenverifizierung ausgeführt, um Menschen aus den erfassten Bildern zu detektieren. Bei diesem Schritt werden identifizierten Vordergrundbilder verarbeitet, um Abschnitte des Vordergrunds zu detektieren/identifizieren, die am wahrscheinlichsten menschlich sind.
Bei Block 37 wird ein Erscheinungsbildabgleich und eine Erscheinungsbildverfolgung wie vorstehend beschrieben ausgeführt, welche eine Person aus den detektierten Objekten unter Verwendung ihrer verschiedenen Datenbanken identifiziert und eine identifizierte Person in dem Arbeitszonenbereich verfolgt.
Bei Block 38 wird eine dreidimensionale Verarbeitung auf die erfassten Daten angewendet, um 3D-Umfangsinformationen für die Objekte in dem Arbeitszonenbereich zu erhalten. Die 3D-Umfangsinformationen ermöglichen die Erzeugung von 3D-Besetzungsgittern und Gitterpunktinformationen, die falsche Alarme verringern und die Verfolgung von Objekten in 3D ermöglichen. Die Verarbeitung der 3D-Metrologie kann beispielsweise unter Verwendung der stereoskopischen über den Köpfen angeordneten Kameras (z. B. der Kameras 14, 16) durchgeführt werden oder sie kann unter Verwendung von Gitterpunktkonstruktionstechniken aus der Projektion jeder gewinkelten Kamera 17 durchgeführt werden.
Bei Block 39 werden die erkannten Bewegungsprofile an ein Modul zur Zusammenführung mehrerer Ansichten und zur Objektlokalisierung geliefert. Das Modul 39 zur Zusammenführung mehrerer Ansichten kann die verschiedenen Ansichten zusammenführen oder miteinander verschmelzen, um eine Wahrscheinlichkeitskarte des Aufenthaltsorts eines jeden Menschen innerhalb des Arbeitszonenbereichs zu bilden. Zudem wird die dreidimensionale Verarbeitung aus den sichtbasierten Bilderfassungsgeräten wie in 10 gezeigt an das Modul zur Zusammenführung mehrerer Ansichten und zur Objektlokalisierung geliefert, um den Aufenthaltsort, die Richtung, die Geschwindigkeit, die Aufenthaltsdauer und die volumenbezogene Masse jedes Menschen in dem Arbeitszonenbereich zu bestimmen. Die identifizierten Menschen werden wegen einer potentiellen Interaktion mit beweglichen Geräten innerhalb des Arbeitszonenbereichs verfolgt.
4 veranschaulicht ein Prozessablaufdiagramm zum Detektieren, Identifizieren und Verfolgen von Menschen unter Verwendung des Menschenüberwachungssystems. Bei Block 40 wird das System durch die primäre Verarbeitungsroutine initialisiert, um eine Integration von mehreren Ansichten in dem überwachten Arbeitszonenbereich auszuführen. Die primäre Verarbeitungsroutine initialisiert und startet die Teilverarbeitungsroutinen. Zum Verarbeiten der Daten, die von einem jeweiligen Bilderfassungsgerät erfasst wurden, wird jeweils eine Teilverarbeitungsroutine bereitgestellt. Alle Teilverarbeitungsroutinen arbeiten parallel. Die folgenden hier beschriebenen Verarbeitungsblöcke werden von der primären Verarbeitungsroutine synchronisiert, um sicherzustellen, dass die erfassten Bilder zeitlich miteinander synchronisiert sind. Die primäre Verarbeitungsroutine wartet, bis jede der Teilverarbeitungsroutinen die Verarbeitung ihrer jeweiligen erfassten Daten abgeschlossen hat, bevor sie die Integration mehrerer Ansichten durchführt. Die Verarbeitungszeit für alle jeweiligen Teilverarbeitungsroutinen ist vorzugsweise nicht größer als 100–200 ms. Bei der Systeminitialisierung wird außerdem eine Systemintegritätsprüfung ausgeführt (siehe auch 3, Block 33). Wenn festgestellt wird, dass die Systemintegritätsprüfung fehlgeschlagen ist, dann aktiviert das System unmittelbar einen Alarm und tritt in eine fehlersichere Betriebsart ein, bei der das System abgeschaltet wird, bis Korrekturmaßnahmen durchgeführt werden.
Wieder mit Bezug auf 4 werden bei Block 41 von jedem sichtbasierten Bilderfassungsgerät Bilddatenströme erfasst. Die von jedem Bilderfassungsgerät erfassten Daten liegen in Pixelform vor (oder werden in diese konvertiert). Bei Block 42 werden die erfassten Bilddaten an einen Bildpuffer geliefert, bei dem die Bilder auf eine Verarbeitung warten, um Objekte und insbesondere Menschen in dem Arbeitszonenbereich zwischen den sich bewegenden automatisierten Geräten zu detektieren. Jedes erfasste Bild wird mit einem Zeitstempel versehen, so dass alle erfassten Bilder für eine gleichzeitige Verarbeitung synchronisiert sind.
Bei Block 43 wird eine Autokalibrierung auf die erfassten Bilder angewendet, um Objekte innerhalb des erfassten Bildes zu entzerren. Die Kalibrierungsdatenbank stellt auf Mustern beruhende Kalibrierungsparameter bereit, um verzerrte Objekte zu entzerren. Die durch Weitwinkellinsen verursachte Bildverzerrung erfordert, dass das Bild durch die Anwendung einer Kamerakalibrierung entzerrt wird. Dies ist notwendig, da jede größere Verzerrung des Bildes die Homographieabbildungsfunktion zwischen den Ansichten des Bilderfassungsgeräts und den Erscheinungsbildmodellen ungenau macht. Die Bilderfassungskalibrierung ist ein einmaliger Prozess; jedoch wird eine Neukalibrierung benötigt, wenn die Einstellung des Bilderfassungsgeräts modifiziert wird. Außerdem wird die Bildkalibrierung durch das Teilsystem zur dynamischen Überwachung der Integrität periodisch überprüft, um Bedingungen zu detektieren, bei denen das Bilderfassungsgerät etwas aus seinem kalibrierten Blickfeld weg bewegt wurde.
Bei den Blöcken 44 und 45 wird eine Hintergrundmodellierung bzw. eine Vordergrunddetektion eingeleitet. Ein Hintergrundtraining wird verwendet, um Hintergrundbilder von Vordergrundbildern zu unterscheiden. Die Ergebnisse werden in einer Hintergrunddatenbank gespeichert, um von jeder der Teilverarbeitungsroutinen zum Unterscheiden des Hintergrunds und Vordergrunds verwendet zu werden. Bei allen nicht verzerrten Bildern wird eine Hintergrundfilterung durchgeführt, um Vordergrundpixel in einem digitalisierten Bild zu erhalten. Um den Hintergrund in einem erfassten Bild zu unterscheiden, sollten Hintergrundparameter unter Verwendung von Bildern eines leeren Arbeitszonenansichtsbereichs trainiert werden, so dass die Hintergrundpixel leicht unterschieden werden können, wenn sich bewegende Objekte vorhanden sind. Die Hintergrunddaten sollten im Lauf der Zeit aktualisiert werden. Wenn eine Person in dem erfassten Bild detektiert und verfolgt wird, werden die Hintergrundpixel aus den Bilddaten ausgefiltert, um Vordergrundpixel zu detektieren. Die detektierten Vordergrundpixel werden durch eine Analyse verbundener Komponenten mit Rauschfilterung und Blob-Größenfilterung in Blobs umgewandelt.
Bei Block 46 wird eine Blob-Analyse eingeleitet. In einem jeweiligen Arbeitszonenbereich kann nicht nur eine sich bewegende Person detektiert werden, sondern auch andere sich bewegende Objekte wie etwa Roboterarme, Transportwägen oder Kisten können detektiert werden. Die Blob-Analyse umfasst daher das Detektieren aller Vordergrundpixel und das Feststellen, welche Vordergrundbilder (z. B. Blobs) Menschen sind und welche nicht menschliche sich bewegende Objekte sind.
Ein Blob kann als eine Region von miteinander verbundenen Pixeln definiert werden (z. B. einander berührende Pixel). Die Blob-Analyse umfasst die Identifikation und Analyse der jeweiligen Pixelregion in dem erfassten Bild. Das Bild unterscheidet Pixel durch einen Wert. Die Pixel werden dann entweder als Vordergrund oder als Hintergrund identifiziert. Pixel mit einem Wert, der von Null verschieden ist, werden als Vordergrund betrachtet, und Pixel mit einem Null-Wert werden als Hintergrund betrachtet. Die Blob-Analyse berücksichtigt typischerweise verschiedene Faktoren, die den Ort des Blob, die Fläche des Blob, den Umfang (z. B. Ränder) des Blobs, die Form des Blobs, den Durchmesser, die Länge oder die Breite und die Orientierung des Blobs umfassen können, aber nicht darauf beschränkt sind. Techniken zur Bild- oder Datensegmentierung sind nicht auf 2D-Bilder beschränkt, sondern können auch die Ausgabedaten von anderen Sensortypen vorteilhaft nutzen welche IR-Bilder und/oder 3D-Volumendaten bereitstellen.
Bei Block 47 wird eine Detektion/Verifizierung von Menschen durchgeführt, um nicht-menschliche Blobs als Teil der Blob-Analyse aus den menschlichen Blobs auszufiltern. Bei einer Ausgestaltung kann diese Verifizierung einer Schwarmdomänen-Klassifizierungstechnik ausgeführt werden.
Bei einer anderen Ausgestaltung kann das System Mustererkennungsalgorithmen verwenden, etwa Support Vector Machines (SMVs) oder neuronale Netzwerke, um einen Musterabgleich von Vordergrund-Blobs mit trainierten Modellen von menschlichen Posen durchzuführen. Statt zu versuchen, das gesamte Bild als eine einzige Einheit zu verarbeiten, kann das System anstelle dessen das Einzelbild 60 unter Verwendung eines lokalen gleitenden Fensters 62 abtasten, wie allgemein in 5A gezeigt ist. Dies kann die Komplexität der Verarbeitung verringern und die Robustheit und Genauigkeit der Detektion verbessern. Das gleitende Fenster 62 kann dann als Eingabe für die SMV zum Zweck der Identifizierung dienen.
Die Modelle, welche die Detektion von Menschen durchführen, können unter Verwendung von Bildern von verschiedenen Menschen trainiert werden, die in unterschiedlichen Haltungen positioniert sind (d. h. stehend, kauernd, kniend, usw.) und in verschiedene Richtungen blicken. Wenn das Modell trainiert wird, können die repräsentativen Bilder derart bereitgestellt werden, dass die Person allgemein auf die vertikale Achse des Bildes ausgerichtet ist. Wie in 5A gezeigt ist, kann die Körperachse einer abgebildeten Person 64 in Übereinstimmung mit der Perspektive und dem Fluchtpunkt des Bilds, die nicht unbedingt vertikal sind, gewinkelt sein. Wenn die Eingabe an das Detektionsmodell ein Fenster wäre, das auf den Bildkoordinatenrahmen ausgerichtet ist, kann die gewinkelte Darstellung der Person die Genauigkeit der Detektion negativ beeinträchtigen.
Um die verdrehte Natur von Leuten in dem Bild zu berücksichtigen, kann das gleitende Fenster 62 aus einem korrigierten Raum statt aus dem Bildkoordinatenraum entnommen werden. Der korrigierte Raum kann die perspektivische Ansicht auf eine rechteckige Ansicht abbilden, die auf die Bodenebene ausgerichtet ist.
Anders ausgedrückt kann der korrigierte Raum eine vertikale Linie in den Arbeitszonenbereich so abbilden, dass sie in einem justierten Bild vertikal ausgerichtet ist. Dies ist in 5B schematisch gezeigt, bei der ein korrigiertes Fenster 66 das Einzelbild 60 abtastet und eine gewinkelte Person 64 auf eine vertikal ausgerichtete Darstellung 68 abbilden kann, die in einem rechteckigen Raum 70 bereitgestellt wird. Diese vertikal ausgerichtete Darstellung 68 kann dann für eine Detektion mit höherer Sicherheit sorgen, wenn sie unter Verwendung der SVM analysiert wird. Bei einer Konfiguration kann das korrigierte gleitende Fenster 66 durch eine Korrelationsmatrix ermöglicht werden, die beispielsweise zwischen einem Polarkoordinatensystem und einem rechtwinkligen Koordinatensystem abbilden kann.
Obwohl das System bei einer Ausgestaltung eine umfassende Suche über das gesamte Einzelbild unter Verwendung der vorstehend beschriebenen Suchstrategie mit einem gleitenden Fenster durchführen kann, kann diese Strategie umfassen, dass Bereiche des Bilds durchsucht werden, in denen sich Menschen physikalisch nicht aufhalten können. Daher kann das System bei einer anderen Ausgestaltung den Suchraum nur auf eine spezielle interessierende Region 72 (ROI) beschränken, wie in 5C gezeigt ist. Bei einer Ausgestaltung kann die ROI 72 den sichtbaren Fußbodenraum innerhalb des Einzelbildes 60 plus eine Randtoleranz repräsentieren, um eine Person zu berücksichtigen, die am äußersten Rand des Fußbodenraums steht.
Bei noch einer weiteren Ausgestaltung können die Rechenanforderungen noch weiter verringert werden, indem die Suche um Abschnitte der ROI 72 herum priorisiert wird, bei denen erwartet wird, dass menschliche Blobs gefunden werden. Bei dieser Ausgestaltung kann das System Hinweise verwenden, um die Suche auf der Grundlage von Zusatzinformationen, die für den Bildprozessor zur Verfügung stehen, zu beschränken oder zu priorisieren. Diese Zusatzinformationen können eine Bewegungsdetektion innerhalb des Einzelbilds, Trajektorieninformationen von einem zuvor identifizierten menschlichen Blob und eine Datenzusammenführung von anderen Kameras in dem Feld mit mehreren Kameras umfassen. Beispielsweise erzeugt der Verfolgungsalgorithmus nach der Verifizierung eines menschlichen Aufenthaltsorts auf dem zusammengeführten Bodeneinzelbild ein menschliches Bewegungsprofil und behält den Profilverlauf über folgende Einzelbilder hinweg. Wenn ein Umgebungshindernis verursacht, dass die Lokalisierung des Menschen in einem Fall fehlschlägt, kann das System den Aufenthaltsort des Menschen schnell wiedergewinnen, indem es die Trajektorie des zuvor verfolgten menschlichen Aufenthaltsorts extrapoliert, um die korrigierte Suche innerhalb der ROI 72 zu fokussieren. Wenn das Blob in mehreren Einzelbildern nicht erneut identifiziert wird, kann das System melden, dass der Ziel-Mensch verschwunden ist.
Wieder mit Bezug auf 4 wird, sobald die menschlichen Blobs in den verschiedenen Ansichten detektiert wurden, in Block 48 für jedes detektierte menschliche Blob eine Körperachsenschätzung ausgeführt. Eine Hauptkörperachsenlinie für jedes menschliche Blob wird unter Verwendung von Fluchtpunkten (die aus der Fluchtpunktdatenbank erhalten werden) in dem Bild bestimmt. Bei einer Ausgestaltung kann die Körperachsenlinie durch zwei interessierende Punkte definiert werden. Der erste Punkt ist ein Schwerpunkt des identifizierten menschlichen Blobs und der zweite Punkt (d. h. der Fluchtpunkt) ist ein jeweiliger Punkt in der Nähe eines Unterrands des Körpers (d. h. nicht unbedingt der untere Rand des Blobs und möglicherweise außerhalb des Blobs). Insbesondere ist die Körperachsenlinie eine virtuelle Linie, die den Schwerpunkt mit dem Fluchtpunkt verbindet. Eine jeweilige vertikale Körperachsenlinie wird für jedes menschliche Blob in jeder jeweiligen Kameraansicht bestimmt, wie in 6 bei 80, 82 und 84 allgemein veranschaulicht ist. Diese Linie wird allgemein das Bild des Menschen an einer Linie von Kopf bis Fuß durchschneiden. Eine Bewertung der Detektion von Menschen kann verwendet werden, um die Bestimmung einer entsprechenden Körperachse zu unterstützen. Die Bewertung stellt ein Sicherheitsniveau dafür bereit, dass ein Abgleich mit dem Menschen durchgeführt wurde und dass die entsprechende Körperachse verwendet werden soll. Jede vertikale Körperachsenlinie wird über eine Homografieabbildung verwendet, um den Aufenthaltsort des Menschen zu bestimmen und wird später im Detail erörtert.
Wieder mit Bezug auf 4 wird bei Block 49 eine Farbprofilierung ausgeführt. Es wird ein Farberscheinungsbildmodell bereitgestellt, um die gleiche Person in jeder Ansicht abzugleichen. Ein Farbprofil bildet sowohl einen Fingerabdruck und hält außerdem die Identität der jeweiligen Person über jedes erfasste Bild hinweg aufrecht. Bei einer Ausgestaltung ist das Farbprofil ein Vektor aus gemittelten Farbwerten der Körperachsenlinie mit der Begrenzungsbox des Blob.
In den Blöcken 50 und 51 werden Routinen zur Homografie-Abbildung und Integrierung mehrerer Ansichten ausgeführt, um die verschiedenen Ansichten jeweils zu koordinieren und den menschliche Aufenthaltsort auf eine gemeinsame Ebene abzubilden. Die Homografie ist (so, wie sie hier verwendet wird) ein mathematisches Konzept, bei dem eine umkehrbare Transformation Objekte von einem Koordinatensystem auf eine Linie oder Ebene abbildet.
Das Homografieabbildungsmodul 50 kann ein Körperachsen-Teilmodul und/oder ein Synergie-Teilmodul enthalten. Das Körperachsen-Teilmodul kann allgemein die Homografie verwenden, um die detektierten/berechneten Körperachsenlinien auf eine gemeinsame Ebene abzubilden, die aus einer Perspektive über den Köpfen betrachtet wird. Bei einer Ausgestaltung ist diese Ebene eine Bodenebene, die mit dem Fußboden des Arbeitszonenbereichs übereinstimmt. Diese Abbildung ist über die Bodenebenenabbildung bei 86 in 6 schematisch veranschaulicht. Nach dem Abbilden auf die gemeinsame Bodenebene können sich die verschiedenen Körperachsenlinien bei oder in der Nähe eines einzigen Lokalisierungspunkts 87 in der Bodenebene schneiden. In einem Fall, bei dem sich die Körperachsenlinien nicht perfekt schneiden, kann das System eine Herangehensweise mit kleinsten quadratischen Mittelwerten oder kleinsten mittleren Quadraten verwenden, um eine Approximation mit geringstem Fehler des Lokalisierungspunkts 87 zu identifizieren. Dieser Lokalisierungspunkt kann einen Schätzwert des Aufenthaltsorts des Menschen auf der Bodenebene innerhalb des Arbeitszonenbereichs repräsentieren. Bei einer anderen Ausführungsform kann der Lokalisierungspunkt 87 durch eine Herangehensweise mit gewichteten kleinsten Quadraten bestimmt werden, bei dem jede Linie unter Verwendung der Integritätsbewertung individuell gewichtet werden kann, welche für das Bild/die Ansicht bestimmt wurde, aus dem bzw. der die Linie bestimmt wurde.
Das Synergie-Teilmodul kann insofern ähnlich wie das Körperachsen-Teilmodul arbeiten, als es Homografie verwendet, um Inhalte von unterschiedlichen Bildansichten auf Ebenen abzubilden, die jeweils aus einer Perspektive über den Köpfen wahrgenommen werden. Anstelle jedoch eine einzelne Linie (d. h. die Körperachsenlinie) abzubilden, bildet das Synergie-Teilmodul stattdessen das gesamte detektierte Vordergrund-Blob auf die Ebene ab. Insbesondere verwendet das Synergie-Teilmodul die Homografie, um das Vordergrund-Blob auf eine Synergiekarte 88 abzubilden. Diese Synergiekarte 88 besteht aus einer Vielzahl von Ebenen, die alle parallel verlaufen, und jede bei einer anderen Höhe relativ zum Fußboden des Arbeitszonenbereichs. Die detektierten Blobs aus jeder Ansicht können unter Verwendung von Homografie in jede jeweilige Ebene abgebildet werden. Die Synergiekarte 88 kann beispielsweise bei einer Ausgestaltung eine Bodenebene, eine Mittelebene und eine Kopfebene enthalten. Bei anderen Ausgestaltungen können mehr oder weniger Ebenen verwendet werden.
Bei dem Abbilden eines Vordergrund-Blobs von jeder jeweiligen Ansicht auf eine gemeinsame Ebene kann es einen Bereich geben, bei dem sich mehrere Blob-Abbildungen überschneiden. Anders ausgedrückt weist, wenn die Pixel eines in einer Ansicht wahrgenommenen Blobs auf eine Ebene abgebildet werden, jedes Pixel der Originalansicht ein entsprechendes Pixel in der Ebene auf. Wenn mehrere Ansichten gemeinsam auf die Ebene projiziert werden, ist es wahrscheinlich, dass sie sich in einem Bereich schneiden, so dass ein Pixel in der Ebene innerhalb des Schnittbereichs mehreren Originalansichten zugeordnet sein kann. Dieser Koinzidenzbereich innerhalb einer Ebene gibt eine hohe Wahrscheinlichkeit der Anwesenheit von Menschen an diesem Ort und an dieser Höhe wieder. Auf ähnliche Weise wie bei dem Körperachsen-Teilmodul kann die Integritätsbewertung verwendet werden, um die Projektionen der Blobs aus jeder Ansicht auf die Synergiekarte 88 zu gewichten. Daher kann die Klarheit des Originalbilds die speziellen Begrenzungen des Bereichs mit hoher Wahrscheinlichkeit beeinflussen.
Sobald die Blobs von jeder Ansicht auf die jeweiligen Ebenen abgebildet wurden, können die Bereiche mit hoher Wahrscheinlichkeit isoliert werden und Bereiche längs einer gemeinsamen vertikalen Achse können zusammengruppiert werden. Indem diese Bereiche mit hoher Wahrscheinlichkeit bei unterschiedlichen Höhen isoliert werden, kann das System eine Begrenzungsumhüllung konstruieren, welche die detektierte menschliche Gestalt umhüllt. Die Position, Geschwindigkeit und/oder Beschleunigung dieser Begrenzungsumhüllung kann dann verwendet werden, um das Verhalten benachbarter automatisierter Geräte, etwa eines Montageroboters, zu verändern oder um eine Warnung bereitzustellen, beispielsweise, wenn eine Person dabei ist, in eine definierte Schutzzone hineinzutreten oder hineinzugreifen. Wenn die Begrenzungsumhüllung beispielsweise ein designiertes eingeschränktes Volumen überschneidet oder darauf trifft, kann das System das Verhalten von automatisierten Geräten innerhalb des eingeschränkten Volumens verändern (z. B. kann es einen Roboter verlangsamen oder stoppen). Zudem kann das System die Bewegung des Objekts antizipieren, indem es die Geschwindigkeit und/oder die Beschleunigung des Objekts überwacht, und es kann das Verhalten des automatisierten Geräts verändern, wenn eine Kollision oder Interaktion antizipiert wird.
Zusätzlich zur reinen Identifizierung der Begrenzungsumhüllung kann die Gesamtheit der Umhüllung (und/oder die Gesamtheit jeder Ebene) hinunter auf die Bodenebene abgebildet werden, um einen wahrscheinlichen Fußbodenbereich zu bestimmen, der besetzt ist. Bei einer Ausgestaltung kann dieser besetzte Fußbodenbereich verwendet werden, um den Lokalisierungspunkt 87 zu validieren, der von dem Körperachsen-Teilmodul bestimmt wurde. Beispielsweise kann der Lokalisierungspunkt 87 validiert werden, wenn er innerhalb eines mit hoher Wahrscheinlichkeit besetzten Fußbodenbereichs liegt, was durch das Synergie-Teilmodul bestimmt wurde. Andererseits kann das System einen Fehler identifizieren oder den Lokalisierungspunkt 87 zurückweisen, wenn der Punkt 87 außerhalb des Bereichs liegt.
Bei einer anderen Ausgestaltung kann eine Primärachse durch die Begrenzungsumhüllung derart gezogen werden, dass die Achse innerhalb des Arbeitszonenbereichs im Wesentlichen vertikal ist (d. h. im Wesentlichen rechtwinklig zu der Bodenebene). Die primäre Achse kann an einer mittleren Stelle innerhalb der Begrenzungsumhüllung gezogen werden und kann die Bodenebene bei einem zweiten Lokalisierungspunkt schneiden. Dieser zweite Lokalisierungspunkt kann mit dem Lokalisierungspunkt 87 zusammengeführt werden, der mit Hilfe Körperachsen-Teilmoduls bestimmt wurde.
Bei einer Ausgestaltung kann die Integration 51 mehrerer Ansichten mehrere unterschiedliche Informationstypen zusammenführen, um die Wahrscheinlichkeit einer genauen Detektion zu erhöhen. Beispielsweise können, wie in 6 gezeigt ist, die Informationen innerhalb der Bodenebenenkarte 86 und die Informationen innerhalb der Synergiekarte 88 zusammengeführt werden, um eine konsolidierte Wahrscheinlichkeitskarte 92 zu bilden. Um die Wahrscheinlichkeitskarte 92 weiter zu verfeinern, kann das System 10 zusätzlich 3D-Stereodarstellungen oder konstruierte Gitterpunktdarstellungen 94 des Arbeitszonenbereichs mit den Wahrscheinlichkeitsschätzwerten zusammenführen. Bei dieser Ausgestaltung kann das 3D-stereo skalierungsinvariante Merkmalstransformationen (SIFTs, SIFT von scale-invariant feature transform) verwenden, um zunächst Merkmale und deren Entsprechungen zu erhalten. Dann kann das System eine epipolare Korrektur sowohl an Stereopaaren beruhend auf den bekannten intrinsischen Kameraparametern als auch den Merkmalsentsprechungen durchführen. Unter Verwendung eines bereitgestellten Blockabgleichsverfahrens, beispielsweise in OpenCV, kann dann eine Disparitätskarte (Tiefenkarte) in Echtzeit erhalten werden.
Auf ähnliche Weise verwendet die Gitterpunktdarstellung die aus der Hintergrundsubtraktion erhaltenen Bildsilhouetten, um eine Tiefenrepräsentation zu erzeugen. Das System projiziert 3D-Gitterpunkte auf alle Bildebenen (der mehreren verwendeten Kameras) und stellt fest, ob sich die Projektion in den meisten Bildern mit Silhouetten (Vordergrundpixeln) überschneidet. Da bestimmte Bilder aufgrund von Robotern oder Fabrikgeräten verdeckt sein können, kann das System ein Bewertungsschema verwenden, das eine Überschneidungszustimmung von allen Bildern nicht direkt benötigt. Die 3D-Stereo- und Gitterpunktergebnisse bieten Informationen darüber, wie die Objekte den 3D-Raum besetzen, die verwendet werden können, um die Wahrscheinlichkeitskarte 92 zu verbessern.
Das Entwickeln der Wahrscheinlichkeitskarte 92, indem verschiedene Arten von Daten zusammengeführt werden, kann auf mehrere verschiedene Weisen bewerkstelligt werden. Die einfachste ist ein Ansatz mit einer ”einfachen gewichteten mittleren Integration”, welche einen Gewichtungskoeffizienten auf jeden Datentyp anwendet (d. h. die Körperachsenprojektion, die Synergiekarte 88, die 3D-Stereotiefenprojektion und/oder die Gitterpunktdarstellung). Darüber hinaus kann die Körperachsenprojektion ferner Gauß-Verteilungen um jede Körperachsenlinie herum enthalten, wobei jede Gauß-Verteilung die Verteilung von Blob-Pixeln um die jeweilige Körperachsenlinie herum repräsentiert. Bei einer Projektion auf die Bodenebene können sich die Verteilungen überschneiden, was bei der Bestimmung des Lokalisierungspunkts 87 helfen kann oder welche mit der Synergiekarte zusammengeführt werden können.
Ein zweiter Ansatz zum Zusammenführen kann eine 3D-Stereo- und/oder eine Gitterpunktdarstellung-Tiefenkarte zusammen mit einer Vordergrund-Blob-Projektion verwenden, um das Bild vorzufiltern. Nach der Vorfilterung kann das System eine Analyse von Körperachsen auf mehreren Ebenen mit diesen gefilterten Regionen durchführen, um in jeder Ansicht eine Extraktion der Körperachse mit höherer Sicherheit bereitzustellen.
Wieder mit Bezug auf 4 kann bzw. können in Block 52 ein oder mehrere Bewegungsprofile auf der Grundlage der ermittelten Homografieinformationen in mehreren Ansichten und des Farbprofils zusammengesetzt werden. Diese Bewegungsprofile können die geordnete Bewegung eines detektierten Menschen durch den Arbeitszonenbereich hindurch repräsentieren. Bei einer Ausgestaltung werden die Bewegungsprofile unter Verwendung eines Kalman-Filters gefiltert. Bei der Kalman-Filterung sind die Zustandsvariablen der Aufenthaltsort auf dem Boden und die Geschwindigkeit der Person.
Bei Block 53 kann das System feststellen, ob ein Benutzerbewegungsprofil mit einem erwarteten oder akzeptablen Bewegungsprofil für eine spezielle Prozedur übereinstimmt. Zudem kann das System auch versuchen, die Absicht der Person zum Fortsetzen eines Wegs in eine bestimmte Richtung zu ”antizipieren”. Diese Absichtsinformationen können in anderen Modulen verwendet werden, um die zeitliche Annäherungsrate und Distanz zwischen der Person und der Detektionszone zu berechnen (dies ist besonders wichtig beim Verbessern einer Zonendetektionslatenz bei Zonen mit dynamischer Detektion, welche der Bewegung von Geräten wie etwa Robotern, Förderern, Gabelstaplern und anderen mobilen Geräten folgen). Dies sind außerdem wichtige Informationen, welche die Bewegung der Person in einen angrenzenden überwachten Bereich hinein antizipieren können, wobei die Daten der Person übertragen werden können und das empfangende System Aufmerksamkeitsmechanismen vorbereiten kann, um die Verfolgung der Person in dem betretenen überwachten Bereich schnell aufzunehmen.
Wenn die festgestellte Aktivität einer Person nicht validiert wird oder außerhalb akzeptabler Prozeduren liegt, oder wenn antizipiert wird, dass eine Person eine vordefinierte ”Sicherheitszone” verlässt, kann das System in Block 54 einen Alarm bereitstellen, der die Warnung an den Benutzer übermittelt. Beispielsweise kann der Alarm auf einer Anzeigevorrichtung angezeigt werden, wenn Personen durch die vordefinierten Sicherheitszonen, Warnzonen und kritischen Zonen des Arbeitszonenbereichs hindurchgehen. Die Warnzone und die kritischen Zonen (sowie beliebige weitere Zonen, die in dem System konfiguriert werden sollen, einschließlich dynamischer Zonen) sind Arbeitsbereiche, bei denen Alarme bereitgestellt werden, die bei Block 54 eingeleitet werden, wenn die Person die jeweilige Zone betreten hat und veranlasst, dass sich die Geräte verlangsamen, stoppen oder die Person auf andere Weise vermeiden. Die Warnzone ist ein Bereich, bei dem die Person zunächst auf die Tatsache aufmerksam gemacht wird, dass die Person einen Bereich betreten hat und sich nahe genug bei den beweglichen Geräten befindet und veranlassen kann, dass die Geräte stoppen. Die kritische Zone ist ein Ort (z. B. eine Umhüllung), der innerhalb der Warnzone konstruiert ist. Ein kritischerer Alarm kann ausgegeben werden, wenn sich die Person innerhalb der kritischen Zone befindet, so dass sich die Person über ihren Aufenthaltsort in der kritischen Zone bewusst wird oder aufgefordert wird, die kritische Zone zu verlassen. Diese Alarme werden bereitgestellt, um die Produktivität des Verarbeitungssystems zu verbessern, indem lästige Geräteabschaltungen verhindert werden, die durch ein zufälliges Eintreten in die Warnzonen von Personen verursacht werden, denen ihre Nähe dazu nicht bewusst ist. Während Intervallen mit einer erwarteten Interaktion, etwa einer Routine, die Teile in den Prozess lädt oder aus diesem entlädt, werden diese Alarme von dem System auch abgestellt. Es ist außerdem möglich, dass eine momentan stationäre Person in dem Weg einer dynamischen Zone detektiert wird, die sich in seine Richtung bewegt.
Zusätzlich zu Alarmen, die für die Person bereitgestellt werden, wenn sie sich in den jeweiligen Zonen befindet, kann der Alarm die Bewegung von automatisierten Geräten in der Nähe modifizieren oder verändern (beispielsweise können die Geräte gestoppt, beschleunigt oder verlangsamt werden), in Abhängigkeit von dem vorhergesagten Gehweg der Person (oder möglicherweise der dynamischen Zone) innerhalb des Arbeitszonenbereichs. Das heißt, die Bewegung der automatisierten Geräte wird mit einer eingestellten Routine betrieben, die vordefinierte Bewegungen bei einer vordefinierten Geschwindigkeit aufweist. Indem die Bewegungen der Person innerhalb des Arbeitszonenbereichs verfolgt und vorhergesagt werden, kann die Bewegung der automatisierten Geräte modifiziert werden (d. h. verlangsamt oder beschleunigt), um jeglichen potentiellen Kontakt mit der Person innerhalb des Arbeitszonenbereichs zu vermeiden. Dies ermöglicht, dass die Geräte den Betrieb aufrechterhalten, ohne dass der Montage/Fertigungsprozess heruntergefahren werden muss. Aktuelle fehlersichere Arbeitsweisen werden durch die Ergebnisse einer aufgabenbasierten Risikobeurteilung gesteuert und sie erfordern für gewöhnlich, dass Fabrikautomatisierungsgeräte vollständig gestoppt werden, wenn eine Person in einem kritischen Bereich detektiert wird. Startprozeduren erfordern, dass ein Bediener der Geräte die Steuerungen zurücksetzt, um den Montage/Fertigungsprozess neu zu starten. Einderartiges nicht erwartetes Stoppen in dem Prozess führt gewöhnlich zu Stillstandszeiten und Produktivitätsverlust.
Aktivitätensequenzüberwachung
Bei einer Ausgestaltung kann das vorstehend beschriebene System verwendet werden, um eine Reihe von Operationen zu überwachen, die von einem Benutzer durchgeführt werden, und um zu verifizieren, ob der überwachte Prozess korrekt durchgeführt wird. Zusätzlich zur reinen Analyse von Videoeingaben kann das System ferner den zeitlichen Ablauf und die Verwendung von Hilfsgeräten, etwa von Drehmomentschlüsseln, Mutterndrehern oder Schraubenziehern überwachen.
7 veranschaulicht auf allgemeine Weise ein Verfahren 100 zur Durchführung einer Aktivitätensequenzüberwachung unter Verwendung des vorstehenden Systems. Wie gezeigt wird bei 102 das Eingangsvideo verarbeitet, um eine interne Repräsentation 104 zu erzeugen, die verschiedene Arten von Informationen erfasst, wie etwa eine Szenenbewegung, Aktivitäten usw. Die Repräsentationen werden verwendet, um bei 106 Klassifizierer zu lernen, welche Aktionsbeschriftungen und Ähnlichkeitsbewertungen von Aktionen erzeugen. Diese Informationen werden bei 108 vereinigt und in eine semantische Beschreibung konvertiert, welche dann bei 110 mit einer Vorlage für bekannte Aktivitäten verglichen wird, um eine Fehlerprüfbewertung zu erzeugen. Eine Semantik und eine Video-Synopse werden für zur zukünftigen Bezugnahme archiviert. Bei 112 wird ein Alarm ausgelöst, wenn der Abgleich mit der Vorlage eine niedrige Bewertung erzeugt, die anzeigt, dass die ausgeführte Sequenz nicht ähnlich zu der erwarteten Vorgehensweise der Arbeitsaufgabe ist.
Dieser Prozess kann verwendet werden, um die Aktivität eines Bedieners zu validieren, indem festgestellt wird, wann und wo bestimmte Aktionen zusammen mit deren Reihenfolge durchgeführt werden. Wenn das System beispielsweise feststellt, dass der Bediener in einen speziell angeordneten Behälter greift, zu einer Ecke eines Fahrzeugs auf der Montagelinie geht, in die Hocke geht und einen Mutterndreher betätigt, kann das System feststellen, dass eine hohe Wahrscheinlichkeit vorliegt, dass der Bediener ein Rad am Fahrzeug befestigt hat. Wenn die Sequenz jedoch endet, wobei nur drei Räder befestigt worden sind, kann es anzeigen/warnen, dass der Prozess nicht abgeschlossen worden ist, da ein viertes Rad benötigt wird. Auf ähnliche Weise kann das System Aktionen mit einem Fahrzeugpflichtenheft abgleichen, um sicherzustellen, dass die benötigten Hardwareoptionen für ein spezielles Fahrzeug installiert werden. Wenn das System beispielsweise detektiert, dass der Bediener zu einer Blende mit falscher Farbe greift, kann das System den Benutzer warnen, um das Teil vor dem Fortfahren zu verifizieren. Auf diese Weise kann das Menschenüberwachungssystem als Fehlerprüfwerkzeug verwendet werden, um sicherzustellen, dass benötigte Aktionen während des Montageprozesses durchgeführt werden.
Das System kann über ausreichend Flexibilität verfügen, um mehrere unterschiedliche Weisen des Ausführens einer Sequenz von Aufgaben zu beherrschen und es kann den Prozess validieren, solange die endgültige Liste der menschlichen Bewegungsprofile und Aktivitäten die vorgegebenen Ziele an den vorgegebenen Fahrzeugstellen erfüllt. Während dabei die Effizienz möglicherweise nicht eingerechnet wird, ob eine Sequenz von Aktionen die Vorgaben für eine Montagestation korrekt erfüllt hat, kann sie separat aufgezeichnet werden. Auf diese Weise kann das tatsächliche Bewegungsprofil und Aktivitätenprotokoll mit einem optimierten Bewegungsprofil verglichen werden, um eine Gesamtabweichung zu quantifizieren, welche verwendet werden kann, um Verbesserungen bei der Prozesseffizienz vorzuschlagen (z. B. über eine Anzeige oder einen gedruckten Aktivitätenbericht).
8 stellt ein detailliertes Blockdiagramm 120 des Aktivitätenüberwachungsschemas bereit. Wie gezeigt, werden Videodatenströme von den Kameras bei Block 32 erfasst. Diese Datenströme werden bei 33 durch ein Systemintegritätsüberwachungsmodul geleitet, das verifiziert, dass die Bilder in einem normalen Arbeitsbereich liegen. Wenn die Videoeingänge aus dem normalen Arbeitsbereich herausfallen, wird ein Fehler ausgelöst, und das System geht in einen sicheren Betriebsmodus über. Der nächste Schritt nach der Systemintegritätsüberwachung ist ein Menschendetektor-Verfolgermodul 122, welches vorstehend in 4 allgemein beschrieben ist. Dieses Modul 122 erfasst alle Videoeingänge und detektiert die sich in der Szene bewegenden Menschen. Sobald Kandidaten für sich bewegende Blobs verfügbar sind, kann das System Klassifizierer zur Verarbeitung verwenden, um die sich nicht bewegenden Instanzen auszufiltern. Die resultierende Ausgabe dieses Moduls besteht aus menschlichen 3D-Bewegungsprofilen. Der nächste Schritt umfasst bei 124 das Extrahieren geeigneter Darstellungen aus den menschlichen 3D-Bewegungsprofilen. Die Darstellungsschemata sind komplementär und umfassen Bildpixel 126 zur Modellierung des Erscheinungsbilds von Aktivitäten, interessierende Raum-Zeit-Punkte (STIPs) 128 zur Darstellung einer Szenenbewegung, Bewegungsprofile 130 zum Isolieren von Handelnden vom Hintergrund und Gitterpunkte 132, die Informationen über mehrere Ansichten hinweg integrieren. Jedes dieser Darstellungsschemata wird nachstehend in größerem Detail beschrieben.
Sobald bei 104 die Informationen extrahiert und in den vorstehenden komplementären Formen dargestellt wird, extrahiert das System bestimmte Merkmale und leitet diese durch einen entsprechenden Satz vorab trainierten Klassifizierern. Ein zeitlicher SVM-Klassifizierer 134 arbeitet mit den STIP-Merkmalen 128 und erzeugt Aktionsbeschriftungen 136 wie etwa Stehen, Wippen, Gehen, Biegen usw., ein räumlicher SVM-Klassifizierer 138 arbeitet mit den Rohbildpixeln 126 und erzeugt Aktionsbeschriftungen 140, die extrahierten Bewegungsprofilinformationen 130 werden zusammen mit Aktionsbeschriftungen mit einem dynamischen Zeit-Warping 142 verwendet, um Bewegungsprofile mit typischen erwarteten Bewegungsprofilen zu vergleichen und eine Aktionsähnlichkeitsbewertung 144 zu erzeugen. Ein Klassifizierer 146 zur Schätzung menschlicher Posen wird trainiert, so dass er eine Gitterpunktdarstellung 132 als Eingabe aufnehmen kann und eine Posenschätzung 148 als Ausgabe erzeugen kann. Die resultierende Kombination aus zeitlichen, räumlichen, Bewegungsverlaufvergleichen und gitterpunktbasierten Posen wird in eine räumlich-zeitliche Signatur 150 eingegeben, welche zum Baustein für das semantische Beschreibungsmodul 152 wird. Diese Informationen werden dann verwendet, um alle Aktivitätensequenzen in ihre atomaren Aktionsbestandteile zu zerlegen und einen UND-ODER-Graphen 154 zu erzeugen. Der extrahierte UND-ODER-Graph 154 wird dann mit einer Liste von vorgeschriebenen Aktivitäten verglichen und bei 156 wird eine Übereinstimmungsbewertung erzeugt. Eine niedrige Übereinstimmungsbewertung wird verwendet, um einen Alarm auszulösen, der anzeigt, dass die beobachtete Aktion nicht typisch und stattdessen anormal ist. Bei 158 wird eine Semantik und eine visuelle Synopse bzw. Zusammenfassung erzeugt und archiviert.
Räumlich-Zeitlich interessierende Punkte (STIPs) zum Repräsentieren von Aktionen
STIPs 128 sind detektierte Merkmale, die eine erhebliche lokale Veränderung bei Bildeigenschaften über den Raum und/oder die Zeit hinweg aufweisen. Viele dieser interessierenden Punkte werden während der Ausführung einer Aktion durch einen Menschen erzeugt. Unter Verwendung der STIPs 128 kann das System versuchen, festzustellen, welche Aktion gerade innerhalb der beobachteten Videosequenz stattfindet. Jedes extrahierte STIP-Merkmal 128 wird bei 134 durch den Satz von SVM-Klassifizierern geleitet, und ein Bewertungsmechanismus stellt fest, mit welcher Aktion das Merkmal am wahrscheinlichsten verbunden ist. Ein gleitendes Fenster bestimmt dann die detektierte Aktion in jedem Einzelbild auf der Grundlage der Klassifizierung der detektierten STIPs innerhalb des Zeitfensters. Da es mehrere Ansichten gibt, zieht das Fenster alle detektierten Merkmale von allen Ansichten in Betracht. Die resultierenden Informationen in der Form von Aktion pro Einzelbild können in einen Graphen verdichtet werden, der die Sequenz der detektierten Aktionen anzeigt. Schließlich kann dieser Graph mit dem Graphen abgeglichen werden, der während der Trainingsphase der SVM erzeugt wurde, um die Korrektheit der detektierten Aktionssequenz zu verifizieren.
Bei einem Beispiel können STIPs 128 erzeugt werden, während eine Person beobachtet wird, die sich über eine Plattform hinweg bewegt, um einen Drehmomentschlüssel an speziellen Regionen des Autos zu verwenden. Diese Aktion kann umfassen, dass die Person von einer Gehpose in eine von vielen Bohrposen wechselt, diese Pose eine kurze Weile beibehält und zurück zu der Gehpose wechselt. Da STIPs auf Bewegung beruhende interessierende Punkte sind, sind diejenigen, die erzeugt werden, wenn man in jede Pose geht und aus dieser herauskommt, diejenigen, welche eine Aktion von einer anderen unterscheiden.
Dynamisches Zeit-Warping
Das dynamische Zeit-Warping (DTW) (ausgeführt bei 142) ist ein Algorithmus zum Messen der Ähnlichkeit zwischen zwei Sequenzen, die sich in der Zeit oder der Geschwindigkeit unterscheiden können. Beispielsweise würden Ähnlichkeiten bei Gehmustern zwischen Bewegungsprofilen mit Hilfe der DTW detektiert werden, selbst wenn in einer Sequenz die Person langsam geht und sie in einer anderen schneller geht, oder sogar, wenn es Beschleunigungen, Verzögerungen oder mehrere kurze Stopps gibt, oder auch wenn sich zwei Sequenzen im Verlauf einer Beobachtung im Zeitablauf verschieben. DTW kann auf zuverlässige Weise einen optimalen Abgleich zwischen zwei gegebenen Sequenzen (z. B. einer zeitlichen Abfolge) finden. Die Sequenzen werden in der Zeitdimension nichtlinear ”gewarpt”, um ein Maß ihrer Ähnlichkeit unabhängig von bestimmten nichtlinearen Variationen bei der zeitlichen Dimension zu bestimmen. Der DTW-Algorithmus verwendet eine dynamische Programmiertechnik, um dieses Problem zu lösen. Der erste Schritt besteht darin, jeden Punkt in einem Signal mit jedem Punkt in dem zweiten Signal zu vergleichen, wobei eine Matrix erzeugt wird. Der zweite Schritt besteht darin, sich durch diese Matrix hindurch zu arbeiten, beginnend bei der unteren linken Ecke (die dem Beginn von beiden Sequenzen entspricht) und bei der oberen rechten Ecke endend (dem Ende von beiden Sequenzen). Für jede Zelle wird der kumulierte Abstand berechnet, indem die benachbarte Zelle in der Matrix links oder unten mit dem niedrigsten kumulierten Abstand ausgewählt wird und dieser Wert zu dem Abstand der Zelle im Fokus addiert wird. Wenn dieser Prozess abgeschlossen ist, repräsentiert der Wert in der obersten rechten Zelle den Abstand zwischen den zwei Sequenzsignalen in Übereinstimmung mit dem effizientesten Weg durch die Matrix hindurch.
DTW kann die Ähnlichkeit unter Verwendung nur der Bewegungsprofile oder der Bewegungsprofile plus Ortsbeschriftungen messen. In dem Kontext einer Fahrzeugmontage können sechs Ortsbeschriftungen verwendet werden: FD, MD, RD, RP, FP und gehend, wobei F, R und M Front, Mitte und Heck des Autos repräsentieren und D und P die Fahrer- bzw. Beifahrerseite repräsentieren. Die Abstandskosten von DTW werden berechnet als: cost = αE + (1 – α)L, 0 ≤ α ≤ 1. wobei E der euklidische Abstand zwischen zwei Punkten auf den zwei Bewegungsprofilen ist und L die Histogrammdifferenz von Orten innerhalb eines bestimmten Zeitfensters ist; α ist eine Gewichtung und wird auf 0,8 gesetzt, wenn sowohl das Bewegungsprofil als auch Ortsbeschriftungen zur DTW-Messung verwendet werden. Andernfalls ist α = 1 für eine reine Bewegungsprofilmessung.
Aktionsbeschriftungen unter Verwendung räumlicher Klassifizierer
Ein Einzelbilderkennungssystem kann verwendet werden, um zwischen einer Anzahl möglicher Bruttoaktionen zu unterscheiden, die in den Daten sichtbar sind: z. B. Gehen, Biegen, Kauern und Greifen nach. Diese Aktionsbeschriftungen können unter Verwendung von skalierungsinvarianten Merkmalstransformationen (SIFT) und SVM-Klassifizierern bestimmt werden. Auf der untersten Ebene der meisten Kategorisierungstechniken befindet sich ein Verfahren zum Kodieren eines Bilds auf eine Weise, die für die verschiedenen Störungen unempfindlich ist, die im Bildentstehungsprozess entstehen können (Beleuchtung, Pose, Blickpunkt und Verdeckungen). In der Technik ist bekannt, dass SIFT-Deskriptoren unempfindlich gegenüber Beleuchtung sind, robust bei kleinen Variationen in der Pose und im Blickpunkt sind und invariant gegenüber Veränderungen bei der Skalierung und Orientierung sein können. Der SIFT-Deskriptor wird innerhalb einer kreisförmigen Bildregion um einen Punkt mit einer speziellen Skalierung berechnet, welche den Radius des Bereichs und die benötigte Bildunschärfe festlegt. Nach dem Vergröbern des Bilds werden eine Gradientenorientierung und Größe gefunden und ein Netz aus räumlichen Behältern deckt den kreisförmigen Bildbereich ab. Der endgültige Deskriptor ist ein normiertes Histogramm von Gradientenorientierungen, die durch die Größe gewichtet sind (wobei eine Gaußsche Gewichtung vom Mittelpunkt aus abnimmt), getrennt durch einen räumlichen Behälter. Wenn daher das räumliche Behälternetz 4 × 4 ist und es acht Orientierungsbehälter gibt, weist der Deskriptor eine Größe von 4·4·8 = 128 Behältern auf. Obwohl die Orte, Skalierungen und Orientierungen von SIFT-Deskriptoren auf Weisen gewählt werden können, die für die Pose und den Blickpunkt invariant sind, verwenden die meisten Kategorisierungstechniken nach dem Stand der Technik feste Skalen und Orientierungen und ordnen die Deskriptoren in einem Netz aus sich überlappenden Domänen an. Dies verstärkt nicht nur die Leistung, sondern es erlaubt auch eine sehr schnelle Berechnung von allen Deskriptoren in einem Bild.
Damit eine visuelle Kategorie verallgemeinert werden kann, muss es einige visuelle Ähnlichkeiten zwischen den Elementen der Klasse geben und gewisse Unterschiede im Vergleich zu Nichtmitgliedern. Zudem wird jeder große Satz von Bildern eine große Vielfalt von redundanten Daten aufweisen (Wände, den Fußboden usw.). Dies führt zu der Bezeichnung von ”visuellen Worten” – ein kleiner Satz von Prototyp-Deskriptoren, die aus der gesamten Sammlung von Trainings-Deskriptoren unter Verwendung einer Vektorquantisierungstechnik wie k-Means-Clustering hergeleitet sind. Sobald der Satz der visuellen Worte berechnet ist – als Codebuch bekannt – können Bilder nur mit Hilfe dessen beschrieben werden, welche Worte wo und mit welchen Frequenzen auftreten. Wir verwenden das k-Means-Clustering, um das Codebuch zu erzeugen. Dieser Algorithmus sucht k Mittelpunkte innerhalb des Raums der Daten, von denen jeder eine Sammlung von Datenpunkten repräsentiert, die in diesem Raum am nächsten dazu fallen. Nachdem die k Clustermittelpunkte (das Codebuch) aus Trainings-SIFT-Deskriptoren gelernt wurden, ist das visuelle Wort eines jeden neuen SIFT-Deskriptors einfach der Clustermittelpunkt, der ihm am nächsten liegt.
Nachdem ein Bild auf SIFT-Deskriptoren und visuelle Worte heruntergebrochen wurde, können diese visuellen Worte verwendet werden, um einen Deskriptor für das gesamte Bild zu bilden, welcher einfach ein Histogramm aus allen visuellen Worten in dem Bild ist. Optional können Bilder auf räumliche Behälter heruntergebrochen werden und diese Bildhistogramme können räumlich auf die gleiche Weise getrennt werden, in der SIFT-Deskriptoren berechnet werden. Dies fügt eine gewisse lose Geometrie zu dem Prozess des Lernens von Aktionen aus Rohpixelinformationen hinzu.
Der finale Schritt des Prozesses zum Lernen von visuellen Kategorien besteht darin, eine Stützvektormaschine (SVM) zu trainieren, um zwischen den Klassen zu unterscheiden, wenn Beispiele von deren Bildhistogrammen gegeben sind.
Im vorliegenden Kontext kann die auf Bildern basierende Technik verwendet werden, um bestimmte menschliche Aktionen zu erkennen, wie etwa Biegen, Kauern und Greifen nach. Jede ”Aktion” kann eine Sammlung von sequentiellen Einzelbildern umfassen, die zusammengruppiert sind, und das System kann nur den Teil eines Bilds verwenden, in dem der interessierende Mensch vorhanden ist. Da mehrere gleichzeitige Ansichten zu Verfügung stehen, kann das System eine SVM pro Ansicht trainieren, wobei die SVM jeder Ansicht jedes Einzelbild einer Aktion bewertet (oder damit trainiert wird). Eine Stimmenzählung kann dann über alle SVM-Einzelbilder über alle Ansichten für eine spezielle Aktion berechnet werden. Die Aktion wird klassifiziert als die Klasse mit der höchsten Gesamtstimmenzahl.
Das System kann dann das Menschenverfolgermodul verwenden, um sowohl zu bestimmen, wo sich die Person in jedem Bild zu jedem Zeitpunkt befindet, als auch zu entscheiden, welche Einzelbilder für den Klassifizierungsprozess relevant sind. Zuerst können die Bodenbewegungsprofile verwendet werden, um festzustellen, wenn die Person in dem Einzelbild eine interessierende Aktion ausführt. Da die einzige Weise, auf die sich eine Person signifikant bewegen kann, im Gehen besteht, wird angenommen, dass alle Einzelbilder, die großen Bewegungen auf dem Boden entsprechen, Bilder der gehenden Person enthalten. Daher brauchen diese Einzelbilder nicht mit dem bildbasierten Kategorisierer klassifiziert zu werden.
Wenn ein Bewegungsprofil analysiert wird, zeigen lange Perioden mit wenig Bewegung zwischen Bewegungsperioden Einzelbilder an, bei denen die Person eine andere Aktion als Gehen ausführt. Einzelbilder, die langen Perioden mit geringer Bewegung entsprechen, werden in Gruppen unterteilt, von denen jede eine unbekannte Aktion bildet (oder eine beschriftete Aktion, wenn sie zum Training verwendet wird). In diesen Einzelbildern liefert der Menschenverfolger eine Begrenzungsbox, die angibt, welcher Abschnitt des Bilds die Person enthält. Wie vorstehend erwähnt wurde, kann die Begrenzungsbox in einem korrigierten Bildraum spezifiziert werden, um ein genaueres Training und eine genauere Wiedererkennung zu ermöglichen.
Sobald die interessierenden Einzelbilder und Begrenzungsboxen durch den Menschenverfolger gefunden wurden, ist die Prozedur zum Training der SVMs sehr ähnlich zu dem herkömmlichen Fall. SIFT-Deskriptoren werden in jeder Aktionsbildbegrenzungsbox berechnet – über alle Einzelbilder und alle Ansichten hinweg. Innerhalb jeder Ansicht werden diejenigen Bilder, die zu einer Aktion gehören (d. h. temporär zusammengruppiert sind) von Hand für ein SVM-Training beschriftet. Das k-Means-Clustering baut ein Codebuch auf, welches dann verwendet wird, um Bildhistogramme für jede Begrenzungsbox zu erzeugen. Aus einer Ansicht abgeleitete Bildhistogramme werden verwendet, um deren SVM zu trainieren. In einem System mit beispielsweise sechs Kameras gibt es sechs SVMs, von denen jede die drei möglichen Aktionen klassifiziert.
Wenn eine neue Sequenz gegeben ist, wird eine Anzahl von unbeschrifteten Aktionen in der vorstehend beschriebenen Weise extrahiert. Diese Einzelbilder und Begrenzungsboxen werden jeweils unter Verwendung der geeigneten ansichtsbasierten SVM klassifiziert. Jede der SVMs erzeugt Bewertungen für jedes Einzelbild der Aktionssequenz. Diese werden zusammenaddiert, um eine kumulierte Bewertung für die Aktion über alle Einzelbilder und alle Ansichten hinweg zu berechnen. Die Aktion (Kategorie), welche die höchste Bewertung aufweist, wird als die Beschriftung für die Aktionssequenz gewählt.
Zu verschiedenen Zeitpunkten kann die Person in einer speziellen Ansicht verdeckt sein, aber in anderen sichtbar sein. Verdeckte Ansichten erzielen für alle Kategorien Stimmen gleich Null. Unter Verwendung von einer Sequenz für ein beschriftetes Training und von vier verschiedenen Sequenzen zum Testen wird eine erhöhte Genauigkeit erreicht. Es ist wichtig, anzumerken, dass das gleiche Codebuch, das beim Training entwickelt wurde, zum Testzeitpunkt verwendet wird, da die SVMs andernfalls nicht in der Lage wären, die resultierenden Bildhistogramme zu klassifizieren.
Das System kann ein gitterpunktbasiertes Rekonstruktionsverfahren anwenden, das die sich im Vordergrund bewegenden Objekte von den mehreren Ansichten verwendet, um ein 3D-Volumen zu rekonstruieren, indem 3D-Gitterpunkte auf jede der Bildebenen projiziert werden und festgestellt wird, ob die Projektion sich mit den jeweiligen Silhouetten von Vordergrundobjekten überschneidet. Sobald die 3D-Rekonstruktion abgeschlossen ist, kann das System beispielsweise zylindrische Modelle an die unterschiedlichen Teile anpassen und die Parameter verwenden, um einen Klassifizierer zu trainieren, der die Pose des Menschen schätzt.
Die Repräsentations- und Lernschritte im Blockdiagramm von 6 werden dann mit beliebigen externen Signalen kombiniert wie sie beispielsweise von einem oder mehreren Hilfswerkzeugen ausgegeben werden können (z. B. Drehmomentschlüsseln, Mutterdrehern, Schraubenziehern, usw.), um eine räumlich-zeitliche Signatur zu bilden. Diese kombinierten Informationen werden dann verwendet, um bei 154 UND-ODER-Graphen aufzubauen. UND-ODER-Graphen sind allgemein in der Lage, kompliziertere Szenarien zu beschreiben als ein einfacher Baumgraph. Der Graph besteht aus zwei Arten von Knoten; ”Oder”-Knoten, welche die gleichen Knoten wie in einem typischen Baumgraphen sind, und ”Und”-Knoten, die ermöglichen, dass sich ein den Baum hinunterlaufender Pfad in mehrere gleichzeitige Pfade aufteilt. Diese Struktur wird verwendet, um die akzeptablen Sequenzen von Aktionen zu beschreiben, die in einer Szene auftreten. In diesem Kontext ermöglichen die ”Und”-Knoten die Beschreibung von Ereignissen wie etwa Aktion A tritt auf, dann treten die Aktionen B und C zusammen auf oder D tritt auf, was ein Standardbaumgraph nicht beschreiben kann.
Bei einer anderen Ausgestaltung kann das System anstelle von UND-ODER-Graphen bei 154 endliche Zustandsmaschinen verwenden, um die Benutzeraktivität zu beschreiben. Endliche Zustandsmaschinen werden oft verwendet, um Systeme mit mehreren Zuständen zusammen mit den Bedingungen zum Übergang zwischen den Zuständen zu beschreiben. Nachdem ein Aktivitätenerkennungssystem eine Sequenz temporär in elementare Aktionen segmentiert hat, kann das System die Sequenz bewerten, um festzustellen, ob sie mit einem Satz von bestätigten Aktionssequenzen übereinstimmt. Der Satz der bestätigten Sequenzen kann auch aus Daten gelernt werden, etwa durch Aufbauen einer endlichen Zustandsmaschine (FSM) aus Trainingsdaten und durch Testen jeder Sequenz, indem sie durch die FSM hindurchgeschickt wird.
Das Erzeugen einer FSM, die den gesamten Satz von gültigen Aktionssequenzen repräsentiert, ist einfach. Wenn eine Gruppe von Trainingssequenzen gegeben ist (bereits unter Verwendung des Aktionserkennungssystems klassifiziert), werden zuerst die Knoten der FSM erzeugt, indem die Vereinigungsmenge aller eindeutigen Aktionsbeschriftungen über alle Trainingssequenzen hinweg gesucht wird. Sobald die Knoten erzeugt wurden, kann das System eine gerichtete Kante vom Knoten A zum Knoten B platzieren, wenn Knoten B in einer beliebigen Trainingssequenz Knoten A unmittelbar folgt.
Das Testen einer gegebenen Sequenz ist gleichermaßen einfach: Die Sequenz wird durch die Maschine hindurchgeschickt, um festzustellen, ob sie den Auslasszustand erreicht. Wenn sie es tut, ist die Sequenz gültig, andernfalls nicht.
Da das System die Position der Person kennt, wenn jede Aktivität ausgeführt wird, kann es auch räumliche Informationen in der Struktur der FSM enthalten. Dies fügt zusätzliche Details und die Möglichkeit zum Bewerten einer Aktivität mit Hilfe der Position, nicht nur der Sequenz von Ereignissen hinzu.
Videosynopse
Dieses Videosynopsenmodul 158 von 8 nimmt die Videoeingangssequenzen und repräsentiert dynamische Aktivitäten in einer sehr effizienten und kompakten Form zur Interpretation und Archivierung. Die resultierende Synopse maximiert Informationen, indem sie mehrere Aktivitäten gleichzeitig zeigt. Bei einer Herangehensweise wird eine Hintergrundansicht gewählt und Vordergrundobjekte aus gewählten Einzelbildern werden extrahiert und in die Basisansicht eingeblendet. Die Einzelbildauswahl beruht auf den Aktionsbeschriftungen, die von dem System erhalten werden, und ermöglicht die Auswahl derjenigen Teilsequenzen, bei denen eine interessierende Aktion stattfindet.
Mehrere Arbeitszonenbereiche
Das hier beschriebene Menschenüberwachungssystem detektiert und überwacht eine Person auf gründliche Weise in einem Arbeitszonenbereich von mehreren verschiedenen Blickpunkten aus, so dass die Verdeckung einer Person in einem oder mehreren der Blickpunkte die Verfolgung der Person nicht beeinträchtigt. Darüber hinaus kann das Menschenüberwachungssystem die automatisierten beweglichen Fabrikgeräte justieren und dynamisch umkonfigurieren, um potentielle Interaktionen mit der Person innerhalb des Arbeitszonenbereichs zu vermeiden, ohne die automatisierten Geräte stoppen zu müssen. Dies kann umfassen, dass für die automatisierten beweglichen Geräte ein neuer Verfahrweg bestimmt und durchquert wird. Das Menschenüberwachungssystem kann mehrere Leute in einem Arbeitszonenbereich verfolgen, die Verfolgung auf andere Systeme übertragen, die für das Überwachen benachbarter Bereiche verantwortlich sind und es können verschiedene Zonen für mehrere Stellen innerhalb des Arbeitszonenbereichs definiert werden.
9 zeigt eine graphische Darstellung von mehreren Arbeitszonenbereichen. Die Erfassungsgeräte 12 für einen jeweiligen Arbeitszonenbereich sind mit einer jeweiligen Verarbeitungseinheit 18 gekoppelt, die dem jeweiligen Arbeitszonenbereich fest zugeordnet ist. Alle jeweiligen Verarbeitungseinheiten identifizieren und verfolgen die Nähe zu Leuten, die ihren jeweiligen Arbeitszonenbereich durchqueren, und kommunizieren miteinander über eine Netzwerkkopplung 170, so dass Personen verfolgt werden können, wenn sie von einem Arbeitszonenbereich zu einem anderen wechseln. Als Folge können mehrere visuelle Überwachungssysteme gekoppelt werden, um Personen zu verfolgen, wenn sie zwischen den verschiedenen Arbeitszonenbereichen interagieren.
Es versteht sich, dass die Verwendung des Sichtüberwachungssystems in einer Fabrikumgebung wie hier beschrieben nur ein Beispiel dafür ist, wo das Sichtüberwachungssystem benutzt werden kann, und dass dieses Sichtüberwachungssystem die Fähigkeit aufweist, bei jeder Anwendung außerhalb einer Fabrikumgebung angewendet zu werden, bei der die Aktivitäten von Leuten in einem Bereich verfolgt werden und die Bewegung und Aktivität protokolliert werden.
Das Sichtüberwachungssystem ist bei der automatisierten Zeit- und Bewegungsstudie von Aktivitäten nützlich, die verwendet werden kann, um die Leistung zu überwachen und um Daten zur Verwendung beim Verbessern der Effizienz und Produktivität von Arbeitszellenaktivitäten bereitzustellen. Diese Fähigkeit kann außerdem eine Aktivitätenüberwachung innerhalb einer vorgeschriebenen Sequenz ermöglichen, bei der Abweichungen in der Sequenz identifiziert und protokolliert werden können, und es können Alarme für die Detektion von Aufgabenfehlern bei Menschen erzeugt werden. Diese ”Fehlerüberprüfungs”-Fähigkeit kann verwendet werden, um zu verhindern, dass sich Aufgabenfehler auf nachfolgende Operationen verbreiten und Qualitäts- und Produktivitätsprobleme aufgrund von Fehlern in der Sequenz oder bei der korrekten Materialwahl für die vorgeschriebene Aufgabe verursachen.
Es versteht sich außerdem, dass eine Variante der Menschenüberwachungsfähigkeit dieses Systems wie hier beschrieben das Überwachen von eingeschränkten Bereichen ist, die erhebliche Aktivitäten von automatisierten oder anderen Geräten aufweisen können und die nur eine periodische Wartung und einen periodischen Zugriff benötigen. Dieses System würde die Integrität von Zugriffssteuerungen auf diese Bereiche überwachen und Alarme wegen eines nicht autorisierten Zugriffs auslösen. Da Wartung oder eine Routineinstandhaltung in diesem Bereich bei Freischichten oder anderen Stillstandszeiten benötigt werden kann, würde das System einen autorisierten Zugriff und Operationen einer oder mehrerer Personen überwachen und würde Alarme lokal und bei einer entfernten Überwachungsstation auslösen, wenn eine Aktivität aufgrund eines Unfalls oder eines medizinischen Notfalls unerwartet stoppt. Diese Fähigkeit kann die Produktivität dieser Arten von Aufgaben verbessern, wobei das System als Teil eines ”Kameradensystems” betrachtet werden kann.
Obwohl die besten Arten zum Ausführen der Erfindung im Detail beschrieben wurden, wird der Fachmann auf dem Gebiet, das diese Erfindung betrifft, verschiedene alternative Entwürfe und Ausführungsformen erkennen, um die Erfindung im Umfang der beigefügten Ansprüche in die Praxis umzusetzen. Es ist beabsichtigt, dass alle Gegenstände, die in der vorstehenden Beschreibung enthalten sind oder in den beiliegenden Zeichnungen gezeigt sind, nur als Veranschaulichung und nicht als Einschränkung interpretiert werden sollen.

Claims

Menschenüberwachungssystem zum Überwachen eines Arbeitszonenbereichs mit automatisierten beweglichen Geräten, wobei das System umfasst: mehrere Kameras, die in dem gesamten Arbeitszonenbereich verteilt angeordnet sind, wobei jede Kamera ausgestaltet ist, um eine Videoeingabe zu erfassen, die eine Vielzahl von Einzelbildern enthält; einen visuellen Prozessor, der ausgestaltet ist, um: die Vielzahl der Einzelbildern von den mehreren Kameras zu empfangen; die Anwesenheit eines Menschen aus mindestens einem der Vielzahl der Einzelbilder unter Verwendung einer Mustererkennung, die an einem Eingabebild ausgeführt wird, zu detektieren; wobei das Eingabebild an die Mustererkennung ein gleitender Fensterabschnitt des mindestens einen Einzelbilds ist; wobei der gleitende Fensterabschnitt auf ein korrigiertes Koordinatensystem derart ausgerichtet ist, dass eine vertikale Achse in dem Arbeitszonenbereich auf eine vertikale Achse des Eingabebilds ausgerichtet ist; und einen Alarm bereitzustellen, wenn sich der detektierte Mensch in der Nähe der automatisierten beweglichen Geräte befindet.
System nach Anspruch 1, wobei das korrigierte Koordinatensystem entsprechend einer Perspektive des Arbeitszonenbereichs innerhalb des mindestens einen Einzelbilds und/oder eines Fluchtpunkts des mindestens einen Einzelbilds festgelegt wird.
System nach Anspruch 1, wobei die Mustererkennung eine Stützvektormaschine bzw. Support Vector Machine und/oder ein neuronales Netzwerk umfasst.
System nach Anspruch 1, wobei die Mustererkennung ferner die Pose des Menschen detektieren kann und wobei die Pose stehen, gehen, greifen und/oder kauern umfasst.
System nach Anspruch 1, wobei der visuelle Prozessor ferner ausgestaltet ist, um das gleitende Fenster aus einer interessierenden Region innerhalb des mindestens einen Einzelbilds zu wählen; wobei die interessierende Region eine Teilmenge des mindestens einen Einzelbilds ist, die ein möglicher Bereich ist, in dem sich ein Mensch aufhalten kann; und wobei die interessierende Region einen Abschnitt des Fußbodens des Arbeitszonenbereichs umfasst.
System nach Anspruch 5, wobei das gleitende Fenster die gesamte interessierende Region in einem ersten Einzelbild durchquert, bevor die Anwesenheit eines Menschen in einem nachfolgenden Einzelbild detektiert wird.
System nach Anspruch 1, wobei der visuelle Prozessor eine Position und eine Geschwindigkeit eines detektierten Menschen in einem ersten Einzelbild verwendet, um die Detektion in einem nachfolgenden Einzelbild zu priorisieren.
System nach Anspruch 1, wobei der visuelle Prozessor ferner ausgestaltet ist, um die zeitlich synchronisierten Einzelbilder von den mehreren Ansichten in ein gemeinsames Koordinatensystem zusammenzuführen; und wobei der visuelle Prozessor ausgestaltet ist, um den Aufenthaltsort des detektierten Menschen in dem gemeinsamen Koordinatensystem zu identifizieren, indem er eine Repräsentation des Menschen aus den mehreren Ansichten in das gemeinsame Koordinatensystem abbildet und indem er einen Schnittpunkt der abgebildeten Repräsentationen bestimmt.
System nach Anspruch 8, wobei der visuelle Prozessor ferner ausgestaltet ist, um ein Bewegungsprofil des detektierten Menschen in Übereinstimmung mit dem identifizierten Aufenthaltsort über eine Vielzahl von aufeinanderfolgenden Einzelbildern hinweg zusammenzusetzen.
System nach Anspruch 9, wobei der visuelle Prozessor ferner ausgestaltet ist, um: das Bewegungsprofil mit einem vorbestimmten erwarteten Bewegungsprofil zu vergleichen; und einen Alarm bereitzustellen, wenn das Bewegungsprofil dem erwarteten Bewegungsprofil nicht ähnelt.