DE102007052763A1

DE102007052763A1 - Verfahren zur Vorhersage einer Aktion eines bewegten Objekts

Info

Publication number: DE102007052763A1
Application number: DE200710052763
Authority: DE
Inventors: Markus Dipl.-Inform. Hahn; Lars Dr. Krüger; Christian Dr.rer.nat. Wöhler
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2007-11-06
Filing date: 2007-11-06
Publication date: 2008-06-12

Abstract

Die Erfindung betrifft ein Verfahren zur Vorhersage einer Aktion (A) eines bewegten Objekts (1), bei dem eine Bewegung des Objekts (1) verfolgt und mit mindestens einer Referenzbewegung verglichen wird, wobei aus einer dreidimensionalen Bewegung des Objekts (1) während der Verfolgung fortschreitend eine Trajektorie (4) gebildet wird, wobei die Trajektorie (4) in semantisch relevante Abschnitte (4.1 bis 4.n) segmentiert wird und wobei die Trajektorie (4) und/oder deren semantisch relevante Abschnitte (4.1 bis 4.n) während der Verfolgung mit mindestens einer Referenztrajektorie (6), die einer bestimmten Aktion (A) zugeordnet ist, und/oder semantisch relevanten Abschnitten (6.1 bis 6.n) der Referenztrajektorie (6) verglichen werden.

Description

Die Erfindung betrifft ein Verfahren zur Vorhersage einer Aktion eines bewegten Objekts, bei dem eine Bewegung des Objekts verfolgt und mit mindestens einer Referenzbewegung verglichen wird.
In einer Reihe von Anwendungsgebieten wird angestrebt, aus einer beobachteten Bewegung eines Objekts eine zukünftige Bewegung oder eine Aktion zu prognostizieren. So existieren Systeme zur Überprüfung von Montageprozessen in der industriellen Produktion, die einen Zusammenbau hinsichtlich des Vorhandenseins und der korrekten Lage und Orientierung einzelner Bauteile überwachen. Bei manuellen Montageprozessen kann auch eine die Montage durchführende Person hinsichtlich ihrer Bewegungen beobachtet werden, wobei der Bewegungsablauf bezüglich seiner Übereinstimmung mit einem Referenzbewegungsablauf geprüft wird.
Ist die Referenzbewegung sehr genau bekannt, wie z.B. im Fall von Industrierobotern, lassen sich Abweichungen zwischen einer beobachteten Trajektorie und einer Referenztrajektorie durch Normierung und anschließende Ermittlung eines Abstandsmaßes in einem durch eine Hauptkomponentenanalyse des aufgenommenen Bildmaterials erzeugten Raum erkennen. Für Personen, bei denen die Referenzbewegungsabläufe wesentlich weniger fest vorgegeben sind, ist dieses Verfahren jedoch nicht hinreichend robust.
Es ist auch bekannt, für eine schritthaltende Gefahrenwarnung auf eine zeitliche Trajektorienextrapolation z. B. durch Berechnung einer Zeitspanne bis zur Kollision ("time to collision") zurückzugreifen. Derartige Verfahren, die keine Vorkenntnisse über zu erwartende Bewegungsabläufe verwenden, führen allerdings erfahrungsgemäß zu einer großen Anzahl von Fehlalarmen. Systeme, die das zeitliche Verhalten einer Postur eines Körperteils, z. B. einer Hand, oder des gesamten Körpers analysieren, arbeiten häufig auf Basis der im Bild oder im dreidimensionalen Raum gemessenen Trajektorie, wie beispielsweise in [Moeslund, T. B., Hilton, A., Krüger, V., 2006. A survey of advances in vision-based human motion capture and analysis. Computer Vision and Image Understanding 104, pp. 90–126.] beschrieben ist.
In [Schmidt, J., Wähler, C., Krüger, L., Gövert, T., Hermes, C., 2007. 3D scene segmentation and object tracking in multiocular image sequences. Proc. 5th Int. Conf. an Computer Vision Systems, Bielefeld, Germany. http://biecoll.ub.unibielefeld.de/volltexte/2007/29] werden zur Vorhersage eines Bewegungsverhaltens auch Tracking-Verfahren, z. B. Kaiman-Filter oder Partikel-Filter, eingesetzt. Aus [Hoey, J., von Bertoldi, A., Poupart, P., Mihailidis, A., 2007. Assisting persons with dementia during handwashing using a partially observable Markov decision process. Proc. 5th Int. Conf. an Computer Vision Systems, Bielefeld, Germany. http://biecoll.ub.uni-bielefeld.de/volltexte/2007/12/] ist bekannt, dass die Erkennung von Aktionen anhand von Klassifikationsverfahren, z. B. neuronalen Netzwerken, oder auch mit Hidden-Markov-Modellen bzw. Erweiterungen dieses Konzepts erfolgen kann. Diese Ansätze erfordern eine große Anzahl von Lernbeispielen, wenn eine gute Generalisierungsfähigkeit erreicht werden soll. Aus gemessenen Trajektorien können durch Vergleich mit Referenztrajektorien Aktionen abgeleitet werden, wie in [Croitoru, A., Agouris, P., Stefanidis, A., 2005. 3D trajectory matching by pose normalisation. Proc. 13th ACM International Workshop an Geographic Information Systems, pp. 153–162, Bremen, Germany.] beschrieben ist. Hierbei kann zwar die Anzahl der Lernbeispiele gering gehalten werden, doch können üblicherweise die gemessenen Trajektorien erst dann den Referenztrajektorien zugeordnet werden, wenn die Trajektorie bereits vollständig durchlaufen worden ist.
Wünschenswert sind jedoch Verfahren, die auch für die Erkennung von Aktionen und die Prädiktion des Bewegungsverhaltens von Personen geeignet sind.
Es ist daher eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Vorhersage einer Aktion eines bewegten Objekts anzugeben.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1.
Vorteilhafte Weiterbildungen sind Gegenstand der Unteransprüche.
Bei einem erfindungsgemäßen Verfahren zur Vorhersage einer Aktion eines bewegten Objekts wird eine Bewegung des Objekts verfolgt und mit mindestens einer Referenzbewegung verglichen. Dabei wird aus einer dreidimensionalen Bewegung des Objekts während der Verfolgung fortschreitend eine Trajektorie gebildet und die Trajektorie in semantisch relevante Abschnitte segmentiert. Die Trajektorie und/oder deren semantisch relevante Abschnitte werden während der Verfolgung dann mit mindestens einer Referenztrajektorie, die einer bestimmten Aktion zugeordnet ist, und/oder mit semantisch relevanten Abschnitten der Referenztrajektorie verglichen. Bei hinreichender Übereinstimmung kann die entsprechende Aktion damit vorhergesagt werden.
Die Erzeugung der Trajektorie kann beispielsweise mittels eines in [Hahn, M., Krüger, L., Wähler, C., Groß, H.-M., 2007. Tracking of Human Body Parts using the Multiocular Contracting Curve Density Algorithm. Proc. Int. Conf. an 3-D Digital Imaging and Modeling, pp. 257–264, Montreal, Canada.] beschriebenen Verfahrens erfolgen.
Die Segmentierung kann beispielsweise mittels eines in [Bashir, F. I., Khokhar, A. A., Schonfeld, D., 2007. Real-Time Mution Trajectory-Based Indexing and Retrieval of Video Sequences. IEEE Trans. an Multimedia 9(1), pp. 58–65.] beschriebenen Ansatzes erfolgen. Die Segmentierung erfolgt dort an Punkten einer starken oder maximalen Krümmung der Trajektorie.
Mit einem solchen Verfahren ist eine schritthaltende Erkennung der Bewegung und eine entsprechende Prognose einer zukünftigen Bewegung oder Aktion des Objekts möglich, auch bei komplexen Bewegungsabläufen, wie sie bei der Beobachtung von Personen oder Körperteilen von Personen auftreten.
Das Verfahren wird insbesondere in folgenden Anwendungsgebieten eingesetzt:
Kamerabasierte Überwachung von manuellen Montagevorgängen: Ein Referenzmontagevorgang kann dabei einmal korrekt durch einen "Lehrer" ausgeführt werden. Jeder weitere Montagevorgang wird dann mit dem Referenzmontagevorgang verglichen, um sicherzustellen, dass kein falscher Handgriff erfolgte und kein Handgriff ausgelassen wurde.
Sichere Mensch-Roboter-Interaktion:
Im Bereich der industriellen Sicherheitstechnik ermöglicht die Erkennung der Aktion einer an einem Werkstück arbeitenden Person die Prädiktion der Bewegung über einen längeren Zeitraum, als dies durch einfache zeitliche Extrapolation der gemessenen Bewegung möglich wäre. Die Referenztrajektorie der erkannten Aktion dient hierbei als A-Priori-Wahrscheinlichkeit für ein im Sicherheitssystem enthaltenes Bildverarbeitungsmodul zur Vorhersage der Wahrscheinlichkeit von Kollisionen zwischen Mensch und Roboter. Eine entsprechende A-Priori-Wahrscheinlichkeit für das Verhalten des Roboters wird z. B. aus Achswinkeln des Roboters abgeleitet oder ermittelt, indem Abweichungen zwischen der beobachteten Trajektorie und der Referenztrajektorie durch Normierung und anschließende Ermittlung eines Abstandsmaßes in einem durch eine Hauptkomponentenanalyse des aufgenommenen Bildmaterials erzeugten Raum erkannt werden. Auf diese Weise kann eine hohe Kollisionswahrscheinlichkeit zwischen Mensch und Roboter auch dann erkannt werden, wenn der aktuelle Bewegungszustand selbst noch gar keine Gefahr vermuten lässt, da z. B. plötzliche Wendepunkte in der Trajektorie der Person aufgrund der von ihr ausgeführten, bereits erkannten Aktion zu erwarten sind.
Fahrerassistenzsysteme: Insbesondere in Kreuzungsbereichen vollführen Verkehrsteilnehmer komplexe, durch starke Beschleunigungen oder Abbremsungen gekennzeichnete Bewegungen auf engem Raum. Das erfindungsgemäße Verfahren ermöglicht es, eine Handlungsabsicht von Verkehrsteilnehmern (z. B. Abbiegen, Geradeausfahren, Anhalten, etc.) frühzeitig bereits im Ansatz zu erkennen. Diese Fähigkeit ermöglicht eine zuverlässigere Aussage über mögliche Gefahrensituationen als die traditionelle zeitliche Extrapolation von Trajektorien (z. B. time to collision). Dabei warnt das erfindungsgemäße Verfahren vor drohenden Gefahren, während Fehlalarme vermieden werden.
Im Folgenden wird ein Ausführungsbeispiel der Erfindung anhand einer Zeichnung näher erläutert.
Dabei zeigt:
1 einen Ablaufplan eines Verfahrens zur Vorhersage einer Aktion eines bewegten Objekts.
1 zeigt einen Ablaufplan eines Verfahrens zur Vorhersage einer Aktion eines bewegten Objekts 1. Das Objekt 1 wird mittels zweier Kameras 2 beobachtet. Ein stereoskopisches Verfahren ermittelt aus Bildern 3 der Kameras 2 eine dreidimensionale Position des Objekts 1. Durch fortgesetzte Beobachtung des Objekts 1 wird aus den Positionsdaten eine dreidimensionale Trajektorie 4 ermittelt, auf der das Objekt 1 sich in Richtung des Pfeils bewegt. Die Trajektorie 4 wird während der Beobachtung in semantisch relevante Abschnitte 4.1 bis 4.n segmentiert. Die Segmentierung erfolgt beispielsweise in Bereichen 5 einer maximalen Krümmung der Trajektorie 4. Die Trajektorie 4 und/oder ihre Abschnitte 4.1 bis 4.n werden während der Beobachtung mit mindestens einer Referenztrajektorie bzw. Referenzabschnitten 6.1 bis 6.n einer Referenztrajektorie 6 verglichen. Die Referenztrajektorie 6 wird aus einer Menge 7 von Referenztrajektorien 6 ausgewählt, denen jeweils eine Aktion A zugeordnet ist, die das Objekt 1 ausführt. Ergibt sich eine hinreichende Ähnlichkeit zwischen der Trajektorie 4 und der Referenztrajektorie 6, kann prognostiziert werden, dass das Objekt 1 die Aktion A ausführen wird.
Vorzugsweise kann mindestens eine Referenztrajektorie 6 und/oder deren Referenzabschnitte 6.1 bis 6.n aus der Menge 7 von Referenztrajektorien 6 bzw. Referenzabschnitten 6.1 bis 6.n zum Vergleich mit der gebildeten Trajektorie 4 bzw. deren Abschnitte 4.1 bis 4.n mittels mindestens eines Multiskalen-Zeitreihen-Histogramms ausgewählt werden, wie in [Chen, L., 2005. Similarity search over time series and trajectory data. PhD thesis, University of Waterloo, Canada.] beschrieben ist.
Beim Vergleich der Trajektorie 4 mit der Referenztrajektorie 6 kann ein hierarchisches Vergleichsverfahren, beispielsweise ein B⁺-Baum, oder ein Nearest-Neighbour-Klassifikator angewandt werden. Auf diese Weise können erkannte Trajektorien 4 der Menge 7 der Referenztrajektorien 6 hinzugefügt werden, so dass initial nur wenige Referenztrajektorien 6 erforderlich sind. Ein B⁺-Baum ist eine Erweiterung des Konzepts des B-Baums, der in der Informatik eine Daten- oder Indexstruktur darstellt, die häufig in Datenbanken und Dateisystemen eingesetzt wird. Beim B⁺-Baum werden Datenelemente in Blattknoten gespeichert, während innere Knoten lediglich Schlüssel enthalten. Das Nearest-Neighbour-Verfahren ist ein einfaches Klassifikationsverfahren, das beispielsweise bei der Lösung des bekannten Problems des Handlungsreisenden angewandt wird.
Vorzugsweise wird außer der dreidimensionalen Position des Objekts 1 auch eine Pose des Objekts 1 berücksichtigt.

1: Objekt
2: Kamera
3: Bild
4: Trajektorie
4.1 bis 4.n: semantisch relevanter Abschnitt der Trajektorie
5: Bereich einer starken Krümmung
6: Referenztrajektorie
6.1 bis 6.n: semantisch relevanter Referenzabschnitt der Referenztrajektorie
7: Menge der Referenztrajektorien
A: Aktion

Claims

Verfahren zur Vorhersage einer Aktion (A) eines bewegten Objekts (1), bei dem eine Bewegung des Objekts (1) verfolgt und mit mindestens einer Referenzbewegung verglichen wird, dadurch gekennzeichnet, dass aus einer dreidimensionalen Bewegung des Objekts (1) während der Verfolgung fortschreitend eine Trajektorie (4) gebildet wird, die in semantisch relevante Abschnitte (4.1 bis 4.n) segmentiert wird, wobei die Trajektorie (4) und/oder deren semantisch relevante Abschnitte (4.1 bis 4.n) während der Verfolgung mit mindestens einer Referenztrajektorie (6), die einer bestimmten Aktion (A) zugeordnet ist, und/oder mit semantisch relevanten Referenzabschnitten (6.1 bis 6.n) der Referenztrajektorie (6) verglichen werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die gebildete Trajektorie (4) in Bereichen (5) einer starken Krümmung in semantisch relevante Abschnitte (4.1 bis 4.n) segmentiert wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die mindestens eine Referenztrajektorie (6) und/oder deren semantisch relevanten Referenzabschnitte (6.1 bis 6.n) aus einer Menge (7) von Referenztrajektorien (6) bzw. Referenzabschnitten (6.1 bis 6.n) zum Vergleich mit der gebildeten Trajektorie (4) und/oder deren Abschnitte (4.1 bis 4.n) mittels mindestens eines Multiskalen-Zeitreihen-Histogramms ausgewählt wird bzw. werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Trajektorie (4) mit der Referenztrajektorie (6) anhand eines hierarchisches Vergleichsverfahrens oder eines Nearest-Neighbour-Klassifikators verglichen wird.
Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass die gebildete Trajektorie (4) der Menge (7) von Referenztrajektorien (6) hinzugefügt wird.