DE102020122023B3

DE102020122023B3 - Verfahren und Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr

Info

Publication number: DE102020122023B3
Application number: DE102020122023.5A
Authority: DE
Inventors: Qais Yousef; Pu Li
Original assignee: Technische Universitaet Ilmenau
Current assignee: Technische Universitaet Ilmenau
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-02-17
Anticipated expiration: 2040-08-25

Abstract

Ziel der Erfindung ist es, eine Echtzeitlösung bereitzustellen, die es einem fahrerlosen Fahrzeug ermöglicht, die Absicht des Fußgängers auf der Grundlage seines psychologischen Verhaltens, das anhand seines Gesichtsausdrucks wahrgenommen wird, zu antizipieren und darauf zu reagieren, ohne ihm in jeder Situation die Priorität einzuräumen. Folglich wird ein normales Fahrerlebnis ohne Verzögerungen realisiert, welches den natürlichen, vom menschlichen Fahrer eingeschätzten Handlungsstil nachahmt.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr aus Bild- oder Videoaufnahmen. Insbesondere werden dabei die Gesichtsausdrücke von Fußgängern mittels einer Bildverarbeitung erkannt und klassifiziert und mit Hilfe des klassifizierten Gesichtsausdrucks die Absicht von Fußgängern in der Umgebung eines zumindest teilautonom fahrenden Fahrzeugs in Echtzeit geschätzt.
Autonomes Fahren wird in jüngster Zeit zu einem bedeutenden Trend in Forschung und industrieller Praxis. Ein autonom fahrendes Fahrzeug muss mindestens das gleiche Sicherheitsniveau wie ein von Menschen geführtes Fahrzeug gewährleisten. Eine wesentliche Schwierigkeit tritt in Verbindung mit Fußgängern auf, welche die Straße überqueren möchten oder nicht. Daher ist es von entscheidender Bedeutung, die Absicht von Fußgängern in der Umgebung eines autonom oder teilautonom fahrenden Fahrzeugs zu identifizieren.
Es gibt viele Studien zur Absichtsidentifikation von Fußgängern, von denen die meisten jedoch auf Bewegungsinformationen aufbauen, die mit Hilfe von Computer Vision gewonnen wurden [1]. Die Bewegung eines Fußgängers wird unter Verwendung eines dynamischen Bayes'schen Netzwerks [2], einer Kontextdynamik [3], eines erweiterten Kalman-Filters [4], eines dynamischen Gaußschen Modells [5], [6] und eines Histogramms orientierter Gradienten [7] modelliert. Der Nachteil dieses Modellierungsansatzes liegt in der Tatsache, dass er die Fußgängerbewegung nur in einem kurzen Zeithorizont vorhersagen kann, was sich negativ auf die Schätzungszuverlässigkeit auswirkt [8].
Ein anderer Lösungsansatz besteht darin, die Absicht des Fußgängers und die entsprechende Bewegungsplanung auf der Grundlage einer Folge von subtrahierten Frames [9] und einer probabilistischen Pfadplanung [8] abzuschätzen.
Darüber hinaus ist bekannt, für die Einschätzung der Fußgängerabsicht seine Körperorientierung, basierend auf den Merkmalen von Silhouette [5], Skelett [4], [10] und Körper- und Kopforientierung [11], [12] zu nutzen. Diese bisher aus dem Stand der Technik bekannten Verfahren (z.B. DE 10 2012 009 703 A1 oder DE 11 2016 007 376 T5 ) basieren alle auf der Identifizierung einer Fußgängerbewegung, was jedoch für Echtzeitlösungen den Vorhersagezeitraum verkürzt, da der Fußgänger bereits in die zu prognostizierende Bewegung einbezogen wird. Dies wirkt sich neben dem verkürzten Vorhersagezeitraum gleichfalls negativ auf die Zuverlässigkeit der Absichtsschätzung aus.
Aus sozialer und psychologischer Sicht hängt die Absicht eines Fußgängers von vielen Aspekten ab, die allgemein in vier Kategorien eingeteilt werden können:

1) soziale Faktoren, einschließlich des demografischen und Bildungsniveaus [13], [14], [15]
2) soziale Normen, welche die Prioritäten von Personen beschreiben, die eine Straße überqueren wollen [13], [14], [16]
3) Umgebungsfaktoren, mit denen der Zugang zur Fahrspur (wie z.B. der vom Fußgänger zu absolvierende Gehweg), die Tages- oder Nachtzeit, eine Wartezeit, die erforderliche Zeit zur Überquerung der Fahrspur, die Anzahl der Fahrspuren, die Anzahl und Geschwindigkeit benachbarter Fahrzeuge usw. definiert werden [14], [16], [17] und
4) der Gesichtsausdruck, der die psychologische und emotionale Bereitschaft und Kompetenz eines Fußgängers widerspiegelt. [13], [18]

Der Gesichtsausdruck kann durch die Gesichtsgeometrie [19], Deep Learning [20], mehrere Merkmale [21] und lokale Landmarken [22] extrahiert und vorhergesagt werden.
Für die Beschreibung des Gesichtsausdrucks sind Gesichtslandmarken oder interessierende Regionen innerhalb eines Gesichtsbildes erforderlich [23]. Gesichtslandmarken können mit ganzheitlichen Methoden unter Verwendung eines aktiven Erscheinungsbildmodells [24] und der Darstellung von Merkmalen [25] identifiziert werden. Darüber hinaus sind die Methoden des eingeschränkten lokalen Modells [26] erforderlich. Außerdem gibt es regressionsbasierte Methoden, wie z.B. die Gaußsche Regression [27], die globale und lokale Regression [28], die Tiefenregression [29], das Deep Learning [30] oder kaskadenregressionsbasierte Methoden [31], wobei letztere ein hochgenaues und schnelles Ergebnis liefern.
Damit ein autonom fahrendes Fahrzeug eine Kollision mit Fußgängern verhindern kann, ist es wichtig, ihre Absicht in Echtzeit zu identifizieren. In früheren Studien wurde die Absichtsschätzung hauptsächlich auf der Grundlage der Bewegung von Fußgängern vorgenommen. Der Geisteszustand der Fußgänger spielt jedoch eine Schlüsselrolle für das Erkennen ihrer Absicht in Echtzeit. Dazu ist es notwendig, dass ein autonom fahrendes Fahrzeug den psychologischen Kontakt zwischen Fußgänger und Fahrer nachahmt, um die zu veranlassenden Fahrentscheidungen gezielt beeinflussen zu können.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr aus Bild- oder Videoaufnahmen bereitzustellen, die auf der Erkennung und Klassifizierung des Gesichtsausdruckes eines Fußgängers basieren.
Erfindungsgemäß gelingt die Lösung dieser Aufgabe mit den Merkmalen der Ansprüche 1, 7 und 8. Vorteilhafte Ausgestaltungen der erfindungsgemäßen Lösung sind in den Unteransprüchen angegeben.
Ziel der Erfindung ist es, eine Echtzeitlösung bereitzustellen, die es dem fahrerlosen Fahrzeug ermöglicht, die Absicht des Fußgängers auf der Grundlage seines psychologischen Verhaltens, das anhand seines Gesichtsausdrucks wahrgenommen wird, zu antizipieren und darauf zu reagieren, ohne ihm in jeder Situation die Priorität einzuräumen. Folglich wird ein normales Fahrerlebnis ohne Verzögerungen realisiert, welches den natürlichen, vom menschlichen Fahrer eingeschätzten Handlungsstil nachahmt.
Der Gesichtsausdruck eines Fußgängers kann wichtige Informationen für die Echtzeit-Ermittlung der Sollgeschwindigkeit von autonom fahrenden Fahrzeugen, wie z.B. eine Änderung der Fahrgeschwindigkeit oder ein Abstoppen des Fahrzeugs, liefern. Jedoch wurde für aus dem Stand der Technik bekannte Verfahren zur Steuerung von autonom fahrenden Fahrzeugen die Erfassung des Gesichtsausdrucks von Fußgängern bisher nicht angewendet, da es kein verfügbares Modell gibt, welches eine Fußgängerabsicht abbildet, die auf den genannten sozialen und psychologischen Aspekten basiert.
Aus dem Stand der Technik ist bekannt, dass der Gesichtsausdruck eines Menschen über die Erfassung der Gesichtsgeometrie mit Hilfe der Lokalisierung von geeigneten Landmarken und Verfahren des Tiefenlernens vorhergesagt werden kann [22], [32]. Jedoch führt die Berücksichtigung der Landmarken von allen Gesichtskomponenten, wie Augen, Nase, Mund und Wangen, zu einem hohen Rechenaufwand und einer geringen Genauigkeit der Schätzung. Für eine Online-Abschätzung der Absicht eines Fußgängers in der Umgebung eines zumindest teilautonom fahrenden Fahrzeugs müssen daher die effektivsten Landmarken ausgewählt werden, um die Rechenzeit bei der Erkennung und Klassifizierung des Gesichtsausdrucks zu reduzieren. Dies wird erreicht, indem ein Algorithmus mit einem verschachtelten Optimierungsprozess unter Verwendung der Methode eines künstlichen Bienenvolkes (ABC, artificial bee colony) [33] (s.a. US 2013/0051632 A1 ) mit einem gefalteten neuronalen Netz (CNN, convolutional neural network) verwendet wird.
Zudem können die Bild- oder Videoaufnahmen Fußgänger mit nur teilweise sichtbaren Gesichtern enthalten. Das bedeutet, dass der Gesichtsausdruck auf der Basis von teilweise vorhandenen Landmarken klassifiziert werden muss. Zur Lösung dieses Problems wird vorgeschlagen, dass auf Basis einer Kaskaden-Forward-Backpropagation (CFB) fehlende Landmarken mit Hilfe der sichtbaren Landmarken generiert werden (s. hierzu auch DE 11 2018 000 298 T5 ).
Schließlich kann das erfasste Gesicht aufgrund einer großen Entfernung auch eine geringe Auflösung haben. In solchen Fällen wird ein iteratives Verfahren zur Verbesserung der Bild- oder Videoaufnahmen vorgeschlagen, so dass die Genauigkeit der Absichtsschätzung erheblich verbessert werden kann.
Mit der vorliegenden Erfindung wird ein Verfahren vorgestellt, welches mit Hilfe ausgewählter Landmarken ein gefaltetes neuronales Netz (CNN) zur Klassifizierung des Gesichtsausdrucks und zur kontinuierlich verbesserten Schätzung der Absicht eines Fußgängers auf der Grundlage des erkannten und klassifizierten Gesichtsausdrucks ein Reinforcement Learning Verfahren verwendet wird.
Der vorgeschlagene Lösungsansatz ist in 1 dargestellt. Er umfasst eine Offline- und eine Online-Phase. Während in der Offline-Phase hauptsächlich die Bildregistrierung, die Auswahl der effektivsten Landmarken mit Training des Klassifikators für den Gesichtsausdruck und das Training des generativen Modells für die ausgewählten Landmarken realisiert wird, umfasst die Online-Phase die Bildverbesserung, die Klassifizierung des Gesichtsausdrucks und die Abschätzung der Absicht der Fußgänger.
In einem ersten Schritt der offline-Phase werden in der Bild- oder Videoaufnahme Fußgänger und deren zumindest teilweise sichtbare Gesichter in der Umgebung eines zumindest teilautonom fahrenden Fahrzeugs detektiert und registriert, wobei sichergestellt sein muss, dass sich das Gesicht in all seinen Ausprägungen in der gleichen Position befindet, um im folgenden Schritt eine korrekte Auswahl der Landmarken zu gewährleisten. Zu diesem Zweck werden Standard-Bilddatensätze (z.B. Ck+) [34] verwendet. Untersucht werden J Gesichtsbilder, von denen jedes P Landmarken hat, die unterschiedliche Gesichtsausdrücke repräsentieren. Wenn z_p,j ∈ ℝ² die Position der pten Landmarke in der x,y-Ebene des Bildes j ist, wobei p = 1, ...,P ist, dann ist w_j = (z_1,j, Z_2,j, ...,z_P,j) die Menge der Koordinaten der Landmarken, die den j^ten Ausdruck für das Gesicht darstellen, wobei j = 1, ..., J.
Unterschiedliche Gesichtsausdrücke führen also zu unterschiedlichen Koordinaten der Landmarken. Daher ist es erforderlich, eine Bildregistrierung durchzuführen, um sicherzustellen, dass die Variationen der entsprechenden Landmarkenpositionen für das gleiche Gesicht auf unterschiedliche Ausdrücke zurückzuführen sind und nicht durch die Variation der Gesichts- und Rahmenorientierung beeinflusst werden.
Es gibt verschiedene Ansätze für die Bildregistrierung [35], wobei die nicht starre Bildregistrierung [30] eine der bekannten Methoden ist, die vorliegend angewendet wird. Um die Positionen der Landmarken aus verschiedenen Gesichtsausdrücken zu rektifizieren, wird der durchschnittliche Abstand zwischen den Landmarkenpositionen in verschiedenen Bildern minimiert, d.h. $m i n_{e = {z_{1}, \dots, z_{P}}} \frac{1}{J . P} \sum_{j = 1}^{J} \sum_{p = 1}^{P} {‖ z_{p} - z_{j, p}^{M} ‖}_{2}^{2}$
wobei e = {z₁, ..., z_p} die Menge der optimierten oder rektifizieren Positionen der Landmarken ist und $z_{j, p}^{M}$
die Landmarkendaten aus den Bildern sind.
Die Klassifikation der Gesichtsausdrücke anhand der Positionen der Landmarken als Eingabe liefert möglicherweise keine genauen Ergebnisse, da deren Variation aufgrund der Abweichungen ihrer Koordinaten mit der Größe, Position oder Ausrichtung der Gesichter nicht den Status des Gesichtsausdrucks widerspiegelt. Daher ist es erforderlich, für jeden Gesichtsausdruck ein festes Merkmal zu finden, das die Beziehung zwischen den Landmarken darstellt. Dazu werden die identifizierten Landmarken in zwei Typen unterteilt, den oberen zu und den unteren Landmarkenvektor z_l. Wie in 2 dargestellt, ist die Anzahl der Landmarken, die jede Komponente bilden, horizontal symmetrisch ist. Daher kann die Menge der festen Merkmale definiert werden als $D = {d (z_{u}, z_{l})}$
wobei d(.) der euklidische Abstand zwischen jeder oberen Landmarke und der dazugehörigen unteren Landmarke ist.
Um die Rechenzeit bei der Erkennung und Klassifizierung des Gesichtsausdrucks reduzieren zu können, wird vorgeschlagen, die Anzahl der Landmarken P deutlich zu reduzieren, wobei jedoch weiterhin die Qualität der Klassifizierung des Gesichtsausdrucks gewährleistet sein muss. Zu diesem Zweck werden die Abstände zwischen der resultierenden Referenzlandmarkenposition v und den Landmarkendaten aus den Bildern $z_{j, p}^{M}$
überprüft. Für j = 1, ... ,] wird der Abstand für jede Landmarke P berechnet, wobei nur Landmarken mit einem Abstand über einem Schwellenwert ε ausgewählt werden, d.h. ${‖ z_{p} - z_{j, p}^{M} ‖}_{1} \geq ε$
Landmarken, welche die Bedingung (3) erfüllen, werden als effektive ausgewählt, da sie signifikante Positionsveränderungen für verschiedene Gesichtsausdrücke aufweisen. Die Landmarken, die die Bedingung (3) nicht erfüllen, werden im weiteren Verfahren nicht berücksichtigt, da sie nur einen geringen Beitrag zur Klassifizierung des Gesichtsausdrucks leisten. Es wird darauf hingewiesen, dass der Schwellenwert ε eine wichtige Rolle spielt, d.h. ein höherer Schwellenwert ε führt dazu, dass eine geringere Anzahl von Landmarken ausgewählt wird, was eine geringere Qualität der Klassifizierung des Gesichtsausdrucks zur Folge hat. Wenn andererseits ein niedrigerer Schwellenwert ε definiert wird, wird eine höhere Anzahl von Landmarken ausgewählt, was wiederum zu einer höheren Qualität der Klassifizierung des Gesichtsausdrucks führt, jedoch ist nun der Berechnungsaufwand höher.
Daher wird mit nachfolgendem Algorithmus (s. 3) ein optimaler Schwellenwert ε* bestimmt, der die für eine Online-Klassifizierung des Gesichtsausdrucks effektivsten Landmarken liefert.
In einem ersten Schritt wird der Schwellenwert ε in der Bedingung (3) so normalisiert, dass ε = (0: 1] ist. Ziel ist es, den optimalen Schwellenwert ε* zu finden, mit dem die effektivsten Landmarken so ausgewählt werden, dass er, wenn er dem Klassifikationsmodell zugeführt wird, zu einem minimalen Verlust führt, wie z.B. $f (ε *) = Ω_{ρ} = min (Ω)$
Wobei die Verlustfunktion definiert ist als $Ω = - \sum_{i}^{C} t_{i} log (s_{i})$
Die Gleichung (4) kann wie folgt umgeschrieben werden $f (ε *) = min (- \sum_{i}^{C} t_{i} l o g (s_{i}))$
Dies ist jedoch gleichbedeutend mit $f (ε *) = min (f (t *, s *))$
Daher kann der optimale Schwellenwert ε* dargestellt werden als $ε * = f (t *, s *)$
während Ω die Kreuzentropie-Validierung, d.h. die Verlustfunktion, die im CNN verwendet wird, C die Anzahl der verwendeten Klassen, t das Klassifikationsziel, s der vom CNN erhaltene Ausgang und Ω_ρ der beste Verlustwert ist, der bisher durch den Klassifikationsprozess erreicht wurde.
Aus 3 ist erkennbar, dass dieser Algorithmus zwei Schleifen umfasst. In der äußeren Schleife wird die Methode des künstlichen Bienenvolkes (ABC) verwendet, um ε zu suchen und geeignete effektive Landmarken auszuwählen, welche die Bedingung (3) erfüllen. Dabei muss sichergestellt werden, dass, wenn mindestens eine Landmarke zu einer Gesichtskomponente gehört, auch die gesamten Landmarken ausgewählt werden, die zu derselben Komponente gehören, was durch die folgende Randbedingung realisiert wird $e = {\begin{matrix} s_{1}, & min (m_{1}) \leq p \leq max (m_{1}) \\ s_{2}, & min (m_{2}) \leq p \leq max (m_{2}) \\ s_{r}, & min (m_{r}) \leq p \leq max (m_{r}) \end{matrix}$
wobei p der Index der ausgewählten Landmarke ist, welche die Bedingung (3) erfüllt, s₁, ..., s_r die Vektoren der Gesichtskomponenten (z.B. Auge, Nase, etc.) und m₁, ...,m_r die Vektoren der Indizes für die entsprechenden Gesichtskomponenten sind.
Die fixen Merkmale der ausgewählten Landmarken werden extrahiert und dem überwachten Klassifikationsmodell (d.h. CNN) zugeführt, um auf der Grundlage ihrer entsprechenden Referenzdaten trainiert zu werden, womit die innere Schleife beginnt. In dieser Schleife werden Epochen iteriert, damit die Trainingsfunktion (d.h. ADAM) das Netzwerk durch Minimierung der Verlustfunktion trainieren kann Ω. Die innere Schleife wird so lange fortgesetzt, bis eines der Stoppkriterien erfüllt ist.
Mit der vorgeschlagenen Lösung wird vorgeschlagen, den Wert der Verlustfunktion und die maximalen Validierungsfehler als Abbruchkriterien für die innere Schleife zu verwenden. Der minimale Wert von Ω wird an die äußere Schleife übergeben, um mit dem vorherigen besten Kostenwert Ω_ρ verglichen zu werden und einen neuen optimalen Schwellenwert ε* zu bestimmen. Die äußere Schleife wird fortgesetzt, bis eines der Abbruchkriterien erfüllt ist, d.h. der Wert der Kostenfunktion, die maximale Anzahl von Iterationen und die Periode der Stabilität der Konvergenzkurve.
Beim Durchlauf dieses Algorithmus hat sich herausgestellt, dass die Augen und der Mund im Gesicht eines Fußgängers die nützlichsten Komponenten im Klassifizierungsprozess für den Gesichtsausdruck sind, so dass ihre jeweiligen Landmarken zur weiteren Verwendung ausgewählt wurden. Der vorgeschlagene Algorithmus liefert nicht nur den optimalen Schwellenwert ε*, sondern auch ein trainiertes Klassifikationsmodell mit einem minimalen Validierungsverlustwert.
In 4 ist beispielhaft die Generierung fehlender Landmarken im sichtbaren Teil eines detektierten Gesichts gezeigt, wobei erkannte Landmarken sternförmig und generierte Landmarken kreisförmig dargestellt sind. Aus dem Stand der Technik ist bekannt, dass für seitlich erfasste Gesichter die Interpretation der Gesichtsausdrücke fehlerhaft sein kann. Daher müssen die fehlenden Teile des Gesichts mit den dazugehörigen Landmarken generiert werden, um eine genauere Klassifizierung des Gesichtsausdrucks erzielen zu können. Dazu wird mit Fr = {x₁, x₂, ..., x_r} die Menge r der verfügbaren Landmarken (z.B. ein detektiertes sichtbares Auge und der sichtbare Teil des Mundes) definiert und Fq = {y₁,y₂,...,y_q} stellt die Menge q der verbleibenden Landmarken dar, die in der Bild- oder Videoaufnahme nicht sichtbar sind und erzeugt werden müssen.
Dazu wird nun eine Funktion f(Fr) = Fq identifiziert, die diese beiden Mengen in Beziehung setzt. Obwohl es sich um eine komplexe Funktion handelt, kann sie nicht mit einer beliebigen Funktionsapproximationsmethode dargestellt werden. Vielmehr wird ein CFB-Netz (Cascade Feedforward Backpropagation Neural Network) für diesen Prozess eingesetzt, bei dem diese Funktion mit zehn Teildatensätzen gespeist wird, von denen jeder Datensatz zufällige Stichproben von Gesichtsseiten enthält, wie z.B. die Landmarken der einen Seite als Input und die der anderen Seite als Ziel. Es wird die folgende, auf dem euklidischen Abstand basierende Verlustfunktion verwendet. $L o s s = \frac{1}{n ƒ} \sum_{1}^{n ƒ} (\frac{1}{g n} \sum_{1}^{g n} d (y, t))$
wobei nf die Gesamtzahl der registrierten Gesichter ist. gn ist die Gesamtzahl der erzeugten Landmarken und d ist der euklidische Abstand zwischen der erzeugten Position y und der Zielposition t, z.B. wenn d den Nullpunkt erreicht, bedeutet dies, dass die erzeugten Landmarken mit den Zielpositionen übereinstimmen. Auf diese Art und Weise rekonstruieren die erzeugten Landmarken zusammen mit den sichtbaren Landmarken ein vollständiges Gesicht.
Es gibt noch zwei weitere Schwierigkeiten bei der Identifizierung von Gesichtskomponenten durch Bildverarbeitung in Echtzeit. Erstens muss das Gesicht lokalisiert werden und zweitens muss die Qualität des Gesichtsausschnitts verbessert werden. Die in einem Bild erscheinenden Gesichter haben in der Regel eine geringe Auflösung, so dass die Gesichtskomponenten nicht eindeutig identifiziert werden können. Daher ist ein Verfahren zur Verbesserung der Gesichtsbildqualität erforderlich, um auch Gesichter aus größerer Entfernung lokalisieren zu können und eine verbesserte Gesichtserkennung zu ermöglichen. Da das gesamte Verfahren in Echtzeit realisiert werden soll, muss dabei auch die Rechenzeit für die Verbesserung Gesichtsbildqualität so gering wie möglich sein. Zu diesem Zweck wird das in 5 und 6 dargestellte Vorgehen, welches in der online-Phase realisiert wird, vorgeschlagen.
Um das Gesicht in einer Bild- oder Videoaufnahme lokalisieren zu können, wird die ursprüngliche Aufnahme j in gleich große, sich nicht überlappende Zellen aufgeteilt, wobei die Gesamtanzahl der Zellen mit ω definiert ist. Außerdem muss der Verfolgungszeitraum σ genau berechnet werden, um zu vermeiden, dass Zellen mit ähnlichen Informationen verarbeitet werden oder Zellen mit wichtigen Informationen fehlen. Der Zeitraum der Nachverfolgung σ hängt von der Geschwindigkeit v des autonom fahrenden Fahrzeugs und der Bildfrequenz Φ der Kamera ab. $σ = ϕ - r o u n d (\frac{ϕ^{2} v}{max (v) (1 + ϕ)})$
Dabei ist round(.) eine Funktion, die auf den nächsten ganzzahligen Wert rundet. Schließlich muss die Hardware für die Bildverbesserung exakt eingestellt sein, um ein adäquates Maß für die Gesichtsbildverbesserung zu gewährleisten. Daher sei ζ(j,h) die Helligkeit, η(j,h) die Farbsättigung, ξ(j,h) der Kontrast, µ(j,2h) die Schärfe und δ(j,h) die Größenskalierungsfunktion, jeweils mit einem Bild j und dem Verstärkungsgrad h als Eingangsgrößen. Es wurde das PILLOW-Bildverbesserungsmodul [36] zur Implementierung dieser Funktionen verwendet. Dabei muss beachtet werden, dass ω und h die Gesamtgenauigkeit und -verzögerung des Absichtsschätzungsprozesses beeinflussen und genau abgestimmt werden müssen. Der Arbeitsablauf dieses Schemas ist im Pseudocode (7) zusammengefasst.
Zunächst werden die Hyperparameter und die entsprechenden Komponenten identifiziert. Dann wird die gesamte Videoaufnahme ω Zellen aufgeteilt. Jede Zelle w wird an das Gesichtserkennungsmodul gesendet und dort verarbeitet. Wenn sie ein Gesicht enthält, wird das Flag ς = 1 gesetzt, die normalisierten Koordinaten der Face Bounding Box werden gespeichert und die entsprechende Position der Zelle in der Matrix M wird auf 1 aktualisiert. Andernfalls, wenn das Flag ς = 0, wird die Zelle erweitert und erneut geprüft. Wenn das entsprechende Flag nach der zweiten Prüfung nicht wahr wird, bedeutet dies, dass dieser Teil des Bildes kein Gesicht in der Nähe des autonom fahrenden Fahrzeugs enthält. Danach wird die Iteration mit der nächsten Zelle fortgesetzt. Anschließend werden nur die Zellen, die Gesichter enthalten (Flag ς = 1) weiter verarbeitet, ohne dass das Gesicht erneut erkannt werden muss, da sein normalisiertes Koordinatensystem auf der Grundlage der aktuellen Zelle transformiert und gespeichert wurde. In dieser Verarbeitungsphase werden die verfügbaren Landmarken in den erkannten Gesichtern unter Verwendung der Methoden von Viola Jones [37] und der Kaskadenregression [22] als Module zur Gesichtserkennung bzw. Landmarken-Extraktion extrahiert. Dieses vorgeschlagene Schema wird für jeden σ Rahmen wiederholt, was eine sehr schnelle Leistung in Echtzeit für die Online-Phase gewährleistet.
Um eine annähernd optimale Schätzung der Absicht des Fußgängers (Überqueren der Straße oder das Verbleiben am Straßenrand) realisieren zu können, wird der Q-Network-Algorithmus für den Aufbau eines auf bestärkendes Lernen basierendes Schätzmodell genutzt. Der Q-Network-Algorithmus basiert auf einem tiefen neuronalen Netz mit Vorwärtskopplung und liefert eine optimale Approximation der Zustands-Aktionsfunktion. Er wird in dieser Phase verwendet, weil er seine Online-Performance in der Umgebung des autonom fahrenden Fahrzeugs verbessern kann. Dieses Merkmal kompensiert die Lücken, die sich aus dem unterschiedlichen Verhalten von Fußgängern und dem Vorhandensein von nicht standardmäßigen Gesichtsausdrücken ergeben (s. nachfolgenden Abschnitt). Die erhaltene Sequenz von Gesichtsausdrucksklassen wird als Input für das Reinforcement Lernmodell verwendet, während die aus dem JAAD-Datensatz [38] extrahierten Annotationen, d.h. Überqueren, Nicht-Überqueren, jeweils als Ziele verwendet werden (s. 8).
In 9 ist die Verwendung der erfindungsgemäßen Vorrichtung für ein autonom fahrendes Fahrzeug in Umgebungen mit Fußgängerverkehr zusammen mit den dazugehörigen Kommunikationskanälen dargestellt. Sie umfasst eine Einrichtung zur Erfassung und Speicherung von Bild- oder Videoaufnahmen, eine Datenverarbeitungseinheit und eine Einheit zur Echtzeit-Ermittlung der Sollgeschwindigkeit. Für die beiden Einrichtungen gibt es keine Einschränkungen bei der Typenauswahl. Mit Hilfe der Datenverarbeitungseinheit wird im Wesentlichen die Bildverbesserung, die Vorhersage des Gesichtsausdrucks und die Interpretation der Absicht des Fußgängers, wie zuvor beschriebenen, realisiert. Diese Vorrichtung kann in alle teil- oder vollautonom fahrenden Fahrzeuge implementiert werden.
Von der Einrichtung zur Erfassung und Speicherung von Bild- oder Videoaufnahmen wird ein Fußgänger in der Umgebung des autonom oder teilautonom fahrenden Fahrzeugs und dessen Gesichtshälfte detektiert. Dieser Fußgänger zeigt einen charakteristischen Gesichtsausdruck, der mit Hilfe des vorgestellten Verfahrens erfasst, analysiert und interpretiert (klassifiziert) wird. Aus dem klassifizierten Gesichtsausdruck lässt sich nachfolgend die Absicht des Fußgängers abschätzen, ob er die Straße überqueren möchte oder nicht. Dementsprechend wird ein Ausgabesignal erzeugt und an eine Einheit zur Echtzeit-Ermittlung der Sollgeschwindigkeit übergeben, die wiederum die Beschleunigung des Fahrzeugs beeinflussen kann. Das autonom oder teilautonom fahrende Fahrzeug kann nun in Abhängigkeit von der geschätzten Absicht des Fußgängers entweder ein Signal für eine positive Beschleunigung (Fahrgeschwindigkeit erhöht sich), eine negative Beschleunigung (Fahrgeschwindigkeit verringert sich) oder eine nullwertige Beschleunigung (Fahrgeschwindigkeit bleibt konstant) erhalten. Dieser Prozess wiederholt sich iterativ, so dass die Fahrgeschwindigkeit unter Beachtung von geänderten Situationen zwischen dem Fahrzeug und dem Fußgänger fortlaufend aktualisiert wird. Dies ermöglicht eine genaue Reaktion des autonom oder teilautonom fahrenden Fahrzeugs in Abhängigkeit der Absicht eines Fußgängers in seiner Umgebung.
Mit Hilfe der erfindungsgemäßen Lösung können Gesichter von Fußgängern vor einem fahrerlosen Fahrzeug erkannt und somit ein autonom oder teilautonom fahrendes Fahrzeug beim Manövrieren in städtischen Straßen unter Anwesenheit von Fußgängern unterstützt werden. Ein im bekannten Stand der Technik ungelöstes Problem ist dabei jedoch das natürliche Fahren in Anwesenheit von Fußgängern. Alle diesbezüglichen Arbeiten versuchen, die Absicht der Fußgänger zu beurteilen und das Fahrzeug entsprechend reagieren zu lassen. Ihre vorgeschlagene Reaktion bestand darin, das Fahrzeug anzuhalten oder seine Geschwindigkeit zu reduzieren. Diese Reaktion spiegelt jedoch nicht das normale Fahrverhalten wider, da sie eine zeitliche Verzögerung verursacht und die Fahrzeit verlängert. Wenn zum Beispiel einem Fußgänger immer Vorrang eingeräumt wird, führt dies vermehrt zu Verkehrsstausituationen, was natürlich kein normaler Fahrstil ist. In diesem Sinne wird mit der vorliegenden Erfindung das Verhalten von Fußgängern mit Hilfe von Bildverarbeitungsmethoden und basierend auf der Interpretation des Gesichtsausdrucks von Fußgängern geschätzt. Sie basiert auf der menschlichen Psychologie, die durch den Gesichtsausdruck eines Fußgängers repräsentiert wird, wobei eine natürliche Methode der Kommunikation und des psychologischen Verständnisses zwischen einem autonom oder teilautonom fahrenden Fahrzeug und einem Fußgänger wie bei einem Fahrzeug mit Fahrzeugführer verwendet wird. Zeigt der Gesichtsausdruck des Fußgängers beispielsweise die Absicht, die Straße nicht zu überqueren, oder eine unbestätigte Absicht, die Straße zu überqueren, kann das Fahrzeug seine Geschwindigkeit beibehalten oder erhöhen und die Auswirkungen dieser Tatsache auf den Gesichtsausdruck des Fußgängers weiter beobachten, so dass die Fußgänger sich folglich zurückziehen können und das Fahrzeug seinen Weg fortsetzt. Zeigt der Fußgänger andererseits den Gesichtsausdruck, der die Bedeutung vermittelt, dass der Fußgänger entschlossen ist, die Straße zu überqueren, verlangsamt das fahrerlose Fahrzeug seine Geschwindigkeit und überwacht weiterhin den Gesichtsausdruck des Fußgängers. Wenn diese wahrgenommene Interpretation fortgesetzt wird, hält das Fahrzeug an, um dem Fußgänger das Überqueren der Straße zu ermöglichen. Auf diese Weise kann die vorgeschlagene Lösung ein normales Fahrverhalten eines autonom fahrenden Fahrzeuges gewährleisten, d.h. die Reaktion des Fahrzeuges besteht nicht nur darin, das Fahrzeug zu verlangsamen, sondern auch darin, die aktuelle Geschwindigkeit beizubehalten oder sogar zu erhöhen, wenn die Interpretation des Gesichtsausdrucks des Fußgängers nach der Analyse diese Bedeutung ergab.
Literaturliste

1. Ahmed, S., Huda, M. N., Rajbhandari, S., Saha, C., Elshaw, M., & Kanarachos, S. (2019). Pedestrian and Cyclist Detection and Intent Estimation for Autonomous Vehicles: A Survey. Applied Sciences, 9(11), 2335.
2. Kooij, J. F. P., Schneider, N., Flohr, F., & Gavrila, D. M. (2014, September). Context-based pedestrian path prediction. In European Conference on Computer Vision (pp. 618-633). Springer, Cham.
3. Kooij, J. F., Flohr, F., Pool, E. A., & Gavrila, D. M. (2019). Context-based path prediction for targets with switching dynamics. International Journal of Computer Vision, 127(3), 239-262.
4. Schneider, N.; Gavrila, D.M. Pedestrian Path Prediction with Recursive Bayesian Filters: A Comparative Study. In Proceedings of the Conference on Pattern Recognition. Springer, Berlin, Heidelberg, Saarbrücken, Germany, 3-6 September 2013; pp. 174-183.
5. Keller, C.G.; Gavrila, D. Will the Pedestrian Cross? A Study on Pedestrian Path Prediction. IEEE Trans. Intell. Transp. Syst. 2014, 15, 494-506.
6. Quintero, R.; Parra, I.; Llorca, D.F.; Sotelo, M.A. Pedestrian Intention and Pose Prediction through Dynamical Models and Behaviour Classification. In Proceedings of the 2015 IEEE 18th International Conference on Intelligent Transportation Systems, Las Palmas, Spain, 15-18 September 2015; pp. 83-88.
7. Dalal, N.; Triggs, B. Histograms of Oriented Gradients for Human Detection. In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, CA, USA, 20-25 June 2005; Volume 1, pp. 886-893.
8. Rehder, E.; Kloeden, H. Goal-Directed Pedestrian Prediction. In Proceedings of the 2015 IEEE International Conference on Computer VisionWorkshop (ICCVW), Santiago, Chile, 7-13 December 2015; pp. 139-147.
9. Dominguez-Sanchez, A.; Cazorla, M.; Orts-Escolano, S. Pedestrian Movement Direction Recognition Using Convolutional Neural Networks. IEEE Trans. Intell. Transp. Syst. 2017, 18, 3540-3548.
10. Fang, Z.; Vazquez, D.; Lopez, A.; Fang, Z.; Vazquez, D.; Lopez, A.M. On-Board Detection of Pedestrian Intentions. Sensors 2017, 17, 2193.
11. Raza, M.; Chen, Z.; Rehman, S.U.;Wang, P.; Bao, P. Appearance based pedestrians' head pose and body orientation estimation using deep learning. Neurocomputing 2018, 272, 647-659.
12. Schulz, A.T.; Stiefelhagen, R. Pedestrian intention recognition using Latent-dynamic Conditional Random Fields. In Proceedings of the 2015 IEEE Intelligent Vehicles Symposium (IV), Seoul, Korea, 28 June-1 July 2015; pp. 622-627.
13. Holm, A., Jaani, J., Eensoo, D., & Piksööt, J. (2018). Pedestrian behaviour of 6th grade Estonian students: implications of social factors and accident-prevention education at school. Transportation research part F: traffic psychology and behaviour, 52, 112-119.
14. Cantillo, V., Arellana, J., & Rolong, M. (2015). Modelling pedestrian crossing behaviour in urban roads: a latent variable approach. Transportation research part F: traffic psychology and behaviour, 32, 56-67.
15. Lobjois, R., & Cavallo, V. (2009). The effects of aging on street-crossing behavior: from estimation to actual crossing. Accident Analysis & Prevention, 41(2), 259-267.
16. Dada, M., Zuidgeest, M., & Hess, S. (2019). Modelling pedestrian crossing choice on Cape Town's freeways: Caught between a rock and a hard place?. Transportation research part F: traffic psychology and behaviour, 60, 245-261.
17. Granie, M. A., Brenac, T., Montel, M. C., Millot, M., & Coquelet, C. (2014). Influence of built environment on pedestrian's crossing decision. Accident Analysis & Prevention, 67, 75-85.
18. Gupta, S., Vasardani, M., Lohani, B., & Winter, S. (2019). Pedestrian's risk-based negotiation model for self-driving vehicles to get the right of way. Accident Analysis & Prevention, 124, 163-173.
19. Priya, R. V. (2019). Emotion recognition from geometric fuzzy membership functions. Multimedia Tools and Applications, 78(13), 17847-17878.
20. Li, S., & Deng, W. (2019). Blended Emotion in-the-Wild: Multi-label Facial Expression Recognition Using Crowdsourced Annotations and Deep Locality Feature Learning. International Journal of Computer Vision, 127(6-7), 884-906.
21. Bailly, K., & Dubuisson, S. (2017). Dynamic pose-robust facial expression recognition by multi-view pairwise conditional random forests. IEEE Transactions on Affective Computing, 10(2), 167-181.
22. Kazemi, V., and Josephine S.: One millisecond face alignment with an ensemble of regression trees. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1867-1874. (2014).
23. P. Ekman and W. V. Friesen. Facial Action Coding System. Consulting Psychologists Press, Stanford University, Palo Alto, 1978.
24. Iqtait, M., Mohamad, F. S., & Mamat, M. (2018, March). Feature extraction for face recognition via Active Shape Model (ASM) and Active Appearance Model (AAM). In IOP Conference Series: Materials Science and Engineering (Vol. 332, No. 1, p. 012032). IOP Publishing.
25. Yang, H., Zhang, R., & Robinson, P. (2016, March). Human and sheep facial landmarks localisation by triplet interpolated features. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 1-8). IEEE.
26. Ward, V.P.A., Shoppar Ltd, (2019). System and method for content delivery optimization based on a combined captured facial landmarks and external datasets. U.S. Patent Application 16/285,691 .
27. Lee, Y., Kim, T., Jeon, T., Bae, H., & Lee, S. (2019, June). Facial Landmark Detection using Gaussian Guided Regression Network. In 2019 34th International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC) (pp. 1-4). IEEE.
28. Su, J., Wang, Z., Liao, C., & Ling, H. (2019). Efficient and Accurate Face Alignment by Global Regression and Cascaded Local Refinement. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 0-0).
29. Kopaczka, M., Schock, J., & Merhof, D. (2019). Super-realtime facial landmark detection and shape fitting by deep regression of shape model parameters. arXiv preprint arXiv:1902.03459.
30. Li, H., Li, Y., Xing, J., & Dong, H. (2019). Spatial alignment network for facial landmark localization. World Wide Web, 22(4), 1481-1498.
31. Yao, A. and Chen, Y., Intel Corp, (2020). Combinatorial shape regression for face alignment in images. U.S. Patent 10,528,839.
32. Zhan, C., Li, W., Ogunbona, P., & Safaei, F. (2007, December). Real-time facial feature point extraction. In Pacific-Rim Conference on Multimedia (pp. 88-97). Springer, Berlin, Heidelberg.
33. Karaboga, D. An idea based on honey bee swarm for numerical optimization (Vol. 200, pp. 1-10). Technical report-tr06, Erciyes university, engineering faculty, computer engineering department. (2005).
34. Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., & Ambadar, Z. A complete facial expression dataset for action unit and emotion-specied expression. In IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 94-101). (2010).
35. Crum, W. R., Hartkens, T., & Hill, D. L. G. Non-rigid image registration: theory and practice. The British journal of radiology, 77(suppl_2), S140-S153. (2004).
36. ImageEnhance Module. (2020). Retrieved from https://pillow.readthedocs.io/en/3.1.x/reference/ImageEnhance.html
37. Viola, P., & Jones, M. (2001, December). Rapid object detection using a boosted cascade of simple features. In Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. CVPR 2001 (Vol. 1, pp. I-I). IEEE.
38. I.Kotseruba, A. Rasouli, J. K. Tsotsos. „Joint Attention in Autonomous Driving (JAAD).“ arXiv preprint arXiv:1609.04741 (2016).

Claims

Verfahren zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr mit Hilfe von Bild- oder Videoaufnahmen umfassend in einer offline- und einer online-Phase folgende Schritte: • Verarbeitung der Bild- oder Videoaufnahme und Detektion von Fußgängern und deren zumindest teilweise sichtbaren Gesichtern in der Umgebung des zumindest teilautonom fahrenden Fahrzeugs • Erfassung von Landmarken im detektierten zumindest teilweise sichtbaren Gesicht des Fußgängers • Generierung fehlender Landmarken in einem teilweise sichtbaren Gesicht • Auswahl der für eine Gesichtserkennung effektivsten Landmarken • Klassifizierung des Gesichtsausdrucks mit Hilfe der ausgewählten Landmarken • Abschätzung der Absicht des Fußgängers mit Hilfe des klassifizierten Gesichtsausdrucks und • Erzeugung und Ausgabe eines die geschätzte Absicht des Fußgängers repräsentierendes Ausgabesignal an eine Einheit zur Steuerung der Fahrgeschwindigkeit, wobei in der offline-Phase die Bild- oder Videoaufnahmen registriert, Landmarken in dem zumindest teilweise sichtbaren Gesicht erfasst, die für die Gesichtserkennung effektivsten Landmarken im Gesicht des Fußgängers ausgewählt und mit einem generativen Modell trainiert werden und wobei in der online-Phase die Gesichtserkennung in Verbindung mit deren iterativen Verbesserung realisiert wird, fehlende Landmarken generiert werden und auf Basis der ausgewählten Landmarken der Gesichtsausdruck in Verbindung mit einem Verfahren des bestärkenden Lernens klassifiziert wird.
Verfahren nach Anspruch 1 dadurch gekennzeichnet, dass es iterativ ausgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die Auswahl der für eine Gesichtserkennung effektivsten Landmarken mit Hilfe eines verschachtelten Optimierungsverfahrens unter Verwendung der Methode einer künstlichen Bienenkolonie mit einem neuronalen Faltungsnetzwerk realisiert wird.
Verfahren nach einem der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die in einem teilweise sichtbaren Gesicht fehlenden Landmarken mit Hilfe eines auf einer Kaskaden-Vorwärts-Backpropagation basierenden Verfahren generiert werden.
Verfahren nach einem der vorangehenden Ansprüche dadurch gekennzeichnet, dass die Klassifizierung des Gesichtsausdrucks auf Basis der ausgewählten Landmarken mit Hilfe eines trainierten Klassifikators realisiert wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Abschätzung der Absicht des Fußgängers aus dem klassifizierten Gesichtsausdruck mit einem Verfahren des bestärkenden Lernens realisiert wird.
Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr mit Hilfe von Bild- oder Videoaufnahmen, wobei die Vorrichtung dazu konfiguriert ist, in einer offline- und einer online-Phase • die Bild- oder Videoaufnahmen zu verarbeiten und Fußgänger und deren zumindest teilweise sichtbare Gesichter in der Umgebung des zumindest teilautonom fahrenden Fahrzeugs zu detektieren, • Landmarken im detektierten zumindest teilweise sichtbaren Gesicht des Fußgängers zu erfassen, • fehlende Landmarken in einem teilweise sichtbaren Gesicht zu generieren, • die für eine Gesichtserkennung effektivsten Landmarken auszuwählen, • den Gesichtsausdruck mit Hilfe der ausgewählten Landmarken zu klassifizieren, • die Absicht des Fußgängers mit Hilfe des klassifizierten Gesichtsausdrucks abzuschätzen und • ein die geschätzte Absicht des Fußgängers repräsentierendes Ausgabesignal an eine Einheit zur Steuerung der Fahrgeschwindigkeit zu erzeugen und auszugeben, wobei in der offline-Phase die Bild- oder Videoaufnahmen registriert, Landmarken in dem zumindest teilweise sichtbaren Gesicht erfasst, die für die Gesichtserkennung effektivsten Landmarken im Gesicht des Fußgängers ausgewählt und mit einem generativen Modell trainiert werden und wobei in der online-Phase die Gesichtserkennung in Verbindung mit deren iterativen Verbesserung realisiert wird, fehlende Landmarken generiert werden und auf Basis der ausgewählten Landmarken der Gesichtsausdruck in Verbindung mit einem Verfahren des bestärkenden Lernens klassifiziert wird.
Zumindest teilautonom fahrendes Fahrzeug mit einer Einrichtung zur Erfassung und Speicherung von Bild- oder Videoaufnahmen und einer Einheit zur Steuerung der Fahrgeschwindigkeit dadurch gekennzeichnet, dass das zumindest teilautonom fahrende Fahrzeug eine Vorrichtung nach Anspruch 7 zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 6 aufweist.