DE102010033773A1

DE102010033773A1 - Verfahren zum Detektieren eines Objekts für ein Fahrerassistenzsystem

Info

Publication number: DE102010033773A1
Application number: DE102010033773A
Authority: DE
Inventors: Markus Thom
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2010-08-09
Filing date: 2010-08-09
Publication date: 2012-02-09

Abstract

Objekte sollen in einem Fahrerassistenzsystem zuverlässiger und eindeutiger erkannt werden. Dazu wird ein Verfahren zum Detektieren von Objekten einer vorgegebenen Klasse für ein Fahrerassistenzsystem vorgeschlagen, bei dem ein Bild aus der Fahrzeugumgebung bereitgestellt und je ein Repräsentant (5) für mehrere Teilbilder ermittelt wird, in denen ein Objekt der vorgegebenen Klasse mit einer vorgegebenen Mindestwahrscheinlichkeit enthalten ist. Anschließend werden zumindest einige der Repräsentanten (5) zu einer Zusammenhangskomponente (7, 8) zusammengefasst, wenn die repräsentierten Teilbilder paarweise ineinander vollständig enthalten sind oder eine vorgegebene Mindestähnlichkeit besitzen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Detektieren von Objekten einer vorgegebenen Klasse für ein Fahrerassistenzsystem durch Bereitstellen eines Bilds aus der Fahrzeugumgebung und Ermitteln je eines Repräsentanten für mehrere Teilbilder, in denen ein Objekt der vorgegebenen Klasse mit einer vorgegebenen Mindestwahrscheinlichkeit enthalten ist.
Herkömmliche Objektdetektionsverfahren (z. B. Verfahren zur Fußgängererkennung mittels am Fahrzeug befindlicher Sensorik) liefern eine Vielzahl an Positionen, an denen sich mutmaßlich eine Instanz der gesuchten Objektklasse befindet. Ein bekanntes System markiert beispielsweise besonders gefährdete Verkehrsteilnehmer wie Fußgänger in einer Darstellung der vor dem Fahrzeug befindlichen Szene im Kombiinstrumentendisplay bzw. Head-Unit-Display. Stehen zwei Fußgänger nahe beieinander, wird die Markierung des einen Fußgängers über der Markierung des anderen Fußgängers gezeichnet, anstatt die Fußgänger als Gruppe zu markieren.
Einige der bekannten Verfahren zur bildbasierten Detektion von Objekten untersuchen eine Menge M von Rechtecken im Bild und liefern eine Teilmenge N ⊆ M zurück, vgl. 1. Die Menge M aller untersuchten Rechtecke wird beispielsweise über den sog. Sliding-Window-Ansatz erzeugt. Es können aber beispielsweise auch hierarchisch arbeitende Verfahren zur Erzeugung verwendet werden. N wird auch die Menge der Detektionen genannt. Je nach Feinheitsgrad der Abtastmenge M liefert ein solches Verfahren örtlich stark benachbarte Detektionen (1) in der Umgebung von Objekten der Zielklasse und – je nach Qualität des Detektionsverfahrens – vereinzelt Falschmeldungen (2) an Orten, an denen sich kein Objekt der Zielklasse befindet. Jede Detektion 1 oder Falschdetektion wird in dem Bild mit einem Rechteck markiert. Jedes Rechteck beinhaltet ein Objekt der gewünschten Zielklasse oder ein Teil davon. Im Beispiel von 1 befindet sich bei den Detektionen 1 ein Fußgänger 3, während bei den Rechtecken der Falschmeldungen 2 auf dem Wärmebild nur Spiegelungen 4 von Fenstern zu erkennen sind. Nachdem die Spiegelungen einem Fußgänger sehr ähnlich sind, sind sie hier auch als Objekt der Zielklasse gewertet.
Bei der Vielzahl der Objektdetektionsverfahren handelt es sich um einzelbildbasierte Verfahren, d. h. es wird keine Rücksicht auf die zeitliche Abfolge der untersuchten Bilder genommen. Ein häufiger Effekt ist hier, dass zeitlich isolierte Falschmeldungen nicht unterdrückt werden können (sog. Aufblitzen eines Falschalarms). Ein weiterer Effekt ist eine zeitlich unruhige Anzeige, da bereits eine minimale Veränderung des Kamerabildes in einer stark veränderten Detektorausgabe resultiert.
Aus der Druckschrift WO 2005/119596 A1 ist ein grafisches Objektmodell zur Detektion und Verfolgung von Objekten bekannt. Es wird ein örtlich-zeitliches Modell und ein Video mit mehreren Bildern einschließlich des zu detektieren Objekts bereitgestellt. Das Objekt wird als Kollektiv mehrerer Komponenten in jedem Bild gemessen. Anschließend wird eine Wahrscheinlichkeit bestimmt, dass das Objekt in jedem Bild ist. Die Wahrscheinlichkeiten werden für jedes Bild mit einem Schwellwert verglichen, um so das Objekt in irgendeinem Bild zu detektieren.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein robustes Verfahren zur Detektion von Objekten bereitzustellen, bei dem die auftretenden Daten für Mensch und Maschine einfacher darstellbar sind.
Erfindungsgemäß wird diese Aufgabe gelöst durch ein Verfahren nach Anspruch 1. Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
Es wird demnach bereitgestellt ein Verfahren zum Detektieren von Objekten einer vorgegebenen Klasse für ein Fahrerassistenzsystem durch

– Bereitstellen eines Bilds aus der Fahrzeugumgebung und
– Ermitteln je eines Repräsentanten für mehrere Teilbilder, in denen ein Objekt der vorgegebenen Klasse mit einer vorgegebenen Mindestwahrscheinlichkeit enthalten ist, sowie
– Zusammenfassen zumindest einiger der Repräsentanten zu einer Zusammenhangskomponente, wenn die repräsentierten Teilbilder paarweise ineinander vollständig enthalten sind oder eine vorgegebene Mindestähnlichkeit besitzen.

In vorteilhafter Weise werden so mehrere Detektionen (z. B. mehrere Rechtecke von 1) zu einer Detektion bzw. einem Rechteck zusammengefasst.
Damit kann ein detektiertes Objekt für einen Betrachter klarer gekennzeichnet werden.
Vorzugsweise wird jedem der Repräsentanten ein Konfidenzwert zugewiesen, und ein Objekt gilt als detektiert, wenn die Summe der Konfidenzwerte der Zusammenhangskomponente einen vorgegebenen Wert überschreitet. Damit lassen sich Falschmeldungen eliminieren. In einer Ausführungsform wird ein detektiertes Objekt in dem Bild optisch markiert. In einer weiteren Ausführungsform werden nur solche Repräsentanten zusammengefasst, die jeweils einen vorgegebenen Mindestkonfidenzwert überschreiten. Außerdem können mehrere zeitlich aufeinander folgende Bilder bereitgestellt werden, in jedem der Bilder derartige Repräsentanten ermittelt werden und die Repräsentanten bildübergreifend zusammengefasst werden. Ferner ist es vorteilhaft, wenn jedem Repräsentanten auch ein Lebensdauerwert zugewiesen wird, und das Objekt erst dann als detektiert gilt, wenn die Summe der Lebensdauerwerte einer Zusammenhangskomponente einen vorgegebenen Wert überschreitet. Dabei sollte vor dem Ermitteln der Repräsentanten in einem Bild das Bild gegenüber einem zeitlich vorhergehenden oder folgenden Bild bezüglich einer Eigenbewegung des Aufnahmegeräts der Bilder korrigiert werden.
Die vorliegende Erfindung wird anhand der beigefügten Zeichnungen näher erläutert, in denen zeigen:
1 ein Bild eines Fahrerassistenzsystems mit einer detektierten Person und einer Falschdetektion gemäß dem Stand der Technik;
2 das Bild von 1 mit einer erfindungsgemäß verbesserten Fußgängerdetektion und ohne Falschdetektion;
3 ein Wärmebild, in dem zwei Personen mit konventioneller Technik detektiert sind;
4 das Wärmebild von 3 in dem die zwei Personen mit dem erfindungsgemäßen Algorithmus detektiert sind; und
5 eine Skizze eines Detektionsgraphen.
Die nachfolgend näher geschilderten Ausführungsbeispiele stellen bevorzugte Ausführungsformen der vorliegenden Erfindung dar.
Zunächst wird nun die Detektion eines Objekts in einem einzigen Bild näher geschildert. Dies bedeutet, dass das Objekt rein örtlich detektiert wird.
Im rein örtlichen (einzelbildbasierten) Fall funktioniert das Verfahren wie folgt. Ein Objektdetektionsverfahren berechnet eine Menge von Rechtecken N und für jedes Rechteck in N einen Konfidenzwert
Ist das Objektdetektionsverfahren nicht dafür ausgelegt, Konfidenzwerte zu berechnen, werden diese ohne Einschränkung als eins angenommen. Aus diesen Daten wird dann ein ungerichteter Detektionsgraph G = (N, E) berechnet, vgl. 5. Die Knoten von G entsprechen eins-zu-eins den Detektionen in N. Ein Rechteck von 1 entspricht also einer Detektion und damit auch einem Knoten 5 des Graphen von 5. Die Linien 6 zwischen den Knoten 5 entsprechen den Kanten des Graphen und somit einer überschwelligen Ähnlichkeit im Ort und/oder in der Zeit. Zwischen zwei mit Kanten 6 verbundenen Knoten 5 besteht also jeweils ein Zusammenhang. Der Graph von 5 besitzt zwei Zusammenhangskomponenten 7 und 8. Die beiden Zusammenhangskomponenten sind nicht miteinander verbunden. Die Zusammenhangskomponente 7 bezieht sich auf die Detektionen 1 von 1 und die Zusammenhangskomponente 8 bezieht sich auf Falschdetektionen 2 von 1. Die Person von 3 wurde also mit sieben Detektionen (sieben Knoten 5) detektiert, während die Spiegelung 4 lediglich mit fünf Detektionen (fünf Knoten 5) detektiert wurden. Die beiden Objekte 3 und 4 unterscheiden sich also bereits allein durch die Anzahl der Detektionen bzw. Knoten 5.
Die Menge der Kanten E berechnet sich wie folgt. Zwischen zwei Detektionen n₁, n₂ ∊ N mit n₁ ≠ n₂ existiert genau dann eine Kante, wenn eines der Rechtecke vollständig im anderen enthalten ist, d. h. n₁ ⊆ n₂ oder n₂ ⊆ n₁, wenn eine gewisse Mindestähnlichkeit zwischen den Rechtecken erreicht wird, d. h. cov(n₁, n₂) ≥ θ_cov für ein Ähnlichkeitsmaß cov und einen Schwellwert θ_cov. Üblicherweise wird der Quotient aus der Schnittmengenfläche und der Vereinigungsmengenfläche als Ähnlichkeitsmaß verwendet,
mit dem Flächenmaß λ. Der Schwellwert θ_cov ist ein Verfahrensparameter und legt fest, ab welcher Mindestüberdeckung zwei Objekte als Gruppe betrachtet werden sollen. Es sei nun
eine Partition von N, wobei die Elemente von P eins-zu-eins den Zusammenhangskomponenten von G entsprechen.
Jedes Element p = {p1, ..., p_n} ⊆ N von P wird nun wie folgt zusammengefasst zu einem Rechteck-Konfidenzwert-Paar.
Es seien
die Vektoren mit den linken, rechten, oberen und unteren Extremwerten der Rechtecke p₁, ..., p_n. Weiter seien
obere Schranken der Abmessungen des zusammengefassten Rechtecks. Dann werden die mit dem Konfidenzwert gewichteten Projektionen von p1, ..., p_n auf die x- bzw. auf die y-Achse wie folgt berechnet. Es seien
Für alle i ∊ {1, ..., n} werden dann alle Indizes
erhöht. Für Verfahrensparameter ω, ξ ∊ (0, 1) seien nun a, b ∊ {1, ..., w} das ω- und das (1 – ω)-Quantil von η und c, d ∊ {1, ..., h} das ξ- und das (1 – ξ)-Quantil von μ. Der linke, rechte, obere und untere Extremwert des zusammengefassten Rechtecks ergibt sich dann zu
Der Konfidenzwert der Zusammenfassung ergibt sich zu
Die Ausgabe im rein örtlichen Fall ist nun eine Menge dieser Rechteck-Konfidenzwert-Paare. In dem Beispiel von 1 bzw. 5 müssten sich also zwei Rechteck-Konfidenz-Paare ergeben, eines für die Person 3 und eines für die Spiegelung 4. Der Konfidenzwert bei den Spiegelungen 4 ist deutlich geringer als bei der Person 3. Dieses Berechnungsergebnis kann noch weiter eingeschränkt werden, indem nur Paare ausgegeben werden, die mindestens einen bestimmten Konfidenzwert erreichen, vgl. 2. Das Ergebnis der erfindungsgemäßen Filterung lässt sich 2 entnehmen. Die Mehrfachdetektionen 1 auf dem Fußgänger 3 sind durch eine einzige Detektion 9 ersetzt worden, die der Zusammenhangskomponente 7 entspricht. Das korrespondierende Rechteck-Konfidenzwert-Paar besitzt einen höheren Konfidenzwert als die Zusammenhangskomponente 8. Deren Konfidenzwert liegt unterhalb der Schwelle, weswegen also in der 2 kein Rechteck um die Spiegelungen 4 angezeigt wird. Die Falschalarme des Systems in den Fenstern auf der rechten Bildseite wurden also verworfen. Diese untere Schwelle der Konfidenzwerte ist ein Verfahrensparameter.
Durch diese Filterung wird eine beträchtliche Verbesserung der Klassifikationsleistung erreicht.
Der erfindungsgemäße Algorithmus wirkt sich auch auf Gruppen von Objekten der Zielklasse aus. Durch die Art der räumlichen Zusammenfassung werden die einzelnen Objekte in Gruppen, naturgemäß zu einem einzigen Detektionsergebnis, zusammengefasst. In 3 wird eine Gruppe von zwei Personen 10 und 11 durch Mehrfachdetektionen erfasst. Mit dem erfindungsgemäßen Algorithmus wird die Gruppe mit den zwei Personen 10 und 11 gemäß 3 durch genau ein Rechteck 12 markiert.
Im zeitlichen Fall wird das oben für den rein örtlichen Fall beschriebene Verfahren als Unterprogramm verwendet. Der Zustand des zeitlichen Verfahrens ist stets die Ergebnismenge, die auf dem zuletzt betrachteten Bild berechnet wurde. Als Eingabeparameter werden das aktuelle Bild und die auf diesem Bild berechneten Klassifikationsergebnisse angegeben. Zusätzlich zur Bildposition und dem Konfidenzwert wird auch ein Zähler über die Lebensdauer des Objektes mitgeführt. Mit Hilfe einer Schwellenoperation auf diesem Bildzähler können zeitlich isolierte Detektionen, die einen überschwelligen Konfidenzwert aufweisen, dennoch unterdrückt werden. Die auf dem aktuellen Bild berechneten Klassifikationsergebnisse erhalten per Konvention einen Bildzähler mit dem Wert Null. Der Bildzähler wird am Ende des Verfahrens entsprechend erhöht.
Das Verfahren korrigiert zunächst die Positionen der Ergebnisse vom zuletzt betrachteten Bild zur Kompensierung der Bewegung des erkannten Objektes bzw. der Eigenbewegung des verwendeten bildgebenden Sensors. Hierzu wird für jedes Detektionsergebnis aus dem zuletzt betrachteten Bild ein für den Bildausschnitt charakteristischer Fingerabdruck berechnet und als Vektor abgelegt, im einfachsten Fall kann der vektorisierte Bildausschnitt verwendet werden. Hier nicht näher erläuterte Erweiterungen des Verfahrens verwenden etwa das Ergebnis einer Abtastung mit Gabor-Filtern. In einer Nachbarschaft um die alte Position im aktuellen Bild werden nun für jede Position auf gleiche Weise Fingerabdrücke berechnet. Die Größe der Nachbarschaft ist ein Verfahrensparameter und wird üblicherweise über eine Breite und eine Höhe in Pixeln parametrisiert. Für jeden Bildausschnitt in dieser Nachbarschaft wird nun der Korrelationskoeffizient zwischen dem zugehörigen Fingerabdruck und dem Fingerabdruck des ursprünglichen Bildausschnitts aus dem zuletzt betrachteten Bild gebildet und in eine Matrix eingetragen, deren Breite und Höhe genau der Größe der betrachteten Nachbarschaft entspricht. Durch Finden des maximalen Eintrags dieser Ähnlichkeitsmatrix ist nun die korrigierte Position der Detektionsergebnisse aus dem zuletzt betrachteten Bild festgelegt.
Die Daten über die Fahrzeugeigenbewegung werden hier ausschließlich aus den Bildern gewonnen, dies hat den Vorteil, dass das System von Hardwarekomponenten unabhängig ist. Grundsätzlich können diese Daten aber auch über die Sensorik des Fahrzeugs (z. B. Geschwindigkeitsmesser, Lenkradwinkelmesser, Raddrehzalmesser usw.) erhalten werden. Dies setzt aber dann eine geeignete Schnittstelle voraus, die durch Auswertung der Kamerabilder eingespart werden kann. Hierdurch ist die vorliegende Erfindung unabhängig von der konkreten Ausprägung der Darstellung der Fahrzeugsensorik, was in einer drastischen Reduktion des Aufwandes für die Schnittstellenfestlegung resultiert.
Die Konfidenzwerte werden gemäß einer Exponentialfunktion, dessen Halbwertszeit als Verfahrensparameter angegeben wird, verringert. Auf diese Weise wird den Detektionsergebnissen aus dem zuletzt betrachteten Bild weniger Gewicht beigemessen als den Detektionsergebnissen auf dem aktuellen Bild. Gleichzeitig wird sichergestellt, dass Detektionen mittels einer Schwellenoperation auf den Konfidenzwerten nach einer gewissen Zeit aus der Menge der betrachteten Bildausschnitte entfernt werden, solange das Objektdetektionsverfahren keine weitere Erkennung des gesuchten Objektes meldet.
Im weiteren Verlauf der zeitlichen Zusammenfassung wird nun die Vereinigungsmenge aus den korrigierten Detektionsergebnisse aus dem zuletzt betrachteten Bild und den (noch nicht zusammengefassten) Detektionsergebnissen aus dem aktuellen Bild gebildet. Diese Vereinigungsmenge wird nun mit dem Algorithmus, der im rein örtlichen Fall behandelt wurde, zusammengefasst. Der Bildzähler wird für jedes Objekt aus der resultierenden Ergebnismenge um eins erhöht. Diese resultierende Detektionsmenge ist jetzt sowohl Ausgabe des Verfahrens für das aktuell betrachtete Bild als auch Zustand für das Zusammenfassen der Detektionsergebnisse auf zukünftigen Bildern.
Das Einbeziehen der zeitlichen Information trägt wesentlich zur Stabilisierung der Bildanzeige bei. Erstens wird bei einer Darstellung eines Rechtecks im Bild zur Visualisierung der Ausgabe dies zeitlich soweit geglättet, dass keine Sprünge bei gleichbleibender Position des Zielobjektes auftreten. Bei einer Bewegung des Objektes im Bild (durch Bewegung des Objektes oder des verwendeten bildgebenden Sensors) liegt das Rechteck auf einer glatten Kurve. Zweitens kann es bei stark benachbarten Objekten im rein örtlichen Fall vorkommen, dass auf aufeinanderfolgenden Bildern die Objekte alternierend zusammengefasst bzw. einzeln markiert dargestellt werden. Durch das Einbeziehen der zeitlichen Information werden diese Objekte durchgehend zusammengefasst angezeigt, erst bei Erreichen eines Mindestabstandes wird wieder zu einer Einzelmarkierung übergegangen.
Bezugszeichenliste

1: Detektionen
2: Falschmeldungen
3: Fußgänger
4: Spiegelungen
5: Knoten
6: Linien
7: Zusammenhangskomponente
8: Zusammenhangskomponente
9: Detektion
10: Person
11: Person
12: Rechteck

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2005/119596 A1 [0005]

Claims

Verfahren zum Detektieren von Objekten einer vorgegebenen Klasse für ein Fahrerassistenzsystem durch – Bereitstellen eines Bilds aus der Fahrzeugumgebung und – Ermitteln je eines Repräsentanten (5) für mehrere Teilbilder (1, 2), in denen ein Objekt (3, 4) der vorgegebenen Klasse mit einer vorgegebenen Mindestwahrscheinlichkeit enthalten ist, gekennzeichnet durch, – Zusammenfassen zumindest einiger der Repräsentanten (5) zu einer Zusammenhangskomponente (7, 8), wenn die repräsentierten Teilbilder (1, 2) paarweise ineinander vollständig enthalten sind oder eine vorgegebene Mindestähnlichkeit besitzen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Konfidenzwert jedem der Repräsentanten (5) zugewiesen wird und ein Objekt (3, 4) als detektiert gewertet wird, wenn die Summe der Konfidenzwerte der Zusammenhangskomponente (7, 8) einen vorgegebenen Wert überschreitet.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein detektiertes Objekt (3, 4) in dem Bild markiert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass nur solche Repräsentanten zusammengefasst werden, die jeweils einen vorgegebenen Mindestkonfidenzwert überschreiten.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mehrere zeitlich aufeinander folgende Bilder bereitgestellt werden, in jedem der Bilder derartige Repräsentanten (5) ermittelt werden und die Repräsentanten (5) bildübergreifend zusammengefasst werden.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass jedem Repräsentanten (5) auch ein Lebensdauerwert zugewiesen wird, und das Objekt erst dann als detektiert gilt, wenn die Summe der Lebensdauerwerte einer Zusammenhangskomponente (7, 8) einen vorgegebenen Wert überschreitet.
Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass vor dem Ermitteln der Repräsentanten (5) in einem Bild das Bild gegenüber einem zeitlich vorhergehenden oder folgenden Bild bezüglich einer Eigenbewegung des Aufnahmegeräts der Bilder korrigiert wird.