DE102015200434A1 - Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen - Google Patents

Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen Download PDF

Info

Publication number
DE102015200434A1
DE102015200434A1 DE102015200434.1A DE102015200434A DE102015200434A1 DE 102015200434 A1 DE102015200434 A1 DE 102015200434A1 DE 102015200434 A DE102015200434 A DE 102015200434A DE 102015200434 A1 DE102015200434 A1 DE 102015200434A1
Authority
DE
Germany
Prior art keywords
image
lighting
pixels
classifier
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102015200434.1A
Other languages
English (en)
Inventor
Nina Brouwer
Felix Klanner
Alexander Hanel
Horst Klöden
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102015200434.1A priority Critical patent/DE102015200434A1/de
Publication of DE102015200434A1 publication Critical patent/DE102015200434A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Abstract

Es wird ein Verfahren (300) zur Detektion eines Objektes in einem Bild (200) beschrieben. Das Bild (200) umfasst eine Vielzahl von Bildpunkten (203). Das Verfahren (300) umfasst das Ermitteln (301) von einer globalen Beleuchtungssituation des Bildes (200) auf Basis der Vielzahl von Bildpunkten (203). Außerdem umfasst das Verfahren (300) das Ermitteln eines Bildausschnittes (202), wobei der Bildausschnitt (202) eine Teilmenge der Vielzahl von Bildpunkten (203) umfasst. Desweiteren umfasst das Verfahren (300) das Ermitteln (302) von einer lokalen Beleuchtungssituation des Bildausschnittes (202) auf Basis der Teilmenge der Bildpunkte (203). Außerdem umfasst das Verfahren (300) das Bestimmen (303), ob der Bildausschnitt (202) ein zu detektierendes Objekt aufweist, in Abhängigkeit von der globalen Beleuchtungssituation und in Abhängigkeit von der lokalen Beleuchtungssituation.

Description

  • Die Erfindung betrifft ein Verfahren und eine entsprechende Vorrichtung zur Erkennung von Objekten, insbesondere zur Erkennung von Personen im Umfeld eines Fahrzeugs.
  • Zur Erfassung der Umfeldsituation sind moderne Fahrzeuge mit Kamerasystemen ausgestattet, die Bilddaten bezüglich eines Umfelds der Fahrzeuge erfassen. Objekt-Klassifikatoren können auf die Bilddaten angewendet werden, um Objekte (beispielsweise Personen) vor dem Fahrzeug zu erkennen. Das Erscheinungsbild von Personen in einem Bild ist jedoch nicht konstant, sondern variiert signifikant mit den Beleuchtungsverhältnissen der Umgebung, in der sich eine Person befindet. Aufgrund der abweichenden Erscheinungsbilder sinkt typischerweise die Detektionsgüte der Objekt-Klassifikatoren.
  • Das vorliegende Dokument befasst sich mit der technischen Aufgabe, die Detektionsgüte von Objekt-Klassifikatoren bei sich verändernden Beleuchtungsverhältnissen zu verbessern. Desweiteren befasst sich das vorliegende Dokument mit der technischen Aufgabe, in präziser Weise die Konfidenz einer Objekterkennung zu ermitteln. Außerdem befasst sich das vorliegende Dokument mit der technischen Aufgabe, in effizienter Weise Objekt-Klassifikatoren mit einer hohen Detektionsgüte bereitzustellen.
  • Ein oder mehrere der o.g. Aufgaben werden durch die unabhängigen Ansprüche gelöst. Vorteilhafte Ausführungsformen werden u.a. in den abhängigen Ansprüchen beschrieben.
  • Gemäß einem Aspekt wird ein Verfahren zur Detektion eines Objektes in einem Bild beschrieben. Das Bild umfasst eine Vielzahl von Bildpunkten (auch als Pixel bezeichnet). Die Bildpunkte können unterschiedliche Graustufen und/oder Helligkeiten aufweisen. Das Bild kann von einer Kamera (z.B. von einer Stereo-Kamera) erfasst worden sein. Die Kamera kann an einem Fahrzeug angeordnet sein, und kann eingerichtet sein, ein Umfeld des Fahrzeugs (z.B. ein Umfeld vor dem Fahrzeug) zu erfassen. Das zu detektierende Objekt kann dabei z.B. eine Person (insbesondere ein Fußgänger) sein.
  • Das Verfahren umfasst das Ermitteln von einer globalen Beleuchtungssituation des Bildes auf Basis der Vielzahl von Bildpunkten des Bildes. Mit anderen Worten, es kann eine Situation der Beleuchtung des Gesamtbildes ermittelt werden (z.B. durch Analyse aller Bildpunkte des Bildes). Insbesondere kann für das Gesamt-Bild eine Beleuchtungsklasse ermittelt werden, welche die globale Beleuchtungssituation des Bildes beschreibt.
  • Das Bild, für die die globale Beleuchtungssituation ermittelt wird, kann ein aktuelles Bild aus einer Sequenz von Bildern sein, die z.B. von der Kamera des Fahrzeugs erfasst wurde. Die globale Beleuchtungssituation des aktuellen Bildes kann auf Basis der Bildpunkte von einer Vielzahl von N zurückliegenden Bildern aus der Sequenz von Bildern, mit N > 1, ermittelt werden. So kann die Güte der ermittelten globalen Beleuchtungssituation des aktuellen Bildes erhöht werden.
  • Das Verfahren umfasst weiter das Ermitteln eines Bildausschnittes, wobei der Bildausschnitt eine Teilmenge der Vielzahl von Bildpunkten umfasst. Typischerweise umfasst ein Bild eine Vielzahl von Bildausschnitten. Die Vielzahl von Bildausschnitten kann durch Verschieben eines Suchfensters entlang einer horizontalen Achse und/oder entlang einer vertikalen Achse des Bildes mit einer vordefinierten Schrittweite ermittelt werden. Insbesondere kann durch ein derartiges Abtasten des Bildes eine Sequenz von Bildausschnitten ermittelt werden, wobei für jeden Bildausschnitt der Sequenz bzw. der Vielzahl von Bildausschnitten überprüft werden kann, ob der Bildausschnitt das zu detektierende Objekt anzeigt oder nicht.
  • In analoger Weise zu der globalen Beleuchtungssituation kann ggf. auch die lokale Beleuchtungssituation eines Bildausschnittes auf Basis der Bildpunkte von korrespondierenden Bildausschnitten einer Vielzahl von N zurückliegenden Bildern aus der Sequenz von Bildern, mit N > 1, ermittelt werden. So kann die Güte der ermittelten lokalen Beleuchtungssituation erhöht werden.
  • Ein Bildausschnitt kann eine bestimmte Größe und/oder Form aufweisen. Die Größe und/oder die Form des Bildausschnittes können dabei von dem zu detektierenden Objekt abhängen. So kann sichergestellt werden, dass ein Rahmen des Bildausschnittes das zu detektierende Objekt umschließen kann. Bei der Wahl der Größe der Bildausschnitte kann auch eine betrachtete Entfernung des zu detektierenden Objekts berücksichtigt werden. Insbesondere können Bildausschnitte mit unterschiedlichen Größen analysiert werden, um Objekte in unterschiedlichen Entfernungen von der Kamera zu ermitteln, mit der das Bild erfasst wurde.
  • Das Verfahren umfasst weiter das Ermitteln einer lokalen Beleuchtungssituation eines Bildausschnittes auf Basis der Teilmenge der Bildpunkte des Bildausschnittes. Mit anderen Worten, es kann eine Situation der Beleuchtung des Bildausschnittes ermittelt werden (z.B. durch Analyse aller Bildpunkte des Bildausschnittes). Insbesondere kann für den Bildausschnitt eine Beleuchtungsklasse ermittelt werden, welche die lokale Beleuchtungssituation des Bildausschnittes beschreibt. In analoger Weise können die lokalen Beleuchtungssituationen für jeden Bildausschnitt aus der Sequenz bzw. der Vielzahl von Bildausschnitten des Bildes ermittelt werden.
  • Das Verfahren umfasst weiter das Bestimmen, ob ein Bildausschnitt des Bildes ein zu detektierendes Objekt aufweist, in Abhängigkeit von der globalen Beleuchtungssituation und in Abhängigkeit von der lokalen Beleuchtungssituation des Bildausschnittes. Mit anderen Worten, ein Verfahren zum Bestimmen, ob ein Bildausschnitt ein zu detektierendes Objekt aufweist, kann von der lokalen Beleuchtungssituation des Bildausschnittes und von der globalen Beleuchtungssituation des Bildes abhängen, aus dem der Bildausschnitt entstammt.
  • Durch die Anpassung eines Detektionsverfahrens an die lokale und globale Beleuchtungssituation eines Bildausschnittes kann die Zuverlässigkeit des Detektionsverfahrens substantiell erhöht werden, insbesondere bei Beleuchtungssituationen mit künstlichem Licht (z.B. bei Nacht).
  • Das Ermitteln einer Beleuchtungssituation auf Basis von Bildpunkten (z.B. das Ermitteln einer globalen Beleuchtungssituation oder das Ermitteln einer lokalen Beleuchtungssituation) kann umfassen, das Ermitteln, auf Basis der Bildpunkte (z.B. der Bildpunkte des Bildes oder der Bildpunkte des Bildausschnittes), einer Vielzahl von Gütemaß-Werten für eine entsprechende Vielzahl von Gütemaßen. Beispielhafte Gütemaße sind eine statistische Größe aus einem Histogramm von Helligkeitswerten der Bildpunkte und/oder ein zentrales Moment, das einen Schwerpunkt der Helligkeitswerte der Bildpunkte beschreibt. Die Vielzahl von Gütemaß-Werten kann einen Merkmalsvektor für die Bildpunkte bilden, für welche eine Beleuchtungssituation ermittelt werden soll.
  • Desweiteren kann das Ermitteln einer Beleuchtungssituation umfassen, das Ermitteln, auf Basis der Vielzahl von Gütemaß-Werten, von einer Beleuchtungsklasse aus einer Vielzahl von vordefinierten Beleuchtungsklassen, wobei die ermittelte Beleuchtungsklasse die Beleuchtungssituation der Bildpunkte anzeigt. Die Vielzahl von Beleuchtungsklassen kann dabei ein oder mehrere umfassen von, eine Beleuchtungsklasse, die eine Beleuchtungssituation mit Tageslicht anzeigt, und/oder eine Beleuchtungsklasse, die eine Beleuchtungssituation mit künstlichem Licht anzeigt, insbesondere in einer ländlichen Region, in einem Wohngebiet oder in einem Stadtzentrum.
  • Die Beleuchtungsklasse für die Bildpunkte kann mittels eines Beleuchtungs-Klassifikators ermittelt werden, der eingerichtet ist, Merkmalsvektoren jeweils einer Beleuchtungsklasse aus der Vielzahl von Beleuchtungsklassen zuzuweisen. Der Beleuchtungs-Klassifikator kann einen Bayes-Klassifikator, einen Expectation Maximization-Klassifikator, einen K-Means-Klassifikator, und/oder einen Support Vector Machine-Klassifikator umfassen. Der Beleuchtungs-Klassifikator kann auf Basis von einem Trainings-Datensatz mit einer Vielzahl von Trainings-Bildern angelernt worden sein.
  • Somit kann durch die Verwendung von Beleuchtungsklassen und ggf. durch die Verwendung eines Beleuchtungs-Klassifikators in effizienter und robuster Weise die Beleuchtungssituation von Bildpunkten (z.B. von Bildpunkten eines Bildes oder von Bildpunkten eines Bildausschnittes) ermittelt werden.
  • Das Bestimmen, ob ein Bildausschnitt des Bildes ein zu detektierendes Objekt aufweist bzw. anzeigt, kann umfassen, das Ermitteln, auf Basis der Teilmenge von Bildpunkten des Bildausschnittes, von einem Deskriptor für den Bildausschnitt. Der Deskriptor kann z.B. gemäß einem HOG(Histogram of Oriented Gradients)-Modell, einem LBP(Local Binary Patterns)-Modell, und/oder einem Wavelet-Modell ermittelt werden.
  • Desweiteren kann das Bestimmen, ob ein Bildausschnitt des Bildes ein zu detektierendes Objekt aufweist bzw. anzeigt, umfassen, das Klassifizieren des Bildausschnittes mittels eines Objekt-Klassifikators. Dabei ist der Objekt-Klassifikator eingerichtet, den Deskriptor des Bildausschnittes einer positiven Objekt-Klasse oder einer negativen Objekt-Klasse zuzuordnen. Die positive Objekt-Klasse kann anzeigen, dass der Bildausschnitt das zu detektierende Objekt aufweist, und die negative Objekt-Klasse kann anzeigen, dass der Bildausschnitt das zu detektierende Objekt nicht aufweist. Der Objekt-Klassifikator kann dabei z.B. einen Bayes-Klassifikator, einen Expectation Maximization-Klassifikator, einen K-Means-Klassifikator, und/oder einen Support Vector Machine-Klassifikator umfassen. Der Objekt-Klassifikator kann auf Basis von einem Trainings-Datensatz mit einer Vielzahl von Trainings-Bildern angelernt worden sein.
  • Wie bereits oben dargelegt, kann das Detektionsverfahren von der Beleuchtungssituation des Bildausschnittes abhängen. Insbesondere können dabei ein Typ des Deskriptors, eine Auflösung des Deskriptors, ein Typ des Objekt-Klassifikators und/oder ein Trainings-Datensatz, welcher zum Anlernen des Objekt-Klassifikators verwendet wurde, von der globalen Beleuchtungssituation und von der lokalen Beleuchtungssituation des Bildausschnittes abhängen. Somit kann das verwendete Detektionsverfahren in präziser Weise an die Beleuchtungssituation des Bildausschnittes angepasst werden, und somit die Zuverlässigkeit des Objekterkennungsverfahrens erhöht werden.
  • In analoger Weise kann für jeden Bildausschnitt aus der Sequenz bzw. der Vielzahl von Bildausschnitten eines Bildes, in Abhängigkeit von der jeweiligen lokalen Beleuchtungssituation des Bildausschnittes sowie in Abhängigkeit von der globalen Beleuchtungssituation des Bildes, bestimmt werden, ob der Bildausschnitt das zu detektierende Objekt aufweist bzw. anzeigt. Dabei kann das für den jeweiligen Bildausschnitt angewendete Detektionsverfahren an die ermittelte Kombination aus lokaler Beleuchtungssituation und globaler Beleuchtungssituation angepasst werden. So kann die Zuverlässigkeit des Objekterkennungsverfahrens für das gesamte Bild erhöht werden.
  • Wie bereits oben dargelegt, kann das Bild einem aktuellen Bild aus einer Sequenz von zeitlich aufeinander folgenden Bildern entsprechen. Die globale Beleuchtungssituation des aktuellen Bildes kann dann auf Basis der Bildpunkte von einer Vielzahl von Bildern aus der Sequenz von Bildern ermittelt werden.
  • Insbesondere kann die Vielzahl von Bildern das aktuelle Bild und ein oder mehrere Bilder umfassen, die (ggf. direkt) zeitlich vor dem aktuellen Bild erfasst wurden. In analoger Weise kann die lokale Beleuchtungssituation eines Bildausschnittes des aktuellen Bildes auf Basis von korrespondierenden Teilmengen der Bildpunkte der Vielzahl von Bildern ermittelt werden. Durch die Berücksichtigung von einer Vielzahl von Bildern kann die Güte der ermittelten Beleuchtungssituationen erhöht werden.
  • Das Bild kann, wie bereits dargelegt, durch eine Kamera eines Fahrzeugs erfasst worden sein. Die Kamera kann eingerichtet sein, ein Umfeld vor dem Fahrzeug zu erfassen. Die globale und/oder die lokale Beleuchtungssituation kann auch auf Basis von A-priori Wissen bezüglich der Beleuchtungssituation in dem Umfeld vor dem Fahrzeug ermittelt werden. Das A-priori Wissen kann ein oder mehrere umfassen von: eine Tageszeit an dem das Bild erfasst wurde; ein Datum an dem das Bild erfasst wurde; die Aufgangs- und/oder Untergangszeit der Sonne an dem Tag an dem das Bild erfasst wurde; und/oder eine geographische Position des Umfelds, welches in dem Bild dargestellt ist (z.B. die GPS Koordinaten in Zusammenschau mit digitalen Karteninformationen). Durch die Berücksichtigung von A-priori Wissen kann die Güte der ermittelten Beleuchtungssituationen erhöht werden.
  • Das Fahrzeug kann über die Kamera hinaus ein oder mehrere Umfeldsensoren, insbesondere einen Radarsensor und/oder einen Lidar-Sensor, umfassen, die eingerichtet sind, Umfelddaten bezüglich des Umfelds des Fahrzeugs zu erfassen. Die globale und/oder die lokale Beleuchtungssituation kann dann auch auf Basis von den Umfelddaten ermittelt werden, um die Güte der ermittelten Beleuchtungssituation zu erhöhen. Insbesondere kann das Verfahren weiter umfassen, das Detektieren, auf Basis von den Umfelddaten, von einem statischen oder einem dynamischen Objekt in dem Umfeld des Fahrzeugs, das Einfluss auf die Beleuchtungssituation des Bildes haben kann. Das statische Objekt kann z.B. eine (beleuchtete) Straßenlaterne und das dynamische Objekt kann z.B. ein entgegenkommendes Fahrzeug umfassen. Durch die Lichtquellen dieser Objekte kann es zu einer Veränderung der ortsgebundenen Beleuchtungsbedingungen kommen, die bei der Ermittlung der Beleuchtungssituation berücksichtigt werden kann. Insbesondere kann die globale und/oder lokale Beleuchtungssituation auch auf Basis von dem detektierten statischen oder dynamischen Objekt ermittelt werden, um die Güte der ermittelten Beleuchtungssituation zu erhöhen.
  • Das Verfahren kann weiter umfassen, das Ermitteln einer erwarteten Entfernung des zu detektierenden Objektes. Die Teilmenge der Vielzahl von Bildpunkten für die Ermittlung der lokalen Beleuchtungssituation des Bildausschnittes kann dann auf Basis der erwarteten Entfernung des zu detektierenden Objektes bestimmt werden. Insbesondere kann eine Auflösung von berücksichtigten Bildpunkten mit sinkender erwarteter Entfernung des zu detektierenden Objektes (und einer somit steigenden Anzahl von Bildpunkten, in denen das zu detektierende Objekt dargestellt ist) reduziert werden.
  • Die Auflösung eines Bildausschnittes zur Bestimmung der Beleuchtungssituation bzw. der Beleuchtungsklasse kann adaptiv herabgesetzt werden, insbesondere in Abhängigkeit von der Entfernung in dem das zu detektierende Objekt zu erwarten ist. Beispielsweise umfasst eine Person im Nahbereich eine hohe Anzahl von Bildpunkten, welche typischerweise nicht alle für die Bestimmung der Beleuchtungssituation benötigt werden. Hier kann durch Herabsetzen der Auflösung Rechenzeit für die Ermittlung der Beleuchtungssituation eingespart werden. Andererseits umfasst eine Person im Fernbereich typischerweise wenige Bildpunkt, die nach Möglichkeit alle für die Ermittlung der Beleuchtungssituation verwendet werden sollten.
  • Gemäß einem Aspekt wird eine Steuereinheit beschrieben, die eingerichtet ist, ein oder mehrere der in diesem Dokument beschriebenen Verfahren auszuführen.
  • Gemäß einem weiteren Aspekt wird ein Fahrzeug (z.B. ein Personenkraftwagen, ein Lastkraftwagen oder ein Motorrad) beschrieben, das eine in diesem Dokument beschriebene Steuereinheit umfasst.
  • Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem Prozessor (z.B. auf einem Steuergerät) ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
  • Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem Prozessor ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
  • Es ist zu beachten, dass die in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systeme sowohl alleine, als auch in Kombination mit anderen in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen verwendet werden können. Desweiteren können jegliche Aspekte der in diesem Dokument beschriebenen Verfahren, Vorrichtung und Systemen in vielfältiger Weise miteinander kombiniert werden. Insbesondere können die Merkmale der Ansprüche in vielfältiger Weise miteinander kombiniert werden.
  • Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher beschrieben. Dabei zeigen
  • 1a ein beispielhaftes Fahrzeug mit einer Umfeld-Kamera;
  • 1b beispielhafte Komponenten eines Fahrzeugs;
  • 2 beispielhafte Bildausschnitte aus einem von der Umfeld-Kamera erfassten Bild;
  • 3a ein Ablaufdiagramm eines beispielhaften Verfahrens zur Erkennung eines Objektes unter Berücksichtigung der Beleuchtungssituation;
  • 3b ein beispielhaftes Verfahren zur Klassifikation einer Beleuchtungssituation;
  • 3c ein Ablaufdiagramm eines beispielhaften Verfahrens zur Erkennung eines Objektes;
  • 4 ein Ablaufdiagramm eines beispielhaften Verfahrens zur Ermittlung der Zuverlässigkeit eines Objekterkennungsverfahrens;
  • 5a beispielhafte Stereo-Bilder und ein daraus ermitteltes Disparitätsbild;
  • 5b ein Ablaufdiagramm eines beispielhaften Verfahrens zur Erkennung eines Objektes, unter Berücksichtigung von Disparität;
  • 5c ein beispielhaftes Histogramm von Disparitätswerten;
  • 6a eine beispielhafte Verteilung der Wahrscheinlichkeit von zu detektierenden Objekten in Bildausschnitten mit unterschiedlichen Beleuchtungssituationen; und
  • 6b ein Ablaufdiagramm eines beispielhaften Verfahrens zur Ermittlung von Trainingsdaten für einen Objekt-Klassifikator.
  • Wie eingangs dargelegt, befasst sich das vorliegende Dokument mit der zuverlässigen Erkennung von einem Objekt (insbesondere von einer Person) auf Basis von Bilddaten. In diesem Zusammenhang zeigt 1a ein beispielhaftes Fahrzeug 100. Das Fahrzeug 100 weist eine Kamera 101 auf, die eingerichtet ist, ein Umfeld vor dem Fahrzeug 100 zu erfassen. In dem dargestellten Beispiel ist die Kamera 101 an einem Rückspiegel im Innenraum des Fahrzeugs 100 angeordnet. Wie in 1a dargestellt, kann die Kamera 101 eine Stereo-Kamera umfassen, die eingerichtet ist, ein rechtes Bild und ein linkes Bild von dem Umfeld des Fahrzeugs 100 zu erfassen. Auf Basis von dem rechten Bild und von dem linken Bild können Tiefen-Informationen ermittelt werden (z.B. eine Disparität). Insbesondere können auf Basis des rechten Bildes und des linken Bildes Informationen bezüglich eines Abstands eines detektieren Objekts zu dem Fahrzeug 100 ermittelt werden.
  • 1b zeigt ein Blockdiagramm mit beispielhaften Komponenten eines Fahrzeugs 100. Die von der Kamera 101 erfassten Bilddaten 111 (z.B. eine Sequenz von Bildern) kann an eine Steuereinheit 102 weitegeleitet werden. Die Steuereinheit 102 ist eingerichtet, auf Basis der Bilddaten 111 zu ermitteln, ob sich im vorderen Umfeld des Fahrzeugs 100 ein Objekt (insbesondere eine Person) befindet oder nicht. Desweiteren kann die Steuereinheit 102 eingerichtet sein, ein oder mehrere Maßnahmen zu veranlassen, wenn ein Objekt detektiert wurde. Insbesondere können ein oder mehrere Steuergeräte 103 des Fahrzeugs 100 veranlasst werden, die ein oder mehreren Maßnahmen durchzuführen. Beispielhafte Maßnahmen sind das Ausgeben eines (akustischen und/oder optischen) Warnhinweises an einen Fahrer des Fahrzeugs 100, oder das Durchführen einer automatischen Bremsung des Fahrzeugs 100, um eine Kollision mit dem detektierten Objekt zu vermeiden oder um die Folgen einer Kollision zu reduzieren.
  • 2 zeigt ein beispielhaftes Bild 200 aus den Bilddaten 111. Das Bild 200 weist eine Vielzahl von Bildpunkten bzw. Pixeln 203 auf, die ein Umfeld des Fahrzeugs 100 wiedergeben. Das Bild 200 kann analysiert werden, um ein in dem Bild 200 dargestelltes Objekt (insbesondere eine Person) zu erkennen. Die Analyse des Bildes 200 kann dabei ggf. auf einen Teilbereich des Bildes 200 beschränkt werden, da z.B. nur Objekte detektiert werden sollen, die einen vordefinierten Abstand zum Fahrzeug 100 nicht überschreiten. Beispielsweise kann die Analyse des Bildes 200 auf einen unteren Bildbereich unterhalb einer horizontalen Linie 201 beschränkt werden, da sich Objekte oberhalb dieser Linie 201 in einem zu großen Abstand zum Fahrzeug 100 befinden. So kann der Rechenaufwand zur Erkennung eines Objektes reduziert werden.
  • Zur Erkennung eines Objektes können einzelne Bildausschnitte 202 (auch als Stichproben bezeichnet) des zu analysierenden Teils des Bildes 200 betrachtet werden. Ein Bildausschnitt 202 kann dabei eine rechteckige Form aufweisen, mit einer Höhe 211 und einer Breite 212. Die Höhe 211 und/oder die Breite 212 eines Bildausschnittes 202 können dabei verändert werden, um unterschiedlich große Objekte (z.B. einen Erwachsenen oder ein Kind) und/oder Objekte in unterschiedlicher Entfernung zum Fahrzeug 100 zu detektieren. Dabei können ggf., in Abhängigkeit von typischen Größen und/oder Entfernungen von einem zu detektierenden Objekt, eine minimale Höhe / Breite bzw. eine maximal Höhe / Breite von Bildausschnitten 202 festgelegt werden. So kann der Rechenaufwand für die Suche nach einem Bildausschnitt 202, der ein Objekt umfasst, reduziert werden.
  • Es kann somit ein Bildausschnitt 202 aus dem Bild 200 betrachtet werden. Der Bildausschnitt 202 umfasst dabei typischerweise eine geringere Anzahl von Pixeln als das Bild 200. Anhand der in diesem Dokument beschriebenen Verfahren kann ermittelt werden, ob der Bildausschnitt 202 ein zu erkennendes Objekt umfasst, z.B. ob auf dem Bildausschnitt 202 eine Person zu erkennen ist. Desweiteren können durch die Größe (z.B. die Höhe 211 und die Breite 212) des Bildausschnittes 202 Informationen bzgl. einer Entfernung eines detektierten Objektes zu dem Fahrzeug 100 ermittelt werden.
  • Es können dabei unterschiedliche Bildausschnitte 202 aus dem Bild 200 betrachtet werden. Insbesondere können unterschiedliche Bildausschnitte 202 entlang einer horizontalen Bildachse 213 und/oder entlang einer vertikalen Bildachse 214 betrachtet werden. Dabei können auch sich überlappende Bildausschnitte 202 betrachtet werden. Beispielsweise kann eine Vielzahl von Bildausschnitten 202 betrachtet werden, die sich jeweils um eine bestimmte Schrittweite entlang der horizontalen und/oder vertikalen Achse 213, 214 voneinander unterscheiden. Alternativ oder ergänzend können Bildausschnitte 202 mit unterschiedlichen Höhen / Breiten 211, 212 betrachtet werden.
  • Der Bildausschnitt 202 kann auch als Suchfenster bezeichnet werden, wobei sich die Positionen der Suchfenster durch ein rasterförmiges Abtasten des Bildes 200 ergeben. Die Form der Suchfenster sowie die Rasterweite der Abtastung ergeben sich aus der jeweiligen Anwendung. Für die Erkennung von Fußgängern eignet sich beispielsweise ein hoch-kantiges Rechteck (wie in 2 dargestellt).
  • Wie eingangs dargelegt, führen unterschiedliche Beleuchtungsverhältnisse typischerweise zu signifikanten Unterschieden in Bezug auf die Zuverlässigkeit der Erkennung von Objekten in einem Bild 200. 3a zeigt ein Ablaufdiagramm eines beispielhaften Verfahrens 300 zur Erkennung eines Objektes in einem Bild 200. Das Verfahren 300 umfasst das Ermitteln 301 einer globalen Beleuchtungsklasse für das Bild 200. Mit anderen Worten, die Pixel 203 des Bildes 200 können analysiert werden, um das gesamte Bild 200 (bzw. den gesamten Teil des Bildes 200, in dem nach einem Objekt gesucht wird) einer bestimmten Beleuchtungsklasse zuzuordnen. Dabei werden die Pixel 203 des gesamten Bildes 200 bzw. des gesamten zu-analysierenden Teils des Bildes 200 betrachtet. Beispielhafte Beleuchtungsklassen sind z.B. eine Tag-Klasse, die eine Beleuchtungssituation bei Tageslicht anzeigt, und eine Nacht-Klasse, die eine Beleuchtungssituation bei künstlichem Licht anzeigt. Aufgrund von sehr unterschiedlichen Beleuchtungssituationen bei Nacht kann die Nacht-Klasse in weitere Unter-Klassen aufgeteilt werden. Beispielsweise kann für eine Nacht-Situation eine Landstraßen-Klasse, eine Wohngebiet-Klasse und eine Stadtzentrum-Klasse definiert werden, welche unterschiedlich starke künstliche Beleuchtungssituationen anzeigen.
  • Das Verfahren 300 umfasst weiter, das Ermitteln 302 einer lokalen Beleuchtungssituation 302 für einen Bildausschnitt 202 des Bildes 200. Insbesondere kann der Bildausschnitt 202 einer Beleuchtungsklasse (z.B. einer der o.g. Beleuchtungsklassen) zugeordnet werden. Dabei werden nur die Pixel 203 des jeweiligen Bildausschnittes 202 betrachtet. Somit kann für jeden Bildausschnitt 202 eines Bildes 200 eine globale Beleuchtungsklasse (GK), welche die Beleuchtungssituation des Bildes 200 wiedergibt, aus dem der Bildausschnitt 202 stammt, und eine lokale Beleuchtungsklasse (LK) ermittelt werden.
  • Das Bild 200, für das eine GK und/oder eine LK ermittelt werden soll, kann einem aktuellen Bild aus einer Sequenz von zeitlich aufeinander folgenden Bildern entsprechen. Die GK des aktuellen Bildes kann dann auf Basis der Pixel 203 von einer Vielzahl von Bildern aus der Sequenz von Bildern ermittelt werden. Insbesondere kann die Vielzahl von Bildern das aktuelle Bild und ein oder mehrere Bilder umfassen, die (ggf. direkt) zeitlich vor dem aktuellen Bild erfasst wurden. In analoger Weise kann die LK eines Bildausschnittes 202 des aktuellen Bildes auf Basis von korrespondierenden Teilmengen der Pixel 203 der Vielzahl von Bildern ermittelt werden. Durch die Berücksichtigung von einer Vielzahl von Bildern kann die Güte der ermittelten BK und/oder LK erhöht werden.
  • Das Bild 200 kann, wie bereits dargelegt, durch eine Kamera 101 eines Fahrzeugs 100 erfasst worden sein. Die Kamera 101 kann eingerichtet sein, ein Umfeld vor dem Fahrzeug 100 zu erfassen. Die GK und/oder die LK kann auch auf Basis von A-priori Wissen bezüglich der Beleuchtungssituation in dem Umfeld vor dem Fahrzeug 100 ermittelt werden. Das A-priori Wissen kann ein oder mehrere umfassen von: eine Tageszeit an dem das Bild 200 erfasst wurde; ein Datum an dem das Bild 200 erfasst wurde; die Aufgangs- und/oder Untergangszeit der Sonne an dem Tag an dem das Bild 200 erfasst wurde; und/oder eine geographische Position des Umfelds, welches in dem Bild 200 dargestellt ist (z.B. die GPS Koordinaten in Zusammenschau mit digitalen Karteninformationen). Durch die Berücksichtigung von A-priori Wissen kann die Güte der ermittelten GK und/oder LK erhöht werden.
  • Das Fahrzeug 100 kann über die Kamera 101 hinaus ein oder mehrere Umfeldsensoren, insbesondere einen Radarsensor und/oder einen Lidar-Sensor, umfassen, die eingerichtet sind, Umfelddaten bezüglich des Umfelds des Fahrzeugs 100 zu erfassen. Die GK und/oder die LK können dann auch auf Basis von den Umfelddaten ermittelt werden, um die Güte der ermittelten GK und/oder LK zu erhöhen. Insbesondere kann das Verfahren 300 weiter umfassen, das Detektieren, auf Basis von den Umfelddaten, von einem statischen oder einem dynamischen Objekt in dem Umfeld des Fahrzeugs 100, das Einfluss auf die Beleuchtungssituation des Bildes 200 haben kann. Das statische Objekt kann z.B. eine (beleuchtete) Straßenlaterne und das dynamische Objekt kann z.B. ein entgegenkommendes Fahrzeug umfassen. Durch die Lichtquellen dieser Objekte kann es zu einer Veränderung der ortsgebundenen Beleuchtungsbedingungen kommen, die bei der Ermittlung der GK und/oder LK berücksichtigt werden kann. Insbesondere kann die GK und/oder LK auch auf Basis von dem detektierten statischen oder dynamischen Objekt ermittelt werden, um die Güte der ermittelten GK und/oder LK zu erhöhen.
  • Das Verfahren 300 kann weiter umfassen, das Ermitteln einer erwarteten Entfernung des zu detektierenden Objektes. Die Anzahl von Pixeln 203 für die Ermittlung der LK eines Bildausschnittes 202 kann dann auf Basis der erwarteten Entfernung des zu detektierenden Objektes bestimmt werden. Insbesondere kann eine Auflösung von berücksichtigten Pixeln 203 mit sinkender erwarteter Entfernung des zu detektierenden Objektes (und einer somit steigenden Anzahl von Pixeln 203, in denen das zu detektierende Objekt dargestellt ist) reduziert werden.
  • Die Auflösung eines Bildausschnittes 202 zur Bestimmung der LK kann somit adaptiv herabgesetzt werden, insbesondere in Abhängigkeit von der Entfernung in dem das zu detektierende Objekt zu erwarten ist. Beispielsweise umfasst eine Person im Nahbereich eine hohe Anzahl von Pixeln 203, welche typischerweise nicht alle für die Bestimmung der LK benötigt werden. Hier kann durch Herabsetzen der Auflösung Rechenzeit für die Ermittlung der LK eingespart werden. Andererseits umfasst eine Person im Fernbereich typischerweise wenige Pixel 203, die nach Möglichkeit alle für die Ermittlung der LK verwendet werden sollten.
  • Außerdem umfasst das Verfahren 300 das Durchführen 303 einer Objekterkennung innerhalb des Bildausschnittes 202. Dabei erfolgt die Objekterkennung unter Berücksichtigung der GK und/oder der LK des Bildausschnittes 202. Insbesondere kann ein Algorithmus zur Detektion eines Objektes innerhalb des Bildausschnittes 202 von der GK und/oder der LK des Bildausschnittes 202 abhängen. Durch die Berücksichtigung der GK und/oder der LK eines Bildausschnittes 202 kann die Zuverlässigkeit (d.h. die Konfidenz) der Objekterkennung substantiell verbessert werden. Dies gilt insbesondere bei nächtlichen Beleuchtungssituationen.
  • 3b zeigt ein beispielhaftes Verfahren 310 zur Ermittlung einer lokalen Beleuchtungsklasse für einen Bildausschnitt 202. Das Verfahren 310 kann in analoger Weise für die Ermittlung einer globalen Beleuchtungsklasse für ein Bild 200 verwendet werden. Das Verfahren 310 umfasst das Ermitteln 311 von ein oder mehreren Gütemaßen auf Basis der Pixel 203 des Bildausschnittes 202. Die Gütemaße können auch als Bildmerkmale bezeichnet werden. Typischerweise werden für einen Bildausschnitt 202 mehrere Gütemaße ermittelt, die zusammen einen Merkmalsvektor des Bildausschnittes 202 darstellen. Durch den Merkmalsvektor wird die Beleuchtungssituation des Bildausschnittes 202 beschrieben.
  • Die Gütemaße dienen dazu, die Inhalte und/oder die Qualität eines Bildausschnitts 202 zu beschreiben. Ein einzelnes Gütemaß liefert meist keine direkten Informationen über die Beleuchtungsverhältnisse. Durch Interpretation beziehungsweise durch Kombination mehrerer Gütemaße kann jedoch typischerweise eine Beschreibung der Beleuchtung abgeleitet werden.
  • Ein beispielhaftes Gütemaß ist ein Gütemaß ohne einen Referenzbezug, das allein auf Basis der Pixel 203 des Bildausschnitts 202 ermittelt wird. Ein weiteres beispielhaftes Gütemaß ist ein Gütemaß mit oder mit eingeschränktem Referenzbezug, welches durch Vergleich mit einer Referenz ermittelt wird. Beispielsweise kann (z.B. durch eine Gauß’sche Glättung) ein Hintergrundbild des Bildausschnittes 202 ermittelt werden, welches als Referenz verwendet werden kann. Der originale Bildausschnitt 202 kann dann mit dem Hintergrundbild verglichen werden, um ein oder mehrere Gütemaße zu ermitteln.
  • Die Gütemaße können z.B. informationstheoretische Größen (wie z.B. die Entropie und/oder die Anisotropie) und/oder statistische Größen umfassen, welche z.B. auf Basis der Pixel 203 und insbesondere auf Basis von einem Histogramm der Helligkeit und/oder Farben der Pixel 203 eines Bildausschnitts 202 ermittelt werden können. Weitere Beispiele für Gütemaße ohne Referenzbezug sind
    • • ein Unschärfemaß in Bezug auf Kanten in einem Bildausschnitt 202;
    • • ein zentrales Moment, das einen Schwerpunkt von einer Helligkeitsverteilung von Bildpunkten 203 eines Bildausschnittes 202 beschreibt;
    • • ein Kompressionsmaß, welches die Unschärfe und Blockbildung in einem Bildausschnitt 202 anzeigt;
    • • ein Maß, welches eine statische Auswertung von DCT (diskrete Cosinustransformation) Koeffizienten des Bildausschnittes 202 umfasst.
  • Beispiele für Gütemaße mit Referenzbezug sind
    • • ein Distanzmaß, welches z.B. einen Unterschied zwischen dem originalen Bildausschnitt 202 und dem Hintergrundbild des Bildausschnitts 202 anzeigt;
    • • statistische Größen, welche aus dem originalen Bildausschnitt 202 und dem Hintergrundbild ermittelt werden;
    • • ein Kontrastmaß, welches Helligkeitsunterschiede des originalen Bildausschnitts 202 und des Hintergrundbilds anzeigt;
    • • Referenzbasierte Unschärfemaße; und/oder
    • • Gradient-basierte Maße, welche Gradienten im originalen Bildausschnitt 202 und im Hintergrundbild vergleichen.
  • Das Verfahren 310 umfasst weiter das Zuordnen 312 des Bildausschnittes 202 zu einer Beleuchtungsklasse aus einer Vielzahl von vordefinierten Beleuchtungsklassen. Die Zuordnung 312 erfolgt dabei auf Basis der ein oder mehreren ermittelten Gütemaße für den Bildausschnitt 202. Zu diesem Zweck kann ein Beleuchtungs-Klassifikator verwendet werden, der eingerichtet ist, den Merkmalsvektor eines Bildausschnittes 202 einer Beleuchtungsklasse zuzuweisen. Der Beleuchtungs-Klassifikator kann z.B. einen Bayes-Klassifikator, einen Expectation Maximization Klassifikator, einen K-Means Klassifikator und/oder einen Support Vector Machine Klassifikator umfassen.
  • Der Beleuchtungs-Klassifikator wird typischerweise anhand von Trainingsdaten (d.h. anhand von einem Trainings-Datensatz) angelernt. So können die Parameter des Klassifikatormodells des Klassifikators (z.B. ein Referenz-Merkmalsvektor pro Beleuchtungsklasse) bestimmt werden. Die Anlernverfahren lassen sich dabei in überwachte und unüberwachte Algorithmen einteilen. Überwachte Algorithmen verwenden einen Trainings-Datensatz, bei dem für jede Stichprobe (d.h. für jeden Bildausschnitt 202 bzw. für jedes Bild 200 des Datensatzes) bekannt ist, welcher Klasse die jeweilige Stichprobe zugeordnet ist. Die Stichproben sind „gelabelt“. Unüberwachte Algorithmen verwenden einen Datensatz, von dem das nicht bekannt ist. Eine Stichprobe ist dabei ein Bild 200 (zur Ermittlung der globalen Beleuchtungsklasse) oder Bildausschnitt 202 (zur Ermittlung der lokalen Beleuchtungsklasse), auf dem alle verwendeten Gütemaße berechnet wurden. Wie bereits oben dargelegt, können die für eine Stichprobe ermittelten Werte der Gütemaße zu einem Merkmalsvektor für diese Stichprobe zusammengefasst werden.
  • Es kann somit aus dem Trainings-Datensatz eine Vielzahl von Merkmalsvektoren für die Vielzahl von Stichproben des Trainings-Datensatzes ermittelt werden. Wenn die Beleuchtungsklassen der Vielzahl von Stichproben bekannt sind (im Falle eines überwachten Algorithmus) können so für jede Beleuchtungsklasse eine Vielzahl von Merkmalsvektoren ermittelt werden, welche die entsprechende Beleuchtungsklasse repräsentiert. Beispielsweise kann so für jede Beleuchtungsklasse ein Referenz-Merkmalsvektor ermittelt werden (z.B. als Mittelwert der Vielzahl von Merkmalsvektoren dieser Beleuchtungsklasse). Die Referenz-Merkmalsvektoren können dann von dem Beleuchtungs-Klassifikator zur Klassifikation verwendet werden. Beispielsweise kann der Beleuchtungs-Klassifikator zur Klassifikation einer ersten Stichprobe, für die die Beleuchtungsklasse nicht bekannt ist, einen ersten Merkmalsvektor dieser ersten Stichprobe mit den Referenz-Merkmalsvektoren vergleichen, und den Referenz-Merkmalsvektor ermitteln, welcher dem ersten Merkmalsvektor am nächsten kommt (gemäß einem vordefinierten Abstandsmaß). Die erste Stichprobe kann dann der Beleuchtungsklasse zugeordnet werden, die dem ermittelten Referenz-Merkmalsvektor entspricht.
  • Es kann somit mittels des Verfahrens 310 in effizienter und zuverlässiger Weise die Beleuchtungsklasse eines Bildes 200 bzw. eines Bildausschnitts 202 ermittelt werden. Die GK und LK eines Bildausschnittes 202 können dann dazu verwendet werden, eine an die Beleuchtungssituation des Bildausschnittes 202 angepasste Objekterkennung durchzuführen. Desweiteren kann auf Basis der GK und der LK eines Bildausschnitts 202 die zu erwartende Qualität, d.h. die Zuverlässigkeit, der Objekterkennung ermittelt werden (siehe dazu das Verfahren 400).
  • Die Objekterkennung in einem Bildausschnitt 202 kann auf Basis einer Deskriptor-Klassifikator-Kombination erfolgen. Dabei wird ein Deskriptor des Bildausschnitts 202 dazu verwendet, den dargestellten Inhalt des Bildausschnitts 202 zu beschreiben. Anhand der durch den Deskriptor bereitgestellten Beschreibung eines Bildausschnittes 202 akzeptiert oder verwirft der Klassifikator für einen bestimmten Bildausschnitt 202 die Hypothese, ob ein Objekt (z.B. eine Person) in dem Bildausschnitt 202 vorliegt. Dieser Klassifikator wird in diesem Dokument auch als Objekt-Klassifikator bezeichnet.
  • 3c zeigt ein beispielhaftes Verfahren 320 zur Erkennung eines Objektes in einem Bildausschnitt 202. Das Verfahren 320 umfasst das Ermitteln 321 von einem Deskriptor für den Bildausschnitt 202. Dabei kann ein bestimmtes Deskriptor-Modell verwendet werden. Beispielhafte Deskriptor-Modelle sind das HOG-Modell (Histogram of oriented Gradients) und das LBP-Modell (local binary patterns).
  • Das HOG-Modell ist ein gradientenbasierter Ansatz, das heißt, das HOG-Modell erfasst die Form der zu detektierenden Objekte. Auf Basis der Grauwerde bzw. der Farbwerte der Pixel 203 eines Bildausschnittes 202 werden für die einzelnen Pixel 203 Helligkeits-Gradienten bzw. Farb-Gradienten ermittelt. Desweiteren können für jedes Pixel 203 die Richtungen des maximalen und/oder minimalen Helligkeits-Gradienten bzw. Farb-Gradienten ermittelt werden.
  • Das Verfahren bestimmt als Merkmalsvektor ein zellenweises Histogramm der Gradientenrichtungen. Zum Berechnen des Merkmalsvektors wird ein Bildausschnitt 202 in sich überlappende Blöcke eingeteilt. Jeder Block besteht wiederum aus einer bestimmten Anzahl von Zellen, die wiederum aus mehreren Pixeln 203 bestehen. Die Zellen überlappen sich nicht, schließen aber bündig aneinander an. Es können quadratische Blöcke sowie Zellen gewählt, auch wenn der Bildausschnitt 202 nicht quadratisch ist. Für jeden Pixel 203 wird in vertikaler und horizontaler Bildrichtung der Gradient bestimmt. Aus diesen Größen lassen sich über bekannte Formeln die Stärke sowie die Orientierung des Gradienten berechnen. Daraus wird für jede Zelle ein Histogramm der Gradientenrichtungen erstellt. Die Richtungen sind dazu in gleichabständige Werte diskretisiert. Üblicherweise sind die diskretisierten Werte nur auf den Halbkreis von 0° bis 180° bezogen, das bedeutet, dass nicht unterschieden wird, ob der Gradient einen Helligkeitsübergang von dunkel zu hell oder andersrum beschreibt. Die Histogrammeinträge werden mit der zugehörigen Gradientenstärke gewichtet. Alle Histogramme eines Blockes werden anschließend normalisiert. Zur Normalisierung wird ein bestimmtes Normierungsverfahren, wie zum Beispiel die L2-Norm, auf alle Histogrammeinträge des Blocks angewendet. Da die Blocknormalisierung von den Gradientenstärken abhängt, führt dies zu einem Ausgleich zwischen Blöcken mit höherem sowie niedrigem Kontrast. Liegen einzelne Blockwerte höher als eine vorgegebene Schwelle, werden diese zuvor auf den Schwellwert begrenzt. Die Aneinanderkettung der Histogramme aller Zellen eines Bildausschnitts 202 bildet den Deskriptor des Bildausschnitts 202.
  • Alternativ oder ergänzend kann das LBP-Modell als Deskriptor verwendet werden. Wie auch das HOG-Modell basiert es auf der Auswertung von Grauwertunterschieden der Pixel 203 eines Bildausschnitts 202. Der Deskriptor besteht dabei aus einem blockweise zusammengesetzten Histogramm mit einer Angabe über das Vorzeichen der Grauwertdifferenzen der Pixel 203 in einem Block.
  • Das Verfahren 320 umfasst weiter das Zuordnen 322 des Bildausschnittes 202 zu einer Objektklasse. Die Zuordnung erfolgt dabei auf Basis des Deskriptors des Bildausschnittes 202. Für die Zuordnung kann ein Objekt-Klassifikator verwendet werden. Beispielhafte Klassifikatoren sind ein Bayes-Klassifikator, ein Expectation Maximization Klassifikator, ein K-Means Klassifikator und/oder ein Support Vector Machine Klassifikator. Der Klassifikator kann anhand von einem Trainings-Datensatz angelernt werden (analog zu den für den Beleuchtungs-Klassifikator beschriebenen Anlernverfahren, wobei die Deskriptoren der Bildausschnitte 202 die analoge Funktion zu den o.g. Merkmalsvektoren eines Beleuchtungs-Klassifikators aufweisen).
  • Für den Objekt-Klassifikator kann ein Sicherheitswert definiert werden. Dies gilt insbesondere für einen binären Objekt-Klassifikator, der in binärer Weise angibt, ob ein Bildausschnitt 202 ein Objekt enthält oder nicht. Der Sicherheitswert kann dazu verwendet werden, die Zuverlässigkeit des Objekt-Klassifikators einzustellen. Insbesondere kann der Sicherheitswert dazu verwendet werden, ein Gleichgewicht zwischen Falschklassifikationen (bei denen ein Bildausschnitt 202, welcher tatsächlich kein Objekt darstellt, fälschlicherweise als Bildausschnitt mit einem detektierten Objekt klassifiziert wird, auch als sogenannter False Positive bezeichnet) und Fehlklassifikationen (bei denen ein Bildausschnitt 202, welcher tatsächlich ein Objekt darstellt, fälschlicherweise als Bildausschnitt ohne Objekt klassifiziert wird, auch als sogenannter False Negativ bezeichnet) einzustellen.
  • Beispielsweise kann der Objekt-Klassifikator einen Referenz-Deskriptor umfassen, der auf Basis von Trainings-Daten ermittelt wurde. Zur Klassifikation eines ersten Bildausschnittes 202 kann ein erster Deskriptor des ersten Bildausschnittes 202 mit dem Referenz-Deskriptor verglichen werden. Insbesondere kann ein Abstand zwischen dem ersten Deskriptor und dem Referenz-Deskriptor (gemäß einem vordefinierten Abstandsmaß) ermittelt werden. Es kann dann bestimmt werden, ob der ermittelte Abstand gleich wie oder kleiner als ein vordefinierter Abstands-Schwellenwert ist. Ist dies der Fall, so kann der erste Bildausschnitt 202 als ein Bildausschnitt 202 mit detektiertem Objekt klassifiziert werden. Andererseits kann der erste Bildausschnitt 202 als ein Bildausschnitt 202 ohne Objekt klassifiziert werden. Der Abstands-Schwellenwert kann von dem Sicherheitswert abhängen. Über den Sicherheitswert kann somit ein Verhältnis zwischen Falschklassifikationen und Fehlklassifikationen verschoben werden.
  • Somit kann mit dem Verfahren 320 in effektiver und präziser Weise, ermittelt werden, ob sich in einem bestimmten Bildausschnitt 202 eines Bildes 200 ein Objekt (z.B. eine Person) befindet oder nicht. Die Zuverlässigkeit der Objekterkennung kann dadurch erhöht werden, dass das Objekterkennungsverfahren, welches für einen bestimmten Bildausschnitt 202 angewendet wird, von der Beleuchtungssituation dieses Bildausschnittes 202 (d.h. insbesondere von der GK und/oder der LK dieses Bildausschnittes 202) abhängt. Beispielsweise können ein oder mehrere der folgenden Parameter des Objekterkennungsverfahrens von der Beleuchtungssituation des Bildausschnittes 202 abhängen:
    • • das verwendete Deskriptor-Modell (z.B. HOG-Modell, LDP-Modell, Haar/Edgelet-Wavelets-Modell, etc.);
    • • die verwendete Auflösung eines Deskriptors;
    • • der Typ des Objekt-Klassifikators (z.B. Bayes-Klassifikator, Expectation Maximization Klassifikator, K-Means Klassifikator, Support Vector Machine Klassifikator, etc.); und/oder
    • • die Trainingsdaten, welche zum Anlernen des Objekt-Klassifikators verwendet werden.
  • Mit anderen Worten, es wird in diesem Dokument ein Verfahren 300 zur Erkennung eines Objektes auf Basis eines Bildes 202 (z.B. eines Grauwertbildes) beschrieben. Für unterschiedliche Beleuchtungssituationen werden unterschiedliche diskrete Beleuchtungskategorien (d.h. Beleuchtungsklassen), wie z.B. Tag Sonne, Tag Schatten, Nacht mit Straßenlampen, Nacht ohne Beleuchtung, etc., definiert. Auf Basis der Pixel 203 eines Bildausschnittes 202 können Gütemaße, wie z.B. Unschärfemaße, Anisotropie, zentrale Momente, etc., ermittelt werden, um die Beleuchtungssituation des Bildausschnittes 202 zu beschreiben. Desweiteren wird auf Basis der Pixel 203 eines Bildausschnittes 202 ein Deskriptor, wie z.B. ein HOG-, LBP-, und/oder Haar/Edgelet-Wavelets-Deskriptor, ermittelt, um den Bildausschnitt 202 in Bezug auf ein zu erkennendes Objekt zu beschreiben.
  • Mittels der Kamera 101 wird ein Bild 200 erfasst. Dabei bestehen typischerweise keine Einflussmöglichkeiten darauf, welche Blende oder Belichtungszeit die Kamera 101 verwendet. Entsprechend ergeben sich von Bild zu Bild unterschiedliche Belichtungen. Diese Belichtungen werden auch durch die Beleuchtung in der Umgebung beeinflusst. Die Beleuchtungssituationen können sich somit von Bild zu Bild verändern.
  • Es kann die Beleuchtungskategorie der abgebildeten Umgebung im Bild 200 ermittelt werden. Dazu wird für das gesamte Bild 200 ein Merkmalsvektor mit Gütemaßen berechnet und nach den Beleuchtungskategorien klassifiziert (anhand eines Beleuchtungs-Klassifikators). Es kann somit eine globale Beleuchtungsklasse (GK) für das Bild 200 ermittelt werden. Der Merkmalsvektor enthält dabei als Eintrag ein oder mehrere Gütemaße zur Beschreibung der Beleuchtungssituation des Bildes 200.
  • Desweiteren wird durch ein Sliding-Window-Verfahren in analoger Weise für eine Vielzahl von Bildausschnitten 202 eine lokale Beleuchtungsklassifikation ermittelt. Mit anderen Worten, es können für die Vielzahl von Bildausschnitten 202 die lokalen Beleuchtungsklassen (LK) ermittelt werden. Die LKs der Vielzahl von Bildausschnitten 202 können auf der Bildfläche angezeigt werden und ergeben so eine „Heatmap“ hinsichtlich der Ausleuchtung des Bildes 200.
  • Wie oben dargelegt, kann eine Vielzahl von unterschiedlichen Gütemaßen für einen Bildausschnitt 202 bzw. für das Bild 200 ermittelt werden. Dabei kann anhand von Hauptkomponentenanalyse und/oder anhand von Support Vector Machine(SVM)-Klassifizierung ermittelt werden, welche der unterschiedlichen Gütemaße für die Bewertung der globalen bzw. der lokalen Beleuchtungssituation relevant sind. Es kann somit eine möglichst kleine Anzahl von Gütemaßen für den Merkmalsvektor ermittelt werden, durch die dennoch ein möglicher Merkmalsraum möglichst vollständig beschrieben werden kann. Mit anderen Worten, durch eine geschickte Auswahl der Gütemaße für einen Merkmalsvektor kann die Dimension des Merkmalsvektors reduziert werden, mit einem minimalen Einfluss auf die Genauigkeit der Beleuchtungsklassifikation. Somit kann der Rechenaufwand der Beleuchtungsklassifikation reduziert werden.
  • Abhängig von der erkannten globalen und lokalen Beleuchtungskategorie können unterschiedliche Objekt-Klassifikatoren angewendet werden, um zu Ermitteln, ob und ggf. welches Objekt sich in einem Bildausschnitt 202 befindet. Zu diesem Zweck kann für einen Trainings-Datensatz mit einheitlichen Beleuchtungsverhältnissen ein Objekt-Klassifikator angelernt werden. Dies erfolgt bevorzugt für Datensätze aus allen Beleuchtungskategorien. Für relativ niedrige Beleuchtungsverhältnisse (z.B. für eine Nacht-Klasse) können kantenbasierte Merkmale wie HOG oder LBP mit einer relativ geringen Auflösung des Detektorfensters verwendet werden. Für relativ hohe Beleuchtungsverhältnisse (z.B. für eine Tag-Klasse) sind aufgrund der größeren Detailtiefe feinere Auflösungen des Detektorfensters zu bevorzugen. Außerdem sind in solchen Fällen auch texturbasierte Merkmale als Deskriptor geeignet.
  • Das Verfahren 300 ermöglicht somit durch die Ermittlung und die Berücksichtigung der Beleuchtungssituation, eine erhöhte Qualität der Personendetektion im Vergleich zu anderen Klassifikatoren. Es kann somit ein höherer Anteil der auf einem Bild 200 abgebildeten Personen erkannt werden. Desweiteren kann die Zahl der Zuordnungen von anderen Objekten zu der Gruppe der detektierten Personen (d.h. die Anzahl von sogenannten „False Positives“) reduziert werden. Außerdem kann durch die Wahl eines (für die Beleuchtungssituation) geeigneten Objekt-Klassifikators die Komplexität der Objektdetektion reduziert werden. Insbesondere müssen nicht mehrere Objekt-Klassifikatoren verwendet werden, um eine möglichst optimale Erkennungsquote zu erzielen. Somit kann die Rechenzeit zum Erreichen der höchstmöglichen Erkennungsquote reduziert werden.
  • Wie oben dargelegt, können zur Ermittlung einer lokalen bzw. einer globalen Beleuchtungssituation eine Vielzahl von Gütemaße ermittelt werden. Um die Zahl von erforderlichen Gütemaßen zu reduzieren, können Verfahren wie die Hauptkomponentenanalyse oder Support Vector Machine verwendet werden, um eine relevante Untermenge von Gütemaßen zu ermitteln, durch die (nahezu) der gesamte Informationsgehalt der Gesamtmenge an Gütemaßen wiedergegeben wird. So kann der Rechenaufwand zur Ermittlung einer Beleuchtungsklasse substantiell reduziert werden.
  • Das Hauptkomponentenanalyse-(PCA, principal component analysis)Verfahren ist ein Transformationsverfahren, bei der eine multivariate Größe durch sogenannte Hauptkomponenten dargestellt wird. Eine Hauptkomponente wird dabei durch Linearkombination der Elemente der ursprünglichen Darstellung gebildet. Diese tragen zu jeder Hauptkomponente unterschiedlich stark bei. Die Gewichte werden so ermittelt, dass möglichst viele Eigenschaften der ursprünglichen Darstellung erhalten bleiben.
  • Die Transformationsparameter von der ursprünglichen Darstellung zu den Hauptkomponenten werden aus den Eigenvektoren der Kovarianzmatrix der ursprünglichen Darstellung ermittelt. Dabei wird versucht, die Kovarianz zwischen den Daten zu maximieren. Das führt zu einem niedrigen Zusammenhang und somit hohem Informationsgehalt der einzelnen Elemente. Somit können alle Informationen der ursprünglichen Darstellung durch möglichst wenige Elemente in der neuen Darstellung abgebildet werden. Die zugehörigen Eigenwerte enthalten eine Aussage über die Relevanz einer jeden Hauptkomponente.
  • Zur Datenreduktion kann die Hauptkomponentenanalyse mit allen Gütemaß-Vektoren einer Bildsequenz (d.h. eines Trainings-Datensatzes) berechnet werden. Um keinen Informationsverlust in Kauf nehmen zu müssen, werden so viele Hauptkomponenten gewählt, wie ein Gütemaß-Vektor Elemente hat. Daraus werden diejenigen Gütemaße bestimmt, welche den größten Beitrag zu den Hauptkomponenten leisten. Mit dieser Information können weniger relevante Gütemaße verworfen und die Beleuchtungsklassifikation ausschließlich auf die relevanten Gütemaße beschränkt werden. Um die relevanten Gütemaße zu ermitteln, kann über alle Hauptkomponenten ein Histogramm erstellt werden, welches die Häufigkeit einzelner Gütemaße erfasst. Dazu wird der Absolutbetrag des Gewichtungsfaktors eines jeden Gütemaßes über alle Hauptkomponenten aufaddiert. Die höchsten Werte im Histogramm entsprechen denjenigen Gütemaßen, welche den wichtigsten Beitrag zu den Hauptkomponenten liefern.
  • Es wird dabei angenommen, dass der Beitrag zu den Hauptkomponenten eine Aussage über die Relevanz eines Gütemaßes liefert. Somit werden diejenigen Gütemaße als am meisten relevant angesehen, welche den größten Beitrag aufweisen
  • Bei dem SVM-Verwahren wird diejenige Hyperebene bestimmt, die den größtmöglichen Abstand zwischen den Merkmalsvektoren unterschiedlicher Klassen aufweist. Diese Ebene dient als Trennebene zur Klassifikation von Merkmalsvektoren in die eine oder die andere Klasse. Sie wird durch Stützvektoren („support vectors“) bestimmt. Die Stützvektoren sind aus beiden Klassen diejenigen Merkmalsvektoren, die jeweils den geringsten Abstand zur Trennebene aufweisen. Zur Beschreibung der Trennebene sind die anderen Merkmalsvektoren somit nicht nötig.
  • Neben dem Standardfall der Zwei-Klassen-SVM existiert eine Ein-Klassen-SVM. Die Trennebene der Ein-Klassen SVM gibt dabei an, ob ein Element der trainierten Klasse zuzuordnen ist oder nicht. Dieser Ansatz kann beispielsweise dann angewendet werden, wenn sich eine Klasse gut beschreiben lässt, nicht jedoch die möglichen Abweichungen, die dann nicht mehr der Klasse zugeordnet werden sollen.
  • Zur Datenreduktion kann eine solche Ein-Klassen-SVM verwendet werden. Dabei wird für jedes Gütemaß ein Vektor über alle Bilder einer Sequenz (d.h. eines Trainings-Datensatzes) erstellt. Diese Sequenz enthält Bilder aller Beleuchtungsklassen. Die Gütemaß-Vektoren bilden schließlich die Merkmalsvektoren der SVM, aus denen anschließend die Trennebene bestimmt wird. Die Stützvektoren werden dann als die relevanten Gütemaße angesehen, um die Beleuchtungsklassen beschreiben zu können. Alle Gütemaße, die nicht als Stützvektoren dienen, können als nicht relevant betrachtet werden.
  • Es kann somit anhand einer Hauptkomponentenanalyse und/oder mittels eines Support Vector Machine-Verfahrens die möglichst kleine Anzahl von Gütemaßen ermittelt werden, durch die der Raum von möglichen Beleuchtungssituationen möglichst umfassend beschrieben werden kann.
  • Wie bereits oben dargelegt, ist es häufig erforderlich, eine Aussage über die Zuverlässigkeit einer Objekterkennung zu treffen. Die Zuverlässigkeit kann anhand von ein oder mehreren Zuverlässigkeitsmaßen angezeigt werden. Die Zuverlässigkeitsmaße können in zwei Gruppen eingeteilt werden, wobei die erste Gruppe von Zuverlässigkeitsmaßen eine Aussage bezüglich der Zuverlässigkeit für jede ermittelte Klasse liefert und wobei die zweite Gruppe von Zuverlässigkeitsmaßen eine Aussage bezüglich der Zuverlässigkeit für das Gesamtsystem der Objekterkennung liefert. Die Berechnungsgrundlage für die Zuverlässigkeit sind typischerweise drei Größen, die durch Vergleich von Stichproben mit einer a-priori bekannten Klassenzuweisung und den Klassifikationsergebnissen für dieselben Stichproben bestimmt werden. Daraus lassen sich für jede Klasse die Zahl bzw. der Anteil der korrekten Zuordnungen ermitteln (TP, engl. “true positive”). Außerdem lassen sich für jede Klasse die Zahl bzw. der Anteil an Stichproben ermitteln, die einer falschen Klasse zugeordnet werden, obwohl sie tatsächlich den Referenzdaten einer anderen Klasse angehören. Diese Angabe bezeichnet man als FN (engl. “false negative”), da das Klassifikationsergebnis von solchen Stichproben aus Sicht einer bestimmten Klasse fälschlicherweise negativ ist. Dies wird auch als Fehler zweiter Art oder als Fehlklassifikation bezeichnet. Ein Fehler erster Art (oder als Falschklassifikation) hingegen liegt vor, wenn der Klassifikator einer bestimmten Klasse eine Stichprobe zuordnet, die tatsächlich jedoch einer anderen Klasse angehört. Diese Angabe wird auch als FP (engl. “false positive”) bezeichnet. Aus diesen Angaben lassen sich unterschiedliche Zuverlässigkeitsmaße ableiten. Die Zuverlässigkeitsmaße geben typischerweise eine Wahrscheinlichkeit an und weisen somit Werte von 0% bis 100% auf, wobei die Zuverlässigkeit mit sinkendem Prozentwert sinkt.
  • Ein beispielhaftes Zuverlässigkeitsmaß ist die Korrektklassifikationsrate (OA, Overall Accuracy). Dieses Maß gibt an, wie groß der Anteil an korrekten Klassifikationsergebnissen an allen Stichproben ist. Für einen Zwei-Klassen-Klassifikator lässt sie sich folgendermaßen berechnen: OA = TP + TN / TP + TN + FP + FN
  • Ein weiteres beispielhaftes Zuverlässigkeitsmaß ist die Fehlerrate (E, Error Rate). Diese Größe gibt den Anteil an Fehlern an den Klassifikationsergebnissen an. Dabei spielt es keine Rolle, ob es ein Fehler erster oder zweiter Art ist. Für einen Zwei-Klassen-Klassifikator lässt sie sich folgendermaßen berechnen: E = FP + FN / TP + TN + FP + FN'
  • Weitere beispielhafte Zuverlässigkeitsmaße sind Precision (P) und Recall (R). Precision beschreibt den Anteil an korrekt klassifizierten positiven Stichproben an allen als positiv detektierten Stichproben: P = TP / TP + FP'
  • Der Recall hingegen setzt die korrekt positiven Stichproben einer Klasse ins Verhältnis zu den tatsächlichen Stichproben derselben Klasse: R = TP / TP + FN'
  • Weitere beispielhafte Zuverlässigkeitsmaße sind User’s Accuracy (UA) und Producer’s Accuracy (PA). Die User’s Accuracy gibt das Verhältnis zwischen der Zahl an korrekt klassifizierten Stichproben einer Klasse und der Gesamtzahl der Stichproben, die korrekt oder fälschlicherweise dieser Klasse zugeordnet wurden. Dieses Maß gibt die Wahrscheinlichkeit an, dass eine Stichprobe auch tatsächlich derjenigen Klasse zugehört, die der Klassifikator gewählt hat. Die Producer’s Accuracy ergibt sich aus dem Verhältnis der Zahl an korrekt klassifizierten Stichproben einer Klasse und der Gesamtzahl an tatsächlichen Stichproben dieser Klasse. Sie gibt somit die Wahrscheinlichkeit an, dass eine Referenzstichprobe korrekt klassifiziert wurde. Dieses Maß trägt seinen Namen, weil es für den Entwickler eines Klassifikators angibt, wie gut eine bestimmte Klasse erkannt werden kann, während für den Anwender die User’s Accuracy eine höhere Wichtigkeit hat. User’s und Producer’s Accuracy können als klassenweise Interpretation von Precision und Recall interpretiert werden.
  • Zur Ermittlung von Qualitätsaussagen über einen Klassifikator kann eine sogenannte Validierung durchgeführt werden. Dabei wird der Klassifikator auf einen Test-Datensatz angewendet, der ungleich von dem Trainings-Datensatz sein sollte, mit dem der Klassifikator angelernt wurde. Aus den Klassifikationsergebnissen für den Test-Datensatz werden ein oder mehrere der o.g. Zuverlässigkeitsmaße bestimmt. Die Größe des Test-Datensatzes kann z.B. etwa 20% der Größe des Trainings-Datensatzes sein.
  • Wie oben dargelegt, können in Abhängigkeit von der Beleuchtungssituation eines Bildausschnittes 202 unterschiedliche Deskriptor-Klassifikator-Kombinationen verwendet werden. Für jede der verwendeten Deskriptor-Klassifikator-Kombinationen können ein oder mehrere Zuverlässigkeitsmaße ermittelt werden. Die ein oder mehreren Zuverlässigkeitsmaße können dabei mittels eines Test-Datensatzes ermittelt werden, welcher Test-Bildausschnitte 202 mit bestimmten Beleuchtungssituationen umfasst. Das heißt, für jede mögliche Beleuchtungssituation können ein oder mehrere Zuverlässigkeitsmaße ermittelt werden, die anzeigen, mit welcher Qualität oder mit welcher Zuverlässigkeit oder mit welcher Konfidenz ein Objekt bei Vorliegen einer entsprechenden Beleuchtungssituation detektiert werden kann. Insbesondere kann eine Tabelle bzw. ein Look-Up Table (LUT) ermittelt werden, welche für jede Beleuchtungssituation, z.B. für jede Kombination aus GK und LK, ein oder mehrere Zuverlässigkeitsmaße angeben.
  • 4 zeigt ein beispielhaftes Verfahren 400 zur Ermittlung eines Zuverlässigkeitsmaßes für die Objekterkennung in einem Bildausschnitt 202. Wie bereits in Zusammenhang mit den 3a, 3b, und 3c dargelegt, können für ein Bild 200 und für die verschiedenen Bildausschnitte 202 eines Bildes 200 mittels eines Beleuchtungs-Klassifikators Beleuchtungssituationen ermittelt werden. Insbesondere können für jeden Bildausschnitt 202 eine Kombination aus einer globalen Beleuchtungsklasse (GK) und einer lokalen Beleuchtungsklasse (LK) ermittelt werden. Dies kann für eine Vielzahl von Bildern 200 eines Test-Datensatzes erfolgen. Die Verknüpfung einer bestimmten globalen und einer bestimmten lokalen Beleuchtungsklasse kann als „Beleuchtungskombination“ bezeichnet werden.
  • Für unterschiedliche Beleuchtungssituationen können unterschiedliche Objekt-Klassifikatoren verwendet werden. Dabei können insbesondere die verwendeten Merkmale (d.h. Deskriptoren) zur Objektdetektion angepasst werden (z.B. HOG, LBP, Haar/Edgelet-Wavelets, etc.). Alternativ oder ergänzend können die verwendeten Klassifikatoren angepasst werden (z.B. SVM, Bayes-Klassifikator, Neuronales Netz, etc.). Desweiteren können die verwendeten Trainings-Datensätze an die Beleuchtungssituationen angepasst werden.
  • Die Konfidenz stellt ein Maß für die Zuverlässigkeit eines Klassifikators dar und kann z.B. durch die o.g. Maße UA, PA und/oder OA ausgedrückt werden. Die Konfidenz kann mittels eines Test-Datensatzes auf zwei Arten bestimmt werden. Erstens kann eine gemeinsame Aussage für alle verwendeten Objekt-Klassifikatoren, d.h. nicht getrennt für jeden Klassifikator, ermittelt werden. Zweitens kann für jede Beleuchtungskombination getrennt eine Konfidenz ermittelt werden.
  • Für die Ermittlung der Konfidenz kann ein Look-Up-Table bestimmt werden. Dazu wird eine relativ hohe Anzahl (z.B. mehrere Hundert) von lokalen Bildausschnitten 202 aus jeder Beleuchtungsklasse als Test-Datensatz verwendet. Dabei entsprechen die verwendeten Bildausschnitte 202 Bereichen mit Korrekt-, Fehl- oder Falschdetektionen des Objekt-Klassifikators. Für jede globale und lokale Beleuchtungskombination können für den gesamten Test-Datensatz die Kenngrößen TP, FP und FN ermittelt werden. Daraus können dann z.B. die Zuverlässigkeitsmaße UA, PA und OA abgeleitet werden.
  • Das Ergebnis ist wie folgt, je nach Art der Konfidenz:
    • • Für einen gesamten Test-Datensatz eine zusammenfassende Konfidenzaussage über die Eignung des Objekterkennungssystems eine bestimmte Objektart zu erkennen, unabhängig davon, welcher Objekt-Klassifikator in einem bestimmten Bild 200 oder Bildausschnitt 202 verwendet wurde. Das Objekterkennungssystem umfasst dabei den in diesem Dokument beschriebenen Beleuchtungs-Klassifikator und Objekt-Klassifikator.
    • • Eine Konfidenzaussage für eine bestimmte globale und lokale Beleuchtungskombination. Diese Aussage kann gegebenenfalls auf mehrere Test-Datensätze bezogen sein, wenn mehrere Test-Datensätze verarbeitet wurden.
  • Es kann somit ein Look-Up-Table bereitgestellt werden, der für jede Beleuchtungskombination Werte für UA, PA und OA umfasst.
  • Wird ein Objekt-Klassifikator auf ein Bild 200 angewandt, so tastet der Objekt-Klassifikator während des Sliding-Window-Verfahrens alle Bildausschnitte 202 ab. Für jeden Bildausschnitt 202 lässt sich eine Beleuchtungskombination (d.h. eine GK und eine LK) ermitteln (Verfahrensschritte 401, 402 des Verfahrens 400). Desweiteren kann die Look-Up-Tabelle in Abhängigkeit von der ermittelten Beleuchtungskombination ausgewertet werden (Verfahrensschritt 403). Insbesondere kann aus der Look-Up-Tabelle für jeden Bildausschnitt 202 eine Aussage über die Konfidenz ermittelt 403 werden, mit der der für diese Beleuchtungskombination verwendete Objekt-Klassifikator die Detektion in diesem Bildausschnitt 202 durchführen kann. Es wird somit stets der für die Beleuchtungskombination geeignete Objekt-Klassifikator zugrundegelegt. Damit ist bereits vor Berechnung des Objekt-Klassifikators für einen Bildausschnitt 202 eine Aussage über die zu erwartende Konfidenz möglich. Desweiteren lässt sich, wenn das o.g. Verfahren für einen gesamten Test-Datensatz angewendet wird, ohne Ausführen der Objektklassifikation eine Beurteilung des jeweils geeigneten Objekt-Klassifikators für diesen Test-Datensatz ableiten.
  • Das o.g. Verfahren ermöglicht es somit zu ermitteln, welche Beleuchtungskombinationen Objektdetektionen mit höherer Sicherheit erlauben und welche nicht. Somit können die vorhandenen Ressourcen zur Objektdetektion (z.B. Rechenzeit) besser eingeteilt werden. Insbesondere ist es möglich, den Suchraum des Objekterkennungssystems einzuschränken. In Bereichen mit sehr niedriger erwarteter Konfidenz kann davon ausgegangen werden, dass keine Detektion möglich sein wird. Somit können andere Bereiche, in denen eine höhere Konfidenz zu erwarten ist, höher priorisiert werden.
  • Die Kamera 101 des Fahrzeugs 100 kann eine Stereo-Kamera umfassen, die eingerichtet ist, an einem bestimmten Zeitpunkt, d.h. zeitgleich, ein linkes Bild 501 und ein rechtes Bild 502 zu erfassen (siehe 5a). Das linke Bild 501 und das rechte Bild 502 stellen dabei das gleiche Umfeld des Fahrzeugs 100 aus leicht unterschiedlichen Blickwinkeln dar. Dies ermöglicht es, Informationen bzgl. des Abstands von Objekten zu ermitteln, die auf den Bildern 501, 502 dargestellt sind. Insbesondere kann auf Basis des linken Bildes 501 und des rechten Bildes 502 ein Disparitätsbild 503 ermittelt werden.
  • Disparität ist eine Größe, die indirekt proportional ist zur Entfernung der Objekte von der Kamera 101. In einem Disparitätsbild 503 ist somit erkennbar, welche Objekte näher an der Kamera 101 oder weiter von der Kamera 101 entfernt sind. Das Koordinatensystem des Disparitätsbildes 503 stimmt dabei typischerweise mit dem Koordinatensystem von rektifizierten Bildern 501, 502 (z.B. Grauwertbildern) des Stereokamerasystems 101 überein.
  • Wie oben dargelegt, gibt es bei der Objektdetektion zwei Arten von Fehlern. Zum einen die Fehlklassifikation (d.h. die FN, False Negatives) und zum anderen die Falschklassifikation (d.h. die FP, False Positives). Diese sind über einen Sicherheitswert des Objekt-Klassifikators voneinander abhängig. Zur Evaluierung eines Objekt-Klassifikators bestimmt man eine Schwelle für den Sicherheitswert, ab dem Detektionen als gültig angesehen werden. Das bedeutet, je höher die Schwelle für den Sicherheitswert gewählt wird, desto weniger Falschklassifikationen (FP) treten auf, dafür aber umso mehr Fehlklassifikationen (FN). Es ist somit nicht möglich, beide Fehler zu reduzieren, es muss eine Abwägung getroffen werden, wozu z.B. eine Precision-Recall-Kurve verwendet werden kann. Im Folgenden wird ein davon unabhängiges Verfahren beschrieben, welches das Disparitätsbild 503 dazu verwendet, die Zahl der Falschklassifikationen (FP) zu reduzieren, ohne dabei die Zahl der Fehlklassifikationen (FN) zu erhöhen. Das Verfahren setzt nach Anwenden des Objekt-Klassifikators an und prüft jede Detektion eines Objektes. Mit anderen Worten, es kann jede „positive“ Detektion überprüft werden.
  • Von dem Objekt-Klassifikator wird erkannt, dass ein erster Bildausschnitt 202 ein Objekt umfasst. Je nach Zuverlässigkeit des Objekt-Klassifikators kann es sich dabei mit einer bestimmten Wahrscheinlichkeit um eine Falschklassifikation (FP) handeln. Anhand des Disparitätsbilds 503 können derartige Falschklassifikationen (zumindest teilweise) detektiert werden. Zu diesem Zweck kann die Größe des ersten Bildausschnittes 202 (z.B. die Höhe 211 und/oder die Breite 212) betrachtet werden. Desweiteren können auf Basis des Disparitätsbildes 503 für diesen ersten Bildausschnitt 202 Informationen bezgl. der Entfernung des detektierten Objekts in diesem ersten Bildausschnitt 202 ermittelt werden. Es kann dann eine Plausibilitätsprüfung durchgeführt werden, bei der beurteilt wird, ob ein detektiertes Objekt in der ermittelten Entfernung eine dem ersten Bildausschnitt 202 entsprechende Größe aufweisen kann. Beispielsweise wird überprüft, ob eine detektierte Person in der ermittelten Entfernung eine dem ersten Bildausschnitt 202 entsprechende Größe (Höhe 211 und/oder Breite 212) aufweisen kann. Ist dies nicht der Fall, so kann bestimmt werden, dass es sich bei dem ersten Bildausschnitt 202 um eine Falschklassifikation handelt. Es können somit unpassende Detektionen verworfen werden. Wird zugleich die o.g. Sicherheitsschwelle reduziert, so können sowohl die Fehlklassifikationen als auch die Falschklassifikationen reduziert werden.
  • Zur Bestimmung der metrischen Größe einer Detektion kann zunächst das umschließende Rechteck des ersten Bildausschnittes 202 in das Disparitätsbild 503 projiziert werden. Das Rechteck enthält im Fall der korrekten Detektion einer Person deren Abbildung sowie einen gewissen Hintergrundanteil. Da die Bilder typischerweise im selben Koordinatensystem vorliegen, sind keine Transformationen notwendig. Anschließend wird ein Disparitätswert der Abbildung der Person bestimmt. Dazu wird der Hintergrundanteil im umschließenden Rechteck (d.h. im ersten Bildausschnitt 202) bestimmt und verworfen. Bei einer korrekten Detektion kann angenommen werden, dass sich die Person deutlich vor Objekten im Bildhintergrund befindet und somit einen höheren Disparitätswert aufweist als der Hintergrund.
  • Um den Hintergrundanteil zu bestimmen, kann ein Histogramm 520 für die Disparitätswerte des ersten Bildausschnittes 202 angelegt werden (siehe 5c). Dabei kann erwartet werden, dass der Hintergrund kleinere Disparitätswerte aufweist als die detektierte Person. Desweiteren kann erwartet werden, dass sowohl der Hintergrund als auch die detektierte Person jeweils ähnliche Disparitätswerte aufweisen. Die Verteilung der Disparitätswerte des Hintergrunds und der Person weisen jeweils lokale Maxima im Histogramm 520 auf. Durch einen sogenannten Peakiness-Test kann das Minimum 521 zwischen diesen Maxima bestimmt werden. Dieser Test ermittelt relevante Minima zwischen zwei Maxima anhand des Verhältnisses der Histogrammeinträge. Alle Disparitätswerte kleiner als die Disparität des Minimums 521 werden dem Hintergrund zugerechnet. Für alle verbleibenden Disparitätswerte im umschließenden Rechteck wird z.B. der Median (oder ggf. ein Mittelwert) ermittelt. Es wird somit aus den Disparitätswerten, die nicht dem Hintergrund zugewiesen werden, ein Disparitätswert D für das detektierte Objekt ermittelt. Dieser Disparitätswert D kann mit Hilfe von Orientierungsparametern der Kamera 101 in eine Entfernungsangabe d für das detektierte Objekt (insbesondere für die detektierte Person) von der Kamera 101 umgewandelt werden. Dabei können als Orientierungsparameter der Kamera 101 der Abstand, d.h. die Basislinie, zwischen der linken und der rechten Kamera, sowie eine Fokallänge der Kamera 101 berücksichtigt werden.
  • Desweiteren können die Höhe 211 und die Breite 212 des Bildausschnitts 202 mittels der Entfernung d für das detektierte Objekt und mittels ein oder mehrerer Orientierungsparameter der Kamera 101 (z.B. der Fokallänge der Kamera 101) in metrische Größen (z.B. eine metrische Höhe und eine metrische Breite) des detektierten Objektes umgewandelt werden. Diese metrischen Größen des detektierten Objektes können dann mit typischen Größen des zu detektierenden Objektes verglichen werden. Wenn die metrischen Größen des detektierten Objektes außerhalb von einem zulässigen Wertebereich liegen, so kann der detektierte Bildausschnitt 202 als eine Falschklassifikation betrachtet werden.
  • 5b zeigt ein beispielhaftes Verfahren 510 zur Klassifikation eines Bildausschnitts 202. Das Verfahren 510 umfasst das Ermitteln 511 eines Disparitätswertes D für eine Bildausschnitt 202. Der Disparitätswert kann wie oben dargelegt ermittelt werden. Desweiteren umfasst das Verfahren 510 das Ermitteln 512 der Größe 211, 213 des Bildausschnitts 202. Der Bildausschnitt 202 kann dann auf Basis des Disparitätswerts und auf Basis der Größe des Bildausschnittes 202 klassifiziert 513 werden. Insbesondere kann ermittelt werden, ob ein Bildausschnitt 202 tatsächlich ein zuvor detektiertes Objekt aufweist oder nicht.
  • Es wird somit vorgeschlagen, die zeitsynchrone Aufnahme eines linken Bildes 501 und eines rechten Bildes 502 durch eine Kamera 101 zu nutzen, um Falschklassifikationen zu reduzieren. Dazu können die aufgenommenen Bilder 501, 502 anhand der Orientierungsparameter des Kamerasystems 101 rektifiziert werden. Desweiteren kann aus dem linken und rechten rektifizierten Bild 501, 502 ein Disparitätsbild 503 ermittelt werden.
  • Durch ein Sliding-Window-Verfahren kann zumindest auf einem der beiden Bilder 501, 502 eine Objektdetektion mit einem Deskriptor-Klassifikator-Verfahren durchgeführt werden (z.B. wie in diesem Dokument beschrieben). Dabei kann das rechte oder das linke Stereobild 501, 502 verwendet wird. Für jede Detektion eines Objektes kann ein Sicherheitswert ermittelt bzw. zugrunde gelegt werden. Desweiteren kann die Größe 211, 212 des Bildausschnittes 202 ermittelt werden, in dem ein Objekt detektiert wurde.
  • Für alle Detektionen, deren Sicherheitswert über einer vordefinierten Sicherheitsschwelle liegen, kann die metrische Größe des entsprechenden Bildausschnittes 202 bestimmt werden. Es kann dann geprüft werden, ob diese metrische Größe mit realen Größenangaben von dem zu detektierenden Objekt (z.B. von einem Menschen) übereinstimmt. Falls dies zutrifft, kann die Detektion als gültig angesehen werden, andernfalls kann die Detektion verworfen werden.
  • Für die Ermittlung der metrischen Größe des Bildausschnittes 202 einer Detektion wird aus den Grauwert-/Farb-Bildern 501, 502 ein dem Bildausschnitt 202 entsprechender Ausschnitt aus dem Disparitätsbild 503 ermittelt. Dazu werden typischerweise die Orientierungsparameter der Kamera 101 verwendet. Der Bildausschnitt 202 (auch als Boundingbox bezeichnet) befindet sich somit im Disparitätsbild 503 an einer korrespondierenden Stelle zu den Grauwert-/Farbbildern 501, 502.
  • Falls ein Objekt korrekt erkannt wurde, befinden sich in dem Bildausschnitt 202 im Disparitätsbild 503 die Abbildung des Objektes sowie ein gewisser Hintergrundbereich um das Objekt herum. Beim Hintergrund kann davon ausgegangen werden, dass dessen Entfernung zur Kamera 101 größer ist als die Entfernung des detektierten Objektes. Somit weist der Hintergrund niedrigere Disparitätswerte auf. Für den Bildausschnitt 202 kann ein Histogramm 520 aus den Disparitätswerten erstellt werden. Ziel ist es dabei, den korrekten Disparitätswert des detektierten Objektes zu ermitteln. Dazu wird der Median der Pixel 203 des Disparitätsbildes 503 berechnet, die dem detektierten Objekt zugerechnet werden können. Zu diesem Zweck wird im Histogramm 520 das markanteste Minimum 521 bestimmt. Alle Disparitätswerte kleiner der Disparität am Minimum 521 werden dem Hintergrund zugerechnet und werden von der weiteren Verarbeitung ausgeschlossen.
  • Aus dem Median der der Person zugerechneten Disparitätswerte wird anhand der Orientierungsparameter ein Wert für die Entfernung d des Objektes von der Kamera 101 ermittelt. Mit Hilfe der Entfernungsangabe d wird die Größe 211, 212 des Bildausschnitts 202 in metrische Einheiten umgerechnet. Auch dazu werden typischerweise Orientierungsparameter der Kamera 101 verwendet. So kann ein Vergleich mit metrischen Größenangaben für reale Objekte erfolgen.
  • Die dem Objekt zugeordneten Pixel 203 aus dem Disparitätsbild 503 können nicht nur zur Bestimmung der Entfernung d verwendet werden, sondern es können zusätzlich die Form, Statur und/oder Struktur der dem Objekt zugeordneten Pixel 203 untersucht werden. Insbesondere kann überprüft werden, ob die Struktur des detektierten Objektes mit einer typischen Soll-Struktur des Objektes übereinstimmt. Somit können ggf. Falschklassifikationen weiter reduziert werden.
  • Das markante Minimum 521 im Histogramm 520 kann mit dem sogenannten Peakiness-Test bestimmt werden. Dazu werden die zwei höchsten Maxima im Histogramm 520 bestimmt und dazwischen das „globale“ Minimum 521 ermittelt.
  • Das Verhältnis der Werte zwischen dem höheren Maximum und dem Minimum beschreibt den Grad der Relevanz eines Minimums. Anschließend wird das höchste Maximum von der weiteren Berechnung ausgeschlossen. Dieser Algorithmus wird iterativ angewandt, bis die neu erkannten Minima als nicht mehr relevant angesehen werden im Vergleich zu den bereits ermittelten relevantesten Minima.
  • Durch die Verwendung des Disparitätsbildes 503 kann die Sicherheitsschwelle für die Detektionen niedriger angesetzt werden als ohne Verwendung des Disparitätsbildes 503. Unsichere Detektionen, die bisher verworfen werden mussten, um die Zahl der Falschklassifikationen gering zu halten, können nun der oben beschriebenen Größen- und/oder Formprüfung unterzogen und daraufhin akzeptiert oder verworfen werden. Es können somit sowohl Falschklassifikationen als auch Fehlklassifikationen reduziert werden.
  • Desweiteren sind Einschränkung des Suchraums für den Objekt-Klassifikator möglich, da Detektorfenster (d.h. Bildausschnitte 202) mit zu geringer oder zu großer metrischer Größe für eine zu detektierende Objektart verworfen werden können, noch bevor der Klassifikator angewendet wird. Das heißt, noch vor Anwendung des Objekt-Klassifikators auf einen Bildausschnitt 202 kann auf Basis des Disparitätsbildes 503 ermittelt werden, ob sich in dem Bildausschnitt 202 aufgrund der Größe und/oder der Form überhaupt ein zu detektierendes Objekt befinden kann. Der Objekt-Klassifikator kann dann nur auf Bildausschnitte 202 angewandt werden, für die eine derartige Vorauswahl zu einem positiven Ergebnis gekommen ist. Es kann somit die Abfolge von der in diesem Dokument beschriebenen Disparitätsanalyse und der Objektklassifikation umgekehrt werden. So kann der Rechenaufwand für die Objektklassifikation reduziert werden.
  • Desweiteren verwendet die in diesem Dokument beschriebene Disparitätsanalyse Informationen des Disparitätsbildes 503 ohne direkt einen Objekt-Klassifikator auf das Disparitätsbild 503 anzuwenden. Dies ist vorteilhaft, da eine direkte Anwendung aufgrund der geringeren Auflösung des Disparitätsbildes 503 (im Vergleich zu den Grau-/Farb-Bildern 501, 502) nachteilig wäre.
  • Wie bereits oben dargelegt, wird für die Evaluierung eines Objekt-Klassifikators typischerweise ein Test-Datensatz verwendet, wobei sich der Test-Datensatz von dem Trainings-Datensatz, mit dem der Objekt-Klassifikator angelernt wurde, unterscheidet. Im Rahmen der Evaluierung sollen z.B. anhand des Test-Datensatzes ein oder mehrere Zuverlässigkeitsmaße für den Objekt-Klassifikator ermittelt werden.
  • Im Rahmen der Entwicklung von geeigneten Objekt-Klassifikatoren wäre es vorteilhaft, den Evaluierungsaufwand für einen Objekt-Klassifikator reduzieren zu können, ohne dabei die Aussagekraft der ermittelten ein oder mehreren Zuverlässigkeitsmaße zu reduzieren. Typischerweise steigt die Detektionsgüte eines Objekt-Klassifikators mit steigender Auflösung von Testbildern 200 an. Mit steigender Auflösung steigt aber auch der Rechenaufwand für die Evaluierung des Objekt-Klassifikators.
  • Eine Möglichkeit zur Reduzierung des Evaluierungsaufwands wäre es, die Anzahl von Test-Bildern 200 in einem Test-Datensatz zu reduzieren. Die Detektionsqualität eines Objekt-Klassifikators steigt jedoch typischerweise mit der Zahl der getesteten Test-Bildern 200. Somit ist die Mindestzahl an erforderlichen Test-Bildern 200 für eine zuverlässige Evaluierung typischerweise relativ hoch. Die Konsequenz ist, dass bei einer zu geringen Anzahl von Test-Bildern 200 keine zuverlässige Aussage über die Konfidenz eines Klassifikators möglich ist.
  • Im vorliegenden Dokument wird vorgeschlagen, Erkenntnisse bzgl. der Beleuchtungssituation von Bildausschnitten 202 in einer Vielzahl von Test-Bildern 200 eines Test-Datensatzes dazu zu verwenden, den Umfang der durchzuführenden Klassifikationen im Rahmen der Evaluierung eines Objekt-Klassifikators zu reduzieren, ohne dabei die Aussagekraft bzgl. der Konfidenz des Objekt-Klassifikators zu reduzieren.
  • Der Test-Datensatz umfasst eine Vielzahl von Grauwert-/Farbbildern 200, die durch eine Kamera 101 eines Fahrzeugs 100 erfasst wurden. Dabei besteht in Bezug auf eine Bildaufnahme typischerweise keine Einflussmöglichkeit auf Beleuchtungsdauer, Schärfentiefe, Blende, Pixelanzahl etc. Für alle Bilder 200 des Test-Datensatzes kann eine Beleuchtungssituation im Gesamtbild 200 sowie in allen lokalen Bildausschnitten 202 anhand des in diesem Dokument beschriebenen Beleuchtungs-Klassifikators in Form von diskreten Beleuchtungskategorien bzw. Beleuchtungsklassen bestimmt werden. Insbesondere können für jeden Bildausschnitt 202 und für jedes Bild 200 des Test-Datensatzes eine Kombination aus globaler Beleuchtungsklasse (GK) und aus lokaler Beleuchtungsklasse (LK) ermittelt werden. Die Verknüpfung einer bestimmten globalen und bestimmten lokalen Beleuchtungskategorie kann als eine bestimmte „Beleuchtungskombination“ bezeichnet werden.
  • Bei der Bestimmung der Beleuchtungskategorie der lokalen Bildausschnitte 202 werden die Bildausschnitte 202 (insbesondere die Form der Bildausschnitte 202) typischerweise in Abhängigkeit von der zu detektierenden Objektart gewählt. Für Personendetektionen ist beispielsweise ein rechteckiger Ausschnitt mit einem Seitenverhältnis von 2:1 geeignet.
  • Desweiteren werden die Bildausschnitte 202 des Test-Datensatzes „gelabelt“. Insbesondere werden die ein oder mehreren Bildausschnitte 202 eines Bildes 200, in denen tatsächlich abgebildete Objekte der gewünschten Objektart vorliegen, in dem Bild 200 manuell erfasst. Es ergibt sich somit ein Test-Datensatz, der für jeden Bildausschnitt 202 die GK und LK anzeigt, und der für jeden Bildausschnitt 202 anzeigt, ob der Bildausschnitt 202 ein zu detektierendes Objekt umfasst oder nicht.
  • Der zu testende Objekt-Klassifikator kann einen der in diesem Dokument beschriebenen Klassifikatoren umfassen. Beispielsweise kann der Objekt-Klassifikator ein oder mehrere der folgenden Merkmale / Deskriptoren verwenden: HOG, LBP, Haar/Edgelet-Wavelets. Desweiteren kann der Objekt-Klassifikator einen der folgenden Klassifikatoren umfassen: SVM, Bayes-Klassifikator, Neuronales Netz, etc.
  • Auf Basis des Test-Datensatzes kann eine Soll-Verteilung der Beleuchtungskombinationen ermittelt werden. Mit anderen Worten, es kann für jede mögliche Beleuchtungskombination eine Wahrscheinlichkeit innerhalb des Test-Datensatzes ermittelt werden. Alternativ oder ergänzend kann auf Basis des Test-Datensatzes eine Soll-Verteilung der Beleuchtungskombinationen ermittelt werden, in denen sich ein zu detektierendes Objekt befindet. Mit anderen Worten, es kann ausschließlich auf Basis der Bildausschnitte 202 des Test-Datensatzes, die ein zu detektierende Objekt umfassen (sogenannte „Ground Truth“ Bildausschnitte), für jede mögliche Beleuchtungskombination eine Wahrscheinlichkeit für diese Beleuchtungskombination innerhalb des Test-Datensatzes ermittelt werden.
  • Beispielsweise kann gleichzeitig mit der Bestimmung der lokalen Beleuchtungsklasse für jeden Bildausschnitt 202 ermittelt werden, ob sich in dem jeweiligen Bildausschnitt 202 ein zu detektierendes Objekt befinden oder nicht. Wenn sich in einem Bildausschnitt 202 ein zu detektierendes Objekt befindet, so kann in Abhängigkeit von der Beleuchtungskombination des Bildausschnittes 202 ein entsprechender Zähler um Eins erhöht werden. Nach Prüfen des gesamten Test-Datensatzes kann für alle Beleuchtungskombinationen getrennt der Wert des jeweiligen Zählers ins Verhältnis zur Gesamtzahl an Bildausschnitten 202 mit dieser Beleuchtungskombination gesetzt werden. Es kann somit für jede Beleuchtungskombination die Wahrscheinlichkeit dafür ermittelt werden, dass der Test-Datensatz für diese Beleuchtungskombination einen Bildausschnitt 202 aufweist, der ein zu detektierendes Objekt umfasst. Mit anderen Worten kann das ermittelte Verhältnis für eine bestimmte Beleuchtungskombination als Wahrscheinlichkeit dafür angesehen werden, dass ein Bildausschnitt 202 mit dieser Beleuchtungssituation ein gesuchtes Objekt enthält.
  • 6a zeigt eine beispielhafte Verteilung 600 von Wahrscheinlichkeiten 602 für unterschiedliche Beleuchtungskombinationen 601. Die Wahrscheinlichkeit 602 einer Beleuchtungskombination 601 zeigt an, mit welcher Wahrscheinlichkeit der Test-Datensatz für diese Beleuchtungskombination 601 Bildausschnitte 202 mit einem zu detektierenden Objekt umfasst. Eine Zuordnung von globaler und lokaler Beleuchtungsklasse (d.h. von der Beleuchtungskombination 601) zu der Wahrscheinlichkeit 602 kann beispielsweise in einer Look-Up-Tabelle gespeichert werden.
  • Bei der Validierung eines Objekt-Klassifikators mittels des Test-Datensatzes kann während des Sliding-Window-Verfahrens anhand der Beleuchtungskombination 601 für einen Bildausschnitt 202 die passende Wahrscheinlichkeit 602 für das Auftreten eines Objektes ermittelt werden. Dazu kann auf die o.g. Look-Up-Tabelle zurückgegriffen werden.
  • Anhand eines Schwellwertes kann dann entschieden werden, ob der Objekt-Klassifikator auf einen bestimmten Bildausschnitt 202 angewandt werden soll oder nicht. Insbesondere kann die Wahrscheinlichkeit 602 für den Bildausschnitt 202 mit einem vordefinierten Wahrscheinlichkeits-Schwellwert verglichen werden. Liegt die Wahrscheinlichkeit 620 unterhalb von dem Wahrscheinlichkeits-Schwellwert, so wird der Objekt-Klassifikator nicht auf diesen Bildausschnitt 202 angewandt. Andernfalls kann eine Anwendung des Objekt-Klassifikators auf diesen Bildausschnitt 202 erfolgen. Mit den folgenden Bildausschnitten 202 kann in analoger Weise verfahren werden.
  • 6b zeigt ein beispielhaftes Verfahren 610 zur Evaluierung eines Objekt-Klassifikators. Das Verfahren 610 umfasst das Bereitstellen 611 eines Test-Datensatzes mit einer Vielzahl von Bildern 200. Desweiteren umfasst das Verfahren 610 das Ermitteln 612 einer Verteilung 600 von Wahrscheinlichkeiten 602 für das Vorliegen von Bildausschnitten 202 mit einem zu detektierenden Objekt innerhalb des Test-Datensatzes. Die Wahrscheinlichkeiten 602 werden für unterschiedliche Beleuchtungskombinationen 601 ermittelt. Desweiteren umfasst das Verfahren 610 das Anwenden 613 des Objekt-Klassifikators auf eine Teilmenge der Bildausschnitte 202 des Test-Datensatzes, in Abhängigkeit von der Verteilung 600.
  • Somit kann die Objektklassifikation des Test-Datensatzes beschleunigt werden. Insbesondere müssen nicht mehr alle Bildausschnitte 202 eines Bildes 200 für die Evaluierung eines Objekt-Klassifikators geprüft werden. Unwahrscheinliche Bildausschnitte 202 können von der Prüfung ausgeschlossen werden. Dadurch sinkt die benötigte Rechenzeit, um eine Qualitätsaussage des Klassifikators abzuleiten. Andererseits können bei gleicher Rechenzeit aufgrund der beschriebenen Methode eine höhere Anzahl an Datensätzen geprüft werden. Somit kann mit gleichem Zeitaufwand ein Klassifikator hinsichtlich einer größeren Bandbreite von Rahmenbedingungen geprüft werden.
  • Die vorliegende Erfindung ist nicht auf die gezeigten Ausführungsbeispiele beschränkt. Insbesondere ist zu beachten, dass die Beschreibung und die Figuren nur das Prinzip der vorgeschlagenen Verfahren, Vorrichtungen und Systeme veranschaulichen sollen.

Claims (14)

  1. Verfahren (300) zur Detektion eines Objektes in einem Bild (200), wobei das Bild (200) eine Vielzahl von Bildpunkten (203) umfasst, wobei das Verfahren (300) umfasst, – Ermitteln (301) von einer globalen Beleuchtungssituation des Bildes (200) auf Basis der Vielzahl von Bildpunkten (203); – Ermitteln eines Bildausschnittes (202), wobei der Bildausschnitt (202) eine Teilmenge der Vielzahl von Bildpunkten (203) umfasst; – Ermitteln (302) von einer lokalen Beleuchtungssituation des Bildausschnittes (202) auf Basis der Teilmenge der Bildpunkte (203); und – Bestimmen (303), ob der Bildausschnitt (202) ein zu detektierendes Objekt aufweist, in Abhängigkeit von der globalen Beleuchtungssituation und in Abhängigkeit von der lokalen Beleuchtungssituation.
  2. Verfahren (300) gemäß Anspruch 1, wobei das Ermitteln einer Beleuchtungssituation auf Basis von Bildpunkten (203) umfasst, – Ermitteln (311), auf Basis der Bildpunkte (203), einer Vielzahl von Gütemaß-Werten für eine entsprechende Vielzahl von Gütemaßen; und – Ermitteln (312), auf Basis der Vielzahl von Gütemaß-Werten, einer Beleuchtungsklasse aus einer Vielzahl von vordefinierten Beleuchtungsklassen, wobei die ermittelte Beleuchtungsklasse die Beleuchtungssituation der Bildpunkte (203) anzeigt.
  3. Verfahren (300) gemäß Anspruch 2, wobei – die Vielzahl von Gütemaß-Werten einen Merkmalsvektor für die Bildpunkte (203) bildet; und – die Beleuchtungsklasse für die Bildpunkte (203) mittels eines Beleuchtungs-Klassifikators ermittelt wird, der eingerichtet ist, Merkmalsvektoren einer Beleuchtungsklasse aus der Vielzahl von Beleuchtungsklassen zuzuweisen.
  4. Verfahren (300) gemäß einem der Ansprüche 2 bis 3, wobei die Vielzahl von Gütemaße ein oder mehrere umfasst von, – eine statistische Größe aus einem Histogramm von Helligkeitswerten der Bildpunkte (203); und/oder – ein zentrales Moment, das einen Schwerpunkt der Helligkeitswerte der Bildpunkte (203) beschreibt.
  5. Verfahren (300) gemäß einem der Ansprüche 2 bis 4, wobei die Vielzahl von Beleuchtungsklassen ein oder mehrere umfasst von, – eine Beleuchtungsklasse, die eine Beleuchtungssituation mit Tageslicht anzeigt; und/oder – eine Beleuchtungsklasse, die eine Beleuchtungssituation mit künstlichem Licht anzeigt, insbesondere in einer ländlichen Region, in einem Wohngebiet oder in einem Stadtzentrum.
  6. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, wobei das Bestimmen (303), ob der Bildausschnitt (202) ein zu detektierendes Objekt aufweist, umfasst, – Ermitteln (321), auf Basis der Teilmenge von Bildpunkten (203), von einem Deskriptor für den Bildausschnitt (202); und – Klassifizieren des Bildausschnittes (202) mittels eines Objekt-Klassifikators, wobei der Objekt-Klassifikator eingerichtet ist, den Deskriptor des Bildausschnittes (202) einer positiven Objekt-Klasse oder einer negativen Objekt-Klasse zuzuordnen, wobei die positive Objekt-Klasse anzeigt, dass der Bildausschnitt (202) das zu detektierende Objekt aufweist, und wobei die negative Objekt-Klasse anzeigt, dass der Bildausschnitt (202) das zu detektierende Objekt nicht aufweist.
  7. Verfahren (300) gemäß Anspruch 6, wobei – der Deskriptor gemäß einem HOG-Modell, einem LBP-Modell, und/oder einem Wavelet-Modell ermittelt wird; und/oder – der Objekt-Klassifikator einen Bayes-Klassifikator, einen Expectation Maximization-Klassifikator, einen K-Means-Klassifikator, und/oder einen Support Vector Machine-Klassifikator umfasst.
  8. Verfahren (300) gemäß Anspruch 7, wobei – ein Typ des Deskriptors; – eine Auflösung des Deskriptors; – ein Typ des Objekt-Klassifikators; und/oder – ein Trainings-Datensatz, welcher zum Anlernen des Objekt- Klassifikators verwendet wurde, von der globalen Beleuchtungssituation und von der lokalen Beleuchtungssituation abhängen.
  9. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, wobei die Größe und/oder die Form des Bildausschnittes (202) von dem zu detektierenden Objekt abhängen, so dass ein Rahmen des Bildausschnittes (202) das zu detektierende Objekt umschließen kann.
  10. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, weiter umfassend, – Verschieben eines Suchfensters entlang einer horizontalen Achse (213) und/oder entlang einer vertikalen Achse (214) des Bildes (200) mit einer vordefinierten Schrittweite, um eine Sequenz von Bildausschnitten (202) zu ermitteln; – Ermitteln einer lokalen Beleuchtungssituation für jeden Bildausschnitt (202) aus der Sequenz von Bildausschnitten (202); und – Bestimmen, für jeden Bildausschnitt (202) aus der Sequenz von Bildausschnitten (202) und in Abhängigkeit von der jeweiligen lokalen Beleuchtungssituation sowie in Abhängigkeit von der globalen Beleuchtungssituation des Bildes (200), ob der Bildausschnitt (202) das zu detektierende Objekt aufweist.
  11. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, wobei – das Bild (200) einem aktuellen Bild aus einer Sequenz von zeitlich aufeinander folgenden Bildern entspricht; – die globale Beleuchtungssituation des aktuellen Bildes auf Basis der Bildpunkte (203) von einer Vielzahl von Bildern aus der Sequenz von Bildern ermittelt wird; und – die lokale Beleuchtungssituation eines Bildausschnittes (202) des aktuellen Bildes auf Basis von korrespondierenden Teilmengen der Bildpunkte (203) der Vielzahl von Bildern ermittelt wird.
  12. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, wobei – das Bild (200) durch eine Kamera (101) eines Fahrzeugs (100) erfasst wurde; – die Kamera (101) eingerichtet ist, ein Umfeld vor dem Fahrzeug (100) zu erfassen; – die globale und/oder die lokale Beleuchtungssituation auch auf Basis von A-priori Wissen bezüglich der Beleuchtungssituation in dem Umfeld vor dem Fahrzeug (100) ermittelt wird; und – das A-priori Wissen insbesondere ein oder mehrere umfasst von: – eine Tageszeit an dem das Bild (200) erfasst wurde; – ein Datum an dem das Bild (200) erfasst wurde; – die Aufgangs- und/oder Untergangszeit der Sonne an dem Tag an dem das Bild (200) erfasst wurde; und/oder – eine geographische Position des Umfelds, welches in dem Bild (200) dargestellt ist.
  13. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, wobei – das Bild (200) durch eine Kamera (101) eines Fahrzeugs (100) erfasst wurde; – die Kamera (101) eingerichtet ist, ein Umfeld des Fahrzeugs (100) zu erfassen; – das Fahrzeug (100) ein oder mehrere Umfeldsensoren, insbesondere einen Radarsensor und/oder einen Lidar-Sensor, umfasst, die eingerichtet sind, Umfelddaten bezüglich des Umfelds des Fahrzeugs (100) zu erfassen; das Verfahren (300) weiter umfasst, das Detektieren, auf Basis von den Umfelddaten, von einem statischen oder einem dynamischen Objekt in dem Umfeld des Fahrzeugs (100), das Einfluss auf die Beleuchtungssituation des Bildes (200) haben kann; – die globale und/oder lokale Beleuchtungssituation auch auf Basis von dem detektierten statischen oder dynamischen Objekt ermittelt wird.
  14. Verfahren (300) gemäß einem der vorhergehenden Ansprüche, weiter umfassend, – Ermitteln einer erwarteten Entfernung des zu detektierenden Objektes; und – Bestimmen der Teilmenge der Vielzahl von Bildpunkten (203) für die Ermittlung der lokalen Beleuchtungssituation des Bildausschnittes (202) auf Basis der erwarteten Entfernung des zu detektierenden Objektes.
DE102015200434.1A 2015-01-14 2015-01-14 Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen Pending DE102015200434A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102015200434.1A DE102015200434A1 (de) 2015-01-14 2015-01-14 Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102015200434.1A DE102015200434A1 (de) 2015-01-14 2015-01-14 Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen

Publications (1)

Publication Number Publication Date
DE102015200434A1 true DE102015200434A1 (de) 2016-07-14

Family

ID=56233848

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015200434.1A Pending DE102015200434A1 (de) 2015-01-14 2015-01-14 Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen

Country Status (1)

Country Link
DE (1) DE102015200434A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017008678A1 (de) 2017-09-14 2018-03-01 Daimler Ag Verfahren zur Adaption einer Objekterkennung durch ein Fahrzeug
EP3629241A1 (de) * 2018-09-26 2020-04-01 Robert Bosch GmbH Vorrichtung und verfahren zur automatischen bildverbesserung bei fahrzeugen
DE102021107904A1 (de) 2021-03-29 2022-09-29 Conti Temic Microelectronic Gmbh Verfahren und System zur Bestimmung der Bodenebene mit einem künstlichen neuronalen Netz

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040228530A1 (en) * 2003-05-12 2004-11-18 Stuart Schwartz Method and apparatus for foreground segmentation of video sequences
WO2008147039A1 (en) * 2007-05-25 2008-12-04 Inha-Industry Partnership Institute System and method for recognizing images using t-test
DE102012218390A1 (de) * 2011-10-20 2013-04-25 Ibm International Business Machines Corporation Optimierung der Erkennung von Objekten in Bildern
WO2013189925A2 (en) * 2012-06-18 2013-12-27 St-Ericsson Sa Digital image analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040228530A1 (en) * 2003-05-12 2004-11-18 Stuart Schwartz Method and apparatus for foreground segmentation of video sequences
WO2008147039A1 (en) * 2007-05-25 2008-12-04 Inha-Industry Partnership Institute System and method for recognizing images using t-test
DE102012218390A1 (de) * 2011-10-20 2013-04-25 Ibm International Business Machines Corporation Optimierung der Erkennung von Objekten in Bildern
WO2013189925A2 (en) * 2012-06-18 2013-12-27 St-Ericsson Sa Digital image analysis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017008678A1 (de) 2017-09-14 2018-03-01 Daimler Ag Verfahren zur Adaption einer Objekterkennung durch ein Fahrzeug
EP3629241A1 (de) * 2018-09-26 2020-04-01 Robert Bosch GmbH Vorrichtung und verfahren zur automatischen bildverbesserung bei fahrzeugen
DE102021107904A1 (de) 2021-03-29 2022-09-29 Conti Temic Microelectronic Gmbh Verfahren und System zur Bestimmung der Bodenebene mit einem künstlichen neuronalen Netz

Similar Documents

Publication Publication Date Title
US9396403B2 (en) Method of vehicle identification and a system for vehicle identification
DE102006057552B4 (de) System und Verfahren zur Messung des Abstands eines vorausfahrenden Fahrzeugs
DE102006012914B4 (de) System und Verfahren zur Bestimmung des Abstands zu einem vorausfahrenden Fahrzeug
DE102014214448B4 (de) Vorrichtung und Verfahren zur Erkennung eines Verkehrszeichens
DE102011086512B4 (de) Nebeldetektion
DE112018007287T5 (de) Fahrzeugsystem und -verfahren zum erfassen von objekten und einer objektentfernung
DE102014210820A1 (de) Verfahren zum Nachweis von großen und Passagierfahrzeugen von festen Kameras
DE112009000949T5 (de) Detektion eines freien Fahrpfads für ein Fahrzeug
DE112010003914T5 (de) Verfahren und Vorrichtung zur Erkennung von Müdigkeit am Steuer sowie ein Fahrzeug
DE112009000480T5 (de) Dynamische Objektklassifikation
DE102017218366A1 (de) Verfahren und system zur fussgängererfassung in einem fahrzeug
DE112017008149B4 (de) Vorrichtung für eine von einem Fahrzeug ausgehende Kommunikation, Verfahren zum Kommunizieren von einem Fahrzeug nach außen Informationsverarbeitungsvorrichtung und computerlesbares Medium
DE102014117102A1 (de) Spurwechselwarnsystem und Verfahren zum Steuern des Spurwechselwarnsystems
DE102015207903A1 (de) Vorrichtung und Verfahren zum Erfassen eines Verkehrszeichens vom Balkentyp in einem Verkehrszeichen-Erkennungssystem
DE102018109276A1 (de) Bildhintergrundsubtraktion für dynamische beleuchtungsszenarios
DE102015208139A1 (de) Fahrzeuginsassenerfassung mittels des Abstands zwischen Beifahrer- und Fahrermerkmalen
DE112017001951T5 (de) Vorrichtung und verfahren zur objekterkennung bezüglich eines eingangsbildes für ein fahrzeug
DE102015122116A1 (de) System und Verfahren zur Ermittlung von Clutter in einem aufgenommenen Bild
DE102021203020A1 (de) Generative-adversarial-network-modelle zur detektion kleiner strassenobjekte
DE112020005223T5 (de) Objektverfolgungseinrichtung und Objektverfolgungsverfahren
DE102015200434A1 (de) Verfahren und Vorrichtung zur Verbesserung der Objekterkennung bei unterschiedlichenBeleuchtungssituationen
DE102015200437A1 (de) Verfahren und Vorrichtung zur Ermittlung der Konfidenz einer Objekterkennung
WO2015193152A1 (de) Verfahren zum detektieren eines blickwinkelabhängigen merkmals eines dokumentes
DE102015205502A1 (de) Bildverarbeitungsverfahren und Bildverarbeitungssystem zum Extrahieren verzerrter kreisförmiger Bildelemente
EP2750081B1 (de) Verfahren zur Fahrzeugidentifizierung und ein System zur Fahrzeugidentifizierung

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000