DE102015209822A1

DE102015209822A1 - Erfassungseinrichtung, Erfassungsprogramm, Erfassungsverfahren, mit Erfassungseinrichtung ausgerüstetes Fahrzeug, Parameterberechnungseinrichtung, Parameter berechnende Parameter, Parameterberechnungsprogramm, und Verfahren zum Berechnen von Parametern

Info

Publication number: DE102015209822A1
Application number: DE102015209822.2A
Authority: DE
Inventors: Yukimasa Tamatsu; Kensuke Yokoi; Ikuro Sato
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2014-05-28
Filing date: 2015-05-28
Publication date: 2015-12-03
Also published as: US20150347831A1; JP2016006626A; US20170098123A1

Abstract

Eine Erfassungseinrichtung weist einen Neuronalnetzwerkverarbeitungsabschnitt auf, der einen Neuronalnetzwerkprozess unter Verwendung Parametern durchführt zum Berechnen und Ausgeben eines Klassifikationsergebnisses und eines Regressionsergebnisses von jedem von Rahmen in einem Eingangsbild. Das Klassifikationsergebnis zeigt ein Vorhandensein einer Person in dem Eingangsbild. Das Regressionsergebnis zeigt eine Position der Person in dem Eingangsbild. Die Parameter werden auf der Grundlage eines Lernprozesses unter Verwendung einer Vielzahl von positiven Mustern und negativen Mustern ermittelt. Die positiven Muster weisen Segmente eines Musterbilds, die zumindest einen Teil der Person und einen wahren Wert der Position der Person in dem Musterbild enthalten, auf. Die negativen Muster weisen Segmente des Musterbilds auf, die keine Person enthalten.

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die Erfindung betrifft Erfassungseinrichtungen, die in der Lage sind, eine Person, wie beispielsweise einen Fußgänger, in einem Bild zu erfassen, und Erfassungsprogramme und Erfassungsverfahren davon. Ferner betrifft die Erfindung Fahrzeuge, die mit der Erfassungseinrichtung ausgerüstet sind, Parameterberechnungseinrichtungen, die in der Lage sind, von der Erfassungseinrichtung zu verwendende Parameter zu berechnen, und Parameterberechnungsprogramme und Verfahren davon.
2. Beschreibung verwandten Standes der Technik
Um einen Fahrer eines eigenen Fahrzeugs dabei zu unterstützen, sicher zu fahren, bestehen verschiedene technische Probleme. Eines der Probleme besteht darin, korrekt und schnell einen oder mehrere Fußgänger vor dem eigenen Fahrzeug zu erfassen. In einer üblichen Verkehrsumgebung geschieht es oft, dass ein oder mehrere Fußgänger hinter anderen Motorfahrzeugen oder Verkehrszeichen auf einer Fahrbahn verborgen sind. Es ist demgemäß notwendig, über einen Algorithmus zu verfügen, um das Vorhandensein eines Fußgängers auch dann korrekt zu erfassen, wenn nur ein Teil des Fußgängers sichtbar ist, d. h. ein Teil des Fußgängers verborgen ist.
Es gibt ein Nichtpatentdokument 1, X. Wang, T. X. Han, S. Van, "An-HOG-LBP Detector with partial Occlusion Handling", IEEE 12th International Conference an Computer Vision (ICV), 2009, welches ein Verfahren zum Erfassen eines Fußgängers in einem durch eine fahrzeuginterne Kamera erhaltenen Bild zeigt. Die fahrzeuginterne Kamera erhält das Bild vor dem eigenen Fahrzeug. In diesem Verfahren wird ein Bildmerkmalwert aus einem rechteckigen Segment in dem durch die fahrzeuginterne Kamera erhaltenen Bild erhalten. Eine Lineardiskriminanteneinheit beurteilt, ob der Bildmerkmalwert einen Fußgänger involviert oder nicht. Danach wird das rechteckige Segment weiter in Blöcke kleiner Größe unterteilt. Ein Teilergebnis der Lineardiskriminanteneinheit wird jedem der Blöcke kleiner Größe zugewiesen. Ein Teil des Fußgängers, welcher in dem Bild verborgen ist, wird durch Durchführen einer Segmentierung auf der Grundlage einer Verteilung der Bewertungsergebnisse abgeschätzt. Ein vorbestimmtes Teilmodell wird auf den verbleibenden Teil des Fußgängers in dem Bild, welcher nicht verborgen ist, angewandt, um die Bewertungsergebnisse zu kompensieren.
Dieses Nichtpatentdokument 1, das vorangehend beschrieben wurde, schlussfolgert, dass dieses Verfahren das Vorhandensein des Fußgängers auch dann korrekt erfasst, wenn ein Teil des Fußgängers in dem Bild verborgen ist.
Das in dem Nichtpatentdokument 1 offenbarte Verfahren erfordert, unabhängig Teilmodelle einer Person im Voraus zu generieren. Dieses Verfahren zeigt jedoch kein Aufteilen einer Person in dem Bild in eine Anzahl von Segmenten mit unterschiedlichen Größen.
KURZBESCHREIBUNG
Es ist daher erwünscht, eine Erfassungseinrichtung, ein Erfassungsprogramm und ein Erfassungsverfahren bereitzustellen, die in der Lage sind, ein zugeführtes Bild bzw. Eingangsbild zu empfangen und das Vorhandensein einer Person (zum Beispiel eines oder mehrerer Fußgänger) in dem Eingangsbild auch dann korrekt zu erfassen, wenn ein Teil der Person verborgen ist, ohne irgendein Teilmodell zu erzeugen. Es ist ferner erwünscht, ein Fahrzeug bereitzustellen, das mit der Erfassungseinrichtung ausgerüstet ist. Es ist darüber hinaus weiter erwünscht, eine Parameterberechnungseinrichtung, ein Parameterberechnungsprogramm und ein Parameterberechnungsverfahren bereitzustellen, die in der Lage sind, Parameter zu berechnen, die von der Erfassungseinrichtung zu verwenden sind.
Das heißt, ein beispielhaftes Ausführungsbeispiel stellt eine Erfassungseinrichtung bereit, beinhaltend einen Neuronalnetzwerkverarbeitungsabschnitt. Dieser Neuronalnetzwerkverarbeitungsabschnitt führt einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durch, um ein Klassifikationsergebnis und ein Regressionsergebnis von jedem von einer Vielzahl von Rahmen in einem Eingangsbild zu berechnen und auszugeben. Insbesondere repräsentiert das Klassifikationsergebnis ein Vorhandensein einer Person in dem Eingangsbild. Das Regressionsergebnis repräsentiert eine Position der Person in dem Eingangsbild. Die Parameter werden auf der Grundlage eines Lernprozesses unter Verwendung einer Vielzahl von positiven Mustern und negativen Mustern ermittelt. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil einer Person und einen wahren Wert (tatsächlichen Wert) der Position der Person in dem Musterbild enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Die Erfassungseinrichtung mit der vorstehend beschriebenen Struktur führt einen Neuronalnetzwerkprozess unter Verwendung der Parameter durch, welche auf der Grundlage von Segmenten in einem Musterbild ermittelt worden sind, welche zumindest einen Teil einer Person enthalten. Demgemäß ist es für die Erfassungseinrichtung möglich, das Vorhandensein einer Person, wie beispielsweise eines Fußgängers, in dem Eingangsbild mit hoher Genauigkeit auch dann korrekt zu erfassen, wenn ein Teil der Person verborgen ist.
Es ist für die Erfassungseinrichtung möglich, einen Integrationsabschnitt aufzuweisen, der in der Lage ist, die Regressionsergebnisse der Position der Person in den Rahmen, welche auf das Vorhandensein der Person klassifiziert worden sind, zu integrieren. Der Integrationsabschnitt spezifiziert ferner die Position der Person in dem Eingangsbild.
Es wird bevorzugt, dass die Anzahl der Parameter nicht von der Anzahl der positiven Muster und der negativen Muster abhängt. Diese Struktur ermöglicht es, die Anzahl der positiven Muster und die Anzahl der negativen Muster zu erhöhen, ohne die Anzahl der Parameter zu erhöhen. Ferner ermöglicht es dies, die Erfassungsgenauigkeit des Erfassens der Person in dem Eingangsbild zu erhöhen, ohne eine Speichergröße und eine Speicherzugriffszeit bzw. -dauer zu erhöhen.
Es ist annehmbar, dass die Position der Person die untere Endposition der Person enthält. In diesem Fall erzeugt bzw. generiert die fahrzeuginterne Kamera, die in dem Fahrzeugaufbau des Fahrzeugs verbaut ist, das Eingangsbild, und weist die Erfassungseinrichtung ferner einen Berechnungsabschnitt auf, der in der Lage ist, eine Entfernung zwischen dem Fahrzeugaufbau des eigenen Fahrzeugs und der erfassten Person auf der Grundlage der unteren Endposition der Person zu berechnen. Dies ermöglicht es, zu garantieren, dass der Fahrer des eigenen Fahrzeugs sicher fahren kann, weil der Berechnungsabschnitt die Entfernung zwischen dem eigenen Fahrzeug und der Person auf der Grundlage der unteren Endposition der Person berechnet.
Es ist für die Position der Person möglich, zusätzlich zu der unteren Endposition der Person eine Position eines bestimmten Teils der Person zu enthalten. Es ist darüber hinaus für den Berechnungsabschnitt möglich, die Entfernung zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs unter Verwendung der Position der Person zu einem Zeitpunkt t und der Position der Person zu dem Zeitpunkt t + 1 einzustellen, d. h. zu korrigieren, während angenommen wird, dass die Höhe, die ausgehend von der unteren Endposition der Person zu der Position eines bestimmten Teils der Person gemessen wird, einen konstanten Wert hat, d. h. sich nicht ändert. Die Position der Person zu dem Zeitpunkt t wird durch Verarbeiten des von der fahrzeuginternen Kamera zu dem Zeitpunkt t aufgenommenen und von der fahrzeuginternen Kamera übertragenen Bilds erhalten. Die Position der Person zu dem Zeitpunkt t + 1 wird durch Verarbeiten des von der fahrzeuginternen Kamera zu dem Zeitpunkt t + 1 aufgenommenen und übertragenen Bilds erhalten.
In einem konkreten Beispiel ist es für den Berechnungsabschnitt möglich, die Entfernung zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs durch Lösen eines Zustandsraummodells unter Verwendung von Zeitreihenbeobachtungswerten zu korrigieren. Das Zustandsraummodell umfasst eine Gleichung, welche ein Systemmodell beschreibt, und eine Gleichung, welche ein Beobachtungsmodell beschreibt. Das Systemmodell zeigt eine Zeitexpansion der Entfernung zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs und verwendet eine Annahme, in welcher die von der unteren Endposition der Person zu dem bestimmten Teil der Person gemessene Höhe einen konstanten Wert hat, d. h. sich nicht ändert. Das Beobachtungsmodell zeigt eine Beziehung zwischen der Position der Person und der Entfernung zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs.
Diese Korrekturstruktur der Erfassungseinrichtung erhöht die Genauigkeit des Abschätzens der Entfernung (Entfernungsschätzgenauigkeit) zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs.
Es ist für den Berechnungsabschnitt möglich, die Entfernung zwischen der Person und dem Fahrzeugaufbau des eigenen Fahrzeugs unter Verwendung der oberen Endposition der Person als den bestimmten Teil der Person und der Annahme, in welcher die Höhe der Person ein konstanter Wert ist, zu korrigieren.
Es ist annehmbar, dass die Position der Person eine zentrale Position der Person in einer horizontalen Richtung enthält. Dies ermöglicht es, die Mittenposition oder zentrale Position der Person zu spezifizieren, und dem Fahrer, den Ort der Person vor dem eigenen Fahrzeug mit hoher Genauigkeit zu erkennen.
Es ist für den Integrationsabschnitt möglich, eine Gruppierung der Rahmen, in welchen die Person vorhanden ist, durchzuführen und Regressionsergebnisse der Person in jedem der gruppierten Rahmen zu integrieren. Dies ermöglicht es, die Position der Person auch dann mit hoher Genauigkeit zu spezifizieren, wenn das Eingangsbild viele Personen (d. h. Fußgänger) enthält.
Es ist für den Integrationsabschnitt in der Erfassungseinrichtung annehmbar, die Regressionsergebnisse der Position der Person auf der Grundlage der Regressionsergebnisse mit einer hohen Regressionsgenauigkeit in den Regressionsergebnissen der Position der Person zu integrieren. Diese Struktur ermöglicht es, aufgrund des Verwendens der Regressionsergebnisse mit einer hohen Regressionsgenauigkeit die Erfassungsgenauigkeit des Erfassens des Vorhandenseins der Person vor dem eigenen Fahrzeug zu erhöhen.
Es ist annehmbar, die Parameter so zu bestimmen, dass eine Kostenfunktion mit einem ersten Term und einem zweiten Term konvergiert. In diesem Fall wird der erste Term von der Klassifizierung bezüglich dessen, ob die Person in dem Eingangsbild vorhanden ist oder nicht, verwendet. Der zweite Term wird von der Regression der Position der Person verwendet. Dies ermöglicht es dem Neuronalnetzwerkverarbeitungsabschnitt, sowohl die Klassifikation, ob die Person in dem Eingangsbild vorhanden ist oder nicht, als auch die Regression der Position der Person in dem Eingangsbild durchzuführen.
Es ist annehmbar, dass die Position der Person Positionen einer Vielzahl von Teilen der Person beinhaltet, und der zweite Term Koeffizienten jeweils entsprechend den Positionen der Teile der Person aufweist. Diese Struktur ermöglicht es, durch Verwenden geeigneter Parameter zu verhindern, dass ein oder mehrere Teile, der bzw. die aus vielen Teilen der Person ausgewählt wurde(n), dominant oder nicht dominant sind.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird ein Erfassungsprogramm bereitgestellt, das in der Lage ist, einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durchzuführen, ausgeführt durch einen Computer. Der Neuronalnetzwerkprozess ist in der Lage, ein Klassifikationsergebnis und ein Regressionsergebnis von jedem von einer Vielzahl von Rahmen in einem Eingangsbild zu erhalten und auszugeben. Das Klassifikationsergebnis zeigt ein Vorhandensein einer Person in dem Eingangsbild. Das Regressionsergebnis zeigt eine Position der Person in dem Eingangsbild. Die Parameter werden auf der Grundlage eines Lernprozesses auf der Grundlage einer Vielzahl von positiven Mustern und negativen Mustern ermittelt. Jedes der positiven Muster hat einen Satz eines Segments in einem Musterbild, das zumindest einen Teil der Person und einen wahren Wert (tatsächlichen Wert) der Position der Person in dem Musterbild enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Dieses Erfassungsprogramm ermöglicht es, den Neuronalnetzwerkprozess unter Verwendung der Parameter auf der Grundlage der Segmente durchzuführen, die zumindest einen Teil der Person enthalten. Es ist demgemäß für das Erfassungsprogramm möglich, das Vorhandensein der Person auch dann korrekt zu erfassen, wenn ein Teil der Person verborgen ist, ohne ein Teilmodell zu erzeugen bzw. generieren.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird ein Erfassungsverfahren zum bzw. des Berechnen(s) von Parametern zur Verwendung in einem Neuronalnetzwerkprozess. Die Parameter werden berechnet durch Durchführen eines Lernprozesses auf der Grundlage einer Vielzahl von positiven Mustern und negativen Mustern. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert (tatsächlichen Wert) der Position der Person in den Musterbildern enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält. Das Erfassungsverfahren führt ferner einen Neuronalnetzwerkprozess unter Verwendung der Parameter durch, und gibt Klassifikationsergebnisse einer Vielzahl von Rahmen in einem Eingangsbild aus. Das Klassifikationsergebnis repräsentiert ein Vorhandensein einer Person in dem Eingangsbild. Das Regressionsergebnis gibt eine Position der Person in dem Eingangsbild an.
Weil dieses Erfassungsverfahren den Neuronalnetzwerkprozess unter Verwendung von Parametern auf der Grundlage von Segmenten eines Musterbilds, das zumindest einen Teil einer Person enthält, durchführt, ist es für das Erfassungsverfahren möglich, das Vorhandensein der Person auch dann mit hoher Genauigkeit ohne Verwenden jeglichen Teilmodells korrekt zu erfassen, wenn ein Teil der Person durch zum Beispiel ein anderes Fahrzeug oder ein Verkehrszeichen verborgen wird.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird ein Fahrzeug mit einem Fahrzeugaufbau, einer fahrzeuginternen Kamera, einem Neuronalnetzwerkverarbeitungsabschnitt, einem Integrationsabschnitt, einem Berechnungsabschnitt und einem Anzeigeabschnitt bereitgestellt. Die fahrzeuginterne Kamera ist in dem Fahrzeugaufbau verbaut und in der Lage, ein Bild einer Szene vor dem Fahrzeugaufbau zu generieren. Der Neuronalnetzwerkverarbeitungsabschnitt ist in der Lage, das Bild als ein von der fahrzeuginternen Kamera übertragenes Eingangsbild zu übernehmen, einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durchzuführen, und Klassifikationsergebnisse und Regressionsergebnisse von jedem von einer Vielzahl von Rahmen in dem Eingangsbild auszugeben. Die Klassifikationsergebnisse zeigen ein Vorhandensein einer Person in dem Eingangsbild. Die Regressionsergebnisse zeigen eine untere Endposition der Person in dem Eingangsbild. Der Integrationsabschnitt ist in der Lage, die Regressionsergebnisse der Position der Person in den Rahmen, in welchen die Person vorhanden ist, zu integrieren, und eine untere Endposition in dem Eingangsbild zu spezifizieren. Der Berechnungsabschnitt ist in der Lage, eine Entfernung zwischen der Person und dem Fahrzeugaufbau auf der Grundlage der spezifizierten unteren Endposition der Person zu berechnen. Die Anzeigeeinrichtung ist in der Lage, ein Bild anzuzeigen, das die Entfernung zwischen der Person und dem Fahrzeugaufbau enthält. Die vorbestimmten Parameter werden durch Lernen auf der Grundlage einer Vielzahl von positiven Mustern und negativen Mustern ermittelt. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Weil der Neuronalnetzwerkverarbeitungsabschnitt an dem Fahrzeug den Neuronalnetzwerkprozess unter Verwendung der Parameter durchführt, welche auf der Grundlage der Segmente in dem Musterbild, die zumindest einen Teil einer Person enthalten, ermittelt worden sind, ist es möglich, das Vorhandensein der Person in dem Eingangsbild ohne Verwenden irgendeines Teilmodells auch dann korrekt zu erfassen, wenn ein Teil der Person durch zum Beispiel ein anderes Fahrzeug oder ein Verkehrszeichen verdeckt wird.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird eine Parameterberechnungseinrichtung bereitgestellt, die in der Lage ist, ein Lernen einer Vielzahl von positiven Mustern und negativen Mustern durchzuführen, um Parameter zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds zu berechnen. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Weil dies es ermöglicht, die Parameter auf der Grundlage von Segmenten des Musterbilds zu berechnen, welches zumindest einen Teil einer Person enthält, ist es möglich, das Vorhandensein der Person in dem Eingangsbild durch Durchführen des Neuronalnetzwerkprozesses unter Verwendung der berechneten Parameter ohne Erzeugen irgendeines Teilmodells auch dann korrekt zu erfassen, wenn ein Teil der Person durch zum Beispiel ein anderes Fahrzeug oder ein Verkehrszeichen verdeckt wird.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird ein Parameterberechnungsprogramm bereitgestellt, das von einem Computer auszuführen ist, zum Durchführen einer Funktion einer Parameterberechnungseinrichtung, welche ein Lernen einer Vielzahl von positiven Mustern und negativen Mustern durchführt, um Parameter zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds zu berechnen. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Weil dies es ermöglicht, die Parameter auf der Grundlage von Segmenten des Musterbilds zu berechnen, welches zumindest einen Teil einer Person enthält, ist es möglich, das Vorhandensein der Person in dem Eingangsbild durch Durchführen des Neuronalnetzwerkprozesses unter Verwendung der berechneten Parameter ohne Erzeugen irgendeines Teilmodells auch dann korrekt zu erfassen, wenn ein Teil der Person durch zum Beispiel ein anderes Fahrzeug oder ein Verkehrszeichen verdeckt wird.
In Übereinstimmung mit einem anderen Aspekt der Erfindung wird ein Verfahren bereitgestellt zum Berechnen von Parametern zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds durch Durchführen eines Lernens einer Vielzahl von positiven und negativen Mustern. Jedes der positiven Muster hat einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält. Jedes der negativen Muster hat ein Segment des Musterbilds, das keine Person enthält.
Weil dieses Verfahren es ermöglicht, die Parameter auf der Grundlage von Segmenten des Musterbilds zu berechnen, welches zumindest einen Teil einer Person enthält, ist es möglich, das Vorhandensein der Person in dem Eingangsbild durch Durchführen des Neuronalnetzwerkprozesses unter Verwendung der berechneten Parameter ohne Erzeugen irgendeines Teilmodells auch dann korrekt zu erfassen, wenn ein Teil der Person durch zum Beispiel ein anderes Fahrzeug oder ein Verkehrszeichen verdeckt wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Nachstehend wird ein bevorzugtes, nicht beschränkendes Ausführungsbeispiel anhand eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. Es zeigen:
1 eine Ansicht, die eine schematische Struktur eines Motorfahrzeugs (eigenes Fahrzeug bzw. Eigenfahrzeug), das mit einer fahrzeuginternen Kamera 1, einer Erfassungseinrichtung 2, einer Anzeigeeinrichtung 3 usw. ausgerüstet ist, gemäß einem ersten beispielhaften Ausführungsbeispiel der Erfindung zeigt;
2 ein Blockdiagramm, das eine schematische Struktur der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung zeigt;
3 ein Ablaufdiagramm, das einen Parameterberechnungsprozess zeigt, der durch einen Parameterberechnungsabschnitt 5 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird;
4A und 4B Ansichten, die ein Beispiel von positiven Mustern zeigen;
5A und 5B Ansichten, die ein Beispiel von negativen Mustern zeigen;
6A bis 6D Ansichten, die einen Prozess zeigen, der durch einen Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird;
7 eine Ansicht, die eine Struktur eines faltenden neuronalen Netzwerks (CNN; Convolution Neural Network) zeigt, das von dem Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung verwendet wird;
8 eine Ansicht, die eine schematische Struktur einer Ausgangs- bzw. Ausgabeschicht 223c in einer mehrschichtigen Neuronalnetzwerkstruktur 223 zeigt;
9 eine Ansicht, die ein Beispiel realer Erfassungsergebnis zeigt, die durch die Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung, gezeigt in 2, erfasst wurden;
10 ein Ablaufdiagramm, das einen Gruppierungsprozess zeigt, der durch einen Integrationsabschnitt 23 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird;
11 eine Ansicht, die eine Beziehung zwischen einer unteren Endposition einer Person und einem Fehler zeigt, d. h. eine Schätzgenauigkeit einer unteren Endposition einer Person erklärt;
12 eine Ansicht, die einen Prozess zeigt, der durch einen Berechnungsabschnitt 24 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird;
13 eine Ansicht, die schematische Bilddaten zeigt, die durch einen Bilderzeugungsabschnitt 25 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung erzeugt werden;
14 eine Ansicht, die ein Zustandsraummodell zeigt, das von der Erfassungseinrichtung gemäß einem zweiten beispielhaften Ausführungsbeispiel der Erfindung zu verwenden ist;
15A eine Ansicht, die experimentelle Ergebnisse einer Entfernungsschätzung zeigt, die durch die Erfassungseinrichtung gemäß dem zweiten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird; und
15B eine Ansicht, die experimentelle Ergebnisse einer Entfernungsgenauigkeitsschätzung zeigt, die durch die Erfassungseinrichtung gemäß dem zweiten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Nachstehend werden verschiedene Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. In der folgenden Beschreibung der verschiedenen Ausführungsbeispiele bezeichnen über die mehreren Diagramme hinweg gleiche Bezugszeichen oder Zahlen gleiche oder äquivalente Komponententeile.
Erstes beispielhaftes Ausführungsbeispiel
Nachstehend wird ein erstes beispielhaftes Ausführungsbeispiel unter Bezugnahme auf 1 bis 13 beschrieben.
1 ist eine Ansicht, die eine schematische Struktur eines Motorfahrzeugs, das mit einer fahrzeuginternen Kamera 1, einer Erfassungseinrichtung 2, einer Anzeigeeinrichtung 3 usw. ausgerüstet ist, gemäß dem ersten beispielhaften Ausführungsbeispiel zeigt.
Die fahrzeuginterne Kamera 1 ist so in dem eigenen Fahrzeug verbaut, dass eine optische Achse der fahrzeuginternen Kamera 1 in einer horizontalen Richtung liegt, und die fahrzeuginterne Kamera 1 ist in bzw. für einen Fahrer des eigenen Fahrzeugs verborgen. Zum Beispiel ist die fahrzeuginterne Kamera 1 auf der Rückseite eines Rückspiegels in einem Fahrzeugaufbau 4 des eigenen Fahrzeugs angeordnet. Es wird für eine (nicht gezeigte) Steuereinrichtung stark bevorzugt, die fahrzeuginterne Kamera 1 immer mit hoher Genauigkeit in der horizontalen Richtung auszurichten. Jedoch ist es für die Steuereinrichtung annehmbar, die optische Achse der fahrzeuginternen Kamera 1 näherungsweise in der horizontalen Richtung auszurichten. Die fahrzeuginterne Kamera 1 erhält ein Bild einer vor dem eigenen Fahrzeug zu sehenden Szene, und überträgt das erhaltene Bild an die Erfassungseinrichtung 2. Wenn die Erfassungseinrichtung 2 das von einer Kamera, d. h. nur der fahrzeuginternen Kamera 1, übertragene Bild verwendet, ermöglicht es dies, eine einfache Struktur eines Gesamtsystems der Erfassungseinrichtung 2 bereitzustellen.
Die Erfassungseinrichtung 2 empfängt das von der fahrzeuginternen Kamera 1 übertragene Bild. Die Erfassungseinrichtung 2 erfasst, ob eine Person, wie beispielsweise ein Fußgänger, in dem empfangenen Bild vorhanden ist. Wenn das Erfassungsergebnis anzeigt, dass das Bild eine Person enthält, erfasst die Erfassungseinrichtung 2 ferner einen Ort der erfassten Person in den Bilddaten. Die Erfassungseinrichtung 2 generiert bzw. erzeugt Bilddaten, die die erfassten Ergebnisse repräsentieren.
Im Allgemeinen ist die Anzeigeeinrichtung 3 auf einem Armaturenbrett oder an einem Audiosystem des eigenen Fahrzeugs angeordnet. Die Anzeigeeinrichtung 3 zeigt Information bezüglich der erfassten Ergebnisse, d. h. der erfassten Person, an, und zeigt ferner einen Ort der erfassten Person an, wenn die erfasste Person vor dem eigenen Fahrzeug vorhanden ist.
2 ist ein Blockdiagramm, das eine schematische Struktur der Erfassungseinrichtung 2 gemäß dem beispielhaften Ausführungsbeispiel zeigt. Die Erfassungseinrichtung 2 weist einen Speicherabschnitt 21, einen Neuronalnetzwerkverarbeitungsabschnitt 22, einen Integrationsabschnitt 23, einen Berechnungsabschnitt 24, und einen Bilderzeugungsabschnitt 24 auf. Es ist möglich, eine einzelne Einrichtung oder mehrere Einrichtungen bereitzustellen, in welche diese Abschnitte 21 bis 25 integriert sind. Es ist annehmbar, Softwareprogramme zu verwenden, die in der Lage sind, die Funktionen eines Teils oder aller dieser Abschnitte 21 bis 25 durchzuführen. Ein Computer oder Hardwareeinrichtungen führen die Softwareprogramme aus.
Nachstehend werden die Komponenten der Erfassungseinrichtung 2, d. h. des Speicherabschnitts 21, des Neuronalnetzwerkverarbeitungsabschnitts 22, des Integrationsabschnitts 23, des Berechnungsabschnitts 24 und des Bilderzeugungsabschnitts 25, beschrieben.
Wie in 2 gezeigt ist, liefert ein Parameterberechnungsabschnitt 5 Parameter an die Erfassungseinrichtung 2. Der Parameterberechnungsabschnitt 5 berechnet Parameter, d. h. gewichtete Werte, im Voraus und speichert die berechneten Parameter in den Speicherabschnitt 21 in der Erfassungseinrichtung 2. Diese Parameter (gewichteten Werte) werden von einem faltenden Neuronalnetzwerkprozess (CNN(convolutional neural network)-Prozess) verwendet. Es ist für eine andere (nicht gezeigte) Einrichtung möglich, den Parameterberechnungsabschnitt 5 aufzuweisen. Es ist darüber hinaus für die Erfassungseinrichtung 2 möglich, den Parameterberechnungsabschnitt 5 integriert aufzuweisen. Es ist ferner möglich, Softwareprogramme zu verwenden, die in der Lage sind, die Parameter (gewichteten Werte) zu berechnen.
Der Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 empfängt, d. h. übernimmt, das Bild (nachstehend als Eingangsbild bezeichnet), das durch die fahrzeuginterne Kamera 1 erhalten und übertragen wurde. Die Erfassungseinrichtung 2 teilt das Eingangsbild in eine Vielzahl von Rahmen bzw. Einzel- bzw. Teilbildern auf.
Der Neuronalnetzwerkverarbeitungsabschnitt 22 führt den Neuronalnetzwerkprozess durch und gibt Klassifikationsergebnisse und Regressionsergebnisse aus. Die Klassifikationsergebnisse geben eine Schätzung mit einem binären Wert (zum Beispiel 0 oder 1) an, welcher anzeigt, ob eine Person, wie beispielsweise ein Fußgänger, in jedem der Rahmen in dem Eingangsbild enthalten bzw. vorhanden ist. Die Regressionsergebnisse geben eine Schätzung von kontinuierlichen Werten bezüglich eines Orts einer Person in dem Eingangsbild an.
Nach dem Durchführen des Neuronalnetzwerkprozesses verwendet der Neuronalnetzwerkverarbeitungsabschnitt 22 die in dem Speicherabschnitt 21 gespeicherten gewichteten Werte W.
Das Klassifikationsergebnis gibt die Schätzung mit einem binären Wert (0 oder 1) an, welcher anzeigt, ob eine Person vorhanden ist oder nicht. Das Regressionsergebnis gibt die Schätzung von kontinuierlichen Werten bezüglich des Orts der Person in dem Eingangsbild an.
Die Erfassungseinrichtung 2 in Übereinstimmung mit dem ersten beispielhaften Ausführungsbeispiel verwendet die Position einer Person, bestehend aus einer oberen Endposition (einem sich oben befindenden Kopf) der Person, einer unteren Endposition (einem unteren Ende) der Person, und einer zentralen Position bzw. Mittenposition der Person in einer horizontalen Richtung. Es ist für die Erfassungseinrichtung 2 jedoch auch annehmbar, als die Position der Person eine obere Endposition, eine untere Endposition und eine Mittenposition in einer horizontalen Richtung eines teilweisen Teils der Person oder andere Positionen der Person zu verwenden. Das erste beispielhafte Ausführungsbeispiel verwendet die Position der Person, bestehend aus der oberen Endposition, der unteren Endposition und der Mittenposition der Person.
Der Integrationsabschnitt 23 integriert die Regressionsergebnisse, d. h. bestehend aus der oberen Endposition, der unteren Endposition und der Mittenposition der Person in einer horizontalen Richtung, und bestimmt bzw. spezifiziert die obere Endposition, die untere Endposition und die Mittenposition der Person. Der Bilderzeugungsabschnitt 25 berechnet einen Abstand bzw. eine Entfernung zwischen der Person und dem Fahrzeugaufbau 4 des eigenen Fahrzeugs auf der Grundlage des Orts der Person, d. h. der spezifizierten Position der Person.
Wie in 2 gezeigt ist, erzeugt der Bilderzeugungsabschnitt 25 Bilddaten auf der Grundlage der Ergebnisse der Prozesse, die von dem Integrationsabschnitt 23 und dem Berechnungsabschnitt 24 übertragen wurden. Der Bilderzeugungsabschnitt 25 gibt die Bilddaten an die Anzeigeeinrichtung 3 aus. Die Anzeigeeinrichtung 3 zeigt die von dem Bilderzeugungsabschnitt 25 ausgegebenen Bilddaten an. Es wird für den Bilderzeugungsabschnitt 25 bevorzugt, Entfernungsinformation zwischen der erfassten Person vor dem eigenen Fahrzeug und dem Fahrzeugaufbau 4 des eigenen Fahrzeugs zu erzeugen. Die Anzeigeeinrichtung 3 zeigt die Entfernungsinformation der Person an.
Nachstehend wird jeder der Abschnitte beschrieben.
3 ist ein Ablaufdiagramm, das einen Parameterberechnungsprozess zeigt, der durch den Parameterberechnungsabschnitt 5 in Übereinstimmung mit dem ersten beispielhaften Ausführungsbeispiel durchgeführt wird. Der Parameterberechnungsabschnitt 5 speichert die berechneten gewichteten Werte (d. h. Parameter) in den Speicherabschnitt 21. Der Berechnungsprozess der gewichteten Werte wird nachstehend beschrieben. Die gewichteten Werte (Parameter) werden in dem durch die Erfassungseinrichtung 2 durchgeführten CNN-Prozess verwendet werden.
In einem in 3 gezeigten Schritt S1 empfängt der Parameterberechnungsabschnitt 5 positive Muster und negative Muster als überwachte bzw. beaufsichtigte Daten (oder Trainingsdaten).
4A und 4B sind Ansichten, die ein Beispiel eines positiven Musters zeigen. Das positive Muster ist ein Paar bestehend aus einem 2-dimensionalen Feldbild bzw. Bild eines zweidimensionalen Felds und entsprechenden Soll- bzw. Zieldaten. Der CNN-Prozess übernimmt das Bild des zweidimensionalen Felds und gibt die Zieldatenelemente entsprechend zu dem Bild des zweidimensionalen Felds aus. Die Zieldatenelemente geben an, ob eine Person in dem Bild des zweidimensionalen Felds vorhanden ist oder nicht, und geben eine obere Endposition, eine untere Endposition und eine Mittenposition der Person an.
Im Allgemeinen verwendet der CNN-Prozess als ein positives Muster das in 4A gezeigte Musterbild, welches eine Person enthält. Es ist für den CNN-Prozess ebenfalls möglich, ein Graustufenbild oder ein RGB(Rot-Grün-Blau)-Farbbild zu verwenden.
Wie in 4B gezeigt ist, wird das in 4A gezeigte Musterbild so in Segmente unterteilt, dass jedes der Segmente einen Teil einer Person oder die gesamte Person enthält. Es ist für die Segmente möglich, unterschiedliche Größen zu haben, aber jedes der Segmente mit unterschiedlichen Größen weist ein gleiches bzw. dasselbe Seitenverhältnis auf. Jedes der Segmente ist verformt, d. h. die Form jedes der Segmente ist so verändert, dass es ein Bild kleiner Größe mit derselben Größe wie die anderen aufweist.
Die Teile der Person geben einen Kopfteil, einen Schulterteil, einen Bauchteil, einen Armteil, einen Beinteil, einen Oberkörperteil, einen Unterkörperteil und eine Kombination mancher Teile der Person oder eine Gesamtperson an. Es wird für die Teile kleiner Größe bevorzugt, dass diese viele verschiedene Teile der Person repräsentieren. Ferner wird bevorzugt, dass die Bilder kleiner Größe unterschiedliche Positionen der Person zeigen, so dass zum Beispiel ein Teil der Person oder des Bilds der gesamten Person an der Mittenposition oder der Endposition in einem Bild kleiner Größe angeordnet ist. Außerdem wird ferner bevorzugt, viele Bilder kleiner Größe mit Teilen unterschiedlicher Größe (Teile großer Größe und Teile kleiner Größe) der Person vorzubereiten.
Zum Beispiel erzeugt die in 2 gezeigte Erfassungseinrichtung 2 Bilder kleiner Größe aus vielen Bildern (zum Beispiel mehreren tausend Bildern). Es ist möglich, den CNN-Prozess ohne eine Positionsverschiebung unter Verwendung der erzeugten Bilder kleiner Größe korrekt durchzuführen.
Jedes der Bilder kleiner Größe entspricht einem wahren Wert in Koordinaten der oberen Endposition, der unteren Endposition und der Mittenposition als dem Ort der Person.
4A zeigt eine relative Koordinate jedes Bilds kleiner Größe, nicht eine absolute Koordinate des Bilds kleiner Größe in dem Originalbild. Zum Beispiel sind die obere Endposition, die untere Endposition und die Mittenposition der Person in einem X–Y-Koordinatensystem definiert, wobei eine horizontale Richtung mit der X-Achse bezeichnet ist, eine vertikale Richtung durch die y-Achse angegeben ist, und die Mittenposition in dem Bild kleiner Größe ein Ursprung des X–Y-Koordinatensystems ist. Nachstehend werden der wahre Wert der oberen Endposition, der wahre Wert der unteren Endposition, und der wahre Wert (tatsächliche Wert) der Mittenposition in der relativen Position als die ”obere Endposition ytop”, die ”untere Endposition ybtm” bzw. die ”Mittenposition xc” bezeichnet.
Der Parameterberechnungsabschnitt 5 übernimmt jedes der Bilder kleiner Größe und die obere Endposition ytop, die untere Endposition ybtm und die Mittenposition xc derselben.
5A und 5B sind Ansichten, die ein Beispiel eines negativen Musters zeigen.
Das negative Muster ist ein Paar eines 2-dimensionalen Feldbilds bzw. ein Bild eines zweidimensionalen Felds und von Soll- bzw. Zieldatenelementen. Das CNN übernimmt das Bild eines zweidimensionalen Felds und gibt die Zieldatenelemente entsprechend zu dem Bild des zweidimensionalen Felds aus. Die Zieldatenelemente geben an, dass keine Person in dem Bild des zweidimensionalen Felds vorhanden ist.
Das eine Person enthaltende Musterbild (vgl. 5A) und das keine Person enthaltende Bild werden als negative Muster verwendet.
Wie in 5B gezeigt wird ein Teil des Musterbilds so in Segmente mit unterschiedlichen Größen unterteilt, dass die Segmente einen Teil der Person oder die gesamte Person nicht enthalten und ein gleiches bzw. dasselbe Seitenverhältnis haben. Jedes der Segmente ist verformt, d. h. so gemittelt, dass es ein Bild einer kleinen Größe mit einer gleichen Größe hat. Ferner wird bevorzugt, dass die Bilder kleiner Größe den Segmenten mit unterschiedlichen Größen und Positionen der Person entsprechen. Diese Bilder kleiner Größe werden auf der Grundlage vieler Bilder (zum Beispiel mehrerer tausend Bilder) erzeugt.
Der Parameterberechnungsabschnitt 5 übernimmt die negativen Muster, die aus diesen vorstehend beschriebenen Bildern kleiner Größe zusammengesetzt sind. Weil die negativen Muster keine Person enthalten, ist es für die negativen Muster nicht notwendig, irgendeine Positionsinformation einer Person aufzuweisen.
In einem in 3 gezeigten Schritt S2 erzeugt der Parameterberechnungsabschnitt 5 eine Kostenfunktion E(W) auf der Grundlage der empfangenen positiven Muster und der empfangenen negativen Muster. Der Parameterberechnungsabschnitt 5 in Übereinstimmung mit dem ersten beispielhaften Ausführungsbeispiel erzeugt die Kostenfunktion E(W), die in der Lage ist, die Klassifikation und die Regression zu berücksichtigen. Zum Beispiel kann die Kostenfunktion E(W) durch die folgende Gleichung (1) ausgedrückt werden.
worin N die Gesamtzahl der positiven Muster und der negativen Muster angibt, und W einen allgemeinen Term eines gewichteten Werts von jeder der Schichten in dem neuralen bzw. neuronalen Netzwerk angibt. Der gewichtete Wert W (als der allgemeine Term der gewichteten Werte der Schichten des neuronalen Netzwerks) ist ein optimaler Wert, so dass die Kostenfunktion E(W) einen kleinen Wert hat.
Der erste Term auf der rechten Seite der Gleichung (1) gibt die Klassifikation (als die Schätzung mit einem binären Wert dahingehend, ob eine Person vorhanden ist oder nicht) an. Zum Beispiel ist der erste Term auf der rechten Seite der Gleichung (1) als eine negative Kreuzentropie unter Verwendung der folgenden Gleichung (2) definiert. G_n(W) = –c_nlnf_cl(x_n; W) – (1 – c_n)ln(1 – f_cl(x_n; W)) (2) worin c_n ein richtiger Wert der Klassifikation des n-ten Musters x_n ist und einen binären Wert (0 oder 1) aufweist. Genauer hat c_n einen Wert von 1, wenn das positive Muster zugeführt wird, und hat einen Wert von 0, wenn ein negatives Muster zugeführt wird. Der Term von fc₁(x_n; W) wird als die Sigmoidfunktion bezeichnet. Diese Sigmoidfunktion fc₁(x_n; W) ist eine Klassifikationsausgabe entsprechend zu dem Muster x_n und liegt innerhalb eines Bereichs von mehr als 0 und weniger als 1.
Zum Beispiel dann, wenn ein positives Muster zugeführt wird, d. h. c_n = 1, kann die Gleichung (2) durch die folgende Gleichung (2a) ausgedrückt werden. G_n(W) = –lnf_cl(x_n; W) (2a)
Um den Wert der Kostenfunktion E(W) zu reduzieren, wird der gewichtete Wert optimiert, d. h. hat einen optimalen Wert so, dass sich die Sigmoidfunktion fc₁(x_n; W) dem Wert von 1 annähert.
Andererseits kann dann, wenn ein negatives Muster zugeführt wird, d. h. c_n = 0, die Gleichung (2) durch die folgende Gleichung (2b) ausgedrückt werden. G_n(W) = –ln(1 – f_cl(x_n; W)) (2b)
Um den Wert der Kostenfunktion E(W) zu reduzieren, wird der gewichtete Wert so optimiert, dass sich die Sigmoidfunktion fc₁(x_n; W) dem Wert von 0 annähert.
Wie der vorstehenden Beschreibung entnommen werden kann, wird der gewichtete Wert W so optimiert, dass sich der Wert der Sigmoidfunktion fc₁(x_n; W) an c_n annähert.
Der zweite Term in der Gleichung (2) gibt die Regression (als die Schätzung der kontinuierlichen Werte bezüglich eines Orts einer Person) an. Der zweite Term in der Gleichung (2) ist eine Quadratsumme eines Fehlers in der Regression und kann zum Beispiel durch die folgende Gleichung (2) definiert werden.
worin r_n ¹ einen wahren Wert der Mittenposition xc einer Person in dem n-ten positiven Muster angibt, r_n ² ein wahrer Wert der oberen Endposition ytop der Person in dem n-ten positiven Muster ist, und r_n ³ ein wahrer Wert der unteren Endposition ybtm der Person in dem n-ten positiven Muster ist.
Ferner ist f_re ¹(x_n; W) eine Ausgabe der Regression der Mittenposition der Person in dem n-ten positiven Muster, ist f_re ²(x_n; W) eine Ausgabe der Regression der oberen Endposition der Person in dem n-ten positiven Muster, und ist f_re ³(x_n; W) eine Ausgabe der Regression der unteren Endposition der Person in dem n-ten positiven Beispiel.
Um den Wert der Kostenfunktion E(W) zu reduzieren, wird der gewichtete Wert so optimiert, dass sich die Sigmoidfunktion f_re ^j(x_n; W) dem Wert des wahren Werts r_n ^j(j = 1, 2 und 3) annähert.
In einem stärker bevorzugten Beispiel ist es möglich, den zweiten Term in der Gleichung (2) durch die folgende Gleichung (3') zu definieren, um das Gleichgewicht zwischen der Mittenposition, der oberen Endposition und der unteren Endposition der Person einzustellen, und das Gleichgewicht zwischen der Klassifikation und der Regression.
In der Gleichung (3') wird der linke Term (f_re ^j(x_n; W) – r_n ^j)² mit dem Koeffizienten α_j multipliziert. Das heißt, die Gleichung (3') hat Koeffizienten α₁, α₂ und α₃ bezüglich der Mittenposition, der oberen Endposition und der unteren Endposition der Person.
Das heißt, wenn α₁ = α₂ = α₃ = 1, wird die Gleichung (3') gleich der Gleichung (3).
Die Koeffizienten α_j(j = 1, 2 und 3) sind vorbestimmte konstante Werte. Eine geeignete Bestimmung der Koeffizienten α_j erlaubt es der Erfassungseinrichtung 2, zu verhindern, dass jedes von j) 1, 2 und 3 in dem zweiten Term der Gleichung (3') (welche jeweils der Mittenposition, der oberen Endposition und der unteren Endposition entsprechen), dominiert (oder nicht dominiert) wird.
Im Allgemeinen hat eine Person eine Höhe, welche größer ist als eine Breite. Demgemäß weist die geschätzte Mittenposition einer Person einen geringen Fehler auf. Andererseits weisen im Vergleich mit dem Fehler der Höhe die geschätzte obere Endposition der Person und die geschätzte untere Endposition der Person einen großen Fehler auf. Demgemäß werden dann, wenn die Gleichung (3) verwendet wird, die gewichteten Werte W optimiert, um bevorzugt einen Fehler der oberen Endposition und einen Fehler der unteren Endposition der Person zu verringern. Infolge dessen erschwert es dies, die Regressionsgenauigkeit der Mittenposition der Person mit zunehmendem Lernen zu verringern.
Um dieses Problem zu vermeiden, ist es möglich, den Koeffizienten α₁ eher als die Koeffizienten α₂ und α₃ durch Verwenden der Gleichung (3') zu erhöhen. Das Verwenden der Gleichung (3') ermöglicht es, das korrekte Regressionsergebnis der Mittenposition, der oberen Endposition und der unteren Endposition der Person auszugeben.
Auf ähnliche Weise ist es unter Verwendung der Koeffizienten α_j möglich, zu verhindern, dass eine der Klassifikation und der Regression dominiert wird. Wenn zum Beispiel unter Verwendung der Gleichung (3') das Ergebnis der Klassifikation eine hohe Genauigkeit aufweist, aber das Ergebnis der Regression eine geringe Genauigkeit aufweist, ist es ausreichend, jeden der Koeffizienten α₁, α₂, α₃ um eins zu erhöhen.
In einem in 3 gezeigten Schritt S3 aktualisiert der Parameterberechnungsabschnitt 5 den gewichteten Wert W für die Kostenfunktion (W). Genauer aktualisiert der Parameterberechnungsabschnitt 5 den gewichteten Wert W auf der Grundlage des Fehlerbackpropagationverfahrens unter Verwendung der folgenden Gleichung (4).
Der Betriebsablauf schreitet zu einem Schritt S4 fort. In Schritt S4 beurteilt der Parameterberechnungsabschnitt 5, ob die Kostenfunktion (W) konvergiert hat oder nicht.
Wenn das Beurteilungsergebnis in Schritt S4 eine Negation bzw. Verneinung (”NEIN” in Schritt S4) anzeigt, d. h. nicht konvergiert wurde, kehrt der Betriebsablauf zu Schritt S3 zurück. In Schritt S3 aktualisiert der Parameteraktualisierungsabschnitt 5 den gewichteten Wert W erneut. Der Prozess in Schritt S3 und Schritt S4 wird wiederholt durchgeführt, bis die Kostenfunktion E(W) konvergiert wird, d. h. das Beurteilungsergebnis in Schritt S4 eine Affirmation bzw. Bejahung (”JA” in Schritt S4) anzeigt. Der Parameterberechnungsabschnitt 5 führt den vorstehend beschriebenen Prozess wiederholt durch, um die gewichteten Werte W für die gesamten Schichten in dem neuronalen Netzwerk zu berechnen.
Das CNN ist eines von nach dem Prinzip der Forwardpropagation arbeitenden neuronalen Netzwerken. Ein Signal in einer Schicht ist eine Gewichtsfunktion zwischen einem Signal in einer vorangehenden Schicht und einem Gewicht zwischen Schichten. Es ist möglich, diese Funktion zu differenzieren. Dies ermöglicht es, das Gewicht W unter Verwendung des Fehlerbackpropagationsverfahrens zu optimieren, wie bei einem üblichen neuronalen Netzwerk.
Wie vorstehend beschrieben wurde, ist es möglich, die optimierte Kostenfunktion E(W) innerhalb des Maschinenlernens zu erhalten. In anderen Worten ist es möglich, die gewichteten Werte auf der Grundlage des Lernens verschiedener Arten von positiven Mustern und negativen Mustern zu berechnen. Wie vorstehend beschrieben wurde, enthält das positive Muster einen Teil des Körpers einer Person. Demgemäß kann der Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 das Vorhandensein einer Person und den Ort der Person ohne Durchführen des Lernprozesses eines oder mehrerer Teilmodelle auch dann mit hoher Genauigkeit erfassen, wenn ein Teil der Person durch ein anderes Fahrzeug oder ein Verkehrszeichen in dem Eingangsbild verdeckt wird. Das heißt, die Erfassungseinrichtung 2 kann den unteren Endteil der Person auch dann korrekt erfassen, wenn ein bestimmter Teil der Person verborgen ist, zum Beispiel der untere Endteil der Person verborgen ist oder außerhalb des Bilds vorhanden ist. Ferner ist es für die Erfassungseinrichtung 2 möglich, aufgrund des Verwendens vieler positiver Muster und negativer Muster mit unterschiedlichen Größen das Vorhandensein einer Person in den Bildern auch dann korrekt zu erfassen, wenn die Größe der Person in den Bildern variiert.
Die Anzahl der durch die vorstehend beschriebene Erfassungseinrichtung 2 berechneten gewichteten Werte hängt nicht von der Anzahl der positiven Muster und negativen Muster ab. Demgemäß wird die Anzahl der gewichteten Werte W auch dann nicht erhöht, wenn die Anzahl der positiven Muster und der negativen Muster erhöht wird. Es ist daher für die Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel möglich, ihre Erfassungsgenauigkeit durch Verwenden vieler positiver Muster und negativer Muster zu erhöhen, ohne die Speichergröße der Speicherabschnitts 21 und die Speicherzugriffszeitdauer zu erhöhen.
Nachstehend wird der in 2 gezeigte Neuronalnetzwerkverarbeitungsabschnitt 22 im Einzelnen beschrieben.
Der Neuronalnetzwerkverarbeitungsabschnitt 22 führt einen Neuronalnetzwerkprozess von jedem der Rahmen durch, welche in dem Eingangsbild festgelegt worden sind, und gibt das Klassifikationsergebnis bezüglich dessen, ob eine Person in dem Eingangsbild vorhanden ist oder nicht, aus, und gibt ferner das Regressionsergebnis bezüglich der oberen Endposition, der unteren Endposition und der Mittenposition der Person aus, wenn die Person in dem Eingangsbild vorhanden ist.
(Nebenbei bemerkt ist ein CNN-Prozess durch ein Nichtpatendokument 2, Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, und L. D. Jackel, "Handwritten Digit Recognition with a Back-Propagation Network", Advances in Neural Information Processing Systems (NIPS), Seiten 396–404, 1990, offenbart.)
6A bis 6D sind Ansichten, die den durch den Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel durchgeführten Prozess zeigen.
Wie in 6A gezeigt, erzeugt der Neuronalnetzwerkverarbeitungsabschnitt 22 den Rahmen 6a an der oberen linken Ecke in dem Eingangsbild, oder richtet diesen dort ein. Der Rahmen 6a hat eine Größe, welche gleich der Größe des Bilds kleiner Größe der positiven Muster und der negativen Muster ist. Der Neuronalnetzwerkverarbeitungsabschnitt 22 führt den Prozess des Rahmens 6a durch.
Wie in 6B gezeigt ist, erzeugt der Neuronalnetzwerkverarbeitungsabschnitt 22 den Rahmen 6b an dem Ort, welcher geringfügig gegenüber dem Ort des Segments 6a verschoben ist, oder richtet diesen dort ein, so dass ein Teil des Rahmens 6a mit dem Segment 6a überlappt. Der Rahmen 6b hat dieselbe Größe wie der Rahmen 6a. Der Neuronalnetzwerkverarbeitungsabschnitt 22 führt den Prozess des Rahmens 6b durch.
Als Nächstes führt der Neuronalnetzwerkverarbeitungsabschnitt 22 den Prozess durch, während die Position des Rahmens in Richtung nach rechts verschoben wird. Wenn er den Prozess des Rahmens 6c, der an der oberen rechten Ecke wie in 6c gezeigt erzeugt oder eingerichtet wurde, beendet, erzeugt der Neuronalnetzwerkverarbeitungsabschnitt 22 den Rahmen 6d an der in 6D gezeigten linken Seite, oder richtet diesen dort ein, so dass der Rahmen 6d geringfügig tiefer als der Rahmen 6a angeordnet ist und ein Teil des Rahmens 6d mit dem Rahmen 6a überlappt.
Während die Rahmen von links nach rechts und von oben nach unten in dem Eingangsbild verschoben werden, setzt der Neuronalnetzwerkverarbeitungsabschnitt 22 den Prozess fort. Diese Rahmen werden auch als die ”gleitenden Fenster” bezeichnet.
Die in dem Speicherabschnitt 21 gespeicherten gewichteten Werte W wurden auf der Grundlage einer Vielzahl der positiven Muster und der negativen Muster mit unterschiedlichen Größen berechnet. Es ist demgemäß für den Neuronalnetzwerkverarbeitungsabschnitt 22 möglich, die Rahmen als die gleitenden Fenster mit einer festen Größe in dem Eingangsbild zu verwenden. Es ist darüber hinaus für den Neuronalnetzwerkverarbeitungsabschnitt 22 möglich, eine Vielzahl von Pyramidenbildern w zu verarbeiten, die durch Ändern der Größe des Eingangsbilds erhalten wurden. Ferner ist es für den Neuronalnetzwerkverarbeitungsabschnitt 22 möglich, eine kleinere Anzahl von Eingangsbildern mit hoher Genauigkeit zu verarbeiten. Es ist für den Neuronalnetzwerkverarbeitungsabschnitt 22 möglich, die Verarbeitung des Eingangsbilds mit einem geringen Verarbeitungsausmaß schnell durchzuführen.
7 ist eine Ansicht, die eine Struktur des faltenden Neuronalnetzwerks (CNN) zeigt, das durch den Neuronalnetzwerkverarbeitungsabschnitt 22 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel verwendet wird.
Das CNN hat ein oder mehrere Paare eines Konvolutions- bzw. Faltungsabschnitts 221 und eines Pooling- bzw. Zusammenlegungsabschnitts 222, und eine mehrschichtige Neuronalnetzwerkstruktur 223.
Der Konvolutionsabschnitt 221 führt einen Faltungs- bzw. Konvolutionsprozess durch, in welchem ein Filter 221a auf jedes der gleitenden Fenster angewandt wird. Der Filter 221a ist ein gewichteter Wert, der aus Elementen (n Pixel) × (n Pixel) besteht, worin n eine positive Ganzzahl ist, zum Beispiel n = 5. Es ist für jeden gewichteten Wert annehmbar, einen Bias aufzuweisen. Wie vorstehend beschrieben wurde, hat der Parameterberechnungsabschnitt 5 die gewichteten Werte berechnet und die berechneten gewichteten Werte in den Speicherabschnitt 21 gespeichert.
Nichtlineare Tabellen von gefalteten Werten werden unter Verwendung einer Aktivierungsfunktion wie beispielsweise der Sigmoidfunktion berechnet. Die Signale der berechneten nichtlinearen Tabellen werden als Bildsignale in einer zweidimensionalen Anordnung bzw. einem zweidimensionalen Feld verwendet.
Der Zusammenlegungsabschnitt 222 führt den Pooling- bzw. Zusammenlegungsprozess durch, um eine Auflösung der von dem Konvolutionsabschnitt 221 übertragenen Bildsignale zu verringern.
Nachstehend wird nun ein konkretes Beispiel des Zusammenlegungsprozesses beschrieben. Der Zusammenlegungsabschnitt 222 teilt das zweidimensionale Feld in 2 × 2-Gitter auf und führt eine Zusammenlegung eines maximalen Werts (eine Max-Zusammenlegung) der 2 × 2-Gitter durch, um einen Maximalwert in vier Signalwerten jedes Gitters zu extrahieren. Dieser Zusammenlegungsprozess reduziert die Größe des zweidimensionalen Felds auf ein Viertel. Folglich ermöglicht es der Zusammenlegungsprozess, Information zu komprimieren, ohne irgendwelche Merkmale der Positionsinformation in einem Bild zu entfernen. Der Zusammenlegungsprozess erzeugt die zweidimensionale Tabelle. Eine Kombination der erhaltenen Karten bildet eine verborgene Schicht (oder eine Zwischenschicht) in dem CNN.
Nachstehend werden andere konkrete Beispiele des Zusammenlegungsprozesses beschrieben. Es ist für den Zusammenlegungsabschnitt 222 möglich, den Max-Zusammenlegungsprozess des Extrahierens eines Elements (zum Beispiel ein Element (1, 1) an der oberen linken Seite) aus den 2 × 2-Gittern durchzuführen. Es ist darüber hinaus für den Zusammenlegungsabschnitt 222 annehmbar, ein Maximumelement aus den 2 × 2-Gittern zu extrahieren. Ferner ist es für den Zusammenlegungsabschnitt 222 möglich, den Max-Zusammenlegungsprozess durchzuführen, während die Gitter zusammen überlappen. Diese Beispiele können das gefaltete zweidimensionale Feld reduzieren.
Ein üblicher Fall verwendet eine Vielzahl von Paaren des Konvolutionsabschnitts 221 und des Zusammenlegungsabschnitts 222. Das in 7 gezeigte Beispiel hat zwei Paare des Konvolutionsabschnitts 221 und des Zusammenlegungsabschnitts 222. Es ist möglich, ein Paar oder nicht weniger als drei Paare des Konvolutionsabschnitts 221 und des Zusammenlegungsabschnitts 222 vorzusehen.
Nachdem der Konvolutionsabschnitt 221 und der Zusammenlegungsabschnitt 222 adäquat die gleitenden Fenster komprimieren, führt die mehrschichtige Neuronalnetzwerkstruktur 223 einen üblichen Neuronalnetzwerkprozess (ohne Konvolution bzw. Faltung) durch.
Die mehrschichtige Neuronalnetzwerkstruktur 223 weist die Eingangsschichten 223a, eine oder mehrere verborgene Schichten 223b und die Ausgangs- bzw. Ausgabeschicht 223c auf. Die Eingangsschichten 223a übernehmen Eingangssignale, die durch den Konvolutionsabschnitt 221 und den Zusammenlegungsabschnitt 222 komprimiert und übertragen wurden. Die verborgenen Schichten 223b führen einen Produkt-Summe-Prozess der zugeführten Bildsignale unter Verwendung der gewichteten Werte W durch, die in dem Speicherabschnitt 21 gespeichert sind. Die Ausgabeschicht 223c gibt das Endergebnis des Neuronalnetzwerkprozesses durch.
8 ist eine Ansicht, die eine schematische Struktur der Ausgabeschicht 223c in der in 7 gezeigten mehrschichtigen Neuronalnetzwerkstruktur 223 zeigt. Wie in 8 gezeigt ist, weist die Ausgabeschicht 223c einen Schwellenwertprozessabschnitt 21, eine Klassifikationseinheit 32 und Regressionseinheiten 33a bis 33c auf.
Der Schwellenwertprozessabschnitt 31 übernimmt Werte bezüglich der von den verborgenen Schichten 223b übertragenen Klassifikationsergebnisse. Jeder der Werte ist innerhalb nicht kleiner als 0 und nicht mehr als 1. Je mehr sich der Wert 0 annähert, desto mehr wird eine Wahrscheinlichkeit, dass eine Person in dem Eingangsbild vorhanden ist, gering. Andererseits wird eine Wahrscheinlichkeit, dass eine Person in dem Eingangsbild vorhanden ist, umso höher, je mehr sich der Wert 1 annähert. Der Schwellenwertprozessabschnitt 31 vergleicht den Wert mit einem vorbestimmten Schwellenwert und sendet einen Wert von 0 oder 1 in die Klassifikationseinheit 32. Wie später beschrieben werden wird, ist es für den Integrationsabschnitt 23 möglich, den an den Schwellenwertprozessabschnitt 31 übertragenen Wert zu verwenden.
Die verborgenen Schichten 223b stellen, als die Regressionsergebnisse, die obere Endposition, die untere Endposition und die Mittenposition der Person in bzw. für die Regressionseinheiten 33a bis 33c bereit. Es ist darüber hinaus möglich, optionale Werte als jede Position in bzw. für die Regressionseinheiten 33a bis 33c bereitzustellen.
Der vorstehend beschriebene Neuronalnetzwerkverarbeitungsabschnitt 22 gibt Information bezüglich dessen, ob eine Person vorhanden ist oder nicht, der oberen Endposition, der unteren Endposition und der Mittenposition der Person pro jedem der gleitenden Fenster aus. Die Information wird als echte bzw. reale Erfassungsergebnisse bezeichnet werden.
9 ist eine Ansicht, die ein Beispiel von realen Erfassungsergebnissen zeigt, die durch die Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel erfasst wurden.
9 zeigt einen schematischen Ort der oberen Endposition, der unteren Endposition und der Mittenposition einer Person in dem Bild unter Verwendung von Zeichen I. Der schematische Ort der in 9 gezeigten Person zeigt korrekte Erfassungsergebnisse und inkorrekte Erfassungsergebnisse. Zum leichteren Verständnis zeigt 9 mehrere Erfassungsergebnisse nur zum leichteren Verständnis. Ein konkretes Muster verwendet eine Vielzahl von gleitenden Fenstern, um das Vorhandensein einer Person in dem Eingangsbild zu klassifizieren.
Nachstehend wird eine detaillierte Erklärung des in 2 gezeigten Integrationsabschnitts 23 gegeben.
In einer ersten Stufe führt der Integrationsabschnitt 23 eine Gruppierung der Erfassungsergebnisse der gleitenden Fenster durch, wenn das Vorhandensein einer Person klassifiziert (oder erkannt) wird. Die Gruppierung versammelt die gleichen Erfassungsergebnisse der gleitenden Fenster in einer gleichen Gruppe.
In einer zweiten Stufe integriert der Integrationsabschnitt 23 die realen Erfassungsergebnisse in der gleichen Gruppe wie die Regressionsergebnisse der Position der Person.
Die zweite Stufe macht es möglich, die obere Endposition, die untere Endposition und die Mittenposition der Person auch dann zu spezifizieren, wenn mehrere Personen in dem Eingangsbild vorhanden sind. Die Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel kann die untere Endposition der Person auf der Grundlage des Eingangsbilds direkt spezifizieren.
Nachstehend wird der Gruppierungsprozess in der ersten Stufe unter Bezugnahme auf 10 beschrieben.
10 ist ein Ablaufdiagramm, das den Gruppierungsprozess zeigt, der durch den Integrationsabschnitt 23 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel der Erfindung durchgeführt wird.
In einem Schritt S11 bildet der Integrationsabschnitt 23 einen rechteckigen Rahmen für jedes der realen Erfassungsergebnisse. Im Einzelnen ermittelt der Integrationsabschnitt 23 eine obere Endposition, eine untere Endposition und eine Mittenposition in einer horizontalen Richtung jedes rechteckigen Rahmens des realen Erfassungsergebnisses so, dass der rechteckige Rahmen an die obere Endposition, die untere Endposition und die Mittenposition der Person als das reale Erfassungsergebnis gepasst wird. Ferner ermittelt der Integrationsabschnitt 23 eine Breite des rechteckigen Rahmens so, dass dieser ein vorbestimmtes Seitenverhältnis (zum Beispiel Breite:Höhe = 0,4:1) aufweist. In anderen Worten ermittelt der Integrationsabschnitt 23 die Breite des rechteckigen Rahmens auf der Grundlage einer Differenz zwischen der oberen Endposition und der unteren Endposition der Person. Der Betriebsablauf schreitet zu einem Schritt S12 fort.
In Schritt S12 addiert der Integrationsabschnitt 23 ein Kennzeichen von 0 zu jedem rechteckigen Rahmen und initialisiert einen Parameter k, d. h. weist dem Parameter k null zu. Nachstehend wird der Rahmen, welchem das Kennzeichen k zugewiesen ist, als der ”Rahmen des Kennzeichens k” bezeichnet. Der Betriebsablauf schreitet zu einem Schritt S13 fort.
In Schritt S13 weist der Integrationsabschnitt 23 ein Kennzeichen k + 1 einem Rahmen mit einer maximalen Bewertung in den Rahmen des Kennzeichens 0 zu. Die hohe Bewertungszahl gibt eine hohe Erfassungsgenauigkeit an. Zum Beispiel ist die Bewertung des rechteckigen Rahmens umso höher, je mehr sich der Wert vor dem Prozess des Schwellenwertprozessabschnitts 31, der in 8 gezeigt ist, dem Wert von 1 annähert. Der Betriebsablauf schreitet zu einem Schritt S14 fort.
In Schritt S14 weist der Integrationsabschnitt 23 das Kennzeichen k + 1 dem Rahmen zu, welcher mit dem Rahmen überlappt.
Um zu beurteilen, ob der Rahmen mit dem Rahmen des Kennzeichens k + 1 überlappt oder nicht, ist es für den Integrationsabschnitt 23 möglich, eine Schwellenwertbeurteilung eines Verhältnisses zwischen einem Bereich eines Produkts der Rahmen und einem Bereich einer Summe der Rahmen durchzuführen. Der Betriebsablauf schreitet zu einem Schritt S15 fort.
In Schritt S15 inkrementiert der Integrationsabschnitt 23 den Parameter k um eins. Der Betriebsablauf schreitet zu einem Schritt S16 fort.
In Schritt S16 erfasst der Integrationsabschnitt 23, ob es einen verbleibenden Rahmen des Kennzeichens 0 gibt oder nicht.
Wenn das Erfassungsergebnis in Schritt S16 eine Negation bzw. Verneinung (”NEIN” in Schritt S16) anzeigt, vervollständigt der Integrationsabschnitt 23 die Reihe der Prozesse in dem in 10 gezeigten Ablaufdiagramm.
Andererseits kehrt dann, wenn das Erfassungsergebnis in Schritt S16 eine Affirmation bzw. Bejahung (”JA” in Schritt S16) anzeigt, der Integrationsabschnitt 23 zu dem Prozess in Schritt S13 zurück. Der Integrationsabschnitt 23 führt die Reihe der vorstehend beschriebenen Prozesse wiederholt durch, bis der letzte Rahmen des Kennzeichens 0 verarbeitet worden ist. Die vorstehend beschriebenen Prozesse ermöglichen es, die realen Erfassungsergebnisse in k Gruppen zu klassifizieren. Dies bedeutet, dass es k Personen in dem Eingangsbild gibt.
Es ist für den Integrationsabschnitt 23 darüber hinaus möglich, einen Mittelwert der oberen Endposition, einen Mittelwert der unteren Endposition und einen Mittelwert der Mittenposition der Person in jeder Gruppe zu berechnen und diese zu integrieren.
Es ist ferner annehmbar, einen Mittelwert eines Mittelwerts einer abgeschnittenen oberen Endposition, einen Mittelwert einer abgeschnittenen unteren Endposition und einen Mittelwert einer abgeschnittenen Mittenposition der Person in jeder Gruppe zu berechnen und diese zu integrieren. Das heißt, es ist für den Integrationsabschnitt 23 möglich, ein vorbestimmtes Verhältnis jeder der oberen Endposition, der unteren Endposition und der Mittenposition der Person in jeder Gruppe zu entfernen und einen Mittelwert der verbliebenen Positionen zu erhalten.
Außerdem ferner ist es für den Integrationsabschnitt 23 möglich, einen Mittelwert einer Position der Person mit einer hohen Schätzgenauigkeit zu berechnen.
Es ist für den Integrationsabschnitt 23 möglich, eine Schätzgenauigkeit auf der Grundlage von Validierungsdaten zu berechnen. Die Validierungsdaten weisen überwachte bzw. beaufsichtigte Daten auf und sind nicht zum Lernen bestimmt. Das Durchführen der Erfassung und der Regression der Validierungsdaten erlaubt ein Schätzen der Schätzgenauigkeit.
11 ist eine Ansicht, die eine Schätzgenauigkeit der unteren Endposition einer Person erklärt. Die horizontale Achse gibt einen geschätzten Wert der unteren Endposition der Person an, und die vertikale Achse gibt einen absoluten Wert eines Fehlers (welcher eine Differenz zwischen einem wahren Wert und einem geschätzten Wert ist) an. Wie in 11 gezeigt ist, wird dann, wenn ein geschätzter Wert der unteren Endposition der Person relativ zunimmt, der absolute Wert des Fehlers erhöht. Der Grund, weshalb der Absolutwert des Fehlers zunimmt, ist wie folgt. Wenn die untere Endposition einer Person klein ist, weil das untere Ende der Person in einem gleitenden Fenster enthalten ist und die untere Endposition der Person auf der Grundlage des gleitenden Fensters geschätzt wird, das das untere Ende der Person enthält, nimmt die Erfassungsgenauigkeit der unteren Endposition bzw. der Position des unteren Endes zu. Andererseits nimmt dann, wenn die untere Endposition einer Person groß ist, weil das untere Ende der Person nicht in einem gleitenden Fenster enthalten ist und die untere Endposition der Person auf der Grundlage des gleitenden Fensters abgeschätzt wird, welches das untere Ende der Person nicht enthält, die Erfassungsgenauigkeit der unteren Endposition ab.
Es ist für den Integrationsabschnitt 23 möglich, eine Beziehung zwischen geschätzten Werten der unteren Endposition und Fehlern zu speichern, wie in 11 gezeigt, und einen Mittelwert mit einem gewichteten Wert auf der Grundlage des Fehlers entsprechend der unteren Endposition, geschätzt unter Verwendung jedes gleitenden Fensters, zu berechnen.
Zum Beispiel ist es annehmbar, als den gewichteten Wert eine inverse Zahl des Absolutwerts des Fehlers oder einen Kehrwert eines mittleren quadratischen Fehlers zu verwenden, oder einen binären Wert zu verwenden, der dem entspricht, ob der geschätzte Wert der unteren Endposition einen vorbestimmten Schwellenwert überschreitet oder nicht.
Es ist ferner möglich, einen gewichteten Wert einer relativen Position einer Person in einem gleitenden Fenster zu verwenden, welcher anzeigt, ob das gleitende Fenster die obere Endposition oder die Mittenposition der Person enthält oder nicht.
Als eine Modifikation der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel ist es für den Integrationsabschnitt 23 möglich, einen Mittelwert mit einem gewichteten Wert, des in 8 gezeigten Eingangswert zu berechnen, welcher durch den Prozess des Neuronalnetzwerkverarbeitungsabschnitts 22 verwendet wird. Je mehr dieser Mittelwert mit einem gewichteten Wert des Eingangswerts sich dem Wert von 1 annähert, desto höher wird die Möglichkeit bzw. Wahrscheinlichkeit, dass die Person in dem Eingangsbild vorhanden ist, und desto höher wird die geschätzte Genauigkeit der Position der Person.
Wie vorstehend im Einzelnen beschrieben wurde, ist es dann, wenn das Eingangsbild eine Person enthält, möglich, die obere Endposition, die untere Endposition und die Mittenposition der Person in dem Eingangsbild zu spezifizieren bzw. zu bestimmen. Die Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel erfasst das Vorhandensein einer Person in einer Vielzahl von gleitenden Fenstern und integriert die realen Erfassungsergebnisse in diesen gleitenden Fenstern. Dies ermöglicht es, geschätzte Erfassungsergebnisse der Person in dem Eingangsbild statisch und stabil zu erhalten.
Nachstehend wird eine Beschreibung des in 2 gezeigten Berechnungsabschnitts 24 im Einzelnen gegeben. Der Berechnungsabschnitt 24 berechnet einen Abstand bzw. eine Entfernung zwischen dem Fahrzeugaufbau 4 des eigenen Fahrzeugs und der Person (oder einem Fußgänger) auf der Grundlage der unteren Endposition der Person, die durch den Integrationsabschnitt 23 erhalten wurde.
12 ist eine Ansicht, die einen Prozess zeigt, der durch den Berechnungsabschnitt 24 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel durchgeführt wird. Wenn die folgenden Bedingungen erfüllt sind:
Die fahrzeuginterne Kamera 1 ist auf einer bekannten Höhe C (zum Beispiel C = 130 cm Höhe) in dem eigenen Fahrzeug angeordnet;
Die fahrzeuginterne Kamera hat einen Fokusabstand f;
In einem Bildkoordinatensystem ist der Ursprung die Mittenposition des Bilds, gibt die x-Achse eine horizontale Richtung an, und gibt die y-Achse eine vertikale Richtung (positiv/nach unten) an; und
Ein Bezugszeichen ”pb” gibt die untere Endposition einer durch den Integrationsabschnitt 23 erhaltenen Person an.
In den vorstehend beschriebenen Bedingungen berechnet der Berechnungsabschnitt 24 die Entfernung D zwischen der fahrzeuginternen Kamera 1 und der Person auf der Grundlage einer Beziehung ähnlicher Dreiecke unter Verwendung der folgenden Gleichung (5). D = hf/pb (5).
Der Berechnungsabschnitt 24 wandelt bedarfsweise die Entfernung D zwischen der fahrzeuginternen Kamera 1 und der Person in eine Entfernung D' zwischen dem Fahrzeugaufbau 4 und der Person um.
Es ist für den Berechnungsabschnitt 24 annehmbar, die Höhe der Person auf der Grundlage der oberen Endposition pt (oder einer obersten Position) der Person zu berechnen. Wie in 12 gezeigt ist, berechnet der Berechnungsabschnitt 24 die Höhe H der Person auf der Grundlage einer Beziehung ähnlicher Dreiecke unter Verwendung der folgenden Gleichung (6). H = |pt|D/f + C (6).
Es ist möglich, zu beurteilen, ob die erfasste Person ein Kind oder ein Erwachsener ist.
Nachstehend wird der in 2 gezeigte Bilderzeugungsabschnitt 25 beschrieben.
13 ist eine Ansicht, die schematische Bilddaten zeigt, die durch den Bilderzeugungsabschnitt 25 in der Erfassungseinrichtung 2 gemäß dem ersten beispielhaften Ausführungsbeispiel erzeugt wurden.
Wenn die Erfassungseinrichtung 2 das Vorhandensein einer Person (zum Beispiel eines Fußgängers) in dem durch die fahrzeuginterne Kamera 1 erhaltenen Bild klassifiziert oder erkennt, erzeugt der Bilderzeugungsabschnitt 25 Bilddaten, die eine Markierung 41 entsprechend zu der Person enthalten, um die Markierung 41 auf der Anzeigeeinrichtung 3 anzuzeigen. Die horizontale Koordinate x der Markierung 41 in den Bilddaten beruht auf der Grundlage der horizontalen Position der Person, die durch den Integrationsabschnitt 23 erhalten wurde. Darüber hinaus beruht die vertikale Koordinate der Markierung 41 auf der Grundlage der Entfernung D zwischen der fahrzeuginternen Kamera 1 und der Person (oder der Entfernung D' zwischen dem Fahrzeugaufbau 4 und der Person).
Demgemäß ist es für den Fahrer des eigenen Fahrzeugs möglich, auf der Grundlage des Vorhandenseins der Markierung 41 in den Bilddaten korrekt zu klassifizieren (oder erkennen), ob eine Person (wie beispielsweise ein Fußgänger) vor dem eigenen Fahrzeug vorhanden ist. Ferner ist es für den Fahrer des eigenen Fahrzeugs möglich, auf der Grundlage der horizontalen Koordinate x und der vertikalen Koordinate y der Markierung 41 korrekt zu klassifizieren oder zu erkennen, wo in der Umgebung die Person ist.
Es ist für die fahrzeuginterne Kamera 1 annehmbar, kontinuierlich die Frontszene vor dem eigenen Fahrzeug zu erhalten, um die Bewegungsrichtung der Person korrekt zu klassifizieren (oder zu erkennen). Es ist demgemäß möglich, dass die Bilddaten die Pfeile 42 enthalten, welche die Bewegungsrichtung der in 13 gezeigten Person angeben.
Außerdem ferner ist es annehmbar, unterschiedliche Markierungen zu verwenden, welche auf der Grundlage der durch den Berechnungsabschnitt 24 berechneten Höhe H der Person einen Erwachsenen oder ein Kind angeben.
Der Bilderzeugungsabschnitt 25 gibt die vorstehend beschriebenen Bilddaten an die Anzeigeeinrichtung 3 aus, und die Anzeigeeinrichtung 3 zeigt das in 13 gezeigte Bild darauf an.
Wie vorstehend im Einzelnen beschrieben wurde, führen die Erfassungseinrichtung 2 und das Verfahren gemäß dem ersten beispielhaften Ausführungsbeispiel den Neuronalnetzwerkprozess unter Verwendung einer Vielzahl von positiven Mustern und negativen Mustern, welche einen Teil oder die Gesamtheit einer Person (oder eines Fußgängers) enthalten, durch, und erfassen, ob eine Person in dem Eingangsbild vorhanden ist oder nicht und ermitteln einen Ort der Person (zum Beispiel die obere Endposition bzw. Position des oberen Endes, die untere Endposition bzw. Position des unteren Endes und der Mittenposition bzw. Position der Mitte der Person), wenn das Eingangsbild die Person enthält. Es ist daher für die Erfassungseinrichtung 2 möglich, die Person auch dann mit hoher Genauigkeit korrekt zu erfassen, wenn ein Teil der Person verborgen ist, ohne ein oder mehrere Teilmodelle im Voraus zu erzeugen.
Es ist darüber hinaus möglich, ein Programm zu verwenden, das durch eine zentrale Verarbeitungseinheit (CPU) auszuführen ist, welches den Funktionen der Erfassungseinrichtung 2 und dem Verfahren gemäß dem vorstehend beschriebenen ersten beispielhaften Ausführungsbeispiel entspricht.
Zweites beispielhaftes Ausführungsbeispiel
Nachstehend wird die Erfassungseinrichtung 2 gemäß einem zweiten beispielhaften Ausführungsbeispiel unter Bezugnahme auf 14, 15A und 15B beschrieben. Die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel hat dieselbe Struktur wie die Erfassungseinrichtung 2 gemäß dem vorstehend beschriebenen ersten beispielhaften Ausführungsbeispiel.
Die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel korrigiert die Entfernung D zwischen der fahrzeuginternen Kamera 1 (vgl. 1) und einer Person (Fußgänger) auf der Grundlage der Erfassungsergebnisse unter Verwendung einer Vielzahl von Rahmen (Rahmenbildern bzw. Teilbildern), die in den von der fahrzeuginternen Kamera 1 übertragenen Eingangsbildern enthalten sind bzw. aus diesen erhalten wurden.
Der Neuronalnetzwerkverarbeitungsabschnitt 22 und der Integrationsabschnitt 23 in der in 2 gezeigten Erfassungseinrichtung 2 spezifizieren die Mittenposition pc der Person, die obere Endposition pt der Person, und die untere Endposition pb der Person in dem von der fahrzeuginternen Kamera 1 übertragenen Eingangsbild. Wie es sich aus der Gleichung (5) und 12 versteht, ist es ausreichend, die untere Endposition pb der Person zu verwenden, um die Entfernung D zwischen dem Fahrzeugaufbau 4 des eigenen Fahrzeugs (oder der an dem eigenen Fahrzeug verbauten fahrzeuginternen Kamera 1) und der Person zu berechnen. Die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel verwendet jedoch zusätzlich zu der unteren Endposition pb der Person die obere Endposition pt der Person, um die Schätzgenauigkeit der Entfernung D (oder die Entfernungsschätzgenauigkeit) zu verbessern.
Der Berechnungsabschnitt 24 in der Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel berechnet eine Entfernung Dt und eine Höhe Ht der Person auf der Grundlage der Mittenposition pc, der oberen Endposition pt und der unteren Endposition pb der Person in dem durch den Neuronalnetzwerkprozess und den Integrationsprozess des Rahmens bei einem Zeitpunkt t spezifizierten Eingangsbild.
Ferner berechnet der Berechnungsabschnitt 24 die Entfernung Dt + 1 und die Höhe Ht + 1 der Person auf der Grundlage der Mittenposition pc, der oberen Endposition pt und der unteren Endposition pb der Person in dem aus dem Rahmen zu einem Zeitpunkt t + 1 spezifizierten Eingangsbild. Im allgemeinen ist, weil die Höhe der Person ein konstanter Wert ist, d. h. nicht variabel bzw. veränderlich ist, die Höhe Ht näherungsweise gleich der Höhe Ht + 1. Demgemäß ist es möglich, die Entfernung Dt und die Entfernung Dt + 1 auf der Grundlage der Höhe Ht und der Höhe Ht + 1 zu korrigieren. Dies ermöglicht es der Erfassungseinrichtung 2, die Erfassungsgenauigkeit der Entfernung Dt und der Entfernung Dt + 1 zu erhöhen.
Nachstehend wird der Korrekturprozess zum Korrigieren der Entfernung D unter Verwendung eines erweiterten Kalman-Filters (EKF) beschrieben. In der folgenden Erklärung ist eine Fahrbahn, auf welcher das eigene Fahrzeug fährt, eine flache Straße.
14 ist eine Ansicht, die ein Zustandsraummodell erklärt, das von der Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel zu verwenden ist.
Wie in 14 gezeigt ist, ist die optische Achse der fahrzeuginternen Kamera 1 die Z-Achse, gibt die Y-Achse eine Richtung vertikal nach unten an, und ist die X-Achse lotrecht zu der Z-Achse und der Y-Achse. Das heißt, die X-Achse ist eine Richtung, die durch ein horizontal ausgerichtetes, rechtsdrehendes Koordinatensystem bestimmt wird.
Die Zustandsvariable xt wird durch die folgende Gleichung (7) bestimmt.
worin Zt eine Z-Komponente (Z-Position) der Position der Person angibt, welche der in 12 gezeigten Entfernung D zwischen der Person und der an dem Fahrzeugaufbau 4 des eigenen Fahrzeugs verbauten fahrzeuginternen Kamera 1 entspricht. Der Index ”t” in der Gleichung (7) gibt einen Wert zu einem Zeitpunkt t an. Andere Variablen haben den Index ”t”. Zum Beispiel gibt Xt eine X-Komponente (X-Position) der Position der Person an. Zt' gibt eine Z-Komponente (Z-Richtungsgeschwindigkeit) einer Gehgeschwindigkeit der Person und eine zeitliche Ableitung einer Z-Position Zt der Person an. Xt' gibt eine X-Komponente (X-Richtungsgeschwindigkeit) einer Gehgeschwindigkeit der Person und eine zeitliche Ableitung einer X-Position Xt der Person an. Hi gibt die Höhe der Person an.
Eine Gleichung, welche die Zeitexpansion der Zustandsvariablen xt repräsentiert, ist als ein Systemmodell bekannt. Zum Beispiel zeigt das Systemmodell eine Zeitinvarianz einer Höhe der Person auf der Grundlage eines uniformen linearen Bewegungsmodells der Person. Das heißt, die Zeitexpansionen der Variablen Zt, Xt, Zt' und Xt' sind durch eine uniforme lineare Bewegung gegeben, welche eine Z-Komponente Zt'' (Z-Richtungsbeschleunigung) und eine X-Komponente Xt'' (X-Richtungsbeschleunigung) einer Beschleunigung verwendet, unter Verwendung von Systemrauschen gegeben. Andererseits ändert sich die Höhe der Person mit der Zeit nicht, weil die Höhe der Person in den aufgenommenen Bildern auch dann nicht mit der Zeit vergrößert oder verkleinert wird, wenn die Person geht. Weil es jedoch einen möglichen Fall gibt, in welchem sich die Höhe der Person geringfügig ändert, wenn die Person ihre Knie beugt, ist es annehmbar, ein Systemrauschen ht bezüglich Rauschen der Höhe der Person zu verwenden.
Wie vorstehend beschrieben wurde, ist es zum Beispiel möglich, das Systemmodell unter Verwendung der folgenden Gleichungen (8) bis (13) auszudrücken. Die von der fahrzeuginternen Kamera 1 aufgenommenen Bilder werden sequenziell oder aufeinanderfolgend zu jedem Zeitintervall 1 (das heißt nach jeweils einem Rahmen) verarbeitet.
Wie durch die Gleichungen (12) und (13) gezeigt ist, wird angenommen, dass das Systemrauschen wt aus einer Gauß'schen Verteilung unter Verwendung eines Mittelwerts von null erhalten wird. Das Systemrauschen wt ist in der X-Richtung und in der Y-Richtung isotrop. Jede der Z-Komponente Zt'' (Beschleunigung in Z-Richtung) und der X-Komponente Xt'' (Beschleunigung in X-Richtung) weist eine Verteilung ρ₀ ² auf.
Andererseits hat die Höhe Ht der Person üblicherweise einen konstanten Wert. Manchmal variiert die Höhe Ht der Person geringfügig, d. h. hat eine kleine Zeitvariation, wenn die Person zum Beispiel ihre Knie beugt. Demgemäß ist die Verteilung σ_H ² der Höhe Ht der Person adäquat kleiner als die Verteilung σ_Q ², oder ist in der Gleichung (13) null.
Die erste Zeile in der Gleichung (7), d. h. die Gleichung (8), kann durch die folgende Gleichung (8a) ausgedrückt werden. Zt + 1 = Zt + Zt' + Zt''/2 (8a).
Die Gleichung (8a) zeigt eine Zeitexpansion der Variation der Z-Position der Person in einer üblichen uniformen linearen Bewegung. Das heißt, die Z-Position Zt + 1 (die linke Seite in der Gleichung (8a)) der Person zu einem Zeitpunkt t + 1 wird geändert ausgehend von der Z-Position Zt (der erste Term auf der rechten Seite in der Gleichung (8a)) der Person zu einem Zeitpunkt t um bzw. durch den Bewegungsbetrag Zt''/2 (der dritte Term auf der rechten Seite in der Gleichung (8a)), erhalten durch den Bewegungsbetrag Zt' der Geschwindigkeit (der zweite Term auf der rechten Seite in der Gleichung (8a)), und den Bewegungsbetrag Zt''/2 (der dritte Term auf der rechten Seite in der Gleichung (8a)), erhalten durch die Beschleunigung (Systemrauschen). Die zweite Zeile in der Gleichung (7) als die Gleichung (8) kann durch denselben Prozess wie vorstehend beschrieben ausgedrückt werden.
Die dritte Zeile in der Gleichung (7) als die Gleichung (8) kann durch die folgende Gleichung (8b) ausgedrückt werden. Zt + 1' = Zt' + Zt'' (8b).
Die Gleichung (8b) zeigt die Geschwindigkeitszeitexpansion der Z-Richtungsgeschwindigkeit bzw. Geschwindigkeit in Z-Richtung in der üblichen uniformen linearen Bewegung. Das heißt, die Z-Richtungsgeschwindigkeit Zt + 1' (die linke Seite in der Gleichung (8b)) zu einem Zeitpunkt t + 1 wird geändert ausgehend von der Z-Richtungsgeschwindigkeit Zt' (der erste Term auf der rechten Seite in der Gleichung (8b)) zu einem Zeitpunkt t um bzw. durch die Z-Richtungsbeschleunigung bzw. Beschleunigung in Z-Richtung Zt'' (Systemrauschen). Die vierte Zeile in der Gleichung (7), d. h. die Gleichung (8), kann durch denselben vorstehend beschriebenen Prozess ausgedrückt werden.
Die fünfte Zeile in der Gleichung (7), d. h. die Gleichung (8), kann durch die folgende Gleichung (8c) ausgedrückt werden. Ht + 1 = Ht + ht (8c).
Die Gleichung (8c) zeigt die Variation der Höhe Ht + 1 der Person zu dem Zeitpunkt t1 + 1, welche ausgehend von der Höhe Ht der Person zu dem Zeitpunkt t1 um bzw. durch die Amplitude des Systemrauschens ht geändert wird. Wie vorstehend beschrieben wurde, hat die Verteilung σ_H ² in der Gleichung (13) einen kleinen Wert, und hat das Systemrauschen ht in der Gleichung (8c) einen kleinen Wert, weil die Zeitvariation der Höhe Ht der Person einen kleinen Wert hat.
Nachstehend wird ein Überwachungs- bzw. Beobachtungsmodell in einer Bildebene beschrieben. In der Bildebene ist eine X-Achse eine Rechtsrichtung bzw. Richtung nach rechts, und ist eine Y-Achse eine Richtung vertikal nach unten.
Überwachungs- bzw. Beobachtungsvariablen können durch die folgende Gleichung (14) ausgedrückt werden.
Die Variable ”cenXt” in der Gleichung (14) gibt eine X-Komponente (die zentrale Position bzw. Mittenposition) einer zentralen Position bzw. Mittenposition der Person in dem Bild an, welche der zentralen Position bzw. Mittenposition pc (vgl. 12) der Person entspricht. Die Variable ”toeYt” in der Gleichung (14) gibt eine Y-Komponente (die obere Endposition) der unteren Endposition der Person in dem Bild an, welche der oberen Endposition pt (vgl. 12) entspricht. Die Variable ”topYt” in der Gleichung (14) gibt eine Y-Komponente (die obere Endposition) der unteren Endposition der Person in dem Bild an, welche der oberen Endposition pt (vgl. 12) der Person entspricht.
Das Beobachtungsmodell entspricht der Gleichung, welche eine Beziehung zwischen der Zustandsvariablen xt und der Beobachtungsvariablen yt ausdrückt. Wie in 12 gezeigt ist, entspricht ein perspektivisches Projektionsbild unter Verwendung des Fokusabstands f der fahrzeuginternen Kamera 1 und der Z-Position Zt (welches der in 12 gezeigten Entfernung D entspricht) der Beziehung zwischen der Zustandsvariablen xt und der Beobachtungsvariablen yt.
Ein konkretes Beobachtungsmodell, das Beobachtungsrauschen vt enthält, kann durch die folgende Gleichung (15) ausgedrückt werden.
Es wird angenommen, dass das Beobachtungsrauschen vt in dem Beobachtungsmodell durch eine Gauß'sche Verteilung mit einem Mittelwert von null ausgedrückt werden kann, wie in der Gleichung (17) und der Gleichung (18) gezeigt ist.
Die erste Zeile und die zweite Zeile in der Gleichung (14) als die Gleichung (15) können durch die folgenden Gleichungen (15a) bzw. (15b) ausgedrückt werden. cenXt = fxt/Zt + N(0, σ_x(t)²) (15a), und cenYt = fC/Zt + N(0, σ_y(t)²) (15a).
Aus 12 versteht sich zum Erfüllen der in den Gleichungen (14), (15a) und (15b) das Herausnehmen des zweiten Terms als das Systemrauschen N(0, σ_x(t)²) und N(0, σ_y(t)²) in der rechten Seite der Gleichungen (15a) und (15b). Wie vorstehend beschrieben wurde, ist die Mittenposition cenXt der Person eine Funktion der Z-Position Zt und der X-Position Xt der Person, und ist die untere Endposition toeYt der Person eine Funktion der Z-Position Zt.
Die dritte Zeile in der Gleichung (14), d. h. die Gleichung (15), kann durch die folgende Gleichung (15c) ausgedrückt werden. topYt = f(C – Ht)/Zt + N(0, σ_y(t)²) (15c).
Es ist wichtig, dass die obere Endposition topYt eine Funktion der Höhe Ht der Person zusätzlich zu der Z-Position Zt ist. Dies bedeutet, dass es eine Beziehung zwischen der oberen Endposition topYt und der Z-Position Zt (d. h. der Entfernung D zwischen dem Fahrzeugaufbau 4 des eigenen Fahrzeugs und der Person) über die Höhe Ht der Person gibt. Dies lässt vermuten, dass die Schätzgenauigkeit der oberen Endposition topYt die Schätzgenauigkeit der Entfernung D beeinflusst bzw. beeinträchtigt.
Die Daten bezüglich der Mittenposition cenXt, der oberen Endposition topYt und der unteren Endposition toeYt als den Ergebnissen der Verarbeitung eines Rahmens zu einem Zeitpunkt t, übertragen von dem Integrationsabschnitt 23, werden in die linke Seite der Gleichung (15), d. h. der Gleichung (14), eingesetzt. In diesem Fall können dann, wenn das gesamte Beobachtungsrauschen auf null gesetzt ist, die Z-Position Zt, die X-Position Xt und die Höhe Ht der Person pro einem Rahmen erhalten werden.
Als Nächstes werden die Daten bezüglich der Mittenposition cenXt + 1, der oberen Endposition topYt + 1 und der unteren Endposition toeYt + 1 als die Ergebnisse der Verarbeitung eines Rahmens zu einem Zeitpunkt t + 1, übertragen von dem Integrationsabschnitt 23, in die linke Seite der Gleichung (15) als der Gleichung (14) eingesetzt. In diesem Fall können dann, wenn das gesamte Beobachtungsrauschen auf null gesetzt ist, die Z-Position Tt + 1, die X-Position Xt + 1 und die Höhe Ht + 1 der Person pro einem Rahmen erhalten werden.
Weil jedes der Daten Zt, Xt und Ht zu dem Zeitpunkt t und der Daten Zt + 1, Xt + 1 und Ht + 1 zu dem Zeitpunkt t + 1 nur pro einem Rahmenbild erhalten wird, ist die Genauigkeit der Daten nicht immer hoch, und gibt es einen möglichen Fall, welcher das durch die Gleichung (8) gezeigte Systemmodell nicht erfüllt bzw. diesem nicht genügt.
Um die Schätzgenauigkeit zu erhöhen, schätzt der Berechnungsabschnitt 24 die Daten Zt, Xt, Zt', Xt' und Ht auf der Grundlage der vorangehend erhaltenen Beobachtungswerte ab, um das Zustandsraummodell zu erfüllen, das aus dem Systemmodell (der Gleichung (8)) und dem Beobachtungsmodell (der Gleichung (15)) besteht, unter Verwendung des bekannten erweiterten Kalman-Filters (EKF), während berücksichtigt wird, dass die Höhe Ht, Ht + 1 der Person ein konstanter Wert ist, d. h. sich nicht mit der Zeit ändert. Die erhaltenen geschätzten Werte Zt, Xt und Ht jedes Zustands sind nicht im Allgemeinen gleich dem geschätzten Wert, der durch ein Rahmenbild erhalten wird. Die geschätzten Werte in dem früheren Fall sind optimale Werte, die durch Berücksichtigen des Bewegungsmodells der Person und der Höhe der Person berechnet wurden. Dies erhöht die Genauigkeit der Z-Richtungsposition Zt der Person. Andererseits werden die geschätzten Werte im letzteren Fall ohne Berücksichtigung irgendeines Bewegungsmodells der Person und der Höhe der Person berechnet.
Ein experimenteller Test wurde durchgeführt, um die Korrektureffekte durch die Erfassungseinrichtung 2 gemäß der Erfindung zu erkennen. In dem experimentellen Test nahm eine feste Kamera ein Videobild auf, während ein Fußgänger ging. Ferner wurde eine tatsächliche Entfernung zwischen der festen Kamera und dem Fußgänger gemessen.
Die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel berechnet (A1) die Entfernung D1, (A2) die Entfernung D2, und (A3) die Entfernung D3 auf der Grundlage des aufgenommenen Videobilds.

(A1) Die Entfernung D1, abgeschätzt pro Rahmen in dem aufgenommenen Videobild auf der Grundlage der unteren Endposition pb, die von dem Integrationsabschnitt 23 ausgegeben wurde;
(A2) Die Entfernung D2 nach der Korrektur, erhalten durch Lösen des Zustandsraummodells unter Verwendung des erweiterten Kalman-Filters (EKF), nachdem die Höhe Ht aus der Zustandsvariablen in der Gleichung (7) entfernt ist, und die durch die Gleichung (15c) ausgedrückte dritte Zeile aus dem durch die Gleichung (15), d. h. der Gleichung (14), ausgedrückten Beobachtungsmodell entfernt ist; und
(A3) Die Entfernung D3 nach der Korrektur, erhalten durch die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel.

15A ist eine Ansicht, die die experimentellen Ergebnisse der durch die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel durchgeführten Entfernungsschätzung zeigt. 15B ist eine Ansicht, die die experimentellen Ergebnisse der Genauigkeit der durch die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel durchgeführten Entfernungsschätzung zeigt.
Wie in 15A gezeigt ist, hat bzw. zeigt die Entfernung D1 ohne Korrektur eine große Variation bzw. Schwankung. Andererseits haben bzw. zeigen die Entfernung D3 und die Entfernung D3 im Vergleich zu der der Entfernung D1 eine geringe Variation bzw. Schwankung. Darüber hinaus hat bzw. zeigt, wie in 15B gezeigt ist, die Entfernung D3 einen minimalen Fehlerindex RMSE (mittlerer quadratischer Fehler bzw. mittleren statistischen Gesamtfehler; Root Mean Squared Error) gegenüber einem wahren Wert, welcher ausgehend von dem Fehlerindex der Entfernung D1 um näherungsweise 16,7% und ausgehend von dem Fehlerindex der Entfernung D2 um näherungsweise 5,1% verbessert ist.
Wie vorstehend im Einzelnen beschrieben wurde, spezifizieren der Neuronalnetzwerkverarbeitungsabschnitt 22 und der Integrationsabschnitt 23 in der Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel die obere Endposition topYt zusätzlich zu der unteren Endposition toeYt der Person. Der Berechnungsabschnitt 24 justiert, d. h. korrigiert, die Z-Richtungsposition Zt (die Entfernung D zwischen der Person und dem Fahrzeugaufbau 4 des eigenen Fahrzeugs) auf der Grundlage der Ergebnisse, die unter Verwendung der Rahmenbilder und auf der Grundlage der Annahme, in welcher sich die Höhe Ht der Person nicht ändert, d. h. näherungsweise einen konstanten Wert hat, spezifiziert wurde. Es ist demgemäß für die Erfassungseinrichtung 2 möglich, die Entfernung D auch dann mit hoher Genauigkeit abzuschätzen, wenn die fahrzeuginterne Kamera 1 eine fahrzeuginterne mono-okulare Kamera ist.
Das zweite beispielhafte Ausführungsbeispiel zeigt ein konkretes Beispiel, welches die Höhe Ht der Person auf der Grundlage der oberen Endposition topYt berechnet. Das Konzept der Erfindung wird dadurch jedoch nicht beschränkt. Es ist für die Erfassungseinrichtung 2 möglich, die Position eines anderen bestimmten Teils der Person zu verwenden und die Höhe Ht der Person auf der Grundlage der Position des bestimmten Teils der Person zu berechnen. Zum Beispiel ist es für die Erfassungseinrichtung 2 möglich, die Position der Augen der Person zu spezifizieren und die Höhe Ht der Person unter Verwendung der Position der Augen der Person zu berechnen, während angenommen wird, dass die Entfernung zwischen den Augen und der unteren Endposition der Person ein konstanter Wert ist.
Obwohl das erste beispielhafte Ausführungsbeispiel und das zweite beispielhafte Ausführungsbeispiel eine Annahme verwenden, in welcher die Straße eine flache Straßenoberfläche ist, ist es möglich, das Konzept der Erfindung auf einen Fall anzuwenden, in welchem die Straße eine unebene Straßenoberfläche aufweist. Wenn die Straße eine unebene Straßenoberfläche aufweist, ist es für die Erfassungseinrichtung 2 ausreichend, detaillierte Kartendaten bezüglich einer Höhe einer Straßenoberfläche und eine Bestimmungs- bzw. Spezifizierungseinrichtung wie beispielsweise einen GPS(Global Positioning System)-Empfänger zum Bestimmen bzw. Spezifizieren eines Orts des eigenen Fahrzeugs zu kombinieren, und einen Schnitt- oder Kreuzungspunkt zwischen der unteren Endposition der Person und der Straßenoberfläche zu bestimmen bzw. spezifizieren.
Die Erfassungseinrichtung 2 gemäß dem zweiten beispielhaften Ausführungsbeispiel löst das Systemmodell und das Beobachtungsmodell bzw. Observationsmodell unter Verwendung des erweiterten Kalman-Filters (EKF). Das Konzept der Erfindung wird dadurch jedoch nicht beschränkt. Es ist für die Erfassungseinrichtung 2 möglich, die Position eines anderen bestimmten Teils der Person zu verwenden und die Höhe Ht der Person auf der Grundlage der Position des bestimmten Teils der Person zu berechnen. Zum Beispiel ist es für die Erfassungseinrichtung 2 möglich, ein anderes Verfahren zum Lösen des Zustandsraummodells unter Verwendung von zeitseriellen Observationswerten zu verwenden.
Während bestimmte Ausführungsbeispiele der Erfindung im Einzelnen beschrieben wurden, versteht sich für den Fachmann, dass verschiedene Modifikationen und Alternativen zu diesen Einzelheiten im Lichte der insgesamten Lehren der Beschreibung entwickelt werden könnten. Demgemäß sind die offenbarten speziellen Anordnungen lediglich als veranschaulichend und als den Schutzbereich der Erfindung nicht beschränkend zu verstehen, welcher sich in seiner vollen Breite aus den nachfolgenden Ansprüchen und allen Äquivalenten derselben ergibt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

X. Wang, T. X. Han, S. Van, ”An-HOG-LBP Detector with partial Occlusion Handling”, IEEE 12th International Conference an Computer Vision (ICV), 2009 [0003]
Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, und L. D. Jackel, ”Handwritten Digit Recognition with a Back-Propagation Network”, Advances in Neural Information Processing Systems (NIPS), Seiten 396–404, 1990 [0107]

Claims

Erfassungseinrichtung (2), beinhaltend einen Neuronalnetzwerkverarbeitungsabschnitt (22), der in der Lage ist, einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durchzuführen, um ein Klassifikationsergebnis und ein Regressionsergebnis von jedem von einer Vielzahl von Rahmen in einem Eingangsbild zu berechnen und auszugeben, wobei das Klassifikationsergebnis ein Vorhandensein einer Person in dem Eingangsbild repräsentiert und das Regressionsergebnis eine Position der Person in dem Eingangsbild repräsentiert, wobei die Parameter auf der Grundlage eines Lernprozesses unter Verwendung einer Vielzahl von positiven Mustern und negativen Mustern ermittelt werden, jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil einer Person und einen wahren Wert der Position der Person in dem Musterbild enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst.
Erfassungseinrichtung (2) nach Anspruch 1, ferner beinhaltend einen Integrationsabschnitt (23), der in der Lage ist, die Regressionsabschnitte der Position der Person in den Rahmen, welche als das Vorhandensein der Person anzeigend klassifiziert worden sind, zu integrieren und die Position der Person in dem Eingangsbild zu spezifizieren.
Erfassungseinrichtung (2) nach Anspruch 1 oder 2, bei der die Anzahl der Parameter nicht von der Anzahl der positiven Muster oder der Anzahl negativer Muster abhängt.
Erfassungseinrichtung (2) nach einem der Ansprüche 1, 2 und 3, bei der die Position der Person eine untere Endposition der Person enthält.
Erfassungseinrichtung (2) nach Anspruch 4, ferner beinhaltend einen Berechnungsabschnitt (24), der in der Lage ist, eine Entfernung (D) zwischen einem Fahrzeugaufbau (4) eines eigenen Fahrzeugs und der Person auf der Grundlage der unteren Endposition der Person zu berechnen, und bei der das Eingangsbild durch eine fahrzeuginterne Kamera (1) erhalten wird, die in dem Fahrzeugaufbau (4) des eigenen Fahrzeugs verbaut ist.
Erfassungseinrichtung (2) nach Anspruch 5, bei der die Position der Person einen bestimmten Teil der Person enthält, und der Berechnungsabschnitt (24) die Entfernung (D) zwischen der Person und dem Fahrzeugaufbau (4) des eigenen Fahrzeugs unter Verwendung der Position der Person zu einem Zeitpunkt t und der Position der Person zu dem Zeitpunkt t + 1 korrigiert, während angenommen wird, dass eine Höhe, die ausgehend von der unteren Endposition der Person zu einer Position eines bestimmten Teils der Person gemessen wird, einen konstanten Wert hat, wobei die Position der Person zu dem Zeitpunkt t durch Verarbeiten des Eingangsbilds, das zu dem Zeitpunkt t von der fahrzeuginternen Kamera (1) aufgenommen und übertragen wird, erhalten wird, und die Position der Person zu dem Zeitpunkt t + 1 durch Verarbeiten des Eingangsbilds, das zu dem Zeitpunkt t + 1 von der fahrzeuginternen Kamera (1) aufgenommen und übertragen wird, erhalten wird.
Erfassungseinrichtung (2) nach Anspruch 6, bei der der Berechnungsabschnitt (24) die Entfernung zwischen der Person und dem Fahrzeugaufbau (4) des eigenen Fahrzeugs durch Lösen eines Zustandsraummodells unter Verwendung von Zeitreihenbeobachtungswerten korrigiert, wobei das Zustandsraummodell eine Gleichung, welche ein Systemmodell beschreibt, und eine Gleichung, welche ein Beobachtungsmodell beschreibt, umfasst, das Systemmodell eine Zeitexpansion der Entfernung (D) zwischen der Person und dem Fahrzeugaufbau (4) des eigenen Fahrzeugs zeigt und eine Annahme verwendet, in welcher die von der unteren Endposition der Person zu dem bestimmten Teil der Person gemessene Höhe einen konstanten Wert hat, und das Beobachtungsmodell eine Beziehung zwischen der Position der Person und der Entfernung zwischen der Person und dem Fahrzeugaufbau (4) des eigenen Fahrzeugs zeigt.
Erfassungseinrichtung (2) nach einem der Ansprüche 6 oder 7, bei der der Berechnungsabschnitt (24) die Entfernung zwischen der Person und dem Fahrzeugaufbau (4) des eigenen Fahrzeugs unter Verwendung einer oberen Endposition der Person als den bestimmten Teil und der Annahme, in welcher die Höhe der Person einen konstanten Wert hat, korrigiert.
Erfassungseinrichtung (2) nach einem der Ansprüche 1 bis 8, bei der die Position der Person eine zentrale Position der Person in einer horizontalen Richtung enthält.
Erfassungseinrichtung (2) nach einem der Ansprüche 1 bis 9, bei der der Integrationsabschnitt (23) eine Gruppierung der Rahmen, in welchen die Person vorhanden ist, durchführt und Regressionsergebnisse der Person in jedem der gruppierten Rahmen integriert.
Erfassungseinrichtung (2) nach einem der Ansprüche 1 bis 10, bei der der Integrationsabschnitt (23) die Regressionsergebnisse der Position der Person auf der Grundlage der Regressionsergebnisse mit einer höheren Regressionsgenauigkeit in den Regressionsergebnissen der Position der Person integriert.
Erfassungseinrichtung (2) nach einem der Ansprüche 1 bis 11, bei der die Parameter so bestimmt werden, dass eine Kostenfunktion mit einem ersten Term und einem zweiten Term konvergiert, wobei der erste Term von einer Klassifizierung bezüglich dessen, ob die Person in dem Eingangsbild vorhanden ist oder nicht, verwendet wird, und der zweite Term von einer Regression der Position der Person verwendet wird.
Erfassungseinrichtung (2) nach Anspruch 12, bei der die Position der Person Positionen einer Vielzahl von Teilen der Person beinhaltet, und der zweite Term Koeffizienten jeweils entsprechend den Positionen der Teile der Person aufweist.
Erfassungsprogramm, das in der Lage ist, einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durchzuführen, ausgeführt durch einen Computer, wobei der Neuronalnetzwerkprozess in der Lage ist, ein Klassifikationsergebnis und ein Regressionsergebnis von jedem von einer Vielzahl von Rahmen in einem Eingangsbild zu erhalten und auszugeben, das Klassifikationsergebnis ein Vorhandensein einer Person in dem Eingangsbild repräsentiert, und das Regressionsergebnis eine Position der Person in dem Eingangsbild repräsentiert, und die Parameter auf der Grundlage eines Lernprozesses auf der Grundlage einer Vielzahl von positiven Mustern, wobei jedes der positiven Muster einen Satz eines Segments in einem Musterbild, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in dem Musterbild enthält, umfasst, und einer Vielzahl von negativen Mustern, wobei jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst, ermittelt werden.
Erfassungsverfahren, beinhaltend die Schritte des: Berechnens von Parametern zur Verwendung in einem Neuronalnetzwerkprozess durch Durchführen eines Lernprozesses auf der Grundlage einer Vielzahl von positiven Mustern und negativen Mustern, wobei jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst; Durchführen des Neuronalnetzwerkprozesses unter Verwendung der Parameter; und Ausgeben von Klassifikationsergebnissen einer Vielzahl von Rahmen in einem Eingangsbild, wobei ein Klassifikationsergebnis ein Vorhandensein einer Person in dem Eingangsbild repräsentiert, und ein Regressionsergebnis eine Position der Person in dem Eingangsbild.
Fahrzeug, beinhaltend: einen Fahrzeugaufbau (4); eine fahrzeuginterne Kamera (1), die in dem Fahrzeugaufbau verbaut ist und in der Lage ist, ein Bild einer Szene vor dem Fahrzeugaufbau zu generieren; ein Neuronalnetzwerkverarbeitungsabschnitt (22), der in der Lage ist, das Bild als ein von der fahrzeuginternen Kamera übertragenes Eingangsbild zu übernehmen, einen Neuronalnetzwerkprozess unter Verwendung vorbestimmter Parameter durchzuführen, und Klassifikationsergebnisse und Regressionsergebnisse von jedem von einer Vielzahl von Rahmen in dem Eingangsbild auszugeben, wobei die Klassifikationsergebnisse ein Vorhandensein einer Person in dem Eingangsbild repräsentieren, und die Regressionsergebnisse eine untere Endposition der Person in dem Eingangsbild repräsentieren; einen Integrationsabschnitt (23), der in der Lage ist, die Regressionsergebnisse der Position der Person in den Rahmen, in welchen die Person vorhanden ist, zu integrieren, und eine untere Endposition in dem Eingangsbild zu spezifizieren; einen Berechnungsabschnitt (24), der in der Lage ist, eine Entfernung zwischen der Person und dem Fahrzeugaufbau auf der Grundlage der spezifizierten unteren Endposition der Person zu berechnen; und eine Anzeigeeinrichtung (3), die in der Lage ist, ein Bild anzuzeigen, das die Entfernung zwischen der Person und dem Fahrzeugaufbau enthält, wobei die vorbestimmten Parameter ermittelt werden durch Lernen auf der Grundlage einer Vielzahl von positiven Mustern und negativen Mustern, wobei jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst.
Parameterberechnungseinrichtung (5), die in der Lage ist, ein Lernen einer Vielzahl von positiven Mustern und negativen Mustern durchzuführen, um Parameter zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds zu berechnen, wobei jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst.
Parameterberechnungsprogramm, das von einem Computer auszuführen ist, zum Durchführen einer Funktion einer Parameterberechnungseinrichtung, die in der Lage ist, ein Lernen einer Vielzahl von positiven Mustern und negativen Mustern durchzuführen, um Parameter zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds zu berechnen, wobei jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst.
Verfahren zum Berechnen von Parametern zur Verwendung in einem Neuronalnetzwerkprozess eines Eingangsbilds durch Durchführen eines Lernens einer Vielzahl von positiven und negativen Mustern, wobei jedes der positiven Muster einen Satz eines Segments eines Musterbilds, das zumindest einen Teil der Person und einen wahren Wert der Position der Person in den Musterbildern enthält, umfasst, und jedes der negativen Muster ein Segment des Musterbilds, das keine Person enthält, umfasst.