DE102020110157A1

DE102020110157A1 - Bilderkennungsvorrichtung

Info

Publication number: DE102020110157A1
Application number: DE102020110157.0A
Authority: DE
Inventors: Shin Koike
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-06-14
Filing date: 2020-04-14
Publication date: 2020-12-17
Also published as: JP7176478B2; US20200394515A1; JP2020204804A; US11507833B2; CN112084833A

Abstract

Eine Bilderkennungsvorrichtung (1) umfasst eine Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Einzelbildern (50) und eine priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2), die sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts (B1; B2), das unter den Einzelbildern (50) gemeinsam identifiziert wird.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf eine Bilderkennungsvorrichtung zur Erkennung eines Zielobjekts aus Zeitreiheneinzelbildern.
Beschreibung der verwandten Technik
Eine Vorrichtung zur Erkennung von Objekten um ein Fahrzeug beruhend auf Bildern, die durch Fotografieren einer Umgebung mit einer fahrzeugseitigen Kamera erhalten werden, und Fahrunterstützung beruhend auf Erkennungsinformationen ist bekannt. Beispielsweise schlägt die japanische ungeprüfte Patentanmeldungsoffenlegung Nr. 2017-162438 ( JP 2017-162438 A ) eine Gefahrenvorhersageeinrichtung vor, die derart eingerichtet ist, dass ein neuronales Netzwerk ein durch eine fahrzeugseitige Kamera aufgenommenes eingegebenes Bild beschafft und einen gefährlichen Bereich in dem eingegebenen Bild und Merkmale in dem gefährlichen Bereich schätzt.
You Only Look Once (YOLO) und Single Shot Multibox Detector (SSD) sind beispielsweise als Verfahren zur Erfassung der Position eines Objekts in einem eingegebenen Bild und zum Identifizieren des Objekts (Identifizieren, was das Objekt ist) über eine Bildverarbeitung bekannt.
KURZZUSAMMENFASSUNG DER ERFINDUNG
Wird ein Objekt in einem eingegebenen Bild aus dem Bild erkannt, und sind die Positionserfassungsgenauigkeit und die Identifikationsgenauigkeit für das erkannte Objekt (das nachstehend als Zielobjekt bezeichnet wird) gering, besteht die Möglichkeit, dass ein Steuersystem, das unter Verwendung eines Bilderkennungsergebnisses zu implementieren ist, nicht geeignet betrieben werden kann. Daher soll die Zielobjekterkennungsgenauigkeit verbessert werden.
Die vorliegende Erfindung stellt ein Verfahren zur Verbesserung der Zielobjekterkennungsgenauigkeit bereit.
Eine erste Ausgestaltung der vorliegenden Erfindung bezieht sich auf eine Bilderkennungsvorrichtung. Die Bilderkennungsvorrichtung ist zum Extrahieren eines Zielobjekts in Zeitreiheneinzelbildern über eine Bildverarbeitung für die Einzelbilder und Ausgeben von sich auf das extrahierte Zielobjekt beziehenden Zielobjektinformationen eingerichtet. Die Einzelbilder werden durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten. Die Bilderkennungsvorrichtung umfasst eine Zielobjekterkennungseinrichtung und eine priorisierte Extraktionseinrichtung. Die Zielobjekterkennungseinrichtung ist zur Durchführung einer Positionserfassung und Identifikation für das Zielobjekt in jedem der Einzelbilder eingerichtet. Die priorisierte Extraktionseinrichtung ist zum Extrahieren eines ersten Zielobjekts mit einem Umgebungsänderungsmerkmal mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts, das unter den Zeitreiheneinzelbildern gemeinsam identifiziert wird.
Die Bilderkennungsvorrichtung der ersten Ausgestaltung ist zum Extrahieren eines Zielobjekts in Zeitreiheneinzelbildern über eine Bildverarbeitung für die Einzelbilder und Ausgeben von sich auf das extrahierte Zielobjekt beziehenden Zielobjektinformationen eingerichtet. Die Einzelbilder werden durch Fotografieren einer Umgebung von einem sich bewegenden Objekt, wie einem Fahrzeug aus, erhalten. Die Extraktion des Zielobjekts bedeutet, dass das in den Einzelbildern erkannte Zielobjekt ausgewählt wird, um seine Zielobjektinformationen auszugeben. Das extrahierte Zielobjekt ist somit ein durch die Bilderkennungsvorrichtung erkanntes Zielobjekt, und sich auf das Zielobjekt beziehende Zielobjektinformationen werden aus der Bilderkennungsvorrichtung ausgegeben.
Die Bilderkennungsvorrichtung der ersten Ausgestaltung umfasst die Zielobjekterkennungseinrichtung und die priorisierte Extraktionseinrichtung. Die Zielobjekterkennungseinrichtung ist zur Durchführung einer Positionserfassung und Identifikation (Identifikation, was das Zielobjekt ist) für das Zielobjekt in jedem der Einzelbilder eingerichtet.
Wenn die Zielobjekterkennungseinrichtung das Zielobjekt in jedem der Einzelbilder erkennt (die Positionserfassung und die Identifikation angemessen sind), weist die Positionsänderung des Zielobjekts, das unter den Einzelbildern gemeinsam identifiziert wird, ein Merkmal auf, das sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Wenn das Zielobjekt nicht richtig erkannt werden kann, weist die Positionsänderung des Zielobjekts, das unter den Einzelbildern gemeinsam identifiziert wird, das Merkmal nicht auf, das sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird.
Die priorisierte Extraktionseinrichtung ist daher zum Extrahieren des ersten Zielobjekts mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt eingerichtet, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts, das unter den Zeitreiheneinzelbildern gemeinsam identifiziert wird. Die Bilderkennungsvorrichtung ist zum Einstellen des extrahierten Zielobjekts als durch die Bilderkennungsvorrichtung erkanntes Zielobjekt und zur Ausgabe von sich auf das Zielobjekt beziehenden Zielobjektinformationen eingerichtet.
Gemäß der ersten Ausgestaltung kann die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung verbessert werden.
Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal einer Größenänderung des Zielobjekts zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts enthalten.
Das Umgebungsänderungsmerkmal zeigt sich auch in der Größenänderung des Zielobjekts. Daher umfasst das Umgebungsänderungsmerkmal bei der ersten Ausgestaltung vorliegender Erfindung das Merkmal der Größenänderung des Zielobjekts zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden.
Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass eine Positionsänderung zwischen den Einzelbildern kleiner oder gleich einem vorbestimmten Betrag für ein Zielobjekt ist, das an einer Position nahe einem Fluchtpunkt eines Bewegungsvektors erkannt wird.
Der Fluchtpunkt des Bewegungsvektors ist ein Punkt, wo Geraden einer Vielzahl von Bewegungsvektoren einander schneiden. Das an der Position nahe dem Fluchtpunkt des Bewegungsvektors erkannte Zielobjekt hat daher eine geringe Positionsänderung zwischen den Einzelbildern. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal das vorstehend beschriebene Merkmal enthält.
Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass das gemeinsam identifizierte Zielobjekt sich entlang einer Geraden bewegt. Das Umgebungsänderungsmerkmal kann ein Merkmal enthalten, dass das unter den Einzelbildern gemeinsam identifizierte Zielobjekt sich entlang einer Geraden bewegt, die das Zielobjekt in einem beliebigen Einzelbild und einen Fluchtpunkt eines Bewegungsvektors verbindet.
Wenn das Zielobjekt in jedem der Einzelbilder korrekt erkannt wird (die Positionserfassung und die Identifikation angemessen sind), bewegt sich das unter den Einzelbildern gemeinsam identifizierte Zielobjekt entlang einer Geraden, die durch den Fluchtpunkt des Bewegungsvektors läuft. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal die vorstehend beschriebenen Merkmale enthält.
Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass eine Änderung in einem Bewegungsintervall des gemeinsam identifizierten Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist. Das Umgebungsänderungsmerkmal kann ferner ein Merkmal enthalten, dass eine Größenänderung des gemeinsam identifizierten Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist.
Wenn das Zielobjekt in jedem der Einzelbilder korrekt erkannt wird (die Positionserfassung und die Identifikation angemessen sind), bewegt sich das unter den Einzelbildern gemeinsam identifizierte Zielobjekt entlang einer Geraden. Zu diesem Zeitpunkt hat die Änderung in dem Bewegungsintervall des Zielobjekts die vorbestimmte Gesetzmäßigkeit. Ferner hat die Größenänderung des Zielobjekts die vorbestimmte Gesetzmäßigkeit. Beispiele der Gesetzmäßigkeit umfassen eine Gesetzmäßigkeit, dass die Änderungsrate des Bewegungsintervalls des Zielobjekts konstant ist, und eine Gesetzmäßigkeit, dass die Größenänderungsrate des Zielobjekts konstant ist. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal die vorstehend beschriebenen Merkmale enthält.
Bei der ersten Ausgestaltung vorliegender Erfindung kann die priorisierte Extraktionseinrichtung ein neuronales Netzwerk enthalten, das zur Erkennung des Zielobjekts unter Verwendung von Informationen über die Zeitreiheneinzelbilder eingerichtet ist. Das neuronale Netzwerk kann zum Lernen über Deep Learning derart konfiguriert sein, dass das erste Zielobjekt mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
Beispielsweise kann ein rückgekoppeltes neuronales Netzwerk als das neuronale Netzwerk zur Verarbeitung der Vielzahl von Einzelbilder in Zeitreihen verwendet werden.
Gemäß der vorstehend beschriebenen Konfiguration kann das neuronale Netzwerk die Zielobjekterkennung unter Verwendung der Vielzahl von Zeitreiheneinzelbildern lernen. Das neuronale Netzwerk kann beispielsweise eine Bewegung des ersten Zielobjekts mit dem Umgebungsänderungsmerkmal über Deep Learning unter Verwendung der Zeitreiheneinzelbilder lernen. Das erste Zielobjekt mit dem Umgebungsänderungsmerkmal kann daher mit Priorität gegenüber dem zweiten Zielobjekt extrahiert werden, das das Umgebungsänderungsmerkmal nicht aufweist. Die Zeitreiheneinzelbilder zur Verwendung beim Lernen müssen kein Bewegtbild darstellen, sondern können Einzelbilder sein, die in einer vorbestimmten Reihenfolge zu verarbeiten sind.
Wenn bei der ersten Ausgestaltung vorliegender Erfindung das neuronale Netzwerk über Deep Learning lernt, kann ein von einer Verlustfunktion zur Aktualisierung eines Synapsengewichts in dem neuronalen Netzwerk auszugebender Fehler derart angepasst werden, dass er in dem ersten Zielobjekt mit dem Umgebungsänderungsmerkmal kleiner als in dem zweiten Zielobjekt ist, das das Umgebungsänderungsmerkmal nicht aufweist.
Wenn das neuronale Netzwerk lernt, werden ein durch das neuronale Netzwerk geschätzter Wert und ein korrekter Wert in die Verlustfunktion eingegeben, und die Verlustfunktion berechnet einen Fehler, der größer wird, wenn sich eine Differenz zwischen diesen Werten erhöht. Eine Berechnung wird zum Erhalten eines Aktualisierungsbetrags des Synapsengewichts in dem neuronalen Netzwerk durchgeführt, der größer wird, wenn der Fehler größer wird. Der geschätzte Wert des neuronalen Netzwerks ist daher näher an dem korrekten Wert.
Mit der vorstehend beschriebenen Konfiguration kann das neuronale Netzwerk derart trainiert werden, dass das erste Zielobjekt mit dem Umgebungsänderungsmerkmal leichter als das zweite Zielobjekt extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
Bei der ersten Ausgestaltung vorliegender Erfindung kann die Bilderkennungsvorrichtung eine Bildauswahleinrichtung zur Eingabe der Zeitreiheneinzelbilder, die durch Fotografieren der Umgebung von dem sich bewegenden Objekt aus erhalten werden, und zur Einstellung eines Einzelbildes als Zielobjekt für die Bildverarbeitung enthalten, das mit einem vorbestimmten Abtastintervall aus den eingegebenen Einzelbildern extrahiert wird. Die Bildauswahleinrichtung kann zum Anpassen des Abtastintervalls derart eingerichtet sein, dass sich das Abtastintervall mit Verringerung einer Bewegungsgeschwindigkeit des sich bewegenden Objekts vergrößert.
Mit der vorstehend beschriebenen Konfiguration kann eine Verzögerung in der Zielobjekterfassung verhindert werden, während eine Berechnungslast der Bildverarbeitung verringert wird.
Bei der ersten Ausgestaltung kann das sich bewegende Objekt ein Fahrzeug sein.
Eine zweite Ausgestaltung vorliegender Erfindung bezieht sich auf eine Bilderkennungsvorrichtung. Die Bilderkennungsvorrichtung enthält eine Zielobjekterkennungseinrichtung zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt in jedem von Zeitreiheneinzelbildern, die durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, und eine priorisierte Extraktionseinrichtung zum Extrahieren des Zielobjekts in den Einzelbildern über eine Bildverarbeitung für die Einzelbilder. Die priorisierte Extraktionseinrichtung ist zum Extrahieren eines ersten Zielobjekts, das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die erforderlich ist, damit das durch die Zielobjekterkennungseinrichtung identifizierte Zielobjekt als gemeinsames Zielobjekt unter den Zeitreiheneinzelbildern geschätzt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die priorisierte Extraktionseinrichtung ist zum Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts eingerichtet.
Bei der zweiten Ausgestaltung kann das sich bewegende Objekt ein Fahrzeug sein.
Gemäß der zweiten Ausgestaltung kann die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung verbessert werden.
Figurenliste
Nachstehend werden Merkmale, Vorteile und die technische und gewerbliche Bedeutung von Ausführungsbeispielen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, wobei gleiche Bezugszeichen gleiche Komponenten bezeichnen. Es zeigen:

1 ein schematisches Blockschaltbild einer Bilderkennungsvorrichtung gemäß einem Ausführungsbeispiel,
2 eine schematische Darstellung eines Lernsystems für ein rückgekoppeltes neuronales Netzwerk,
3 eine Darstellung zur Erläuterung eines Bewegungsvektors,
4 eine Darstellung zur Erläuterung eines Fluchtpunkts von Bewegungsvektoren,
5A eine Darstellung zur Erläuterung des Fluchtpunkts der Bewegungsvektoren,
5B eine Darstellung zur Erläuterung des Fluchtpunkts der Bewegungsvektoren,
6 eine Darstellung zur Erläuterung von Zeitreiheneinzelbildern und Positionsänderungen eines Zielobjekts,
7 eine Darstellung zur Erläuterung eines Prozesses eines Erfassens von Positionsbeziehungen eines Zielobjekts,
8 eine Darstellung zur Erläuterung eines Lernablaufs des rückgekoppelten neuronalen Netzwerks,
9 eine schematische Darstellung einer Fehlerberechnungseinheit,
10A eine Darstellung zur Erläuterung einer Bewegung eines Zielobjekts,
10B eine Darstellung zur Erläuterung einer Bewegung des Zielobjekts,
11 ein schematisches Blockschaltbild einer Erkennungsleistungsbewertungsvorrichtung und
12 eine schematische Darstellung eines Fahrassistenzsystems.

AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Nachstehend wird eine Bilderkennungsvorrichtung gemäß einem Ausführungsbeispiel vorliegender Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.
1 zeigt ein schematisches Blockschaltbild der Bilderkennungsvorrichtung gemäß dem Ausführungsbeispiel vorliegender Erfindung. Eine Bilderkennungsvorrichtung 1 umfasst einen Mikrocomputer als Hauptkomponente (Steuereinrichtung). Die Bilderkennungsvorrichtung 1 umfasst eine Bildauswahleinheit 10 und eine Bildverarbeitungseinheit 20.
Die Bildauswahleinheit 10 gibt ein Bewegtbild 50, d.h., aufeinanderfolgende Zeitreiheneinzelbilder ein, wählt zu vorbestimmten Intervallen abgetastete Einzelbilder aus den eingegebenen Einzelbildern aus und führt die ausgewählten Einzelbilder der Bildverarbeitungseinheit 20 zu. Beträgt das Abtastintervall beispielsweise n, extrahiert die Bildauswahleinheit 10 jedes n-te Einzelbild aus Zeitreiheneinzelbildern und führt die extrahierten Einzelbilder der Bildverarbeitungseinheit 20 zu. Demnach wird eine Vielzahl von Einzelbildern, die zu gleichen Zeitintervallen erfasst werden, in die Bildverarbeitungseinheit 20 in der Reihenfolge der Bilderfassung eingegeben.
Die Bildverarbeitungseinheit 20 erkennt ein Objekt in Einzelbildern über eine Bildverarbeitung unter Verwendung eines neuronalen Netzwerks (künstlichen Intelligenzmodells) und gibt die Position des erkannten Objekts (das nachstehend als Zielobjekt bezeichnet wird) angebende Informationen und Informationen aus, die angeben, was das Zielobjekt ist.
Die Bildverarbeitungseinheit 20 enthält funktional eine Zielobjekterkennungsfunktionseinheit 21 und eine priorisierte Extraktionsfunktionseinheit 22. Die priorisierte Extraktionsfunktionseinheit 22 ist zur Verbesserung der Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung 1 enthalten.
Die Bilderkennungsvorrichtung 1 dieses Ausführungsbeispiels wird in einem System zur Steuerung eines Fahrzeugs während der Überwachung von Umgebungsbedingungen um das Fahrzeug (beispielsweise einem Fahrassistenzsystem oder einem autonomen Fahrsystem) verwendet. Beispiele von durch die Zielobjekterkennungsfunktionseinheit 21 zu erkennenden Zielobjekten umfassen ein Automobil, ein Fahrrad, einen Fußgänger, ein Verkehrszeichen und eine Ampel, die vorbestimmte Zielobjekte darstellen, die durch das Fahrzeugsteuersystem zu erkennen sind.
Die Zielobjekterkennungsfunktionseinheit 21 erkennt ein Zielobjekt in jedem von der Bildauswahleinheit 10 zugeführten Einzelbild unter Verwendung eines über Deep Learning trainierten neuronalen Netzwerks und erzeugt die Position des erkannten Zielobjekts angebende Informationen und eine Identifikationskennzeichnung, die angibt, was das Zielobjekt ist. Die Positionsinformationen und die Identifikationskennzeichnung des Zielobjekts werden insgesamt als Zielobjektinformationen bezeichnet.
Die Zielobjektinformationen umfassen die folgenden Informationen. Beispielsweise enthalten die Zielobjektinformationen Informationen darüber, ob eine vorbestimmte Anzahl von in einem Einzelbild definierten Rasterfeldern jeweils ein Objekt darstellen, wenn die Rasterfelder ein Objekt darstellen, Informationen, die vier Ecken eines Vierecks angeben, das das Objekt darstellt, und eine Identifikationskennzeichnung, die angibt, was das Objekt ist (Ähnlichkeit des Objekts). Die Identifikationskennzeichnung umfasst Informationen zum Identifizieren der Art eines Zielobjekts und Informationen über eine Wahrscheinlichkeit, dass das Zielobjekt als Objekt dieser Art eingeschätzt werden kann (eine Ähnlichkeit des Objekts zeigt). Die Identifikationskennzeichnung stellt beispielsweise Informationen darüber dar, dass die Art eines erkannten Zielobjekts ein Verkehrszeichen ist, das eine Geschwindigkeitsbegrenzung auf 60 km/h angibt, und seine Wahrscheinlichkeit bei 0,8 (80%) liegt.
Als Verfahren zur Erfassung der Position eines Zielobjekts und Identifikation des Zielobjekts aus einem Einzelbild kann ein vorbestimmtes Verfahren (beispielsweise You Only Look Once (YOLO) oder Single Shot Multibox Detector (SSD)) angewendet werden. YOLO ist beispielsweise ein Verfahren zur Erfassung der Position eines Zielobjekts und Identifikation des Zielobjekts durch Eingeben des gesamten Einzelbildes in ein neuronales Faltungsnetzwerk.
Diese Verfahren sollen ein Zielobjekt alleine in einem Einzelbild erkennen, sind aber hinsichtlich einer Zielobjekterkennungsgenauigkeit alleine nicht gut. Insbesondere bei der Erfassung einer Erkennungsposition ist eine gewünschte Genauigkeit schwer zu erhalten. Ferner können einige Arten von Zielobjekten, wie ein Verkehrszeichen, schwer zu identifizieren sein.
Ein Objekt in einem Bewegtbild, das durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhalten wird, zeigt eine charakteristische Bewegung zwischen Einzelbildern. Wenn eine Bewegung eines Zielobjekts zwischen Einzelbildern als charakteristische Bewegung erfasst wird, kann geschätzt werden, dass das Zielobjekt korrekt erkannt ist. Die priorisierte Extraktionsfunktionseinheit 22 verbessert die Erkennungsgenauigkeit der Bilderkennungsvorrichtung 1 durch Extrahieren eines Zielobjekts, das die charakteristische Bewegung zeigt, mit Priorität unter den durch die Zielobjekterkennungsfunktionseinheit 21 erkannten Zielobjekten.
Das Merkmal der Bewegung des Zielobjekts wird nachstehend als Umgebungsänderungsmerkmal bezeichnet.
Das Umgebungsänderungsmerkmal wird wie folgt eingestellt.

1. Ein Zielobjekt nahe einem Fluchtpunkt weist eine kleine Positionsänderung zwischen Einzelbildern auf.
2. Das Zielobjekt bewegt sich entlang einer den Fluchtpunkt und das Zielobjekt verbindenden Geraden.
3. Die Bewegung des Zielobjekts ist gleichmäßig. Die Position des Zielobjekts ändert sich linear.

Änderungen bezüglich eines Bewegungsintervalls des Zielobjekts sind zwischen Einzelbildern konstant.
Größenänderungen des Zielobjekts sind zwischen Einzelbildern konstant.
Der hier angeführte „Fluchtpunkt“ bezieht sich auf einen Fluchtpunkt von Bewegungsvektoren. Wenn sich beispielsweise ein beliebiges Bildelement von Interesse (i, j) in einem anderen Einzelbild an einen anderen Ort (k, I) bewegt, wie es in 3 veranschaulicht ist, ist ein die Bewegung angebender Vektor ein Bewegungsvektor des Bildelements von Interesse. In einem durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhaltenen Bewegtbild (Zeitreiheneinzelbildern) wird ein Punkt P bestimmt, wo sich Geraden von Bewegungsvektoren schneiden, wie es in 4, 5A und 5B dargestellt ist. Der Punkt P ist ein Fluchtpunkt der Bewegungsvektoren. 5A veranschaulicht einen Fluchtpunkt P, wenn das Fahrzeug geradeaus fährt. 5B veranschaulicht einen Fluchtpunkt P, wenn das Fahrzeug nach links abbiegt.
Positionsinformationen eines Zielobjekts sind durch vier Ecken des Zielobjekts dargestellt. Eine Positionsänderung des Zielobjekts kann daher beispielsweise als Änderung einer zentralen Position des Zielobjekts betrachtet werden. Die Größe des Zielobjekts kann als durch die vier Ecken des Zielobjekts definierter Bereich betrachtet werden.
Wenn Objekte in einer Umgebung aus einem Bewegtbild der durch eine fahrzeugseitige Kamera fotografierten Umgebung erkannt werden, und wenn Bewegungen eines in jeweiligen Einzelbildern erkannten Zielobjekts (Änderungen der Position des Zielobjekts zwischen Einzelbildern) ein Umgebungsänderungsmerkmal zeigen, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden. Das in den Einzelbildern erkannte Zielobjekt kann somit als korrekt erkanntes Zielobjekt beurteilt werden.
Beispielsweise kann ein nahe einem Fluchtpunkt befindliches Zielobjekt mit einer geringen Bewegung zwischen Einzelbildern als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 1).
Befindet sich ein in einem beliebigen Einzelbild erkanntes Zielobjekt auf einer Geraden, die einen Fluchtpunkt und das in einem anderen Einzelbild erkannte Zielobjekt verbindet, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 2).
Wenn sich die Position des erkannten Zielobjekts zwischen Einzelbildern gleichmäßig ändert, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 3). Wenn sich das Zielobjekt beispielsweise derart ändert, dass es sich entlang einer Geraden bewegt und die Änderungsrate eines Bewegungsintervalls des Zielobjekts oder die Größenänderungsrate des Zielobjekts konstant ist, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 3).
Bei dem Umgebungsänderungsmerkmal 3 ist lediglich erforderlich, dass die Änderung des Bewegungsintervalls des Zielobjekts oder die Größenänderung des Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist. Das in den Einzelbildern erkannte Zielobjekt kann beispielsweise auch als gemeinsames Zielobjekt (selbes Zielobjekt) betrachtet werden, wenn der Änderungsbetrag des Bewegungsintervalls des Zielobjekts oder der Größenänderungsbetrag des Zielobjekts konstant ist. Das heißt, das Zielobjekt kann als korrekt erkanntes Zielobjekt betrachtet werden.
6 zeigt Einzelbilder, die durch Fotografieren eines Bereichs vor einem Fahrzeug mit einer fahrzeugseitigen Kamera erhalten werden. Die Einzelbilder werden bei den Abtastintervallen n sequentiell gelesen. Unter Konzentration auf die Position eines Verkehrszeichens (das als Zielobjekt B1 bezeichnet wird) in den Einzelbildern sind das in einem Einzelbild mit einer Bildnummer 1 erkannte Zielobjekt B1, das in einem Einzelbild mit einer Bildnummer (n+1) erkannte Zielobjekt B1 und das in einem Einzelbild mit einer Bildnummer (1+2n) erkannte Zielobjekt B1 im Wesentlichen kollinear angeordnet. Das heißt, die Zielobjekte B1 sind in einer Projektion der drei überlagerten Einzelbilder im Wesentlichen kollinear angeordnet.
Eine Änderung des Bewegungsintervalls des Zielobjekts B1 und eine Größenänderung des Zielobjekts B1 weisen vorbestimmte Gesetzmäßigkeiten auf. Das heißt, das Bewegungsintervall und die Größe des Zielobjekts B1 werden mit steigender Entfernung von einem Fluchtpunkt von Bewegungsvektoren größer. Das Zielobjekt B1 befindet sich in einem beliebigen Einzelbild auf einer Geraden, die den Fluchtpunkt der Bewegungsvektoren und die Position des Zielobjekts B1 in einem anderen Einzelbild verbindet. Das Zielobjekt B1 erfüllt somit die Umgebungsänderungsmerkmale 2 und 3.
Ein vorausfahrendes Fahrzeug (das als Zielobjekt B2 bezeichnet wird), das vor dem Fahrzeug von Interesse fährt, weist eine geringe Positionsänderung zwischen den Einzelbildern auf. Der Grund dafür ist, dass sich das Zielobjekt B2 nahe dem Fluchtpunkt befindet. Das Zielobjekt B2 erfüllt somit das Umgebungsänderungsmerkmal 1.
Die Zielobjekte, die eines der Umgebungsänderungsmerkmale 1 bis 3 erfüllen, können als korrekt erkannte Zielobjekte beurteilt werden.
Als Nächstes wird ein Verfahren zum Erfassen einer Bewegung (einer Positionsbeziehung) eines Zielobjekts zwischen Einzelbildern beschrieben. Die priorisierte Extraktionsfunktionseinheit 22 verarbeitet beispielsweise von der Bildauswahleinheit 10 zugeführte Einzelbilder derart, dass eine vorbestimmte Anzahl von Einzelbildern, die in der Reihenfolge der Zuführung (Reihenfolge der Eingabe) angeordnet sind, als ein Satz definiert sind. In diesem Fall ist die vorbestimmte Anzahl 3. Eine Bewegung (Positionsbeziehung) eines Zielobjekts zwischen den Einzelbildern eines Satzes (von drei Einzelbildern) kann somit erfasst werden, wenn Teile von Positionsinformationen der Zielobjekte, denen eine gemeinsame Identifikationskennzeichnung zugeordnet ist, in den jeweiligen Einzelbildern bekannt sind.
In diesem Fall absolviert die Zielobjekterkennungsfunktionseinheit 21 eine Positionserfassung des Zielobjekts und Zuordnung der Identifikationskennzeichnung zu dem Zielobjekt. Für die Positionserfassung des Zielobjekts und Zuordnung der Identifikationskennzeichnung zu dem Zielobjekt in einem einzelnen Einzelbild kann beispielsweise YOLO oder SSD verwendet werden.
Wenn das Abtastintervall von durch die Bildauswahleinheit 10 abzutastenden Einzelbildern beispielsweise n (>1) ist, und eine vorbestimmte Anzahl 3 ist, werden ein Bild 1, das ein erstes eingegebenes Einzelbild ist, ein Bild (1+n), das ein (1+n)-tes Einzelbild ist, und ein Bild (1+2n), das ein (1+2n)-tes Einzelbild ist, als ein Bildsatz definiert, wie es in 7 veranschaulicht ist. Die drei Einzelbilder, die den Bildsatz bilden, werden nachstehend als Zielobjektbilder bezeichnet. Der Bildsatz wird unter Verwendung der Nummer eines mittleren (zweiten) Bildes aus den drei Zielobjektbildern identifiziert. Bei diesem Beispiel wird zuerst ein Bildsatz (1+n) eingestellt. Die Anzahl von Zielobjektbildern, die den Bildsatz bilden, ist nicht auf drei beschränkt, sondern kann beliebig eingestellt werden.
Die priorisierte Extraktionsfunktionseinheit 22 verknüpft Zielobjekte, die in den Zielobjektbildern des Bildsatzes (1+n) erkannt werden und eine gemeinsame Identifikationskennzeichnung aufweisen, und beschafft Positionsbeziehungen der verknüpften Zielobjekte. Wenn die priorisierte Extraktionsfunktionseinheit 22 das Beschaffen der Positionsbeziehungen all der Zielobjekte abschließt, die in den Zielobjektbildern erkannt werden und die gemeinsame Identifikationskennzeichnung aufweisen, führt die priorisierte Extraktionsfunktionseinheit 22 einen ähnlichen Prozess für drei Zielobjektbilder eines nächsten Bildsatzes (1+2n) zur Beschaffung von Positionsbeziehungen von Zielobjekten mit der gemeinsamen Identifikationskennzeichnung durch. Die Zielobjekte mit der gemeinsamen Identifikationskennzeichnung sind Zielobjekte, die hinsichtlich Arten gemein sind, in die die Zielobjekte als spezifisches Objekt eingeschätzt werden.
Wenn der Bildsatz in einen nächsten Bildsatz wechselt, überträgt (speichert) die priorisierte Extraktionsfunktionseinheit 22 einen Identifizierer (ID) zum Identifizieren des vorhergehenden Bildsatzes und Informationen über Positionsbeziehungen von in dem vorhergehenden Bildsatz extrahierten Zielobjekten zu (in) dem nächsten Bildsatz.
Wenn die priorisierte Extraktionsfunktionseinheit 22 die Positionsbeziehungen zwischen den Zielobjekten in den Zielobjektbildern des Bildsatzes (1+2n) beschafft, führt die priorisierte Extraktionsfunktionseinheit 22 einen ähnlichen Prozess für drei Zielobjektbilder eines nächsten Bildsatzes (1+3n) durch. Durch Wiederholen des vorstehend beschriebenen Prozesses können Positionsbeziehungen von Zielobjekten mit der gemeinsamen Identifikationskennzeichnung in jedem n-ten Einzelbild und ferner eine Verschiebung der Positionsbeziehungen erfasst werden.
Wenn die Positionserfassung und die Identifikation eines Zielobjekts korrekt sind, zeigt die Bewegung des Zielobjekts zwischen Einzelbildern ein Umgebungsänderungsmerkmal. Wenn die Positionserfassung oder die Identifikation des Zielobjekts inkorrekt ist, ist es aber schwierig, dass das Umgebungsänderungsmerkmal gezeigt wird. Das Umgebungsänderungsmerkmal wird beispielsweise nicht gezeigt, wenn die Identifikation in einem spezifischen Einzelbild unter den Einzelbildern inkorrekt ist. Das Umgebungsänderungsmerkmal wird nicht gezeigt, wenn die Positionserfassung in einem spezifischen Einzelbild unter den Einzelbildern inkorrekt ist. Das Umgebungsänderungsmerkmal wird nicht gezeigt, wenn die Zielobjekte in den Einzelbildern inkorrekt verknüpft sind.
Wenn die Zielobjekte mit der gemeinsamen Identifikationskennzeichnung in den Einzelbildern das Umgebungsänderungsmerkmal hinsichtlich ihrer Positionsbeziehungen aufweisen, extrahiert die priorisierte Extraktionsfunktionseinheit 22 die Zielobjekte mit Priorität gegenüber Zielobjekten ohne ein Umgebungsänderungsmerkmal und veranlasst die Bilderkennungsvorrichtung 1 zur Ausgabe von Zielobjektinformationen über die extrahierten Zielobjekte. Somit können Informationen über Zielobjekte ausgegeben werden, die als korrekt erkannt beurteilt werden können. Die priorisierte Extraktionsfunktionseinheit 22 kann zum Extrahieren eines ersten Zielobjekts mit einem Umgebungsänderungsmerkmal mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet sein, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal kann ein Merkmal über eine Positionsänderung des Zielobjekts sein, das sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung kann eine Positionsänderung des Zielobjekts sein, das gemeinsam unter den Zeitreiheneinzelbildern identifiziert wird. Die priorisierte Extraktionsfunktionseinheit 22 kann ferner zum Extrahieren des Zielobjekts in den Einzelbildern über eine Bildverarbeitung für die Einzelbilder eingerichtet sein. Die priorisierte Extraktionsfunktionseinheit 22 kann zum Extrahieren eines ersten Zielobjekts, das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet sein. Das Umgebungsänderungsmerkmal kann ein Merkmal über eine Positionsänderung des Zielobjekts sein, damit das durch die Zielobjekterkennungseinrichtung identifizierte Zielobjekt als gemeinsames Zielobjekt unter den Zeitreiheneinzelbildern beurteilt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird.
Die priorisierte Extraktionsfunktionseinheit 22 wurde zur Erleichterung des Verständnisses der Funktionen der priorisierten Extraktionsfunktionseinheit 22 beschrieben. Tatsächlich können die Funktionen unter Verwendung eines neuronalen Netzwerks, wie eines rückgekoppelten neuronalen Netzwerks erzielt werden, das Prozesse unter Berücksichtigung vorhergehender und nachfolgender Abschnitte von Zeitreiheninformationen durchführen kann, und indem ein Lernverfahren für das neuronale Netzwerk angemessen eingestellt wird.
Das Lernen des neuronalen Netzwerks wird Deep Learning genannt. Bei einem allgemeinen Deep Learning werden ein durch das neuronale Netzwerk geschätzter Ausgangswert und ein korrekter Wert von Trainingsdaten in eine Verlustfunktion eingegeben. Wenn sich eine Differenz zwischen dem Ausgangswert des neuronalen Netzwerks und dem korrekten Wert der Trainingsdaten erhöht, ist ein aus der Verlustfunktion ausgegebener Fehler ein größerer Wert. Bei Deep Learning werden ein Synapsengewicht zwischen einer Eingangsschicht und einer Zwischenschicht und ein Synapsengewicht zwischen der Zwischenschicht und einer Ausgangsschicht in dem neuronalen Netzwerk unter Verwendung von Backpropagation zur Minimierung des aus der Verlustfunktion ausgegebenen Fehlers aktualisiert. Durch Wiederholen dieses Prozesses wird die Schätzungsgenauigkeit des neuronalen Netzwerks verbessert.
In der Bilderkennungstechnik wird das neuronale Netzwerk unter Verwendung eines Lernbildes und von Anmerkungsdaten trainiert, die mit dem Lernbild verbunden sind. Die Anmerkungsdaten sind korrekte Daten, die angeben, was ein Objekt in dem Lernbild ist, und wo sich das Objekt befindet, d.h., korrekte Daten über eine Identifikationskennzeichnung und eine erfasste Position. In der Identifikationskennzeichnung der korrekten Daten ist die eine Ähnlichkeit des Objekts zeigende Wahrscheinlichkeit 1,0.
In diesem Fall werden eine Positionsverlustfunktion und eine Identifikationsverlustfunktion bereitgestellt. Eine durch das neuronale Netzwerk geschätzte Position eines Zielobjekts und eine korrekte Position der Anmerkungsdaten werden in die Positionsverlustfunktion eingegeben. Eine durch das neuronale Netzwerk geschätzte Identifikationskennzeichnung des Zielobjekts und eine korrekte Identifikationskennzeichnung der Anmerkungsdaten werden in die Identifikationsverlustfunktion eingegeben. Synapsengewichte zwischen Schichten in dem neuronalen Netzwerk werden unter Verwendung eines Gesamtfehlers aktualisiert, der durch Addieren der aus beiden Verlustfunktionen ausgegebenen Fehler erhalten wird. Das neuronale Netzwerk wird auf diese Weise trainiert.
Bei diesem Ausführungsbeispiel wird das neuronale Netzwerk hauptsächlich durch das vorstehend beschriebene Lernverfahren trainiert. Dieses Ausführungsbeispiel stellt eine Funktion einer Anpassung des aus den Verlustfunktionen auszugebenden Gesamtfehlers in Abhängigkeit davon bereit, ob das Zielobjekt das Umgebungsänderungsmerkmal zeigt. Die Bildverarbeitungseinheit 20 enthält daher das rückgekoppelte neuronale Netzwerk, das ein Zielobjekt in einem Einzelbild unter Berücksichtigung vorhergehender und nachfolgender Abschnitte von Zeitreiheninformationen erkennt. Das rückgekoppelte neuronale Netzwerk wird nachstehend mit RNN abgekürzt.
2 veranschaulicht die Konfiguration eines Lernsystems für ein RNN 23. Das RNN 23 ist ein rückgekoppeltes neuronales Netzwerk der Bildverarbeitungseinheit 20. Das RNN 23 ist mit einer Trainingseinrichtung 100 verbunden. Die Trainingseinrichtung 100 speichert Lernbilder 110 und Anmerkungsdaten 120 und trainiert das RNN 23 durch Zuführen der Lernbilder 110 und der Anmerkungsdaten 120 zu dem RNN 23.
Die Anmerkungsdaten 120 enthalten Anpassungswertdaten zusätzlich zu den korrekten Daten über eine Position und eine Identifikationskennzeichnung. Die Anpassungswertdaten geben einen Anpassungswert α zur Anpassung von aus Verlustfunktionen auszugebenden Fehlern an.
Die Lernbilder 110 sind eine Vielzahl von Einzelbildern, die Einzelbilder enthalten, in denen sich die Position eines Zielobjekts in den Bildern mit einem Umgebungsänderungsmerkmal ändert, wenn die Bilder in das RNN 23 mit vorbestimmter Reihenfolge eingegeben werden, und Einzelbilder, in denen sich die Position eines Zielobjekts in den Bildern nicht mit einem Umgebungsänderungsmerkmal ändert, wenn die Bilder in der vorbestimmten Reihenfolge in das RNN 23 eingegeben werden.
Der Anpassungswert α ist jedem Zielobjekt zugeordnet. Der Anpassungswert α ist auf einen Wert kleiner als 1,0 (beispielsweise 0,1) im Fall eines Zielobjekts eingestellt, das sich positionsmäßig mit einem Umgebungsänderungsmerkmal ändert, wenn die Lernbilder 110 in der vorbestimmten Reihenfolge eingegeben werden, und im Fall eines Zielobjekts auf 1,0 eingestellt, das sich positionsmäßig nicht mit einem Umgebungsänderungsmerkmal ändert, wenn die Lernbilder 110 in der vorbestimmten Reihenfolge eingegeben werden. Der Anpassungswert α muss nicht unbedingt in zwei Stufen eingestellt werden, sondern kann in drei oder mehr Stufen eingestellt werden, um einen kleineren Wert im Fall eines Zielobjekts aufzuweisen, das ein Umgebungsänderungsmerkmal auffallender zeigt.
8 veranschaulicht einen Lernablauf des RNN 23. In 8 stellen Pfeile mit breiten durchgezogenen Linien eine Vorwärtsausbreitung dar, und Pfeile mit breiten gestrichelten Linien stellen eine Backpropagation dar. Daten breiten sich entlang der Pfeile mit durchgezogenen Linien ab einer Zeit T = 1 vorwärts aus. Zu jeder Zeit ändern sich Werte von Schichten. Daher werden diese Werte gespeichert. Während der Vorwärtsausbreitung wird ein Fehler zu jedem Zeitpunkt berechnet. Der Fehler zu jedem Zeitpunkt ist eine Differenz zwischen einem Ausgangswert des RNN 23 und einem korrekten Wert. Ein Fehler zu der gesamten Zeit wird durch Aufsummieren der Fehler zu den jeweiligen Zeiten erhalten.
In dem Beispiel in 8 beginnt das Lernen, wenn die Vorwärtsausbreitung für Daten bis zur Zeit T = 1+2n abgeschlossen ist. Bei dem Lernen des RNN 23 werden Synapsengewichte aktualisiert, indem ein Gradient des Fehlers zum Minimieren des Fehlers ähnlich wie beim Deep Learning eines allgemeinen neuronalen Netzwerks bestimmt wird, das keine Zeitreihenprozesse beinhaltet. Zu diesem Zeitpunkt beginnt das Lernen ab der Ausgangsschicht zur Zeit T = 1+2n in umgekehrter chronologischer Reihenfolge. Die Synapsengewichte werden zwischen der Zwischenschicht und der Ausgangsschicht, zwischen der Zwischenschicht und der Zwischenschicht und zwischen der Eingangsschicht und der Zwischenschicht aktualisiert.
Wie in 9 gezeigt, enthält das RNN 23 dieses Ausführungsbeispiels eine Fehlerberechnungseinheit 30 zur Berechnung eines Fehlers zur Aktualisierung der Synapsengewichte zwischen Schichten. Die Fehlerberechnungseinheit 30 enthält eine Verlustfunktionseinheit 31 und eine Anpassungseinheit 32. Die Verlustfunktionseinheit 31 gibt Ausgangswerte des RNN 23 und korrekte Werte der Anmerkungsdaten 120 zu den jeweiligen Zeiten in Verlustfunktionen ein und berechnet einen Fehler E0, der größer wird, wenn die Summe der Differenzen zwischen den Ausgangswerten des RNN 23 und den korrekten Werten der Anmerkungsdaten 120 zu den jeweiligen Zeiten größer wird. Der Fehler E0 wird als Voranpassungsfehler E0 bezeichnet.
Die Verlustfunktionseinheit 31 enthält beispielsweise eine Positionsverlustfunktion und eine Identifikationsverlustfunktion. Eine durch das RNN 23 geschätzte Position eines Zielobjekts und eine korrekte Position der Anmerkungsdaten 120 werden in die Positionsverlustfunktion eingegeben. Die Verlustfunktionseinheit 31 berechnet einen Positionsfehler, der größer wird, wenn ein Unterschied zwischen diesen größer wird.
Eine Identifikationskennzeichnung des Zielobjekts (Wahrscheinlichkeit, dass das Zielobjekt als Objekt von Interesse eingeschätzt wird), die durch das RNN 23 geschätzt wird, und eine korrekte Identifikationskennzeichnung der Anmerkungsdaten 120 werden in die Identifikationsverlustfunktion eingegeben. Die Verlustfunktionseinheit 31 berechnet einen Identifikationsfehler, der größer wird, wenn eine Differenz zwischen obigen Werten größer wird. Der Identifikationsfehler ist beispielsweise maximal, wenn die Identifikation inkorrekt ist (das Zielobjekt ist beispielsweise ein Automobil, wird aber als Fußgänger eingeschätzt), und wird größer, wenn eine Wahrscheinlichkeitsdifferenz größer wird, wenn die Identifikation korrekt ist. Die Verlustfunktionseinheit 31 gibt einen Fehler aus, der durch Addieren des Positionsfehlers und des Identifikationsfehlers erhalten wird. Dieser Fehler ist der Voranpassungsfehler E0.
Die Verlustfunktionseinheit 31 gibt den berechneten Voranpassungsfehler E0 aus. Der Voranpassungsfehler E0 wird in die Anpassungseinheit 32 eingegeben. Die Anpassungseinheit 32 gibt einen in den Anmerkungsdaten 120 enthaltenen Anpassungswert α ein und berechnet einen Nachanpassungsfehler E durch Multiplizieren des Voranpassungsfehlers E0 mit dem Anpassungswert α (E = E0 × α). Der Nachanpassungsfehler E ist der durch die Fehlerberechnungseinheit 30 berechnete Fehler.
Wie vorstehend beschrieben ist der Anpassungswert α auf einen Wert kleiner als 1,0 eingestellt, wenn ein Zielobjekt in den Lernbildern ein Zielobjekt mit einem Umgebungsänderungsmerkmal ist, und auf 1,0 eingestellt, wenn das Zielobjekt ein Zielobjekt ist, das kein Umgebungsänderungsmerkmal aufweist.
Im Fall von Lernbildern beispielsweise, in denen sich das Zielobjekt B entlang eines in 10A veranschaulichten Pfads bewegt, weist das Zielobjekt B ein Umgebungsänderungsmerkmal auf, und daher ist der Anpassungswert α auf einen kleinen Wert (beispielsweise 0,1) eingestellt. Im Fall von Lernbildern, in denen sich das Zielobjekt B entlang eines in 10B veranschaulichten Pfads bewegt, weist das Zielobjekt kein Umgebungsänderungsmerkmal auf, und daher ist der Anpassungswert α auf 1,0 eingestellt.
Das RNN 23 aktualisiert die Synapsengewichte zwischen Schichten zum Minimieren des Nachanpassungsfehlers E. Das heißt, es wird eine Backpropagation durchgeführt.
Der Nachanpassungsfehler E wird bei dem Zielobjekt mit einem Umgebungsänderungsmerkmal auf einen kleineren Wert als bei dem Zielobjekt angepasst, das kein Umgebungsänderungsmerkmal aufweist. Daher verringert sich der Aktualisierungsbetrag der Synapsengewichte bei der Backpropagation. Infolgedessen besteht die Fähigkeit zur Erkennung des Zielobjekts mit einem Umgebungsänderungsmerkmal weiter. Der Nachanpassungsfehler E wird bei dem Zielobjekt ohne Umgebungsänderungsmerkmal nicht auf einen kleinen Wert angepasst. Daher verringert sich der Aktualisierungsbetrag der Synapsengewichte bei der Backpropagation nicht. Das RNN 23 wird daher derart trainiert, dass das Zielobjekt, das kein Umgebungsänderungsmerkmal aufweist, kaum erkannt wird.
Das Lernen wird bei der Bilderkennungsvorrichtung 1 zur Erkennung eines Objekts in einem durch Fotografieren einer Umgebung von dem Fahrzeug aus erhaltenen Bewegtbild sehr effektiv durchgeführt. Die Erkennungsgenauigkeit (Positionserfassungsgenauigkeit und Zielobjektidentifikationsgenauigkeit) kann daher verbessert werden. Ferner kann die Genauigkeit einer Zielobjektverknüpfung zwischen Einzelbildern verbessert werden.
Anwendungsbeispiel 1 der Bilderkennungsvorrichtung
Die Bilderkennungsvorrichtung 1 kann beispielsweise in einer Erkennungsleistungsbewertungsvorrichtung für ein Fahrzeugsteuersystem angewendet werden. Wie es in 11 veranschaulicht ist, enthält eine Erkennungsleistungsbewertungsvorrichtung 200 beispielsweise eine Referenzbildbeschaffungseinheit 210, eine Zielobjekterkennungseinheit 220, eine Messdatenbeschaffungseinheit 230 und eine Systemerkennungseinheit 240.
Zur Bewertung der Erkennungsleistung des Fahrzeugsteuersystems ist eine Messkamera 250 in einem Fahrzeug zum Fotografieren einer Umgebung installiert, während das Fahrzeug auf einem vorbestimmten Kurs fährt. Die Referenzbildbeschaffungseinheit 210 beschafft ein durch die Messkamera 250 erfasstes Bewegtbild als Referenzbild. Die Zielobjekterkennungseinheit 220 durchsucht das Referenzbild zur Erkennung und Extraktion eines Zielobjekts (beispielsweise eines anderen Fahrzeugs oder eines Verkehrszeichens) in dem Referenzbild. Die Bilderkennungsvorrichtung 1 wird als Zielobjekterkennungseinheit 220 verwendet. Die Zielobjekterkennungseinheit 220 erzeugt und gibt Bilderkennungsinformationen über das aus dem Referenzbild erkannte Zielobjekt aus.
Synchron zum Fotografieren der Umgebung mit der Messkamera 250 werden verschiedene Arten von Messdaten in einem Speicher 260 gespeichert. Die Messdaten sind Zeitreihendaten über Messwerte zur Verwendung in dem Fahrzeugsteuersystem. Die Messdatenbeschaffungseinheit 230 beschafft die im Speicher 260 gespeicherten Messdaten. Die Systemerkennungseinheit 240 gibt die Messdaten in ein Modell des Fahrzeugsteuersystems ein und erzeugt und gibt Systemerkennungs-/Steuerinformationen aus, die angeben, wie das Fahrzeugsteuersystem Fahrbedingungen und Umgebungsbedingungen erkennt, um eine Steuerung durchzuführen. Die Bilderkennungsvorrichtung 1 des Ausführungsbeispiels wird in der Erkennungsleistungsbewertungsvorrichtung 200 zur Erkennung eines Zielobjekts (eines anderen Fahrzeugs oder eines Verkehrszeichens) in dem Referenzbild verwendet. Die Erkennungsleistung des Fahrzeugsteuersystems kann daher angemessen bewertet werden.
Das Fahrzeugsteuersystem kann infolgedessen durch Vergleichen der zwei Arten von Informationen (Bilderkennungsinformationen und Systemerkennungs-/Steuerinformationen), die aus der Erkennungsleistungsbewertungsvorrichtung 200 ausgegeben werden, und Erfassen eines nicht zusammenpassenden Teils verbessert werden.
Anwendungsbeispiel 2 der Bilderkennungsvorrichtung
Die Bilderkennungsvorrichtung 1 kann zur Erfassung eines Objekts um ein Fahrzeug in einem Fahrassistenzsystem (einschließlich eines autonomen Fahrsystems) für das Fahrzeug verwendet werden. Wie in 12 gezeigt, ist die Bilderkennungsvorrichtung 1 beispielsweise mit einer fahrzeugseitigen Kamera 2 zum Fotografieren einer Umgebung des Fahrzeugs (beispielsweise eines Bereichs vor dem Fahrzeug) verbunden und beschafft ein durch die fahrzeugseitige Kamera 2 in Echtzeit erfasstes Bewegtbild. Die Bilderkennungsvorrichtung 1 erkennt ein Zielobjekt in dem Bewegtbild und führt einer elektronischen Fahrassistenzsteuereinheit (Fahrassistenz-ECU) 3 Zielobjektinformationen hinsichtlich des Zielobjekts (Position und Identifikationskennzeichnung) zu.
Die Fahrassistenz-ECU 3 ist beispielsweise eine elektronische Steuereinheit zur Durchführung einer Fahrassistenzsteuerung, wie einer adaptiven Abstands- und Geschwindigkeitsregelung (ACC), ein Verkehrszeichenassistent (RSA) oder ein Spurwechselassistent (LCA).
Die Fahrassistenzsteuerung wird beruhend auf den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durchgeführt.
ACC ist eine Fahrassistenzsteuerung, um das Fahrzeug zum Folgen eines vorausfahrenden Fahrzeugs zu veranlassen. Die Fahrassistenz-ECU 3 führt die ACC durch hauptsächliches Extrahieren von Zielobjektinformationen hinsichtlich des vorausfahrenden Fahrzeugs aus den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durch.
RSA ist eine Fahrassistenzsteuerung zur Erkennung eines sich vor dem Fahrzeug befindenden Verkehrszeichens und Bereitstellung von Informationen für einen Fahrer, die durch das Verkehrszeichen angegeben werden. Die Fahrassistenz-ECU 3 führt RSA durch Extrahieren von Zielobjektinformationen hinsichtlich des Verkehrszeichens aus den von der Bilderkennungsvorrichtung zugeführten Zielobjektinformationen durch.
LCA ist eine Fahrassistenzsteuerung, um das Fahrzeug zum sicheren Wechseln einer Spur zu veranlassen, während die Umgebung des Fahrzeugs beobachtet wird. Die fahrzeugseitige Kamera 2 fotografiert die Umgebung des Fahrzeugs einschließlich eines Bereichs hinter dem Fahrzeug sowie eines Bereichs vor dem Fahrzeug und gibt ein Bewegtbild zu der Bilderkennungsvorrichtung 1 aus. Die Fahrassistenz-ECU 3 führt LCA durch Extrahieren von Zielobjektinformationen hinsichtlich eines Hindernisses und von Spurmarkierungslinien um das Fahrzeug aus den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durch.
Wie vorstehend beschrieben wird die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung 1 verbessert. Die Fahrassistenzsteuerung kann somit zur Zufriedenheit durchgeführt werden.
Abtastintervall n für Einzelbilder
Die Bildauswahleinheit 10 gibt aufeinanderfolgende Zeitreiheneinzelbilder ein und wählt zu dem vorbestimmten Abtastintervall n abgetastete Einzelbilder aus den eingegebenen Einzelbildern aus. Die Bildauswahleinheit 10 beschafft in diesem Fall Informationen über eine Fahrzeuggeschwindigkeit V des Fahrzeugs und verringert das Abtastintervall n, wenn sich die Fahrzeuggeschwindigkeit V erhöht (erhöht das Abtastintervall n, wenn sich die Fahrzeuggeschwindigkeit V verringert). So kann eine Verzögerung bei der Zielobjekterfassung verhindert werden, während eine Berechnungslast der Bildverarbeitung reduziert wird.
Obwohl die Bilderkennungsvorrichtung gemäß diesem Ausführungsbeispiel vorstehend beschrieben wurde, ist die Erfindung nicht auf das Ausführungsbeispiel beschränkt, und verschiedene Modifikationen können durchgeführt werden, ohne vom Schutzbereich vorliegender Erfindung abzuweichen.
Beispielsweise erkennt die Bilderkennungsvorrichtung dieses Ausführungsbeispiels ein Zielobjekt in einem Bewegtbild, das durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhalten wird, jedoch muss das sich bewegende Objekt nicht unbedingt das Fahrzeug sein. Die vorliegende Erfindung ist auch bei einer Bilderkennungsvorrichtung zur Erkennung eines Zielobjekts in einem Bewegtbild anwendbar, das durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten wird, wie einem Schiff, einem Flugzeug oder einem Roboter.
Bei diesem Ausführungsbeispiel wird das Abtastintervall n für Einzelbilder in Abhängigkeit von der Fahrzeuggeschwindigkeit V angepasst, es kann jedoch stattdessen in Abhängigkeit von einer Länge eines Bewegungsvektors angepasst werden. In diesem Fall wird das Abtastintervall n verkürzt, wenn die Länge des Bewegungsvektors größer wird (das Abtastintervall n vergrößert, wenn die Länge des Bewegungsvektors kleiner wird). Da sich die Länge des Bewegungsvektors in Abhängigkeit von Bedingungen ändert, ist es angemessen, eine Länge eines Bewegungsvektors unter einer voreingestellten Bedingung zu verwenden.
Das Zielobjektidentifikationsverfahren kann durch Mustervergleich oder anderes maschinelles Lernen implementiert werden.
Eine Bilderkennungsvorrichtung (1) umfasst eine Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Einzelbildern (50) und eine priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2), die sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts (B1; B2), das unter den Einzelbildern (50) gemeinsam identifiziert wird.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017162438 [0002]
JP 2017162438 A [0002]

Claims

Bilderkennungsvorrichtung (1) zum Extrahieren eines Zielobjekts (B1; B2) in Zeitreiheneinzelbildern (50) über eine Bildverarbeitung für die Einzelbilder (50) und Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts (B1; B2), wobei die Einzelbilder (50) durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, mit einer Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für das Zielobjekt (B1; B2) in jedem der Einzelbilder (50) und einer priorisierten Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist, wobei das Umgebungsänderungsmerkmal ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2) ist, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird, wobei die Positionsänderung eine Positionsänderung des gemeinsam unter den Zeitreiheneinzelbildern (50) identifizierten Zielobjekts (B1; B2) ist.
Bilderkennungsvorrichtung (1) nach Anspruch 1, wobei das Umgebungsänderungsmerkmal ein Merkmal einer Größenänderung des Zielobjekts (B1; B2) zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts (B1; B2) enthält.
Bilderkennungsvorrichtung (1) nach Anspruch 1 oder 2, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass eine Positionsänderung zwischen den Einzelbildern kleiner oder gleich einem vorbestimmten Betrag für ein Zielobjekt (B1; B2) ist, das an einer Position nahe einem Fluchtpunkt (P) eines Bewegungsvektors erkannt wird.
Bilderkennungsvorrichtung (1) nach Anspruch 1 oder 2, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass das gemeinsam identifizierte Zielobjekt (B1; B2) sich entlang einer Geraden bewegt.
Bilderkennungsvorrichtung (1) nach Anspruch 4, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass das unter den Einzelbildern gemeinsam identifizierte Zielobjekt (B1; B2) sich entlang einer Geraden bewegt, die das Zielobjekt (B1; B2) in einem beliebigen Einzelbild (50) und einen Fluchtpunkt (P) eines Bewegungsvektors verbindet.
Bilderkennungsvorrichtung (1) nach Anspruch 4 oder 5, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, das eine Änderung eines Bewegungsintervalls des gemeinsam identifizierten Zielobjekts (B1; B2) eine vorbestimmte Gesetzmäßigkeit aufweist.
Bilderkennungsvorrichtung (1) nach einem der Ansprüche 4 bis 6, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass eine Größenänderung des gemeinsamen identifizierten Zielobjekts (B1; B2) eine vorbestimmte Gesetzmäßigkeit aufweist.
Bilderkennungsvorrichtung (1) nach einem der Ansprüche 1 bis 7, wobei die priorisierte Extraktionseinrichtung (22) ein neuronales Netzwerk (23) zur Erkennung des Zielobjekts (B1; B2) unter Verwendung von Informationen über die Zeitreiheneinzelbilder (50) enthält, und das neuronale Netzwerk (23) zum Lernen über Deep Learning derart eingerichtet ist, dass das erste Zielobjekt (B1; B2) mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt (B1; B2) extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
Bilderkennungsvorrichtung (1) nach Anspruch 8, wobei, wenn das neuronale Netzwerk (23) über Deep Learning lernt, ein aus einer Verlustfunktion auszugebender Fehler zum Aktualisieren eines Synapsengewichts in dem neuronalen Netzwerk (23) so angepasst wird, dass er bei dem ersten Zielobjekt (B1; B2) mit dem Umgebungsänderungsmerkmal kleiner als bei dem zweiten Zielobjekt (B1; B2) ist, das das Umgebungsänderungsmerkmal nicht aufweist.
Bilderkennungsvorrichtung (1) nach einem der Ansprüche 1 bis 9, ferner mit einer Bildauswahleinrichtung (10) zur Eingabe der Zeitreiheneinzelbilder (50), die durch Fotografieren der Umgebung von dem sich bewegenden Objekt aus erhalten werden, und zum Einstellen eines Einzelbildes (50) als Zielobjekt für die Bildverarbeitung, das bei einem vorbestimmten Abtastintervall aus den eingegebenen Einzelbildern (50) extrahiert wird, wobei die Bildauswahleinrichtung (10) zum Anpassen des Abtastintervalls derart eingerichtet ist, dass das Abtastintervall mit abnehmender Bewegungsgeschwindigkeit des sich bewegenden Objekts größer wird.
Bilderkennungsvorrichtung (1) nach Anspruch 1, wobei das sich bewegende Objekt ein Fahrzeug ist.
Bilderkennungsvorrichtung (1) mit einer Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Zeitreiheneinzelbildern (50), die durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, und einer priorisierten Extraktionseinrichtung (22) zum Extrahieren des Zielobjekts (B1; B2) in den Einzelbildern (50) über eine Bildverarbeitung für die Einzelbilder (50), wobei die priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2) eingerichtet ist, wobei das Umgebungsänderungsmerkmal ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2) ist, das für das durch die Zielobjekterkennungseinrichtung (21) identifizierte Zielobjekt (B1; B2) erforderlich ist, dass es unter den Zeitreiheneinzelbildern (50) als gemeinsames Zielobjekt (B1; B2) eingeschätzt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird, und Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts (B1; B2).
Bilderkennungsvorrichtung (1) nach Anspruch 12, wobei das sich bewegende Objekt ein Fahrzeug ist.