DE102020110157A1 - Bilderkennungsvorrichtung - Google Patents

Bilderkennungsvorrichtung Download PDF

Info

Publication number
DE102020110157A1
DE102020110157A1 DE102020110157.0A DE102020110157A DE102020110157A1 DE 102020110157 A1 DE102020110157 A1 DE 102020110157A1 DE 102020110157 A DE102020110157 A DE 102020110157A DE 102020110157 A1 DE102020110157 A1 DE 102020110157A1
Authority
DE
Germany
Prior art keywords
target object
feature
recognition device
image
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020110157.0A
Other languages
English (en)
Inventor
Shin Koike
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of DE102020110157A1 publication Critical patent/DE102020110157A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

Eine Bilderkennungsvorrichtung (1) umfasst eine Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Einzelbildern (50) und eine priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2), die sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts (B1; B2), das unter den Einzelbildern (50) gemeinsam identifiziert wird.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Bilderkennungsvorrichtung zur Erkennung eines Zielobjekts aus Zeitreiheneinzelbildern.
  • Beschreibung der verwandten Technik
  • Eine Vorrichtung zur Erkennung von Objekten um ein Fahrzeug beruhend auf Bildern, die durch Fotografieren einer Umgebung mit einer fahrzeugseitigen Kamera erhalten werden, und Fahrunterstützung beruhend auf Erkennungsinformationen ist bekannt. Beispielsweise schlägt die japanische ungeprüfte Patentanmeldungsoffenlegung Nr. 2017-162438 ( JP 2017-162438 A ) eine Gefahrenvorhersageeinrichtung vor, die derart eingerichtet ist, dass ein neuronales Netzwerk ein durch eine fahrzeugseitige Kamera aufgenommenes eingegebenes Bild beschafft und einen gefährlichen Bereich in dem eingegebenen Bild und Merkmale in dem gefährlichen Bereich schätzt.
  • You Only Look Once (YOLO) und Single Shot Multibox Detector (SSD) sind beispielsweise als Verfahren zur Erfassung der Position eines Objekts in einem eingegebenen Bild und zum Identifizieren des Objekts (Identifizieren, was das Objekt ist) über eine Bildverarbeitung bekannt.
  • KURZZUSAMMENFASSUNG DER ERFINDUNG
  • Wird ein Objekt in einem eingegebenen Bild aus dem Bild erkannt, und sind die Positionserfassungsgenauigkeit und die Identifikationsgenauigkeit für das erkannte Objekt (das nachstehend als Zielobjekt bezeichnet wird) gering, besteht die Möglichkeit, dass ein Steuersystem, das unter Verwendung eines Bilderkennungsergebnisses zu implementieren ist, nicht geeignet betrieben werden kann. Daher soll die Zielobjekterkennungsgenauigkeit verbessert werden.
  • Die vorliegende Erfindung stellt ein Verfahren zur Verbesserung der Zielobjekterkennungsgenauigkeit bereit.
  • Eine erste Ausgestaltung der vorliegenden Erfindung bezieht sich auf eine Bilderkennungsvorrichtung. Die Bilderkennungsvorrichtung ist zum Extrahieren eines Zielobjekts in Zeitreiheneinzelbildern über eine Bildverarbeitung für die Einzelbilder und Ausgeben von sich auf das extrahierte Zielobjekt beziehenden Zielobjektinformationen eingerichtet. Die Einzelbilder werden durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten. Die Bilderkennungsvorrichtung umfasst eine Zielobjekterkennungseinrichtung und eine priorisierte Extraktionseinrichtung. Die Zielobjekterkennungseinrichtung ist zur Durchführung einer Positionserfassung und Identifikation für das Zielobjekt in jedem der Einzelbilder eingerichtet. Die priorisierte Extraktionseinrichtung ist zum Extrahieren eines ersten Zielobjekts mit einem Umgebungsänderungsmerkmal mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts, das unter den Zeitreiheneinzelbildern gemeinsam identifiziert wird.
  • Die Bilderkennungsvorrichtung der ersten Ausgestaltung ist zum Extrahieren eines Zielobjekts in Zeitreiheneinzelbildern über eine Bildverarbeitung für die Einzelbilder und Ausgeben von sich auf das extrahierte Zielobjekt beziehenden Zielobjektinformationen eingerichtet. Die Einzelbilder werden durch Fotografieren einer Umgebung von einem sich bewegenden Objekt, wie einem Fahrzeug aus, erhalten. Die Extraktion des Zielobjekts bedeutet, dass das in den Einzelbildern erkannte Zielobjekt ausgewählt wird, um seine Zielobjektinformationen auszugeben. Das extrahierte Zielobjekt ist somit ein durch die Bilderkennungsvorrichtung erkanntes Zielobjekt, und sich auf das Zielobjekt beziehende Zielobjektinformationen werden aus der Bilderkennungsvorrichtung ausgegeben.
  • Die Bilderkennungsvorrichtung der ersten Ausgestaltung umfasst die Zielobjekterkennungseinrichtung und die priorisierte Extraktionseinrichtung. Die Zielobjekterkennungseinrichtung ist zur Durchführung einer Positionserfassung und Identifikation (Identifikation, was das Zielobjekt ist) für das Zielobjekt in jedem der Einzelbilder eingerichtet.
  • Wenn die Zielobjekterkennungseinrichtung das Zielobjekt in jedem der Einzelbilder erkennt (die Positionserfassung und die Identifikation angemessen sind), weist die Positionsänderung des Zielobjekts, das unter den Einzelbildern gemeinsam identifiziert wird, ein Merkmal auf, das sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Wenn das Zielobjekt nicht richtig erkannt werden kann, weist die Positionsänderung des Zielobjekts, das unter den Einzelbildern gemeinsam identifiziert wird, das Merkmal nicht auf, das sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird.
  • Die priorisierte Extraktionseinrichtung ist daher zum Extrahieren des ersten Zielobjekts mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt eingerichtet, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts, das unter den Zeitreiheneinzelbildern gemeinsam identifiziert wird. Die Bilderkennungsvorrichtung ist zum Einstellen des extrahierten Zielobjekts als durch die Bilderkennungsvorrichtung erkanntes Zielobjekt und zur Ausgabe von sich auf das Zielobjekt beziehenden Zielobjektinformationen eingerichtet.
  • Gemäß der ersten Ausgestaltung kann die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung verbessert werden.
  • Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal einer Größenänderung des Zielobjekts zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts enthalten.
  • Das Umgebungsänderungsmerkmal zeigt sich auch in der Größenänderung des Zielobjekts. Daher umfasst das Umgebungsänderungsmerkmal bei der ersten Ausgestaltung vorliegender Erfindung das Merkmal der Größenänderung des Zielobjekts zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden.
  • Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass eine Positionsänderung zwischen den Einzelbildern kleiner oder gleich einem vorbestimmten Betrag für ein Zielobjekt ist, das an einer Position nahe einem Fluchtpunkt eines Bewegungsvektors erkannt wird.
  • Der Fluchtpunkt des Bewegungsvektors ist ein Punkt, wo Geraden einer Vielzahl von Bewegungsvektoren einander schneiden. Das an der Position nahe dem Fluchtpunkt des Bewegungsvektors erkannte Zielobjekt hat daher eine geringe Positionsänderung zwischen den Einzelbildern. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal das vorstehend beschriebene Merkmal enthält.
  • Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass das gemeinsam identifizierte Zielobjekt sich entlang einer Geraden bewegt. Das Umgebungsänderungsmerkmal kann ein Merkmal enthalten, dass das unter den Einzelbildern gemeinsam identifizierte Zielobjekt sich entlang einer Geraden bewegt, die das Zielobjekt in einem beliebigen Einzelbild und einen Fluchtpunkt eines Bewegungsvektors verbindet.
  • Wenn das Zielobjekt in jedem der Einzelbilder korrekt erkannt wird (die Positionserfassung und die Identifikation angemessen sind), bewegt sich das unter den Einzelbildern gemeinsam identifizierte Zielobjekt entlang einer Geraden, die durch den Fluchtpunkt des Bewegungsvektors läuft. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal die vorstehend beschriebenen Merkmale enthält.
  • Bei der ersten Ausgestaltung kann das Umgebungsänderungsmerkmal ein Merkmal enthalten, dass eine Änderung in einem Bewegungsintervall des gemeinsam identifizierten Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist. Das Umgebungsänderungsmerkmal kann ferner ein Merkmal enthalten, dass eine Größenänderung des gemeinsam identifizierten Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist.
  • Wenn das Zielobjekt in jedem der Einzelbilder korrekt erkannt wird (die Positionserfassung und die Identifikation angemessen sind), bewegt sich das unter den Einzelbildern gemeinsam identifizierte Zielobjekt entlang einer Geraden. Zu diesem Zeitpunkt hat die Änderung in dem Bewegungsintervall des Zielobjekts die vorbestimmte Gesetzmäßigkeit. Ferner hat die Größenänderung des Zielobjekts die vorbestimmte Gesetzmäßigkeit. Beispiele der Gesetzmäßigkeit umfassen eine Gesetzmäßigkeit, dass die Änderungsrate des Bewegungsintervalls des Zielobjekts konstant ist, und eine Gesetzmäßigkeit, dass die Größenänderungsrate des Zielobjekts konstant ist. Mit der vorstehend beschriebenen Konfiguration kann die Zielobjekterkennungsgenauigkeit weiter verbessert werden, da das Umgebungsänderungsmerkmal die vorstehend beschriebenen Merkmale enthält.
  • Bei der ersten Ausgestaltung vorliegender Erfindung kann die priorisierte Extraktionseinrichtung ein neuronales Netzwerk enthalten, das zur Erkennung des Zielobjekts unter Verwendung von Informationen über die Zeitreiheneinzelbilder eingerichtet ist. Das neuronale Netzwerk kann zum Lernen über Deep Learning derart konfiguriert sein, dass das erste Zielobjekt mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
  • Beispielsweise kann ein rückgekoppeltes neuronales Netzwerk als das neuronale Netzwerk zur Verarbeitung der Vielzahl von Einzelbilder in Zeitreihen verwendet werden.
  • Gemäß der vorstehend beschriebenen Konfiguration kann das neuronale Netzwerk die Zielobjekterkennung unter Verwendung der Vielzahl von Zeitreiheneinzelbildern lernen. Das neuronale Netzwerk kann beispielsweise eine Bewegung des ersten Zielobjekts mit dem Umgebungsänderungsmerkmal über Deep Learning unter Verwendung der Zeitreiheneinzelbilder lernen. Das erste Zielobjekt mit dem Umgebungsänderungsmerkmal kann daher mit Priorität gegenüber dem zweiten Zielobjekt extrahiert werden, das das Umgebungsänderungsmerkmal nicht aufweist. Die Zeitreiheneinzelbilder zur Verwendung beim Lernen müssen kein Bewegtbild darstellen, sondern können Einzelbilder sein, die in einer vorbestimmten Reihenfolge zu verarbeiten sind.
  • Wenn bei der ersten Ausgestaltung vorliegender Erfindung das neuronale Netzwerk über Deep Learning lernt, kann ein von einer Verlustfunktion zur Aktualisierung eines Synapsengewichts in dem neuronalen Netzwerk auszugebender Fehler derart angepasst werden, dass er in dem ersten Zielobjekt mit dem Umgebungsänderungsmerkmal kleiner als in dem zweiten Zielobjekt ist, das das Umgebungsänderungsmerkmal nicht aufweist.
  • Wenn das neuronale Netzwerk lernt, werden ein durch das neuronale Netzwerk geschätzter Wert und ein korrekter Wert in die Verlustfunktion eingegeben, und die Verlustfunktion berechnet einen Fehler, der größer wird, wenn sich eine Differenz zwischen diesen Werten erhöht. Eine Berechnung wird zum Erhalten eines Aktualisierungsbetrags des Synapsengewichts in dem neuronalen Netzwerk durchgeführt, der größer wird, wenn der Fehler größer wird. Der geschätzte Wert des neuronalen Netzwerks ist daher näher an dem korrekten Wert.
  • Mit der vorstehend beschriebenen Konfiguration kann das neuronale Netzwerk derart trainiert werden, dass das erste Zielobjekt mit dem Umgebungsänderungsmerkmal leichter als das zweite Zielobjekt extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
  • Bei der ersten Ausgestaltung vorliegender Erfindung kann die Bilderkennungsvorrichtung eine Bildauswahleinrichtung zur Eingabe der Zeitreiheneinzelbilder, die durch Fotografieren der Umgebung von dem sich bewegenden Objekt aus erhalten werden, und zur Einstellung eines Einzelbildes als Zielobjekt für die Bildverarbeitung enthalten, das mit einem vorbestimmten Abtastintervall aus den eingegebenen Einzelbildern extrahiert wird. Die Bildauswahleinrichtung kann zum Anpassen des Abtastintervalls derart eingerichtet sein, dass sich das Abtastintervall mit Verringerung einer Bewegungsgeschwindigkeit des sich bewegenden Objekts vergrößert.
  • Mit der vorstehend beschriebenen Konfiguration kann eine Verzögerung in der Zielobjekterfassung verhindert werden, während eine Berechnungslast der Bildverarbeitung verringert wird.
  • Bei der ersten Ausgestaltung kann das sich bewegende Objekt ein Fahrzeug sein.
  • Eine zweite Ausgestaltung vorliegender Erfindung bezieht sich auf eine Bilderkennungsvorrichtung. Die Bilderkennungsvorrichtung enthält eine Zielobjekterkennungseinrichtung zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt in jedem von Zeitreiheneinzelbildern, die durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, und eine priorisierte Extraktionseinrichtung zum Extrahieren des Zielobjekts in den Einzelbildern über eine Bildverarbeitung für die Einzelbilder. Die priorisierte Extraktionseinrichtung ist zum Extrahieren eines ersten Zielobjekts, das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts, die erforderlich ist, damit das durch die Zielobjekterkennungseinrichtung identifizierte Zielobjekt als gemeinsames Zielobjekt unter den Zeitreiheneinzelbildern geschätzt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird. Die priorisierte Extraktionseinrichtung ist zum Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts eingerichtet.
  • Bei der zweiten Ausgestaltung kann das sich bewegende Objekt ein Fahrzeug sein.
  • Gemäß der zweiten Ausgestaltung kann die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung verbessert werden.
  • Figurenliste
  • Nachstehend werden Merkmale, Vorteile und die technische und gewerbliche Bedeutung von Ausführungsbeispielen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, wobei gleiche Bezugszeichen gleiche Komponenten bezeichnen. Es zeigen:
    • 1 ein schematisches Blockschaltbild einer Bilderkennungsvorrichtung gemäß einem Ausführungsbeispiel,
    • 2 eine schematische Darstellung eines Lernsystems für ein rückgekoppeltes neuronales Netzwerk,
    • 3 eine Darstellung zur Erläuterung eines Bewegungsvektors,
    • 4 eine Darstellung zur Erläuterung eines Fluchtpunkts von Bewegungsvektoren,
    • 5A eine Darstellung zur Erläuterung des Fluchtpunkts der Bewegungsvektoren,
    • 5B eine Darstellung zur Erläuterung des Fluchtpunkts der Bewegungsvektoren,
    • 6 eine Darstellung zur Erläuterung von Zeitreiheneinzelbildern und Positionsänderungen eines Zielobjekts,
    • 7 eine Darstellung zur Erläuterung eines Prozesses eines Erfassens von Positionsbeziehungen eines Zielobjekts,
    • 8 eine Darstellung zur Erläuterung eines Lernablaufs des rückgekoppelten neuronalen Netzwerks,
    • 9 eine schematische Darstellung einer Fehlerberechnungseinheit,
    • 10A eine Darstellung zur Erläuterung einer Bewegung eines Zielobjekts,
    • 10B eine Darstellung zur Erläuterung einer Bewegung des Zielobjekts,
    • 11 ein schematisches Blockschaltbild einer Erkennungsleistungsbewertungsvorrichtung und
    • 12 eine schematische Darstellung eines Fahrassistenzsystems.
  • AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Nachstehend wird eine Bilderkennungsvorrichtung gemäß einem Ausführungsbeispiel vorliegender Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.
  • 1 zeigt ein schematisches Blockschaltbild der Bilderkennungsvorrichtung gemäß dem Ausführungsbeispiel vorliegender Erfindung. Eine Bilderkennungsvorrichtung 1 umfasst einen Mikrocomputer als Hauptkomponente (Steuereinrichtung). Die Bilderkennungsvorrichtung 1 umfasst eine Bildauswahleinheit 10 und eine Bildverarbeitungseinheit 20.
  • Die Bildauswahleinheit 10 gibt ein Bewegtbild 50, d.h., aufeinanderfolgende Zeitreiheneinzelbilder ein, wählt zu vorbestimmten Intervallen abgetastete Einzelbilder aus den eingegebenen Einzelbildern aus und führt die ausgewählten Einzelbilder der Bildverarbeitungseinheit 20 zu. Beträgt das Abtastintervall beispielsweise n, extrahiert die Bildauswahleinheit 10 jedes n-te Einzelbild aus Zeitreiheneinzelbildern und führt die extrahierten Einzelbilder der Bildverarbeitungseinheit 20 zu. Demnach wird eine Vielzahl von Einzelbildern, die zu gleichen Zeitintervallen erfasst werden, in die Bildverarbeitungseinheit 20 in der Reihenfolge der Bilderfassung eingegeben.
  • Die Bildverarbeitungseinheit 20 erkennt ein Objekt in Einzelbildern über eine Bildverarbeitung unter Verwendung eines neuronalen Netzwerks (künstlichen Intelligenzmodells) und gibt die Position des erkannten Objekts (das nachstehend als Zielobjekt bezeichnet wird) angebende Informationen und Informationen aus, die angeben, was das Zielobjekt ist.
  • Die Bildverarbeitungseinheit 20 enthält funktional eine Zielobjekterkennungsfunktionseinheit 21 und eine priorisierte Extraktionsfunktionseinheit 22. Die priorisierte Extraktionsfunktionseinheit 22 ist zur Verbesserung der Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung 1 enthalten.
  • Die Bilderkennungsvorrichtung 1 dieses Ausführungsbeispiels wird in einem System zur Steuerung eines Fahrzeugs während der Überwachung von Umgebungsbedingungen um das Fahrzeug (beispielsweise einem Fahrassistenzsystem oder einem autonomen Fahrsystem) verwendet. Beispiele von durch die Zielobjekterkennungsfunktionseinheit 21 zu erkennenden Zielobjekten umfassen ein Automobil, ein Fahrrad, einen Fußgänger, ein Verkehrszeichen und eine Ampel, die vorbestimmte Zielobjekte darstellen, die durch das Fahrzeugsteuersystem zu erkennen sind.
  • Die Zielobjekterkennungsfunktionseinheit 21 erkennt ein Zielobjekt in jedem von der Bildauswahleinheit 10 zugeführten Einzelbild unter Verwendung eines über Deep Learning trainierten neuronalen Netzwerks und erzeugt die Position des erkannten Zielobjekts angebende Informationen und eine Identifikationskennzeichnung, die angibt, was das Zielobjekt ist. Die Positionsinformationen und die Identifikationskennzeichnung des Zielobjekts werden insgesamt als Zielobjektinformationen bezeichnet.
  • Die Zielobjektinformationen umfassen die folgenden Informationen. Beispielsweise enthalten die Zielobjektinformationen Informationen darüber, ob eine vorbestimmte Anzahl von in einem Einzelbild definierten Rasterfeldern jeweils ein Objekt darstellen, wenn die Rasterfelder ein Objekt darstellen, Informationen, die vier Ecken eines Vierecks angeben, das das Objekt darstellt, und eine Identifikationskennzeichnung, die angibt, was das Objekt ist (Ähnlichkeit des Objekts). Die Identifikationskennzeichnung umfasst Informationen zum Identifizieren der Art eines Zielobjekts und Informationen über eine Wahrscheinlichkeit, dass das Zielobjekt als Objekt dieser Art eingeschätzt werden kann (eine Ähnlichkeit des Objekts zeigt). Die Identifikationskennzeichnung stellt beispielsweise Informationen darüber dar, dass die Art eines erkannten Zielobjekts ein Verkehrszeichen ist, das eine Geschwindigkeitsbegrenzung auf 60 km/h angibt, und seine Wahrscheinlichkeit bei 0,8 (80%) liegt.
  • Als Verfahren zur Erfassung der Position eines Zielobjekts und Identifikation des Zielobjekts aus einem Einzelbild kann ein vorbestimmtes Verfahren (beispielsweise You Only Look Once (YOLO) oder Single Shot Multibox Detector (SSD)) angewendet werden. YOLO ist beispielsweise ein Verfahren zur Erfassung der Position eines Zielobjekts und Identifikation des Zielobjekts durch Eingeben des gesamten Einzelbildes in ein neuronales Faltungsnetzwerk.
  • Diese Verfahren sollen ein Zielobjekt alleine in einem Einzelbild erkennen, sind aber hinsichtlich einer Zielobjekterkennungsgenauigkeit alleine nicht gut. Insbesondere bei der Erfassung einer Erkennungsposition ist eine gewünschte Genauigkeit schwer zu erhalten. Ferner können einige Arten von Zielobjekten, wie ein Verkehrszeichen, schwer zu identifizieren sein.
  • Ein Objekt in einem Bewegtbild, das durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhalten wird, zeigt eine charakteristische Bewegung zwischen Einzelbildern. Wenn eine Bewegung eines Zielobjekts zwischen Einzelbildern als charakteristische Bewegung erfasst wird, kann geschätzt werden, dass das Zielobjekt korrekt erkannt ist. Die priorisierte Extraktionsfunktionseinheit 22 verbessert die Erkennungsgenauigkeit der Bilderkennungsvorrichtung 1 durch Extrahieren eines Zielobjekts, das die charakteristische Bewegung zeigt, mit Priorität unter den durch die Zielobjekterkennungsfunktionseinheit 21 erkannten Zielobjekten.
  • Das Merkmal der Bewegung des Zielobjekts wird nachstehend als Umgebungsänderungsmerkmal bezeichnet.
  • Das Umgebungsänderungsmerkmal wird wie folgt eingestellt.
    1. 1. Ein Zielobjekt nahe einem Fluchtpunkt weist eine kleine Positionsänderung zwischen Einzelbildern auf.
    2. 2. Das Zielobjekt bewegt sich entlang einer den Fluchtpunkt und das Zielobjekt verbindenden Geraden.
    3. 3. Die Bewegung des Zielobjekts ist gleichmäßig. Die Position des Zielobjekts ändert sich linear.
  • Änderungen bezüglich eines Bewegungsintervalls des Zielobjekts sind zwischen Einzelbildern konstant.
  • Größenänderungen des Zielobjekts sind zwischen Einzelbildern konstant.
  • Der hier angeführte „Fluchtpunkt“ bezieht sich auf einen Fluchtpunkt von Bewegungsvektoren. Wenn sich beispielsweise ein beliebiges Bildelement von Interesse (i, j) in einem anderen Einzelbild an einen anderen Ort (k, I) bewegt, wie es in 3 veranschaulicht ist, ist ein die Bewegung angebender Vektor ein Bewegungsvektor des Bildelements von Interesse. In einem durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhaltenen Bewegtbild (Zeitreiheneinzelbildern) wird ein Punkt P bestimmt, wo sich Geraden von Bewegungsvektoren schneiden, wie es in 4, 5A und 5B dargestellt ist. Der Punkt P ist ein Fluchtpunkt der Bewegungsvektoren. 5A veranschaulicht einen Fluchtpunkt P, wenn das Fahrzeug geradeaus fährt. 5B veranschaulicht einen Fluchtpunkt P, wenn das Fahrzeug nach links abbiegt.
  • Positionsinformationen eines Zielobjekts sind durch vier Ecken des Zielobjekts dargestellt. Eine Positionsänderung des Zielobjekts kann daher beispielsweise als Änderung einer zentralen Position des Zielobjekts betrachtet werden. Die Größe des Zielobjekts kann als durch die vier Ecken des Zielobjekts definierter Bereich betrachtet werden.
  • Wenn Objekte in einer Umgebung aus einem Bewegtbild der durch eine fahrzeugseitige Kamera fotografierten Umgebung erkannt werden, und wenn Bewegungen eines in jeweiligen Einzelbildern erkannten Zielobjekts (Änderungen der Position des Zielobjekts zwischen Einzelbildern) ein Umgebungsänderungsmerkmal zeigen, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden. Das in den Einzelbildern erkannte Zielobjekt kann somit als korrekt erkanntes Zielobjekt beurteilt werden.
  • Beispielsweise kann ein nahe einem Fluchtpunkt befindliches Zielobjekt mit einer geringen Bewegung zwischen Einzelbildern als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 1).
  • Befindet sich ein in einem beliebigen Einzelbild erkanntes Zielobjekt auf einer Geraden, die einen Fluchtpunkt und das in einem anderen Einzelbild erkannte Zielobjekt verbindet, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 2).
  • Wenn sich die Position des erkannten Zielobjekts zwischen Einzelbildern gleichmäßig ändert, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 3). Wenn sich das Zielobjekt beispielsweise derart ändert, dass es sich entlang einer Geraden bewegt und die Änderungsrate eines Bewegungsintervalls des Zielobjekts oder die Größenänderungsrate des Zielobjekts konstant ist, kann das in den Einzelbildern erkannte Zielobjekt als gemeinsames Zielobjekt (selbes Zielobjekt) beurteilt werden (Umgebungsänderungsmerkmal 3).
  • Bei dem Umgebungsänderungsmerkmal 3 ist lediglich erforderlich, dass die Änderung des Bewegungsintervalls des Zielobjekts oder die Größenänderung des Zielobjekts eine vorbestimmte Gesetzmäßigkeit aufweist. Das in den Einzelbildern erkannte Zielobjekt kann beispielsweise auch als gemeinsames Zielobjekt (selbes Zielobjekt) betrachtet werden, wenn der Änderungsbetrag des Bewegungsintervalls des Zielobjekts oder der Größenänderungsbetrag des Zielobjekts konstant ist. Das heißt, das Zielobjekt kann als korrekt erkanntes Zielobjekt betrachtet werden.
  • 6 zeigt Einzelbilder, die durch Fotografieren eines Bereichs vor einem Fahrzeug mit einer fahrzeugseitigen Kamera erhalten werden. Die Einzelbilder werden bei den Abtastintervallen n sequentiell gelesen. Unter Konzentration auf die Position eines Verkehrszeichens (das als Zielobjekt B1 bezeichnet wird) in den Einzelbildern sind das in einem Einzelbild mit einer Bildnummer 1 erkannte Zielobjekt B1, das in einem Einzelbild mit einer Bildnummer (n+1) erkannte Zielobjekt B1 und das in einem Einzelbild mit einer Bildnummer (1+2n) erkannte Zielobjekt B1 im Wesentlichen kollinear angeordnet. Das heißt, die Zielobjekte B1 sind in einer Projektion der drei überlagerten Einzelbilder im Wesentlichen kollinear angeordnet.
  • Eine Änderung des Bewegungsintervalls des Zielobjekts B1 und eine Größenänderung des Zielobjekts B1 weisen vorbestimmte Gesetzmäßigkeiten auf. Das heißt, das Bewegungsintervall und die Größe des Zielobjekts B1 werden mit steigender Entfernung von einem Fluchtpunkt von Bewegungsvektoren größer. Das Zielobjekt B1 befindet sich in einem beliebigen Einzelbild auf einer Geraden, die den Fluchtpunkt der Bewegungsvektoren und die Position des Zielobjekts B1 in einem anderen Einzelbild verbindet. Das Zielobjekt B1 erfüllt somit die Umgebungsänderungsmerkmale 2 und 3.
  • Ein vorausfahrendes Fahrzeug (das als Zielobjekt B2 bezeichnet wird), das vor dem Fahrzeug von Interesse fährt, weist eine geringe Positionsänderung zwischen den Einzelbildern auf. Der Grund dafür ist, dass sich das Zielobjekt B2 nahe dem Fluchtpunkt befindet. Das Zielobjekt B2 erfüllt somit das Umgebungsänderungsmerkmal 1.
  • Die Zielobjekte, die eines der Umgebungsänderungsmerkmale 1 bis 3 erfüllen, können als korrekt erkannte Zielobjekte beurteilt werden.
  • Als Nächstes wird ein Verfahren zum Erfassen einer Bewegung (einer Positionsbeziehung) eines Zielobjekts zwischen Einzelbildern beschrieben. Die priorisierte Extraktionsfunktionseinheit 22 verarbeitet beispielsweise von der Bildauswahleinheit 10 zugeführte Einzelbilder derart, dass eine vorbestimmte Anzahl von Einzelbildern, die in der Reihenfolge der Zuführung (Reihenfolge der Eingabe) angeordnet sind, als ein Satz definiert sind. In diesem Fall ist die vorbestimmte Anzahl 3. Eine Bewegung (Positionsbeziehung) eines Zielobjekts zwischen den Einzelbildern eines Satzes (von drei Einzelbildern) kann somit erfasst werden, wenn Teile von Positionsinformationen der Zielobjekte, denen eine gemeinsame Identifikationskennzeichnung zugeordnet ist, in den jeweiligen Einzelbildern bekannt sind.
  • In diesem Fall absolviert die Zielobjekterkennungsfunktionseinheit 21 eine Positionserfassung des Zielobjekts und Zuordnung der Identifikationskennzeichnung zu dem Zielobjekt. Für die Positionserfassung des Zielobjekts und Zuordnung der Identifikationskennzeichnung zu dem Zielobjekt in einem einzelnen Einzelbild kann beispielsweise YOLO oder SSD verwendet werden.
  • Wenn das Abtastintervall von durch die Bildauswahleinheit 10 abzutastenden Einzelbildern beispielsweise n (>1) ist, und eine vorbestimmte Anzahl 3 ist, werden ein Bild 1, das ein erstes eingegebenes Einzelbild ist, ein Bild (1+n), das ein (1+n)-tes Einzelbild ist, und ein Bild (1+2n), das ein (1+2n)-tes Einzelbild ist, als ein Bildsatz definiert, wie es in 7 veranschaulicht ist. Die drei Einzelbilder, die den Bildsatz bilden, werden nachstehend als Zielobjektbilder bezeichnet. Der Bildsatz wird unter Verwendung der Nummer eines mittleren (zweiten) Bildes aus den drei Zielobjektbildern identifiziert. Bei diesem Beispiel wird zuerst ein Bildsatz (1+n) eingestellt. Die Anzahl von Zielobjektbildern, die den Bildsatz bilden, ist nicht auf drei beschränkt, sondern kann beliebig eingestellt werden.
  • Die priorisierte Extraktionsfunktionseinheit 22 verknüpft Zielobjekte, die in den Zielobjektbildern des Bildsatzes (1+n) erkannt werden und eine gemeinsame Identifikationskennzeichnung aufweisen, und beschafft Positionsbeziehungen der verknüpften Zielobjekte. Wenn die priorisierte Extraktionsfunktionseinheit 22 das Beschaffen der Positionsbeziehungen all der Zielobjekte abschließt, die in den Zielobjektbildern erkannt werden und die gemeinsame Identifikationskennzeichnung aufweisen, führt die priorisierte Extraktionsfunktionseinheit 22 einen ähnlichen Prozess für drei Zielobjektbilder eines nächsten Bildsatzes (1+2n) zur Beschaffung von Positionsbeziehungen von Zielobjekten mit der gemeinsamen Identifikationskennzeichnung durch. Die Zielobjekte mit der gemeinsamen Identifikationskennzeichnung sind Zielobjekte, die hinsichtlich Arten gemein sind, in die die Zielobjekte als spezifisches Objekt eingeschätzt werden.
  • Wenn der Bildsatz in einen nächsten Bildsatz wechselt, überträgt (speichert) die priorisierte Extraktionsfunktionseinheit 22 einen Identifizierer (ID) zum Identifizieren des vorhergehenden Bildsatzes und Informationen über Positionsbeziehungen von in dem vorhergehenden Bildsatz extrahierten Zielobjekten zu (in) dem nächsten Bildsatz.
  • Wenn die priorisierte Extraktionsfunktionseinheit 22 die Positionsbeziehungen zwischen den Zielobjekten in den Zielobjektbildern des Bildsatzes (1+2n) beschafft, führt die priorisierte Extraktionsfunktionseinheit 22 einen ähnlichen Prozess für drei Zielobjektbilder eines nächsten Bildsatzes (1+3n) durch. Durch Wiederholen des vorstehend beschriebenen Prozesses können Positionsbeziehungen von Zielobjekten mit der gemeinsamen Identifikationskennzeichnung in jedem n-ten Einzelbild und ferner eine Verschiebung der Positionsbeziehungen erfasst werden.
  • Wenn die Positionserfassung und die Identifikation eines Zielobjekts korrekt sind, zeigt die Bewegung des Zielobjekts zwischen Einzelbildern ein Umgebungsänderungsmerkmal. Wenn die Positionserfassung oder die Identifikation des Zielobjekts inkorrekt ist, ist es aber schwierig, dass das Umgebungsänderungsmerkmal gezeigt wird. Das Umgebungsänderungsmerkmal wird beispielsweise nicht gezeigt, wenn die Identifikation in einem spezifischen Einzelbild unter den Einzelbildern inkorrekt ist. Das Umgebungsänderungsmerkmal wird nicht gezeigt, wenn die Positionserfassung in einem spezifischen Einzelbild unter den Einzelbildern inkorrekt ist. Das Umgebungsänderungsmerkmal wird nicht gezeigt, wenn die Zielobjekte in den Einzelbildern inkorrekt verknüpft sind.
  • Wenn die Zielobjekte mit der gemeinsamen Identifikationskennzeichnung in den Einzelbildern das Umgebungsänderungsmerkmal hinsichtlich ihrer Positionsbeziehungen aufweisen, extrahiert die priorisierte Extraktionsfunktionseinheit 22 die Zielobjekte mit Priorität gegenüber Zielobjekten ohne ein Umgebungsänderungsmerkmal und veranlasst die Bilderkennungsvorrichtung 1 zur Ausgabe von Zielobjektinformationen über die extrahierten Zielobjekte. Somit können Informationen über Zielobjekte ausgegeben werden, die als korrekt erkannt beurteilt werden können. Die priorisierte Extraktionsfunktionseinheit 22 kann zum Extrahieren eines ersten Zielobjekts mit einem Umgebungsänderungsmerkmal mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet sein, das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal kann ein Merkmal über eine Positionsänderung des Zielobjekts sein, das sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung kann eine Positionsänderung des Zielobjekts sein, das gemeinsam unter den Zeitreiheneinzelbildern identifiziert wird. Die priorisierte Extraktionsfunktionseinheit 22 kann ferner zum Extrahieren des Zielobjekts in den Einzelbildern über eine Bildverarbeitung für die Einzelbilder eingerichtet sein. Die priorisierte Extraktionsfunktionseinheit 22 kann zum Extrahieren eines ersten Zielobjekts, das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt eingerichtet sein. Das Umgebungsänderungsmerkmal kann ein Merkmal über eine Positionsänderung des Zielobjekts sein, damit das durch die Zielobjekterkennungseinrichtung identifizierte Zielobjekt als gemeinsames Zielobjekt unter den Zeitreiheneinzelbildern beurteilt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird.
  • Die priorisierte Extraktionsfunktionseinheit 22 wurde zur Erleichterung des Verständnisses der Funktionen der priorisierten Extraktionsfunktionseinheit 22 beschrieben. Tatsächlich können die Funktionen unter Verwendung eines neuronalen Netzwerks, wie eines rückgekoppelten neuronalen Netzwerks erzielt werden, das Prozesse unter Berücksichtigung vorhergehender und nachfolgender Abschnitte von Zeitreiheninformationen durchführen kann, und indem ein Lernverfahren für das neuronale Netzwerk angemessen eingestellt wird.
  • Das Lernen des neuronalen Netzwerks wird Deep Learning genannt. Bei einem allgemeinen Deep Learning werden ein durch das neuronale Netzwerk geschätzter Ausgangswert und ein korrekter Wert von Trainingsdaten in eine Verlustfunktion eingegeben. Wenn sich eine Differenz zwischen dem Ausgangswert des neuronalen Netzwerks und dem korrekten Wert der Trainingsdaten erhöht, ist ein aus der Verlustfunktion ausgegebener Fehler ein größerer Wert. Bei Deep Learning werden ein Synapsengewicht zwischen einer Eingangsschicht und einer Zwischenschicht und ein Synapsengewicht zwischen der Zwischenschicht und einer Ausgangsschicht in dem neuronalen Netzwerk unter Verwendung von Backpropagation zur Minimierung des aus der Verlustfunktion ausgegebenen Fehlers aktualisiert. Durch Wiederholen dieses Prozesses wird die Schätzungsgenauigkeit des neuronalen Netzwerks verbessert.
  • In der Bilderkennungstechnik wird das neuronale Netzwerk unter Verwendung eines Lernbildes und von Anmerkungsdaten trainiert, die mit dem Lernbild verbunden sind. Die Anmerkungsdaten sind korrekte Daten, die angeben, was ein Objekt in dem Lernbild ist, und wo sich das Objekt befindet, d.h., korrekte Daten über eine Identifikationskennzeichnung und eine erfasste Position. In der Identifikationskennzeichnung der korrekten Daten ist die eine Ähnlichkeit des Objekts zeigende Wahrscheinlichkeit 1,0.
  • In diesem Fall werden eine Positionsverlustfunktion und eine Identifikationsverlustfunktion bereitgestellt. Eine durch das neuronale Netzwerk geschätzte Position eines Zielobjekts und eine korrekte Position der Anmerkungsdaten werden in die Positionsverlustfunktion eingegeben. Eine durch das neuronale Netzwerk geschätzte Identifikationskennzeichnung des Zielobjekts und eine korrekte Identifikationskennzeichnung der Anmerkungsdaten werden in die Identifikationsverlustfunktion eingegeben. Synapsengewichte zwischen Schichten in dem neuronalen Netzwerk werden unter Verwendung eines Gesamtfehlers aktualisiert, der durch Addieren der aus beiden Verlustfunktionen ausgegebenen Fehler erhalten wird. Das neuronale Netzwerk wird auf diese Weise trainiert.
  • Bei diesem Ausführungsbeispiel wird das neuronale Netzwerk hauptsächlich durch das vorstehend beschriebene Lernverfahren trainiert. Dieses Ausführungsbeispiel stellt eine Funktion einer Anpassung des aus den Verlustfunktionen auszugebenden Gesamtfehlers in Abhängigkeit davon bereit, ob das Zielobjekt das Umgebungsänderungsmerkmal zeigt. Die Bildverarbeitungseinheit 20 enthält daher das rückgekoppelte neuronale Netzwerk, das ein Zielobjekt in einem Einzelbild unter Berücksichtigung vorhergehender und nachfolgender Abschnitte von Zeitreiheninformationen erkennt. Das rückgekoppelte neuronale Netzwerk wird nachstehend mit RNN abgekürzt.
  • 2 veranschaulicht die Konfiguration eines Lernsystems für ein RNN 23. Das RNN 23 ist ein rückgekoppeltes neuronales Netzwerk der Bildverarbeitungseinheit 20. Das RNN 23 ist mit einer Trainingseinrichtung 100 verbunden. Die Trainingseinrichtung 100 speichert Lernbilder 110 und Anmerkungsdaten 120 und trainiert das RNN 23 durch Zuführen der Lernbilder 110 und der Anmerkungsdaten 120 zu dem RNN 23.
  • Die Anmerkungsdaten 120 enthalten Anpassungswertdaten zusätzlich zu den korrekten Daten über eine Position und eine Identifikationskennzeichnung. Die Anpassungswertdaten geben einen Anpassungswert α zur Anpassung von aus Verlustfunktionen auszugebenden Fehlern an.
  • Die Lernbilder 110 sind eine Vielzahl von Einzelbildern, die Einzelbilder enthalten, in denen sich die Position eines Zielobjekts in den Bildern mit einem Umgebungsänderungsmerkmal ändert, wenn die Bilder in das RNN 23 mit vorbestimmter Reihenfolge eingegeben werden, und Einzelbilder, in denen sich die Position eines Zielobjekts in den Bildern nicht mit einem Umgebungsänderungsmerkmal ändert, wenn die Bilder in der vorbestimmten Reihenfolge in das RNN 23 eingegeben werden.
  • Der Anpassungswert α ist jedem Zielobjekt zugeordnet. Der Anpassungswert α ist auf einen Wert kleiner als 1,0 (beispielsweise 0,1) im Fall eines Zielobjekts eingestellt, das sich positionsmäßig mit einem Umgebungsänderungsmerkmal ändert, wenn die Lernbilder 110 in der vorbestimmten Reihenfolge eingegeben werden, und im Fall eines Zielobjekts auf 1,0 eingestellt, das sich positionsmäßig nicht mit einem Umgebungsänderungsmerkmal ändert, wenn die Lernbilder 110 in der vorbestimmten Reihenfolge eingegeben werden. Der Anpassungswert α muss nicht unbedingt in zwei Stufen eingestellt werden, sondern kann in drei oder mehr Stufen eingestellt werden, um einen kleineren Wert im Fall eines Zielobjekts aufzuweisen, das ein Umgebungsänderungsmerkmal auffallender zeigt.
  • 8 veranschaulicht einen Lernablauf des RNN 23. In 8 stellen Pfeile mit breiten durchgezogenen Linien eine Vorwärtsausbreitung dar, und Pfeile mit breiten gestrichelten Linien stellen eine Backpropagation dar. Daten breiten sich entlang der Pfeile mit durchgezogenen Linien ab einer Zeit T = 1 vorwärts aus. Zu jeder Zeit ändern sich Werte von Schichten. Daher werden diese Werte gespeichert. Während der Vorwärtsausbreitung wird ein Fehler zu jedem Zeitpunkt berechnet. Der Fehler zu jedem Zeitpunkt ist eine Differenz zwischen einem Ausgangswert des RNN 23 und einem korrekten Wert. Ein Fehler zu der gesamten Zeit wird durch Aufsummieren der Fehler zu den jeweiligen Zeiten erhalten.
  • In dem Beispiel in 8 beginnt das Lernen, wenn die Vorwärtsausbreitung für Daten bis zur Zeit T = 1+2n abgeschlossen ist. Bei dem Lernen des RNN 23 werden Synapsengewichte aktualisiert, indem ein Gradient des Fehlers zum Minimieren des Fehlers ähnlich wie beim Deep Learning eines allgemeinen neuronalen Netzwerks bestimmt wird, das keine Zeitreihenprozesse beinhaltet. Zu diesem Zeitpunkt beginnt das Lernen ab der Ausgangsschicht zur Zeit T = 1+2n in umgekehrter chronologischer Reihenfolge. Die Synapsengewichte werden zwischen der Zwischenschicht und der Ausgangsschicht, zwischen der Zwischenschicht und der Zwischenschicht und zwischen der Eingangsschicht und der Zwischenschicht aktualisiert.
  • Wie in 9 gezeigt, enthält das RNN 23 dieses Ausführungsbeispiels eine Fehlerberechnungseinheit 30 zur Berechnung eines Fehlers zur Aktualisierung der Synapsengewichte zwischen Schichten. Die Fehlerberechnungseinheit 30 enthält eine Verlustfunktionseinheit 31 und eine Anpassungseinheit 32. Die Verlustfunktionseinheit 31 gibt Ausgangswerte des RNN 23 und korrekte Werte der Anmerkungsdaten 120 zu den jeweiligen Zeiten in Verlustfunktionen ein und berechnet einen Fehler E0, der größer wird, wenn die Summe der Differenzen zwischen den Ausgangswerten des RNN 23 und den korrekten Werten der Anmerkungsdaten 120 zu den jeweiligen Zeiten größer wird. Der Fehler E0 wird als Voranpassungsfehler E0 bezeichnet.
  • Die Verlustfunktionseinheit 31 enthält beispielsweise eine Positionsverlustfunktion und eine Identifikationsverlustfunktion. Eine durch das RNN 23 geschätzte Position eines Zielobjekts und eine korrekte Position der Anmerkungsdaten 120 werden in die Positionsverlustfunktion eingegeben. Die Verlustfunktionseinheit 31 berechnet einen Positionsfehler, der größer wird, wenn ein Unterschied zwischen diesen größer wird.
  • Eine Identifikationskennzeichnung des Zielobjekts (Wahrscheinlichkeit, dass das Zielobjekt als Objekt von Interesse eingeschätzt wird), die durch das RNN 23 geschätzt wird, und eine korrekte Identifikationskennzeichnung der Anmerkungsdaten 120 werden in die Identifikationsverlustfunktion eingegeben. Die Verlustfunktionseinheit 31 berechnet einen Identifikationsfehler, der größer wird, wenn eine Differenz zwischen obigen Werten größer wird. Der Identifikationsfehler ist beispielsweise maximal, wenn die Identifikation inkorrekt ist (das Zielobjekt ist beispielsweise ein Automobil, wird aber als Fußgänger eingeschätzt), und wird größer, wenn eine Wahrscheinlichkeitsdifferenz größer wird, wenn die Identifikation korrekt ist. Die Verlustfunktionseinheit 31 gibt einen Fehler aus, der durch Addieren des Positionsfehlers und des Identifikationsfehlers erhalten wird. Dieser Fehler ist der Voranpassungsfehler E0.
  • Die Verlustfunktionseinheit 31 gibt den berechneten Voranpassungsfehler E0 aus. Der Voranpassungsfehler E0 wird in die Anpassungseinheit 32 eingegeben. Die Anpassungseinheit 32 gibt einen in den Anmerkungsdaten 120 enthaltenen Anpassungswert α ein und berechnet einen Nachanpassungsfehler E durch Multiplizieren des Voranpassungsfehlers E0 mit dem Anpassungswert α (E = E0 × α). Der Nachanpassungsfehler E ist der durch die Fehlerberechnungseinheit 30 berechnete Fehler.
  • Wie vorstehend beschrieben ist der Anpassungswert α auf einen Wert kleiner als 1,0 eingestellt, wenn ein Zielobjekt in den Lernbildern ein Zielobjekt mit einem Umgebungsänderungsmerkmal ist, und auf 1,0 eingestellt, wenn das Zielobjekt ein Zielobjekt ist, das kein Umgebungsänderungsmerkmal aufweist.
  • Im Fall von Lernbildern beispielsweise, in denen sich das Zielobjekt B entlang eines in 10A veranschaulichten Pfads bewegt, weist das Zielobjekt B ein Umgebungsänderungsmerkmal auf, und daher ist der Anpassungswert α auf einen kleinen Wert (beispielsweise 0,1) eingestellt. Im Fall von Lernbildern, in denen sich das Zielobjekt B entlang eines in 10B veranschaulichten Pfads bewegt, weist das Zielobjekt kein Umgebungsänderungsmerkmal auf, und daher ist der Anpassungswert α auf 1,0 eingestellt.
  • Das RNN 23 aktualisiert die Synapsengewichte zwischen Schichten zum Minimieren des Nachanpassungsfehlers E. Das heißt, es wird eine Backpropagation durchgeführt.
  • Der Nachanpassungsfehler E wird bei dem Zielobjekt mit einem Umgebungsänderungsmerkmal auf einen kleineren Wert als bei dem Zielobjekt angepasst, das kein Umgebungsänderungsmerkmal aufweist. Daher verringert sich der Aktualisierungsbetrag der Synapsengewichte bei der Backpropagation. Infolgedessen besteht die Fähigkeit zur Erkennung des Zielobjekts mit einem Umgebungsänderungsmerkmal weiter. Der Nachanpassungsfehler E wird bei dem Zielobjekt ohne Umgebungsänderungsmerkmal nicht auf einen kleinen Wert angepasst. Daher verringert sich der Aktualisierungsbetrag der Synapsengewichte bei der Backpropagation nicht. Das RNN 23 wird daher derart trainiert, dass das Zielobjekt, das kein Umgebungsänderungsmerkmal aufweist, kaum erkannt wird.
  • Das Lernen wird bei der Bilderkennungsvorrichtung 1 zur Erkennung eines Objekts in einem durch Fotografieren einer Umgebung von dem Fahrzeug aus erhaltenen Bewegtbild sehr effektiv durchgeführt. Die Erkennungsgenauigkeit (Positionserfassungsgenauigkeit und Zielobjektidentifikationsgenauigkeit) kann daher verbessert werden. Ferner kann die Genauigkeit einer Zielobjektverknüpfung zwischen Einzelbildern verbessert werden.
  • Anwendungsbeispiel 1 der Bilderkennungsvorrichtung
  • Die Bilderkennungsvorrichtung 1 kann beispielsweise in einer Erkennungsleistungsbewertungsvorrichtung für ein Fahrzeugsteuersystem angewendet werden. Wie es in 11 veranschaulicht ist, enthält eine Erkennungsleistungsbewertungsvorrichtung 200 beispielsweise eine Referenzbildbeschaffungseinheit 210, eine Zielobjekterkennungseinheit 220, eine Messdatenbeschaffungseinheit 230 und eine Systemerkennungseinheit 240.
  • Zur Bewertung der Erkennungsleistung des Fahrzeugsteuersystems ist eine Messkamera 250 in einem Fahrzeug zum Fotografieren einer Umgebung installiert, während das Fahrzeug auf einem vorbestimmten Kurs fährt. Die Referenzbildbeschaffungseinheit 210 beschafft ein durch die Messkamera 250 erfasstes Bewegtbild als Referenzbild. Die Zielobjekterkennungseinheit 220 durchsucht das Referenzbild zur Erkennung und Extraktion eines Zielobjekts (beispielsweise eines anderen Fahrzeugs oder eines Verkehrszeichens) in dem Referenzbild. Die Bilderkennungsvorrichtung 1 wird als Zielobjekterkennungseinheit 220 verwendet. Die Zielobjekterkennungseinheit 220 erzeugt und gibt Bilderkennungsinformationen über das aus dem Referenzbild erkannte Zielobjekt aus.
  • Synchron zum Fotografieren der Umgebung mit der Messkamera 250 werden verschiedene Arten von Messdaten in einem Speicher 260 gespeichert. Die Messdaten sind Zeitreihendaten über Messwerte zur Verwendung in dem Fahrzeugsteuersystem. Die Messdatenbeschaffungseinheit 230 beschafft die im Speicher 260 gespeicherten Messdaten. Die Systemerkennungseinheit 240 gibt die Messdaten in ein Modell des Fahrzeugsteuersystems ein und erzeugt und gibt Systemerkennungs-/Steuerinformationen aus, die angeben, wie das Fahrzeugsteuersystem Fahrbedingungen und Umgebungsbedingungen erkennt, um eine Steuerung durchzuführen. Die Bilderkennungsvorrichtung 1 des Ausführungsbeispiels wird in der Erkennungsleistungsbewertungsvorrichtung 200 zur Erkennung eines Zielobjekts (eines anderen Fahrzeugs oder eines Verkehrszeichens) in dem Referenzbild verwendet. Die Erkennungsleistung des Fahrzeugsteuersystems kann daher angemessen bewertet werden.
  • Das Fahrzeugsteuersystem kann infolgedessen durch Vergleichen der zwei Arten von Informationen (Bilderkennungsinformationen und Systemerkennungs-/Steuerinformationen), die aus der Erkennungsleistungsbewertungsvorrichtung 200 ausgegeben werden, und Erfassen eines nicht zusammenpassenden Teils verbessert werden.
  • Anwendungsbeispiel 2 der Bilderkennungsvorrichtung
  • Die Bilderkennungsvorrichtung 1 kann zur Erfassung eines Objekts um ein Fahrzeug in einem Fahrassistenzsystem (einschließlich eines autonomen Fahrsystems) für das Fahrzeug verwendet werden. Wie in 12 gezeigt, ist die Bilderkennungsvorrichtung 1 beispielsweise mit einer fahrzeugseitigen Kamera 2 zum Fotografieren einer Umgebung des Fahrzeugs (beispielsweise eines Bereichs vor dem Fahrzeug) verbunden und beschafft ein durch die fahrzeugseitige Kamera 2 in Echtzeit erfasstes Bewegtbild. Die Bilderkennungsvorrichtung 1 erkennt ein Zielobjekt in dem Bewegtbild und führt einer elektronischen Fahrassistenzsteuereinheit (Fahrassistenz-ECU) 3 Zielobjektinformationen hinsichtlich des Zielobjekts (Position und Identifikationskennzeichnung) zu.
  • Die Fahrassistenz-ECU 3 ist beispielsweise eine elektronische Steuereinheit zur Durchführung einer Fahrassistenzsteuerung, wie einer adaptiven Abstands- und Geschwindigkeitsregelung (ACC), ein Verkehrszeichenassistent (RSA) oder ein Spurwechselassistent (LCA).
  • Die Fahrassistenzsteuerung wird beruhend auf den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durchgeführt.
  • ACC ist eine Fahrassistenzsteuerung, um das Fahrzeug zum Folgen eines vorausfahrenden Fahrzeugs zu veranlassen. Die Fahrassistenz-ECU 3 führt die ACC durch hauptsächliches Extrahieren von Zielobjektinformationen hinsichtlich des vorausfahrenden Fahrzeugs aus den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durch.
  • RSA ist eine Fahrassistenzsteuerung zur Erkennung eines sich vor dem Fahrzeug befindenden Verkehrszeichens und Bereitstellung von Informationen für einen Fahrer, die durch das Verkehrszeichen angegeben werden. Die Fahrassistenz-ECU 3 führt RSA durch Extrahieren von Zielobjektinformationen hinsichtlich des Verkehrszeichens aus den von der Bilderkennungsvorrichtung zugeführten Zielobjektinformationen durch.
  • LCA ist eine Fahrassistenzsteuerung, um das Fahrzeug zum sicheren Wechseln einer Spur zu veranlassen, während die Umgebung des Fahrzeugs beobachtet wird. Die fahrzeugseitige Kamera 2 fotografiert die Umgebung des Fahrzeugs einschließlich eines Bereichs hinter dem Fahrzeug sowie eines Bereichs vor dem Fahrzeug und gibt ein Bewegtbild zu der Bilderkennungsvorrichtung 1 aus. Die Fahrassistenz-ECU 3 führt LCA durch Extrahieren von Zielobjektinformationen hinsichtlich eines Hindernisses und von Spurmarkierungslinien um das Fahrzeug aus den von der Bilderkennungsvorrichtung 1 zugeführten Zielobjektinformationen durch.
  • Wie vorstehend beschrieben wird die Zielobjekterkennungsgenauigkeit der Bilderkennungsvorrichtung 1 verbessert. Die Fahrassistenzsteuerung kann somit zur Zufriedenheit durchgeführt werden.
  • Abtastintervall n für Einzelbilder
  • Die Bildauswahleinheit 10 gibt aufeinanderfolgende Zeitreiheneinzelbilder ein und wählt zu dem vorbestimmten Abtastintervall n abgetastete Einzelbilder aus den eingegebenen Einzelbildern aus. Die Bildauswahleinheit 10 beschafft in diesem Fall Informationen über eine Fahrzeuggeschwindigkeit V des Fahrzeugs und verringert das Abtastintervall n, wenn sich die Fahrzeuggeschwindigkeit V erhöht (erhöht das Abtastintervall n, wenn sich die Fahrzeuggeschwindigkeit V verringert). So kann eine Verzögerung bei der Zielobjekterfassung verhindert werden, während eine Berechnungslast der Bildverarbeitung reduziert wird.
  • Obwohl die Bilderkennungsvorrichtung gemäß diesem Ausführungsbeispiel vorstehend beschrieben wurde, ist die Erfindung nicht auf das Ausführungsbeispiel beschränkt, und verschiedene Modifikationen können durchgeführt werden, ohne vom Schutzbereich vorliegender Erfindung abzuweichen.
  • Beispielsweise erkennt die Bilderkennungsvorrichtung dieses Ausführungsbeispiels ein Zielobjekt in einem Bewegtbild, das durch Fotografieren einer Umgebung von einem fahrenden Fahrzeug aus erhalten wird, jedoch muss das sich bewegende Objekt nicht unbedingt das Fahrzeug sein. Die vorliegende Erfindung ist auch bei einer Bilderkennungsvorrichtung zur Erkennung eines Zielobjekts in einem Bewegtbild anwendbar, das durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten wird, wie einem Schiff, einem Flugzeug oder einem Roboter.
  • Bei diesem Ausführungsbeispiel wird das Abtastintervall n für Einzelbilder in Abhängigkeit von der Fahrzeuggeschwindigkeit V angepasst, es kann jedoch stattdessen in Abhängigkeit von einer Länge eines Bewegungsvektors angepasst werden. In diesem Fall wird das Abtastintervall n verkürzt, wenn die Länge des Bewegungsvektors größer wird (das Abtastintervall n vergrößert, wenn die Länge des Bewegungsvektors kleiner wird). Da sich die Länge des Bewegungsvektors in Abhängigkeit von Bedingungen ändert, ist es angemessen, eine Länge eines Bewegungsvektors unter einer voreingestellten Bedingung zu verwenden.
  • Das Zielobjektidentifikationsverfahren kann durch Mustervergleich oder anderes maschinelles Lernen implementiert werden.
  • Eine Bilderkennungsvorrichtung (1) umfasst eine Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Einzelbildern (50) und eine priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist. Das Umgebungsänderungsmerkmal ist ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2), die sich zeigt, wenn die Umgebung von einem sich bewegenden Objekt aus fotografiert wird. Die Positionsänderung ist eine Positionsänderung des Zielobjekts (B1; B2), das unter den Einzelbildern (50) gemeinsam identifiziert wird.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2017162438 [0002]
    • JP 2017162438 A [0002]

Claims (13)

  1. Bilderkennungsvorrichtung (1) zum Extrahieren eines Zielobjekts (B1; B2) in Zeitreiheneinzelbildern (50) über eine Bildverarbeitung für die Einzelbilder (50) und Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts (B1; B2), wobei die Einzelbilder (50) durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, mit einer Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für das Zielobjekt (B1; B2) in jedem der Einzelbilder (50) und einer priorisierten Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2), das das Umgebungsänderungsmerkmal nicht aufweist, wobei das Umgebungsänderungsmerkmal ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2) ist, die sich zeigt, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird, wobei die Positionsänderung eine Positionsänderung des gemeinsam unter den Zeitreiheneinzelbildern (50) identifizierten Zielobjekts (B1; B2) ist.
  2. Bilderkennungsvorrichtung (1) nach Anspruch 1, wobei das Umgebungsänderungsmerkmal ein Merkmal einer Größenänderung des Zielobjekts (B1; B2) zusätzlich zu dem Merkmal der Positionsänderung des Zielobjekts (B1; B2) enthält.
  3. Bilderkennungsvorrichtung (1) nach Anspruch 1 oder 2, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass eine Positionsänderung zwischen den Einzelbildern kleiner oder gleich einem vorbestimmten Betrag für ein Zielobjekt (B1; B2) ist, das an einer Position nahe einem Fluchtpunkt (P) eines Bewegungsvektors erkannt wird.
  4. Bilderkennungsvorrichtung (1) nach Anspruch 1 oder 2, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass das gemeinsam identifizierte Zielobjekt (B1; B2) sich entlang einer Geraden bewegt.
  5. Bilderkennungsvorrichtung (1) nach Anspruch 4, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass das unter den Einzelbildern gemeinsam identifizierte Zielobjekt (B1; B2) sich entlang einer Geraden bewegt, die das Zielobjekt (B1; B2) in einem beliebigen Einzelbild (50) und einen Fluchtpunkt (P) eines Bewegungsvektors verbindet.
  6. Bilderkennungsvorrichtung (1) nach Anspruch 4 oder 5, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, das eine Änderung eines Bewegungsintervalls des gemeinsam identifizierten Zielobjekts (B1; B2) eine vorbestimmte Gesetzmäßigkeit aufweist.
  7. Bilderkennungsvorrichtung (1) nach einem der Ansprüche 4 bis 6, wobei das Umgebungsänderungsmerkmal ein Merkmal enthält, dass eine Größenänderung des gemeinsamen identifizierten Zielobjekts (B1; B2) eine vorbestimmte Gesetzmäßigkeit aufweist.
  8. Bilderkennungsvorrichtung (1) nach einem der Ansprüche 1 bis 7, wobei die priorisierte Extraktionseinrichtung (22) ein neuronales Netzwerk (23) zur Erkennung des Zielobjekts (B1; B2) unter Verwendung von Informationen über die Zeitreiheneinzelbilder (50) enthält, und das neuronale Netzwerk (23) zum Lernen über Deep Learning derart eingerichtet ist, dass das erste Zielobjekt (B1; B2) mit dem Umgebungsänderungsmerkmal mit Priorität gegenüber dem zweiten Zielobjekt (B1; B2) extrahiert wird, das das Umgebungsänderungsmerkmal nicht aufweist.
  9. Bilderkennungsvorrichtung (1) nach Anspruch 8, wobei, wenn das neuronale Netzwerk (23) über Deep Learning lernt, ein aus einer Verlustfunktion auszugebender Fehler zum Aktualisieren eines Synapsengewichts in dem neuronalen Netzwerk (23) so angepasst wird, dass er bei dem ersten Zielobjekt (B1; B2) mit dem Umgebungsänderungsmerkmal kleiner als bei dem zweiten Zielobjekt (B1; B2) ist, das das Umgebungsänderungsmerkmal nicht aufweist.
  10. Bilderkennungsvorrichtung (1) nach einem der Ansprüche 1 bis 9, ferner mit einer Bildauswahleinrichtung (10) zur Eingabe der Zeitreiheneinzelbilder (50), die durch Fotografieren der Umgebung von dem sich bewegenden Objekt aus erhalten werden, und zum Einstellen eines Einzelbildes (50) als Zielobjekt für die Bildverarbeitung, das bei einem vorbestimmten Abtastintervall aus den eingegebenen Einzelbildern (50) extrahiert wird, wobei die Bildauswahleinrichtung (10) zum Anpassen des Abtastintervalls derart eingerichtet ist, dass das Abtastintervall mit abnehmender Bewegungsgeschwindigkeit des sich bewegenden Objekts größer wird.
  11. Bilderkennungsvorrichtung (1) nach Anspruch 1, wobei das sich bewegende Objekt ein Fahrzeug ist.
  12. Bilderkennungsvorrichtung (1) mit einer Zielobjekterkennungseinrichtung (21) zur Durchführung einer Positionserfassung und Identifikation für ein Zielobjekt (B1; B2) in jedem von Zeitreiheneinzelbildern (50), die durch Fotografieren einer Umgebung von einem sich bewegenden Objekt aus erhalten werden, und einer priorisierten Extraktionseinrichtung (22) zum Extrahieren des Zielobjekts (B1; B2) in den Einzelbildern (50) über eine Bildverarbeitung für die Einzelbilder (50), wobei die priorisierte Extraktionseinrichtung (22) zum Extrahieren eines ersten Zielobjekts (B1; B2), das ein Umgebungsänderungsmerkmal aufweist, mit Priorität gegenüber einem zweiten Zielobjekt (B1; B2) eingerichtet ist, wobei das Umgebungsänderungsmerkmal ein Merkmal über eine Positionsänderung des Zielobjekts (B1; B2) ist, das für das durch die Zielobjekterkennungseinrichtung (21) identifizierte Zielobjekt (B1; B2) erforderlich ist, dass es unter den Zeitreiheneinzelbildern (50) als gemeinsames Zielobjekt (B1; B2) eingeschätzt wird, wenn die Umgebung von dem sich bewegenden Objekt aus fotografiert wird, und Ausgeben von Zielobjektinformationen hinsichtlich des Zielobjekts (B1; B2).
  13. Bilderkennungsvorrichtung (1) nach Anspruch 12, wobei das sich bewegende Objekt ein Fahrzeug ist.
DE102020110157.0A 2019-06-14 2020-04-14 Bilderkennungsvorrichtung Pending DE102020110157A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019110843A JP7176478B2 (ja) 2019-06-14 2019-06-14 画像認識装置
JP2019-110843 2019-06-14

Publications (1)

Publication Number Publication Date
DE102020110157A1 true DE102020110157A1 (de) 2020-12-17

Family

ID=73546879

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020110157.0A Pending DE102020110157A1 (de) 2019-06-14 2020-04-14 Bilderkennungsvorrichtung

Country Status (4)

Country Link
US (1) US11507833B2 (de)
JP (1) JP7176478B2 (de)
CN (1) CN112084833A (de)
DE (1) DE102020110157A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017205093A1 (de) * 2017-03-27 2018-09-27 Conti Temic Microelectronic Gmbh Verfahren und System zur Vorhersage von Sensorsignalen eines Fahrzeugs
DE102019216357A1 (de) * 2019-10-24 2021-04-29 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bereitstellen von annotierten Verkehrsraumdaten
CN112966582A (zh) * 2021-02-26 2021-06-15 北京卓视智通科技有限责任公司 车型三维识别方法、装置、系统、电子设备及存储介质
JP7259880B2 (ja) 2021-03-24 2023-04-18 いすゞ自動車株式会社 積載率推定装置
CN113791339A (zh) * 2021-07-19 2021-12-14 国网浙江省电力有限公司乐清市供电公司 一种基于r-ncc图像识别算法的断路器性能状态检测方法
US20230144745A1 (en) * 2021-11-09 2023-05-11 Zoox, Inc. Machine-learned architecture for efficient object attribute and/or intention classification

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172035A (ja) 2005-12-19 2007-07-05 Fujitsu Ten Ltd 車載画像認識装置、車載撮像装置、車載撮像制御装置、警告処理装置、画像認識方法、撮像方法および撮像制御方法
JP4984915B2 (ja) * 2006-03-27 2012-07-25 セイコーエプソン株式会社 撮像装置、撮像システム及び撮像方法
CN100495438C (zh) * 2007-02-09 2009-06-03 南京大学 一种基于视频监控的运动目标检测与识别方法
US20090069973A1 (en) * 2007-09-10 2009-03-12 Shih-Hsiung Li Warning method and device for deviation of a moving vehicle
JP2010128744A (ja) 2008-11-27 2010-06-10 Toyota Infotechnology Center Co Ltd 対応ブロック探索装置
GB2469679B (en) * 2009-04-23 2012-05-02 Imagination Tech Ltd Object tracking using momentum and acceleration vectors in a motion estimation system
JP2013097675A (ja) * 2011-11-02 2013-05-20 Honda Elesys Co Ltd 勾配推定装置、勾配推定方法、及び勾配推定プログラム
JP6014120B2 (ja) * 2012-03-28 2016-10-25 井上 克己 集合演算機能を備えたメモリ及びこれを用いた集合演算処理方法
JP2014115978A (ja) * 2012-11-19 2014-06-26 Ricoh Co Ltd 移動物体認識装置及びこれを用いた報知装置及びその移動物体認識装置に用いる移動物体認識用プログラム及び移動物体認識装置を備えた移動体
JP2016004446A (ja) 2014-06-17 2016-01-12 トヨタ自動車株式会社 動き推定装置
JP6313198B2 (ja) 2014-11-28 2018-04-18 株式会社デンソー 車両制御装置
JP6363517B2 (ja) 2015-01-21 2018-07-25 株式会社デンソー 車両の走行制御装置
JP6363518B2 (ja) 2015-01-21 2018-07-25 株式会社デンソー 区画線認識装置
JP6358160B2 (ja) 2015-04-17 2018-07-18 トヨタ自動車株式会社 走行路面検出装置及び走行路面検出方法
US9430840B1 (en) 2015-07-23 2016-08-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting an image based on motion vanishing points
CN107180220B (zh) 2016-03-11 2023-10-31 松下电器(美国)知识产权公司 危险预测方法
JP2017162438A (ja) 2016-03-11 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 危険予測方法
US20180365839A1 (en) * 2016-09-27 2018-12-20 SZ DJI Technology Co., Ltd. Systems and methods for initialization of target object in a tracking system
KR101955506B1 (ko) * 2016-12-12 2019-03-11 주식회사 피엘케이 테크놀로지 대향 카메라를 이용한 대형 차량의 측면 안전 보조 장치 및 방법
JP6669059B2 (ja) 2016-12-27 2020-03-18 トヨタ自動車株式会社 位置算出装置
JP2019009615A (ja) 2017-06-23 2019-01-17 株式会社 日立産業制御ソリューションズ 監視カメラ装置、監視映像配信方法および監視システム
US10269159B2 (en) * 2017-07-27 2019-04-23 Rockwell Collins, Inc. Neural network foreground separation for mixed reality
JP7111454B2 (ja) 2017-09-28 2022-08-02 株式会社デンソー 制御対象車両設定装置、制御対象車両設定システムおよび制御対象車両設定方法
JP6805105B2 (ja) 2017-09-28 2020-12-23 株式会社デンソー 制御対象車両設定装置、制御対象車両設定システムおよび制御対象車両設定方法
CN108122247B (zh) * 2017-12-25 2018-11-13 北京航空航天大学 一种基于图像显著性和特征先验模型的视频目标检测方法
TWI701609B (zh) * 2018-01-04 2020-08-11 緯創資通股份有限公司 影像物件追蹤方法及其系統與電腦可讀取儲存媒體
JP6996353B2 (ja) 2018-03-06 2022-01-17 トヨタ自動車株式会社 物体認識装置及び車両走行制御システム
EP3576007B1 (de) * 2018-05-28 2023-09-20 Aptiv Technologies Limited Verfahren zur validierung eines hinderniskandidaten
US11288820B2 (en) * 2018-06-09 2022-03-29 Lot Spot Inc. System and method for transforming video data into directional object count
CN109766841B (zh) * 2019-01-10 2022-03-29 深圳大学 车辆检测方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP7176478B2 (ja) 2022-11-22
US20200394515A1 (en) 2020-12-17
JP2020204804A (ja) 2020-12-24
US11507833B2 (en) 2022-11-22
CN112084833A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
DE102020110157A1 (de) Bilderkennungsvorrichtung
DE102018116111B4 (de) Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung
DE102013203165B4 (de) Verfahren zum Verbinden von Zielen von zumindest zwei Objektdetektionssystemen
DE602005003926T2 (de) System und verfahren zum erkennen eines vorbeikommenden fahrzeugs aus dynamischem hintergrund unter verwendung robuster informationsfusion
EP3540457A1 (de) Identifikation von objekten mittels radardaten
DE102019209736A1 (de) Verfahren zur Bewertung möglicher Trajektorien
DE102017205093A1 (de) Verfahren und System zur Vorhersage von Sensorsignalen eines Fahrzeugs
WO2019001649A1 (de) Wissenstransfer zwischen verschiedenen deep-learning architekturen
DE102020124236A1 (de) Mehrweg-geisterabmilderung im fahrzeug-radarsystem
DE102017123842A1 (de) Fahrspurerfassungsverfahren
DE102020200169B3 (de) Verfahren zur Zusammenführung mehrerer Datensätze für die Erzeugung eines aktuellen Spurmodells einer Fahrbahn und Vorrichtung zur Datenverarbeitung
DE102020200911B3 (de) Verfahren zum Erkennen von Objekten in einer Umgebung eines Fahrzeugs
DE102018128535B4 (de) Trainieren eines künstlichen neuronalen Netzwerks mit durch Sensoren eines Fahrzeugs erfassten Daten
DE102020200499A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
DE102017221381A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln eines Abstandes zu einem Objekt
DE102018206743A1 (de) Verfahren zum Betreiben eines Fahrerassistenzsystems eines Egofahrzeugs mit wenigstens einem Umfeldsensor zum Erfassen eines Umfelds des Egofahrzeugs, Computer-lesbares Medium, System, und Fahrzeug
DE102017223264A1 (de) Verfahren und Vorrichtung zum Ansteuern eines Aktors
DE102021212277A1 (de) Verfahren und Vorrichtung für bestärkendes Lernen
DE102022201679A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE102017204347A1 (de) Verfahren und System zum Bestimmen einer kinematischen Eigenschaft eines Objekts, Verfahren zum Steuern eines Assistenzsystems eines Kraftfahrzeugs und Kraftfahrzeug
DE102022100545A1 (de) Verbesserte objekterkennung
DE102021111114A1 (de) Fahrspurunbestimmtheitsmodellierung und -verfolgung in einem Fahrzeug
DE112021001817T5 (de) Landkartenaktualisierungsvorrichtung und landkartenaktualisierungsprogramm
EP3772017A1 (de) Bahnsignalerkennung für autonome schienenfahrzeuge
DE102019215912A1 (de) Verfahren und vorrichtung zum computer-implementierten betreiben eines neuronalen netzwerks

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000

R016 Response to examination communication