DE102018110196A1 - Wahrnehmungseinrichtung - Google Patents

Wahrnehmungseinrichtung Download PDF

Info

Publication number
DE102018110196A1
DE102018110196A1 DE102018110196.1A DE102018110196A DE102018110196A1 DE 102018110196 A1 DE102018110196 A1 DE 102018110196A1 DE 102018110196 A DE102018110196 A DE 102018110196A DE 102018110196 A1 DE102018110196 A1 DE 102018110196A1
Authority
DE
Germany
Prior art keywords
neural network
sensing
data
perception device
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018110196.1A
Other languages
English (en)
Inventor
Daisuke Hashimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of DE102018110196A1 publication Critical patent/DE102018110196A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

Eine Wahrnehmungseinrichtung (1) umfasst: ein erstes neuronales Netzwerk (11), das einen gemeinsamen Prozess durchführt, der mit einer Wahrnehmung eines Objekts verknüpft ist und somit Ergebnisse des gemeinsamen Prozesses ausgibt; ein zweites neuronales Netzwerk (12), das eine Ausgabe von dem ersten neuronalen Netzwerk (11) empfängt und Ergebnisse eines ersten Wahrnehmungsprozesses des Wahrnehmens der Charakteristika des Objekts mit einer ersten Genauigkeit ausgibt; und ein drittes neuronales Netzwerk (13), das die Ausgabe des ersten neuronalen Netzwerks (11) und Zwischendaten, die durch das zweite neuronale Netzwerk (12) im Verlauf des ersten Wahrnehmungsprozesses erzeugt werden, empfängt, und Ergebnisse eines zweiten Wahrnehmungsprozesses des Wahrnehmens der Charakteristika des Objekts mit einer zweiten Genauigkeit, die höher ist als die erste Genauigkeit, ausgibt.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die Erfindung betrifft eine Wahrnehmungseinrichtung, die zum Beispiel Charakteristika eines Objekts wahrnehmen kann.
  • Beschreibung des Standes der Technik
  • Als ein Beispiel einer Wahrnehmungseinrichtung ist in der japanischen Patentanmeldungsveröffentlichung Nr. 2017-084320 ( JP 2017-084320 A ) eine Wahrnehmungseinrichtung offenbart, die unter Verwendung eines neuronalen Netzwerks wahrnimmt, was ein Objekt in einem Bild ist. Eine Wahrnehmungseinrichtung, die unter Verwendung eines neuronalen Netzwerks wahrnimmt, was eine Sprache einer Eingabestimme ist, ist in der japanischen Patentanmeldungsveröffentlichung Nr. 2014-229124 ( JP 2014-229124 A ) offenbart. Eine Wahrnehmungseinrichtung, die unter Verwendung eines neuronalen Netzwerks eine Kategorie eines Objekts in einem Bild wahrnimmt, ist in der japanischen ungeprüften Patentanmeldungsveröffentlichung Nr. 2016-033806 ( JP 2016-033806 A ) offenbart.
  • KURZFASSUNG DER ERFINDUNG
  • Wahrnehmungseinrichtungen werden für verschiedene Zwecke verwendet. In diesem Fall kann eine Situation auftreten, in der eine Wahrnehmungseinrichtung, die nur für einen ersten Zweck verwendet wird, Charakteristika eines Objekts mit einer ersten Genauigkeit, die relativ niedrig ist, wahrnehmen muss, aber eine Wahrnehmungseinrichtung, die für einen zweiten Zweck anders als der erste Zweck verwendet wird, Charakteristika eines Objekts mit einer zweiten Genauigkeit, die relativ hoch ist, wahrnehmen muss. In diesem Fall werden eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der ersten Genauigkeit wahrnimmt, und eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der zweiten Genauigkeit wahrnimmt, im Allgemeinen unabhängig konstruiert. Das heißt, zwei Arten von neuronalen Netzwerken, die in zwei Arten von Wahrnehmungseinrichtungen mit unterschiedlichen Genauigkeiten zum Wahrnehmen von Charakteristika eines Objekts enthalten sind, werden separat konstruiert.
  • Jedoch haben diese zwei Arten von Wahrnehmungseinrichtungen gemeinsam, dass diese die gleichen Charakteristika eines Objekts wahrnehmen. Dementsprechend gibt es beim effizienten Konstruieren von zwei Arten von Wahrnehmungseinrichtungen einen Raum für Verbesserung.
  • Die Erfindung stellt eine Wahrnehmungseinrichtung bereit, die relativ effizient konstruiert werden kann, und die Wahrnehmungseinrichtung umfasst zumindest eine Wahrnehmungseinrichtung, die dazu in der Lage ist, Charakteristika eines Objekts mit einer ersten Genauigkeit, die relativ niedrig ist, wahrzunehmen. Die Wahrnehmungseinrichtung kann ebenso eine Wahrnehmungseinrichtung umfassen, die dazu in der Lage ist, Charakteristika eines Objekts mit einer zweiten Genauigkeit, die relativ hoch ist, wahrzunehmen.
  • Ein Aspekt der Erfindung betrifft eine Wahrnehmungseinrichtung, mit: einem ersten neuronalen Netzwerk, das erste Eingabedaten empfängt, die mit einem Objekt verknüpft sind, wobei das erste neuronale Netzwerk einen gemeinsamen Prozess durchführt, der mit einer Wahrnehmung des Objekts basierend auf den ersten Eingabedaten verknüpft ist, wobei das erste neuronale Netzwerk Ergebnisse des gemeinsamen Prozesses ausgibt; einem zweiten neuronalen Netzwerk, das eine Ausgabe des ersten neuronalen Netzwerks als zweite Eingabedaten empfängt, wobei das zweite neuronale Netzwerk einen ersten Wahrnehmungsprozess des Wahrnehmens von Charakteristika des Objekts mit einer ersten Genauigkeit basierend auf den zweiten Eingabedaten durchführt, wobei das zweite neuronale Netzwerk Ergebnisse des ersten Wahrnehmungsprozesses ausgibt; und einem dritten neuronalen Netzwerk, das die Ausgabe des ersten neuronalen Netzwerks und Zwischendaten, die durch das zweite neuronale Netzwerk während des ersten Wahrnehmungsprozesses erzeugt werden, empfängt, wobei die Ausgabe des ersten neuronalen Netzwerks und die Zwischendaten als dritte Eingabedaten durch das dritte neuronale Netzwerk empfangen werden, wobei das dritte neuronale Netzwerk einen zweiten Wahrnehmungsprozess des Wahrnehmens der Charakteristika des Objekts mit einer zweiten Genauigkeit, die höher ist als die erste Genauigkeit, basierend auf den dritten Eingabedaten durchführt, wobei das dritte neuronale Netzwerk Ergebnisse des zweiten Wahrnehmungsprozesses ausgibt.
  • Mit der Wahrnehmungseinrichtung des vorstehenden Aspekts ist es möglich, das zweite neuronale Netzwerk und das dritte neuronale Netzwerk parallel zu konstruieren. Dementsprechend, im Vergleich mit einem Fall, in dem das zweite und dritte neuronale Netzwerk separat konstruiert werden, ist es möglich, das zweite neuronale Netzwerk und das dritte neuronale Netzwerk effizienter zu konstruieren. Dementsprechend ist es möglich, eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, und eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, effizienter zu konstruieren.
  • Figurenliste
  • Merkmale, Vorteile und eine technische und industrielle Signifikanz von beispielhaften Ausführungsbeispielen der Erfindung werden nachstehend mit Bezug auf die anhängigen Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen, und in denen zeigen:
    • 1 ein Blockdiagramm, das eine Konfiguration einer Wahrnehmungseinrichtung gemäß einem Ausführungsbeispiel darstellt;
    • 2 ein Blockdiagramm, das eine Konfiguration eines Merkmalsextrahierers darstellt;
    • 3 ein Blockdiagramm, das eine Konfiguration eines Klassifizierers darstellt;
    • 4 ein Blockdiagramm, das eine Konfiguration eines Fahrzeugs darstellt, in dem eine Wahrnehmungseinrichtung unter Verwendung eines ersten Implementierungsverfahrens implementiert ist;
    • 5 ein Blockdiagramm, das eine Konfiguration der Wahrnehmungseinrichtung, die unter Verwendung des ersten Implementierungsverfahrens implementiert ist, darstellt;
    • 6 ein Blockdiagramm, das eine Konfiguration eines Fahrzeugs darstellt, in dem eine Wahrnehmungseinrichtung unter Verwendung eines zweiten Implementierungsverfahrens implementiert ist;
    • 7 ein Blockdiagramm, das eine Konfiguration der Wahrnehmungseinrichtung darstellt, die unter Verwendung des zweiten Implementierungsverfahrens implementiert ist;
    • 8 ein Ablaufdiagramm, das einen Ablauf einer Trainingsoperation der Wahrnehmungseinrichtung darstellt; und
    • 9 eine Tabelle, die ein Beispiel von Trainingsdaten darstellt, die für die Trainingsoperation verwendet werden.
  • DETAILLIERTE BESCHREIBUNG VON AUSFÜHRUNGSBEISPIELEN
  • Nachstehend wird eine Wahrnehmungseinrichtung gemäß einem Ausführungsbeispiel der Erfindung beschrieben. In der folgenden Beschreibung wird eine Wahrnehmungseinrichtung 1, die eine Kategorie eines Objekts, das in einem Bild erscheint, das durch eine Kamera 31 aufgenommen wird, die in einem Fahrzeug 3 implementiert ist, mit einer relativ niedrigen ersten Genauigkeit wahrnehmen kann, und die Kategorie des Objekts mit einer relativ hohen zweiten Genauigkeit wahrnehmen kann, als die Wahrnehmungseinrichtung gemäß dem Ausführungsbeispiel der Erfindung beschrieben.
  • Konfiguration der Wahrnehmungseinrichtung 1
  • Als Erstes wird eine Konfiguration der Wahrnehmungseinrichtung bzw. Erkennungseinrichtung 1 gemäß dem Ausführungsbeispiel nachstehend mit Bezug auf 1 beschrieben. 1 ist ein Blockdiagramm, das eine Konfiguration der Wahrnehmungseinrichtung 1 gemäß dem Ausführungsbeispiel darstellt.
  • Wie in 1 dargestellt ist, umfasst die Wahrnehmungseinrichtung bzw. Erkennungseinrichtung 1 ein gemeinsames neuronales Netzwerk 11, einen neuronalen Netzwerkzweig 12 und einen neuronalen Netzwerkzweig 13. Ein neuronales Netzwerk ist ein Netzwerk, das durch Sammlungen von Knoten oder Einheiten, die derart verbunden sind, dass diese miteinander kommunizieren können, gebildet ist. Das neuronale Netzwerk ist dazu in der Lage, zum Beispiel eine Stärke der Kommunikation zwischen den Knoten durch eine Trainingsverarbeitung anzupassen, um ein Bild zu analysieren und ein Merkmal des Bildes wahrzunehmen bzw. zu erkennen. Das gemeinsame neuronale Netzwerk 11 ist ein Beispiel eines „ersten neuronalen Netzwerks“ in der Erfindung. Der neuronale Netzwerkzweig 12 ist ein Beispiel eines „zweiten neuronalen Netzwerks“ in der Erfindung. Der neuronale Netzwerkzweig 13 ist ein Beispiel eines „dritten neuronalen Netzwerks“ in der Erfindung. Die Wahrnehmungseinrichtung 1 ist ein Verarbeitungsblock. Durch Ausführen von Software auf einem Prozessor 2 wird der Verarbeitungsblock in dem Prozessor 2 logisch verkörpert. Der Prozessor 2 ist zum Beispiel eine zentrale Verarbeitungseinheit (CPU) oder eine elektronische Steuerungseinheit (ECU).
  • Bilddaten, die ein Bild angeben, das durch die Kamera 31 aufgenommen wird, die in dem Fahrzeug 3 implementiert ist, werden in das gemeinsame neuronale Netzwerk 11 eingegeben. Die Bilddaten sind ein Beispiel von „ersten Eingabedaten“ in der Erfindung. Das gemeinsame neuronale Netzwerk 11 führt einen gemeinsamen Prozess durch, der mit einer Wahrnehmung bzw. Erkennung einer Kategorie eines Objekts auf den Bilddaten verknüpft ist. Der gemeinsame Prozess ist ein Prozess, der in einem ersten Wahrnehmungsprozess bzw. Erkennungsprozess und einem zweiten Wahrnehmungsprozess bzw. Erkennungsprozess gemeinsam durchgeführt wird. Der erste Wahrnehmungsprozess ist ein Prozess des Wahrnehmens bzw. Erkennens einer Kategorie eines Objekts, das in dem Bild, das durch die Bilddaten angegeben ist, erscheint, mit einer ersten Genauigkeit, die relativ niedrig ist. Der zweite Wahrnehmungsprozess ist ein Prozess des Wahrnehmens bzw. Erkennens einer Kategorie eines Objekts mit einer zweiten Genauigkeit, die relativ hoch ist. Das heißt, der gemeinsame Prozess ist ein Prozess, der in einer vorherigen Stufe des neuronalen Netzwerkzweigs 12, der den ersten Wahrnehmungsprozess durchführt, und des neuronalen Netzwerkzweigs 13, der den zweiten Wahrnehmungsprozess durchführt, durchgeführt wird.
  • Der gemeinsame Prozess umfasst einen ersten Merkmalsextrahierungsprozess. In dem ersten Merkmalsextrahierungsprozess wird ein Merkmalsvektor C, der ein Merkmal eines Objekts angibt, basierend auf den Bilddaten berechnet. Um den ersten Merkmalsextrahierungsprozess durchzuführen, umfasst das gemeinsame neuronale Netzwerk 11 L Merkmalsextrahierer 111. L ist die Anzahl von Merkmalsextrahierern 111. L kann gleich oder größer als 2 sein, aber kann ebenso 1 sein. Jeder Merkmalsextrahierer 111 kann einen Merkmalsvektor C, der ein Merkmal eines Objekts angibt, berechnen. Die L Merkmalsextrahierer 111 sind in mehreren Stufen in Reihe verbunden, sodass der Merkmalsvektor C, der durch den Merkmalsextrahierer 111 in einer vorherigen Stufe berechnet wird, in den Merkmalsextrahierer 111 in einer nachfolgenden Stufe eingegeben wird. Es sei angemerkt, dass die Bilddaten anstelle des Merkmalsvektors C, der durch eine andere Stufe eines Merkmalsextrahierers 111 berechnet wird, in den Merkmalsextrahierer 111 in der ersten Stufe eingegeben wird, und der Merkmalsvektor C, der durch den Merkmalsextrahierer 111 in der letzten Stufe berechnet wird, nicht in einen anderen Merkmalsextrahierer 111 eingegeben wird.
  • Jeder Merkmalsextrahierer 111 berechnet den Merkmalsvektor C unter Verwendung eines vorhandenen Algorithmus zum Extrahieren eines Merkmals. In der folgenden Beschreibung wird zum Zweck einer einfachen Erklärung ein Beispiel beschrieben, in dem jeder Merkmalsextrahierer 111 den Merkmalsvektor C durch Durchführen eines Faltungsprozesses bezüglich Eingabedaten, die in den entsprechenden Merkmalsextrahierer 111 eingegeben werden, berechnet. Die Eingabedaten sind die Bilddaten oder der Merkmalsvektor C, der durch einen anderen Merkmalsextrahierer 111 berechnet wird. Das heißt, in der folgenden Beschreibung wird ein Beispiel beschrieben, in dem das gemeinsame neuronale Netzwerk 11 ein neuronales Faltungsnetzwerk (CNN, „Convolutional Neural Network“) ist. In diesem Fall umfasst jeder Merkmalsextrahierer 111 zum Beispiel eine Faltungsverarbeitungseinheit („convolution processing unit“) 1111 und eine Bündelungsverarbeitungseinheit („pooling processing unit“) 1112, wie in 2 dargestellt ist. Der Faltungsprozess, der durch die Faltungsverarbeitungseinheit 1111 durchgeführt wird, kann der Gleiche sein wie ein vorhandener Faltungsprozess und der Bündelungsprozess, der durch die Bündelungsverarbeitungseinheit 1112 durchgeführt wird, kann der Gleiche sein wie ein vorhandener Bündelungsprozess. Dementsprechend werden zum Zweck einer Vereinfachung der Erklärung Details des Faltungsprozesses und des Bündelungsprozesses nicht beschrieben und Kurzfassungen des Faltungsprozesses und des Bündelungsprozesses werden nachstehend kurz beschrieben. Die Faltungsverarbeitungseinheit 1111 führt einen Faltungsprozess unter Verwendung eines Faltungsfilters bzw. eines Faltungskerns bzw. Faltungsmatrizen mit gewünschten Filtercharakteristika bezüglich Eingabedaten durch. Daten, die als ein Ergebnis des Faltungsprozesses erhalten werden, werden in die Bündelungsverarbeitungseinheit 1112 eingegeben. Diese Daten sind zum Beispiel eine Merkmalsübersicht. Die Bündelungsverarbeitungseinheit 1112 führt eine Bündelungsverarbeitung bezüglich der Merkmalsübersicht durch. Als ein Ergebnis gibt die Bündelungsverarbeitungseinheit 1112 einen Merkmalsvektor C einer vorbestimmten Dimension aus, der das Merkmal der Eingabedaten, das heißt das Merkmal eines Objekts, angibt.
  • In 1 werden Ausgabedaten, die von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben werden, in den neuronalen Netzwerkzweig 12 als Eingabedaten eingegeben. Die Ausgabedaten, die von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben werden, sind Daten, die das Ergebnis des gemeinsamen Prozesses angeben. Speziell sind die Ausgabedaten der Merkmalsvektor C, der durch den Merkmalsextrahierer 111 in der finalen Stufe berechnet wird. Nachstehend wird der Merkmalsvektor C entsprechend den Ausgabedaten, die von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben werden, als ein „Merkmalsvektor C11“ bezeichnet. Der Merkmalsvektor C11 ist ein Beispiel von „zweiten Eingabedaten“ in der Erfindung. Der neuronale Netzwerkzweig 12 führt einen ersten Wahrnehmungsprozess des Wahrnehmens einer Kategorie eines Objekts mit einer ersten Genauigkeit, die relativ niedrig ist, basierend auf dem Merkmalsvektor C11 durch. Genauer führt der neuronale Netzwerkzweig 12 einen ersten Schätzprozess des Schätzens, zu welcher Kategorie einer Vielzahl von Hauptkategorien das Objekt gehört, durch und der erste Schätzprozess wird basierend auf dem Merkmalsvektor C11 als der erste Wahrnehmungsprozess durchgeführt.
  • Der erste Schätzprozess umfasst einen zweiten Merkmalsextrahierungsprozess des Berechnens des Merkmalsvektors C, der das Merkmal des Objekts angibt, basierend auf dem Merkmalsvektor C11. Der zweite Merkmalsextrahierungsprozess kann von dem ersten Merkmalsextrahierungsprozess, der durch das gemeinsame neuronale Netzwerk 11 durchgeführt wird, dahingehend verschieden sein, dass ein Merkmalsvektor C, der zum Wahrnehmen der Kategorie des Objekts mit der ersten Genauigkeit geeigneter ist, berechnet wird. Der erste Schätzprozess umfasst einen ersten Klassifizierungsprozess des Berechnens einer Wahrscheinlichkeit p1, dass das Objekt zu jeder der Vielzahl von Hauptkategorien gehört, basierend auf dem Ergebnis des zweiten Merkmalsextrahierungsprozesses.
  • Um den zweiten Merkmalsextrahierungsprozess durchzuführen, umfasst der neuronale Netzwerkzweig 12 M Merkmalsextrahierer 121. M ist die Anzahl der Merkmalsextrahierer 121. M kann gleich oder größer als 2 sein, kann aber auch 1 sein. Jeder Merkmalsextrahierer 121 ist ein Beispiel eines „ersten Verarbeitungsblocks“ in den Ergänzungen, die nachstehend beschrieben werden. Jeder Merkmalsextrahierer 121 kann einen Merkmalsvektor C berechnen, der ein Merkmal eines Objekts angibt. Die M Merkmalsextrahierer 121 sind in mehreren Stufen in Reihe verbunden, sodass der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 in einer vorhergehenden Stufe berechnet wird, in den Merkmalsextrahierer 121 einer nachfolgenden Stufe eingegeben wird. Es sei angemerkt, dass der Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, anstelle des Merkmalsvektors C, der durch den Merkmalsextrahierer 121 in einer vorhergehenden Stufe berechnet wird, in den Merkmalsextrahierer 121 in der ersten Stufe eingegeben wird, und der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 in der finalen Stufe berechnet wird, nicht in einen anderen Merkmalsextrahierer 121 eingegeben wird.
  • Jeder Merkmalsextrahierer 121 berechnet den Merkmalsvektor C unter Verwendung eines vorhandenen Algorithmus zum Extrahieren eines Merkmals. In der folgenden Beschreibung wird zum Zweck einer einfachen Erklärung ein Beispiel beschrieben, in dem jeder Merkmalsextrahierer 121 den Merkmalsvektor C durch Durchführen eines Faltungsprozesses bezüglich Eingabedaten, die in den entsprechenden Merkmalsextrahierer 121 eingegeben werden, berechnet. Die Eingabedaten sind der Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 eingegeben wird, oder der Merkmalsvektor C, der durch einen anderen Merkmalsextrahierer 121 berechnet wird. Das heißt, in der folgenden Beschreibung wird ein Beispiel beschrieben, in dem der neuronale Netzwerkzweig 12 ein neuronales Faltungsnetzwerk (CNN) ist. In diesem Fall, ähnlich wie bei dem vorstehend erwähnten Merkmalsextrahierer 111, umfasst jeder Merkmalsextrahierer 121 eine Faltungsverarbeitungseinheit 1211 und eine Bündelungsverarbeitungseinheit 1212, die nicht dargestellt sind. Ein Faltungsfilter, der für die Faltungsverarbeitungseinheit 1211 verwendet wird, kann von dem Faltungsfilter, der für die Faltungsverarbeitungseinheit 1111 wendet wird, dahingehend verschieden sein, dass der Faltungsfilter, der für die Faltungsverarbeitungseinheit 1211 verwendet wird, zum Wahrnehmen einer Kategorie eines Objekts mit einer ersten Genauigkeit besser geeignet ist. In den anderen Konfigurationen können die Faltungsverarbeitungseinheit 1211 und die Bündelungsverarbeitungseinheit 1212 die gleichen sein wie die Faltungsverarbeitungseinheit 1111 und die Bündelungsverarbeitungseinheit 1112.
  • Um den ersten Klassifizierungsprozess durchzuführen, umfasst der neuronale Netzwerkzweig 12 einen Klassifizierer 122. Daten, die das Ergebnis des zweiten Merkmalsextrahierungsprozesses angeben, werden als Eingabedaten in den Klassifizierer 122 eingegeben. Die Daten, die das Ergebnis des zweiten Merkmalsextrahierungsprozesses angeben, sind der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 in der finalen Stufe berechnet wird. Nachstehend wird der Merkmalsvektor C entsprechend den Daten, die das Ergebnis des zweiten Merkmalsextrahierungsprozesses angeben, als ein „Merkmalsvektor C12“ bezeichnet. Der Klassifizierer 122 berechnet eine Wahrscheinlichkeit p1, dass ein Objekt, das in einem Bild erscheint, zu jedem einer Vielzahl von Hauptkategorien gehört, basierend auf dem Merkmalsvektor C12. Zum Beispiel stellt 1 ein Beispiel dar, in dem der Klassifizierer 122 eine Wahrscheinlichkeit p1(#1), dass das Objekt zu einer Hauptkategorie eines „Vierradfahrzeugs“ gehört, eine Wahrscheinlichkeit p1(#2), dass das Objekt zu einer Hauptkategorie eines „Zweiradfahrzeugs“ gehört, und eine Wahrscheinlichkeit p1(#3), dass das Objekt zu einer Hauptkategorie einer „Person“ gehört, berechnet.
  • Zum Beispiel, wie in 3 dargestellt ist, umfasst der Klassifizierer 122 vollständig verbundene Schichten 1221, in die X Eingabewerte (d1(#1), d1(#2), d1(#3), ..., d1(#X)), die den Merkmalsvektor C12 mit einer Dimension X bilden, eingegeben werden, und eine Ausgabeschicht 1222, die die Wahrscheinlichkeit p1 ausgibt, basierend auf der Ausgabe von den vollständig verbundenen Schichten 1221. X ist hier die Anzahl von Eingabewerten, die den Merkmalsvektor C12 bilden, und X ist eine Ganzzahl, die gleich oder größer als 1 ist.
  • Bezugnehmend zurück auf 1 werden Ausgabedaten, die von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben werden, in den neuronalen Netzwerkzweig 13 eingegeben. Diese Ausgabedaten sind der Merkmalsvektor C11. Der Merkmalsvektor C11 ist ein Beispiel von „dritten Eingabedaten“ in der Erfindung. Der neuronale Netzwerkzweig 13 führt einen zweiten Wahrnehmungsprozess des Wahrnehmens einer Kategorie eines Objekts mit einer zweiten Genauigkeit, die relativ hoch ist, basierend auf dem Merkmalsvektor C11 durch. Genauer führt der neuronale Netzwerkzweig 13 einen zweiten Schätzprozess des Schätzens, zu welcher Unterkategorie einer Vielzahl von Unterkategorien das Objekt gehört, basierend auf dem Merkmalsvektor C11 als den zweiten Wahrnehmungsprozess durch. Die Unterkategorien werden von der Vielzahl von Hauptkategorien unterteilt.
  • Der zweite Schätzprozess umfasst einen dritten Merkmalsextrahierungsprozess des Berechnens des Merkmalsvektors C, der das Merkmal des Objekts angibt, basierend auf dem Merkmalsvektor C11. Der dritte Merkmalsextrahierungsprozess kann von dem ersten Merkmalsextrahierungsprozess, der mit dem gemeinsamen neuronalen Netzwerk 11 durchgeführt wird, und dem zweiten Merkmalsextrahierungsprozess, der mit dem neuronalen Netzwerkzweig 12 durchgeführt wird, verschieden sein. Der dritte Merkmalsextrahierungsprozess kann von dem ersten Merkmalsextrahierungsprozess und dem zweiten Merkmalsextrahierungsprozess dahingehend verschieden sein, dass ein Merkmalsvektor C, der zum Wahrnehmen der Kategorie des Objekts mit der zweiten Genauigkeit geeigneter ist, berechnet wird. Der zweite Schätzprozess umfasst einen zweiten Klassifizierungsprozess des Berechnens einer Wahrscheinlichkeit p2, dass das Objekt zu jeder einer Vielzahl von Unterkategorien gehört, basierend auf dem Ergebnis des dritten Merkmalsextrahierungsprozesses.
  • Um den dritten Merkmalsextrahierungsprozess durchzuführen, umfasst der neuronale Netzwerkzweig 13 N Merkmalsextrahierer 131. N ist die Anzahl der Merkmalsextrahierer 131. N kann gleich oder größer als 2 sein, kann aber auch 1 sein. Jeder Merkmalsextrahierer 131 ist ein Beispiel eines „zweiten Verarbeitungsblocks“ in der Erfindung. Jeder Merkmalsextrahierer 131 kann einen Merkmalsvektor C, der ein Merkmal des Objekts angibt, berechnen. Die N Merkmalsextrahierer 131 sind in mehreren Stufen in Reihe verbunden, sodass der Merkmalsvektor C, der durch den Merkmalsextrahierer 131 in einer vorhergehenden Stufe berechnet wird, in den Merkmalsextrahierer 131 in einer nachfolgenden Stufe eingegeben wird. Es sei angemerkt, dass der Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, anstelle des Merkmalsvektors C, der durch einen anderen Merkmalsextrahierer 131 berechnet wird, in den Merkmalsextrahierer 131 in einer ersten Stufe eingegeben wird, und der Merkmalsvektor C, der durch den Merkmalsextrahierer 131 in der finalen Stufe berechnet wird, nicht in einen anderen Merkmalsextrahierer 131 eingegeben wird.
  • Der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 entsprechend jedem Merkmalsextrahierer 131 berechnet wird, wird ebenso in den Merkmalsextrahierer 131 eingegeben. Dementsprechend berechnet der Merkmalsextrahierer 131 den Merkmalsvektor C basierend auf dem Merkmalsvektor C, der durch den entsprechenden Merkmalsextrahierer 121 berechnet wird, zusätzlich zu dem Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, oder dem Merkmalsvektor C, der durch einen anderen Merkmalsextrahierer 131 berechnet wird. 1 stellt ein Beispiel dar, in dem die Anzahl von Merkmalsextrahierern 131 gleich der Anzahl von Merkmalsextrahierern 121 ist und der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 in der gleichen Stufe wie jeder Merkmalsextrahierer 131 berechnet wird, in den Merkmalsextrahierer 131 eingegeben wird. Der Merkmalsvektor C, der von jedem Merkmalsextrahierer 121 stammt und in den entsprechenden Merkmalsextrahierer 131 eingegeben wird, ist ein Beispiel von „Zwischendaten“ in der Erfindung.
  • Jeder Merkmalsextrahierer 131 berechnet den Merkmalsvektor C unter Verwendung eines vorhandenen Algorithmus zum Extrahieren eines Merkmals. In der folgenden Beschreibung wird zum Zweck einer Einfachheit der Erklärung ein Beispiel beschrieben, in dem jeder Merkmalsextrahierer 131 den Merkmalsvektor C durch Durchführen eines Faltungsprozesses bezüglich Eingabedaten, die in den entsprechenden Merkmalsextrahierer 131 eingegeben werden, berechnet. Die Eingabedaten sind der Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, oder der Merkmalsvektor C, der durch einen anderen Merkmalsextrahierer 131 berechnet wird, und der Merkmalsvektor C, der durch den entsprechenden Merkmalsextrahierer 121 berechnet wird. Das heißt, in der folgenden Beschreibung wird ein Beispiel beschrieben, in dem der neuronale Netzwerkzweig 13 ein neuronales Faltungsnetzwerk (CNN) ist. In diesem Fall, ähnlich wie bei dem vorstehend erwähnten Merkmalsextrahierer 111, umfasst jeder Merkmalsextrahierer 131 eine Faltungsverarbeitungseinheit 1311 und eine Bündelungsverarbeitungseinheit 1312, die nicht dargestellt sind. Ein Faltungsfilter, der für die Faltungsverarbeitungseinheit 1311 verwendet wird, kann von dem Faltungsfilter, der für die Faltungsverarbeitungseinheit 1111 verwendet wird, oder dem Faltungsfilter, der für die Faltungsverarbeitungseinheit 1211 verwendet wird, dahingehend verschieden sein, dass dieser zum Wahrnehmen einer Kategorie eines Objekts mit der zweiten Genauigkeit geeigneter ist. In anderen Konfigurationen können die Faltungsverarbeitungseinheit 1311 und die Bündelungsverarbeitungseinheit 1312 die Gleichen sein wie die Faltungsverarbeitungseinheit 1111 und die Bündelungsverarbeitungseinheit 1112 (oder die Faltungsverarbeitungseinheit 1211 und die Bündelungsverarbeitungseinheit 1212).
  • Um den zweiten Klassifizierungsprozess durchzuführen, umfasst der neuronale Netzwerkzweig 13 einen Klassifizierer 132. Daten, die das Ergebnis des dritten Merkmalsextrahierungsprozesses angeben, werden als Eingabedaten in den Klassifizierer 132 eingegeben. Die Daten, die das Ergebnis des dritten Merkmalsextrahierungsprozesses angeben, sind der Merkmalsvektor C, der durch den Merkmalsextrahierer 131 in der finalen Stufe berechnet wird. Nachstehend wird der Merkmalsvektor C entsprechend den Daten, die das Ergebnis des dritten Merkmalsextrahierungsprozesses angeben, als ein „Merkmalsvektor C13“ bezeichnet. Der Klassifizierer 132 berechnet eine Wahrscheinlichkeit p2, dass ein Objekt, das in einem Bild erscheint, zu jeder der Vielzahl von Unterkategorien gehört, basierend auf dem Merkmalsvektor C13. Zum Beispiel steht 1 ein Beispiel dar, in dem der Klassifizierer 132 eine Wahrscheinlichkeit p2(#11), dass das Objekt zu einer Unterkategorie eines „Personenwagen“ gehört, eine Wahrscheinlichkeit p2(#12), dass das Objekt zu einer Unterkategorie eines „Lastwagens“ gehört, und eine Wahrscheinlichkeit p2(#13), dass das Objekt zu einer Unterkategorie eines „Busses“ gehört, berechnet. Die Unterkategorie eines „Personenwagens“, die Unterkategorie eines „Lastwagen“ und die Unterkategorie eines „Busses“ entsprechen Unterkategorien, die von der Hauptkategorie eines „Vierradfahrzeugs“ unterteilt sind. 1 stellt zum Beispiel ein Beispiel dar, in dem der Klassifizierer 132 eine Wahrscheinlichkeit p2(#21), dass das Objekt zu einer Unterkategorie eines „Motorrads“ gehört, und eine Wahrscheinlichkeit p2(#22), dass das Objekt zu einer Unterkategorie eines „Fahrrads“ gehört, berechnet. Die Unterkategorie eines „Motorrads“ und die Unterkategorie eines „Fahrrads“ entsprechen Unterkategorien, die von der Hauptkategorie eines „Zweiradfahrzeugs“ unterteilt sind. Zum Beispiel stell 1 ein Beispiel dar, in dem der Klassifizierer 132 eine Wahrscheinlichkeit p2(#31), dass das Objekt zu einer Unterkategorie eines „Fußgängers“ gehört, und eine Wahrscheinlichkeit p2(#32), dass das Objekt zu einer Unterkategorie eines „Fahrers“ gehört, berechnet. Die Unterkategorie eines „Fußgängers“ und die Unterkategorie eines „Fahrers“ entsprechen Unterkategorien, die von der Hauptkategorie einer „Person“ unterteilt sind.
  • Zum Beispiel umfasst der Klassifizierer 132, ähnlich zu dem Klassifizierer 122, vollständig verbundene Schichten 1321, in die Y Eingabewerte (d2(#1), d2(#2), d2(#3), ..., d2(#Y)), die den Merkmalsvektor C13 mit einer Dimension Y bilden, eingegeben werden, und eine Ausgabeschicht 1322, die die Wahrscheinlichkeit p2 ausgibt, basierend auf der Ausgabe von den vollständig verbundenen Schichten 1321. Y ist die Anzahl der Eingabewerte, die den Merkmalsvektor C13 bilden, und ist eine Ganzzahl, die gleich oder größer als 1 ist. Zum Zweck einer einfachen Erklärung werden die vollständig verbundenen Schichten 1321 und die Ausgabeschicht 1322 nicht dargestellt.
  • Verfahren des Implementierens der Wahrnehmungseinrichtung 1 in dem Fahrzeug 3
  • Die Wahrnehmungseinrichtung 1 kann in dem Fahrzeug 3 als eine Wahrnehmungseinrichtung 1a implementiert werden, die eine Kategorie eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann. Ein Beispiel des Fahrzeugs 3, in dem die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a implementiert ist, ist ein Fahrzeug 3a, das basierend auf Bildern, die durch die Kamera 31 aufgenommen werden, automatisch fahren kann, das heißt, das fahren kann, ohne dass eine Operation eines Fahrers erforderlich ist. Dies liegt daran, dass es wünschenswert ist, dass das Fahrzeug 3a, das automatisch fahren kann, mit einer relativ hohen Genauigkeit wahrnehmen kann, was ein Objekt in der Nähe des Fahrzeugs 3a ist.
  • Die Wahrnehmungseinrichtung 1 kann in dem Fahrzeug 3 als eine Wahrnehmungseinrichtung 1b implementiert werden, die eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann. Ein Beispiel des Fahrzeugs 3, in dem die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1b implementiert wird, ist ein Fahrzeug 3b, das ein Objekt in der Nähe des Fahrzeugs 3b basierend auf Bildern, die durch die Kamera 31 aufgenommen werden, erfassen kann und eine Vermeidungsoperation zum Vermeiden einer Kollision mit dem Objekt durchführt, wenn es eine Wahrscheinlichkeit einer Kollision mit dem Objekt gibt. Dies liegt daran, dass das Fahrzeug 3b, das die Vermeidungsoperation durchführen kann, nur erfassen muss, dass ein Objekt mit einer Wahrscheinlichkeit einer Kollision mit dem Fahrzeug 3b in der Nähe des Fahrzeugs 3b ist, und es eine niedrige Notwendigkeit gibt, dass mit einer relativ hohen Genauigkeit speziell wahrgenommen wird, was das Objekt ist.
  • Dementsprechend werden ein erstes Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a in dem Fahrzeug 3a und ein zweites Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1b in dem Fahrzeug 3b nachfolgend sequentiell beschrieben. Hier kann die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a oder 1b in einem anderen Fahrzeug als den Fahrzeugen 3a und 3b oder einem anderen beliebigen Gerät als einem Fahrzeug implementiert werden.
  • Erstes Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a in dem Fahrzeug 3a
  • Als Erstes wird das erste Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a in dem Fahrzeug 3a mit Bezug auf 4 und 5 beschrieben. 4 ist ein Blockdiagramm, das die Konfiguration des Fahrzeugs 3a darstellt, in dem die Wahrnehmungseinrichtung 1 unter Verwendung des ersten Implementierungsverfahrens implementiert wird. 5 ist ein Blockdiagramm, das die Konfiguration der Wahrnehmungseinrichtung 1a darstellt, die unter Verwendung des ersten Implementierungsverfahrens implementiert wird.
  • Wie in 4 dargestellt ist, umfasst das Fahrzeug 3a eine Kamera 31, eine elektronische Steuerungseinheit (ECU) 32a, eine Maschine 331, ein Bremsstellglied 332, ein Lenkstellglied 333, ein Schaltstellglied 334, eine Bremseinrichtung 335, gelenkte Räder 336 und einen Getriebemechanismus 337.
  • Die Kamera 31 ist eine Abbildungseinrichtung, die Umgebungen des Fahrzeugs 3a abbildet.
  • Die ECU 32a steuert alle Operationen des Fahrzeugs 3a. In diesem Ausführungsbeispiel umfasst die ECU 32a insbesondere die Wahrnehmungseinrichtung 1a und eine Fahrzeugsteuerungseinheit 322a als Verarbeitungsblöcke, die in der ECU 32a logisch verkörpert sind. Wie in 5 dargestellt ist, besitzt die Wahrnehmungseinrichtung 1a die gleiche Konfiguration wie die Wahrnehmungseinrichtung 1. Jedoch könnte die Wahrnehmungseinrichtung 1a eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, nicht wahrnehmen und könnte somit den Klassifizierer 122 nicht umfassen. Die Fahrzeugsteuerungseinheit 322a erzeugt eine Bewegungsroute, entlang der sich das Fahrzeug 3a von einer momentanen Position des Fahrzeugs 3a zu einer Zielposition bewegen sollte, basierend auf den Wahrnehmungsergebnissen und Ähnlichem der Wahrnehmungseinrichtung 1a und steuert die Maschine 331, das Bremsstellglied 332, das Lenkstellglied 333 und das Schaltstellglied 334, sodass sich das Fahrzeug 3a automatisch entlang der erzeugten Bewegungsroute bewegt.
  • Die Maschine 331 ist eine Antriebsquelle, die eine Antriebskraft an Antriebsräder, die nicht dargestellt sind, zuführt. Das heißt, die Maschine 331 führt eine Antriebskraft an zumindest manche der Fahrzeugräder zu. Die Maschine 331 kann die Antriebskraft, die an die Antriebsräder zugeführt wird, gemäß der Steuerung der Fahrzeugsteuerungseinheit 322a anpassen. Das Bremsstellglied 332 steuert die Bremseinrichtung 335, die ein Bremsen auf die Fahrzeugräder anwenden kann, die nicht dargestellt sind, sodass eine Bremskraft auf das Fahrzeug 3a gemäß der Steuerung der Fahrzeugsteuerungseinheit 322a aufgebracht wird. Das Lenkstellglied 333 lenkt die lenkbaren gelenkten Räder 336, sodass sich das Fahrzeug 3a gemäß der Steuerung der Fahrzeugsteuerungseinheit 322a in eine gewünschte Richtung bewegt. Das Schaltstellglied 334 steuert den Getriebemechanismus 337, sodass einen Getriebebereich bzw. eine Getriebestufe des Getriebemechanismus 337, der eine Leistung der Maschine 331 an die Antriebsräder übertragen kann, in eine gewünschte Getriebestufe gemäß der Steuerung der Fahrzeugsteuerungseinheit 322a geschaltet wird. Der Getriebemechanismus 337 ist zum Beispiel ein Getriebe bzw. eine Übertragungsvorrichtung.
  • Zweites Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als Wahrnehmungseinrichtung 1b in dem Fahrzeug 3b
  • Das zweite Implementierungsverfahren des Implementierens der Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1b in dem Fahrzeug 3b wird nachstehend mit Bezug auf 6 und 7 geschrieben. 6 ist ein Blockdiagramm, das die Konfiguration des Fahrzeugs 3b darstellt, in dem die Wahrnehmungseinrichtung 1 unter Verwendung des zweiten Implementierungsverfahrens implementiert wird. 7 ist ein Blockdiagramm, das die Konfiguration der Wahrnehmungseinrichtung 1b darstellt, die unter Verwendung des zweiten Implementierungsverfahrens implementiert wird. Die gleichen Elemente wie die Elemente des Fahrzeugs 3a werden durch die gleichen Bezugszeichen bezeichnet und eine detaillierte Beschreibung davon wird nicht wiederholt.
  • Wie in 6 dargestellt ist, umfasst das Fahrzeug 3b eine Kamera 31, eine ECU 32b, ein Bremsstellglied 332, eine Bremseinrichtung 335 und eine Warneinrichtung 338.
  • Die ECU 32b steuert einen Teil von Operationen des Fahrzeugs 3b. In diesem Ausführungsbeispiel umfasst die ECU 32b insbesondere die Wahrnehmungseinrichtung 1b und eine Fahrzeugsteuerungseinheit 322b als Verarbeitungsblöcke, die in der ECU 32b logisch verkörpert sind. Wie in 7 dargestellt ist, ist die Wahrnehmungseinrichtung 1b eine Wahrnehmungseinrichtung, die durch Separieren des gemeinsamen neuronalen Netzwerks 11 und des neuronalen Netzwerkzweigs 12 von der Wahrnehmungseinrichtung 1 erhalten wird. Das heißt, die Wahrnehmungseinrichtung 1b ist eine Wahrnehmungseinrichtung inklusive des gemeinsamen neuronalen Netzwerks 11 und des neuronalen Netzwerkzweigs 12, aber ohne den neuronalen Netzwerkzweig 13. Auf diese Weise, wenn die Wahrnehmungseinrichtung 1b den neuronalen Netzwerkzweig 13 nicht umfasst und das gemeinsame neuronale Netzwerk 11 und den neuronalen Netzwerkzweig 12 umfasst, kann die Wahrnehmungseinrichtung 1b immer noch eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen. Die Fahrzeugsteuerungseinheit 322b bestimmt, ob es eine Wahrscheinlichkeit gibt, dass das Fahrzeug 3b mit einem anderen Objekt in der Nähe des Fahrzeugs 3b kollidieren wird, basierend auf dem Wahrnehmungsergebnis von der Wahrnehmungseinrichtung 1b. Wenn bestimmt ist, dass es eine Wahrscheinlichkeit gibt, dass das Fahrzeug 3b mit einem anderen Objekt in der Nähe des Fahrzeugs 3b kollidieren wird, steuert die Fahrzeugsteuerungseinheit 322b das Bremsstellglied 332, sodass eine Bremskraft von der Bremseinrichtungseinheit 35 auf das Fahrzeug 3b aufgebracht wird, um die Kollision zu vermeiden. Wenn bestimmt ist, dass es eine Wahrscheinlichkeit gibt, dass das Fahrzeug 3b mit einem Objekt in der Nähe des Fahrzeugs 3b kollidieren wird, kann die Fahrzeugsteuerungseinheit 322b die Warneinrichtung 338 zusätzlich oder anstelle des Steuerns des Bremsstellglieds 332 steuern, sodass der Fahrer gewarnt wird, dass es eine Wahrscheinlichkeit gibt, dass das Fahrzeug 3b mit dem Objekt kollidieren wird. Die Warneinrichtung 338 warnt den Fahrer, dass es eine Wahrscheinlichkeit gibt, dass das Fahrzeug 3b mit dem Objekt kollidieren wird, zum Beispiel unter Verwendung eines Warntons, eines Warnbildes, oder einer Vibration eines Lenkrades.
  • Trainingsoperation der Wahrnehmungseinrichtung 1
  • Bevor die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a oder 1b in dem Fahrzeug 3a oder 3b implementiert wird, führt die Wahrnehmungseinrichtung 1, das heißt das gemeinsame neuronale Netzwerk 11, der neuronale Netzwerkzweig 12 und der neuronale Netzwerkzweig 13, eine Trainingsoperation in dem Prozessor 2 durch. Die Trainingsoperation der Wahrnehmungseinrichtung 1 wird nachstehend mit Bezug auf 8 und 9 beschrieben. 8 ist ein Ablaufdiagramm, das einen Ablauf der Trainingsoperation der Wahrnehmungseinrichtung 1 darstellt. 9 ist eine Tabelle, die ein Beispiel von Trainingsdaten darstellt, die für die Trainingsoperation verwendet werden.
  • Wie in 8 dargestellt ist, führt die Wahrnehmungseinrichtung 1 zuerst die Trainingsoperation unter Verwendung von vorbestimmten ersten Trainingsdaten durch (Schritt S11). Die ersten Trainingsdaten umfassen eine Vielzahl von Datensätzen, in denen Bilddaten, die ein Bild angeben, in dem ein Objekt, dessen Hauptkategorie und Unterkategorie bestimmt wurden, erscheint, korrekte Antwortdaten, die eine korrekte Antwort von Wahrscheinlichkeiten p1, dass das Objekt zu einer Vielzahl von Hauptkategorien gehört, angeben, und korrekte Antwortdaten, die eine korrekte Antwort von Wahrscheinlichkeiten p2, dass das Objekt zu einer Vielzahl von Unterkategorien gehört, angeben, korreliert sind.
  • In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in dem ein Objekt #A1 erscheint, dessen Hauptkategorie ein Vierradfahrzeug ist und dessen Unterkategorie ein Personenwagen ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #A1 zu einer Hauptkategorie eines Vierradfahrzeugs gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A1 zu einer Unterkategorie eines Personenwagens gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #A1 zu anderen Hauptkategorien als einem Vierradfahrzeug gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A1 zu anderen Unterkategorien als dem Personenwagen gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in dem ein Objekt #A2 erscheint, dessen Hauptkategorie ein Vierradfahrzeug ist und dessen Unterkategorie ein Lastwagen ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #A2 zu der Hauptkategorie eines Vierradfahrzeugs gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A2 zu der Unterkategorie eines Lastwagens gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #A2 zu anderen Hauptkategorien als dem Vierradfahrzeug gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A2 zu anderen Unterkategorien als dem Lastwagen gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die in Bild angeben, in dem ein Objekt #A3 erscheint, dessen Hauptkategorie ein Vierradfahrzeug ist, und dessen Unterkategorie ein Bus ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #A3 zu der Hauptkategorie eines Vierradfahrzeugs gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A3 zu der Kategorie eines Busses gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #A3 zu anderen Hauptkategorien als dem Vierradfahrzeug gehört, und die Wahrscheinlichkeit p2, dass das Objekt #A3 zu anderen Unterkategorien als dem Bus gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in dem ein Objekt #B1 erscheint, dessen Hauptkategorie ein Zweiradfahrzeug ist und dessen Unterkategorie ein Motorrad ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #B1 zu der Hauptkategorie eines Zweiradfahrzeugs gehört, und die Wahrscheinlichkeit p2, dass das Objekt #B1 zu der Unterkategorie eines Motorrads gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #B1 zu anderen Unterkategorien aus dem Zweiradfahrzeug gehört, und die Wahrscheinlichkeit p2, dass das Objekt #B1 zu anderen Unterkategorien als dem Motorrad gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in dem ein Objekt #B2 erscheint, dessen Hauptkategorie ein Zweiradfahrzeug ist und dessen Unterkategorie ein Fahrrad ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #B2 zu der Hauptkategorie eines Zweiradfahrzeugs gehört, und die Wahrscheinlichkeit p2, dass das Objekt #B2 zu der Unterkategorie eines Fahrrads gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #B2 zu anderen Hauptkategorien als dem Zweiradfahrzeug gehört, und die Wahrscheinlichkeit p2, dass das Objekt #B2 zu anderen Unterkategorien als dem Fahrrad gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in dem ein Objekt #C1 erscheint, dessen Hauptkategorie eine Person ist und dessen Unterkategorie ein Fußgänger ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #C1 zu der Hauptkategorie einer Person gehört, und die Wahrscheinlichkeit p2, dass das Objekt #C1 zu der Unterkategorie eines Fußgängers gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #C1 zu anderen Hauptkategorien als der Person gehört, und die Wahrscheinlichkeit p2, dass das Objekt #C1 zu anderen Unterkategorien als dem Fußgänger gehört, gleich 0 sind, korreliert sind. In dem in 9 dargestellten Beispiel umfassen die ersten Trainingsdaten einen Datensatz, in dem Bilddaten, die ein Bild angeben, in denen ein Objekt #C2 erscheint, dessen Hauptkategorie eine Person ist und dessen Unterkategorie ein Fahrer ist, und korrekte Antwortdaten, die angeben, dass die Wahrscheinlichkeit p1, dass das Objekt #C2 zu der Hauptkategorie einer Person gehört, und die Wahrscheinlichkeit p2, dass das Objekt #C2 zu der Unterkategorie eines Fahrers gehört, gleich 1 sind, und dass die Wahrscheinlichkeit p1, dass das Objekt #C2 zu anderen Hauptkategorien als der Person gehört, und die Wahrscheinlichkeit p2, dass das Objekt #C2 zu anderen Unterkategorien als dem Fahrer gehört, gleich 0 sind, korreliert sind.
  • Wenn die Trainingsoperation unter Verwendung der ersten Trainingsdaten durchgeführt wird, wird ein Element von Bilddaten, das in den ersten Trainingsdaten enthalten ist, in das gemeinsame neuronale Netzwerk 11 eingegeben. Als ein Ergebnis gibt das gemeinsame neuronale Netzwerk 11 einen Merkmalsvektor C11 entsprechend dem eingegebenen einen Element von Bilddaten an den neuronalen Netzwerkzweig 12 und den neuronalen Netzwerkzweig 13 aus. Der neuronale Netzwerkzweig 12 gibt die Wahrscheinlichkeiten p1, dass ein Objekt, das in dem eingegebenen einen Element von Bilddaten erscheint, zu einer Vielzahl von Hauptkategorien gehört, basierend auf dem Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, aus. Der neuronale Netzwerkzweig 12 gibt einen Merkmalsvektor C, der in dem Verlauf des Berechnens der Wahrscheinlichkeiten p1 erzeugt wird, an den neuronalen Netzwerkzweig 13 aus. Der neuronale Netzwerkzweig 13 gibt die Wahrscheinlichkeiten p2, dass ein Objekt, das in dem eingegebenen einen Element von Bilddaten erscheint, zu einer Vielzahl von Unterkategorien gehört, basierend auf dem Merkmalsvektor C11, der von dem gemeinsamen neuronalen Netzwerk 11 ausgegeben wird, und dem Merkmalsvektor C, der von dem neuronalen Netzwerkzweig 12 ausgegeben wird, aus. Das Ausgeben der Wahrscheinlichkeiten p1 und p2 wird wiederholt durchgeführt, bis ein Eingeben von allen Bilddaten, die in den ersten Trainingsdaten enthalten sind, in das gemeinsame neuronale Netzwerk 11 beendet ist.
  • Danach werden Parameter, die Operationscharakteristika des gemeinsamen neuronalen Netzwerks 11, des neuronalen Netzwerkzweigs 12 und des neuronalen Netzwerkzweigs 13 angeben, angepasst, sodass Fehler zwischen den Ausgaben der neuronalen Netzwerkzweige 12 und 13 und den korrekten Antwortdaten abnehmen. Vorzugsweise werden die Parameter, die die Operationscharakteristika des gemeinsamen neuronalen Netzwerks 11, des neuronalen Netzwerkzweigs 12 und des neuronalen Netzwerkzweigs 13 angeben, derart angepasst, dass die Fehler zwischen den Ausgaben der neuronalen Netzwerkzweige 12 und 13 und den korrekten Antwortdaten minimiert werden. Das heißt, die Wahrnehmungseinrichtung 1 führt eine Trainingsoperation basierend auf einem überwachten Lernalgorithmus durch. In diesem Fall kann die Wahrnehmungseinrichtung 1 die Trainingsoperation zum Beispiel unter Verwendung eines Rückführungs- bzw. Rückpropagierungsverfahrens durchführen.
  • Eine Anpassung von Parametern des gemeinsamen neuronalen Netzwerks 11 kann eine Anpassung von Parametern von zumindest einem der Merkmalsextrahierer 111 umfassen. Zum Beispiel kann eine Anpassung von Parametern des gemeinsamen neuronalen Netzwerks 11 eine Anpassung von Filtercharakteristika des Faltungsfilters umfassen, der durch zumindest einen der Merkmalsextrahierer 111 verwendet wird. Eine Anpassung von Parametern des gemeinsamen neuronalen Netzwerks 11 kann eine Anpassung von beliebigen Charakteristika von zumindest einem der Merkmalsextrahierer 111 umfassen. Bezüglich des neuronalen Netzwerkzweigs 12 kann eine Anpassung von Parametern des neuronalen Netzwerkzweigs 12 auf ähnliche Weise eine Anpassung von Parametern von zumindest einem der Merkmalsextrahierer 121 umfassen. Bezüglich des neuronalen Netzwerkzweigs 13 kann eine Anpassung der Parameter des neuronalen Netzwerkzweigs 13 auf ähnliche Weise eine Anpassung von Parametern von zumindest einem der Merkmalsextrahierer 131 umfassen.
  • Eine Anpassung von Parametern des neuronalen Netzwerkzweigs 12 kann eine Anpassung von Parametern des Klassifizierers 122 umfassen. Zum Beispiel kann eine Anpassung von Parametern des neuronalen Netzwerkzweigs 12 eine Anpassung von Gewichtungen einer Vielzahl von Knoten M, die die vollständig verbundenen Schichten 1221 des Klassifizierers 122 bilden, umfassen. Eine Anpassung von Parametern des neuronalen Netzwerkzweigs 12 kann eine Anpassung einer Aktivierungsfunktion, die durch die Ausgabeschicht 1222 des Klassifizierers 122 verwendet wird, umfassen. Die Aktivierungsfunktion ist zum Beispiel eine Softmax-Funktion. Eine Anpassung von Parametern des neuronalen Netzwerkzweigs 12 kann eine Anpassung von beliebigen Charakteristika (speziell Charakteristika, die mit einer Berechnung der Wahrscheinlichkeit p1 verknüpft sind) des Klassifizierers 122 umfassen. Bezüglich des neuronalen Netzwerkzweigs 13 kann eine Anpassung der Parameter des neuronalen Netzwerkzweigs 13 auf ähnliche Weise eine Anpassung von Parametern des Klassifizierers 132 umfassen.
  • Nachdem die Trainingsoperation unter Verwendung der ersten Trainingsdaten beendet wurde, führt die Wahrnehmungseinrichtung 1 nachfolgend die Trainingsoperation unter Verwendung vorbestimmter zweiter Trainingsdaten durch (Schritt S12). Die zweiten Trainingsdaten umfassen eine Vielzahl von Datensätzen, in denen Bilddaten, die ein Bild angeben, in dem ein Objekt erscheint, dessen Hauptkategorie bereits bestimmt wurde, und korrekte Antwortdaten, die eine korrekte Antwort der Wahrscheinlichkeiten p1, dass das Objekt zu einer Vielzahl von Hauptkategorien gehört, korreliert sind. Das heißt, die zweiten Trainingsdaten sind von den ersten Trainingsdaten dahingehend verschieden, dass die Bilddaten und korrekten Antwortdaten, die eine korrekte Antwort der Wahrscheinlichkeiten p2, dass das Objekt zu einer Vielzahl von Unterkategorien gehört, nicht korreliert sind. Dementsprechend kann ein Teil der ersten Trainingsdaten, das heißt die Bilddaten und die korrekten Antwortdaten, die die korrekte Antwort der Wahrscheinlichkeiten p1 angeben, als die zweiten Trainingsdaten verwendet werden.
  • Wenn die Trainingsoperation unter Verwendung der zweiten Trainingsdaten durchgeführt wird, wird ein Element von Bilddaten, das in den zweiten Trainingsdaten enthalten ist, in das gemeinsame neuronale Netzwerk 11 eingegeben. Als ein Ergebnis gibt der neuronale Netzwerkzweig 12 die Wahrscheinlichkeiten p1, dass ein Objekt, das in den eingegebenen Bilddaten erscheint, zu einer Vielzahl von Hauptkategorien gehört, aus. Andererseits könnte der neuronale Netzwerkzweig 13 die Wahrscheinlichkeiten p2, dass ein Objekt, das in den Eingabebilddaten erscheint, zu einer Vielzahl von Unterkategorien gehört, nicht ausgeben. Das Ausgeben der Wahrscheinlichkeiten p1 wird wiederholt durchgeführt, bis ein Eingeben von allen Bilddaten, die in den zweiten Trainingsdaten enthalten sind, in das gemeinsame neuronale Netzwerk 11 beendet ist.
  • Danach werden die Parameter, die die Operationscharakteristika des gemeinsamen neuronalen Netzwerks 11 und des neuronalen Netzwerkzweigs 12 angeben, angepasst, sodass Fehler zwischen der Ausgabe des neuronalen Netzwerkzweigs 12 und der korrekten Antwortdaten abnehmen. Vorzugsweise werden die Parameter, die die Operationscharakteristika des gemeinsamen neuronalen Netzwerks 11 und des neuronalen Netzwerkzweigs 12 angeben, derart angepasst, dass Fehler zwischen der Ausgabe des neuronalen Netzwerkzweigs 12 und der korrekten Antwortdaten minimiert werden. Andererseits werden Parameter, die die Operationscharakteristika des neuronalen Netzwerkzweigs 13 angeben, nicht angepasst. Eine Anpassung von Parametern, die in der Trainingsoperation unter Verwendung der zweiten Trainingsdaten durchgeführt wird, ist die gleiche wie die Anpassung von Parametern, die in der Trainingsoperation unter Verwendung der ersten Trainingsdaten durchgeführt wird.
  • Der Trainingsprozess in Schritt S11 und der Trainingsprozess in Schritt S12 werden wiederholt nach Bedarf durchgeführt (Schritt S13).
  • Technische Vorteile
  • Wie vorstehend beschrieben umfasst in diesem Ausführungsbeispiel die Wahrnehmungseinrichtung 1 das gemeinsame neuronale Netzwerk 11, das den gemeinsamen Prozess durchführt, den neuronalen Netzwerkzweig 12, der den ersten Wahrnehmungsprozess des Wahrnehmens einer Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, durchführt, und den neuronalen Netzwerkzweig 13, der den zweiten Wahrnehmungsprozess des Wahrnehmens einer Kategorie eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, durchführt. Die Ausgaben der Merkmalsextrahierer 121 des neuronalen Netzwerkzweigs 12 werden in die Merkmalsextrahierer 131 des neuronalen Netzwerkzweigs 13 eingegeben. Dementsprechend können der neuronale Netzwerkzweig 12 und der neuronale Netzwerkzweig 13 parallel (das heißt gleichzeitig) unter Verwendung der gleichen ersten Trainingsdaten, die eine Beziehung zwischen einem Objekt und beiden einer Hauptkategorie und einer Unterkategorie, zu denen das Objekt gehört, angeben (das heißt, die im Wesentlichen eine Abhängigkeit zwischen der Hauptkategorie und der Unterkategorie angeben), trainiert werden. Das heißt, der neuronale Netzwerkzweig 12 und der neuronale Netzwerkzweig 13 können parallel konstruiert werden. Als ein Ergebnis kann die Wahrnehmungseinrichtung 1, die als die Wahrnehmungseinrichtung 1a, die eine Kategorie eines Objekts mit einer zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, und die Wahrnehmungseinrichtungen 1b, die eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, implementiert wird, effizienter konstruiert werden. Das heißt, da eine Konstruktion der Wahrnehmungseinrichtung 1 äquivalent zu einer parallelen Konstruktion der Wahrnehmungseinrichtungen 1a und 1b ist, können die Wahrnehmungseinrichtungen 1a und 1b im Vergleich mit einem Fall, in dem die Wahrnehmungseinrichtungen 1a und 1b separat unabhängig voneinander konstruiert werden (zum Beispiel, wenn diese separat unter Verwendung von unterschiedlichen Trainingsdaten trainiert werden) effizienter konstruiert werden.
  • Da die Wahrnehmungseinrichtung 1 den neuronalen Netzwerkzweig 12 umfasst, kann die Wahrnehmungseinrichtung 1 selbst ebenso als die Wahrnehmungseinrichtung 1b verwendet werden, auch wenn das gemeinsame neuronale Netzwerk 11 und der neuronale Netzwerkzweig 12 von der Wahrnehmungseinrichtung 1 unabhängig separiert sind. Das heißt, die Wahrnehmungseinrichtung 1a, die eine Kategorie eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, umfasst den neuronalen Netzwerkzweig 12 und kann somit ebenso als die Wahrnehmungseinrichtung 1b verwendet werden, die eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann. In diesem Fall, da eine Konstruktion der Wahrnehmungseinrichtung 1 äquivalent zu einer parallelen Konstruktion der Wahrnehmungseinrichtungen 1a und 1b ist, können die Wahrnehmungseinrichtungen 1a und 1b relativ effizient konstruiert werden.
  • Da die Ausgaben der Merkmalsextrahierer 121 des neuronalen Netzwerkzweigs 12 in die Merkmalsextrahierer 131 des neuronalen Netzwerkzweigs 13 eingegeben werden, werden die Trainingsergebnisse des neuronalen Netzwerkzweigs 12 ebenso im Wesentlichen in dem neuronalen Netzwerkzweig 13 reflektiert. Dementsprechend, im Vergleich mit einem Fall, in dem die Trainingsergebnisse des neuronalen Netzwerkzweigs 12 in dem neuronalen Netzwerkzweig 13 nicht reflektiert werden, kann der neuronale Netzwerkzweig 13 angemessener eine Kategorie eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen.
  • Wenn die Trainingsoperation unter Verwendung der zweiten Trainingsdaten durchgeführt wird, wird eine Anpassung von Parametern des neuronalen Netzwerkzweigs 13 gestoppt. Dementsprechend, auch wenn das gemeinsame neuronale Netzwerk 11 und der neuronale Netzwerkzweig 12 unter Verwendung der zweiten Trainingsdaten trainiert werden, werden Parameter des neuronalen Netzwerkzweigs 13 durch das Trainieren nicht unnötigerweise angepasst. Dementsprechend können nur das gemeinsame neuronale Netzwerk 11 und der neuronale Netzwerkzweig 12 trainiert werden, zu trainieren, ohne den neuronalen Netzwerkzweig 13 negativ zu beeinträchtigen.
  • Modifizierte Beispiele
  • Bilddaten können Daten sein, die eine Vielzahl von Kanälen von Datenkomponenten umfassen. Zum Beispiel können Bilddaten Daten sein, die drei Kanäle von Datenkomponenten eines RGB-Farbmodells umfassen. In diesem Fall kann die Anzahl von Kanälen, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1a verwendet wird, von der Anzahl von Kanälen, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1b verwendet wird, verschieden sein. Zum Beispiel kann die Anzahl von Kanälen, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1b verwendet wird, kleiner sein als die Anzahl von Kanälen, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1a verwendet wird. Die Anzahl von Kanälen, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1a verwendet werden, kann gleich der Anzahl von Kanälen sein, die im Wesentlichen zum Wahrnehmen einer Kategorie eines Objekts durch die Wahrnehmungseinrichtung 1b verwendet werden.
  • In der vorstehenden Beschreibung kann die Wahrnehmungseinrichtung 1 eine Kategorie eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen und kann ebenso die Kategorie des Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen. Jedoch könnte die Wahrnehmungseinrichtung 1 dazu in der Lage sein, beliebige Charakteristika eines Objekts zusätzlich zu oder anstelle einer Kategorie des Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrzunehmen und ebenso die beliebigen Charakteristika des Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrzunehmen. Ein Beispiel von beliebigen Charakteristika eines Objekts ist eine Position des Objekts (zum Beispiel eine Position in einem dreidimensionalen Raum). In diesem Fall kann die Wahrnehmungseinrichtung 1 dazu in der Lage sein, eine Position eines Objekts mit einer dritten Genauigkeit, die relativ niedrig ist, zu spezifizieren und die Position des Objekts mit einer vierten Genauigkeit, die relativ hoch ist, zu spezifizieren. Alternativ, zusätzlich zu Charakteristika eines Objekts, das in einem Bild erscheint, das durch die Kamera 31 aufgenommen wird, könnte die Wahrnehmungseinrichtung 1 Charakteristika eines beliebigen Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen und könnte die Charakteristika des Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen.
  • Jeder Merkmalsextrahierer 111 kann eine andere Verarbeitungseinheit zusätzlich zu oder anstelle von zumindest einer der Faltungsverarbeitungseinheit 1111 und der Bündelungsverarbeitungseinheit 1112 umfassen. Zum Beispiel könnte jeder Merkmalsextrahierer 111 eine Normalisierungsverarbeitungseinheit umfassen, die einen Normalisierungsprozess durchführt. Die Merkmalsextrahierer 121 und 131 können ebenso eine andere Verarbeitungseinheit umfassen.
  • In der vorstehenden Beschreibung ist die Anzahl von Merkmalsextrahierern 131 gleich der Anzahl von Merkmalsextrahierern 121 und der Merkmalsvektor C, der durch den Merkmalsextrahierer 121 in der gleichen Stufe wie jeder Merkmalsextrahierer 131 berechnet wird, wird in den entsprechenden Merkmalsextrahierer 131 eingegeben. Jedoch kann die Anzahl der Merkmalsextrahierer 131 von der Anzahl von Merkmalsextrahierern 121 verschieden sein und könnten die Merkmalsvektoren C, die durch die gleiche Anzahl von Merkmalsextrahierern 121 wie die Merkmalsextrahierer 131 berechnet werden, nicht in die Merkmalsextrahierer 131 eingegeben werden. Speziell könnte der Merkmalsvektor C, der durch zumindest einen der M Merkmalsextrahierer 121 berechnet wird, in zumindest einen der N Merkmalsextrahierer 131 eingegeben werden. Zwei Merkmalsvektoren C, die durch zwei oder mehr unterschiedliche Merkmalsextrahierer 121 berechnet werden, könnten in einen bestimmten Merkmalsextrahierer 131 eingegeben werden. Ein Merkmalsvektor C, der durch den gleichen Merkmalsextrahierer 121 berechnet wird, kann in zwei oder mehr unterschiedliche Merkmalsextrahierer 131 eingegeben werden.
  • In der vorstehenden Beschreibung ist das gemeinsame neuronale Netzwerk 11 ein neuronales Faltungsnetzwerk. Jedoch könnte das gemeinsame neuronale Netzwerk 11 eine andere Art eines neuronalen Netzwerks sein. Zum Beispiel könnte das gemeinsame neuronale Netzwerk 11 ein rekurrentes bzw. periodisches neuronales Netzwerk (RNN, „recurrent neural network“) sein. Zum Beispiel könnte das gemeinsame neuronale Netzwerk 11 ein langer Kurzzeitspeicher (LSTM, „Long Short-Term Memory“) sein. Das gleiche gilt für den neuronalen Netzwerkzweig 12 und den neuronalen Netzwerkzweig 13.
  • Nachdem die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1a in dem Fahrzeug 3a implementiert ist, könnte die Wahrnehmungseinrichtung 1a die Trainingsoperation durchführen. Das heißt, die Wahrnehmungseinrichtung 1a kann ein Online-Training durchführen. In diesem Fall kann die Wahrnehmungseinrichtung 1a ein Online-Training unter Verwendung eines überwachten Lernalgorithmus durchführen oder kann ein Online-Training unter Verwendung eines nicht überwachten Lernalgorithmus durchführen. Das gleiche gilt für den Fall, in dem die Wahrnehmungseinrichtung 1 als die Wahrnehmungseinrichtung 1b in dem Fahrzeug 3b implementiert wird
  • Ergänzungen
  • Die folgenden Ergänzungen sind zusätzlich für die vorstehend erwähnten Ausführungsbeispiele offenbart.
  • Ergänzung 1
  • Eine Wahrnehmungseinrichtungen, die in Ergänzung 1 beschrieben ist, umfasst: ein erstes neuronales Netzwerk, das erste Eingaben empfängt, die mit einem Objekt verknüpft sind, einen gemeinsamen Prozess, der mit einer Wahrnehmung des Objekts basierend auf den ersten Eingabedaten verknüpft ist, durchführt, und Ergebnisse des gemeinsamen Prozesses ausgibt; ein zweites neuronales Netzwerk, das eine Ausgabe des ersten neuronalen Netzwerks als zweite Eingabedaten empfängt, einen ersten Wahrnehmungsprozess des Wahrnehmens der Charakteristika des Objekts mit einer ersten Genauigkeit basierend auf den zweiten Eingabedaten durchführt, und Ergebnisse des ersten Wahrnehmungsprozesses ausgibt; und ein drittes neuronales Netzwerk, das die Ausgabe des ersten neuronalen Netzwerks und Zwischendaten, die durch das zweite neuronale Netzwerk in dem Verlauf des ersten Wahrnehmungsprozesses erzeugt werden, als dritte Eingabedaten empfängt, einen zweiten Wahrnehmungsprozess des Wahrnehmens der Charakteristika des Objekt mit einer zweiten Genauigkeit, die höher als die erste Genauigkeit ist, basierend auf den dritten Eingabedaten durchführt, und Ergebnisse des zweiten Wahrnehmungsprozesses ausgibt.
  • Gemäß der Wahrnehmungseinrichtung, die in Ergänzung 1 beschrieben ist, werden die Zwischendaten, die durch das zweite neuronale Netzwerk erzeugt werden, das den ersten Wahrnehmungsprozess durchführt, in das dritte neuronale Netzwerk eingegeben, das den zweiten Wahrnehmungsprozess durchführt. Das heißt die Zwischendaten werden durch das dritte neuronale Netzwerk verwendet, zusätzlich zu dem zweiten neuronalen Netzwerk. Dementsprechend können das zweite neuronale Netzwerk und das dritte neuronale Netzwerk parallel unter Verwendung der gleichen ersten Eingabedaten trainiert werden. Das heißt, das zweite neuronale Netzwerk und das dritte neuronale Netzwerk können parallel konstruiert werden. Dementsprechend, im Vergleich mit einem Fall, in dem das zweite und dritte neuronale Netzwerk separat konstruiert werden, ist es möglich, das zweite neuronale Netzwerk und das dritte neuronale Netzwerk effizienter zu konstruieren. Dementsprechend kann die Wahrnehmungseinrichtung als eine erste Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit einer ersten Genauigkeit, die relativ niedrig ist, unter Verwendung der Ergebnisse des ersten Wahrnehmungsprozesses wahrnimmt, verwendet werden, und kann die Wahrnehmungseinrichtung ebenso als eine zweite Wahrnehmungseinrichtung, die die Charakteristika des Objekt mit einer zweiten Genauigkeit, die relativ hoch ist, unter Verwendung der Ergebnisse des zweiten Wahrnehmungsprozesses wahrnimmt, verwendet werden. Alternativ ist es möglich, die erste Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, zu konstruieren, durch Separieren des ersten und zweiten neuronalen Netzwerks von der Wahrnehmungseinrichtung, und ist es möglich, die zweite Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, zu konstruieren, unter Verwendung der Wahrnehmungseinrichtung ohne Separierung des ersten und zweiten neuronalen Netzwerks von der Wahrnehmungseinrichtung. Als ein Ergebnis ist es möglich, zwei Arten von Wahrnehmungseinrichtungen von der in Ergänzung 1 beschriebenen Wahrnehmungseinrichtung zu konstruieren. Das heißt, wenn die in Ergänzung 1 beschriebene Wahrnehmungseinrichtung konstruiert wird, werden zwei Arten von Wahrnehmungseinrichtungen konstruiert. Dementsprechend ist es möglich, eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, und eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, effizient zu konstruieren.
  • Ergänzung 2
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 2 beschrieben ist, ist die Wahrnehmungseinrichtung, die in Ergänzung 1 beschrieben ist, wobei das erste bis dritte neuronale Netzwerk einen ersten Trainingsprozess unter Verwendung von ersten Trainingsdaten durchführen, in denen die ersten Eingabedaten, erste korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der ersten Genauigkeit angeben, und zweite korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit einer zweiten Genauigkeit angeben, miteinander korreliert sind.
  • Gemäß der Wahrnehmungseinrichtung, die in Ergänzung 2 beschrieben ist, können das zweite neuronale Netzwerk und das dritte neuronale Netzwerk parallel unter Verwendung der ersten Trainingsdaten trainiert werden. Dementsprechend ist es möglich, eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, und eine Wahrnehmungseinrichtung, die Charakteristika eines Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, effektiver zu konstruieren.
  • Ergänzung 3
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 3 beschrieben ist, ist die Wahrnehmungseinrichtung, die in Ergänzung 1 oder 2 beschrieben ist, wobei das erste und zweite neuronale Netzwerk einen zweiten Trainingsprozess unter Verwendung von zweiten Trainingsdaten durchführen, in denen die ersten Eingabedaten und die ersten korrekten Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der ersten Genauigkeit angeben, miteinander korreliert sind, und die die zweiten korrekten Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der zweiten Genauigkeit angeben, nicht umfassen, und das dritte neuronale Netzwerk den zweiten Trainingsprozess in einer Periode, in der das erste und zweite neuronale Netzwerk den zweiten Trainingsprozess durchführen, nicht durchführt.
  • Gemäß der in Ergänzung 3 beschriebenen Wahrnehmungseinrichtung, auch wenn das erste und zweite neuronale Netzwerk unter Verwendung der zweiten Trainingsdaten, die die zweiten korrekten Antwortdaten, die Charakteristika eines Objekts mit der zweiten Genauigkeit angeben, nicht umfassen, trainiert werden, beeinträchtigt das Trainieren das dritte neuronale Netzwerk nicht negativ (speziell beeinträchtigt es nicht die Wahrnehmungsfähigkeit von Charakteristika eines Objekts mit der zweiten Genauigkeit).
  • Ergänzung 4
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 4 beschrieben ist, ist die Wahrnehmungseinrichtung, die in irgendeiner der Ergänzungen 1 bis 3 beschrieben ist, wobei die Wahrnehmungseinrichtung dazu in der Lage ist, eine andere Wahrnehmungseinrichtung zu konstruieren, die das erste und zweite neuronale Netzwerk umfasst, aber das dritte neuronale Netzwerk nicht umfasst, durch Separieren des ersten und zweiten neuronalen Netzwerks von dem dritten neuronalen Netzwerk.
  • Gemäß der in Ergänzung 4 beschriebenen Wahrnehmungseinrichtung ist es möglich, eine Wahrnehmungseinrichtung (das heißt die andere Wahrnehmungseinrichtung, die in Ergänzung 4 beschrieben ist), die Charakteristika eines Objekts mit der ersten Genauigkeit, die relativ niedrig ist, wahrnehmen kann, und eine Wahrnehmungseinrichtung (das heißt, die Wahrnehmungseinrichtung, die in Ergänzung 1 beschrieben ist), die Charakteristika des Objekts mit der zweiten Genauigkeit, die relativ hoch ist, wahrnehmen kann, effizienter zu konstruieren.
  • Ergänzung 5
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 5 beschrieben ist, ist die Wahrnehmungseinrichtung, die in irgendeiner der Ergänzungen 1 bis 4 beschrieben ist, wobei die Charakteristika des Objekts eine Kategorie des Objekts umfassen, der erste Wahrnehmungsprozess einen ersten Schätzprozess des Schätzens, zu welcher einer Vielzahl von ersten Kategorien das Objekt gehört, umfasst, und der zweite Wahrnehmungsprozess eine zweiten Schätzprozess des Schätzens, zu welcher einer Vielzahl von zweiten Kategorien, die von der Vielzahl von ersten Kategorien unterteilt sind, das Objekt gehört, umfasst.
  • Gemäß der in Ergänzung 5 beschriebenen Wahrnehmungseinrichtung ist es möglich, eine Wahrnehmungseinrichtung, die schätzen kann, zu welcher einer Vielzahl von ersten Kategorien das Objekt gehört, und eine Wahrnehmungseinrichtung, die schätzen kann, zu welcher der Vielzahl von zweiten Kategorien ein Objekt gehört, effizienter zu konstruieren.
  • Ergänzung 6
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 6 beschrieben ist, ist die Wahrnehmungseinrichtung, die in einer der Ergänzungen 1 bis 5 beschrieben ist, wobei die Charakteristika des Objekts eine Position des Objekts umfassen, der erste Wahrnehmungsprozess einen ersten Spezifikationsprozess des Spezifizierens der Position des Objekts mit einer dritten Genauigkeit umfasst, und der zweite Wahrnehmungsprozess einen zweiten Spezifikationsprozess des Spezifizierens der Position des Objekts mit einer vierten Genauigkeit, die höher als die dritte Genauigkeit ist, umfasst.
  • Gemäß der in Ergänzung 6 beschriebenen Wahrnehmungseinrichtung ist es möglich, eine Wahrnehmungseinrichtung, die eine Position eines Objekts mit der dritten Genauigkeit spezifizieren kann, und eine Wahrnehmungseinrichtung, die eine Position eines Objekts mit der vierten Genauigkeit spezifizieren kann, effizienter zu konstruieren.
  • Ergänzung 7
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 7 beschrieben ist, ist die Wahrnehmungseinrichtung, die in einer der Ergänzungen 1 bis 6 beschrieben ist, wobei das zweite neuronale Netzwerk einen ersten Verarbeitungsblock aufweist, der die Zwischendaten durch Durchführen von zumindest einem Teil des ersten Wahrnehmungsprozesses ausgibt, und das dritte neuronale Netzwerk einen zweiten Verarbeitungsblock aufweist, der die Zwischendaten empfängt und zumindest einen Teil des zweiten Wahrnehmungsprozesses basierend auf den Zwischendaten durchführt.
  • Gemäß der in Ergänzung 7 beschriebenen Wahrnehmungseinrichtung ist es möglich, eine Wahrnehmungseinrichtung zu konstruieren, die ein zweites neuronales Netzwerk inklusive eines ersten Verarbeitungsblocks und ein drittes neuronales Netzwerk inklusive eines zweiten Verarbeitungsblocks umfasst.
  • Ergänzung 8
  • Eine Wahrnehmungseinrichtung, die in Ergänzung 8 beschrieben ist, ist die Wahrnehmungseinrichtung, die in Ergänzung 7 beschrieben ist, wobei das zweite neuronale Netzwerk eine Vielzahl von ersten Verarbeitungsblöcken umfasst, die in mehreren Stufen in Reihe miteinander verbunden sind, sodass eine Ausgabe des ersten Verarbeitungsblocks in einer vorhergehenden Stufe in den ersten Verarbeitungsblock in einer nachfolgenden Stufe eingegeben wird, wobei das dritte neuronale Netzwerk eine Vielzahl von zweiten Verarbeitungsblöcken umfasst, die in mehreren Stufen in Reihe miteinander verbunden sind, sodass eine Ausgabe des zweiten Verarbeitungsblocks in einer vorhergehenden Stufe in den zweiten Verarbeitungsblock in einer nachfolgenden Stufe eingegeben wird, und ein zweiter Verarbeitungsblock der Vielzahl von zweiten Verarbeitungsblöcken zumindest einen Teil des zweiten Wahrnehmungsprozesses basierend auf den Zwischendaten durchführt, die von einem ersten Verarbeitungsblock der Vielzahl von ersten Verarbeitungsblöken eingegeben wird.
  • Gemäß der in Ergänzung 8 beschriebenen Wahrnehmungseinrichtung ist es möglich, eine Wahrnehmungseinrichtung zu konstruieren, die ein zweites neuronales Netzwerk mit einer Vielzahl von ersten Verarbeitungsblöcken und ein drittes neuronales Netzwerk mit einer Vielzahl von zweiten Verarbeitungsblöcken umfasst.
  • Die Erfindung ist nicht auf das vorstehend beschriebene Ausführungsbeispiel beschränkt und kann angemessen modifiziert werden, ohne sich vom Umfang oder Geist der Erfindung, die von der folgenden Offenbarung gelesen werden kann, zu entfernen, und die Wahrnehmungseinrichtungen mit den Modifikationen sind in dem technischen Umfang der Erfindung umfasst.
  • Eine Wahrnehmungseinrichtung (1) umfasst: ein erstes neuronales Netzwerk (11), das einen gemeinsamen Prozess durchführt, der mit einer Wahrnehmung eines Objekts verknüpft ist und somit Ergebnisse des gemeinsamen Prozesses ausgibt; ein zweites neuronales Netzwerk (12), das eine Ausgabe von dem ersten neuronalen Netzwerk (11) empfängt und Ergebnisse eines ersten Wahrnehmungsprozesses des Wahrnehmens der Charakteristika des Objekts mit einer ersten Genauigkeit ausgibt; und ein drittes neuronales Netzwerk (13), das die Ausgabe des ersten neuronalen Netzwerks (11) und Zwischendaten, die durch das zweite neuronale Netzwerk (12) im Verlauf des ersten Wahrnehmungsprozesses erzeugt werden, empfängt, und Ergebnisse eines zweiten Wahrnehmungsprozesses des Wahrnehmens der Charakteristika des Objekts mit einer zweiten Genauigkeit, die höher ist als die erste Genauigkeit, ausgibt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2017084320 [0002]
    • JP 2017084320 A [0002]
    • JP 2014229124 [0002]
    • JP 2014229124 A [0002]
    • JP 2016033806 [0002]
    • JP 2016033806 A [0002]

Claims (8)

  1. Wahrnehmungseinrichtung, mit: einem ersten neuronalen Netzwerk (11), das erste Eingabedaten, die mit einem Objekt verknüpft sind, empfängt, wobei das erste neuronale Netzwerk (11) einen gemeinsamen Prozess, der mit einer Wahrnehmung des Objekts verknüpft ist, basierend auf den ersten Eingabedaten durchführt, wobei das erste neuronale Netzwerk (11) die Ergebnisse des gemeinsamen Prozesses ausgibt; einem zweiten neuronalen Netzwerk (12), das eine Ausgabe von dem ersten neuronalen Netzwerk (11) als zweite Eingabedaten empfängt, wobei das zweite neuronale Netzwerk (12) einen ersten Wahrnehmungsprozess des Wahrnehmens von Charakteristika des Objekts mit einer ersten Genauigkeit basierend auf den zweiten Eingabedaten durchführt, wobei das zweite neuronale Netzwerk (12) Ergebnisse des ersten Wahrnehmungsprozesses ausgibt; und einem dritten neuronalen Netzwerk (13), das die Ausgabe des ersten neuronalen Netzwerks (11) und Zwischendaten, die durch das zweite neuronale Netzwerk (12) während des ersten Wahrnehmungsprozesses erzeugt werden, empfängt, wobei die Ausgabe des ersten neuronalen Netzwerks (11) und die Zwischendaten als dritte Eingabedaten durch das dritte neuronale Netzwerk (13) empfangen werden, das dritte neuronale Netzwerk (13) einen zweiten Wahrnehmungsprozess des Wahrnehmens der Charakteristika des Objekts mit einer zweiten Genauigkeit, die höher ist als die erste Genauigkeit, basierend auf den dritten Eingabedaten durchführt, das dritte neuronale Netzwerk (13) Ergebnisse des zweiten Wahrnehmungsprozess ausgibt.
  2. Wahrnehmungseinrichtung gemäß Anspruch 1, wobei: jedes des ersten neuronalen Netzwerks (11), des zweiten neuronalen Netzwerks (12) und des dritten neuronalen Netzwerks (13) einen ersten Trainingsprozess durchführt; und der erste Trainingsprozess unter Verwendung von ersten Trainingsdaten durchgeführt wird, in denen die ersten Eingabedaten, erste korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der ersten Genauigkeit angeben, und zweite korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der zweiten Genauigkeit angeben, alle zusammen korreliert sind.
  3. Wahrnehmungseinrichtung gemäß Anspruch 1, wobei: jedes des ersten neuronalen Netzwerks (11) und des zweiten neuronalen Netzwerks (12) einen zweiten Trainingsprozess durchführt, wobei der zweite Trainingsprozess unter Verwendung von zweiten Trainingsdaten, in denen die ersten Eingabedaten und erste korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der ersten Genauigkeit angeben, miteinander korreliert sind; wobei die ersten Trainingsdaten zweite korrekte Antwortdaten, die die Charakteristika des Objekts entsprechend den ersten Eingabedaten mit der zweiten Genauigkeit angeben, nicht umfassen; und das dritte neuronale Netzwerk (13) den zweiten Trainingsprozess in einer Periode, in der das erste neuronale Netzwerk (11) und das zweite neuronale Netzwerk (12) den zweiten Trainingsprozess durchführen, nicht durchführt.
  4. Wahrnehmungseinrichtung gemäß einem der Ansprüche 1 bis 3, wobei die Wahrnehmungseinrichtung dazu in der Lage ist, eine andere Wahrnehmungseinrichtung inklusive des ersten neuronalen Netzwerks (11) und des zweiten neuronalen Netzwerks (12) und ohne das dritte neuronale Netzwerk (13) durch Separieren des ersten neuronalen Netzwerks (11) und des zweiten neuronalen Netzwerks (12) von dem dritten neuronalen Netzwerk (13) zu konstruieren.
  5. Wahrnehmungseinrichtung gemäß einem der Ansprüche 1 bis 4, wobei: die Charakteristika des Objekts eine Kategorie des Objekts umfassen; der erste Wahrnehmungsprozess einen ersten Schätzprozess umfasst, wobei der erste Schätzprozess schätzt, zu welcher Kategorie unter einer Vielzahl von ersten Kategorien das Objekt gehört; der zweite Wahrnehmungsprozess einen zweiten Schätzprozess umfasst, wobei der zweite Schätzprozess schätzt, zu welcher Kategorie unter einer Vielzahl von zweiten Kategorien das Objekt gehört; und die zweiten Kategorien von den ersten Kategorien unterteilt sind.
  6. Wahrnehmungseinrichtung gemäß einem der Ansprüche 1 bis 5, wobei: die Charakteristika des Objekts eine Position des Objekts umfassen; der erste Wahrnehmungsprozess einen ersten Spezifikationsprozess, der die Position des Objekts mit einer dritten Genauigkeit spezifiziert, umfasst; der zweite Wahrnehmungsprozess einen zweiten Spezifikationsprozess, der die Position des Objekts mit einer vierten Genauigkeit spezifiziert, umfasst; und die vierte Genauigkeit höher ist als die dritte Genauigkeit.
  7. Wahrnehmungseinrichtung gemäß einem der Ansprüche 1 bis 6, wobei: das zweite neuronale Netzwerk (12) einen ersten Verarbeitungsblock umfasst, der die Zwischendaten durch Durchführen von zumindest einem Teil des ersten Wahrnehmungsprozesses ausgibt; und das dritte neuronale Netzwerk (13) einen zweiten Verarbeitungsblock umfasst, wobei der zweite Verarbeitungsblock die Zwischendaten empfängt und zumindest einen Teil des zweiten Wahrnehmungsprozesses basierend auf den Zwischendaten durchführt.
  8. Wahrnehmungseinrichtung gemäß Anspruch 7, wobei: das zweite neuronale Netzwerk (12) eine Vielzahl der ersten Verarbeitungsblöcke umfasst; die Vielzahl der ersten Verarbeitungsblöcke in Reihe miteinander verbunden sind, sodass eine Ausgabe des ersten Verarbeitungsblocks in einer vorhergehenden Stufe in den ersten Verarbeitungsblock in einer nachfolgenden Stufe eingegeben wird; das dritte neuronale Netzwerk (13) eine Vielzahl der zweiten Verarbeitungsblöcke umfasst; die Vielzahl der zweiten Verarbeitungsblöcke in Reihe verbunden sind, sodass eine Ausgabe des zweiten Verarbeitungsblocks in einer vorhergehenden Stufe in den zweiten Verarbeitungsblock in einer nachfolgenden Stufe eingegeben wird; und ein zweiter Verarbeitungsblock der Vielzahl der zweiten Verarbeitungsblöcke zumindest einen Teil des zweiten Wahrnehmungsprozesses basierend auf den Zwischendaten, die von einem ersten Verarbeitungsblock der Vielzahl der ersten Verarbeitungsblöcke eingegeben werden, durchführt.
DE102018110196.1A 2017-07-27 2018-04-27 Wahrnehmungseinrichtung Pending DE102018110196A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-145733 2017-07-27
JP2017145733A JP6729516B2 (ja) 2017-07-27 2017-07-27 識別装置

Publications (1)

Publication Number Publication Date
DE102018110196A1 true DE102018110196A1 (de) 2019-01-31

Family

ID=65003898

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018110196.1A Pending DE102018110196A1 (de) 2017-07-27 2018-04-27 Wahrnehmungseinrichtung

Country Status (4)

Country Link
US (1) US11176416B2 (de)
JP (1) JP6729516B2 (de)
CN (1) CN109308481B (de)
DE (1) DE102018110196A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4004801A1 (de) * 2019-07-26 2022-06-01 Robert Bosch GmbH Auswerteeinrichtung zum auswerten eines eingangssignals sowie kamera umfassend die auswerteeinrichtung

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
US10997492B2 (en) * 2017-01-20 2021-05-04 Nvidia Corporation Automated methods for conversions to a lower precision data format
CN109784487B (zh) * 2017-11-15 2023-04-28 富士通株式会社 用于事件检测的深度学习网络、该网络的训练装置及方法
EP3673419B8 (de) * 2017-11-22 2024-09-18 DeepMind Technologies Limited Populationsbasiertes training von neuronalen netzen
US11328210B2 (en) 2017-12-29 2022-05-10 Micron Technology, Inc. Self-learning in distributed architecture for enhancing artificial neural network
US10522038B2 (en) 2018-04-19 2019-12-31 Micron Technology, Inc. Systems and methods for automatically warning nearby vehicles of potential hazards
JP2019195304A (ja) 2018-05-10 2019-11-14 学校法人順天堂 画像解析方法、装置、コンピュータプログラム、及び深層学習アルゴリズムの生成方法
US10922833B2 (en) * 2018-05-15 2021-02-16 Apical Ltd. Image processing
US11087185B2 (en) * 2018-05-25 2021-08-10 Samsung Electronics Co., Ltd. Image processing method and apparatus with neural network adjustment
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
JP7130190B2 (ja) * 2018-12-27 2022-09-05 オムロン株式会社 画像判定装置、学習方法及び画像判定プログラム
US11410475B2 (en) 2019-01-31 2022-08-09 Micron Technology, Inc. Autonomous vehicle data recorders
US11373466B2 (en) 2019-01-31 2022-06-28 Micron Technology, Inc. Data recorders of autonomous vehicles
IT201900002853A1 (it) * 2019-02-27 2020-08-27 Magneti Marelli Spa "Sistema per ottenere la predizione di un’azione di un veicolo e procedimento corrispondente"
JP7231464B2 (ja) * 2019-04-09 2023-03-01 株式会社日立製作所 物体認識システム及び物体認識方法
JP7381003B2 (ja) * 2019-04-26 2023-11-15 学校法人順天堂 疾患解析を支援する方法、装置、及びコンピュータプログラム、並びにコンピュータアルゴリズムを訓練する方法、装置、及びプログラム
US11610390B2 (en) * 2019-05-15 2023-03-21 Getac Technology Corporation System for detecting surface type of object and artificial neural network-based method for detecting surface type of object
JP7342120B2 (ja) * 2019-06-27 2023-09-11 富士フイルム株式会社 学習装置、方法およびプログラム、クラス分類装置、方法およびプログラム、並びに学習済みモデル
DE102019210091A1 (de) * 2019-07-09 2021-01-14 Robert Bosch Gmbh Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerkes
US11392796B2 (en) 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
EP3783525A1 (de) * 2019-08-22 2021-02-24 Argo AI GmbH Verfahren zur detektion eines objekts in der umgebung eines fahrzeugs, zugehöriges system und fahrzeug
DE102019214984A1 (de) * 2019-09-30 2021-04-01 Robert Bosch Gmbh Inertialsensor und computerimplementiertes Verfahren zur Selbstkalibrierung eines Inertialsensors
CN110928216B (zh) * 2019-11-14 2020-12-15 深圳云天励飞技术有限公司 人工智能装置
CN111047037B (zh) * 2019-12-27 2024-05-24 北京市商汤科技开发有限公司 数据处理方法、装置、设备及存储介质
WO2021174513A1 (zh) * 2020-03-06 2021-09-10 华为技术有限公司 一种图像处理系统、方法以及包括该系统的自动驾驶车辆
JP7388971B2 (ja) 2020-04-06 2023-11-29 トヨタ自動車株式会社 車両制御装置、車両制御方法及び車両制御用コンピュータプログラム
JP7359735B2 (ja) 2020-04-06 2023-10-11 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
US11829449B2 (en) 2020-12-30 2023-11-28 Zoox, Inc. Intermediate input for machine learned model
US11847831B2 (en) 2020-12-30 2023-12-19 Zoox, Inc. Multi-resolution top-down prediction
JP2024506433A (ja) * 2020-12-30 2024-02-14 ズークス インコーポレイテッド 機械学習モデルのための中間入力

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229124A (ja) 2013-05-23 2014-12-08 独立行政法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム
JP2016033806A (ja) 2014-05-15 2016-03-10 株式会社リコー 画像処理装置、画像処理方法及びプログラム
JP2017084320A (ja) 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5295227A (en) 1991-07-09 1994-03-15 Fujitsu Limited Neural network learning system
JPH05197705A (ja) * 1991-07-09 1993-08-06 Fujitsu Ltd ニューラルネットワークの学習システム
JPH08305820A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 能動的物体認識方法および装置
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
CN101630144B (zh) * 2009-08-18 2010-12-08 湖南大学 电子节气门的自学习逆模型控制方法
US8842883B2 (en) * 2011-11-21 2014-09-23 Seiko Epson Corporation Global classifier with local adaption for objection detection
US9182473B2 (en) * 2012-05-10 2015-11-10 Lear Corporation System, method and product for locating vehicle key using neural networks
US20140108094A1 (en) * 2012-06-21 2014-04-17 Data Ventures, Inc. System, method, and computer program product for forecasting product sales
WO2015143173A2 (en) * 2014-03-19 2015-09-24 Neurala, Inc. Methods and apparatus for autonomous robotic control
US20160140438A1 (en) * 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification
EP3065086A1 (de) * 2015-03-02 2016-09-07 Medizinische Universität Wien Computerisierte Vorrichtung und Verfahren zur Verarbeitung von Bilddaten
US20180129961A1 (en) * 2015-05-12 2018-05-10 New York University System, method and computer-accessible medium for making a prediction from market data
WO2016183522A1 (en) * 2015-05-14 2016-11-17 Thalchemy Corporation Neural sensor hub system
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
KR101788829B1 (ko) * 2015-08-24 2017-10-20 (주)뉴로컴즈 콘볼루션 신경망 컴퓨팅 장치
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
JP6983800B2 (ja) * 2016-03-15 2021-12-17 イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法
CN118522390A (zh) * 2016-04-01 2024-08-20 20/20基因系统股份有限公司 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物
GB201607879D0 (en) * 2016-05-05 2016-06-22 Magic Pony Technology Ltd Video encoding using hierarchical algorithms
CN105976400B (zh) * 2016-05-10 2017-06-30 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
JP6847386B2 (ja) * 2016-09-09 2021-03-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ニューラルネットワークの正則化
US20190228268A1 (en) * 2016-09-14 2019-07-25 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
CN106485235B (zh) * 2016-10-24 2019-05-03 厦门美图之家科技有限公司 一种卷积神经网络生成方法、年龄识别方法及相关装置
US10467458B2 (en) * 2017-07-21 2019-11-05 Altumview Systems Inc. Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
US10318827B2 (en) * 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
CN106934378B (zh) * 2017-03-16 2020-04-24 山东建筑大学 一种基于视频深度学习的汽车远光灯识别系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229124A (ja) 2013-05-23 2014-12-08 独立行政法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム
JP2016033806A (ja) 2014-05-15 2016-03-10 株式会社リコー 画像処理装置、画像処理方法及びプログラム
JP2017084320A (ja) 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4004801A1 (de) * 2019-07-26 2022-06-01 Robert Bosch GmbH Auswerteeinrichtung zum auswerten eines eingangssignals sowie kamera umfassend die auswerteeinrichtung

Also Published As

Publication number Publication date
CN109308481B (zh) 2022-08-30
JP6729516B2 (ja) 2020-07-22
JP2019028616A (ja) 2019-02-21
CN109308481A (zh) 2019-02-05
US11176416B2 (en) 2021-11-16
US20190034762A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
DE102018110196A1 (de) Wahrnehmungseinrichtung
DE102018200878B3 (de) Detektion von Gefahrengeräuschen
DE102017201302B4 (de) Verfahren zum bestimmen von strassenoberflächen basierend auf fahrzeugdaten
DE102018128195A1 (de) Fahrempfehlungsvorrichtung und Fahrempfehlungsverfahren
DE102017211395A1 (de) Verfahren zur Unterstützung eines Ankuppelvorgangs sowie Unterstützungssystem
DE102019125921A1 (de) Insassenmodelliervorrichtung, Insassenmodellierverfahren und Insassenmodellierprogramm
DE102015212506A1 (de) Automatikfahren-Steuersystem und Automatikfahren
DE102017218851A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes
EP4017786B1 (de) Verfahren und vorrichtung zum schätzen eines lenkraddrehmoments für eine mechanische rückkopplung an einem lenkrad einer lenkung eines kraftfahrzeugs
DE102009004415B4 (de) Verfahren und Systeme zum Berechnen der Gierverstärkung für die Verwendung bei der Steuerung eines Fahrzeugs
DE102020206659A1 (de) Multi-hypothesen-objektverfologung für automatisierte fahrsysteme
DE102021102663A1 (de) Systeme und Verfahren zum Trainieren eines Nichtblind-Unschärfeentfernungsmoduls
DE102017009464A1 (de) Fahrzeugsteuerungsvorrichtung und verfahren zum steuern eines fahrzeugs
DE19748126A1 (de) Verfahren und Vorrichtung zur Überwachung von Sensoren in einem Fahrzeug
DE102020105785A1 (de) Verfahren zur Erzeugung eines reduzierten neuronalen Netzes für ein Steuergerät eines Fahrzeuges mithilfe von Eigenvektoren
DE102021131054A1 (de) Verfahren, System und Computerprogrammprodukt zur Bewertung einer Fahrsituation für die prädiktive Steuerung einer automatisierten Fahrfunktion
EP1436173B1 (de) System und verfahren zum erfassen der sitzbelegung eines kraftfahrzeuges
DE102019128459A1 (de) Steuervorrichtung für ein Fahrzeug
DE102019211095A1 (de) Fahrevaluierungssystem, Fahrevaluierungsverfahren, Programm und Medium
DE102018219255A1 (de) Trainingssystem, Datensatz, Trainingsverfahren, Auswerteeinrichtung und Einsatzsystem für ein Straßenfahrzeug zum Erfassen und Klassifizieren von Verkehrsgeräuschen
DE112020001530T5 (de) System und verfahren zur steuerung der geschwindigkeit und des kurses eines kraftfahrzeugs auf der basis von vorschauinformationen
DE102020212009A1 (de) Steuervorrichtung für ein Fahrzeug
DE112020003172T5 (de) Elektronische steuervorrichtung und datenübertragungsverfahren
DE102019113958A1 (de) Verfahren zur Leistungssteigerung eines Fahrzeugsystems mit einem neuronalen Netz zum Steuern einer Fahrzeugkomponente
DE102018210368A1 (de) Fahrerassistenzsystem, Fahrzeug, Verfahren zum Betreiben des Fahrerassistenzsystems, Computerprogramm und computerlesbares Speichermedium

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication