DE102018102791A1

DE102018102791A1 - Erkennungssystem, Extraktionseinheit für generische Merkmale und Erkennungssystemkonfiguration

Info

Publication number: DE102018102791A1
Application number: DE102018102791.5A
Authority: DE
Inventors: Ikuro Sato; Mitsuru Ambai; Hiroshi Doi
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2017-05-18
Filing date: 2018-02-08
Publication date: 2018-11-22
Also published as: US20180336430A1; US10769479B2; CN108960405A; JP6802756B2; JP2018195097A

Abstract

Ein Erkennungssystem umfasst: eine Sensorverarbeitungseinheit (SPU), die ein Erfassen durchführt, um einen Sensorwert auszugeben, eine aufgabenspezifische Einheit (TSU) mit einem Objekterfassungsteil, der eine Objekterfassungsaufgabe auf Basis des Sensorwerts durchführt, und einem Semantiksegmentierungsteil, der eine Semantiksegmentierungsaufgabe auf Basis des Sensorwerts durchführt, und eine Extraktionseinheit (GEU) für ein generisches Merkmal mit einem generischen neuronalen Netz, das zwischen der Sensorverarbeitungseinheit und der aufgabenspezifischen Einheit angeordnet ist, wobei das generische neuronale Netz dazu ausgestaltet ist, den Sensorwert als eine Eingabe zum Extrahieren eines generischen Merkmals zu empfangen, das jeweils gemeinsam in den Objekterfassungsteil und den Semantiksegmentierungsteil einzugeben ist.

Description

QUERVERWEIS AUF IN BEZIEHUNG STEHENDE ANMELDUNGEN
Diese nicht-provisorische Anmeldung basiert auf der japanischen Patentanmeldung Nr. 2017-098641 , die am 18. Mai 2017 beim Japanischen Patentamt eingereicht wurde und deren gesamter Inhalt hierdurch durch Referenzierung einbezogen ist.
GEBIET
Die vorliegende Erfindung bezieht sich auf ein Erkennungssystem, das eine Erkennungsverarbeitung auf Basis eines Sensorwertes durchführt, einer Extraktionseinheit für ein generisches Merkmal, die in dem Erkennungssystem zu verwenden ist, und ein Erkennungssystemkonfigurationsverfahren.
HINTERGRUND UND ZUSAMMENFASSUNG
Als ein Erkennungssystem, das eine Erkennungsverarbeitung auf Basis eines Sensorwertes durchführt, ist ein Erkennungssystem bekannt, das ein Merkmal aus einem Sensorwert mit einem Maschinenlernmodell wie einem neuronalen Netz erhält, um Erkennung durchzuführen (beispielsweise lasonas Kokkinos, „UberNet: Training a ‚Universal‘ Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory“, arXiv:1609.02132v1 [cs.CV], 7 Sep 2016). Das Erkennungssystem wird auf eine Fahrzeugfahrsteuerung wie ein automatisches Fahrzeugfahren oder eine Fahrerassistenz angewendet.
Die Fahrzeugfahrsteuerung umfasst beispielsweise ein Erhalten eines Bildes einer Kamera oder eines erfassten Wertes eines Millimeterwellenradars als einem Sensorwert, Eingeben des Sensorwertes in ein Maschinenlernmodell, wie einen neuronalen Netz, um ein Ergebnis wie eine Schildererkennung, eine Fußgängererfassung oder eine Weißlinienerfassung zu erhalten, und Steuern des Fahrzeugs auf Basis des Erfassungsergebnisses (nämlich der Ausgabe des Maschinenlernmodells). Beispiele der Steuerung des Fahrzeugs umfassen eine Geschwindigkeitsbegrenzung auf Basis des Ergebnisses der Schilderidentifikation, ein autonomes Notbremsen auf Basis des Ergebnisses der Fußgängererfassung und ein Spurhalten auf Basis des Ergebnisses der Weißlinienerfassung.
Beispielsweise wird die Erkennungsverarbeitung auf ein Bild (Fotografierbild), das durch die Kamera fotografiert und erhalten wurde, für Beliebiges von Schildererkennung, Fußgängererfassung und Weißlinienerfassung durchgeführt. Ein Eingeben des Fotografierbildes in ein angelerntes neuronales Netz, das für die Schilderidentifikation konfiguriert ist, erhält das Ergebnis der Schilderidentifikation, ein Eingeben des Fotografierbildes in ein angelerntes neuronales Netz, das für die Fußgängererfassung konfiguriert ist, ergibt das Ergebnis der Fußgängererfassung und ein Eingeben des Fotografierbildes in ein angelerntes neuronales Netz, das für die Weißlinienerfassung konfiguriert ist, erhält das Ergebnis der Weißlinienerfassung.
Ein großes Maß an Lerndaten ist nötig, um ein neuronales Netz mit hoher Präzision zu erhalten, und zusätzlich ist eine lange Berechnungszeit für das neuronale Netz nötig, um ein großes Maß an vorbereiteten Lerndaten zu erlernen. Herkömmlich ist es nötig, mehrere derartige neuronale Netze für Erkennungsaufgaben (beispielsweise Schildererkennung, Fußgängererfassung und Weißlinienerfassung) vorzubereiten, und damit sind Entwicklungskosten (einschließlich Ausgabenkosten, Zeitkosten und Arbeitslastkosten) hoch und Aktualisierungskosten zum Aktualisieren des Erkennungssystems sind hoch.
Insbesondere in einem System des Durchführens einer großen Zahl von Erkennungsaufgaben zum Erhalten eines Fahrzeugsteuerwertes wie für ein Fahrzeug, das ein automatisches Fahren und Fahrassistenz durchführt, wird das gleiche Fotografierbild für die mehreren Erkennungsaufgaben verwandt und eine ähnliche Merkmalsextraktionsberechnung wird an dem Fotografierbild in jedem der Erkennungsaufgaben durchgeführt, obgleich ein unabhängiges neuronales Netz für jede der Erkennungsaufgaben vorbereitet wird.
Eine Aufgabe der vorliegenden Offenbarung ist die Entwicklungskosten in einem Erkennungssystem zu reduzieren, das Erkennung mit einem neuronalen Netz durchführt, das einen Sensorwert als eine Eingabe empfängt.
Ein Erkennungssystem gemäß einem Aspekt der vorliegenden Offenbarung umfasst eine Erfassungseinheit, die ausgestaltet ist, ein Erfassen durchzuführen, um einen Sensorwert auszugeben, eine aufgabenspezifischen Einheit mit einem ersten Erkennungsverarbeitungsteil, der eine erste Erkennungsaufgabe auf Basis des Sensorwerts durchführt, und einem zweiten Erkennungsverarbeitungsteil, der eine zweite Erkennungsaufgabe auf Basis des Sensorwerts ausführt, und eine Extraktionseinheit für ein generisches Merkmal mit einem generischen neuronalen Netz, das zwischen der Erfassungseinheit und der aufgabenspezifischen Einheit angeordnet ist, wobei das generische neuronale Netz dazu ausgestaltet ist, den Sensorwert als eine Eingabe zum Extrahieren eines generischen Merkmals zu empfangen, der gemeinsam in den ersten Erkennungsverarbeitungsteil und den zweiten Erkennungsverarbeitungsteil einzugeben ist.
Mit dieser Konfiguration kann die Extraktion des generischen Merkmals, das jeweils gemeinsam von der ersten Erkennungsaufgabe und der zweiten Erkennungsaufgabe zu nutzen ist, mit dem generischen neuronalen Netz ausgeführt werden, so dass Entwicklungskosten reduziert werden können.
Die Extraktionseinheit für ein generisches Merkmal kann auf einem Halbleiterchip vorgesehen sein, der sich von einem Halbleiterchip unterscheidet, auf dem die aufgabenspezifische Einheit vorgesehen ist.
Mit dieser Konfiguration können die Extraktionseinheit für ein generisches Merkmal und die aufgabenspezifische Einheit separat entwickelt werden, so dass Entwicklungskosten reduziert werden können.
Das generische neuronale Netz in der Extraktionseinheit für ein generisches Merkmal kann Hardware auf dem Halbleiterchip umfassen.
Mit dieser Konfiguration kann die Extraktion des generischen Merkmals in der Extraktionseinheit für ein generisches Merkmal mit einem geringen Leistungsverbrauch und einem geringen Heizwert mit hoher Geschwindigkeit durchgeführt werden. Es ist zu bemerken, dass, wenn das generische neuronale Netz die Hardware umfassen, ein Anstieg für die Kosten einer Aktualisierung des generischen neuronalen Netzes auftritt, wobei eine Implementierung eines jeder der Teile in der aufgabenspezifischen Einheit mit Software und ein Aktualisieren eines jeden der Teile in der aufgabenspezifischen Einheit ein Aktualisieren des Erkennungssystems nur mit Kostenhindernissen erlaubt.
Der erste Erkennungsverarbeitungsteil kann ein neuronales Netz für die erste Erkennungsaufgabe aufweisen, das als eine Eingabe die generische Merkmalsausgabe von der Extraktionseinheit für ein generisches Merkmal empfängt, um ein Ergebnis der ersten Erkennungsaufgabe auszugeben.
Mit dieser Konfiguration kann das Erkennungsergebnis der ersten Erkennungsaufgabe aus dem Sensorwert mit dem generischen neuronalen Netz und dem neuronalen Netz für die erste Erkennungsaufgabe in Serie erhalten werden.
Die Erfassungseinheit kann einen Sensor, der den Sensorwert erhält, und einen Vorverarbeitungsteil aufweisen, der eine Vorverarbeitung des Sensorwerts durchführt.
Mit dieser Konfiguration kann der Vorverarbeitungsteil der Sensorwert erhalten, um ihn in geeigneter Weise in das generische neuronale Netz einzugeben.
Die Extraktionseinheit für ein generisches Merkmal kann eine Diskretisierungsvorrichtung umfassen, die die Eingabe in jede Schicht des generischen neuronalen Netzes in Ganzzahlbasen auflöst.
Mit dieser Konfiguration kann die Extraktion des generischen Merkmals mit hoher Geschwindigkeit durchgeführt werden.
Das generische neuronale Netz kann eine ganzzahlige Gewichtung aufweisen.
Auch mit dieser Konfiguration kann die Extraktion des generischen Merkmals mit hoher Geschwindigkeit durchgeführt werden.
Die Extraktionseinheit für ein generisches Merkmal kann eine Diskretisierungsvorrichtung aufweisen, die die Eingabe in jede Schicht des generischen neuronalen Netzes in ganzzahlige Basen auflöst, und das generische neuronale Netz kann eine Gewichtung vorhalten, die mit binären Zahlen oder ternären Zahlen diskretisiert ist, wobei das generische neuronale Netz dazu ausgestaltet ist, die Gesamtheit oder einen Teil einer internen Berechnung mit einer Logikoperation durchzuführen, wobei das generische neuronale Netz dazu ausgestaltet ist, ein Ergebnis der Logikoperation mit einer nicht-linearen Aktivierungsfunktion zu transformieren, wobei das generische neuronale Netz dazu ausgestaltet ist, ein Ergebnis der Transformation an eine nächste Schicht zu geben.
Auch mit dieser Konfiguration kann die Extraktion des generischen Merkmals mit hoher Geschwindigkeit durchgeführt werden.
Die Extraktionseinheit für ein generisches Merkmal kann ein Kommunikationsmodul aufweisen oder mit dem Kommunikationsmodul verbunden sein, wobei die Extraktionseinheit für ein generisches Merkmal dazu ausgestaltet ist, die Gewichtung des generischen neuronalen Netzes auf Basis von Information zu aktualisieren, die durch das Kommunikationsmodul empfangen wurde.
Mit dieser Konfiguration kann die Gewichtung des generischen neuronalen Netzes in der Extraktionseinheit für ein generisches Merkmal mit Kommunikation aus der Ferne aktualisiert werden.
Eine Extraktionseinheit für ein generisches Merkmal gemäß einem Aspekt der vorliegenden Offenbarung umfasst ein generisches neuronales Netz, das zwischen einer Erfassungseinheit und einer aufgabenspezifischen Einheit angeordnet ist, wobei die Erfassungseinheit dazu ausgestaltet ist, ein Erfassen zum Ausgeben eines Sensorwerts durchzuführen, wobei die aufgabenspezifische Einheit einen ersten Erkennungsverarbeitungsteil, der eine erste Erkennungsaufgabe auf Basis des Sensorwerts durchführt, und einen zweiten Erkennungsverarbeitungsteil aufweist, der eine zweite Erkennungsaufgabe auf Basis des Sensorwerts ausführt, wobei das generische neuronale Netz dazu ausgestaltet ist, den Sensorwert als eine Eingabe zum Extrahieren eines generischen Merkmals zu empfangen, das gemeinsam jeweils von dem ersten Erkennungsverarbeitungsteil und dem zweiten Erkennungsverarbeitungsteil zu verwenden ist.
Mit dieser Konfiguration kann das generische Merkmal, das für die erste Erkennungsaufgabe und für die zweite Erkennungsaufgabe genutzt werden soll, mit dem generischen neuronalen Netz berechnet werden, so dass die Skala einer Rechenvorrichtung als dem gesamten System und Entwicklungskosten im Vergleich zu einer Konfiguration reduziert werden können, bei der die erste Erkennungsaufgabe und die zweite Erkennungsaufgabe ohne das gemeinsame Merkmal zwischen den Aufgaben ausgeführt werden können.
Ein Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems gemäß einem Aspekt der vorliegenden Offenbarung umfasst ein Veranlassen des generischen neuronalen Netzes mit Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung, die die erste Erkennungsaufgabe durchführt, und Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung, die die zweite Erkennungsaufgabe durchführt, als Lerndatensätzen zu lernen.
Eine große Menge an Lerndatensätzen wird für das Erlernen des generischen neuronalen Netzes verwandt (insbesondere zum Bestimmen eines Gewichtungsparameters). Gemäß dem vorliegenden Erkennungssystem führt die Extraktionseinheit für ein generisches Merkmal wenigstens einen Teil der Merkmalsextraktion durch und die aufgabenspezifische Einheit gibt die jeweiligen Erkennungsergebnisse der ersten Erkennungsaufgabe und der zweiten Erkennungsaufgabe aus. Daher werden ein Lerndatensatz für die erste Erkennungsaufgabe und ein Lerndatensatz für die zweite Erkennungssaufgabe benötigt, um das generische neuronale Netz zu veranlasse, zu lernen. Es kann schwierig sein, einen Lerndatensatz in Abhängigkeit von der Art eines Erkennungsergebnisses vorzubereiten, aber gemäß der Konfiguration werden die Eingangsdaten und die Ausgangsdaten der angelernten Erkennungsvorrichtung, die die erste Erkennungsaufgabe durchführt, und die Eingabedaten und die Ausgabedaten der angelernten Erkennungsvorrichtung, die die zweite Erfassungsaufgabe durchführt, als die Lerndatensätze verwandt. Eine derartige angelernte Erkennungsvorrichtung kann in einfacher Weise verfügbar sein, sodass ein Lerndatensatz in einfacher Weise zum Veranlassen des generischen neuronalen Netzes zum Lernen erhalten werden kann. Auf diese Weise erlaubt die Verwendung des Lerndatensatzes für die erste Erkennungsaufgabe und des Lerndatensatzes für die zweite Erkennungsaufgabe ein Lernen vom Anfang bis zum Ende mit dem generischen neuronalen Netz für Erkennungsaufgaben, sodass das generische neuronale Netz lernen kann, sich sowohl an die erste Erkennungsaufgabe als auch an die zweite Erkennungsaufgabe anzupassen.
Eine Ensembleerkennungsvorrichtung, die Erkennungsergebnisse mehrerer Erkennungsvorrichtungen vereint, um die Ausgangsdaten zu erhalten, kann als jede der Erkennungsvorrichtungen verwendet werden.
Mit dieser Anordnung kann ein Lerndatensatz mit höherer Präzision erhalten werden.
Ein Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems gemäß einem Aspekt der vorliegenden Offenbarung umfasst ein Veranlassen des neuronalen Netzes für die erste Erkennungsaufgabe, mit Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung als einem Lerndatensatz zu lernen, die die erste Erkennungsaufgabe durchführt.
Mit dieser Konfiguration kann der Lerndatensatz für das neuronale Netz für die erste Erkennungsaufgabe in einfacher Weise erhalten werden.
Eine Ensembleerkennungsvorrichtung, die Erkennungsergebnisse mehrerer Erkennungsvorrichtungen zum Erhalten der Ausgangsdaten vereint, kann als die Erkennungsvorrichtung verwendet werden.
Mit dieser Anordnung kann ein Lerndatensatz mit höherer Präzision erhalten werden.
Ein Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems gemäß einem Aspekt der vorliegenden Offenbarung umfasst ein Ändern einer Struktur des generischen neuronalen Netzes zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und der Ausgabe aus dem neuronalen Netz für die erste Erkennungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die erste Erkennungsaufgabe durchführt, und zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und einer Ausgabe aus einem neuronalen Netz für die zweite Erfassungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die zweite Erkennungsaufgabe durchführt.
Mit dieser Konfiguration wird die Struktur des generischen neuronalen Netzes geändert, so dass eine Annäherung an die existierende angelernte Erkennungsvorrichtung vorgenommen wird.
Ein Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems gemäß einem Aspekt der vorliegenden Offenbarung umfasst ein Ändern einer Struktur des neuronalen Netzes für die erste Erfassungsaufgabe zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und der Ausgabe von dem neuronalen Netz für die erste Erfassungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die erste Erkennungsaufgabe durchführt.
Mit dieser Konfiguration wird die Struktur des neuronalen Netzes für die erste Erkennungsaufgabe geändert, so dass eine Annäherung an die existierende angelernte Erkennungsvorrichtung vorgenommen wird.
Gemäß der vorliegenden Offenbarung wird die Extraktion des generischen Merkmals, das jeweils gemeinsam für die erste Erkennungsaufgabe und für die zweite Erkennungsaufgabe zu verwenden ist, mit dem generischen neuronalen Netz durchgeführt werden, sodass Entwicklungskosten reduziert werden können.
Das vorstehende und andere Ziele, Merkmale, Aspekte und Vorteile der beispielhaften Ausführungsformen werden anhand der folgenden detaillierten Beschreibung der beispielhaften Ausführungsformen offensichtlicher, wenn sie im Zusammenhang mit den beiliegenden Zeichnungen betrachtet werden.
Figurenliste

1 ist ein Blockdiagramm der Konfiguration eines Erkennungssystems gemäß einer Ausführungsform,
2 ist ein Blockdiagramm einer Hardware-Schaltung eines Merkmalsextraktionsteils gemäß der Ausführungsform und
3 ist ein Diagramm zum Beschreiben eines Verfahrens des Konfigurierens des Erkennungssystems gemäß der Ausführungsform.

DETAILLIERTE BESCHREIBUNG NICHT-BESCHRÄNKENDER BEISPIELHAFTER AUSFÜHRUNGSFORMEN
Ein Erkennungssystem gemäß einer Ausführungsform der vorliegenden Offenbarung wird im Folgenden mit Bezug auf die Zeichnungen beschrieben. Es ist zu bemerken, dass die Ausführungsform, die im Folgenden beschrieben wird, ein Beispiel in einem Fall angibt, in dem die vorliegende Offenbarung ausgeführt wird, und daher die vorliegende Offenbarung nicht auf die spezifischen Konfigurationen beschränkt ist, die im Folgenden beschrieben werden. Eine spezifische Konfiguration, die für die Ausführungsform geeignet ist, kann in geeigneter Weise beim Ausführen der vorliegenden Offenbarung angepasst werden.
Das Erkennungssystem gemäß der vorliegenden Ausführungsform führt eine Erkennungsverarbeitung zum Steuern eines Fahrzeugs aus, wobei das Erkennungssystem in dem Fahrzeug angebracht ist. Ein Ergebnis der Erkennungsverarbeitung wird verwendet, um einen Steuerwert zum Steuern des Fahrzeugs zu erhalten. Die Steuerung mit dem Steuerwert erlaubt dem Fahrzeug, ein automatisches Fahren oder verschiedene Arten von Fahrassistenz durchzuführen.
1 ist ein Blockdiagramm der Konfiguration des Erkennungssystems gemäß der Ausführungsform. Das Erkennungssystem 100 umfasst eine Sensorverarbeitungseinheit (SPU) 10, eine Extraktionseinheit für ein generisches Merkmal (GEU) 20 und eine aufgabenspezifische Einheit (TSU) 30.
Die SPU 10 umfasst einen Sensor 11, der ein Erfassen zum Erhalten eines Sensorwerts durchführt, und einen Vorverarbeitungsteil 12, der ein Vorverarbeiten an dem Sensorwert durchführt, der durch den Sensor 11 erhalten wurde, um den Sensorwert in ein Format zu codieren, das für eine Eingabe in einen Merkmalsextraktionsteil 21 geeignet ist. Der Vorverarbeitungsteil 12 kann als eine Vorverarbeitung ein Verarbeiten eines Synchronisierens eines Sensorzyklus mit dem Zyklus eines anderen Prozessors durchführen, ein Verarbeiten eines Extrahierens einer Statistik oder eines Merkmals von dem zeit-seriellen Sensorwert, oder ein Verarbeiten des Reduzierens der Datenmenge.
Gemäß der vorliegenden Ausführungsform ist der Sensor 11 eine monokulare Kamera und erhält Fotografierbilddaten einschließlich Daten der Menge von zweidimensional angeordnetem Licht, als dem Sensorwert. Der Vorverarbeitungsteil 12 konvertiert die Fotografierbilddaten in ein MPEG-Format und führt ein Puffern der mehreren Frames von Fotografierbilddaten durch, die in einer Zeit-Serien-Basis anzuordnen sind, sodass zeit-serielle Fotografierbilddaten erzeugt werden. der Sensor 11 ist an dem Fahrzeug vorgesehen, um geradeaus aus dem Fahrzeug zu fotografieren.
Die GEU 20 umfasst den Merkmalsextraktionsteil 21, der ein Merkmal aus dem Sensorwert extrahiert, der von der SPU 10 erhalten wurde. Die GEU 20 ist auf einem Halbleiterchip abweichend von dem der SPU 10 und der TSU 30 vorgesehen. Der Merkmalsextraktionsteil 21 umfasst ein neuronales Netz. Das neuronale Netz ist mit einer Hardwareschaltung konfiguriert. Verschiedene Techniken wurden zur Hardware-Implementierung eines derartigen neuronalen Netzes vorgeschlagen (siehe beispielsweise Hakaru Tamukoh and Masatoshi Sekine, „Hardware/Software Complex System for Neural Network Implementation", The Brain & Neural Networks, Vol. 20, No. 4 (2013), pp. 166-173, Yoshihisa Tanaka, Susumu Kuroyanagi, and Akira Iwata, „A Technique for Hardware Implementation of Neural Networks using FPGA", IEICE Technical Report, NC, Neurocomputing, 100 (688), pp. 175-182, 16 March 2001, IEICE, and Yutaka Akiyama, „Hardware of Neural Networks", Operations Research, July issue (1992), pp. 342-346)).
Der Merkmalsextraktionsteil 21 gibt das Merkmal als die Ausgabe des neuronalen Netzes an einen Objekterfassungsteil 31 und einen Semantiksegmentierungsteil 32 in der TSU aus. Auf diese Weise, da das Merkmal, das von dem Merkmalsextraktionsteil 21 ausgegeben wird, jeweils gemeinsam von dem Objekterfassungsteil 31 und dem Semantiksegmentierungsteil 32 verwendet wird, wird das Merkmal auch als ein generisches Merkmal bezeichnet und das neuronale Netz, das in dem Merkmalsextraktionsteil 21 implementiert ist, wird auch als ein generisches neuronales Netz bezeichnet, soweit es die vorliegende Spezifikation betrifft.
2 ist ein Blockdiagramm der Hardware-Schaltung des Merkmalsextraktionsteils 21. Wie in 2 illustriert, umfasst der Merkmalsextraktionsteil 21 eine Diskretisierungsvorrichtung 211, eine Eingabeschicht 212, eine Linearkombinationsschicht 213, eine Ausgangsschicht 214 und einen Gewichtungsspeicherteil 215. Der Gewichtungsspeicherteil 215 speichert einen Gewichtungsvektor w_i (i = 1 bis N) für jede Schicht in dem generischen neuronalen Netz. Hier entspricht N der Tiefe der Schichten (hierarchische Zahl) in dem generischen neuronalen Netz.
Der Sensorwert von der SPU 10 wird zunächst in die Diskretisierungsvorrichtung 211 eingegeben. Die Diskretisierungsvorrichtung 211 löst den Sensorwert in Ganzzahlbasis auf, um eine Diskretisierung durchzuführen, sodass die Eingangsschicht 212 erhalten wird. Eine lineare Transformation wird an der Eingangsschicht 212 mit dem Gewichtungsvektor w_i in dem Gewichtungsspeicherteil 215 durchgeführt, sodass die Linearkombinationsschicht 213 als Gewichtungsaddition erhalten wird. Die Linearkombinationsschicht 213 wird in eine nicht-lineare Aktivierungsfunktion (beispielsweise eine Sigmoid-Funktion) eingegeben und dann wird eine nicht-lineare Aktivierung durchgeführt, sodass die Ausgangsschicht 214 erhalten wird. Die Komponenten eines Vektors, der als die Ausgangsschicht 214 erhalten wird, werden als Gleitkommazahl durch die nicht-lineare Aktivierung erhalten. Die Ausgangsschicht 214 kehrt zu der Diskretisierungsvorrichtung 211 zurück und die Diskretisierungsvorrichtung 211 löst die Ausgangsschicht 214 erneut in die Ganzzahlbasen auf. Dieser Prozess wird N-Male (N-Schichten) von i = 1 bis i = N wiederholt, und dann gibt der Merkmalsextraktionsteil 21 die abschließend erhaltene Ausgangsschicht 214 als das generische Merkmal aus.
In dem Gewichtungsspeicherteil 215 ist der Gewichtungsvektor w_i ein ganzzahliger Vektor und das Element des Vektors ist vorzugsweise in binäre Zahlen (beispielsweise 0 und 1) oder ternäre Zahlen (beispielsweise -1, 0, und 1) diskretisiert. Wie oben beschrieben, löst die Diskretisierungsvorrichtung 211 den einzugebenden Wert in die Ganzzahlbasen auf. Auf diese Weise kann ein Reduzieren der Bitlänge des Merkmals, das in dem generischen neuronalen Netz gehandhabt wird (beispielsweise 8 Bits) eine Rechenlast reduzieren. Zusätzlich erlaubt das generische neuronale Netz, das mit der Hardware-Schaltung konfiguriert ist, dem Merkmalsextraktionsteil 21, das generische Merkmal mit hoher Geschwindigkeit zu extrahieren. Ferner kann ein Leistungsverbrauch in dem Merkmalsextraktionsteil 21 auf ein geringes Maß beschränkt werden und auch ein Heizwert kann unterdrückt werden. Insbesondere erlaubt der Gewichtungsvektor w_i, der der Vektor mit den binären Zahlen oder den ternären Zahlen ist, der Gesamtheit oder einem Teil der Berechnung in dem Merkmalsextraktionsteil 21 mit einer Logik-Operation durchgeführt zu werden, sodass Vorteile wie eine weitere Reduktion in Rechenlast, einer Steigerung in der Geschwindigkeit des Berechnens, eine Reduktion im Leistungsverbrauch oder eine Reduktion im geringen Heizwert erhalten werden kann.
Die GEU 20 kann ein Kommunikationsmodul (nicht gezeigt) aufweisen, oder kann mit dem Kommunikationsmodul verbunden sein. In diesem Fall kann das Kommunikationsmodul Funkkommunikation durchführen. Da, wie oben beschrieben, der Merkmalsextraktionsteil 21 die Hardware-Schaltung aufweist, ist es nicht möglich, die Struktur des generischen neuronalen Netzes, das mit der Hardware-Schaltung ausgestaltet ist, zu ändern, wobei allerdings der Gewichtungsvektor w_i, der in dem Gewichtungsspeicherteil 215 gespeichert ist, aktualisiert werden kann. Wenn die TSU 30 aktualisiert wird, sodass eine neue Aufgabe unter Verwendung des generischen Merkmals hinzugefügt wird, kann die Gewichtung des generischen neuronalen Netzes entsprechend dem Aktualisieren aktualisiert werden.
Gemäß der vorliegenden Ausführungsform umfasst die TSU 30 als mehrere Erkennungsverarbeitungsteile den Objekterfassungsteil 31 und den Semantiksegmentierungsteil 32. Eine Erkennungsverarbeitung in jedem der Erkennungsverarbeitungsteile (gemäß der vorliegenden Ausführungsform, Objekterfassung und Semantiksegmentierung) wird als eine „spezifische Erkennungsaufgabe“ in der vorliegenden Spezifikation bezeichnet. Die spezifischen Erkennungsaufgaben in den mehreren Erkennungsverarbeitungsteilen in der TSU 30 (gemäß der vorliegenden Ausführungsform, dem Objekterfassungsteil 31 und dem Semantiksegmentierungsteil 32) unterscheiden sich voneinander, obgleich der Objekterfassungsteil 31 und der Semantiksegmentierungsteil 32 jeweils ein neuronales Netz aufweisen, das als Eingabe das generische Merkmal empfängt, das von der GEU 20 extrahiert wurde.
Das neuronale Netz, das als der Objekterfassungsteil 31 implementiert ist, gibt ein Ergebnis der Objekterfassung aus und auf dies wird als ein neuronales Netz zur Objekterfassung in der vorliegenden Spezifikation Bezug genommen. Das neuronale Netz, das als der Semantiksegmentierungsteil 32 implementiert ist, gibt ein Ergebnis der Semantiksegmentierung aus, und auf dies wird als neuronales Netz zur Semantiksegmentierung in der vorliegenden Spezifikation Bezug genommen.
Das generische neuronale Netz in dem Merkmalsextraktionsteil 21 und das neuronale Netz zur Objekterfassung in dem Objekterfassungsteil 31 sind in Serie verbunden, sodass ein neuronales Netz ausgestaltet ist, um das Ergebnis der Objekterfassung aus dem Sensorwert (der Aufnahmebilddaten) zu erhalten. Das generische neuronale Netz in dem Merkmalsextraktionsteil 21 und das neuronale Netz zur Semantiksegmentierung in dem Semantiksegmentierungsteil 32 sind in Serie verbunden, sodass ein neuronales Netz zum Erhalten des Ergebnisses der Semantiksegmentierung aus dem Sensorwert (den Aufnahmebilddaten) gebildet ist.
Der Objekterfassungsteil 31 erfasst eine Person (einen Fußgänger) und ein Fahrzeug, um als ein Erfassungsergebnis einen rechteckigen Rahmen auszugeben, der die Person (den Fußgänger) umgibt, und einen rechteckigen Rahmen, der das Fahrzeug umgibt, zusätzlich zu den Aufnahmebilddaten. Die Daten des rechteckigen Rahmes, der die Person umgibt, sind mit einem Hinweis bezeichnet, der die Person angibt, und die Daten des rechteckigen Rahmens, der das Fahrzeug umgibt, sind mit einem Hinweis bezeichnet der das Fahrzeug angibt. Der Semantiksegmentierungsteil 32 segmentiert die Aufnahmebilddaten mit Semantiksegmentierung in Bereiche, die jeweils den Semantiken (Arten) eines Subjekts entsprechen, und gibt Information hinsichtlich derartiger Bereiche aus, die jeweils entsprechend zu den Semantiken des Subjekts segmentiert sind. jeder der Bereich ist mit einem Hinweis versehen, der die Semantiken des Subjekts angibt.
Die TSU 30 umfasst einen Vielzweckprozessor und das neuronale Netz zur Objekterfassung in dem Objekterfassungsteil 31 und das neuronale Netz zur Semantiksegmentierung in dem Semantiksegmentierungsteil 32 umfassen jeweils Software. Auf diese Weise werden die Erkennungsverarbeitungsteile, die den jeweiligen Erkennungsaufgaben gewidmet sind (entsprechend der vorliegenden Erfindung der Objekterfassungsaufgabe und der Semantiksegmentierungsaufgabe) jeweils durch die Software mit dem Vielzweckprozessor erreicht, und daher wird, wenn ein neues neuronales Netz erhalten wird, das für jede der Aufgabe besser ist, die Software aktualisiert, sodass das neue neuronale Netz mit geringen Kosten übernommen werden kann.
Das heißt, wie oben beschrieben, da der Merkmalsextraktionsteil 21 zum Erhalten des generischen Merkmals die Hardwareschaltung umfasst, ist die neuronale Netzstruktur nicht dazu in der Lage, nach Versand geändert zu werden, obgleich die Erkennungsverarbeitungsteile, die jeweils die Verarbeitung durchführen, die der spezifischen Erkennungsaufgabe gewidmet ist, jeweils die Software aufweisen und die Erkennungsverarbeitungsteile damit mit geringen Kosten aktualisiert werden können.
Die TSU 30 kann ein Kommunikationsmodul aufweisen (das nicht gezeigt ist) oder kann mit dem Kommunikationsmodul verbunden sein. In diesem Fall kann das Kommunikationsmodul Funkkommunikation durchführen. Das neuronale Netz zur Objekterfassung in dem Objekterfassungsteil 31 und das neuronale Netz zur Semantiksegmentierung in dem Semantiksegmentierungsteil 32 können jeweils mit Daten aktualisiert oder ersetzt werden, die durch das Kommunikationsmodul empfangen werden.
Die jeweiligen Erkennungsergebnisse des Objekterfassungsteils 31 und des Semantiksegmentierungsteils 32 werden in einen aktiven Hinweissteuerungsbestimmungsverarbeitungsteil 41 (ACC) eingegeben, der eine Verarbeitung des Bestimmens einer aktiven Hinweissteuerung durchführt. Die jeweiligen Erkennungsergebnisse des Objekterfassungsteils 31 und des Semantiksegmentierungsteils 32 werden ebenso in einen autonomen Notbremsebestimmungsverarbeitungsteil 42 (AEB) eingegeben, der eine Verarbeitung des Bestimmens eines autonomen Notbremsens durchführt.
Der ACC-Bestimmungsverarbeitungsteil 41 bestimmt einen Steuerplan für das Fahrzeug auf Basis des Ergebnisses der Objekterfassung und des Ergebnisses der Semantiksegmentierung um einen Steuerwert zum Steuern des Fahrzeugs zu erhalten. Der AEB-Bestimmungsverarbeitungsteil 42 bestimmt einen Steuerplan für das Fahrzeug auf Basis des Ergebnisses der Objekterfassung und des Ergebnisses der Semantiksegmentierung, um einen Steuerwert zum Steuern des Fahrzeugs zu erhalten. Es ist zu bemerken, dass ein umfassender Bestimmungsteil, der den Steuerplan für das Fahrzeug, der durch den ACC-Bestimmungsverarbeitungsteil 41 bestimmt wurde, und den Steuerplan für das Fahrzeug, der durch den AEB-Bestimmungsverarbeitungsteil 42 bestimmt wurde, bestimmt, um einen Steuerwert für die abschließende Fahrzeugsteuerung zu erhalten, ferner vorgesehen sein kann.
Da das Erkennungsergebnis in der Objekterfassungsaufgabe, wie oben beschrieben, für die Bestimmung (ACC-Bestimmung) in dem ACC-Bestimmungsverarbeitungsteil 41 und die Bestimmung (AEB-Bestimmung) in dem AEB-Bestimmungsverarbeitungsteil 42 verwendet wird, kann ein Umschalten zwischen einer Gewichtung für eine ACC-Bestimmung und einer Gewichtung für eine AEB-Bestimmung, die in dem neuronalen Netz zur Objekterfassung in dem Objekterfassungsteil 31 vorbereitet ist, ein Erkennungsergebnis für ACC-Bestimmung und ein Erkennungsergebnis für AEB-Bestimmung erhalten, um die Ergebnisse an die entsprechenden Bestimmungsverarbeitungsteile auszugeben.
In ähnlicher Weise kann für den Semantiksegmentierungsteil 32 ein Umschalten zwischen einer Gewichtung zur ACC-Bestimmung und einer Gewichtung zur AEB-Bestimmung, die in dem neuronalen Netz zur Semantiksegmentierung vorbereitet ist, ein Erkennungsergebnis zur ACC-Bestimmung und ein Erkennungsergebnis zur AEB-Bestimmung erhalten, um die Ergebnisse an die entsprechenden Bestimmungsverarbeitungsteile auszugeben.
In diesen Fällen kann ein Umschalten hinsichtlich der Gewichtung derart durchgeführt werden, dass die Gewichtung zur ACC-Bestimmung und die Gewichtung zur AEB-Bestimmung auf den gleichen Sensorwert angewandt werden, um das Erkennungsergebnis zur ACC-Bestimmung und das Erkennungsergebnis zu AEB-Bestimmung jeweils zu erhalten, oder das Umschalten hinsichtlich der Gewichtung kann beispielsweise immer dann erfolgen, wenn ein neuer Sensorwert erhalten wird. Ein Umschalten hinsichtlich mehrerer Arten an Gewichtungen kann entsprechend von Zeitabschnitten, wie beispielsweise morgens oder abends, vorgenommen werden, oder kann in Antwort auf ein Land oder eine Zone angewandt werden, in der das Erkennungssystem 100 verwandt wird.
Als Nächstes wird ein Verfahren zum Konfigurieren des Erkennungssystems 100 beschrieben werden. 3 ist ein Diagramm zum Beschreiben des Verfahrens des Konfigurierens des Erkennungssystems 100 und ist ein Diagramm, insbesondere zum Beschreiben eines Lernens in dem generischen neuronalen Netz und jedem der neuronalen Netze für die spezifischen Erkennungsaufgaben (entsprechend der vorliegenden Ausführungsform dem neuronalen Netz zur Objekterfassung und dem neuronalen Netz zur Semantiksegmentierung).
In jeder der spezifischen Erkennungsaufgaben (der Objekterfassung und der Semantiksegmentierung) des Erkennungssystems 100 gemäß der vorliegenden Ausführungsform, wird die Erkennungsverarbeitung des Klassifizierens der Aufnahmebilddaten in zuvor vorbereitete Erkennungsergebniskandidaten durchgeführt und dann ist es nötig, dass ein überwachtes Lernen durchgeführt wird.
Typischerweise ist es nötig, einen Lerndatensatz mit Eingabedaten und einem wahren Wert für die Eingabedaten (namentlich idealen Ausgabedaten) für das überwachte Lernen in einem neuronalen Netz vorzubereiten. Ein Fehlerrückpropagationsalgorithmus des Erhaltens des Fehlers zwischen dem wahren Wert und den Ausgabedaten, die durch Eingeben der Eingangsdaten in das neuronale Netz erhalten werden, das zu lernen hat, und des Propagierens des Fehlers zurück zum Einstellen der Gewichtung des neuronalen Netzes wird bei dem Lernen verwandt.
Ähnlich zum Obigen wird im Prinzip in dem Erkennungssystem 100 gemäß der vorliegenden Ausführungsform Lernen durchgeführt. Typischerweise wird der wahre Wert benötigt, um ein Kennzeichnen manuell durchgeführt zu haben. Beispielsweise muss ein Bediener ein Bild betrachten und einen Abschnitt, in dem eine Person (ein Fußgänger) vorliegt, mit einem Rahmen zur Personenerfassung umgeben oder muss die Umrisse eines jeden Objekts auf dem Bild für Semantiksegmentierung verfolgen. Derartige Arbeit wird benötigt, um beispielsweise zehntausende oder hunderttausende von Teilen von Bilddaten zum Lernen durchzuführen. Auf diese Weise sind die Arbeitskosten zum Vorbereiten des Lerndatensatzes für das überwachte Lernen überaus groß.
Gemäß der vorliegenden Erfindung, wie oben beschrieben, da das generische neuronale Netz zwischen den mehreren spezifischen Erkennungsaufgaben geteilt wird, ist es nötig, das generische neuronale Netz mit den jeweiligen Lerndatensätzen der spezifischen Erkennungsaufgaben anzulernen. Wenn der Lerndatensatz einer spezifischen Erkennungsaufgabe lediglich von den mehreren spezifischen Erkennungsaufgaben vorbereitet wird, lernt das generische neuronale Netz mit dem Fehlerrückpropagierungsalgorithmus derart, dass die spezifische Erkennungsaufgabe in Präzision verbessert wird, wobei die anderen spezifischen Erkennungsaufgaben, für die kein Lerndatensatz vorbereitet ist, in der Präzision nicht verbessert werden und damit die Präzision abnehmen kann. Daher ist für das Erkennungssystem 100 gemäß der vorliegenden Ausführungsform ein Lerndatensatz mit einer großen Zahl von Kombinationen zwischen dem Eingabewert und dem wahren Wert zu dem Eingabewert für alle der mehreren spezifischen Erkennungsaufgaben nötig.
Daher empfängt gemäß der vorliegenden Ausführungsform für jeden der spezifischen Erkennungsaufgaben die angelernte Erkennungsvorrichtung Eingabedaten zum Erhalten von Ausgabedaten und dann wird Lernen mit den Eingabedaten und den Ausgabedaten als einem Lerndatensatz durchgeführt. Daher wird die angelernte Erkennungsvorrichtung für jede der spezifischen Erkennungsaufgaben vorbereitet. Gemäß der vorliegenden Ausführungsform werden die angelernte Erkennungsvorrichtung für die Objekterfassungsaufgabe und die angelernte Erkennungsvorrichtung für die Semantiksegmentierungsaufgabe vorbereitet. Die Erkennungsvorrichtungen umfassen jeweils wenigstens eine existierende Erkennungsvorrichtung und können Erkennung mit einem neuronalen Netz oder beispielsweise einer Stützvektormaschine (SVM) durchführen.
Auf diese Weise, solange eine große Menge von Eingabedaten (Bilddaten) vorbereitet wird, kann die Verwendung der angelernten Erkennungsvorrichtungen die Ausgabedaten erhalten, anstelle des Kennzeichnens der Eingabedaten in manueller Weise, und daher kann das Lernen mit einer Kombination der Eingabedaten und der Ausgabedaten als einem Lerndatensatz durchgeführt werden. Ein derartiger Lerndatensatz kann in einfacher Weise für alle der mehreren spezifischen Erkennungsaufgaben vorbereitet werden, die sich das generische neuronale Netz teilen. Dies bedeutet, dass das Erkennungssystem 100 mit dem generischen neuronalen Netz und jedem der neuronalen Netze für die spezifischen Erkennungsaufgaben, die in Serie gemäß der vorliegenden Erfindung verbunden sind, nahezu der Präzision der angelernten Erkennungsvorrichtungen gelangt.
Wie es in 3 illustriert ist, werden gemäß der vorliegenden Ausführungsform mehrere Bilder zum Objekterfassungslernen und mehrere Bilder zum Semantiksegmentierungslernen vorbereitet. Es ist zu bemerken, dass das gleiche Bild zum Lernen für die Bilder zum Objekterfassungslernen und die Bilder zum Semantiksegmentierungslernen verwendet werden kann.
Der Merkmalsextraktionsteil 21, der anzulernen ist, extrahiert das generische Merkmal aus jedem der Bilder zum Objekterfassungslernen und gibt das generische Merkmal in den Objekterfassungsteil 31, der anzulernen ist, ein. Währenddessen erhält eine angelernte Objekterfassungsvorrichtung 51 ein Erkennungsergebnis (als wahrer Wert angenommen) von jedem der gleichen Bilder zum Objekterfassungslernen. Eine Objekterfassungslernvorrichtung 61 vergleicht die Ausgabe (das Erkennungsergebnis) der angelernten Objekterfassungsvorrichtung 51 und die Ausgabe (das Erkennungsergebnis) des Objekterfassungsteils 31 um den Fehler der Ausgabe des Objekterfassungsteils 31 gegenüber der Ausgabe der angelernten Objekterfassungsvorrichtung 51 zu erhalten. Die Objekterfassungslernvorrichtung 61 veranlasst das neuronale Netz zur Objekterfassung, mit dem Fehlerrückpropagationsalgorithmus auf Basis des Fehlers zu lernen.
In ähnlicher Weise extrahiert der anzulernende Merkmalsextraktionsteil 21 das generische Merkmal aus jedem der Bilder zum Semantiksegmentierungslernen, um das generische Merkmal in den Semantiksegmentierungsteil 32 einzugeben, der anzulernen ist. Währenddessen erhält eine angelernte Semantiksegmentierungsvorrichtung 52 ein Erkennungsergebnis (als wahrer Wert angenommen) für jedes der gleichen Bilder zum Semantiksegmentierungslernen. Eine Semantiksegmentierungslernvorrichtung 62 vergleicht die Ausgabe (das Erkennungsergebnis) der angelernten Semantiksegmentierungsvorrichtung 52 und die Ausgabe (das Erkennungsergebnis) des Semantiksegmentierungsteils 32, um den Fehler der Ausgabe des Semantiksegmentierungsteils 32 gegenüber der Ausgabe der angelernten Semantiksegmentierungsvorrichtung 52 zu erhalten. Die Semantiksegmentierungslernvorrichtung 62 veranlasst das neuronale Netz zur Semantiksegmentierung mit dem Fehlerrückpropagationsalgorithmus auf Basis des Fehlers zu lernen.
Eine GEU-Lernvorrichtung 71 propagiert beide Fehler der Ausgabe des Objekterfassungsteils 31 gegenüber der Ausgabe der angelernten Objekterfassungsvorrichtung 51 und der Ausgabe des Semantiksegmentierungsteils 32 gegenüber der Ausgabe der angelernten Semantiksegmentierungsvorrichtung 52 zu dem Fehlerextraktionsteil 21, um das generische neuronale Netz zu veranlassen, zu lernen.
Auf diese Weise nehmen die angelernten Erkennungsvorrichtungen (gemäß der vorliegenden Ausführungsform, die angelernte Objekterfassungsvorrichtung 51 und die angelernte Semantiksegmentierungsvorrichtung 52) jeweils die Ausgabe als den wahren Wert zum Vorbereiten des Lerndatensatzes an, und daher ist die Erkennungspräzision einer jeden der angelernten Erkennungsvorrichtungen wünschenswert hoch. Damit kann eine Ensemble-Erkennungsvorrichtung, die Erkennungsergebnisse von mehreren Erkennungsvorrichtungen vereint (beispielsweise Erhalten des Mittelwerts, Erhalten eines Maximalwerts oder Abstimmen) zum Erhalten eines Erkennungsergebnisses mit höherer Präzision auf jede der angelernten Erkennungsvorrichtungen angewandt werden.
Es ist zu bemerken, dass ein Lerndatensatz, der durch Kennzeichnen einer Person vorbereitet wurde, zusätzlich zu den Lerndatensätzen verwendet werden kann, die in dieser Weise in mechanischer Weise erhalten werden.
Wenn keine Verbesserung in der Präzision mit dem Gewichtungsvektor erhalten wird, der durch jeden der vorbereiteten Lerndatensätze abgestimmt wird, wird die Struktur des generischen neuronalen Netzes oder die Struktur des neuronalen Netzes für die spezifische Erkennungsaufgabe geändert. Auf diese Weise wird in dem Erkennungssystem 100 nach der Änderung der Struktur die Struktur des neuronalen Netzes derart geändert, dass das Erkennungsergebnis, das hinsichtlich der Eingabedaten erhalten wird, sich weiter an die Beziehung zwischen der Eingabe und der Ausgabe in der angelernten Erkennungsvorrichtung annähert. Wenn beide spezifischen Erkennungsaufgaben in ihrer Präzision unzureichend sind, kann insbesondere die Struktur des generischen neuronalen Netzes geändert werden, und wenn eine der spezifischen Erkennungsaufgaben in ihrer Genauigkeit ausreichend ist, und die andere spezifische Erkennungsaufgabe in ihrer Genauigkeit unzureichend ist, kann die Struktur des neuronalen Netzes für die spezifische Erkennungsaufgabe entsprechend der unzureichenden Präzision geändert werden.
Wie oben beschrieben umfasst das Erkennungssystem 100 gemäß der vorliegenden Ausführungsform den Merkmalsextraktionsteil 21, der die Verarbeitung des Extrahierens des Merkmals durchführt, und die Erkennungsverarbeitungsteile (den Objekterfassungsteil 31 und den Semantiksegmentierungsteil 32), die jeweils getrennt voneinander die der bestimmten Erkennungsaufgabe gewidmete Verarbeitung durchführen, um das Erkennungsergebnis zu erhalten, um jede der spezifischen Erkennungsaufgaben zu erfüllen. Der Merkmalsextraktionsteil 21 ist ausgestaltet, das generische Merkmal zu extrahieren, das gemeinsam für die spezifischen Erkennungsaufgaben zu verwenden ist. Daher wird ein Vorteil in Entwicklungsmanagement erhalten, darin, dass die Entwicklung des generischen neuronalen Netzes in dem Merkmalsextraktionsteil 21 und die Entwicklung eines jeden der neuronalen Netze für die spezifischen Erkennungsaufgaben parallel getrennt beim Entwickeln des Erkennungssystems 100 fortschreiten können. Das generisehe neuronale Netz in dem Merkmalsextraktionsteil 21 wird zwischen den mehreren Arten von spezifischen Erkennungsaufgaben geteilt, sodass Entwicklungskosten beschränkt werden können.
Die GEU 20 mit dem Merkmalsextraktionsteil 21 ist auf dem dedizierten Chip vorgesehen, der sich von denen der SPU 10 und der TSU 30 unterscheidet und der Merkmalsextraktionsteil 21 umfasst die Hardware-Schaltung. Damit kann eine Berechnung eines Merkmals mit einem großen Maß an Rechenaufwand insbesondere in den Erkennungsaufgaben in Hardware implementiert werden. Diese Anordnung erlaubt es, den Leistungsverbrauch und den Heizwert gering zu halten und eine Hochgeschwindigkeitsmerkmalsberechnung durchzuführen. Es ist zu bemerken, dass die Implementierung des generischen neuronalen Netzes in Hardware verursacht, dass häufige Änderungen oder Aktualisierungen zu einem Kostennachteil beitragen, wobei die Erkennungsverarbeitungsteile, die jeweils die Software mit dem Allzweckprozessor in der TSU 30 aufweisen, die häufigen Änderungen oder Aktualisierungen unterstützen können.
Da das generische neuronale Netz und jedes der neuronalen Netze für die spezifischen Erkennungsaufgaben in Serie verbunden sind, erlaubt ein Ende-zu-Ende-Lernen mit einem existierenden neuronalen Netzlernalgorithmus wie dem Fehlerrückpropagationsalgorithmus einem jeden der neuronalen Netze zu lernen.
Es ist zu bemerken, dass gemäß der Ausführungsform der Sensor 11 die monokulare Kamera aufweist, obgleich eine Konfiguration ähnlich zu der obigen Konfiguration auf die Erkennungsverarbeitung auf Basis eines Sensorwerts von einem unterschiedlichen Sensor angewendet werden kann. Als ein derart unterschiedlicher Sensor können beispielsweise ein GPS-Empfänger, der ein GPS-Signal zum Ausgeben von Ortsinformation als einem Sensorwert empfängt, eine Stereo-Kamera, die zwei Blickpunkte zum Ausgeben eines Stereo-Bildes als einem Sensorwert aufnimmt, ein Millimeterwellen-Radar, das eine Millimeterwellenband-Radiowelle emittiert und die davon reflektierte Welle erfasst, um eine Entfernung zu einem Objekt als einem Sensorwert auszugeben, ein Laser-Scanner, der einen Laser-Strahl emittiert und das davon reflektierte Licht erfasst, um die dreidimensionale Form eines Objekts als einem Sensorwert auszugeben, ein Ultraschallsensor, der eine Ultraschallwelle übermittelt und die reflektierte Ultraschallwelle empfängt, um eine Entfernung zu einem Objekt als einem Sensorwert auszugeben, ein Gyroskopsensor, der eine Winkelgeschwindigkeit als einen Sensorwert ausgibt, ein Temperatursensor, der eine Lufttemperatur als einen Sensorwert ausgibt, ein Geschwindigkeitssensor, der eine Geschwindigkeit als einen Sensorwert ausgibt, oder ein Regentropfensensor, der die Menge an Regentropfen als einen Sensorwert ausgibt, angepasst werden.
Wenn mehrere Arten von Sensoren in dem Fahrzeug vorgesehen sind, kann die SPU 10 für jeden der Sensoren vorgesehen werden und die GEU 20 kann mehrere der Merkmalsextraktionsteile 21 entsprechend zu den SPUs 10 umfassen. Darüber hinaus können in der GEU 20 die jeweiligen Merkmale, die von mehreren Sensorwerten von den mehreren Arten von Sensoren extrahiert wurden, kombiniert und ferner in das neuronale Netz eingegeben werden, um das generische Merkmal zu erhalten.
Der Merkmalsextraktionsteil 21 in der GEU 20 kann in ähnlicher Weise das Umschalten hinsichtlich der Gewichtung durchführen, das oben für jeden der Erkennungsverarbeitungsteile beschrieben wurde.
Der Vorverarbeitungsteil 20 in der SPU 10 kann die Sensorwerte mit einem neuronalen Netz codieren.
Es ist zu bemerken, dass das Erkennungssystem 100 gemäß der Ausführungsform zwei Erkennungsaufgaben der Objekterfassungsaufgabe und der Semantiksegmentierungsaufgabe als die spezifischen Erkennungsaufgaben durchführt, wobei das generische Merkmal von dem gleichen Sensorwert extrahiert wird (den aufgenommenen Bilddaten), obgleich das generische Merkmal, das von dem gleichen Sensorwert extrahiert wurde, zwischen drei oder mehr Erkennungsaufgaben geteilt werden kann.
Die vorliegende Offenbarung ist in einem Erkennungssystem wirksam, das eine Erkennungsverarbeitung auf Basis eines Sensorwerts durchführt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017098641 [0001]

Zitierte Nicht-Patentliteratur

Hakaru Tamukoh and Masatoshi Sekine, „Hardware/Software Complex System for Neural Network Implementation“, The Brain & Neural Networks, Vol. 20, No. 4 (2013), pp. 166-173 [0048]
Yoshihisa Tanaka, Susumu Kuroyanagi, and Akira Iwata, „A Technique for Hardware Implementation of Neural Networks using FPGA“, IEICE Technical Report, NC, Neurocomputing, 100 (688) [0048]
Yutaka Akiyama, „Hardware of Neural Networks“, Operations Research, July issue (1992), pp. 342-346) [0048]

Claims

Erkennungssystem, mit: einer Erfassungseinheit, die ausgestaltet ist, ein Erfassen durchzuführen, um einen Sensorwert auszugeben, einer aufgabenspezifischen Einheit mit einem ersten Erkennungsverarbeitungsteil, der eine erste Erkennungsaufgabe auf Basis des Sensorwerts durchführt, und einem zweiten Erkennungsverarbeitungsteil, der eine zweite Erkennungsaufgabe auf Basis des Sensorwerts ausführt, und einer Extraktionseinheit für ein generisches Merkmal mit einem generischen neuronalen Netz, das zwischen der Erfassungseinheit und der aufgabenspezifischen Einheit angeordnet ist, wobei das generische neuronale Netz dazu ausgestaltet ist, den Sensorwert als eine Eingabe zum Extrahieren eines generischen Merkmals zu empfangen, der gemeinsam in den ersten Erkennungsverarbeitungsteil und den zweiten Erkennungsverarbeitungsteil einzugeben ist.
Erkennungssystem nach Anspruch 1, wobei die Extraktionseinheit für ein generisches Merkmal auf einem Halbleiterchip vorgesehen ist, der sich von einem Halbleiterchip unterscheidet, auf dem die aufgabenspezifische Einheit vorgesehen ist.
Erkennungssystem nach Anspruch 2, wobei das generische neuronale Netz in der Extraktionseinheit für ein generisches Merkmal Hardware auf dem Halbleiterchip umfasst.
Erkennungssystem nach einem der Ansprüche 1 bis 3, wobei der erste Erkennungsverarbeitungsteil ein neuronales Netz für die erste Erkennungsaufgabe aufweist, das als eine Eingabe die generische Merkmalsausgabe von der Extraktionseinheit für ein generisches Merkmal empfängt, um ein Ergebnis der ersten Erkennungsaufgabe auszugeben.
Erkennungssystem nach einem der Ansprüche 1 bis 4, wobei die Erfassungseinheit einen Sensor, der den Sensorwert erhält, und einen Vorverarbeitungsteil aufweist, der eine Vorverarbeitung des Sensorwerts durchführt.
Erkennungssystem nach einem der Ansprüche 1 bis 5, wobei die Extraktionseinheit für ein generisches Merkmal eine Diskretisierungsvorrichtung umfasst, die die Eingabe in jede Schicht des generischen neuronalen Netzes in Ganzzahlbasen auflöst.
Erkennungssystem nach einem der Ansprüche 1 bis 5, wobei das generische neuronale Netz eine ganzzahlige Gewichtung aufweist.
Erkennungssystem nach einem der Ansprüche 1 bis 5, wobei die Extraktionseinheit für ein generisches Merkmal eine Diskretisierungsvorrichtung aufweist, die die Eingabe in jede Schicht des generischen neuronalen Netzes in ganzzahlige Basen auflöst, und das generische neuronale Netz eine Gewichtung vorhält, die mit binären Zahlen oder ternären Zahlen diskretisiert ist, wobei das generische neuronale Netz dazu ausgestaltet ist, die Gesamtheit oder einen Teil einer internen Berechnung mit einer Logikoperation durchzuführen, wobei das generische neuronale Netz dazu ausgestaltet ist, ein Ergebnis der Logikoperation mit einer nicht-linearen Aktivierungsfunktion zu transformieren, wobei das generische neuronale Netz dazu ausgestaltet ist, ein Ergebnis der Transformation an eine nächste Schicht zu geben.
Erkennungssystem nach einem der Ansprüche 1 bis 8, wobei die Extraktionseinheit für ein generisches Merkmal ein Kommunikationsmodul aufweist oder mit dem Kommunikationsmodul verbunden ist, wobei die Extraktionseinheit für ein generisches Merkmal dazu ausgestaltet ist, die Gewichtung des generischen neuronalen Netzes auf Basis von Information zu aktualisieren, die durch das Kommunikationsmodul empfangen wurde.
Extraktionseinheit für ein generisches Merkmal mit: einem generischen neuronalen Netz, das zwischen einer Erfassungseinheit und einer aufgabenspezifischen Einheit angeordnet ist, wobei die Erfassungseinheit dazu ausgestaltet ist, ein Erfassen zum Ausgeben eines Sensorwerts durchzuführen, wobei die aufgabenspezifische Einheit einen ersten Erkennungsverarbeitungsteil, der eine erste Erkennungsaufgabe auf Basis des Sensorwerts durchführt, und einen zweiten Erkennungsverarbeitungsteil aufweist, der eine zweite Erkennungsaufgabe auf Basis des Sensorwerts ausführt, wobei das generische neuronale Netz dazu ausgestaltet ist, den Sensorwert als eine Eingabe zum Extrahieren eines generischen Merkmals zu empfangen, das gemeinsam jeweils von dem ersten Erkennungsverarbeitungsteil und dem zweiten Erkennungsverarbeitungsteil zu verwenden ist.
Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems nach Anspruch 1, wobei das Erkennungssystemkonfigurationsverfahren umfasst: Veranlassen des generischen neuronalen Netzes mit Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung, die die erste Erkennungsaufgabe durchführt, und Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung, die die zweite Erkennungsaufgabe durchführt, als Lerndatensätzen zu lernen.
Erkennungssystemkonfigurationsverfahren nach Anspruch 11, wobei eine Ensembleerkennungsvorrichtung, die Erkennungsergebnisse mehrerer Erkennungsvorrichtungen vereint, um die Ausgangsdaten zu erhalten, als jede der Erkennungsvorrichtungen verwendet wird.
Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems nach Anspruch 4, wobei das Erkennungssystemkonfigurationsverfahren umfasst: Veranlassen des neuronalen Netzes für die erste Erkennungsaufgabe, mit Eingangsdaten und Ausgangsdaten einer angelernten Erkennungsvorrichtung als einem Lerndatensatz zu lernen, die die erste Erkennungsaufgabe durchführt.
Erkennungssystemkonfigurationsverfahren nach Anspruch 13, wobei eine Ensembleerkennungsvorrichtung, die Erkennungsergebnisse mehrerer Erkennungsvorrichtungen zum Erhalten der Ausgangsdaten vereint, als die Erkennungsvorrichtung verwendet wird.
Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems nach Anspruch 4, wobei das Erkennungssystemkonfigurationsverfahren umfasst: Ändern einer Struktur des generischen neuronalen Netzes zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und der Ausgabe aus dem neuronalen Netz für die erste Erkennungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die erste Erkennungsaufgabe durchführt, und zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und einer Ausgabe aus einem neuronalen Netz für die zweite Erfassungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die zweite Erkennungsaufgabe durchführt.
Erkennungssystemkonfigurationsverfahren des Konfigurierens des Erkennungssystems nach Anspruch 4, wobei das Erkennungssystemkonfigurationsverfahren umfasst: Ändern einer Struktur des neuronalen Netzes für die erste Erfassungsaufgabe zum Veranlassen einer Beziehung zwischen der Eingabe in das generische neuronale Netz und der Ausgabe von dem neuronalen Netz für die erste Erfassungsaufgabe, sich weiter an eine Beziehung zwischen einer Eingabe und einer Ausgabe einer angelernten Erkennungsvorrichtung anzunähern, die die erste Erkennungsaufgabe durchführt.