DE102018123112A1

DE102018123112A1 - Bildverarbeitungsvorrichtung und Programm

Info

Publication number: DE102018123112A1
Application number: DE102018123112.1A
Authority: DE
Inventors: Shingo Fujimoto; Takuro OSHIDA; Masao Yamanaka; Shintaro FUKUSHIMA
Original assignee: Aisin Seiki Co Ltd
Current assignee: Aisin Corp
Priority date: 2017-09-22
Filing date: 2018-09-20
Publication date: 2019-03-28
Also published as: JP6969254B2; US20190095706A1; JP2019057247A

Abstract

Eine Bildverarbeitungsvorrichtung (12) umfasst: eine Extraktionseinheit (46), die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; eine erste vollverbundene Schicht (62, 62A), die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; eine zweite vollverbundene Schicht (64, 64A), die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und eine dritte vollverbundene Schicht (68, 68A), die die ersten vollverbundenen Informationen oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.

Description

TECHNISCHES GEBIET
Diese Offenbarung bezieht sich auf eine Bildverarbeitungsvorrichtung und ein Programm.
HINTERGRUNDERÖRTERUNG
Eine Vorrichtung und ein Programm zum Analysieren eines Bilds einer Person sowie Erkennen und Ausgeben eines Verhaltens oder dergleichen der Person waren bekannt.
Beispiele von verwandter Technik sind in JP-A-2010-036762 und JP-A-2012 - 033075 offenbart.
Die vorstehend beschriebene Vorrichtung leidet jedoch unter einem dahingehenden Problem, dass nur ähnliche bzw. gleichartige Informationen mit einer kleinen Anzahl von Typen bzw. Arten für erfasste Informationen ausgegeben werden können.
Daher besteht ein Bedarf für eine Bildverarbeitungsvorrichtung und ein Programm, die imstande sind, die Typen bzw. Arten von Informationen zu erhöhen/steigern, die in Erwiderung auf erfasste Informationen ausgegeben werden können.
KURZFASSUNG
Eine Bildverarbeitungsvorrichtung gemäß einem Aspekt dieser Offenbarung umfasst: eine Extraktionseinheit, die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; eine erste vollverbundene Schicht, die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; eine zweite vollverbundene Schicht, die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und eine dritte vollverbundene Schicht, die die ersten vollverbundenen Informationen oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.
Wie es vorstehend beschrieben ist, können bei der Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung, da die Menschenkörpermerkmalsinformationen über das Merkmal des Menschen und die Verhaltenserkennungsinformationen über das Verhalten der Person aus den ersten vollverbundenen Informationen erzeugt werden, die durch die erste vollverbundene Schicht erzeugt werden, zwei Typen bzw. Arten von Informationen mit unterschiedlicher Qualität bzw. Beschaffenheit ausgegeben werden, die aus weniger Informationen ausgebbar sind.
Bei der Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung kann die erste vollverbundene Schicht die ersten vollverbundenen Informationen an jede von der zweiten vollverbundenen Schicht und der dritten vollverbundenen Schicht ausgeben.
Wie es vorstehend beschrieben ist, können bei der Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung, da die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen gemäß den gleichen ersten vollverbundenen Informationen erzeugt werden, die durch die erste vollverbundene Schicht an jede von der zweiten vollverbundenen Schicht und der dritten vollverbundenen Schicht ausgegeben werden, die Typen bzw. Arten von ausgebbaren Informationen vergrößert werden, während eine Verkomplizierung der Konfiguration reduziert wird.
Die Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung kann zusätzlich eine zweite Halbeinheit umfassen, die Verhaltensvorhersageinformationen über ein zukünftiges Verhalten der Person aus einer Vielzahl (von Stücken/Elementen) der Menschenkörpermerkmalsinformationen und einer Vielzahl (von Stücken/Elementen) der Verhaltenserkennungsinformationen erzeugt, die sich in der Zeit unterscheiden.
Als Folge hiervon kann die Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung die Verhaltensvorhersageinformationen über das zukünftige Verhalten der Person zusammen mit den Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen gemäß dem Bild durch eine Konfiguration von einer Architektur oder dergleichen erzeugen, die in einer Vorrichtung installiert ist.
Bei der Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung kann die zweite Halbeinheit eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Merkmalsvorhersagebezeichnungen als die Verhaltensvorhersageinformationen erzeugen.
Als Folge hiervon kann die Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung eine Wahrscheinlichkeit der mehreren potenziellen Verhalten der Person vorhersagen und erzeugen.
Bei der Bildverarbeitungsvorrichtung gemäß dieser Offenbarung kann die zweite Halbeinheit die Verhaltensvorhersagebezeichnung, die in der Wahrscheinlichkeit am höchsten ist, aus den Verhaltensvorhersageinformationen auswählen und ausgeben.
Als Folge hiervon kann die Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung die zukünftigen Verhalten der Person auf ein Verhalten eingrenzen, wodurch sie imstande ist, eine Verarbeitungslast einer Ausgabezielvorrichtung zu reduzieren.
Bei der Bildverarbeitungsvorrichtung gemäß dem Aspekt dieser Offenbarung kann die erste vollverbundene Schicht die Menschenkörpermerkmalsinformationen, die ein vorbestimmtes Merkmal der Person bezeichnen, als die ersten vollverbundenen Informationen ausgeben.
Als Folge hiervon reduzieren die zweite vollverbundene Schicht und die dritte vollverbundene Schicht einen Einfluss einer Umgebungsveränderung oder dergleichen abgesehen von der Person, wodurch sie imstande sind, die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen zu erzeugen, die in der Genauigkeit hoch sind.
Ein Programm gemäß einem weiteren Aspekt dieser Offenbarung veranlasst einen Computer zum Arbeiten als eine Extraktionseinheit, die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; eine erste vollverbundene Schicht, die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; eine zweite vollverbundene Schicht, die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und eine dritte vollverbundene Schicht, die die ersten vollverbundenen Information oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.
Wie es vorstehend beschrieben ist, können in dem Programm gemäß dem Aspekt dieser Offenbarung, da die Menschenkörpermerkmalsinformationen über das Merkmal des Menschen und die Verhaltenserkennungsinformationen über das Verhalten der Person aus den ersten vollverbundenen Informationen erzeugt werden, die durch die erste vollverbundene Schicht erzeugt werden, zwei Typen bzw. Arten von Informationen mit unterschiedlicher Qualität bzw. Beschaffenheit ausgegeben werden, die aus weniger Informationen ausgebbar sind.
Figurenliste
Die vorgenannten und zusätzliche Merkmale und Eigenschaften dieser Offenbarung werden aus der folgenden ausführlichen Beschreibung deutlicher, wenn diese unter Bezugnahme auf die begleitenden Zeichnungen betrachtet wird, für die gilt:

1 ist eine Darstellung, die eine Gesamtkonfiguration eines Bildverarbeitungssystems veranschaulicht, in dem eine Bildverarbeitungsvorrichtung eines ersten Ausführungsbeispiels installiert ist.
2 ist ein Funktionsblockschaltbild, das eine Funktion einer Verarbeitungseinheit der Bildverarbeitungsvorrichtung veranschaulicht.
3 ist ein Ablaufdiagramm einer Bildverarbeitung, die durch eine Verarbeitungseinheit der Bildverarbeitungsvorrichtung auszuführen ist.
4 ist ein Funktionsblockschaltbild, das eine Funktion einer Verarbeitungseinheit gemäß einem zweiten Ausführungsbeispiel veranschaulicht.

AUSFÜHRLICHE BESCHREIBUNG
Die gleichen Komponenten in den folgenden beispielhaften Ausführungsbeispielen sind durch gemeinsame Bezugszeichen oder Symbole bezeichnet, und eine redundante Beschreibung wird zweckdienlicherweise ausgelassen.
<Erstes Ausführungsbeispiel>
1 ist eine Darstellung, die eine Gesamtkonfiguration eines Bildverarbeitungssystems 10 veranschaulicht, in dem eine Bildverarbeitungsvorrichtung 12 eines ersten Ausführungsbeispiels installiert ist. Das Bildverarbeitungssystem 10 ist zum Beispiel an einem beweglichen Körper wie etwa einem Automobil mit einer Antriebsquelle wie etwa einer Maschine oder einem Motor angebracht bzw. eingerichtet. Das Bildverarbeitungssystem 10 erkennt oder vorhersagt ein Merkmal bzw. Feature von einem Körper eines Insassen des Automobils, ein aktuelles Verhalten des Insassen, ein zukünftiges Verhalten des Insassen oder dergleichen basierend auf einem Bild in einem Fahrzeuginnenraum. Der Insasse des Automobils ist ein Beispiel einer Person. Wie es in 1 veranschaulicht ist, umfasst das Bildverarbeitungssystem 10 ein oder mehr Detektionseinheiten 14a und 14b, die Bildverarbeitungsvorrichtung 12 und eine Fahrzeugsteuervorrichtung 16.
Die Detektionseinheiten 14a und 14b detektieren Informationen über den Insassen in einem Fahrzeuginnenraum des Automobils und geben diese aus. Zum Beispiel ist jede der Detektionseinheiten 14a und 14b eine Bildgebungsvorrichtung, die ein Bild, das erhalten wird durch Abbilden des Fahrzeuginnenraums, wobei dieses/dieser den Insassen umfasst, als die Informationen über den Insassen usw. erzeugt und ausgibt. Im Speziellen ist die Detektionseinheit 14a eine Infrarotkamera, die ein Objekt, das den Insassen umfasst, mit Infrarotstrahlen abbildet, um ein Infrarotbild zu erzeugen. Die Detektionseinheit 14b ist ein Entfernungssensor, der ein Tiefenbild erzeugt, das Informationen über einen Abstand zu dem Objekt umfasst, das den Insassen umfasst. Die Detektionseinheiten 14a und 14b sind mit der Bildverarbeitungsvorrichtung 12 durch LVDS („low voltage differential signaling“), Ethernet (eingetragene Marke) oder dergleichen verbunden, um die Informationen an die Bildverarbeitungsvorrichtung 12 auszugeben. Die Detektionseinheiten 14a und 14b geben die Informationen über das erzeugte Bild an die Bildverarbeitungsvorrichtung 12 aus.
Die Bildverarbeitungsvorrichtung 12 erkennt das Merkmal bzw. Feature des Körpers des Insassen und das aktuelle Verhalten des Insassen basierend auf dem durch die Detektionseinheiten 14a und 14b ausgegebenen Bild und sagt das zukünftige Verhalten des Insassen basierend auf der Erkennung von dem Merkmal bzw. Feature und dem Verhalten vorher. Die Bildverarbeitungsvorrichtung 12 ist ein Computer, der eine ECU (elektronische Steuereinheit) oder dergleichen umfasst. Die Bildverarbeitungsvorrichtung 12 ist mit der Fahrzeugsteuervorrichtung 16 durch ein LIN, ein CAN oder dergleichen verbunden, um die Informationen an die Fahrzeugsteuervorrichtung 16 auszugeben. Die Bildverarbeitungsvorrichtung 12 umfasst eine Verarbeitungseinheit 20, einen Speicher 22, eine Speichereinheit 24 und einen Bus 26.
Die Verarbeitungseinheit 20 ist eine arithmetische Verarbeitungseinheit wie etwa ein Hardwareprozessor mit einer CPU (Zentralverarbeitungseinheit) und einer GPU (Grafikverarbeitungseinheit) und dergleichen. Die Verarbeitungseinheit 20 liest ein Programm, das in dem Speicher 22 oder der Speichereinheit 24 gespeichert ist, und führt eine Verarbeitung aus. Zum Beispiel führt die Verarbeitungseinheit 20 ein Bildverarbeitungsprogramm 28 aus, um dadurch Informationen über ein zukünftiges Verhalten des Insassen zu erzeugen, das aus der Erkennung von dem Merkmal bzw. Feature und dem Verhalten des Insassen vorhergesagt wird, und die erzeugten Informationen an die Fahrzeugsteuervorrichtung 16 auszugeben.
Der Speicher 22 ist eine Hauptspeichervorrichtung wie etwa ein ROM (Festwertspeicher) und ein RAM (Direktzugriffsspeicher). Der Speicher 22 speichert vorübergehend verschiedene Daten, die durch die Verarbeitungseinheit 20 zur Zeit einer Ausführung eines Programms wie etwa des Bildverarbeitungsprogramms 28 zu verwenden sind.
Die Speichereinheit 24 ist eine Hilfs- bzw. Zusatzspeichervorrichtung wie etwa ein wiederbeschreibbares nichtflüchtiges SSD (Festkörperlaufwerk) und ein HDD (Festplattenlaufwerk). Die Speichereinheit 24 hält die gespeicherten Daten selbst dann, wenn eine Energieversorgung der Bildverarbeitungsvorrichtung 12 ausgeschaltet wird/ist. Die Speichereinheit 24 speichert zum Beispiel das Bildverarbeitungsprogramm 28, das durch die Verarbeitungseinheit 20 auszuführen ist, und numerische Daten 29, die eine Aktivierungsfunktion umfassen, die durch ein Bias und eine Gewichtung definiert ist, wobei diese zur Ausführung des Bildverarbeitungsprogramms 28 erforderlich ist/sind.
Der Bus 26 verbindet die Verarbeitungseinheit 20, den Speicher 22 und die Speichereinheit 24 miteinander, um die Informationen untereinander zu senden und zu empfangen.
Die Fahrzeugsteuervorrichtung 16 steuert Karosserie- bzw. Körpereinheiten, die Teile des Automobils sind, einschließlich einer linken Vordertür DRa, einer rechten Vordertür DRb und dergleichen, basierend auf den Informationen über das Merkmal bzw. Feature des Insassen, die durch die Bildverarbeitungsvorrichtung 12 ausgegeben werden, das erkannte aktuelle Verhalten des Insassen, das vorhergesagte zukünftige Verhalten des Insassen, usw. Die Fahrzeugsteuervorrichtung 16 ist ein Computer mit einer ECU und dergleichen. Die Fahrzeugsteuervorrichtung 16 kann mit der Bildverarbeitungsvorrichtung 12 durch einen einzigen Computer integriert sein. Die Fahrzeugsteuervorrichtung 16 umfasst eine Verarbeitungseinheit 30, einen Speicher 32, eine Speichereinheit 34 und einen Bus 36.
Die Verarbeitungseinheit 30 ist eine arithmetische Verarbeitungseinheit wie etwa ein Hardwareprozessor mit einer CPU und dergleichen. Die Verarbeitungseinheit 30 liest das Programm, das in dem Speicher 32 oder der Speichereinheit 34 gespeichert ist, und steuert jede der Karosserie- bzw. Körpereinheiten. Zum Beispiel, auf Erfassung eines Vorhersageergebnisses, das das zukünftige Verhalten des Insassen dahingehend vorhersagt, dass der Insasse die Tür DRa oder DRb öffnen wird, von der Bildverarbeitungsvorrichtung 12, verriegelt die Verarbeitungseinheit 30 die Tür DRa oder DRb, für die vorhergesagt wird, dass sie durch den Insassen geöffnet wird, damit sich diese nicht öffnet, basierend auf Hostfahrzeuginformationen 39 (zum Beispiel Informationen über eine Annäherung an einen beweglichen Körper).
Der Speicher 32 ist eine Hauptspeichervorrichtung wie etwa ein ROM oder ein RAM. Der Speicher 32 speichert vorübergehend zum Beispiel Informationen über das zukünftige Verhalten oder dergleichen des Insassen, die von der Bildverarbeitungsvorrichtung 12 erfasst werden.
Die Speichereinheit 34 ist eine Hilfs- bzw. Zusatzspeichervorrichtung wie etwa ein SSD oder ein HDD. Die Speichereinheit 34 speichert zum Beispiel das Fahrzeugsteuerprogramm 38, das durch die Verarbeitungseinheit 30 auszuführen ist, und die Hostfahrzeuginformationen 39, die Informationen über das Automobil umfassen.
Der Bus 36 verbindet die Verarbeitungseinheit 30, den Speicher 32 und die Speichereinheit 34 miteinander, um die Informationen untereinander zu senden und zu empfangen.
2 ist ein Funktionsblockschaltbild, das eine Funktion der Verarbeitungseinheit 20 der Bildverarbeitungsvorrichtung 12 veranschaulicht. Wie es in 2 gezeigt ist, umfasst die Verarbeitungseinheit 20 der Bildverarbeitungsvorrichtung 12 eine erste Halbeinheit 40 und eine zweite Halbeinheit 42 als Architektur. Die Verarbeitungseinheit 20 arbeitet als die erste Halbeinheit 40 und die zweite Halbeinheit 42, indem zum Beispiel das in der Speichereinheit 24 gespeicherte Bildverarbeitungsprogramm 28 gelesen wird. Ein Teil oder alles von der ersten Halbeinheit 40 und der zweiten Halbeinheit 42 kann durch Hardware konfiguriert sein, wie etwa eine Schaltung mit einem ASIC („application specific integrated circuit“) und einem FPGA („field-programmable gate array“) und dergleichen.
Die erste Halbeinheit 40 analysiert ein oder mehr (Stücke/Elemente von) Bildinformationen, erzeugt die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen, und gibt die erzeugten Informationen an die zweite Halbeinheit 42 aus. Die erste Halbeinheit 40 umfasst eine Eingangsschicht 44, eine Extraktionseinheit 46 und eine Verbindungseinheit 48.
Die Eingangsschicht 44 erfasst Informationen über ein oder mehr (hierin nachstehend als Eingabebilder bezeichnete) Bilder, die das Bild des Insassen umfassen, und gibt die erfassten Informationen an die Extraktionseinheit 46 aus. Die Eingangsschicht 44 erfasst zum Beispiel ein durch Infrarotstrahlen aufgenommenes IR-Bild, ein Tiefenbild mit Abstandsinformationen, usw. von den Detektionseinheiten 14a und 14b als Eingabebilder.
Die Extraktionseinheit 46 führt eine Faltungsverarbeitung bzw. Convolutional-Verarbeitung und eine Poolbildungsverarbeitung bzw. Pooling-Verarbeitung auf den Informationen über die Eingabebilder einschließlich des Bilds des Insassen aus, die von der Eingangsschicht 44 erfasst werden, extrahiert ein vorbestimmtes Merkmal bzw. Feature aus den Eingabebildern und erzeugt mehrere Merkmalsabbildungen bzw. Feature-Maps zur Erzeugung von Menschenkörpermerkmalsinformationen und Verhaltenserkennungsinformationen. Die Extraktionseinheit 46 umfasst eine erste Faltungsschicht bzw. Convolutional-Layer 50, eine erste Poolbildungsschicht bzw. Pooling-Layer 52, eine zweite Faltungsschicht bzw. Convolutional-Layer 54, eine zweite Poolbildungsschicht bzw. Pooling-Layer 56, eine dritte Faltungsschicht bzw. Convolutional-Layer 58 und eine dritte Poolbildungsschicht bzw. Pooling-Layer 60. Mit anderen Worten umfasst die Extraktionseinheit 46 drei Sätze von Faltungsschichten bzw. Convolutional-Layers 50, 54, 58 und Poolbildungsschichten bzw. Pooling-Layers 52, 56, 60.
Die erste Faltungsschicht 50 hat mehrere Filter (die auch als Neuronen oder Einheiten bezeichnet werden). Jedes der Filter ist zum Beispiel durch eine Aktivierungsfunktion definiert, die einen Biaswert und eine Gewichtung umfasst, die durch maschinelles Lernen mit einem Lern-/Lehrbild voreingestellt werden/sind. Der Biaswert und die Gewichtung von jedem Filter können verschieden voneinander sein. Die Aktivierungsfunktion kann in der Speichereinheit 24 als Teil der numerischen Daten 29 gespeichert werden/sein. Das Gleiche gilt für den Biaswert und die Gewichtung der nachstehend beschriebenen Aktivierungsfunktionen. Jedes Filter der ersten Faltungsschicht 50 führt eine erste Faltungsverarbeitung durch die Aktivierungsfunktion auf allen der von der Eingangsschicht 44 erfassten Bilder aus. Als Folge hiervon erzeugt jedes Filter der ersten Faltungsschicht 50 ein Bild (oder die Summe von Bildern), in dem das Merkmal bzw. Feature (zum Beispiel Farbton) in dem Bild extrahiert wird/ist, basierend auf dem Biaswert und der Gewichtung als eine Merkmalsabbildung bzw. Feature-Map. Die erste Faltungsschicht 50 erzeugt die Merkmalsabbildungen der gleichen Anzahl wie diejenige der Filter und gibt die erzeugten Merkmalsabbildungen an die erste Poolbildungsschicht 52 aus.
Jede Einheit der ersten Poolbildungsschicht 52 führt eine erste Poolbildungsverarbeitung auf den durch die erste Faltungsschicht 50 ausgegebenen Merkmalsabbildungen mit der Verwendung einer Maximumpoolbildungsfunktion, einer Durchschnittspoolbildungsfunktion oder dergleichen durch. Als Folge hiervon erzeugt die erste Poolbildungsschicht neue Merkmalsabbildungen der gleichen Anzahl wie diejenige der Einheiten, die durch Kompression oder Verkleinerung bzw. Verringerung der durch die erste Faltungsschicht 50 erzeugten Merkmalsabbildungen erhalten werden, und gibt sie die erzeugten neuen Merkmalsabbildungen an die zweite Faltungsschicht 54 aus.
Die zweite Faltungsschicht 54 hat mehrere Filter, die durch die Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Der Biaswert und die Gewichtung der Filter in der zweiten Faltungsschicht 54 können verschieden sein von dem Biaswert und der Gewichtung der Filter der ersten Faltungsschicht 50. Jedes Filter der zweiten Faltungsschicht 54 führt eine zweite Faltungsverarbeitung durch die Aktivierungsfunktion auf den durch die erste Poolbildungsschicht 52 ausgegebenen Merkmalsabbildungen aus. Als Folge hiervon erzeugt jedes Filter der zweiten Faltungsschicht 54 die Summe der Bilder, die erhalten werden durch Extrahieren des Merkmals bzw. Features (zum Beispiel einer horizontalen Kante) in einem Bild, das verschieden ist von demjenigen der ersten Faltungsschicht 50, basierend auf dem Biaswert und der Gewichtung als die Merkmalsabbildung. Die zweite Faltungsschicht 54 erzeugt die Merkmalsabbildungen der gleichen Anzahl wie diejenige der Filter und gibt die erzeugten Merkmalsabbildungen an die zweite Poolbildungsschicht 56 aus.
Jede Einheit der zweiten Poolbildungsschicht 56 führt eine zweite Poolbildungsverarbeitung auf den durch die zweite Faltungsschicht 54 ausgegebenen Merkmalsabbildungen mit der Verwendung einer Maximumpoolbildungsfunktion, einer Durchschnittspoolbildungsfunktion oder dergleichen durch. Als Folge hiervon erzeugt die zweite Poolbildungsschicht 56 neue Merkmalsabbildungen der gleichen Anzahl wie diejenige der Einheiten, die durch Kompression oder Verkleinerung bzw. Verringerung der durch die zweite Faltungsschicht 54 erzeugten Merkmalsabbildungen erhalten werden, und gibt sie die erzeugten neuen Merkmalsabbildungen an die dritte Faltungsschicht 58 aus.
Die dritte Faltungsschicht 58 hat mehrere Filter, die durch die Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Der Biaswert und die Gewichtung der Filter in der dritten Faltungsschicht 58 können verschieden sein von den Biaswerten und den Gewichtungen der ersten Faltungsschicht 50 und der zweiten Faltungsschicht 54. Jedes Filter der dritten Faltungsschicht 58 führt eine dritte Faltungsverarbeitung durch die Aktivierungsfunktion auf den durch die zweite Poolbildungsschicht 56 ausgegebenen mehreren Merkmalsabbildungen aus. Als Folge hiervon erzeugt jedes Filter der dritten Faltungsschicht 58 die Summe der Bilder, die erhalten werden durch Extrahieren des Merkmals bzw. Features (zum Beispiel einer vertikalen Kante) in einem Bild, das verschieden ist von demjenigen der ersten Faltungsschicht 50 und der zweiten Faltungsschicht 54, basierend auf dem Biaswert und der Gewichtung als die Merkmalsabbildung. Die dritte Faltungsschicht 58 erzeugt die Merkmalsabbildungen der gleichen Anzahl wie diejenige der Filter und gibt die erzeugten Merkmalsabbildungen an die dritte Poolbildungsschicht 60 aus.
Jede Einheit der dritten Poolbildungsschicht 60 führt eine dritte Poolbildungsverarbeitung auf den durch die dritte Faltungsschicht 58 ausgegebenen Merkmalsabbildungen mit der Verwendung einer Maximumpoolbildungsfunktion, einer Durchschnittspoolbildungsfunktion oder dergleichen durch. Als Folge hiervon erzeugt die dritte Poolbildungsschicht 60 neue Merkmalsabbildungen der gleichen Anzahl wie diejenige der Einheiten, die durch Kompression oder Verkleinerung bzw. Verringerung der durch die dritte Faltungsschicht 58 erzeugten Merkmalsabbildungen erhalten werden, und gibt sie die erzeugten neuen Merkmalsabbildungen an die Verbindungseinheit 48 aus.
Die Verbindungseinheit 48 verbindet die von der Extraktionseinheit 46 erfassten Merkmalsabbildungen und gibt die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen an die zweite Halbeinheit 42 aus. Die Verbindungseinheit 48 umfasst eine erste vollverbundene Schicht bzw. Fully-Connected-Layer 62, eine zweite vollverbundene Schicht bzw. Fully-Connected-Layer 64, eine erste Ausgangsschicht 66, eine dritte vollverbundene Schicht bzw. Fully-Connected-Layer 68 und eine zweite Ausgangsschicht 70. Die zweite vollverbundene Schicht bzw. Fully-Connected-Layer 64 und die erste Ausgangsschicht 66 sind parallel zu der dritten vollverbundenen Schicht bzw. Fully-Connected-Layer 68 und der zweiten Ausgangsschicht 70 geschaltet.
Die erste vollverbundene Schicht 62 umfasst mehrere (auch als Neuronen bezeichnete) Einheiten, die durch eine Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Jede Einheit der ersten vollverbundenen Schicht 62 ist mit allen der Einheiten der dritten Poolbildungsschicht 60 verbunden. Daher erfasst jede Einheit der ersten vollverbundenen Schicht 62 alle der Merkmalsabbildungen, die durch alle der Einheiten der dritten Poolbildungsschicht 60 ausgegeben werden. Der Biaswert und die Gewichtung der Aktivierungsfunktion von jeder Einheit der ersten vollverbundenen Schicht 62 werden/sind im Voraus durch maschinelles Lernen oder dergleichen eingestellt, um erste vollverbundene Informationen bzw. Fully-Connected-Informationen zur Erzeugung sowohl der Menschenkörpermerkmalsinformationen als auch der Verhaltenserkennungsinformationen zu erzeugen. Jede Einheit der ersten vollverbundenen Schicht 62 führt eine erste Vollverbindungsverarbeitung basierend auf der Aktivierungsfunktion auf allen der von der dritten Poolbildungsschicht 60 erfassten Merkmalsabbildungen durch, um dadurch die ersten vollverbundenen Informationen zu erzeugen, die die mehreren Merkmalsabbildungen miteinander verbinden. Im Speziellen erzeugt die erste vollverbundene Schicht 62 einen mehrdimensionalen Vektor zur Erzeugung der Menschenkörpermerkmalsinformationen und der Verhaltenserkennungsinformationen als die ersten vollverbundenen Informationen. Die Anzahl von Dimensionen des Vektors der ersten vollverbundenen Informationen, die durch die erste vollverbundene Schicht 62 ausgegeben werden, wird/ist gemäß den Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen einer Folgestufe eingestellt, und sie ist zum Beispiel 27 Dimensionen. Zum Beispiel sind die ersten vollverbundenen Informationen die Menschenkörpermerkmalsinformationen, die das Merkmal bzw. Feature des Insassen bezeichnen. Die Einzelheiten der Menschenkörpermerkmalsinformationen werden nachstehend beschrieben. Jede Einheit der ersten vollverbundenen Schicht 62 gibt die erzeugten ersten vollverbundenen Informationen an alle von Einheiten der zweiten vollverbundenen Schicht 64 und alle von Einheiten der dritten vollverbundenen Schicht 68 aus. Mit anderen Worten gibt die erste vollverbundene Schicht 62 die gleichen mehreren (Stücke/Elemente von) ersten vollverbundenen Informationen an jede der zweiten vollverbundenen Schicht 64 und der dritten vollverbundenen Schicht 68 aus.
Die zweite vollverbundene Schicht 64 umfasst mehrere (auch als Neuronen bezeichnete) Einheiten, die durch eine Aktivierungsfunktion definiert sind, die einen Biaswert und eine Gewichtung umfasst. Die Anzahl von Einheiten in der zweiten vollverbundenen Schicht 64 ist gleich der Dimensionszahl der auszugebenden Menschenkörpermerkmalsinformationen. Jede Einheit der zweiten vollverbundenen Schicht 64 ist mit allen der Einheiten in der ersten vollverbundenen Schicht 62 verbunden. Daher umfasst jede Einheit der zweiten vollverbundenen Schicht 64 die ersten vollverbundenen Informationen der gleichen Anzahl wie die Anzahl von Einheiten in der ersten vollverbundenen Schicht 62. Der Biaswert und die Gewichtung der Aktivierungsfunktion der zweiten vollverbundenen Schicht 64 werden/sind im Voraus mit der Verwendung von maschinellem Lernen oder dergleichen unter Verwendung eines Lern-/Lehrbilds eingestellt, das mit dem Merkmal bzw. Feature des Insassen in Zusammenhang steht, um die Menschenkörpermerkmalsinformationen zu erzeugen, die mehrere vorbestimmte Merkmale bzw. Features des Insassen extrahieren. Die zweite vollverbundene Schicht 64 führt eine zweite Vollverbindungsverarbeitung basierend auf der Aktivierungsfunktion auf allen der ersten vollverbundenen Informationen aus, die von der ersten vollverbundenen Schicht 62 erfasst werden, um dadurch die Menschenkörpermerkmalsinformationen zu erzeugen, die das Merkmal bzw. Feature des Insassen bezeichnen, indem die ersten vollverbundenen Informationen miteinander verbunden werden, und gibt die erzeugten Menschenkörpermerkmalsinformationen an die erste Ausgangsschicht 66 aus. Zum Beispiel kann die zweite vollverbundene Schicht 64 einen mehrdimensionalen (zum Beispiel 27-dimensionalen) Vektor, der das Merkmal des Insassen bezeichnet, als die Menschenkörpermerkmalsinformationen erzeugen. Im Speziellen kann die zweite vollverbundene Schicht 64 mehrere (zum Beispiel zwölf) zweidimensionale Vektoren (insgesamt 24-dimensionale Vektoren), die jeweils Position, Gewicht, Sitzhöhe (oder Höhe) usw. von mehreren Teilen und Bereichen des menschlichen Körpers als das Merkmal des Insassen bezeichnen, als einen Teil der Menschenkörpermerkmalsinformationen erzeugen. In diesem Beispiel umfassen die mehreren Teile des menschlichen Körpers zum Beispiel Endpunkte des menschlichen Körpers (obere und untere Endbereiche eines Gesichts) und Gelenke bzw. Verbindungen (eine Wurzel bzw. einen Ursprung eines Arms, eine Wurzel bzw. einen Ursprung eines Fußes, einen Ellbogen, ein Handgelenk, usw.) und dergleichen. Außerdem kann die zweite vollverbundene Schicht 64 einen dreidimensionalen Vektor erzeugen, der eine Orientierung bzw. Ausrichtung des Gesichts des Insassen als das Merkmal des Insassen bezeichnet, als einen Teil der Menschenkörpermerkmalsinformationen erzeugen. Wenn die ersten vollverbundenen Informationen die Menschenkörpermerkmalsinformationen sind, gibt die zweite vollverbundene Schicht 64 die Menschenkörpermerkmalsinformationen mit einer höheren Genauigkeit als diejenige der ersten vollverbundenen Informationen aus. In diesem Fall kann die zweite vollverbundene Schicht 64 die gleiche Konfiguration wie diejenige der ersten vollverbundenen Schicht 62 aufweisen. Wie es vorstehend beschrieben ist, kann die zweite vollverbundene Schicht 64 die Menschenkörpermerkmalsinformationen erzeugen, die durch ein Rauschen bzw. eine Störung (zum Beispiel ein Verhalten des Insassen), das bzw. die durch eine Umgebungsveränderung oder dergleichen verursacht wird, weniger beeinträchtigt sind, da sich die zweite vollverbundene Schicht 64 auf einen Teil des menschlichen Körpers als das Merkmal des Insassen fokussiert und die Menschenkörpermerkmalsinformationen aus den ersten vollverbundenen Informationen erzeugt, welche die Menschenkörpermerkmalsinformationen sind, in denen die anderen Informationen als die Personeninformationen reduziert sind.
Mit Ausführung einer ersten Ausgangsverarbeitung grenzt die erste Ausgangsschicht 66 die Ausgabe der zweiten vollverbundenen Schicht 64 auf eine Ausgabe ein, die schließlich als die Ausgabe der ersten Ausgangsschicht 66 zu erhalten ist, oder gibt sie die ausgewählten Menschenkörpermerkmalsinformationen an die zweite Halbeinheit 42 aus.
Die dritte vollverbundene Schicht 68 umfasst mehrere (auch als Neuronen bezeichnete) Einheiten, die durch eine Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Die Anzahl von Einheiten in der dritten vollverbundenen Schicht 68 ist gleich der Dimensionszahl der auszugebenden Verhaltenserkennungsinformationen. Jede Einheit der dritten vollverbundenen Schicht 68 ist mit allen der Einheiten in der ersten vollverbundenen Schicht 62 verbunden. Daher erfasst jede Einheit der dritten vollverbundenen Schicht 68 die ersten vollverbundenen Informationen der gleichen Anzahl wie die Anzahl von Einheiten in der ersten vollverbundenen Schicht 62. Der Biaswert und die Gewichtung der Aktivierungsfunktion der dritten vollverbundenen Schicht 68 werden/sind im Voraus mit der Verwendung von maschinellem Lernen oder dergleichen unter Verwendung eines Lern-/Lehrbilds eingestellt, das mit dem Verhalten des Insassen in Zusammenhang steht, um die Verhaltenserkennungsinformationen zu erzeugen, welche Informationen über das aktuelle Verhalten des Insassen sind. Die dritte vollverbundene Schicht 68 führt eine dritte Vollverbindungsverarbeitung basierend auf der Aktivierungsfunktion auf allen der ersten vollverbundenen Informationen aus, die von der ersten vollverbundenen Schicht 62 erfasst werden, um dadurch die Verhaltenserkennungsinformationen zu erzeugen, die eine vorbestimmte Wahrscheinlichkeitsverteilung von mehreren Verhaltenserkennungsbezeichnungen bzw. -labels/-etiketten bezeichnen, indem die ersten vollverbundenen Informationen miteinander verbunden werden, und gibt die erzeugten Verhaltenserkennungsinformationen an die zweite Ausgabeschicht 70 aus. Die Verhaltenserkennungsbezeichnungen sind zum Beispiel Bezeichnungen bzw. Labels bzw. Etiketten, die dem Verhalten des Insassen gegeben bzw. zugeordnet werden/sind, wie etwa Lenkunghalten, Konsolenbedienung, Öffnen und Schließen der Türen DRa und DRb, und die Verhaltenserkennungsbezeichnungen können in der Speichereinheit 24 als Teil der numerischen Daten 29 gespeichert werden/sein. Zum Beispiel kann die dritte vollverbundene Schicht 68 die Verhaltenserkennungsinformationen, die eine Wahrscheinlichkeitsverteilung bezeichnen, die die Wahrscheinlichkeit von jeder der mehreren Verhaltenserkennungsbezeichnungen des Insassen bezeichnet, mit einem mehrdimensionalen Vektor erzeugen. Die Anzahl von Dimensionen des Vektors der Verhaltenserkennungsinformationen ist gleich der Anzahl von Verhaltenserkennungsbezeichnungen, zum Beispiel 11 Dimensionen. Jedes Koordinatensystem der mehrdimensionalen Vektoren der Verhaltenserkennungsinformationen entspricht einer der Verhaltenserkennungsbezeichnungen, und der Wert von jedem Koordinatensystem entspricht der Wahrscheinlichkeit der Verhaltenserkennungsbezeichnung. Wie es vorstehend beschrieben ist, kann die dritte vollverbundene Schicht 68 die Verhaltenserkennungsinformationen erzeugen, die durch ein Rauschen bzw. eine Störung (zum Beispiel einen Zustand von einem Gepäck, das den Insassen umgibt, und Teilen (Sonnenblende oder dergleichen) des Automobils), das bzw. die durch eine Umgebungsveränderung oder dergleichen abgesehen von dem Menschen verursacht wird, weniger beeinträchtigt sind, da sich die dritte vollverbundene Schicht 68 auf das Verhalten des Insassen fokussiert und die Verhaltenserkennungsinformationen aus den ersten vollverbundenen Informationen erzeugt, die die Menschenkörpermerkmalsinformationen sind, in denen die anderen Informationen als die Personeninformationen reduziert sind.
Die zweite Ausgangsschicht 70 führt die zweite Ausgangsverarbeitung aus, um dadurch die von der dritten vollverbundenen Schicht 68 erfassten Verhaltenserkennungsinformationen zu normieren und die normierten Verhaltenserkennungsinformationen an die zweite Halbeinheit 42 auszugeben.
Die zweite Halbeinheit 42 erzeugt die Verhaltensvorhersageinformationen über das zukünftige Verhalten eines Zielinsassen (zum Beispiel mehrere Sekunden danach) aus den mehreren (Stücken/Elementen von) Menschenkörpermerkmalsinformationen und den mehreren (Stücken/Elementen von) Verhaltenserkennungsinformationen, die sich in der Zeit unterscheiden, wodurch diese jeweils durch die erste Halbeinheit 40 ausgegeben werden, und gibt die Informationen über das zukünftige Verhalten des Insassen an die Fahrzeugsteuervorrichtung 16 aus. Die zweite Halbeinheit 42 umfasst eine erste Zeitreihe-Neuronales-Netz-Einheit (die hierin nachstehend bezeichnet wird als erste Zeitreihe-NN-Einheit) 72, eine zweite Zeitreihe-Neuronales-Netz-Einheit (die hierin nachstehend bezeichnet wird als zweite Zeitreihe-NN-Einheit) 74, eine vierte vollverbundene Schicht bzw. Fully-Connected-Layer 76 und eine dritte Ausgangsschicht 78.
Die erste Zeitreihe-NN-Einheit 72 ist ein rekurrentes neuronales Netz mit mehreren (zum Beispiel 50) Einheiten. Die Einheit der ersten Zeitreihe-NN-Einheit 72 ist zum Beispiel eine GRU („gated recurrent unit“) mit einem Rücksetzgate bzw. -anschluss und einem Aktualisierungsgate bzw. -anschluss und durch eine vorbestimmte Gewichtung definiert. Jede Einheit der ersten Zeitreihe-NN-Einheit 72 erfasst (hierin nachstehend als „Erste-Einheit-Ausgabeinformationen“ bezeichnete) Informationen, die durch eine Einheit ausgegeben werden, die die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen des mehrdimensionalen Vektors, die durch die erste Ausgangsschicht 66 zu einer Zeit t ausgegeben werden, und die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen zu einer Zeit t-Δt erfasst. Im Übrigen ist Δt eine vorbestimmte Zeit, und ist sie zum Beispiel ein Zeitintervall eines Bilds, das durch die Eingangsschicht 44 erfasst wird. Jede Einheit der ersten Zeitreihe-NN-Einheit 72 kann die vergangenen bzw. letzten Menschenkörpermerkmalsinformationen und die vergangenen bzw. letzten Verhaltenserkennungsinformationen (zum Beispiel zu der Zeit t-Δt) aus den Daten erfassen, die vorher in dem Speicher 22 oder dergleichen gespeichert werden/sind. Jede Einheit der ersten Zeitreihe-NN-Einheit 72 erzeugt die Erste-Einheit-Ausgabeinformationen zu der Zeit t gemäß den Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen zu der Zeit t und den Erste-Einheit-Ausgabeinformationen zu der Zeit t-Δt. Jede Einheit der ersten Zeitreihe-NN-Einheit 72 gibt die erzeugten Erste-Einheit-Ausgabeinformationen zu der Zeit t an eine entsprechende Einheit der zweiten Zeitreihe-NN-Einheit 74 aus, und gibt auch die Erste-Einheit-Ausgabeinformationen an eine entsprechende Einheit der ersten Zeitreihe-NN-Einheit 72 aus, die die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen zu der Zeit t+Δt erfasst. Mit anderen Worten erfasst die erste Zeitreihe-NN-Einheit 72 mehrere (Stücke/Elemente von) Menschenkörpermerkmalsinformationen, die sich in der Zeit unterscheiden, wobei diese von der ersten Ausgangsschicht 66 erfasst werden, und erfasst sie mehrere (Stücke/Elemente von) Verhaltenserkennungsinformationen der mehrdimensionalen Vektoren, die sich in der Zeit unterscheiden, wobei diese von der zweiten Ausgangsschicht 70 erfasst werden. Die erste Zeitreihe-NN-Einheit 72 erzeugt, als erste NN-Ausgabeinformationen, Informationen über die mehrdimensionalen Vektoren (zum Beispiel 50-dimensionale Vektoren) mit den mehreren (Stücken/Elementen von) Erste-Einheit-Ausgabeinformationen, die gemäß den Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen erzeugt werden/sind, als Elemente, durch die erste Zeitreihe-NN-Verarbeitung, die die vorgenannten jeweiligen Prozesse umfasst, und gibt die erzeugten ersten NN-Ausgabeinformationen an die zweite Zeitreihe-NN-Einheit 74 aus. Die Anzahl von Dimensionen der ersten NN-Ausgabeinformationen ist gleich der Anzahl von Einheiten.
Die zweite Zeitreihe-NN-Einheit 74 ist ein rekurrentes neuronales Netz mit mehreren (zum Beispiel 50) Einheiten. Die Anzahl von Einheiten der zweiten Zeitreihe-NN-Einheit 74 ist gleich der Anzahl von Einheiten der ersten Zeitreihe-NN-Einheit 72. Die Einheit der zweiten Zeitreihe-NN-Einheit 74 ist zum Beispiel eine GRU mit einem Rücksetzgate bzw. -anschluss und einem Aktualisierungsgate bzw. -anschluss und durch eine vorbestimmte Gewichtung definiert. Jede Einheit der zweiten Zeitreihe-NN-Einheit 74 erfasst die Erste-Einheit-Ausgabeinformationen, die der mehrdimensionale Vektor sind, der von der ersten Zeitreihe-NN-Einheit 72 ausgegeben wird, und die (hierin nachstehend als „Zweite-Einheit-Ausgabeinformationen“ bezeichneten) Informationen, die von einer Einheit ausgegeben werden, die die Erste-Einheit-Ausgabeinformationen zu der Zeit t-Δt erfasst hat. Jede Einheit der zweiten Zeitreihe-NN-Einheit 74 kann die vergangenen bzw. letzten Erste-Einheit-Ausgabeinformationen (zum Beispiel zu der Zeit t-Δt) aus den Daten erfassen, die in dem Speicher 22 oder dergleichen im Voraus gespeichert werden/sind. Jede Einheit der zweiten Zeitreihe-NN-Einheit 74 erzeugt die Zweite-Einheit-Ausgabeinformationen zu der Zeit t gemäß den Erste-Einheit-Ausgabeinformationen zu der Zeit t und den Zweite-Einheit-Ausgabeinformationen, die gemäß den Erste-Einheit-Ausgabeinformationen zu der Zeit t-Δt erzeugt werden. Jede Einheit der zweiten Zeitreihe-NN-Einheit 74 gibt die erzeugten Zweite-Einheit-Ausgabeinformationen zu der Zeit t an alle Einheiten einer vierten vollverbundenen Schicht bzw. Fully-Connected-Layer 76 aus, die nachstehend zu beschreiben ist, und gibt auch die Zweite-Einheit-Ausgabeinformationen an die Einheit der zweiten Zeitreihe-NN-Einheit 74 aus, die die Erste-Einheit-Ausgabeinformationen zu der Zeit t+Δt erfasst. Mit anderen Worten erfasst die zweite Zeitreihe-NN-Einheit 74 mehrere (Stücke/Elemente von) Erste-Einheit-Ausgabeinformationen, die sich in der Zeit unterscheiden, wobei diese durch jede Einheit der ersten Zeitreihe-NN-Einheit 72 ausgegeben werden. Die zweite Zeitreihe-NN-Einheit 74 erzeugt, als zweite NN-Ausgabeinformationen, Informationen über die mehrdimensionalen Vektoren (zum Beispiel 50-dimensionale Vektoren) mit mehreren (Stücken/Elementen von) Zweite-Einheit-Ausgabeinformationen, die gemäß den mehreren (Stücken/Elementen von) Erste-Einheit-Ausgabeinformationen erzeugt werden/sind, als Elemente, durch eine zweite Zeitreihe-NN-Verarbeitung, die die vorgenannten jeweiligen Prozessen umfasst, und gibt die erzeugten zweiten NN-Ausgabeinformationen an alle der Einheiten der vierten vollverbundenen Schicht 76 aus. Die Anzahl von Dimensionen der zweiten NN-Ausgabeinformationen ist gleich der Anzahl von Einheiten und der Anzahl von Dimensionen der Erste-Einheit-Ausgabeinformationen.
Die vierte vollverbundene Schicht 76 hat mehrere Einheiten, die durch eine Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Jede Einheit der vierten vollverbundenen Schicht 76 erfasst die zweiten NN-Ausgabeinformationen über die mehrdimensionalen Vektoren, die alle der Zweite-Einheit-Ausgabeinformationen umfassen, die durch jede Einheit der zweiten Zeitreihe-NN-Einheit 74 ausgegeben werden. Die vierte vollverbundene Schicht 76 erzeugt die zweiten vollverbundenen Informationen über die mehrdimensionalen Vektoren, deren Anzahl von Dimensionen erhöht/gesteigert ist, indem die zweiten NN-Ausgabeinformationen durch eine vierte Vollverbindungsverarbeitung unter Verwendung der Aktivierungsfunktion miteinander verbunden werden, und gibt die erzeugten zweiten vollverbundenen Informationen an die dritte Ausgangsschicht 78 aus. Zum Beispiel, wenn die Zweite-Einheit-Ausgabeinformationen ein 50-dimensionaler Vektor sind, erzeugt die vierte vollverbundene Schicht 76 die zweiten vollverbundenen Informationen von 128-dimensionalen Vektoren.
Die dritte Ausgangsschicht 78 hat mehrere Einheiten, die durch die Aktivierungsfunktion definiert sind, die einen voreingestellten Biaswert und eine voreingestellte Gewichtung umfasst. Der Biaswert und die Gewichtung der Aktivierungsfunktion der dritten Ausgangsschicht 78 werden/sind mit der Verwendung von maschinellem Lernen oder dergleichen unter Verwendung eines Lern-/ Lehrbilds im Voraus eingestellt, das mit dem Verhalten des Insassen in Zusammenhang steht, um die Verhaltensvorhersageinformationen zu erzeugen, die Informationen über das zukünftige Verhalten des Insassen sind. Die Anzahl von Einheiten ist gleich der Anzahl (zum Beispiel 11) von Verhaltensvorhersagebezeichnungen bzw. -labels/-etiketten, die das Verhalten des Insassen bezeichnen, das vorherzusagen ist. Mit anderen Worten steht jede Einheit mit einer der Verhaltensvorhersagebezeichnungen in Zusammenhang. Die Verhaltensvorhersagebezeichnungen können in der Speichereinheit 24 als Teil der numerischen Daten 29 gespeichert werden/sein. Jede Einheit der dritten Ausgangsschicht 78 rechnet auf den zweiten vollverbundenen Informationen, die von der vierten vollverbundenen Schicht 76 erfasst werden, durch die Aktivierungsfunktion, um dadurch die Wahrscheinlichkeit der entsprechenden Verhaltensvorhersagebezeichnung zu berechnen. Im Übrigen können die mehreren Verhaltenserkennungsbezeichnungen nicht notwendigerweise mit den mehreren Verhaltensvorhersagebezeichnungen übereinstimmen bzw. koinzidieren. Selbst mit der vorstehend beschriebenen Konfiguration kann die dritte Ausgangsschicht 78 der zweiten Halbeinheit 42 die Wahrscheinlichkeit der Verhaltensvorhersagebezeichnung, die nicht in den mehreren Verhaltenserkennungsbezeichnungen umfasst ist, mit der Verwendung der Verhaltenserkennungsinformationen von der ersten Halbeinheit 40 vorhersagen. Die dritte Ausgangsschicht 78 kann die Wahrscheinlichkeitsverteilung der mehreren Verhaltensvorhersagebezeichnungen, in der die berechneten Wahrscheinlichkeiten mit den jeweiligen mehreren Verhaltensvorhersagebezeichnungen in Zusammenhang stehen, als die Verhaltensvorhersageinformationen erzeugen, die durch die mehrdimensionalen Vektoren bezeichnet werden. Es sollte beachtet werden, dass die dritte Ausgangsschicht 78 die Wahrscheinlichkeit von jeder Verhaltensvorhersagebezeichnung normieren kann. Jedes Koordinatensystem der Vektoren der Verhaltensvorhersageinformationen entspricht einer der Verhaltensvorhersagebezeichnungen, und der Wert von jedem Koordinatensystem entspricht der Wahrscheinlichkeit der Verhaltensvorhersagebezeichnung. Die Anzahl von Dimensionen der Verhaltensvorhersageinformationen ist gleich der Anzahl von Verhaltensvorhersagebezeichnungen und der Anzahl von Einheiten der dritten Ausgangsschicht 78. Dementsprechend ist die Anzahl von Dimensionen der Verhaltensvorhersageinformationen kleiner als die Anzahl von Dimensionen der zweiten vollverbundenen Informationen, wenn die Anzahl von Einheiten der dritten Ausgangsschicht 78 kleiner ist als die Anzahl von Dimensionen der zweiten vollverbundenen Informationen. Die dritte Ausgangsschicht 78 wählt die Verhaltensvorhersagebezeichnung mit der höchsten Wahrscheinlichkeit aus den erzeugten Verhaltensvorhersageinformationen aus. Die dritte Ausgangsschicht 78 gibt die Verhaltensvorhersagebezeichnung mit der höchsten Wahrscheinlichkeit, die durch die dritte Ausgangsverarbeitung ausgewählt wird/ist, die die vorgenannten jeweiligen Prozesse umfasst, an die Fahrzeugsteuervorrichtung 16 oder dergleichen aus. Es sollte beachtet werden, dass die dritte Ausgangsschicht 78 die Verhaltensvorhersageinformationen, die durch die dritte Ausgangsverarbeitung erzeugt werden/sind, die die vorgenannten jeweiligen Prozesse umfasst, an die Fahrzeugsteuervorrichtung 16 oder dergleichen ausgeben kann.
3 ist ein Ablaufdiagramm einer Bildverarbeitung, die durch die Verarbeitungseinheit 20 der Bildverarbeitungsvorrichtung 12 auszuführen ist. Die Verarbeitungseinheit 20 liest das Bildverarbeitungsprogramm 28, um dadurch eine Bildverarbeitung auszuführen.
Wie es in 3 gezeigt ist, erfasst die Eingangsschicht 44 bei der Bildverarbeitung ein oder mehr Bilder, und gibt sie die erfassten Bilder an jedes Filter der ersten Faltungsschicht 50 aus (S102). Jedes Filter der ersten Faltungsschicht 50 gibt die Merkmalsabbildung, die durch Durchführung der ersten Faltungsverarbeitung auf allen der von der Eingangsschicht 44 erfassten Bilder erzeugt wird, an die entsprechende Einheit der ersten Poolbildungsschicht 52 aus (S104). Jede Einheit der ersten Poolbildungsschicht 52 gibt die Merkmalsabbildung, die durch Ausführung der ersten Poolbildungsverarbeitung auf der von der ersten Faltungsschicht 50 erfassten Merkmalsabbildung komprimiert und verkleinert bzw. verringert wird/ist, an alle der Filter der zweiten Faltungsschicht 54 aus (S106). Jede Einheit der zweiten Faltungsschicht 54 führt die zweite Faltungsverarbeitung auf allen der Merkmalsabbildungen aus, die von der ersten Poolbildungsschicht 52 erfasst werden, und erzeugt eine Merkmalsabbildung, in der ein neues Merkmal extrahiert wurde, um die erzeugte Merkmalsabbildung an eine entsprechende Einheit der zweiten Poolbildungsschicht 56 auszugeben (S108). Jede Einheit der zweiten Poolbildungsschicht 56 gibt die Merkmalsabbildung, die durch Ausführung der zweiten Poolbildungsverarbeitung auf der von den Einheiten der zweiten Faltungsschicht 54 erfassten Merkmalsabbildung komprimiert und verkleinert bzw. verringert wird/ist, an alle der Filter der dritten Faltungsschicht 58 aus (S110). Jede Einheit der dritten Faltungsschicht 58 führt die dritte Faltungsverarbeitung auf allen der Merkmalsabbildungen aus, die von der zweiten Poolbildungsschicht 56 erfasst werden, und erzeugt eine Merkmalsabbildung, in der ein neues Merkmal extrahiert wurde, um die erzeugte Merkmalsabbildung an eine entsprechende Einheit der dritten Poolbildungsschicht 60 auszugeben (S112). Jede Einheit der dritten Poolbildungsschicht 60 gibt die Merkmalsabbildung, die durch Ausführung der dritten Poolbildungsverarbeitung auf der von den Einheiten der dritten Faltungsschicht 58 erfassten Merkmalsabbildung komprimiert und verkleinert bzw. verringert wird/ist, an alle der Einheiten der ersten vollverbundenen Schicht 62 aus (S114).
Jede Einheit der ersten vollverbundenen Schicht 62 erzeugt die Menschenkörpermerkmalsinformationen, die erhalten werden durch Verbinden der von der dritten Poolbildungsschicht 60 erfassten Merkmalsabbildung durch die erste Vollverbindungsverarbeitung, als die ersten vollverbundenen Informationen, und gibt die erzeugten ersten vollverbundenen Informationen an alle der Einheiten der zweiten vollverbundenen Schicht 64 und alle der Einheiten der dritten vollverbundenen Schicht 68 aus (S116). Jede Einheit der zweiten vollverbundenen Schicht 64 führt die zweite Vollverbindungsverarbeitung auf allen der erfassten ersten vollverbundenen Informationen aus, um die ersten vollverbundenen Informationen miteinander zu verbinden, wodurch die Menschenkörpermerkmalsinformationen mit erhöhter Genauigkeit erzeugt werden und die erzeugten Menschenkörpermerkmalsinformationen an die erste Ausgangsschicht 66 ausgegeben werden (S118). Die erste Ausgangsschicht 66 gibt neue Menschenkörpermerkmalsinformationen, die erzeugt werden durch Ausführung der ersten Ausgangsverarbeitung auf den von der zweiten vollverbundenen Schicht 64 erfassten Menschenkörpermerkmalsinformationen, an die erste Zeitreihe-NN-Einheit 72 aus (S120). Jede Einheit der dritten vollverbundenen Schicht 68 führt die dritte Vollverbindungsverarbeitung auf allen der erfassten ersten vollverbundenen Informationen aus, um die ersten vollverbundenen Informationen miteinander zu verbinden, wodurch die Verhaltenserkennungsinformationen erzeugt werden und die erzeugten Verhaltenserkennungsinformationen an die zweite Ausgangsschicht 70 ausgegeben werden (S122). Die zweite Ausgangsschicht 70 gibt neue Verhaltenserkennungsinformationen, die durch Ausführung der zweiten Ausgangsverarbeitung auf den von der dritten vollverbundenen Schicht 68 erfassten Verhaltenserkennungsinformationen normiert werden/sind, an die erste Zeitreihe-NN-Einheit 72 aus (S124). Im Übrigen können Schritte S118 und S120 und Schritte S122 und S124 in der Reihenfolge vertauscht werden oder parallel ausgeführt werden.
Jede Einheit der ersten Zeitreihe-NN-Einheit 72 führt die erste Zeitreihe-NN-Verarbeitung auf den mehreren (Stücken/Elementen von) Menschenkörpermerkmalsinformationen und Verhaltenserkennungsinformationen aus, die sich in der Zeit unterscheiden, wobei diese von der ersten Ausgangsschicht 66 und der zweiten Ausgangsschicht 70 erfasst werden, und erzeugt die Erste-Einheit-Ausgabeinformationen, um die erzeugten Erste-Einheit-Ausgabeinformationen an die entsprechende Einheit der zweiten Zeitreihe-NN-Einheit 74 auszugeben (S126). Jede Einheit der zweiten Zeitreihe-NN-Einheit 74 führt die zweite Zeitreihe-NN-Verarbeitung auf den mehreren (Stücken/Elementen von) Erste-Einheit-Ausgabeinformationen aus, die sich in der Zeit unterscheiden, wobei diese von der ersten Zeitreihe-NN-Einheit 72 erfasst werden, und erzeugt die mehreren (Stücke/Elemente von) Zweite-Einheit-Ausgabeinformationen, um die erzeugten Zweite-Einheit-Ausgabeinformationen an alle der Einheiten der vierten vollverbundenen Schicht 76 auszugeben (S128).
Die vierte vollverbundene Schicht 76 gibt die zweiten vollverbundenen Informationen, die erzeugt werden durch Ausführung der vierten Vollverbindungsverarbeitung auf den Zweite-Einheit-Ausgabeinformationen, an die dritte Ausgangsschicht 78 aus (S130). Die dritte Ausgangsschicht 78 gibt die Verhaltensvorhersagebezeichnung mit der höchsten Wahrscheinlichkeit, die aus den Verhaltensvorhersageinformationen ausgewählt wird/ist, die erzeugt werden durch Ausführung der dritten Ausgangsverarbeitung auf den zweiten vollverbundenen Informationen, oder die Verhaltensvorhersageinformationen an die Fahrzeugsteuervorrichtung 16 aus (S132).
Wie es vorstehend beschrieben ist, kann die Bildverarbeitungsvorrichtung 12 zwei Typen bzw. Arten von Informationen, die sich in der Qualität bzw. Beschaffenheit unterscheiden (nämlich Menschenkörpermerkmalsinformationen und Verhaltenserkennungsinformationen) aus einem Typ bzw. einer Art von ersten vollverbundenen Informationen ausgeben, da die Bildverarbeitungsvorrichtung 12 gemäß dem ersten Ausführungsbeispiel zwei Typen bzw. Arten von Menschenkörpermerkmalsinformationen und Verhaltenserkennungsinformationen, die sich in der Qualität bzw. Beschaffenheit unterscheiden, aus den ersten vollverbundenen Informationen erzeugt, die aus den Informationen über das Gesicht des Insassen erzeugt werden, und diese ausgibt.
In der Bildverarbeitungsvorrichtung 12 gibt die erste vollverbundene Schicht 62 die gleichen ersten vollverbundenen Informationen an jede der zweiten vollverbundenen Schicht 64 und der dritten vollverbundenen Schicht 68 aus. Auf diese Art und Weise kann die Bildverarbeitungsvorrichtung 12, da die Bildverarbeitungsvorrichtung 12 die Menschenkörpermerkmalsinformationen und die Verhaltenserkennungsinformationen aus den gleichen ersten vollverbundenen Informationen erzeugt, zwei Typen bzw. Arten von Informationen ausgeben, die sich in der Qualität bzw. Beschaffenheit unterscheiden, und eine zur Verarbeitung erforderliche Zeit reduzieren, während eine Verkomplizierung der Konfiguration wie etwa einer Architektur unterbunden wird.
In der Bildverarbeitungsvorrichtung 12 erzeugt die zweite Halbeinheit 42 die Verhaltensvorhersageinformationen aus den mehreren (Stücken/Elementen von) Menschenkörpermerkmalsinformationen und den mehreren (Stücken/Elementen von) Verhaltenserkennungsinformationen, die sich in der Zeit unterscheiden, wobei diese durch die erste Halbeinheit 40 erzeugt werden. Auf diese Art und Weise kann die Bildverarbeitungsvorrichtung 12 die Verhaltensvorhersageinformationen zusammen mit den Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen aus dem Bild durch die Konfiguration (Architektur) erzeugen, die an einer Vorrichtung angebracht bzw. eingerichtet ist. Außerdem erzeugt die Bildverarbeitungsvorrichtung 12 jede Information durch eine Vorrichtung, wodurch sie imstande ist, den Bias, die Gewichtung und dergleichen, die für die Verhaltenserkennung und die Verhaltensvorhersage erforderlich sind, zusammen einzustellen bzw. abzustimmen, und dadurch kann die Bildverarbeitungsvorrichtung 12 die Einstellungs- bzw. Abstimmungsarbeit vereinfachen.
In der Bildverarbeitungsvorrichtung 12 erzeugt die zweite Halbeinheit 42 die Wahrscheinlichkeitsverteilung der mehreren vorbestimmten Verhaltensvorhersagebezeichnungen als die Verhaltensvorhersageinformationen. Als Folge hiervon kann die Bildverarbeitungsvorrichtung 12 die Wahrscheinlichkeit der mehreren potenziellen Verhalten des Insassen vorhersagen und erzeugen.
In der Bildverarbeitungsvorrichtung 12 wählt die zweite Halbeinheit 42 die Verhaltensvorhersagebezeichnung, die in der Wahrscheinlichkeit am höchsten ist, aus den Verhaltensvorhersageinformationen aus und gibt diese aus. Als Folge hiervon kann die Bildverarbeitungsvorrichtung 12 die zukünftigen Verhalten des Insassen auf ein Verhalten eingrenzen, wodurch sie imstande ist, eine Verarbeitungslast der Fahrzeugsteuervorrichtung 16 oder dergleichen, die ein Ausgabeziel darstellt, zu reduzieren.
In der Bildverarbeitungsvorrichtung 12 gibt die erste vollverbundene Schicht 62 die Menschenkörpermerkmalsinformationen über das Merkmal des Insassen, die erzeugt werden durch Verbinden der Merkmalsabbildungen, als die ersten vollverbundenen Informationen an die zweite vollverbundene Schicht 64 und die dritte vollverbundene Schicht 68 in einer Folgestufe aus. Als Folge hiervon kann die zweite vollverbundene Schicht 64 die Genauigkeit der Menschenkörpermerkmalsinformationen weiter verbessern. Außerdem kann die dritte vollverbundene Schicht 68 die Verhaltenserkennungsinformationen mit hoher Genauigkeit erzeugen, indem ein Einfluss der Umgebungsveränderungen, wie etwa des Vorhandenseins oder Nichtvorhandenseins eines Gepäcks in einem Fahrzeuginnenraum, welche andere Informationen als die Personeninformationen darstellen, reduziert wird. Als Folge hiervon kann die zweite Halbeinheit 42 genauere Verhaltensvorhersageinformationen basierend auf den genaueren Menschenkörpermerkmalsinformationen und den Verhaltenserkennungsinformationen erzeugen und ausgeben.
Die Bildverarbeitungsvorrichtung 12 stellt das Bias und die Gewichtung der Aktivierungsfunktion der dritten vollverbundenen Schicht 68, der dritten Ausgangsschicht, 78 usw. im Voraus durch maschinelles Lernen unter Verwendung des Lern-/Lehrbilds ein, das mit dem Verhalten des Insassen in Zusammenhang steht. Als Folge hiervon kann die Bildverarbeitungsvorrichtung 12 die Verhaltenserkennung und die Verhaltensvorhersage durchführen, indem sie das Bild mit dem Verhalten in Zusammenhang bringt.
<Zweites Ausführungsbeispiel>
4 ist ein Funktionsblockschaltbild, das eine Funktion einer Verarbeitungseinheit 20 gemäß einem zweiten Ausführungsbeispiel veranschaulicht. Die Verarbeitungseinheit 20 einer Bildverarbeitungsvorrichtung 12 gemäß dem zweiten Ausführungsbeispiel unterscheidet sich von dem ersten Ausführungsbeispiel in einer Konfiguration einer Verbindungseinheit 48A.
Wie es in 4 gezeigt ist, umfasst die Verbindungseinheit 48A des zweiten Ausführungsbeispiels eine erste vollverbundene Schicht bzw. Fully-Connected-Layer 62A, eine zweite vollverbundene Schicht bzw. Fully-Connected-Layer 64A, eine erste Ausgangsschicht 66A, eine dritte vollverbundene Schicht bzw. Fully-Connected-Layer 68A und eine zweite Ausgangsschicht 70A.
Die erste vollverbundene Schicht 62A gibt die Menschenkörpermerkmalsinformationen, die aus den von der dritten Poolbildungsschicht 60 erfassten mehreren Merkmalsabbildungen erzeugt werden, als die ersten vollverbundenen Informationen an die zweite vollverbundene Schicht 64A aus.
Die zweite vollverbundene Schicht 64A erzeugt die Menschenkörpermerkmalsinformationen aus den ersten vollverbundenen Informationen. Die zweite vollverbundene Schicht 64A gibt die erzeugten Menschenkörpermerkmalsinformationen zusammen mit den erfassten ersten vollverbundenen Informationen an die erste Ausgangsschicht 66A und die dritte vollverbundene Schicht 68A aus.
Die erste Ausgangsschicht 66A erfasst die Menschenkörpermerkmalsinformationen. Die erste Ausgangsschicht 66A gibt die erfassten Menschenkörpermerkmalsinformationen an die erste Zeitreihe-NN-Einheit 72 der zweiten Halbeinheit 42 aus.
Die dritte vollverbundene Schicht 68A erzeugt die Verhaltenserkennungsinformationen aus den ersten vollverbundenen Informationen. Die dritte vollverbundene Schicht 68A gibt die Verhaltenserkennungsinformationen an die zweite Ausgangsschicht 70A aus.
Die zweite Ausgangsschicht 70A normiert die Verhaltenserkennungsinformationen. Die zweite Ausgangsschicht 70A gibt die normierten Verhaltenserkennungsinformationen zusammen mit den Menschenkörpermerkmalsinformationen an die erste Zeitreihe-NN-Einheit 72 der zweiten Halbeinheit 42 aus.
Die Funktionen, Verbindungsverhältnisse, Anzahl, Platzierung, usw. der Konfigurationen der vorstehend beschriebenen Ausführungsbeispiele können, innerhalb eines Umfangs der hierin offenbarten Ausführungsbeispiele und eines Umfangs, der zu dem Umfang der hierin offenbarten Ausführungsbeispiele äquivalent ist, auf geeignete Weise geändert, gelöscht bzw. gestrichen oder dergleichen werden. Die jeweiligen Ausführungsbeispiele können auf geeignete Weise kombiniert werden. Die Reihenfolge der Schritte von jedem Ausführungsbeispiel kann auf geeignete Weise geändert werden.
Bei den vorstehend beschriebenen Ausführungsbeispielen wurde die Bildverarbeitungsvorrichtung 12 mit drei Sätzen der Faltungsschichten bzw. Convolutional-Layers 50, 54 und 58 und der Poolbildungsschichten bzw. Pooling-Layer 52, 56 und 60 beispielhaft dargelegt, aber die Anzahl von Sätzen der Faltungsschichten bzw. Convolutional-Layers und der Poolbildungsschichten bzw. Pooling-Layers kann auf geeignete Weise geändert werden. Zum Beispiel kann die Anzahl von Sätzen der Faltungsschichten bzw. Convolutional-Layers und der Poolbildungsschichten bzw. Pooling-Layer eins oder mehr sein.
Bei den vorstehend beschriebenen Ausführungsbeispielen wurde das Beispiel beschrieben, in dem zwei Zeitreihe-NN-Einheiten 72 und 74 bereitgestellt sind. Die Anzahl von Zeitreihe-NN-Einheiten kann jedoch auf geeignete Weise geändert werden. Zum Beispiel kann die Anzahl von Zeitreihe-NN-Einheiten eins oder mehr sein.
Bei den vorstehend beschriebenen Ausführungsbeispielen wird auf das rekurrente neuronale Netz mit der GRU als ein Beispiel der Zeitreihe-NN-Einheiten 72 und 74 Bezug genommen. Die Konfiguration der Zeitreihe-NN-Einheiten 72 und 74 kann jedoch je nach Bedarf geändert werden. Zum Beispiel können die Zeitreihe-NN-Einheiten 72 und 74 rekurrente neuronale Netze mit einem LSTM („long short-term memory“) oder dergleichen sein.
Bei den vorstehend beschriebenen Ausführungsbeispielen wurde das Beispiel beschrieben, in dem die ersten vollverbundenen Informationen die Menschenkörpermerkmalsinformationen sind. Die ersten vollverbundenen Informationen sind jedoch nicht auf die vorgenannte Konfiguration beschränkt, solange die Informationen die Informationen sind, in denen die Merkmalsabbildungen verbunden sind.
Bei den vorstehend beschriebenen Ausführungsbeispielen wurde die Bildverarbeitungsvorrichtung 12 beispielhaft dargelegt, die an dem Automobil zur Erkennung oder Vorhersage des Verhaltens des Insassen angebracht bzw. eingerichtet ist, aber die Bildverarbeitungsvorrichtung 12 ist nicht auf die vorgenannte Konfiguration beschränkt. Zum Beispiel kann die Bildverarbeitungsvorrichtung 12 das Verhalten einer im Freien befindlichen Person oder dergleichen erkennen oder vorhersagen.
Die Prinzipien, bevorzugten Ausführungsbeispiele und Betriebsarten der vorliegenden Erfindung wurden in der vorstehend dargelegten Spezifikation beschrieben. Die Erfindung, die geschützt werden soll, ist jedoch nicht dahingehend auszulegen, dass sie auf die offenbarten besonderen Ausführungsbeispiele beschränkt ist. Ferner sind die hierin beschriebenen Ausführungsbeispiele als veranschaulichend und nicht als einschränkend zu betrachten. Abwandlungen und Änderungen können durch Dritte vorgenommen werden, und Äquivalente können eingesetzt werden, ohne von dem Grundgedanken der vorliegenden Erfindung abzuweichen. Dementsprechend ist es ausdrücklich vorgesehen, dass alle derartigen Abwandlungen, Änderungen und Äquivalente, die in den Grundgedanken und den Umfang der vorliegenden Erfindung fallen, wie sie in den Patentansprüchen definiert sind, dadurch umfasst bzw. abgedeckt sind.
Eine Bildverarbeitungsvorrichtung (12) umfasst: eine Extraktionseinheit (46), die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; eine erste vollverbundene Schicht (62, 62A), die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; eine zweite vollverbundene Schicht (64, 64A), die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und eine dritte vollverbundene Schicht (68, 68A), die die ersten vollverbundenen Informationen oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2010036762 A [0003]
JP 2012 A [0003]
JP 033075 [0003]

Claims

Bildverarbeitungsvorrichtung (12) mit: einer Extraktionseinheit (46), die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; einer ersten vollverbundenen Schicht (62, 62A), die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; einer zweiten vollverbundenen Schicht (64, 64A), die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und einer dritten vollverbundenen Schicht (68, 68A), die die ersten vollverbundenen Informationen oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.
Bildverarbeitungsvorrichtung gemäß Anspruch 1, wobei die erste vollverbundene Schicht die ersten vollverbundenen Informationen an jede der zweiten vollverbundenen Schicht und der dritten vollverbundenen Schicht ausgibt.
Bildverarbeitungsvorrichtung gemäß Anspruch 1 oder 2, zusätzlich mit einer zweiten Halbeinheit, die Verhaltensvorhersageinformationen über ein zukünftiges Verhalten der Person aus einer Vielzahl der Menschenkörpermerkmalsinformationen und einer Vielzahl der Verhaltenserkennungsinformationen erzeugt, die sich in der Zeit unterscheiden.
Bildverarbeitungsvorrichtung gemäß Anspruch 3, wobei die zweite Halbeinheit eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltensvorhersagebezeichnungen als die Verhaltensvorhersageinformationen erzeugt.
Bildverarbeitungsvorrichtung gemäß Anspruch 4, wobei die zweite Halbeinheit die Verhaltensvorhersagebezeichnung, die in der Wahrscheinlichkeit am höchsten ist, aus den Verhaltensvorhersageinformationen auswählt und ausgibt.
Bildverarbeitungsvorrichtung gemäß einem der Ansprüche 1 bis 5, wobei die erste vollverbundene Schicht die Menschenkörpermerkmalsinformationen, die ein vorbestimmtes Merkmal der Person bezeichnen, als die ersten vollverbundenen Informationen ausgibt.
Programm, das einen Computer veranlasst zum Arbeiten als: eine Extraktionseinheit (46), die eine Faltungsverarbeitung und eine Poolbildungsverarbeitung auf Informationen eines Eingabebilds durchführt, das ein Bild einer Person umfasst, und ein Merkmal aus dem Eingabebild extrahiert, um eine Vielzahl von Merkmalsabbildungen zu erzeugen; eine erste vollverbundene Schicht (62, 62A), die erste vollverbundene Informationen ausgibt, die durch Verbinden der Vielzahl von Merkmalsabbildungen erzeugt werden; eine zweite vollverbundene Schicht (64, 64A), die die ersten vollverbundenen Informationen verbindet und Menschenkörpermerkmalsinformationen ausgibt, die ein vorbestimmtes Merkmal der Person bezeichnen; und eine dritte vollverbundene Schicht (68, 68A), die die ersten vollverbundenen Informationen oder die Menschenkörpermerkmalsinformationen verbindet, um Verhaltenserkennungsinformationen auszugeben, die eine Wahrscheinlichkeitsverteilung von einer Vielzahl von vorbestimmten Verhaltenserkennungsbezeichnungen bezeichnen.