DE112020004377T5

DE112020004377T5 - Bilderkennungsvorrichtung

Info

Publication number: DE112020004377T5
Application number: DE112020004377.0T
Authority: DE
Inventors: Hiroyuki Ushiba; Ryosuke Toki
Original assignee: Hitachi Astemo Ltd
Current assignee: Hitachi Astemo Ltd
Priority date: 2019-10-29
Filing date: 2020-09-08
Publication date: 2022-07-07
Also published as: JP7379523B2; JPWO2021084915A1; WO2021084915A1

Abstract

Es wird eine Bilderkennungsvorrichtung geschaffen, die einen dreidimensionalen Gegenstand genau detektieren und eine Erkennungsleistung verbessern kann, während eine Kostenerhöhung unterbunden wird. Eine Erkennung, bei der Pixelinformationen und Abstandsinformationen oder Parallaxeninformationen kombiniert werden, ist implementiert durch Normieren der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands, der ein Erkennungsziel ist, durch Maskieren der von jenen des Erkennungsziels verschiedenen Abstandsinformationen oder Parallaxeninformationen, Ändern einer Gewichtung für die Pixelinformationen und die Abstandsinformationen oder die Parallaxeninformationen oder Kombinieren der Pixelinformationen und der Abstandsinformationen oder der Parallaxeninformationen, für Informationen von jedem Pixel, die von den Kameras 101 und 102 oder einer Kamera 1101 erhalten werden, und Informationen über einen Abstand oder eine Parallaxe, die diesem entsprechen.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Bilderkennungsvorrichtung.
Hintergrundgebiet
In den letzten Jahren gibt es einen zunehmenden Bedarf an einer Verbesserung der Leistung einer Bilderkennungsvorrichtung, die zur Fahrunterstützung, zum automatischen Fahren und dergleichen erforderlich ist. Zum Beispiel ist bei einer Kollisionssicherheitsfunktion für einen Fußgänger eine Leistungsverbesserung wie etwa das Hinzufügen einer Kollisionssicherheitsprüfung für einen Fußgänger bei Nacht bei einer Kraftfahrzeugprüfung erforderlich. Um diese Leistungsverbesserung zu realisieren, ist eine hohe Erkennungsleistung für einen dreidimensionalen Gegenstand erforderlich.
PTL 1 schlägt eine Erkennungsvorrichtung vor, die in einer Situation, in der ein sich bewegender, dreidimensionaler Gegenstand offensichtlich mit einem weiteren dreidimensionalen Gegenstand überlappt, den sich bewegenden, dreidimensionalen Gegenstand wie etwa einen Fußgänger, der innerhalb eines vorgegebenen Bereichs anwesend ist, der den dreidimensionalen Gegenstand enthält, detektiert, indem ein Merkmalspunkt innerhalb des Bereichs nachverfolgt wird.
Außerdem schlägt PLT 2 ein Verfahren unter Verwendung von maschinellem Lernen vor und schlägt außerdem vor, dass eine Erkennung durchgeführt wird, indem ein Bild, das durch eine optische Kamera aufgenommen wird, und Informationen über einen Abstand, die aus einem

PTL 1: JP 2017-142760 A
PTL 2: JP 2019-028528 A

Zusammenfassung der Erfindung
Technisches Problem
Jedoch werden bei einer herkömmlichen Vorrichtung Strukturinformationen oder dergleichen, die durch eine optische Kamera erhalten werden, verwendet, um ein Ziel zu erkennen, und aufgrund einer Fotografie oder dergleichen, die auf einer Wand oder einer Plakatwand gezeichnet ist, oder einer ähnlichen Silhouette, die durch eine Kombination natürlicher Gegenstände erzeugt wird, tritt eine fehlerhafte Erkennung auf. Dies ist so, weil dann, wenn eine Erkennungsverarbeitung unter Verwendung eines Bildes, das durch die optische Kamera erhalten wird, und eines Abstandsbildes, das dem Bild entspricht, durchgeführt wird, Informationen über ein Pixel, einen Abstand und einen Bereich, in dem das Pixel und der Abstand zusammengesetzt werden, enorm werden und die Erkennungsverarbeitung somit nicht mit realistischen Kosten implementiert werden kann.
Die vorliegende Erfindung wurde im Hinblick auf die obigen Umstände gemacht und eine Aufgabe der vorliegenden Erfindung ist, eine Bilderkennungsvorrichtung zu schaffen, die einen dreidimensionalen Gegenstand genau detektieren und eine Erkennungsleistung verbessern kann, während eine Kostenerhöhung unterbunden wird.
Lösung des Problems
Eine Bilderkennungsvorrichtung der vorliegenden Erfindung, um das obige Problem zu lösen, ist eine Bilderkennungsvorrichtung, die einen dreidimensionalen Gegenstand auf einem Bild erkennt, das durch eine Bildgebungseinheit aufgenommen wird, wobei die Bilderkennungsvorrichtung eine numerische Umsetzung von Abstandsinformationen oder Parallaxeninformationen des dreidimensionalen Gegenstands für einen Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, durchführt und eine Erkennungsverarbeitung des Spezifizierens einer Art des dreidimensionalen Gegenstands durchführt, indem die Abstandsinformationen oder die Parallaxeninformationen, die der numerischen Umsetzung unterzogen worden sind, und Bildinformationen des Bildes miteinander kombiniert werden.
Vorteilhafte Wirkungen der Erfindung
Gemäß der vorliegenden Erfindung ist es möglich, eine Bilderkennungsvorrichtung zu schaffen, die einen dreidimensionalen Gegenstand genau detektieren und die Erkennungsleistung verbessern kann, während eine Kostenerhöhung unterbunden wird.
Andere Probleme, Konfigurationen und Wirkungen als jene, die oben beschrieben sind, werden durch die folgende Beschreibung der Ausführungsformen ersichtlich.
Figurenliste

1 ist ein Blockdiagramm, das eine Gesamtkonfiguration einer Bilderkennungsvorrichtung veranschaulicht.
2 ist ein Ablaufplan, der einen Betrieb der Bilderkennungsvorrichtung veranschaulicht.
3 ist eine Ansicht, die einen Detektionsbereich des dreidimensionalen Gegenstands, der durch eine Detektionsverarbeitung für dreidimensionale Gegenstände auf einem Bild eingestellt wird, veranschaulicht.
4 ist ein Blockdiagramm, das eine Funktionsblockkonfiguration (erste Ausführungsform) der Bilderkennungsvorrichtung in Bezug auf eine Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
5 ist ein Ablaufplan, der Einzelheiten (erste Ausführungsform) der Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
6 ist ein Blockdiagram, das eine Funktionsblockkonfiguration (zweite Ausführungsform) der Bilderkennungsvorrichtung in Bezug auf die Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
7 ist ein Ablaufplan, der Einzelheiten (zweite Ausführungsform) der Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
8 ist ein Blockdiagram, das eine Funktionsblockkonfiguration (dritte Ausführungsform) der Bilderkennungsvorrichtung in Bezug auf die Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
9 ist ein Ablaufplan, der Einzelheiten (dritte Ausführungsform) der Erkennungsverarbeitung für dreidimensionale Gegenstände veranschaulicht.
10 ist ein schematisches Diagramm, das eine Prozedur des Erzeugens eines Bildes mit entferntem Hintergrundrand, wobei unter Verwendung von Gewichtungsinformationen ein Hintergrundrand aus einem Leuchtdichtebild entfernt worden ist, veranschaulicht.
11 ist ein Ablaufplan, der einen Betrieb in einer Bilderkennungsvorrichtung eines weiteren Beispiels veranschaulicht.

Beschreibung der Ausführungsformen
Im Folgenden werden Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen beschrieben. Es sei erwähnt, dass Komponenten mit derselben Funktion in den Zeichnungen durch dieselben Bezugszeichen bezeichnet werden und eine überlappende Beschreibung davon weggelassen sein kann.
(Konfiguration der Bilderkennungsvorrichtung) 1 ist ein Blockdiagramm, das eine Gesamtkonfiguration einer Bilderkennungsvorrichtung 100 gemäß der vorliegenden Ausführungsform veranschaulicht. Die Bilderkennungsvorrichtung 100 ist auf einem Fahrzeug (das hier im Folgenden als ein eigenes Fahrzeug bezeichnet sein kann) angebracht und enthält eine linke Kamera (Bildgebungseinheit) 101 und eine rechte Kamera (Bildgebungseinheit) 102 (die hier im Folgenden einfach als die Kameras 101 und 102 bezeichnet sein können), die auf der linken und der rechten Seite vor dem Fahrzeug nebeneinander angeordnet sind. Die Kameras 101 und 102 bilden eine Stereokamera und bilden einen dreidimensionalen Gegenstand vor dem Fahrzeug wie etwa z. B. einen Fußgänger, ein Fahrzeug, ein Signal, ein Zeichen, eine weiße Linie, ein Rücklicht eines Fahrzeugs und einen Scheinwerfer ab. Die Bilderkennungsvorrichtung 100 enthält eine Verarbeitungsvorrichtung 110, die auf der Grundlage von Informationen (Bildinformationen) von Bildern von einem Bereich vor dem Fahrzeug, die durch die Kameras 101 und 102 aufgenommen werden, eine externe Umgebung des Fahrzeugs erkennt. Daraufhin steuert das Fahrzeug (das eigene Fahrzeug) eine Bremse, eine Lenkung und dergleichen auf der Grundlage eines Erkennungsergebnisses der Bilderkennungsvorrichtung 100.
Die Verarbeitungsvorrichtung 110 der Bilderkennungsvorrichtung 100 nimmt die Bilder, die durch die Kameras 101 und 102 aufgenommen werden, von einer Bildeingangsschnittstelle 103 an. Die Bildinformationen, die von der Bildeingangsschnittstelle 103 angenommen werden, werden über einen internen Bus 109 an eine Bildverarbeitungseinheit 104 übertragen. Anschließend werden die Bildinformationen durch eine Arithmetikverarbeitungseinheit 105 verarbeitet und ein Zwischenverarbeitungsergebnis, Bildinformationen als ein endgültiges Ergebnis und dergleichen werden in einer Speichereinheit 106 gespeichert.
Die Bildverarbeitungseinheit 104 vergleicht ein erstes Bild (das hier im Folgenden als ein linkes Bild bezeichnet sein kann), das von einem Bildgebungselement der linken Kamera 101 erhalten wird, mit einem zweiten Bild (das hier im Folgenden als ein rechtes Bild bezeichnet sein kann), das von einem Bildgebungselement der rechten Kamera 102 erhalten wird, führt Bildkorrekturen wie etwa eine Korrektur einer vorrichtungsspezifischen Abweichung, die durch das Bildgebungselement bewirkt wird, oder eine Rauschinterpolation auf jedem Bild durch und speichert ein Bildkorrekturergebnis als die Bildinformationen in der Speichereinheit 106. Ferner berechnet die Bildverarbeitungseinheit 104 entsprechende Punkte zwischen dem ersten Bild und dem zweiten Bild, erhält Parallaxeninformationen und speichert die Parallaxeninformationen als Abstandsinformationen, die jedem Pixel auf dem Bild entsprechen, in der Speichereinheit 106. Die Bildverarbeitungseinheit 104 ist über den internen Bus 109 mit der Arithmetikverarbeitungseinheit 105, einer CAN-Schnittstelle 107 und einer Steuerungsverarbeitungseinheit 108 verbunden.
Die Arithmetikverarbeitungseinheit 105 führt eine Erkennung dreidimensionaler Gegenstände durch, um unter Verwendung der Bildinformationen und der Abstandsinformationen (Parallaxeninformationen), die in der Speichereinheit 106 gespeichert sind, eine Umgebung um das Fahrzeug zu erfassen. Ein Teil des Ergebnisses der Erkennung dreidimensionaler Gegenstände oder ein Zwischenverarbeitungsergebnis werden in der Speichereinheit 106 gespeichert. Nach dem Durchführen der Erkennung dreidimensionaler Gegenstände auf dem aufgenommenen Bild führt die Arithmetikverarbeitungseinheit 105 unter Verwendung des Erkennungsergebnisses eine Berechnung für eine Fahrzeugsteuerung durch. Ein Fahrzeugsteuerungsstrategie, die als ein Ergebnis der Berechnung für die Fahrzeugsteuerung erhalten wird, und ein Teil des Erkennungsergebnisses werden über die CAN-Schnittstelle 107 an ein CAN-Fahrzeugnetz 111 übertragen, wobei die Fahrzeugsteuerung durchgeführt wird.
Die Steuerungsverarbeitungseinheit 108 überwacht, ob jede Verarbeitungseinheit anomal arbeitet oder nicht, ob zur Zeit der Datenübertragung ein Fehler aufgetreten ist oder nicht, und dergleichen, um einen anomalen Betrieb zu verhindern. Die Bildverarbeitungseinheit 104, die Arithmetikverarbeitungseinheit 105 und die Steuerungsverarbeitungseinheit 108 können durch eine einzige Computereinheit oder mehrere Computereinheiten implementiert sein.
(Betrieb der Bilderkennungsvorrichtung) 2 ist ein Ablaufplan, der einen Betrieb der Bilderkennungsvorrichtung 100 veranschaulicht.
In S201 und S202 werden durch die linke Kamera 101 und die rechte Kamera 102, die in der Bilderkennungsvorrichtung 100 enthalten sind, Bilder aufgenommen und eine Bildverarbeitung S203 wie etwa eine Korrektur zum Ausgleichen einer eindeutigen Eigenschaft des Bildgebungselements wird für jedes der Elemente der aufgenommenen Bildinformationen 121 und 122 durchgeführt. Ein Verarbeitungsergebnis der Bildverarbeitung S203 wird in einem Bildpufferspeicher 161 gespeichert. Der Bildpufferspeicher 161 ist in der Speichereinheit 106 in 1 vorgesehen.
Daraufhin wird eine Parallaxenverarbeitung S204 durchgeführt. Insbesondere werden die zwei Bilder, die in der Bildverarbeitung S203 korrigiert worden sind, vereinigt, wodurch die Parallaxeninformationen der Bilder, die durch die linke Kamera 101 und die rechte Kamera 102 erhalten werden, erhalten werden. Ein bestimmter Aufmerksamkeitspunkt auf dem Bild des dreidimensionalen Gegenstands wird durch das Prinzip der Triangulation auf der Grundlage der Parallaxe zwischen dem linken und dem rechten Bild als ein Abstand zum dreidimensionalen Gegenstand erhalten. Ein Verarbeitungsergebnis der Parallaxenverarbeitung S204 wird in einem Parallaxenpufferspeicher 162 gespeichert. Der Parallaxenpufferspeicher 162 ist in der Speichereinheit 106 in 1 vorgesehen. Ferner können Informationen, die im Parallaxenpufferspeicher 162 aufgezeichnet sind, in die Abstandsinformationen umgesetzt und anschließend zur nachfolgenden Verarbeitung verwendet werden.
Die Bildverarbeitung S203 und die Parallaxenverarbeitung S204 werden durch die Bildverarbeitungseinheit 104 in 1 durchgeführt und die endgültig erhaltenen Bildinformationen und Parallaxeninformationen werden in der Speichereinheit 106 gespeichert.
Anschließend wird in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände unter Verwendung der Parallaxeninformationen bezüglich der Parallaxe oder des Abstands jedes Pixels des linken und des rechten Bildes, die durch die Parallaxenverarbeitung S204 erhalten werden, der dreidimensionale Gegenstand in einem dreidimensionalen Raum detektiert. 3 ist eine Ansicht, die einen Detektionsbereich des dreidimensionalen Gegenstands (der ebenso als ein dreidimensionaler Bereich bezeichnet sein kann) veranschaulicht, der durch die Detektionsverarbeitung S205 für dreidimensionale Gegenstände auf dem Bild eingestellt wird. 3 veranschaulicht einen Fußgängerdetektionsbereich 301 und einen Fahrzeugdetektionsbereich 302, die durch die Kameras 101 und 102 auf dem Bild detektiert werden, als ein Ergebnis der Detektionsverarbeitung S205 für dreidimensionale Gegenstände. Diese Detektionsbereiche 301 und 302 geben Bereiche auf dem Bild an, in denen ein Fußgänger oder ein Fahrzeug anwesend ist, und können rechtwinklige Bereiche sein, wie in 3 veranschaulicht ist, oder können unregelmäßige Bereiche sein, die aus der Parallaxe oder dem Abstand erhalten werden. Um die Handhabung durch einen Computer in der nachfolgenden Verarbeitung zu vereinfachen, sind die Bereiche im Allgemeinen rechtwinklig. In der vorliegenden Ausführungsform wird im Folgenden hauptsächlich ein Beispiel beschrieben, in dem der Detektionsbereich rechtwinklig ist und der dreidimensionale Gegenstand ein Fußgänger ist.
Daraufhin wird in der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände eine Erkennungsverarbeitung des Spezifizierens einer Art des dreidimensionalen Gegenstands für den Detektionsbereich durchgeführt, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände auf dem Bild eingestellt wird. Beispiele für den dreidimensionalen Gegenstand, der durch die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände erkannt werden soll, enthalten einen Fußgänger, ein Fahrzeug, ein Signal, ein Zeichen, eine weiße Linie, ein Rücklicht eines Fahrzeugs, einen Scheinwerfer oder dergleichen und die Art des dreidimensionalen Gegenstands wird als eine davon spezifiziert. Die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände wird unter Verwendung der Bildinformationen, die im Bildpufferspeicher 161 aufgezeichnet sind, und der Parallaxeninformationen, die im Parallaxenpufferspeicher 162 aufgezeichnet sind, durchgeführt. Jedoch können Informationen im Parallaxenpufferspeicher 162 eine fehlerhafte Erkennung bewirken, weil es eine unendliche Relation zwischen einem Gegenstand und einem Hintergrund gibt. Dasselbe trifft auf einen Fall zu, bei dem ein Radar wie etwa ein Millimeterwellenradar und ein Bildsensor wie etwa eine Kamera kombiniert sind. Einzelheiten der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände, die dieses Problem gelöst hat, werden später beschrieben.
Anschließend wird in der Fahrzeugsteuerungsverarbeitung S207 unter Berücksichtigung des Ergebnisses der Erkennung dreidimensionaler Gegenstände in der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände und eines Zustands des eigenen Fahrzeugs (einer Geschwindigkeit, eines Lenkwinkels oder dergleichen) z. B. eine Warnung an einen Insassen ausgegeben, eine Steuerung für Bremsen, Lenkwinkeleinstellung oder dergleichen des eigenen Fahrzeugs wird bestimmt oder eine Steuerung zum Vermeiden des erkannten dreidimensionalen Gegenstands wird bestimmt und ein Ergebnis davon wird als Informationen zur automatischen Steuerung über die CAN-Schnittstelle 107 ausgegeben (S208).
Die Detektionsverarbeitung S205 für dreidimensionale Gegenstände, die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände und die Fahrzeugsteuerungsverarbeitung S207 werden durch die Arithmetikverarbeitungseinheit 105 in 1 durchgeführt.
Es sei erwähnt, dass ein Programm, das in dem Ablaufplan aus 2 und in dem Ablaufplan aus 5, der später zu beschreiben ist, veranschaulicht ist, durch einen Computer ausgeführt werden kann, der eine zentrale Verarbeitungseinheit (CPU), einen Datenspeicher und dergleichen enthält. Die gesamte oder ein Anteil der Verarbeitung kann durch eine Hartlogikschaltung implementiert sein. Ferner kann dieses Programm bereitgestellt werden, indem es vorab in einem Speichermedium der Bilderkennungsvorrichtung 100 gespeichert wird. Alternativ kann das Verfahren bereitgestellt werden, indem es in einem unabhängigen Speichermedium gespeichert ist, oder das Programm kann über eine Netzleitung aufgezeichnet und im Speichermedium der Bilderkennungsvorrichtung 100 gespeichert werden. Das Programm kann als ein computerlesbares Computerprogrammprodukt bereitgestellt werden, das diverse Formen wie etwa ein Datensignal (Trägerwellen) aufweist.
<Erkennungsverarbeitung für dreidimensionale Gegenstände (erste Ausführungsform)> 4 ist ein Blockdiagramm, das eine Funktionsblockkonfiguration (erste Ausführungsform) der Bilderkennungsvorrichtung 100 bezüglich der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. 5 ist ein Ablaufplan, der Einzelheiten (erste Ausführungsform) der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. Im vorliegenden Beispiel wird die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände aus 2, die oben beschrieben ist, das heißt, der Ablaufplan, der in 5 veranschaulicht ist, durch eine Normierungsverarbeitungseinheit 401 und eine Erkennungsverarbeitungseinheit 402 durchgeführt, die in der Arithmetikverarbeitungseinheit 105 enthalten sind, wie in 4 veranschaulicht ist, wobei die Normierungsverarbeitungseinheit 401 auf den Informationen im Parallaxenpufferspeicher 162 eine Normierung durchführt und die Erkennungsverarbeitungseinheit 402 eine Erkennung durchführt, indem die Informationen im Parallaxenpufferspeicher 162, die die Normierungsverarbeitungseinheit 401 durchlaufen haben, und die Informationen im Bildspeicher 161 miteinander kombiniert werden. Im Folgenden wird eine Verarbeitung, die durch jede Verarbeitungseinheit durchgeführt wird, aufeinanderfolgend beschrieben. Es sei erwähnt, dass diese Verarbeitungselemente unter der Voraussetzung einer Stereokamera beschrieben werden.
[Normierungsverarbeitungseinheit] Die Normierungsverarbeitungseinheit 401 führt auf der Parallaxe, die dem Detektionsbereich entspricht, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird, aus den Informationselementen, die im Parallaxenpufferspeicher 162 gehalten werden, eine Normierung durch (5: S501). In der Normierungsverarbeitung S501 wird z. B. ein Wert s_i jeder Parallaxe auf der Grundlage des folgenden Ausdrucks (1) numerisch in einen normierten Wert S_i umgesetzt.
(Math. 1) $S_{i} = \frac{s_{i}}{s_{m a x} - s_{m i n}} - * (s_{m a x} - s_{m i n})$
Hier sind s_max und s_min z. B. ein maximaler bzw. ein minimaler Parallaxenwert vor der Normierung und S_max und S_min sind ein maximaler bzw. ein minimaler normierter Wert. S_max und S_min werden in Übereinstimmung mit einem Format der Informationen, die in der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände verwendet werden, beliebig bestimmt. Zum Beispiel S_max = 1 und S_min = 0. Ferner können s_max und s_min ebenso in Übereinstimmung mit dem Format der Informationen, die in der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände verwendet werden, beliebig bestimmt werden. Zum Beispiel ist es bei der Stereokamera denkbar, dass eine Genauigkeit der Parallaxe oder des Abstands aufgrund einer Sensoreigenschaft verschlechtert wird, wenn ein Rauschabstand in der Umgebung eines Bereichs mit niedriger Leuchtdichte gering ist, wenn eine Auflösung eines Bereichs mit einer gesättigten Leuchtdichte nicht stabil ist, oder dergleichen. In einem derartigen Fall können s_max und s_min auf der Grundlage von ursprünglichen Pixelinformationen, der Sensoreigenschaft oder dergleichen auf beliebige Werte eingestellt werden oder können auf der Grundlage einer bestimmten Umsetzungsformel wie etwa Inkrementieren oder Dekrementieren um 10 % umgesetzt und verwendet werden. Ferner ist es ungeachtet der Genauigkeit eines ursprünglichen Bildes im Fall eines Radarsensors oder dergleichen denkbar, s_max und s_min zu verwenden, wobei Sonderfälle auf der Grundlage eines Anteils des Auftretens von fehlerhaften Messungen in dem Bereich oder dergleichen ausgeschlossen werden.
Ferner kann der Ausdruck, der in der Normierungsverarbeitung S501 verwendet wird, als der folgende Ausdruck (2) definiert werden.
(Math. 2) $S_{i} = s_{i} - s_{a v r}$
Hier ist s_avr ein Mittelwert der Parallaxenwerte des Detektionsbereichs. Wie oben beschrieben ist, wird ein Verfahren, das zur Normierung verwendet wird, in Übereinstimmung mit dem Format der Informationen, die in der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände verwendet werden, beliebig bestimmt.
Es sei erwähnt, dass hier die Parallaxeninformationen, die dem Detektionsbereich entsprechen, auf der Grundlage einer beliebigen Regel umgesetzt werden, um sie zu normieren, jedoch ist es selbstverständlich, dass die Abstandsinformationen, die dem Detektionsbereich entsprechen, numerisch umgesetzt werden können, um sie zu normieren.
[Erkennungsverarbeitungseinheit] Die Erkennungsverarbeitungseinheit 402 führt eine Erkennungsverarbeitung durch, indem die Informationen im Bildpufferspeicher 161 und die Normierungsinformationen im Parallaxenpufferspeicher 162 (die Parallaxeninformationen oder die Abstandsinformationen nach der Normierungsverarbeitung) miteinander kombiniert werden (5: S502). Zum Beispiel werden ein Musterabgleich zum Vergleichen eines Leuchtdichtebildes im Bildpufferspeicher 161 mit einem vorgegebenen Muster unter Verwendung einer normierten Korrelation oder dergleichen, eine Bestimmung, die durch eine Kennzeichnung vorgenommen wird, die unter Verwendung von maschinellem Lernen erzeugt wird, oder dergleichen als die Erkennungsverarbeitung S502 verwendet. Im Fall des Kombinierens der Normierungsinformationen im Parallaxenpufferspeicher 162 werden z. B. ein Verfahren unter Verwendung eines Mittelwertes eines Musterabgleichergebnisses des Leuchtdichtebildes und eines Musterabgleichergebnisses der normierten Parallaxeninformationen als ein endgültig bestimmter Wert, ein Verfahren des Durchführens einer Identifikation durch eine Kennzeichnung, die durch maschinelles Lernen erzeugt wird, mit einer Differenz zwischen dem Leuchtdichtebild und den normierten Parallaxeninformationen als einem Merkmal oder dergleichen verwendet.
In einem Beispiel, bei dem ein Ziel durch Musterabgleich erkannt wird, ist die Anzahl der Kombinationen eines zu erkennenden Vordergrunds und Hintergrunds enorm, wenn die oben beschriebene Normierungsverarbeitung nicht durchgeführt wird. Zum Beispiel sind die Parallaxeninformationen oder die Abstandsinformationen verschieden, wenn sich ein Fußgänger als ein Vordergrunderkennungsziel an einer Position in 10 m befindet, wenn der Hintergrund eine Wand an einer Position in 20 m hinter dem Fußgänger ist, und wenn sich der Fußgänger an einer Position in 10 m befindet und der Hintergrund sich an einer Position in 40 m hinter dem Fußgänger befindet. Im Fall des Durchführens eines derartigen Musterabgleichs ist es notwendig, Vorlagen aufzuweisen, die den jeweiligen Fällen entsprechen, doch da es eine unendliche Anzahl von Positionen des Vordergrunds und des Hintergrunds gibt, obwohl die Positionen endlich sind, ist es nicht realistisch, alle Kombinationen davon als Vorlagen aufzuweisen. Außerdem ist es selbst dann, wenn eine statistische Verarbeitung unter Verwendung von maschinellem Lernen durchgeführt wird, nicht realistisch, alle Kombinationen des Vordergrunds und des Hintergrunds zu erfassen. Daher ist die oben beschriebene Normierungsverarbeitung, die eine Verringerung auf eine realistische Informationsmenge (eine Komprimierung auf einen vorgegebenen Bereich) ermöglicht, wirksam.
<Erkennungsverarbeitung für dreidimensionale Gegenstände (zweite Ausführungsform)> 6 ist ein Blockdiagramm, das eine Funktionsblockkonfiguration (zweite Ausführungsform) der Bilderkennungsvorrichtung 100 bezüglich der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. 7 ist ein Ablaufplan, der Einzelheiten (zweite Ausführungsform) der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. Im vorliegenden Beispiel wird die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände aus 2, die oben beschrieben ist, das heißt, der Ablaufplan, der in 7 veranschaulicht ist, durch eine Gewichtungserzeugungs-Verarbeitungseinheit 601 und eine Erkennungsverarbeitungseinheit 602 durchgeführt, die in der Arithmetikverarbeitungseinheit 105 enthalten sind, wie in 6 veranschaulicht ist, wobei die Gewichtungserzeugungs-Verarbeitungseinheit 601 auf der Grundlage der Informationen (Parallaxeninformationen) im Parallaxenpufferspeicher 162 eine Gewichtung erzeugt, die jedem Pixel des Bildes im Bildpufferspeicher 161 entspricht, und die Erkennungsverarbeitungseinheit 602 eine Erkennung durchführt, indem die Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit 601 erzeugt werden, und die Informationen im Bildpufferspeicher 161 miteinander kombiniert werden.
[Gewichtungserzeugungs-Verarbeitungseinheit] Die Gewichtungserzeugungs-Verarbeitungseinheit 601 erzeugt auf der Grundlage der Informationen im Parallaxenpufferspeicher 162 eine Gewichtung, die jedem Pixel des Bildes im Bildpufferspeicher 161 (des Bildes, das dem Detektionsbereich entspricht, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird) entspricht (7: S701). Der Detektionsbereich, der durch die Detektionsverarbeitung S205 für dreidimensionale Gegenstände erhalten wird, enthält zusätzlich zu einem Erkennungsziel, das ein Vordergrundabschnitt ist, einen Hintergrundabschnitt. Hier wird eine fehlerhafte Erkennung bewirkt, wenn das Erkennungsziel, das der Vordergrundabschnitt ist, und der Hintergrundabschnitt gleich behandelt werden. Daher wird in der Gewichtungserzeugungsverarbeitung S701 unter Verwendung der Parallaxeninformationen die Gewichtung erzeugt. Wenn z. B. ein beliebiger Schwellenwert s_th für den Mittelwert s_avr des Parallaxenwertes s_i bestimmt wird, ist die Gewichtung auf eine derartige Weise gegeben, dass die Gewichtung für ein Pixel mit dem Parallaxenwert s_i, der den folgenden Ausdruck (3) erfüllt, 1 ist und die Gewichtung für die anderen 0 ist.
(Math. 3) $s_{a v r} - s_{t h} < s_{i} < s_{a v r} + s_{t h}$
Die Gewichtung wird z. B. verwendet, um Leuchtdichteinformationen, die aus dem Bildpufferspeicher 161 erhalten werden, zu maskieren. Die Gewichtungserzeugungs-Verarbeitungseinheit 601 kann einen Medianwert anstelle des Mittelwertes s_avr verwenden oder kann einen Wert erhalten, der von einer Parallaxenvarianz oder einer Standardabweichung im Detektionsbereich abweicht, anstatt den Schwellenwert s_th zu bestimmen. Zum Beispiel ist die Gewichtung auf eine derartige Weise gegeben, dass die Gewichtung für ein Pixel, das nicht in einem 3σ-Bereich der Standardabweichung enthalten ist, 0 ist und die Gewichtung für die anderen Pixel 1 ist. Ein Konstrukteur kann einen Maximalwert und einen Minimalwert (mit anderen Worten, einen Bereich) der Gewichtung beliebig bestimmen und eine lineare Zuweisung oder eine Zuweisung gemäß einer beliebigen Funktion in dem Bereich durchführen. Außerdem kann die Gewichtung z. B. erzeugt werden, indem unter Verwendung des Parallaxenwertes s_i im Detektionsbereich ein Histogramm erzeugt wird und entweder der Vordergrundberg oder der Hintergrundberg ausgewählt wird, die im Histogramm erzeugt werden. Zum Beispiel ist die Gewichtung auf eine derartige Weise gegeben, dass die Gewichtung für ein Pixel mit einem Parallaxenwert s_i, der dem Vordergrund entspricht, der das Erkennungsziel ist, 1 ist und die Gewichtung für die anderen Pixel 0 ist.
Es sei erwähnt, dass hier die Gewichtung, die jedem Pixel entspricht, (durch numerische Umsetzung) auf der Grundlage der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird, erzeugt wird. Jedoch ist es selbstverständlich, dass die Gewichtung, die jedem Pixel entspricht, ebenso (durch numerische Umsetzung) auf der Grundlage der Abstandsinformationen des dreidimensionalen Gegenstands erzeugt werden kann oder eine Gewichtung, die jedem Abstand oder jeder Parallaxe (die jedem Pixel entsprechen) anstatt jedem Pixel entspricht, erzeugt werden kann.
[Erkennungsverarbeitungseinheit] Die Erkennungsverarbeitungseinheit 602 führt unter Verwendung der Bildinformationen im Bildpufferspeicher 161 und der Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit 601 erzeugt werden, eine Erkennungsverarbeitung durch (7: S702). Die Erkennungsverarbeitung S702 verwendet z. B. ein Verfahren wie etwa Musterabgleich zum Vergleichen eines gewichteten Wertes für das Leuchtdichtebild im Bildpufferspeicher 161 mit einem vorgegebenen Muster unter Verwendung einer normierten Korrelation oder dergleichen oder ein Verfahren zum Durchführen einer Identifikation durch eine Kennzeichnung mit einem Produkt des Leuchtdichtebildes und der Gewichtung als einem Merkmal. Ferner kann die Erkennungsverarbeitungseinheit 602 die Parallaxeninformationen oder die Abstandsinformationen, die aus dem Parallaxenpufferspeicher 162 erhalten werden, in Übereinstimmung mit den Bildinformationen oder den Gewichtungsinformationen kombinieren und die kombinierten Informationen zur Erkennung verwenden. Zum Beispiel wird ein Verfahren des Maskierens jeweils des Leuchtdichtebildes und des Parallaxenbildes mit der Gewichtung und des anschließenden Durchführens einer Identifikation durch eine Kennzeichnung mit den zwei Arten nach dem Maskieren und einer Differenz dazwischen als Merkmale verwendet.
In einem Beispiel, bei dem ein Ziel durch Musterabgleich erkannt wird, ist die Anzahl von Musterformen, die durch eine Kombination des Vordergrunds und des Hintergrunds erzeugt werden, enorm. Daher ist es denkbar, dass das Ziel aufgrund der Kombination des Vordergrunds und des Hintergrunds fehlerhaft erkannt wird. Indem die Gewichtungsinformationen verwendet werden, die durch die oben beschriebene Gewichtungserzeugungs-Verarbeitungseinheit erhalten werden, ist es möglich, eine Verarbeitung unter Verwendung von Informationen lediglich über den erkannten Vordergrund durchzuführen, und somit gibt es eine Wirkung des Unterbindens einer fehlerhaften Erkennung. Dies ist in gleichartiger Weise wirksam beim Verbessern einer richtigen Erkennung und Verringern einer fehlerhaften Erkennung im Fall der Verwendung von maschinellem Lernen.
<Erkennungsverarbeitung für dreidimensionale Gegenstände (dritte Ausführungsform)> 8 ist ein Blockdiagramm, das eine Funktionsblockkonfiguration (dritte Ausführungsform) der Bilderkennungsvorrichtung 100 bezüglich der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. 9 ist ein Ablaufplan, der Einzelheiten (dritte Ausführungsform) der Erkennungsverarbeitung S206 für dreidimensionale Gegenstände veranschaulicht. Im vorliegenden Beispiel wird die Erkennungsverarbeitung S206 für dreidimensionale Gegenstände aus 2, die oben beschrieben ist, das heißt, der Ablaufplan, der in 9 veranschaulicht ist, durch eine Gewichtungserzeugungs-Verarbeitungseinheit 801, eine Normierungsverarbeitungseinheit 802 und eine Erkennungsverarbeitungseinheit 803 durchgeführt, die in der Arithmetikverarbeitungseinheit 105 enthalten sind, wie in 8 veranschaulicht ist.
[Gewichtungserzeugungs-Verarbeitungseinheit] Auf gleichartige Weise wie die Gewichtungserzeugungs-Verarbeitungseinheit 601, die unter Bezugnahme auf 6 und 7 beschrieben ist, erzeugt die Gewichtungserzeugungs-Verarbeitungseinheit 801 auf der Grundlage der Informationen im Parallaxenpufferspeicher 162 eine Gewichtung, die jedem Pixel des Bildes im Bildpufferspeicher 161 (des Bildes, das dem Detektionsbereich entspricht, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird) entspricht (9: S901). In der Gewichtungserzeugungsverarbeitung S901 wird die Gewichtung z. B. auf eine derartige Weise erzeugt, dass die Gewichtung für einen Wert innerhalb eines Bereichs eines beliebigen Schwellenwertes s_th von einem Medianwert der Parallaxe 1 ist und die Gewichtung für die anderen Werte 0 ist.
[Normierungsverarbeitungseinheit] Die Normierungsverarbeitungseinheit 802 führt auf der Grundlage der Gewichtung, die durch die Gewichtungserzeugungs-Verarbeitungseinheit 801 erzeugt wird, eine Normierung auf den Parallaxeninformationen durch, die dem Detektionsbereich entsprechen, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird (9: S902). In der Normierungsverarbeitung S902 sind z. B. dann, wenn eine binäre Gewichtung 0 oder 1 erhalten wird, der Maximalwert und der Minimalwert der Parallaxe, für die die Gewichtung 1 ist, s_max und s_min und jede Parallaxe wird auf der Grundlage des folgenden Ausdrucks (4) normiert.
(Math. 4) $S_{i} = \frac{s_{i}}{s_{m a x} - s_{m i n}} * (S_{m a x} - S_{m i n})$
Hier kann dann, wenn ein S_i, das S_max überschreitet und ein S_i kleiner als S_min erhalten werden, ein Wert zum Normierungsergebnis addiert werden, der derart bestimmt werden kann, dass er ein ungültiger Wert ist. Zum Beispiel wird in einem System unter der Voraussetzung des Handhabens eines endlichen positiven Wertes eine Ausnahmeverarbeitung in Betracht gezogen, in der dann, wenn ein negativer Wert eingegeben wird, der negative Wert als ein ungültiger Wert betrachtet wird.
Es sei erwähnt, dass hier die Gewichtung, die jedem Pixel entspricht, (durch numerische Umsetzung) auf der Grundlage der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich, der in der Detektionsverarbeitung S205 für dreidimensionale Gegenstände erfasst wird, erzeugt wird. Jedoch ist es selbstverständlich, dass die Gewichtung, die jedem Pixel entspricht, ebenso (durch numerische Umsetzung) auf der Grundlage der Abstandsinformationen des dreidimensionalen Gegenstands erzeugt werden kann oder eine Gewichtung, die jedem Abstand oder jeder Parallaxe (die jedem Pixel entsprechen) anstatt jedem Pixel entspricht, erzeugt werden kann. Ferner werden die Parallaxeninformationen, die dem Detektionsbereich entsprechen, numerisch umgesetzt und normiert. Jedoch ist es selbstverständlich, dass die Abstandsinformationen, die dem Detektionsbereich entsprechen, numerisch umgesetzt und normiert werden können.
[Erkennungsverarbeitungseinheit] Die Erkennungsverarbeitungseinheit 803 führt unter Verwendung der Bildinformationen im Bildpufferspeicher 161 und der Parallaxeninformationen, die durch die Normierungsverarbeitungseinheit 802 erzeugt werden (die Parallaxeninformationen nach der Normierungsverarbeitung) eine Erkennung durch (9: S903). Ferner kann.die Erkennungsverarbeitungseinheit 803 die Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit 801 erzeugt werden, in Übereinstimmung mit den Bildinformationen und den Normierungsinformationen kombinieren und die kombinierten Gewichtungsinformationen zur Erkennung verwenden. Zum Beispiel wird ein Randbild 1001, das unter Verwendung einer Randextraktion aus dem Leuchtdichtebild extrahiert wird, das in 10 veranschaulicht ist, mit den Gewichtungsinformationen 1002 multipliziert, um ein Randbild (Randbild mit entferntem Hintergrund) 1003, aus dem ein Hintergrundrand entfernt worden ist, zu erzeugen.
Die Erkennung wird unter Verwendung des Randbildes 1003 mit entferntem Hintergrund und des normierten Parallaxenbildes durchgeführt. Zum Beispiel kann eine Musterabgleichtechnologie wie etwa eine normierte Korrelation zur Erkennungsverarbeitung S903 verwendet werden. Außerdem kann eine Kennzeichnung verwendet werden, die ein Produkt von oder eine Differenz zwischen zwei Arten von Informationen als einen Eingang verwendet.
Zum Beispiel übt dann, wenn eine Kennzeichnung durch maschinelles Lernen erzeugt wird und eine Zielerkennungsverarbeitung unter Verwendung der Kennzeichnung durchgeführt wird, das Merkmal des Hintergrundabschnitts einen Einfluss aus, wenn lediglich die Normierungsverarbeitung durchgeführt wird. Außerdem wird aufgrund eines Abstands des Vordergrundabschnitts oder dergleichen ein Unterschied der Erkennungsleistung bewirkt, wenn lediglich die Gewichtungserzeugungsverarbeitung durchgeführt wird. Daher ist es durch das gemeinsame Durchführen der Gewichtungserzeugungsverarbeitung und der Normierungsverarbeitung möglich, eine Erkennung durchzuführen, ohne durch die Kombination des Vordergrunds und des Hintergrunds beeinflusst zu werden und ohne durch den Abstand des Vordergrunds beeinflusst zu werden, was zu einer Verbesserung der Erkennungsleistung führt.
Wie oben beschrieben ist, können die Parallaxeninformationen in allen Fällen durch die Abstandsinformationen ersetzt werden.
(Modifiziertes Beispiel) In der vorliegenden Ausführungsform ist die Bilderkennungsvorrichtung 100 unter Verwendung der Stereokamera, die das Paar der Kameras 101 und 102 enthält, beschrieben worden. Jedoch kann die vorliegende Erfindung unter Verwendung einer Bilderkennungsvorrichtung 100A, die keine Stereokamera verwendet, implementiert sein.
11 ist ein Ablaufplan, der einen Betrieb in der Bilderkennungsvorrichtung 100A veranschaulicht. In 11 sind dieselben Abschnitte wie jene in dem Betrieb der Bilderkennungsvorrichtung 100, der in 2 veranschaulicht ist, mit denselben Bezugszeichen bezeichnet und eine Beschreibung davon wird weggelassen.
Wie in 11 veranschaulicht ist, enthält die Bilderkennungsvorrichtung 100A eine optische Kamera (im Folgenden einfach als eine Kamera bezeichnet) 1101 als eine Bildgebungseinheit und einen Radarsensor 1102. Mit einer derartigen Konfiguration wird ein dreidimensionaler Gegenstand detektiert. In S211 wird durch die Kamera 1101 ein Bild aufgenommen und eine Bildverarbeitung S203 wie etwa eine Korrektur zum Ausgleichen einer eindeutigen Eigenschaft eines Bildgebungselements wird auf den aufgenommenen Bildinformationen durchgeführt. Ein Verarbeitungsergebnis der Bildverarbeitung S203 wird in einem Bildpufferspeicher 161 gespeichert. In S212 erhält der Radarsensor 1102 einen Abstand zu dem dreidimensionalen Gegenstand als Sensorinformationen.
In der Detektionsverarbeitung S213 für dreidimensionale Gegenstände wird der dreidimensionale Gegenstand auf einem dreidimensionalen Raum auf der Grundlage des Abstands zu dem dreidimensionalen Gegenstand detektiert. Die Abstandsinformationen, die zur Detektion verwendet werden, werden in einem Abstandspufferspeicher 163 gespeichert. Der Abstandspufferspeicher 163 ist z. B. in der Speichereinheit 106 in 1 vorgesehen. Ferner wird in der Detektionsverarbeitung S213 für dreidimensionale Gegenstände eine Zuordnung zwischen dem Bild und dem Abstand durchgeführt, da dies für die nachfolgende Verarbeitung notwendig ist. In der Erkennungsverarbeitung S214 für dreidimensionale Gegenstände wird eine Erkennungsverarbeitung des Spezifizierens einer Art des dreidimensionalen Gegenstands für einen Detektionsbereich durchgeführt, der in der Detektionsverarbeitung S213 für dreidimensionale Gegenstände auf eine im Wesentlichen gleichartige Weise wie jene der oben beschriebenen Bilderkennungsvorrichtung 100 eingestellt wird (hier werden die Abstandsinformationen des dreidimensionalen Gegenstands verwendet):
In der Detektionsverarbeitung S213 für dreidimensionale Gegenstände, in die der vom Radarsensor 1102 ausgegebene Abstand zu dem dreidimensionalen Gegenstand eingegeben wird, ist es notwendig, eine Detektionsverarbeitung unter Berücksichtigung der Sensoreigenschaft des Radarsensors 1102, der zur Abstandsmessung verwendet wird, durchzuführen, jedoch kann die Verarbeitung, nachdem der Detektionsbereich bestimmt worden ist, gleichartig wie die oben beschriebene Konfiguration unter Verwendung der Stereokamera in der Bilderkennungsvorrichtung 100 sein, die oben beschrieben ist. Ferner erfordert die Bilderkennungsvorrichtung 100A nicht mehrere Bilder in der Bildverarbeitung S203.
(Vorgänge und Wirkungen) Die oben beschriebene Bilderkennungsvorrichtung 100 oder 100A der vorliegenden Ausführungsform führt eine numerische Umsetzung der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, das durch die Kameras 101 und 102 oder die Kamera 1101 als die Bildgebungseinheit aufgenommen wird, durch und führt eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands durch, indem die Abstandsinformationen oder die Parallaxeninformationen, die der numerischen Umsetzung unterzogen worden sind, und Bildinformationen des Bildes miteinander kombiniert werden.
Insbesondere ist beim Durchführen der Erkennungsverarbeitung eine Erkennung, bei der die Pixelinformationen und die Abstandsinformationen oder die Pärallaxeninformationen kombiniert werden, implementiert durch Normieren der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands, der ein Erkennungsziel ist, (4 und 5), Maskieren der von jenen des Erkennungsziels verschiedenen Abstandsinformationen oder Parallaxeninformationen, Ändern der Gewichtung für die Pixelinformationen und die Abstandsinformationen oder die Parallaxeninformationen (6 und 7), oder Kombinieren der Pixelinformationen und der Abstandsinformationen oder der Parallaxeninformationen (8 und 9), für die Informationen von jedem Pixel, die von den Kameras 101 und 102 oder der Kamera 1101 erhalten werden, und die Informationen über den Abstand oder die Parallaxe, die diesem entsprechen.
Gemäß der oben beschriebenen Ausführungsform können die folgenden Vorgänge und Wirkungen erhalten werden.
Das heißt, die Bilderkennungsvörrichtung 100 oder 100A der vorliegenden Ausführungsform kann einen Anteil der richtigen Erkennung in Bezug auf die Detektionsbereiche 301 und 302 des dreidimensionalen Gegenstands, die auf den Bildern eingestellt werden, die durch die Kameras 101 und 102 oder die Kamera 1101 aufgenommen werden, verbessern. Außerdem ist es möglich, eine fehlerhafte Erkennung anderer dreidimensionaler Hintergrundgegenstände als die zu erkennenden Gegenstände wie etwa Fußgänger und Fahrzeuge zu unterbinden. Insbesondere gibt es eine Wirkung des Unterbindens einer fehlerhaften Erkennung des Ziels aufgrund einer Form (Erscheinung auf dem Bild), die dem Erkennungsziel ähnlich ist, die durch eine Kombination des Vordergrunds und des Hintergrunds bewirkt wird. Daher ist es gemäß der vorliegenden Ausführungsform möglich, den dreidimensionalen Gegenstand genau zu detektieren und die Erkennungsleistung zu verbessern, während eine Kostenerhöhung unterbunden wird.
Es sei erwähnt, das in der oben beschriebenen Ausführungsform eine Stereokamera, die zwei Kameras enthält, oder eine monokulare Kamera verwendet wird, jedoch können drei oder mehr Kameras verwendet werden. Außerdem ist selbstverständlich, dass eine rückwärtige Kamera oder eine Seitenkamera, die einen Bereich hinter dem Fahrzeug oder einen Bereich auf der Seite des Fahrzeugs abbildet, verwendet werden können, obwohl eine vordere Kamera, die einen Bereich vor dem Fahrzeug abbildet (mit anderen Worten, eine vordere Kamera, die ein Bild eines Bereichs vor dem Fahrzeug erfasst) beispielhaft beschrieben worden ist.
Die vorliegende Erfindung ist nicht auf die oben beschriebenen Ausführungsformen eingeschränkt und andere Formen, die innerhalb des Umfangs der technischen Idee der vorliegenden Erfindung denkbar sind, fallen eberifalls in den Umfang der vorliegenden Erfindung, solange die Merkmale der vorliegenden Erfindung nicht beeinträchtigt werden. Zum Beispiel sind die oben beschriebenen Ausführungsformen im Einzelnen beschrieben worden, um die vorliegende Erfindung auf eine einfach zu verstehende Weise zu erklären, und die vorliegende Erfindung ist nicht notwendigerweise auf jene eingeschränkt, die alle beschriebenen Konfigurationen aufweisen. Außerdem kann eine Konfiguration eingesetzt werden, bei der die oben beschriebenen Ausführungsformen und modifizierte Beispiele kombiniert sind.
Außerdem können einige oder alle der oben beschriebenen Konfigurationen, Funktionen, Verarbeitungseinheiten, Verarbeitungsmittel und dergleichen durch Hardware wie z. B. durch das Entwerfen mit einer integrierten Schaltung implementiert sein. Außerdem kann jede der oben beschriebenen Konfigurationen, Funktionen und dergleichen durch Software auf eine Weise implementiert sein, wobei ein Prozessor ein Programm zum Implementieren jeder Funktion interpretiert und ausführt. Informationen wie etwa ein Programm, eine Tabelle und eine Datei zum Implementieren jeder Funktion können in einer Speichervorrichtung wie etwa einem Datenspeicher, einer Festplatte oder einem Festkörperlaufwerk (SSD) oder in einem Aufzeichnungsmedium wie etwa einer IC-Karte, einer SD-Karte oder einer DVD gespeichert sein.
Außerdem geben die Steuerleitungen und Informationsleitungen jene an, die als für die Erklärung notwendig erachtet werden, und geben nicht notwendigerweise alle Steuerleitungen und Informationsleitungen in dem Erzeugnis an. In der Praxis kann erwogen werden, dass nahezu alle Konfigurationen gekoppelt sind.
Bezugszeichenliste

100, 100A: Bilderkennungsvorrichtung
101, 102: Kamera (Bildgebungseinheit)
103: Bildeingangsschnittstelle
104: Bildverarbeitungseinheit
105: Arithmetikverarbeitungseinheit
106: Speichereinheit
107: CAN-Schnittstelle
108: Steuerungsverarbeitungseinheit
109: interner Bus
110: Verarbeitungsvorrichtung
111: CAN-Fahrzeugnetz
161: Bildpufferspeicher
162: Parallaxenpufferspeicher
163: Abstandspufferspeicher
401: Normierungsverarbeitungseinheit (erste Ausführungsform)
402: Erkennungsverarbeitungseinheit (erste Ausführungsform)
601: Gewichtungserzeugungs-Verarbeitungseinheit (zweite Ausführungsform)
602: Erkennungsverarbeitungseinheit (zweite Ausführungsform)
801: Gewichtungserzeugungs-Verarbeitungseinheit (dritte Ausführungsform)
802: Normierungsverarbeitungseinheit (dritte Ausführungsform)
803: Erkennungsverarbeitungseinheit (dritte Ausführungsform)
1101: optische Kamera (Bildgebungseinheit)
1102: Radarsensor

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017142760 A [0004]
JP 2019028528 A [0004]

Claims

Bilderkennungsvorrichtung, die einen dreidimensionalen Gegenstand auf einem Bild erkennt, das durch eine Bildgebungseinheit aufgenommen wird, wobei die Bilderkennungsvorrichtung eine numerische Umsetzung von Abstandsinformationen oder Parallaxeninformationen des dreidimensionalen Gegenstands für einen Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, durchführt und eine Erkennungsverarbeitung des Spezifizierens einer Art des dreidimensionalen Gegenstands durch Kombinieren der Abstandsinformationen oder der Parallaxeninformationen, die der numerischen Umsetzung unterzogen worden sind, und von Bildinformationen des Bildes miteinander durchführt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bilderkennungsvorrichtung Folgendes umfasst: eine Normierungsverarbeitungseinheit, die auf der Grundlage einer beliebigen Regel für den Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, eine numerische Umsetzung und Normierung der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands durchführt; und eine Erkennungsverarbeitungseinheit, die eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands unter Verwendung der Abstandsinformationen oder der Parallaxeninformationen, die der numerischen Umsetzung durch die Normierungsverarbeitungseinheit unterzogen worden sind, und der Bildinformationen des Bildes durchführt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bilderkennungsvorrichtung Folgendes umfasst: eine Gewichtungserzeugungs-Verarbeitungseinheit, die auf der Grundlage der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, eine Gewichtung erzeugt, die jedem Pixel, jedem Abstand oder jeder Parallaxe entspricht; und eine Erkennungsverarbeitungseinheit, die eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands unter Verwendung der Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit erzeugt werden, und der Bildinformationen des Bildes durchführt.
Bilderkennungsvorrichtung nach Anspruch 3, wobei die Erkennungsverarbeitungseinheit eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands unter Verwendung der Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit erzeugt werden, der Bildinformationen des Bildes und der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands durchführt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bilderkennungsvorrichtung Folgendes umfasst: eine Gewichtungserzeugungs-Verarbeitungseinheit, die auf der Grundlage der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, eine Gewichtung erzeugt, die jedem Pixel, jedem Abstand oder jeder Parallaxe entspricht; eine Normierungsverarbeitungseinheit, die auf der Grundlage der Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit erhalten werden, eine numerische Umsetzung und Normierung der Abstandsinformationen oder der Parallaxeninformationen des dreidimensionalen Gegenstands für den Detektionsbereich des dreidimensionalen Gegenstands, der auf dem Bild eingestellt wird, durchführt; und eine Erkennungsverarbeitungseinheit, die eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands unter Verwendung der Abstandsinformationen oder der Parallaxeninformationen, die der numerischen Umsetzung durch die Normierungsverarbeitungseinheit unterzogen worden sind, und der Bildinformationen des Bildes durchführt.
Bilderkennungsvorrichtung nach Anspruch 5, wobei die Erkennungsverarbeitungseinheit eine Erkennungsverarbeitung des Spezifizierens der Art des dreidimensionalen Gegenstands unter Verwendung der Abstandsinformationen oder der Parallaxeninformationen, die der numerischen Umsetzung durch die Normierungsverarbeitungseinheit unterzogen worden sind, der Gewichtungsinformationen, die durch die Gewichtungserzeugungs-Verarbeitungseinheit erzeugt werden, und der Bildinformationen des Bildes durchführt.