DE112021003849T5

DE112021003849T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungssystem, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm

Info

Publication number: DE112021003849T5
Application number: DE112021003849.4T
Authority: DE
Inventors: Suguru Aoki; Ryuta SATOH; Keitaro Yamamoto
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-07-20
Filing date: 2021-06-22
Publication date: 2023-05-25
Also published as: JPWO2022019026A1; US20230269498A1; WO2022019026A1

Abstract

Ein Aspekt der vorliegenden Offenbarung stellt eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungssystem, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungsprogramm bereit, die es ermöglichen, eine Verringerung der Erkennungsrate des Erkennungsprozesses zu unterdrücken, selbst wenn eine nichtlineare Verzerrung in Abhängigkeit von der Lichtstromverteilung eines Optiksystems in einem Bild auftritt.[Lösung]Diese Informationsverarbeitungsvorrichtung ist mit Folgendem versehen: einem Leseteil, der Lesepixel als einen Teil eines Pixelbereichs festlegt, in dem eine Vielzahl von Pixeln zweidimensional angeordnet sind, und der das Lesen von Pixelsignalen aus den in dem Pixelbereich enthaltenen Pixeln steuert, und einem Korrekturteil, der Einheiten des Lesens auf der Grundlage eines Linsenverzerrungsparameters korrigiert und den Leseteil veranlasst, die Pixelsignale zu lesen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung bezieht sich auf eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungssystem, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungsprogramm.
STAND DER TECHNIK
In den letzten Jahren sind mit zunehmender Funktionalität von Abbildungsvorrichtungen wie digitalen Standbildkameras, digitalen Videokameras und kleinen Kameras, die auf multifunktionalen Mobiltelefonen (Smartphones) und dergleichen montiert sind, Informationsverarbeitungsvorrichtungen mit einer Bilderkennungsfunktion zur Erkennung eines vorbestimmten Objekts in einem aufgenommenen Bild entwickelt worden.
Nichtlineare Verzerrungen, die von der Lichtstromverteilung eines Optiksystems der Abbildungsvorrichtung abhängen, treten jedoch in den durch das Optiksystem aufgenommenen Bilddaten auf. Die Erkennungsverarbeitung von Bilddaten mit solchen Verzerrungen kann zu einer Verringerung der Erkennungsrate führen.
LISTE DER ANFÜHRUNGEN
PATENTDOKUMENT
Patentdokument 1: Japanische Patentanmeldungs-Offenlegungsnummer 2017- 112409
ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Ein Aspekt der vorliegenden Offenbarung stellt eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungssystem, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungsprogramm bereit, die in der Lage sind, eine Verringerung der Erkennungsrate der Erkennungsverarbeitung selbst dann zu verhindern, wenn in einem Bild eine nichtlineare Verzerrung in Abhängigkeit von einer Lichtstromverteilung eines Optiksystems auftritt.
LÖSUNGEN DER PROBLEME
Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit, die Folgendes aufweist:

eine Leseeinrichtung, die dazu ausgebildet ist, dass sie als eine Leseeinheit einen Teil eines Pixelbereichs festlegt, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.

Die Korrektureinheit kann die Leseeinheit korrigieren, indem sie eine inverse Transformation der Verzerrungskorrektur auf die Leseeinheit auf der Grundlage des Linsenverzerrungsparameters anwendet.
Eine Merkmalsberechnungseinheit, die dazu ausgebildet ist, dass sie ein Merkmal auf der Grundlage des Pixelsignals berechnet, das auf der Grundlage des Linsenverzerrungsparameters korrigiert und ausgelesen wurde, kann ebenfalls vorgesehen sein.
Eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des Merkmals durchführt, kann ebenfalls vorgesehen werden.
Die Korrektureinheit kann eine Koordinatenposition berechnen, die durch Korrektur einer linearen Koordinatenfolge auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung kann das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition steuern.
Die Korrektureinheit kann eine Koordinatenposition berechnen, die durch Korrektur einer Unterabtastungskoordinatengruppe auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung kann das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition steuern.
Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit, die Folgendes aufweist:

eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.

Eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des korrigierten Pixelsignals durchführt, kann ebenfalls vorgesehen werden.
Die Erkennungsverarbeitungseinheit kann ein Punktnetz-Erkennungsprogramm aufweisen.
Die zweite Korrektureinheit kann das korrigierte Pixelsignal, das einem Bereich entspricht, der jeder Zeile des von der Leseeinrichtung gelesenen Pixelsignals entspricht, an die Erkennungsverarbeitungs-Ausführungseinheit liefern.
Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung eine Informationsverarbeitungsvorrichtung bereit, die Folgendes aufweist:

eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen enthält, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt, wobei
die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchführt.

Die Erkennungsverarbeitungseinheit kann eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms durchführen, das einem Optiksystem entspricht, das zur Abbildung des Pixelsignals verwendet wird.
Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung ein Informationsverarbeitungssystem bereit, das Folgendes aufweist:

eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
eine Erkennungsverarbeitungseinheit, wobei
die Erkennungsverarbeitungseinheit Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs der Sensoreinheit als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.

Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung ein Informationsverarbeitungssystem bereit, das Folgendes aufweist:

eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
eine Erkennungsverarbeitungseinheit, wobei
die Erkennungsverarbeitungseinheit Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.

eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
eine Erkennungsverarbeitungseinheit, wobei
die Erkennungsverarbeitungseinheit Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen aufweist, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt.

Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung ein Informationsverarbeitungsverfahren bereit, das Folgendes aufweist:

einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als eine Leseeinheit eingestellt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
einen Korrekturprozess zum Korrigieren der Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters und zum Veranlassen der Leseeinrichtung, das Pixelsignal zu lesen.

einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
einen zweiten Korrekturprozess zum Korrigieren von Koordinaten des Pixelsignals von dem im Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters.

einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
einen Erkennungsverarbeitungs-Ausführungsprozess des Durchführens einer Erkennungsverarbeitung auf der Basis des gelesenen Pixelsignals mit einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei
im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.

Um die oben beschriebenen Probleme zu lösen, stellt ein Aspekt der vorliegenden Offenbarung ein Programm zur Verfügung, das einen Computer veranlasst, Folgendes auszuführen:

einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
einen Erkennungsverarbeitungs-Ausführungsprozess des Durchführens einer Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals unter Verwendung einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei
im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.

Figurenliste

1 ist ein Blockdiagramm, das die Konfiguration eines Beispiels einer Abbildungsvorrichtung zeigt, die für jede Ausführungsform der vorliegenden Offenbarung anwendbar ist.
2A ist ein schematisches Diagramm, das ein Beispiel für eine Hardwarekonfiguration der Abbildungsvorrichtung gemäß jeder Ausführungsform zeigt.
2B ist ein schematisches Diagramm, das ein Beispiel für die Hardwarekonfiguration der Abbildungsvorrichtung gemäß jeder Ausführungsform zeigt.
3A ist ein Diagramm, das ein Beispiel zeigt, in dem die Abbildungsvorrichtung gemäß jeder Ausführungsform durch ein gestapeltes CIS mit einer zweischichtigen Struktur gebildet wird.
3B ist ein Diagramm, das ein Beispiel zeigt, in dem die Abbildungsvorrichtung gemäß jeder Ausführungsform durch ein gestapeltes CIS mit einer dreischichtigen Struktur gebildet wird.
4 ist ein Blockdiagramm, das die Konfiguration eines Beispiels einer Sensoreinheit zeigt, die für jede Ausführungsform gilt.
5A ist eine schematische Darstellung zur Beschreibung eines Rolling-Shutter-Verfahrens.
5B ist ein schematisches Diagramm zur Beschreibung des Rolling-Shutter-Verfahrens.
5C ist eine schematische Darstellung zur Beschreibung des Rolling-Shutter-Verfahrens.
6A ist ein schematisches Diagramm zur Beschreibung von Zeilensprung beim Rolling-Shutter-Verfahren.
6B ist ein schematisches Diagramm zur Beschreibung von Line-Skipping beim Rolling-Shutter-Verfahren.
6C ist ein schematisches Diagramm zur Beschreibung von Line-Skipping beim Rolling-Shutter-Verfahren.
7A ist ein Diagramm, das schematisch ein Beispiel für ein anderes Abbildungsverfahren im Rahmen des Rolling-Shutter-Verfahrens zeigt.
7B ist ein Diagramm, das schematisch ein Beispiel für ein anderes Abbildungsverfahren im Rahmen des Rolling-Shutter-Verfahrens zeigt.
8A ist ein schematisches Diagramm zur Beschreibung eines Global-Shutter-Verfahrens.
8B ist ein schematisches Diagramm zur Beschreibung des Global-Shutter-Verfahrens.
8C ist ein schematisches Diagramm zur Beschreibung des Global-Shutter-Verfahrens.
9A ist ein Diagramm, das schematisch ein Beispiel für ein Abtastmuster darstellt, das mit dem Global-Shutter-Verfahren gebildet werden kann.
9B ist ein Diagramm, das schematisch ein Beispiel für ein Abtastmuster darstellt, das mit dem Global-Shutter-Verfahren gebildet werden kann.
10 ist ein Diagramm, das schematisch die Bilderkennungsverarbeitung mit einem CNN zeigt.
11 ist ein Diagramm, das schematisch die Bilderkennungsverarbeitung zur Gewinnung eines Erkennungsergebnisses aus einem Teil eines Erkennungszielbildes darstellt.
12A ist ein Diagramm, das schematisch ein Beispiel für die Identifikationsverarbeitung unter Verwendung eines DNN in einem Fall zeigt, in dem keine Zeitreiheninformationen verwendet werden.
12B ist ein Diagramm, das schematisch ein Beispiel für die Identifizierungsverarbeitung unter Verwendung eines DNN in einem Fall zeigt, in dem keine Zeitreiheninformationen verwendet werden.
13A ist ein Diagramm, das schematisch ein erstes Beispiel für die Identifizierungsverarbeitung unter Verwendung eines DNN in einem Fall darstellt, in dem Zeitreiheninformationen verwendet werden.
13B ist ein Diagramm, das schematisch das erste Beispiel der Identifikationsverarbeitung unter Verwendung eines DNN in einem Fall darstellt, in dem Zeitreiheninformationen verwendet werden.
14A ist ein Diagramm, das schematisch ein zweites Beispiel für die Identifizierungsverarbeitung unter Verwendung eines DNN in einem Fall darstellt, in dem Zeitreiheninformationen verwendet werden.
14B ist ein Diagramm, das schematisch das zweite Beispiel der Identifizierungsverarbeitung unter Verwendung eines DNN in einem Fall darstellt, in dem Zeitreiheninformationen verwendet werden.
15A ist ein Diagramm zur Beschreibung einer Beziehung zwischen der Ansteuerungsgeschwindigkeit eines Rahmens und dem Lesebetrag eines Pixelsignals.
15B ist ein Diagramm zur Beschreibung einer Beziehung zwischen der Ansteuerungsgeschwindigkeit eines Rahmens und dem Lesebetrag eines Pixelsignals.
16 ist ein schematisches Diagramm zur schematischen Beschreibung einer Erkennungsverarbeitung gemäß jeder Ausführungsform der vorliegenden Offenbarung.
17 ist ein Diagramm, das ein Problem bei der Erkennungsverarbeitung in einem Fall der Ausgabe eines Pixelsignals darstellt.
18 ist ein Funktionsblockdiagramm eines Beispiels zur Beschreibung einer Funktion einer Sensorsteuereinheit und einer Funktion einer Erkennungsverarbeitungseinheit.
19 ist ein Diagramm, das einen Verarbeitungsablauf gemäß der vorliegenden Ausführungsform zeigt.
20 ist ein Diagramm zur Beschreibung eines Verarbeitungsbeispiels einer ersten Linsenverzerrungs-Inverskorrektureinheit.
21 ist ein Diagramm, das schematisch ein Verarbeitungsbeispiel der ersten Linsenverzerrungs-Inverskorrektureinheit für den Fall darstellt, dass Daten gelesen werden, die Einzeilendaten entsprechen.
22 ist ein Diagramm, das ein Beispiel für die Ersetzung durch Lesen der Binning-Steuerung zeigt.
23A ist ein Diagramm, das ein Beispiel zeigt, bei dem Pixel in einer Gitterstruktur, wie in 9B dargestellt, unterabgetastet werden.
23B ist ein Diagramm, das ein Beispiel zeigt, in dem Pixel in einer Gitterstruktur unterabgetastet werden.
24 ist ein Flussdiagramm, das den Verarbeitungsablauf einer Leseeinrichtung zeigt.
25 ist ein Diagramm, das konzeptionell ein Problem bei der normalen Korrekturverarbeitung veranschaulicht.
26 ist ein Funktionsblockdiagramm eines Beispiels zur Beschreibung einer Funktion einer Sensorsteuereinheit und einer Funktion einer Erkennungsverarbeitungseinheit gemäß einer zweiten Ausführungsform.
27 ist ein Diagramm, das schematisch ein Punktnetz-Erkennungsprogramm darstellt.
28 ist ein Diagramm, das einen Verarbeitungsablauf gemäß der zweiten Ausführungsform zeigt.
29 ist ein Flussdiagramm, das einen Verarbeitungsablauf einer Erkennungsverarbeitungseinheit darstellt.
30 ist ein Diagramm, das konventionelle Daten zeigt, die in Übereinstimmung mit dem im oberen Teil von 19 dargestellten Verarbeitungsablauf verarbeitet werden.
31 ist ein Diagramm, das die Verarbeitung von Daten zur Verwendung in einem Informationsverarbeitungssystem gemäß einer dritten Ausführungsform zeigt.
32 ist ein Diagramm, das ein Beispiel für einen Verarbeitungsablauf gemäß einer vierten Ausführungsform zeigt.
33 ist ein Diagramm, das ein weiteres Beispiel für den Verarbeitungsablauf gemäß der vierten Ausführungsform zeigt.
34 ist ein Diagramm, das Beispiele für die Verwendung der Informationsverarbeitungsvorrichtung gemäß der ersten bis vierten Ausführungsform zeigt.
35 ist ein Blockdiagramm, das ein Beispiel einer schematischen Konfiguration eines Fahrzeugsteuerungssystems darstellt.
36 ist ein erläuterndes Diagramm, das ein Beispiel für die Einbauposition einer Fahrzeugaußenseiten-Informationserfassungseinheit und einer Abbildungseinheit zeigt.

MODUS ZUM AUSFÜHREN DER ERFINDUNG
Im Folgenden werden Ausführungsformen einer Informationsverarbeitungsvorrichtung, eines Informationsverarbeitungssystems, eines Informationsverarbeitungsverfahrens und eines Informationsverarbeitungsprogramms unter Bezugnahme auf die Zeichnungen beschrieben. Im Folgenden werden hauptsächlich die Hauptkomponenten der Informationsverarbeitungsvorrichtung, des Informationsverarbeitungssystems, des Informationsverarbeitungsverfahrens und des Informationsverarbeitungsprogramms beschrieben, aber die Informationsverarbeitungsvorrichtung, das Informationsverarbeitungssystem, das Informationsverarbeitungsverfahren und das Informationsverarbeitungsprogramm können Komponenten oder Funktionen aufweisen, die nicht dargestellt oder beschrieben sind. Die folgende Beschreibung soll nicht dazu dienen, solche Komponenten oder Funktionen auszuschließen, die nicht abgebildet oder beschrieben sind.
[1. Konfigurationsbeispiel gemäß jeder Ausführungsform der vorliegenden Offenbarung]
Ein Beispiel für die Gesamtkonfiguration eines Informationsverarbeitungssystems gemäß den einzelnen Ausführungsformen wird schematisch beschrieben. 1 ist ein Blockdiagramm, das die Konfiguration eines Beispiels eines Informationsverarbeitungssystems 1 zeigt. In 1 weist das Informationsverarbeitungssystem 1 eine Sensoreinheit 10, eine Sensorsteuereinheit 11, eine Erkennungsverarbeitungseinheit 12, einen Speicher 13, eine visuelle Erkennungsverarbeitungseinheit 14 und eine Ausgabesteuereinheit 15 auf. Jede der oben beschriebenen Einheiten ist zum Beispiel ein komplementärer Metalloxid-Halbleiter (CMOS)-Bildsensor (CIS), der mit einem CMOS integriert ist. Das Informationsverarbeitungssystem 1 ist nicht auf dieses Beispiel beschränkt und kann auch ein optischer Sensor eines anderen Typs sein, z. B. ein optischer Infrarotsensor, der ein Bild mit Infrarotlicht aufnimmt. Außerdem bilden die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die visuelle Erkennungsverarbeitungseinheit 14 und die Ausgabesteuereinheit 15 eine Informationsverarbeitungsvorrichtung 2.
Die Sensoreinheit 10 gibt ein Pixelsignal in Übereinstimmung mit dem Licht aus, das durch ein Optiksystem einer Optikeinheit 30 auf eine Lichtempfangsfläche auftrifft. Genauer gesagt weist die Sensoreinheit 10 eine Pixelmatrix auf, in der die Pixel mit jeweils mindestens einem photoelektrischen Wandlerelement in einer Matrix angeordnet sind. Die Lichtempfangsfläche wird von jedem Pixel gebildet, das in einer Matrix in der Pixelmatrix angeordnet ist. Die Sensoreinheit 10 weist ferner eine Ansteuerungsschaltung auf, die jedes in der Pixelmatrix enthaltene Pixel ansteuert, und eine Signalverarbeitungsschaltung, die eine vorbestimmte Signalverarbeitung an einem von jedem Pixel gelesenen Signal durchführt und das Signal als ein Pixelsignal jedes Pixels ausgibt. Die Sensoreinheit 10 gibt das Pixelsignal jedes in einem Pixelbereich enthaltenen Pixels als digitale Bilddaten aus.
Im Folgenden wird in der Pixelmatrix der Sensoreinheit 10 ein Bereich, in dem aktive Pixel, die jeweils das Pixelsignal erzeugen, angeordnet sind, als Rahmen bezeichnet. Die Bilddaten des Rahmens werden aus Pixeldaten gebildet, die auf dem Pixelsignal basieren, das von jedem im Rahmen enthaltenen Pixel ausgegeben wird. Darüber hinaus wird jede Reihe des Arrays von Pixeln der Sensoreinheit 10 als Zeile bezeichnet, und Zeilenbilddaten werden durch Pixeldaten auf der Grundlage des Pixelsignals gebildet, das von jedem in der Zeile enthaltenen Pixel ausgegeben wird. Darüber hinaus wird ein Vorgang, bei dem die Sensoreinheit 10 das Pixelsignal entsprechend dem auf die Lichtempfangsfläche auftreffenden Licht ausgibt, als Abbildung bezeichnet. Die Sensoreinheit 10 steuert die Belichtung zum Zeitpunkt der Aufnahme und die Verstärkung (analoge Verstärkung) des Pixelsignals in Übereinstimmung mit einem Abbildungssteuersignal, das von der Sensorsteuereinheit 11 geliefert wird, die später beschrieben wird.
Die Sensorsteuereinheit 11 weist beispielsweise einen Mikroprozessor auf, steuert das Auslesen der Pixeldaten aus der Sensoreinheit 10 und gibt die Pixeldaten auf der Grundlage des Pixelsignals aus, das von jedem im Rahmen enthaltenen Pixel gelesen wird. Die von der Sensorsteuereinheit 11 ausgegebenen Pixeldaten werden an die Erkennungsverarbeitungseinheit 12 und die visuelle Erkennungsverarbeitungseinheit 14 weitergeleitet.
Darüber hinaus erzeugt die Sensorsteuereinheit 11 das Abbildungssteuersignal zur Steuerung der Abbildung in der Sensoreinheit 10. Die Sensorsteuereinheit 11 erzeugt das Abbildungssteuersignal z. B. gemäß den Anweisungen der Erkennungsverarbeitungseinheit 12 und der visuellen Erkennungsverarbeitungseinheit 14, die später beschrieben werden. Das Abbildungssteuersignal enthält Informationen, die die Belichtung und die analoge Verstärkung zum Zeitpunkt der Bildaufnahme in der oben beschriebenen Sensoreinheit 10 angeben. Das Abbildungssteuersignal enthält außerdem ein Steuersignal (ein vertikales Synchronisationssignal, ein horizontales Synchronisationssignal oder dergleichen), das von der Sensoreinheit 10 zur Durchführung eines Abbildungsvorgangs verwendet wird. Die Sensorsteuereinheit 11 liefert das so erzeugte Abbildungssteuersignal an die Sensoreinheit 10.
Die Optikeinheit 30 ist dazu ausgebildet, dass sie Licht von einem Objekt auf die Lichtempfangsfläche der Sensoreinheit 10 auftreffen lässt, und ist beispielsweise an einer der Sensoreinheit 10 entsprechenden Position angeordnet. Die Optikeinheit 30 weist beispielsweise eine Vielzahl von Linsen, einen Blendenmechanismus, der dazu ausgebildet ist, dass er die Größe einer Öffnung in Bezug auf das einfallende Licht einstellt, und einen Fokusmechanismus auf, der dazu ausgebildet ist, dass er den Brennpunkt des Lichts einstellt, das auf die Lichtempfangsfläche auftrifft. Die Optikeinheit 30 kann außerdem einen Verschlussmechanismus (mechanischer Verschluss) aufweisen, der die Zeit einstellt, in der Licht auf die Lichtempfangsfläche fällt. Der Blendenmechanismus, der Fokusmechanismus und der Verschlussmechanismus, die in der Optikeinheit 30 enthalten sind, können z. B. von der Sensorsteuereinheit 11 gesteuert werden. Alternativ dazu können die Blende und der Fokus in der Optikeinheit 30 von außerhalb des Informationsverarbeitungssystems 1 gesteuert werden. Außerdem kann die Optikeinheit 30 in das Informationsverarbeitungssystem 1 integriert werden.
Die Erkennungsverarbeitungseinheit 12 führt auf der Grundlage der von der Sensorsteuereinheit 11 gelieferten Pixeldaten eine Verarbeitung zur Erkennung eines in dem Bild enthaltenen Objekts auf der Basis der Pixeldaten durch. In der vorliegenden Offenbarung wird beispielsweise die Erkennungsverarbeitungseinheit 12, die als Einheit für maschinelles Lernen dient, die die Erkennungsverarbeitung unter Verwendung eines tiefen neuronalen Netzwerks (DNN) durchführt, durch einen digitalen Signalprozessor (DSP) implementiert, der ein Programm lädt und ausführt, das einem Lernmodell entspricht, das im Voraus unter Verwendung von Trainingsdaten gelernt und im Speicher 13 gespeichert wurde. Die Erkennungsverarbeitungseinheit 12 kann die Sensorsteuereinheit 11 anweisen, die für die Erkennungsverarbeitung erforderlichen Pixeldaten aus der Sensoreinheit 10 zu lesen. Ein Erkennungsergebnis der Erkennungsverarbeitungseinheit 12 wird an die Ausgabesteuereinheit 15 übermittelt.
Die visuelle Erkennungsverarbeitungseinheit (14) verarbeitet ein von der Sensorsteuereinheit (11) geliefertes Bild, das für den Menschen leicht zu erkennen ist, und gibt Bilddaten aus, die z. B. eine Gruppe von Pixeldaten enthalten. Die visuelle Erkennungsverarbeitungseinheit 14 wird beispielsweise durch einen Bildsignalprozessor (ISP) realisiert, der ein in einem Speicher (nicht abgebildet) vorgespeichertes Programm lädt und ausführt.
Wenn beispielsweise für jedes Pixel in der Sensoreinheit 10 ein Farbfilter vorgesehen ist und die Pixeldaten Farbinformationen über Rot (R), Grün (G) und Blau (B) enthalten, kann die visuelle Erkennungsverarbeitungseinheit (14) eine Demosaicing-Verarbeitung, eine Weißabgleich-Verarbeitung und dergleichen durchführen. Darüber hinaus kann die visuelle Erkennungsverarbeitungseinheit 14 die Sensorsteuereinheit 11 anweisen, die für die visuelle Erkennungsverarbeitung erforderlichen Pixeldaten aus der Sensoreinheit 10 zu lesen. Die Bilddaten, die durch die Durchführung der Bildverarbeitung an den Pixeldaten durch die visuelle Erkennungsverarbeitungseinheit (14) erhalten werden, werden an die Ausgabesteuereinheit (15) weitergeleitet.
Die Ausgabesteuereinheit 15 weist beispielsweise einen Mikroprozessor auf und gibt entweder das von der Erkennungsverarbeitungseinheit 12 gelieferte Erkennungsergebnis oder die als visuelles Erkennungsverarbeitungsergebnis von der visuellen Erkennungsverarbeitungseinheit 14 gelieferten Bilddaten nach außen hin an das Informationsverarbeitungssystem 1 aus. Die Ausgabesteuereinheit 15 kann die Bilddaten z. B. an eine Anzeigeeinheit 31 mit einem Anzeigegerät ausgeben. Dies ermöglicht dem Benutzer, die von der Anzeigeeinheit 31 angezeigten Bilddaten visuell zu erkennen. Es ist zu beachten, dass die Anzeigeeinheit 31 in das Informationsverarbeitungssystem 1 eingebaut oder vom Informationsverarbeitungssystem 1 getrennt sein kann.
2A und 2B sind schematische Darstellungen, die jeweils ein Beispiel für eine Hardwarekonfiguration des Informationsverarbeitungssystems 1 gemäß der jeweiligen Ausführungsform zeigen. 2A zeigt ein Beispiel, bei dem die Sensoreinheit 10, die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die visuelle Erkennungsverarbeitungseinheit 14 und die Ausgabesteuereinheit 15 unter den in 1 dargestellten Komponenten auf einem einzigen Chip 2 untergebracht sind. In 2A sind der Einfachheit halber weder der Speicher 13 noch die Ausgabesteuereinheit 15 dargestellt.
Bei der in 2A dargestellten Konfiguration wird das Erkennungsergebnis der Erkennungsverarbeitungseinheit 12 über die Ausgabesteuereinheit 15 (nicht dargestellt) nach außerhalb des Chips 2 ausgegeben. Darüber hinaus kann die Erkennungsverarbeitungseinheit 12 bei der in 2A dargestellten Konfiguration über eine Schnittstelle innerhalb des Chips 2 von der Sensorsteuereinheit 11 Pixeldaten für die Erkennung erhalten.
2B zeigt ein Beispiel, bei dem die Sensoreinheit 10, die Sensorsteuereinheit 11, die visuelle Erkennungsverarbeitungseinheit 14 und die Ausgabesteuereinheit 15 unter den in 1 dargestellten Komponenten auf dem einzelnen Chip 2 montiert sind und die Erkennungsverarbeitungseinheit 12 und der Speicher 13 (nicht dargestellt) außerhalb des Chips 2 installiert sind. Auch in 2B ist, wie in der oben beschriebenen 2A, der Einfachheit halber weder der Speicher 13 noch die Ausgabesteuereinheit 15 dargestellt.
Bei der in 2B dargestellten Konfiguration erfasst die Erkennungsverarbeitungseinheit 12 die für die Erkennung zu verwendenden Pixeldaten über eine Schnittstelle, die für die Durchführung der Chip-zu-Chip-Kommunikation zuständig ist. Außerdem wird in 2B das Erkennungsergebnis direkt von der Erkennungsverarbeitungseinheit 12 nach außen ausgegeben, aber die Art der Ausgabe des Erkennungsergebnisses ist nicht auf dieses Beispiel beschränkt. Das heißt, bei der in 2B dargestellten Konfiguration kann die Erkennungsverarbeitungseinheit 12 das Erkennungsergebnis an den Chip 2 zurücksenden, um die auf dem Chip 2 angebrachte Ausgabesteuereinheit 15 (nicht dargestellt) zu veranlassen, das Erkennungsergebnis auszugeben.
Bei der in 2A dargestellten Konfiguration ist die Erkennungsverarbeitungseinheit 12 zusammen mit der Sensorsteuereinheit 11 auf dem Chip 2 montiert, so dass eine Hochgeschwindigkeitskommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 über eine Schnittstelle innerhalb des Chips 2 möglich ist. Andererseits kann bei der in 2A dargestellten Konfiguration die Erkennungsverarbeitungseinheit 12 nicht ausgetauscht werden, so dass es schwierig ist, die Erkennungsverarbeitung zu ändern. Andererseits muss bei der in 2B dargestellten Konfiguration, da die Erkennungsverarbeitungseinheit 12 außerhalb des Chips 2 angeordnet ist, die Kommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 über eine Schnittstelle zwischen den Chips erfolgen. Dadurch wird die Kommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 im Vergleich zu der in 2A dargestellten Konfiguration langsam, und es besteht die Möglichkeit, dass eine Verzögerung bei der Steuerung auftritt. Andererseits kann die Erkennungseinheit 12 leicht ausgetauscht werden, so dass verschiedene Arten der Erkennungsverarbeitung implementiert werden können.
Im Folgenden wird, sofern nicht anders angegeben, davon ausgegangen, dass das Informationsverarbeitungssystem 1 eine Konfiguration aufweist, bei der die Sensoreinheit 10, die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die visuelle Erkennungsverarbeitungseinheit 14 und die Ausgabesteuereinheit 15 auf dem einzelnen Chip 2 montiert sind, wie in 2A dargestellt.
Mit der in 2A dargestellten Konfiguration kann das Informationsverarbeitungssystem 1 auf einer Platine realisiert werden. Alternativ kann das Informationsverarbeitungssystem 1 auch ein gestapelter CIS sein, bei dem eine Vielzahl von Halbleiterchips in einem einzigen Gehäuse gestapelt ist.
Das Informationsverarbeitungssystem 1 kann beispielsweise mit einer Zweischichtstruktur realisiert werden, bei der die Halbleiterchips in zwei Schichten gestapelt sind. 3A ist ein Diagramm, das ein Beispiel zeigt, in dem das Informationsverarbeitungssystem 1 gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer Zweischichtstruktur implementiert ist. Bei der in 3A dargestellten Struktur ist eine Pixeleinheit 20a auf einem Halbleiterchip der ersten Schicht und eine Speicher- und Logikeinheit 20b auf einem Halbleiterchip der zweiten Schicht implementiert. Die Pixeleinheit 20a weist mindestens die Pixelmatrix in der Sensoreinheit 10 auf. Die Speicher- und Logikeinheit 20b weist beispielsweise die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, den Speicher 13, die visuelle Erkennungsverarbeitungseinheit 14, die Ausgabesteuereinheit 15 und die Schnittstelle, die für die Kommunikation zwischen dem Informationsverarbeitungssystem 1 und der Außenwelt zuständig ist, auf. Die Speicher- und Logikeinheit 20b weist außerdem einen Teil oder die gesamte Ansteuerungsschaltung, die die Pixelmatrix in der Sensoreinheit 10 ansteuert, auf. Darüber hinaus kann die Speicher- und Logikeinheit 20b, auch wenn sie nicht abgebildet ist, z. B. einen Speicher aufweisen, der von der visuellen Erkennungsverarbeitungseinheit 14 zur Verarbeitung von Bilddaten verwendet wird.
Wie auf der rechten Seite von 3A dargestellt, ist das Informationsverarbeitungssystem 1 als ein einziger Festkörper-Bildsensor ausgebildet, der durch das Zusammenbonden des Halbleiterchips der ersten Schicht und des Halbleiterchips der zweiten Schicht erhalten wird, wobei die beiden Halbleiterchips in elektrischem Kontakt miteinander stehen.
Alternativ kann das Informationsverarbeitungssystem 1 auch mit einer dreischichtigen Struktur realisiert werden, bei der die Halbleiterchips in drei Schichten gestapelt sind. 3B ist ein Diagramm, das ein Beispiel zeigt, in dem das Informationsverarbeitungssystem 1 gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer dreischichtigen Struktur implementiert ist. Bei der in 3B dargestellten Struktur ist die Pixeleinheit 20a auf dem Halbleiterchip der ersten Schicht implementiert, eine Speichereinheit 20c ist auf dem Halbleiterchip der zweiten Schicht implementiert, und die Logikeinheit 20b' ist auf dem Halbleiterchip der dritten Schicht implementiert. In diesem Fall weist die Logikeinheit 20b` beispielsweise die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, die visuelle Erkennungsverarbeitungseinheit 14, die Ausgabesteuereinheit 15 und die Schnittstelle, die für die Kommunikation zwischen dem Informationsverarbeitungssystem 1 und der Außenwelt zuständig ist, auf. Darüber hinaus kann die Speichereinheit 20c den Speicher 13 und z. B. einen Speicher aufweisen, der von der visuellen Erkennungsverarbeitungseinheit 14 zur Verarbeitung von Bilddaten verwendet wird. Der Speicher 13 kann in der Logikeinheit 20b` enthalten sein.
Wie auf der rechten Seite von 3B dargestellt, ist das Informationsverarbeitungssystem 1 als ein einzelner Festkörper-Bildsensor ausgebildet, der durch Verbinden des Halbleiterchips der ersten Schicht, des Halbleiterchips der zweiten Schicht und des Halbleiterchips der dritten Schicht mit allen Halbleiterchips in elektrischem Kontakt miteinander erhalten wird.
4 ist ein Blockdiagramm, das die Konfiguration eines Beispiels der Sensoreinheit 10 zeigt, die für jede Ausführungsform gilt. In 4 weist die Sensoreinheit 10 eine Pixelmatrixeinheit 101, eine Vertikalabtasteinheit 102, eine Analog-Digital-(AD)-Umwandlungseinheit 103, eine Pixelsignalleitung 106, eine Vertikalsignalleitung VSL, eine Steuereinheit 1100 und eine Signalverarbeitungseinheit 1101 auf. Es ist zu beachten, dass die Steuereinheit 1100 und die Signalverarbeitungseinheit 1101 in 4 beispielsweise auch in der in 1 dargestellten Sensorsteuereinheit 11 enthalten sein können.
Die Pixelmatrixeinheit 101 weist eine Vielzahl von Pixelschaltungen 100 auf, die jeweils beispielsweise ein photoelektrisches Umwandlungselement mit einer Photodiode, die eine photoelektrische Umwandlung des empfangenen Lichts vornimmt, und eine Schaltung, die eine elektrische Ladung aus dem photoelektrischen Umwandlungselement ausliest, aufweisen. In der Pixelmatrixeinheit 101 ist die Mehrzahl der Pixelschaltungen 100 in einer Matrix in horizontaler Richtung (Zeilenrichtung) und in vertikaler Richtung (Spaltenrichtung) angeordnet. In der Pixelmatrixeinheit 101 wird eine Anordnung der Pixelschaltungen 100 in Zeilenrichtung als Zeile bezeichnet. Zum Beispiel, wenn ein Bild eines Rahmens mit 1920 Pixeln * 1080 Zeilen gebildet wird, weist die Pixelmatrixeinheit 101 mindestens 1080 Zeilen, die jeweils mindestens 1920 Pixelschaltungen 100 enthalten, auf. Ein Bild (Bilddaten) eines Rahmens wird durch Pixelsignale gebildet, die von den in dem Rahmen enthaltenen Pixelschaltungen 100 gelesen werden.
Im Folgenden wird der Vorgang des Auslesens des Pixelsignals von jeder Pixelschaltung 100, die in dem Rahmen in der Sensoreinheit 10 enthalten ist, als Auslesen des Pixels aus dem Rahmen nach Bedarf bezeichnet. Darüber hinaus wird der Vorgang des Lesens des Pixelsignals von jedem Pixelschaltkreis 100 in jeder Zeile, die in dem Rahmen enthalten ist, beispielsweise als Lesen der Zeile nach Bedarf bezeichnet.
Darüber hinaus ist in der Pixelmatrixeinheit 101 die Pixelsignalleitung 106 für jede Zeile zur Verbindung mit jeder Pixelschaltung 100 vorgesehen, und die Vertikalsignalleitung VSL ist für jede Spalte zur Verbindung mit jeder Pixelschaltung 100 vorgesehen. Ein Ende der Pixelsignalleitung 106, das nicht mit der Pixelmatrixeinheit 101 verbunden ist, ist mit der Vertikalabtasteinheit 102 verbunden. Die Vertikalabtasteinheit 102 überträgt unter der Steuerung der später zu beschreibenden Steuereinheit 1100 ein Steuersignal wie einen Ansteuerungsimpuls zum Lesen des Pixelsignals von jedem Pixel über die Pixelsignalleitung 106 an die Pixelmatrixeinheit 101. Ein Ende der Vertikalsignalleitung VSL, das nicht mit der Pixelmatrixeinheit 101 verbunden ist, ist mit der AD-Umwandlungseinheit 103 verbunden. Das von jedem Pixel gelesene Pixelsignal wird über die Vertikalsignalleitung VSL an die AD-Umwandlungseinheit 103 übertragen.
Es wird schematisch beschrieben, wie das Auslesen des Pixelsignals von jeder Pixelschaltung 100 gesteuert wird. Das Auslesen des Pixelsignals aus jeder Pixelschaltung 100 erfolgt durch Übertragung der im photoelektrischen Umwandlungselement gespeicherten elektrischen Ladung durch Belichtung einer Schwebediffusionsschicht (FD) und Umwandlung der auf die Schwebediffusion übertragenen elektrischen Ladung in eine Spannung. Die durch Umwandlung der elektrischen Ladung in der Schwebediffusionsschicht gewonnene Spannung wird über einen Verstärker an die Vertikalsignalleitung VSL ausgegeben.
Genauer gesagt befinden sich in der Pixelschaltung 100 während der Belichtung das photoelektrische Umwandlungselement und die Schwebediffusionsschicht in einem ausgeschalteten (offenen) Zustand, so dass die elektrische Ladung, die in Übereinstimmung mit dem einfallenden Licht durch photoelektrische Umwandlung erzeugt wird, in dem photoelektrischen Umwandlungselement gespeichert wird. Nach Beendigung der Belichtung werden die Schwebediffusionsschicht und die Vertikalsignalleitung VSL entsprechend einem über die Pixelsignalleitung 106 zugeführten Auswahlsignal verbunden. Ferner wird die Schwebediffusionsschicht entsprechend einem über die Pixelsignalleitung 106 zugeführten Rücksetzimpuls für eine kurze Zeit mit einer Zuleitung einer Versorgungsspannung VDD oder einer Schwarzpegelspannung verbunden, und die Schwebediffusionsschicht wird entsprechend zurückgesetzt. An der Vertikalsignalleitung VSL wird eine Spannung (als Spannung A bezeichnet) auf dem Rücksetzpegel der Schwebediffusionsschicht ausgegeben. Danach werden das photoelektrische Umwandlungselement und die Schwebediffusionsschicht in Übereinstimmung mit einem Übertragungsimpuls, der über die Pixelsignalleitung 106 zugeführt wird, in einen eingeschalteten (geschlossenen) Zustand gebracht, um die in dem photoelektrischen Umwandlungselement gespeicherte elektrische Ladung auf die Schwebediffusionsschicht zu übertragen. An der Vertikalsignalleitung VSL wird eine Spannung (als Spannung B bezeichnet) ausgegeben, die dem Betrag der elektrischen Ladung der Schwebediffusionsschicht entspricht.
Die AD-Umwandlungseinheit 103 weist einen AD-Wandler 107 für jede Vertikalsignalleitung VSL, eine Referenzsignal-Erzeugungseinheit 104 und eine Horizontalabtasteinheit 105 auf. Der AD-Wandler 107 ist ein Spalten-AD-Wandler, der die AD-Wandlung in jeder Spalte der Pixelmatrixeinheit 101 durchführt. Der AD-Wandler 107 verarbeitet das von jeder Pixelschaltung 100 über die Vertikalsignalleitung VSL gelieferte Pixelsignal, um zwei digitale Werte (Werte, die der Spannung A und der Spannung B entsprechen) für die Verarbeitung der korrelierten Doppelabtastung (CDS) zu erzeugen, die zur Rauschreduzierung durchgeführt wird.
Der AD-Wandler 107 liefert die beiden so erzeugten digitalen Werte an die Signalverarbeitungseinheit 1101. Die Signalverarbeitungseinheit 1101 führt die CDS-Verarbeitung auf der Grundlage der beiden vom AD-Wandler 107 gelieferten digitalen Werte durch, um ein digitales Pixelsignal (Pixeldaten) zu erzeugen. Die von der Signalverarbeitungseinheit 1101 erzeugten Pixeldaten werden nach außerhalb der Sensoreinheit 10 ausgegeben.
Die Referenzsignal-Erzeugungseinheit 104 erzeugt auf der Grundlage des von der Steuereinheit 1100 eingegebenen Steuersignals ein Rampensignal, das für jeden AD-Wandler 107 zur Umwandlung des Pixelsignals in zwei digitale Werte verwendet wird, wobei das Rampensignal als Referenzsignal dient. Das Rampensignal ist ein Signal, dessen Pegel (Spannungswert) linear mit der Zeit abnimmt, oder ein Signal, dessen Pegel schrittweise abnimmt. Die Referenzsignal-Erzeugungseinheit 104 liefert das so erzeugte Rampensignal an jeden AD-Wandler 107. Die Referenzsignal-Erzeugungseinheit 104 weist beispielsweise einen Digital-Analog-Wandler (DAC) oder dergleichen auf.
Wenn das Rampensignal, dessen Spannung schrittweise mit einem vorbestimmten Gradienten abnimmt, von der Referenzsignal-Erzeugungseinheit 104 geliefert wird, beginnt ein Zähler in Übereinstimmung mit einem Taktsignal zu zählen. Ein Komparator vergleicht die Spannung des von der Vertikalsignalleitung VSL gelieferten Pixelsignals mit der Spannung des Rampensignals und stoppt den Zähler zum richtigen Zeitpunkt, wenn die Spannung des Rampensignals die Spannung des Pixelsignals überschreitet. Der AD-Wandler 107 wandelt ein analoges Pixelsignal in einen digitalen Wert um, indem er einen Wert ausgibt, der dem Zählwert entspricht, wenn die Zählung angehalten wird.
Der AD-Wandler 107 liefert die beiden so erzeugten digitalen Werte an die Signalverarbeitungseinheit 1101. Die Signalverarbeitungseinheit 1101 führt die CDS-Verarbeitung auf der Grundlage der beiden vom AD-Wandler 107 gelieferten digitalen Werte durch, um ein digitales Pixelsignal (Pixeldaten) zu erzeugen. Das von der Signalverarbeitungseinheit 1101 erzeugte digitale Pixelsignal wird nach außerhalb der Sensoreinheit 10 ausgegeben.
Die Horizontalabtasteinheit 105 führt unter der Steuerung der Steuereinheit 1100 eine selektive Abtastung durch, um jeden AD-Wandler 107 in einer vorbestimmten Reihenfolge auszuwählen, so dass jeder digitale Wert, der vorübergehend von jedem AD-Wandler 107 gehalten wird, sequentiell an die Signalverarbeitungseinheit 1101 ausgegeben wird. Die Horizontalabtasteinheit 105 weist beispielsweise ein Schieberegister, einen Adressendecoder oder dergleichen auf.
Die Steuereinheit 1100 führt die Ansteuerungskontrolle der vertikalen Abtasteinheit 102, der AD-Umwandlungseinheit 103, der Referenzsignal-Erzeugungseinheit 104, der horizontalen Abtasteinheit 105 und dergleichen in Übereinstimmung mit dem von der Sensorsteuereinheit 11 gelieferten Abbildungssteuersignal durch. Die Steuereinheit 1100 erzeugt verschiedene Ansteuersignale, auf deren Grundlage die Vertikalabtasteinheit 102, die AD-Umwandlungseinheit 103, die Referenzsignal-Erzeugungseinheit 104 und die Horizontalabtasteinheit 105 arbeiten. Die Steuereinheit 1100 erzeugt ein Steuersignal, das von der vertikalen Abtasteinheit 102 über die Pixelsignalleitung 106 an jede Pixelschaltung 100 geliefert wird, beispielsweise auf der Grundlage des Vertikalsynchronisationssignals oder eines externen Triggersignals, das in dem Abbildungssteuersignal enthalten ist, und des Horizontalsynchronisationssignals. Die Steuereinheit 1100 liefert das so erzeugte Steuersignal an die Vertikalabtasteinheit 102.
Darüber hinaus gibt die Steuereinheit 1100 beispielsweise Informationen über die analoge Verstärkung aus, die in dem von der Sensorsteuereinheit 11 an die AD-Umwandlungseinheit 103 gelieferten Abbildungssteuersignal enthalten ist. Die AD-Umwandlungseinheit 103 steuert in Übereinstimmung mit den Informationen, die die analoge Verstärkung angeben, eine Verstärkung des Pixelsignals, das in jeden in der AD-Umwandlungseinheit 103 enthaltenen AD-Wandler 107 über die Vertikalsignalleitung VSL eingegeben wird.
Die Vertikalabtasteinheit 102 liefert auf der Grundlage des von der Steuereinheit 1100 gelieferten Steuersignals verschiedene Signale einschließlich des Ansteuerungsimpulses an die Pixelsignalleitung 106 der ausgewählten Pixelzeile der Pixelmatrixeinheit 101, d. h. an jede Pixelschaltung 100 pro Zeile, um jede Pixelschaltung 100 zu veranlassen, das Pixelsignal an die Vertikalsignalleitung VSL auszugeben. Die Vertikalabtasteinheit 102 weist z. B. ein Schieberegister, einen Adressendecoder oder dergleichen auf. Darüber hinaus steuert die Vertikalabtasteinheit 102 die Belichtung jeder Pixelschaltung 100 in Übereinstimmung mit den von der Steuereinheit 1100 gelieferten Informationen über die Belichtung.
Die Sensoreinheit 10, die wie oben beschrieben ausgebildet ist, ist ein Spalten-AD-Bildsensor vom Typ komplementärer Metalloxid-Halbleiter (CMOS), in dem der AD-Wandler 107 für jede Spalte angeordnet ist.
[2. Beispiel einer bestehenden Technologie, die auf die vorliegende Offenbarung anwendbar ist]
Vor der Beschreibung der einzelnen Ausführungsformen gemäß der vorliegenden Offenbarung wird zum leichteren Verständnis eine bestehende Technologie, die auf die vorliegende Offenbarung anwendbar ist, schematisch beschrieben.
(2-1. Umriss des Rolling-Shutter)
Als Abbildungsverfahren für die Abbildung durch die Pixelmatrixeinheit 101 sind ein Rolling-Shutter-Verfahren (RS) und ein Global-Shutter-Verfahren (GS) bekannt. Zunächst wird das Rolling-Shutter-Verfahren schematisch beschrieben. 5A, 5B und 5C sind schematische Darstellungen zur Beschreibung des Rolling-Shutter-Verfahrens. Bei dem Rolling-Shutter-Verfahren, wie es in 5A dargestellt ist, wird die Bildaufnahme zeilenweise durchgeführt, z. B. von einer Zeile 201 am oberen Ende eines Rahmens 200.
Man beachte, dass der Begriff „Abbildung“ oben beschrieben wurde, um sich auf den Vorgang zu beziehen, bei dem die Sensoreinheit 10 das Pixelsignal in Übereinstimmung mit dem auf die Lichtempfangsfläche einfallenden Licht ausgibt. Genauer gesagt bezieht sich der Begriff „Abbildung“ auf eine Reihe von Vorgängen, die von der Belichtung des Pixels bis zur Übertragung des Pixelsignals auf der Grundlage der durch die Belichtung im photoelektrischen Umwandlungselement des Pixels gespeicherten elektrischen Ladung an die Sensorsteuereinheit 11 reichen. Außerdem bezieht sich der Rahmen, wie oben beschrieben, auf einen Bereich, in dem aktive Pixelschaltungen 100, die jeweils das Pixelsignal erzeugen, in der Pixelmatrixeinheit 101 angeordnet sind.
Bei der in 4 dargestellten Konfiguration werden beispielsweise die in einer Zeile enthaltenen Pixelschaltungen 100 gleichzeitig belichtet. Nach dem Ende der Belichtung übertragen die in der Zeile enthaltenen Pixelschaltungen 100 gleichzeitig das auf der durch die Belichtung gespeicherten elektrischen Ladung basierende Pixelsignal über ihre jeweiligen Vertikalsignalleitungen VSL. Wenn man den oben beschriebenen Vorgang Zeile für Zeile durchführt, erhält man ein Bild mit Rolling-Shutter.
5B zeigt schematisch ein Beispiel für die Beziehung zwischen Bild und Zeit beim Rolling-Shutter-Verfahren. In 5B stellt die vertikale Achse eine Zeilenposition und die horizontale Achse die Zeit dar. Beim Rolling-Shutter-Verfahren wird die Belichtung zeilenweise durchgeführt, so dass sich, wie in 5B dargestellt, der Belichtungszeitpunkt für jede Zeile mit der Änderung der Zeilenposition verschiebt. Daher kommt es beispielsweise in einem Fall, in dem sich die Positionsbeziehung zwischen dem Informationsverarbeitungssystem 1 und dem Objekt in horizontaler Richtung schnell ändert, zu einer Verzerrung des durch die Aufnahme des Bildes Rahmens erhaltenen Bildes, wie in 5C dargestellt. In dem in 5C dargestellten Beispiel wird ein Bild 202, das dem Rahmen 200 entspricht, in einem Winkel gekippt, der der Geschwindigkeit und Richtung der Änderung der Positionsbeziehung zwischen dem Informationsverarbeitungssystem 1 und dem Objekt in horizontaler Richtung entspricht.
Beim Rolling-Shutter-Verfahren ist es auch möglich, eine Abbildung durchzuführen, bei der einige Zeilen übersprungen werden. 6A, 6B und 6C sind schematische Darstellungen zur Beschreibung von Line-Skipping beim Rolling-Shutter-Verfahren. Wie in 6A dargestellt, erfolgt die Abbildung, wie in dem oben beschriebenen Beispiel in 5A, zeilenweise von der Zeile 201 am oberen Ende des Rahmens 200 zum unteren Ende des Rahmens 200. Zu diesem Zeitpunkt wird die Abbildung unter Überspringen einer vorher festgelegten Anzahl von Zeilen durchgeführt.
Bei der Beschreibung wird davon ausgegangen, dass die Abbildung in jeder zweiten Zeile erfolgt, d. h. jede zweite Zeile wird übersprungen. Das heißt, nach der n-ten Zeile wird die (n + 2)-te Zeile abgebildet. Zu diesem Zeitpunkt wird davon ausgegangen, dass die Zeit von der Abbildung der n-ten Zeile bis zur Abbildung der (n + 2)-ten Zeile gleich der Zeit von der Abbildung der n-ten Zeile bis zur Abbildung der (n + 1)-ten Zeile ist, wenn das Überspringen nicht durchgeführt wird.
6B zeigt schematisch ein Beispiel für die Beziehung zwischen Abbildung und Zeit in einem Fall, in dem das Überspringen einer Zeile nach dem Rolling-Shutter-Verfahren durchgeführt wird. In 6B stellt die vertikale Achse eine Zeilenposition und die horizontale Achse die Zeit dar. In 6B entspricht die Belichtung A der Belichtung in 5B, bei der kein Überspringen durchgeführt wird, und die Belichtung B zeigt die Belichtung für den Fall an, dass eine Zeile übersprungen wird. Die Belichtung B zeigt, dass die Durchführung des Zeilensprungs es ermöglicht, den Unterschied in der Belichtungszeit an der gleichen Zeilenposition im Vergleich zu einem Fall, in dem kein Zeilensprung durchgeführt wird, zu verringern. Daher ist die in 6C als Bild 203 dargestellte Verzerrung, die entlang der Richtung des durch die Erfassung des Rahmens 200 erhaltenen Bildes entsteht, geringer als die Verzerrung, die in einem Fall entsteht, in dem das in 5C dargestellte Überspringen von Zeilen nicht durchgeführt wird. Andererseits ist die Bildauflösung in einem Fall, in dem Zeilen übersprungen werden, geringer als in einem Fall, in dem keine Zeilen übersprungen werden.
Vorstehend wurde ein Beispiel beschrieben, bei dem die Abbildung zeilenweise vom oberen zum unteren Ende des Rahmens 200 nach dem Rolling-Shutter-Verfahren erfolgt, aber die Art der Abbildung ist nicht auf dieses Beispiel beschränkt. 7A und 7B sind Diagramme, die schematisch ein Beispiel für ein anderes Abbildungsverfahren im Rahmen des Rolling-Shutter-Verfahrens zeigen. Wie in 7A dargestellt, kann beispielsweise beim Rolling-Shutter-Verfahren die Abbildung zeilenweise vom unteren Ende zum oberen Ende des Rahmens 200 durchgeführt werden. In diesem Fall ist die horizontale Verzerrung des Bildes 202 entgegengesetzt zu dem Fall, in dem die Abbildung zeilenweise vom oberen Ende zum unteren Ende des Rahmens 200 durchgeführt wird.
Darüber hinaus ist es beispielsweise auch möglich, einen Bereich der Vertikalsignalleitung VSL festzulegen, über den das Pixelsignal übertragen wird, so dass ein Teil der Zeile selektiv gelesen werden kann. Darüber hinaus ist es auch möglich, die für die Abbildung verwendete Zeile und die für die Übertragung des Pixelsignals verwendete Vertikalsignalleitung VSL einzustellen, so dass die erste Abbildungszeile und die letzte Abbildungszeile anders als das obere und das untere Ende des Rahmens 200 eingestellt werden können. 7B zeigt schematisch ein Beispiel, in dem ein rechteckiger Bereich 205, der in Breite und Höhe kleiner als der Rahmen 200 ist, als Abbildungsbereich festgelegt wird. In dem in 7B gezeigten Beispiel wird die Abbildung zeilenweise von einer Zeile 204 am oberen Ende des Bereichs 205 zum unteren Ende des Bereichs 205 durchgeführt.
(2-2. Überblick über das Global-Shutter-Verfahren)
Als nächstes wird als Abbildungsverfahren, das bei der Abbildung durch die Pixelmatrixeinheit 101 angewendet wird, ein Global-Shutter-Verfahren (GS) schematisch beschrieben. 8A, 8B und 8C sind schematische Darstellungen zur Beschreibung des Global-Shutter-Verfahrens. Beim Global-Shutter-Verfahren werden, wie in 8A dargestellt, alle im Rahmen 200 enthaltenen Pixelschaltungen 100 gleichzeitig belichtet.
Wird das Global-Shutter-Verfahren auf die in 4 dargestellte Konfiguration angewandt, ist als Beispiel eine Konfiguration denkbar, bei der zwischen dem photoelektrischen Umwandlungselement und dem FD in jeder Pixelschaltung 100 zusätzlich ein Kondensator vorgesehen ist. Dann wird ein erster Schalter zwischen dem photoelektrischen Umwandlungselement und dem Kondensator und ein zweiter Schalter zwischen dem Kondensator und der Schwebediffusionsschicht vorgesehen, und das Öffnen und Schließen jedes der ersten und zweiten Schalter wird in Übereinstimmung mit einem über die Pixelsignalleitung 106 zugeführten Impuls gesteuert.
In einer solchen Konfiguration befinden sich der erste und der zweite Schalter in allen Pixelschaltungen 100, die im Rahmen 200 enthalten sind, während der Belichtung im offenen Zustand, und das Ende der Belichtung bringt den ersten Schalter aus dem offenen Zustand in den geschlossenen Zustand, um die elektrische Ladung vom photoelektrischen Umwandlungselement zum Kondensator zu übertragen. Danach wird der Kondensator als photoelektrisches Umwandlungselement betrachtet, und die elektrische Ladung wird aus dem Kondensator in ähnlicher Weise ausgelesen wie bei dem oben beschriebenen Rolling-Shutter-Verfahren. Dies ermöglicht die gleichzeitige Belichtung aller im Rahmen 200 enthaltenen Pixelschaltungen 100.
8B zeigt schematisch ein Beispiel für die Beziehung zwischen Bild und Zeit beim Global-Shutter-Verfahren. In 8B stellt die vertikale Achse eine Zeilenposition und die horizontale Achse die Zeit dar. Beim Global-Shutter-Verfahren werden alle im Rahmen 200 enthaltenen Pixelschaltungen 100 gleichzeitig belichtet, so dass der Belichtungszeitpunkt für alle Zeilen derselbe sein kann, wie in 8B dargestellt. Daher wird beispielsweise selbst in einem Fall, in dem sich die Positionsbeziehung zwischen dem Informationsverarbeitungssystem 1 und dem Objekt in horizontaler Richtung schnell ändert, keine Verzerrung in einem Bild 206 erzeugt, das durch die Aufnahme des Rahmens 200 erhalten wird, wie in 8C dargestellt.
Mit dem Global-Shutter-Verfahren kann sichergestellt werden, dass alle im Rahmen 200 enthaltenen Pixelschaltungen 100 gleichzeitig belichtet werden. Durch die Steuerung des Timings jedes Impulses, der über die Pixelsignalleitung 106 jeder Zeile geliefert wird, und des Timings der Übertragung über jede Vertikalsignalleitung VSL ist es daher möglich, eine Abtastung (Lesen von Pixelsignalen) in verschiedenen Mustern zu erreichen.
9A und 9B zeigen schematisch ein Beispiel für ein Abtastmuster, das mit dem Global-Shutter-Verfahren erzielt werden kann. 9A zeigt ein Beispiel, bei dem die Muster 208, aus denen die Pixelsignale ausgelesen werden, in einem Schachbrettmuster aus den Pixelschaltungen 100 extrahiert werden, die im Rahmen 200 enthalten und in einer Matrix angeordnet sind. Außerdem zeigt 9B ein Beispiel, bei dem die Muster 208, aus denen Pixelsignale ausgelesen werden, in einer Gitterstruktur aus den Pixelschaltungen 100 extrahiert werden. Darüber hinaus ist es auch möglich, selbst beim Global-Shutter-Verfahren eine zeilenweise Bildaufnahme in ähnlicher Weise wie bei dem oben beschriebenen Rolling-Shutter-Verfahren durchzuführen.
(2-3. DNN)
Als nächstes wird die Erkennungsverarbeitung mit einem tiefen neuronalen Netz (DNN) für jede Ausführungsform schematisch beschrieben. In jeder Ausführungsform wird die Erkennungsverarbeitung von Bilddaten mit einem neuronalen Faltungsnetzwerk (CNN) und einem rekurrenten neuronalen Netzwerk (RNN) als DNN durchgeführt. Im Folgenden wird die „Erkennungsverarbeitung von Bilddaten“ je nach Bedarf beispielsweise als „Bilderkennungsverarbeitung“ bezeichnet.
(2-3-1. Überblick über CNN)
Zunächst wird das CNN schematisch beschrieben. Im Allgemeinen wird die Bilderkennungsverarbeitung mit dem CNN auf der Grundlage von Bildinformationen durchgeführt, die z. B. auf in einer Matrix angeordneten Pixeln basieren. 10 ist ein Diagramm, das die Bilderkennungsverarbeitung mit dem CNN schematisch darstellt. Die Verarbeitung unter Verwendung eines CNN 52, das auf vorbestimmte Weise erlernt wurde, wird an Pixelinformationen 51 eines Bildes 50 durchgeführt, das eine geschriebene Ziffer „8“ zeigt, die ein zu erkennendes Objekt ist. Infolgedessen wird die Ziffer „8“ als Erkennungsergebnis 53 erkannt.
Andererseits ist es auch möglich, ein Erkennungsergebnis aus einem Teil des Erkennungszielbildes zu erhalten, indem die Verarbeitung mit dem CNN auf der Grundlage jedes Zeilenbildes durchgeführt wird. 11 ist ein Diagramm, das die Bilderkennungsverarbeitung zur Gewinnung eines Erkennungsergebnisses aus einem Teil des Erkennungszielbildes schematisch darstellt. In 11 wird das Bild 50` durch die teilweise, d. h. zeilenweise Erfassung der Ziffer „8“, die ein Erkennungszielobjekt ist, gewonnen. Beispielsweise werden die Pixelinformationen 54a, 54b und 54c für jede Zeile, die die Pixelinformationen 51` des Bildes 50` bilden, nacheinander mit Hilfe des CNN 52` verarbeitet, das auf eine vorbestimmte Weise gelernt wurde.
Es wird beispielsweise angenommen, dass ein Erkennungsergebnis 53a der Erkennungsverarbeitung mit dem CNN 52`, die an den Pixelinformationen 54a der ersten Zeile durchgeführt wurde, kein gültiges Erkennungsergebnis ist. Das gültige Erkennungsergebnis bezieht sich hier beispielsweise auf ein Erkennungsergebnis, das zeigt, dass eine Punktzahl, die einen Zuverlässigkeitsgrad des Erkennungsergebnisses angibt, größer oder gleich einem vorgegebenen Wert ist.
Man beachte, dass der Zuverlässigkeitsgrad gemäß der vorliegenden Ausführungsform ein Bewertungswert ist, der angibt, wie vertrauenswürdig das von dem DNN ausgegebene Erkennungsergebnis [T] ist. Der Bereich des Zuverlässigkeitsgrads reicht beispielsweise von 0,0 bis 1,0, und je näher der numerische Wert bei 1,0 liegt, desto geringer ist die Anzahl der ähnlichen Kandidaten, die dem Erkennungsergebnis nahe kommen [T]. Je näher der numerische Wert bei 0 liegt, desto größer ist die Anzahl der ähnlichen Kandidaten, die dem Erkennungsergebnis am nächsten kommen [T].
Das CNN 52` führt auf der Grundlage des Erkennungsergebnisses 53a eine Aktualisierung 55 eines internen Zustands durch. Als nächstes wird die Erkennungsverarbeitung an den Pixelinformationen 54b der zweiten Zeile unter Verwendung des CNN 52` durchgeführt, dessen interner Zustand gemäß dem letzten Erkennungsergebnis 53a einer Aktualisierung 55 unterzogen wurde. In 11 wird als Ergebnis ein Erkennungsergebnis 53b erzielt, das anzeigt, dass die Zielziffer entweder „8“ oder „9“ ist. Die Aktualisierung 55 der internen Informationen des CNN 52' wird ferner auf der Grundlage des Erkennungsergebnisses 53b durchgeführt. Als nächstes wird die Erkennungsverarbeitung an den Pixelinformationen 54c der dritten Zeile unter Verwendung des CNN 52` durchgeführt, dessen interner Zustand gemäß dem letzten Erkennungsergebnis 53b einer Aktualisierung 55 unterzogen wurde. In 11 wird die Zielziffer für die Erkennung auf „8“ von „8“ und „9“ eingegrenzt.
Bei der in 11 dargestellten Erkennungsverarbeitung wird der interne Zustand des CNN unter Verwendung des Ergebnisses der letzten Erkennungsverarbeitung aktualisiert, und die Erkennungsverarbeitung erfolgt unter Verwendung der Pixelinformationen der Zeile, die an die Zeile angrenzt, die der letzten Erkennungsverarbeitung unter Verwendung des CNN, dessen interner Zustand aktualisiert wurde, unterzogen wurde. Das heißt, die in 11 dargestellte Erkennungsverarbeitung wird zeilenweise auf dem Bild durchgeführt, wobei der interne Zustand des CNN auf der Grundlage des letzten Erkennungsergebnisses aktualisiert wird. Bei der in 11 dargestellten Erkennungsverarbeitung handelt es sich also um eine rekursive Verarbeitung, die zeilenweise durchgeführt wird, und man kann davon ausgehen, dass sie einer RNN-Struktur entspricht.
(2-3-2. Überblick über RNN)
Als nächstes wird das RNN schematisch beschrieben. 12A und 12B sind Diagramme, die schematisch ein Beispiel für die Identifizierungsverarbeitung (Erkennungsverarbeitung) zeigen, die unter Verwendung des DNN in einem Fall durchgeführt wird, in dem keine Zeitreiheninformationen verwendet werden. In diesem Fall, wie in 12A dargestellt, wird ein Bild in das DNN eingegeben. Im DNN wird das Eingabebild zur Identifizierung verarbeitet, und ein Identifizierungsergebnis wird ausgegeben.
12B ist ein Diagramm zur näheren Beschreibung des in 12A dargestellten Verfahrens. Wie in 12B dargestellt, führt das DNN eine Merkmalextraktionsverarbeitung und eine Identifikationsverarbeitung durch. Das DNN führt die Merkmalextraktionsverarbeitung durch, um ein Merkmal aus dem Eingabebild zu extrahieren. Darüber hinaus führt das DNN die Identifizierungsverarbeitung an dem extrahierten Merkmal durch, um ein Identifizierungsergebnis zu erhalten.
13A und 13B sind Diagramme, die ein erstes Beispiel für die Identifizierungsverarbeitung unter Verwendung des DNN in einem Fall schematisch darstellen, in dem Zeitreiheninformationen verwendet werden. In dem in 13A und 13B dargestellten Beispiel wird eine feste Anzahl von vergangenen Zeitreiheninformationen der Identifizierungsverarbeitung mit Hilfe des DNN unterzogen. In dem in 13A dargestellten Beispiel werden ein Bild [T] zu einem Zeitpunkt T, ein Bild [T-1] zu einem Zeitpunkt T-1 vor dem Zeitpunkt T und ein Bild [T-2] zu einem Zeitpunkt T-2 vor dem Zeitpunkt T-1 in das DNN eingegeben. Im DNN wird die Identifikationsverarbeitung für jedes der Eingabebilder [T], [T-1] und [T-2] durchgeführt, um ein Identifikationsergebnis [T] zu einem Zeitpunkt T zu erhalten. Dem Identifizierungsergebnis [T] wird ein Zuverlässigkeitsgrad zugewiesen.
13B ist ein Diagramm zur näheren Beschreibung des in 13A dargestellten Verfahrens. Wie in 13B dargestellt, wird im DNN die oben unter Bezugnahme auf 12B beschriebene Merkmalextraktionsverarbeitung auf einer Eins-zu-Eins-Basis für jedes der Eingangsbilder [T], [T-1] und [T-2] durchgeführt, um Merkmale zu extrahieren, die den Bildern [T], [T-1] und [T-2] entsprechen. Im DNN werden die jeweiligen Merkmale, die auf der Grundlage der Bilder [T], [T-1] und [T-2] erhalten wurden, kombiniert, und die Identifizierungsverarbeitung wird mit dem kombinierten Merkmal durchgeführt, um das Identifizierungsergebnis [T] zum Zeitpunkt T zu erhalten.
Bei dem in 13A und 13B dargestellten Verfahren ist eine Vielzahl von Komponenten zur Durchführung der Merkmalextraktion erforderlich, und eine Komponente zur Durchführung der Merkmalextraktion in Abhängigkeit von der Anzahl der verfügbaren Bilder aus der Vergangenheit ist erforderlich, so dass die Möglichkeit besteht, dass die Konfiguration des DNN groß wird.
14A und 14B sind Diagramme, die ein zweites Beispiel für die Identifizierungsverarbeitung unter Verwendung des DNN in einem Fall schematisch darstellen, in dem Zeitreiheninformationen verwendet werden. In dem in 14A dargestellten Beispiel wird ein Bild [T] zu einem Zeitpunkt T in das DNN eingegeben, dessen interner Zustand auf einen Zustand zu einem Zeitpunkt T-1 aktualisiert wurde, und es wird ein Identifikationsergebnis [T] zum Zeitpunkt T erhalten. Dem Identifizierungsergebnis [T] wird ein Zuverlässigkeitsgrad zugewiesen.
14B ist ein Diagramm zur näheren Beschreibung des in 14A dargestellten Verfahrens. Wie in 14B dargestellt, wird im DNN die oben unter Bezugnahme auf 12B beschriebene Merkmalextraktionsverarbeitung für das Eingangsbild [T] zum Zeitpunkt T durchgeführt, und ein dem Bild [T] entsprechendes Merkmal wird extrahiert. Im DNN wird der interne Zustand anhand eines Bildes vor dem Zeitpunkt T aktualisiert, und das Merkmal, das sich auf den aktualisierten internen Zustand bezieht, wird gespeichert. Das gespeicherte Merkmal, das sich auf die internen Informationen bezieht, und das Merkmal des Bildes [T] werden kombiniert, und die Identifikationsverarbeitung wird anhand des kombinierten Merkmals durchgeführt.
Die in 14A und 14B dargestellte Identifikationsverarbeitung erfolgt beispielsweise mit dem DNN, dessen interner Zustand anhand des letzten Identifikationsergebnisses aktualisiert wurde, und ist somit eine rekursive Verarbeitung. Ein solches DNN, das eine rekursive Verarbeitung durchführt, wird als rekurrentes neuronales Netzwerk (RNN) bezeichnet. Die Identifikationsverarbeitung mit dem RNN wird im Allgemeinen für die Erkennung von Bewegtbildern oder dergleichen verwendet, und der interne Zustand des DNN wird beispielsweise durch in Zeitreihen aktualisierte Einzelbilder fortlaufend aktualisiert, was eine Erhöhung der Identifikationsgenauigkeit ermöglicht.
In der vorliegenden Offenbarung wird das RNN-Verfahren auf eine Struktur angewandt, die das Rolling-Shutter-Verfahren verwendet. Beim Rolling-Shutter-Verfahren werden die Pixelsignale zeilenweise ausgelesen. Daher werden die zeilenweise gelesenen Pixelsignale dem RNN als Zeitreiheninformationen zugeführt. Infolgedessen kann die Identifikationsverarbeitung, die auf der Vielzahl von Zeilen basiert, im Vergleich zu einer Konfiguration, die das CNN verwendet, in kleinerem Maßstab durchgeführt werden (siehe 13B). Alternativ kann das RNN auch mit dem Global-Shutter-Verfahren auf eine Struktur angewendet werden. In diesem Fall ist es zum Beispiel denkbar, dass benachbarte Zeilen als Zeitreiheninformation betrachtet werden.
(2-4. Ansteuerungsgeschwindigkeit)
Als Nächstes wird die Beziehung zwischen der Ansteuerungsgeschwindigkeit des Rahmens und dem Auslesebetrag des Pixelsignals mit Bezug auf 15A und 15B beschrieben. 15A ist ein Diagramm, das ein Beispiel zeigt, bei dem alle Zeilen in einem Bild gelesen werden. Dabei wird davon ausgegangen, dass die Auflösung eines Bildes, das einer Erkennungsverarbeitung unterzogen werden soll, 640 Pixel in horizontaler Richtung * 480 Pixel (480 Zeilen) in vertikaler Richtung beträgt. In diesem Fall ist bei einer Ansteuerungsgeschwindigkeit von 14.400 [Zeilen/Sekunde] eine Ausgabe mit 30 [Bildern pro Sekunde (fps)] möglich.
Als Nächstes betrachten wir einen Fall, in dem die Abbildung mit Zeilensprung durchgeführt wird. Wie in 15B dargestellt, wird beispielsweise davon ausgegangen, dass die Abbildung unter Überspringen jeder zweiten Zeile erfolgt, d. h. die Abbildung wird mit 1/2-Skipping durchgeführt. Ein erstes Beispiel für das 1/2-Skipping ist, dass bei einer Ansteuerungsgeschwindigkeit von 14.400 [Zeilen/Sekunde] in der oben beschriebenen Weise die Anzahl der aus dem Bild zu lesenden Zeilen halbiert wird, so dass die Auflösung sinkt, aber es ist möglich, mit 60 [fps] auszugeben, was der doppelten Geschwindigkeit entspricht, wenn kein Skipping durchgeführt wird, was eine Erhöhung der Bildrate ermöglicht. Ein zweites Beispiel für das 1/2-Skipping: Bei einer Ansteuerungsgeschwindigkeit von 7.200 [fps], die der Hälfte der Ansteuerungsgeschwindigkeit des ersten Beispiels entspricht, beträgt die Bildrate 30 [fps] wie in dem Fall, in dem kein Skipping durchgeführt wird, aber der Stromverbrauch kann reduziert werden.
Wenn das Zeilenbild gelesen wird, kann beispielsweise in Abhängigkeit vom Zweck der Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals ausgewählt werden, ob kein Skipping durchgeführt wird, ein Skipping durchgeführt wird, um die Ansteuerungsgeschwindigkeit zu erhöhen, oder die Ansteuerungsgeschwindigkeit in einem Fall, in dem ein Skipping durchgeführt wird, gleich der Ansteuerungsgeschwindigkeit in einem Fall, in dem kein Skipping durchgeführt wird, eingestellt wird.
16 ist ein schematisches Diagramm zur schematischen Beschreibung der Erkennungsverarbeitung gemäß der vorliegenden Ausführungsform der vorliegenden Offenbarung. In 16 beginnt das Informationsverarbeitungssystem 1 (siehe 1) gemäß der vorliegenden Ausführungsform in Schritt S1 damit, ein Erkennungszielbild zu erfassen.
Beachten Sie, dass das Zielbild z. B. ein Bild ist, das eine handgeschriebene Ziffer „8“ zeigt. Des Weiteren wird angenommen, dass ein Lernmodell, das unter Verwendung vorbestimmter Trainingsdaten erlernt wurde, um eine Ziffer identifizieren zu können, im Speicher 13 als Programm vorgespeichert ist, und die Erkennungsverarbeitungseinheit 12 kann eine in einem Bild enthaltene Ziffer durch Ausführen des aus dem Speicher 13 geladenen Programms identifizieren. Außerdem wird davon ausgegangen, dass das Informationsverarbeitungssystem 1 die Abbildung nach dem Rolling-Shutter-Verfahren durchführt. Es ist zu beachten, dass auch in dem Fall, in dem das Informationsverarbeitungssystem 1 die Abbildung mit dem Global-Shutter-Verfahren durchführt, die folgende Verarbeitung in ähnlicher Weise anwendbar ist wie in dem Fall, in dem das Rolling-Shutter-Verfahren verwendet wird.
Wenn die Abbildung gestartet wird, liest das Informationsverarbeitungssystem 1 in Schritt S2 sequentiell einen Rahmen vom oberen Ende bis zum unteren Ende des Rahmens Zeile für Zeile.
Wenn die Zeilenlesung eine bestimmte Position erreicht, erkennt die Erkennungsverarbeitungseinheit 12 die Ziffern „8“ und „9“ aus dem Bild der gelesenen Zeilen (Schritt S3). Da zum Beispiel die Ziffern „8“ und „9“, deren obere Hälften einen gemeinsamen Merkmalsbereich haben, wenn der Merkmalsbereich nach dem aufeinanderfolgenden Lesen von Zeilen von oben erkannt wird, kann das erkannte Objekt entweder als die Ziffer „8“ oder „9“ identifiziert werden.
In diesem Fall erscheint, wie in Schritt S4a dargestellt, das gesamte Objekt, das nach dem Ende des Lesens bis zur unteren Endzeile oder einer Zeile in der Nähe des unteren Endes des Rahmens erkannt wurde, und das Objekt, das in Schritt S2 entweder als die Ziffer „8“ oder „9“ identifiziert wurde, wird als die Ziffer „8“ bestimmt.
Andererseits sind die Schritte S4b und S4c Prozesse, die mit der vorliegenden Offenbarung zusammenhängen.
Wie in Schritt S4b dargestellt, wird die Zeilenlesung ausgehend von der in Schritt S3 gelesenen Zeilenposition fortgesetzt, und das erkannte Objekt kann als die Ziffer „8“ identifiziert werden, noch bevor die Zeilenposition das untere Ende der Ziffer „8“ erreicht. Zum Beispiel unterscheiden sich die untere Hälfte der Ziffer „8“ und die untere Hälfte der Ziffer „9“ in ihren Merkmalen voneinander. Wenn die Zeilenlesung bis zu einem Abschnitt fortschreitet, in dem der Unterschied in den Merkmalen deutlich wird, ist es möglich, das in Schritt S3 erkannte Objekt als eine der beiden Ziffern „8“ und „9“ zu identifizieren. In dem in 16 dargestellten Beispiel wird das Objekt in Schritt S4b als die Ziffer „8“ bestimmt.
Darüber hinaus ist es, wie in Schritt S4c dargestellt, auch denkbar, dass beim weiteren Fortschreiten der Zeilenlesung von der Zeilenposition in Schritt S3, d. h. vom Zustand des Schrittes S3, die Zeilenlesung zu einer Zeilenposition springt, bei der es wahrscheinlich ist, dass das in Schritt S3 erkannte Objekt als eine der Ziffern „8“ und „9“ identifiziert wird. Wenn die Zeile nach dem Sprung gelesen wird, kann festgestellt werden, ob das in Schritt S3 erkannte Objekt entweder „8“ oder „9“ ist. Man beachte, dass die Position der Zeile nach dem Sprung auf der Grundlage eines Lernmodells bestimmt werden kann, das im Voraus auf der Basis von vorgegebenen Trainingsdaten gelernt wurde.
In diesem Fall kann das Informationsverarbeitungssystem 1 die Erkennungsverarbeitung beenden, wenn das Objekt im oben beschriebenen Schritt S4b oder Schritt S4c bestimmt wurde. Dadurch kann die Erkennungszeit verkürzt und der Stromverbrauch des Informationsverarbeitungssystems 1 reduziert werden.
Beachten Sie, dass es sich bei den Trainingsdaten um Daten handelt, die eine Vielzahl von Kombinationen von Eingangssignalen und Ausgangssignalen für jede Leseeinheit enthalten. Bei der oben beschriebenen Aufgabe, eine Ziffer zu identifizieren, können beispielsweise Daten (Zeilendaten, unterabgetastete Daten oder dergleichen) für jede Leseeinheit als Eingangssignal verwendet werden, und Daten, die eine „korrekte Ziffer“ anzeigen, können als Ausgangssignal verwendet werden. Ein weiteres Beispiel: Bei einer Aufgabe zur Erkennung eines Objekts können beispielsweise Daten (Zeilendaten, unterabgetastete Daten oder dergleichen) für jede Leseeinheit als Eingangssignal und eine Objektklasse (menschlicher Körper/Fahrzeug/Nicht-Objekt), Objektkoordinaten (x, y, h, w) oder dergleichen als Ausgangssignal verwendet werden. Alternativ kann das Ausgangssignal auch nur aus dem Eingangssignal durch selbstüberwachtes Lernen erzeugt werden.
(Erste Ausführungsform)
17 ist ein Diagramm zur Veranschaulichung eines Problems bei der Erkennungsverarbeitung in einem Fall, in dem ein Pixelsignal ausgegeben wird, das dem Licht entspricht, das über die Optikeinheit 30 auf die Lichtempfangsfläche fällt.
Wie in 17 dargestellt, sind die Bilddaten, die durch Korrektur der Verzerrung der Bilddaten im linken Diagramm in Übereinstimmung mit den Linsenparametern der Optikeinheit 30 erhalten wurden, im rechten Diagramm dargestellt. In einem Fall, in dem Zeilendaten L170, L172, wie in 16 dargestellt, aus den Daten nach der Verzerrungskorrektur im rechten Diagramm gelesen werden, wird die Verzerrung stärker und die Dichte der Pixel auf den Zeilendaten L170 nimmt in einem peripheren Teil des Bildes wie in den Zeilendaten L170 ab. Andererseits ist die Verzerrung im zentralen Bereich der Pixel geringer als im peripheren Bereich, und die Pixeldichte der Pixel auf den Zeilendaten L172 ist größer als die Dichte der Pixel auf den Zeilendaten L170. Wie oben beschrieben, sinkt die Erkennungsrate der Erkennungsverarbeitung der Erkennungsverarbeitungs-Ausführungseinheit 124, wenn die Dichte zwischen den Zeilendaten L170, L172 unterschiedlich ist. Andererseits werden die aktiven Pixel nicht quadratisch, selbst wenn eine ungleichmäßige Abtastung durchgeführt wird, um aktive Pixel zu extrahieren, und es wird schwierig für die Erkennungsverarbeitungseinheit 124, die Erkennungsverarbeitung durchzuführen.
18 ist ein Funktionsblockdiagramm eines Beispiels zur Beschreibung der Funktion der Sensorsteuereinheit 11 und der Funktion der Erkennungsverarbeitungseinheit 12 gemäß der vorliegenden Ausführungsform.
In 18 weist die Sensorsteuereinheit 11 eine Leseeinrichtung 110 und eine erste Linsenverzerrungs-Inverskorrektureinheit 112 auf. 18 zeigt außerdem eine Speichereinheit 114, die Informationen über einen Linsenverzerrungsparameter speichert.
Die Erkennungsverarbeitungseinheit 12 weist eine Merkmalsberechnungseinheit 120, eine Merkmalspeicher-Steuereinheit 121, eine Lesebereichs-Bestimmungseinheit 123 und eine Erkennungsverarbeitungs-Ausführungseinheit 124 auf.
In der Sensorsteuereinheit 11 stellt die Leseeinrichtung 110 die zu lesenden Pixel in der Pixelmatrixeinheit 101 (siehe 4) ein, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array auf der Grundlage von Koordinaten angeordnet ist, die von der ersten Linsenverzerrungs-Inverskorrektureinheit 112 angegeben werden.
Die erste Linsenverzerrungs-Inverskorrektureinheit 112 führt eine Koordinatenumrechnung auf der Grundlage der in der Speichereinheit 114 gespeicherten Informationen über den Linsenverzerrungsparameter durch und liefert ein Ergebnis der Koordinatenumrechnung an die Leseeinrichtung 110. Die erste Linsenverzerrungs-Inverskorrektureinheit (112) empfängt von der Lesebereichs-Bestimmungseinheit (123) Lesebereichsinformationen, die einen von der Erkennungsverarbeitungseinheit (12) zu lesenden Lesebereich angeben. Die Lesebereichsinformationen sind zum Beispiel eine Zeilennummer einer oder mehrerer Zeilen. Alternativ kann es sich bei den Lesebereichsinformationen auch um Informationen handeln, die eine Pixelposition in einer Zeile angeben. Die Kombination von einer oder mehreren Zeilennummern und Informationen, die die Pixelposition eines oder mehrerer Pixel in einer Zeile angeben, als Lesebereichsinformationen ermöglicht es außerdem, Lesebereiche mit verschiedenen Mustern zu bezeichnen. Beachten Sie, dass der Lesebereich mit der Leseeinheit gleichzusetzen ist. Alternativ können auch der Lesebereich und die Leseeinheit voneinander verschieden sein.
Darüber hinaus kann die Leseeinrichtung 110 von der Erkennungsverarbeitungseinheit 1 oder der Gesichtsfeldverarbeitungseinheit 14 Informationen über die Belichtung und die Analogverstärkung erhalten (siehe 1). Die Leseeinrichtung 110 liest die Pixeldaten von der Sensoreinheit 10 in Übereinstimmung mit den Lesebereichsinformationen, die von der ersten Linsenverzerrungs-Inverskorrektureinheit 112 eingegeben wurden. Zum Beispiel erhält die Leseeinrichtung 110 eine Zeilennummer, die eine zu lesende Zeile angibt, und Pixelpositionsinformationen, die eine Position eines in der Zeile zu lesenden Pixels auf der Grundlage der Lesebereichsinformationen angeben, und gibt die erhaltenen Zeilennummern und Pixelpositionsinformationen an die Sensoreinheit 10 aus.
Darüber hinaus stellt die Leseeinrichtung 110 die Belichtung und eine analoge Verstärkung (AG) für die Sensoreinheit 10 in Übereinstimmung mit den gelieferten Informationen ein, die die Belichtung und die analoge Verstärkung angeben. Außerdem kann die Leseeinrichtung 110 ein Vertikalsynchronisationssignal und ein Horizontalsynchronisationssignal erzeugen und die Signale an die Sensoreinheit 10 weiterleiten.
In der Erkennungsverarbeitungseinheit 12 erhält die Lesebereichs-Bestimmungseinheit 123 von der Merkmalspeicher-Steuereinheit 121 Leseinformationen, die einen als nächstes zu lesenden Lesebereich angeben. Die Lesebereichs-Bestimmungseinheit 123 erzeugt auf der Grundlage der empfangenen Leseinformationen Lesebereichsinformationen und gibt die Lesebereichsinformationen an die Leseeinrichtung 110 aus.
Dabei kann die Lesebereichs-Bestimmungseinheit 123 als den durch die Lesebereichsinformationen angegebenen Lesebereich beispielsweise Informationen verwenden, in denen Lesepositionsinformationen zum Lesen von Pixeldaten einer vorbestimmten Leseeinheit zu der vorbestimmten Leseeinheit hinzugefügt werden. Die Leseeinheit besteht aus einem Satz von einem oder mehreren Pixeln und wird von der Erkennungsverarbeitungseinheit 12 und der visuellen Erkennungsverarbeitungseinheit 14 verarbeitet. Wenn die Leseeinheit beispielsweise eine Zeile ist, wird eine Zeilennummer [L#x], die eine Zeilenposition angibt, als Lesepositionsinformation hinzugefügt. Darüber hinaus werden in einem Fall, in dem die Leseeinheit ein rechteckiger Bereich mit einer Vielzahl von Pixeln ist, Informationen, die die Position des rechteckigen Bereichs in der Pixelmatrixeinheit 101 angeben, z. B. Informationen, die die Position eines Pixels in der oberen linken Ecke angeben, als Lesepositionsinformationen hinzugefügt. In der Lesebereichs-Bestimmungseinheit 123 wird die anzuwendende Leseeinheit im Voraus festgelegt. Wenn ein Subpixel mit dem Global-Shutter-Verfahren gelesen wird, kann Lesebereichs-Bestimmungseinheit 123 außerdem Positionsinformationen des Subpixels im Lesebereich enthalten. Alternativ kann die Lesebereichs-Bestimmungseinheit 123 die Leseeinheit z. B. gemäß einer Anweisung von außerhalb der Lesebereichs-Bestimmungseinheit 123 bestimmen. Daher fungiert die Lesebereichs-Bestimmungseinheit 123 als eine Leseeinheits-Steuereinheit, die die Leseeinheit steuert.
Beachten Sie, dass die Lesebereichs-Bestimmungseinheit 123 auch einen als Nächstes zu lesenden Lesebereich auf der Grundlage von Erkennungsinformationen bestimmen kann, die von der später zu beschreibenden Erkennungsverarbeitungs-Ausführungseinheit 124 geliefert werden, und Lesebereichsinformationen erzeugen kann, die den bestimmten Lesebereich anzeigen.
In der Erkennungsverarbeitungseinheit 12 berechnet die Merkmalsberechnungseinheit 120 auf der Grundlage der Pixeldaten und der von der Leseeinrichtung 110 gelieferten Lesebereichsinformationen das Merkmal des durch die Lesebereichsinformationen angegebenen Bereichs. Die Merkmalsberechnungseinheit 120 gibt das berechnete Merkmal an die Merkmalspeicher-Steuereinheit 121 aus.
Die Merkmalsberechnungseinheit 120 kann das Merkmal auf der Grundlage der von der Leseeinrichtung 110 gelieferten Pixeldaten und eines von der Merkmalspeicher-Steuereinheit 121 gelieferten vergangenen Merkmals berechnen. Alternativ dazu kann die Merkmalsberechnungseinheit 120 Informationen zur Einstellung der Belichtung und der analogen Verstärkung beispielsweise von der Leseeinrichtung 110 erhalten und die erhaltenen Informationen zur Berechnung des Merkmals verwenden.
In der Erkennungsverarbeitungseinheit 12 speichert die Merkmalspeicher-Steuereinheit 121 das von der Merkmalsberechnungseinheit 120 gelieferte Merkmal in einer Merkmalspeichereinheit 122. Wenn das Merkmal von der Merkmalsberechnungseinheit 120 geliefert wird, erzeugt die Merkmalspeicher-Steuereinheit 121 außerdem Leseinformationen, die einen als Nächstes zu lesenden Lesebereich angeben, und gibt die Leseinformationen an die Lesebereichs-Bestimmungseinheit 123 aus.
Dabei kann die Merkmalspeicher-Steuereinheit 121 das bereits gespeicherte Merkmal und das neu gelieferte Merkmal kombinieren und das kombinierte Merkmal speichern. Darüber hinaus kann die Merkmalspeicher-Steuereinheit 121 ein unnötiges Merkmal aus den in der Merkmalspeichereinheit 122 gespeicherten Merkmalen löschen. Bei dem überflüssigen Merkmal kann es sich beispielsweise um ein Merkmal handeln, das sich auf das vorherige Bild bezieht, ein Merkmal, das auf der Grundlage eines Bildes einer Szene berechnet wurde, die sich von einem Bild unterscheidet, für das ein neues Merkmal berechnet und bereits gespeichert wurde, oder dergleichen. Darüber hinaus kann die Merkmalspeicher-Steuereinheit 121 bei Bedarf auch alle in der Merkmalspeichereinheit 122 gespeicherten Merkmale löschen und initialisieren.
Außerdem erzeugt die Merkmalspeicher-Steuereinheit 121 ein Merkmal, das für die Erkennungsverarbeitung durch die Erkennungsverarbeitungs-Ausführungseinheit 124 auf der Grundlage des von der Merkmalsberechnungseinheit 120 gelieferten Merkmals und des in der Merkmalspeichereinheit 122 gespeicherten Merkmals verwendet wird. Die Merkmalspeicher-Steuereinheit 121 gibt das erzeugte Merkmal an die Erkennungsverarbeitungs-Ausführungseinheit 124 aus.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 führt die Erkennungsverarbeitung auf der Grundlage des von der Merkmalspeicher-Steuereinheit 121 gelieferten Merkmals durch. Die Erkennungsverarbeitungs-Ausführungseinheit 124 führt während der Erkennungsverarbeitung eine Objekterkennung, Gesichtserkennung oder dergleichen durch. Die Erkennungsverarbeitungs-Ausführungseinheit 124 gibt ein Erkennungsergebnis der Erkennungsverarbeitung an die Ausgabesteuereinheit 15 aus. Das Erkennungsergebnis enthält Informationen, die eine Erkennungsbewertung angeben.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 kann auch Erkennungsinformationen einschließlich des durch die Erkennungsverarbeitung erzeugten Erkennungsergebnisses an die Lesebereichs-Bestimmungseinheit 123 ausgeben. Beachten Sie, dass die Erkennungsverarbeitungs-Ausführungseinheit 124 das Merkmal von der Merkmalspeicher-Steuereinheit 121 empfangen und die Erkennungsverarbeitung beispielsweise auf der Grundlage eines von einer Triggererzeugungseinheit (nicht dargestellt) erzeugten Triggers durchführen kann.
19 ist ein Diagramm, das einen Verarbeitungsablauf gemäß der vorliegenden Ausführungsform zeigt. Das obere Diagramm veranschaulicht den Ablauf einer normalen Verzerrungskorrektur, das mittlere Diagramm den Ablauf einer normalen Verzerrungskorrektur im Falle des Lesens von Teilproben, und das untere Diagramm veranschaulicht einen Verarbeitungsablauf gemäß der vorliegenden Ausführungsform. Wie in dem unteren Diagramm dargestellt, wird in dem Verarbeitungsablauf gemäß der vorliegenden Ausführungsform eine Szene durch die Linse der Optikeinheit 30 (S10) übertragen. Zu diesem Zeitpunkt wird eine Position, an der die Szene durch die Linse auf die Sensoreinheit 10 konzentriert wird, in einer Weise verzerrt, die von der Position der Szene abhängt.
Anschließend wird die als Bild dargestellte Szene von der Sensoreinheit 10 in Pixeldaten umgewandelt (S12). Die Leseeinrichtung 110 liest die Bilddaten unter Berücksichtigung der Linsenverzerrung, so dass die Szene nach der Verzerrungskorrektur gleichmäßig abgetastet wird (S12), und liefert die Bilddaten an die Merkmalsberechnungseinheit 120 (S14).
Bei der normalen Verarbeitung hingegen werden die Bilddaten gelesen (S140), und nach dem Lesen wird eine Verzerrungskorrektur durchgeführt (S142). Die auf diese Weise verarbeiteten Bilddaten entsprechen dem oberen rechten Diagramm in 17. Darüber hinaus werden die Bilddaten bei der Durchführung einer normalen Verzerrungskorrektur im Falle einer Probenlesung einer Probenlesung unterzogen (S144), und die Verzerrungskorrektur wird nach der Lesung durchgeführt (S146). Auch in diesem Fall, wie im rechten Diagramm von 17, werden die Bilddaten uneinheitlich.
Im Folgenden wird ein Beispiel für die Verarbeitung der ersten Linsenverzerrungs-Inverskorrektureinheit 112 unter Bezugnahme auf 20 bis 24 detailliert beschrieben.
20 ist ein Diagramm, das schematisch ein Verarbeitungsbeispiel der ersten Linsenverzerrungs-Inverskorrektureinheit 112 zeigt. Dabei sind (x, y)-Koordinaten Koordinaten, für die eine Leseanweisung von der Lesebereichs-Bestimmungseinheit 123 empfangen wurde. Außerdem sind (x1, y1) die Koordinaten der Koordinatenbilddaten, die (x, y) entsprechen. Wie oben beschrieben, speichert die Speichereinheit 114 den Verzerrungsparameter, der eine Entsprechung zwischen den Koordinaten (x1, y1) und den Koordinaten (x, y) angibt. Wenn der Verzerrungsparameter, der diese Entsprechung angibt, durch eine Funktion f ausgedrückt wird, erhält man f (x1, y1) = (x, y) .
Daher transformiert die erste Linsenverzerrungs-Inverskorrektureinheit 112 die Koordinaten (x, y) des von der Lesebereichs-Bestimmungseinheit 123 angegebenen Bildbereichs in die Koordinaten (x1, y1). Diese Rücktransformation wird hier durch f-1(x, y) ausgedrückt. Die Leseeinrichtung 110 liest Bilddaten, die den invers transformierten Koordinaten (x1, y1) entsprechen, aus der Sensoreinheit 10 aus und liefert die Bilddaten als Bilddaten der Koordinaten (x, y) an die Merkmalsberechnungseinheit 120. Infolgedessen kann die Merkmalsberechnungseinheit 120 ein Merkmal aus den Zeilendaten L170, L172 berechnen. In diesem Fall, wie in 20 dargestellt, sind die Bilddaten auf den Zeilendaten L170, L172 annähernd gleichförmig, so dass die Erkennungsrate in der Erkennungsverarbeitungs-Ausführungseinheit 124 gleichförmig gemacht wird, ohne von Variationen abhängig von den Positionen der Zeilendaten L170, L172 beeinflusst zu werden.
21 ist ein Diagramm, das schematisch ein Verarbeitungsbeispiel der ersten Linsenverzerrungs-Inverskorrektureinheit 112 für den Fall darstellt, dass Daten gelesen werden, die Einzeilendaten entsprechen. Dabei sind (x, y)-Koordinaten auf einer Zeile L174a Koordinaten, für die eine Leseanweisung von der Lesebereichs-Bestimmungseinheit 123 empfangen wurde. Außerdem sind (x1, y1) die Koordinaten der Koordinatenbilddaten, die (x, y) entsprechen. Die Koordinate (x, y) auf der Zeile L174a wird als f-1(x, y) invers transformiert. Die Koordinaten, die den (x, y)-Koordinaten auf der Zeile L174a entsprechen, sind (x1, y1)-Koordinaten auf einer Zeile L174c. Die Leseeinrichtung 110 liest Bilddaten, die den invers transformierten Koordinaten (x1, y1) auf der Zeile L174c entsprechen, aus der Sensoreinheit 10 aus und liefert die Bilddaten als Bilddaten der Koordinaten (x, y) auf der Zeile L174a an die Merkmalsberechnungseinheit 120. Der Bereich A24 entspricht dem Bereich A24, der später unter Bezugnahme auf 22 beschrieben wird.
22 zeigt ein Beispiel, bei dem in einem Fall, in dem die Koordinaten (x1, y1), die den Koordinaten (x, y) entsprechen, nicht direkt ausgelesen werden können, weil eine Schaltung kompliziert wird, stattdessen das Auslesen durch die Binning-Steuerung angewendet wird. Wenn beispielsweise ein Pixel G240 in 22 nicht direkt ausgelesen werden kann, wird stattdessen der Bereich A24 eines 3 * 3-Pixel-Bereichs durch die Binning-Steuerung ausgelesen.
23A ist ein Diagramm, das ein Beispiel zeigt, in dem Pixel 208 in einer Gitterstruktur, wie in 9B dargestellt, unterabgetastet werden. Wie in 23A dargestellt, wird die Linsenverzerrung der Optikeinheit 30 auch dann korrigiert, wenn die Pixel 208 in einer Gitterstruktur unterabgetastet werden. Infolgedessen kann die Erkennungsverarbeitung durch die Erkennungsverarbeitungs-Ausführungseinheit 124 ohne Beeinträchtigung durch die Linsenverzerrung der Optikeinheit 30 durchgeführt werden.
23B ist ein Diagramm, das ein Beispiel zeigt, in dem die Unterabtastung gleichzeitig mit der Koordinatentransformation in 23A durchgeführt wird. Auf diese Weise können die Bilddaten aus den Koordinaten (x1, y1), die durch Rücktransformation von f-1(x, y) erhalten wurden, ausgelesen und im Speicher 13 oder dergleichen gespeichert werden. In diesem Fall ist es auch möglich, die Erkennungsverarbeitung ohne Verzerrungskorrektur und Unterabtastung während der Erkennungsverarbeitung durchzuführen.
24 ist ein Flussdiagramm, das den Verarbeitungsablauf in der Leseeinrichtung 110 zeigt.
Zunächst bestimmt die Lesebereichs-Bestimmungseinheit 123 den nächsten Lesebereich in Übereinstimmung mit dem Lesemuster (Schritt S100) und liefert Lesebereichsinformationen an die erste Linsenverzerrungs-Inverskorrektureinheit 112. Die Lesebereichsinformationen enthalten Koordinateninformationen über den Lesebereich.
Als Nächstes holt die erste Linsenverzerrungs-Inverskorrektureinheit 112 den Parameter für die Linsenverzeichnung aus der Speichereinheit 114 (Schritt S102). Dann führt die erste Linsenverzerrungs-Inverskorrektureinheit 112 eine Rücktransformation der Koordinaten des Lesebereichs unter Verwendung des Linsenverzerrungsparameters durch (Schritt S104). Dann liest die Leseeinrichtung 110 die Bilddaten aus der Sensoreinheit 10 aus (Schritt S106), liefert die Bilddaten an die Merkmalsberechnungseinheit 120 und beendet die Verarbeitung.
Wie oben beschrieben, transformiert die erste Linsenverzerrungs-Inverskorrektureinheit 112 die Koordinaten des nächsten Lesebereichs unter Verwendung des Linsenverzerrungsparameters invers, liest die Bilddaten aus der Sensoreinheit 10 aus und liefert die Bilddaten an die Merkmalsberechnungseinheit 120. Dadurch wird die Linsenverzerrung korrigiert, und das Merkmal kann anhand der vereinheitlichten Bilddaten berechnet werden. Dadurch kann die Erkennungsgenauigkeit der Erkennungsverarbeitung durch die Erkennungsverarbeitungseinheit 124 weiter erhöht werden.
(Zweite Ausführungsform)
Ein Informationsverarbeitungssystem 1 gemäß einer zweiten Ausführungsform unterscheidet sich von dem Informationsverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass anstelle des CNN der Erkennungsverarbeitungs-Ausführungseinheit 124 ferner ein Punktnetz-Erkennungsprogramm verwendet werden kann. Im Folgenden werden die Unterschiede zum Informationsverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
25 ist ein Diagramm, das konzeptionell ein Problem bei der normalen Korrekturverarbeitung veranschaulicht. Das linke Diagramm in 25 zeigt die Bilddaten vor der Korrektur, das mittlere Diagramm zeigt ein Bild nach der Verzerrungskorrektur. Das rechte Diagramm zeigt ein Bild, auf dem eine Interpolationsverarbeitung durchgeführt wird, um die Verteilung der Pixel zu vereinheitlichen. Wie im rechten Diagramm dargestellt, besteht die Möglichkeit, dass die Anzahl der durch die Interpolation erzeugten Pixel steigt und die Erkennungsrate sinkt, je nach dem Linsenverzerrungsparameter.
26 ist ein Funktionsblockdiagramm eines Beispiels zur Beschreibung der Funktion der Sensorsteuereinheit 11 und der Funktion der Erkennungsverarbeitungseinheit 12 gemäß der zweiten Ausführungsform. Wie in 26 dargestellt, weist die Erkennungsverarbeitungseinheit 12 gemäß der zweiten Ausführungsform außerdem eine zweite Linsenverzerrungs-Korrektureinheit 125 auf.
27 ist eine schematische Darstellung eines Punktnetz-Erkennungsprogramms 52a. Das Punktnetz-Erkennungsprogramm 52a kann die Erkennungsrate auch für Daten beibehalten, bei denen die Bilddaten nicht in einer Gitterstruktur angeordnet sind und die Verteilung der Bilddaten ungleichmäßig ist. Daher können, wie im mittleren Diagramm in 25 dargestellt, auch die Pixelwerte einer Punktgruppe erkannt werden. Beachten Sie, dass die Bilder 50, 51 den oben beschriebenen Bildern 50, 51 in 10 entsprechen.
28 ist ein Diagramm, das einen Verarbeitungsablauf gemäß der zweiten Ausführungsform zeigt. Wie in 28 dargestellt, wird in dem Verarbeitungsablauf gemäß der vorliegenden Ausführungsform eine Szene durch die Linse der Optikeinheit 30 (S10) übertragen. Zu diesem Zeitpunkt wird eine Position, an der die Szene durch die Linse auf die Sensoreinheit 10 konzentriert wird, in einer Weise verzerrt, die von der Position der Szene abhängt.
Anschließend wird die als Bild dargestellte Szene von der Sensoreinheit 10 (S12) in Pixeldaten umgewandelt und von der Leseeinrichtung 110 (S16) abgetastet und gelesen. Die Leseeinrichtung 110 liefert die abgetasteten Bilddaten an die zweite Linsenverzerrungs-Korrektureinheit 125. Die zweite Linsenverzerrungs-Korrektureinheit 125 transformiert die Koordinaten (x, y) in Koordinaten (x1, y1) durch f-1(x, y) und transformiert die abgetasteten Bilddaten (x, y) in Bilddaten (x1, y1), in denen die Verzerrung korrigiert ist (S18). Die zweite Linsenverzerrungs-Korrektureinheit 125 liefert die Bilddaten (x1, y1) an die Merkmalsberechnungseinheit 120. Wie oben beschrieben, ermöglicht die Verwendung des Punktnetz-Erkennungsprogramms 52a die Berechnung des Merkmals anhand der Bilddaten (x1, y1), bei denen die Verzerrung korrigiert wurde. Man beachte, dass die Entsprechung zwischen den Koordinaten (x1, y1) und den Koordinaten (x, y) im Voraus berechnet und in der Speichereinheit 114 als Koordinatenumrechnungskarte gespeichert werden kann. In diesem Fall kann die Verwendung der Koordinatenumrechnungskarte zur Koordinatenumrechnung die Berechnungszeit verkürzen.
29 ist ein Flussdiagramm, das den Verarbeitungsablauf in der Erkennungsverarbeitungseinheit 12 veranschaulicht.
Zunächst liest die Leseeinrichtung 110 die Bilddaten aus der Sensoreinheit 10 auf der Grundlage der Koordinateninformationen in den Lesebereichsinformationen aus und liefert die Bilddaten an die zweite Linsenverzerrungs-Korrektureinheit 125 (Schritt S200).
Als Nächstes holt die zweite Linsenverzerrungs-Korrektureinheit 125 den Linsenverzerrungsparameter aus der Speichereinheit 114 (Schritt S202). Die zweite Linsenverzerrungs-Korrektureinheit 125 führt eine Verzerrungskorrektur an den Koordinaten der gelesenen Bilddaten unter Verwendung des Linsenverzerrungsparameters durch (Schritt S204). Dann berechnet die Merkmalsberechnungseinheit 120 ein Merkmal aus den Bilddaten der Koordinaten, die einer Verzerrungskorrektur unterzogen wurden (Schritt S206).
Wie oben beschrieben, führt die zweite Linsenverzerrungs-Korrektureinheit 125 gemäß der vorliegenden Ausführungsform eine Verzerrungskorrektur an den Koordinaten der gelesenen Bilddaten unter Verwendung des Linsenverzerrungsparameters durch. Dann berechnet die Merkmalsberechnungseinheit 120 ein Merkmal aus den Bilddaten der Koordinaten, die einer Verzerrungskorrektur unterzogen wurden, und führt eine Erkennung unter Verwendung des Punktnetz-Erkennungsprogramms 52a der Erkennungsverarbeitungs-Ausführungseinheit 124 durch. Dadurch kann das Merkmal aus den Bilddaten berechnet werden, in denen die Linsenverzerrung korrigiert wurde, ohne dass eine Interpolationsverarbeitung oder dergleichen durchgeführt werden muss. Dadurch kann die Erkennungsgenauigkeit der Erkennungsverarbeitung in der Erkennungsverarbeitungs-Ausführungseinheit 124 weiter erhöht werden.
(Dritte Ausführungsform)
Ein Informationsverarbeitungssystem 1 gemäß einer Modifikation einer dritten Ausführungsform unterscheidet sich von dem Informationsverarbeitungssystem 1 gemäß der zweiten Ausführungsform dadurch, dass die Linsenverzerrung für ein gelesenes Bild korrigiert wird und die Bilddaten nach der Korrektur, die den Daten einer Zeile vor der Korrektur entsprechen, an die Erkennungsverarbeitungs-Ausführungseinheit 124 geliefert werden. Im Folgenden werden die Unterschiede zum Informationsverarbeitungssystem 1 gemäß der zweiten Ausführungsform beschrieben.
30 ist ein Diagramm, das konventionelle Daten zeigt, die in Übereinstimmung mit dem im oberen Teil von 19 dargestellten Verarbeitungsablauf verarbeitet werden. (a) in 30 zeigt zweidimensionale Bilddaten, die von der Leseeinrichtung 110 gelesen werden. (b) ist ein Diagramm, das Bilddaten zeigt, die durch die Durchführung einer Verzerrungskorrektur an den Koordinaten der gelesenen Bilddaten durch die zweite Linsenverzerrungskorrektureinheit 125 unter Verwendung des Linsenverzerrungsparameters erhalten wurden. Die in (b) dargestellten zweidimensionalen Bilddaten entsprechen den Bilddaten, die der konventionellen Verzerrungskorrektur unterzogen wurden, die im mittleren Diagramm in 25 dargestellt ist. Wenn diese Daten der Erkennungsverarbeitungseinheit 124 zugeführt werden, die z. B. ein CNN enthält, tritt ein ähnliches Problem auf wie bei der in 25 dargestellten Verarbeitung.
Das heißt, wenn die in (b) von 30 dargestellten Bilddaten wie im herkömmlichen Fall zeilenweise als Versorgungsbilddaten eingegeben werden, werden die Bilddaten am unteren Ende von (a) von 30 zeilenweise ausgeschnitten, und der Informationsumfang nimmt entsprechend ab. Andererseits sind die Zeilendaten in der Mitte alle als Versorgungsbilddaten einer Zeile ausgebildet, und die Informationsgröße ist größer als die Informationsgröße der Versorgungsbilddaten im Endbereich. Infolgedessen variiert die Erkennungsgenauigkeit der Erkennungsverarbeitungseinheit 124 in einer Weise, die von der Position der Zeile des Bildes nach der in (b) von 30 dargestellten Korrektur abhängt.
31 ist ein Diagramm zur Veranschaulichung der Verarbeitung von Daten zur Verwendung in dem Informationsverarbeitungssystem 1 gemäß der dritten Ausführungsform. (a) von 31 zeigt zweidimensionale Bilddaten, die von der Leseeinrichtung 110 (siehe 26) gelesen wurden. Die Daten jeder Zeile der zweidimensionalen Bilddaten sind linear, wie durch die Zeilendaten L30a angegeben. Diese Verarbeitung entspricht S140 des im oberen Teil von 19 dargestellten Verarbeitungsablaufs.
(b) ist ein Diagramm, das die Bilddaten zeigt, die man erhält, wenn die zweite Linsenverzerrungs-Korrektureinheit 125 (siehe 26) eine Verzerrungskorrektur an den Koordinaten der gelesenen Bilddaten unter Verwendung des Linsenverzerrungsparameters durchführt. Wie in (b) dargestellt, sind die Zeilendaten L30a nach der Korrektur gekrümmt, was durch eine Zeile L30b angezeigt wird. Diese Verarbeitung entspricht S142 des im oberen Teil von 19 dargestellten Verarbeitungsablaufs.
Die in (c) dargestellten zweidimensionalen Bilddaten sind Versorgungsbilddaten, die der Erkennungsverarbeitungseinheit 124 einschließlich des CNN gemäß der vorliegenden Ausführungsform zugeführt werden. Lineare Zeilendaten L30c, die der Zeile L30b entsprechen, sind enthalten. Die vertikale Breite der Versorgungsbilddaten wird entsprechend den Zeilendaten L30a geändert. Außerdem wird der Wert des Bereichs, der nicht die Datenzeile L30c ist, auf einen vorgegebenen Wert, z. B. 0, geändert.
Das heißt, wie in (c) von 26 dargestellt, berechnet die Merkmalsberechnungseinheit 120 gemäß der dritten Ausführungsform ein Merkmal aus den zweidimensionalen Bilddaten mit einer vertikalen Breite, die dem Linsenverzerrungsparameter und der Position der Zeilendaten L30a als den Originaldaten entspricht. Das heißt, die in (c) dargestellten Versorgungsbilddaten enthalten immer die Zeilendaten L30c, die auf den Zeilendaten L30a basieren.
Die Ausführungseinheit für die Erkennungsverarbeitung 124 (siehe 26) gemäß der dritten Ausführungsform weist beispielsweise ein CNN, das gemäß jedem Format der in (c) dargestellten Versorgungsbilddaten gelernt wurde, auf.
Wie oben beschrieben, werden in der vorliegenden Ausführungsform Bilddaten in einem Bereich einschließlich der Zeilendaten L30c, die den Zeilendaten L30a einer Zeile entsprechen, der Erkennungsverarbeitungs-Ausführungseinheit 124 aus den Bilddaten zugeführt, in denen die Linsenverzerrung korrigiert ist. Infolgedessen werden die Bilddaten, die immer die Zeilendaten L30c auf der Grundlage der Zeilendaten L30a enthalten, an die Erkennungsverarbeitungs-Ausführungseinheit 124 geliefert, und eine Abnahme der Erkennungsgenauigkeit der Erkennungsverarbeitungs-Ausführungseinheit 124 wird unterdrückt.
(Vierte Ausführungsform)
Ein Informationsverarbeitungssystem 1 gemäß einer Modifikation einer vierten Ausführungsform unterscheidet sich von dem Informationsverarbeitungssystem 1 gemäß der zweiten Ausführungsform dadurch, dass das Erkennungsprogramm der Erkennungsverarbeitungs-Ausführungseinheit 124 entsprechend dem Linsenverzerrungsparameter geschaltet werden kann, anstatt die Linsenverzerrung aufzuheben. Im Folgenden werden die Unterschiede zum Informationsverarbeitungssystem 1 gemäß der zweiten Ausführungsform beschrieben.
32 ist ein Diagramm, das ein Beispiel für einen Verarbeitungsablauf gemäß der vierten Ausführungsform zeigt. Wie in 32 dargestellt, wird bei dem Verarbeitungsablauf gemäß der vorliegenden Modifikation eine Szene durch die Linse der Optikeinheit 30 (S10) übertragen. Zu diesem Zeitpunkt wird eine Position, an der die Szene durch die Linse auf die Sensoreinheit 10 konzentriert wird, in einer Weise verzerrt, die von der Position der Szene abhängt.
Anschließend wird die als Bild dargestellte Szene von der Sensoreinheit 10 (S12) in Pixeldaten umgewandelt und von der Leseeinrichtung 110 (S140) gelesen. Die Leseeinrichtung 110 liefert linear abgetastete Bilddaten an die zweite Linsenverzerrungs-Korrektureinheit 125. Die zweite Linsenverzerrungs-Korrektureinheit 125 liefert Bilddaten (x, y), die keiner Verzerrungskorrektur unterzogen wurden, an die Merkmalsberechnungseinheit 120.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 wählt das gelernte CNN-Erkennungsprogramm entsprechend dem Linsenverzerrungsparameter aus und führt die Erkennungsverarbeitung durch. Jedes der Vielzahl von Erkennungsprogrammen wird für eine entsprechende Linse der Linsen erlernt, die sich in der Linsenverzerrung voneinander unterscheiden. Darüber hinaus weist das CNN-Erkennungsprogramm in der Erkennungsverarbeitungs-Ausführungseinheit 124 beispielsweise auch ein zweites Erkennungsprogramm auf, das für verschiedene Linsen gelernt wurde, die sich in der Linsenverzerrung voneinander unterscheiden. Das zweite Erkennungsprogramm wird so erlernt, dass die Erkennungsgenauigkeit auch dann höher oder gleich einem vorgegebenen Wert ist, wenn der Linsenverzerrungsparameter unbekannt ist. Daher wird das zweite Erkennungsprogramm auf einen Fall angewandt, in dem der Linsenverzerrungsparameter unbekannt ist, oder in dem es kein an den Verzerrungsparameter angepasstes Erkennungsprogramm gibt. Wie oben beschrieben, wird durch die Verwendung des zweiten Erkennungsgerätes auch in dem Fall, in dem kein an den Verzerrungsparameter angepasstes Erkennungsgerät vorhanden ist, eine Abnahme der Erkennungsgenauigkeit unterdrückt.
33 ist ein Diagramm, das ein weiteres Beispiel für den Verarbeitungsablauf gemäß der vierten Ausführungsform zeigt. Wie in 33 dargestellt, wird bei dem Verarbeitungsablauf gemäß der vorliegenden Modifikation eine Szene durch die Linse der Optikeinheit 30 (S10) übertragen. Zu diesem Zeitpunkt wird eine Position, an der die Szene durch die Linse auf die Sensoreinheit 10 konzentriert wird, in einer Weise verzerrt, die von der Position der Szene abhängt.
Anschließend wird die als Bild geformte Szene von der Sensoreinheit 10 (S12) in Pixeldaten umgewandelt und von der Leseeinrichtung 110 (S144) unterabgetastet und gelesen. Die Leseeinrichtung 110 liefert die unterabgetasteten Bilddaten an die zweite Linsenverzerrungs-Korrektureinheit 125. Die zweite Linsenverzerrungs-Korrektureinheit 125 liefert Bilddaten (x, y), die keiner Verzerrungskorrektur unterzogen wurden, an die Merkmalsberechnungseinheit 120.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 wählt ein CNN-Erkennungsprogramm für das unterabgetastete Bild aus, wobei das CNN-Erkennungsprogramm in Übereinstimmung mit dem Linsenverzerrungsparameter gelernt wird, und führt die Erkennungsverarbeitung durch. Jedes der Vielzahl von Erkennungsprogrammen wird für eine entsprechende Linse der Linsen erlernt, die sich in der Linsenverzerrung voneinander unterscheiden. Darüber hinaus weist das CNN-Erkennungsprogramm in der Erkennungsverarbeitungseinheit 124 beispielsweise auch ein drittes Erkennungsprogramm für unterabgetastete Bilder auf, wobei das dritte Erkennungsprogramm für verschiedene Linsen gelernt wird, die sich in der Linsenverzerrung voneinander unterscheiden. Das dritte Erkennungsprogramm wird so erlernt, dass die Erkennungsgenauigkeit auch dann höher oder gleich einem vorgegebenen Wert ist, wenn der Parameter für die Linsenverzerrung unbekannt ist. Daher wird das dritte Erkennungsprogramm auf einen Fall angewandt, in dem der Linsenverzerrungsparameter unbekannt ist, oder in dem es kein an den Verzerrungsparameter angepasstes Erkennungsprogramm gibt. Wie oben beschrieben, wird durch den Einsatz des dritten Erkennungsprogramms auch in dem Fall, in dem kein an den Verzerrungsparameter angepasstes Erkennungsprogramm vorhanden ist, eine Abnahme der Erkennungsgenauigkeit unterdrückt.
Wie oben beschrieben, wird bei der vorliegenden Ausführungsform das Erkennungsprogramm der Erkennungsverarbeitungseinheit 124 entsprechend dem Linsenverzerrungsparameter umgeschaltet, anstatt die Linsenverzerrung aufzuheben. Dadurch ist es möglich, eine Verringerung der Erkennungsrate zu unterdrücken, indem ein an verschiedene Verzerrungsparameter angepasstes Erkennungsprogramm verwendet wird, ohne die Linsenverzerrung zu korrigieren.
(Fünfte Ausführungsform)
(3-1. Anwendungsbeispiel der Technologie der vorliegenden Offenbarung)
Als Nächstes werden zwei Arten von Ausführungsformen beschrieben, ein Anwendungsbeispiel der Informationsverarbeitungsvorrichtung 2 gemäß der ersten bis vierten Ausführungsform der vorliegenden Offenbarung. 34 ist ein Diagramm, das Verwendungsbeispiele der Informationsverarbeitungsvorrichtung 2 gemäß der ersten bis vierten Ausführungsform zeigt. Es sei darauf hingewiesen, dass die Informationsverarbeitungsvorrichtung 2 im Folgenden stellvertretend beschrieben wird, wenn es nicht besonders notwendig ist, sie zu unterscheiden.
Die oben beschriebene Informationsverarbeitungsvorrichtung 2 ist beispielsweise auf verschiedene Fälle anwendbar, in denen Licht wie sichtbares Licht, Infrarotlicht, ultraviolettes Licht oder Röntgenstrahlen erfasst wird und eine Erkennungsverarbeitung auf der Grundlage des Erfassungsergebnisses wie folgt durchgeführt wird.

• Eine Vorrichtung, die ein Bild zur Betrachtung aufnimmt, wie z. B. eine Digitalkamera und eine tragbare Vorrichtung mit Kamerafunktion.
• Eine Vorrichtung, die für den Verkehr verwendet wird, wie z.B. ein Fahrzeugsensor, der Bilder von der Vorderansicht, der Rückansicht, der Umgebungsansicht, der Innenansicht und dergleichen eines Fahrzeugs für sicheres Fahren, wie z. B. automatisches Bremsen und Erkennung des Zustands eines Fahrers, erfasst, eine Überwachungskamera, die ein fahrendes Fahrzeug oder eine Straße überwacht, und ein Abstandsmessungssensor, der einen Abstand zwischen Fahrzeugen misst.
• Eine Vorrichtung, die für elektrische Haushaltsgeräte wie Fernseher, Kühlschrank und Klimaanlage verwendet wird, um ein Bild einer Geste eines Benutzers zu erfassen und ein Gerät entsprechend der Geste zu steuern.
• Eine Vorrichtung, die für die medizinische Versorgung oder die Gesundheitsfürsorge verwendet wird, wie z. B. ein Endoskop und eine Vorrichtung, die eine Angiografie durch den Empfang von Infrarotlicht durchführt.
• Eine Vorrichtung, die der Sicherheit dient, z. B. eine Überwachungskamera zur Verbrechensbekämpfung und eine Kamera zur persönlichen Authentifizierung.
• Eine Vorrichtung für die Schönheitspflege, z. B. ein Hautmessgerät, das ein Bild der Haut aufnimmt, und ein Mikroskop, das ein Bild der Kopfhaut aufnimmt.
• Eine Vorrichtung für Sport, wie z. B. eine Action-Kamera und eine tragbare Kamera für Sport und dergleichen.
• Eine Vorrichtung, die in der Landwirtschaft eingesetzt wird, wie z. B. eine Kamera zur Überwachung des Zustands eines Feldes oder einer Kulturpflanze.

(3-2. Anwendungsbeispiel für ein Bewegungsobjekt)
Die Technologie gemäß der vorliegenden Offenbarung (vorliegende Technologie) ist auf verschiedene Produkte anwendbar. Beispielsweise kann die Technologie gemäß der vorliegenden Offenbarung als eine Vorrichtung implementiert werden, die auf jeder Art von Bewegungsobjekt installiert ist, wie z. B. einem Automobil, einem Elektroauto, einem Hybrid-Elektroauto, einem Motorrad, einem Fahrrad, einem Personentransporter, einem Flugzeug, einer Drohne, einem Schiff und einem Roboter.
35 ist ein Blockdiagramm, das ein schematisches Konfigurationsbeispiel eines Fahrzeugsteuerungssystems zeigt, das ein Beispiel für ein Steuerungssystem für Bewegungsobjekte ist, auf das die Technologie gemäß der vorliegenden Offenbarung anwendbar ist.
Das Fahrzeugsteuerungssystem 12000 weist eine Vielzahl von elektronischen Steuereinheiten auf, die über ein Kommunikationsnetz 12001 miteinander verbunden sind. In dem in 35 dargestellten Beispiel weist das Fahrzeugsteuerungssystem 12000 eine Antriebssystem-Steuereinheit 12010, eine Karosseriesystem-Steuereinheit 12020, eine Fahrzeugaußenseiten-Informationserfassungseinheit 12030, eine Fahrzeuginnenraum-Informationserfassungseinheit 12040 und eine integrierte Steuereinheit 12050 auf. Darüber hinaus sind als funktionale Komponenten der integrierten Steuereinheit 12050 ein Mikrocomputer 12051, eine Ton-Bild-Ausgabeeinheit 12052 und eine bordeigene Netzwerkschnittstelle (I/F) 12053 dargestellt.
Die Antriebssystem-Steuereinheit 12010 steuert den Betrieb von Vorrichtungen, die mit dem Antriebssystem eines Fahrzeugs zusammenhängen, in Übereinstimmung mit verschiedenen Programmen. Die Antriebssystem-Steuereinheit 12010 fungiert beispielsweise als Steuergerät einer Antriebskraft-Erzeugungsvorrichtung zur Erzeugung einer Antriebskraft des Fahrzeugs, wie z. B. eines Verbrennungsmotors oder eines Antriebsmotors, eines Antriebskraft-Übertragungsmechanismus zur Übertragung der Antriebskraft auf die Räder, eines Lenkmechanismus zur Einstellung eines Lenkwinkels des Fahrzeugs, einer Bremsvorrichtung zur Erzeugung einer Bremskraft des Fahrzeugs und dergleichen.
Die Karosseriesystem-Steuereinheit 12020 steuert den Betrieb verschiedener an der Karosserie installierter Vorrichtungen im Einklang mit verschiedenen Programmen. Die Karosseriesystem-Steuereinheit 12020 fungiert beispielsweise als Steuergerät für ein schlüsselloses Zugangssystem, ein Smart-Key-System, eine elektrische Fensterhebervorrichtung oder verschiedene Lampen wie einen Scheinwerfer, eine Rückleuchte, eine Bremsleuchte, einen Blinker oder einen Nebelscheinwerfer. In diesem Fall können Funkwellen, die von einer tragbaren Vorrichtung gesendet werden, die einen Schlüssel oder Signale verschiedener Schalter ersetzt, in die Karosseriesystem-Steuereinheit 12020 eingegeben werden. Beim Empfang solcher Funkwellen oder Signale steuert die Karosseriesystem-Steuereinheit 12020 eine Türverriegelungsvorrichtung, die elektrische Fensterhebervorrichtung, die Lampen oder dergleichen des Fahrzeugs.
Die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 erfasst Informationen über das Äußere des Fahrzeugs, in dem das Fahrzeugsteuerungssystem 12000 installiert ist. So ist beispielsweise eine Abbildungseinheit 12031 mit der Fahrzeugaußenseiten-Informationserfassungseinheit 12030 verbunden. Die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 veranlasst die Abbildungseinheit 12031, ein Bild einer vom Fahrzeug aus gesehenen Außenansicht aufzunehmen, und empfängt die aufgenommenen Bilddaten. Die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 kann eine Objekterkennungsverarbeitung zur Erkennung eines Objekts, wie z. B. einer Person, eines Fahrzeugs, eines Hindernisses, eines Schilds oder eines Zeichens auf einer Straßenoberfläche, oder eine Abstandserkennungsverarbeitung zur Erkennung eines Abstands zu einem solchen Objekt auf der Grundlage des empfangenen Bildes durchführen.
Die Abbildungseinheit 12031 ist ein optischer Sensor, der Licht empfängt und ein elektrisches Signal ausgibt, das der Intensität des empfangenen Lichts entspricht. Die Abbildungseinheit 12031 kann das elektrische Signal als Bild oder als Abstandsinformation ausgeben. Außerdem kann das von der Abbildungseinheit 12031 empfangene Licht sichtbares Licht oder unsichtbares Licht wie Infrarotstrahlen sein.
Die Fahrzeuginnenraum-Informationserkennungseinheit 12040 erkennt Informationen über den Fahrzeuginnenraum. Zum Beispiel ist eine Fahrerzustandserkennungseinheit 12041, die einen Zustand eines Fahrers erkennt, mit der Fahrzeuginnenraum-Informationserkennungseinheit 12040 verbunden. Die Fahrerzustandserkennungseinheit 12041 kann beispielsweise eine Kamera aufweisen, die ein Bild des Fahrers aufnimmt, und die Fahrzeuginnenraum-Informationserkennungseinheit 12040 kann auf der Grundlage der von der Fahrerzustandserkennungseinheit 12041 eingegebenen Erkennungsinformationen einen Müdigkeitsgrad oder einen Konzentrationsgrad des Fahrers berechnen oder bestimmen, ob der Fahrer schläft oder nicht.
Der Mikrocomputer 12051 kann einen Steuersollwert der Antriebskraft-Erzeugungsvorrichtung, des Lenkmechanismus oder der Bremsvorrichtung auf der Grundlage der von der Fahrzeugaußenseiten-Informationserfassungseinheit 12030 oder der Fahrzeuginnenraum-Informationserfassungseinheit 12040 erfassten Informationen über die Innen- und Außenseite des Fahrzeugs berechnen und einen Steuerbefehl an die Antriebssystem-Steuereinheit 12010 ausgeben. Beispielsweise kann der Mikrocomputer 12051 eine koordinierte Steuerung durchführen, um eine Funktion eines fortschrittlichen Fahrerassistenzsystems (ADAS) zu implementieren, einschließlich der Vermeidung von Fahrzeugkollisionen oder Aufprallminderung, Nachfahren auf der Grundlage eines Abstands zwischen den Fahrzeugen, Fahren mit gleichbleibender Geschwindigkeit, Fahrzeugkollisionswarnung, Spurverlassenswarnung oder dergleichen.
Darüber hinaus kann der Mikrocomputer 12051 eine koordinierte Steuerung zum Zweck des automatisierten Fahrens oder dergleichen durchführen, bei dem das Fahrzeug autonom fährt, ohne von der Bedienung des Fahrers abhängig zu sein, indem er die Antriebskraft-Erzeugungsvorrichtung, den Lenkmechanismus, die Bremsvorrichtung oder dergleichen auf der Grundlage der Informationen bezüglich der Umgebung des Fahrzeugs steuert, die von der Fahrzeugaußenseiten-Informationserfassungseinheit 12030 oder der Fahrzeuginnenraum-Informationserfassungseinheit 12040 erfasst werden.
Darüber hinaus kann der Mikrocomputer 12051 einen Steuerbefehl an die Karosseriesystem-Steuereinheit 12020 auf der Grundlage der von der Fahrzeugaußenseiten-Informationserfassungseinheit 12030 erfassten Fahrzeugaußenseiteninformationen ausgeben. Beispielsweise kann der Mikrocomputer 12051 eine koordinierte Steuerung zur Vermeidung von Blendung durchführen, wie z. B. das Umschalten von Fern- auf Abblendlicht, indem er den Scheinwerfer in Abhängigkeit von der Position eines vorausfahrenden oder entgegenkommenden Fahrzeugs steuert, das von der Fahrzeugaußenseiten-Informationserfassungseinheit 12030 erfasst wird.
Die Ton-Bild-Ausgabeeinheit 12052 überträgt ein Ausgabesignal in Form eines Tons oder eines Bildes an eine Ausgabevorrichtung, die in der Lage ist, den Fahrzeuginsassen oder die Umgebung des Fahrzeugs visuell oder akustisch zu informieren. In dem in 35 dargestellten Beispiel sind ein Audio-Lautsprecher 12061, eine Anzeigeeinheit 12062 und eine Instrumententafel 12063 als Ausgabevorrichtungen dargestellt. Die Anzeigeeinheit 12062 kann z. B. mindestens ein On-Board-Display oder ein Head-up-Display aufweisen.
36 ist ein Diagramm, das ein Beispiel für eine Installationsposition der Abbildungseinheit 12031 zeigt.
In 36 weist ein Fahrzeug 12100 die Abbildungseinheiten 12101, 12102, 12103, 12104, 12105 sowie die Abbildungseinheit 12031 auf.
Die Abbildungseinheiten 12101, 12102, 12103, 12104, 12105 sind beispielsweise an mindestens einer Bugnase, einem Seitenspiegel, einem Heckstoßfänger, einer Heckklappe oder einem oberen Teil einer Windschutzscheibe in einem Fahrzeuginnenraum des Fahrzeugs 12100 vorgesehen. Die Abbildungseinheit 12101, die an der Bugnase vorgesehen ist, und die Abbildungseinheit 12105, die am oberen Teil der Windschutzscheibe im Fahrzeuginnenraum vorgesehen ist, nehmen hauptsächlich ein Bild einer Frontansicht vom Fahrzeug 12100 aus gesehen auf. Die an den Seitenspiegeln angebrachten Abbildungseinheiten 12102, 12103 erfassen hauptsächlich Bilder von Seitenansichten aus dem Fahrzeug 12100. Die Abbildungseinheit 12104, die am Heckstoßfänger oder an der Heckklappe angebracht ist, erfasst hauptsächlich ein Bild der Rückansicht des Fahrzeugs 12100. Die von den Abbildungseinheiten 12101, 12105 aufgenommenen Bilder der Vorderansicht werden hauptsächlich zur Erkennung eines vorausfahrenden Fahrzeugs, eines Fußgängers, eines Hindernisses, einer Ampel, eines Verkehrsschilds, einer Fahrspur oder dergleichen verwendet.
Beachten Sie, dass 36 ein Beispiel für die jeweiligen Abbildungsbereiche der Abbildungseinheiten 12101 bis 12104 zeigt. Ein Abbildungsbereich 12111 zeigt einen Abbildungsbereich der Abbildungseinheit 12101 an, die an der Bugnase vorgesehen ist, die Abbildungsbereiche 12112, 12113 zeigen Abbildungsbereiche der Abbildungseinheiten 12102, 12103 an, die jeweils an den Seitenspiegeln vorgesehen sind, und ein Abbildungsbereich 12114 zeigt einen Abbildungsbereich der Abbildungseinheit 12104 an, die am Heckstoßfänger oder an der Heckklappe vorgesehen ist. So ist es beispielsweise möglich, ein Bild des Fahrzeugs 12100 aus der Vogelperspektive zu erhalten, indem die von den Abbildungseinheiten 12101 bis 12104 erfassten Bilddaten übereinander gelegt werden.
Mindestens eine der Abbildungseinheiten 12101 bis 12104 kann die Funktion haben, Abstandsinformationen zu erfassen. Zum Beispiel kann mindestens eine der Abbildungseinheiten 12101 bis 12104 eine Stereokamera mit einer Vielzahl von Abbildungselementen oder ein Abbildungselement mit Pixeln zur Phasendifferenzerkennung sein.
Beispielsweise ermittelt der Mikrocomputer 12051 in jedem der Abbildungsbereiche 12111 bis 12114 einen Abstand zu einem dreidimensionalen Objekt und eine zeitliche Änderung des Abstands (Geschwindigkeit relativ zum Fahrzeug 12100) auf der Grundlage der von den Abbildungseinheiten 12101 bis 12104 erhaltenen Abstandsinformationen, um als vorausfahrendes Fahrzeug ein dreidimensionales Objekt zu extrahieren, das sich mit einer vorbestimmten Geschwindigkeit (z. B. 0 km/h oder mehr) im Wesentlichen in der gleichen Richtung wie das Fahrzeug 12100 bewegt, insbesondere das nächstgelegene dreidimensionale Objekt auf einem Fahrweg des Fahrzeugs 12100. Darüber hinaus kann der Mikrocomputer 12051 im Voraus einen Abstand zwischen den Fahrzeugen festlegen, der in Bezug auf das vorausfahrende Fahrzeug eingehalten werden muss, und eine automatische Verzögerungssteuerung (einschließlich einer nachfolgenden Stoppsteuerung), eine automatische Beschleunigungssteuerung (einschließlich einer nachfolgenden Startsteuerung) oder dergleichen durchführen. Wie oben beschrieben, ist es möglich, eine koordinierte Steuerung durchzuführen, z. B. für das automatisierte Fahren, bei dem ein Fahrzeug autonom fährt, ohne von der Bedienung durch den Fahrer abhängig zu sein.
Beispielsweise kann der Mikrocomputer 12051 auf der Grundlage der von den Abbildungseinheiten 12101 bis 12104 erhaltenen Abstandsinformationen dreidimensionale Objektdaten zu dreidimensionalen Objekten in ein zweirädriges Fahrzeug, ein Standardfahrzeug, ein großes Fahrzeug, einen Fußgänger und andere dreidimensionale Objekte wie einen Strommast klassifizieren und die dreidimensionalen Objektdaten zur Verwendung bei der automatischen Vermeidung von Hindernissen extrahieren. Beispielsweise identifiziert der Mikrocomputer 12051 Hindernisse in der Umgebung des Fahrzeugs 12100 als ein Hindernis, das vom Fahrer des Fahrzeugs 12100 visuell erkannt werden kann, und ein Hindernis, das visuell schwer zu erkennen ist. Dann bestimmt der Mikrocomputer 12051 ein Kollisionsrisiko, das das Risiko einer Kollision mit jedem Hindernis anzeigt, und wenn das Kollisionsrisiko größer oder gleich einem eingestellten Wert ist und die Möglichkeit einer Kollision besteht, kann der Mikrocomputer 12051 den Fahrer bei der Kollisionsvermeidung unterstützen, indem er über den Audio-Lautsprecher 12061 oder die Anzeigeeinheit 12062 einen Alarm an den Fahrer ausgibt oder über die Antriebssystem-Steuereinheit 12010 eine Zwangsverzögerung oder eine Ausweichlenkung durchführt.
Mindestens eine der Abbildungseinheiten 12101 bis 12104 kann eine Infrarotkamera sein, die Infrarotstrahlen erkennt. Beispielsweise kann der Mikrocomputer 12051 einen Fußgänger erkennen, indem er feststellt, ob der Fußgänger auf den von den Abbildungseinheiten 12101 bis 12104 aufgenommenen Bildern zu sehen ist oder nicht. Eine solche Fußgängererkennung wird beispielsweise durch ein Verfahren zur Extraktion von Merkmalspunkten in den von den Abbildungseinheiten 12101 bis 12104 als Infrarotkameras aufgenommenen Bildern und ein Verfahren zur Durchführung einer Mustervergleichsverarbeitung an einer Reihe von Merkmalspunkten, die einen Umriss eines Objekts anzeigen, durchgeführt, um zu bestimmen, ob das Objekt ein Fußgänger ist oder nicht. Wenn der Mikrocomputer 12051 feststellt, dass ein Fußgänger in den von den Abbildungseinheiten 12101 bis 12104 aufgenommenen Bildern vorhanden ist, und den Fußgänger erkennt, steuert die Ton-Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062, um die Bilder mit einer quadratischen Konturlinie zur Hervorhebung des erkannten Fußgängers anzuzeigen, die die Bilder überlagert. Darüber hinaus kann die Ton-Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062 so steuern, dass ein Symbol oder dergleichen angezeigt wird, das einen Fußgänger an einer gewünschten Position anzeigt.
Ein Beispiel für ein Fahrzeugsteuerungssystem, auf das die Technologie gemäß der vorliegenden Offenbarung anwendbar ist, wurde oben beschrieben. Die Technologie gemäß der vorliegenden Offenbarung ist auf die Abbildungseinheit 12031 und die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 unter den oben beschriebenen Komponenten anwendbar. Konkret wird zum Beispiel die Sensoreinheit 10 der Informationsverarbeitungsvorrichtung 2 auf die Abbildungseinheit 12031 und die Erkennungsverarbeitungseinheit 12 auf die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 angewendet. Das von der Erkennungsverarbeitungseinheit 12 ausgegebene Erkennungsergebnis wird z.B. über das Kommunikationsnetz 12001 an die integrierte Steuereinheit 12050 weitergeleitet.
Wie oben beschrieben, ermöglicht die Anwendung der Technologie gemäß der vorliegenden Offenbarung auf die Abbildungseinheit 12031 und die Fahrzeugaußenseiten-Informationserfassungseinheit 12030 die Erkennung eines Objekts in kurzer Entfernung und die Erkennung eines Objekts in großer Entfernung und die Erkennung von Objekten in kurzer Entfernung mit hoher Gleichzeitigkeit, so dass es möglich ist, den Fahrer auf zuverlässigere Weise zu unterstützen.
Es ist zu beachten, dass es sich bei den hier beschriebenen Effekten lediglich um Beispiele handelt, und dass auch andere Effekte möglich sind.
Beachten Sie, dass die vorliegende Technologie die folgenden Konfigurationen annehmen kann.

(1) Informationsverarbeitungsvorrichtung, die Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie als eine Leseeinheit einen Teil eines Pixelbereichs festlegt, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.
(2) In der Informationsverarbeitungsvorrichtung nach (1) :
- die Korrektureinheit korrigiert die Leseeinheit durch Anwendung der inversen Transformation der Verzerrungskorrektur auf die Leseeinheit auf der Grundlage des Linsenverzerrungsparameters.
(3) Informationsverarbeitungsvorrichtung nach (1), die ferner Folgendes aufweist:
- eine Merkmalsberechnungseinheit, die dazu ausgebildet ist, dass sie ein Merkmal auf der Grundlage des Pixelsignals berechnet, das auf der Grundlage des Verzerrungsparameters korrigiert und gelesen wurde.
(4) Informationsverarbeitungsvorrichtung nach (3), die ferner Folgendes aufweist:
- eine Erkennungsverarbeitungseinheit, die dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des Merkmals durchführt.
(5) In der Informationsverarbeitungsvorrichtung nach (1) :
- die Korrektureinheit berechnet eine Koordinatenposition, die durch Korrigieren einer linearen Koordinatenfolge auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung steuert das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition.
(6) In der Informationsverarbeitungsvorrichtung nach (1) :
- die Korrektureinheit berechnet eine Koordinatenposition, die durch Korrigieren einer Unterabtastungskoordinatengruppe auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung steuert das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition.
(7) Informationsverarbeitungsvorrichtung, die Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.
(8) Informationsverarbeitungsvorrichtung gemäß (7), die ferner eine Erkennungsverarbeitungseinheit aufweist, die dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des korrigierten Pixelsignals durchführt.
(9) In der Informationsverarbeitungsvorrichtung nach (8) :
- Die Erkennungsverarbeitungseinheit weist ein Punktnetz-Erkennungsprogramm auf.
(10) In der Informationsverarbeitungsvorrichtung nach (8) :
- die zweite Korrektureinheit liefert das korrigierte Pixelsignal, das einem Bereich entspricht, der jeder Zeile des von der Leseeinrichtung gelesenen Pixelsignals entspricht, an die Erkennungsverarbeitungs-Ausführungseinheit.
(11) Informationsverarbeitungsvorrichtung, die Folgendes aufweist:
- eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
- eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen enthält, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt, wobei
- die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchführt.
(12) In der Informationsverarbeitungsvorrichtung nach (11) :
- die Erkennungsverarbeitungs-Ausführungseinheit führt eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms durch, das einem Optiksystem entspricht, das zur Abbildung des Pixelsignals verwendet wird.
(13) In der Informationsverarbeitungsvorrichtung nach (11) :
- die Erkennungsverarbeitungs-Ausführungseinheit führt die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms durch, das für eine Vielzahl verschiedener Optiksysteme gelernt wurde.
(14) Informationsverarbeitungssystem, das Folgendes aufweist:
- eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
- eine Erkennungsverarbeitungseinheit, wobei
- die Erkennungsverarbeitungseinheit Folgendes aufweist:
  - eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs der Sensoreinheit als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
  - eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.
(15) Informationsverarbeitungssystem, das Folgendes aufweist:
- eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
- eine Erkennungsverarbeitungseinheit, wobei
- die Erkennungsverarbeitungseinheit Folgendes aufweist:
  - eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
  - eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.
(16) Informationsverarbeitungssystem, das Folgendes aufweist:
- eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und
- eine Erkennungsverarbeitungseinheit, wobei
- die Erkennungsverarbeitungseinheit Folgendes aufweist:
  - eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und
  - eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen enthält, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt, wobei
  - die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchführt.
(17) Informationsverarbeitungsverfahren, das Folgendes beinhaltet:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als eine Leseeinheit eingestellt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen Korrekturprozess zum Korrigieren der Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters und zum Veranlassen der Leseeinrichtung, das Pixelsignal zu lesen.
(18) Informationsverarbeitungsverfahren, das Folgendes beinhaltet:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen zweiten Korrekturprozess zum Korrigieren von Koordinaten des Pixelsignals von dem im Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters.
(19) Informationsverarbeitungsverfahren, das Folgendes beinhaltet:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen Erkennungsverarbeitungs-Ausführungsprozess des Durchführens einer Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals unter Verwendung einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei
- im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.
(20) Programm, das einen Computer veranlasst, Folgendes auszuführen:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als eine Leseeinheit eingestellt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen Korrekturprozess zum Korrigieren der Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters und zum Lesen des Pixelsignals.
(21) Programm, das einen Computer veranlasst, Folgendes auszuführen:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen zweiten Korrekturprozess zum Korrigieren von Koordinaten des Pixelsignals von dem im Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters.
(22) Programm, das einen Computer veranlasst, Folgendes auszuführen:
- einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und
- einen Erkennungsverarbeitungs-Ausführungsprozess des Durchführens einer Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals unter Verwendung einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei
- im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.

Bezugszeichenliste

1: Informationsverarbeitungssystem
2: Informationsverarbeitungsvorrichtung 20 Sensoreinheit
12: Erkennungsverarbeitungseinheit
110: Leseeinrichtung
112: Erste Linsenverzerrungs-Inverskorrektureinheit (Korrektureinheit)
120: Merkmalsberechnungseinheit
124: Erkennungsverarbeitungs-Ausführungseinheit
125: Zweite Linsenverzerrungs-Korrektureinheit (zweite Korrektureinheit)

Claims

Informationsverarbeitungsvorrichtung, die Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie als eine Leseeinheit einen Teil eines Pixelbereichs festlegt, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Korrektureinheit die Leseeinheit durch Anwendung der inversen Transformation der Verzerrungskorrektur auf die Leseeinheit auf der Grundlage des Linsenverzerrungsparameters korrigiert.
Informationsverarbeitungsvorrichtung nach Anspruch 1, die ferner Folgendes aufweist: eine Merkmalsberechnungseinheit, die dazu ausgebildet ist, dass sie ein Merkmal auf der Grundlage des Pixelsignals berechnet, das auf der Grundlage des Verzerrungsparameters korrigiert und gelesen wurde.
Informationsverarbeitungsvorrichtung nach Anspruch 3, die ferner Folgendes aufweist: eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, dass sie die Erkennungsverarbeitung auf der Grundlage des Merkmals durchführt.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Korrektureinheit eine Koordinatenposition berechnet, die durch Korrigieren einer linearen Koordinatenfolge auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition steuert.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Korrektureinheit eine Koordinatenposition berechnet, die durch Korrigieren einer Unterabtastungskoordinatengruppe auf der Grundlage des Linsenverzerrungsparameters erhalten wird, und die Leseeinrichtung das Lesen des Pixelsignals auf der Grundlage der korrigierten Koordinatenposition steuert.
Informationsverarbeitungsvorrichtung, die Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.
Informationsverarbeitungsvorrichtung nach Anspruch 7, die ferner Folgendes aufweist: eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, dass sie eine Erkennungsverarbeitung auf der Grundlage des korrigierten Pixelsignals durchführt.
Informationsverarbeitungsvorrichtung gemäß Anspruch 8, wobei die Erkennungsverarbeitungs-Ausführungseinheit ein Punktnetz-Erkennungsprogramm aufweist.
Informationsverarbeitungsvorrichtung gemäß Anspruch 8, wobei die zweite Korrektureinheit das korrigierte Pixelsignal, das einem Bereich entspricht, der jeder Zeile des von der Leseeinrichtung gelesenen Pixelsignals entspricht, an die Erkennungsverarbeitungs-Ausführungseinheit liefert.
Informationsverarbeitungsvorrichtung, die Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen aufweist, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie die Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt, wobei die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchführt.
Informationsverarbeitungsvorrichtung gemäß Anspruch 11, wobei die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms durchführt, das einem Optiksystem entspricht, das zur Abbildung des Pixelsignals verwendet wird.
Informationsverarbeitungsvorrichtung gemäß Anspruch 11, wobei die Erkennungsverarbeitungs-Ausführungseinheit die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms durchführt, das für eine Vielzahl verschiedener Optiksysteme gelernt wurde.
Informationsverarbeitungssystem, das Folgendes aufweist: eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und eine Erkennungsverarbeitungseinheit, wobei die Erkennungsverarbeitungseinheit Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs der Sensoreinheit als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine Korrektureinheit, die dazu ausgebildet ist, dass sie die Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters korrigiert und die Leseeinrichtung veranlasst, das Pixelsignal zu lesen.
Informationsverarbeitungssystem, das Folgendes aufweist: eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und eine Erkennungsverarbeitungseinheit, wobei die Erkennungsverarbeitungseinheit Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine zweite Korrektureinheit, die dazu ausgebildet ist, dass sie die Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters korrigiert.
Informationsverarbeitungssystem, das Folgendes aufweist: eine Sensoreinheit, in der eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist; und eine Erkennungsverarbeitungseinheit, wobei die Erkennungsverarbeitungseinheit Folgendes aufweist: eine Leseeinrichtung, die dazu ausgebildet ist, dass sie einen Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festlegt und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel steuert; und eine Erkennungsverarbeitungs-Ausführungseinheit, die eine Vielzahl von Erkennungsprogrammen aufweist, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei die Erkennungsverarbeitungs-Ausführungseinheit dazu ausgebildet ist, dass sie die Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals durchführt, wobei die Erkennungsverarbeitungs-Ausführungseinheit eine Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchführt.
Informationsverarbeitungsverfahren, das Folgendes aufweist: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als eine Leseeinheit eingestellt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen Korrekturprozess zum Korrigieren der Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters und zum Lesen des Pixelsignals.
Informationsverarbeitungsverfahren, das Folgendes aufweist: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen zweiten Korrekturprozess zum Korrigieren von Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters.
Informationsverarbeitungsverfahren, das Folgendes aufweist: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen Erkennungsverarbeitungs-Ausführungsprozess zum Durchführen einer Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals unter Verwendung einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.
Programm, das einen Computer veranlasst, Folgendes auszuführen: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als eine Leseeinheit eingestellt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen Korrekturprozess zum Korrigieren der Leseeinheit auf der Grundlage eines Linsenverzerrungsparameters und zum Lesen des Pixelsignals.
Programm, das einen Computer veranlasst, Folgendes auszuführen: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen zweiten Korrekturprozess zum Korrigieren von Koordinaten des Pixelsignals von dem in dem Pixelbereich enthaltenen Pixel auf der Grundlage eines Linsenverzerrungsparameters.
Programm, das einen Computer veranlasst, Folgendes auszuführen: einen Leseprozess, bei dem ein Teil eines Pixelbereichs, in dem eine Vielzahl von Pixeln in einem zweidimensionalen Array angeordnet ist, als ein Lesepixel festgelegt wird und das Lesen eines Pixelsignals von einem in dem Pixelbereich enthaltenen Pixel gesteuert wird; und einen Erkennungsverarbeitungs-Ausführungsprozess zum Durchführen einer Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals unter Verwendung einer Vielzahl von Erkennungsprogrammen, die gemäß einer Vielzahl von Linsen gelernt wurden, wobei im Erkennungsverarbeitungs-Ausführungsprozess die Erkennungsverarbeitung unter Verwendung eines Erkennungsprogramms entsprechend der Abbildung des Pixelsignals durchgeführt wird.