DE112020004538T5

DE112020004538T5 - Abstandsmessvorrichtung, abstandsmessverfahren, programm, elektronische einrichtung, lernmodell erzeugendes verfahren, herstellungsverfahren und tiefenkarte erzeugendes verfahren

Info

Publication number: DE112020004538T5
Application number: DE112020004538.2T
Authority: DE
Inventors: Takafumi Fujita; Hiroaki Ono; Hironaga SANO; Tomoharu Mukasa
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2019-09-25
Filing date: 2020-09-25
Publication date: 2022-06-15
Also published as: US20220357155A1; JP2021051015A; WO2021060539A1; CN114424022A

Abstract

Die vorliegende Technologie bezieht sich auf eine Abstandsmessvorrichtung, ein Abstandsmessverfahren, ein Programm, eine elektronische Einrichtung, ein ein Lernmodell erzeugendes Verfahren, ein Herstellungsverfahren und ein eine Tiefenkarte erzeugendes Verfahren, die dafür ausgelegt sind, eine Abstandsmessung mit höherer Genauigkeit zu ermöglichen.Die Abstandsmessvorrichtung enthält: eine erste Bestimmungseinheit, die bestimmt, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und eine zweite Bestimmungseinheit, die bestimmt, ob die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls die erste Bestimmungseinheit bestimmt, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist. Falls die zweite Bestimmungseinheit bestimmt, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, wird bestätigt, dass das erste Pixel ein fehlerhaftes Pixel ist. Die vorliegende Technologie kann zum Beispiel für eine Abstandsmessvorrichtung verwendet werden.

Description

TECHNISCHES GEBIET
Die vorliegende Technologie bezieht sich auf eine Abstandsmessvorrichtung, ein Abstandsmessverfahren, ein Programm, eine elektronische Einrichtung, ein ein Lernmodell erzeugendes Verfahren, ein Herstellungsverfahren und ein eine Tiefenkarte erzeugendes Verfahren. Insbesondere bezieht sich die vorliegende Technologie auf eine Abstandsmessvorrichtung, ein Abstandsmessverfahren, ein Programm, eine elektronische Einrichtung, ein ein Lernmodell erzeugendes Verfahren, ein Herstellungsverfahren und ein eine Tiefenkarte erzeugendes Verfahren, die beispielsweise dafür ausgelegt sind, falsche Abstandsmessergebnisse mit hoher Genauigkeit zu detektieren.
HINTERGRUNDTECHNIK
In den letzten Jahren wurden Abstandsmessvorrichtungen, die Abstände zu Objekten messen, mit dem Fortschritt der Halbleitertechnologie immer kleiner. Infolgedessen werden Abstandsmessvorrichtungen tatsächlich beispielsweise an mobilen Endgeräten wie etwa sogenannten Smartphones montiert, die kleine Informationsverarbeitungsgeräte bzw. -einrichtungen mit Kommunikationsfunktionen sind. Beispiele von Abstandsmessvorrichtungen (Sensoren), die Abstände zu Objekten messen, schließen einen Laufzeit-(TOF-)Sensor (siehe zum Beispiel Patentdokument 1) ein.
ZITATLISTE
PATENTDOKUMENT
Patentdokument 1: Offengelegte japanische Patentanmeldung Nr. 2016-090268
ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Falls es ein falsches Abstandsmessergebnis gibt, wird das falsche Abstandsmessergebnis vorzugsweise mit hoher Genauigkeit detektiert, sodass die Genauigkeit der Abstandsmessung wie gewünscht verbessert wird.
Die vorliegende Technologie wurde im Hinblick auf derartige Umstände gemacht und zielt darauf ab, eine genaue Detektion falscher Abstandsmessergebnisse zu ermöglichen.
LÖSUNGEN FÜR DIE PROBLEME
Eine erste Abstandsmessvorrichtung gemäß einem Aspekt der vorliegenden Technologie umfasst: eine erste Bestimmungseinheit, die bestimmt, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und eine zweite Bestimmungseinheit, die bestimmt, ob die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls die erste Bestimmungseinheit bestimmt, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist. Falls die zweite Bestimmungseinheit bestimmt, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, wird bestätigt, dass das erste Pixel ein fehlerhaftes Pixel ist.
Eine zweite Abstandsmessvorrichtung gemäß einem Aspekt der vorliegenden Technologie umfasst: eine erste Bestimmungseinheit, die bestimmt, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und eine zweite Bestimmungseinheit, die bestimmt, ob die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls die erste Bestimmungseinheit bestimmt, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist. Falls die zweite Bestimmungseinheit bestimmt, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweiten Schwellenwert ist, wird bestätigt, dass das erste Pixel ein fehlerhaftes Pixel ist.
Ein erstes Abstandsmessverfahren gemäß einem Aspekt der vorliegenden Technologie wird realisiert durch eine Abstandsmessvorrichtung, die eine Abstandsmessung durchführt, und umfasst: ein Bestimmen, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, falls bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Ein zweites Abstandsmessverfahren gemäß einem Aspekt der vorliegenden Technologie wird realisiert durch eine Abstandsmessvorrichtung, die eine Abstandsmessung durchführt, und umfasst: ein Bestimmen, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, falls bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Ein erstes Programm gemäß einem Aspekt der vorliegenden Technologie dient dazu, zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst: Bestimmen, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, falls bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Ein zweites Programm gemäß einem Aspekt der vorliegenden Technologie dient dazu, zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst: Bestimmen, ob die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, falls bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
In der ersten Abstandsmessvorrichtung, dem ersten Abstandsmessverfahren und dem ersten Programm gemäß einem Aspekt der vorliegenden Technologie wird, falls bestimmt wird, dass die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist, ferner eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht. Falls bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, wird dann bestätigt, dass das erste Pixel ein fehlerhaftes Pixel ist.
In der zweiten Abstandsmessvorrichtung, dem zweiten Abstandsmessverfahren und dem zweiten Programm wird, falls bestimmt wird, dass die Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist, ferner eine Überprüfung vorgenommen, um zu bestimmen, ob die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht. Falls bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, wird dann bestätigt, dass das erste Pixel ein fehlerhaftes Pixel ist.
Eine elektronische Einrichtung gemäß einem Aspekt der vorliegenden Technologie enthält einen Sensor, der einen Prozess unter Verwendung eines maschinell erlernten Lernmodells an zumindest einem Teil einer ersten Abstandsmessinformation durchführt, die durch den Sensor erfasst wurde, und eine zweite Abstandsmessinformation ausgibt, nachdem ein in der ersten Abstandsmessinformation enthaltenes Korrekturziel-Pixel korrigiert ist. Der Prozess umfasst: einen ersten Prozess, um unter Verwendung der das Korrekturziel-Pixel enthaltenden ersten Abstandsmessinformation als Eingabe das Korrekturziel-Pixel zu korrigieren; und einen zweiten Prozess, um die zweite Abstandsmessinformation auszugeben.
In der elektronischen Einrichtung gemäß einem Aspekt der vorliegenden Technologie werden, wenn eine zweite Abstandsmessinformation ausgegeben wird, nachdem ein in der ersten Abstandsmessinformation enthaltenes Korrekturziel-Pixel durch einen Prozess unter Verwendung eines maschinell erlernten Lernmodells an zumindest einem Teil der durch den Sensor erfassten ersten Abstandsmessinformation korrigiert ist, ein erster Prozess, um unter Verwendung der das Korrekturziel-Pixel enthaltenden ersten Abstandsmessinformation als Eingabe das Korrekturziel-Pixel zu korrigieren, und ein zweiter Prozess, um die zweite Abstandsmessinformation auszugeben, durchgeführt.
Ein erstes, ein Lernmodell erzeugendes Verfahren gemäß einem Aspekt der vorliegenden Technologie umfasst: ein Erfassen von Trainingsdaten, die eine Tiefenkarte enthalten, die eine Tiefenkarte ist, die ein Korrekturziel-Pixel enthält, wobei die Position des Korrekturziel-Pixels in der Tiefenkarte identifiziert wurde; und ein Erzeugen eines Lernmodells unter Verwendung der Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene Korrekturziel-Pixel ausgibt.
In dem ersten, ein Lernmodell erzeugenden Verfahren gemäß einem Aspekt der vorliegenden Technologie werden Trainingsdaten erfasst, die eine Tiefenkarte enthalten, die ein Korrekturziel-Pixel enthält, dessen Position in der Tiefenkarte identifiziert wurde, und wird ein Lernmodell unter Verwendung der Trainingsdaten erzeugt, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene Korrekturziel-Pixel ausgibt.
Ein zweites, ein Lernmodell erzeugendes Verfahren gemäß einem Aspekt der vorliegenden Technologie umfasst: ein Erfassen von Trainingsdaten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte und eine Positionsinformation über das Korrekturziel-Pixel und eine korrigierte Tiefenkarte oder Positionsinformation über ein korrigiertes Korrekturziel-Pixel enthalten; und ein Erzeugen eines Lernmodells unter Verwendung der Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte und der Positionsinformation über das Korrekturziel-Pixel empfängt und die korrigierte Tiefenkarte oder die Positionsinformation über das korrigierte Korrekturziel-Pixel ausgibt.
Im zweiten, ein Lernmodell erzeugenden Verfahren gemäß einem Aspekt der vorliegenden Technologie werden Trainingsdaten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte und eine Positionsinformation über das Korrekturziel-Pixel und eine korrigierte Tiefenkarte oder eine Positionsinformation über ein korrigiertes Korrekturziel-Pixel enthalten, erfasst und wird ein Lernmodell unter Verwendung der Trainingsdaten erzeugt, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte und der Positionsinformation über das Korrekturziel-Pixel empfängt und die korrigierte Tiefenkarte oder die Positionsinformation über das korrigierte Korrekturziel-Pixel ausgibt.
Ein eine Tiefenkarte erzeugendes Verfahren gemäß einem Aspekt der vorliegenden Technologie wird durch eine Abstandsmessvorrichtung realisiert, die eine Abstandsmessung durchführt, und umfasst: ein Bestimmen, ob die Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; ein Bestätigen, dass das erste Pixel ein Korrekturziel-Pixel ist, falls bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist; und ein Erzeugen einer Tiefenkarte, in der das bestätigte Korrekturziel-Pixel korrigiert worden ist.
Im eine Tiefenkarte erzeugenden Verfahren gemäß einem Aspekt der vorliegenden Technologie wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, falls bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; wird bestätigt, dass das erste Pixel ein Korrekturziel-Pixel ist, falls bestimmt wird, dass die Konfidenz- oder Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist; und wird eine Tiefenkarte erzeugt, in der das bestätigte Korrekturziel-Pixel korrigiert worden ist.
Man beachte, dass die Abstandsmessvorrichtungen und elektronischen Geräten bzw. Einrichtungen unabhängige Vorrichtungen sein können oder interne Blöcke in einer Einrichtung sein können.
Ferner kann das bereitzustellende Programm über ein Übertragungsmedium übertragen werden oder kann auf einem Aufzeichnungsmedium aufgezeichnet sein.
Figurenliste

1 ist ein Diagramm, das die Konfiguration einer Ausführungsform einer Abstandsmessvorrichtung darstellt, für die die vorliegende Technologie verwendet wird.
2 ist ein Diagramm, das eine beispielhafte Konfiguration einer lichtempfangenden Einheit darstellt.
3 ist ein Diagramm, das eine beispielhafte Konfiguration eines Pixels darstellt.
4 ist eine grafische Darstellung, um eine Verteilung elektrischer Ladungen in einem Pixel zu erläutern.
5 ist eine grafische Darstellung, die ein Beispiel von vier Arten eines empfangenen Lichts darstellt, wobei die Phase jedes Mal um 90 Grad verzögert ist.
6 ist eine grafische Darstellung, die ein Beispiel von Detektionssignalen während einer Detektionsperiode eines empfangenen Lichts mit einer Phasenverzögerung von 0 Grad darstellt.
7 ist eine grafische Darstellung, die ein Beispiel von Detektionssignalen während einer Detektionsperiode eines empfangenen Lichts mit einer Phasenverzögerung von 90 Grad darstellt.
8 ist eine grafische Darstellung, die ein Beispiel von Detektionssignalen während einer Detektionsperiode eines empfangenen Lichts mit einer Phasenverzögerung von 180 Grad darstellt.
9 ist eine grafische Darstellung, die ein Beispiel von Detektionssignalen während einer Detektionsperiode eines empfangenen Lichts mit einer Phasenverzögerung von 270 Grad darstellt.
10 ist eine grafische Darstellung, um Detektionssignale in einem Rahmen bzw. Frame zu erläutern.
11 ist eine grafische Darstellung, um die Beziehung zwischen Detektionsperioden und Detektionssignalen zu erläutern.
12 ist eine grafische Darstellung, um Detektionssignale in einem Frame zu erläutern.
13 ist eine grafische Darstellung, um Detektionssignale in einem Frame zu erläutern.
14 ist ein Diagramm, um fliegende Pixel zu erläutern.
15 ist ein Diagramm, um fliegende Pixel zu erläutern.
16 ist ein Diagramm, um fliegende Pixel zu erläutern.
17 ist ein Diagramm, um fliegende Pixel zu erläutern.
18 ist ein Flussdiagramm, um einen ersten Prozess in Bezug auf eine Detektion fliegender Pixel zu erläutern.
19 ist ein Diagramm, um die Beziehung zwischen dem Prozessziel und den umgebenden Pixeln zu erläutern.
20 ist ein Flussdiagramm, um einen zweiten Prozess in Bezug auf eine Detektion fliegender Pixel zu erläutern.
21 ist ein Diagramm, um ein Einstellen bzw. Festlegen eines Schwellenwerts zu erläutern.
22 ist ein Blockdiagramm, das eine beispielhafte Konfiguration einer elektronischen Einrichtung darstellt.
23 ist ein Blockdiagramm, das eine beispielhafte Konfiguration eines Personalcomputers darstellt.
24 ist ein Diagramm, das eine beispielhafte Konfiguration einer Ausführungsform einer elektronischen Einrichtung darstellt, für die die vorliegende Technologie verwendet wird.
25 ist ein Flussdiagramm, um eine erste Verarbeitung einer Abstandsmessinformation zu erläutern.
26 ist ein Flussdiagramm, um einen Prozess der Nutzung eines Lernmodells zu erläutern.
27 ist ein Flussdiagramm, um einen Prozess zur Korrektur fehlerhafter Pixel zu erläutern.
28 ist ein Flussdiagramm, um eine zweite Verarbeitung einer Abstandsmessinformation zu erläutern.
29 ist ein Diagramm, das eine beispielhafte Konfiguration einer Ausführungsform einer Lernvorrichtung darstellt, für die die vorliegende Technologie verwendet wird.
30 ist ein Diagramm, das ein Beispiel eines Lernmodells darstellt.
31 ist ein Flussdiagramm, um einen Lernprozess zum Erzeugen des Lernmodells zu erläutern.
32 ist ein Diagramm, das ein beispielhaftes Verfahren darstellt, um fehlerhafte Pixel unter Verwendung eines Autocodierers zu identifizieren.
33 ist ein Flussdiagramm, um einen fehlerhafte Pixel identifizierenden Prozess zu erläutern.
34 ist ein Diagramm, das ein beispielhaftes Verfahren darstellt, um fehlerhafte Pixel unter Verwendung eines Autocodierers zu korrigieren.
35 ist ein Flussdiagramm, um einen Prozess zur Korrektur fehlerhafter Pixel zu erläutern.
36 ist ein Diagramm, das ein Beispiel eines Lernmodells darstellt.
37 ist ein Flussdiagramm, um einen Lernprozess zum Erzeugen eines Lernmodells zu erläutern.
38 ist ein Diagramm, das eine andere beispielhafte Konfiguration einer Ausführungsform einer elektronischen Einrichtung darstellt, für die die vorliegende Technologie verwendet wird.
39 ist ein Flussdiagramm, um einen eine korrigierte Tiefenkarte erzeugenden Prozess zu erläutern.
40 ist ein Diagramm, das ein Beispiel der Verarbeitungseinheit darstellt, die einen maschinellen Lernprozess durchführt.
41 ist eine perspektivische Ansicht einer beispielhaften externen Konfiguration eines Sensors.
42 ist ein Diagramm, das eine beispielhafte Konfiguration eines Systems darstellt, das Vorrichtungen enthält, für die die vorliegende Technologie verwendet wird.
43 ist ein Diagramm, das eine beispielhafte schematische Konfiguration eines Systems für endoskopische Chirurgie darstellt.
44 ist ein Blockdiagramm, das ein Beispiel der funktionalen Konfigurationen eines Kamerakopfes und einer CCU darstellt.
45 ist ein Blockdiagramm, das eine beispielhafte schematische Konfiguration eines Fahrzeugsteuerungssystems darstellt.
46 ist ein erläuterndes Diagramm, das ein Beispiel von Installationspositionen von Detektoren für externe Informationen und Bildgebungseinheiten darstellt.

MODI ZUM AUSFÜHREN DER ERFINDUNG
Das Folgende ist eine Beschreibung von Modi (worauf hier im Folgenden als Ausführungsformen verwiesen wird), um die vorliegende Technologie auszuführen.
Die vorliegende Technologie kann für lichtempfangende Elemente verwendet werden, die ein Abstandsmesssystem bilden, das eine Abstandsmessung beispielsweise mittels eines indirekten TOF-Verfahrens durchführt, und für eine Bildgebungsvorrichtung und dergleichen, die solche lichtempfangenden Elemente enthält.
Beispielsweise kann ein Abstandsmesssystem für ein fahrzeuginternes System, das an einem Fahrzeug montiert ist und den Abstand zu einem Zielobjekt außerhalb des Fahrzeugs misst, ein Gestenerkennungssystem, das den Abstand zu einem Zielobjekt wie etwa der Hand eines Nutzers misst und eine Geste des Nutzers auf der Basis des Ergebnisses der Messung erkennt, und dergleichen verwendet werden. In diesem Fall kann das Ergebnis der Gestenerkennung beispielsweise bei einer Bedienung eines Fahrzeugnavigationssystems oder dergleichen genutzt werden.
<Beispielhafte Konfiguration einer Abstandsmessvorrichtung>
1 ist ein Diagramm, das eine beispielhafte Konfiguration einer Ausführungsform einer Abstandsmessvorrichtung darstellt, für die die vorliegende Technologie verwendet wird.
Eine Abstandsmessvorrichtung 10 enthält eine Linse 11, eine lichtempfangende Einheit 12, eine Signalverarbeitungseinheit 13, eine lichtemittierende Einheit 14, eine Lichtemissions-Steuerungseinheit 15 und eine Filtereinheit 16. Die Abstandsmessvorrichtung 10 in 1 bestrahlt ein Objekt mit Licht und empfängt Licht (reflektiertes Licht), das das vom Objekt reflektierte Licht (Bestrahlungslicht) ist, um den Abstand zum Objekt zu messen.
Das Lichtemissionssystem der Abstandsmessvorrichtung 10 besteht aus der lichtemittierenden Einheit 14 und der Lichtemissions-Steuerungseinheit 15. Im Lichtemissionssystem veranlasst unter der Steuerung der Signalverarbeitungseinheit 13 die Lichtemissions-Steuerungseinheit 15, dass die lichtemittierende Einheit 14 Infrarotlicht (IR) emittiert. Zwischen der Linse 11 und der lichtempfangenden Einheit 12 kann ein IR-Bandfilter vorgesehen sein, und die lichtemittierende Einheit 14 kann dem Transmissionswellenlängenband des IR-Bandfilters entsprechendes Infrarotlicht emittieren.
Die lichtemittierende Einheit 14 kann im Gehäuse der Abstandsmessvorrichtung 10 angeordnet sein oder kann außerhalb des Gehäuses der Abstandsmessvorrichtung 10 angeordnet sein. Die Lichtemissions-Steuerungseinheit 15 veranlasst, dass die lichtemittierende Einheit 14 Licht mit einer vorbestimmten Frequenz emittiert.
Die Signalverarbeitungseinheit 13 fungiert als Berechnungseinheit, die den Abstand (Tiefenwert) von der Abstandsmessvorrichtung 10 zu einem Objekt beispielsweise auf der Basis eines Detektionssignals (Pixel-Daten) berechnet, das von der lichtempfangenden Einheit 12 bereitgestellt wird. Die Signalverarbeitungseinheit 13 erzeugt eine Tiefenkarte, in der der Tiefenwert (Tiefeninformation) als der Pixel-Wert jedes Pixels 50 (2) der lichtempfangenden Einheit 12 gespeichert wird, und gibt die Tiefenkarte an die Filtereinheit 16 aus. Die Signalverarbeitungseinheit 13 berechnet auch die Konfidenz (engl.: confidence) des Tiefenwerts, der bezüglich jedes Pixels 50 der lichtempfangenden Einheit 12 berechnet wurde, erzeugt eine Konfidenzkarte, die die Konfidenz (Luminanzinformation) als den Pixel-Wert jedes Pixels 50 der lichtempfangenden Einheit 12 speichert, und gibt die Konfidenzkarte an die Filtereinheit 16 aus.
<Konfiguration eines Bildgebungselements>
2 ist ein Blockdiagramm, das eine beispielhafte Konfiguration der lichtempfangenden Einheit 12 darstellt. Die lichtempfangende Einheit 12 kann ein Bildsensor aus einem komplementären Metalloxidhalbleiter (CMOS) sein.
Die lichtempfangende Einheit 12 umfasst eine Pixel-Arrayeinheit 41, eine vertikale Ansteuerungseinheit 42, eine Spalten-Verarbeitungseinheit 43, eine horizontale Ansteuerungseinheit 44 und eine System-Steuerungseinheit 45. Die Pixel-Arrayeinheit 41, die vertikale Ansteuerungseinheit 42, die Spalten-Verarbeitungseinheit 43, die horizontale Ansteuerungseinheit 44 und die System-Steuerungseinheit 45 sind auf einem Halbleitersubstrat (einem Chip) ausgebildet, der in der Zeichnung nicht dargestellt ist.
In der Pixel-Arrayeinheit 41 sind Einheitspixel (Pixel 50 in 3 beispielsweise) mit fotoelektrischen Umwandlungselementen, die fotoelektrische Ladungen einer Ladungsmenge entsprechend einer Menge an einfallendem Licht erzeugen und darin speichern, in einer Matrix zweidimensional angeordnet. Man beachte, dass in der Beschreibung unten auf eine fotoelektrische Ladung einer Ladungsmenge entsprechend einer Menge an einfallendem Licht einfach als „elektrische Ladung“ verwiesen werden kann und auf ein Einheitspixel einfach als „Pixel“ verwiesen werden kann.
Im matrixartigen Pixel-Array der Pixel-Arrayeinheit 41 sind ferner Pixel-Ansteuerungsleitungen 46 für die jeweiligen Reihen in der transversalen Richtung (der Array-Richtung der Pixel in den Pixel-Reihen) in der Zeichnung ausgebildet und sind vertikale Signalleitungen 47 für die jeweiligen Spalten in der vertikalen Richtung (der Array-Richtung der Pixel in den Pixel-Spalten) in der Zeichnung ausgebildet. Ein Ende jeder Pixel-Ansteuerungsleitung 46 ist mit dem Ausgangsende der vertikalen Ansteuerungseinheit 42 entsprechend den jeweiligen Reihen verbunden.
Die vertikale Ansteuerungseinheit 42 ist eine Pixel-Ansteuerungseinheit, die mit einem Schieberegister, einem Adressdecodierer und dergleichen ausgebildet ist und die jeweiligen Pixel in der Pixel-Arrayeinheit 41 beispielsweise zusammen oder Reihe um Reihe ansteuert. Pixel-Signale, die von den jeweiligen Einheitspixeln einer Pixel-Reihe abgegeben werden, die durch die vertikale Ansteuerungseinheit 42 ausgewählt und gescannt wird, werden über die jeweiligen vertikalen Signalleitungen 47 in die Spalten-Verarbeitungseinheit 43 eingespeist. Für die jeweiligen Pixel-Spalten der Pixel-Arrayeinheit 41 führt die Spalten-Verarbeitungseinheit 43 eine vorbestimmte Signalverarbeitung an Pixel-Signalen durch, die von den jeweiligen Einheitspixeln einer ausgewählten Reihe über die vertikalen Signalleitungen 47 abgegeben werden, und hält die der Signalverarbeitung unterzogenen Pixel-Signale vorübergehend.
Konkret führt die Spalten-Verarbeitungseinheit 43 zumindest einen Rauschunterdrückungsprozess wie etwa beispielsweise einen Prozess einer korrelierten Doppelabtastung (CDS) als die Signalverarbeitung durch. Durch diese von der Spalten-Verarbeitungseinheit 43 durchgeführte korrelierte Doppelabtastung werden Rücksetzrauschen und das Rauschen mit festem Muster, das für die Pixel einzigartig ist, wie etwa eine Schwellenwertvariation unter Verstärkungstransistoren, entfernt. Man beachte, dass die Spalten-Verarbeitungseinheit 43 nicht nur dafür geschaffen sein kann, den Rauschunterdrückungsprozess durchzuführen, sondern auch dafür, zum Beispiel eine Analog-Digital-(AD-)Umwandlungsfunktion aufzuweisen und Signalpegel als Digitalsignale abzugeben.
Die horizontale Ansteuerungseinheit 44 ist mit einem Schieberegister, einem Adressdecodierer und dergleichen ausgebildet und wählt sequentiell die Einheitsschaltungen entsprechend den Pixel-Spalten der Spalten-Verarbeitungseinheit 43 aus. Als Ergebnis dieses selektiven Scannens durch die horizontale Ansteuerungseinheit 44 werden die Pixel-Signale, die durch die Spalten-Verarbeitungseinheit 43 der Signalverarbeitung unterzogen wurden, sequentiell an die Signalverarbeitungseinheit 48 abgegeben.
Die System-Steuerungseinheit 45 ist mit einem Zeitsteuerungsgenerator oder dergleichen ausgebildet, der verschiedene Zeitsteuerungssignale erzeugt, und führt eine Steuerung zur Ansteuerung an der vertikalen Ansteuerungseinheit 42, der Spalten-Verarbeitungseinheit 43, der horizontalen Ansteuerungseinheit 44 und dergleichen auf der Basis der verschiedenen, durch den Zeitsteuerungsgenerator erzeugten Zeitsteuerungssignale durch.
Im matrixartigen Pixel-Array der Pixel-Arrayeinheit 41 sind die Pixel-Ansteuerungsleitungen 46 in der Reihenrichtung in den jeweiligen Pixel-Reihen vorgesehen und sind in jeder Pixel-Spalte zwei vertikale Signalleitungen 47 in der SpaltenRichtung vorgesehen. Beispielsweise übertragen die Pixel-Ansteuerungsleitungen 46 Ansteuerungssignale, um eine Ansteuerung durchzuführen, wenn Signale von den Pixeln gelesen werden. Man beachte, dass in 2 jede Pixel-Ansteuerungsleitung 46 als eine Verdrahtungsleitung dargestellt ist, aber nicht notwendigerweise eine Verdrahtungsleitung ist. Ein Ende jeder Pixel-Ansteuerungsleitung 46 ist mit dem Ausgangsende der vertikalen Ansteuerungseinheit 42 entsprechend der jeweiligen Reihen verbunden.
<Struktur der Einheitspixel>
Als Nächstes wird eine spezifische Struktur der in einer Matrix in der Pixel-Arrayeinheit 41 angeordneten Einheitspixel 50 beschrieben.
Ein Pixel 50 enthält eine Fotodiode 61 (worauf hier im Folgenden als PD 61 verwiesen wird), die ein fotoelektrisches Umwandlungselement ist, und ist so ausgelegt, dass in der PD 61 erzeugte elektrische Ladungen auf einen Abgriff bzw. Tap 51-1 und Tap 51-2 verteilt werden. Von den in der PD 61 erzeugten elektrischen Ladungen wird dann die auf einen Tap 51-1 verteilte elektrische Ladung von einer vertikalen Signalleitung 47-1 ausgelesen und wird als Detektionssignal SIG1 abgegeben. Die auf den Tap 51-2 verteilte elektrische Ladung wird ebenfalls von einer vertikalen Signalleitung 47-2 ausgelesen und als Detektionssignal SIG2 abgegeben.
Der Tap 51-1 enthält einen Übertragungstransistor 62-1, ein Floating-Diffusionsgebiet (FD) 63-1, einen Rücksetztransistor 64, einen Verstärkungstransistor 65-1 und einen Auswahltransistor 66-1. Desgleichen enthält der Tap 51-2 einen Übertragungstransistor 62-2, ein FD 63-2, den Rücksetztransistor 64, einen Verstärkungstransistor 65-2 und einen Auswahltransistor 66-2.
Man beachte, dass wie in 3 dargestellt der Rücksetztransistor 64 von dem FD 63-1 und dem FD 63-2 gemeinsam genutzt werden kann oder in sowohl dem FD 63-1 als auch dem FD 63-2 vorgesehen sein kann.
Falls ein Rücksetztransistor 64 in sowohl dem FD 63-1 als auch dem FD 63-2 vorgesehen ist, kann der Rücksetzzeitpunkt für sowohl das FD 63-1 als auch das FD 63-2 individuell gesteuert werden und kann somit eine feinere bzw. genauere Steuerung durchgeführt werden. Falls ein für das FD 63-1 und das FD 63-2 gemeinsamer Rücksetztransistor 64 vorgesehen ist, kann der Rücksetzzeitpunkt zwischen dem FD 63-1 und dem FD 63-2 gleichgesetzt werden, wird die Steuerung vereinfacht und kann auch die Schaltungskonfiguration vereinfacht werden.
In dem unten beschriebenen beispielhaften Fall wird der für das FD 63-1 und das FD 63-2 gemeinsame Rücksetztransistor 64 übernommen.
Bezugnehmend auf 4 wird nun die Verteilung elektrischer Ladungen in einem Pixel 50 beschrieben. Hier meint die Verteilung, dass die in einem Pixel 50 (PD 61) akkumulierten elektrischen Ladungen zu verschiedenen Zeitpunkten gelesen werden, um ein Lesen für die jeweiligen Taps durchzuführen.
Wie in 4 dargestellt ist, wird von der lichtemittierenden Einheit 14 Bestrahlungslicht abgegeben, das moduliert ist (ein Zyklus = Tp), um so eine Bestrahlung innerhalb der Bestrahlungszeit wiederholt ein-/auszuschalten, und wird reflektiertes Licht von der PD 61 mit einer Verzögerungszeit Td in Abhängigkeit vom Abstand zu einem Objekt empfangen.
Ein Übertragungs-Steuerungssignal TRT_A steuert das Ein-/Ausschalten des Übertragungstransistors 62-1, und ein Übertragungs-Steuerungssignal TRT_B steuert ein Ein-/Ausschalten des Übertragungstransistors 62-2. Wie in der Zeichnung dargestellt ist, ist, während das Übertragungs-Steuerungssignal TRT_A in der gleichen Phase wie das Bestrahlungslicht ist, das Übertragungs-Steuerungssignal TRT_B in einer Phase, die die Umkehrung des Übertragungs-Steuerungssignals TRT_A ist.
Dementsprechend werden, während der Übertragungstransistor 62-1 gemäß dem Übertragungs-Steuerungssignal TRT_A eingeschaltet ist, elektrische Ladungen, die durch die reflektiertes Licht empfangende Fotodiode 61 erzeugt werden, zum FD-Bereich 63-1 übertragen. Auf der anderen Seite werden, während der Übertragungstransistor 62-2 gemäß dem Übertragungs-Steuerungssignal TRT_B eingeschaltet ist, die elektrischen Ladungen zum FD-Bereich 63-2 übertragen. Infolgedessen werden in einer vorbestimmten Periode, während der Bestrahlungslicht mit der Bestrahlungszeit T periodisch emittiert wird, die über den Übertragungstransistor 62-1 übertragenen elektrischen Ladungen im FD-Bereich 63-1 sequentiell akkumuliert und werden die über den Übertragungstransistor 62-2 übertragenen elektrischen Leitungen im FD-Bereich 63-2 sequentiell akkumuliert.
Wenn der Auswahltransistor 66-1 gemäß einem Auswahlsignal SELm1 nach dem Ende der Periode, während der elektrische Ladungen akkumuliert werden, eingeschaltet wird, werden die im FD-Bereich 63-1 akkumulierten elektrischen Ladungen über die vertikale Signalleitung 47-1 ausgelesen und wird das der Ladungsmenge entsprechende Detektionssignal A von der lichtempfangenden Einheit 12 abgegeben. Desgleichen werden, wenn der Auswahltransistor 66-2 gemäß einem Auswahlsignal SELm2 eingeschaltet wird, die im FD-Bereich 63-2 akkumulierten elektrischen Ladungen über die vertikale Signalleitung 47-2 ausgelesen und wird das der Ladungsmenge entsprechende Detektionssignal B von der lichtempfangenen Einheit 12 abgegeben.
Die im FD-Bereich 63-1 akkumulierten elektrischen Ladungen werden freigesetzt, wenn der Rücksetztransistor 64 gemäß einem Rücksetzsignal RST eingeschaltet wird. Desgleichen werden die im FD-Bereich 63-2 akkumulierten elektrischen Ladungen freigesetzt, wenn der Rücksetztransistor 64 gemäß dem Rücksetzsignal RST eingeschaltet wird.
Wie oben beschrieben wurde, kann das Pixel 50 die elektrischen Ladungen, die durch die das reflektierte Licht empfangende Fotodiode 61 erzeugt werden, auf den Tap 51-1 und den Tap 51-2 gemäß der Verzögerungszeit Td verteilen und das Detektionssignal A und das Detektionssignal B abgeben. Ferner entspricht die Verzögerungszeit Td der Zeit, in der von der lichtemittierenden Einheit 14 emittiertes Licht zum Objekt läuft, vom Objekt reflektiert wird und dann zur lichtempfangenden Einheit 12 läuft, was der Abstand zum Objekt ist. Folglich kann die Abstandsmessvorrichtung 10 den Abstand (Tiefe) zum Objekt auf der Basis des Detektionssignals A und des Detektionssignals B aus der Verzögerungszeit Td berechnen.
<Abstandsmessung mit der auf der Lichtempfangsseite verschobenen Phase>
Bezugnehmend nun auf 5 bis 9 wird ein Fall beschrieben, in dem die Empfangsseite Licht mit einer verschobenen Phase empfängt und Detektionssignale erfasst.
Wie in 5 beispielsweise dargestellt ist, werden vier Arten eines Lichtempfangs durchgeführt, wobei die Phase jeweils um 90 Grad verzögert ist. Das heißt, auf der Basis eines Lichtempfangs mit einer Phasenverzögerung von 0 Grad, um Licht ohne jegliche Phasenverschiebung gegenüber jenem der lichtemittierenden Seite zu empfangen, werden ein Lichtempfang mit einer Phasenverzögerung von 90 Grad, ein Lichtempfang mit einer Phasenverzögerung von 180 Grad und ein Lichtempfang mit einer Phasenverzögerung von 270 Grad durchgeführt und ist eine Periode (Quad), um das Detektionssignal A und das Detektionssignal B zu detektieren, viermal vorgesehen.
Das heißt, wie in 6 dargestellt ist, sind beispielsweise eine Detektionsperiode Q0, um reflektiertes Licht zu detektieren, indem Licht mit einer Phasenverzögerung von 0 Grad empfangen wird, eine Detektionsperiode Q1, um reflektiertes Licht zu detektieren, indem Licht mit einer Phasenverzögerung von 90 Grad detektiert wird, eine Detektionsperiode Q2, um reflektiertes Licht zu detektieren, indem Licht mit einer Phasenverzögerung von 180 Grad empfangen wird, und eine Detektionsperiode Q3, um reflektiertes Licht zu detektieren, indem Licht mit einer Phasenverzögerung von 270 Grad empfangen wird, kontinuierlich vorgesehen.
6 stellt ein Beispiel des empfangenen Lichts, des reflektierten Lichts, des Übertragungs-Steuerungssignals TRT_A und des Übertragungs-Steuerungssignals TRT_B und des Detektionssignals A und des Detektionssignals B während der Detektionsperiode Q0 dar. Wie in 6 dargestellt ist, wird das Übertragungs-Steuerungssignal TRT_A des Tap 51-1 zum gleichen Zeitpunkt (eine Phasenverzögerung von 0 Grad) wie der Beginn einer Emission des Bestrahlungslichts eingeschaltet und wird ein Lichtempfang (Übertragung) am Tap 51-1 begonnen. Zu dem Zeitpunkt, um das Übertragungs-Steuerungssignal TRT_A auszuschalten, wird auch das Übertragungs-Steuerungssignal TRT B eingeschaltet und beginnt der Tap 51-2 einen Empfang (eine Übertragung) von Licht.
Während ein Lichtempfang mit einer Phasenverzögerung von 0 Grad auf diese Weise durchgeführt wird, werden elektrische Ladungen auf den Tap 51-1 und den Tap 51-2 verteilt, wobei die Ladungsmenge von der Verzögerungszeit TR abhängt, und werden die jeweiligen elektrischen Ladungen während einer Integrationsperiode akkumuliert. Danach werden während einer Ausleseperiode die während der Integrationsperiode akkumulierten elektrischen Ladungen der Ladungsmenge ausgelesen und werden ein Detektionssignal A0 und ein Detektionssignal B0 während der Detektionsperiode Q0 abgegeben.
7 stellt ein Beispiel des empfangenen Lichts, des reflektierten Lichts, des Übertragungs-Steuerungssignals TRT_A und des Übertragungs-Steuerungssignals TRT_B und des Detektionssignals A und des Detektionssignals B während der Detektionsperiode Q1 dar. Wie in 7 dargestellt ist, wird das Übertragungs-Steuerungssignal TRT_A des Tap 51-1 zu einem Zeitpunkt mit einer Phasenverzögerung von 90 Grad gegenüber dem Beginn einer Emission des Bestrahlungslicht eingeschaltet und wird ein Lichtempfang (Übertragung) am Tap 51-1 begonnen. Zu dem Zeitpunkt, um das Übertragungs-Steuerungssignal TRT_A auszuschalten, wird auch das Übertragungs-Steuerungssignal TRT_B eingeschaltet und beginnt der Tap 51-2 den Empfang (die Übertragung) von Licht.
Während ein Lichtempfang mit einer Phasenverzögerung von 90 Grad auf diese Weise durchgeführt wird, werden elektrische Ladungen auf den Tap 51-1 und den Tap 51-2 verteilt, wobei die Ladungsmenge von der Verzögerungszeit TR abhängt, und werden die jeweiligen elektrischen Ladungen während der Integrationsperiode akkumuliert. Danach werden während der Ausleseperiode die während der Integrationsperiode akkumulierten elektrischen Ladungen der Ladungsmenge ausgelesen und werden ein Detektionssignal A90 und ein Detektionssignal B90 während der Detektionsperiode Q1 abgegeben.
8 stellt ein Beispiel des empfangenen Lichts, des reflektierten Lichts, des Übertragungs-Steuerungssignals TRT_A und des Übertragungs-Steuerungssignals TRT_B und des Detektionssignals A und des Detektionssignals B während der Detektionsperiode Q2 dar. Wie in 8 dargestellt ist, wird das Übertragungs-Steuerungssignal TRT_A des Tap 51-1 zum Zeitpunkt mit einer Phasenverzögerung von 180 Grad gegenüber dem Beginn einer Emission des Bestrahlungslichts eingeschaltet und wird ein Lichtempfang (Übertragung) am Tap 51-1 begonnen. Zu dem Zeitpunkt, um das Übertragungs-Steuerungssignal TRT_A auszuschalten, wird auch das Übertragungs-Steuerungssignal TRT_B eingeschaltet und beginnt der Tap 51-2 einen Empfang (eine Übertragung) von Licht.
Während ein Lichtempfang mit einer Phasenverzögerung von 180 Grad auf diese Weise durchgeführt wird, werden elektrische Ladungen auf den Tap 51-1 und den Tap 51-2 verteilt, wobei die Ladungsmenge von der Verzögerungszeit TR abhängt, und werden die jeweiligen elektrischen Ladungen während der Integrationsperiode akkumuliert. Danach werden während einer Ausleseperiode die während der Integrationsperiode akkumulierten elektrischen Ladungen der Ladungsmenge ausgelesen und werden ein Detektionssignal A180 und ein Detektionssignal B180 während der Detektionsperiode Q2 abgegeben.
9 stellt ein Beispiel des empfangenen Lichts, des reflektierten Lichts, des Übertragungs-Steuerungssignals TRT_A und des Übertragungs-Steuerungssignals TRT_B und des Detektionssignals A und des Detektionssignals B während der Detektionsperiode Q3 dar. Wie in 9 dargestellt ist, wird das Übertragungs-Steuerungssignal TRT_A des Tap 51-1 zum Zeitpunkt mit einer Phasenverzögerung von 270 Grad gegenüber dem Beginn einer Emission des Bestrahlungslichts eingeschaltet und wird ein Lichtempfang (Übertragung) am Tap 51-1 begonnen. Zu dem Zeitpunkt, um das Übertragungs-Steuerungssignal TRT_A auszuschalten, wird auch das Übertragungs-Steuerungssignal TRT_B eingeschaltet und beginnt der Tap 51-2 einen Empfang (eine Übertragung) von Licht.
Während ein Lichtempfang mit einer Phasenverzögerung von 270 Grad auf diese Weise durchgeführt wird, werden elektrische Ladungen auf den Tap 51-1 und den Tap 51-2 verteilt, wobei die Ladungsmenge von der Verzögerungszeit TR abhängt, und werden die jeweiligen elektrischen Ladungen während der Integrationsperiode akkumuliert. Danach werden während der Ausleseperiode die während der Integrationsperiode akkumulierten elektrischen Ladungen der Ladungsmenge ausgelesen und werden ein Detektionssignal A270 und ein Detektionssignal B270 während der Detektionsperiode Q3 abgegeben.
Wie oben beschrieben wurde, werden das Detektionssignal A0 und das Detektionssignal B0 über einen Lichtempfang mit einer Phasenverzögerung von 0 Grad während der Detektionsperiode Q0 detektiert und werden das Detektionssignal A90 und das Detektionssignal B90 über einen Lichtempfang mit einer Phasenverzögerung von 90 Grad während der Detektionsperiode Q1 detektiert. Desgleichen werden das Detektionssignal A180 und das Detektionssignal B180 über einen Lichtempfang mit einer Phasenverzögerung von 180 Grad während der Detektionsperiode Q2 detektiert und werden das Detektionssignal A270 und das Detektionssignal B270 über einen Lichtempfang mit einer Phasenverzögerung von 270 Grad während der Detektionsperiode Q3 detektiert.
Auf der lichtemittierenden Seite gibt es trotz einer Phasenverzögerung am Beginn eines Lichtempfangs keine Phasenverzögerungen. Mit anderen Worten wird eine Emission von Bestrahlungslicht immer zum gleichen Zeitpunkt begonnen.
Falls ein Lichtempfang mit vier Phasenverzögerungen durch die zwei Taps 51 wie oben beschrieben durchgeführt wird und der Abstand zu einem vorbestimmten Objekt gemessen wird, wird auf der Basis der während der vier Detektionsperioden erhaltenen Signale ein Prozess durch die Signalverarbeitungseinheit 13 (1) durchgeführt.
<Berechnung eines Abstands>
Wie in 10 dargestellt ist, umfasst die Detektionsperiode eines Frame eine Detektionsperiode Q0, eine Detektionsperiode Q1, eine Detektionsperiode Q2 und eine Detektionsperiode Q3. Ein Detektionssignal A0 und ein Detektionssignal B0 werden während der Detektionsperiode Q0 erfasst, und ein Detektionssignal A90 und ein Detektionssignal B90 werden während der Detektionsperiode Q1 erfasst. Auch werden ein Detektionssignal A180 und ein Detektionssignal B180 während der Detektionsperiode Q2 erfasst und werden ein Detektionssignal A270 und ein Detektionssignal B270 während der Detektionsperiode Q3 erfasst.
Die Signalverarbeitungseinheit 13 (1) berechnet unter Verwendung dieser Detektionssignale eine Phasendifferenz θ gemäß einem unten dargestellten Ausdruck (1), berechnet einen Abstand D gemäß einem unten dargestellten Ausdruck (2) und berechnet eine Konfidenz gemäß einem unten dargestellten Ausdruck (3).
[Mathematische Formel 1] $\begin{array}{l} I = c_{0} - c_{180} = (A_{0} - B_{0}) - (A_{180} - B_{180}) \\ Q = c_{90} - c_{270} = (A_{90} - B_{90}) - (A_{270} - B_{270}) \\ θ = {tan}^{- 1} (\frac{Q}{I}) (0 \leq θ < 2 π) \end{array}$

[Mathematische Formel 2] $D = \frac{θ}{2 π} (\frac{τ_{p} c}{2})$

[Mathematische Formel 3] $confidence = \sqrt{I^{2} + Q^{2}}$
Im Ausdruck (1) repräsentiert I den Wert, der erhalten wird, indem der Wert C180, der durch Subtrahieren des Detektionssignals B180 vom Detektionssignal A180 erhalten wird, vom Wert C0 subtrahiert wird, der durch Subtrahieren des Detektionssignals B0 vom Detektionssignal A0 erhalten wird. Q repräsentiert den Wert, der erhalten wird, indem der Wert C270, der durch Subtrahieren des Detektionssignals B270 vom Detektionssignal A270 erhalten wird, vom Wert C90 subtrahiert wird, der durch Subtrahieren des Detektionssignals B90 vom Detektionssignal A90 erhalten wird. Die Phasendifferenz θ wird durch Bestimmen des Arcustangens von (Q/I) berechnet.
In Ausdruck (2) repräsentiert C die Lichtgeschwindigkeit und repräsentiert Tp die Impulsbreite. Die Verzögerungszeit Td kann auf der Basis der Phasendifferenz θ erhalten werden, und der Abstand D zum Objekt kann auf der Basis der Verzögerungszeit Td berechnet werden.
Ausdruck (3) ist eine Gleichung, um den Wert zu berechnen, der die Konfidenz des berechneten Abstands repräsentiert. Die Konfidenz c wird erhalten, indem die Quadratwurzel des Werts berechnet wird, der durch Addieren des Quadrats von I zum Quadrat von Q erhalten wird. Man beachte, dass die Berechnung der Konfidenz c kein wesentliches Element bei der Berechnung des Abstands D ist und weggelassen werden kann. Alternativ dazu kann die Konfidenz gemäß einem anderen Ausdruck als dem Ausdruck (3) berechnet werden. Beispielsweise kann die Summe der Absolutwerte von I und Q als die Konfidenz c festgelegt werden. Die Erläuterung wird hier unter der Annahme fortgesetzt, dass die Konfidenz gemäß dem Ausdruck (3) berechnet wird, jedoch ein Fall, in dem die Konfidenz gemäß in einem anderen Ausdruck berechnet wird, ebenfalls ein Anwendungsbereich der vorliegenden Technologie ist.
In der Beschreibung unten wird als ein Beispiel ein Fall beschrieben, in dem der Abstand zu einem vorbestimmten Objekt mit den beiden Taps 51 unter Verwendung von Bestrahlungslicht mit vier Phasendifferenzen berechnet wird (worauf hier im Folgenden als „2-Tap 4-Phase“ verwiesen wird). Jedoch kann die vorliegende Technologie auch in einem Fall, in dem der Abstand zu einem vorbestimmten Objekt mit den zwei Taps 51 unter Verwendung von Bestrahlungslicht mit zwei Phasendifferenzen gemessen wird, oder einem Fall verwendet werden, in dem der Abstand zu einem vorbestimmten Objekt mit einem Tap 51 unter Verwendung von Bestrahlungslicht mit vier Phasendifferenzen gemessen wird.
<2-Tap 2-Phase>
Ein Fall, in dem der Abstand zu einem vorbestimmten Objekt mit den beiden Taps 51 unter Verwendung von Bestrahlungslicht mit zwei Phasendifferenzen oder über einen Empfang von Licht mit zwei Phasendifferenzen gemessen wird (worauf hierin im Folgenden als „2-Tap 2-Phase“ gegebenenfalls verwiesen wird), wird nun kurz beschrieben. Hier wird die Erläuterung fortgesetzt, wobei als Beispiel ein Fall genommen wird, in dem ein Lichtempfang mit zwei Phasendifferenzen durchgeführt wird, um den Abstand zu einem vorbestimmten Objekt zu messen.
11 ist ein Diagramm, das die Belichtungszeitpunkte der vier Phasen 0 Grad, 90 Grad, 180 Grad und 270 Grad darstellt, wobei für ein einfaches Verständnis die Anfänge der Phasendifferenzen ausgerichtet sind.
In der Praxis wird, wie in 10 dargestellt ist, eine Bildgebung bzw. Abbildung, um ein Detektionssignal A0 und ein Detektionssignal B0 zu erfassen, während einer Detektionsperiode Q0 durchgeführt, wird eine Abbildung, um ein Detektionssignal A90 und ein Detektionssignal B90 zu erfassen, während einer Detektionsperiode Q1 durchgeführt, wird eine Abbildung um ein Detektionssignal A180 und ein Detektionssignal B180 zu erfassen, während einer Detektionsperiode Q2 durchgeführt, und wird eine Abbildung, um ein Detektionssignal A270 und ein Detektionssignal B270 zu erfassen, während einer Detektionsperiode Q3 durchgeführt.
11 zeigt diese Bildgebung bzw. Abbildung, die in der Zeitrichtung sequentiell durchgeführt wird, während die Anfänge der Detektionsperioden in der vertikalen Richtung ausgerichtet sind. Vom Beginn der Detektionsperiode Q0 an wird eine Belichtung zum Abbilden des Detektionssignals A0 durchgeführt, gefolgt von einer Belichtung zum Abbilden des Detektionssignals B0.
Von dem Zeitpunkt an, zu dem die Phase um 90 Grad gegenüber dem Beginn der Detektionsperiode Q1 verschoben ist, wird eine Belichtung zum Abbilden des Detektionssignals A90 durchgeführt, gefolgt von einer Belichtung zum Abbilden des Detektionssignals B90.
Von dem Zeitpunkt an, zu dem die Phase um 180 Grad gegenüber dem Beginn der Detektionsperiode Q2 verschoben ist, wird eine Belichtung zum Abbilden des Detektionssignals A180 durchgeführt, gefolgt von einer Belichtung zum Abbilden des Detektionssignals B180.
Von dem Zeitpunkt an, zu dem die Phase um 270 Grad gegenüber dem Beginn der Detektionsperiode Q3 verschoben ist, wird eine Belichtung zum Abbilden des Detektionssignals A270 durchgeführt, gefolgt von einer Belichtung zum Abbilden des Detektionssignals B270.
Die Belichtungszeit des Detektionssignals B0 der Detektionsperiode Q1 wird hier mit der Belichtungszeit des Detektionssignals A180 der Detektionsperiode Q2 verglichen, und das Ergebnis zeigt, dass eine Belichtung zum gleichen Zeitpunkt durchgeführt wird. Dementsprechend kann das Detektionssignal A180 der Detektionsperiode Q2 durch das Detektionssignal B0 der Detektionsperiode Q2 substituiert werden. Desgleichen kann das Detektionssignal B180 der Detektionsperiode Q2 durch das Detektionssignal A0 der Detektionsperiode Q0 substituiert werden.
Gleichfalls kann die Belichtungszeit des Detektionssignals B90 der Detektionsperiode Q1 mit der Belichtungszeit des Detektionssignals A270 der Detektionsperiode Q3 verglichen werden, und das Ergebnis zeigt, dass eine Belichtung zum gleichen Zeitpunkt durchgeführt wird. Dementsprechend kann das Detektionssignal A270 der Detektionsperiode Q3 durch das Detektionssignal B90 der Detektionsperiode Q1 substituiert werden. Desgleichen kann das Detektionssignal B270 der Detektionsperiode Q3 durch das Detektionssignal A90 der Detektionsperiode Q1 substituiert werden.
Im Hinblick darauf werden die Detektionsperiode Q0 und die Detektionsperiode Q1 als die Detektionsperiode eines Frame festgelegt und werden das Detektionssignal A0 und das Detektionssignal B0 während der Detektionsperiode Q0 erfasst, wie in 12 dargestellt ist.
Das während der Detektionsperiode Q0 erfasste Detektionssignal A0 kann als das Detektionssignal B180 genutzt werden. Auch kann das während der Detektionsperiode Q0 erfasste Detektionssignal B0 als das Detektionssignal A180 genutzt werden. Dementsprechend können in diesem Fall während der Detektionsperiode Q0 das Detektionssignal A0, das Detektionssignal B0, das Detektionssignal A180 und das Detektionssignal B180 so betrachtet werden, als ob sie tatsächlich erfasst worden wären.
Desgleichen kann das während der Detektionsperiode Q1 erfasste Detektionssignal A90 als das Detektionssignal B270 genutzt werden. Ferner kann das während der Detektionsperiode Q1 erfasste Detektionssignal B90 als das Detektionssignal A270 genutzt werden. Dementsprechend können in diesem Fall während der Detektionsperiode Q1 das Detektionssignal A90, das Detektionssignal B90, das Detektionssignal A270 und das Detektionssignal B270 so betrachtet werden, als ob sie tatsächlich erfasst worden wären.
Somit kann der mit Verweis auf 12 beschriebene Fall 2-Tap 2-Phase auch wie der mit Verweis auf 10 beschriebene Fall 2-Tap 4-Phase behandelt werden.
Der Wert I und der Wert Q im Ausdruck (1) in dem mit Verweis auf 10 beschriebenen 2-Tap 4-Phase werden wie im unten dargestellten Ausdruck (4) ausgedrückt.
[Mathematische Formel 4] $\begin{array}{l} I = c_{0} - c_{180} = A_{0} - B_{0} \\ Q = c_{90} - c_{270} = A_{90} - B_{90} \end{array}$
Der Wert I wird erhalten, indem das Detektionssignal B0 vom Detektionssignal A0 subtrahiert wird, und der Wert Q wird erhalten, indem das Detektionssignal B90 vom Detektionssignal A90 subtrahiert wird. Da der Wert I und der Wert Q ermittelt bzw. erfasst werden, kann die Phasendifferenz θ gemäß dem Ausdruck (1) berechnet werden und kann der Abstand D gemäß dem Ausdruck (2) wie im oben beschriebenen Fall des 2-Tap-Systems berechnet werden.
<1-Tap 4-Phase>
Nun wird kurz ein Fall beschrieben, in dem der Abstand zu einem vorbestimmten Objekt mit einem Tap 51 (die Konfiguration eines Pixels 50 mit einem Tap 51 ist nicht dargestellt) unter Verwendung von Bestrahlungslicht mit vier Phasendifferenzen oder über einen Empfang von Licht mit vier Phasendifferenzen (worauf hier im Folgenden gegebenenfalls als „1-Tap 4-Phase“ verwiesen wird) gemessen wird.
Wenn die Bildgebungs- bzw. Abbildungsreihenfolge in der Zeitrichtung in dem Fall 1-Tap 4-Phase in der gleichen Weise wie in 10 veranschaulicht wird, wird die in 13 dargestellte Reihenfolge erhalten. Während einer Detektionsperiode Q0 wird der Wert C0 im oben beschriebenen Ausdruck (1) ermittelt. Während einer Detektionsperiode Q1 wird der Wert C90 im oben dargestellten Ausdruck (1) ermittelt. Während einer Detektionsperiode Q2 wird der Wert C180 im oben dargestellten Ausdruck (1) ermittelt. Während einer Detektionsperiode Q3 wird der Wert C270 im oben dargestellten Ausdruck (1) ermittelt.
Im Fall des 1-Tap-Systems werden der Wert I und der Wert Q im oben dargestellten Ausdruck (1) wie im unten dargestellten Ausdruck (5) ausgedrückt.
[Mathematische Formel 5] $\begin{matrix} I = c_{0} - c_{180} \\ Q = c_{90} - c_{270} \end{matrix}$
Da der Wert I und der Wert Q ermittelt werden, kann wie im Fall des oben beschriebenen 2-Tap-Systems die Phasendifferenz θ gemäß dem Ausdruck (1) berechnet werden und kann der Abstand D gemäß dem Ausdruck (2) berechnet werden.
Die vorliegende Technologie kann auf Fälle 2-Typ 4-Phase, 2-Tap 2-Phase und 1-Tap 4-Phase angewendet werden, die oben beschrieben wurden.
<Fliegende Pixel>
Eine falsche Detektion, die nahe einem Rand eines zu messenden Objekts in einer Umgebung auftritt, wird nun beschrieben. Auf ein Pixel, das nahe einem Rand eines Objekts fälschlicherweise detektiert wird, kann als fehlerhaftes Pixel, fliegendes Pixel oder dergleichen verwiesen werden.
Wie in 14 und 15 dargestellt ist, wird hierin ein Fall diskutiert, in dem es zwei Objekte in einer dreidimensionalen Umgebung gibt und die Positionen der beiden Objekte mit der Abstandsmessvorrichtung 10 gemessen werden. 14 ist ein Diagramm, das die Positionsbeziehung zwischen einem Vordergrundobjekt 101 und einem Hintergrundobjekt 102 in einer x-z-Ebene darstellt. 15 ist ein Diagramm, das die Positionsbeziehung zwischen dem Vordergrundobjekt 101 und dem Hintergrundobjekt 102 in einer x-y-Ebene darstellt.
Die in 14 dargestellte x-z-Ebene ist die Ebene, wenn das Vordergrundobjekt 101, das Hintergrundobjekt 102 und die Abstandsmessvorrichtung 10 von oben betrachtet werden, und die in 15 dargestellte x-y-Ebene ist eine Ebene, die in einer zur x-z-Ebene senkrechten Richtung liegt, und ist die Ebene, wenn das Vordergrundobjekt 101 und das Hintergrundobjekt 102 von der Abstandsmessvorrichtung 10 aus betrachtet werden.
Bezugnehmend auf 14 befindet sich, wenn die Abstandsmessvorrichtung 10 als die Referenz genutzt wird, das Vordergrundobjekt 101 auf der näher zur Abstandsmessvorrichtung 10 gelegenen Seite und befindet sich das Hintergrundobjekt 101 auf der von der Abstandsmessvorrichtung 10 weiter entfernt gelegenen Seite. Das Vordergrundobjekt 101 und das Hintergrundobjekt 102 befinden sich ebenfalls innerhalb des Blickwinkels der Abstandsmessvorrichtung 10. Der Blickwinkel der Abstandsmessvorrichtung 10 ist durch eine gestrichelte Linie 111 und eine gestrichelte Linie 112 in 14 angegeben.
Eine Seite des Vordergrundobjekts 101 oder die Seite auf der rechten Seite in 14 ist ein Rand 103. Es besteht eine Möglichkeit, dass in der Nähe dieses Randes 103 ein fliegendes Pixel erscheint.
Bezugnehmend auf 15 wird von der Abstandsmessvorrichtung 10 eine Abbildung des Vordergrundobjekts 101 und des Hintergrundobjekts 102 in einer Situation durchgeführt, in der diese Objekte einander überlappen. In solch einem Fall besteht eine Möglichkeit, dass fliegende Pixel auf der oberen Seite (worauf als Rand 104 verwiesen wird) des Vordergrundobjekts 101 und der unteren Seite (worauf als Rand 105 verwiesen wird) des Vordergrundobjekts 101 erscheinen.
In diesem Fall ist ein fliegendes Pixel (engl.: flying pixel) ein Pixel, das als ein Pixel detektiert wird, das zu einem Randbereich des Vordergrundobjekts 101 gehört, oder als ein Pixel in solch einem Abstand detektiert wird, dass das Pixel weder zum Vordergrundobjekt 101 noch zum Hintergrundobjekt 102 gehört.
16 ist ein Diagramm, in dem das Vordergrundobjekt 101 und das Hintergrundobjekt 102 durch die Pixel entsprechend dem in 14 dargestellten Bild repräsentiert werden. Eine Pixel-Gruppe 121 sind die vom Vordergrundobjekt 101 detektierten Pixel, und eine Pixel-Gruppe 122 sind die vom Hintergrundobjekt 102 detektierten Pixel. Ein Pixel 123 und ein Pixel 124 sind fliegende Pixel und sind fälschlich detektierte Pixel.
Das Pixel 123 und das Pixel 124 liegen auf den Rändern zwischen dem Vordergrundobjekt 101 und dem Hintergrundobjekt 102, wie in 16 dargestellt ist. Beide dieser fliegenden Pixel können zu dem Vordergrundobjekt 101 oder dem Hintergrundobjekt 102 gehören. Alternativ dazu kann nur eines dieser fliegenden Pixel zu dem Vordergrundobjekt 101 gehören, während das andere zum Hintergrundobjekt 102 gehört.
Die Pixel 123 und 124 werden als fliegende Pixel detektiert und werden entsprechend verarbeitet, um wie zum Beispiel in 17 dargestellt modifiziert zu werden. Bezugnehmend auf 17 wird das Pixel 123 (16) zu einem Pixel 123' modifiziert, das zu der zum Vordergrundobjekt 101 gehörenden Pixel-Gruppe 121 gehört, und wird das Pixel 124 (16) zu einem Pixel 124' modifiziert, das zu der zum Hintergrundobjekt 102 gehörenden Pixel-Gruppe 122 gehört.
Der Prozess, um auf diese Weise fehlerhafte Pixel wie etwa fliegende Pixel zu detektieren, wird unten weiter beschrieben.
<Erster Prozess in Bezug auf eine Detektion fliegender Pixel>
Bezugnehmend auf 18 wird nun ein erster Prozess in Bezug auf eine Detektion fliegender Pixel beschrieben. Eine Detektion fliegender Pixel wird in der Filtereinheit 16 ( 1) durchgeführt. Wieder auf 1 verweisend werden eine Tiefenkarte und eine Konfidenzkarte der Filtereinheit 16 von der Signalverarbeitungseinheit 13 bereitgestellt. Die Filtereinheit 16 detektiert fliegende Pixel aus der Tiefenkarte (eine Gruppe von Pixeln).
In Schritt S11 legt die Filtereinheit 16 ein Prozessziel-(Auswertungsziel-)Pixel in der bereitgestellten Tiefenkarte fest.
In Schritt S12 wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Differenz zwischen dem Abstand (Tiefenwert) des Prozessziel-Pixels und dem Abstand (Tiefenwert) eines Umgebungspixels gleich einem oder größer als ein Schwellenwert ist oder nicht. Bezugnehmend auf 16 liegt beispielsweise ein fliegendes Pixel wie etwa das Pixel 123 abseits der Pixel-Gruppe 123 und der Pixel-Gruppe 122. Mit anderen Worten befindet sich das Pixel 123 an einer von den Pixeln um das Pixel 123 herum entfernten Position. Daher wird in einem Fall, in dem der Abstand zwischen dem Pixel 123 und einem Umgebungspixel (wie etwa beispielsweise einem Pixel in der Pixel-Gruppe 121) berechnet wird, angenommen, dass die Differenz einen vorbestimmten oder größeren Wert hat.
Der Bestimmungsprozess in Schritt S12 wird unten weiter beschrieben. Ein Fall, in dem eine Richtungsableitung um einen dem Prozessziel-Pixel entsprechenden Punkt genutzt wird, um ein fliegendes Pixel zu detektieren, wird unten als ein Beispiel beschrieben.
Man beachte, dass in der Beschreibung unten Richtungsableitungen in mehrere Richtungen betrachtet werden können. Der einfachen Erklärung halber werden jedoch die vertikale Richtung und die horizontale Richtung als Beispiele genommen. Es versteht sich jedoch, dass das gleiche Prinzip auf andere Richtungen als die vertikalen und horizontalen Richtungen angewendet werden kann. Obgleich ein Fall, in dem Richtungsableitungen genutzt werden, als ein Beispiel hierin beschrieben wird, können ferner andere Verfahren in der vorliegenden Technologie übernommen werden.
Hier repräsentiert „P“ das Pixel, das in der Tiefenkarte ausgewertet wird, und „a“ repräsentiert die ausgewählte Richtung in der Ebene. In diesem Fall ist da(P) der Wert der Ableitung in der Richtung „a“ im Pixel „P“. Falls der Absolutwert |da(P)| der Richtungsableitung und |da + π (P)| größer als vordefinierte Schwellenwerte in der Richtung „a“ sind und die Vorzeichen (engl.: signs) von da(P) und {da + π(P)} gleich sind, wird das Pixel als fliegendes Pixel detektiert. Man beachte, dass (a + π) eine zu a entgegengesetzte Richtung angibt.
Unter Verwendung der Richtungsableitung ist es auch möglich, ein Pixel mit Rauschen zu detektieren. Falls das Pixel, das gerade ausgewertet wird, einen Tiefenwert hat, der sich von den Tiefenwerten all der Pixel signifikant unterscheidet, die dem Pixel benachbart sind, das gerade ausgewertet wird, oder falls zumindest eine Richtungsableitung größer als ein vordefinierter Schwellenwert ist und zumindest zwei Richtungsableitungen entgegengesetzte Vorzeichen aufweisen, wird das Pixel als Pixel mit Rauschen detektiert.
Eine Detektion eines Pixels mit Rauschen wird hierin ebenfalls beschrieben. Falls der erste Prozess in Bezug auf eine Detektion fliegender Pixel durchgeführt wird, ist jedoch die Detektion eines Pixels mit Rauschen, die unten beschrieben wird, ein Prozess, der gegebenenfalls weggelassen werden kann.
Für jedes Pixel kann/können eine Detektion eines Pixels mit Rauschen oder/und eine Detektion eines fliegenden Pixels in jeder beliebigen gewünschten Anzahl an Richtungen durchgeführt werden. Diese Richtungen decken vorzugsweise einen Einheitskreis ab, der ein Kreis mit einem einem Pixel äquivalenten Radius ist. Typischerweise kann, wobei i = 1 bis n gilt, ein Satz von Richtungen {a_i} genutzt werden und wird der folgende Ausdruck erfüllt: $a_i = (i - 1) \times π /n$
Eine Richtungsableitung kann aus einer finiten Differenz abgeschätzt werden. In 19 ist ein Pixel 150 das Pixel „P“, das unter Verwendung eines Pixels 152, eines Pixels 154, eines Pixels 156 und eines Pixels 158 ausgewertet wird, die einem Pixel „T“ oberhalb des Pixels „P“, einem Pixel „L“ zur Linken, einem Pixel „R“ zur Rechten und einem Pixel „B“ unterhalb des Pixels „P“ entsprechen.
Die Werte der Pixel 152, 154, 156 und 158 können genutzt werden bei der Bestimmung, ob das Pixel 150 ein fliegendes Pixel ist oder nicht und ob das Pixel ein Pixel mit Rauschen ist oder nicht, in zwei Richtungen, die Richtungen unter Winkeln von 0° und π/2 (die horizontale und vertikale Richtung) sind.
Im Fall der horizontalen und vertikalen Richtungen wird die Detektion eines Pixels mit Rauschen gemäß den folgenden Ausdrücken durchgeführt: $\begin{array}{l} (| R - P | < Th und | L - P | < Th) oder (| T - P | < Th und | B \\ - P | < Th) \end{array}$
und $\begin{array}{l} Vorzeichen (R - P) \neq Vorzeichen (P - L) oder Vorzeichen (T - \\ P) \neq Vorzeichen (P - B) . \end{array}$
Diese Ausdrücke werden als Ausdruck (6) definiert. Im Ausdruck (6) repräsentiert Th den Schwellenwert.
Im Ausdruck (6) repräsentiert P den Tiefenwert des Pixels 150, repräsentiert T den Tiefenwert des Pixels 152, repräsentiert L den Tiefenwert des Pixels 154, repräsentiert R den Tiefenwert des Pixels 156 und repräsentiert B den Tiefenwert des Pixels 158. Man beachte, dass das Gleiche für einen später dargestellten Ausdruck (7) gilt.
Ferner wird in der Beschreibung unten jeder Wert als geringer als der Schwellenwert oder größer als der Schwellenwert beschrieben. Beispielsweise kann jedoch jeder Wert gleich dem oder größer als der Schwellenwert oder gleich dem oder geringer als der Schwellenwert sein.
Der Ausdruck (|R - P| < Th und |L - P| < Th) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 156, das auf der rechten Seite des Pixels 150 liegt (19), geringer als der Schwellenwert Th ist und der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 154, das auf der linken Seite des Pixels 150 liegt, geringer als der Schwellenwert Th ist.
Falls gemäß diesem Ausdruck eine Bestimmung vorgenommen wird, wird auch eine Überprüfung vorgenommen, um zu bestimmen, ob Vorzeichen(R - P) ≠ Vorzeichen(P - L) gilt. Der Ausdruck Vorzeichen(R - P) ≠ Vorzeichen(P - L) ist der Ausdruck zum Bestimmen, ob das positive/negative Vorzeichen des Werts, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 156 erhalten wird, gleich dem positiven/negativen Vorzeichen des Werts ist oder nicht, der erhalten wird, indem das Pixel 150 vom Pixel 154 subtrahiert wird. Falls diese beiden Ausdrücke erfüllt sind, wird das Prozessziel-Pixel als Pixel mit Rauschen detektiert.
Falls eine Verarbeitung mit dem Augenmerk auf die vertikale Richtung durchgeführt wird, werden (|T - P| < Th und |B - P| < Th) und Vorzeichen(T - P) ≠ Vorzeichen(P - B) genutzt. Der Ausdruck (|T - P| < Th und |B - P| < Th) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 152, das oberhalb des Pixels 150 liegt (19), geringer als der Schwellenwert Th ist und der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 158, das unterhalb des Pixels 150 liegt, geringer als der Schwellenwert Th ist.
Falls eine Bestimmung gemäß diesem Ausdruck vorgenommen wird, wird auch eine Überprüfung vorgenommen, um zu bestimmen, ob Vorzeichen(T - P) ≠ Vorzeichen(P - B) gilt. Der Ausdruck Vorzeichen(T - P) ≠ Vorzeichen(P - B) ist der Ausdruck zum Bestimmen, ob das positive/negative Vorzeichen des Werts, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 152 erhalten wird, ungleich dem positiven/negativen Vorzeichen des Werts ist oder nicht, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 158 erhalten wird. Falls diese beiden Ausdrücke erfüllt sind, wird das Prozessziel-Pixel als Pixel mit Rauschen detektiert.
Die Detektion eines fliegenden Pixels wird gemäß den folgenden Ausdrücken durchgeführt: $\begin{array}{l} (| R - P | > kTh und | L - P | > kTh) oder (| T - P | > kTh und \\ | B - P | > Th) \end{array}$
und $\begin{array}{l} Vorzeichen (R - P) = Vorzeichen (P - L) oder Vorzeichen (T - \\ P) = Vorzeichen (P - B) . \end{array}$
Diese Ausdrücke sind als Ausdruck (7) definiert. Im Ausdruck (7) repräsentiert Th den Schwellenwert und repräsentiert k einen vorbestimmten Gewichtungsfaktor.
Der Ausdruck (|R - P| > kTh und |L - P| > kTh) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 156, das auf der rechten Seite des Pixels 150 liegt (19), größer als der Wert ist oder nicht, der durch Multiplizieren des Schwellenwerts Th mit dem Gewichtungsfaktor k erhalten wird, und der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 154, das auf der linken Seite des Pixels 150 liegt, größer als der Wert ist oder nicht, der durch Multiplizieren des Schwellenwerts Th mit dem Gewichtungsfaktor k erhalten wird.
Falls eine Bestimmung gemäß diesem Ausdruck vorgenommen wird, wird auch eine Überprüfung vorgenommen, um zu bestimmen, ob Vorzeichen(R - P) = Vorzeichen(P - L) gilt. Der Ausdruck Vorzeichen(R - P) = Vorzeichen(P - L) ist der Ausdruck zum Bestimmen, ob das positive/negative Vorzeichen des Werts, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 156 erhalten wird, gleich dem positiven/negativen Vorzeichen des Werts ist oder nicht, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 154 erhalten wird. Falls diese beiden Ausdrücke erfüllt sind, wird das Prozessziel-Pixel als fliegendes Pixel detektiert.
Falls eine Verarbeitung mit dem Augenmerk auf die vertikale Richtung durchgeführt wird, werden (|T - P| > kTh und |B - P| > kTh) und Vorzeichen (T - P) = Vorzeichen (P - B) verwendet. Der Ausdruck (|T - P| > kTh und |B - P| > kTh) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 152, das oberhalb des Pixels 150 liegt (19), größer als der Wert ist oder nicht, der durch Multiplizieren des Schwellenwerts Th mit dem Gewichtungsfaktor k erhalten ist, und der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 150 und dem Pixel 158, das unterhalb des Pixels 150 liegt, größer als der Wert ist oder nicht, der durch Multiplizieren des Schwellenwerts Th mit dem Gewichtungsfaktor k erhalten wird.
Falls eine Bestimmung gemäß diesem Ausdruck vorgenommen wird, wird auch eine Überprüfung vorgenommen, um zu bestimmen, ob Vorzeichen(T - P) = Vorzeichen(P - B) gilt. Der Ausdruck Vorzeichen(T - P) = Vorzeichen(P - B) ist der Ausdruck zum Bestimmen, ob das positive/negative Vorzeichen des Werts, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 152 erhalten wird, dasselbe wie das positive/negative Vorzeichen des Werts ist oder nicht, der durch Subtrahieren des Tiefenwerts des Pixels 150 vom Tiefenwert des Pixels 158 erhalten wird. Falls diese beiden Ausdrücke erfüllt sind, wird das Prozessziel-Pixel als fliegendes Pixel detektiert.
Man beachte, dass als Alternative zur obigen Detektion eines fliegenden Pixels oder eines Pixels mit Rauschen anstelle des Ausdrucks (6) und des Ausdrucks (7) ein unten dargestellter Ausdruck (8) verwendet werden kann. $| L - R | > Th und | T - B | > Th$
Der Ausdruck (|L - R| > Th und |T - B| > Th) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 156, das auf der rechten Seite des auszuwertenden Pixels 150 liegt, und dem auf der linken Seite gelegenen Pixel 154 größer ist als der Schwellenwert Th oder nicht und der Absolutwert der Tiefenwertdifferenz zwischen dem Pixel 152, das oberhalb des auszuwertenden Pixels 150 liegt, und dem auf der unteren Seite gelegenen Pixel 158 größer als der Schwellenwert Th ist oder nicht. Falls dieser Ausdruck erfüllt ist, wird das Prozessziel-Pixel als fliegendes Pixel detektiert.
Gemäß diesem Ausdruck (8) wird der Wert zwischen den zwei Pixeln verwendet, die das Pixel umgeben, das gerade ausgewertet wird. Daher kann der Schwellenwert Th größer als der Schwellenwert Th im Ausdruck (6) und Ausdruck (7) sein, die oben dargestellt sind.
In Schritt S12 (18) bestimmt die Filtereinheit 16, ob das Prozessziel-Pixel ein fliegendes Pixel ist oder nicht, auf der Basis des Ausdrucks (7). In Schritt S12 wird ein Bestimmungsprozess durchgeführt, um zu bestimmen, ob die Tiefenwert-(Abstands-)Differenz von einem Umgebungspixel größer als (gleich oder größer als) der Schwellenwert ist oder nicht. Obgleich ein fliegendes Pixel nur durch diesen Prozess in Schritt S12 detektiert werden kann, besteht eine Möglichkeit, dass ein Pixel, das kein fliegendes Pixel ist, als fliegendes Pixel detektiert wird.
Beispielsweise besteht eine Möglichkeit, dass eine Ebene, die nahe einer zum Richtungsvektor der Abstandsmessvorrichtung 10 parallelen Richtung liegt und sich in einem großen Abstand befindet, als fliegendes Pixel detektiert wird. Die Detektion eines fliegenden Pixels aus solch einer Ebene im Prozess in Schritt S12 wird zu einer falschen Detektion führen. Der Bestimmungsprozess in Schritt S13 wird als Mechanismus zum Korrigieren einer derartigen, in Schritt S12 durchgeführten falschen Detektion durchgeführt.
Falls bestimmt wird, dass die Abstandsdifferenz zwischen dem Prozessziel-Pixel und dem Umgebungspixel gleich dem oder größer als (oder größer als) der Schwellenwert in Schritt S12 ist, mit anderen Worten falls bestimmt wird, dass eine Möglichkeit eines fliegenden Pixels besteht, geht der Prozess zu Schritt S13 über.
In Schritt S13 wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem Prozessziel-Pixel und dem umgebenden Pixel gleich dem oder größer als der Schwellenwert ist oder nicht. Die Konfidenz ist ein gemäß dem Ausdruck (3) berechneter Wert. Der Reflexionsgrad ist ein Wert, der gemäß dem unten dargestellten Ausdruck (9) berechnet wird. Man beachte, dass wie oben beschrieben wurde, die Konfidenz beispielsweise die Summe der Absolutwerte von I und Q in einem anderen Ausdruck als dem Ausdruck (3) sein kann.
$Reflexionsgrad = Konfidenz \times {Tiefe}^{2}$
Der Reflexionsgrad ist der Wert, der erhalten wird, indem die Konfidenz mit dem Quadrat des Abstands (Tiefenwert) multipliziert wird.
Im Schritt S13 kann entweder die Konfidenz oder der Reflexionsgrad verwendet werden. Alternativ dazu kann ein Mechanismus vorgesehen werden, bei dem ein bestimmter Index eingeführt wird, und der Fall einer Nutzung der Konfidenz und der Fall der Nutzung des Reflexionsgrads können umgeschaltet werden.
Falls der Bestimmungsprozess in Schritt S13 unter Verwendung der Konfidenz durchgeführt wird, wird der Bestimmungsprozess auf der Basis des unten dargestellten Ausdrucks (10) durchgeführt. Die Konfidenz wird auf der Basis des oben dargestellten Ausdrucks (3) berechnet.
$(| Rc - Pc | > Thc und | Lc - Pc | > Thc)$
oder $(| Tc - Pc | > Thc und | Bc - Pc | > Thc)$
Im Ausdruck (10) repräsentiert Pc die Konfidenz des Pixels 150, repräsentiert Tc die Konfidenz des Pixels 152, repräsentiert Lc die Konfidenz des Pixels 154, repräsentiert Rc die Konfidenz des Pixels 156 und repräsentiert Bc die Konfidenz des Pixels 158.
Der Ausdruck (|Rc - Pc| > Thc und |Lc - Pc| > Thc) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Differenz zwischen der Konfidenz des Pixels 150 und der Konfidenz des Pixels 156, das auf der rechten Seite des Pixels 150 liegt (19), größer als ein Schwellenwert Thc und der Absolutwert der Differenz zwischen der Konfidenz des Pixels 150 und der Konfidenz des Pixels 154, das auf der linken Seite des Pixels 150 liegt, größer als der Schwellenwert Thc ist oder nicht. Falls dieser Ausdruck erfüllt ist, wird das Prozessziel-Pixel als fliegendes Pixel detektiert (bestätigt).
Falls eine Verarbeitung mit Augenmerk auf die vertikale Richtung durchgeführt wird, wird (|Tc - Pc| > Th, und |Bc - Pc| > Thc) verwendet. Der Ausdruck (| Tc - Pc| > Thc und |Bc - Pc| > Thc) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Differenz zwischen der Konfidenz des Pixels 150 und der Konfidenz des Pixels 152, das oberhalb des Pixels 150 liegt (19), größer als der Schwellenwert Thc ist und der Absolutwert der Differenz zwischen der Konfidenz des Pixels 150 und der Konfidenz des Pixels 158, das unterhalb des Pixels 150 liegt, größer als der Schwellenwert Thc ist oder nicht. Falls dieser Ausdruck erfüllt ist, wird das Prozessziel-Pixel als fliegendes Pixel detektiert (bestätigt).
Falls der Bestimmungsprozess in Schritt S13 unter Verwendung des Reflexionsgrads durchgeführt wird, wird der Bestimmungsprozess auf der Basis des unten dargestellten Ausdrucks (11) durchgeführt. Der Reflexionsgrad wird auf der Basis des oben dargestellten Ausdrucks (9) berechnet.
$(| Rr - Pr | > Thr und | Lr - Pr | > Thr),$
oder $(| Tr - Pr | > Thr und | Br - Pr | > Thr)$
Im Ausdruck (11) repräsentiert Pr den Reflexionsgrad des Pixels 150, repräsentiert Tr den Reflexionsgrad des Pixels 152, repräsentiert Lr den Reflexionsgrad des Pixels 154, repräsentiert Rr den Reflexionsgrad des Pixels 156 und repräsentiert Br den Reflexionsgrad des Pixels 158.
Der Ausdruck (|Rr - Pr| > Thr und |Lr - Pr| > Thr) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Differenz zwischen dem Reflexionsgrad des Pixels 150 und dem Reflexionsgrad des Pixels 156, das auf der rechten Seite des Pixels 150 liegt (19), größer als ein Schwellenwert Thr ist und der Absolutwert der Differenz zwischen dem Reflexionsgrad des Pixels 150 und dem Reflexionsgrad des Pixels 154, das auf der linken Seite des Pixels 150 liegt, größer als der Schwellenwert Thr ist oder nicht. Falls dieser Ausdruck erfüllt ist, wird das Prozessziel-Pixel als fliegendes Pixel detektiert (bestätigt).
In einem Fall, in dem eine Verarbeitung mit Augenmerk auf die vertikale Richtung durchgeführt wird, wird (|Tr - Pr| > Thr und |Br - Pr| > Thr) verwendet. Der Ausdruck (|Tr - Pr| > Thr und |Br - Pr| > Thr) ist der Ausdruck zum Bestimmen, ob der Absolutwert der Differenz zwischen dem Reflexionsgrad des Pixels 150 und dem Reflexionsgrad des Pixels 152, das oberhalb des Pixels 150 liegt (19), größer als der Schwellenwert Thr ist und der Absolutwert der Differenz zwischen dem Reflexionsgrad des Pixels 150 und dem Reflexionsgrad des Pixels 158, das unterhalb des Pixels 150 liegt, größer als der Schwellenwert Thr ist oder nicht. Falls dieser Ausdruck erfüllt ist, wird das Prozessziel-Pixel als fliegendes Pixel detektiert (bestätigt).
Der Bestimmungsprozess in Schritt S13 kann entweder eine Bestimmung unter Verwendung der Konfidenz oder eine Bestimmung unter Verwendung des Reflexionsgrads sein. Falls die Konfidenz durch die Signalverarbeitungseinheit 13 (1) berechnet wird und der Filtereinheit 16 bereitgestellt wird, führt die Filtereinheit 16 den Bestimmungsprozess unter Verwendung der bereitgestellten Konfidenz durch. Falls alternativ dazu die Filtereinheit 16 den Bestimmungsprozess unter Verwendung des Reflexionsgrads durchführt, wird der Reflexionsgrad unter Verwendung der von der Signalverarbeitungseinheit 13 bereitgestellten Konfidenz berechnet und wird der Bestimmungsprozess unter Verwendung des berechneten Reflexionsgrads durchgeführt.
Der Schwellenwert Thc in Ausdruck (10) und der Schwellenwert Thr in Ausdruck (11) sind feste Werte und sind Werte, die vorher festgelegt worden sind. Man beachte, dass, obgleich in der oben vorgenommenen Erläuterung eine Überprüfung vorgenommen wird, um zu bestimmen, ob ein Wert größer als der Schwellenwert Thc (Schwellenwert Thr) ist oder nicht, eine Überprüfung vorgenommen werden kann, um zu bestimmen, ob ein Wert gleich dem oder größer als der Schwellenwert Thc (Schwellenwert Thr) ist oder nicht.
In Schritt S13 wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem Prozessziel-Pixel und einem Umgebungspixel größer als der Schwellenwert ist oder nicht, und, falls bestimmt wird, dass die Differenz größer als der Schwellenwert ist, geht der Prozess zu Schritt S14 über.
In Schritt S14 bestätigt die Filtereinheit 16, dass das Prozessziel-(Auswertungsziel-)Pixel ein fliegendes Pixel ist. Das als fliegendes Pixel bestätigte Pixel wird dann in ein Pixel geändert, das zu der Pixel-Gruppe 121 des Vordergrundobjekts 101 oder der Pixel-Gruppe 122 des Hintergrundobjekts 102 gehört, oder wird gelöscht, wie beispielsweise oben mit Verweis auf 17 beschrieben wurde. Somit ist das Pixel korrigiert.
Falls auf der anderen Seite in Schritt S13 bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem Prozessziel-Pixel und dem Umgebungspixel gleich dem oder geringer als der Schwellenwert ist, geht der Prozess zu Schritt S15 über.
Der Prozess geht über zu Schritt S15, falls in Schritt S12 bestimmt wird, dass das Prozessziel-Pixel kein fliegendes Pixel ist, falls in Schritt S13 bestimmt wird, dass das Prozessziel-Pixel kein fliegendes Pixel ist, obgleich bestimmt wurde, dass eine Möglichkeit eines fliegenden Pixels besteht, oder falls in Schritt S14 bestätigt wird, dass das Prozessziel-Pixel ein fliegendes Pixel ist.
In Schritt S15 wird eine Überprüfung vorgenommen, um zu bestimmen, ob es irgendein nicht verarbeitetes Pixel gibt oder nicht. Falls in Schritt S15 bestimmt wird, dass es ein nicht verarbeitetes Pixel gibt, kehrt der Prozess zu Schritt S11 zurück und werden die Prozesse danach wiederholt.
Falls in Schritt S15 bestimmt wird, dass es keine nicht verarbeiteten Pixel gibt, kommt der erste Prozess in Bezug auf eine Detektion fliegender Pixel zu einem Ende.
Auf diese Weise wird ein Pixel, das ein fliegendes Pixel sein könnte, in Schritt S12 detektiert und wird eine Überprüfung in Schritt S13 vorgenommen, um zu bestätigen, dass das Pixel ein fliegendes Pixel ist. Das heißt, ein fliegendes Pixel wird über zwei Stufen detektiert (bestätigt). Somit kann eine falsche Detektion fliegender Pixel reduziert werden und kann eine Detektion fliegender Pixel mit höherer Genauigkeit durchgeführt werden.
<Zweiter Prozess in Bezug auf eine Detektion fliegender Pixel>
Der erste Prozess in Bezug auf eine Detektion fliegender Pixel wurde mittels eines beispielhaften Falls beschrieben, in dem der Schwellenwert Thc (Ausdruck 10) und der Schwellenwert Thr (Ausdruck 11) feste Werte sind. Jedoch wird als ein zweiter Prozess in Bezug auf eine Detektion fliegender Pixel nun ein beispielhafter Fall beschrieben, in dem der Schwellenwert Thc (Ausdruck 10) und der Schwellenwert Thr (Ausdruck 11) variable Werte sind.
20 ist ein Flussdiagramm, um den zweiten Prozess in Bezug auf eine Detektion fliegender Pixel zu erläutern.
Die Prozesse in Schritten S31 und S32 sind den Prozessen in den Schritten S11 und S12 (18) ähnlich. Ein Prozessziel-Pixel wird festgelegt, und eine Überprüfung wird vorgenommen, um zu bestimmen, ob der Wert der Abstandsdifferenz zwischen dem Pixel und einem Umgebungspixel größer als ein Schwellenwert ist oder nicht. Auf diese Weise wird ein Pixel detektiert, das ein fliegendes Pixel sein könnte.
In Schritt S33 wird der Schwellenwert berechnet. Verfahren zum Festlegen des Schwellenwerts werden später beschrieben. Dieser Schwellenwert ist der Schwellenwert Thc (Ausdruck 10) oder der Schwellenwert Thr (Ausdruck 11). Nachdem der Schwellenwert in Schritt S33 festgelegt ist, wird der Prozess in Schritt S34 ohne den festgelegten Schwellenwert ausgeführt.
In Schritt S34 wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem Prozessziel-Pixel und einem Umgebungspixel größer als der Schwellenwert ist oder nicht. Der Prozess in Schritt S34 ist dem Prozess in Schritt S13 (18) ähnlich, unterscheidet sich aber dadurch, dass der in Schritt S33 berechnete Schwellenwert als der Schwellenwert Thc (Ausdruck 10) oder der Schwellenwert Thr (Ausdruck 11) verwendet wird.
Der zweite Prozess in Bezug auf eine Detektion fliegender Pixel ist dem ersten Prozess ähnlich, außer dass ein Schwellenwert adaptiv festgelegt wird, und eine Bestimmung, um ein fliegendes Pixel zu bestätigen, wird mit dem Schwellenwert durchgeführt. Schritte S34 bis S36 werden in einer Weise ähnlich den Prozessen in den Schritten S13 bis S15 (18) ausgeführt.
Verfahren zum Berechnen des Schwellenwerts in Schritt S33 werden hier zusätzlich erläutert.
Erstes Verfahren zum Festlegen des Schwellenwerts
Der Schwellenwert wird bei einem Wert festgelegt, der das x-Fache des Durchschnittswerts der Konfidenzen oder der Reflexionsgrade der oberen, unteren, linken und rechten Pixel ist. Beispielsweise kann x auf einen Wert wie etwa 0,1 festgelegt werden.
Bezugnehmend auf 19 wird in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Konfidenzen durchgeführt wird, der Durchschnittswert der Konfidenz des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, der Konfidenz des Pixels 158 unterhalb des Prozessziels, der Konfidenz des Pixels 154 zur Linken des Prozessziels und der Konfidenz des Pixels 156 zur Rechten des Prozessziels berechnet. Danach wird das x-Fache des Durchschnittswerts der Konfidenzen als der Schwellenwert Thc festgelegt.
Bezugnehmend auf 19 wird in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Reflexionsgraden durchgeführt wird, der Durchschnittswert des Reflexionsgrads des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, des Reflexionsgrads des Pixels 158 unterhalb des Prozessziels, des Reflexionsgrads des Pixels 154 zur Linken des Prozessziels und des Reflexionsgrads des Pixels 156 zur Rechten des Prozessziels berechnet. Danach wird das x-Fache des Durchschnittswerts der Reflexionsgrade als der Schwellenwert Thr festgelegt.
Man beachte, dass in einem Fall, in dem die Verarbeitung unter Verwendung von Pixeln, die in einer der vertikalen und horizontalen Richtungen liegen, wie im Ausdruck (10) und Ausdruck (11) durchgeführt wird, der Schwellenwert unter Verwendung der in dieser einen Richtung ausgerichteten Pixel festgelegt werden kann. Das heißt, obgleich die oberen, unteren, linken und rechten Pixel im obigen Beispiel verwendet werden, kann der Schwellenwert unter Verwendung von in der vertikalen Richtung ausgerichteten Pixeln oder in der horizontalen Richtung ausgerichteten Pixeln berechnet werden.
Man beachte, dass das Gleiche für die Festlegungsverfahren gilt, die unten beschrieben werden. Obgleich die oberen, unteren, linken und rechten Pixel in den unten beschriebenen beispielhaften Fällen verwendet werden, kann der Schwellenwert natürlich unter Verwendung der Pixel oberhalb und unterhalb des Prozessziels oder der Pixel zur Rechten und zur Linken des Prozessziels berechnet werden.
Zweites Verfahren zum Festlegen des Schwellenwerts
Der Schwellenwert wird bei einem Wert festgelegt, der ein x-Faches der Standardabweichung der Konfidenzen oder der Reflexionsgrade der oberen, unteren, linken und rechten Pixel ist. Beispielsweise kann x auf einen Wert wie etwa 0,2 festgelegt werden.
Bezugnehmend auf 19 wird in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Konfidenzen durchgeführt wird, die Standardabweichung der Konfidenz des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, der Konfidenz des Pixels 158 unterhalb des Prozessziels, der Konfidenz des Pixels 154 zur Linken des Prozessziels und der Konfidenz des Pixels 156 zur Rechten des Prozessziels berechnet. Danach wird das x-Fache der Standardabweichung der Konfidenzen als der Schwellenwert Thc festgelegt.
Bezugnehmend auf 19 wird in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Reflexionsgraden durchgeführt wird, die Standardabweichung des Reflexionsgrads des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, des Reflexionsgrads des Pixels 158 unterhalb des Prozessziels, des Reflexionsgrads des Pixels 154 zur Linken des Prozessziels und des Reflexionsgrads des Pixels 156 zur Rechten des Prozessziels berechnet. Danach wird das x-Fache der Standardabweichung der Reflexionsgrade als der Schwellenwert Thr festgelegt.
Drittes Verfahren zum Festlegen des Schwellenwerts
Der Schwellenwert wird auf einen Wert festgelegt, der in x-Faches der Differenz zwischen dem größten Wert und dem kleinsten Wert der Konfidenzen oder der Reflexionsgrade der oberen, unteren, linken und rechten Pixel ist. Beispielsweise kann x bei einem Wert wie etwa 0,2 festgelegt werden.
Bezugnehmend auf 19 werden in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Konfidenzen durchgeführt wird, der größte Wert und der kleinste Wert unter der Konfidenz des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, der Konfidenz des Pixels 158 unterhalb des Prozessziels, der Konfidenz des Pixels 154 zur Linken des Prozessziels und der Konfidenz des Pixels 156 zur Rechten des Prozessziels detektiert. Die Differenz zwischen dem größten Wert und dem kleinsten Wert wird dann berechnet. Ferner wird ein x-Faches des Differenzwerts als der Schwellenwert Thc festgelegt.
Bezugnehmend auf 19 werden in einem Fall, in dem der Bestimmungsprozess in Schritt S34 auf der Basis von Reflexionsgraden durchgeführt wird, der größte Wert und der kleinste Wert unter dem Reflexionsgrad des Pixels 152 oberhalb des Pixels 150 als das Prozessziel, dem Reflexionsgrad des Pixels 158 unterhalb des Prozessziels, dem Reflexionsgrad des Pixels 154 zur Linken des Prozessziels und dem Reflexionsgrad des Pixels 156 zur Rechten des Prozessziels detektiert. Die Differenz zwischen dem größten Wert und dem kleinsten Wert wird dann berechnet. Ferner wird ein x-Faches des Differenzwerts als der Schwellenwert Thr festgelegt.
Viertes Verfahren zum Festlegen des Schwellenwerts
Der Schwellenwert wird bei einem Wert festgelegt, der ein x-Faches der Konfidenz oder des Reflexionsgrads des Prozessziel-Pixels ist. Beispielsweise kann x bei einem Wert wie etwa 0,1 festgelegt werden.
Bezugnehmend auf 19 wird in einem Fall, in dem der Bestimmungsprozess in Schritt S34 unter Verwendung der Konfidenz durchgeführt wird, ein x-Faches der Konfidenz des Pixels 150 als das Prozessziel als der Schwellenwert Thc festgelegt.
Bezugnehmend auf 19 wird auf einen Fall, in dem der Bestimmungsprozess in Schritt S34 unter Verwendung des Reflexionsgrads durchgeführt wird, ein x-Faches des Reflexionsgrads des Pixels 150 als das Prozessziel als der Schwellenwert Thr festgelegt.
Fünftes Verfahren zum Festlegen des Schwellenwerts
Die Summe der Quadrate von Abständen von zwei Pixeln, die das Prozessziel-Pixel und ein benachbartes Pixel sind, wird als der Schwellenwert festgelegt. Das fünfte Verfahren zum Festlegen des Schwellenwerts wird in einem Fall realisiert, in dem der Bestimmungsprozess in Schritt S34 unter Verwendung des Reflexionsgrads durchgeführt wird.
Falls der Schwellenwert unter Verwendung des Pixels 150 als das Prozessziel (19) und des Pixels 152 (19), das oberhalb des Pixels 150 liegt, festgelegt wird, wird die Summe des Quadrats (d₁₅₀ ²) des Abstands (d₁₅₀) des Pixels 150 und des Quadrats (d₁₅₂ ²) des Abstands (d₁₅₂) des Pixels 152 als der Schwellenwert Thr festgelegt. $Schwellenwert Thr = (d_{150}^{2}) + (d_{152}^{2})$
Man beachte, dass, obgleich ein beispielhafter Fall hierin beschrieben wurde, in dem das oberhalb des Prozessziel-Pixels gelegene Pixel verwendet wird, es natürlich möglich ist, ein Pixel zu verwenden, das an einer anderen benachbarten Position als die Position oberhalb des Prozessziel-Pixels liegt.
Der Ableitungsprozess gemäß dem fünften Festlegungsverfahren wird nun kurz beschrieben. In der Beschreibung unten repräsentiert d einen Abstand (Tiefenwert), repräsentiert c einen wahren Wert der Konfidenz, repräsentiert c' einen gemessenen Wert der Konfidenz, repräsentiert r einen wahren Wert des Reflexionsgrads und repräsentiert r' einen gemessenen Wert des Reflexionsgrads.
Ein Fehler in der Konfidenz und ein Fehler im Reflexionsgrad können wie im unten dargestellten Ausdruck (13) ausgedrückt werden.
[Mathematische Formel 6] $\begin{array}{l} c \in [c' - 1, c' + 1] \\ r = {cd}^{2} \in [r' - d^{2}, r' + d^{2}] \end{array}$
Beispielsweise können die Beziehung zwischen dem Fehler, dem gemessenen Wert und dem wahren Wert des Pixels 150 als das Prozessziel und die Beziehung zwischen dem Fehler und dem gemessenen Wert des benachbarten Pixels 152 wie in 21 dargestellt ausgedrückt werden.
Der obere Teil von 21 ist ein Beziehungsdiagramm des Pixels 150 (Prozessziel) . Falls der gemessene Wert r₁₅₀' des Reflexionsgrads des Pixels 150 in die Mitte gesetzt wird, fällt der wahre Wert r₁₅₀ zwischen (r₁₅₀' - d₁₅₀ ²) und (r₁₅₀' + d₁₅₀ ²) .
Der untere Teil von 21 ist ein Beziehungsdiagramm des Pixels 152 (benachbartes Pixel). Falls der gemessene Wert r₁₅₂' des Reflexionsgrads des Pixels 152 in die Mitte gesetzt wird, fällt der wahre Wert r₁₅₂ zwischen (r₁₅₂' - d₁₅₂ ²) und (r₁₅₂' + d₁₅₂ ²) .
Man geht davon aus, dass der wahre Wert r des Reflexionsgrads des Pixels 150 in einen Bereich A fällt, in dem das Beziehungsdiagramm des Pixels 150 (Prozessziel) und das Beziehungsdiagramm des Pixels 152 (benachbartes Pixel) überlappen. Der Bereich A existiert, wenn der unten dargestellte Ausdruck (14) erfüllt ist. $| r_{150}' - r_{152}' | < d_{150}^{2} + d_{152}^{2}$
Das heißt, der Bereich A existiert, falls der Absolutwert der Differenz zwischen dem gemessenen Wert r₁₅₀' des Reflexionsgrads des Pixels 150 und dem gemessenen Wert r₁₅₂' des Reflexionsgrads des Pixels 152 geringer als die Summe des Quadrats des Abstands d₁₅₀ des Pixels 150 und des Quadrats des Abstands d₁₅₂ des Pixels 152 ist.
Wenn der Ausdruck (14) erfüllt ist, kann angenommen werden, dass der wahre Wert r existiert. Dies bedeutet, dass eine Möglichkeit besteht, dass der wahre Wert r nicht existiert, wenn der Ausdruck (14) nicht erfüllt ist. Eine Zeit, zu der der Ausdruck (14) nicht erfüllt ist, ist eine Zeit, zu der beispielsweise ein Ausdruck (15) erfüllt ist. $| r_{150}' - r_{152}' | > d_{150}^{2} + d_{152}^{2}$
Falls der Ausdruck (15) erfüllt ist, wird angenommen, dass eine Möglichkeit besteht, dass der wahre Wert r nicht existiert und das Prozessziel-Pixel ein fehlerhaftes Pixel sein könnte. In diesem Fall wird angenommen, dass das Pixel ein fliegendes Pixel sein könnte.
Der Ausdruck (15) wird nun mit dem Ausdruck (11) verglichen. Hier ist wieder ein Teil des Ausdrucks (11) (der Ausdruck in dem Fall, in dem die in der vertikalen Richtung ausgerichteten Pixel verwendet werden) dargestellt. $(| Tr - Pr | > Thr and | Br - Pr | > Thr)$
Das Augenmerk wird beispielsweise auf (|Tr-Pr| > Thr) im Ausdruck (11) gelegt. Tr repräsentiert einen gemessenen Wert des Reflexionsgrads des Pixels 152 (19) und entspricht dem gemessenen Wert r₁₅₂'. Pr repräsentiert einen gemessenen Wert des Reflexionsgrads des Pixels 150 (19) und entspricht dem gemessenen Wert r₁₅₀'. |Tr - Pr| ist daher |r₁₅₀' - r₁₅₂'|. Das heißt, die linke Seite des Ausdrucks (11) kann als gleich der linken Seite des Ausdrucks (15) angesehen werden.
Dementsprechend kann der Schwellenwert Thr auf der rechten Seite des Ausdrucks (11) (d₁₅₀ ² + d₁₅₂ ²) sein, was die rechte Seite des Ausdrucks (15) ist.
Wie oben beschrieben wurde, kann gemäß dem fünften Verfahren zum Festlegen des Schwellenwerts die Summe der Quadrate der Abstände von zwei Pixeln, die das Prozessziel-Pixel und ein benachbartes Pixel sind, als der Schwellenwert Thr festgelegt werden.
Obgleich die ersten bis fünften Festlegungsverfahren oben als Beispiele von Verfahren zum Festlegen des Schwellenwerts hierin beschrieben wurden, sind diese nur Beispiele und geben keine Einschränkungen an. Daher kann der Schwellenwert mittels irgendeines anderen Verfahrens festgelegt werden.
Da ein fehlerhaftes Pixel durch zwei Bestimmungsprozesse in der obigen Art und Weise detektiert und bestätigt wird, ist es möglich, eine falsche Detektion fehlerhafter Pixel zu reduzieren. Somit kann die Genauigkeit einer Abstandsmessung weiter verbessert werden.
<Beispielhafte Konfiguration einer elektronischen Einrichtung>
Die oben beschriebene Abstandsmessvorrichtung 10 kann beispielsweise in einer elektronischen Einrichtung wie etwa einem Smartphone, einem Tablet-Endgerät, einem Mobiltelefon, einem Personalcomputer, einer Spielkonsole, einem Fernsehempfänger, einem tragbaren Endgerät, einer digitalen Festbildkamera oder einer digitalen Videokamera montiert sein.
22 ist ein Blockdiagramm, das eine beispielhafte Konfiguration eines Smartphone als elektronische Einrichtung darstellt, in der die Abstandsmessvorrichtung 10 als Abstandsmessmodul montiert ist.
Wie in 22 dargestellt ist, enthält ein Smartphone 201 ein Abstandsmessmodul 202, eine Bildgebungsvorrichtung 203, eine Anzeige 204, einen Lautsprecher 205, ein Mikrofon 206, ein Kommunikationsmodul 207, eine Sensoreinheit 208, ein Berührungsfeld bzw. Touch-Panel 209 und eine Steuerungseinheit 210, die über einen Bus 211 miteinander verbunden sind. Ferner führt in der Steuerungseinheit 210 eine CPU ein Programm aus, um Funktionen als Anwendungsverarbeitungseinheit 221 und Betriebssystem-Verarbeitungseinheit 222 zu realisieren.
Die Abstandsmessvorrichtung 10 in 1 wird für das Abstandsmessmodul 202 verwendet. Beispielsweise ist das Abstandsmessmodul 202 in der vorderen Oberfläche des Smartphone 201 angeordnet und führt eine Abstandsmessung für den Nutzer des Smartphone 201 durch, um den Tiefenwert der Oberflächenform des Gesichts, der Hand, des Fingers oder dergleichen eines Nutzers als Messergebnis auszugeben.
Die Bildgebungsvorrichtung 203 ist in der vorderen Oberfläche des Smartphone 201 angeordnet und erfasst bzw. nimmt ein Bild auf, das den Nutzer darstellt, indem eine Abbildung des Nutzers des Smartphone 201 als das Objekt durchgeführt wird. Man beachte, dass, obgleich in der Zeichnung nicht dargestellt die Bildgebungsvorrichtung 203 auch auf der rückseitigen Oberfläche des Smartphone 201 angeordnet sein kann.
Die Anzeige 204 zeigt einen Bedienungsschirm zum Durchführen einer Verarbeitung mit der Anwendungsverarbeitungseinheit 221 und der Betriebssystem-Verarbeitungseinheit 222, ein durch die Bildgebungsvorrichtung 203 aufgenommenes Bild oder dergleichen an. Der Lautsprecher 205 und das Mikrofon 206 geben die Stimme vom anderen Ende aus und erfassen bzw. nehmen die Stimme des Nutzers auf, wenn mit dem Smartphone 201 beispielsweise ein Sprachanruf getätigt wird.
Das Kommunikationsmodul 207 führt eine Kommunikation über ein Kommunikationsnetzwerk durch. Die Sensoreinheit 208 erfasst Geschwindigkeit, Beschleunigung, Nähe und dergleichen, und das Touch-Panel 209 erfasst eine Bedienung mittels Berührung, die vom Nutzer an einem auf der Anzeige 204 angezeigten Bedienungsschirm vorgenommen wird.
Die Anwendungsverarbeitungseinheit 221 führt eine Verarbeitung durch, um verschiedene Dienste durch das Smartphone 201 bereitzustellen. Beispielsweise kann die Anwendungsverarbeitungseinheit 221 einen Prozess, um ein Gesicht mittels Computergrafik zu erzeugen, der den Ausdruck des Nutzers virtuell wiedergibt, und das Gesicht auf der Anzeige 204 anzuzeigen, auf der Basis der vom Abstandsmessmodul 202 bereitgestellten Tiefe durchführen. Die Anwendungsverarbeitungseinheit 221 kann beispielsweise auch einen Prozess, um dreidimensionale Formdaten eines dreidimensionalen Objekts zu erzeugen, auf der Basis der vom Abstandsmessmodul 202 bereitgestellten Tiefe durchführen.
Die Betriebssystem-Verarbeitungseinheit 222 führt einen Prozess durch, um die grundlegenden Funktionen und Operationen des Smartphone 201 zu realisieren. Beispielsweise kann die Betriebssystem-Verarbeitungseinheit 222 einen Prozess zum Authentifizieren des Gesichts eines Nutzers auf der Basis des vom Abstandsmessmodul 202 bereitgestellten Tiefenwerts und Freigeben einer Sperre am Smartphone 201 durchführen. Ferner führt die Betriebssystem-Verarbeitungseinheit 222 einen Prozess zum Erkennen einer Geste des Nutzers auf der Basis des vom Abstandsmessmodul 202 bereitgestellten Tiefenwerts durch und führt dann beispielsweise einen Prozess zum Eingeben verschiedener Operationen entsprechend der Geste durch.
<Aufzeichnungsmedium>
Die oben beschriebene Reihe von Prozessen kann mittels Hardware durchgeführt werden oder kann mittels Software durchgeführt werden. Falls die Reihe von Prozessen mittels Software durchgeführt werden soll, ist das Programm, das die Software bildet, in einen Computer installiert. Der Computer kann hier beispielsweise ein in eine Spezial-Hardware integrierter Computer sein oder kann ein Mehrzweck-Personalcomputer oder dergleichen sein, der verschiedene Arten von Funktionen mit verschiedenen Arten von darin installierten Programmen ausführen kann.
23 ist ein Blockdiagramm, das eine beispielhafte Konfiguration der Hardware eines Computers darstellt, der die oben beschriebene Reihe von Prozessen gemäß einem Programm durchführt. Im Computer sind eine zentrale Verarbeitungseinheit (CPU) 501, ein Nurlesespeicher (ROM) 502 und ein Direktzugriffsspeicher (RAM) 503 durch einen Bus 504 miteinander verbunden. Eine Eingabe-/Ausgabe-Schnittstelle 505 ist ferner mit dem Bus 504 verbunden. Eine Eingabeeinheit 506, eine Ausgabeeinheit 507, eine Speichereinheit 508, eine Kommunikationseinheit 509 und ein Laufwerk 510 sind mit der Eingabe-/Ausgabe-Schnittstelle 505 verbunden.
Die Eingabeeinheit 506 besteht aus einer Tastatur, einer Maus, einem Mikrofon und dergleichen. Die Ausgabeeinheit 507 besteht aus einer Anzeige, einem Lautsprecher und dergleichen. Die Speichereinheit 508 besteht aus einer Festplatte, einem nichtflüchtigen Speicher oder dergleichen. Die Kommunikationseinheit 509 besteht aus einer Netzwerk-Schnittstelle oder dergleichen. Das Laufwerk 510 treibt ein austauschbares Aufzeichnungsmedium 511 wie etwa eine Magnetplatte, eine optische Platte, eine magneto-optische Platte oder einen Halbleiterspeicher an.
Im Computer mit der oben beschriebenen Konfiguration lädt beispielsweise eine CPU 501 ein in der Speichereinheit 508 gespeichertes Programm über die Eingabe-/Ausgabe-Schnittstelle 505 und den Bus 504 in den RAM 503 und führt das Programm aus, sodass die oben beschriebene Reihe von Prozessen durchgeführt wird.
Das durch den Computer (die CPU 501) auszuführende Programm kann beispielsweise auf dem austauschbaren Aufzeichnungsmedium 511 als gepacktes Medium und dergleichen aufgezeichnet und dann bereitgestellt werden. Alternativ dazu kann das Programm über ein drahtgebundenes oder drahtloses Übertragungsmedium wie etwa ein lokales Netzwerk, das Internet oder eine digitale Satellitenübertragung bereitgestellt werden.
In dem Computer kann das Programm über die Eingabe-/Ausgabe-Schnittstelle 505 in die Speichereinheit 508 installiert werden, wenn das austauschbare Aufzeichnungsmedium 511 im Laufwerk 510 eingesetzt ist. Alternativ dazu kann das Programm über ein drahtgebundenes oder drahtloses Übertragungsmedium von der Kommunikationseinheit 509 empfangen und in die Speichereinheit 508 installiert werden. In anderen Fällen als den obigen kann das Programm vorher in den ROM 502 oder die Speichereinheit 508 installiert werden.
Man beachte, dass das durch den Computer auszuführende Programm ein Programm zum Durchführen von Prozessen in chronologischer Reihenfolge gemäß der in dieser Beschreibung beschriebenen Sequenz sein kann oder ein Programm zum parallelen Durchführen von Prozessen oder Durchführen eines Prozesses nach Bedarf, wie etwa wenn angerufen wird, sein kann.
<Maschinelles Lernen nutzende beispielhafte Konfiguration>
In einer Konfiguration, für die die Technologie gemäß der vorliegenden Offenbarung (die vorliegende Technologie) verwendet wird, kann eine maschinelles Lernen nutzende Konfiguration übernommen werden. Beispielsweise kann eine maschinelles Lernen nutzende Konfiguration in einer mit der oben beschriebenen Abstandsmessvorrichtung 10 ausgestatteten elektrischen Einrichtung übernommen werden.
24 ist ein Diagramm, das eine beispielhafte Konfiguration einer Ausführungsform einer elektronischen Einrichtung darstellt, für die die vorliegende Technologie verwendet wird.
Eine elektronische Einrichtung 601 ist eine Einrichtung wie etwa ein Smartphone, ein Tablet-Endgerät, ein Mobiltelefon, ein Personalcomputer, eine Spielkonsole, ein Fernsehempfänger, ein tragbares Endgerät, eine digitale Festbildkamera oder eine digitale Videokamera. Beispielsweise kann die elektronische Einrichtung 601 das in 22 dargestellte Smartphone 201 sein. Die elektronische Einrichtung 601 enthält einen Sensor 602, einen Controller 603 und eine Ausgabeeinheit 604. Der Sensor 602 enthält eine Abstandsmesseinheit 611 und eine Verarbeitungseinheit 612.
Die Abstandsmesseinheit 611 ist so entworfen, dass sie der in 1 dargestellten Abstandsmessvorrichtung 10 entspricht, und enthält eine Linse 11, eine lichtempfangende Einheit 12, eine Signalverarbeitungseinheit 13, eine lichtemittierende Einheit 14 und eine Lichtemissions-Steuerungseinheit 15. Die Abstandsmesseinheit 611 bestrahlt ein Objekt mit Licht und empfängt das vom Objekt reflektierte Licht, um den Abstand zum Objekt zu messen. Die Abstandsmesseinheit 611 erfasst eine Abstandsmessinformation, die erhalten wird, indem der Abstand zum Objekt gemessen wird, und stellt der Verarbeitungseinheit 612 die Abstandsmessinformationen bereit.
Beispielsweise kann als die Abstandsmessinformation eine Tiefenkarte mit Daten (Abstandsinformation) in Bezug auf eine Abstandsmessung für jedes Pixel genutzt werden. In der Tiefenkarte kann eine Gruppe von Pixeln durch ein X-Y-Z-Koordinatensystem (wie etwa ein kartesisches Koordinatensystem) oder ein Polarkoordinatensystem repräsentiert werden. In einigen Fällen enthält die Tiefenkarte Daten in Bezug auf ein Korrekturziel-Pixel. Auch können unter Verwendung der Tiefenkarte dreidimensionale Daten erzeugt werden. Beispielsweise werden die dreidimensionalen Daten durch eine Punktwolke, eine Reihe (eine Datenstruktur) von X-Y-Z-Koordinatenpunkten, ein Netz (Oberfläche) oder dergleichen ausgedrückt. Man beachte, dass die Abstandsmessinformation einen Luminanzwert, eine Konfidenzinformation und dergleichen zusätzlich zu einer Tiefeninformation wie etwa eine Abstandsinformation (Tiefenwert) enthalten kann.
Korrekturziel-Pixel umfassen ein fehlerhaftes Pixel, ein fliegendes Pixel und dergleichen. Wie oben mit Verweis auf 14 bis 17 beschrieben wurde, ist ein fliegendes Pixel ein Pixel, das weder zum Vordergrundobjekt 101 noch zum Hintergrundobjekt 102 gehört, an der Grenze zwischen dem Vordergrundobjekt 101 und dem Hintergrundobjekt 102. In der Beschreibung unten wird ein fehlerhaftes Pixel als Beispiel eines Korrekturziel-Pixels erläutert.
Die Verarbeitungseinheit 612 ist beispielsweise ein Prozessor wie etwa eine CPU. Die Verarbeitungseinheit 612 weist die der Filtereinheit 16 entsprechenden Funktionen auf. Das heißt, in der Abstandsmessvorrichtung 10 in 1 identifiziert und korrigiert die Filtereinheit 16 ein fehlerhaftes Pixel. Jedoch kann ein Teil der oder alle dementsprechenden Prozesse von der Verarbeitungseinheit 612 wie unten beschrieben durchgeführt werden. Man beachte, dass anstelle der Abstandsmesseinheit 611 die Verarbeitungseinheit 612 die der Signalverarbeitungseinheit 13 entsprechenden Funktionen aufweisen kann.
Wie oben beschrieben wurde, hat im Sensor 602 die Abstandsmesseinheit 611 eine Funktion zum Empfangen des reflektierten Lichts, das das vom Objekt reflektierte Bestrahlungslicht ist, und Abgeben eines aus dem Empfang erhaltenen Signals und hat die Verarbeitungseinheit 612 eine Funktion, um eine Signalverarbeitung unter Verwendung des von der Abstandsmesseinheit 611 abgegebenen Signals durchzuführen. Auch wenn mit Verweis auf 40 und andere Details später beschrieben werden, kann die Verarbeitungseinheit 612 innerhalb des Sensors 602 vorgesehen sein oder kann in der elektronischen Einrichtung 601 oder einem Server vorgesehen sein. Ferner kann die Verarbeitungseinheit 612 all die Prozesse innerhalb des Sensors 602 durchführen oder kann Prozesse verteilt durchführen, wobei einige Prozesse von einem Prozessor im Sensor durchgeführt werden und die verbleibenden Prozesse dann von dem Prozessor der elektronischen Einrichtung 601 oder einem Server durchgeführt werden.
Die Verarbeitungseinheit 612 führt einen Prozess unter Verwendung eines maschinell erlernten Lernmodells 621 an zumindest einem Teil der von der Abstandsmesseinheit 611 bereitgestellten Abstandsmessinformation durch und gibt eine Abstandsmessinformation aus, nachdem das in der Abstandsmessinformation enthaltene fehlerhafte Pixel korrigiert ist (auf diese Abstandsmessinformation wird hierin im Folgenden gegebenenfalls als korrigierte Abstandsmessinformation verwiesen).
Der das Lernmodell 621 nutzende Prozess umfasst einen ersten Prozess zum Korrigieren eines fehlerhaften Pixels unter Verwendung der das fehlerhafte Pixel enthaltenden Tiefenkarte als Eingabe und einen zweiten Prozess zum Ausgeben der korrigierten Tiefenkarte.
Der erste Prozess umfasst einen Identifizierungsprozess, um ein fehlerhaftes Pixel zu identifizieren, und einen Korrekturprozess, um das durch den Identifizierungsprozess identifizierte fehlerhafte Pixel zu korrigieren. Das heißt, im ersten Prozess wird der Identifizierungsprozess als erster Schritt durchgeführt und wird der Korrekturprozess als zweiter Schritt durchgeführt.
In dem Identifizierungsprozess oder dem Korrekturprozess kann ein das Lernmodell 621 nutzender Prozess durchgeführt werden. Im Folgenden wird hierin gegebenenfalls auf einen Prozess, der maschinelles Lernen nutzt, wie etwa einen das Lernmodell 621 nutzenden Prozess, als der maschinelle Lernprozess verwiesen.
Beispielsweise ist das Lernmodell 621 im Identifizierungsprozess ein Lernmodell, das eine Eingabe einer ein fehlerhaftes Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene fehlerhafte Pixel ausgibt. Beispielsweise ist das Lernmodell 621 im Korrekturprozess auch ein Lernmodell, das eine Eingabe der das fehlerhafte Pixel enthaltenden Tiefenkarte und der Positionsinformation über das fehlerhafte Pixel empfängt und eine korrigierte Tiefenkarte oder Positionsinformation über das korrigierte fehlerhafte Pixel ausgibt. Man beachte, dass Verfahren zum Erzeugen eines Lernmodells später mit Verweis auf 29 bis 31, 36, 37 und andere im Detail beschrieben wird.
Ferner ist der Identifizierungsprozess oder der Korrekturprozess nicht auf den maschinellen Lernprozess beschränkt, sondern kann ein Prozess ähnlich dem oben mit Verweis auf 18 oder 20 beschriebenen Prozess durchgeführt werden. Das heißt, im Identifizierungsprozess kann anstelle des maschinellen Lernprozesses ein Prozess durchgeführt werden, um das fehlerhafte Pixel auf der Basis eines Ergebnisses einer Abstandsinformations-Schwellenwertbestimmung bezüglich des Prozessziel-Pixels in der Tiefenkarte oder einer Konfidenzinformations- oder Reflexionsgradinformations-Schwellenwertbestimmung zu identifizieren. Ferner kann im Korrekturprozess eine Signalverarbeitung anstelle des maschinellen Lernprozesses durchgeführt werden, um das Prozessziel-Pixel in der Tiefenkarte zur korrekten Position zu ändern oder das Prozessziel-Pixel zu löschen. Somit kann das fehlerhafte Pixel korrigiert werden. Im Folgenden wird hierin auf die Signalverarbeitung wie etwa den oben mit Verweis auf 18 oder 20 beschriebenen Prozess gegebenenfalls auch als die reguläre Verarbeitung verwiesen.
Man beachte, dass die Verarbeitungseinheit 612 dreidimensionale Daten auf der Basis der korrigierten Tiefenkarte erzeugen kann. In diesem dreidimensionalen Daten erzeugenden Prozess kann der maschinelle Lernprozess genutzt werden oder kann die Signalverarbeitung (die reguläre Verarbeitung) zum Erzeugen dreidimensionaler Daten genutzt werden. Das heißt, der maschinelle Lernprozess kann in zumindest einem des Identifizierungsprozesses, des Korrekturprozesses und des dreidimensionale Daten erzeugenden Prozesses genutzt werden.
Die auf diese Weise erhaltene korrigierte Abstandsmessinformation wird von der Verarbeitungseinheit 612 des Sensors 602 an den Controller 603 ausgegeben. Der Controller 603 ist beispielsweise ein Prozessor wie etwa eine CPU. Der Prozessor des Controllers 603 kann derselbe wie der in der Verarbeitungseinheit 612 verwendete Prozessor oder von diesem verschieden sein. Die Ausgabeeinheit 604 enthält zum Beispiel eine Anzeige 622. Der Controller 603 führt eine Software wie etwa eine Anwendung und Middleware aus, um zu veranlassen, dass die Anzeige 622 verschiedene Arten von Informationen anzeigt. Beispielsweise veranlasst der Controller 603, dass die Anzeige 622 verschiedene Arten von Informationen auf der Basis der vom Sensor 602 ausgegebenen korrigierten Abstandsmessinformation anzeigt. Man beachte, dass die Ausgabeeinheit 604 ein Kommunikationsmodul enthalten und verschiedene Arten von Information vom Controller 603 über ein Netzwerk zu anderen Vorrichtungen übertragen kann.
Als Nächstes werden mit Verweis auf 25 bis 28 die durch den Sensor 602 der elektronischen Einrichtung 601 in 24 durchzuführenden Prozesse beschrieben. Zunächst auf 25 bezugnehmend wird eine Verarbeitung einer Abstandsmessinformation beschrieben.
In Schritt S111 misst die Abstandsmesseinheit 611 den Abstand zum Objekt und erfasst eine durch die Messung erhaltene Abstandsmessinformation.
In Schritt S112 führt die Verarbeitungseinheit 612 einen Prozess der Nutzung eines Lernmodells unter Verwendung der durch die Abstandsmesseinheit 611 erfassten Abstandsmessinformation durch. In diesem Prozess der Nutzung eines Lernmodells wird ein das Lernmodell 621 nutzender Prozess an zumindest einem Teil der Abstandsmessinformation (beispielsweise einer noch zu korrigierenden Tiefenkarte) durchgeführt und wird die Abstandsmessinformation (zum Beispiel die korrigierte Tiefenkarte) nach einer Korrektur des in der Abstandsmessinformation enthaltenen fehlerhaften Pixels erfasst. Der Prozess der Nutzung eines Lernmodells wird später mit Verweis auf 26 im Detail beschrieben.
In Schritt S113 gibt die Verarbeitungseinheit 612 die im Prozess der Nutzung eines Lernmodell erhaltene korrigierte Abstandsmessinformation an den Controller 603 aus.
Als Nächstes wird mit Verweis auf 26 der dem Schritt S112 in 25 entsprechende Prozess der Nutzung eines Lernmodells beschrieben.
In Schritt S131 führt die Verarbeitungseinheit 612 einen Prozess zur Korrektur fehlerhafter Pixel unter Verwendung der Abstandsmessinformation durch. In diesem Prozess zur Korrektur fehlerhafter Pixel wird das fehlerhafte Pixel korrigiert, wobei die das fehlerhafte Pixel enthaltende Tiefenkarte eine Eingabe ist.
Der Prozess zur Korrektur fehlerhafter Pixel wird hier mit Verweis auf 27 im Detail beschrieben. In Schritt S151 identifiziert die Verarbeitungseinheit 612 das in der eingegebenen Tiefenkarte enthaltene fehlerhafte Pixel. In diesem Identifizierungsprozess wird der maschinelle Lernprozess oder die reguläre Verarbeitung durchgeführt.
Falls der maschinelle Lernprozess als der Identifizierungsprozess durchgeführt wird, nutzt die Verarbeitungseinheit 612 als das Lernmodell 621 ein Lernmodell, das eine Eingabe der das fehlerhafte Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene fehlerhafte Pixel ausgibt. Während die Verarbeitungseinheit 612 die das fehlerhafte Pixel enthaltende Tiefenkarte in das Lernmodell 621 eingibt, wird eine Positionsinformation über das in der eingegebenen Tiefenkarte enthaltene fehlerhafte Pixel ausgegeben. Somit kann das fehlerhafte Pixel identifiziert werden. Ein Verfahren zum Erzeugen eines im Identifizierungsprozess zu verwendenden Lernmodells wird später mit Verweis auf 29 bis 31 im Detail beschrieben.
Falls ein neuronales Netzwerk als maschinelles Lernen im maschinellen Lernprozess verwendet wird, der im Identifizierungsprozess genutzt wird, wird ferner ein Autocodierer genutzt, sodass das in der eingegebenen Tiefenkarte enthaltene fehlerhafte Pixel identifiziert werden kann. Ein Verfahren zum Erzeugen des Lernmodells in einem Fall, in dem ein Autocodierer genutzt wird, wird später mit Verweis auf 32 und 33 im Detail beschrieben.
Falls die reguläre Verarbeitung als der Identifizierungsprozess durchgeführt wird, identifiziert die Verarbeitungseinheit 612 das fehlerhafte Pixel auf der Basis eines Ergebnisses einer Abstandsinformations-Schwellenwertbestimmung in Bezug auf das Prozessziel-Pixel in der Tiefenkarte oder eines Ergebnisses einer Konfidenzinformations- oder Reflexionsgradinformations-Schwellenwertbestimmung.
Konkret wird, wie oben mit Verweis auf 18 oder 20 beschrieben wurde, in der regulären Verarbeitung eine Abstandsinformations-(Tiefenwert-)Schwellenwertbestimmung durchgeführt, um zu bestimmen, ob die Abstandsdifferenz zwischen dem Prozessziel-Pixel (zum Beispiel dem Pixel 123) in der Tiefenkarte und einem Umgebungspixel (zum Beispiel einem Pixel in der Pixel-Gruppe 121 um das Pixel 123) größer als ein vorbestimmter Schwellenwert ist oder nicht (Schritt S12 in 18). Falls bestimmt wird, dass die Abstandsdifferenz größer als der vorbestimmte Schwellenwert ist, wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen den Prozessziel-Pixel (zum Beispiel dem Pixel 150) und einem Umgebungspixel (zum Beispiel dem Pixel 156 auf der rechten Seite des Pixels 150) größer als ein vorbestimmter Schwellenwert ist oder nicht (Schritt S13 in 18). Falls bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz größer als der vorbestimmte Schwellenwert ist, wird dann das Prozessziel-Pixel als fehlerhaftes Pixel identifiziert (Schritt S14 in 18).
Nachdem das in der Tiefenkarte enthaltene fehlerhafte Pixel in Schritt S151 identifiziert ist, geht der Prozess weiter zu Schritt S152. In Schritt S152 korrigiert die Verarbeitungseinheit 612 das identifizierte fehlerhafte Pixel. In diesem Korrekturprozess wird der maschinelle Lernprozess oder die reguläre Verarbeitung durchgeführt.
Falls der maschinelle Lernprozess als der Korrekturprozess durchgeführt wird, wird in der Verarbeitungseinheit 612 als das Lernmodell 621 ein Lernmodell verwendet, das eine Eingabe der das fehlerhafte Pixel enthaltenden Tiefenkarte und der Positionsinformation über das fehlerhafte Pixel empfängt und eine korrigierte Tiefenkarte oder Positionsinformation über das korrigierte fehlerhafte Pixel ausgibt. Während die Verarbeitungseinheit 612 die das fehlerhafte Pixel enthaltende Tiefenkarte und die Positionsinformation über das fehlerhafte Pixel in das Lernmodell 621 eingibt, wird die korrigierte Tiefenkarte oder die Positionsinformation über das korrigierte fehlerhafte Pixel ausgegeben. Somit kann das fehlerhafte Pixel korrigiert werden. Ein Verfahren zum Erzeugen des im Korrekturprozess zu verwendenden Lernmodells wird später mit Verweis auf 36 und 37 im Detail beschrieben.
Falls die reguläre Verarbeitung als der Korrekturprozess durchgeführt wird, korrigiert die Verarbeitungseinheit 612 das fehlerhafte Pixel, indem das Prozessziel-Pixel in der Tiefenkarte zur korrekten Position geändert oder das Prozessziel-Pixel durch eine Signalverarbeitung gelöscht wird. Konkret wird, wie oben mit Verweis auf 18 oder 20 beschrieben wurde, in der regulären Verarbeitung das als das fehlerhafte Pixel identifizierte (bestätigte) Prozessziel-Pixel in ein Pixel geändert, das zu der Pixel-Gruppe 121 des Vordergrundobjekts 101 oder der Pixel-Gruppe 122 des Hintergrundobjekts 102 gehört, oder wird gelöscht. Somit wird das fehlerhafte Pixel korrigiert.
Wie oben beschrieben wurde, wird im Prozess zur Korrektur fehlerhafter Pixel der Identifizierungsprozess, um ein in einer Tiefenkarte enthaltenes fehlerhaftes Pixel zu identifizieren, als der erste Schritt durchgeführt und wird der Korrekturprozess, um das identifizierte fehlerhafte Pixel zu korrigieren, als der zweite Schritt durchgeführt.
Man beachte, dass in einem Fall, in dem der maschinelle Lernprozess in dem Identifizierungsprozess und dem Korrekturprozess genutzt wird, der Identifizierungsprozess und der Korrekturprozess integral (gleichzeitig) durchgeführt werden können. Falls beispielsweise ein neuronales Netzwerk für maschinelles Lernen genutzt wird, ist es möglich, ein in einer eingegebenen Tiefenkarte enthaltenes fehlerhaftes Pixel unter Verwendung eines Autocodierers zu korrigieren. Ein Verfahren zum Erzeugen des Lernmodells in einem Fall, in dem ein Autocodierer genutzt wird, wird später mit Verweis auf 34 und 35 im Detail beschrieben.
Nachdem das identifizierte fehlerhafte Pixel in Schritt S152 korrigiert ist, geht der Prozess zu Schritt S132 in 26 über. In Schritt S132 gibt die Verarbeitungseinheit 612 eine Tiefenkarte (korrigierte Tiefenkarte) aus, die das im Prozess der Nutzung eines Lernmodells korrigierte fehlerhafte Pixel enthält.
Wie oben beschrieben wurde, wird in der Verarbeitung einer Abstandsmessinformation ein das Lernmodell 621 nutzender Prozess als der Prozess der Nutzung ein Lernmodells durch die Verarbeitungseinheit 612 an zumindest einem Teil der durch die Abstandsmesseinheit 611 erfassten Abstandsmessinformation durchgeführt. Beispielsweise kann der maschinelle Lernprozess für zumindest entweder den Identifizierungsprozess oder den Korrekturprozess, die im ersten Prozess enthalten sind, genutzt werden. Falls der maschinelle Lernprozess in weder dem Identifizierungsprozess noch dem Korrekturprozess zu diesem Zeitpunkt durchgeführt wird, kann die reguläre Verarbeitung durchgeführt werden.
Man beachte, dass bei der Verarbeitung einer Abstandsmessinformation dreidimensionale Daten unter Verwendung einer korrigierten Tiefenkarte erzeugt werden können. 28 stellt die Verarbeitung einer Abstandsmessinformation in einem Fall dar, in dem dreidimensionale Daten erzeugt werden sollen.
In Schritten S171 und S172 in 28 wird ein Prozess der Nutzung eines Lernmodells, der die durch die Abstandsmesseinheit 611 erfasste Abstandsmessinformation nutzt, wie in den Schritten S111 und S112 in 25 durchgeführt.
In Schritt S173 erzeugt die Verarbeitungseinheit 612 dreidimensionale Daten auf der Basis der korrigierten Tiefenkarte. In diesem dreidimensionale Daten erzeugenden Prozess kann der maschinelle Lernprozess genutzt werden oder kann die reguläre Verarbeitung genutzt werden. Beispielsweise wird als die dreidimensionalen Daten eine Punktwolke, eine Datenstruktur oder dergleichen erzeugt. In Schritt S174 gibt die Verarbeitungseinheit 612 die erzeugten dreidimensionalen Daten an den Controller 603 aus.
Man beachte, dass die mit Verweis auf 28 beschriebene Verarbeitung einer Abstandsmessinformation in einem durchgängigen maschinellen Lernprozess bzw. von Ende zu Ende durchgeführt werden kann. Konkret kann im Sensor 602 der elektronischen Einrichtung 601 die Verarbeitungseinheit 612 unter Verwendung des Lernmodells 621 dreidimensionale Daten ausgeben, wenn eine Abstandsmessinformation (eine ein fehlerhaftes Pixel enthaltende Tiefenkarte) von der Abstandsmesseinheit 611 eingegeben wird. Als das Lernmodell 621 kann hierin ein Erzeugungsmodell eines generativen gegnerischen Netzwerks (engl.: generative adversial network) (GAN), eines variationalen bzw. variierenden Autocodierers (engl.: variational autoencoder) (VAE) oder dergleichen verwendet werden.
Wie oben beschrieben wurde, wird bei einem durchgängigen maschinellen Lernen ein Lernvorgang durchgeführt, indem der maschinelle Lernprozess, der mehrstufige Prozesse von einem Empfang von Eingabedaten bis zu einer Ergebnisausgabe erfordert, durch ein neuronales Netzwerk ersetzt wird, das eine Vielzahl von Schichten enthält, die verschiedene Prozesse durchführt. Unter Verwendung des durchgängigen maschinellen Lernens führt die Verarbeitungseinheit 612, der die Abstandsmessinformation von der Abstandsmesseinheit 611 bereitgestellt wird, den maschinellen Lernprozess mit dem Lernmodell 621 durch und gibt dreidimensionale Daten aus.
Wie oben beschrieben wurde, führt in der elektronischen Einrichtung 601 die Verarbeitungseinheit 612 des Sensors 602 einen Prozess, der den Identifizierungsprozess, um ein in einer Tiefenkarte enthaltenes fehlerhaftes Pixel zu identifizieren, und den Korrekturprozess, um das identifizierte fehlerhafte Pixel zu korrigieren, umfasst, als die Verarbeitung einer Abstandsmessinformation unter Verwendung der von der Abstandsmesseinheit 611 bereitgestellten Abstandsmessinformation durch. Darüber hinaus kann die Verarbeitung einer Abstandsmessinformation einen dreidimensionale Daten erzeugenden Prozess, um dreidimensionale Daten zu erzeugen, einschließen.
Bei der Verarbeitung einer Abstandsmessinformation kann der maschinelle Lernprozess in zumindest einem Prozess unter dem Identifizierungsprozess, dem Korrekturprozess und dem dreidimensionale Daten erzeugenden Prozess genutzt werden. Das heißt, in dem Identifizierungsprozess, dem Korrekturprozess und dem dreidimensionale Daten erzeugenden Prozess kann der maschinelle Lernprozess in all den Prozessen durchgeführt werden oder kann der maschinelle Lernprozess in einigen der Prozesse durchgeführt werden, während die reguläre Verarbeitung in den verbleibenden Prozessen durchgeführt wird. Konkret wird, nachdem der maschinelle Lernprozess oder die reguläre Verarbeitung im Identifizierungsprozess durchgeführt ist, der maschinelle Lernprozess oder die reguläre Verarbeitung im Korrekturprozess durchgeführt und wird der maschinelle Lernprozess oder die reguläre Verarbeitung ferner in dem dreidimensionale Daten erzeugenden Prozess durchgeführt.
Der einfachen Erläuterung halber werden hier der Identifizierungsprozess, der Korrekturprozess und der dreidimensionale Daten erzeugende Prozess durch die Buchstaben „A“, „B“ bzw. „C“ repräsentiert, werden der maschinelle Lernprozess und die reguläre Verarbeitung durch die Ziffern „1“ bzw. „2“ repräsentiert und sind die Buchstaben und Ziffern durch „-“ verbunden. In diesem Fall wird eine Reihe von Prozessen bei der Verarbeitung einer Abstandsmessinformation als eine der Kombinationen A-1 oder A-2, B-1 oder B-2 und C-1 oder C-2 durchgeführt. In der Beschreibung unten werden unter jenen Kombinationen A-1 (ein Fall, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird) und B-1 (ein Fall, in dem der maschinelle Lernprozess im Korrekturprozess durchgeführt wird) im Detail erläutert.
(A-1) Beispielhafter Fall, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird
Bezugnehmend nun auf 29 bis 31 wird ein Fall beschrieben, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird. Falls der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird, wird vorher durch eine Lernvorrichtung das Lernmodell erzeugt, das im maschinellen Lernprozess genutzt werden soll.
29 stellt eine beispielhafte Konfiguration einer Ausführungsform einer Lernvorrichtung dar, für die die vorliegende Technologie verwendet wird.
Eine Lernvorrichtung 701 erzeugt ein Lernmodell unter Verwendung von Trainingsdaten. Die Lernvorrichtung 701 kann die gleiche Vorrichtung wie die elektronische Einrichtung 601 (wie etwa ein Smartphone) sein oder kann eine verschiedene Vorrichtung (wie etwa ein Server) sein. Die Lernvorrichtung 701 enthält eine Erzeugungseinheit 703 und eine Ausgabeeinheit 704.
Die Erzeugungseinheit 703 ist beispielsweise ein Prozessor wie etwa eine CPU. Der Prozessor der Erzeugungseinheit 703 kann derselbe wie der Prozessor der Verarbeitungseinheit 612 oder der Prozessor des Controllers 603 oder von diesen verschieden sein. Alternativ dazu können all die Prozessoren der Erzeugungseinheit 703, der Verarbeitungseinheit 612 und des Controllers 603 die gleichen Prozessoren sein. Die Erzeugungseinheit 703 ermittelt bzw. erfasst Trainingsdaten. Beispielsweise sind die Trainingsdaten eine Tiefenkarte, die ein fehlerhaftes Pixel enthält, und enthalten eine Tiefenkarte, in der die Position des fehlerhaften Pixels identifiziert ist. Zusätzlich zu den durch eine tatsächliche Messung erhaltenen Messdaten können als die Trainingsdaten durch einen Simulator erzeugte Daten genutzt werden.
Beispielsweise nutzt der Simulator Informationen in Bezug auf die Abstandsmesseinheit 611 (wie etwa den Typ des Sensors und eine Verzerrung der Linse) als Parameter und verarbeitet virtuell Daten (führt einen Prozess zum Erzeugen einer Tiefenkarte durch, die ein fehlerhaftes Pixel an einer spezifischen Position oder dergleichen absichtlich enthält). Infolgedessen wird ein Datensatz erzeugt, um ein fehlerhaftes Pixel zu identifizieren, wie etwa eine Tiefenkarte, die ein fehlerhaftes Pixel enthält, und eine Tiefenkarte, in der die Position des fehlerhaften Pixels identifiziert ist.
Die Erzeugungseinheit 703 erzeugt ein Lernmodell unter Verwendung der erfassten Trainingsdaten und stellt der Ausgabeeinheit 704 das Lernmodell bereit. Beispielsweise erzeugt die Erzeugungseinheit 703 ein Lernmodell, das eine Eingabe einer ein fehlerhaftes Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene fehlerhafte Pixel ausgibt. Die Erzeugungseinheit 703 kann auch einen Neu- bzw. Umlernprozess (einen zusätzlichen Lernprozess) unter Verwendung solcher Daten wie etwa zusätzlicher Trainingsdaten durchführen, um das gelernte Lernmodell fortzuschreiben bzw. zu aktualisieren. In der Beschreibung unten werden Erzeugung und Aktualisierung des Lernmodells voneinander getrennt erläutert. Jedoch kann man auch sagen, dass ein Lernmodell durch Aktualisieren eines Lernmodells erzeugt wird, und daher schließt die Bedeutung des Ausdrucks „Erzeugung eines Lernmodells“ die „Aktualisierung eines Lernmodells“ ein.
Die Ausgabeeinheit 704 gibt das von der Erzeugungseinheit 703 bereitgestelltes Lernmodell aus. Beispielsweise ist die Ausgabeeinheit 704 ein Kommunikationsmodul und kann über ein Netzwerk das Lernmodell zu einer anderen Vorrichtung übertragen.
30 stellt ein Beispiel eines durch die Erzeugungseinheit 703 der Lernvorrichtung 701 in 29 erzeugten Lernmodells dar. 30 stellt ein maschinell gelerntes Lernmodell dar, das ein neuronales Netzwerk nutzt, und umfasst drei Schichten: eine Eingabeschicht, eine Zwischenschicht und eine Ausgabeschicht.
Das Lernmodell in 30 ist ein Lernmodell, das unter Verwendung von Trainingsdaten erzeugt wird, die eine Tiefenkarte enthalten, die fehlerhafte Pixel enthält, deren Positionen identifiziert sind, und ist ein Lernmodell, das eine Eingabe einer Abstandsmessinformation 721 (eine Tiefenkarte, die fehlerhafte Pixel enthält, wie durch Kreise in der Zeichnung angegeben ist) empfängt und eine Positionsinformation 722 über die fehlerhaften Pixel (eine Koordinateninformation über die in der eingegebenen Tiefenkarte enthaltenen fehlerhafte Pixel) ausgibt.
Die Verarbeitungseinheit 612 der elektronischen Einrichtung 601 in 24 kann das Lernmodell in 30 als das Lernmodell 621 nutzen, wenn der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird. Das heißt, unter Verwendung des in 30 dargestellten Lernmodells führt die Verarbeitungseinheit 612 eine arithmetische Operation an der fehlerhafte Pixel enthaltenden Tiefenkarte, die in die Eingabeschicht eingegeben wird, bei der Zwischenschicht mit den Parametern durch, die gelernt worden sind, um so die Positionen der fehlerhaften Pixel zu bestimmen. Eine Positionsinformation über die in der eingegebenen Tiefenkarte enthaltenen fehlerhaften Pixel wird von der Ausgabeschicht ausgegeben.
Bei dieser arithmetischen Operation bei der Zwischenschicht ist es, wenn die Position eines fehlerhaften Pixels identifiziert wird, möglich, die Positionsinformation über das fehlerhafte Pixel durch Identifizieren des fehlerhaften Pixels auf der Basis eines Ergebnisses einer Abstandsinformations-Schwellenwertbestimmung in Bezug auf das Prozessziel-Pixel in der Tiefenkarte und eines Ergebnisses einer Konfidenzinformations- oder Reflexionsgradinformations-Schwellenwertbestimmung wie im oben mit Verweis auf 18 oder 19 beschriebenen Prozess zu erfassen.
Konkret wird über die Abstandsinformations-(Tiefenwert-)Schwellenwertbestimmung eine Überprüfung vorgenommen, um zu bestimmen, ob die Abstandsdifferenz zwischen dem Prozessziel-Pixel in der Tiefenkarte und einem Umgebungspixel größer als ein vorbestimmter Schwellenwert ist oder nicht (Schritt S12 in 18). Falls bestimmt wird, dass die Abstandsdifferenz größer als der vorbestimmte Schwellenwert ist, wird eine Überprüfung vorgenommen, um zu bestimmen, ob die Konfidenz- oder Reflexionsgraddifferenz zwischen dem Prozessziel-Pixel und einem Umgebungspixel größer als ein vorbestimmter Schwellenwert ist oder nicht (Schritt S13 in 18). Falls bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz größer als der vorbestimmte Schwellenwert ist, wird dann das Prozessziel-Pixel als fehlerhaftes Pixel identifiziert (Schritt S14 in 18) .
Die von der Ausgabeschicht ausgegebene Positionsinformation eines fehlerhaften Pixels kann eine Information sein, in der die Positionsinformation an den fehlerhaften Pixeln, deren Positionen identifiziert sind, gekennzeichnet ist. Beispielsweise kann für jedes Stück an Information zum Identifizieren eines fehlerhaften Pixels die Positionsinformation eines fehlerhaften Pixels die Position des fehlerhaften Pixels im X-Y-Z-Koordinatensystem ausdrücken. Alternativ dazu kann als die Positionsinformation eines fehlerhaften Pixels eine Karte (eine Anomaliewahrscheinlichkeitskarte) verwendet werden, die die Wahrscheinlichkeit, dass ein fehlerhaftes Pixel vorliegt, für jedes Pixel darstellt. Gemäß dieser Anomaliewahrscheinlichkeitskarte weist beispielsweise ein Pixel, das sicher zu dem Vordergrundobjekt oder dem Hintergrundobjekt gehört, einen 0 nahekommenden Wert auf, während ein Wert eines Pixels mit einer hohen Wahrscheinlichkeit, dass es sich um ein fehlerhaftes Pixel handelt, 100 nahekommt.
Bezugnehmend nun auf 31 wird ein Lernprozess zum Erzeugen des in 30 dargestellten Lernmodells beschrieben.
In Schritt S211 erfasst die Erzeugungseinheit 703 Trainingsdaten. Diese Trainingsdaten umfassen eine Tiefenkarte, die fehlerhafte Pixel enthält, deren Positionen identifiziert sind. Zusätzlich zu Messdaten können als die Trainingsdaten durch einen Simulator erzeugte Daten genutzt werden.
In Schritt S212 erzeugt unter Verwendung der erfassten Trainingsdaten die Erzeugungseinheit 703 ein Lernmodell, das eine Eingabe der fehlerhafte Pixel enthaltenden Tiefenkarte empfängt und Positionsinformationen über die in der Tiefenkarte enthaltenen fehlerhaften Pixel ausgibt. Dieses Lernmodell (30) wird als Lernmodell zum Identifizieren der in der Tiefenkarte enthaltenen fehlerhaften Pixel genutzt.
In Schritt S213 gibt die Ausgabeeinheit 704 das durch die Erzeugungseinheit 703 erzeugte Lernmodell aus. Dieses Lernmodell (30) wird dem Sensor 602 der elektronischen Einrichtung 601 bereitgestellt und wird genutzt, wenn die Verarbeitungseinheit 612 den Identifizierungsprozess zum Identifizieren eines fehlerhaften Pixels durchführt.
Wie oben beschrieben wurde, wird in einem Fall, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird, ein Lernmodell, das eine Eingabe einer fehlerhafte Pixel enthaltenden Tiefenkarte empfängt und Positionsinformationen über die in der Tiefenkarte enthaltenen fehlerhaften Pixel ausgibt, genutzt, so dass die in der Tiefenkarte enthaltenen fehlerhaften Pixel identifiziert werden können.
(A-1) Ein anderer beispielhafter Fall, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird
Bezugnehmend nun auf 32 bis 33 wird ein anderer beispielhafter Fall beschrieben, in dem der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird. In diesem Beispiel wird beim maschinellen Lernen unter Verwendung eines neuronalen Netzwerks ein Autocodierer genutzt, um fehlerhafte Pixel zu identifizieren.
Der Autocodierer enthält einen Codierer und Decodierer. Ein oder mehr Merkmalsmengenwerte, die in Daten enthalten sind, werden beispielsweise in den Autocodierer eingegeben. Der Codierer wandelt die eingegebene Merkmalsmengengruppe in einen komprimierten Ausdruck um. Auf der anderen Seite decodiert der Decodierer eine Merkmalsmengengruppe aus dem komprimierten Ausdruck. Zu diesem Zeitpunkt erzeugt der Decodierer Daten mit einer Struktur ähnlich jener der Eingabedaten. Beim Lernen unter Verwendung des Autocodierers werden normale Daten eingegeben und wird jeder Parameter des Autocodierers so optimiert, dass die Differenz zwischen den Eingabedaten und den rekonfigurierten Daten (durch den Autocodierer erzeugten Daten) kleiner wird. Daher haben, nachdem ein ausreichender Lernvorgang durchgeführt ist, die Eingabedaten und die rekonfigurierten Daten im Wesentlichen den gleichen Wert.
32 stellt ein beispielhaftes Verfahren zum Identifizieren fehlerhafter Pixel unter Verwendung eines Autocodierers dar. In 32 ist der Lernprozess in einer Lernstufe im oberen Bereich dargestellt und ist der Inferenzprozess in einer Inferenzstufe im unteren Bereich dargstellt. Das heißt, der Lernprozess ist ein durch die Lernvorrichtung 701 (29) durchzuführender Prozess, und der Inferenzprozess ist ein durch die elektronische Einrichtung 601 (24) durchzuführender Prozess. Der Lernprozess und der Inferenzprozess sind im maschinellen Lernprozess einbezogen und werden von der gleichen Vorrichtung durchgeführt, falls die Lernvorrichtung 701 und die elektronische Einrichtung 601 als dieselbe Vorrichtung ausgebildet sind.
In der Lernstufe wird der Lernprozess unter Verwendung eines Autocodierers an einer in die Eingabeschicht eingegebenen Abstandsmessinformation 741 durchgeführt, so dass eine Abstandsmessinformation 742 von der Ausgabeschicht ausgegeben wird. Falls eine normale Tiefenkarte, die kein fehlerhaftes Pixel enthält, als die Abstandsmessinformation 741 eingegeben wird, wird eine Tiefenkarte, die kein fehlerhaftes Pixel enthält, als die Abstandsmessinformation 742 ausgegeben. Zu diesem Zeitpunkt können Parameter, die so optimiert sind, dass die eingegebene normale Tiefenkarte und die rekonfigurierte Tiefenkarte den gleichen Wert haben, als Merkmalsmengen 743 extrahiert werden.
In der Inferenzstufe wird der Inferenzprozess unter Verwendung eines Lernmodells (eines neuronalen Netzwerks), das die in der Lernstufe erhaltenen Merkmalsmengen 743 widerspiegelt, an einer in die Eingabeschicht eingegebenen Abstandsmessinformation 751 durchgeführt, so dass eine Abstandsmessinformation 752 von der Ausgabeschicht ausgegeben wird. Falls eine fehlerhafte Pixel enthaltende Tiefenkarte als die Abstandsmessinformation 751 eingegeben wird, können die Bereiche der fehlerhaften Pixel im Inferenzprozess nicht rekonfiguriert werden und wird eine Tiefenkarte, die im Wesentlichen keine fehlerhaften Pixel enthält, als die Abstandsmessinformation 752 ausgegeben.
Dementsprechend kann, wenn der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird, die Verarbeitungseinheit 612 der elektronischen Einrichtung 601 in 24 die Pixel mit unterschiedlicher Positionsinformation zwischen der in die Eingabeschicht eingegebenen Tiefenkarte und der von der Ausgabeschicht ausgegebenen Tiefenkarte als fehlerhafte Pixel identifizieren. Falls beispielsweise jedes Pixel in einer Tiefenkarte in einem X-Y-Z-Koordinatensystem ausgedrückt wird, kann ein Pixel, das eine große Differenz in den Koordinaten zwischen der Tiefenkarte, die fehlerhafte Pixel in der Eingabeschicht enthält, und der Tiefenkarte, aus der die fehlerhaften Pixel in der Ausgabeschicht verschwunden sind, als ein fehlerhaftes Pixel identifiziert werden.
Man beachte, dass in einem Fall, in dem eine normale Tiefenkarte als die Abstandsmessinformation 751 in die Eingabeschicht eingegeben wird, eine Tiefenkarte, die kein fehlerhaftes Pixel enthält, als die Abstandsmessinformation 752 von der Ausgabeschicht ausgegeben wird. Dementsprechend gibt es kein Pixel mit einer großen Differenz in den Koordinaten zwischen der Tiefenkarte bei der Eingabeschicht und der Tiefenkarte bei der Ausgabeschicht und werden keine fehlerhaften Pixel identifiziert.
Bezugnehmend nun auf 33 wird ein fehlerhafte Pixel identifizierender Prozess unter Verwendung des in 32 dargestellten Lernmodells beschrieben. Der in 33 dargestellte Identifizierprozess ist ein Prozess, der einem Fall entspricht, in dem der maschinelle Lernprozess in Schritt S151 in 27 durchgeführt wird.
In Schritt S311 gibt unter Verwendung eines neuronalen Netzwerks (32), das eine normale Tiefenkarte mit einem Autocodierer gelernt hat, die Verarbeitungseinheit 612 eine fehlerhafte Pixel enthaltende Tiefenkarte als das Lernmodell 621 in die Eingabeschicht ein und gibt eine Tiefenkarte, in der die fehlerhaften Pixel korrigiert worden sind, aus der Ausgabeschicht aus.
In Schritt S312 identifiziert die Verarbeitungseinheit 612 die in der Tiefenkarte enthaltenen fehlerhaften Pixel auf der Basis der Positionsinformation in der in die Eingabeschicht eingegebenen Tiefenkarte und der Positionsinformation in der von der Ausgabeschicht ausgegebenen Tiefenkarte. Beispielsweise können Pixel mit unterschiedlicher Positionsinformationen zwischen der in die Eingabeschicht eingegebenen Tiefenkarte und der von der Ausgabeschicht ausgegebenen Tiefenkarte als fehlerhafte Pixel identifiziert werden.
Wie oben beschrieben wurde, werden in einem Fall, in dem ein einen Autocodierer nutzendes Lernmodell verwendet wird, wenn der maschinelle Lernprozess im Identifizierungsprozess durchgeführt wird, die Positionsinformation in der in die Eingabeschicht eingegebenen Tiefenkarte und die Positionsinformation in der von der Ausgabeschicht ausgegebenen Tiefenkarte verwendet, so dass fehlerhafte Pixel identifiziert werden können.
(A-1, B-1) Beispielhafter Fall, in dem der maschinelle Lernprozess in einer Reihe von Identifizierungs- und Korrekturprozessen durchgeführt wird
Bezugnehmend nun auf 34 und 35 wird ein Fall beschrieben, in dem der maschinelle Lernprozess in dem Identifizierungsprozess und dem Korrekturprozess durchgeführt wird, die als eine Reihe von Prozessen durchgeführt werden. In diesem Beispiel wird beim maschinellen Lernen unter Verwendung eines neuronalen Netzwerks ebenfalls ein Autocodierer genutzt, um fehlerhafte Pixel zu korrigieren.
34 zeigt ein beispielhaftes Verfahren zum Korrigieren fehlerhafter Pixel unter Verwendung eines Autocodierers. In 34 ist der Lernprozess in der Lernstufe im oberen Bereich dargestellt und ist der Inferenzprozess in der Inferenzstufe im unteren Teil wie in 32 dargestellt.
In der Lernstufe wird in einem Fall, in dem eine normale Tiefenkarte, die kein fehlerhaftes Pixel enthält, als Abstandsmessinformation 761 in die Eingabeschicht eingegeben, der Lernprozess durchgeführt, und eine Tiefenkarte, die kein fehlerhaftes Pixel enthält, wird von der Ausgabeschicht als Abstandsmessinformation 762 ausgegeben. Zu diesem Zeitpunkt können Parameter, die so optimiert sind, dass die eingegebene normale Tiefenkarte und die rekonfigurierte Tiefenkarte den gleichen Wert aufweisen, als Merkmalsmengen 763 extrahiert werden.
In der Inferenzstufe wird in einem Fall, in dem eine fehlerhafte Pixel enthaltende Tiefenkarte als Abstandsmessinformation 771 in die Eingabeschicht eingegeben wird, der Inferenzprozess unter Verwendung eines Lernmodells (neuronales Netzwerk), das die in der Lernstufe erhaltenen Merkmalsmengen 763 widerspiegelt, durchgeführt. Jedoch können die Bereiche der fehlerhaften Pixel nicht rekonfiguriert werden und wird eine Tiefenkarte erhalten, die im Wesentlichen keine fehlerhaften Pixel enthält. Im Inferenzprozess unter Verwendung des Lernmodells werden hier die Pixel mit unterschiedlichen Positionsinformationen zwischen der in die Eingabeschicht eingegebenen Tiefenkarte und der von der Ausgabeschicht ausgegebenen Tiefenkarte als fehlerhafte Pixel korrigiert.
Falls beispielsweise jedes Pixel in einer Tiefenkarte in einem X-Y-Z-Koordinatensystem ausgedrückt ist, kann ein Pixel mit einer großen Differenz in Koordinaten zwischen der Tiefenkarte, die in der Eingangsstufe fehlerhafte Pixel enthält, und der Tiefenkarte, aus der die fehlerhaften Pixel in der Ausgangsstufe verschwunden sind, als fehlerhaftes Pixel korrigiert werden. Bei der Korrektur fehlerhafter Pixel kann wie im oben mit Verweis auf 18 oder 20 beschriebenen Prozess das Prozessziel-Pixel zu dem Vordergrundobjekt oder dem Hintergrundobjekt verschoben bzw. versetzt bewegt oder gelöscht werden.
Das heißt, die Verarbeitungseinheit 612 der elektronischen Einrichtung 601 in 24 führt den in 34 dargestellten Inferenzprozess durch, um die in der Tiefenkarte enthaltenen fehlerhaften Pixel integral (gleichzeitig) zu identifizieren und zu korrigieren. Während der Inferenzprozess auf diese Weise durchgeführt wird, kann eine Tiefenkarte, in der die fehlerhaften Pixel korrigiert worden sind, als Abstandsmessinformation 772 von der Ausgabeschicht ausgegeben werden.
Bezugnehmend nun auf 35 wird ein Prozess zur Korrektur fehlerhafter Pixel unter Verwendung des in 34 dargestellten Lernmodells beschrieben. Der in 35 dargestellte Korrekturprozess ist ein Prozess entsprechend einem Fall, in dem der maschinelle Lernprozess in Schritt S131 in 26 durchgeführt wird.
In Schritt S331 gibt unter Verwendung eines neuronalen Netzwerks (34), das eine normale Tiefenkarte mit einem Autocodierer gelernt hat, die Verarbeitungseinheit 612 eine fehlerhafte Pixel enthaltende Tiefenkarte als das Lernmodell 621 in die Eingabeschicht ein und gibt eine Tiefenkarte, in der die fehlerhaften Pixel korrigiert worden sind, aus der Ausgabeschicht aus.
Wie oben beschrieben wurde, wird in einem Fall, in dem ein Lernmodell unter Verwendung eines Autocodierers genutzt wird, wenn der maschinelle Lernprozess in einer Reihe von Identifizierungs- und Korrekturprozessen als Ergebnis einer Eingabe einer fehlerhafte Pixel enthaltenden Tiefenkarte in die Eingabeschicht durchgeführt wird, eine Tiefenkarte, in der die fehlerhaften Pixel korrigiert worden sind, aus der Ausgabeschicht ausgegeben. Somit können die fehlerhaften Pixel korrigiert werden.
(B-1) Beispielhafter Fall, in dem ein maschineller Lernprozess im Korrekturprozess durchgeführt wird
Bezugnehmend nun auf 36 bis 37 wird ein Fall beschrieben, in dem der maschinelle Lernprozess im Korrekturprozess durchgeführt und genutzt wird.
36 stellt ein Beispiel eines durch die Erzeugungseinheit 703 der Lernvorrichtung 701 in 29 erzeugten Lernmodells dar. In 36 ist der Lernprozess in der Lernstufe im oberen Bereich dargestellt und ist der Inferenzprozess im unteren Bereich dargestellt.
In der Lernstufe werden eine Tiefenkarte, die fehlerhafte Pixel enthält, und eine Positionsinformation über die fehlerhaften Pixel und eine korrigierte Tiefenkarte oder Positionsinformationen über die korrigierten fehlerhaften Pixel als Trainingsdaten genutzt. In 36 wird der Lernprozess unter Verwendung dieser Stücke von Trainingsdaten durchgeführt, um ein Lernmodell zu erzeugen, das eine Eingabe einer Abstandsmessinformation 781 (einer fehlerhafte Pixel enthaltenden Tiefenkarte) und Positionsinformation 782 über die fehlerhaften Pixel (Koordinateninformation über die fehlerhaften Pixel) empfängt und eine Abstandsmessinformation 783 (eine korrigierte Tiefenkarte) ausgibt.
Man beachte, dass bei der Korrektur fehlerhafter Pixel wie im oben mit Verweis auf 18 oder 20 beschriebenen Prozess das Prozessziel-Pixel zu dem Vordergrundobjekt oder dem Hintergrundobjekt versetzt oder gelöscht werden kann. Wenngleich 36 einen Fall darstellt, in dem die Ausgabe des Lernmodells eine korrigierte Tiefenkarte ist, kann ferner der Lernprozess durchgeführt werden, wobei die Ausgabe des Lernmodells die Positionsinformation über die korrigierten fehlerhaften Pixel ist. Was die Positionsinformation über die fehlerhaften Pixel anbetrifft, kann eine Koordinateninformation genutzt werden, die die Positionen der fehlerhaften Pixel in einem X-Y-Z-Koordinatensystem ausdrückt.
In der Inferenzstufe wird das im Lernprozess erzeugte Lernmodell genutzt und wird der Inferenzprozess an einer Abstandsmessinformation 791 (einer fehlerhafte Pixel enthaltenden Tiefenkarte) und Positionsinformation 792 über die fehlerhaften Pixel (Koordinateninformation über die fehlerhaften Pixel) durchgeführt, die in die Eingabeschicht eingegeben werden, so dass eine Abstandsmessinformation 793 (eine korrigierte Tiefenkarte) aus der Ausgabeschicht ausgegeben wird. Man beachte, dass anstelle einer korrigierten Tiefenkarte eine Positionsinformation über die korrigierten fehlerhaften Pixel ausgegeben werden kann.
Bezugnehmend nun auf 37 wird ein Lernprozess zum Erzeugen des in 36 dargestellten Lernmodells beschrieben.
In Schritt S411 erfasst die Erzeugungseinheit 703 Trainingsdaten. Diese Trainingsdaten umfassen eine fehlerhafte Pixel enthaltende Tiefenkarte und eine Positionsinformation über die fehlerhaften Pixel und eine korrigierte Tiefenkarte oder Positionsinformation über die korrigierten fehlerhaften Pixel. Zusätzlich zu den Messdaten können als die Trainingsdaten durch einen Simulator erzeugte Daten genutzt werden.
In Schritt S412 erzeugt unter Verwendung der erfassten Trainingsdaten die Erzeugungseinheit 703 ein Lernmodell, das eine Eingabe einer fehlerhafte Pixel enthaltenden Tiefenkarte und Positionsinformation über die fehlerhaften Pixel empfängt und eine korrigierte Tiefenkarte oder Positionsinformation über die korrigierten fehlerhaften Pixel ausgibt. Dieses Lernmodell (36) wird als Lernmodell zum Korrigieren der in der Tiefenkarte enthaltenen fehlerhaften Pixel genutzt.
In Schritt S413 gibt die Ausgabeeinheit 704 das durch die Erzeugungseinheit 703 erzeugte Lernmodell aus. Dieses Lernmodell (36) wird der Verarbeitungseinheit 612 und dergleichen des Sensors 602 in der elektronischen Einrichtung 601 bereitgestellt und wird im Korrekturprozess zum Korrigieren fehlerhafter Pixel genutzt.
Wie oben beschrieben wurde, wird in einem Fall, in dem der maschinelle Lernprozess im Korrekturprozess durchgeführt wird, ein Lernmodell, das eine Eingabe einer fehlerhafte Pixel enthaltenden Tiefenkarte und Positionsinformation über die fehlerhaften Pixel empfängt und eine korrigierte Tiefenkarte oder Positionsinformation über die korrigierten fehlerhaften Pixel ausgibt, genutzt, so dass die identifizierten fehlerhaften Pixel korrigiert werden können.
Man beachte, dass in einem anderen beispielhaften Fall, indem der maschinelle Lernprozess im Korrekturprozess durchgeführt wird, fehlerhafte Pixel unter Verwendung eines generativen gegnerischen Netzwerks (GAN) korrigiert werden können. Ein GAN besteht aus zwei Netzwerken: einem Erzeugungsnetzwerk (einem Generator) und einem Identifizierungsnetzwerk (einen Diskriminator). In der Lernstufe wird eine normale Tiefenkarte genutzt und wird ein Training so durchgeführt, dass eine Tiefenkarte aus Zufallswerten erzeugt werden kann. In der Inferenzstufe erzeugt, wenn eine fehlerhafte Pixel enthaltende Tiefenkarte eingegeben wird, das Erzeugungsnetzwerk (der Generator) eine Tiefenkarte unter Verwendung von Parametern, die zum Erzeugen einer Tiefenkarte ausgelegt sind, die der eingegebenen Tiefenkarte ähnlich ist, und kann die erzeugte Tiefenkarte als korrigierte Tiefenkarte festgelegt werden. Alternativ dazu bestimmt das Identifizierungsnetzwerk (der Diskriminator) den Verlust in einer Tiefenkarte, so dass fehlerhafte Pixel detektiert und korrigiert werden können. Man beachte, dass, obgleich als ein Beispiel ein GAN beschrieben wurde, ein neuronales Netzwerk wie etwa ein U-Netz ebenfalls genutzt werden kann.
<Beispielhafte Nutzung einer Tiefenkarte>
Man beachte, dass in der obigen Beschreibung vorwiegend Fälle erläutert wurden, in denen der maschinelle Lernprozess genutzt wird. Jedoch kann, nachdem in einer Tiefenkarte enthaltene fehlerhafte Pixel in der regulären Verarbeitung identifiziert sind, eine Tiefenkarte, in der die identifizierten fehlerhaften Pixel korrigiert worden sind, erzeugt werden und kann die korrigierte Tiefenkarte genutzt werden.
38 ist ein Diagramm, das eine andere beispielhafte Konfiguration einer Ausführungsform einer elektronischen Einrichtung darstellt, für die die vorliegende Technologie verwendet wird.
Die elektronische Einrichtung 601 in 38 unterscheidet sich der elektronischen Einrichtung 24 darin, dass sie anstelle des Sensors 602 einen Sensor 631 enthält. Der Sensor 631 in 38 unterscheidet sich vom Sensor 602 in 24 dadurch, dass er anstelle der Verarbeitungseinheit 612 eine Verarbeitungseinheit 641 enthält. Man beachte, dass in der elektronischen Einrichtung 601 in 38 die Komponenten, die jenen der elektronischen Einrichtung 601 in 24 entsprechen, mit den gleichen Bezugsziffern wie jenen in 24 bezeichnet sind und deren Erläuterung hierin nicht vorgenommen wird.
Die Verarbeitungseinheit 641 erzeugt eine korrigierte Tiefenkarte unter Verwendung einer von der Abstandsmesseinheit 611 bereitgestellten Abstandsmessinformation. Bezugnehmend nun auf 39 wird ein eine korrigierte Tiefenkarte erzeugender Prozess beschrieben.
In Schritt S511 führt die Abstandsmesseinheit 611 einen Prozess in Bezug auf eine Detektion fliegender Pixel durch. In diesem Prozess in Bezug auf eine Detektion fliegender Pixel kann, wie oben mit Verweis auf 18 oder 20 beschrieben wurde, ein Prozess durchgeführt werden, um auf der Basis eines Ergebnisses einer Abstandsinformations-Schwellenwertbestimmung in Bezug auf das Prozessziel-Pixel in der Tiefenkarte oder einer Konfidenzinformations- oder Reflexionsgradinformations-Schwellenwertbestimmung zu identifizieren.
In Schritt S512 korrigiert die Verarbeitungseinheit 641 das in der Tiefenkarte identifizierte fehlerhafte Pixel und erzeugt eine korrigierte Tiefenkarte. Bei der Korrektur fehlerhafter Pixel wird das Prozessziel-Pixel in der Tiefenkarte zu der korrekten Position verschoben oder gelöscht.
In Schritt S513 gibt die Verarbeitungseinheit 641 die erzeugte korrigierte Tiefenkarte aus. Die korrigierte Tiefenkarte kann natürlich innerhalb der elektronischen Einrichtung 601 genutzt werden und kann auch einer externen Vorrichtung bereitgestellt werden. Beispielsweise kann die nicht korrigierte Tiefenkarte zusammen mit der korrigierten Tiefenkarte der Lernvorrichtung 701 bereitgestellt werden. Mit dieser Anordnung kann die Lernvorrichtung 701 ein Lernmodell unter Verwendung des Datensatzes der nicht korrigierten Tiefenkarte und der korrigierten Tiefenkarte als die Trainingsdaten erzeugen.
<Prozessgegenstand im maschinellen Lernprozess>
In der das oben beschriebene maschinelle Lernen nutzenden Konfiguration führt die Verarbeitungseinheit 612 im Sensor 602 den maschinellen Lernprozess in der elektronischen Einrichtung 601 durch. Jedoch wird der maschinelle Lernprozess von der Verarbeitungseinheit 612 im Sensor 602 nicht notwendigerweise durchgeführt, sondern kann durch irgendeine andere Vorrichtung durchgeführt werden. 40 zeigt ein Beispiel einer Vorrichtung, die den maschinellen Lernprozess in einem Fall durchführt, in dem die elektronische Einrichtung 601 ein mobiles Endgerät ist.
In 40 ist die elektronische Vorrichtung 601 ein mobiles Endgerät wie etwa ein Smartphone und kann über ein Kernnetzwerk 652, das mit einer an einem vorbestimmten Platz installierten Basisstation verbunden ist, mit einem anderen Netzwerk wie etwa dem Internet 653 verbunden werden. In 40 ist ein Edge-Server 651 zum Realisieren eines mobilen Edge-Computing (MEC) an einer näher zum mobilen Endgerät gelegenen Stelle, wie etwa einer Stelle zwischen der Basisstation und dem Kernnetzwerk 652 angeordnet. Man beachte, dass der Edge-Server 651 im Kernnetzwerk 652 vorgesehen sein kann. Ferner ist ein Cloud-Server 654 mit dem Internet 653 verbunden. Der Edge-Server 651 und der Cloud-Server 654 können verschiedene Arten von von Verwendungszwecken abhängigen Prozessen durchführen.
In 40 wird der maschinelle Lernprozess von der elektronischen Einrichtung 601, dem Sensor 602, dem Edge-Server 651 oder dem Cloud-Server 654 durchgeführt. In jeder Vorrichtung wird der maschinelle Lernprozess beispielsweise durch einen Prozessor wie etwa eine ein Programm ausführende CPU durchgeführt oder wird durch eine dedizierte Hardware durchgeführt. Man beachte, dass neben einer CPU eine Graphikverarbeitungseinheit (GPU), eine Allzweck-Berechnung auf einer Graphikverarbeitungseinheit (GPGPU), einen Quanten-Computer oder dergleichen genutzt werden kann.
Eine Konfiguration, in der die Verarbeitungseinheit 612 im Sensor 602 den maschinellen Lernprozess durchführt, ist wie oben beschrieben. Die externe Konfiguration des Sensors 602 kann beispielsweise eine in 41 beschriebene Konfiguration sein.
In 41 kann der Sensor 602 als eine Ein-Chip-Halbleitervorrichtung mit einer Stapelstruktur ausgebildet sein, in der eine Vielzahl von Substraten gestapelt ist. Der Sensor 602 wird durch Stapeln von zwei Substraten gebildet: einem Substrat 951 und einem Substrat 952. In 41 ist eine Abstandsmesseinheit 911 auf dem oberen Substrat 951 montiert. Komponenten von einer Abstandsmessung-Verarbeitungseinheit 912 bis zu einer Abstandsmessung-Steuerungseinheit 915 und Komponenten von einer CPU 921 bis zu einer Eingabe-Schnittstelle 926 sind auf dem unteren Substrat 952 montiert.
Die Abstandsmesseinheit 911 und die Komponenten von der Abstandsmessung-Verarbeitungseinheit 912 bis zur Abstandsmessung-Steuerungseinheit 915 bilden einen Abstandsmessblock 901. Die Komponenten von der CPU 921 bis zur Eingabe-Schnittstelle 926 bilden einen Signalverarbeitungsblock 902. Beispielsweise entspricht der Abstandsmessblock 901 der Abstandsmesseinheit 611 in 24 und entspricht der Signalverarbeitungsblock 902 der Verarbeitungseinheit 612 in 24. Das heißt, in der Stapelstruktur, in der die oberen und unteren Substrate gestapelt sind, ist auf dem unteren Substrat 952 ein Chip für den maschinellen Lernprozess montiert.
Da solch eine Konfiguration übernommen wird, wird die Abstandsmessinformation, die durch den Abstandsmessblock 901 erfasst wird, der für eine Abstandsmessung ausgelegt und auf dem oberen Substrat 951 oder dem unteren Substrat 952 montiert ist, durch den Signalverarbeitungsblock 902 verarbeitet, der für den maschinellen Lernprozess ausgelegt und auf dem unteren Substrat 952 montiert ist. Somit kann eine Reihe von Prozessen in der Ein-Chip-Halbleitervorrichtung durchgeführt werden. Man beachte, dass in einem Fall, in dem der Signalverarbeitungsblock 902 der Verarbeitungseinheit 612 in 24 entspricht, Prozesse wie etwa der maschinelle Lernprozess von der CPU 921 durchgeführt werden können.
Da eine Reihe von Prozessen auf diese Weise in der Ein-Chip-Halbleitervorrichtung durchgeführt wird, dringt keine Information nach außen, was unter dem Gesichtspunkt des Schutzes der Privatsphäre vorzuziehen ist. Darüber hinaus besteht keine Notwendigkeit, Informationen zu übertragen. Somit kann der Signalverarbeitungsblock 902 unter Verwendung der vom Abstandsmessblock 901 bereitgestellten Abstandsmessinformation den maschinellen Lernprozess wie etwa den Inferenzprozess mit hoher Geschwindigkeit durchführen. Wenn beispielsweise der Sensor in einem Spiel oder dergleichen genutzt wird, das Echtzeiteigenschaften erfordert, können ausreichende Echtzeiteigenschaften gewährleistet werden. Wenn ferner der maschinelle Lernprozess im Signalverarbeitungsblock 902 durchgeführt wird, werden verschiedene Arten von Metadaten von dem Controller 603 oder einem digitalen Signalprozessor (DSP) in der elektronischen Einrichtung 601 übergeben. Somit können Prozesse reduziert werden und kann der Stromverbrauch verringert werden.
Man beachte, dass der Sensor 602 eine Konfiguration aufweisen kann, die einen zusätzlichen bzw. Begleiter-Chip enthält. Beispielsweise kann in einem Fall, in dem der Sensor 602 ein erstes Halbleiterelement, das die Abstandsmesseinheit 611 aufweist, die die lichtempfangende Einheit 12, die lichtemittierende Einheit 14 und dergleichen enthält, und ein zweites Halbleiterelement enthält, das die als Signalverarbeitungsschaltung ausgelegte Verarbeitungseinheit 612 enthält, das zweite Halbleiterelement als Begleiter-Chip ausgebildet sein. Das erste Halbleiterelement und das zweite Halbleiterelement können als ein Modul integriert sein. Ferner können das Halbleiterelement und das zweite Halbleiterelement auf demselben Substrat ausgebildet sein.
Wie oben beschrieben wurde, enthält im Sensor 602 der Begleiter-Chip die als Signalverarbeitungsschaltung ausgelegte Verarbeitungseinheit 612. Somit kann der Begleiter-Chip die reguläre Verarbeitung und den maschinellen Lernprozess durchführen. Bei dieser Anordnung kann auch in einem Fall, in dem es notwendig ist, eine Hochlast-Signalverarbeitung als die reguläre Verarbeitung oder den maschinellen Lernprozess durchzuführen, der für die Durchführung solch einer Signalverarbeitung spezialisierte Begleiter-Chip die Verarbeitung durchführen. Da die als Signalverarbeitungsschaltung ausgelegte Verarbeitungseinheit 612 die Signalverarbeitung mit Hardware durchführt, kann insbesondere die Signalverarbeitung mit höherer Geschwindigkeit und mit geringerem Stromverbrauch als in einem Fall durchgeführt werden, in dem eine Signalverarbeitung mit Software durchgeführt wird.
Zurück auf 40 verweisend enthält die elektronische Einrichtung 601 den Controller 603 wie etwa eine CPU; jedoch kann der Controller 603 den maschinellen Lernprozess durchführen. Der maschinelle Lernprozess beinhaltet den Lernprozess oder den Inferenzprozess. Falls der Controller 603 der elektronischen Einrichtung 601 den Inferenzprozess durchführt, kann der Inferenzprozess durchgeführt werden, ohne, nachdem die Abstandsmessinformation von der Abstandsmesseinheit 611 erfasst wurde, Zeit zu benötigen. Somit kann eine Hochgeschwindigkeitsverarbeitung durchgeführt werden. Wenn die elektronische Einrichtung 601 in einem Spiel oder irgendeiner anderen Anwendung genutzt wird, die Echtzeiteigenschaften erfordert, kann dementsprechend der Nutzer eine Bedienung vornehmen, ohne ein durch eine Verzögerung hervorgerufenes Gefühl der Befremdung zu haben. Falls der Controller 603 der elektronischen Einrichtung 601 den maschinellen Lernprozess durchführt, kann ferner der Prozess zu geringeren Kosten als in einem Fall durchgeführt werden, in dem der Cloud-Server 654 genutzt wird.
Der Prozessor des Edge-Servers 651 kann den maschinellen Lernprozess durchführen. Da der Edge-Server 651 an einer Position vorgesehen ist, die physisch näher zur elektronischen Einrichtung 601 als der Cloud-Server 654 liegt, ist es möglich, eine geringere Prozessverzögerung zu realisieren. Der Edge-Server 641 weist im Vergleich mit der elektronischen Einrichtung 601 und dem Sensor 602 auch eine höhere Verarbeitungsfähigkeit wie etwa eine höhere Betriebsgeschwindigkeit auf. Dementsprechend kann der Edge-Server 651 für allgemeine Zwecke ausgelegt sein und kann den maschinellen Lernprozess durchführen, wann immer er Daten erfolgreich empfängt, ungeachtet von Variationen bzw. Abweichungen in Spezifikationen und der Leistung der elektronischen Einrichtung 601 und des Sensors 602. Falls der Edge-Server 651 den maschinellen Lernprozess durchführt, ist es möglich, die Verarbeitungslast auf der elektronischen Einrichtung 601 und dem Sensor 602 zu reduzieren.
Der Prozessor des Cloud-Servers 654 kann den maschinellen Lernprozess durchführen. Der Cloud-Server 654 weist eine hohe Verarbeitungsfähigkeit wie etwa einen hohe Betriebsgeschwindigkeit auf und kann somit für allgemeine Zwecke ausgelegt sein. Falls der Cloud-Server 654 den maschinellen Lernprozess durchführt, kann dementsprechend der maschinelle Lernprozess ungeachtet von Variationen in Spezifikationen und der Leistung der elektronischen Einrichtung 601 und des Sensors 602 durchgeführt werden. Falls es für die Verarbeitungseinheit 612 im Sensor 602 oder den Controller 603 in der elektronischen Einrichtung 601 schwierig ist, einen maschinellen Lernprozess mit hoher Last durchzuführen, kann der Cloud-Server 654 den maschinellen Lernprozess mit hoher Last durchführen und das Verarbeitungsergebnis zu der Verarbeitungseinheit 612 im Sensor 602 oder dem Controller 603 in der elektronischen Einrichtung 601 rückkoppeln.
Wie oben beschrieben wurde, hat der Prozessor der elektronischen Einrichtung 601, des Sensors 602, des Edge-Servers 651 oder des Cloud-Servers 654 zumindest eine Funktion (einige der oder alle Funktionen) der Verarbeitungseinheit 612 und der Erzeugungseinheit 703, um den maschinellen Lernprozess durchzuführen. Der Prozessor in jeder Vorrichtung kann ebenfalls all die Prozesse durchführen. Alternativ dazu können, nachdem einige der Prozesse durch den Prozessor in einer bestimmten Vorrichtung durchgeführt sind, die verbliebenen Prozesse durch den Prozessor in einer anderen Vorrichtung durchgeführt werden.
Man beachte, dass der maschinelle Lernprozess von einer anderen Vorrichtung als den in 40 dargestellten Vorrichtungen durchgeführt werden kann. Beispielsweise kann der maschinelle Lernprozess von irgendeiner anderen elektronischen Einrichtung durchgeführt werden, mit der die elektronische Einrichtung 601 über eine drahtlose Kommunikation oder dergleichen verbunden sein kann. Konkret können in einem Fall, in dem die elektronische Einrichtung 601 ein Smartphone ist, Beispiele anderer elektronischer Einrichtungen ein Smartphone, ein Tablet-Endgerät, ein Mobiltelefon, einen Personalcomputer, eine Spielekonsole, einen Fernsehempfänger, ein tragbares Endgerät, eine digitale Festbildkamera und eine digitale Videokamera umfassen.
Falls ein an einer mobilen Struktur wie etwa einem Automobil montierter Sensor, ein Sensor, der in einer ferngesteuerten medizinischen Vorrichtung verwendet werden soll, oder dergleichen anders als die in 40 dargestellte Konfiguration verwendet wird, kann der maschinelle Lernprozess wie etwa der Inferenzprozess ebenfalls angewendet werden, ist aber in diesen Umgebungen eine geringe Latenzzeit erforderlich. In solch einem Fall ist es wünschenswert, dass der Controller 603, der in der elektronischen Einrichtung 601 (einschließlich Vorrichtungen in Fahrzeugen) vorgesehen ist, anstelle des den maschinellen Lernprozess über ein Netzwerk durchführenden Cloud-Servers 654 den maschinellen Lernprozess durchführt. Ferner ist es in einem Fall, in dem es keine Umgebungen gibt, um mit einem Netzwerk wie etwa dem Internet zu verbinden, oder in einem Fall einer Vorrichtung, die in einer Umgebung genutzt wird, in der keine Hochgeschwindigkeitsverbindung möglich ist, wünschenswert, dass der in der elektronischen Einrichtung 601 vorgesehene Controller 603 ebenfalls den maschinellen Lernprozess durchführt.
Man beachte, dass das im maschinellen Lernprozess zu verwendende Verfahren des maschinellen Lernens ein neuronales Netzwerk, Deep-Learning oder dergleichen sein kann. Ein neuronales Netzwerk ist ein Modell, das eine Schaltung menschlicher Hirnnerven imitiert, und enthält drei Arten von Schichten: eine Eingabeschicht, eine Zwischenschicht (eine verborgene Schicht) und eine Ausgabeschicht. Indes ist Deep-Learning ein Modell, das ein neuronales Netzwerk mit einer Mehrschichtstruktur nutzt, und kann ein in einer großen Datenmenge verborgenes komplexes Muster lernen, indem das Lernen von Charakteristiken in jeder Schicht wiederholt wird.
Ferner umfassen Beispiele von Problemstellungen beim maschinellen Lernen überwachtes Lernen, nicht überwachtes Lernen, semi-überwachtes Lernen und Verstärkungslernen und können beliebige von ihnen genutzt werden. Beispielsweise werden beim überwachten Lernen Merkmalsmengen auf der Basis gekennzeichneter Trainingsdaten (Lerndaten), die bereitgestellt werden, gelernt. Infolgedessen wird es möglich, ein an unbekannten Daten angebrachtes Kennzeichen abzuleiten. Beim nicht überwachten Lernen wird indes eine große Menge nicht gekennzeichneter Lerndaten analysiert und werden Merkmalsmengen extrahiert. Auf der Basis der extrahierten Merkmalsmengen wird dann eine Clusterbildung oder dergleichen durchgeführt. Infolgedessen wird es möglich, eine Tendenzanalyse und eine Zukunftsprognose auf der Basis einer riesigen Menge unbekannter Daten durchzuführen.
Ferner ist semi-überwachtes Lernen ein Verfahren, bei dem überwachtes Lernen und nicht überwachtes Lernen gemischt werden, und ist ein Verfahren, um einen Lernvorgang wiederholt durchzuführen, wobei Merkmalsmengen automatisch berechnet werden, indem eine riesige Menge an Trainingsdaten beim nicht überwachten Lernen bereitgestellt wird, nachdem die Merkmalsmengen beim überwachten Lernen gelernt wurden. Indes ist ein Verstärkungslernen ein Verfahren, um ein Problem bei einer Bestimmung einer Aktion, die ein Agent bzw. Mittel in einer bestimmten Umgebung durchführen sollte, zu bewältigen, indem der aktuelle Zustand beobachtet wird.
<Beispielhafte Konfiguration eines Systems>
Daten wie etwa ein Lernmodell und eine Tiefenkarte können natürlich in einer einzigen Vorrichtung genutzt werden und können auch zwischen einer Vielzahl von Vorrichtungen ausgetauscht und in diesen Vorrichtungen genutzt werden. 42 stellt eine beispielhafte Konfiguration eines Systems dar, das Vorrichtungen umfasst, für die die vorliegende Technologie verwendet wird.
In 42 sind mit einem Netzwerk 671 elektronische Einrichtungen 601-1 bis 601-N (wobei N eine ganze Zahl 1 oder größer ist), eine Lernvorrichtung 701, ein ein Lernmodell bereitstellender Server 672, ein eine Tiefenkarte bereitstellender Server 673 und ein Anwendungsserver 674 verbunden und können Daten miteinander austauschen. Das Netzwerk 671 schließt ein Mobiltelefonnetz, das Internet und dergleichen ein. Beispielsweise sind die Lernvorrichtung 701, der ein Lernmodell bereitstellende Server 672, der eine Tiefenkarte bereitstellende Server 673 und der Anwendungsserver 674 jeweils als der in 40 dargestellte Cloud-Server 654 vorgesehen.
Die Lernvorrichtung 701 kann unter Verwendung von Trainingsdaten ein Lernmodell erzeugen und das Lernmodell über das Netzwerk 671 den elektronischen Einrichtungen 601-1 bis 601-N bereitstellen. In jeder elektronischen Einrichtung 601 führt die Verarbeitungseinheit 612 unter Verwendung des von der Lernvorrichtung 701 bereitgestellten Lernmodells den maschinellen Lernprozess durch. Das Lernmodell wird nicht notwendigerweise direkt von der Lernvorrichtung 701 jeder elektronischen Einrichtung 601 bereitgestellt, sondern kann beispielsweise jeder elektronischen Einrichtung 601 über den ein Lernmodell bereitstellenden Server 672 bereitgestellt werden, der verschiedene Arten von Lernmodellen bereitstellen kann. Der ein Lernmodell bereitstellende Server 672 kann einer anderen Vorrichtung als den elektronischen Einrichtungen 601 das Lernmodell bereitstellen.
Die elektronischen Einrichtungen 601-1 bis 601-N können darin verarbeitete Daten wie etwa eine nicht korrigierte Tiefenkarte und eine korrigierte Tiefenkarte über das Netzwerk 671 anderen Vorrichtungen bereitstellen. Eine nicht korrigierte Tiefenkarte sind hier die von der Abstandsmesseinheit 611 ausgegebenen Daten und sind die Daten, die durch die Verarbeitungseinheit 612 noch zu verarbeiten sind. Eine korrigierte Tiefenkarte sind die von der Abstandsmesseinheit 611 ausgegebenen Daten und sind die durch die Verarbeitungseinheit 612 verarbeiteten Daten. Alternativ dazu können die von den elektronischen Einrichtungen 601-1 bis 601-N bereitzustellenden Daten Metadaten oder dergleichen enthalten, die erhalten werden, indem ein Erkennungsprozess oder dergleichen durchgeführt wird.
Beispielsweise können die elektronischen Einrichtungen 601-1 bis 601-N eine nicht korrigierte Tiefenkarte und eine korrigierte Tiefenkarte über das Netzwerk 671 der Lernvorrichtung 701 bereitstellen. Die Lernvorrichtung 701 kann ein Lernmodell unter Verwendung der nicht korrigierten Tiefenkarte und der korrigierten Tiefenkarte erzeugen, die als Trainingsdaten von den jeweiligen elektronischen Einrichtungen 601 gesammelt wurden. Tiefenkarten werden der Lernvorrichtung 701 nicht notwendigerweise direkt von jeder elektronischen Einrichtung 601 bereitgestellt, sondern können beispielsweise der Lernvorrichtung 701 über den eine Tiefenkarte bereitstellenden Server 673 bereitgestellt werden, der verschiedene Arten von Tiefenkarten bereitstellen kann. Der eine Tiefenkarte bereitstellende Server 673 kann einer anderen Vorrichtung als der Lernvorrichtung 701 Tiefenkarten bereitstellen.
Die Lernvorrichtung 701 kann das Lernmodell aktualisieren, indem am schon erzeugten Lernmodell ein Neu- bzw. Umlernprozess durchgeführt wird, bei dem die von den jeweiligen elektronischen Einrichtungen 601 gesammelten Tiefenkarten den Trainingsdaten hinzugefügt werden. Falls der Nutzer einen Korrekturvorgang an der korrigierten Tiefenkarte (wenn der Nutzer beispielsweise korrekte Informationen eingibt) in einer elektronischen Einrichtung 601 durchführt, können ferner Daten (Rückkopplungsdaten) hinsichtlich des Korrekturprozesses im Umlernprozess genutzt werden. Indem man beispielsweise der Lernvorrichtung 701 die Rückkopplungsdaten von der elektronischen Einrichtung 601 übermittelt, kann die Lernvorrichtung 701 den Neu- bzw. Umlernprozess unter Verwendung der Rückkopplungsdaten von der elektronischen Einrichtung 601 durchführen und das Lernmodell aktualisieren. Man beachte, dass eine vom Anwendungsserver 674 bereitgestellte Anwendung genutzt werden kann, wenn der Nutzer eine Korrekturoperation durchführt.
Wenngleich 42 hierin einen beispielhaften Fall darstellt, in dem die Lernvorrichtung 701 der Cloud-Server 654 ist, sind die elektronischen Einrichtungen 601 und die Lernvorrichtung 701 nicht notwendigerweise separate Vorrichtungen und können dieselbe Vorrichtung sein. Falls die elektronischen Einrichtungen 601 und die Lernvorrichtung 701 dieselbe Vorrichtung sind, hat der Controller 603 jeder elektronischen Einrichtung 601 oder die Verarbeitungseinheit 612 des Sensors 602 beispielsweise die Funktionen der Erzeugungseinheit 703 der Lernvorrichtung 701. Falls die elektronischen Einrichtungen 601 und die Lernvorrichtung 701 aus derselben Vorrichtung bestehen, kann ein gemeinsamer Prozessor zum Ausführen der jeweiligen Funktionen enthalten sein oder können separate Prozessoren für die jeweiligen Funktionen enthalten sein.
Der Lernprozess oder der Neu- bzw. Umlernprozess ist der maschinelle Lernprozess, und, wie oben mit Verweis auf 40 beschrieben wurde, kann der Lernprozess oder der Umlernprozess von der elektronischen Einrichtung 601, dem Sensor 602, dem Edge-Server 651 oder dem Cloud-Server 654 durchgeführt werden. Falls der Lernprozess in der elektronischen Einrichtung 601 oder dem Sensor 602 durchgeführt wird, dringen Informationen nicht nach außen und kann somit die Privatsphäre geschützt werden. Falls die elektronische Einrichtung 601 oder Sensor 602 das Lernmodell aktualisiert, indem der Umlernprozess unter Verwendung einer Tiefenkarte oder von Rückkopplungsdaten durchgeführt wird, kann ferner das Lernmodell in der Vorrichtung verbessert werden.
Falls der Umlernprozess durchgeführt wird, kann die elektronische Einrichtung 601 oder der Sensor 602 das aktualisierte Lernmodell zum ein Lernmodell bereitstellenden Server 672 übertragen, so dass das aktualisierte Lernmodell den anderen elektronischen Einrichtungen 601 und den anderen Sensoren 602 bereitgestellt wird. Infolgedessen kann das aktualisierte Lernmodell unter den jeweiligen elektronischen Einrichtungen 601 und den jeweiligen Sensoren 602 gemeinsam genutzt werden. Alternativ dazu kann die elektronische Einrichtung 601 oder der Sensor 602 eine Differenzinformation über das neu gelernte Lernmodell (eine Information über den Unterschied zwischen dem Lernmodell vor der Aktualisierung und dem aktualisierten Lernmodell) als Aktualisierungsinformation zur Lernvorrichtung 701 übertragen und kann die Lernvorrichtung 701 ein verbessertes Lernmodell auf der Basis der aktualisierten Information erzeugen und das verbesserte Lernmodell den anderen elektronischen Einrichtungen 601 oder den anderen Sensoren 602 bereitstellen. Da solch eine Unterschiedsinformation ausgetauscht wird, kann die Privatsphäre geschützt werden und können die Kommunikationskosten gesenkt werden.
Falls der Lernprozess oder der Umlernprozess im Cloud-Server 654 wie etwa der Lernvorrichtung 701 durchgeführt wird, können die Prozesse ungeachtet von Variationen in Spezifikationen und der Leistung der elektronischen Einrichtung 601 und des Servers 602 durchgeführt werden. Beispielsweise kann der Cloud-Server 654 den Lernprozess unter Verwendung von als Trainingsdaten von der elektronischen Einrichtung 601 oder dem eine Tiefenkarte bereitstellenden Sensor 673 bereitgestellten Tiefenkarten durchführen. Wenn die elektronische Einrichtung 601 oder der Sensor 602 beispielsweise eine Tiefenkarte oder Rückkopplungsdaten erfasst, werden darüber hinaus die Daten zum Cloud-Server 654 übertragen, so dass der Cloud-Server 654 den Umlernprozess durchführen kann. Das im Umlernprozess aktualisierte Lernmodell wird den anderen elektronischen Einrichtungen 601 und den anderen Sensoren 602 von dem ein Lernmodell bereitstellenden Server 672 bereitgestellt. Infolgedessen kann das aktualisierte Lernmodell unter den jeweiligen elektronischen Einrichtungen 601 und den jeweiligen Sensoren 602 gemeinsam genutzt werden.
Der Anwendungsserver 674 ist ein Server, der verschiedene Arten von Anwendungen über das Netzwerk 671 bereitstellen kann. Die Anwendungen umfassen beispielsweise eine Anwendung, die eine ein Lernmodell oder eine Tiefenkarte nutzende Funktion bereitstellt. Jede elektronische Einrichtung 601 kann eine ein Lernmodell oder eine Tiefenkarte nutzende Funktion realisieren, indem die über das Netzwerk 671 vom Anwendungsserver 674 heruntergeladene Anwendung ausgeführt wird.
Man beachte, dass jede elektronische Einrichtung 601 ein von der Lernvorrichtung 701 vorher bereitgestelltes Lernmodell in eine Speichereinheit wie etwa einen Halbleiterspeicher speichern kann oder ein Lernmodell von einer externen Vorrichtung wie etwa dem ein Lernmodell bereitstellenden Server 672 über das Netzwerk 671 erfassen kann, wenn der maschinelle Lernprozess wie etwa der Inferenzprozess durchgeführt wird.
Wie oben beschrieben wurde, werden in einem System, das Vorrichtungen umfasst, für die die vorliegende Technologie verwendet wird, Daten wie etwa ein Lernmodell und eine Tiefenkarte unter den jeweiligen Vorrichtungen ausgetauscht und verteilt und können verschiedene Dienste unter Verwendung der Daten bereitgestellt werden. Beispielsweise können elektronische Einrichtungen hergestellt und bereitgestellt werden, in denen ein durch die Lernvorrichtung 701 erzeugtes Lernmodell installiert ist. Auch kann eine vom Sensor 602 erfasste Abstandsmessinformation in das durch die Lernvorrichtung 701 erzeugte Lernmodell eingegeben werden und kann ein Tiefenkarte, in der fehlerhafte Pixel korrigiert worden sind, erzeugt und als deren Ausgabe bereitgestellt werden. Ferner werden das erzeugte Lernmodell, die erzeugte korrigierte Tiefenkarte und dreidimensionale Daten, die auf der Basis der korrigierten Tiefenkarte erzeugt wurden, in ein lesbares Aufzeichnungsmedium gespeichert, so dass ein Speichermedium, das das Lernmodell, die korrigierten Tiefenkarten und die dreidimensionalen Daten speichert, und elektronische Einrichtungen, die jeweils das Speichermedium enthalten, hergestellt und bereitgestellt werden können. Das Speichermedium kann ein nichtflüchtiger Speicher wie etwa eine Magnetplatte, eine optische Platte, eine magneto-optische Platte oder ein Halbleiterspeicher sein oder kann ein flüchtiger Speicher wie etwa ein statischer Direktzugriffsspeicher (SRAM) oder ein dynamischer Direktzugriffsspeicher (DRAM) sein.
<Beispielhafte Anwendung für ein System für endoskopische Chirurgie >
Die Technologie (die vorliegende Technologie) gemäß der vorliegenden Offenbarung (die vorliegende Technologie) kann für verschiedene Produkte verwendet werden. Zum Beispiel kann die Technologie gemäß der vorliegenden Offenbarung für ein System für endoskopische Chirurgie verwendet werden.
43 ist ein Diagramm, das eine beispielhafte Konfiguration eines Systems für endoskopische Chirurgie veranschaulicht, für das die Technologie (die vorliegende Technologie) gemäß der vorliegenden Offenbarung verwendet werden kann.
43 veranschaulicht eine Situation, in der ein Chirurg (ein Mediziner) 11131 gerade einen chirurgischen Eingriff an einem Patienten 11132 auf einem Patientenbett 11133 unter Verwendung eines Systems 11000 für endoskopische Chirurgie durchführt. Wie in der Zeichnung dargestellt ist, umfasst das System 11000 für endoskopische Chirurgie ein Endoskop 11100, andere chirurgische Instrumente 11110 wie etwa ein Pneumoperitoneum-Rohr 11111 und ein Energiebehandlungsinstrument 11112, eine Trägerarmvorrichtung 11120, das das Endoskop 11100 trägt, und einen Rollwagen 11200, auf dem verschiedene Arten von Vorrichtungen für eine endoskopische Chirurgie montiert sind.
Das Endoskop 11100 umfasst einen Linsentubus 11101, der einen Bereich mit einer vorbestimmten Länge vom Kopfende, der in einen Körperhohlraum des Patienten 11132 einzuführen ist, und einen Kamerakopf 11102, der mit dem Basisende des Linsentubus 11101 verbunden ist. In dem in der Zeichnung dargestellten Beispiel ist das Endoskop 11100 als ein sogenanntes hartes bzw. unflexibles Endoskop mit dem harten bzw. unflexiblen Linsentubus 11101 ausgelegt. Das Endoskop 11100 kann jedoch als sogenanntes weiches bzw. flexibles Endoskop ausgelegt sein, das einen flexiblen Linsentubus enthält.
Am Kopfende des Linsentubus 11101 ist eine Öffnung vorgesehen, in die eine Objektlinse eingesetzt ist. Eine Lichtquellenvorrichtung 11203 ist mit dem Endoskop 11100 verbunden, und das von der Lichtquellenvorrichtung 11203 erzeugte Licht zum Kopfende des Linsentubus 11101 durch eine Lichtführung geführt, die sich innerhalb des Linsentubus 11101 erstreckt, und wird in Richtung eines aktuellen Beobachtungsziels im Körperhohlraum des Patienten 11132 über die Objektlinse emittiert. Es ist besonders zu erwähnen, dass das Endoskop 11100 ein Endoskop für Geradeaussicht, ein Endoskop für Schrägsicht oder ein Endoskop für eine Seitensicht sein kann.
Innerhalb des Kamerakopfes 11102 sind ein optisches System und ein Bildgebungselement vorgesehen, und reflektiertes Licht (Beobachtungslicht) vom Beobachtungsziel wird durch das optische System auf dem Bildgebungselement gebündelt. Das Beobachtungslicht wird durch das Bildgebungselement fotoelektrisch umgewandelt, und ein dem Beobachtungslicht entsprechendes elektrisches Signal oder ein dem Beobachtungsbild entsprechendes Bildsignal wird erzeugt. Das Bildsignal wird als ROH-Daten zu einer Kamera-Steuerungseinheit (CCU) 11201 übertragen.
Die CCU 11201 besteht aus einer zentralen Verarbeitungseinheit (CPU), einer Graphikverarbeitungseinheit (GPU) oder dergleichen und steuert kollektiv den Betrieb bzw. Operationen des Endoskops 11100 und der Anzeigevorrichtung 11202. Ferner empfängt die CCU 11201 vom Kamerakopf 11102 ein Bildsignal und unterzieht das Bildsignal verschiedenen Arten einer Bildverarbeitung wie etwa beispielsweise einem Entwicklungsprozess (einem Demosaicing-Prozess), ein Bild basierend auf dem Bildsignal anzuzeigen.
Unter der Steuerung der CCU 11201 zeigt die Anzeigevorrichtung 11202 ein Bild basierend auf dem der Bildverarbeitung durch die CCU 11201 unterzogenen Bildsignal an.
Die Lichtquellenvorrichtung 11203 besteht aus einer Lichtquelle wie etwa beispielsweise einer lichtemittierenden Diode (LED) und versorgt das Endoskop 11100 mit Bestrahlungslicht, um die Operationsstelle abzubilden.
Eine Eingabevorrichtung 11204 ist eine Eingabe-Schnittstelle für das System 11000 für endoskopische Chirurgie. Der Nutzer kann über die Eingabevorrichtung 11204 verschiedene Arten von Informationen und Anweisungen in das System 11000 für endoskopische Chirurgie eingeben. Beispielsweise gibt der Nutzer eine Anweisung oder dergleichen ein, um Abbildungs- bzw. Bildgebungsbedingungen (wie etwa Art des Bestrahlungslichts, die Vergrößerung und Brennweite) für das Endoskops 11100 zu ändern.
Eine Vorrichtung 11205 zur Steuerung eines Behandlungsinstruments steuert eine Ansteuerung des Energiebehandlungsinstruments 11112 für die Gewebe-Kauterisierung, Inzision, das Verschließen eines Blutgefäßes oder dergleichen. Um das Sichtfeld des Endoskops 11100 und den Arbeitsraum für den Chirurgen sicherzustellen, speist eine Pneumoperitoneum-Vorrichtung 11206 über das Pneumoperitoneum-Rohr 11111 Gas in einen Körperhohlraum des Patienten 11132 ein, um den Körperhohlraum auszudehnen. Eine Aufzeichnungsvorrichtung 11207 ist eine Vorrichtung, die verschiedene Arten von Information über den chirurgischen Eingriff aufzeichnen kann. Ein Drucker 11208 ist eine Vorrichtung, die verschiedene Arten von Information in Bezug auf den chirurgischen Eingriff in verschiedenen Formaten wie etwa als Text, Bild, Grafik und dergleichen drucken kann.
Es ist besonders zu erwähnen, dass die Lichtquellenvorrichtung 11203, die dem Endoskop 11100 Bestrahlungslicht bereitstellt, um die Operationsstelle abzubilden, beispielsweise aus einer LED, einer Laserlichtquelle oder einer Weißlichtquelle bestehen kann, die eine Kombination einer LED und einer Laserlichtquelle ist. Falls eine Weißlichtquelle aus einer Kombination von RGB-Laserlichtquellen besteht, können die Ausgabeintensität und der Ausgabezeitpunkt jeder Farbe (jeder Wellenlänge) mit hoher Genauigkeit gesteuert werden. Dementsprechend kann der Weißabgleich eines durch die Lichtquellenvorrichtung 11203 aufgenommenen Bildes eingestellt werden. Alternativ dazu kann in diesem Fall Laserlicht von jeder der RGB-Laserlichtquellen auf das Beobachtungsziel in Zeitmultiplex-Weise emittiert werden und kann eine Ansteuerung des Bildgebungselements des Kamerakopfes 11102 synchron mit dem Zeitpunkt der Bestrahlung gesteuert werden. Somit können Bilder entsprechend jeweiligen RGB-Farben in Zeitmultiplex-Weise aufgenommen werden. Gemäß dem Verfahren kann ein Farbbild erhalten werden, ohne dass irgendein Farbfilter für das Bildgebungselement vorgesehen wird.
Ferner kann die Ansteuerung der Lichtquellenvorrichtung 11203 aus so gesteuert werden, dass die Intensität des abzugebenden Lichts in vorbestimmten Zeitintervallen geändert wird. Die Ansteuerung des Bildgebungselements des Kamerakopfes 11102 wird synchron mit dem Zeitpunkt der Änderung der Intensität des Lichts gesteuert, und Bilder werden in Zeitmultiplex-Weise erfasst und dann kombiniert. Somit kann ein Bild mit einem hohen Dynamikbereich ohne schwarze Bereiche und ohne weiße Flecken erzeugt werden.
Darüber hinaus kann die Lichtquellenvorrichtung 11203 auch so ausgelegt sein, dass sie Licht eines vorbestimmten Wellenlängenbands, das mit einer Beobachtung mit speziellem Licht kompatibel ist, bereitstellen kann. Bei der Beobachtung mit speziellem Licht wird zum Beispiel Licht mit einem schmaleren Band als das Bestrahlungslicht (oder Weißlicht) zur Zeit einer normalen Beobachtung emittiert, wobei die Wellenlängenabhängigkeit einer Lichtabsorption in Körpergewebe ausgenutzt wird. Infolgedessen wird eine sogenannte Beobachtung mit schmalbandigem Licht (Schmalband-Abbildung) durchgeführt, um ein vorbestimmtes Gewebe wie etwa ein Blutgefäß in einer mukosalen Oberflächenschicht Loder dergleichen mit hohem Kontrast abzubilden. Alternativ dazu kann bei der Beobachtung mit speziellem Licht eine Fluoreszenz-Beobachtung durchgeführt werden, um ein Bild mittels einer durch Bestrahlung mit Anregungslicht erzeugten Fluoreszenz zu erhalten. Bei der Fluoreszenz-Beobachtung wird Anregungslicht zu einem Körpergewebe emittiert, so dass die Fluoreszenz vom Körpergewebe beobachtet werden kann (Eigenfluoreszenz-Beobachtung). Alternativ dazu wird beispielsweise ein Reagenzmittel wie etwa Indocyaningrün (ICG) lokal in Körpergewebe injiziert und wird Anregungslicht, das der Fluoreszenz-Wellenlänge des Reagenzmittels entspricht, zum Körpergewebe emittiert, so dass ein Fluoreszenzbild erhalten werden kann. Die Lichtquellenvorrichtung 11203 kann dafür ausgelegt sein, schmalbandiges Licht und/oder Anregungslicht, das mit einer solchen Beobachtung mit speziellem Licht kompatibel ist, bereitstellen.
44 ist ein Blockdiagramm, das Beispiele der funktionalen Konfigurationen des Kamerakopfes 11102 und der CCU 11201 veranschaulicht, die in 43 dargestellt sind.
Der Kamerakopf 11102 enthält eine Linseneinheit 11401, eine Bildgebungseinheit 11402, eine Ansteuerungseinheit 11403, eine Kommunikationseinheit 11404 und eine Kamerakopf-Steuerungseinheit 11405. Die CCU 11201 enthält eine Kommunikationseinheit 11411, eine Bildverarbeitungseinheit 11412 und einen Controller 11413. Der Kamerakopf 11102 und die CCU 11201 sind durch ein Übertragungskabel 11400 kommunikationsfähig miteinander verbunden.
Die Linseneinheit 11401 ist ein optisches System, das bei einem Verbindungsbereich mit dem Linsentubus 11101 vorgesehen ist. Vom Kopfende des Linsentubus 11101 erfasstes Beobachtungslicht wird zum Kamerakopf 11102 geführt und tritt in die Linseneinheit 11401 ein. Die Linseneinheit 11401 besteht aus einer Kombination einer Vielzahl von Linsen, einschließlich einer Zoomlinse und einer Fokuslinse.
Der Bildgebungseinheit 11402 kann aus einem Bildgebungselement (einem sogenannten Einzelplatten-Typ) bestehen oder kann aus einer Vielzahl von Bildgebungselementen (einen sogenannten Mehrplatten-Typ) bestehen. Falls die Bildgebungseinheit 11402 vom beispielsweise Mehrplatten-Typ ist, können den jeweiligen RGB-Farben entsprechende Bildsignale von den jeweiligen Bildgebungselementen erzeugt werden und kombiniert werden, um ein Farbbild zu erhalten. Alternativ dazu kann die Bildgebungseinheit 11402 so ausgelegt sein, dass sie ein Paar Bildgebungselemente enthält, um Bildsignale für das rechte Auge und das linke Auge, die mit einer dreidimensionalen (3D) Anzeige kompatibel sind, zu erfassen. Da eine 3D-Anzeige ausgeführt wird, kann der Chirurg 11131 die Tiefe des Körpergewebes an der Operationsstelle genauer erfassen. Es ist besonders zu erwähnen, dass, falls die Bildgebungseinheit 11402 vom Mehrplatten-Typ ist, eine Vielzahl von Linseneinheiten 11401 für die jeweiligen Bildgebungselemente vorgesehen ist.
Darüber hinaus ist die Bildgebungseinheit 11402 nicht notwendigerweise im Kamerakopf 11102 vorgesehen. Beispielsweise kann die Bildgebungseinheit 11402 unmittelbar hinter der Objektivlinse im Linsentubus 11101 vorgesehen sein.
Die Ansteuerungseinheit 11403 besteht aus einem Aktuator und bewegt unter der Steuerung der Kamerakopf-Steuerungseinheit 11405 die Zoomlinse und die Fokuslinse der Linseneinheit 11401 um einen vorbestimmten Abstand entlang einer optischen Achse. Mit dieser Anordnung können die Vergrößerung und der Brennpunkt des mittels der Bildgebungseinheit 11402 aufgenommenen Bildes geeignet eingestellt werden.
Die Kommunikationseinheit 11404 besteht aus einer Kommunikationsvorrichtung, um verschiedene Arten von Information zur CCU 11201 zu übertragen und von ihr zu empfangen. Die Kommunikationseinheit 11404 überträgt das von der Bildgebungseinheit 11402 als ROH-Daten erhaltene Bildsignal über das Übertragungskabel 11400 zur CCU 11201.
Die Kommunikationseinheit 11404 empfängt von der CCU 11201 auch ein Steuerungssignal zum Steuern einer Ansteuerung des Kamerakopfes 11102 und stellt das Steuerungssignal der Kamerakopf-Steuerungseinheit 11405 bereit. Das Steuerungssignal enthält Informationen über Abbildungs- bzw. Bildgebungsbedingungen wie etwa beispielsweise Informationen, um die Frame-Rate aufgenommener Bilder zu bestimmen, Informationen, um den Belichtungswerts zur Zeit einer Abbildung bzw. Bildgebung zu bestimmen, und/oder Informationen, um die Vergrößerung und den Brennpunkt bzw. Fokus aufgenommener Bilder zu bestimmen.
Es ist besonders zu erwähnen, dass die obigen Bildgebungsbedingungen wie etwa die Frame-Rate, der Belichtungswert, die Vergrößerung und der Fokus vom Nutzer geeignet spezifiziert werden können oder durch den Controller 11413 der CCU 11201 auf der Basis eines erfassten Bildsignals automatisch eingestellt werden können. Im letztgenannten Fall weist das Endoskop 11100 eine sogenannte Funktion einer automatischen Belichtung (AE), eine Funktion eines Autofokus (AF) und eine Funktion eines automatischen Weißabgleichs (AWB) auf.
Die Kamerakopf-Steuerungseinheit 11405 steuert die Ansteuerung des Kamerakopfes 11102 auf der Basis eines Steuerungssignals, das über die Kommunikationsteil 11404 von der CCU 11201 empfangen wird.
Die Kommunikationseinheit 11411 besteht aus einer Kommunikationsvorrichtung, um verschiedene Arten von Information zum Kamerakopf 11102 zu übertragen und von ihm zu empfangen. Die Kommunikationseinheit 11411 empfängt ein über das Übertragungskabel 11400 vom Kamerakopf 11102 übertragenes Bildsignal.
Ferner überträgt die Kommunikationseinheit 11411 auch ein Steuerungssignal zum Steuern der Ansteuerung des Kamerakopfes 11102 zum Kamerakopf 11102. Das Bildsignal und das Steuerungssignal können mittels elektrischer Kommunikation, optischer Kommunikation oder dergleichen übertragen werden.
Die Bildverarbeitungseinheit 11412 führt verschiedene Arten einer Bildverarbeitung an einem Bildsignal durch, das vom Kamerakopf 11102 übertragene ROH-Daten sind.
Der Controller 11413 führt verschiedene Arten einer Steuerung bezüglich einer Anzeige eines mittels des Endoskops 11100 aufgenommenen Bildes des Operationsbereichs oder dergleichen und eines aufgenommenen Bildes durch, das durch Abbilden der Operationsstelle oder dergleichen erhalten wurde. Beispielsweise erzeugt der Controller 11413 ein Steuerungssignal, um eine Ansteuerung des Kamerakopfes 11102 zu steuern.
Ferner veranlasst der Controller 11413 auch die Anzeigevorrichtung 11202, auf der Basis des Bildsignals, das der Bildverarbeitung durch die Bildverarbeitungseinheit 11412 unterzogen wurde, ein aufgenommenes Bild anzuzeigen, das eine Operationsstelle oder dergleichen darstellt. Dabei kann der Controller 11413 unter Verwendung verschiedener Bilderkennungstechniken die jeweiligen, im aufgenommenen Bild dargestellten Objekte erkennen. Da die Abstandsmessvorrichtung 10 oder die elektronische Einrichtung 601 für die Bildgebungseinheit 11402 und die Bildverarbeitungseinheit 11412 verwendet wird, kann beispielsweise kann der Controller 11413 ein chirurgisches Instrument wie etwa eine Pinzette bzw. Zange, eine spezifischen Körperstelle, eine Blutung, Dunst zur Zeit der Nutzung des Energiebehandlungsinstruments 11112 und dergleichen korrekter erkennen, indem die Form und die Farbe des Rands jedes Objekts, das im aufgenommenen Bild enthalten ist, genauer detektiert werden. Wenn veranlasst wird, dass die Anzeigevorrichtung 11202 das aufgenommene Bild anzeigt, kann der Controller 11413 veranlassen, dass die Anzeigevorrichtung 11202 verschiedene Arten von Informationen zur Unterstützung eines chirurgischen Eingriffs auf dem Bild der Operationsstelle unter Verwendung des Erkennungsergebnisses überlagert. Da die Informationen zur Unterstützung eines chirurgischen Eingriffs überlagert und angezeigt und somit dem Chirurgen 11131 präsentiert werden, ermöglicht, die Belastung für den Chirurgen 11131 zu reduzieren und dem Chirurgen 11131 zu ermöglichen, mit dem chirurgischen Eingriff sicher fortzufahren.
Das Übertragungskabel 11400, das den Kamerakopf 11102 und die CCU 11201 verbindet, ist ein elektrisches Signalkabel, das mit einer Kommunikation elektrischer Signale kompatibel ist, eine Lichtleitfaser, die mit einer optischen Kommunikation kompatibel ist, oder ein Verbundkabel davon.
In dem in der Zeichnung dargestellten Beispiel wird hier eine Kommunikation unter Verwendung des Übertragungskabels 11400 drahtgebunden durchgeführt. Jedoch kann die Kommunikation zwischen dem Kamerakopf 11102 und der CCU 11201 drahtlos durchgeführt werden.
<Beispielhafte Anwendungen für bewegliche Strukturen>
Die Technologie (die vorliegende Technologie) gemäß der vorliegenden Offenbarung kann für verschiedene Produkte verwendet werden. Beispielsweise kann die Technologie gemäß der vorliegenden Offenbarung als eine Vorrichtung realisiert werden, die in jeder beliebigen Art von beweglicher Struktur wie etwa einem Automobil, einem Elektrofahrzeug, einem Hybrid-Elektrofahrzeug, einem Motorrad, einem Fahrrad, einer Vorrichtung für persönliche Mobilität, einem Flugzeug, einer Drohne, einem Schiff oder einem Roboter montiert wird.
45 ist ein Blockdiagramm, das eine beispielhafte Konfiguration eines Fahrzeugsteuerungssystems schematisch darstellt, das ein Beispiel eines Systems zur Steuerung einer beweglichen Struktur ist, für das die Technologie gemäß der vorliegenden Offenbarung verwendet werden kann.
Ein Fahrzeugsteuerungssystem 12000 umfasst eine Vielzahl elektronischer Steuerungseinheiten, die über ein Kommunikationsnetzwerk 12001 verbunden sind. In dem in 45 dargestellten Beispiel umfasst das Fahrzeugsteuerungssystem 12000 eine Antriebssystem-Steuerungseinheit 12010, eine Karosseriesystem-Steuerungseinheit 12020, eine Einheit 12030 zur Detektion von externer Information, eine Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren und eine Gesamt-Steuerungseinheit 12050. Ferner sind als die funktionalen Komponenten der Gesamt-Steuerungseinheit 12050 ein Mikrocomputer 12051, eine Ton-/Bild-Ausgabeeinheit 12052 und eine Schnittstelle (I/F) 12053 des Netzwerks im Fahrzeug veranschaulicht.
Die Antriebssystem-Steuerungseinheit 12010 steuert gemäß verschiedenen Programmen den Betrieb bzw. die Operationen von Vorrichtungen in Bezug auf das Antriebssystem eines Fahrzeugs. Beispielsweise dient die Antriebssystem-Steuerungseinheit 12010 als Steuerungsvorrichtungen wie etwa eine Antriebskraft-Erzeugungsvorrichtung, um eine Antriebskraft des Fahrzeugs zu erzeugen, wie etwa ein Verbrennungsmotor oder ein Antriebsmotor, ein Antriebskraft-Übertragungsmechanismus, um eine Antriebskraft auf Räder zu übertragen, ein Lenkmechanismus, um den Lenkwinkel des Fahrzeugs einzustellen, und eine Bremsvorrichtung, um eine Bremskraft des Fahrzeugs zu erzeugen.
Die Karosseriesystem-Steuerungseinheit 12020 steuert den Betrieb bzw. Operationen der verschiedenen Vorrichtungen, die an einer Fahrzeugkarosserie montiert sind, gemäß verschiedenen Programmen. Beispielsweise dient die Karosseriesystem-Steuerungseinheit 12020 als ein schlüsselloses Zugangssystem, ein System für intelligente Schlüssel, eine automatische Fensterhebevorrichtung oder eine Steuerungsvorrichtung für verschiedene Leuchten wie etwa einen Frontscheinwerfer, einen Heckscheinwerfer, eine Bremsleuchte, ein Fahrtrichtungsanzeiger, eine Nebelleuchte oder dergleichen. In diesem Fall kann die Karosseriesystem-Steuerungseinheit 12020 Funkwellen, die von einer tragbaren Vorrichtung, die einen Schlüssel ersetzt, oder Signale von verschiedenen Schaltern empfangen. Die Karosseriesystem-Steuerungseinheit 12020 empfängt Einspeisungen dieser Funkwellen oder Signale und steuert die Türverriegelungsvorrichtung, die automatische Fensterhebevorrichtung, die Leuchten und dergleichen eines Fahrzeugs.
Die Einheit 12030 zur Detektion von externer Information detektiert Informationen über die äußere Umgebung des Fahrzeugs, das mit dem Fahrzeugsteuerungssystem 12000 ausgestattet ist. Beispielsweise ist eine Bildgebungseinheit 12031 mit der Einheit 12030 zur Detektion von externer Information verbunden. Die Einheit 12030 zur Detektion von externer Information veranlasst die Bildgebungseinheit 12031, ein Bild der äußeren Umgebung des Fahrzeugs aufzunehmen, und empfängt das aufgenommene Bild. Die Einheit 12030 zur Detektion von externer Information kann auf der Basis des empfangenen Bildes einen Prozess zur Objektdetektion zum Detektieren einer Person, eines Fahrzeugs, eines Hindernisses, eines Verkehrsschilds, eines Zeichens auf der Straßenoberfläche oder dergleichen durchführen oder einen Prozess zur Abstandsdetektion durchführen.
Die Bildgebungseinheit 12031 ist ein optischer Sensor, der Licht empfängt und ein der Menge an empfangenem Licht entsprechendes elektrisches Signal abgibt. Die Bildgebungseinheit 12031 kann ein elektrisches Signal als Bild abgeben oder das elektrische Signal als Abstandsmessinformation abgeben. Ferner kann das durch die Bildgebungseinheit 12031 zu empfangende Licht sichtbares Licht sein oder kann unsichtbares Licht wie etwa Infrarotstrahlen sein.
Die Abstandsmessvorrichtung 10 oder die elektronische Einrichtung 601 wird für die Bildgebungseinheit 12031 verwendet. Da die Abstandsmessvorrichtung 10 oder die elektronische Einrichtung 601 verwendet wird, ist es möglich, ein Pixel (ein fehlerhaftes Pixel oder ein fliegendes Pixel) zu identifizieren, das zwischen dem Vordergrund und dem Hintergrund zu existieren scheint, und einen Korrekturprozess durchzuführen, indem das Pixel zu einer korrekten Position in dem Vordergrund oder dem Hintergrund korrigiert wird oder das Pixel gelöscht wird. Dementsprechend kann eine Objektdetektion korrekt durchgeführt werden und kann eine falsche Erkennung von Objekten reduziert werden. Infolgedessen ist es beispielsweise möglich, einen Unfall während einer automatischen Fahrt zu verhindern. Ein maschineller Lernprozess kann für die Objektdetektion genutzt werden. Konkret kann bei der Objektdetektion ein Begrenzungsrahmen oder eine Technik Semantische Segmentierung genutzt werden. Falls ein maschinell gelerntes Lernmodell in einem Prozess zum Korrigieren des Korrekturziel-Pixels (eines fehlerhaften Pixels oder eines fliegenden Pixels) verwendet wird, wird der Inferenzprozess unter Verwendung des Lernmodells innerhalb des Sensors durchgeführt, so dass eine genaue Objektdetektion mit einer geringen Verzögerung durchgeführt werden kann. Dies kann außerordentlich dazu beitragen, das Auftreten eines Unfalls zu verhindern.
Die Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren detektiert Informationen über das Innere des Fahrzeugs. Beispielsweise ist ein Detektor 12041 für den Fahrerzustand, der den Zustand des Fahrers detektiert, mit der Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren verbunden. Der Detektor 12041 für den Fahrerzustand umfasst zum Beispiel eine Kamera, die ein Bild des Fahrers aufnimmt, und auf der Basis der durch den Detektor 12041 für den Fahrerzustand eingegebenen detektierten Information kann die Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren den Ermüdungsgrad oder den Konzentrationsgrad des Fahrers berechnen oder bestimmen, ob der Fahrer eindöst.
Auf der Basis der externen/internen Informationen, die durch die Einheit 12030 zur Detektion von externer Information oder die Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren erfasst werden, kann der Mikrocomputer 12051 den Steuerungszielwert der Antriebskraft-Erzeugungsvorrichtung, des Lenkmechanismus oder der Bremsvorrichtung berechnen und einen Steuerungsbefehl an die Antriebssystem-Steuerungseinheit 12010 ausgeben. Beispielsweise kann der Mikrocomputer 12051 eine kooperative Steuerung durchführen, um die Funktionen eines fortgeschrittenen Fahrerassistenzsystems (ADAS) zu realisieren, die eine Vermeidung einer Kollision oder Aufprallabschwächung eines Fahrzeugs, eine Nachfolgefahrt basierend auf einem Abstand zwischen Fahrzeugen, eine Fahrt bei konstanter Fahrzeuggeschwindigkeit, eine Warnung vor einer Kollision des Fahrzeugs, eine Warnung vor einer Spurabweichung des Fahrzeugs oder dergleichen einschließen.
Ferner kann der Mikrocomputer 12051 auch eine kooperative Steuerung durchführen, um ein automatisches Fahren oder dergleichen durchzuführen, um autonom zu fahren, ohne vom Eingriff des Fahrers abhängig zu sein, indem die Antriebskraft-Erzeugungsvorrichtung, der Lenkmechanismus, die Bremsvorrichtung oder dergleichen auf der Basis von Informationen über die Umgebungen des Fahrzeugs gesteuert werden, wobei die Informationen durch die Einheit 12030 zur Detektion von externer Information oder die Einheit 12040 zur Detektion von Information aus dem Fahrzeuginneren erfasst wurden.
Der Mikrocomputer 12051 kann auch einen Steuerungsbefehl an die Karosseriesystem-Steuerungseinheit 12020 auf der Basis der externen Informationen ausgeben, die durch die Einheit 12030 zur Detektion von externer Information erfasst wird. Beispielsweise steuert der Mikrocomputer 12051 den Frontscheinwerfer entsprechend der Position des vorausfahrenden Fahrzeugs oder des entgegenkommenden Fahrzeugs, das durch die Einheit 12030 zur Detektion von externer Information detektiert wird, und führt eine kooperative Steuerung durch, um einen Effekt der Blendfreiheit durch Umschalten von Fernlicht auf Abblendlicht oder dergleichen zu erzielen.
Die Ton-/Bild-Ausgabeeinheit 12052 überträgt ein Ton-Ausgangssignal und/oder ein Bild-Ausgangssignal zu einer Ausgabevorrichtung, die dem (den) Insassen des Fahrzeugs oder der äußeren Umgebung des Fahrzeugs optisch oder akustisch eine Information übermitteln kann. Im in 45 dargestellten Beispiel sind als Ausgabevorrichtungen ein Lautsprecher 12061, eine Anzeigeeinheit 12062 und ein Armaturenbrett 12063 dargestellt. Die Anzeigeeinheit 12062 kann beispielsweise eine bordeigene Anzeige und/oder ein Head-Up-Display umfassen.
46 ist ein Diagramm, das ein Beispiel von Installationspositionen der Bildgebungseinheiten 12031 veranschaulicht.
In 46 Sind Bildgebungseinheiten 12101, 12102, 12103, 12104 und 12105 als die Bildgebungseinheit 12031 enthalten.
Die Bildgebungseinheiten 12101, 12102, 12103, 12104 und 12105 sind beispielsweise an den folgenden Positionen vorgesehen: der Frontpartie eines Fahrzeugs 12100, einem Seitenspiegel, der hinteren Stoßstange, einer Hecktür, einem oberen Bereich einer vorderen Windschutzscheibe im Inneren des Fahrzeugs und dergleichen angeordnet. Die an der Frontpartie vorgesehene Bildgebungseinheit 12101 und die am oberen Bereich der vorderen Windschutzscheibe im Inneren des Fahrzeugs vorgesehene Bildgebungseinheit 12105 nehmen vorwiegend Bilder vor dem Fahrzeug 12100 auf. Die an den Seitenspiegeln vorgesehenen Bildgebungseinheiten 12102 und 12103 nehmen vorwiegend Bilder an den Seiten des Fahrzeugs 12100 auf. Die an der hinteren Stoßstange oder einer Hecktür vorgesehene Bildgebungseinheit 12104 nimmt vorwiegend Bilder hinter dem Fahrzeug 12100 auf. Die am oberen Bereich der vorderen Windschutzscheibe im Inneren des Fahrzeugs vorgesehene Bildgebungseinheit 12105 wird vorwiegend zur Detektion eines vor dem Fahrzeug fahrenden Fahrzeugs, eines Fußgängers, eines Hindernisses, einer Verkehrsampel, eines Verkehrszeichens, einer Fahrspur oder dergleichen genutzt.
Man beachte, dass 46 ein Beispiel der Aufnahme- bzw. Abbildungsbereiche der Bildgebungseinheiten 12101 bis 12104 darstellt. Ein Abbildungsbereich 12111 gibt den Abbildungsbereich der an der Frontpartie vorgesehenen Bildgebungseinheit 12101 an, Abbildungsbereiche 12112 und 12113 geben die Abbildungsbereiche der an den jeweiligen Seitenspiegeln vorgesehenen Bildgebungseinheiten 12102 und 12103 an, und ein Abbildungsbereich 12114 gibt den Abbildungsbereich der an der hinteren Stoßstange oder einer Hecktür vorgesehenen Bildgebungseinheit 12104 an. Beispielsweise werden Bilddaten, die durch die Bildgebungseinheiten 12101 bis 12104 erfasst werden, überlagert, so das ein Bild aus der Vogelperspektive des Fahrzeugs 12100, wie es von oben gesehen wird, erhalten wird.
Zumindest eine der Bildgebungseinheiten 12101 bis 12104 kann eine Funktion zum Erfassen einer Abstandsinformation aufweisen. Beispielsweise kann zumindest eine der Bildgebungseinheiten 12101 bis 12104 eine Stereokamera sein, die eine Vielzahl von Bildgebungselementen enthält, oder kann ein Bildgebungselement sein, das Pixel zur Detektion von Phasendifferenzen enthält.
Beispielsweise berechnet auf der Basis der von den Bildgebungseinheiten 12101 bis 12104 erhaltenen Abstandsinformation der Mikrocomputer 12051 die Abstände zu den jeweiligen dreidimensionalen Objekten innerhalb der Abbildungsbereiche 12111 bis 12114 und zeitliche Änderungen in den Abständen (Relativgeschwindigkeiten in Bezug auf das Fahrzeug 12100). Auf diese Weise kann das dreidimensionale Objekt, das das am nächsten befindliche dreidimensionale Objekt auf dem Fahrweg des Fahrzeugs 12100 ist und mit einer vorbestimmten Geschwindigkeit (zum Beispiel 0 km/h oder höher) in im Wesentlichen der gleichen Richtung wie das Fahrzeug 12100 fährt, als das vor dem Fahrzeug 12100 fahrende Fahrzeug extrahiert werden. Ferner kann der Mikrocomputer 12051 einen einzuhaltenden Abstand zwischen Fahrzeugen vor dem Fahrzeug, das vor dem Fahrzeug 12100 fährt, im Voraus festlegen, kann eine automatische Bremssteuerung (einschließlich einer Folge-Stopp-Steuerung), eine automatische Beschleunigungssteuerung (einschließlich einer Folge-Start-Steuerung) und dergleichen durchführen. Auf diese Weise ist es möglich, eine kooperative Steuerung durchzuführen, um ein automatisches Fahren oder dergleichen durchzuführen, um autonom zu fahren, ohne vom Eingriff des Fahrers abhängig zu sein.
Der Mikrocomputer 12051 kann zum Beispiel gemäß der Abstandsinformationen, die von den Bildgebungseinheiten 12101 bis 12104 erhalten werden, dreidimensionale Objektdaten in Bezug auf dreidimensionale Objekte unter den Kategorien zweirädrige Fahrzeuge, gewöhnliche Fahrzeuge, große Fahrzeuge, Fußgänger, Strommasten, und dergleichen extrahieren und die dreidimensionalen Objektdaten beim automatischen Ausweichen von Hindernissen nutzen. Beispielsweise klassifiziert der Mikrocomputer 12051 die Hindernisse in der Nähe des Fahrzeugs 12100 in Hindernisse, die der Fahrer des Fahrzeugs 12100 sehen kann, und Hindernisse, die schwer visuell zu erkennen sind. Der Mikrocomputer 12051 bestimmt dann Kollisionsrisiken, die die Risiken einer Kollision mit den jeweiligen Hindernissen angeben. Falls ein Kollisionsrisiko gleich einem eingestellten Wert oder höher ist und eine Möglichkeit einer Kollision besteht, kann der Mikrocomputer 12051 über den Lautsprecher 12061 oder die Anzeigeeinheit 12062 eine Warnung an einen Fahrer geben oder kann eine Fahrunterstützung zur Kollisionsvermeidung durchführen, indem eine erzwungene Abbremsung oder Ausweichlenkbewegung über die Antriebssystem-Steuerungseinheit 12010 durchgeführt wird.
Zumindest eine der Bildgebungseinheiten 12101 bis 12104 kann eine Infrarotkamera sein, die Infrarotstrahlung detektiert. Beispielsweise kann der Mikrocomputer 12051 einen Fußgänger erkennen, indem bestimmt wird, ob ein Fußgänger von den Bildgebungseinheiten 12101 bis 12104 aufgenommenen Bildern vorhanden ist oder nicht. Eine solche Erkennung von Fußgängern wird beispielweise über einen Prozess, um aus den von den als Infrarotkameras dienenden Bildgebungseinheiten 12101 bis 12104 aufgenommenen Bildern Merkmalspunkte zu extrahieren, und einen Prozess ausgeführt, um an der Reihe von Merkmalspunkten, die die Konturen von Objekten angeben, einen Musterabgleich durchzuführen und zu bestimmen, ob ein Fußgänger vorhanden ist oder nicht. Falls der Mikrocomputer 12051 bestimmt, dass ein Fußgänger in den von den Bildgebungseinheiten 12101 bis 12104 aufgenommenen Bildern vorhanden ist, und den Fußgänger erkennt, steuert die Ton-/Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062, so dass die Anzeigeeinheit 12062 eine viereckige Konturlinie zur Hervorhebung des erkannten Fußgängers überlagernd anzeigt. Ferner kann die Ton-/Bild-Ausgabeeinheit 12052 auch die Anzeigeeinheit 12062 steuern, um ein Symbol oder dergleichen, das einen Fußgänger angibt, an einer gewünschten Position anzuzeigen.
In dieser Beschreibung meint System eine aus einer Vielzahl von Vorrichtungen bestehende Gesamteinrichtung.
Man beachte, dass die in dieser Beschreibung beschriebenen vorteilhaften Effekte nur Beispiele sind und die vorteilhaften Effekte der vorliegenden Technologie nicht auf sie beschränkt sind oder andere Effekte einschließen können.
Man beachte, dass Ausführungsformen der vorliegenden Technologie nicht auf die oben beschriebenen Ausführungsformen beschränkt sind und verschiedene Modifikationen an ihnen vorgenommen werden können, ohne vom Umfang der vorliegenden Technologie abzuweichen.
Man beachte, dass die vorliegende Technologie auch in den unten beschriebenen Konfigurationen verkörpert sein kann.

(1) Eine Abstandsmessvorrichtung, aufweisend:
- eine erste Bestimmungseinheit, die bestimmt, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und
- eine zweite Bestimmungseinheit, die, wenn die erste Bestimmungseinheit bestimmt, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist, bestimmt, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wobei,
- wenn die zweite Bestimmungseinheit bestimmt, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, bestätigt wird, dass das erste Pixel ein fehlerhaftes Pixel ist.
(2) Die Abstandsmessvorrichtung gemäß (1), worin der zweite Schwellenwert ein fester Wert oder ein variabler Wert ist.
(3) Die Abstandsmessvorrichtung gemäß (1) oder (2), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem ein Durchschnittswert der Konfidenzen einer Vielzahl zweiter Pixel mit einem vorbestimmten Wert multipliziert wird.
(4) Die Abstandsmessvorrichtung gemäß (1) oder (2), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Standardabweichung der Konfidenzen einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
(5) Die Abstandsmessvorrichtung gemäß (1) oder (2), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Differenz zwischen dem größten Wert und dem kleinsten Wert der Konfidenzen einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
(6) Die Abstandsmessvorrichtung gemäß (1) oder (2), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem die Konfidenz des ersten Pixels mit einem vorbestimmten Wert multipliziert wird.
(7) Eine Abstandsmessvorrichtung, aufweisend:
- eine erste Bestimmungseinheit, die bestimmt, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und
- eine zweite Bestimmungseinheit, die, wenn die erste Bestimmungseinheit bestimmt, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist, bestimmt, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht,
- wobei,
- wenn die zweite Bestimmungseinheit bestimmt, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, bestätigt wird, dass das erste Pixel ein fehlerhaftes Pixel ist.
(8) Die Abstandsmessvorrichtung gemäß (7), worin der Reflexionsgrad ein Wert ist, der erhalten wird, indem eine Konfidenz mit dem Quadrat eines Tiefenwerts multipliziert wird.
(9) Die Abstandsmessvorrichtung gemäß (7) oder (8), worin der zweite Schwellenwert ein fester Wert oder ein variabler Wert ist.
(10) Die Abstandsmessvorrichtung gemäß einem von (7) bis (9), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem ein Durchschnittswert der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
(11) Die Abstandsmessvorrichtung gemäß einem von (7) bis (9), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Standardabweichung der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
(12) Die Abstandsmessvorrichtung gemäß einem von (7) bis (9), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Differenz zwischen dem größten Wert und dem kleinsten Wert der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
(13) Die Abstandsmessvorrichtung gemäß einem von (7) bis (9), worin der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem der Reflexionsgrad des ersten Pixels mit einem vorbestimmten Wert multipliziert wird.
(14) Die Abstandsmessvorrichtung gemäß einem von (7) bis (9), worin der zweite Schwellenwert auf eine Summe des Quadrats eines Tiefenwerts des ersten Pixels und des Quadrats eines Tiefenwerts des zweiten Pixels festgelegt wird.
(15) Ein Abstandsmessverfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das Abstandsmessverfahren umfasst:
- ein Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- ein Bestimmen, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
(16) Ein Abstandsmessverfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das Abstandsmessverfahren umfasst:
- ein Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- ein Bestimmen, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
(17) Ein Programm, um zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst:
- Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- Bestimmen, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
(18) Ein Programm, um zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst:
- Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- Bestimmen, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
(19) Eine elektronische Einrichtung, aufweisend eine Verarbeitungseinheit, die einen Prozess unter Verwendung eines maschinell erlernten Lernmodells an zumindest einem Teil einer von einem Sensor erfassten ersten Abstandsmessinformation durchführt und eine zweite Abstandsmessinformation ausgibt, nachdem ein in der ersten Abstandsmessinformation enthaltenes Korrekturziel-Pixel korrigiert ist, wobei der Prozess umfasst:
- einen ersten Prozess, um unter Verwendung der das Korrekturziel-Pixel enthaltenden ersten Abstandsmessinformation als Eingabe das Korrekturziel-Pixel zu korrigieren; und
- einen zweiten Prozess, um die zweite Abstandsmessinformation auszugeben.
(20) Die elektronische Einrichtung gemäß (19), worin der erste Prozess einen ersten Schritt zum Identifizieren des Korrekturziel-Pixels enthält.
(21) Die elektronische Einrichtung gemäß (20), worin der erste Prozess einen zweiten Schritt zum Korrigieren des identifizierten Korrekturziel-Pixels enthält.
(22) Die elektronische Einrichtung gemäß (21), worin ein das Lernmodell nutzender Prozess in dem ersten Schritt oder dem zweiten Schritt durchgeführt wird.
(23) Die elektronische Einrichtung gemäß (21), worin ein das Lernmodell nutzender Prozess in dem ersten Schritt und dem zweiten Schritt durchgeführt wird.
(24) Die elektronische Einrichtung gemäß einem von (20) bis (23), worin die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und der erste Schritt umfasst:
- Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- Bestätigen, dass das erste Pixel das Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
(25) Die elektronische Einrichtung gemäß (19), worin der Prozess ferner einen dritten Prozess einschließt, um dreidimensionale Daten auf der Basis der zweiten Abstandsmessinformation zu erzeugen.
(26) Die elektronische Einrichtung gemäß (25), worin ein das Lernmodell nutzender Prozess im dritten Prozess durchgeführt wird.
(27) Die elektronische Einrichtung gemäß (26), worin die ersten bis die dritten Prozesse in einem durchgängigen maschinellen Lernprozess durchgeführt werden.
(28) Die elektronische Einrichtung gemäß einem von (19) bis (27), worin die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und die zweite Abstandsmessinformation eine korrigierte Tiefenkarte ist.
(29) Die elektronische Einrichtung gemäß einem von (19) bis (28), worin das Korrekturziel-Pixel ein fehlerhaftes Pixel oder fliegendes Pixel ist.
(30) Die elektronische Einrichtung gemäß einem von (19) bis (29), worin das Lernmodell ein neuronales Netzwerk umfasst, das mit einem Datensatz zum Identifizieren des Korrekturziel-Pixels gelernt hat.
(31) Die elektronische Einrichtung gemäß einem von (20) bis (23), worin die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und der erste Schritt die Schritte umfasst:
- Eingeben einer das Korrekturziel-Pixel enthaltenden Tiefenkarte in eine Eingabeschicht eines neuronalen Netzwerks unter Verwendung des neuronalen Netzwerks, das eine normale Tiefenkarte mit einem Autocodierer gelernt hat, und Ausgeben einer Tiefenkarte, in der das Korrekturziel-Pixel korrigiert worden ist, von einer Ausgabeschicht des neuronalen Netzwerks; und
- Identifizieren des Korrekturziel-Pixels auf der Basis der in die Eingabeschicht eingegebenen Tiefenkarte und einer Positionsinformation in der Tiefenkarte, die von der Ausgabeschicht ausgegeben wird.
(32) Die elektronische Einrichtung gemäß (31), worin im ersten Schritt ein Pixel mit einer unterschiedlichen Positionsinformation zwischen der in die Eingabeschicht eingegebenen Tiefenkarte und der von der Ausgabeschicht ausgegebenen Tiefenkarte als das Korrekturziel-Pixel identifiziert wird.
(33) Die elektronische Einrichtung gemäß (28), worin der erste Prozess den Schritt einschließt, eine das Korrekturziel-Pixel enthaltende Tiefenkarte in eine Eingabeschicht eines neuronalen Netzwerks einzugeben und eine Tiefenkarte, in der das Korrekturziel-Pixel korrigiert worden ist, von einer Ausgabeschicht des neuronalen Netzwerks auszugeben, unter Verwendung des neuronalen Netzwerks, das eine normale Tiefenkarte mit einem Autocodierer gelernt hat.
(34) Die elektronische Einrichtung gemäß einem von (19) bis (33), ferner aufweisend den Sensor, worin der Sensor die Verarbeitungseinheit enthält.
(35) Die elektronische Einrichtung gemäß einem von (19) bis (33), worin die elektronische Einrichtung als mobiles Endgerät oder Server ausgebildet ist.
(36) Ein ein Lernmodell erzeugendes Verfahren, aufweisend:
- ein Erfassen von Trainingsdaten, die eine Tiefenkarte enthalten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte ist, wobei eine Position des Korrekturziel-Pixels in der Tiefenkarte identifiziert worden ist; und
- ein Erzeugen eines Lernmodells unter Verwendung der Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene Korrekturziel-Pixel ausgibt.
(37) Das ein Lernmodell erzeugende Verfahren gemäß (36), worin die Positionsinformation eine Information in Bezug auf Koordinaten des Korrekturziel-Pixels oder eine Information in Bezug auf eine Anomaliewahrscheinlichkeit jedes Pixels enthält.
(38) Das ein Lernmodell erzeugende Verfahren gemäß (36) oder (37), worin, wenn das Lernmodell erzeugt wird, die Positionsinformation über das Korrekturziel-Pixel erfasst wird, durch:
- Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und
- Bestätigen, dass das erste Pixel das Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten größer als der zweite Schwellenwert ist.
(39) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer elektronischen Einrichtung einschließt, worin das durch das ein Lernmodell erzeugende Verfahren gemäß einem von (36) bis (38) erzeugte Lernmodell installiert wird.
(40) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer das Lernmodell speichernden elektronischen Einrichtung einschließt, indem das durch das ein Lernmodell erzeugende Verfahren gemäß einem von (36) bis (38) erzeugte Lernmodell in ein lesbares Aufzeichnungsmedium gespeichert wird.
(41) Ein eine Tiefenkarte erzeugendes Verfahren, das die Schritte umfasst: Eingeben einer von einem Sensor erfassten Abstandsmessinformation in das durch das ein Lernmodell erzeugende Verfahren gemäß einem von (36) bis (38) erzeugte Lernmodell; und Erzeugen einer Tiefenkarte als Ausgabe des Lernmodells, wobei ein Korrekturziel-Pixel in der Tiefenkarte korrigiert worden ist.
(42) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer eine korrigierte Tiefenkarte speichernden elektronischen Einrichtung einschließt, indem die korrigierte Tiefenkarte, die durch das eine Tiefenkarte erzeugende Verfahren gemäß (41) erzeugt wurde, in ein lesbares Aufzeichnungsmedium gespeichert wird.
(43) Ein ein Lernmodell erzeugendes Verfahren, aufweisend:
- ein Erfassen von Trainingsdaten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte und eine Positionsinformation über das Korrekturziel-Pixel und eine korrigierte Tiefenkarte oder Positionsinformation über ein korrigiertes Korrekturziel-Pixel enthalten; und
- ein Erzeugen eines Lernmodells mit den Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte und der Positionsinformation über das Korrekturziel-Pixel empfängt und die korrigierte Tiefenkarte oder die Positionsinformation über das korrigierte Korrekturziel-Pixel ausgibt.
(44) Das ein Lernmodell erzeugende Verfahren gemäß (43), worin die Positionsinformation eine Information in Bezug auf Koordinaten des Korrekturziel-Pixels enthält.
(45) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer elektronischen Einrichtung einschließt, worin das durch das ein Lernmodell erzeugende Verfahren gemäß (43) oder (44) erzeugte Lernmodell installiert wird.
(46) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer das Lernmodell speichernden elektronischen Einrichtung einschließt, indem das durch das ein Lernmodell erzeugende Verfahren gemäß (43) oder (44) erzeugte Lernmodell in ein lesbares Aufzeichnungsmedium gespeichert wird.
(47) Ein eine Tiefenkarte erzeugendes Verfahren, das die Schritte einschließt: Eingeben einer von einem Sensor erfassten Abstandsmessinformation in das durch das ein Lernmodell erzeugende Verfahren gemäß (43) bis (44) erzeugte Lernmodell; und Erzeugen einer Tiefenkarte als Ausgabe des Lernmodells, wobei ein Korrekturziel-Pixel in der Tiefenkarte korrigiert worden ist.
(48) Ein Herstellungsverfahren, das den Schritt zum Herstellen einer eine korrigierte Tiefenkarte speichernden elektronischen Einrichtung einschließt, indem die durch das eine Tiefenkarte erzeugende Verfahren gemäß (47) erzeugte korrigierte Tiefenkarte in ein lesbares Aufzeichnungsmedium gespeichert wird.
(49) Ein eine Tiefenkarte erzeugendes Verfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das eine Tiefenkarte erzeugende Verfahren umfasst:
- ein Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht;
- ein Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist;
- ein Bestätigen, dass das erste Pixel ein Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweiten Schwellenwert ist; und
- ein Erzeugen einer Tiefenkarte, worin das bestätigte Korrekturziel-Pixel korrigiert worden ist.

Bezugszeichenliste

10: Abstandsmessvorrichtung
11: Linse
12: lichtempfangende Einheit
13: Signalverarbeitungseinheit
14: lichtemittierende Einheit
15: Lichtemissions-Steuerungseinheit
16: Filtereinheit
31: Fotodiode
41: Pixel-Arrayeinheit
42: vertikale Ansteuerungseinheit
43: Spalten-Verarbeitungseinheit
44: horizontale Ansteuerungseinheit
45: System-Steuerungseinheit
46: Pixel-Ansteuerungsleitung
47: vertikale Signalleitung
48: Signalverarbeitungseinheit
50: Pixel
51: Tap
61: Fotodiode
62: Übertragungstransistor
63: FD-Bereich
64: Rücksetztransistor
65: Verstärkungstransistor
66: Auswahltransistor
101: Vordergrundobjekt
102: Hintergrundobjekt
103, 104, 105: Rand
111, 112: gepunktete Linie
121: Pixel-Gruppe
122: Pixel-Gruppe
123, 124: Pixel
150, 152, 154, 156, 158: Pixel
601: elektronische Einrichtung
602: Sensor
603: Controller
604: Ausgabeeinheit
611: Abstandsmesseinheit
612: Verarbeitungseinheit
621: Lernmodell
701: Lernvorrichtung
703: Erzeugungseinheit
704: Ausgabeeinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2016090268 [0003]

Claims

Abstandsmessvorrichtung, aufweisend: eine erste Bestimmungseinheit, die bestimmt, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und eine zweite Bestimmungseinheit, die, wenn die erste Bestimmungseinheit bestimmt, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist, bestimmt, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wobei, wenn die zweite Bestimmungseinheit bestimmt, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, bestätigt wird, dass das erste Pixel ein fehlerhaftes Pixel ist.
Abstandsmessvorrichtung Anspruch 1, wobei der zweite Schwellenwert ein fester Wert oder ein variabler Wert ist.
Abstandsmessvorrichtung nach Anspruch 1, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem ein Durchschnittswert der Konfidenzen einer Vielzahl zweiter Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 1, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Standardabweichung der Konfidenzen einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 1, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Differenz zwischen einem größten Wert und einem kleinsten Wert der Konfidenzen einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 1, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem die Konfidenz des ersten Pixels mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung, aufweisend: eine erste Bestimmungseinheit, die bestimmt, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; und eine zweite Bestimmungseinheit, die, wenn die erste Bestimmungseinheit bestimmt, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist, bestimmt, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wobei, wenn die zweite Bestimmungseinheit bestimmt, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist, bestätigt wird, dass das erste Pixel ein fehlerhaftes Pixel ist.
Abstandsmessvorrichtung nach Anspruch 7, wobei der Reflexionsgrad ein Wert ist, der erhalten wird, indem eine Konfidenz mit einem Quadrat eines Tiefenwerts multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert ein fester Wert oder ein variabler Wert ist.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem ein Durchschnittswert der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Standardabweichung der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem eine Differenz zwischen einem größten Wert und einem kleinsten Wert der Reflexionsgrade einer Vielzahl der zweiten Pixel mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert bei einem Wert festgelegt wird, der erhalten wird, indem der Reflexionsgrad des ersten Pixels mit einem vorbestimmten Wert multipliziert wird.
Abstandsmessvorrichtung nach Anspruch 7, wobei der zweite Schwellenwert auf eine Summe eines Quadrats eines Tiefenwerts des ersten Pixels und eines Quadrats eines Tiefenwerts des zweiten Pixels festgelegt wird.
Abstandsmessverfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das Abstandsmessverfahren umfasst: ein Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Abstandsmessverfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das Abstandsmessverfahren umfasst: ein Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und ein Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Programm, um zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst: Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob eine Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Konfidenzdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Programm, um zu veranlassen, dass ein Computer einen Prozess durchführt, der die Schritte umfasst: Bestimmen, ob eine Tiefenwertdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob eine Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass eine Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel ein fehlerhaftes Pixel ist, wenn bestimmt wird, dass die Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Elektronische Einrichtung, aufweisend eine Verarbeitungseinheit, die einen Prozess unter Verwendung eines maschinell erlernten Lernmodells an zumindest einem Teil einer von einem Sensor erfassten ersten Abstandsmessinformation durchführt und eine zweite Abstandsmessinformation ausgibt, nachdem ein in der ersten Abstandsmessinformation enthaltenes Korrekturziel-Pixel korrigiert ist, wobei der Prozess umfasst: einen ersten Prozess, um unter Verwendung der das Korrekturziel-Pixel enthaltenden ersten Abstandsmessinformation als Eingabe das Korrekturziel-Pixel zu korrigieren; und einen zweiten Prozess, um die zweite Abstandsmessinformation auszugeben.
Elektronische Einrichtung nach Anspruch 19, wobei der erste Prozess einen ersten Schritt zum Identifizieren des Korrekturziel-Pixels enthält.
Elektronische Einrichtung nach Anspruch 20, wobei der erste Prozess einen zweiten Schritt zum Korrigieren des identifizierten Korrekturziel-Pixels enthält.
Elektronische Einrichtung nach Anspruch 21, wobei ein das Lernmodell nutzender Prozess in dem ersten Schritt oder dem zweiten Schritt durchgeführt wird.
Elektronische Einrichtung nach Anspruch 21, wobei ein das Lernmodell nutzender Prozess in dem ersten Schritt und dem zweiten Schritt durchgeführt wird.
Elektronische Einrichtung nach Anspruch 20, wobei die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und der erste Schritt umfasst: Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel das Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist.
Elektronische Einrichtung nach Anspruch 19, wobei der Prozess ferner einen dritten Prozess einschließt, um dreidimensionale Daten auf Basis der zweiten Abstandsmessinformation zu erzeugen.
Elektronische Einrichtung nach Anspruch 25, wobei ein das Lernmodell nutzender Prozess im dritten Prozess durchgeführt wird.
Elektronische Einrichtung nach Anspruch 26, wobei die ersten bis die dritten Prozesse in einem durchgängigen maschinellen Lernprozess durchgeführt werden.
Elektronische Einrichtung nach Anspruch 19, wobei die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und die zweite Abstandsmessinformation eine korrigierte Tiefenkarte ist.
Elektronische Einrichtung nach Anspruch 19, wobei das Korrekturziel-Pixel ein fehlerhaftes Pixel oder fliegendes Pixel ist.
Elektronische Einrichtung nach Anspruch 19, wobei das Lernmodell ein neuronales Netzwerk umfasst, das mit einem Datensatz zum Identifizieren des Korrekturziel-Pixels gelernt hat.
Elektronische Einrichtung nach Anspruch 20, wobei die erste Abstandsmessinformation eine nicht korrigierte Tiefenkarte ist und der erste Schritt die Schritte umfasst: Eingeben einer das Korrekturziel-Pixel enthaltenden Tiefenkarte in eine Eingabeschicht eines neuronalen Netzwerks unter Verwendung des neuronalen Netzwerks, das eine normale Tiefenkarte mit einem Autocodierer gelernt hat, und Ausgeben einer Tiefenkarte, in der das Korrekturziel-Pixel korrigiert worden ist, von einer Ausgabeschicht des neuronalen Netzwerks; und Identifizieren des Korrekturziel-Pixels auf der Basis der in die Eingabeschicht eingegebenen Tiefenkarte und einer Positionsinformation in der Tiefenkarte, die von der Ausgabeschicht ausgegeben wird.
Elektronische Einrichtung nach Anspruch 31, wobei im ersten Schritt ein Pixel mit einer unterschiedlichen Positionsinformation zwischen der in die Eingabeschicht eingegebenen Tiefenkarte und der von der Ausgabeschicht ausgegebenen Tiefenkarte als das Korrekturziel-Pixel identifiziert wird.
Elektronische Einrichtung nach Anspruch 28, wobei der erste Prozess den Schritt einschließt, eine das Korrekturziel-Pixel enthaltende Tiefenkarte in eine Eingabeschicht eines neuronalen Netzwerks einzugeben und eine Tiefenkarte, in der das Korrekturziel-Pixel korrigiert worden ist, von einer Ausgabeschicht des neuronalen Netzwerks auszugeben, unter Verwendung des neuronalen Netzwerks, das eine normale Tiefenkarte mit einem Autocodierer gelernt hat.
Elektronische Einrichtung nach Anspruch 19, ferner aufweisend den Sensor, worin der Sensor die Verarbeitungseinheit enthält.
Elektronische Einrichtung nach Anspruch 19, wobei die elektronische Einrichtung als mobiles Endgerät oder Server ausgebildet ist.
Lernmodell erzeugendes Verfahren, aufweisend: ein Erfassen von Trainingsdaten, die eine Tiefenkarte enthalten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte ist, wobei eine Position des Korrekturziel-Pixels in der Tiefenkarte identifiziert worden ist; und ein Erzeugen eines Lernmodells unter Verwendung der Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte empfängt und eine Positionsinformation über das in der Tiefenkarte enthaltene Korrekturziel-Pixel ausgibt.
Lernmodell erzeugendes Verfahren nach Anspruch 36, wobei die Positionsinformation eine Information in Bezug auf Koordinaten des Korrekturziel-Pixels oder eine Information in Bezug auf eine Anomaliewahrscheinlichkeit jedes Pixels enthält.
Lernmodell erzeugendes Verfahren nach Anspruch 36, wobei, wenn das Lernmodell erzeugt wird, die Positionsinformation über das Korrekturziel-Pixel erfasst wird, durch: Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; und Bestätigen, dass das erste Pixel das Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten größer als der zweite Schwellenwert ist.
Herstellungsverfahren, aufweisend ein Herstellen einer elektronischen Einrichtung, worin das durch das ein Lernmodell erzeugende Verfahren nach Anspruch 36 erzeugte Lernmodell installiert wird.
Herstellungsverfahren, aufweisend ein Herstellen einer elektronischen Einrichtung, die eine korrigierte Tiefenkarte speichert, indem die korrigierte Tiefenkarte in ein lesbares Aufzeichnungsmedium gespeichert wird, wobei die korrigierte Tiefenkarte durch ein eine Tiefenkarte erzeugendes Verfahren erzeugt worden ist, das die Schritte umfasst: Eingeben einer von einem Sensor erfassten Abstandsmessinformation in das durch das ein Lernmodell erzeugende Verfahren nach Anspruch 36 erzeugte Lernmodell; und Erzeugen einer Tiefenkarte als Ausgabe des Lernmodells, wobei ein fehlerhaftes Pixel in der Tiefenkarte korrigiert worden ist.
Lernmodell erzeugendes Verfahren, aufweisend: ein Erfassen von Trainingsdaten, die eine ein Korrekturziel-Pixel enthaltende Tiefenkarte und eine Positionsinformation über das Korrekturziel-Pixel und eine korrigierte Tiefenkarte oder Positionsinformation über ein korrigiertes Korrekturziel-Pixel enthalten; und ein Erzeugen eines Lernmodells unter Verwendung der Trainingsdaten, wobei das Lernmodell eine Eingabe der das Korrekturziel-Pixel enthaltenden Tiefenkarte und der Positionsinformation über das Korrekturziel-Pixel empfängt und die korrigierte Tiefenkarte oder die Positionsinformation über das korrigierte Korrekturziel-Pixel ausgibt.
Lernmodell erzeugendes Verfahren nach Anspruch 41, wobei die Positionsinformation eine Information in Bezug auf Koordinaten des Korrekturziel-Pixels enthält.
Tiefenkarte erzeugendes Verfahren, das durch eine Abstandsmessvorrichtung realisiert wird, die eine Abstandsmessung durchführt, wobei das eine Tiefenkarte erzeugende Verfahren umfasst: ein Bestimmen, ob eine Abstandsdifferenz zwischen einem ersten Pixel in einer Tiefenkarte und einem dem ersten Pixel benachbarten zweiten Pixel größer als ein erster Schwellenwert ist oder nicht; ein Bestimmen, ob eine Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als ein zweiter Schwellenwert ist oder nicht, wenn bestimmt wird, dass die Abstandsdifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der erste Schwellenwert ist; ein Bestätigen, dass das erste Pixel ein Korrekturziel-Pixel ist, wenn bestimmt wird, dass die Konfidenz- oder Reflexionsgraddifferenz zwischen dem ersten Pixel und dem zweiten Pixel größer als der zweite Schwellenwert ist; und ein Erzeugen einer Tiefenkarte, worin das bestätigte Korrekturziel-Pixel korrigiert worden ist.