DE112020004872T5

DE112020004872T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm

Info

Publication number: DE112020004872T5
Application number: DE112020004872.1T
Authority: DE
Inventors: Takuto MOTOYAMA; Masahiko Toyoshi; Shun Lee; Kohei URUSHIDO
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-10-10
Filing date: 2020-09-28
Publication date: 2022-08-04
Also published as: WO2021070651A1; US20220342427A1; CN114556252A; JPWO2021070651A1

Abstract

Die vorliegende Offenbarung betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, die es ermöglichen, einen Pfad selbst für einen mobilen Körper, der sich mit hoher Geschwindigkeit bewegt, geeignet zu planen. Merkmalspunkte werden unter Verwendung semantischer Segmentation in Korrelation mit einer semantischen Kennzeichnung extrahiert, die ein Objektauthentifizierungsergebnis ist. Merkmalspunkte mit der gleichen semantischen Kennzeichnung werden zum Bilden eines Delaunay-Netzes verbunden, wodurch ein Netz für jedes gleiche Objekt gebildet wird. Dies ermöglicht es, die Position und Entfernung des Objekts dementsprechend zu erkennen und den Pfad zu planen. Die vorliegende Offenbarung ist auf mobile Körper anwendbar.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm und betrifft insbesondere eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, die zum angemessenen Planen einer ein Hindernis vermeidenden Trajektorie in der Lage sind, wenn eine Trajektorie geplant wird, die als ein Bewegungspfad für einen sich bewegenden Körper mit hoher Geschwindigkeit dient.
HINTERGRUND
Ein autonomer sich bewegender Körper plant eine Trajektorie, um umliegende Hindernisse zu vermeiden, wenn eine Trajektorie geplant wird, die als ein Bewegungspfad zu einem Ziel hin dient.
Als ein Verfahren zum Planen einer solchen Trajektorie wird eine Technologie zum Detektieren einer Umgebungssituation, Erzeugen zum Beispiel einer Belegungsgitterkarte, Identifizieren von Positionen von Hindernissen und Planen einer Trajektorie zum Vermeiden von Hindernissen vorgeschlagen (siehe Patentdokument 1).
ZITATLISTE
PATENTDOKUMENT
Patentdokument 1: Japanische Patentanmeldung mit der Veröffentlichungs-Nr. 2005-092820
KURZDARSTELLUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Jedoch wird die Belegungsgitterkarte unter der Voraussetzung einer Konvolution in einer Zeitrichtung erzeugt und daher ist Zeit erforderlich, damit eine Belegungswahrscheinlichkeit konvergiert, bis eine Position eines umliegenden Hindernisses identifiziert wird.
Daher kann ein autonomer sich bewegender Körper mit niedriger Geschwindigkeit eine Trajektorie zum Vermeiden von Hindernissen angemessen planen, aber ein autonomer sich bewegender Körper mit hoher Geschwindigkeit kann eine Trajektorie zum Vermeiden von Hindernissen in manchen Fällen nicht angemessen planen, weil die Belegungswahrscheinlichkeit der Belegungsgitterkarte möglicherweise nicht rechtzeitig konvergiert.
Die vorliegende Offenbarung erfolgte in Anbetracht eines solchen Umstandes und insbesondere ist es ein Ziel davon zu bewirken, dass ein sich bewegender Körper mit hoher Geschwindigkeit eine Trajektorie als ein Bewegungspfad zum Vermeiden von Hindernissen angemessen plant.
LÖSUNG DER PROBLEME
Eine Informationsverarbeitungsvorrichtung und ein Programm gemäß einem Aspekt der vorliegenden Offenbarung sind eine Informationsverarbeitungsvorrichtung und ein Programm, die Folgendes aufweisen: eine Objekterkennungseinheit, die ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkennt; eine Merkmalsextraktionseinheit, die Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert; eine Netzerzeugungseinheit, die ein Netz, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt; und eine Aktionsplanungseinheit, die eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem Netz plant, das durch die Netzerzeugungseinheit erzeugt wird.
Ein Informationsverarbeitungsverfahren gemäß einem Aspekt der vorliegenden Offenbarung ist ein Informationsverarbeitungsverfahren, das die folgenden Schritte aufweist: Erkennen eines Objekts in einem Bild einer Umgebung eines sich bewegenden Körpers; Extrahieren von Merkmalspunkten aus dem Bild in Assoziation mit einem Erkennungsergebnis des Objekts; Erzeugen eines Netzes, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Erkennungsergebnis des Objekts; und Planen einer Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem erzeugten Netz.
Bei einem Aspekt der vorliegenden Offenbarung wird ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkannt, werden Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis extrahiert, werden die Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis verbunden, um ein Netz zu erzeugen, das ein Hindernis repräsentiert, und wird eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem erzeugten Netz geplant.
Figurenliste

1 veranschaulicht einen Trajektorienplan unter Verwendung eines Delaunay-Netzes.
2 veranschaulicht ein Beispiel, bei dem eine Trajektorie in einem Trajektorienplan unter Verwendung eines Delaunay-Netzes nicht angemessen geplant wird.
3 veranschaulicht ein Beispiel, bei dem eine Trajektorie in einem Trajektorienplan unter Verwendung eines Delaunay-Netzes nicht angemessen geplant wird.
4 veranschaulicht ein Beispiel, bei dem eine Trajektorie in einem Trajektorienplan unter Verwendung eines Delaunay-Netzes nicht angemessen geplant wird.
5 veranschaulicht ein Beispiel, bei dem eine Trajektorie in einem Trajektorienplan unter Verwendung eines Delaunay-Netzes nicht angemessen geplant wird.
6 veranschaulicht einen Überblick der vorliegenden Offenbarung.
7 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer ersten Ausführungsform eines sich bewegenden Körpers der vorliegenden Offenbarung veranschaulicht.
8 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Trajektorienplanungseinheit aus 7 veranschaulicht.
9 veranschaulicht eine semantische Segmentation.
10 veranschaulicht eine Umwandlung eines Koordinatensystems eines Tiefenbildes, das durch einen Tiefensensor detektiert wird, in ein Koordinatensystem eines Bildes, das durch eine Kamera erfasst wird.
11 veranschaulicht ein Verfahren zum Extrahieren von Merkmalspunkten.
12 veranschaulicht ein Verfahren zum Erzeugen eines zweidimensionalen Delaunay-Netzes.
13 veranschaulicht ein Verfahren zum Umwandeln eines zweidimensionalen Delaunay-Netzes in ein dreidimensionales Delaunay-Netz.
14 veranschaulicht ein Verfahren zum Auswählen eines Trajektorienkandidaten.
15 veranschaulicht einen Spielraum, der gemäß einer semantischen Kennzeichnung eines Hindernisses eingestellt wird.
16 veranschaulicht ein Verfahren zum Berechnen eines Beurteilungswertes einer Entfernung.
17 ist ein Flussdiagramm, das eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 8 zeigt.
18 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer zweiten Ausführungsform des sich bewegenden Körpers der vorliegenden Offenbarung veranschaulicht.
19 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Trajektorienplanungseinheit aus 18 veranschaulicht.
20 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Tiefenzuverlässigkeitsfilterungseinheit aus 19 veranschaulicht.
21 ist ein Flussdiagramm, das eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 19 zeigt.
22 ist ein Flussdiagramm, das eine Filterungsverarbeitung durch die Tiefenzuverlässigkeitsfilterungseinheit aus 20 zeigt.
23 veranschaulicht einen Überblick einer dritten Ausführungsform, bei der eine Normalenrichtung basierend auf einem polarisierten Bild geschätzt wird, das durch eine Polarisationskamera erfasst wird, und Merkmalspunkte basierend auf der Normalenrichtung extrahiert werden.
24 ist ein Blockdiagramm, das ein Konfigurationsbeispiel der dritten Ausführungsform des sich bewegenden Körpers der vorliegenden Offenbarung veranschaulicht.
25 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Trajektorienplanungseinheit aus 24 veranschaulicht.
26 ist ein Flussdiagramm, das eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 25 zeigt.
27 veranschaulicht ein Konfigurationsbeispiel eines Mehrzweckcomputers.

WEISE ZUM AUSFÜHREN DER ERFINDUNG
Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Offenbarung ausführlich unter Bezugnahme auf die begleitenden Zeichnungen beschrieben. Es wird angemerkt, dass in dieser Beschreibung und den Zeichnungen Komponenten mit im Wesentlichen den gleichen funktionalen Konfigurationen als die gleichen Bezugszeichen repräsentiert werden und eine wiederholte Beschreibung davon weggelassen wird.
Nachfolgend werden Weisen zum Ausführen der vorliegenden Technologie beschrieben. Es wird eine Beschreibung in der folgenden Reihenfolge bereitgestellt.

1. Überblick der vorliegenden Offenbarung
2. Erste Ausführungsform
3. Zweite Ausführungsform
4. Dritte Ausführungsform
5. Beispiel der Ausführung durch Software

«1. Überblick der vorliegenden Offenbarung»
Die vorliegende Offenbarung ermöglicht, dass selbst ein autonomer sich bewegender Körper mit hoher Geschwindigkeit eine Trajektorie als ein Bewegungspfad zum Vermeiden von Hindernissen gemäß einer Umgebungssituation angemessen plant.
Zuerst wird ein Überblick der vorliegenden Offenbarung beschrieben.
Beim Planen einer Trajektorie als ein Bewegungspfad eines sich bewegenden Körpers wird allgemein eine Belegungsgitterkarte erzeugt, dann werden Positionen und Entfernungen umliegender Hindernisse identifiziert und wird eine Trajektorie gemäß den Positionen und Entfernungen der Hindernisse geplant.
Jedoch wird die Belegungsgitterkarte unter der Voraussetzung einer Konvolution in einer Zeitrichtung gebildet und daher ist Zeit zum Bilden der Belegungsgitterkarte erforderlich.
Daher kann ein autonomer sich bewegender Körper mit hoher Geschwindigkeit eine Trajektorie zum Vermeiden von Hindernissen in manchen Fällen nicht angemessen planen, weil die Belegungsgitterkatte nicht rechtzeitig gebildet werden kann.
In Anbetracht davon wird eine Technologie zum Extrahieren, basierend auf einem Bild einer Umgebung, von Merkmalspunkten aus dem Bild, Bilden eines Netzes aus dreieckigen Oberflächen mit den Merkmalspunkten als Eckpunkte, Erkennen von Hindernissen, die durch das gebildete Netz repräsentiert werden, und Planen einer Trajektorie zum Vermeiden der erkannten Hindernisse vorgeschlagen.
Insbesondere wird ein Fall beschrieben, in dem zum Beispiel ein Bild, in dem ein Himmel C1 mit einer Wolke und Hindernisse B1 und B2 erscheinen, erfasst wird, wie in einem Bild P1 aus 1 veranschaulicht (linker Teil aus 1), und ein Tiefenbild (Entfernungsbild) unter einem entsprechenden Sichtwinkel detektiert wird.
Ferner werden Merkmalspunkte aus einem solchen Bild P1 extrahiert, wie durch zum Beispiel kreisförmige Markierungen in einem Bild P2 angegeben.
Zuerst werden die Hindernisse durch ein zweidimensionales Delaunay-Netz repräsentiert, indem dreieckige Oberflächen mit den Merkmalspunkten, die durch die kreisförmigen Markierungen in dem Bild P2 (mittlerer Teil aus 1) angegeben sind, als Eckpunkte gebildet werden.
Dann werden die Hindernisse, die durch das zweidimensionalen Delaunay-Netz repräsentiert werden, basierend auf Tiefeninformationen (Entfernungsinformationen) von Pixel des Tiefenbildes an den Merkmalspunkten dreidimensionalisiert und werden daher durch ein dreidimensionales Delaunay-Netz D1 (rechtes Teil aus 1) repräsentiert und dann wird eine Trajektorie eines sich bewegenden Körpers F, der sich zu einem Ziel T bewegen kann, geplant, um die Hindernisse zu vermeiden.
Wie zum Beispiel in 1 veranschaulicht, wird eine Trajektorie G1 geplant, falls der sich bewegende Körper F versucht, sich autonom zu dem Ziel T zu bewegen, das durch eine X-Markierung angegeben ist, und es kein Hindernis gibt, das durch das dreidimensionale Delaunay-Netz D1 repräsentiert wird. Wenn zum Beispiel die Hindernisse erkannt werden, die durch das dreidimensionale Delaunay-Netz D1 repräsentiert werden, wird dagegen eine Trajektorie G2, die durch eine gepunktete Linie angegeben ist, zum Vermeiden der erkannten Hindernisse anstelle der Trajektorie G1 geplant.
Infolgedessen wird eine Trajektorie einschließlich eines Bewegungspfades zum Vermeiden der Hindernisse als eine Trajektorie für den sich bewegenden Körper geplant, um das Ziel zu erreichen.
Wie oben beschrieben, kann eine Trajektorie zum Vermeiden der Hindernisse geplant werden, indem die Hindernisse mit dem dreidimensionalen Delaunay-Netz D1 nur durch Verwenden der Tiefeninformationen an den Merkmalspunkten in den Informationen des Bildes P1 repräsentiert werden. Dies ermöglicht es, eine Trajektorie bei einer hohen Geschwindigkeit mit einer kleineren Menge an Informationen (mit niedrigerer Latenz) als beim Bilden einer Belegungsgitterkarte zu planen.
Jedoch werden in dem wie oben beschriebenen dreidimensionalen Delaunay-Netz, wie in dem Bild P2 veranschaulicht, und dem dreidimensionalen Delaunay-Netz D1 aus 2 zum Beispiel Oberflächen M1 und M2 in einem Gebiet gebildet, in dem die Hindernisse B1 und B2 nicht ursprünglich vorhanden sind, und dementsprechend werden Informationen so gebildet, als ob ein zu vermeidendes Hindernis vorhanden sei.
Obwohl ein sich bewegender Körper F1 über dem Hindernis B1 passieren kann, wird daher, wie in 3 veranschaulicht, eine Umgehungstrajektorie G11 zum Vermeiden der Oberfläche M1 geplant, weil die Oberfläche M1 als ein Hindernis erkannt wird.
Obwohl ein sich bewegender Körper F2 ursprünglich zwischen den Hindernissen B1 und B2 passieren kann, kann ferner gleichermaßen, wie in 3 veranschaulicht, eine Umgehungstrajektorie G12 zum Vermeiden der Oberfläche M2 zwischen den Hindernissen B1 und B2 geplant werden, weil die Oberfläche M2 als ein Hindernis erkannt wird.
Des Weiteren wird beim Planen einer Trajektorie unter Verwendung eines Delaunay-Netzes die Trajektorie nur basierend auf der Anwesenheit oder Abwesenheit von Hindernissen geplant. Daher werden, wie zum Beispiel in einem linken Teil aus 4 veranschaulicht, eine Trajektorie G21 zum Vermeiden eines Hindernisses, wie etwa eines Baums T, das sich nicht bewegt und kaum beeinträchtigt wird, selbst wenn es zufälligerweise in Kontakt mit dem sich bewegenden Körper kommt, und eine Trajektorie G22 zum Vermeiden eines Hindernisses, wie etwa eines Menschen H, der sich bewegen kann und nicht in Kontakt mit dem sich bewegenden Körper kommen darf, so geplant werden, dass sie die gleiche Entfernung von den Hindernissen aufweisen.
Das heißt, ein sich bewegender Körper 11 ist aufgrund eines Einflusses von Wind, Regen oder dergleichen möglicherweise nicht dazu in der Lage, sich entlang einer angenommenen Trajektorie zu bewegen, und, falls der sich bewegende Körper erheblich von der Trajektorie abweicht, kann der sich bewegende Körper in Kontakt mit den Hindernissen kommen.
Daher kann beim Planen einer Trajektorie, falls zum Beispiel der Baum T oder dergleichen, der selbst dann kaum beeinträchtigt wird, wenn er in Kontakt mit dem sich bewegenden Körper kommt, ein zu vermeidendes Hindernis ist, die Trajektorie an einer Position mit einer relativ kurzen Entfernung von dem Hindernis geplant werden, aber, falls das zu vermeidende Hindernis der Mensch H oder dergleichen ist, der stark beeinträchtigt wird, wenn er in Kontakt mit dem sich bewegenden Körper kommt, ist es wünschenswert, die Trajektorie an einer relativ fernen Position zu planen.
Ferner kann, wie in 5 veranschaulicht, falls ein Strommast Ps erkannt wird und eine Trajektorie G31 zum Vermeiden des Strommastes Ps geplant wird, weil der Strommast als ein Hindernis erkannt wird, der sich bewegende Körper in Kontakt mit elektrischen Leitungen Cb oder dergleichen kommen, die in der Nähe des Strommastes Ps vorhanden sein können und aus einem Bild kaum erkannt werden. Daher ist es wünschenswert, zum Beispiel eine Trajektorie G32 oder dergleichen mit einem größeren Spielraum als ein vorbestimmter Spielraum (an einer Position weiter entfernt als eine vorbestimmte Entfernung) von dem Strommast Ps unter Berücksichtigung eines Bereichs zu planen, in dem das Vorhandensein der elektrischen Leitungen Cb aus dem in dem Bild erkannten Strommast Ps geschätzt wird.
Das heißt, falls eine Trajektorie nur unter Berücksichtigung eines Hindernisses geplant wird, das durch ein dreidimensionales Delaunay-Netz repräsentiert wird, besteht eine Möglichkeit, dass die Trajektorie ohne Berücksichtigung einer Entfernung von dem Hindernis gemäß der Art von Hindernis geplant wird. Daher kann eine angemessene Trajektorie möglicherweise nicht immer geplant werden und infolgedessen kann ein gefährlicher Zustand verursacht werden, wenn sich der sich bewegende Körper bewegt.
In Anbetracht davon führt die vorliegende Offenbarung eine Objekterkennungsverarbeitung an einem erfassten Bild durch, bildet ein zweidimensionales Delaunay-Netz für Merkmalspunkte innerhalb eines Bereichs, in dem die gleiche Art von Objekt vorhanden ist, gemäß einem Erkennungsergebnis, dreidimensionalisiert dann das zweidimensionale Delaunay-Netz durch Verwenden von Tiefeninformationen, um dadurch ein Hindernis zu repräsentieren, und plant eine Trajektorie.
Als ein speziellerer Fall wird ein Fall beschrieben, in dem ein Bild P101 aus 6, in dem ein Himmel C101, Hindernisse B101 und B102 und eine Straßenoberfläche R101 vorhanden sind, erfasst wird und ein Tiefenbild unter dem gleichen Betrachtungswinkel detektiert wird.
In diesem Fall werden Gebiete des Himmels C101, der Hindernisse B101 und B102 und der Straßenoberfläche R101 in dem Bild durch die Objekterkennungsverarbeitung basierend auf dem Bild P101 erkannt.
Ferner werden, wie in einem Bild P102 veranschaulicht, Merkmalspunkte aus dem Bild P101 extrahiert.
Ferner wird, wie in dem Bild P102 veranschaulicht, ein zweidimensionales Delaunay-Netz durch Verbinden von Merkmalspunkten in jedem der Gebiete der Objekte gebildet, die durch die Objekterkennungsverarbeitung erkannt werden, das heißt in jedem der Gebiete der Hindernisse B101 und B102 und der Straßenoberfläche R101.
Zu dieser Zeit werden Merkmalspunkte in der Nähe des Gebiets des Himmels C101 nicht extrahiert, weil der Himmel kein Hindernis sein kann, wodurch verhindert wird, dass ein Delaunay-Netz gebildet wird. Mit andere Worten werden nur Merkmalspunkte, die in der Nähe eines Gebiets vorhanden sind, das ein Hindernis sein kann, für jede Art von Hindernis verbunden, um ein Delaunay-Netz zu bilden.
Dann wird basierend auf dem Tiefenbild ein dreidimensionales Delaunay-Netz D101 für jede Objekt, d. h. für jedes der Hindernisse B101 und B102 und die Straßenoberfläche R101, erzeugt.
Wie oben beschrieben, werden die Merkmalspunkte für jede Art von erkanntem Objekt verbunden, um ein Delaunay-Netz zu bilden, und dann wird das dreidimensionale Delaunay-Netz D101 gebildet. Daher wird kein Netz in einem Raum gebildet, in dem kein Objekt vorhanden ist. Dies ermöglicht es, eine Trajektorie zum Vermeiden von Hindernissen angemessen zu planen.
Zu dieser Zeit ist es möglich, Positionen der Hindernisse durch Verarbeiten nur unter Verwendung von Merkmalspunkten anstelle einer Verarbeitung, die unter der Voraussetzung einer Konvolution in einer Zeitrichtung durchgeführt wird, wie etwa einer Belegungsgitterkarrte, zu erkennen. Dies ermöglicht es, die Positionen der Hindernisse genau zu erkennen und eine Trajektorie zu planen, während eine Verarbeitungslast reduziert wird. Daher kann selbst eine Trajektorie eines sich bewegenden Körpers mit hoher Geschwindigkeit angemessen geplant werden.
Weil die Art von Hindernis erkannt werden kann, ist es ferner möglich, eine Trajektorie unter Berücksichtigung einer Entfernung von dem Hindernis gemäß der Art von Hindernis zu planen. Dies ermöglicht es, eine Trajektorie als einen Bewegungspfad zu planen, während eine Sicherheit basierend auf der Art von Hindernis sichergestellt wird.
«2. Erste Ausführungsform»
<Konfigurationsbeispiel des sich bewegenden Körpers>
Als Nächstes wird ein Konfigurationsbeispiel eines sich bewegenden Körpers, der durch eine Drohne oder dergleichen repräsentiert wird, auf den die Technologie der vorliegenden Offenbarung angewandt wird, unter Bezugnahme auf das Blockdiagramm aus 7 beschrieben.
Es wird angemerkt, dass Beispiele, bei denen der sich bewegende Körper eine Drohne ist, in dieser Beschreibung beschrieben werden, aber der sich bewegende Körper kann ein beliebiges bewegliches Objekt, wie etwa ein Fahrzeug, ein fliegendes Objekt, ein Schiff oder ein Roboter, sein.
Der sich bewegende Körper 11 aus 7 weist eine Steuereinheit 31, eine Kamera 32, einen Tiefensensor 33, eine Speicherungseinheit 34 und eine Antriebseinheit 35 auf.
Die Steuereinheit 31 weist einen Prozessor und einen Speicher auf, liest ein vorbestimmtes Programm oder Daten, das/die in der Speicherungseinheit 34 gespeichert ist/sind, oder dergleichen, führt verschiedene Arten von Verarbeitung aus und steuert die gesamte Operation des sich bewegenden Körpers 11.
Ferner weist die Steuereinheit 31 eine Trajektorienplanungseinheit 51 und eine Operationssteuereinheit 52 auf.
Die Trajektorienplanungseinheit 51 plant einen Bewegungspfad des sich bewegenden Körpers 11 als eine Trajektorie basierend auf einem Bild (RGB-Bild), das durch die Kamera 32 erfasst wird, und einem Tiefenbild (Punktwolke), das durch den Tiefensensor 33 erfasst wird, und gibt die geplante Trajektorie an die Operationssteuereinheit 52 aus. Es wird angemerkt, dass eine ausführliche Konfiguration der Trajektorienplanungseinheit 51 nachfolgend unter Bezugnahme auf 8 ausführlich beschrieben wird.
Die Operationssteuereinheit 52 steuert die Antriebseinheit 35 basierend auf Informationen über die Trajektorie, die als der Bewegungspfad des sich bewegenden Körpers 11 dient und von der Trajektorienplanungseinheit 51 bereitgestellt wird, wodurch sich der sich bewegende Körper 11 entlang der geplanten Trajektorie bewegt.
Die Kamera 32 weist zum Beispiel einen Bildsensor, wie etwa eine CCD (Charge-Coupled-Device - ladungsgekoppelte Vorrichtung) oder einen CMOS (Complementary Metal Oxide Semiconductor - komplementärer Metall-Oxid-Halbeiter), auf, erfasst ein Bild (RGB-Bild) der Umgebung des sich bewegenden Körpers 11 und gibt das erfasste Bild an die Trajektorienplanungseinheit 51 der Steuereinheit 31 aus.
Der Tiefensensor 33 weist zum Beispiel ein LiDAR (Light Detection and Ranging oder Laser Imaging Detection and Ranging) oder eine Stereokamera auf, detektiert ein Tiefenbild (Punktwolke) innerhalb eines Bereichs, der einem Betrachtungswinkel der Kamera 32 entspricht, und gibt das detektierte Tiefenbild an die Trajektorienplanungseinheit 51 der Steuereinheit 31 aus. Es wird angemerkt, dass eine Beschreibung unter der Annahme erfolgt, dass der Tiefensensor 33 bei der ersten Ausführungsform ein LiDAR ist.
Die Speicherungseinheit 34 weist zum Beispiel ein Festplattenlaufwerk (HDD), Festkörperlaufwerk (SSD) oder dergleichen auf und wird durch die Steuereinheit 31 zum Speichern verschiedener Programme und Daten und zum Bereitstellen der Programme und Daten gesteuert.
Die Antriebseinheit 35 weist einen Antriebsmechanismus auf, wie etwa verschiedene Aktoren und Motoren, die für einen Flug des sich bewegenden Körpers 11, wie etwa einer Drohne, erforderlich sind, und wird durch die Operationssteuereinheit 52 gesteuert, um dahingehend zu arbeiten, sich entlang der Trajektorie zu bewegen, die als der geplante Bewegungspfad dient.
Es wird angemerkt, dass, falls der sich bewegende Körper 11 eine Drohne ist, die Antriebseinheit 35 einen Antriebsmechanismus aufweist, der zum Fliegen erforderlich ist, aber im Fall eines Fahrzeugs weist die Antriebseinheit 35 einen Antriebsmechanismus auf, der zum Fahren erforderlich ist, im Fall eines Schiffes weist die Antriebseinheit 35 einen Antriebsmechanismus auf, der zur Schifffahrt erforderlich ist, und im Fall eines Roboters weist die Antriebseinheit 35 einen Antriebsmechanismus auf, der zum Gehen oder Laufen erforderlich ist. Außerdem weist die Antriebseinheit 35 einen Antriebsmechanismus gemäß einer Form des sich bewegenden Körpers 11 auf.
<Konfigurationsbeispiel der Trajektorienplanungseinheit>
Als Nächstes wird ein Konfigurationsbeispiel der Trajektorienplanungseinheit 51 unter Bezugnahme auf ein Blockdiagramm aus 8 beschrieben.
Die Trajektorienplanungseinheit 51 weist eine Bildkorrekturverarbeitungseinheit 71, eine Semantische-Segmentation-Verarbeitungseinheit 72, eine Speicherungseinheit 73, eine Positionskorrekturverarbeitungseinheit 74, eine Speicherungseinheit 75, eine Merkmalspunktextraktionseinheit 76, eine Delaunay-Netz-Erzeugungseinheit 77 und eine Netz-Dreidimensionalisierung-Einheit 78, eine Aktionsplanungseinheit 79 und eine Speicherungseinheit 80 auf.
Die Bildkorrekturverarbeitungseinheit 71 führt eine allgemeine Bildkorrekturverarbeitung, wie etwa Entfernen einer Verzerrung, die durch eine in der Kamera 32 enthaltene Linse verursacht wird, eine Demosaic-Verarbeitung und eine Gammakorrekturverarbeitung, an dem durch die Kamera 32 erfassten Bild durch und gibt das korrigierte Bild an die Semantische-Segmentation-Verarbeitungseinheit 72 und die Merkmalspunktextraktionseinheit 76 aus.
Es wird angemerkt, dass die durch die Bildkorrekturverarbeitungseinheit 71 durchgeführte Verarbeitung wünschenswerterweise die gleiche wie eine Verarbeitung ist, die für ein spezielles Semantische-Segmentation-Lernen in der Semantische-Segmentation-Verarbeitungseinheit 72 verwendet wird, und eine Erkennungsgenauigkeit kann verbessert werden, wenn die durch die Bildkorrekturverarbeitungseinheit 71 durchgeführte Verarbeitung der Verarbeitung ähnlicher ist, die für das Lernen verwendet wird.
Die Semantische-Segmentation-Verarbeitungseinheit 72 klassifiziert Arten von Gegenständen auf einer Pixelbasis durch semantische Segmentation basierend auf dem durch die Kamera 32 erfassten RGB-Bild durch Verwenden von zum Beispiel einem gelernten neuronalen Netz, das durch Lernen im Voraus in der Speicherungseinheit 73 gespeichert wird.
Dann unterteilt die Semantische-Segmentation-Verarbeitungseinheit 72 das Bild in Gebiete der gleichen Art, hängt eine semantische Kennzeichnung, die einem Unterteilungsergebnis entspricht, als ein Verarbeitungsergebnis der semantischen Segmentation an und gibt die semantische Kennzeichnung an die Merkmalspunktextraktionseinheit 76 aus.
Es wird angemerkt, dass bei der semantischen Segmentation zum Beispiel ein Schwarzweißbild anstelle des RGB-Bildes verwendet werden kann. Ferner kann eine Instanz einer Segmentation einer weiteren Unterteilung eines Gebiets der gleichen Art in Gebiete von Objekten durchgeführt werden.
Ferner kann die Speicherungseinheit 73 durch zum Beispiel ein partielles Gebiet der Speicherungseinheit 34 aus 7 gebildet werden oder kann separat gebildet werden.
Die Positionskorrekturverarbeitungseinheit 74 wandelt ein Koordinatensystem des Tiefenbildes (Punktwolke), das von dem Tiefensensor 33 bereitgestellt wird, in ein Koordinatensystem des Bildes um, das durch die Kamera 32 erfasst wird, so dass eine Positionskorrektur basierend auf Kamera/Tiefensensor-Relativpositionskalibrierungsinformationen, die im Voraus in der Speicherungseinheit 75 gespeichert werden, durchgeführt wird, und erzeugt ein Tiefenbild (Punktwolke) mit einem Koordinatensystem, das dem durch die Kamera 32 erfassten Bild entspricht.
Daher wird das Koordinatensystem jedes Pixels des durch den Tiefensensor 33 detektierten Tiefenbildes (Punktwolke) in das Koordinatensystem des durch die Kamera 32 erfassten Bildes umgewandelt, und ein Tiefenbild (Punktwolke), auf das Entfernungsinformationen überlagert sind, wird an einer Position erzeugt, die einem Pixel des durch die Kamera 32 erfassten RGB-Bildes entspricht, und wird dann an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 ausgegeben.
Ferner kann die Speicherungseinheit 75 durch zum Beispiel ein partielles Gebiet der Speicherungseinheit 34 aus 7 gebildet werden oder kann separat gebildet werden.
Die Merkmalspunktextraktionseinheit 76 extrahiert Merkmalspunkte, die als Eckpunkte von Dreiecken dienen, die ein zweidimensionales Delaunay-Netz bilden, basierend auf dem RGB-Bild, das von der Bildkorrekturverarbeitungseinheit 71 bereitgestellt wird, dem Verarbeitungsergebnis der semantischen Segmentation, das von der Semantische-Segmentation-Verarbeitungseinheit 72 bereitgestellt wird, und dem Tiefenbild (Punktwolke), das auf das RGB-Bild überlagert wird, und gibt die extrahierten Merkmalspunkte an die Delaunay-Netz-Erzeugungseinheit 77 aus.
Zu dieser Zeit hängt die Merkmalspunktextraktionseinheit 76 eine entsprechende semantische Kennzeichnung an jeden Merkmalspunkt an.
Hier können die hier verwendeten Merkmalspunkte zum Beispiel Pixelpositionen mit Tiefeninformationen in dem Tiefenbild sein, die in das Koordinatensystem der Kamera 32 umgewandelt werden.
Das heißt, hier ist der Tiefensensor 33 das LiDAR, und eine Dichte von Pixeln mit Tiefeninformationen, die durch das LiDAR detektiert werden, ist geringer als eine Dichte von Pixeln in dem durch die Kamera 32 erfassten Bild, und daher können die Pixelpositionen so, wie sie sind, als die Merkmalspunkte verwendet werden.
Es wird angemerkt, dass nachfolgend eine Beschreibung unter der Annahme erfolgt, dass die Merkmalspunktextraktionseinheit 76 Informationen bezüglich Pixelpositionen mit Tiefeninformationen in einem Tiefenbild als Merkmalspunkte extrahiert. Jedoch können Merkmalspunkte in anderen Zuständen extrahiert werden.
Die Delaunay-Netz-Erzeugungseinheit 77 bildet dreieckige Oberflächen mit den Merkmalspunkten als Eckpunkten basierend auf den Merkmalspunkten, die von der Merkmalspunktextraktionseinheit 76 bereitgestellt werden, erzeugt ein zweidimensionales Delaunay-Netz in dem Bild und gibt das zweidimensionale Delaunay-Netz an die Netz-Dreidimensionalisierung-Einheit 78 aus.
Zu Dieser Zeit bildet die Delaunay-Netz-Erzeugungseinheit 77 dreieckige Oberflächen mit Merkmalspunkten, denen die gleiche semantische Kennzeichnung angehängt ist, als Eckpunkte, um ein zweidimensionales Delaunay-Netz zu erzeugen.
Die Netz-Dreidimensionalisierung-Einheit 78 dreidimensionalisiert das zweidimensionale Delaunay-Netz basierend auf dem zweidimensionalen Delaunay-Netz, das von der Delaunay-Netz-Erzeugungseinheit 77 bereitgestellt wird, und dem Tiefenbild (Punktwolke), das von der Positionskorrekturverarbeitungseinheit 74 bereitgestellt wird, erzeugt ein dreidimensionales Delaunay-Netz und gibt das dreidimensionale Delaunay-Netz an die Aktionsplanungseinheit 79 aus.
Zu dieser Zeit dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das zweidimensionale Delaunay-Netz, in dem die dreieckigen Oberflächen mit den Merkmalspunkten, denen die gleiche semantische Kennzeichnung angehängt ist, als die Eckpunkte verbunden sind, basierend auf den Tiefeninformationen (Entfernungsinformationen) des entsprechenden Tiefenbildes (Punktwolke) und gibt ein dreidimensionales Delaunay-Netz an die Aktionsplanungseinheit 79 aus. Es wird angemerkt, dass, falls eine Länge einer Seite des Dreiecks in einer dreidimensionalen Entfernung extrem lang ist, ein Dreieck mit der extrem langen Seite zu dieser Zeit von dem Netz entfernt werden kann.
Die Aktionsplanungseinheit 79 plant eine Trajektorie als einen Bewegungspfad des sich bewegenden Körpers 11 basierend auf dem dreidimensionalen Delaunay-Netz, das von der Netz-Dreidimensionalisierung-Einheit 78 bereitgestellt wird, und gibt die geplante Trajektorie an die Operationssteuereinheit 52 aus.
Zu dieser Zeit stellt die Aktionsplanungseinheit 79 eine Entfernung von dem Hindernis durch Verwenden eines Gewichtungskoeffizienten für eine Entfernung jeder semantischen Kennzeichnung, die in der Speicherungseinheit 80 gespeichert ist, ein und plant die Trajektorie als der Bewegungspfad des sich bewegenden Körpers 11.
Ferner kann die Speicherungseinheit 80 durch zum Beispiel ein partielles Gebiet der Speicherungseinheit 34 aus 7 gebildet werden oder kann separat gebildet werden.
<Semantische Segmentation>
Als Nächstes wird die semantische Segmentation durch die Semantische-Segmentation-Verarbeitungseinheit 72 unter Bezugnahme auf 9 beschrieben.
Zum Beispiel erfasst die Kamera 32, wie in einem linken Teil aus 9 veranschaulicht, ein Bild P171, das durch ein RGB-Bild gebildet wird, unter einem Winkel Z171 mit einer Komposition, bei der eine Straßenoberfläche 111 in einem Raum zwischen einer linken und rechten stationären Struktur 112-1 und 112-2 vorhanden ist, eine Person 114 auf der Straßenoberfläche 111 vorhanden ist und ein Himmel 113 hinter der Person zu sehen ist.
Die Semantische-Segmentation-Verarbeitungseinheit 72 liest und verwendet ein neuronales Netz, das im Voraus durch Maschinenlernen, wie etwa tiefes Lernen, gelernt und in der Speicherungseinheit 73 gespeichert wurde, klassifiziert die Arten von Gegenständen in dem Bild P171 auf einer Pixelbasis basierend auf dem Bild P171, das durch das RGB-Bild gebildet wird, wie in einem oberen rechten Teil aus 9 veranschaulicht, und kennzeichnet die Arten als semantische Kennzeichnungen.
Im Fall des Bildes P171, das durch das RGB Bild gebildet wird, das in dem oberen rechten Teil aus 9 veranschaulicht ist, werden zum Beispiel die Arten von Objekten durch die semantische Segmentation klassifiziert und werden semantische Kennzeichnungen basierend auf einem Klassifizierungsergebnis gekennzeichnet, wie in einem Kennzeichnungsbild P181 in einem unteren rechten Teil aus 9 veranschaulicht ist.
Das heißt, in dem Kennzeichnungsbild P181 sind Pixel, die zu einem Gebiet Z111 in einem unteren Teil des Bildes gehören, als die Straßenoberfläche 111 klassifiziert, sind Pixel, die zu Gebieten Z112-1 und Z112-2 gehören, als die linke und rechte stationäre Struktur 112-1 bzw. 112-2 klassifiziert, sind Pixel, die zu einem Gebiet Z113 gehören, als der Himmel 113 auf der hinteren Seite klassifiziert, und sind Pixel, die zu einem Gebiet Z114 gehören, als die Person 114 klassifiziert.
Zusätzlich zu dem Beispiel aus 9 identifiziert die Semantische-Segmentation-Verarbeitungseinheit 72 basierend auf einem RGB-Bild und einem Entfernungsbild zum Beispiel Straßenoberflächen, stationäre Strukturen (Wand, Leitplanke, Baum, Strommast und dergleichen), Fahrzeuge (Automobil, Lastkraftwagen, Bus und dergleichen), zweirädrige Fahrzeuge (Motorrad und Fahrrad), Menschen, horizontale Schranken (Kreuzungsschranken, ETC-Schranken und Parkschranken) und den Himmel in dem RGB-Bild auf einer Pixelbasis und kennzeichnet die obigen Objekte.
Es wird angemerkt, dass die semantische Segmentation Gegenstände durch Maschinenlernen klassifizieren kann, indem nur ein RGB-Bild, nur ein Tiefenbild oder eine Kombination aus beidem werden wird, und sie kann daher durch beliebige davon erzielt werden.
<Überlagerung eines Tiefenbildes, das als Messergebnis durch den Tiefensensor dient, auf einem Bild, das durch die Kamera erfasst wird>
Als Nächstes wird eine Verarbeitung, bei der die Positionskorrekturverarbeitungseinheit 74 jedes Pixel eines Tiefenbildes (Punktwolke) mit Informationen bezüglich eines Satzes von Punkten in einem dreidimensionalen Raum, die durch den Tiefensensor 33 einschließlich eines Lidar, einer Stereokamera oder dergleichen gemessen werden, auf einem Pixel eines Koordinatensystems eines durch die Kamera 32 erfassten Bildes überlagert und ein Tiefenbild erzeugt, unter Bezugnahme auf 10 beschrieben.
Es wird angemerkt, dass hier eine Beschreibung unter der Annahme erfolgt, dass der Tiefensensor 33 das LiDAR ist, aber eine ähnliche Beschreibung erfolgt unter der Annahme, dass der Tiefensensor 33 eine Stereokamera oder dergleichen ist.
Zum Beispiel wird ein Entfernungsbild (Tiefenbild) durch Überlagern eines Entfernungsbestimmungsergebnisses in jeder Lichtprojektionsrichtung L_p des LiDAR 33 auf einem Bild P151 der Kamera 32 veranschaulicht, was in einem oberen rechten Teil aus 10 veranschaulicht ist.
Informationen bezüglich einer relativen Position zwischen dem LiDAR 33 und der Kamera 32 und einem Bildzentrum und einer Brennweite der Kamera 302 werden in der Speicherungseinheit 75 im Voraus als die Kamera/Tiefensensor-Relativpositionskalibrierungsinformationen (vorläufige Informationen) durch eine vorläufige Kalibrierung gespeichert. Daher verwendet die Positionskorrekturverarbeitungseinheit 74 die Kamera/Tiefensensor-Relativpositionskalibrierungsinformationen, die in der Speicherungseinheit 75 gespeichert sind, um ein Tiefenbild durch die folgende Berechnung zu erzeugen.
Zuerst integriert die Positionskorrekturverarbeitungseinheit 74 ein Koordinatensystem des Tiefensensors 33 einschließlich des LiDAR in ein Koordinatensystem der Kamera 32.
Das heißt, dass, wie in einem oberen rechten Teil aus 10 veranschaulicht, eine relative Positionsbeziehung zwischen Koordinaten X_LiDAR (= transponierte Matrix von [x_l, y_l, z_l]), die als das Koordinatensystem des Tiefensensors 33 einschließlich des LiDAR dienen, und Koordinaten X_Kam (= transponierte Matrix von [x_k, y_k, z_k]) des Koordinatensystems der Kamera 302 auf einer Bilderfassungsoberfläche D durch eine Kalibrierung als die vorläufigen Informationen bekannt ist und aus zum Beispiel dem folgenden Ausdruck (1) erhalten wird.
$X_{Kam} = {RX}_{LiDAR} + T$
Hier bezeichnet R eine Rotationsmatrix, die eine Rotation zwischen dem Tiefensensor 33 einschließlich des LiDAR und der Kamera 32 angibt, welche im Voraus durch eine Kalibrierung bekannt ist, und bezeichnet T einen Translationsvektor, der auch im Voraus durch eine Kalibrierung bekannt ist.
Durch Berechnen des obigen Ausdrucks (1) werden Koordinaten eines Punktes X, der das Entfernungsbestimmungsergebnis ist, das als die Informationen bezüglich des Koordinatensystems des Tiefensensors 33 einschließlich des LiDAR gemessen wird, in ein Koordinatensystem der Kamera umgewandelt.
Als Nächstes assoziiert die Positionskorrekturverarbeitungseinheit 74 das Entfernungsbestimmungsergebnis durch das LiDAR 33 mit dem Koordinatensystem der Kamera 32 auf der Bilderfassungsoberfläche.
Das heißt, wenn die Koordinaten X_Kam (= [x_k, y_k, z_k]-Transposition) eines Hindernisses, das durch den Tiefensensor 33 einschließlich des LiDAR detektiert wird, erhalten werden, wie in einem unteren rechten Teil aus 10 veranschaulicht, können x_i-Koordinaten des Hindernisses auf der Bilderfassungsoberfläche D in einer Bildebene basierend auf einem Bildzentrum P_k der Bilderfassungsoberfläche D aus dem folgenden Ausdruck (2) erhalten werden.
$x_{i} = f \times x_{k} / z_{k}$
Hier bezeichnet f die Brennweite der Kamera 32.
Ferner können gleichermaßen y_i-Koordinaten aus dem folgenden Ausdruck (3) erhalten werden.
$y_{i} = f \times y_{k} / z_{k}$
Infolgedessen kann eine Position des Hindernisses auf der Bilderfassungsoberfläche D identifiziert werden.
Das heißt, die Koordinaten X_LiDAR (= [x_l, y_l, z_l]) eines dreidimensionalen Punktes, der durch den Tiefensensor 33 einschließlich des LiDAR detektiert wird, werden in die Koordinaten X_Kam (= [x_k, y_k, z_k]) eines dreidimensionalen Punktes in dem Koordinatensystem der Kamera 32 basierend auf der Lichtprojektionsrichtung umgewandelt. Ferner werden Koordinaten (x_i, y_i) auf einer Bilderfassungsoberfläche, die auf der Bilderfassungsoberfläche D zentriert ist, die den Koordinaten X_Kam (= [x_k, y_k, z_k]) des dreidimensionalen Punktes in dem Koordinatensystem der Kamera 32 entspricht, aus den Ausdrücken (2) und (3) basierend auf der Brennweite f der Kamera 32 berechnet.
Durch diese Verarbeitung erzeugt die Positionskorrekturverarbeitungseinheit 74 ein Entfernungsbild P152, wie in einem unteren linken Teil aus 10 veranschaulicht.
Das Entfernungsbild P152 weist die gleiche Pixelanordnung wie das Bild der Kamera 32 auf. Aufgrund der Umwandlung der Koordinatensysteme, die oben beschrieben ist, werden, falls sich unter sämtlichen Pixeln (x_i, y_i) Pixel in der Lichtprojektionsrichtung des LiDAR 33 befinden und ein Entfernungsbestimmungsergebnis aufweisen, Entfernungsdaten (z_k in dem unteren rechten Teil aus 10) in Assoziation mit jedem Pixel gespeichert, wohingegen, falls sich keine Pixel in der Lichtprojektionsrichtung befinden oder kein Entfernungsbestimmungsergebnis aufweisen, zum Beispiel 0 als die Entfernungsdaten gespeichert wird.
<Extraktion von Merkmalspunkten>
Als Nächstes wird ein Verfahren zum Extrahieren von Merkmalspunkten in der Merkmalspunktextraktionseinheit 76 unter Bezugnahme auf 11 beschrieben.
Zum Beispiel wird ein Bild P201, in dem die Hindernisse B101 und B102 auf der Straßenoberfläche R101 vorhanden sind und sich der Himmel C101 oberhalb der Hindernisse befindet, wie in einem linken Teil aus 11 veranschaulicht, beschrieben.
Das Entfernungsbestimmungsergebnis in jeder Lichtprojektionsrichtung L_p durch das LiDAR 33 in 10 wird auf jeder Position überlagert, die durch eine kreisförmige Markierung in dem Bild P201 angegeben ist.
Wie in einem oberen rechten Teil aus 11 veranschaulicht, kennzeichnet die Merkmalspunktextraktionseinheit 76 zum Beispiel unter semantischen Kennzeichnungen der kreisförmigen Markierungen, die jeweils das Entfernungsbestimmungsergebnis in jeder Lichtprojektionsrichtung L_p durch das LiDAR 33 aufweisen, Punkte mit kreisförmigen Markierungen außer jene des Himmels C101, die kein Hindernis sein können, mit semantischen Kennzeichnungen und extrahiert die Punkte als Merkmalspunkte.
Weil nur die Merkmalspunkte, die mit der semantischen Kennzeichnung gekennzeichnet sind, die ein Hindernis sein kann, wenn sich der bewegende Körper 11 bewegt, extrahiert werden, wie oben beschrieben, ist es möglich, ein Delaunay-Netz in einem Gebiet zu bilden, in dem ein Objekt vorhanden ist, das basierend auf den extrahierten Merkmalspunkten als ein Hindernis zu erkennen ist. Dies ermöglicht es, eine Trajektorie zum Vermeiden des Hindernisses zu planen.
Ferner ist es nur erforderlich, Merkmalspunkte zu extrahieren, so dass ein Delaunay-Netz in einem Gebiet gebildet werden kann, in dem ein Objekt vorhanden ist, das basierend auf den extrahierten Merkmalspunkten als ein Hindernis zu erkennen ist, und daher können Merkmalspunkte extrahiert werden, die an einer Grenze des Gebiets vorhanden sind, in dem das Objekt vorhanden ist, das ein Hindernis sein kann.
Das heißt, dass, wie in einem unteren rechten Teil aus 11 veranschaulicht, die Merkmalspunktextraktionseinheit 76 unter den kreisförmigen Markierungen in dem linken Teil aus 11 kreisförmige Markierungen, die an jeder der folgenden Grenzen vorhanden sind, als Merkmalspunkte extrahieren kann: Grenzen zwischen der Straßenoberfläche R101, dem Himmel C101 und dem Hindernis B101; Grenzen zwischen der Straßenoberfläche R101, dem Himmel C101 und dem Hindernis B102; und eine Grenze zwischen der Straßenoberfläche R101 und dem Himmel C101.
Insbesondere kann die Merkmalspunktextraktionseinheit 76 Merkmalspunkte extrahieren, wenn wenigstens eine der folgenden Bedingungen erfüllt ist: eine Bedingung, bei der, wie durch ein Gebiet SL um Merkmalspunkte herum angegeben, das durch eine gepunktete Linie angegeben ist, bezüglich jeder kreisförmigen Markierung (L_p) kreisförmige Markierungen, die in einer horizontalen Richtung und vertikalen Richtung angrenzen, die durch Pfeile angegeben sind, unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der ein Unterschied der Tiefeninformationen (Entfernungsinformationen) basierend auf dem Tiefenbild größer als ein vorbestimmter Wert ist; und eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist.
Dies ermöglicht es, die extrahierten Merkmalspunkte spärlicher zu machen. Daher ist es möglich, eine Position des Hindernisses angemessen zu identifizieren, während die Verarbeitungslast weiter reduziert wird.
<Erzeugung eines Delaunay-Netzes>
Als Nächstes wird die Erzeugung eines zweidimensionalen Delaunay-Netzes durch die Delaunay-Netz-Erzeugungseinheit 77 unter Bezugnahme auf 12 beschrieben.
Die Delaunay-Netz-Erzeugungseinheit 77 verbindet die Merkmalspunkte, die von der Merkmalspunktextraktionseinheit 76 bereitgestellt werden, für jede angehängte semantische Kennzeichnung, um ein zweidimensionales Delaunay-Netz mit dreieckigen Oberflächen zu erzeugen.
Das heißt, dass zum Beispiel ein Fall beschrieben wird, bei dem, wie in einem Bild P231 aus 12 veranschaulicht, Merkmalspunkte, die mit einer semantischen Kennzeichnung des Hindernisses B101 gekennzeichnet sind, das durch schwarze kreisförmige Markierungen angegeben ist, Merkmalspunkte, die mit einer semantischen Markierung des Hindernisses B102 gekennzeichnet sind, das durch weiße kreisförmige Markierungen angegeben ist, und Merkmalspunkte, die mit einer semantischen Markierung der Straßenoberfläche R101 gekennzeichnet sind, die durch weiße quadratische Markierungen angegeben ist, jeweils als die Merkmalspunkte extrahiert werden.
In einem solchen Fall, wie in einem Bild P232 aus 12 veranschaulicht, verbindet die Delaunay-Netz-Erzeugungseinheit 77 die Merkmalspunkte, die mit der semantischen Kennzeichnung des Hindernisses B101 gekennzeichnet sind, das durch die schwarzen kreisförmigen Markierungen angegeben ist, um ein zweidimensionales Delaunay-Netz MB101 zu erzeugen.
Ferner verbindet die Delaunay-Netz-Erzeugungseinheit 77 die Merkmalspunkte, die mit der semantischen Kennzeichnung des Hindernisses B102 gekennzeichnet sind, das durch die weißen kreisförmigen Markierungen angegeben ist, um ein zweidimensionales Delaunay-Netz MB102 zu erzeugen.
Ferner verbindet die Delaunay-Netz-Erzeugungseinheit 77 die Merkmalspunkte, die mit der semantischen Kennzeichnung der Straßenoberfläche R101 gekennzeichnet sind, um ein zweidimensionales Delaunay-Netz MR101 zu erzeugen.
Das heißt, im Fall des Bildes P231 verbindet die Delaunay-Netz-Erzeugungseinheit 77 die Merkmalspunkte für jede gleiche semantische Kennzeichnung, wie in dem Bild P232 veranschaulicht, um ein zweidimensionales Delaunay-Netz zu erzeugen, in dem das Delaunay-Netz MB101 des Hindernisses B101, das Delaunay-Netz MB102 des Hindernisses B102 und das Delaunay-Netz MR101 der Straßenoberfläche R101 kombiniert werden.
<Dreidimensionalisierung des Delaunay-Netzes>
Als Nächstes wird eine Verarbeitung, bei der die Netz-Dreidimensionalisierung-Einheit 78 ein zweidimensionales Delaunay-Netz dreidimensionalisiert, unter Bezugnahme auf 13 beschrieben.
Basierend auf den Tiefeninformationen in dem Tiefenbild (Punktwolke) dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das zweidimensionale Delaunay-Netz, das von der Delaunay-Netz-Erzeugungseinheit 77 bereitgestellt wird, und erzeugt ein dreidimensionales Delaunay-Netz.
Zum Beispiel wird ein Fall des Bereitstellens des zweidimensionalen Delaunay-Netzes beschrieben, in dem das Delaunay-Netz MB101 des Hindernisses B101, das Delaunay-Netz MB102 des Hindernisses B102 und das Delaunay-Netz MR101 der Straßenoberfläche R101, die dem Bild P231 aus 12 entsprechen, kombiniert werden, wie in einem linken Teil aus 13 veranschaulicht ist.
In diesem Fall verwendet die Netz-Dreidimensionalisierung-Einheit 78 die Tiefeninformationen (Entfernungsinformationen) jedes der Merkmalspunkte des Delaunay-Netzes MB101 des Hindernisses B101, des Delaunay-Netzes MB102 des Hindernisses B102 und des Delaunay-Netzes MR101 der Straßenoberfläche R101, um zum Beispiel die Merkmalspunkte an Positionen anzuordnen, die den Tiefeninformationen entsprechen, wie in einem rechten Teil aus 13 veranschaulicht, und dreidimensionalisiert die Delaunay-Netze, wodurch ein Delaunay-Netz D111 erzeugt wird.
Insbesondere dreidimensionalisiert in dem dreidimensionalen Delaunay-Netz D111 die Netz-Dreidimensionalisierung-Einheit 78 das Delaunay-Netz MB101 des Hindernisses B101 basierend auf den Entfernungsinformationen der Merkmalspunkte, wodurch ein dreidimensionales Delaunay-Netz TMB101 erzeugt wird.
Ferner dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das Delaunay-Netz MB102 des Hindernisses B102 basierend auf den Entfernungsinformationen der Merkmalspunkte, wodurch ein dreidimensionales Delaunay-Netz TMB102 erzeugt wird.
Des Weiteren dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das Delaunay-Netz MR101 der Straßenoberfläche R101 basierend auf den Entfernungsinformationen der Merkmalspunkte, wodurch ein dreidimensionales Delaunay-Netz TMR101 erzeugt wird.
Wie oben beschrieben, dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das zweidimensionale Delaunay-Netz MB101 des Hindernisses B101, das zweidimensionale Delaunay-Netz MB102 des Hindernisses B102 und das zweidimensionale Delaunay-Netz MR101 der Straßenoberfläche R101 und erzeugt und kombiniert das dreidimensionale Delaunay-Netz TMB101 des Hindernisses B101, das dreidimensionale Delaunay-Netz TMB102 des Hindernisses B102 und das dreidimensionale Delaunay-Netz TMR101 der Straßenoberfläche R101, wodurch das dreidimensionale Delaunay-Netz D111 erzeugt wird.
Weil das dreidimensionale Delaunay-Netz D111 wie oben beschrieben erzeugt wird, wird keine Oberfläche durch Verbinden von Merkmalspunkten unterschiedlicher Hindernisse gebildet. Daher wird keine Oberfläche in einem Delaunay-Netz gebildet, die angibt, als ob ein Hindernis in einem Raum ohne Hindernis existiere. Dies ermöglicht es, Positionen der Hindernisse angemessen zu erkennen.
Es ist möglich, die Art von Hindernis zu erkennen und eine Position des Hindernisses angemessen zu erkennen.
<Aktionsplan>
Als nächstes wird ein Aktionsplan, der durch die Aktionsplanungseinheit 79 erhalten wird, die eine Trajektorie einschließlich eines Bewegungspfades des sich bewegenden Körpers plant, unter Bezugnahme auf 14 bis 16 beschrieben.
Die Aktionsplanungseinheit 79 liest einen Gewichtungskoeffizienten für eine Entfernung, der für jede in der Speicherungseinheit 80 gespeicherte semantische Kennzeichnung eingestellt wird, und plant eine Trajektorie einschließlich eines optimalen Bewegungspfades.
Insbesondere plant die Aktionsplanungseinheit 79 eine Trajektorie, die von einer aktuellen Position zu einem Ziel geplant werden kann, als einen Trajektorienkandidaten. Dann berechnet die Aktionsplanungseinheit 79 einen Beurteilungswert jedes von sämtlichen geplanten Trajektorienkandidaten durch Verwenden einer Beurteilungsfunktion und wählt einen Trajektorienkandidaten mit dem höchsten Beurteilungswert als eine optimale Trajektorie aus.
Insbesondere wird zuerst ein Fall beschrieben, in dem die Aktionsplanungseinheit 79 Trajektorienkandidaten G51 bis G59 für den sich bewegenden Körper 11 an der aktuellen Position zum Bewegen zu einem Ziel Tp plant, wie in 14 veranschaulicht ist.
Die Aktionsplanungseinheit 79 wählt zuerst Trajektorienkandidaten aus, die ein Hindernis B121 vermeiden können.
Beim Auswählen der Trajektorienkandidaten, die das Hindernis B121 vermeiden können, werden Trajektorienkandidaten ausgewählt, die einen Bereich um das Hindernis B121 herum vermeiden können, der durch eine gepunktete Linie in 14 umgeben ist, wobei der Bereich einen Spielraum für eine Entfernung gemäß der semantischen Kennzeichnung des Hindernisses B121 aufweist.
Das heißt, in 14 werden die Trajektorienkandidaten G51 bis G53 und die Trajektorienkandidaten G57 bis G59 ausgewählt.
Es wird angemerkt, dass der Spielraum gemäß der semantischen Kennzeichnung des Hindernisses B121 eingestellt wird.
Das heißt, dass, wie in 15 veranschaulicht, falls ein Hindernis B131 mit einer semantischen Kennzeichnung gekennzeichnet ist, welches bezüglich der Größe genau erkannt werden kann, wie etwa ein Baum oder ein Gebäude, und kaum beeinträchtigt wird, selbst bei einem Kontakt mit dem sich bewegenden Körper, die Aktionsplanungseinheit 79 zum Beispiel eine Entfernung r1 als den Spielraum einstellt und einen Trajektorienkandidaten G71 auswählt.
Falls ein Hindernis B132 mit einer semantischen Kennzeichnung zum Beispiel eines Menschen, eines Tieres oder eines Strommasten oder dergleichen gekennzeichnet ist, nahe welchem eine elektrische Leitung oder dergleichen mit einer unzureichenden Erkennungsgenauigkeit aus einem durch eine Kamera erkannten Bild erkannt werden kann und welches bei einem Kontakt mit dem sich bewegenden Körper stark beeinträchtigt werden kann, erhöht die Aktionsplanungseinheit 79 den Spielraum, stellt zum Beispiel eine Entfernung r2 (> r1) ein und wählt einen Trajektorienkandidaten G72 aus.
Durch Ändern der Größe des Spielraums gemäß der semantischen Kennzeichnung des Hindernisses, das heißt der Art von Hindernis, wie oben beschrieben, ist es möglich, einen Trajektorienkandidaten einschließlich eines Bewegungspfades unter Berücksichtigung des Einflusses des Kontakts auszuwählen. Dies ermöglicht es, eine Trajektorie unter Berücksichtigung der Sicherheit zu planen.
Ferner berechnet die Aktionsplanungseinheit 79 einen Beurteilungswert F durch Verwenden einer Beurteilungsfunktion, die durch den folgenden Ausdruck (4) basierend auf einem Steuerkurswinkel θ, einer Bewegungsgeschwindigkeit v und einer Entfernung d von dem Hindernis jedes der Trajektorienkandidaten G51 bis G53 und der Trajektorienkandidaten G57 bis G59, die das Hindernis vermeiden können.
$F = ω_{0} \cdot E_{0} + ω_{v} \cdot E_{v} + ω_{d} \cdot E_{d}$
Hier bezeichnen ω_θ, ω_v und ω_d Gewichte für den Steuerkurswinkel θ, die Bewegungsgeschwindigkeit v bzw. die Entfernung d von dem Hindernis.
Ferner bezeichnet E_θ eine Beurteilungsfunktion des Steuerkurswinkels θ, der ein Winkel zwischen einer Bewegungsrichtung und einer linearen Richtung von dem derzeitigen sich bewegenden Körper 11 zu dem Ziel ist. Der Beurteilungswert ist umso größer, je kleiner der Winkel mit Bezug auf das Ziel ist, das heißt, je näher der sich bewegende Körper an dem Ziel ist, wohingegen der Beurteilungswert umso kleiner ist, je weiter der sich bewegende Körper von dem Ziel entfernt ist, um einen Umweg zu machen.
E_v bezeichnet einen Beurteilungswert der Bewegungsgeschwindigkeit v. Der Beurteilungswert ist umso größer, je schneller die Bewegungsgeschwindigkeit ist, wohingegen der Beurteilungswert umso kleiner ist, langsamer die Bewegungsgeschwindigkeit ist, das heißt, umso mehr Zeit der sich bewegende Körper benötigt, um an dem Ziel anzukommen.
E_d bezeichnet einen Beurteilungswert der Entfernung d von dem Hindernis. Der Beurteilungswert ist umso größer, je größer die Entfernung von dem Hindernis ist, wohingegen der Beurteilungswert umso kleiner ist, je kleiner die Entfernung von dem Hindernis ist, das heißt, umso höher ein Risiko eines Kontakts ist.
Hier wird der Beurteilungswert E_d der Entfernung d von dem Hindernis auf einen minimalen Beurteilungswert eingestellt, der an jedem Abtastunkt auf einer Trajektorie erhalten wird und durch den folgenden Ausdruck (5) gezeigt wird.
$E_{d} = min (α_{S} \cdot dist (S))$
Hier bezeichnet α_S ein Gewicht, das gemäß einer semantischen Kennzeichnung S voreingestellt wird, bezeichnet dist(S) die kürzeste Entfernung von jedem Abtastpunkt auf jeder Trajektorie zu dem Hindernis, für das die semantische Kennzeichnung S eingestellt ist, und, wenn ein Wert eines Produkts von α_S und dist(S) für die semantische Kennzeichnung S beurteilt wird, bezeichnet min eine Ausgabe eines Minimumwertes davon. Schließlich wird tendenziell eine Trajektorie weiter von dem Hindernis mit der semantischen Kennzeichnung S entfernt ausgewählt, weil das voreingestellte Gewicht α_S, das gemäß der semantischen Kennzeichnung S eingestellt wird, kleiner ist.
Insbesondere werden, wie in 16 veranschaulicht, falls Hindernisse B151 und B152 vorhanden sind, eine Trajektorie L151 geplant ist und Abtastpunkte Sp1 bis Sp5 auf der Trajektorie eingestellt sind, die kürzesten Entfernungen von den Abtastpunkten Sp1 bis Sp5 zu den Hindernissen B151 und B152 als Entfernungen D151-1 bis D151-5 und Entfernungen D152-1 bis D152-5 erhalten.
Hier ist die kürzeste Entfernung von dem Hindernis B151 die Entfernung D151-5 und ist die kürzeste Entfernung von dem Hindernis B152 die Entfernung D152-4.
Daher ist, falls eine semantische Kennzeichnung des Hindernisses B151 LB151 ist, ein Beurteilungswerts E_{d_B151} des Hindernisses B151 für die Trajektorie L151 aus 16 α_LB151·dist(LB151) = α_LB151 × Entfernung D151-5. Hier bezeichnet α_LB151 ein Gewicht, das gemäß der semantischen Kennzeichnung LB151 voreingestellt ist.
Ferner ist, falls eine semantische Kennzeichnung des Hindernisses B152 LB152 ist, das Beurteilungsergebnis E_{d_B152} des Hindernisses B152 für die Trajektorie L151 aus 16 α_LB152·dist(LB152) = α_LB152 × Entfernung D152-4. Hier bezeichnet α_LB152 ein Gewicht, das gemäß der semantischen Kennzeichnung LB152 voreingestellt ist.
Daher wird der Beurteilungswert E_d der Trajektorie L151 aus 16 basierend auf dem Beurteilungswert E_{d_B151} und dem Beurteilungswert E_{d_B152} erhalten und wird auf zum Beispiel einen Minimalwert min(E_{d_B151}, E_{d_B152}) des Beurteilungswertes E_{d_B151} und des Beurteilungswertes E_{d_B152} eingestellt. Des Weiteren kann ein Durchschnittswert anstelle des Minimalwertes verwendet werden.
Das heißt, die Aktionsplanungseinheit 79 wählt einen Trajektorienkandidaten mit einem maximalen Beurteilungswert F, der aus der Beurteilungsfunktion von Ausdruck (4) berechnet wird, als eine Trajektorie unter Trajektorien aus, die Hindernisse vermeiden können.
14 veranschaulicht ein Beispiel, bei dem der Beurteilungswert F von jedem der Trajektorienkandidaten G51 bis G53 und der Trajektorienkandidaten G57 bis G59, die das Hindernis vermeiden können, aus der Beurteilungsfunktion berechnet wird, ein Trajektorienkandidat mit dem maximalen Beurteilungswert F als eine Trajektorie ausgewählt wird und zum Beispiel der Trajektorienkandidat G53, der durch eine kurz-langgestrichelte Linie angegeben ist, den maximalen Beurteilungswert aufweist und als die Trajektorie ausgewählt wird.
<Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus Figur 8>
Als Nächstes wird eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 8 unter Bezugnahme auf ein Flussdiagramm aus 17 beschrieben.
In Schritt S11 erfasst die Kamera 32 ein Bild und gibt das Bild an die Bildkorrekturverarbeitungseinheit 71 aus.
In Schritt S12 führt die Bildkorrekturverarbeitungseinheit 71 eine allgemeine Bildkorrekturverarbeitung, wie etwa Entfernen einer Verzerrung, die durch eine in der Kamera 32 enthaltene Linse verursacht wird, eine Demosaic-Verarbeitung und eine Gammakorrekturverarbeitung, an dem durch die Kamera 32 erfassten Bild durch und gibt das korrigierte Bild an die Semantische-Segmentation-Verarbeitungseinheit 72 und die Merkmalspunktextraktionseinheit 76 aus.
In Schritt S13 klassifiziert die Semantische-Segmentation-Verarbeitungseinheit 72 Arten von Gegenständen auf einer Pixelbasis durch semantische Segmentation basierend auf dem durch die Kamera 32 erfassten RGB-Bild durch Verwenden eines gelernten neuronalen Netzes, das durch Lernen im Voraus in der Speicherungseinheit 73 gespeichert wird, unterteilt das Bild in Gebiete gemäß semantischen Kennzeichnungen, die Klassifizierungsergebnissen entsprechen, und gibt ein Verarbeitungsergebnis der semantische Segmentation an die Merkmalspunktextraktionseinheit 76 aus.
In Schritt S14 detektiert der Tiefensensor 33 ein Tiefenbild (Punktwolke) innerhalb eines Bereichs einschließlich eines Bilderfassungsbereichs der Kamera 32 und gibt das Tiefenbild an die Positionskorrekturverarbeitungseinheit 74 aus.
In Schritt S15 wandelt die Positionskorrekturverarbeitungseinheit 74 ein Koordinatensystem des Tiefenbildes (Punktwolke), das von dem Tiefensensor 33 bereitgestellt wird, in ein Koordinatensystem des Bildes, das durch die Kamera 32 erfasst wird, durch Positionskorrektur basierend auf Kamera/Tiefensensor-Relativpositionskalibrierungsinformationen, die im Voraus in der Speicherungseinheit 75 gespeichert werden, um, erzeugt ein Tiefenbild (Punktwolke) mit einem Koordinatensystem, das dem durch die Kamera 32 erfassten Bild entspricht, und gibt das erzeugte Tiefenbild an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
In Schritt S16 extrahiert die Merkmalspunktextraktionseinheit 76 Merkmalspunkte, die als Eckpunkte von Dreiecken dienen, die ein Delaunay-Netz bilden, basierend auf dem RGB-Bild, das von der Bildkorrekturverarbeitungseinheit 71 bereitgestellt wird, dem Verarbeitungsergebnis der semantischen Segmentation (Gebietsunterteilungsergebnis der semantischen Kennzeichnungen), das von der Semantische-Segmentation-Verarbeitungseinheit 72 bereitgestellt wird, und dem Tiefenbild (Punktwolke), das auf das RGB-Bild überlagert wird, und gibt die extrahierten Merkmalspunkte an die Delaunay-Netz-Erzeugungseinheit 77 aus.
Zu dieser Zeit hängt die Merkmalspunktextraktionseinheit 76 eine entsprechende semantische Kennzeichnung an jeden Merkmalspunkt an. Die Merkmalspunkte sind Pixel an Pixelpositionen, an denen die Tiefeninformationen (Entfernungsinformationen) auf das RGB-Bild überlagert werden.
In Schritt S17 unterteilt die Delaunay-Netz-Erzeugungseinheit 77 die Merkmalspukte in dreieckige Oberflächen mit den Merkmalspunkten als Eckpunkte für jede gleiche semantische Kennzeichnung basierend auf den Merkmalspunkten, die von der Merkmalspunktextraktionseinheit 76 bereitgestellt werden, erzeugt ein zweidimensionales Delaunay-Netz in dem Bild und gibt das zweidimensionale Delaunay-Netz an die Netz-Dreidimensionalisierung-Einheit 78 aus.
In Schritt S18 dreidimensionalisiert die Netz-Dreidimensionalisierung-Einheit 78 das zweidimensionale Delaunay-Netz basierend auf dem zweidimensionalen Delaunay-Netz, das von der Delaunay-Netz-Erzeugungseinheit 77 bereitgestellt wird, und dem Tiefenbild (Punktwolke), das von der Positionskorrekturverarbeitungseinheit 74 bereitgestellt wird, und gibt ein dreidimensionales Delaunay-Netz an die Aktionsplanungseinheit 79 aus.
In Schritt S19 berechnet die Aktionsplanungseinheit 79 eine Entfernung von einem Hindernis für jede semantische Kennzeichnung basierend auf dem dreidimensionalen Delaunay-Netz. Zu dieser Zeit wird die Entfernung von dem Hindernis so berechnet, dass ein Spielraum gemäß der semantischen Kennzeichnung enthalten ist.
In Schritt S20 plant die Aktionsplanungseinheit 79 mehrere Trajektorienkandidaten zu einem Ziel.
In Schritt S21 addiert die Aktionsplanungseinheit 79 Gewichte, die den semantischen Kennzeichnungen entsprechen, berechnet einen Beurteilungswert jedes Trajektorienkandidaten durch Verwenden einer Beurteilungsfunktion und beurteilt den Trajektorienkandidaten.
In Schritt S22 wählt die Aktionsplanungseinheit 79 einen Trajektorienkandidaten mit dem höchsten Beurteilungswert unter den Trajektorienkandidaten aus und gibt den ausgewählten Trajektorienkandidaten an die Operationssteuereinheit 52 als eine optimale Trajektorie aus.
Durch die obige Verarbeitung wird ein Delaunay-Netz für jede semantische Kennzeichnung gebildet und wird ferner basierend auf dem Tiefenbild (Punktwolke) dreidimensionalisiert. Dies ermöglicht es, eine Position des Hindernisses angemessen zu erfassen.
Dies verhindert, dass ein Netz so gebildet wird, als ob ein Hindernis vorhanden sei, obwohl es kein Hindernis in einem Gebiet gibt. Daher ist es möglich, die Erzeugung einer unnötigen Umgehungstrajektorie zu verhindern, die einen Raum ohne Hindernisse vermeidet.
Ferner ist es möglich, einen Spielraum gemäß einer Entfernung von dem Hindernis gemäß der Semantik einzustellen. Dies ermöglicht es, eine Trajektorie zu planen, die durch eine angemessene Entfernung gemäß der Art von Hindernis separiert ist. Daher ist es möglich, eine angemessene Trajektorie zu planen, während die Sicherheit sichergestellt wird.
Ferner ist es möglich, einen Beurteilungswert jedes Trajektorienkandidaten gemäß dem Steuerkurswinkel, der Bewegungsgeschwindigkeit und der Entfernung von dem Hindernis basierend auf der Beurteilungsfunktion zu erhalten und eine optimale Trajektorie basierend auf dem erhaltenen Beurteilungswert auszuwählen.
Es wird angemerkt, dass hier zuvor ein Beispiel beschrieben wurde, bei dem ein Hindernis durch ein Delaunay-Netz durch Verwenden von Merkmalspunkten repräsentiert wird. Jedoch kann ein Netz durch ein Verfahren außer dem Delaunay-Netz gebildet werden, weil es lediglich erforderlich ist, ein Hindernis durch Verwenden von Merkmalspunkten zu repräsentieren.
«3. Zweite Ausführungsform»
Zuvor wurde ein Beispiel beschrieben, bei dem ein dreidimensionales Delaunay-Netz durch Verwenden eines durch die Kamera 32 erfassten RGB-Bildes und eines durch den Tiefensensor 33 detektierten Tiefenbildes (Punktwolke) erzeugt wird, um eine Position eines Hindernisses angemessen zu erkennen und eine Trajektorie zu planen.
Jedoch kann ein Tiefenbild (Punktwolke) zum Planen einer Trajektorie durch Bereitstellen einer anderen Kamera, d. h. durch Verwenden einer Stereokamera, die insgesamt zwei Kameras aufweist, anstelle des Tiefensensors 33 erlangt werden.
18 veranschaulicht ein Konfigurationsbeispiel des sich bewegenden Körpers 11, wobei eine andere Kamera anstelle des Tiefensensors 33 bereitgestellt ist, d. h., es wird eine Stereokamera, die insgesamt zwei Kameras aufweist, zum Planen einer Trajektorie verwendet.
Es wird angemerkt, dass bei dem sich bewegenden Körper 11 aus 18 die gleichen Konfigurationen mit den gleichen Funktionen wie jene bei dem sich bewegenden Körper 11 aus 7 durch die gleichen Bezugszeichen bezeichnet werden und eine Beschreibung davon gegebenenfalls weggelassen wird.
Das heißt, der sich bewegende Körper 11 aus 18 unterscheidet sich von dem sich bewegenden Körper 11 aus 7 darin, dass eine Stereokamera 201 anstelle der Kamera 32 und des Tiefensensors 33 bereitgestellt ist.
Die Stereokamera 201 weist Kameras 211-1 und 211-2 auf, die zum Erzeugen einer Parallaxe bereitgestellt sind und die jeweils ein Bild erfassen und das Bild an die Trajektorienplanungseinheit 51 ausgeben.
Die Kameras 211-1 und 211-2 sind beide Kameras mit der gleichen Funktion wie die Kamera 32.
Die durch die Kameras 211-1 und 211-2 erfassten Bilder werden gemeinsam als Parallaxenbilder betrachtet und die Trajektorienplanungseinheit 51 verwendet die Parallaxe zum Bilden eines Tiefenbildes, das dem Tiefenbild (Punktwolke) entspricht, das durch den oben beschriebenen Tiefensensor 33 erlangt wird.
Danach wird im Grunde ein dreidimensionales Delaunay-Netz gebildet und wird eine Trajektorie durch eine Verarbeitung ähnlich jener des sich bewegenden Körpers 11 aus 7 durch Verwenden eines der Bilder der Kameras 211-1 und 211-2 als eine Referenz und Verwenden des Tiefenbildes (Punktwolke), das aus den zwei Bilden erhalten wird, geplant.
<Konfigurationsbeispiel der Trajektorienplanungseinheit in dem sich bewegenden Körper aus Figur 18>
Als Nächstes wird ein Konfigurationsbeispiel der Trajektorienplanungseinheit 51 in dem sich bewegenden Körper 11 aus 18 unter Bezugnahme auf 19 beschrieben.
Es wird angemerkt, dass bei de Trajektorienplanungseinheit 51 aus 19 die Konfigurationen mit den gleichen Funktionen wie jene bei der Trajektorienplanungseinheit 51 aus 8 durch die gleichen Bezugszeichen bezeichnet werden und eine Beschreibung davon gegebenenfalls weggelassen wird.
Die Trajektorienplanungseinheit 51 aus 19 unterscheidet sich von der Trajektorienplanungseinheit 51 aus 8 darin, dass Bildkorrekturverarbeitungseinheiten 231-1 und 231-2, Speicherungseinheiten 232-1 und 232-2, eine Parallaxenschätzungseinheit 233 und eine Tiefenzuverlässigkeitsfilterungseinheit 234 anstelle der Bildkorrekturverarbeitungseinheit 71, der Positionskorrekturverarbeitungseinheit 74 und der Speicherungseinheit 75 bereitgestellt sind.
Die Bildkorrekturverarbeitungseinheiten 231-1 und 231-2 führen eine allgemeine Bildkorrekturverarbeitung, wie etwa eine Entfernung einer Verzerrung, die durch in den jeweiligen Kameras 211-1 und 211-2 enthaltenen Linsen verursacht wird, Demosaic-Verarbeitung und Gammakorrekturverarbeitung, an Bildern durch, die durch die jeweiligen Kameras 211-1 und 211-2 erfasst werden.
Ferner korrigieren die Bildkorrekturverarbeitungseinheiten 231-1 und 231-2 die Bilder basierend auf Stereokamerakalibrierungsinformationen zum Korrigieren einer relativen Positionsbeziehung in den durch die Kameras 211-1 und 211-2 erfassten Bildern mit der Parallaxe, wobei die Stereokamerakalibrierungsinformationen im Voraus in den Speicherungseinheiten 232-1 und 232-2 gespeichert werden.
Ferner gibt die Bildkorrekturverarbeitungseinheit 231-1 das korrigierte Bild an die Semantische-Segmentation-Verarbeitungseinheit 72 und die Merkmalspunktextraktionseinheit 76 aus und gibt auch das korrigierte Bild an die Parallaxenschätzungseinheit 233 aus.
Die Bildkorrekturverarbeitungseinheit 231-2 gibt das korrigierte Bild an die Parallaxenschätzungseinheit 233 aus.
Es wird angemerkt, dass 19 ein Konfigurationsbeispiel veranschaulicht, bei dem ein Referenzbild, das der Kamera 32 in der Trajektorienplanungseinheit 51 aus 8 entspricht, ein Bild ist, das durch die Kamera 211-1 in der Trajektorienplanungseinheit 51 erfasst wird. Jedoch kann ein durch die Kamera 211-2 erfasstes Bild als eine Referenz verwendet werden.
Die Parallaxenschätzungseinheit 233 schätzt eine Parallaxe der zwei - rechtes und linkes - Bilder, die von den Bildkorrekturverarbeitungseinheiten 231-1 und 231-2 bereitgestellt werden, erzeugt ein Tiefenbild (Punktwolke) und gibt das Tiefenbild an die Tiefenzuverlässigkeitsfilterungseinheit 234 aus.
Insbesondere erhält die Parallaxenschätzungseinheit 233 eine Parallaxe (Verschiebung von Pixeln) des Bildes, das von der Bildkorrekturverarbeitungseinheit 231-2 erhalten wird, unter Bezugnahme auf das Bild, das von der Bildkorrekturverarbeitungseinheit 231-1 bereitgestellt wird, durch Musterabgleich oder dergleichen und erzeugt ein Tiefenbild basierend auf der erhaltenen Parallaxe.
Die Tiefenzuverlässigkeitsfilterungseinheit 234 speichert das Tiefenbild (Punktwolke), das von der Parallaxenschätzungseinheit 233 bereitgestellt wird, und projiziert ein aktuelles Tiefenbild als ein vorhergehendes Tiefenbild basierend auf einer Verschiebung einer Eigenposition von einem Zeitpunkt, zu dem das vorhergehende Tiefenbild erlangt wurde, erhält einen Tiefenunterschied, der ein Unterschied von Tiefeninformationen von dem vorhergehenden Tiefenbild ist, auf einer Pixelbasis und erhält eine Zuverlässigkeit der Tiefeninformationen auf einer Pixelbasis basierend auf dem Tiefenunterschied.
Dann filtert die Tiefenzuverlässigkeitsfilterungseinheit 234 die Tiefeninformationen, die an die nächste Stufe auszugeben sind, basierend auf der für jedes Pixel erhaltenen Zuverlässigkeit, erzeugt ein Tiefenbild (Punktwolke) mit nur zuverlässigen Tiefeninformationen und gibt das Tiefenbild an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
Es ist bekannt, dass Tiefeninformationen, die durch die Stereokamera 201 erhalten werden, allgemein eine höhere Umgebungsabhängigkeit als der Tiefensensor 33 unter Verwendung des LiDAR oder dergleichen haben und viele Fehler aufgrund eines falschen Abgleichs auftreten.
Falls die Tiefeninformationen so, wie sie sind, zum Erzeugen eines Delaunay-Netzes verwendet werden, kann daher eine zeitliche Variation des Delaunay-Netzes aufgrund eines Einflusses der Fehler zunehmen, die durch den falschen Abgleich verursacht werden, was einen Trajektorienplan negativ beeinflussen kann.
In Anbetracht davon wird hier die Zuverlässigkeit der Tiefeninformationen beurteilt und werden unzuverlässige Tiefeninformationen herausgefiltert (entfernt).
Zuvor wurde hier ein Beispiel des Verwenden des Tiefenunterschieds als ein Index einer Zuverlässigkeitsfilterung beschrieben. Jedoch können Indices außer dem obigen Index verwendet werden und zum Beispiel kann ein Abgleichfehler zur Zeit des Stereoabgleichs verwendet werden.
Ferner ist es bekannt, dass in einem Eingabebild für eine Parallaxenschätzung Tiefeninformationen eine hohe Genauigkeit in einem Bereich aufweisen, in dem eine Textur oder eine Kante vorhanden ist. Daher kann eine Textur- oder Kantenstärke als der Index der Zuverlässigkeitsfilterung verwendet werden.
Des Weiteren kann eine räumliche Verteilung unter Verwendung eines Medianfilters oder dergleichen oder eine zeitliche Stabilität als der Index der Zuverlässigkeitsfilterung verwendet werden.
Es wird angemerkt, dass eine ausführliche Konfiguration der Tiefenzuverlässigkeitsfilterungseinheit 234 nachfolgend unter Bezugnahme auf 20 ausführlich beschrieben wird.
Eine Eigenpositionsverschiebungsdetektionseinheit 235 weist zum Beispiel einen Bewegungssensor oder dergleichen auf, detektiert eine Verschiebung einer Eigenposition zwischen einem Zeitpunkt, zu dem ein vorhergehendes Tiefenbild erlangt wurde, und einem Zeitpunkt, zu dem ein aktuelles Tiefenbild erlangt wurde, und gibt die detektierte Verschiebung an die Tiefenzuverlässigkeitsfilterungseinheit 234 aus.
<Konfigurationsbeispiel der Tiefenzuverlässigkeitsfilterungseinheit>
Als Nächstes wird ein Konfigurationsbeispiel der Tiefenzuverlässigkeitsfilterungseinheit 234 unter Bezugnahme auf 20 beschrieben.
Die Tiefenzuverlässigkeitsfilterungseinheit 234 weist einen Puffer 251, eine Projektionseinheit 252, eine Tiefenunterschiedsberechnungseinheit 253 und eine Schwellenvergleichseinheit 254 auf.
Der Puffer 251 speichert ein bereitgestelltes Tiefenbild und überschreibt und speichert ein bereitgestelltes Tiefenbild jedes Mal, wenn ein neues Tiefenbild bereitgestellt wird. Zu dieser Zeit gibt der Puffer 251 unmittelbar vor dem Überschreiben und Speichern eines neuen Tiefenbildes ein zuvor gespeichertes Tiefenbild an die Tiefenunterschiedsberechnungseinheit 253 aus. Es wird angemerkt, dass bezüglich dessen, ob das Bild des Puffers 251 aktualisiert wird, das Bild des Puffers 251 möglicherweise nur dann aktualisiert wird, wenn sich eine gewissen Entfernung oder ein gewisser Winkel durch Verwenden von Eigenpositionsverschiebungsinformationen ändert.
Wenn das neue Tiefenbild bereitgestellt wird, erlangt die Projektionseinheit 252 Eigenpositionsverschiebungsinformationen von einem Zeitpunkt, zu dem das vorhergehende Tiefenbild bereitgestellt wurde, bis zur Gegenwart, projiziert ein aktuelles Tiefenbild als ein Tiefenbild bei einer Eigenposition zu einem Zeitpunkt, zu dem das vorhergehende Tiefenbild bereitgestellt wurde, basierend auf den Eigenpositionsverschiebungsinformationen und gibt das Tiefenbild zusammen mit dem erlangten aktuellen Tiefenbild an die Tiefenunterschiedsberechnungseinheit 253 aus.
Die Tiefenunterschiedsberechnungseinheit 253 berechnet einen Tiefenunterschied, der ein Unterschied der Tiefeninformationen auf einer Pixelbasis zwischen dem vorhergehenden Tiefenbild, das unmittelbar bevor der Bereitstellung des neuen Tiefenbildes aus dem Puffer 251 erlangt wurde, und dem aktuellen Tiefenbild, das als ein Tiefenbild zu einem vorhergehenden Zeitpunkt basierend auf den Eigenpositionsverschiebungsinformationen projiziert wird, ist, und gibt den Tiefenunterschied zusammen mit dem erlangten aktuellen Tiefenbild an die Schwellenvergleichseinheit 254 aus.
Die Schwellenvergleichseinheit 254 vergleicht den Tiefenunterschied und eine Schwelle auf einer Pixelbasis, filtert nichtzuverlässige Tiefeninformationen mit einem Tiefenunterschied größer als die Schwelle und gibt nur ein Tiefenbild (Punktwolke) mit zuverlässigen Tiefeninformationen mit einem Tiefenunterschied kleiner als die Schwelle an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
Es wird angemerkt, dass das Tiefenbild, das durch die Parallaxenschätzungseinheit 233 geschätzt wird, so erzeugt wird, dass es dichtere Tiefeninformationen als ein Tiefenbild aufweist, das durch den Tiefensensor einschließlich des LiDAR oder dergleichen erzeugt wird, und daher können im Fall von Tiefeninformationen mit geringer Dichte, die durch das LiDAR oder dergleichen erhalten werden, die Tiefeninformationen so, wie sie sind, als Merkmalspunkte verwendet werden, aber es gibt möglicherweise zu viele Merkmalspunkte, wenn sämtliche Tiefeninformationen verwendet werden.
In Anbetracht dessen kann die Schwellenvergleichseinheit 254 der Tiefenzuverlässigkeitsfilterungseinheit 234 zum Beispiel die Schwelle des Tiefenunterschieds auf einen Wert nahe 0 einstellen, um ein Verdünnungsverhältnis zu erhöhen, so dass Tiefeninformationen besonders zuverlässiger Pixel als ihre Merkmalspunkte verwendet werden.
<Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus Figur 19>
Als Nächstes wird eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 19 unter Bezugnahme auf ein Flussdiagramm aus 21 beschrieben.
Es wird angemerkt, dass eine Verarbeitung in Schritten S56 bis S62 in dem Flussdiagramm aus 21 der Verarbeitung in Schritten S16 bis S22 aus 17 ähnlich ist, und daher wird eine Beschreibung davon ausgelassen.
Insbesondere erfassen in Schritt S51 die beiden Kameras 211-1 und 211-2 der Stereokamera 201 Bilder und geben die Bilder an die Bildkorrekturverarbeitungseinheiten 231-1 bzw. 231-2 aus.
In Schritt S52 führen die Bildkorrekturverarbeitungseinheiten 231-1 und 231-2 eine allgemeine Bildkorrekturverarbeitung, wie etwa eine Entfernung einer Verzerrung, die durch in den Kameras 211-1 und 211-2 enthaltene Linsen verursacht wird, Demosaic-Verarbeitung und Gammakorrekturverarbeitung, an den Bildern durch, die durch die jeweiligen Kameras 211-1 und 211-2 erfasst werden.
Ferner führen die Bildkorrekturverarbeitungseinheiten 231-1 und 231-2 eine Verarbeitung basierend auf Stereokamerakalibrierungsinformationen durch, die in den jeweiligen Speicherungseinheiten 232-1 und 232-2 gespeichert werden.
Dann gibt die Bildkorrekturverarbeitungseinheit 231-1 das verarbeitete Bild an die Semantische-Segmentation-Verarbeitungseinheit 72, die Merkmalspunktextraktionseinheit 76 und die Parallaxenschätzungseinheit 233 aus.
Ferner gibt die Bildkorrekturverarbeitungseinheit 231-2 das verarbeitete Bild an die Parallaxenschätzungseinheit 233 aus.
In Schritt S53 klassifiziert die Semantische-Segmentation-Verarbeitungseinheit 72 Arten von Gegenständen auf einer Pixelbasis durch semantische Segmentation basierend auf dem durch die Kamera 211-1 erfassten RGB-Bild durch Verwenden eines gelernten neuronalen Netzes, das durch Lernen im Voraus in der Speicherungseinheit 73 gespeichert wird, unterteilt das Bild in Gebiete gemäß semantischen Kennzeichnungen, die Klassifizierungsergebnissen entsprechen, und gibt ein Verarbeitungsergebnis der semantische Segmentation an die Merkmalspunktextraktionseinheit 76 aus.
In Schritt S54 erhält die Parallaxenschätzungseinheit 233 Tiefeninformationen basierend auf einer Parallaxe von einem Referenzpixel durch Durchführen eines Musterabgleichs oder dergleichen an dem Bild, das von der Bildkorrekturverarbeitungseinheit 231-2 bereitgestellt wird, mit Bezug auf das Bild, das von der Bildkorrekturverarbeitungseinheit 231-1 bereitgestellt wird, erzeugt ein Tiefenbild (Punktwolke) und gibt das Tiefenbild an die Tiefenzuverlässigkeitsfilterungseinheit 234 aus.
In Schritt S55 führt die Tiefenzuverlässigkeitsfilterungseinheit 234 eine Filterungsverarbeitung zum Filtern der Tiefeninformationen basierend auf einer Zuverlässigkeit jedes Tiefeninformationselements in dem Tiefenbild (Punktwolke) aus, erzeugt ein Tiefenbild (Punktwolke) mit nur zuverlässigen Tiefeninformationen und gibt das Tiefenbild an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
Es wird angemerkt, dass Einzelheiten der Filterungsverarbeitung später unter Bezugnahme auf ein Flussdiagramm aus 22 beschrieben werden.
Durch die obige Verarbeitungsreihe ist es möglich, eine Trajektorie einschließlich eines Bewegungspfades des sich bewegenden Körpers 11 durch Verwenden der Stereokamera 201 anstelle der Kamera 32 und des Tiefensensors 33 angemessen zu planen.
<Filterungsverarbeitung>
Als Nächstes wird die Filterungsverarbeitung durch die Tiefenzuverlässigkeitsfilterungseinheit 234 unter Bezugnahme auf das Flussdiagramm aus 22 beschrieben.
In Schritt S81 liest die Tiefenunterschiedsberechnungseinheit 253 ein vorhergehendes Tiefenbild, das unmittelbar vor dem Puffern in dem Puffer 251 erlangt wurde.
In Schritt S82 erlangt der Puffer 251 ein Tiefenbild, das aktuell von der Parallaxenschätzungseinheit 233 bereitgestellt wird, überschreibt das Tiefenbild auf das vorhergehende Tiefenbild und puffert das Tiefenbild.
In Schritt S83 erlangt die Projektionseinheit 252 die Eigenpositionsübergangsinformationen, das heißt eine Verschiebung einer Eigenposition von einem Zeitpunkt, zu dem das vorhergehende Tiefenbild erlangt wurde, bis zu einem Zeitpunkt, zu dem das aktuelle Tiefenbild erlangt wurde, von der Eigenpositionsverschiebungsdetektionseinheit 235.
In Schritt S84 projiziert die Projektionseinheit 252 das aktuelle Tiefenbild als ein zuvor erlangtes Tiefenbild basierend auf den Eigenpositionsverschiebungsinformationen und gibt das Tiefenbild zusammen mit dem aktuellen Tiefenbild an die Tiefenunterschiedsberechnungseinheit 253 aus.
In Schritt S85 erhält Tiefenunterschiedsberechnungseinheit 253 einen Tiefenunterschied, der ein Unterschied der Tiefeninformationen zwischen Pixeln des vorhergehenden Tiefenbildes und des aktuellen Tiefenbildes ist, das als das vorhergehende Tiefenbild basierend auf den Eigenpositionsübergangsinformationen projiziert wird, und gibt den Tiefenunterschied zusammen mit dem aktuellen Tiefenbild an die Schwellenvergleichseinheit 254 aus.
In Schritt S86 legt die Schwellenvergleichseinheit 254 ein nichtverarbeitetes Pixel in dem aktuellen Tiefenbild als ein zu verarbeitendes Pixel fest.
In Schritt S87 bestimmt die Schwellenvergleichseinheit 254, ob ein Tiefenunterschied, der dem zu verarbeitenden Pixel entspricht, größer als eine vorbestimmte Schwelle ist oder nicht.
In Schritt S87 geht die Verarbeitung zu Schritt S88 über, falls bestimmt wird, dass der Tiefenunterschied, der dem zu verarbeitenden Pixel entspricht, größer als die vorbestimmte Schwelle ist, das heißt, falls es eine große Änderung zwischen dem vorhergehenden Tiefenbild und dem aktuellen Tiefenbild gibt.
Weil der Tiefenunterschied groß ist und eine Änderung davon groß ist, bestimmt in Schritt S88 die Schwellenvergleichseinheit 254, dass die Tiefeninformationen, die dem zu verarbeitenden Pixel entsprechen, unzuverlässig sind, und gibt die Tiefeninformationen daher nicht aus.
Dagegen geht in Schritt S87 die Verarbeitung zu Schritt S89 über, falls bestimmt wird, dass der Tiefenunterschied, der dem zu verarbeitenden Pixel entspricht, kleiner als die vorbestimmte Schwelle ist, das heißt, falls die Änderung zwischen dem vorhergehenden Tiefenbild und dem aktuellen Tiefenbild klein ist.
Weil der Tiefenunterschied klein ist und die Änderung davon klein ist, bestimmt in Schritt S89 die Schwellenvergleichseinheit 254, dass die Tiefeninformationen, die dem zu verarbeitenden Pixel entsprechen, zuverlässig sind, und puffert daher die Tiefeninformationen in Assoziation mit einer Pixelposition als auszugebende Tiefeninformationen.
In Schritt S90 bestimmt die Schwellenvergleichseinheit 254, ob ein nichtverarbeitetes Pixel in dem aktuellen Tiefenbild vorhanden sind oder nicht, und, falls ein nichtverarbeitetes Pixel vorhanden ist, kehrt die Verarbeitung zu Schritt S86 zurück.
Das heißt, die Verarbeitung in Schritten S86 bis S90 wird wiederholt, bis bestimmt wird, dass keine nichtverarbeiteten Pixel vorhanden sind, und die Zuverlässigkeit sämtlicher Pixel in dem aktuellen Tiefenbild wird basierend auf einem Vergleich zwischen dem Tiefenunterschied und der Schwelle bestimmt, und nur zuverlässige Tiefeninformationen werden gepuffert.
Dann geht die Verarbeitung zu Schritt S91 über, falls in Schritt S90 bestimmt wird, dass keine nichtverarbeiteten Pixel vorhanden sind.
In Schritt S91 gibt die Schwellenvergleichseinheit 254 ein Tiefenbild (Punktwolke) mit den gepufferten Tiefeninformationen, die als zuverlässig bestimmt wurden, an die Merkmalspunktextraktionseinheit 76 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
Durch die obige Verarbeitung ist es möglich, einen Tiefenunterschied zwischen einem aktuellen Tiefenbild, das als ein vorhergehendes Tiefenbild basierend auf einer Verschiebung einer Eigenposition projiziert wird, und einem gepufferten vorhergehenden Tiefenbild zu erhalten, aktuelle Tiefeninformationen mit einem Tiefenunterschied größer als die Schwelle als unzuverlässige Tiefeninformationen herauszufiltern (zu entfernen) und ein Tiefenbild (Punktwolke) nur mit zuverlässigen Tiefeninformationen auszugeben, deren Tiefenunterschied kleiner als die Schwelle ist.
Infolgedessen ist es möglich, zu begrenzen, dass eine Zuverlässigkeit eines unter Verwendung einer Stereokamera erlangten Tiefenbildes (Punktwolke) reduziert wird, und daher einen angemessenen Trajektorienplan durch Verwenden einer kostengünstigen Stereokamera anstelle des Verwendens eines teuren LiDAR oder dergleichen zu erzielen.
«4. Dritte Ausführungsform»
Zuvor wurde ein Beispiel des Erstellens eines Trajektorienplans unter Verwendung der Stereokamera 201 anstelle der Kamera 32 und des Tiefensensors 33 beschrieben. Jedoch kann von der Kamera 32 und dem Tiefensensor 33 die Kamera 32 mit einer Polarisationskamera zum Erfassen eines polarisierten Bildes, Erkennen von Normalenrichtungen auf einer Bilderfassungsoberfläche und Extrahieren angrenzender Merkmalspunkte mit unterschiedlichen Normalenrichtungen ersetzt werden.
Zum Beispiel können, wie in 23 veranschaulicht, wenn Bilder eines säulenartigen Hindernisses B301 und eines rechtwinkligen Hindernisses B302 durch die Polarisationskamera erfasst werden, Normalenrichtungen durch eine vorbestimmte Verarbeitung detektiert werden, wie durch Pfeile angegeben.
Infolgedessen werden möglicherweise nur Merkmalspunkte, die wenigstens eine der folgenden Bedingungen erfüllen, selektiv extrahiert: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen, eine Bedingung, bei der ein Unterschied der Entfernung zwischen angrenzenden Merkmalspunkten größer als ein vorbestimmter Wert ist, und eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist, wie in dem unteren rechten Teil aus 11 veranschaulicht ist; und eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche Normalenrichtungen aufweisen.
Dies ermöglicht es, im Fall des säulenartigen Hindernisses B301 Merkmalspunkte in der Nähe einer Grenze zwischen einer gekrümmten Seitenoberfläche Sf1 und einer Scheibenoberfläche Sf2 einer oberen Basis und einer Grenze zwischen der gekrümmten Seitenoberfläche Sf1 und einer Scheibenoberfläche Sf3 einer unteren Basis zu extrahieren.
Ferner ist es möglich, im Fall des rechtwinkligen Hindernisses B302 Merkmalspunkte in der Nähe von Grenzen zwischen ebenen Oberflächen Sf11 bis Sf13 zu extrahieren.
Infolgedessen ist es möglich, effektiv nur Merkmalspunkte an Positionen zu extrahieren, an denen sich eine Entfernung oder Form ändert, und ein dreidimensionales Delaunay-Netz zu bilden. Dies ermöglicht es, ein Delaunay-Netz zu bilden, in dem eine Position und Form eines Hindernisses angemessen wiedergegeben werden. Daher ist es möglich, eine Trajektorie einschließlich eines Bewegungspfades des sich bewegenden Körpers angemessen zu planen, so dass Hindernisse vermieden werden.
24 veranschaulicht ein Konfigurationsbeispiel des sich bewegenden Körpers 11, wobei ein polarisiertes Bild erfasst wird, Normalenrichtungen auf einer Bilderfassungsoberfläche erkannt werden und Merkmalspunkte an Positionen, an denen sich die Normalenrichtungen ändern, extrahiert werden.
Bei dem sich bewegenden Körper 11 aus 24 werden die Konfigurationen mit den gleichen Funktionen wie jene bei dem sich bewegenden Körper 11 aus 7 durch die gleichen Bezugszeichen bezeichnet und wird eine Beschreibung davon gegebenenfalls weggelassen.
Das heißt, die Konfiguration des sich bewegenden Körpers 11 aus 24 unterscheidet sich von jener des sich bewegenden Körpers 11 aus 7 darin, dass eine Polarisationskamera 301 anstelle der Kamera 32 bereitgestellt ist.
Die Polarisationskamera 301 weist eine Polarisationslinse auf, erfasst ein polarisiertes Bild, das durch Durchführen einer Polarisationsverarbeitung an einem durch die Kamera 32 erfassten Bild erhalten wird, und gibt das polarisierte Bild an die Trajektorienplanungseinheit 51 aus.
<Konfigurationsbeispiel der Trajektorienplanungseinheit unter Verwendung eines polarisierten Bildes>
Als Nächstes wird ein Konfigurationsbeispiel der Trajektorienplanungseinheit 51 unter Verwendung eines polarisierten Bildes unter Bezugnahme auf 25 beschrieben.
Es wird angemerkt, dass bei de Trajektorienplanungseinheit 51 aus 25 die Konfigurationen mit den gleichen Funktionen wie jene bei der Trajektorienplanungseinheit 51 aus 8 durch die gleichen Bezugszeichen bezeichnet werden und eine Beschreibung davon gegebenenfalls weggelassen wird.
Das heißt, die Trajektorienplanungseinheit 51 aus 25 unterscheidet sich von der Trajektorienplanungseinheit 51 aus 8 darin, dass: eine Bildkorrekturverarbeitungseinheit 311 anstelle der Bildkorrekturverarbeitungseinheit 71 und der Merkmalspunktextraktionseinheit 76 bereitgestellt ist; und eine Normalenlinienschätzungseinheit 312, die eine Normalenrichtung einer Gegenstandsoberfläche in einem Bild basierend auf einem polarisierten Bild schätzt, und eine Merkmalspunktextraktionseinheit 313 bereitgestellt sind.
Die Bildkorrekturverarbeitungseinheit 311 ist die gleiche wie die Bildkorrekturverarbeitungseinheit 71 in einer grundlegenden Funktion, aber gibt ferner das polarisierte Bild an die NormalenlinienSchätzungseinheit 312 aus.
Die Normalenlinienschätzungseinheit 312 schätzt eine Normalenrichtung einer Gegenstandsoberfläche basierend auf dem polarisierten Bild, das von der Bildkorrekturverarbeitungseinheit 311 bereitgestellt wird, und gibt die geschätzte Normalenrichtung an die Merkmalspunktextraktionseinheit 313 aus.
Die Merkmalspunktextraktionseinheit 313 ist der Merkmalspunktextraktionseinheit 76 in einer grundlegenden Funktion ähnlich, extrahiert aber Merkmalspunkte, die wenigstens eine der folgenden Bedingungen erfüllen: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der ein Unterschied der Entfernung zwischen angrenzenden Merkmalspunkten größer als ein vorbestimmter Wert ist; eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist; und eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche Normalenrichtungen aufweisen.
Mit einer solchen Konfiguration werden Merkmalspunkte extrahiert, die in einem Gebiet vorhanden sind, in dem sich Normalenrichtungen ändern.
<Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus Figur 25>
Als Nächstes wird eine Trajektorienplanungsverarbeitung durch die Trajektorienplanungseinheit aus 25 unter Bezugnahme auf ein Flussdiagramm aus 26 beschrieben.
Es wird angemerkt, dass eine Verarbeitung in Schritten S88 bis S93 in dem Flussdiagramm aus 26 der Verarbeitung in Schritten S17 bis S22 in dem Flussdiagramm aus 17 ähnlich ist, und daher wird eine Beschreibung davon ausgelassen.
Das heißt, in Schritt S81 erfasst die Polarisationskamera 301 ein polarisiertes Bild und gibt das polarisierte Bild an die Bildkorrekturverarbeitungseinheit 311 aus.
In Schritt S82 führt die Bildkorrekturverarbeitungseinheit 311 eine allgemeine Bildkorrektur, wie etwa eine Entfernung einer Verzerrung, die durch eine in der Polarisationskamera 301 enthaltene Linse verursacht wird, Demosaic-Verarbeitung und Gammakorrekturverarbeitung, an dem durch die Polarisationskamera 301 erfassten polarisierten Bild durch und gibt das korrigierte Bild an die Semantische-Segmentation-Verarbeitungseinheit 72 und die Merkmalspunktextraktionseinheit 313 aus und gibt auch das polarisierte Bild an die Normalenlinienschätzungseinheit 312 aus.
In Schritt S83 schätzt die Normalenlinienschätzungseinheit 312 eine Normalenrichtung einer Gegenstandsoberfläche in dem Bild basierend auf dem durch die Polarisationskamera 301 erfassten polarisierten Bild und gibt ein Schätzungsergebnis an die Merkmalspunktextraktionseinheit 313 aus.
In Schritt S84 klassifiziert die Semantische-Segmentation-Verarbeitungseinheit 72 Arten von Gegenständen auf einer Pixelbasis durch semantische Segmentation basierend auf dem durch die Kamera 32 erfassten RGB-Bild durch Verwenden eines gelernten neuronalen Netzes, das durch Lernen im Voraus in der Speicherungseinheit 73 gespeichert wird, unterteilt das Bild in Gebiete gemäß semantischen Kennzeichnungen, die Klassifizierungsergebnissen entsprechen, und gibt ein Verarbeitungsergebnis der semantische Segmentation an die Merkmalspunktextraktionseinheit 313 aus.
In Schritt S85 detektiert der Tiefensensor 33 ein Tiefenbild (Punktwolke) innerhalb eines Bereichs einschließlich eines Bilderfassungsbereichs der Polarisationskamera 301 und gibt das Tiefenbild an die Positionskorrekturverarbeitungseinheit 74 aus.
In Schritt S86 wandelt die Positionskorrekturverarbeitungseinheit 74 ein Koordinatensystem des Tiefenbildes (Punktwolke), das von dem Tiefensensor 33 bereitgestellt wird, in ein Koordinatensystem des Bildes, das durch die Kamera 32 erfasst wird, durch Positionskorrektur basierend auf Kamera/Tiefensensor-Relativpositionskalibrierungsinformationen, die im Voraus in der Speicherungseinheit 75 gespeichert werden, erzeugt ein Tiefenbild (Punktwolke) mit einem Koordinatensystem, das dem durch die Kamera 32 erfassten Bild entspricht, und gibt das erzeugte Tiefenbild an die Merkmalspunktextraktionseinheit 313 und die Netz-Dreidimensionalisierung-Einheit 78 aus.
In Schritt S87 extrahiert die Merkmalspunktextraktionseinheit 313 Merkmalspunkte, die als Eckpunkte von Dreiecken dienen, die ein Delaunay-Netz bilden, basierend auf dem RGB-Bild, das von der Bildkorrekturverarbeitungseinheit 71 bereitgestellt wird, dem Verarbeitungsergebnis der semantischen Segmentation (semantische Kennzeichnung), das von der Semantische-Segmentation-Verarbeitungseinheit 72 bereitgestellt wird, der Punktwolke, die auf das RGB-Bild überlagert wird, und einem Schätzungsergebnis der Normalenrichtung und gibt die extrahierten Merkmalspunkte an die Delaunay-Netz-Erzeugungseinheit 77 aus.
Durch die obige Verarbeitungsreihe ist es möglich, Merkmalspunkte an Positionen, an denen sich Normalenrichtungen ändern, d. h. an denen sich eine Entfernung oder Form ändert, effektiv zu extrahieren. Dies ermöglicht es, ein dreidimensionales Delaunay-Netz zu bilden, in dem eine Position und Form eines Hindernisses angemessen wiedergegeben werden. Daher ist es möglich, eine Trajektorie einschließlich eines Bewegungspfades des sich bewegenden Körpers angemessen zu planen.
«5. Beispiel der Ausführung durch Software»
Übrigens kann die oben beschriebene Verarbeitungsreihe durch Hardware oder Software ausgeführt werden. Falls die Verarbeitungsreihe durch Software ausgeführt wird, wird ein Programm, das die Software bildet, von einem Aufzeichnungsmedium auf einem Computer, der in dedizierter Hardware eingebunden ist, oder zum Beispiel einem Mehrzweckcomputer oder dergleichen, der verschiede Funktionen durch Installieren verschiedener Programme ausführen kann, installiert.
27 veranschaulicht ein Konfigurationsbeispiel eines Mehrzweckcomputers. Dieser Personal-Computer weist eine Zentralverarbeitungseinheit (CPU) 1001 auf. Die CPU 1001 ist über einen Bus 1004 mit einer Eingabe/Ausgabe-Schnittstelle 1005 verbunden. Der Bus 1004 ist mit einem Nurlesespeicher (ROM) 1002 und einem Direktzugriffsspeicher (RAM) 1003 verbunden.
Die Eingabe/Ausgabe-Schnittstelle 1005 ist mit einer Eingabeeinheit 1006, die Eingabevorrichtungen, wie etwa eine Tastatur und eine Maus, für einen Benutzer zum Eingeben eines Operationsbefehls aufweist, einer Ausgabeeinheit 1007, die einen Verarbeitungsoperationsbildschirm und ein Bild eines Verarbeitungsergebnisses an eine Anzeigevorrichtung ausgibt, einer Speicherungseinheit 1008, die ein Festplattenlaufwerk oder dergleichen zum Speichern von Programmen und verschiedener Arten von Daten aufweist, und einer Kommunikationseinheit 1009, die einen Local-Area-Network(LAN)-Adapter oder dergleichen aufweist und eine Kommunikationsverarbeitung über ein durch das Internet repräsentiertes Netz ausführt, verbunden. Ferner ist ein Laufwerk 1010, das Daten liest und schreibt, mit einem Wechselspeicherungsmedium 1011, wie etwa einer Magnet-Disk (einschließlich einer flexiblen Disc), einer optischen Disc (einschließlich einer Compact-Disc-Read-Only-Memory (CD-ROM) und einer Digital-Versatile-Disc (DVD)), einer magnetooptischen Disk (einschließlich einer Mini-Disc (MD)) oder einem Halbleiterspeicher, verbunden.
Die CPU 1001 führt verschiedene Arten einer Verarbeitung gemäß einem in dem ROM 1002 gespeicherten Programm oder einem Programm aus, das aus dem Wechselspeicherungsmedium 1011, wie etwa einer Magnet-Disk, einer optischen Disk, einer magnetooptischen Disk oder einem Halbleiterspeicher, das in der Speicherungseinheit 1008 installiert wird, gelesen und aus der Speicherungseinheit 1008 in den Ram 1003 geladen wird. Der RAM 1003 speichert auch für die CPU 1001 zum Ausführen verschiedener Arten einer Verarbeitung erforderliche Daten und dergleichen angemessen.
Bei dem wie oben beschrieben ausgebildeten Computer wird die oben beschriebene Verarbeitungsreihe durchgeführt, indem zum Beispiel die CPU 1001 ein in der Speicherungseinheit 1008 gespeichertes Programm über die Eingabe/Ausgabe-Schnittstelle 1005 und den Bus 1004 in den RAM 1003 lädt und das Programm ausführt.
Das durch den Computer (CPU 1001) ausgeführte Programm kann bereitgestellt werden, indem es zum Beispiel auf dem Wechselspeicherungsmedium 1011 als ein Paketmedium oder dergleichen aufgezeichnet wird. Ferner kann das Programm über ein drahtgebundenes oder drahtloses Übertragungsmedium, wie etwa ein Local Area Network, das Internet oder digitalen Satellitenrundfunk, bereitgestellt werden.
In dem Computer kann das Programm auf der Speicherungseinheit 1008 über die Eingabe/Ausgabe-Schnittstelle 1005 installiert werden, indem das Wechselspeicherungsmedium 1011 an das Laufwerk 1010 angeschlossen wird. Ferner kann das Programm durch die Kommunikationseinheit 1009 über das drahtgebundene oder drahtlose Übertragungsmedium empfangen und auf der Speicherungseinheit 1008 installiert werden. Außerdem kann das Programm auch im Voraus auf dem ROM 1002 oder der Speicherungseinheit 1008 installiert werden.
Es wird angemerkt, dass das durch den Computer ausgeführte Programm ein Programm sein kann, in dem die Verarbeitung in zeitlicher Serie in der in dieser Beschreibung beschriebenen Reihenfolge durchgeführt wird, oder kann ein Programm sein, in dem die Verarbeitung parallel oder mit einen erforderlichen Timing, wie etwa dann, wenn ein Aufruf erfolgt, durchgeführt wird.
Es wird angemerkt, dass die CPU 1001 aus 27 die Funktionen der Steuereinheit 31 aus 7, 18 und 24 erzielt.
Ferner bedeutet in dieser Beschreibung ein System einen Satz aus mehreren Komponenten (Vorrichtungen, Modulen (Teilen) und dergleichen), und es macht keinen Unterschied, ob sämtliche Komponenten in demselben Gehäuse enthalten sind oder nicht. Daher sind mehrere Vorrichtungen, die in separaten Gehäusen enthalten und über ein Netz verbunden sind, und eine einzige Vorrichtung, die mehrere Module in einem einzigen Gehäuse aufweist, beides Systeme.
Es wird angemerkt, dass Ausführungsformen der vorliegenden Offenbarung nicht auf die obigen Ausführungsformen beschränkt sind und verschiedentlich modifiziert werden können, ohne von dem Wesen der vorliegenden Offenbarung abzuweichen.
Zum Beispiel kann die vorliegende Offenbarung eine Konfiguration für Cloud-Computing aufweisen, wobei eine einzige Funktion geteilt und gemeinsam durch mehrere Vorrichtungen über ein Netz verarbeitet wird.
Ferner kann jeder der in den obigen Flussdiagrammen beschriebenen Schritte durch eine einzige Vorrichtung ausgeführt werden oder kann dadurch ausgeführt werden, dass er durch mehrere Vorrichtungen geteilt wird.
Des Weiteren können, falls ein einziger Schritt mehrere Prozesse aufweist, die mehreren Prozesse, die in dem einzigen Schritt enthalten sind, durch eine einzige Vorrichtung ausgeführt werden oder können dadurch ausgeführt werden, dass sie durch mehrere Vorrichtungen geteilt werden.
Es wird angemerkt, dass die vorliegende Offenbarung auch die folgenden Konfigurationen aufweisen kann.

<1> Eine Informationsverarbeitungsvorrichtung, die Folgendes aufweist: eine Objekterkennungseinheit, die ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkennt; eine Merkmalsextraktionseinheit, die Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert; eine Netzerzeugungseinheit, die ein Netz, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt; und eine Aktionsplanungseinheit, die eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem Netz plant, das durch die Netzerzeugungseinheit erzeugt wird.
<2> Die Informationsverarbeitungsvorrichtung nach <1>, wobei die Objekterkennungseinheit das Objekt in dem Bild durch semantische Segmentation erkennt, und die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit einer semantischen Kennzeichnung, die als das Objekterkennungsergebnis unter Verwendung der semantischen Segmentation dient, extrahiert.
<3> Die Informationsverarbeitungsvorrichtung nach <2>, wobei die Merkmalspunktextraktionseinheit die Merkmalspunkte in der Nähe des Objekts, die das Hindernis sein können, mit der semantischen Kennzeichnung assoziiert und die Merkmalspunkte aus dem Bild basierend auf der semantischen Kennzeichnung extrahiert.
<4> Die Informationsverarbeitungsvorrichtung nach <2>, wobei die Merkmalspunktextraktionseinheit Pixel des Bildes, die Positionen entsprechen, an denen Tiefeninformationen in einem Tiefenbild vorhanden sind, das dem Bild entspricht, mit der semantischen Kennzeichnung assoziiert und die Pixel als die Merkmalspunkte extrahiert.
<5> Die Informationsverarbeitungsvorrichtung nach <4>, wobei die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit der semantischen Kennzeichnung, die als das Objekterkennungsergebnis unter Verwendung der semantischen Segmentation dient, extrahiert und ferner aus den extrahierten Merkmalspunkten selektiv Merkmalspunkte extrahiert, die wenigstens eine der folgenden Bedingungen in Assoziation mit der semantischen Kennzeichnung erfüllen: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der sich Tiefeninformationen angrenzender Merkmalspunkte erheblich von einem vorbestimmten Wert unterscheiden; und eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist.
<6> Die Informationsverarbeitungsvorrichtung nach <4>, wobei die Netzerzeugungseinheit ein zweidimensionales Netz, das das Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes Objekt mit der gleichen semantischen Kennzeichnung basierend auf dem Objekterkennungsergebnis erzeugt.
<7> Die Informationsverarbeitungsvorrichtung nach <6>, die ferner Folgendes aufweist: eine Dreidimensionalisierungseinheit, die das zweidimensionale Netz basierend auf den Tiefeninformationen des Tiefenbildes dreidimensionalisiert und ein dreidimensionales Netz erzeugt, wobei die Aktionsplanungseinheit die Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem dreidimensionalen Netz plant, das durch die Dreidimensionalisierungseinheit erzeugt wird.
<8> Die Informationsverarbeitungsvorrichtung nach <7>, wobei die Aktionsplanungseinheit einen Spielraum für eine Entfernung gemäß der semantischen Kennzeichnung zu dem Hindernis, das durch das dreidimensionale Netz repräsentiert wird, einstellt und eine Trajektorie für den sich bewegenden Körper plant, um zum Vermeiden des Hindernisses zu handeln.
<9> Die Informationsverarbeitungsvorrichtung nach <8>, wobei die Aktionsplanungseinheit Trajektorienkandidaten zum Handeln zum Vermeiden des Hindernisses plant, Beurteilungswerte zum Beurteilen der jeweiligen Trajektorienkandidaten berechnet und die Trajektorie aus den Trajektorienkandidaten basierend auf den Beurteilungswerten auswählt.
<10> Die Informationsverarbeitungsvorrichtung nach <9>, wobei die Aktionsplanungseinheit die Beurteilungswerte zum Beurteilen der jeweiligen Trajektorienkandidaten durch Verwenden einer Beurteilungsfunktion berechnet, die einen Term zum Berechnen eines Richtungsbeurteilungswertes eines Winkels zwischen einer linearen Richtung von dem sich bewegenden Körper zu einem Ziel und einer Bewegungsrichtung des sich bewegenden Körpers, einen Term zum Berechnen eines Geschwindigkeitsbeurteilungswertes einer Bewegungsgeschwindigkeit des sich bewegenden Körpers und einen Term zum Berechnen eines Entfernungsbeurteilungswertes einer Entfernung zwischen dem sich bewegenden Körper und dem Hindernis aufweist, und die Trajektorie aus den Trajektorienkandidaten basierend auf den Beurteilungswerten auswählt.
<11> Die Informationsverarbeitungsvorrichtung nach <10>, wobei ein Gewicht für jeden des Richtungs-, Geschwindigkeits- und Entfernungsbeurteilungswertes in der Beurteilungsfunktion eingestellt wird, die Aktionsplanungseinheit die Beurteilungswerte durch eine Summe von Produkten des Richtungsbeurteilungswertes, des Geschwindigkeitsbeurteilungswertes, des Entfernungsbeurteilungswertes und den Gewichten des Richtungs-, Geschwindigkeits- und Entfernungsbeurteilungswertes berechnet und den Trajektorienkandidaten mit einem maximalen Beurteilungswert als die Trajektorie auswählt.
<12> Die Informationsverarbeitungsvorrichtung nach <10>, wobei das Gewicht für die Entfernung gemäß der semantischen Kennzeichnung in dem Term zum Berechnen des Entfernungsbeurteilungswertes eingestellt wird. <13> Die Informationsverarbeitungsvorrichtung nach einem von <4> bis <12>, wobei das Tiefenbild durch LiDAR detektiert wird. <14> Die Informationsverarbeitungsvorrichtung nach einem von <4> bis <12>, wobei das Tiefenbild basierend auf zwei Bildern erzeugt wird, die durch eine Stereokamera erfasst werden, und das Bild durch eine beliebige der Kameras erfasst wird, die in der Stereokamera enthalten sind.
<15> Die Informationsverarbeitungsvorrichtung nach <14>, die ferner Folgendes aufweist: eine Parallaxenschätzungseinheit, die eine Parallaxe basierend auf den zwei Bildern schätzt, die durch die Stereokamera erfasst werden, und das Tiefenbild basierend auf der geschätzten Parallaxe erzeugt.
<16> Die Informationsverarbeitungsvorrichtung nach <15>, die ferner Folgendes aufweist: eine Filterungseinheit, die einen Tiefenunterschied, der ein Unterschied von Tiefeninformationen zwischen Zeitreihentiefenbildern des Tiefenbildes ist, das basierend auf den zwei durch die Stereokamera erfassten Bildern erzeugt wird, mit einer vorbestimmten Schwelle vergleicht, um die Tiefeninformationen zu filtern, die den Tiefenunterscheid größer als die vorbestimmte Schwelle aufweisen.
<17> Die Informationsverarbeitungsvorrichtung nach <14>, wobei das Bild ein polarisiertes Bild ist, das durch eine Polarisationskamera erfasst wird, die Informationsverarbeitungsvorrichtung ferner eine Normalenlinienschätzungseinheit aufweist, die eine Normalenrichtung einer Oberfläche eines Objekts in dem polarisierten Bild basierend auf dem polarisierten Bild schätzt, und die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit dem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert und ferner selektiv Merkmalspunkte extrahiert, die wenigstens eine der folgenden Bedingungen in Assoziation mit der semantischen Kennzeichnung erfüllen: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche Tiefeninformationselemente aufweisen; eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist; und eine Bedingung, bei der sich Normalenrichtungen bei angrenzenden Merkmalspunkten ändern.
<18> Die Informationsverarbeitungsvorrichtung nach einem von <1> bis <17>, wobei die Netzerzeugungseinheit ein Delaunay-Netz, das das Hindernis repräsentiert, durch Verbinden der Merkmalspunkte zum Bilden eines Dreiecks mit den Merkmalspunkten als Eckpunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt.
<19> Ein Informationsverarbeitungsverfahren, das die folgenden Schritte aufweist: Erkennen eines Objekts in einem Bild einer Umgebung eines sich bewegenden Körpers; Extrahieren von Merkmalspunkten aus dem Bild in Assoziation mit einem Erkennungsergebnis des Objekts; Erzeugen eines Netzes, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Erkennungsergebnis des Objekts; und Planen einer Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem erzeugten Netz.
<20> Ein Programm zum Bewirken, dass ein Computer als Folgendes fungiert: eine Objekterkennungseinheit, die ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkennt; eine Merkmalsextraktionseinheit, die Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert; eine Netzerzeugungseinheit, die ein Netz, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt; und eine Aktionsplanungseinheit, die eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem Netz plant, das durch die Netzerzeugungseinheit erzeugt wird.

Bezugszeichenliste

11: Sich bewegender Körper
31: Steuereinheit
32: Kamera
33: Tiefensensor
34: Speicherungseinheit
35: Antriebseinheit
51: Trajektorienplanungseinheit
52: Operationssteuereinheit
71: Bildkorrekturverarbeitungseinheit
72: Semantische-Segmentation-Verarbeitungseinheit
73: Speicherungseinheit
74: Positionskorrekturverarbeitungseinheit
75: Speicherungseinheit
76: Merkmalspunktextraktionseinheit
77: Delaunay-Netz-Erzeugungseinheit
78: Netz-Dreidimensionalisierung-Einheit
79: Aktionsplanungseinheit
80: Speicherungseinheit
201: Stereokamera
211-1, 211-2: Kamera
231-1, 231-2: Bildkorrekturverarbeitungseinheit
232-1, 232-2: Speicherungseinheit
233: Parallaxenschätzungseinheit
234: Tiefenzuverlässigkeitsfilterungseinheit
235: Eigenpositionsübergangsdetektionseinheit
251: Puffer
252: Projektionseinheit
253: Tiefenunterschiedsberechnungseinheit
254: Schwellenvergleichseinheit
301: Polarisationskamera
311: Bildkorrekturverarbeitungseinheit
312: Normalenlinienschätzungseinheit
313: Merkmalspunktextraktionseinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2005092820 [0004]

Claims

Informationsverarbeitungsvorrichtung, die Folgendes aufweist: eine Objekterkennungseinheit, die ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkennt; eine Merkmalsextraktionseinheit, die Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert; eine Netzerzeugungseinheit, die ein Netz, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt; und eine Aktionsplanungseinheit, die eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem Netz plant, das durch die Netzerzeugungseinheit erzeugt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Objekterkennungseinheit das Objekt in dem Bild durch semantische Segmentation erkennt, und die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit einer semantischen Kennzeichnung, die als das Objekterkennungsergebnis unter Verwendung der semantischen Segmentation dient, extrahiert.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Merkmalspunktextraktionseinheit die Merkmalspunkte in der Nähe des Objekts, die das Hindernis sein können, mit der semantischen Kennzeichnung assoziiert und die Merkmalspunkte aus dem Bild basierend auf der semantischen Kennzeichnung extrahiert.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Merkmalspunktextraktionseinheit Pixel des Bildes, die Positionen entsprechen, an denen Tiefeninformationen in einem Tiefenbild vorhanden sind, das dem Bild entspricht, mit der semantischen Kennzeichnung assoziiert und die Pixel als die Merkmalspunkte extrahiert.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit der semantischen Kennzeichnung, die als das Objekterkennungsergebnis unter Verwendung der semantischen Segmentation dient, extrahiert und ferner aus den extrahierten Merkmalspunkten selektiv Merkmalspunkte extrahiert, die wenigstens eine der folgenden Bedingungen in Assoziation mit der semantischen Kennzeichnung erfüllen: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der sich Tiefeninformationen angrenzender Merkmalspunkte erheblich von einem vorbestimmten Wert unterscheiden; und eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei die Netzerzeugungseinheit ein zweidimensionales Netz, das das Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes Objekt mit der gleichen semantischen Kennzeichnung basierend auf dem Objekterkennungsergebnis erzeugt.
Informationsverarbeitungsvorrichtung nach Anspruch 6, die ferner Folgendes aufweist: eine Dreidimensionalisierungseinheit, die das zweidimensionale Netz basierend auf den Tiefeninformationen des Tiefenbildes dreidimensionalisiert und ein dreidimensionales Netz erzeugt, wobei die Aktionsplanungseinheit die Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem dreidimensionalen Netz plant, das durch die Dreidimensionalisierungseinheit erzeugt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 7, wobei die Aktionsplanungseinheit einen Spielraum für eine Entfernung gemäß der semantischen Kennzeichnung zu dem Hindernis, das durch das dreidimensionale Netz repräsentiert wird, einstellt und eine Trajektorie für den sich bewegenden Körper plant, um zum Vermeiden des Hindernisses zu handeln.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Aktionsplanungseinheit Trajektorienkandidaten zum Handeln zum Vermeiden des Hindernisses plant, Beurteilungswerte zum Beurteilen der jeweiligen Trajektorienkandidaten berechnet und die Trajektorie aus den Trajektorienkandidaten basierend auf den Beurteilungswerten auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 9, wobei die Aktionsplanungseinheit die Beurteilungswerte zum Beurteilen der jeweiligen Trajektorienkandidaten durch Verwenden einer Beurteilungsfunktion berechnet, die einen Term zum Berechnen eines Richtungsbeurteilungswertes eines Winkels zwischen einer linearen Richtung von dem sich bewegenden Körper zu einem Ziel und einer Bewegungsrichtung des sich bewegenden Körpers, einen Term zum Berechnen eines Geschwindigkeitsbeurteilungswertes einer Bewegungsgeschwindigkeit des sich bewegenden Körpers und einen Term zum Berechnen eines Entfernungsbeurteilungswertes einer Entfernung zwischen dem sich bewegenden Körper und dem Hindernis aufweist, und die Trajektorie aus den Trajektorienkandidaten basierend auf den Beurteilungswerten auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 10, wobei ein Gewicht für jeden des Richtungs-, Geschwindigkeits- und Entfernungsbeurteilungswertes in der Beurteilungsfunktion eingestellt wird, die Aktionsplanungseinheit die Beurteilungswerte durch eine Summe von Produkten des Richtungsbeurteilungswertes, des Geschwindigkeitsbeurteilungswertes, des Entfernungsbeurteilungswertes und den Gewichten des Richtungs-, Geschwindigkeits- und Entfernungsbeurteilungswertes berechnet und den Trajektorienkandidaten mit einem maximalen Beurteilungswert als die Trajektorie auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 10, wobei das Gewicht für die Entfernung gemäß der semantischen Kennzeichnung in dem Term zum Berechnen des Entfernungsbeurteilungswertes eingestellt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei das Tiefenbild durch LiDAR detektiert wird.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei das Tiefenbild basierend auf zwei Bildern erzeugt wird, die durch eine Stereokamera erfasst werden, und das Bild durch eine beliebige der Kameras erfasst wird, die in der Stereokamera enthalten sind.
Informationsverarbeitungsvorrichtung nach Anspruch 14, die ferner Folgendes aufweist: eine Parallaxenschätzungseinheit, die eine Parallaxe basierend auf den zwei Bildern schätzt, die durch die Stereokamera erfasst werden, und das Tiefenbild basierend auf der geschätzten Parallaxe erzeugt.
Informationsverarbeitungsvorrichtung nach Anspruch 15, die ferner Folgendes aufweist: eine Filterungseinheit, die einen Tiefenunterschied, der ein Unterschied von Tiefeninformationen zwischen Zeitreihentiefenbildern des Tiefenbildes ist, das basierend auf den zwei durch die Stereokamera erfassten Bildern erzeugt wird, mit einer vorbestimmten Schwelle vergleicht, um die Tiefeninformationen zu filtern, die den Tiefenunterscheid größer als die vorbestimmte Schwelle aufweisen.
Informationsverarbeitungsvorrichtung nach Anspruch 14, wobei das Bild ein polarisiertes Bild ist, das durch eine Polarisationskamera erfasst wird, die Informationsverarbeitungsvorrichtung ferner eine Normalenlinienschätzungseinheit aufweist, die eine Normalenrichtung einer Oberfläche eines Objekts in dem polarisierten Bild basierend auf dem polarisierten Bild schätzt, und die Merkmalspunktextraktionseinheit die Merkmalspunkte aus dem Bild in Assoziation mit dem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert und ferner selektiv Merkmalspunkte extrahiert, die wenigstens eine der folgenden Bedingungen in Assoziation mit der semantischen Kennzeichnung erfüllen: eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche semantische Kennzeichnungen aufweisen; eine Bedingung, bei der angrenzende Merkmalspunkte unterschiedliche Tiefeninformationselemente aufweisen; eine Bedingung, bei der eine Kante zwischen angrenzenden Merkmalspunkten vorhanden ist; und eine Bedingung, bei der sich Normalenrichtungen bei angrenzenden Merkmalspunkten ändern.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Netzerzeugungseinheit ein Delaunay-Netz, das das Hindernis repräsentiert, durch Verbinden der Merkmalspunkte zum Bilden eines Dreiecks mit den Merkmalspunkten als Eckpunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt.
Informationsverarbeitungsverfahren, das die folgenden Schritte aufweist: Erkennen eines Objekts in einem Bild einer Umgebung eines sich bewegenden Körpers; Extrahieren von Merkmalspunkten aus dem Bild in Assoziation mit einem Erkennungsergebnis des Objekts; Erzeugen eines Netzes, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Erkennungsergebnis des Objekts; und Planen einer Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem erzeugten Netz.
Programm zum Bewirken, dass ein Computer als Folgendes fungiert: eine Objekterkennungseinheit, die ein Objekt in einem Bild einer Umgebung eines sich bewegenden Körpers erkennt; eine Merkmalsextraktionseinheit, die Merkmalspunkte aus dem Bild in Assoziation mit einem Objekterkennungsergebnis durch die Objekterkennungseinheit extrahiert; eine Netzerzeugungseinheit, die ein Netz, das ein Hindernis repräsentiert, durch Verbinden der Merkmalspunkte für jedes gleiche Objekt basierend auf dem Objekterkennungsergebnis erzeugt; und eine Aktionsplanungseinheit, die eine Aktion des sich bewegenden Körpers zum Vermeiden des Hindernisses basierend auf dem Netz plant, das durch die Netzerzeugungseinheit erzeugt wird.