DE102023105432A1

DE102023105432A1 - Zielerfassungsvorrichtung, zielerfassungsverfahren und zielerfassungsprogramm

Info

Publication number: DE102023105432A1
Application number: DE102023105432.5A
Authority: DE
Inventors: Naruhisa KAMEO; Sugimoto Kiichi; Kenta Nakao; Tomohiro Matsumoto; Satoshi Iio
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2022-03-31
Filing date: 2023-03-06
Publication date: 2023-10-05
Also published as: JP2023149762A; US20230316570A1

Abstract

ZielErfassung eines Ziels mit hoher Genauigkeit bei gleichzeitiger Reduzierung des Verarbeitungsaufwands.Lösen bedeutetEine Zielerfassungsvorrichtung, die Folgendes umfasst: eine Speichereinheit, die dazu ausgestaltet ist, eine Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells zum Erfassen eines Ziels aus einem Bild zu speichern; eine Kameraeinheit, die dazu ausgestaltet ist, ein Bild zu erlangen; und eine Zielerfassungs-Verarbeitungseinheit, die dazu ausgestaltet ist, eine parallele Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle auszuführen und ein Ziel auf der Grundlage von Erfassungsergebnissen der vortrainierten Modelle zu erfassen, wobei sich jedes der vortrainierten Modelle vom Rest der vortrainierten Modelle in einer Größe eines zu extrahierenden Ziels unterscheidet.

Description

Technischer Bereich
Die vorliegende Offenbarung bezieht sich auf eine Zielerfassungsvorrichtung, ein Zielerfassungsverfahren und ein Zielerfassungsprogramm.
Stand der Technik
Als System zur Erfassung eines Objekts aus einem erlangten Bild gibt es ein System zur Erfassung eines Objekts unter Verwendung eines vortrainierten Modells, bei dem Deep Learning auf einer großen Anzahl von Bildern durchgeführt wird. Patentdokument 1 beschreibt eine Lernvorrichtung, die ein erstes berechnetes erfasstes Bild erlangt, das ein abgebildetes Objekt und eine das abgebildete Objekt umgebende Umgebung aus einem Speicher umfasst, wobei das erste berechnete erfasste Bild eine Vielzahl von ersten Pixeln umfasst, ein erfasstes Bild erlangt, das das abgebildete Objekt und die das abgebildete Objekt umgebende Umgebung aus dem Speicher umfasst, wobei das erfasste Bild eine Vielzahl von zweiten Pixeln umfasst, ein Identifikationsergebnis des abgebildeten Objekts erlangt und der das abgebildete Objekt umgebende Umgebung, die in dem erfassten Bild umfasst ist, erfasst, ein Identifikationsmodell erzeugt, das dazu ausgestaltet ist, das erste berechnete erfasste Bild auf der Grundlage des Identifikationsergebnisses des erfassten Bildes unter Bezugnahme auf eine Korrespondenzbeziehung zwischen der Vielzahl erster Pixel und der Vielzahl zweiter Pixel zu identifizieren, und das Identifikationsmodell an eine Bildidentifikationsvorrichtung auszugeben, die dazu ausgestaltet ist, ein zweites berechnetes erfasstes Bild zu identifizieren.
Zitierliste
Patentliteratur
Patentdokument 1: JP 2019-200769 A
Zusammenfassung der Erfindung
Technisches Problem
Bei einem Modell, das für Deep Learning verwendet wird, steigt die Rechenleistung mit der Anzahl der Schichten eines Analysemodells oder der Anzahl der Bits für die Berechnungen. Das Modell kann jedoch nicht auf einer Vorrichtung angewendet werden, die tatsächlich verwendet wird, wenn die verfügbare Rechenleistung aufgrund einer Beschränkung der Vorrichtung oder Ähnlichem begrenzt ist. Wenn die Anzahl der Schichten des Analysemodells oder die Anzahl der Bits für die Berechnung einfach reduziert wird, wird ein Ziel möglicherweise nicht angemessen erfasst. In Anbetracht der obigen Ausführungen ist es wünschenswert, die Erfassungsgenauigkeit eines Ziels zu verbessern und gleichzeitig einen Anstieg der Verarbeitungsmenge zu vermeiden.
Eine Aufgabe zumindest einer Ausführungsform der vorliegenden Offenbarung ist es, eine Zielerfassungsvorrichtung, ein Zielerfassungsverfahren und ein Zielerfassungsprogramm bereitzustellen, die ein Ziel mit hoher Genauigkeit erfassen und gleichzeitig den Verarbeitungsaufwand verringern können.
Lösung des Problems
Darüber hinaus stellt die vorliegende Offenbarung eine Zielerfassungsvorrichtung bereit, umfassend: eine Speichereinheit, die dazu ausgestaltet ist, eine Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells zur Erfassung eines Ziels aus einem Bild zu speichern; eine Kameraeinheit, die dazu ausgestaltet ist, ein Bild zu erlangen; und eine Zielerfassungs-Verarbeitungseinheit, die dazu ausgestaltet ist, eine parallele Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle auszuführen und ein Ziel auf der Grundlage der Erfassungsergebnisse der vortrainierten Modelle zu erfassen. Jedes der vortrainierten Modelle unterscheidet sich vom Rest der vortrainierten Modelle in einer Größe eines zu extrahierenden Ziels.
Darüber hinaus stellt die vorliegende Offenbarung ein Zielerfassungsverfahren bereit, umfassend: Speichern einer Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells zur Erfassung eines Ziels aus einem Bild; Erlagen eines Bildes; und Erfassen eines Ziels, wobei das Erfassen ein Ausführen einer parallelen Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle und ein Erfassen eines Ziels auf der Grundlage der Erfassungsergebnisse der vortrainierten Modelle umfasst. Jedes der vortrainierten Modelle unterscheidet sich von dem Rest der vortrainierten Modelle durch eine Größe eines zu extrahierenden Ziels.
Darüber hinaus stellt die vorliegende Offenbarung ein Zielerfassungsprogramm bereit, das dazu ausgestaltet ist, eine Verarbeitung auszuführen, wobei die Verarbeitung umfasst: Speichern einer Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells zur Erfassung eines Ziels aus einem Bild; Erlagen eines Bildes; und Erfassen eines Ziels, wobei das Erfassen ein Ausführen einer parallelen Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle und das Erfassen eines Ziels auf der Grundlage der Erfassungsergebnisse der vortrainierten Modelle umfasst. Jedes der vortrainierten Modelle unterscheidet sich von dem Rest der vortrainierten Modelle durch die Größe eines zu extrahierenden Ziels.
Vorteilhafte Effekte der Erfindung
Mit der oben beschriebenen Ausgestaltung ist es möglich, ein Ziel mit hoher Genauigkeit zu erfassen und gleichzeitig den Verarbeitungsaufwand zu verringern.
Kurzbeschreibung der Zeichnungen

1 ist ein Blockdiagramm, das ein Beispiel einer Zielerfassungsvorrichtung zeigt.
2 ist ein Flussdiagramm, das ein Beispiel einer Verarbeitung eines Ziels zeigt.
3 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels eines Bildes.
4 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels einer Erfassungsverarbeitung.
5 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels einer Erfassungsverarbeitung.
6 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels eines Bildes einer Erfassungsverarbeitung.
7 ist ein erklärendes Diagramm, das ein Beispiel eines vortrainierten Modells zeigt.
8 ist ein erklärendes Diagramm, das ein Beispiel eines vortrainierten Modells zeigt.
9 ist ein Blockdiagramm, das ein Beispiel einer Zielerfassungsvorrichtung zeigt.
10 ist ein Flussdiagramm, das ein Beispiel eines Verfahrens zur Erstellung eines vortrainierten Modells zeigt.

Beschreibung der Ausführungsformen
Nachfolgend werden Ausführungsformen gemäß der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen im Detail beschrieben. Zu beachten ist, dass die Erfindung nicht auf diese Ausführungsformen beschränkt ist. Darüber hinaus umfassen die Komponenten in den folgenden Ausführungsformen Komponenten, die von den Fachleuten leicht ersetzt werden können oder Komponenten, die im Wesentlichen gleich sind. Darüber hinaus können die nachstehend beschriebenen Komponenten in geeigneter Weise kombiniert werden, und wenn es eine Vielzahl von Ausführungsformen gibt, können die Ausführungsformen kombiniert werden.
Ziel erfas sungsvorrichtung
1 ist ein Blockdiagramm, das ein Beispiel einer Zielerfassungsvorrichtung zeigt. Eine Zielerfassungsvorrichtung 102 erfasst ein Ziel unter Verwendung eines vortrainierten Modells, das einen Zielerfassungsprozess zur Erfassung eines Ziels aus einem Bild unter Verwendung von Deep Learning ausführen kann. Die Zielerfassungsvorrichtung 102 ist beispielsweise an einem mobilen Körper, wie einem Fahrzeug oder einem Flugobjekt, oder an einem Gebäude installiert. Das Ziel ist nicht besonders begrenzt und kann verschiedene Kategorien von Zielen sein, wie beispielsweise Menschen, Maschinen, Hunde, Katzen, Fahrzeuge und Pflanzen. Die Zielerfassungsvorrichtung 102 kann ein Erfassungsergebnis an eine Steuervorrichtung ausgeben, die einen Mechanismus steuert, an dem die Zielerfassungsvorrichtung 102 installiert ist. So kann z. B. im Falle eines mobilen Körpers, wenn ein Ziel erfasst wird, ein Prozess zum Anhalten des mobilen Körpers, ein Prozess zum Vermeiden des Ziels oder ähnliches ausgeführt werden.
Die Zielerfassungsvorrichtung 102 umfasst eine Kameraeinheit 112, einen Sensor 113, eine Benachrichtigungseinheit 115, eine Berechnungseinheit 116 und eine Speichereinheit 118. Die Kameraeinheit 112 erlangt ein Bild eines Zielfeldes einer Ansicht. Die Kameraeinheit 112 kann sukzessive Bilder mit einer vorbestimmten Bildrate erlangen oder durch einen vorbestimmten Vorgang ausgelöst Bilder erlangen. Der Sensor 113 erlangt Informationen über Umgebungen einschließlich eines von der Kameraeinheit 112 erfassten Bereichs. Als Sensor 113 kann ein Infrarotsensor oder LIDAR verwendet werden.
Die Benachrichtigungseinheit 114 benachrichtigt einen Nutzer. Die Benachrichtigungseinheit 114 umfasst einen Lautsprecher, eine lichtemittierende Vorrichtung, eine Anzeige oder Ähnliches. Wenn die Berechnungseinheit 116 eine Verarbeitung ausführt und ein Ziel in einem Bild erfasst, benachrichtigt die Benachrichtigungseinheit 114 den Nutzer, dass das Ziel vorhanden ist. Wenn es sich bei dem Ziel um eine Person handelt, kann die Person, die das Erfassungsziel ist, benachrichtigt werden.
Die Berechnungseinheit 116 umfasst einen integrierten Schaltkreis (Prozessor) wie eine zentrale Verarbeitungseinheit (CPU) oder eine Grafikverarbeitungseinheit (GPU) und einen Speicher, der als Arbeitsbereich dient, und führt verschiedene Arten der Verarbeitung aus, indem sie verschiedene Arten von Programmen unter Verwendung dieser HardwareRessourcen ausführt. Insbesondere führt die Berechnungseinheit 116 verschiedene Arten der Verarbeitung aus, indem sie in der Speichereinheit 118 gespeicherte Programme liest, die Programme in den Speicher lädt und den Prozessor veranlasst, Anweisungen auszuführen, die in den in den Speicher geladenen Programmen umfasst sind. Die Berechnungseinheit 116 führt einen Prozess zur Erfassung eines Ziels aus einem Bild aus, indem sie die in der Speichereinheit 118 gespeicherten Programme ausführt. Die Berechnungseinheit 116 umfasst eine Zielerfassungs-Verarbeitungseinheit 130 und eine Benachrichtigungs-Verarbeitungseinheit 132. Jede Einheit wird nach der Beschreibung der Speichereinheit 118 beschrieben.
Die Speichereinheit 118 umfasst eine nichtflüchtige Speichervorrichtung, wie z. B. eine magnetische Speichervorrichtung und eine Halbleiterspeichervorrichtung, und speichert verschiedene Arten von Programmen und Daten. Die Speichereinheit 118 speichert Einstellungsdaten 134, ein Zielerfassungsprogramm 136 und vortrainierte Modelle 138 und 140. In 1 sind zwei vortrainierte Modelle dargestellt, aber die Anzahl der bereitgestellten vortrainierten Modelle entspricht der Anzahl der vom Zielerfassungsprogramm 136 parallel ausgeführten Prozesse.
Die in der Speichereinheit 118 gespeicherten Daten umfassen die Einstellungsdaten 134. Die Einstellungsdaten 134 umfassen Informationen wie verschiedene Arten von Bedingungen für eine Ausführung des Zielerfassungsprogramms und Bedingungen für eine Ausführung der vortrainierten Modelle.
Zu den in der Speichereinheit 118 gespeicherten Programmen gehören das Zielerfassungsprogramm 136 und die vortrainierten Modelle 138 und 140. Das Zielerfassungsprogramm 136 ist ein Programm, das einen Zielerfassungsprozess unter Verwendung der vortrainierten Modelle 138 und 140 ausführt. Bei dem Zielerfassungsprogramm 136 sind auch ein Bilderlangungsprozess, ein Zielerfassungsprozess und ein Bestimmungsergebnis-Ausgabeprozess eingestellt. Ein Bilddatenverarbeitungsprozess kann im Zielerfassungsprogramm 136 eingestellt sein. Das Zielerfassungsprogramm 136 kann ein Merkmal (Bewertung) berechnen, das als erlerntes Bestimmungskriterium dient, indem es die Berechnungseinheit, die die Bildverarbeitung durchführt, veranlasst, die vortrainierten Modelle 138 und 140 auszuführen, und den Zielerfassungsprozess auf der Grundlage des Merkmals ausführt.
Die vortrainierten Modelle 138 und 140 sind Programme, die durch das Lernen eines Deep-Learning-Modells erstellt werden, das durch eine Eingabe von Bilddaten und eine Ausgabe eines Vorhandenseins oder eines Nichtvorhandenseins und einer Position eines Ziels erhalten wird. Als Deep-Learning-Modell ist es möglich, ein Deep-Learning-Modell wie Regions with Convolutional Neural Networks (R-CNN), You Only Look Once (YOLO) oder Single Shot multibox Detector (SSD) zu verwenden, bei dem eine Bounding Box, die als Anker bezeichnet wird, für ein Bild eingestellt wird und ein Merkmal in dem Anker auf der Grundlage der Einstellung verarbeitet wird, um zu erfassen, ob ein Ziel in dem Bild umfasst ist.
In der Speichereinheit 118 können das Zielerfassungsprogramm 136 und die vortrainierten Modelle 138 und 140 durch Lesen des Zielerfassungsprogramms 136 und der vortrainierten Modelle 138 und 140, die auf einem Aufzeichnungsmedium aufgezeichnet sind, installiert werden, oder das Zielerfassungsprogramm 136 und die vortrainierten Modelle 138 und 140 können durch Lesen des Zielerfassungsprogramms 136 und der vortrainierten Modelle 138 und 140, die in einem Netzwerk verfügbar sind, installiert werden.
Die Funktion jeder Einheit der Berechnungseinheit 116 wird im Folgenden beschrieben. Jede Einheit der Berechnungseinheit 116 kann durch Ausführen eines in der Speichereinheit 118 gespeicherten Programms ausgeführt werden. Die Zielerfassungs-Verarbeitungseinheit 130 verarbeitet die vortrainierten Modelle 138 und 140 unter Verwendung des Zielerfassungsprogramms 136 und führt einen Prozess der Bestimmung aus, ob ein Ziel in einem erlangten Bild umfasst ist oder nicht, d. h. den Zielerfassungsprozess. Die Benachrichtigungs-Verarbeitungseinheit 132 verwendet die Benachrichtigungseinheit 114, um eine Benachrichtigung über das Verarbeitungsergebnis der Zielerfassungs-Verarbeitungseinheit 130 zu erstellen.
Ziel erfas sungsverfahren
Als Nächstes wird ein Zielerfassungsverfahren unter Bezugnahme auf 2 beschrieben. 2 ist ein Flussdiagramm, das ein Beispiel eines Betriebs der Zielerfassungsvorrichtung darstellt. Die Zielerfassungsvorrichtung 102 führt den Prozess von 2 aus, indem sie die Berechnungseinheit 116 veranlasst, das Zielerfassungsprogramm 136 zu verarbeiten. Die Berechnungseinheit 116 führt während der Verarbeitung des Zielerfassungsprogramms 136 Berechnungen unter Verwendung der vortrainierten Modelle 138 und 140 durch. Der Prozess von 5 wird als ein Prozess beschrieben, der von der Zielerfassungsvorrichtung 102 ausgeführt wird, aber Bilddaten können einer Programmerzeugungsvorrichtung 10 zur Verfügung gestellt werden und ein ähnlicher Prozess kann von der Zielerfassungs-Verarbeitungseinheit 130 ausgeführt werden.
Die Zielerfassungsvorrichtung 102 liest die vortrainierten Modelle (Schritt S30). Die Zielerfassungsvorrichtung 102 erlangt die von der Programmerzeugungsvorrichtung 10 erstellten vortrainierten Modelle. Die Zielerfassungsvorrichtung 102 erlangt Bilddaten (Schritt S32). Insbesondere erlangt die Zielerfassungsvorrichtung 102 ein Bild durch die Kameraeinheit 112.
Die Zielerfassungsvorrichtung 102 extrahiert ein Ziel auf der Grundlage jedes der vortrainierten Modelle (Schritt S34). Die Zielerfassungsvorrichtung 102 verarbeitet das erlangte Bild parallel unter Verwendung der vortrainierten Modelle und führt einen Zielextraktionsprozess unter Verwendung jedes der vortrainierten Modelle aus.
Die Zielerfassungsvorrichtung 102 identifiziert ein Ziel auf der Grundlage eines Extraktionsergebnisses jedes der vortrainierten Modelle (Schritt S36). Bei Erfassung eines Ergebnisses, gemäß dem ein Ziel durch eines der vortrainierten Modelle extrahiert wurde, bestimmt die Zielerfassungsvorrichtung 102, dass das Ziel an einer erkannten Position vorhanden ist. Insbesondere führt die Zielerfassungsvorrichtung 102 den Zielerfassungsprozess für jeden Bereich durch, der durch jedes der vortrainierten Modelle festgelegt wurde. Durch die Durchführung des Zielerfassungsprozesses für jeden Bereich, der durch jedes der vortrainierten Modelle festgelegt wurde, wird der Zielerfassungsprozess für alle Bereiche eines Bildschirms durchgeführt. Ein Bereich, in dem eines der vortrainierten Modelle den Zielerfassungsprozess durchführt, kann sich teilweise mit einem Bereich überschneiden, in dem ein anderes der vortrainierten Modelle den Zielerfassungsprozess durchführt. Wenn von keinem der vortrainierten Modelle ein Ziel erkannt wird, stellt die Zielerfassungsvorrichtung 102 fest, dass es kein Ziel gibt. Die Zielerfassungsvorrichtung 102 veranlasst die Benachrichtigungseinheit 114, eine Benachrichtigung über das Identifizierungsergebnis zu erstellen (Schritt S38).
3 ist ein erklärendes Diagramm zur Beschreibung eines Bildbeispiels. Ein in 3 dargestelltes Bild 150 umfasst zwei Ziele 152 und 154. Die Ziele 152 und 154 sind an unterschiedlichen Positionen in derselben Ebene angeordnet. Das Zie152 wird auf einer unteren Seite des Ziels 154 angezeigt. In dem Bild 150 wird ein Ziel, das sich auf einer entfernten Seite befindet, auf der oberen Seite des Bildes angezeigt, und ein Ziel, das sich auf einer nahen Seite befindet, wird auf der unteren Seite des Bildes angezeigt. Somit wird das Ziel 152 größer dargestellt als das Ziel 154.
Bei der Zielerfassungsvorrichtung 102 gemäß der vorliegenden Ausführungsform ist das Bild 150 in eine obere und eine untere Hälfte unterteilt, d. h. in einen oberen Bereich 160 und einen unteren Bereich 162, und die vortrainierten Modelle 138 und 140 sind auf die Erfassung eines Ziels in den jeweiligen Bereichen spezialisiert. Die vortrainierten Modelle 138 und 140 unterscheiden sich also durch die Größe und/oder der Position eines zu erfassendes Ziels voneinander. Zum Beispiel ist das vortrainierte Modell 138 auf die Erfassung im oberen Bereich 160 mit einem Ziel 154 spezialisiert. Das vortrainierte Modell 140 ist auf die Erfassung im unteren Bereich 162 mit einem Ziel 152 spezialisiert. Es ist zu beachten, dass das Verfahren zur Aufteilung des Bildes nicht auf das oben beschriebene beschränkt ist und dass das Bild in drei Teile aufgeteilt werden kann, in einen linken und einen rechten Teil aufgeteilt werden kann oder an verschiedenen Positionen aufgeteilt werden kann. Die Zielerfassungsvorrichtung 102 unterteilt ein Bild in Bereiche, die von jeder Position eines Ziels abhängen, und umfasst eine Vielzahl vortrainierter Modelle, von denen jedes für jeden Bereich spezialisiert ist, und verarbeitet das Bild unter Verwendung der Vielzahl vortrainierter Modelle. Dabei kann die Vielzahl vortrainierter Modelle verschiedene Arten von Deep-Learning-Modellen verwenden. Beispielsweise wird für jeden Bereich ein vortrainiertes Modell erstellt, das ein anderes Deep-Learning-Modell gelernt hat, und der Zielerfassungsprozess wird für jeden Bereich durchgeführt. Alternativ kann ein vortrainiertes Modell erstellt werden, und das vortrainierte Modell kann modifiziert werden, um die Verarbeitungsmenge in Abhängigkeit von einem zu erfassendes Merkmal zu reduzieren, um ein anderes vortrainiertes Modell zu erhalten.
In 3 sind verschiedene vortrainierte Modelle in Abhängigkeit von den Positionen der Ziele dargestellt, aber die vorliegende Offenbarung ist darauf nicht beschränkt. Als eines der mehreren vortrainierten Modelle kann die Zielerfassungsvorrichtung 102 vor der Eingabe in ein vortrainiertes Modell eine Bildverarbeitung durchführen und einen Verdeckungsprozess für denselben ermittelten Bereich ausführen. Beispiele für den Verdeckungsprozess umfassen einen Prozess, bei dem ein Teil eines Bildes von einem Verarbeitungsziel ausgeschlossen wird, und einen Extraktionsprozess, bei dem ein anderer Bereich als ein zu verdeckender Bereich ausgeschnitten wird.
4 ist ein erklärendes Diagramm zur Beschreibung eines Bildbeispiels. Das in 4 dargestellte Bild 200 umfasst ein Ziel 202. Ein großer Teil des Bildes 200 besteht aus einer Wand, und das Ziel 202 befindet sich in einem Durchgang 206. In diesem Fall schneidet die Zielerfassungsvorrichtung 102 bei der Verarbeitung eines entsprechenden vortrainierten Modells einen Bereich 210 aus, erzeugt Bilddaten, in denen andere Bereiche als der Bereich 210 verdeckt sind, verarbeitet das Bild mit einem entsprechenden vortrainierten Modell und extrahiert das Ziel. Das vortrainierte Modell kann den Verarbeitungsaufwand im Vergleich zu einer direkten Verarbeitung des Bildes 200 reduzieren. Auf diese Weise ist es auch möglich, das vortrainierte Modell, das auf die Extraktion des Ziels spezialisiert ist, in das Bild einzubinden, in dem eine Wand 204 oder ähnliches ohne das Ziel 202 einen großen Teil ausmacht und das Ziel 202 sich in dem Bereich 210 befindet. Die Zielerfassungsvorrichtung 102 kann das Ziel in dem Bereich 210 mit hoher Genauigkeit extrahieren, indem sie eine Analyse unter Verwendung des vortrainierten Modells auf einem Bild ausführt, das durch Extraktion nur des Bereichs 210 erhalten wurde.
Als eines der Vielzahl vortrainierter Modelle kann die Zielerfassungsvorrichtung 102 ein Programm verwenden, das einen Prozess zur Festlegung eines Bildbereichs unter Verwendung eines Ergebnisses eines an der Zielerfassungsvorrichtung 102 angebrachten Sensors umfasst.
5 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels der Erfassungsverarbeitung. 6 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels für ein Bild der Erfassungsverarbeitung. 5 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels eines Bildes. 6 ist ein erklärendes Diagramm zur Beschreibung eines Erfassungsergebnisses eines Sensors. Wie in 5 dargestellt, veranlasst die Zielerfassungsvorrichtung 102 den Sensor 113, ein Ziel von einem Startpunkt 300 aus zu erfassen. Die Zielerfassungsvorrichtung 102 veranlasst den Sensor 113, ein Erfassungssignal 302 vom Startpunkt 300 auszugeben, um die Richtung und den Abstand eines Ziels 304 zu erfassen. In diesem Fall erlangt die Zielerfassungsvorrichtung 102 ein Bild 320 mittels der Kamera, wie in 6 dargestellt. Das Bild 320 umfasst ein Ziel 328. Das Ziel 328 ist in einem Bereich angeordnet, der mit einem Erfassungssignal 322 bestrahlt wird. Die Zielerfassungsvorrichtung 102 umfasst als eines der vortrainierten Modelle ein Programm zur Erfassung eines Ziels unter Verwendung des Erfassungsergebnisses des Sensors 113 und des Bildes als Eingaben. Die Zielerfassungsvorrichtung 102 kann auf der Grundlage der von dem Sensor 113 erfassten Informationen erfassen, dass das Bild des Ziels 328 in einem Bereich 326 dargestellt ist.
Die Zielerfassungsvorrichtung 102 kann das Ziel erfassen, indem sie den Bereich 326 auf der Grundlage der Informationen des Sensors 113 identifiziert, das Bild nur des Bereichs 326 extrahiert und die Bildverarbeitung nur für den Bereich 326 durchführt. In diesem Fall kann die Zielerfassungsvorrichtung 102 die Verarbeitung nur unter Verwendung eines Modells durchführen, das dem Bereich 326 aus der Vielzahl vortrainierter Modelle entspricht, oder sie kann eine Analyse durchführen, indem sie ein Bild, in dem andere Bereiche als der Bereich 326 verdeckt sind, in die Vielzahl vortrainierter Modelle eingibt.
Wie oben beschrieben, umfasst die Zielerfassungsvorrichtung 102 die Vielzahl vortrainierter Modelle 138 und 140, die den Merkmalen oder Charakteristika der jeweiligen Ziele in dem Bild entsprechen, und führt eine parallele Verarbeitung durch die vortrainierten Modelle 138 und 140 durch, wobei das Bild als eine Eingabe verwendet wird. Dementsprechend kann die Genauigkeit der Zielerfassung erhöht werden, während der Verarbeitungsaufwand reduziert wird. Da jedes der Vielzahl vortrainierter Modelle auf die Erfassung eines anderen Merkmals spezialisiert ist, ist es möglich, ein Ziel mit einem Zielmerkmal mit einem geringen Verarbeitungsaufwand zu erfassen. In ähnlicher Weise können, wie oben beschrieben, das vortrainierte Modell, das ein teilweise verdecktes Bild verwendet, und das vortrainierte Modell, das ein Erfassungsergebnis des Sensors verwendet, die Belastung bzw. den Arbeitsaufwand jedes der vortrainierten Modelle reduzieren.
Wie oben beschrieben, können die vortrainierten Modelle, die auf die jeweiligen Merkmale spezialisiert sind, hochpräzise Ergebnisse mit einem geringeren Verarbeitungsaufwand liefern als das vortrainierte Modell, das das gesamte Bild analysiert. Dementsprechend kann durch die selektive Verwendung einer Vielzahl von Modellen (komprimierte Modelle mit geringem Berechnungsaufwand) für jeden Bereich eines Bildes ein Ergebnis erzielt werden, das dem Ergebnis eines nicht komprimierten Modells entspricht, während die Gesamtverarbeitungsaufwand im Vergleich zu dem nicht komprimierten Modell reduziert wird. Infolgedessen kann die Zielerfassungsvorrichtung 102 eine Erfassungsgenauigkeit beibehalten, während der Gesamtverarbeitungsaufwand reduziert wird, selbst wenn die Zielerfassungsvorrichtung 102 eine parallele Verarbeitung unter Verwendung der Vielzahl vortrainierter Modelle durchführt.
7 ist ein erklärendes Diagramm, das ein Beispiel für die Verarbeitung eines vortrainierten Modells zeigt. Insbesondere kann die Zielerfassungsvorrichtung 102 ein Modell verwenden, das durch Beschneiden bzw. Ausschneiden eines Deep-Learning-Netzwerkmodells erhalten wurde, d. h. ein Modell, bei dem einige Optionen eliminiert wurden. Ein Lernmodell 170 umfasst mehrschichtige Knoten 172 und Gewichte 174, von denen jedes den Knoten 172 und den Knoten 172 verbindet. Eine Lerneinheit 34 führt eine Lernverarbeitung unter Verwendung des Lernmodells 170 durch, um einen Koeffizienten für jedes Gewicht 174 zwischen den Knoten 172 der jeweiligen Schichten zu berechnen. Basierend auf den berechneten Werten eliminiert die Lerneinheit 34 die Knoten 172 und die Gewichte 174, die ein Kriterium erfüllen, um zu bestimmen, dass der Einfluss auf die Analyse gering ist (der Grad des Einflusses ist gering). Anschließend wird ein Modell 180 erstellt, in dem die Knoten 172 und die Gewichte 174 im Vergleich zum Lernmodell 170 reduziert sind. Das Modell 180 ist ein Modell, bei dem die Knoten 186 und die Gewichte 188 gelöscht wurden. Durch die Spezialisierung eines Ziels, das von einem vortrainierten Modell für ein ausgewähltes Merkmal erkannt werden soll, kann die Zielerfassungsvorrichtung 102 eine Erfassung mit hoher Genauigkeit durchführen, indem sie das Modell 180 verwendet, das einem Beschneiden unterzogen wurde, d. h. ein Modell, in dem Optionen mit einem geringen Einflussgrad eliminiert wurden.
Außerdem kann die Programmerzeugungsvorrichtung 10 die Anzahl der Bits des Gewichts des Deep-Learning-Netzmodells auf 8 Bits oder weniger festlegen. 8 ist ein erklärendes Diagramm, das ein Beispiel für die Verarbeitung eines vortrainierten Modells zeigt. Die Speicherdaten 190 in 8 veranschaulichen beispielsweise einen Fall, bei dem das Gewicht 32 Bits beträgt. Andererseits veranschaulichen die Speicherdaten 192 einen Fall, bei dem das Gewicht 8 Bits beträgt. Die Datenmenge der Speicherdaten 192 beträgt etwa 1/4 derjenigen der Speicherdaten 190. Durch die Bereitstellung eines Modells mit einer hohen Zielerfassungsgenauigkeit für jeden Bereich eines Bildes kann die Zielerfassungsvorrichtung 102 ein Ziel mit hoher Genauigkeit erfassen, selbst wenn die Auflösung der zu verarbeitenden Daten reduziert ist.
Als nächstes wird eine Erstellung eines vortrainierten Modells beschrieben, das von der Zielerfassungsvorrichtung 102 verwendet wird. 9 ist ein Blockdiagramm, das ein Beispiel für eine Programmerzeugungsvorrichtung zeigt. Die Programmerzeugungsvorrichtung 10 umfasst eine Eingabeeinheit 12, eine Ausgabeeinheit 14, eine Berechnungseinheit 16 und eine Speichereinheit 18. Die Eingabeeinheit 12 umfasst eine Eingabevorrichtung, wie z. B. eine Tastatur und eine Maus, ein Touchpad oder Berührungsfeld oder ein Mikrofon, das Sprache von einem Bediener aufnimmt, und ein Signal, das einer von dem Bediener auf der Eingabevorrichtung durchgeführten Operation entspricht, an die Berechnungseinheit 16 ausgibt. Die Ausgabeeinheit 14 umfasst eine Anzeigevorrichtung, wie z. B. ein Display, und zeigt einen Bildschirm mit verschiedenen Arten von Informationen, wie z. B. ein Verarbeitungsergebnis und ein zu verarbeitendes Bild, als Reaktion auf ein von der Berechnungseinheit 16 ausgegebenes Anzeigesignal an. Die Ausgabeeinheit 14 kann eine Aufzeichnungsvorrichtung umfassen, die Daten auf einem Aufzeichnungsmedium ausgibt. Die Programmerzeugungsvorrichtung 10 kann eine Kommunikationseinheit umfassen, die Daten über eine Kommunikationsschnittstelle wie die Eingabeeinheit 12 und die Ausgabeeinheit 14 überträgt. Die Kommunikationseinheit überträgt verschiedene Arten von Daten und Programmen, die durch Kommunikation mit einem externen Gerät erlangt werden, an die Speichereinheit 18 und speichert die Daten und Programme. Die Kommunikationseinheit kann über eine drahtgebundene oder eine drahtlose Kommunikationsleitung mit einem externen Gerät verbunden sein.
Die Berechnungseinheit 16 umfasst einen integrierten Schaltkreis (Prozessor), wie z. B. eine zentrale Verarbeitungseinheit bzw. -Prozessor (CPU) oder eine Grafikverarbeitungseinheit (GPU), und einen Speicher, der als Arbeitsbereich dient, und führt verschiedene Arten der Verarbeitung aus, indem sie verschiedene Arten von Programmen unter Verwendung dieser Hardwareressourcen ausführt. Insbesondere liest die Berechnungseinheit 16 in der Speichereinheit 18 gespeicherte Programme, lädt die Programme in den Speicher und veranlasst den Prozessor, Anweisungen auszuführen, die in den in den Speicher geladenen Programmen umfasst sind, und führt so die verschiedenen Arten der Verarbeitung aus. Die Berechnungseinheit 16 umfasst eine Trainingsdaten-Erzeugungseinheit 30, eine Einstellungs-Verarbeitungseinheit 32, eine Lerneinheit 34 und eine Zielerfassungs-Verarbeitungseinheit 36. Bevor die einzelnen Einheiten der Berechnungseinheit 16 beschrieben werden, wird die Speichereinheit 18 beschrieben.
Die Speichereinheit 18 umfasst eine nichtflüchtige Speichervorrichtung, wie z. B. eine magnetische Speichervorrichtung oder eine Halbleiterspeichervorrichtung, und speichert verschiedene Arten von Programmen und Daten. Die Speichereinheit 18 umfasst Bilddaten 40, Einstellungsdaten 42, ein Lernausführungsprogramm 44, ein Lernbedingungs-Einstellprogramm 46, ein Zielerfassungsprogramm 48 und ein vortrainiertes Modell 50.
Die in der Speichereinheit 18 gespeicherten Daten umfassen die Bilddaten 40 und die Einstellungsdaten 42. Die Bilddaten 40 umfassen Trainingsdaten, die zum Lernen verwendet werden. Die Trainingsdaten sind Daten, die Daten eines Bildes und eines Bereichs (Bounding Box), in dem ein Ziel angezeigt wird, wenn das Ziel in dem Bild umfasst ist, zuordnen. Das Bild der Trainingsdaten kann Daten umfassen, die zum Lernen verwendet werden, sowie Daten zur Bewertung der Genauigkeit des Programms nach dem Lernen. Darüber hinaus können die Bilddaten auch Bilddaten umfassen, in denen ein Ziel erkannt werden muss. Die Einstellungsdaten 42 umfassen Informationen über Bedingungen zum Klassifizieren der Trainingsdaten, Bedingungen für die Verarbeitung der Trainingsdaten und Bedingungen für die Ausführung des vortrainierten Modells und ähnliches.
3 ist ein erklärendes Diagramm zur Beschreibung eines Beispiels eines Bildes der Trainingsdaten. Das in 3 dargestellte Bild 150 umfasst zwei Ziele 152 und 154. Die Ziele 152 und 154 sind an unterschiedlichen Positionen in derselben Ebene angeordnet. Das Ziel 152 ist näher an einer Bildaufnahmeposition angeordnet als das Ziel 154. Daher ist das Ziel 152 größer dargestellt als das Ziel 154. Wenn die Ziele in der gleichen Ebene in unterschiedlichen Abständen von der Bildaufnahmeposition angeordnet sind, wird in dem Bild 150 ein Ziel, das sich auf einer entfernten Seite befindet, auf der oberen Seite des Bildes angezeigt, und ein Ziel, das sich auf einer nahen Seite befindet, wird auf der unteren Seite des Bildes angezeigt. Das Ziel 152 wird also auf der unteren Seite des Ziels 154 angezeigt.
Bei den Trainingsdaten gemäß der vorliegenden Ausführungsform handelt es sich um Bilddaten, in denen ein Bereich, der ein Ziel umfasst, einem Bild zugeordnet ist. Darüber hinaus kann die Speichereinheit 18 den Bilddaten Informationen hinzufügen, die für jedes Merkmal des Ziels klassifiziert sind. Die Bilddaten können für jede Position, an der sich das Ziel befindet, klassifiziert werden. Die Programmerzeugungsvorrichtung 10 gemäß der vorliegenden Ausführungsform erstellt ein vortrainiertes Modell, das auf die Erfassung eines Ziels in Bezug auf eine Gruppe von Bildern spezialisiert ist, in denen sich das Ziel im oberen Bereich 160 befindet, und ein vortrainiertes Modell, das auf die Erfassung eines Ziels in Bezug auf eine Gruppe von Bildern spezialisiert ist, in denen sich das Ziel im unteren Bereich 162 befindet. In der vorliegenden Ausführungsform wird das Bild 150 in eine obere und eine untere Hälfte unterteilt, d. h. in den oberen Bereich 160 und den unteren Bereich 162. Es ist zu beachten, dass das Verfahren der Unterteilung des Bildes nicht auf die obigen Ausführungen beschränkt ist, und dass das Bild auch in drei Teile, in einen linken und einen rechten Teil, oder an verschiedenen Positionen unterteilt werden kann.
Die in der Speichereinheit 18 gespeicherten Programme umfassen das Lernausführungsprogramm 44, das Lernbedingungs-Einstellprogramm 46, das Zielerfassungsprogramm 48 und das vortrainierte Modell 50. Das Lernausführungsprogramm 44 führt eine Deep-Learning-Verarbeitung der in den Bilddaten 40 umfassten Trainingsdaten auf der Grundlage der Einstellung der Einstellungsdaten 42 durch und erstellt das vortrainierte Modell 50.
Das Lernbedingungs-Einstellprogramm 46 stellt verschiedene Arten von Bedingungen ein, nach denen das Lernausführungsprogramm 44 die Bildverarbeitung unter Verwendung eines Deep-Learning-Modells ausführt. Insbesondere wird ein Prozess der Einstellung von Bildverarbeitungsbedingungen und ein Prozess der Einstellung von Änderungsbedingungen des Deep-Learning-Modells während der Erfassungsverarbeitung ausgeführt. Das Lernbedingungs-Einstellprogramm 46 stellt Bedingungen für die Klassifizierung von Trainingsmodellen ein. Das Lernbedingungs-Einstellprogramm 46 legt Bedingungen für die Einstellung von Erfassungsmerkmalen von Zielen und Bedingungen für das Beschneiden der Deep-Learning-Modelle fest. Die durch das Lernbedingungs-Einstellprogramm 46 eingestellten Informationen werden in den Einstellungsdaten 42 gespeichert.
Das Zielerfassungsprogramm 48 ist ein Programm, das einen Zielerfassungsprozess unter Verwendung einer Vielzahl vortrainierter Modelle 50 ausführt. Das vortrainierte Modell 50 ist ein Programm, das durch die Ausführung des Lernausführungsprogramms 44 erstellt wird. Obwohl in 9 nur ein vortrainiertes Modell dargestellt ist, ist eine Vielzahl verschiedener vortrainierter Modelle gespeichert. Das Zielerfassungsprogramm 48 kann ein Merkmal (Punktzahl oder Bewertung) berechnen, das als erlerntes Bestimmungskriterium dient, indem es die Berechnungseinheit, die die Bildverarbeitung durchführt, veranlasst, das vortrainierte Modell 50 auszuführen, und den Zielerfassungsprozess auf der Grundlage des Merkmals ausführt.
In der Speichereinheit 18 können das Lernausführungsprogramm 44, das Lernbedingungs-Einstellprogramm 46 und das Zielerfassungsprogramm 48 durch Lesen des Lernausführungsprogramms 44, des Lernbedingungs-Einstellprogramms 46 und des Zielerfassungsprogramms 48, die in dem Aufzeichnungsmedium aufgezeichnet sind, installiert werden, oder alternativ können das Lernausführungsprogramm 44, das Lernbedingungs-Einstellprogramm 46 und das Zielerfassungsprogramm 48 durch Lesen des Lernausführungsprogramms 44, des Lernbedingungs-Einstellprogramms 46 und des Zielerfassungsprogramms 48, die in einem Netzwerk verfügbar sind, installiert werden.
Die Funktion jeder Einheit der Berechnungseinheit 16 wird im Folgenden beschrieben. Jede Einheit der Berechnungseinheit 16 kann durch Ausführen eines in der Speichereinheit 18 gespeicherten Programms ausgeführt werden. Wenn ein Ziel in den Bilddaten vorhanden ist, ordnet die Trainingsdaten-Erzeugungseinheit 30 Rahmeninformationen (Bounding Box), die einen Bereich des Ziels anzeigen, den Bilddaten zu. Der zu setzende Rahmen ist rechteckig. Die Trainingsdaten-Erzeugungseinheit 30 setzt die Rahmeninformationen auf der Grundlage einer Betätigungseingabe an die Eingabeeinheit 12 in einem Zustand, bei dem beispielsweise ein Bild über die Ausgabeeinheit 14 angezeigt wird. Die Betätigungseingabe, die in die Eingabeeinheit 12 eingegeben wird, ist eine Betätigung, mit der ein Bediener Informationen über eine Position eingibt, die die Position des Rahmens (Ziel) umgibt, während er das Bild betrachtet. Außerdem kann die Trainingsdaten-Erzeugungseinheit 30 das Ergebnis der Bildextraktionsverarbeitung erlangen, die von der Zielerfassungs-Verarbeitungseinheit 36 ausgeführt wird. In diesem Fall kann eine vom Bediener durchgeführte Betätigung zur Bestimmung, ob die Position des extrahierten Rahmens korrekte Daten der Trainingsdaten sind, erkannt werden, und Daten, bei denen die Position des Rahmens vom Bediener als korrekt bestimmt wird, können als Trainingsdaten erlangt werden.
Die Einstellungs-Verarbeitungseinheit 32 führt die Verarbeitung des Lernbedingungs-Einstellprogramms 46 aus und stellt Bedingungen für die Verarbeitung des Deep-Learning-Modell ein, das von der Lerneinheit 34 ausgeführt wird. Die Einstellungs-Verarbeitungseinheit 32 stellt die zu verarbeitenden Trainingsdaten ein. Die Einstellungs-Verarbeitungseinheit 32 legt Bedingungen für die Verarbeitung der Bilddaten der Trainingsdaten fest.
Die Lerneinheit 34 führt die Verarbeitung des Lernausführungsprogramms 44 unter Verwendung der von der Einstellungs-Verarbeitungseinheit 32 festgelegten Bedingungen aus und führt Deep Learning unter Verwendung der Bilddaten 40 als Trainingsdaten durch und erstellt dadurch ein vortrainiertes Modell. Die Verarbeitung durch die Lerneinheit 34 wird später beschrieben.
Die Zielerfassungs-Verarbeitungseinheit 36 verarbeitet das vortrainierte Modell 50 unter Verwendung des Zielerfassungsprogramms 48 und führt eine Verarbeitung aus, um zu bestimmen, ob ein Ziel in dem erlangten Bild umfasst ist oder nicht, d. h. den Zielerfassungsprozess.
Bei der vorliegenden Ausführungsform umfasst die Programmerzeugungsvorrichtung 10 zwar die Trainingsdaten-Erzeugungseinheit 30 und die Zielerfassungs-Verarbeitungseinheit 36. Die Programmerzeugungsvorrichtung 10 muss jedoch nicht die Trainingsdaten-Erzeugungseinheit 30 und die Zielerfassungs-Verarbeitungseinheit 36 umfassen. Die Trainingsdaten können also von einer anderen Vorrichtung erstellt werden. In diesem Fall dient eine Vorrichtung, die die Funktion der Trainingsdaten-Erzeugungseinheit 30 implementiert, als Trainingsdaten-Erzeugungsvorrichtung. Die Zielerfassungs-Verarbeitungseinheit 36, die die Verarbeitung der Erfassung eines Ziels aus einem Bild ausführt, kann nur in der Zielerfassungsvorrichtung 102 vorgesehen sein.
Vortrainiertes-Modell-Erstellungsmethode
10 ist ein Flussdiagramm, das ein Beispiel für ein Verfahren zur Erstellung eines vortrainierten Modells zeigt. Die in 10 dargestellte Verarbeitung wird von der Trainingsdaten-Erzeugungseinheit 30 und der Lerneinheit 34 ausgeführt, die Berechnungen mit dem Lernausführungsprogramm durchführen. 10 zeigt außerdem einen Fall, bei dem eine Beschneidungsverarbeitung durchgeführt wird. Die Beschneidungsverarbeitung kann von einem Bediener durchgeführt werden.
Die Trainingsdaten-Erzeugungseinheit 30 erstellt Trainingsdaten (Schritt S112). Beispielsweise werden Trainingsdaten mit Bilddaten, in denen ein Ziel im oberen Bereich 160 vorhanden ist, und Bilddaten, in denen ein Ziel im unteren Bereich 162 vorhanden ist, erstellt. Die Trainingsdaten umfassen eine Vielzahl von Einheiten von Bilddaten, in denen die Bilddaten und die Informationen über die Position des Ziels miteinander verbunden sind.
Die Lerneinheit 34 erstellt ein vortrainiertes Modell durch Verarbeitung der Trainingsdaten (Schritt S1 14). Die Lerneinheit 34 erstellt das vortrainierte Modell, indem sie Deep Learning an einem Lernmodell unter Verwendung der Trainingsdaten durchführt.
Die Lerneinheit 34 legt ein Erfassungsmerkmal für das Ziel fest (Schritt S116). Zum Beispiel legt die Lerneinheit 34 als Erfassungsmerkmal einen Fall fest, in dem ein Ziel im oberen Bereich 160 vorhanden ist. Die Lerneinheit 34 führt eine Beschneidung am vortrainierten Modell durch (Schritt S118). Basierend auf dem eingestellten Erfassungsmerkmal des Ziels und den von der Einstellungs-Verarbeitungseinheit 32 eingestellten Bedingungen eliminiert die Lerneinheit 34 aus den Optionen des Deep-Learning-Modells die Knoten und Gewichte, die aus dem in Schritt S114 erstellten vortrainierten Modell als geändert bestimmt wurden. Die Lerneinheit 34 extrahiert Knoten und Gewichte, die die Erfassung des Ziels nicht beeinflussen, basierend auf dem Erfassungsmerkmal des Ziels, eliminiert die extrahierten Knoten und Gewichte und erstellt ein Modell, das auf das Erfassungsmerkmal spezialisiert ist.
Die Lerneinheit 34 stellt fest, ob ein Erfassungsmerkmal eingestellt werden soll oder nicht (Schritt S120). Wenn festgestellt wird, dass es ein einzustellendes Erfassungsmerkmal gibt (Ja in Schritt S120), kehrt die Lerneinheit 34 zu Schritt S116 zurück. Dann wird zum Beispiel ein Fall, in dem ein Ziel im unteren Bereich 162 vorhanden ist, als ein anderes Erfassungsmerkmal festgelegt, und ein anderes Modell, das auf den Fall spezialisiert ist, in dem das Ziel im unteren Bereich 162 vorhanden ist, wird durch Ausführen eines teilweisen Beschneidens des Modells erstellt. Zu beachten ist, dass die Erfassungsmerkmale nicht auf den Fall beschränkt sind, in dem das Ziel sowohl im oberen Bereich 160 als auch im unteren Bereich 162 vorhanden ist, und dass Modelle erstellt werden können, die den verschiedenen oben beschriebenen Merkmalstypen entsprechen. Wenn festgestellt wird, dass kein Erfassungsmerkmal einzustellen ist (Nein in Schritt S 120), bestimmt die Lerneinheit 34 das vortrainierte Modell für jedes Merkmal (Schritt S122) und beendet die Verarbeitung.
Wie oben beschrieben, führt die Lerneinheit 34 die Deep-Learning-Verarbeitung aus, um ein vortrainiertes Modell zu erstellen. Anschließend modifiziert die Lerneinheit 34 das Modell basierend auf dem eingestellten Erfassungsmerkmal, um das vortrainierte Modell zu erstellen, das das modifizierte Modell verwendet, um jedem Erfassungsmerkmal zu entsprechen und den Verarbeitungsaufwand zu reduzieren. Wie oben beschrieben, ist es durch die Identifizierung der Erfassungsmerkmale und die Reduzierung des Verarbeitungsaufwands des Modells in Abhängigkeit von jedem der Erfassungsmerkmale möglich, den Verarbeitungsaufwand des Modells zu reduzieren, während Teile der für das Ziel erforderlichen Erfassungsmerkmale beibehalten werden. Dementsprechend ist es möglich, eine Analyse mit hoher Genauigkeit durchzuführen, wobei das Modell einen geringen Rechenaufwand hat. Bei der obigen Ausführungsform wurde ein Fall beschrieben, in dem das Beschneiden bzw. Ausschneiden eines Modells durchgeführt wird. Es kann jedoch auch ein Modell verwendet werden, bei dem die Auflösung der zu verarbeitenden Daten in Abhängigkeit von einem Erfassungsmerkmal reduziert ist. Wenn beispielsweise die Erfassung eines großen Ziels in einem Bild oder die Erfassung eines kontrastreichen Ziels als Erfassungsmerkmal festgelegt ist, kann das Ziel auch mit einem Modell, bei dem die Auflösung (die Anzahl der Bits) des Bildes reduziert ist, mit hoher Genauigkeit erkannt werden.
Referenz-Zeichenliste

10: Programmerzeugungsvorrichtung
12: Eingabeeinheit
14: Ausgabeeinheit
16, 116: Berechnungseinheit
18, 118: Speichereinheit
30: Trainingsdaten-Erzeugungseinheit
32: Einstellungs-Verarbeitungseinheit
34: Lerneinheit
36: Zielerfassungs-Verarbeitungseinheit
40: Bilddaten
42, 134: Einstellungsdaten
44: Lernausführprogramm
46: Lernbedienung-Einstellprogramm
48, 136: Zielerfassungsprogramm
50, 138, 140: vortrainiertes Modell
102: Zielerfassungsvorrichtung
112: Kameraeinheit
113: Sensor
114: Benachrichtigungseinheit
130: Zielerfassungs- Verarbeitungseinheit
132: Benachrichtigungs-Verarbeitungseinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2019200769 A [0003]

Claims

Eine Zielerfassungsvorrichtung, umfassend: eine Speichereinheit, die dazu ausgestaltet ist, eine Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells zu speichern, wobei die schlanken Programme dazu ausgestaltet sind, ein Ziel aus einem Bild zu erfassen; eine Kameraeinheit, dazu ausgestaltet ein Bild zu erlangen; und eine Zielerfassungs-Verarbeitungseinheit, die dazu ausgestaltet ist, eine parallele Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle auszuführen und ein Ziel basierend auf Erfassungsergebnisse der vortrainierten Modelle zu erfassen, wobei jedes der vortrainierten Modelle sich von den übrigen vortrainierten Modellen durch eine Größe des zu extrahierenden Ziels unterscheidet.
Zielerfassungsvorrichtung nach Anspruch 1, wobei jedes der vortrainierten Modelle ein Programm ist, bei dem eine Option mit einem geringen Einfluss eliminiert ist und das sich in einem Deep-Learning-Netzwerkmodell von dem Rest der vortrainierten Modelle unterscheidet.
Zielerfassungsvorrichtung nach Anspruch 1 oder 2, wobei das Deep-Learning-Netzwerkmodell eine Bitbreite von 8 Bit oder weniger aufweist.
Zielerfassungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei eines der Vielzahl vortrainierter Modelle ein Ziel erfasst, wenn das Ziel auf einer oberen Seite einer Trennlinie eines Bildes umfasst ist, und eines der der Vielzahl vortrainierter Modelle ein Ziel erfasst, wenn das Ziel auf einer unteren Seite der Trennlinie eines Bildes umfasst ist.
Zielerfassungsvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Zielerfassungs-Verarbeitungseinheit einen Prozess des Maskierens eines vorbestimmten Bereichs durchführt, bevor eine Verarbeitung unter Verwendung eines der Vielzahl vortrainierter Modelle durchführt, und ein Ziel durch Verarbeiten eines Bildes, in dem der vorbestimmte Bereich verdeckt ist, unter Verwendung des einen der vortrainierten Modelle erfasst.
Zielerfassungsvorrichtung nach einem der Ansprüche 1 bis 5, wobei in der Zielerfassungs-Verarbeitungseinheit die Verarbeitung unter Verwendung eines der Vielzahl vortrainierter Modelle eine Verarbeitung von Daten ist, in denen Positionsinformationen, die von einem Sensor zu einem Zeitpunkt der Aufnahme des Bildes erfasst wurden, dem Bild zugeordnet sind.
Verfahren zur Zielerfassung, umfassend: Speichern einer Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells, wobei die schlanken Programme so ausgestaltet sind, ein Ziel in einem Bild zu erfassen; Erlangen eines Bildes; und Erfassen eines Ziels, wobei das Erfassen umfasst: Ausführen einer parallelen Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle, und Erfassen des Ziels basierend auf Erfassungsergebnisse der vortrainierten Modelle, wobei jedes der vortrainierten Modelle sich von den übrigen vortrainierten Modellen durch eine Größe eines zu extrahierenden Ziels unterscheidet.
Zielerfassungsprogramm, das dazu ausgestaltet ist, eine Ausführung einer Verarbeitung zu veranlassen, wobei die Verarbeitung umfasst: Speichern einer Vielzahl vortrainierter Modelle unter Verwendung eines Deep-Learning-Netzwerkmodells, wobei die schlanken Modelle so ausgestaltet sind, ein Ziel in einem Bild zu erfassen; Erlangen eines Bildes; und Erfassen eines Ziels, wobei das Erfassen umfasst: Ausführen einer parallelen Verarbeitung des erlangten Bildes unter Verwendung der Vielzahl vortrainierter Modelle, und Erfassen des Ziels basierend auf Erfassungsergebnisse der vortrainierten Modelle, wobei jedes der vortrainierten Modelle sich von den übrigen vortrainierten Modellen durch eine Größe eines zu extrahierenden Ziels unterscheidet.