DE112021000027T5

DE112021000027T5 - Trainingsdatenerzeugungsverfahren, Trainingsdatenerzeugungsvorrichtung und Programm

Info

Publication number: DE112021000027T5
Application number: DE112021000027.6T
Authority: DE
Inventors: Shogo Sakuma
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Automotive Systems Co Ltd
Priority date: 2020-03-26
Filing date: 2021-01-14
Publication date: 2022-01-13
Also published as: JP2021157404A; US20220051055A1; JP7145440B2; WO2021192515A1

Abstract

Ein Trainingsdatenerzeugungsverfahren enthält: ein Erlangen eines Kamerabildes (C1), eines markierten Bildes (S1), erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild (C1), und eines Objektbildes, das ein durch ein Lernmodell zu erfassendes Objekt (O) zeigt (S10); ein Identifizieren eines bestimmten, dem Objekt entsprechenden Bereichs auf Grundlage des markierten Bildes (S1) (S20); und ein Einfügen des Objektbildes (O) in den bestimmten Bereich auf jedem aus dem Kamerabild (C1) und dem annotierten Bild (S1) (S40).

Description

[Technisches Gebiet]
Die vorliegende Offenbarung betrifft ein Trainingsdatenerzeugungsverfahren, eine Trainingsdatenerzeugungsvorrichtung und ein Programm.
[Technischer Hintergrund]
In den letzten Jahren wurden Objekterfassungsvorrichtungen entwickelt, die Objekte unter Verwendung von Lernmodellen erfassen, die durch maschinelles Lernen, wie etwa tiefes Lernen, trainiert sind. Um die Genauigkeit bei der Objekterfassung unter Verwendung eines Lernmodells zu verbessern, ist ein großer Umfang an Trainingsdaten für das Training erforderlich. Insbesondere führt beim tiefen Lernen der Umfang an Trainingsdaten oft zu einer Verbesserung der Genauigkeit.
Angesichts dessen sind verschiedene Techniken vorgeschlagen, die den Umfang an Daten durch ein Umwandeln bestehender Trainingsdaten erhöhen. Die Patentschrift 1 offenbart ein Ausschneiden eines bestimmten Bereichs aus einem von zwei Bildern und ein Einfügen des ausgeschnittenen Bereichs in das andere Bild. Andererseits offenbart die Patentschrift 2 ein Ausschneiden eines zu erfassenden Teils auf einem Bild eines Untersuchungsobjekts und ein Einfügen des ausgeschnittenen Teils in ein anderes Bild des Untersuchungsobjekts.
[Literaturverzeichnis]
[Patenthiteratur]

[PTL 1] Ungeprüfte japanische Patentanmeldungsveröffentlichung Nr. 2017-45441
[PTL 2] Japanisches Patent Nr. 6573226

[Zusammenfassung der Erfindung]
[Technische Aufgaben]
Die Technik gemäß der Patentschrift 1 kann jedoch ein Bild einer tatsächlich unmöglichen Szene erzeugen, wie etwa ein am Himmel schwebendes Fahrzeug. Bei der Verwendung von Trainingsdaten, die ein solches Bild enthalten, kann sich die Genauigkeit des Lernmodells verschlechtern. Die Technik gemäß der Patentschrift 2 berechnet die Position, an der der ausgeschnittene Teil auf dem anderen Bild des Untersuchungsobjekts einzufügen ist, auf Grundlage von statistischen Informationen. Das heißt, die Technik gemäß der Patentschrift 2 erfordert weitere Informationen als die Trainingsdaten und ist somit nicht anwendbar, sofern diese Informationen nicht vorab erlangt wurden.
Angesichts dessen betrifft die vorliegende Offenbarung ein Trainingsdatenerzeugungsverfahren, eine Trainingsdatenerzeugungsvorrichtung und ein Programm, die in der Lage sind, Trainingsdaten zu erzeugen, die Bilder tatsächlich möglicher Szenen enthalten, ohne irgendwelche anderen Informationen als die Trainingsdaten zu verwenden.
[Lösungen der Aufgaben]
Ein Trainingsdatenerzeugungsverfahren gemäß einem Aspekt der vorliegenden Offenbarung enthält: ein Erlangen eines Kamerabildes, eines annotierten Bildes, erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und eines Objektbildes, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; ein Identifizieren eines bestimmten, dem Objekt entsprechenden Bereiches auf Grundlage des annotierten Bildes; und ein Einfügen (Compositing) des Objektbildes in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild.
Eine Trainingsdatenerzeugungsvorrichtung gemäß einem Aspekt der vorliegenden Offenbarung enthält: einen Erlanger, der ein Kamerabild, ein annotiertes Bild, das erzeugt ist durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und ein Objektbild erlangt, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; einen Markierungsbestimmer, der einen bestimmten, dem Objekt entsprechenden Bereich auf Grundlage des annotierten Bildes identifiziert; und einen Bildcompositor, der das Objektbild in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild einfügt.
Ein Programm gemäß einem Aspekt der vorliegenden Offenbarung dient dazu, einen Computer zu veranlassen, das oben beschriebene Trainingsdatenerzeugungsverfahren auszuführen.
[Vorteilhafte Wirkungen der Erfindung]
Das Trainingsdatenerzeugungsverfahren beispielsweise gemäß einem Aspekt der vorliegenden Offenbarung erzeugt Trainingsdaten, die Bilder tatsächlich möglicher Szenen enthalten, ohne irgendwelche andere Informationen als die Trainingsdaten zu verwenden.
Figurenliste

[1] 1 ist ein Blockdiagramm, das einen funktionellen Aufbau einer Bilderzeugungsvorrichtung gemäß der Ausführungsform 1 zeigt.
[2A] 2A zeigt beispielhafte Kamerabilder, gespeichert in einem ersten Speicher gemäß der Ausführungsform 1.
[2B] 2B zeigt beispielhafte markierte Bilder, gespeichert in dem ersten Speicher gemäß der Ausführungsform 1.
[2C] 2C zeigt ein beispielhaftes Objektbild, gespeichert in dem ersten Speicher gemäß der Ausführungsform 1.
[3A] 3A zeigt beispielhafte Composit-Kamerabilder, zu speichern in einem zweiten Speicher gemäß der Ausführungsform 1.
[3B] 3B zeigt beispielhafte markierte Compositbilder, zu speichern in dem zweiten Speicher gemäß der Ausführungsform 1.
[4] 4 ist ein Flussdiagramm, das einen Betrieb der Bilderzeugungsvorrichtung gemäß der Ausführungsform 1 zeigt.
[5] 5 ist ein Flussdiagramm, das einen beispielhaften Ablauf beim Vorgang des Einfügens eines Objektbildes gemäß der Ausführungsform 1 zeigt.
[6] 6 zeigt ein Ergebnis des Berechnens der Mittelpunktskoordinaten von Zielmarkierungen gemäß der Ausführungsform 1.
[7] 7 zeigt ein Ergebnis des Berechnens der Ausrichtungen der Zielmarkierungen gemäß der Ausführungsform 1.
[8] 8 ist ein Blockdiagramm, das einen funktionellen Aufbau einer Bilderzeugungsvorrichtung gemäß der Ausführungsform 2 zeigt.
[9A] 9A zeigt beispielhafte Composit-Kamerabilder, zu speichern in einem zweiten Speicher gemäß der Ausführungsform 2.
[9B] 9B zeigt beispielhafte markierte Compositbilder, zu speichern in dem zweiten Speicher gemäß der Ausführungsform 2.
[10] 10 ist ein Flussdiagramm, das einen Vorgang beim Verarbeiten des Einfügens eines Objektbildes gemäß der Ausführungsform 2 zeigt.

[Beschreibung von Ausführungsformen]
Ein Trainingsdatenerzeugungsverfahren gemäß einem Aspekt der vorliegenden Offenbarung enthält: ein Erlangen eines Kamerabildes, eines annotierten Bildes, erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und eines Objektbildes, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; ein Identifizieren eines bestimmten, dem Objekt entsprechenden Bereichs auf Grundlage des annotierten Bildes; und ein Einfügen des Objektbildes in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild. Zum Beispiel enthält bei dem Trainingsdatenerzeugungsverfahren das Einfügen ein Einfügen des Objektbildes in den bestimmten Bereich auf dem Kamerabild und ein Einfügen der Annotierungsinformationen, die dem Objektbild entsprechen, in den bestimmten Bereich auf dem annotierten Bild.
Demgemäß kann der Bereich, in den das Objektbild einzufügen ist, auf Grundlage des annotierten Bildes bestimmt werden. Das heißt, die Position, an der das Objektbild einzufügen ist, kann ohne eine Verwendung irgendwelcher anderen Informationen als der Trainingsdaten bestimmt werden. Dies reduziert die Erzeugung von Bildern tatsächlich unmöglicher Szenen, wie etwa eines am Himmel schwebenden Fahrzeugs. Als Ergebnis werden die Trainingsdaten, die Bilder tatsächlich möglicher Szenen enthalten, ohne die Verwendung irgendwelcher anderen Informationen als der Trainingsdaten erzeugt.
Anzumerken ist, dass die zum Trainieren eines Lernmodells verwendeten Trainingsdaten Sätze aus Kamerabildern und annotierten Bildern enthalten. Die Kamerabilder werden beim Training des Lernmodells als Eingangsbilder verwendet. Die annotierten Bilder werden beim Training des Lernmodells als Ground-Truth-Daten verwendet.
Zum Beispiel kann das Trainingsdatenerzeugungsverfahren weiter enthalten: ein Berechnen von Mittelpunktskoordinaten des bestimmten Bereichs auf Grundlage des annotierten Bildes. Das Objektbild kann so eingefügt werden, dass es die Mittelpunktskoordinaten auf jedem aus dem Kamerabild und dem annotierten Bild überlagert.
Demgemäß wird das Objektbild an einer Position näher einer tatsächlich möglichen Position eingefügt. Als ein Ergebnis werden die Trainingsdaten erzeugt, die Bilder tatsächlich möglicher Szenen enthalten.
Zum Beispiel kann das Trainingsdatenerzeugungsverfahren weiter enthalten: ein Berechnen einer Ausrichtung des bestimmten Bereichs auf Grundlage des annotierten Bildes. Das Objektbild kann in einer Ausrichtung eingefügt werden, die der Ausrichtung des bestimmten Bereichs entspricht.
Demgemäß wird das Objektbild in einer Ausrichtung näher einer tatsächlich möglichen Ausrichtung eingefügt. Als Ergebnis werden die Trainingsdaten erzeugt, die Bilder tatsächlich möglicher Szenen enthalten.
Zum Beispiel kann das Trainingsdatenerzeugungsverfahren weiter enthalten: ein Erlangen einer Größe des bestimmten Bereichs auf Grundlage des annotierten Bildes. Das Objektbild kann auf eine Größe kleiner als oder gleich der Größe des bestimmten Bereichs skaliert werden und wird eingefügt.
Demgemäß wird das Objektbild in einer Größe näher einer tatsächlich möglichen Größe eingefügt. Als Ergebnis werden die Trainingsdaten erzeugt, die Bilder tatsächlich möglicher Szenen enthalten.
Zum Beispiel kann das Trainingsdatenerzeugungsverfahren weiter enthalten: ein Berechnen einer Gesamtanzahl bestimmter Bereiche, die dem Objekt entsprechen, auf Grundlage des annotierten Bildes, wobei die bestimmten Bereiche jeweils der bestimmte Bereich sind; ein Berechnen von Kombinationen des Einfügens des Objektbildes in einen oder mehrere der bestimmten Bereiche; und ein Einfügen des Objektbildes in jede der Kombinationen.
Demgemäß werden die Bilder tatsächlich möglicher Szenen effizient vermehrt. Als Ergebnis werden die Trainingsdaten effizient erzeugt, die Bilder tatsächlich möglicher Szenen enthalten.
Zum Beispiel kann das Trainingsdatenerzeugungsverfahren weiter enthalten: ein Aktualisieren, auf Grundlage des Objektbildes, der Annotierungsinformationen über den bestimmten Bereich auf dem annotierte Bild, auf dem das Objektbild eingefügt worden ist.
Demgemäß wird eine Änderung im Attribut des Teils des bestimmten Bereichs, in den das Objektbild eingefügt worden ist, auf dem gesamten bestimmten Bereich wiedergegeben. Wenn der andere Teil des bestimmten Bereichs klein ist, wird ein annotiertes Bild erzeugt, das für ein Kamerabild geeignet ist, auf dem das Objektbild eingefügt worden ist.
Zum Beispiel kann das annotierte Bild ein markiertes Bild sein, erlangt durch ein Durchführen einer Bildsegmentierung des Kamerabildes. Das Objektbild kann in den bestimmten Bereich auf dem markierten Bild eingefügt werden.
Demgemäß werden die Kosten zum Erzeugen der Trainingsdaten stärker verringert als beim manuellen Erzeugen der Trainingsdaten für die Bildsegmentierung.
Eine Trainingsdatenerzeugungsvorrichtung gemäß einem Aspekt der vorliegenden Offenbarung enthält: einen Erlanger, der ein Kamerabild, ein annotiertes Bild, erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und ein Objektbild erlangt, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; einen Markierungsbestimmer, der einen bestimmten, dem Objekt entsprechenden Bereich auf Grundlage des annotierten Bildes identifiziert; und einen Bildcompositor, der das Objektbild in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild einfügt. Ein Programm gemäß einem Aspekt der vorliegenden Offenbarung dient dazu, einen Computer zu veranlassen, das oben beschriebene Trainingsdatenerzeugungsverfahren auszuführen.
Diese sehen dieselben Vorteile vor wie das oben beschriebene Trainingsdatenerzeugungsverfahren.
Diese allgemeinen und spezifischen Aspekte können unter Verwendung eines Systems, eines Verfahrens, einer integrierten Schaltung, eines Computerprogramms oder eines nichtflüchtigen computerlesbaren Aufzeichnungsmediums, wie etwa einer CD-ROM, oder einer beliebigen Kombination von Systemen, Verfahren, integrierten Schaltungen, Computerprogrammen oder Aufzeichnungsmedien umgesetzt sein. Die Programme können vorab auf einem Aufzeichnungsmedium gespeichert oder dem Aufzeichnungsmedium über ein Weitverkehrs-Kommunikationsnetzwerk einschließlich des Internets zugeführt werden.
Nachstehend sind Ausführungsformen unter Bezugnahme auf die Zeichnung genau beschrieben.
Zu beachten ist, dass die nachstehend beschriebenen Ausführungsformen nur übergreifende oder bestimmte Beispiele sind. Die Zahlenwerte, Formen, Bestandteile, die Anordnung und Verbindung der Bestandteile, Schritte, die Reihenfolge der Schritte usw., die in den folgenden Ausführungsformen gezeigt sind, sind somit nur Beispiele und sollen den Geltungsbereich der vorliegenden Offenbarung nicht einschränken. Zum Beispiel stellen die Zahlenwerte nicht nur die exakten Werte dar, sondern decken auch die im Wesentlichen gleichen Bereiche einschließlich Fehlern von mehreren Prozent ab. Unter den Bestandteilen in den folgenden Ausführungsformen sind diejenigen, die in keinem der unabhängigen Ansprüche angegeben sind, als wahlweise Bestandteile beschrieben. Die Figuren sind schematische Darstellungen und nicht unbedingt maßstäblich gezeichnet. In den Figuren sind im Wesentlichen gleiche Bestandteile mit denselben Bezugszeichen bezeichnet.
In dieser Beschreibung enthält das System nicht unbedingt eine Vielzahl von Vorrichtungen, sondern kann eine einzige Vorrichtung enthalten.
[Ausführungsform 1]
Nun ist eine Bilderzeugungsvorrichtung gemäß dieser Ausführungsform unter Bezugnahme auf 1 bis 3B beschrieben.
[1-1. Aufbau der Bilderzeugungsvorrichtung]
Zuerst ist ein Aufbau der Bilderzeugungsvorrichtung gemäß dieser Ausführungsform unter Bezugnahme auf 1 beschrieben. 1 ist ein Blockdiagramm, das einen funktionellen Aufbau einer Bilderzeugungsvorrichtung 1 gemäß dieser Ausführungsform zeigt. Die Bilderzeugungsvorrichtung 1 gemäß dieser Ausführungsform erzeugt Trainingsdaten (Datensätze), die für das maschinelle Lernen von Lernmodellen verwendet werden. Genauer führt die Bilderzeugungsvorrichtung 1 den Vorgang des automatischen Vergrößern des Umfangs an Trainingsdaten (d.h. der Anzahl von Trainingsdatensätzen), die zum maschinellen Lernen verwendet werden, beispielsweise auf Grundlage bestehender Trainingsdaten durch und gibt die vermehrten Trainingsdaten aus.
Nun ist ein Beispiel des Erzeugens (d.h. Vermehrens) von Trainingsdaten durch ein Einfügen eines Bildes eines Fahrzeugs in Stellplätze in einem Parkplatz beschrieben. Im folgenden Beispiel ist das Lernmodell zum Durchführen von semantischer Segmentierung (d.h. Bildsegmentierung) beschrieben.
Wie in 1 gezeigt, enthält die Bilderzeugungsvorrichtung 1 einen Erlanger 10, einen ersten Speicher 20, einen Markierungsbestimmer 30, einen Bildcompositor 40 und einen zweiten Speicher 50. Die Bilderzeugungsvorrichtung 1 ist ein Beispiel des Trainingsdatenerzeugungssystems.
Der Erlanger 10 erlangt die bestehenden, durch die Bilderzeugungsvorrichtung 1 zu verarbeitenden Trainingsdaten. Zum Beispiel kann der Erlanger 10 die bestehenden Trainingsdaten durch Kommunikation von einer externen Vorrichtung erlangen. In diesem Fall enthält der Erlanger 10 eine Kommunikationsschaltung (oder ein Kommunikationsmodul) zum Kommunizieren mit der externen Vorrichtung. Wenn der erste Speicher 20 die bestehenden Trainingsdaten speichert, kann der Erlanger 10 die bestehenden Trainingsdaten aus dem ersten Speicher 20 auslesen. Die bestehenden Trainingsdaten wurden beispielsweise vorab erzeugt oder erlangt. Die bestehenden Trainingsdaten können beispielsweise veröffentlichte Trainingsdaten (Datensätze) sein.
Der erste Speicher 20 ist eine Speichervorrichtung, die verschiedene Informationen speichert, die benutzt werden, wenn die Bilderzeugungsvorrichtung 1 den Vorgang des Vermehrens der Trainingsdaten ausführt. Der erste Speicher 20 speichert die bestehenden Trainingsdaten, die durch die Bilderzeugungsvorrichtung 1 zu vermehren sind, und Objektbilder, die durch Lernmodelle zu erfassende Objekte zeigen. Zum Beispiel ist der erste Speicher 20 ein Halbleiterspeicher. Wenn der Erlanger 10 die bestehenden Trainingsdaten von einer externen Vorrichtung erlangt, speichert der erste Speicher 20 möglicherweise die bestehenden Trainingsdaten nicht.
Nachstehend sind die verschiedenen im ersten Speicher 20 gespeicherten Informationen mit Bezugnahme auf 2A bis 2C beschrieben. 2A zeigt ein Beispiel eines im ersten Speicher 20 gemäß dieser Ausführungsform gespeicherten Kamerabildes C1. 2B zeigt ein Beispiel eines im ersten Speicher 20 gemäß dieser Ausführungsform gespeicherten markierten Bildes S1. 2C zeigt ein Beispiel eines im ersten Speicher 20 gemäß dieser Ausführungsform gespeicherten Objektbildes O. Anzumerken ist, dass die Trainingsdaten eine Vielzahl von Sätzen aus Kamerabildern C1 und markierten Bildern S1 enthalten.
Wie in 2A gezeigt, speichert der erste Speicher 20 eine Vielzahl von Kamerabildern, einschließlich des Kamerabildes C1. Das Kamerabild C1 wurde von einer Bildaufnahmevorrichtung aufgenommen, wie etwa einer Kamera (z.B. einer Fahrzeugbordkamera). Das Kamerabild C1 enthält beispielsweise drei Stellplätze P1 bis P3 und einen Gang R. Anzumerken ist, dass das Kamerabild C1 beim Training eines Lernmodells als Eingangsbild verwendet wird.
Wie in 2B gezeigt, speichert der erste Speicher 20 eine Vielzahl von markierten Bildern, einschließlich des markierten Bildes S1. Das markierte Bild S1 weist dieselbe Größe auf wie das Kamerabild C1 und ist mit Markierungswerten versehen (z.B. ganzen Zahlen). Jeder Markierungswert ist den Pixeln gegeben, die als derselbe Objektbereich auf dem Kamerabild C1 betrachtet werden. Das heißt, das markierte Bild S1 weist Markierungswerte als Pixelwerte auf. Anzumerken ist, dass das markierte Bild S1 beim Training eines Lernmodells als Ground-Truth-Daten verwendet wird. Die Markierungswerte sind Beispiele der Annotierungsinformationen. Das markierte Bild S1 ist ein Beispiel des annotierten Bildes.
Der markierte Bereich L1 ist ein Bereich (d.h. ein horizontal schraffierter Bereich), der einem Stellplatz P1 auf dem Kamerabild C1 entspricht, und ist mit einem ersten Markierungswert versehen, der angibt, dass ein Parken möglich ist. Der markierte Bereich L1 auf dem markierten Bild S1 befindet sich an derselben Position wie der Stellplatz P1 auf dem Kamerabild C1. Der markierte Bereich L2 ist ein Bereich (d.h. ein vertikal schraffierter Bereich), der einem Stellplatz P2 auf dem Kamerabild C1 entspricht, und ist mit einem zweiten Markierungswert versehen, der angibt, dass ein Parken möglich ist. Der markierte Bereich L2 auf dem markierten Bild S1 befindet sich an derselben Position wie der Stellplatz P2 auf dem Kamerabild C1.
Der markierte Bereich L3 ist ein Bereich (d.h. ein diagonal schraffierter Bereich), der einem Stellplatz P3 auf dem Kamerabild C1 entspricht, und ist mit einem dritten Markierungswert versehen, der angibt, dass ein Parken möglich ist. Der markierte Bereich L3 auf dem markierten Bild S1 befindet sich an derselben Position wie der Stellplatz P3 auf dem Kamerabild C1. Der markierte Bereich L4 ist ein Bereich (d.h. ein nicht schraffierter Bereich), der einem Gang R auf dem Kamerabild C1 entspricht, und ist mit einem Markierungswert versehen, der einem Gang entspricht. Der markierte Bereich L4 auf dem markierten Bild S1 befindet sich an derselben Position wie der Gang R auf dem Kamerabild C1.
Auf diese Weise kann bei dieser Ausführungsform auch gesagt werden, dass die markierten Bereiche L1 bis L3 mit den Markierungswerten versehen sind, die angeben, dass ein Parken möglich ist, und dass der markierte Bereich L4 mit dem Markierungswert versehen ist, der angibt, dass kein Parken möglich ist. Anzumerken ist, dass die ersten bis dritten Markierungswerte gleich oder voneinander verschieden sein können. Anzumerken ist, dass die markierten Bereiche auch einfach als „Markierungen“ bezeichnet sind.
Wie das markierte Bild S1 zu erzeugen ist, ist nicht besonders eingeschränkt, und ein beliebiges bekanntes Verfahren kann verwendet werden. Das markierte Bild S1 kann durch ein manuelles Markieren des Kamerabildes C1 erzeugt werden oder automatisch durch eine Bildsegmentierung des Kamerabildes C1 erzeugt werden.
Wie in 2C gezeigt, speichert der erste Speicher 20 eine Vielzahl von Objektbildern, einschließlich des Objektbildes O. In dieser Ausführungsform zeigt das Objektbild O ein Fahrzeug. Das Objektbild O kann erzeugt werden durch ein Ausschneiden eines Objektbereichs aus einem durch eine Bildaufnahmevorrichtung aufgenommenen Bild oder kann ein Computergrafik-Bild (CG-Bild) sein. Das Objektbild O wird auf dem Kamerabild C1 und dem markierten Bild S1 durch einen Bildcompositor 40 eingefügt, der weiter unten beschrieben ist.
Anzumerken ist, dass das Objekt nicht unbedingt ein Fahrzeug ist, sondern ein beliebiges Objekt sein kann, das dem Kamerabild C1 entspricht. Ein Objekt kann ein Motorrad, eine Person oder eine beliebige andere Sache sein.
Wieder mit Bezugnahme auf 1 bestimmt der Markierungsbestimmer 30 Zielmarkierungen, auf denen das Objektbild O einzufügen ist, auf dem markierten Bild S1 auf Grundlage des markierten Bildes S1. Der Markierungsbestimmer 30 enthält einen Markierungszähler 31 und einen Kombinationsrechner 32.
Der Markierungszähler 31 zählt aus dem markierten Bild S1 die Anzahl von Markierungen auf dem markierten Bild S1. In 2B zählt der Markierungszähler 31 drei Markierungen (d.h. die markierten Bereiche L1 bis L3) als Stellplätze und eine Markierung (d.h. den markierten Bereich L4) als einen Gang.
Der Markierungszähler 31 zählt die Anzahl von Markierungen, auf denen das Objektbild O auf dem markierten Bild S1 einzufügen ist. Der Markierungszähler 31 zählt drei Stellplätze als Zielmarkierungen, auf denen ein durch das Objektbild O gezeigtes Objekt (z.B. ein Fahrzeug) einzufügen ist. Zum Beispiel kann der Markierungszähler 31 die Anzahl von Zielmarkierungen auf Grundlage einer Tabelle zählen, die in Verknüpfung Objekte, die durch das Objektbild O gezeigt werden können, und Markierungswerte enthält, die den Objekten entsprechen. In dieser Ausführungsform sind die markierten Bereiche L1 bis L3, die den Stellplätzen P1 bis P3 entsprechen, Beispiele der bestimmten Bereiche, die einem durch das Objektbild O gezeigten Objekt entsprechen. Es kann auch gesagt werden, dass der Markierungszähler 31 die bestimmten Bereiche, die einem durch das Objektbild O gezeigten Objekt entsprechen, auf Grundlage des markierten Bildes S1 identifiziert.
Der Kombinationsrechner 32 berechnet Kombinationen der Markierungen, auf denen das Objektbild O einzufügen ist, auf Grundlage der durch den Markierungszähler 31 gezählten Anzahl von Markierungen. In 2B berechnet der Kombinationsrechner 32, dass es sieben Kombinationen der Markierungen gibt, auf denen das Objektbild O einzufügen ist. Das heißt, der Kombinationsrechner 32 bestimmt, dass es sieben Kombinationen der Markierungen gibt.
Die sieben Kombinationen sind folgende: markierter Bereich L1; markierter Bereich L2; markierter Bereich L3; markierte Bereiche L1 und L2, markierte Bereiche L1 und L3, markierte Bereiche L2 und L3 und markierte Bereiche L1 bis L3. Auf diese Weise berechnet der Kombinationsrechner 32 vorteilhaft alle Kombinationen der Markierungen hinsichtlich eines effektiven Vermehrens der Trainingsdaten. Anzumerken ist, dass der Kombinationsrechner 32 nicht unbedingt alle der Kombinationen der Markierungen berechnet.
Der Bildcompositor 40 fügt das Objektbild O auf dem Kamerabild C1 auf Grundlage der Kombinationen der durch den Markierungsbestimmer 30 bestimmten Markierungen ein. Zum Beispiel fügt der Bildcompositor 40 das Objektbild O auf dem Kamerabild C1 in allen der Kombinationen der Markierungen ein. Der Bildcompositor 40 enthält einen Positionsrechner 41, einen Ausrichtungsrechner 42, einen Skalierungsratenrechner 43 und einen Compositor 44.
Der Positionsrechner 41 berechnet die Koordinaten (z.B. die Pixelkoordinaten) der durch den Markierungszähler 31 gezählten Zielmarkierungen auf dem markierten Bild S1. Der Positionsrechner 41 berechnet die Mittelpunktskoordinaten der Zielmarkierungen auf dem markierten Bild S1. Der Positionsrechner 41 berechnet die Mittelpunktskoordinaten der Zielmarkierungen auf Grundlage der Schwerpunktskoordinaten der Zielmarkierungen. Die Mittelpunktskoordinaten sind zum Einfügen des Objektbildes O auf die Zielmarkierungen benutzte Bezugswerte.
Zum Beispiel berechnet der Positionsrechner 41 die Schwerpunktskoordinaten der Bereiche mit einer Zielmarkierung (z.B. des markierten Bereichs L1) als die Mittelpunktskoordinaten des markierten Bereichs. Wenn der Bereich mit einer Zielmarkierung beispielsweise eine rechteckige Form aufweist, kann der Positionsrechner 41 die Mittelpunktskoordinaten des Bereichs mit der Zielmarkierung auf Grundlage der jeweiligen Koordinaten der vier Ecken berechnen, die die Zielmarkierung bilden. Demgemäß können die Koordinaten der Umgebung der Mitte des Bereichs mit der Zielmarkierung als die Mittelpunktskoordinaten berechnet werden, und das Objektbild O kann somit bei der Verarbeitung, die weiter unten beschrieben ist, an einer tatsächlich möglichen Position eingefügt werden.
Der Positionsrechner 41 kann als die Mittelpunktskoordinaten einer Zielmarkierung Koordinaten berechnen, die erlangt sind durch ein Bewegen der Schwerpunktskoordinaten des Bereichs mit der Zielmarkierung innerhalb eines bestimmten Bereichs. Zum Beispiel kann der Positionsrechner 41 die Schwerpunktskoordinaten des Bereichs mit der Zielmarkierung gemäß der Normalverteilung innerhalb eines bestimmten Bereichs bewegen. Der Positionsrechner 41 kann die Mittelpunktsposition vom Schwerpunkt weg bewegen, solange das Objektbild O in den Bereich mit der Zielmarkierung fällt. Der Positionsrechner 41 kann eine Vielzahl von Mittelpunktskoordinaten für eine einzige Zielmarkierung berechnen.
Anzumerken ist, dass die Mittelpunktskoordinaten (z.B. die Pixelkoordinaten) der Zielmarkierungen auf dem markierten Bild S1 dieselben sind wie diejenigen der Stellplätze, die den Zielmarkierungen auf dem Kamerabild C1 entsprechen.
Der Ausrichtungsrechner 42 berechnet die Ausrichtungen der Zielmarkierungen. Zum Beispiel führt der Ausrichtungsrechner 42 eine Hauptbestandteilsanalyse über die Verteilung der Punkte (d.h. Koordinaten) durch, die in dem Bereich mit einer Zielmarkierung auf dem markierten Bild S1 enthalten sind, und berechnet die Ausrichtung der Zielmarkierung auf Grundlage des Ergebnisses der Hauptbestandteilsanalyse. Zum Beispiel kann der Ausrichtungsrechner 42 die Ausrichtung einer Zielmarkierung unter Verwendung des als Ergebnis der Hauptbestandteilsanalyse erlangten Eigenvektors berechnen.
Anzumerken ist, dass der Ausrichtungsrechner 42 die Ausrichtung nach einem anderen bekannten Verfahren berechnen kann. Wenn beispielsweise eine Markierung eine rechteckige Form aufweist, kann der Ausrichtungsrechner 42 die Richtung einer der längeren oder kürzeren Seiten der Markierung auf dem markierten Bild S1 berechnen. Wenn beispielsweise eine Markierung eine ovale Form aufweist, kann der Ausrichtungsrechner 42 die Richtung der längeren oder kürzeren Achse der Markierung auf dem markierten Bild S1 berechnen. Anzumerken ist, dass die längere Achse ein Beispiel der längeren Seiten ist und die kürzere Achse ein Beispiel der kürzeren Seiten ist.
Der Skalierungsratenrechner 43 berechnet die Skalierungsrate des Objektbildes O auf Grundlage der Größe des Bereichs mit einer Zielmarkierung. Der Skalierungsratenrechner 43 berechnet die Skalierungsrate des Objektbildes O, um das Objektbild O in den Bereich mit der Zielmarkierung so einzufügen, dass es in den Bereich mit der Zielmarkierung fällt. Zum Beispiel berechnet der Skalierungsratenrechner 43 die Skalierungsrate des Objektbildes O so, dass die Größe des Objektbildes O kleiner als oder gleich derjenigen des Bereichs mit der Zielmarkierung ist. Wenn eine Vielzahl von Zielmarkierungen vorhanden sind, berechnet der Skalierungsratenrechner 43 die jeweiligen Skalierungsraten der Zielmarkierungen. Der Skalierungsratenrechner 43 kann eine oder mehrere Skalierungsraten für eine einzige Zielmarkierung berechnen.
Der Compositor 44 fügt das Objektbild O auf jedem aus dem Kamerabild C1 und dem markierten Bild S1 auf Grundlage der Mittelpunktskoordinaten der Zielmarkierungen auf dem markierten Bild S1 ein. Zum Beispiel überlagert der Compositor 44 das Objektbild O in den Mittelpunktskoordinaten der Zielmarkierungen auf dem markierten Bild S1 und in den Positionen, die den Mittelpunktskoordinaten auf dem Kamerabild C1 entsprechen, um das Objektbild O auf dem Kamerabild C1 bzw. dem markierten Bild S1 einzufügen. Zum Beispiel überlagert der Compositor 44 das Objektbild O in den Mittelpunktskoordinaten der Stellplätze auf dem Kamerabild C1, um das Objektbild O auf dem Kamerabild C1 einzufügen. Der Compositor 44 gibt den Markierungswert, der dem Objektbild O entspricht, den Mittelpunktskoordinaten der Markierungen auf dem markierten Bild S1, um das Objektbild O auf dem markierten Bild S1 einzufügen. Zum Beispiel kann der Compositor 44 das Objektbild O auf dem Kamerabild C1 so einfügen, dass die Mittelpunktskoordinaten des Objektbildes O die Mittelpunktskoordinaten jedes Stellplatzes auf dem Kamerabild C1 überlagern. Der Compositor 44 kann das Objektbild O auf dem markierten Bild S1 so einfügen, dass die Mittelpunktskoordinaten des Objektbildes O die Mittelpunktskoordinaten jeder Zielmarkierung auf dem markierten Bild S1 überlagern.
Der Compositor 44 kann das Objektbild O auf jedem aus dem Kamerabild C1 und dem markierten Bild S1 so einfügen, dass die durch den Ausrichtungsrechner 42 berechnete Ausrichtung jeder Zielmarkierung parallel zur Ausrichtung des Objektbildes O liegt. Zum Beispiel kann der Compositor 44 das Objektbild O auf dem Kamerabild C1 so einfügen, dass eine aus den längeren oder kürzeren Seiten der Markierung parallel zu der einen aus den längeren oder kürzeren Seiten des Objektbildes O liegt. Eine aus den längeren oder kürzeren Seiten der Markierung ist ein Beispiel der Ausrichtung der Markierung. Zum Beispiel fügt der Compositor 44 das Objektbild O auf jedem aus dem Kamerabild C1 und dem markierten Bild S1 mit derselben Ausrichtung ein.
Der Compositor 44 kann die Größe des Objektbildes O unter Verwendung der Skalierungsrate ändern, die jeder durch den Skalierungsratenrechner 43 berechneten Zielmarkierung entspricht, um das geänderte Objektbild O auf jedem aus dem Kamerabild C1 und dem markierten Bild S1 einzufügen. Der Compositor 44 kann die Größe des Objektbildes O gemäß der Größe des Bereichs mit einer Zielmarkierung, das heißt, der Größe des Stellplatzes, justieren, um das justierte Objektbild O auf dem Kamerabild C1 und dem markierten Bild S1 einzufügen. Zum Beispiel fügt der Compositor 44 das bei derselben Skalierungsrate skalierte Objektbild O auf dem Kamerabild C1 und dem markierten Bild S1 ein.
Anzumerken ist, dass es nicht besonders eingeschränkt ist, wie der Compositor 44 Bilder einfügt, und ein beliebiges bekanntes Verfahren kann verwendet werden. Zum Beispiel kann das Objektbild O durch eine farbbasierte Bildfreistellung eingefügt werden.
Der zweite Speicher 50 ist eine Speichervorrichtung, die das Kamerabild C1 und das markierte Bild S1 speichert, auf dem das Objektbild O durch den Bildcompositor 40 eingefügt worden ist. Der zweite Speicher 50 speichert Trainingsdaten (d.h. vermehrte Trainingsdaten), die von der Bilderzeugungsvorrichtung 1 durch ein Durchführen des Vorgangs des Vermehrens der Trainingsdaten erzeugt sind. Zum Beispiel ist der zweite Speicher 50 ein Halbleiterspeicher. Anzumerken ist, dass das Kamerabild C1, auf dem das Objektbild O eingefügt worden ist, auch als „Composit-Kamerabild“ bezeichnet sein kann, und das markierte Bild S1, auf dem das Objektbild O eingefügt worden ist, als „markiertes Compositbild“.
Nachstehend sind die im zweiten Speicher 50 zu speichernden Trainingsdaten mit Bezugnahme auf 3A und 3B beschrieben. 3A zeigt ein Beispiel eines im zweiten Speicher 50 gemäß dieser Ausführungsform zu speicherndes Composit-Kamerabildes C2. 3A zeigt ein Beispiel eines im zweiten Speicher 50 gemäß dieser Ausführungsform zu speichernden markierten Compositbildes S2.
Wie in 3A gezeigt, speichert der zweite Speicher 50 eine Vielzahl von Composit-Kamerabildern, einschließlich des Composit-Kamerabildes C2. Das Composit-Kamerabild C2 ist ein Bild, erlangt durch ein Einfügen des Objektbildes O in jeden der Stellplätze P1 und P2 auf dem Kamerabild C1, und ist ein vermehrtes Bild. Das Composit-Kamerabild C2 wird beim Training eines Lernmodells als Eingangsbild verwendet.
Wie in 3B gezeigt, speichert der zweite Speicher 50 eine Vielzahl von markierten Compositbildern, einschließlich des markierten Compositbildes S2. Das markierte Compositbild S2 ist ein Bild, erlangt durch ein Einfügen des Objektbildes O in jeden aus den markierten Bereichen L1 und L2 auf dem markierten Bild S1, und ist ein vermehrtes Bild. Das markierte Compositbild S2 wird beim Training eines Lernmodells als Ground-Truth-Daten verwendet.
Der markierte Bereich L1b entspricht dem Objektbild O, das in den Stellplatz P1 auf dem Composit-Kamerabild C2 eingefügt ist, und ist mit dem Markierungswert versehen, der dem Objektbild O entspricht. Der markierte Bereich L1b auf dem markierten Compositbild S2 befindet sich an derselben Position wie das Objektbild O im Stellplatz P1 auf dem Composit-Kamerabild C2.
Der markierte Bereich L2b entspricht dem Objektbild O, das in den Stellplatz P2 auf dem Composit-Kamerabild C2 eingefügt ist, und ist mit dem Markierungswert versehen, der dem Objektbild O entspricht. Der markierte Bereich L2b auf dem markierten Compositbild S2 befindet sich an derselben Position wie das Objektbild O im Stellplatz P2 auf dem Composit-Kamerabild C2.
Der markierte Bereich L1a ist der Teil des in 2B gezeigten markierten Bereichs L1 außer dem markierten Bereich L1b und ist mit einem Markierungswert versehen, der angibt, dass ein Parken möglich ist. Der markierte Bereich L2a ist der Teil des in 2B gezeigten markierten Bereichs L2 außer dem markierten Bereich L2b und ist mit einem Markierungswert versehen, der angibt, dass ein Parken möglich ist.
Die markierten Bereiche L1a und L2a sind mit den Markierungswerten versehen, die angeben, dass ein Parken möglich ist, während die markierten Bereiche L1b und L2b mit den Markierungswerten versehen sind, die angeben, dass kein Parken möglich ist. Die markierten Bereiche L1b und L2b können mit demselben Markierungswert versehen sein wie der markierte Bereich L4. Auf diese Weise werden in dieser Ausführungsform auf dem markierten Compositbild S2 die Markierungswerte nur der Teile der Bereiche mit den Zielmarkierungen aktualisiert, auf denen das Objektbild O eingefügt worden ist. Demgemäß werden die folgenden Trainingsdaten erzeugt. Es sei beispielsweise angenommen, dass eine Vielzahl von Fahrzeugen auf einem Stellplatz geparkt werden kann und ein Fahrzeug auf dem Stellplatz geparkt ist. In diesem Fall ermöglichen die Trainingsdaten ein Erfassen des verbleibenden Bereichs zum Parken eines weiteren Fahrzeugs.
Wie oben beschrieben, identifiziert die Bilderzeugungsvorrichtung 1 Bereiche (z.B. Stellplätze), die dem Objektbild O entsprechen, auf Grundlage des markierten Bildes S1 und fügt das Objektbild O in die identifizierten Bereiche auf jedem aus dem Kamerabild C1 und dem markierten Bild S1 ein.
[1-2. Betrieb der Bilderzeugungsvorrichtung]
Nun ist ein Betrieb der Bilderzeugungsvorrichtung 1 gemäß dieser Ausführungsform unter Bezugnahme auf 4 bis 7 beschrieben. 4 ist ein Flussdiagramm, das den Arbeitsablauf der Bildkombiniervorrichtung 1 gemäß dieser Ausführungsform zeigt.
Wenn, wie in 4 gezeigt, der erste Speicher 20 verschiedene Informationen speichert, liest und erlangt der Erlanger 10 das Kamerabild C1, das markierte Bild S1 und das Objektbild O aus dem ersten Speicher 20 (S10). Der Erlanger 10 gibt das erlangte markierte Bild S1 zum Markierungsbestimmer 30 und das Kamerabild C1, das markierte Bild S1 und das Objektbild O zum Bildcompositor 40 aus. Das Objektbild O kann beispielsweise gemäß der Markierung bestimmt werden, auf der das Objektbild O einzufügen ist, oder vorab durch einen Benutzer festgelegt werden. Anzumerken ist, dass eine Vielzahl von Typen von Objektbildern O erlangt werden kann. Zum Beispiel kann im Fall von Fahrzeugen eine Vielzahl von Typen von Objektbildern O erlangt werden, die sich in mindestens einer aus der äußeren Form, der Farbe oder der Größe unterscheiden.
Als Nächstes zählt der Markierungszähler 31 des Markierungsbestimmers 30 die Anzahl von Zielmarkierungen zum Einfügen auf Grundlage des markierten Bildes S1 (S20). Zum Beispiel zählt der Markierungszähler 31 als Zielmarkierungen die Markierungen, die einem Objekt (z.B. einem Fahrzeug) entsprechen, das durch das Objektbild O gezeigt ist, aus einer eine Vielzahl von im markierten Bild S1 enthaltenen Markierungen. In dem in 2B gezeigten markierten Bild S1 zählt der Markierungsbestimmer 30 als Zielmarkierungen die markierten Bereiche L1 bis L3, die Fahrzeugen entsprechende Stellplätze P1 bis P3 angeben, aus den markierten Bereichen L1 bis L4. Auf dem markierten Bild S1 sind drei Zielmarkierungen vorhanden.
Als Nächstes berechnet der Kombinationsrechner 32 Kombinationen der Zielmarkierungen (S30). Auf Grundlage der Zielmarkierungen berechnet der Kombinationsrechner 32 Kombinationen der Markierungen, auf denen das Objektbild O einzufügen ist. Zum Beispiel berechnet der Kombinationsrechner 32 vorteilhafterweise alle Kombinationen der Markierungen, auf denen das Objektbild O einzufügen ist. In dem Beispiel von 2B gibt es insgesamt sieben Kombinationen. Der Kombinationsrechner 32 gibt die berechneten Kombinationen an den Bildcompositor 40 aus.
Als Nächstes führt der Bildcompositor 40 den Vorgang des Einfügens des Objektbildes O auf Grundlage des Kamerabildes C1, des markierten Bildes S1, des Objektbildes O und der Kombinationen der Markierungen durch (S40). Wenn die Zielmarkierung der markierte Bereich L1 ist, fügt der Bildcompositor 40 das Objektbild O in den Stellplatz P1 ein, der dem markierten Bereich L1 auf dem Kamerabild C1 entspricht. Ferner fügt der Bildcompositor 40 den Markierungswert, der das Objektbild O angibt, in den markierten Bereich L1 auf dem markierten Bild S1 ein. Die Einzelheiten des Schritts S40 sind weiter unten beschrieben. Anzumerken ist, dass das Einfügen des Markierungswerts, der das Objektbild O angibt, in den markierten Bereich L1 ein Beispiel des Einfügens des Objektbildes O in den markierten Bereich L1 ist.
Als Nächstes bestimmt der Bildcompositor 40, ob das Objektbild O in alle Kombinationen der Markierungen eingefügt worden ist (S50). Der Bildcompositor 40 bestimmt, ob das Objektbild O in alle Kombinationen der durch den Kombinationsrechner 32 berechneten Zielmarkierungen eingefügt worden ist. In dem Beispiel von 2B bestimmt der Bildcompositor 40, ob das Objektbild O in alle sieben Kombinationen eingefügt worden ist.
Wenn das Objektbild O in alle Kombinationen der Markierungen eingefügt worden ist (Ja in S50), beendet der Bildcompositor 40 den Vorgang des Erzeugens (d.h. Vermehrens) der Trainingsdaten. Der Bildcompositor 40 kann die erzeugten Trainingsdaten an eine externe Vorrichtung ausgeben. Wenn das Objektbild O nicht in alle Kombinationen der Markierungen eingefügt worden ist (Nein in S50), führt der Bildcompositor 40 den Vorgang des Einfügens des Objektbildes O in den Rest der Kombinationen der Markierungen durch.
Nachstehend ist der Vorgang des Einfügens des Objektbildes O mit Bezugnahme auf 5 bis 7 beschrieben. 5 ist ein Flussdiagramm, das einen beispielhaften Ablauf beim Vorgang des Einfügens eines Objektbildes O gemäß dieser Ausführungsform zeigt. Anzumerken ist, dass nun der Vorgang des Einfügens eines Objektbildes O in die Kombination der markierten Bereiche L1 und L2 aus den sieben Kombinationen der markierten Bereiche beschrieben ist.
Wie in 5 gezeigt, berechnet der Positionsrechner 41 die Mittelpunktskoordinaten der Zielmarkierungen auf Grundlage des markierten Bildes S1 (S41). Zum Beispiel berechnet der Positionsrechner 41 als die Mittelpunktskoordinaten die Schwerpunktskoordinaten der Bereiche mit den Zielmarkierungen (z.B. des Bereichs L1) aus dem markierten Bild S1.
Der Positionsrechner 41 berechnet die jeweiligen Mittelpunktskoordinaten der durch den Markierungszähler 31 gezählten Zielmarkierungen. Der Positionsrechner 41 gibt die berechneten Mittelpunktskoordinaten der Zielmarkierungen zum Compositor 44 aus.
Nachstehend sind die durch den Positionsrechner 41 berechneten Mittelpunktskoordinaten der Zielmarkierungen mit Bezugnahme auf 6 beschrieben. 6 zeigt ein Ergebnis des Berechnens der Mittelpunktskoordinaten der Zielmarkierungen.
Wie in 6 gezeigt, berechnet der Positionsrechner 41 Z1 (x1, y1) als die Mittelpunktskoordinaten des markierten Bereichs L1 und Z2 (x2, y2) als die Mittelpunktskoordinaten des markierten Bereichs L2. Der Positionsrechner 41 berechnet die jeweiligen Mittelpunktskoordinaten der in der Kombination enthaltenen markierten Bereiche L1 und L2. Wenn er die Mittelpunktskoordinaten mindestens eines der markierten Bereiche L1 und L2 in der Vergangenheit berechnet hat, kann der Positionsrechner 41 die Mittelpunktskoordinaten der im Speicher (z.B. dem ersten Speicher 20) gespeicherten Markierung(en) auslesen und erlangen.
Als Nächstes, wieder mit Bezugnahme auf 5, berechnet der Ausrichtungsrechner 42 die Ausrichtung der Zielmarkierungen auf Grundlage des markierten Bildes S1 (S42). Zum Beispiel führt der Ausrichtungsrechner 42 eine Hauptbestandteilsanalyse jeder Zielmarkierung durch und berechnet die Ausrichtung der Zielmarkierung unter Verwendung des Eigenvektors. Der Ausrichtungsrechner 42 berechnet die Ausrichtungen der durch den Markierungszähler 31 gezählten Zielmarkierungen. Der Ausrichtungsrechner 42 gibt die berechneten Ausrichtungen der Zielmarkierungen an den Compositor 44 aus.
Hier sind die durch den Positionsrechner 42 berechneten Ausrichtungen der Zielmarkierungen mit Bezugnahme auf 7 beschrieben. 7 zeigt ein Ergebnis des Berechnens der Ausrichtungen der Zielmarkierungen.
Wie in 7 gezeigt, berechnet der Ausrichtungsrechner 42 D1 als die Ausrichtung des markierten Bereichs L1 und D2 als die Ausrichtung des markierten Bereichs L2. Der Ausrichtungsrechner 42 berechnet die Ausrichtungen der in der Kombination enthaltenen markierten Bereiche L1 und L2. Wenn er die Ausrichtung mindestens eines der markierten Bereiche L1 und L2 in der Vergangenheit berechnet hat, kann der Ausrichtungsrechner 42 die Ausrichtung(en) der im Speicher (z.B. dem ersten Speicher 20) gespeicherten Markierung(en) auslesen und erlangen.
Wieder mit Bezugnahme auf 5 berechnet der Skalierungsratenrechner 43 die Skalierungsrate des Objektbildes O auf Grundlage der Größe des markierten Bereichs L1 (S43). Der Skalierungsratenrechner 43 berechnet die Skalierungsrate des Objektbildes O, um das Objektbild O in den Bereich mit einer Zielmarkierung so einzufügen, dass es in den Bereich mit der Zielmarkierung fällt. Der Skalierungsratenrechner 43 gibt die Skalierungsrate des Objektbildes O an den Compositor 44 aus.
Der Compositor 44 fügt das Objektbild O auf dem Kamerabild C1 und dem markierten Bild S1 ein (S44). Zum Beispiel fügt der Compositor 44 das Objektbild O in jeden der Stellplätze P1 und P2 auf dem Kamerabild C1 ein. Zum Beispiel fügt der Compositor 44 das Objektbild O an einer Position innerhalb jedes der Stellplätze P1 und P2 auf dem Kamerabild C1 ein. Zum Beispiel fügt der Compositor 44 das Objektbild O an der Position ein, wo die Differenz zwischen den Mittelpunktskoordinaten des Stellplatzes P1 und des Objektbildes O in einen vorgegebenen Bereich fällt. Zum Beispiel fügt der Compositor 44 das Objektbild O an der Position ein, wo die Mittelpunktskoordinaten des Stellplatzes P1 und des Objektbildes O einander überlagern. Dies gilt auch für das Einfügen des Objektbildes O in den Stellplatz P2.
Wenn es eine Vielzahl von Objektbildern O gibt, kann dasselbe Objektbild O oder ein anderes Objektbild O in die Stellplätze P1 und P2 eingefügt werden.
Beim Einfügen einer Vielzahl von Objektbildern O auf einem einzigen Kamerabild C1 kann der Compositor 44 die Position, an der Objektbilder O einander nicht überlagern, als die Positionen bestimmen, an denen die Objektbilder O einzufügen sind.
Zum Beispiel fügt der Compositor 44 das Objektbild O in jeden der markierten Bereiche L1 und L2 auf dem markierten Bild S1 ein. Genauer fügt der Compositor 44 beispielsweise den Markierungswert, der dem Objektbild O entspricht, in die Bereiche in derselben Größe wie das Objektbild O in den markierten Bereichen L1 und L2 auf dem markierten Bild S1 ein. Der Compositor 44 fügt das Objektbild O an den folgenden Positionen auf dem markierten Bild S1 ein. Die Positionen (d.h. die Pixelpositionen) auf dem Kamerabild C1, auf denen das Objektbild O eingefügt worden ist, sind dieselben wie die Positionen (d.h. die Pixelpositionen) auf dem markierten Bild S1, auf denen der Markierungswert, der das Objektbild O angibt, eingefügt worden ist. Demgemäß wird der Bereich, in dem das Objektbild O eingefügt worden ist, aus dem Bereich (z.B. dem markierten Bereich L1) mit dem Markierungswert, der den Stellplatz P1 angibt, als der Markierungswert aktualisiert, der das Objektbild O angibt.
Auf diese Weise fügt der Compositor 44 das Objektbild O in einen bestimmten Bereich (d.h. in dieser Ausführungsform den Stellplatz P1) auf dem Kamerabild C1 und den Markierungswert, der dem Objektbild O entspricht, in einen bestimmten Bereich (d.h. in dieser Ausführungsform den markierten Bereich L1) auf dem markierten Bild S1 ein. Dies ist ein Beispiel des Einfügens des Objektbildes O auf dem Kamerabild C1 und dem markierten Bild S1.
Als Nächstes speichert der Bildcompositor 40 das Composit-Kamerabild C2 und das markierte Compositbild S2, die durch ein Einfügen des Objektbildes O durch den Compositor 44 erlangt sind (S45). Genauer speichert der Bildcompositor 40 das Composit-Kamerabild C2 und das markierte Compositbild S2 verknüpft im zweiten Speicher 50. Der Vorgang des Einfügens des Objektbildes O wird bei jeder der Kombinationen der Markierungen durchgeführt; die in 3A gezeigte Vielzahl von Composit-Kamerabildern und die in 3B gezeigte Vielzahl von markierten Compositbildern werden erzeugt.
Wie oben beschrieben, bestimmt die Bilderzeugungsvorrichtung 1 die Position, an der das Objektbild O einzufügen ist, auf Grundlage des markierten Bildes S1. Dies reduziert die Erzeugung tatsächlich unmöglicher Bilder, wie etwa eines Bildes eines in der Luft schwebenden Objekts. Mit anderen Worten, die Bilderzeugungsvorrichtung 1 erzeugt korrekte Trainingsdaten über tatsächlich mögliche Situationen, das heißt, hochwertige Trainingsdaten. Es ist zu erwarten, dass ein Lernmodell, das unter Verwendung solcher Trainingsdaten trainiert wird, eine verbesserte Generalisierungsleistung und Genauigkeit bei der Objekterfassung aufweist.
Wie oben beschrieben, erzeugt die Bilderzeugungsvorrichtung 1 die vermehrten Trainingsdaten automatisch auf Grundlage bestehender Trainingsdaten. Die Bilderzeugungsvorrichtung 1 bestimmt automatisch die Positionen, an denen das Composit-Objektbild O auf dem Kamerabild C1 und dem markierten Bild S1 einzufügen ist, auf Grundlage der Markierungswerte des markierten Bildes S1. Die reduziert mehr Kosten zum Erzeugen der Trainingsdaten als eine manuelle Positionsbestimmung.
Insbesondere werden Trainingsdaten für die semantische Segmentierung oft manuell für jedes Pixel markiert, was die Kosten zum Erzeugen der Trainingsdaten erhöht. Die Bilderzeugungsvorrichtung 1 erzeugt automatisch Trainingsdaten für die semantische Segmentierung unter Verwendung des markierten Bildes S1, was die Kosten zum Erzeugen der Trainingsdaten für die semantische Segmentierung weitgehend reduziert.
Durch das oben beschriebene Verfahren erzeugt die Bilderzeugungsvorrichtung 1 eine große Menge an Trainingsdaten durch ein Compositing, sogar in einem ungewöhnlichen Fall, in dem ein Vorab-Erlangen einer großen Menge an Daten schwierig ist, bei bestimmten Einrichtungen oder in einer bestimmten Szene (z.B. einer Szene eines Parkplatzes).
[Ausführungsform 2]
Nun ist eine Bilderzeugungsvorrichtung gemäß dieser Ausführungsform unter Bezugnahme auf 8 bis 10 beschrieben.
[2-1. Aufbau der Bilderzeugungsvorrichtung]
Zuerst ist ein Aufbau der Bilderzeugungsvorrichtung gemäß dieser Ausführungsform unter Bezugnahme auf 8 bis 9B beschrieben. 8 ist ein Blockdiagramm, das einen funktionellen Aufbau einer Bilderzeugungsvorrichtung 1a gemäß dieser Ausführungsform zeigt. Dieselben Bezugszeichen wie diejenigen der Bilderzeugungsvorrichtung 1 gemäß der Ausführungsform 1 sind verwendet, um dieselben oder ähnliche Elemente darzustellen, und ihre genaue Erläuterung ist weggelassen.
Wie in 8 gezeigt, unterscheidet sich die Bilderzeugungsvorrichtung 1a gemäß dieser Ausführungsform von der Bilderzeugungsvorrichtung 1 gemäß der Ausführungsform 1 darin, dass sie einen Bildcompositor 40a anstelle des Bildcompositors 40 enthält. Nachstehend sind hauptsächlich die Unterschiede zur Bilderzeugungsvorrichtung 1 beschrieben.
Der Bildcompositor 40a enthält zusätzlich zum Bildcompositor 40 gemäß der Ausführungsform 1 einen Markierungsaktualisierer 45.
Der Markierungsaktualisierer 45 aktualisiert die Markierungswerte der Bereiche mit den Zielmarkierungen, auf denen das Objektbild O auf dem markierten Compositbild S2 eingefügt worden ist. Der Markierungsaktualisierer 45 aktualisiert alle Bereiche mit den Zielmarkierungen, auf denen das Objektbild O eingefügt worden ist, auf den Markierungswert, der das Objektbild O angibt. Es sei beispielsweise angenommen, dass der Compositor 44 das Objektbild O im markierten Bereich L1 eingefügt hat, der den Stellplatz P1 angibt. In diesem Fall aktualisiert der Markierungsaktualisierer 45 den gesamten markierten Bereich L1, das heißt, den markierten Bereich L1 (z.B. die in 3B gezeigten markierten Bereiche L1b und L2b), in den das Objektbild O nicht eingefügt worden ist, auf den Markierungswert, der das Objektbild O angibt.
Der Bildcompositor 40a speichert im zweiten Speicher 50 das markierte Compositbild, in dem die Markierungswerte der gesamten Bereiche mit den Zielmarkierungen durch den Markierungsaktualisierer 45 aktualisiert sind. Ferner kann der Bildcompositor 40a markierte Compositbilder an eine externe Vorrichtung ausgeben.
Nachstehend sind die im zweiten Speicher 50 gespeicherten Trainingsdaten mit Bezugnahme auf 9A und 9B beschrieben. 9A zeigt ein Beispiel eines im zweiten Speicher 50 gemäß dieser Ausführungsform zu speicherndes Composit-Kamerabildes C2. 9B zeigt ein Beispiel eines im zweiten Speicher 50 gemäß dieser Ausführungsform zu speicherndes markierten Compositbildes S3. Anzumerken ist, dass das in 9A gezeigte Composit-Kamerabild C2 dasselbe ist wie das Composit-Kamerabild C2 in der Ausführungsform 1, und die Beschreibung ist somit weggelassen.
Wie in 9B gezeigt, speichert der zweite Speicher 50 eine Vielzahl von markierten Compositbildern, einschließlich des markierten Compositbildes S3. Im markierten Compositbild S3 sind die gesamten markierten Bereiche L11 und L12 auf dem markierten Bild S1 auf die Markierungswerte aktualisiert, die das Objektbild O angeben. Das markierte Compositbild S3 wird beim Training eines Lernmodells als Ground-Truth-Daten verwendet.
Der markierte Bereich L11 entspricht dem Stellplatz P1 auf dem Kamerabild C1 und ist mit dem Markierungswert versehen, der das Objektbild O angibt. Der markierte Bereich L11 auf dem markierten Compositbild S3 befindet sich an derselben Position wie der Stellplatz P1 auf dem Kamerabild C1.
Der markierte Bereich L12 entspricht dem Stellplatz P2 auf dem Kamerabild C1 und ist mit dem Markierungswert versehen, der das Objektbild O angibt. Der markierte Bereich L12 auf dem markierten Compositbild S3 befindet sich an derselben Position wie der Stellplatz P2 auf dem Kamerabild C1.
Anzumerken ist, dass die markierten Bereiche L11 und L12 beispielsweise denselben Markierungswert aufweisen können. Der Markierungswert kann angeben, dass kein Parken möglich ist.
[2-2. Betrieb der Bilderzeugungsvorrichtung]
Nun ist ein Betrieb der Bilderzeugungsvorrichtung 1a gemäß dieser Ausführungsform unter Bezugnahme auf 10 beschrieben. 10 ist ein Flussdiagramm, das den Ablauf beim Vorgang des Einfügens eines Objektbildes O gemäß dieser Ausführungsform zeigt. 10 zeigt ein weiteres Beispiel des in 4 gezeigten Schritts S40. Anzumerken ist, dass das in 10 gezeigte Flussdiagramm dem in 5 gezeigten Flussdiagramm entspricht und ferner die Schritte S146 und S147 enthält.
Wie in 10 gezeigt, bestimmt der Markierungsaktualisierer 45, ob die Markierungswerte der gesamten Bereiche mit den Zielmarkierungen auf dem markierten Bild S1 zu aktualisieren sind. Zum Beispiel bestimmt der Markierungsaktualisierer 45, ob die Markierungswerte der gesamten Bereiche mit den Zielmarkierungen auf Grundlage der folgenden Flächen zu aktualisieren sind. Die einen sind die Flächen der Bereiche (z.B. der in 3B gezeigten markierten Bereiche L1a und L2a, auch als „Objektbereiche“ bezeichnet) für das Objektbild O auf den Zielmarkierungen des markierten Bildes S1, auf dem das Objektbild O eingefügt worden ist. Die anderen sind die Flächen des Restes (z.B. der in 3B gezeigten markierten Bereiche L1b und L2b, auch als „verbleibende Bereiche“ bezeichnet) der Zielmarkierungen. Zum Beispiel kann der Markierungsaktualisierer 45 die oben beschriebene Bestimmung auf Grundlage dessen vornehmen, ob die Differenz zwischen den Flächen jedes Objektbereichs und des verbleibenden Bereichs kleiner ist als ein Schwellenwertparameter (d.h. Parameter) (S146). Anzumerken ist, dass das „markierte Bild S1, auf dem das Objektbild O eingefügt worden ist“ das markierte Bild S1 ist, das mit dem Markierungswert versehen ist, der dem Objektbild O entspricht. Anzumerken ist, dass der Schwellenwert vorab festgelegt und beispielsweise ein positiver Wert ist, aber nicht darauf beschränkt ist. Der Schwellenwert ist beispielsweise im zweiten Speicher 50 gespeichert.
Wenn die Differenz zwischen den Flächen des Objektbereichs und des verbleibenden Bereichs kleiner ist als der Schwellenwert (Ja in S146), aktualisiert der Markierungsaktualisierer 45 den Markierungswert der Zielmarkierung, auf der das Objektbild O eingefügt worden ist (S147). Zum Beispiel aktualisiert der Markierungsaktualisierer 45 die Markierungswerte der markierten Bereiche L1 und L2, auf denen das Objektbild O in Schritt S44 eingefügt worden ist. Das markierte Compositbild S3 (siehe 9B) mit den aktualisierten Markierungswerten wird in Schritt S45 im zweiten Speicher 50 gespeichert.
Wenn beispielsweise die Differenz zwischen den Flächen des Objektbereichs und des verbleibenden Bereichs größer als der oder gleich dem Schwellenwert ist (Nein in S146), speichert der Markierungsaktualisierer 45 in Schritt S44 im zweiten Speicher 50 das markierte Bild S1, auf dem das Objektbild O eingefügt worden ist (S147). Das heißt, das durch ein Einfügen des Objektbildes O in Schritt S44 erhaltene markierte Compositbild S2 (siehe 3B) wird in Schritt S45 im zweiten Speicher 50 gespeichert.
Wie oben beschrieben, enthält die Bilderzeugungsvorrichtung 1a den Markierungsaktualisierer 45, der die Markierungswerte der Zielmarkierungen auf dem durch den Compositor 44 erzeugten markierten Compositbild S2 aktualisiert. Die Attribute der Bereiche mit den Zielmarkierungen, auf denen das Objektbild O eingefügt worden ist, werden durch das Einfügen des Objektbildes O verändert. Demgemäß aktualisiert der Markierungsaktualisierer 45 die Markierungswerte der Bereiche mit den Zielmarkierungen.
Wenn es eine Vielzahl von verbleibenden Bereichen in dem Bereich mit einer Zielmarkierung gibt, kann der Markierungsaktualisierer 45 beispielsweise in Schritt S146 eine Bestimmung auf Grundlage der Differenz zwischen den Flächen des Objektbereichs und des verbleibenden Bereichs mit der breitesten Fläche vornehmen. Wenn kein Objekt in den verbleibenden Bereich mit der breitesten Fläche gesetzt werden kann, kann der Markierungswert des gesamten Bereichs mit der Zielmarkierung einschließlich des verbleibenden Bereichs mit der breitesten Fläche aktualisiert werden. Wenn es eine Vielzahl von verbleibenden Bereichen in dem Bereich mit einer Zielmarkierung gibt, kann der Markierungsaktualisierer 45 beispielsweise in Schritt S146 die Bestimmung auf Grundlage der Differenz zwischen der Fläche des Objektbereichs und der Gesamtfläche des verbleibenden Bereichs vornehmen.
Oben ist ein Beispiel beschrieben, wo der Markierungsaktualisierer 45 auf Grundlage der Differenz zwischen den Flächen des Objektbereichs und des verbleibenden Bereichs bestimmt, ob der Markierungswert des gesamten Bereichs mit einer Zielmarkierung zu aktualisieren ist. Jedoch ist die Bestimmung nicht darauf beschränkt. Der Markierungsaktualisierer 45 kann beispielsweise Ja in Schritt S146 bestimmen, wenn ein Markierungswert, der dem Objektbild O entspricht, gleich einem vorgegebenen Markierungswert ist, oder wenn die Größe des Objektbereichs des Objektbildes O größer als oder gleich einer vorgegebenen Größe ist. Alternativ bestimmt der Markierungsaktualisierer 45 auf Grundlage der Größenbeziehung zwischen den Flächen des verbleibenden Bereichs und des Objektbereichs, ob der Markierungswert des gesamten Bereichs mit der Zielmarkierung zu aktualisieren ist. In diesem Fall kann der Markierungsaktualisierer 45 beispielsweise Ja in Schritt S146 bestimmen, wenn der verbleibende Bereich kleiner ist als der Objektbereich. Der Markierungsaktualisierer 45 braucht die Bestimmung in Schritt S146 nicht vorzunehmen.
[Andere Ausführungsformen]
Das Trainingsdatenerzeugungsverfahren gemäß einem oder mehreren Aspekten ist auf Grundlage der Ausführungsformen beschrieben. Die vorliegende Offenbarung ist jedoch nicht auf diese Ausführungsformen beschränkt. Die vorliegenden Offenbarung kann andere Ausführungsformen einschließen, wie etwa diejenigen, die erlangt sind durch ein Abwandeln der Ausführungsform, wie es Fachleute ersinnen, oder die erlangt sind durch ein freies Kombinieren der Bestandteile in den Ausführungsformen, ohne vom Geltungsbereich und Kern der vorliegenden Offenbarung abzuweichen.
Zum Beispiel ist oben in den Ausführungsformen ein Beispiel beschrieben, wo beispielsweise das Trainingsdatenerzeugungsverfahren verwendet ist, um Trainingsdaten zu erzeugen, die eine Bestimmung darüber ermöglichen, ob auf einem Stellplatz ein beliebiges Fahrzeug geparkt ist. Die durch das Trainingsdatenerzeugungsverfahren erzeugten Trainingsdaten sind jedoch nicht darauf beschränkt. Zum Beispiel kann das Trainingsdatenerzeugungsverfahren verwendet werden, um Trainingsdaten zu erzeugen, die ein Erkennen eines Bereichs mit jemandem und eines Bereichs mit niemandem in einer vorgegebenen Zone (z.B. einem Raum) ermöglichen, oder kann benutzt werden, um beliebige andere Trainingsdaten zu erzeugen.
Während oben in den Ausführungsformen ein Beispiel beschrieben ist, wo beispielsweise jedes annotierte Bild ein markiertes Bild ist, ist das annotierte Bild jedoch nicht darauf beschränkt. Das annotierte Bild kann beispielsweise ein Kamerabild sein, auf dem die Koordinaten eines Kastens (z.B. eines rechteckigen Kastens) überlagert sind, der die Position eines vorgegebenen Objekts auf dem Kamerabild oder dem Kasten selbst angibt. Die Koordinaten des Kastens sind ein Beispiel von Annotierungsinformationen.
In den Ausführungsformen können beispielsweise der erste und der zweite Speicher in einer einzigen Speichervorrichtung enthalten sein oder können verschiedene Vorrichtungen sein.
Oben ist ein Beispiel in den Ausführungsformen beschrieben, wo beispielsweise der Kombinationsrechner alle Kombinationen der Markierungen auf einem markierten Bild berechnet. Jedoch ist die Berechnung nicht darauf beschränkt. Zum Beispiel kann der Kombinationsrechner eine vorgegebene Anzahl von Kombinationen der Markierungen berechnen.
Die Mittelpunktskoordinaten und Ausrichtungen können jeweils durch den Positionsrechner und den Ausrichtungsrechner nach einem beliebigen bekannten anderen Verfahren als dem oben in den Ausführungsformen beschriebenen Verfahren berechnet werden.
Während oben in den Ausführungsformen ein Beispiel beschrieben ist, wo beispielsweise die Bilderzeugungsvorrichtung eine einzige Vorrichtung ist, kann sie aber eine Vielzahl von Vorrichtungen enthalten. Wenn die Bilderzeugungsvorrichtung eine Vielzahl von Vorrichtungen enthält, können die Bestandteile der Bilderzeugungsvorrichtung auf eine beliebige Weise in die Vielzahl von Vorrichtungen aufgeteilt sein.
In den Ausführungsformen kann beispielsweise mindestens einer der Bestandteile der Bilderzeugungsvorrichtung eine Servervorrichtung sein. Zum Beispiel kann mindestens einer der Prozessoren, die den Erlanger, den Markierungsbestimmer und den Bildcompositor enthalten, eine Servervorrichtung sein. Wenn die Bilderzeugungsvorrichtung eine Vielzahl von Vorrichtungen enthält, die eine Servervorrichtung enthalten, ist es nicht besonders eingeschränkt, wie die Vorrichtungen der Bilderzeugungsvorrichtung miteinander kommunizieren. Eine verdrahtete oder drahtlose Kommunikation kann eingerichtet sein. Alternativ können verdrahtete und drahtlose Kommunikationen in Kombination unter den Vorrichtungen eingerichtet sein.
In den Ausführungsformen kann beispielsweise mindestens einer aus dem ersten und dem zweiten Speicher eine Datenbank einer externen Vorrichtung (z.B. einer Servervorrichtung) der Bilderzeugungsvorrichtung sein. Die Bilderzeugungsvorrichtung kann bestehende Trainingsdaten über Kommunikationen erlangen und die vermehrten Trainingsdaten über Kommunikationen ausgeben.
Die in den oben beschriebenen Ausführungsformen erzeugten Trainingsdaten (z.B. die vermehrten Trainingsdaten) können beispielsweise zum erneuten Trainieren des trainierten Modells verwendet werden.
Die Reihenfolge der Ausführung der Schritte im Flussdiagramm ist erläuternd, um die vorliegende Offenbarung genauer zu beschreiben. Die Schritte können in anderen Reihenfolgen ausgeführt werden. Einige der Schritte können zur selben Zeit wie andere Schritte (parallel zu ihnen) ausgeführt werden oder mögen nicht ausgeführt werden.
Das Aufteilen der Funktionsblöcke in dem Blockdiagramm ist ein Beispiel. Eine Vielzahl von Funktionsblöcken kann als ein einziger Funktionsblock ausgeführt sein. Ein einziger Funktionsblock kann in eine Vielzahl von Funktionsblöcken aufgeteilt sein. Einige der Funktionen können zu anderen Funktionsblöcken verschoben sein. Eine Vielzahl von Funktionsblöcken mit ähnlichen Funktionen können parallel oder in einer zeitunterteilten Weise durch ein einzelnes Hardware- oder Software-Element verarbeitet werden.
Einige oder alle der Bestandteile der oben beschriebenen Bilderzeugungsvorrichtungen können als ein hochintegrierter Einzelsystemchip (LSI) dienen.
Der System-LSI-Chip ist ein superfunktioneller LSI-Chip, hergestellt durch ein Integrieren einer Vielzahl von Prozessoren auf einem einzigen Chip, und ist genauer ein Computersystem, enthaltend beispielsweise einen Mikroprozessor, einen Nur-Lese-Speicher (ROM) und einen Direktzugriffsspeicher (RAM). Das ROM speichert Computerprogramme. Der Mikroprozessor arbeitet in Übereinstimmung mit den Computerprogrammen so, dass der System-LSI-Chip seine Funktion erfüllt.
Gemäß einem Aspekt kann die vorliegende Offenbarung auf ein Computerprogramm gerichtet sein, das einen Computer veranlasst, charakteristische Schritte auszuführen, die in dem Lernmodellerzeugungsverfahren enthalten sind, das in 4, 5 und 10 gezeigt ist. Zum Beispiel kann das Programm durch einen Computer ausgeführt werden.
Gemäß einem weiteren Aspekt kann die vorliegende Offenbarung auf ein nichtflüchtiges computerlesbares Aufzeichnungsmedium gerichtet sein, das solche Programme speichert. Zum Beispiel können solche Programme auf einem Aufzeichnungsmedium aufgezeichnet sein und verteilt oder in Umlauf gebracht werden.
Zum Beispiel können die verteilten Programme in eine Vorrichtung eingesetzt sein, die einen weiteren Prozessor enthält, und durch den Prozessor ausgeführt werden, sodass die Vorrichtung die oben beschriebene Verarbeitung durchführt.
[Gewerbliche Anwendbarkeit]
Die vorliegende Offenbarung ist nutzbar für eine Bilderzeugungsvorrichtung, die Trainingsdaten erzeugt, die zum maschinellen Lernen eines Lernmodells verwendet werden.
Bezugszeichenliste

1, 1a: Bilderzeugungsvorrichtung
10: Erlanger
20: erster Speicher
30: Markierungsbestimmer
31: Markierungszähler
32: Kombinationsrechner
40, 40a: Bildcompositor
41: Positionsrechner
42: Ausrichtungsrechner
43: Vergrößerungs-/Verkleinerungsratenrechner
44: Compositor
45: Markierungsaktualisierer
50: zweiter Speicher
C1: Kamerabild
C2: Composit-Kamerabild
L1, L1a, L1b, L2, L2a, L2b, L3, L4: Markierungsbereich
O: Objektbild
P1, P2, P3: Stellplatz
R: Gang
S1: markiertes Bild
S2, S3: markiertes Compositbild

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 201745441 [0003]
JP 6573226 [0003]

Claims

Trainingsdatenerzeugungsverfahren, umfassend: ein Erlangen eines Kamerabildes, eines annotierten Bildes, erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und eines Objektbildes, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; ein Identifizieren eines bestimmten, dem Objekt entsprechenden Bereichs auf Grundlage des annotierten Bildes; und ein Einfügen des Objektbildes in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild.
Trainingsdatenerzeugungsverfahren nach Anspruch 1, weiter umfassend: ein Berechnen von Mittelpunktskoordinaten des bestimmten Bereichs auf Grundlage des annotierten Bildes, wobei das Objektbild so eingefügt wird, dass es die Mittelpunktskoordinaten auf jedem aus dem Kamerabild und dem annotierten Bild überlagert.
Trainingsdatenerzeugungsverfahren nach Anspruch 1 oder 2, weiter umfassend: ein Berechnen einer Ausrichtung des bestimmten Bereichs auf Grundlage des annotierten Bildes, wobei das Objektbild in einer Ausrichtung eingefügt wird, die der Ausrichtung des bestimmten Bereichs entspricht.
Trainingsdatenerzeugungsverfahren nach einem beliebigen der Ansprüche 1 bis 3, weiter umfassend: ein Erlangen einer Größe des bestimmten Bereichs auf Grundlage des annotierten Bildes, wobei das Objektbild auf eine Größe kleiner als oder gleich der Größe des bestimmten Bereichs skaliert wird und eingefügt wird.
Trainingsdatenerzeugungsverfahren nach einem beliebigen der Ansprüche 1 bis 4, weiter umfassend: ein Berechnen einer Gesamtanzahl bestimmter Bereiche, die dem Objekt entsprechen, auf Grundlage des annotierten Bildes, wobei die bestimmten Bereiche jeweils der bestimmte Bereich sind; ein Berechnen von Kombinationen des Einfügens des Objektbildes in einen oder mehrere der bestimmten Bereiche; und ein Einfügen des Objektbildes in jede der Kombinationen.
Trainingsdatenerzeugungsverfahren nach einem beliebigen der Ansprüche 1 bis 5, weiter umfassend: ein Aktualisieren, auf Grundlage des Objektbildes, der Annotierungsinformationen über den bestimmten Bereich auf dem annotierten Bild, auf dem das Objektbild eingefügt worden ist.
Trainingsdatenerzeugungsverfahren nach einem beliebigen der Ansprüche 1 bis 6, wobei das annotierte Bild ein markiertes Bild ist, erlangt durch ein Durchführen einer Bildsegmentierung des Kamerabildes, und das Objektbild in den bestimmten Bereich auf dem markierten Bild eingefügt wird.
Trainingsdatenerzeugungsvorrichtung, umfassend: einen Erlanger, der ein Kamerabild, ein annotiertes Bild, erzeugt durch ein Hinzufügen von Annotierungsinformationen zu dem Kamerabild, und ein Objektbild erlangt, das ein durch ein Lernmodell zu erfassendes Objekt zeigt; einen Markierungsbestimmer, der einen bestimmten, dem Objekt entsprechenden Bereich auf Grundlage des annotierten Bildes identifiziert; und einen Bildcompositor, der das Objektbild in den bestimmten Bereich auf jedem aus dem Kamerabild und dem annotierten Bild einfügt.
Programm zum Veranlassen eines Computers, das Trainingsdatenerzeugungsverfahren nach einem beliebigen der Ansprüche 1 bis 7 auszuführen.