DE112020007668B4

DE112020007668B4 - Trainingsdatenerzeugungseinrichtung und trainingsdatenerzeugungsverfahren

Info

Publication number: DE112020007668B4
Application number: DE112020007668.7T
Authority: DE
Inventors: Yoshihiro Tomaru; Toshihisa Suzuki
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-06-27
Anticipated expiration: 2040-12-08
Also published as: DE112020007668T5; US20230260209A1; WO2022123636A1; JPWO2022123636A1; CN116648720A; JP7229440B2

Abstract

Trainingsdatenerzeugungseinrichtung (100), umfassend:
eine 3D-Modellerfassungseinheit (110) zum Erfassen von 3D-Modellinformationen, die ein 3D-Modell eines Objekts angeben;
eine Teilbilderfassungseinheit (120) zum Erfassen von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem das Objekt in einem fotografierten Bild erscheint;
eine Texturkoordinatenerfassungseinheit (130) zum Erfassen zweidimensionaler Texturkoordinaten für eine Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Teilbilderfassungseinheit erfassten Teilbildinformationen und der durch die 3D-Modellerfassungseinheit erfassten 3D-Modellinformationen;
eine Rendering-Bedingungserfassungseinheit (140) zum Erfassen von Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern eines 3D-Modells mit Textur ist, die durch Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Texturkoordinatenerfassungseinheit erfassten zweidimensionalen Texturkoordinaten erhalten wird;
eine Zweidimensionales-Bild-Erfassungseinheit (150) zum Erfassen von zweidimensionalen Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit einer Textur auf Grundlage der durch die Rendering-Bedingungserfassungseinheit erfassten Rendering-Bedingungsinformationen gerendert wird; und
eine Trainingsdaten-Ausgabeeinheit (190) zum Ausgeben der von der Zweidimensionales-Bild-Erfassungseinheit erfassten zweidimensionalen Bildinformationen.

Description

GEBIET DER TECHNIK
Die vorliegende Offenbarung betrifft eine Trainingsdatenerzeugungseinrichtung und ein Trainingsdatenerzeugungsverfahren.
HINTERGRUND ZUM STAND DER TECHNIK
Es wird eine Technik verwendet, bei der fotografierte Bildinformationen, die ein fotografiertes Bild angeben, das durch Fotografieren eines Objekts erhalten wird, als erklärende Variable in ein trainiertes Modell eingegeben werden, und das trainierte Modell veranlasst wird, eine Form, eine Mittelposition, eine Art oder ähnliches des Objekts abzuleiten.
Damit das trainierte Modell veranlasst werden kann, eine hochpräzise Ableitung bzw. Inferenz durchzuführen, ist es notwendig, eine große Menge an Trainingsdaten für das Training des Lernmodells vorzubereiten.
Zum Beispiel offenbart Nicht-Patentliteratur 1 auf dem Gebiet der Robotersteuerungstechnologie eine Technologie zur Erzeugung eines trainierten Modells durch Trainieren eines Lernmodells, indem als Trainingsdaten nicht fotografierte Bildinformationen, sondern nur CG-Bildinformationen verwendet werden, die ein CG-Bild angeben, das durch Fotografieren eines dreidimensionalen (im Folgenden als „3D“ bezeichnet) Modells, das durch Computergrafik (im Folgenden als „CG“ bezeichnet) erzeugt wurde, mit einer virtuellen Kamera erhalten wird, und zur Erzeugung eines trainierten Modells, das in der Lage ist, eine Mittelposition eines Objekts abzuleiten, das in einem fotografierten Bild erscheint, das durch die fotografierten Bildinformationen angegeben wird, indem die fotografierten Bildinformationen als eine erklärende Variable eingegeben werden.
Bei der in Nicht-Patentliteratur 1 offenbarten Technologie (im Folgenden als „Stand der Technik“ bezeichnet) ist es möglich, eine große Menge an Trainingsdaten zu erzeugen, indem ein durch CG erstelltes 3D-Modell mit einer virtuellen Kamera fotografiert wird.
Patentliteratur 1 beschreibt eine Wiedergabevorrichtung mit einer 3D Modellerzeugungseinheit, die ausgebildet ist, ein 3D- Modell zur Vergrößerung/Verkleinerung zu erzeugen, wenn eine Vergrößerung/Verkleinerung eines Weitwinkelbildes gewählt wird.
Patentliteratur 2 offenbart eine Informationsverarbeitungsvorrichtung mit einer Empfangseinheit, die eine Anforderung einschließlich Lastinformationen bezüglich einer Last empfängt, und einer Sendeeinheit, die einen Datensatz in Übereinstimmung mit der Anforderung sendet. Der Datensatz umfasst dreidimensionale Formdaten und Texturdaten für das linke und rechte Auge. Die dreidimensionalen Formdaten weisen eine Anzahl von Vertices entsprechend der Lastinformationen auf. Die Texturdaten für das linke und rechte Auge entsprechen dabei den dreidimensionalen Formdaten.
In Patentliteratur 3 wird ein Verfahren zur Erzeugung eines Simulationsmodells für eine Funkwellenausbreitung beschreiben, das eine große Menge an Texturbilddaten von einem Netzwerk und erste Lerndaten beschafft und ein Medium durch Deep Learning bestimmt, das jedem Texturbilddatenteil entspricht. Weiterhin wird ein 3D Formmodell eines Kommunikationsbereichs erzeugt. Ein dem 3D Formmodell entsprechendes Objekt in zweidimensionalen Bilddaten wird extrahiert und auf der Basis der ersten Lerndaten wird das Medium entsprechend einem Flächenbild des Objektes durch Deep Learning bestimmt. In einer Datenbank ist für jedes Medium eine Mediumkonstante gespeichert und es wird eine Mediumkonstante des Mediums entsprechend dem bestimmten Objekt geschätzt. Die geschätzte Mediumkonstante wird zu jedem Objekt in dem 3D Formmodell gesetzt und es wird ein Simulationsmodell der Funkwellenausbreitung in dem Kommunikationsbereich erzeugt.
REFERENZLISTE
NICHT-PATENTLITERATUR
Nicht-Patentliteratur 1: „Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, Pieter Abbeel", „Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World", [online], „arXiv preprint arXiv:1703.06907", [Abgerufen am 12. November 2020], Internet (URL:https://arxiv.org/abs/1703.06907).
PATENTLITERATUR

1. DE 11 2018 004 592 T5
2. DE 11 2018 006 939 T5
3. JP 2020 - 9 326 A

KURZFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Das 3D-Modell nach dem Stand der Technik ist ein 3D-Modell, das durch CG erstellt wurde und ist ein 3D-Modell mit einfacher Form und einfachem Muster. Daher ist der Stand der Technik geeignet, ein trainiertes Modell zu erzeugen, um die Form, Mittelposition, Art oder Ähnliches eines Objekts mit einfacher Form oder einfachem Muster abzuleiten.
Nach dem Stand der Technik ist es jedoch nötig, das Lernmodell mit mehr Trainingsdaten zu trainieren, um ein trainiertes Modell zu erzeugen, damit die Form, Mittelposition, Art oder Ähnliches eines Objekts mit einer komplizierten Form oder kompliziertem Muster akkurat abgeleitet werden können. Das heißt, dass der Stand der Technik das Problem aufweist, dass es lange dauert, ein Lernmodell zu trainieren, um ein trainiertes Modell zu erzeugen, damit eine Form, eine Mittelposition, eine Art oder ähnliches eines Objekts mit einer komplizierten Form oder kompliziertem Muster akkurat abgleitet werden können.
Die vorliegende Offenbarung zielt darauf ab, das oben beschriebene Problem zu lösen, und ein Ziel der vorliegenden Offenbarung ist es, eine Trainingsdatenerzeugungseinrichtung bereitzustellen, die Trainingsdaten erzeugen kann, die in der Lage sind, eine Trainingszeit, die erforderlich ist, um ein trainiertes Modell zu erzeugen, das in der Lage ist, akkurat eine Form, eine Mittelposition, eine Art oder ähnliches eines Objekts abzuleiten, im Vergleich zum Stand der Technik zu verkürzen, selbst wenn das Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist.
LÖSUNG DES PROBLEMS
Eine Trainingsdatenerzeugungseinrichtung gemäß der vorliegenden Offenbarung umfasst eine Teilbilderfassungseinheit zum Erfassen von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem ein Objekt in einem fotografierten Bild erscheint; eine 3D-Modellerfassungseinheit zum Erfassen von 3D-Modellinformationen, die ein 3D-Modell angeben; eine Texturkoordinatenerfassungseinheit zum Erfassen zweidimensionaler Texturkoordinaten für eine Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Teilbilderfassungseinheit erfassten Teilbildinformationen und der durch die 3D-Modellerfassungseinheit erfassten 3D-Modellinformationen; eine Rendering-Bedingungserfassungseinheit zum Erfassen von Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern eines 3D-Modells mit Textur ist, die durch Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Texturkoordinatenerfassungseinheit erfassten zweidimensionalen Texturkoordinaten erhalten wird; eine Zweidimensionales-Bild-Erfassungseinheit zum Erfassen von zweidimensionalen Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit einer Textur auf Grundlage der durch die Rendering-Bedingungserfassungseinheit erfassten Rendering-Bedingungsinformationen gerendert wird; und eine Trainingsdaten-Ausgabeeinheit zum Ausgeben der von der Zweidimensionales-Bild-Erfassungseinheit erfassten zweidimensionalen Bildinformationen.
VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
Gemäß der vorliegenden Offenbarung ist es möglich, selbst für ein Objekt mit einer komplizierten Form oder einem komplizierten Muster die Trainingszeit zu verkürzen, die zum Erzeugen eines trainierten Modells erforderlich ist, das in der Lage ist, die Form, die Mittelposition, die Art oder ähnliches des Objekts im Vergleich zum Stand der Technik abzuleiten.
KURZBESCHREIBUNG DER ZEICHNUNGEN

1 ist ein Blockschema, das ein Beispiel für eine Konfiguration eines Hauptteils eines Objektinferenzsystems darstellt, in dem eine Trainingsdatenerzeugungseinrichtung gemäß einer ersten Ausführungsform verwendet wird.
2 ist ein Blockschema, das ein Beispiel für eine Konfiguration eines Hauptteils der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform darstellt.
3 ist ein erläuterndes Diagramm, das ein Beispiel für ein 3D-Modell darstellt, das durch 3D-Modellinformationen angegeben wird, die durch eine 3D-Modellerfassungseinheit 110, die in der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform enthalten ist, erfasst werden.
4A ist ein erläuterndes Diagramm, das ein Beispiel für ein fotografiertes Bild darstellt, das durch fotografierte Bildinformationen angegeben wird, die durch eine Fotografiertes-Bild-Erfassungseinheit, die in der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform enthalten ist, erfasst wird. 4B ist ein erläuterndes Diagramm, das ein Beispiel eines Teilbildes zeigt, das aus dem in 4A dargestellten fotografierten Bild durch das Hintergrunddifferenzverfahren von einer Teilbilderfassungseinheit extrahiert wird, die in der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform enthalten ist.
5A ist ein erläuterndes Diagramm, das ein Beispiel eines UV-Entwicklungsdiagramms zeigt, in dem eine Texturkoordinatenerfassungseinheit, die in der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform enthalten ist, das in 3 dargestellte 3D-Modell UV-entwickelt. 5B ist ein erläuterndes Diagramm, das ein Beispiel des UV-Entwicklungsdiagramms zeigt, nachdem die Texturkoordinatenerfassungseinheit, die in der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform enthalten ist, eine Rotation und Reduktion an UV-Koordinaten in dem in 5A dargestellten UV-Entwicklungsdiagramm durchführt.
6 ist ein erläuterndes Diagramm, das ein Beispiel für ein 3D-Modell mit Textur gemäß der ersten Ausführungsform darstellt.
7A und 7B sind Schemata, die ein Beispiel für eine Hardware-Konfiguration des Hauptteils der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform darstellen.
8 ist ein Flussdiagramm, das ein Beispiel für eine Verarbeitung der Trainingsdatenerzeugungseinrichtung gemäß der ersten Ausführungsform darstellt.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Nachfolgend wird eine Ausführungsform der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen im Detail beschrieben.
Erste Ausführungsform.
Eine Trainingsdatenerzeugungseinrichtung 100 gemäß einer ersten Ausführungsform wird unter Bezugnahme auf 1 bis 8 beschrieben.
1 ist ein Blockschema, das ein Beispiel für eine Konfiguration eines Hauptteils eines Objektinferenzsystems 1 darstellt, in dem eine Trainingsdatenerzeugungseinrichtung 100 gemäß einer ersten Ausführungsform verwendet wird.
Das Objektinferenzsystem 1 weist eine Trainingsdatenerzeugungseinrichtung 100, eine Speichereinrichtung 10, eine Lerneinrichtung 20 und eine Inferenzeinrichtung 30 auf.
Die Speichereinrichtung 10 speichert elektronische Informationen, die ein Speichermedium, wie etwa ein Halbleiterlaufwerk bzw. Solid State Drive (SSD) oder ein Festplattenlaufwerk (HDD), aufweisen. Die Speichereinrichtung 10 ist mit der Trainingsdatenerzeugungseinrichtung 100, der Lerneinrichtung 20, der Inferenzeinrichtung 30 oder dergleichen über ein drahtgebundenes Kommunikationsmittel oder ein drahtloses Kommunikationsmittel verbunden.
Die Trainingsdatenerzeugungseinrichtung 100 erzeugt Trainingsdaten, die verwendet werden, wenn maschinelles Lernen zur Ableitung einer Form, einer Mittelposition, einer Art oder dergleichen eines Objekts durchgeführt wird, und gibt die erzeugten Trainingsdaten an die Lerneinrichtung 20 oder die Speichereinrichtung 10 aus. Einzelheiten der Trainingsdatenerzeugungseinrichtung 100 werden weiter unten beschrieben.
Die Lerneinrichtung 20 erfasst Trainingsdaten und führt maschinelles Lernen durch, um anhand der erfassten Trainingsdaten eine Form, eine Mittelposition, eine Art oder Ähnliches eines Objekts abzuleiten. Insbesondere erfasst die Lerneinrichtung 20 die von der Trainingsdatenerzeugungseinrichtung 100 ausgegebenen Trainingsdaten aus der Trainingsdatenerzeugungseinrichtung 100 oder der Speichereinrichtung 10, um maschinelles Lernen durchzuführen.
Die Lerneinrichtung 20 gibt Trainiertes-Modell-Informationen, die ein trainiertes Modell entsprechend einem Lernergebnis des maschinellen Lernens angeben, an die Inferenzeinrichtung 30 oder die Speichereinrichtung 10 aus. Das trainierte Modell, das von den Trainiertes-Modell-Informationen, die von der Lerneinrichtung 20 ausgegeben werden, angegeben wird, ist zum Beispiel ein neuronales Netz, das eine Eingabeschicht, eine Zwischenschicht, eine Ausgabeschicht und dergleichen aufweist.
Die Lerneinrichtung 20 umfasst beispielsweise einen Universalcomputer wie einen Personalcomputer.
Die Inferenzeinrichtung 30 erfasst fotografierte Bildinformationen, die ein fotografiertes Bild angeben, das durch Fotografieren eines Objekts eines Inferenzziels bzw. Ableitungsziels von der Speichereinrichtung 10 oder einer Bildgebungseinrichtung (in 1 nicht dargestellt) erhalten wird. Darüber hinaus erfasst die Inferenzeinrichtung 30 die von der Lerneinrichtung 20 ausgegebenen Trainiertes-Modell-Informationen von der Lerneinrichtung 20 oder der Speichereinrichtung 10. Die Inferenzeinrichtung 30 gibt die erfassten fotografierten Bildinformationen als erklärende Variable in das trainierte Modell ein, das durch die erfassten Trainiertes-Modell-Informationen angegeben wird, wodurch das trainierte Modell veranlasst wird, die Form, die Mittelposition, die Art oder ähnliches des Objekts abzuleiten, das in dem fotografierten Bild erscheint, das durch die fotografierten Bildinformationen angegeben wird. Die Inferenzeinrichtung 30 gibt Inferenzergebnisinformationen, die ein Ergebnis der Inferenz angeben, durch das trainierte Modell an die Speichereinrichtung 10 oder eine Ausgabeeinrichtung (in 1 nicht dargestellt) aus. Es ist zu beachten, dass die Ausgabeeinrichtung beispielsweise eine Anzeigeausgabeeinrichtung wie etwa eine Anzeige ist. Die Ausgabeeinrichtung ist nicht auf die Anzeigeausgabeeinrichtung beschränkt und kann eine Leuchteinrichtung, wie eine Lampe, eine Audio-Ausgabeeinrichtung, wie ein Lautsprecher, oder dergleichen sein. Die Ausgabeeinrichtung erfasst die von der Inferenzeinrichtung 30 ausgegebenen Inferenzergebnisinformationen und gibt die erfassten Inferenzergebnisinformationen durch Licht, Sprache oder dergleichen in einem Zustand aus, in dem der Benutzer die Inferenzergebnisinformationen erkennen kann.
Sowohl die Inferenzeinrichtung 30 als auch die Lerneinrichtung 20 sind beispielsweise durch einen Universalcomputer wie einen Personalcomputer konfiguriert.
Eine Konfiguration eines Hauptteils der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform wird unter Bezugnahme auf 2 beschrieben.
2 ist ein Blockschema, das ein Beispiel der Konfiguration des Hauptteils der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform veranschaulicht.
Die Trainingsdatenerzeugungseinrichtung 100 umfasst eine 3D-Modellerfassungseinheit 110, eine Teilbilderfassungseinheit 120, eine Texturkoordinatenerfassungseinheit 130, eine Rendering-Bedingungserfassungseinheit 140, eine Zweidimensionales-Bild-Erfassungseinheit 150 und eine Trainingsdatenausgabeeinheit 190.
Die Trainingsdatenerzeugungseinrichtung 100 kann neben der 3D-Modellerfassungseinheit 110, der Teilbilderfassungseinheit 120, der Texturkoordinatenerfassungseinheit 130, der Rendering-Bedingungserfassungseinheit 140, der Zweidimensionales-Bild-Erfassungseinheit 150 und der Trainingsdatenausgabeeinheit 190 auch eine Bedienungsempfangseinheit 101, eine Fotografiertes-Bild-Erfassungseinheit 121 und eine Label-Erfassungseinheit 160 aufweisen.
Wie in 2 dargestellt, wird die Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform so beschrieben, dass sie die Bedienungsempfangseinheit 101, die 3D-Modellerfassungseinheit 110, die Teilbilderfassungseinheit 120, die Fotografiertes-Bild-Erfassungseinheit 121, die Texturkoordinatenerfassungseinheit 130, die Rendering-Bedingungserfassungseinheit 140, die Zweidimensionales-Bild-Erfassungseinheit 150, die Label-Erfassungseinheit 160 und die Trainingsdatenausgabeeinheit 190 aufweist.
Die Bedienungsempfangseinheit 101 empfängt ein Bedienungssignal, das von einer Bedienungseingabeeinrichtung (in 2 nicht dargestellt) wie einer Tastatur oder einer Zeigeeinrichtung ausgegeben wird, und wandelt das Bedienungssignal in Bedienungsinformationen um, die dem Bedienungssignal entsprechen. Insbesondere empfängt die Bedienungsempfangseinheit 101 ein Bedienungssignal, das von der Bedienungseingabeeinrichtung ausgegeben wird, wenn der Benutzer die Bedienungseingabeeinrichtung bedient, und wandelt das Bedienungssignal in Bedienungsinformationen um, die dem Bedienungssignal entsprechen.
Die Bedienungsempfangseinheit 101 gibt die umgewandelten Bedienungsinformationen an die 3D-Modellerfassungseinheit 110, die Teilbilderfassungseinheit 120, die Fotografiertes-Bild-Erfassungseinheit 121, die Rendering-Bedingungserfassungseinheit 140 und dergleichen aus.
Die 3D-Modellerfassungseinheit 110 erfasst 3D-Modellinformationen, die ein dreidimensionales (im Folgenden als „3D“ bezeichnete) Modell angeben. Die 3D-Modellerfassungseinheit 110 erfasst zum Beispiel die 3D-Modellinformationen durch Auslesen der 3D-Modellinformationen aus der Speichereinrichtung 10. Die 3D-Modellerfassungseinheit 110 kann die 3D-Modellinformationen bereits enthalten. Ferner kann die 3D-Modellerfassungseinheit 110 zum Beispiel die 3D-Modellinformationen auf der Grundlage der von der Bedienungsempfangseinheit 101 ausgegebenen Bedienungsinformationen erfassen. Konkret kennzeichnet beispielsweise ein Benutzer die in der Speichereinrichtung 10 gespeicherten 3D-Modellinformationen, indem die Bedienungseingabeeinrichtung bedient wird. Die Bedienungsempfangseinheit 101 empfängt ein Bedienungssignal, das die bezeichneten 3D-Modellinformationen angibt, wandelt das Bedienungssignal in Bedienungsinformationen um, die dem Bedienungssignal entsprechen, und gibt die Bedienungsinformationen nach Umwandlung an die 3D-Modellerfassungseinheit 110 aus. Die 3D-Modellerfassungseinheit 110 liest die vom Benutzer bezeichneten 3D-Modellinformationen aus der Speichereinrichtung 10 aus, indem die Bedienungsinformationen von der Bedienungsempfangseinheit 101 erfasst werden, wodurch die vom Benutzer gewünschten 3D-Modellinformationen erfasst werden.
3 ist ein erläuterndes Diagramm, das ein Beispiel für ein 3D-Modell darstellt, das durch 3D-Modellinformationen angegeben wird, die durch die 3D-Modellerfassungseinheit 110, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, erfasst werden.
Insbesondere wird 3 durch Visualisierung des 3D-Modells, das durch die von der 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen angegeben wird, als zweidimensionales Bild durch Computergrafiken (im Folgenden als „CG“ bezeichnet) erhalten.
Eine Teilbilderfassungseinheit 120 erfasst Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem ein abzuleitendes Objekt in dem fotografierten Bild erscheint.
Konkret erfasst beispielsweise die Teilbilderfassungseinheit 120 die Teilbildinformationen durch Auslesen der Teilbildinformationen aus der Speichereinrichtung 10, in der die Teilbildinformationen vorab gespeichert sind.
Genauer gesagt erfasst die Teilbilderfassungseinheit 120 beispielsweise die vom Benutzer spezifizierten Teilbildinformationen über die Bedienungseingabeeinrichtung auf der Grundlage der von der Bedienungsempfangseinheit 101 erfassten Bedienungsinformationen.
Die Fotografiertes-Bild-Erfassungseinheit 121 erfasst fotografierte Bildinformationen, die ein fotografiertes Bild angeben, in dem ein abzuleitendes Objekt erscheint.
Konkret erfasst beispielsweise die Fotografiertes-Bild-Erfassungseinheit 121 die fotografierten Bildinformationen durch Auslesen der fotografierten Bildinformationen aus der Speichereinrichtung 10, in der die fotografierten Bildinformationen vorab gespeichert sind.
Genauer gesagt erfasst die Fotografiertes-Bild-Erfassungseinheit 121 beispielsweise die vom Benutzer spezifizierten fotografierten Bildinformationen über die Bedienungseingabeeinrichtung auf der Grundlage der von der Bedienungsempfangseinheit 101 erfassten Bedienungsinformationen.
In einem Fall, in dem die Trainingsdatenerzeugungseinrichtung 100 die Fotografiertes-Bild-Erfassungseinheit 121 aufweist, kann die Teilbilderfassungseinheit 120 die Teilbildinformationen erfassen, die das Teilbild angeben, das der Bildbereich ist, in dem das Objekt in dem fotografierten Bild erscheint, indem durch ein Hintergrunddifferenzverfahren eine Vordergrundextraktion an dem fotografierten Bild durchgeführt wird, das durch die fotografierten Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit 121 erfasst werden, und einen rechteckigen Bereich einschließlich eines extrahierten Vordergrundbereichs aus dem fotografierten Bild extrahiert. Das Verfahren der Durchführung einer Vordergrundextraktion aus einem Bild durch das Hintergrunddifferenzverfahren ist eine bekannte Technik, so dass ihre Beschreibung hier entfällt. Darüber hinaus extrahiert die Teilbilderfassungseinheit 120 einen rechteckigen Bereich, der den Vordergrundbereich enthält, aus dem fotografierten Bild durch einen Single-Shot-Multibox-Detektor (SSD) oder dergleichen. Das Verfahren zum Extrahieren eines rechteckigen Bereichs, der einen Vordergrundbereich enthält, aus einem Bild, wie zum Beispiel ein SSD, ist eine bekannte Technik, so dass auf eine Beschreibung verzichtet wird.
4 ist ein erläuterndes Diagramm, das ein Beispiel eines Teilbildes zeigt, das durch die Teilbilderfassungseinheit 120, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, aus einem fotografierten Bild extrahiert wird, das durch fotografierte Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit 121 durch das Hintergrunddifferenzverfahren erfasst werden.
Konkret ist 4A ein erläuterndes Diagramm, das ein Beispiel für ein fotografiertes Bild darstellt, das durch fotografierte Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit 121, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, erfasst werden. Außerdem ist 4B ein erläuterndes Diagramm, das ein Beispiel eines Teilbildes zeigt, das aus dem in 4A dargestellten fotografierten Bild durch das Hintergrunddifferenzverfahren durch die Teilbilderfassungseinheit 120 extrahiert wird, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist.
Wie in 4 dargestellt, extrahiert die Teilbilderfassungseinheit 120 ein in 4B als Beispiel dargestelltes Teilbild durch Extrahieren eines rechteckigen Bereichs einschließlich eines Vordergrundbereichs, der ein Bildbereich ist, in dem ein Objekt erscheint, aus dem in 4A als Beispiel dargestellten fotografierten Bild durch das Hintergrunddifferenzverfahren.
Wie oben beschrieben, ist die Teilbilderfassungseinheit 120 eingerichtet, die Teilbildinformationen zu erfassen, die das Teilbild angeben, indem das Teilbild aus dem fotografierten Bild extrahiert wird, das durch die fotografierten Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit 121 erfasst werden, wodurch die Trainingsdatenerzeugungseinrichtung 100 die Erzeugung der Teilbildinformationen automatisieren kann.
Auf der Grundlage der durch die Teilbilderfassungseinheit 120 erfassten Teilbildinformationen und der durch die 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen erfasst die Texturkoordinatenerfassungseinheit 130 zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell.
Die Texturkoordinatenerfassungseinheit 130 UV-entwickelt konkret das durch die 3D-Modellinformationen angegebene 3D-Modell und erfasst UV-Koordinaten, die zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem UV-entwickelten 3D-Modell sind.
Ein Verfahren zur Erfassung von UV-Koordinaten für die Texturabbildung eines Bildes auf einem UV-entwickelten 3D-Modell ist eine bekannte Technik, so dass auf eine Beschreibung verzichtet wird.
Die Texturkoordinatenerfassungseinheit 130 kann eine Koordinatentransformation der UV-Koordinaten durchführen, indem mindestens eines von Rotation, Translation und Vergrößerung oder Verkleinerung an den erfassten UV-Koordinaten durchgeführt wird, und transformierte UV-Koordinaten, die die UV-Koordinaten nach Transformation sind, als zweidimensionale Texturkoordinaten zur Texturabbildung des Teilbildes auf das 3D-Modell erfassen.
Zum Beispiel können die UV-Koordinaten mit Hilfe der folgenden Formel (1) eine Koordinatentransformation in transformierte UV-Koordinaten durchge- $(\begin{matrix} U' \\ V' \end{matrix}) = α (\begin{matrix} cos θ & - sin θ \\ sin θ & cos θ \end{matrix}) (\begin{matrix} U - o f f s e t_{u} \\ V - o f f s e t_{v} \end{matrix})$
führt werden.
Dabei steht (U, V) für eine UV-Koordinate, (U', V') steht für eine transformierte UV-Koordinate, offset_u und offset_v stehen für Bewegungsbeträge des Verschiebens der UV-Koordinate, θ steht für einen Winkel zur Rotation der UV-Koordinate und α steht für ein Vergrößerungs- (Verkleinerungs-) Verhältnis zur Vergrößerung oder Verkleinerung der UV-Koordinate.
5A ist ein erläuterndes Diagramm, das ein Beispiel eines UV-Entwicklungsdiagramms zeigt, in dem die Texturkoordinatenerfassungseinheit 130, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, das in 3 dargestellte 3D-Modell UV-entwickelt.
Konkret ist 5A ein erläuterndes Diagramm, das ein Beispiel eines UV-Entwicklungsdiagramms zeigt, in dem die Texturkoordinatenerfassungseinheit 130, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, das in 3 dargestellte 3D-Modell UV-entwickelt. Außerdem ist 5B ein erläuterndes Diagramm, das ein Beispiel des UV-Entwicklungsdiagramms zeigt, nachdem die Texturkoordinatenerfassungseinheit 130, die in der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform enthalten ist, die UV-Koordinaten in dem in 5A dargestellten UV-Entwicklungsdiagramm rotiert und reduziert.
Auf der Grundlage der durch die Texturkoordinatenerfassungseinheit 130 erfassten zweidimensionalen Texturkoordinaten, erfasst die Rendering-Bedingungserfassungseinheit 140 Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern eines 3D-Modells mit Textur ist, die durch Texturabbildung eines durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell erhalten wird.
6 ist ein erläuterndes Diagramm, das ein Beispiel für ein 3D-Modell mit Textur gemäß der ersten Ausführungsform darstellt.
Insbesondere wird das in 6 dargestellte 3D-Modell mit Textur durch Texturabbildung des in 4B als Beispiel dargestellten Teilbildes auf das in 3 als Beispiel dargestellte 3D-Modell auf der Grundlage des in 5B als Beispiel dargestellten UV-Entwicklungsdiagramms des in 3 als Beispiel dargestellten 3D-Modells erhalten.
Beispielsweise erfasst die Redering-Bedingungserfassungseinheit 140 die Rendering-Informationen durch Auslesen der Rendering-Bedingungsinformationen aus der Speichereinrichtung 10, in der die Rendering-Bedingungsinformationen vorab gespeichert sind.
Konkret geben die von der Rendering-Bedingungsbeschaffungseinheit 140 erfassten Rendering-Bedingungsinformationen beispielsweise eine Bedingung an, wenn das 3D-Modell mit Textur in einem CG-Raum mit einer virtuellen Kamera fotografiert wird.
Genauer gesagt, erfasst beispielsweise die Rendering-Bedingungserfassungseinheit 140 als Rendering-Bedingungsinformationen Informationen, die die Position oder Lage des 3D-Modells in einem CG-Raum, die durch die von der 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen angegeben werden, die Größe des 3D-Modells einschließlich des Begrenzungsrahmens im CG-Raum, die Position oder Lage der virtuellen Kamera im CG-Raum, die Position der Lichtquelle im CG-Raum, die Farbe des von der Lichtquelle emittierten Lichts oder Ähnliches angeben.
Es ist zu beachten, dass die Anzahl der von der Rendering-Bedingungserfassungseinheit 140 erfassten Rendering-Bedingungsinformationen nicht auf eine beschränkt ist und dass die Rendering-Bedingungserfassungseinheit 140 eine Vielzahl von Teilen von Rendering-Bedingungsinformationen mit unterschiedlichen Rendering-Bedingungen erfasst.
Ferner ist das Verfahren, durch das die Redering-Bedingungserfassungseinheit 140 die Rendering-Bedingungsinformationen erfasst, nicht auf das Verfahren beschränkt, durch das die Rendering-Bedingungserfassungseinheit 140 die Rendering-Bedingungsinformationen durch Auslesen der Rendering-Bedingungsinformationen aus der Speichereinrichtung 10 erfasst.
Beispielsweise erfasst die Rendering-Bedingungserfassungseinheit 140 eine Rendering-Bedingung durch Auslesen, aus der Speichereinrichtung 10, von Informationen, die eine Formel angeben, die die Rendering-Bedingung wie z. B. die Position oder Lage des 3D-Modells in dem CG-Raum, die durch die von den 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen angegeben werden, die Größe des 3D-Modells einschließlich des Begrenzungsrahmens im CG-Raum, die Position oder Lage der virtuellen Kamera im CG-Raum, die Position der Lichtquelle im CG-Raum oder die Farbe des von der Lichtquelle emittierten Lichts oder Ähnliches bestimmen kann. Die Rendering-Bedingungserfassungseinheit 140 kann die Rendering-Bedingungsinformationen erfassen, indem die Rendering-Bedingung bestimmt wird, indem vorgegebene Werte in Parameter eingesetzt werden, die in der durch die Informationen angegebenen Formel enthalten sind.
Hier ist die Anzahl der Werte, die von der Rendering-Bedingungserfassungseinheit 140 für den Parameter eingesetzt werden, nicht auf einen beschränkt, und es können eine Vielzahl von voneinander verschiedenen Werten für den Parameter eingesetzt werden, und die Rendering-Bedingungserfassungseinheit 140 kann die Rendering-Bedingung bestimmen, indem nacheinander eine Vielzahl von voneinander verschiedenen Werten für den Parameter als einen vorgegebenen Wert eingesetzt werden.
Auf der Grundlage der durch die Rendering-Bedingungserfassungseinheit 140 erfassten Rendering-Bedingungsinformationen erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 zweidimensionale Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit Textur gerendert wird.
Insbesondere erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 jedes Mal, wenn die Rendering-Bedingungserfassungseinheit 140 jedes einer Vielzahl von Stücken von gegenseitig unterschiedlichen Rendering-Bedingungsinformationen erfasst, zweidimensionale Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit Textur auf der Grundlage der Rendering-Bedingungsinformationen, die von der Rendering-Bedingungserfassungseinheit 140 erfasst werden, gerendert wird.
Die Trainingsdatenausgabeeinheit 190 gibt die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfassten zweidimensionalen Bildinformationen aus.
Insbesondere gibt die Trainingsdatenausgabeeinheit 190 die zweidimensionalen Bildinformationen aus, die von der Zweidimensionales-Bild-Erfassungseinheit 150 jedes Mal erfasst werden, wenn die Rendering-Bedingungserfassungseinheit 140 jedes einer Vielzahl von Teilen von gegenseitig unterschiedlichen Rendering-Bedingungsinformationen erfasst.
Zum Beispiel gibt die Trainingsdatenausgabeeinheit 190 die zweidimensionalen Bildinformationen an die Speichereinrichtung 10 oder die Lerneinrichtung 20 aus.
Die Lerneinrichtung 20 erfasst die zweidimensionalen Bildinformationen, die von der Trainingsdatenausgabeeinheit 190 als Trainingsdaten ausgegeben werden, führt maschinelles Lernen unter Verwendung der erfassten Trainingsdaten durch und erzeugt ein trainiertes Modell zur Ableitung der Form, der Mittelposition, der Art oder dergleichen des Objekts.
Mit der oben beschriebenen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100 eine Vielzahl von Teilen von zweidimensionalen Bildinformationen auf der Grundlage eines Stücks einer Teilbildinformation ausgeben, auf der Grundlage von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem ein Objekt in einem fotografierten Bild erscheint, das durch Fotografieren eines Objekts erhalten wurde.
Da die Lerneinrichtung 20 maschinelles Lernen unter Verwendung der zweidimensionalen Bildinformationen durchführt, die von der Trainingsdatenerzeugungseinrichtung 100 als Trainingsdaten ausgegeben werden, enthält das zweidimensionale Bild, das durch die zweidimensionalen Bildinformationen angegeben wird, ein Teilbild, und daher ist selbst in einem Fall, in dem die Form oder das Muster des abzuleitenden Objekts kompliziert ist, die Trainingszeit, die für die Erzeugung des trainierten Modells erforderlich ist, das in der Lage ist, die Form, die Mittelposition, die Art oder ähnliches des Objekts genau abzuleiten, kürzer als in der verwandten Technik.
Das heißt, dass selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, kann die Trainingsdatenerzeugungseinrichtung 100 die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Es ist zu beachten, dass die Zweidimensionales-Bild-Erfassungseinheit 150 zusätzlich zum Erfassen der zweidimensionalen Bildinformationen begleitende Bildinformationen erfassen kann, die ein Segmentbild, ein Tiefenbild oder dergleichen entsprechend dem zweidimensionalen Bild angeben, das durch die zweidimensionalen Bildinformationen angegeben wird.
Das Verfahren zur Erfassung des Segmentbildes oder des Tiefenbildes durch Rendering des 3D-Modells mit Textur ist eine bekannte Technik, so dass auf eine Beschreibung verzichtet werden kann.
Die Trainingsdatenerzeugungseinrichtung 100 kann die Label-Erfassungseinheit 160 enthalten.
Die Label-Erfassungseinheit 160 erfasst Label-Informationen, die ein Label angeben, das sich auf die zweidimensionalen Bildinformationen bezieht, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden.
In einem Fall, in dem die Trainingsdatenerzeugungseinrichtung 100 die Label-Erfassungseinheit 160 umfasst, gibt die Trainingsdatenausgabeeinheit 190 die von der Label-Erfassungseinheit 160 erfassten Label-Informationen in Verbindung mit den zweidimensionalen Bildinformationen zusätzlich zu den von der Zweidimensionales-Bild-Erfassungseinheit 150 angegebenen zweidimensionalen Bildinformationen aus.
Insbesondere gibt die Trainingsdatenausgabeeinheit 190 beispielsweise jedes Mal, wenn die Rendering-Bedingungserfassungseinheit 140 eine Vielzahl von gegenseitig unterschiedlichen Rendering-Bedingungsinformationen erfasst, die zweidimensionalen Bildinformationen, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden, und die Label-Informationen, die von der Label-Erfassungseinheit 160 erfasst werden, in Verbindung miteinander an die Speichereinrichtung 10 oder die Lerneinrichtung 20 aus.
Die Lerneinrichtung 20 erfasst die zweidimensionalen Bildinformationen, die von der Trainingsdatenausgabeeinheit 190 ausgegeben werden, und die mit den zweidimensionalen Bildinformationen verknüpften Label-Informationen als Trainingsdaten, führt maschinelles Lernen unter Verwendung der erfassten Trainingsdaten durch und erzeugt ein trainiertes Modell zur Ableitung der Form, der Mittelposition, der Art oder dergleichen des Objekts.
Beispielsweise erfasst die Label-Erfassungseinheit 160 als die Label-Informationen Teil-Rendering-Informationen, die zumindest einen Teil der Rendering-Bedingungen angeben, die durch die Rendering-Bedingungsinformationen angegeben werden, die verwendet werden, wenn die Zweidimensionales-Bild-Erfassungseinheit 150 die zweidimensionalen Bildinformationen erfasst. Da die Rendering-Bedingungsinformationen bereits oben beschrieben wurden, wird auf eine Beschreibung verzichtet.
Die von der Label-Erfassungseinheit 160 erfassten Label-Informationen sind nicht auf Teil-Rendering-Informationen beschränkt.
Beispielsweise in einem Fall, in dem die Zweidimensionales-Bild-Erfassungseinheit 150 zusätzlich zum Erfassen der zweidimensionalen Bildinformationen begleitende Bildinformationen erfasst, die ein Segmentbild, ein Tiefenbild oder Ähnliches entsprechend dem zweidimensionalen Bild angeben, das durch die zweidimensionalen Bildinformationen angegeben wird, kann die Label-Erfassungseinheit 160 die begleitenden Bildinformationen, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden, als die Label-Informationen erfassen.
Mit der oben beschriebenen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100 eine Vielzahl von Informationssätzen, in denen zweidimensionale Bildinformationen auf der Grundlage eines Stücks von Teilbildinformationen und Label-Informationen miteinander verknüpft sind, auf der Grundlage von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem ein Objekt in einem fotografierten Bild erscheint, das durch Fotografieren eines Objekts erhalten wurde, ausgeben.
Da die Lerneinrichtung 20 maschinelles Lernen unter Verwendung der zweidimensionalen Bildinformationen durchführt, die von der Trainingsdatenerzeugungseinrichtung 100 als Trainingsdaten ausgegeben werden, enthält das zweidimensionale Bild, das durch die zweidimensionalen Bildinformationen angegeben wird, ein Teilbild, und daher ist selbst in einem Fall, in dem die Form oder das Muster des abzuleitenden Objekts kompliziert ist, die Trainingszeit, die für die Erzeugung des trainierten Modells erforderlich ist, das in der Lage ist, die Form, die Mittelposition, die Art oder ähnliches des Objekts genau abzuleiten, kürzer als in der verwandten Technik.
Das heißt, dass selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, kann die Trainingsdatenerzeugungseinrichtung 100 die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Außerdem gilt, da die Lerneinrichtung 20 maschinelles Lernen durchführt, indem sie zusätzlich zu den zweidimensionalen Bildinformationen, die von der Trainingsdatenerzeugungseinrichtung 100 ausgegeben werden, die Label-Informationen als Trainingsdaten verwendet, dass die für die Erzeugung des trainierten Modells erforderliche Trainingszeit im Vergleich zu dem Fall verkürzt wird, in dem maschinelles Lernen nur unter Verwendung der zweidimensionalen Bildinformationen als Trainingsdaten durchgeführt wird.
Das heißt, dass selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, kann die Trainingszeit weiter verkürzt werden, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts im Vergleich zum Stand der Technik abzuleiten, da die Trainingsdatenerzeugungseinrichtung 100 den Informationensatz erzeugt, in dem die zweidimensionalen Bildinformationen und die Label-Informationen miteinander verknüpft sind.
Eine Hardware-Konfiguration des Hauptteils der Trainingsdaten-Erzeugungseinrichtung 100 gemäß der ersten Ausführungsform wird nun unter Bezugnahme auf 7A und 7B beschrieben.
7A und 7B sind Schemata, die ein Beispiel für eine Hardware-Konfiguration eines Hauptteils der Trainingsdaten-Erzeugungseinrichtung 100 gemäß der ersten Ausführungsform darstellen.
Wie in 7A dargestellt ist, wird die Trainingsdatenerzeugungseinrichtung 100 von einem Computer konfiguriert, und der Computer weist einen Prozessor 201 und einen Speicher 202 auf. Der Speicher 202 speichert Programme, die den Computer veranlassen, als die Bedienungsempfangseinheit 101, die 3D-Modellerfassungseinheit 110, die Teilbilderfassungseinheit 120, die Fotografiertes-Bild-Erfassungseinheit 121, die Texturkoordinatenerfassungseinheit 130, die Rendering-Bedingungserfassungseinheit 140, die Zweidimensionales-Bild-Erfassungseinheit 150, die Label-Erfassungseinheit 160 und die Trainingsdatenausgabeeinheit 190 zu arbeiten. Der Prozessor 201 liest die im Speicher 202 gespeicherten Programme und führt sie aus, wodurch die Bedienungsempfangseinheit 101, die 3D-Modellerfassungseinheit 110, die Teilbilderfassungseinheit 120, die Fotografiertes-Bild-Erfassungseinheit 121, die Texturkoordinatenerfassungseinheit 130, die Rendering-Bedingungserfassungseinheit 140, die Zweidimensionales-Bild-Erfassungseinheit 150, die Label-Erfassungseinheit 160 und die Trainingsdatenausgabeeinheit 190 implementiert werden.
Wie in 7B dargestellt ist, kann die Trainingsdatenerzeugungseinrichtung 100 außerdem eine Verarbeitungsschaltung 203 aufweisen. In diesem Fall können die Funktionen der Bedienungsempfangseinheit 101, der 3D-Modellerfassungseinheit 110, der Teilbilderfassungseinheit 120, der Fotografiertes-Bild-Erfassungseinheit 121, der Texturkoordinatenerfassungseinheit 130, der Rendering-Bedingungserfassungseinheit 140, der Zweidimensionales-Bild-Erfassungseinheit 150, der Label-Erfassungseinheit 160 und der Trainingsdatenausgabeeinheit 190 durch die Verarbeitungsschaltung 203 implementiert werden.
Ferner kann die Trainingsdatenerzeugungseinrichtung 100 den Prozessor 201, den Speicher 202 und die Verarbeitungsschaltung 203 (nicht dargestellt) aufweisen. In diesem Fall können einige der Funktionen der Bedienungsempfangseinheit 101, der 3D-Modellerfassungseinheit 110, der Teilbilderfassungseinheit 120, der Fotografiertes-Bild-Erfassungseinheit 121, der Texturkoordinatenerfassungseinheit 130, der Rendering-Bedingungserfassungseinheit 140, der Zweidimensionales-Bild-Erfassungseinheit 150, der Label-Erfassungseinheit 160 und der Trainingsdatenausgabeeinheit 190 durch den Prozessor 201 und den Speicher 202 implementiert werden und die restlichen Funktionen können durch die Verarbeitungsschaltung 203 implementiert werden.
Der Prozessor 201 verwendet zum Beispiel eine zentrale Verarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Mikroprozessor, einen Mikrocontroller oder einen digitalen Signalprozessor (DSP).
Der Speicher 202 verwendet beispielsweise einen Halbleiterspeicher oder eine Magnetplatte. Genauer gesagt verwendet der Speicher 202 einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM), einen elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM), ein Solid-State-Laufwerk (SSD), ein Festplattenlaufwerk (HDD) oder Ähnliches.
Die Verarbeitungsschaltung 203 verwendet beispielsweise eine anwendungsspezifische integrierte Schaltung (ASIC), eine programmierbare Logikeinrichtung (PLD), ein feldprogrammierbares Gate-Array (FPGA), ein System-on-a-Chip (SoC) oder ein hochintegriertes System (LSI).
Der Betrieb der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform wird unter Bezugnahme auf 8 beschrieben.
8 ist ein Flussdiagramm, das ein Beispiel für eine Verarbeitung der Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform darstellt.
Zum Beispiel führt die Trainingsdatenerzeugungseinrichtung 100 wiederholt die Verarbeitung des Flussdiagramms aus.
Zuerst erfasst die 3D-Modellerfassungseinheit 110 in Schritt ST801 3D-Modellinformationen.
Als nächstes, in Schritt ST811, erfasst die Texturkoordinatenerfassungseinheit 130 UV-Koordinaten, die zweidimensionale Texturkoordinaten sind.
Als nächstes, in Schritt ST812, erfasst die Texturkoordinatenerfassungseinheit 130 umgewandelte UV-Koordinaten.
Als nächstes, in Schritt ST821, erfasst die Fotografiertes-Bild-Erfassungseinheit 121 fotografierte Bildinformationen.
Als nächstes, in Schritt ST822, erfasst die Teilbilderfassungseinheit 120 Teilbildinformationen.
Als nächstes, in Schritt ST831, erfasst die Rendering-Bedingungserfassungseinheit 140 Rendering-Bedingungsinformationen.
Als nächstes, in Schritt ST832, erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 zweidimensionale Bildinformationen.
Als nächstes, in Schritt ST833, erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 begleitende Bildinformationen.
Als nächstes, in Schritt ST834, erfasst die Label-Erfassungseinheit 160 Label-Informationen.
Als nächstes, in Schritt ST835, gibt die Trainingsdatenausgabeeinheit 190 zweidimensionale Bildinformationen und die Label-Informationen in Verbindung miteinander aus.
Nach der Ausführung der Verarbeitung von Schritt ST835 beendet die Trainingsdatenerzeugungseinrichtung 100 die Verarbeitung des Flussdiagramms und kehrt zum Beispiel zurück zu der Verarbeitung von Schritt ST801 und führt die Verarbeitung des Flussdiagramms wiederholt aus.
In einem Fall, in dem die Zweidimensionales-Bild-Erfassungseinheit 150 wiederholt ein Rendering unter Verwendung der von der 3D-Modellerfassungseinheit 110 in Schritt ST801 erfassten 3D-Modellinformationen durchführt, kann die Trainingsdatenerzeugungseinrichtung 100 die Verarbeitung des Flussdiagramms nach der Ausführung der Verarbeitung von Schritt ST835 beenden, zur Verarbeitung von Schritt ST811 oder Schritt ST812 zurückkehren und die Verarbeitung des Flussdiagramms wiederholt ausführen.
In einem Fall, in dem die Zweidimensionales-Bild-Erfassungseinheit 150 wiederholt ein Rendering auf der Grundlage der von der Texturkoordinatenerfassungseinheit 130 in Schritt ST811 erfassten UV-Koordinaten durchführt, kann die Trainingsdatenerzeugungseinrichtung 100 ferner die Verarbeitung des Flussdiagramms nach der Ausführung der Verarbeitung von Schritt ST835 beenden, zur Verarbeitung von Schritt ST812 oder Schritt ST821 zurückkehren und die Verarbeitung des Flussdiagramms wiederholt ausführen.
In einem Fall, in dem die Zweidimensionales-Bild-Erfassungseinheit 150 wiederholt ein Rendering auf der Grundlage der von der Texturkoordinatenerfassungseinheit 130 in Schritt ST812 erfassten umgewandelten UV-Koordinaten durchführt, kann die Trainingsdatenerzeugungseinrichtung 100 ferner die Verarbeitung des Flussdiagramms nach der Ausführung der Verarbeitung von Schritt ST835 beenden, zur Verarbeitung von Schritt ST821 zurückkehren und die Verarbeitung des Flussdiagramms wiederholt ausführen.
In einem Fall, in dem die Teilbilderfassungseinheit 120 wiederholt die Teilbildinformationen unter Verwendung der von der Fotografiertes-Bild-Erfassungseinheit 121 in Schritt ST821 erfassten fotografierten Bildinformationen erfasst, kann die Trainingsdatenerzeugungseinrichtung 100 ferner die Verarbeitung des Flussdiagramms nach der Ausführung der Verarbeitung von Schritt ST835 beenden, zur Verarbeitung von Schritt ST822 zurückkehren und die Verarbeitung des Flussdiagramms wiederholt ausführen.
In einem Fall, in dem die Rendering-Bedingungserfassungseinheit 140 wiederholt die Rendering-Bedingungsinformationen erfasst und die Zweidimensionales-Bild-Erfassungseinheit 150 wiederholt Rendering für jedes Stück der Rendering-Bedingungsinformationen durchführt, die von der Rendering-Bedingungserfassungseinheit 140 erfasst werden, kann die Trainingsdatenerzeugungseinrichtung 100 ferner die Verarbeitung des Flussdiagramms nach der Ausführung der Verarbeitung von Schritt ST835 beenden, zur Verarbeitung von Schritt ST831 zurückkehren und die Verarbeitung des Flussdiagramms wiederholt ausführen.
Es ist zu beachten, dass im Flussdiagramm die Verarbeitung in Schritt ST812 weggelassen werden kann, wenn die Texturkoordinatenerfassungseinheit 130 nicht die Funktion der Erfassung von transformierten UV-Koordinaten hat, die Verarbeitung in Schritt ST821 weggelassen werden kann, wenn die Teilbilderfassungseinheit 120 nicht die Funktion der Extraktion eines Teilbildes aus einem fotografierten Bild hat, und die Verarbeitung in Schritt ST833 weggelassen werden kann, wenn die Zweidimensionales-Bild-Erfassungseinheit 150 nicht die Funktion der Erfassung von begleitenden Bildinformationen hat.
Wenn darüber hinaus die Verarbeitung des Schritts ST801 vor der Verarbeitung des Schritts ST811, die Verarbeitung des Schritts ST811 vor der Verarbeitung des Schritts ST812 und die Verarbeitung des Schritts ST821 vor der Verarbeitung des Schritts ST822 ausgeführt wird, kann die Reihenfolge der Verarbeitung von Schritt ST801 bis Schritt ST822 beliebig sein.
Wie vorstehend beschrieben, umfasst die Trainingsdatenerzeugungseinrichtung 100: die 3D-Modellerfassungseinheit 110 zum Erfassen von 3D-Modellinformationen, die ein 3D-Modell angeben; die Teilbilderfassungseinheit 120 zum Erfassen von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem ein Objekt in einem fotografierten Bild erscheint; die Texturkoordinatenerfassungseinheit 130 zum Erfassen von zweidimensionalen Texturkoordinaten zur Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell, auf der Grundlage der durch die Teilbilderfassungseinheit 120 erfassten Teilbildinformationen und der durch die 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen; die Rendering-Bedingungserfassungseinheit 140 zum Erfassen von Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern des 3D-Modells mit Textur ist, die durch Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell erhalten wird, auf der Grundlage der durch die Texturkoordinatenerfassungseinheit 130 erfassten zweidimensionalen Texturkoordinaten; die Zweidimensionales-Bild-Erfassungseinheit 150 zum Erfassen von zweidimensionalen Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit Textur gerendert wird, auf der Grundlage der durch die Rendering-Bedingungserfassungseinheit 140 erfassten Rendering-Bedingungsinformationen; und die Trainingsdatenausgabeeinheit 190 zum Ausgeben der von der Zweidimensionales-Bild-Erfassungseinheit 150 erfassten zweidimensionalen Bildinformationen.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Darüber hinaus enthält die Trainingsdatenerzeugungseinrichtung 100, wie oben beschrieben, zusätzlich zu der oben beschriebenen Konfiguration die Label-Erfassungseinheit 160, um Label-Informationen zu erfassen, die ein Label angeben, das sich auf zweidimensionale Bildinformationen bezieht, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden, und die Trainingsdatenausgabeeinheit 190 ist eingerichtet, die von der Label-Erfassungseinheit 160 erfassten Label-Informationen in Verbindung mit den zweidimensionalen Bildinformationen zusätzlich zu den zweidimensionalen Bildinformationen auszugeben, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Ferner ist, wie oben beschrieben, die Trainingsdatenerzeugungseinrichtung 100 in der oben beschriebenen Konfigurationen so eingerichtet, dass die Zweidimensionales-Bild-Erfassungseinheit 150 zusätzlich zum Erfassen der zweidimensionalen Bildinformationen die begleitenden Bildinformationen erfasst, die das Segmentbild oder das Tiefenbild entsprechend dem zweidimensionalen Bild angeben, das durch die zweidimensionalen Bildinformationen angegeben wird, und die Label-Erfassungseinheit 160 erfasst die begleitenden Bildinformationen, die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfasst werden, als die Label-Informationen.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Ferner ist, wie oben beschrieben, die Trainingsdatenerzeugungseinrichtung 100 in der oben beschriebenen Konfiguration so eingerichtet, dass die Label-Erfassungseinheit 160 als die Label-Informationen Teil-Rendering-Informationen erfasst, die zumindest einen Teil der Rendering-Bedingungen unter den Rendering-Bedingungen angeben, die durch die Rendering-Bedingungsinformationen angegeben werden, die verwendet werden, wenn die Zweidimensionales-Bild-Erfassungseinheit 150 die zweidimensionalen Bildinformationen erfasst.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Ferner umfasst die Trainingsdatenerzeugungseinrichtung 100 wie oben beschrieben zusätzlich zu der oben beschriebenen Konfiguration die Fotografiertes-Bild-Erfassungseinheit 121 zum Erfassen der fotografierten Bildinformationen, die das fotografierte Bild angeben, in dem das Objekt erscheint, und die Teilbilderfassungseinheit 120 ist eingerichtet, die Teilbildinformation zu erfassen, die das Teilbild angeben, das der Bildbereich ist, in dem das Objekt in dem fotografierten Bild erscheint, indem eine Vordergrundextraktion durch ein Hintergrunddifferenzverfahren an dem fotografierten Bild durchgeführt wird, das durch die fotografierten Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit 121 erfasst werden, und einen rechteckigen Bereich einschließlich des extrahierten Vordergrundbereichs aus dem fotografierten Bild extrahieren.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Zeit und den Aufwand des Erzeugens der Teilbildinformationen im Voraus eliminieren, während die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzt wird.
Ferner ist die Trainingsdatenerzeugungseinrichtung 100 wie oben beschrieben in der oben beschriebenen Konfiguration so eingerichtet, dass die Texturkoordinatenerfassungseinheit 130 das durch die 3D-Modellinformationen angegebene 3D-Modell UV-entwickelt und UV-Koordinaten erfasst, die zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem UV-entwickelten 3D-Modell sind.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Ferner ist die Trainingsdatenerzeugungseinrichtung 100 wie oben beschrieben in der oben beschriebenen Konfiguration so eingerichtet, dass die Texturkoordinatenerfassungseinheit 130 eine Koordinatentransformation der UV-Koordinaten durchführt, indem mindestens eines von Rotation, Translation und Vergrößerung oder Verkleinerung an den erfassten UV-Koordinaten durchgeführt wird, und transformierte UV-Koordinaten, die die UV-Koordinaten nach der Koordinatentransformation sind, als zweidimensionale Texturkoordinaten zur Texturabbildung des Teilbildes auf das 3D-Modell erfasst.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Ferner ist die Trainingsdatenerzeugungseinrichtung 100 wie oben beschrieben in der oben beschriebenen Konfiguration so eingerichtet, dass die Rendering-Bedingungserfassungseinheit 140 als die Rendering-Bedingungsinformationen Informationen, die mindestens eines von der Position und der Lage des 3D-Modells in dem CG-Raum und der Größe des 3D-Modells einschließlich des Begrenzungsrahmens in dem CG-Raum, die durch die von der 3D-Modellerfassungseinheit 110 erfassten 3D-Modellinformationen angegeben werden, der Position und der Lage der virtuellen Kamera in dem CG-Raum und der Position der Lichtquelle in dem CG-Raum und der Farbe des von der Lichtquelle emittierten Lichts, die Bedingungen sind, wenn das 3D-Modell mit Textur in dem CG-Raum mit der virtuellen Kamera fotografiert wird, erfasst.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Modifikation der ersten Ausführungsform.
Die Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform gibt zweidimensionale Bildinformationen oder zweidimensionale Bildinformationen und mit den zweidimensionalen Bildinformationen verknüpfte Label-Informationen aus, wenn es ein einzelnes Objekt gibt, das abgeleitet werden soll.
Für einen Fall, in dem eine Vielzahl von Objekten abzuleiten sind, kann die Trainingsdatenerzeugungseinrichtung 100 zweidimensionale Bildinformationen oder zweidimensionale Bildinformationen und mit den zweidimensionalen Bildinformationen verknüpfte Label-Informationen ausgeben.
Für einen Fall, in dem eine Vielzahl von Objekten abzuleiten sind, wird im Folgenden ein Fall beschrieben, in dem die Trainingsdatenerzeugungseinrichtung 100 zweidimensionale Bildinformationen oder zweidimensionale Bildinformationen und mit den zweidimensionalen Bildinformationen verknüpfte Label-Informationen ausgibt.
Konkret erfasst die 3D-Modellerfassungseinheit 110 zum Beispiel 3D-Modellinformationen, die jedem der Vielzahl von abzuleitenden Objekten entsprechen. Das heißt, dass die 3D-Modellerfassungseinheit 110 3D-Modellinformationen erfasst, die der Anzahl von abzuleitenden Objekten entsprechen.
Außerdem erfasst die Teilbilderfassungseinheit 120 zum Beispiel, Teilbildinformationen, die jedem einer Vielzahl von abzuleitenden Objekten entsprechen. Das heißt, dass die Teilbilderfassungseinheit 120 Teilbildinformationen erfasst, die der Anzahl von abzuleitenden Objekten entsprechen.
Auf der Grundlage der Vielzahl von durch die Teilbilderfassungseinheit 120 erfassten Stücken von Teilbildinformationen und der Vielzahl von durch die 3D-Modellerfassungseinheit 110 erfassten Stücken von 3D-Modellinformationen erfasst die Texturkoordinatenerfassungseinheit 130 zum Beispiel für jedes Stück von 3D-Modellinformationen zweidimensionale Texturkoordinaten für die Texturabbildung eines durch Teilbildinformationen angegebenen Teilbildes, entsprechend 3D-Modellinformationen auf einem 3D-Modell, die durch jedes der Vielzahl von Stücken von 3D-Modellinformationen angegeben werden.
Die Texturkoordinatenerfassungseinheit 130 UV-entwickelt zum Beispiel konkret das durch jedes der Vielzahl von Stücken von 3D-Modellinformationen angegebene 3D-Modell und erfasst für jedes Stück von 3D-Modellinformationen UV-Koordinaten, die zweidimensionale Texturkoordinaten für die Texturabbildung eines durch die Teilbildinformationen angegebenen Teilbildes entsprechend den 3D-Modellinformationen auf jedem der Vielzahl von UV-entwickelten 3D-Modelle sind.
Es ist vorzuziehen, dass die Texturkoordinatenerfassungseinheit 130 eine Koordinatentransformation der für jedes Stück von 3D-Modellinformationen erfassten UV-Koordinaten durchführt, indem mindestens eines von Rotation, Translation und Vergrößerung oder Verkleinerung an den UV-Koordinaten durchgeführt wird, und transformierte UV-Koordinaten, die die UV-Koordinaten nach Transformation sind, als zweidimensionale Texturkoordinaten zur Texturabbildung eines Teilbildes auf ein 3D-Modell erfasst.
Wie oben beschrieben, führt die Texturkoordinatenerfassungseinheit 130 eine Koordinatentransformation der UV-Koordinaten durch, die für jedes Stück von 3D-Modellinformation erfasst wurden, indem mindestens eines von Rotation, Translation und Vergrößerung oder Verkleinerung der UV-Koordinaten durchgeführt wird, so dass die Trainingsdatenerzeugungseinrichtung 100 die 3D-Modelle mit Textur, die jedem der Vielzahl von Objekten entsprechen, die im CG-Raum abgeleitet werden sollen, auf verschiedene Weise anordnen kann.
Auf der Grundlage der durch die Texturkoordinatenerfassungseinheit 130 für jedes Stück von 3D-Modellinformationen erfassten zweidimensionalen Texturkoordinaten, erfasst die Rendering-Bedingungserfassungseinheit 140 Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern einer Vielzahl von 3D-Modellen mit Textur ist, die durch Texturabbildung eines durch die Teilbildinformationen angegebenen Teilbildes, entsprechend den durch jede einer Vielzahl von Stücken von 3D-Modellinformationen angegebenen 3D-Informationen auf einem 3D-Modell, zusammen erhalten wird.
Auf der Grundlage der durch die Rendering-Bedingungserfassungseinheit 140 erfassten Rendering-Bedingungsinformationen erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 zweidimensionale Bildinformationen, die ein zweidimensionales Bild angeben, indem die 3D-Modelle mit Textur entsprechend jedem der Vielzahl von abzuleitenden Objekten zusammen gerendert werden.
Die Trainingsdatenausgabeeinheit 190 gibt die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfassten zweidimensionalen Bildinformationen aus.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn es eine Vielzahl von Objekten mit einer komplizierten Form oder einem komplizierten Muster gibt, die Trainingszeit verkürzen, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches jedes der Vielzahl von Objekten im Vergleich zum Stand der Technik genau abzuleiten.
Eine andere Modifikation der ersten Ausführungsform.
Die Trainingsdatenerzeugungseinrichtung 100 gemäß der ersten Ausführungsform erfasst 3D-Modellinformationen, die einem abzuleitenden Objekt entsprechen, und rendert ein 3D-Modell mit einer Textur, das durch Texturabbildung eines Teilbildes erhalten wird, das ein Bildbereich ist, in dem das Objekt auf einem 3D-Modell erscheint, das durch die 3D-Modellinformationen angegeben wird, wodurch zweidimensionale Bildinformationen oder zweidimensionale Bildinformationen und Label-Informationen ausgegeben werden, die mit den zweidimensionalen Bildinformationen verknüpft sind.
Die Trainingsdatenerzeugungseinrichtung 100 kann zusätzlich zu den 3D-Modellinformationen, die dem abzuleitenden Objekt entsprechen, Hintergrundmodellinformationen erfassen, die ein Hintergrundmodell angeben, das ein 3D-Modell ist, das dem Hintergrund des Objekts entspricht, und die zweidimensionalen Bildinformationen oder die zweidimensionalen Bildinformationen und die den zweidimensionalen Bildinformationen zugeordneten Label-Informationen ausgeben, indem das 3D-Modell mit einer Hintergrundtextur, das durch Texturabbildung des Hintergrundbildes auf dem Hintergrundmodell erhalten wird, und das 3D-Modell mit einer Textur, das durch Texturabbildung des Teilbildes, in dem das abzuleitende Objekt erscheint, auf dem 3D-Modell erhalten wird, zusammen gerendert werden.
Nachfolgend wird ein Fall beschrieben, in dem die Trainingsdatenerzeugungseinrichtung 100 zweidimensionale Bildinformationen oder zweidimensionale Bildinformationen und den zweidimensionalen Bildinformationen zugeordnete Label-Informationen ausgibt, indem ein 3D-Modell mit Hintergrundtextur, das durch Texturabbildung eines Hintergrundbildes auf einem Hintergrundmodell erhalten wird, und ein 3D-Modell mit Textur, das durch Texturabbildung eines Teilbildes, in dem ein abzuleitendes Objekt erscheint, auf einem 3D-Modell erhalten wird, zusammen gerendert werden.
Insbesondere erfasst die 3D-Modellerfassungseinheit 110 beispielsweise 3D-Modellinformationen (im Folgenden als „Objektmodellinformationen“ bezeichnet), die ein 3D-Modell (im Folgenden als „Objektmodell“ bezeichnet) angeben, das einem abzuleitenden Objekt entspricht, und Hintergrundmodellinformationen, die ein Hintergrundmodell angeben, das ein 3D-Modell ist, das einem Hintergrund des Objekts entspricht.
Darüber hinaus erfasst die Teilbilderfassungseinheit 120 beispielsweise Teilbildinformationen (im Folgenden als „Objektteilbildinformationen“ bezeichnet), die ein Teilbild (im Folgenden als „Objektteilbild“ bezeichnet) angeben, in dem ein abzuleitendes Objekt erscheint, und Teilbildinformationen (im Folgenden als „Hintergrundbildinformationen“ bezeichnet), die ein Teilbild (im Folgenden als „Hintergrundbild“ bezeichnet) angeben, das ein Bildbereich ist, in dem kein Objekt in dem fotografierten Bild erscheint.
Auf der Grundlage der durch die Teilbilderfassungseinheit 120 erfassten Objektteilbildinformationen und der durch die 3D-Modellerfassungseinheit 110 erfassten Objektmodellinformationen erfasst die Texturkoordinatenerfassungseinheit 130 beispielsweise zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Objektteilbildinformationen angegebenen Objektteilbildes auf dem durch die Objektmodellinformationen angegebenen Objektmodell. Außerdem erfasst die Texturkoordinatenerfassungseinheit 130 zum Beispiel auf der Grundlage der durch die Teilbilderfassungseinheit 120 erfassten Hintergrundteilbildinformationen und der durch die 3D-Modellerfassungseinheit 110 erfassten Hintergrundmodellinformationen zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Hintergrundteilbildinformationen angegebenen Hintergrundteilbildes auf dem durch die Hintergrundmodellinformationen angegebenen Hintergrundmodell.
Die Texturkoordinatenerfassungseinheit 130 UV-entwickelt zum Beispiel konkret das durch die Objektmodellinformationen angegebene Objektmodell und erfasst UV-Koordinaten, die zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Objektteilbildinformationen angegebenen Objektteilbildes auf dem UV-entwickelten Objektmodell sind. Die Texturkoordinatenerfassungseinheit 130 UV-entwickelt zusätzlich das durch die Hintergrundmodellinformationen angegebene Hintergrundmodell und erfasst UV-Koordinaten, die zweidimensionale Texturkoordinaten für die Texturabbildung des durch die Hintergrundbildinformationen angegebenen Hintergrundbildes auf dem UV-entwickelten Hintergrundmodell sind.
Vorzugsweise führt die Texturkoordinatenerfassungseinheit 130 an durch die UV-Entwicklung des Objektmodells erfassten UV-Koordinaten eine Koordinatentransformation durch, indem mindestens eines einer Rotation, Translation und Vergrößerung oder Verkleinerung an den UV-Koordinaten durchgeführt wird, und erfasst die transformierten UV-Koordinaten, die die UV-Koordinaten nach der Transformation sind, als zweidimensionale Texturkoordinaten für die Texturabbildung des Objektteilbildes auf dem Objektmodell. Außerdem führt die Texturkoordinatenerfassungseinheit 130 an durch die UV-Entwicklung des Hintergrundmodells erfassten UV-Koordinaten vorzugsweise eine Koordinatentransformation durch, indem mindestens eines einer Rotation, Translation und Vergrößerung oder Verkleinerung an den UV-Koordinaten durchgeführt wird, und erfasst die transformierten UV-Koordinaten, die die UV-Koordinaten nach der Transformation sind, als zweidimensionale Texturkoordinaten für die Texturabbildung des Hintergrundbildes auf dem Hintergrundmodell.
Wie oben beschrieben, führt die Texturkoordinatenerfassungseinheit 130 eine Koordinatentransformation von UV-Koordinaten durch, indem mindestens eines einer Rotation, Translation und Vergrößerung oder Verkleinerung der UV-Koordinaten durchgeführt wird, die durch UV-Entwicklung des Objektmodells und des Hintergrundmodells erfasst werden, so dass die Trainingsdatenerzeugungseinrichtung 100 das 3D-Modell mit der Textur, das dem abzuleitenden Objekt entspricht, und das 3D-Modell mit der Hintergrundtextur, das das 3D-Modell mit der Textur ist, das dem Hintergrund des Objekts im CG-Raum entspricht, auf unterschiedliche Weise anordnen kann.
Die Rendering-Bedingungserfassungseinheit 140 erfasst Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung für das gemeinsame Rendern des 3D-Modells mit der Textur, das dem abzuleitenden Objekt entspricht, und des 3D-Modells mit der Hintergrundtextur, das dem Hintergrund des Objekts entspricht, ist.
Auf der Grundlage der durch die Rendering-Bedingungserfassungseinheit 140 erfassten Rendering-Bedingungsinformationen erfasst die Zweidimensionales-Bild-Erfassungseinheit 150 zweidimensionale Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit Textur entsprechend dem abzuleitenden Objekt und dem 3D-Modell mit Hintergrundtextur entsprechend dem Hintergrund des Objekts zusammen gerendert wird.
Die Trainingsdatenausgabeeinheit 190 gibt die von der Zweidimensionales-Bild-Erfassungseinheit 150 erfassten zweidimensionalen Bildinformationen aus.
Mit der obigen Konfiguration kann die Trainingsdatenerzeugungseinrichtung 100, selbst wenn ein Objekt eine komplizierte Form oder ein kompliziertes Muster aufweist, die Trainingszeit, die zum Erzeugen des trainierten Modells erforderlich ist, das in der Lage ist, die Form, Mittelposition, Art oder ähnliches des Objekts abzuleiten, im Vergleich zum Stand der Technik verkürzen.
Es ist zu beachten, dass die vorliegende Offenbarung innerhalb des Bereichs der Offenbarung die Ausführungsformen frei kombinieren kann, beliebige Bestandteile der einzelnen Ausführungsformen modifizieren kann oder beliebige Bestandteile in jeder Ausführungsform weglassen kann.
GEWERBLICHE ANWENDBARKEIT
Die Trainingsdatenerzeugungseinrichtung gemäß der vorliegenden Offenbarung kann in einem Objektinferenzsystem, einem Lernsystem, einem Inferenzsystem oder dergleichen angewendet werden.
BEZUGSZEICHENLISTE
1: Objektinferenzsystem, 10: Speichereinrichtung, 20: Lerneinrichtung, 30: Inferenzeinrichtung, 100: Trainingsdatenerzeugungseinrichtung, 101 Bedienungsempfangseinheit, 110: 3D-Modellerfassungseinheit, 120: Teilbilderfassungseinheit, 121: Fotografiertes-Bild-Erfassungseinheit, 130: Texturkoordinatenerfassungseinheit, 140: Rendering-Bedingungserfassungseinheit, 150: Zweidimensionales-Bild-Erfassungseinheit, 160: Label-Erfassungseinheit, 190: Trainingsdatenausgabeeinheit, 201: Prozessor, 202: Speicher, 203: Verarbeitungsschaltung

Claims

Trainingsdatenerzeugungseinrichtung (100), umfassend: eine 3D-Modellerfassungseinheit (110) zum Erfassen von 3D-Modellinformationen, die ein 3D-Modell eines Objekts angeben; eine Teilbilderfassungseinheit (120) zum Erfassen von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem das Objekt in einem fotografierten Bild erscheint; eine Texturkoordinatenerfassungseinheit (130) zum Erfassen zweidimensionaler Texturkoordinaten für eine Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Teilbilderfassungseinheit erfassten Teilbildinformationen und der durch die 3D-Modellerfassungseinheit erfassten 3D-Modellinformationen; eine Rendering-Bedingungserfassungseinheit (140) zum Erfassen von Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern eines 3D-Modells mit Textur ist, die durch Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Texturkoordinatenerfassungseinheit erfassten zweidimensionalen Texturkoordinaten erhalten wird; eine Zweidimensionales-Bild-Erfassungseinheit (150) zum Erfassen von zweidimensionalen Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit einer Textur auf Grundlage der durch die Rendering-Bedingungserfassungseinheit erfassten Rendering-Bedingungsinformationen gerendert wird; und eine Trainingsdaten-Ausgabeeinheit (190) zum Ausgeben der von der Zweidimensionales-Bild-Erfassungseinheit erfassten zweidimensionalen Bildinformationen.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 1, ferner umfassend eine Label-Erfassungseinheit (160) zum Erfassen von Label-Informationen, die ein Label angeben, das sich auf die zweidimensionalen Bildinformationen bezieht, die von der Zweidimensionales-Bild-Erfassungseinheit (150) erfasst werden, wobei die Trainingsdaten-Ausgabeeinheit (190) die von der Label-Erfassungseinheit erfassten Label-Informationen in Verbindung mit den zweidimensionalen Bildinformationen zusätzlich zu den von der Zweidimensionales-Bild-Erfassungseinheit erfassten zweidimensionalen Bildinformationen ausgibt.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 2, wobei die Zweidimensionales-Bild-Erfassungseinheit (150) zusätzlich zum Erfassen der zweidimensionalen Bildinformationen begleitende Bildinformationen erfasst, die ein Segmentbild oder ein Tiefenbild entsprechend dem zweidimensionalen Bild angeben, das durch die zweidimensionalen Bildinformationen angegeben wird, und die Label-Erfassungseinheit (160) die begleitenden Bildinformationen, die von der Zweidimensionales-Bild-Erfassungseinheit erfasst werden, als die Label-Informationen erfasst.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 2, wobei die Label-Erfassungseinheit (160) als die Label-Informationen Teil-Rendering-Informationen erfasst, die zumindest einen Teil der Rendering-Bedingungen unter den Rendering-Bedingungen angeben, die durch die Rendering-Bedingungsinformationen angegeben werden, die verwendet werden, wenn die Zweidimensionales-Bild-Erfassungseinheit die zweidimensionalen Bildinformationen erfasst.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 1, ferner umfassend eine Fotografiertes-Bild-Erfassungseinheit (121) zum Erfassen von fotografierten Bildinformationen, die das fotografierte Bild angeben, in dem das Objekt erscheint, wobei die Teilbilderfassungseinheit (120) die Teilbildinformation erfasst, die das Teilbild angeben, das der Bildbereich ist, in dem das Objekt in dem fotografierten Bild erscheint, indem eine Vordergrundextraktion durch ein Hintergrunddifferenzverfahren an dem fotografierten Bild durchgeführt wird, das durch die fotografierten Bildinformationen angegeben wird, die durch die Fotografiertes-Bild-Erfassungseinheit erfasst werden, und einen rechteckigen Bereich einschließlich eines extrahierten Vordergrundbereichs aus dem fotografierten Bild extrahieren.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 1, wobei die Texturkoordinatenerfassungseinheit (130) das durch die 3D-Modellinformationen angegebene 3D-Modell UV-entwickelt und UV-Koordinaten erfasst, die die zweidimensionalen Texturkoordinaten für die Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem UV-entwickelten 3D-Modell sind.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 6, wobei die Texturkoordinatenerfassungseinheit (130) eine Koordinatentransformation der UV-Koordinaten durchführt, indem mindestens eines von Rotation, Translation und Vergrößerung oder Verkleinerung an den erfassten UV-Koordinaten durchgeführt wird, und transformierte UV-Koordinaten, die die UV-Koordinaten nach der Koordinatentransformation sind, als die zweidimensionalen Texturkoordinaten zur Texturabbildung des Teilbildes auf das 3D-Modell erfasst.
Trainingsdatenerzeugungseinrichtung (100) nach Anspruch 1, wobei die Rendering-Bedingungserfassungseinheit (140) als die Rendering-Bedingungsinformationen Informationen, die mindestens eines von einer Position und einer Lage des 3D-Modells in einem CG-Raum und einer Größe des 3D-Modells einschließlich eines Begrenzungsrahmens in dem CG-Raum, die durch die von der 3D-Modellerfassungseinheit erfassten 3D-Modellinformationen angegeben werden, einer Position und einer Lage einer virtuellen Kamera in dem CG-Raum und einer Position einer Lichtquelle in dem CG-Raum und einer Farbe des von der Lichtquelle emittierten Lichts, die Bedingungen sind, wenn das 3D-Modell mit Textur in dem CG-Raum mit der virtuellen Kamera fotografiert wird, erfasst.
Trainingsdatenerzeugungsverfahren, umfassend: einen 3D-Modell-Erfassungsschritt des Erfassens von 3D-Modellinformationen (110), die ein 3D-Modell eines Objekts angeben, durch eine 3D-Modell-Erfassungseinheit; einen Teilbilderfassungsschritt des Erfassens von Teilbildinformationen, die ein Teilbild angeben, das ein Bildbereich ist, in dem das Objekt in einem fotografierten Bild erscheint, durch eine Teilbilderfassungseinheit (120); einen Texturkoordinatenerfassungsschritt des Erfassens zweidimensionaler Texturkoordinaten für eine Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modells auf Grundlage der durch den Teilbilderfassungsschritt erfassten Teilbildinformationen und der durch den 3D-Modell-Erfassungsschritt erfassten 3D-Modellinformationen, durch eine Texturkoordinatenerfassungseinheit (130); einen Rendering-Bedingungserfassungsschritt des Erfassens von Rendering-Bedingungsinformationen, die eine Rendering-Bedingung angeben, die eine Bedingung zum Rendern eines 3D-Modells mit Textur ist, die durch Texturabbildung des durch die Teilbildinformationen angegebenen Teilbildes auf dem durch die 3D-Modellinformationen angegebenen 3D-Modell auf Grundlage der durch die Texturkoordinatenerfassungseinheit erfassten zweidimensionalen Texturkoordinaten erhalten wird, durch eine Rendering-Bedingungserfassungseinheit (140); einen Zweidimensionales-Bild-Erfassungsschritt des Erfassens von zweidimensionalen Bildinformationen, die ein zweidimensionales Bild angeben, indem das 3D-Modell mit einer Textur auf Grundlage der durch den Rendering-Bedingungserfassungsschritt erfassten Rendering-Bedingungsinformationen gerendert wird, durch eine Zweidimensionales-Bild-Erfassungseinheit (150); und einen Trainingsdatenausgabeschritt des Ausgebens der von der Zweidimensionales-Bild-Erfassungseinheit erfassten zweidimensionalen Bildinformationen, durch eine Trainingsdatenausgabeeinheit (190).