JP2022024189A - Learning data creation method, learning data creation device, and program - Google Patents
Learning data creation method, learning data creation device, and program Download PDFInfo
- Publication number
- JP2022024189A JP2022024189A JP2018182538A JP2018182538A JP2022024189A JP 2022024189 A JP2022024189 A JP 2022024189A JP 2018182538 A JP2018182538 A JP 2018182538A JP 2018182538 A JP2018182538 A JP 2018182538A JP 2022024189 A JP2022024189 A JP 2022024189A
- Authority
- JP
- Japan
- Prior art keywords
- image
- information
- learning data
- virtual space
- creation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、学習用データ作成方法、学習用データ作成装置及びプログラムに関する。 The present invention relates to a learning data creation method, a learning data creation device, and a program.
近年、機械学習の手法により様々なタスクを実行することが行われている。このようなタスクの1つとして、例えば、セマンティックセグメンテーション等が知られている。セマンティックセグメンテーションとは、カメラ装置等により撮影された画像中の各画素(ピクセル)を、そのピクセルが示す意味に応じたクラス(例えば、そのピクセルが表す物体の物体名等)に分類するタスクである。 In recent years, various tasks have been executed by machine learning techniques. As one of such tasks, for example, semantic segmentation and the like are known. Semantic segmentation is a task of classifying each pixel in an image taken by a camera device or the like into a class (for example, the object name of an object represented by the pixel) according to the meaning indicated by the pixel. ..
ここで、セマンティックセグメンテーション等の多くのタスクでは、教師あり学習により機械学習モデルが学習される場合が多い。 Here, in many tasks such as semantic segmentation, machine learning models are often learned by supervised learning.
しかしながら、教師あり学習に用いられる学習用データは、人手により作成されることが多い。例えば、セマンティックセグメンテーションでは、画像中の各ピクセルを、このピクセルが示す意味に応じたクラスの色に塗りつぶす作業を行うことで、当該画像に対して教師情報(各ピクセルのクラス分類)が付与された学習用データが作成される。 However, learning data used for supervised learning is often created manually. For example, in semantic segmentation, teacher information (classification of each pixel) is given to the image by filling each pixel in the image with the color of the class according to the meaning indicated by this pixel. Training data is created.
また、機械学習の手法により実行するタスクによっては、複数の教師情報が付与された学習用データを作成する必要がある。例えば、上記のクラス分類の他に、画像中の物体の姿勢(物体の向きや回転等)や当該物体の状態等を教師情報として付与した学習用データが必要になる場合もある。 In addition, depending on the task to be executed by the machine learning method, it is necessary to create learning data to which a plurality of teacher information is added. For example, in addition to the above classification, learning data in which the posture (direction, rotation, etc.) of an object in an image, the state of the object, and the like are added as teacher information may be required.
更に、一般に、機械学習モデルの学習には大量の学習用データが必要になることが多い。このため、教師あり学習に用いられる学習用データの作成には、多大な労力と膨大な時間とを要する場合があった。 Furthermore, in general, learning a machine learning model often requires a large amount of learning data. Therefore, it may take a lot of labor and a huge amount of time to create learning data used for supervised learning.
本発明の実施の形態は、上記の点に鑑みてなされたもので、学習用データを容易に作成することを目的とする。 The embodiment of the present invention has been made in view of the above points, and an object thereof is to easily create learning data.
上記目的を達成するため、本発明の実施の形態は、1以上の物体が配置された仮想空間を三次元シミュレータにより作成する第1の作成手順と、前記仮想空間に対応する実空間の所定の範囲内を撮影した第1の画像が作成されたことに応じて、前記仮想空間の前記範囲内を前記三次元シミュレータが描画した第2の画像を作成する第2の作成手順と、前記第1の画像に対して、前記第2の画像から得られる所定の情報を教師情報として付与して、所定の機械学習モデルの学習に用いられる学習用データを作成する第3の作成手順と、をコンピュータが実行することを特徴とする。 In order to achieve the above object, the embodiment of the present invention includes a first creation procedure for creating a virtual space in which one or more objects are arranged by a three-dimensional simulator, and a predetermined real space corresponding to the virtual space. A second creation procedure for creating a second image drawn by the three-dimensional simulator in the range of the virtual space according to the creation of the first image captured in the range, and the first creation procedure. A third creation procedure for creating learning data used for learning a predetermined machine learning model by adding predetermined information obtained from the second image to the image of the above as teacher information, and a computer. Is characterized by executing.
学習用データを容易に作成することができる。 Training data can be easily created.
以下、本発明の実施の形態について説明する。以降では、所定のタスクを実行する機械学習モデルの学習用データを容易に作成することが可能な学習用データ作成システム1について説明する。所定のタスクとしては、例えば、カメラ装置等により撮影された画像中の物体の認識や分類、当該物体の状態の把握、当該物体に関する何等かの行動(例えば、物体の把持行動や物体の回避行動)等のタスクが挙げられる。
Hereinafter, embodiments of the present invention will be described. Hereinafter, a learning
本発明の実施の形態では、三次元シミュレータで作成した仮想空間をカメラ装置(すなわち、仮想空間内に設置等された仮想的なカメラ装置)で撮影した画像(以降、「仮想撮影画像」とも表す。)と、当該仮想空間に対応する実空間を実際のカメラ装置で撮影した画像(以降、「実撮影画像」とも表す。)とを用いて、実撮影画像に対して、仮想撮影画像から得られる教師情報を付与することで、学習用データを作成する。教師情報としては、例えば、仮想撮影画像中における物体の輪郭線情報、当該物体が分類されるクラス、当該物体の物体名、当該物体の状態情報、当該物体までの深度、当該物体の姿勢、当該物体に関して所定の行動を行うための情報等が挙げられる。 In the embodiment of the present invention, an image taken by a camera device (that is, a virtual camera device installed in the virtual space) of a virtual space created by a three-dimensional simulator (hereinafter, also referred to as a "virtual shot image"). ) And an image of the real space corresponding to the virtual space taken by an actual camera device (hereinafter, also referred to as "actually shot image"), obtained from the virtual shot image with respect to the actual shot image. By adding the teacher information to be used, learning data is created. The teacher information includes, for example, contour line information of an object in a virtual photographed image, a class in which the object is classified, an object name of the object, state information of the object, a depth to the object, an attitude of the object, and the subject. Information for performing a predetermined action regarding an object and the like can be mentioned.
ここで、仮想空間に対応する実空間とは、例えば、三次元シミュレータで作成した仮想空間と同じ位置に同じ物体が配置等されている実空間のことである。なお、仮想空間と実空間とで位置が同じであるとは、例えば、仮想空間及び実空間に同一の座標系を設定した場合に、位置座標が同一であることである。ただし、仮想空間及び実空間には、例えば、相互に変換可能な座標系がそれぞれ設定されても良い。なお、以降では、「位置」や「姿勢」は、仮想空間及び実空間に設定された同一の座標系における位置や姿勢を表すものとする。 Here, the real space corresponding to the virtual space is, for example, a real space in which the same object is arranged at the same position as the virtual space created by the three-dimensional simulator. The fact that the positions are the same in the virtual space and the real space means that, for example, when the same coordinate system is set in the virtual space and the real space, the position coordinates are the same. However, for example, a coordinate system that can be converted to each other may be set in the virtual space and the real space. In the following, "position" and "posture" shall represent positions and postures in the same coordinate system set in the virtual space and the real space.
また、仮想空間と実空間とで物体が同じであるとは、仮想空間内に配置等された三次元モデルで表される物体と、実空間内に配置等された実際の物体とが同じであることである。なお、実空間内に配置等される実際の物体と区別するため、仮想空間内に配置される物体を「オブジェクト」とも称する。 In addition, the same object in the virtual space and the real space means that the object represented by the three-dimensional model arranged in the virtual space and the actual object arranged in the real space are the same. There is. An object arranged in the virtual space is also referred to as an "object" in order to distinguish it from an actual object arranged in the real space.
<学習用データ作成システム1の全体構成>
まず、本発明の実施の形態における学習用データ作成システム1の全体構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における学習用データ作成システム1の全体構成の一例を示す図である。
<Overall configuration of learning
First, the overall configuration of the learning
図1に示すように、本発明の実施の形態における学習用データ作成システム1は、学習用データ作成装置10と、1以上のカメラ装置20と、1以上のトラッキング装置30とを有する。また、学習用データ作成装置10と、カメラ装置20と、トラッキング装置30とは、例えば、無線LAN(Local Area Network)等の通信ネットワークを介して通信可能に接続されている。なお、この通信ネットワークは、例えば、全部又は一部が有線LAN等であっても良い。
As shown in FIG. 1, the learning
学習用データ作成装置10は、学習用データを作成するコンピュータ又はコンピュータシステムである。学習用データ作成装置10は、三次元シミュレータ100と、学習用データ作成部200と、記憶部300とを有する。
The learning
三次元シミュレータ100は、三次元の仮想空間をシミュレーションすることが可能なシミュレータである。三次元シミュレータ100では、仮想空間内にオブジェクトを配置したり、オブジェクトの物理学的な法則をシミュレーションする物理演算(例えば、オブジェクト同士の衝突判定)を行ったりすることができる。
The three-
また、三次元シミュレータ100では、仮想空間内を仮想的なカメラ装置で撮影した仮想撮影画像を描画したりすることができる。このとき、三次元シミュレータ100では、例えば、仮想撮影画像中の物体(オブジェクト)の輪郭線情報や物体名、当該物体が分類されるクラス、当該物体の状態情報、当該物体までの深度、当該物体の姿勢、当該物体に関して所定の物理演算を行った結果等を、当該仮想撮影画像に付与することができる。これらの情報は、三次元シミュレータ100における演算等により生成される。
Further, in the three-
このような三次元シミュレータ100は、例えば、UnityやUnreal Engin4(UE4)、Blender等のゲームエンジンにより実現される。ただし、三次元シミュレータ100は、これらのゲームエンジンに限られず、任意の三次元シミュレーションソフトウェアにより実現されても良い。
Such a three-
学習用データ作成部200は、実撮影画像に対して、仮想撮影画像から得られる教師情報を付与することで、学習用データを作成する。教師情報は、三次元シミュレータ100が仮想撮影画像を描画した際に、当該仮想撮影画像に付与した情報(例えば、仮想撮影画像中の物体の輪郭線情報や物体名、当該物体が分類されるクラス、当該物体の状態情報、当該物体までの深度、当該物体の姿勢、当該物体に関して所定の物理演算を行った結果等)である。
The learning data creation unit 200 creates learning data by adding teacher information obtained from a virtual captured image to an actual captured image. The teacher information is information given to the virtual captured image when the three-
このように、学習用データ作成部200は、三次元シミュレータ100が描画した仮想撮影画像から得られる情報を教師情報として実撮影画像に付与することで、学習用データを作成する。
In this way, the learning data creation unit 200 creates learning data by adding the information obtained from the virtual captured image drawn by the three-
記憶部300は、種々の情報を記憶する。記憶部300に記憶される情報としては、例えば、カメラ装置20が実空間を撮影した実撮影画像や三次元シミュレータ100が描画した仮想撮影画像、トラッキング装置30から取得したトラッキング情報、仮想空間内に配置等される物体(オブジェクト)の三次元モデル等が挙げられる。ここで、トラッキング情報とは、実空間におけるカメラ装置20の位置や姿勢をトラッキングした情報である。すなわち、トラッキング情報は、各時刻におけるカメラ装置20の位置及び姿勢の両方を示す情報である。ただし、トラッキング情報は、例えば、各時刻におけるカメラ装置20の位置のみを示す情報であっても良い。
The
カメラ装置20は、実空間を撮影して実撮影画像を作成する撮像装置である。カメラ装置20は、例えば、トラッキング装置30が装着された携帯型カメラスタンド等に固定されている。カメラ装置20により作成された実撮影画像は、学習用データ作成装置10に送信され、記憶部300に記憶される。なお、カメラ装置20は、例えば、深度情報が付与された実撮影画像を作成可能な深度カメラであっても良い。
The
トラッキング装置30は、カメラ装置20の位置及び姿勢をトラッキングして、トラッキング情報を作成する装置(例えば、位置センサ及び姿勢センサが搭載されたセンシング装置)である。トラッキング装置30は、例えば携帯型カメラスタンド等に装着されている。このように、1台のカメラ装置20に対して、1台のトラッキング装置30が対応付けて設置等されている。トラッキング装置30により作成されたトラッキング情報は、学習用データ作成装置10に送信され、記憶部300に記憶される。なお、トラッキング装置30は、例えば、カメラ装置20に直接装着等されていても良いし、カメラ装置20に内蔵等されていても良い。
The
図1に示す学習用データ作成システム1の構成は一例であって、他の構成であっても良い。例えば、学習用データ作成システム1は、任意の台数のカメラ装置20と、これらのカメラ装置20に対応するトラッキング装置30とを有していても良い。
The configuration of the learning
また、カメラ装置20は、実空間における位置及び姿勢が既知であれば、このカメラ装置20に対応するトラッキング装置30は無くても良い。例えば、予め決まった位置に、予め決まった姿勢でカメラ装置20が固定的に設置等されているような場合には、このカメラ装置20に対応するトラッキング装置30は無くても良い。
Further, the
<学習用データの作成方法>
ここで、本発明の実施の形態における学習用データ作成装置10で学習用データを作成する場合の概略について、図2を参照しながら説明する。図2は、学習用データ作成の一例を模式的に説明するための図である。
<How to create learning data>
Here, an outline of a case where learning data is created by the learning
図2に示すように、実空間の或る位置において、或る姿勢のカメラ装置20で撮影した実撮影画像を「実撮影画像G110」とする。また、実空間と対応する仮想空間の同じ位置において、同じ姿勢の仮想的なカメラ装置で撮影した仮想撮影画像を「仮想撮影画像G210」とする。
As shown in FIG. 2, an actual photographed image taken by a
このとき、仮想撮影画像G210には、三次元シミュレータ100の演算等により生成される情報(図2では、一例として、「輪郭線」及び「物体名」)が付与されている。すなわち、図2に示す例では、仮想撮影画像G210中の各物体の輪郭線と、各物体の物体名とが付与されている。なお、三次元シミュレータの演算等により生成可能な情報のうち、どのような情報を仮想撮影画像G210に付与するかは、機械学習モデルに実行させるタスクによって異なる。
At this time, information generated by the calculation of the three-
学習用データ作成装置10は、実撮影画像G110に対して、仮想撮影画像G210に付与されている情報(すなわち、「輪郭線」及び「物体名」)を教師情報として付与することで、学習用データG120を作成する。これにより、実撮影画像G110と、教師情報(すなわち、「輪郭線」及び「物体名」)との組で表される学習用データG120が作成される。
The learning
このように、本発明の実施の形態における学習用データ作成装置10は、実空間の或る範囲内を実際に撮影した実撮影画像G110と、仮想空間の同じ範囲内を仮想的に撮影した仮想撮影画像G210とを用いて、当該仮想撮影画像G210から得られる情報(すなわち、三次元シミュレータの演算等により生成された情報)を実撮影画像G110に付与することで、学習用データG120を作成する。このため、本発明の実施の形態における学習用データ作成装置10では、学習用データG120を容易に作成することができる。
As described above, the learning
しかも、本発明の実施の形態における学習用データ作成装置10では、トラッキング装置30から取得されたトラッキング情報によりカメラ装置20の位置及び姿勢が特定されるため、仮想空間における仮想的なカメラ装置の位置及び姿勢を当該カメラ装置20と同期させることができる。このため、ユーザは、例えば、実空間内をカメラ装置20で撮影するだけで、実撮影画像と、この実撮影画像に対応する仮想撮影画像とを容易に得ることができる。
Moreover, in the learning
<事前準備手順の流れ>
本発明の実施の形態では、上述したように、仮想空間と実空間とが対応している必要がある。このため、学習用データを作成するための事前準備として、仮想空間と実空間とを対応させる必要がある。そこで、以降では、三次元シミュレータ100により仮想空間に物体(オブジェクト)を配置した上で、この仮想空間に対応するように実空間にも実際の物体を配置することで、仮想空間と実空間とを対応させる場合の手順について、図3を参照しながら説明する。図3は、事前準備手順の流れの一例を説明するための図である。
<Flow of preparation procedure>
In the embodiment of the present invention, as described above, the virtual space and the real space need to correspond to each other. Therefore, it is necessary to associate the virtual space with the real space as a preliminary preparation for creating the learning data. Therefore, in the following, by arranging an object (object) in the virtual space by the three-
ステップS101:三次元シミュレータ100は、仮想空間内に配置される物体(オブジェクト)の三次元モデルを記憶部300から取得する。これは、例えば、記憶部300に記憶されている三次元モデルのデータを三次元シミュレータ100にインポートすること意味する。三次元モデルは、物体の形状だけでなく、例えば、物体IDや物体名、物体が属するカテゴリ等の情報が付与されている。
Step S101: The three-
なお、三次元モデルは、任意の方法で予め作成した上で、記憶部300に保存しておけば良い。三次元モデルを作成する方法としては、例えば、実際の物体の三次元形状を三次元スキャナ等によりスキャンすることで作成しても良いし、三次元モデル作成ソフトウェア等により手作業で作成しても良い。
The three-dimensional model may be created in advance by any method and then stored in the
ステップS102:三次元シミュレータ100は、仮想空間内に、三次元モデルが表すオブジェクトを配置する。ユーザは、例えば、上記のステップS101でインポートされた複数の三次元モデルの中から所望の三次元モデルを選択した上で、選択した三次元モデルを仮想空間内にドラッグ・アンド・ドロップすることで、当該仮想空間内にオブジェクトを配置することができる。これ以外にも、ユーザは、仮想空間内の位置座標を指定することで、三次元モデルが表すオブジェクトを当該仮想空間内に配置することができても良い。
Step S102: The three-
ここで、三次元モデルが表すオブジェクトを仮想空間内に配置する際に、ユーザは、当該オブジェクトを任意に傾けたり、回転させたりした上で、当該オブジェクトを配置しても良い。これ以外にも、ユーザは、例えば、当該オブジェクトを拡大や縮小等した上で、当該オブジェクトを配置しても良い。 Here, when arranging the object represented by the three-dimensional model in the virtual space, the user may arbitrarily tilt or rotate the object and then arrange the object. In addition to this, the user may arrange the object after enlarging or reducing the object, for example.
なお、仮想空間内に複数のオブジェクトを配置する場合、上記のステップS102が繰り返し行われれば良い。 When arranging a plurality of objects in the virtual space, the above step S102 may be repeated.
以上のステップS101~ステップS102により、1以上の物体(オブジェクト)が所望の位置に配置された仮想空間が三次元シミュレータ100により作成される。
By the above steps S101 to S102, a virtual space in which one or more objects (objects) are arranged at desired positions is created by the three-
ステップS103:ユーザは、上記のステップS101~ステップS102により作成された仮想空間に対応するように、実空間内に実際の物体を配置する。 Step S103: The user arranges an actual object in the real space so as to correspond to the virtual space created by the above steps S101 to S102.
ここで、ユーザは、例えば、仮想空間内に配置されたオブジェクトを実空間に重畳して表示させることが可能で、かつ、位置センサ及び姿勢センサが搭載されている表示装置を用いて、この表示装置に表示されたオブジェクトと同じ位置に実際の物体を配置すれば良い。このような表示装置としては、例えば、位置センサと姿勢センサとカメラとが搭載されたヘッドマウントディスプレイ、実空間を透過的に視認可能で位置センサ及び姿勢センサが搭載されたヘッドマウントディスプレイ、プロジェクションマッピング装置、位置センサと姿勢センサとカメラとが搭載されたタブレット端末、位置センサと姿勢センサとカメラとが搭載されたスマートフォン等が挙げられる。 Here, for example, the user can superimpose and display an object arranged in the virtual space on the real space, and use a display device equipped with a position sensor and a posture sensor to display this display. The actual object may be placed at the same position as the object displayed on the device. Examples of such a display device include a head mount display equipped with a position sensor, an attitude sensor, and a camera, a head mount display equipped with a position sensor and an attitude sensor that can transparently visually recognize the real space, and projection mapping. Examples thereof include a device, a tablet terminal equipped with a position sensor, a posture sensor and a camera, and a smartphone equipped with a position sensor, a posture sensor and a camera.
これらの表示装置では、仮想空間内の位置と実空間内の位置とを同期させた上で、実空間内にオブジェクトを重畳させた映像を表示させることができる。したがって、ユーザは、例えば、当該表示装置を携帯又は装着等した上で実空間内を移動して、当該映像中のオブジェクトと同じ位置に、同じ姿勢で、同じ物体を実空間内に配置することができる。 With these display devices, it is possible to display an image in which an object is superimposed in the real space after synchronizing the position in the virtual space and the position in the real space. Therefore, for example, the user moves in the real space after carrying or wearing the display device, and arranges the same object in the real space at the same position and in the same posture as the object in the video. Can be done.
これにより、上記のステップS101~ステップS102により作成された仮想空間と、実空間とを対応させることができる。なお、上記以外にも、例えば、MR(Mixed Reality)等の技術によって実空間と仮想空間とを融合させた複合現実を作成することで、仮想空間内に配置されたオブジェクトと同じ位置に、同じ姿勢で、同じ物体を実空間内に配置しても良い。 Thereby, the virtual space created by the above steps S101 to S102 can be made to correspond to the real space. In addition to the above, for example, by creating a mixed reality that fuses real space and virtual space with a technology such as MR (Mixed Reality), the same position as the object placed in the virtual space is the same. The same object may be placed in real space in a posture.
<学習用データ作成手順の流れ>
次に、実撮影画像と、この実撮影画像に対応する仮想撮影画像とを作成した上で、これらの実撮影画像と仮想撮影画像とを用いて、学習用データを作成する場合の手順について、図4を参照しながら説明する。図4は、学習用データ作成手順の流れの一例を説明するための図である。
<Flow of learning data creation procedure>
Next, regarding the procedure for creating learning data by creating an actual photographed image and a virtual photographed image corresponding to the actual photographed image, and then using these the actual photographed image and the virtual photographed image. This will be described with reference to FIG. FIG. 4 is a diagram for explaining an example of the flow of the learning data creation procedure.
ステップS201:ユーザは、カメラ装置20を用いて、実空間内の所望の範囲を撮影する。これにより、カメラ装置20により実撮影画像が作成され、学習用データ作成装置10に送信される。学習用データ作成装置10では、当該実撮影画像が記憶部300に記憶される。
Step S201: The user uses the
また、このとき、当該カメラ装置20に対応するトラッキング装置30は、トラッキング情報を学習用データ作成装置10に送信する。これにより、学習用データ作成装置10では、当該トラッキング情報が記憶部300に記憶される。トラッキング情報は、上述したように、当該カメラ装置20の位置及び姿勢を示す情報である。
At this time, the
なお、上記のステップS201では、トラッキング装置30がカメラ装置20の位置及び姿勢をトラッキングすることで作成したトラッキング情報を記憶部300に記憶させたが、これに限られない。任意の方法でカメラ装置20の位置及び姿勢をトラッキングした上で、このトラッキング結果を示すトラッキング情報を記憶部300に記憶させても良い。例えば、QRコード(登録商標)等の二次元コードをカメラ装置20に事前に貼り付け等した上、この二次元コードをカメラ等で読み取ることで当該カメラ装置20の位置及び姿勢をトラッキングしても良い。
In step S201 described above, the
ステップS202:三次元シミュレータ100は、上記のステップS201で撮影したカメラ装置20と同じ位置及び姿勢で、仮想空間内を仮想的なカメラ装置で撮影する。すなわち、三次元シミュレータ100は、仮想空間内において、上記のステップS201で撮影したカメラ装置20と同じ位置及び姿勢の仮想的なカメラ装置の撮影範囲内を描画(レンダリング)する。
Step S202: The three-
ここで、三次元シミュレータ100は、上記のステップS201で作成されたトラッキング情報から、カメラ装置20の位置及び姿勢を特定することができる。このため、三次元シミュレータ100は、実空間のカメラ装置20と同じ位置及び姿勢で、仮想空間内に仮想的なカメラ装置を設置することができる。これにより、上記のステップS201で作成された実撮影画像に対応する仮想撮影画像が作成される。
Here, the three-
このとき、三次元シミュレータ100は、仮想空間内で取得又は演算により生成される所定の情報を仮想撮影画像に付与する。そして、三次元シミュレータ100は、当該所定の情報が付与された仮想撮影画像を記憶部300に記憶する。
At this time, the three-
ここで、所定の情報としては、上述したように、例えば、仮想撮影画像中の物体(オブジェクト)の輪郭線情報や物体名、当該物体が分類されるクラス、当該物体の状態情報、当該物体までの深度、当該物体の姿勢、当該物体に関して所定の物理演算を行った結果等が挙げられる。また、物体に関して所定の物理演算を行った結果としては、例えば、予め設定された動作が可能なロボットアームが、当該位置において当該物体を把持可能な動作に関する情報等が挙げられる。又は、例えば、予め設定された動作が可能な移動式ロボットが、当該位置において当該物体を回避可能な動作に関する情報等が挙げられる。なお、これらのロボットアームや移動式ロボットは、予め設定された動作が可能な動作主体の一例である。 Here, as the predetermined information, as described above, for example, the contour line information and the object name of the object (object) in the virtual photographed image, the class to which the object is classified, the state information of the object, and the object. Depth, the posture of the object, the result of performing a predetermined physical calculation on the object, and the like. Further, as a result of performing a predetermined physical calculation on an object, for example, information on an operation in which a robot arm capable of a preset operation can grip the object at the position can be mentioned. Alternatively, for example, information on an operation in which a mobile robot capable of a preset operation can avoid the object at the position can be mentioned. It should be noted that these robot arms and mobile robots are examples of operation main bodies capable of preset operations.
なお、上記のステップS202は、例えば、上記のステップS201の後に自動的に実行されても良いし、ユーザの操作(例えば、仮想空間内でのレンダリング開始操作)等に応じて実行されても良い。 The above step S202 may be automatically executed after the above step S201, for example, or may be executed in response to a user operation (for example, a rendering start operation in the virtual space). ..
ステップS203:学習用データ作成部200は、上記のステップS201で作成された実撮影画像に対して、上記のステップS202で作成された仮想撮影画像に付与されている所定の情報を教師情報として付与する。これにより、実撮影画像と、教師情報との組で表される学習用データが作成される。 Step S203: The learning data creation unit 200 assigns predetermined information given to the virtual captured image created in step S202 to the actual captured image created in step S201 as teacher information. do. As a result, learning data represented by a set of the actual photographed image and the teacher information is created.
ここで、学習用データに含まれる教師情報は、例えば、リスト形式で表される。一例として、リスト形式で表された複数の教師情報(これを「教師情報リスト」とも表す。)を図5に示す。図5は、或る実撮影画像(画像ID:image101)に付与された教師情報リストの一例である。 Here, the teacher information included in the learning data is represented in a list format, for example. As an example, FIG. 5 shows a plurality of teacher information represented in a list format (this is also referred to as a “teacher information list”). FIG. 5 is an example of a teacher information list assigned to a certain actual photographed image (image ID: image101).
図5に示す教師情報リストに含まれる各教師情報は、物体IDと、位置情報と、輪郭線情報と、接触情報と、把持動作情報とが対応付けられた情報である。 Each teacher information included in the teacher information list shown in FIG. 5 is information in which an object ID, position information, contour line information, contact information, and gripping motion information are associated with each other.
物体IDは、物体(オブジェクト)を識別するIDである。物体IDは、例えば、仮想空間に配置されたオブジェクトの三次元モデルに付与されている情報である。 The object ID is an ID that identifies an object (object). The object ID is, for example, information given to a three-dimensional model of an object arranged in a virtual space.
位置情報は、物体(オブジェクト)が配置された位置座標である。位置情報は、例えば、上記のステップS102で三次元モデルが表すオブジェクトが配置された際に、当該オブジェクトに付与される情報である。 The position information is the position coordinates where the object (object) is arranged. The position information is, for example, information given to the object represented by the three-dimensional model when the object represented by the three-dimensional model is arranged in step S102.
輪郭線情報は、物体(オブジェクト)の輪郭線を示す情報である。輪郭線情報は、例えば、上記のステップS202で仮想撮影画像を描画(レンダリング)した際のレンダリング結果から取得することができる。 The contour line information is information indicating the contour line of an object (object). The contour line information can be obtained, for example, from the rendering result when the virtual captured image is drawn (rendered) in step S202.
接触情報は、当該物体IDの物体が他の物体(オブジェクト)と接触している場合に、当該他の物体の物体IDや当該他の物体との接触位置等を示す情報である。接触情報は、例えば、三次元シミュレータ100の物理演算の演算結果から取得することができる。
The contact information is information indicating the object ID of the other object, the contact position with the other object, and the like when the object of the object ID is in contact with another object (object). The contact information can be obtained, for example, from the calculation result of the physical calculation of the three-
把持動作情報は、例えば、予め設定された動作が可能なロボットアームが、仮想撮影画像の撮影位置において当該物体IDの物体を把持可能な動作に関する情報である。把持動作情報は、例えば、三次元シミュレータ100の物理演算の演算結果から取得することができる。
The gripping motion information is, for example, information related to a motion in which a robot arm capable of a preset motion can grip an object having the object ID at a shooting position of a virtual captured image. The gripping motion information can be obtained, for example, from the calculation result of the physical calculation of the three-
このように、図5に示す教師情報リストは、物体(オブジェクト)毎に、位置情報と、物体名と、輪郭線情報と、接触情報と、把持動作情報とが対応付けられた教師情報のリストである。これ以外にも、当該教師情報には、三次元シミュレータ100が取得又は演算可能な任意の情報が対応付けられていても良い。例えば、教師情報として仮想撮影画像自体又は仮想撮影画像の一部の領域が対応付けられていても良い。具体的には、例えば、物体IDに対して、仮想撮影画像の画像領域うち、当該物体IDの物体を表す画像領域部分が対応付けられていても良い。
As described above, the teacher information list shown in FIG. 5 is a list of teacher information in which position information, object names, contour line information, contact information, and gripping motion information are associated with each object. Is. In addition to this, any information that can be acquired or calculated by the three-
また、各教師情報は、上記の各情報(位置情報や物体名、輪郭線情報、接触情報、把持動作情報等)のうちの一部の情報のみが対応付けられた情報であっても良い。 Further, each teacher information may be information to which only a part of the above information (position information, object name, contour line information, contact information, gripping motion information, etc.) is associated.
なお、学習用データに含まれる教師情報がリスト形式で表されることは一例であって、学習用データに含まれる教師情報は、他の形式の任意の形式で表されていても良い。 It should be noted that the teacher information included in the learning data is represented in a list format as an example, and the teacher information included in the learning data may be represented in any other format.
<学習用データ作成装置10のハードウェア構成>
次に、本発明の実施の形態における学習用データ作成装置10のハードウェア構成について、図6を参照しながら説明する。図6は、本発明の実施の形態における学習用データ作成装置10のハードウェア構成の一例を示す図である。
<Hardware configuration of learning
Next, the hardware configuration of the learning
図6に示すように、本発明の実施の形態における学習用データ作成装置10は、入力装置401と、表示装置402と、外部I/F403と、通信I/F404と、RAM(Random Access Memory)405と、ROM(Read Only Memory)406と、プロセッサ407と、補助記憶装置408とを有する。これら各ハードウェアは、それぞれがバス409により相互に接続されている。
As shown in FIG. 6, the learning
入力装置401は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置402は、例えばディスプレイ等であり、学習用データ作成装置10の各種の処理結果を表示する。なお、学習用データ作成装置10は、入力装置401及び表示装置402のうちの少なくとも一方を有していなくても良い。
The
外部I/F403は、外部装置とのインタフェースである。外部装置には、記録媒体403a等がある。学習用データ作成装置10、外部I/F403を介して、記録媒体403a等の読み取りや書き込み等を行うことができる。記録媒体403aには、三次元シミュレータ100や学習用データ作成部200を実現する1以上のプログラム等が記録されていても良い。
The external I /
記録媒体403aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
The
通信I/F404は、学習用データ作成装置10を通信ネットワークに接続するためのインタフェースである。三次元シミュレータ100や学習用データ作成部200を実現する1以上のプログラムは、通信I/F404を介して、所定のサーバ装置等から取得(ダウンロード)されても良い。
The communication I /
RAM405は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM406は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM406には、例えば、OS(Operating System)に関する設定や通信ネットワークに関する設定等が格納されている。
The
プロセッサ407は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM406や補助記憶装置408等からプログラムやデータをRAM405上に読み出して処理を実行する演算装置である。三次元シミュレータ100や学習用データ作成部200は、例えば補助記憶装置408に格納されている1以上のプログラムがプロセッサ407に実行させる処理により実現される。なお、学習用データ作成装置10は、プロセッサ407として、CPUとGPUとの両方を有していても良いし、CPU又はGPUのいずれか一方のみを有していても良い。
The
補助記憶装置408は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置408には、例えば、OS、各種アプリケーションソフトウェア、三次元シミュレータ100や学習用データ作成部200を実現する1以上のプログラム等が格納されている。記憶部300は、例えば補助記憶装置408を用いて実現されている。ただし、記憶部300は、補助記憶装置408ではなく、例えば、学習用データ作成装置10と通信ネットワークを介して通信可能に接続される記憶装置等を用いて実現されていても良い。
The
本発明の実施の形態における学習用データ作成装置10は、図6に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図6に示す例では、本発明の実施の形態における学習用データ作成装置10が1台の装置(コンピュータ)で実現されている場合について説明したが、これに限られない。本発明の実施の形態における学習用データ作成装置10は、複数台の装置(コンピュータ)で実現されていても良い。
The learning
<まとめ>
以上のように、本発明の実施の形態における学習用データ作成システム1は、仮想撮影画像から得られる情報(すなわち、三次元シミュレータ100が取得又は演算可能な情報)を教師情報として実撮影画像に付与することで、学習用データを作成する。このため、本発明の実施の形態における学習用データ作成システム1では、例えば、実撮影画像に対して教師情報を手作業で付与する等の作業を行うことなく、学習用データを容易に作成することができるようになる。特に、例えば、教師情報の数が多い場合(例えば、物体の種類数が多い場合やカテゴリ数が多い場合等)であっても、学習用データを容易に作成することができるようになる。
<Summary>
As described above, the learning
また、例えば、セマンティックセグメンテーションを行う場合に、本発明の実施の形態における学習用データ作成システム1では、物体(オブジェクト)の境界線を三次元シミュレータ100が取得するため、高い精度で物体のセグメンテーションを行うことができるようになる。
Further, for example, in the case of performing semantic segmentation, in the learning
更に、例えば、本発明の実施の形態における学習用データ作成システム1では、例えば、深度や物体の姿勢等、手作業で付与することが困難な教師情報であっても、この教師情報が含まれる学習用データを容易に作成することができる。
Further, for example, in the learning
しかも、本発明の実施の形態における学習用データ作成システム1では、例えば、ユーザが実空間内の移動しながらカメラ装置20で任意の範囲を撮影するだけで、実撮影画像と、この実撮影画像に対応する仮想撮影画像とが作成されるため、大量の学習用データを容易に作成することができる。このため、例えば、クラウドソーシング等を利用して教師情報を実撮影画像に付与する場合と比較して、低コストに大量の学習用データを得ることができる。
Moreover, in the learning
したがって、本発明の実施の形態における学習用データ作成システム1を利用することで、例えば、実空間である或る部屋内を掃除したり、当該部屋内の物体の片づけを行ったりするロボットの認識エンジン(すなわち、部屋内の掃除や片づけを行うタスクを実行する機械学習モデル)の学習に用いられる大量の学習用データを容易に得ることができる。
Therefore, by using the learning
なお、本発明の実施の形態では、事前準備手順として、仮想空間を作成した上で、この仮想空間に対応するように実空間に物体を配置したが、これに限られない。例えば、実際に物体が配置されている実空間と対応するように、仮想空間が作成されても良い。 In the embodiment of the present invention, as a preliminary preparation procedure, a virtual space is created and an object is arranged in the real space so as to correspond to the virtual space, but the present invention is not limited to this. For example, a virtual space may be created so as to correspond to the real space in which the object is actually arranged.
また、本発明の実施の形態では、実撮影画像及び仮想撮影画像が静止画像である場合を想定して説明したが、これに限られない。実撮影画像及び仮想撮影画像は動画であっても良い。 Further, in the embodiment of the present invention, the description has been made assuming that the actual photographed image and the virtual photographed image are still images, but the present invention is not limited to this. The actual shot image and the virtual shot image may be moving images.
また、本発明の実施の形態では、実撮影画像と、三次元シミュレータ100から取得された教師情報との組を学習用データとしたが、これに限られない。例えば、実撮影画像を教師情報として、仮想撮影画像と、教師情報(実撮影画像)との組を学習用データとしても良い。この場合、三次元シミュレータ100により作成された仮想撮影画像から実撮影画像を予測するタスクの学習用データを作成することができる。
Further, in the embodiment of the present invention, the set of the actual photographed image and the teacher information acquired from the three-
本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the above-described embodiment specifically disclosed, and various modifications and modifications can be made without departing from the scope of claims.
1 学習用データ作成システム
10 学習用データ作成装置
20 カメラ装置
30 トラッキング装置
100 三次元シミュレータ
200 学習用データ作成部
300 記憶部
1 Learning
Claims (8)
前記実空間の前記第1の物体を含む所定の範囲を撮影し、第1の画像を作成する第2の手順と、
前記第1の画像に対応した前記仮想空間における所定の範囲を前記三次元シミュレータにより描画し、第2の画像を作成する第3の手順と、
前記第1の画像に対して、少なくとも前記第2の画像から得られる情報及び前記三次元シミュレータにより生成される情報のいずれかを教師情報として付与して、機械学習モデルの学習用データを作成する第4の手順と
をコンピュータが実行することを特徴とする学習用データ作成方法。 When the first object in the real space and the second object in the virtual space created by the three-dimensional simulator have the same coordinate system as the other space and the same origin in the coordinate system in each space. The first step of arranging so that they have the same coordinates,
A second procedure of photographing a predetermined range including the first object in the real space and creating a first image, and
A third procedure of drawing a predetermined range in the virtual space corresponding to the first image by the three-dimensional simulator and creating a second image, and
At least one of the information obtained from the second image and the information generated by the three-dimensional simulator is added to the first image as teacher information to create learning data for a machine learning model. A method for creating learning data, characterized in that a computer executes the fourth procedure.
前記仮想空間に対応する実空間の所定の範囲内を撮影した第1の画像が作成されたことに応じて、前記仮想空間の前記範囲内を前記三次元シミュレータが描画した第2の画像を作成する第2の作成手順と、
前記第1の画像に対して、前記第2の画像から得られる所定の情報を教師情報として付与して、所定の機械学習モデルの学習に用いられる学習用データを作成する第3の作成手順と、
をコンピュータが実行することを特徴とする学習用データ作成方法。 The first creation procedure for creating a virtual space in which one or more objects are arranged by a three-dimensional simulator, and
In response to the creation of the first image taken within a predetermined range of the real space corresponding to the virtual space, a second image drawn by the three-dimensional simulator in the range of the virtual space is created. The second creation procedure to be done and
A third creation procedure for creating learning data used for learning a predetermined machine learning model by adding predetermined information obtained from the second image to the first image as teacher information. ,
A learning data creation method characterized by a computer performing.
前記第1の画像を作成したカメラ装置の位置及び姿勢を示す情報を用いて、前記仮想空間における前記位置で、前記姿勢の仮想的なカメラ装置により前記仮想空間内を撮影することにより、前記第2の画像を作成する、ことを特徴とする請求項2に記載の学習用データ作成方法。 The second creation procedure is
The first image is obtained by photographing the inside of the virtual space with the virtual camera device of the posture at the position in the virtual space by using the information indicating the position and the posture of the camera device that created the first image. The method for creating learning data according to claim 2, wherein the image of 2 is created.
前記第1の画像と前記所定の情報との組又は前記第2の画像と前記第1の画像との組のいずれかで表される前記学習用データを作成する、ことを特徴とする請求項2又は3に記載の学習用データ作成方法。 The third creation procedure is
A claim characterized in that the learning data represented by either a set of the first image and the predetermined information or a set of the second image and the first image is created. The learning data creation method according to 2 or 3.
前記仮想空間の前記範囲内に配置された三次元モデルが表す物体の輪郭線を示す情報と、前記物体の物体名を示す情報と、前記物体の状態を示す情報と、前記物体までの深度を示す情報と、前記物体の姿勢を示す情報と、予め設定された動作が可能な動作主体が前記物体に関して所定の行動を行うための情報と、前記第2の画像の全部又は一部の画像領域とのうちの少なくとも1つの情報が含まれる、ことを特徴とする請求項5に記載の学習用データ作成方法。 The above-mentioned predetermined information includes
Information indicating the contour line of an object represented by the three-dimensional model arranged in the range of the virtual space, information indicating the object name of the object, information indicating the state of the object, and the depth to the object. Information to be shown, information to show the posture of the object, information for an operating subject capable of performing a preset operation to perform a predetermined action with respect to the object, and an image area of all or a part of the second image. The method for creating learning data according to claim 5, wherein at least one piece of information is included.
前記仮想空間に対応する実空間の所定の範囲内を撮影した第1の画像が作成されたことに応じて、前記仮想空間の前記範囲内を前記三次元シミュレータが描画した第2の画像を作成する第2の作成部と、
前記第1の画像に対して、前記第2の画像から得られる所定の情報を教師情報として付与して、所定の機械学習モデルの学習に用いられる学習用データを作成する第3の作成部と、
を有することを特徴とする学習用データ作成装置。 The first creation unit that creates a virtual space in which one or more objects are arranged by a three-dimensional simulator,
In response to the creation of the first image taken within a predetermined range of the real space corresponding to the virtual space, a second image drawn by the three-dimensional simulator in the range of the virtual space is created. The second creation part to do,
A third creation unit that creates learning data used for learning a predetermined machine learning model by adding predetermined information obtained from the second image to the first image as teacher information. ,
A learning data creation device characterized by having.
前記仮想空間に対応する実空間の所定の範囲内を撮影した第1の画像が作成されたことに応じて、前記仮想空間の前記範囲内を前記三次元シミュレータが描画した第2の画像を作成する第2の作成手順と、
前記第1の画像に対して、前記第2の画像から得られる所定の情報を教師情報として付与して、所定の機械学習モデルの学習に用いられる学習用データを作成する第3の作成手順と、
をコンピュータに実行させることを特徴とするプログラム。 The first creation procedure for creating a virtual space in which one or more objects are arranged by a three-dimensional simulator, and
In response to the creation of the first image taken within a predetermined range of the real space corresponding to the virtual space, a second image drawn by the three-dimensional simulator in the range of the virtual space is created. The second creation procedure to be done and
A third creation procedure for creating learning data used for learning a predetermined machine learning model by adding predetermined information obtained from the second image to the first image as teacher information. ,
A program characterized by having a computer execute.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018182538A JP2022024189A (en) | 2018-09-27 | 2018-09-27 | Learning data creation method, learning data creation device, and program |
PCT/JP2019/037684 WO2020067204A1 (en) | 2018-09-27 | 2019-09-25 | Learning data creation method, machine learning model generation method, learning data creation device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018182538A JP2022024189A (en) | 2018-09-27 | 2018-09-27 | Learning data creation method, learning data creation device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022024189A true JP2022024189A (en) | 2022-02-09 |
Family
ID=69953491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018182538A Pending JP2022024189A (en) | 2018-09-27 | 2018-09-27 | Learning data creation method, learning data creation device, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022024189A (en) |
WO (1) | WO2020067204A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7281576B1 (en) | 2022-03-31 | 2023-05-25 | Kddi株式会社 | Video projection system and video projection method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4320438B2 (en) * | 2003-06-06 | 2009-08-26 | 独立行政法人 国立印刷局 | Character string extraction processing device for printed matter |
WO2018020954A1 (en) * | 2016-07-29 | 2018-02-01 | 株式会社日立製作所 | Database construction system for machine-learning |
-
2018
- 2018-09-27 JP JP2018182538A patent/JP2022024189A/en active Pending
-
2019
- 2019-09-25 WO PCT/JP2019/037684 patent/WO2020067204A1/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7281576B1 (en) | 2022-03-31 | 2023-05-25 | Kddi株式会社 | Video projection system and video projection method |
JP2023151126A (en) * | 2022-03-31 | 2023-10-16 | Kddi株式会社 | Image projection system and image projection method |
Also Published As
Publication number | Publication date |
---|---|
WO2020067204A1 (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584295B (en) | Method, device and system for automatically labeling target object in image | |
KR102103939B1 (en) | Avatar facial expression animations with head rotation | |
JP6264834B2 (en) | Guide method, information processing apparatus, and guide program | |
WO2019041900A1 (en) | Method and device for recognizing assembly operation/simulating assembly in augmented reality environment | |
CN110573992B (en) | Editing augmented reality experiences using augmented reality and virtual reality | |
JP6310149B2 (en) | Image generation apparatus, image generation system, and image generation method | |
KR102433857B1 (en) | Device and method for creating dynamic virtual content in mixed reality | |
CN109035415B (en) | Virtual model processing method, device, equipment and computer readable storage medium | |
CN109905592A (en) | According to the interactive controlling of user or the providing method and device of the content of synthesis | |
US11373329B2 (en) | Method of generating 3-dimensional model data | |
EP4191540A1 (en) | 3d data system and 3d data generation method | |
CN110544315B (en) | Virtual object control method and related equipment | |
JP2021192230A5 (en) | ||
WO2020067204A1 (en) | Learning data creation method, machine learning model generation method, learning data creation device, and program | |
JP7267068B2 (en) | Trained model generation device, program and trained model generation system | |
CN110910478A (en) | GIF graph generation method, device, electronic equipment and storage medium | |
TW201724054A (en) | System, method, and computer program product for simulated reality learning | |
US10755459B2 (en) | Object painting through use of perspectives or transfers in a digital medium environment | |
CN112652056B (en) | 3D information display method and device | |
CN112634439B (en) | 3D information display method and device | |
EP3649644A1 (en) | A method and system for providing a user interface for a 3d environment | |
JP7401245B2 (en) | Image synthesis device, control method and program for image synthesis device | |
JP7045863B2 (en) | Information management system, information management method, and program | |
BARON et al. | APPLICATION OF AUGMENTED REALITY TOOLS TO THE DESIGN PREPARATION OF PRODUCTION. | |
CN107784132A (en) | CAD Mapping Systems based on body-sensing technology |