JP7162750B2

JP7162750B2 - 画像処理装置、画像処理方法、及び、プログラム

Info

Publication number: JP7162750B2
Application number: JP2021545056A
Authority: JP
Inventors: 勉堀川; 大地小野; 博之矢部
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-10-28
Anticipated expiration: 2039-09-12
Also published as: JPWO2021048985A1; WO2021048985A1; US20220335681A1

Description

本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。

入力画像に基づいて、自己位置推定と入力画像に表されたオブジェクトの３次元位置認識を同時に実行することで３次元マップ形成を行う技術(いわゆる、スラム(SLAM: Simultaneous Localization and Mapping))が知られている。

また、入力画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識し、当該種類を表すラベルを各ピクセルに付すオブジェクト種類認識技術(いわゆる、セマンティックセグメンテーション(Semantic segmentation))が知られている。当該オブジェクト種類認識は、学習データを用いて学習済である機械学習モデルを用いて行われる。

自己位置推定と入力画像に表されたオブジェクトの３次元位置認識を同時に実行することで３次元マップを形成する技術は、当該入力画像に表されたオブジェクトが静止していることを前提としている。そのため、入力画像に表されたオブジェクトに人物や動物等の動く（位置、姿勢、形状等が時間で変化する）オブジェクトが含まれている場合、３次元マップを正しく形成することができない。また、入力画像に表されたオブジェクトがコップ等の静止しているものであっても、３次元マップを形成後に当該コップを動かした場合、３次元マップを再度作成する必要がある。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、入力画像に移動するオブジェクトが含まれる場合であっても、精度よく３次元マップを形成することができる画像処理装置、画像処理方法、及び、プログラムを提供することである。

上記課題を解決するために、本発明に係る画像処理装置は、２次元の撮像画像を順次取得する画像取得部と、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成部と、を含み、前記３次元マップ作成部は、前記撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする。

本発明の一態様では、前記３次元マップ作成部は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの３次元位置認識を制限する、ことを特徴とする。

本発明の一態様では、前記３次元マップ作成部は、前記撮像画像の各ピクセルに付されたラベルに基づいて、前記撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの３次元位置認識を実行する、ことを特徴とする。

本発明の一態様では、前記３次元マップ作成部は、領域ごとの３次元位置認識結果を合成することで前記３次元マップを作成する、ことを特徴とする。

本発明の一態様では、前記撮像画像の撮像位置を視点として前記３次元マップをレンダリングすることにより２次元画像を作成するレンダリング部と、前記２次元画像に対して、前記撮像画像のピクセルのうち、３次元位置認識が制限されたピクセルを合成する合成部と、をさらに有することを特徴とする。

本発明の一態様では、前記３次元マップ作成部は、さらに、前記ラベルに応じて予め設定された重み係数を用いて、前記３次元位置認識を制限することを特徴とする。

本発明に係る画像処理方法は、２次元の撮像画像を順次取得する画像取得ステップと、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成ステップと、を含み、前記３次元マップ作成ステップにおいて、前記撮像画像の各ピクセルの３次元位置認識は、該ピクセルに付されたラベルに応じて制限される、ことを特徴とする。

本発明に係るプログラムは、２次元の撮像画像を順次取得する画像取得手順と、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成手順と、をコンピュータに実行させるプログラムであって、前記３次元マップ作成手順において、前記撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする。

本発明の一実施形態に係る画像処理装置の構成図である。本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る画像処理装置で行われる画像処理の流れの一例を示す図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。図１は、本実施形態に係る画像処理装置１０の構成図である。

本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。また、画像処理装置１０は、デジタルカメラ等の撮像装置であってもよい。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、画像処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

続いて、本実施形態に係る画像処理装置１０の機能、及び、画像処理装置１０で実行される処理についてさらに説明する。

図２に示すように、本実施形態に係る画像処理装置１０には、機能的には例えば、画像取得部２０２、オブジェクト種類認識実行部２０４、３次元マップ作成部２０６、レンダリング部２０８、合成部２１０、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

画像取得部２０２は、２次元の撮像画像を順次取得する。具体的には、例えば、画像取得部２０２は、一般的なビデオカメラで撮影された動画像に含まれる各フレームの静止画像を順次取得する。ここで、静止画像は、例えば赤、緑、及び、青の各色の階調情報を含む２次元画像である。また、入力画像を撮影するビデオカメラは、時間に応じて位置及び方向が変化する。従って、画像取得部２０２は、時間によって連続的に視点及び画角が変化しながら撮影された２次元画像を取得する。

なお、画像取得部２０２は、撮像画像とともに深度情報を取得してもよい。具体的には、例えば、画像取得部２０２は、ビデオカメラのレンズ近傍に配置された測距センサから、各ピクセルに表されたオブジェクトとレンズの距離を、当該入力画像の各ピクセルに対応する深度情報として取得してもよい。また、例えば、２眼のビデオカメラが撮像した２枚の撮像画像に基づいて、画像取得部２０２は、赤、緑、及び、青の各色の階調情報とともに、各ピクセルの深度情報を含む２次元画像を取得してもよい。

オブジェクト種類認識実行部２０４は、順次取得された撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、例えば、オブジェクト種類認識実行部２０４は、畳み込みニューラルネットワーク（ＣＮＮ）により実装された機械学習モデルである。オブジェクト種類認識実行部２０４は、画像取得部２０２が１フレームの入力画像を取得するたびに、入力画像に含まれる階調情報に基づいて、当該入力画像に対するセマンティックセグメンテーションを実行する。これにより、フレームごとに、取得された入力画像の各ピクセルに対して、該ピクセルにより表されたオブジェクトの種類を表すラベルが付される。ラベルは、例えば、人物を表す「human」、テーブルを表す「table」、ソファを表す「sofa」、コップを表す「cup」、床を表す「floor」、壁を表す「wall」等である。

３次元マップ作成部２０６は、順次取得された撮像画像に基づいて、撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する。具体的には、例えば、３次元マップ作成部２０６は、画像取得部２０２が順次取得した入力画像に基づいて、ビジュアルスラム(Visual SLAM)を実行する。３次元マップ作成部２０６は、カメラで撮影された２次元画像からカメラが撮影した環境の３次元情報とカメラの位置姿勢を同時に推定することができる。これにより、３次元マップ作成部２０６は、３次元マップを作成できる。

なお、３次元マップ作成部２０６は、ＧＰＳ（図示なし）から取得した位置情報と、画像取得部２０２が取得した深度情報と、を用いて３次元位置認識を行うことで、３次元マップを作成してもよい。

ここで、３次元マップ作成部２０６は、撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する。具体的には、３次元マップ作成部２０６は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの３次元位置認識を制限する。例えば、１枚の撮像画像に含まれる各ピクセルに対して、人物を表す「human」、コップを表す「cup」、テレビを表す「TV」、テーブルを表す「table」、ソファを表す「sofa」、床を表す「floor」、または、壁を表す「wall」のいずれかが付されているとする。この場合、３次元マップ作成部２０６は、移動するオブジェクトの種類を示す「human」というラベルが付されたピクセルの３次元位置認識を制限する。すなわち、３次元マップ作成部２０６は、取得された撮像画像に含まれる複数のピクセルのうち、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて、３次元マップを作成する。これにより、実空間において、移動する対象である人物が存在する位置以外の位置と対応するボクセルによって構成される３次元マップが作成される。人物が存在する位置に対応するボクセルは、当該３次元マップに含まれない。

なお、上記において、移動するオブジェクトの種類が「human」のみである場合について説明したが、移動するオブジェクトの種類は、適宜設定されてよい。具体的には、例えば、コップは人物が頻繁に移動させる対象であるため、移動するオブジェクトの種類として、「human」及び「cup」が設定されてよい。また、例えば、床及び壁以外の対象はすべて移動させることができるため、移動するオブジェクトの種類として、「human」、「cup」、「TV」、「table」及び「sofa」が設定されてもよい。

また、３次元マップ作成部２０６は、撮像画像の各ピクセルに付されたラベルに基づいて、撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの３次元位置認識を実行してもよい。具体的には上記例では、３次元マップ作成部２０６は、撮像画像を「human」というラベルが付された領域と、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付された領域に分割する。そして、３次元マップ作成部２０６は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて３次元位置認識を実行する。また、３次元マップ作成部２０６は、「human」というラベルが付されたピクセルのみを用いて３次元位置認識を実行する。そして、３次元マップ作成部２０６は、領域ごとの３次元位置認識結果を合成することで３次元マップを作成してもよい。これにより、人物が存在する位置に対応するボクセルを含む３次元マップを作成できる。

なお、３次元マップ作成部２０６は、人物が動かない状況下でのみ、領域ごとの３次元位置認識結果を合成することで３次元マップを作成することができる。そのため、人物が動いた時点で、３次元マップ作成部２０６は、領域ごとの３次元位置認識結果の合成を停止し、移動するオブジェクトの種類を示すラベル以外のラベルが付されたピクセルのみを用いて、３次元マップを作成する。そして、人物の動きが停止した時点で、移動するオブジェクトの種類を示すラベルが付されたピクセルに対する３次元位置認識を再開し、再び領域ごとの３次元位置認識結果が合成された３次元マップを作成することができる。

レンダリング部２０８は、撮像画像の撮像位置を視点として３次元マップをレンダリングすることにより２次元画像を作成する。具体的には、例えば、画像取得部２０２は、２次元の撮像画像をフレームごとに順次取得する。このとき、ビデオカメラ等の撮像装置は時間とともに移動するため、撮像時の視点はフレームごとに変化する。レンダリング部２０８は、現フレームにおける撮像画像の撮像位置を視点として、３次元マップに対してレンダリングを行う。

合成部２１０は、レンダリング部２０８の作成した２次元画像に対して、撮像画像のピクセルのうち、３次元位置認識が制限されたピクセルを合成する。具体的には、上記例のように、レンダリング部２０８は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて作成された３次元マップに対して、現フレームにおける撮像画像の撮像位置を視点として、２次元画像を作成したとする。当該３次元マップには、「human」というラベルが付されたピクセルと対応するボクセルが含まれないため、作成された２次元画像は、人物が表された領域に階調情報を含まない。一方、画像取得部２０２が取得した撮像画像の全てのピクセルは階調情報を含む。そのため、撮像画像のピクセルのうち、人物を表すピクセルは階調情報を含む。合成部２１０は、人物が表された領域に階調情報を含まない２次元画像に対して、現フレームの撮像画像のピクセルのうち、人物を表すラベルが付されたピクセルの階調情報を合成する。これにより、精度よく３次元マップを作成しつつ、３次元マップから作成された２次元画像と、３次元位置認識が制限されたために、３次元マップに存在しない移動するオブジェクトと、を重ねて表示することができる。

なお、３次元マップ作成部２０６が撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの３次元位置認識を実行する場合には、３次元マップからレンダリングによって作成された２次元画像は、移動するオブジェクトの種類を示すラベルが付与されたオブジェクトと、それ以外のラベルが付与されたオブジェクトと、どちらのオブジェクトも含む。この場合、画像処理装置１０は、合成部２１０を含まない構成であってもよい。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

本実施形態では例えば、一般的なビデオカメラで撮影される２次元画像に基づいて、３次元マップが作成される。以下、３次元マップの作成方法について図３を参照しながら説明する。

まず、画像取得部２０２によってフレームごとに順次取得された２次元の入力画像は、オブジェクト種類認識実行部２０４に入力される。具体的には、例えば、２眼のビデオカメラによって撮影された２次元の入力画像は、フレームごとに順次オブジェクト認識実行部に入力される。ここで、例えば、入力画像の各ピクセルは、赤、緑及び青を表す階調情報と、ビデオカメラからの距離を表す深度情報と、を含む。

オブジェクト種類認識実行部２０４は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、オブジェクト種類認識実行部２０４は、入力された２次元の入力画像の各ピクセルの階調情報に基づいて、該ピクセルにより表されたオブジェクトの種類を判定する。そして、オブジェクト種類認識実行部２０４は、入力画像の各ピクセルに対して、判定されたオブジェクトの種類を表すラベルを付す。例えば、オブジェクト種類認識実行部２０４は、あるピクセルが表すオブジェクトが人物であると判定した場合、当該ピクセルに対して「human」というラベルを付す。また、例えば、オブジェクト種類認識実行部２０４は、あるピクセルが表すオブジェクトが壁面であると判定した場合、当該ピクセルに対して「wall」というラベルを付す。従って、オブジェクト種類認識実行部２０４が出力した画像の各ピクセルは、階調情報及び深度情報に加えて、ラベルを表す情報を含む。

次に、出力された画像は、フレームごとに順次３次元マップ作成部２０６に入力され、３次元マップが作成される。具体的には、上記のように、各ピクセルが階調情報、深度情報、及び、ラベルを表す情報を含む２次元の画像は、３次元マップ作成部２０６に入力される。３次元マップ作成部２０６は、順次入力された入力画像の階調情報及び深度情報に基づいて、入力画像に表されたオブジェクトの３次元位置認識を実行して３次元マップを作成する。

ここで、３次元マップ作成部２０６は、撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する。図３の例では、３次元マップ作成部２０６は、制限の対象となるラベルとして、「human」というラベルを取得する。そして、３次元マップ作成部２０６は、各ラベルが付された画像を、「human」というラベルが付された領域と、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付された領域と、に分割する（図３の３次元マップ作成部２０６の下側参照）。そして、３次元マップ作成部２０６は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて３次元位置認識を実行する。

静止しているオブジェクトについてのみスラムを実行することにより、３次元マップ作成部２０６は、入力画像に移動するオブジェクトが含まれる場合であっても、精度よく３次元マップを形成することができる。また、時間が経過するごとに、入力画像中の移動するオブジェクトが位置を変更するとともに、画像取得部２０２が異なる視点で撮像された入力画像を取得する。これにより、３次元マップ作成部２０６は、図３の３次元マップにおいて、移動するオブジェクトの奥にあったために欠けてしまった領域のボクセルを含む３次元マップを作成できる。

上記のように作成された３次元マップは、例えば、拡張現実（ＡＲ：Augmented Reality）技術に適用することができる。テーブル、テレビ、ソファ等が配置された部屋の内部の３次元マップを作成した場合、ユーザは、現実世界の部屋にいながら、現実世界の部屋が反映された仮想空間を体験できる。この時、撮影のために部屋から人物を退去させたり、コップなどの小物や動く物体を片づけたりする必要がなく、ユーザはより手軽に高精度な３次元マップを作成することができる。

なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

例えば、３次元マップ作成部２０６は、さらに、ラベルに応じて予め設定された重み係数を用いて、３次元位置認識を制限してもよい。具体的には、ｎフレーム目の入力画像が入力されたときに、３次元マップ作成部２０６は、ｎ－１フレームで作成された３次元マップと、ｎフレーム目の入力画像と、からそれぞれ特徴点を抽出する。３次元マップ作成部２０６は、当該特徴点の誤差の総和が最小となるように、入力画像の位置認識を行う。

ここで、３次元マップ作成部２０６は、特徴点ごとに、当該特徴点の誤差に対して重み付け係数を乗算してもよい。乗算される重み付け係数は、特徴点が現れたピクセルに付されたラベルに対して予め設定される。

予め設定される重みづけ係数は、ラベルが示すオブジェクトの種類が移動しやすいほど小さい値が設定される。具体的には、例えば、「floor」及び「wall」というラベルに対して、「1.0」という重み係数が設定される。「table」、「TV」及び「sofa」というラベルに対して、「0.5」という重み係数が設定される。「cup」というラベルに対して、「0.1」という重み係数が設定される。「human」というラベルに対して、「0.0」という重み係数が設定される。

この場合、「0.0」という重み係数が乗算される特徴点の誤差は「0.0」であるため、３次元マップ作成部２０６が位置認識する際に、当該特徴点の誤差は計算対象から除外される。「0.1」、「0.5」及び「1.0」という重み係数が乗算される特徴点の誤差は、当該係数に応じて誤差の総和に対する影響の大きさが異なる。これにより、オブジェクトの移動する可能性の高さに応じて、特徴点ごとに３次元位置認識に与える影響の大きさを変化させることができる。

上記重み付け係数は、撮影環境や使用用途に応じて、適宜設定される。従って、移動する可能性は低いがゼロではないオブジェクト（上記例では「table」、「TV」及び「sofa」が表すオブジェクト）が３次元位置認識の精度に与える悪影響を軽減することができる。一方、移動する可能性が高いオブジェクト（上記例では「cup」が表すオブジェクト）も必要に応じて特徴点として利用することが可能となる。

Claims

２次元の撮像画像を順次取得する画像取得部と、
順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、
順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成部と、
前記撮像画像の撮像位置を視点として前記３次元マップをレンダリングすることにより２次元画像を作成するレンダリング部と、
前記２次元画像に対して、前記撮像画像のピクセルのうち、３次元位置認識が制限されたピクセルを合成する合成部と、
を含み、
前記３次元マップ作成部は、前記撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする画像処理装置。
前記３次元マップ作成部は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの３次元位置認識を制限する、ことを特徴とする請求項１に記載の画像処理装置。
前記３次元マップ作成部は、前記撮像画像の各ピクセルに付されたラベルに基づいて、前記撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの３次元位置認識を実行する、ことを特徴とする請求項１または２に記載の画像処理装置。
前記３次元マップ作成部は、領域ごとの３次元位置認識結果を合成することで前記３次元マップを作成する、ことを特徴とする請求項３に記載の画像処理装置。
前記３次元マップ作成部は、さらに、前記ラベルに応じて予め設定された重み係数を用いて、前記３次元位置認識を制限することを特徴とする請求項１に記載の画像処理装置。
２次元の撮像画像を順次取得する画像取得ステップと、
順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、
順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成ステップと、
前記撮像画像の撮像位置を視点として前記３次元マップをレンダリングすることにより２次元画像を作成するレンダリングステップと、
前記２次元画像に対して、前記撮像画像のピクセルのうち、３次元位置認識が制限されたピクセルを合成する合成ステップと、
を含み、
前記３次元マップ作成ステップにおいて、前記撮像画像の各ピクセルの３次元位置認識は、該ピクセルに付されたラベルに応じて制限される、ことを特徴とする画像処理方法。
２次元の撮像画像を順次取得する画像取得手順と、
順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、
順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの３次元位置認識を実行して３次元マップを作成する３次元マップ作成手順と、
前記撮像画像の撮像位置を視点として前記３次元マップをレンダリングすることにより２次元画像を作成するレンダリング手順と、
前記２次元画像に対して、前記撮像画像のピクセルのうち、３次元位置認識が制限されたピクセルを合成する合成手順と、
をコンピュータに実行させるプログラムであって、
前記３次元マップ作成手順において、前記撮像画像の各ピクセルの３次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とするプログラム。