JP7178499B2

JP7178499B2 - 画像処理装置、画像処理方法、及び、プログラム

Info

Publication number: JP7178499B2
Application number: JP2021532559A
Authority: JP
Inventors: 勉堀川; 大地小野; 博之矢部
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-11-25
Anticipated expiration: 2039-07-12
Also published as: WO2021009798A1; US20220292811A1; JPWO2021009798A1

Description

特許法第３０条第２項適用開催日平成３０年１２月４日～平成３０年１２月７日集会名、開催場所シーグラフアジア２０１８カンファレンス仮想現実／拡張現実アーティクルＮｏ．１７（ＳＩＧＧＲＡＰＨＡｓｉａ２０１８Ｖｉｒｔｕａｌ＆ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙＡｒｔｉｃｌｅＮｏ．１７）東京国際フォーラム（東京都千代田区丸の内３丁目５番１号）展示日平成３０年１２月４日～平成３０年１２月７日展示会名シーグラフアジア２０１８展示会掲載年月日平成３０年１２月４日掲載アドレスｈｔｔｐｓ：／／ｄｌ．ａｃｍ．ｏｒｇ／ｄｏｉ／１０．１１４５／３２７５４９５．３２７５４９８ｈｔｔｐｓ：／／ｓａ２０１８．ｓｉｇｇｒａｐｈ．ｏｒｇ／ｅｎ／ａｔｔｅｎｄｅｅｓ／ｖｉｒｔｕａｌ－ａｕｇｍｅｎｔｅｄ－ｒｅａｌｉｔｙ－ｖｒ－ａｒ／ｓｅｓｓｉｏｎ＿ｓｌｏｔ／１０７９．ｈｔｍ

本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。

入力画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識し、当該種類を表すラベルを各ピクセルに付すオブジェクト種類認識技術(いわゆる、セマンティックセグメンテーション(Semantic segmentation))が知られている。当該オブジェクト種類認識技術は、学習データを用いて学習済である機械学習モデルを用いて行われる。

また、入力画像に基づいて、自己位置推定と入力画像に表された被写体の３次元位置認識を同時に実行することで３次元マップ形成を行う技術(いわゆる、スラム(SLAM: Simultaneous Localization and Mapping))が知られている。

３次元マップは、ボクセルによって構成される。当該ボクセルに表されたオブジェクトの種類を認識するために３次元マップに対してオブジェクト認識技術を適用すると、画像処理装置に過大な負荷がかかり、長い処理時間を要する。

また、３次元マップに対してオブジェクト認識技術を適用するためには、３次元マップに対してオブジェクト認識技術を実行する学習済の機械学習モデルが必要である。さらに、当該機械学習モデルに対して機械学習を行うためには、予めボクセル毎にオブジェクトの種類を表すラベルが付された３次元マップの学習データが必要である。２次元画像である学習データを収集することと比較して、３次元マップの学習データを収集することは困難であり、コストもかかる。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、３次元マップの学習データを収集することが不要であって、かつ、負荷が少なく高速な処理が可能である、3次元マップのオブジェクト認識のための画像処理装置、画像処理方法、及び、プログラムを提供することである。

本発明の一側面に係る画像処理装置は、２次元の入力画像をフレームごとに順次取得する画像取得部と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行して３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、を含むことを特徴とする。

また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付すことを特徴とする。

また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、カウントが０である場合に、現フレームで判定されたラベルを付し、カウントが０でない場合に、前フレームに付されたラベルを維持する、ことを特徴とする。

また、本発明の他の一側面に係る画像処理装置によれば、前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、ことを特徴とする。

また、本発明の他の一側面に係る画像処理装置によれば、前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする。

また、本発明の一側面に係る画像処理方法は、２次元の入力画像をフレームごとに順次取得する画像取得ステップと、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行し、３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、を含むことを特徴とする。

また、本発明の一側面に係るプログラムは、２次元の入力画像をフレームごとに順次取得する画像取得手順と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行し、３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、をコンピュータに実行させることを特徴とする。

本発明の一実施形態に係る画像処理装置の構成を示す図である。本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。画像処理装置で行われる画像処理方法の一例を表す図である。ラベルの判定方法の一例を表すフロー図である。

以下、本発明の一実施形態である第１実施形態について図面に基づき詳細に説明する。なお、以下の説明では、オブジェクト種類認識技術の一例としてセマンティックセグメンテーション技術、３次元マップ形成技術の一例としてスラム技術が適用される場合について説明する。

図１は、本実施形態に係る画像処理装置１０の構成図である。本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、画像処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る画像処理装置１０には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、各ボクセルに対して、ボクセルと対応するピクセルのラベルが付された３次元マップが生成される。

以下、本実施形態に係る画像処理装置１０の機能、及び、画像処理装置１０で実行される処理についてさらに説明する。

図２は、本実施形態に係る画像処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１０で、図２に示す機能のすべてが実装される必要はなく、また、図２に示す機能以外の機能が実装されていても構わない。

図２に示すように、本実施形態に係る画像処理装置１０には、機能的には例えば、画像取得部２０２、深度情報取得部２０４、オブジェクト種類認識実行部２０６、ラベル付与部２０８、カウント記憶部２１０、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。本実施形態に係る画像処理装置１０は、各ピクセルにより表されたオブジェクトの種類を表すラベルが当該ピクセルに付された２次元画像を学習データとして、学習が実行済である機械学習モデルである。

画像取得部２０２は、２次元の入力画像をフレームごとに順次取得する。具体的には、例えば、画像取得部２０２は、一般的なビデオカメラで撮影された動画像に含まれる各フレームの静止画像を順次取得する。ここで、静止画像は、例えば赤、緑、及び、青の各色の階調情報を含む２次元画像である。また、入力画像を撮影するビデオカメラは、時間に応じて位置及び方向が変化する。従って、画像取得部２０２は、時間によって連続的に視点及び画角が変化しながら撮影された２次元画像を取得する。

深度情報取得部２０４は、画像取得部２０２が取得する入力画像のピクセル毎に対応する深度情報を取得する。具体的には、例えば、深度情報取得部２０４は、ビデオカメラのレンズ近傍に配置された測距センサである。深度情報取得部２０４は、画像取得部２０２が１フレームの入力画像を取得するごとに、各ピクセルに表されたオブジェクトとレンズの距離を測定することで、当該入力画像の各ピクセルに対応する深度情報を取得する。

なお、画像取得部２０２と深度情報取得部２０４は一体的に構成されてもよい。具体的には、例えば、２眼のビデオカメラを用いて入力画像が取得される場合、画像取得部２０２と深度情報取得部２０４は、赤、緑、及び、青の各色の階調情報とともに、各ピクセルの深度情報を含む２次元画像を取得できる。

オブジェクト種類認識実行部２０６は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、例えば、オブジェクト種類認識実行部２０６は、畳み込みニューラルネットワーク（ＣＮＮ）により実装された機械学習モデルである。オブジェクト種類認識実行部２０６は、画像取得部２０２が１フレームの入力画像を取得するたびに、入力画像に含まれる階調情報に基づいて、当該入力画像に対するセマンティックセグメンテーションを実行する。これにより、フレームごとに、取得された入力画像の各ピクセルに対して、該ピクセルにより表されたオブジェクトの種類を表すラベルが付される。

ラベル付与部２０８は、順次入力された入力画像に基づいて、入力画像に表された被写体の３次元位置認識を実行して３次元マップを作成し、３次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付す。具体的には、ラベル付与部２０８は、画像取得部２０２が順次取得した入力画像と、深度情報取得部２０４が順次取得した深度情報と、に基づいて、スラムを実行する。ラベル付与部２０８がスラムを実行する際、ＧＰＳ（図示なし）から取得した位置情報を用いて３次元位置認識を行ってもよい。

ここで、ラベル付与部２０８は、２次元画像に含まれる各ピクセルと、３次元マップに含まれるボクセルとを対応づけることによって、２次元画像に含まれる各ピクセルから３次元マップを作成する。また、２次元画像から３次元マップが構成される際に、ラベル付与部２０８には各ピクセルにラベルが付された２次元画像が入力されている。従って、ラベル付与部２０８は、３次元マップを作成する際に、３次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付すことができる。

ラベル付与部２０８は、複数のフレームにおいて判定されたラベルの種類に基づいて、ボクセルにラベルを付す。具体的には、例えば、ラベル付与部２０８は、複数のフレームにおいて、最も多く判定された種類のラベルをボクセルに付す。また、後述するように、ラベル付与部２０８は、カウントを用いて判定されたラベルをボクセルに付してもよい。

なお、オブジェクト種類認識実行部２０６とラベル付与部２０８は、取得された各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することが好ましい。本実施形態によれば、上記のように、３次元マップを構成する際に、同時にラベルを付すことができるため、プロセッサに係る負荷を軽減できる。従って、オブジェクト種類認識実行部２０６とラベル付与部２０８は、セマンティックセグメンテーションとスラムを同一のフレームで実行することができる。

カウント記憶部２１０は、ボクセルごとに、複数のフレームにおいて判定されたラベルの種類を記憶する。具体的には、例えば、カウント記憶部２１０は、各ボクセルについて、直近の３０フレームの間に判定されたラベルを記憶する。これにより、ラベル付与部２０８は、各ボクセルに対して、３０フレームの間で最も判定された回数の多いラベルを付すことができる。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

また、深度情報取得部２０４は省略されてもよい。具体的には、例えば、ラベル付与部２０８が深度情報を用いずに３次元マップを作成するビジュアルスラム(Visual SLAM)を実行する場合、ラベル付与部２０８は、カメラで撮影された２次元画像からカメラが撮影した環境の３次元情報とカメラの位置姿勢を同時に推定することができる。従って、ラベル付与部２０８は、深度情報を用いずに、順次取得される２次元画像のみを用いて３次元マップを作成できる。

本実施形態では例えば、一般的なビデオカメラで撮影される２次元画像に基づいて、ボクセル毎にラベルが付された３次元マップが生成される。以下、３次元マップの生成方法について図３を参照しながら説明する。

まず、画像取得部２０２によってフレームごとに順次取得された２次元の入力画像は、オブジェクト種類認識実行部２０６に入力される。具体的には、例えば、２眼のビデオカメラによって撮影された２次元の入力画像は、フレームごとに順次オブジェクト認識実行部に入力される。ここで、入力画像の各ピクセルは、赤、緑及び青を表す階調情報と、ビデオカメラからの距離を表す深度情報と、を含む。

オブジェクト種類認識実行部２０６は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、オブジェクト種類認識実行部２０６は、入力された２次元の入力画像の各ピクセルの階調情報に基づいて、該ピクセルにより表されたオブジェクトの種類を判定する。そして、オブジェクト種類認識実行部２０６は、入力画像の各ピクセルに対して、判定された種類を表すラベルを付す。例えば、オブジェクト種類認識実行部２０６は、あるピクセルが表すオブジェクトがテーブルであると判定した場合、当該ピクセルに対して「Ｔ」というラベルを付す。また、例えば、オブジェクト種類認識実行部２０６は、あるピクセルが表すオブジェクトが壁面であると判定した場合、当該ピクセルに対して「Ｗ」というラベルを付す。従って、オブジェクト種類認識実行部２０６が出力した画像の各ピクセルは、階調情報及び深度情報に加えて、ラベルを表す情報を含む。

次に、出力された画像は、フレームごとに順次ラベル付与部２０８に入力され、３次元マップが作成される。具体的には、上記のように、各ピクセルが階調情報、深度情報、及び、ラベルを表す情報を含む２次元の画像は、ラベル付与部２０８に入力される。ラベル付与部２０８は、順次入力された入力画像の階調情報及び深度情報に基づいて、入力画像に表された被写体の３次元位置認識を実行して３次元マップを作成する。ここで、３次元マップは、２次元の入力画像の各ピクセルと対応するボクセルによって構成されている。また、各ピクセルが階調情報及び深度情報に加えてラベルを表す情報を含むため、当該ラベルは、該ピクセルと対応する３次元マップのボクセルに対して付される。以上の方法により、各ボクセルに対してラベルが付された３次元マップを作成できる。

２次元の入力画像が順次入力される毎に、当該入力画像に含まれるピクセルと対応するボクセルが３次元マップの中に形成される。ここで、異なるフレームにおける入力画像の各ピクセルが３次元マップにおける同じ位置を表すピクセルであると認識された場合、当該ピクセルは同じボクセルに対応すると判定される。オブジェクト種類認識実行部２０６によるラベルの判定結果が常に正確であれば、同一のボクセルに対応する各ピクセルは同じラベルが付されるはずである。しかしながら、入力画像が撮影された角度や、オブジェクトに照射される光の反射具合等、様々な要因によって、オブジェクト種類認識実行部２０６によるラベルの判定結果には誤差が含まれる。このような場合において、高精度なラベルが付された３次元マップを作成するために、本実施形態に係るラベル付与部２０８で付されるラベルの判定方法の一例について図4を参照しながら説明する。なお、以下において、「new」、「old」及び「c」は、それぞれソースコードに含まれる変数である。

まず、２次元の入力画像がオブジェクト種類認識実行部２０６に入力される。ラベル付与部２０８は、作成中である３次元マップにおいて、対応するボクセルが存在するピクセルであるか判定する（Ｓ４０２）。なお、入力画像において、対象のピクセルには「new」というラベルが付されているものとする。

対応するボクセルが存在するピクセルでないと判定された場合、ラベル付与部２０８は、当該ピクセルと対応するボクセルを３次元マップ中に新たに作成する。そして、ラベル付与部２０８は、当該ピクセルに付されたラベルを新たに作成したボクセルに「new」というラベルを付する（Ｓ４０４）。また、当該ボクセルに対して、新たに付与したラベルと関連付けて１というカウントを付する。なお、カウントはカウント記憶部２１０に記憶される。新たなボクセルが作成された場合、当該ピクセルに関する当該フレームにおける処理は終了する。

一方、対応するボクセルが存在するピクセルであると判定された場合、Ｓ４０６のステップへすすむ。この時、当該既存のボクセルに対して付されたラベルは「old」であって、カウントは「c」であるとする。

次に、ラベル付与部２０８は、当該既存のボクセルの付された「old」と、新たに入力された入力画像の対応するピクセルに付された「new」というラベルが表すオブジェクトが同じであるか判定する（Ｓ４０６）。

ラベル付与部２０８は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントする（Ｓ４０８）。具体的には、「old」と「new」というラベルが表すオブジェクトが同じである場合、ラベル付与部２０８は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をインクリメントする。そして、当該ピクセルに関する当該フレームにおける処理は終了する。

一方、ラベル付与部２０８は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントする（Ｓ４１０）。具体的には、「old」と「new」というラベルが表すオブジェクトが異なる場合、ラベル付与部２０８は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をデクリメントする。

そして、ラベル付与部２０８は、当該ボクセルのカウントが０でない場合に前フレームに付されたラベルを維持する。すなわち、当該ボクセルに付されるラベルとして「old」が維持される（Ｓ４１２）。

一方、ラベル付与部２０８は、カウントが０である場合に、現フレームで判定されたラベルを付す。すなわち、当該ボクセルに付されるラベルとして「new」が付される（Ｓ４１４）。また、このとき、当該ボクセルに対して、新たに付与したラベルと関連付けて１というカウントが付される。

以上のようなフローで各ボクセルに付されるラベルが判定されることにより、オブジェクト種類認識実行部２０６があるフレームで誤ったラベルを付した場合であっても、前後のフレームで正しいラベルが付されていた場合、ラベル付与部２０８は、各ボクセルに対して正しいラベルを付すことができる。

作成された３次元マップは、各ボクセルに、当該ボクセルにより表されたオブジェクトの種類を表すラベルが付されたボクセルの集合である。これにより、同じ種類のラベルが付されたボクセルの集合ごとに、異なる処理を行うことができる。具体的には、例えば、作成された３次元マップは、拡張現実（ＡＲ：Augmented Reality）技術に適用することができる。テーブル、テレビ、ソファ等が配置された部屋の内部の３次元マップを作成した場合、ユーザは、現実世界の部屋にいながら、現実世界の部屋が反映された仮想空間を体験できる。そして、ユーザが特定のラベルと対応する現実世界の対象物に対して何らかの挙動を行った場合、仮想空間において、当該ラベルが付されたボクセルの集合に対してのみ異なる処理を行うことができる。例えば、現実世界において、ユーザがテーブルの一部に触れる、テレビのある個所にボールをぶつける、等の挙動を行った場合、仮想空間において、テーブル全体のデザインを変更する、テレビの電源をＯＮにする、等の同じラベルが付されたボクセルの集合ごとに異なる処理を行うことができる。

なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。例えば、上記のように、付されるラベルはカウントによって判定されず、複数のフレームにおいて、最も多く判定された種類のラベルが付されてもよい。

Claims

２次元の入力画像をフレームごとに順次取得する画像取得部と、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行して３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、
を含み、
前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理装置。
前記ラベル付与部は、各ボクセルに対して、
前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、
前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、
カウントが０である場合に、現フレームで判定されたラベルを付し、
カウントが０でない場合に、前フレームに付されたラベルを維持する、
ことを特徴とする請求項１に記載の画像処理装置。
前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、
前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、
ことを特徴とする請求項１に記載の画像処理装置。
前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする請求項１から３のいずれかに記載の画像処理装置。
２次元の入力画像をフレームごとに順次取得する画像取得ステップと、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行し、３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、
を含み、
前記ラベル付与ステップにおいて、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理方法。
２次元の入力画像をフレームごとに順次取得する画像取得手順と、
フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、
順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の３次元位置認識を実行し、３次元マップを作成し、前記３次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、
をコンピュータに実行させるプログラムであって、
前記ラベル付与手順において、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とするプログラム。