JP7071054B2

JP7071054B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7071054B2
Application number: JP2017008219A
Authority: JP
Inventors: 貴之山田; 昭宏片山; 一彦小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2022-05-18
Anticipated expiration: 2037-01-20
Also published as: US20180211138A1; US10997465B2; JP2018116599A

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

従来、対象物体を撮像した画像やデプス画像（距離画像）から、対象物体の特徴やパターンを学習し、対象物体を認識する手法がある。ここで、対象物体の認識能力を向上させるためには、対象物体を様々な向きや大きさで撮像し、各撮像画像に対して認識に適したラベルを教師信号として与えた学習データが必要である。例えば、対象物体の中心位置を認識するためには、対象物体を様々な位置姿勢から撮像し、各画像中の対象物体の中心位置を与えなければならない。このように、学習データの生成には大きな手間がかかる。

そこで、学習データの収集に関連する技術として、仮想的に見えのバリエーションを増やす方法が提案されている。特許文献１には、撮像した画像に拡大縮小や回転などの画像処理を加えることでバリエーションを増やす方法が開示されている。また、非特許文献１には、ＣＧ（コンピュータグラフィックス）を用いて仮想的な撮像画像を作成する方法が開示されている。

特開２０１２－８８７８７号公報

土屋成光、外２名、「人検出のための生成型学習とNegative-Bag MILBoostによる学習の効率化」、画像の認識・理解シンポジウム（ＭＩＲＵ２０１２）、２０１２年８月

しかしながら、画像処理によって仮想的に見えのバリエーションを増やす方法では、画像処理を加える元となる学習データや、追加学習用の学習データが必要となるため、実物の画像から学習データを生成する必要がある。また、ＣＧを利用して仮想的な撮像画像を作成する方法では、認識精度を上げるためには、対象物体の精緻なモデルデータが必要である。また、光源等を実際の撮像環境に合わせるには仮想環境の調整を十分に行う必要もある。
そこで、本発明は、対象物体の認識用途に応じた学習データを容易に生成することを目的としている。

上記課題を解決するために、本発明に係る情報処理装置の一態様は、所定の入力手段によって入力された、対象物体の表面における注目位置の３次元座標を取得する第一の取得手段と、前記注目位置を含むように前記対象物体を撮像するための、複数の異なる撮像位置を決定する決定手段と、前記決定手段により決定された撮像位置に、撮像装置を備えるマニピュレータを移動させて前記対象物体が前記撮像装置により撮像された画像を取得する第二の取得手段と、前記第一の取得手段により取得された注目位置の３次元座標が、前記注目位置を取得した座標系から前記画像の２次元座標系に変換され、変換された座標に基づく前記注目位置を示す情報が、前記第二の取得手段により取得された画像に対応付けられた学習データを生成する生成手段と、を備え、前記学習データは、前記対象物体を撮像した入力画像から該入力画像に含まれる前記対象物体の前記注目位置を出力するモデルを学習するためのデータであることを特徴とする。

本発明によれば、対象物体の認識用途に応じた学習データを容易に生成することができる。

第一の実施形態における物体認識装置の構成を示す図である。情報処理装置のハードウェア構成の一例である。情報処理装置による処理を示すフローチャートである。学習情報の入力画面の一例である。撮像位置姿勢の指示画面の一例である。第二の実施形態における物体認識装置の構成を示す図である。第二の実施形態の情報処理装置による処理を示すフローチャートである。第三の実施形態における物体認識装置の構成を示す図である。第三の実施形態の情報処理装置による処理を示すフローチャートである。

以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
（第一の実施形態）
図１は、本実施形態における情報処理装置１００を備える物体認識装置１０００の構成例を示す図である。情報処理装置１００は、認識対象となる対象物体を複数の撮像位置姿勢から撮像した画像に基づいて、学習データ（ラベルを付与した画像）を生成する。物体認識装置１０００は、情報処理装置１００により生成された学習データを用いてモデルを機械学習し、学習したモデルを用いて画像中の対象物体を認識する。

本実施形態では、物体認識装置１０００は、ディープラーニングの一種であるＣＮＮ（Convolutional Neural Network）によってモデルを学習する。そして、物体認識装置１０００は、学習したＣＮＮモデルを用いて、画像中の物体を認識する。また、本実施形態では、情報処理装置１００は、画像に対応付けられた学習情報を取得し、取得した学習情報をもとに学習データを生成することで、対象物体の認識用途に応じた学習データを生成する。

ここで、上記画像は、ＲＧＢのカラー画像、デプス画像（距離画像）およびモノクロ画像のうち少なくとも１つを含む。また、学習情報は、対象物体に関する、学習データの生成に必要となる情報であり、対象物体の認識用途に関連する情報である。具体的には、学習情報は、対象物体が有する学習に必要な属性情報であり、対象物体の位置、向きあるいは種類のうち少なくとも１つを含む。学習情報のうち、幾何情報は３次元情報であり、２次元情報として画像に対応付けられる。また、学習データは、学習に用いる画像とラベルとの組である。ラベルは、学習に用いる教師信号であり、画像の分類を表す符号である。

（装置の構成）
図１は、本実施形態における情報処理装置１００を備える物体認識装置１０００の構成を示す図である。物体認識装置１０００は、情報処理装置１００と、学習装置２００と、認識装置３００と、マニピュレータ４００と、撮像装置５００と、を備える。
情報処理装置１００は、マニピュレータ４００に対して制御値を出力し、マニピュレータ４００を制御する。マニピュレータ４００は、対象物体を任意の位置姿勢から撮像するために、撮像装置５００を移動可能に構成されている。マニピュレータ４００は、例えば、６軸ロボットにより構成することができ、ロボットのエンドエフェクタ付近に装着された撮像装置５００を移動させることができる。

また、情報処理装置１００は、撮像装置５００に対して撮像トリガーを出力し、撮像トリガーを受け取った撮像装置５００が撮像した画像を取得する。情報処理装置１００は、撮像装置５００から取得した画像を学習データの生成に用いる。撮像装置５００は、対象物体のカラー画像およびデプス画像を撮像する装置（カメラ）とすることができる。撮像装置５００は、情報処理装置１００からの撮像トリガーを受け取ったタイミングで撮像を行い、情報処理装置１００に画像信号を送信する。また、撮像装置５００は、後述する認識装置３００からの撮像トリガーを受け取ったタイミングでも撮像を行い、認識装置３００に画像信号を送信する。

学習装置２００は、情報処理装置１００により生成された学習データを用いて、ＣＮＮモデルを学習し、保存する。認識装置３００は、撮像装置５００に対して撮像トリガーを出力し、撮像トリガーを受け取った撮像装置５００が撮像した画像を取得する。認識装置３００は、撮像装置５００から取得した画像を対象物体の認識処理に用いる。認識装置３００は、学習装置２００が保存したＣＮＮモデルと、撮像装置５００から取得した画像とを用いて、画像中の対象物体を認識する。

情報処理装置１００は、学習情報取得部１０１と、撮像位置姿勢生成部１０２と、制御部１０３と、画像取得部１０４と、学習データ生成部１０５と、学習データ蓄積部１０６と、を備える。
学習情報取得部１０１は、ユーザが入力した学習情報を取得し、撮像位置姿勢生成部１０２および学習データ生成部１０５に出力する。本実施形態では、学習情報が、対象物体中の学習したい位置および許容するズレの距離に関する情報である場合について説明する。ここで、上記の学習したい位置は、対象物体中の中心位置であり、学習情報取得部１０１は、学習情報として３次元位置情報（３次元中心位置）を取得する。撮像位置姿勢生成部１０２は、学習情報取得部１０１から入力された学習情報に基づいて、６自由度の撮像位置姿勢を生成し、制御部１０３および学習データ生成部１０５に出力する。

制御部１０３は、撮像位置姿勢生成部１０２から入力された撮像位置姿勢に撮像装置５００を移動するようマニピュレータ４００に対して制御値を出力し、マニピュレータ４００を制御する。そして、撮像装置５００が指示された撮像位置姿勢に移動したら、制御部１０３は、撮像装置５００に対して撮像トリガーを出力する。画像取得部１０４は、撮像装置５００から画像を取得し、取得した画像を学習データ生成部１０５に出力する。

学習データ生成部１０５は、撮像位置姿勢生成部１０２から入力された撮像位置姿勢に基づいて、画像取得部１０４から入力された画像に、学習情報取得部１０１から入力された学習情報を対応付ける。このとき、学習データ生成部１０５は、学習情報として取得した３次元中心位置を２次元点に変換して画像と対応付ける。そして、学習データ生成部１０５は、画像と当該画像に対応付けられた学習情報（２次元点および距離）とに基づいて学習データを生成し、生成した学習データを学習データ蓄積部１０６に出力する。学習データ蓄積部１０６は、学習データ生成部１０５から入力された学習データを保存する。学習データ蓄積部１０６は、メモリなどの記憶媒体に学習データを保存する。
なお、本実施形態では、情報処理装置１００と、学習装置２００と、認識装置３００とが別々の装置である場合について説明するが、情報処理装置１００が学習装置２００および認識装置３００の機能を有していてもよい。

図２は、情報処理装置１００のハードウェア構成の一例を示す図である。
情報処理装置１００は、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、外部メモリ１４と、表示部１５と、入力部１６と、通信Ｉ／Ｆ１７と、システムバス１８とを備える。
ＣＰＵ１１は、情報処理装置１００における動作を統括的に制御するものであり、システムバス１８を介して、各構成部（１２～１７）を制御する。ＲＯＭ１２は、ＣＰＵ１１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、外部メモリ１４や着脱可能な記憶媒体（不図示）に記憶されていてもよい。ＲＡＭ１３は、ＣＰＵ１１の主メモリ、ワークエリア等として機能する。つまり、ＣＰＵ１１は、処理の実行に際してＲＯＭ１２から必要なプログラム等をＲＡＭ１３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
外部メモリ１４は、ＣＰＵ１１がプログラムを用いた処理を行う際に必要な各種データや各種情報を記憶することができる。また、外部メモリ１４は、ＣＰＵ１１がプログラムを用いた処理を行うことにより得られる各種データや各種情報等を記憶することができる。外部メモリ１４は、上記の学習データを保存してもよい。

表示部１５は、液晶ディスプレイ（ＬＣＤ）等のモニタにより構成される。入力部１６は、キーボードやマウス等のポインティングデバイスにより構成され、情報処理装置１００のユーザが情報処理装置１００に対して指示を与えることができるように構成される。通信Ｉ／Ｆ１７は、外部装置（本実施形態では、学習装置２００、マニピュレータ４００、撮像装置５００）と通信するためのインタフェースである。通信Ｉ／Ｆ１７は、例えばＬＡＮインタフェースとすることができる。システムバス１８は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、外部メモリ１４、表示部１５、入力部１６および通信Ｉ／Ｆ１７を通信可能に接続する。
図１に示す情報処理装置１００の各部の機能は、ＣＰＵ１１がプログラムを実行することで実現することができる。ただし、図１に示す情報処理装置１００の各部のうち少なくとも一部が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、ＣＰＵ１１の制御に基づいて動作する。

（認識処理）
以下、物体認識装置１０００の動作について、図３（ａ）を参照しながら説明する。以降、アルファベットＳはフローチャートにおけるステップを意味するものとする。
まずＳ１において、情報処理装置１００は、学習データを生成し保存する。学習データ生成処理の詳細については後述する。情報処理装置１００が学習データを生成し終えたら、Ｓ２に移行する。Ｓ２では、学習装置２００は、情報処理装置１００によって保存された学習データを用いてＣＮＮモデルの学習を行い、ＣＮＮモデルを保存する。
Ｓ３では、認識装置３００は、撮像装置５００から画像を取得し、学習装置２００に保存されたＣＮＮモデルを用いて画像中の対象物体を認識する。具体的には、認識装置３００は、画像から対象物体の中心位置を認識する。そして、認識装置３００は、認識結果を出力し、処理を終了する。認識結果は、例えば、エンドエフェクタに吸着装置を装着したロボットにおける、物体の吸着位置として使用することができる。

（学習データ生成処理）
図３（ｂ）は、図３（ａ）のＳ１において情報処理装置１００が実行する学習データ生成処理の手順を示すフローチャートである。情報処理装置１００は、ＣＰＵ１１が必要なプログラムを読み出して実行することにより、図３（ｂ）に示す処理を実現することができる。ただし、上述したように、図１に示す情報処理装置１００の各要素のうち少なくとも一部が専用のハードウェアとして動作することで図３（ｂ）の処理が実現されるようにしてもよい。この場合、専用のハードウェアは、情報処理装置１００のＣＰＵ１１の制御に基づいて動作する。

Ｓ１１では、学習情報取得部１０１は、ユーザが入力した学習情報を取得する。学習情報は、学習データの生成に必要となる対象物体に関する情報であり、学習したい項目を示す情報である。学習情報のうち、幾何情報は３次元情報を取得する。上述したように、本実施形態において、認識処理は、画像から対象物体の中心位置を認識する処理であり、学習情報は、対象物体の中心位置と、許容するズレの距離とに関する情報である。ユーザは、画像中の点や範囲を指定することで学習情報を入力してもよいし、数値により学習情報を入力してもよい。

本実施形態では、ユーザが情報処理装置１００の入力部１６を操作し、撮像装置５００により事前に撮像された画像に対して、対象物体の中心位置（点）と許容するズレの距離（範囲）とを指定する場合について説明する。学習情報取得部１０１は、ロボット座標系における中心位置と許容するズレの距離との３次元情報を学習情報として取得し、取得した学習情報を撮像位置姿勢生成部１０２および学習データ生成部１０５に出力してＳ１２に移行する。

以下、学習情報の入力方法について具体的に説明する。図４は、学習情報の入力画面２０を示す図である。入力画面２０は、情報処理装置１００の表示部１５に表示されて、ユーザに提示される。
入力画面２０は、撮像装置５００により撮像された画像を表示する画像表示部２１と、入力する学習情報の種類を指定する指定部２２と、入力終了を指示するための決定ボタン２３と、を備える。ここで、学習情報の種類は、対象物体の位置、姿勢、大きさ、種類、向き、許容するズレの距離などを含む。ユーザは、マウス等の入力部１６を操作し、ボタン操作や入力を行うことができる。

まず、ユーザは、プルダウン表示される指定部２２のリスト中から学習情報の種類を選択する。次にユーザは、画像表示部２１に表示された画像上において、指定部２２で選択した学習情報の種類に対応する入力（マウスクリックやマウスドラッグ）を行う。例えば、対象物体の中心位置を指定する場合、ユーザは、指定部２２から「位置」を選択した後、画像表示部２１の画像上の点２４を指定する。また、対象物体の中心位置の許容するズレの距離を指定する場合、ユーザは、指定部２２から「許容するズレの距離」を選択した後、画像表示部２１の画像上の範囲２５を指定する。そして、ユーザは、必要な入力を終えたら決定ボタン２３を押す。

すると、ユーザが入力画面２０を用いて入力した学習情報に関する情報がロボット座標系における３次元情報に変換され、学習情報取得部１０１に出力される。具体的には、まず、ユーザが入力した画像上の中心位置および許容するズレに関する情報が、デプス画像を用いてカメラ座標系における中心位置および許容するズレに関する３次元情報に変換される。次に、以下の（１）式および（２）式により、カメラ座標系における位置がロボット座標系における位置に変換され、学習情報取得部１０１に出力される。
Ｈ＝Ｐ・Ｃ ………（１）

ここで、上記（１）式は、撮像位置姿勢、ロボットの位置姿勢、撮像装置５００の取り付け位置姿勢の関係式である。Ｈは、ロボット座標系における撮像位置姿勢、Ｐは、ロボット座標系におけるエンドエフェクタの位置姿勢、Ｃは、エンドエフェクタに対する撮像装置５００の位置姿勢を表す行列である。なお、行列Ｃは、事前にキャリブレーションを行い計算しておく。また、上記（２）式は、カメラ座標系からロボット座標系への変換式であり、ｘ、ｙおよびｚは、ロボット座標系における位置、ｘ´、ｙ´およびｚ´は、カメラ座標系における位置を表している。
図３（ｂ）に戻って、Ｓ１２では、撮像位置姿勢生成部１０２は、Ｓ１１において取得された学習情報に基づいて撮像位置姿勢を生成する。対象物体の認識処理における認識能力を向上させるためには、バリエーションに富んだ学習データが必要である。このような学習データの生成には、異なる複数の位置姿勢から対象物体を撮像した画像が必要である。また、必要なバリエーションは、学習対象や認識用途によって異なる。

そこで、本実施形態では、撮像位置姿勢生成部１０２は、学習情報に基づいて、学習データ生成のための画像を撮像する位置姿勢を生成する。例えば、撮像位置姿勢生成部１０２は、対象物体の中心位置を中心とした半球状に位置し、対象物体の中心付近を注視点とする撮像位置姿勢をランダムに生成する。このＳ１２では、撮像位置姿勢生成部１０２は、撮像位置姿勢として１視点を生成し、生成した撮像位置姿勢を制御部１０３および学習データ生成部１０５に出力する。
Ｓ１３では、制御部１０３は、Ｓ１２において撮像位置姿勢生成部１０２により生成された撮像位置姿勢に撮像装置５００を移動するように、上記（１）式を用いてマニピュレータ４００を制御する。Ｓ１４では、制御部１０３は、撮像装置５００に対して撮像トリガーを出力し、画像取得部１０４は、撮像装置５００から画像を取得する。そして、画像取得部１０４は、取得した画像を学習データ生成部１０５に出力する。

Ｓ１５では、学習データ生成部１０５は、Ｓ１１において学習情報取得部により取得された学習情報と、Ｓ１４において画像取得部１０４により取得された画像との対応付けを行い、学習データを生成する。そして、学習データ生成部１０５は、生成した学習データを学習データ蓄積部１０６に出力する。以下、学習データの生成方法について具体的に説明する。
図３（ｃ）は、図３（ｂ）のＳ１５において学習データ生成部１０５が実行する学習データ生成処理の手順を示すフローチャートである。

まずＳ１５１において、学習データ生成部１０５は、Ｓ１２において生成された撮像位置姿勢をもとに、Ｓ１１において取得された学習情報を、Ｓ１４において取得された画像に対応付ける。ここで、Ｓ１１において取得された学習情報は、ロボット座標系における位置情報である。そこで、学習データ生成部１０５は、例えば以下の式を用いて、ロボット座標系における対象物体の３次元中心位置を、画像に投影した２次元点に変換する。

ここで、ｘ、ｙおよびｚは、ロボット座標系における対象物体の中心位置、ｘ´、ｙ´およびｚ´は、カメラ座標系における対象物体の中心位置、Ｈは、ロボット座標系における撮像位置姿勢である。また、ｆ_xおよびｆ_yはカメラの焦点距離、ｃ_xおよびｃ_yはカメラの主点位置、ｕおよびｖは、画像中の対象物体の中心位置を表している。同様に、許容するズレの距離を画像中の距離に変換する。これにより、学習情報が画像に対して幾何的に投影され、学習情報が画像に対応付けられる。このとき画像に対応付けられる学習情報は、２次元点および画像距離である。

つまり、このＳ１５１では、学習データ生成部１０５は、Ｓ１１においてカメラ座標系からロボット座標系に変換された学習情報を、撮像位置姿勢を用いてロボット座標系からカメラ座標系に変換し、さらにカメラ座標系から画像座標系に変換している。このように、カメラ座標系において一度だけ学習情報を与え、その学習情報にロボット座標系での撮像位置姿勢を反映することで、複数の撮像画像それぞれについて容易にカメラ座標系における学習情報を生成することができる。もちろん学習情報を与えるのは一度だけに限らず、複数の撮像画像に対して複数回であってもよい。

Ｓ１５２では、学習データ生成部１０５は、Ｓ１４において取得された画像と、当該画像に対応付けられた学習情報（２次元点および画像距離）とに基づき、ＣＮＮモデルの学習に用いる画像を切り出す。例えば、Ｓ１４において取得された画像中の対象物体の中心位置からランダムにずらした位置を中心として画像を切り出す。
Ｓ１５３では、学習データ生成部１０５は、Ｓ１５２において切り出された画像にラベルを付与する。ラベルとは、学習時に与える教師信号であり、画像の分類を表す符号である。本実施形態においては、対象物体の中心位置を認識するために、対象物体の中心を表す画像に正解ラベルを、中心を表していない画像に不正解ラベルを付与する。

具体的には、学習データ生成部１０５は、画像に対応付けられた学習情報に基づいてラベルを生成する。例えば、切り出した画像の中心位置と画像中の対象物体の中心位置とのズレが許容するズレの距離以下であれば正解ラベル、それ以外は不正解ラベルとすることができる。これにより、学習時に必要な学習データ（画像＋ラベル）が生成される。なお、ラベルは正解、不正解に限らない。例えば、画像中の対象物体の中心位置をそのままラベルとしてもよい。

図３（ｂ）に戻って、Ｓ１６では、学習データ蓄積部１０６は、Ｓ１５において生成された学習データを保存する。Ｓ１７では、情報処理装置１００は、学習データを生成するための画像の撮像を終了するか否かを判定する。具体的には、情報処理装置１００は、学習データが十分に蓄積されたか否かを判定する。例えば、学習データ生成部１０５がある一定数以上の学習データを生成したか否かによって判定してもよいし、隣接する撮像位置の距離が一定値以下となるように、撮像密度を元に判定してもよい。

そして、情報処理装置１００は、学習データが十分に蓄積されたと判定した場合には処理を終了する。一方、情報処理装置１００は、学習データが十分に蓄積されていないと判定した場合にはＳ１２に戻る。つまり、Ｓ１２において異なる１視点を生成した後、再度Ｓ１３からＳ１７までの処理を実行する。なお、本実施形態では、Ｓ１２において１視点を生成する場合について説明したが、複数視点を生成してもよい。

以上説明したように、本実施形態における情報処理装置１００は、認識対象となる対象物体に関する、学習データの生成に必要な学習情報を取得し、取得した学習情報に基づいて、対象物体を撮像する撮像位置姿勢を決定する。また、情報処理装置１００は、学習情報に基づいて決定された撮像位置姿勢となるように、マニピュレータ４００を制御して撮像装置５００を移動し、撮像装置５００に撮像を指示する。そして、情報処理装置１００は、上記撮像位置姿勢にて対象物体が撮像された画像を取得し、取得された画像と学習情報とに基づいて学習データを生成する。

これにより、認識用途に応じた学習データを効率的に生成することができる。例えば、学習情報として対象物体の中心位置に関する情報を取得した場合、対象物体の中心位置を認識する用途において必要なバリエーションの学習データを適切に生成することができる。また、学習データの生成に用いる画像の撮像および学習データの生成は自動で行われるため、ユーザの学習データを生成する手間を低減することができる。したがって、用途に応じた認識器を低コストで実現することができる。

また、上記学習情報は対象物体の幾何情報を含み、情報処理装置１００は、撮像位置姿勢に基づいて学習情報を画像に幾何的に投影することで、画像と学習情報とを対応付け、画像と当該画像に投影された学習情報とに基づいて学習データを生成する。これにより、一度だけ学習情報を与えるだけで、情報処理装置１００は、その学習情報に撮像位置姿勢を反映し、各撮像位置姿勢にて撮像された画像それぞれに容易に学習情報を対応付けることができる。ここで、学習情報のうち幾何情報は３次元情報として取得することで、２次元情報として適切に画像に対応付けることができる。

さらに、情報処理装置１００は、ユーザが指定した学習情報を取得するので、ユーザが意図した認識器を適切に実現することができる。また、ユーザは、図４に示すような入力画面２０を操作して学習情報を入力することができる。つまり、ユーザは、対象物体を撮像した画像上で点や範囲を指定することで学習情報を入力することができ、学習情報の入力が容易である。また、情報処理装置１００は、ユーザが画像上で指定した学習情報を、デプス画像を用いて３次元情報として容易に取得することができる。
このように、本実施形態では、学習情報に基づいた学習データを自動で大量に生成することができるので、認識用途に合ったＣＮＮモデルの学習の手間を低減することができる。

（第一の実施形態の変形例１）
本実施形態においては、学習情報として対象物体の中心位置と許容するズレの距離とを用いる場合について説明したが、学習情報は上記に限定されない。例えば、対象物体の中心位置ではなく、対象物体の特定位置を学習情報として取得してもよい。この場合、対象物体中の特定位置（特定部位）を認識するＣＮＮモデルを構築することができる。
また別の例として、対象物体の向きを認識したい場合は、対象物体の基準となる方向を学習情報として取得してもよい。学習情報として方向を取得した場合、図３（ｂ）のＳ１５（図３（ｃ）のＳ１５１）では、画像と画像中の対象物体の角度とが対応付けられる。そして、その角度からラベル（例えば、８方向のいずれに近いかの分類）を生成することができる。さらに別の例として、対象物体の種類を表す符号を学習情報として取得してもよい。その符号をラベルに使用することで、画像中にどの種類の物体が映っているのかを学習することができる。

（第一の実施形態の変形例２）
本実施形態においては、ユーザがマウス等を用いて画像上の点や範囲を指定することで学習情報を入力し、学習情報取得部１０１がこれを取得する場合について説明したが、学習情報の取得方法は上記に限定されない。ユーザは、直接数値を入力することで画像上の点や範囲を指定してもよい。また、学習情報取得部１０１は、マニピュレータ４００のエンドエフェクタを対象物体に接触させた際のエンドエフェクタの位置姿勢を学習情報として取得してもよい。
さらに、対象物体を撮像した画像を解析し、学習情報を取得してもよい。例えば、対象物体の中心位置を学習情報として取得する場合、画像解析により画像中の対象物体の領域を抽出した上で領域中心を取得してもよい。また、画像特徴量（例えば、色情報）から学習情報とする位置を決定してもよい。これにより、ユーザが学習情報を設定する手間を低減することができる。

（第一の実施形態の変形例３）
本実施形態においては、撮像位置姿勢生成部１０２は、撮像位置姿勢を、学習情報である対象物体の中心位置を中心とした半球状にランダムに配置したが、撮像位置姿勢の生成方法は上記に限定されない。例えば、対象物体の回転を認識する学習モデルを構築する場合、ある撮像位置から対象物体の中心位置を注視した状態で、対象物体を所定の軸回りに回転させて複数の撮像位置姿勢を生成してもよい。また、周囲環境との衝突回避や、ロボットの可動範囲を考慮して撮像位置姿勢の範囲を調整してもよい。これにより、識別の目的を重視した学習データを効率良く生成することができる。

（第一の実施形態の変形例４）
本実施形態においては、撮像位置姿勢生成部１０２は、学習情報のみに基づいて撮像位置姿勢を生成する場合について説明したが、撮像位置姿勢の生成方法は上記に限定されない。例えば、学習情報に加え対象物体を撮像した画像を用いてもよい。具体的には、画像から対象物体の形状を計測し、対象物体が左右対称型であれば片側のみの撮像位置姿勢を生成したり、複雑な部分ほど密に撮像位置姿勢を生成したりしてもよい。対象物体の形状に応じた撮像位置姿勢を生成することで、効率的に学習データを生成することができる。

また、撮像位置姿勢生成部１０２は、ユーザが指定した撮像位置姿勢の範囲内で撮像位置姿勢を決定してもよい。例えば、対象物体の認識時に写り得る見えが事前に分かっている場合、ユーザはその範囲に限定して撮像位置姿勢を指示してもよい。これにより、学習精度の向上が期待できる。以下、図５を用いてユーザによる撮像位置姿勢の指示方法について説明する。
図５は、撮像位置姿勢の指示画面３０を示す図である。指示画面３０は、情報処理装置１００の表示部１５に表示されて、ユーザに提示される。指示画面３０は、仮想的な撮像画像を表示する画像表示部３１と、入力する撮像装置５００の動きを指定する指定部３２と、を備える。さらに、指示画面３０は、撮像装置５００の動きの上限値を指定するための上限ボタン３３と、撮像装置５００の動きの下限値を指定するための下限ボタン３４と、入力終了を指示するための決定ボタン３５と、を備える。ここで、撮像装置５００の動きは、ヨーイング、ローリング、ピッチング、平行移動などを含む。ユーザは、マウスやキーボード等の入力部１６を操作し、ボタン操作や入力を行うことができる。

まず、ユーザは、プルダウン表示される指定部３２のリスト中から撮像装置５００の動きを選択する。このとき、ユーザが画像表示部３１に表示された画像上において仮想的な撮像装置５００の移動を指示（例えば、マウスドラッグ）すると、画像表示部３１において仮想的な対象物体の見えがユーザに提示される。ユーザは、画像表示部３１の画像上において撮像装置５００の移動を指示し、撮像装置５００の動きの上限に相当する見えが得られた位置で上限ボタン３３を押し、撮像装置５００の動きの上限値を決定する。同様に、ユーザは、画像表示部３１の画像上において撮像装置５００の移動を指示し、撮像装置５００の動きの下限に相当する見えが得られた位置で下限ボタン３４を押し、撮像装置５００の動きの下限値を決定する。このようにして、撮像位置姿勢の範囲を決定する。そして、ユーザは、必要な入力を終えたら決定ボタン３５を押す。
このように、ユーザは、画像表示部３１に表示される画像を操作して、学習において重要な対象物体の写り方（見え方）を確認しながら、撮像位置姿勢の範囲を適切に指定することができる。なお、撮像装置５００の動きの上限値および下限値は、ユーザが直接数値（角度など）を入力することで指定してもよい。

（第一の実施形態の変形例５）
本実施形態においては、撮像位置姿勢生成部１０２は、撮像装置５００の撮像位置姿勢のみを生成する場合について説明したが、その他の装置の状態も併せて生成してもよい。例えば、エンドエフェクタ付近に照明装置を取り付けた場合、制御部１０３が、対象物体の撮像時における照明の状態（照明のオン、オフや強弱の状態）を制御してもよい。また、照明装置を取り付けたロボットが別途存在する場合、撮像位置姿勢生成部１０２は、ロボットに取り付けた照明装置の位置姿勢も生成し、制御部１０３は、撮像装置５００を取り付けたロボットと照明装置を取り付けたロボットとを制御してもよい。これにより、照明の影響を受けやすい対象物体の認識の頑健性を向上することができる。

（第一の実施形態の変形例６）
本実施形態においては、マニピュレータ４００が撮像装置５００を移動する場合について説明したが、撮像装置５００を移動せずに、対象物体を移動してもよい。例えば、エンドエフェクタに吸着装置を取り付けたロボットにおいて、対象物体を吸着して動かすことで、様々な位置姿勢の対象物体を据え置きのカメラで撮像してもよい。これにより、ロボットが吸着している状態の物体の認識器が実現できる。

（第一の実施形態の変形例７）
本実施形態においては、撮像された画像から学習情報をもとに切り出した画像を学習データに使用したが、上記に限定されない。例えば、画像の切り出しを行わず、撮像された画像そのものを学習に用いる画像として学習データを生成してもよいし、見えのバリエーションを増やすために、拡大縮小または回転といった幾何変換、あるいはノイズの付与または明るさ（輝度値）や色の変更といった画像処理を行った画像に基づいて学習データを生成してもよい。また、１枚の撮像された画像から複数箇所を切り出し、それぞれを学習データに使用してもよい。この場合、１枚の撮像画像から複数の学習データを生成できるので、学習データの生成に用いる画像を撮像する時間を低減することができる。

（第二の実施形態）
次に、本発明の第二の実施形態について説明する。
上述した第一の実施形態では、対象物体を複数の撮像位置姿勢から撮像した画像を取得し、取得したすべての画像を学習データの生成に使用する場合について説明した。この第二の実施形態では、学習データの生成に使用するデータを限定する場合について説明する。
（装置の構成）
図６は、本実施形態における物体認識装置１０００Ａの構成を示すブロック図である。この図６において、図１と同様の構成を有する部分には図１と同一符号を付し、以下、構成の異なる部分を中心に説明する。
物体認識装置１０００Ａは、情報処理装置１００Ａを備える。情報処理装置１００Ａは、図１に示す情報処理装置１００に、データセット蓄積部１０７とデータセット抽出部１０８とが追加されていることを除いては、図１に示す情報処理装置１００と同様の構成を有する。

データセット蓄積部１０７は、撮像装置５００により撮像され、画像取得部１０４によって取得された画像と、撮像位置姿勢生成部１０２により生成された撮像位置姿勢と、学習情報取得部１０１により取得された学習情報とを入力する。そして、データセット蓄積部１０７は、入力された画像と、撮像位置姿勢と、学習情報とを組にしたデータセットを生成し、保存する。
データセット抽出部１０８は、データセット蓄積部１０７により蓄積されたデータセットから、撮像位置姿勢および学習情報の少なくとも一方をキーとして必要なデータセットを抽出する。データセット抽出部１０８は、抽出したデータセットを学習データ生成部１０５に出力する。学習データ生成部１０５は、データセット抽出部１０８により抽出されたデータセットを学習データの生成に用いる。

（認識処理）
本実施形態の物体認識装置１０００Ａによる認識処理の流れは、上述した第一の実施形態の認識処理（図３（ａ））と同様である。ただし、Ｓ１における学習データ生成処理の手順が異なる。
図７は、図３（ａ）のＳ１において情報処理装置１００Ａが実行する学習データ生成処理の手順を示すフローチャートである。この図７の処理は、図３（ｂ）のＳ１４の後にＳ１８～Ｓ２０の処理が追加され、Ｓ１７の処理が削除されていることを除いては、図３（ｂ）の処理と同様である。したがって、図３（ｂ）と同一処理を実行する部分には図３（ｂ）と同一ステップ番号を付し、以下、処理の異なる部分を中心に説明する。

Ｓ１８では、データセット蓄積部１０７は、学習情報取得部１０１、撮像位置姿勢生成部１０２および画像取得部１０４から、それぞれ学習情報、撮像位置姿勢および画像を受け取り、これらを組にしてデータセットとして保存する。Ｓ１９では、情報処理装置１００は、学習データを生成するための画像の撮像を終了するか否かを判定する。このＳ１９の処理は、図３（ｂ）のＳ１７の処理と同様である。
Ｓ２０では、データセット抽出部１０８は、ユーザからキーとなる学習情報および撮像位置姿勢のうち少なくとも一方を受け取り、データセット蓄積部１０７により蓄積されたデータセットから該当するデータセットを抽出する。キーとなる学習情報は、学習情報取得部１０１により取得した学習情報であってもよいし、撮像画像５００により撮像された画像に対応付けられた（幾何的に投影された）学習情報であってもよい。画像と対応付けられた学習情報を用いた場合、より目的にあったデータ抽出が可能である。

例えば、データセット抽出部１０８は、キーとなる学習情報として対象物体の大きさを取得し、対象物体がある大きさ以上で写っている画像を含むデータセットと、対象物体がある大きさ以下で写っている画像を含むデータセットとを別々に抽出してもよい。この場合、スケールの異なる画像を別々のＣＮＮモデルで学習し、統合することができ、スケール変化に強い認識器を実現することができる。
別の例として、ある撮像位置姿勢から撮像すると、光沢により強い反射光が写るなど、限定的な状態で発生する見えを学習したい場合がある。このような場合、データセット抽出部１０８は、キーとなる所定の撮像位置姿勢を取得し、その撮像位置姿勢の周囲のデータセットを抽出してもよい。これにより、認識性能を向上することができる。

また、データセットを抽出するためのキーは、ユーザが入力画面を操作して指定するようにしてもよい。この場合の入力画面には、学習情報、撮像位置姿勢および画像を表示し、ユーザは対象物体の見えを確認しながらキーを入力できるようにしてもよい。さらに、上記入力画面は、学習情報や撮像位置姿勢をキーとしたデータセットのソート機能を備えてもよい。入力画面がデータセットの閲覧機能を有することにより、ユーザは、大量に生成されたデータセットのうち抽出したいデータセットを効率的に選択することができる。また、ユーザは、収集されたデータセットが適切であるかを容易に確認することもできる。
以上説明したように、本実施形態における情報処理装置１００Ａは、学習に使用するデータセットを適切に限定することができるので、認識性能の向上や、学習コストの省力化、ＣＮＮモデルの小型化を実現することができる。

（第二の実施形態の変形例）
本実施形態においては、データセット蓄積部１０７によるデータセットの生成の途中または終了後に、新たに学習情報を取得するようにしてもよい。この場合、データセット蓄積部１０７が新たに取得された学習情報を受け取り、全てのデータセットに対して学習情報を追加してもよい。これにより、既に撮像した画像を利用して、異なる学習データを生成することができるので、画像を再撮像する手間を低減することができる。

（第三の実施形態）
次に、本発明の第三の実施形態について説明する。
この第三の実施形態では、学習装置２００による学習結果またはデータセット蓄積部１０７により蓄積されたデータセットのうち少なくとも一方に基づいて、追加の学習データを生成する場合について説明する。
（装置の構成）
図８は、本実施形態における物体認識装置１０００Ｂの構成を示すブロック図である。この図８において、図６と同様の構成を有する部分には図６と同一符号を付し、以下、構成の異なる部分を中心に説明する。
物体認識装置１０００Ｂは、情報処理装置１００Ｂを備える。情報処理装置１００Ｂは、図６に示す情報処理装置１００Ａに、追加撮像判断部１０９が追加され、撮像位置姿勢生成部１０２が撮像位置姿勢生成部１１０に置き換えられていることを除いては、図６に示す情報処理装置１００Ａと同様の構成を有する。

学習装置２００Ｂは、上述した学習装置２００と同様に、学習データ蓄積部１０６に保存されている学習データを用いてＣＮＮモデルを学習し、保存する。本実施形態では、学習装置２００Ｂは、学習結果を示す認識性能情報を追加撮像判断部１０９に出力する。ここで、認識性能情報は、認識性能を示す情報であり、例えば、各学習データにおけるラベルと認識結果との相違に関する情報とすることができる。

追加撮像判断部１０９は、学習装置２００Ｂから入力された認識性能情報またはデータセット蓄積部１０７により保存されたデータセットのうち少なくとも一方を用いて、学習データの追加生成、つまり対象物体の追加撮像が必要であるか否かを判断する。また、追加撮像判断部１０９は、対象物体の追加撮像が必要であると判断した場合、追加で撮像を行う撮像位置姿勢の範囲を判断する。そして、追加撮像判断部１０９は、判断結果を撮像位置姿勢生成部１１０に出力する。
撮像位置姿勢生成部１１０は、追加撮像判断部１０９から入力された撮像位置姿勢の範囲内で、撮像位置姿勢を生成する。

（認識処理）
図９は、本実施形態の物体認識装置１０００Ｂによる認識処理の流れを示すフローチャートである。図９において、Ｓ１、Ｓ２およびＳ３の処理は、それぞれ第二の実施形態と同様である。
Ｓ２において学習装置２００Ｂによる学習が行われた後、Ｓ４では、情報処理装置１００Ｂの追加撮像判断部１０９は、対象物体の追加の撮像が必要であるか否かを判断する。具体的には、追加撮像判断部１０９は、学習装置２００Ｂによる学習の結果、認識性能が不足している、もしくは認識が失敗する場合、学習データを追加するために対象物体の追加の撮像が必要であると判断する。追加撮像判断部１０９は、追加の撮像が必要であると判断した場合、追加の撮像が必要な撮像位置姿勢の範囲を判断してＳ１に戻る。

一方、追加撮像判断部１０９は、学習装置２００Ｂにより十分な学習ができている（例えば、認識率が一定以上である）場合には、対象物体の追加の撮像は必要ないと判断し、Ｓ３に移行する。
学習の結果、全体的に認識性能が不足している場合、改善策として全体的に学習データを増やすことが考えられる。そこで、この場合には、追加撮像判断部１０９は、追加の撮像が必要な撮像位置姿勢の範囲が全体であると判断し、撮像位置姿勢生成部１１０は、より密な撮像位置姿勢で撮像するよう全体的に追加の撮像位置姿勢を生成する。その際、撮像済みの撮像位置付近で重複して撮像しても効果は低いため、撮像位置姿勢生成部１１０は、最近傍の既撮像位置が最も遠い位置から撮像するよう、追加の撮像位置姿勢を生成する。これにより、効率的に追加の学習データを生成し、認識性能を全体的に改善することができる。

また、学習の結果、ある撮像位置姿勢で撮像した画像から生成された学習データの認識が失敗する場合、その位置姿勢付近での学習データが不足していることが考えられる。そこで、その場合には、追加撮像判断部１０９は、認識が失敗する位置を中心とし、その位置と最も近い撮像位置までの距離を半径とする範囲内を、追加の撮像が必要な撮像位置姿勢の範囲として判断する。そして、撮像位置姿勢生成部１１０は、その範囲内でさらに学習データを生成するべく追加の撮像位置姿勢を生成する。これにより、認識が難しい見えと類似の学習データを生成することができるため、適切に認識性能を改善することができる。

以上説明したように、本実施形態における情報処理装置２００Ｂは、学習時に認識性能がよくない撮像位置姿勢の周辺や、データ数が少ない撮像位置姿勢の周辺で、学習データの追加生成を行うことができ、認識性能の向上を実現することができる。その際、情報処理装置１００Ｂは、学習結果やデータセットから学習に不足している撮像位置姿勢を判断し、自動で学習データの追加生成および再学習を繰り返すので、学習の手間を低減したまま認識性能の向上を実現することができる。

（変形例）
上記各実施形態においては、撮像装置５００がＲＧＢのカラー画像とデプス画像とを取得する場合について説明したが、撮像装置５００は、モノクロ画像を取得する装置であってよい。また、撮像装置５００は、赤外線画像を取得する装置であってもよい。
また、上記各実施形態においては、マニピュレータ４００が６軸ロボットである場合について説明したが、マニピュレータ４００は、撮像装置５００および対象物体の少なくとも一方を移動可能であればよい。つまり、マニピュレータ４００は、多関節ロボットやパラレルリンクロボットであってもよいし、直交ロボットであってもよい。また、マニピュレータ４００は、ロボット以外の移動機構であってもよい。

さらに、上記各実施形態においては、学習データ蓄積部１０６により学習データを保存してから学習装置２００（２００Ｂ）によりＣＮＮモデルの学習を行う場合について説明したが、上記に限定されるものではない。例えば、学習データを生成しつつＣＮＮモデルに入力することで、学習を行うようにしてもよい。
また、上記各実施形態においては、ディープラーニングの一種であるＣＮＮを学習して、認識器を構成する場合について説明したが、上記に限定されるものではない。特徴量としては、ＬＢＰ（Local Binary Pattern）を用いてもよいし、ＢｏＦ（Bag of Features）などを用いてもよい。また、識別器としては、決定木を用いてもよいし、ＳＶＭ（Support Vector Machine）などを用いてもよい。
さらにまた、上記各実施形態においては、認識結果をロボットによる吸着位置に用いたが、治工具の誘導位置や方向などのロボット制御に用いてもよいし、検査などに用いてもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００…情報処理装置、２００…学習装置、３００…認識装置、１０１…学習情報取得部、１０２…撮像位置姿勢生成部、１０３…制御部、１０４…画像取得部、１０５…学習データ生成部、１０６…学習データ蓄積部、１０００…物体認識装置

Claims

所定の入力手段によって入力された、対象物体の表面における注目位置の３次元座標を取得する第一の取得手段と、
前記注目位置を含むように前記対象物体を撮像するための、複数の異なる撮像位置を決定する決定手段と、
前記決定手段により決定された撮像位置に、撮像装置を備えるマニピュレータを移動させて前記対象物体が前記撮像装置により撮像された画像を取得する第二の取得手段と、
前記第一の取得手段により取得された注目位置の３次元座標が、前記注目位置を取得した座標系から前記画像の２次元座標系に変換され、変換された座標に基づく前記注目位置を示す情報が、前記第二の取得手段により取得された画像に対応付けられた学習データを生成する生成手段と、を備え、
前記学習データは、前記対象物体を撮像した入力画像から該入力画像に含まれる前記対象物体の前記注目位置を出力するモデルを学習するためのデータであることを特徴とする情報処理装置。
前記第一の取得手段は、前記対象物体の前記注目位置として前記対象物体の表面における中心位置を取得し、
前記生成手段は、
前記決定手段により決定された撮像位置に基づいて、前記第一の取得手段により取得された中心位置を前記第二の取得手段により取得された画像に幾何的に射影し、
前記画像と当該画像に射影された前記中心位置とに基づいて前記学習データを生成することを特徴とする請求項１に記載の情報処理装置。
第一の取得手段は、前記対象物体の位置、向き、大きさおよび種類の少なくとも１つを取得することを特徴とする請求項１または２に記載の情報処理装置。
前記第一の取得手段は、前記対象物体の三次元情報における前記注目位置を取得することを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記学習データは、学習に用いる画像と教師信号となるラベルとの組であり、前記ラベルは、前記学習に用いる画像の分類を表す情報であることを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記第一の取得手段は、
ユーザによって前記入力手段に指定された前記注目位置を取得することを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記第一の取得手段は、
前記注目位置の周辺領域を許容する範囲として取得することを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記決定手段は、
ユーザによって指定された前記撮像位置の範囲内で前記撮像位置を決定することを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
前記決定手段により決定された撮像位置となるように、前記対象物体を撮像する撮像装置および前記対象物体の少なくとも一方を移動させ、前記撮像装置に撮像を指示する制御手段をさらに備えることを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記制御手段は、さらに前記撮像装置による前記対象物体の撮像時における照明の状態を制御することを特徴とする請求項９に記載の情報処理装置。
前記生成手段は、
前記第二の取得手段によって取得された画像に対して、幾何変換、輝度値の変更、色の変更のうちの少なくともいずれかの処理を行った画像に基づいて前記学習データを生成することを特徴とする請求項１から１０のいずれか１項に記載の情報処理装置。
前記第一の取得手段により取得された注目位置と、前記決定手段により決定された撮像位置と、前記第二の取得手段により取得された画像との組をデータセットとして蓄積する蓄積手段と、
前記蓄積手段により蓄積されたデータセットから、前記注目位置および前記撮像位置の少なくとも一方をキーとしてデータセットを抽出する抽出手段と、をさらに備え、
前記生成手段は、前記抽出手段により抽出されたデータセットに基づいて学習データを生成することを特徴とする請求項１から１１のいずれか１項に記載の情報処理装置。
前記生成手段により生成された学習データを用いて前記モデルを学習する学習手段と、
前記学習手段により学習されたモデルに基づいて、入力画像中の前記対象物体における前記注目位置を認識する認識手段と、をさらに備えることを特徴とする請求項１から１２のいずれか１項に記載の情報処理装置。
前記学習手段によって学習されたモデルに基づいて画像における前記対象物体の認識を行った結果に基づいて、前記学習データの追加生成が必要であるか否かを判断する判断手段をさらに備え、
前記判断手段は、前記認識の結果から認識に成功した確率である認識率が所定の値以下である場合は、前記学習データを追加で生成する必要があると判断し、前記認識率が所定の値より大きい場合は、前記学習データの生成を終了することを特徴とする請求項１３に記載の情報処理装置。
前記対象物体を撮像する撮像装置と、
前記撮像装置を移動可能なマニピュレータと、をさらに備えることを特徴とする請求項１から１４のいずれか１項に記載の情報処理装置。
情報処理装置であって、
対象物体の３次元の注目位置を前記対象物体の３次元情報に対応付けた入力情報を取得する第一の取得手段と、
前記対象物体を複数の異なる撮像位置から撮像した画像を取得する第二の取得手段と、
前記第一の取得手段によって取得された前記入力情報に基づいて、撮像装置を備えるマニピュレータを移動させて複数の異なる撮像位置から前記撮像装置が撮像した画像における前記対象物体の前記注目位置を、前記入力情報を取得した座標系から前記画像の２次元座標系に前記３次元の注目位置の座標を変換し、変換された座標に基づく前記注目位置を示す情報を前記画像に射影することにより決定する決定手段と、
前記第二の取得手段によって取得された画像と、前記決定手段によって決定された撮像装置に対応した前記注目位置と、を組として、前記対象物体を撮像した入力画像から該対象物体における前記注目位置を出力する学習モデルの学習データを生成する生成手段と、を備えることを特徴とする情報処理装置。
所定の入力手段によって入力された、対象物体の表面における注目位置の３次元座標を取得する第一の取得ステップと、
前記注目位置を含むように前記対象物体を撮像するための、複数の異なる撮像位置を決定する決定ステップと、
前記決定ステップにより決定された撮像位置に、撮像装置を備えるマニピュレータを移動させて前記対象物体が前記撮像装置により撮像された画像を取得する第二の取得ステップと、
前記第一の取得ステップにより取得された注目位置の３次元座標が、前記注目位置を取得した座標系から前記画像の２次元座標系に変換され、変換された座標に基づく前記注目位置を示す情報が、前記第二の取得ステップにより取得された画像に対応付けられた学習データを生成する生成ステップと、を含み、
前記学習データは、前記対象物体を撮像した入力画像から該入力画像に含まれる前記対象物体の前記注目位置を出力するモデルを学習するためのデータであることを特徴とする情報処理方法。
コンピュータを、請求項１から１６のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。