JP2014178957A

JP2014178957A - 学習データ生成装置、学習データ作成システム、方法およびプログラム

Info

Publication number: JP2014178957A
Application number: JP2013053340A
Authority: JP
Inventors: Yasufumi Hirakawa; 康史平川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2014-09-25

Abstract

【課題】物体検出器や物体識別器の精度向上に寄与する学習データを低コストで大量に生成する。
【解決手段】学習データ生成システムは、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出する。
【選択図】図１

Description

本発明は、画像から対象物体を識別したり対象物体を検出する装置の学習に用いられるデータである学習データを生成する学習データ生成装置、学習データ生成システム、学習データ生成方法および学習データ生成用プログラムに関する。

動画や静止画像から物体検出や物体識別を実施するには、その動画や静止画像に写っているものが対象物体かどうかを判定するための学習データが必要である。一般に、学習データとして、対象物体が写っている画像とその対象物体の位置情報とが用意される。また、学習データとして、上記に加えて検出対象外の領域（例えば、背景領域等）を写した画像が用意される場合がある。

学習データの収集には、対象物体が写っている画像を多く集め、それらに対して物体が写っている領域である物体領域を正解付けるという方法が一般的である。ここで、正解付けるとは、具体的には、対象とする画像が有する特定の情報（上記の例では物体領域）を正確に抽出して、それらを付加情報として当該画像と対応づけることをいう。

また、背景の変化による見え方の違いに対応するためには、その変化に対応した大量の学習データが必要になる。

ところで、学習データに、対象物体が写っている画像の付加情報として、当該画像における対象物体の向きの情報が含まれていると、物体を識別する精度が向上することが知られている。例えば、非特許文献１には、人物の頭部の方向ごとに画像識別器を作ることで頭部の見え方の変動に頑健な頭部追跡処理を実現できると記載されている。

しかし、背景や対象物体の向き変化に対応する画像を、それらの画像における物体領域の情報や対象物体の向きの情報等を正解付けながら、大量かつ均等に収集することは非常に大変であり、コストがかかる。

学習データの収集に関連する技術として、例えば、特許文献１には、映像から識別する物体を、人手もしくは画像処理による識別により選択し、それをトラッキングすることで、対象物体のサンプル画像を収集する方法が記載されている。

また、例えば、非特許文献２には、対象物体をＣＧ（Computer Graphics ）を使ってモデリングし、そのモデリングされたＣＧ物体を背景画像に合成することで、背景変化と対象物体の向きの変化に対応した大量の学習画像を得る方法が記載されている。

特開２０１２−８８７８７号公報

小林貴釧、他，"パーティクルフィルタとカスケード型識別器の統合による人物三次元追跡"，電子情報通信学会，電子情報通信学会論文誌．Ｄ，情報・システムＪ９０−Ｄ（８），２００７年８月，ｐ．１−１１．土屋成光、他，"人検出のための生成型学習とNegative-Bag MILBoost による学習の効率化"，画像の認識・理解シンポジウム（ＭＩＲＵ２０１２），２０１２年．

特許文献１に記載されている方法によれば、物体領域の正解付け作業の時間を削減しつつ、物体が様々な位置にいる画像を収集することが可能である。しかし、物体領域の形状や姿勢に変化が起きる物体に対応しようとすると、次のような問題があった。例えば、背景や光源などの撮影環境について制御されない場合では、画像処理による物体抽出精度が低下するという問題があった。また、例えば人手によって正解付けを行う場合では、大量の物体画像を集める必要がある場合などには特に、工数が大きくなるという問題があった。さらに、画像処理による場合、対象物体の向き情報までを精度良く正解付けることは難しいという問題があった。

なお、非特許文献２に記載されている方法のように、ＣＧを利用すれば様々な向きの物体を写した学習画像を、その画像における物体領域の情報と物体の向きの情報とともに用意することは可能である。しかし、この場合、実物に類似するＣＧの物体をモデリングする必要があり、モデリングの時間が必要となるため、新規物体にはすぐに対応できないという問題がある。また、ＣＧを利用した学習画像の質は、実画像を収集した場合と比べると劣る場合も多い。

そこで、本発明は、物体検出器や物体識別器の精度向上に寄与する学習データを低コストで大量に生成することができる学習データ生成装置、学習データ生成システム、学習データ生成方法および学習データ生成用プログラムを提供することを目的とする。

本発明において、学習データは、対象物体が写っている画像から該対象物体が写っている領域である物体領域を切り出してその画像データを得ることができる情報であればよく、具体的な形式は問わない。例えば、対象物体が写っている画像とその対象物体の位置情報とを含む情報であってもよい。また、これらに加えて、検出対象外の領域を写した画像を含んでいてもよい。または、そのような情報を基に対象物体が写っている画像から物体領域を切り出した部分画像の画像データを、学習データとしてもよい。

本発明による学習データ生成システムは、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出することを特徴とする。

また、本発明による学習データ生成装置は、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出することを特徴とする。

また、本発明による学習データ生成方法は、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づけ、各物体撮影画像から、物体が写っている領域である物体領域を抽出する際に、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出することを特徴とする。

また、本発明による学習データ生成用プログラムは、コンピュータに、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける処理と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する処理とを実行させ、物体領域を抽出する際に、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、第１の物体撮影画像から物体領域を抽出させることを特徴とする。

本発明によれば、物体検出器や物体識別器の精度向上に寄与する学習データを低コストで大量に生成することができる。より具体的には、背景変化と対象物体の向き変化に対応した学習画像であって、少なくとも当該画像における物体領域および対象物体の向きの情報が対応づけられている学習画像を含む学習データを、低コストで大量に、かつ高精度に生成することができる。

本発明の概要を示すブロック図である。学習データ生成システムの動作の一例を示す説明図である。学習データ生成システムの他の例を示すブロック図である。第１の実施形態の学習データ生成システムの構成例を示すブロック図である。撮影環境の例を示す説明図である。撮影環境の例を示す説明図である。「仰角」について説明する説明図である。合成用物体撮影処理部の構成例を示すブロック図である。物体領域抽出部の構成例を示すブロック図である。物体領域の抽出例を示す説明図である。物体領域の抽出例を示す説明図である。画像間の差分の例を示す説明図である。画像間の差分の例を示す説明図である。画像間の差分の例を示す説明図である。物体領域の抽出例を示す説明図である。合成画像生成部の構成例を示すブロック図である。合成処理の例を示す説明図である。第１の実施形態の学習データ生成システムの動作の一例を示すフローチャートである。合成用物体撮影処理部の動作の一例を示すフローチャートである。物体領域抽出部の動作の一例を示すフローチャートである。合成画像生成部の動作の一例を示すフローチャートである。合成用物体撮影処理部の他の構成例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。まず、本発明の概要を説明する。図１は、本発明の概要を示すブロック図である。図１に示す学習データ生成システムは、撮影処理手段１と、物体領域抽出手段２とを備える。

撮影処理手段１は、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける。ここで、撮影処理手段１は、少なくとも２つ以上の異なる撮影条件に対応する物体撮影画像であって、各々撮影時の撮影条件を示す情報を含む撮影環境情報が対応づけられている物体撮影画像を得る。

撮影条件の変更は連続的である方が好ましい。ここで、「連続的」とは、１つのパラメータの値に着目したときにその値が段階的に変化しているという意味と、複数のパラメータがある場合にそのうちの１つのパラメータのみ値が変化しているという意味とがあり、撮影条件を連続的に変更するといった場合には、少なくともどちらか一方の意味を満足していればよい。

また、撮影条件としては、被写体に対するカメラ位置を示す情報（例えば、世界座標における被写体の正面を基準とするカメラが位置する方位、後述するカメラの仰角、物体までの距離など）を含むことが好ましい。なお、さらに、レンズの向きや照明設定（照明の種類、方向、明るさなど）等を含んでいてもよい。なお、カメラ位置を示す情報は上記例示の限りではない。例えば、カメラを支える台との距離が既知である回転台を利用して撮影を行う場合には、カメラの高さと、回転台の回転角度とであってもよい。どのようなパラメータを用いるかは、当該システムがどのような撮影環境設定用機器を備えているかによって決めてもよい。

撮影処理手段１は、例えば、回転台による物体の向き変動、照明変動またはカメラの高さ変動のいずれか１つ以上を組み合わせて、撮影条件を変更してもよい。これらを組み合わせることで、様々な方向および様々な照明設定で物体を撮影した物体撮影画像を得ることができる。

また、撮影処理手段１は、例えば、外部より受け付けた、撮影条件をどのように変更しながら撮影するかを指示する情報である撮影パターン情報に従って、撮影条件を変更してもよい。また、撮影処理手段１は、画像を撮影するカメラ等の撮影装置や、撮影環境を変化させるために備え付けられている回転台等の可動式の撮影環境設定用機器に対して所定の命令を出力するためのインタフェースを含む。

物体領域抽出手段２は、撮影処理手段１によって得られる各物体撮影画像から、物体が写っている領域である物体領域を抽出する。その際、物体領域抽出手段２は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、物体領域を抽出する。

物体領域抽出手段２は、第１の物体撮影画像の撮影条件に対して連続的な変化となっている撮影条件で撮影された第２の物体撮影画像を利用して、第１の物体撮影画像から物体領域を抽出してもよい。

連続的に変化された撮影条件の変化の前後の画像間には、画像内における物体の見え方の変化に一定の規則が見いだせ、それを利用することで物体領域や背景領域を補間することができるからである。

また、物体領域抽出手段２は、例えば、第２の物体撮影画像の利用例として、第１の物体撮影画像と第２の物体撮影画像間の差分に関する情報に基づいて、第１の物体撮影画像から物体領域を抽出してもよい。また、物体領域抽出手段２は、第１の物体撮影画像と第２の物体撮影画像間の差分に関する情報に基づき、第１のアルゴリズムを用いて第１の物体撮影画像から抽出された物体領域、背景領域またはそれらの候補領域を補間してもよい。ここで、第１のアルゴリズムは、抽出対象とされる第１の物体撮影画像およびその画像に関する各種情報（撮影条件や背景画像等を含む）のみを用いて物体領域を抽出する所定のアルゴリズム、換言すると、抽出元とされる画像の他に物体が撮影された画像を用いずに物体領域を抽出する所定のアルゴリズムであれば、特に問わない。一例としては、物体撮影画像と背景画像との間の画素値の差を基に領域を抽出する背景差分法や、領域の連続性をエネルギーとして算出し領域分割を行うグラフカット、特定色を抽出するクロマキーなどのキーイングが挙げられる。

このようにすることで、第１のアルゴリズムのみを用いた場合よりも高精度な物体領域の抽出が可能になる。

図２は、図１に示す学習データ生成システムの動作の一例を示す説明図である。図２に示す例では、まず、撮影処理手段１が、撮影条件を変更しながら、撮影装置に撮影を行わせ、各々の撮影条件に対応する物体撮影画像を得る（ステップＳ１）。撮影処理手段１は、例えば、各撮影条件下で撮影した物体撮影画像に、撮影時の撮影条件を含む撮影環境情報を対応づけて、所定の記憶装置に記憶させてもよい。撮影環境情報は、撮影条件だけでなく、カメラの内部パラメタなど撮影時に取得できる他の情報を含めてもよい。ここで、カメラの内部パラメタとは、カメラの機種に依存するパラメタであって、例えば、焦点距離やＣＣＤの画素の縦横比の情報である。

なお、撮影条件に対応する物体撮影画像の取得方法は、撮影条件を連続的に変化させながら物体を動画で撮影したものを保存しておき、あとから保存しておいた動画から大量の静止画像を抽出する方法であってもよい。この場合、特定の２時刻の撮影条件さえ既知であれば、２時刻間の画像に対する撮影条件をその２時刻の撮影条件から補間処理によって推定し記録してもよい。このようにすれば、効率よく物体撮影画像と撮影条件のセットを取得できる。

次いで、物体領域抽出手段２が、撮影処理手段１によって得られた各物体撮影画像から、物体領域を抽出する（ステップＳ２）。その際、物体領域抽出手段２は、撮影条件が異なる他の物体撮影画像を利用して、物体領域を抽出する。なお、抽出した物体領域を示す情報は、付加情報の１つとして抽出元の物体撮影画像に対応づければよい。

以上のような構成によれば、少なくとも物体の向き変化に対応した物体撮影画像と、それを撮影したときの撮影条件を含む撮影環境情報と、その画像内における物体領域を示す情報とが各々高い質で得られるので、これらを利用して物体撮影画像から物体領域を切り出し、様々な背景画像と合成させれば、低コストで大量に質の高い学習データを得ることができる。すなわち、背景変化と対象物体の向き変化に対応した学習画像であって、少なくとも当該画像における物体領域および対象物体の向きの情報が対応づけられている学習画像を含む学習データを、低コストで大量に、かつ高精度に生成することができる。

また、図３は、本発明による学習データ生成システムの他の例を示すブロック図である。図３に示すように、学習データ生成システムは、さらに、画像合成手段３を備えていてもよい。

画像合成手段３は、指定された背景画像に、物体撮影画像から物体領域抽出手段によって抽出された物体領域を切り出した画像である物体領域画像を合成する。すなわち、画像合成手段３は、撮影処理手段１によって得られる各物体撮影画像と、それらの撮影環境情報および物体領域を示す情報とに基づいて、指定された背景画像に、物体撮影画像の物体領域を切り出した画像である物体領域画像を合成して、学習画像を生成する。

画像合成手段３は、例えば、背景画像への物体領域の張り付け先とされた位置に対して、背景画像での当該位置にいる物体の見え方と相関の高い物体領域画像を選別した上で、当該位置に物体領域画像を合成してもよい。また、その際に、物体の見え方の相関の高さを求めるパラメータとして、カメラの仰角を用いてもよい。

このようにすると、背景画像に実際に写される実物体と姿勢（見え方）が近い物体撮影画像の物体領域を張り付けることができるので、より質の高い学習画像を提供できる。

また、学習データ生成システムは、様々な背景画像を記憶する背景画像記憶手段４を備えていてもよい。なお、背景画像記憶手段４には、背景画像だけでなく、該背景画像の撮影環境情報も併せて記憶されていてもよい。

様々な背景画像を背景画像記憶手段４に記憶させることによって、様々な背景の学習画像を生成することができる。また、背景画像の撮影環境情報を利用すれば、より高精度に物体の見え方の相関を求めることができるので、より質の高い学習画像を容易に生成できる。

実施形態１．
以下、より具体的に本発明の実施形態を説明する。図４は、本発明の第１の実施形態の学習データ生成システムの構成例を示すブロック図である。図４に示す学習データ生成システムは、合成用物体撮影処理部１１と、物体領域抽出部１２と、合成画像生成部１３と、合成用背景画像蓄積部１４とを備える。

図４に示すように、合成用物体撮影処理部１１は、物体領域抽出部１２および合成画像生成部１３と接続されている。また、物体領域抽出部１２は、合成画像生成部１３と接続されている。また、合成画像生成部１３は、合成用背景画像蓄積部１４と接続されている。

合成用物体撮影処理部１１は、外部から受け付けた撮影パターン情報に従って撮影条件を変化させながら、単純背景（背景色が一定。例えば青、白など）下で物体を撮影する処理を実行する。なお、合成用物体撮影処理部１１は、上述した撮影処理手段１に相当する処理部である。

本実施形態における撮影条件は、カメラ配置（カメラの位置および姿勢）、照明設定、回転台の回転角度を組み合わせた情報とする。そして、撮影パターン情報は、これらカメラ配置、照明設定、回転台の回転角度の少なくとも１つに関する変動範囲を示す情報とする。

図５および図６は、学習データ生成システムが有する撮影環境の例を示す説明図である。なお、図５は撮影環境の例を示す側面図であり、図６は撮影環境の例を示す上面図である。図５および図６に示すように、本実施形態では、回転台５０１を用いることで、検出させたい物体を多様な方向から撮影可能にしている。この他、複数の照明５０４と複数の撮影装置（カメラ）５０５を備えている。これら１つ以上の照明５０４とカメラ５０５とは、回転台５０１上の対象物体５０３に向けられている。回転台５０１の回転角度や、各カメラ５０５の配置、各照明５０４の設定は、例えば、回転台５０１に付随するコントロール用の機器（図示せず）や、カメラ５０４や照明５０５を固定している機器５０２（以下、カメラ配置／照明制御機器５０２という。）に対して所定の命令を発行することにより行う。

回転台変動として、例えば、物体を様々な方向から撮影するために、回転台の回転角度を１０度刻みに進めてもよい。また、照明変動として、例えば、物体へ光を照射する照明の種類を、正午の太陽の色温度である６５００Ｋの照明にしたり、蛍光灯にしたり、白熱灯にするなどしてもよい。また、照明の種類だけでなく、明るさを段階的に変えたり、物体へ様々な方向から光を照らすために、照明を固定している台の高さを段階的に変えたり、台の位置を移動させるなどしてもよい。また、カメラ配置変動として、例えば、物体を様々な高さから撮影するために、カメラを固定している台の高さを段階的に変えてもよい。なお、カメラを複数備えている場合は、撮影に用いるカメラを選択することでもカメラ配置を変更できる。また、これらの変動制御を１つ以上組み合わせて行ってもよい。

本実施形態では、カメラ配置を示す情報として、カメラの世界座標上での位置と、カメラの姿勢（向き）とを示すカメラの外部パラメタを用いる。カメラの外部パラメタは、機種に依存しないカメラのパラメタであって、例えば、空間中において原点とＸ，Ｙ，Ｚ軸の方向を決めたときに、カメラの位置および向きを当該座標系により表す情報であってもよい。カメラの外部・内部パラメタから投影行列を求めることで、三次元空間上の点と二次元画像上の点の対応関係を求めることができる。

なお、カメラの内部パラメタや、カメラ配置／照明制御機器５０２が初期状態のときの各カメラの外部パラメタを合成用物体撮影処理部１１によって撮影処理が行われる前にあらかじめ算出しておき、後述するカメラパラメタ記憶部１０８に保存しておいてもよい。

また、合成用物体撮影処理部１１は、物体領域抽出部１２で物体領域を抽出するために用いる画像として、同じ撮影条件下で対象物体が回転台５０１に乗っていない画像（以下、背景撮影画像という。）を併せて撮影してもよい。

なお、本実施形態では、カメラ配置／照明制御機器５０２が、カメラと照明とを各々複数固定しており、それらの高さをまとめて変更するための台として機能する例を説明するが、撮影環境設定用機器は上記の例に限定されない。例えば、カメラと照明とを別々に固定し、独立してそれらの高さを制御する２以上の台を備えていてもよい。

また、可動式でない撮影環境設定用機器を含んでいる場合には、当該機器に対する制御を人手を介して行ってもよい。そのような場合には、人に操作内容を指示する情報を出力するモニタや、人から操作結果を受け付ける入力手段を備えていればよい。本発明では、少なくとも合成用物体撮影処理部１１からの指示に従って、撮影環境が変更され、撮影され、撮影された画像が入力される仕組みが備わっていればよい。

また、図７は、本実施形態で、物体を撮影する垂直方向の角度を表す「仰角」について説明する説明図である。本実施形態では、「仰角」を次のように定義する。すなわち、図７に示すように、物体の基準位置Ａに対して、カメラの設置位置Ｂと、カメラの鉛直方向と物体の基準位置の水平方向を結ぶ点Ｃがなす角度とする。なお、図７では、物体が人物であるとして、その足元位置を物体の基準位置とした場合の例を示している。本例では、物体の足元位置Ａに対して、カメラの設置位置Ｂと、カメラの垂直方向と床面を結ぶ点Ｃがなす角度が仰角となる。

合成用物体撮影処理部１１は、各機器に対する制御の結果得られる指定の撮影条件で実際の物体を撮影した画像である物体撮影画像を、そのときの撮影環境を示す撮影環境情報とともに、物体領域抽出部１２に出力する。本実施形態では、撮影環境情報として、カメラの内部パラメタと、外部パラメタと、照明の設定内容を示す照明設定情報と、回転台の回転角度と、同じ条件下で撮影された背景撮影画像とを含む情報を出力する。なお、照明設定情報は、例えば、照明の種類や方向情報（物体に対してどの向きから光を当てたかという情報）や明るさを示す情報である。ここで、合成用物体撮影処理部１１は、それらの情報を物体領域抽出部１２に出力する代わりに、一連の撮影処理により得られた各物体撮影画像と、その撮影環境情報とを対応づけて保持する記憶部を備えていてもよい。そのような場合、後段の処理部には処理完了の旨と今回の処理において記憶部に記憶させた情報を特定できる情報とを出力すればよい。

物体領域抽出部１２は、合成用物体撮影処理部１１が得た各物体撮影画像から、物体領域の抽出を行う。なお、物体領域抽出部１２は、上述した物体領域抽出手段２に相当する処理部である。

物体領域抽出部１２は、例えば、物体が回転台に置かれた画像と置かれていない画像の２つの画像を用いた差分法や、特定色を除いた領域を抽出するクロマキーなどのキーイングによる色抽出、前景・背景シードの一部指定することで前景・背景領域を抽出することができるグラフカットなどの手法を用いて、物体領域を抽出する。

物体領域抽出部１２は、その際に、画像間の物体の見え方の変化の連続性により得られる特徴に基づいて、物体領域を抽出する。換言すると、物体領域抽出部１２は、撮影条件が連続的な変化となっている画像間における物体の見え方の違いをフレーム間の特徴量として検出し、その特徴量に基づいて物体領域を抽出する。物体領域抽出部１２は、例えば、撮影条件が異なる画像間の差分を抽出し、抽出された差分を示す情報に基づいて、抽出した物体領域または背景領域を補間する処理や、その範囲の正否を判定する処理を行ってもよい。本実施形態では、上述のアルゴリズムと、差分に基づく補間または判定処理とを組み合わせて用いることにより、高精度な物体領域の抽出を行う。なお、物体領域の抽出処理については後述する。

物体領域抽出部１２は、このような手法を用いて物体領域を抽出すると、抽出した物体領域を示す情報である物体領域情報を合成画像生成部１３に出力する。物体領域情報は、例えば、切り出された物体領域の画素値とその位置情報とを含む情報であってもよい。なお、抽出元の物体撮影画像が合成画像生成部１３にも出力される場合には、物体領域情報から物体領域の画素値を省略してもよい。そのような場合には、物体領域情報として、抽出元の物体撮影画像を識別可能な識別子と、切り出した物体領域の位置情報とを含む情報を合成画像生成部１３に出力すればよい。また、物体領域抽出部１２は、それらの情報を合成画像生成部１３に出力する代わりに、抽出元の物体撮影画像と対応づけて、得られた物体領域情報を保持する記憶部を備えていてもよい。そのような場合、後段の処理部には処理完了の旨と今回の処理において記憶部に記憶させた情報を特定できる情報とを出力すればよい。

合成画像生成部１３は、得られた各物体撮影画像の撮影環境情報と、物体領域情報と、あれば背景画像の撮影環境情報とに基づいて、指定された合成用背景画像に、物体撮影画像から切り出した物体領域画像を合成することにより、合成用背景画像上に実際に物体が置いてあるような学習画像を生成する。なお、合成画像生成部１３は、上述した画像合成手段３に相当する処理部である。

合成画像生成部１３は、物体領域画像を合成する際に、背景画像の撮影環境を推定し、または記憶されている撮影環境情報を読み出し、背景画像上での物体の見え方に近い見え方で物体が撮影されている物体領域画像を選別した上で、背景画像に物体領域画像を合成する。

例えば、合成画像生成部１３は、背景画像の各画素位置または一定の間隔（画素または実距離での一定の間隔）ごとに、当該位置で対象物体が撮影されたと仮定したときのカメラの仰角、すなわち当該位置の世界座標位置に対してカメラの設置位置とカメラの鉛直方向と床面を結ぶ点とがなす角度を算出（推定）し、推定されたカメラの仰角と、各物体撮影画像を撮影したときのカメラの仰角とを照合し、値が最も近いまたは許容範囲内となるカメラの仰角で撮影された物体領域画像を、当該位置に合成させる物体領域画像として選別してもよい。背景画像の各位置のカメラの仰角は、例えば、背景画像の内部パラメタおよび外部パラメタから算出できる。なお、合成画像生成部１３は、背景画像に対して物体の配置可能領域が与えられている場合には、その領域内に限定して上記処理を省略してもよい。

なお、カメラの仰角以外に、例えば、カメラの高さを用いてもよい。カメラの高さ、仰角の照合方法については各値の差分を利用するなど、実際に物体が置かれた時に近い姿勢の物体領域が選ばれるアルゴリズムであればよい。また、その他の尺度を用いることも可能である。例えば、背景画像を撮影した際の照明状態や物体の進行方向などが与えられている場合には、さらにそれらの情報を用いてもよい。いずれの場合も、背景画像上の位置での物体の見え方に近似する見え方で撮影されている物体領域画像を選別すればよい。単純には、背景画像の撮影環境情報を撮影条件に含まれるパラメータの値に変換した上で各パラメータ間の差分を求め、それらを総合判断して両者の相関を求めればよい。

また、合成画像生成部１３は、このようにして生成した学習画像と、合成に用いた物体領域の物体領域情報とを対応づけて、学習データとして出力する。

合成用背景画像蓄積部１４は、物体領域の合成先となる背景画像を記憶する。合成用背景画像蓄積部１４には、合成用の背景画像とともに、該背景画像の撮影環境情報が記憶されていてもよい。例えば、撮影時の内部パラメタおよび外部パラメタが既知の画像を合成用の背景画像として記憶してもよい。なお、背景画像は複数種類保存されていることが好ましい。なお、合成用背景画像蓄積部１４は、上述した背景画像蓄積手段４に相当する記憶部である。

以下、各処理部についてより詳細に説明する。図８は、本実施形態の合成用物体撮影処理部１１の構成例を示すブロック図である。図８に示すように、合成用物体撮影処理部１１は、物体撮影管理部１０１と、カメラ配置変動部１０２と、照明変動部１０３と、回転台変動部１０４と、撮影処理部１０５と、撮影環境情報記憶部１０６と、物体撮影画像記憶部１０７と、カメラパラメタ情報記憶部１０８とを含んでいてもよい。

本例において、物体撮影管理部１０１は、カメラ配置変動部１０２と、照明変動部１０３と、回転台変動部１０４と、撮影処理部１０５とに接続されている。また、カメラ配置変動部１０２と、照明変動部１０３と、回転台変動部１０４と、カメラパラメタ情報記憶部１０８は各々、撮影環境情報記憶部１０６に接続されている。また、撮影処理部１０５は、物体撮影画像記憶部１０７に接続されている。なお、撮影処理部１０５は、撮影環境情報記憶部１０６にも接続されていてもよい。

物体撮影管理部１０１は、撮影パターン情報を基に、指定された各撮影条件にて撮影を実行するために、指定された各撮影条件に撮影環境を設定するための各種指示を、他の機能ブロックに対して行う。他の機能ブロックに対する指示には、例えば、各変動部（本例では、カメラ配置変動部１０２、照明変動部１０３、回転台変動部１０４等）への各機器に対する変動の指示や、撮影処理部１０５への撮影の指示が含まれる。

本実施形態における撮影条件には、少なくともカメラの外部パラメタまたは回転台の回転角度を指示する情報を含むものとする。なお、さらに照明設定を示す情報を含んでいてもよい。また、カメラの外部パラメタと、回転台の回転角度と、照明設定を組み合わせた情報であってもよい。なお、撮影条件によっては、照明変動部１０３を省略することも可能である。

物体撮影管理部１０１は、例えば、撮影を行う毎に、撮影パターン情報に含まれる撮影条件が示すカメラ配置に合致するように、備え付けられているカメラの配置（高さ位置、姿勢など）を制御するための情報を記したカメラ配置操作情報をカメラ配置変動部１０２に出力してもよい。なお、カメラが複数備え付けられている場合には、最も撮影条件に近い配置となっているカメラを指定した上で、カメラ配置操作情報を出力してもよい。カメラ配置操作情報は、例えば、各カメラの現在の設定内容に対する変更量を示す情報であってもよい。また、例えば今回の撮影における撮影条件に合致する外部パラメタであってもよい。また、例えば、制御対象とされる機器に応じた情報、本例でいえば、カメラ配置／照明制御機器５０２に対する高さ設定に関する情報などであってもよい。このとき、物体撮影管理部１０１は、どの撮影条件下での撮影かを識別するために、１つの撮影装置に撮影を行わせるごとに固有のＩＤを割り当てる。各変動部に対して指示を出す場合には、ＩＤ情報を付加して出力する。また、各変動部も情報を出力する場合には、物体撮影管理部１０１より通知されるＩＤ情報を付加して出力する。このように、ＩＤ情報によって各種情報の紐付を行う。

カメラ配置変動部１０２は、物体撮影管理部１０１からの指示に従い、例えば各カメラの高さ位置や姿勢を制御するために設けられた機器（本例では、カメラ配置／照明制御機器５０２）を操作して、カメラの配置を変更する。また、カメラ配置変動部１０２は、変動後のカメラ配置を示す情報を撮影環境情報の１つとして、通知されたＩＤ情報とともに撮影環境情報記憶部１０６に記憶する。

なお、予め対象物体に併せて各カメラの高さやその向きが整えられている場合などには、カメラの配置変動に関する処理は省略してもよい。そのような場合には、物体撮影管理部１０１は、撮影を行う毎に、撮影パターン情報に含まれる撮影条件が示すカメラ配置に合致する外部パラメタを、カメラパラメタ情報記憶部１０８より選び出せばよい。そして、その外部パラメタを現在の撮影環境情報を示す情報として撮影環境情報記憶部１０６にＩＤ情報と対応づけて記憶させればよい。

また、物体撮影管理部１０１は、例えば、撮影を行う毎に、撮影パターン情報が示す照明設定に合致するように、備えられている照明の各種設定（種類、明るさ、方向など）を制御するための情報を記した照明操作情報を照明変動部１０３に出力してもよい。照明操作情報は、例えば、各照明の現在の設定内容に対する変更量を示す情報であってもよい。また、例えば今回の撮影における撮影条件に合致する各照明の種類、明るさ、方向を示す情報であってもよい。また、例えば、制御対象とされる機器に応じた情報、本例でいえば、カメラ配置／照明制御機器５０２に対する高さ設定に関する情報や、各照明のオン／オフ設定に関する情報などであってもよい。なお、本実施形態では、照明には予め色温度が既知の照明を用いるものとする。

照明変動部１０３は、物体撮影管理部１０１からの指示に従い、例えば各照明の設定を制御するために設けられた機器（本例では、カメラ配置／照明制御機器５０２）を操作して、照明の種類や明るさ、方向を変更する。また、照明変動部１０３は、変更後の照明設定を示す情報を撮影環境情報の１つとして、通知されたＩＤ情報とともに撮影環境情報記憶部１０６に記憶する。

また、物体撮影管理部１０１は、例えば、撮影を行う度に、撮影パターン情報が示す回転台の回転角度に合致するように、回転台の回転角度を制御するための情報を記した回転台操作情報を、回転台変動部１０４に出力してもよい。回転台操作情報は、例えば、回転台の現在の設定内容に対する変更量を示す情報であってもよい。また、例えば今回の撮影における撮影条件に合致する回転台の回転角度を示す情報であってもよい。また、例えば、制御対象とされる機器に応じた情報、本例でいえば、回転台５０１に対する回転角度設定に関する情報であってもよい。

回転台変動部１０４は、物体撮影管理部１０１からの指示に従い、回転台または回転台の回転角度を制御する機器を操作して、回転台を回転させる。また、回転台変動部１０４は、変動後の回転台の角度を示す情報を撮影環境情報の１つとして、通知されたＩＤ情報とともに撮影環境情報記憶部１０６に記憶する。

撮影環境情報記憶部１０６には、撮影ごとに固有に割り当てられたＩＤ情報で紐付けられた撮影環境情報が蓄積されることになる。

また、物体撮影管理部１０１は、撮影ごとに、このようにして撮影ごとに各変動部に操作情報を出力して撮影環境の設定を行い、その処理が完了すると、設定した撮影環境下で物体を撮影するために、撮影の実施を指示する旨の信号である撮影指示情報を撮影処理部１０５に出力する。

撮影処理部１０５は、物体撮影管理部１０１からの指示に従い、カメラを操作して撮影を実施する。そして、生成された画像（物体撮影画像）を通知されたＩＤ情報とともに物体撮影画像記憶部１０７に記憶する。また、撮影処理部１０５は、撮影が完了したことを示す信号である撮影終了情報を、物体撮影管理部１０１に出力する。

物体撮影管理部１０１は、この撮影終了情報を受け取ると、撮影パターン情報に基づき操作情報を変更して再度撮影を行うための処理を実行する。このようにして、撮影パターン情報に含まれる撮影条件を網羅した撮影が終わるまで、１つの対象物体に対する撮影は続けられる。すなわち、物体撮影管理部１０１が、これら３つの操作情報（カメラ配置操作情報、照明操作情報、回転台操作情報）を撮影パターン情報に基づき変更しながら、該当する変動部に送信することによって、カメラ配置、照明設定、回転台の角度を順次連続的に変更させ、その後、撮影処理部１０５に撮影指示を出力する処理を行うこで、様々な物体の向き、仰角、照明設定で物体を撮影することができる。

なお、撮影条件を変更する度に撮影指示を出す以外の方法として、例えば、撮影条件の変更の前後を区切らずに一連の動画像として撮影するようにしてもよい。そのような場合には、撮影条件を変更したときに変更後の撮影条件を示す情報を画像に重畳させるなどして、各フレームでそのときの撮影条件を示す情報を取得できるようにしておけばよい。

また、本実施形態では、物体撮影管理部１０１は、現在の撮影モードが、物体を撮影するモードである物体撮影モードか、物体が回転台に乗っておらず背景を撮影するモードである背景撮影モードのどちらであるかを判別する機能を有していてもよい。このモードの違いにより、撮影した画像を物体領域そのものを抽出する画像、すなわち物体撮影画像として利用するか、または物体領域を求める処理に用いるパラメタとして利用するかが決まる。現在の撮影モードがどちらのモードであるかは、例えば、外部からの信号を用いて判断してもよい。また、撮影パターン情報に予め持たせてもよいし、背景撮影モード→物体撮影モードの順に処理を行うよう予め決めておいてもよい。

撮影処理部１０５では、物体撮影管理部１０１の指示があったときに、当該撮影が物体撮影モードか背景撮影モードかを判定する。物体撮影モードである場合、画像合成に用いる物体領域の画像として撮影し、その画像をＩＤ情報とともに物体撮影画像記憶部１０７に保存すればよい。一方、背景撮影モードである場合には、撮影された画像を、物体領域を求める処理に用いるパラメタの１つとして、撮影した画像をＩＤ情報とともに撮影環境情報記憶部１０６に保存すればよい。

なお、背景撮影モードでは、回転台と背景のみが写った背景撮影画像を、物体撮影モードと同様のカメラ姿勢、照明、回転台の回転角度を組み合わせて撮影する。得られた背景撮影画像は、同じ撮影条件下で撮影される物体撮影画像の撮影環境情報の１つとして、その物体撮影画像に割り当てられるＩＤ情報と対応づけて、撮影環境情報記憶部１０６に記憶する。

また、図９は、本実施形態の物体領域抽出部１２の構成例を示すブロック図である。図９に示すように、物体領域抽出部１２は、領域抽出パラメタ設定部１２１と、領域抽出処理部１２２と、物体姿勢抽出処理部１２３と、物体領域情報記憶部１２４とを含んでいてもよい。

本例において、領域抽出パラメタ設定部１２１は、領域抽出処理部１２２に接続されている。また、領域抽出処理部１２２は、物体姿勢抽出処理部１２３に接続されている。また、物体姿勢抽出処理部１２３は、物体領域情報記憶部１２４に接続されている。

領域抽出パラメタ設定部１２１は、物体領域の抽出元となる物体撮影画像と対応づけられている撮影環境情報を基に、領域抽出処理部１２２で物体領域を抽出するために用いられるアルゴリズムに必要なパラメタである領域抽出パラメタを算出する。算出された領域抽出パラメタの情報は、領域抽出パラメタ情報として領域抽出部１１４に出力される。

ここで、算出するパラメタの内容は、領域抽出処理部１２２で物体領域の抽出に用いるアルゴリズムに依存する。代表的な物体領域の抽出用のアルゴリズムとしては、２枚の画像の画素値の差を基に領域を抽出する背景差分法、領域の連続性をエネルギーとして算出し領域分割を行うグラフカット、特定色を抽出するクロマキーなどのキーイングがある。なお、本実施形態では、上記のようなアルゴリズムと、撮影条件が異なる画像間の差分を利用した物体領域、背景領域またはそれらの候補領域の補間処理またはそれら領域の正誤の判定処理とを組み合わせて用いるため、そのためのパラメタを含む。

パラメタの内容としては、物体撮影画像と撮影環境情報の１つである背景撮影画像とで回転台の位置を合わせるオフセットや、物体領域の抽出方法が背景差分法であれば、物体撮影画像と背景撮影画像間の差分が一定以上となる領域を背景とするための閾値（背景差分の閾値）、キーイング手法ならば、背景として抽出する色を示す値の範囲（例えばＲＧＢ値がとり得る値など）、グラフカットであればグラフカットのパラメタを求めるための前処理に用いる背景差分法の閾値、回転台の側面領域位置の情報を出力する。また、撮影条件が異なる画像間の差分を利用した補間処理または判定処理を行うためのパラメタとして、撮影環境情報を出力する。

物体撮影画像と背景撮影画像の位置合わせによるオフセット算出は、カメラ姿勢を同一にしても撮影機器への振動などの数ピクセルのズレが生じる可能性を考慮したものであり、その位置合わせは、両画像に写る回転台の形状によるテンプレートマッチングによる画像処理技術などで行えばよい。

また、背景差分の閾値は、物体撮影画像の背景領域が背景撮影画像とどの程度違った見え方をするかによって定めればよい。

また、背景として抽出する色を示す値の範囲は、背景撮影画像のＲＧＢ値がとり得る範囲を用いる。これにより照明の設定によって背景撮影画像における背景領域の色味が変化しても背景領域を算出できるようにする。

また、回転台を用いる場合、物体は回転台の上に位置するため、回転台の側面は一般に物体領域と重ならない。このような特性を利用して、回転台の側面部分については背景領域としてあらかじめ抽出しておき、パラメタとして出力してもよい。回転台の側面は、回転台が一般に剛体かつ円柱形であることを考慮し、円柱形または回転台上面部分の楕円形のフィッティングを行うことで推定することができる。

領域抽出処理部１２２は、領域抽出パラメタ設定部１２１から得られる領域抽出パラメタを基に、物体撮影画像から物体領域を抽出する。なお、領域抽出処理部１２２は、一般的な物体領域の抽出用のアルゴリズムと組み合わせて、撮影条件が異なる他の物体撮影画像と間の差分を利用した補間処理や判定処理を行うことにより、より高精度な物体領域抽出手法を実施する。

領域抽出処理部１２２は、例えば物体領域の抽出アルゴリズムとして背景差分を用いる場合、まず、領域抽出パラメタ情報の画像間のオフセット値を用いて物体撮影画像と背景撮影画像とで回転台の位置が合うよう位置合わせを行う。次いで、領域抽出パラメタ情報として受け取った背景差分の閾値を用いて背景差分法により物体領域を抽出する。

図１０は、背景差分を用いて領域抽出を行う場合の抽出例を示す説明図である。なお、図１０（ａ）は、物体領域の抽出元とされる物体撮影画像の例を示す説明図である。また、図１０（ｂ）は、背景撮影画像の例を示す説明図である。また、図１０（ｃ）は、図１０（ａ）に示す物体撮影画像と図１０（ｂ）に示す背景撮影画像との差分を基に領域抽出を行った結果の例を示す説明図である。図１０（ｃ）に示すように、位置合わせ後の物体撮影画像と背景撮影画像との間で各画素の画素値の差分を取ることで、物体領域を抽出することができる。

また、キーイングによる色抽出を用いる場合、まず背景差分を用いる場合と同様に、領域抽出パラメタ情報の画像間のオフセット値を用いて物体撮影画像と背景撮影画像とで回転台の位置が合うよう位置合わせを行う。次いで、領域抽出パラメタ情報内にある背景として抽出する色の値の範囲を用いて、物体撮影画像から色の値の範囲に含まれる画素値を持つ領域を背景領域として抽出する。なお、物体領域は、抽出した背景領域を除いた領域とすればよい。

また、グラフカットにより物体領域を抽出することができる。一般的に物体領域（前景領域）の抽出は、画像中の各画素に前景か背景かのラベルを付ける問題としてみなすことができ、画像全ての画素に前景・背景ラベルを付けたものをラベル画像Ｘとして表現した場合、最も適切な前景領域の抽出は、以下の式（１）に示すエネルギー関数の最小化によって求められる。

以下、このエネルギー最小化を行い、前景／背景領域を切り出すアルゴリズムをグラフカットと呼ぶ。ここで、ｖ，ｕは各画素を表し、Ｘｖ，Ｘｕ＝0なら背景、Ｘｖ，Ｘｕ＝１なら前景（物体）のラベルを表すとする。また、Ｖはピクセルを表す集合である。ここで、Ｄｖ（Ｘｖ）は画素ｖに対する前景らしさをあらわす項で、Ｈｕｖ（Ｘｕ，Ｘｖ）は隣接している画素間のラベルＸｕとＸｖが同一ラベルらしいか否かを表す項である。

本明細書の手法において、特定条件下で撮影した物体領域は背景と差分が大きく、かつ異なる撮影条件で、特に撮影条件を連続的に変えて撮影した画像の差分も大きいほど前景らしいと仮定した場合、上述のエネルギー関数においてＤｖ（Ｘｖ）の項を、以下の式（２）のように設定してもよい。

Ｄｖ（Ｘｖ）＝ｐ１＋ｐ２・・・式（２）

ここで、ｐ１は背景モデルで計算される尤度であって、より具体的には、背景画素との差分が大きいほどエネルギー（値）が小さくなるような尤度である。また、ｐ２は異なる条件下で撮影した２枚の画像間の差分から計算される尤度であって、より具体的には、２枚の画像間の差分が大きいほどエネルギー（値）が小さくなるような尤度である。これにより現状の背景の特性と画像間の変化の特性を考慮した物体領域抽出が可能である。

例えばｐ１は、入力画素値をａ、背景画素値をｃ（例えば背景領域の画素値を基に構成したGaussianModel）、特定のパラメタ値σとすると、差分値が大きいほど前景領域である確率が高いとして、以下の式（３）として計算してもよい。

また、背景モデルの構築方法として、より複雑なＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（ＧＭＭ）や他のアプローチを採用してもよい。なお、ＧＭＭを用いた背景モデルの構築方法の一例が、例えば、文献１「田中和之、”確率モデルによる画像処理技術入門”、森北出版、２００６年９月、ｐ．２９」に記載されている。

また、ｐ２についても、入力画素値をａとし、それとは異なる条件下で撮影した画像の画素値をｂとすると、差分値が大きいほど前景領域である確率が高いとして、以下の式（４）として計算してもよい。

また、単純にｐ１＋ｐ２にするのではなく、何らかの非線形変換ｆを用いて、以下の式（５）として計算してもよい。

Ｄｖ（Ｘｖ）＝ｆ（ｐ１）＋ｆ（ｐ２）・・・式（５）

非線形変換ｆの例として、値域が［０，１］になるように、以下の式（６）に示すような正規化計算をしてもよい。

また、他の例として、ｐ２の効果が大きくなるようにｐ２に定数倍を乗じるなどの処理を行ってもよい。

以上のように、エネルギー最小化計算により、領域分割を行うことが可能となる。そして、物体領域または背景領域の正解シードを与えることで物体領域を抽出することができる。

なお、グラフカットを用いる場合、まず背景差分を用いる場合と同様に、領域抽出パラメタ情報の画像間のオフセット値を用いて物体撮影画像と背景撮影画像の回転台の位置が合うよう位置合わせを行う。次いで、領域抽出パラメタ情報として受け取った背景差分の閾値を用いた背景差分法、またはキーイングを用いて物体候補領域を抽出してもよい。

そして、その一方で背景差分法により差分が閾値より小さい領域を背景候補領域として抽出する。また、領域抽出パラメタ情報に回転台の側面部分のパラメタがある場合、その側面領域も背景候補領域として抽出する。次いで、グラフカットのパラメタとして物体候補領域の例である前景シードと、背景領域の例である背景シードを作成する。

グラフカットでは、エネルギーを求める初期値として前景領域（前景シード）、背景領域（背景シード）を与えるが、これら２つのシードが物体／背景領域として正確に与えられるほど一般に領域分割精度が高くなる。前景シードには、前景領域の内側部分を設定し、背景シードには、背景領域の内側部分を設定する。前景シードと背景シードを用いたグラフカットにより、最終的に物体撮影画像から物体領域の抽出が行われる。

図１１は、グラフカットを用いて領域抽出を行う場合の抽出例を示す説明図である。なお、図１１（ａ）は、物体領域の抽出元とされる物体撮影画像の例を示す説明図である。図１１（ｂ）は、図１１（ａ）の画像に対して、物体領域大分類と背景差分とを行った場合の領域抽出例を示す説明図である。図１１（ｃ）は、図１１（ｂ）の領域抽出例を基に、前景シードと背景シードを設定した例を示す説明図である。図１１（ｄ）は、図１１（ｃ）の前景シードと背景シードの設定例を基に、物体領域を抽出した場合の領域抽出例を示す説明図である。

図１１（ｂ）に示すように、物体撮影画像に対して、回転台の側面領域を明確な背景領域として抽出し、さらに背景差分により背景候補領域の抽出と、物体候補領域の抽出を行ってもよい。そして、図１１（ｃ）に示すように、前景候補領域の内側を前景シードとし、背景領域および背景候補領域の境界近くを背景シードとして指定してグラフカットを行うことで物体領域を抽出してもよい。

なお、すでに説明したように、領域抽出処理部１２２は、上記のようなアルゴリズムに加えて、画像間の物体の見え方の変化の連続性を考慮することでより高精度な物体領域の切り出しを行う。

図１２〜図１４は、画像間の差分の例を示す説明図である。図１２は、物体が乗った回転台を少しずつ回転させて撮影したときのその回転の前後にわたり撮影された画像間の差分の例を示す説明図である。なお、図１２（ａ）は、回転台の回転角度がαのときに撮影された物体撮影画像の例を示す説明図である。図１２（ｂ）は、回転台の回転角度がα＋Δのときに撮影された物体撮影画像の例を示す説明図である。図１２（ｃ）は、図１２（ａ）に示す物体撮影画像と図１２（ｂ）に示す物体撮影画像との間で差分をとった場合の差分画像の例である。ここで、差分画像は、フレーム間で画素値の差が大きいほどその画素の輝度が明るくなるような画像としている。図１２（ｃ）に示すように、十分小さい角度Δ（例えば、１０度）で回転台を回転させた場合、そのフレーム間差分には、主に縦方向に物体の見え方の僅かな変化を示すエッジのような差分を抽出することができる。このエッジのような差分は、物体領域の差分であって、このエッジ領域と背景領域との境界は、物体の輪郭を表すエッジとして利用できる。

また、図１３は、物体が乗った回転台に対し、カメラの仰角を少しずつ変えて撮影したときのその角度変化の前後にわたり撮影された画像間の差分の例を示す説明図である。なお、図１３（ａ）は、カメラの仰角がαのときに撮影された物体撮影画像の例を示す説明図である。図１３（ｂ）は、カメラの仰角がα＋Δのときに撮影された物体撮影画像の例を示す説明図である。図１３（ｃ）は、図１３（ａ）に示す物体撮影画像と図１３（ｂ）に示す物体撮影画像との間で差分をとった場合の差分画像の例である。図１３（ｂ）に示すように、十分小さい角度Δ（例えば、１０度）でカメラの仰角を変更した場合、主に横方向に物体の見え方の僅かな変化を示すエッジの様な差分を抽出することができる。このエッジのような差分は、物体領域の差分であって、このエッジ領域と背景領域との境界は、物体領域の輪郭を表すエッジとして利用できる。

また、図１４は、ある強度の光が照射される方向を少しずつ変えて撮影したときの画像間の差分の例を示す説明図である。なお、図１４（ａ）は、右側から強い光が照射されるような照明設定のときに撮影された物体撮影画像の例を示す説明図である。図１４（ｂ）は、左側から強い光が照射されるような照明設定のときに撮影された物体撮影画像の例を示す説明図である。図１４（ｃ）は、上側から強い光が照射されるような照明設定のときに撮影された物体撮影画像の例を示す説明図である。図１４（ｄ）は、図１４（ａ）に示す物体撮影画像と図１４（ｂ）に示す物体撮影画像との間で差分をとった場合の差分画像の例である。図１４（ｄ）に示すように、ある方向の照明の強度を強くすると、物体が反射する光の強さが変化するので、照射された側における物体領域の輪郭と物体の内部領域とを抽出することができる。なお、この場合、物体領域のずれが小さくなるよう、回転台の角度とカメラ姿勢を固定した上で、照明制御を連続して調整するのが好ましい。

このように、回転台の回転角度やカメラの仰角、照明設定（本例では光の照射方向）が異なる画像間の差分を抽出することにより、物体領域の差分、物体領域の輪郭、物体の内部領域を抽出できるので、抽出された物体領域の差分、物体領域の輪郭、物体の内部領域の少なくとも１つ以上を利用して、例えば、グラフカットの前景シードを追加する処理を行ってもよい。

グラフカットの前景シートの追加方法は、例えば、抽出された物体領域の差分、物体領域の輪郭、物体の内部領域をそのままグラフカットの前景シードとして追加してもよい。

図１５は、撮影条件が異なる画像間の差分を基に前景シードを追加した例を示す説明図である。なお、図１５（ａ）は差分を利用しなかった場合の前景シード・背景シードの例を示す説明図であり、ここでは図１１（ｃ）と同じ例を示している。図１５（ｂ）は、撮影条件が異なる画像間の差分の例を示す説明図であり、ここでは図１４（ｄ）と同じ例を示している。図１５（ｃ）は、図１５（ａ）に示す前景シード・背景シード例にさらに図１５（ｂ）の差分画像を利用して前景シードを追加した場合の例を示す説明図である。なお、図１５（ｃ）に示す例では、図１５（ｂ）の例に対して、さらに照明方向が異なる画像間の差分として抽出される物体領域の輪郭と内部領域とが前景シードとして加えられている。このようにして、より詳細な前景シード領域を与えることで、より高精度に物体領域の抽出を行うことができる。

なお、グラフカット以外のアルゴリズムを用いる場合も同様に、画像間の差分として抽出された物体領域の差分、物体領域の輪郭、物体の内部領域を、物体領域の内部領域やその境界を示す情報に基づいて、既に抽出した物体領域や背景領域やそれらの候補領域に対して補間等を行えばよい。例えば、画像間の差分により物体の内部領域として抽出された領域が、所定のアルゴリズムによる抽出処理の結果、物体領域として抽出されていなかった場合には、その領域を物体領域として抽出されるよう修正してもよい。また、例えば、所定のアルゴリズムによる抽出処理の結果、物体領域として抽出された領域が、画像間の差分により物体領域の差分として抽出された場合には、物体領域の差分とされた領域を、物体領域から除外する処理を行ってもよい。また、例えば、所定のアルゴリズムによる抽出処理の結果、物体領域として抽出された領域の境界が、画像間の差分により抽出された物体領域の輪郭と一致していなかった場合には、画像間の差分により抽出された物体領域の輪郭の方を物体領域の境界とするなどの補間処理を行ってもよい。

領域抽出処理部１２２は、このようにして最終的に抽出した物体領域を示す物体領域情報を、物体姿勢抽出処理部１２３に出力する。物体領域情報は、例えば、物体領域の物体撮影画像上の画素位置を示す情報であってもよい。また、物体領域をなす各画素の画素値の情報を含んでいてもよい。本実施形態では、物体領域情報として、物体領域の物体撮影画像上の画素位置を示す情報と、物体領域をなす各画素の画素値の情報とを含む物体領域画素情報を出力する。

物体姿勢抽出処理部１２３は、物体領域が抽出された物体撮影画像に付されている撮影環境情報の外部パラメタと、該画像上の物体領域の位置から、該物体領域がカメラ位置に対しどのようなアングルおよび距離で撮影されているかを算出する。例えば、物体が人物である場合、足元位置に対して、カメラ位置と、該足元位置の水平方向とカメラ位置の鉛直方向とが交わる地点とがなす角度や、頭位置に対して、カメラ位置と、該頭位置の水平方向とカメラ位置の鉛直方向とが交わる地点とがなす角度、また、カメラの高さなどを算出する。そして、算出したこれらの値を物体の姿勢を示す情報とし、物体領域情報の１つとして当該物体撮影画像のＩＤ情報と対応付けて物体領域情報記憶部１２４に記憶する。このとき、物体領域情報に、当該物体領域を撮影したときの撮影環境情報を含ませてもよい。撮影環境情報は、一部の情報のみを抜粋してもよい。例えば、照明設定のみを抜粋して記憶させてもよい。なお、最終的には、合成画像生成部１３が当該物体領域の物体撮影画像上での位置と、当該物体領域に移っている物体の姿勢（見え方）とを特定できればよく、ここではそのための情報が出力されればよい。

物体領域情報記憶部１２４は、物体撮影画像に含まれる物体領域に関する情報を記憶する。本実施形態では、物体撮影画像に付されたＩＤ情報と対応付けて、物体の姿勢を示す情報と、物体領域画素情報と、撮影環境情報とを記憶する。

また、図１６は、合成画像生成部１３の構成例を示すブロック図である。図１６に示すように、合成画像生成部１３は、物体領域選択部１３１と、領域合成部１３２とを含んでいてもよい。

本例において、物体領域選択部１３１は、領域合成部１３２に接続されている。

物体領域選択部１３１は、内部パラメタおよび外部パラメタが既知の画像であって物体領域を張り付ける先の画像となる背景画像内の位置において、当該位置に特定の物体が存在すると仮定した場合のカメラの仰角を推定する。ここで、カメラの仰角の推定対象とする位置は、各画素であってもよいし、所定の間隔ごとの画素であってもよい。なお、ここで所定の間隔とは、画素間隔であってもよいし、実空間上の距離間隔であってもよい。実際に物体が置かれた時に近い姿勢で物体領域を張り付けるためには、画像全体に渡り、かつ多くの位置でカメラの仰角を推定することが好ましい。

また、背景画像上での特定物体の配置可能領域や進行方向、照明状態等が既知である場合、それらを背景画像と一緒に読み込む。

また、物体領域選択部１３１は、物体領域について与えられる情報と、背景画像の情報を基に、当該位置における物体の見え方として、カメラの仰角や回転台の角度、照明方向、照明の種類、明るさなどから１つ以上を組み合わせてなる判定パラメータが類似する物体領域情報を選んでもよい。そのような場合には、物体領域選択部１３１は、選んだ物体領域情報を識別するためのＩＤ情報と、張り付け先となる背景画像上の位置を示す情報とを対応づけた情報を、位置別物体領域選択情報として領域合成部１３２に出力する。なお、１つの位置に対して複数の物体領域情報が選ばれてもよい。例えば、複数の物体が撮影される場合などには、物体ごとに各々見え方の類似性の判定処理を行い、その処理で物体の見え方が類似していると判定された物体領域情報があれば、各々張り付ける対象として選んでもよい。

例えば、物体が人物である場合、物体領域選択部１３１は背景画像内のある画素において、世界座標系での当該画素が対応している位置（座標位置）および当該背景画像を撮影したときのカメラ位置とを基に、座標位置に対してカメラ位置が地平面との間でなす角度を求め、求めた角度と、物体領域情報に含まれるカメラの仰角とを比較し、同じ物体を写した物体領域の中で両者の角度が類似しているものを選んでもよい。角度を比較しているのは、実際にその座標位置に人物がいたと仮定した場合に、その人物の見え方に近い物体領域を抽出するためである。角度の類似度算出は角度の差分でもよいし、その他の手法でもよい。なお、カメラの仰角と他の要素とを組み合わせて判定パラメータとしてもよい。そのような場合には、各要素の類似度を総合して最も類似しているものを選ぶようにしてもよい。

領域合成部１３２は、物体領域選択部１３１から出力される位置別物体領域選択情報に基づいて、指定された物体領域画像を、背景画像上の指定された位置へ合成して、合成画像を生成する。また、領域合成部１３２は、生成された合成画像を学習画像とし、各学習画像に、当該画像における物体領域を示す情報と、前記物体領域の撮影環境を示す情報とを対応づけて、学習データとして出力する。

図１７は、合成処理の例を示す説明図である。なお、図１７（ａ）は、張り付け対象とされた物体領域画像の例を示す説明図である。また、図１７（ｂ）は、張り付け先とされた背景画像の例を示す説明図である。また、図１７（ｃ）は、合成画像の例を示す説明図である。例えば、図１７（ａ）の物体領域画像に写っている物体を写したときのカメラ姿勢と、図１７（ｂ）の背景画像の×印の位置にその物体がいると仮定して当該物体を写す場合のカメラ姿勢とが類似するとして、図１７（ａ）の物体領域画像が選ばれた場合、その×印部分に、選択された物体領域画像を合成する。

画像合成を行う際、上述したように物体の見え方を合わせるだけでなく、物体がとり得る画像上のサイズ（画像上でのピクセルの幅および高さ）も調整する。例えば、物体領域の実空間上での高さが不明である場合、物体領域の高さをその物体がとりえる適当な値に設定し、その高さの物体が背景画像にある場合の高さ方向のピクセル数を求めてもよい。そして、物体領域画像の高さが、求めたピクセル数の高さになるよう物体領域画像を幾何変換した上で、背景画像に張り付けてもよい。幾何変換の例としてはアフィン変換が挙げられる。

なお、物体領域情報として、物体の高さを示す情報が与えられる場合には、その高さ情報を基に、その高さの物体が背景画像にある場合の高さ方向のピクセル数を推定してもよい。物体の高さ情報は、例えば、撮影パターン情報の一部として物体を撮影する際に外部より与えてもよい。

本実施形態において、合成用物体撮影処理部１１は、例えば、指定された撮影条件に合致するよう撮影環境を変更するための各種機器に対して制御信号を出力するためのインタフェースと、プログラムに従って動作するＣＰＵ等の情報処理装置と、記憶装置とによって実現される。また、物体領域抽出部１２，合成画像生成部１３は、プログラムに従って動作するＣＰＵ等の情報処理装置と、記憶装置とによって実現される。また、合成用背景画像蓄積部１４は、記憶装置によって実現される。なお、学習データ生成システムは、１つの装置により実現されてもよいし、複数の装置を用いて実現されていてもよい。

次に、本実施形態の動作について説明する。図１８は、本実施形態の学習データ生成システムの動作の一例を示すフローチャートである。図１８に示す例では、まず、合成用物体撮影処理部１１が、外部から受け付けた撮影パターン情報に従って備え付けられた機器を制御するなどして、撮影条件を連続的に変化させ、各々の撮影条件に対応する物体撮影画像を生成する（ステップＳ１０１）。

次いで、物体領域抽出部１２が、生成された各物体撮影画像から、物体領域を抽出する（ステップＳ１０２）。このとき、物体領域抽出部１２は、同一物体を撮影した画像群の中で物体領域の抽出元とする物体撮影画像に対して、撮影条件が連続的な変化となっている他の物体撮影画像との差分に関する情報に基づいて、物体領域の抽出を行う。

同一物体について撮影された全ての物体撮影画像から物体領域が抽出されると、合成画像生成部１３が、合成用背景画像蓄積部１４に記憶されている背景画像に、物体領域画像を選別しつつ合成する（ステップＳ１０３）。そして、得られた合成画像を、その画像内における物体領域に関する情報とともに出力する（ステップＳ１０４）。ここでは、物体領域に関する情報として、少なくとも物体領域の位置を示す情報と、物体の姿勢を示す情報とを出力する。

また、図１９は、合成用物体撮影処理部１１の動作の一例を示すフローチャートである。図１９に示す例では、まず物体撮影管理手段１０１が、物体の撮影に用いるカメラの内部パラメタおよび外部パラメタの推定を行う（ステップＳ２０１）。各パラメタの推定は、一般的なカメラキャリブレーションの手法を用いて良い。ただし、外部パラメタは、あらかじめ撮影パターンとして与えられるカメラの角度・高さをカメラに設定した後に推定する。

次いで、物体撮影管理手段１０１は、外部から与えられた撮影パターン情報に基づき、撮影計画を作成する（ステップＳ２０２）。ここでは、撮影を行う順番に従って、各撮影時のカメラの角度と高さ、照明の設定、回転台の角度の組み合わせを作成する。

次に、物体撮影管理手段１０１は、撮影モードの判定処理を行い、撮影される画像の出力先を設定する（ステップＳ２０３）。ここでは、撮影モードが物体撮影モードであれば、撮影される画像は物体撮影画像であるとして、出力先を撮影画像蓄積手段１０７に設定する。一方、撮影モードが背景撮影モードであれば、撮影される画像は背景撮影画像であるとして、出力先を撮影環境情報蓄積手段１０６に設定する。

次に、物体撮影管理手段１０１は、撮影パターンを網羅したか否かを判定し（ステップＳ２０４）、網羅していない場合には、ステップＳ２０２で作成した撮影時のカメラの角度と高さ、照明の設定、回転台の角度の組み合わせの１つを撮影環境として設定するための各機器への操作情報を生成し、操作内容に応じてカメラ配置変動、照明変動、回転台変動をそれぞれ管理している変動部１０２〜１０４に出力する（ステップＳ２０５）。

次に、各変動部１０２〜１０４は、物体撮影管理手段１０１からの操作情報を基に、照明設定処理（ステップＳ２０６）や、カメラ配置設定処理（ステップＳ２０７）や、回転台角度設定処理（ステップＳ２０８）を行う。例えば、照明設定処理では、照明変動部１０３が、備え付けられた照明の方向とＯＮ／ＯＦＦを指示された内容に設定するために、照明制御機器５０２に制御信号を出力する。また、例えばカメラ配置設定処理では、カメラ配置変動部１０２が、備え付けられたカメラの高さや方向を指示された内容に設定するために、カメラ配置制御機器５０２に制御信号を出力する。また、例えば回転台角度設定処理では、回転台角度変動部１０４が、備え付けられた回転台の角度を指示された内容に設定するために、回転台５０１に付随するコントロール用の機器に制御信号を出力する。

次に、設定された撮影環境で撮影処理を行い（ステップＳ２０９）、撮影された画像と撮影環境情報とを紐付けて蓄積手段１０６，１０７に記憶させる。撮影処理では、物体撮影管理手段１０１が撮影手段１０５に撮影の指示を出力し、それを受けた撮影手段１０５がカメラに制御信号を出力することで、そのカメラから撮影画像を得る。

１つの撮影条件につき撮影処理が完了すると、ステップＳ２０４に戻り、撮影パターンが網羅されたか否かを判定し、撮影パターンが網羅された場合には（ステップＳ２０４のＹｅｓ）、一連の処理を終了する。撮影パターンが網羅されていない場合は（ステップＳ２０４のＮｏ）、次の撮影時のカメラの角度と高さ、照明の設定、回転台の角度の組み合わせを基に、撮影環境の設定から撮影まで行い、全ての組み合わせが終わるまで撮影を行う。

また、図２０は、物体領域抽出部１２の動作の一例を示すフローチャートである。図２０に示す例では、まず領域抽出パラメタ設定部１２１が、領域抽出に必要なパラメタを算出し、領域抽出パラメタとして設定する（ステップＳ３０１）。

次に、領域抽出処理部１２２は、領域抽出パラメタ設定部１２１から得られる領域抽出パラメタを基に、第１の物体領域抽出処理を行う（ステップＳ３０２）。ここでは、領域抽出パラメタと、物体撮影画像と、その撮影環境情報とに基づいて、当該物体領域画像から物体領域や背景領域またはそれらの候補領域を抽出する。

次に、領域抽出処理部１２２は、抽出元の画像を含む、撮影条件の異なる画像間で差分を抽出する（ステップＳ３０３）。ここでは、抽出元となる画像に対して、該画像の撮影条件から連続的に変化された撮影条件下で撮影された画像を用い、両画像間の差分を抽出する。

次に、撮影抽出処理部１２２は、抽出した画像間の差分を示す情報を基に、ステップＳ３０２で抽出された物体領域や背景領域またはそれらの候補領域を補間し、最終的な物体領域を決定する（ステップＳ３０４）。

次に、物体姿勢抽出処理部１２３は、物体の姿勢を算出し、算出した物体の姿勢を示す情報を物体領域情報に含めて記憶する（ステップＳ３０５）。

また、図２１は、合成画像生成部１３の動作の一例を示すフローチャートである。図２１に示す例では、まず、物体領域選択部１３１が、合成用の背景画像上で、物体領域を張り付ける先の位置を決定する（ステップＳ４０１）。例えば、各画素であってもよいし、一定の間隔毎の位置であってもよい。

次に、物体領域選択部１３１は、当該位置に物体がいるとしたときの当該物体が背景画像に写る場合のカメラの仰角を推定する（ステップＳ４０２）。

次に、物体領域選択部１３１は、推定したカメラの仰角を基に、背景画像における当該位置での物体の見え方と相関の高い物体領域画像を選択する（ステップＳ４０３）。ここでは、例えば、いずれもカメラの仰角が推定されたカメラの仰角と類似する物体領域画像が選択されればよい。なお、同一の物体であっても様々な回転台の角度で撮影された画像があれば複数選択される。また、複数の物体が登録されている場合は、各物体についてカメラの仰角が類似する物体領域画像が選択される。

次に、領域合成部１３２は、選択された物体領域画像を、背景画像上の指定された位置へ合成し、得られた画像を学習画像として、物体領域情報とともに出力する（ステップＳ４０４）。

以上のように、本実施形態によれば、様々な角度でまた様々な照明設定で実際の物体を、そのときの撮影条件と対応づけながら撮影するとともに、そのようにして得られた物体撮影画像から、人手を介さずにかつ高精度に物体領域を抽出した上で、さらに物体の見え方の相関が高い物体領域画像を選んで背景画像と合成するので、物体検出器や物体識別器の精度向上に寄与する学習データを低コストで大量に生成することができる。

また、図２２は、合成用物体撮影処理部１１の他の構成例を示すブロック図である。図２２に示すように、合成用物体撮影処理部１１は、さらに物体属性蓄積部１１０を含んでいてもよい。

物体属性蓄積部１１０には、撮影される物体の属性情報、物体の色、テクスチャ、物体名、その他の物体の特徴などがあらかじめ物体属性情報として保存されている。物体属性情報の例として、物体が人間である場合、人間の身長、髪の色、服装種類、服装の色、所持品、メガネ、マスクの有無などの情報が含まれる。この物体属性情報は、作成する合成画像の種類を絞り込む際に用いられる。

そのような場合には、物体撮影管理部１０９は、撮影時に、ＩＤ情報と、物体属性情報を指定するためのキーからなる物体指定情報とを物体属性蓄積部１１０に送ってもよい。物体属性蓄積部１１０は、物体指定情報により特定される物体属性情報を、撮影環境情報の１つとして撮影環境情報記憶部１０６にＩＤ情報と対応づけて記憶させる。または、同一の物体を撮影する物体撮影画像間に共通する情報であるので、まとめて物体領域情報として物体領域情報記憶部１２４に出力してもよい。物体領域情報記憶部１２４では、物体属性情報を含む物体領域情報を蓄積する。

また、領域合成部１３２は、選択された物体領域画像の物体領域情報に物体属性情報が含まれており、さらにその中に物体の高さ情報がある場合には、その高さ情報を基に×印での物体領域の高さ方向のピクセル数を推定し、物体領域画像の高さをそのピクセル数に幾何変換してもよい。

なお、図２２では、物体属性情報があらかじめ蓄積されているものとして図示したが、物体撮影管理部１０９に撮影パターン情報の一部として直接入力される形態をとってもよい。

物体属性情報が付加されれば、学習データがより質の高いものとなるだけでなく、背景画像に実際に写される実物体の見え方により近い合成画像を生成することができるので、これによっても学習データの質の向上が見込める。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

また、上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、前記物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出することを特徴とする学習データ生成システム。

（付記２）前記物体領域抽出手段は、前記第１の物体撮影画像の撮影条件に対して連続的な変化となっている撮影条件で撮影された第２の物体撮影画像を利用して、前記第１の物体撮影画像から物体領域を抽出する付記１に記載の学習データ生成システム。

（付記３）前記物体領域抽出手段は、前記第１の物体撮影画像と前記第２の物体撮影画像間の差分に関する情報に基づいて、前記第１の物体撮影画像から物体領域を抽出する付記１または付記２に記載の学習データ生成システム。

（付記４）前記物体領域抽出手段は、前記第１の物体撮影画像と前記第２の物体撮影画像間の差分に関する情報に基づき、第１のアルゴリズムを用いて前記第１の物体撮影画像から抽出された物体領域、背景領域またはそれらの候補領域を補間する付記１から付記３のうちのいずれかに記載の学習データ生成システム。

（付記５）前記撮影処理手段は、回転台による物体の向き変動、照明変動またはカメラの高さ変動のいずれか１つ以上を組み合わせて、撮影条件を変更する付記１から付記４のうちのいずれかに記載の学習データ生成システム。

（付記６）指定された背景画像に、物体撮影画像から前記物体領域抽出手段によって抽出された物体領域を切り出した画像である物体領域画像を合成する画像合成手段を備え、
前記画像合成手段は、背景画像への物体領域の張り付け先とされた位置に対して、前記背景画像での当該位置にいる前記物体の見え方と相関の高い物体領域画像を選別した上で、前記位置に物体領域画像を合成する付記１から付記５のうちのいずれかに記載の学習データ生成システム。

（付記７）前記画像合成手段は、物体の見え方の相関の高さを求めるパラメータとして、カメラの仰角を用いる付記６に記載の学習データ生成システム。

（付記８）被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、前記物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を利用して、前記第１の物体撮影画像から物体領域を抽出することを特徴とする学習データ装置。

（付記９）被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された物体撮影画像と、撮影時の撮影条件を示す情報を含む撮影環境情報とを対応づけ、前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する際に、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出することを特徴とする学習データ生成方法。

（付記１０）コンピュータに、被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける処理と、前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する処理とを実行させ、前記物体領域を抽出する処理で、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出させるための学習データ生成用プログラム。

本発明は、画像を用いて物体に関する学習を行うものがあれば、その学習に用いる学習用データを生成する用途に好適に適用可能である。

１撮影処理手段
２物体領域抽出手段
３画像合成手段
４背景画像記憶手段
１１合成用物体撮影処理部
１２物体領域抽出部
１３合成画像生成部
１４合成用背景画像蓄積部
１０１物体撮影管理部
１０２カメラ配置変動部
１０３照明変動部
１０４回転台変動部
１０５撮影処理部
１０６撮影環境情報記憶部
１０７物体撮影画像記憶部
１０８カメラパラメタ情報記憶部
１１０物体属性記憶部
１２１領域抽出パラメタ設定部
１２２領域抽出処理部
１２３物体姿勢抽出処理部
１２４物体領域情報記憶部
１３１物体領域選択部
１３２領域合成部
５０１回転台
５０２カメラ配置／照明制御機器
５０３対象物体
５０４照明
５０５撮影装置（カメラ）

Claims

被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、
前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、
前記物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出する
ことを特徴とする学習データ生成システム。
前記物体領域抽出手段は、前記第１の物体撮影画像の撮影条件に対して連続的な変化となっている撮影条件で撮影された第２の物体撮影画像を利用して、前記第１の物体撮影画像から物体領域を抽出する
請求項１に記載の学習データ生成システム。
前記物体領域抽出手段は、前記第１の物体撮影画像と前記第２の物体撮影画像間の差分に関する情報に基づいて、前記第１の物体撮影画像から物体領域を抽出する
請求項１または請求項２に記載の学習データ生成システム。
前記物体領域抽出手段は、前記第１の物体撮影画像と前記第２の物体撮影画像間の差分に関する情報に基づき、第１のアルゴリズムを用いて前記第１の物体撮影画像から抽出された物体領域、背景領域またはそれらの候補領域を補間する
請求項１から請求項３のうちのいずれか１項に記載の学習データ生成システム。
前記撮影処理手段は、回転台による物体の向き変動、照明変動またはカメラの高さ変動のいずれか１つ以上を組み合わせて、撮影条件を変更する
請求項１から請求項４のうちのいずれか１項に記載の学習データ生成システム。
指定された背景画像に、物体撮影画像から前記物体領域抽出手段によって抽出された物体領域を切り出した画像である物体領域画像を合成する画像合成手段を備え、
前記画像合成手段は、背景画像への物体領域の張り付け先とされた位置に対して、前記背景画像での当該位置にいる前記物体の見え方と相関の高い物体領域画像を選別した上で、前記位置に物体領域画像を合成する
請求項１から請求項５のうちのいずれか１項に記載の学習データ生成システム。
前記画像合成手段は、物体の見え方の相関の高さを求めるパラメータとして、カメラの仰角を用いる
請求項６に記載の学習データ生成システム。
被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、
前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、
前記物体領域抽出手段は、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を利用して、前記第１の物体撮影画像から物体領域を抽出する
ことを特徴とする学習データ装置。
被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された物体撮影画像と、撮影時の撮影条件を示す情報を含む撮影環境情報とを対応づけ、
前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する際に、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出する
ことを特徴とする学習データ生成方法。
コンピュータに、
被写体とされる物体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で撮影装置に撮影を指示する信号を出力し、前記信号に応じて生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける処理と、
前記各物体撮影画像から、前記物体が写っている領域である物体領域を抽出する処理とを実行させ、
前記物体領域を抽出する処理で、物体領域の抽出元とされた第１の物体撮影画像とは撮影条件が異なる第２の物体撮影画像を用いて、前記第１の物体撮影画像から物体領域を抽出させる
ための学習データ生成用プログラム。