JP2016099743A

JP2016099743A - 対象領域検出装置、方法、及びプログラム

Info

Publication number: JP2016099743A
Application number: JP2014235071A
Authority: JP
Inventors: 之人渡邉; Yukito Watanabe; 豪入江; Takeshi Irie; 啓之新井; Hiroyuki Arai; 行信谷口; Yukinobu Taniguchi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2016-05-30

Abstract

【課題】ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。
【解決手段】指示部領域検出部２０２により、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、対象領域判定部２０４により、検出された指示部領域情報に基づいて、画像から対象物を含む領域を示す対象領域情報を検出する。
【選択図】図１

Description

本発明は、対象領域検出装置、方法、及びプログラムに係り、特に、入力画像に写っている対象物の領域を求める対象領域検出装置、方法、及びプログラムに関する。

デジタルカメラ、スマートホン等の携帯撮影デバイスの普及により、一個人が撮影するデジタル写真の枚数が急速に増大した。それに伴い、画像を利用したコミュニケーションが発達し、WWW(World Wide Web)上には大量の画像が蓄積されている。例えば、あるソーシャルメディアサイトでは、毎月２５億の画像がアップロードされている。

ユーザはこのような豊富な画像を見て楽しむことができる一方で、画像中の未知の物体に興味を持っても、その情報を取得することが困難であるという課題が存在する。例えば、画像中のある商品に興味を持っても、ユーザがその商品名、外見等の知識を持っていない場合には、その商品に関する情報を取得することは困難である。

上記問題を解決するためには、画像が何を写しているのかといった情報を画像から特定することが必要となるが、画像に対して１枚ずつ目視で判別を行うことは、極めて手間のかかる作業である。従って、画像中の物体の自動的な特定への要望が高まっている。

従来の方法として、画像内に含まれる物体を推定する画像認識方法がある。例えば、画像中の物体の名称が既知である画像(以下、参照画像とする)によりあらかじめデータセットを構築し、新たに入力された画像(以下、入力画像とする)に含まれる物体の名称を推定する画像認識方法が提案されている（非特許文献１）。

このような画像認識方法においては、画像の特性を表現する画像特徴を算出し、入力画像と参照画像のそれぞれの画像特徴の類似度を計算することで、入力画像と類似する参照画像を発見し、その名称を正解とする。

画像間の類似度を計算する方法としては、例えば、画像の色ヒストグラムを画像特徴としてその類似度を測る方法がある。

しかしながら、対象とする物体のみを撮影することは難しく、撮影した画像に「２つ以上の物体が写る」、「背景に色や模様が存在する」等の現象が発生し課題となる。

上記の現象が発生した場合、当該画像を入力画像とした画像認識を行うことによって、ユーザが意図しない物体の名称が推定される可能性がある。

このような課題に対して、ユーザが対象とする画像中の領域を特定することで検索意図を反映し、類似した画像を正しく発見する技術に関する取り組みがなされてきた。この課題を解決するため、従来いくつかの発明がなされ、開示されてきている。

従来技術では、撮影画像中からあらかじめ物体領域を抽出しておき、さらに、画像中からユーザが検索したい領域を指示し、指示された領域中の物体から抽出した画像特徴によって類似する画像の検索を行う（特許文献１）。ユーザは表示された画像上で、矩形等によって領域を囲むことにより領域の指示を行う。

また、他の従来技術においては、撮影画像をあらかじめ領域分割アルゴリズムを用いて分割しておき、さらに、画像中からユーザが検索したい領域を指示し、指示された領域から抽出した画像特徴によって類似する画像の検索を行う（非特許文献２）。ユーザは表示された分割済み画像の中から領域を選択することによって指示を行う。

また、他の従来技術においては、撮影画像からエッジなどの特徴を抽出し、人間の視覚特性を模擬することによって各画素の重要度を算出し、その重要度に基づいて類似する画像の検索を行う（非特許文献３）。ユーザは指示を行う必要はない。

特開２０００−２０７４２０号公報

A. Torralba, R. Fergus and W. T. Freeman: 80 million tiny images: a large dataset for non-parametric object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008. C. Carson, M. Thomas, S. Belongie, J. M. Hellerstein and J. Malik: Blobworld: a system for region-based image indexing and retrieval. Proceedings of the Third International Conference on Visual Information Systems, 1999. E. Loupias and N. Sebe: Wavelet-based salient points: applications to image retrieval using color and texture features. lecture notes in Computer Science, 2000.

上記特許文献１及び非特許文献２の技術は、矩形で領域を囲む、分割されている領域を指示するなどのユーザの行動によって直感的な指示を行うことができる。しかしながら、撮影後に画像中の領域を指示するため、撮影から検索までの間に回避できない処理時間が発生し、高速に検索することが困難であるという問題がある。

また、マウスやタッチパネル等のポインティングデバイスを持たない機器をカメラとして用いた場合には、撮影した画像を計算機等のポインティングデバイスを持つ機器に移さなければ領域の指示を行うことが困難であり、ユーザに対して更なる負担となるという問題がある。

また、非特許文献３の技術は、ユーザの指示なしに画像中の物体を抽出することができるが、人間の視覚特性を模擬しているのみであり、ユーザが意図しない物体が対象となる可能性があるという問題がある。

また、非特許文献３の技術は、単純に特許文献１または非特許文献２の方法に適用するのみでは、「ポインティングデバイスを持たない機器では物体の指示ができない」、又は「ユーザが意図しない物体が対象となる」という問題点のどちらかは必ず発生する。

本発明では、上記問題を解決するために成されたものであり、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる対象領域検出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る対象領域検出装置は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出する指示部領域検出部と、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する対象領域判定部と、を含んで構成されている。

第２の発明に係る対象物検出方法は、指示部領域検出部と、対象領域判定部と、を含む対象領域検出装置における、対象領域検出方法であって、前記指示部領域検出部は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する。

第１及び第２の発明によれば、指示部領域検出部により、入力された画像から、指示部領域情報を検出し、対象領域判定部により、検出された指示部領域情報に基づいて、画像から対象領域情報を検出する。

このように、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。

また、第１の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から対象領域情報を検出してもよい。

また、第１の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記指示部の形状パターンを決定し、前記決定された形状パターンについて予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、前記指示部領域情報とに基づいて、前記画像から前記対象領域情報を検出してもよい。

また、第１の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から特定の領域を検出し、前記検出した領域について領域分割処理を行うことで、前記対象物からなる領域を検出してもよい。

また、第１の発明において、前記指示部領域検出部は、連続して入力された動画像の各フレーム画像について、前記指示部領域情報を検出し、前記対象領域判定部は、前記フレーム画像の各々について前記対象領域情報を検出し、検出された前記フレーム画像の各々の前記対象領域情報を統合することにより、前記動画像の対象領域情報を検出してもよい。

また、本発明のプログラムは、コンピュータを、上記の対象領域検出装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の対象領域検出装置、方法、及びプログラムによれば、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。

本発明の実施の形態に係る撮影装置の機能的構成を示すブロック図である。撮影時の位置関係を示す図である。対象物を指で指示する例を示す図である。対象物を指示しない例を示す図である。指示部領域情報の例を示す図である。検出される対象領域のパターンの例を示す図である。対象物を指で指示する例を示す図である。検出される対象領域のパターンの例を示す図である。対象物を指で指示する例を示す図である。検出される対象領域のパターンの例を示す図である。対象物を指で指示する例を示す図である。検出される対象領域のパターンの例を示す図である。対象領域情報の例を示す図である。対象領域情報の例を示す図である。対象領域情報の例を示す図である。対象領域情報の例を示す図である。本実施の形態に係る撮影装置における撮影処理ルーチンを示すフローチャート図である。本実施の形態に係る撮影装置における対象領域検出処理ルーチンを示すフローチャート図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態においては、図１に示すように、カメラ装置１０と、対象領域検出装置２０とを備える撮影装置１について説明する。また、本実施の形態における撮影装置は、デジタルカメラとする。

＜本発明の実施の形態に係る撮影装置の構成＞
次に、本発明の実施の形態に係る撮影装置の構成について説明する。図１に示すように、本発明の実施の形態に係る撮影装置１は、ＣＰＵと、ＲＡＭと、後述する撮影処理ルーチン、及び対象領域検出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この撮影装置は、機能的には図１に示すようにカメラ装置１０と、対象領域検出装置２０と、を含んで構成されている。

カメラ装置１０は、撮影部１０１と、制御部１０２と、表示部１０３と、画像記憶部１０４と、を含んで構成されている。

撮影部１０１は、カメラを有し、画像を撮影可能であり、当該カメラにより取得した画像を制御部１０２に送信する。なお、撮影装置１のシャッターボタン（図示省略）が押されていない場合には、プレビュー画像の画像データとして制御部１０２に送信する。一方、撮影装置１のシャッターボタン（図示省略）が押された場合、撮影が行われたとして、取得した画像を撮影画像として制御部１０２に送信する。ここで、プレビュー画像とは、撮影装置１のシャッターボタンを押していない状態で、撮影画像を確認するために提供される画像をいう。

図２に、撮影時の撮影者、撮影装置１、指示部である指、及び撮影対象物の位置関係を示す。本実施の形態においては、図２に示すように、撮影者は、撮影装置１と、撮影の対象物の間に、指示部として予め定められた指を設置し、対象物を指で挟むように対象物を示しながら、撮影装置１のシャッターボタンを押すことにより撮影を行う。ここで、指による指示方法は、例えば、図３に示すように撮影者の左手の親指と人差し指によって対象物の上下を挟むように囲むことにより、対象物を示す。なお、指示部である指により対象物を指示しない場合の撮影画像は、例えば、図４のようになる。

制御部１０２は、撮影部１０１により取得した画像に基づいて、当該画像を表示部１０３から出力させるように表示部１０３を制御する。また、制御部１０２は、撮影部１０１により取得した撮影画像を画像記憶部１０４に記憶する。

表示部１０３は、画像を表示することが可能なディスプレイ等の出力デバイスを有する。表示部１０３は、制御部１０２の制御に従い、撮影部１０１により取得した画像を、表示部１０３のディスプレイに表示する。なお、表示部１０３のディスプレイには、プレビュー画像、及び撮影画像が表示される。

画像記憶部１０４には、撮影部１０１により取得した撮影画像が記憶されている。

対象領域検出装置２０は、入力部２０１と、指示部領域検出部２０２と、パターン記憶部２０３と、対象領域判定部２０４と、結果記憶部２０５と、を含んで構成されている。

入力部２０１は、画像記憶部１０４に記憶されている画像の各々を読み込み、指示部領域検出部２０２に送信する。

指示部領域検出部２０２は、入力部２０１において取得した画像の各々について、当該画像中に存在する、指の領域を示す指示部領域を検出する。本実施の形態においては、公知の指の領域の検出方法を用いて、当該画像から指示部領域を検出する。例えば、色によるセグメンテーションに基づく方法（非特許文献４：S. K. Kang, M. Y. Nam and P. K. Rhee: Color Based Hand and Finger Detection Technology for User Interaction. International Conference on Convergence and Hybrid Information Technology, 2008.）、エッジの検出に基づく方法（非特許文献５：J. Ravikiran, K. Mahesh, S. Mahishi, R. Dheeraj S. Sudheender and V. Nitin: Finger Detection for Sign Language Recognition. Proceedings of the International MultiConference of Engineers and Computer Scientists, 2009.）などを用いればよい。

また、指示部領域検出部２０２は、入力部２０１において取得した画像の各々について、当該画像について取得した指示部領域に基づいて、対象物を示すための指示部の領域を示す指示部領域情報を作成する。具体的には、例えば、取得した指示部領域について、図５に示すようにマスク画像として表現すればよい。当該マスク画像とは、撮影画像と同サイズであり、各ピクセルに１または０の値を持ち、１の値のピクセルが指示部領域であり、０の値のピクセルが指示部領域でないことを示す。

パターン記憶部２０３には、指示部領域情報に基づいて決定される指示部の形状パターンが複数記憶されている。また、パターン記憶部２０３には、指示部の形状パターンの各々に対する対象物を含む対象領域を示す対象領域情報のパターンの各々が記憶されている。

ここで、対象領域とは、画像中のユーザが意図して示している対象物を含む領域である。

例えば、図５に示す指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図６に示すように、上下の指示部領域に挟まれた領域を対象領域情報とするパターンが定義されている。また、図７のように、対象物を指さすことにより指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図８に示すように、指を指している方向の全ての領域を対象領域情報とするパターンが定義されている。この場合、２本指での指示と比べて対象領域は大きくなるが、撮影難度は低くなる。また、図９に示すように、対象物を囲むことにより指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図１０に示すように、指示部領域の内部を対象領域情報とするパターンが定義されている。この場合、指１本又は２本で対象物を指示した場合と比べて撮影難度が高いが、対象物の周囲全方位を含む領域を指示するため、より詳細な対象領域情報を得ることができる。また、図１１に示すように、両手で対象物を囲い込むことで指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図１２に示すように、両手指示部領域の内部を対象領域情報とするパターン、あるいは、例えば両手指示部領域内部の最も左上の点、最も右下の点を頂点とする矩形を対象領域情報とするパターンが定義されている。この場合、撮影装置は手を使わずに撮影が可能なものに限定されるが、物体の大きさに柔軟に対応できる、詳細な対象領域情報を得ることができる等の利点がある。

対象領域判定部２０４は、画像の各々について、当該画像と、指示部領域検出部２０２において取得した当該画像の指示部領域情報と、パターン記憶部２０３に記憶されている当該指示部領域情報に基づいて決定される指示部の形状パターン、及び当該指示部の形状パターンに対する対象領域情報のパターンと、に基づいて、対象領域を検出し、対象領域情報を作成し、結果記憶部２０５に、当該画像と当該画像の対象領域情報との組み合わせの各々を記憶する。

具体的には、まず、指示部領域検出部２０２において取得した当該画像の指示部領域情報について、公知のマッチング方法を用いて、パターン記憶部２０３に記憶されている指示部の形状パターンの各々とのマッチングを行い、当該指示部領域情報に一番類似する指示部の形状パターンを決定する。次に、決定した指示部の形状パターンと、パターン記憶部２０３に記憶されている指示部の形状パターンに対する対象領域情報のパターンの各々とに基づいて、当該指示部の形状パターンに対する対象領域情報のパターンを取得する。そして、当該画像と、取得された対象領域情報のパターンとに基づいて、当該画像の対象領域を検出し、検出した対象領域に基づいて、当該画像の対象領域情報を作成する。

例えば、処理対象の画像の指示部領域情報が図５の場合、当該指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、上下の指示部領域に挟まれた領域であるため、図６に示す指の間の領域を対象領域として検出すればよい。そして、検出した対象領域に基づいて、当該画像の対象領域情報を作成する。ここで、対象領域情報は、指示部領域情報と同様に、マスク画像によって表現し、各ピクセルに１又は０の値を持ち、１の値のピクセルが対象領域であり、０の値のピクセルが対象領域でないことを示す。なお、図６の様な対象領域が検出された場合には、図１３に示すような対象領域情報が作成される。また、図８の様な対象領域が検出された場合には、図１４に示すような対象領域情報が作成される。また、図１０の様な対象領域が検出された場合には、図１５に示すような対象領域情報が作成される。また、図１２の様な対象領域が検出された場合には、図１６に示すような対象領域情報が作成される。

結果記憶部２０５には、画像と、当該画像の対象領域情報との組み合わせが記憶されている。

＜本発明の実施の形態に係る撮影装置の作用＞
次に、本実施の形態に係る撮影装置１の作用について説明する。まず、カメラ装置１０において、撮影部１０１のカメラが起動されると、撮影装置１によって、図１７に示す撮影処理ルーチンが実行される。また、撮影処理ルーチンの終了後に、対象領域検出装置２０において、画像記憶部１０４に記憶されている画像の各々を読み込むと、対象領域検出装置２０によって、図１８に示す対象領域検出処理ルーチンを実行する。なお、ここで、カメラの起動とは、スマートホンやカメラ付携帯電話における撮影アプリケーションの起動、アナログカメラやデジタルカメラにおける電源の起動など、カメラ装置を撮影が可能な状態にすることである。

まず、図１７に示す、撮影処理ルーチンについて説明する。

図１７における、ステップＳ１１では、撮影部１０１において撮影した画像のプレビュー画像を表示部１０３から表示する。

次に、ステップＳ１２では、撮影者は指で撮影対象の物体を指示しながら、撮影装置１のシャッターボタンを押し撮影を行う。

次に、ステップＳ１３では、ステップＳ１２において取得した画像を画像記憶部１０４に記憶する。

次に、ステップＳ１４では、撮影を終了するか否かを判定する。撮影を終了する場合には、撮影処理を終了し、撮影を終了しない場合には、ステップＳ１１へ移行し、ステップＳ１１〜ステップＳ１４の処理を繰り返す。

次に、図１８に示す対象領域検出処理ルーチンについて説明する。

まず、図１８のステップＳ２０では、パターン記憶部２０３に記憶されている指示部の形状パターンの各々、及び指示部の形状パターンに対する対象領域のパターンの各々を読み込む。

次に、ステップＳ２１では、読み込んだ画像の各々のうち、処理対象となる画像を決定する。

次に、ステップＳ２２では、処理対象の画像について、当該画像中に存在する撮影者の指の領域を示す指示部領域を検出し、検出された指示部領域に基づいて、当該画像の指示部領域情報を作成する。

次に、ステップＳ２３では、処理対象の画像について、当該画像の指示部領域情報と、ステップＳ２０において取得した指示部の形状パターンの各々とに基づいて、当該指示部領域情報に対する指示部の形状パターンを決定する。

次に、ステップＳ２４では、処理対象の画像について、当該画像と、ステップＳ２０において取得した指示部の形状パターンに対する対象領域のパターンの各々と、ステップＳ２２において取得した当該画像の指示部領域情報と、ステップＳ２３において取得した指示部の形状パターンと、に基づいて、当該画像の対象領域を検出し、検出された対象領域に基づいて、対象領域情報を作成する。

次に、ステップＳ２５では、処理対象の画像と、ステップＳ２３において取得した、当該画像の対象領域情報との組み合わせを結果記憶部２０５に記憶する。

次に、ステップＳ２６では、読み込んだ画像の全てについてステップＳ２２〜ステップＳ２５の処理を終了したか否かを判定する。全ての画像についてステップＳ２２〜ステップＳ２５の処理を終了した場合には、対象領域検出処理ルーチンを終了する。一方、全ての画像についてステップＳ２２〜ステップＳ２５の処理を終了していない場合には、ステップＳ２１へ移行し、処理対象となる画像を変更し、ステップＳ２２〜ステップＳ２６の処理を繰り返す。

以上説明したように、本発明の本実施の形態に係る対象領域検出装置によれば、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。

また、撮影と同時に、ユーザの意図する物体を直感的かつ簡単に指示できる。

また、ユーザの意図する物体を、ポインティングデバイスを持たないカメラ装置であっても、撮影と同時に直感的かつ簡単に指示できる。また、例えば、画像検索における入力画像として利用できる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本実施の形態においては、撮影装置をデジタルカメラとする場合について説明したが、これに限定されるものではなく、カメラ付携帯電話やスマートホン、眼鏡型コンピュータ、アナログカメラなどの、撮影が可能な他の機器としてもよい。

また、本実施の形態においては、カメラ装置１０に表示部１０３を備える場合について説明したが、これに限定されるものではない。例えば、カメラ装置１０又は撮影装置１に表示部１０３を備えなくてもよい。この場合、プレビュー画像を表示させる処理は省略してもよい。

また、本実施の形態においては、カメラ装置１０に撮影した画像を一度記憶する場合について説明したが、これに限定されるものではない。例えば、カメラ装置１０により撮影した画像を、そのまま対象領域検出装置２０の処理対象としてもよい。

また、本実施の形態においては、撮影者の左手の親指と人差し指によって対象物の上下を挟むように囲むことにより、対象物を指示する場合について説明したが、これに限定されるものではない。例えば、撮影者の左手又は右手の２本の指により対象物を上下問わず（例えば、左右や斜め方向等）囲むことにより対象物を指示してもよい。また、対象物を挟むのでなく、図７及び図９のように、対象物を指さす、対象物を囲む等の方法により対象物を指示してもよい。また、眼鏡型コンピュータなど、手を使わずに撮影が可能な撮影装置の場合などには、図１１に示すように、両手で対象物を囲むことにより対象物を指示してもよい。さらに、対象物を指示する際に用いる指は、親指と人差し指に限らず、撮影者本人の指ではなく、他人の指や代替物を指示部として用いてもよい。

また、本実施の形態においては、静止画像を撮影する場合について説明したが、これに限定されるものではない。例えば、動画像を撮影してもよい。この場合、指の形による対象物の指示の他にも、ジェスチャーによる対象物の指示を用いてもよい。ジェスチャーによる対象物の指示は、例えば、動画像を撮影しながら、撮影対象物の周囲を指でなぞればよい。また、動画像の各フレーム画像について処理を行ってもよい。また、指のトラッキングなどを行ってもよい（非特許文献６：M. Do, T. Asfour and R. Dillmann: Particle Filter-Based Fingertip Tracking with Circular Hough Transform Features. in IAPR Machine Vision Applications, 2011.）。動画像の各フレーム画像を静止画像とした場合、フレーム画像毎に対象領域情報が得られるが、これら対象領域情報について、例えば動画像毎など、任意の数を統合してもよい。統合は、例えば、マスク画像のピクセル毎に対象領域情報の論理和、論理積等をとればよい。また、対象領域情報について有を１、無を０としたうえで、ピクセルごとに対象領域情報を加算し、例えば平均値等の一定値を超えるピクセルを対象領域とすることで統合を行ってもよい。

また、本実施の形態においては、指示部領域情報に基づいて指示部の形状パターンを決定し、指示部の形状パターンに対する対象領域情報のパターンを用いて、対象領域を検出する場合について説明したが、これに限定されるものではない。例えば、予め対象となる、指示部の形状パターンが決まっている場合、取得された指示部領域情報に基づいて、当該指示部の形状パターンが検出されたか否かを判定し、検出されたと判定された場合に、当該指示部領域情報に対する対象領域情報のパターンを用いて対象領域を検出してもよい。

また、本実施の形態においては、撮影装置のシャッターボタンを押す動作により撮影指示が行われる場合について説明したが、これに限定されるものではない。例えば、指によるジェスチャーにより撮影指示を行ってもよい。ジェスチャーとしては、Ｓミリ秒間指が動かないこと等とすればよい。Ｓミリ秒間指が動かないとは、例えば、プレビュー画像の差分画像をＴミリ秒毎に算出し、差分画像中でＤ以上の値を持つピクセルを差分があるとし、差分があるピクセルがＰ個以下である状態がＳミリ秒続いた場合に、Ｓミリ秒間指が動かなかったとし、撮影指示を行えば良い。ここでＳ、Ｄは自然数、Ｔは１以上Ｓ以下の自然数、Ｐは０以上プレビュー画像のピクセル数以下の整数とし、例えばＳを２０００、Ｄを１０、Ｔを２００、Ｐをプレビュー画像のピクセル数の１０分の１に最も近い整数、等とすればよい。なお、この場合、カメラ装置１０の制御部１０２に、指示部領域検出部と同様の構成を設け、当該指示部領域検出部と同様の構成により、指によるジェスチャーを判定する。

また、本実施の形態においては、指示部領域を撮影者の指の領域を示す領域とする場合について説明したが、これに限定されるものではない。例えば、撮影者ではない、他人の指の領域を示す領域を指示部領域としてもよい。また、指以外の代替物により対象物を示し、当該代替物の領域を指示部領域としてもよい。

また、本実施の形態においては、色によるセグメンテーションに基づく方法、及びエッジの検出に基づく方法に基づいて、指示部領域を検出する場合について説明したが、これに限定されるものではない。例えば、手袋などのマーカーを用いた撮影を行った上で、マーカーに基づく方法（非特許文献７：Y. Iwai, K. Watanabe, Y. Yagi and M. Yachida: Gesture Recognition by Using Colored Gloves. IEEE International Conference on Systems, Man and Cybernetics, 1996.）を用いてもよい。また、撮影装置に、３次元スキャナやRGB-Dセンサなどの距離センサが搭載されている、複数のレンズが搭載されている、ライトフィールドカメラを使用する、などという場合、距離情報に基づく方法（非特許文献８：Z. Ren, J. Yuan and Z. Zhang: Robust hand gesture recognition based on finger-earth mover's distance with a commodity depth camera. Proceedings of the 19th ACM international conference on Multimedia, 2011.、非特許文献９：X. Yuan and Q. Peng: Real-Time Stereo Vision Based Fingertip Detection and Tracking. In proceedings of 2010 3rd International Conference on Computer and Electrical Engineering, 2012.）を用いてもよい。

また、本実施の形態においては、指示部の形状パターンに対する対象領域情報のパターンを用いる場合について説明したが、これに限定されるものではない。例えば、指示部領域情報から算出される指の本数や角度に基づいて対象領域となる領域を決定してもよい（非特許文献１０：D. Lee and S. G. Lee: Vision-Based Finger Action Recognition by Angle Detection and Contour Analysis. ETRI Journal, 2011.）。この場合、例えば、指示部として検出された指が２本であり、かつ２本の指が直交する時には、直交する２本の指を辺とする矩形領域を対象領域とする、などとすればよい。

また、本実施の形態において説明した指示部の形状パターンに限定されるものではく、他の形状パターンを用いてもよい。

また、対象領域を検出し、作成した対象領域情報に基づいて、更に領域分割処理を実施し、対象物のみからなる領域を検出してもよい。領域分割処理としては公知の手法を用いることができる。例えば、グラフカットアルゴリズム（非特許文献１１：C. Rother, V. Kolmogorv and A. Blake: "GrabCut"：Interactive Foreground Extraction Using Iterated Graph Cuts, ACM Trans. Graphics, 2004.）を用いればよい。

また、本実施の形態においては、カメラ装置１０と、対象領域検出装置２０とを同一の撮影装置１に含まれる構成の場合について説明したが、これに限定されるものではない。例えば、対象領域検出装置２０として、カメラ装置１０とネットワークを介して接続される、異なる装置として構成してもよい。ネットワークとしては、有線または無線を問わず、インターネット、LAN(Local Area Network)、VPN(Virtual Private Network)などの任意の種類の通信網を採用しても良い。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

また、本願明細書中において、本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。例えば、カメラ装置が、カメラの焦点合わせを自動化するオートフォーカス機能を持つ際に、焦点が指に合うことで撮影対象物が精細に撮影できない場合がある。これを回避するため、例えば、オートフォーカス機能を使用しない、カメラ装置を可能な限り固定した上で、図３のように指で指示する画像と、図４のように指で指示しない画像の計２枚を撮影し、前者画像に従って作成した対象領域情報と後者画像を結果記憶部２０５へ格納する、などの変更を行うことができる。また、ライトフィールドカメラなどの、異なる焦点画像を作成できるものをカメラ装置として用いる場合、撮影対象物に焦点を合わせた画像を用いることもできる。

１撮影装置
１０カメラ装置
２０対象領域検出装置
１０１撮影部
１０２制御部
１０３表示部
１０４画像記憶部
２０１入力部
２０２指示部領域検出部
２０３パターン記憶部
２０４対象領域判定部
２０５結果記憶部

Claims

入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出する指示部領域検出部と、
前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する対象領域判定部と、
を含む、対象領域検出装置。
前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から対象領域情報を検出する請求項１記載の対象領域検出装置。
前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記指示部の形状パターンを決定し、前記決定された形状パターンについて予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、前記指示部領域情報とに基づいて、前記画像から前記対象領域情報を検出する請求項２記載の対象領域検出装置。
前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から特定の領域を検出し、前記検出した領域について領域分割処理を行うことで、前記対象物からなる領域を検出する請求項１〜３の何れか１項記載の対象領域検出装置。
前記指示部領域検出部は、連続して入力された動画像の各フレーム画像について、前記指示部領域情報を検出し、
前記対象領域判定部は、前記フレーム画像の各々について前記対象領域情報を検出し、検出された前記フレーム画像の各々の前記対象領域情報を統合することにより、前記動画像の対象領域情報を検出する請求項１〜４の何れか１項記載の対象領域検出装置。
指示部領域検出部と、対象領域判定部と、を含む対象領域検出装置における、対象領域検出方法であって、
前記指示部領域検出部は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、
前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む領域を示す対象領域情報を検出する、
対象領域検出方法。
コンピュータを、請求項１〜５の何れか１項記載の対象領域検出装置を構成する各部として機能させるためのプログラム。