JP2016099743A - 対象領域検出装置、方法、及びプログラム - Google Patents

対象領域検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016099743A
JP2016099743A JP2014235071A JP2014235071A JP2016099743A JP 2016099743 A JP2016099743 A JP 2016099743A JP 2014235071 A JP2014235071 A JP 2014235071A JP 2014235071 A JP2014235071 A JP 2014235071A JP 2016099743 A JP2016099743 A JP 2016099743A
Authority
JP
Japan
Prior art keywords
target
region
image
area
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014235071A
Other languages
English (en)
Inventor
之人 渡邉
Yukito Watanabe
之人 渡邉
豪 入江
Takeshi Irie
豪 入江
啓之 新井
Hiroyuki Arai
啓之 新井
行信 谷口
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014235071A priority Critical patent/JP2016099743A/ja
Publication of JP2016099743A publication Critical patent/JP2016099743A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。
【解決手段】指示部領域検出部202により、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、対象領域判定部204により、検出された指示部領域情報に基づいて、画像から対象物を含む領域を示す対象領域情報を検出する。
【選択図】図1

Description

本発明は、対象領域検出装置、方法、及びプログラムに係り、特に、入力画像に写っている対象物の領域を求める対象領域検出装置、方法、及びプログラムに関する。
デジタルカメラ、スマートホン等の携帯撮影デバイスの普及により、一個人が撮影するデジタル写真の枚数が急速に増大した。それに伴い、画像を利用したコミュニケーションが発達し、WWW(World Wide Web)上には大量の画像が蓄積されている。例えば、あるソーシャルメディアサイトでは、毎月25億の画像がアップロードされている。
ユーザはこのような豊富な画像を見て楽しむことができる一方で、画像中の未知の物体に興味を持っても、その情報を取得することが困難であるという課題が存在する。例えば、画像中のある商品に興味を持っても、ユーザがその商品名、外見等の知識を持っていない場合には、その商品に関する情報を取得することは困難である。
上記問題を解決するためには、画像が何を写しているのかといった情報を画像から特定することが必要となるが、画像に対して1枚ずつ目視で判別を行うことは、極めて手間のかかる作業である。従って、画像中の物体の自動的な特定への要望が高まっている。
従来の方法として、画像内に含まれる物体を推定する画像認識方法がある。例えば、画像中の物体の名称が既知である画像(以下、参照画像とする)によりあらかじめデータセットを構築し、新たに入力された画像(以下、入力画像とする)に含まれる物体の名称を推定する画像認識方法が提案されている(非特許文献1)。
このような画像認識方法においては、画像の特性を表現する画像特徴を算出し、入力画像と参照画像のそれぞれの画像特徴の類似度を計算することで、入力画像と類似する参照画像を発見し、その名称を正解とする。
画像間の類似度を計算する方法としては、例えば、画像の色ヒストグラムを画像特徴としてその類似度を測る方法がある。
しかしながら、対象とする物体のみを撮影することは難しく、撮影した画像に「2つ以上の物体が写る」、「背景に色や模様が存在する」等の現象が発生し課題となる。
上記の現象が発生した場合、当該画像を入力画像とした画像認識を行うことによって、ユーザが意図しない物体の名称が推定される可能性がある。
このような課題に対して、ユーザが対象とする画像中の領域を特定することで検索意図を反映し、類似した画像を正しく発見する技術に関する取り組みがなされてきた。この課題を解決するため、従来いくつかの発明がなされ、開示されてきている。
従来技術では、撮影画像中からあらかじめ物体領域を抽出しておき、さらに、画像中からユーザが検索したい領域を指示し、指示された領域中の物体から抽出した画像特徴によって類似する画像の検索を行う(特許文献1)。ユーザは表示された画像上で、矩形等によって領域を囲むことにより領域の指示を行う。
また、他の従来技術においては、撮影画像をあらかじめ領域分割アルゴリズムを用いて分割しておき、さらに、画像中からユーザが検索したい領域を指示し、指示された領域から抽出した画像特徴によって類似する画像の検索を行う(非特許文献2)。ユーザは表示された分割済み画像の中から領域を選択することによって指示を行う。
また、他の従来技術においては、撮影画像からエッジなどの特徴を抽出し、人間の視覚特性を模擬することによって各画素の重要度を算出し、その重要度に基づいて類似する画像の検索を行う(非特許文献3)。ユーザは指示を行う必要はない。
特開2000−207420号公報
A. Torralba, R. Fergus and W. T. Freeman: 80 million tiny images: a large dataset for non-parametric object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008. C. Carson, M. Thomas, S. Belongie, J. M. Hellerstein and J. Malik: Blobworld: a system for region-based image indexing and retrieval. Proceedings of the Third International Conference on Visual Information Systems, 1999. E. Loupias and N. Sebe: Wavelet-based salient points: applications to image retrieval using color and texture features. lecture notes in Computer Science, 2000.
上記特許文献1及び非特許文献2の技術は、矩形で領域を囲む、分割されている領域を指示するなどのユーザの行動によって直感的な指示を行うことができる。しかしながら、撮影後に画像中の領域を指示するため、撮影から検索までの間に回避できない処理時間が発生し、高速に検索することが困難であるという問題がある。
また、マウスやタッチパネル等のポインティングデバイスを持たない機器をカメラとして用いた場合には、撮影した画像を計算機等のポインティングデバイスを持つ機器に移さなければ領域の指示を行うことが困難であり、ユーザに対して更なる負担となるという問題がある。
また、非特許文献3の技術は、ユーザの指示なしに画像中の物体を抽出することができるが、人間の視覚特性を模擬しているのみであり、ユーザが意図しない物体が対象となる可能性があるという問題がある。
また、非特許文献3の技術は、単純に特許文献1または非特許文献2の方法に適用するのみでは、「ポインティングデバイスを持たない機器では物体の指示ができない」、又は「ユーザが意図しない物体が対象となる」という問題点のどちらかは必ず発生する。
本発明では、上記問題を解決するために成されたものであり、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる対象領域検出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る対象領域検出装置は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出する指示部領域検出部と、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する対象領域判定部と、を含んで構成されている。
第2の発明に係る対象物検出方法は、指示部領域検出部と、対象領域判定部と、を含む対象領域検出装置における、対象領域検出方法であって、前記指示部領域検出部は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する。
第1及び第2の発明によれば、指示部領域検出部により、入力された画像から、指示部領域情報を検出し、対象領域判定部により、検出された指示部領域情報に基づいて、画像から対象領域情報を検出する。
このように、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。
また、第1の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から対象領域情報を検出してもよい。
また、第1の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記指示部の形状パターンを決定し、前記決定された形状パターンについて予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、前記指示部領域情報とに基づいて、前記画像から前記対象領域情報を検出してもよい。
また、第1の発明において、前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から特定の領域を検出し、前記検出した領域について領域分割処理を行うことで、前記対象物からなる領域を検出してもよい。
また、第1の発明において、前記指示部領域検出部は、連続して入力された動画像の各フレーム画像について、前記指示部領域情報を検出し、前記対象領域判定部は、前記フレーム画像の各々について前記対象領域情報を検出し、検出された前記フレーム画像の各々の前記対象領域情報を統合することにより、前記動画像の対象領域情報を検出してもよい。
また、本発明のプログラムは、コンピュータを、上記の対象領域検出装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の対象領域検出装置、方法、及びプログラムによれば、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。
本発明の実施の形態に係る撮影装置の機能的構成を示すブロック図である。 撮影時の位置関係を示す図である。 対象物を指で指示する例を示す図である。 対象物を指示しない例を示す図である。 指示部領域情報の例を示す図である。 検出される対象領域のパターンの例を示す図である。 対象物を指で指示する例を示す図である。 検出される対象領域のパターンの例を示す図である。 対象物を指で指示する例を示す図である。 検出される対象領域のパターンの例を示す図である。 対象物を指で指示する例を示す図である。 検出される対象領域のパターンの例を示す図である。 対象領域情報の例を示す図である。 対象領域情報の例を示す図である。 対象領域情報の例を示す図である。 対象領域情報の例を示す図である。 本実施の形態に係る撮影装置における撮影処理ルーチンを示すフローチャート図である。 本実施の形態に係る撮影装置における対象領域検出処理ルーチンを示すフローチャート図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態においては、図1に示すように、カメラ装置10と、対象領域検出装置20とを備える撮影装置1について説明する。また、本実施の形態における撮影装置は、デジタルカメラとする。
<本発明の実施の形態に係る撮影装置の構成>
次に、本発明の実施の形態に係る撮影装置の構成について説明する。図1に示すように、本発明の実施の形態に係る撮影装置1は、CPUと、RAMと、後述する撮影処理ルーチン、及び対象領域検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この撮影装置は、機能的には図1に示すようにカメラ装置10と、対象領域検出装置20と、を含んで構成されている。
カメラ装置10は、撮影部101と、制御部102と、表示部103と、画像記憶部104と、を含んで構成されている。
撮影部101は、カメラを有し、画像を撮影可能であり、当該カメラにより取得した画像を制御部102に送信する。なお、撮影装置1のシャッターボタン(図示省略)が押されていない場合には、プレビュー画像の画像データとして制御部102に送信する。一方、撮影装置1のシャッターボタン(図示省略)が押された場合、撮影が行われたとして、取得した画像を撮影画像として制御部102に送信する。ここで、プレビュー画像とは、撮影装置1のシャッターボタンを押していない状態で、撮影画像を確認するために提供される画像をいう。
図2に、撮影時の撮影者、撮影装置1、指示部である指、及び撮影対象物の位置関係を示す。本実施の形態においては、図2に示すように、撮影者は、撮影装置1と、撮影の対象物の間に、指示部として予め定められた指を設置し、対象物を指で挟むように対象物を示しながら、撮影装置1のシャッターボタンを押すことにより撮影を行う。ここで、指による指示方法は、例えば、図3に示すように撮影者の左手の親指と人差し指によって対象物の上下を挟むように囲むことにより、対象物を示す。なお、指示部である指により対象物を指示しない場合の撮影画像は、例えば、図4のようになる。
制御部102は、撮影部101により取得した画像に基づいて、当該画像を表示部103から出力させるように表示部103を制御する。また、制御部102は、撮影部101により取得した撮影画像を画像記憶部104に記憶する。
表示部103は、画像を表示することが可能なディスプレイ等の出力デバイスを有する。表示部103は、制御部102の制御に従い、撮影部101により取得した画像を、表示部103のディスプレイに表示する。なお、表示部103のディスプレイには、プレビュー画像、及び撮影画像が表示される。
画像記憶部104には、撮影部101により取得した撮影画像が記憶されている。
対象領域検出装置20は、入力部201と、指示部領域検出部202と、パターン記憶部203と、対象領域判定部204と、結果記憶部205と、を含んで構成されている。
入力部201は、画像記憶部104に記憶されている画像の各々を読み込み、指示部領域検出部202に送信する。
指示部領域検出部202は、入力部201において取得した画像の各々について、当該画像中に存在する、指の領域を示す指示部領域を検出する。本実施の形態においては、公知の指の領域の検出方法を用いて、当該画像から指示部領域を検出する。例えば、色によるセグメンテーションに基づく方法(非特許文献4:S. K. Kang, M. Y. Nam and P. K. Rhee: Color Based Hand and Finger Detection Technology for User Interaction. International Conference on Convergence and Hybrid Information Technology, 2008.)、エッジの検出に基づく方法(非特許文献5:J. Ravikiran, K. Mahesh, S. Mahishi, R. Dheeraj S. Sudheender and V. Nitin: Finger Detection for Sign Language Recognition. Proceedings of the International MultiConference of Engineers and Computer Scientists, 2009.)などを用いればよい。
また、指示部領域検出部202は、入力部201において取得した画像の各々について、当該画像について取得した指示部領域に基づいて、対象物を示すための指示部の領域を示す指示部領域情報を作成する。具体的には、例えば、取得した指示部領域について、図5に示すようにマスク画像として表現すればよい。当該マスク画像とは、撮影画像と同サイズであり、各ピクセルに1または0の値を持ち、1の値のピクセルが指示部領域であり、0の値のピクセルが指示部領域でないことを示す。
パターン記憶部203には、指示部領域情報に基づいて決定される指示部の形状パターンが複数記憶されている。また、パターン記憶部203には、指示部の形状パターンの各々に対する対象物を含む対象領域を示す対象領域情報のパターンの各々が記憶されている。
ここで、対象領域とは、画像中のユーザが意図して示している対象物を含む領域である。
例えば、図5に示す指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図6に示すように、上下の指示部領域に挟まれた領域を対象領域情報とするパターンが定義されている。また、図7のように、対象物を指さすことにより指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図8に示すように、指を指している方向の全ての領域を対象領域情報とするパターンが定義されている。この場合、2本指での指示と比べて対象領域は大きくなるが、撮影難度は低くなる。また、図9に示すように、対象物を囲むことにより指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図10に示すように、指示部領域の内部を対象領域情報とするパターンが定義されている。この場合、指1本又は2本で対象物を指示した場合と比べて撮影難度が高いが、対象物の周囲全方位を含む領域を指示するため、より詳細な対象領域情報を得ることができる。また、図11に示すように、両手で対象物を囲い込むことで指示した撮影画像の場合、当該画像の指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、図12に示すように、両手指示部領域の内部を対象領域情報とするパターン、あるいは、例えば両手指示部領域内部の最も左上の点、最も右下の点を頂点とする矩形を対象領域情報とするパターンが定義されている。この場合、撮影装置は手を使わずに撮影が可能なものに限定されるが、物体の大きさに柔軟に対応できる、詳細な対象領域情報を得ることができる等の利点がある。
対象領域判定部204は、画像の各々について、当該画像と、指示部領域検出部202において取得した当該画像の指示部領域情報と、パターン記憶部203に記憶されている当該指示部領域情報に基づいて決定される指示部の形状パターン、及び当該指示部の形状パターンに対する対象領域情報のパターンと、に基づいて、対象領域を検出し、対象領域情報を作成し、結果記憶部205に、当該画像と当該画像の対象領域情報との組み合わせの各々を記憶する。
具体的には、まず、指示部領域検出部202において取得した当該画像の指示部領域情報について、公知のマッチング方法を用いて、パターン記憶部203に記憶されている指示部の形状パターンの各々とのマッチングを行い、当該指示部領域情報に一番類似する指示部の形状パターンを決定する。次に、決定した指示部の形状パターンと、パターン記憶部203に記憶されている指示部の形状パターンに対する対象領域情報のパターンの各々とに基づいて、当該指示部の形状パターンに対する対象領域情報のパターンを取得する。そして、当該画像と、取得された対象領域情報のパターンとに基づいて、当該画像の対象領域を検出し、検出した対象領域に基づいて、当該画像の対象領域情報を作成する。
例えば、処理対象の画像の指示部領域情報が図5の場合、当該指示部領域情報に基づいて決定される指示部の形状パターンに対する対象領域情報のパターンは、上下の指示部領域に挟まれた領域であるため、図6に示す指の間の領域を対象領域として検出すればよい。そして、検出した対象領域に基づいて、当該画像の対象領域情報を作成する。ここで、対象領域情報は、指示部領域情報と同様に、マスク画像によって表現し、各ピクセルに1又は0の値を持ち、1の値のピクセルが対象領域であり、0の値のピクセルが対象領域でないことを示す。なお、図6の様な対象領域が検出された場合には、図13に示すような対象領域情報が作成される。また、図8の様な対象領域が検出された場合には、図14に示すような対象領域情報が作成される。また、図10の様な対象領域が検出された場合には、図15に示すような対象領域情報が作成される。また、図12の様な対象領域が検出された場合には、図16に示すような対象領域情報が作成される。
結果記憶部205には、画像と、当該画像の対象領域情報との組み合わせが記憶されている。
<本発明の実施の形態に係る撮影装置の作用>
次に、本実施の形態に係る撮影装置1の作用について説明する。まず、カメラ装置10において、撮影部101のカメラが起動されると、撮影装置1によって、図17に示す撮影処理ルーチンが実行される。また、撮影処理ルーチンの終了後に、対象領域検出装置20において、画像記憶部104に記憶されている画像の各々を読み込むと、対象領域検出装置20によって、図18に示す対象領域検出処理ルーチンを実行する。なお、ここで、カメラの起動とは、スマートホンやカメラ付携帯電話における撮影アプリケーションの起動、アナログカメラやデジタルカメラにおける電源の起動など、カメラ装置を撮影が可能な状態にすることである。
まず、図17に示す、撮影処理ルーチンについて説明する。
図17における、ステップS11では、撮影部101において撮影した画像のプレビュー画像を表示部103から表示する。
次に、ステップS12では、撮影者は指で撮影対象の物体を指示しながら、撮影装置1のシャッターボタンを押し撮影を行う。
次に、ステップS13では、ステップS12において取得した画像を画像記憶部104に記憶する。
次に、ステップS14では、撮影を終了するか否かを判定する。撮影を終了する場合には、撮影処理を終了し、撮影を終了しない場合には、ステップS11へ移行し、ステップS11〜ステップS14の処理を繰り返す。
次に、図18に示す対象領域検出処理ルーチンについて説明する。
まず、図18のステップS20では、パターン記憶部203に記憶されている指示部の形状パターンの各々、及び指示部の形状パターンに対する対象領域のパターンの各々を読み込む。
次に、ステップS21では、読み込んだ画像の各々のうち、処理対象となる画像を決定する。
次に、ステップS22では、処理対象の画像について、当該画像中に存在する撮影者の指の領域を示す指示部領域を検出し、検出された指示部領域に基づいて、当該画像の指示部領域情報を作成する。
次に、ステップS23では、処理対象の画像について、当該画像の指示部領域情報と、ステップS20において取得した指示部の形状パターンの各々とに基づいて、当該指示部領域情報に対する指示部の形状パターンを決定する。
次に、ステップS24では、処理対象の画像について、当該画像と、ステップS20において取得した指示部の形状パターンに対する対象領域のパターンの各々と、ステップS22において取得した当該画像の指示部領域情報と、ステップS23において取得した指示部の形状パターンと、に基づいて、当該画像の対象領域を検出し、検出された対象領域に基づいて、対象領域情報を作成する。
次に、ステップS25では、処理対象の画像と、ステップS23において取得した、当該画像の対象領域情報との組み合わせを結果記憶部205に記憶する。
次に、ステップS26では、読み込んだ画像の全てについてステップS22〜ステップS25の処理を終了したか否かを判定する。全ての画像についてステップS22〜ステップS25の処理を終了した場合には、対象領域検出処理ルーチンを終了する。一方、全ての画像についてステップS22〜ステップS25の処理を終了していない場合には、ステップS21へ移行し、処理対象となる画像を変更し、ステップS22〜ステップS26の処理を繰り返す。
以上説明したように、本発明の本実施の形態に係る対象領域検出装置によれば、入力された画像から、指示部領域情報を検出し、検出された指示部領域情報に基づいて、画像から対象領域情報を検出することにより、ユーザの負担を抑制して、ユーザの意図で示している対象物の領域を検出できる。
また、撮影と同時に、ユーザの意図する物体を直感的かつ簡単に指示できる。
また、ユーザの意図する物体を、ポインティングデバイスを持たないカメラ装置であっても、撮影と同時に直感的かつ簡単に指示できる。また、例えば、画像検索における入力画像として利用できる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態においては、撮影装置をデジタルカメラとする場合について説明したが、これに限定されるものではなく、カメラ付携帯電話やスマートホン、眼鏡型コンピュータ、アナログカメラなどの、撮影が可能な他の機器としてもよい。
また、本実施の形態においては、カメラ装置10に表示部103を備える場合について説明したが、これに限定されるものではない。例えば、カメラ装置10又は撮影装置1に表示部103を備えなくてもよい。この場合、プレビュー画像を表示させる処理は省略してもよい。
また、本実施の形態においては、カメラ装置10に撮影した画像を一度記憶する場合について説明したが、これに限定されるものではない。例えば、カメラ装置10により撮影した画像を、そのまま対象領域検出装置20の処理対象としてもよい。
また、本実施の形態においては、撮影者の左手の親指と人差し指によって対象物の上下を挟むように囲むことにより、対象物を指示する場合について説明したが、これに限定されるものではない。例えば、撮影者の左手又は右手の2本の指により対象物を上下問わず(例えば、左右や斜め方向等)囲むことにより対象物を指示してもよい。また、対象物を挟むのでなく、図7及び図9のように、対象物を指さす、対象物を囲む等の方法により対象物を指示してもよい。また、眼鏡型コンピュータなど、手を使わずに撮影が可能な撮影装置の場合などには、図11に示すように、両手で対象物を囲むことにより対象物を指示してもよい。さらに、対象物を指示する際に用いる指は、親指と人差し指に限らず、撮影者本人の指ではなく、他人の指や代替物を指示部として用いてもよい。
また、本実施の形態においては、静止画像を撮影する場合について説明したが、これに限定されるものではない。例えば、動画像を撮影してもよい。この場合、指の形による対象物の指示の他にも、ジェスチャーによる対象物の指示を用いてもよい。ジェスチャーによる対象物の指示は、例えば、動画像を撮影しながら、撮影対象物の周囲を指でなぞればよい。また、動画像の各フレーム画像について処理を行ってもよい。また、指のトラッキングなどを行ってもよい(非特許文献6:M. Do, T. Asfour and R. Dillmann: Particle Filter-Based Fingertip Tracking with Circular Hough Transform Features. in IAPR Machine Vision Applications, 2011.)。動画像の各フレーム画像を静止画像とした場合、フレーム画像毎に対象領域情報が得られるが、これら対象領域情報について、例えば動画像毎など、任意の数を統合してもよい。統合は、例えば、マスク画像のピクセル毎に対象領域情報の論理和、論理積等をとればよい。また、対象領域情報について有を1、無を0としたうえで、ピクセルごとに対象領域情報を加算し、例えば平均値等の一定値を超えるピクセルを対象領域とすることで統合を行ってもよい。
また、本実施の形態においては、指示部領域情報に基づいて指示部の形状パターンを決定し、指示部の形状パターンに対する対象領域情報のパターンを用いて、対象領域を検出する場合について説明したが、これに限定されるものではない。例えば、予め対象となる、指示部の形状パターンが決まっている場合、取得された指示部領域情報に基づいて、当該指示部の形状パターンが検出されたか否かを判定し、検出されたと判定された場合に、当該指示部領域情報に対する対象領域情報のパターンを用いて対象領域を検出してもよい。
また、本実施の形態においては、撮影装置のシャッターボタンを押す動作により撮影指示が行われる場合について説明したが、これに限定されるものではない。例えば、指によるジェスチャーにより撮影指示を行ってもよい。ジェスチャーとしては、Sミリ秒間指が動かないこと等とすればよい。Sミリ秒間指が動かないとは、例えば、プレビュー画像の差分画像をTミリ秒毎に算出し、差分画像中でD以上の値を持つピクセルを差分があるとし、差分があるピクセルがP個以下である状態がSミリ秒続いた場合に、Sミリ秒間指が動かなかったとし、撮影指示を行えば良い。ここでS、Dは自然数、Tは1以上S以下の自然数、Pは0以上プレビュー画像のピクセル数以下の整数とし、例えばSを2000、Dを10、Tを200、Pをプレビュー画像のピクセル数の10分の1に最も近い整数、等とすればよい。なお、この場合、カメラ装置10の制御部102に、指示部領域検出部と同様の構成を設け、当該指示部領域検出部と同様の構成により、指によるジェスチャーを判定する。
また、本実施の形態においては、指示部領域を撮影者の指の領域を示す領域とする場合について説明したが、これに限定されるものではない。例えば、撮影者ではない、他人の指の領域を示す領域を指示部領域としてもよい。また、指以外の代替物により対象物を示し、当該代替物の領域を指示部領域としてもよい。
また、本実施の形態においては、色によるセグメンテーションに基づく方法、及びエッジの検出に基づく方法に基づいて、指示部領域を検出する場合について説明したが、これに限定されるものではない。例えば、手袋などのマーカーを用いた撮影を行った上で、マーカーに基づく方法(非特許文献7:Y. Iwai, K. Watanabe, Y. Yagi and M. Yachida: Gesture Recognition by Using Colored Gloves. IEEE International Conference on Systems, Man and Cybernetics, 1996.)を用いてもよい。また、撮影装置に、3次元スキャナやRGB-Dセンサなどの距離センサが搭載されている、複数のレンズが搭載されている、ライトフィールドカメラを使用する、などという場合、距離情報に基づく方法(非特許文献8:Z. Ren, J. Yuan and Z. Zhang: Robust hand gesture recognition based on finger-earth mover's distance with a commodity depth camera. Proceedings of the 19th ACM international conference on Multimedia, 2011.、非特許文献9:X. Yuan and Q. Peng: Real-Time Stereo Vision Based Fingertip Detection and Tracking. In proceedings of 2010 3rd International Conference on Computer and Electrical Engineering, 2012.)を用いてもよい。
また、本実施の形態においては、指示部の形状パターンに対する対象領域情報のパターンを用いる場合について説明したが、これに限定されるものではない。例えば、指示部領域情報から算出される指の本数や角度に基づいて対象領域となる領域を決定してもよい(非特許文献10:D. Lee and S. G. Lee: Vision-Based Finger Action Recognition by Angle Detection and Contour Analysis. ETRI Journal, 2011.)。この場合、例えば、指示部として検出された指が2本であり、かつ2本の指が直交する時には、直交する2本の指を辺とする矩形領域を対象領域とする、などとすればよい。
また、本実施の形態において説明した指示部の形状パターンに限定されるものではく、他の形状パターンを用いてもよい。
また、対象領域を検出し、作成した対象領域情報に基づいて、更に領域分割処理を実施し、対象物のみからなる領域を検出してもよい。領域分割処理としては公知の手法を用いることができる。例えば、グラフカットアルゴリズム(非特許文献11:C. Rother, V. Kolmogorv and A. Blake: "GrabCut":Interactive Foreground Extraction Using Iterated Graph Cuts, ACM Trans. Graphics, 2004.)を用いればよい。
また、本実施の形態においては、カメラ装置10と、対象領域検出装置20とを同一の撮影装置1に含まれる構成の場合について説明したが、これに限定されるものではない。例えば、対象領域検出装置20として、カメラ装置10とネットワークを介して接続される、異なる装置として構成してもよい。ネットワークとしては、有線または無線を問わず、インターネット、LAN(Local Area Network)、VPN(Virtual Private Network)などの任意の種類の通信網を採用しても良い。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
また、本願明細書中において、本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。例えば、カメラ装置が、カメラの焦点合わせを自動化するオートフォーカス機能を持つ際に、焦点が指に合うことで撮影対象物が精細に撮影できない場合がある。これを回避するため、例えば、オートフォーカス機能を使用しない、カメラ装置を可能な限り固定した上で、図3のように指で指示する画像と、図4のように指で指示しない画像の計2枚を撮影し、前者画像に従って作成した対象領域情報と後者画像を結果記憶部205へ格納する、などの変更を行うことができる。また、ライトフィールドカメラなどの、異なる焦点画像を作成できるものをカメラ装置として用いる場合、撮影対象物に焦点を合わせた画像を用いることもできる。
1 撮影装置
10 カメラ装置
20 対象領域検出装置
101 撮影部
102 制御部
103 表示部
104 画像記憶部
201 入力部
202 指示部領域検出部
203 パターン記憶部
204 対象領域判定部
205 結果記憶部

Claims (7)

  1. 入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出する指示部領域検出部と、
    前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む対象領域を示す対象領域情報を検出する対象領域判定部と、
    を含む、対象領域検出装置。
  2. 前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から対象領域情報を検出する請求項1記載の対象領域検出装置。
  3. 前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記指示部の形状パターンを決定し、前記決定された形状パターンについて予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、前記指示部領域情報とに基づいて、前記画像から前記対象領域情報を検出する請求項2記載の対象領域検出装置。
  4. 前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報と、予め定められた、前記指示部領域情報に対する前記対象領域情報のパターンと、に基づいて、前記画像から特定の領域を検出し、前記検出した領域について領域分割処理を行うことで、前記対象物からなる領域を検出する請求項1〜3の何れか1項記載の対象領域検出装置。
  5. 前記指示部領域検出部は、連続して入力された動画像の各フレーム画像について、前記指示部領域情報を検出し、
    前記対象領域判定部は、前記フレーム画像の各々について前記対象領域情報を検出し、検出された前記フレーム画像の各々の前記対象領域情報を統合することにより、前記動画像の対象領域情報を検出する請求項1〜4の何れか1項記載の対象領域検出装置。
  6. 指示部領域検出部と、対象領域判定部と、を含む対象領域検出装置における、対象領域検出方法であって、
    前記指示部領域検出部は、入力された画像から、対象物を示すための予め定められた指示部の領域を示す指示部領域情報を検出し、
    前記対象領域判定部は、前記指示部領域検出部により検出された指示部領域情報に基づいて、前記画像から前記対象物を含む領域を示す対象領域情報を検出する、
    対象領域検出方法。
  7. コンピュータを、請求項1〜5の何れか1項記載の対象領域検出装置を構成する各部として機能させるためのプログラム。
JP2014235071A 2014-11-19 2014-11-19 対象領域検出装置、方法、及びプログラム Pending JP2016099743A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014235071A JP2016099743A (ja) 2014-11-19 2014-11-19 対象領域検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014235071A JP2016099743A (ja) 2014-11-19 2014-11-19 対象領域検出装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016099743A true JP2016099743A (ja) 2016-05-30

Family

ID=56077164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014235071A Pending JP2016099743A (ja) 2014-11-19 2014-11-19 対象領域検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2016099743A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168949A (ja) * 1993-04-30 1995-07-04 Rank Xerox Ltd 対話式複写装置
JP2003108923A (ja) * 2001-10-01 2003-04-11 National Institute Of Advanced Industrial & Technology 文字情報入力装置および文字情報入力方法並びに記録媒体
JP2014063318A (ja) * 2012-09-20 2014-04-10 Sharp Corp 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2014123224A1 (ja) * 2013-02-08 2014-08-14 株式会社ニコン 電子制御装置、制御方法、及び制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168949A (ja) * 1993-04-30 1995-07-04 Rank Xerox Ltd 対話式複写装置
JP2003108923A (ja) * 2001-10-01 2003-04-11 National Institute Of Advanced Industrial & Technology 文字情報入力装置および文字情報入力方法並びに記録媒体
JP2014063318A (ja) * 2012-09-20 2014-04-10 Sharp Corp 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2014123224A1 (ja) * 2013-02-08 2014-08-14 株式会社ニコン 電子制御装置、制御方法、及び制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CARSTEN ROTHER,外2名: "GrabCut−Interactive Foreground Extraction using Iter", ACM TRANSACTIONS ON GRAPHICS(TOG), vol. Volume 23 Issue 3, JPN7017004330, August 2004 (2004-08-01), US, pages 309 - 314, ISSN: 0003826613 *

Similar Documents

Publication Publication Date Title
CN107409166B (zh) 摇摄镜头的自动生成
US10165199B2 (en) Image capturing apparatus for photographing object according to 3D virtual object
US9665962B2 (en) Image distractor detection and processng
CN104580878B (zh) 电子装置以及自动决定影像效果的方法
CN114245905A (zh) 深度感知照片编辑
US10915998B2 (en) Image processing method and device
US10277806B2 (en) Automatic image composition
JP2020523665A (ja) 生体検出方法及び装置、電子機器並びに記憶媒体
WO2017080237A1 (zh) 相机成像方法及相机装置
JP5525757B2 (ja) 画像処理装置、電子機器、及びプログラム
JP6104227B2 (ja) 画像識別方法および画像識別装置
JP6314251B2 (ja) 操作入力装置、操作入力方法及びプログラム
US9792698B2 (en) Image refocusing
Chu et al. Hand gesture for taking self portrait
EP2657882A1 (en) Reference image slicing
US20190102056A1 (en) User interface for manipulating light-field images
US20160093028A1 (en) Image processing method, image processing apparatus and electronic device
US9171357B2 (en) Method, apparatus and computer-readable recording medium for refocusing photographed image
CN110047126B (zh) 渲染图像的方法、装置、电子设备和计算机可读存储介质
CN115623313A (zh) 图像处理方法、图像处理装置、电子设备、存储介质
JP2016099743A (ja) 対象領域検出装置、方法、及びプログラム
KR20140134844A (ko) 객체 기반 사진 촬영 방법 및 장치
KR20180069312A (ko) 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치
KR101828340B1 (ko) 객체 추출 방법 및 그 장치
CN113873160B (zh) 图像处理方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180703