以下、本発明を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
1.第1の実施の形態(合成画像生成制御:ユーザ操作に基づいて音有効範囲を設定する例)
2.第2の実施の形態(合成画像生成制御:被写体距離を算出してインパクト音検出位置を補正する例)
3.第3の実施の形態(合成画像生成制御:複数の対象物から所望の対象物を指定してその対象物に関する合成画像を生成する例)
4.第4の実施の形態(合成画像生成制御:記録された画像コンテンツにおける合成画像を生成する例)
<1.第1の実施の形態>
[撮像装置の構成例]
図1は、本発明の第1の実施の形態における撮像装置100の機能構成例を示すブロック図である。撮像装置100は、撮像部111と、被写体情報生成部120と、撮像画像保持部115と、音声入力部131と、特定音検出部132と、操作受付部140と、タイマ設定部150とを備える。また、撮像装置100は、音有効範囲設定部160と、選択部170と、レイヤ処理部180と、合成画像保持部185と、表示制御部190と、表示部191と、合成画像記憶部200とを備える。撮像装置100は、例えば、被写体を撮像して撮像画像(画像データ)を生成し、この画像データについて画像解析により各特徴量を抽出し、この抽出された各特徴量を用いて各種画像処理を施すことが可能なデジタルビデオカメラによって実現することができる。
撮像部111は、レンズ(図示せず)を介して入射された被写体の光を電気信号に変換する撮像素子(例えば、図19に示す撮像素子112)と、この撮像素子の出力信号を処理して撮像画像(画像データ)を生成する信号処理部(図示せず)とを備える。すなわち、撮像部111において、レンズを介して入射された被写体の光学像が撮像素子の撮像面に結像され、この状態で撮像素子が撮像動作を行い、信号処理部が撮像信号に対して信号処理を行うことにより、撮像画像が生成される。この撮像画像の生成は、操作受付部140またはタイマ設定部150から出力される撮像動作の開始指示情報に基づいて行われる。そして、生成された撮像画像が撮像画像保持部115に供給されて保持される。また、生成された撮像画像が表示制御部190に供給されて表示部191に表示される。さらに、生成された撮像画像と、この撮像画像の生成時における各レンズ(例えば、フォーカスレンズ、ズームレンズ)の位置および合焦位置とが、被写体情報生成部120に供給される。
撮像画像保持部115は、撮像部111により生成された撮像画像を一定時間保持するリングバッファであり、保持されている撮像画像を選択部170に供給する。また、撮像画像保持部115は、撮像部111により生成された撮像画像に関連付けて、被写体情報生成部120により生成された被写体情報を保持する。ここで、撮像画像保持部115に撮像画像を保持する一定時間は、例えば、3乃至10秒とすることができる。すなわち、撮像画像保持部115には、撮像部111により生成された撮像画像と、被写体情報生成部120により生成された被写体情報とのうち、最新の3乃至10秒間のものが保持される。
被写体情報生成部120は、撮像部111により生成された撮像画像およびこの撮像画像の生成時における各情報(例えば、レンズの位置および合焦位置)に基づいて、撮像画像に関する被写体情報を生成するものである。そして、被写体情報生成部120は、生成された被写体情報を撮像画像保持部115に供給して保持させる。この被写体情報は、例えば、撮像部111により生成された撮像画像に含まれる被写体のうち、注目被写体の領域と、その背景領域とを判別するための情報である。この被写体情報として、例えば、奥行マップ(いわゆる、デプスマップ(Depth Map))が生成される。ここで、奥行マップは、撮像位置(例えば、撮像装置100の位置)から、撮像画像に含まれる被写体までの距離(被写体距離)を表すデータである。この奥行マップの生成方法として、例えば、TOF(Time of flight)方式やボケ量解析(Depth from Defocus)等の方法を用いることができる。例えば、TOF方式は、光源から出射された光が対象物で反射し、センサに到達するまでの光の遅れ時間と光の速度とに基づいて被写体までの距離を算出する方法である。
音声入力部131は、撮像装置100の周囲の音声を取得するものであり、取得された音声(音声データ)を特定音検出部132に出力する。音声入力部131は、例えば、複数のマイクロホン等により実現される。
特定音検出部132は、音声入力部131から出力された音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を選択部170に出力する。なお、本発明の第1の実施の形態では、ゴルフスイング中に、ゴルフクラブがゴルフボールに当たった瞬間に発生する音(インパクト音)を特定音とする場合を例にして説明する。例えば、特定音検出部132は、特定音に関する特徴量を特定音識別情報(基準データ)として予め記憶しておく。そして、特定音検出部132は、音声入力部131から出力された音声から特徴量を抽出し、この抽出された特徴量と特定音識別情報との比較により類似度を算出する。この算出された類似度が閾値を超えた場合に、特定音検出部132は、音声入力部131から出力された音声が特定音であると判定する。具体的には、音声入力部131から出力された音声データが、AD(AnalogtoDigital)変換処理によりサンプリングされ、デジタルデータに変換される。また、このデジタルデータに対して、適当な時間間隔で周波数分析等の処理が施され、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。これにより、音声に関する時系列の特徴量が抽出される。そして、保持されている基準データを用いて、その抽出された時系列の特徴量とのマッチング処理を行ない、このマッチング処理の結果として音声認識結果が出力される。なお、音声の解析方法および認識方法については、他の公知の各種方法を用いるようにしてもよい。
操作受付部140は、ユーザによって操作された操作内容を受け付ける操作受付部であり、受け付けられた操作内容に応じた操作信号を撮像部111、タイマ設定部150、音有効範囲設定部160、表示制御部190に出力する。例えば、操作受付部140は、合成画像を生成するための合成画像記録モードの設定を指示する合成画像記録モード設定操作が受け付けられると、撮像動作の開始を指示する制御信号を撮像部111に出力する。そして、撮像画像の表示開始を指示する制御信号を表示制御部190に出力する。なお、合成画像記録モードの設定操作は、例えば、合成画像記録モードの設定ボタンの押下操作により行われる。また、例えば、操作受付部140は、合成画像記録モードの解除を指示する合成画像記録モード解除操作が受け付けられると、撮像動作を停止する制御信号を撮像部111に出力する。なお、合成画像記録モード解除操作は、例えば、合成画像記録モードの解除ボタンにより行われる。また、例えば、操作受付部140は、合成画像記録モードが設定されている場合において、合成画像の記録指示操作が受け付けられると、合成画像の記録指示操作が受け付けられた旨の制御信号を音有効範囲設定部160に出力する。そして、撮像動作を停止する制御信号を撮像部111に出力する。なお、合成画像の記録指示操作は、例えば、録画ボタン(RECボタン)により行われる。また、例えば、操作受付部140は、合成画像記録モードにおける撮像動作をタイマ設定により行うためのタイマ設定操作が受け付けられると、タイマ設定を指示する制御信号をタイマ設定部150に出力する。なお、タイマ設定操作は、例えば、タイマ設定ボタンにより行われる。また、このタイマ設定ボタンの押下操作の際に、カウンタ値の設定操作(例えば、8乃至17秒を設定)を行うようにしてもよい。これらの操作入力は、例えば、撮像装置100に設けられているボタン等の操作部材を用いて行うようにしてもよく、また、リモコン(リモートコントローラ)操作等により無線通信により行うようにしてもよい。
タイマ設定部150は、合成画像記録モードにおける撮像動作を行うためのタイマ(例えば、セルフタイマ機能)を設定するものである。具体的には、タイマ設定部150は、操作受付部140によりタイマ設定操作が受け付けられると、撮像動作の開始を指示する制御信号を撮像部111に出力する。そして、撮像画像およびタイマ設定によるカウント値の表示開始を指示する制御信号を表示制御部190に出力する。また、カウント値の表示開始以降は、設定内容に応じたカウント値を表示制御部190に順次出力する。これにより、図6に示すように、撮像部111により生成された撮像画像が表示部191に表示されるとともに、撮像画像上にカウント値が重ねて表示される。表示部191には、例えば、1秒毎に1つずつカウントアップされたカウント値が表示されるものとする。また、タイマ設定部150は、設定されたタイマのカウント値が「0」となった場合には、その旨の制御信号を音有効範囲設定部160に出力する。そして、撮像動作を停止する制御信号を撮像部111に出力する。
音有効範囲設定部160は、合成画像記録モードが設定されている場合において、特定音検出部132により検出された特定音を有効とするか否かを判定するための音有効範囲を設定するものである。そして、音有効範囲設定部160は、設定された音有効範囲に関する情報(音有効範囲、この範囲の設定の際に基準となった時間軸における位置)を選択部170に出力する。具体的には、音有効範囲設定部160は、操作受付部140により合成画像の記録指示操作が受け付けられた場合、または、タイマ設定部150により設定されたタイマのカウント値が「0」となった場合に、音有効範囲を設定する。ここで、操作受付部140により合成画像の記録指示操作が受け付けられた場合には、合成画像の記録指示操作が受け付けられた時間軸における位置が、基準位置となる。また、タイマ設定部150により設定されたタイマのカウント値が「0」となった場合には、カウント値が「0」となった時間軸における位置が、基準位置となる。これらの音有効範囲の設定方法については、図5および図7等を参照して詳細に説明する。
選択部170は、撮像画像保持部115に保持されている撮像画像のうちから、レイヤ処理部180による合成画像の生成処理に用いられる合成対象画像を選択するものである。そして、選択部170は、選択された合成対象画像に関する情報(例えば、合成対象画像、この画像に関する被写体情報、合成画像の生成処理に用いられる座標)をレイヤ処理部180に出力する。なお、選択部170の内部構成については、図2を参照して詳細に説明する。また、選択部170は、特許請求の範囲に記載の制御部の一例である。
レイヤ処理部180は、選択部170により選択された合成対象画像を用いて、合成画像を生成するものであり、生成された合成画像を合成画像記憶部200に記憶させる。なお、レイヤ処理部180の内部構成については、図2を参照して詳細に説明する。また、レイヤ処理部180は、特許請求の範囲に記載の合成画像生成部の一例である。
合成画像保持部185は、レイヤ処理部180による合成画像の生成処理の際に、合成処理中の合成画像(履歴画像)を保持するものであり、保持されている合成画像をレイヤ処理部180に供給する。なお、合成画像保持部185については、図2を参照して詳細に説明する。
表示制御部190は、操作受付部140により受け付けられた操作入力に応じて、合成画像記憶部200に記憶されている合成画像または撮像部111から出力された撮像画像を表示部191に表示させるものである。また、表示制御部190は、タイマ設定部150により設定されたタイマのカウント値を撮像画像に重ねて表示部191に表示させる。
表示部191は、表示制御部190の制御に基づいて、各画像を表示するものである。
合成画像記憶部200は、レイヤ処理部180により生成された合成画像を記憶するものであり、記憶されている合成画像を表示制御部190に供給する。
図2は、本発明の第1の実施の形態における選択部170およびレイヤ処理部180の機能構成例を示すブロック図である。選択部170は、合成対象画像選択範囲決定部171と、合成対象画像選択部172と、座標計算部173と、カウンタ部174とを備える。また、レイヤ処理部180は、レイヤ分離部181と、レイヤ加工部182と、レイヤ合成部183とを備える。
合成対象画像選択範囲決定部171は、撮像画像保持部115に保持されている撮像画像のうち、レイヤ処理部180による合成画像の生成処理に用いられる合成対象画像を選択するための範囲(合成対象画像選択範囲)を決定するものである。具体的には、合成対象画像選択範囲決定部171は、特定音検出部132により検出された特定音の検出位置(時間軸における位置)と、音有効範囲設定部160により設定された音有効範囲とに基づいて、合成対象画像選択範囲を決定する。例えば、合成対象画像選択範囲決定部171は、特定音の検出位置が音有効範囲に含まれる場合には、特定音の検出位置に基づいて合成対象画像選択範囲を決定する。一方、合成対象画像選択範囲決定部171は、特定音の検出位置が音有効範囲に含まれない場合には、その音有効範囲の設定の際に基準となった時間軸における位置に基づいて合成対象画像選択範囲を決定する。ここで、操作受付部140により合成画像の記録指示操作が受け付けられた場合には、合成画像の記録指示操作が受け付けられた時間軸における位置が基準位置となる。また、タイマ設定部150により設定されたタイマのカウント値が「0」となった場合には、カウント値が「0」となった時間軸における位置が基準位置となる。そして、合成対象画像選択範囲決定部171は、決定された合成対象画像選択範囲に関する情報(例えば、合成対象画像選択範囲、この範囲に含まれる画像に関する被写体情報)を合成対象画像選択部172に出力する。なお、合成対象画像選択範囲決定部171は、特許請求の範囲に記載の決定部の一例である。
合成対象画像選択部172は、合成対象画像選択範囲決定部171により決定された合成対象画像選択範囲に含まれる各画像のうちから、レイヤ処理部180による合成画像の生成処理に用いられる合成対象画像を選択するものである。例えば、合成対象画像選択部172は、合成対象画像選択範囲決定部171により決定された合成対象画像選択範囲に含まれる各画像(撮像画像保持部115に保持されている撮像画像)のうちから、一定間隔毎の画像を合成対象画像として選択する。また、例えば、注目被写体の動作遷移を視認するのに適した間隔となるように、合成対象画像を選択するようにしてもよい。そして、合成対象画像選択部172は、選択された合成対象画像に関する情報(例えば、合成対象画像、この画像に関する被写体情報)を座標計算部173およびレイヤ分離部181に出力する。
座標計算部173は、合成対象画像選択部172から出力された各合成対象画像について、レイヤ処理部180による合成画像の生成処理に用いられる座標計算を行うものであり、求められた座標をレイヤ加工部182に出力する。この座標計算では、計算対象となる合成対象画像に関する合成画像に合成すべき画素位置が計算される。すなわち、この座標計算では、最終的に生成される合成画像(例えば、図8(d)に示す合成画像402)の中で、計算対象となる合成対象画像を当てはめる画素範囲(例えば、図8(d)に示すF0、F10等の範囲)が計算される。
カウンタ部174は、合成対象画像選択範囲決定部171による合成対象画像選択範囲決定時に用いられるカウンタ(インパクト音検出カウンタ)の値を合成対象画像選択範囲決定部171に供給するものである。ここで、カウンタ部174は、インパクト音検出カウンタをインクリメントし続ける。そして、特定音検出部132から特定音が検出された旨が合成対象画像選択範囲決定部171に出力された場合には、合成対象画像選択範囲決定部171によりインパクト音検出カウンタの値が「0」にリセットされる。また、このリセット後についても同様に、カウンタ部174がインパクト音検出カウンタをインクリメントし続ける。そして、合成対象画像選択範囲決定部171は、合成対象画像選択範囲の決定時に、インパクト音検出カウンタの値を用いてインパクト音検出位置を推定する。すなわち、合成対象画像選択範囲の決定時において、この決定時よりもインパクト音検出カウンタの値だけ前の位置(時間軸における前の位置)が、インパクト音検出位置であると推定される。
レイヤ分離部181は、合成対象画像選択部172により選択された合成対象画像について、対応する被写体情報を用いてレイヤ分離を行うものである。ここで、レイヤとは、1つの画像(フレーム)について、注目被写体部分および背景部分を分離させた各画像を意味するものとする。そして、レイヤ分離部181は、分離された各レイヤ画像をレイヤ加工部182に出力する。
レイヤ加工部182は、レイヤ分離部181から出力された各レイヤ画像について、座標計算部173により求められた座標を用いて、合成画像として生成するための各種の加工処理を行うものである。この加工処理として、切り取り、拡大縮小、回転、座標移動等の幾何学的な演算処理が行われる。例えば、拡大縮小は、合成対象画像の枚数や合成画像のサイズ等に応じて、その処理内容が決定される。また、この加工処理として、注目被写体の動作部分の強調等の画像処理を行うようにしてもよい。そして、レイヤ加工部182は、加工処理が施されたレイヤ画像をレイヤ合成部183に出力する。
レイヤ合成部183は、レイヤ加工部182から出力されたレイヤ画像について画像合成処理を行うものであり、生成された合成画像を合成画像記憶部200に記憶させる。具体的には、レイヤ合成部183は、レイヤ加工部182から出力されたレイヤ画像が、当てはめるべき画素範囲に配置されるように、各レイヤ画像を合成する。また、レイヤ合成部183は、直前に合成対象となったレイヤ画像の合成処理後に、その合成画像(履歴画像)を合成画像保持部185に順次保持させる。そして、レイヤ合成部183は、次の合成対象となるレイヤ画像の合成処理を行う際には、合成画像保持部185に保持されたその合成画像(履歴画像)を合成画像保持部185から取得して合成処理に用いる。
合成画像保持部185は、レイヤ合成部183により生成された合成画像(履歴画像)を順次保持するものであり、保持されている合成画像をレイヤ合成部183に供給する。すなわち、合成画像保持部185には、レイヤ合成部183により生成される合成画像が順次更新されて保持される。
[合成画像生成処理の遷移例]
次に、合成画像を生成する場合における生成処理の遷移の一例を簡略化して示す。
図3は、本発明の第1の実施の形態における撮像装置100とこの撮像対象となる人物300との位置関係、および、その位置関係で生成される動画の関係を模式的に示す図である。
図3(a)には、撮像装置100と、撮像装置100により撮像対象となる人物300との位置関係を模式的に示す。人物300は、例えば、ゴルフ練習場でゴルフクラブ301のスイングの練習をしている人物である。人物300は、図3(a)に示す姿勢から、ゴルフクラブ301を振り回すことにより、ゴルフクラブ301をゴルフボール302に当てて、ゴルフボール302を所望の方向に飛ばす。
図3(b)には、撮像部111により生成された動画310を矩形により模式的に示す。また、図3(b)では、動画310に対応する矩形内に、動画310を構成する各フレームのうち、一部のフレーム(画像311乃至313等)を時間軸に沿って並べて示す。なお、動画310は、図3(a)に示す状態で、撮像装置100により人物300のゴルフスイングの練習の様子が撮像された動画であるものとする。ここで、画像311は、人物300がゴルフスイングの準備をしている状態が撮像された画像であり、画像312は、ゴルフスイングが終了した後に、人物300がゴルフボール302の飛んでいく方向を見ている状態が撮像された画像であるものとする。また、画像313は、人物300がゴルフスイングをしている際に、ゴルフクラブ301がゴルフボール302に当たった瞬間の状態が撮像された画像であるものとする。ここで、人物300がゴルフスイングをしている際に、ゴルフクラブ301がゴルフボール302に当たった瞬間には、特定音(インパクト音)が発生する。このインパクト音が発生した動画310における位置をインパクト音発生位置315とする。
このように生成された動画310を用いて、人物300のゴルフスイングの遷移を示す合成画像を生成する場合には、例えば、合成対象画像を選択するための一定範囲(合成対象画像選択範囲)を選択する。この合成対象画像選択範囲は、例えば、ゴルフスイングの開始から終了までの一連の動作遷移が含まれる範囲である。そして、その一定範囲内において、合成対象となる画像を選択して合成する。この合成例については、図4(b)に示す。
例えば、図3(b)に示す動画310において、合成対象画像選択範囲320が決定され、この合成対象画像選択範囲320に含まれる各フレームのうち、所定条件を満たすフレームが合成対象画像として決定される。
図3(c)には、図3(b)に示す動画310において決定された合成対象画像選択範囲320に含まれる各フレームのうち、一部のフレーム(画像321乃至326)を時間軸に沿って並べて示す。ここで、画像321は、人物300がゴルフスイングを開始した際に撮像された画像であり、画像326は、人物300がゴルフスイングを終了した際に撮像された画像であるものとする。また、画像323は、図3(b)に示す画像313に対応する画像である。また、画像322、324、325は、画像321から画像326までの、ゴルフスイングをしている人物300の動作の遷移が時系列で順次撮像された画像である。
図4は、本発明の第1の実施の形態における合成対象画像選択部172により選択される合成対象画像およびレイヤ処理部180により生成される合成画像の一例を示す図である。図4(a)には、図3(b)に示す動画310における合成対象画像選択範囲320に含まれる各フレームのうち、合成対象画像として選択された24個の画像を時系列で並べて示す。なお、図4(a)に示す24個の画像のうち、図3(c)に示す画像321乃至326と同一の被写体が含まれる画像については、同一の符号を付して示す。ここで、合成対象画像の選択方法として、例えば、一定間隔毎のフレームを合成対象画像として選択する選択方法を用いることができる。また、例えば、ゴルフクラブ301がゴルフボール302に当たる付近の動作の遷移を細かく確認したいような場合も想定される。この場合には、インパクト音が発生した際における画像(例えば、画像323)の付近の画像の間隔を、他の間隔よりも密にして合成対象画像を選択するようにしてもよい。
図4(b)には、レイヤ処理部180により生成された合成画像330を簡略化して示す。このように、人物300のゴルフスイングの開始から終了までの動作遷移が含まれる合成対象画像選択範囲を決定し、合成対象画像選択範囲内において合成対象画像を選択して合成する。これにより、人物300のゴルフスイングの動作遷移を表す合成画像を生成することができる。
このように、動画310から合成画像を生成する場合には、合成対象画像を選択するための合成対象画像選択範囲を適切に選択することが重要となる。しかしながら、ゴルフスイングは比較的短時間に行われるため、動画310から合成対象画像選択範囲を適切に選択することは困難であることが想定される。すなわち、人物300のゴルフスイングの開始前の状態が含まれる画像からそのゴルフスイングの終了後の状態が含まれる画像までが含まれる動画310から、合成対象画像選択範囲を選択することは困難であることが想定される。
ここで、上述したように、ゴルフスイング中には、その真ん中付近でインパクト音が発生する。このように、インパクト音は、ゴルフスイング中の所定位置で発生することが多いため、このインパクト音を基準として、合成対象画像選択範囲を選択することが考えられる。しかしながら、他のプレイヤーが多く存在するゴルフ練習場で人物300が練習をしているような場合には、人物300のゴルフスイングの準備中等でも、人物300以外の他のプレイヤーによるゴルフスイングによりインパクト音が発生する可能性が高い。すなわち、インパクト音を伴うスポーツに関する一瞬の動作を適切に記録する場合には、検出されたインパクト音を常に有効とすると、検出対象外のインパクト音を誤検出する可能性が高い。このため、人物300に関する合成画像を生成する場合において、インパクト音を基準として合成対象画像選択範囲を選択する場合には、人物300によるゴルフスイングにより発生するインパクト音を適切に検出することが重要である。そこで、本発明の第1の実施の形態では、ユーザ操作に基づく撮影トリガのタイミング付近のみを有効とする音有効範囲を設定し、インパクト音の誤検出を低減させる例を示す。この音有効範囲内で検出されたインパクト音のみを用いて合成対象画像選択範囲を設定することにより、適切な合成対象画像を選択することができる。
[録画ボタン操作に基づく合成対象画像選択範囲の決定例]
図5は、本発明の第1の実施の形態における音有効範囲設定部160による音有効範囲の設定方法および合成対象画像選択範囲決定部171による合成対象画像選択範囲の決定方法を模式的に示す図である。
図5(a)には、撮像部111により生成された動画350を矩形により模式的に示す。なお、動画350は、図3(b)に示す例と同様に、撮像装置100により人物(例えば、甲田五郎)のゴルフスイングの練習の様子が撮像された動画であるものとする。ここで、甲田五郎は、自己のゴルフスイングの撮影を友人(例えば、乙川六郎)に依頼したものとする。この場合には、乙川六郎が、光軸方向を甲田五郎に向けた状態で撮像装置100を手で持ち、合成画像記録モードの設定ボタンを押下する。この押下操作が操作受付部140により受け付けられると、撮像部111により撮像画像が生成され、この生成された撮像画像が撮像画像保持部115に順次保持される。また、表示制御部190がその生成された撮像画像(いわゆる、スルー画像)を表示部191に順次表示させる。このように、合成画像記録モードが設定されている撮像装置100を用いて乙川六郎により撮影が行われている状態で、甲田五郎がゴルフスイングを行う。この甲田五郎によるゴルフスイングが終了した直後に、乙川六郎が録画ボタンを速やかに押下する。この押下操作が操作受付部140により受け付けられると、音有効範囲設定部160が音有効範囲を設定する。
例えば、乙川六郎により録画ボタンが押下された位置(時間軸における位置)が、図5(a)に示す動画350の時間軸における録画ボタンの押下位置(録画ボタン押下位置351)であるものとする。この場合には、音有効範囲設定部160が、録画ボタン押下位置351に基づいて音有効範囲352を設定する。具体的には、音有効範囲設定部160が、録画ボタン押下位置351を基準として、時間軸において、録画ボタン押下位置351よりも時間L1だけ前の範囲を音有効範囲352として設定する。この例では、一連のゴルフスイング動作が終了した後に、録画ボタンの押下(撮影トリガ)が発生することを想定しているため、インパクト音の発生位置は、撮影トリガのタイミングよりも前に存在すると想定される。このため、録画ボタンの押下時よりも前に音有効範囲を設定する例を示す。
ここで、時間L1は、例えば、1.0秒とすることができる。このように設定された音有効範囲において検出されたインパクト音を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図5(b)を参照して説明する。また、このように設定された音有効範囲においてインパクト音が検出されない場合には、録画ボタン押下位置351を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図5(c)を参照して説明する。
図5(b)には、音有効範囲設定部160により設定された音有効範囲352においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図5(b)では、特定音検出部132によりインパクト音が検出された位置(時間軸における位置)をインパクト音検出位置353として示す。図5(b)に示すように、音有効範囲設定部160により設定された音有効範囲352においてインパクト音が検出された場合には、合成対象画像選択範囲決定部171が、そのインパクト音検出位置353に基づいて合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、インパクト音検出位置353を基準にして、時間軸において、インパクト音検出位置353の前後の一定範囲を合成対象画像選択範囲354として決定する。具体的には、合成対象画像選択範囲決定部171が、時間軸において、インパクト音検出位置353よりも時間L2だけ前の範囲と、インパクト音検出位置353よりも時間L3だけ後の範囲とにより構成される範囲L4を合成対象画像選択範囲354として決定する。
ここで、ゴルフスイングは、ゴルフクラブの回転速度を考慮すると、ゴルフクラブがゴルフボールに当たった瞬間の前の時間よりも、その後の時間が短いと考えられる。すなわち、ゴルフスイングは、インパクト音の発生時の前の時間よりも、後の時間が短いと考えられる。そこで、インパクト音検出位置353の後の時間L3よりも、その前の時間L2を長くするように、合成対象画像選択範囲354を決定する。例えば、時間L2を1.5秒とし、時間L3を0.5秒とすることができる。このように、音有効範囲内において検出されたインパクト音に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。
ここで、音有効範囲設定部160により設定された音有効範囲352以外の位置(例えば、図5(b)に矢印358および359で示す位置)でインパクト音が検出されることも想定される。このように音有効範囲352以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲の決定に、そのインパクト音を用いないことにする。なお、このようにインパクト音を用いない場合には、図5(c)に示すように、録画ボタンの押下位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲352以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲を決定せずに、次の合成画像の生成処理に備えるようにしてもよい。
図5(c)には、音有効範囲設定部160により設定された音有効範囲352においてインパクト音が検出されない場合における合成対象画像選択範囲の決定方法を模式的に示す。図5(c)では、図5(a)と同様に、録画ボタンが押下された位置を録画ボタン押下位置351として示す。図5(c)に示すように、音有効範囲352内でインパクト音が検出されない場合には、合成対象画像選択範囲決定部171が、録画ボタン押下位置351に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、録画ボタン押下位置351を基準にして、時間軸において、録画ボタン押下位置351の前の一定範囲を合成対象画像選択範囲355として決定する。具体的には、合成対象画像選択範囲決定部171が、時間軸において、インパクト音検出位置353よりも時間L7(L5+L6)だけ前の範囲を合成対象画像選択範囲355として決定する。このように、音有効範囲352内でインパクト音が検出されない場合には、時間軸において、録画ボタンの押下位置よりも時間L6だけ前の位置をインパクト音検出位置と想定して合成対象画像選択範囲355が決定される。すなわち、時間L5およびL6は、図5(b)に示す時間L2およびL3に対応する。ここで、例えば、図5(b)と同様に、時間L7を2.0秒とすることができる。すなわち、時間L5を1.5秒とし、時間L6を0.5秒とする。しかしながら、録画ボタン押下位置に基づいて合成対象画像選択範囲を決定する場合には、ユーザ操作に基づいて合成対象画像選択範囲を決定することになるため、図5(b)に示す合成対象画像選択範囲354よりも精度が低くなるおそれがある。そこで、録画ボタン押下位置に基づいて合成対象画像選択範囲を決定する場合には、例えば、時間L7を時間L4よりも長くして合成対象画像選択範囲を決定するようにしてもよい。
また、これらの各時間L1乃至L7については、ユーザ操作により変更可能とするようにしてもよい。
[タイマに基づく合成対象画像選択範囲の決定例]
図6は、本発明の第1の実施の形態における表示部191に表示される表示画面の遷移の一例を示す図である。図6(a)には、人物300のゴルフスイングの開始前において、撮像部111により生成された画像に、タイマ設定部150により設定されたタイマのカウント値372の「17」が重ねられた表示例(表示画面370)を示す。図6(b)には、人物300のゴルフスイングの終了時において、撮像部111により生成された画像に、タイマ設定部150により設定されたタイマのカウント値373の「0」が重ねられた表示例(表示画面371)を示す。
この例では、人物300(例えば、甲田五郎)が、自己のゴルフスイングの練習の様子を一人で撮影する場合を想定する。この場合には、例えば、甲田五郎が、図3(a)に示すように、練習をする甲田五郎に光軸方向が向くように撮像装置100を設置し、タイマ設定ボタンを押下する。この押下操作により、撮像部111により撮像画像が生成され、表示制御部190がその生成された撮像画像(いわゆる、スルー画像)を表示部191に表示させる。また、そのタイマ設定ボタンの押下操作により、タイマ設定部150がタイマを設定し、表示制御部190がその設定内容に応じたカウント値(例えば、17秒)をスルー画像に重ねて表示部191に表示させる。例えば、図6(a)に示すように、タイマ設定ボタンの押下後に、ゴルフスイングの準備をする人物300を含む撮像画像に、タイマ設定部150により設定されたタイマのカウント値372の「17」が重ねられた表示画面370が表示される。以降も同様に、人物300を含む撮像画像に、タイマのカウント値(例えば、17秒から1秒間隔で減少する値)が重ねられた表示画面が表示部191に表示される。このように表示部191に表示される表示画面を見ながら、タイマのカウント値が「0」となる付近でゴルフスイングが終了するように、人物300がゴルフスイングを行う。また、タイマのカウント値が「0」となった場合には、音有効範囲設定部160が音有効範囲を設定する。また、一定時間経過後に撮像動作が停止される。この音有効範囲の設定方法については、図7を参照して詳細に説明する。
このように、タイマ設定を行うことにより、例えば、撮影を行う友人がいない場合でも、人物300が自己のゴルフスイングの様子を容易に撮影することができる。
図7は、本発明の第1の実施の形態における音有効範囲設定部160による音有効範囲の設定方法および合成対象画像選択範囲決定部171による合成対象画像選択範囲の決定方法を模式的に示す図である。この例では、タイマ設定部150により設定されたタイマに基づいて音有効範囲を設定する例を示す。
図7(a)には、撮像部111により生成された動画380を矩形により模式的に示す。なお、動画380は、図3(b)に示す例と同様に、撮像装置100により人物(例えば、甲田五郎)のゴルフスイングの練習の様子が撮像された動画であるものとする。例えば、図6に示すように、人物300(例えば、甲田五郎)が、自己のゴルフスイングの練習の様子を一人で撮影する場合において、タイマ設定部150により設定されたタイマのカウント値が「0」となった場合を想定する。この場合には、上述したように、音有効範囲設定部160が音有効範囲を設定する。
例えば、タイマ設定部150により設定されたタイマのカウント値が「0」となった位置が、図7(a)に示す動画380の時間軸におけるタイマカウンタ0の位置(タイマカウンタ「0」位置381)であるものとする。この場合には、音有効範囲設定部160が、タイマカウンタ「0」位置381に基づいて音有効範囲382を設定する。具体的には、音有効範囲設定部160が、タイマカウンタ「0」位置381を基準として、時間軸において、タイマカウンタ「0」位置381の前後の一定範囲を音有効範囲382として設定する。例えば、音有効範囲設定部160が、時間軸において、タイマカウンタ「0」位置381よりも時間L11だけ前の範囲と、タイマカウンタ「0」位置381よりも時間L12だけ後の範囲とにより構成される範囲L13を音有効範囲382として設定する。
ここで、人物300がタイマカウンタ0のタイミングで、一連のゴルフスイングの動作を終了するように、ゴルフスイングを行うことが困難であることが想定される。このため、この例では、タイマカウンタ0の位置で、インパクト音が発生する瞬間を迎えることを想定し、タイマカウンタ0の位置の前後に跨るように音有効範囲を設定する。このように、録画ボタンの押下位置に基づいて音有効範囲を設定する場合と、タイマカウンタ0の位置に基づいて音有効範囲を設定する場合とについては、異なる設定内容とすることができる。このように、複数の撮影トリガの特徴に応じて音有効範囲を設定することにより、検出すべきインパクト音以外の音を誤検出するリスクを低減させることができる。
ここで、時間L11は、例えば、0.5秒とし、時間L12は、例えば、0.5秒とすることができる。すなわち、音有効範囲382の時間L13は、例えば、1.0秒とすることができる。なお、人物300は、表示部191に表示される表示画面を見ながら、タイマのカウント値が「0」となる付近でゴルフスイングが終了するようにそのゴルフスイングを行う。このため、録画ボタンが押下された位置に基づいて音有効範囲を設定する場合と比較して、その精度が低い可能性もある。そこで、録画ボタン押下操作に基づく音有効範囲よりも、タイマ設定操作に基づく音有効範囲を比較的広くするようにしてもよい。すなわち、タイマ設定操作に基づく音有効範囲よりも、録画ボタン押下操作に基づく音有効範囲を狭くするようにしてもよい。このように設定された音有効範囲において検出されたインパクト音を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図7(b)を参照して説明する。また、このように設定された音有効範囲においてインパクト音が検出されない場合には、タイマカウンタ「0」位置381を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図7(c)を参照して説明する。
図7(b)には、音有効範囲設定部160により設定された音有効範囲382においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図7(b)では、特定音検出部132によりインパクト音が検出された位置(時間軸における位置)をインパクト音検出位置383として示す。図7(b)に示すように、音有効範囲設定部160により設定された音有効範囲382においてインパクト音が検出された場合には、合成対象画像選択範囲決定部171が、そのインパクト音検出位置383に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、インパクト音検出位置383を基準にして、時間軸において、インパクト音検出位置383の前後の一定範囲を合成対象画像選択範囲384として決定する。具体的には、時間軸において、インパクト音検出位置383よりも時間L14だけ前の範囲と、インパクト音検出位置383よりも時間L15だけ後の範囲とにより構成される範囲L16が合成対象画像選択範囲384として決定される。
ここで、上述したように、ゴルフスイングは、インパクト音の発生時よりも前の時間よりも、後の時間が短いと考えられる。そこで、インパクト音検出位置383よりも後の時間L15よりも、その前の時間L14を長くするように、合成対象画像選択範囲384を決定する。例えば、時間L14を1.5秒とし、時間L15を0.5秒とすることができる。このように、音有効範囲内において検出されたインパクト音に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。
なお、音有効範囲設定部160により設定された音有効範囲382以外の位置(例えば、図7(b)に矢印388および389で示す位置)でインパクト音が検出されることも想定される。このように音有効範囲382以外の位置でインパクト音が検出された場合には、図5(b)に示す例と同様に、合成対象画像選択範囲の決定に、そのインパクト音を用いないことにする。なお、このようにインパクト音を用いない場合には、図7(c)に示すように、タイマカウンタ「0」位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲382以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲を決定せずに、次の合成画像の生成処理に備えるようにしてもよい。
図7(c)には、音有効範囲設定部160により設定された音有効範囲382においてインパクト音が検出されない場合における合成対象画像選択範囲の決定方法を模式的に示す。図7(c)では、図7(a)と同様に、タイマ設定部150により設定されたタイマのカウント値が「0」となった位置を、タイマカウンタ「0」位置381として示す。図7(c)に示すように、音有効範囲382内でインパクト音が検出されない場合には、合成対象画像選択範囲決定部171が、タイマカウンタ「0」位置381に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、タイマカウンタ「0」位置381を基準にして、時間軸において、タイマカウンタ「0」位置381の前後の一定範囲を合成対象画像選択範囲385として決定する。具体的には、時間軸において、タイマカウンタ「0」位置381よりも時間L17だけ前の範囲と、タイマカウンタ「0」位置381よりも時間L18だけ後の範囲とにより構成される範囲L19が合成対象画像選択範囲385として決定される。
ここで、人物300は、表示部191に表示される表示画面を見ながら、タイマのカウント値が「0」となる付近でゴルフスイングが終了するようにそのゴルフスイングを行う。このため、図5(c)に示すように、録画ボタンが押下された位置に基づいて合成対象画像選択範囲を決定する場合と比較して、その精度が低い可能性もある。そこで、音有効範囲382内でインパクト音が検出されない場合には、時間軸において、タイマのカウント値が「0」となった位置(タイマカウンタ「0」位置381)をインパクト音検出位置と想定して合成対象画像選択範囲385が決定される。
また、時間L17およびL18は、図7(b)に示す時間L14およびL15に対応する。また、例えば、図7(b)と同様に、時間L17を1.5秒とし、時間L18を0.5秒とする。ここで、上述したように、タイマのカウント値が「0」となった位置に基づいて合成対象画像選択範囲を決定する場合には、ユーザの感覚による行動に基づいて合成対象画像選択範囲を決定することになる。このため、図7(b)に示す合成対象画像選択範囲384よりも精度が低くなるおそれがある。そこで、タイマのカウント値が「0」となった位置に基づいて合成対象画像選択範囲を決定する場合には、例えば、時間L19を時間L16よりも長くして合成対象画像選択範囲を決定するようにしてもよい。
また、これらの各時間L11乃至L19については、ユーザ操作により変更可能とするようにしてもよい。
[合成画像の生成例]
次に、決定された合成対象画像選択範囲に含まれる各フレームを用いて、合成画像を生成する例について図面を参照して詳細に説明する。なお、本発明の第1の実施の形態では、静止画の合成画像を生成する場合を例にして説明する。
図8は、本発明の第1の実施の形態における選択部170による合成対象画像の選択処理およびレイヤ処理部180による合成画像の生成処理の流れの一例を模式的に示す図である。
図8(a)には、撮像部111により生成された動画400と、この動画400について合成対象画像選択範囲決定部171により決定された合成対象画像選択範囲401とを模式的に示す。なお、動画400は、図3(b)等に示す例と同様に、撮像装置100により人物のゴルフスイングの練習の様子が撮像された動画であるものとする。また、合成対象画像選択範囲401は、図5(b)および(c)、図7(b)および(c)に示す例と同様に、合成対象画像選択範囲決定部171により決定された合成対象画像選択範囲であるものとする。
図8(b)には、動画400における合成対象画像選択範囲401に含まれる各フレームを模式的に示す。図8(b)では、合成対象画像選択範囲401に含まれる各フレームを矩形で示し、この矩形内に各フレームを表すF1乃至F90を付す。
合成対象画像選択部172は、合成対象画像選択範囲401に含まれる各フレームから、所定条件に基づいて合成対象画像を選択する。例えば、合成対象画像選択部172は、フレームF1乃至F90のうち、一定間隔(例えば、10フレーム間隔)毎のフレームを合成対象画像として選択する。この場合に、例えば、インパクト音検出位置を中心として一定範囲(例えば、0.05秒)内に含まれるフレームについては、他の範囲よりもその間隔を密にして選択するようにしてもよい。これにより、見どころとなる動作遷移を中心に選択された画像を用いて合成画像を生成することができる。このように選択された合成対象画像を図8(c)に示す。なお、この例では、簡略化のため、比較的少ないフレーム数を例にして示す。
図8(c)には、合成対象画像選択範囲401に含まれる各フレームから、合成対象画像として選択された複数の合成対象画像(フレームF0、F10等)を模式的に示す。図8(c)では、合成対象画像を矩形で示し、この矩形内に各合成対象画像を表すF0、F10等を付す。なお、この例では、簡略化のため、比較的少ないフレーム数(例えば、10つのフレーム)を選択する例を示す。
図8(d)には、合成対象画像(複数のフレームF0、F10等)により生成される合成画像402を模式的に示す。図8(d)では、図8(c)と同様に、合成対象画像を矩形で示し、この矩形内に各合成対象画像を表すF1、F10等を付す。
レイヤ処理部180は、合成対象画像選択部172により選択された合成対象画像(フレームF0、F10等)を加工処理して合成することにより、合成画像を生成する。例えば、レイヤ処理部180は、合成対象画像選択範囲決定部171により選択された10つの合成対象画像について、合成のための加工処理(例えば、両端部の切り取り)を施して、この加工後の合成対象画像を時系列で合成する。例えば、上部の左端部から時系列で5つの合成対象画像(F0、F10、F20、F30、F40)を並べるように合成させ、さらに、下部の左端部から時系列で5つの合成対象画像(F50、F60、F70、F80、F90)を並べるように合成させる。なお、合成対象画像の合成位置については、座標計算部173による計算結果に基づいて決定される。これにより、例えば、図4(b)に示すように、ゴルフスイングの練習を行う人物の動作の遷移を表す合成画像が生成される。
なお、図8に示す例では、簡易的に画像合成を行う例(合成対象画像の両端部の切取処理を行った後に画像合成を行う例)について説明した。以下では、合成対象画像を注目被写体レイヤと背景レイヤとに分類して合成画像を生成する例を示す。
[合成対象画像のレイヤ分離例]
図9は、本発明の第1の実施の形態におけるレイヤ分離部181による合成対象画像の分離方法を模式的に示す図である。この例では、合成対象画像選択部172により選択された合成対象画像について、被写体情報生成部120により生成された被写体情報に基づいて、2つのレイヤに分離する例を示す。
図9(a)には、合成対象画像410と、合成対象画像410について生成された被写体情報412とを示す。なお、合成対象画像410は人物411が含まれる画像である。また、被写体情報生成部120により生成された被写体情報として、例えば、注目被写体領域に対応する画素には「1」が付与され、注目被写体以外の領域(例えば、背景領域)に対応する画素には「0」が付与される情報が生成される。なお、図9(a)では、人物411に対応する領域(注目被写体領域)を白塗り領域413とし、人物411以外の領域(背景領域)を黒塗り領域として、被写体情報412を模式的に示す。
上述したように、撮像画像保持部115には、撮像部111により生成された撮像画像が順次保持されるとともに、この撮像画像に関連付けて被写体情報生成部120により生成された被写体情報が保持される。また、合成対象画像選択部172は、選択された合成対象画像と、この合成対象画像について生成された被写体情報とをレイヤ分離部181に出力する。そして、レイヤ分離部181は、対応する被写体情報を用いて、合成対象画像選択部172から出力された合成対象画像を2つのレイヤに分離する。
図9(b)には、レイヤ分離部181により分離された注目被写体レイヤ420と、背景レイヤ422とを示す。注目被写体レイヤ420は、図9(a)に示す合成対象画像410における注目被写体領域(すなわち、被写体情報412として「1」が付与された画素領域)が抜き出された画像である。すなわち、合成対象画像410に含まれる人物411に対応する領域421が抜き出される。また、背景レイヤ422は、図9(a)に示す合成対象画像410における背景部分(すなわち、被写体情報412として「0」が付与された画素領域)が抜き出された画像である。すなわち、合成対象画像410に含まれる人物411以外の領域(背景領域)に対応する領域(領域423以外の領域)が抜き出される。
このように分離された各レイヤ画像について、レイヤ加工部182により各種の加工処理が行われる。この加工例については、図10を参照して詳細に説明する。
[合成対象画像の加工例]
図10は、本発明の第1の実施の形態におけるレイヤ加工部182による加工処理の対象となる画像と、レイヤ加工部182により加工処理がされた画像とを簡略化して示す図である。この例では、ゴルフのように、立った状態で行うスポーツについて合成画像を生成する場合を例にして説明する。また、図10では、説明の容易のため、レイヤ分離される前の状態の合成対象画像を用いて加工処理を行う場合の一例を示す。
図10(a)には、レイヤ加工部182により加工処理される前の合成対象画像430を示す。また、図10(b)および(c)には、レイヤ加工部182により加工処理された後の合成対象画像432および433を示す。なお、合成対象画像430、432、433には、ゴルフスイングを行う人物431が含まれているものとする。
図10(a)に示す合成対象画像430は、例えば、幅W1および高さH1の画像サイズであるものとする。例えば、合成対象画像430の画像サイズをVGAサイズ(640画素×480画素)とすることができる。すなわち、W1=640、H1=480とすることができる。
図10(b)に示す合成対象画像432は、図10(a)に示す合成対象画像430における推移動作有効領域に対応する画像であり、例えば、幅W2および高さH2の画像サイズであるものとする。この推移動作有効領域は、加工前の合成対象画像に含まれる被写体のうち、注目被写体を切り出すための領域である。例えば、合成対象画像432の画像サイズを320画素×480画素とすることができる。すなわち、W2=320、H2=480とすることができる。
図10(c)に示す合成対象画像433は、図10(a)に示す合成対象画像430における残存背景領域に対応する画像であり、例えば、幅W3および高さH3の画像サイズであるものとする。この残存背景領域は、合成処理において背景画像として用いる領域である。例えば、合成対象画像433の画像サイズを160画素×480画素とすることができる。すなわち、W3=160、H3=480とすることができる。
なお、推移動作有効領域と残存背景領域との中心位置は、合成対象画像の中心位置と一致するものとする。また、推移動作有効領域のサイズ(W2×H2)および残存背景領域のサイズ(W3×H3)は、注目被写体の推移方向に応じて、そのサイズ(幅および高さの少なくとも一方)が同一となる場合もある。注目被写体の推移方向は、例えば、動作推移画像として表現する際に画像が時間的に進行していく方向である。
例えば、ゴルフのように立った状態で行うスポーツの動作遷移について合成画像を生成する場合には、図4(b)に示すように、各注目被写体画像を横方向に推移させる場合が多い。このため、図10(b)および(c)に示すように、推移動作有効領域および残存背景領域の高さH2、H3を、合成対象画像の高さH1と同じ値とすることが好ましい場合が多い。一方、水平方向になった状態で行うスポーツの動作遷移について合成画像を生成する場合には、各注目被写体画像を縦方向に推移させる場合が想定される。この場合には、推移動作有効領域および残存背景領域の幅W2、W3を、合成対象画像の幅W1と同じ値とすることが好ましい場合が多い。例えば、柔道の寝技等が注目被写体となる場合には、その動作遷移が縦推移となる可能性が高い。
なお、図10に示す例は一例であり、被写体の大きさやその動きに応じて、推移動作有効領域および残存背景領域の幅および高さについて、適切な設定を行い、合成処理に用いる画像として切り出すことが好ましい。
[画像合成例]
図11は、本発明の第1の実施の形態におけるレイヤ合成部183による合成方法を模式的に示す図である。この例では、時系列で連続する2つの合成対象画像について合成処理を行う例を示す。
図11(a)には、レイヤ分離部181により分離され、レイヤ加工部182により加工された合成対象画像(時系列で連続する2つの合成対象画像)を簡略化して示す。上述したように、レイヤ分離部181により合成対象画像が注目被写体レイヤおよび背景レイヤに分離される。また、レイヤ分離部181により分離された注目被写体レイヤおよび背景レイヤについて、レイヤ加工部182が加工処理を行う。このように、時系列で連続する2つの合成対象画像について分離および加工がされることにより、図11(a)に示すように、4つのレイヤ(第1優先画像441乃至第4優先画像444)が生成される。
第1優先画像441は、時間軸において後の合成対象画像の注目被写体レイヤであり、第3優先画像443は、その合成対象画像の背景レイヤであるものとする。また、第2優先画像442は、時間軸において前の合成対象画像の注目被写体レイヤであり、第4優先画像444は、その合成対象画像の背景レイヤであるものとする。また、これらの画像を合成する場合には、優先順位の高い画像が上書きされるように合成される。
図11(b)には、各レイヤ画像の優先順位に基づいて生成された合成画像450を示す。すなわち、レイヤ合成部183が、優先順位に基づいて、4つのレイヤ(第1優先画像441乃至第4優先画像444)を合成することにより、合成画像450を生成する。合成画像450は、第3優先画像443および第4優先画像444により合成された背景領域に、第1優先画像441に含まれる人物画像445と、第2優先画像442に含まれる人物画像446とが上側に重なるように合成された画像である。この場合に、第3優先画像443が第4優先画像444よりも上側に重なるように合成される。また、第1優先画像に含まれる人物画像445が、第2優先画像442に含まれる人物画像446よりも上側に重なるように合成される。
なお、図12に示すように、3以上の合成対象画像を順次合成させて合成画像を生成する場合には、時系列に沿って合成対象画像を順次合成することにより、合成画像を生成する。また、時系列で連続する2つの合成対象画像のうち、時間軸において前の合成対象画像については、その後の合成対象画像の合成処理時までの間、合成画像保持部185に保持させておく。
図12は、本発明の第1の実施の形態におけるレイヤ合成部183による合成対象画像の合成方法を模式的に示す図である。この例では、図12(b)に示す合成画像460が生成されるまでの間における合成対象画像の合成例の一例を示す。
図12(a)には、図12(b)に示す合成画像460が生成されるまでの間におけるある時点の合成状態を示す。例えば、図12(a)に示す状態は、合成対象画像462(2つのレイヤ画像)について合成処理が行われた時点であるものとする。すなわち、図12(a)では、合成対象画像462に対応する推移動作有効領域E10と、直前の合成対象画像463とについて合成処理がされた合成画像461とを示す。この例では、直前に合成対象となった各レイヤ画像を合成画像保持部185に保持しておくものとする。
ここで、合成対象画像462における領域E11については、直前の合成対象画像463と合成対象画像462との間で重複する領域がない。このため、合成対象画像462を合成画像461に合成する場合には、合成対象画像462における領域E11については、合成対象画像462の推移動作有効領域の画素をそのまま新たな合成画像として、合成画像461に上書き合成する。
しかしながら、合成対象画像462における領域E12については、直前の合成対象画像463の一部と重複している。そこで、合成対象画像462における領域E12については、図11で示したように、優先順位に従って各レイヤ画像を合成する。
すなわち、レイヤ合成部183は、領域E12については、今回の合成対象となる合成対象画像462と、合成画像保持部185に保持されている直前の合成対象画像463との各レイヤ画像を用いて、優先順位に従って各レイヤ画像を合成する。この合成により、合成対象画像462および463から領域E11+E12の合成画像が生成される。そして、レイヤ合成部183は、このように生成された領域E11+E12の合成画像を、合成画像保持部185に保持されている合成画像(直前の合成対象画像463が合成された合成画像)に上書き合成する。すなわち、レイヤ合成部183は、このように合成により生成された領域E11+E12の合成画像と、合成画像保持部185に保持されている合成画像に対応するE1とを貼り付ける処理を行う。
また、今回の合成対象となった合成対象画像462(2つのレイヤ画像)と、今回の合成処理により生成された合成画像とが、合成画像保持部185に保持され、次の合成処理に用いられる。このように生成された合成画像の一例を図12(b)に示す。
このように、合成処理の際に連続する画像間で重複する領域(例えば、領域E12)については、優先順位に従って各レイヤ画像を合成することにより、注目被写体の一部を欠損させずに合成画像を生成することができる。このため、多数の合成対象画像を用いて合成画像を生成する場合でも、注目被写体の動作を適切に表現することができる動作推移画像を生成することができる。
このように、レイヤ合成部183により生成された合成画像460は、合成画像記憶部200に記憶される。そして、例えば、ユーザ操作に応じて、表示部191に表示される。また、例えば、レイヤ合成部183により合成画像が生成される毎に、自動的に表示部191に表示させるようにしてもよい。図13では、このように生成された合成画像の一例を示す。
[合成画像例]
図13は、本発明の第1の実施の形態におけるレイヤ処理部180により生成された合成画像の一例を示す図である。図13に示す合成画像470は、ゴルフの練習を行う人物の動作の遷移を表す合成画像である。合成画像470において、矢印471で示す領域は、インパクト音が発生した位置に対応する画像が含まれる領域である。
[撮像装置の動作例]
図14は、本発明の第1の実施の形態における撮像装置100による合成画像生成処理の処理手順の一例を示すフローチャートである。
最初に、合成画像記録モードの設定操作が行われたか否かが判断される(ステップS901)。例えば、合成画像記録モードの設定ボタン、またはタイマ設定ボタンの押下操作が行われたか否かが判断される。合成画像記録モードの設定操作が行われていない場合には(ステップS901)、合成画像記録モードの設定操作が行われるまで監視を継続する。合成画像記録モードの設定操作が行われた場合には(ステップS901)、撮像部111が撮像画像の生成処理を行い(ステップS902)、生成された撮像画像が撮像画像保持部115に保持される(ステップS903)。すなわち、バッファリング処理が行われる。
続いて、録画ボタンの押下操作が行われたか否かが判断され(ステップS904)、録画ボタンの押下操作が行われた場合には、音有効範囲設定部160が、その押下位置に基づいて音有効範囲を設定する(ステップS905)。例えば、図5(a)に示すように、録画ボタン押下位置351に基づいて音有効範囲352が設定される。一方、録画ボタンの押下操作が行われていない場合には(ステップS904)、タイマ設定部150により設定されたタイマのカウンタ値が0となったか否かが判断される(ステップS906)。タイマのカウンタ値が0となった場合には(ステップS906)、音有効範囲設定部160が、タイマのカウンタ値が0となった位置に基づいて音有効範囲を設定する(ステップS907)。例えば、図7(a)に示すように、タイマカウンタ「0」位置381に基づいて音有効範囲382が設定される。また、タイマのカウンタ値が0となっていない場合、または、タイマ設定部150によりタイマ設定がされていない場合には(ステップS906)、ステップS902に戻る。
続いて、バッファリング終了処理が行われ(ステップS908)、設定された音有効範囲内でインパクト音が検出されたか否かが判断される(ステップS909)。設定された音有効範囲内でインパクト音が検出された場合には(ステップS909)、合成対象画像選択範囲決定部171が、インパクト音が検出された位置に基づいて、合成対象画像選択範囲を決定する(ステップS910)。例えば、図5(c)に示すように、インパクト音検出位置353に基づいて、合成対象画像選択範囲355が決定される。また、例えば、図7(c)に示すように、インパクト音検出位置383に基づいて、合成対象画像選択範囲385が決定される。
また、設定された音有効範囲内でインパクト音が検出されていない場合には(ステップS909)、合成対象画像選択範囲決定部171が、その音有効範囲が設定された際に基準となった位置に基づいて、合成対象画像選択範囲を決定する(ステップS911)。すなわち、その音有効範囲が、録画ボタンの押下位置に基づいて設定された場合には、その押下位置に基づいて合成対象画像選択範囲が決定される。例えば、図5(c)に示すように、録画ボタン押下位置351に基づいて、合成対象画像選択範囲355が決定される。一方、その音有効範囲が、タイマのカウンタ値が0となった位置に基づいて設定された場合には、その位置に基づいて合成対象画像選択範囲が決定される。例えば、図7(c)に示すように、タイマカウンタ「0」位置381に基づいて、合成対象画像選択範囲385が決定される。
続いて、合成対象画像選択部172が、決定された合成対象画像選択範囲に含まれる各画像の中から、合成対象画像を選択する(ステップS912)。続いて、選択された合成対象画像を用いて、合成画像の生成処理が行われる(ステップS913)。
続いて、合成画像記録モードの解除操作が行われたか否かが判断され(ステップS914)、合成画像記録モードの解除操作が行われていない場合には、ステップS902に戻り、次の合成画像に関する画像合成処理を継続して行う。一方、合成画像記録モードの解除操作が行われた場合には(ステップS914)、合成画像生成処理の動作を終了する。
このように、本発明の第1の実施の形態では、検出対象となるインパクト音が存在し得る時間帯を音有効範囲として設定することにより、検出対象となるインパクト音以外の他の音の誤検出を低減させることができる。これにより、ゴルフスイング等のインパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。この場合に、インパクト音の発生位置の検出には、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。
また、上述したように、音有効範囲においてインパクト音が検出されたか否かに応じて、合成画像を生成するか否かを判断するようにしてもよい。この例を図15に示す。
図15は、本発明の第1の実施の形態における撮像装置100による合成画像生成処理の処理手順の一例を示すフローチャートである。この例は、図14に示す合成画像生成処理の処理手順の変形例であり、ステップS911を省略した例である。このため、図14に示す処理手順と同一のものには、同一の符号を付して、共通する部分の説明を省略する。
ステップS905またはS907で設定された音有効範囲内でインパクト音が検出されたか否かが判断される(ステップS909)。そして、設定された音有効範囲内でインパクト音が検出されていない場合には(ステップS909)、ステップS914に進む。すなわち、音有効範囲内でインパクト音が検出されていない場合には、合成画像を生成せずに、次の録画ボタンの押下位置、または、タイマのカウンタ値が0となった位置を用いて、合成画像の生成処理を行う。すなわち、選択部170は、音有効範囲内でインパクト音が検出された場合にはその特定音を用いた合成画像をレイヤ処理部180に生成させ、音有効範囲内でインパクト音が検出されなかった場合には、合成画像を生成させないように制御する。
このように、音有効範囲内でインパクト音を検出することができなかった場合には、合成画像の生成を行わずに、次の撮影可能状態に戻すことにより、ユーザの撮影機会損失を低減することができる。また、正確なインパクト音を用いた合成画像の生成を行うことができるため、適切な合成画像を生成することができる。
このように合成画像を生成することにより、撮像装置の扱いに不慣れな初心者でもあっても適切な合成画像を容易に生成することができる。
なお、撮像部111により生成された撮像画像を画像コンテンツ(例えば、動画ファイルや連続静止画ファイル)として記録する場合に、フレームのメタデータとしてインパクト音検出位置を記録するようにしてもよい。これにより、例えば、画像コンテンツの一覧を表示する場合に、インパクト音検出位置に対応するフレームを代表サムネイルとして使用することができる。
<2.第2の実施の形態>
本発明の第1の実施の形態では、撮像装置および注目被写体(例えば、ゴルフスイングの練習を行う人)間の距離が比較的近い場合を例にして説明した。しかしながら、注目被写体からの距離が比較的遠い場所に撮像装置が設置され、この撮像装置のズーム機能により注目被写体の撮像を行う場合も想定される。このように撮像装置および注目被写体間の距離が比較的遠い場合には、その距離の長さに応じて、インパクト音が撮像装置に到達するまでの時間が長くなる。この場合には、インパクト音の発生時刻と、インパクト音が撮像装置に到達するまでの時刻との間で遅延が生じる。そこで、本発明の第2の実施の形態では、撮像装置および注目被写体間の距離が比較的遠い場合には、その距離の長さに応じて、インパクト音の時間軸における検出位置を補正する例を示す。
図16は、本発明の第2の実施の形態における撮像装置500および注目被写体間の距離と、インパクト音の発生位置および到達位置との関係を示す図である。図16(a)には、撮像装置500と、撮像装置500により撮像対象となる人物540との位置関係を模式的に示す。ここで、撮像装置500および人物540間の距離を距離dとする。なお、撮像装置500および人物540の関係は距離dが異なる以外は、図3(a)に示す例と略同様であるため、ここでの説明を省略する。
図16(b)には、図17に示す撮像部111により生成される動画を構成する各画像と、人物540による動作遷移との関係を模式的に示す。画像群550は、図16(a)に示す状態における人物540による動作遷移を表す画像群であり、画像群550を構成する各画像を時間軸に沿って並べて示す。画像群560は、図16(a)に示す状態で、撮像部111により生成される動画を構成する各画像を表す画像群であり、画像群560を構成する各画像を時間軸に沿って並べて示す。また、人物540のゴルフスイングによりインパクト音が発生した位置(時間軸における位置)をインパクト音発生位置555とする。
ここで、空気中の音の速さ(音速)は、約340m/秒である。このため、撮像装置500および人物540間の距離dが比較的遠い場合には、インパクト音が撮像装置500に到達するまでの時間が長くなり、インパクト音の発生時刻と、インパクト音が撮像装置500に入力されるまでの時刻との間で遅延が生じる。
例えば、図16(b)に示す画像群550を構成する画像のうち、画像551の位置が、インパクト音発生位置555であるものとする。この場合に、例えば、距離dが比較的近い場合(例えば、数m)には、矢印552に示すように、インパクト音が発生した位置に対応する画像551と、このインパクト音が撮像装置500に入力された際に生成された画像561とが略同一となる。これに対して、距離dが比較的遠い場合(例えば、340m以上)には、矢印553に示すように、インパクト音が発生した位置に対応する画像551と、このインパクト音が撮像装置500に入力された際に生成された画像562とが異なり、遅延が発生する。なお、距離dが比較的遠い場合でも、表示部191に表示される表示画面上では、距離dが比較的近い場合と略同一の画角に見えることが多い。このため、人間の手動操作により、インパクト音の遅延を補正することは困難であることが想定される。そこで、以下では、撮像装置および注目被写体間の距離に応じて発生するインパクト音の遅延を補正する例を示す。
[撮像装置の構成例]
図17は、本発明の第2の実施の形態における撮像装置500の機能構成例を示すブロック図である。撮像装置500は、図1に示す撮像装置100において、被写体距離算出部510を追加し、選択部170の代わりに、選択部520を設けたものである。なお、これら以外の点は、撮像装置100と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。
被写体距離算出部510は、撮像部111により生成された撮像画像に含まれる被写体までの距離(被写体距離)を算出するものであり、算出された被写体距離を選択部520に出力する。例えば、被写体距離算出部510は、撮像部111により生成された撮像画像に含まれる人物の顔を検出し、この検出された顔と、撮像画像の生成時における撮像情報(例えば、各レンズの位置および合焦位置)とを用いて、注目被写体の被写体距離を算出する。なお、撮像画像に含まれる顔の検出方法として、例えば、顔の輝度分布情報が記録されているテンプレートとコンテンツ画像とのマッチングによる顔検出方法(例えば、特開2004−133637参照。)を用いることができる。また、撮像画像に含まれる肌色の部分や人間の顔の特徴量に基づいた顔検出方法を用いることができる。これらの顔検出方法により、人物の顔の撮像画像における位置および大きさを求めることができる。
選択部520は、被写体距離算出部510から出力された被写体距離に基づいて、インパクト音の遅延時間を推定し、この遅延時間を考慮して合成対象画像を選択するものである。具体的には、選択部520の合成対象画像選択範囲決定部171(図2に示す)は、被写体距離算出部510から出力された被写体距離に基づいて、特定音検出部132により検出された特定音の検出位置(時間軸における位置)を補正する。そして、合成対象画像選択範囲決定部171は、その補正後の位置(補正位置)と、音有効範囲設定部160により設定された音有効範囲とに基づいて、合成対象画像選択範囲を決定する。なお、選択部520は、特許請求の範囲に記載の制御部の一例である。
[被写体距離の算出例]
次に、撮像装置500および注目被写体間の距離を算出する距離算出方法について図面を参照して詳細に説明する。ここでは、一般的な人間の顔の大きさ(基準値)を用いて、撮像装置500と顔との距離を推定する距離算出方法について説明する。
図18は、本発明の第2の実施の形態における撮像部111により撮像対象となる撮像範囲および表示部191に表示される撮像画像を概略的に示す図である。図18(a)は、ゴルフ場を背景にした人物571が撮像されている場合における撮像範囲570を概略的に示す図であり、図18(b)は、図18(a)に示す撮像範囲570に対応する撮像画像575についての表示部191の表示例を示す図である。
例えば、図18(a)に示すように、ゴルフ場を背景にして立っている人物571を被写体として撮像する場合において、撮像装置500の位置やズームレンズの位置等に応じて撮像される範囲(撮像範囲570)が決定される。また、図18(b)に示すように、撮像範囲570に含まれる被写体からの入射光が撮像部111により撮像画像に変換され、この撮像画像(いわゆる、スルー画像)が表示部191に表示される。
ここで、図18(a)に示す撮像範囲570において、撮像装置500における左右方向の幅を、撮像範囲の幅Waとし、撮像範囲570に含まれる人物571の顔572の左右方向の幅を、顔の幅Wrefとする。なお、顔の幅Wrefは、人物571の実際の顔の幅ではなく、一般的な人間の顔の大きさであるものとする。また、図18(b)に示す撮像画像575における左右方向の幅を、画像の幅Wwとし、撮像画像575に含まれる人物576の顔577の左右方向の幅を、顔画像の幅Wfとする。この場合において、撮像範囲の幅Waと顔の幅Wrefとの比率は、一般的に、画像の幅Wwと顔画像の幅Wfとの比率と同じである。
図19は、本発明の第2の実施の形態における撮像部111により撮像対象となる撮像範囲および表示部191に表示される撮像画像の位置関係を概略的に示す上面図である。図19に示す例では、図18(a)に示す人物571と、撮像装置500が備える撮像素子112および表示部191との位置関係を概略的に示す。図19に示すように、撮像装置500から顔572までの距離を、被写体距離Dfとし、撮像装置500における焦点距離を、焦点距離fとし、撮像素子112の幅を撮像素子の幅Wiとする。なお、撮像範囲の幅Waと、顔の幅Wrefとは、図18(a)に示すものと同一である。
図19に示すように、撮像範囲570に含まれる被写体からの入射光が、撮像素子112に入射されると、撮像範囲570に含まれる被写体に対応する撮像画像が生成され、この生成された撮像画像575が表示部191に表示される。また、人物571の顔572からの入射光が撮像素子112に入射された場合における撮像素子112上の顔の幅は、撮像素子上の顔幅Wbである。
ここで、平行線と比例の関係から、次の二式が成立する。
Df/Wref=f/Wb …式1
Wf/Ww=Wb/Wi …式2
ここで、式1を変形して、Df=f×Wref/Wbとし、式2を変形して、Wb=Wf×Wi/Wwとする。そして、式2を変形したWb=Wf×Wi/Wwを、式1に代入することにより、次の式3が求められる。この式3は、レンズの基本的な物理法則に基づいて求められる式である。
Df=Wref×(f/Wi)×(Ww/Wf) …式3
ここで、Wi(撮像素子の幅)およびWw(画像の幅)は定数であり、Wrefには一般的な人間の顔の大きさを用いる。この場合には、Wf(顔画像の幅)を検出することにより、式3を用いて、Df(顔までの推定距離)を求めることができる。
例えば、図18(a)に示すように、撮像範囲570に一人の顔572が含まれている場合には、撮像範囲570に対応する撮像画像575から顔577が被写体距離算出部510により検出される。このように、顔が検出された場合には、被写体距離算出部510が、上記の式3に基づいて、その検出された顔の幅(顔画像の幅)を用いて被写体距離Dfを計算する。
なお、本発明の第2の実施の形態では、一般的な人間の顔の大きさとして1つの基準値を用いて被写体距離を算出する例を示した。ただし、撮像対象となる人物は、その属性(例えば、年代、性別)に応じて顔の大きさが異なることが多い。例えば、子供の顔と大人の顔とを比較する場合には、それらの大きさが異なることが多く、また、女性の顔と男性の顔とを比較する場合には、それらの大きさが異なることが多い。そこで、人物の属性に応じた複数の基準値を被写体距離算出部510に保持させておき、撮像画像から検出された顔について被写体距離算出部510が属性を検出し、この属性に応じた基準値を用いて被写体距離算出部510が距離dを算出するようにしてもよい。この属性検出方法として、例えば、顔画像における2点間の輝度の差分値を用いた弱判別器により各属性を検出する検出方法を用いることができる(例えば、特開2009−118009号参照。)。
[遅延時間の補正例]
図20は、本発明の第2の実施の形態における音有効範囲設定部160による音有効範囲の設定方法および合成対象画像選択範囲決定部171による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図5(a)および(b)の変形例であるため、共通する部分についてはその一部の説明を省略する。
図20(a)には、撮像部111により生成された動画580を矩形により模式的に示す。また、録画ボタンが押下された位置が、図20(a)に示す動画580の時間軸における録画ボタンの押下位置(録画ボタン押下位置581)であるものとする。この場合には、音有効範囲設定部160が、録画ボタン押下位置581に基づいて音有効範囲582を設定する。具体的には、音有効範囲設定部160が、録画ボタン押下位置581を基準として、時間軸において、録画ボタン押下位置581よりも時間L21だけ前の範囲を音有効範囲582として設定する。ここで、時間L21は、例えば、図5(a)に示すL1と同様に、1.0秒とすることができる。また、時間L21を、L1よりも長く設定するようにしてもよく、被写体距離算出部510により算出された被写体距離の大きさに応じて時間L21を変更するようにしてもよい。
図20(b)には、音有効範囲設定部160により設定された音有効範囲582においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図20(b)では、特定音検出部132によりインパクト音が検出された位置(時間軸における位置)をインパクト音検出位置583として示す。
ここで、本発明の第2の実施の形態では、音有効範囲582においてインパクト音が検出されたか否かを判断する前に、合成対象画像選択範囲決定部171が、被写体距離算出部510により推定された被写体距離d(m)に基づいて、音の遅延時間を推定する。具体的には、合成対象画像選択範囲決定部171が、被写体距離算出部510により推定された被写体距離d(m)に基づいて、音の遅延時間を推定する。上述したように、音速は340(m/s)であるため、インパクト音が撮像装置500に到達するまでの時間x(sec)は、次の式4を用いて算出することができる。
x=d/340 …式4
この式4を用いて算出された時間xだけ、合成対象画像選択範囲決定部171が、時間軸におけるインパクト音検出位置583の位置を移動させる。この移動後の位置を補正位置584とする。
続いて、合成対象画像選択範囲決定部171が、音有効範囲設定部160により設定された音有効範囲582内に補正位置584が含まれるか否かを判断する。そして、図20(b)に示すように、音有効範囲設定部160により設定された音有効範囲582内に補正位置584が含まれる場合には、合成対象画像選択範囲決定部171が、その補正位置584に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、補正位置584を基準にして、時間軸において、補正位置584の前後の一定範囲を合成対象画像選択範囲585として決定する。具体的には、合成対象画像選択範囲決定部171が、時間軸において、補正位置584よりも時間L22だけ前の範囲と、補正位置584よりも時間L23だけ後の範囲とにより構成される範囲L24を合成対象画像選択範囲585として決定する。
ここで、時間L22乃至24は、例えば、図5(b)に示すL2乃至4と同様の値とすることができる。また、時間L24を、L4よりも長く設定するようにしてもよく、被写体距離算出部510により算出された被写体距離の大きさに応じて時間L24を変更するようにしてもよい。
また、例えば、撮像装置500および人物540間の距離が比較的離れている場合には、リモコン操作によりタイマ設定を行うことができる。そこで、タイマ設定部150により設定されたタイマのカウント値に基づいて音有効範囲を設定し、この音有効範囲を用いて合成対象画像選択範囲を決定する場合についても同様に、音の遅延時間を推定し、この遅延時間に基づいて補正を行うようにしてもよい。
このように、撮像装置500および人物540間の距離が比較的離れている場合でも、インパクト音の検出位置を補正して、補正後の位置に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。
ここで、音有効範囲設定部160により設定された音有効範囲582内に補正位置が存在しないことも想定される。この場合には、図5(c)に示す例と同様に、そのインパクト音を用いないことにする。また、このようにインパクト音を用いない場合には、図5(c)に示すように、録画ボタンの押下位置に基づいて合成対象画像選択範囲を決定することができる。
なお、図18および図19に示す例では、人物の顔のサイズを用いて被写体距離を算出する例を示したが、図21に示すように顔以外のサイズを用いて被写体距離を算出するようにしてもよい。
[被写体距離の算出例]
図21は、本発明の第2の実施における表示部191における表示例を示す図である。図21に示す表示画面590には、ゴルフスイングを行う人物591を適切な位置に配置するための操作支援画像592および593が、撮像画像に重ねて表示される。この例は、図18および図19に示す被写体距離の算出方法の変形例であり、表示画面590における被写体が占める領域の大きさ(垂直方向の長さ)に基づいて、被写体距離を算出する例である。
操作支援画像592および593は、表示画面590において、ゴルフスイングを行う人物591を配置すべき推奨領域を表す画像である。操作支援画像592は、表示画面590において黒枠で表示される画像であり、ゴルフスイングを行う人物591の左右方向の奨励領域を表す画像である。また、操作支援画像593は、表示画面590において点線の黒線で表示される画像であり、ゴルフスイングを行う人物591の上下方向の奨励領域を表す画像である。ここで、操作支援画像593により特定される上下方向の奨励領域として、表示画面590における垂直方向の長さの一定割合(例えば、70%)の値H11とすることができる。
例えば、撮像装置500を用いて、合成画像記録モードを設定して撮影を行う場合には、撮影者が、表示画面590に含まれる操作支援画像592および593を確認して、注目被写体の人物が操作支援画像592および593内に含まれるように調整する。また、ズーム操作等を行った場合についても同様に、注目被写体の人物が操作支援画像592および593内に含まれるように調整する。
このようにすることにより、上述した顔に関する基準値と、撮像画像に含まれる顔の大きさとに基づいて、被写体距離を算出する被写体距離算出方法を適用することにより、被写体距離を算出することができる。すなわち、図21に示す例では、撮像画像に含まれる人物の大きさを一定値H11とすることができるため、ゴルフを行う人物の一般的な身長に関する基準値(例えば、170cm)と、一定値H11とに基づいて、被写体距離を算出することができる。
なお、図18、図19および図21に示す例では、人物の各部のサイズを用いて被写体距離を算出する例を示したが、他の被写体距離算出方法を用いるようにしてもよい。例えば、撮像画像に関する奥行マップを生成し、この奥行マップを用いて被写体距離を算出するようにしてもよい。また、撮像装置500に測距センサを設け、測距センサにより求められた被写体距離を用いるようにしてもよい。また、フォーカス位置情報を用いて、被写体距離を算出するようにしてもよい。
また、撮影状況に応じて、フォーカス位置情報を用いる被写体距離算出方法と、ズーム位置情報を用いる被写体距離算出方法との何れを使用するかを選択するようにしてもよい。例えば、ワイド(Wide)端寄りのズーム位置でフォーカスが合っている場合には、フォーカス位置情報の方がズーム位置情報よりも精度が高い可能性がある。このため、ワイド(Wide)端寄りのズーム位置でフォーカスが合っている場合には、フォーカス位置情報を用いる被写体距離算出方法を選択することができる。また、何れかの方法で被写体距離の推定を行い、その推定結果を参照して、その推定結果を使用するか、他方の方法により再度推定を行うかを判断するようにしてもよい。
[撮像装置の動作例]
図22は、本発明の第2の実施の形態における撮像装置500による合成画像生成処理の処理手順の一例を示すフローチャートである。この例は、図14に示す合成画像生成処理の処理手順の変形例であり、ステップS921を追加し、ステップS910の代わりに、ステップS922およびS923の処理手順を行う例である。このため、図14に示す処理手順と同一のものには、同一の符号を付して、共通する部分の説明を省略する。
バッファリング終了処理が行われた後に(ステップS908)、被写体距離算出部510が、被写体距離を算出する(ステップS921)。
また、設定された音有効範囲内でインパクト音が検出された場合には(ステップS909)、合成対象画像選択範囲決定部171が、算出された被写体距離に基づいて、インパクト音検出位置を補正する(ステップS922)。具体的には、合成対象画像選択範囲決定部171が、被写体距離に基づいて遅延時間を算出し、この算出された遅延時間だけ、カウンタ部174から供給されたカウンタ値を減算して補正値を求める。そして、合成対象画像選択範囲決定部171が、その補正値に基づいて、インパクト音検出位置の補正後の位置を特定する。例えば、図20(b)に示すように、インパクト音検出位置583を補正値xだけ移動させて補正位置584を求める。
続いて、合成対象画像選択範囲決定部171が、補正後の位置(補正位置)に基づいて、合成対象画像選択範囲を決定する(ステップS923)。例えば、図20(b)に示すように、補正位置584に基づいて、合成対象画像選択範囲585が決定される。
このように、本発明の第2の実施の形態によれば、ズーム操作による撮像装置500および注目被写体間の距離の変化に依存せず、インパクト音の発生位置を高い精度で検出することができる。これにより、ズーム操作による撮像装置500および注目被写体間の距離の変化に依存せず、高い視認性を有する合成画像を生成することができる。また、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。
また、例えば、撮像部111により生成された撮像画像を画像コンテンツとして記録する場合において、この画像コンテンツに関連付けてメタデータを記録する場合には、補正後のインパクト音検出位置を記録することができる。これにより、その画像ファイルを再生する場合に、その補正後のインパクト音検出位置を用いることができるため、正確なインパクト音の発生位置を把握することができる。また、例えば、画像コンテンツの一覧を表示する場合には、補正後のインパクト音検出位置に対応するフレームを代表サムネイルとして使用することができる。
<3.第3の実施の形態>
本発明の第1および第2の実施の形態では、主にゴルフスイングを行う人物についてその動作遷移を合成画像として生成する例を示した。ここで、例えば、ゴルフ以外のスポーツについても、ボールを打つ競技や物体同士が激突する競技等では、ボールを打つ瞬間や物体同士が激突する瞬間に特徴的な音が発生する。また、例えば、花火等においても、その綺麗な瞬間に爆発音が発生する。これらの特定音を用いて合成対象画像選択範囲を決定することにより、適切な合成画像を生成することができると考えられる。そこで、本発明の第3の実施の形態では、これらの合成画像をユーザの好みに応じて容易に生成する例を示す。
[撮像装置の構成例]
図23は、本発明の第3の実施の形態における撮像装置600の機能構成例を示すブロック図である。撮像装置600は、図17に示す撮像装置500において、注目被写体情報記憶部610を追加し、他の一部を変形したものである。すなわち、撮像装置500において、特定音検出部132、音有効範囲設定部160および選択部520の代わりに、特定音検出部620、音有効範囲設定部630および選択部640を設けたものである。なお、これら以外の点は、撮像装置500と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。
ここで、本発明の実施の形態における合成対象画像の選択処理に適する特定動作(例えば、スポーツ等)の条件(例えば、第1条件および第2条件)の一例について説明する。第1条件は、動作全体を通して注目被写体の胴体部分は基本的に同じ位置に存在することである。また、第2条件は、一連の動作の中にインパクト音を伴う速い動きがあることである。これらの条件を満たすゴルフ以外のスポーツの例として、野球のバッティング、テニスのサーブ、瓦割り等が考えられる。また、花火等のようにスポーツ以外の対象物も考えられる。そこで、本発明の第3の実施の形態では、これらを注目被写体とする例を示す。
注目被写体情報記憶部610は、複数種類の注目被写体による特定動作について、特定音や音有効範囲に関する情報を記憶するものであり、記憶されている各情報を特定音検出部620、音有効範囲設定部630および選択部640に供給する。なお、注目被写体情報記憶部610の記憶内容については、図24を参照して詳細に説明する。
特定音検出部620は、音声入力部131から出力された音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を選択部640に出力する。また、特定音検出部620は、テニス(サーブ)および瓦割りに関する一定値以上の音を検出する。ここで、本発明の第3の実施の形態では、ゴルフスイングに関するインパクト音以外に、図24のインパクト音611に示す各インパクト音を特定音とする例を示す。例えば、野球(バッティング)およびテニス(サーブ)については、その動作中に、バットまたはラケットがボールに当たった瞬間に発生する音をインパクト音とする。また、例えば、瓦割りについては、その動作中に、対象者の手が瓦に当たった瞬間に発生する音をインパクト音とする。また、花火については、上空で爆破した瞬間に発生する音をインパクト音とする。これらの音検出方法として、本発明の第1の実施の形態で示した特定音検出方法を適用することができる。
また、特定音検出部620、音有効範囲設定部630および選択部640は、複数種類の注目被写体による特定動作のうち、ユーザ操作により指定された特定動作に関する注目被写体情報を注目被写体情報記憶部610から取得する。そして、特定音検出部620、音有効範囲設定部630および選択部640は、取得された注目被写体情報を用いて各処理を行う。なお、これらの各処理については、インパクト音や音有効範囲の値等が異なる以外は、本発明の第1および第2の実施の形態で示した例と略同様であるため、ここでの説明を省略する。また、選択部640は、特許請求の範囲に記載の制御部の一例である。
[注目被写体情報記憶部の記憶例]
図24は、本発明の第3の実施の形態における注目被写体情報記憶部610の記憶内容の一例を示す図である。注目被写体情報記憶部610には、インパクト音611と、高速動作範囲612と、音有効範囲613と、合成対象画像選択範囲614とが記憶されている。
インパクト音611には、特定音検出部620により特定音(インパクト音)を検出するための特定音識別情報(基準データ)が格納される。なお、図24に示すインパクト音611には、対応する特定音を表す文字のみを示す。
高速動作範囲612には、合成対象画像選択範囲において、他の間隔よりも密にして合成対象画像を選択する範囲が格納される。例えば、注目被写体による特定動作が野球(バッティング)である場合には、野球のバットがボールに当たる付近の動作の遷移を細かく確認したい場合が多いと想定される。このため、合成対象画像選択範囲において、その付近の画像の間隔を、他の間隔よりも密にして合成対象画像を選択する高速動作範囲が設定される。これらの高速動作範囲は、例えば、インパクト音を中心とする一定範囲が設定される。
音有効範囲613は、音有効範囲設定部630による設定対象となる音有効範囲が格納される。本発明の第3の実施の形態では、録画ボタンの押下操作を撮影トリガとする例を示す。ここで、ゴルフおよび野球(バッティング)については、本発明の第1および第2の実施の形態で示した例と同様に、対象となる動作の終了後に撮影トリガを発生させるものとする。また、花火については、上空で爆破した瞬間に撮影トリガを発生させるものとする。そして、ゴルフ、野球(バッティング)および花火については、本発明の第1および第2の実施の形態で示した例と同様に、撮影トリガの前の一定範囲を音有効範囲として設定することができる。
また、テニス(サーブ)については、プレイヤーが一定時間上を向いた瞬間に撮影トリガを発生させるものとする。また、瓦割りについては、瓦割りをする人物の顔が気合を入れた瞬間に撮影トリガを発生させるものとする。そして、テニス(サーブ)および瓦割りについては、撮影トリガから、一定値以上の音が初めて検出される前までの一定範囲を音有効範囲として設定することができる。このように、テニス(サーブ)および瓦割りについては、その音有効範囲の後端を、一定値以上の音の検出時としているが、一定時間その音の検出がない場合には、音検出を無効とし、新たな音有効範囲を設定するようにしてもよい。この新たな音有効範囲については、再度の撮影トリガを発生させるようにする。これにより、インパクト音の誤検出を低減させることができる。なお、テニス(サーブ)および瓦割りに関する一定値以上の音は、特定音検出部620により検出される。
合成対象画像選択範囲614には、合成対象画像選択範囲決定部171により決定される合成対象画像選択範囲が格納される。本発明の第3の実施の形態では、音有効範囲内において検出されたインパクト音を基準とする一定範囲を合成対象画像選択範囲とする例を示す。
[注目被写体の指定画面の表示例]
図25は、本発明の第3の実施の形態における表示部191の表示例(表示画面660)を示す図である。表示画面660には、ゴルフ(スイング)ボタン661と、野球(バッティング)ボタン662と、テニス(サーブ)ボタン663と、瓦割りボタン664と、花火ボタン665とが設けられている。また、表示画面660には、戻るボタン666と、決定ボタン667とが設けられている。
ゴルフ(スイング)ボタン661、野球(バッティング)ボタン662、テニス(サーブ)ボタン663、瓦割りボタン664および花火ボタン665は、動作遷移に関する合成画像を生成する際に、その対象となる種類を指定する場合に押下されるボタンである。例えば、表示部191がタッチパネルにより構成されている場合には、所望のボタンの押下操作により指定することができる。
決定ボタン667は、合成画像の対象となる種類を指定する押下操作がされた後に、その指定を決定する際に押下されるボタンである。この押下により、合成対象画像記録モードが設定される。
戻るボタン666は、例えば、直前に表示されていた表示画面に戻る場合に押下されるボタンである。
例えば、表示画面660において、所望のボタン(例えば、テニス(サーブ)ボタン663)が押下され、決定ボタン667が押下された場合には、その旨の操作信号が操作受付部140から各部に出力される。そして、特定音検出部620、音有効範囲設定部630および選択部640は、指定された種類の注目被写体情報(例えば、テニス(サーブ)に関する注目被写体情報)を注目被写体情報記憶部610から取得する。そして、特定音検出部620、音有効範囲設定部630および選択部640は、取得された注目被写体情報を用いて各処理を行う。
[合成画像例]
図26は、本発明の第3の実施の形態におけるレイヤ処理部180により生成される合成画像例を示す図である。
図26(a)には、野球のバッティングを行う人物を撮像した場合における合成画像671を示す。すなわち、合成画像671は、図25に示す野球(バッティング)ボタン662が押下され、決定ボタン667が押下された後に、撮像動作が開始された動画を用いて生成された合成画像である。
図26(b)には、テニスのサーブを行う人物を撮像した場合における合成画像672を示す。すなわち、合成画像672は、図25に示すテニス(サーブ)ボタン663が押下され、決定ボタン667が押下された後に、撮像動作が開始された動画を用いて生成された合成画像である。
このように、ゴルフスイング以外の他の特定動作についても、検出対象となるインパクト音が存在し得る時間帯を音有効範囲として設定することにより、検出対象となるインパクト音以外の他の音の誤検出を低減させることができる。これにより、インパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。この場合に、インパクト音の発生位置の検出には、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。このように合成画像を生成することにより、撮像装置の扱いに不慣れな初心者でもあっても、ユーザの好みに応じた種類の合成画像を容易に生成することができる。
<4.第4の実施の形態>
本発明の第1乃至第3の実施の形態では、撮像装置により撮像動作を行い、この撮像動作の際に発生するインパクト音を用いて合成画像を生成する例を示した。ここで、撮像装置により記録されたコンテンツ(例えば、動画コンテンツ)について合成画像を生成する場合に、そのコンテンツに含まれるインパクト音を用いて合成画像を生成することができると考えられる。また、例えば、ゴルフの試合では、ゴルフスイング後の観客の大歓声等のように、インパクト音以外に特徴的な音が発生することが想定される。このため、録画ボタンの押下操作やタイマ設定の代わりに、その特徴的な音をトリガとして用いて音有効範囲を設定することができると考えられる。そこで、本発明の第4の実施の形態では、録画ボタンの押下操作やタイマ設定の代わりに、特徴的な音等を用いて音有効範囲を設定し、撮像装置により記録された動画コンテンツについて合成画像を生成する例を示す。
[画像処理装置の構成例]
図27は、本発明の第4の実施の形態における画像処理装置700の機能構成例を示すブロック図である。画像処理装置700は、図23に示す撮像装置600において、音声入力部131およびタイマ設定部150を省略し、他の一部を変形したものである。すなわち、撮像装置600において、注目被写体情報記憶部610、撮像部111および被写体情報生成部120の代わりに、注目被写体情報記憶部710、入力部720および被写体情報生成部730を設けたものである。また、撮像装置600において、特定音検出部620、音有効範囲設定部630および選択部640の代わりに、特定音検出部740、音有効範囲設定部750および選択部760を設けたものである。なお、これら以外の点は、撮像装置600と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。
注目被写体情報記憶部710は、複数種類の注目被写体による特定動作について、特定音や音有効範囲に関する情報を記憶するものであり、記憶されている各情報を特定音検出部740、音有効範囲設定部750および選択部760に供給する。なお、注目被写体情報記憶部710の記憶内容については、図28を参照して詳細に説明する。
入力部720は、デジタルビデオカメラ等の撮像装置により記録された画像コンテンツ(例えば、動画ファイル)を入力する入力部である。この画像コンテンツは、例えば、動画や連続静止画の撮像動作時において、各フレームに関するメタデータ(例えば、音情報、ズーム情報やフォーカス位置情報)が各フレームに関連付けて記録されたコンテンツであるものとする。入力部720は、入力された画像コンテンツを構成する各画像(フレーム)を所定間隔で撮像画像保持部115、表示制御部190および特定音検出部740に供給する。また、入力部720は、入力された画像コンテンツを構成する各画像と、この画像に関する属性情報(例えば、レンズの位置および合焦位置)とを被写体距離算出部510および被写体情報生成部730に出力する。
被写体情報生成部730は、入力部720から供給された各画像と、この画像に関する属性情報とに基づいて、各画像に関する被写体情報を生成するものである。そして、被写体情報生成部730は、生成された被写体情報を撮像画像保持部115に供給して保持させるとともに、音有効範囲設定部750および選択部760に供給する。この被写体情報として、例えば、注目被写体の領域とその背景領域とを判別するための情報以外に、各画像間の時間軸における一定の変化を検出するための情報が生成される。例えば、画像に含まれる顔が検出され、この顔の表情や向き等に関する属性情報が生成される。例えば、喜怒哀楽の表情や力んだ表情、顔の向き、口の開閉、目の開閉(例えば、ウィンク)等の属性を検出し、この検出結果に基づいて属性情報を生成することができる。この属性検出方法として、例えば、検出対象となる属性に関する顔画像から抽出された特徴量に基づいた識別方法を用いることができる。すなわち、検出対象となる属性に関する顔画像から抽出された特徴量を識別辞書として予め記憶しておく。そして、検出された顔を含む顔画像から特徴量が抽出され、この抽出された特徴量と、識別辞書に含まれる特徴量とが比較されることにより、これらの特徴量の類似度が算出される。そして、この算出された類似度が閾値を超えた場合に、検出された顔が、その閾値を超えた類似度の算出対象となった識別辞書に対応する属性であると判定される。また、例えば、上述した属性検出方法を用いるようにしてもよい(例えば、特開2009−118009号参照。)。
このように生成された属性情報に基づいて、音有効範囲設定部750は、各画像間の時間軸における一定の変化を検出する。この一定の変化として、例えば、顔の変化を検出することができる。例えば、喜怒哀楽の際や力んだ際における表情の変化、顔の向きが下から正面となる場合等の顔の向きの変化、口を開けたり閉じたりする際の変化、ウィンクする際の目の変化を、顔の変化として検出することができる。また、画面内に人物の顔が入ってくる場合や画面外に人物の顔が出て行く場合を、各画像間の時間軸における一定の変化として検出するようにしてもよい。また、各画像間の時間軸における一定の変化を検出するための情報として、画像全体の明るさを示す明るさ情報や画像における輝度値の分布状態を示す輝度値分布情報を生成するようにしてもよい。そして、これらの一定の変化を、各画像間の時間軸における一定の変化として検出するようにしてもよい。
特定音検出部740は、入力部720から供給された画像コンテンツに含まれる音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を音有効範囲設定部750および選択部760に出力する。なお、特定音検出部740による検出対象となるインパクト音については、本発明の第3の実施の形態と同様である。また、本発明の第4の実施の形態では、各画像間の時間軸における一定の変化を検出する際に、特定音検出部740により検出された特定音が用いられる。例えば、ゴルフや野球の試合が行われている場合における観客の大歓声(沸き起こる大歓声)や、瓦割りをする際における気合を入れた瞬間の大声を特定音として検出する。また、例えば、笛等による何らかの合図、水に飛び込んだときの音(例えば、注目被写体が水に関する場合)等を特定音として検出するようにしてもよい。そして、音有効範囲設定部750は、これらの特定音の変化を、各画像間の時間軸における一定の変化として検出する。例えば、音がほとんどしない状態から大歓声が検出された際や、大きな音が検出されていた状態から、音がほとんどしない状態となった際を、各画像間の時間軸における一定の変化として検出することができる。これらの特定音検出方法として、本発明の第1の実施の形態で示した特定音検出方法を適用することができる。すなわち、音有効範囲設定部750は、各画像から抽出された特徴量と、各画像に関連付けられている音声に基づいて抽出された特徴量との少なくとも1つを用いて、一定の変化を検出することができる。なお、音有効範囲設定部750は、特許請求の範囲に記載の一定変化検出部の一例である。
特定音検出部740、音有効範囲設定部750および選択部760は、複数種類の注目被写体による特定動作のうち、ユーザ操作により指定された特定動作に関する注目被写体情報を注目被写体情報記憶部710から取得する。そして、特定音検出部740、音有効範囲設定部750および選択部760は、取得された注目被写体情報を用いて各処理を行う。なお、これらの各処理については、インパクト音を設定する際のトリガ、インパクト音、音有効範囲の値等が異なる以外は、本発明の第1乃至第3の実施の形態で示した例と略同様であるため、ここでの説明を省略する。また、選択部760は、特許請求の範囲に記載の制御部の一例である。
[注目被写体情報記憶部の記憶例]
図28は、本発明の第4の実施の形態における注目被写体情報記憶部710の記憶内容の一例を示す図である。注目被写体情報記憶部710には、インパクト音711と、高速動作範囲712と、音有効範囲を決めるトリガ713と、音有効範囲714と、合成対象画像選択範囲715とが記憶されている。なお、インパクト音711、高速動作範囲712および合成対象画像選択範囲715については、図24に示すインパクト音611、高速動作範囲612および合成対象画像選択範囲614と略同様であるため、ここでの説明を省略する。
音有効範囲を決めるトリガ713には、音有効範囲設定部750により音有効範囲が設定される際のトリガが格納される。例えば、ゴルフおよび野球(バッティング)については、入力部720から入力されたコンテンツにおいて、観客の大歓声が検出された瞬間にトリガを発生させるものとする。なお、観客の大歓声の検出は、特定音検出部740により検出された特定音に基づいて、音有効範囲設定部750により行われる。また、花火については、入力部720から入力されたコンテンツにおいて、画面内が暗い状態から明るい状態へと遷移した瞬間にトリガを発生させるものとする。なお、画面内が暗い状態から明るい状態へと遷移した瞬間の検出は、被写体情報生成部730により生成された属性情報に基づいて、音有効範囲設定部750により行われる。また、テニス(サーブ)については、入力部720から入力されたコンテンツにおいて、プレイヤーが一定時間上を向いた瞬間にトリガを発生させるものとする。なお、プレイヤーが一定時間上を向いた瞬間の検出は、被写体情報生成部730により生成された属性情報に基づいて、音有効範囲設定部750により行われる。また、瓦割りについては、入力部720から入力されたコンテンツにおいて、瓦割りをする人物の顔が気合を入れた瞬間にトリガを発生させるものとする。なお、瓦割りをする人物の顔が気合を入れた瞬間の検出は、被写体情報生成部730により生成された属性情報または特定音検出部740により検出された特定音に基づいて、音有効範囲設定部750により行われる。
音有効範囲714は、音有効範囲設定部750による設定対象となる音有効範囲が格納される。本発明の第4の実施の形態では、音有効範囲を決めるトリガ713に格納されている一定の変化の検出時を音有効範囲のトリガとする例を示す。なお、音有効範囲を決めるトリガ713に格納されている一定の変化の検出時を音有効範囲のトリガとする点以外は、図24に示す音有効範囲613と略同様であるため、ここでの説明を省略する。
[合成対象画像選択範囲の決定例]
図29は、本発明の第4の実施の形態における音有効範囲設定部750による音有効範囲の設定方法および合成対象画像選択範囲決定部171による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図28に示す野球(バッティング)が指定された場合において合成対象画像選択範囲を決定する例である。また、この例は、図5(a)および(b)の変形例であるため、共通する部分についてはその一部の説明を省略する。
図29(a)には、入力部720により入力された動画800を矩形により模式的に示す。なお、動画800は、例えば、野球の試合の様子が記録された動画であるものとする。また、動画800を構成する各画像において、特定音検出部740により観客の大歓声が検出された位置を、図29(a)に示す動画800の時間軸における大歓声検出位置801とする。この場合には、音有効範囲設定部750が、大歓声検出位置801に基づいて音有効範囲802を設定する。具体的には、音有効範囲設定部750が、大歓声検出位置801を基準として、時間軸において、大歓声検出位置801よりも時間L31だけ前の範囲を音有効範囲802として設定する。ここで、時間L31は、例えば、図5(a)に示すL1と同様に、1.0秒とすることができる。また、時間L31を、L1よりも長く設定するようにしてもよい。
例えば、ゴルフのトーナメントにおいて選手が非常に良いショットを打った際におけるインパクト音の発生位置は、観客の大歓声よりも過去にあると考えられる。そこで、観客の大歓声よりも過去(時間軸における前の位置)に音有効範囲を設定することにより、インパクト音を適切に検出することができる。
図29(b)には、音有効範囲設定部750により設定された音有効範囲802においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図29(b)では、特定音検出部740によりインパクト音が検出された位置(時間軸における位置)をインパクト音検出位置803として示す。
例えば、合成対象画像選択範囲決定部171が、音有効範囲設定部750により設定された音有効範囲802内にインパクト音検出位置803が含まれるか否かを判断する。そして、図29(b)に示すように、音有効範囲802内にインパクト音検出位置803が含まれる場合には、合成対象画像選択範囲決定部171が、そのインパクト音検出位置803に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、インパクト音検出位置803を基準にして、時間軸において、インパクト音検出位置803の前後の一定範囲を合成対象画像選択範囲804として決定する。具体的には、時間軸において、インパクト音検出位置803よりも時間L32だけ前の範囲と、インパクト音検出位置803よりも時間L33だけ後の範囲とにより構成される範囲L34が合成対象画像選択範囲804として決定される。
ここで、時間L32乃至34は、例えば、図5(b)に示すL2乃至4と同様の値とすることができる。また、時間L34を、L4よりも長く設定するようにしてもよい。
図30は、本発明の第4の実施の形態における音有効範囲設定部750による音有効範囲の設定方法および合成対象画像選択範囲決定部171による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図28に示すテニス(サーブ)が指定された場合において合成対象画像選択範囲を決定する例である。また、この例は、図5(a)および(b)の変形例であるため、共通する部分についてはその一部の説明を省略する。
図30(a)には、入力部720により入力された動画810を矩形により模式的に示す。なお、動画810は、例えば、テニスの試合の様子が記録された動画であるものとする。また、動画810を構成する各画像において、被写体情報生成部730によりテニスプレイヤーの顔が一定時間以上、上を向いたことが検出された位置を、動画800の時間軸における顔の上向き状態検出位置811とする。また、特定音検出部740により一定値以上の音が検出された位置(時間軸における位置)を一定値以上の音検出位置812として示す。この場合には、音有効範囲設定部750が、顔の上向き状態検出位置811および一定値以上の音検出位置812に基づいて音有効範囲813を設定する。具体的には、音有効範囲設定部750が、顔の上向き状態検出位置811および一定値以上の音検出位置812を基準として、時間軸において、音有効範囲813(時間L41)を設定する。ここで、時間L41は、例えば、顔の上向き状態検出位置811を始点とし、一定値以上の音検出位置812を終点とする範囲である。
ここで、テニス(サーブ)に関する音有効範囲の終点については、一定値以上の音の検出を設定条件としている。ただし、音有効範囲の始点から一定時間以上、一定値以上の音の検出がない場合には、その始点に係る音有効範囲を無効とし、音有効範囲を決める新たなトリガを待機するようにしてもよい。これにより、インパクト音の誤検出を低減させることができる。また、瓦割りに関する音有効範囲の終点についても同様に適用することができる。
図30(b)には、音有効範囲設定部750により設定された音有効範囲813においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図30(b)では、特定音検出部740によりインパクト音が検出された位置(時間軸における位置)をインパクト音検出位置814として示す。
例えば、合成対象画像選択範囲決定部171が、音有効範囲設定部750により設定された音有効範囲813内にインパクト音検出位置814が含まれるか否かを判断する。そして、図30(b)に示すように、音有効範囲813内にインパクト音検出位置814が含まれる場合には、合成対象画像選択範囲決定部171が、そのインパクト音検出位置814に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部171が、インパクト音検出位置814を基準にして、時間軸において、インパクト音検出位置814の前後の一定範囲を合成対象画像選択範囲815として決定する。具体的には、時間軸において、インパクト音検出位置814よりも時間L42だけ前の範囲と、インパクト音検出位置814よりも時間L43だけ後の範囲とにより構成される範囲L44が合成対象画像選択範囲815として決定される。
ここで、図28に示すように、時間L42は、例えば、2.5秒とし、時間L43は、例えば、0.5秒とすることができる。すなわち、時間L44は、3.0秒とすることができる。なお、時間L42乃至44については、ユーザの好みに応じて設定内容を変更するようにしてもよい。
また、図29、図30に示す例については、本発明の第2の実施の形態で示したように、音有効範囲においてインパクト音が検出されたか否かを判断する前に、音の遅延時間を推定し、この推定結果に基づいてインパクト音検出位置を補正するようにしてもよい。このように、インパクト音の検出位置を補正して、補正後の位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲のトリガとする特定音(例えば、観客の大歓声)についても、音の遅延時間を推定し、この推定結果に基づいてその検出位置を補正するようにしてもよい。例えば、特定音が観客の大歓声である場合には、各フレームに関するメタデータ(例えば、ズーム情報やフォーカス位置情報)を用いて注目被写体の背景に対する被写体距離を算出し、この被写体距離に基づいて観客の大歓声の遅延時間を推定することができる。これにより、ズーム機能により比較的遠い注目被写体が撮像対象となっている動画コンテンツであっても、適切な合成対象画像選択範囲を決定することができる。
また、図29、図30に示す例において、音有効範囲設定部750により設定された音有効範囲内においてインパクト音が検出されないことも想定される。この場合には、そのインパクト音を用いた合成画像の生成を行わず、次の合成画像処理を行うようにすることができる。
このように、デジタルビデオカメラ等の撮像装置により記録された画像コンテンツについては、各画像間の時間軸における一定の変化を用いて音有効範囲を設定することができる。これにより、インパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、録画ボタンの押下等を行わずに、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。さらに、インパクト音の発生位置の検出についても、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。このように合成画像を生成することにより、画像処理装置の扱いに不慣れな初心者でもあっても、ユーザの好みに応じた種類の合成画像を容易に生成することができる。
なお、本発明の第1乃至第3の実施の形態で示した撮像装置に、各画像間の時間軸における一定の変化を用いて音有効範囲を設定する設定方法を適用するようにしてもよい。
また、本発明の実施の形態では、合成対象画像選択部172により選択された合成対象画像を、静止画としての合成画像の生成処理に用いる例を示した。ただし、例えば、合成画像を生成する過程を動画として表示する合成画像生成処理に、その選択された合成対象画像を用いるようにしてもよい。また、その選択された合成対象画像については、例えば、合成対象とする以外に、特定動作の遷移を表す複数の画像(例えば、スライドショーに用いられる画像)として用いるようにしてもよい。
なお、撮像機能付き携帯電話機、パーソナルコンピュータ、ビデオシステム、編集装置等の画像処理装置に本発明の実施の形態を適用することができる。また、本発明の実施の形態における処理手順を、処理プログラムに組み込むことも可能である。
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、本発明の実施の形態において明示したように、本発明の実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本発明の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disk)、メモリカード、ブルーレイディスク(Blu-ray Disc(登録商標))等を用いることができる。