JP5515671B2

JP5515671B2 - 画像処理装置、その制御方法およびプログラム

Info

Publication number: JP5515671B2
Application number: JP2009264617A
Authority: JP
Inventors: 哲郎河井; 大輔中尾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-20
Filing date: 2009-11-20
Publication date: 2014-06-11
Anticipated expiration: 2029-11-20
Also published as: CN102075682A; JP2011109558A; US8896626B2; CN103533285A; CN102075682B; US20110122154A1

Description

本発明は、画像処理装置に関し、特に、時系列で連続する複数の画像を処理する画像処理装置およびその制御方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

近年、人物等の被写体を撮像して画像データを生成し、この生成された画像データを画像ファイルや動画ファイル等のコンテンツとして記録するデジタルスチルカメラやデジタルビデオカメラ（例えば、カメラ一体型レコーダ）等の撮像装置が普及している。また、これらの撮像装置を用いて、例えば、ゴルフや野球等のスポーツの様子をコンテンツとして記録することが広く行われている。このように記録されたコンテンツ（例えば、動画コンテンツ）については、例えば、スポーツのフォーム（例えば、ゴルフスイングやバッティング（野球））確認において用いることができる。

例えば、スポーツのフォーム（例えば、ゴルフスイングやバッティング（野球））確認をする場合に、その動作遷移を容易に把握することができるように、その動作遷移を表す画像を合成画像として生成する合成画像生成方法が提案されている。例えば、連続撮影画像から複数枚の画像を所定間隔で選択し、この選択された複数枚の画像を用いて合成画像を生成する撮像装置が提案されている（例えば、特許文献１参照。）。

特開２００９−４４５７３号公報（図９）

上述の従来技術によれば、例えば、ゴルフスイングを行う人物の動作遷移を表す合成画像を生成することができる。

ここで、例えば、ゴルフスイングやバッティング（野球）は、その動作が比較的短い時間で行われるため、これらの動作遷移を表す合成画像を生成する場合には、合成対象となる画像を適切に選択することが重要となる。しかしながら、上述の従来技術では、合成画像を生成する際に用いられる複数の画像を選択するための範囲を、ユーザによる開始操作時を基準として決定する。このため、例えば、ユーザが、撮影に不慣れな使用者や初心者である場合には、比較的短い時間で行われるゴルフスイングやバッティング（野球）について、その開始操作を適切に行うことが困難であることが想定される。このように、その開始操作が適切に行われていない場合に、その開始操作時を基準として決定された範囲内に含まれる複数の画像を用いて合成画像を生成すると、適切な合成画像が生成されないおそれがある。この場合には、その合成画像の生成処理に係る処理時間が長くなり、適切な合成画像の撮影機会を損失するおそれがある。

本発明はこのような状況に鑑みてなされたものであり、注目被写体による特定動作の遷移を表す合成画像を適切に生成することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、特定音の発生位置付近を指定するユーザ操作に基づいて設定される音有効範囲の音声から上記特定音を検出する特定音検出部と、上記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、上記音有効範囲内で検出された上記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から上記合成対象画像を選択する選択部とを具備する画像処理装置およびその制御方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、音有効範囲内で検出された特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から合成対象画像を選択するという作用をもたらす。
また、この第１の側面において、上記音有効範囲は、時間軸において上記合成対象画像選択範囲よりも狭くなるように設定されるようにしてもよい。これにより、音有効範囲は、合成対象画像選択範囲よりも狭くなるように設定されるという作用をもたらす。
また、この第１の側面において、上記選択部は、上記合成対象画像選択範囲を決定する合成対象画像選択範囲決定部を備えるようにしてもよい。これにより、合成対象画像選択範囲を決定するという作用をもたらす。
また、この第１の側面において、上記合成対象画像選択範囲決定部は、ユーザ操作に基づいて上記合成対象画像選択範囲を決定するようにしてもよい。これにより、ユーザ操作に基づいて合成対象画像選択範囲を決定するという作用をもたらす。
また、この第１の側面において、上記音有効範囲内での上記特定音の検出に基づいて上記合成画像の生成を制御する制御部をさらに具備するようにしてもよい。これにより、音有効範囲内での特定音の検出に基づいて合成画像の生成を制御するという作用をもたらす。
また、この第１の側面において、上記合成画像の生成に関する判定を行うための時間軸における範囲を上記音有効範囲として設定する音有効範囲設定部をさらに具備し、上記制御部は、上記設定された音有効範囲内で上記特定音が検出された場合には上記合成画像が生成され、上記設定された音有効範囲内で上記特定音が検出されなかった場合には上記合成画像が生成されないように制御するようにしてもよい。これにより、音有効範囲内で特定音が検出された場合には合成画像が生成され、音有効範囲内で特定音が検出されなかった場合には合成画像が生成されないという作用をもたらす。

また、この第１の側面において、上記ユーザ操作は、特定動作の終了時に受け付けられる特定操作、または、上記特定動作の終了時をタイマカウンタの終了時とする設定を行うタイマ設定操作であり、上記音有効範囲設定部は、上記ユーザ操作が上記特定操作である場合には上記特定操作が受け付けられた時間軸における位置を基準として上記音有効範囲を設定し、上記ユーザ操作が上記タイマ設定操作である場合には上記タイマ設定操作によるタイマカウンタの終了時を基準として上記音有効範囲を設定するようにしてもよい。これにより、ユーザ操作が特定操作である場合には、その特定操作が受け付けられた位置を基準として音有効範囲を設定し、ユーザ操作がタイマ設定操作である場合には、そのタイマ設定操作によるタイマカウンタの終了時を基準として音有効範囲を設定するという作用をもたらす。

また、この第１の側面において、上記音有効範囲設定部は、上記ユーザ操作が上記タイマ設定操作である場合に設定される上記音有効範囲よりも上記ユーザ操作が上記特定操作である場合に設定される上記音有効範囲を狭くするようにしてもよい。これにより、ユーザ操作がタイマ設定操作である場合に設定される音有効範囲よりも、ユーザ操作が特定操作である場合に設定される音有効範囲を狭くするという作用をもたらす。

また、この第１の側面において、注目被写体までの距離を算出する被写体距離算出部をさらに具備し、上記制御部は、上記検出された特定音の時間軸における検出位置を、上記算出された距離に応じた特定音の遅延時間に基づいて補正して上記設定された音有効範囲内に上記補正後の検出位置が存在するか否かに応じて上記合成画像を合成画像生成部に生成させるか否かを判定するようにしてもよい。これにより、注目被写体までの距離を算出し、検出された特定音の時間軸における検出位置を、その算出された距離に応じた特定音の遅延時間に基づいて補正し、音有効範囲内にその補正後の検出位置が存在するか否かに応じて、合成画像を生成させるか否かを判定するという作用をもたらす。

また、この第１の側面において、上記設定された音有効範囲内に上記補正後の検出位置が存在する場合には上記補正後の検出位置を基準として上記合成対象画像選択範囲を決定する合成対象画像選択範囲決定部をさらに具備するようにしてもよい。これにより、音有効範囲内に、補正後の検出位置が存在する場合には、その補正後の検出位置を基準として合成対象画像選択範囲を決定するという作用をもたらす。

また、この第１の側面において、上記合成画像を生成する合成画像生成部をさらに具備し、上記合成画像生成部は、上記合成対象画像選択範囲における上記合成対象画像の選択間隔について上記特定音の時間軸における検出位置を中心位置とする上記合成対象画像選択範囲よりも狭い範囲における上記選択間隔を他の選択間隔よりも密にするようにしてもよい。これにより、合成対象画像選択範囲における合成対象画像の選択間隔について、特定音の検出位置を中心位置とするその合成対象画像選択範囲よりも狭い範囲における選択間隔を、他の選択間隔よりも密にするという作用をもたらす。

また、この第１の側面において、複数種類の特定動作のうちから所望の特定動作を指定する指定操作を受け付ける操作受付部をさらに具備し、上記特定音検出部は、上記指定された特定動作に関する特定音を検出し、上記音有効範囲設定部は、上記ユーザ操作に基づいて上記指定された特定動作に関する音有効範囲を設定するようにしてもよい。これにより、複数種類の特定動作のうちから所望の特定動作を指定する指定操作を受け付けると、その指定された特定動作に関する特定音を検出し、ユーザ操作に基づいて、その指定された特定動作に関する音有効範囲を設定するという作用をもたらす。

また、本発明の第２の側面は、特定音の検出範囲である音有効範囲の音声から特定音を検出する特定音検出部と、上記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、上記音有効範囲内で検出された上記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から上記合成対象画像を選択する選択部と、時系列で連続する複数の画像からなる画像群を構成する各画像間の時間軸における一定の変化を検出する一定変化検出部と、上記一定の変化が検出された時間軸における位置に基づいて上記合成画像の生成に関する判定を行うための時間軸における範囲を上記音有効範囲として設定する音有効範囲設定部と、上記設定された音有効範囲内で上記特定音が検出された場合には上記合成画像が生成され、上記設定された音有効範囲内で上記特定音が検出されなかった場合には上記合成画像が生成されないように制御する制御部とを具備する画像処理装置およびその制御方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、音有効範囲内で検出された特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から合成対象画像を選択し、各画像間の時間軸における一定の変化を検出し、この一定の変化が検出された位置に基づいて音有効範囲を設定し、この設定された音有効範囲内で特定音が検出された場合には合成画像が生成され、その設定された音有効範囲内で特定音が検出されなかった場合には合成画像が生成されないように制御するという作用をもたらす。

また、この第２の側面において、前記一定変化検出部は、前記画像群を構成する各画像から抽出された特徴量と前記画像群を構成する各画像に関連付けられている音声に基づいて抽出された特徴量との少なくとも１つを用いて前記一定の変化を検出するようにしてもよい。これにより、画像群を構成する各画像から抽出された特徴量と、画像群を構成する各画像に関連付けられている音声に基づいて抽出された特徴量との少なくとも１つを用いて、一定の変化を検出するという作用をもたらす。

本発明によれば、注目被写体による特定動作の遷移を表す合成画像を適切に生成することができるという優れた効果を奏し得る。

本発明の第１の実施の形態における撮像装置１００の機能構成例を示すブロック図である。本発明の第１の実施の形態における選択部１７０およびレイヤ処理部１８０の機能構成例を示すブロック図である。本発明の第１の実施の形態における撮像装置１００とこの撮像対象となる人物３００との位置関係、および、その位置関係で生成される動画の関係を模式的に示す図である。本発明の第１の実施の形態における合成対象画像選択部１７２により選択される合成対象画像およびレイヤ処理部１８０により生成される合成画像の一例を示す図である。本発明の第１の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。本発明の第１の実施の形態における表示部１９１に表示される表示画面の遷移の一例を示す図である。本発明の第１の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。本発明の第１の実施の形態における選択部１７０による合成対象画像の選択処理およびレイヤ処理部１８０による合成画像の生成処理の流れの一例を模式的に示す図である。本発明の第１の実施の形態におけるレイヤ分離部１８１による合成対象画像の分離方法を模式的に示す図である。本発明の第１の実施の形態におけるレイヤ加工部１８２による加工処理の対象となる画像と、レイヤ加工部１８２により加工処理がされた画像とを簡略化して示す図である。本発明の第１の実施の形態におけるレイヤ合成部１８３による合成方法を模式的に示す図である。本発明の第１の実施の形態におけるレイヤ合成部１８３による合成対象画像の合成方法を模式的に示す図である。本発明の第１の実施の形態におけるレイヤ処理部１８０により生成された合成画像の一例を示す図である。本発明の第１の実施の形態における撮像装置１００による合成画像生成処理の処理手順の一例を示すフローチャートである。本発明の第１の実施の形態における撮像装置１００による合成画像生成処理の処理手順の一例を示すフローチャートである。本発明の第２の実施の形態における撮像装置５００および注目被写体間の距離と、インパクト音の発生位置および到達位置との関係を示す図である。本発明の第２の実施の形態における撮像装置５００の機能構成例を示すブロック図である。本発明の第２の実施の形態における撮像部１１１により撮像対象となる撮像範囲および表示部１９１に表示される撮像画像を概略的に示す図である。本発明の第２の実施の形態における撮像部１１１により撮像対象となる撮像範囲および表示部１９１に表示される撮像画像の位置関係を概略的に示す上面図である。本発明の第２の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。本発明の第２の実施における表示部１９１における表示例を示す図である。本発明の第２の実施の形態における撮像装置５００による合成画像生成処理の処理手順の一例を示すフローチャートである。本発明の第３の実施の形態における撮像装置６００の機能構成例を示すブロック図である。本発明の第３の実施の形態における注目被写体情報記憶部６１０の記憶内容の一例を示す図である。本発明の第３の実施の形態における表示部１９１の表示例（表示画面６６０）を示す図である。本発明の第３の実施の形態におけるレイヤ処理部１８０により生成される合成画像例を示す図である。本発明の第４の実施の形態における画像処理装置７００の機能構成例を示すブロック図である。本発明の第４の実施の形態における注目被写体情報記憶部７１０の記憶内容の一例を示す図である。本発明の第４の実施の形態における音有効範囲設定部７５０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。本発明の第４の実施の形態における音有効範囲設定部７５０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。

以下、本発明を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．第１の実施の形態（合成画像生成制御：ユーザ操作に基づいて音有効範囲を設定する例）
２．第２の実施の形態（合成画像生成制御：被写体距離を算出してインパクト音検出位置を補正する例）
３．第３の実施の形態（合成画像生成制御：複数の対象物から所望の対象物を指定してその対象物に関する合成画像を生成する例）
４．第４の実施の形態（合成画像生成制御：記録された画像コンテンツにおける合成画像を生成する例）

＜１．第１の実施の形態＞
［撮像装置の構成例］
図１は、本発明の第１の実施の形態における撮像装置１００の機能構成例を示すブロック図である。撮像装置１００は、撮像部１１１と、被写体情報生成部１２０と、撮像画像保持部１１５と、音声入力部１３１と、特定音検出部１３２と、操作受付部１４０と、タイマ設定部１５０とを備える。また、撮像装置１００は、音有効範囲設定部１６０と、選択部１７０と、レイヤ処理部１８０と、合成画像保持部１８５と、表示制御部１９０と、表示部１９１と、合成画像記憶部２００とを備える。撮像装置１００は、例えば、被写体を撮像して撮像画像（画像データ）を生成し、この画像データについて画像解析により各特徴量を抽出し、この抽出された各特徴量を用いて各種画像処理を施すことが可能なデジタルビデオカメラによって実現することができる。

撮像部１１１は、レンズ（図示せず）を介して入射された被写体の光を電気信号に変換する撮像素子（例えば、図１９に示す撮像素子１１２）と、この撮像素子の出力信号を処理して撮像画像（画像データ）を生成する信号処理部（図示せず）とを備える。すなわち、撮像部１１１において、レンズを介して入射された被写体の光学像が撮像素子の撮像面に結像され、この状態で撮像素子が撮像動作を行い、信号処理部が撮像信号に対して信号処理を行うことにより、撮像画像が生成される。この撮像画像の生成は、操作受付部１４０またはタイマ設定部１５０から出力される撮像動作の開始指示情報に基づいて行われる。そして、生成された撮像画像が撮像画像保持部１１５に供給されて保持される。また、生成された撮像画像が表示制御部１９０に供給されて表示部１９１に表示される。さらに、生成された撮像画像と、この撮像画像の生成時における各レンズ（例えば、フォーカスレンズ、ズームレンズ）の位置および合焦位置とが、被写体情報生成部１２０に供給される。

撮像画像保持部１１５は、撮像部１１１により生成された撮像画像を一定時間保持するリングバッファであり、保持されている撮像画像を選択部１７０に供給する。また、撮像画像保持部１１５は、撮像部１１１により生成された撮像画像に関連付けて、被写体情報生成部１２０により生成された被写体情報を保持する。ここで、撮像画像保持部１１５に撮像画像を保持する一定時間は、例えば、３乃至１０秒とすることができる。すなわち、撮像画像保持部１１５には、撮像部１１１により生成された撮像画像と、被写体情報生成部１２０により生成された被写体情報とのうち、最新の３乃至１０秒間のものが保持される。

被写体情報生成部１２０は、撮像部１１１により生成された撮像画像およびこの撮像画像の生成時における各情報（例えば、レンズの位置および合焦位置）に基づいて、撮像画像に関する被写体情報を生成するものである。そして、被写体情報生成部１２０は、生成された被写体情報を撮像画像保持部１１５に供給して保持させる。この被写体情報は、例えば、撮像部１１１により生成された撮像画像に含まれる被写体のうち、注目被写体の領域と、その背景領域とを判別するための情報である。この被写体情報として、例えば、奥行マップ（いわゆる、デプスマップ（Depth Map））が生成される。ここで、奥行マップは、撮像位置（例えば、撮像装置１００の位置）から、撮像画像に含まれる被写体までの距離（被写体距離）を表すデータである。この奥行マップの生成方法として、例えば、ＴＯＦ（Time of flight）方式やボケ量解析（Depth from Defocus）等の方法を用いることができる。例えば、ＴＯＦ方式は、光源から出射された光が対象物で反射し、センサに到達するまでの光の遅れ時間と光の速度とに基づいて被写体までの距離を算出する方法である。

音声入力部１３１は、撮像装置１００の周囲の音声を取得するものであり、取得された音声（音声データ）を特定音検出部１３２に出力する。音声入力部１３１は、例えば、複数のマイクロホン等により実現される。

特定音検出部１３２は、音声入力部１３１から出力された音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を選択部１７０に出力する。なお、本発明の第１の実施の形態では、ゴルフスイング中に、ゴルフクラブがゴルフボールに当たった瞬間に発生する音（インパクト音）を特定音とする場合を例にして説明する。例えば、特定音検出部１３２は、特定音に関する特徴量を特定音識別情報（基準データ）として予め記憶しておく。そして、特定音検出部１３２は、音声入力部１３１から出力された音声から特徴量を抽出し、この抽出された特徴量と特定音識別情報との比較により類似度を算出する。この算出された類似度が閾値を超えた場合に、特定音検出部１３２は、音声入力部１３１から出力された音声が特定音であると判定する。具体的には、音声入力部１３１から出力された音声データが、ＡＤ（AnalogtoDigital）変換処理によりサンプリングされ、デジタルデータに変換される。また、このデジタルデータに対して、適当な時間間隔で周波数分析等の処理が施され、スペクトルやその他の音声の音響的特徴を表すパラメータに変換される。これにより、音声に関する時系列の特徴量が抽出される。そして、保持されている基準データを用いて、その抽出された時系列の特徴量とのマッチング処理を行ない、このマッチング処理の結果として音声認識結果が出力される。なお、音声の解析方法および認識方法については、他の公知の各種方法を用いるようにしてもよい。

操作受付部１４０は、ユーザによって操作された操作内容を受け付ける操作受付部であり、受け付けられた操作内容に応じた操作信号を撮像部１１１、タイマ設定部１５０、音有効範囲設定部１６０、表示制御部１９０に出力する。例えば、操作受付部１４０は、合成画像を生成するための合成画像記録モードの設定を指示する合成画像記録モード設定操作が受け付けられると、撮像動作の開始を指示する制御信号を撮像部１１１に出力する。そして、撮像画像の表示開始を指示する制御信号を表示制御部１９０に出力する。なお、合成画像記録モードの設定操作は、例えば、合成画像記録モードの設定ボタンの押下操作により行われる。また、例えば、操作受付部１４０は、合成画像記録モードの解除を指示する合成画像記録モード解除操作が受け付けられると、撮像動作を停止する制御信号を撮像部１１１に出力する。なお、合成画像記録モード解除操作は、例えば、合成画像記録モードの解除ボタンにより行われる。また、例えば、操作受付部１４０は、合成画像記録モードが設定されている場合において、合成画像の記録指示操作が受け付けられると、合成画像の記録指示操作が受け付けられた旨の制御信号を音有効範囲設定部１６０に出力する。そして、撮像動作を停止する制御信号を撮像部１１１に出力する。なお、合成画像の記録指示操作は、例えば、録画ボタン（ＲＥＣボタン）により行われる。また、例えば、操作受付部１４０は、合成画像記録モードにおける撮像動作をタイマ設定により行うためのタイマ設定操作が受け付けられると、タイマ設定を指示する制御信号をタイマ設定部１５０に出力する。なお、タイマ設定操作は、例えば、タイマ設定ボタンにより行われる。また、このタイマ設定ボタンの押下操作の際に、カウンタ値の設定操作（例えば、８乃至１７秒を設定）を行うようにしてもよい。これらの操作入力は、例えば、撮像装置１００に設けられているボタン等の操作部材を用いて行うようにしてもよく、また、リモコン（リモートコントローラ）操作等により無線通信により行うようにしてもよい。

タイマ設定部１５０は、合成画像記録モードにおける撮像動作を行うためのタイマ（例えば、セルフタイマ機能）を設定するものである。具体的には、タイマ設定部１５０は、操作受付部１４０によりタイマ設定操作が受け付けられると、撮像動作の開始を指示する制御信号を撮像部１１１に出力する。そして、撮像画像およびタイマ設定によるカウント値の表示開始を指示する制御信号を表示制御部１９０に出力する。また、カウント値の表示開始以降は、設定内容に応じたカウント値を表示制御部１９０に順次出力する。これにより、図６に示すように、撮像部１１１により生成された撮像画像が表示部１９１に表示されるとともに、撮像画像上にカウント値が重ねて表示される。表示部１９１には、例えば、１秒毎に１つずつカウントアップされたカウント値が表示されるものとする。また、タイマ設定部１５０は、設定されたタイマのカウント値が「０」となった場合には、その旨の制御信号を音有効範囲設定部１６０に出力する。そして、撮像動作を停止する制御信号を撮像部１１１に出力する。

音有効範囲設定部１６０は、合成画像記録モードが設定されている場合において、特定音検出部１３２により検出された特定音を有効とするか否かを判定するための音有効範囲を設定するものである。そして、音有効範囲設定部１６０は、設定された音有効範囲に関する情報（音有効範囲、この範囲の設定の際に基準となった時間軸における位置）を選択部１７０に出力する。具体的には、音有効範囲設定部１６０は、操作受付部１４０により合成画像の記録指示操作が受け付けられた場合、または、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった場合に、音有効範囲を設定する。ここで、操作受付部１４０により合成画像の記録指示操作が受け付けられた場合には、合成画像の記録指示操作が受け付けられた時間軸における位置が、基準位置となる。また、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった場合には、カウント値が「０」となった時間軸における位置が、基準位置となる。これらの音有効範囲の設定方法については、図５および図７等を参照して詳細に説明する。

選択部１７０は、撮像画像保持部１１５に保持されている撮像画像のうちから、レイヤ処理部１８０による合成画像の生成処理に用いられる合成対象画像を選択するものである。そして、選択部１７０は、選択された合成対象画像に関する情報（例えば、合成対象画像、この画像に関する被写体情報、合成画像の生成処理に用いられる座標）をレイヤ処理部１８０に出力する。なお、選択部１７０の内部構成については、図２を参照して詳細に説明する。また、選択部１７０は、特許請求の範囲に記載の制御部の一例である。

レイヤ処理部１８０は、選択部１７０により選択された合成対象画像を用いて、合成画像を生成するものであり、生成された合成画像を合成画像記憶部２００に記憶させる。なお、レイヤ処理部１８０の内部構成については、図２を参照して詳細に説明する。また、レイヤ処理部１８０は、特許請求の範囲に記載の合成画像生成部の一例である。

合成画像保持部１８５は、レイヤ処理部１８０による合成画像の生成処理の際に、合成処理中の合成画像（履歴画像）を保持するものであり、保持されている合成画像をレイヤ処理部１８０に供給する。なお、合成画像保持部１８５については、図２を参照して詳細に説明する。

表示制御部１９０は、操作受付部１４０により受け付けられた操作入力に応じて、合成画像記憶部２００に記憶されている合成画像または撮像部１１１から出力された撮像画像を表示部１９１に表示させるものである。また、表示制御部１９０は、タイマ設定部１５０により設定されたタイマのカウント値を撮像画像に重ねて表示部１９１に表示させる。

表示部１９１は、表示制御部１９０の制御に基づいて、各画像を表示するものである。

合成画像記憶部２００は、レイヤ処理部１８０により生成された合成画像を記憶するものであり、記憶されている合成画像を表示制御部１９０に供給する。

図２は、本発明の第１の実施の形態における選択部１７０およびレイヤ処理部１８０の機能構成例を示すブロック図である。選択部１７０は、合成対象画像選択範囲決定部１７１と、合成対象画像選択部１７２と、座標計算部１７３と、カウンタ部１７４とを備える。また、レイヤ処理部１８０は、レイヤ分離部１８１と、レイヤ加工部１８２と、レイヤ合成部１８３とを備える。

合成対象画像選択範囲決定部１７１は、撮像画像保持部１１５に保持されている撮像画像のうち、レイヤ処理部１８０による合成画像の生成処理に用いられる合成対象画像を選択するための範囲（合成対象画像選択範囲）を決定するものである。具体的には、合成対象画像選択範囲決定部１７１は、特定音検出部１３２により検出された特定音の検出位置（時間軸における位置）と、音有効範囲設定部１６０により設定された音有効範囲とに基づいて、合成対象画像選択範囲を決定する。例えば、合成対象画像選択範囲決定部１７１は、特定音の検出位置が音有効範囲に含まれる場合には、特定音の検出位置に基づいて合成対象画像選択範囲を決定する。一方、合成対象画像選択範囲決定部１７１は、特定音の検出位置が音有効範囲に含まれない場合には、その音有効範囲の設定の際に基準となった時間軸における位置に基づいて合成対象画像選択範囲を決定する。ここで、操作受付部１４０により合成画像の記録指示操作が受け付けられた場合には、合成画像の記録指示操作が受け付けられた時間軸における位置が基準位置となる。また、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった場合には、カウント値が「０」となった時間軸における位置が基準位置となる。そして、合成対象画像選択範囲決定部１７１は、決定された合成対象画像選択範囲に関する情報（例えば、合成対象画像選択範囲、この範囲に含まれる画像に関する被写体情報）を合成対象画像選択部１７２に出力する。なお、合成対象画像選択範囲決定部１７１は、特許請求の範囲に記載の決定部の一例である。

合成対象画像選択部１７２は、合成対象画像選択範囲決定部１７１により決定された合成対象画像選択範囲に含まれる各画像のうちから、レイヤ処理部１８０による合成画像の生成処理に用いられる合成対象画像を選択するものである。例えば、合成対象画像選択部１７２は、合成対象画像選択範囲決定部１７１により決定された合成対象画像選択範囲に含まれる各画像（撮像画像保持部１１５に保持されている撮像画像）のうちから、一定間隔毎の画像を合成対象画像として選択する。また、例えば、注目被写体の動作遷移を視認するのに適した間隔となるように、合成対象画像を選択するようにしてもよい。そして、合成対象画像選択部１７２は、選択された合成対象画像に関する情報（例えば、合成対象画像、この画像に関する被写体情報）を座標計算部１７３およびレイヤ分離部１８１に出力する。

座標計算部１７３は、合成対象画像選択部１７２から出力された各合成対象画像について、レイヤ処理部１８０による合成画像の生成処理に用いられる座標計算を行うものであり、求められた座標をレイヤ加工部１８２に出力する。この座標計算では、計算対象となる合成対象画像に関する合成画像に合成すべき画素位置が計算される。すなわち、この座標計算では、最終的に生成される合成画像（例えば、図８（ｄ）に示す合成画像４０２）の中で、計算対象となる合成対象画像を当てはめる画素範囲（例えば、図８（ｄ）に示すＦ０、Ｆ１０等の範囲）が計算される。

カウンタ部１７４は、合成対象画像選択範囲決定部１７１による合成対象画像選択範囲決定時に用いられるカウンタ（インパクト音検出カウンタ）の値を合成対象画像選択範囲決定部１７１に供給するものである。ここで、カウンタ部１７４は、インパクト音検出カウンタをインクリメントし続ける。そして、特定音検出部１３２から特定音が検出された旨が合成対象画像選択範囲決定部１７１に出力された場合には、合成対象画像選択範囲決定部１７１によりインパクト音検出カウンタの値が「０」にリセットされる。また、このリセット後についても同様に、カウンタ部１７４がインパクト音検出カウンタをインクリメントし続ける。そして、合成対象画像選択範囲決定部１７１は、合成対象画像選択範囲の決定時に、インパクト音検出カウンタの値を用いてインパクト音検出位置を推定する。すなわち、合成対象画像選択範囲の決定時において、この決定時よりもインパクト音検出カウンタの値だけ前の位置（時間軸における前の位置）が、インパクト音検出位置であると推定される。

レイヤ分離部１８１は、合成対象画像選択部１７２により選択された合成対象画像について、対応する被写体情報を用いてレイヤ分離を行うものである。ここで、レイヤとは、１つの画像（フレーム）について、注目被写体部分および背景部分を分離させた各画像を意味するものとする。そして、レイヤ分離部１８１は、分離された各レイヤ画像をレイヤ加工部１８２に出力する。

レイヤ加工部１８２は、レイヤ分離部１８１から出力された各レイヤ画像について、座標計算部１７３により求められた座標を用いて、合成画像として生成するための各種の加工処理を行うものである。この加工処理として、切り取り、拡大縮小、回転、座標移動等の幾何学的な演算処理が行われる。例えば、拡大縮小は、合成対象画像の枚数や合成画像のサイズ等に応じて、その処理内容が決定される。また、この加工処理として、注目被写体の動作部分の強調等の画像処理を行うようにしてもよい。そして、レイヤ加工部１８２は、加工処理が施されたレイヤ画像をレイヤ合成部１８３に出力する。

レイヤ合成部１８３は、レイヤ加工部１８２から出力されたレイヤ画像について画像合成処理を行うものであり、生成された合成画像を合成画像記憶部２００に記憶させる。具体的には、レイヤ合成部１８３は、レイヤ加工部１８２から出力されたレイヤ画像が、当てはめるべき画素範囲に配置されるように、各レイヤ画像を合成する。また、レイヤ合成部１８３は、直前に合成対象となったレイヤ画像の合成処理後に、その合成画像（履歴画像）を合成画像保持部１８５に順次保持させる。そして、レイヤ合成部１８３は、次の合成対象となるレイヤ画像の合成処理を行う際には、合成画像保持部１８５に保持されたその合成画像（履歴画像）を合成画像保持部１８５から取得して合成処理に用いる。

合成画像保持部１８５は、レイヤ合成部１８３により生成された合成画像（履歴画像）を順次保持するものであり、保持されている合成画像をレイヤ合成部１８３に供給する。すなわち、合成画像保持部１８５には、レイヤ合成部１８３により生成される合成画像が順次更新されて保持される。

［合成画像生成処理の遷移例］
次に、合成画像を生成する場合における生成処理の遷移の一例を簡略化して示す。

図３は、本発明の第１の実施の形態における撮像装置１００とこの撮像対象となる人物３００との位置関係、および、その位置関係で生成される動画の関係を模式的に示す図である。

図３（ａ）には、撮像装置１００と、撮像装置１００により撮像対象となる人物３００との位置関係を模式的に示す。人物３００は、例えば、ゴルフ練習場でゴルフクラブ３０１のスイングの練習をしている人物である。人物３００は、図３（ａ）に示す姿勢から、ゴルフクラブ３０１を振り回すことにより、ゴルフクラブ３０１をゴルフボール３０２に当てて、ゴルフボール３０２を所望の方向に飛ばす。

図３（ｂ）には、撮像部１１１により生成された動画３１０を矩形により模式的に示す。また、図３（ｂ）では、動画３１０に対応する矩形内に、動画３１０を構成する各フレームのうち、一部のフレーム（画像３１１乃至３１３等）を時間軸に沿って並べて示す。なお、動画３１０は、図３（ａ）に示す状態で、撮像装置１００により人物３００のゴルフスイングの練習の様子が撮像された動画であるものとする。ここで、画像３１１は、人物３００がゴルフスイングの準備をしている状態が撮像された画像であり、画像３１２は、ゴルフスイングが終了した後に、人物３００がゴルフボール３０２の飛んでいく方向を見ている状態が撮像された画像であるものとする。また、画像３１３は、人物３００がゴルフスイングをしている際に、ゴルフクラブ３０１がゴルフボール３０２に当たった瞬間の状態が撮像された画像であるものとする。ここで、人物３００がゴルフスイングをしている際に、ゴルフクラブ３０１がゴルフボール３０２に当たった瞬間には、特定音（インパクト音）が発生する。このインパクト音が発生した動画３１０における位置をインパクト音発生位置３１５とする。

このように生成された動画３１０を用いて、人物３００のゴルフスイングの遷移を示す合成画像を生成する場合には、例えば、合成対象画像を選択するための一定範囲（合成対象画像選択範囲）を選択する。この合成対象画像選択範囲は、例えば、ゴルフスイングの開始から終了までの一連の動作遷移が含まれる範囲である。そして、その一定範囲内において、合成対象となる画像を選択して合成する。この合成例については、図４（ｂ）に示す。

例えば、図３（ｂ）に示す動画３１０において、合成対象画像選択範囲３２０が決定され、この合成対象画像選択範囲３２０に含まれる各フレームのうち、所定条件を満たすフレームが合成対象画像として決定される。

図３（ｃ）には、図３（ｂ）に示す動画３１０において決定された合成対象画像選択範囲３２０に含まれる各フレームのうち、一部のフレーム（画像３２１乃至３２６）を時間軸に沿って並べて示す。ここで、画像３２１は、人物３００がゴルフスイングを開始した際に撮像された画像であり、画像３２６は、人物３００がゴルフスイングを終了した際に撮像された画像であるものとする。また、画像３２３は、図３（ｂ）に示す画像３１３に対応する画像である。また、画像３２２、３２４、３２５は、画像３２１から画像３２６までの、ゴルフスイングをしている人物３００の動作の遷移が時系列で順次撮像された画像である。

図４は、本発明の第１の実施の形態における合成対象画像選択部１７２により選択される合成対象画像およびレイヤ処理部１８０により生成される合成画像の一例を示す図である。図４（ａ）には、図３（ｂ）に示す動画３１０における合成対象画像選択範囲３２０に含まれる各フレームのうち、合成対象画像として選択された２４個の画像を時系列で並べて示す。なお、図４（ａ）に示す２４個の画像のうち、図３（ｃ）に示す画像３２１乃至３２６と同一の被写体が含まれる画像については、同一の符号を付して示す。ここで、合成対象画像の選択方法として、例えば、一定間隔毎のフレームを合成対象画像として選択する選択方法を用いることができる。また、例えば、ゴルフクラブ３０１がゴルフボール３０２に当たる付近の動作の遷移を細かく確認したいような場合も想定される。この場合には、インパクト音が発生した際における画像（例えば、画像３２３）の付近の画像の間隔を、他の間隔よりも密にして合成対象画像を選択するようにしてもよい。

図４（ｂ）には、レイヤ処理部１８０により生成された合成画像３３０を簡略化して示す。このように、人物３００のゴルフスイングの開始から終了までの動作遷移が含まれる合成対象画像選択範囲を決定し、合成対象画像選択範囲内において合成対象画像を選択して合成する。これにより、人物３００のゴルフスイングの動作遷移を表す合成画像を生成することができる。

このように、動画３１０から合成画像を生成する場合には、合成対象画像を選択するための合成対象画像選択範囲を適切に選択することが重要となる。しかしながら、ゴルフスイングは比較的短時間に行われるため、動画３１０から合成対象画像選択範囲を適切に選択することは困難であることが想定される。すなわち、人物３００のゴルフスイングの開始前の状態が含まれる画像からそのゴルフスイングの終了後の状態が含まれる画像までが含まれる動画３１０から、合成対象画像選択範囲を選択することは困難であることが想定される。

ここで、上述したように、ゴルフスイング中には、その真ん中付近でインパクト音が発生する。このように、インパクト音は、ゴルフスイング中の所定位置で発生することが多いため、このインパクト音を基準として、合成対象画像選択範囲を選択することが考えられる。しかしながら、他のプレイヤーが多く存在するゴルフ練習場で人物３００が練習をしているような場合には、人物３００のゴルフスイングの準備中等でも、人物３００以外の他のプレイヤーによるゴルフスイングによりインパクト音が発生する可能性が高い。すなわち、インパクト音を伴うスポーツに関する一瞬の動作を適切に記録する場合には、検出されたインパクト音を常に有効とすると、検出対象外のインパクト音を誤検出する可能性が高い。このため、人物３００に関する合成画像を生成する場合において、インパクト音を基準として合成対象画像選択範囲を選択する場合には、人物３００によるゴルフスイングにより発生するインパクト音を適切に検出することが重要である。そこで、本発明の第１の実施の形態では、ユーザ操作に基づく撮影トリガのタイミング付近のみを有効とする音有効範囲を設定し、インパクト音の誤検出を低減させる例を示す。この音有効範囲内で検出されたインパクト音のみを用いて合成対象画像選択範囲を設定することにより、適切な合成対象画像を選択することができる。

［録画ボタン操作に基づく合成対象画像選択範囲の決定例］
図５は、本発明の第１の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。

図５（ａ）には、撮像部１１１により生成された動画３５０を矩形により模式的に示す。なお、動画３５０は、図３（ｂ）に示す例と同様に、撮像装置１００により人物（例えば、甲田五郎）のゴルフスイングの練習の様子が撮像された動画であるものとする。ここで、甲田五郎は、自己のゴルフスイングの撮影を友人（例えば、乙川六郎）に依頼したものとする。この場合には、乙川六郎が、光軸方向を甲田五郎に向けた状態で撮像装置１００を手で持ち、合成画像記録モードの設定ボタンを押下する。この押下操作が操作受付部１４０により受け付けられると、撮像部１１１により撮像画像が生成され、この生成された撮像画像が撮像画像保持部１１５に順次保持される。また、表示制御部１９０がその生成された撮像画像（いわゆる、スルー画像）を表示部１９１に順次表示させる。このように、合成画像記録モードが設定されている撮像装置１００を用いて乙川六郎により撮影が行われている状態で、甲田五郎がゴルフスイングを行う。この甲田五郎によるゴルフスイングが終了した直後に、乙川六郎が録画ボタンを速やかに押下する。この押下操作が操作受付部１４０により受け付けられると、音有効範囲設定部１６０が音有効範囲を設定する。

例えば、乙川六郎により録画ボタンが押下された位置（時間軸における位置）が、図５（ａ）に示す動画３５０の時間軸における録画ボタンの押下位置（録画ボタン押下位置３５１）であるものとする。この場合には、音有効範囲設定部１６０が、録画ボタン押下位置３５１に基づいて音有効範囲３５２を設定する。具体的には、音有効範囲設定部１６０が、録画ボタン押下位置３５１を基準として、時間軸において、録画ボタン押下位置３５１よりも時間Ｌ１だけ前の範囲を音有効範囲３５２として設定する。この例では、一連のゴルフスイング動作が終了した後に、録画ボタンの押下（撮影トリガ）が発生することを想定しているため、インパクト音の発生位置は、撮影トリガのタイミングよりも前に存在すると想定される。このため、録画ボタンの押下時よりも前に音有効範囲を設定する例を示す。

ここで、時間Ｌ１は、例えば、１．０秒とすることができる。このように設定された音有効範囲において検出されたインパクト音を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図５（ｂ）を参照して説明する。また、このように設定された音有効範囲においてインパクト音が検出されない場合には、録画ボタン押下位置３５１を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図５（ｃ）を参照して説明する。

図５（ｂ）には、音有効範囲設定部１６０により設定された音有効範囲３５２においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図５（ｂ）では、特定音検出部１３２によりインパクト音が検出された位置（時間軸における位置）をインパクト音検出位置３５３として示す。図５（ｂ）に示すように、音有効範囲設定部１６０により設定された音有効範囲３５２においてインパクト音が検出された場合には、合成対象画像選択範囲決定部１７１が、そのインパクト音検出位置３５３に基づいて合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、インパクト音検出位置３５３を基準にして、時間軸において、インパクト音検出位置３５３の前後の一定範囲を合成対象画像選択範囲３５４として決定する。具体的には、合成対象画像選択範囲決定部１７１が、時間軸において、インパクト音検出位置３５３よりも時間Ｌ２だけ前の範囲と、インパクト音検出位置３５３よりも時間Ｌ３だけ後の範囲とにより構成される範囲Ｌ４を合成対象画像選択範囲３５４として決定する。

ここで、ゴルフスイングは、ゴルフクラブの回転速度を考慮すると、ゴルフクラブがゴルフボールに当たった瞬間の前の時間よりも、その後の時間が短いと考えられる。すなわち、ゴルフスイングは、インパクト音の発生時の前の時間よりも、後の時間が短いと考えられる。そこで、インパクト音検出位置３５３の後の時間Ｌ３よりも、その前の時間Ｌ２を長くするように、合成対象画像選択範囲３５４を決定する。例えば、時間Ｌ２を１．５秒とし、時間Ｌ３を０．５秒とすることができる。このように、音有効範囲内において検出されたインパクト音に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。

ここで、音有効範囲設定部１６０により設定された音有効範囲３５２以外の位置（例えば、図５（ｂ）に矢印３５８および３５９で示す位置）でインパクト音が検出されることも想定される。このように音有効範囲３５２以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲の決定に、そのインパクト音を用いないことにする。なお、このようにインパクト音を用いない場合には、図５（ｃ）に示すように、録画ボタンの押下位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲３５２以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲を決定せずに、次の合成画像の生成処理に備えるようにしてもよい。

図５（ｃ）には、音有効範囲設定部１６０により設定された音有効範囲３５２においてインパクト音が検出されない場合における合成対象画像選択範囲の決定方法を模式的に示す。図５（ｃ）では、図５（ａ）と同様に、録画ボタンが押下された位置を録画ボタン押下位置３５１として示す。図５（ｃ）に示すように、音有効範囲３５２内でインパクト音が検出されない場合には、合成対象画像選択範囲決定部１７１が、録画ボタン押下位置３５１に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、録画ボタン押下位置３５１を基準にして、時間軸において、録画ボタン押下位置３５１の前の一定範囲を合成対象画像選択範囲３５５として決定する。具体的には、合成対象画像選択範囲決定部１７１が、時間軸において、インパクト音検出位置３５３よりも時間Ｌ７（Ｌ５＋Ｌ６）だけ前の範囲を合成対象画像選択範囲３５５として決定する。このように、音有効範囲３５２内でインパクト音が検出されない場合には、時間軸において、録画ボタンの押下位置よりも時間Ｌ６だけ前の位置をインパクト音検出位置と想定して合成対象画像選択範囲３５５が決定される。すなわち、時間Ｌ５およびＬ６は、図５（ｂ）に示す時間Ｌ２およびＬ３に対応する。ここで、例えば、図５（ｂ）と同様に、時間Ｌ７を２．０秒とすることができる。すなわち、時間Ｌ５を１．５秒とし、時間Ｌ６を０．５秒とする。しかしながら、録画ボタン押下位置に基づいて合成対象画像選択範囲を決定する場合には、ユーザ操作に基づいて合成対象画像選択範囲を決定することになるため、図５（ｂ）に示す合成対象画像選択範囲３５４よりも精度が低くなるおそれがある。そこで、録画ボタン押下位置に基づいて合成対象画像選択範囲を決定する場合には、例えば、時間Ｌ７を時間Ｌ４よりも長くして合成対象画像選択範囲を決定するようにしてもよい。

また、これらの各時間Ｌ１乃至Ｌ７については、ユーザ操作により変更可能とするようにしてもよい。

［タイマに基づく合成対象画像選択範囲の決定例］
図６は、本発明の第１の実施の形態における表示部１９１に表示される表示画面の遷移の一例を示す図である。図６（ａ）には、人物３００のゴルフスイングの開始前において、撮像部１１１により生成された画像に、タイマ設定部１５０により設定されたタイマのカウント値３７２の「１７」が重ねられた表示例（表示画面３７０）を示す。図６（ｂ）には、人物３００のゴルフスイングの終了時において、撮像部１１１により生成された画像に、タイマ設定部１５０により設定されたタイマのカウント値３７３の「０」が重ねられた表示例（表示画面３７１）を示す。

この例では、人物３００（例えば、甲田五郎）が、自己のゴルフスイングの練習の様子を一人で撮影する場合を想定する。この場合には、例えば、甲田五郎が、図３（ａ）に示すように、練習をする甲田五郎に光軸方向が向くように撮像装置１００を設置し、タイマ設定ボタンを押下する。この押下操作により、撮像部１１１により撮像画像が生成され、表示制御部１９０がその生成された撮像画像（いわゆる、スルー画像）を表示部１９１に表示させる。また、そのタイマ設定ボタンの押下操作により、タイマ設定部１５０がタイマを設定し、表示制御部１９０がその設定内容に応じたカウント値（例えば、１７秒）をスルー画像に重ねて表示部１９１に表示させる。例えば、図６（ａ）に示すように、タイマ設定ボタンの押下後に、ゴルフスイングの準備をする人物３００を含む撮像画像に、タイマ設定部１５０により設定されたタイマのカウント値３７２の「１７」が重ねられた表示画面３７０が表示される。以降も同様に、人物３００を含む撮像画像に、タイマのカウント値（例えば、１７秒から１秒間隔で減少する値）が重ねられた表示画面が表示部１９１に表示される。このように表示部１９１に表示される表示画面を見ながら、タイマのカウント値が「０」となる付近でゴルフスイングが終了するように、人物３００がゴルフスイングを行う。また、タイマのカウント値が「０」となった場合には、音有効範囲設定部１６０が音有効範囲を設定する。また、一定時間経過後に撮像動作が停止される。この音有効範囲の設定方法については、図７を参照して詳細に説明する。

このように、タイマ設定を行うことにより、例えば、撮影を行う友人がいない場合でも、人物３００が自己のゴルフスイングの様子を容易に撮影することができる。

図７は、本発明の第１の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。この例では、タイマ設定部１５０により設定されたタイマに基づいて音有効範囲を設定する例を示す。

図７（ａ）には、撮像部１１１により生成された動画３８０を矩形により模式的に示す。なお、動画３８０は、図３（ｂ）に示す例と同様に、撮像装置１００により人物（例えば、甲田五郎）のゴルフスイングの練習の様子が撮像された動画であるものとする。例えば、図６に示すように、人物３００（例えば、甲田五郎）が、自己のゴルフスイングの練習の様子を一人で撮影する場合において、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった場合を想定する。この場合には、上述したように、音有効範囲設定部１６０が音有効範囲を設定する。

例えば、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった位置が、図７（ａ）に示す動画３８０の時間軸におけるタイマカウンタ０の位置（タイマカウンタ「０」位置３８１）であるものとする。この場合には、音有効範囲設定部１６０が、タイマカウンタ「０」位置３８１に基づいて音有効範囲３８２を設定する。具体的には、音有効範囲設定部１６０が、タイマカウンタ「０」位置３８１を基準として、時間軸において、タイマカウンタ「０」位置３８１の前後の一定範囲を音有効範囲３８２として設定する。例えば、音有効範囲設定部１６０が、時間軸において、タイマカウンタ「０」位置３８１よりも時間Ｌ１１だけ前の範囲と、タイマカウンタ「０」位置３８１よりも時間Ｌ１２だけ後の範囲とにより構成される範囲Ｌ１３を音有効範囲３８２として設定する。

ここで、人物３００がタイマカウンタ０のタイミングで、一連のゴルフスイングの動作を終了するように、ゴルフスイングを行うことが困難であることが想定される。このため、この例では、タイマカウンタ０の位置で、インパクト音が発生する瞬間を迎えることを想定し、タイマカウンタ０の位置の前後に跨るように音有効範囲を設定する。このように、録画ボタンの押下位置に基づいて音有効範囲を設定する場合と、タイマカウンタ０の位置に基づいて音有効範囲を設定する場合とについては、異なる設定内容とすることができる。このように、複数の撮影トリガの特徴に応じて音有効範囲を設定することにより、検出すべきインパクト音以外の音を誤検出するリスクを低減させることができる。

ここで、時間Ｌ１１は、例えば、０．５秒とし、時間Ｌ１２は、例えば、０．５秒とすることができる。すなわち、音有効範囲３８２の時間Ｌ１３は、例えば、１．０秒とすることができる。なお、人物３００は、表示部１９１に表示される表示画面を見ながら、タイマのカウント値が「０」となる付近でゴルフスイングが終了するようにそのゴルフスイングを行う。このため、録画ボタンが押下された位置に基づいて音有効範囲を設定する場合と比較して、その精度が低い可能性もある。そこで、録画ボタン押下操作に基づく音有効範囲よりも、タイマ設定操作に基づく音有効範囲を比較的広くするようにしてもよい。すなわち、タイマ設定操作に基づく音有効範囲よりも、録画ボタン押下操作に基づく音有効範囲を狭くするようにしてもよい。このように設定された音有効範囲において検出されたインパクト音を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図７（ｂ）を参照して説明する。また、このように設定された音有効範囲においてインパクト音が検出されない場合には、タイマカウンタ「０」位置３８１を基準にして合成対象画像選択範囲が決定される。この合成対象画像選択範囲の決定方法については、図７（ｃ）を参照して説明する。

図７（ｂ）には、音有効範囲設定部１６０により設定された音有効範囲３８２においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図７（ｂ）では、特定音検出部１３２によりインパクト音が検出された位置（時間軸における位置）をインパクト音検出位置３８３として示す。図７（ｂ）に示すように、音有効範囲設定部１６０により設定された音有効範囲３８２においてインパクト音が検出された場合には、合成対象画像選択範囲決定部１７１が、そのインパクト音検出位置３８３に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、インパクト音検出位置３８３を基準にして、時間軸において、インパクト音検出位置３８３の前後の一定範囲を合成対象画像選択範囲３８４として決定する。具体的には、時間軸において、インパクト音検出位置３８３よりも時間Ｌ１４だけ前の範囲と、インパクト音検出位置３８３よりも時間Ｌ１５だけ後の範囲とにより構成される範囲Ｌ１６が合成対象画像選択範囲３８４として決定される。

ここで、上述したように、ゴルフスイングは、インパクト音の発生時よりも前の時間よりも、後の時間が短いと考えられる。そこで、インパクト音検出位置３８３よりも後の時間Ｌ１５よりも、その前の時間Ｌ１４を長くするように、合成対象画像選択範囲３８４を決定する。例えば、時間Ｌ１４を１．５秒とし、時間Ｌ１５を０．５秒とすることができる。このように、音有効範囲内において検出されたインパクト音に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。

なお、音有効範囲設定部１６０により設定された音有効範囲３８２以外の位置（例えば、図７（ｂ）に矢印３８８および３８９で示す位置）でインパクト音が検出されることも想定される。このように音有効範囲３８２以外の位置でインパクト音が検出された場合には、図５（ｂ）に示す例と同様に、合成対象画像選択範囲の決定に、そのインパクト音を用いないことにする。なお、このようにインパクト音を用いない場合には、図７（ｃ）に示すように、タイマカウンタ「０」位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲３８２以外の位置でインパクト音が検出された場合には、合成対象画像選択範囲を決定せずに、次の合成画像の生成処理に備えるようにしてもよい。

図７（ｃ）には、音有効範囲設定部１６０により設定された音有効範囲３８２においてインパクト音が検出されない場合における合成対象画像選択範囲の決定方法を模式的に示す。図７（ｃ）では、図７（ａ）と同様に、タイマ設定部１５０により設定されたタイマのカウント値が「０」となった位置を、タイマカウンタ「０」位置３８１として示す。図７（ｃ）に示すように、音有効範囲３８２内でインパクト音が検出されない場合には、合成対象画像選択範囲決定部１７１が、タイマカウンタ「０」位置３８１に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、タイマカウンタ「０」位置３８１を基準にして、時間軸において、タイマカウンタ「０」位置３８１の前後の一定範囲を合成対象画像選択範囲３８５として決定する。具体的には、時間軸において、タイマカウンタ「０」位置３８１よりも時間Ｌ１７だけ前の範囲と、タイマカウンタ「０」位置３８１よりも時間Ｌ１８だけ後の範囲とにより構成される範囲Ｌ１９が合成対象画像選択範囲３８５として決定される。

ここで、人物３００は、表示部１９１に表示される表示画面を見ながら、タイマのカウント値が「０」となる付近でゴルフスイングが終了するようにそのゴルフスイングを行う。このため、図５（ｃ）に示すように、録画ボタンが押下された位置に基づいて合成対象画像選択範囲を決定する場合と比較して、その精度が低い可能性もある。そこで、音有効範囲３８２内でインパクト音が検出されない場合には、時間軸において、タイマのカウント値が「０」となった位置（タイマカウンタ「０」位置３８１）をインパクト音検出位置と想定して合成対象画像選択範囲３８５が決定される。

また、時間Ｌ１７およびＬ１８は、図７（ｂ）に示す時間Ｌ１４およびＬ１５に対応する。また、例えば、図７（ｂ）と同様に、時間Ｌ１７を１．５秒とし、時間Ｌ１８を０．５秒とする。ここで、上述したように、タイマのカウント値が「０」となった位置に基づいて合成対象画像選択範囲を決定する場合には、ユーザの感覚による行動に基づいて合成対象画像選択範囲を決定することになる。このため、図７（ｂ）に示す合成対象画像選択範囲３８４よりも精度が低くなるおそれがある。そこで、タイマのカウント値が「０」となった位置に基づいて合成対象画像選択範囲を決定する場合には、例えば、時間Ｌ１９を時間Ｌ１６よりも長くして合成対象画像選択範囲を決定するようにしてもよい。

また、これらの各時間Ｌ１１乃至Ｌ１９については、ユーザ操作により変更可能とするようにしてもよい。

［合成画像の生成例］
次に、決定された合成対象画像選択範囲に含まれる各フレームを用いて、合成画像を生成する例について図面を参照して詳細に説明する。なお、本発明の第１の実施の形態では、静止画の合成画像を生成する場合を例にして説明する。

図８は、本発明の第１の実施の形態における選択部１７０による合成対象画像の選択処理およびレイヤ処理部１８０による合成画像の生成処理の流れの一例を模式的に示す図である。

図８（ａ）には、撮像部１１１により生成された動画４００と、この動画４００について合成対象画像選択範囲決定部１７１により決定された合成対象画像選択範囲４０１とを模式的に示す。なお、動画４００は、図３（ｂ）等に示す例と同様に、撮像装置１００により人物のゴルフスイングの練習の様子が撮像された動画であるものとする。また、合成対象画像選択範囲４０１は、図５（ｂ）および（ｃ）、図７（ｂ）および（ｃ）に示す例と同様に、合成対象画像選択範囲決定部１７１により決定された合成対象画像選択範囲であるものとする。

図８（ｂ）には、動画４００における合成対象画像選択範囲４０１に含まれる各フレームを模式的に示す。図８（ｂ）では、合成対象画像選択範囲４０１に含まれる各フレームを矩形で示し、この矩形内に各フレームを表すＦ１乃至Ｆ９０を付す。

合成対象画像選択部１７２は、合成対象画像選択範囲４０１に含まれる各フレームから、所定条件に基づいて合成対象画像を選択する。例えば、合成対象画像選択部１７２は、フレームＦ１乃至Ｆ９０のうち、一定間隔（例えば、１０フレーム間隔）毎のフレームを合成対象画像として選択する。この場合に、例えば、インパクト音検出位置を中心として一定範囲（例えば、０．０５秒）内に含まれるフレームについては、他の範囲よりもその間隔を密にして選択するようにしてもよい。これにより、見どころとなる動作遷移を中心に選択された画像を用いて合成画像を生成することができる。このように選択された合成対象画像を図８（ｃ）に示す。なお、この例では、簡略化のため、比較的少ないフレーム数を例にして示す。

図８（ｃ）には、合成対象画像選択範囲４０１に含まれる各フレームから、合成対象画像として選択された複数の合成対象画像（フレームＦ０、Ｆ１０等）を模式的に示す。図８（ｃ）では、合成対象画像を矩形で示し、この矩形内に各合成対象画像を表すＦ０、Ｆ１０等を付す。なお、この例では、簡略化のため、比較的少ないフレーム数（例えば、１０つのフレーム）を選択する例を示す。

図８（ｄ）には、合成対象画像（複数のフレームＦ０、Ｆ１０等）により生成される合成画像４０２を模式的に示す。図８（ｄ）では、図８（ｃ）と同様に、合成対象画像を矩形で示し、この矩形内に各合成対象画像を表すＦ１、Ｆ１０等を付す。

レイヤ処理部１８０は、合成対象画像選択部１７２により選択された合成対象画像（フレームＦ０、Ｆ１０等）を加工処理して合成することにより、合成画像を生成する。例えば、レイヤ処理部１８０は、合成対象画像選択範囲決定部１７１により選択された１０つの合成対象画像について、合成のための加工処理（例えば、両端部の切り取り）を施して、この加工後の合成対象画像を時系列で合成する。例えば、上部の左端部から時系列で５つの合成対象画像（Ｆ０、Ｆ１０、Ｆ２０、Ｆ３０、Ｆ４０）を並べるように合成させ、さらに、下部の左端部から時系列で５つの合成対象画像（Ｆ５０、Ｆ６０、Ｆ７０、Ｆ８０、Ｆ９０）を並べるように合成させる。なお、合成対象画像の合成位置については、座標計算部１７３による計算結果に基づいて決定される。これにより、例えば、図４（ｂ）に示すように、ゴルフスイングの練習を行う人物の動作の遷移を表す合成画像が生成される。

なお、図８に示す例では、簡易的に画像合成を行う例（合成対象画像の両端部の切取処理を行った後に画像合成を行う例）について説明した。以下では、合成対象画像を注目被写体レイヤと背景レイヤとに分類して合成画像を生成する例を示す。

［合成対象画像のレイヤ分離例］
図９は、本発明の第１の実施の形態におけるレイヤ分離部１８１による合成対象画像の分離方法を模式的に示す図である。この例では、合成対象画像選択部１７２により選択された合成対象画像について、被写体情報生成部１２０により生成された被写体情報に基づいて、２つのレイヤに分離する例を示す。

図９（ａ）には、合成対象画像４１０と、合成対象画像４１０について生成された被写体情報４１２とを示す。なお、合成対象画像４１０は人物４１１が含まれる画像である。また、被写体情報生成部１２０により生成された被写体情報として、例えば、注目被写体領域に対応する画素には「１」が付与され、注目被写体以外の領域（例えば、背景領域）に対応する画素には「０」が付与される情報が生成される。なお、図９（ａ）では、人物４１１に対応する領域（注目被写体領域）を白塗り領域４１３とし、人物４１１以外の領域（背景領域）を黒塗り領域として、被写体情報４１２を模式的に示す。

上述したように、撮像画像保持部１１５には、撮像部１１１により生成された撮像画像が順次保持されるとともに、この撮像画像に関連付けて被写体情報生成部１２０により生成された被写体情報が保持される。また、合成対象画像選択部１７２は、選択された合成対象画像と、この合成対象画像について生成された被写体情報とをレイヤ分離部１８１に出力する。そして、レイヤ分離部１８１は、対応する被写体情報を用いて、合成対象画像選択部１７２から出力された合成対象画像を２つのレイヤに分離する。

図９（ｂ）には、レイヤ分離部１８１により分離された注目被写体レイヤ４２０と、背景レイヤ４２２とを示す。注目被写体レイヤ４２０は、図９（ａ）に示す合成対象画像４１０における注目被写体領域（すなわち、被写体情報４１２として「１」が付与された画素領域）が抜き出された画像である。すなわち、合成対象画像４１０に含まれる人物４１１に対応する領域４２１が抜き出される。また、背景レイヤ４２２は、図９（ａ）に示す合成対象画像４１０における背景部分（すなわち、被写体情報４１２として「０」が付与された画素領域）が抜き出された画像である。すなわち、合成対象画像４１０に含まれる人物４１１以外の領域（背景領域）に対応する領域（領域４２３以外の領域）が抜き出される。

このように分離された各レイヤ画像について、レイヤ加工部１８２により各種の加工処理が行われる。この加工例については、図１０を参照して詳細に説明する。

［合成対象画像の加工例］
図１０は、本発明の第１の実施の形態におけるレイヤ加工部１８２による加工処理の対象となる画像と、レイヤ加工部１８２により加工処理がされた画像とを簡略化して示す図である。この例では、ゴルフのように、立った状態で行うスポーツについて合成画像を生成する場合を例にして説明する。また、図１０では、説明の容易のため、レイヤ分離される前の状態の合成対象画像を用いて加工処理を行う場合の一例を示す。

図１０（ａ）には、レイヤ加工部１８２により加工処理される前の合成対象画像４３０を示す。また、図１０（ｂ）および（ｃ）には、レイヤ加工部１８２により加工処理された後の合成対象画像４３２および４３３を示す。なお、合成対象画像４３０、４３２、４３３には、ゴルフスイングを行う人物４３１が含まれているものとする。

図１０（ａ）に示す合成対象画像４３０は、例えば、幅Ｗ１および高さＨ１の画像サイズであるものとする。例えば、合成対象画像４３０の画像サイズをＶＧＡサイズ（６４０画素×４８０画素）とすることができる。すなわち、Ｗ１＝６４０、Ｈ１＝４８０とすることができる。

図１０（ｂ）に示す合成対象画像４３２は、図１０（ａ）に示す合成対象画像４３０における推移動作有効領域に対応する画像であり、例えば、幅Ｗ２および高さＨ２の画像サイズであるものとする。この推移動作有効領域は、加工前の合成対象画像に含まれる被写体のうち、注目被写体を切り出すための領域である。例えば、合成対象画像４３２の画像サイズを３２０画素×４８０画素とすることができる。すなわち、Ｗ２＝３２０、Ｈ２＝４８０とすることができる。

図１０（ｃ）に示す合成対象画像４３３は、図１０（ａ）に示す合成対象画像４３０における残存背景領域に対応する画像であり、例えば、幅Ｗ３および高さＨ３の画像サイズであるものとする。この残存背景領域は、合成処理において背景画像として用いる領域である。例えば、合成対象画像４３３の画像サイズを１６０画素×４８０画素とすることができる。すなわち、Ｗ３＝１６０、Ｈ３＝４８０とすることができる。

なお、推移動作有効領域と残存背景領域との中心位置は、合成対象画像の中心位置と一致するものとする。また、推移動作有効領域のサイズ（Ｗ２×Ｈ２）および残存背景領域のサイズ（Ｗ３×Ｈ３）は、注目被写体の推移方向に応じて、そのサイズ（幅および高さの少なくとも一方）が同一となる場合もある。注目被写体の推移方向は、例えば、動作推移画像として表現する際に画像が時間的に進行していく方向である。

例えば、ゴルフのように立った状態で行うスポーツの動作遷移について合成画像を生成する場合には、図４（ｂ）に示すように、各注目被写体画像を横方向に推移させる場合が多い。このため、図１０（ｂ）および（ｃ）に示すように、推移動作有効領域および残存背景領域の高さＨ２、Ｈ３を、合成対象画像の高さＨ１と同じ値とすることが好ましい場合が多い。一方、水平方向になった状態で行うスポーツの動作遷移について合成画像を生成する場合には、各注目被写体画像を縦方向に推移させる場合が想定される。この場合には、推移動作有効領域および残存背景領域の幅Ｗ２、Ｗ３を、合成対象画像の幅Ｗ１と同じ値とすることが好ましい場合が多い。例えば、柔道の寝技等が注目被写体となる場合には、その動作遷移が縦推移となる可能性が高い。

なお、図１０に示す例は一例であり、被写体の大きさやその動きに応じて、推移動作有効領域および残存背景領域の幅および高さについて、適切な設定を行い、合成処理に用いる画像として切り出すことが好ましい。

［画像合成例］
図１１は、本発明の第１の実施の形態におけるレイヤ合成部１８３による合成方法を模式的に示す図である。この例では、時系列で連続する２つの合成対象画像について合成処理を行う例を示す。

図１１（ａ）には、レイヤ分離部１８１により分離され、レイヤ加工部１８２により加工された合成対象画像（時系列で連続する２つの合成対象画像）を簡略化して示す。上述したように、レイヤ分離部１８１により合成対象画像が注目被写体レイヤおよび背景レイヤに分離される。また、レイヤ分離部１８１により分離された注目被写体レイヤおよび背景レイヤについて、レイヤ加工部１８２が加工処理を行う。このように、時系列で連続する２つの合成対象画像について分離および加工がされることにより、図１１（ａ）に示すように、４つのレイヤ（第１優先画像４４１乃至第４優先画像４４４）が生成される。

第１優先画像４４１は、時間軸において後の合成対象画像の注目被写体レイヤであり、第３優先画像４４３は、その合成対象画像の背景レイヤであるものとする。また、第２優先画像４４２は、時間軸において前の合成対象画像の注目被写体レイヤであり、第４優先画像４４４は、その合成対象画像の背景レイヤであるものとする。また、これらの画像を合成する場合には、優先順位の高い画像が上書きされるように合成される。

図１１（ｂ）には、各レイヤ画像の優先順位に基づいて生成された合成画像４５０を示す。すなわち、レイヤ合成部１８３が、優先順位に基づいて、４つのレイヤ（第１優先画像４４１乃至第４優先画像４４４）を合成することにより、合成画像４５０を生成する。合成画像４５０は、第３優先画像４４３および第４優先画像４４４により合成された背景領域に、第１優先画像４４１に含まれる人物画像４４５と、第２優先画像４４２に含まれる人物画像４４６とが上側に重なるように合成された画像である。この場合に、第３優先画像４４３が第４優先画像４４４よりも上側に重なるように合成される。また、第１優先画像に含まれる人物画像４４５が、第２優先画像４４２に含まれる人物画像４４６よりも上側に重なるように合成される。

なお、図１２に示すように、３以上の合成対象画像を順次合成させて合成画像を生成する場合には、時系列に沿って合成対象画像を順次合成することにより、合成画像を生成する。また、時系列で連続する２つの合成対象画像のうち、時間軸において前の合成対象画像については、その後の合成対象画像の合成処理時までの間、合成画像保持部１８５に保持させておく。

図１２は、本発明の第１の実施の形態におけるレイヤ合成部１８３による合成対象画像の合成方法を模式的に示す図である。この例では、図１２（ｂ）に示す合成画像４６０が生成されるまでの間における合成対象画像の合成例の一例を示す。

図１２（ａ）には、図１２（ｂ）に示す合成画像４６０が生成されるまでの間におけるある時点の合成状態を示す。例えば、図１２（ａ）に示す状態は、合成対象画像４６２（２つのレイヤ画像）について合成処理が行われた時点であるものとする。すなわち、図１２（ａ）では、合成対象画像４６２に対応する推移動作有効領域Ｅ１０と、直前の合成対象画像４６３とについて合成処理がされた合成画像４６１とを示す。この例では、直前に合成対象となった各レイヤ画像を合成画像保持部１８５に保持しておくものとする。

ここで、合成対象画像４６２における領域Ｅ１１については、直前の合成対象画像４６３と合成対象画像４６２との間で重複する領域がない。このため、合成対象画像４６２を合成画像４６１に合成する場合には、合成対象画像４６２における領域Ｅ１１については、合成対象画像４６２の推移動作有効領域の画素をそのまま新たな合成画像として、合成画像４６１に上書き合成する。

しかしながら、合成対象画像４６２における領域Ｅ１２については、直前の合成対象画像４６３の一部と重複している。そこで、合成対象画像４６２における領域Ｅ１２については、図１１で示したように、優先順位に従って各レイヤ画像を合成する。

すなわち、レイヤ合成部１８３は、領域Ｅ１２については、今回の合成対象となる合成対象画像４６２と、合成画像保持部１８５に保持されている直前の合成対象画像４６３との各レイヤ画像を用いて、優先順位に従って各レイヤ画像を合成する。この合成により、合成対象画像４６２および４６３から領域Ｅ１１＋Ｅ１２の合成画像が生成される。そして、レイヤ合成部１８３は、このように生成された領域Ｅ１１＋Ｅ１２の合成画像を、合成画像保持部１８５に保持されている合成画像（直前の合成対象画像４６３が合成された合成画像）に上書き合成する。すなわち、レイヤ合成部１８３は、このように合成により生成された領域Ｅ１１＋Ｅ１２の合成画像と、合成画像保持部１８５に保持されている合成画像に対応するＥ１とを貼り付ける処理を行う。

また、今回の合成対象となった合成対象画像４６２（２つのレイヤ画像）と、今回の合成処理により生成された合成画像とが、合成画像保持部１８５に保持され、次の合成処理に用いられる。このように生成された合成画像の一例を図１２（ｂ）に示す。

このように、合成処理の際に連続する画像間で重複する領域（例えば、領域Ｅ１２）については、優先順位に従って各レイヤ画像を合成することにより、注目被写体の一部を欠損させずに合成画像を生成することができる。このため、多数の合成対象画像を用いて合成画像を生成する場合でも、注目被写体の動作を適切に表現することができる動作推移画像を生成することができる。

このように、レイヤ合成部１８３により生成された合成画像４６０は、合成画像記憶部２００に記憶される。そして、例えば、ユーザ操作に応じて、表示部１９１に表示される。また、例えば、レイヤ合成部１８３により合成画像が生成される毎に、自動的に表示部１９１に表示させるようにしてもよい。図１３では、このように生成された合成画像の一例を示す。

［合成画像例］
図１３は、本発明の第１の実施の形態におけるレイヤ処理部１８０により生成された合成画像の一例を示す図である。図１３に示す合成画像４７０は、ゴルフの練習を行う人物の動作の遷移を表す合成画像である。合成画像４７０において、矢印４７１で示す領域は、インパクト音が発生した位置に対応する画像が含まれる領域である。

［撮像装置の動作例］
図１４は、本発明の第１の実施の形態における撮像装置１００による合成画像生成処理の処理手順の一例を示すフローチャートである。

最初に、合成画像記録モードの設定操作が行われたか否かが判断される（ステップＳ９０１）。例えば、合成画像記録モードの設定ボタン、またはタイマ設定ボタンの押下操作が行われたか否かが判断される。合成画像記録モードの設定操作が行われていない場合には（ステップＳ９０１）、合成画像記録モードの設定操作が行われるまで監視を継続する。合成画像記録モードの設定操作が行われた場合には（ステップＳ９０１）、撮像部１１１が撮像画像の生成処理を行い（ステップＳ９０２）、生成された撮像画像が撮像画像保持部１１５に保持される（ステップＳ９０３）。すなわち、バッファリング処理が行われる。

続いて、録画ボタンの押下操作が行われたか否かが判断され（ステップＳ９０４）、録画ボタンの押下操作が行われた場合には、音有効範囲設定部１６０が、その押下位置に基づいて音有効範囲を設定する（ステップＳ９０５）。例えば、図５（ａ）に示すように、録画ボタン押下位置３５１に基づいて音有効範囲３５２が設定される。一方、録画ボタンの押下操作が行われていない場合には（ステップＳ９０４）、タイマ設定部１５０により設定されたタイマのカウンタ値が０となったか否かが判断される（ステップＳ９０６）。タイマのカウンタ値が０となった場合には（ステップＳ９０６）、音有効範囲設定部１６０が、タイマのカウンタ値が０となった位置に基づいて音有効範囲を設定する（ステップＳ９０７）。例えば、図７（ａ）に示すように、タイマカウンタ「０」位置３８１に基づいて音有効範囲３８２が設定される。また、タイマのカウンタ値が０となっていない場合、または、タイマ設定部１５０によりタイマ設定がされていない場合には（ステップＳ９０６）、ステップＳ９０２に戻る。

続いて、バッファリング終了処理が行われ（ステップＳ９０８）、設定された音有効範囲内でインパクト音が検出されたか否かが判断される（ステップＳ９０９）。設定された音有効範囲内でインパクト音が検出された場合には（ステップＳ９０９）、合成対象画像選択範囲決定部１７１が、インパクト音が検出された位置に基づいて、合成対象画像選択範囲を決定する（ステップＳ９１０）。例えば、図５（ｃ）に示すように、インパクト音検出位置３５３に基づいて、合成対象画像選択範囲３５５が決定される。また、例えば、図７（ｃ）に示すように、インパクト音検出位置３８３に基づいて、合成対象画像選択範囲３８５が決定される。

また、設定された音有効範囲内でインパクト音が検出されていない場合には（ステップＳ９０９）、合成対象画像選択範囲決定部１７１が、その音有効範囲が設定された際に基準となった位置に基づいて、合成対象画像選択範囲を決定する（ステップＳ９１１）。すなわち、その音有効範囲が、録画ボタンの押下位置に基づいて設定された場合には、その押下位置に基づいて合成対象画像選択範囲が決定される。例えば、図５（ｃ）に示すように、録画ボタン押下位置３５１に基づいて、合成対象画像選択範囲３５５が決定される。一方、その音有効範囲が、タイマのカウンタ値が０となった位置に基づいて設定された場合には、その位置に基づいて合成対象画像選択範囲が決定される。例えば、図７（ｃ）に示すように、タイマカウンタ「０」位置３８１に基づいて、合成対象画像選択範囲３８５が決定される。

続いて、合成対象画像選択部１７２が、決定された合成対象画像選択範囲に含まれる各画像の中から、合成対象画像を選択する（ステップＳ９１２）。続いて、選択された合成対象画像を用いて、合成画像の生成処理が行われる（ステップＳ９１３）。

続いて、合成画像記録モードの解除操作が行われたか否かが判断され（ステップＳ９１４）、合成画像記録モードの解除操作が行われていない場合には、ステップＳ９０２に戻り、次の合成画像に関する画像合成処理を継続して行う。一方、合成画像記録モードの解除操作が行われた場合には（ステップＳ９１４）、合成画像生成処理の動作を終了する。

このように、本発明の第１の実施の形態では、検出対象となるインパクト音が存在し得る時間帯を音有効範囲として設定することにより、検出対象となるインパクト音以外の他の音の誤検出を低減させることができる。これにより、ゴルフスイング等のインパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。この場合に、インパクト音の発生位置の検出には、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。

また、上述したように、音有効範囲においてインパクト音が検出されたか否かに応じて、合成画像を生成するか否かを判断するようにしてもよい。この例を図１５に示す。

図１５は、本発明の第１の実施の形態における撮像装置１００による合成画像生成処理の処理手順の一例を示すフローチャートである。この例は、図１４に示す合成画像生成処理の処理手順の変形例であり、ステップＳ９１１を省略した例である。このため、図１４に示す処理手順と同一のものには、同一の符号を付して、共通する部分の説明を省略する。

ステップＳ９０５またはＳ９０７で設定された音有効範囲内でインパクト音が検出されたか否かが判断される（ステップＳ９０９）。そして、設定された音有効範囲内でインパクト音が検出されていない場合には（ステップＳ９０９）、ステップＳ９１４に進む。すなわち、音有効範囲内でインパクト音が検出されていない場合には、合成画像を生成せずに、次の録画ボタンの押下位置、または、タイマのカウンタ値が０となった位置を用いて、合成画像の生成処理を行う。すなわち、選択部１７０は、音有効範囲内でインパクト音が検出された場合にはその特定音を用いた合成画像をレイヤ処理部１８０に生成させ、音有効範囲内でインパクト音が検出されなかった場合には、合成画像を生成させないように制御する。

このように、音有効範囲内でインパクト音を検出することができなかった場合には、合成画像の生成を行わずに、次の撮影可能状態に戻すことにより、ユーザの撮影機会損失を低減することができる。また、正確なインパクト音を用いた合成画像の生成を行うことができるため、適切な合成画像を生成することができる。

このように合成画像を生成することにより、撮像装置の扱いに不慣れな初心者でもあっても適切な合成画像を容易に生成することができる。

なお、撮像部１１１により生成された撮像画像を画像コンテンツ（例えば、動画ファイルや連続静止画ファイル）として記録する場合に、フレームのメタデータとしてインパクト音検出位置を記録するようにしてもよい。これにより、例えば、画像コンテンツの一覧を表示する場合に、インパクト音検出位置に対応するフレームを代表サムネイルとして使用することができる。

＜２．第２の実施の形態＞
本発明の第１の実施の形態では、撮像装置および注目被写体（例えば、ゴルフスイングの練習を行う人）間の距離が比較的近い場合を例にして説明した。しかしながら、注目被写体からの距離が比較的遠い場所に撮像装置が設置され、この撮像装置のズーム機能により注目被写体の撮像を行う場合も想定される。このように撮像装置および注目被写体間の距離が比較的遠い場合には、その距離の長さに応じて、インパクト音が撮像装置に到達するまでの時間が長くなる。この場合には、インパクト音の発生時刻と、インパクト音が撮像装置に到達するまでの時刻との間で遅延が生じる。そこで、本発明の第２の実施の形態では、撮像装置および注目被写体間の距離が比較的遠い場合には、その距離の長さに応じて、インパクト音の時間軸における検出位置を補正する例を示す。

図１６は、本発明の第２の実施の形態における撮像装置５００および注目被写体間の距離と、インパクト音の発生位置および到達位置との関係を示す図である。図１６（ａ）には、撮像装置５００と、撮像装置５００により撮像対象となる人物５４０との位置関係を模式的に示す。ここで、撮像装置５００および人物５４０間の距離を距離ｄとする。なお、撮像装置５００および人物５４０の関係は距離ｄが異なる以外は、図３（ａ）に示す例と略同様であるため、ここでの説明を省略する。

図１６（ｂ）には、図１７に示す撮像部１１１により生成される動画を構成する各画像と、人物５４０による動作遷移との関係を模式的に示す。画像群５５０は、図１６（ａ）に示す状態における人物５４０による動作遷移を表す画像群であり、画像群５５０を構成する各画像を時間軸に沿って並べて示す。画像群５６０は、図１６（ａ）に示す状態で、撮像部１１１により生成される動画を構成する各画像を表す画像群であり、画像群５６０を構成する各画像を時間軸に沿って並べて示す。また、人物５４０のゴルフスイングによりインパクト音が発生した位置（時間軸における位置）をインパクト音発生位置５５５とする。

ここで、空気中の音の速さ（音速）は、約３４０ｍ／秒である。このため、撮像装置５００および人物５４０間の距離ｄが比較的遠い場合には、インパクト音が撮像装置５００に到達するまでの時間が長くなり、インパクト音の発生時刻と、インパクト音が撮像装置５００に入力されるまでの時刻との間で遅延が生じる。

例えば、図１６（ｂ）に示す画像群５５０を構成する画像のうち、画像５５１の位置が、インパクト音発生位置５５５であるものとする。この場合に、例えば、距離ｄが比較的近い場合（例えば、数ｍ）には、矢印５５２に示すように、インパクト音が発生した位置に対応する画像５５１と、このインパクト音が撮像装置５００に入力された際に生成された画像５６１とが略同一となる。これに対して、距離ｄが比較的遠い場合（例えば、３４０ｍ以上）には、矢印５５３に示すように、インパクト音が発生した位置に対応する画像５５１と、このインパクト音が撮像装置５００に入力された際に生成された画像５６２とが異なり、遅延が発生する。なお、距離ｄが比較的遠い場合でも、表示部１９１に表示される表示画面上では、距離ｄが比較的近い場合と略同一の画角に見えることが多い。このため、人間の手動操作により、インパクト音の遅延を補正することは困難であることが想定される。そこで、以下では、撮像装置および注目被写体間の距離に応じて発生するインパクト音の遅延を補正する例を示す。

［撮像装置の構成例］
図１７は、本発明の第２の実施の形態における撮像装置５００の機能構成例を示すブロック図である。撮像装置５００は、図１に示す撮像装置１００において、被写体距離算出部５１０を追加し、選択部１７０の代わりに、選択部５２０を設けたものである。なお、これら以外の点は、撮像装置１００と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。

被写体距離算出部５１０は、撮像部１１１により生成された撮像画像に含まれる被写体までの距離（被写体距離）を算出するものであり、算出された被写体距離を選択部５２０に出力する。例えば、被写体距離算出部５１０は、撮像部１１１により生成された撮像画像に含まれる人物の顔を検出し、この検出された顔と、撮像画像の生成時における撮像情報（例えば、各レンズの位置および合焦位置）とを用いて、注目被写体の被写体距離を算出する。なお、撮像画像に含まれる顔の検出方法として、例えば、顔の輝度分布情報が記録されているテンプレートとコンテンツ画像とのマッチングによる顔検出方法（例えば、特開２００４−１３３６３７参照。）を用いることができる。また、撮像画像に含まれる肌色の部分や人間の顔の特徴量に基づいた顔検出方法を用いることができる。これらの顔検出方法により、人物の顔の撮像画像における位置および大きさを求めることができる。

選択部５２０は、被写体距離算出部５１０から出力された被写体距離に基づいて、インパクト音の遅延時間を推定し、この遅延時間を考慮して合成対象画像を選択するものである。具体的には、選択部５２０の合成対象画像選択範囲決定部１７１（図２に示す）は、被写体距離算出部５１０から出力された被写体距離に基づいて、特定音検出部１３２により検出された特定音の検出位置（時間軸における位置）を補正する。そして、合成対象画像選択範囲決定部１７１は、その補正後の位置（補正位置）と、音有効範囲設定部１６０により設定された音有効範囲とに基づいて、合成対象画像選択範囲を決定する。なお、選択部５２０は、特許請求の範囲に記載の制御部の一例である。

［被写体距離の算出例］
次に、撮像装置５００および注目被写体間の距離を算出する距離算出方法について図面を参照して詳細に説明する。ここでは、一般的な人間の顔の大きさ（基準値）を用いて、撮像装置５００と顔との距離を推定する距離算出方法について説明する。

図１８は、本発明の第２の実施の形態における撮像部１１１により撮像対象となる撮像範囲および表示部１９１に表示される撮像画像を概略的に示す図である。図１８（ａ）は、ゴルフ場を背景にした人物５７１が撮像されている場合における撮像範囲５７０を概略的に示す図であり、図１８（ｂ）は、図１８（ａ）に示す撮像範囲５７０に対応する撮像画像５７５についての表示部１９１の表示例を示す図である。

例えば、図１８（ａ）に示すように、ゴルフ場を背景にして立っている人物５７１を被写体として撮像する場合において、撮像装置５００の位置やズームレンズの位置等に応じて撮像される範囲（撮像範囲５７０）が決定される。また、図１８（ｂ）に示すように、撮像範囲５７０に含まれる被写体からの入射光が撮像部１１１により撮像画像に変換され、この撮像画像（いわゆる、スルー画像）が表示部１９１に表示される。

ここで、図１８（ａ）に示す撮像範囲５７０において、撮像装置５００における左右方向の幅を、撮像範囲の幅Ｗａとし、撮像範囲５７０に含まれる人物５７１の顔５７２の左右方向の幅を、顔の幅Ｗｒｅｆとする。なお、顔の幅Ｗｒｅｆは、人物５７１の実際の顔の幅ではなく、一般的な人間の顔の大きさであるものとする。また、図１８（ｂ）に示す撮像画像５７５における左右方向の幅を、画像の幅Ｗｗとし、撮像画像５７５に含まれる人物５７６の顔５７７の左右方向の幅を、顔画像の幅Ｗｆとする。この場合において、撮像範囲の幅Ｗａと顔の幅Ｗｒｅｆとの比率は、一般的に、画像の幅Ｗｗと顔画像の幅Ｗｆとの比率と同じである。

図１９は、本発明の第２の実施の形態における撮像部１１１により撮像対象となる撮像範囲および表示部１９１に表示される撮像画像の位置関係を概略的に示す上面図である。図１９に示す例では、図１８（ａ）に示す人物５７１と、撮像装置５００が備える撮像素子１１２および表示部１９１との位置関係を概略的に示す。図１９に示すように、撮像装置５００から顔５７２までの距離を、被写体距離Ｄｆとし、撮像装置５００における焦点距離を、焦点距離ｆとし、撮像素子１１２の幅を撮像素子の幅Ｗｉとする。なお、撮像範囲の幅Ｗａと、顔の幅Ｗｒｅｆとは、図１８（ａ）に示すものと同一である。

図１９に示すように、撮像範囲５７０に含まれる被写体からの入射光が、撮像素子１１２に入射されると、撮像範囲５７０に含まれる被写体に対応する撮像画像が生成され、この生成された撮像画像５７５が表示部１９１に表示される。また、人物５７１の顔５７２からの入射光が撮像素子１１２に入射された場合における撮像素子１１２上の顔の幅は、撮像素子上の顔幅Ｗｂである。

ここで、平行線と比例の関係から、次の二式が成立する。
Ｄｆ／Ｗｒｅｆ＝ｆ／Ｗｂ …式１
Ｗｆ／Ｗｗ＝Ｗｂ／Ｗｉ …式２

ここで、式１を変形して、Ｄｆ＝ｆ×Ｗｒｅｆ／Ｗｂとし、式２を変形して、Ｗｂ＝Ｗｆ×Ｗｉ／Ｗｗとする。そして、式２を変形したＷｂ＝Ｗｆ×Ｗｉ／Ｗｗを、式１に代入することにより、次の式３が求められる。この式３は、レンズの基本的な物理法則に基づいて求められる式である。
Ｄｆ＝Ｗｒｅｆ×（ｆ／Ｗｉ）×（Ｗｗ／Ｗｆ） …式３

ここで、Ｗｉ（撮像素子の幅）およびＷｗ（画像の幅）は定数であり、Ｗｒｅｆには一般的な人間の顔の大きさを用いる。この場合には、Ｗｆ（顔画像の幅）を検出することにより、式３を用いて、Ｄｆ（顔までの推定距離）を求めることができる。

例えば、図１８（ａ）に示すように、撮像範囲５７０に一人の顔５７２が含まれている場合には、撮像範囲５７０に対応する撮像画像５７５から顔５７７が被写体距離算出部５１０により検出される。このように、顔が検出された場合には、被写体距離算出部５１０が、上記の式３に基づいて、その検出された顔の幅（顔画像の幅）を用いて被写体距離Ｄｆを計算する。

なお、本発明の第２の実施の形態では、一般的な人間の顔の大きさとして１つの基準値を用いて被写体距離を算出する例を示した。ただし、撮像対象となる人物は、その属性（例えば、年代、性別）に応じて顔の大きさが異なることが多い。例えば、子供の顔と大人の顔とを比較する場合には、それらの大きさが異なることが多く、また、女性の顔と男性の顔とを比較する場合には、それらの大きさが異なることが多い。そこで、人物の属性に応じた複数の基準値を被写体距離算出部５１０に保持させておき、撮像画像から検出された顔について被写体距離算出部５１０が属性を検出し、この属性に応じた基準値を用いて被写体距離算出部５１０が距離ｄを算出するようにしてもよい。この属性検出方法として、例えば、顔画像における２点間の輝度の差分値を用いた弱判別器により各属性を検出する検出方法を用いることができる（例えば、特開２００９−１１８００９号参照。）。

［遅延時間の補正例］
図２０は、本発明の第２の実施の形態における音有効範囲設定部１６０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図５（ａ）および（ｂ）の変形例であるため、共通する部分についてはその一部の説明を省略する。

図２０（ａ）には、撮像部１１１により生成された動画５８０を矩形により模式的に示す。また、録画ボタンが押下された位置が、図２０（ａ）に示す動画５８０の時間軸における録画ボタンの押下位置（録画ボタン押下位置５８１）であるものとする。この場合には、音有効範囲設定部１６０が、録画ボタン押下位置５８１に基づいて音有効範囲５８２を設定する。具体的には、音有効範囲設定部１６０が、録画ボタン押下位置５８１を基準として、時間軸において、録画ボタン押下位置５８１よりも時間Ｌ２１だけ前の範囲を音有効範囲５８２として設定する。ここで、時間Ｌ２１は、例えば、図５（ａ）に示すＬ１と同様に、１．０秒とすることができる。また、時間Ｌ２１を、Ｌ１よりも長く設定するようにしてもよく、被写体距離算出部５１０により算出された被写体距離の大きさに応じて時間Ｌ２１を変更するようにしてもよい。

図２０（ｂ）には、音有効範囲設定部１６０により設定された音有効範囲５８２においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図２０（ｂ）では、特定音検出部１３２によりインパクト音が検出された位置（時間軸における位置）をインパクト音検出位置５８３として示す。

ここで、本発明の第２の実施の形態では、音有効範囲５８２においてインパクト音が検出されたか否かを判断する前に、合成対象画像選択範囲決定部１７１が、被写体距離算出部５１０により推定された被写体距離ｄ（ｍ）に基づいて、音の遅延時間を推定する。具体的には、合成対象画像選択範囲決定部１７１が、被写体距離算出部５１０により推定された被写体距離ｄ（ｍ）に基づいて、音の遅延時間を推定する。上述したように、音速は３４０（ｍ／ｓ）であるため、インパクト音が撮像装置５００に到達するまでの時間ｘ（ｓｅｃ）は、次の式４を用いて算出することができる。
ｘ＝ｄ／３４０ …式４

この式４を用いて算出された時間ｘだけ、合成対象画像選択範囲決定部１７１が、時間軸におけるインパクト音検出位置５８３の位置を移動させる。この移動後の位置を補正位置５８４とする。

続いて、合成対象画像選択範囲決定部１７１が、音有効範囲設定部１６０により設定された音有効範囲５８２内に補正位置５８４が含まれるか否かを判断する。そして、図２０（ｂ）に示すように、音有効範囲設定部１６０により設定された音有効範囲５８２内に補正位置５８４が含まれる場合には、合成対象画像選択範囲決定部１７１が、その補正位置５８４に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、補正位置５８４を基準にして、時間軸において、補正位置５８４の前後の一定範囲を合成対象画像選択範囲５８５として決定する。具体的には、合成対象画像選択範囲決定部１７１が、時間軸において、補正位置５８４よりも時間Ｌ２２だけ前の範囲と、補正位置５８４よりも時間Ｌ２３だけ後の範囲とにより構成される範囲Ｌ２４を合成対象画像選択範囲５８５として決定する。

ここで、時間Ｌ２２乃至２４は、例えば、図５（ｂ）に示すＬ２乃至４と同様の値とすることができる。また、時間Ｌ２４を、Ｌ４よりも長く設定するようにしてもよく、被写体距離算出部５１０により算出された被写体距離の大きさに応じて時間Ｌ２４を変更するようにしてもよい。

また、例えば、撮像装置５００および人物５４０間の距離が比較的離れている場合には、リモコン操作によりタイマ設定を行うことができる。そこで、タイマ設定部１５０により設定されたタイマのカウント値に基づいて音有効範囲を設定し、この音有効範囲を用いて合成対象画像選択範囲を決定する場合についても同様に、音の遅延時間を推定し、この遅延時間に基づいて補正を行うようにしてもよい。

このように、撮像装置５００および人物５４０間の距離が比較的離れている場合でも、インパクト音の検出位置を補正して、補正後の位置に基づいて合成対象画像選択範囲を決定することにより、適切な合成対象画像選択範囲を決定することができる。

ここで、音有効範囲設定部１６０により設定された音有効範囲５８２内に補正位置が存在しないことも想定される。この場合には、図５（ｃ）に示す例と同様に、そのインパクト音を用いないことにする。また、このようにインパクト音を用いない場合には、図５（ｃ）に示すように、録画ボタンの押下位置に基づいて合成対象画像選択範囲を決定することができる。

なお、図１８および図１９に示す例では、人物の顔のサイズを用いて被写体距離を算出する例を示したが、図２１に示すように顔以外のサイズを用いて被写体距離を算出するようにしてもよい。

［被写体距離の算出例］
図２１は、本発明の第２の実施における表示部１９１における表示例を示す図である。図２１に示す表示画面５９０には、ゴルフスイングを行う人物５９１を適切な位置に配置するための操作支援画像５９２および５９３が、撮像画像に重ねて表示される。この例は、図１８および図１９に示す被写体距離の算出方法の変形例であり、表示画面５９０における被写体が占める領域の大きさ（垂直方向の長さ）に基づいて、被写体距離を算出する例である。

操作支援画像５９２および５９３は、表示画面５９０において、ゴルフスイングを行う人物５９１を配置すべき推奨領域を表す画像である。操作支援画像５９２は、表示画面５９０において黒枠で表示される画像であり、ゴルフスイングを行う人物５９１の左右方向の奨励領域を表す画像である。また、操作支援画像５９３は、表示画面５９０において点線の黒線で表示される画像であり、ゴルフスイングを行う人物５９１の上下方向の奨励領域を表す画像である。ここで、操作支援画像５９３により特定される上下方向の奨励領域として、表示画面５９０における垂直方向の長さの一定割合（例えば、７０％）の値Ｈ１１とすることができる。

例えば、撮像装置５００を用いて、合成画像記録モードを設定して撮影を行う場合には、撮影者が、表示画面５９０に含まれる操作支援画像５９２および５９３を確認して、注目被写体の人物が操作支援画像５９２および５９３内に含まれるように調整する。また、ズーム操作等を行った場合についても同様に、注目被写体の人物が操作支援画像５９２および５９３内に含まれるように調整する。

このようにすることにより、上述した顔に関する基準値と、撮像画像に含まれる顔の大きさとに基づいて、被写体距離を算出する被写体距離算出方法を適用することにより、被写体距離を算出することができる。すなわち、図２１に示す例では、撮像画像に含まれる人物の大きさを一定値Ｈ１１とすることができるため、ゴルフを行う人物の一般的な身長に関する基準値（例えば、１７０ｃｍ）と、一定値Ｈ１１とに基づいて、被写体距離を算出することができる。

なお、図１８、図１９および図２１に示す例では、人物の各部のサイズを用いて被写体距離を算出する例を示したが、他の被写体距離算出方法を用いるようにしてもよい。例えば、撮像画像に関する奥行マップを生成し、この奥行マップを用いて被写体距離を算出するようにしてもよい。また、撮像装置５００に測距センサを設け、測距センサにより求められた被写体距離を用いるようにしてもよい。また、フォーカス位置情報を用いて、被写体距離を算出するようにしてもよい。

また、撮影状況に応じて、フォーカス位置情報を用いる被写体距離算出方法と、ズーム位置情報を用いる被写体距離算出方法との何れを使用するかを選択するようにしてもよい。例えば、ワイド（Ｗｉｄｅ）端寄りのズーム位置でフォーカスが合っている場合には、フォーカス位置情報の方がズーム位置情報よりも精度が高い可能性がある。このため、ワイド（Ｗｉｄｅ）端寄りのズーム位置でフォーカスが合っている場合には、フォーカス位置情報を用いる被写体距離算出方法を選択することができる。また、何れかの方法で被写体距離の推定を行い、その推定結果を参照して、その推定結果を使用するか、他方の方法により再度推定を行うかを判断するようにしてもよい。

［撮像装置の動作例］
図２２は、本発明の第２の実施の形態における撮像装置５００による合成画像生成処理の処理手順の一例を示すフローチャートである。この例は、図１４に示す合成画像生成処理の処理手順の変形例であり、ステップＳ９２１を追加し、ステップＳ９１０の代わりに、ステップＳ９２２およびＳ９２３の処理手順を行う例である。このため、図１４に示す処理手順と同一のものには、同一の符号を付して、共通する部分の説明を省略する。

バッファリング終了処理が行われた後に（ステップＳ９０８）、被写体距離算出部５１０が、被写体距離を算出する（ステップＳ９２１）。

また、設定された音有効範囲内でインパクト音が検出された場合には（ステップＳ９０９）、合成対象画像選択範囲決定部１７１が、算出された被写体距離に基づいて、インパクト音検出位置を補正する（ステップＳ９２２）。具体的には、合成対象画像選択範囲決定部１７１が、被写体距離に基づいて遅延時間を算出し、この算出された遅延時間だけ、カウンタ部１７４から供給されたカウンタ値を減算して補正値を求める。そして、合成対象画像選択範囲決定部１７１が、その補正値に基づいて、インパクト音検出位置の補正後の位置を特定する。例えば、図２０（ｂ）に示すように、インパクト音検出位置５８３を補正値ｘだけ移動させて補正位置５８４を求める。

続いて、合成対象画像選択範囲決定部１７１が、補正後の位置（補正位置）に基づいて、合成対象画像選択範囲を決定する（ステップＳ９２３）。例えば、図２０（ｂ）に示すように、補正位置５８４に基づいて、合成対象画像選択範囲５８５が決定される。

このように、本発明の第２の実施の形態によれば、ズーム操作による撮像装置５００および注目被写体間の距離の変化に依存せず、インパクト音の発生位置を高い精度で検出することができる。これにより、ズーム操作による撮像装置５００および注目被写体間の距離の変化に依存せず、高い視認性を有する合成画像を生成することができる。また、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。

また、例えば、撮像部１１１により生成された撮像画像を画像コンテンツとして記録する場合において、この画像コンテンツに関連付けてメタデータを記録する場合には、補正後のインパクト音検出位置を記録することができる。これにより、その画像ファイルを再生する場合に、その補正後のインパクト音検出位置を用いることができるため、正確なインパクト音の発生位置を把握することができる。また、例えば、画像コンテンツの一覧を表示する場合には、補正後のインパクト音検出位置に対応するフレームを代表サムネイルとして使用することができる。

＜３．第３の実施の形態＞
本発明の第１および第２の実施の形態では、主にゴルフスイングを行う人物についてその動作遷移を合成画像として生成する例を示した。ここで、例えば、ゴルフ以外のスポーツについても、ボールを打つ競技や物体同士が激突する競技等では、ボールを打つ瞬間や物体同士が激突する瞬間に特徴的な音が発生する。また、例えば、花火等においても、その綺麗な瞬間に爆発音が発生する。これらの特定音を用いて合成対象画像選択範囲を決定することにより、適切な合成画像を生成することができると考えられる。そこで、本発明の第３の実施の形態では、これらの合成画像をユーザの好みに応じて容易に生成する例を示す。

［撮像装置の構成例］
図２３は、本発明の第３の実施の形態における撮像装置６００の機能構成例を示すブロック図である。撮像装置６００は、図１７に示す撮像装置５００において、注目被写体情報記憶部６１０を追加し、他の一部を変形したものである。すなわち、撮像装置５００において、特定音検出部１３２、音有効範囲設定部１６０および選択部５２０の代わりに、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０を設けたものである。なお、これら以外の点は、撮像装置５００と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。

ここで、本発明の実施の形態における合成対象画像の選択処理に適する特定動作（例えば、スポーツ等）の条件（例えば、第１条件および第２条件）の一例について説明する。第１条件は、動作全体を通して注目被写体の胴体部分は基本的に同じ位置に存在することである。また、第２条件は、一連の動作の中にインパクト音を伴う速い動きがあることである。これらの条件を満たすゴルフ以外のスポーツの例として、野球のバッティング、テニスのサーブ、瓦割り等が考えられる。また、花火等のようにスポーツ以外の対象物も考えられる。そこで、本発明の第３の実施の形態では、これらを注目被写体とする例を示す。

注目被写体情報記憶部６１０は、複数種類の注目被写体による特定動作について、特定音や音有効範囲に関する情報を記憶するものであり、記憶されている各情報を特定音検出部６２０、音有効範囲設定部６３０および選択部６４０に供給する。なお、注目被写体情報記憶部６１０の記憶内容については、図２４を参照して詳細に説明する。

特定音検出部６２０は、音声入力部１３１から出力された音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を選択部６４０に出力する。また、特定音検出部６２０は、テニス（サーブ）および瓦割りに関する一定値以上の音を検出する。ここで、本発明の第３の実施の形態では、ゴルフスイングに関するインパクト音以外に、図２４のインパクト音６１１に示す各インパクト音を特定音とする例を示す。例えば、野球（バッティング）およびテニス（サーブ）については、その動作中に、バットまたはラケットがボールに当たった瞬間に発生する音をインパクト音とする。また、例えば、瓦割りについては、その動作中に、対象者の手が瓦に当たった瞬間に発生する音をインパクト音とする。また、花火については、上空で爆破した瞬間に発生する音をインパクト音とする。これらの音検出方法として、本発明の第１の実施の形態で示した特定音検出方法を適用することができる。

また、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０は、複数種類の注目被写体による特定動作のうち、ユーザ操作により指定された特定動作に関する注目被写体情報を注目被写体情報記憶部６１０から取得する。そして、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０は、取得された注目被写体情報を用いて各処理を行う。なお、これらの各処理については、インパクト音や音有効範囲の値等が異なる以外は、本発明の第１および第２の実施の形態で示した例と略同様であるため、ここでの説明を省略する。また、選択部６４０は、特許請求の範囲に記載の制御部の一例である。

［注目被写体情報記憶部の記憶例］
図２４は、本発明の第３の実施の形態における注目被写体情報記憶部６１０の記憶内容の一例を示す図である。注目被写体情報記憶部６１０には、インパクト音６１１と、高速動作範囲６１２と、音有効範囲６１３と、合成対象画像選択範囲６１４とが記憶されている。

インパクト音６１１には、特定音検出部６２０により特定音（インパクト音）を検出するための特定音識別情報（基準データ）が格納される。なお、図２４に示すインパクト音６１１には、対応する特定音を表す文字のみを示す。

高速動作範囲６１２には、合成対象画像選択範囲において、他の間隔よりも密にして合成対象画像を選択する範囲が格納される。例えば、注目被写体による特定動作が野球（バッティング）である場合には、野球のバットがボールに当たる付近の動作の遷移を細かく確認したい場合が多いと想定される。このため、合成対象画像選択範囲において、その付近の画像の間隔を、他の間隔よりも密にして合成対象画像を選択する高速動作範囲が設定される。これらの高速動作範囲は、例えば、インパクト音を中心とする一定範囲が設定される。

音有効範囲６１３は、音有効範囲設定部６３０による設定対象となる音有効範囲が格納される。本発明の第３の実施の形態では、録画ボタンの押下操作を撮影トリガとする例を示す。ここで、ゴルフおよび野球（バッティング）については、本発明の第１および第２の実施の形態で示した例と同様に、対象となる動作の終了後に撮影トリガを発生させるものとする。また、花火については、上空で爆破した瞬間に撮影トリガを発生させるものとする。そして、ゴルフ、野球（バッティング）および花火については、本発明の第１および第２の実施の形態で示した例と同様に、撮影トリガの前の一定範囲を音有効範囲として設定することができる。

また、テニス（サーブ）については、プレイヤーが一定時間上を向いた瞬間に撮影トリガを発生させるものとする。また、瓦割りについては、瓦割りをする人物の顔が気合を入れた瞬間に撮影トリガを発生させるものとする。そして、テニス（サーブ）および瓦割りについては、撮影トリガから、一定値以上の音が初めて検出される前までの一定範囲を音有効範囲として設定することができる。このように、テニス（サーブ）および瓦割りについては、その音有効範囲の後端を、一定値以上の音の検出時としているが、一定時間その音の検出がない場合には、音検出を無効とし、新たな音有効範囲を設定するようにしてもよい。この新たな音有効範囲については、再度の撮影トリガを発生させるようにする。これにより、インパクト音の誤検出を低減させることができる。なお、テニス（サーブ）および瓦割りに関する一定値以上の音は、特定音検出部６２０により検出される。

合成対象画像選択範囲６１４には、合成対象画像選択範囲決定部１７１により決定される合成対象画像選択範囲が格納される。本発明の第３の実施の形態では、音有効範囲内において検出されたインパクト音を基準とする一定範囲を合成対象画像選択範囲とする例を示す。

［注目被写体の指定画面の表示例］
図２５は、本発明の第３の実施の形態における表示部１９１の表示例（表示画面６６０）を示す図である。表示画面６６０には、ゴルフ（スイング）ボタン６６１と、野球（バッティング）ボタン６６２と、テニス（サーブ）ボタン６６３と、瓦割りボタン６６４と、花火ボタン６６５とが設けられている。また、表示画面６６０には、戻るボタン６６６と、決定ボタン６６７とが設けられている。

ゴルフ（スイング）ボタン６６１、野球（バッティング）ボタン６６２、テニス（サーブ）ボタン６６３、瓦割りボタン６６４および花火ボタン６６５は、動作遷移に関する合成画像を生成する際に、その対象となる種類を指定する場合に押下されるボタンである。例えば、表示部１９１がタッチパネルにより構成されている場合には、所望のボタンの押下操作により指定することができる。

決定ボタン６６７は、合成画像の対象となる種類を指定する押下操作がされた後に、その指定を決定する際に押下されるボタンである。この押下により、合成対象画像記録モードが設定される。

戻るボタン６６６は、例えば、直前に表示されていた表示画面に戻る場合に押下されるボタンである。

例えば、表示画面６６０において、所望のボタン（例えば、テニス（サーブ）ボタン６６３）が押下され、決定ボタン６６７が押下された場合には、その旨の操作信号が操作受付部１４０から各部に出力される。そして、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０は、指定された種類の注目被写体情報（例えば、テニス（サーブ）に関する注目被写体情報）を注目被写体情報記憶部６１０から取得する。そして、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０は、取得された注目被写体情報を用いて各処理を行う。

［合成画像例］
図２６は、本発明の第３の実施の形態におけるレイヤ処理部１８０により生成される合成画像例を示す図である。

図２６（ａ）には、野球のバッティングを行う人物を撮像した場合における合成画像６７１を示す。すなわち、合成画像６７１は、図２５に示す野球（バッティング）ボタン６６２が押下され、決定ボタン６６７が押下された後に、撮像動作が開始された動画を用いて生成された合成画像である。

図２６（ｂ）には、テニスのサーブを行う人物を撮像した場合における合成画像６７２を示す。すなわち、合成画像６７２は、図２５に示すテニス（サーブ）ボタン６６３が押下され、決定ボタン６６７が押下された後に、撮像動作が開始された動画を用いて生成された合成画像である。

このように、ゴルフスイング以外の他の特定動作についても、検出対象となるインパクト音が存在し得る時間帯を音有効範囲として設定することにより、検出対象となるインパクト音以外の他の音の誤検出を低減させることができる。これにより、インパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。この場合に、インパクト音の発生位置の検出には、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。このように合成画像を生成することにより、撮像装置の扱いに不慣れな初心者でもあっても、ユーザの好みに応じた種類の合成画像を容易に生成することができる。

＜４．第４の実施の形態＞
本発明の第１乃至第３の実施の形態では、撮像装置により撮像動作を行い、この撮像動作の際に発生するインパクト音を用いて合成画像を生成する例を示した。ここで、撮像装置により記録されたコンテンツ（例えば、動画コンテンツ）について合成画像を生成する場合に、そのコンテンツに含まれるインパクト音を用いて合成画像を生成することができると考えられる。また、例えば、ゴルフの試合では、ゴルフスイング後の観客の大歓声等のように、インパクト音以外に特徴的な音が発生することが想定される。このため、録画ボタンの押下操作やタイマ設定の代わりに、その特徴的な音をトリガとして用いて音有効範囲を設定することができると考えられる。そこで、本発明の第４の実施の形態では、録画ボタンの押下操作やタイマ設定の代わりに、特徴的な音等を用いて音有効範囲を設定し、撮像装置により記録された動画コンテンツについて合成画像を生成する例を示す。

［画像処理装置の構成例］
図２７は、本発明の第４の実施の形態における画像処理装置７００の機能構成例を示すブロック図である。画像処理装置７００は、図２３に示す撮像装置６００において、音声入力部１３１およびタイマ設定部１５０を省略し、他の一部を変形したものである。すなわち、撮像装置６００において、注目被写体情報記憶部６１０、撮像部１１１および被写体情報生成部１２０の代わりに、注目被写体情報記憶部７１０、入力部７２０および被写体情報生成部７３０を設けたものである。また、撮像装置６００において、特定音検出部６２０、音有効範囲設定部６３０および選択部６４０の代わりに、特定音検出部７４０、音有効範囲設定部７５０および選択部７６０を設けたものである。なお、これら以外の点は、撮像装置６００と略同様であるため、共通する部分については、同一の符号を付して、これらの一部の説明を省略する。

注目被写体情報記憶部７１０は、複数種類の注目被写体による特定動作について、特定音や音有効範囲に関する情報を記憶するものであり、記憶されている各情報を特定音検出部７４０、音有効範囲設定部７５０および選択部７６０に供給する。なお、注目被写体情報記憶部７１０の記憶内容については、図２８を参照して詳細に説明する。

入力部７２０は、デジタルビデオカメラ等の撮像装置により記録された画像コンテンツ（例えば、動画ファイル）を入力する入力部である。この画像コンテンツは、例えば、動画や連続静止画の撮像動作時において、各フレームに関するメタデータ（例えば、音情報、ズーム情報やフォーカス位置情報）が各フレームに関連付けて記録されたコンテンツであるものとする。入力部７２０は、入力された画像コンテンツを構成する各画像（フレーム）を所定間隔で撮像画像保持部１１５、表示制御部１９０および特定音検出部７４０に供給する。また、入力部７２０は、入力された画像コンテンツを構成する各画像と、この画像に関する属性情報（例えば、レンズの位置および合焦位置）とを被写体距離算出部５１０および被写体情報生成部７３０に出力する。

被写体情報生成部７３０は、入力部７２０から供給された各画像と、この画像に関する属性情報とに基づいて、各画像に関する被写体情報を生成するものである。そして、被写体情報生成部７３０は、生成された被写体情報を撮像画像保持部１１５に供給して保持させるとともに、音有効範囲設定部７５０および選択部７６０に供給する。この被写体情報として、例えば、注目被写体の領域とその背景領域とを判別するための情報以外に、各画像間の時間軸における一定の変化を検出するための情報が生成される。例えば、画像に含まれる顔が検出され、この顔の表情や向き等に関する属性情報が生成される。例えば、喜怒哀楽の表情や力んだ表情、顔の向き、口の開閉、目の開閉（例えば、ウィンク）等の属性を検出し、この検出結果に基づいて属性情報を生成することができる。この属性検出方法として、例えば、検出対象となる属性に関する顔画像から抽出された特徴量に基づいた識別方法を用いることができる。すなわち、検出対象となる属性に関する顔画像から抽出された特徴量を識別辞書として予め記憶しておく。そして、検出された顔を含む顔画像から特徴量が抽出され、この抽出された特徴量と、識別辞書に含まれる特徴量とが比較されることにより、これらの特徴量の類似度が算出される。そして、この算出された類似度が閾値を超えた場合に、検出された顔が、その閾値を超えた類似度の算出対象となった識別辞書に対応する属性であると判定される。また、例えば、上述した属性検出方法を用いるようにしてもよい（例えば、特開２００９−１１８００９号参照。）。

このように生成された属性情報に基づいて、音有効範囲設定部７５０は、各画像間の時間軸における一定の変化を検出する。この一定の変化として、例えば、顔の変化を検出することができる。例えば、喜怒哀楽の際や力んだ際における表情の変化、顔の向きが下から正面となる場合等の顔の向きの変化、口を開けたり閉じたりする際の変化、ウィンクする際の目の変化を、顔の変化として検出することができる。また、画面内に人物の顔が入ってくる場合や画面外に人物の顔が出て行く場合を、各画像間の時間軸における一定の変化として検出するようにしてもよい。また、各画像間の時間軸における一定の変化を検出するための情報として、画像全体の明るさを示す明るさ情報や画像における輝度値の分布状態を示す輝度値分布情報を生成するようにしてもよい。そして、これらの一定の変化を、各画像間の時間軸における一定の変化として検出するようにしてもよい。

特定音検出部７４０は、入力部７２０から供給された画像コンテンツに含まれる音声に基づいて、特定音を検出するものであり、特定音が検出された場合にはその旨を音有効範囲設定部７５０および選択部７６０に出力する。なお、特定音検出部７４０による検出対象となるインパクト音については、本発明の第３の実施の形態と同様である。また、本発明の第４の実施の形態では、各画像間の時間軸における一定の変化を検出する際に、特定音検出部７４０により検出された特定音が用いられる。例えば、ゴルフや野球の試合が行われている場合における観客の大歓声（沸き起こる大歓声）や、瓦割りをする際における気合を入れた瞬間の大声を特定音として検出する。また、例えば、笛等による何らかの合図、水に飛び込んだときの音（例えば、注目被写体が水に関する場合）等を特定音として検出するようにしてもよい。そして、音有効範囲設定部７５０は、これらの特定音の変化を、各画像間の時間軸における一定の変化として検出する。例えば、音がほとんどしない状態から大歓声が検出された際や、大きな音が検出されていた状態から、音がほとんどしない状態となった際を、各画像間の時間軸における一定の変化として検出することができる。これらの特定音検出方法として、本発明の第１の実施の形態で示した特定音検出方法を適用することができる。すなわち、音有効範囲設定部７５０は、各画像から抽出された特徴量と、各画像に関連付けられている音声に基づいて抽出された特徴量との少なくとも１つを用いて、一定の変化を検出することができる。なお、音有効範囲設定部７５０は、特許請求の範囲に記載の一定変化検出部の一例である。

特定音検出部７４０、音有効範囲設定部７５０および選択部７６０は、複数種類の注目被写体による特定動作のうち、ユーザ操作により指定された特定動作に関する注目被写体情報を注目被写体情報記憶部７１０から取得する。そして、特定音検出部７４０、音有効範囲設定部７５０および選択部７６０は、取得された注目被写体情報を用いて各処理を行う。なお、これらの各処理については、インパクト音を設定する際のトリガ、インパクト音、音有効範囲の値等が異なる以外は、本発明の第１乃至第３の実施の形態で示した例と略同様であるため、ここでの説明を省略する。また、選択部７６０は、特許請求の範囲に記載の制御部の一例である。

［注目被写体情報記憶部の記憶例］
図２８は、本発明の第４の実施の形態における注目被写体情報記憶部７１０の記憶内容の一例を示す図である。注目被写体情報記憶部７１０には、インパクト音７１１と、高速動作範囲７１２と、音有効範囲を決めるトリガ７１３と、音有効範囲７１４と、合成対象画像選択範囲７１５とが記憶されている。なお、インパクト音７１１、高速動作範囲７１２および合成対象画像選択範囲７１５については、図２４に示すインパクト音６１１、高速動作範囲６１２および合成対象画像選択範囲６１４と略同様であるため、ここでの説明を省略する。

音有効範囲を決めるトリガ７１３には、音有効範囲設定部７５０により音有効範囲が設定される際のトリガが格納される。例えば、ゴルフおよび野球（バッティング）については、入力部７２０から入力されたコンテンツにおいて、観客の大歓声が検出された瞬間にトリガを発生させるものとする。なお、観客の大歓声の検出は、特定音検出部７４０により検出された特定音に基づいて、音有効範囲設定部７５０により行われる。また、花火については、入力部７２０から入力されたコンテンツにおいて、画面内が暗い状態から明るい状態へと遷移した瞬間にトリガを発生させるものとする。なお、画面内が暗い状態から明るい状態へと遷移した瞬間の検出は、被写体情報生成部７３０により生成された属性情報に基づいて、音有効範囲設定部７５０により行われる。また、テニス（サーブ）については、入力部７２０から入力されたコンテンツにおいて、プレイヤーが一定時間上を向いた瞬間にトリガを発生させるものとする。なお、プレイヤーが一定時間上を向いた瞬間の検出は、被写体情報生成部７３０により生成された属性情報に基づいて、音有効範囲設定部７５０により行われる。また、瓦割りについては、入力部７２０から入力されたコンテンツにおいて、瓦割りをする人物の顔が気合を入れた瞬間にトリガを発生させるものとする。なお、瓦割りをする人物の顔が気合を入れた瞬間の検出は、被写体情報生成部７３０により生成された属性情報または特定音検出部７４０により検出された特定音に基づいて、音有効範囲設定部７５０により行われる。

音有効範囲７１４は、音有効範囲設定部７５０による設定対象となる音有効範囲が格納される。本発明の第４の実施の形態では、音有効範囲を決めるトリガ７１３に格納されている一定の変化の検出時を音有効範囲のトリガとする例を示す。なお、音有効範囲を決めるトリガ７１３に格納されている一定の変化の検出時を音有効範囲のトリガとする点以外は、図２４に示す音有効範囲６１３と略同様であるため、ここでの説明を省略する。

［合成対象画像選択範囲の決定例］
図２９は、本発明の第４の実施の形態における音有効範囲設定部７５０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図２８に示す野球（バッティング）が指定された場合において合成対象画像選択範囲を決定する例である。また、この例は、図５（ａ）および（ｂ）の変形例であるため、共通する部分についてはその一部の説明を省略する。

図２９（ａ）には、入力部７２０により入力された動画８００を矩形により模式的に示す。なお、動画８００は、例えば、野球の試合の様子が記録された動画であるものとする。また、動画８００を構成する各画像において、特定音検出部７４０により観客の大歓声が検出された位置を、図２９（ａ）に示す動画８００の時間軸における大歓声検出位置８０１とする。この場合には、音有効範囲設定部７５０が、大歓声検出位置８０１に基づいて音有効範囲８０２を設定する。具体的には、音有効範囲設定部７５０が、大歓声検出位置８０１を基準として、時間軸において、大歓声検出位置８０１よりも時間Ｌ３１だけ前の範囲を音有効範囲８０２として設定する。ここで、時間Ｌ３１は、例えば、図５（ａ）に示すＬ１と同様に、１．０秒とすることができる。また、時間Ｌ３１を、Ｌ１よりも長く設定するようにしてもよい。

例えば、ゴルフのトーナメントにおいて選手が非常に良いショットを打った際におけるインパクト音の発生位置は、観客の大歓声よりも過去にあると考えられる。そこで、観客の大歓声よりも過去（時間軸における前の位置）に音有効範囲を設定することにより、インパクト音を適切に検出することができる。

図２９（ｂ）には、音有効範囲設定部７５０により設定された音有効範囲８０２においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図２９（ｂ）では、特定音検出部７４０によりインパクト音が検出された位置（時間軸における位置）をインパクト音検出位置８０３として示す。

例えば、合成対象画像選択範囲決定部１７１が、音有効範囲設定部７５０により設定された音有効範囲８０２内にインパクト音検出位置８０３が含まれるか否かを判断する。そして、図２９（ｂ）に示すように、音有効範囲８０２内にインパクト音検出位置８０３が含まれる場合には、合成対象画像選択範囲決定部１７１が、そのインパクト音検出位置８０３に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、インパクト音検出位置８０３を基準にして、時間軸において、インパクト音検出位置８０３の前後の一定範囲を合成対象画像選択範囲８０４として決定する。具体的には、時間軸において、インパクト音検出位置８０３よりも時間Ｌ３２だけ前の範囲と、インパクト音検出位置８０３よりも時間Ｌ３３だけ後の範囲とにより構成される範囲Ｌ３４が合成対象画像選択範囲８０４として決定される。

ここで、時間Ｌ３２乃至３４は、例えば、図５（ｂ）に示すＬ２乃至４と同様の値とすることができる。また、時間Ｌ３４を、Ｌ４よりも長く設定するようにしてもよい。

図３０は、本発明の第４の実施の形態における音有効範囲設定部７５０による音有効範囲の設定方法および合成対象画像選択範囲決定部１７１による合成対象画像選択範囲の決定方法を模式的に示す図である。なお、この例は、図２８に示すテニス（サーブ）が指定された場合において合成対象画像選択範囲を決定する例である。また、この例は、図５（ａ）および（ｂ）の変形例であるため、共通する部分についてはその一部の説明を省略する。

図３０（ａ）には、入力部７２０により入力された動画８１０を矩形により模式的に示す。なお、動画８１０は、例えば、テニスの試合の様子が記録された動画であるものとする。また、動画８１０を構成する各画像において、被写体情報生成部７３０によりテニスプレイヤーの顔が一定時間以上、上を向いたことが検出された位置を、動画８００の時間軸における顔の上向き状態検出位置８１１とする。また、特定音検出部７４０により一定値以上の音が検出された位置（時間軸における位置）を一定値以上の音検出位置８１２として示す。この場合には、音有効範囲設定部７５０が、顔の上向き状態検出位置８１１および一定値以上の音検出位置８１２に基づいて音有効範囲８１３を設定する。具体的には、音有効範囲設定部７５０が、顔の上向き状態検出位置８１１および一定値以上の音検出位置８１２を基準として、時間軸において、音有効範囲８１３（時間Ｌ４１）を設定する。ここで、時間Ｌ４１は、例えば、顔の上向き状態検出位置８１１を始点とし、一定値以上の音検出位置８１２を終点とする範囲である。

ここで、テニス（サーブ）に関する音有効範囲の終点については、一定値以上の音の検出を設定条件としている。ただし、音有効範囲の始点から一定時間以上、一定値以上の音の検出がない場合には、その始点に係る音有効範囲を無効とし、音有効範囲を決める新たなトリガを待機するようにしてもよい。これにより、インパクト音の誤検出を低減させることができる。また、瓦割りに関する音有効範囲の終点についても同様に適用することができる。

図３０（ｂ）には、音有効範囲設定部７５０により設定された音有効範囲８１３においてインパクト音が検出された場合における合成対象画像選択範囲の決定方法を模式的に示す。図３０（ｂ）では、特定音検出部７４０によりインパクト音が検出された位置（時間軸における位置）をインパクト音検出位置８１４として示す。

例えば、合成対象画像選択範囲決定部１７１が、音有効範囲設定部７５０により設定された音有効範囲８１３内にインパクト音検出位置８１４が含まれるか否かを判断する。そして、図３０（ｂ）に示すように、音有効範囲８１３内にインパクト音検出位置８１４が含まれる場合には、合成対象画像選択範囲決定部１７１が、そのインパクト音検出位置８１４に基づいて、合成対象画像選択範囲を決定する。すなわち、合成対象画像選択範囲決定部１７１が、インパクト音検出位置８１４を基準にして、時間軸において、インパクト音検出位置８１４の前後の一定範囲を合成対象画像選択範囲８１５として決定する。具体的には、時間軸において、インパクト音検出位置８１４よりも時間Ｌ４２だけ前の範囲と、インパクト音検出位置８１４よりも時間Ｌ４３だけ後の範囲とにより構成される範囲Ｌ４４が合成対象画像選択範囲８１５として決定される。

ここで、図２８に示すように、時間Ｌ４２は、例えば、２．５秒とし、時間Ｌ４３は、例えば、０．５秒とすることができる。すなわち、時間Ｌ４４は、３．０秒とすることができる。なお、時間Ｌ４２乃至４４については、ユーザの好みに応じて設定内容を変更するようにしてもよい。

また、図２９、図３０に示す例については、本発明の第２の実施の形態で示したように、音有効範囲においてインパクト音が検出されたか否かを判断する前に、音の遅延時間を推定し、この推定結果に基づいてインパクト音検出位置を補正するようにしてもよい。このように、インパクト音の検出位置を補正して、補正後の位置に基づいて合成対象画像選択範囲を決定することができる。また、音有効範囲のトリガとする特定音（例えば、観客の大歓声）についても、音の遅延時間を推定し、この推定結果に基づいてその検出位置を補正するようにしてもよい。例えば、特定音が観客の大歓声である場合には、各フレームに関するメタデータ（例えば、ズーム情報やフォーカス位置情報）を用いて注目被写体の背景に対する被写体距離を算出し、この被写体距離に基づいて観客の大歓声の遅延時間を推定することができる。これにより、ズーム機能により比較的遠い注目被写体が撮像対象となっている動画コンテンツであっても、適切な合成対象画像選択範囲を決定することができる。

また、図２９、図３０に示す例において、音有効範囲設定部７５０により設定された音有効範囲内においてインパクト音が検出されないことも想定される。この場合には、そのインパクト音を用いた合成画像の生成を行わず、次の合成画像処理を行うようにすることができる。

このように、デジタルビデオカメラ等の撮像装置により記録された画像コンテンツについては、各画像間の時間軸における一定の変化を用いて音有効範囲を設定することができる。これにより、インパクト音を伴う非常に速い動作を対象とする合成画像を生成する場合において、録画ボタンの押下等を行わずに、インパクト音の発生位置を高い精度で検出することができる。また、正確なインパクト音の発生位置付近を重視して合成画像を生成することが可能となり、高い視認性を有する合成画像を生成することができる。さらに、インパクト音の発生位置の検出についても、ユーザによる手作業を必要としないため、ユーザ負担を軽減させることができる。このように合成画像を生成することにより、画像処理装置の扱いに不慣れな初心者でもあっても、ユーザの好みに応じた種類の合成画像を容易に生成することができる。

なお、本発明の第１乃至第３の実施の形態で示した撮像装置に、各画像間の時間軸における一定の変化を用いて音有効範囲を設定する設定方法を適用するようにしてもよい。

また、本発明の実施の形態では、合成対象画像選択部１７２により選択された合成対象画像を、静止画としての合成画像の生成処理に用いる例を示した。ただし、例えば、合成画像を生成する過程を動画として表示する合成画像生成処理に、その選択された合成対象画像を用いるようにしてもよい。また、その選択された合成対象画像については、例えば、合成対象とする以外に、特定動作の遷移を表す複数の画像（例えば、スライドショーに用いられる画像）として用いるようにしてもよい。

なお、撮像機能付き携帯電話機、パーソナルコンピュータ、ビデオシステム、編集装置等の画像処理装置に本発明の実施の形態を適用することができる。また、本発明の実施の形態における処理手順を、処理プログラムに組み込むことも可能である。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、本発明の実施の形態において明示したように、本発明の実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本発明の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disk）、メモリカード、ブルーレイディスク（Blu-ray Disc（登録商標））等を用いることができる。

１００、５００、６００撮像装置
１１１撮像部
１１２撮像素子
１１５撮像画像保持部
１２０、７３０被写体情報生成部
１３１音声入力部
１３２、６２０、７４０特定音検出部
１４０操作受付部
１５０タイマ設定部
１６０、６３０、７５０音有効範囲設定部
１７０、５２０、６４０、７６０選択部
１７１合成対象画像選択範囲決定部
１７２合成対象画像選択部
１７３座標計算部
１７４カウンタ部
１８０レイヤ処理部
１８１レイヤ分離部
１８２レイヤ加工部
１８３レイヤ合成部
１８５合成画像保持部
１９０表示制御部
１９１表示部
２００合成画像記憶部
５１０被写体距離算出部
６１０、７１０注目被写体情報記憶部
７００画像処理装置
７２０入力部

Claims

特定音の発生位置付近を指定するユーザ操作に基づいて設定される音有効範囲の音声から前記特定音を検出する特定音検出部と、
前記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、前記音有効範囲内で検出された前記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から前記合成対象画像を選択する選択部と
を具備する画像処理装置。
前記音有効範囲は、時間軸において前記合成対象画像選択範囲よりも狭くなるように設定される請求項１記載の画像処理装置。
前記選択部は、前記合成対象画像選択範囲を決定する合成対象画像選択範囲決定部を備える請求項１記載の画像処理装置。
前記合成対象画像選択範囲決定部は、ユーザ操作に基づいて前記合成対象画像選択範囲を決定する請求項３記載の画像処理装置。
前記音有効範囲内での前記特定音の検出に基づいて前記合成画像の生成を制御する制御部をさらに具備する請求項１記載の画像処理装置。
前記合成画像の生成に関する判定を行うための時間軸における範囲を前記音有効範囲として設定する音有効範囲設定部をさらに具備し、
前記制御部は、前記設定された音有効範囲内で前記特定音が検出された場合には前記合成画像が生成され、前記設定された音有効範囲内で前記特定音が検出されなかった場合には前記合成画像が生成されないように制御する
請求項５記載の画像処理装置。
前記ユーザ操作は、特定動作の終了時に受け付けられる特定操作、または、前記特定動作の終了時をタイマカウンタの終了時とする設定を行うタイマ設定操作であり、
前記音有効範囲設定部は、前記ユーザ操作が前記特定操作である場合には前記特定操作が受け付けられた時間軸における位置を基準として前記音有効範囲を設定し、前記ユーザ操作が前記タイマ設定操作である場合には前記タイマ設定操作によるタイマカウンタの終了時を基準として前記音有効範囲を設定する
請求項６記載の画像処理装置。
前記音有効範囲設定部は、前記ユーザ操作が前記タイマ設定操作である場合に設定される前記音有効範囲よりも前記ユーザ操作が前記特定操作である場合に設定される前記音有効範囲を狭くする請求項７記載の画像処理装置。
注目被写体までの距離を算出する被写体距離算出部をさらに具備し、
前記制御部は、前記検出された特定音の時間軸における検出位置を、前記算出された距離に応じた特定音の遅延時間に基づいて補正して前記設定された音有効範囲内に前記補正後の検出位置が存在するか否かに応じて前記合成画像を合成画像生成部に生成させるか否かを判定する
請求項６記載の画像処理装置。
前記設定された音有効範囲内に前記補正後の検出位置が存在する場合には前記補正後の検出位置を基準として前記合成対象画像選択範囲を決定する合成対象画像選択範囲決定部をさらに具備する請求項９記載の画像処理装置。
前記合成画像を生成する合成画像生成部をさらに具備し、
前記合成画像生成部は、前記合成対象画像選択範囲における前記合成対象画像の選択間隔について前記特定音の時間軸における検出位置を中心位置とする前記合成対象画像選択範囲よりも狭い範囲における前記選択間隔を他の選択間隔よりも密にする
請求項１記載の画像処理装置。
複数種類の特定動作のうちから所望の特定動作を指定する指定操作を受け付ける操作受付部をさらに具備し、
前記特定音検出部は、前記指定された特定動作に関する特定音を検出し、
前記音有効範囲設定部は、前記ユーザ操作に基づいて前記指定された特定動作に関する音有効範囲を設定する
請求項６記載の画像処理装置。
特定音の検出範囲である音有効範囲の音声から特定音を検出する特定音検出部と、
前記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、前記音有効範囲内で検出された前記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から前記合成対象画像を選択する選択部と、
時系列で連続する複数の画像からなる画像群を構成する各画像間の時間軸における一定の変化を検出する一定変化検出部と、
前記一定の変化が検出された時間軸における位置に基づいて前記合成画像の生成に関する判定を行うための時間軸における範囲を前記音有効範囲として設定する音有効範囲設定部と、
前記設定された音有効範囲内で前記特定音が検出された場合には前記合成画像が生成され、前記設定された音有効範囲内で前記特定音が検出されなかった場合には前記合成画像が生成されないように制御する制御部と
を具備する画像処理装置。
前記一定変化検出部は、前記画像群を構成する各画像から抽出された特徴量と前記画像群を構成する各画像に関連付けられている音声に基づいて抽出された特徴量との少なくとも１つを用いて前記一定の変化を検出する請求項１３に記載の画像処理装置。
特定音の発生位置付近を指定するユーザ操作に基づいて設定される音有効範囲の音声から前記特定音を検出する特定音検出手順と、
前記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、前記音有効範囲内で検出された前記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から前記合成対象画像を選択する選択手順と
を具備する画像処理装置の制御方法。
特定音の発生位置付近を指定するユーザ操作に基づいて設定される音有効範囲の音声から前記特定音を検出する特定音検出手順と、
前記音声と対応する、時系列で連続する画像から合成画像を生成するための合成対象画像を選択するための範囲であって、前記音有効範囲内で検出された前記特定音の時間軸上の位置に応じて設定された合成対象画像選択範囲の画像から前記合成対象画像を選択する選択手順と
をコンピュータに実行させるプログラム。