JP2009171498A

JP2009171498A - 画像処理装置、その処理方法およびプログラム

Info

Publication number: JP2009171498A
Application number: JP2008010205A
Authority: JP
Inventors: Shingo Tsurumi; 辰吾鶴見
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-01-21
Filing date: 2008-01-21
Publication date: 2009-07-30
Anticipated expiration: 2028-01-21
Also published as: US8717504B2; US20140022455A1; CN101622868A; CN101622868B; US8599320B2; JP4692550B2; EP2129112A4; WO2009093398A1; EP2129112A1; KR20100114453A; US20100111499A1

Abstract

【課題】動画を再生する場合に表示画面上における動画の表示領域に適した音声を生成させる。
【解決手段】画像変換情報供給部１３０は、動画の動き情報に基づいて、画像を変換するためのアフィン変換パラメータをフレーム毎に算出する。画像変換部１４０は、基準画像を基準として、算出されたアフィン変換パラメータを用いて、動画を構成する画像をフレーム毎にアフィン変換する。音声変換情報算出部１９０は、画像変換部１４０からの変換された画像に関する中心位置、角度または倍率を示す情報に基づいて、画像に対応する音声を変換するための音声変換情報を算出する。音声変換処理部２００は、音声変換情報に基づいて、音声を構成する各チャンネルの音量を調整し、その調整した各チャンネルの音声を加算して出力音声としてスピーカ２２０に出力する。
【選択図】図１

Description

本発明は、画像処理装置に関し、特に、動画を再生することが可能な画像処理装置、その処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

近年、デジタルビデオカメラ等により撮像された動画を再生する動画再生装置が普及している。デジタルビデオカメラにおいては、撮像者の関心に応じて撮像対象の被写体を拡大または縮小することができるズーム機能を備えたものが一般的である。このようなズーム機能を使用して撮像された動画を再生する場合には、表示画面上において被写体の大きさが変化しても音声はそのまま出力されるため、充分な臨場感が得られない。そこで、デジタルビデオカメラで撮像された撮像条件等を考慮して音声処理をすることが考えられる。例えば、デジタルビデオカメラのズーミング操作に関する情報に基づいて複数チャンネルの音声信号のレベルを調整する音声変換処理方法が提案されている（例えば、特許文献２参照。）。
特開２００５−３１１６０４号広報（図２）

上述の従来技術によれば、動画を再生する場合には、デジタルビデオカメラのズーム量に応じて音量を変えることで、その動画に適した現実味のある音響効果を得ることができる。

しかしながら、上述の従来技術では、動画を表示画面上の一部領域に表示させるような場合には、ズーム量と、画面上における動画の位置とが対応しないおそれがあり、画面上における動画の位置に応じた適切な音響効果を得ることができない場合がある。このように、動画を表示画面上の一部領域に表示させるような場合に、画面上における動画の位置に応じた適切な音響効果を得ることが重要である。

そこで、本発明は、動画を再生する場合に表示画面上における動画の表示領域に適した音声を生成することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、動画および当該動画に対応する音声を含むコンテンツデータを取得するコンテンツ取得手段と、上記動画を構成する第１の画像および第２の画像に基づいて上記第１の画像に対する上記第２の画像に関する画像変換情報を供給する画像変換情報供給手段と、上記第１の画像を基準として上記画像変換情報に基づいて上記第２の画像を変換する画像変換手段と、上記変換された第２の画像および当該第２の画像の背景となる背景画像を合成して合成画像とする画像合成手段と、上記合成画像を表示手段に表示させる表示制御手段と、上記画像変換情報に基づいて上記第２の画像に係る音声に関する音声変換情報を算出する音声変換情報算出手段と、上記音声変換情報に基づいて上記音声を変換処理して出力音声を生成する音声変換処理手段と、上記出力音声を音声出力手段に出力させる音声出力制御手段とを具備することを特徴とする画像処理装置である。これにより、画像変換情報に基づいて変換された画像において、その画像が表示される領域に応じて音声を変換処理して出力させるという作用をもたらす。

また、この第１の側面において、上記画像変換情報は、上記第１の画像に対する上記第２の画像の移動に関する要素を含むようにしてもよい。これにより、画像の移動に応じて音声を変換処理させるという作用をもたらす。

また、この第１の側面において、上記画像変換情報は、上記第１の画像に対する上記第２の画像の回転に関する要素を含むようにしてもよい。これにより、画像の回転に応じて音声を変換処理させるという作用をもたらす。

また、この第１の側面において、上記画像変換情報は、上記第１の画像に対する上記第２の画像の倍率に関する要素を含むようにしてもよい。これにより、画像の倍率に応じて音声を変換処理させるという作用をもたらす。

また、この第１の側面において、上記音声変換処理手段は、音量調整手段と音声加算手段とを備え、上記音量調整手段は、上記音声変換情報に基づいて上記音声を構成する複数のチャンネルの各音量を調整し、上記音声加算手段は、上記調整後の音声をチャンネル毎に加算するようにしてもよい。これにより、複数チャンネルの音声を変換処理させるという作用をもたらす。

また、この第１の側面において、上記音声変換処理手段は、上記変換処理して上記出力音声を構成する右チャンネルおよび左チャンネルの音声を生成するようにしてもよい。これにより、右チャンネルおよび左チャンネルの音声を生成させるという作用をもたらす。

また、この第１の側面において、上記音声変換処理手段は、上記変換処理して上記出力音声を構成するセンターチャンネルの音声を生成するようにしてもよい。これにより、センターチャンネルの音声を生成させるという作用をもたらす。

また、この第１の側面において、上記音声は、右チャンネルおよび左チャンネルの音声を含み、上記音声変換処理手段は、上記右チャンネルおよび左チャンネルの音声を上記音声処理して上記出力音声を生成するようにしてもよい。これにより、右チャンネルおよび左チャンネルの入力音声を変換処理して出力音声を生成させるという作用をもたらす。

また、この第１の側面において、上記音声は、センターチャンネルの音声を含み、上記音声変換処理手段は、上記センターチャンネルの音声を上記変換処理して上記出力音声を生成するようにしてもよい。これにより、センターチャンネルの入力音声を変換処理して出力音声を生成させるという作用をもたらす。

また、この第１の側面において、上記第１の画像を含む画像を履歴画像として保持する画像保持手段をさらに具備し、上記第１の画像は、上記動画における時間軸において上記第２の画像より前に位置する画像であり、上記画像変換手段は、上記画像変換情報に基づいて上記第２の画像および上記画像保持手段に保持されている履歴画像のうちの少なくとも一方を変換し、上記画像合成手段は、上記画像変換手段により少なくとも一方が変換された上記第２の画像および上記履歴画像を合成して上記合成画像とし上記合成画像を新たな履歴画像として上記画像保持手段に保持させるようにしてもよい。これにより、動画を構成する画像について、変換された一連の画像を合成して合成画像として表示させるという作用をもたらす。この場合において、上記画像保持手段に保持されている上記新たな履歴画像から上記表示手段の表示対象となる表示領域を決定して当該表示領域に含まれる画像を表示画像として取り出す表示領域取出手段をさらに具備し、上記画像合成手段は、上記変換された上記第２の画像を上記表示画像に上書きして合成して新たな表示画像とし、上記表示制御手段は、上記新たな表示画像を上記表示手段に表示させ、上記表示領域取出手段は、上記画像保持手段の保持領域における上記表示領域の位置または角度または大きさに関する表示領域取出情報を生成し、上記音声変換情報算出手段は、上記画像変換情報および上記表示領域取出情報に基づいて上記音声変換情報を算出するようにしてもよい。これにより、現在の画像を表示画面の領域に収まるように表示させるという作用をもたらす。

また、この第１の側面において、上記画像変換手段は、上記表示手段における上記動画を表示させる表示領域を示すテンプレート情報に基づいて上記第２の画像を変換するようにしてもよい。これにより、テンプレート情報に基づいて画像を変換させるという作用をもたらす。

また、本発明の第２の側面は、動画に対応する音声を出力する音声出力手段を備える画像処理装置において、上記動画および上記音声を含むコンテンツデータを取得するコンテンツ取得手順と、上記動画を構成する第１の画像および第２の画像に基づいて上記第１の画像に対する上記第２の画像に関する画像変換情報を供給する画像変換情報供給手順と、上記第１の画像を基準として上記画像変換情報に基づいて上記第２の画像を変換する画像変換手順と、上記画像変換情報に基づいて上記音声に関する音声変換情報を算出する音声変換情報算出手順と、上記音声変換情報に基づいて上記音声を変換処理して出力音声を生成する音声変換処理手順と、上記出力音声を上記音声出力手段に出力させる音声出力制御手順とを具備することを特徴とする画像処理装置における音声変換処理方法またはこれら手順をコンピュータに実行させることを特徴とするプログラムである。これにより、画像変換情報に基づいて変換された画像において、その画像が表示される領域に応じて音声を変換処理して出力させるという作用をもたらす。

本発明によれば、動画を再生する場合に表示画面上における動画の表示領域に適した音声を生成させることができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における画像処理装置１００の機能構成例を示すブロック図である。画像処理装置１００は、コンテンツ記憶部１１０と、コンテンツ取得部１２０と、画像変換情報供給部１３０と、画像変換部１４０と、画像合成部１５０と、画像メモリ１６０と、表示制御部１７０と、表示部１８０と、音声変換情報算出部１９０と、音声変換処理部２００と、音声出力制御部２１０と、スピーカ２２０と、操作受付部２３０とを備える。画像処理装置１００は、例えば、デジタルビデオカメラ等の撮像装置で撮像された動画について、映像解析により特徴量を抽出し、この抽出された特徴量を用いて各種画像処理を施すことが可能なパーソナルコンピュータによって実現することができる。

コンテンツ記憶部１１０は、動画とその動画に対応する音声とを含むコンテンツファイルを記憶するものである。また、コンテンツ記憶部１１０は、コンテンツ取得部１２０からの要求に応じてコンテンツファイルをコンテンツ取得部１２０に供給する。

コンテンツ取得部１２０は、操作受付部２３０からのコンテンツ取得に係る操作入力に応じて、コンテンツ記憶部１１０に記憶されているコンテンツファイルを取得するものである。このコンテンツ取得部１２０は、取得されたコンテンツファイルのうち動画を画像変換情報供給部１３０および画像変換部１４０に出力する。また、コンテンツ取得部１２０は、取得されたコンテンツファイルのうち動画に対応する音声を音声変換処理部２００に出力する。

画像変換情報供給部１３０は、コンテンツ取得部１２０から出力された動画を解析して動き情報を検出し、この動き情報に基づいてアフィン変換パラメータを算出するものである。すなわち、画像変換情報供給部１３０は、動画を構成する各画像から特徴点を抽出するとともに、この特徴点に対するオプティカルフロー（動きベクトル）を抽出し、この抽出された特徴点に対するオプティカルフローを解析して支配的な動きを見せた特徴点を選択し、この支配的な動きを見せた特徴点に対するオプティカルフローに基づいて撮像装置の動きを推定する。ここで、支配的な動きとは、複数の特徴点に対するオプティカルフローの中で、比較的多数のオプティカルフローが示す規則的な動きを意味する。また、画像変換情報供給部１３０は、そのアフィン変換パラメータを画像変換部１４０に供給する。

画像変換部１４０は、コンテンツ取得部１２０から出力された動画を構成する画像、および、画像メモリ１６０に保持されていた画像について、先頭フレームに対応する画像を基準として画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いてフレーム毎にアフィン変換を施すものである。具体的には、画像変換部１４０は、現フレームに対応するアフィン変換パラメータの行列と、その直前までの各フレームに対応するアフィン変換パラメータの行列との乗算により求められたアフィン変換パラメータの行列を用いてアフィン変換を施す。この画像変換部１４０は、コンテンツ取得部１２０から出力された動画を構成する画像、および、画像メモリ１６０に保持されていた合成画像について、少なくとも何れか一方にアフィン変換を施してそれぞれを画像合成部１５０に出力する。また、画像変換部１４０は、画像メモリ１６０における先頭フレームに対応する画像を基準として、この乗算により求められたアフィン変換パラメータに基づいて、現フレームに対応する画像の中心位置、角度および倍率を算出して音声変換情報算出部１９０に出力する。ここで、本発明の実施の形態では、先頭フレームに対応する画像に関する情報を基準情報として説明する。この基準情報とは、画像メモリ１６０における先頭フレームに対応する画像の中心位置、角度および大きさを示す情報であり、画像変換部１４０に保持される。

具体的には、現フレームよりも前の各フレームに対応する画像により合成された合成画像を固定して動画を再生表示する場合には、画像変換部１４０は、コンテンツ取得部１２０から出力された現フレームに対応する画像を、画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いてアフィン変換する。そして、画像変換部１４０は、画像メモリ１６０に保持されている画像および変換された現フレームに対応する画像を出力する。この場合には、画像変換部１４０は、現フレームに対応する画像の倍率以外の中心位置および角度を音声変換情報算出部１９０に出力する。一方、現フレームに対応する画像を固定して動画を再生表示する場合には、画像変換部１４０は、画像メモリ１６０に保持されている合成画像を、画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いて、アフィン変換パラメータの方向とは逆方向にアフィン変換する。そして、画像変換部１４０は、現フレームに対応する画像および逆方向に変換された合成画像を画像合成部１５０に出力する。この場合には、画像変換部１４０は、現フレームに対応する画像の倍率のみを音声変換情報算出部１９０に出力する。また、現フレームに対応する画像の表示倍率を固定して動画を再生表示する場合には、画像変換部１４０は、画像変換情報供給部１３０から供給されたアフィン変換パラメータについて、倍率に関する要素（ズーム成分）と、倍率以外の要素（移動または回転に関する要素）とに分離し、画像メモリ１６０に保持されている現フレームより前の各フレームに対応する合成画像には拡大縮小に関する要素を用いて、アフィン変換パラメータの方向とは逆方向にアフィン変換を施し、コンテンツ取得部１２０から出力された現フレームに対応する画像には移動または回転に関する要素を用いてアフィン変換を施す。そして、画像変換部１４０は、変換された両方の画像を画像合成部１５０に出力する。この場合には、画像変換部１４０は、現フレームに対応する画像の中心位置、角度および倍率を音声変換情報算出部１９０に出力する。

これらの変換は、操作受付部２３０からの再生指示に係る操作入力に応じて行われる。なお、ここでは一例として、操作受付部２３０からの再生指示に係る操作入力に応じて、画像変換部１４０が現フレームに対応する画像の中心位置、角度および倍率を算出してその算出した情報を音声変換情報算出部１９０に出力する例を示したが、音声変換情報算出部１９０が、画像変換部１４０から出力された基準情報および乗算により求められるアフィン変換パラメータを用いて、現フレームに対応する画像の中心位置、角度および倍率を算出してもよい。さらに、画像変換部１４０は、画像メモリ１６０における先頭フレームに対応する画像の中心位置、角度および大きさを音声変換情報算出部１９０に出力する代わりに、現フレームよりも１つ前のフレームに対応する画像の中心位置、角度および大きさを出力するようにしてもよい。この場合には、音声変換情報算出部１９０は、現フレームよりも１つ前のフレームに対応する画像の中心位置、角度および大きさを基準情報の代わりに用いて、現フレームに対応するアフィン変換パラメータに基づいて現フレームに対応する画像の中心位置、角度および倍率を算出する。なお、現フレームより所定数前のフレームに対応する画像についても、所定数前のフレームに対応する画像の中心位置、角度および大きさを用いて、現フレームから所定数前のフレームまでの各フレームに対応するアフィン変換パラメータに基づいて同様に算出することができる。

画像合成部１５０は、コンテンツ取得部１２０から出力された動画を構成する画像と、画像メモリ１６０に保持されていた合成画像とを画像変換部１４０から受け取って合成するものである。この画像合成部１５０は、合成した合成画像を画像メモリ１６０に保持させるとともに表示制御部１７０に出力する。なお、ここでは一例として、画像合成部１５０が合成画像を画像メモリ１６０に保持させる例を示すが、合成画像を画像メモリ１６０に保持させずに、予め定められた画像を画像メモリ１６０に保持させておくようにしてもよい。例えば、予め定められた画像を、公園の画像とし、この公園の画像に合成させる動画を、散歩をしている子供を撮像した動画とする場合に、この公園の画像を画像メモリ１６０に保持させ、この公園の画像上にその動画をアフィン変換させながら合成させるようにすることができる。これにより、公園上を子供が散歩するような仮想的な動画を表示させることができるようになる。

画像メモリ１６０は、画像合成部１５０により合成された合成画像を保持するワークバッファである。画像メモリ１６０は、その保持している合成画像を画像変換部１４０に供給する。

表示制御部１７０は、画像合成部１５０により合成された合成画像をフレーム毎に表示部１８０に表示させるものである。

表示部１８０は、表示制御部１７０の制御に基づいて、画像合成部１５０により合成された合成画像を表示するものである。例えば、パーソナルコンピュータやテレビジョンのディスプレイにより実現することができる。

音声変換情報算出部１９０は、画像変換部１４０においてアフィン変換パラメータおよび基準情報から求められた、現フレームに対応する画像の中心位置、角度または倍率に基づいて音声変換情報を算出するものである。ここにいう、音声変換情報とは、コンテンツ取得部１２０から出力された音声を変換するためのものである。この音声変換情報算出部１９０は、算出した音声変換情報を音声変換処理部２００に出力する。

音声変換処理部２００は、音声変換情報算出部１９０により算出された音声変換情報に基づいてコンテンツ取得部１２０から出力された音声を変換して出力音声を生成するものである。この音声変換処理部２００は、生成した出力音声を音声出力制御部２１０に出力する。この音声変換処理部２００は、音量調整部２０１と音声加算部２０２とを備える。音量調整部２０１は、音声変換情報算出部１９０により算出された音声変換情報に基づいてコンテンツ取得部１２０から出力された音声を構成する複数のチャンネルの各音量を調整するものである。この音量調整部２０１は、調整した複数のチャンネルの音声を音声加算部２０２に出力する。音声加算部２０２は、音量調整部２０１により調整された音声をチャンネル毎に加算するものである。この音声加算部２０２は、加算した音声を出力音声として音声出力制御部２１０に出力する。

音声出力制御部２１０は、音声変換処理部２００により生成された出力音声をスピーカ２２０に出力させるものである。

スピーカ２２０は、音声出力制御部２１０の制御に基づいて音声変換処理部２００により生成された出力音声を出力するものである。また、このスピーカ２２０は、複数のスピーカから構成されるスピーカシステムである。

操作受付部２３０は、各種操作キー等を備え、これらのキーによる操作入力を受け付けると、受け付けた操作入力の内容をコンテンツ取得部１２０または画像変換部１４０に出力するものである。操作受付部２３０には、例えば、動画を再生する場合における表示モードを設定する設定キーが設けられている。この表示モードとして、例えば、現フレームに対応する画像にアフィン変換を施して、前の各フレームに対応する合成画像との合成画像を作成して表示する表示モード、前の各フレームに対応する合成画像にアフィン変換パラメータの方向とは逆方向にアフィン変換を施して、現フレームに対応する画像との合成画像を作成して表示する表示モード、または、現フレームに対応する画像の表示倍率を固定して動画を再生表示する表示モードがある。また、操作受付部２３０は、コンテンツ取得に係る操作入力の内容をコンテンツ取得部１２０に出力する。

なお、図１では、画像変換情報供給部１３０がアフィン変換パラメータを算出する例について説明したが、アフィン変換パラメータを関連付けた動画をコンテンツ記憶部１１０に記憶させておき、この動画をコンテンツ取得部１２０が取得して画像変換情報供給部１３０に出力し、この動画に関連付けられたアフィン変換パラメータを画像変換情報供給部１３０が抽出して画像変換部１４０に出力するようにしてもよい。

次に、画像変換に用いられるアフィン変換パラメータを検出する検出方法について図面を参照して詳細に説明する。

図２（ａ）乃至（ｃ）は、動画を構成するフレームに対応する画像の一例を示す図である。図３（ａ）は、図２に示す画像３００に対応するフレームの１つ前のフレームに対応する画像について背景等を省略して簡略化した画像を示す図である。また、図３（ｂ）および（ｃ）は、図２に示す画像３００について背景等を省略して簡略化した画像を示す図である。

図２および図３に示す画像３００、３２０、３３０には、人が跨っている馬の像３０１、３２１、３３１と、この馬の像３０１、３２１、３３１の手前に設置されている蛇の像３０２、３２２、３３２とが含まれている。また、図２に示すように、これらの像の背景には旗や椅子等が存在し、この旗が風になびいている。

図３（ａ）に示す画像３２０は、図２（ａ）乃至（ｃ）および図３（ｂ）および（ｃ）に示す画像３００、３３０に対応するフレームの１つ前のフレームに対応する画像を簡略化した画像である。また、２つの連続するフレームに対応する画像３２０および３３０は、画面内の被写体がしだいに大きくなる場合における遷移を示す画像である。すなわち、この撮影時には、画面内の被写体をしだいに大きくする操作であるズームイン操作がされている。

本発明の実施の形態では、動画を構成する画像から特徴点を検出し、この特徴点に対応するオプティカルフローを用いてアフィン変換パラメータを計算する方法を例にして説明する。また、この例では、特徴点としてコーナー点を用いる場合について説明する。

ここで、図３（ａ）乃至（ｃ）では、画像３２０および３３０から検出された３つのコーナー点に対応するオプティカルフローを用いてアフィン変換パラメータを計算する方法を例にして説明する。

例えば、図３（ａ）に示す画像３２０において、特徴点として、馬の像３２１における口付近のコーナー点３２３と、馬の像３２１における人のお尻付近のコーナー点３２４と、蛇の像３２２の口付近のコーナー点３２５とが検出されているものとする。この場合において、図３（ｂ）に示す画像３３０において、勾配法やブロックマッチング法等により、画像３２０におけるコーナー点３２３、３２４および３２５に対するオプティカルフロー３３７、３３８および３３９が検出される。そして、この検出されたオプティカルフロー３３７、３３８および３３９に基づいて、画像３２０におけるコーナー点３２３、３２４および３２５に対応するコーナー点３３３、３３４および３３５が検出される。

ここで、例えば、図３（ａ）および（ｂ）に示す画像３２０および３３０に含まれる馬の像３２１、３３１や蛇の像３２２、３３２は、地面に設置されているものであるため、撮像装置の動きとは無関係に動くものではない。このため、馬の像３２１、３３１や蛇の像３２２、３３２について検出されたコーナー点に対して求められたオプティカルフローに基づいて、撮像装置の動きを正確に推定することができる。例えば、図３（ｃ）に示すように、画像３３０において検出された３つのオプティカルフロー３３７乃至３３９に基づいて、画像３３０が、点３３６を中心にして画像３２０を拡大したものであることを推定することができる。これにより、画像３３０の撮影時における撮像装置の動きは、点３３６を中心とするズームイン動作であると判断することができる。このように、撮像装置の動きとは無関係に動くものではない物体についてコーナー点を検出し、このコーナー点に対して求められたオプティカルフローに基づいて、一定の規則性を備える撮像装置の動きを正確に検出することができる。このため、これらのコーナー点に対して求められたオプティカルフローを用いて、アフィン変換パラメータを計算して求めることができる。

しかしながら、風になびいている旗等のように、撮像装置の動きとは無関係に動く物体が画像内に含まれる場合が考えられる。例えば、図２に示す画像３００には、風になびいている旗が含まれている。このような撮像装置の動きとは無関係に動く物体についてコーナー点が検出され、このコーナー点に対して求められたオプティカルフローを用いて撮像装置の動きを推定する場合には、撮像装置の動きを正確に推定することができない。

例えば、図２（ｂ）に示す画像３００において検出されたオプティカルフローを矢印で示すとともに、このオプティカルフローにより検出されたコーナー点を矢印の先端に白抜きの丸で示す。ここで、コーナー点３０３乃至３０５は、図３（ｂ）および（ｃ）に示すコーナー点３３３乃至３３５に対応するコーナー点である。また、コーナー点３０６乃至３１１は、馬の像３０１の背景に存在する旗について検出されたコーナー点である。そして、これらの旗が風になびいているため、風の影響による旗の動きがオプティカルフローとして検出されている。すなわち、コーナー点３０６乃至３１１に対応する各オプティカルフローは、撮像装置の動きとは無関係に動く旗について検出されたものである。このため、アフィン変換パラメータを計算する場合に用いられる３つのオプティカルフローに、コーナー点３０６乃至３１１のうちの少なくとも１つのコーナー点に対応するオプティカルフローが含まれている場合には、正確な撮像装置の動きを検出することができない。この場合には、正確なアフィン変換パラメータを計算することができない。

以上で示したように、例えば、撮像装置の動きとは無関係に動く物体に対するオプティカルフロー（図２（ｂ）に示すコーナー点３０６乃至３１１に対応する各オプティカルフロー）と、撮像装置の動きとの関係で一定の規則性を備えるオプティカルフロー（図２（ｂ）に示すコーナー点３０６乃至３１１に対応する各オプティカルフロー以外のオプティカルフロー）とが、撮影画像から検出されることがある。

そこで、本発明の実施の形態では、３個のオプティカルフローに基づいてアフィン変換パラメータを計算するアフィン変換パラメータ計算処理を複数回行い、複数のアフィン変換パラメータを求め、これらの複数のアフィン変換パラメータの中から最適なアフィン変換パラメータを選択する例について説明する。なお、この例では、動画を構成する各画像に含まれている動物体の大きさが、画像の面積に対して比較的小さいものとする。

ここで、アフィン変換について簡単に説明する。２次元上において、移動元の位置を（ｘ，ｙ）とし、アフィン変換後の移動先の位置を（ｘ´，ｙ´）とした場合に、アフィン変換の行列式は、式１で表すことができる。

ここで、ａ乃至ｆは、アフィン変換パラメータである。また、このアフィン変換パラメータによるアフィン行列ＡＭを次の式で表すことができる。この場合に、Ｘ方向のズーム成分ＸＺ、Ｙ方向のズーム成分ＹＺ、Ｘ方向の併進成分ＸＴ、Ｙ方向の併進成分ＹＴ、回転成分Ｒについては、それぞれ次の式で求めることができる。なお、単位行列の場合には、ａ＝ｅ＝１、ｂ＝ｃ＝ｄ＝ｆ＝０となる。

次に、アフィン変換パラメータの計算方法について説明する。

最初に、動画を構成するフレームの中の１つのフレームである現フレームに対応する画像において、オプティカルフローが検出された特徴点の中から３個の特徴点が選択される。例えば、図２（ｂ）に示す画像３００において検出されたコーナー点（白抜きの丸で示す）の中からランダムに３個のコーナー点が選択される。なお、アフィン変換パラメータとして、射影変換パラメータを用いる場合には、４個の特徴点がランダムに選択される。

続いて、選択された３個の特徴点に対応する３個のオプティカルフローを用いてアフィン変換パラメータが計算される。例えば、図２（ｂ）に示す画像３００におけるコーナー点（白抜きの丸で示す）の中から選択された３個のコーナー点に対応するオプティカルフロー（白抜きの丸に接続される矢印で示す）を用いてアフィン変換パラメータが計算される。このアフィン変換パラメータは、式１を用いて求めることができる。

続いて、求められたアフィン変換パラメータに基づいて、アフィン変換パラメータのスコアが計算される。具体的には、求められたアフィン変換パラメータを用いて、現フレームの直前のフレームに対応する画像における全ての特徴点の移動先の位置を求める。そして、このアフィン変換パラメータを用いて求められた特徴点の位置と、現フレームにおいて検出された特徴点の位置とを比較して、互いに対応する２つの特徴点の位置の差分値が特徴点毎に計算される。差分値として、例えば、互いに対応する２つの特徴点の位置間の絶対距離が計算される。続いて、計算された差分値と、予め設定されている閾値とを特徴点毎に比較して、その差分値が閾値よりも小さい特徴点の個数をアフィン変換パラメータのスコアとして求める。このように、オプティカルフローが検出された特徴点の中から３個の特徴点をランダムに選択し、これらの特徴点に対応するオプティカルフローに基づいてアフィン変換パラメータのスコアを算出する処理を所定回数繰り返し、アフィン変換パラメータのスコアを複数算出する。この所定回数は、比較の対象となる画像の種類や画像処理装置１００の処理能力等に応じて適宜設定するようにしてもよく、固定値を用いるようにしてもよい。この所定回数として、例えば、画像処理装置１００の処理能力を考慮して２０回程度と設定することができる。

例えば、図２（ｂ）に示す画像３００において検出されたコーナー点の中から、コーナー点３０６乃至３１１以外のコーナー点が３個選択された場合を考える。このように選択された３個のコーナー点に対応する３個のオプティカルフローを用いてアフィン変換パラメータが計算されると、上述したように、この３個のオプティカルフローは一定の規則性を備えているため、直前のフレームに対応する画像を一定の規則に従って変換させるアフィン変換パラメータが求められる。このため、アフィン変換パラメータを用いて求められたコーナー点の位置と、現フレームにおいて検出されたコーナー点の位置とについて、コーナー点３０６乃至３１１以外のコーナー点に関して求められる差分値は、比較的小さい値が算出される。このため、アフィン変換パラメータのスコアは、大きい値になる。

一方、図２（ｂ）に示す画像３００において検出されたコーナー点の中から、コーナー点３０６乃至３１１のうちの少なくとも１個を含む３個のコーナー点が選択された場合を考える。このように選択された３個のコーナー点に対応する３個のオプティカルフローを用いてアフィン変換パラメータが計算されると、上述したように、この３個のオプティカルフローには、一定の規則性を備えていないオプティカルフローが含まれるため、直前のフレームに対応する画像を一定の規則に従って変換させるものではないアフィン変換パラメータが求められる。このため、アフィン変換パラメータを用いて求められたコーナー点の位置と、現フレームにおいて検出されたコーナー点の位置とについて求められる差分値は、任意のコーナー点で比較的大きい値が算出される。このため、アフィン変換パラメータのスコアは、小さい値になる。

続いて、求められた複数のアフィン変換パラメータのスコアの中で、スコアの値が最も大きいアフィン変換パラメータを代表アフィン変換パラメータとして選択する。そして、選択された代表アフィン変換パラメータを、画像変換部１４０に供給する。これにより、動画を構成する画像をアフィン変換する場合に、最適なアフィン変換パラメータを用いてアフィン変換することができる。

以上で示したように、動画を構成する各画像に人物や車等の動いている物体（動物体）が含まれている場合でも、画像の面積に対するその動物体の大きさが比較的小さい場合には、動物体の影響を受けずに撮像装置の動きを抽出することができる。

また、撮像装置の動きを抽出することによって、ズームイン、ズームアウト、パン、チルト、ローテーション等の意図的に撮影者が移動させたと思われる動きを推定することができる。

次に、本発明の実施の形態における画像処理装置１００の動作について図面を参照して説明する。

図４は、本発明の実施の形態における画像処理装置１００によるアフィン変換パラメータ検出処理の処理手順を示すフローチャートである。

最初に、コンテンツ取得部１２０にコンテンツファイルが取得される（ステップＳ９００）。続いて、コンテンツ取得部１２０により取得されたコンテンツファイルの動画がデコードされ、時系列の順序で１つのフレームの画像が取得される（ステップＳ９０１）。続いて、取得された１つのフレームが画像変換情報供給部１３０に入力された動画の先頭のフレームであるか否かが判断される（ステップＳ９０２）。取得された１つのフレームが、先頭のフレームである場合には（ステップＳ９０２）、この先頭のフレームに対応する画像の全体から特徴点が抽出される（ステップＳ９０３）。例えば、図２（ｂ）に示すように、画像において複数のコーナー点が抽出される。続いて、アフィン変換パラメータとして単位行列のアフィン変換パラメータが選択され（ステップＳ９０４）、ステップＳ９１４に進む。

一方、取得された１つのフレームが、先頭のフレームではない場合には（ステップＳ９０２）、直前のフレームに対応する画像を基準として新たに撮影された領域から特徴点が抽出される（ステップＳ９０５）。すなわち、直前のフレームに対応する画像において既に抽出されている特徴点については、この特徴点に対応するオプティカルフローにより求めることができるため、現フレームに対応する画像においては抽出されない。

続いて、直前のフレームに対応する画像から抽出された各特徴点に対するオプティカルフローが計算される（ステップＳ９０６）。すなわち、図２（ｂ）に示すように、各コーナー点に対するオプティカルフローが計算される。

続いて、変数ｉが「１」に初期化される（ステップＳ９０７）。続いて、オプティカルフローが検出された特徴点の中から、Ｍ個の特徴点が選択される（ステップＳ９０８）。例えば、アフィン変換パラメータを用いる場合には、３個の特徴点がランダムに選択される。また、射影変換パラメータを用いる場合には、４個の特徴点がランダムに選択される。続いて、選択されたＭ個の特徴点に対応して計算されたＭ個のオプティカルフローに基づいて、アフィン変換パラメータが計算される（ステップＳ９０９）。

続いて、計算して求められたアフィン変換パラメータに基づいて、アフィン変換パラメータのスコアが計算される（ステップＳ９１０）。具体的には、計算して求められたアフィン変換パラメータを用いて、直前のフレームに対応する画像における全ての特徴点の移動先の位置を求める。そして、このアフィン変換パラメータを用いて求められた特徴点の位置と、ステップＳ９０６でオプティカルフローを計算した際に求められた現フレームに対応する画像における特徴点の位置とを比較して、互いに対応する２つの特徴点の位置の差分値が特徴点毎に計算される。差分値として、例えば、互いに対応する２つの位置間の絶対距離が計算される。続いて、計算された差分値と、予め設定されている閾値とを特徴点毎に比較して、その差分値が閾値よりも小さい特徴点の個数をアフィン変換パラメータのスコアとして求める。

続いて、変数ｉに「１」が加算され（ステップＳ９１１）、変数ｉが、定数Ｎよりも大きいか否かが判断される（ステップＳ９１２）。変数ｉが、定数Ｎ以下である場合には（ステップＳ９１２）、ステップＳ９０８に戻り、アフィン変換パラメータのスコア算出処理を繰り返す（ステップＳ９０８乃至Ｓ９１０）。例えば、定数Ｎとして、２０を用いることができる。

一方、変数ｉが定数Ｎよりも大きい場合には（ステップＳ９１２）、求められたアフィン変換パラメータのスコアのうちで、スコアの値が最も大きいアフィン変換パラメータが代表アフィン変換パラメータとして選択される（ステップＳ９１３）。続いて、選択された代表アフィン変換パラメータが、画像変換部１４０に供給される（ステップＳ９１４）。なお、現フレームが先頭のフレームである場合には、選択された単位行列のアフィン変換パラメータが、画像変換部１４０に供給される。続いて、現フレームに対応する画像と、この画像における特徴点とが上書き保存される（ステップＳ９１５）。

続いて、現フレームが、画像変換情報供給部１３０に入力された動画の最後のフレームであるか否かが判断される（ステップＳ９１６）。現フレームが、最後のフレームではない場合には（ステップＳ９１６）、ステップＳ９０１に戻り、アフィン変換パラメータ検出処理を繰り返す（ステップＳ９０１乃至Ｓ９１５）。一方、現フレームが、最後のフレームである場合には（ステップＳ９１６）、アフィン変換パラメータ検出処理を終了する。

本発明の実施の形態では、動画を構成する画像において検出されたオプティカルフローに基づいてアフィン変換パラメータを検出する例について説明したが、加速度センサやジャイロセンサ等のセンサやズーム操作をする際に用いられるズームボタンを撮像装置に設け、このセンサやズームボタンによって撮影時における撮像装置の移動量を検出し、この撮像装置の移動量に基づいてアフィン変換パラメータを求めるようにしてもよい。なお、これらの撮影時において検出された撮像装置の移動量については、画像変換情報供給部１３０により求められたアフィン変換パラメータが正しいか否かを判断する際に用いることができる。また、画像変換情報供給部１３０により複数のアフィン変換パラメータを検出しておき、撮影時において検出された撮像装置の移動量に基づいて、この複数のアフィン変換パラメータの中から１つのアフィン変換パラメータを選択するようにしてもよい。

次に、上述したアフィン変換パラメータを用いて動画を再生表示する場合について図面を参照して詳細に説明する。なお、図５乃至図１６に示す各画像は、説明のため、簡略化するとともに、連続する２つのフレーム間の移動量を大きくして示している。

最初に、撮像装置の撮影時において、倍率が変更されないものの、撮像装置の位置を中心として、撮像装置のレンズの方向が上下左右の何れかに移動されている場合について説明する。

図５は、撮像装置により撮影された動画の遷移の一例を示す図である。図５には、山を背景にして人４００を撮影した場合における動画に含まれる連続するフレームに対応する画像４０１乃至４０３を示す図である。この例では、撮像装置のレンズの方向を右および上側に移動しながら、撮影者が撮影を行っている場合を示す。この場合には、撮像装置により撮影される動画に含まれる人４００が、その動画を構成する画像において右側から左側に移動するとともに下側に移動する。

図６は、図５に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図６（ａ）に示す画像４０１は、図５（ａ）に示す画像４０１と同じものである。また、図６（ｂ）に示す画像４０２のうちの実線の部分は、図５（ｂ）に示す画像４０２と同じものであり、図６（ｂ）に示す画像４０２のうちの破線の部分は、図６（ａ）に示す画像４０１の実線の部分と同じものである。また、図６（ｂ）に示す画像４０２における矢印４０４乃至４０６は、画像４０２から検出されたオプティカルフローの一例を示す。同様に、図６（ｃ）に示す画像４０３のうちの実線の部分は、図５（ｃ）に示す画像４０３と同じものであり、図６（ｃ）に示す画像４０３のうちの破線の部分は、図６（ｂ）に示す画像４０２の実線の部分と同じものである。また、図６（ｃ）に示す画像４０３における矢印４０７乃至４０９は、画像４０３から検出されたオプティカルフローの一例を示す。

図６（ｂ）および（ｃ）に示すように、撮像装置の移動に合わせて、画像に含まれる人４００および背景の山が移動する。この移動により検出されるオプティカルフローに基づいてアフィン変換パラメータをフレーム毎に求めることができる。

図７は、図５に示す画像４０１乃至４０３を含む動画を再生する場合における表示例を示す図である。なお、本発明の実施の形態では、動画を構成する各画像が合成されるため、再生時間の経過とともに、表示部１８０に表示される画像が通常の画像よりも大きくなる。このため、最初に表示される画像は、表示部１８０の表示領域の大きさよりも比較的小さくして表示される。なお、最初に表示される画像の大きさや位置等をユーザが指定するようにしてもよい。

図７（ａ）に示すように、最初は、先頭のフレームに対応する画像４０１のみが表示される。ここで、画像４０１に対応するアフィン変換パラメータの行列（３×３の行列）をＡ１とする場合に、Ａ１は単位行列であるため、画像４０１の位置および大きさは変換されない。続いて、次のフレームに対応する画像４０２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４０２がアフィン変換される。具体的には、画像４０２に対応するアフィン変換パラメータの行列をＡ２とし、画像４０１に対応するアフィン変換パラメータの行列をＡ１とする場合において、「Ａ１×Ａ２」の値が求められ、先頭のフレームの画像４０１の位置および大きさを基準にして、求められた「Ａ１×Ａ２」の行列により画像４０２がアフィン変換される。図７（ｂ）に示す画像においては、画像４０２の位置のみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４０２が、直前のフレームに対応する画像４０１に重なるように上書きされる。すなわち、画像４０１の領域のうちで、画像４０２と重複する領域４１０については、画像４０２の画像が上書きされる。また、画像４０１の領域のうちで、画像４０２と重複しない領域４１１については、画像４０１の画像が合成される。すなわち、２つ目のフレームに対応する画像４０２が表示される場合には、図７（ｂ）に示すように、画像４０２の全体部分と、画像４０１のうちの領域４１１に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させることができる。図７（ｂ）では、画像４０２に画像枠が表示される。また、画像４０２をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。

続いて、次のフレームに対応する画像４０３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４０３がアフィン変換される。すなわち、画像４０３に対応するアフィン変換パラメータの行列と、直前のアフィン変換に用いられた画像４０２に対応するアフィン変換パラメータの行列とを乗算して求められたアフィン変換パラメータにより画像４０３がアフィン変換される。具体的には、画像４０３に対応するアフィン変換パラメータの行列をＡ３とし、画像４０２に対応するアフィン変換パラメータの行列をＡ２とし、画像４０１に対応するアフィン変換パラメータの行列をＡ１とする場合において、「Ａ１×Ａ２×Ａ３」の値が求められ、先頭のフレームの画像４０１の位置および大きさを基準にして、求められた「Ａ１×Ａ２×Ａ３」の行列により画像４０３がアフィン変換される。図７（ｃ）に示す画像においては、画像４０３の位置のみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４０３が、前のフレームに対応する画像４０１および４０２の合成画像に重なるように上書きされる。すなわち、画像４０１および４０２の合成画像の領域のうちで、画像４０３と重複する領域４１３および４１４については、画像４０３の画像が上書きされる。また、画像４０１および４０２の合成画像の領域のうちで、画像４０３と重複しない領域４１１および４１２については、画像４０１および４０２の合成画像が合成される。すなわち、３つ目のフレームに対応する画像４０３が表示される場合には、図７（ｃ）に示すように、画像４０３の全体部分と、画像４０１のうちの領域４１１に対応する部分と、画像４０２のうちの領域４１２に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させる場合には、図７（ｃ）に示す画像４０３に画像枠が表示される。また、画像４０３をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。すなわち、画像４０２および４０３のそれぞれに対応するアフィン変換パラメータの行列の乗算により求められたアフィン変換パラメータが画像変換部１４０に保持される。このように、現フレームに対応する画像をアフィン変換する場合には、現フレームに対応するアフィン変換パラメータの行列と、この直前までの各フレームに対応するアフィン変換パラメータの行列との乗算により求められたアフィン変換パラメータにより、現フレームに対応する画像がアフィン変換される。このアフィン変換の際に求められたアフィン変換パラメータが画像変換部１４０に保持され、次のアフィン変換で用いられる。また、図１１および図１５の場合についても同様である。

図８は、図５に示す画像４０１乃至４０３を含む動画を再生する場合における表示例を示す図である。図７に示す表示例は、現フレームの前の各フレームに対応する合成画像（最初は１つの画像）を固定して、アフィン変換された現フレームに対応する画像をその合成画像に上書きして合成し、この合成された画像を表示するものである。これに対して、図８に示す表示例は、現フレームに対応する画像の位置を固定とし、現フレームの前の各フレームに対応する合成画像を、アフィン変換パラメータの方向とは逆方向にアフィン変換し、このアフィン変換された合成画像に現フレームに対応する画像を上書きして合成し、この合成された画像を表示するものである。すなわち、図７および図８に示す表示例は、固定位置に表示される画像、および、アフィン変換の対象となる画像が異なるものの、他の部分は共通する。このため、図７に共通する部分については、共通の符号を付して説明する。

図８（ａ）に示すように、最初は、先頭のフレームに対応する画像４０１のみが表示される。続いて、次のフレームに対応する画像４０２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて直前の画像である画像４０１が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。具体的には、画像４０２に対応するアフィン変換パラメータの行列をＡ２とし、画像４０１に対応するアフィン変換パラメータの行列をＡ１とする場合において、ｉｎｖ（Ａ１×Ａ２）の値が求められ、求められたｉｎｖ（Ａ１×Ａ２）の行列により画像４０１がアフィン変換される。ここで、ｉｎｖＡ（Ａは行列）は、Ａの逆行列である。図８（ｂ）に示す画像においては、画像４０１の位置のみが変換される。そして、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４０１に、現フレームに対応する画像４０２が重なるように上書きされる。なお、画像４０１に画像４０２が上書きされた合成画像は、図７（ｂ）に示す合成画像と同じであるため、ここでの説明は省略する。

続いて、次のフレームに対応する画像４０３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて、前のフレームに対応する画像４０１および画像４０２の合成画像が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。具体的には、画像４０３に対応するアフィン変換パラメータの行列をＡ３とし、画像４０２に対応するアフィン変換パラメータの行列をＡ２とし、画像４０１に対応するアフィン変換パラメータの行列をＡ１とする場合において、ｉｎｖ（Ａ１×Ａ２×Ａ３）の値が求められ、このｉｎｖ（Ａ１×Ａ２×Ａ３）の行列により画像４０１および４０２の合成画像がアフィン変換される。図８（ｃ）に示す画像においては、画像４０１および画像４０２の合成画像の位置のみが変換される。そして、現フレームに対応する画像４０３が、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４０１および４０２の合成画像に重なるように上書きされる。なお、画像４０１および４０２に画像４０３が上書きされた合成画像は、図７（ｃ）に示す合成画像と同じであるため、ここでの説明は省略する。

次に、撮像装置の撮影時において、撮像装置のレンズの方向は移動されないものの、倍率が変更されている場合について説明する。

図９は、撮像装置により撮影された動画の遷移の一例を示す図である。図９には、山を背景にして人４２０を撮影した場合における動画に含まれる連続するフレームに対応する画像４２１乃至４２３を示す図である。この例では、撮像装置のレンズの倍率を上げながら、撮影者が撮影を行っている場合を示す。この場合には、撮像装置により撮影される動画に含まれる人４２０が、その動画を構成する画像において次第に大きくなる。なお、倍率を上げる際に撮像装置の位置が多少移動する場合があるものの、この例では、撮像装置の位置の移動については考慮せずに説明する。

図１０は、図９に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図１０（ａ）に示す画像４２１は、図９（ａ）に示す画像４２１と同じものである。また、図１０（ｂ）に示す画像４２２のうちの実線の部分は、図９（ｂ）に示す画像４２２と同じものであり、図１０（ｂ）に示す画像４２２のうちの破線の部分は、図９（ａ）に示す画像４２１の実線の部分と同じものである。また、図１０（ｂ）に示す画像４２２における矢印４２４乃至４２６は、画像４２２から検出されたオプティカルフローの一例を示す。同様に、図１０（ｃ）に示す画像４２３のうちの実線の部分は、図９（ｃ）に示す画像４２３と同じものであり、図１０（ｃ）に示す画像４２３のうちの破線の部分は、図９（ｂ）に示す画像４２２の実線の部分と同じものである。また、図１０（ｃ）に示す画像４２３における矢印４２７乃至４２９は、画像４２３から検出されたオプティカルフローの一例を示す。

図１０（ｂ）および（ｃ）に示すように、倍率の変更に合わせて、画像に含まれる人４２０および背景の山の大きさが変更する。この変更により検出されるオプティカルフローに基づいてアフィン変換パラメータをフレーム毎に求めることができる。

図１１は、図９に示す画像４２１乃至４２３を含む動画を再生する場合における表示例を示す図である。

図１１（ａ）に示すように、最初は、先頭のフレームに対応する画像４２１のみが表示される。続いて、次のフレームに対応する画像４２２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４２２がアフィン変換される。図１１（ｂ）に示す画像においては、画像４２２の大きさのみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４２２が、直前のフレームに対応する画像４２１に重なるように上書きされる。すなわち、画像４２１の領域のうちで、画像４２２と重複する領域については、画像４２２の画像が上書きされる。この場合には、画像４２１は、画像４２２の全ての領域と重複しているため、画像４２１に画像４２２の全ての画像が上書きされる。また、画像４２１の領域のうちで、画像４２２と重複しない領域４３１については、画像４２１の画像が合成される。すなわち、２つ目のフレームに対応する画像４２２が表示される場合には、図１１（ｂ）に示すように、画像４２２の全体部分と、画像４２１のうちの領域４３１に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させることができる。図１１（ｂ）では、画像４２２に画像枠が表示される。また、画像４２２をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。

続いて、次のフレームに対応する画像４２３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４２３がアフィン変換される。すなわち、画像４２３に対応するアフィン変換パラメータの行列と、直前のアフィン変換に用いられた画像４２２に対応するアフィン変換パラメータの行列とを乗算して求められたアフィン変換パラメータにより画像４２３がアフィン変換される。図１１（ｃ）に示す画像においては、画像４２３の大きさのみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４２３が、前のフレームに対応する画像４２１および４２２の合成画像に重なるように上書きされる。すなわち、画像４２１および４２２の合成画像の領域のうちで、画像４２３と重複する領域については、画像４２３の画像が上書きされる。この場合には、画像４２３は、画像４２１および４２２の全ての領域と重複しているため、画像４２１および４２２の合成画像に画像４２３の全ての画像が上書きされる。また、画像４２１および４２２の合成画像の領域のうちで、画像４２３と重複しない領域４３２および４３３については、画像４２１および４２２の合成画像が合成される。すなわち、３つ目のフレームに対応する画像４２３が表示される場合には、図１１（ｃ）に示すように、画像４２３の全体部分と、画像４２１のうちの領域４３２に対応する部分と、画像４２２のうちの領域４３３に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させる場合には、図１１（ｃ）に示す画像４２３に画像枠が表示される。また、画像４２３をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。すなわち、画像４２２および４２３のそれぞれに対応するアフィン変換パラメータの行列の乗算により求められたアフィン変換パラメータが画像変換部１４０に保持される。

図１２は、図９に示す画像４２１乃至４２３を含む動画を再生する場合における表示例を示す図である。図１１および図１２に示す表示例の相違は、図７および図８に示す表示例の相違と同様であり、固定位置に表示される画像、および、アフィン変換の対象となる画像が異なるものの、他の部分は共通する。このため、図１１に共通する部分については、共通の符号を付して説明する。

図１２（ａ）に示すように、最初は、先頭のフレームに対応する画像４２１のみが表示される。続いて、次のフレームに対応する画像４２２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて直前の画像である画像４２１が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。図１２（ｂ）に示す画像においては、画像４２１の大きさのみが変換される。そして、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４２１に、現フレームに対応する画像４２２が重なるように上書きされる。なお、画像４２１に画像４２２が上書きされた合成画像については、大きさが異なるものの、その他の点は、図１１（ｂ）に示す合成画像と同じであるため、ここでの説明は省略する。

続いて、次のフレームに対応する画像４２３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて、前のフレームに対応する画像４２１および画像４２２の合成画像が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。図１２（ｃ）に示す画像においては、画像４２１および４２２の合成画像の大きさのみが変換される。そして、現フレームに対応する画像４２３が、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４２１および４２２の合成画像に重なるように上書きされる。なお、画像４２１および４２２の合成画像に画像４２３が上書きされた合成画像は、大きさが異なるものの、その他の点は、図１１（ｃ）に示す合成画像と同じであるため、ここでの説明は省略する。

次に、撮像装置の撮影時において、撮像装置のレンズの方向や倍率は変更されないものの、撮影方向を回転中心にして撮像装置が回転されている場合について説明する。

図１３は、撮像装置により撮影された動画の遷移の一例を示す図である。図１３には、山を背景にして人４４０を撮影した場合における動画に含まれる連続するフレームに対応する画像４４１乃至４４３を示す図である。この例では、撮影方向を回転中心にして撮像装置を回転しながら、撮影者が撮影を行っている場合を示す。この場合には、撮像装置により撮影される動画に含まれる人４４０が、その動画を構成する画像において回転していく。なお、撮像装置の回転により撮像装置の位置が多少移動する場合があるものの、この例では、撮像装置の位置の移動については考慮せずに説明する。

図１４は、図１３に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図１４（ａ）に示す画像４４１は、図１３（ａ）に示す画像４４１と同じものである。また、図１４（ｂ）に示す画像４４２のうちの実線の部分は、図１３（ｂ）に示す画像４４２と同じものであり、図１４（ｂ）に示す画像４４２のうちの破線の部分は、図１３（ａ）に示す画像４４１の実線の部分と同じものである。また、図１４（ｂ）に示す画像４４２における矢印４４４乃至４４６は、画像４４２から検出されたオプティカルフローの一例を示す。同様に、図１４（ｃ）に示す画像４４３のうちの実線の部分は、図１３（ｃ）に示す画像４４３と同じものであり、図１４（ｃ）に示す画像４４３のうちの破線の部分は、図１３（ｂ）に示す画像４４２の実線の部分と同じものである。また、図１４（ｃ）に示す画像４４３における矢印４４７乃至４４９は、画像４４３から検出されたオプティカルフローの一例を示す。

図１４（ｂ）および（ｃ）に示すように、撮像装置の回転に合わせて、画像に含まれる人４４０および背景の山が回転移動する。この回転移動により検出されるオプティカルフローに基づいてアフィン変換パラメータをフレーム毎に求めることができる。

図１５は、図１３に示す画像４４１乃至４４３を含む動画を再生する場合における表示例を示す図である。

図１５（ａ）に示すように、最初は、先頭のフレームに対応する画像４４１のみが表示される。続いて、次のフレームに対応する画像４４２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４４２がアフィン変換される。図１５（ｂ）に示す画像においては、画像４４２の角度のみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４４２が、直前のフレームに対応する画像４４１に重なるように上書きされる。すなわち、画像４４１の領域のうちで、画像４４２と重複する領域４５０については、画像４４２の画像が上書きされる。また、画像４４１の領域のうちで、画像４４２と重複しない領域４５１および４５２については、画像４４１の画像が合成される。すなわち、２つ目のフレームに対応する画像４４２が表示される場合には、図１５（ｂ）に示すように、画像４４２の全体部分と、画像４４１のうちの領域４５１および４５２に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させることができる。図１５（ｂ）では、画像４４２に画像枠が表示される。また、画像４４２をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。

続いて、次のフレームに対応する画像４４３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて画像４４３がアフィン変換される。すなわち、画像４４３に対応するアフィン変換パラメータの行列と、直前のアフィン変換に用いられた画像４４２に対応するアフィン変換パラメータの行列とを乗算して求められたアフィン変換パラメータにより画像４４３がアフィン変換される。図１５（ｃ）に示す画像においては、画像４４３の角度のみが変換される。そして、アフィン変換パラメータによりアフィン変換された画像４４３が、前のフレームに対応する画像４４１および４４２の合成画像に重なるように上書きされる。すなわち、画像４４１および４４２の合成画像の領域のうちで、画像４４３と重複する領域４５３乃至４５７については、画像４４３の画像が上書きされる。また、画像４４１および４４２の合成画像の領域のうちで、画像４４３と重複しない領域４５８乃至４６１については、画像４４１および４４２の合成画像がさらに合成される。すなわち、３つ目のフレームに対応する画像４４３が表示される場合には、図１５（ｃ）に示すように、画像４４３の全体部分と、画像４４１のうちの領域４５９に対応する部分と、画像４４２のうちの領域４５８および４６０に対応する部分とが合成された画像が表示される。また、表示されている画像のうちで最新の画像であることを示す画像枠を現フレームに対応する画像の周りに表示させる場合には、図１５（ｃ）に示す画像４４３に画像枠が表示される。また、画像４４３をアフィン変換したアフィン変換パラメータが画像変換部１４０に保持される。すなわち、画像４４２および４４３のそれぞれに対応するアフィン変換パラメータの行列の乗算により求められたアフィン変換パラメータが画像変換部１４０に保持される。

図１６は、図１３に示す画像４４１乃至４４３を含む動画を再生する場合における表示例を示す図である。図１５および図１６に示す表示例の相違は、図７および図８に示す表示例の相違と同様であり、固定位置に表示される画像、および、アフィン変換の対象となる画像が異なるものの、他の部分は共通する。このため、図１５に共通する部分については、共通の符号を付して説明する。

図１６（ａ）に示すように、最初は、先頭のフレームに対応する画像４４１のみが表示される。続いて、次のフレームに対応する画像４４２が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて直前の画像である画像４４１が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。図１６（ｂ）に示す画像においては、画像４４１の角度のみが変換される。そして、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４４１に、現フレームに対応する画像４４２が重なるように上書きされる。なお、画像４４１に画像４４２が上書きされた合成画像については、角度が異なるものの、その他の点は、図１５（ｂ）に示す合成画像と同じであるため、ここでの説明は省略する。

続いて、次のフレームに対応する画像４４３が表示される場合には、このフレームに関連付けられているアフィン変換パラメータを用いて、前のフレームに対応する画像４４１および画像４４２の合成画像が、アフィン変換パラメータの方向とは逆方向にアフィン変換される。図１６（ｃ）に示す画像においては、画像４４１および４４２の合成画像の角度のみが変換される。そして、現フレームに対応する画像４４３が、アフィン変換パラメータの方向とは逆方向にアフィン変換された画像４４１および４４２の合成画像に重なるように上書きされる。なお、画像４４１および４４２に画像４４３が上書きされた合成画像は、角度が異なるものの、その他の点は、図１５（ｃ）に示す合成画像と同じであるため、ここでの説明は省略する。

以上では、動画を構成する各画像の位置、倍率および角度が順次変更される場合についてそれぞれ説明したが、これらの変更が組み合わされている場合についても同様に適用することができる。

ここで、現フレームに対応する画像の中心位置、角度および倍率の算出処理例について説明する。上述のように現フレームに対応する画像は、基準画像のフレームから現フレームまでの各フレームに対応するアフィン変換パラメータの行列が乗算されたものを用いて変換される。そのため、基準画像からの現フレームに対応する画像の移動量、回転角または倍率は、乗算により求められるアフィン変換パラメータを用いることで算出することができる。具体的には、画像変換部１４０により保持されている変換の基準とされた先頭フレームの中心位置、角度および倍率を示す基準情報、および、現フレームまでの各フレームに対応するアフィン変換パラメータの行列を乗算したものを用いることで、現フレームに対応する画像の中心位置、角度および倍率を算出することができる。現フレームに対応する画像の中心位置については、基準情報の中心位置および乗算されたアフィン変換パラメータの行列を用いて式１から算出され、角度θおよび倍率ｚについては、乗算されたアフィン変換パラメータを用いて、例えば、次式から算出される。

図１７は、本発明の実施の形態における音声変換処理部２００の構成例を示すブロック図である。ここでは一例として、右チャンネルおよび左チャンネルの入力音声を右チャンネルおよび左チャンネルの出力音声に変換する例を示す。

音量調整部２０１は、音量増幅器２０３乃至２０６を備える。音量増幅器２０３は、音声変換情報算出部１９０からの音声変換情報ＲＲに基づいて右チャンネル入力音声を増幅する。音量増幅器２０４は、音声変換情報算出部１９０からの音声変換情報ＲＬに基づいて右チャンネル入力音声を増幅する。音量増幅器２０３は、音声変換情報算出部１９０からの音声変換情報ＬＲに基づいて左チャンネル入力音声を増幅する。音量増幅器２０４は、音声変換情報算出部１９０からの音声変換情報ＬＬに基づいて左チャンネル入力音声を増幅するものである。ここにいう、音声変換情報とは、表示部１８０の表示画面における現フレームの中心位置、角度および倍率から算出される情報であり、各チャンネルの音量の調整値を示すものである。

音声加算部２０２は、音声加算器２０７および２０８を備える。音声加算器２０７は、音量増幅器２０３により増幅された右チャンネル入力音声および音量増幅器２０５により増幅された左チャンネル入力音声を加算するものである。この音声加算器２０７は、加算した音声を右チャンネル出力音声として音声出力制御部２１０に出力する。音声加算器２０８は、音量増幅器２０４により増幅された右チャンネル入力音声および音量増幅器２０６により増幅された左チャンネル入力音声を加算するものである。この音声加算器２０８は、加算した音声を左チャンネル出力音声として音声出力制御部２１０に出力する。これにより、入力音声が音声変換情報に従って変換されて、出力音声として音声出力制御部２１０に供給される。

次に、本発明の実施の形態における現フレームに対応する画像の移動に関する音声変換処理について図面を参照して詳細に説明する。

図１８は、撮像された動画を通常の再生方法により再生する例の概要を示す図である。図１８（ａ）には、右から左に移動する車を撮像対象として、撮像装置５００により撮像された撮像範囲５１１乃至５１３が示されている。また、撮像範囲５１１乃至５１３の中心に車５１４乃至５１６が収まるように撮像されている。なお、ここでは図面の理解を容易にするために、便宜的に撮像画像５１１乃至５１３の面積に対する車５１４乃至５１６の割合を比較的大きくして示しているが、図３で述べたように、動物体の影響を受けずに撮像装置の動きを抽出するには、画像の面積に対する動物体を比較的小さくして撮像することが好ましい。また、以下では、撮像範囲５１１乃至５１３に対応する撮像画像については、同一の符号を付して撮像画像５１１乃至５１３として説明する。撮像装置５００は、右マイク５０１と左マイク５０２とを備え、撮像画像５１１乃至５１３とともに、右マイク５０１および左マイク５０２により右チャンネルおよび左チャンネルの入力音声が取得される。取得された入力音声は、一般に、撮像装置５００のファインダーに映し出される画像と合っている。図１８（ｂ）には、図１８（ａ）で示す撮像画像５１１乃至５１３を通常の再生方法で再生する例が示されている。撮像画像５１１乃至５１３は、表示部１８０の表示画面全体に表示され、撮像画像５１１乃至５１３内の車５１４乃至５１６は、表示画面中央に表示される。ここで、撮像画像５１１乃至５１３の表示に合わせて出力される出力音声については、右チャンネルおよび左チャンネルの入力音声がそのまま右スピーカ２２１および左スピーカ２２２に出力される。このような通常の再生方法では、撮像画像の入力音声をそのまま出力音声として出力しても撮像画像に合った音声となる。なお、音量表示５１７および５１８は、右チャンネルおよび左チャンネルの入力音声の音量を示しており、また、右チャンネルの入力音声の音量を白で表し、左チャンネルの入力音声の音量を黒で表している。

図１９は、本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。ここでは、現フレームの前の各画像により形成された合成画像を固定して画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いて現フレームに対応する画像を変換して再生する例を示す。図１９で示す撮像画像５１１乃至５１３は、図１８（ａ）で示す撮像画像５１１乃至５１３と同じであるが、この例では、撮像装置５００の移動方向５２１から求められたアフィン変換パラメータに基づいて表示部１８０の表示画面上の右から左に撮像画像５１１、５１２、５１３の順に表示される。なお、図１９では、説明のため、撮像画像５１１乃至５１３の間隔を空けない状態を示す。この場合には、図１８（ｂ）と異なり、撮像画像５１１乃至５１３が表示画面上を移動するため、取得された入力音声をそのまま出力させると、撮像画像５１１乃至５１３の移動に応じた自然な音響効果を得ることができない。そこで、本発明の実施の形態では、画像処理装置１００は、表示画面上における撮像画像５１１乃至５１３の中心位置に応じて左チャンネルおよび右チャンネルの入力音声の加算割合を調整して出力チャンネル毎に出力する。具体的には、表示画面上における撮像画像５１１乃至５１３の中心位置に応じて右チャンネルおよび左チャンネルの入力音声の音量の比率を調整して加算された音声が各スピーカに出力される。表示画面上に撮像画像５１３が表示された場合を例にすると、右スピーカ２２１の出力音声としては、右チャンネルの入力音声を減衰させた音量５１９の音声が出力される。ここでは、減衰させた音量５１９に左チャンネルの入力音声を加算しているが、撮像画像５１３の中心位置が表示画面上の左側に位置するため、左チャンネルの入力音声の音量の比率を「０」としている。そのため、右スピーカ２２１には右チャンネルの入力音声のみが出力される。左スピーカ２２２の出力音声としては、左チャンネルの入力音声の音量５１８に右チャンネルの入力音声の音量から減衰させた音量５１９を引いた音声の音量５２０を加算した音声が出力される。

次に、本発明の実施の形態における音声変換情報算出部１９０による移動に関する音声変換情報の算出例について図面を参照して詳細に説明する。

図２０は、本発明の実施の形態における表示部１８０の表示画面の座標系について示すブロック図である。この例では、表示画面における画像１８５を例にして説明する。

水平方向にＸ軸１８１を、垂直方向にＹ軸１８２をそれぞれ想定し、これらの軸の原点を表示部１８０の表示画面の中心とする。また、表示部１８０の表示画面の横幅１８３および縦幅１８４をそれぞれｗｉｄｔｈおよびｈｅｉｇｈｔにより表す。この座標系において、原点からの現フレームに対応する画像１８５の中心位置１８６の移動量としては、Ｘ軸方向における移動量１８７をｘ、Ｙ軸方向における移動量をｙとする。また、画像１８５とＸ軸の成す角度１８９をθとする。

このように定義した座標系を用いて、これ以降に示す音声変換情報の算出に関連するグラフおよび関係式を表すこととする。

図２１は、本発明の実施の形態における現フレームに対応する画像の中心位置と出力音声との関係を例示するグラフを示す図である。図２１（ａ）および（ｂ）では、横軸を、表示画面における画像の移動量（ｘ）を示す軸とし、縦軸を、入力音声に対する出力音声の比率（Ｒａｔｅ）を示す軸とする。実線６１１および６２１は、右チャンネルの出力音声の出力割合を示しており、破線６１２および６２２は、左チャンネルの出力音声の出力割合を示している。図２１（ａ）には、右チャンネルの入力音声が移動量ｘに応じて右チャンネルおよび左チャンネルの出力音声に配分される割合が示されている。図２１（ｂ）には、左チャンネルの入力音声が移動量ｘに応じて各チャンネルの出力音声に配分される割合が示されている。最終的に、右チャンネルの出力音声については、実線６１１および６２１から定まる右チャンネルおよび左チャンネルの音声が加算されて出力される。左チャンネルの出力音声についても、破線６１２および６２２から定まる各チャンネルの音声が加算されて出力される。

ここで示す実線６１１に関する移動量ｘと入力音声に対する出力音声の比率ｆ（ｘ）との関係は、次式を用いて表すことができる。
ｆ（ｘ）＝（α／（ｗｉｄｔｈ／２）)・ｘ＋１（−ｗｉｄｔｈ／２≦ｘ＜０）
１（０≦ｘ＜ｗｉｄｔｈ／２）

なお、ｗｉｄｔｈは、表示画面の横幅である。また、パラメータαの値は、例えば、０．３〜０．４とするのが望ましい。

上記式を用いると、破線６１２、実線６２１および破線６２２の関係式は、それぞれ１−ｆ（ｘ）、１−ｆ（−ｘ）およびｆ（−ｘ）として表される。

ここで、入力音声の変換に関する関係式は、式２として表される。
Ｒ'＝Ｒ・ＲＲ＋Ｌ・ＬＲ・・・（式２）
Ｌ'＝Ｒ・ＲＬ＋Ｌ・ＬＬ

なお、ＲＲ＝ｆ（ｘ）、ＲＬ＝（１−ｆ（ｘ））、ＬＲ＝（１−ｆ（−ｘ））、ＬＬ＝ｆ（−ｘ）である。また、ｘは、現フレームに対応する画像の移動量（水平方向における原点から現フレームに対応する画像の中心位置までの距離）である。Ｒ'およびＬ'は、それぞれ右チャンネルおよび左チャンネルの出力音声である。ＲおよびＬは、それぞれ右チャンネルおよび左チャンネルの入力音声である。

ここに示すＲＲ、ＲＬ、ＬＲおよびＬＬが音声変換情報に相当し、音声変換情報算出部１９０は、現フレームに対応する画像の中心位置から、これらＲＲ、ＲＬ、ＬＲおよびＬＬを算出する。

なお、ここでは一例として、スピーカ２２０を表示画面の左右に設置することを想定し、現フレームに対応する画像の画面上における左右方向の位置関係に基づいて、現フレームに対応する画像に係る音声に関する音声変換情報を算出する例について説明したが、例えば、センタースピーカのように表示画面の中央部分に設置するスピーカシステムや、表示画面の上下に設置するスピーカシステムにも適用してもよい。例えば、上下に設置するスピーカシステムに適用する場合には、現フレームに対応する画像の画面上における上下方向の位置関係に基づいて、現フレームに対応する画像に係る音声に関する音声変換情報を算出することができる。また、例えば、中央部分に設置するスピーカシステムに適用する場合には、現フレームに対応する画像の画面上における左右方向の位置関係に基づいて、現フレームに対応する画像に係る音声に関する音声変換情報を算出することができる。すなわち、アフィン変換パラメータに基づいて現フレームに対応する画像に係る音声に関する音声変換情報を算出することにより、この音声変換情報に基づいて音声を変換処理して出力音声を生成する。

次に、本発明の実施の形態における現フレームに対応する画像の回転に関する音声変換処理について図面を参照して詳細に説明する。

図２２は、撮像装置５００と被写体との関係について例示する図である。図２２（ａ）には、撮像開始時における状態が示されている。ここでは、右マイク５０１および左マイク５０２を備えた撮像装置５００により、声を出している人５３１およびベルが鳴っている目覚し時計５３２を撮像している状況が示されている。この場合、右マイク５０１には人５３１の声が比較的大きな割合で入力され、左マイク５０２には目覚し時計５３２の音が比較的大きな割合で入力される。図２２（ｂ）には、図２２（ａ）の状態において撮像された撮像画像５５１が示されている。音量表示５４３は、右マイク５０１により取得された右チャンネルの入力音声の音量であり、音量表示５４４は、左マイク５０２により取得された左チャンネルの入力音声の音量である。なお、撮像画像５５１におけるＲマーク５４１およびＬマーク５４２は、撮像画像上における右マイク５０１および左マイク５０２の位置関係を把握するための目印として示している。図２２（ｃ）は、図２２（ａ）の状態を撮像装置５００の背面から見た図である。ここでは、撮像装置５００を時計方向５４５に１８０度回転させて撮像動画を撮像する。この場合、右マイク５０１で取得される右チャンネルの入力音声は、回転角度に応じて、人５３１の声の割合が徐々に小さくなるのに対し、目覚し時計５３２のベルの音の割合が徐々に大きくなる。一方、左マイク５０２で取得される左チャンネルの入力音声は、回転角度に応じて、目覚し時計５３２のベルの音の割合が徐々に小さくなり、それとは逆に人５３１の声の割合が徐々に大きくなる。このようにして撮像された撮像動画の再生例について次図を参照して説明する。

図２３は、本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。図２３（ａ）には、図２２に示す撮像装置５００で撮像された撮像動画を通常の再生方法で表示した一連の表示画像５５１乃至５５５が示されている。図２３（ｂ）には、本発明の実施の形態における画像処理装置１００により再生した一連の表示画像５６１乃至５６５の一例が示されており、この再生例は、合成画像を固定して画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いて現フレームに対応する画像を変換する例である。なお、ここでは、簡略化のため表示画面の枠を省略して示しており、また、撮像画像は、表示画面の中心に表示されるものとする。

図２３（ａ）では、表示画像５５１乃至５５５上に表すＲマーク５４１およびＬマーク５４２の位置関係が変わらないため、表示画像５５１乃至５５５の入力音声をそのまま出力音声として出力しても、表示画像５５１乃至５５５に合った音声となる。

一方、図２３（ｂ）では、表示画像５６１乃至５６５上に表すＲマーク５４１およびＬマーク５４２の位置関係が変わるため、取得された入力音声をそのまま出力させると自然な音響効果を得ることができない。そこで、本発明の実施の形態では、画像処理装置１００は、表示画面上における表示画像の角度に応じて右チャンネルおよび左チャンネルの入力音声の加算割合を調整して出力チャンネル毎に出力する。具体的には、右チャンネルの出力音声としては、表示画像５６１乃至５６５の角度に応じて、右チャンネルの入力音声の音量を減衰させるとともに左チャンネルの入力音声の音量を徐々に加算した音声が出力される。左チャンネルの出力音声としては、右チャンネルの出力音声における右チャンネルの入力音量の減衰分、および、右チャンネルの出力音声において右チャンネルの入力音量が加算された分の残りの分を加算した音声が出力される。

図２４は、本発明の実施の形態における現フレームに対応する画像の角度と出力音声との関係を例示するグラフを示す図である。図２４（ａ）および（ｂ）では、横軸を、水平方向に対する角度（θ）を示す軸とし、縦軸を、入力音声に対する出力音声の比率（Ｒａｔｅ）を示す軸とする。実線７１１および７２１は、右チャンネルの出力音声の出力割合を示しており、破線７１２および７２２は、左チャンネルの出力音声の出力割合を示している。図２４（ａ）には、右チャンネルの入力音声が角度θに応じて各チャンネルの出力音声に配分される割合が示されている。図２４（ｂ）には、左チャンネルの入力音声が角度θに応じて各チャンネルの出力音声に配分される割合が示されている。最終的に、右チャンネルの出力音声については、実線７１１および７２１から定まる比率で各チャンネルの入力音声が加算されて出力される。左チャンネルの出力音声についても、破線７１２および７２２から定まる比率で各チャンネルの入力音声が加算されて出力される。

ここで示す実線７１１に関する現フレームに対応する画像の角度θと入力音声に対する出力音声の比率ｇ（θ）との関係は、次式を用いて表すことができる。
ｇ（θ）＝（１＋ｃｏｓθ）／２

上記式を用いると、破線７１２、実線７２１および破線７２２の関係式は、それぞれ１−ｇ（θ）、１−ｇ（θ）およびｇ（θ）として表される。ここで、音声変換情報に相当する、式２に示したＲＲ、ＲＬ、ＬＲおよびＬＬは、それぞれＲＲ＝ｇ（θ）、ＲＬ＝（１−ｇ（θ））、ＬＲ＝（１−ｇ（θ））、ＬＬ＝ｇ（θ）として表される。

なお、ここでは一例として、スピーカ２２０を表示画面の左右に設置することを想定したが、図２１と同様に、表示画面の上下に設置するスピーカシステムにも適用してもよい。

次に、本発明の実施の形態における現フレームに対応する画像の倍率に関する音声変換処理について図面を参照して詳細に説明する。

図２５は、本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。図２５（ａ）および（ｃ）には、右マイク５０１および左マイク５０２を備えた撮像装置５００により、人５３１および目覚し時計５３２を撮像している状況が示されている。そして、図２５（ｂ）、（ｄ）および（ｅ）には、撮像画像の表示例が示されており、ここでは、表示部１８０の表示画面の中心の一部領域に表示されていることとする。図２５（ｂ）には、図２５（ａ）に示す撮像装置５００で撮像された撮像画像５５１が示されている。音量表示５４３は、右マイク５０１により取得された右チャンネルの入力音声の音量であり、音量表示５４４は、左マイク５０２により取得された左チャンネルの入力音声の音量である。図２５（ｃ）には、図２５（ａ）に示す撮像装置５００の撮像状態から被写体にズームインした状態が示されている。

図２５（ｄ）および（ｅ）には、本発明の実施の形態における画像処理装置１００による再生例を示している。図２５（ｄ）は、現フレームに対応する画像の大きさを固定して画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いて合成画像を変換する再生例である。この場合には、撮像装置５００のズームイン操作により、撮像画像５７１における人５３１および目覚し時計５３２が拡大表示される。そこで、本発明の実施の形態では、画像処理装置１００は、現フレームに対応する画像の倍率に応じて左チャンネルおよび右チャンネルの入力音声の音量をそれぞれ同じ比率で調整して出力チャンネル毎に出力する。具体的には、撮像画像５５１に対する撮像画像５７１における被写体の拡大率に応じて、各チャンネルの入力音声の音量５４３および５４４を同じ比率で増幅（音量表示５４６および５４７をそれぞれ加算）させた音声がそれぞれ出力される。

一方、図２５（ｅ）は、合成画像を固定して画像変換情報供給部１３０から供給されたアフィン変換パラメータを用いて、現フレームに対応する画像を変換する再生例であるが、この場合には、表示画面上における撮像画像５７１の被写体の大きさが、図２５（ｂ）に示す被写体の大きさと変わらない。そこで、本発明の実施の形態では、画像処理装置１００は、入力音声の音量の比率を変えずにそのまま出力する。具体的には、この表示モードの場合には、画像変換部１４０は、現フレームに対応する画像の倍率以外の中心位置および角度を音声変換情報算出部１９０に出力する。

図２６は、本発明の実施の形態における現フレームに対応する画像の倍率と出力音声との関係を例示するグラフ図である。図２６（ａ）および（ｂ）では、横軸を、画像の倍率（ｚ）を示す軸とし、縦軸を、入力音声に対する出力音声の比率（Ｒａｔｅ）を示す軸とする。図２６（ａ）には、倍率ｚに応じた右チャンネルの入力音声に対する右チャンネルの出力音声の割合が示されている。図２６（ｂ）には、倍率ｚに応じた左チャンネルの入力音声に対する左チャンネルの出力音声の割合が示されている。

ここで示す実線７１３に関する倍率ｚと入力音声に対する出力音声の比率ｈ（ｚ）との関係は、次式を用いて表すことができる。
ｈ（ｚ）＝１−β （０＜ｚ≦ｚ１）
（２β／（ｚ２−ｚ１））・（ｚ−ｚ１）＋１−β （ｚ１≦ｚ＜ｚ２）
１＋β （ｚ２≦ｚ）

なお、ｚは、現フレームに対応する画像の倍率である。パラメータβは、倍率による音声への影響をあまり与えないように、例えば、０．１〜０．２とするのが望ましい。ｚ１およびｚ２は、βの値を考慮して、適宜、決められるものである。

ここで、音声変換情報に相当する、式２に示したＲＲおよびＬＬは、ＲＲ＝ＬＬ＝ｈ（ｚ）として表される。なお、図２５においては、各チャンネルの出力音声に対し、各チャンネルの入力音声が加算されない場合について説明したが、加算される場合には、その加算される各チャンネルの入力音声の音量は同じ比率で増幅されるため、ＲＬおよびＬＲについても、ＲＲおよびＬＬと同様にｈ（ｚ）として表される。また、ｈ（ｚ）は、次式に示す１＋βと１−βとを漸近線とするシグモイド関数等などでもよい。
ｈ（ｚ）＝（１／（１＋ｅ^{−（ｚ−１）}）−０．５）・β＋１

以上では、現フレームに対応する画像の中心位置、角度および倍率が順次変更される場合について説明したが、これらの変更が組み合わされている場合についてもそれぞれの関係式を掛け合わせることにより同様に表すことができる。具体的には、音声変換情報に相当する、式２に示すＲＲ、ＲＬ、ＬＲおよびＬＬは、それぞれＲＲ＝ｆ（ｘ）・ｇ（θ）・ｈ（ｚ）、ＲＬ＝（１−ｆ（ｘ））・（１−ｇ（θ））・ｈ（ｚ）、ＬＲ＝（１−ｆ（−ｘ））・（１−ｇ（θ））・ｈ（ｚ）、ＬＬ＝ｆ（−ｘ）・ｇ（θ）・ｈ（ｚ）として表される。なお、ここでは一例として、右チャンネルおよび左チャンネルの入力音声について説明したが、センターチャンネルを加えた入力音声について適用してもよい。

図２７は、本発明の実施の形態における画像処理装置１００による動画再生処理の処理手順を示すフローチャートである。

最初に、動画を構成する画像のサイズよりも大きいワークバッファが画像メモリ１６０に確保される（ステップＳ９２１）。続いて、コンテンツ記憶部１１０からコンテンツファイルが取得される（ステップＳ９２２）。続いて、コンテンツファイルをデコードして現フレームに対応する画像および音声を取得する（ステップＳ９２３）。続いて、画像変換情報供給部１３０により現フレームに対応するアフィン変換パラメータが画像変換部１４０に供給される（ステップＳ９２４）。ここで、現フレームが先頭のフレームである場合には、単位行列のアフィン変換パラメータが供給される。続いて、画像変換部１４０は、３つの再生表示モードのうち、どのモードに選択されているかを判断する（ステップＳ９２５）。

そして、現フレームよりも前の各フレームに対応する画像により合成された合成画像を固定して動画を再生表示する場合には、画像変換部１４０から現フレームに対応する画像の倍率以外の中心位置および角度が音声変換情報算出部１９０に出力される。（ステップＳ９２６）。続いて、画像変換部１４０において、乗算により求められたアフィン変換パラメータを用いて現フレームに対応する画像がアフィン変換される（ステップＳ９２７）。ここで、現フレームが先頭のフレームである場合には、単位行列のアフィン変換パラメータを用いてアフィン変換がされるため、実際の画像は変換されない。続いて、画像メモリ１６０に保持されていた画像に、アフィン変換された現フレームに対応する画像が上書きして合成され、その合成された合成画像が画像メモリ１６０に保存される（ステップＳ９２８）。ここで、現フレームが先頭のフレームである場合には、先頭のフレームに対応する画像が画像メモリ１６０に保存される。

その後、合成された合成画像が表示部１８０に表示される（ステップＳ９３８）。続いて、音声変換処理が実行される（ステップ９５０）。この音声変換処理ついては、次図を参照して詳細に説明する。続いて、取得された動画を構成するフレームの中で、現フレームが最後のフレームであるか否かが判断される（ステップＳ９３９）。現フレームが最後のフレームではない場合には（ステップＳ９３９）、ステップＳ９２３に戻り、合成画像表示処理を繰り返す。

一方、ステップＳ９２５で現フレームに対応する画像を固定して動画を再生表示する再生表示モードが選択されていると判断された場合には、画像変換部１４０から現フレームに対応する画像の倍率のみが音声変換情報算出部１９０に出力される（ステップＳ９２９）。続いて、画像変換部１４０において、乗算により求められたアフィン変換パラメータを用いて画像メモリ１６０に保存されている合成画像が、アフィン変換パラメータの方向とは逆方向にアフィン変換される（ステップＳ９３１）。ここで、現フレームが先頭のフレームである場合には、画像メモリ１６０に保存されている合成画像が存在しないため、画像は変換されない。続いて、アフィン変換パラメータの方向とは逆方向にアフィン変換された合成画像に、現フレームに対応する画像が上書きして合成され、その合成された合成画像が画像メモリ１６０に保存される（ステップＳ９３２）。ここで、現フレームが先頭のフレームである場合には、先頭のフレームに対応する画像が画像メモリ１６０に保存される。続いて、ステップＳ９３８に進む。

また、ステップＳ９２５で現フレームに対応する画像の表示倍率を固定して動画を再生表示する再生表示モードが選択されていると判断された場合には、画像変換部１４０から現フレームに対応する画像の中心位置、角度および倍率が音声変換情報算出部１９０に出力される（ステップＳ９３３）。画像変換情報供給部１３０により供給されたアフィン変換パラメータの各要素から、倍率に関する要素が分離される（ステップＳ９３４）。続いて、分離された倍率に関する要素を用いて、画像メモリ１６０に保存されていた合成画像が、アフィン変換パラメータの方向とは逆方向にアフィン変換される（ステップＳ９３５）。ここで、現フレームが先頭のフレームである場合には、画像メモリ１６０に保存されている合成画像が存在しないため、画像は変換されない。続いて、分離された移動または回転に関する要素を用いて、現フレームに対応する画像がアフィン変換される（ステップＳ９３６）。ここで、現フレームが先頭のフレームである場合には、単位行列のアフィン変換パラメータを用いてアフィン変換がされるため、実際の画像は変換されない。続いて、アフィン変換パラメータの方向とは逆方向にアフィン変換された合成画像に、アフィン変換された現フレームに対応する画像が上書きして合成され、その合成された合成画像が画像メモリ１６０に保存される（ステップＳ９３７）。続いて、ステップＳ９３８に進む。

ステップＳ９３９において、現フレームが最後のフレームである場合には（ステップＳ９３９）、画像メモリ１６０に確保されているワークバッファを解放して（ステップＳ９４１）、動画再生処理を終了する。

図２８は、本発明の実施の形態における画像処理装置１００による音声変換処理の処理手順例（ステップＳ９５０の処理手順）を示すフローチャートである。

最初に、音声変換情報算出部１９０は、画像変換部１４０により出力された現フレームに対応する画像の中心位置、角度または倍率に基づいて音声変換情報を算出する（ステップＳ９５１）。続いて、音量調整部２０１は、音声変換情報算出部１９０により算出された音声変換情報に基づいてコンテンツ取得部１２０から出力された音声を構成する複数のチャンネルの各音量を調整する（ステップＳ９５２）。続いて、音声加算部２０２は、調整された音声がチャンネル毎に加算されて各チャンネルの出力音声として出力する（ステップＳ９５３）。続いて、加算された各チャンネルの出力音声がスピーカ２２０にそれぞれ出力される（ステップＳ９５４）。

次に、本発明の実施の形態の第１の変形例について図面を参照して説明する。

図２９は、本発明の実施の形態における画像処理装置６５０の機能構成例を示すブロック図である。ここで、画像処理装置６５０は、図１に示す画像処理装置１００の一部を変形したものであり、この画像処理装置６５０において、コンテンツ記憶部１１０、コンテンツ取得部１２０および画像変換情報供給部１３０の代わりに、動画記憶部２４０、メタデータ記憶部２５０およびコンテンツ取得部１２１を設けた画像処理装置である。なお、動画記憶部２４０、メタデータ記憶部２５０およびコンテンツ取得部１２１以外の構成は、図１に示す画像処理装置１００と同様であるため、これら以外の構成についての説明は省略する。

動画記憶部２４０は、動画を動画ファイルとして記憶するものである。また、動画記憶部２４０は、コンテンツ取得部１２０からの要求に応じて動画ファイルをコンテンツ取得部１２０に供給する。なお、動画記憶部２４０に記憶される動画ファイルについては、図３０を参照して詳細に説明する。

メタデータ記憶部２５０は、動画を解析して求められた動き情報に基づいて算出されたアフィン変換パラメータをメタデータファイルとして記憶するものである。また、メタデータ記憶部２５０は、コンテンツ取得部１２０からの要求に応じてメタデータファイルをコンテンツ取得部１２０に供給する。なお、メタデータ記憶部２５０に記憶されるメタデータファイルについては、図３０を参照して詳細に説明する。

コンテンツ取得部１２１は、操作受付部２３０からの動画再生に係る操作入力に応じて、動画記憶部２４０に記憶されている動画ファイルと、この動画ファイルに関連付けられてメタデータ記憶部２５０に記憶されているメタデータファイルとを取得するものである。このコンテンツ取得部１２１は、取得された動画ファイルの動画およびメタデータファイルのアフィン変換パラメータを画像変換部１４０に出力する。また、コンテンツ取得部１２１は、取得された動画ファイルの動画に対応する音声を音声変換処理部２００に出力する。

図３０は、本発明の実施の形態における動画記憶部２４０およびメタデータ記憶部２５０に記録されている各ファイルを模式的に示す図である。図３０（ａ）では、動画記憶部２４０に記憶されている動画ファイル２４１乃至２４４と、動画ファイル２４１乃至２４４に関連付けてメタデータ記憶部２５０に記憶されているメタデータファイル２５１乃至２５３とを示す。ここで、動画記憶部２４０に記憶されている各動画ファイルを識別するための識別情報である動画ＩＤが、各動画ファイルに付与されているものとする。例えば、動画ファイル２４１には「＃１」が付与され、動画ファイル２４２には「＃２」が付与され、動画ファイル２４４には「＃ｎ」が付与されている。

図３０（ｂ）では、動画記憶部２４０に記憶されている動画ファイル２４１と、動画ファイル２４１に関連付けてメタデータ記憶部２５０に記憶されているメタデータファイル２５１とを模式的に示す図である。ここで、動画ファイル２４１は、ｎ枚のフレームで構成された動画のファイルであり、これらのｎ枚のフレームをフレーム１（２４５）乃至ｎ（２４８）として示す。

また、メタデータファイル２５１には、動画ＩＤ２５４と、フレーム番号２５５と、アフィン変換パラメータ２５６とが関連付けて格納されている。

動画ＩＤ２５４は、対応する動画ファイルに付与されている動画ＩＤであり、例えば、動画ファイル２４１に付与されている「＃１」が格納される。

フレーム番号２５５は、対応する動画ファイルの動画を構成する各フレームの通し番号であり、例えば、動画ファイル２４１の動画を構成するフレーム（１）２４５乃至（ｎ）２４８に対応する「１」乃至「ｎ」が格納される。

アフィン変換パラメータ２５６は、フレーム番号２５５に対応する動画の各フレームについて計算されたアフィン変換パラメータである。なお、フレーム番号２５５「１」に対応するアフィン変換パラメータ２５６「ａ１，ｂ１，ｃ１，ｄ１，ｅ１，ｆ１」は、単位行列のアフィン変換パラメータである。また、フレーム番号２５５「ｍ（ｍは２以上の整数）」に対応するアフィン変換パラメータ２５６「ａｍ，ｂｍ，ｃｍ，ｄｍ，ｅｍ，ｆｍ」は、フレーム「ｍ」の直前フレーム「ｍ−１」に対するアフィン変換パラメータである。

以上では、現フレームに対応する画像を表示部１８０の真中部分に固定して動画を再生するか否かに応じて、現フレームに対応する画像にアフィン変換を施して合成画像を作成する場合と、前の各フレームに対応する合成画像にアフィン変換パラメータの方向とは逆方向にアフィン変換を施して合成画像を作成する場合とについて説明した。しかしながら、現フレームに対応する現画像にアフィン変換を順次施して合成画像を作成して画像メモリに順次保存するとともに、この画像メモリの合成画像から、表示の対象となる領域である表示領域を取り出して表示させることができる。これにより、動画を再生中に表示部の表示態様を切り換えることができる。以下では、これらの動画再生方法について図面を参照して詳細に説明する。

次に、本発明の実施の形態の第２の変形例について図面を参照して説明する。

図３１は、本発明の実施の形態における画像処理装置６８０の機能構成例を示すブロック図である。ここで、画像処理装置６８０は、図２９に示す画像処理装置６５０の一部を変形したものである。この画像処理装置６８０は、図２９に示す画像処理装置６５０の機能構成に加えて表示領域取出部２６０および表示メモリ２７０を備え、画像合成部１５０、画像メモリ１６０および音声変換情報算出部１９０に代えて、画像合成部１５１、画像メモリ１６１および音声変換情報算出部１９１を設ける。この画像処理装置６８０は、表示画面内に現フレームに対応する画像を収めることができ、また、その処理に応じた音声変換処理をするものである。なお、動画記憶部２４０、メタデータ記憶部２５０、画像変換部１４０、音声変換処理部２００、音声出力制御部２１０およびスピーカ２２０の構成は、図２９に示す画像処理装置と同様であるため、これらの説明は省略する。また、この例では、図２９に示す画像処理装置６５０の一部を変形した例について説明するが、図１に示す画像処理装置１００についても同様に適用することも可能である。

画像合成部１５１は、表示領域取出部２６０から出力された表示領域における現フレームに対応する画像の位置に基づいて、画像変換部１４０から受け取った現フレームに対応する画像を、表示メモリ２７０に保持される合成画像に上書きすることにより合成する。具体的には、現フレームに対応する画像を固定する表示モードが指定されている場合には、画像合成部１５１は、画像変換部１４０によりアフィン変換される前の現フレームに対応する画像を、表示メモリ２７０に保持される合成画像の真中部分に上書きすることにより合成する。一方、現フレームに対応する画像の前の合成画像を固定する表示モードが指定されている場合には、画像合成部１５１は、表示領域取出部２６０から出力された表示領域における現フレームに対応する画像の位置に基づいて、画像変換部１４０によるアフィン変換後の現フレームに対応する画像を、表示メモリ２７０に保持される合成画像に上書きして合成する。ここで、表示メモリ２７０に合成される現フレームに対応する画像の大きさについては、表示倍率の値に応じて決定される。また、画像合成部１５１は、画像合成部１５０の機能を備える。画像合成部１５０の機能については、上述のものと同様であるため、ここでの説明は省略する。

画像メモリ１６１は、画像合成部１５１により合成された合成画像を保持するワークバッファである。保持されている合成画像を画像変換部１４０または表示領域取出部２６０に供給するものである。

表示領域取出部２６０は、画像メモリ１６１に保持されている合成画像から、表示の対象となる領域である表示領域の範囲内に存在する画像を取り出すものである。この表示領域取出部２６０は、取り出された画像を表示メモリ２７０に保持させる。また、表示領域取出部２６０は、画像メモリ１６１に保持されている合成画像のうちの現フレームに対応する画像の少なくとも一部が表示領域の範囲内からはみ出している場合には、現フレームに対応する画像の全てが表示領域の範囲内に含まれるように表示領域を移動させた後に、画像メモリ１６１に保持されている合成画像から、表示領域の範囲内に存在する画像を取り出す。さらに、表示領域取出部２６０は、現フレームの前の合成画像を固定する表示モードが指定されている場合には、表示領域における現フレームに対応する画像の位置を算出し、この表示領域における現フレームに対応する画像の位置を画像合成部１５１に出力する。また、表示領域取出部２６０は、画像メモリ１６１の領域を基準とした現在の表示領域に関するアフィン変換パラメータを算出して音声変換情報算出部１９１に出力する。なお、この表示領域の範囲内に含まれる画像の取出しについては、図３２乃至図３８等を参照して詳細に説明し、表示領域の移動については、図３３、図３４等を参照して詳細に説明する。また、表示領域における現フレームに対応する画像の位置の算出については、図３７を参照して詳細に説明する。また、現在の表示領域に関するアフィン変換パラメータの算出については、図３２および図３５を参照して説明する。

表示メモリ２７０は、表示領域取出部２６０により画像メモリ１６１から取り出された画像を保持する表示用バッファである。この表示メモリ２７０に保持されている画像が表示部１８０に表示される。

表示制御部１７１は、表示メモリ２７０に保持されている合成画像をフレーム毎に表示部１８０に順次表示させるものである。

表示部１８０は、表示制御部１７１の制御に基づいて、表示メモリ２７０に保持されている合成画像を表示するものである。例えば、パーソナルコンピュータやテレビジョンのディスプレイにより実現することができる。

音声変換情報算出部１９１は、表示領域における現フレームに対応する画像の中心位置、角度または倍率に基づいて音声変換情報を算出するものである。具体的には、音声変換情報算出部１９１は、画像変換部１４０から出力された画像メモリ１６１における現フレームに対応する画像の中心位置、角度または倍率、および、表示領域取出部２６０から出力された、現在の表示領域に関するアフィン変換パラメータの逆行列を用いて、表示領域における現フレームに対応する画像の中心位置、角度および倍率を算出する。また、音声変換情報算出部１９０は、音声変換情報算出部１９０の機能を備える。なお、音声変換情報算出部１９０の機能については、上述のものと同様であるため、ここでの説明は省略する。また、音声変換情報算出部１９１は、表示領域における現フレームに対応する画像の中心位置、角度または倍率を表示領域取出部２６０から直接受け取ってもよい。

操作受付部２３１は、各種操作キー等を備え、これらのキーによる操作入力を受け付けると、受け付けた操作入力の内容を表示領域取出部２６０に出力するものである。操作受付部２３１には、例えば、動画の再生を指示する再生指示キー、動画の表示倍率を指定する表示倍率指定キー、動画を再生する場合における表示モードを設定する設定キーが設けられている。この表示モードとして、例えば、現フレームの前の各フレームに対応する合成画像を固定した状態で、現フレームに対応する現フレームに対応する画像をアフィン変換させながら表示させる表示モード、または、現フレームに対応する現フレームに対応する画像を固定した状態で、合成画像をアフィン変換パラメータの方向とは逆方向にアフィン変換させながら表示させる表示モードがある。これらの表示モードは、動画の再生中であっても切り換えることが可能である。また、操作受付部２３１は、操作受付部２３０の機能を備える。なお、操作受付部２３０の機能については、上述のものと同様であるため、ここでの説明は省略する。

図３２は、本発明の実施の形態における動画記憶部２４０に記憶されている動画の各フレームと、表示領域との関係を模式的に示す図である。ここでは、画像メモリ１６１、メタデータ記憶部２５０および操作受付部２３１についてのみ図示し、これら以外の構成についての図示を省略する。また、図３０（ｂ）に示す動画ファイル２４１を構成するフレーム「１」乃至「３」について、メタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いて画像メモリ１６１に合成画像が作成される場合を例にして説明する。なお、図３２では、表示部１８０において現フレームの前の各フレームに対応する合成画像を固定する場合について示す。

図３２（ａ）には、図３０（ｂ）に示す動画ファイル２４１を構成するフレームのうちの最初のフレームであるフレーム１（２４５）が画像メモリ１６１に保存される場合を示す。例えば、現フレームの前の各フレームに対応する合成画像を固定して、動画記憶部２４０に記憶されている動画ファイル２４１の再生を指示する再生指示の操作入力が操作受付部２３１により受け付けられると、図３２（ａ）に示すように、動画ファイル２４１のフレーム１（２４５）に対応する画像３５１が画像メモリ１６１に保存される。ここで、最初のフレームに対応する画像３５１が画像メモリ１６１に保存される位置は、予め指定されている位置に保存するようにしてもよく、操作受付部２３１においてユーザにより指定された位置に保存するようにしてもよい。また、例えば、メタデータファイル２５１に記憶されている動画ファイル２４１に関するアフィン変換パラメータ２５６を用いてフレーム「１」乃至「ｎ」までの合成画像の大きさを計算し、この計算に基づいて画像３５１が保存される位置を決定するようにしてもよい。なお、この例では、画像メモリ１６１上に配置された画像３５１の左上の位置を原点とし、横方向（横軸）をｘ軸とし、縦方向（縦軸）をｙ軸として説明する。

図３２（ａ）に示すように、画像メモリ１６１上に画像３５１が配置された場合における表示領域を表示領域３６１とする。表示領域３６１は、例えば、画像３５１が保存されている位置および大きさに基づいて、操作受付部３２０により受け付けられた表示倍率の値に応じて決定される。例えば、現フレームに対応する画像をズームアウトする「０．５倍」の表示倍率が指定されている場合には、表示領域３６１は、画像３５１を中心として画像３５１の２倍の大きさとなる。なお、画像３５１に対する表示領域３６１の位置は、アフィン変換パラメータにより決定することができる。すなわち、現フレームに対応する画像をズームアウトする「０．５倍」の表示倍率が指定されている場合には、ｘ方向およびｙ方向のズーム成分が２倍となるアフィン変換パラメータを用いて表示領域が設定される。また、現フレームに対応する画像に対して表示領域を平行移動させる場合や回転させる場合についても、アフィン変換パラメータを用いることにより表示領域の位置および範囲を決定することができる。

図３２（ｂ）には、図３０（ｂ）に示す動画ファイル２４１を構成するフレームのうちのフレーム２（２４６）が画像メモリ１６１に保存される場合を示す。この場合には、上述したように、フレーム番号２５５の「１」および「２」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いてフレーム２（２４６）に対応する画像３５２が変換され、画像３５１に上書き合成される。この場合に、例えば、現フレームに対応する画像３５２が表示領域３６１の範囲内からはみ出していない場合には、表示領域３６１の位置および大きさは変更されない。ここで、現フレームに対応する画像が現在の表示領域の範囲内からはみ出す場合については、図３３および図３４を参照して詳細に説明する。なお、画像３５１に対する画像３５２の移動に応じて表示領域３６１を平行移動等させるようにしてもよい。

図３２（ｃ）には、図３０（ｂ）に示す動画ファイル２４１を構成するフレームのうちのフレーム３が画像メモリ１６１に保存される場合を示す。この場合についても、上述したように、フレーム番号２５５「１」乃至「３」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いてフレーム３に対応する画像３５３が変換され、画像３５１および３５２に上書き合成される。

次に、現画像の移動に合わせて表示領域を移動させる場合における処理について図面を参照して詳細に説明する。

図３３は、現フレームに対応する画像が表示領域からはみ出した場合における表示領域の移動処理を概略的に示す図である。図３３（ａ）は、画像メモリ１６１に保持されている現フレームに対応する画像７６０を含む複数の画像と、表示領域７５９との関係を示す図である。図３３（ａ）に示すように、表示領域７５９の範囲内に現画像７６０の全てが含まれているため、表示部１８０には他の画像とともに現画像７６０の全てが表示される。

図３３（ｂ）は、画像メモリ１６１に保持されている現画像７６２を含む複数の画像と、表示領域７５９との関係を示す図である。ここで、現画像７６２は、図３３（ａ）に示す現画像７６０の次のフレームに対応する画像である。図３３（ｂ）に示すように、表示領域７５９の範囲内から現画像７６２の一部がはみ出している場合には、表示部１８０には現画像７６０の一部が表示されない。そこで、このような場合には、図３３（ｂ）に示すように、表示領域７５９の一辺と、表示領域７５９の範囲内からはみ出している現画像７６２との差分値７６３を表示領域取出部２６０が算出して、この算出された差分値７６３に付加値７６４を加算した値だけ表示領域７５９を移動させる。ここで、付加値７６４は、例えば、５ピクセルとすることができる。また、付加値を加算せずに、差分値だけ移動させるようにしてもよい。なお、図３３（ｂ）では、表示領域７６１の右側部分から現画像７６２がはみ出した場合を例にして説明するが、上側部分、下側部分、または左側部分から現画像がはみ出した場合についても、同様の方法により表示領域を移動させることができる。また、上下左右の少なくとも２箇所から現画像がはみ出した場合には、それぞれ一辺の差分値を算出して、算出された各差分値に基づいて、それぞれの辺の方向に表示領域を移動させるようにすることができる。

図３３（ｃ）には、図３３（ｂ）に示す状態で算出された差分値７６３に基づいて移動された表示領域７６５を示す。

図３４は、図３３に示す移動処理で表示領域を移動させる場合の遷移の一例を示す図である。図３４（ａ）は、表示領域を移動させる場合における画像メモリ１６１上の表示領域の遷移の一例を示す図であり、図３４（ｂ）は、表示領域を移動させる場合における表示部１８０に表示される画像の遷移の一例を示す図である。同図に示すように、現画像７６７以降の画像が表示領域７６６からはみ出すような場合でも、現画像の位置に応じて表示領域７６６を順次移動させることができる。例えば、画像メモリ１６１上において画像７６７から現画像７６９まで進んだ場合に、この移動に応じて表示領域７６６が表示領域７６８の位置まで移動する。この場合には、表示部１８０に表示される画像が画像７７０から画像７７１に遷移する。これにより、表示部１８０に表示されている画像を拡大縮小させる場合でも、現画像の全部を表示部１８０に常に表示させておくことができる。

次に、表示部１８０において現フレームに対応する現画像を固定する場合について図面を参照して詳細に説明する。

図３５は、本発明の実施の形態における動画記憶部２４０に記憶されている動画ファイルの各フレームと、表示領域との関係を模式的に示す図である。ここでは、図３２と同様に、画像メモリ１６１、メタデータ記憶部２５０および操作受付部２３１についてのみ図示し、これら以外の構成についての図示を省略する。また、図３０（ｂ）に示す動画ファイル２４１を構成するフレーム「１」乃至「３」について、メタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いて画像メモリ１６１に合成画像が作成される場合を例にして説明する。

図３５（ａ）には、図３２（ａ）と同様に、フレーム１（２４５）が画像メモリ１６１に保存される場合を示す。なお、図３５（ａ）に示す画像３５１および表示領域３６１の位置および大きさについては、図３２（ａ）に示すものと同じであるため、ここでの詳細な説明は省略する。なお、この例では、現フレームに対応する画像の変換とともに、表示領域が変換されるものの、フレーム１（２４５）に対応するアフィン変換パラメータは単位行列のパラメータであるため、フレーム１（２４５）に対応する表示領域３６１は、操作受付部２３１からの表示倍率指定のみが考慮されて決定される。

図３５（ｂ）には、図３２（ｂ）と同様に、フレーム２（２４６）が画像メモリ１６１に保存される場合を示す。この場合には、図３２（ｂ）と同様に、フレーム２（２４６）に対応する画像３５２が変換され、画像３５１に上書き合成されるとともに、表示領域についてもアフィン変換が施される。すなわち、画像３５１の位置および大きさを基準として、フレーム番号２５５の「１」および「２」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いてフレーム２（２４６）に対応する画像３５２が変換される。そして、操作受付部２３１により受け付けられた表示倍率の値に応じて決定されるアフィン変換パラメータを用いて画像３５２の位置および大きさが変換され、この変換後の位置および大きさにより決定される領域が表示領域３６２となる。具体的には、フレーム番号２５５の「１」および「２」に対応するアフィン変換パラメータの行列をそれぞれＡ１、Ａ２とし、操作受付部２３１により受け付けられた表示倍率の値に応じて決定されるアフィン変換パラメータの行列をＢとする場合には、「Ａ１×Ａ２×Ｂ」の値が求められ、画像３５１の位置および大きさを基準として、求められた「Ａ１×Ａ２×Ｂ」の行列により表示領域３６２が決定される。

図３５（ｃ）には、図３２（ａ）と同様に、フレーム３が画像メモリ１６１に保存される場合を示す。この場合についても、上述したように、フレーム３に対応する画像３５３が変換され、画像３５１および３５２に上書き合成されるとともに、表示領域についてもアフィン変換が施されて、画像３５３に対する表示領域３６３が決定される。具体的には、フレーム番号２５５の「１」乃至「３」に対応するアフィン変換パラメータの行列をそれぞれＡ１乃至Ａ３とし、操作受付部２３１により受け付けられた表示倍率の値に応じて決定されるアフィン変換パラメータの行列をＢとする場合には、「Ａ１×Ａ２×Ａ３×Ｂ」の値が求められ、画像３５１の位置および大きさを基準として、求められた「Ａ１×Ａ２×Ａ３×Ｂ」の行列により表示領域３６３が決定される。

図３６は、表示部１８０における現フレームに対応する画像を固定する表示モードが指定されている場合において、表示部１８０に表示される動画を拡大表示させる場合における拡大方法の概略を示す図である。図３６（ａ）は、表示部１８０に表示される動画を拡大表示させる場合の表示領域の遷移を概略的に示す図であり、図３６（ｂ）は、図３６（ａ）に示す表示領域６９８および６９９内の画像が表示部１８０に表示される場合における表示例を示す図である。

図３６（ｂ）では、図３６（ａ）に示す表示領域６９８により画像メモリ１６１から取り出されて表示部１８０に表示される画像７３０を示す。ここで、図３６（ｂ）に示す画像７３０が表示されている状態で、操作受付部２３１において拡大表示の指示操作が受け付けられた場合には、この拡大表示の指示操作に応じて、表示領域取出部２６０が表示領域６９８の大きさを縮小する。なお、この縮小処理は、現画像６９７が中心となるように行われる。すなわち、上述したように、操作受付部２３１により受け付けられた表示倍率の値に応じて決定されるアフィン変換パラメータを用いて画像６７９の位置および大きさが変換され、この変換後の位置および大きさにより表示領域６９８が決定される。この例では、表示倍率を拡大する操作入力がされているため、この表示倍率の拡大に応じてアフィン変換パラメータのズーム成分が決定される。

例えば、図３６（ａ）に示すように、表示領域６９８の大きさが縮小されて、表示領域６９９となる。図３６（ｂ）では、図３６（ａ）に示す表示領域６９９により画像メモリ１６１から取り出されて表示部１８０に表示される画像７３１を示す。このように、表示領域の大きさを変更するのみで、現フレームに対応する画像を含む画像を拡大または縮小させて表示することができる。

以上で示したように、画像メモリ１６１上に配置される表示領域の範囲内に存在する画像を表示することによって、再生中の合成画像を順次表示させることができる。ここで、現画像がアフィン変換されて画像メモリ１６１に合成される際には縮小処理等が施されることがある。このため、表示倍率を高くして現画像を拡大表示させる場合には、現フレームに対応する画像を含む合成画像がぼけてしまうことが考えられる。そこで、この例では、現在再生中の現画像については、画像メモリ１６１に合成される前の画像を用いて合成画像を表示させる。以下では、この表示方法について図面を参照して詳細に説明する。

図３７および図３８は、本発明の実施の形態における動画記憶部２４０に記憶されている動画ファイルの各フレームの流れを模式的に示す図である。ここでは、動画記憶部２４０、メタデータ記憶部２５０、画像メモリ１６１および表示メモリ２７０の関係についてのみ図示し、これら以外の構成についての図示を省略する。また、図３７では、表示部１８０において現フレームの前の各フレームに対応する合成画像を固定する場合について示し、図３８では、表示部１８０において現フレームに対応する画像を固定する場合について示す。

図３７（ａ）には、図３０（ｂ）に示す動画ファイル２４１およびメタデータファイル２５１を簡略化して示す。以下では、動画ファイル２４１を構成するフレームｉ（２４７）に対応する画像が表示される例について説明する。すなわち、動画ファイル２４１を構成するフレーム１乃至「ｉ−１」に対応する画像については、合成画像が作成されているものとする。また、現画像の移動に合わせて図３２に示す表示領域３６１が右側に移動されているものとする。

図３７（ｂ）には、動画ファイル２４１を構成する各フレームに対応する画像が合成された合成画像が保持されている画像メモリ１６１を模式的に示す。図３２（ｂ）に示すように、動画ファイル２４１を構成するフレーム１（２４５）に対応する画像３５１が画像メモリ１６１に最初に保持される。そして、画像３５１が画像メモリ１６１に保持された後に、動画ファイル２４１を構成するフレーム２乃至「ｉ−１」に対応する各画像が、フレーム２乃至「ｉ−１」のそれぞれに関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６の値を用いて順次アフィン変換され、アフィン変換された画像が画像メモリ１６１に順次上書きされて保持される。そして、画像メモリ１６１に保持されている合成画像から、操作受付部２３１からの表示倍率指定に係る操作入力に応じて決定された表示領域内に存在する画像を、表示領域取出部２６０がフレーム毎に取り出す。

フレーム１乃至「ｉ−１」に対応する各画像による合成画像が画像メモリ１６１に保持されている状態で、動画ファイル２４１を構成するフレームｉ（２４７）に対応する画像が、フレームｉに関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６の値「ａｉ，ｂｉ，ｃｉ，ｄｉ，ｅｉ，ｆｉ」を用いてアフィン変換され、アフィン変換された現画像６９２が画像メモリ１６１に上書きされて保持される。そして、画像メモリ１６１に保持されている合成画像から、操作受付部２３１からの表示倍率指定に係る操作入力に応じて決定された表示領域６９０内に存在する画像を、表示領域取出部２６０が取り出し、取り出された画像を、例えば、図３７（ｃ）に示すように表示メモリ２７０に保持させる。

図３７（ｃ）には、表示領域取出部２６０により取り出された画像が保持されている表示メモリ２７０を模式的に示す。ここで、表示領域取出部２６０により取り出された画像のうちの現フレームに対応する現画像６９３は、表示領域取出部２６０により画像メモリ１６１から取り出された現画像６９２ではなく、動画記憶部２４０から取得されて画像変換部１４０によりアフィン変換された画像を用いる。ここで、表示メモリ２７０における現画像６９３の保存位置は、画像メモリ１６１における現画像６９２の位置および大きさと、画像メモリ１６１における表示領域６９０の位置および大きさとに基づいて決定することができる。例えば、フレーム番号２５５の「１」乃至「ｉ」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータの行列をそれぞれＡ１、…、Ａｉとし、表示領域６９０を決定するためのアフィン変換パラメータの行列（例えば、画像メモリ１６１を基準とする行列）をＣとする場合には、画像３５１の位置を基準として、ｉｎｖ（Ｃ）×（Ａ１×…×Ａｉ）を用いることにより、表示メモリ２７０における現画像６９３の保存位置を決定することができる。

図３７（ｃ）に示すように、表示領域取出部２６０により取り出された画像が表示メモリ２７０に保持されるとともに、表示領域取出部２６０により取り出された画像に、動画記憶部２４０から取得されて画像変換部１４０によりアフィン変換された画像が上書きされて表示メモリ２７０に保持される。そして、表示メモリ２７０に保持されている画像が表示部１８０に表示される。このように、現画像については、アフィン変換後に縮小等の処理が施されて画像メモリ１６１に保持される前の状態の画像を用いることによって、比較的綺麗な現画像を表示することができる。また、ユーザの操作により拡大等がされた場合についても現画像を綺麗な状態で表示することができる。

図３８（ａ）には、図３０（ｂ）に示す動画ファイル２４１およびメタデータファイル２５１を簡略化して示す。なお、図３８（ａ）に示す動画記憶部２４０およびメタデータ記憶部２５０と、図３８（ｂ）に示す画像メモリ１６１に保持されている合成画像については、図３７（ａ）および（ｂ）と同一であるため、ここでの説明を省略する。

図３８（ｂ）には、図３７（ｂ）に示す画像３５１から現画像６９２までの合成画像が保持されている画像メモリ１６１を模式的に示すとともに、図３５（ｂ）に示す表示領域３６１を破線で示す。この例では、図３５に示すように、表示部１８０において現フレームに対応する画像の位置を固定するため、現画像６９２に合わせて表示領域をアフィン変換により算出する。すなわち、現フレームに対応する画像である画像３５１を基準として、フレーム番号２５５の「１」乃至「ｉ」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータ２５６を用いてフレームｉ（２４７）に対応する画像が画像６９２に変換され、画像メモリ１６１に保存される。そして、フレームｉ（２４７）に対応する表示領域６９５については、操作受付部２３１により受け付けられた表示倍率の値に応じて決定されるアフィン変換パラメータを用いて画像６９２の位置および大きさが変換され、変換後の位置および大きさにより表示領域６９５が決定される。この表示領域の決定は、表示領域取出部２６０により行われる。

図３８（ｃ）には、表示領域取出部２６０により取り出された画像が保持されている表示メモリ２７０を模式的に示す。ここで、表示メモリ２７０に保持される画像（現画像６９６以外の画像）は、表示領域取出部２６０により取り出された画像（表示領域６９５の範囲内に存在する画像）が、表示領域６９５の変換に用いられたアフィン変換パラメータに係る行列に対する逆行列を用いて変換された画像である。すなわち、画像メモリ１６１上に配置される表示領域の形状は、アフィン変換により平行四辺形となる場合等がある。このようにアフィン変換された表示領域内の合成画像を表示部１８０に表示させるため、現在の現画像をアフィン変換する際に用いられたアフィン変換パラメータに係る行列の逆行列を用いて表示領域内の合成画像を変換する。例えば、フレーム番号２５５の「１」乃至「ｉ」に関連付けてメタデータファイル２５１に記憶されているアフィン変換パラメータの行列をそれぞれＡ１、…、Ａｉとし、表示領域６９５を決定するためのアフィン変換パラメータの行列（例えば、現フレームに対応する画像を基準とする行列）をＢとする場合には、表示領域内の合成画像を変換するための行列として、ｉｎｖ（Ａ１×…×Ａｉ×Ｂ）を用いる。これにより、例えば、図３８（ｃ）に示すように、平行四辺形に変換された画像を長方形に変換して表示部１８０に表示させることができる。また、表示領域取出部２６０により取り出された画像のうちの現フレームに対応する画像６９６は、表示領域取出部２６０により画像メモリ１６１から取り出された画像の代わりに、動画記憶部２４０から取得されてアフィン変換されていない画像を用いる。ここで、表示メモリ２７０において画像６９６が保存される位置および大きさは、操作受付部２３１からの表示倍率に応じて決定される。

図３８（ｃ）に示すように、表示領域取出部２６０により取り出された画像が表示メモリ２７０に保持されるとともに、表示領域取出部２６０により取り出された画像に、動画記憶部２４０から取得された画像が上書きされて表示メモリ２７０に保持される。これにより、現フレームに対応する画像を固定位置に表示する表示モードが指定されている場合には、一旦アフィン変換がされた合成画像を、逆行列によりアフィン変換がされていない状態に戻して表示することができる。また、現フレームに対応する画像については、図３７と同様に、比較的綺麗な画像を表示することができる。

以上で示したように、画像メモリ１６１に保持される合成画像の作成方法を同一の方法により作成して、２つの表示態様による動画再生を実現することができるため、２つの表示態様の切り替えを動画の再生中に行うことができる。これにより、動画を再生中の視聴者が、再生中でも好みの表示態様に切り換えることが可能である。例えば、図３７に示す表示態様で動画を再生している場合において、好みの人物が現画像の真中に現れて、その人物を表示部１８０の真中部分に配置して視聴したい場合には、操作受付部２３１からの表示モード切替操作により、図３８に示す表示態様の動画再生に切り換えることができる。また、現画像については、画像メモリ１６１に保持される合成画像の代わりに、動画記憶部２４０から取得されてアフィン変換された画像を用いることができるため、比較的綺麗な画像を視聴することができる。

図３９および図４０は、本発明の実施の形態における画像処理装置６８０による動画再生処理の処理手順を示すフローチャートである。なお、図３９乃至４１に示す処理手順のうちで、ステップＳ９２１、Ｓ９２６、Ｓ９２７、Ｓ９２８、Ｓ９３９およびＳ９４１については、図２７に示す処理手順と同様であるため、同一の符号を付してここでの説明は省略する。

コンテンツ取得部１２０は、操作受付部２３１からの操作入力に応じて、動画記憶部２４０に記憶されている動画ファイルを取得するとともに、この動画ファイルに関連付けてメタデータ記憶部２５０に記憶されているメタデータファイルを取得する（ステップＳ９６１）。続いて、コンテンツ取得部１２０が、動画ファイルをデコードし、動画ファイルを構成する１つのフレームである現フレームの画像およびそれに対応する音声を取得する（ステップＳ９６２）。続いて、コンテンツ取得部１２０が、取得された現フレームに対応するアフィン変換パラメータをメタデータファイルから取得する（ステップＳ９６３）。

続いて、アフィン変換された現フレームに対応する画像が合成画像に上書きされて画像メモリ１６１に保存される（ステップＳ９２８）。その後に、表示領域取出部２６０は、現フレームに対応する画像を固定する表示モードが指定されているか否かを判断する（ステップＳ９６４）。現フレームに対応する画像を固定する表示モードが指定されている場合には、表示領域取出部２６０は、最初のフレームから現フレームまでのアフィン変換パラメータと、表示倍率に対応するアフィン変換パラメータとを用いて表示領域の位置および大きさを決定する（ステップＳ９６５）。続いて、表示領域取出部２６０は、表示領域に含まれる合成画像を画像メモリ１６１から取り出す（ステップＳ９６６）。続いて、表示領域取出部２６０は、表示領域の決定に用いられたアフィン変換パラメータの行列に対する逆行列を用いて、画像メモリ１６１から取り出された合成画像をアフィン変換する（ステップＳ９６７）。

続いて、表示領域取出部２６０は、画像メモリ１６１から取り出されてアフィン変換された合成画像を表示メモリ２７０に保存する（ステップＳ９６８）。続いて、画像合成部１５１は、表示メモリ２７０に保存されている合成画像に現画像を上書き合成する（ステップＳ９６９）。続いて、表示メモリ２７０に保存されている合成画像を表示部１８０が表示する（ステップＳ９７０）。続いて、音声変換処理が実行される（ステップＳ９８０）。

一方、ステップＳ９６４において、現フレームに対応する画像を固定する表示モードが指定されていない場合には、表示領域取出部２６０は、表示倍率に対応するアフィン変換パラメータを用いて表示領域の位置および大きさを決定する（ステップＳ９７１）。なお、現画像の変換に応じて表示領域が移動している場合には、直前に移動された表示領域の位置を用いるようにしてもよい。

続いて、表示領域取出部２６０は、画像メモリ１６１に保持されている現画像が表示領域からはみ出しているか否かを判断する（ステップＳ９７２）。画像メモリ１６１に保持されている、現フレームに対応する画像が表示領域からはみ出していない場合（すなわち、現画像の全部が表示領域の範囲内に含まれる場合）には、表示領域取出部２６０は、表示領域に含まれる合成画像を画像メモリ１６１から取り出す（ステップＳ９７３）。続いて、表示領域取出部２６０は、画像メモリ１６１から取り出された合成画像を表示メモリ２７０に保存する（ステップＳ９７４）。

続いて、表示領域取出部２６０は、現フレームに対応する画像の変換に用いられたアフィン変換パラメータの行列と、表示領域の決定に用いられたアフィン変換パラメータの行列に対する逆行列とを用いて、表示メモリ２７０における現フレームに対応する画像の位置を決定する（ステップＳ９７５）。続いて、画像合成部１５１は、表示メモリ２７０に保存されている合成画像に現フレームに対応する画像を上書きして合成する（ステップＳ９７６）。続いて、ステップＳ９７０に進む。

また、ステップＳ９７２において、画像メモリ１６１に保持されている現画像が表示領域からはみ出している場合（すなわち、現画像の少なくとも一部が表示領域の範囲内に含まれない場合）には、表示領域取出部２６０は、表示領域の一辺と、表示領域からはみ出している現画像との差分値を算出する（ステップＳ９７７）。続いて、表示領域取出部２６０は、算出された差分値に基づいて表示領域を移動させる（ステップＳ９７８）。続いて、ステップＳ９７３に進む。

図４１は、本発明の実施の形態における画像処理装置６８０による音声変換処理の処理手順例（ステップＳ９８０の処理手順）を示すフローチャートである。なお、ここで示す処理手順のうちで、ステップＳ９５２、Ｓ９５３およびＳ９５４については、図２８に示す処理手順と同様であるため、同一の符号を付してここでの説明は省略する。

最初に、表示領域取出部２６０から画像メモリ１６１の領域を基準とした現在の表示領域に関するアフィン変換パラメータが出力される（ステップＳ９８１）。表示領域に関するアフィン変換パラメータ、および、画像変換部１４０により出力された現フレームに対応する画像の中心位置、角度および倍率を用いて音声変換情報が算出される（ステップＳ９８２）。

次に、本発明の実施の形態の第３の変形例について図面を参照して説明する。

図４２は、本発明の実施の形態における画像処理装置７４０の機能構成例を示すブロック図である。ここで、画像処理装置７４０は、図３１に示す画像処理装置６８０の一部を変形したものである。この画像処理装置７４０は、図３１に示す画像処理装置６８０の機能構成に加えて対象画像変換情報算出部２８０および相対関係情報記憶部２９０を備え、コンテンツ取得部１２０、画像変換部１４０、音量調整部２０１および音声加算部２０２に代えてコンテンツ取得部１２１、画像変換部１４１、音量調整部６３０および音声加算部６４０を設ける。これにより、画像処理装置７４０は、１つの表示画面内での複数の動画再生において複数の動画と関連付けて音声を変換処理することができるようになる。なお、動画記憶部２４０、メタデータ記憶部２５０、画像合成部１５１、音声変換情報算出部１９１、音声出力制御部２１０およびスピーカ２２０の構成は、図３１に示す画像処理装置と同様であるため、これらの説明は省略する。

コンテンツ取得部１２１は、操作受付部２３２により受け付けられた操作入力に応じて、動画記憶部２４０に記憶されている１または複数の動画ファイル、これらの各動画ファイルに関連付けられてメタデータ記憶部２５０に記憶されているメタデータファイル、これらの動画ファイルに共通して関連付けられて相対関係情報記憶部２９０に記憶されている相対関係メタデータファイルの少なくとも１つを取得し、取得された各ファイルの情報を各部に供給するものである。具体的には、コンテンツ取得部１２１は、複数の動画を合成しながら再生する複数動画合成再生モードを指定する操作入力が操作受付部２３２により受け付けられた場合には、動画記憶部２４０に記憶されている複数の動画ファイルと、これらの各動画ファイルに関連付けられてメタデータ記憶部２５０に記憶されているメタデータファイルと、これらの動画ファイルに共通して関連付けられて相対関係情報記憶部２９０に記憶されている相対関係メタデータファイルとを取得し、取得された動画ファイルの動画およびメタデータファイルのアフィン変換パラメータを画像変換部１４１に出力する。また、取得されたメタデータファイルおよび相対関係メタデータファイルの内容を対象画像変換情報算出部２８０に出力する。また、コンテンツ取得部１２１は、コンテンツ取得部１２０の機能を備える。コンテンツ取得部１２０の機能については、上述のものと同様であるため、ここでの説明は省略する。

画像変換部１４１は、コンテンツ取得部１２１から出力された動画ファイルの動画を構成する画像について、この画像に対応するアフィン変換パラメータを用いてフレーム毎にアフィン変換を施し、アフィン変換された画像を画像合成部１５１に出力するものである。ここで、複数動画合成再生モードが指定されている場合には、画像変換部１４１は、再生の対象となる複数の動画のうちの１つの動画を基準動画とし、この基準動画については、この基準動画を構成する画像に対応するアフィン変換パラメータを用いて、フレーム毎にアフィン変換を施す。一方、再生の対象となる複数の動画のうちの基準動画以外の他の動画については、対象画像変換情報算出部２８０により算出された対象画像変換情報（アフィン変換パラメータ）と、動画を構成する画像に対応するアフィン変換パラメータとを用いて、フレーム毎にアフィン変換を施す。また、画像変換部１４１は、画像変換部１４０の機能を備える。画像変換部１４０の機能については、上述のものと同様であるため、ここでの説明は省略する。なお、他の動画の変換方法については、図４４等を参照して詳細に説明する。

操作受付部２３２は、各種入力キーを備え、これらの操作入力を受け付けると、受け付けた操作入力の内容をコンテンツ取得部１２１、画像変換部１４１または表示領域取出部２６０に出力するものである。操作受付部２３２には、例えば、動画記憶部２４０に記憶されている１または複数の動画ファイルの中から所望の動画を選択する動作選択キー、通常の動画再生を指示する再生指示キー、再生中の動画を停止する停止キー、動画の表示倍率を指定する表示倍率指定キー、複数動画合成再生モードを設定する複数動画合成再生設定キー等が設けられている。なお、これらのキーについては、１つのキーに複数の機能を割り当てるようにしてもよい。また、操作受付部２３２の少なくとも一部と表示部１８０とをタッチパネルとして一体として構成するようにしてもよい。

対象画像変換情報算出部２８０は、複数動画合成再生モードが指定されている場合に、コンテンツ取得部１２１から出力されたメタデータファイルおよび相対関係メタデータファイルのアフィン変換パラメータに基づいて、再生の対象となる複数の動画の中の１つの動画を構成する少なくとも１つの画像を基準画像とし、他の動画を構成する各画像を対象画像とした場合に、この対象画像の変換に用いられる対象画像変換情報を算出するものである。そして、算出された対象画像変換情報を画像変換部１４１に出力する。１つの動画における基準画像については、例えば、１つの動画を構成する画像の中の先頭フレームに対応する画像を用いることができる。また、対象画像変換情報は、例えば、基準画像に対する対象画像の変換に用いられるアフィン変換パラメータである。

図４３は、本発明の実施の形態における動画記憶部２４０および相対関係情報記憶部２９０に記録されている各ファイルを模式的に示す図である。この例では、動画記憶部２４０に記憶されている動画ファイル２４１乃至２４４と、動画ファイル２４１乃至２４４に関連付けて相対関係情報記憶部２９０に記憶されている相対関係メタデータファイル２９１乃至２９３とを模式的に示す図である。この例では、動画ファイル（＃１）２４１を構成するフレーム「５」７４１およびフレーム「８」７４２と、動画ファイル（＃２）２４２を構成するフレーム「７」７４３およびフレーム「９」７４４と、動画ファイル（＃３）２４３を構成するフレーム「３」７４５およびフレーム「１０」７４６とが、相対関係情報記憶部２９０に記憶されている相対関係メタデータファイル２９１乃至２９３に関連付けて記憶されている例について説明する。なお、動画記憶部２４０に記憶されている各動画ファイルについては、図３０に示す動画ファイルと同様であるため、ここでの説明を省略する。

相対関係メタデータファイル２９１乃至２９３には、動画ＩＤ２９４と、フレーム番号２９５と、アフィン変換パラメータ２９６とが関連付けてそれぞれ格納されている。

動画ＩＤ２９４は、少なくとも３つの一致点を互いに含む２つの画像に対応する２つの動画ファイルに付与されている動画ＩＤであり、例えば、相対関係メタデータファイル２９１には、動画ファイル２４１に付与されている「＃１」および動画ファイル２４２に付与されている「＃２」が格納される。

フレーム番号２９５は、少なくとも３つの一致点を互いに含む２つの画像に対応する２つのフレームの通し番号であり、例えば、相対関係メタデータファイル２９１には、動画ファイル２４１の動画を構成するフレームのフレーム番号「５」および動画ファイル２４２の動画を構成するフレームのフレーム番号「７」が格納される。

アフィン変換パラメータ２９６は、動画ＩＤ２９４およびフレーム番号２９５に対応する少なくとも２つの画像について計算されたアフィン変換パラメータであり、例えば、相対関係メタデータファイル２９１には、動画ファイル２４１の動画を構成するフレーム「５」および動画ファイル２４２の動画を構成するフレーム「７」に対応するアフィン変換パラメータとして「ａｏ，ｂｏ，ｃｏ，ｄｏ，ｅｏ，ｆｏ」が格納される。なお、本発明の実施の形態では、アフィン変換パラメータ２９６は、対応する２つの動画ＩＤ２９４およびフレーム番号２９５のうちの図４３に示す下側のフレーム番号に対応する画像を基準画像として、上側を対象画像とした場合におけるアフィン変換パラメータであるものとする。例えば、相対関係メタデータファイル２９１に格納されているアフィン変換パラメータ２９６は、動画ファイル（＃１）２４１の動画を構成するフレーム「５」７４１の動画ファイル（＃２）２４２の動画を構成するフレーム「７」７４３に対するアフィン変換パラメータである。

図４４は、２つの動画を合成する場合における合成例を模式的に示す図である。この例では、動画３７０を構成する画像３７１乃至３８４と、動画３９０を構成する画像３９１乃至３９７とを合成する場合について説明する。また、内部を斜線で示す画像３７８および３９４は、動画３７０および３９０に関する相対関係メタデータに含まれるフレーム番号に対応する画像であるものとする。

図４４（ａ）では、動画３７０を構成する画像３７１乃至３８４を、各フレームに関連付けて記憶されているアフィン変換パラメータを用いて順次アフィン変換していき、画像メモリ１６１上に合成する場合を示す。例えば、最初に、先頭フレームに対応する画像３７１が画像メモリ１６１に保持される。そして、画像３７１を基準にして画像３７２乃至３８４が順次アフィン変換されて画像メモリ１６１に合成される。このアフィン変換による現画像の流れを矢印３８５で示す。すなわち、矢印３８５に沿うように画像３７１乃至３８４が順次合成される。

図４４（ｂ）では、動画３９０を構成する画像３９１乃至３９７を、各フレームに関連付けて記憶されているアフィン変換パラメータを用いて順次アフィン変換していき、画像メモリ１６１上に合成する場合を示す。また、図４４（ｃ）では、動画３７０および３９０に関する相対関係メタデータに含まれるアフィン変換パラメータにより、画像３９１を基準画像として画像３９４をアフィン変換した場合における画像３７８および画像３９４の相対関係位置を示す。ここで、図４４（ｂ）に示す合成画像は、図４４（ｃ）に示す画像３７８および画像３９４の相対関係位置を基準にして、画像３９１乃至３９７が合成された場合を示すものである。この場合のアフィン変換による現画像の流れを矢印３９８で示す。すなわち、矢印３９８に沿うように画像３９１乃至３９７が順次合成される。このように、図４４（ｃ）に示す画像３７８および画像３８４の相対関係位置を基準にして、図４４（ａ）に示す合成画像および図４４（ｂ）に示す合成画像が合成された場合における合成例を図４４（ｄ）に示す。なお、図４４（ｄ）に示す例では、画像３７８および３９４が同時刻に再生される場合を示し、同時刻に再生される各画像は、動画３９０が動画３７０よりも上書き合成される例を示す。

ここで、具体的な各動画の保持位置に関する計算について説明する。最初に、複数の動画のうちの１つの動画を構成する少なくとも１つの動画の位置が決定される。例えば、動画３７０を構成する先頭フレームに対応する画像３７１の位置が決定される。この決定される位置は、操作受付部２３２においてユーザが指定してもよく、上述した計算により算出された位置を用いて決定してもよい。続いて、他の動画を構成する画像のうちの少なくとも１つの画像の保持位置が算出される。例えば、画像３７１乃至３８４に対応する各フレームに関連付けられているアフィン変換パラメータの行列を、Ａ１乃至Ａ１４とする。また、画像３９１乃至３９７に対応する各フレームに関連付けられているアフィン変換パラメータの行列を、Ｂ１乃至Ｂ７とする。さらに、動画３７０および３９０に関連付けて記憶されている相対関係メタデータのアフィン変換パラメータの行列をＣ１とする。ここで、基準画像は画像３７１とする。画像メモリ１６１上における画像３７１の保持位置を基準とした場合に、画像３７８の保持位置は、Ａ１乃至Ａ８の乗算により算出される。すなわち、Ａ１×…×Ａ８を用いて算出される。また、画像メモリ１６１上における画像３７１の保持位置を基準とした場合に、画像３９４の保持位置は、Ａ１乃至Ａ８、Ｃ１の乗算により算出される。すなわち、Ａ１×…×Ａ８×Ｃ１を用いて算出される。ここで、例えば、動画３９０の先頭フレームに対応する画像３９１の保持位置を算出する場合には、Ａ１乃至Ａ８およびＣ１と、Ｂ１乃至Ｂ４の逆行列の乗算により算出することができる。すなわち、「Ａ１×…×Ａ８×Ｃ１×Ｉｎｖ（Ｂ１×…×Ｂ４）」を用いて画像３９１の保持位置を算出することができる。また、動画３９０を構成する他の画像についての保持位置についても同様に、Ａ１乃至Ａ８およびＣ１と、Ｂ１乃至Ｂ４の逆行列またはＢ５乃至Ｂ７とを用いて算出することが可能である。

また、基準画像を含む動画以外の動画を構成する画像をアフィン変換する場合には、先頭フレームに対応する画像の保持位置の算出に用いられた行列と、画像に関連付けられたアフィン変換パラメータを用いて行う。例えば、動画３９０の画像３９２をアフィン変換する場合には、画像３９２に対応する行列Ｂ２を用いて、「Ａ１×…×Ａ８×Ｃ１×Ｉｎｖ（Ｂ３×Ｂ４）」の行列により変換される。また、例えば、動画３９０の画像５２３をアフィン変換する場合も同様に、「Ａ１×…×Ａ８×Ｃ１×Ｉｎｖ（Ｂ４）」の行列により変換される。同様に、動画３９０の各画像が変換される。

このように、複数の動画について合成して再生する場合には、１つの動画の基準画像の画像メモリ１６１における位置および大きさを決定した後に、各動画のそれぞれに関連付けられているメタデータファイルと、各動画に関連付けられている相対関係メタデータファイルとを用いて、各画像の位置および大きさを算出することができる。このため、複数の動画について合成して再生する場合には、各動画の何れかの位置からも再生させることが可能である。例えば、図４４（ｄ）に示す画像メモリ１６１上では、動画３７０を構成する画像３７１乃至３７４が合成された後に、動画３９０を構成する画像３９１が合成される例を示す。すなわち、画像３７５および３９１が同時に合成され、続いて、画像３７６および３９２が同時に合成される。以降も同様に合成される。なお、この例では、同時刻に再生される各画像は、動画３９０が動画３７０よりも上書き合成される例を示すが、上書きする動画を操作受付部２３０において指定するようにしてもよい。

次に、本発明の実施の形態における画像処理装置７４０による音声変換処理について説明する。

図４５は、本発明の実施の形態における画像処理装置７４０による音声変換処理部２００の構成例を示すブロック図である。ここでは一例として、第１の動画および第２の動画を同時再生する場合における、右チャンネルおよび左チャンネルの出力音声を生成する変換処理例を示す。また、第１の動画および第２の動画の入力音声は、右チャンネルおよび左チャンネルにより構成されることとする。そのため、図３１に示す音量調整部２０１および音声加算部２０２に代えて音量調整部６３０および音声加算部６４０を設けた音声変換処理部２００の機能について説明する。なお、基本的な構成は図１７に示す構成と同様のため、ここでは簡単に説明する。

音量調整部６３０は、音量増幅器６３１乃至６３８を備える。音量増幅器６３１乃至６３４は、音声変換情報算出部１９１から供給された、第１の動画に関する音声変換情報ＲＲ_１、ＲＬ_１、ＬＲ_１およびＬＬ_１に基づいて第１の動画の右チャンネルおよび左チャンネルの入力音声を増幅するものである。音量増幅器６３５乃至６３８は、音声変換情報算出部１９１から供給された、第２の動画に関する音声変換情報ＲＲ_２、ＲＬ_２、ＬＲ_２およびＬＬ_２に基づいて第２の動画の右チャンネルおよび左チャンネルの入力音声を増幅するものである。

音声加算部６４０は、音声加算器６４１乃至６４６を備える。音声加算器６４１および６４２は、第１の動画の右チャンネルおよび左チャンネルの入力音声を加算し、音声加算器６４３および６４４は、第２の動画の右チャンネルおよび左チャンネルの入力音声を加算するものである。音声加算器６４５は、第１の動画および第２の動画の右チャンネルの出力音声を加算するものである。音声加算器６４６は、第１の動画および第２の動画の左チャンネルの出力音声を加算するものである。

図４６は、本発明の実施の形態における画像処理装置７４０による２つの動画の同時再生時における音声変換処理の例を示す図である。図４６には、表示部１８０の表示画面上に２つの再生動画６５１および６５２を表示する例が示されている。この場合には、まず、上述のように、再生動画６５１および６５２に対して、現フレームに対応する画像の中心位置、角度または倍率に応じて、各チャンネルの入力音声が変換処理されて出力音声が生成される。そして、再生動画６５１および６５２に関するそれぞれの出力音声について、同じチャンネル毎に加算した音声が右スピーカ２２１および左スピーカ２２２に出力される。また、このように生成される出力音声に関する関係式は、次式で表すことができる。
Ｒ'＝（Ｒ１'＋Ｒ２')／２
Ｌ'＝（Ｌ１'＋Ｌ２')／２

なお、Ｒ１'＝Ｒ１・ＲＲ_１＋Ｌ１・ＬＲ_１、Ｌ１'＝Ｒ１・ＲＬ_１＋Ｌ１・ＬＬ_１、Ｒ２'＝Ｒ２・ＲＲ_２＋Ｌ２・ＬＲ_２、Ｌ２'＝Ｒ２・ＲＬ_２＋Ｌ２・ＬＬ_２として表される。また、Ｒ１およびＬ１は、第１の動画の右チャンネルおよび左チャンネルの入力音声であり、Ｒ２およびＬ２は、第２の動画の右チャンネルおよび左チャンネルの入力音声である。また、ＲＲ_１、ＲＬ_１、ＬＲ_１およびＬＬ_１は、第１の動画に関する音声変換情報に相当し、ＲＲ_２、ＲＬ_２、ＬＲ_２およびＬＬ_２は、第２の動画に関する音声変換情報に相当する。

なお、本発明の実施の形態における画像処理装置７４０による音声変換処理の処理手順例については、ステップＳ９８２において、複数の動画の出力音声が同じチャンネル毎に加算される処理が加わるのみである。それ以外の音声変換処理の手順は、同様であるため、説明を省略する。

以上では、動画に関する動き情報に基づいて音声を変換処理する例について説明したが、本実施の発明の形態では、動画に関する動き情報以外の情報に基づいて音声を変換処理する場合にも適用することができる。以下では、この適用例として、本発明の実施の形態の第４の変形例について図面等を参照して説明する。ここでは、図１に示すコンテンツ取得部１２０および画像変換部１４０の機能についてのみ説明する。これら以外の構成は、上述の機能と同様であるため説明を省略する。

コンテンツ取得部１２０は、表示部１８０における動画の表示領域を示すテンプレート情報を取得するものである。このテンプレート情報は、表示画面上において各情報を表示するための表示領域を規定するものであり、例えば、動画を表示させる動画表示領域、テキスト形式の文字を表示する文字表示領域が規定される。

画像変換部１４０は、コンテンツ取得部１２０から出力されたテンプレート情報に基づいて画像を変換するものである。すなわち、この変換は、テンプレート情報に示された表示画面における表示領域に動画を表示させるための変換である。また、画像変換部１４０は、テンプレート情報から求められる、現フレームに対応する画像の中心位置、角度または倍率を音声変換情報算出部１９０に出力する。

図４７は、本発明の実施の形態における動画の動き情報以外の情報により音声を変換処理する例を示す図である。図４７（ａ）は、表示部１８０の表示画面の左側に動画６５３が表示され、その右側に動画に関する情報がテキスト形式で表示される例である。ここでは、表示画面上における動画６５３の中心位置は、表示画面上の左側に位置するため、右スピーカ２２１に比べて左スピーカ２２２に出力音声の出力割合を大きくする。この場合には、画像変換部１４０は、動画の表示領域を示すテンプレート情報から動画６５３の中心位置および倍率を求めて、音声変換情報算出部１９１に出力する。図４７（ｂ）は、表示部１８０の表示領域を２つに分割して動画を表示させる例である。ここでは、表示画面上の左半分に動画６５４が表示され、右半分に動画６５５が表示されるため、動画６５４および６５５の中心位置に応じて、動画６５４および６５５の各チャンネルの出力音声がそれぞれ生成される。そして、動画６５４および６５５の同じチャンネルの出力音声を加算した音声が右スピーカ２２１および左スピーカ２２２に出力される。この場合には、画像変換部１４０は、表示領域の分割に関するテンプレート情報から動画６５４および６５５の中心位置および倍率を求めて、音声変換情報算出部１９１に出力する。

ここで、図２９、図３１、図４２に示すメタデータ記憶部２５０に記憶されるアフィン変換パラメータを検出するカメラワーク検出部４８０について図面を参照して詳細に説明する。なお、図１に示す画像変換情報供給部１３０についても、カメラワーク検出部４８０と同様の構成として、アフィン変換パラメータを検出することができる。

図４８は、本発明の実施の形態におけるカメラワーク検出部４８０の機能構成例を示すブロック図である。カメラワーク検出部４８０は、特徴点抽出部４８１と、オプティカルフロー計算部４８２と、カメラワークパラメータ算出部４８３とを備え、動画入力部４７０および記録制御部４９０に接続されている。なお、この例では、カメラワーク検出部４８０に関連する構成のみについて図示し、他の構成の図示および説明を省略する。

動画入力部４７０は、デジタルビデオカメラ等の撮像装置により撮像された動画を入力する動画入力部であり、入力された動画をカメラワーク検出部４８０に出力する。

記録制御部４９０は、カメラワーク検出部４８０から出力されたアフィン変換パラメータを、対応する動画およびフレームに関連付けてメタデータファイルとしてメタデータ記憶部２５０に記録するものである。

特徴点抽出部４８１は、動画入力部４７０から出力された動画を構成するフレームに対応する画像から特徴点を抽出し、抽出された特徴点をオプティカルフロー計算部４８２に出力するものである。ここで、特徴点抽出部４８１は、動画入力部４７０から出力された動画を構成するフレームのうちの先頭のフレームについては、画像全体から特徴点を抽出し、先頭以外のフレームについては、直前のフレームに対応する画像と比較して新しく撮影された領域部分から特徴点を抽出する。なお、特徴点として、例えば、縦方向または横方向にエッジの勾配が強い点（一般に「コーナー点」と呼ばれている。以下では、「コーナー点」と称する。）を抽出することができる。このコーナー点は、オプティカルフローの計算に強い特徴点であり、エッジ検出を用いて求めることができる。例えば、このコーナー点は、図２および図３で示した抽出方法により求めることができる。また、この例では、特徴点抽出部４８１は、先頭のフレームについては画像全体から特徴点を抽出し、先頭以外のフレームについては直前の画像と比較して新しく撮影された領域部分から特徴点を抽出するが、処理能力等に応じて、先頭以外の各フレームについても、画像全体から特徴点を抽出するようにしてもよい。

オプティカルフロー計算部４８２は、特徴点抽出部４８１から出力された各特徴点に対するオプティカルフローを計算するものであり、計算して求められたオプティカルフローをカメラワークパラメータ算出部４８３に出力する。具体的には、動画入力部４７０から出力された動画を構成する連続する２つのフレーム（現フレームおよびこの直前のフレーム）に対応する各画像を比較することにより、直前のフレームに対応する画像における各特徴点に対応するオプティカルフローを、現フレームのオプティカルフローとして求める。また、オプティカルフローは、動画を構成するフレーム毎に求められる。なお、オプティカルフローを検出する検出方法として、勾配法やブロックマッチング方法等の検出方法を用いることができる。例えば、このオプティカルフローは、図２および図３で示した計算により求めることができる。

カメラワークパラメータ算出部４８３は、オプティカルフロー計算部４８２から出力された各特徴点に対応するオプティカルフローを用いて、カメラワークパラメータを算出するカメラワークパラメータ算出処理を行うものである。そして、算出されたカメラワークパラメータがメタデータ記憶部２５０に記憶される。ここで、本発明の実施の形態では、再生の対象となる複数の動画を構成する各画像を撮像装置の動きに合わせてそれぞれ変換して表示する。この画像の変換を行うため、オプティカルフロー計算部４８２により計算されたオプティカルフローを用いて撮像装置の動きが抽出され、この抽出された動きに基づいて、カメラワークパラメータ（変換パラメータ）が計算される。なお、本発明の実施の形態では、再生の対象となる動画を構成する画像を変換する画像変換方法として、アフィン変換を用いる例について説明する。また、カメラワークパラメータとして、オプティカルフローに基づいて算出されたアフィン変換パラメータの行列の逆行列に対応するアフィン変換パラメータを用いる例について説明する。すなわち、本発明の実施の形態では、変換情報として用いられるアフィン変換パラメータを、連続する画像間の特徴点の動きを表すアフィン行列ではなく、連続する画像のうちの１つの画像を基準画像とした場合に、この基準画像の次の画像がどこに移動するかを示すアフィン行列に対応するアフィン変換パラメータと定義する。また、カメラワークパラメータとして、アフィン変換パラメータを用いる例について説明するが、射影変換等の他の画像変換方法を用いるようにしてもよい。なお、アフィン変換パラメータは、３点のベクトルを用いて計算して求めることができる。また、射影変換パラメータは、４点のベクトルを用いて計算して求めることができる。ここで、カメラワークパラメータは、撮像動画を構成する撮像画像のうちの少なくとも１つの撮像画像を基準にして他の撮像画像を変換するための変換情報であり、少なくとも撮像装置の座標系で記述される位置情報および姿勢情報を含むものである。すなわち、カメラワークパラメータは、撮影者により撮影されている場合における撮像装置の位置や姿勢に関する情報を含むものである。また、カメラワークパラメータ算出部４８３により求められたアフィン変換パラメータに基づいて、例えば、ズームイン、ズームアウト、パン、チルト、ローテーション等の撮影者の操作による撮像装置の動きを推定することができる。例えば、アフィン変換パラメータは、図２および図３で示した計算により求めることができる。

次に、本発明の実施の形態における特徴点抽出処理およびオプティカルフロー計算処理をマルチコアプロセッサにより行う場合について図面を参照して詳細に説明する。ここでは、図４８に示す特徴点抽出部４８１により行われる特徴点抽出処理と、オプティカルフロー計算部４８２により行われるオプティカルフロー算出処理とを例にして説明する。

図４９は、本発明の実施の形態におけるマルチコアプロセッサ８００の一構成例を示す図である。マルチコアプロセッサ８００は、１つのＣＰＵ（Central Processing Unit）パッケージ上に異なる種類のプロセッサコアが複数搭載されているプロセッサである。すなわち、マルチコアプロセッサ８００には、各プロセッサコア単体の処理性能を維持するとともに、シンプルな構成にするため、あらゆる用途（アプリケーション）に対応する１種類のコアと、所定の用途にある程度最適化されている他の種類のコアとの２種類のプロセッサコアが複数搭載されている。

マルチコアプロセッサ８００は、制御プロセッサコア８０１と、演算プロセッサコア（＃１）８１１乃至（＃８）８１８と、バス８０２とを備え、メインメモリ７８１と接続されている。また、マルチコアプロセッサ８００は、例えば、グラフィックスデバイス７８２やＩ／Ｏデバイス７８３等の他のデバイスと接続される。マルチコアプロセッサ８００として、例えば、本願出願人等により開発されたマイクロプロセッサである「Ｃｅｌｌ（セル：Cell Broadband Engine）」を採用することができる。

制御プロセッサコア８０１は、オペレーティング・システムのような頻繁なスレッド切り替え等を主に行う制御プロセッサコアである。なお、制御プロセッサコア８０１については、図５０を参照して詳細に説明する。

演算プロセッサコア（＃１）８１１乃至（＃８）８１８は、マルチメディア系の処理を得意とするシンプルで小型の演算プロセッサコアである。なお、演算プロセッサコア（＃１）８１１乃至（＃８）８１８については、図５１を参照して詳細に説明する。

バス８０２は、ＥＩＢ（Element Interconnect Bus）と呼ばれる高速なバスであり、制御プロセッサコア８０１および演算プロセッサコア（＃１）８１１乃至（＃８）８１８のそれぞれが接続され、各プロセッサコアによるデータアクセスはバス８０２を経由して行われる。

メインメモリ７８１は、バス８０２に接続され、各プロセッサコアにロードすべき各種プログラムや、各プロセッサコアの処理に必要なデータを格納するとともに、各プロセッサコアにより処理されたデータを格納するメインメモリである。

グラフィックスデバイス７８２は、バス８０２に接続されているグラフィックスデバイスであり、Ｉ／Ｏデバイス７８３は、バス８０２に接続されている外部入出力デバイスである。

図５０は、本発明の実施の形態における制御プロセッサコア８０１の一構成例を示す図である。制御プロセッサコア８０１は、制御プロセッサユニット８０３および制御プロセッサストレージシステム８０６を備える。

制御プロセッサユニット８０３は、制御プロセッサコア８０１の演算処理を行う核となるユニットであり、マイクロプロセッサのアーキテクチャをベースとする命令セットを備え、一次キャッシュとして命令キャッシュ８０４およびデータキャッシュ８０５が搭載されている。命令キャッシュ８０４は、例えば、３２ＫＢの命令キャッシュであり、データキャッシュ８０５は、例えば、３２ＫＢのデータキャッシュである。

制御プロセッサストレージシステム８０６は、制御プロセッサユニット８０３からメインメモリ７８１へのデータアクセスを制御するユニットであり、制御プロセッサユニット８０３からのメモリアクセスを高速化させるために５１２ＫＢの二次キャッシュ８０７が搭載されている。

図５１は、本発明の実施の形態における演算プロセッサコア（＃１）８１１の一構成例を示す図である。演算プロセッサコア（＃１）８１１は、演算プロセッサユニット８２０およびメモリフローコントローラ８２２を備える。なお、演算プロセッサコア（＃２）８１２乃至（＃８）８１８は、演算プロセッサコア（＃１）８１１と同様の構成であるため、ここでの説明を省略する。

演算プロセッサユニット８２０は、演算プロセッサコア（＃１）８１１の演算処理を行う核となるユニットであり、制御プロセッサコア８０１の制御プロセッサユニット８０３とは異なる独自の命令セットを備える。また、演算プロセッサユニット８２０には、ローカルストア（ＬＳ：Local Store）８２１が搭載されている。

ローカルストア８２１は、演算プロセッサユニット８２０の専用メモリであるとともに、演算プロセッサユニット８２０から直接参照することができる唯一のメモリである。ローカルストア８２１として、例えば、容量が２５６Ｋバイトのメモリを用いることができる。なお、演算プロセッサユニット８２０が、メインメモリ７８１や他の演算プロセッサコア（演算プロセッサコア（＃２）８１２乃至（＃８）８１８）上のローカルストアにアクセスするためには、メモリフローコントローラ８２２を利用する必要がある。

メモリフローコントローラ８２２は、メインメモリ７８１や他の演算プロセッサコア等との間でデータのやり取りするためのユニットであり、ＭＦＣ（Memory Flow Controller）と呼ばれるユニットである。ここで、演算プロセッサユニット８２０は、チャネルと呼ばれるインタフェースを介してメモリフローコントローラ８２２に対してデータ転送等を依頼する。

以上で示したマルチコアプロセッサ８００のプログラミング・モデルとして、さまざまなものが提案されている。このプログラミング・モデルの中で最も基本的なモデルとして、制御プロセッサコア８０１上でメインプログラムを実行し、演算プロセッサコア（＃１）８１１乃至（＃８）８１８上でサブプログラムを実行するモデルが知られている。本発明の実施の形態では、このモデルを用いたマルチコアプロセッサ８００の演算方法について図面を参照して詳細に説明する。

図５２は、本発明の実施の形態におけるマルチコアプロセッサ８００の演算方法を模式的に示す図である。この例では、データ７８５を用いて制御プロセッサコア８０１がタスク７８４を実行する場合に、タスク７８４の一部であるタスク７８６の処理に必要なデータ７８７（データ７８５の一部）を用いて、タスク７８６を各演算プロセッサコアに実行させる場合を例に図示する。

同図に示すように、データ７８５を用いて制御プロセッサコア８０１がタスク７８４を実行する場合には、タスク７８４の一部であるタスク７８６の処理に必要なデータ７８７（データ７８５の一部）を用いて、タスク７８６を各演算プロセッサコアに実行させる。本発明の実施の形態では、動画を構成するフレーム毎に各演算プロセッサコアにより演算処理が行われる。

同図に示すように、マルチコアプロセッサ８００が演算を行うことにより、演算プロセッサコア（＃１）８１１乃至（＃８）８１８を並列に利用して、比較的少ない時間で多くの演算を行うことができるとともに、演算プロセッサコア（＃１）８１１乃至（＃８）８１８上でＳＩＭＤ（Single Instruction/Multiple Data：単一命令／複数データ）演算を利用して、さらに少ない命令数により、比較的多くの演算処理を行うことができる。なお、ＳＩＭＤ演算については、図５６乃至図５９等を参照して詳細に説明する。

図５３は、本発明の実施の形態におけるマルチコアプロセッサ８００により演算を行う場合におけるプログラムおよびデータの流れを模式的に示す図である。ここでは、演算プロセッサコア（＃１）８１１乃至（＃８）８１８のうちの演算プロセッサコア（＃１）８１１を例にして説明するが、演算プロセッサコア（＃２）８１２乃至（＃８）８１８についても同様に行うことができる。

最初に、制御プロセッサコア８０１は、メインメモリ７８１に格納されている演算プロセッサコアプログラム８２３を演算プロセッサコア（＃１）８１１のローカルストア８２１にロードする指示を演算プロセッサコア（＃１）８１１に送る。これにより、演算プロセッサコア（＃１）８１１は、メインメモリ７８１に格納されている演算プロセッサコアプログラム８２３をローカルストア８２１にロードする。

続いて、制御プロセッサコア８０１は、ローカルストア８２１に格納された演算プロセッサコアプログラム８２５の実行を演算プロセッサコア（＃１）８１１に指示する。

続いて、演算プロセッサコア（＃１）８１１は、ローカルストア８２１に格納された演算プロセッサコアプログラム８２５の実行処理に必要なデータ８２４をメインメモリ７８１からローカルストア８２１に転送する。

続いて、演算プロセッサコア（＃１）８１１は、ローカルストア８２１に格納された演算プロセッサコアプログラム８２５に基づいて、メインメモリ７８１から転送されたデータ８２６を加工し、条件に応じた処理を実行して処理結果をローカルストア８２１に格納する。

続いて、演算プロセッサコア（＃１）８１１は、ローカルストア８２１に格納された演算プロセッサコアプログラム８２５に基づいて実行された処理結果をローカルストア８２１からメインメモリ７８１に転送する。

続いて、演算プロセッサコア（＃１）８１１は、制御プロセッサコア８０１に演算処理の終了を通知する。

次に、マルチコアプロセッサ８００を用いて行うＳＩＭＤ演算について図面を参照して詳細に説明する。ここで、ＳＩＭＤ演算とは、複数のデータに対する処理を１つの命令で行う演算方式である。

図５４（ａ）は、複数のデータに対する処理をそれぞれの命令で行う演算方式の概要を模式的に示す図である。図５４（ａ）に示す演算方式は、通常の演算方式であり、例えば、スカラー演算と呼ばれている。例えば、データ「Ａ１」およびデータ「Ｂ１」を加算する命令によりデータ「Ｃ１」の処理結果が求められる。また、他の３つの演算についても同様に、同一の行にあるデータ「Ａ２」、「Ａ３」、「Ａ４」と、データ「Ｂ２」、「Ｂ３」、「Ｂ４」とを加算する命令がそれぞれの処理について行われ、この命令により、各行の値が加算処理され、この処理結果がデータ「Ｃ２」、「Ｃ３」、「Ｃ４」として求められる。このように、スカラー演算では、複数のデータに対する処理については、それぞれに対して命令を行う必要がある。

図５４（ｂ）は、複数のデータに対する処理を１つの命令で行う演算方式であるＳＩＭＤ演算の概要を模式的に示す図である。ここで、ＳＩＭＤ演算用に１まとまりにしたデータ（点線８２７および８２８で囲まれる各データ）は、ベクターデータと呼ばれることがある。また、このようなベクターデータを用いて行われるＳＩＭＤ演算は、ベクトル演算と呼ばれることがある。

例えば、点線８２７で囲まれるベクターデータ（「Ａ１」、「Ａ２」、「Ａ３」、「Ａ４」）と、点線８２８で囲まれるベクターデータ（「Ｂ１」、「Ｂ２」、「Ｂ３」、「Ｂ４」）とを加算する１つの命令により「Ｃ１」、「Ｃ２」、「Ｃ３」、「Ｃ４」の処理結果（点線８２９で囲まれているデータ）が求められる。このように、ＳＩＭＤ演算では、複数のデータに対する処理を１つの命令で行うことができるため、演算処理を迅速に行うことができる。また、これらのＳＩＭＤ演算に関する命令を、マルチコアプロセッサ８００の制御プロセッサコア８０１が行い、この命令に対する複数データの演算処理について演算プロセッサコア（＃１）８１１乃至（＃８）８１８が並列処理を行う。

一方、例えば、データ「Ａ１」と「Ｂ１」とを加算し、データ「Ａ２」と「Ｂ２」とを減算し、データ「Ａ３」と「Ｂ３」とを乗算し、データ「Ａ４」と「Ｂ４」とを除算する処理については、ＳＩＭＤ演算では行うことができない。すなわち、複数のデータのそれぞれに対して異なる処理をする場合には、ＳＩＭＤ演算による処理を行うことがではできない。

次に、特徴点抽出処理およびオプティカルフロー算出処理を行う場合におけるＳＩＭＤ演算の具体的な演算方法について図面を参照して詳細に説明する。

図５５は、本発明の実施の形態における制御プロセッサコア８０１または演算プロセッサコア（＃１）８１１により実行されるプログラムの構成例を示す図である。ここでは、演算プロセッサコア（＃１）８１１についてのみ図示するが、演算プロセッサコア（＃２）８１２乃至（＃８）８１８についても同様の処理が行われる。

制御プロセッサコア８０１は、デコード８５１としてデコード８５２、インターレース８５３およびリサイズ８５４を実行する。デコード８５２は、動画ファイルをデコードする処理である。インターレース８５３は、デコードされた各フレームについてインターレース除去する処理である。リサイズ８５４は、インターレース除去された各フレームについて縮小する処理である。

また、制御プロセッサコア８０１は、演算プロセッサコア管理８５６として命令送信８５７および８５９、終了通知受信８５８および８６０を実行する。命令送信８５７および８５９は、演算プロセッサコア（＃１）８１１乃至（＃８）８１８に対するＳＩＭＤ演算の実行命令を送信する処理であり、終了通知受信８５８および８６０は、上記命令に対する演算プロセッサコア（＃１）８１１乃至（＃８）８１８からのＳＩＭＤ演算の終了通知を受信する処理である。さらに、制御プロセッサコア８０１は、カメラワーク検出８６１としてカメラワークパラメータ算出処理８６２を実行する。カメラワークパラメータ算出処理８６２は、演算プロセッサコア（＃１）８１１乃至（＃８）８１８によるＳＩＭＤ演算により算出されたオプティカルフローに基づいてフレーム毎にアフィン変換パラメータを算出する処理である。

演算プロセッサコア（＃１）８１１は、特徴点抽出処理８６３として、ソベルフィルタ（Sobel Filter）処理８６４、二次モーメント行列（Second Moment Matrix）処理８６５、セパラブルフィルタ（Separable Filter）処理８６６、ハリスコーナー点抽出（Calc Harris）処理８６７、膨張処理（Dilation）８６８、並べ替え処理（Sort）８６９を実行する。

ソベルフィルタ処理８６４は、Ｐ２のフィルタ（ｘ方向）を使って得られるｘ方向の値ｄｘと、Ｙ方向のフィルタを使って得られるｙ方向の値ｄｙとを算出する処理である。なお、ｘ方向の値ｄｘの算出については、図５６乃至図５９を参照して詳細に説明する。

二次モーメント行列処理８６５は、ソベルフィルタ処理８６４により算出されたｄｘおよびｄｙを用いて、ｄｘ^２，ｄｙ^２，ｄｘ・ｄｙの各値を算出する処理である。

セパラブルフィルタ処理８６６は、二次モーメント行列処理８６５により算出されたｄｘ^２，ｄｙ^２，ｄｘ・ｄｙの画像に対してガウシアンフィルタ（ぼかし処理）を掛ける処理である。

ハリスコーナー点抽出処理８６７は、セパラブルフィルタ処理８６６により、ぼかし処理が施されたｄｘ^２，ｄｙ^２，ｄｘ・ｄｙの各値を用いて、ハリスコーナーのスコアを算出する処理である。このハリスコーナーのスコアＳは、例えば、次の式により算出される。
Ｓ＝（ｄｘ^２×ｄｙ^２−ｄｘ・ｄｙ×ｄｘ・ｄｙ）／（ｄｘ^２＋ｄｙ^２＋ε）

膨張処理８６８は、ハリスコーナー点抽出処理８６７により算出されたハリスコーナーのスコアで構成された画像に対してぼかし処理を行う処理である。

並べ替え処理８６９は、ハリスコーナー点抽出処理８６７により算出されたハリスコーナーのスコアが高い順に画素を並べ、このスコアが高い方から所定の数だけピックアップし、このピックアップされた点を特徴点として抽出する処理である。

演算プロセッサコア（＃１）８１１は、オプティカルフロー（Optical Flow）演算処理８７０として、ピラミッド画像（Make Pyramid Image）処理８７１、オプティカルフロー算出（Calc Optical Flow）処理８７２を実行する。

ピラミッド画像処理８７１は、撮像装置による撮像時の画サイズから所定数の段階に縮小された画像を順次作成する処理であり、作成された画像は多重解像度画像と呼ばれる。

オプティカルフロー算出処理８７２は、ピラミッド画像処理８７１により作成された多重解像度画像のうちで、最も小さい画像についてオプティカルフローを計算し、この計算結果を用いて、１つ上の解像度の画像について再びオプティカルフローを計算する処理であり、この一連の処理を最も大きい画像に辿り着くまで繰り返し行う。

このように、例えば、図４８に示す特徴点抽出部４８１により行われる特徴点抽出処理と、オプティカルフロー計算部４８２により行われるオプティカルフロー算出処理とについては、マルチコアプロセッサ８００を用いてＳＩＭＤ演算によって並列処理することにより処理結果を求めることができる。なお、図５５等で示す特徴点抽出処理およびオプティカルフロー算出処理は、一例であり、動画を構成する画像に対する各種フィルタ処理や閾値処理等により構成される他の処理を用いて、マルチコアプロセッサ８００によるＳＩＭＤ演算を行うようにしてもよい。

図５６は、本発明の実施の形態におけるメインメモリ７８１に格納されている画像データ（撮像装置により撮像された動画を構成する１つのフレームに対応する画像データ）について、ソベルフィルタ８３０を用いてフィルタリング処理を行う場合におけるデータ構造と処理の流れを概略的に示す図である。なお、同図に示すメインメモリ７８１に格納されている画像データについては、横の画素数を３２画素として簡略化して示す。また、ソベルフィルタ８３０は、３×３のエッジ抽出フィルタである。同図に示すように、メインメモリ７８１に格納されている画像データについて、ソベルフィルタ８３０を用いたフィルタリング処理を行い、このフィルタリング処理の結果が出力される。この例では、ＳＩＭＤ演算を用いて４つ分のフィルタ結果を一度に得る例について説明する。

図５７は、本発明の実施の形態におけるメインメモリ７８１に格納されている画像データについてソベルフィルタ８３０を用いてＳＩＭＤ演算を行う場合におけるデータの流れを概略的に示す図である。最初は、メインメモリ７８１に格納されている画像データのうちの最初のラインを含む所定数のライン（例えば、３ライン）が演算プロセッサコアのローカルストア８２１に備えられる第一バッファ８３１にＤＭＡ（Direct Memory Access）転送されるとともに、第一バッファ８３１にＤＭＡ転送された各ラインを１つ下にずらした所定数のラインが第二バッファ８３２にＤＭＡ転送される。このように、ダブルバッファを使用することにより、ＤＭＡ転送による遅延を隠蔽することができる。

図５８は、本発明の実施の形態におけるソベルフィルタ８３０を用いてフィルタリング処理を行う場合において、第一バッファ８３１に格納されている画像データから９つのベクトルを作成するベクトル作成方法を概略的に示す図である。図５７に示すように、ＤＭＡ転送が行われた後に、第一バッファ８３１に格納されている画像データから９つのベクトルが作成される。具体的には、第一バッファ８３１に格納されている画像データの１ラインにおいて左隅から４つのデータによりベクターデータ８４１が作成され、その４つのデータを右側に１つずらした４つのデータによりベクターデータ８４２が作成され、同様に、その４つのデータを右側に１つずらした４つのデータによりベクターデータ８４３が作成される。また、２ラインおよび３ラインにおいても同様に４つのデータによりベクターデータ８４４乃至８４９が作成される。

図５９は、本発明の実施の形態におけるソベルフィルタ８３０を用いてフィルタリング処理を行う場合において、ベクターデータ８４１乃至８４９についてＳＩＭＤ命令を用いてベクトル演算を行うベクトル演算方法を概略的に示す図である。具体的には、ベクターデータ８４１乃至８４３についてＳＩＭＤ演算が順次行われ、ベクトルＡが求められる。このＳＩＭＤ演算では、最初に、『「−１」×「ベクターデータ８４１」』のＳＩＭＤ演算が実行される。続いて、『「０」×「ベクターデータ８４２」』のＳＩＭＤ演算が実行され、『「１」×「ベクターデータ８４３」』のＳＩＭＤ演算が実行される。ここで、『「０」×「ベクターデータ８４２」』については、演算結果が「０」であると確定しているため、省略することが可能である。また、『「１」×「ベクターデータ８４３」』については、演算結果が「ベクターデータ８４３」と同じ値であることが確定しているため、省略することが可能である。

続いて、『「−１」×「ベクターデータ８４１」』の演算結果と、『「０」×「ベクターデータ８４２」』の演算結果との加算処理がＳＩＭＤ演算により実行される。続いて、この加算処理の結果と、『「１」×「ベクターデータ８４３」』の演算結果との加算処理がＳＩＭＤ演算により実行される。ここで、例えば、「ベクターデータ１」×「ベクターデータ２」＋「ベクターデータ３」となるデータ構造の演算については、ＳＩＭＤ演算により実行することが可能である。そこで、ベクトルＡの演算については、例えば、『「０」×「ベクターデータ８４２」』および『「１」×「ベクターデータ８４３」』についてのＳＩＭＤ演算を省略し、『「−１」×「ベクターデータ８４１」＋「ベクターデータ８４３」』を一度のＳＩＭＤ演算により実行するようにしてもよい。

また、同様に、ベクターデータ８４４乃至８４６についてＳＩＭＤ演算が行われ、ベクトルＢが求められ、ベクターデータ８４７乃至８４９についてＳＩＭＤ演算が行われ、ベクトルＣが求められる。

続いて、ＳＩＭＤ演算により求められたベクトルＡ乃至ＣについてＳＩＭＤ演算が行われ、ベクトルＤが求められる。このように、ＳＩＭＤ演算を行うことにより、ベクトルの要素数分（この例では４つのデータ）の結果をまとめて得ることができる。

ベクトルＤが算出された後は、図５７に示す第一バッファ８３１に格納されている画像データにおいて、取り出すデータの位置を右側に１つずらしながら、同様の処理を繰り返し実行して、それぞれのベクトルＤの算出を順次行う。そして、図５７に示す第一バッファ８３１に格納されている画像データの右端までの処理が終了した場合には、処理結果をメインメモリ７８１にＤＭＡ転送する。

続いて、メインメモリ７８１に格納されている画像データのうちで、第二バッファ８３２にＤＭＡ転送された各ラインを１つ下にずらした所定数のラインが第一バッファ８３１にＤＭＡ転送されるとともに、第二バッファ８３２に格納されている画像データについて、上述した処理を繰り返し行う。そして、メインメモリ７８１に格納されている画像データの各ラインのうちの下端のラインに達するまで、同様の処理を繰り返し行う。

同様に、特徴点抽出とオプティカルフロー算出の大部分の処理をＳＩＭＤ演算により行うことによって高速化を実現することができる。

図６０は、本発明の実施の形態におけるカメラワークパラメータ算出処理の流れを時系列で概略的に示す図である。上述したように、例えば、マルチコアプロセッサ８００を用いてＳＩＭＤ演算を行うことにより、動画についてのデコードおよび解析処理を並列化して行うことができる。このため、動画を構成する１フレームの解析時間を、デコード時間よりも短縮することが可能である。

例えば、同図において、ｔ１は、制御プロセッサコア８０１が動画を構成する１フレームのデコード処理に要する時間を示し、ｔ２は、演算プロセッサコア（＃１）８１１乃至（＃８）８１８が動画を構成する１フレームの特徴点抽出処理に要する時間を示し、ｔ３は、演算プロセッサコア（＃１）８１１乃至（＃８）８１８が動画を構成する１フレームのオプティカルフロー算出処理に要する時間を示し、ｔ４は、制御プロセッサコア８０１が動画を構成する１フレームのカメラワーク検出処理に要する時間を示す。なお、ｔ５は、制御プロセッサコア８０１および演算プロセッサコア（＃１）８１１乃至（＃８）８１８が動画を構成する１フレームについて、カメラワーク検出処理に要する時間を示す。また、ｔ６は、ｔ６は、制御プロセッサコア８０１が演算プロセッサコア（＃１）８１１乃至（＃８）８１８を管理する処理に要する時間を示す。例えば、ｔ１を「２５．０ｍｓ」とし、ｔ２を「７．９ｍｓ」とし、ｔ３を「６．７ｍｓ」とし、ｔ４を「１．２ｍｓ」とし、ｔ５を「１５．８ｍｓ」とすることができる。

次に、本発明の実施の形態におけるメタデータファイルを用いた動画コンテンツを再生する場合について図面を参照して詳細に説明する。

図６１（ａ）は、記録媒体の一例であるブルーレイディスク（Blu-ray Disc（登録商標））８８０を模式的に示す上面図であり、図６１（ｂ）は、ブルーレイディスク８８０に記録されている各データ８８１乃至８８４を模式的に示す図である。ブルーレイディスク８８０には、例えば、撮像装置等により撮像された動画である動画コンテンツ８８２、動画コンテンツ８８２の字幕８８３、および、動画コンテンツ８８２について解析されて得られたメタデータ（例えば、図３０（ｂ）に示すメタデータファイル、図４３に示す相対関係メタデータファイル）８８４とともに、本発明の実施の形態における動画再生に係るＪａｖａ（登録商標）プログラム８８１が記録されている。

図６１（ｃ）は、ブルーレイディスク８８０を再生可能なブルーレイ再生機（Blu-ray Disc Player）８９０の内部構成を模式的に示す図である。ここで、ブルーレイディスクを再生可能なブルーレイ再生機８９０は、ＣＰＵ８９１およびＯＳ８９２とともに、ＪａｖａＶＭ（Ｊａｖａ仮想マシン）およびライブラリ８９３が標準で搭載されているため、Ｊａｖａプログラムを実行することが可能である。このため、ブルーレイディスク８８０をブルーレイ再生機８９０に装着することにより、ブルーレイ再生機８９０がＪａｖａプログラム８８１をロードして実行することが可能である。これにより、ブルーレイ再生機８９０が動画コンテンツ８８２を再生する場合に、メタデータ８８４を用いて、本発明の実施の形態における動画再生を行うことが可能である。すなわち、専用のＰＣソフト等を使わずに、全てのブルーレイ再生機で本発明の実施の形態における動画再生を実現することが可能になる。

このように、本発明の実施の形態によれば、表示画面上における動画の現フレームに対応する画像の位置、角度または倍率に応じて入力音声を変換処理することができる。これにより、その動画の閲覧者は、表示画面上の現フレームに対応する画像の位置、角度または倍率に応じた適切な音響を聞くことができる。すなわち、より現実味のある音響効果を得ることができる。

また、本発明の実施の形態では、撮像装置により撮像された動画について説明したが、例えば、カメラにより撮像された動画が編集された場合における編集後の動画やアニメーション等が合成された動画等についても、本発明の実施の形態を適用することができる。

また、本発明の実施の形態では、パーソナルコンピュータ等の画像処理装置について説明したが、例えば、テレビジョン等の動画再生装置等についても、本発明の実施の形態を適用することができる。

また、本発明の実施の形態では、音響装置および表示装置等を組み合わせた動画視聴システムについても本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

すなわち、請求項１において、コンテンツ取得手段は、例えばコンテンツ取得部１２０またはコンテンツ取得部１２１に対応する。また、画像変換情報供給手段は、例えば画像変換情報供給部１３０またはメタデータ記憶部２５０に対応する。また、画像変換手段は、例えば画像変換部１４０または画像変換部１４１に対応する。また、画像合成手段は、例えば画像合成部１５０または画像合成部１５１に対応する。また、表示制御手段は、例えば表示制御部１７０または表示制御部１７１に対応する。また、音声変換情報算出手段は、例えば音声変換情報算出部１９０または音声変換情報算出部１９１に対応する。また、音声変換処理手段は、例えば音声変換処理部２００に対応する。また、音声出力制御手段は、例えば音声出力制御部２１０に対応する。

また、請求項７において、音量調整手段は、例えば音量調整部２０１または音量調整部６３０に対応する。また、音声加算手段は、例えば音声加算部２０２または音声加算部６４０に対応する。

また、請求項１０において、画像保持手段は、例えば画像メモリ１６０または画像メモリ１６１に対応する。

また、請求項１１において、表示領域取出手段は、例えば表示領域取出部２６０に対応する。

また、請求項１３または１４において、コンテンツ取得手順は、例えばステップＳ９２２に対応する。また、画像変換情報供給手順は、例えばステップＳ９２４またはＳ９６３に対応する。また、画像変換手順は、例えばステップＳ９２７、Ｓ９３１、Ｓ９３５、Ｓ９３６に対応する。また、音声変換情報算出手順は、例えばステップＳ９５１またはＳ９８２に対応する。また、音声変換処理手順は、例えばステップＳ９５２およびＳ９５３に対応する。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

本発明の実施の形態における画像処理装置１００の機能構成例を示すブロック図である。動画を構成するフレームに対応する画像の一例を示す図である。動画を構成するフレームに対応する画像について背景等を省略して簡略化した画像を示す図である。本発明の実施の形態における画像処理装置１００によるアフィン変換パラメータ検出処理の処理手順を示すフローチャートである。撮像装置により撮影された動画の遷移の一例を示す図である。図５に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図５に示す画像４０１乃至４０３を含む動画を再生する場合における表示例を示す図である。図５に示す画像４０１乃至４０３を含む動画を再生する場合における表示例を示す図である。撮像装置により撮影された動画の遷移の一例を示す図である。図９に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図９に示す画像４２１乃至４２３を含む動画を再生する場合における表示例を示す図である。図９に示す画像４２１乃至４２３を含む動画を再生する場合における表示例を示す図である。撮像装置により撮影された動画の遷移の一例を示す図である。図１３に示す各画像において、直前のフレームに対応する画像を破線で示すとともに、検出されるオプティカルフローの一例を示す図である。図１３に示す画像４４１乃至４４３を含む動画を再生する場合における表示例を示す図である。図１３に示す画像４４１乃至４４３を含む動画を再生する場合における表示例を示す図である。本発明の実施の形態における音声変換処理部２００の構成例を示すブロック図である。撮像された動画を通常の再生方法により再生する例の概要を示す図である。本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。本発明の実施の形態における表示部１８０の表示画面の座標系について示すブロック図である。本発明の実施の形態における現フレームに対応する画像の中心位置と出力音声との関係を例示するグラフ図である。撮像装置５００と被写体との関係例について示す図である。本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。本発明の実施の形態における現フレームに対応する画像の角度と出力音声との関係を例示するグラフ図である。本発明の実施の形態における画像処理装置１００による再生例の概要を示す図である。本発明の実施の形態における現フレームに対応する画像の倍率と出力音声との関係を例示するグラフ図である。本発明の実施の形態における画像処理装置１００による動画再生処理の処理手順を示すフローチャートである。本発明の実施の形態における画像処理装置１００による音声変換処理の処理手順例（ステップＳ９５０の処理手順）を示すフローチャートである。本発明の実施の形態における画像処理装置６５０の機能構成例を示すブロック図である。本発明の実施の形態における動画記憶部２４０およびメタデータ記憶部２５０に記録されている各ファイルを模式的に示す図である。本発明の実施の形態における画像処理装置６８０の機能構成例を示すブロック図である。本発明の実施の形態における動画記憶部２４０に記憶されている動画の各フレームと、表示領域との関係を模式的に示す図である。現フレームに対応する画像が表示領域からはみ出した場合における表示領域の移動処理を概略的に示す図である。図３３に示す移動処理で表示領域を移動させる場合の遷移の一例を示す図である。本発明の実施の形態における動画記憶部２４０に記憶されている動画ファイルの各フレームと、表示領域との関係を模式的に示す図である。表示部１８０における現フレームに対応する画像を固定する表示モードが指定されている場合において、表示部１８０に表示される動画を拡大表示させる場合における拡大方法の概略を示す図である。本発明の実施の形態における動画記憶部２４０に記憶されている動画ファイルの各フレームの流れを模式的に示す図である。本発明の実施の形態における動画記憶部２４０に記憶されている動画ファイルの各フレームの流れを模式的に示す図である。本発明の実施の形態における画像処理装置６５０による動画再生処理の処理手順を示すフローチャートである。本発明の実施の形態における画像処理装置６８０による動画再生処理の処理手順を示すフローチャートである。本発明の実施の形態における画像処理装置６８０による音声変換処理の処理手順例（ステップＳ９８０の処理手順）を示すフローチャートである。本発明の実施の形態における画像処理装置７４０の機能構成例を示すブロック図である。本発明の実施の形態における動画記憶部２４０および相対関係情報記憶部２９０に記録されている各ファイルを模式的に示す図である。２つの動画を合成する場合における合成例を模式的に示す図である。本発明の実施の形態における画像処理装置７４０による音声変換処理部２００の構成例を示すブロック図である。本発明の実施の形態における画像処理装置７４０による２つの動画の同時再生時における音声変換処理の例を示す図である。本発明の実施の形態における動画の動き情報以外の情報により音声を変換処理する例を示す図である。本発明の実施の形態におけるカメラワーク検出部４８０の機能構成例を示すブロック図である。本発明の実施の形態におけるマルチコアプロセッサ８００の一構成例を示す図である。本発明の実施の形態における制御プロセッサコア８０１の一構成例を示す図である。本発明の実施の形態における演算プロセッサコア（＃１）８１１の一構成例を示す図である。本発明の実施の形態におけるマルチコアプロセッサ８００の演算方法を模式的に示す図である。本発明の実施の形態におけるマルチコアプロセッサ８００により演算を行う場合におけるプログラムおよびデータの流れを模式的に示す図である。複数のデータに対する処理をそれぞれの命令で行う演算方式の概要、および、複数のデータに対する処理を１つの命令で行うＳＩＭＤ演算の概要を模式的に示す図である。本発明の実施の形態における制御プロセッサコア８０１または演算プロセッサコア（＃１）８１１により実行されるプログラムの構成例を示す図である。本発明の実施の形態におけるメインメモリ７８１に格納されている画像データについて、ソベルフィルタ８３０を用いてフィルタリング処理を行う場合におけるデータ構造と処理の流れを概略的に示す図である。本発明の実施の形態におけるメインメモリ７８１に格納されている画像データについてソベルフィルタ８３０を用いてＳＩＭＤ演算を行う場合におけるデータの流れを概略的に示す図である。本発明の実施の形態におけるソベルフィルタ８３０を用いてフィルタリング処理を行う場合において、第一バッファ８３１に格納されている画像データから９つのベクトルを作成するベクトル作成方法を概略的に示す図である。本発明の実施の形態におけるソベルフィルタ８３０を用いてフィルタリング処理を行う場合において、ベクターデータ８４１乃至８４９についてＳＩＭＤ命令を用いてベクトル演算を行うベクトル演算方法を概略的に示す図である。本発明の実施の形態におけるカメラワークパラメータ算出処理の流れを時系列で概略的に示す図である。記録媒体の一例であるブルーレイディスク８８０、ブルーレイディスク８８０に記録されている各データ８８１乃至８８４、および、ブルーレイディスク８８０を再生可能なブルーレイ再生機８９０の内部構成を模式的に示す図である。

符号の説明

１００、６５０、６８０、７４０画像処理装置
１１０コンテンツ記憶部
１２０、１２１コンテンツ取得部
１３０画像変換情報供給部
１４０、１４１画像変換部
１５０、１５１画像合成部
１６０、１６１画像メモリ
１７０、１７１表示制御部
１８０表示部
１９０、１９１音声変換情報算出部
２００音声変換処理部
２０１、６３０音量調整部
２０２、６４０音声加算部
２１０音声出力制御部
２２０スピーカ
２３０、２３１、２３２操作受付部
２６０表示領域取出部
２７０表示メモリ
２８０対象画像変換情報算出部
２９０相対関係情報記憶部

Claims

動画および当該動画に対応する音声を含むコンテンツデータを取得するコンテンツ取得手段と、
前記動画を構成する第１の画像および第２の画像に基づいて前記第１の画像に対する前記第２の画像に関する画像変換情報を供給する画像変換情報供給手段と、
前記第１の画像を基準として前記画像変換情報に基づいて前記第２の画像を変換する画像変換手段と、
前記変換された第２の画像および当該第２の画像の背景となる背景画像を合成して合成画像とする画像合成手段と、
前記合成画像を表示手段に表示させる表示制御手段と、
前記画像変換情報に基づいて前記第２の画像に係る音声に関する音声変換情報を算出する音声変換情報算出手段と、
前記音声変換情報に基づいて前記音声を変換処理して出力音声を生成する音声変換処理手段と、
前記出力音声を音声出力手段に出力させる音声出力制御手段と
を具備することを特徴とする画像処理装置。
前記画像変換情報は、前記第１の画像に対する前記第２の画像の移動に関する要素を含むことを特徴とする請求項１記載の画像処理装置。
前記画像変換情報は、前記第１の画像に対する前記第２の画像の回転に関する要素を含むことを特徴とする請求項１記載の画像処理装置。
前記画像変換情報は、前記第１の画像に対する前記第２の画像の倍率に関する要素を含むことを特徴とする請求項１記載の画像処理装置。
前記音声変換処理手段は、音量調整手段と音声加算手段とを備え、
前記音量調整手段は、前記音声変換情報に基づいて前記音声を構成する複数のチャンネルの各音量を調整し、
前記音声加算手段は、前記調整後の音声をチャンネル毎に加算する
ことを特徴とする請求項１記載の画像処理装置。
前記音声変換処理手段は、前記変換処理して前記出力音声を構成する右チャンネルおよび左チャンネルの音声を生成することを特徴とする請求項１記載の画像処理装置。
前記音声変換処理手段は、前記変換処理して前記出力音声を構成するセンターチャンネルの音声を生成することを特徴とする請求項１記載の画像処理装置。
前記音声は、右チャンネルおよび左チャンネルの音声を含み、
前記音声変換処理手段は、前記右チャンネルおよび左チャンネルの音声を前記変換処理して前記出力音声を生成することを特徴とする請求項１記載の画像処理装置。
前記音声は、センターチャンネルの音声を含み、
前記音声変換処理手段は、前記センターチャンネルの音声を前記変換処理して前記出力音声を生成することを特徴とする請求項１記載の画像処理装置。
前記第１の画像を含む画像を履歴画像として保持する画像保持手段をさらに具備し、
前記第１の画像は、前記動画における時間軸において前記第２の画像より前に位置する画像であり、
前記画像変換手段は、前記画像変換情報に基づいて前記第２の画像および前記画像保持手段に保持されている履歴画像のうちの少なくとも一方を変換し、
前記画像合成手段は、前記画像変換手段により少なくとも一方が変換された前記第２の画像および前記履歴画像を合成して前記合成画像とし前記合成画像を新たな履歴画像として前記画像保持手段に保持させる
ことを特徴とする請求項１記載の画像処理装置。
前記画像保持手段に保持されている前記新たな履歴画像から前記表示手段の表示対象となる表示領域を決定して当該表示領域に含まれる画像を表示画像として取り出す表示領域取出手段をさらに具備し、
前記画像合成手段は、前記変換された前記第２の画像を前記表示画像に上書きして合成して新たな表示画像とし、
前記表示制御手段は、前記新たな表示画像を前記表示手段に表示させ、
前記表示領域取出手段は、前記画像保持手段の保持領域における前記表示領域の位置または角度または大きさに関する表示領域取出情報を生成し、
前記音声変換情報算出手段は、前記画像変換情報および前記表示領域取出情報に基づいて前記音声変換情報を算出する
ことを特徴とする請求項１０記載の画像処理装置。
前記画像変換手段は、前記表示手段における前記動画を表示させる表示領域を示すテンプレート情報に基づいて前記第２の画像を変換する
ことを特徴とする請求項１記載の画像変換装置。
動画に対応する音声を出力する音声出力手段を備える画像処理装置における音声変換処理方法であって、
前記動画および前記音声を含むコンテンツデータを取得するコンテンツ取得手順と、
前記動画を構成する第１の画像および第２の画像に基づいて前記第１の画像に対する前記第２の画像に関する画像変換情報を供給する画像変換情報供給手順と、
前記第１の画像を基準として前記画像変換情報に基づいて前記第２の画像を変換する画像変換手順と、
前記画像変換情報に基づいて前記音声に関する音声変換情報を算出する音声変換情報算出手順と、
前記音声変換情報に基づいて前記音声を変換処理して出力音声を生成する音声変換処理手順と、
前記出力音声を前記音声出力手段に出力させる音声出力制御手順と
を具備することを特徴とする音声変換処理方法。
動画に対応する音声を出力する音声出力手段を備える画像処理装置において、
前記動画および前記音声を含むコンテンツデータを取得するコンテンツ取得手順と、
前記動画を構成する第１の画像および第２の画像に基づいて前記第１の画像に対する前記第２の画像に関する画像変換情報を供給する画像変換情報供給手順と、
前記第１の画像を基準として前記画像変換情報に基づいて前記第２の画像を変換する画像変換手順と、
前記画像変換情報に基づいて前記音声に関する音声変換情報を算出する音声変換情報算出手順と、
前記音声変換情報に基づいて前記音声を変換処理して出力音声を生成する音声変換処理手順と、
前記出力音声を前記音声出力手段に出力させる音声出力制御手順と
をコンピュータに実行させることを特徴とするプログラム。