JP6216169B2

JP6216169B2 - 情報処理装置、情報処理方法

Info

Publication number: JP6216169B2
Application number: JP2013138442A
Authority: JP
Inventors: 金子　和恵; 和恵金子
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-09-26
Filing date: 2013-07-01
Publication date: 2017-10-18
Anticipated expiration: 2033-07-01
Also published as: JP2014082746A; US20140086551A1

Description

本発明は、リフォーカス処理を用いた情報処理技術に関するものである。

従来、映像は撮影時にフォーカスを決定して記録する方法がとられてきたが、近年、複数のレンズを使用して多視点映像を撮影し、再生時にフォーカスを変更できる方法が提案されている。この方法を使えば、ある一点にピントが合っている状態から任意の点にピントが合っている状態へ奥行きを変えていく様子を段階的に再現できる。この中間の過程においてはどこにもピントの合っていないぼやけた映像が表示されることもある。

一方、複数のマイクを使って多聴点音声を収録し、再生時にある一定方向の音を強調して再生する方法も提案されている。特許文献１は、複数のカメラと複数のマイクを円形に配置して３６０度の映像を撮影し、ユーザが選んだ画面の方向に対応させた音を再生するものである。特許文献２は、映像を解析して主要被写体の領域を検出し、その領域の位置情報に合わせて音を合成するものである。また、映像の特徴に合わせて音を合成するものも提案されている。特許文献３は、映像を解析し、映像の特徴に合わせて音響信号の信号特性を変更するものである。

特開平9−55925号公報特開2011-50009号公報特開平7-131770号公報

デジタルリフォーカスを行う際に、音声の再生をどう行うべきかという課題がある。Ａ地点にピントがあっている映像からＢ地点にピントがあっている映像に移行する際、ピントの合う位置の奥行きを徐々に変更している間にどこにもピントの合っていない映像が再生されることがある。通常の音の再生ではどの状態でも同じ音が再生されるが、より臨場感を増すために、音源分離技術を適用することが考えられる。Ａ地点にピントが合っている時にはＡ地点から聞こえる音を再現し、Ｂ地点にピントが合っている時にはＢ地点から聞こえる音を再現することが望ましい。その間のピントの合っていない映像の音はどうするべきか未だ検討がなされていない。

特許文献１，２の手法からの類推では、ピントの合っていない映像に対しては方向や領域を確定できないため、合成すべき音の指標が得られない。特許文献３の手法を適用すると、ぼけた画像にはぼやけた音を再生することになるが、どの段階の映像に対しても一様に同じぼやけた音を再生することになり、段階的な変化を表現することができない。

本発明は、このような問題に鑑みてなされたものであり、表示画像におけるピントの変化に合わせて再生音声を変化させることで、臨場感のある音声再生を行う為の技術を提供することを目的とする。

本発明の目的を達成するために、例えば、本発明の、情報処理装置は、複数の視点から撮影して取得された複数の画像から、音源となる第１の被写体が第１のピント距離で合焦している第１の画像と、音源となる第２の被写体が該第１のピント距離とは異なる第２のピント距離で合焦している第２の画像と、前記第１のピント距離と前記第２のピント距離との間の第３のピント距離で合焦している第３の画像と、を生成する画像生成手段と、
前記第１の画像、前記第３の画像、前記第２の画像、を１枚ずつ表示部に表示する表示制御手段と、
前記第１の被写体から発せられる第１の音及び前記第２の被写体から発せられる第２の音を用いて、音を生成する音生成手段と、
前記表示制御手段が前記表示部に前記第１の画像を表示中に前記第１の音を再生し、前記表示制御手段が前記表示部に前記第２の画像を表示中に前記第２の音を再生し、前記表示制御手段が前記表示部に前記第３の画像を表示中に前記音生成手段が生成した音を再生する再生手段と、
前記画像生成手段により生成され且つ互いにピント距離が異なる、前記第１の画像、前記第２の画像、前記第３の画像を含むそれぞれの画像から、該画像において合焦している被写体の焦点領域が抽出可能か否かを判断する判断手段と、
前記焦点領域が抽出可能な画像と、前記焦点領域において合焦している前記被写体から発せられる音と、を関連づける関連づけ手段と
を備え、
前記第１の被写体及び前記第２の被写体は前記第３のピント距離では合焦しておらず、
前記再生手段は、前記表示制御手段が前記焦点領域が抽出可能な画像を前記表示部に表示中に、前記焦点領域が抽出可能な画像と関連づけられている音を再生し、前記表示制御手段が音と関連づけられていない画像を前記表示部に表示中に、音と関連づけられていない画像について生成された合成音を再生することを特徴とする。

本発明の構成により、表示画像におけるピントの変化に合わせて再生音声を変化させることで、臨場感のある音声再生を行うことができる。

撮像装置の外観例を示す図。撮像装置のハードウェア構成例を示すブロック図。撮像装置の機能構成例を示すブロック図。撮像装置が行う処理のフローチャート。撮像画像、リフォーカス画像、音声の一例を説明する図。音源分離処理を説明する図。リフォーカス処理の結果の例を示す図。対応付け情報の一例を示す図。情報処理装置の機能構成例を示すブロック図。情報処理装置が行う処理のフローチャート。画像表示及び音声再生の一例を示す図。第４の実施形態の動作を説明する図。第５の実施形態の動作を説明する図。第６の実施形態の動作を説明する図。第６の実施形態の動作を説明する図。情報処理装置の機能構成例を示すブロック図。情報処理装置が行う画像再生処理及び音声再生処理のフローチャート。ステップＳ７０９及びステップＳ７１０にて行う処理のフローチャート。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
本実施形態に係る情報処理装置の機能構成例について、図１３のブロック図を用いて説明する。

音声取得部１３０１は、音声を収集可能な複数の装置（マイクロフォンなど）によって収集された音声（収集音）を取得する。音源分離部１３０２は、音声取得部１３０１が取得した収集音を、同じ音源からの音声（分離音）ごとに分離すると共に、該分離音の音源の位置を求める。

音声合成部１３０３は、画像再生部１３１０が再生表示する画像に対応する音声のデータである音声データを出力する。音声再生部１３０４は、音声合成部１３０３から出力された音声データに基づく音声をスピーカなどを介して出力する。音声再生部１３０４による音声再生は、画像再生部１３１０による画像再生に同期して行う。

画像取得部１３０８は、複数の撮像装置を用いて撮像された多視点の映像を取得する。リフォーカス部１３０９は、画像取得部１３０８が取得した多視点の映像を用いてリフォーカス処理を行うことで、ピントの奥行きがそれぞれ異なる複数の画像（リフォーカス画像）を生成する。

画像再生部１３１０は、リフォーカス部１３０９が生成したリフォーカス画像を表示画像として表示する。表示するものは、生成した全てのリフォーカス画像を一度若しくは順次表示しても良いし、不図示の指示部によってユーザが指定したリフォーカス画像を表示してもよい。いずれにせよ、上記の通り、画像再生部１３１０によるリフォーカス画像の画像再生に同期して音声再生部１３０４は、該リフォーカス画像に対応する音声の再生を行う。

ピント領域検出部１３０７は、リフォーカス部１３０９が生成したそれぞれのリフォーカス画像に対し、該リフォーカス画像内（表示画像内）でピントの合っている領域（ピント領域）を検出する処理を行う。そしてピント領域検出部１３０７は、リフォーカス画像からピント領域を検出することができた場合には、該ピント領域内に写っている対象物の実空間中の位置（ピントの位置）を求める。

位置判定部１３０５は、ピント領域検出部１３０７が求めたそれぞれのピントの位置と、音源分離部１３０２が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同じ位置の音源の位置を検索する。なお、ここでの「同じ」とは「全く同じ」であることに限るものではなく、「ある許容範囲内の誤差を認めた上での同じ」であるとする。

奥行き・分離音対応付け管理部１３０６は、ピント領域を求めたリフォーカス画像と、該ピントの位置と同じ位置の音源からの音声と、を関連付けるための処理を行う。本実施形態では、ピントの位置と、該位置と同じ位置の音源からの音声と、を関連付けて登録する。

なお、登録する情報については様々な形態が考え得るが、以下に説明する各処理を実現できるのであれば、如何なる情報を登録してもよい。これは、以下に説明する各実施形態についても同様である。

本実施形態に係る情報処理装置が行う画像再生処理及び音声再生処理について、図１４のフローチャートを用いて説明する。

ステップＳ１４０１では、複数の撮像装置のそれぞれが動画の撮像を行うことにより、該複数の撮像装置による多視点の映像の撮像が行われるので、画像取得部１３０８は、該複数の撮像装置により撮像された多視点の映像を取得する。

ステップＳ１４０２では、音源分離部１３０２は、音声取得部１３０１が取得した収集音を同じ音源からの音声である分離音ごとに分離すると共に、該分離音の音源の位置を求める。

ステップＳ１４０３では、リフォーカス部１３０９は、画像取得部１３０８が取得した多視点の映像を用いてリフォーカス処理を行うことで、複数枚のリフォーカス画像を生成する。

ステップＳ１４０４では、ピント領域検出部１３０７は、リフォーカス部１３０９が生成したそれぞれのリフォーカス画像に対してピント領域の検出処理を行い、ピント領域が検出された場合には、該ピント領域内におけるピントの位置を求める。

ステップＳ１４０５では、位置判定部１３０５は、ピント領域検出部１３０７が求めたそれぞれのピントの位置と、音源分離部１３０２が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同位置の音源位置を検索する。ステップＳ１４０６では、奥行き・分離音対応付け管理部１３０６は、ピントの位置と、該位置と同じ位置の音源からの音声と、を関連付けて登録する。

ステップＳ１４０７では、音声合成部１３０３は、画像再生部１３１０が再生表示対象とするリフォーカス画像からピントの位置が求められており、且つ該位置と関連付けて音声が登録されている場合には、該音声のデータを音声再生部１３０４に出力する。一方、音声合成部１３０３は、再生表示対象のリフォーカス画像からピントの位置は求められているものの、該位置と関連付けて音声が登録されていない場合、該位置の近傍位置（近接する位置）と関連付けて登録されている音声を合成して合成音声を生成する。そして音声合成部１３０３は、この生成した合成音声のデータを音声再生部１３０４に出力する。音声再生部１３０４は、音声合成部１３０３から出力されたデータに従った音声を再生する。

ステップＳ１４０８では、画像再生部１３１０は、再生表示対象とするリフォーカス画像を、音声再生部１３０４による音声再生と同期させて再生表示する。なお、図１４のフローチャートにおける各ステップにおける処理の詳細については、以下の各実施形態でより詳細に触れるため、ここでの説明は省略する。

なお、ステップＳ１４０２〜Ｓ１４０６までの処理は、撮影後からデジタルリフォーカス再生までの間ならば、任意の時間に行ってもよい。また、ステップＳ１４０１の処理、ステップＳ１４０２〜Ｓ１４０６の処理、ステップＳ１４０７〜Ｓ１４０８の処理、の３つの処理は別々の処理として分割可能である。

［第２の実施形態］
本実施形態に係る情報処理装置は、複数の撮像部と複数の音声収集部とを備える撮像装置であり、多視点の映像の撮影及び複数の音声の収集を行うと共に、リフォーカス画像の再生表示と同期させて対応する音声を再生する。

先ず、本実施形態に係る撮像装置の外観例について図１を用いて説明する。図１（Ａ）は、撮像装置を正面から見た図、図１（Ｂ）は、撮像装置を右横から見た図、図１（Ｃ）は、撮像装置を真上から見た図、である。

撮像装置の本体１００における正面には、図１（Ａ）に示す如く、カラー画像を撮像可能な９個の撮像部（１０１〜１０９）と、音声の収集が可能なマイクロフォンを有する３つの音声入力部（１１３〜１１５）と、が備わっている。また、図１（Ａ）、（Ｂ）に示す如く、撮像装置の側面には１個の音声入力部１１２が備わっていると共に、図１（Ａ）、（Ｃ）に示す如く、撮像装置の上面には１個の音声入力部１１１が備わっている。なお、図１に示した撮像部及び音声入力部の数や配置パターンはあくまでも一例であり、これについては様々な変形例が考え得る。例えば、撮像部を放射状や直線状に配置してもよいし、まったくランダムに配置してもよい。これは音声入力部についても同様である。

ユーザが撮像ボタン１１０を押下すると、撮像部１０１〜１０９及び音声入力部１１１〜１１５が動作する。撮像部１０１〜１０９のそれぞれは、自身が有するセンサ（撮像素子）により、外界から入光する光を電気信号に変換し、該電気信号をＡ／Ｄ変換することで、デジタルデータとしての撮像画像を得る。音声入力部１１１〜１１５のそれぞれは、外界からの音声を収集し、該音声をＡ／Ｄ変換することで、デジタルデータとしての音声を得る。

このような方式の撮像装置により、同一の被写体を複数の視点位置から撮像したカラー画像群および撮影箇所の周辺から発せられる音声を複数の位置で収録した音声群を得ることができる。

次に、本実施形態に係る撮像装置のハードウェア構成例について、図２のブロック図を用いて説明する。なお、図２において、図１に示した機能部と同じ機能部については同じ参照番号を付しており、これに係る説明は省略する。

ＣＰＵ２０１は、ＲＡＭ２０２やＲＯＭ２０３に格納されているコンピュータプログラムやデータを用いて処理を実行することで、撮像装置を構成する各部の動作制御を行い、これにより、撮像装置が行うものとして後述する各処理を実現する。

ＲＡＭ２０２は、撮像部１０１〜１０９や音声入力部１１１〜１１５から得られるデータを一時的に記憶するためのエリアを有する。更にＲＡＭ２０２は、ＣＰＵ２０１、デジタル信号処理部２０９、エンコーダ部２１０、画像処理部２１２、音声処理部２１６、等の各部が動作する際に用いるワークエリアを有する。即ち、ＲＡＭ２０２は、各種のエリアを適宜提供することができる。

ＲＯＭ２０３には、撮像装置の動作に係る様々なコンピュータプログラムやデータが格納されている。

操作部２０５は、ユーザが各種の指示をＣＰＵ２０１に入力するために操作するものであり、ボタンやモードダイヤル等により構成されている。

表示制御部２０７は、表示部２０６に画像や文字などを表示するための表示制御を行う。表示部２０６は、画像や文字などを表示するためのもので、例えば、液晶ディスプレイが用いられる。なお、表示部２０６はタッチスクリーン機能を有していても良く、その場合はタッチスクリーンを用いたユーザ指示を操作部２０５の入力として扱うことも可能である。

撮像部制御部２０８は、撮像部１０１〜１０９の動作制御を行うためのもので、ＣＰＵ２０１からの制御信号に応じて、撮像部１０１〜１０９のそれぞれのシャッターの開閉、絞りの調節、等を行う。

デジタル信号処理部２０９は、与えられデータに対し、ホワイトバランス処理、ガンマ処理、ノイズ低減処理など、そのデータに適切な処理を実行する。エンコーダ部２１０は、与えられたデータを、ＪＰＥＧやＭＰＥＧなどのファイルフォーマットに変換する処理を行う。

外部メモリ制御部２１１は、撮像装置をＰＣ（パーソナルコンピュータ）やその他のメディア（例えば、ハードディスク、メモリーカード、ＣＦカード、ＳＤカード、ＵＳＢメモリ）に接続するためのインターフェースとして機能する。

画像処理部２１２は、撮像部１０１〜１０９による撮像画像や、該撮像画像をデジタル信号処理部２０９によって処理した撮像画像を用いて、リフォーカス画像を生成するなどの画像処理を行う。

音声出力制御部２１４は、音声出力部２１３に供給する音声データを生成したり、音声出力部２１３の動作制御を行う。音声出力部２１３は、音声出力制御部２１４による制御に従って動作し、音声出力制御部２１４から供給された音声データに従った音声を、内臓スピーカを介して出力したり、外部への音声出力端子による外部への出力を行ったりする。

音声入力部制御部２１５は、音声入力部１１１〜１１５のそれぞれからの音声をデータとしてＲＡＭ２０２に送出したり、無音・有音の切り替え、音声入力部１１１〜１１５のそれぞれのマイク感度をＣＰＵ２０１からの指示に基づいて制御する等の制御を行う。

音声処理部２１６は、音声入力部１１１〜１１５のそれぞれからの音声や、該音声をデジタル信号処理部２０９によって処理した音声を用いて、音源分離、リフォーカス画像再生時の音声合成などの処理を行う。

上記の各部は何れも、バス２０４に接続されている。なお、図２に示した構成は、主要な構成を列挙したに過ぎず、以下に説明する各処理を達成できるのであれば、様々な変形例が考え得る。例えば、エンコーダ部２１０や画像処理部２１２、音声処理部２１６をコンピュータプログラムで実装し、ＲＯＭ２０３に格納させるようにしても良い。

次に、本実施形態に係る撮像装置の機能構成例について、図３のブロック図を用いて説明する。

音声入力部３０１は、音声入力部１１１〜１１５によって収集された音声（収集音）を取得する。音声入力部３０１は、音声入力部制御部２１５やデジタル信号処理部２０９が有する機能として実現される。

音源分離部３０２は、音声入力部３０１によって入力された収集音を、同じ音源からの音（分離音）ごとに分離すると共に、該分離音の音源の位置を求める。音源分離部３０２は、音声処理部２１６が有する機能として実現される。

画像入力部３０６は、撮像部１０１〜１０９を用いて撮像された多視点の映像を取得する。画像入力部３０６は、画像処理部２１２やデジタル信号処理部２０９が有する機能として実現される。

デジタルリフォーカス部３０７は、画像入力部３０６によって入力された多視点の映像を用いてリフォーカス処理を行うことで、一定の被写界深度を持ちかつ任意のピントの合う奥行きを持つ画像（リフォーカス画像）を複数枚生成する。デジタルリフォーカス部３０７は、画像処理部２１２が有する機能として実現される。

ピント領域検出部３０８は、デジタルリフォーカス部３０７が生成したそれぞれのリフォーカス画像に対し、該リフォーカス画像内でピントの合っている領域をピント領域として検出する処理を行う。そしてピント領域検出部３０８は、リフォーカス画像内でピント領域を検出した場合には、該ピント領域内でピントが合っている箇所の実空間中の位置（ピントの位置）を求める。ピント領域検出部３０８は、画像処理部２１２が有する機能として実現される。

位置判定部３０３は、ピント領域検出部３０８が求めたそれぞれのピントの位置と、音源分離部３０２が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同じ位置の音源の位置を検索する。位置判定部３０３は、ＣＰＵ２０１が有する機能として実現される。

奥行き・分離音対応付け管理部３０４は、ピント領域を求めたリフォーカス画像と、該ピント領域内におけるピントの位置と同じ位置の音源からの音と、を関連付ける。本実施形態では、ピントの位置と、該位置と同じ位置の音源からの音と、を関連付ける。奥行き・分離音対応付け管理部３０４は、ＣＰＵ２０１が有する機能として実現される。

記録部３０５は、奥行き・分離音対応付け管理部３０４により関連づけを行った情報をメモリなどに記録する処理を行うもので、外部メモリ制御部２１１が有する機能として実現される。

なお、外部メモリに記録された映像データや外部機器から転送された映像データに対してこの処理を行う場合には、図２の撮像装置の構成に限定されずにＰＣ上での処理も可能となる。音声入力部３０１及び画像入力部３０６はそれぞれ、音声および画像の入力部となる。

次に、音源分離処理とデジタルリフォーカスを行い、デジタルリフォーカス時のピントの合う奥行きと分離音の対応付けを行うために、撮像装置が行う処理について、同処理のフローチャートを示す図４を用いて説明する。なお、図４のフローチャートに従った処理を開始する時点で、ＲＡＭ２０２には、撮像部１０１〜１０９による多視点の映像（デジタル信号処理部２０９によって処理されていても良い）が格納されているものとする。

ステップＳ４０１では、ＣＰＵ２０１は、ＲＡＭ２０２に処理対象とするデータがあるか否かを判断する。この判断の結果、処理対象とするデータがあると判断した場合には、処理はステップＳ４０２に進み、処理対象とするデータがないと判断した場合には、図４のフローチャートに従った処理を終了する。対象とする映像について、一定時間ごと（例えば100msecごと）に以下の処理を繰り返す。撮影中の映像に対して適用する場合には撮影開始時に開始し、撮影終了とした段階で終了する。

ステップＳ４０２で音声処理部２１６は、一定期間内に音声入力部１１１〜１１５によって収集された収集音（デジタル信号処理部２０９によって処理されていても良い）を、同じ音源からの音（分離音）ごとに分離すると共に、該分離音の音源の位置を求める。

ここで、収集音を、同じ音源からの音（分離音）ごとに分離する音源分離の方法としては、独立成分分析に基づくブラインド音源分離などの手法があるが、既知の技術であるので詳細は省略する。音源分離の結果として、異なる音源から発せられた音を分割して取り出すことができる。また、周波数ごとに分離した信号をクラスタリングする際に、マイクロフォン対への各音源の到達時間差を推定して使う方法もあり、この場合にはマイク位置情報と到達時間差から三角測量法を用いて、その音源の位置も取り出すこと(音源定位)もできる。

図５Ａの撮影例では、近距離にコオロギ５０３、遠距離に木とカッコウ５０２がおり、コオロギ５０３とカッコウ５０２が同時に鳴いている風景の映像５０１を撮影している。このような風景を撮像部１０１〜１０９により撮像することで、多視点の映像５０４が撮像され、音声入力部１１１〜１１５によりこの風景における音声５０５が収録される。

音声入力部１１１〜１１５（マイク入力５０６）から得られる音声５０５は、コオロギ５０３とカッコウ５０２の声が混じった音であるが、そのボリュームや音声到達時間の配分はマイク位置により微妙に異なっている。この音声５０５に対して音源分離処理５０７を行うことにより、分離音５０８及び５０９を得ることができる。この時、音源の位置情報（音源位置（奥行きを含む））も求める。図５Ｂの５０８の、（−２００，８０，１５００）は、分離したカッコウの音の位置を、画像フレームの中心を（０，０）とした時、実際の音源位置を実寸のｃｍ単位（ｘ，ｙ，ｚ）で示したものである。奥行き１５ｍの距離の２次元平面で、中心位置から左へ２ｍ、上へ０．８ｍの位置からその音が発生していることを示す。図５Ｂの５０９の（２０，−２１，３０）は分離したコオロギの音の位置を示すものである。奥行き０．３ｍの距離の２次元平面で、中心位置から右へ０．２０ｍ、下へ０．２１ｍの位置からその音が発生していることを示す。

図４に戻って、次に、ステップＳ４０３では、ＣＰＵ２０１は、分離音を求めることができたか否かを判断する。周波数成分ごとに分離した分離信号を、推定到達時間差を用いてクラスタリングする際に、任意の範囲内に信号が集まらずに有意なクラスタが作成できない場合には音源が分離できない（分離音を求めることができない）ものとする。分離できない場合には、その時間帯の映像には対応する音源がないものと判断し、処理はステップＳ４０１に戻る。一方、分離できた（分離音を求めることができた）場合には、処理はステップＳ４０４に進む。

ステップＳ４０４では、画像処理部２１２は、撮像部１０１〜１０９による多視点の映像を用いてリフォーカス処理を行うことで、一定の被写界深度を持ちかつ任意のピントの合う奥行きを持つ画像（リフォーカス画像）を、奥行きを任意の間隔で複数作成する。間隔は一定距離でもよいし、手前方向の間隔を広く奥方向を狭くするような対数で求められる距離としてもよい。

リフォーカスの方法としては、撮影位置の異なる複数枚の画像から各画像をシフトあるいは合成して作成する合成開口撮影法などがあるが、既知の技術なので詳細は省略する。図５Ｃはリフォーカス処理の結果の例を示す図である。５１０はピントの合う奥行きを変えて作成したリフォーカス画像群である。

図４に戻って、次に、ステップＳ４０５では、ＣＰＵ２０１は、ステップＳ４０４で生成した複数枚のリフォーカス画像において未選択のリフォーカス画像のうちの１つを選択リフォーカス画像として選択する。

ステップＳ４０６では、ＣＰＵ２０１は、未選択のリフォーカス画像が無くてステップＳ４０５で未選択のリフォーカス画像が選択できなかったか否かを判断する。この判断の結果、未選択のリフォーカス画像を選択することができた場合には、処理はステップＳ４０７に進み、未選択のリフォーカス画像が選択できなかった場合には、処理はステップＳ４０１に戻る。

ステップＳ４０７では、画像処理部２１２は、選択リフォーカス画像に対して画像処理を行うことで、ボケ度の少ない境界のはっきりした画像の存在する領域（ピント領域）の検出処理を行う。画像のボケの度合いを判定する基準としてＭＴＦ（Modulation Transfer Function）曲線がある。ＭＴＦの求め方についても既知の技術であるので詳細は省略する。画像を一定の領域に分割し、それぞれの分割領域でＭＴＦ曲線を求め、空間周波数成分が高域に一定量存在する場合をピント領域とする。図５Ｃにおいてリフォーカス画像５１１及び５１２がピント領域の存在する画像であり、リフォーカス画像５１１は領域５１８にピントがあっており、リフォーカス画像５１２は領域５１９にピントが合っている。

そして画像処理部２１２は、ピント領域内に写っている対象物の実空間中の位置をピントの位置として求める。ピントの合っている領域は最初、画像内でのピクセル単位の座標として求められるが、さらに音源位置との同一性を調べるため、画角などの情報を合わせて、実寸の位置に変換し、ｃｍ単位で（ｘ，ｙ，width, height,ｚ）の順で示す。図５Ｃの領域５１９の（−２２０，−１３０，１８０，２００，１５００）は奥行き１５ｍの距離の２次元平面で中心から左へ２．２ｍ、下へ１．３ｍの位置から幅１．８ｍ高さ２ｍの領域に存在する被写体（カッコウと木）にピントが合っていることを示す。領域５１８の（１８，−２２，３，１，３０）は奥行き.０．３ｍの距離の２次元平面で中心から右へ０．１８ｍ、下へ０．２２ｍの位置から、幅０．０３ｍ、高さ０．０１ｍの領域に存在する被写体（コオロギ）にピントが合っていることを示す。その中間のリフォーカス画像はどこにもピントの合っていない全体にぼやけた画像である。

図４に戻って、次に、ステップＳ４０８では、ＣＰＵ２０１は、選択リフォーカス画像からピント領域が検出されたか否かを判断する。この判断の結果、選択リフォーカス画像からピント領域が検出された場合には、処理はステップＳ４０９に進み、選択リフォーカス画像からピント領域が検出されなかった場合には、処理はステップＳ４０５に戻る。

ステップＳ４０９では、ＣＰＵ２０１は、ステップＳ４０２で求めたそれぞれの音源の位置のうち、ステップＳ４０７で求めた位置と同位置があるか否かを判断する。図５Ｃのリフォーカス画像５１１における領域５１８の（１８，−２２，３，１，３０）が示す対象物（コオロギ）の領域は、分離音５０９の音源位置と重なる。然るにこの場合、リフォーカス画像５１１における領域５１８内のピントの位置と、分離音５０９の音源位置とは同位置と判断する。また、図５Ｃのリフォーカス画像５１２における領域５１９の（−２２０，−１３０，１８０，２００，１５００）が示す対象物の領域は、分離音５０８の音源位置と重なる。然るにこの場合、リフォーカス画像５１２における領域５１９内のピントの位置と、分離音５０８の音源位置とは同位置と判断する。

なお、位置判定は、点の重複以外に、画面を高さ・幅の２次元で分割した領域、奥行きを近距離領域・中距離領域・遠距離領域に分割した領域に、音源位置とピントの位置を配置した場合に同一の分割領域にある場合に同位置にあるとしてもよい。分割の個数は任意である。

ステップＳ４０２で求めたそれぞれの音源の位置のうち、ステップＳ４０７で求めた位置と同位置があれば、処理はステップＳ４１０を介してステップＳ４１１に進み、無ければ処理はステップＳ４０５に戻る。

ステップＳ４１１では、ＣＰＵ２０１は、図５Ｄに例示する如く、ピントの位置（ピント領域内におけるピントの奥行き座標）と、該ピント領域と同位置の音源に対して割り当てたＩＤと、をセットにした対応付け情報を作成する。

そしてステップＳ４１２では、外部メモリ制御部２１１は、ステップＳ４１１で作成された対応付け情報を、外部メモリ制御部２１１に接続されているメモリに記録する。もちろん、記録先は特定の記録先に限るものではない。

上記の実施形態では、リフォーカス画像と分離音とを関連付けるために、ピントの位置（奥行き）と、該位置と同じ位置の音源からの音声と、を関連付けていた。この変形例として、ピント領域が離れて複数存在し、且つ対応する分離音も複数存在するものについては、一つの奥行きに対応する複数の分離音を合成して一対一の対応としてもよいし、一つの奥行きに対して複数の分離音を対応付けられるようにしてもよい。

一方、分離音の位置やピントの位置も併せて保存するようにし、ピント領域が離れて複数存在する映像に対応音源が複数存在する場合、奥行き、ピント位置、分離音位置、分離音の情報をメモリに登録し、一つの奥行きに対して複数の対応付けを行ってもよい。

上記の実施形態では、一定時間ごとにステップＳ４０２〜Ｓ４１２の処理を繰り返している。しかし、一定時間ごとの音源分離を映像のすべてについて行い、音源分離の後で、一定時間ごとのデジタルリフォーカス画像作成とピント領域の検出をすべての映像で行い、その後で一定時間ごとのすべての対応付けを行ってもよい。

いずれにせよ、本実施形態やその他の実施形態で説明する装置の構成は、以下に説明する構成の一例に過ぎず、以下に説明する構成を前提として様々な変形を施したものである。

即ち、複数の視点から撮影された映像を多視点映像として取得し、該多視点映像を用いてリフォーカス処理を行うことで、ピントの奥行きがそれぞれ異なる複数枚の画像を生成する。また、複数の箇所で収集された音声を音源ごとに分離すると共に、該音源の実空間中の位置を求め、生成した画像内でピントが合っている対象の位置と、該位置と同位置の音源からの音声と、を関連付けて登録する。

［第３の実施形態］
動画の再生中にデジタルリフォーカスを行う情報処理装置の機能構成例について、図６のブロック図を用いて説明する。

フォーカス箇所指定部６０１は、ピントの合う奥行きを指定するものであり、操作部２０５の機能に相当する。リフォーカス管理部６０２は、デジタルリフォーカスの遷移過程を管理するものであり、ＣＰＵ２０１の機能に相当する。リフォーカス音声合成部６０３は、表示するリフォーカス画像に対応する音声を合成処理によって生成するものであり、音声処理部２１６の機能に相当する。音声再生部６０４は、リフォーカス音声合成部６０３が生成した音声を出力するものであり、音声出力部２１３、音声出力制御部２１４の機能に相当する。応付け入力部６０５は、上記の対応付けの結果を取得するものである。リフォーカス画像合成部６０６は、ピントが指定された奥行きであるリフォーカス画像を生成するもので、画像処理部２１２の機能に相当する。画像再生部６０７は、リフォーカス画像合成部６０６が生成したリフォーカス画像を再生表示するものであり、表示制御部２０７、表示部２０６の機能に相当するものである。

なお、外部メモリに記録された映像データや外部機器から転送された映像データに対してこの処理を行う場合には、図２の撮像装置の構成に限定されずにＰＣ上での処理も可能となる。

次に、図６の構成を有する情報処理装置が、動画の再生中にデジタルリフォーカスを行う為に行う処理について、同処理のフローチャートを示す図７を用いて説明する。図７の処理は、動画再生中にユーザの操作によるデジタルリフォーカスの指示が行われた時に開始する。リフォーカスの終了条件となるピントの遷移先の奥行きは、リフォーカスの開始指示の際にユーザが画面上で選択した表示画面上の一地点に存在する被写体の奥行きとしてもよいし、スライダーやダイヤルで指定した奥行きの移動量としてもよい。指定した奥行きが現在の奥行きより奥にある場合には、手前から奥方向へのリフォーカスとなり、指定した奥行きが現在の奥行きよりも手前にある場合には、奥から手前へのリフォーカスとなる。

リフォーカスに要する時間は、現在の奥行きと変更先の奥行きとの差と、段階的な奥行きの移行速度（インターバル）で決定される。このインターバルはあらかじめ設定されているがユーザが変更することも可能である。

なお、リフォーカス直前にピントの合っている映像の再生時間はデジタルリフォーカスの処理には含めない。しかし、動画再生開始とデジタルリフォーカスの指示は同時に行われるもとのとした場合には、直前のピントの合っている映像の一定時間の再生をリフォーカス処理に含めるようにしてもよい。

ステップＳ７０１では、フォーカス箇所指定部６０１は、現在表示中のリフォーカス画像においてピントが合っている領域におけるピントの奥行きｄｘを取得する。図８の例では、現在表示中のリフォーカス画像８０１（時刻ｔ０で表示中）においてピントが合っている領域におけるピントの奥行きｄｘは１５００となっている。

次に、ステップＳ７０２では、対応付け入力部６０５は、ステップＳ７０１で取得した奥行きｄｘに関連付けて登録されている音声があるか否かを判断する。この判断の結果、奥行きｄｘに関連付けて登録されている音声がある場合には、処理はステップＳ７０３に進み、無い場合は、処理はステップＳ７０４に進む。

ステップＳ７０３では、リフォーカス音声合成部６０３は、ステップＳ７０１で取得した奥行きｄｘに関連付けて登録されている音声を移行元音声候補として対応付け入力部６０５から取得する。

ステップＳ７０４では、フォーカス箇所指定部６０１は、最終的なピントの奥行きｄｏを取得する。そしてステップＳ７０５では、リフォーカス管理部６０２は、ｄｘ＞ｄｏであればｄｘ＜ｄｏであるか否か、ｄｘ＜ｄｏであればｄｘ＞ｄｏであるか否か、を判断する。いずれにせよ、本ステップでは、現在のｄｘが最終的なピントの奥行きを超えてしまったか否かを判断している。この判断の結果、超えていない場合は処理はステップＳ７０６に進み、超えている場合には、処理はステップＳ７１４に進む。つまり、リフォーカス先の被写体にピントが合った直後一定時間が過ぎるまでをリフォーカス処理とする。

ステップＳ７０６では、リフォーカス管理部６０２は、ｄｘに規定の値であるｄを加える。なお、ステップＳ７０１で取得したｄｘ＞ｄｏであればｄは負の値であり、ステップＳ７０１で取得したｄｘ＜ｄｏであればｄは正の値である。

ステップＳ７０７では、リフォーカス画像合成部６０６は、多視点映像を用いてリフォーカス処理を行うことで、ピントの奥行きがｄｘであるリフォーカス画像（次に表示する次画像）を生成する。そして、ステップＳ７０８では、リフォーカス画像合成部６０６は、この生成したリフォーカス画像を、不図示のバッファ（映像バッファ）に格納する。

ステップＳ７０９では、対応付け入力部６０５は、ピントの奥行きｄｘに関連付けて登録されている音声があるか否かを判断する。この判断の結果、奥行きｄｘに関連付けて登録されている音声がある場合には、処理はステップＳ７１０に進み、無い場合は、処理はステップＳ７０５に戻る。ステップＳ７１０では、リフォーカス音声合成部６０３は、奥行きｄｘに関連付けて登録されている音声を移行先音声候補として対応付け入力部６０５から取得する。

そしてステップＳ７１１では、リフォーカス音声合成部６０３は、移行元音声候補の音声と、移行先音声候補の音声と、を合成した音声を生成する。なお、ｄｘがｄｏに近いほど、移行元音声候補よりも移行先音声候補の音声がより聞こえるように合成配分を調整する。そしてステップＳ７１２では、リフォーカス音声合成部６０３は、この生成した音声を、不図示のバッファ（映像バッファ）に格納する。

そしてステップＳ７１３では、リフォーカス音声合成部６０３は、現在の移行先音声候補としての音声を、移行元音声候補の音声とする。そして処理はステップＳ７０５に戻る。

ステップＳ７１４では、リフォーカス音声合成部６０３は、不足分の音声の生成を行う。ｄｏの奥行きの映像でピントの合っている領域があり且つ対応する分離音がある場合には音は十分に生成されているが、ピントの合っている領域がない場合や対応する分離音がない場合には、音声が不足している。移行元音声候補がある場合にはこれを使って不足分の音を生成し、ない場合には無音を生成する。

そしてステップＳ７１５では、画像再生部６０７は、映像バッファに格納した各リフォーカス画像を、格納順に読み出して表示し、音声再生部６０４は各リフォーカス画像の表示に同期して、該リフォーカス画像に対応する音声を読み出して再生する。

図８の例では、時刻ｔ０の時点で奥行きが１５００のリフォーカス画像８０１が表示されており、時刻ｔ１の時点で、この時点の奥行きｄｘを有するピントの合っていないリフォーカス画像８０２が表示される。そして、時刻ｔ２の時点で最終的なピントの奥行き（３０）のリフォーカス画像８０３が表示される。

図８の例では、ピントの奥行き１５００に対応する分離音５０８と、ピントの奥行き３０に対応する分離音５０９と、が図５Ｄに示す如く登録されているものとしている（図５ＤではＩＤが登録されているが、これに対応する音声も登録されている）。

時刻ｔ０の時点で再生される音声は分離音５０８となる。音声８０４は分離音５０８のボリュームを元のボリューム（若しくはより大きくしたボリューム）から０近辺に時間の経過と共に下げたものである。また、音声８０５は分離音５０９のボリュームを０近辺から元のボリューム（若しくはより大きくしたボリューム）に時間の経過と共に上げたものである。然るに時刻ｔ０〜ｔ２の間の時刻では、この音声８０４と音声８０５との合成音声８０６において該時刻に対応する部分を再生する。例えば、時刻ｔ１が時刻ｔ０と時刻ｔ２との中間時刻であるとすると、時刻ｔ１では、分離音５０８のボリュームを半分にしたものと分離音５０９のボリュームを半分にしたものとを合成した音声を再生することになる。もちろん、時刻ｔ０〜ｔ２の間であったとしても、ピントの合っている箇所に対応する音声があれば、それを再生する。

また、移行元音声候補と移行先音声候補のどちらかがない場合には、片方だけでボリュームの段階的変更を行い、それをピントの合っていない映像が表示される時間帯の音声とする。

なお、図７のフローチャートでは、現在のｄｘが最終的なピントの奥行きを超えるまでは画像及び音声の蓄積を行い、超えてから画像及び音声の表示／再生を行っているが、蓄積を経ずに画像及び音声を生成した時点で表示／再生を行うようにしても良い。

上記の実施形態では、移行先のピントの合う奥行きはあらかじめ与えられているものとし、それを終了条件としている。しかし、開始時に遷移先の奥行きをあらかじめ与えず、手前方向・奥方向のどちらかと段階的な奥行き変更の速度（インターバル）のみを与えて、終了条件は、ユーザがリフォーカス終了の操作を出した時点としてもよい。その場合には、再生映像を先読みした映像バッファへの蓄積と逐次再生が繰り返される。なお、移行元音声候補と移行先音声候補からの合成音の生成方法は、段階的なボリューム変更の他に、エコーやノイズの付与などを行ってもよい。

［第４の実施形態］
本実施形態では、リフォーカス処理中に、移行元、中間、移行先の３点でピントが合う場合における音声の合成について説明する。

図９（Ａ）において撮像画像９０１中には、被写体９０３〜９０５が写っており、この撮像画像９０１は、被写体９０３〜９０５のうち被写体９０３にピントを合わせて撮像されたものである。

枠９０２の中には、撮像画像９０１の幅方向に対する被写体９０３〜９０５のそれぞれの位置関係と、被写体９０３〜９０５のそれぞれに対するピントの奥行きが示されている。ここでは、被写体９０３に対するピントの奥行きはｄｘ、被写体９０４に対するピントの奥行きはｄｍ、被写体９０５に対するピントの奥行きはｄｏ、となっている（ｄｘ＜ｄｍ＜ｄｏ）。

また、ここでは、時刻ｔ０からｔ１までの間に被写体９０３〜９０５のそれぞれから音声が発せられている。被写体９０３〜９０５のそれぞれからの音声は上記の音源分離により、被写体９０３を音源とする音声（分離音）９０６、被写体９０４を音源とする音声（分離音）９０７、被写体９０５を音源とする音声（分離音）９０８、として得られる。

また、図９（Ｂ）に示す如く、時刻ｔ０〜時刻ｔ０１までの間に被写体９０３にピントが合っている撮像画像９０９が表示されている。そして、時刻ｔ０１〜ｔ０２の間で、ピントの対象が被写体９０４，９０５の順に変わるリフォーカス画像を生成しつつ表示する。

リフォーカス画像９１０〜９１３は時刻ｔ０１〜ｔ０２の間で生成されるリフォーカス画像であり、生成されるたびに表示される。リフォーカス画像９１０は、被写体９０３に対するピントの奥行きと、被写体９０４に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像９１１は、被写体９０４に対するピントの奥行きを有するリフォーカス画像であるので、被写体９０４にピントが合っている。リフォーカス画像９１２は、被写体９０４に対するピントの奥行きと、被写体９０５に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像９１３は、被写体９０５に対するピントの奥行きを有するリフォーカス画像であるので、被写体９０５にピントが合っている。

上記の通り、時刻ｔ０〜時刻ｔ０１までの間では、被写体９０３にピントが合っている撮像画像９０９が表示される。然るに、被写体９０３を音源とする音声９０６において時刻ｔ０〜時刻ｔ０１までの間の音声９１４を、時刻ｔ０〜時刻ｔ０１までの間における再生音声９２３として再生する。

また、リフォーカス画像９１０の表示期間中は、被写体９０３を音源とする音声９０６において該表示期間中の音声９１５を移行元音声候補、被写体９０４を音源とする音声９０７において該表示期間中の音声９１７を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して（時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく／大きくなる）合成した音声９１６を、該表示期間中の再生音声９２３として再生する。

リフォーカス画像９１１は、被写体９０４にピントが合っているリフォーカス画像である。然るに、被写体９０４を音源とする音声９０７において、リフォーカス画像９１１の表示期間中の音声９１８を、該表示期間中における再生音声９２３として再生する。

また、リフォーカス画像９１２の表示期間中は、被写体９０４を音源とする音声９０７において該表示期間中の音声９１９を移行元音声候補、被写体９０５を音源とする音声９０８において該表示期間中の音声９２１を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して（時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく／大きくなる）合成した音声９２０を、該表示期間中の再生音声９２３として再生する。

リフォーカス画像９１３は、被写体９０５にピントが合っているリフォーカス画像である。然るに、被写体９０５を音源とする音声９０８において、リフォーカス画像９１３の表示期間中の音声９２２を、該表示期間中における再生音声９２３として再生する。

なお、リフォーカス画像の生成や再生音声９２３の確定にはある程度の時間を要することになる。リフォーカス画像の生成枚数や再生音声９２３の量、情報処理装置のスペックによっては、この時間が長い場合もある。このような場合には、生成したリフォーカス画像、再生音声を一端バッファ９２４に格納した後、バッファ９２４に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。

［第５の実施形態］
本実施形態では、リフォーカス処理中に、移行元、中間、移行先の３点でピントが合う場合であって、音の発生時間が異なる場合における音声の合成について説明する。

図１０（Ａ）において撮像画像１００１中には、被写体１００３〜１００５が写っており、この撮像画像１００１は、被写体１００３〜１００５のうち被写体１００３にピントを合わせて撮像されたものである。

枠１００２の中には、撮像画像１００１の幅方向に対する被写体１００３〜１００５のそれぞれの位置関係と、被写体１００３〜１００５のそれぞれに対するピントの奥行きが示されている。ここでは、被写体１００３に対するピントの奥行きはｄｘ、被写体１００４に対するピントの奥行きはｄｍ、被写体１００５に対するピントの奥行きはｄｏ、となっている（ｄｘ＜ｄｍ＜ｄｏ）。

また、ここでは、時刻ｔ０からｔ１までの間に被写体１００３から、時刻ｔ０からｔ２までの間に被写体１００４から、時刻ｔ１からｔ２までの間に被写体１００５から、それぞれ音声が発せられている。被写体１００３〜１００５のそれぞれからの音声は上記の音源分離により、被写体１００３を音源とする音声（分離音）１００６、被写体１００４を音源とする音声（分離音）１００７、被写体１００５を音源とする音声（分離音）１００８、として得られる。

また、図１０（Ｂ）に示す如く、時刻ｔ０〜時刻ｔ０１までの間に被写体１００３にピントが合っている撮像画像１００９が表示されている。そして、時刻ｔ０１〜ｔ０２の間で、ピントの対象が被写体１００４，１００５の順に変わるリフォーカス画像を生成しつつ再生する。

リフォーカス画像１０１０〜１０１３は時刻ｔ０１〜ｔ０２の間で生成されるリフォーカス画像であり、生成されるたびに表示される。リフォーカス画像１０１０は、被写体１００３に対するピントの奥行きと、被写体１００４に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像１０１１は、被写体１００４に対するピントの奥行きを有するリフォーカス画像であるので、被写体１００４にピントが合っている。リフォーカス画像１０１２は、被写体１００４に対するピントの奥行きと、被写体１００５に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像１０１３は、被写体１００５に対するピントの奥行きを有するリフォーカス画像であるので、被写体１００５にピントが合っている。

上記の通り、時刻ｔ０〜時刻ｔ０１までの間では、被写体１００３にピントが合っている撮像画像１００９が表示される。然るに、被写体１００３を音源とする音声１００６において時刻ｔ０〜時刻ｔ０１までの間の音声１０１４を、時刻ｔ０〜時刻ｔ０１までの間における再生音声１０２３として再生する。

また、リフォーカス画像１０１０の表示期間中は、被写体１００３を音源とする音声１００６において該表示期間中の音声１０１５を移行元音声候補、被写体１００４を音源とする音声１００７において該表示期間中の音声１０１７を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して（第４の実施形態で説明したとおり）合成した音声１０１６を、該表示期間中の再生音声１０２３として再生する。

リフォーカス画像１０１１は、被写体１００４にピントが合っているリフォーカス画像である。然るに、被写体１００４を音源とする音声１００７において、リフォーカス画像１０１１の表示期間中の音声１０１８を、該表示期間中における再生音声１０２３として再生する。

また、リフォーカス画像１０１２の表示期間中は、被写体１００４を音源とする音声１００７において該表示期間中の音声１０１９を移行元音声候補とする。ここで、本来であれば、被写体１００５を音源とする音声１００８において該表示期間中の音声を移行先音声候補としたいところであるが、該当する音声がない。この場合、移行元音声候補のボリュームを順次変更（時間経過と共に移行元音声候補のボリュームを小さくする）したものを音声１０２０とし、該音声１０２０を、該表示期間中の再生音声１０２３として再生する。

リフォーカス画像１０１３は、被写体１００５にピントが合っているリフォーカス画像であるので、リフォーカス画像１０１３の表示期間（ｔ０２〜ｔ１）における再生音声は、被写体１００５を音源とする音声１００８において該表示期間中の音声となる。しかし、該当する音声がない。この場合、無音１０２２を、該表示期間中における再生音声１０２３として再生する。

もちろん、本実施形態においても第４の実施形態と同様、生成したリフォーカス画像、再生音声を一端バッファ１０２４に格納した後、バッファ１０２４に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。

なお、デジタルリフォーカスが終了した後のｔ１からｔ２までの間は、被写体１００５を音源とする音声１００８においてｔ１からｔ２の期間中の音声１０２１を、該表示期間中における再生音声として再生する。

なお、上記の例は、分離音の位置が動かないものとして、分離音一つに対して奥行き一つの対応付けを用いて説明している。実際には、一定時間ごとに分離音と奥行きの対応づけを記述しておき、再生処理を行う際に一定時間ごとの対応付けを使用することで、音が移動する場合に対応する。

［第６の実施形態］
本実施形態では、リフォーカス中に、ピント領域が同時に複数ある場合の再生音声の合成について説明する。

図１１（Ａ）において撮像画像１１０１中には、被写体１１０３〜１１０６が写っており、この撮像画像１１０１は、被写体１１０３〜１１０６のうち被写体１１０３にピントを合わせて撮像されたものである。

枠１１０２の中には、撮像画像１１０１の幅方向に対する被写体１１０３〜１１０６のそれぞれの位置関係と、被写体１１０３〜１１０６のそれぞれに対するピントの奥行きが示されている。ここでは、被写体１１０３に対するピントの奥行きはｄｘ、被写体１１０４及び被写体１１０５に対するピントの奥行きはｄｍ、被写体１１０６に対するピントの奥行きはｄｏ、となっている（ｄｘ＜ｄｍ＜ｄｏ）。

また、ここでは、時刻ｔ０からｔ１までの間に被写体１１０３〜１１０６のそれぞれから音声が発せられている。被写体１１０３〜１１０６のそれぞれからの音声は上記の音源分離により得られる。即ち、被写体１１０３を音源とする音声（分離音）１１０７、被写体１１０４を音源とする音声（分離音）１１０８、被写体１１０５を音源とする音声（分離音）１１０９、被写体１１０６を音源とする音声（分離音）１１１０、として得られる。

また、図１１（Ｂ）に示す如く、時刻ｔ０〜時刻ｔ０１までの間に被写体１１０３にピントが合っている撮像画像１１１１が表示されている。そして、時刻ｔ０１〜ｔ０２の間で、ピントの対象が被写体１１０４から１１０６の順に変わるリフォーカス画像を生成し、それぞれのリフォーカス画像は、時刻ｔ０１〜ｔ１で表示される。

リフォーカス画像１１１２〜１１１５は時刻ｔ０１〜ｔ０２の間で生成されるリフォーカス画像であり、時刻ｔ０１〜ｔ１で表示される。リフォーカス画像１１１２、１１１４は、どの被写体にもピントが合っていないリフォーカス画像である。リフォーカス画像１１１３は、被写体１１０４及び被写体１１０５に対するピントの奥行きを有するリフォーカス画像であるので、被写体１１０４及び被写体１１０５にピントが合っている。リフォーカス画像１１１５は、被写体１１０６に対するピントの奥行きを有するリフォーカス画像であるので、被写体１１０６にピントが合っている。

上記の通り、時刻ｔ０〜時刻ｔ０１までの間では、被写体１１０３にピントが合っている撮像画像１１１１が表示される。然るに、被写体１１０３を音源とする音声１１０７において時刻ｔ０〜時刻ｔ０１までの間の音声１１１６を、時刻ｔ０〜時刻ｔ０１までの間における再生音声１１２８として再生する。

リフォーカス画像１１１２の表示期間中は、音声１１０７において該表示期間中の音声１１１７を移行元音声候補、音声１１０８及び１１０９のそれぞれにおいて該表示期間中の音声１１１９及び１１２２を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して（時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく／大きくなる）合成した音声１１１８を、該表示期間中の再生音声１１２８として再生する。

リフォーカス画像１１１３は、被写体１１０４及び１１０５にピントが合っているリフォーカス画像である。然るに、リフォーカス画像１１１３の表示期間中は、音声１１０８及び１１０９において該表示期間中の音声１１２０及び１１２３を合成した音声１１２５を、該表示期間中における再生音声１１２８として再生する。

リフォーカス画像１１１４の表示期間中は、音声１１０８及び１１０９のそれぞれにおいて該表示期間中の音声１１２１及び１１２４を移行元音声候補、音声１１１０において該表示期間中の音声１１２７を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して（時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく／大きくなる）合成した音声１１２６を、該表示期間中の再生音声１１２８として再生する。

リフォーカス画像１１１５は、被写体１１０６にピントが合っているリフォーカス画像である。然るに、リフォーカス画像１１１５の表示期間中は、被写体１１０６を音源とする音声１１１０において該表示期間中の音声１１３０を、該表示期間中における再生音声１１２８として再生する。

もちろん、本実施形態においても第４の実施形態と同様、生成したリフォーカス画像、再生音声を一端バッファ１１２９に格納した後、バッファ１１２９に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。

なお、同時にピントの合う領域が複数ある場合の臨場感を高めるため、ピントの合う領域の位置情報も分離音との対応付けに付与してもよい。図１１でリフォーカス画像１１１４が表示される時間帯では、移行元音声候補としての音声１１２１及び１１２４、移行先音声候補としての音声１１２７、を合成した音声を再生する。

この状態からリフォーカス画像１１１５が表示される状態まで遷移するとき、音声１１２１と音声１１２４の音量の段階的変化を一様にすると、被写体１１０６までの距離は被写体１１０４と被写体１１０５とで同じであるような印象が得られる。幅としての距離は被写体１１０４の方が被写体１１０５よりも大きい。ピントの合う領域の位置情報を使い、遠い方の被写体の音がより早く減衰するように音声候補として採用する時間を距離に反比例して短くして合成するようにしてもよい。図１２はその例である。

図１２（Ａ）において音声波形１２０１は音声１１０８のものであり、音声波形１２０２は音声１１０９のものであり、音声波形１２０３は音声１１１０のものである。図１２（Ｂ）において音声波形１２０４は音声１１２１のものであり、音声波形１２０５は音声１１２４のものであり、音声波形１２０６は音声１１２７のものであるが、音声波形１２０４は音声１１２１の変更時間よりも短くなっている。被写体１１０４の位置は、被写体１１０５よりも横方向に遠いため、音声波形１２０５の時間よりも短くする。

図１２（Ｃ）において音声波形１２０７、１２０８は、移行元音声候補として徐々に音量を下げたもの、音声波形１２０９は移行先音声候補として徐々に音量を上げたものである。音声波形１２０７，１２０８、１２０９を合成した音声波形１２１０が、リフォーカス画像１１１４が表示される時間帯の再生音声となる。音声波形１２０７は段階的な音量配分の変更時間が、音声波形１２０８のそれよりも時間が短いため、音声波形１２１０では音声波形１２０７の音が先に聞こえなくなる。

上記の実施形態において、図７のフローチャートのステップＳ７０９およびステップＳ７１０の処理では、１つのピントの奥行きｄｘに対応する分離音が１つであることを想定している。しかし、画像上に音源となる被写体が複数写っているような場合など、１つのピントの奥行きｄｘに対して分離音が複数ある場合には、ステップＳ７０９およびステップＳ７１０の処理の代わりに、図１５のフローチャートに従った処理を行うことで対応できる。

ステップＳ１５０１では、リフォーカス音声合成部６０３は、ピントの奥行きｄｘに対応する複数の分離音のうち未選択の分離音を対応付け入力部６０５から選択する。ここで、未選択の分離音がなく、ステップＳ１５０１において分離音が選択できなかった場合には、処理はステップＳ１５０２を介して終了する。一方、ステップＳ１５０１で分離音が選択できた場合には、処理はステップＳ１５０２を介してステップＳ１５０３に進む。

ステップＳ１５０３では、リフォーカス音声合成部６０３は、ステップＳ１５０１で選択した分離音が、画像上で現在着目している被写体の座標（画像座標）に対応するものであるか否かを判断する。例えば、画像上に１つの被写体が写っている場合には、選択した分離音が、該被写体の画像座標に対応するものであるか否かを判断する。また、画像上に複数の被写体が写っている場合には、このうち１つを着目被写体とし、選択した分離音が、該着目被写体の画像座標に対応するものであるか否かを判断する。然るに、画像上に複数の被写体が写っている場合には、図１５のフローチャートは、この被写体の数だけ実行することになる。

ステップＳ１５０３における判断の結果、対応するものであると判断した場合には、処理はステップＳ１５０４に進み、対応するものではないと判断した場合には、処理はステップＳ１５０１に進む。ステップＳ１５０４では、リフォーカス音声合成部６０３は、ステップＳ１５０１で選択した分離音を、移行元音声候補の音声とする。

なお、上記の実施形態では、ピント領域はあるが対応する分離音がない場合には前後の分離音で音を補うが、ピントの合っている被写体が何も音を発していない時には、無音とするようにしてもよい。その場合には、奥行き・分離音の対応付けは、奥行き・ピント位置・分離音の３種類を記述しておく。図４のフローチャートのステップＳ４０３で音源がないとされてもステップＳ４０４へ進み、奥行き・ピント位置を分離音なしで対応付けする。また、図７のフローチャートのステップＳ７０９でnoとされた後に、奥行きに対応するピント位置があるかどうか判断し、ある場合には無音を移行先音声候補として音を生成する。ピント領域はあるが対応する分離音がない映像の表示中には無音が生成される。

また、上記の実施形態では分離音とピントの合っている領域との同一性の判断は、位置と奥行きで行っている。これに対して音の種類を認識する音認識部と、被写体の種類を認識する画像認識部を加え、音認識結果と画像認識結果の対応が許容範囲のものであるか判断する認識結果照合部を使って、対応付けが正しいものとされたものの対応付けを保存するようにしてもよい。例えば、音の認識結果が「カッコウ」であり、被写体の認識結果が「鳥」であり、「カッコウ」と「鳥」の対応付けがあらかじめ登録されている場合にのみ対応付けを行う。

また、音源分離の結果、位置が広く分散して定位できない音は、背景音としてリフォーカス画像でなく映像全般に対応付けしておき、ピントの合わない映像の提示中に背景音を大きくするなどしてもよい。

上記の実施形態では、動画像とそれに同期する音声について記述したが、静止画像と静止画像を撮影した時間に重複して収録した音声に対して、静止画像のデジタルリフォーカスによる時間的遷移を動画像として扱い、それに同調させて再生音を合成してもよい。なお、上記の各実施形態はその一部若しくは全部を適宜組み合わせて使用しても良い。

また、上記の各実施形態では様々なケースにおいて再生する音声について説明しているが、生じうるケースは上記のケース以外にもあり、そのようなケースにおいて再生する音声をどのようなものとするのかについては適宜決めればよい。即ち、すでに得ている音声を調整して再生しても良いし、幾つかの音声を合成して再生しても良いし、無音としても良い。

すなわち、上記の音再生では、次のようなことを行っている。先ず、複数の視点から撮影して取得された複数の画像から、第１のピントで合っている領域を有する第１の画像と、該第１のピントとは異なる第２のピントで合っている領域を有する第２の画像と、を生成する（画像生成）。また、この画像生成では、第１のピントと第２のピントとの間のピントで合っている領域を有する第３の画像を生成する。そして、第１の画像、第２の画像、第３の画像、を表示部に表示する（表示制御）のであるが、第１の画像に関連づけられている音と、第２の画像に関連づけられている音と、から第３の画像に対する音を生成（音生成）し、該生成した音を再生する。

また、上記の登録処理では、次のようなことを行っている。先ず、複数の視点から撮影して取得された複数の画像から、ピントが合っている領域を有し、且つ該ピントがそれぞれ異なる複数の画像を生成する（画像生成）。そして、複数の音収集部を用いて収集された音を分離し、分離したそれぞれの音の音源位置を求め、生成したそれぞれの画像について、該画像内でピントが合っている対象の位置と、該位置に関連する音源位置の音と、を関連づけて保持部に登録する。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

情報処理装置であって、
複数の視点から撮影して取得された複数の画像から、音源となる第１の被写体が第１のピント距離で合焦している第１の画像と、音源となる第２の被写体が該第１のピント距離とは異なる第２のピント距離で合焦している第２の画像と、前記第１のピント距離と前記第２のピント距離との間の第３のピント距離で合焦している第３の画像と、を生成する画像生成手段と、
前記第１の画像、前記第３の画像、前記第２の画像、を１枚ずつ表示部に表示する表示制御手段と、
前記第１の被写体から発せられる第１の音及び前記第２の被写体から発せられる第２の音を用いて、音を生成する音生成手段と、
前記表示制御手段が前記表示部に前記第１の画像を表示中に前記第１の音を再生し、前記表示制御手段が前記表示部に前記第２の画像を表示中に前記第２の音を再生し、前記表示制御手段が前記表示部に前記第３の画像を表示中に前記音生成手段が生成した音を再生する再生手段と、
前記画像生成手段により生成され且つ互いにピント距離が異なる、前記第１の画像、前記第２の画像、前記第３の画像を含むそれぞれの画像から、該画像において合焦している被写体の焦点領域が抽出可能か否かを判断する判断手段と、
前記焦点領域が抽出可能な画像と、前記焦点領域において合焦している前記被写体から発せられる音と、を関連づける関連づけ手段と
を備え、
前記第１の被写体及び前記第２の被写体は前記第３のピント距離では合焦しておらず、
前記再生手段は、前記表示制御手段が前記焦点領域が抽出可能な画像を前記表示部に表示中に、前記焦点領域が抽出可能な画像と関連づけられている音を再生し、前記表示制御手段が音と関連づけられていない画像を前記表示部に表示中に、音と関連づけられていない画像について生成された合成音を再生することを特徴とする情報処理装置。
前記第１の音及び前記第２の音のそれぞれは、複数の音収集部を用いて収集された音を分離して得られた音であることを特徴とする請求項１に記載の情報処理装置。
前記音生成手段は、前記第１の音の音量と、前記第２の音の音量と、を調整して、音を生成することを特徴とする請求項１又は２に記載の情報処理装置。
前記第１の画像、前記第２の画像、前記第３の画像のそれぞれは、前記複数の画像を用いたリフォーカス処理を行うことで得られるリフォーカス画像であることを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記表示制御手段は、前記画像生成手段により生成され且つ前記第１の画像、前記第２の画像、前記第３の画像を含む、互いにピント距離が異なる複数の画像を、ピント距離順に規定の間隔で１枚ずつ前記表示部に表示し、
前記音生成手段は、音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音を、ピント距離順において該着目画像と隣接する隣接画像において合焦している被写体から発せられる音を用いて生成し、
前記再生手段は、前記表示制御手段が前記表示部に前記着目画像を表示中に、前記合成音を再生する
ことを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
前記第３の画像は、互いにピント距離が異なる２以上の画像を含み、
前記音生成手段は、前記第１の音の音量と、前記第２の音の音量と、を調整することで、前記２以上の第３画像のピント距離に従って異なる複数の音を生成し、
前記表示制御手段が前記表示部に前記第１の画像、前記２以上の第３の画像、前記第２の画像の順に１枚ずつ画像を表示する場合、前記再生手段は、ピント距離に沿う順に表示される前記２以上の第３の画像の表示中は、前記第１の音の音量が徐々に小さくなるとともに前記第２の音の音量が徐々に大きくなるように生成された音を再生することを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
更に、
前記撮影時に収集された音を取得する音取得手段を備え、
前記音生成手段は、前記音取得手段によって取得された音を用いて音を生成することを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
情報処理装置であって、
複数の視点から撮影して取得された複数の画像から、ピント距離が互いに異なる複数の画像を生成する画像生成手段と、
前記画像生成手段が生成したそれぞれの画像をピント距離順に規定の間隔で１枚ずつ、表示部に表示する表示制御手段と、
音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音であって、該着目画像のピント距離の近傍のピント距離で合焦し得る被写体を音源とする音を含む該合成音を生成する音生成手段と、
前記表示制御手段が前記音源となる被写体が合焦している画像を表示中に、該表示中の画像で合焦している被写体を音源とする音を再生し、前記表示制御手段が前記着目画像を表示中に、前記合成音を再生する再生手段と
を備えることを特徴とする情報処理装置。
更に、
前記撮影時に収集された音を取得する音取得手段を備え、
前記音生成手段は、前記音取得手段によって取得された音を用いて音を生成することを特徴とする請求項８に記載の情報処理装置。
情報処理装置が行う情報処理方法であって、
前記情報処理装置の画像生成手段が、複数の視点から撮影して取得された複数の画像から、音源となる第１の被写体が第１のピント距離で合焦している第１の画像と、音源となる第２の被写体が該第１のピント距離とは異なる第２のピント距離で合焦している第２の画像と、前記第１のピント距離と前記第２のピント距離との間の第３のピント距離で合焦している第３の画像と、を生成する画像生成工程と、
前記情報処理装置の表示制御手段が、前記第１の画像、前記第３の画像、前記第２の画像、を１枚ずつ表示部に表示する表示制御工程と、
前記情報処理装置の音生成手段が、前記第１の被写体から発せられる第１の音及び前記第２の被写体から発せられる第２の音を用いて、音を生成する音生成工程と、
前記情報処理装置の再生手段が、前記表示制御工程で前記表示部に前記第１の画像を表示中に前記第１の音を再生し、前記表示制御工程で前記表示部に前記第２の画像を表示中に前記第２の音を再生し、前記表示制御工程で前記表示部に前記第３の画像を表示中に前記音生成工程で生成した音を再生する再生工程と
を備え、
前記第１の被写体及び前記第２の被写体は前記第３のピント距離では合焦しておらず、
前記第３の画像は、互いにピント距離が異なる２以上の画像を含み、
前記音生成工程では、前記第１の音の音量と、前記第２の音の音量と、を調整することで、前記２以上の第３画像のピント距離に従って異なる複数の音を生成し、
前記表示制御工程で前記表示部に前記第１の画像、前記２以上の第３の画像、前記第２の画像の順に１枚ずつ画像を表示する場合、前記再生工程では、ピント距離に沿う順に表示される前記２以上の第３の画像の表示中は、前記第１の音の音量が徐々に小さくなるとともに前記第２の音の音量が徐々に大きくなるように生成された音を再生することを特徴とする情報処理方法。
前記第１の音及び前記第２の音のそれぞれは、複数の音収集部を用いて収集された音を分離して得られた音であることを特徴とする請求項１０に記載の情報処理方法。
情報処理装置が行う情報処理方法であって、
前記情報処理装置の画像生成手段が、複数の視点から撮影して取得された複数の画像から、ピント距離が互いに異なる複数の画像を生成する画像生成工程と、
前記情報処理装置の表示制御手段が、前記画像生成工程で生成したそれぞれの画像をピント距離順に規定の間隔で１枚ずつ、表示部に表示する表示制御工程と、
前記情報処理装置の音生成手段が、音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音であって、該着目画像のピント距離の近傍のピント距離で合焦し得る被写体を音源とする音を含む該合成音を生成する音生成工程と、
前記情報処理装置の再生手段が、前記表示制御工程で前記音源となる被写体が合焦している画像を表示中に、該表示中の画像で合焦している被写体を音源とする音を再生し、前記表示制御工程で前記着目画像を表示中に、前記合成音を再生する再生工程と
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至９の何れか１項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。