JP6727106B2

JP6727106B2 - 画像音響処理装置および画像音響処理方法、プログラム

Info

Publication number: JP6727106B2
Application number: JP2016233499A
Authority: JP
Inventors: 田中　克昌; 克昌田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2020-07-22
Anticipated expiration: 2036-11-30
Also published as: US10708536B2; JP2018093312A; US20180152660A1; US20190238789A1; US10291875B2

Description

本発明は、画像コンテンツに対応した音響コンテンツを生成する画像音響処理装置、画像音響処理方法およびプログラムに関するものである。

複数のカメラを異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点コンテンツを生成する技術が注目されている。複数視点画像から仮想視点コンテンツを生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像よりもユーザに臨場感を与えることが出来る。また、画像と音響を同時に再生する場合、画像のフォーカスに応じて音量を変化させることが知られている（特許文献１）。

特開２０１６−０２５６３３号公報

仮想視点コンテンツには、複数のカメラが１時刻に撮影した画像から生成する静止画仮想視点コンテンツと、複数のカメラが一定の期間に撮影した画像から生成する動画仮想視点コンテンツとがある。静止画仮想視点コンテンツと動画仮想視点コンテンツは何れも視聴時に仮想視点の切り替えを伴う多視点動画として取り扱われ、ユーザに高い臨場感を与える。

しかしながら、従来の技術では、静止画仮想視点コンテンツの再生において、ユーザに音響の臨場感を与えることが出来ない。なぜなら、静止画仮想視点コンテンツは１時刻に撮影した画像から生成され、再生期間に対応する音響が存在しないからである。その結果、静止画仮想視点コンテンツの再生中に無音になる、或は、静止画仮想視点コンテンツの再生後に画像と音響が同期しなくなる、等が発生し、ユーザに臨場感を与えることが出来ないだけでなく、違和感を与えてしまう。

本発明は、仮想視点における画像コンテンツに関連する、高臨場感の音響コンテンツを提供できるようにすることを目的とする。

上記の目的を達成するための本発明の一態様による画像音響処理装置は以下の構成を有する。すなわち、
１以上のマイクロフォンによる収音に基づく収音データであって、複数の撮影装置によりそれぞれ異なる方向から撮影される領域内の音を含む収音データを取得する取得手段と、
前記複数の撮影装置により取得される複数の撮影画像に基づいて生成される仮想視点画像であって、同一の時点において変化させた視点から前記領域を見た場合の光景を表す動画像である仮想視点画像と共に再生される音響データとして、前記時点以前の収音期間に対応する音響データを、前記取得手段により取得された収音データに基づいて生成する生成手段とを有する。

本発明によれば、仮想視点における画像コンテンツに関連する、高臨場感の音響コンテンツを提供できるようにすることが出来る。

第一実施形態に係る映像処理システムの機器構成例を示したブロック図。画像音響処理装置のハードウエア構成例を示したブロック図。第一実施形態に係る画像音響処理を示すフローチャート。第一実施形態に係る音響の再利用の判断処理を示すフローチャート。第一実施形態に係る時刻毎の音響と画像の相関図。第二実施形態に係る競技場でのカメラ及びマイクロフォンの設置図。第二実施形態に係る音響のデータ構成例を説明する図。第二実施形態に係る音響の選択処理を示すフローチャート。第三実施形態に係る、仮想サラウンドを作成する音響の選択処理を示すフローチャート。

以下、本発明の実施形態について添付の図面を参照して詳細に説明する。

＜第一実施形態＞
第一実施形態では、音響コンテンツを生成する場合に、どの時刻の音響を利用するかと、どの処理を実施するかの判断を行う動作について説明する。第一実施形態では、生成可能な画像コンテンツの種別を、静止画仮想視点コンテンツ、動画仮想視点コンテンツ、ライブ画像コンテンツの３つとする。ライブ画像コンテンツは、ライブ放送で使用する画像コンテンツであり、且つ、各時刻において、複数のカメラのうち、選択した１つのカメラ画像を使用する画像コンテンツである。動画仮想視点コンテンツは、複数のカメラにより取得された所定期間の多視点画像に基づいて生成される、任意視点からの動画である。静止画仮想視点コンテンツは、複数のカメラにより取得されたある時点の多視点画像に基づいて生成される、複数の任意視点からの静止画である。

一方、本実施形態において、生成可能な音響コンテンツには、仮想サラウンドコンテンツ、ライブ音響コンテンツの２つの種別がある。仮想サラウンドコンテンツとは、画像コンテンツの被写体の位置やカメラが撮影する位置などの情報を用いて疑似サラウンド効果の処理を施した音響コンテンツである。ライブ音響コンテンツとは、ライブ放送で使用する音響コンテンツであり、たとえば選択した２つのマイクから集音された音響データに基づいて生成される２ｃｈの音響コンテンツである。

［機器構成と各ブロックの処理］
図１Ａは、第一実施形態による映像処理システムの機器構成例を示すブロック図である。映像処理システムは、画像音響処理装置１００、カメラ群１０１、マイクロフォン群１０２、時刻生成サーバ１０３、映像配信機器１０４を備える。画像音響処理装置１００は、カメラ群１０１からカメラの台数に応じた数の画像データと、マイクロフォン群１０２からマイクロフォンの台数に応じた数の音響データを受信する。

カメラ群１０１は、複数の方向から被写体を撮影するための複数のカメラで構成される。マイクロフォン群１０２は複数のマイクロフォンで構成される。時刻生成サーバ１０３は、時刻情報を生成し、カメラ群１０１及びマイクロフォン群１０２に送信する。カメラ群１０１及びマイクロフォン群１０２を構成するカメラ、マイクロフォンは、時刻生成サーバ１０３より時刻情報を受信し、画像及び音響に時刻情報を付与して画像音響処理装置１００に送信する。なお、時刻生成サーバ１０３が時刻情報を画像音響処理装置１００に送信し、画像音響処理装置１００が時刻情報を画像および音響に付与するようにしても良い。

次に、画像音響処理装置１００の構成について説明する。画像入力部１１０は、カメラ群１０１が撮影した画像を取得して、蓄積部１１２に伝送する。音響入力部１１１は、マイクロフォン群１０２が集音した音響を取得して、蓄積部１１２に伝送する。蓄積部１１２は、画像入力部１１０から取得した画像データ（カメラ群１０１の複数のカメラにより得られた画像データ）と音響入力部１１１が取得した音響データ（マイクロフォン群１０２の複数のマイクロフォンにより得られた音響データ）を蓄積する。蓄積部１１２に蓄積された画像と音響をそれぞれ画像データ１１３、音響データ１１４と称する。映像生成制御部１１８は、画像制御部１１５、同期制御部１１６、音響制御部１１７に対して、映像コンテンツの生成に関わるユーザの指示や設定値を伝送する。なお、本明細書において、映像コンテンツとは、画像コンテンツと、この画像コンテンツとともに再生される音響コンテンツとを含むコンテンツとする。

画像制御部１１５は、映像生成制御部１１８の指示に応じて画像データ１１３に基づいて生成する画像コンテンツの種別を決定する。静止画仮想コンテンツを生成する場合、画像制御部１１５は、蓄積部１１２から読み出した画像データ１１３を静止画仮想視点コンテンツ生成部１１９に伝送する。動画仮想視点コンテンツを生成する場合、画像制御部１１５は、蓄積部１１２から読み出した画像データ１１３を動画仮想視点コンテンツ生成部１２０に伝送する。ライブ画像コンテンツを生成する場合、画像制御部１１５は、蓄積部１１２から読み出した画像データ１１３をライブ画像コンテンツ生成部１２１に伝送する。また、画像制御部１１５は、上記した生成する画像コンテンツの種別や、読み出した画像データの時刻情報などを、同期制御部１１６に伝送する。

同期制御部１１６は、画像コンテンツの種別、画像データ１１３のタイムスタンプ、画像コンテンツ生成の開始時刻、画像データ１１３の被写体座標などを、画像制御部１１５または映像生成制御部１１８から取得し、音響制御部１１７に伝送する。音響制御部１１７は、映像生成制御部１１８からの指示と、同期制御部１１６から取得した情報に基づく音響制御部１１７内部での判断と、の何れか、または、両方に基づいて、生成する音響コンテンツの種別、使用する音響データの種類を決定する。仮想サラウンドコンテンツを生成する場合、音響制御部１１７は、蓄積部１１２から読み出した音響データ１１４を仮想サラウンドコンテンツ生成部１２２に伝送する。ライブ音響コンテンツを生成する場合、音響制御部１１７は、蓄積部１１２から読み出した音響データ１１４をライブ音響コンテンツ生成部１２３に伝送する。

静止画仮想視点コンテンツ生成部１１９は、画像制御部１１５から取得した画像データ１１３を用いて静止画仮想視点コンテンツを生成し、多重部１２４に伝送する。動画仮想視点コンテンツ生成部１２０は、画像制御部１１５から取得した画像データ１１３を用いて動画仮想視点コンテンツを生成し、多重部１２４に伝送する。ライブ画像コンテンツ生成部１２１は、画像制御部１１５から取得した画像データ１１３を用いてライブ画像コンテンツを生成し、多重部１２４に伝送する。仮想サラウンドコンテンツ生成部１２２は、音響制御部１１７から取得した音響データ１１４を用いて仮想サラウンドコンテンツを生成し、多重部１２４に伝送する。ライブ音響コンテンツ生成部１２３は、音響制御部１１７から取得した音響データ１１４を用いてライブ音響コンテンツを生成し、多重部１２４に伝送する。

多重部１２４と映像出力部１２５は、音響コンテンツを画像コンテンツとともに再生させるための制御を実行する。多重部１２４は、静止画仮想視点コンテンツ生成部１１９、動画仮想視点コンテンツ生成部１２０、ライブ画像コンテンツ生成部１２１から画像コンテンツを取得する。また、多重部１２４は、仮想サラウンドコンテンツ生成部１２２、ライブ音響コンテンツ生成部１２３から音響コンテンツを取得する。そして、多重部１２４は、画像コンテンツと音響コンテンツを１つのデータ列に多重化して映像コンテンツを生成し、映像出力部１２５に出力する。映像出力部１２５は、多重部１２４から取得した映像コンテンツを映像配信機器１０４に出力する。

図１Ｂは、第一実施形態による画像音響処理装置１００のハードウエア構成例を示す図である。ＣＰＵ１１は、読み出し専用メモリであるＲＯＭ１２または随時読み書きが可能なＲＡＭ１３に格納されたプログラムを実行することにより、上述した各機能部を実現する。インターフェース１４は、カメラ群１０１、マイクロフォン群１０２、映像配信機器１０４等の外部機器と画像音響処理装置１００を接続する。入力部１５は、ユーザによる各種入力を受け付ける。表示部１６は、たとえば液用表示器であり、ＣＰＵ１１の制御下で種々の表示を行う。記憶装置１７は、たとえばハードディスクドライブで構成され、蓄積部１１２を実現する。また、記憶装置１７は種々のプログラムを格納し、必要なプログラムが、ＣＰＵ１１による実行のために、適宜にＲＡＭ１３に展開される。上述の各構成は、内部バス１８を介して相互に通信可能に接続されている。

［動作］
以上のような構成を備えた画像音響処理装置１００の動作について説明する。図２は、第一実施形態に係る、画像音響処理を説明するフローチャートである。本実施形態では、音響データのうちの、画像データに基づいて生成される仮想視点の画像コンテンツに対応する撮影時刻よりも前の時刻に集音された音響データであるところの以前の音響データを用いて、画像コンテンツと共に再生される音響コンテンツが生成される。なお、本実施形態において、以前の音響データを用いて生成された音響コンテンツが関連付けられる仮想視点の画像コンテンツとは、静止画仮想視点コンテンツである。

ステップＳ２０において、映像生成制御部１１８は音響制御部１１７に対して再利用モードの設定を行う。本実施形態では、設定が可能な再利用モードは、ユーザ指示モード、タイムスタンプ自動判断モード、コンテンツ自動判断モードの３種類である。なお、再利用モードは、所定のユーザインターフェース（入力部１５）を介してユーザにより指定される。再利用モードは、任意のタイミングで設定し直すことができるようにしてもよい。各モードの具体的な動作は、図３を用いて後述する。また、本モードは全ての音響データ１１４を対象としているため、必ずしも、再利用するデータであるとは限らない。つまり、過去に利用されていない音響データが利用される場合もありうる。

ステップＳ２１において、映像生成制御部１１８は画像制御部１１５に対して画像コンテンツ設定を行う。画像コンテンツ設定には、生成するコンテンツの種別や、生成を開始する時刻、生成を終了する時刻、及びカメラ群１０１の設定値などが含まれる。なお、画像コンテンツ設定は、同期制御部１１６にも伝えられる。ステップＳ２２において、映像生成制御部１１８は音響制御部１１７に対して音響コンテンツ設定を行う。音響コンテンツ設定には、生成するコンテンツのチャネル数、マイクロフォン群１０２の設定値などが含まれる。

ステップＳ２３において、映像生成制御部１１８はカメラ群１０１、マイクロフォン群１０２、及び画像音響処理装置１００の各ブロックに対して撮影及び集音の開始を指示する。この指示により、画像入力部１１０がカメラ群１０１から受信した画像を蓄積部１１２に蓄積することと、音響入力部１１１がマイクロフォン群１０２から受信した音響を蓄積部１１２に蓄積することとが開始される。

ステップＳ２１１〜Ｓ２１５は、蓄積部１１２に蓄積されている画像データ１１３や音響データ１１４を用いて画像コンテンツと音響コンテンツを含む映像コンテンツを生成するための編集処理である。映像編集の開始が指示されると、映像生成制御部１１８は映像編集処理を開始する（ステップＳ２１１、ＹＥＳ）。映像編集処理は、画像制御部１１５による画像コンテンツの生成（ステップＳ２１２）、音響制御部１１７による音響コンテンツの生成（ステップＳ２１３）、多重部１２４による映像コンテンツの生成（ステップＳ２１４）を含む。画像コンテンツの生成においては、画像制御部１１５が、画像コンテンツの生成に使用する画像データを蓄積部１１２から読み出し、ユーザが指定した画像コンテンツの種別に応じて、１１９〜１２１の何れかの生成部へ伝送する。音響コンテンツの生成においては、音響制御部１１７が、画像コンテンツの生成で用いられた画像データのタイムスタンプに基づいて特定された音響データを蓄積部１１２から読み出し、１２２〜１２３の何れかの生成部へ伝送する。映像コンテンツの生成においては、多重部１２４が、各コンテンツ生成部から受け取った画像コンテンツと音響コンテンツを１つのデータ列に多重化して出力する。ユーザは、編集結果としての映像コンテンツを直ちに視聴できる。ユーザによる編集終了の指示があるまで、ステップＳ２１２〜Ｓ２１４の処理が繰り返される（ステップＳ２１５）。

たとえば、図４において、ユーザは、タイムスタンプｔｎ０から画像データを再生させて画像コンテンツを生成していく。この間、画像データがライブ画像コンテンツ生成部１２１に伝送され、ライブ画像コンテンツが生成される。タイムスタンプｔｎ１（時刻Ｔ１）の画像が再生されるタイミングにおいて、ユーザは一時停止して静止画表示の状態とし、更に視点を移動させる。この間、必要な画像データが静止画仮想視点コンテンツ生成部１１９へ伝送され、静止画仮想視点コンテンツが生成される。その後、動画再生を再開することにより（時刻Ｔ２）、タイムスタンプｔｎ１以降の画像が再生され、ライブ画像コンテンツが生成される。タイムスタンプｔｎ２の画像が再生されるタイミング（時刻Ｔ３）で映像編集を終えると、図４に示すような構成の画像コンテンツが生成されることになる。

上述したような画像コンテンツの生成において、音響制御部１１７は、通常は画像のタイムスタンプに基づいて、音響コンテンツの生成に用いる音響を選択する。例えば、音響制御部１１７は、ライブ画像コンテンツ４４（図４）に対応する音響データとしてライブ音響コンテンツ４０，４１を生成する。このとき、音響制御部１１７は、ライブ画像コンテンツ４４の生成に用いられた画像データに対応する音響データをライブ音響コンテンツ生成部１２３へ送信することにより音響コンテンツを生成する。静止画仮想視点コンテンツの場合、タイムスタンプが１つになるため、音響コンテンツを生成するための音響が得られない。そこで、音響制御部１１７は、再利用指示を仮想サラウンドコンテンツ生成部１２２に送ることで、当該静止画仮想コンテンツの音響コンテンツを生成させる。

ステップＳ２４〜Ｓ２６は、音響制御部１１７がこのような再利用指示を仮想サラウンドコンテンツ生成部１２２へ出力するための処理である。ステップＳ２４〜Ｓ２６の処理はステップＳ２１１〜Ｓ２１５の処理と実質的に並列に実行が可能である。ステップＳ２４において、音響制御部１１７はステップＳ２０で映像生成制御部１１８が設定した再利用モード設定に従い、音響データを再利用するか否かを判断する。ステップＳ２４の詳細については図３のフローチャートの参照により後述する。再利用すると判断された場合、ステップＳ２５において、音響制御部１１７は同期制御部１１６から再利用に必要な、画像コンテンツの開始時刻と、画像コンテンツの再生期間を取得する。そして、ステップＳ２６において、音響制御部１１７は仮想サラウンドコンテンツ生成部１２２に対して、音響データ、画像コンテンツの開始時刻、画像コンテンツの再生期間を伝送する。本ステップで、音響制御部１１７は映像生成制御部１１８に対して、指示を完了したことを伝えても良い。ステップＳ２４において再利用しないと判断された場合、上述のステップＳ２５とＳ２６はスキップされる。また、ステップＳ２５で取得された再生期間の間は音響データの再利用が実行されるので、ステップＳ２６では、この再生期間にわたって処理が待機状態となり、再生期間が経過すると処理はステップＳ２４へ戻る。

ステップＳ２７において、映像生成制御部１１８は、撮影及び集音を継続するか判断を行うため、ユーザの指示を確認する。撮影及び集音を継続する場合、処理はステップＳ２４に戻り、撮影及び集音を継続しない場合、処理はステップＳ２８に進む。ステップＳ２８において、映像生成制御部１１８は、撮影及び集音の終了処理を行う。

次に、ステップＳ２４で実行される再利用の判断について図３を用いて説明する。図３のフローチャートは、ステップＳ２４の詳細を示したものである。

ステップＳ３０において、音響制御部１１７は、設定されている再利用モードを確認する。再利用モードは、ユーザ指示に従って上述の再利用の実行を判断するユーザ指示モードと画像コンテンツに基づいて上述の再利用の実行を自動的に判断する自動判断モードがある。自動判断モードには、画像コンテンツの生成種別から音響制御部１１７が再利用の判断を実行するコンテンツ自動判断モードと、画像コンテンツのタイムスタンプ情報から音響制御部１１７が再利用の判断を実行するタイムスタンプ自動判断モードがある。ユーザ指示モードの場合、処理はステップＳ３１に進む。コンテンツ自動判断モードの場合、処理はステップＳ３２に進む。タイムスタンプ自動判断モードの場合、処理はステップＳ３３に進む。

ユーザ指示モードでは、ユーザからの指示に応じて音響データの再利用を実行するか否かを判定する。ステップＳ３１において、音響制御部１１７はユーザからの再利用の指示の有無を同期制御部１１６から取得して確認する。ユーザからの再利用の指示がある場合、処理はステップＳ３６に進み、ユーザからの再利用の指示がない場合、処理はステップＳ３５に進む。

コンテンツ自動判断モードでは、画像コンテンツが仮想視点からの静止画であると判定した場合、すなわち静止画仮想視点コンテンツであると判定した場合に、音響データの再利用を実行すると判断する。ステップＳ３２において、音響制御部１１７は、生成中の画像コンテンツの種別を同期制御部１１６から取得して確認する。画像コンテンツが静止画仮想視点コンテンツの場合、処理はステップＳ３６に進み、動画仮想視点コンテンツまたはライブ画像コンテンツの場合、処理はステップＳ３５に進む。

タイムスタンプ自動判断モードでは、画像コンテンツの生成に用いられている画像データのタイムスタンプと再生時刻に基づいて、音響データの再利用を実行するか否かを判定する。ステップＳ３３において、音響制御部１１７は画像コンテンツの作成に使用する画像データ１１３のタイムスタンプと、映像生成制御部１１８から取得した再生時刻とを比較する。不一致の場合、処理はステップＳ３６に進み、音響制御部１１７は、音響データ１１４を再利用すると判断する。比較した結果が一致する場合、処理はステップＳ３４に進む。なお、タイムスタンプと再生時刻は一般には同一の値にはならない。例えば、図４において、時刻Ｔ０≠タイムスタンプｔｎ０、時刻Ｔ１≠タイムスタンプｔｎ１である。本実施形態では、画像コンテンツに対応する画像データの撮影時刻と画像コンテンツの再生時刻との差分が変化した場合に、再利用すると判断する。たとえば、時刻Ｔ０とタイムスタンプｔｎ０との差分を基準とする。時刻Ｔ１＋ΔＴにおいて、静止画仮想視点コンテンツに用いられる画像データのタイムスタンプはｔｎ１のままであり、画像データの撮影時刻と画像コンテンツの再生時刻との差分が変化する。ステップＳ３３では、この変化が検出される。また、ステップＳ２６での待機の終了（再生期間の経過）に応じて差分の変化の監視が再開される場合、その時点における再生時刻とタイムスタンプとの差分が基準となる。

ステップＳ３４において、音響制御部１１７は画像コンテンツの作成に使用する画像データ１１３のタイムスタンプを同期制御部１１６から取得する。そして、前の再生時刻の画像コンテンツの作成に使用した画像データのタイムスタンプと比較して時刻が連続しているかを判断する。時刻が連続している場合、処理はステップＳ３５に進み、音響制御部１１７は、音響データ１１４を再利用しないと判断する。時刻が連続していない場合、処理はステップＳ３６に進み、音響制御部１１７は、音響データ１１４を再利用すると判断する。

［処理結果の例］
次に、音響データ１１４を再利用すると判断し、静止画仮想視点コンテンツを閲覧中に仮想サラウンドコンテンツを視聴した場合のデータ推移を、図４を用いて説明する。図４は、時刻Ｔ０から時刻Ｔ３の間に音響コンテンツ及び画像コンテンツを再生する場合を示している。

時刻Ｔ０から時刻Ｔ１にかけて、ライブ画像コンテンツ生成部１２１はライブ画像コンテンツ４４を生成し、ライブ音響コンテンツ生成部１２３はライブ音響コンテンツ４０及びライブ音響コンテンツ４１を生成する。これらのコンテンツは多重部１２４において多重化され、映像コンテンツとして映像出力部１２５から出力される。ライブ画像コンテンツ４４を作成するために用いられている画像データのタイムスタンプをｔｎ０〜ｔｎ１とする。Ｔ０〜Ｔ１の間、ライブ画像コンテンツを生成するために用いられた画像データのタイムスタンプと再生時刻との差が、再生開始時の時刻とタイムスタンプとの差Δｔ＝Ｔ０−ｔｎ０に維持される。そのため、タイムスタンプ自動判断モードにおいて、音響データを再利用しないと判断される。また、同期制御部１１６はライブ画像コンテンツを生成することを音響制御部１１７に通知する。したがって、コンテンツ自動判断モードの場合、音響制御部１１７はこの通知に基づいて音響データを再利用しないと判断する。

時刻Ｔ１から時刻Ｔ２にかけて、静止画仮想視点コンテンツ生成部１１９は静止画仮想視点コンテンツ４５を生成し映像出力部１２５から出力する。たとえば、時刻Ｔ１においてユーザが所定の操作により静止画仮想視点コンテンツの生成を指示すると、その指示は映像生成制御部１１８から画像制御部１１５に通知される。その指示の通知を受けた画像制御部１１５は、静止画仮想視点コンテンツ生成部１１９による静止画仮想視点コンテンツの生成を開始させ、ライブ画像コンテンツ生成部１２１によるライブ画像の生成を停止させる。また、ライブ画像の生成の停止に伴って音響コンテンツの生成に用いる音響データが無くなるため、ライブ音響コンテンツ生成部１２３においても音響コンテンツの生成が停止する。

音響制御部１１７は、音響データの再利用をするか否かの判断（ステップＳ２４）を繰り返している。再利用モードがコンテンツ自動判断の場合、時刻Ｔ１においてコンテンツの生成種別が静止画仮想視点コンテンツになったことを検出し、音響データを再利用すると判断する（ステップＳ３２（ＹＥＳ）→ステップＳ３６）。静止画仮想視点コンテンツになったことの検出は、たとえば、音響制御部１１７が同期制御部１１６からコンテンツ種別の通知を受けることによりなされる。或いは、静止画仮想視点コンテンツ生成部１１９が出力するコンテンツ（画像データ）のメタデータから音響制御部１１７がコンテンツ種別を判定するようにしてもよい。また、静止画仮想視点コンテンツに用いられる画像データのタイムスタンプの進行が停止し、不連続となる（図４では、ｔｎ１に維持される）ため、再生時刻と画像データのタイムスタンプとの差が、上述のΔｔを維持できなくなる。再利用モードがタイムスタンプ自動判断の場合は、これらの現象（Δｔを維持できない（ステップＳ３３）、または、タイムスタンプの進行が停止した（不連続になった）こと（ステップＳ３４））を検出することで音響データを再利用すると判断する。

音響データを再利用すると判断した場合、音響制御部１１７は仮想サラウンドコンテンツ生成部１２２に仮想サラウンドコンテンツ生成の開始を指示するとともに、開始時刻Ｔ１と再生期間（ΔＴ＝Ｔ２−Ｔ１）を伝える。また、音響制御部１１７は、再生時刻Ｔ１−ΔＴ＝２Ｔ１−Ｔ２からＴ１に対応する音響データ（タイムスタンプがｔｎ１−ΔＴからｔｎ１の音響データ）を蓄積部１１２から読み出し、仮想サラウンドコンテンツ生成部１２２に伝送する。仮想サラウンドコンテンツ生成部１２２は、時刻２Ｔ１−Ｔ２から時刻Ｔ１に対応する音響データを用いて、時刻Ｔ１から時刻Ｔ２の間に視聴する音響コンテンツ（仮想サラウンドコンテンツ）を生成し、映像出力部１２５に出力する。なお、本実施形態では、静止画仮想視点コンテンツの仮想視点位置に基づいて仮想サラウンドコンテンツを生成するための音響データが選択される。たとえば、静止画仮想視点コンテンツの生成開始時（時刻Ｔ１）において用いられている画像データを提供するカメラ（視点）に近いマイクロフォンから集音された音響データが仮想サラウンドコンテンツの生成に用いられる。もちろん、使用される音響データの選択は、これに限られるものではない。たとえば、再生時刻が２Ｔ１−Ｔ２からＴ１までの間の音響コンテンツの生成に用いられた音響データが用いられるようにしてもよい。

静止画仮想視点コンテンツの挿入を終えると（時刻Ｔ２に到達すると）、画像制御部１１５は、静止画仮想視点コンテンツ生成部１１９によるコンテンツの生成を停止させ、ライブ画像コンテンツ生成部１２１によるライブ画像コンテンツの生成を再開させる。図４の例では、静止画仮想視点コンテンツの生成を開始した時刻Ｔ１において中断されたライブ画像コンテンツの生成が再開されるようにする。すなわち、タイムスタンプｔｎ１以降の画像データを用いてライブ画像コンテンツが生成される。ただし、静止画仮想視点コンテンツにおいて視点が移動した場合には、視点の最終位置に近いカメラからの画像データを用いる。こうすることにより、画像の連続性が維持され、自然な再生画像となる。以上のように、静止画仮想視点コンテンツから他のコンテンツ（図４ではライブ画像コンテンツ）に切り替わる時に、連続した音響を視聴することが出来る。そのため、ユーザは違和感なく、臨場感のある音響を視聴することができる。

時刻Ｔ２から時刻Ｔ３にかけて、ライブ画像コンテンツ生成部１２１はライブ画像コンテンツ４６を生成し、映像出力部１２５へ出力する。また、これに伴って、ライブ音響コンテンツ生成部１２３はライブ音響コンテンツ４３を生成し、映像出力部１２５へ出力する。

なお、本実施形態において、時刻Ｔ１において静止画仮想視点コンテンツの生成が開始されるが、その再生期間であるΔＴは、予め設定されているものとする。また、再生期間を静止画仮想視点コンテンツの生成の指示とともに指定できるようにしてもよい。たとえば、５秒間の静止画仮想視点コンテンツを生成するボタン、１０秒間の静止画仮想視点コンテンツを生成するボタンなどを設けておき、いずれのボタンが指示されたかにより再生期間ΔＴが決定されるようにしてもよい。或いは、静止画の仮想視点を被写体に対して３６０度回転させることが可能な構成において、３６０度の回転に要する時間を予め設定しておき、指定された回転量に応じて再生期間が設定されるようにしてもよい。この場合、たとえば、静止画仮想視点コンテンツの生成とともに被写体に対して１８０度回転させることが指示されると、３６０度の回転に要する時間の半分が静止画仮想視点コンテンツの再生期間として設定される。

また、上記実施形態において、音響データの再利用において、静止画仮想視点コンテンツの直前のΔＴの期間の音響データが用いられたがこれに限られるものではない。画像データ１１３とともに蓄積部１１２に蓄積された音響データ１１４のうち、静止画仮想視点コンテンツのタイムスタンプ以前の任意のタイミングの音響データを用いるようにしてもよい。すなわち、静止画仮想視点コンテンツに対応する撮影時刻よりも前の時刻に集音された音響データを用いて静止画仮想視点コンテンツとともに再生される音響コンテンツを生成するようにすればよい。但し、図４のような画像コンテンツを生成した場合には時刻２Ｔ１−Ｔ２〜時刻Ｔ１の音響データを利用することが好ましい。時刻Ｔ２において良好な音響の連続性が得られるからである。

以上のように、第１実施形態によれば、画像コンテンツの生成に使用した画像データの撮影時刻と再生時刻とに基づいて、当該撮影時刻よりも以前の音響データが選択され、当該画像コンテンツのための音響コンテンツが生成される。したがって、静止画仮想視点コンテンツのように画像に対応する音響データが存在しない場合でも、ユーザは音響を視聴することが出来る。また、その音響の生成に用いられる音響データは、映像コンテンツの生成に用いられた画像データに関連した音響データであり、ユーザは違和感なく視聴を続けることができる。特に、図４に示したように、静止画仮想視点コンテンツの再生期間である時刻Ｔ１〜Ｔ２に対応する音響コンテンツを、時刻２Ｔ２−Ｔ１〜Ｔ１の期間に対応する音響データを用いて生成することにより、音響の連続性がより向上する。

＜第二実施形態＞
第一実施形態では、静止画仮想視点コンテンツの生成時の音響コンテンツを生成するために、静止画仮想視点コンテンツの生成開始時における視点に近いマイクロフォンからの音響データを用いる構成を説明した。しかしながら、静止画仮想視点コンテンツの生成時における音響データの選択方法は、これに限られるものではない。第二の実施形態では、静止画仮想視点コンテンツに対応する仮想サラウンドコンテンツを生成する場合に、被写体の位置に基づいて音響データを選択する構成について説明する。なお、映像処理システムおよび画像音響処理装置１００の構成は第一実施形態（図１Ａ、図１Ｂ）と同様である。

［競技場でのカメラ及びマイクロフォンの設置例］
図５は、競技場でのカメラ及びマイクロフォンの設置例である。競技場５００は、スタンド５０１、フィールド５０２、実況室５０３を有している。また、フィールド５０２を点線で示す４つの領域に分割した場合の第一象限を分割エリア５６０、第二象限を分割エリア５６１、第三象限を分割エリア５６２、第四象限を分割エリア５６３と称する。マイクロフォン５１０〜５１７はフィールド５０２の内部に設置されたマイクロフォンである。図５の例では、分割エリア５６０〜５６３毎に２本ずつのマイクロフォンが設置されている。マイクロフォン５２０〜５２３はスタンド５０１に設置されたマイクロフォンである。マイクロフォン５３０は実況室５０３に設置されたマイクロフォンである。マイクロフォン５１０〜５１７、５２０〜５２３は、マイクロフォン群１０２を構成している。カメラ５４０〜５５７はスタンド５０１に設置されたカメラである。カメラ５４０〜５５７はカメラ群１０１を構成している。

［音響データの構成］
図６は、蓄積部１１２に蓄積される音響データ１１４の内部構造を示す図である。音響データ１１４はマイクロフォン５１０〜５１７が集音したフィールド音響６０と、マイクロフォン５２０〜５２３が集音したスタンド音響６１と、マイクロフォン５３０が集音した実況音響６２の複数のカテゴリを含む。フィールド音響６０は競技場のフィールドで集音された音響データである。スタンド音響６１は競技場のスタンドで集音された音響データである。実況音響６２は実況者の音声を集音することにより得られた音響データである。音響制御部１１７は、動画コンテンツのタイムスタンプや視点に基づいて音響データ１１４から必要なフィールド音響６０、スタンド音響６１、実況音響６２の少なくとも何れかを選択して蓄積部１１２から読み出す。音響制御部１１７は、仮想サラウンドコンテンツ生成部１２２とライブ音響コンテンツ生成部１２３のうち読み出した音響データの送信先を、生成中の動画コンテンツの種別に応じて決定する。音響制御部１１７は、読み出した音響データを決定されたコンテンツ生成部へ送る。

［動作］
音響制御部１１７が、静止画仮想視点コンテンツのための音響コンテンツの生成に用いる音響データを音響データ１１４から選択する処理について、図７のフローチャートを用いて説明する。図７のフローチャートにより示される処理は、図２のステップＳ２５，Ｓ２６の処理の詳細の一例である。

ステップＳ７１において、音響制御部１１７は同期制御部１１６から静止画仮想視点コンテンツの生成に用いられた画像データのタイムスタンプと静止画仮想視点コンテンツの再生期間（たとえば図４のΔＴ）に基づいてタイムスタンプ範囲情報を取得する。タイムスタンプ範囲情報は、音響データを取得するためのタイムスタンプの範囲であり、たとえば、図４の「２Ｔ１−Ｔ２」から「Ｔ１」の範囲に対応するタイムスタンプの範囲（ｔｎ１−ΔＴ〜ｔｎ１）である。ステップＳ７２において、音響制御部１１７は、同期制御部１１６から画像コンテンツの被写体が存在するエリア情報を取得する。エリア情報は２次元または３次元の座標でも良い。

ステップＳ７３において、音響制御部１１７は、ステップＳ７１で取得したタイムスタンプ範囲情報とステップＳ７２で取得したエリア情報に基づいて仮想サラウンドコンテンツ生成部１２２に伝送する音響データを決定する。例えば、ステップＳ７２で取得されたエリア情報に基づいて特定されたマイクロフォンから得られた音響データのうち、ステップＳ７１で取得されたタイムスタンプ範囲情報で示される範囲の音響データが、伝送する音響データとして決定される。ステップＳ７４において、音響制御部１１７は、音響データ１１４のうち、ステップＳ７３で決定した音響データを取得する。たとえば、ステップＳ７１で取得されたタイムスタンプ範囲情報が示す範囲のタイムスタンプを有し、ステップＳ７２で取得されたエリア情報が示すエリアに対応するマイクロフォンから集音された音響データが取得される。ステップＳ７５において、音響制御部１１７は、仮想サラウンドコンテンツ生成部１２２へステップＳ７４で取得した音響データを伝送する。

［音響データの選択の具体例］
以下、図５に示した競技場５００の設置例と図６に示した音響データ１１４の構成例を用いて、音響制御部１１７による音響データの選択の処理（ステップＳ７３）の例を示す。生成される画像コンテンツは静止画仮想視点コンテンツであり、被写体は分割エリア５６１に存在するものとする。静止画仮想視点コンテンツの場合には対応する音響データが無いため、仮想サラウンドが生成される。

音響データの選択方法にはたとえば次の２種類があげられる。１つ目は、スタンド音響６１のみを選択する方法であり、２つ目はフィールド音響６０のみを選択する方法である。スタンド音響６１のみを選択する方法では、被写体の存在する分割エリア５６１に対応するマイクロフォン５２１から得られた音響データのうち、タイムスタンプがタイムスタンプ範囲情報で示される範囲にある音響データが選択される。フィールド音響６０のみを選択する方法では、分割エリア５６１に存在するマイクロフォン５２１以外のマイクロフォン５１１、５１２から得られた音響データのうち、タイムスタンプがタイムスタンプ範囲情報で示される範囲にある音響データが選択される。どちらの選択方法を採用するかはユーザ設定により決定されるものとする。

もちろん、音響データの選択方法は上記に限られるものではない。たとえば、画像コンテンツ（静止画仮想視点コンテンツ）の生成に用いた画像データの被写体の位置から一番近い位置にあるマイクロフォンで集音した音響データを除いて音響コンテンツを生成するようにしてもよい。なお、実況音声は過去の音響データを再利用すると不連続性が目立つので、本実施形態では、選択の対象としない。

以上、説明したように、第二実施形態によれば、静止画仮想視点コンテンツのための仮想サラウンドを生成する場合の音響データの選択方法をユーザ指定により選択することが出来る。そのため、ユーザは静止画仮想視点コンテンツを閲覧する時に、様々な音響を視聴でき、様々な臨場感を体験できる。

＜第三実施形態＞
第一実施形態では、仮想視点の位置に基づいて音響データして音響コンテンツを生成する構成を、第二実施形態では、静止画仮想視点コンテンツの被写体の位置に基づいて音響データを選択して音響コンテンツを生成する構成を示した。第三実施形態では、第一実施形態と同様に静止画仮想視点コンテンツの仮想視点に基づいて音響コンテンツを生成する構成を説明する。但し、第三実施形態では、仮想視点の位置を用いた音響コンテンツの生成方法として、複数の方法を切り替え可能な構成について説明する。特に生成方法の一つとして、仮想視点の移動に応じて音響が移動（たとえば回転）するように仮想サラウンドコンテンツを生成する方法が含まれる場合について説明する。なお、音響が移動するとは、仮想の集音位置が移動することである。映像処理システムおよび画像音響処理装置１００の構成は第一実施形態（図１Ａ、図１Ｂ）と同様である。

［仮想サラウンドの種類］
本実施形態では、仮想サラウンドの生成方法として３種類の生成方法を有する構成を説明する。１つ目の生成方法は、撮影座標基準による生成方法であり、被写体を撮影するカメラ、すなわち仮想視点の位置（以下、撮影座標）の移動に基づいて音響コンテンツの集音位置を移動（回転）する。撮影座標基準では複数の撮影座標を取得する必要がある。２つ目の生成方法は、終了基準による生成方法であり、静止画仮想視点コンテンツにおける最後の撮影座標に基づいて音響コンテンツを生成する。３つ目の生成方法は、開始基準による生成方法であり、静止画仮想視点コンテンツにおける最初の撮影座標に基づいて音響コンテンツを生成する。

なお、撮影座標基準では、仮想視点の位置の移動に伴って撮影座標を取得する必要がある。また、終了基準による生成方法では、静止画仮想視点コンテンツの最後の撮影座標を取得した後に仮想サラウンドコンテンツを生成することになる。但し、静止画仮想視点コンテンツの生成における仮想視点の移動経路が予め分かっている場合、すなわち、必要な複数の撮影座標あるいは最後の撮影座標が予め分かっている場合は、直ちに複数の撮影座標あるいは最後の撮影座標を取得することができる。

［動作］
図８は、第三実施形態による、静止画仮想視点コンテンツのための仮想サラウンドの生成に必要な音響データを蓄積部１１２に蓄積されている音響データ１１４の中から選択する処理を示すフローチャートである。

ステップＳ８０において、音響制御部１１７は同期制御部１１６または映像生成制御部１１８から、ユーザにより指定された仮想サラウンドの生成方法を取得する。指定された生成方法が撮影座標基準の場合に処理はステップＳ８１に進み、終了座標基準の場合に処理はステップＳ８３に進み、開始座標基準の場合に処理はステップＳ８２に進む。ステップＳ８１では、音響制御部１１７が同期制御部１１６からカメラの撮影座標を取得する。ステップＳ８２では、音響制御部１１７が同期制御部１１６から静止画仮想視点コンテンツの開始時の撮影座標を取得する。ステップＳ８３では、音響制御部１１７が同期制御部１１６から仮想視点コンテンツの終了時の撮影座標を取得する。

ステップＳ８１〜Ｓ８３の後、処理はステップＳ８４に進む。ステップＳ８４において、音響制御部１１７はステップＳ８１、ステップＳ８２、またはステップＳ８３で取得した撮影座標に基づいて分割エリアを選択する。例えば、図５に示した分割エリア５６０〜５６３のうち、撮影座標が存在している分割エリアが選択される。仮想サラウンドの作成に必要なマイクロフォンが存在する分割エリアを決定する。分割エリアを選択する代わりに、マイクロフォンを選択する構成を採用しても良い。

ステップＳ８５において、音響制御部１１７はステップＳ８４で選択した分割エリアからマイクロフォンを決定し、使用する音響データを決定する。ステップＳ７４、Ｓ７５の処理は、図７で説明したとおりである。撮影座標基準の場合、複数の撮影座標に対応する複数の音響データが仮想サラウンドコンテンツ生成部１２２に伝送され、仮想サラウンドコンテンツ生成部１２２は、仮想視点の移動に応じて移動する音響コンテンツを生成する。開始基準の場合、開始座標に対応する音響データが仮想サラウンドコンテンツ生成部１２２に伝送され、仮想サラウンドコンテンツ生成部１２２は、この音響データを加工して音響コンテンツを生成する。たとえば、時間の経過とともに音をぼかしていくような加工がなされる。終了基準の場合、終了座標に対応する音響データが仮想サラウンドコンテンツ生成部１２２に伝送され、仮想サラウンドコンテンツ生成部１２２は、この音響データを加工して音響コンテンツを生成する。たとえば、開始基準の場合とは逆に、時間の経過とともにぼかした音からシャープな音へ変化していくような加工がなされる。

以上、説明したように、本実施形態においては、仮想視点コンテンツに応じて仮想サラウンドを作成するための入力音響を決定し、仮想視点と同様に音声を回転することで、ユーザに高臨場感を与えることが出来る。また、複数の基準座標を設けることで、ユーザに様々な臨場感を選択できる余地を与えることが出来る。

なお、上述の各実施形態では、画像コンテンツの生成と音響コンテンツの生成を略並列に行う構成を示したがこれに限られるものではない。たとえば、図４において、Ｔ１〜Ｔ３の画像コンテンツが予め生成された状況で、予め生成された画像コンテンツに対して音響コンテンツを後付けするように生成する処理であっても、上述した音響コンテンツの生成を適用可能である。また、再利用モードがユーザ指示モードの場合には、画像コンテンツの種別に関わらず音響コンテンツの再利用が実行される。たとえば、ライブ画像コンテンツの生成中にユーザから再利用指示があった場合には、その指示の直後からあらかじめ決められた期間（再生期間）にわたって以前の音響データを用いた音響コンテンツの生成が行われる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：画像音響処理装置、１１０：画像入力部、１１１：音響入力部、１１２：蓄積部、１１５：画像制御部、１１６：同期制御部、１１７：音響制御部、１１８：映像生成制御部、１１９：静止画仮想視点コンテンツ生成部、１２０：動画仮想視点コンテンツ生成部、１２１：ライブ画像コンテンツ生成部、１２２：仮想サラウンドコンテンツ生成部、１２３：ライブ音響コンテンツ生成部、１２４：多重部、１２５：映像出力部

Claims

１以上のマイクロフォンによる収音に基づく収音データであって、複数の撮影装置によりそれぞれ異なる方向から撮影される領域内の音を含む収音データを取得する取得手段と、
前記複数の撮影装置により取得される複数の撮影画像に基づいて生成される仮想視点画像であって、同一の時点において変化させた視点から前記領域を見た場合の光景を表す動画像である仮想視点画像と共に再生される音響データとして、前記時点以前の収音期間に対応する音響データを、前記取得手段により取得された収音データに基づいて生成する生成手段とを有することを特徴とする音響処理装置。
前記収音期間は前記時点を含むことを特徴とする請求項１に記載の音響処理装置。
前記収音期間の開始時点は前記時点より前であり、
前記収音期間の終了時点は前記時点と一致することを特徴とする請求項１又は２に記載の音響処理装置。
前記収音期間の長さは前記仮想視点画像の再生期間の長さと一致することを特徴とする請求項３に記載の音響処理装置。
前記仮想視点画像は、前記時点において撮影された複数の撮影画像に基づいて生成されることを特徴とする請求項１乃至４の何れか１項に記載の音響処理装置。
前記仮想視点画像は、撮影時刻の進行が停止した状態で視点が変化する動画像であることを特徴とする請求項１乃至５の何れか１項に記載の音響処理装置。
前記音響データは、前記仮想視点画像における視点の変化に対応して仮想聴取点が変化する音のデータであることを特徴とする請求項１乃至６の何れか１項に記載の音響処理装置。
前記時点と前記仮想視点画像の再生期間の長さとに基づいて前記収音期間を決定する決定手段を有することを特徴とする請求項１乃至７の何れか１項に記載の音響処理装置。
前記仮想視点画像を取得する画像取得手段と、
前記生成手段により生成された前記音響データを、前記画像取得手段により取得された前記仮想視点画像と共に出力する出力手段とを有することを特徴とする請求項１乃至８の何れか１項に記載の音響処理装置。
前記生成手段により生成された音響データを含む音響コンテンツを、前記音響コンテンツと共に再生される画像コンテンツであって前記仮想視点画像を含む画像コンテンツと共に出力する出力手段を有することを特徴とする請求項１乃至８の何れか１項に記載の音響処理装置。
前記画像コンテンツは、前記仮想視点画像と、終了時点が前記時点に一致する撮影期間に対応する動画像とを含み、
前記音響コンテンツは、前記仮想視点画像と共に再生される第１の音響データと、前記撮影期間に対応する動画像と共に再生される第２の音響データとを含むことを特徴とする請求項１０に記載の音響処理装置。
前記第１の音響データに対応する収音期間と前記第２の音響データに対応する収音期間とは不連続であることを特徴とする請求項１１に記載の音響処理装置。
前記画像コンテンツは、前記仮想視点画像と、開始時点が前記時点に一致する撮影期間に対応する動画像とを含み、
前記音響コンテンツは、前記仮想視点画像と共に再生される第１の音響データと、前記撮影期間に対応する動画像と共に再生される第２の音響データとを含むことを特徴とする請求項１０に記載の音響処理装置。
前記第１の音響データに対応する収音期間と前記第２の音響データに対応する収音期間とは連続することを特徴とする請求項１３に記載の音響処理装置。
前記撮影期間に対応する動画像は、撮影装置により撮影された画像であることを特徴とする請求項１１乃至１４の何れか１項に記載の音響処理装置。
前記撮影期間に対応する動画像は、前記撮影期間内の複数の時点に撮影された複数の撮影画像に基づいて生成された仮想視点画像であることを特徴とする請求項１１乃至１４の何れか１項に記載の音響処理装置。
１以上のマイクロフォンによる収音に基づく収音データであって、複数の撮影装置によりそれぞれ異なる方向から撮影される領域内の音を含む収音データを取得する取得工程と、
前記複数の撮影装置により取得される複数の撮影画像に基づいて生成される仮想視点画像であって、同一の時点において変化させた視点から前記領域を見た場合の光景を表す動画像である仮想視点画像と共に再生される音響データとして、前記時点以前の収音期間に対応する音響データを、前記取得工程において取得された収音データに基づいて生成する生成工程とを有することを特徴とする音響処理方法。
前記収音期間の開始時点は前記時点より前であり、
前記収音期間の終了時点は前記時点と一致することを特徴とする請求項１７に記載の音響処理方法。
前記時点と前記仮想視点画像の再生期間の長さとに基づいて前記収音期間を決定する決定工程を有することを特徴とする請求項１７又は１８に記載の音響処理方法。
コンピュータを、請求項１乃至１６の何れか１項に記載の音響処理装置の各手段として機能させるためのプログラム。