JP5198530B2

JP5198530B2 - 音声付き動画像呈示装置、方法およびプログラム

Info

Publication number: JP5198530B2
Application number: JP2010217568A
Authority: JP
Inventors: 薫鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2013-05-15
Anticipated expiration: 2030-09-28
Also published as: JP2012074880A; US20120076304A1; US8837747B2

Description

本発明の実施の形態は、音声付き動画像を呈示する装置、方法およびプログラムに関するものである。

従来、複数のマイクロホンで同時に収録された複数チャンネルの音声と動画像とを含む音声付き動画像の撮影中あるいは撮影後に、所望の被写体から発せられている音声を強調して出力する技術が提案されている。この従来技術では、撮影時における撮像装置の焦点距離の情報と、複数のマイクロホンの配置（マイク間距離）の情報が既知であることを前提として、表示している画像中で利用者が所望の被写体を指定すると、指定された被写体から発せられている音声を強調した指向性音声を生成し、出力するようにしている。

一方、近年では、ステレオ音声付き動画像を撮影する家庭用のムービーカメラなどの撮影装置が一般に普及することに伴って、このような撮影装置で撮影された音声付き動画像のデータが大量に出回っており、その再生需要がますます大きくなっている。これらの音声付き動画像は、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が分かっていないことが多い。

特開２００５−１２４０９０号公報

しかしながら、従来技術においては、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が既知であることが前提となるため、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が未知の音声付き動画像を再生する場合に、所望の被写体から発せられている音声を強調して出力することができない。

実施の形態の音声付き動画像呈示装置は、入力部と、設定部と、主ビームフォーマ部と、出力制御部と、を備えている。入力部は、複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する。設定部は、利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する。主ビームフォーマ部は、前記設定部が設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する。出力制御部は、前記指向性音声を前記動画像とともに出力する。

音声付き動画像を撮影した撮影装置の音響系と光学系の関係を示した上面図。音響指向性を説明する図。撮像面上の音響指向性中心像を示す図。第１の実施形態の音声付き動画像呈示装置の機能ブロック図。ユーザインタフェースの一例を示す図。第１の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。第２の実施形態の音声付き動画像呈示装置の機能ブロック図。音響指向性中心が向いている被写体を利用者が指定する様子を示す図。音響指向性中心マークを動画像上に重ねて表示した様子を示す図。第２の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。第３の実施形態の音声付き動画像呈示装置の機能ブロック図。第３の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。第４の実施形態の音声付き動画像呈示装置の機能ブロック図。第４の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。第５の実施形態の音声付き動画像呈示装置の機能ブロック図。ユーザインタフェースの一例を示す図。主ビームフォーマ部および出力制御部の具体的な構成例を示すブロック図。主ビームフォーマ部および出力制御部の具体的な構成例を示すブロック図。ユーザインタフェースとして好適なユーザインタフェース画面の具体例を示す図。到達時間差グラフ表示上で到達時間差の設定を行う例を示す図。データの保存と読み込みのためのインタフェース画面の一例を示す図。コンピュータシステムの構成例を示す図。

以下で説明する実施の形態は、撮影時の焦点距離ｆの情報とマイク間距離ｄの情報が取得できない既存コンテンツ（音声付き動画像）であっても、利用者が所望の被写体からの音声を強調した指向性音声を動画像とともに視聴できるようにしたものである。ここで取り扱われる音声付き動画像は、ステレオ音声付き動画像を撮影する家庭用のムービーカメラなどにより撮影された（ＡＶＩ、ＭＰＥＧ１、ＭＰＥＧ２、ＭＰＥＧ４などの）コンテンツやその２次製作物を専ら想定している。これらの音声付き動画像は、撮影時の焦点距離ｆやステレオマイクロホンのマイク間距離ｄを含む撮影装置に関する詳細は分かっていない。

ここで、撮影時の状況として幾つかの仮定を置くこととする。図１は、音声付き動画像を撮影する撮影装置の音響系と光学系の関係を示す上面図であり、図２は、音響指向性を説明する図である。図１に示すように、音響系のアレイマイクロホンが水平に距離ｄ離れて配置された２つのマイクロホン１０１，１０２で構成されている場合を考える。また、焦点１０３から焦点距離ｆだけ離れた位置に光軸１０４に対して垂直な撮像面１０５があるピンホールカメラモデルで撮像系を考える。さらに音響系と撮像系の位置関係については、撮像系の光軸１０４が２つのマイクロホン１０１，１０２を結ぶベースライン１１０と略垂直であり、マイクロホン１０１，１０２の間のマイク間距離ｄ（数センチ程度）は、被写体１０７までの距離（１ｍ〜）に比べて撮像系に十分近いため、該ベースライン１１０の中点と焦点１０３は略同位置にあると仮定する。

このとき、撮像系の写野１０６の中に入っている被写体１０７が撮像面１０５に被写体像１０８として写っているものとする。ここで、光軸１０４の通る撮像面１０５上の位置を原点とし、被写体像１０８の撮像面１０５上の水平座標値をｘ１、垂直座標値をｙ１とする。この被写体像１０８の座標値（ｘ１，ｙ１）から被写体１０７の水平方向φｘを求める式は下記式（１）となり、被写体１０７の垂直方向φｙを求める式は下記式（２）となる。なお、φｘとφｙはそれぞれｘ軸とｙ軸と同じ向きを正とする符号付きの量である。
φｘ＝ｔａｎ^−１（ｘ１／ｆ）・・・（１）
φｙ＝ｔａｎ^−１（ｙ１／ｆ）・・・（２）

一方、被写体１０７までの距離が十分遠いとき、被写体１０７から２つのマイクロホン１０１，１０２に到達する音声は平面波と看做すことができ、その波面１０９は、音声の到来方向に応じた到達時間差Ｔでマイクロホン１０１，１０２にそれぞれ到達する。このとき、到達時間差Ｔと到来方向φの関係は下記式（３）となる。ここで、ｄはマイク間距離、Ｖｓは音速である。なお、φはマイクロホン１０１からマイクロホン１０２に向かう方向を正とする符号付きの量である。
φ＝ｓｉｎ^−１（Ｔ・Ｖｓ／ｄ）
→ Ｔ＝ｄ・ｓｉｎ（φ）／Ｖｓ・・・（３）

このとき、図２（ｄ）に示すように、同一の到達時間差Ｔを持つ音源は、マイクロホン１０１，１０２の正面方向（上記の仮定では光軸１０４の方向）からφだけ開いた面１１１（φが０°や±９０°でないとき円錐面になる）の上にある。すなわち、到達時間差Ｔを持つ音声は、この面（音源存在範囲）１１１上から到来する音声全てである。以後、音源存在範囲１１１にアレイマイクロホンの指向性を向けるとき、この面１１１を音響指向性中心、到来方向φを指向角と呼ぶこととする。このとき、図中のＴｍはマイク間距離ｄの関数として、下記式（４）で算定される到達時間差の理論上の最大値であり、図２（ａ）〜図２（ｃ）に示すように、到達時間差Ｔは−Ｔｍ≦Ｔ≦Ｔｍの範囲にある符号付きの量である。
Ｔｍ＝ｄ／Ｖｓ・・・（４）

このとき、音響指向性中心の撮像面１０５上での像（以下、音響指向性中心像という。）は、面（音源存在範囲）１１１と撮像面１０５の交差する箇所となり、φ＝０°のときは撮像面１０５のｙ軸と一致し、φ＝±９０°のときは存在せず、０°＜｜φ｜＜９０°のときは下記式（５）の第３式で示す２次曲線として求めることができる。ただし、下記式（５）では、図２（ｄ）に示したＯを原点として、マイクロホン１０１からマイクロホン１０２に向かう軸をｘ軸（撮像面１０５のｘ軸と平行であると仮定）、図２の紙面に垂直な軸をｙ軸（撮像面１０５のｙ軸と平行であると仮定）、光軸１０４方向をｚ軸としている。
ｙ^２＋ｚ^２＝ｘ^２・ｔａｎ^２（φ）：面（音源存在範囲）１１１の式
ｚ＝ｆ’：撮像面１０５上にあるという拘束条件
→ ｙ^２＝ｘ^２・ｔａｎ^２（φ）−ｆ^２・・・（５）

図３は、撮像面１０５上の音響指向性中心像１１２の一例を示す図である。上記式（５）から、被写体像１０８に対する音響指向性中心像１１２は、例えば図３（ａ）に例示するような２次曲線となる。ただし、撮像系の写野１０６が十分狭いとき、撮像面１０５上での音響指向性中心像１１２は、２次曲線の曲率が小さいことから、図３（ｂ）に例示するように、２次曲線をｙ軸に平行な直線（ｙ＝ｘ１）で近似することも可能である。これはφ＝φｘとする近似であり、この場合、上記式（１）と上記式（３）を用いて、ｘ１から到達時間差Ｔを求めることになる。

（第１の実施形態）
以上のような仮定に基づいて構成された第１の実施形態の音声付き動画像呈示装置の機能ブロック構成を図４に示す。本実施形態の音声付き動画像呈示装置は、図４に示すように、入力部１と、設定部２と、主ビームフォーマ部３と、出力制御部４とを備える。また、本実施形態の音声付き動画像呈示装置には、動画像を表示するための表示部１２と、利用者２４の操作入力を受け付けるタッチパネル１３とが設けられている。

入力部１は、複数のマイクロホンで同時に収録された複数チャンネルの音声と動画像とを含む音声付き動画像のデータを入力する。入力部１は、例えば、ビデオカメラ２１で撮影・記録された音声付き動画像のデータや、通信路を介してアクセス可能なサーバ２２、あるいは通信路を介さずにアクセス可能なローカルストレージ２３に記録されている音声付き動画像のデータを入力する。入力部１は、利用者２４による読み込みを指示する操作により、所定の音声付き動画像のデータを入力し、動画像データと音声データとに分けて出力する動作を行う。なお、以後簡略化のため、音声付き動画像に含まれる音声がステレオマイクロホンで同時に収録された２チャンネルのステレオ収録音声であるとして説明を行う。

設定部２は、利用者２４が例えばタッチパネル１３を利用して行う操作に応じて、音声付き動画像に含まれるステレオ収録音声のＬチャンネル音声ＳｌとＲチャンネル音声Ｓｒの間の到達時間差Ｔ、すなわち、後述の主ビームフォーマ部３により強調する方向の音声のＬチャンネル音声ＳｌとＲチャンネル音声Ｓｒ間における時間差である到達時間差Ｔを設定する。この設定部２による到達時間差Ｔの設定は、上述した音響指向性中心を設定することに相当する。なお、利用者２４は、後述するように、出力制御部４により出力される指向性音声Ｓｂを聴きながら、この指向性音声Ｓｂが所望の被写体から到来する音声を強調した音声となるように、到達時間差Ｔを設定するための操作を行う。設定部２は、この利用者２４の操作に応じて、到達時間差Ｔの設定値を随時更新していく。

主ビームフォーマ部３は、設定部２が設定した到達時間差Ｔを持つ方向の音声を強調した音声である指向性音声Ｓｂを、ステレオ音声Ｓｌ，Ｓｒから生成して出力する。この主ビームフォーマ部３は、到達時間差Ｔを遅延量として同相加算する遅延和アレイや後述する適応アレイを使った技術で実現することが可能である。ここで、設定部２が設定した到達時間差Ｔが実際の到達時間差に等しくさえあれば、マイク間距離ｄが不明であっても、この到達時間差Ｔを持つ方向の音声を強調した指向性音声Ｓｂを生成することができる。このため、本実施形態の音声付き動画像呈示装置では、利用者２４が従来技術の如く撮像系の被写体位置（ｘ１，ｙ１）を入力するのではなく、音響系の到達時間差Ｔを設定するための操作入力を行う。

出力制御部４は、主ビームフォーマ部３により生成された指向性音声Ｓｂを動画像とともに出力する。すなわち、出力制御部４は、入力部１から出力される動画像データに基づいて表示部１２に動画像を表示させるとともに、表示部１２に表示される動画像と同期して、主ビームフォーマ部３により生成された指向性音声Ｓｂを音波として、図示しないスピーカやヘッドホン端子から出力させる。

図５は、到達時間差Ｔを設定するための利用者２４による操作入力を受け付けるユーザインタフェースの一例を示す図である。本実施形態の音声付き動画像呈示装置では、図５に示すように、表示部１２の表示画面１１３上に、利用者２４の操作入力を受け付ける光学的に透過性のあるタッチパネル１３が設けられている。また、表示部１２の表示画面１１３には、図５に示すようなスライドバー１１４が表示される。利用者２４は、表示画面１１３に表示されるスライドバー１１４をタッチパネル１３上で触ってスライドさせる操作を行う。そして、このスライドバー１１４の操作に応じて、設定部２により到達時間差Ｔが設定される。

ただし、図５に示すようなスライドバー１１４を機能させるためには、このスライドバー１１４の操作によって設定可能な到達時間差Ｔの値の範囲が必要である。この設定可能な到達時間差Ｔの範囲をＴｃ：−Ｔｃ≦Ｔ≦Ｔｃとすると、Ｔｃには実際のＴの値の範囲を覆うことができる適当な値を設定しなければならない。ここでは、仮にＴｃを例えば０．００１秒として前記スライドバー１１４を用意することができる。これは音速Ｖｓを３４０ｍ／ｓと近似したとき、３４ｃｍの距離を音波が移動するのに要する時間であり、マイク間距離ｄが３４ｃｍより大きくなることはないとの仮定を置いていることになる。

なお、理論的には上記式（４）のＴｍをＴｃとすることが妥当である。しかしながら、上記式（４）のＴｍを求めるには、マイク間距離ｄが分からなければならない。ところが、マイク間距離ｄの正しい値は未知であるため、ここでは適当な値ｄ’を仮定することとする。このとき、到達時間差Ｔは下記式（６）のＴｍ’を使って、−Ｔｍ’≦Ｔ≦Ｔｍ’の範囲で設定可能となる。すなわち、Ｔｃ＝Ｔｍ’とする。この結果、指向角は下記式（７）のφ’となり、到達時間差Ｔが同じときの正しい到来方向φと同一である保証はない。しかし、到達時間差Ｔの可変範囲±Ｔｍ’はマイク間距離ｄに比例するので、一般的なムービーカメラのステレオマイクロホンのマイク間距離ｄが２〜４ｃｍ程度であることから、ｄ’としてこれより大きな値を設定することでＴｍ’＞Ｔｍとなり、実際の到達時間差Ｔの値の範囲（±Ｔｍ）を覆うことができるようになる。
Ｔｍ’＝ｄ’／Ｖｓ・・・（６）
φ’＝ｓｉｎ^−１（Ｔ・Ｖｓ／ｄ’）・・・（７）

また、このように仮想的なマイク間距離ｄ’を導入した場合には、設定部２が利用者２４の操作に応じて到達時間差Ｔを設定する代わりに、下記式（８）に示すα＝Ｔ／Ｔｍ’を設定することもできる。このとき、αは−１≦α≦１の範囲で設定可能である。ただし、Ｔｍ’は実際のＴｍよりも大きいので、有効なαの値の範囲は−１≦α≦１よりも狭くなる。あるいは、設定部２が利用者２４の操作に応じて、下記式（９）に示す指向角φ’の値を−９０°≦φ’≦９０°の範囲で設定するようにしてもよい。ただし、有効なφ’の値の範囲は−９０°≦φ’≦９０°よりも狭くなり、その値は実際の方向と同じである保証はない。いずれにしても、仮想的なマイク間距離ｄ’を導入した状態であれば、利用者２４の操作に応じてαやφ’を設定すれば、下記式（１０）や下記式（１１）に示すように到達時間差Ｔを設定することができる。つまり、利用者２４の操作に応じてαやφ’を設定することは到達時間差Ｔを設定することと等価であり、利用者２４が上述したスライドバー１１４の操作を行うことで、撮像系のパラメータと関係なく到達時間差Ｔの設定が可能である。
α＝Ｔ／Ｔｍ’＝Ｔ・Ｖｓ／ｄ’ ・・・（８）
φ’＝ｓｉｎ^−１（α）・・・（９）
Ｔ＝α・Ｔｍ’＝α・ｄ’／Ｖｓ・・・（１０）
Ｔ＝ｄ’・ｓｉｎ（φ’）／Ｖｓ・・・（１１）

なお、図５に示したスライドバー１１４は、到達時間差Ｔを設定するための利用者２４の操作を受け付ける方法の具体的一例であり、利用者２４の操作を受け付ける方法としては、この例に限らず、様々な方法が考えられる。例えば、利用者２４が数値を直接入力するユーザインタフェースを設け、利用者２４により入力された数値に応じて設定部２で到達時間差Ｔを設定するようにしてもよい。また、本実施形態の音声付き動画像呈示装置では、利用者２４は図示しないユーザインタフェースによって本装置に読み込ませたい音声付き動画像を選択し、該選択された音声付き動画像の再生（視聴）の開始、再生（視聴）の停止、早送り、巻き戻し、音声付き動画像の所望の時刻の頭出しなどを指示する操作を行えるものとする。

図６は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図６のフローチャートで示す一連の処理は、例えば利用者２４によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者２４によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。

利用者２４が音声付き動画像の読み込みを指示する操作入力を行うと、まず入力部１が、指定された音声付き動画像のデータを入力し、入力した音声付き動画像のデータを動画像データと音声データ（ステレオ音声Ｓｌ，Ｓｒ）とに分けて出力する（ステップＳ１０１）。なお、音声付き動画像の読み込み処理完了時点（到達時間差Ｔを設定するための利用者２４による操作がなされるまでの間）では、到達時間差Ｔは適当な初期値、例えば０（主ビームフォーマ部３の音響指向性で言えば正面０°）に設定されているものとする。

なお、読み込まれた音声付き動画像（動画像データと音声データ）は、単位時間毎に区切られたデータブロックの連続した時系列データとして扱うことが可能である。続くステップ１０２以降では、このデータブロックを時系列にしたがって順次取り出してループ処理を行う。すなわち、入力部１により音声付き動画像が装置に読み込まれ、前述の巻き戻し、早送り、頭出しの操作入力などを経て利用者２４が音声付き動画像の所望の時刻から再生の開始を指示する操作入力を行うと、前記入力部１からの動画像データと音声データ（ステレオ音声Ｓｌ，Ｓｒ）のブロックが該指示された時刻から時系列にしたがって順次取り出されて処理される。なお、上記データブロックが時系列にしたがって順次取り出されて処理される間は、当該データは連続したデータとみなすことができるので、以後の説明においてはデータブロックという言葉を省略して説明を行う。

主ビームフォーマ部３はこの取り出された音声データ（ステレオ音声Ｓｌ，Ｓｒ）を入力して、現在設定されている到達時間差Ｔ（初期値は上述した０）を持つ方向の音声を強調した指向性音声Ｓｂのデータを生成して出力する。そして、出力制御部４が、入力部１からの動画像データから前記音声データ（ステレオ音声Ｓｌ，Ｓｒ）と同時刻のデータを取り出して表示部１２に動画像を表示させるとともに、主ビームフォーマ部３からの指向性音声Ｓｂのデータを音波としてスピーカやヘッドホン端子から出力させて利用者２４に呈示する（ステップＳ１０２）。このとき、主ビームフォーマ部３で遅延が生じる場合には、出力制御部４はその遅延を補償するように同期をとった状態で指向性音声Ｓｂを動画像とともに出力し、利用者２４に呈示する。また、表示部１２の表示画面１１３には、動画像とともに例えば図５に示したようなスライドバー１１４が表示される。

ステップＳ１０２の音声付き動画像の呈示が行われている間、この音声付き動画像を視聴した利用者２４により到達時間差Ｔを設定するための操作、例えば図５に示したスライドバー１１４をタッチパネル１３上で触ってスライドさせる操作が行われたか否かが随時判定される（ステップＳ１０３）。そして、到達時間差Ｔを設定するための利用者２４による操作がなされていなければ（ステップＳ１０３：Ｎｏ）、そのままステップＳ１０２に戻って音声付き動画像の呈示が継続される。一方、到達時間差Ｔを設定するための利用者２４による操作がなされると（ステップＳ１０３：Ｙｅｓ）、設定部２が、その利用者２４の操作に応じて、音声付き動画像に含まれるステレオ音声Ｓｌ，Ｓｒの間の到達時間差Ｔを設定する（ステップＳ１０４）。

設定部２によるステップＳ１０４の処理は、音声付き動画像を視聴した利用者２４により到達時間差Ｔを設定するための操作（例えば図５に示したスライドバー１１４をスライドさせる操作）が行われるたびに実行され、ステップＳ１０２で主ビームフォーマ部３によって新たに設定された到達時間差Ｔに基づいた指向性音声Ｓｂが随時生成され、出力制御部４によって動画像とともに利用者２４に呈示される。つまり、前述の再生、停止、一時停止、早送り、巻き戻し、頭出しなどの操作により利用者２４が呈示される音声付き動画像の所望の箇所を自在に行き来しながら視聴しつつ、所望の音声が強調されるように例えばスライドバー１１４をスライドさせると、この利用者２４の操作に応じて、設定部２による到達時間差Ｔの設定および主ビームフォーマ部３による新たな指向性音声Ｓｂの生成が随時行われる。

以上のように、本実施形態の音声付き動画像呈示装置では、利用者２４が表示部１２に表示される動画像を見ながら例えばスライドバー１１４をスライドさせるといった操作を行うことで、利用者２４の意図した到達時間差Ｔが設定部２により設定され、設定された到達時間差Ｔを持つ方向の音声を強調した指向性音声Ｓｂが主ビームフォーマ部３により生成される。そして、この指向性音声Ｓｂが動画像とともに出力制御部４により出力されて、利用者２４に呈示される。したがって、利用者２４は、呈示される指向性音声Ｓｂを聴きながら到達時間差Ｔを調節することで、所望の被写体からの音声を強調した指向性音声Ｓｂ、すなわち正しい到達時間差Ｔの値を聴覚的に探り当てることができるようになる。上述したように、この操作は正しいマイク間距離ｄが不明であっても行うことが可能である。このように、本実施形態の音声付き動画像呈示装置によれば、撮影時における撮影装置の焦点距離ｆとマイク間距離ｄが未知の音声付き動画像であっても、所望の被写体から発せられている音声を強調して出力することができる。

さらに、従来技術で与えることのできる指向角は写野１０６の範囲に限られていたが、写野１０６が±９０°に満たないとき、利用者２４の操作に応じて到達時間差Ｔを設定するようにしている本実施形態の音声付き動画像呈示装置では、写野１０６の外から到来する音声さえも利用者２４は強調して聴くことが可能である。

（第２の実施形態）
次に、第２の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、指向性音声Ｓｂとともに出力される動画像の中で、利用者２４が強調された音声の発生源として指定した対象の位置座標と、設定部２が設定した到達時間差Ｔとの関係を定めるキャリブレーションパラメータを計算する機能が設けられている。

本実施形態の音声付き動画像呈示装置の機能ブロック構成を図７に示す。本実施形態の音声付き動画像呈示装置においては、上述した第１の実施形態の音声付き動画像呈示装置の構成に、取得部５と、キャリブレーション部６とが付加されている。なお、その他の構成は第１の実施形態と同様であるため、以下では、第１の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。

取得部５は、表示部１２に現在表示されている動画像の中で、強調された音声の発生源として利用者２４が認識している対象、つまり、音響指向性中心の向いている被写体を利用者２４が指定したときに、その被写体の動画像中における位置座標を取得するものである。具体的には、例えば図８に示すように、表示部１２の表示画面１１３に動画像が表示されている状態で、利用者２４が音響指向性中心の向いている被写体像１０８の位置を指先１１５などで触る（あるいは別に用意されたマウスなどでクリックする）と、取得部５は、タッチパネル１３から利用者２４の触った（あるいはクリックした）位置の座標値（ｘ１，ｙ１）を読み出してキャリブレーション部６に送る。

キャリブレーション部６は、取得部５が取得した座標値（ｘ１，ｙ１）と、設定部２が設定した到達時間差Ｔとの数量関係を定めるキャリブレーションパラメータ（仮想的な焦点距離ｆ’）を計算する。具体的には、到達時間差Ｔを含む上記式（７）のφ’と、ｘ１を含む上記式（１）のφｘが等しいという近似のもとで、下記式（１２）によってこれを満たすｆ’を求める。あるいはこの近似をせずに、上記式（５）から導かれる下記式（１３）の右辺の平方根として、指向角φ’の音響指向性中心像が点（ｘ１，ｙ１）を通るときのｆ’を求めることもできる。
ｆ’＝ｘ１／ｔａｎ（φｘ）＝ｘ１／ｔａｎ（ｓｉｎ^−１（Ｔ・Ｖｓ／ｄ’））・・・（１２）
ｆ’^２＝ｘ１^２・ｔａｎ^２（φ’）−ｙ１^２
＝ｘ１^２・ｔａｎ^２（ｓｉｎ^−１（Ｔ・Ｖｓ／ｄ’））−ｙ１^２・・・（１３）

因みに、ここで求められる仮想的な焦点距離ｆ’の値は実際の焦点距離ｆと同一である保証はないが、仮想的なマイク間距離ｄ’のもとで撮像系と音響系の幾何学的な数量関係を与えてくれる。なお、後述する仮想的なマイク間距離ｄ’を変更するときのために、上記式（１２）や上記式（１３）を使ったキャリブレーションが行われる場合は、そのときのｘ１，ｙ１の値や到達時間差Ｔの値が記録されるものとする。

上述したキャリブレーションによって、仮想的なマイク間距離ｄ’のもとでこれと矛盾しない仮想的な焦点距離ｆ’が求まると、出力制御部４は、上記式（５）のｆにこのｆ’を代入することで、０°＜｜φ’｜＜９０°における音響指向性中心像を計算できるようになる。そして、出力制御部４は、計算によって求めた音響指向性中心像が表示中の動画像の中にあるか外にあるかを判定して、この音響指向性中心像が表示中の動画像の中にある場合には、図９（ａ）や図９（ｂ）に例示するように、表示画面１１３の該当する位置に音響指向性中心マーク（主ビームフォーマ部３が強調する音声の方向の範囲を示すマーク）１１６を動画像上に重ねて表示させることで、現在の音響指向性中心がどこにあるかを利用者２４にフィードバックする。また、利用者２４がスライドバー１１４を動かすことによって到達時間差Ｔが変化した場合、出力制御部４は、新たな到達時間差Ｔと仮想的な焦点距離ｆ’とにより計算される音響指向性中心が表示中の動画像の中にあれば、その位置に新たな到達時間差Ｔに対応する音響指向性中心マーク１１６を表示する。なお、音響指向性中心マーク１１６が動画像の視認の妨げとならないように、音響指向性中心マーク１１６は、動画像の対応する部分が透けて見えるよう半透明に表示することが望ましい。

また、上述したキャリブレーションによって仮想的な焦点距離ｆ’が求まると、このキャリブレーションのために音響指向性中心の向いている対象（被写体）を指定するのと同様の操作によって、これから音響指向性中心を向けたい動画像中の対象（被写体）を利用者２４が指定することも可能となる。つまり、キャリブレーションによって仮想的な焦点距離ｆ’が求まれば、その後は、従来技術と同様に画像中で音声を強調したい対象を指定すること（すなわち、到達時間差Ｔを入力する操作）によって、指定した対象からの音声を強調した指向性音声Ｓｂを生成することが可能となる。

本実施形態の音声付き動画像呈示装置では、上述した仮想的な焦点距離ｆ’を求めるキャリブレーションのための対象を指定する操作と、これから音響指向性中心を向けたい対象を指定する操作とを、タッチパネル１３上での利用者２４の操作によって切り替えられるようにする。具体的には、例えば、キャリブレーションのために対象を指定するとき（すわなち、仮想的な焦点距離ｆ’を計算する操作）は、利用者２４は動画像中の対象（被写体）の表示される位置をタッチパネル１３上で長くタッチし、これから音響指向性中心を向けたい対象を指定するとき（すわなち、到達時間差Ｔを入力する操作）は、この被写体の表示される位置をタッチパネル１３上で短くタッチすることで、これら２つの操作を区別する。あるいは、キャリブレーションのために対象を指定するときはダブルタップ、これから音響指向性中心を向けたい対象を指定するときはシングルタップとすることにより、これら２つの操作を区別できるようにしてもよい。あるいは、上述したスライドバー１１４の近傍に切り替えスイッチが表示されるようにし、この切り替えスイッチを利用者２４が操作することによって、キャリブレーションのために対象を指定するときの操作と、これから音響指向性中心を向けたい対象を指定するときの操作を切り替えられるようにすることも可能である。いずれにしても、キャリブレーションのために対象を指定する操作が行われて仮想的な焦点距離ｆ’が求められた後は、同様の操作によって、これから音響指向性中心を向けたい対象を指定する操作を利用者２４が行えるようにする。

図１０は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図１０のフローチャートで示す一連の処理は、図６のフローチャートで示した処理と同様に、例えば利用者２４によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者２４によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図１０のステップＳ２０１〜ステップＳ２０４までの処理は、図６のステップＳ１０１〜ステップＳ１０４までの処理と同様であるので説明を省略する。

本実施形態では、利用者２４の操作に応じて到達時間差Ｔが設定され、この到達時間差Ｔを持つ方向の音声を強調した指向性音声Ｓｂが動画像とともに利用者２４に呈示されている状態で、到達時間差Ｔを設定するための操作だけでなく、強調された音声の発生源として認識している対象を動画像中で指定する利用者２４の操作、つまり、仮想的な焦点距離ｆ’を求めるキャリブレーションのための対象を指定する利用者２４の操作がなされたか否かも随時判定される（ステップＳ２０５）。そして、強調された音声の発生源として認識している対象を指定する利用者２４の操作がなされていなければ（ステップＳ２０５：Ｎｏ）、そのままステップＳ２０２に戻って音声付き動画像の呈示が継続される。一方、強調された音声の発生源として認識している対象を指定する利用者２４の操作がなされると（ステップＳ２０５：Ｙｅｓ）、取得部５が、利用者２４により指定された対象の動画像中における座標値（ｘ１，ｙ１）を取得する（ステップＳ２０６）。

すなわち、利用者２４は指向性音声Ｓｂを聴きながら到達時間差Ｔを調節して所望の被写体から到来する音声を強調した指向性音声Ｓｂとその到達時間差Ｔの値を聴覚的に探り当てた後、該音声を発している被写体がどこにあるかを、表示部１２に表示されている動画像中で指定する。そして、このような利用者２４の操作がなされると、取得部５は、利用者２４により指定された対象（被写体）の動画像中における座標値（ｘ１，ｙ１）を取得する。

次に、キャリブレーション部６が、取得部５により取得されたｘ１，ｙ１を用いて、上記式（１２）や上記式（１３）により、設定部２が設定した到達時間差Ｔに対応する仮想的な焦点距離ｆ’を算出する（ステップＳ２０７）。この結果、到達時間差Ｔと座標値（ｘ１，ｙ１）との数量関係が明らかになる。

次に、出力制御部４が、ステップＳ２０７で算出した仮想的な焦点距離ｆ’を用いて、設定部２が設定している到達時間差Ｔを持つ方向の音声の到来方向の範囲を示す音響指向性中心像を計算し（ステップＳ２０８）、ステップＳ２０２に戻って、主ビームフォーマ部３で生成された指向性音声Ｓｂを動画像とともに出力し、利用者２４に呈示する。このとき、ステップＳ２０８で求めた音響指向性中心像が表示中の動画像の中にあれば、表示画面１１３の該当する位置に、音響指向性中心マーク（主ビームフォーマ部３が強調する音声の方向の範囲を示すマーク）１１６を動画像上に重ねて表示させることで、現在の音響指向性中心が動画像上のどこにあるかを利用者２４にフィードバックする。

以上のように、本実施形態の音声付き動画像呈示装置では、音声付き動画像を利用者２４に呈示している状態で、強調された音声の発生源として利用者２４が認識している対象、つまり、音響指向性中心の向いている被写体を利用者２４が指定する操作を行うと、仮想的なマイク間距離ｄ’のもとで、これと矛盾しない仮想的な焦点距離ｆ’が決定される。そして、この仮想的な焦点距離ｆ’を用いて音響指向性中心像を計算して音響指向性中心マーク１１６を動画像に重ねて表示することで、表示部１２に表示されている動画像中のどこに音響指向性中心があるかを利用者２４に認識させることが可能となる。

また、キャリブレーションによって仮想的な焦点距離ｆ’が求められることで、到達時間差Ｔと座標値（ｘ１，ｙ１）との数量関係が明らかになるので、その後は、表示部１２に表示されている動画像中で対象を指定する操作を利用者２４が行うことで、利用者２４が指定した対象からの音声を強調した指向性音声Ｓｂを生成して利用者２４に呈示することが可能となる。

（第３の実施形態）
次に、第３の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、利用者２４が指定した音響指向性中心の向いている対象（被写体）を動画像中で追跡し、仮想的な焦点距離ｆ’（キャリブレーションパラメータ）を用いて、音響指向性中心をこの利用者２４が指定した対象に向け続けるように到達時間差Ｔを変更する機能が設けられている。

本実施形態の音声付き動画像呈示装置の機能ブロック構成を図１１に示す。本実施形態の音声付き動画像呈示装置においては、上述した第２の実施形態の音声付き動画像呈示装置の構成に、対象追跡部７が付加されている。なお、その他の構成は第１および第２の実施形態と同様であるため、以下では、第１および第２の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。

対象追跡部７は、動画像中で利用者２４により指定された対象（図９に例示した被写体像１０８）の画像的な特徴を生成して記憶し、この記憶された特徴に基づいて、利用者２４により指定された対象を動画像中で追跡して座標値（ｘ１，ｙ１）を更新し、上述したキャリブレーションパラメータ（仮想的な焦点距離ｆ’）を用いて主ビームフォーマ部３の音響指向性中心をこの対象に向け続けるよう制御する。この動画像中の対象の追跡には例えばパーティクルフィルタを利用することができる。なお、パーティクルフィルタを用いた物体追跡は公知の技術であるため、ここでは詳細な説明を省略する。

図１２は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図１２のフローチャートで示す一連の処理は、図１０のフローチャートで示した処理と同様に、例えば利用者２４によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者２４によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図１２のステップＳ３０１〜ステップＳ３０６までの処理は、図１０のステップＳ２０１〜ステップＳ２０６までの処理と同様であるので説明を省略する。

本実施形態では、利用者２４により指定された対象（被写体像１０８）の動画像中における座標値（ｘ１，ｙ１）を取得部５が取得すると、対象追跡部７が、この対象の画像的な特徴を生成して記憶する（ステップＳ３０７）。そして、キャリブレーション部６が、取得部５により取得されたｘ１，ｙ１を用いて、上記式（１２）や上記式（１３）により、設定部２が設定した到達時間差Ｔに対応する仮想的な焦点距離ｆ’を算出する（ステップＳ３０８）。

その後、表示部１２に表示される動画像が変化すると、対象追跡部７が、ステップＳ３０７で記憶した特徴に基づいて、表示部１２に表示される動画像中の対象（被写体像１０８）を画像処理的に検出し、追跡する。そして、動画像中における対象の位置が変化するとその座標値（ｘ１，ｙ１）を更新し、ステップＳ３０８で算出した仮想的な焦点距離ｆ’を用いて主ビームフォーマ部３の音響指向性中心を対象に向け続けるように、到達時間差Ｔを随時変更する（ステップＳ３０９）。これにより、変更後の到達時間差Ｔに基づいた指向性音声Ｓｂが主ビームフォーマ部３により随時生成され、動画像とともに利用者２４に呈示されることになる。

以上のように、本実施形態の動画像呈示装置では、対象追跡部７が表示部１２に表示される動画像中で利用者２４により指定された対象を追跡し、仮想的な焦点距離ｆ’（キャリブレーションパラメータ）を用いて、音響指向性中心をこの利用者２４が指定した対象に向け続けるように到達時間差Ｔを変更するようにしているので、動画像中における対象の位置が変化してもこの対象からの音声を強調した指向性音声Ｓｂを利用者２４に呈示し続けることができる。

（第４の実施形態）
次に、第４の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、音声付き動画像の撮影時におけるズーム変化を音響的に検知してこれに対処する機能が設けられている。

本実施形態の音声付き動画像呈示装置の機能ブロック構成を図１３に示す。本実施形態の音声付き動画像呈示装置においては、上述した第３の実施形態の音声付き動画像呈示装置の構成に、副ビームフォーマ部８，９と、再キャリブレーション部１０とが付加されている。なお、その他の構成は第１乃至第３の実施形態と同様であるため、以下では、第１乃至第３の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。

第３の実施形態で説明した対象追跡部７による対象の追跡と音響指向性の制御によって、利用者２４により指定された対象や撮影に使用している撮影装置が移動しても、本実施形態の音声付き動画像呈示装置では、利用者２４により指定された対象に対して音響指向性中心を自動的に向け続けることが可能である。しかしながら、これは撮像系の実際の焦点距離ｆが変わらない場合に限られる。撮影時のズーム変化により焦点距離ｆが変わると、上述した仮想的な焦点距離ｆ’と仮想的なマイク間距離ｄ’の間に不整合（矛盾）が発生する。その影響は、仮想的な焦点距離ｆ’に基づいて利用者２４により指定された対象に音響指向性を向けても、それが正しい方向から常にずれているという現象となって現れる。そこで、本実施形態の音声付き動画像呈示装置では、２つの副ビームフォーマ部８，９と、再キャリブレーション部１０とを設けることで、対象追跡部７による被写体の追跡と音響指向性の制御を経てもなお発生する音響指向性のずれ、すなわち撮影時のズーム変化を音響的に検出して対処できるようにしている。

副ビームフォーマ部８，９は、主ビームフォーマ部３の音響指向性中心、すなわち到達時間差Ｔから両方向に正の所定量ΔＴだけずれた音響指向性中心をそれぞれ持つ。具体的には、主ビームフォーマ部３が到達時間差Ｔの音響指向性中心を持つとき、副ビームフォーマ部８はＴ−ΔＴの音響指向性中心を持ち、副ビームフォーマ部９はＴ＋ΔＴの音響指向性中心を持つ。入力部１からのステレオ音声Ｓｌ，Ｓｒは、主ビームフォーマ部３および副ビームフォーマ部８，９の合計３つのビームフォーマ部にそれぞれ入力される。そして、主ビームフォーマ部３が到達時間差Ｔに対応した指向性音声Ｓｂを出力するのに対して、副ビームフォーマ部８，９は、それぞれ主ビームフォーマ部３が強調する音声の方向に対して所定量ΔＴ分だけずれた方向の音声を強調した指向性音声を出力する。ここで、もし撮像装置のズーム変化により焦点距離ｆが変わったのであれば、主ビームフォーマ部３の音響指向性中心が利用者２４が指定した対象から外れ、主ビームフォーマ部３の両側に音響指向性中心を有する副ビームフォーマ部８，９のいずれかの音響指向性中心が、利用者２４が指定した対象の方向により近くなるはずである。本実施形態の音声付き動画像呈示装置では、この状態を主ビームフォーマ部３および副ビームフォーマ部８，９の出力パワーを比較することで検出する。なお、ここで比較する各ビームフォーマ部３，８，９の出力パワーは、直近の所定期間（短時間）に各ビームフォーマ部３，８，９が生成した指向性音声の出力パワーを平均化した値である。

再キャリブレーション部１０は、これら合計３つのビームフォーマ部３，８，９の出力パワーを計算・比較し、副ビームフォーマ部８，９のいずれかの出力パワーが主ビームフォーマ部３の出力パワーより優位になったことを検出すると、主ビームフォーマ部３の音響指向性中心を、最も優位になった副ビームフォーマ部の音響指向性中心と同じにし、２つの副ビームフォーマ部８，９の音響指向性中心をこの主ビームフォーマ部３の新しい音響指向性中心から両方向にΔＴだけずらして再設定する。また、再キャリブレーション部１０は、追跡中の対象の座標値（ｘ１，ｙ１）と、ここで新たに設定された主ビームフォーマ部３の音響指向性中心（到達時間差Ｔ）を用いて、上記式（１２）や上記式（１３）によりキャリブレーションパラメータ（仮想的な焦点距離ｆ’）を再計算する。なお、この再キャリブレーションが行われる場合は、後述する仮想的なマイク間距離ｄ’を変更するときのために、そのときのｘ１，ｙ１の値や到達時間差Ｔの値が記録されるものとする。

なお、再キャリブレーション部１０が主ビームフォーマ部３および副ビームフォーマ部８，９の出力パワーを計算して比較する際は、直前（すなわち、対象追跡部７による対象の追跡と音響指向性の制御が正しく機能していたとき）に主ビームフォーマ部３が出力していた指向性音声Ｓｂに含まれる主要な周波数成分についてのみ、出力パワーを計算して比較することが望ましい。これにより、突発的な雑音によって副ビームフォーマ部８，９の出力パワーが主ビームフォーマ部３の出力パワーよりも優位なったと誤って検出することを有効に抑制することができる。

図１４は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図１４のフローチャートで示す一連の処理は、図１２のフローチャートで示した処理と同様に、例えば利用者２４によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者２４によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図１４のステップＳ４０１〜ステップＳ４０９までの処理は、図１２のステップＳ３０１〜ステップＳ３０９までの処理と同様であるので説明を省略する。

本実施形態では、対象追跡部７が表示部１２に表示される動画像中で利用者２４により指定された対象を追跡して到達時間差Ｔを随時変更している状態で、再キャリブレーション部１０により、主ビームフォーマ部３の出力パワーと副ビームフォーマ部８，９の出力パワーが計算され（ステップＳ４１０）、これら各ビームフォーマ部３，８，９の出力パワーが比較される（ステップＳ４１１）。そして、副ビームフォーマ部８，９のいずれかの出力パワーが主ビームフォーマ部３の出力パワーより優位になったことを検出すると（ステップＳ４１１：Ｙｅｓ）、再キャリブレーション部１０は、主ビームフォーマ部３の音響指向性中心を、最も優位になった副ビームフォーマ部の音響指向性中心と同じにし、２つの副ビームフォーマ部８，９の音響指向性中心をこの主ビームフォーマ部３の新たな音響指向性中心から両方向にΔＴだけずらして再設定する（ステップＳ４１２）。そして、再キャリブレーション部１０は、主ビームフォーマ部３の新たな音響指向性中心（すなわち、到達時間差Ｔ）に基づいて、キャリブレーションパラメータ（仮想的な焦点距離ｆ’）を再計算する（ステップＳ４１３）。

以上のように、本実施形態の音声付き動画像呈示装置では、再キャリブレーション部１０が、主ビームフォーマ部３の出力パワーと副ビームフォーマ部８，９の出力パワーとを比較して、副ビームフォーマ部８，９のいずれかの出力パワーが主ビームフォーマ部３の出力パワーよりも優位になった場合には、主ビームフォーマ部３の音響指向性中心を、出力パワーが優位になった副ビームフォーマ部の音響指向性中心と同じになるようにシフトさせるようにしている。そして、主ビームフォーマ部３の新たな音響指向性中心、つまり新たな到達時間差Ｔに基づいて、この新たな到達時間差Ｔに対応するキャリブレーションパラメータ（仮想的な焦点距離ｆ’）を再計算するようにしている。したがって、音声付き動画像の撮影時にズーム変化が生じていた場合であっても、このズーム変化を音響的に検出してキャリブレーションパラメータ（仮想的な焦点距離ｆ’）を自動的に調整することができ、利用者２４が指定した対象の追跡を継続させることができる。

（第５の実施形態）
次に、第５の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、主ビームフォーマ部３により生成される指向性音声Ｓｂと元のステレオ音声Ｓｌ，Ｓｒを混合し、このときの指向性音声Ｓｂとステレオ音声Ｓｌ，Ｓｒの混合比（すなわち指向性音声Ｓｂを強調する程度）を利用者２４が調整できる機能が設けられている。

本実施形態の音声付き動画像呈示装置の機能ブロック構成を図１５に示す。本実施形態の音声付き動画像呈示装置においては、上述した第４の実施形態の音声付き動画像呈示装置の構成に、強調程度設定部１１が付加されている。なお、その他の構成は第１乃至第４の実施形態と同様であるため、以下では、第１乃至第４の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。

強調程度設定部１１は、利用者２４が例えばタッチパネル１３を利用して行う操作に応じて、主ビームフォーマ部３により生成される指向性音声Ｓｂを強調する程度βを設定する。具体的には、例えば図１６に示すように、表示部１２の表示画面１１３に、利用者２４が到達時間差Ｔを設定するために操作するスライドバー１１４のほかに、スライドバー１１７が表示される。利用者２４は、指向性音声Ｓｂを強調する程度βを調整するときに、この表示画面１１３に表示されるスライドバー１１７をタッチパネル１３上で触ってスライドさせる。強調程度設定部１１は、この利用者２４によるスライドバー１１７の操作に応じて、指向性音声Ｓｂを強調する程度βを設定する。このとき、βは０≦β≦１の範囲で設定可能である。

本実施形態の音声付き動画像呈示装置では、強調程度設定部１１により指向性音声Ｓｂを強調する程度βが設定されると、出力制御部４が、この設定されたβに応じて指向性音声Ｓｂにステレオ音声Ｓｌ，Ｓｒを加重混合して出力音声とする。ここで、出力制御部４から出力される出力音声（ステレオ出力音声）をＯｌ，Ｏｒとすると、出力音声Ｏｌは下記式（１４）のように演算され、出力音声Ｏｒは下記式（１５）のように演算される。このように、強調程度設定部１１により設定されたβに応じて演算した出力音声Ｏｌ，Ｏｒを出力制御部４が呈示することで、利用者２４は所望の強調程度で強調された指向性音声Ｓｂを聴くことができる。
Ｏｌ＝β・Ｓｂ＋（１−β）・Ｓｌ・・・（１４）
Ｏｒ＝β・Ｓｂ＋（１−β）・Ｓｒ・・・（１５）

なお、利用者２４が違和感なく音声付き動画像を視聴できるように、主ビームフォーマ部３で生じた指向性音声Ｓｂの遅延は補償され、動画像と出力音声Ｏｌ，Ｏｒは同期を保った状態で出力制御部４から出力される。以下、主ビームフォーマ部３での遅延を補償しながら指向性音声Ｓｂを動画像とともに適切に呈示するための具体的な構成について説明する。

図１７は、主ビームフォーマ部３が遅延和アレイで実現されている場合の主ビームフォーマ部３および出力制御部４の具体的な構成例を示すブロック図である。遅延和アレイで実現される主ビームフォーマ部３には、入力部１が入力した音声付き動画像に含まれるステレオ音声Ｓｌ，Ｓｒ（撮像装置のマイクロホン１０１で収録された音声Ｓｌとマイクロホン１０２で収録された音声Ｓｒ）が入力される。そして、音声Ｓｌは遅延器１２１、音声Ｓｒは遅延器１２２でそれぞれ遅延されることで同相化され、これら同相化された音声Ｓｌと音声Ｓｒが加算器１２３で加算されて指向性音声Ｓｂとなる。このとき、強調すべき音声の音源がマイクロホン１０１に近いときは到達時間差Ｔが負値となり、強調すべき音声の音源がマイクロホン１０２に近いときは到達時間差Ｔが正値となる。そこで、主ビームフォーマ部３は、設定部２が設定した到達時間差Ｔを受けて、遅延器１２１での遅延量を０．５（Ｔｍ’−Ｔ）、遅延器１２２での遅延量を０．５（Ｔｍ’＋Ｔ）に設定して動作する。このように０．５Ｔｍ’を中心に遅延量を０．５Ｔずつ振り分けることで、元の音声Ｓｌ，Ｓｒに対する到達時間差Ｔを保ちつつ、指向性音声Ｓｂの遅延は元の音声Ｓｌ，Ｓｒに対して０．５Ｔｍ’だけ生じるようにできる。

また、出力制御部４は、指向性音声Ｓｂを遅延器１３４で０．５（Ｔｍ’＋Ｔ）、遅延器１３５で０．５（Ｔｍ’−Ｔ）だけ遅延させることで、これら２つの遅延出力の間に元あったのと同じ到達時間差Ｔを再び与える。さらに、出力制御部４は、指向性音声Ｓｂを強調する程度β（０≦β≦１）を入力し、演算器１２４によってβから１−βの値を計算するとともに、乗算器１２５，１２６によって遅延器１３４と遅延器１３５の出力音声をβ倍してＳｂｌとＳｂｒを生成する。以上の結果、ＳｂｌとＳｂｒの遅延は元のステレオ音声Ｓｌ，Ｓｒに対してＴｍ’だけ生じることになる。そこで、出力制御部４は、遅延器１３２によって音声ＳｌをＴｍ’だけ遅延させ、乗算器１２７で（１−β）倍し、加算器１２９でＳｂｌと加算して出力音声Ｏｌを得る。同様に、出力制御部４は、遅延器１３３によって音声ＳｒをＴｍ’だけ遅延させ、乗算器１２８で（１−β）倍し、加算器１３０でＳｂｒと加算して出力音声Ｏｒを得る。このとき、βを０に設定すると、Ｏｌ，ＯｒはＳｂｌ，Ｓｂｒに等しくなり、βを１に設定すると、Ｏｌ，Ｏｒは遅延を受けたＳｌ，Ｓｒに等しくなる。最後に、出力制御部４は、遅延器１３１で動画像をＴｍ’遅延させることで出力音声Ｏｌ，Ｏｒとの同期を保つ。

図１８は、主ビームフォーマ部３がＧｒｉｆｆｉｔｈ−Ｊｉｍ型適応アレイで実現されている場合の主ビームフォーマ部３および出力制御部４の具体的な構成例を示すブロック図である。なお、出力制御部４の内部構成は、図１７に示した構成例と同じである。

Ｇｒｉｆｆｉｔｈ−Ｊｉｍ型適応アレイで実現される主ビームフォーマ部３には、遅延器２０１，２０２と、減算器２０３，２０４と、適応フィルタ２０５が設けられている。主ビームフォーマ部３は、０．５Ｔｍ’を中心にして、遅延器２０１の遅延量を０．５（Ｔｍ’−Ｔ）に設定し、遅延器２０２の遅延量を０．５（Ｔｍ’＋Ｔ）に設定する。この結果、音声Ｓｌと音声Ｓｒは、到達時間差Ｔで与えられる方向に同相化され、減算器２０３による差信号Ｓｎはこの方向の音を含まない雑音成分だけとなる。そして、出力信号Ｓｂと雑音成分Ｓｎの相関が最小となるように適応フィルタ２０５の係数が調節される。この調整には、よく知られている最急降下法や確率勾配法などの適応アルゴリズムが用いられる。この結果、主ビームフォーマ部３は、遅延和アレイよりも鋭い音響指向性を形成することができるようになる。なお、主ビームフォーマ部３がこのように適応アレイで実現される場合も、出力制御部４において遅延和アレイのときと同様にして出力音声Ｏｌ，Ｏｒと動画像の同期をとることができる。

なお、図１７や図１８にて例示した主ビームフォーマ部３および出力制御部４の構成は、上述した第１乃至第４の実施形態の音声付き動画像呈示装置においても適用することができる。この場合、出力制御部４に入力されるβには適当な値を与えておくようにすればよい。また、第４の実施形態および本実施形態においては、上述のように元のステレオ音声Ｓｌ，Ｓｒと指向性音声Ｓｂｌ，Ｓｂｒの加重和を出力音声Ｏｌ，Ｏｒとするではなく、副ビームフォーマ部８，９の出力を出力音声Ｏｌ，Ｏｒとすることも可能である。この場合、元のステレオ音声Ｓｌ，Ｓｒと指向性音声Ｓｂｌ，Ｓｂｒの加重和を出力音声Ｏｌ，Ｏｒとするか、あるいは副ビームフォーマ部８，９の出力を出力音声Ｏｌ，Ｏｒとするかを、利用者２４が選択できるようにすることが望ましい。

また、上述の遅延和アレイや適応アレイを用いた主ビームフォーマ部３の実現方法は、副ビームフォーマ部８，９についても同様に適用できる。この場合、副ビームフォーマ部８，９に対しては、上記Ｔの値に代わってＴ−ΔＴとＴ＋ΔＴの値が使われる点だけが異なる。

以上のように、本実施形態の音声付き動画像呈示装置では、主ビームフォーマ部３により生成される指向性音声Ｓｂと元のステレオ音声Ｓｌ，Ｓｒを混合し、このときの指向性音声Ｓｂとステレオ音声Ｓｌ，Ｓｒの混合比（すなわち指向性音声Ｓｂを強調する程度）を利用者２４が調整できるようにしているので、利用者２４は所望の強調程度で強調された指向性音声Ｓｂを聴くことができる。

（ユーザインタフェース）
以上、第１乃至第５の実施形態の音声付き動画像呈示装置について説明したが、利用者２４が到達時間差Ｔの設定や、動画像中の対象（被写体）の指定、強調の程度の設定などを行うためのユーザインタフェースは、上述した各実施形態にて例示したものに限定されるものではない。また、上述した各実施形態の音声付き動画像呈示装置は、利用者２４が音声付き動画像の再生（視聴）を指示するための再生ボタン、再生を一時的に停止するための一時停止ボタン、再生を停止するための停止ボタン、早送りするための早送りボタン、巻き戻しするための巻き戻しボタン、音量を調節するための音量つまみなど、音声付き動画像を視聴する際に利用者２４が操作する一通りの操作部が必要であり、これら操作部と一体となったユーザインタフェースを設けることが望ましい。以下では、上述した各実施形態の音声付き動画像呈示装置のユーザインタフェースとして好適なユーザインタフェース画面の具体例について説明する。

図１９は、利用者２４がタッチパネル１３やマウスなどの他のポインティングデバイスを介して操作できるようにしたユーザインタフェース画面の具体例を示す図である。図中の３０１は表示中の動画像であり、利用者２４は再生コントローラ３０２を操作することで、この表示されている動画像の再生、一時停止、停止、早送り、巻き戻し、先頭にジャンプ、終端にジャンプという操作を行える。また、動画像３０１にはそれが可能なときには上述した音響指向性中心マーク１１６や、被写体像１０８の位置を示すアイコンなどが重ねて表示できるようになっている。

また、図中の１１４は、利用者２４が到達時間差Ｔを設定するために操作するスライドバーであり、図中の１１７は、利用者２４が指向性音声Ｓｂの強調の程度βを設定するために操作するスライドバーである。さらに、図中の３１０は、利用者２４が出力制御部４から出力される出力音声Ｏｌ，Ｏｒの音量を調節するために操作するスライドバーであり、図中の３１１は、利用者２４が仮想的なマイク間距離ｄ’を調節するために操作するスライドバーである。このスライドバー３１１を設けることで、利用者２４は現在の仮想的なマイク間距離ｄ’が実際のマイク間距離ｄより小さいのではないかと感じたときなどに、このスライドバー３１１を操作することで仮想的なマイク間距離ｄ’を自ら調節することができるようになる。なお、利用者２４がスライドバー３１１を操作することで仮想的なマイク間距離ｄ’が変更されたときは、この新たなマイク間距離ｄ’の値と整合する仮想的な焦点距離ｆ’の値が、上記式（１２）や上記式（１３）により再計算される。このとき、上述したキャリブレーション部６や再キャリブレーション部１０が仮想的な焦点距離ｆ’を計算するときに使用して記録した最新のｘ１，ｙ１の値や到達時間差Ｔの値が、上記式（１２）や上記式（１３）に代入される。また、到達時間差Ｔの理論上の最大値Ｔｍ’も上記式（６）により新しいｄ’に合わせて再計算される。

また、図中の３０３は、入力部１が入力した音声付き動画像のデータの先頭時刻を０としてこの先頭から終端までの時間を左から右に表示した時刻表示である。また、図中の３０４は、入力部１が入力した音声付き動画像のデータの動画像部分のサムネイルを時刻順で左から右に表示した入力動画像サムネイル表示であり、図中の３０５は、入力部１が入力した音声付き動画像のデータの音声部分をチャンネル毎に縦に並べ、各チャンネルの波形を時刻順で左から右に表示した入力音声波形表示である。なお、音声付き動画像のデータの音声チャンネルが３以上ある場合には、この入力音声波形表示３０５の上で、利用者２４が使用する２チャンネルを選択できるようになっている。

また、図中の３０６は、主ビームフォーマ部３に設定されるべき到達時間差Ｔの値を時刻順で左から右にグラフ表示した到達時間差グラフ表示であり、図中の３０７は、出力制御部４に設定されるべき指向性音声Ｓｂの強調の程度βの値を時刻順で左から右にグラフ表示した強調程度グラフ表示である。利用者２４は、上述したように、スライドバー１１４やスライドバー１１７を操作することで、到達時間差Ｔや指向性音声Ｓｂの強調の程度βを任意に設定できるが、到達時間差グラフ表示３０６や強調程度グラフ表示３０７の上でも到達時間差Ｔや指向性音声Ｓｂの強調の程度βの設定が行えるようになっている。

図２０は、到達時間差グラフ表示３０６上で到達時間差Ｔの設定を行う例を示す図である。図２０に示すように、到達時間差グラフ表示３０６は、各グラフを時系列に並ぶ複数の制御点３２２と、隣り合う制御点を結ぶ区分曲線３２１で表している。最初は先頭時刻と終端時刻に制御点を持つ１つの区分曲線でグラフが表現されている。利用者２４は、このグラフ上の所望時刻をダブルクリックしてグラフ上に制御点を追加（図中３２３）したり、所望の制御点をドラッグして動かしたりすることで、到達時間差Ｔのグラフ形状を例えば同図（ａ）から（ｂ）のように直感的に編集することができる。なお、図２０は到達時間差グラフ表示３０６上で到達時間差Ｔの設定を行う例を示しているが、強調程度グラフ表示３０７も到達時間差グラフ表示３０６と同様にグラフが表現されており、到達時間差Ｔを設定する場合と同様の操作で、指向性音声Ｓｂの強調の程度βを設定することができる。

図１９のユーザインタフェース画面の説明に戻る。図中の３０８は、主ビームフォーマ部３の出力する指向性音声Ｓｂの波形を時刻順で左から右に表示した指向性音声波形表示であり、図中の３０９は出力制御部４の出力する出力音声Ｏｌ，Ｏｒを縦に並べ、各波形を時刻順で左から右に表示した出力音声波形表示である。

図１９のユーザインタフェース画面において、時刻表示３０３、入力動画像サムネイル表示３０４、入力音声波形表示３０５、到達時間差グラフ表示３０６、強調程度グラフ表示３０７、指向性音声波形表示３０８、出力音声波形表示３０９は、画面上の横位置が同一時刻となるように表示され、そこに現在表示されている動画像の時刻ｔを表す時刻指定バー３１２が重ねて表示されている。利用者２４は、この時刻指定バー３１２を左右に動かすことで、所望の時刻ｔを指定して動画像と音声の頭出しを行えるようになっている。そして、頭出しを行った箇所から再生コントローラ３０２を操作することで、動画像と音声を繰り返し視聴しつつ、上述した要領で到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、仮想的なマイク間距離ｄ’などを調節することが可能になる。

また、図中の３１３は、上述した各実施形態の音声付き動画像呈示装置に音声付き動画像のデータを含む所望のデータを読み込ませるためのロードボタンであり、図中の３１４は、上述した各実施形態の音声付き動画像呈示装置に指向性音声Ｓｂを含む所望のデータを記録媒体（例えば、ローカルストレージ２３など）に記録保存させるためのセーブボタンである。利用者２４がこれらのボタンを押下すると、図２１に示すインタフェース画面が表示されるようになっている。

図２１に示すインタフェース画面について説明する。図中の４０１は、インタフェース画面のウィンドウである。また、図中の４０２は、データファイルを一覧表示するためのサブウィンドウであり、利用者２４は、このサブウィンドウ４０２に表示されるデータファイル名をタップすることで所望のデータファイルを選択できるようになっている。また、図中の４０３は、選択されたデータファイル名を表示するための、あるいは新しいデータファイル名を入力するためのサブウィンドウである。

また、図中の４０４は、一覧表示したいデータタイプを選択できるプルダウンメニューであり、データタイプの選択を変えるとサブウィンドウ４０２に一覧表示されるデータファイルも当該タイプに限定されて表示される。また、図中の４０５は、選択されたデータファイルを保存あるいは読み込む操作を実行させるためのＯＫボタンであり、図中の４０６は、操作を中断してインタフェース画面４０１を終了させるためのキャンセルボタンである。

利用者２４は、音声付き動画像のデータの読み込みを行う場合、まず図１９のユーザインタフェース画面上でロードボタン３１３を押下することによって、図２１のインタフェース画面のウィンドウ４０１を読み込みモードで表示させ、プルダウンメニュー４０４によってデータタイプとして音声付き動画像を選択する。これにより、サブウィンドウ４０２には読み込み可能な音声付き動画像ファイルの一覧が表示される。そして、この一連の中から所望の音声付き動画像ファイルを選択することで、音声付き動画像のデータの読み込みを行うことができる。

また、視聴していた音声付き動画像の指向性音声Ｓｂを保存する場合、利用者２４は、まず図１９のユーザインタフェース画面上でセーブボタン３１４を押下することによって、図２１のインタフェース画面のウィンドウ４０１を記録保存モードで表示させ、プルダウンメニュー４０４によってデータタイプとして指向性音声Ｓｂを選択する。そして、データファイル名をサブウィンドウ４０３に入力すると、処理結果である指向性音声Ｓｂを記録保存することができる。この他にも、音声付き動画像呈示装置が利用する動画像、音声、パラメータ類といった全ての情報を記録したプロジェクトファイルを記録保存したり、読み込んだりすることで、利用者２４はいつでも作業を中断し、かつ再開することができるようになっている。

また、この図２１に示すインタフェース画面を用いることで、具体的に以下に示すデータを選択して読み込みや記録保存ができるようになっている。すなわち、図２１に示すインタフェース画面を用いて、指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒを記録媒体に記録することが可能である。このようにすることで、利用者２４は、入力した音声付き動画像のデータから生成した指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒをいつでも利用できるようになる。また、その際、指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒと動画像とを同期の取れた音声付き動画像データに編集して記録することも可能である。このようにすることで、利用者２４は、入力した動画像データに指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒを加えた２次製作物をいつでも利用できるようになる。

また、図２１に示すインタフェース画面を用いて、仮想的なマイク間距離ｄ’、仮想的な焦点距離ｆ’、到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、使用チャンネルの番号などを記録媒体に記録することも可能である。このようにすることで、利用者２４は、入力した音声付き動画像のデータから音響指向性の付いた出力音声を生成するためのこれらの情報をいつでも利用できるようになる。これは前記のプロジェクトファイルの記録保存に相当する。また、その際、音声付き動画像のデータに編集して記録することも可能である。具体的には、音声付き動画像のデータ中に設けた専用トラックに仮想的なマイク間距離ｄ’、仮想的な焦点距離ｆ’、到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、使用チャンネル番号などを記録する。このようにすることで、利用者２４は、入力した音声付き動画像のデータに出力音声を生成するためのこれらの情報を埋め込んだ２次製作物をいつでも利用できるようになる。

また、図２１に示すインタフェース画面を用いて、記録媒体に記録保存された仮想的なマイク間距離ｄ’、仮想的な焦点距離ｆ’、到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、使用チャンネルの番号などを記録媒体から読み込むことが可能である。このようにすることで、利用者２４は、上述の記録機能と併せて使うことで視聴の中断と再開を容易に行えるようになる。これは前記のプロジェクトファイルの読み込みに相当する。なお、記録媒体に記録保存される、あるいは記録媒体から読み込まれるデータや情報の種類は、全てプルダウンメニュー４０４を用いたデータタイプの選択によって区別することが可能である。

（音声付き動画像呈示プログラム）
なお、上述した各実施形態の音声付き動画像呈示装置は、汎用的なコンピュータシステムに、上述した各部（入力部１、設定部２、主ビームフォーマ部３、出力制御部４など）の処理を実行する機能を実現するための音声付き動画像呈示プログラムを実装することで実現することも可能である。この場合のコンピュータシステムの構成例を図２２に示す。

このコンピュータシステムは、音声付き動画像呈示プログラムをＨＤＤ３４に記憶し、これをＲＡＭ３２に読み出してＣＰＵ３１で実行する。また、このコンピュータシステムは、その他ストレージ３９に挿入される記録媒体やＬＡＮ３５を介して接続される他の装置から音声付き動画像呈示プログラムの供給を受けることが可能である。また、このコンピュータシステムは、マウス／キーボード／タッチパネル３６やディスプレイ３７やＤ／Ａ変換器４０を使うことで、利用者２４の操作入力を受け付け、利用者２４への情報呈示を行うことが可能である。

このコンピュータシステムは、音声付き動画像のデータや出力音声Ｏｌ，Ｏｒを生成するための仮想的なマイク間距離ｄ’、仮想的な焦点距離ｆ’、到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、使用チャンネルの番号などのデータを、ＵＳＢなどの外部インタフェース３８を経由して接続されるムービーカメラや、ＬＡＮ３５を経由して通信路の先にあるサーバ、ＨＤＤ３４やその他ストレージ３９から取り込むことができる。ＨＤＤ３４以外から取り込まれた音声付き動画像のデータはＨＤＤ３４に一旦記録され、必要に応じてＲＡＭ３２に読み出され、マウス／キーボード／タッチパネル３６を介した利用者２４の操作に応じてＣＰＵ３１で処理されて、動画像がディスプレイ３７に、指向性音声Ｓｂや出力音声Ｏｌ，ＯｒがＤ／Ａ変換器４０に出力される。Ｄ／Ａ変換器４０にはスピーカ４１などが接続されており、指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒは音波として利用者２４に呈示される。また、生成された指向性音声Ｓｂや出力音声Ｏｌ，Ｏｒ、仮想的なマイク間距離ｄ’、仮想的な焦点距離ｆ’、到達時間差Ｔ、対象の座標値（ｘ１，ｙ１）、指向性音声Ｓｂの強調の程度β、使用チャンネルの番号などのデータはＨＤＤ３４やその他ストレージ３９などに記録保存される。

（変形例）
なお、上述した各実施形態の音声付き動画像呈示装置は、同時に収録された複数チャンネルの音声から、例えば選択された２チャンネルの音声を処理することで指向性音声Ｓｂを生成して動画像とともに視聴できるようにした例であったが、ｎチャンネルの同時収録音声に対して、基準となる１つのチャンネルに対する他のｎ−１個のチャンネルの到達時間差Ｔ１〜Ｔｎ−１を、利用者２４の操作に応じて設定部２が設定するようにすることで、３チャンネル以上の同時に収録された音声から所望の指向性音声Ｓｂを生成して、動画像とともに呈示する構成とすることも可能である。

また、例えば、会議スペース全体の音を少数のマイクロホンで収音するために、マイク間距離が１〜２ｍ程度離れてしまうような分散マイクロホンを持つテレビ会議システムであっても、利用者２４が手元のコントローラなどを操作することによって、この利用者２４の操作に応じて到達時間差Ｔを設定して、相手局の特定の発言者の発言を強調して聴くことのできるテレビ会議システムを実現することができる。

以上説明したとおり、実施の形態の音声付き動画像呈示装置によれば、利用者２４の操作に応じて到達時間差Ｔを設定し、この設定した到達時間差Ｔを持つ音声を強調した指向性音声Ｓｂを生成して動画像とともに利用者２４に呈示するようにしているので、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が未知の音声付き動画像であっても、利用者２４は、動画像中の所望の被写体から発せられる音声を強調させて動画像とともに視聴することができる。

なお、本発明は、上述した各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上述した各実施形態にて開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態にて示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１入力部
２設定部
３主ビームフォーマ部
４出力制御部
５取得部
６キャリブレーション部
７対象追跡部
８，９副ビームフォーマ部
１０再キャリブレーション部
１１６音響指向性中心マーク
Ｔ到達時間差
Ｓｌ，Ｓｒステレオ音声
Ｓｂ指向性音声
ｆ’ キャリブレーションパラメータ

Claims

複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する入力部と、
利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する設定部と、
前記設定部が設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する主ビームフォーマ部と、
前記指向性音声を前記動画像とともに出力する出力制御部と、を備えることを特徴とする音声付き動画像呈示装置。
前記指向性音声とともに出力される動画像の中で、強調された音声の発生源として指定された対象の位置座標を取得する取得部と、
前記取得部が取得した位置座標と、前記設定部が設定した到達時間差との関係を定めるキャリブレーションパラメータを計算するキャリブレーション部と、をさらに備えることを特徴とする請求項１に記載の音声付き動画像呈示装置。
前記対象を前記動画像中で追跡し、前記キャリブレーションパラメータを用いて、音声を強調する方向を前記対象に向け続けるように前記到達時間差を変更する対象追跡部をさらに備えることを特徴とする請求項２に記載の音声付き動画像呈示装置。
前記主ビームフォーマ部が強調する音声の方向に対して所定量ずれた方向の音声を強調した音声を生成する副ビームフォーマ部と、
前記指向性音声の出力パワーと前記副ビームフォーマ部が生成する音声の出力パワーとを比較して、前記副ビームフォーマ部が生成する音声の出力パワーが前記指向性音声の出力パワーよりも優位になった場合に、前記主ビームフォーマ部が強調する音声の方向を前記所定量シフトさせるとともに、前記キャリブレーションパラメータを再計算する再キャリブレーション部と、をさらに備えることを特徴とする請求項２または３に記載の音声付き動画像呈示装置。
前記出力制御部は、前記主ビームフォーマ部が強調する音声の方向の範囲を示すマークを、前記動画像上に重ねて出力することを特徴とする請求項２〜４のいずれか一項に記載の音声付き動画像呈示装置。
前記動画像とともに表示される第１スライドバーに対する前記利用者の操作を受け付けるタッチパネルをさらに備え、
前記設定部は、前記利用者による前記第１スライドバーの操作に応じて、前記到達時間差を設定することを特徴とする請求項１〜５のいずれか一項に記載の音声付き動画像呈示装置。
前記タッチパネルは、前記動画像とともに表示される第２スライドバーに対する前記利用者の操作をさらに受け付け、
前記設定部は、前記利用者による前記第２スライドバーの操作に応じて、前記指向性音声の程度をさらに設定することを特徴とする請求項６に記載の音声付き動画像呈示装置。
前記キャリブレーション部で計算されたキャリブレーションパラメータは、仮想的なマイク間距離に対応する仮想的な焦点距離を含み、
前記仮想的なマイク間距離および前記仮想的な焦点距離を記録する記録部をさらに備えることを特徴とする請求項２に記載の音声付き動画像呈示装置。
複数チャンネルの音声と動画像とを含む音声付き動画像データを入力するステップと、
利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定するステップと、
設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成するステップと、
前記指向性音声を前記動画像とともに出力するステップと、を含むことを特徴とする音声付き動画像呈示方法。
コンピュータに、
複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する機能と、
利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する機能と、
設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する機能と、
前記指向性音声を前記動画像とともに出力する機能と、を実現させるための音声付き動画像呈示プログラム。