JP2013135465A

JP2013135465A - 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム

Info

Publication number: JP2013135465A
Application number: JP2011286980A
Authority: JP
Inventors: Shiro Suzuki; 志朗鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-08
Also published as: CN103297812A; US20130162900A1

Abstract

【課題】複数の撮像位置における音声信号を高品質に得る。
【解決手段】所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する。この選択信号に応じて、所定の動画像の撮像位置における音響信号を生成する。この場合、環境中における音響収音位置において収音された音響信号と、所定の動画像の撮像位置と音響収音位置との相対位置に応じて決定された伝達関数に基づき、所定の動画像の撮像位置における音響信号を生成する。選択された所定の動画像の撮像位置における音響信号を、音響収音位置で収音された音響信号と伝達関数に基づいて生成するため、収音状態のよい音響信号をベースとして各撮像位置における音響信号を高品質に得ることができる。
【選択図】図２

Description

本技術は、音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システムに関し、特に、複数の撮像位置における音響信号を取り扱う音響信号処理装置等に関する。

デジタル放送においては、コンテンツとなる映像信号および音声信号はそれぞれデジタル信号化されて別々のストリームとして生成されたのちパケット化されて多重化され、多重化ストリームとして放送局から送出される（特許文献１等参照）。なお、説明を簡単にするために「音声信号」として説明するが、この音声信号は厳密な意味での音声信号を意味するものではなく、音声信号を含む音響信号を意味する。

放送局から送られてくる多重化ストリームは視聴者の自宅のテレビ受信機で受信され、映像ストリーム、音声ストリームに分離される。そして、画像ストリームが復号化されて得られた映像信号により映像の再生が行われ、音声ストリームが復号化されて得られた音声信号により音声の再生が行われる。

コンテンツの一例として、例えば、ピアノコンサートの中継を挙げることができる。この場合、図３０に示すように、映像を伝えるカメラが複数用意され、視点が時々切り替えられる。具体的には、演奏者の指の動きや表情を捉えるためのカメラ１、上方から全体を俯瞰するようなカメラ２、下方から観客席にいるかのような視点を得るためのカメラ３、そして遠方から会場全体を捉えるためのカメラ４、といった具合である。

図３１の上部には、各カメラからの映像信号をストリーム化した場合の一例を示している。時刻Ｔ０−Ｔ１がカメラ１からの映像信号ＳＣ１、時刻Ｔ１−Ｔ２がカメラ２からの映像信号ＳＣ２、時刻Ｔ２−Ｔ３がカメラ３からの映像信号ＳＣ３、時刻Ｔ３−Ｔ４がカメラ４からの映像信号ＳＣ４、最後にＴ４−Ｔ５までが再度カメラ１からの映像ＳＣ１となる例である。このカメラ切り替え操作により、会場全体の雰囲気や演奏者の表情といった細かい点を、視聴者に伝えることができ、視聴者は自宅にいながらピアノコンサートを楽しむことができる。

一方、音声を伝えるためのマイクロホン（以下、適宜、「マイク」という）は、通常1本のみ、ピアノのそばに置かれていることが殆どである。図３１の下部は、このマイクからの音声信号をストリーム化した一例を示している。具体的には、時刻Ｔ０−Ｔ５まで、すべてマイク１からの音声信号ＳＭ１が占める。

特開平９−３１２８３３号公報

マイクが１つしかない理由としてはコンテンツ制作者の都合により変わり得るが、例えば、以下の理由が考えられる。すなわち、ピアノの直近においたマイク１からは、ほぼピアノの音のみを収音できる。しかし、カメラ２、カメラ３、カメラ４は、観客席や放送スタッフのそばに設置される。そのため、対応するマイク２、マイク３、マイク４は、図３２に示すように、ピアノの音以外に、これら周囲からの騒音をよく収音してしまう。

具体的に問題を説明する。図３３の上部は、上述の図３１の上部と同じである。音声ストリームは、図３３の下部に示すように、時刻Ｔ０−Ｔ１がマイク１からの音声信号ＳＭ１、時刻Ｔ１−Ｔ２がマイク２からの音声信号ＳＭ２、時刻Ｔ２−Ｔ３がマイク３からの音声信号ＳＭ３、時刻Ｔ３−Ｔ４がマイク４から音声信号ＳＭ４、最後にＴ４−Ｔ５までが再度マイク１からの音声ＳＭ１となる。この際、マイク２では照明装置が稼動した音が入ってしまったり、マイク３では観客の誰かが咳払いをした音が入ってしまったり、マイク４ではカメラスタッフがクシャミをした音が入ってしまったりと、トラブルの懸念は尽きないことが容易に想像できる。

本技術の目的は、複数の撮像位置における音声信号を高品質に得ることにある。

本技術の概念は、
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
音響信号処理装置にある。

本技術において、選択信号取得部により、所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号が取得される。そして、音響信号生成部により、選択信号に応じて、所定の動画像の撮像位置における音響信号が生成される。この場合、環境中における音響収音位置において収音された音響信号と、所定の動画像の撮像位置と音響収音位置との相対位置に応じて決定された伝達関数に基づき、所定の動画像の撮像位置における音響信号が生成される。

例えば、音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える、ようにされてもよい。この場合、例えば、上述の選択信号取得部および音響信号生成部が送信側に配置され、エンコード部で得られる音響ストリームは受信側に送信される。

また、例えば、収音された音響信号が符号化されて得られた音響ストリームと、選択信号が示す所定の動画像の撮像位置に対応した伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、音響ストリームを復号化して音響信号を得る第１のデコード部と、効果ストリームを復号化して伝達関数を得る第２のデコード部とを有する、ようにされてもよい。この場合、例えば、上述の選択信号取得部および音響信号生成部が受信側に配置され、この受信側において、選択された所定の動画像の撮像位置における音響信号が生成される。

このように本技術においては、選択された所定の動画像の撮像位置における音響信号を、その撮像位置に配置されたマイクロホンで得るものではなく、音響収音位置で収音された音響信号と伝達関数に基づいて生成するものである。そのため、収音状態のよい音響信号をベースとして各撮像位置における音響信号を高品質に得ることができる。

なお、本技術において、例えば、音響信号生成部は、選択信号が示す所定の動画像の切り替えがあるとき、切り替え前の所定の動画像の撮像位置における音響信号および切り替え後の所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る、ようにされてもよい。この場合、つなぎ部分における不連続雑音の発生を防止できる。

また、本技術において、例えば、音響信号生成部は、選択信号に応じた伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える、ようにされてもよい。これにより、所定の撮像位置における音響信号のみを連続的に生成して出力することが可能となる。

また、本技術において、例えば、音響信号生成部は、生成された音響信号または収音された音響信号を選択的に出力する出力選択部をさらに備える、ようにされてもよい。これにより、収音された音響信号を連続して出力することも可能となる。

本技術によれば、複数の撮像位置における音声信号を高品質に得ることができる。

送受信システムの構成例を示すブロック図である。送受信システムを構成する送信装置の一部の構成例を示すブロック図である。収音例を示す図である。送信装置における音声系の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置の一部の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。送信装置が送信する映像ストリームおよび音声ストリームの一例を示す図である。第１の実施の形態としての送受信システムの構成例を示すブロック図である。送受信システムを構成する送信装置の一部の構成例を示すブロック図である。第１の実施の形態における収音例を示す図である。送信装置が送信する映像ストリームおよび音声ストリームの一例を示す図である。送信装置における音声系の動作の流れの一例を示すフローチャートである。送信装置の全体を概略的に表す図である。送受信システムを構成する受信装置の一部の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。第２の実施の形態としての送受信システムの構成例を示すブロック図である。送受信システムを構成する送信装置の一部の構成例を示すブロック図である。送信装置が送信する映像ストリーム、音声ストリームおよび効果ストリームの一例を示す図である。送信装置における音声系の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置の一部の構成例を示す図である。受信装置の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置の他の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置のさらに他の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置の別の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。送受信システムを構成する受信装置のさらに別の構成例を示すブロック図である。受信装置の動作の流れの一例を示すフローチャートである。コンテンツ（ピアノコンサートの中継）の一例を説明するための図である。映像ストリームおよび音声ストリームの一例を示す図である。ピアノコンサート中継のコンテンツの課題を説明するための図である。ピアノコンサート中継のコンテンツの課題を説明するための映像ストリームおよび音声ストリームの一例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．変形例

＜１．第１の実施の形態＞
［複数のマイクを使用する送受信システム］
最初に、複数の撮像位置に配置された複数のマイクを使用する送受信システムの構成例について説明する。図１は、送受信システム２００の構成例を示している。この送受信システム２００は、送信装置２１０および受信装置２３０が、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置２１０は放送局側で、受信装置２３０は家庭内のテレビ受信機が相当する。

図２は、送信装置２１０の一部の構成例を示している。送信装置２１０は、カメラ（カメラ１）２１１−１、カメラ（カメラ２）２１１−２、カメラ（カメラ３）２１１−３およびカメラ（カメラ４）２１１−４の４個のカメラと、セレクタ（ＳＬＶ）２１２と、ビデオエンコーダ２１３を有している。また、送信装置２１０は、マイク（マイク１）２１４−１、マイク（マイク２）２１４−２、マイク（マイク３）２１４−３およびマイク（マイク４）２１４−４の４個のマイクと、セレクタ（ＳＬＡ）２１５と、オーディオエンコーダ２１６と、マルチプレクサ（ＭＵＸ）２１７を有している。

カメラ２１１−１、カメラ２１１−２、カメラ２１１−３、カメラ２１１−４は、所定の環境中の、異なる撮像位置に配置されている。例えば、ピアノコンサートにおいて、カメラ（カメラ１）２１１−１は演奏者の指の動きや表情を捉えるためのカメラであり、カメラ（カメラ２）２１１−２は上方から全体を俯瞰するようなカメラであり、カメラ（カメラ３）２１１−３は下方から観客席にいるかのような視点を得るためのカメラであり、カメラ（カメラ４）２１１−４は遠方から会場全体を捉えるためのカメラである。

セレクタ２１２は、各カメラで画像Ｖ１，Ｖ２，Ｖ３，Ｖ４を撮像して得られた動画像の映像信号ＳＣ１，ＳＣ２，ＳＣ３，ＳＣ４から、カメラ切り替え信号ＣＸに応じて、所定の映像信号を選択的に取り出す。ビデオエンコーダ２１３は、セレクタ２１２で取り出された映像信号の符号化を行って映像ストリームＸを生成する。

マイク２１４−１、マイク２１４−２、マイク２１４−３、マイク２１４−４は、それぞれ、カメラ２１１−１、カメラ２１１−２、カメラ２１１−３、カメラ２１１−４と一体的、あるいはその近傍に配置され、その位置において収音を行う。図３は、マイク（マイク１）２１４−１、マイク（マイク２）２１４−２、マイク（マイク３）２１４−３、マイク（マイク４）２１４−４で実際に収音する場合の収音例を示している。

ピアノの間近に配置されたマイク２１４−１は、ピアノから出た音Ｓ１を収音して音声信号ＳＭ１を得る。マイク２１４−２は、マイク２１４−１から距離が離れているため、音Ｓ１が変化した音Ｓ２を収音して音声信号ＳＭ２を得る。同様に、マイク２１４−３においては音Ｓ３を収音して音声信号ＳＭ３を得、マイク２１４−４は音Ｓ４を収音して音声信号ＳＭ４を得る。

セレクタ２１５は、各マイクで得られた音声信号ＳＭ１，ＳＭ２，ＳＭ３，ＳＭ４から、カメラ切り替え信号ＣＸに応じて、上述したようにセレクタ２１２で取り出されている映像信号に対応した音声信号を選択的に取り出す。オーディオエンコーダ２１６は、セレクタ２１５で取り出された音声信号の符号化を行って音声ストリームＹを生成する。マルチプレクサ２１７は、映像ストリームＸおよび音声ストリームＹをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置２１０は、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。

図４のフローチャートは、上述の図２の送信装置２１０における音声系の動作の流れの一例を示している。まず、ステップＳＴ１において、処理が開始され、その後に、ステップＳＴ２において、各マイクが起動されて音声信号が得られる。そして、ステップＳＴ３において、各マイクからの音声信号がセレクタ（ＳＬＡ）２１５に伝送される。

次に、ステップＳＴ４において、カメラ切り替え信号ＣＸがセレクタ（ＳＬＡ）２１５で受け取られる。また、ステップＳＴ５において、セレクタ（ＳＬＡ）２１５で、セレクタ２（ＳＬＶ）２１２で切り替えられているカメラに対応するマイクからの音声信号が選択される。また、ステップＳＴ６において、選択された音声信号がオーディオエンコーダ２１６に出力される。そして、ステップＳＴ７において、オーディオエンコーダ２１６で音声信号の符号化が行われて音声ストリームＹが得られる。

上述のステップＳＴ４からステップＳＴ７までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ８において、処理が終了される。

図５は、受信装置２３０の一部の構成例を示している。受信装置２３０は、デマルチプレクサ（ＤＥＭＵＸ）２３１と、ビデオデコーダ２３２と、表示部２３３と、オーディオデコーダ２３４と、音声出力部２３５を有している。デマルチプレクサ２３１は、送信装置２１０から送られてくる多重化ストリームから、映像ストリームＸおよび音声ストリームＹをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。

ビデオデコーダ２３２は、デマルチプレクサ２３１で抽出された映像ストリームＸを復号化して映像信号を得る。表示部２３３は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ２３２で得られた映像信号による画像Ｃを表示する。また、オーディオデコーダ２３４は、デマルチプレクサ２３１で抽出された音声ストリームＹを復号化して音声信号を得る。音声出力部２３５は、例えばスピーカ、ヘッドホン等で構成され、オーディオデコーダ２３４で得られた音声信号による音声Ｓを出力する。

図６のフローチャートは、上述の図５の受信装置２３０の動作の流れの一例を示している。まず、ステップＳＴ１１において、処理が開始され、その後に、ステップＳＴ１２において、デマルチプレクサ２３１で抽出された映像ストリームＸがビデオデコーダ２３２で復号化されて映像信号が復元され、この映像信号は表示部２３３に伝送される。また、ステップＳＴ１３において、デマルチプレクサ２３１で抽出された音声ストリームＹがオーディオデコーダ２３４で復号化されて音声信号が復元され、この音声信号は音声出力部２３５に伝送される。

次に、ステップＳＴ１４において、表示部２３３および音声出力部２３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部２３３では映像信号による画像が表示され、音声出力部２３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ１２からステップＳＴ１４までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ１５において、処理が終了される。

この図１の送受信システム２００の場合、例えば、図３に示す収音例において、ピアノの直近においたマイク１ではほぼピアノの音のみを収音できる。しかし、カメラ２、カメラ３、カメラ４は、観客席や放送スタッフのそばに設置される。そのため、マイク２、マイク３、マイク４では、ピアノの音以外に、これら周囲からの騒音もよく収音されてしまう。

図７の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームＸの一例を示している。時刻Ｔ０−Ｔ１がカメラ１からの映像信号ＳＣ１、時刻Ｔ１−Ｔ２がカメラ２からの映像信号ＳＣ２、時刻Ｔ２−Ｔ３がカメラ３からの映像信号ＳＣ３、時刻Ｔ３−Ｔ４がカメラ４からの映像信号ＳＣ４、最後にＴ４−Ｔ５までが再度カメラ１からの映像信号ＳＣ１となる例である。

図７の下部には、上部に示す映像ストリームＸに対応した音声ストリームＹの一例を示している。時刻Ｔ０−Ｔ１がマイク１からの音声信号ＳＭ１、時刻Ｔ１−Ｔ２がマイク２からの音声ＳＭ２、時刻Ｔ２−Ｔ３がマイク３からの音声信号ＳＭ３、時刻Ｔ３−Ｔ４がマイク４から音声信号ＳＭ４、最後にＴ４−Ｔ５までが再度マイク１からの音声信号ＳＭ１となる。図示の例においては、マイク２ではピアノ音以外に照明装置が稼動した音も収音され、マイク３ではピアノ音以外に観客の誰かが咳払いをした音も収音され、マイク４ではピアノ音以外にカメラスタッフがクシャミをした音も収音されることが示されている。

［単一のマイクを使用する送受信システム］
図８は、第１の実施の形態としての送受信システム１００の構成例を示している。この送受信システム１００は、送信装置１１０および受信装置１３０が、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置１１０は放送局側で、受信装置１３０は家庭内のテレビ受信機が相当する。

図９は、送信装置１１０の一部の構成例を示している。送信装置１１０は、カメラ（カメラ１）１１１−１、カメラ（カメラ２）１１１−２、カメラ（カメラ３）１１１−３およびカメラ（カメラ４）１１１−４の４個のカメラと、セレクタ（ＳＬＶ）１１２と、ビデオエンコーダ１１３を有している。また、送信装置１１０は、マイク（マイク１）１１４−１と、フィルタ部（ＦＬ２）１１５−２、フィルタ部（ＦＬ３）１１５−３およびフィルタ部（ＦＬ４）１５−４の３個のフィルタ部を有している。また、送信装置１１０は、セレクタ（ＳＬＡ）１１６と、オーディオエンコーダ１１７と、マルチプレクサ（ＭＵＸ）１１８を有している。

カメラ１１１−１、カメラ１１１−２、カメラ１１１−３、カメラ１１１−４は、所定の環境中の、異なる撮像位置に配置されている。例えば、ピアノコンサートにおいて、カメラ（カメラ１）１１１−１は演奏者の指の動きや表情を捉えるためのカメラであり、カメラ（カメラ２）１１１−２は上方から全体を俯瞰するようなカメラであり、カメラ（カメラ３）１１１−３は下方から観客席にいるかのような視点を得るためのカメラであり、カメラ（カメラ４）１１１−４は遠方から会場全体を捉えるためのカメラである。

セレクタ１１２は、各カメラで画像Ｖ１，Ｖ２，Ｖ３，Ｖ４を撮像して得られた動画像の映像信号ＳＣ１，ＳＣ２，ＳＣ３，ＳＣ４から、カメラ切り替え信号ＣＸに応じて、所定の映像信号を選択的に取り出す。ビデオエンコーダ１１３は、セレクタ１１２で取り出された映像信号の符号化を行って映像ストリームＸを生成する。

マイク（マイク１）１１４−１は、カメラ（カメラ１）１１１−１と一体的、あるいはその近傍に配置され、その位置（収音位置）において収音を行う。図１０は、マイク（マイク１）１１４−１で実際に収音する場合の収音例を示している。ここで、Ｐ１はカメラ１の撮像位置を示し、Ｐ２はカメラ２の撮像位置を示し、Ｐ３は、カメラ３の撮像位置を示し、Ｐ４はカメラ４の撮像位置を示している。

ピアノの間近に配置されたマイク（マイク１）１１４−１は、ピアノから出た音Ｓ１を収音して音声信号ＳＭ１を得る。なお、カメラ２、カメラ３、カメラ３に対応した位置にマイクは配置されておらず、それぞれの位置における音は収音されない。

フィルタ部（ＦＬ２）１１５−２は、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１に、このマイク（マイク１）１１４−１の配置位置からカメラ（カメラ２）１１１−２の配置位置あるいはその近傍位置への伝達関数ＴＦ１２を畳み込み、カメラ（カメラ２）１１１−２の配置位置における音声信号ＳＭ２ｖを生成する。この伝達関数ＴＦ１２は、予め、測定されている。

また、フィルタ部（ＦＬ３）１１５−３は、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１に、このマイク（マイク１）１１４−１の配置位置からカメラ（カメラ３）１１１−３の配置位置あるいはその近傍位置への伝達関数ＴＦ１３を畳み込み、カメラ（カメラ３）１１１−３の配置位置における音声信号ＳＭ３ｖを生成する。この伝達関数ＴＦ１３は、予め、測定されている。

また、フィルタ部（ＦＬ４）１１５−４は、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１に、このマイク（マイク１）１１４−１の配置位置からカメラ（カメラ４）１１１−４の配置位置あるいはその近傍位置への伝達関数ＴＦ１４を畳み込み、カメラ（カメラ４）１１１−４の配置位置における音声信号ＳＭ４ｖを生成する。この伝達関数ＴＦ１４は、予め、測定されている。

ここで、伝達関数とは、ある特定の位置から発せられた音が別の特定の位置ではどのように変化するかを示すものである。例えば、あるＡ点で観測された音をＳＡとし、このＳＡがＢ点でどのように観測されるかを示すものである。Ａ点に到達・観測される音をＳＡとし、Ａ点からＢ点への伝達関数をＴＦとすると、Ｂ点での音ＳＢは、以下の（１）式のように表される。
ＳＢ＝ＳＡ＊ＴＦ・・・（１）

この（１）式において、「＊」は畳み込み演算を表している。時間軸で表される伝達関数はインパルスレスポンスとも呼ばれる。この実施の形態では、以下、特に説明がなければ、伝達関数といえばこのインパルスレスポンスのことを示すものとする。なお、伝達関数の測定方法、特にインパルスレスポンスの測定方法については、詳細説明は省略するが、ＴＳＰ（Time Stretched Pulse）法などを始めとする周知の方法で行うことができる。

セレクタ１１６は、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１、フィルタ部１１５−２，１１５−３，１１５−４で得られた音声信号ＳＭ２ｖ，ＳＭ３ｖ，ＳＭ４ｖから、カメラ切り替え信号ＣＸに応じて、上述したようにセレクタ１１２で取り出されている映像信号に対応した音声信号を選択的に取り出す。オーディオエンコーダ１１７は、セレクタ１１６で取り出された音声信号の符号化を行って音声ストリームＹを生成する。マルチプレクサ１１８は、映像ストリームＸおよび音声ストリームＹをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置１１０は、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。

図１１の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームＸの一例を示している。時刻Ｔ０−Ｔ１がカメラ１からの映像信号ＳＣ１、時刻Ｔ１−Ｔ２がカメラ２からの映像信号ＳＣ２、時刻Ｔ２−Ｔ３がカメラ３からの映像信号ＳＣ３、時刻Ｔ３−Ｔ４がカメラ４からの映像信号ＳＣ４、最後にＴ４−Ｔ５までが再度カメラ１からの映像信号ＳＣ１となる例である。

図１１の下部には、上部に示す映像ストリームＸに対応した音声ストリームＹの一例を示している。時刻Ｔ０−Ｔ１がマイク（マイク１）１１４−１からの音声信号ＳＭ１、時刻Ｔ１−Ｔ２がフィルタ部１１５−２からの音声信号ＳＭ２ｖ、時刻Ｔ２−Ｔ３がフィルタ部１１５−３からの音声信号ＳＭ３ｖ、時刻Ｔ３−Ｔ４がフィルタ部１１５−４からの音声信号ＳＭ４ｖ、最後にＴ４−Ｔ５までが再度マイク（マイク１）１１４−１からの音声信号ＳＭ１となる。

図１２のフローチャートは、上述の図９の送信装置１１０における音声系の動作の流れの一例を示している。まず、ステップＳＴ２１において、処理が開始され、その後に、ステップＳＴ２２において、マイク１が起動されて音声信号ＳＭ１が得られる。そして、ステップＳＴ２３において、マイク１からの音声信号ＳＭ１がセレクタ（ＳＬＡ）１１６に伝送される。

次に、ステップＳＴ２４において、音声信号ＳＭ１が分岐されて、各フィルタ部に、伝送される。そして、ステップＳＴ２５において、フィルタ部（ＦＬ２）１１５−２では、音声信号ＳＭ１に伝達関数ＴＦ１２が畳み込まれ、カメラ２の撮像位置における音声信号ＳＭ２ｖが得られる。また、このステップＳＴ２５において、フィルタ部（ＦＬ３）１１５−３では、音声信号ＳＭ１に伝達関数ＴＦ１３が畳み込まれ、カメラ３の撮像位置における音声信号ＳＭ３ｖが得られる。さらに、このステップＳＴ２５において、フィルタ部（ＦＬ４）１１５−４では、音声信号ＳＭ１に伝達関数ＴＦ１４が畳み込まれ、カメラ４の撮像位置における音声信号ＳＭ４ｖが得られる。そして、ステップＳＴ２６において、各フィルタ部からの音声信号ＳＭ２ｖ，ＳＭ３ｖ，ＳＭ４ｖがセレクタ（ＳＬＡ）１１６に伝送される。

次に、ステップＳＴ２７において、カメラ切り替え信号ＣＸがセレクタ（ＦＬＡ）１１６で受け取られる。また、ステップＳＴ２８において、セレクタ（ＦＬＡ）１１６で、セレクタ（ＳＬＶ）１１２で切り替えられているカメラに対応する音声信号が選択される。また、ステップＳＴ２９において、選択された音声信号がオーディオエンコーダ１１７に出力される。そして、ステップＳＴ３０において、オーディオエンコーダ１１７で音声信号の符号化が行われて音声ストリームＹが得られる。

上述のステップＳＴ２７からステップＳＴ３０までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ３１において、処理が終了される。

図１３は、上述の送信装置１１０の全体を概略的に表している。この場合、カメラ２、カメラ３、カメラ４の撮像位置における音声信号ＳＭ２ｖ，ＳＭ３ｖ，ＳＭ４ｖは、その撮像位置に配置されたマイクロホンで得られたものではない。これらの音声信号は、カメラ１の撮像位置に配置されたマイク１で得られた音声信号ＳＭ１から、フィルタ部ＦＬ２，ＦＬ３，ＦＬ４でそれぞれ伝達関数を用いて算出されて得られたものとなる。

図１４は、受信装置１３０の一部の構成例を示している。受信装置１３０は、デマルチプレクサ（ＤＥＭＵＸ）１３１と、ビデオデコーダ１３２と、表示部１３３と、オーディオデコーダ１３４と、音声出力部１３５を有している。デマルチプレクサ１３１は、送信装置１１０から送られてくる多重化ストリームから、映像ストリームＸおよび音声ストリームＹをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。

ビデオデコーダ１３２は、デマルチプレクサ１３１で抽出された映像ストリームＸを復号化して映像信号を得る。表示部１３３は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ１３２で得られた映像信号による画像Ｃを表示する。また、オーディオデコーダ１３４は、デマルチプレクサ１３１で抽出された音声ストリームＹを復号化して音声信号を得る。音声出力部１３５は、例えばスピーカ、ヘッドホン等で構成され、オーディオデコーダ１３４で得られた音声信号による音声Ｓを出力する。

図１５のフローチャートは、上述の図１４の受信装置１３０の動作の流れの一例を示している。まず、ステップＳＴ４１において、処理が開始され、その後に、ステップＳＴ４２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ４３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号が復元され、この音声信号は音声出力部１３５に伝送される。

次に、ステップＳＴ４４において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ４２からステップＳＴ４４までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ４５において、処理が終了される。

上述したように、図１に示す送受信システム１００においては、送信装置１１０から受信装置１２０には、カメラ切り替えに対応して各撮像位置における音声信号が切り替えられて送信される。この場合、カメラ２、カメラ３、カメラ４の撮像位置における音声信号は、その撮像位置に配置されたマイクロホンで得られたものではなく、カメラ１の撮像位置に配置されたマイク１で得られた音声信号ＳＭ１から伝達関数を用いて算出されて得られたものである。この場合、各音声信号は、収音状態のよい音声信号ＳＭ１をベースとしていることから、高品質なものとなる。従って、受信装置１３０では、各撮像装置における複数の撮像位置における高品質な音声信号を視聴者に提供できる。

＜２．第２の実施の形態＞
［単一のマイクを使用する送受信システム］
図１６は、第２の実施の形態としての送受信システム１００Ａの構成例を示している。この送受信システム１００Ａは、送信装置１１０Ａおよび受信装置１３０Ａが、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置１１０Ａは放送局側で、受信装置１３０Ａは家庭内のテレビ受信機が相当する。

図１７は、送信装置１１０Ａの一部の構成例を示している。この図１７において、図９と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。送信装置１１０Ａは、カメラ（カメラ１）１１１−１、カメラ（カメラ２）１１１−２、カメラ（カメラ３）１１１−３およびカメラ（カメラ４）１１１−４の４個のカメラと、セレクタ（ＳＬＶ）１１２と、ビデオエンコーダ１１３を有している。また、送信装置１１０Ａは、マイク（マイク１）１１４−１と、オーディオエンコーダ１１７と、効果エンコーダ１１９と、マルチプレクサ（ＭＵＸ）１２０を有している。

マイク（マイク１）１１４−１は、カメラ（カメラ１）１１１−１と一体的、あるいはその近傍に配置され、その位置（収音位置）において収音を行う。マイク（マイク１）１１４−１は、ピアノから出た音Ｓ１を収音して音声信号ＳＭ１を得る（図１０参照）。オーディオエンコーダ１１７は、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１の符号化を行って音声ストリームＹを生成する。

効果エンコーダ１１９は、伝達関数ＴＦの符号化を行って効果ストリームＺを生成する。この場合、伝達関数ＴＦは、カメラ切り替え信号ＣＸに応じて切り替えられたものとなる。すなわち、カメラ切り替え信号ＣＸがカメラ（カメラ１）１１１−１を選択する状態にあるとき、この伝達関数ＴＦは１となる。また、カメラ切り替え信号ＣＸがカメラ（カメラ２）１１１−２を選択する状態にあるとき、この伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ２）１１１−２の配置位置あるいはその近傍位置への伝達関数ＴＦ１２となる（図１０参照）。

また、カメラ切り替え信号ＣＸがカメラ（カメラ３）１１１−３を選択する状態にあるとき、この伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ３）１１１−３の配置位置あるいはその近傍位置への伝達関数ＴＦ１３となる（図１０参照）。また、カメラ切り替え信号ＣＸがカメラ（カメラ４）１１１−４を選択する状態にあるとき、この伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ４）１１１−４の配置位置あるいはその近傍位置への伝達関数ＴＦ１４となる（図１０参照）。

マルチプレクサ１２０は、映像ストリームＸ、音声ストリームＹおよび効果ストリームＺをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置１１０Ａは、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。

図１８の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームＸの一例を示している。時刻Ｔ０−Ｔ１がカメラ１からの映像ＳＣ１、時刻Ｔ１−Ｔ２がカメラ２からの映像信号ＳＣ２、時刻Ｔ２−Ｔ３がカメラ３からの映像信号ＳＣ３、時刻Ｔ３−Ｔ４がカメラ４からの映像信号ＳＣ４、最後にＴ４−Ｔ５までが再度カメラ１からの映像信号ＳＣ１となる例である。図１８の中部には、音声ストリームＹを示しており、時刻Ｔ０−Ｔ５まで、すべてマイク１からの音声信号ＳＭ１が占めている。

図１８の下部には、上部に示す映像ストリームＸに対応した効果ストリームＺの一例を示している。時刻Ｔ０−Ｔ１がカメラ１の位置で収音しているとする効果情報ＥＦ１、時刻Ｔ１−Ｔ２がカメラ２で収音しているとする効果情報ＥＦ２、時刻Ｔ２−Ｔ３がカメラ３の位置で収音しているとする効果情報ＥＦ３となる。また、時刻Ｔ３−Ｔ４がカメラ４の位置で収音しているとする効果情報ＥＦ４、最後にＴ４−Ｔ５までが再度カメラ１の位置で収音しているとする効果情報ＥＦ１となる。ここで、効果情報には伝達関数が含まれるが、カメラ選択信号ＣＸがさらに含まれていてもよい。

図１９のフローチャートは、上述の図１７の送信装置１１０Ａにおける音声系の動作の流れの一例を示している。まず、ステップＳＴ５１において、処理が開始され、その後に、ステップＳＴ５２において、マイク１が起動されて音声信号ＳＭ１が得られる。そして、ステップＳＴ５３において、マイク１からの音声信号ＳＭ１がオーディオエンコーダ１１７で符号化されて音声ストリームＹが得られる。

次に、ステップＳＴ５４において、カメラ切り替え信号ＣＸが効果エンコーダ１１９で受け取られる。そして、ステップＳＴ５５において、効果エンコーダ１１９で、切り替え信号ＣＸに対応する伝達関数が符号化されて効果ストリームＺが得られる。

次に、ステップＳＴ５６において、マルチプレクサ１２０で、映像ストリームＸおよび音声ストリームＹと共に、効果ストリームＺがパケット化されて多重化され、多重化ストリームが送信側に送信される。上述のステップＳＴ５４からステップＳＴ５６までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ５７において、処理が終了される。

図２０は、受信装置１３０Ａの一部の構成例を示している。この図２０において、図１４と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。受信装置１３０Ａは、デマルチプレクサ（ＤＥＭＵＸ）１３１と、ビデオデコーダ１３２と、表示部１３３と、オーディオデコーダ１３４と、効果デコーダ１３６と、フィルタ部１３７と、音声出力部１３５を有している。

デマルチプレクサ１３１は、送信装置１１０から送られてくる多重化ストリームから、映像ストリームＸ、音声ストリームＹおよび効果ストリームＺをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。ビデオデコーダ１３２は、デマルチプレクサ１３１で抽出された映像ストリームＸを復号化して映像信号を得る。表示部１３３は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ１３２で得られた映像信号による画像Ｃを表示する。

オーディオデコーダ１３４は、デマルチプレクサ１３１で抽出された音声ストリームＹを復号化して音声信号ＳＭ１を得る。効果デコーダ１３６は、デマルチプレクサ１３１で抽出された効果ストリームＺを復号化して伝達関数ＴＦを得る。この場合、ビデオデコーダ１３２からカメラ１の撮像に係る映像信号ＳＣ１が出力されるとき、伝達関数ＴＦは１となる。また、ビデオデコーダ１３２からカメラ２の撮像に係る映像信号ＳＣ２が出力されるとき、伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ２）１１１−２の配置位置あるいはその近傍位置への伝達関数ＴＦ１２となる。

また、ビデオデコーダ１３２からカメラ３の撮像に係る映像信号ＳＣ３が出力されるとき、伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ３）１１１−３の配置位置あるいはその近傍位置への伝達関数ＴＦ１３となる。また、ビデオデコーダ１３２からカメラ４の撮像に係る映像信号ＳＣ４が出力されるとき、伝達関数ＴＦは、マイク（マイク１）１１４−１の配置位置からカメラ（カメラ４）１１１−４の配置位置あるいはその近傍位置への伝達関数ＴＦ１４となる。

フィルタ部１３７は、オーディオデコーダ１３４で得られた音声信号ＳＭ１に、効果デコーダ１３６で得られた伝達関数ＴＦを畳み込み、音声信号ＳＭを得る。この音声信号ＳＭは、ビデオデコーダ１３２からカメラ１の撮像に係る映像信号ＳＣ１が出力されるとき、ＴＦ＝１となることから、マイク（マイク１）１１４−１で得られた音声信号ＳＭ１となる。また、この音声信号ＳＭは、ビデオデコーダ１３２からカメラ２の撮像に係る映像信号ＳＣ２が出力されるとき、ＴＦ＝ＴＦ１２となることから、カメラ（カメラ２）１１１−２の配置位置における音声信号ＳＭ２ｖとなる。

また、この音声信号ＳＭは、ビデオデコーダ１３２からカメラ３の撮像に係る映像信号ＳＣ３が出力されるとき、ＴＦ＝ＴＦ１３となることから、カメラ（カメラ３）１１１−３の配置位置における音声信号ＳＭ３ｖとなる。また、この音声信号ＳＭは、ビデオデコーダ１３２からカメラ４の撮像に係る映像信号ＳＣ４が出力されるとき、ＴＦ＝ＴＦ１４となることから、カメラ（カメラ４）１１１−４の配置位置における音声信号ＳＭ４ｖとなる。

音声出力部１３５は、例えばスピーカ、ヘッドホン等で構成され、フィルタ部１３７で得られた音声信号による音声Ｓを出力する。

図２１のフローチャートは、上述の図２０の受信装置１３０Ａの動作の流れの一例を示している。まず、ステップＳＴ６１において、処理が開始される。その後に、ステップＳＴ６２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ６３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号ＳＭ１が復元され、この音声信号はフィルタ部（ＦＬ）１３７に伝送される。

次に、ステップＳＴ６４において、デマルチプレクサ１３１で抽出された効果ストリームＺが効果デコーダ１３６で復号化されて伝達関数ＴＦが復元され、この伝達関数ＴＦはフィルタ部（ＦＬ）１３７に伝送される。そして、ステップＳＴ６５において、フィルタ部１３７で音声信号ＳＭ１に伝達関数ＴＦが畳み込まれて、カメラ切り替え（映像信号切り替え）に対応した音声信号ＳＭが得られ、音声出力部１３５に伝送される。

次に、ステップＳＴ６６において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ６２からステップＳＴ６６までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ６７において、処理が終了される。

上述したように、図１６に示す送受信システム１００Ａにおいては、送信装置１１０Ａから受信装置１３０Ａには、カメラ１の撮像位置に配置されたマイク１で得られた音声信号ＳＭ１と共に、カメラ切り替えに対応して各撮像位置における伝達関数が切り替えられて送信される。そして、受信装置１３０Ａでは、音声信号ＳＭ１と伝達関数の畳み込み演算により、カメラ切り替えに対応した各撮像位置における音声信号が得られる。

この場合、カメラ２、カメラ３、カメラ４の撮像位置における音声信号は、その撮像位置に配置されたマイクロホンで得られたものではなく、カメラ１の撮像位置に配置されたマイク１で得られた音声信号ＳＭ１から伝達関数を用いて算出されて得られたものである。この場合、各音声信号は、収音状態のよい音声信号ＳＭ１をベースとしていることから、高品質なものとなる。従って、受信装置１３０Ａでは、各撮像装置における複数の撮像位置における高品質な音声信号を視聴者に提供できる。

＜３．変形例＞
「変形例１」
なお、上述の図２０に示す受信装置１３０Ａにおいては、フィルタ部１３７から出力される音声信号は伝達関数の切り替え時に不連続となり、不連続雑音が発生するおそれがある。図２２は、この不連続雑音の発生を防止するようにした、受信装置１３０Ａ−２の構成例を示している。この図２２において、図２０と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。

受信装置１３０Ａ−２は、デマルチプレクサ（ＤＥＭＵＸ）１３１と、ビデオデコーダ１３２と、表示部１３３と、オーディオデコーダ１３４と、効果デコーダ１３６と、フィルタ部（ＦＬＡ）１３７Ａと、フィルタ部（ＦＬＢ）１３７Ｂと、制御部１４１と、クロスフェード部（ＣＦ）１４２と、音声出力部１３５を有している。

フィルタ部１３７Ａ，１３７Ｂは、オーディオデコーダ１３４で得られた音声信号ＳＭ１に、効果デコーダ１３６で得られた伝達関数ＴＦを畳み込み、音声信号ＳＭＡ，ＳＭＢを得る。制御部１４１は、効果デコーダ１３６で得られる伝達関数ＴＦが切り替えられる毎に、切り替え後の伝達関数をフィルタ部１３７Ａに設定し、切り替え前の伝達関数をフィルタ部１３７Ｂに設定する。

クロスフェード部１４２は、ゲイン調整部（ＣＡ）１４３Ａ、ゲイン調整部（ＣＢ）１４３Ｂおよび加算部（ＡＤＤ）部１４４を有している。ゲイン調整部１４３Ａはフィルタ部１３７Ａで得られる音声信号ＳＭＡの係数（ゲイン）Ａを調整する。このゲイン調整部１４３Ａは、設定される伝達関数の更新時点から、その係数Ａを０．０から徐々に１．０に変化させる。一方、ゲイン調整部１４３Ｂはフィルタ部１３７Ｂで得られる音声信号ＳＭＢの係数（ゲイン）Ｂを調整する。このゲイン調整部１４３Ｂは、設定される伝達関数の更新時点から、その係数Ｂを１．０から徐々に０．０に変化させる。この際、Ａ＋Ｂ＝１．０とされる。

加算部１４４は、ゲイン調整部１４３Ａでゲイン調整された音声信号とゲイン調整部１４３Ｂでゲイン調整された音声信号を加算して、音声信号ＳＭとする。音声出力部１３５は、クロスフェード部１４４で得られる音声信号ＳＭによる音声Ｓを出力する。詳細説明は省略するが、この図２２に示す受信装置１３０Ａ−２のその他は、図２０に示す受信装置１３０Ａと同様に構成される。

図２３のフローチャートは、上述の図２２の受信装置１３０Ａ−２の動作の流れの一例を示している。まず、ステップＳＴ７１において、処理が開始される。その後に、ステップＳＴ７２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ７３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号ＳＭ１が復元され、この音声信号ＳＭ１はフィルタ部（ＦＬＡ）１３７Ａおよびフィルタ部（ＦＬＢ）１３７Ｂに伝送される。

次に、ステップＳＴ７４において、デマルチプレクサ１３１で抽出された効果ストリームＺが効果デコーダ１３６で復号化されて伝達関数ＴＦが復元され、この伝達関数ＴＦは制御部（ＣＴ）１４１に伝送される。そして、ステップＳＴ７５において、制御部１４１で、伝達関数ＴＦが変化したか判断される。

伝達関数が変化したとき、ステップＳＴ７６において、フィルタ部（ＦＬＡ）１３７Ｂにフィルタ部（ＦＬＡ）１３７Ａの伝達関数が移動され、フィルタ部（ＦＬＡ）１３７Ａに新しい伝達関数が伝送される。そして、ステップＳＴ７７において、フィルタ部１３７Ａ，１３７Ｂのそれぞれで、音声信号ＳＭ１に伝達関数が畳み込まれ、クロスフェード部（ＣＦ）１４２でクロスフェード処理が行われる。

次に、ステップＳＴ７８において、フィルタ部（ＦＬＢ）１３７Ｂの処理が止められる。このステップＳＴ７８の後に、ステップＳＴ７９の処理が行われる。上述のステップＳＴ７５で伝達関数が変化しないときも、ステップＳＴ７９の処理が行われる。このステップＳＴ７９において、フィルタ部（ＦＬＡ）１３７Ａだけで畳み込み演算の処理が続けられる。

次に、ステップＳＴ８０において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ７２からステップＳＴ８０までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ８１において、処理が終了される。

上述したように、図２２に示す受信装置１３０Ａ−２においては、伝達信号ＴＦに変化があるときは、クロスフェード部１４２でクロスフェードの処理が行われて、音声信号ＳＭが、切り替え前の伝達関数による音声信号ＳＭＢから切り替え後の伝達関数による音声信号ＳＭＡに徐々に変更されていく。そのため、不連続雑音の発生を防止することができる。なお、このようなクロスフェード処理を、上述の図９に示す送信装置１１０のセレクタ１１２で選択された音声信号に適用することも考えられ、同様に、不連続雑音の発生を防止することができる。

「変形例２」
また、上述の図２０に示す受信装置１３０Ａにおいては、フィルタ部１３７からはカメラ切り替えに対応して各撮像位置における音声信号が順次出力される。しかし、フィルタ部１３７から出力される音声信号を所定のカメラ位置に任意に固定可能とすることも考えられる。図２４は、その場合における受信装置１３０Ａ−３の構成例を示している。この図２４において、図２０と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。

受信装置１３０Ａ−３は、デマルチプレクサ（ＤＥＭＵＸ）１３１と、ビデオデコーダ１３２と、表示部１３３と、オーディオデコーダ１３４と、効果デコーダ１３６と、フィルタ部（ＦＬ）１３７と、制御部（ＣＰＵ）１４６と、スイッチ部（ＳＷ）１４５と、音声出力部１３５を有している。

スイッチ部（ＳＷ）１４５は、効果デコーダ１３６で得られた伝達関数ＴＦをフィルタ部（ＦＬ）１３７に伝送する。制御部１４６は、ユーザ操作に応じて、スイッチ部１４６のオンオフを制御する。フィルタ部（ＦＬ）１３７は、伝送されてくる伝達関数ＴＦに変化があるとき、オーディオデコーダ１３４で得られた音声信号ＳＭ１に畳み込む伝達関数の更新を行う。

つまり、フィルタ部（ＦＬ）１３７において、伝送されてくる伝達関数ＴＦに変化がないときは、オーディオデコーダ１３４で得られた音声信号ＳＭ１に畳み込む伝達関数は同一のものが継続される。従って、スイッチ部１４５がオンからオフとされることで、フィルタ部（ＦＬ）１３７ではそのタイミングで設定されている伝達関数ＴＦが使用され続ける状態となり、フィルタ部１３７から出力される音声信号は所定のカメラ位置における音声信号に固定される。

また、この状態から、スイッチ部１４５がオフからオンとされることで、再度、フィルタ部１３７からカメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態となる。この図２４に示す受信装置１３０Ａ−３のその他は、図２０に示す受信装置１３０Ａと同様に構成される。

図２５のフローチャートは、上述の図２４の受信装置１３０Ａ−３の動作の流れの一例を示している。まず、ステップＳＴ９１において、処理が開始される。その後に、ステップＳＴ９２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ９３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号ＳＭ１が復元され、この音声信号ＳＭ１はフィルタ部（ＦＬ）１３７に伝送される。

次に、ステップＳＴ９４において、デマルチプレクサ１３１で抽出された効果ストリームＺが効果デコーダ１３６で復号化されて伝達関数ＴＦが復元され、この伝達関数ＴＦはスイッチ部１４５に伝送される。そして、ステップＳＴ９５において、フィルタ部１３７に伝達関数ＴＦを伝送するか否かが判断される。伝送するときは、ステップＳＴ９６において、スイッチ部１４５がオンとされて、伝達関数ＴＦがフィルタ部１３７に伝送される。これにより、伝達関数ＴＦに変化があるとき、フィルタ部１３７における伝達関数は更新される。

ステップＳＴ９６の処理の後、ステップＳＴ９７の処理が行われる。上述のステップＳＴ９５で伝送しないとき、直ちに、ステップＳＴ９７の処理が行われる。このステップＳＴ９７において、フィルタ部１３７で音声信号ＳＭ１に伝達関数が畳み込まれる。そして、ステップＳＴ９８において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ９２からステップＳＴ９８までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ９９において、処理が終了される。

上述したように、図２４に示す受信装置１３０Ａ−３においては、スイッチ部１４５により、効果デコーダ１３６で得られる伝達関数ＴＦをフィルタ部１３７に伝送するか否かが制御される。そのため、カメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態と、所定のカメラ位置における音声信号を続けて出力される状態とを、任意に切り替えることができる。

「変形例３」
また、上述の図２２の受信装置１３０Ａ−２および図２４の受信装置１３０−３の機能を合わせ持つことも考えられる。図２６は、その場合における受信装置１３０−４の構成例を示している。この図２６において、図２２、図２４と対応する部分には同一符号を付し、その詳細説明は省略する。

図２７のフローチャートは、上述の図２６の受信装置１３０Ａ−４の動作の流れの一例を示している。まず、ステップＳＴ１０１において、処理が開始される。その後に、ステップＳＴ１０２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ１０３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号ＳＭ１が復元され、この音声信号ＳＭ１はフィルタ部（ＦＬＡ）１３７Ａおよびフィルタ部（ＦＬＢ）１３７Ｂに伝送される。

次に、ステップＳＴ１０４において、デマルチプレクサ１３１で抽出された効果ストリームＺが効果デコーダ１３６で復号化されて伝達関数ＴＦが復元され、この伝達関数ＴＦはスイッチ部１４５に伝送される。そして、ステップＳＴ１０５において、フィルタ部１３７に伝達関数ＴＦを伝送するか否かが判断される。伝送するときは、ステップＳＴ１０６において、スイッチ部１４５がオンとされて、伝達関数ＴＦが制御部（ＣＴ）１４１に伝送される。これにより、伝達関数ＴＦに変化があるとき、制御部（ＣＴ）１４１を介してフィルタ部１３７Ａ，１３７Ｂにおける伝達関数の更新が可能となる。

ステップＳＴ１０６の処理の後、ステップＳＴ１０７の処理が行われる。上述のステップＳＴ１０５で伝送しないとき、直ちに、ステップＳＴ１０７の処理が行われる。このステップＳＴ１０７において、制御部１４１で、伝達関数ＴＦが変化したか判断される。

伝達関数が変化したとき、ステップＳＴ１０８において、フィルタ部（ＦＬＡ）１３７Ｂにフィルタ部（ＦＬＡ）１３７Ａの伝達関数が移動され、フィルタ部（ＦＬＡ）１３７Ａに新しい伝達関数が伝送される。そして、ステップＳＴ１０９において、フィルタ部１３７Ａ，１３７Ｂのそれぞれで、音声信号ＳＭ１に伝達関数が畳み込まれ、クロスフェード部（ＣＦ）１４２でクロスフェード処理が行われる。

次に、ステップＳＴ１１０において、フィルタ部（ＦＬＢ）１３７Ｂの処理が止められる。このステップＳＴ７１０８の後に、ステップＳＴ１１１の処理が行われる。上述のステップＳＴ１０７で伝達関数が変化しないときも、ステップＳＴ１１１の処理が行われる。このステップＳＴ１１１において、フィルタ部（ＦＬＡ）１３７Ａだけで畳み込み演算の処理が続けられる。

次に、ステップＳＴ１１２において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ１０２からステップＳＴ１１２までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ１１３において、処理が終了される。

上述したように、図２６に示す受信装置１３０Ａ−４においては、上述の図２２に示す受信装置１３０Ａ−２と同様に、不連続雑音の発生を防止することができ、さらに、上述の図２４に示す受信装置１３０Ａ−３と同様に、カメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態と、所定のカメラ位置における音声信号を続けて出力される状態とを、任意に切り替えることができる。

「変形例４」
また、上述の図２０に示す受信装置１３０Ａにおいては、フィルタ部１３７からはカメラ切り替えに対応して各撮像位置における音声信号が順次出力される。オーディオデコーダ１３４で得られる音声信号ＳＭ１と、フィルタ部１３７で得られる音声信号ＳＭとをユーザが任意に切り替え可能とすることも考えられる。図２８は、その場合における受信装置１３０Ａ−５の構成例を示している。この図２８において、図２０と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。

受信装置１３０Ａ−５は、デマルチプレクサ（ＤＥＭＵＸ）１３１と、ビデオデコーダ１３２と、表示部１３３と、オーディオデコーダ１３４と、効果デコーダ１３６と、フィルタ部（ＦＬ）１３７と、スイッチ部（ＳＷ）１４７と、制御部（ＣＰＵ）１４８と、音声出力部１３５を有している。

スイッチ部（ＳＷ）１４７は、オーディオデコーダ１３４で得られる音声信号ＳＭ１と、フィルタ部１３７で得られる音声信号ＳＭとを選択的に取り出して、音声出力部１３５に伝送する。制御部１４８は、ユーザ操作に応じて、スイッチ部１４７の選択を制御する。この図２８に示す受信装置１３０Ａ−５のその他は、図２０に示す受信装置１３０Ａと同様に構成される。

図２９のフローチャートは、上述の図２８の受信装置１３０Ａ−５の動作の流れの一例を示している。まず、ステップＳＴ１２１において、処理が開始される。その後に、ステップＳＴ１２２において、デマルチプレクサ１３１で抽出された映像ストリームＸがビデオデコーダ１３２で復号化されて映像信号が復元され、この映像信号は表示部１３３に伝送される。また、ステップＳＴ１２３において、デマルチプレクサ１３１で抽出された音声ストリームＹがオーディオデコーダ１３４で復号化されて音声信号ＳＭ１が復元され、この音声信号はフィルタ部（ＦＬ）１３７に伝送される。

次に、ステップＳＴ１２４において、デマルチプレクサ１３１で抽出された効果ストリームＺが効果デコーダ１３６で復号化されて伝達関数ＴＦが復元され、この伝達関数ＴＦはフィルタ部（ＦＬ）１３７に伝送される。そして、ステップＳＴ１２５において、フィルタ部１３７で音声信号ＳＭ１に伝達関数ＴＦが畳み込まれて、カメラ切り替え（映像信号切り替え）に対応した音声信号ＳＭが得られる。

次に、ステップＳＴ１２６において、オーディオデコーダ１３４からの音声信号ＳＭ１が選択されているか、フィルタ部１３７からの音声信号ＳＭが選択されているかが判断される。音声信号ＳＭ１が選択されているとき、ステップＳＴ１２７において、スイッチ部１４７で音声信号ＳＭ１が選択されて音声出力部１３５に伝送される。一方、音声信号ＳＭが選択されているとき、ステップＳＴ１２８において、スイッチ部１４７で音声信号ＳＭが選択されて音声出力部１３５に伝送される。

次に、ステップＳＴ１２９において、表示部１３３および音声出力部１３５では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部１３３では映像信号による画像が表示され、音声出力部１３５では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームＸおよび音声ストリームＹに挿入される表示タイムスタンプ（ＰＴＳ）等を利用することで達成される。

上述のステップＳＴ１２２からステップＳＴ１２６までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップＳＴ１３０において、処理が終了される。

上述したように、図２８に示す受信装置１３０Ａ−５においては、スイッチ部１４７により、オーディオデコーダ１３４で得られる音声信号ＳＭ１と、フィルタ部１３７で得られる音声信号ＳＭとが選択的に取り出されて音声出力部１３５に伝送される。つまり、ユーザは、音声信号ＳＭ１と音声信号ＳＭとをユーザが任意に切り替えることができる。

また、本技術は、以下のような構成をとることもできる。
（１）所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
音響信号処理装置。
（２）上記音響信号生成部は、
上記選択信号が示す上記所定の動画像の切り替えがあるとき、切り替え前の上記所定の動画像の撮像位置における音響信号および切り替え後の上記所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る
前記（１）に記載の音響信号処理装置。
（３）上記音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える
前記（１）または（２）に記載の音響信号処理装置。
（４）上記収音された音響信号が符号化されて得られた音響ストリームと、上記選択信号が示す上記所定の動画像の撮像位置に対応した上記伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、
上記音響ストリームを復号化して上記音響信号を得る第１のデコード部と、
上記効果ストリームを復号化して上記伝達関数を得る第２のデコード部とを有する
前記（１）または（２）に記載の音響信号処理装置、
（５）上記音響信号生成部は、
上記選択信号に応じた上記伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える
前記（４）に記載の音響信号処理装置。
（６）上記音響信号生成部は、
上記生成された音響信号または上記収音された音響信号を選択的に出力する出力選択部をさらに備える
前記（４）または（５）に記載の音響信号処理装置。
（７）所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得ステップと、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成ステップとを備える
音響信号処理方法。
（８）コンピュータを、
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得手段と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成手段と
して機能させるためのプログラム。
（９）所定の環境中の異なる撮像位置に配置された複数のカメラと、
上記複数のカメラで撮像された複数の動画像から所定の動画像を選択する動画像選択部と、
上記所定の環境中の収音位置に配置されたマイクロホンと、
上記所定の動画像の選択を示す選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
信号処理システム。

１００・・・送受信システム
１１０，１１０Ａ・・・送信装置
１１１−１〜１１１−４・・・カメラ
１１２・・・セレクタ
１１３・・・ビデオエンコーダ
１１４−１・・・マイク
１１５−２〜１１５−４・・・フィルタ部
１１６・・・セレクタ
１１７・・・オーディオエンコーダ
１１８，１２０・・・マルチプレクサ
１１９・・・効果エンコーダ
１３０，１３０Ａ，１３０−２〜１３０−５・・・受信装置
１３１・・・デマルチプレクサ
１３２・・・ビデオデコーダ
１３３・・・表示部
１３４・・・オーディオデコーダ
１３５・・・音声出力部
１３６・・・効果デコーダ
１３７・・・フィルタ部
１４１・・・制御部
１４２・・・クロスフェード部
１４３Ａ，１４３Ｂ・・・ゲイン調整部
１４４・・・加算部
１４５，１４７・・・スイッチ部
１４６，１４８・・・制御部

Claims

所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
音響信号処理装置。
上記音響信号生成部は、
上記選択信号が示す上記所定の動画像の切り替えがあるとき、切り替え前の上記所定の動画像の撮像位置における音響信号および切り替え後の上記所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る
請求項１に記載の音響信号処理装置。
上記音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える
請求項１に記載の音響信号処理装置。
上記収音された音響信号が符号化されて得られた音響ストリームと、上記選択信号が示す上記所定の動画像の撮像位置に対応した上記伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、
上記音響ストリームを復号化して上記音響信号を得る第１のデコード部と、
上記効果ストリームを復号化して上記伝達関数を得る第２のデコード部とを有する
請求項１に記載の音響信号処理装置、
上記音響信号生成部は、
上記選択信号に応じた上記伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える
請求項１に記載の音響信号処理装置。
上記音響信号生成部は、
上記生成された音響信号または上記収音された音響信号を選択的に出力する出力選択部をさらに備える
請求項１に記載の音響信号処理装置。
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得ステップと、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成ステップとを備える
音響信号処理方法。
コンピュータを、
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得手段と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成手段と
して機能させるためのプログラム。
所定の環境中の異なる撮像位置に配置された複数のカメラと、
上記複数のカメラで撮像された複数の動画像から所定の動画像を選択する動画像選択部と、
上記所定の環境中の収音位置に配置されたマイクロホンと、
上記所定の動画像の選択を示す選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
信号処理システム。