JP2013135465A - 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム - Google Patents

音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム Download PDF

Info

Publication number
JP2013135465A
JP2013135465A JP2011286980A JP2011286980A JP2013135465A JP 2013135465 A JP2013135465 A JP 2013135465A JP 2011286980 A JP2011286980 A JP 2011286980A JP 2011286980 A JP2011286980 A JP 2011286980A JP 2013135465 A JP2013135465 A JP 2013135465A
Authority
JP
Japan
Prior art keywords
signal
camera
acoustic signal
acoustic
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011286980A
Other languages
English (en)
Inventor
Shiro Suzuki
志朗 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011286980A priority Critical patent/JP2013135465A/ja
Priority to US13/664,727 priority patent/US20130162900A1/en
Priority to CN2012105606396A priority patent/CN103297812A/zh
Publication of JP2013135465A publication Critical patent/JP2013135465A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数の撮像位置における音声信号を高品質に得る。
【解決手段】所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する。この選択信号に応じて、所定の動画像の撮像位置における音響信号を生成する。この場合、環境中における音響収音位置において収音された音響信号と、所定の動画像の撮像位置と音響収音位置との相対位置に応じて決定された伝達関数に基づき、所定の動画像の撮像位置における音響信号を生成する。選択された所定の動画像の撮像位置における音響信号を、音響収音位置で収音された音響信号と伝達関数に基づいて生成するため、収音状態のよい音響信号をベースとして各撮像位置における音響信号を高品質に得ることができる。
【選択図】図2

Description

本技術は、音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システムに関し、特に、複数の撮像位置における音響信号を取り扱う音響信号処理装置等に関する。
デジタル放送においては、コンテンツとなる映像信号および音声信号はそれぞれデジタル信号化されて別々のストリームとして生成されたのちパケット化されて多重化され、多重化ストリームとして放送局から送出される(特許文献1等参照)。なお、説明を簡単にするために「音声信号」として説明するが、この音声信号は厳密な意味での音声信号を意味するものではなく、音声信号を含む音響信号を意味する。
放送局から送られてくる多重化ストリームは視聴者の自宅のテレビ受信機で受信され、映像ストリーム、音声ストリームに分離される。そして、画像ストリームが復号化されて得られた映像信号により映像の再生が行われ、音声ストリームが復号化されて得られた音声信号により音声の再生が行われる。
コンテンツの一例として、例えば、ピアノコンサートの中継を挙げることができる。この場合、図30に示すように、映像を伝えるカメラが複数用意され、視点が時々切り替えられる。具体的には、演奏者の指の動きや表情を捉えるためのカメラ1、上方から全体を俯瞰するようなカメラ2、下方から観客席にいるかのような視点を得るためのカメラ3、そして遠方から会場全体を捉えるためのカメラ4、といった具合である。
図31の上部には、各カメラからの映像信号をストリーム化した場合の一例を示している。時刻T0−T1がカメラ1からの映像信号SC1、時刻T1−T2がカメラ2からの映像信号SC2、時刻T2−T3がカメラ3からの映像信号SC3、時刻T3−T4がカメラ4からの映像信号SC4、最後にT4−T5までが再度カメラ1からの映像SC1となる例である。このカメラ切り替え操作により、会場全体の雰囲気や演奏者の表情といった細かい点を、視聴者に伝えることができ、視聴者は自宅にいながらピアノコンサートを楽しむことができる。
一方、音声を伝えるためのマイクロホン(以下、適宜、「マイク」という)は、通常1本のみ、ピアノのそばに置かれていることが殆どである。図31の下部は、このマイクからの音声信号をストリーム化した一例を示している。具体的には、時刻T0−T5まで、すべてマイク1からの音声信号SM1が占める。
特開平9−312833号公報
マイクが1つしかない理由としてはコンテンツ制作者の都合により変わり得るが、例えば、以下の理由が考えられる。すなわち、ピアノの直近においたマイク1からは、ほぼピアノの音のみを収音できる。しかし、カメラ2、カメラ3、カメラ4は、観客席や放送スタッフのそばに設置される。そのため、対応するマイク2、マイク3、マイク4は、図32に示すように、ピアノの音以外に、これら周囲からの騒音をよく収音してしまう。
具体的に問題を説明する。図33の上部は、上述の図31の上部と同じである。音声ストリームは、図33の下部に示すように、時刻T0−T1がマイク1からの音声信号SM1、時刻T1−T2がマイク2からの音声信号SM2、時刻T2−T3がマイク3からの音声信号SM3、時刻T3−T4がマイク4から音声信号SM4、最後にT4−T5までが再度マイク1からの音声SM1となる。この際、マイク2では照明装置が稼動した音が入ってしまったり、マイク3では観客の誰かが咳払いをした音が入ってしまったり、マイク4ではカメラスタッフがクシャミをした音が入ってしまったりと、トラブルの懸念は尽きないことが容易に想像できる。
本技術の目的は、複数の撮像位置における音声信号を高品質に得ることにある。
本技術の概念は、
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
音響信号処理装置にある。
本技術において、選択信号取得部により、所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号が取得される。そして、音響信号生成部により、選択信号に応じて、所定の動画像の撮像位置における音響信号が生成される。この場合、環境中における音響収音位置において収音された音響信号と、所定の動画像の撮像位置と音響収音位置との相対位置に応じて決定された伝達関数に基づき、所定の動画像の撮像位置における音響信号が生成される。
例えば、音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える、ようにされてもよい。この場合、例えば、上述の選択信号取得部および音響信号生成部が送信側に配置され、エンコード部で得られる音響ストリームは受信側に送信される。
また、例えば、収音された音響信号が符号化されて得られた音響ストリームと、選択信号が示す所定の動画像の撮像位置に対応した伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、音響ストリームを復号化して音響信号を得る第1のデコード部と、効果ストリームを復号化して伝達関数を得る第2のデコード部とを有する、ようにされてもよい。この場合、例えば、上述の選択信号取得部および音響信号生成部が受信側に配置され、この受信側において、選択された所定の動画像の撮像位置における音響信号が生成される。
このように本技術においては、選択された所定の動画像の撮像位置における音響信号を、その撮像位置に配置されたマイクロホンで得るものではなく、音響収音位置で収音された音響信号と伝達関数に基づいて生成するものである。そのため、収音状態のよい音響信号をベースとして各撮像位置における音響信号を高品質に得ることができる。
なお、本技術において、例えば、音響信号生成部は、選択信号が示す所定の動画像の切り替えがあるとき、切り替え前の所定の動画像の撮像位置における音響信号および切り替え後の所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る、ようにされてもよい。この場合、つなぎ部分における不連続雑音の発生を防止できる。
また、本技術において、例えば、音響信号生成部は、選択信号に応じた伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える、ようにされてもよい。これにより、所定の撮像位置における音響信号のみを連続的に生成して出力することが可能となる。
また、本技術において、例えば、音響信号生成部は、生成された音響信号または収音された音響信号を選択的に出力する出力選択部をさらに備える、ようにされてもよい。これにより、収音された音響信号を連続して出力することも可能となる。
本技術によれば、複数の撮像位置における音声信号を高品質に得ることができる。
送受信システムの構成例を示すブロック図である。 送受信システムを構成する送信装置の一部の構成例を示すブロック図である。 収音例を示す図である。 送信装置における音声系の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置の一部の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 送信装置が送信する映像ストリームおよび音声ストリームの一例を示す図である。 第1の実施の形態としての送受信システムの構成例を示すブロック図である。 送受信システムを構成する送信装置の一部の構成例を示すブロック図である。 第1の実施の形態における収音例を示す図である。 送信装置が送信する映像ストリームおよび音声ストリームの一例を示す図である。 送信装置における音声系の動作の流れの一例を示すフローチャートである。 送信装置の全体を概略的に表す図である。 送受信システムを構成する受信装置の一部の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 第2の実施の形態としての送受信システムの構成例を示すブロック図である。 送受信システムを構成する送信装置の一部の構成例を示すブロック図である。 送信装置が送信する映像ストリーム、音声ストリームおよび効果ストリームの一例を示す図である。 送信装置における音声系の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置の一部の構成例を示す図である。 受信装置の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置の他の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置のさらに他の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置の別の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 送受信システムを構成する受信装置のさらに別の構成例を示すブロック図である。 受信装置の動作の流れの一例を示すフローチャートである。 コンテンツ(ピアノコンサートの中継)の一例を説明するための図である。 映像ストリームおよび音声ストリームの一例を示す図である。 ピアノコンサート中継のコンテンツの課題を説明するための図である。 ピアノコンサート中継のコンテンツの課題を説明するための映像ストリームおよび音声ストリームの一例を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.変形例
<1.第1の実施の形態>
[複数のマイクを使用する送受信システム]
最初に、複数の撮像位置に配置された複数のマイクを使用する送受信システムの構成例について説明する。図1は、送受信システム200の構成例を示している。この送受信システム200は、送信装置210および受信装置230が、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置210は放送局側で、受信装置230は家庭内のテレビ受信機が相当する。
図2は、送信装置210の一部の構成例を示している。送信装置210は、カメラ(カメラ1)211−1、カメラ(カメラ2)211−2、カメラ(カメラ3)211−3およびカメラ(カメラ4)211−4の4個のカメラと、セレクタ(SLV)212と、ビデオエンコーダ213を有している。また、送信装置210は、マイク(マイク1)214−1、マイク(マイク2)214−2、マイク(マイク3)214−3およびマイク(マイク4)214−4の4個のマイクと、セレクタ(SLA)215と、オーディオエンコーダ216と、マルチプレクサ(MUX)217を有している。
カメラ211−1、カメラ211−2、カメラ211−3、カメラ211−4は、所定の環境中の、異なる撮像位置に配置されている。例えば、ピアノコンサートにおいて、カメラ(カメラ1)211−1は演奏者の指の動きや表情を捉えるためのカメラであり、カメラ(カメラ2)211−2は上方から全体を俯瞰するようなカメラであり、カメラ(カメラ3)211−3は下方から観客席にいるかのような視点を得るためのカメラであり、カメラ(カメラ4)211−4は遠方から会場全体を捉えるためのカメラである。
セレクタ212は、各カメラで画像V1,V2,V3,V4を撮像して得られた動画像の映像信号SC1,SC2,SC3,SC4から、カメラ切り替え信号CXに応じて、所定の映像信号を選択的に取り出す。ビデオエンコーダ213は、セレクタ212で取り出された映像信号の符号化を行って映像ストリームXを生成する。
マイク214−1、マイク214−2、マイク214−3、マイク214−4は、それぞれ、カメラ211−1、カメラ211−2、カメラ211−3、カメラ211−4と一体的、あるいはその近傍に配置され、その位置において収音を行う。図3は、マイク(マイク1)214−1、マイク(マイク2)214−2、マイク(マイク3)214−3、マイク(マイク4)214−4で実際に収音する場合の収音例を示している。
ピアノの間近に配置されたマイク214−1は、ピアノから出た音S1を収音して音声信号SM1を得る。マイク214−2は、マイク214−1から距離が離れているため、音S1が変化した音S2を収音して音声信号SM2を得る。同様に、マイク214−3においては音S3を収音して音声信号SM3を得、マイク214−4は音S4を収音して音声信号SM4を得る。
セレクタ215は、各マイクで得られた音声信号SM1,SM2,SM3,SM4から、カメラ切り替え信号CXに応じて、上述したようにセレクタ212で取り出されている映像信号に対応した音声信号を選択的に取り出す。オーディオエンコーダ216は、セレクタ215で取り出された音声信号の符号化を行って音声ストリームYを生成する。マルチプレクサ217は、映像ストリームXおよび音声ストリームYをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置210は、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。
図4のフローチャートは、上述の図2の送信装置210における音声系の動作の流れの一例を示している。まず、ステップST1において、処理が開始され、その後に、ステップST2において、各マイクが起動されて音声信号が得られる。そして、ステップST3において、各マイクからの音声信号がセレクタ(SLA)215に伝送される。
次に、ステップST4において、カメラ切り替え信号CXがセレクタ(SLA)215で受け取られる。また、ステップST5において、セレクタ(SLA)215で、セレクタ2(SLV)212で切り替えられているカメラに対応するマイクからの音声信号が選択される。また、ステップST6において、選択された音声信号がオーディオエンコーダ216に出力される。そして、ステップST7において、オーディオエンコーダ216で音声信号の符号化が行われて音声ストリームYが得られる。
上述のステップST4からステップST7までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST8において、処理が終了される。
図5は、受信装置230の一部の構成例を示している。受信装置230は、デマルチプレクサ(DEMUX)231と、ビデオデコーダ232と、表示部233と、オーディオデコーダ234と、音声出力部235を有している。デマルチプレクサ231は、送信装置210から送られてくる多重化ストリームから、映像ストリームXおよび音声ストリームYをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。
ビデオデコーダ232は、デマルチプレクサ231で抽出された映像ストリームXを復号化して映像信号を得る。表示部233は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ232で得られた映像信号による画像Cを表示する。また、オーディオデコーダ234は、デマルチプレクサ231で抽出された音声ストリームYを復号化して音声信号を得る。音声出力部235は、例えばスピーカ、ヘッドホン等で構成され、オーディオデコーダ234で得られた音声信号による音声Sを出力する。
図6のフローチャートは、上述の図5の受信装置230の動作の流れの一例を示している。まず、ステップST11において、処理が開始され、その後に、ステップST12において、デマルチプレクサ231で抽出された映像ストリームXがビデオデコーダ232で復号化されて映像信号が復元され、この映像信号は表示部233に伝送される。また、ステップST13において、デマルチプレクサ231で抽出された音声ストリームYがオーディオデコーダ234で復号化されて音声信号が復元され、この音声信号は音声出力部235に伝送される。
次に、ステップST14において、表示部233および音声出力部235では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部233では映像信号による画像が表示され、音声出力部235では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST12からステップST14までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST15において、処理が終了される。
この図1の送受信システム200の場合、例えば、図3に示す収音例において、ピアノの直近においたマイク1ではほぼピアノの音のみを収音できる。しかし、カメラ2、カメラ3、カメラ4は、観客席や放送スタッフのそばに設置される。そのため、マイク2、マイク3、マイク4では、ピアノの音以外に、これら周囲からの騒音もよく収音されてしまう。
図7の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームXの一例を示している。時刻T0−T1がカメラ1からの映像信号SC1、時刻T1−T2がカメラ2からの映像信号SC2、時刻T2−T3がカメラ3からの映像信号SC3、時刻T3−T4がカメラ4からの映像信号SC4、最後にT4−T5までが再度カメラ1からの映像信号SC1となる例である。
図7の下部には、上部に示す映像ストリームXに対応した音声ストリームYの一例を示している。時刻T0−T1がマイク1からの音声信号SM1、時刻T1−T2がマイク2からの音声SM2、時刻T2−T3がマイク3からの音声信号SM3、時刻T3−T4がマイク4から音声信号SM4、最後にT4−T5までが再度マイク1からの音声信号SM1となる。図示の例においては、マイク2ではピアノ音以外に照明装置が稼動した音も収音され、マイク3ではピアノ音以外に観客の誰かが咳払いをした音も収音され、マイク4ではピアノ音以外にカメラスタッフがクシャミをした音も収音されることが示されている。
[単一のマイクを使用する送受信システム]
図8は、第1の実施の形態としての送受信システム100の構成例を示している。この送受信システム100は、送信装置110および受信装置130が、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置110は放送局側で、受信装置130は家庭内のテレビ受信機が相当する。
図9は、送信装置110の一部の構成例を示している。送信装置110は、カメラ(カメラ1)111−1、カメラ(カメラ2)111−2、カメラ(カメラ3)111−3およびカメラ(カメラ4)111−4の4個のカメラと、セレクタ(SLV)112と、ビデオエンコーダ113を有している。また、送信装置110は、マイク(マイク1)114−1と、フィルタ部(FL2)115−2、フィルタ部(FL3)115−3およびフィルタ部(FL4)15−4の3個のフィルタ部を有している。また、送信装置110は、セレクタ(SLA)116と、オーディオエンコーダ117と、マルチプレクサ(MUX)118を有している。
カメラ111−1、カメラ111−2、カメラ111−3、カメラ111−4は、所定の環境中の、異なる撮像位置に配置されている。例えば、ピアノコンサートにおいて、カメラ(カメラ1)111−1は演奏者の指の動きや表情を捉えるためのカメラであり、カメラ(カメラ2)111−2は上方から全体を俯瞰するようなカメラであり、カメラ(カメラ3)111−3は下方から観客席にいるかのような視点を得るためのカメラであり、カメラ(カメラ4)111−4は遠方から会場全体を捉えるためのカメラである。
セレクタ112は、各カメラで画像V1,V2,V3,V4を撮像して得られた動画像の映像信号SC1,SC2,SC3,SC4から、カメラ切り替え信号CXに応じて、所定の映像信号を選択的に取り出す。ビデオエンコーダ113は、セレクタ112で取り出された映像信号の符号化を行って映像ストリームXを生成する。
マイク(マイク1)114−1は、カメラ(カメラ1)111−1と一体的、あるいはその近傍に配置され、その位置(収音位置)において収音を行う。図10は、マイク(マイク1)114−1で実際に収音する場合の収音例を示している。ここで、P1はカメラ1の撮像位置を示し、P2はカメラ2の撮像位置を示し、P3は、カメラ3の撮像位置を示し、P4はカメラ4の撮像位置を示している。
ピアノの間近に配置されたマイク(マイク1)114−1は、ピアノから出た音S1を収音して音声信号SM1を得る。なお、カメラ2、カメラ3、カメラ3に対応した位置にマイクは配置されておらず、それぞれの位置における音は収音されない。
フィルタ部(FL2)115−2は、マイク(マイク1)114−1で得られた音声信号SM1に、このマイク(マイク1)114−1の配置位置からカメラ(カメラ2)111−2の配置位置あるいはその近傍位置への伝達関数TF12を畳み込み、カメラ(カメラ2)111−2の配置位置における音声信号SM2vを生成する。この伝達関数TF12は、予め、測定されている。
また、フィルタ部(FL3)115−3は、マイク(マイク1)114−1で得られた音声信号SM1に、このマイク(マイク1)114−1の配置位置からカメラ(カメラ3)111−3の配置位置あるいはその近傍位置への伝達関数TF13を畳み込み、カメラ(カメラ3)111−3の配置位置における音声信号SM3vを生成する。この伝達関数TF13は、予め、測定されている。
また、フィルタ部(FL4)115−4は、マイク(マイク1)114−1で得られた音声信号SM1に、このマイク(マイク1)114−1の配置位置からカメラ(カメラ4)111−4の配置位置あるいはその近傍位置への伝達関数TF14を畳み込み、カメラ(カメラ4)111−4の配置位置における音声信号SM4vを生成する。この伝達関数TF14は、予め、測定されている。
ここで、伝達関数とは、ある特定の位置から発せられた音が別の特定の位置ではどのように変化するかを示すものである。例えば、あるA点で観測された音をSAとし、このSAがB点でどのように観測されるかを示すものである。A点に到達・観測される音をSAとし、A点からB点への伝達関数をTFとすると、B点での音SBは、以下の(1)式のように表される。
SB=SA * TF ・・・(1)
この(1)式において、「*」は畳み込み演算を表している。時間軸で表される伝達関数はインパルスレスポンスとも呼ばれる。この実施の形態では、以下、特に説明がなければ、伝達関数といえばこのインパルスレスポンスのことを示すものとする。なお、伝達関数の測定方法、特にインパルスレスポンスの測定方法については、詳細説明は省略するが、TSP(Time Stretched Pulse)法などを始めとする周知の方法で行うことができる。
セレクタ116は、マイク(マイク1)114−1で得られた音声信号SM1、フィルタ部115−2,115−3,115−4で得られた音声信号SM2v,SM3v,SM4vから、カメラ切り替え信号CXに応じて、上述したようにセレクタ112で取り出されている映像信号に対応した音声信号を選択的に取り出す。オーディオエンコーダ117は、セレクタ116で取り出された音声信号の符号化を行って音声ストリームYを生成する。マルチプレクサ118は、映像ストリームXおよび音声ストリームYをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置110は、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。
図11の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームXの一例を示している。時刻T0−T1がカメラ1からの映像信号SC1、時刻T1−T2がカメラ2からの映像信号SC2、時刻T2−T3がカメラ3からの映像信号SC3、時刻T3−T4がカメラ4からの映像信号SC4、最後にT4−T5までが再度カメラ1からの映像信号SC1となる例である。
図11の下部には、上部に示す映像ストリームXに対応した音声ストリームYの一例を示している。時刻T0−T1がマイク(マイク1)114−1からの音声信号SM1、時刻T1−T2がフィルタ部115−2からの音声信号SM2v、時刻T2−T3がフィルタ部115−3からの音声信号SM3v、時刻T3−T4がフィルタ部115−4からの音声信号SM4v、最後にT4−T5までが再度マイク(マイク1)114−1からの音声信号SM1となる。
図12のフローチャートは、上述の図9の送信装置110における音声系の動作の流れの一例を示している。まず、ステップST21において、処理が開始され、その後に、ステップST22において、マイク1が起動されて音声信号SM1が得られる。そして、ステップST23において、マイク1からの音声信号SM1がセレクタ(SLA)116に伝送される。
次に、ステップST24において、音声信号SM1が分岐されて、各フィルタ部に、伝送される。そして、ステップST25において、フィルタ部(FL2)115−2では、音声信号SM1に伝達関数TF12が畳み込まれ、カメラ2の撮像位置における音声信号SM2vが得られる。また、このステップST25において、フィルタ部(FL3)115−3では、音声信号SM1に伝達関数TF13が畳み込まれ、カメラ3の撮像位置における音声信号SM3vが得られる。さらに、このステップST25において、フィルタ部(FL4)115−4では、音声信号SM1に伝達関数TF14が畳み込まれ、カメラ4の撮像位置における音声信号SM4vが得られる。そして、ステップST26において、各フィルタ部からの音声信号SM2v,SM3v,SM4vがセレクタ(SLA)116に伝送される。
次に、ステップST27において、カメラ切り替え信号CXがセレクタ(FLA)116で受け取られる。また、ステップST28において、セレクタ(FLA)116で、セレクタ(SLV)112で切り替えられているカメラに対応する音声信号が選択される。また、ステップST29において、選択された音声信号がオーディオエンコーダ117に出力される。そして、ステップST30において、オーディオエンコーダ117で音声信号の符号化が行われて音声ストリームYが得られる。
上述のステップST27からステップST30までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST31において、処理が終了される。
図13は、上述の送信装置110の全体を概略的に表している。この場合、カメラ2、カメラ3、カメラ4の撮像位置における音声信号SM2v,SM3v,SM4vは、その撮像位置に配置されたマイクロホンで得られたものではない。これらの音声信号は、カメラ1の撮像位置に配置されたマイク1で得られた音声信号SM1から、フィルタ部FL2,FL3,FL4でそれぞれ伝達関数を用いて算出されて得られたものとなる。
図14は、受信装置130の一部の構成例を示している。受信装置130は、デマルチプレクサ(DEMUX)131と、ビデオデコーダ132と、表示部133と、オーディオデコーダ134と、音声出力部135を有している。デマルチプレクサ131は、送信装置110から送られてくる多重化ストリームから、映像ストリームXおよび音声ストリームYをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。
ビデオデコーダ132は、デマルチプレクサ131で抽出された映像ストリームXを復号化して映像信号を得る。表示部133は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ132で得られた映像信号による画像Cを表示する。また、オーディオデコーダ134は、デマルチプレクサ131で抽出された音声ストリームYを復号化して音声信号を得る。音声出力部135は、例えばスピーカ、ヘッドホン等で構成され、オーディオデコーダ134で得られた音声信号による音声Sを出力する。
図15のフローチャートは、上述の図14の受信装置130の動作の流れの一例を示している。まず、ステップST41において、処理が開始され、その後に、ステップST42において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST43において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号が復元され、この音声信号は音声出力部135に伝送される。
次に、ステップST44において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST42からステップST44までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST45において、処理が終了される。
上述したように、図1に示す送受信システム100においては、送信装置110から受信装置120には、カメラ切り替えに対応して各撮像位置における音声信号が切り替えられて送信される。この場合、カメラ2、カメラ3、カメラ4の撮像位置における音声信号は、その撮像位置に配置されたマイクロホンで得られたものではなく、カメラ1の撮像位置に配置されたマイク1で得られた音声信号SM1から伝達関数を用いて算出されて得られたものである。この場合、各音声信号は、収音状態のよい音声信号SM1をベースとしていることから、高品質なものとなる。従って、受信装置130では、各撮像装置における複数の撮像位置における高品質な音声信号を視聴者に提供できる。
<2.第2の実施の形態>
[単一のマイクを使用する送受信システム]
図16は、第2の実施の形態としての送受信システム100Aの構成例を示している。この送受信システム100Aは、送信装置110Aおよび受信装置130Aが、有線あるいは無線により接続されて構成される。例えば、放送の場合、送信装置110Aは放送局側で、受信装置130Aは家庭内のテレビ受信機が相当する。
図17は、送信装置110Aの一部の構成例を示している。この図17において、図9と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。送信装置110Aは、カメラ(カメラ1)111−1、カメラ(カメラ2)111−2、カメラ(カメラ3)111−3およびカメラ(カメラ4)111−4の4個のカメラと、セレクタ(SLV)112と、ビデオエンコーダ113を有している。また、送信装置110Aは、マイク(マイク1)114−1と、オーディオエンコーダ117と、効果エンコーダ119と、マルチプレクサ(MUX)120を有している。
カメラ111−1、カメラ111−2、カメラ111−3、カメラ111−4は、所定の環境中の、異なる撮像位置に配置されている。例えば、ピアノコンサートにおいて、カメラ(カメラ1)111−1は演奏者の指の動きや表情を捉えるためのカメラであり、カメラ(カメラ2)111−2は上方から全体を俯瞰するようなカメラであり、カメラ(カメラ3)111−3は下方から観客席にいるかのような視点を得るためのカメラであり、カメラ(カメラ4)111−4は遠方から会場全体を捉えるためのカメラである。
セレクタ112は、各カメラで画像V1,V2,V3,V4を撮像して得られた動画像の映像信号SC1,SC2,SC3,SC4から、カメラ切り替え信号CXに応じて、所定の映像信号を選択的に取り出す。ビデオエンコーダ113は、セレクタ112で取り出された映像信号の符号化を行って映像ストリームXを生成する。
マイク(マイク1)114−1は、カメラ(カメラ1)111−1と一体的、あるいはその近傍に配置され、その位置(収音位置)において収音を行う。マイク(マイク1)114−1は、ピアノから出た音S1を収音して音声信号SM1を得る(図10参照)。オーディオエンコーダ117は、マイク(マイク1)114−1で得られた音声信号SM1の符号化を行って音声ストリームYを生成する。
効果エンコーダ119は、伝達関数TFの符号化を行って効果ストリームZを生成する。この場合、伝達関数TFは、カメラ切り替え信号CXに応じて切り替えられたものとなる。すなわち、カメラ切り替え信号CXがカメラ(カメラ1)111−1を選択する状態にあるとき、この伝達関数TFは1となる。また、カメラ切り替え信号CXがカメラ(カメラ2)111−2を選択する状態にあるとき、この伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ2)111−2の配置位置あるいはその近傍位置への伝達関数TF12となる(図10参照)。
また、カメラ切り替え信号CXがカメラ(カメラ3)111−3を選択する状態にあるとき、この伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ3)111−3の配置位置あるいはその近傍位置への伝達関数TF13となる(図10参照)。また、カメラ切り替え信号CXがカメラ(カメラ4)111−4を選択する状態にあるとき、この伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ4)111−4の配置位置あるいはその近傍位置への伝達関数TF14となる(図10参照)。
マルチプレクサ120は、映像ストリームX、音声ストリームYおよび効果ストリームZをそれぞれパケット化して多重し、多重化ストリームを生成する。送信装置110Aは、この多重化ストリームを受信側に送信する。例えば、放送の場合には、この多重化ストリームを放送波に載せて送出する。
図18の上部には、各カメラからの映像信号をストリーム化した場合の映像ストリームXの一例を示している。時刻T0−T1がカメラ1からの映像SC1、時刻T1−T2がカメラ2からの映像信号SC2、時刻T2−T3がカメラ3からの映像信号SC3、時刻T3−T4がカメラ4からの映像信号SC4、最後にT4−T5までが再度カメラ1からの映像信号SC1となる例である。図18の中部には、音声ストリームYを示しており、時刻T0−T5まで、すべてマイク1からの音声信号SM1が占めている。
図18の下部には、上部に示す映像ストリームXに対応した効果ストリームZの一例を示している。時刻T0−T1がカメラ1の位置で収音しているとする効果情報EF1、時刻T1−T2がカメラ2で収音しているとする効果情報EF2、時刻T2−T3がカメラ3の位置で収音しているとする効果情報EF3となる。また、時刻T3−T4がカメラ4の位置で収音しているとする効果情報EF4、最後にT4−T5までが再度カメラ1の位置で収音しているとする効果情報EF1となる。ここで、効果情報には伝達関数が含まれるが、カメラ選択信号CXがさらに含まれていてもよい。
図19のフローチャートは、上述の図17の送信装置110Aにおける音声系の動作の流れの一例を示している。まず、ステップST51において、処理が開始され、その後に、ステップST52において、マイク1が起動されて音声信号SM1が得られる。そして、ステップST53において、マイク1からの音声信号SM1がオーディオエンコーダ117で符号化されて音声ストリームYが得られる。
次に、ステップST54において、カメラ切り替え信号CXが効果エンコーダ119で受け取られる。そして、ステップST55において、効果エンコーダ119で、切り替え信号CXに対応する伝達関数が符号化されて効果ストリームZが得られる。
次に、ステップST56において、マルチプレクサ120で、映像ストリームXおよび音声ストリームYと共に、効果ストリームZがパケット化されて多重化され、多重化ストリームが送信側に送信される。上述のステップST54からステップST56までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST57において、処理が終了される。
図20は、受信装置130Aの一部の構成例を示している。この図20において、図14と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。受信装置130Aは、デマルチプレクサ(DEMUX)131と、ビデオデコーダ132と、表示部133と、オーディオデコーダ134と、効果デコーダ136と、フィルタ部137と、音声出力部135を有している。
デマルチプレクサ131は、送信装置110から送られてくる多重化ストリームから、映像ストリームX、音声ストリームYおよび効果ストリームZをそれぞれ抽出する。例えば、放送の場合、多重化ストリームは図示しないデジタルチューナで受信されて得られる。ビデオデコーダ132は、デマルチプレクサ131で抽出された映像ストリームXを復号化して映像信号を得る。表示部133は、例えば液晶表示器等のディスプレイで構成され、ビデオデコーダ132で得られた映像信号による画像Cを表示する。
オーディオデコーダ134は、デマルチプレクサ131で抽出された音声ストリームYを復号化して音声信号SM1を得る。効果デコーダ136は、デマルチプレクサ131で抽出された効果ストリームZを復号化して伝達関数TFを得る。この場合、ビデオデコーダ132からカメラ1の撮像に係る映像信号SC1が出力されるとき、伝達関数TFは1となる。また、ビデオデコーダ132からカメラ2の撮像に係る映像信号SC2が出力されるとき、伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ2)111−2の配置位置あるいはその近傍位置への伝達関数TF12となる。
また、ビデオデコーダ132からカメラ3の撮像に係る映像信号SC3が出力されるとき、伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ3)111−3の配置位置あるいはその近傍位置への伝達関数TF13となる。また、ビデオデコーダ132からカメラ4の撮像に係る映像信号SC4が出力されるとき、伝達関数TFは、マイク(マイク1)114−1の配置位置からカメラ(カメラ4)111−4の配置位置あるいはその近傍位置への伝達関数TF14となる。
フィルタ部137は、オーディオデコーダ134で得られた音声信号SM1に、効果デコーダ136で得られた伝達関数TFを畳み込み、音声信号SMを得る。この音声信号SMは、ビデオデコーダ132からカメラ1の撮像に係る映像信号SC1が出力されるとき、TF=1となることから、マイク(マイク1)114−1で得られた音声信号SM1となる。また、この音声信号SMは、ビデオデコーダ132からカメラ2の撮像に係る映像信号SC2が出力されるとき、TF=TF12となることから、カメラ(カメラ2)111−2の配置位置における音声信号SM2vとなる。
また、この音声信号SMは、ビデオデコーダ132からカメラ3の撮像に係る映像信号SC3が出力されるとき、TF=TF13となることから、カメラ(カメラ3)111−3の配置位置における音声信号SM3vとなる。また、この音声信号SMは、ビデオデコーダ132からカメラ4の撮像に係る映像信号SC4が出力されるとき、TF=TF14となることから、カメラ(カメラ4)111−4の配置位置における音声信号SM4vとなる。
音声出力部135は、例えばスピーカ、ヘッドホン等で構成され、フィルタ部137で得られた音声信号による音声Sを出力する。
図21のフローチャートは、上述の図20の受信装置130Aの動作の流れの一例を示している。まず、ステップST61において、処理が開始される。その後に、ステップST62において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST63において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号SM1が復元され、この音声信号はフィルタ部(FL)137に伝送される。
次に、ステップST64において、デマルチプレクサ131で抽出された効果ストリームZが効果デコーダ136で復号化されて伝達関数TFが復元され、この伝達関数TFはフィルタ部(FL)137に伝送される。そして、ステップST65において、フィルタ部137で音声信号SM1に伝達関数TFが畳み込まれて、カメラ切り替え(映像信号切り替え)に対応した音声信号SMが得られ、音声出力部135に伝送される。
次に、ステップST66において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST62からステップST66までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST67において、処理が終了される。
上述したように、図16に示す送受信システム100Aにおいては、送信装置110Aから受信装置130Aには、カメラ1の撮像位置に配置されたマイク1で得られた音声信号SM1と共に、カメラ切り替えに対応して各撮像位置における伝達関数が切り替えられて送信される。そして、受信装置130Aでは、音声信号SM1と伝達関数の畳み込み演算により、カメラ切り替えに対応した各撮像位置における音声信号が得られる。
この場合、カメラ2、カメラ3、カメラ4の撮像位置における音声信号は、その撮像位置に配置されたマイクロホンで得られたものではなく、カメラ1の撮像位置に配置されたマイク1で得られた音声信号SM1から伝達関数を用いて算出されて得られたものである。この場合、各音声信号は、収音状態のよい音声信号SM1をベースとしていることから、高品質なものとなる。従って、受信装置130Aでは、各撮像装置における複数の撮像位置における高品質な音声信号を視聴者に提供できる。
<3.変形例>
「変形例1」
なお、上述の図20に示す受信装置130Aにおいては、フィルタ部137から出力される音声信号は伝達関数の切り替え時に不連続となり、不連続雑音が発生するおそれがある。図22は、この不連続雑音の発生を防止するようにした、受信装置130A−2の構成例を示している。この図22において、図20と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。
受信装置130A−2は、デマルチプレクサ(DEMUX)131と、ビデオデコーダ132と、表示部133と、オーディオデコーダ134と、効果デコーダ136と、フィルタ部(FLA)137Aと、フィルタ部(FLB)137Bと、制御部141と、クロスフェード部(CF)142と、音声出力部135を有している。
フィルタ部137A,137Bは、オーディオデコーダ134で得られた音声信号SM1に、効果デコーダ136で得られた伝達関数TFを畳み込み、音声信号SMA,SMBを得る。制御部141は、効果デコーダ136で得られる伝達関数TFが切り替えられる毎に、切り替え後の伝達関数をフィルタ部137Aに設定し、切り替え前の伝達関数をフィルタ部137Bに設定する。
クロスフェード部142は、ゲイン調整部(CA)143A、ゲイン調整部(CB)143Bおよび加算部(ADD)部144を有している。ゲイン調整部143Aはフィルタ部137Aで得られる音声信号SMAの係数(ゲイン)Aを調整する。このゲイン調整部143Aは、設定される伝達関数の更新時点から、その係数Aを0.0から徐々に1.0に変化させる。一方、ゲイン調整部143Bはフィルタ部137Bで得られる音声信号SMBの係数(ゲイン)Bを調整する。このゲイン調整部143Bは、設定される伝達関数の更新時点から、その係数Bを1.0から徐々に0.0に変化させる。この際、A+B=1.0とされる。
加算部144は、ゲイン調整部143Aでゲイン調整された音声信号とゲイン調整部143Bでゲイン調整された音声信号を加算して、音声信号SMとする。音声出力部135は、クロスフェード部144で得られる音声信号SMによる音声Sを出力する。詳細説明は省略するが、この図22に示す受信装置130A−2のその他は、図20に示す受信装置130Aと同様に構成される。
図23のフローチャートは、上述の図22の受信装置130A−2の動作の流れの一例を示している。まず、ステップST71において、処理が開始される。その後に、ステップST72において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST73において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号SM1が復元され、この音声信号SM1はフィルタ部(FLA)137Aおよびフィルタ部(FLB)137Bに伝送される。
次に、ステップST74において、デマルチプレクサ131で抽出された効果ストリームZが効果デコーダ136で復号化されて伝達関数TFが復元され、この伝達関数TFは制御部(CT)141に伝送される。そして、ステップST75において、制御部141で、伝達関数TFが変化したか判断される。
伝達関数が変化したとき、ステップST76において、フィルタ部(FLA)137Bにフィルタ部(FLA)137Aの伝達関数が移動され、フィルタ部(FLA)137Aに新しい伝達関数が伝送される。そして、ステップST77において、フィルタ部137A,137Bのそれぞれで、音声信号SM1に伝達関数が畳み込まれ、クロスフェード部(CF)142でクロスフェード処理が行われる。
次に、ステップST78において、フィルタ部(FLB)137Bの処理が止められる。このステップST78の後に、ステップST79の処理が行われる。上述のステップST75で伝達関数が変化しないときも、ステップST79の処理が行われる。このステップST79において、フィルタ部(FLA)137Aだけで畳み込み演算の処理が続けられる。
次に、ステップST80において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST72からステップST80までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST81において、処理が終了される。
上述したように、図22に示す受信装置130A−2においては、伝達信号TFに変化があるときは、クロスフェード部142でクロスフェードの処理が行われて、音声信号SMが、切り替え前の伝達関数による音声信号SMBから切り替え後の伝達関数による音声信号SMAに徐々に変更されていく。そのため、不連続雑音の発生を防止することができる。なお、このようなクロスフェード処理を、上述の図9に示す送信装置110のセレクタ112で選択された音声信号に適用することも考えられ、同様に、不連続雑音の発生を防止することができる。
「変形例2」
また、上述の図20に示す受信装置130Aにおいては、フィルタ部137からはカメラ切り替えに対応して各撮像位置における音声信号が順次出力される。しかし、フィルタ部137から出力される音声信号を所定のカメラ位置に任意に固定可能とすることも考えられる。図24は、その場合における受信装置130A−3の構成例を示している。この図24において、図20と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。
受信装置130A−3は、デマルチプレクサ(DEMUX)131と、ビデオデコーダ132と、表示部133と、オーディオデコーダ134と、効果デコーダ136と、フィルタ部(FL)137と、制御部(CPU)146と、スイッチ部(SW)145と、音声出力部135を有している。
スイッチ部(SW)145は、効果デコーダ136で得られた伝達関数TFをフィルタ部(FL)137に伝送する。制御部146は、ユーザ操作に応じて、スイッチ部146のオンオフを制御する。フィルタ部(FL)137は、伝送されてくる伝達関数TFに変化があるとき、オーディオデコーダ134で得られた音声信号SM1に畳み込む伝達関数の更新を行う。
つまり、フィルタ部(FL)137において、伝送されてくる伝達関数TFに変化がないときは、オーディオデコーダ134で得られた音声信号SM1に畳み込む伝達関数は同一のものが継続される。従って、スイッチ部145がオンからオフとされることで、フィルタ部(FL)137ではそのタイミングで設定されている伝達関数TFが使用され続ける状態となり、フィルタ部137から出力される音声信号は所定のカメラ位置における音声信号に固定される。
また、この状態から、スイッチ部145がオフからオンとされることで、再度、フィルタ部137からカメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態となる。この図24に示す受信装置130A−3のその他は、図20に示す受信装置130Aと同様に構成される。
図25のフローチャートは、上述の図24の受信装置130A−3の動作の流れの一例を示している。まず、ステップST91において、処理が開始される。その後に、ステップST92において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST93において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号SM1が復元され、この音声信号SM1はフィルタ部(FL)137に伝送される。
次に、ステップST94において、デマルチプレクサ131で抽出された効果ストリームZが効果デコーダ136で復号化されて伝達関数TFが復元され、この伝達関数TFはスイッチ部145に伝送される。そして、ステップST95において、フィルタ部137に伝達関数TFを伝送するか否かが判断される。伝送するときは、ステップST96において、スイッチ部145がオンとされて、伝達関数TFがフィルタ部137に伝送される。これにより、伝達関数TFに変化があるとき、フィルタ部137における伝達関数は更新される。
ステップST96の処理の後、ステップST97の処理が行われる。上述のステップST95で伝送しないとき、直ちに、ステップST97の処理が行われる。このステップST97において、フィルタ部137で音声信号SM1に伝達関数が畳み込まれる。そして、ステップST98において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST92からステップST98までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST99において、処理が終了される。
上述したように、図24に示す受信装置130A−3においては、スイッチ部145により、効果デコーダ136で得られる伝達関数TFをフィルタ部137に伝送するか否かが制御される。そのため、カメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態と、所定のカメラ位置における音声信号を続けて出力される状態とを、任意に切り替えることができる。
「変形例3」
また、上述の図22の受信装置130A−2および図24の受信装置130−3の機能を合わせ持つことも考えられる。図26は、その場合における受信装置130−4の構成例を示している。この図26において、図22、図24と対応する部分には同一符号を付し、その詳細説明は省略する。
図27のフローチャートは、上述の図26の受信装置130A−4の動作の流れの一例を示している。まず、ステップST101において、処理が開始される。その後に、ステップST102において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST103において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号SM1が復元され、この音声信号SM1はフィルタ部(FLA)137Aおよびフィルタ部(FLB)137Bに伝送される。
次に、ステップST104において、デマルチプレクサ131で抽出された効果ストリームZが効果デコーダ136で復号化されて伝達関数TFが復元され、この伝達関数TFはスイッチ部145に伝送される。そして、ステップST105において、フィルタ部137に伝達関数TFを伝送するか否かが判断される。伝送するときは、ステップST106において、スイッチ部145がオンとされて、伝達関数TFが制御部(CT)141に伝送される。これにより、伝達関数TFに変化があるとき、制御部(CT)141を介してフィルタ部137A,137Bにおける伝達関数の更新が可能となる。
ステップST106の処理の後、ステップST107の処理が行われる。上述のステップST105で伝送しないとき、直ちに、ステップST107の処理が行われる。このステップST107において、制御部141で、伝達関数TFが変化したか判断される。
伝達関数が変化したとき、ステップST108において、フィルタ部(FLA)137Bにフィルタ部(FLA)137Aの伝達関数が移動され、フィルタ部(FLA)137Aに新しい伝達関数が伝送される。そして、ステップST109において、フィルタ部137A,137Bのそれぞれで、音声信号SM1に伝達関数が畳み込まれ、クロスフェード部(CF)142でクロスフェード処理が行われる。
次に、ステップST110において、フィルタ部(FLB)137Bの処理が止められる。このステップST7108の後に、ステップST111の処理が行われる。上述のステップST107で伝達関数が変化しないときも、ステップST111の処理が行われる。このステップST111において、フィルタ部(FLA)137Aだけで畳み込み演算の処理が続けられる。
次に、ステップST112において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST102からステップST112までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST113において、処理が終了される。
上述したように、図26に示す受信装置130A−4においては、上述の図22に示す受信装置130A−2と同様に、不連続雑音の発生を防止することができ、さらに、上述の図24に示す受信装置130A−3と同様に、カメラ切り替えに対応して各撮像位置における音声信号が順次出力される状態と、所定のカメラ位置における音声信号を続けて出力される状態とを、任意に切り替えることができる。
「変形例4」
また、上述の図20に示す受信装置130Aにおいては、フィルタ部137からはカメラ切り替えに対応して各撮像位置における音声信号が順次出力される。オーディオデコーダ134で得られる音声信号SM1と、フィルタ部137で得られる音声信号SMとをユーザが任意に切り替え可能とすることも考えられる。図28は、その場合における受信装置130A−5の構成例を示している。この図28において、図20と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。
受信装置130A−5は、デマルチプレクサ(DEMUX)131と、ビデオデコーダ132と、表示部133と、オーディオデコーダ134と、効果デコーダ136と、フィルタ部(FL)137と、スイッチ部(SW)147と、制御部(CPU)148と、音声出力部135を有している。
スイッチ部(SW)147は、オーディオデコーダ134で得られる音声信号SM1と、フィルタ部137で得られる音声信号SMとを選択的に取り出して、音声出力部135に伝送する。制御部148は、ユーザ操作に応じて、スイッチ部147の選択を制御する。この図28に示す受信装置130A−5のその他は、図20に示す受信装置130Aと同様に構成される。
図29のフローチャートは、上述の図28の受信装置130A−5の動作の流れの一例を示している。まず、ステップST121において、処理が開始される。その後に、ステップST122において、デマルチプレクサ131で抽出された映像ストリームXがビデオデコーダ132で復号化されて映像信号が復元され、この映像信号は表示部133に伝送される。また、ステップST123において、デマルチプレクサ131で抽出された音声ストリームYがオーディオデコーダ134で復号化されて音声信号SM1が復元され、この音声信号はフィルタ部(FL)137に伝送される。
次に、ステップST124において、デマルチプレクサ131で抽出された効果ストリームZが効果デコーダ136で復号化されて伝達関数TFが復元され、この伝達関数TFはフィルタ部(FL)137に伝送される。そして、ステップST125において、フィルタ部137で音声信号SM1に伝達関数TFが畳み込まれて、カメラ切り替え(映像信号切り替え)に対応した音声信号SMが得られる。
次に、ステップST126において、オーディオデコーダ134からの音声信号SM1が選択されているか、フィルタ部137からの音声信号SMが選択されているかが判断される。音声信号SM1が選択されているとき、ステップST127において、スイッチ部147で音声信号SM1が選択されて音声出力部135に伝送される。一方、音声信号SMが選択されているとき、ステップST128において、スイッチ部147で音声信号SMが選択されて音声出力部135に伝送される。
次に、ステップST129において、表示部133および音声出力部135では、映像信号および音声信号の同期が取られて、再生が行われる。つまり、表示部133では映像信号による画像が表示され、音声出力部135では音声信号による音声が出力される。なお、映像信号および音声信号の同期は、上述していないが、映像ストリームXおよび音声ストリームYに挿入される表示タイムスタンプ(PTS)等を利用することで達成される。
上述のステップST122からステップST126までの処理が繰り返し行われる。そして、例えば、ユーザからの明示的な終了操作があるとき、ステップST130において、処理が終了される。
上述したように、図28に示す受信装置130A−5においては、スイッチ部147により、オーディオデコーダ134で得られる音声信号SM1と、フィルタ部137で得られる音声信号SMとが選択的に取り出されて音声出力部135に伝送される。つまり、ユーザは、音声信号SM1と音声信号SMとをユーザが任意に切り替えることができる。
また、本技術は、以下のような構成をとることもできる。
(1)所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
音響信号処理装置。
(2)上記音響信号生成部は、
上記選択信号が示す上記所定の動画像の切り替えがあるとき、切り替え前の上記所定の動画像の撮像位置における音響信号および切り替え後の上記所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る
前記(1)に記載の音響信号処理装置。
(3)上記音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える
前記(1)または(2)に記載の音響信号処理装置。
(4)上記収音された音響信号が符号化されて得られた音響ストリームと、上記選択信号が示す上記所定の動画像の撮像位置に対応した上記伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、
上記音響ストリームを復号化して上記音響信号を得る第1のデコード部と、
上記効果ストリームを復号化して上記伝達関数を得る第2のデコード部とを有する
前記(1)または(2)に記載の音響信号処理装置、
(5)上記音響信号生成部は、
上記選択信号に応じた上記伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える
前記(4)に記載の音響信号処理装置。
(6)上記音響信号生成部は、
上記生成された音響信号または上記収音された音響信号を選択的に出力する出力選択部をさらに備える
前記(4)または(5)に記載の音響信号処理装置。
(7)所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得ステップと、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成ステップとを備える
音響信号処理方法。
(8)コンピュータを、
所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得手段と、
上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成手段と
して機能させるためのプログラム。
(9)所定の環境中の異なる撮像位置に配置された複数のカメラと、
上記複数のカメラで撮像された複数の動画像から所定の動画像を選択する動画像選択部と、
上記所定の環境中の収音位置に配置されたマイクロホンと、
上記所定の動画像の選択を示す選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
信号処理システム。
100・・・送受信システム
110,110A・・・送信装置
111−1〜111−4・・・カメラ
112・・・セレクタ
113・・・ビデオエンコーダ
114−1・・・マイク
115−2〜115−4・・・フィルタ部
116・・・セレクタ
117・・・オーディオエンコーダ
118,120・・・マルチプレクサ
119・・・効果エンコーダ
130,130A,130−2〜130−5・・・受信装置
131・・・デマルチプレクサ
132・・・ビデオデコーダ
133・・・表示部
134・・・オーディオデコーダ
135・・・音声出力部
136・・・効果デコーダ
137・・・フィルタ部
141・・・制御部
142・・・クロスフェード部
143A,143B・・・ゲイン調整部
144・・・加算部
145,147・・・スイッチ部
146,148・・・制御部

Claims (9)

  1. 所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得部と、
    上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
    音響信号処理装置。
  2. 上記音響信号生成部は、
    上記選択信号が示す上記所定の動画像の切り替えがあるとき、切り替え前の上記所定の動画像の撮像位置における音響信号および切り替え後の上記所定の動画像の撮像位置の音響信号を並列的に生成し、クロスフェード処理により一系統の音響信号を得る
    請求項1に記載の音響信号処理装置。
  3. 上記音響信号生成部で生成された音響信号を符号化して音響ストリームを得るエンコード部をさらに備える
    請求項1に記載の音響信号処理装置。
  4. 上記収音された音響信号が符号化されて得られた音響ストリームと、上記選択信号が示す上記所定の動画像の撮像位置に対応した上記伝達関数が符号化されて得られた効果ストリームとを受け取るストリーム受け取り部と、
    上記音響ストリームを復号化して上記音響信号を得る第1のデコード部と、
    上記効果ストリームを復号化して上記伝達関数を得る第2のデコード部とを有する
    請求項1に記載の音響信号処理装置、
  5. 上記音響信号生成部は、
    上記選択信号に応じた上記伝達関数の変化の停止あるいは再開を制御する制御部をさらに備える
    請求項1に記載の音響信号処理装置。
  6. 上記音響信号生成部は、
    上記生成された音響信号または上記収音された音響信号を選択的に出力する出力選択部をさらに備える
    請求項1に記載の音響信号処理装置。
  7. 所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得ステップと、
    上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成ステップとを備える
    音響信号処理方法。
  8. コンピュータを、
    所定の環境中の、異なる撮像位置において撮像された複数の動画像からの所定の動画像の選択を示す選択信号を取得する選択信号取得手段と、
    上記選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成手段と
    して機能させるためのプログラム。
  9. 所定の環境中の異なる撮像位置に配置された複数のカメラと、
    上記複数のカメラで撮像された複数の動画像から所定の動画像を選択する動画像選択部と、
    上記所定の環境中の収音位置に配置されたマイクロホンと、
    上記所定の動画像の選択を示す選択信号に応じて、上記環境中における音響収音位置において収音された音響信号と、上記所定の動画像の撮像位置と上記音響収音位置との相対位置に応じて決定された伝達関数に基づき、上記所定の動画像の撮像位置における音響信号を生成する音響信号生成部とを備える
    信号処理システム。
JP2011286980A 2011-12-27 2011-12-27 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム Pending JP2013135465A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011286980A JP2013135465A (ja) 2011-12-27 2011-12-27 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム
US13/664,727 US20130162900A1 (en) 2011-12-27 2012-10-31 Audio signal processing apparatus, audio signal processing method, program and signal processing system
CN2012105606396A CN103297812A (zh) 2011-12-27 2012-12-20 音频信号处理装置、方法和程序以及信号处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286980A JP2013135465A (ja) 2011-12-27 2011-12-27 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム

Publications (1)

Publication Number Publication Date
JP2013135465A true JP2013135465A (ja) 2013-07-08

Family

ID=48654188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286980A Pending JP2013135465A (ja) 2011-12-27 2011-12-27 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム

Country Status (3)

Country Link
US (1) US20130162900A1 (ja)
JP (1) JP2013135465A (ja)
CN (1) CN103297812A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018093312A (ja) * 2016-11-30 2018-06-14 キヤノン株式会社 画像音響処理装置および画像音響処理方法、プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9386272B2 (en) * 2014-06-27 2016-07-05 Intel Corporation Technologies for audiovisual communication using interestingness algorithms
US10880023B2 (en) * 2018-08-03 2020-12-29 Gracenote, Inc. Vehicle-based media system with audio advertisement and external-device action synchronization feature

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018093312A (ja) * 2016-11-30 2018-06-14 キヤノン株式会社 画像音響処理装置および画像音響処理方法、プログラム

Also Published As

Publication number Publication date
CN103297812A (zh) 2013-09-11
US20130162900A1 (en) 2013-06-27

Similar Documents

Publication Publication Date Title
US7257202B2 (en) Telephone communication system
JP4820592B2 (ja) 動映像ストリームに静止映像を同期化させる方法
JP5463747B2 (ja) 受信装置、送信装置、通信システム、表示制御方法、プログラム、及びデータ構造
JP2008131569A (ja) 画像情報伝送システム、画像情報送信装置、画像情報受信装置、画像情報伝送方法、画像情報送信方法、画像情報受信方法
KR100471176B1 (ko) 화상 복호화 장치와 음성 복호화 장치
JP5428697B2 (ja) 受信装置、受信方法、送信装置およびコンピュータプログラム
TWI236848B (en) Decoder and decoding method
CN1310919A (zh) 压缩数字数据无缝视频切换系统
JP2006345169A (ja) デジタルテレビ受信端末装置
JP2011087195A (ja) 画像処理装置および画像処理方法
TW200830879A (en) Transmitter and receiver
JPWO2011089982A1 (ja) 受信装置、送信装置、通信システム、受信装置の制御方法、及びプログラム
JP2013135465A (ja) 音響信号処理装置、音響信号処理方法、プログラムおよび信号処理システム
JP2013030907A (ja) 符号化装置および符号化方法、並びに、復号装置および復号方法
JP5290842B2 (ja) 放送受信装置、及びその制御方法
JP4735666B2 (ja) コンテンツサーバ、情報処理装置、ネットワーク機器、コンテンツ配信方法、情報処理方法およびコンテンツ配信システム
JP2004328204A (ja) 映像信号処理装置
JP2003037571A (ja) マルチメディア情報送信装置、マルチメディア情報中継装置およびマルチメディア情報受信装置
JP5535267B2 (ja) サーバ、クライアント装置、データ配信方法、およびデータ配信システム
JP2003163897A (ja) コンテンツ送信方法、コンテンツ送信装置、コンテンツ送信プログラムおよびコンテンツ受信制御方法、コンテンツ受信制御装置、コンテンツ受信制御プログラムならびにコンテンツ時刻制御システム
JP2012134760A (ja) 立体映像伝送システム
JP2012004991A (ja) 放送受信装置及びその制御方法
KR20100039717A (ko) 개인용 녹화장치 및 그 제어방법
JP4241916B2 (ja) 電話通信システム
JPWO2004034616A1 (ja) 放送データ送受信システム及び放送データ送受信方法