JP6274244B2

JP6274244B2 - 収音再生装置、収音再生プログラム、収音装置及び再生装置

Info

Publication number: JP6274244B2
Application number: JP2016072376A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2018-02-07
Anticipated expiration: 2036-03-31
Also published as: JP2017184154A

Description

本発明は、収音再生装置、収音再生プログラム、収音装置及び再生装置に関し、例えば複数のエリア内の音をそれぞれ収音し、収音した音響信号を再生するシステムに適用し得るものである。

現在、ＩＣＴの発達に伴い、遠隔地の映像や音情報を用い、あたかも遠隔地にいるかのように体感させる技術への需要が高まっている。

非特許文献１では、離れた場所に存在する複数のオフィス間を映像や音、各種センサ情報などで相互に接続し、遠隔地と円滑にコミュニケーションを取ることができるテレワークシステムを提案している。非特許文献１に記載されたシステムでは、オフィス内のいたるところに複数のカメラとマイクロホンを配置し、それらから得られる映像・音情報を別の離れたオフィスへ伝送する。非特許文献１に記載されたシステムにおいて、ユーザは、遠隔地のカメラを自由に切替えることができ、カメラを切替える度にカメラの近くに配置してあるマイクロホンにより収音された音が再生され、リアルタイムに遠隔地の状況を知ることができる。

さらにテレワークの臨場感を高めるために特許文献１では、特許文献２に記載のエリアの音のみ収音する手法（エリア収音）を利用し、遠隔地の空間をいくつかのエリアに分割して収音し、ユーザの視聴位置に応じて各エリア音に立体音響処理を行った後再生し、更にこれらの処理を実時間動作させる手法（収音再生装置）を提案している。

例えば、図１０（ａ）のように、遠隔地の空間を３×３の９つのエリアに分割している環境において、特許文献１に記載された収音再生装置を用いて各エリアの収音を行い、図１０（ｂ）のように収音した音源の音を立体音響処理して遠隔地のユーザに出力する場合について説明する。また、ここでは、図１０（ａ）に示すように９個のエリアのうちエリアＡ２内を映すようにカメラＣが配置されているものとする。

この場合、特許文献１に記載された収音再生装置では、エリアＡ２を音源とする音を中央（中心）の音源、エリアＡ５の音を前方の音源、エリアＡ１を右方向の音源、エリアＡ３を左方向の音源としてそれぞれ収音する。その後、特許文献１に記載された収音再生装置では、ユーザＵの音響再生環境に合わせて、再生に使用する音源を選択する。

そして、図１０（ｂ）に示すように、特許文献１に記載された収音再生装置では、ユーザＵから見て、中央の音源としてエリアＡ２の音、右方向の音源としてエリアＡ１の音、左方向の音源としてエリアＡ３の音、前方向の音源としてエリアＡ５の音をそれぞれ選択して定位させ、中央のエリアＡ２からの距離に応じてエリア音が徐々に小さくなるように調節した音響信号（立体音響処理した音響信号）を出力する。また、特許文献１に記載された収音再生装置では、ユーザへの再生環境が２チャネル（音響信号を再生出力するスピーカが２つ）の場合、選択した音源に、それぞれの方向に対応する頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を畳み込みバイノーラル音源を作成する。そして、ユーザへの再生環境がヘッドホンやイヤホンの場合、特許文献１に記載された収音再生装置は、作成したバイノーラル音源の音響信号をそのまま再生出力する。また、図１０（ｂ）のように、ユーザへの再生環境が２つのステレオスピーカＳ−１、Ｓ−２の場合、特許文献１に記載された収音再生装置は、バイノーラル音源をスピーカ用のトランスオーラル音源に変換して再生出力する。さらに、ユーザの再生環境が３チャネル以上のスピーカの場合、特許文献１に記載された収音再生装置は、出力先のスピーカの配置に合わせてそれぞれエリア音を処理する。例えばユーザの前後左右に１台ずつ計４個のスビーカが配置されている場合、特許文献１に記載された収音再生装置は、エリアＡ２の音は全てのスピーカから同時に再生し、エリアＡ５、Ａ３、Ａ１の音源の音（前、左、及び右の音源の音）は各方向に対応したスピーカから再生する。

以上のように、特許文献１に記載された収音再生装置を用いれば、ユーザに遠隔地の様々な場所の現在の状況を臨場感豊かに体感させることができる。

特開２０１６−２５４６９号公報特開２０１５−５０５５８号公報

野中他，"複数の映像・音・センサ情報を利用するオフィスコミュニケーションシステム"，ヒューマンインタフェース学会研究報告集Ｖｏｌ．１３Ｎｏ．１０，２０１１．

しかしながら、特許文献１に記載された従来の収音再生装置では、カメラが撮像した映像に映っている場所と収音エリアが一致していることを前提としているため、映像のズーム率を変えたとき等、映像と収音エリアがずれてしまうと、臨場感が弱まってしまう可能性がある。例えば、図１１（ａ）のように、カメラの撮像する映像に２つ以上のエリアが映っている場合は、ユーザ側の画面に映っているエリアＡ１とエリアＡ３の音が画面の外から聞こえることになる。また図１１（ｂ）のように正面がエリアの中心からずれている場合では、エリアＡ１またはエリアＡ２の音が正面から聞こえてしまう。さらに立体音響処理を行わずに、収音したエリアの音を単独で再生する場合においても、画面に映っている場所の一部の音が聞こえない状態となり、用途によっては違和感を生じさせる恐れがある。

以上のような問題に鑑みて、空間内を撮像するカメラの周辺の音を収音し、カメラにより撮像された映像と同期して再生する際に、より高い臨場感を体感させることができる収音再生装置、収音再生プログラム、収音装置及び再生装置が望まれている。

第１の本発明の収音再生装置は、（１）空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、（２）前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、（３）前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、（４）前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、（５）前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段とを有し、（６）前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、（７）前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給することを特徴とする。

第２の本発明の収音装置は、（１）空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、（２）前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、（３）前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、（４）前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段とを有し、（５）前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成することを特徴とする。

第３の本発明の再生装置は、（１）所定の空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、（２）前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、（３）前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、（４）前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段とを有し、（５）前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、（６）前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給することを特徴とする。

第４の本発明の収音再生プログラムは、コンピュータを、（１）空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、（２）前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、（３）前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、（４）前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、（５）前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段として機能させ、（６）前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、（７）前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給することを特徴とする。

本発明によれば、空間内を撮像するカメラの周辺の音を収音し、カメラにより撮像された映像と同期して再生する際に、より高い臨場感を体感させることができる。

第１の実施形態に係る各装置の接続構成及び収音再生装置の機能的構成について示したブロック図である。第１の実施形態に係る収音再生装置を構成するエリア収音部の内部構成について示したブロック図である。第１の実施形態に係る収音再生装置が収音する空間の構成例について示した説明図である。第１の実施形態に係るカメラの撮像領域及び収音対象エリアの例について示した説明図である。第２の実施形態に係る各装置の接続構成及び収音再生装置の機能的構成について示したブロック図である。第２の実施形態に係るカメラの撮像領域及び収音対象エリアの例について示した説明図（その１）である。第２の実施形態に係る立体音響処理部が行う立体音響処理の例について示した説明図（その１）である。第２の実施形態に係るカメラの撮像領域及び収音対象エリアの例について示した説明図（その２）である。第２の実施形態に係る立体音響処理部が行う立体音響処理の例について示した説明図（その２）である。従来の収音再生装置が収音及び再生する処理の例について示した説明図である。従来の収音再生装置が収音する空間におけるカメラの撮像範囲の例について示した説明図である。

（ａ）第１の実施形態
以下、本発明による収音再生装置、及び収音再生プログラムの第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、本発明の第１の実施形態に係る収音再生装置１００の構成を示すブロック図である。

収音再生装置１００は、ｍ個のマイクロホンアレイＭＡ（ＭＡ１〜ＭＡｍ）（ｍは２以上の整数）から入力される入力信号に基づいて、所定の空間Ａ（マイクロホンアレイＭＡ１〜ＭＡｍにより収音可能な空間）における全てのエリアの音（以下、「エリア音」と呼ぶ）を同時に収音することが可能であり、上記所定の空間内の一部のエリアのエリア音を選択し、選択したエリアのエリア音に基づいて、ユーザＵの再生環境に応じた音響信号を生成して出力するものである。ここでは、図１に示すようにユーザＵへの再生環境は１つのスピーカＳであるものとする。したがって、この実施形態の収音再生装置１００は、選択したエリアのエリア音を処理して、スピーカＳに出力する音響信号（１チャネルの音響信号）を生成する。

各マイクロホンアレイＭＡは、２つ以上の図示しないマイクロホンを用いて構成されており、各マイクロホンにより収音する。

収音再生装置１００において、所定の空間Ａ内を複数のエリアに分割し、分割したエリアごとのエリア音を収音する方式については限定されないものであり、種々の方式を適用することができる。この実施形態の収音再生装置１００では、例として、特許文献１に記載された方式を用いて空間Ａ内の各エリアのエリア音を収音するものとして説明する。

また、第１の実施形態では、マイクロホンアレイＭＡにより収音可能な空間Ａ内を撮像するカメラＣと、カメラＣで撮像した映像を表示出力するディスプレイＤが配置されている。ディスプレイＤから表示される映像はユーザＵにより目視される。収音再生装置１００は、ディスプレイＤから表示される映像（カメラＣで撮像される映像）に応じて、選択するエリア（収音する対象となるエリア）を切替える。

第１の実施形態では、空間Ａ内以外の場所（例えば、遠隔地）にいるユーザＵに対して、収音再生装置１００が出力する音響信号に基づく音をスピーカＳから出力し、カメラＣで撮像した映像をディスプレイＤを表示出力することで、ユーザＵに対して映像及び音によりカメラＣの位置にいるかのような臨場感を与えることができる。

カメラＣ及びディスプレイＤの構成は限定されないものであり種々の装置を適用することができる。また、カメラＣで撮像した映像をディスプレイＤまで伝送する方式や映像信号の形式（映像の符号化方式）等は限定されないものであり種々の構成を適用することができる。

また、この実施形態では、収音再生装置１００がマイクロホンアレイＭＡ１〜ＭＡｍを用いて収音する空間Ａは図３に示すような正方形（二次元）で表される空間であるものとする。そして、この実施形態では、空間Ａを６×６の正方形のエリアに分割し、収音再生装置１００は、マイクロホンアレイＭＡ１〜ＭＡｍからの入力信号に基づいて、図３に示す各エリアごとにエリア音を収音することが可能となっているものとする。なお、この実施形態では説明を簡易とするため空間Ａの形状を正方形としたが、空間Ａの形状や大きさは限定されないものである。また、この実施形態では、説明を簡易とするために空間Ａを６×６の正方形のエリア（ブロック）に分割しているが、各エリアの形状や大きさは限定されない（例えば、各エリアの形状や大きさが異なるようにしてもよい）。

図３では、空間Ａの周囲に１２個のマイクロホンアレイＭＡ１〜ＭＡ１２が配置された構成となっている。図３において、各マイクロホンアレイＭＡに付された矢印は、各マイクロホンアレイＭＡが収音する際の指向性の方向（収音エリアの方向）を示している。空間Ａの周囲では図３の方向から見て横方向にマイクロホンアレイＭＡ１〜ＭＡ６が並べて配置されている。また、空間Ａの周囲では、図３の方向から見て縦方向に６個のマイクロホンアレイＭＡ７〜ＭＡ１２が並べて配置されている。この実施形態では、例として、収音再生装置１００は、マイクロホンアレイＭＡ１〜ＭＡ１２から入力される信号に基づいて、空間Ａ内の各エリアのエリア音を収音するものとする。

図３では、上から３段目のエリアについて左から順にＡ１〜Ａ６、上から４段目のエリアについて左から順にＡ７〜Ａ１２、上から５段目のエリアについて左から順にＡ１３〜Ａ１８、上から６段目のエリアについて左から順にＡ１９〜Ａ２４の符号をそれぞれ付している。また、図３では、カメラＣの位置と、カメラＣが撮像する方向Ｚ（撮像する範囲の中心の方向）を図示している。

以上のように第１の実施形態では、図３に示すような環境で、収音再生装置１００は、空間Ａ内の収音再生の処理を行うものとする。

次に、収音再生装置１００の内部構成について、図１、図２を用いて説明する。

収音再生装置１００は、データ入力部１、空間座標データ保持部２、エリア収音部３、画角情報算出部４、エリア範囲判定部５、エリア音統合部６、スピーカ出力部７を有している。

収音再生装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係る収音再生プログラムを含む）をインストールすることによりソフトウェア的に実現するようにしてもよい。

データ入力部１は、各マイクロホンアレイで収音した音響信号をアナログ信号からデジタル信号に変換する。

空間座標データ保持部２は、収音再生装置１００において、収音再生処理に関係する各構成要素に係る位置情報を保持する機能を担っている。空間座標データ保持部２は、例えば、収音対象となる空間全体の情報（例えば、空間Ａの外形（輪郭）を示す各座標等の情報）、カメラＣ（ユーザＵの仮想的な視点となるカメラＣ）の位置や撮像方向Ｚ等に関する情報、収音対象となる各エリアの位置情報（例えば、空間Ａを構成する各エリアの位置情報）、各マイクロホンアレイＭＡの位置情報、各マイクロホンアレイＭＡを構成するマイクロホンの位置情報等を保持している。

エリア収音部３は、各マイクロホンアレイＭＡからの入力信号に基づいて、空間Ａを構成する各エリアのエリア音を収音する。エリア収音部３は、指向性形成部３１、遅延補正部３２、エリア音パワー補正係数算出部３３、及びエリア音抽出部３４を有している。

指向性形成部３１は、各マイクロホンアレイＭＡでビームフォーマ（以下、「ＢＦ」とも呼ぶ）により収音エリア方向（例えば、図３に示す各マイクロホンアレイＭＡに付された矢印の方向）に向けて指向性ビームを形成する。指向性形成部３１において、ＢＦとしては、加算型の遅延和法や、減算型のスペクトラル減算法（以下、「ＳＳ」と呼ぶ）など各種手法を適用することができる。また、指向性形成部３１は、収音する対象の各エリアの範囲に応じて、各マイクロホンアレイＭＡに係る指向性の強度を変更する。以下では、指向性形成部３１がＢＦにより形成した各信号を「ＢＦ出力」とも呼ぶものとする。

遅延補正部３２は、収音する対象の各エリアと、各マイクロホンアレイＭＡの距離の違いにより発生する遅延を算出し、補正する。遅延補正部３２は、全てのエリアのそれぞれと、各エリアの収音に使用される全マイクロホンアレイとの距離の違いにより発生する伝搬遅延時間を算出し、前記全マイクロホンアレイの伝搬遅延時間を補正する。具体的には、遅延補正部３２は、空間座標データ保持部２からエリアの位置情報と、当該エリアの収音に使用される全マイクロホンアレイＭＡ１〜ＭＡｍの位置情報を取得し、当該エリアから、当該エリアの収音に使用される全マイクロホンアレイＭＡへのエリア音の到達時間の差（伝搬遅延時間）を算出する。そして、遅延補正部３２は、当該エリアから最も遠い位置に配置されたマイクロホンアレイＭＡを基準として、全てのマイクロホンアレイＭＡにエリア音が同時に到達するように、全てのマイクロホンアレイＭＡからのＢＦ出力に伝搬遅延時間を加えて遅延を補正する。また、遅延補正部３２は、全てのエリアについて、それぞれのエリアの収音に使用される全マイクロホンアレイＭＡからのＢＦ出力に対して遅延補正を行う。

エリア音パワー補正係数算出部３３は、全てのエリアのそれぞれの収音に使用される各マイクロホンアレイからの各ＢＦ出力に含まれるエリア音のパワーをそれぞれ同じにするためのパワー補正係数を算出するものである。エリア音パワー補正係数算出部３３は、補正係数を求めるために、まず各ＢＦ出力問で周波数毎に振幅スペクトルの比率を求める。この際、指向性形成部３１でＢＦを時間領域で行っている場合は、周波数領域に変換する。そして、エリア音パワー補正係数算出部３３は、パワー補正係数を求めるために、例えば、各ＢＦ出力の間で周波数毎の振幅スペクトルの比率を算出する。次に、エリア音パワー補正係数算出部３３は、求めた各周波数の振幅スペクトルの比率から最頻値若しくは中央値を算出し、その値をパワー補正係数とする。具体的には、エリア音パワー補正係数算出部３３は、例えば、以下の（１）式による最頻値、又は、以下の（２）式による中央値に基づいて、パワー補正係数を算出することができる。（１）式、（２）式において、Ｘ_ｉｋ（ｎ），Ｘ_ｊｋ（ｎ）は、それぞれマイクロホンアレイｉ，ｊのＢＦの出力である。また、（１）式、（２）式において、Ｎは周波数ビンの総数、ｋは周波数、α_ｉｊ（ｎ）はＢＦ出力に対するパワー補正係数である。

エリア音抽出部３４は、エリア音パワー補正係数算出部３３で算出した補正係数により補正した各ＢＦ出力データをＳＳし、収音エリア方向に存在する雑音を抽出する。さらに、エリア音抽出部３４は、抽出した雑音を各ＢＦ出力からＳＳすることにより各エリアのエリア音を抽出する。マイクロホンアレイｉからみた収音エリア方向に存在する雑音Ｎ_ｉｊ（ｎ）を抽出するには、（３）式に示すように、マイクロホンアレイｉのＢＦ出力Ｘ_ｉ（ｎ）からマイクロホンアレイｊのＢＦ出力Ｘ_ｊ（ｎ）にパワー補正係数α_ｉｊを掛けたものをＳＳする。その後、エリア音抽出部３４は、（４）式に従い、各ＢＦ出力から雑音をＳＳすることにより各エリアのエリア音を抽出する。γ_ｉｊ（ｎ）はＳＳ時の強度を変更するための係数である。
Ｎ_ｉｊ（ｎ）＝Ｘ_ｉ（ｎ）−α_ｉｊ（ｎ）Ｘ_ｊ（ｎ） …（３）
Ｙ_ｉｊ（ｎ）＝Ｘ_ｉ（ｎ）−γ_ｉｊ（ｎ）Ｎ_ｉｊ（ｎ） …（４）

以上のように、エリア収音部３は、マイクロホンアレイＭＡ１〜ＭＡｍからの入力信号に基づき各エリアのエリア音を収音する処理を行う。この実施形態では、図３に示す空間Ａにおいて、マイクロホンアレイＭＡ１〜ＭＡ１２を用いて各エリアのエリア音を収音する場合について説明する。エリア収音部３は、例えば、エリアＡ１のエリア音を収音する場合、ＢＦの指向性がエリアＡ１の方に向けられているマイクロホンアレイＭＡ１とマイクロホンアレイＭＡ９のＢＦ出力を用いた抽出処理を行う。

画角情報算出部４は、カメラＣ（例えば、ユーザＵの仮想的な視点となるカメラＣ）の撮像に係るパラメータ（例えば、位置、撮像方向Ｚ、及びズーム率等）に基づいて、空間Ａ内でカメラＣが撮像している領域を判定するものである。画角情報算出部４は、例えば、カメラＣの位置、撮像方向Ｚ、画角（視野角）、及びズーム率を撮像に係るパラメータ（以下、「撮像パラメータ」と呼ぶ）として取得し、取得したパラメータに応じて、現在カメラＣが撮像している空間Ａ内の領域（以下、「撮像領域」と呼ぶ）を判定（例えば、撮像領域の位置、形状等を判定）する。画角情報算出部４では、例えば、予め撮像パラメータの組み合わせに応じた撮像領域の情報を保持しておき、入力された撮像パラメータに応じた撮像領域を選択するようにしてもよい。具体的には、例えば、カメラＣのズーム率のみが変動するとした場合、画角情報算出部４は、予めカメラＣの位置、撮像方向Ｚ、及び画角に基づいて予めズーム率ごとの撮像領域を算出し、算出した撮像領域の情報を保持しておいて、カメラＣのズーム率に応じて対応する撮像領域の情報を出力するようにしてもよい。画角情報算出部４がカメラＣの切替（ユーザＵの仮想的な視点となるカメラＣの切替）や、カメラＣの撮像パラメータを取得する方式については限定されないものであり種々の方式を適用することができる。例えば、空間座標データ保持部２が撮像パラメータを保持して画角情報算出部４に供給するようにしてもよい。

また、画角情報算出部４において、撮像パラメータの内容（データ構成）や、撮像パラメータに基づく撮像領域の判定方法については限定されないものであり、種々の方式を適用することができる。以上のように、画角情報算出部４は、撮像領域ＡＦを保持する撮像領域保持手段として機能する。

エリア範囲判定部５は、画角情報算出部４から供給された撮像領域の情報に基づき空間Ａ上のどのエリアが撮像領域に対応するエリアであるかを判定する。エリア範囲判定部５は、例えば、空間Ａの各エリアについて撮像領域と重なる部分（面積）を判定し、所定以上（例えば、全体面積の半分以上）撮像領域が含まれているエリアについて、撮像領域に対応するエリアとして判断するものとする。なお、この実施形態では、エリア範囲判定部５は、撮像領域の情報に基づいて中央エリアを判定しているが、撮像パラメータの情報に基づいて直接撮像領域に対応するエリアを判定するようにしてもよい。

エリア音統合部６は、エリア範囲判定部５から供給された撮像領域に対応するエリアの情報に基づいて、収音対象となる領域（以下、「収音対象エリア」と呼ぶ）を判定する。この実施形態では、エリア音統合部６は、エリア範囲判定部５から供給された撮像領域に対応するエリアを、収音対象エリアとして判定するものとする。そして、エリア音統合部６は、収音対象エリアを構成する各エリアのエリア音を混合（統合）した音響信号（以下、「収音対象エリア音」と呼ぶ）を生成する。この実施形態では、ユーザＵの再生環境は、１チャネルのスピーカＳであるため、エリア音統合部６は、収音対象エリアの各エリア音を混合した１つの音響信号（１チャネルの音響信号）を収音対象エリア音として生成する。以上のように、エリア音統合部６は、収音対象エリアを設定する収音対象エリア設定手段として機能する。また、第１の実施形態では、エリア音統合部６が、収音対象エリア内の音を統合（混合）する統合手段として機能する。

スピーカ出力部７は、エリア音統合部６から供給された収音対象エリア音の音響信号を、スピーカＳに出力する。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の収音再生装置１００の動作を説明する。

以下では、エリア収音部３により、空間Ａを構成する各エリアのエリア音が収音されていることを前提とし、画角情報算出部４、エリア範囲判定部５、及びエリア音統合部６の動作を中心とした説明を行う。

図４は、第１の実施形態においてカメラＣの撮像領域及び収音対象エリアの例について示した説明図である。

図４では、カメラＣによる撮像領域をＡＦ、撮像領域に基づく収音対象エリアをＡＰと図示している。

画角情報算出部４では、供給された撮像パラメータ（例えば、カメラＣの位置、撮像方向Ｚ、画角（視野角）、及びズーム率）に基づいて撮像領域ＡＦが判定される。例えば、画角情報算出部４は、カメラＣの位置、撮像方向Ｚ、及び画角（視野角）に基づいて、図４に示すような扇形の領域（カメラＣの位置を中心位置とした扇形）を撮像領域ＡＦとして判定するようにしてもよい。画角情報算出部４は、例えば、カメラＣの位置、撮像方向Ｚに応じて撮像領域ＡＦを構成する扇形の中心位置及び向きを調整するようにしてもよい。また、画角情報算出部４は、例えば、カメラＣのズーム率に応じて、撮像領域ＡＦを構成する扇形の半径を調整するようにしてもよい。さらにまた、画角情報算出部４は、カメラＣの画角に応じて、撮像領域ＡＦを構成する扇形の中心角の角度を調整するようにしてもよい。

そして、エリア範囲判定部５は、画角情報算出部４により判定された撮像領域ＡＦに基づいて、撮像領域ＡＦに対応するエリアを判定する。この実施形態の例では、エリア範囲判定部５は、撮像領域ＡＦと重なる領域が半分以上となるエリアを、撮像領域ＡＦに対応するエリアとして判定する。図４の例では、撮像領域ＡＦと重なる領域が半分以上のエリアは、エリアＡ３、Ａ４、Ａ９、Ａ１０となるため、エリア範囲判定部５は、エリアＡ３、Ａ４、Ａ９、Ａ１０を、撮像領域ＡＦに対応するエリアとして判定する。

エリア音統合部６は、エリア範囲判定部５で判定された撮像領域ＡＦに対応するエリアを、収音対象エリアＡＰとして決定する。そして、エリア音統合部６は、決定した収音対象エリアＡＰの各エリア音（エリアＡ３、Ａ４、Ａ９、Ａ１０の各エリア音）を混合（統合）して収音対象エリア音を生成し、スピーカ出力部７に供給することになる。

これにより、ユーザＵには、撮像領域ＡＦ内を撮像した映像（画像）がディスプレイＤから表示出力されたときに、撮像領域ＡＦに基づく収音対象エリアＡＰ内の各エリア音（エリアＡ３、Ａ４、Ａ９、Ａ１０の各エリア音）を統合（混合）した音が出力（表音出力）されることになる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

収音再生装置１００では、カメラＣの撮像領域ＡＦに対応するエリアを統合して収音対象エリアＡＰとして決定し、収音対象エリアＡＰ内のエリア音を混合した音音響信号を出力する。すなわち、収音再生装置１００は、ディスプレイＤに映っている映像の範囲（カメラＣが撮像した映像の範囲）に応じて、エリア音を統合（混合）するエリアの範囲を切替える。したがって、第１の実施形態では、ユーザＵは、ディスプレイＤに映る映像の動作（例えば、ズーム等の動作）と連動して、エリア音を統合（混合）するエリアの範囲が切替えられた音を聴取することができる。すなわち、第１の実施形態では、ユーザＵは、常にディスプレイＤに映っている範囲のエリア音を統合（混合）した音を聞くことができるようになるため、ユーザＵに遠隔地の状況を臨場感豊かに体感させることが可能となる。

（Ｂ）第２の実施形態
以下、本発明による収音再生装置、及び収音再生プログラムの第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
図５は、本発明の第２の実施形態に係る収音再生装置１００Ａの構成を示すブロック図である。図５では、上述の図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第２の実施形態について、第１の実施形態との差異を説明する。

第２の実施形態の収音再生装置１００Ａでは、統合エリア音選択部８、統合エリア音量調節部９、立体音響処理部１０、及び伝達関数データ保持部１１が追加されている点で第１の実施形態と異なっている。

また、第２の実施形態では、ユーザＵの再生環境がモノラルのスピーカＳではなく、ｎ個（ｎは２以上の整数）のスピーカＳ（Ｓ−１〜Ｓ−ｎ）により構成されたスピーカアレイＳＡとなっている。したがって、この実施形態では、収音再生装置１００Ａは、ｎチャネルの音響信号（ｎ個のスピーカＳ−１〜Ｓ−ｎのそれぞれに対応するラインの音響信号）を出力することになる。

第２の実施形態のエリア音統合部６は、収音対象エリア音として、撮像領域ＡＦに対応するエリアだけでなく、撮像領域ＡＦに対応するエリアの更に周辺のエリアについても収音対象エリアＡＰに含める点で第１の実施形態と異なっている。以下では、撮像領域ＡＦに対応するエリアを統合したエリアを「中央エリア」と呼ぶものとする）。

第２の実施形態において、エリア音統合部６は、例えば、中央エリア（例えば、２×２のエリアにより構成されるエリア）と、中央エリアのエリア周囲のエリア（中央エリアと同様の面積のエリア）とを含むエリアを収音対象エリアＡＰとして設定する。なお、中央エリアの周囲で、中央エリアと同じ面積のエリアを設定できない場合（面積が足りない場合）、設定可能なエリアのみを収音対象エリアＡＰとする。

統合エリア音選択部８は、エリア音統合部６で決定された収音対象エリアＡＰに含まれる各エリア（エリア音）を、複数（ユーザＵに定位する音源の数分）の領域（以下、「統合エリア」又は「サブエリア」と呼ぶ）に分割する。そして、統合エリア音選択部８は、統合エリアごとに、当該統合エリアに含まれるエリア音を混合（統合）して「統合エリア音」を生成する。統合エリア音選択部８が決定する統合エリア（音源）の数は、後述する立体音響処理部１０で立体音響処理する際に定位する各方向（位置）の数（定位する音源の数）と同じとなる。言い換えると、統合エリア音選択部８は、立体音響処理部１０で立体音響処理する際に定位する各方向（位置）に対応する統合エリアを決定する。

統合エリア音量調節部９は、統合エリア音選択部８が生成した各統合エリア音の音量（パワー）を統合エリアの位置に応じて調節する。例えば、統合エリア音量調節部９は、カメラＣの位置（ユーザの仮想的な視聴位置）からの距離に応じて、各統合エリア音の音量（パワー）を調節するようにしてもよい。具体的には、例えば、統合エリア音量調節部９は、カメラＣの位置（ユーザの仮想的な視聴位置）から遠い統合エリアほど音量を小さくする処理（近い統合エリアほど音量を大きくする処理）を行うようにしてもよい。また、統合エリア音量調節部９は、例えば、中央の統合エリア（例えば、中央エリアを含む統合エリア）の音量を一番大きくし、中央の統合エリアの周囲の統合エリアの音量を小さく設定するようにしてもよい。

立体音響処理部１０は、遠隔地のユーザＵの再生環境に応じて各統合エリア音（統合エリア音量調節部９により調整された統合エリア音）を音源とする立体音響処理を行う。例えば、立体音響処理部１０は、各統合エリア音について、当該統合エリア音に対応する統合エリアの方向に定位するように立体音響処理を行う。立体音響処理部１０は、例えば、カメラＣの位置をユーザＵの仮想的な視聴位置（ユーザＵの頭部の位置）、カメラＣの撮像方向ＺをユーザＵの仮想的な視線の方向とし、各統合エリア音を、ユーザの仮想的な視点から各統合エリアへの方向（位置）に定位（音像定位）するように立体音響処理を行い、ユーザの再生環境に応じた音響信号として出力する。すなわち、立体音響処理部１０は、統合エリア音を立体音響処理し、スピーカアレイＳＡを構成するスピーカＳの数ｎ分の音響信号（ｎチャネルの音響信号）として出力する。また、立体音響処理部１０は、ユーザの再生環境に応じて、立体音響処理の方式を切り替え可能とするようにしてもよい。

例えば、ユーザＵの再生環境がヘッドホン又はイヤホンである場合、立体音響処理部１０は、伝達関数データ保持部１１から、各統合エリア音（音源）に対応する方向のＨＲＴＦを取得して、各統合エリア音に対応する方向のＨＲＴＦを畳み込み、バイノーラル音源となる音響信号（ヘッドホン又はイヤホンに出力する２チャネルの音響信号）を生成するようにしてもよい。また、ユーザＵの再生環境が複数のスピーカにより構成されたスピーカアレイ（ステレオスピーカ）である場合、立体音響処理部１０は、統合エリア音に基づくバイノーラル音源の音響信号を、さらにトランスオーラル音源の音響信号に変換するようにしてもよい。立体音響処理部１０は、例えば、伝達関数データ保持部１１からユーザＵと各スピーカＳ間の室内伝達関数を取得し、室内伝達関数を用いて設計したクロストークキャンセラを用いて、バイノーラル音源の音響信号をトランスオーラル音源の音響信号に変換するようにしてもよい。さらに、ユーザＵの再生環境が３つ以上のスピーカＳを使用する環境の場合（すなわち、スピーカアレイＳＡを構成するスピーカＳの数ｎが３以上の場合）、立体音響処理部１０は、スピーカＳの位置を含む統合エリアの統合エリア音については、立体音響処理を行わずにそのまま出力するようにしてもよいし、立体音響処理（例えば、トランスオーラル音源に変換する処理）を行うようにしてもよい。

以上のように、立体音響処理部１０では、バイノーラル方式やトランスオーラル方式等の種々の立体音響処理の方式を適用することができる。

伝達関数データ保持部１１は、立体音響処理部１０で必要となる種々のデータを保持する。例えば、立体音響処理部１０がバイノーラル方式により立体音響処理を行う場合、伝達関数データ保持部１１は、少なくともユーザＵから各方向へ音源（統合エリア音）を定位させるためのＨＲＴＦを保持する。また、立体音響処理部１０がトランスオーラル方式により立体音響処理を行う場合、伝達関数データ保持部１１は、上述のＨＲＴＦに加えて、ユーザＵと各スピーカＳとの間の室内伝達関数を保持する。

スピーカ出力部７は、立体音響処理部１０から出力されたそれぞれのチャネルの音響信号を対応するスピーカＳに出力する。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の収音再生装置１００Ａの動作を説明する。

ここでは、エリア収音部３により、空間Ａを構成する各エリアのエリア音が収音されていることを前提とする。また、ここでは、第１の実施形態と同様に、画角情報算出部４により撮像領域ＡＦが判定され、エリア範囲判定部５により撮像領域ＡＦに対応する中央エリアが判定されているものとする。したがって、以下では、エリア音統合部６、統合エリア音選択部８、統合エリア音量調節部９、及び立体音響処理部１０の動作を中心とした説明を行う。さらに、ここでは、スピーカアレイＳＡは、２個のスピーカＳ−１、Ｓ−２（ステレオスピーカ）により構成されているものとする。

図６は、第２の実施形態におけるカメラＣの撮像領域及び収音対象エリアの例について示した説明図である。図６では、撮像領域ＡＦに対応する中央エリアをＡＸ、収音対象エリア全体をＡＰと図示している。

まず、図６を用いて、エリア音統合部６が収音対象エリアＡＰを決定する処理について説明する。

図６では、撮像領域ＡＦに対応する中央エリアＡＸは、エリアＡ３、Ａ４、Ａ９、Ａ１０（２×２のブロック）により構成されている。したがって、図６の例では、収音対象エリアＡＰは、収音対象エリアＡＰとして、中央エリアＡＸと、中央エリアＡＸの周囲のエリア（中央エリアＡＸと同じ２×２のブロック）とにより構成されるエリアを決定する。

この実施形態では、エリア音統合部６は、収音対象エリアＡＰに、中央エリアＡＸと、中央エリアＡＸの周囲のブロックのうち、立体音響処理部１０が音源を定位する方向に応じたブロックを収音対象エリアＡＰに含めるものとする。この実施形態では、立体音響処理部１０は、ユーザＵから見て、中央（ユーザＵの位置又はユーザＵに極近い位置）、左方向、右方向、前方の計４つの音源に分けて立体音響処理を行うものとする。したがって、図６の例では、収音対象エリアＡＰは、中央エリアＡＸと、カメラＣから見て中央エリアＡＸの前方方向の２×２のブロック（エリアＡ１５、Ａ１６、Ａ２１、Ａ２２のブロック）と、中央エリアＡＸの右側のブロック（エリアＡ１、Ａ２、Ａ７、Ａ８のブロック）と、中央エリアＡＸの左側の２×２のブロック（エリアＡ５、Ａ６、Ａ１１、Ａ１２のブロック）とで構成されている。なお、エリア音統合部６は、立体音響処理部１０が立体音響処理に適用する音源の方向に応じて、収音対象エリアＡＰに、中央エリアＡＸの後方のブロックや、右斜め前のブロックや、左斜め前のブロックを追加するようにしてもよい。

次に、図６を用いて、統合エリア音選択部８が収音対象エリアＡＰを複数の統合エリアに分割（立体音響処理部１０が音源を定位する方向の数に分割）する処理について説明する。

この実施形態では、立体音響処理部１０は、ユーザＵから見て、中央（中心）の位置（ユーザＵの位置又はユーザＵに極近い位置）、左方向、右方向、前方の計４つの音源に分けて立体音響処理を行う。したがって、統合エリア音選択部８は、図６に示すように、撮像領域ＡＦに対応する中央エリアＡＸを中央に対応する中央統合エリアＡＣ−Ｃとして分割する。また、統合エリア音選択部８は、中央統合エリアＡＣ−Ｃ（中央エリアＡＸ）の右側の２×２のブロック（中央エリアＡＸと同じ面積のブロック）を、右方向に対応する右方統合エリアＡＣ−Ｒとして分割する。さらに、統合エリア音選択部８は、中央統合エリアＡＣ−Ｃ（中央エリアＡＸ）の左側の２×２のブロックを、左方向に対応する左方統合エリアＡＣ−Ｌとして分割する。さらにまた、統合エリア音選択部８は、中央統合エリアＡＣ−Ｃ（中央エリアＡＸ）の前側の２×２のブロックを、前方向に対応する前方統合エリアＡＣ−Ｆとして分割する。

したがって、図６の例では、統合エリア音選択部８は、中央統合エリアＡＣ−Ｃの各エリア音を混合した音を中央の統合エリア音（音源）として生成し、右方統合エリアＡＣ−Ｒの各エリア音を混合した音を右方向の統合エリア音（音源）として生成し、左方統合エリアＡＣ−Ｌの各エリア音を混合した音を左方向の統合エリア音（音源）として生成し、前方統合エリアＡＣ−Ｆの各エリア音を混合した音を前方向の統合エリア音（音源）として生成する。そして、統合エリア音選択部８は、生成した各統合エリアの統合エリア音を統合エリア音量調節部９に供給する。以上のように、第２の実施形態では、統合エリア音選択部８が、統合エリアごとにエリア音を統合（混合）する統合手段として機能する。

次に、統合エリア音量調節部９は、各統合エリアの位置やカメラＣからの方向に応じて各統合エリア音の音量（パワー）を調整する。

例えば、また、統合エリア音量調節部９は、中央統合エリアＡＣ−Ｃの統合エリア音の音量を最も大きく設定し、それ以外の各方向の統合エリア音の音量を、それぞれ中央統合エリアＡＣ−Ｃよりも低い音量に設定するようにしてもよい。

次に、立体音響処理部１０は、ユーザの再生環境に応じて、各統合エリア音を対応する方向に定位させる立体音響処理を行う。

図７は、立体音響処理部１０が行う立体音響処理の例について示した説明図である。

図７では、ユーザＵの前方にスピーカＳ−１、Ｓ−２が配置されている。また、図７では、ユーザＵの前方にディスプレイＤが配置されている。

図７の例では、ユーザＵから見て中央の位置（ユーザＵの位置）をＰ−Ｃ、右方向の位置（ディスプレイＤの右側の位置）をＰ−Ｒ、左方向の位置をＰ−Ｌ（ディスプレイＤの左方向の位置）、前方の位置（ディスプレイＤと同じ方向の位置）をＰ−Ｆと図示している。

そして、図７の例では、立体音響処理部１０は、中央統合エリアＡＣ−Ｃの統合エリア音を中央の位置Ｐ−Ｃに対応する方向（例えば、前方）に定位し、右方統合エリアＡＣ−Ｒの統合エリア音を右方向に定位し、左方統合エリアＡＣ−Ｌの統合エリア音を左方向に定位し、前方統合エリアＡＣ−Ｆの統合エリア音を前方向に定位するように立体音響処理（ユーザＵに対する立体音響処理）を行う。そして、立体音響処理部１０は、上述の４つの音源を対応する方向（位置）に定位した２チャネルの音響信号（２つのスピーカＳ−１、Ｓ−２のそれぞれに出力するための音響信号）を生成して、スピーカ出力部７に供給する。そして、スピーカ出力部７は、立体音響処理された音響信号（２チャネルの音響信号）を、それぞれスピーカＳ−１、Ｓ−２に出力する。

なお、図６、図７の例では、各統合エリアを中央エリアＡＸと同じ面積のブロックに設定する例について説明したが、統合エリア音選択部８は、立体音響処理部１０が対応する場合、一部の統合エリアをさらに複数のサブエリアに分割するようにしてもよい。

例えば、統合エリア音選択部８は、図８に示すように中央統合エリアＡＣ−Ｃをさらに左右に分割し、２つのサブエリアＡＣ−ＣＲ（エリアＡ３、Ａ９）、ＡＣ−ＣＬ（エリアＡ４、Ａ１０）を設定するようにしてもよい。

この場合、立体音響処理部１０は、中央統合エリアＡＣ−Ｃの統合エリア音ではなく、図８に示すように、右側のサブエリアＡＣ−ＣＲの統合エリア音と、左側のサブエリアＡＣ−ＣＬの統合エリア音を生成することになる。そして、この場合、立体音響処理部１０は、図９に示すように、右側のサブエリアＡＣ−ＣＲの統合エリア音を、中央右側の位置Ｐ−ＣＲに対応する方向（例えば、ユーザＵから見て右斜め前方向）に定位する。また、立体音響処理部１０は、図９に示すように、左側のサブエリアＡＣ−ＣＬの統合エリア音を、中央左側の位置Ｐ−ＣＬに対応する方向（例えば、ユーザＵから見て左斜め前方向の方向）に定位する。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて、以下のような効果を奏することができる。

第２の実施形態の収音再生装置１００Ａでは、撮像領域ＡＦに対応する中央エリアと、その周囲のエリアを収音対象エリアＡＰとし、収音対象エリアＡＰを分割した統合エリアの統合エリア音を音源として立体音響処理を行っている。これにより、第２の実施形態では、ユーザＵに、ディスプレイＤに映るエリアの範囲外のエリア音について、それぞれ対応する方向から聞こえることになるため、ユーザＵに遠隔地の状況を臨場感豊かに体感させることが可能となる。

また、第２の実施形態の収音再生装置１００Ａでは、統合エリア音を一つの音源として立体音響処理を行うため、各エリアのエリア音をそれぞれ一つの音源とした立体音響処理を行うより、少ない処理量で効率良く立体音響処理を行うことができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記の各実施形態では、空間Ａのエリア音を収音する収音再生装置について説明したが、収音再生装置から再生機能を省略した収音装置として構成するようにしてもよい。例えば、第１及び第２の実施形態の収音再生装置１００、１００Ａから、スピーカ出力部７を省略した装置を収音装置として構成するようにしてもよい。

本発明の収音装置は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係る収音プログラムを含む）をインストールすることによりソフトウェア的に実現するようにしてもよい。

（Ｃ−２）上記の各実施形態では、空間Ａのエリア音を収音する収音再生装置について説明したが、収音再生装置から収音機能を省略した再生装置として構成するようにしてもよい。例えば、第１及び第２の実施形態の収音再生装置１００、１００Ａから、データ入力部１及びエリア収音部３を省略した装置を再生装置として構成するようにしてもよい。例えば、本発明の再生装置では、予め各エリアのエリア音の音響信号を保持（例えば、オフラインでデータ記録媒体により保持）して再生処理（エリア収音部３より後段の音響信号処理）を行う装置として構成するようにしてもよい。

本発明の再生装置は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係る再生プログラムを含む）をインストールすることによりソフトウェア的に実現するようにしてもよい。

（Ｃ−３）上記の各実施形態では、空間Ａは図３に示すように２次元で表すことが可能な空間であるため、撮像領域も図３に示す空間Ａ上で２次元的に表されるものとして説明したが、空間Ａが三次元的に表される空間としてもよい。この場合、空間Ａを構成する各エリア（空間）は、三次元的な形状（例えば、立方体）となる。そして、この場合、収音再生装置は、カメラＣによる撮像領域を３次元的な空間として認識し、各エリアについて、含まれる撮像領域の体積に応じて、撮像領域に対応するエリア（中央エリア）であるか否かを判定するようにしてもよい。そして、この場合、収音再生装置は、撮像領域に対応するエリア（中央エリア）の周囲を三次元的に認識して収音対象エリアを認識（例えば、前後左右だけでなく上下方向についても収音対象エリアと認識）する必要がある。

１００…収音再生装置、１…データ入力部、２…空間座標データ保持部、３…エリア収音部、３１…指向性形成部、３２…遅延補正部、３３…エリア音パワー補正係数算出部、３４…エリア音抽出部、４…画角情報算出部、５…エリア範囲判定部、６…エリア音統合部、７…スピーカ出力部、ＭＡ、ＭＡ１〜ＭＡｍ…マイクロホンアレイ、Ｓ…スピーカ、Ｄ…ディスプレイ、Ｕ…ユーザ。

Claims

空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、
前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、
前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、
前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、
前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段とを有し、
前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、
前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給する
ことを特徴とする収音再生装置。
前記撮像領域保持手段は、前記カメラの撮像条件を示す撮像パラメータに基づいて、前記カメラによる前記撮像領域を算出し、算出した撮像領域の情報を保持することを特徴とする請求項１に記載の収音再生装置。
前記撮像パラメータには、前記カメラの位置、撮像方向、画角、及びズーム率が含まれることを特徴とする請求項２に記載の収音再生装置。
前記収音対象エリア設定手段は、前記中央エリアと、前記中央エリアの周囲のエリアとを含むエリアを前収音対象エリアと設定することを特徴とする請求項１〜３のいずれかに記載の収音再生装置。
前記統合手段は、前記収音対象エリアを、立体音響処理で定位する音源ごとに対応する統合エリアに分割し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、
前記統合手段が生成した各統合エリア音の音源を、それぞれ対応する方向に定位させる立体音響処理手段をさらに備え、
前記出力手段は、前記立体音響処理手段が立体音響処理した結果生成された音響信号を出力する
ことを特徴とする請求項１〜４のいずれかに記載の収音再生装置。
前記統合手段により生成された各統合エリア音について、前記カメラと当該統合エリア音の統合エリアとの位置関係に応じた音量に調整する統合エリア音調整手段をさらに有することを特徴とする請求項５に記載の収音再生装置。
空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、
前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、
前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、
前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段とを有し、
前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成する
ことを特徴とする収音装置。
所定の空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、
前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、
前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、
前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段とを有し、
前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、
前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給する
を有することを特徴とする再生装置。
コンピュータを、
空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、前記空間内の分割された各エリアのエリア音を収音可能な収音手段と、
前記空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、
前記空間内で、前記撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、
前記収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、
前記統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段として機能させ、
前記統合手段は、前記収音対象エリアから、１又は複数の統合エリアを抽出し、各統合エリアについて、当該統合エリアに含まれるエリアのエリア音を混合した統合エリア音を生成し、
前記出力手段は、前記統合手段が生成した統合エリア音に基づく音響信号を前記出力部に供給する
ことを特徴とする収音再生プログラム。