JP2018064215A

JP2018064215A - 信号処理装置、信号処理方法、およびプログラム

Info

Publication number: JP2018064215A
Application number: JP2016202038A
Authority: JP
Inventors: 典朗多和田; Noriaki Tawada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2018-04-19

Abstract

【課題】音を適切に取得できるように収音対象エリアを分割する。
【解決手段】収音装置の収音対象エリアにおける音響信号を処理する信号処理装置は、該収音装置と該収音対象エリアとの位置関係に基づいて、該収音対象エリアを分割する最小サイズを決定し、該最小サイズ以上の分割サイズで、該収音対象エリアを分割する分割手段と、該分割された分割エリアそれぞれにおいて該収音装置により収音された音響信号を処理する。
【選択図】図３

Description

本発明は、収音対象エリアをエリア分割する信号処理システムに関する。

収音対象エリアを複数の分割エリアに分割し、マイクアレイを利用して各分割エリアの音を取得し、当該音を用いて収音対象エリアにいるかのような音場を再現する技術が、近年注目されている。特許文献１には、マイクアレイを利用して各分割エリアの音を取得して、頭部伝達関数（Head-Related Transfer Function（ＨＲＴＦ））を適用して再生することで、音場を再現する技術が開示されている。

特開２０１６−２５４６９号公報

音場再現において、仮想的な聴取位置・姿勢を様々に設定することを考えると、平均的に良好な再生を実現するためには、収音対象エリアを縦横比が１に近い分割エリアに略均等に分割することが望ましい。また同時に、音場再現における空間的な分解能を考えると、マイクアレイで適切に音を取得可能な範囲内で、各分割エリアはなるべく小さい方が望ましい。しかしながら、従来において、音を適切に取得できるように収音対象エリアを分割する技術については提案されていなかった。

本発明は上記課題を解決するために成されたものであり、音を適切に取得できるように収音対象エリアを分割することを目的とする。

上記目的を達成するための一手段として、本発明の情報処理装置は以下の構成を有する。すなわち、収音装置の収音対象エリアにおける音響信号を処理する信号処理装置であって、前記収音装置と前記収音対象エリアとの位置関係に基づいて、前記収音対象エリアを分割する最小サイズを決定する決定手段と、前記最小サイズ以上の分割サイズで、前記収音対象エリアを分割する分割手段と、前記分割手段により分割された分割エリアそれぞれにおいて前記収音装置により収音された音響信号を処理する処理手段と、を有する。

以上の構成から成る本発明によれば、音を適切に取得できるように収音対象エリアを分割することが可能となる。

実施形態における信号処理システムの概略図。実施形態において実行される処理のフローチャート。実施形態におけるエリア分割を説明するための図。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

図１は、実施形態における信号処理システム１０を概略的に示す図である。信号処理システム１０は、信号処理装置１００、収音装置１１０、およびＶ個の撮影装置１２０−１〜１２０−Ｖを備える。信号処理装置１００については後述する。収音装置１１０は、Ｍ個のマイク素子を備えたマイクアレイで構成される。収音装置１１０は、収音のためのＩ／Ｆ（増幅やＡＤ変換を行うインタフェース）を備え、収音している音響信号を信号処理装置１００の記憶部１０１に逐次記録する。撮影装置１２０−１〜１２０−Ｖのそれぞれは、カメラで構成され、撮影のためのＩ／Ｆを備え、撮影により取得している映像（画像）信号を信号処理装置１００の記憶部１０１に逐次記録する。なお、収音装置１１０は、撮影装置１２０−１〜１２０−Ｖの少なくとも一つと位置・姿勢関係が明らかなように配置されているものとする。

信号処理装置１００は、記憶部１０１、解析処理部１０２、幾何処理部１０３、分割処理部１０４、表示部１０５、表示処理部１０６、操作検出部１０７、および再生部１０８を備える。

記憶部１０１は、各種データを記憶する。解析処理部１０２は、収音装置１１０により収音された音響信号や、撮影装置１２０−１〜１２０−Ｖにより取得された映像（画像）信号に対する解析処理を行う。例えば、解析処理部１０２は、収音装置１１０が収音している音響信号に対し、指向性形成のフィルタ係数を選択して掛け合わせることで、収音装置１１０の指向性を形成する。また、解析処理部１０２は、記憶部１０１に記録されている情報に基づいて、収音装置１１０に対する制御も行う。幾何処理部１０３は、座標変換等の幾何処理を行う。分割処理部１０４は、収音対象エリアのエリア分割に関する処理を行う。表示部１０５は、典型的にはディスプレイであり、各種表示を行う。本実施形態では、表示部１０５は、タッチパネルで構成されるものとする。表示処理部１０６は、収音対象エリアのエリア分割に関する画像を生成し、表示部１０５に表示する。操作検出部１０７は、タッチパネルで構成される表示部１０５へのユーザ操作入力を検出する。再生部１０８は、本実施形態ではヘッドホンで構成され、再生のためのＩ／Ｆ（ＤＡ変換や増幅を行うインタフェース）を備え、生成された再生信号をヘッドホンから再生する。

以下、本実施形態の処理について、図２と図３を参照して説明する。図２は、信号処理システム１０において実施される処理のフローチャートである。また、図３（ａ）および図３（ｂ）は、本実施形態におけるエリア分割を説明するための図である。

本実施形態における収音対象エリアは、図３（ａ）および図３（ｂ）に示される収音対象エリア３０１とする。収音対象エリア３０１は、例えば、スタジアムのグランドのエリアである。収音装置１１０は、収音対象エリア３０１の上方（以下に説明するグローバル座標系におけるz軸方向）に設置されるものとする。

Ｓ２０１では、幾何処理部１０３と解析処理部１０２が連携して、収音装置１１０の位置・姿勢を導出する。具体的には、収音装置１１０の位置・姿勢は、カメラキャリブレーションと呼ばれる公知の手法を利用して導出される。例えば、まず、撮影装置１２０−１〜１２０−Ｖそれぞれが、収音対象エリア３０１に広く配置されたキャリブレーション用のマーカを撮影することにより画像信号を取得し、信号処理装置１００の記憶部１０１へ記録する。解析処理部１０２は、記憶部１０１から画像信号を抽出して解析処理を行い、キャリブレーション用のマーカを検出する。続いて、幾何処理部１０３が、解析処理部１０２により検出されたマーカの座標位置を導出し、当該座標位置から、撮影装置１２０−１〜１２０−Ｖそれぞれの位置・姿勢を導出する。上述のように、本実施形態では、収音装置１１０は、撮影装置１２０−１〜１２０−Ｖの少なくとも一つと位置・姿勢関係が明らかである。したがって、撮影装置１２０−１〜１２０−Ｖそれぞれの位置・姿勢が分かれば、収音装置１１０の位置・姿勢が導出できる。

ここで、位置・姿勢は、グローバル座標系で記述されるものとする。典型的には、例えば、図３（ａ）のように、収音対象エリア３０１の中心にグローバル座標系の原点を取り、収音対象エリア３０１の各辺と平行になるようにｘ軸およびｙ軸を取って、それらの軸と垂直に鉛直上方向にｚ軸を取る。

なお、収音装置１１０がＧＰＳ（Global Positioning System）や姿勢センサを備えることで、収音装置１１０の位置・姿勢を取得するようにしてもよい。また、収音対象エリア３０１にキャリブレーション用の音源が配置される場合、Ａ個の収音装置１１０−１〜１１０−Ａ（不図示）を用いて収音した音響信号から、各収音装置の位置・姿勢を算出するようにしてもよい（特許文献２を参照）。

また、Ｓ２０１では、信号処理装置１００は、グローバル座標系における収音対象エリア３０１の四隅の位置を取得する。例えば、収音対象エリア３０１の四隅にキャリブレーション用のマーカが配置される場合、上述のカメラキャリブレーションの手法で、撮影装置１２０−１〜１２０−Ｖ、解析処理部１０２、幾何処理部１０３により当該四隅の位置が取得可能である。また、上述のような音源、ＧＰＳが収音対象エリア３０１の四隅に配置される場合にも、信号処理システム１０内で当該四隅の位置が取得可能である。収音対象エリア３０１の四隅の位置が取得されると、収音対象エリア３０１は、ｚ＝０でｘ座標およびｙ座標の範囲が限定された平面として記述される。

Ｓ２０２では、操作検出部１０７がユーザ操作入力を検出することで、現在の時間ブロック（所定の時間長を有する）における仮想聴取位置・姿勢（方向）を取得する。当該仮想聴取位置・姿勢（方向）は、後のステップ（Ｓ２１１）で各分割エリアの音を再生するために必要となる。

図３（ａ）において、頭部を模式的（仮想的に）に表す円３１１の中心が仮想聴取位置を、鼻を模式的に表す二等辺三角形３１２の頂点が仮想聴取方向を表している。ここでは、分かり易さのため矢印３１３も付与しており、矢印３１３の始点が仮想聴取位置、矢印３１３の方向が仮想聴取方向に対応する。表示処理部１０６は、図３（ａ）のような画像を生成して表示部１０５に表示している。操作検出部１０７は、表示部１０５における円３１１の移動や二等辺三角形３１２の回転といったユーザ操作入力（ドラッグ等）を検出することで、現時間ブロックの仮想聴取位置・姿勢を取得する。

Ｓ２０３では、解析処理部１０２が、Ｍ個のマイク素子（Ｍチャンネルマイクアレイ）で収音している現時間ブロックのＭチャンネル音響信号を取得する。解析処理部１０２は、音響信号をチャンネルごとにフーリエ変換することで、周波数領域のデータ（フーリエ係数）であるz（ｆ）を得る。ここで、ｆは周波数のインデックス、z（ｆ）はＭ個の要素を持つベクトルである。

Ｓ２０４〜Ｓ２１１は、周波数ごとの処理であり、周波数ループの中で行う。Ｓ２０４では、分割処理部１０４は、収音対象エリア３０１内にサーチ点を設定する。例えば、分割処理部１０４は、収音対象エリア３０１全体を概ねカバーするよう、格子点上に略等間隔で配置する。ここで、格子点とは、ｘ座標とｙ座標で表される所定の区切り点を指すものとする。

Ｓ２０５〜Ｓ２０６は、Ｓ２０５で設定したサーチ点ごとの処理であり、サーチ点ループの中で行う。Ｓ２０５では、解析処理部１０２は、現在のサーチ点ループで対象としているサーチ点の方向（指向方向）に、収音装置１１０から投影する指向性のメインローブを形成可能なフィルタ係数の中で、最も指向性が鋭いものを取得する。ここで、指向性形成のフィルタ係数は、記憶部１０１があらかじめ保持しているものとする。形成可能な最も鋭い指向性のフィルタ係数は、フィルタ設計における指向性の目標ビームパターンを、例えば指向方向のみ値を持つようにすることで設定可能である。

なお、一般に指向性形成のフィルタ係数は、収音装置のマイクアレイ座標系で球面座標表現（半径ｒ、方位角θ、仰角φ）した指向方向（θ、φ）と対応付けられている。このため前処理として、幾何処理部１０３は、Ｓ２０１で導出した収音装置１１０の位置・姿勢を用いて、グローバル座標系で記述したサーチ点位置をマイクアレイ座標系に座標変換し、さらに直交座標表現（ｘ、ｙ、ｚ）から球面座標表現（ｒ、θ、φ）に変換する。

Ｓ２０６では、解析処理部１０２は、Ｓ２０５でフィルタ係数を取得した指向性のビームパターン（収音装置１１０から投影される指向性の円錐型のモデル）を算出する。そして、幾何処理部１０３が、このビームパターンによる収音範囲（指向性の円錐型モデルの収音対象エリア３０１における投影断面）を導出する。

まず、解析処理部１０２は、Ｓ２０５で取得したフィルタ係数に、記憶部１０１に保持されるアレイ・マニフォールド・ベクトルを掛け合わせることで、指向性のビームパターンを算出する。アレイ・マニフォールド・ベクトルは、各方向の音源とマイクアレイの各マイク素子間の伝達関数である。ここで、ビームパターンの指向方向からの減衰量が、所定値（例えば３ｄＢ）となる方向で形成する曲面を考える。本実施形態では、当該曲面を指向性曲面と呼び、指向性曲面内の音が取得され、指向性曲面外の音が抑制されると想定する。

続いて、幾何処理部１０３は、Ｓ２０１で導出された収音装置１１０の姿勢・位置を用いて、指向性曲面を回転および並進させることで、グローバル座標系における指向性曲面を得る。そこで、解析処理部１０２は、グローバル座標系で表現した指向性曲面の、収音対象エリア３０１（平面）による断面を算出する。本実施形態では、当該断面を収音範囲とし、収音範囲内の音が取得され、収音範囲外の音が抑制されると想定する。また、解析処理部１０２は、収音範囲の面積も同時に算出する。最も鋭い指向性のフィルタ係数を用いたときの収音範囲が、形成可能な最も狭い（面積の小さい）収音範囲である。なお、上述のような立体図形の断面を求める処理は、公知の３ＤＣＡＤ等で実現されている。

本実施形態では、図３（ａ）に示すように、サーチ点３４１〜３４３それぞれに対して、収音範囲３２１〜３２３が導出される。収音装置１１０は、上述のように収音対象エリア３０１の上方に設定される。収音装置１１０が収音対象エリア３０１を上方から収音し、サーチ点３４１〜３４３それぞれに向かう各指向性の指向方向が収音対象エリア３０１に対して仰角を有し、結果として収音範囲３２１〜３２３が導出される。

Ｓ２０７では、分割処理部１０４は、Ｓ２０６で導出した、各サーチ点で形成可能な最も狭い収音範囲のうち面積が最大の収音範囲から、収音対象エリア３０１の分割エリアの最小サイズを決定する。

指向性を鋭くする、すなわち収音範囲を狭くすることには限界がある。そのため、形成可能な最も狭い収音範囲より小さいサイズで収音対象エリア３０１をエリア分割しても、各分割エリアに対する収音範囲の重複が過多となるため、適切な再生ができなくなる。また、任意の仮想聴取位置・姿勢に対し平均的に良好な再生を実現するため、収音対象エリア３０１を略均等にエリア分割することを考えると、上述のように全サーチ点で面積が最大となった収音範囲を分割エリアの基準とすることが好適と考えられる。指向性を緩くする、すなわち収音範囲を広くすることは一般に可能であるため、上述のように分割エリアの最小サイズを定めれば、それに合わせることで各分割エリアに対する収音範囲が適切となることが期待される。

図３（ａ）の例では、収音範囲３２１〜３２３のうち面積最大のものは収音範囲３２１である。そこで、分割処理部１０４は、収音範囲３２１から、収音対象エリア３０１の分割エリアの最小サイズを決定する。本実施形態では、一例として、分割処理部１０４は、収音範囲３２１と少なくとも２点で内接し、各辺が収音対象エリア３０１の各辺（ｘ軸、ｙ軸）と平行な長方形のうち、面積が最大となる矩形（四角形）を、最小サイズ３０２と決定する。ここで、長方形の面積を最大化したのは、収音範囲との差分を小さくするためである。また、収音範囲３２１に内接としたのは、特に隣接する分割エリアの境界付近で収音範囲の重なりを適度に持たせ、再生において分割エリア境界付近の音も適切に再現するためである。なお、Ｓ２０６で収音範囲を導出する際の、ビームパターンの所定減衰量の値（例えば３ｄＢでなく１ｄＢ）によっては、例えば内接でなく外接としてもよい。

なお、収音対象エリア３０１境界付近のサーチ点に対応する収音範囲のうち、所定の条件を満たすものを、分割処理部１０４は、分割エリアの最小サイズを決定するための候補から除くようにしてもよい。例えば、分割処理部１０４は、収音対象エリア３０１より外となる面積が所定比率（例えば２割）を超えた収音範囲を、分割エリアの最小サイズを決定するための候補から除くことができる。

なお、上記の説明では、マイクアレイのマイク素子の配置によって、形成可能な指向性の鋭さが指向方向ごとに異なる可能性があるため、分割処理部１０４は、収音対象エリア３０１全体にサーチ点を設けた。ただし、指向方向が近ければ形成可能な指向性の鋭さも大きくは変わらないと考えられる。したがって、分割処理部１０４は、最初は収音対象エリア３０１にサーチ点を粗く設け、収音範囲の面積が最大となったサーチ点付近をさらに細かくサーチするといった、階層的なサーチを行ってもよい。

なお、収音装置１１０が、例えばマイク素子が全方位に等方的に配置された球形マイクアレイで構成され、指向性が等方的に生成できる場合は、一般に収音装置１１０からの距離が大きくなるほど収音範囲も広くなる。このような場合は、分割処理部１０４は、収音対象エリア３０１において、収音装置１１０からの距離が最大となる点付近にのみ、サーチ点を設けてもよい。

なお、収音対象エリア３０１と収音装置１１０のとの位置関係によって各サーチ点における収音範囲は変化するため、それに応じて分割エリアの最小サイズも変わり得る。また、収音対象エリア３０１が変わることにより（例えば収音対象エリア３０１とする範囲のみ変わる場合であっても）、分割エリアの最小サイズは変わり得る。このことを考慮すると、Ｓ２０１で収音装置１１０の位置・姿勢を導出し、収音対象エリア３０１と収音装置１１０の位置関係を把握しておくことは大切であることがわかる。

Ｓ２０８では、分割処理部１０４は、収音対象エリア３０１をＳ２０７で決定した最小サイズ以上の分割サイズで収音対象エリア３０１を分割し、分割エリアを生成する。

具体的にはまず、分割処理部１０４は、収音対象エリア３０１の縦（ｘ方向）および横（ｙ方向）の長さを、Ｓ２０７で決定された最小サイズの縦および横の長さでそれぞれ割り、得られた値のそれぞれの小数点以下を切り捨てる。分割処理部１０４は、当該切り捨てにより得られた、縦および横それぞれに対応する数を、収音対象エリア３０１の縦および横の最大分割数と設定する。ここで切り捨て処理を行ったのは、切り上げた数で収音対象エリア３０１を縦横にエリア分割すると、分割エリアの縦横の長さが最小サイズの縦横の長さより小さくなってしまうためである。

そして、分割処理部１０４は、当該設定した最大分割数で、収音対象エリア３０１を縦横に分割して分割エリアの縦横比を求める。縦横比が所定値（例えば１．２）を超えていれば、分割処理部１０４は、縦横比が所定値以下となるまで縦または横の分割数を減らして行く（言い換えれば分割サイズを大きくして行く）。分割処理部１０４は、縦横比が所定値（例えば１．２）以下になった際に使用した分割数を、最終的な分割数に決定する。ここで、分割サイズの縦横比に上限を設けたのは、様々な仮想聴取位置・姿勢で平均的に良好な再生を実現するためには、収音対象エリア３０１を縦横比が１に近い分割サイズで略均等に分割することが望ましいからである。なお、分割サイズの縦横比が所定値以下となる縦横の分割数の組み合わせが存在しない場合は、分割処理部１０４は、縦横比の上限を緩和（大きく）してもよい。

図３（ａ）の例では、分割処理部１０４は、Ｓ２０７で決定された最小サイズ３０２をもとに、収音対象エリア３０１の縦の分割数を３、横の分割数を５と決定する。そして、分割処理部１０４は、収音対象エリア３０１を、分割エリア３０３（分割エリア３０３のサイズ（分割サイズ）は、最小サイズ３０２より大きい）と同じサイズの３×５＝１５の分割エリアに分割する。

このような処理により、縦横比が１に近く、また適切に音を取得でき、かつ、なるべく小さい分割エリアに、収音対象エリアを略均等に分割することができる。

Ｓ２０９〜Ｓ２１１は、Ｓ２０８で決定した分割エリアごとの処理であり、分割エリアループの中で行う。Ｓ２０９では、解析処理部１０２が、現在の分割エリアループで対象としている分割エリアの音を適切に取得するための指向性のフィルタ係数ｗ_ｄ（ｆ）を記憶部１０１から取得する。ここで、d（＝1〜D）は分割エリアのインデックス、Dは分割エリアの総数である。フィルタ係数（ベクトル）ｗ_ｄ（ｆ）は周波数領域のデータ（フーリエ係数）であり、Ｍ個の要素で構成される。

例えば、図３（ａ）の収音範囲３２２〜３２３のように、最も鋭い指向性を用いると対象とする分割エリアの一部分の音しか取得できない場合があるため、重要な音を逃してしまう可能性がある。そこで、解析処理部１０２は、分割エリアの音（分割エリア音）を適切に取得するために、Ｓ２０７における分割エリアの最小サイズ決定法と同様に考えて、指向性のフィルタ係数を取得する。すなわち、解析処理部１０２は、分割エリアと少なくとも２点で外接した上で、面積が最小となるような収音範囲を形成する指向性のフィルタ係数を取得する。これにより、各分割エリアに対する指向方向および指向幅が適切に設定される。なお、Ｓ２０６で収音範囲を導出する際の、ビームパターンの所定減衰量の値（例えば３ｄＢでなく１ｄＢ）によっては、例えば外接でなく内接としてもよい。

解析処理部１０２は、対象としている分割エリア内で、指向性の鋭さを例えば最も鋭いものから徐々に緩めて収音範囲を確認して行くことで、分割エリアの音を適切に取得するための指向性を決定することができる。なお、収音装置１１０が指向性を等方的に生成できる場合、同じ鋭さの指向性では一般に収音装置１１０からの距離が近いほど収音範囲は狭くなるため、解析処理部１０２は、収音装置１１０からの距離が近い分割エリアほど指向性を緩めることになる。

Ｓ２１０では、解析処理部１０２は、Ｓ２０３で取得した現時間ブロックのＭチャンネル音響信号のフーリエ係数ｚ（ｆ）に、Ｓ２０９で取得した指向性形成のフィルタ係数ｗｄ（ｆ）を適用する。これにより、解析処理部１０２は、現在の分割エリアループに対応する分割エリア音Ｙ_d（ｆ）を式（１）のように生成する。ここで、Ｙ_d（ｆ）は周波数領域のデータ（フーリエ係数）である。

なお、幾何処理部１０３が分割エリアの例えば中心と収音装置１１０との間の距離Ｓｄを算出し、解析処理部１０２がＹ_d（ｆ)にＳ_ｄ掛けることで、分割エリアごとに異なる距離減衰を補償するようにしてもよい。また、解析処理部１０２が、基準距離（例えばＳ_ｄ［ｄ＝1〜Ｄ］の最大値とする）とＳ_ｄの距離差に対応する位相成分をＹ_d（ｆ）に掛けることで、分割エリアごとの距離遅延差を吸収するようにしてもよい。

Ｓ２１１では、幾何処理部１０３は、グローバル座標系で記述された分割エリアの代表位置（例えば中心）を、Ｓ２０２で取得した仮想聴取位置・姿勢で規定される仮想頭部座標系に座標変換する。幾何処理部１０３はさらに、当該代表位置を、直交座標表現から球面座標表現に変換する。これは、本ステップで使用するＨＲＴＦが、一般に頭部座標系で球面座標表現した方向と対応付けられているためである。

そして、解析処理部１０２は、Ｓ２１０で取得した分割エリア音のフーリエ係数Ｙ_d（ｆ）に、分割エリアの方向（θ_d、φ_d）に対応する左右耳のＨＲＴＦ［Ｈ_Ｌ（ｆ、θ_ｄ、φ_ｄ）、Ｈ_Ｒ（ｆ、θ_ｄ、φ_ｄ）］を適用（乗算）する。さらに、解析処理部１０２は、式（２）のように、左右それぞれのヘッドホン再生信号Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）に、当該乗算値を加算して行く。ここで、Ｘ_Ｌ（f）、Ｘ_Ｒ（f）は、周波数領域のデータ（フーリエ係数）である。なお、ＨＲＴＦは記憶部１０１があらかじめ保持しているものを取得して用いればよい。

なお、幾何処理部１０３が分割エリアの例えば中心と仮想聴取位置との間の距離Ｔ_ｄを算出し、解析処理部１０２がＹ_d（ｆ）をＴ_ｄで割ることにより、仮想聴取位置に対する分割エリア音ごとの距離減衰を表現することができる。また、解析処理部１０２が、Ｔ_ｄに対応する位相成分をＹ_d（ｆ）に掛けることにより、仮想聴取位置に対する分割エリア音ごとの距離遅延差を表現するようにしてもよい。

このように、分割エリアループの中で本ステップの処理を行うことで、各分割エリア音を再生する仮想スピーカをユーザの周囲に順次配置して行くような効果が得られる。

Ｓ２１２では、解析処理部１０２は、Ｓ２１１で生成したヘッドホン再生信号のフーリエ係数Ｘ_Ｌ（ｆ）,Ｘ_Ｒ（ｆ）をそれぞれ逆フーリエ変換する。これにより、解析処理部１０２は、時間波形である現時間ブロックのヘッドホン再生信号ｘ_Ｌ（ｔ）,ｘ_Ｒ（ｔ）を生成する。解析処理部１０２は、窓掛け処理を施すことにより、前時間ブロックまでのヘッドホン再生信号にオーバーラップ加算していき、得られるヘッドホン再生信号を記憶部１０１へ逐次記録する。

Ｓ２１３では、再生部１０８が、Ｓ２１２で生成されたヘッドホン再生信号ｘ_Ｌ（ｔ）,ｘ_Ｒ（ｔ）にＤＡ変換および増幅を施し、ヘッドホンから再生する。

このように、以上に説明した本実施形態によれば、収音対象エリア３０１を適切に音が取得可能な分割エリアに略均等に分割することができる。なお、本実施形態において記憶部１０１が保持しているとした各種データは、不図示のデータ入出力部を介して外部から入力するようにしてもよい。

［変形例］
上記実施形態の周波数ループにおいて、エリア分割に対するＳ２０４〜Ｓ２０８の処理は、代表周波数（例えば１ｋＨｚ）についてのみ行ってもよい。例えば、代表周波数は、音響信号で卓越している帯域の中心周波数などとしてもよい。

しかし、一般に周波数が低いほど形成可能な指向性が緩くなるといった周波数依存性を考慮して、上記エリア分割に対する処理を周波数ごとに行ってもよい。このとき、図３（ａ）のようなエリア分割となった周波数より低い周波数では、収音対象エリアの同じ点に対応する収音範囲がより広くなるため、例えば図３（ａ）より縦横の分割数が少なく、分割エリアが広くなった図３（ｂ）のようなエリア分割となる。すなわち、周波数に応じてエリア分割を制御することになり、分割エリアの数も周波数に依存する（関数Ｄ（ｆ）となる）。この場合、例えばＳ２１１では、仮想スピーカの数も周波数ごとに制御することができる。なお、Ｓ２０４において、周波数が低いほどサーチ点を粗く設けるようにしてもよい。

なお、例えばＳ２０１およびＳ２０４〜Ｓ２０９は、あらかじめ処理して結果を記憶部１０１に保持しておいてもよい。そして、Ｓ２０２の仮想聴取位置・姿勢の取得および、Ｓ２０３の音響信号の取得に合わせて、例えば時間ブロックごとにＳ２１０〜Ｓ２１３の信号生成・再生処理のみリアルタイムに行うようにしてもよい。

なお、分割エリアの数Ｄが多いほど信号生成の処理量は増えるため、Ｄの値によってはリアルタイム処理が間に合わなくなる可能性がある。このような場合、信号処理システム１０の許容処理量に応じて分割エリアの上限数Ｄ_ｍａｘを設定し、Ｓ２０８においてＤ≦Ｄ_ｍａｘとなるようエリア分割を行うようにしてもよい。これにより、例えば処理量に余裕がある場合は図３（ａ）のようにエリア分割し、処理量に制限がある場合は図３（ｂ）のようにエリア分割することで、空間的な分解能を落としてリアルタイム性を担保することができる。このとき、図３（ａ）や図３（ｂ）のようなエリア分割のパターンごとに、Ｓ２０９の各分割エリアに対する指向性のフィルタ係数はあらかじめ決定しておき、その結果を記憶部１０１に保持しておいてもよい。

なお、表示処理部１０６が図３（ａ）のマーク３３１〜３３２や矢印３３３などを表示部１０５に表示し、操作検出部１０７が検出する表示部１０５へのユーザ操作入力に応じて、分割処理部１０４がエリア分割を制御するようにしてもよい。

例えば、ユーザがマーク３３１〜３３２の上向き／下向き三角形をタッチしたり、テキストボックスに直接数値入力したりすることで、縦または横の分割数を調整できるようにしてもよい。このとき、縦（横）の分割数を変更すれば、分割サイズの縦横比が所定値以下となるよう横（縦）の分割数が自動的に変更される。例えば、図３（ａ）においてマーク３３１の下向き三角形をタッチすれば、図３（ｂ）のようにエリア分割が自動的に変更される。なお、縦横比を所定値以下にできない分割数は自動的にスキップしたり、（分割サイズが最小サイズより小さくなる等）分割数が限界を超える方向の三角形は非アクティブ状態にしたりするのが好適である。

また、ユーザが例えば矢印３３３のような双方向矢印をドラッグすることで、分割サイズを直接的に調整できるようにしてもよい。調整により、分割サイズの縦横比が所定値以下となるよう縦横の分割数が自動的に変更される。なお、縦横の分割数の可能な組み合わせは限られるため、分割サイズは連続的ではなく離散的に変化する。

なお、上記実施形態において、分割サイズは縦横比が所定値以下の長方形（理想的には正方形）としたが、収音対象エリアをあまり隙間なくカバーすることができれば、例えば円形など任意の形状としてもよい。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０信号処理システム、１００信号処理装置、１１０収音装置、１２０−１〜１２０−Ｖ撮影装置

Claims

収音装置の収音対象エリアにおける音響信号を処理する信号処理装置であって、
前記収音装置と前記収音対象エリアとの位置関係に基づいて、前記収音対象エリアを分割する最小サイズを決定する決定手段と、
前記最小サイズ以上の分割サイズで、前記収音対象エリアを分割する分割手段と、
前記分割手段により分割された分割エリアそれぞれにおいて前記収音装置により収音された音響信号を処理する処理手段と、
を有することを特徴とする信号処理装置。
前記決定手段は、前記位置関係として、前記収音対象エリアに設定された１つ以上の点に対する、前記収音装置から所定の指向性での投影による前記収音対象エリアにおける投影断面の面積に基づいて、前記最小サイズを決定することを特徴とする請求項１に記載の信号処理装置。
前記決定手段は、前記１つ以上の点のうち前記収音装置から距離が最大の点に対する、前記収音装置から所定の指向性での投影による前記収音対象エリアにおける投影断面の面積に基づいて、前記最小サイズを決定することを特徴とする請求項２に記載の信号処理装置。
前記投影断面は、前記収音装置から投影される指向性の円錐型のモデルの前記収音対象エリアにおける断面であることを特徴とする請求項２または３に記載の信号処理装置。
前記所定の指向性は、前記収音装置が有する指向性のフィルタ係数のうち最も鋭い指向性に基づくことを特徴とする請求項２から４のいずれか１項に記載の信号処理装置。
前記決定手段は、前記１つ以上の点に対する投影断面のうち最も面積の大きい投影断面を超えない範囲を、前記最小サイズと決定することを特徴とする請求項２から５のいずれか１項に記載の信号処理装置。
前記決定手段は、前記最も面積の大きい投影断面に内接する矩形を、前記最小サイズと決定することを特徴とする請求項６に記載の信号処理装置。
前記分割手段は、縦横比が所定値以下となるように前記分割サイズを設定することを特徴とする請求項７に記載の信号処理装置。
前記分割手段は、前記信号処理装置の許容処理量に応じて、前記収音対象エリアを分割する数の上限を設定することを特徴とする請求項１から８のいずれか１項に記載の信号処理装置。
前記決定手段は、前記収音装置により収音される音響信号の周波数ごとに、前記最小サイズを決定し、
前記分割手段は、当該周波数ごとに、前記分割サイズを設定することを特徴とする請求項１から９のいずれか１項に記載の信号処理装置。
前記分割手段は、前記収音装置により収音される音響信号の周波数が高い場合は、前記最小サイズをより小さく決定することを特徴とする請求項１０に記載の信号処理装置。
前記分割エリアの範囲を設定する設定手段を更に有することを特徴とする請求項１から１１のいずれか１項に記載の信号処理装置。
前記処理手段は、前記分割エリアそれぞれで収音された音響信号から、前記収音対象エリアに仮想的に配置された仮想聴取位置に対する再生信号を生成することを特徴とする請求項１から１２のいずれか１項に記載の信号処理装置。
収音装置の収音対象エリアにおける音響信号を処理する信号処理方法であって、
前記収音装置と前記収音対象エリアとの位置関係に基づいて、前記収音対象エリアを分割する最小サイズを決定する決定工程と、
前記最小サイズ以上の分割サイズで、前記収音対象エリアを分割する分割工程と、
前記分割工程により分割された分割エリアそれぞれにおいて前記収音装置により収音された音響信号を処理する処理工程と、
を有することを特徴とする信号処理方法。
コンピュータを、請求項１から１３のいずれか１項に記載の信号処理装置として機能させるためのプログラム。