JP2018074437A

JP2018074437A - 信号処理装置、信号処理システム、信号処理方法およびプログラム

Info

Publication number: JP2018074437A
Application number: JP2016213524A
Authority: JP
Inventors: 典朗多和田; Noriaki Tawada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2018-05-10

Abstract

【課題】オブジェクトの位置に応じて収音対象エリアを収音を行う分割エリアに分割する。
【解決手段】信号処理装置に、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを収音を行う複数の分割エリアに分割する分割手段と、前記分割手段により分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、を備える。
【選択図】図４

Description

本発明は、収音対象エリアで収音された音声を信号処理する信号処理装置、信号処理システム、信号処理方法およびプログラムに関する。

収音対象エリア内に複数存在する音源となるオブジェクトのそれぞれの音を取得する技術が公知である。特許文献１は、複数のマイクロフォンを備えたマイクアレイの収音範囲内に存在する発音体の数および配置の情報を取得し、発音体に向ける収音指向性の向きと鋭さを設定することにより、複数の発音体による同時の発音を収音する技術を開示する。

特開２０１１−７１７０２号公報

上記特許文献１の技術では、取得した発音体の配置の情報に基づいて収音指向性の向きを設定し、また取得した発音体の数の情報に基づいて収音指向性の鋭さを設定している。しかしながら、特許文献１では、発音体の数や配置の情報を取得するカメラとマイクとがほぼ同一位置になることを前提としており、このカメラを基準として発音体の数やそれぞれの発音体の配置の情報を取得している。このため、収音対象エリア内に存在する複数の発音体の位置によっては、適切な収音を行うことができない場合がある。
例えば、マイクアレイで収音エリアの上方から収音を行うような場合では、発音体の数および配置の情報に基づいた収音指向性の設定だけでは、必ずしも複数の発音体を明瞭に区別した適切な収音を行うことができない。
本発明は上記課題を解決するために成されたものであり、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる信号処理装置、信号処理システム、信号処理方法およびプログラムを提供することを目的とする。

上記課題を解決するため、本発明に係る信号処理装置のある態様によれば、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを収音を行う複数のエリアに分割する分割手段と、前記分割手段により分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、を備える信号処理装置が提供される。

以上の構成を有する本発明によれば、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる。

本発明の実施形態１に係る信号処理システムのブロック図。収音対象領域を示す図。本実施形態のハードウェアの構成例を示す図。本実施形態における信号処理の詳細を示すフローチャート。仮想聴取位置の入力画面を示す図である。本実施形態におけるエリア分割の説明図。本実施形態における収音範囲の説明図。エリア分割の概略図。実施形態２に係る信号処理システムにおけるエリア分割の概略図。実施形態３に係る信号処理システムにおけるエリア分割の概略図。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜実施形態１＞
本発明の実施形態１に係る信号処理システムでは、収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出し、検出したオブジェクトの位置に応じて収音対象エリアを収音を行う複数の分割エリアに分割する。そして、この信号処理システムではさらに、分割エリアごとに収音部の指向性を形成して、それぞれの分割エリアに含まれるオブジェクトの音声を取得する。
（信号処理システムの構成）
図１は、本発明の実施形態１に係る信号処理システム１の構成を示すブロック図である。信号処理システム１は、システム全体の制御を行う制御装置１０と、収音対象エリアに配置された収音部３およびＶ個の撮像部４_１〜４_Ｖを備えている。制御装置１０と収音部３および各撮像部４_１〜４_Ｖとは、ネットワーク２で接続されている。
収音部３は、例えばＭ個のマイク素子を備えたＭチャンネルマイクアレイで構成され、収音に係る増幅やＡＤ変換を行うインターフェース（Ｉ／Ｆ）を備え、収音している音響信号をネットワーク２を介して制御装置１０に供給する。なお、収音部３の数は、１つに限られず、複数の収音部３を設けるようにしてもよい。

撮像部４_１〜４_Ｖは、カメラで構成され、撮像に係るＩ／Ｆを備え、撮像している映像信号をネットワーク２を介して制御装置１０に供給する。収音部３は、撮像部４_１〜４_Ｖの少なくとも一つと位置および姿勢関係が明らかなように配置されているものとする。
収音部３は、収音対象エリアの音を収音する。ここで、収音対象エリアとは、収音部３によって収音を行う対象となる領域のことである。本実施形態では、例えば図２に示すように、競技場（スタジアム）のグラウンドエリアを収音対象エリア３０とする。ここで図２は、収音対象エリア３０であるグラウンドエリアを真上から見た場合の、二次元的な表示となっている。なお、図２中の符号５_１〜５_１６は、収音対象エリア３０内の音源となり得るオブジェクト、例えばサッカーの試合であれば、ボール、プレイヤー、審判等の位置を示している。

制御装置１０は、各種データを記憶しておく記憶部１１、信号解析処理部１２、幾何処理部１３、エリア分割処理部１４、表示部１５、表示処理部１６、操作検出部１７、再生部１８を備えている。
制御装置１０は、収音部３から供給された音響信号と、撮像部４_１〜４_Ｖから供給された映像信号とを記憶部１１に遂次記録する。
また、記憶部１１には、指向性形成のフィルタ係数、各方向の音源とマイクアレイの各マイク素子間の伝達関数、指向性の指向方向や鋭さを様々に指定した場合の収音範囲、頭部伝達関数等のデータも格納されている。
信号解析処理部１２は、音響信号や映像信号の解析処理を行う。例えば、収音部（マイクアレイ）３が収音している音響信号に対し、指向性形成のフィルタ係数を選択して掛け合わせることで、収音部３の指向性を形成する。

幾何処理部１３は、収音部３の位置および姿勢や指向性の形状に係る処理等を行う。エリア分割処理部１４は、収音対象エリアのエリア分割に係る処理を行う。表示部１５は、典型的にはディスプレイであり、本実施形態では例えばタッチパネルで構成されるものとする。表示処理部１６は、収音対象エリアのエリア分割に係る表示等を生成し、表示部１５に表示する。操作検出部１７は、タッチパネルで構成される表示部１５へのユーザ操作入力を検出する。再生部１８は、本実施形態ではヘッドホンで構成され、再生に係るＤＡ変換や増幅を行うＩ／Ｆを備え、生成された再生信号をヘッドホンから再生させる。

（ハードウェア構成）
図１の制御装置１０の各機能ブロックはプログラムとして、後述するＲＯＭ２２等の記憶部に記憶され、ＣＰＵ２１によって実行される。なお、図１に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

図３は、制御装置１０のハードウェア構成の一例を示している。制御装置１０は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、外部メモリ２４、入力部２５、出力部２６を有する。
ＣＰＵ２１は、入力された信号やプログラムに従って、各種の演算や制御装置１０を構成する各部分の制御を行う。具体的には、ＣＰＵ２１は、収音対象エリアの音を収音する収音部の指向性の制御、表示部１５に表示させる表示画像の生成等を行う。前述した図１の機能ブロックは、ＣＰＵ２１によって実行される機能を図示したものである。
ＲＡＭ２３は、一時的なデータを記憶し、ＣＰＵ２１の作業用に使われる。ＲＯＭ２２は、図１に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。外部メモリ２４は、例えば、着脱可能なメモリカードであり、ＰＣ（パーソナルコンピュータ）などに装着してデータを読み出すことが可能である。
また、ＲＡＭ２３あるいは外部メモリ２４の所定の領域は記憶部１１として使われる。
入力部２５は、収音部３から供給された音響信号をＲＡＭ２３あるいは外部メモリ２４の記憶部１１として使われる領域に格納する。また、入力部２５は、各撮像部４_１〜４_Ｖから供給された映像信号をＲＡＭ２３あるいは外部メモリ２４の記憶部１１として使われる領域に格納する。出力部２６は、ＣＰＵ２１が生成した表示画像を表示部１５に表示させる。

（信号処理詳細）
以下、本実施形態の信号処理について、図４のフローチャートに沿って説明する。
Ｓ１では、幾何処理部１３と信号解析処理部１２が連携して、各撮像部４_１〜４_Ｖの位置および姿勢を算出する。さらに、幾何処理部１３と信号解析処理部１２が連携して、撮像部４_１〜４_Ｖの何れかと位置および姿勢の関係が明らかである収音部３の位置および姿勢を算出する。ここで、位置および姿勢はグローバル座標系で記述するものとする。例えば、収音対象エリア３０の中心にグローバル座標系の原点を取り、収音対象エリア３０の各辺と平行になるようにｘ軸およびｙ軸を設定し、それらの軸と垂直に鉛直上方向にｚ軸を設定する。これにより収音対象エリア３０は、ｚ＝０でｘ座標およびｙ座標の範囲が限定された、収音対象エリア平面として記述される。

各撮像部４_１〜４_Ｖの位置および姿勢は、カメラキャリブレーションと呼ばれる公知の手法により、例えば収音対象エリアに広く配置したキャリブレーション用のマーカを複数の撮像部４_１〜４_Ｖで撮像し、得られた複数の映像信号を用いて算出することができる。そして、各撮像部４_１〜４_Ｖの位置および姿勢が分かれば、少なくとも何れかの撮像部と位置および姿勢関係が明らかである収音部３の位置および姿勢が算出できる。
なお、収音部３の位置および姿勢を算出する方法は、映像信号から算出する方法に限らず、収音部３がＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）受信機や姿勢センサを備えることで、収音部の位置および姿勢を取得するようにしてもよい。また、例えば、特開２０１４−１７５９９６号公報に開示されているように、収音対象エリア３０にキャリブレーション用の音源を配置し、Ａ個の収音部３_１〜３_Ａを用いて収音した音響信号から、各収音部３_１〜３_Ａの位置および姿勢を算出するようにしてもよい。
また、キャリブレーション用のマーカ、音源、ＧＰＳ等を収音対象エリアの四隅にも配置しておくことで、このＳ１において、グローバル座標系における収音対象エリア３０の四隅の位置を取得することができる。これにより、収音対象エリア３０は、ｚ＝０でｘ座標およびｙ座標の範囲が限定された、収音対象エリア平面として記述される。

次に、Ｓ２では、操作検出部１７が、ユーザからの操作入力を検出することで、後のステップで各分割エリアの音を再生するために必要な、現在の時間ブロック（所定の時間長を有する）における仮想聴取位置および姿勢（方向）を取得する。
具体的には、図５に示すように、表示処理部１６は、表示部１５の表示画面に、収音対象エリア３０を示す画像と、仮想聴取位置３１１を示す画像を表示させる。図５において、頭部を模式的に表す円３１１の中心が仮想聴取位置を、鼻を模式的に表す二等辺三角形３１２の頂点が仮想聴取方向を表している。ここでは、分かり易さのため矢印３１３も付加しており、矢印の始点が仮想聴取位置、矢印の方向が仮想聴取方向に対応する。
操作検出部１７は、ユーザが円３１１をドラッグ等して移動させたり、二等辺三角形３１２をドラッグ等して回転させたりする操作入力を検出すると、当該操作入力に応じて現時間ブロックの仮想聴取位置および姿勢を入力する。表示処理部１６は、操作検出部１７が入力した仮想聴取位置および姿勢に応じて、図５のような画像を生成して表示部１５に表示させる。

Ｓ３では、信号解析処理部１２が、各撮像部４_１〜４_Ｖで撮像している現時間ブロックの映像信号を取得し、映像認識を適用することで音源になり得るオブジェクトを検出する。例えば、公知の機械学習や人検出の技術を適用することで、選手やボールといった音を発し得るオブジェクトを検出する。
そして、幾何処理部１３が、検出された各オブジェクトの位置を算出する。なお、算出する各オブジェクトの位置は、例えばオブジェクトの代表位置（例えばオブジェクト検出枠の中心）とする。なお、例えば収音対象エリア３０であるグラウンドエリアの平面のｚ座標がｚ＝０であるとの仮定等も用いて、オブジェクトの代表位置をグローバル座標系における収音対象エリア上の位置（ｘ、ｙ）に対応付けるようにしてもよい。
なお、グローバル座標系におけるオブジェクトの位置を取得する方法は、映像信号から取得する方法に限られず、例えば選手やボールにＧＰＳを装着することで、グローバル座標系におけるオブジェクトの位置を取得するようにしてもよい。
以上により、例えば図２に示すように、各オブジェクト５_１〜５_１６の位置が算出される。

Ｓ４では、エリア分割処理部１４が、Ｓ３で算出された収音対象エリア上のオブジェクトの位置を母点として、収音対象エリアのボロノイ分割を行う。これにより、例えば図６に示すように、収音対象エリア３０が、ボロノイ境界で区切られた複数の分割エリア（ボロノイ領域）に分割される。図６において、黒丸がオブジェクトの位置（ボロノイ分割の母点）を表しており、各分割エリアにひとつのオブジェクトが含まれている。時間ブロックごとにＳ３および本ステップの処理を行う（あるいは時間ブロックごとにＳ３からＳ１０の処理を繰り返す）ことで、オブジェクトの動きに応じて収音対象エリア３０を動的にエリア分割して収音を行うことができる。

Ｓ５では、信号解析処理部１２が、収音部（Ｍチャンネルマイクアレイ）３で収音している現時間ブロックのＭチャンネルの音響信号を取得し、チャンネルごとにフーリエ変換することで周波数領域のデータ（フーリエ係数）であるｚ（ｆ）を得る。ここで、ｆは周波数のインデックス、ｚ（ｆ）はＭ個の要素を持つベクトルである。
Ｓ６〜Ｓ８は周波数ごとの処理であり、周波数ループの中で繰り返し実行する。さらに、Ｓ６〜Ｓ８はＳ４で決定した分割エリア（ボロノイ領域）ごとの処理であり、分割エリアループの中で繰り返し実行する。

Ｓ６では、信号解析処理部１２が、現在の分割エリアループで対象としている分割エリアの音を適切に取得するための指向性のフィルタ係数ｗ_ｄ（ｆ）を取得する。ここで、ｄ（＝１〜Ｄ）は分割エリアのインデックス、Ｄは分割エリアの総数である。指向性形成のフィルタ係数ｗ_ｄ（ｆ）は、記憶部１１があらかじめ保持しているものとする。フィルタ係数（ベクトル）は周波数領域のデータ（フーリエ係数）であり、Ｍ個の要素で構成される。
本実施形態において、分割エリアの音を適切に取得するとは、指向性による収音対象エリア３０上の収音範囲を分割エリアに適合させ、分割エリアに含まれるオブジェクトの音を適切に取得することを意味するものとする。

（収音範囲の算出処理）
はじめに、指向性による収音範囲の算出について説明する。すなわち、信号解析処理部１２が、指向性のビームパターンを算出し、幾何処理部１３が、このビームパターンによる収音範囲を算出する。
より詳細には、まず、指向性形成のフィルタ係数に、記憶部１１が保持している、各方向の音源とマイクアレイの各マイク素子間の伝達関数であるアレイ・マニフォールド・ベクトルを掛け合わせることで、指向性のビームパターンを算出する。ここで、ビームパターンの指向方向からの減衰量が、所定値（例えば３ｄＢ）となる方向で形成する曲面を考える。そして、これを指向性曲面と呼ぶことにし、指向性曲面内の音が取得され、指向性曲面外の音が抑制されると考える。

Ｓ１で算出した収音部３の姿勢および位置を用いて、上記指向性曲面を回転および並進させることで、グローバル座標系における指向性曲面が得られる。そこで、グローバル座標系で表現した指向性曲面について、Ｓ１で記述された収音対象エリア平面による断面を算出し、これを収音範囲として、収音範囲内の音が取得され、収音範囲外の音が抑制されると考える。また、収音範囲の面積も同時に算出するものとする。収音部３が収音対象エリアを上方から収音し、指向性の指向方向が収音対象エリアに対して仰角を有するとすると、例えば図６のオブジェクト５_５に対応する収音範囲３１を形成する。なお、このような立体図形の断面を求める処理には、公知の３ＤＣＡＤ（３ＤｉｍｅｎｓｉｏｎＣｏｍｐｕｔｅｒ−ＡｉｄｅｄＤｅｓｉｇｎ）等の技術を適用することができる。

さらに、幾何処理部１３と信号解析処理部１２が連携して、収音対象エリア上の収音範囲を分割エリアに適合させ、分割エリアに含まれるオブジェクトの音を適切に取得できるような指向性を決定する。
ここで、もし、Ｓ４のような収音対象エリアのエリア分割を考えず、オブジェクト（母点）の方向を指向方向として適当な鋭さの指向性を向けるだけだと、図６の収音範囲３１〜３２のように複数の収音範囲に重複が生じる。このため、ひとつの収音範囲に複数のオブジェクトが含まれる可能性があり、そのような場合は各オブジェクトの音をそれぞれ分離して取得することができない。すなわち、例えば選手一人一人の声を分離して取得したり、別々の音源として再生したりすることができない。
このため、本実施形態では、以下の手法を用いて、収音対象エリア上の収音範囲を分割エリアに適合させることができる。以下、順に説明する。

、第１の方法では、収音範囲が対象としている分割エリア内のオブジェクト（母点）を含み、かつ、収音範囲が分割エリアの境界（ボロノイ境界）を越えずに分割エリアに内接する条件で、収音範囲の面積を所定値より大きくするよう指向性を決定する。
図７の３３１〜３３２は、第１の方法で決定した指向性による収音範囲の例である。このように、収音範囲が各分割エリアに収まるよう指向性を制御すれば、複数の収音範囲に重複を生じないため、各オブジェクトの音をそれぞれ分離して取得することができる。収音範囲の面積を所定値より大きく、言い換えれば指向性をできる限り緩くしたのは、一般に指向性が緩い方が指向性形成のフィルタ長が短くて済み、指向性形成の処理量削減が期待できるためである。

なお、指向性を鋭くする、すなわち収音範囲を狭くすることには限界があるが、指向性を緩くする、すなわち収音範囲を広くすることは一般に可能である。第１の方法において、指向性の指向方向はオブジェクトの方向から幾らかは外れるが、オブジェクトは収音範囲に含まれているためオブジェクトの音を取得することができる。
第１の方法による指向性は、指向方向を対象としている分割エリア内で振りつつ、指向性の鋭さを例えば最も鋭いものから徐々に緩めて、収音範囲を逐次確認して行くことで決定することができる。

なお、一般に指向性形成のフィルタ係数は、収音部３のマイクアレイ座標系で球面座標表現（半径ｒ、方位角θ、仰角φ）した指向方向（θ、φ）と対応付けられている。このため前処理として、幾何処理部１３が、Ｓ１で算出した収音部３の位置および姿勢を用いて、グローバル座標系で記述した指向位置（指向方向と収音対象エリア平面の交点）をマイクアレイ座標系に座標変換する。幾何処理部１３は、座標変換した指向位置を、さらに直交座標表現（ｘ、ｙ、ｚ）から球面座標表現（ｒ、θ、φ）に変換する。
なお、指向性の指向方向や鋭さを様々に指定した場合の収音範囲は、あらかじめ算出して結果を記憶部１１に保持しておいてもよい。
なお、収音範囲を分割エリアに内接させることができない場合は、分割エリアからはみ出る収音範囲の面積を所定値より小さくするように、指向性の指向方向や鋭さを制御するようにしてもよい。

また、第２の方法では、指向方向をオブジェクト（母点）の方向に固定し、かつ収音範囲が分割エリアの境界を越えずに分割エリアに内接する条件で、収音範囲の面積を所定値より大きくするよう指向性を決定する。
図７において、３３３が第１の方法で決定した指向性による収音範囲の例、３３４が第２の方法で決定した指向性による収音範囲の例である。第２の方法では、オブジェクトの方向を指向方向とするため、指向性のメインローブでオブジェクトを捉えることができる。また、指向方向を固定した状態で収音範囲の面積を所定値より大きくするため、第１の方法ほどではないが指向性形成の処理量削減が期待できる。
第２の方法による指向性は、指向方向をオブジェクトの方向に固定した状態で、指向性の鋭さを例えば最も鋭いものから徐々に緩めて、収音範囲を逐次確認して行くことで決定することができる。

また第３の方法では、指向性の鋭さは既定（任意）とする（例えば最も鋭くしてもよい）。そして、収音範囲が分割エリアに収まらなかった場合に、収音範囲が分割エリアの境界を越えずに分割エリアに内接するよう、指向方向をオブジェクトの方向から補正した指向性を決定する。このとき、指向方向の補正量が最小となるように指向性を決定してもよい。図７の３３５は、第３の方法で決定した指向性による収音範囲の例である。
第３の方法による指向性は、指向性の鋭さを固定した状態で、指向方向をオブジェクト（母点）の方向から（分割エリアからはみ出る収音範囲の面積が小さくなる方向に）徐々に動かして、収音範囲を逐次確認して行くことで決定することができる。
なお、上記の方法例（第１から第３の方法）では何れも収音範囲を分割エリアに内接させており、収音範囲を分割エリアに適合させた例である。すなわち、収音範囲を分割エリアに少なくとも部分的に内接するよう、収音部の指向性を制御した例である。
信号解析処理部１２は、以上のような方法で決定した指向性形成のフィルタ係数ｗ_ｄ（ｆ）を記憶部１１から取得する。

Ｓ７では、信号解析処理部１２が、Ｓ５で取得した現時間ブロックのＭチャンネル音響信号のフーリエ係数ｚ（ｆ）に、Ｓ６で取得した指向性形成のフィルタ係数ｗ_ｄ（ｆ）を適用する。これにより、現在の分割エリアループに対応する分割エリア音Ｙ_ｄ（ｆ）を式（１）のように生成する。ここで、Ｙ_ｄ（ｆ）は周波数領域のデータ（フーリエ係数）である。各分割エリア音は、対応するオブジェクトの音（オブジェクト音）を含んでいる。
なお、幾何処理部１３がオブジェクトと収音部３との間の距離Ｓ_ｄを算出し、信号解析処理部１２がＹ_ｄ（ｆ）にＳ_ｄを掛けることで、オブジェクトごとに異なる音の距離減衰を補償するようにしてもよい。また、信号解析処理部１２が、基準距離（例えばＳ_ｄ［ｄ＝１〜Ｄ］の最大値とする）とＳ_ｄとの距離差に対応する位相成分をＹ_ｄ（ｆ）に掛けることで、オブジェクトごとの音の距離遅延差を吸収するようにしてもよい。

Ｓ８では、幾何処理部が、グローバル座標系で記述されたオブジェクト（母点）の位置を、Ｓ２で取得した仮想聴取位置および姿勢で規定される頭部座標系に座標変換し、さらに直交座標表現から球面座標表現に変換する。これは、本ステップで使用する頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）が、一般に頭部座標系で球面座標表現した方向と対応付けられているためである。図８において、黒四角形３１４が簡易的な表示として仮想聴取位置を表しており、仮想聴取位置と各オブジェクトを結ぶ線が頭部座標系におけるオブジェクトの方向に対応する。

さらに、信号解析処理部１２は、Ｓ７で取得した分割エリア音のフーリエ係数Ｙ_ｄ（ｆ）に、オブジェクトの方向（θ_ｄ、φ_ｄ）に対応する左右耳のＨＲＴＦ［Ｈ_Ｌ（ｆ，θ_ｄ，φ_ｄ）、Ｈ_Ｒ（ｆ，θ_ｄ，φ_ｄ）］を適用する。そして、信号解析処理部１２は、式（２）のように、左右それぞれのヘッドホン再生信号Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）に、ＨＲＴＦを適用したフーリエ係数を加算して行く。ここで、Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）は周波数領域のデータ（フーリエ係数）である。なお、ＨＲＴＦは記憶部１１があらかじめ保持しているものを取得して用いればよい。

なお、幾何処理部１３がオブジェクトと仮想聴取位置との間の距離Ｔ_ｄを算出し、信号解析処理部１２がＹ_ｄ（ｆ）をＴ_ｄで割っておくことで、仮想聴取位置に対する分割エリア音（オブジェクト音）ごとの距離減衰を表現してもよい。また、信号解析処理部１２が、Ｔ_ｄに対応する位相成分をＹ_ｄ（ｆ）に掛けておくことで、仮想聴取位置に対する分割エリア音（オブジェクト音）ごとの距離遅延差を表現するようにしてもよい。すなわち、各分割エリアに対応するオブジェクトと仮想聴取位置との間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか１つを補正する。
分割エリアループの中で本ステップの処理を行うことで、各分割エリア音（オブジェクト音）を再生する仮想スピーカをユーザの周囲に順次配置して行くような効果が得られるため、収音対象エリアにいるかのような音場を再現することができる。

Ｓ９では、信号解析処理部１２が、Ｓ８で生成したヘッドホン再生信号のフーリエ係数Ｘ_Ｌ（ｆ）、Ｘ_Ｒ（ｆ）をそれぞれ逆フーリエ変換することで、時間波形である現時間ブロックのヘッドホン再生信号ｘ_Ｌ（ｔ）、ｘ_Ｒ（ｔ）を取得する。これに例えば窓関数を掛けて、前時間ブロックまでのヘッドホン再生信号にオーバーラップ加算していき、得られるヘッドホン再生信号を記憶部１１へ逐次記録する。
以上の処理を繰り返すことにより、分割エリアごとの音響信号の音像が生成される。
Ｓ１０では、再生部１８が、Ｓ９で取得したヘッドホン再生信号ｘ_Ｌ（ｔ）、ｘ_Ｒ（ｔ）にＤＡ変換および増幅を施し、ヘッドホンから再生する。

以上説明したように、本実施形態によれば、オブジェクトの位置に応じて収音対象エリアを分割エリアに分割し、分割エリアごとに収音部の指向性を形成して、それぞれの分割エリアに含まれるオブジェクトの音声を取得する。これにより、オブジェクトの位置に関わらず、複数のオブジェクトのそれぞれについて適切に音声を取得することができる
なお、Ｓ１における処理は、あらかじめ処理して結果を記憶部１１に保持しておいてもよい。また、本実施形態において記憶部１１が保持しているとした各種データは、不図示のデータ入出力部を介して外部から入力するようにしてもよい。

＜実施形態２＞
実施形態１では、図４のＳ３で検出したオブジェクトの音はそれぞれ分離して取得していた。しかし、図８に示すように、仮想聴取位置３１４（頭部座標系）から見た複数のオブジェクト（図８の例ではオブジェクト５_５、５_７）の方向が近接している場合、それらのオブジェクト音に対してＳ８で略同方向のＨＲＴＦが適用されることになる。このような場合、仮想聴取位置から見て近接した方向にある、複数のオブジェクトの音をそれぞれ分離して取得する意味は薄く、ひとつの指向性（収音範囲）でまとめて取得してもよいと考えられる。

そこで、図４のＳ４において、エリア分割処理部１４が、仮想聴取位置から見た方向間隔（最も近い方向と成す角）が閾値以下となるオブジェクトを検出し、それらのオブジェクトに対応する分割エリアを統合するようにしてもよい。すなわち、仮想聴取位置に対する方向間隔が閾値以下となる複数のオブジェクトに対応する複数の分割エリアを統合する。図９は例であり、図８において方向が近接しているオブジェクト５_５、５_７に対応する分割エリア６_５、６_７について、図９では分割エリア３５０に統合している。これにより、ひとつの指向性（収音範囲３６１）でオブジェクト５_５、５_７の音をまとめて取得している。

なお、オブジェクト５_５、５_７の間の距離と、オブジェクト５_１１、５_１２の間の距離は同程度であるが、仮想聴取位置３１４から見たオブジェクトの間の方向間隔は異なる。このため、この信号処理システム１では、方向間隔が閾値より大きいオブジェクト５_１１、５_１２の音はそれぞれ別々に、方向間隔が閾値より小さいオブジェクト５_５、５_７の音はまとめて取得している。すなわち、複数のオブジェクトの音をそれぞれ別々に取得するのか、もしくはまとめて取得するのかを、仮想聴取位置からの方向間隔に応じて制御していることになる。

＜実施形態３＞
また、図４のＳ４において、仮想聴取位置から見た方向間隔が閾値以下となるオブジェクト（母点）について、エリア分割処理部１４が、それらの母点を例えば重心位置に統合してから収音対象エリアのボロノイ分割を行うようにしてもよい。すなわち、仮想聴取位置に対する方向間隔が閾値以下となる複数のオブジェクトの位置を統合する。図１０は例であり、図８において方向が近接している母点５_５、５_７について、図１０では母点３４０に統合しており、ひとつの指向性（収音範囲３６２）でオブジェクト５_５、５_７の音をまとめて取得している。
なお、図９の収音範囲３６１や図１０の収音範囲３６２は、図４のＳ６において、第１の方法で決定した指向性によるものであるが、音をまとめて取得する複数のオブジェクト全てを収音範囲に含む、という条件が付加されている。なお、もちろん例えば第２の方法で指向性を決定してもよく、その場合は指向方向を例えば図１０の統合された母点３４０に固定すればよい。

＜変形例＞
なお、音源に対する人の方向知覚の分解能が正面や後方で高く、側方では低いことを考慮して、エリア分割処理部１４が、仮想聴取方向３１３に対する方向に応じて上記方向間隔の閾値を変えるようにしてもよい。すなわち、仮想聴取方向の付近や反対方向では閾値を小さくして、方向が近接している複数のオブジェクトの音もそれぞれ別々に取得（再生）する。また、仮想聴取方向に対して側方では閾値を大きくして、方向が近接している複数のオブジェクトの音をまとめて取得（再生）する。
また、分割エリアの数Ｄが多いほど信号生成および再生の処理量は増えるため、Ｄの値によってはリアルタイム処理が間に合わなくなる可能性がある。一方、上記方向間隔の閾値が大きいほど、分割エリアや母点が統合されやすいため分割エリアの数Ｄは少なくなる。
そこで、エリア分割処理部１４が、信号処理システム１の許容処理量に応じて分割エリアの上限数Ｄ_ｍａｘを設定し、Ｄ≦Ｄ_ｍａｘとなるよう閾値を制御するようにしてもよい。これにより、処理量に制限がある場合に音の空間的な分解能を落としてリアルタイム性を担保することができる。

また、一般に周波数が低いほど形成可能な指向性は緩くなり、収音範囲の面積が大きくなるため分割エリアに適合しなくなる可能性がある。一方、上記方向間隔の閾値が大きいほど分割エリアの数Ｄは少なくなるため、分割エリアの面積は大きくなる傾向がある。
そこで、Ｓ４の処理を周波数ループの中で行い、高域より低域で閾値を大きくして分割エリアの面積を大きくするようにしてもよい。これにより、周波数に応じてエリア分割を制御することになるため、各周波数で収音範囲を分割エリアに適合させることができる。なお、分割エリアの数も周波数に依存するＤ（ｆ）となるため、例えばＳ８では仮想スピーカの数も周波数ごとに制御することになる。
また、各オブジェクトの方向間隔は仮想聴取位置に依存するが、各オブジェクトの音がなるべく別々の方向から聞こえるように、例えば方向間隔の最小値を所定値より大きくするよう仮想聴取位置を定めるようにしてもよい。

また、仮想聴取位置から見た方向間隔ではなく、仮想聴取位置に依存しない単純なオブジェクト（母点）間距離に基づいて、クラスタリング等により距離が近い母点を統合するようにしてもよい。すなわち、エリア分割処理部１４が、オブジェクトの間の距離に基づいて複数のオブジェクトの位置を統合する。
また、表示処理部１６が、図７から図１０のような表示を生成して、表示部１５に表示させるようにしてもよい。すなわち、分割エリアの状態と収音範囲の少なくとも何れか１つを表示する。そして、操作検出部１７が検出する表示部１５へのユーザ操作入力に応じて、エリア分割処理部１４がエリア分割を制御したり、幾何処理部１３と信号解析処理部１２が連携して指向性を制御したりするようにしてもよい。

例えば、ユーザが、図８において分割エリア６_５、６_７の境界３５３の画像を横切る矢印３７１のようにドラッグすると、操作検出部１７がこの操作を検出し、境界３５３を共有している分割エリア６_５、６_７を図９の分割エリア３５０のように統合してもよい。あるいは、ユーザが図８の複数の分割エリア６_５、６_７の画像を順にタッチして選択すると、操作検出部１７がこの操作を検出し、表示処理部１６がメニューボタン３７２を表示させる。さらに、ユーザがこのメニューボタン３７２をタッチすることで、エリア分割処理部１４が、選択された分割エリア６_５、６_７を図９の分割エリア３５０のように統合するようにしてもよい。すなわち、分割エリアの状態と収音範囲の少なくとも何れか１つを調整する。

さらに、図４のＳ６において、指向性の指向方向や鋭さを制御するようにしてもよい。具体的には、ユーザが、例えば図７の収音範囲の境界３３４を双方向矢印３７３のようにドラッグしこの操作を操作検出部１７を介して検出したエリア分割処理部１４が収音範囲を変更する。これにより、例えば第２の方法による収音範囲３３４と第１の方法による収音範囲３３３の中間的な収音範囲となるように、エリア分割処理部１４が指向性の指向方向や鋭さを制御するようにしてもよい。
なお、再生部１８をスピーカで構成するようにしてもよい。そして、信号解析処理部１２が、各分割エリア音（オブジェクト音）の音像を各オブジェクトの方向に生成するために、公知のパンニング処理等によりスピーカ再生信号を生成するようにしてもよい。
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１…信号処理システム、３…収音部、４_１〜４_Ｖ…撮像部、１０…制御装置、１１…記憶部、１２…信号解析処理部、１３…幾何処理部、１４…エリア分割処理部、１５…表示部、１６…表示処理部、１７…操作検出部、１８…再生部

Claims

収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出する検出手段と、
前記検出手段により検出された前記オブジェクトの位置に応じて、前記収音対象エリアを複数の分割エリアに分割する分割手段と、
前記分割手段より分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定する制御手段と、
を備える信号処理装置。
前記制御手段は、前記収音範囲が前記分割エリアに少なくとも部分的に内接するよう、前記収音部の前記指向性を制御する、ことを特徴とする請求項１に記載の信号処理装置。
前記分割手段は、前記オブジェクトの位置を母点とするボロノイ分割を用いることを特徴とする請求項１または２に記載の信号処理装置。
前記分割手段は、前記オブジェクトの間の距離に基づいて複数の前記オブジェクトの位置を統合することを特徴とする請求項１から３のいずれか１項に記載の信号処理装置。
前記分割手段は、仮想聴取位置に対する方向間隔が閾値以下となる複数の前記オブジェクトの位置を統合することを特徴とする請求項１から３のいずれか１項に記載の信号処理装置。
前記分割手段は、仮想聴取位置に対する方向間隔が閾値以下となる複数の前記オブジェクトに対応する複数の前記分割エリアを統合することを特徴とする請求項１から３のいずれか１項に記載の信号処理装置。
前記分割手段は、前記方向間隔の最小値を所定値より大きくするよう前記仮想聴取位置を決定することを特徴とする請求項５または６に記載の信号処理装置。
前記分割手段は、仮想聴取方向に対する前記オブジェクトの方向に応じて前記閾値を制御することを特徴とする請求項５から７のいずれか１項に記載の信号処理装置。
前記分割手段は、当該信号処理装置の許容処理量に応じて前記分割エリアの上限数を設定することを特徴とする請求項１から８のいずれか１項に記載の信号処理装置。
前記分割手段は、前記収音部が収音する音響信号の周波数ごとに前記上限数を設定することを特徴とする請求項９に記載の信号処理装置。
前記分割手段は、前記周波数の高域より低域で前記上限数を少なくすることを特徴とする請求項１０に記載の信号処理装置。
前記収音部は、複数のマイク素子で構成されるマイクアレイからなり、
前記制御手段は、前記分割エリアのそれぞれについて、前記マイクアレイの指向性を制御して前記収音範囲を設定することを特徴とする請求項１から１１のいずれか１項に記載の信号処理装置。
前記制御手段は、前記収音範囲が前記分割エリアに適合するよう、前記分割エリアごとに前記指向性の指向方向と鋭さの少なくとも何れか１つを制御することを特徴とする請求項１から１２のいずれか１項に記載の信号処理装置。
前記収音範囲は、前記指向性の前記収音対象エリアの平面による断面であることを特徴とする請求項１から１３のいずれか１項に記載の信号処理装置。
前記指向性による減衰量が所定値となる方向を、前記収音範囲の境界に対応させることを特徴とする請求項１から１４のいずれか１項に記載の信号処理装置。
前記制御手段は、前記収音範囲が前記分割エリア内の前記オブジェクトを含み、かつ前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向性を制御することを特徴とする請求項１から１５のいずれか１項に記載の信号処理装置。
前記制御手段は、前記指向方向を前記オブジェクトの方向に固定し、かつ前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向性を制御することを特徴とする請求項１から１５のいずれか１項に記載の信号処理装置。
前記制御手段は、前記収音範囲の面積を所定値より大きくすることを特徴とする請求項１から１７のいずれか１項に記載の信号処理装置。
前記制御手段は、前記収音範囲が前記分割エリアに収まらなかった場合に、前記収音範囲が前記分割エリアの境界を越えずに前記分割エリア内に収まるよう、前記指向方向を制御することを特徴とする請求項１から１５のいずれか１項に記載の信号処理装置。
前記制御手段は、前記分割エリアからはみ出る前記収音範囲の面積を所定値より小さくすることを特徴とする請求項１から１５のいずれか１項に記載の信号処理装置。
前記分割エリアごとの収音部の指向性により、前記マイクアレイで収音した音響信号から前記分割エリアごとの音響信号を取得する取得手段をさらに備えることを特徴とする請求項１２から２０のいずれか１項に記載の信号処理装置。
前記取得手段は、各分割エリアに対応する前記オブジェクトと前記マイクアレイとの間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか１つを補正することを特徴とする請求項２１に記載の信号処理装置。
前記分割エリアごとの音響信号の音像を生成する生成手段をさらに備えることを特徴とする請求項１から２２のいずれか１項に記載の信号処理装置。
前記生成手段は、前記分割エリアごとの音響信号に前記オブジェクトの方向に対応する頭部伝達関数を適用して前記音像を生成することを特徴とする請求項２３に記載の信号処理装置。
前記生成手段は、前記分割エリアごとの音響信号にパンニング処理を適用することを特徴とする請求項２３に記載の信号処理装置。
前記生成手段は、前記各分割エリアに対応する前記オブジェクトと仮想聴取位置との間の距離に応じて、各分割エリアごとの音響信号のレベルおよび遅延の少なくとも何れか１つを補正することを特徴とする請求項２３から２５のいずれか１項に記載の信号処理装置。
前記分割エリアの状態と前記収音範囲の少なくとも何れか１つを表示する表示手段をさらに備えることを特徴とする請求項１から２６のいずれか１項に記載の信号処理装置。
前記分割エリアの状態と前記収音範囲の少なくとも何れか１つを調整する調整手段をさらに備えることを特徴とする請求項１から２６のいずれか１項に記載の信号処理装置。
請求項１から２８のいずれか１項に記載の信号処理装置と、
前記分割エリアごとに収音を行う収音部と、
を備えることを特徴とする信号処理システム。
収音対象エリア内の音源となり得る複数のオブジェクトの位置を検出するステップと、
前記検出された前記オブジェクトの位置に応じて前記収音対象エリアを収音を行う複数の分割エリアに分割するステップと、
前記分割された前記分割エリアのそれぞれについて、収音部の指向性を制御して収音範囲を設定するステップと、
を備える信号処理方法。
コンピュータを、請求項１から２８のいずれか１項に記載された信号処理装置の各手段として機能させるためのプログラム。