JP7254938B2

JP7254938B2 - 音響源用の結合音源定位及び分離方法

Info

Publication number: JP7254938B2
Application number: JP2021539331A
Authority: JP
Inventors: ヴルカイチョテルメルト; ハジハビボールフセイン
Original assignee: Aselsan Elektronik Sanayi ve Ticaret AS; Orta Dogu Teknik Universitesi
Current assignee: Aselsan Elektronik Sanayi ve Ticaret AS; Orta Dogu Teknik Universitesi
Priority date: 2018-09-17
Filing date: 2019-09-16
Publication date: 2023-04-10
Anticipated expiration: 2039-09-16
Also published as: JP2022500710A; EP3853628A2; EP3853628A4; WO2020060519A3; US20210225386A1; US11482239B2; WO2020060519A2

Description

技術分野
本発明は、音源の音の到来方向の推定及び音源分離を可能にする方法に関するものであり、この方法は、特定数の方向について球面調和分解係数から計算したステアード（指向）応答関数の辞書ベース表現の空間的重み付けによるものであり、これらの球面調和分解係数は、音場のマイクロホンアレイ録音から、あるいは他の手段を用いることによって、のいずれかで得られる。

従来技術
複数のマイクロホンから成るマイクロホンアレイを用いて、音響源を録音して、音場の空間的特徴が抽出される。単一のマイクロホンを用いる代わりに複数のマイクロホンを用いることの基本的利点は、音源の音の到来方向を推定する能力、及び音場をフィルタ処理して音場の空間分析を実行する能力にある。時間－周波数領域内でオーバーラップ（重複）する複数の音響信号の到来方向の推定及び分離は、リアルタイムの動作に悪影響を与える重大な技術的困難性を含む。さらに、利用可能な方法は、高レベルの反響音を有する閉鎖環境では良好に機能しない。機械学習を用いる既存の方法の一部では、速度及び異なるマイクロホンアレイへの適応といった問題が生じる。

上述した欠点、及び既存の解決策が上記の問題を解決するには不十分であることにより、関係する技術分野において進展がなされることが必要であると考えられてきた。

発明の目的
複数の音源が動作する環境内でマイクロホンを用いて録音された音響信号を、これらの音源の混合音と称する。本発明の主目的は、音源の混合音からの音源の分離を可能にすることにあり、この分離は、有限個の方向について、球面調和分解係数を用いて計算したステアード応答関数の辞書ベース表現の空間的重み付けにより、これらの球面調和分解係数は、音場のマイクロホンアレイ録音から、あるいは他の方法を用いる（例えば、合成する）ことによって、のいずれかで得られる。辞書中に存在し、上記辞書ベース表現において用いられるテンプレート・ベクトルを原子（アトム）と称する。本発明中に開示するアルゴリズムは、平面波を表現する空間的な帯域制限関数の有限個の点で取得したサンプルをその要素として含む（即ち、線形代数的な意味での）ベクトルの使用に基づく。これらの関数は、（球面のような）分析面上の所定位置において計算する。

ステアード応答関数を用いて得られる方向マップを十分良好に表現することができる原子、及びこれらの原子の振幅を決定する。音源の音の到来方向も、同じ方法を用いて、隣接関係を用いて音源候補をグループ化することによって計算される。このようにして、到来方向は、マイクロホンアレイを用いて捕捉した音源の録音から得ることができる。その後に、方向情報及び／または所定音源の音の到来方向を用いて、音源を分離する。

音源分離に用いられる最も基本的な方法の１つを最大指向係数ビーム形成と称する。最大指向係数ビーム形成と比べると、ＳＩＲ（Signal to Interference Ratio：信号対干渉雑音（混信）比）、ＳＤＲ（Signal to Distortion Ratio：信号対歪み比）、及びＳＡＲ（Signal to Artifacts Ratio：信号対アーティファクト比）の８～１０dBの範囲内の改善が、大きい残響時間を有する音響環境内で開示する方法を用いて得られる。

構造的及び特性的な特徴、及びその利点の全部を、以下の詳細な説明を用いて、添付した図面を参照しながら説明する。

音源の定位及び分離の流れ図である。分離方法の流れ図である。定位方法の流れ図である。単一の時間－周波数ビンから得ることができるステアード応答関数を用いて得られる方向マップを示す図である。応答関数を表現するに当たり用いることができるいくつかの辞書要素を示す図である。ヒストグラム中のピークの（異なる原子を分類する方法に関係する）隣接関係を示す図である。フォン・ミーゼス関数の異なるｋ値について得られる方向応答性、及び最大指向性（最大ＤＦ）の方向応答性を示す図である。

これらの図面は必ずしも原寸に比例しておらず、本発明の明確な理解にとって重要でない細部は省略していることがある。このこととは別に、少なくとも実質的に同一の要素、あるいは少なくとも実質的に同じ機能を有する要素は、同じ参照番号を用いて示している。

発明の詳細な説明
この詳細な説明では、本発明の好適な実施形態を説明し、これらの実施形態は、限定的効果を何ら有さず、主題をさらに説明するために提供する。

本発明は、音源の定位及び分離のための２つの異なるアルゴリズムを含む。これらのアルゴリズムは、一緒に用いることも互いに独立して用いることもできる。開示する発明の流れを示すブロック図を図１に示す。

図２に、音源分離方法のブロック図を示す。入力は音源位置及びマイクロホンアレイ録音であり、出力は分離された音声（サウンド）ファイルである。このアルゴリズムの異なるステップの細部は以下に挙げる。

Ａ．球面調和分解係数の計算：マイクロホンアレイ録音、及びこうしたアレイが含むマイクロホンの位置を用いて、調和級数を計算することができる。調和級数を用いて、マイクロホンアレイの周りの音場を、球関数または円柱関数の周期関数を用いて定義する。開示する方法は、この音場の球面調和分解を直接用いることもできる。こうした入力が存在する場合、このステップを実行する必要がない。

Ｂ．時間－周波数変換：処理すべき球面調和係数級数の各々を、時間－周波数領域内で適切な可逆表現により表現する。さらなるステップにおける手順は、時間－周波数ビン毎に別個に実行する。ステップＡにおける手順は線形であるので、これらの手順は逆の順序で実行することもできる。

Ｃ．ビーム形成：次のステップで使用する信号を、時間－周波数ビン毎に、球面調和係数を得た原点から放射状に外向きの有限個の方向に、最大の指向係数のビームを指向させることによって計算する。このことは、球面調和分解係数に適切な重み付けをすることによって実現される。このアルゴリズムが用いるパラメータは、ビームを指向させる方向の数である。

Ｄ．決定した方向における辞書原子の生成：平面波については、最大の指向性を有するビームの方向応答を、以下に述べるように閉形式の関数として理論的に記述することができる。このステップでは、ステアード・ビーム形成関数の表現中に用いる原子が、この関数を球面（または他の分析面）上で有限個の方向においてサンプリングすることによって得られる。このプロセスは、方法を加速させるためにオフラインで実行することができるだけでなく、以前の分析の結果として得られた音源方向に基づいて、実行時にビン毎に別個に適用することもできる。

Ｅ．表現：このステップは、最小数の原子を用いた特定基準による経済的な方法での、上記ビーム形成結果の表現の計算を含む。上述した辞書原子をこのステップで用いる。このステップの結果は、前に計算した指定方向の原子の線形和として音場を表現することによる、分析される時間－周波数ビン内のこれらの原子毎の複素数値または実数値の係数の計算である。

Ｆ．ステップＤで決定した辞書原子を、所定の音源方向を用いて空間フィルタで処理する。このプロセスについては、方向が既知である原子毎に計算した係数に、分離すべき方向を強調する方向性ゲインを乗算する。ここでは、閉形式で定義した重み関数を用いて、この方向性ゲインを計算することができる。方向性の重み付けを適応的に実行することもできる。方向性の重み付けをしたビーム形式は、上記の重み付けした係数、及び時間－周波数ビン毎の対応する原子を用いて得ることができる。

Ｇ．再構成：分離した音源を時間領域内で再構成し、この再構成は、前のステップで得られた新たな時間－周波数表現を反転させることによって行う。

図３に、上記の測位方法のブロック図を示す。上述したＡ、Ｂ、Ｃ、Ｄ、Ｅのステップは上記２つのアルゴリズムに共通であり、以下に記述する追加的なステップは音源方向推定のみに用いる。

Ｈ．選択した原子に基づく方向ヒストグラムの形成：特定の時間範囲におけるステアード・ビーム形式を表現するために用いる原子の統計的分布を、ヒストグラムまたは他の方法で形成する。ヒストグラムを用いる場合、ビンの数は辞書内の原子の数と同じになるように選択する。

Ｉ．クラスタリング（分類）：前のステップの結果として得られる分布のピーク点を計算する。到来方向は、これらのピークに対応する原子間の隣接関係を用いることによって推定することができる。

上記で概略的に表現した定義は、以下に記述する好適なパラメータによる解決策の実施形態として用いている。音場の球面調和分解は、剛体球マイクロホンアレイで行った録音から得られる。短時間フーリエ変換を時間－周波数変換として用いる。詳細は以下に挙げるルジャンドル（Legendre）インパルス関数を球面上でサンプリングして、辞書原子を生成する。直交マッチング追跡アルゴリズムを表現段階で使用し、最大指向係数ビーム形成を用いてステアード・ビームを計算する。球面上で定義されるフォン・ミーゼス（Von Mises）関数を、位置依存性の重み付けに用いる。到来方向推定用の分布は、ヒストグラムを用いることによって得られる。好適な実施形態では、時間－周波数変換と球面調和分解の順序を交換し、このことは関係する演算の線形性により等価な結果をもたらす。

短時間フーリエ変換：マイクロホンアレイから得られる信号の各々を、短時間フーリエ変換を用いて時間－周波数領域に変換する。あらゆる種類の窓関数及び時間長をこのプロセス用に用いることができるが、好適な実施形態では、２０４８サンプルのハン（Hann）窓（ハニング・ウィンドウ）を５０%のオーバーラップで用いる。

球面調和分解の計算：このステップでは、球面調和分解を時間－周波数ビン毎に次式のように計算する：

ここに、Ｍはマイクロホンの数であり、γ_iは関係する方形球面上の重みであり、ｋは短時間フーリエ変換を用いることによって得られた時間－周波数ビンの指標（インデックス）であり、Ω_i＝(θ_i,φ_i)は球面上のマイクロホンの位置である。球面調和関数
（外１）

は次式のように定義される：

最大指向性ビーム形成：このプロセスは平面波分解としても知られている。最大指向性ビーム形成は球面調和係数を用いて次式のように計算することができる：

ここに、Ω＝(θ,φ)は最大指向係数のビームの指向方向であり、ｊ_n(・)、
（外２）

、ｊ^’ _n(・)、及び
（外３）

は球ベッセル関数及び球ハンケル（Hankel）関数であり、その一次微分γ_aは球状マイクロホンの半径であり、周波数等価関数は次式のように与えられる：

所定方向における平面波ルジャンドル・インパルス関数の定義：
有限個のＳ平面波についての最大指向係数のビーム形式は以下のように与えられる：

ここに、

はΩ＝(θ_s,φ_s)の所に最大値を有するルジャンドル・インパルスである。この関数を球面上の有限個の点でサンプリングして、以下のステップにおける直交マッチング追跡アルゴリズムで用いて辞書内の原子を得る。

直交マッチング追跡：直交マッチング追跡は、所定の時間－周波数ビン内のステアード応答関数を少数の辞書原子を用いて表現するために用いる反復法である。

このため、所定の時間－周波数ビンにおけるステアード応答関数は、辞書要素の適切な選択を用いて表現することができる。アルゴリズムの流れは以下の通りである：
１．最大指向係数のビームを指向させて、分析する時間－周波数ビンについて、球面全体をカバーする異なる方向におけるステアード応答関数を計算して、この所定の時間－周波数ビンについての音場の方向マップを生じさせる。
２．これらの値で形成されるベクトルに、辞書原子から成る行列を乗算して、結果的なベクトル中の最高値に対応する原子を選択する。
３．この原子を用いて得られる近似値を上記ベクトルから減算して、残差ベクトルを形成する。
４．この残差ベクトルに辞書原子から成る行列を乗算して、結果的なベクトル内の最高値に対応する原子を選択する。
５．残差ベクトルのノルムが所定閾値を下回るまで、第３及び第４ステップを反復する。
６．原子の線形結合から成る近似の係数を、最小二乗アルゴリズムを用いることによって得る。

例えば、図４中のステアード応答関数は、図５中に挙げる辞書原子のうち１番目及び２番目の原子のみを用いることによって得ることができる。３番目の原子は使用しない。

方向ヒストグラムを形成する：直交追跡アルゴリズムを用いてステアード応答関数を適切に表現する原子を見出した後に計算されるヒストグラムは、所定の期間中にこれらの原子が用いられる頻度を示す。

ヒストグラム分類（クラスタリング）及び音源定位：音源定位は、ヒストグラム中の極大点の方向の隣接関係に基づく分類原理に基づいている。位置の隣接関係はサイド（副）情報であり、音源が位置する方向は、分類された位置のそれぞれに向かう方向の平均をとることによって計算される。この段階の出力が、環境内の音源の成分及び方向である。ヒストグラム中のピークどうしの隣接関係を図６に示す。従って、グループ１はＰ７、Ｐ１３から成り；グループ２はＰ６、Ｐ２１及びＰ２２から成る。

計算した音源方向、及びこれらの方向に対応する線形の重みを、この段階で用いる。本発明の好適な実施形態では、各原子に対応する線形の重みが、当該原子の中心方向において求められた所望音源の方向に平均値を有するフォン・ミーゼス関数によって重み付けされる。フォン・ミーゼス関数による重み付けを用いて得られた空間フィルタを図７に、異なる密度パラメータ（ｋ）について示す。最大指向係数のビームも比較のために示す。ｋの値がフォン・ミーゼス関数の空間的選択性を決定する。この値が小さいと、この値は、上記方法に、この方法の入力をより広い方向範囲でフィルタ処理させ、この値を増加させることは、より高い選択性を有するより尖鋭なビームを生じさせて、より正確な音源の分離を生じさせる。このステップでは、各時間－周波数ビンにおいて分離されることになる音源毎に１つの複素数値が得られる。

逆短時間フーリエ変換：各音源毎に得られた新たな時間－周波数表現を、逆短時間フーリエ変換を用いて変換して時間領域に戻して、分離された音源信号を得る。

Claims

コンピュータによって実行され、１つ以上の音源からの音の到来方向の推定、及び該音源の混合体からの分離を可能にする方法であって、前記推定及び分離は、球面調和分解を用いて所定数の方向について計算したステアード・ビーム形成関数の辞書ベース表現の空間的重み付けにより行う方法において、
複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した１つ以上のデジタル音響信号データの球面調和分解を実行することによって、１つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
前記球面調和分解係数の各々を変換することによって、複数の時間－周波数ビンを生成するステップと、
前記時間－周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
対応する前記時間－周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
所定の時間範囲において前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子の統計的分布を形成するステップと、
前記辞書原子の前記統計的分布のピーク点を計算するステップと、
前記計算したピークに対応する前記辞書原子間の隣接関係を用いることによって、前記音の到来方向を推定するステップと、
前記推定した音の到来方向に依存する関数を用いて、前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子に重み付けをするステップと、
前記重み付けした辞書原子の、当該辞書原子の隣接関係に応じた和を求めて、前記音源の各々の時間－周波数表現を得るステップと、
時間－周波数逆変換を実行することによって、分離された音源を特定して、該分離された音源を得るステップと
を含む方法。
コンピュータによって実行され、２つ以上の音源の混合体からの音源の分離を可能にする方法であって、
複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した１つ以上のデジタル音響信号データの球面調和分解を実行することによって、１つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
前記球面調和分解係数の各々を変換することによって、複数の時間－周波数ビンを生成するステップと、
前記時間－周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
対応する前記時間－周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
関数を用いて、前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子に重み付けをするステップと、
前記重み付けした辞書原子の、当該辞書原子の隣接関係に応じた和を求めて、前記音源の各々の時間－周波数表現を得るステップと、
時間－周波数逆変換を実行することによって、分離された音源を特定して、該分離された音源を得るステップと
を含む方法。
コンピュータによって実行され、１つ以上の音源の音の到来方向の推定を可能にする方法であって、
複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した１つ以上のデジタル音響信号データの球面調和分解を実行することによって、１つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
前記球面調和分解係数の各々を変換することによって、複数の時間－周波数ビンを生成するステップと、
前記時間－周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
対応する前記時間－周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
所定の時間範囲において前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子の統計的分布を形成するステップと、
前記辞書原子の前記統計的分布のピーク点を計算するステップと、
前記計算したピークに対応する前記辞書原子間の隣接関係を用いることによって、前記音の到来方向を推定するステップと、
を含む方法。
ルジャンドル・インパルス関数を前記球面上でサンプリングして、複数の前記辞書原子を生成する、請求項１～３のいずれかに記載の方法。
前記対応する時間－周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な辞書原子の選択が、
前記計算したステアード・ビーム形成関数の値で形成されるベクトルに、前記辞書原子から成る行列を乗算して、結果的なベクトル中の最高値に対応する前記辞書原子を選択するステップと、
前記辞書原子を用いて得られる近似値を前記ベクトルから減算することによって、残差ベクトルを形成するステップと、
前記辞書原子から成る前記行列を前記残差ベクトルに乗算して、結果的なベクトル中の最高値に対応する前記辞書原子を選択するステップと、
前記残差ベクトルのノルムが所定閾値を下回るまで、前記残差ベクトルを形成するステップ及び前記最高値に対応する前記辞書原子を選択するステップを反復するステップと、
前記辞書原子の線形結合から成る近似の係数を、最小二乗アルゴリズムを用いることによって得るステップと
を含む、請求項１～４のいずれかに記載の方法。
前記辞書原子を重み付けするための値を、単一の全域的最大値を有する方向関数から例示する、請求項１または２に記載の方法。
前記辞書原子から成る前記ベクトル及び／または前記辞書原子から成る前記行列が、帯域制限関数で形成される、請求項５に記載の方法。
前記辞書原子から成る前記ベクトル及び／または前記辞書原子から成る前記行列が、方向定位関数から例示される、請求項５または７に記載の方法。
前記辞書原子から成る前記ベクトル及び／または前記辞書原子から成る前記行列が、実数値関数から例示される、請求項５、７、８のいずれかに記載の方法。