JP2021110938A

JP2021110938A - 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出

Info

Publication number: JP2021110938A
Application number: JP2020212089A
Authority: JP
Inventors: マスナディ‐シラジ、アリレザ; Masnadi-Shirazi Alireza; ネスタ、フランチェスコ; Nesta Francesco
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2020-01-10
Filing date: 2020-12-22
Publication date: 2021-08-02
Also published as: KR20210091034A; CN113113034A; US11064294B1; US20210219053A1; US11937054B2; US20210314701A1

Abstract

【課題】マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、マイクロフォンアレイによる計算量が低減されたマルチ音源トラッキング及びマルチストリーム発話区間検出のためのシステム及び方法を提供する。【解決手段】方法は、マルチ音源音声信号をマイクロフォンアレイからのマイクロフォン対によって定義された、多次元空間の内に構築されたＴＤＯＡ軌跡情報に基づくステアード最小分散（ＳＴＭＶ）ビームフォーマーにより、マルチ音源音声信号について算定されたＴＤＯＡ検出データに基づいて音声トラックを更新し、ＴＤＯＡ検出データに基づいて複数の音声トラックのそれぞれについて発話区間検出（ＶＡＤ）データを構築し、更新された複数の音声トラック及び構成されたＶＡＤデータを用いて１以上の強調されたマルチ音源音声信号を生成する。【選択図】図６

Description

本開示は、１以上の実施形態によれば、一般には、音声処理に関し、より詳細には、例えば、一般的な平面マイクロフォンアレイのための複数音源トラッキング及びマルチストリーム発話区間検出のためのシステム及び方法に関する。

スマートスピーカや、他の音声制御式のデバイス及び電子機器は、近年人気を得ている。スマートスピーカは、環境から音声入力（例えば、ユーザーの口頭のコマンド）を受信するために、マイクロフォンのアレイをしばしば備えている。ターゲット音声（例えば、口頭のコマンド）が音声入力において検出されたときに、スマートスピーカは検出されたターゲット音声を１以上のコマンドに変換し、当該コマンドに基づいて異なるタスクを実行し得る。

これらのスマートスピーカの問題の一つとして、効率的かつ効果的に、ターゲット音声（例えば、口頭のコマンド）を作動環境のノイズや他のアクティブな話者から分離することが挙げられる。例えば、１以上の話者が、１以上のノイズ源の存在下でアクティブになり得る。特定の話者を強調することが目的であるときには、話者はターゲット話者と呼ばれる一方、残りの話者は干渉源と看做すことが出来る。既存の話者強調アルゴリズムは、主として、独立成分分析（ｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）（ＩＣＡ）に関連するブラインド音源分離（ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）（ＢＳＳ）法や、空間フィルタリング又はビームフォーミング法のような、複数の入力チャンネル（マイクロフォン）を用いて音源の空間情報を活用する。

ＢＳＳ法は、しかしながら、第１にはバッチ処理のためにデザインされたものであり、反応の遅延が大きいため、しばしば実際の応用には望ましくない、あるいは適用できない場合さえあり得る。空間フィルタリング又はビームフォーミング法は、一方で、最小化されるべきコスト関数としての発話区間検出（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ）（ＶＡＤ）の下での監視をしばしば必要とするが、これは、ノイズ／干渉のみの区分に属する共分散行列の推定に過度に依存し得る。

そのため、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法が必要とされている。

以下の図面及び後述の詳細な説明を参照することで、本開示の態様とその利点がより良く理解され得る。同様の参照番号が、１以上の図面で示される同様の要素を識別するために用いられるが、その図示は本開示の実施形態を示すことを目的としているのであって、これを限定することを目的としていないことが理解されなくてはならない。図中の構成要素は必ずしも正寸ではなく、代わりに、本開示の原理を明確に示すことに重点が置かれている。

図１は、本開示の１以上の実施形態に係る、音声処理デバイスの例示的な作動環境を示す。

図２は、本開示の１以上の実施形態に係る、例示的な音声処理デバイスのブロック図である。

図３は、本開示の１以上の実施形態に係る、マルチトラック音声強調のための例示的な音声処理プロセッサのブロック図である。

図４は、本開示の様々な実施形態に係る、一般的なマイクロフォンアレイからの複数の音声信号を処理するための例示的なマルチトラックアクティビティ検出エンジンのブロック図である。

図５Ａは、本開示の１以上の実施形態に係る、マイクロフォン対の例示的な幾何学的配置を示す図である。

図５Ｂは、本開示の１以上の実施形態に係る、異なるマイクロフォンアレイの幾何学的配置に対応する多次元空間上での例示的な到達時差（ｔｉｍｅｄｉｆｆｅｒｅｎｃｅｏｆａｒｒｉｖａｌ）（ＴＤＯＡ）軌跡情報のメッシュを示す図である。

図６は、本開示の様々な実施形態に係る、マルチ音源トラッキング及びアクティビティ検出によりマルチ音源音声信号を強調するための例示的な方法の論理フロー図である。

図７は、本開示の様々な実施形態に係る、マイクロフォン対を用いて多次元空間上のＴＤＯＡ軌跡情報を算定するための例示的な処理の論理フロー図である。

本開示は、マルチストリーム音声環境内のターゲット音声信号を検出及び処理するために、改善されたシステム及び方法を提供する。

発話区間検出（ＶＡＤ）は、複数の入力チャンネルから得られた音源の空間情報を利用する処理でのターゲット音声の発話強調を監視するために用いられ得る。ＶＡＤは、所望の話者がアクティブになったときに、ノイズ／干渉の影響が実質的にゼロにし得るように、所望の話者が沈黙している期間の間に干渉／ノイズ源の空間的な統計値をもたらす場合がある。例えば、各音源のＶＡＤは、いつ既存の追跡の近辺に検出があったかを決定することによってＶＡＤの検出の履歴を利用することで、音源の到達時差（ＴＤＯＡ）又は到達方向（ＤｉｒｅｃｔｉｏｎｏｆＡｒｒｉｖａｌ）（ＤＯＡ）の形での空間情報を追跡すると推測し得る。この処理は、一般に、測定値から追跡（Ｍｅａｓｕｒｅｍｅｎｔ−ｔｏ−Ｔｒａｃｋ）（Ｍ２Ｔ）問題として知られている。このようにして、目的の音源すべてについて、複数のＶＡＤが推定され得る。

具体的には、既存のＤＯＡ法は、通常、方位角及び仰角の閉形式マッピングに基づいて、マイクロフォンのアレイ全体について単一のステアリングベクトルを構築する。この方法は、線形又は円形のアレイの特別な配置を利用するために用いることが出来る。このようなＤＯＡ法は、マイクロフォンアレイの一般又は任意の配置に拡張することが出来ない。さらに、これらの閉形式マッピングに基づくＤＯＡ法は、しばしば多次元空間での広範囲な検索を必要とする。任意の配置については、既存のＴＤＯＡベースの方法を用いることが出来る。この方法は、特定のアレイの配置に限定されない場合があり、多次元のＴＤＯＡベクトル（各ペアについて１次元）を形成する各マイクロフォン対についてのステアリングベクトルを複数構築する場合がある。しかしながら、これらの既存の方法は、各ＴＤＯＡ対のスペクトラムにおけるピークが交差する交点によって形成されるＴＤＯＡゴーストを誘発するリスクを含む。その結果、特定のアレイ配置を含むＴＤＯＡゴーストを除去するために更なる後処理が、しばしば必要となる。

特定のアレイの配置に制約されないマルチストリームＶＡＤの必要性に鑑みて、本明細書で説明される実施形態は、一般のアレイの配置（例えば、平面上に配置されたマイクロフォンアレイ）に適用可能なマルチ音源ＴＤＯＡトラッキングとＶＡＤメカニズムとの組合せを提供する。マルチ音源ＴＤＯＡトラッキングとＶＡＤメカニズムとの組合せは、ＴＤＯＡの検索を各次元について別々に実行することで、従来のＴＤＯＡに通常含まれる計算の数を低減する場合がある。

いくつかの実施形態では、不要なゴーストＴＤＯＡを回避する、平面上に配置された一般のアレイの配置のための多次元ＴＤＯＡ法が採用される。一実施形態では、一般的に構成されたマイクロフォンのデカルト座標が取得される。マイクロフォンの一つは、基準マイクロフォンとして選択される場合がある。マイクロフォンの方位角及び仰角が、スキャンされる場合があり、これに基づいて、物理的に可能なＴＯＤＡの平面軌跡が、複数のマイクロフォン対の多次元ＴＤＯＡ空間上に形成可能となる。このように、形成された平面軌道によりゴーストＴＤＯＡを回避され、そのため、ゴーストＴＤＯＡを取り除くための更なる後処理は不要となる。さらに、完全にＤＯＡスキャンする方法と比べて、本明細書で開示される多次元ＴＤＯＡ法は、完全な多次元空間上で検索するのではなく、対のＴＤＯＡ領域上で各次元に関して別々に検索を実行することで、計算の複雑さを低減する。

図１は、本開示の様々な実施形態に係る音声処理システムが作動し得る、例示的な作動環境１００を示す。作動環境１００は、音声処理デバイス１０５、ターゲット音源１１０、及び、１以上のノイズ源１３５−１４５を含む。図１で示された例では、作動環境１００は部屋として示されている。しかし、作動環境は、車内、オフィスの会議室、家庭の部屋、屋外のスタジアム、又は、空港といった他の場所を含み得ると考えられる。本開示の様々な実施形態において、音声処理デバイス１０５は、２以上の音声感知コンポーネント（例えば、マイクロフォン）１１５ａ―１１５ｄと、オプションとして、１以上の音声出力コンポーネント（例えば、スピーカ）１２０ａ―１２０ｂと、備える場合がある。

音声処理デバイス１０５は、音声感知コンポーネント１１５ａ―１１５ｄにより音を感知し、２以上の音声入力信号を含むマルチチャンネル音声入力信号を生成するように構成されている場合がある。音声処理デバイス１０５は、本明細書で開示される音声処理技術を用いて音声入力信号を処理して、ターゲット音源１１０から受信した音声信号を強調する場合がある。例えば、処理された音声信号は、発話認識エンジン、又は、音声コマンドプロセッサといった音声処理デバイス１０５内の他の構成要素、あるいは、外部デバイスに伝達される場合がある。従って、音声処理デバイス１０５は、音声信号を処理するスタンドアローンのデバイス、又は、外部デバイスと情報交換あるいは制御するために、処理された音声信号を他の信号（例えば、コマンド、命令、等）に変換するデバイス、である場合がある。他の実施形態では、音声処理デバイス１０５は、携帯電話やボイスオーバーＩＰ（ｖｏｉｃｅ−ｏｖｅｒ−ＩＰ）（ＶｏＩＰ）が使用可能なデバイス、といった通信デバイスである場合がある。そして、処理された音声信号は、遠隔のユーザーに対して出力するために、ネットワークを介して他のデバイスに伝達される場合がある。通信デバイスは、処理された音声信号を遠隔のデバイスから更に受信し、処理された音声信号を音声出力コンポーネント１２０ａ―１２０ｂを用いて出力する場合がある。

ターゲット音源１１０は、音声処理デバイス１０５に検出可能な音を生成する如何なる音源であっても良い。システムに検出されるべきターゲット音声は、ユーザー又はシステムの要求によって指定される基準に基づいて定義され得る。例えば、ターゲット音声は、人間の発話、特定の動物又は機械によって作られた音、として定義され得る。図示の例では、ターゲット音声は人間の発話として定義され、ターゲット音源１１０は人間である。ターゲット音源１１０に加え、作動環境１００は１以上のノイズ源１３５−１４５を含む場合がある。様々な実施形態では、ターゲット音声ではない音はノイズとして処理され得る。図示の例では、ノイズ源１３５−１４５は、音楽を流すラウドスピーカ１３５、テレビ番組・映画若しくはスポーツイベントを流すテレビ１４０、及び、ターゲットでない話者１４５間での背景の会話、を含み得る。様々な作動環境において、他のノイズ源が存在し得ることが理解されよう。

なお、ターゲット音声及びノイズが、音声処理デバイス１０５の音声感知コンポーネント１１５ａ―１１５ｄに異なる方向から、異なる時刻に到達し得る。例えば、ノイズ源１３５−１４５は、作動環境１００内の異なる位置でノイズを生じる場合がある。そして、ターゲット音源（人間）１１０は、作動環境１００内の複数の位置間で移動しながら発話する場合がある。さらに、ターゲット音声、及び／又は、ノイズは作動環境１００内の設備（例えば、壁）で反射する場合がある。例えば、ターゲット音声がターゲット音源１１０から音声感知コンポーネント１１５ａ―１１５ｄのそれぞれに進み得る経路を考える。矢印１２５ａ―１２５ｄで示すように、ターゲット音声はターゲット音源１１０から各音声感知コンポーネント１１５ａ―１１５ｄのそれぞれにまで、直接進む場合がある。さらに、ターゲット音声は、矢印１３０ａ―１３０ｂで示すように、壁１５０ａ及び１５０ｂに反射して、ターゲット音源１１０から音声感知コンポーネント１１５ａ―１１５ｄに間接的に到達する場合がある。様々な実施形態では、音声処理デバイス１０５は、部屋のインパルス応答を推定及び適用し、さらに、ターゲット音声を強調してノイズを抑制するために、１以上の音声処理技術を用いる場合がある。

図２は、本開示の様々な実施形態に係る、例示的な音声処理デバイス２００を示す。いくつかの実施形態では、音声処理デバイス２００は、図１の音声処理デバイス１０５として実装される場合がある。音声処理デバイス２００は、音声センサアレイ２０５と、音声信号プロセッサ２２０と、ホストシステムコンポーネント２５０と、を備える。

音声センサアレイ２０５は、それぞれが音波の形態の音声入力を音声信号に変換するトランスデューサとして実装され得る、２以上のセンサを備える。図示された環境では、音声センサアレイ２０５は、それぞれが音声信号プロセッサ２２０の音声入力回路部２２２に供給される音声入力信号を生成する、複数のマイクロフォン２０５ａ―２０５ｎを備える。一実施形態では、音声センサアレイ２０５は、各チャンネルがマイクロフォン２０５ａ―ｎのうちの一つからの音声入力信号に対応するマルチチャンネル音声信号を生成する。

音声信号プロセッサ２２０は、音声入力回路部２２２と、デジタルシグナルプロセッサ２２４と、オプションで音声出力回路部２２６と、を備える。様々な実施形態では、音声信号プロセッサ２２０は、アナログ回路部と、デジタル回路部と、ファームウェアに記憶されたプログラムの命令を実行するように作動可能であるデジタルシグナルプロセッサ２２４と、を備える集積回路として実装され得る。音声入力回路部２２２は、例えば、音声センサアレイ２０５へのインターフェースと、アンチエイリアシングフィルタと、アナログデジタルコンバータ回路部と、エコー消去回路部と、他の音声処理の回路部及びコンポーネントを備える場合がある。デジタルシグナルプロセッサ２２４はマルチチャンネルのデジタル音声信号を処理して、１以上のホストシステムコンポーネント２５０に出力される強調された音声信号を生成するように作動可能である。様々な実施形態では、デジタルシグナルプロセッサ２２４は、エコー消去、ノイズ消去、ターゲット信号強調、ポストフィルタリング、及び、他の音声信号処理機能、を実行するように作動可能である場合がある。

オプションの音声出力回路部２２６は、スピーカ２１０ａ及び２１０ｂのような少なくとも１個のスピーカに出力するために、デジタルシグナルプロセッサ２２４から受信した音声信号を処理する。様々な実施形態では、音声出力回路部２２６は、１以上のデジタル音声信号をアナログに変換するデジタルアナログコンバータと、スピーカ２１０ａ―２１０ｂを駆動する１以上のアンプと、を含む場合がある。

音声処理デバイス２００は、例えば、携帯電話、スマートスピーカ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声制御式の機器、又は、自動車のような、ターゲット音声のデータを受信及び強調するように作動可能な如何なるデバイスとして実装され得る。ホストシステムコンポーネント２５０は、音声処理デバイス２００を作動させるための、ハードウェア及びソフトウェアの様々なコンポーネントを備える場合がある。図示された実施形態では、ホストシステムコンポーネント２５０は、プロセッサ２５２と、ユーザインターフェースコンポーネント２５４と、外部デバイス及びネットワーク２８０（例えば、インターネット、クラウド、ローカルエリアネットワーク、又は、電話回線網）のようなネットワークと通信する通信インターフェース２５６と、モバイルデバイス２８４と、メモリ２５８と、を備える。

プロセッサ２５２及びデジタルシグナルプロセッサ２２４は、プロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理回路（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）（ＰＬＤ）（例えば、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）（ＦＰＧＡ））、デジタル信号処理（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ）（ＤＳＰ）デバイス、又は、他の論理デバイスのうちの１以上を備える場合がある。ここで他の論理デバイスは、ハードウェアにより、ソフトウェアを実行することにより、又は、これら両方の組合せにより、本開示の実施形態において本明細書で議論される様々な処理を実行するように構成され得る。ホストシステムコンポーネント２５０は、例えばバス又は他の電子的な通信インターフェースを通して、音声信号プロセッサ２２０及び他のホストシステムコンポーネント２５０と接続及び通信するように構成される。

音声信号プロセッサ２２０及びホストシステムコンポーネント２５０は、ハードウェアコンポーネント、回路部、及び、ソフトウェアを組合せたものを組み込んでいるとして示されている。しかし、いくつかの実施形態では、実行するように作動可能なハードウェアコンポーネント及び回路部の機能のうち少なくともいくつか、あるいは全ては、プロセッサ２５２及び／又はデジタルシグナルプロセッサ２２４によって、メモリ２５８又はデジタルシグナルプロセッサ２２４のファームウェアに記憶されたソフトウェアの命令及び／又は設定データに応答して実行可能なソフトウェアのモジュールとして実装されうることが理解されよう。

メモリ２５８は、音声データとプログラムの命令を含むデータ及び情報を記憶するように作動可能な１以上のメモリデバイスとして実装され得る。メモリ２５８は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ−ＥｒａｓａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ハードディスクドライブ、及び／又は、他の種類のメモリ、といった揮発性及び不揮発性のメモリデバイスを含む、１以上の様々な種類のメモリデバイスを備える場合がある。

プロセッサ２５２は、メモリ２５８に記憶されたソフトウェアの命令を実行するように作動可能である場合がある。様々な実施形態では、発話認識エンジン２６０は、音声信号プロセッサ２２０から受信した強調された音声信号を処理するように作動可能である。この処理は、音声コマンドを識別及び実行することを含む。音声通信コンポーネント２６２は、モバイルデバイス２８４又はユーザーデバイス２８６のような１以上の外部デバイスとの、モバイルフォン又はセルラーフォンの通信網又はＩＰネットワーク間のＶｏＩＰ通話を用いた通話のような音声通信を容易にするように作動可能な場合がある。様々な実施形態では、音声通信は、強調された音声信号を外部の通信デバイスに伝達することを含む。

ユーザインターフェースコンポーネント２５４は、ディスプレイ、タッチパッドディスプレイ、キーパッド、１以上のボタン、及び／又は、ユーザーに音声処理デバイス２００と直接にやり取りすることを可能にするように作動可能な他の入力／出力コンポーネントを含む場合がある。

通信インターフェース２５６は、音声処理デバイス２００と外部デバイスとの間の通信を容易にする。例えば、通信インターフェース２５６は、音声処理デバイス２００と、１以上のローカルデバイスと、の間の（例えば、８０２．１１の）Ｗｉ−Ｆｉ（登録商標）、又は、ブルートゥース（登録商標）による接続を可能にする場合がある。ここで１以上のローカルデバイスは、例えば、モバイルデバイス２８４、又は、リモートサーバ２８２に（ネットワーク２８０を介するような）ネットワークアクセスを提供するワイヤレスルータ、といったものである。様々な実施形態では、通信インターフェース２５６は、音声処理デバイス２００と１以上の他のデバイスの間の直接又は間接の通信を容易にする、他の有線又は無線の通信コンポーネントを含み得る。

図３は、本開示の様々な実施形態に係る、例示的な音声信号プロセッサ３００を示す。いくつかの実施形態では、音声信号プロセッサ３００は、アナログ及びデジタル回路部と、図２の音声信号プロセッサ２２０のようなデジタルシグナルプロセッサによって実装されたファームウェアロジックと、を含む１以上の集積回路として具体化される。図示されているように、音声信号プロセッサ３００は、音声入力回路部３１５と、サブバンド周波数解析器３２０と、マルチトラックＶＡＤエンジン３２５と、音声強調エンジン３３０と、シンセサイザ３３５と、を備える。

音声信号プロセッサ３００は、少なくとも２個の音声センサ３０５ａ―ｎを備えるセンサアレイ３０５のような、複数の音声センサからマルチチャンネル音声入力を受信する。音声センサ３０５ａ―３０５ｎは、例えば、図２の音声処理デバイス２００のような音声処理デバイス、又は、それに接続された外部コンポーネントと統合された複数のマイクロフォンを含み得る。音声センサ３０５ａ―３０５ｎの配列は、本開示の様々な実施形態により、音声信号プロセッサ３００にとって既知であっても未知であっても良い。

音声信号は、アンチエイリアシングフィルタ、アナログデジタルコンバータ、及び／又は、他の音声入力回路を備える場合がある音声入力回路部３１５によって最初に処理される場合がある。様々な実施形態では、音声入力回路部３１５は、デジタルで、マルチチャンネルな、時間領域の音声信号を出力する。ここで、Ｍはセンサ（例えば、マイクロフォン）入力の数である。マルチチャンネル音声信号は、当該マルチチャンネル音声信号を連続する複数のフレームに分割し、各チャンネルの各フレームを複数の周波数サブバンドに分解するサブバンド周波数解析器３２０に入力される。様々な実施形態では、サブバンド周波数解析器３２０は、フーリエ変換処理を含み、複数の周波数ビンを出力する。分解された音声信号は、その後、マルチトラックＶＡＤエンジン３２５と、音声強調エンジン３３０と、に供給される。

マルチトラックＶＡＤエンジン３２５は、１以上の音声トラックのフレームを解析し、ターゲット音声アクティビティが現在のフレーム内に存在するかを示すＶＡＤ出力を生成するように作動可能である。上記で議論したように、ターゲット音声は、音声システムによって認識されるべき如何なる音声であっても良い。ターゲット音声が人間の発話であるときには、マルチトラックＶＡＤエンジン３２５は、特に発話アクティビティの検出のために実装され得る。様々な実施形態では、マルチトラックＶＡＤエンジン３２５は、音声データのフレームを受信し、音声データのフレームに対応するそれぞれの音声トラックにおけるターゲット音声の存在又は非存在に関するＶＡＤ指標出力を各音声トラックについて生成するように作動可能である。マルチトラックＶＡＤエンジン３２５の詳細な構成要素及び処理は、図４の４００に関連して更に示される。

音声強調エンジン３３０は、サブバンドフレームをサブバンド周波数解析器３２０から、ＶＡＤ指標をマルチトラックＶＡＤエンジン３２５から、受信する。本開示の様々な実施形態において、音声強調エンジン３３０は受信したマルチトラックＶＡＤ指標に基づいてサブバンドフレームを処理して、マルチトラック音声信号を強調するように構成されている。例えば、音声強調エンジン３３０は、音声信号のうちターゲット音源の方向からと決定された部分を強調し、音声信号のうちノイズであると決定された他の部分を抑制する場合がある。

ターゲット音声信号を強調した後、音声強調エンジン３３０は処理された音声信号をシンセサイザ３３５に渡す場合がある。様々な実施形態では、シンセサイザ３３５は、サブバンドを組み合わせることで、１以上のマルチチャンネル音声信号をフレーム毎に再構成して、時間領域の強調された音声信号を形成する。強調された音声信号はその後、再び時間領域に変換され、さらなる処理のためにシステムの構成要素又は外部デバイスに送られる。

図４は、本開示の様々な実施形態に係る、一般のマイクロフォンアレイから複数の音声信号を処理するための例示的なマルチトラックＶＡＤエンジン４００を示す。マルチトラックＶＡＤエンジン４００は、デジタル回路部とデジタルシグナルプロセッサによって実行されるロジックの組合せとして実現され得る。いくつかの実施形態では、マルチトラックＶＡＤエンジン４００は、図３の３００のような音声処理プロセッサにインストールされている場合がある。マルチトラックＶＡＤエンジン４００は、図３のマルチトラックＶＡＤエンジン３２５に、構造的、及び、機能的な詳細を更に提供し得る。

本開示の様々な実施形態では、マルチトラックＶＡＤエンジン４００は、サブバンド解析モジュール４０５、ブロックベースＴＤＯＡ推定モジュール４１０、ＴＤＯＡ軌跡算定モジュール４２０、及び、マルチ音源トラッキング及びマルチストリームＶＡＤ推定モジュール４３０を備える。

サブバンド解析モジュール４０５は、複数の音声信号４０２を受信する。音声信号４０２は、ｘ_ｍ（ｔ）、ｍ＝１、…、Ｍ、で示され、時間領域でサンプルされた、全部でＭ個のマイクロフォン（例えば、図３の音声センサ３０５ａ−ｎと同様）のうちｍ番目のマイクロフォンで録音された音声信号である。音声信号ｘ_ｍ（ｔ）、ｍ＝１、…、Ｍは、図３の音声入力回路部３１５を介して受信される場合がある。

サブバンド解析モジュール４０５は、音声信号４０２を取得し、音声信号４０２を時間周波数領域表現４０４に変換するように構成されている。時間周波数領域表現４０４は、オリジナルの時間領域の音声信号ｘ_ｍ（ｔ）に対応して、Ｘ_ｍ（ｌ，ｋ）で表される。ここで、ｌはサブバンド時間のインデックスを示し、ｋは周波数バンドのインデックスを示す。例えば、サブバンド解析モジュール４０５は、フーリエ変換を実行して入力された時間領域の音声信号を周波数領域表現に変換する図３のサブバンド周波数解析器３２０と同様である場合がある。サブバンド解析モジュール４０５は、その後、生成された時間周波数領域表現４０４をブロックベースＴＤＯＡ推定モジュール４１０と、マルチ音源トラッキング及びマルチストリームＶＡＤ推定モジュール４３０と、に送ることがある。

ＴＤＯＡ軌跡算定モジュール４２０は、一般のマイクロフォンアレイ（例えば、一般のアレイ配置を形成する音声センサ３０５ａ−ｎ）をスキャンするように構成されている。例えば、平面上のマイクロフォンアレイの所与の任意の配置について、許容可能なＴＤＯＡの位置の軌跡が、システム起動時に一度算定される。このポイントの軌跡により、ゴーストの形成を回避することが出来る。

Ｍ個のマイクロフォンの配列について、第１マイクロフォンが基準マイクロフォンとして選択される場合がある。これにより、すべてが第１マイクロフォンに関連する、Ｍ−１対のマイクロフォン対が順次に得られる。例えば、図５Ａは、例示的なマイクロフォン対を示す。マイクロフォン対は、ｉ−１番目の対としてインデックスが付されるが、遠方の音源（遠方場モデルを想定）から放出された方位角θ及び仰角ゼロの入射レイ５０５について、ｉ番目のマイクロフォン５０２と１番目の基準マイクロフォン５０１が含まれる。５０１及び５０２のマイクロフォン対の間の距離は、２つのマイクロフォン間の角度と共に、ｄ_ｉ−１と、ψ_ｉ−１と、でそれぞれに表される。これらは、ｉ番目のマイクロフォン５０２のデカルト座標が与えられれば算定可能である。入射レイ５０５が方位角θと仰角φの角度を有する一般的なケースでは、（ｉ−１）番目のマイクロフォン対のＴＤＯＡは、

として算定可能である。ここで、ｃは伝播速度である。

異なる方位角及び仰角をスキャンした後、ＴＤＯＡ軌跡算定モジュール４２０は、許容可能なＴＤＯＡのメッシュを構築する場合がある。Ｍ個のマイクロフォンの全てがある平面上に位置する場合、結果のＴＤＯＡ軌跡（θ及びφの全てのスキャンについて、

となる）もまた（Ｍ−１）次元空間上のある平面上に位置する。Ｍ個のマイクロフォンの配置が異なると、（Ｍ−１）次元空間上の平面が異なることになる。

例えば、図５Ｂでは、異なる２つの例示的なマイクロフォンの配置が、それぞれのＴＤＯＡメッシュと共に示されている。Ｍ＝４個のマイクロフォンのセットが、５１０で示されている。ここで、第１マイクロフォンと第３マイクロフォンの間の距離は８ｃｍであり、許容可能なＴＤＯＡのメッシュの結果は、５１５で示されているＭ−１＝３次元空間である。５２０で示されているように第１マイクロフォンと第３マイクロフォンの距離が１６ｃｍに増えた場合に許容可能なＴＤＯＡのメッシュの結果は、５２５で示される。

図４に戻って、ＴＤＯＡ軌跡算定モジュール４２０は、その後、（Ｍ−１）次元のＴＤＯＡ４０３をブロックベースＴＤＯＡ推定モジュール４１０に送る場合がある。ブロックベースＴＤＯＡ推定モジュール４１０は、マルチ音源音声の時間周波数表現４０４と、ＴＤＯＡ４０３と、を受信する。ＴＤＯＡ推定モジュール４１０は、マルチ音源音声の時間周波数表現４０４と、ＴＤＯＡ４０３と、に基づいて、連続するフレームから取得したデータを用いてソースのマイクロフォン（例えば、図３の音声センサ３０５ａ−ｎ）のＴＤＯＡ情報を抽出する。

一実施形態では、ブロックベースＴＤＯＡ推定モジュール４１０は、ＴＤＯＡ情報をマルチ音源音声の時間周波数領域表現４０４からＴＤＯＡ情報を取得するために、ステアード最小分散（ｓｔｅｅｒｅｄｍｉｎｉｍｕｍｖａｒｉａｎｃｅ）（ＳＴＭＶ）ビームフォーマーを用いる。より詳しくは、ブロックベースＴＤＯＡ推定モジュール４１０はあるマイクロフォンを基準マイクロフォンとして選択し、そして、残りのＭ−１個のマイクロフォンと基準マイクロフォンとをペアリングすることにより、総数Ｍ−１対のマイクロフォン対を指定する場合がある。マイクロフォン対は、ｐ＝１、…、Ｍ−１でインデックスが付される。

例えば、第１マイクロフォンが基準マイクロフォンとして選択され、これに応じて、Ｘ_１（ｌ，ｋ）が基準マイクロフォンからの音声の時間周波数表現を示す場合がある。ｐ番目のマイクロフォンの対について、ブロックベースＴＤＯＡ推定モジュール４１０はｐ番目の対の周波数表現を、行列形式の

として算定する。ここで、（）^Ｔは転置を示す。ブロックベースＴＤＯＡ推定モジュール４１０は、そして、各周波数バンドｋについてｐ番目の入力信号対を

で算定する。ここで、（）^Ｈはエルミート転置を示す。

いくつかの実装では、R_p（ｋ）の算定における加算は、特定の数の連続するフレームのブロックにわたって行われる。簡潔にするために、ここではブロックのインデックスは省略されている。

ブロックベースＴＤＯＡ推定モジュール４１０は、続いて、各対と周波数バンドについてのステアリング行列を以下のように構築する場合がある。

ここで、τ_ｐは、θとφ（簡潔にするために省略）の異なるスキャンの後にＴＤＯＡ軌跡算定モジュール４２０から取得したｐ番目の対についてのＴＤＯＡである。ｆ_ｋはｋのバンドにおける周波数である。ｄｉａｇ（［ａ，ｂ］）は対角要素がａ及びｂである２×２の対角行列を示す。

各マイクロフォン対ｐについて、ブロックベースＴＤＯＡ推定モジュール４１０は、全ての周波数バンドにわたってコヒーレントに整列された方位共分散行列を、次のように構築する。

方位共分散行列Ｃ_ｐ（τ_ｐ）の算定は、マイクロフォン対ｐ全体、及び、τ_ｐについての方位角／仰角（θ，φ）のスキャン全てにわたって繰り返される。全てのスキャンにわたる計算量を低減するために、ｐ番目のマイクロフォン対に対応するｐ次元それぞれのＴＤＯＡ空間は、ｑ個のセグメントに線形量子化される。処理の開始時（システムの起動時）において、方位角及び仰角（θ，φ）のそれぞれのスキャンニングから取得したＴＤＯＡ軌跡ポイントである

は、各次元について量子化された最も近いポイントにマップされる。方位角／仰角（θ，φ）について、

のマッピングがメモリにセーブされる。ここで、

は、角度θ及びφのスキャンニングに係るｐ次元の量子化されたＴＤＯＡのインデックスである。

例えば、Ｍ＝４個のマイクロフォンが存在し、方位角と仰角のスキャンがそれぞれ

であるとする。実行される必要があるＣ_ｐ（τ_ｐ）の個別の計算の数は、

である。ＴＤＯＡ軌跡ポイントである

が量子化されたときには、ＴＤＯＡの次元のうちいくつかがｑ個の量子化されたセグメントの中で同じセグメントに量子化され得るため、全ての計算を実行する必要があるわけでは無い。そのため、ｑ＝５０の例では、Ｃ_ｐ（τ_ｐ）を算定するために必要となる個別の計算の最大数は、

に低減される。ＴＤＯＡ量子化を含むＣ_ｐ（τ_ｐ）の算定を実行するための疑似コードは、次のアルゴリズム１としてあらわされる場合がある。

次に、対ｐのそれぞれについて、無歪の基準に従って、その同等の疑似尤度解でビームのパワーを最小化する方向は、次のように算定される。

ここで、

である。ブロックベースＴＤＯＡ推定モジュール４１０は、その後、マイクロフォンのＭ−１個の全ての対について、ＳＴＭＶ結合疑似尤度を次のように算定し得る。

Ｍ−１個の対の最大ＳＴＭＶ結合疑似尤度をもたらす方位角及び仰角が、その後、次のように同定される。

方位角及び仰角である

が、その後、マルチ音源トラッキング及びマルチストリームＶＡＤ推定のために用いられる場合がある。可能な解法の一つは、各マイクロフォン対の２つのマイクロフォンの間の角度を直接にトラッキングすることを含む場合がある。しかしながら、３６０度の方位角のラップアラウンド効果によって、対にされたマイクロフォンの間の角度を直接にトラッキングしたときには、マイクロフォンの音源が０°を３６０°に向かって横切る場合、及び、逆の場合、トラックロスが生じる場合がある。そこで、そのような混乱を避けるために、対にされたマイクロフォンの間の角度に基づいて、次の極座標変換を用いて検出ｚが循環的に算定される。

ここで、

はスケーリング定数である。スケーリング定数は、測定空間を拡張して、トラッキングを角度のような有意な概念に係るパラメータで実行できるようにする場合がある。

ブロックベースＴＤＯＡ推定モジュール４１０は、その後、算定された検出ｚをマルチ音源トラッキング及びマルチストリームＶＡＤ推定モジュール４３０に送る。トラックの最大数である

が存在する場合には、ブロックベースＴＤＯＡ推定モジュール４１０から取得されたＴＤＯＡは、先行するステップから取得されたトラックを再帰的に更新することでトラックされる。詳細には、ブロック（時間ステップ）ｎ−１において取得された検出がｚ_ｎ−１で表され、それまでにｔ_ｎ−１個のトラックが存在する場合、時間ステップｎにおいて出現する新たな検出ｚ_ｎ４０６について、マルチ音源トラッキング及びマルチストリームＶＡＤ推定モジュール４３０が新たな検出ｚ_ｎを既存のトラックのゲートに基づいて以下のように処理する。

ｚ_ｎが、先行のｔ_ｎ−１個のうち１個のトラックのゲートに含まれる場合には、その特定のトラックが、検出ｚ_ｎを組込むために更新される。

ｚ_ｎが、先行する（複数の）ｔ_ｎ−１個のトラックの重複するゲートに含まれる場合には、検出ｚ_ｎを組込むために、検出ｚ_ｎに最も近いトラックが更新される。

ｚ_ｎが、先行のｔ_ｎ−１個のトラックのゲートの何れにも含まれず、トラックの最大数である

が到達しない（例えば、

）場合には、そして、検出ｚ_ｎを組込むために新たなトラックが開始され、既存のトラックの数が時間ステップｎ（例えば、ｔ_ｎ＝ｔ_ｎ−１＋１）で更新される。

が到達する（例えば、

）場合には、既存の

個のトラックのうちパワーが最小であるトラックがキルされ、検出ｚ_ｎを組込むために、新たなトラックに置換えられる。

他の全てのトラックは（先行するステップと同様に）更新、開始、又は、置き換えられていないため、次に、これらのトラックは同じ平均値で更新される。しかし、不確実性を計算に入れるために、例えば、ランダムウォークモデルに基づいて、各トラックのそれぞれの分散は増加する。将来に出現する音源が開始される機会があるように、それぞれのトラックのパワーもまた減衰される。このように、時間ステップｎにおいて最新の検出４０６を組込んだトラッキング結果４０８が、モジュール４３０に出力され得る。トラッキング結果４０８は、

によって示される。

全ての音声トラックが更新されたときには、モジュール４３０は、最近傍のＭ２Ｔ割当てを用いて、マルチストリームＶＡＤ４１２を生成する。詳細には、時間ステップｎにおいて、Ｍ２Ｔ割当ては、検出ｚ_ｎに最も近いトラックに１を割当て、他のトラックに０を割当てることで実行される場合がある。いくつかの実装では、前の時間ステップにおいて１になった後にゼロが完全に割り当てられるより前に中間値（例えば、−１）を取るように、ＶＡＤにハングオーバーが適用される場合がある。このようにして、それぞれのトラック内で発話アクティビティが検出されたかをそれぞれに示す、

として表されるマルチストリームＶＡＤ４１２は、音声強調のためにモジュール４３０から、例えば、図３の音声強調エンジン３３０へと出力される。

図６は、本開示の様々な実施形態に係る、マルチ音源トラッキング及びＶＡＤによりマルチ音源音声信号を強調するための例示的な方法６００を示す。いくつかの実施形態では、方法６００は、音声信号プロセッサ３００の１以上のコンポーネントによって、及び／又は、マルチトラックＶＡＤエンジン４００の１以上のコンポーネントによって実行される場合がある。

方法６００は、マイクロフォンアレイの空間情報に基づいてＴＤＯＡ軌跡情報が算定され得るステップ６０２で開始される。例えば、ＴＤＯＡ軌跡情報は、マイクロフォンアレイを様々な方位角及び入射角を有する入射レイでスキャンすることにより、システムの起動時に一度算定される場合がある。算定は、図７を参照してさらに説明するように、マイクロフォンアレイからのマイクロフォンを対にすることで構築された多次元空間において、計算の複雑さが低減された状態で実行される得る。

ステップ６０２についてさらに詳細なステップを提供する図７を参照して、ステップ７０２において、マイクロフォンアレイから第１マイクロフォンが基準マイクロフォンとして選択される場合がある。ステップ７０４において、マイクロフォンアレイの残るマイクロフォンが、それぞれ基準マイクロフォンと対にされる場合がある。ステップ７０６において、各マイクロフォン対について、入射レイの特定の方位角及び特定の仰角に対応するＴＤＯＡ位置が、（例えば、図４を参照して説明された式（１）により）それぞれの対の中の２個のマイクロフォン間の距離及び角度に基づいて算定される場合がある。入射レイの特定の方位角及び特定の仰角を有する例示的なマイクロフォン対が、図５Ａにおいても示されている。

ステップ７０８において、処理されるべき更なるマイクロフォン対が存在する場合、本方法は、ステップ７１０において次のマイクロフォン対を抽出し、全てのマイクロフォン対についてのＴＤＯＡ位置が算定されるまで、ステップ７０６を繰り返す。

ステップ７１２において、方位角及び仰角の更なるスキャンが存在する場合、本方法はステップＳ７１４において方位角及び仰角の次のスキャンを抽出し、方位角及び仰角の全てのスキャンについてＴＤＯＡ位置が算定されるまでステップ７０６を繰り返す。

ステップ７１２において、（例えば、全てのマイクロフォン対について方位角及び仰角のスキャン全体にわたってＴＤＯＡ位置が算定されたといったように）処理されるべき更なる方位角／仰角のスキャンが存在しない場合、ステップ７１６においてＴＤＯＡ位置ポイントのメッシュが形成され得る。マイクロフォンアレイの異なる配置に対応するＴＤＯＡ位置ポイントの例示的なメッシュが、図５Ｂで示されている。

図６に戻って、システム起動時にＴＤＯＡ位置情報を算定すると、方法６００はステップ６０４に移行する。ステップ６０４において、１以上のマルチ音源音声信号がマイクロフォンアレイから受信される場合がある。例えば、図４のマルチ音源音声４０２の時間領域上のサンプルが、図３の音声入力回路部３１５を介して受信される。

ステップ６０６において、１以上のマルチ音源音声信号が時間領域から時間周波数表現に変換される場合がある。例えば、図４に関連して説明したように、サブバンド解析モジュール４０５は時間領域信号を時間周波数表現に変換する場合がある。

ステップ６０８において、算定されたＴＤＯＡ軌跡に基づいて、ＳＴＭＶビームフォーマーにより、１以上のマルチ音源音声信号についてＴＤＯＡ検出データが算定される場合がある。例えば、各マイクロフォン対について、それぞれのマイクロフォン対からの１以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドの共分散行列が（例えば、図４に関連して説明された式（２）により）算定される場合がある。そして、それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのＴＤＯＡ位置に基づいて、ステアリング行列が全ての周波数バンドについて（例えば、図４に関連して説明された式（３）により）構築される場合がある。方位共分散行列が、構築されたステアリング行列及び算定された共分散行列に基づいて、全ての周波数バンドにわたって（例えば、図４に関連して説明された式（４）により）整列されて構築される場合がある。ビームのパワーを最小化する疑似尤度解が、構築された方位共分散行列に基づいて、（例えば、図４を参照して説明された式（５）により）決定される場合がある。そして、ＳＭＴＶ結合疑似尤度が、全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積をとることで（例えば、図４を参照して説明された式（６）により）算定される場合がある。ＳＴＭＶ結合疑似尤度を最大化する方位角及び仰角の対が、（例えば、図４を参照して説明された式（７）により）決定される場合がある。決定された方位角及び仰角の対は、（例えば、図４を参照して説明された式（８）により）ＴＤＯＡ検出データを示す極座標表現に変換される場合がある。

ステップ６１０において、複数の音声トラックが更新される場合があり、現在の時間ステップまでに算定されたＴＤＯＡ検出データに基づいて、ＶＡＤデータが構築される場合がある。例えば、現在の時間ステップに対応するＴＤＯＡ検出と、現在の時間ステップまでに先行して確立された既存の音声トラックのセットと、が同定される場合がある。そして、方法６００は、ＴＤＯＡ検出を既存の音声トラックの一つに組み込むか、新たな音声トラックを構築するかを、ＴＤＯＡ検出と既存の音声トラックのゲートの比較に基づいて（図４のモジュール４３０に関連して説明されたように）決定する場合がある。他の例として、方法６００は、それぞれの音声トラックがＴＤＯＡ検出に最も近いときに、それぞれの音声トラックのＶＡＤに第１の値を割当て、他の音声トラックのＶＡＤに第２の値を割当てる場合がある（図４のモジュール４３０に関連して説明されたように）。

ステップ６１２において、更新された複数の音声トラック及び構築されたＶＡＤデータを用いて、１以上の強調されたマルチ音源音声信号が生成される場合がある。例えば、強調されたマルチ音源信号は、次に、様々なデバイス又はコンポーネントに伝達される場合がある。例えば、強調されたマルチ音源信号はパケット化され、ネットワークを超えて他の音声出力デバイス（例えば、スマートフォン、コンピュータ等）に伝達される場合がある。強調されたマルチ音源信号は、更なる処理のために、自動化された発話認識コンポーネントのような声処理回路部にもまた伝達される場合がある。

前述の開示は、開示された正確な形態または特定の使用分野に本発明を限定することを意図したものでは無い。したがって、本開示に照らして、本明細書で明示的に説明された又は暗示されたかにかかわらず、本開示について様々な代替の実施形態、及び／又は、変形例が可能であると考えられる。例えば、本明細書で説明された実施形態は、ヒューマン・マシンインタラクションのタスクを管理する目的で、複数の音源の環境内での位置を提供されるために（例えば、ビデオストリーム、３Ｄカメラ、Ｌｉｄａｒ、等のような他の様式からの追加情報と組み合わせたアプリケーションで）用いられる場合がある。ここまで本開示の実施形態を説明したが、当業者は従来のアプローチに対する利点を認識し、本開示の範囲から逸脱することなく、形態および詳細が変更可能であることを認識するだろう。したがって、本開示は、特許請求の範囲によってのみ限定される。

Claims

マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための方法であり、
音声入力回路部を介して、１以上のマルチ音源音声信号をマイクロフォンアレイから受信することと、
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたＴＤＯＡ軌跡情報に基づくステアード最小分散（ＳＴＭＶ）ビームフォーマーにより、前記１以上のマルチ音源音声信号についてＴＤＯＡ検出データを算定することと、
現在の時間ステップまでに算定された前記ＴＤＯＡ検出データに基づいて、複数の音声トラックを更新することと、
算定された前記ＴＤＯＡ検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出（ＶＡＤ）データを構築することと、
更新された前記複数の音声トラック及び構成された前記ＶＡＤデータを用いて、１以上の強調されたマルチ音源音声信号を生成することと、
を含む方法。
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第１マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成される、
請求項１の方法。
前記ＴＤＯＡ軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる２個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するＴＤＯＡ位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってＴＤＯＡ位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて１回算定される、
請求項２の方法。
前記マイクロフォンアレイが実際には第２平面上に物理的に位置するときには、ＴＤＯＡ位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第１平面上に位置する、
請求項３の方法。
前記１以上のマルチ音源音声信号について前記ＴＤＯＡ検出データを算定することが、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記１以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのＴＤＯＡ位置に基づいて、全ての周波数バンドについてステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
を更に含む、
請求項２の方法。
全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積を取ることで、ＳＴＭＶ結合疑似尤度を算定することと、
前記ＳＴＭＶ結合疑似尤度を最大にする方位角及び仰角の対を決定することと、
決定された方位角及び仰角の前記対を、前記ＴＤＯＡ検出データを示す極座標表現に変換することと、
を更に含む、
請求項５の方法。
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、前記全ての周波数バンドにわたって整列された方位共分散行列を構築することが、マイクロフォン対の全て、及び、方位角及び仰角のスキャンの全てにわたって繰り返される、
請求項６の方法。
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された前記方位共分散行列を構築することが、
前記多次元空間を、セグメントの数が前記多次元空間の次元の総数よりも少ないところの、いくつかのセグメントに分割することと、
ＴＤＯＡ位置ポイントのメッシュからの各ＴＤＯＡ位置ポイントを、最も近いセグメントにマッピングすることと、
方位角及び仰角のスキャンの全てから構築されたＴＤＯＡ位置ポイントの前記メッシュに代えて、前記いくつかのセグメントと、ＴＤＯＡ位置ポイントの前記メッシュと前記いくつかのセグメントとの間のマッピングの関係とを用いて前記方位共分散行列を算定することと、
によって、減少された反復で実行される、
請求項６の方法。
現在の時間ステップまでに算定された前記ＴＤＯＡ検出データに基づいて、前記複数の音声トラックを更新することが、
現在の時間ステップに対応するＴＤＯＡ検出と、前記現在の時間ステップまでにあらかじめ確立された既存の音声トラックのセットと、を同定することと、
前記ＴＤＯＡ検出と、前記既存の音声トラックのゲートとの比較に基づいて、前記ＴＤＯＡ検出を前記既存の音声トラックのうち１つに組み込むか、新たな音声トラックを確立するか、を決定することと、
を更に含む、
請求項１の方法。
算定された前記ＴＤＯＡ検出データに基づいて、前記複数の音声トラックのそれぞれについてＶＡＤデータを構築することが、
それぞれの音声トラックが前記ＴＤＯＡ検出に最も近いときに、第１の値をそれぞれの音声トラックに割当てることと、
他の音声トラックに第２の値を割当てることと、
を更に含む、
請求項１の方法。
マルチ音源トラッキング及び発話区間検出によりマルチ音源音声を強調するための音声処理デバイスであり、
１以上のマルチ音源音声信号をマイクロフォンアレイから受信するように構成された音声入力回路部と、
到達時差（ＴＤＯＡ）推定器であり、マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された多次元空間の内に構築されたＴＤＯＡ軌跡情報に基づくステアード最小分散（ＳＴＭＶ）ビームフォーマーにより、前記１以上のマルチ音源音声信号についてＴＤＯＡ検出データを算定するように構成されたＴＤＯＡ推定器と、
現在の時間ステップまでに算定された前記ＴＤＯＡ検出データに基づいて、複数の音声トラックを更新し、算定された前記ＴＤＯＡ検出データに基づいて、前記複数の音声トラックのそれぞれについて発話区間検出（ＶＡＤ）データを構築するように構成されたマルチ音源音声追跡器と、
更新された前記複数の音声トラック及び構築された前記ＶＡＤデータを用いて、１以上の強調されたマルチ音源音声信号を生成するように構成された音声強調エンジンと、
を備える、音声処理デバイス。
前記マイクロフォンアレイからのいくつかのマイクロフォン対によって定義された前記多次元空間が、
前記マイクロフォンアレイから第１マイクロフォンを基準マイクロフォンとして選択することと、
前記マイクロフォンアレイの残るマイクロフォンのそれぞれを前記基準マイクロフォンと対にすることと、
によって形成される、
請求項１１の音声処理デバイス。
前記ＴＤＯＡ軌跡情報が、
各マイクロフォン対について、それぞれの対に含まれる２個のマイクロフォンの間の距離と角度とに基づいて、入射レイの特定の方位角及び特定の仰角に対応するＴＤＯＡ位置を算定することと、
マイクロフォン対の全てにわたって前記入射レイの前記特定の方位角及び前記特定の仰角を変更することによってＴＤＯＡ位置ポイントのメッシュを形成することと、
によって、前記いくつかのマイクロフォン対の空間情報に基づいて、起動ステージにおいて１回算定される、
請求項１２の音声処理デバイス。
前記マイクロフォンアレイが実際には第２平面上に物理的に位置するときには、ＴＤＯＡ位置ポイントの前記メッシュが、マイクロフォン対の総数と同数の次元を有する前記多次元空間内の第１平面上に位置する、
請求項１３の音声処理デバイス。
前記ＴＤＯＡ推定器が、各マイクロフォン対について、
それぞれのマイクロフォン対からの前記１以上のマルチ音源音声信号の時間周波数表現を用いて、全ての周波数バンドについての共分散行列を算定することと、
それぞれのマイクロフォン対に対応する方位角及び仰角の異なるスキャンについてのＴＤＯＡ位置に基づいて、全ての周波数バンドについて、ステアリング行列を構築することと、
構築された前記ステアリング行列及び算定された前記共分散行列に基づいて、全ての周波数バンドにわたって整列された方位共分散行列を構築することと、
構築された前記方位共分散行列に基づいて、ビームのパワーを最小にする疑似尤度解を決定することと、
によって前記ＴＤＯＡ検出データを算定するように構成されている、
請求項１２の音声処理デバイス。
前記ＴＤＯＡ推定器が、
全てのマイクロフォン対にわたって決定された全ての疑似尤度解の積を取ることで、ＳＴＭＶ結合疑似尤度を算定することと、
前記ＳＴＭＶ結合疑似尤度を最大にする方位角及び仰角の対を決定することと、
決定された方位角及び仰角の前記対を、前記ＴＤＯＡ検出データを示す極座標表現に変換することと、
によって前記ＴＤＯＡ検出データを算定するように更に構成されている、
請求項１５の音声処理デバイス。
前記ＴＤＯＡ推定器が、構築された前記ステアリング行列及び算定された前記共分散行列に基づいて前記全ての周波数バンドにわたって整列された方位共分散行列を構築するように更に構成されており、算定された前記共分散行列が前記マイクロフォン対の全て、及び、方位角及び仰角のスキャンの全てにわたって繰り返される、
請求項１６の音声処理デバイス。
前記ＴＤＯＡ推定器が、
前記多次元空間を、セグメントの数が前記多次元空間の次元の総数よりも少ないところの、いくつかのセグメントに分割することと、
ＴＤＯＡ位置ポイントのメッシュからの各ＴＤＯＡ位置ポイントを、最も近いセグメントにマッピングすることと、
方位角及び仰角のスキャンの全てから構築されたＴＤＯＡ位置ポイントの前記メッシュに代えて、前記いくつかのセグメントと、ＴＤＯＡ位置ポイントの前記メッシュと前記いくつかのセグメントの間のマッピング関係とを用いて前記方位共分散行列を算定することと、
によって、構築された前記ステアリング行列及び算定された前記共分散行列に基づいて前記全ての周波数バンドにわたって整列された前記方位共分散行列を、減少した反復で構築するように更に構成されている、
請求項１６の音声処理デバイス。
前記マルチ音源音声追跡器が、
現在の時間ステップに対応するＴＤＯＡ検出と、前記現在の時間ステップまでにあらかじめ確立された既存の音声トラックのセットと、を同定することと、
前記ＴＤＯＡ検出と、前記既存の音声トラックのゲートとの比較に基づいて、前記ＴＤＯＡ検出を前記既存の音声トラックの１つに組み込むか、新たな音声トラックを確立するか、を決定することと、
によって、現在の時間ステップまでに算定された前記ＴＤＯＡ検出データに基づいて、前記複数の音声トラックを更新するように構成されている、
請求項１１の音声処理デバイス。
前記マルチ音源音声追跡器が、
それぞれの音声トラックが前記ＴＤＯＡ検出に最も近いときに、第１の値をそれぞれの音声トラックに割当てることと、
他の音声トラックに第２の値を割当てることと、
によって、算定された前記ＴＤＯＡ検出に基づいて、前記複数の音声トラックについてＶＡＤデータを構築するように構成されている、
請求項１１の音声処理デバイス。