JP7324753B2

JP7324753B2 - 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調

Info

Publication number: JP7324753B2
Application number: JP2020528911A
Authority: JP
Inventors: ミュスティエール、フレデリック・フィリップ・ドゥニ; ネスタ、フランチェスコ
Original assignee: シナプティクスインコーポレイテッド
Priority date: 2017-12-06
Filing date: 2018-12-05
Publication date: 2023-08-10
Anticipated expiration: 2038-12-05
Also published as: WO2019113253A1; JP2021505933A; US10679617B2; CN111418012B; US20190172450A1; CN111418012A

Description

本継続特許出願は、２０１７年１２月６日に出願された“修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調”と題する米国特許出願番号15/833,977の優先権及び利益を主張する。該出願は、参照することにより、その全体が本出願に組み込まれる。

本開示は、１以上の実施形態について、一般には音声信号処理に関し、より詳細には、例えばノイズの多い環境内の所望の音声信号を強調するシステム及び方法に関する。

スマートスピーカーや、他の音声制御式のデバイス及び電子機器は、近年人気を得ている。スマートスピーカーは、環境から音声入力（例えば、ユーザーの口頭のコマンド）を受信するために、マイクロフォンのアレーをしばしば備えている。ターゲット音声（例えば、口頭のコマンド）が音声入力において検出されたときに、スマートスピーカーは検出されたターゲット音声を１以上のコマンドに変換し、当該コマンドに基づいて異なるタスクを実行し得る。これらのスマートスピーカーの問題の一つとして、効率的かつ効果的に、ターゲット音声（例えば、口頭のコマンド）を作動環境のノイズから分離することが挙げられる。この問題は、マイクロフォンに対して任意の方向からターゲット音声が到来し得る、ノイズの多い環境において悪化する。そのため、ノイズの多い環境から受信した音声信号を処理するための改善されたシステム及び方法が必要とされている。

以下の図面及び後述の詳細な説明を参照することで、本開示の態様とその利点がより良く理解され得る。同様の参照番号が、１以上の図面で示される同様の要素を識別するために用いられるが、その図示は本開示の実施形態を示すことを目的としているのであって、これを限定することを目的としていないことが理解されなくてはならない。図中の構成要素は必ずしも正寸ではなく、代わりに、本開示の原理を明確に示すことに重点が置かれている。

図１は、本開示の１以上の実施形態に係る、音声処理デバイスの例示的な作動環境を示す。

図２は、本開示の１以上の実施形態に係る、例示的な音声処理デバイスのブロック図である。

図３は、本開示の１以上の実施形態に係る、例示的な音声信号プロセッサのブロック図である。

図４Ａは、本開示の実施形態に係る、例示的なターゲット強調エンジンのブロック図である。

図４Ｂは、本開示の実施形態に係る、例示的な発話強調エンジンのブロック図である。

図５は、本開示の１以上の実施形態に係る、リアルタイム音声信号処理を実行する例示的な処理を示す。

ノイズが多い環境のターゲット音声を検出及び強調するシステム及び方法が、本明細書において開示される。様々な実施形態では、複数のマイクロフォンを有するマイクロフォンアレーが、作動環境におけるターゲット音声及びノイズを感知し、各マイクロフォンについての音声信号を生成する。受信した音声信号の中のターゲット音声を強調するための、一般化固有ベクトル追跡（ｇｅｎｅｒａｌｉｚｅｄｅｉｇｅｎｖｅｃｔｏｒｔｒａｃｋｉｎｇ）を組込んだ改善されたビームフォーミング技術が、本明細書において開示される。

従来のビームフォーミング技術は、ターゲット音源の方向から受信した音声に焦点を合わせるように作動する。多くのビームフォーミングの解法は、マイクロフォンアレーの配列、及び／又は、ターゲット音源の位置についての情報を必要とする。さらに、いくつかのビームフォーミングの解法は処理集約的であり、マイクロフォンの数が増えるにつて、指数関数的に複雑さが増加し得る。そのため、従来のビームフォーミングの解法は、多様な配列を有する実装や、低電力のデバイスにおけるリアルタイムの音声処理への要求に制約されるアプリケーションには適さない場合がある。従来のビームフォーミングシステムにおけるこれらの制約、及び、他の制約に対応する様々な実施形態が本明細書において開示される。

本開示の１以上の実施形態では、音声センサー（例えば、マイクロフォン）のアレーを用いてマルチチャンネル音声入力信号が受信される。各音声チャンネルは、ターゲット音声が存在するか（例えば、ターゲットの人物が積極的に話しているか）を決定するために解析される。システムは、ターゲット及びノイズ信号を追跡して、マイクロフォンアレーに対する音源の最大伝播の音響方向を決定する。この方向は、相対伝達関数（ＲｅｌａｔｉｖｅＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）（ＲＴＦ）と言われる。様々な実施形態では、改善された一般化固有ベクトル処理が、ターゲット音声のＲＴＦをリアルタイムで決定するために用いられる。決定されたＲＴＦは、そして、ターゲット音声を強調するために、最小分散無歪応答（ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）（ＭＶＤＲ）ビームフォーマーといった、空間フィルタ処理によって用いられる場合がある。音声入力信号が処理された後に、強調された音声出力信号が、例えば、１以上のスピーカーに伝達される音声出力として、又は、電話の音声コミュニケーション若しくはボイスオーバーＩＰ（ＶｏＩＰ）通話として、発話認識又は音声コマンド処理、あるいは他のボイスアプリケーションのために用いられる場合がある。

本開示の様々な実施形態によれば、修正された一般化固有ベクトル（ｇｅｎｅｒａｌｉｚｅｄｅｉｇｅｎｖｅｃｔｏｒ）（ＧＥＶ）のシステム及び方法が、マイクロフォンのアレーの幾何的配列又は音声の環境についての知識抜きで、音源のＲＴＦをリアルタイムで効率的に決定するために用いられる。ここで開示される修正されたＧＥＶの解法には多くの利点がある。例えば、修正されたＧＥＶの解法は、大きなマイクロフォンアレーを有するシステムを含む様々なシステムで利用可能な、計算効率が高く、スケーラブルな主固有ベクトルのオンライン追跡を提供し得る。本明細書で開示される解法は、音源の方向において歪が無く、開示されたシステム及び方法で有効な音源及びノイズのモデルを実施することで堅牢性が高められる場合がある。本明細書で開示されるシステム及び方法は、例えば、ターゲット音声がノイズの多い環境で受信されるような自動発話認識（ａｕｔｏｍａｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）（ＡＳＲ）システム及び音声コミュニケーションシステムを改善するために用いられ得る。

図１は、本開示の様々な実施形態に係る音声処理システムが作動し得る、例示的な作動環境１００を示す。作動環境１００は、音声処理デバイス１０５、ターゲット音源１１０、及び、１以上のノイズ源１３５－１４５を含む。図１で示された例では、作動環境は部屋１００として示されている。しかし、作動環境は、車内、オフィスの会議室、家庭の部屋、屋外のスタジアム、又は、空港といった他の場所を含み得ると考えられる。本開示の様々な実施形態において、音声処理デバイス１０５は、２以上の音声感知コンポーネント（例えば、マイクロフォン）１１５ａ―１１５ｄと、オプションとして、１以上の音声出力コンポーネント（例えば、スピーカー）１２０ａ―１２０ｂと、備える場合がある。

音声処理デバイス１０５は、音声受信コンポーネント１１５ａ―１１５ｄにより音を感知し、２以上の音声入力信号を含むマルチチャンネル音声入力信号を生成するように構成されている場合がある。音声処理デバイス１０５は、本明細書で開示される音声処理技術を用いて音声入力信号を処理して、ターゲット音源１１０から受信した音声信号を強調する場合がある。例えば、処理された音声信号は、発話認識エンジン、又は、音声コマンドプロセッサといった音声処理デバイス１０５内の他の構成要素、あるいは、外部デバイスに伝達される場合がある。従って、音声処理デバイス１０５は、音声信号を処理するスタンドアローンのデバイス、又は、外部デバイスと情報交換あるいは制御するために処理された音声信号を他の信号（例えば、コマンド、命令、等）に変換するデバイス、である場合がある。他の実施形態では、音声処理デバイス１０５は、携帯電話やボイスオーバーＩＰ（ＶｏＩＰ）が使用可能なデバイス、といった通信デバイスである場合がある。そして、処理された音声信号は、遠隔のユーザーに対して出力するために、ネットワークを介して他のデバイスに伝達される場合がある。通信デバイスは、処理された音声信号を遠隔のデバイスから更に受信し、処理された音声信号を音声出力コンポーネント１２０ａ―１２０ｂを用いて出力する場合がある。

ターゲット音源１１０は、音声処理デバイス１０５に検出可能な音声を生成する如何なる音源であっても良い。ターゲット音声は、ユーザー又はシステムの要求によって特定される基準によって定義され得る。例えば、ターゲット音声は、人間の発話、特定の動物又は機械によって作られた音、として定義され得る。図示の例では、ターゲット音声は人間の発話として定義され、ターゲット音源１１０は人間である。ターゲット音源１１０に加え、作動環境１００は１以上のノイズ源１３５－１４５を含む場合がある。様々な実施形態では、ターゲット音声ではない音はノイズとして処理される。図示の例では、ノイズ源１３５－１４５は、音楽を流すラウドスピーカー１３５、テレビショー・映画若しくはスポーツイベントを流すテレビ１４０、及び、ターゲットでない話者１４５間での背景音となる会話、を含み得る。様々な作動環境において、他のノイズ源が存在し得ることが理解されよう。

ターゲット音声及びノイズが、音声処理デバイス１０５のマイクロフォン１１５ａ―１１５ｄに異なる方向から到達し得ることに留意されたい。例えば、ノイズ源１３５－１４５は、部屋１００内の異なる位置でノイズを生じる場合がある。そして、ターゲット音源（人間）１１０は、部屋１００内の複数の位置間で移動しながら発話する場合がある。さらに、ターゲット音声、及び／又は、ノイズは部屋１００内の設備（例えば、壁）で反射する場合がある。例えば、ターゲット音声が人間１１０から各マイクロフォン１１５ａ―１１５ｄに進む経路を考える。矢印１２５ａ―１２５ｄで示すように、ターゲット音声は人間１１０から各マイクロフォン１１５ａ―１１５ｄまで、直接進む場合がある。さらに、ターゲット音声は、矢印１３０ａ―１３０ｂで示すように、壁１５０ａ及び１５０ｂに反射して、人間１１０からマイクロフォン１１５ａ―１１５ｄに間接的に到達する場合がある。本開示の様々な実施形態によれば、音声処理デバイス１０５は、マイクロフォン１１５ａ―１１５ｄによって受信された音声入力信号に基づきターゲット音源１１０のＲＴＦを推定し、音声入力信号を処理して、推定されたＲＴＦに基づきターゲット音声を強調しノイズを抑制するために、本明細書において開示される複数の音声処理技術を用いる場合がある。

図２は、本開示の様々な実施形態に係る例示的な音声処理デバイス２００を示す。いくつかの実施形態では、音声デバイス２００は、図１の音声処理デバイス１０５として実装される場合がある。音声デバイス２００は、音声センサーアレー２０５と、音声信号プロセッサ２２０と、ホストシステムコンポーネント２５０と、を備える。

音声センサーアレー２０５は、それぞれが音波の形態の音声入力を音声信号に変換するトランスデューサとして実装され得る、２以上のセンサーを備える。図示された環境では、音声センサーアレー２０５は、それぞれが音声信号プロセッサ２２０の音声入力回路部２２２に供給される音声入力信号を生成する、複数のマイクロフォン２０５ａ―２０５ｎを備える。ある実施形態ではセンサーアレー２０５は、各チャンネルがマイクロフォン２０５ａ―ｎのうちの一つからの音声入力信号に対応するマルチチャンネル音声信号を生成する。

音声信号プロセッサ２２０は、音声入力回路部２２２と、デジタルシグナルプロセッサ２２４と、オプションで音声出力回路部２２６と、を備える。様々な実施形態では、音声信号プロセッサ２２０は、アナログ回路部と、デジタル回路部と、ファームウェアに記憶されたプログラムの命令を実行するように作動可能であるデジタルシグナルプロセッサ２２４と、を備える集積回路として実装され得る。音声入力回路部２２２は、本明細書で開示されるように、例えば、音声センサーアレー２０５と、アンチエイリアシングフィルターと、アナログデジタルコンバーター回路部と、エコー消去回路部と、他の音声処理の回路部及びコンポーネントを備える場合がある。デジタルシグナルプロセッサ２２４はマルチチャンネルのデジタル音声信号を処理して、１以上のホストシステムコンポーネント２５０に出力される強調された音声信号を生成するように作動可能である。様々な実施形態では、デジタルシグナルプロセッサ２２４は、エコー消去、ノイズ消去、ターゲット信号強調、ポストフィルタリング、及び、他の音声信号処理機能、を実行するように作動可能である場合がある。

オプションの音声出力回路部２２６は、スピーカー２１０ａ及び２１０ｂのような少なくとも１つのスピーカーに出力するために、デジタルシグナルプロセッサ２２４から受信した音声信号を処理する。様々な実施形態では、音声出力回路部２２６は、１以上のデジタル音声信号をアナログに変換するデジタルアナログコンバータと、スピーカー２１０ａ―２１０ｂを駆動する１以上のアンプと、を含む場合がある。

音声処理デバイス２００は、例えば、携帯電話、スマートスピーカー、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声制御式の機器、又は、自動車のような、ターゲット音声のデータを受信及び強調するように作動可能な如何なるデバイスとして実装され得る。ホストシステムコンポーネント２５０は、音声処理デバイス２００を作動させるための、ハードウェア及びソフトウェアの様々なコンポーネントを備える場合がある。図示された実施形態では、システムコンポーネント２５０は、プロセッサ２５２と、ユーザーインターフェースコンポーネント２５４と、外部デバイス及びネットワーク２８０（例えば、インターネット、クラウド、ローカルエリアネットワーク、又は、電話回線網）のようなネットワークと通信する通信インターフェース２５６と、モバイルデバイス２８４と、メモリ２５８と、を備える。

プロセッサ２５２及びデジタルシグナルプロセッサ２２４は、プロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラー、プログラマブル論理回路（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）（ＰＬＤ）（例えば、フィールドプログラマブルゲートアレー（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａy）（ＦＰＧＡ））、デジタル信号処理（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ）（ＤＳＰ）デバイス、又は、他の論理デバイスのうちの１以上を備える場合がある。ここで他の論理デバイスは、ハードウェアにより、ソフトウェアを実行することにより、又は、これら両方の組合せにより、本開示の実施形態において本明細書で議論される様々な処理を実行するように構成され得る。ホストシステムコンポーネント２５０は、例えばバス又は他の電子的な通信インターフェースを用いて、音声信号プロセッサ２２０及び他のシステムコンポーネント２５０と接続及び通信するように構成される。

音声信号プロセッサ２２０及びホストシステムコンポーネント２５０は、ハードウェアコンポーネント、回路部、及び、ソフトウェアを組合わせたものを組み込んでいるとして示されている。しかし、いくつかの実施形態では、実行するように作動可能なハードウェア及び回路部の機能のうち少なくともいくつか、あるいは全ては、プロセッシングコンポーネント２５２及び／又はデジタルシグナルプロセッサ２２４によって、メモリ２５８又はデジタルシグナルプロセッサ２２２のファームウェアに記憶されたソフトウェアの命令及び／又は設定データに応答して実行されるソフトウェアのモジュールとして実装されうることが理解されよう。

メモリ２５８は、音声データとプログラムの命令を含むデータ及び情報を記憶するように作動可能な１以上のメモリデバイスとして実装され得る。メモリ２５８は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥｒａｓａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ハードディスクドライブ、及び／又は、他の種類のメモリ、といった揮発性及び不揮発性のメモリデバイスを含む、１以上の様々な種類のメモリデバイスを備える場合がある。

プロセッサ２５２は、メモリ２５８に記憶されたソフトウェアの命令を実行するように作動可能である場合がある。様々な実施形態では、発話認識エンジン２６０は、音声信号プロセッサ２２０から受信した強調された音声信号を処理するように作動可能である。この処理は、音声コマンドを識別及び実行することを含む。音声コミュニケーションコンポーネント２６２は、モバイルデバイス２８４又はユーザーデバイス２８６のような１以上の外部デバイスとの、モバイルフォン又はセルラーフォンの通信網又はＩＰネットワーク間のＶｏＩＰ通話を用いた通話のような音声コミュニケーションを容易にするように作動可能な場合がある。様々な実施形態では、音声コミュニケーションは、強調された音声信号を外部のコミュニケーションデバイスに伝達することを含む。

ユーザーインターフェースコンポーネント２５４は、ディスプレイ、タッチディスプレイ、キーパッド、１以上のボタン、及び／又は、ユーザーに音声デバイス２００と直接にやり取りすることを可能にする他の入力／出力コンポーネントを含む場合がある。

通信インターフェース２５６は、音声デバイス２００と外部デバイスとの間の通信を容易にする。例えば、通信インターフェース２５６は、音声デバイス２００と、１以上のローカルデバイスと、の間の（例えば、８０２．１１の）Ｗｉ－Ｆｉ（登録商標）、又は、ブルートゥース（登録商標）による接続を可能にする場合がある。ここで１以上のローカルデバイスは、例えば、モバイルデバイス２８４、又は、例えばネットワークサーバー２８２にネットワーク２８０を介したネットワークアクセスを提供するワイヤレスルーター、といったものである。様々な実施形態では、通信インターフェース２５６は、音声デバイス２００と１以上の他のデバイスとの間の、直接又は間接の通信を容易にする、他の有線又は無線の通信コンポーネントを含み得る。

図３は、本開示の様々な実施形態に係る、例示的な音声信号プロセッサ３００を示す。いくつかの実施形態では、音声入力プロセッサ３００は、アナログ及びデジタル回路部と、図２の音声信号プロセッサ２２４のようなデジタルシグナルプロセッサによって実装されたファームウェアロジックと、を含む１以上の集積回路として具体化される。図示されているように、音声信号プロセッサ３００は、音声入力回路部３１５と、サブバンド周波数アナライザ３２０と、ターゲットアクティビティ検出部３２５と、ターゲット強調エンジン３３０と、シンセサイザ３３５と、を備える。

音声信号プロセッサ３００は、少なくとも２以上の音声センサー３０５ａ―ｎを備えるセンサーアレー３０５のような、複数の音声センサーからマルチチャンネル音声入力を受信する。音声センサー３０５ａ―３０５ｎは、例えば、図２の音声処理デバイス２００のような音声処理デバイス、又は、それに接続された外部コンポーネントと統合された複数のマイクロフォンを含み得る。音声センサー３０５ａ―３０５ｎの配列は、本開示の様々な実施形態により、音声入力プロセッサ３００にとって既知であっても未知であっても良い。

音声信号は、アンチエイリアシングフィルター、アナログデジタルコンバーター、アナログデジタルコンバーター、及び／又は、他の音声入力回路を備える得る音声入力回路部３１５によって最初に処理される場合がある。様々な実施形態では、音声入力回路部３１５は、デジタルで、マルチチャンネルな、時間領域の、Ｎチャンネルを有する音声信号を出力する。ここで、Ｎはセンサー（例えば、マイクロフォン）入力の数である。マルチチャンネル音声信号は、当該マルチチャンネル音声信号を連続する複数のフレームに分割し、各チャンネルの各フレームを複数の周波数サブバンドに分解するサブバンド周波数アナライザ３２０に入力される。様々な実施形態では、サブバンド周波数アナライザ３２０は、フーリエ変換処理を含み、複数の周波数ビンを出力する。分解された音声信号は、その後、ターゲットアクティビティ検出部３２５と、ターゲット強調エンジン３３０と、に供給される。

ターゲットアクティビティ検出部３２５は、１以上の音声チャンネルのフレームを解析し、現在のフレームの中にターゲット音声が存在するかを示す信号を生成するように作動可能である。上記で議論したように、ターゲット音声は、音声システムによって認識される如何なる音声であっても良い。ターゲット音声が人間の発話であるときには、ターゲットアクティビティ検出部３２５は、ボイスアクティビティ検出部として実装され得る。様々な実施形態では、音声データのフレームを受信し、ターゲット音声の存在又は不在に関する決定を行うように作動可能なボイスアクティビティ検出部が用いられる場合がある。いくつかの実施形態では、ターゲットアクティビティ検出部３２５は、ターゲット音声の分類規則をサブバンドフレームに適用して、値を計算する場合がある。この値は、その後、ターゲットアクティビティ信号を生成するために閾値と比較される。様々な実施形態では、ターゲットアクティビティ検出部３２５によって生成された信号は、例えば、出力“１”がサブバンド音声フレームの中にターゲット発話が存在することを示し、バイナリー出力の“０”がサブバンド音声フレームの中にターゲット発話が存在しないことを示すようなバイナリー信号である。生成されたバイナリー出力は、マルチチャンネル音声信号の更なる処理のためにターゲット強調エンジン３３０に供給される。他の実施形態ではターゲット強調信号は、システムの要求によって、ターゲットの存在確率、ターゲットの存在を決定することが出来なかったことを示す指標、又は、他のターゲット存在情報を含み得る。

ターゲット強調エンジン３３０は、サブバンドフレームをサブバンド周波数アナライザ３２０から、ターゲットアクティビティ信号をターゲットアクティビティ検出部３２５から、受信する。本開示の様々な実施形態において、下記でさらに詳細に説明するように、ターゲット強調エンジン３３０は受信したアクティビティ信号に基づきサブバンドフレームを処理するために、修正された一般化固有値ビームフォーマーを用いる。いくつかの実施形態では、サブバンドフレームの処理は、センサーアレー３０５に関するターゲット音源（例えば、ターゲット音源１１０）のＲＴＦを推定することを含む。推定されたターゲット音源のＲＴＦに基づき、ターゲット強調エンジン３３０は、音声信号のうちターゲット音源の方向から伝わったと決定された一部を強調し、音声信号のうちノイズと決定された部分を抑制する場合がある。

ターゲット音声信号を強調した後、ターゲット強調エンジン３３０は、処理された音声信号をシンセサイザ３３５に伝える場合がある。様々な実施形態では、シンセサイザ３３５はサブバンドを組合わせることで、１以上のマルチチャンネル音声信号をフレーム毎に再構成して、時間領域の強調された音声信号を形成する。強調された音声信号は、再度時間領域に変換され、更なる処理のためにシステムの構成要素や外部デバイスに送られる場合がある。

図４は、本開示の様々な実施形態に係る、サブバンドフレームを処理する例示的なターゲット強調エンジン４００を示す。ターゲット強調エンジン４００は、デジタル回路部と、デジタルシグナルプロセッサによって実行されるロジックと、の組合せとして実装され得る。従来の多くのシステムにおいて、ビームフォーミングを用いたターゲット信号の強調は、ターゲット音源からマイクロフォンアレーへのＲＴＦについての知識又は推定が必要となる場合があったが、その情報はアレーの配列が事前に分かっていない場合には自明ではない。加えて、マイクロフォンの数が増えるにつれ、多くのマルチチャンネル発話抽出アルゴリズムは指数関数的に複雑さを増す。このため、そのようなアルゴリズムは多くのリアルタイムな低電力デバイスには適さないものとなる。

本開示の様々な実施形態によれば、ターゲット強調エンジン４００は、ターゲット音声ＲＴＦ推定部４１０と、音声信号強調部４１５と、を備える。ターゲット音源ＲＴＦ推定４１０は、サブバンドフレーム及びターゲットアクティビティ検出部４１５により生成されたターゲットアクティビティ信号を受信して、ターゲット音源のＲＴＦの推定値を決定する。様々な実施形態では、ターゲット音源ＲＴＦ推定部は、主固有ベクトルを生成するための、修正されたＧＥＶ処理を含む。音声信号強調部４１５は、ターゲット音源ＲＴＦ推定部４１０の出力を受信し、ターゲット音声信号を推定する。様々な実施形態では、音声信号強調部４１５は、歪の無いＭＶＤＲビームフォーマーを用いることなどにより、ビームフォーミング処理を制御するために主固有ベクトルを用いる。本明細書で開示されるアプローチは、計算効率が高い処理を提供し、歪み無しの拘束条件を実現することで、技術の欠点の多くを解決する。いくつかの実施形態では、ポストフィルタリングで用いるために、ノイズ出力信号が作られても良い。様々な実施形態による例示的なＧＥＶ処理が、下記で説明される。

図４Ｂを参照して例示的な発話強調エンジン４５０が示される。発話強調エンジン４５０は、一般化固有ベクトル（ＧＥＶ）エンジン４６０と、ビームフォーマー４７０と、を備える。ＧＥＶエンジン４６０は、ボイスアクティビティ検出部４５５からのボイスアクティビティ信号と、分解されたサブバンド音声信号と、を受信する。ＧＥＶエンジン４６０は、本明細書で説明される処理によって実現される、逆行列更新ロジック４６２と、正規化ロジック４６４と、主固有ベクトル追跡ロジック４６６と、を備える。分離ターゲット音声及びオプションとしてノイズ信号を作るためのＭＶＤＲビームフォーマーとして実装され得るビームフォーマー４７０には、主固有ベクトル及び信号情報が供給される。図示された実施形態では、ビームフォーマー４７０から出力されるターゲット音声信号からノイズ要素を更に取り除くために、ポストフィルタプロセッサ４８０が用いられる場合がある。

表記及び仮定

図示された環境では、ターゲット強調エンジン４００は、Ｎ個のマイクロフォンのチャンネルから受信した信号を測定する。マイクロフォンの各チャンネルはｋ個のサブバンドに変換され、各周波数ビンについて処理が実行される。Ｍ×１のベクトルｘ_ｋが、ｋで示される各フレームについて取得され得る。

信号のモデルがｘ_ｋ＝ｈ_ｋＳ_ｋ＋ｎ_ｋで示される。ここで、Ｓ_ｋはターゲット音声のスペクトル成分であり、ｈ_ｋはＲＴＦベクトル（ｈ_ｋ［１］＝１に制約される）であり、ｎ_ｋはノイズ成分である。

以下の表記が更に用いられる場合がある。

正規化及び歪み無し拘束条件

様々な実施形態では、ターゲット音声ＲＴＦ推定部４１０は、歪み無しの拘束条件を実現するように作動可能であり、このために、システムはポストフィルタリングに使用可能なノイズ出力信号を生成できる。

ｆ_ＧＥＶがＧＥＶビームフォーマーのためのビームフォーマー係数を示し、ｈがステアリングベクトルを示すところ、次の式はｆ_ＧＥＶとｈとがノイズの共分散行列Ｐ_ｎを通して関連付けられることを示す。ｆ_ＧＥＶは、

の固有ベクトルであり、そのため以下の式が推論され得ることが認められる。

行列

の階数が１であるため、その固有ベクトル（ゼロで無い固有値に対応する）はｆ_ＧＥＶを拡大縮小したものである。更に、線形代数の理論を階数が１の行列である固有ベクトルに用いることで、

がそのような固有ベクトルであると推論することが出来る。言い換えると、上記の式に基づき、ｆ_ＧＥＶとＲＴＦベクトルｈが関連し、それらの関係は

と表現される得ることが理解される。

上記の観点において、マイクロフォンのアレーからターゲット音源へのステアリングベクトルについての非正規化推定は、次のように示し得る。

このように、ＧＥＶの解法がステアリングベクトルｈの推定に使用可能であることが示される。推定されたベクトルｈは、その後、最小分散無歪応答（ＭＶＤＲ）の解法に埋め込まれて、歪み無しの制約条件を実現し、出力を第１チャンネルに以下の式により投影し得る。

ここで、第１チャンネルは任意に選択されたものであり、我々はこれに代えて所望のチャンネルに投影することを選択し得る。

したがって、ＧＥＶは主固有ベクトル法を用いて相対伝達関数（ＲＴＦ）を推定するために用いられ得る。そして、ＧＥＶは次のようにＭＶＤＲの解法に埋め込まれ得る。

このように、ターゲット音声（例えば、発話）の出力は

として表現され得る。ノイズ出力は

として表現される（第１チャンネルが基準チャンネルとして選ばれた場合）。

逆行列補題より、次の式

が、次のように置換え可能であることに留意されたい。

上記の式において、共分散行列Ｐ_ｎを共分散行列Ｐ_ｘに置換えることは、ＭＶＤＲのビームフォーマーの結果に重要な影響を与えることはないと考えられてきた。実際には、Ｐ_ｎとＰ_ｘを追跡するステップサイズが同一でない場合があり、それらは解に影響し得る。しかし、本実施形態では、この影響は最小限である。上述の処理を用いる利点として、行列Ｐ_ｎに関する情報はもはや不要であるため（そして、デバイスのメモリに記憶する必要がもはや無いため）、音声処理デバイスにおけるメモリの消費量を減らすことが出来る点が挙げられる。

これに代えて、本開示のブラインド分析的正規化（ｂｌｉｎｄａｎａｌｙｔｉｃａｌｎｏｒｍａｌｉｚａｔｉｏｎ）処理においては、ターゲット音声信号は次のように表記され得る。

また、ノイズの音声出力は、次のように表記され得る。

（ただし、上記の式は、第１チャンネルが基準である場合について書かれている）

正規化行列の逆追跡

従来の、閉型で非反復のＧＥＶでは、行列Ｐ_ｎは全てのステップで逆行列にされており、計算量が嵩んでいた。そこで、１以上の実施形態による追跡法は、各ステップで行列Ｐ_ｎを逆行列にする必要がない。追跡法がどのように働くか示すために、我々はシャーマン―モリソンの公式に基づく方法を以下のように提案する。行列Ｐ_０と、任意の数α及びλと、ベクトルｘと、が与えられ、そして、

かつＰ_１＝αＰ_０＋（１－α）ｘｘ^Ｈである場合に、

である。

この技術は、コストが高い逆行列の処理を行う必要無く、フレーム毎にＰ_ｎの逆行列を追跡できるように対応可能である。λを選ぶことで、正規化もまた同時的に実行可能である。これは、ｘが非常に小さいとき、逆行列は大きな数を含む場合があり、計算のコストが増大するためである。更に、行列Ｐ_ｎの逆行列における値を正規化することは、ＧＥＶベクトルに実質的な悪影響が無い。これは、後者それ自体が実質的に正規化されているためである。λの値は、Ｑ値を計算上安定化させ得る如何なる形態の正規化係数であり得ることに留意されたい。

主固有ベクトルの追跡

上の節で説明したアプローチは、ＧＥＶの正規化及び逆行列に伴う複雑性に対応している。しかしながら、各反復において主固有ベクトルをＮ×Ｎの行列から抽出することもまた、計算量が嵩むことに留意されたい。そのため、本開示の様々な実施形態において、主固有ベクトルが連続的に進化するとの仮定の下、べき乗法の１反復による主固有ベクトルの追跡を提供する。支配的な固有ベクトルｆ_ＧＥＶ及び行列Ｃ＝Ｑ_ｎＰ_ｘの初期推定値が与えられ、反復処理が次のように表される。

上述の処理を繰り返すことで、ＧＥＶベクトルを真の主固有ベクトルに収束させることが出来る。しかしながら、実際の処理ではしばしば１度の反復が、急速な収束を生じ、固有ベクトルを効果的に追跡するに十分であり、このことが空間的な連続性についての仮定を支持することに留意されたい。

ブラインド初期化についてのロバスト性

上記で説明した処理の問題の一つに、Ｐ_ｘ又はＰ_０の初期化によっていずれかの値にそれらの実際の値と大きな差が生じ、かつ適応のステップサイズが相対的に小さい場合、ある期間の間に式Ｐ_ｘ＝Ｐ_ｓｈｈ^Ｈ＋Ｐ_ｎが無効である場合がある。このために、音声環境の物理的な意義を反映しないフィルタと、ターゲット音声信号を強調するという意図した目的を達成しない出力と、を生成される。こういったことが起こらないようにするための方法の一つとして、２つの行列の指標（例えば、２つの行列間の１要素）を１以上比較することが挙げられる。比較結果が上述の式に合わないことを示している場合、行列Ｐ_ｘを行列Ｐ_ｎで置き換え得ること、あるいはその逆（これには、行列Ｐ_ｎを記憶すること、又は、Ｑ_ｎからＰ_ｎを近似すること、が含まれ得る）が考えられる。あるいは、どちらかの適応の平滑化係数を一時的に変更することが考えられる。ある実施形態では、Ｐ_ｓは正の数であるため、このことはｎｏｒｍ（Ｐ_ｘ）≧ｎｏｒｍ（Ｐ_ｎ）を示唆する。

他の見方として、その問題はＰ_ｘ又はＰ_ｎの更新が無視し得るほど小さい場合（例えば、現在のＰ_ｘが１であり、計算された更新量が１０^－９である場合）に生じる。このことは、更新比率が無視できない量になることが保証されるように、平滑化係数を加速させればよいことを示唆する。

アルゴリズム

本開示の様々な実施形態において、上述の議論で示されたように、マイクロフォンアレーの配列についての知識の有無に関わらず、音声信号が効率的に処理されて、本明細書で開示されたように修正されたＧＥＶ技術を用いて強調された音声出力信号が生成され得る。図４Ａに戻って、ターゲット強調エンジン４００は、（例えば、マイクロフォンによって生成されたマイクロフォンアレーからの各音声信号）各音声チャンネルについて多数のサブバンドフレームを受信する場合がある。音声強調回路部４００は、ターゲット音源ＲＴＦ推定部４１０と、音声信号強調部４１５と、を備える。ターゲット音声強調部４００は、サブバンドフレームを、例えばサブバンド分解回路部３２０から受信する場合がある。サブバンドフレームを処理する前に、いくつかの実施形態のターゲット音声強調部４００は複数の変数を初期化する場合がある。例えば、関数ｆ_ＧＥＶと行列Ｐ_ｘが生成され、初期化され得る。変数λは１の値に、行列Ｑ_ｎは

と等しくなるように、初期化され得る。平滑化定数α及びβもまた選択され得る。加えて、正規化係数の関数

が選択され得る。ターゲット音声強調部４００は（例えばターゲット音源ＲＴＦ推定部４１０を用いて）、行列Ｑ_ｎに正規化係数

を適応することで行列Ｑ_ｎを正規化するように構成され得る。正規化係数は、

のようなＱ_ｎの関数であり得る。

上記で議論したように、音声強調回路部４００は、ターゲット音声の存在又は不存在を示すアクティビティ信号をアクティビティ検出部４０５から受信する場合がある。いくつかの実施形態では、アクティビティ検出部４０５は、デジタル信号処理回路部３００のアクティビティ検出部３２５として実装され得る。本開示の様々な実施形態によれば、ターゲット音源ＲＴＦ推定部４１０は、行列Ｐ_ｘ及びＱ_ｘを、アクティビティ検出部４０５から受信したアクティビティ信号に基づいて更新するように構成される場合がある。いくつかの実施形態では、受信したアクティビティ信号がターゲット音声の存在を示す場合、ターゲット音源ＲＴＦ推定部４１０は、サブバンドフレームに基づいて、ターゲット音声の行列Ｐ_ｘを次の式を用いて更新するように構成される場合がある。
Ｐ_ｘ＝αＰ_ｘ＋（１－α）ｘｘ^Ｈ

一方で、受信したアクティビティ信号がターゲット音声の不存在を示す場合、ターゲット音源ＲＴＦ推定部４１０は、ノイズの逆行列であるＱｎを次の式を用いて更新するように構成される場合がある。

行列Ｑ_ｎが、ノイズの共分散行列Ｐ_ｎの逆行列であることに留意されたい。上記の式で示したように、ターゲット音源ＲＴＦ推定部４１０は、行列Ｑ_ｎを直接更新するように構成され得る。そのためこれらの式を用いることで、様々な実施形態では、ターゲット音源ＲＴＦ推定部４１０が更新毎に行列Ｐ_ｎを逆行列にする処理を行う必要がなく、この処理の計算の複雑さが実質的に低減される。

Ｐ_ｘ又はＰ_ｎの初期値が実際の音声信号からあまりに逸脱していると決定された場合、ターゲット音源ＲＴＦ推定部４１０は、上述したように、モデルＰ_ｘ＝Ｐ_ｓｈｈ^Ｈ＋Ｐ_ｎを満たすようにＰ_ｘ、及び／又は、Ｐ_ｎを調節するように構成される場合がある。

その後、ターゲット音源ＲＴＦ推定部４１０は、修正されたＧＥＶの解法において更新された行列Ｐｘ及びＱｎを用いて、図４Ｂの音声信号強調部４１５又はビームフォーマー４７０（例えば、ＭＶＤＲビームフォーマー）によって次のように用いられるステアリングベクトルｈを計算するように構成され得る。

ステアリングベクトルｈが、ターゲット音源の位置と相関することに留意されたい。言い換えれば、上記で議論した技術を用いてステアリングベクトルｈを計算することにより、アレーの配列が既知である場合には、ターゲット音源ＲＴＦ推定部４１０をマイクロフォンアレーに対するターゲット音声の位置を推定するために用いることが出来る。更に、上記で議論したように、ベクトルｈは、

を生成するために正規化される場合がある。いくつかの実施形態では、ターゲット音源ＲＴＦ推定部４１０は、計算されたステアリングベクトルｈ、又は、正規化されたステアリングベクトル

を音声信号強調部４１５に伝える場合がある。そして、音声信号強調部４１５は、様々な実施形態において、ＭＶＤＲビームフォーミングの解を以下の式のように処理するように構成される場合がある。

音声信号強調部４１５は、そして、ターゲット音声出力である

を次のように計算し、

更に、ノイズ出力

を次のように計算するように構成される場合がある。

ターゲット音声出力、及び／又は、ノイズ音声出力は、その後、出力用の強調された音声出力信号を生成するために音声入力信号に適用され得るフィルタを生成するために、音声信号強調部４１５によって用いられる場合がある。いくつかの実施形態では、本明細書で開示された技術を用いて、音声入力信号のうちターゲット音声に対応する部分を強調し、音声入力信号のうちノイズに対応する部分を抑制することで、強調された音声出力信号を生成するために音声信号が処理される。

図５は、本開示の様々な実施形態による、修正されたＧＥＶ技術を用いて音声信号をリアルタイムで処理する例示的な方法５００を示す。いくつかの実施形態では、処理５００は、音声信号プロセッサ３００の１以上のコンポーネントによって実行され得る。図４を参照して上記で議論したように、音声信号を処理する前に、複数の変数が初期化され得る。処理５００は（ステップ５０２において）、ノイズの共分散行列Ｐ_ｎの逆行列である行列Ｑ_ｎを正規化することで始まる。いくつかの実施形態では、行列Ｑ_ｎは、次のように正規化係数の関数

を次のように行列Ｑｎに適用することで正規化される場合がある。

処理５００はそして（ステップ５０４において）、マルチチャンネル音声信号を受信する。いくつかの実施形態では、マルチチャンネル音声信号は、マイクロフォン（例えば、マイクロフォン３０５ａ―３０５ｎ）のアレーから対応するチャンネルを介して受信した音声信号を含む。マルチチャンネル音声信号を受信すると、処理５００は（ステップ５０６において）マルチチャンネル音声信号の各チャンネルを、予め定められたサブバンド周波数レンジの一セットにより、周波数領域において複数のサブバンドに分解する。

その後、処理５００は（ステップ５０８において）、サブバンドフレームを解析して、ターゲット音声がサブバンドフレームの中に存在するかを決定する。いくつかの実施形態では、ターゲット音声がサブバンドフレームの中に存在するかを決定することは、ターゲットアクティビティ検出部３２５のようなターゲットアクティビティ検出部によって実行される場合がある。例えば、ターゲット音声が人間の発話を含む場合、アクティビティ検出部は、人間の声がサブバンドフレームの中に存在するかを検出するように構成されたボイスアクティビティ検出部を備える場合がある。

ターゲット音声がサブバンドフレームの中に存在すると決定された場合、処理５００は（ステップ５１０において）、サブバンドフレームに基づいてターゲット音声の特徴に対応する行列を更新する。例えば、ターゲット音源ＲＴＦ推定部４１０は、式Ｐ_ｘ＝αＰ_ｘ＋（１－α）ｘｘ^Ｈを用いて行列Ｐ_ｘを更新する場合がある。一方、ターゲット音声がサブバンドフレームの中に存在しないと決定された場合、処理５００は（ステップ５１２において）、サブバンドフレームに基づいてノイズの特徴に対応する行列を更新する。例えば、ターゲット音源ＲＴＦ推定部４１０は、上記で議論したように、行列Ｑ_ｎを次の式を用いて更新する場合がある。

様々な実施形態に関して上記で議論したように、行列Ｑ_ｎはノイズの共分散行列Ｐ_ｎの逆行列である。また、いくつかの実施形態のターゲット音源ＲＴＦ推定部４１０は、このステップにおいて逆行列にする処理を実行せず、逆行列であるＱ_ｘを直接更新する場合がある。加えて、これらの式によれば、ターゲット音源ＲＴＦ推定部４１０は、この更新において正規化係数を考慮に入れることが出来る。いくつかの実施形態では、処理５００は、サブバンド分解回路部３２０から新たなサブバンドフレームを取得することによりステップ５０８から５１２を所望の回数だけ複数回繰り返すと共に、各繰り返しにおいて新たに取得したサブバンドフレームの中にターゲット音声が検出されたかに依存して行列Ｐ_ｘ及びＱ_ｎのうちいずれか一つを更新する場合がある。

一度行列が更新されると、処理５００は（ステップ５１４において）、更新された行列に基づいて、マイクロフォンのアレーの位置に対するターゲット音源（例えば、ターゲット音源１１０）のＲＴＦを推定する。いくつかの実施形態では、ターゲット音源のＲＴＦを推定することは、マイクロフォンのアレーからターゲット音源へのステアリングベクトルを計算することを含む。例えば、ターゲット音源ＲＴＦ推定部４１０は、上記で議論したように、次の式を用いてベクトルを計算する場合がある。

そして処理５００は（ステップ５１６において）、推定されたＲＴＦを無歪ビームフォーミングの解法に適用してフィルタを生成する。例えば、音声信号強調部４１５は、次の式に基づいて、計算されたベクトルをＭＶＤＲビームフォーミングの解法に用いる場合がある。

ＭＶＤＲビームフォーミングの解法に基づいて、音声信号強調部４１５はその後、サブバンドフレームから次の式を用いてターゲット音声に関するデータを含むターゲット音声出力をサブバンドフレームから計算する場合がある。

加えて、音声信号強調部４１５は、更に、次の式を用いて、ノイズに関するデータを含むノイズ出力を計算する場合がある。

音声信号強調部４１５は、ターゲット音声出力又はノイズ出力とのうち少なくとも一方に基づいて、フィルタを生成する場合がある。例えばフィルタは、ノイズ出力からのデータを含む場合があり、音声信号に適用された場合に、ノイズに関する如何なる音声データが抑制又は除去され、それにより実質的にターゲット音声を有する音声信号を残す。他の例では、フィルタはターゲット音声出力からのデータを含む場合があり、音声信号に適応された場合に、ターゲット音声に関する如何なる音声データを強調する。

ステップ５１８において、処理５００は、生成されたフィルタを音声信号に適用して強調された音声出力信号を生成する。強調された音声出力信号は、その後、（ステップ５２０において）様々なデバイス又はコンポーネントに伝達される。例えば、強調された音声出力信号はパケット化され、ネットワークを介して他の音声出力デバイス（例えば、スマートフォン、コンピュータ、等）に伝達される場合がある。強調された音声出力信号はまた、更なる処理のために、自動音声認識コンポーネントのようなボイス処理回路部に伝達される場合がある。

前述の開示は、開示された正確な形態または特定の使用分野に本発明を限定することを意図したものでは無い。したがって、本開示に照らして、本明細書で明示的に説明された又は暗示されたかにかかわらず、本開示について様々な代替の実施形態、及び／又は、変形例が可能であると考えられる。ここまで本開示の実施形態を説明したが、当業者は従来のアプローチに対する利点を認識し、本開示の範囲から逸脱することなく、形態および詳細が変更可能であることを認識するだろう。したがって、本開示は、特許請求の範囲によってのみ限定される。

Claims

音声信号を処理するための方法であって、
複数の音声入力コンポーネントによって検出された音声入力に基づいてマルチチャンネル音声信号を受信し、
前記マルチチャンネル音声信号を複数の周波数サブバンドによって複数のサブバンドフレームに変換し、
前記複数のサブバンドフレームのそれぞれが音源に関連するターゲット音声を含むかを決定し、
前記複数のサブバンドフレームのうちの前記ターゲット音声が存在するものに基づいて、前記音声入力の中の前記ターゲット音声の特徴を示す、ターゲット音声のパワースペクトル密度行列を生成し、
前記複数のサブバンドフレームのうちの前記ターゲット音声が存在しないものに基づいて、前記音声入力の中のノイズの特徴を示す、ノイズのパワースペクトル密度行列の逆行列を生成し、
前記ターゲット音声のパワースペクトル密度行列と前記ノイズのパワースペクトル密度行列の前記逆行列とに基づいて、下記式：

で与えられる関係を用いて前記複数の音声入力コンポーネントに関する前記音源の相対伝達関数としてステアリングベクトルを算出し、
前記マルチチャンネル音声信号を処理して、前記ステアリングベクトルに基づく最小分散無歪応答（ＭＶＤＲ）ビームフォーミングによって前記マルチチャンネル音声信号の中の前記ターゲット音声を強調することにより音声出力信号を生成する、
ことを含む方法。
ただし、ｈは前記ステアリングベクトルであり、Ｐｘは前記ターゲット音声のパワースペクトル密度行列であり、ｆ _ＧＥＶはＰｎ ^－１Ｐｘの固有ベクトルであり、Ｐｎ ^－１は前記ノイズのパワースペクトル密度行列の前記逆行列である。
前記ターゲット音声のパワースペクトル密度行列と前記ノイズのパワースペクトル密度行列の前記逆行列とに基づいて前記固有ベクトルを計算することを更に含む、
請求項１の方法。
前記ノイズのパワースペクトル密度の前記逆行列を生成することが、前記ノイズのパワースペクトル密度をメモリに記憶せずに前記マルチチャンネル音声信号に基づき前記ノイズのパワースペクトル密度の前記逆行列を直接更新することを含む、
請求項１の方法。
前記固有ベクトルを計算することが、反復抽出アルゴリズムを用いて前記固有ベクトルを計算することを含む、
請求項２の方法。
前記複数の音声入力コンポーネントが、マイクロフォンのアレーを備える、
請求項１の方法。
前記音声出力信号を出力することを更に含む、
請求項５の方法。
前記音声出力信号が、ネットワークを介して外部デバイスに出力される、
請求項６の方法。
前記音声出力信号に基づいてコマンドを決定し、
外部デバイスに前記コマンドを伝達する、
ことを更に含む、請求項５の方法。
伝達された前記コマンドに基づいて、前記外部デバイスからデータを受信し、
前記外部デバイスから前記データを受信したことに応じて、受信した前記データに基づいて１以上のスピーカーから出力を供給する、
ことを更に含む、請求項８の方法。
音声入力を検出し、検出された前記音声入力に基づいてマルチチャンネル音声信号を生成するように構成された複数の音声入力コンポーネントと、
前記マルチチャンネル音声信号を、複数の周波数サブバンドによって複数のサブバンドフレームに変換するように構成されたサブバンド周波数アナライザと、
前記複数のサブバンドフレームのそれぞれが音源に関連するターゲット音声を含むかを決定するように構成されたアクティビティ検出部と、
前記複数のサブバンドフレームのうちの前記ターゲット音声が存在するものに基づいて、前記音声入力の中の前記ターゲット音声の特徴を示す、ターゲット音声のパワースペクトル密度行列を生成し、
前記複数のサブバンドフレームのうちの前記ターゲット音声が存在しないものに基づいて、前記音声入力の中のノイズの特徴を示す、ノイズのパワースペクトル密度行列の逆行列を生成し、
前記ターゲット音声のパワースペクトル密度行列と前記ノイズのパワースペクトル密度行列の前記逆行列とに基づいて、下記式：

で与えられる関係を用いて前記複数の音声入力コンポーネントに関する前記音源の相対伝達関数としてステアリングベクトルを算出するように構成されたターゲット音源ＲＴＦ推定部と、
前記マルチチャンネル音声信号を処理して、前記ステアリングベクトルに基づく最小分散無歪応答（ＭＶＤＲ）ビームフォーミングによって前記マルチチャンネル音声信号の中の前記ターゲット音声を強調することにより音声出力信号を生成するように構成された音声信号プロセッサと、
を備える、音声処理デバイス。
ただし、ｈは前記ステアリングベクトルであり、Ｐｘは前記ターゲット音声のパワースペクトル密度行列であり、ｆ _ＧＥＶはＰｎ ^－１Ｐｘの固有ベクトルであり、Ｐｎ ^－１は前記ノイズのパワースペクトル密度行列の前記逆行列である。
前記ターゲット音源ＲＴＦ推定部が、前記ターゲット音声のパワースペクトル密度行列と前記ノイズのパワースペクトル密度行列の前記逆行列とに基づいて前記固有ベクトルを計算するように構成されている、
請求項１０の音声処理デバイス。
前記ノイズのパワースペクトル密度の前記逆行列を生成することが、前記ノイズのパワースペクトル密度をメモリに記憶せずに前記マルチチャンネル音声信号に基づき前記ノイズのパワースペクトル密度の前記逆行列を直接更新することを含む、
請求項１０の音声処理デバイス。
前記固有ベクトルが、反復抽出アルゴリズムを用いて計算される、
請求項１１の音声処理デバイス。
前記複数の音声入力コンポーネントが、マイクロフォンのアレーを備える、
請求項１０の音声処理デバイス。
前記音声出力信号を出力するように構成された１以上のスピーカーを更に備える、
請求項１０の音声処理デバイス。
前記音声出力信号を外部デバイスに伝達するように構成されたネットワークインターフェースを更に備える、
請求項１０の音声処理デバイス。
前記音声出力信号に基づいて、１以上の単語を決定するように構成された発話認識エンジンを更に備える、
請求項１０の音声処理デバイス。
前記発話認識エンジンが、前記１以上の単語をコマンドに割当てるように更に構成されている、
請求項１７の音声処理デバイス。
前記ターゲット音声が、ボイス信号を含み、前記アクティビティ検出部が、ボイスアクティビティ検出部である、
請求項１１の音声処理デバイス。