JP2008544328A

JP2008544328A - クリーン音声の事前分布を使用した多感覚応用の音声強調

Info

Publication number: JP2008544328A
Application number: JP2008518201A
Authority: JP
Inventors: リュウジチェン; アセロアレハンドロ; ジャンジェンヨウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-06-20
Filing date: 2006-06-06
Publication date: 2008-12-04
Anticipated expiration: 2026-06-06
Also published as: US20060287852A1; AU2006262706B2; DE602006015954D1; WO2007001768A3; KR101422844B1; BRPI0611649A2; JP4975025B2; NO20075732L; EP1891627A4; KR20080018163A; EP1891627B1; BRPI0611649B1; NO339834B1; CA2607981A1; MX2007014562A; CN101199006A; CA2607981C; RU2407074C2; US7346504B2; RU2007147463A

Abstract

方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布を使用して、クリーン音声値を推定する。

Description

音声認識および音声伝達における共通の問題は、付加雑音による音声信号の乱れである。特に、別の話者の音声による乱れは、検出し、かつ／または補正するのが難しいことが実証されている。

最近、骨伝導マイクロフォン（ｂｏｎｅｃｏｎｄｕｃｔｉｏｎｍｉｃｒｏｐｈｏｎｅ）などの代替センサと気導マイクロフォン（ａｉｒｃｏｎｄｕｃｔｉｏｎｍｉｃｒｏｐｈｏｎｅ）との組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、３つのトレーニングチャンネル、すなわち、雑音のある代替センサトレーニング信号、雑音のある気導マイクロフォントレーニング信号、およびクリーンな気導マイクロフォントレーニング信号を使用してトレーニングされる。各信号は、特徴領域に変換される。雑音のある代替センサ信号および雑音のある気導マイクロフォン信号の特徴は、雑音のある信号を表す単一のベクトルに結合される。クリーンな気導マイクロフォン信号の特徴は、単一のクリーンなベクトルを形成する。次いで、これらのベクトルは、雑音のあるベクトルとクリーンなベクトルとの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされると、雑音のある代替センサテスト信号と雑音のある気導マイクロフォンテスト信号との組合せから形成された雑音のあるベクトルに適用される。このマッピングは、クリーンな信号ベクトルを生成する。

このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と一致しないとき、最適とは言えない。というのは、マッピングは、トレーニング信号の雑音条件に合わせて設計されるからである。

方法および装置は、代替センサ信号、気導マイクロフォン信号を使用して代替センサについてのチャネル応答を決定する。次いで、このチャネル応答、およびクリーン音声値の事前確率分布（ｐｒｉｏｒｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎ）を使用して、クリーン音声値を推定する。

図１は、本発明の実施形態を実施することができる好適なコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境１００を、動作環境１００の例に示した構成要素のいずれか１つ、またはその組合せに関する任意の依存性または必要条件を有しているものと解釈すべきではない。

本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および／または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。

本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本発明は、通信ネットワークを介してリンクされているリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されるように設計されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置される。

図１を参照すると、本発明の実施形態を実施するシステムの例は、汎用コンピューティング装置をコンピュータ１１０の形で含んでいる。コンピュータ１１０の構成要素は、それだけには限定されないが、処理ユニット１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステム構成要素を処理ユニット１２０に結合するシステムバス１２１を含み得る。システムバス１２１は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのうちの任意のものを使用するローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子装置規格化協会（ＶＥＳＡ）ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続（ＰＣＩ）バスなどがある。

コンピュータ１１０は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、取外式および固定式媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性の取外式および固定式媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ１１０からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、情報を信号に符号化するように１つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、ＲＦ、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２など、揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム１３３（ＢＩＯＳ）は、例えば起動中など、コンピュータ１１０内の要素間での情報の転送を助ける基本ルーチンを含み、一般にＲＯＭ１３１に格納されている。ＲＡＭ１３２は一般に、処理ユニット１２０から直接アクセス可能な、かつ／または処理ユニット１２０が現在処理しているデータおよび／またはプログラムモジュールを含む。図１は、それだけには限定されないが一例として、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示している。

コンピュータ１１０は、他の取外式／固定式、揮発性／不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図１は、固定式不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ１４１、取外式不揮発性磁気ディスク１５２から読み取り、あるいはそこに書き込む磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭや他の光媒体など、取外式不揮発性光ディスク１５６から読み取り、あるいはそこに書き込む光ディスクドライブ１５５を示している。動作環境の例で使用できる他の取外式／固定式、揮発性／不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体ＲＡＭ、半導体ＲＯＭなどがある。ハードディスクドライブ１４１は一般に、インターフェイス１４０などの固定式メモリインターフェイスを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は一般に、インターフェイス１５０などの取外式メモリインターフェイスによってシステムバス１２１に接続される。

上述し、図１に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ１１０の他のデータの記憶域を提供する。例えば、図１では、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、タッチパッドなどのポインティング装置１６１などの入力装置を介してコマンドおよび情報をコンピュータ１１０に入力することができる。他の入力装置（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インターフェイス１６０を介して処理ユニット１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）など他のインターフェイスおよびバス構造で接続してもよい。モニタ１９１または他のタイプの表示装置もまた、ビデオインターフェイス１９０などのインターフェイスを介してシステムバス１２１に接続される。コンピュータは、モニタに加えて、出力周辺インターフェイス１９５を介して接続できるスピーカ１９７、プリンタ１９６などの他の周辺出力装置を含むこともできる。

コンピュータ１１０は、リモートコンピュータ１８０など１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作する。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ１１０に関連して上述した多くまたはすべての要素を含む。図１に示した論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。

ＬＡＮネットワーキング環境で使用する場合、コンピュータ１１０は、ネットワークインターフェイスまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用する場合、コンピュータ１１０は一般に、モデム１７２、またはインターネットなどＷＡＮ１７３を介して通信を確立する他の手段を含む。モデム１７２は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク式環境では、コンピュータ１１０に関連して示したプログラムモジュール、またはその一部分をリモートメモリ記憶装置に格納することができる。図１は、それだけには限定されないが一例として、リモートアプリケーションプログラム１８５をリモートコンピュータ１８０上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。

図２は、コンピューティング環境例である、モバイル装置２００のブロック図である。モバイル装置２００は、マイクロプロセッサ２０２、メモリ２０４、入力／出力（Ｉ／Ｏ）構成要素２０６、およびリモートコンピュータや他のモバイル装置と通信する通信インターフェイス２０８を含む。一実施形態では、上述した構成要素は、好適なバス２１０を介して互いに通信するために結合される。

メモリ２０４は、モバイル装置２００への一般電源がシャットダウンされたときにメモリ２０４に格納された情報が失われないように、バッテリバックアップモジュール（図示せず）を備えるランダムアクセスメモリ（ＲＡＭ）などの不揮発性電子メモリとして実装される。メモリ２０４の一部分は、プログラム実行のためのアドレス指定可能なメモリとして割り振られることが好ましく、メモリ２０４の別の部分は、ディスクドライブ上のストレージをシミュレートするためなど、格納用に使用されることが好ましい。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、およびオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は、プロセッサ２０２によってメモリ２０４から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム２１２は、Ｍｉｃｒｏｓｏｆｔ社から市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドオペレーティングシステムである。オペレーティングシステム２１２は、モバイル装置用に設計されていることが好ましく、１組の公表されているアプリケーションプログラミングインターフェイスおよびメソッド（ａｓｅｔｏｆｅｘｐｏｓｅｄａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅｓａｎｄｍｅｔｈｏｄｓ）を介して、アプリケーション２１４が使用することができるデータベース機能を実装する。オブジェクトストア２１６内のオブジェクトは、少なくとも一部には、公表されているアプリケーションプログラミングインターフェイスおよびメソッドに対する呼出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インターフェイス２０８は、モバイル装置２００が情報を送受信できるようになる多数の装置および技術を表す。２〜３例を挙げると、装置には、有線および無線のモデム、衛星受信機、および放送チューナなどがある。モバイル装置２００は、コンピュータに直接接続されて、コンピュータとデータを交換することもできる。こうした場合、通信インターフェイス２０８は、赤外線送受信装置や、シリアルまたはパラレルの通信接続とすることができ、これらはすべて、ストリーミング情報を送信することができる。

入力／出力構成要素２０６は、タッチセンシティブスクリーン、ボタン、ローラ、およびマイクロフォンなどの様々な入力装置、およびオーディオジェネレータ、振動装置、およびディスプレイを含む様々な出力装置を含む。上記に列挙した装置は、一例であって、すべてがモバイル装置２００に存在している必要はない。さらに、本発明の範囲内で、他の入力／出力装置がモバイル装置２００に取り付けられていてもよく、またはモバイル装置２００に備え付けられていてもよい。

図３は、本発明の諸実施形態の基本的なブロック図を示している。図３において、話者３００は、気導マイクロフォン３０４および代替センサ３０６によって検出される音声信号３０２（Ｘ）を生成する。代替センサの例には、ユーザの喉の振動を測定する喉当てマイクロフォン、ユーザの（顎の骨など）顔の骨や頭蓋骨に、またはそれに隣接して、あるいはユーザの耳の中に配置し、ユーザによって生成される音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサなどがある。気導マイクロフォン３０４は、一般に可聴周波の空気波（ａｕｄｉｏａｉｒ−ｗａｖｅ）を電気信号に変換するために使用されるタイプのマイクロフォンである。

また、気導マイクロフォン３０４は、１つまたは複数の雑音源３１０によって生成される周囲雑音３０８（Ｚ）も受信する。周囲雑音のタイプ、および周囲雑音のレベルに応じて、周囲雑音３０８を代替センサ３０６によって検出することもできる。しかし、本発明の諸実施形態によれば、代替センサ３０６は、一般に、気導マイクロフォン３０４より周囲雑音に影響されにくい。したがって、代替センサ３０６によって生成された代替センサ信号３１６（Ｂ）は、一般に、気導マイクロフォン３０４によって生成された気導マイクロフォン信号３１８（Ｙ）より雑音が少ない。代替センサ３０６は、周囲雑音に影響されにくいが、何らかのセンサ雑音３２０（Ｗ）を生成する。

話者３００から代替センサ信号３１６への経路は、チャネル応答Ｈを有するチャネルとしてモデル化することができる。周囲雑音３０８から代替センサ信号３１６への経路は、チャネル応答Ｇを有するチャネルとしてモデル化することができる。

代替センサ信号３１６（Ｂ）および気導マイクロフォン信号３１８（Ｙ）は、クリーン信号３２４を推定するクリーン信号推定器３２２に提供される。クリーン信号推定値３２４は、音声処理３２８に提供される。クリーン信号推定値３２４は、フィルタ処理された時間領域信号またはフーリエ変換ベクトルのいずれかとすることができる。クリーン信号推定値３２４が時間領域信号である場合、音声処理３２８は、聞き手、音声符号化システム、または音声認識システムの形を取り得る。クリーン信号推定値３２４がフーリエ変換ベクトルである場合、音声処理３２８は、一般に音声認識システムであるか、フーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。

直接フィルタリング強調（ｄｉｒｅｃｔｆｉｌｔｅｒｉｎｇｅｎｈａｎｃｅｍｅｎｔ）３２２内で、代替センサ信号３１６およびマイクロフォン信号３１８は、クリーン音声を推定するために使用される周波数領域に変換される。図４に示されるように、代替センサ信号３１６および気導マイクロフォン信号３１８は、それぞれアナログ−デジタル変換器４０４および４１４に提供されて、それぞれフレームコンストラクタ４０６および４１６によって値のフレームにグループ分けされる、一連のデジタル値を生成する。一実施形態では、Ａ−Ｄ変換器４０４および４１４は、アナログ信号をサンプル当たり１６ｋＨｚ、１６ビットでサンプリングし、それによって１秒当たり３２キロバイトの音声データを作成し、フレームコンストラクタ４０６および４１６は、２０ミリ秒相当のデータを含む新しいそれぞれのフレームを１０ミリ秒ごとに作成する。

フレームコンストラクタ４０６および４１６によって提供されたデータのそれぞれのフレームは、それぞれ高速フーリエ変換（ＦＦＴ）４０８および４１８を使用して周波数領域に変換される。

代替センサ信号および気導マイクロフォン信号の周波数領域値は、クリーン信号推定器４２０に提供され、クリーン信号推定器４２０は、周波数領域値を使用して、クリーン音声信号３２４を推定する。

いくつかの実施形態によれば、クリーン音声信号３２４は、逆高速フーリエ変換４２２を使用して、時間領域に逆変換される。これは、時間領域バージョンのクリーン音声信号３２４を作成する。

本発明の諸実施形態は、クリーン音声信号３２４を推定するための直接フィルタリング技術を提供する。直接フィルタリングによれば、代替センサ３０６のチャネル応答の最尤推定値は、チャネル応答に対して関数を最小化することによって決定される。次いでこれらの推定値は、クリーン音声信号に対して関数を最小化することによって、クリーン音声信号の最尤推定値を決定するために使用される。

本発明の一実施形態によれば、代替センサによって検出される背景音声に対応するチャネル応答Ｇは、ゼロであると考えられる。これによって、クリーン音声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルが次のようになる。

ｙ（ｔ）＝ｘ（ｔ）＋ｚ（ｔ）式１
ｂ（ｔ）＝ｈ（ｔ）＊ｘ（ｔ）＋ｗ（ｔ）式２
式中、ｙ（ｔ）は気導マイクロフォン信号、ｂ（ｔ）は代替センサ信号、ｘ（ｔ）はクリーン音声信号、ｚ（ｔ）は周囲雑音、ｗ（ｔ）は代替センサ雑音、およびｈ（ｔ）は代替センサに関連付けられているクリーン音声信号に対するチャネル応答である。したがって、式２では、代替センサ信号は、フィルタ処理されたバージョンのクリーン音声としてモデル化され、フィルタは、ｈ（ｔ）のインパルス応答を有する。

周波数領域において、式１および式２は、次のように表すことができる。

Ｙ_ｔ（ｋ）＝Ｘ_ｔ（ｋ）＋Ｚ_ｔ（ｋ）式３
Ｂ_ｔ（ｋ）＝Ｈ_ｔ（ｋ）Ｘ_ｔ（ｋ）＋Ｗ_ｔ（ｋ）式４
式中、表記Ｙ_ｔ（ｋ）は、時刻ｔを中心とした信号のフレームのｋ番目の周波数成分を表す。この表記は、Ｘ_ｔ（ｋ）、Ｚ_ｔ（ｋ）、Ｈ_ｔ（ｋ）、Ｗ_ｔ（ｋ）、およびＢ_ｔ（ｋ）に適用される。以下の説明では、わかりやすくするために、周波数成分ｋに対する参照が省略される。しかし、以下で行われる計算は、周波数成分ごとに行われることを当業者であれば理解されよう。

この実施形態によれば、雑音Ｚ_ｔおよびＷ_ｔの実数部分および虚数部分は、以下のように、独立ゼロ平均ガウス（ｉｎｄｅｐｅｎｄｅｎｔｚｅｒｏ−ｍｅａｎＧａｕｓｓｉａｎｓ）としてモデル化される。

式中、

は、雑音Ｚ_ｔの分散、

は、Ｗ_ｔの分散である。

Ｈ_ｔも、以下のようにガウスとしてモデル化される。

式中、Ｈ_０は、チャネル応答の平均、

は、チャネル応答の分散である。

これらのモデルパラメータが与えられると、クリーン音声値Ｘ_ｔおよびチャネル応答値Ｈ_ｔの確率は、条件付き確率、

によって記述され、これは、以下に比例し、

これは、以下に等しい。

一実施形態では、チャネル応答の事前確率、

は、無視され、残りの確率のそれぞれは、クリーン音声の事前確率であるｐ（Ｘ_ｔ）で、ガウス分布として処理され、これは、

の分散で、ゼロ平均ガウスとして処理され、したがって

となる。

この簡略化および式１０を使用して、ｔのフレームのＸ_ｔの最尤推定値は、以下を最小化することによって決定される。

式１２は、Ｘ_ｔに関して最小化されつつあるため、Ｘ_ｔに関する偏導関数を取り、その関数を最小化するＸ_ｔの値を決定することができる。具体的には、

によって、

が得られ、式中、

は、Ｈ_ｔの複素共役を表し、｜Ｈ_ｔ｜は、複素値Ｈ_ｔの大きさを表す。

チャネル応答Ｈ_ｔは、以下を最小化することによって、発話全体から推定される。

式１３で計算されたＸ_ｔの式を式１４に代入し、偏導関数

を設定し、Ｈがすべての時間フレームＴにわたって一定であると仮定すると、以下のようなＨの解が得られる。

式１５で、Ｈの推定は、以下の形で、最後のＴフレームにわたっていくつかの総和を計算する必要がある。

式中、ｓ_ｔは、

である。

この式では、最初のフレーム（ｔ＝１）は、最後のフレーム（ｔ＝Ｔ）と同じぐらい重要である。しかし、他の実施形態では、最新のフレームが古いフレームよりＨの推定に貢献していることが好ましい。これを達成する１つの技術は、「指数エージング（ｅｘｐｏｎｅｎｔｉａｌａｇｉｎｇ）」であり、式１６の総和は、

で置き換えられる。式中、ｃ≦１である。ｃ＝１の場合、式１７は、式１６に等しい。ｃ＜１の場合、最後のフレームは、１だけ加重され、最後の直前のフレームは、ｃだけ加重され（すなわち、最後のフレームより貢献が少ない）、最初のフレームは、ｃ^Ｔ−１だけ加重される（すなわち、最後のフレームより著しく貢献が少ない）。一例を挙げる。ｃ＝０．９９、Ｔ＝１００とすると、最初のフレームに対する重みは、０．９９^９９＝０．３７のみとなる。

一実施形態によれば、式１７は、
Ｓ（Ｔ）＝ｃＳ（Ｔ−１）＋ｓ_Ｔ式１８
として帰納的に推定される。

式１８は、古いデータの加重を自動的に少なくするため、固定されたウィンドウ長を使用する必要がなく、最後のＴ個のフレームのデータをメモリに格納する必要がない。代わりに、前のフレームでのＳ（Ｔ−１）についての値を格納するだけでよい。

式１８を使用すると、式１５は、

となる。式中、

である。

式２０および式２１におけるｃの値は、Ｊ（Ｔ）およびＫ（Ｔ）の現在の値を計算するために使用される過去のフレームの数の有効長を提供する。具体的には、有効長は、

によって得られる。

漸近有効長（ａｓｙｍｐｔｏｔｉｃｅｆｆｅｃｔｉｖｅｌｅｎｇｔｈ）は、

すなわち、同等に

によって得られる。

したがって、式２４を使用して、式１９における様々な有効長を達成するために、ｃを設定することができる。例えば、２００フレームの有効長を達成するために、ｃは、

として設定される。

式１５を使用してＨが推定されると、式１３のすべてのＨ_ｔの代わりにそれを使用して、各時間フレームｔでＸ_ｔの別々の値を決定することができる。あるいは、式１９を使用して、各時間フレームｔでＨ_ｔを推定することができる。次いで、各フレームのＨ_ｔの値を式１３で使用して、Ｘ_ｔを決定する。

図５は、式１３および式１５を使用して、発話についてのクリーン音声値を推定する本発明の方法のフロー図を提供する。

ステップ５００で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって捕捉される。

ステップ５０２で、周囲雑音の分散

および代替センサ雑音の分散

が、話者が話をしていない間に、発話の初期にそれぞれ捕捉される、気導マイクロフォン信号および代替センサ信号のフレームから決定される。

この方法は、代替センサ信号の低エネルギー部分を識別することによって、話者が話をしていないときを判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって捕捉される音声信号よりはるかに小さいからである。他の諸実施形態では、既知の音声検出技術を気導音声信号に適用して、話者が話をしているときを識別することができる。話者が話をしていないと考えられる間、Ｘ_ｔはゼロであると仮定され、気導マイクロフォンまたは代替センサからの任意の信号は、雑音であると考えられる。これらの雑音値のサンプルは、非音声のフレームから収集され、気導信号および代替センサ信号における雑音の分散を推定するために使用される。

ステップ５０４で、クリーン音声の事前確率分布の分散、

が決定される。一実施形態によれば、この分散は、以下のように計算される。

式中、｜Ｙ_μ｜^２は、気導マイクロフォン信号のエネルギーであり、現在の音声フレームの前にｋ個の音声フレーム、および現在の音声フレームの後にｍ個の音声フレームを含む１組の音声フレームにわたる合計が行われる。負の値またはゼロの値の分散、

を回避するために、本発明のいくつかの実施形態では、

を

の最低可能値として使用する。

代替実施形態では、以下のような音声の前のフレームにおけるクリーン音声信号の分散のみに依存する平滑化技術を使用して、リアルタイムの実施が実現される。

式中、

は、音声を含んだ最後のフレームからのクリーン音声の事前確率分布の分散、ｐは、０から１までの範囲の平滑化係数、αは、小さい定数、

は、

とα｜Ｙ_ｄ｜^２との大きい方が

の正の値を保証するために選択されることを示す。特定の一実施形態によれば、平滑化係数は、０．０８の値を有し、α＝０．０１である。

ステップ５０６で、発話の全フレームにわたる代替センサ信号および気導マイクロフォン信号の値を使用して、上記の式１５を使用してＨの値を決定する。ステップ５０８で、Ｈのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用して、上記の式１３を使用して、時間フレームごとに、強調された、または雑音が低減された音声値を決定する。

他の諸実施形態では、式１５を使用してＨの単一の値を決定するために発話の全フレームを使用する代わりに、式１９を使用して、フレームごとに、Ｈ_ｔが決定される。次いで、Ｈ_ｔの値を使用し、上記の式１３を使用して、そのフレームについてＸ_ｔを計算する。

本発明の第２の実施形態では、周囲雑音に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号および代替センサ信号は、以下のようにモデル化される。

Ｙ_ｔ（ｋ）＝Ｘ_ｔ（ｋ）＋Ｚ_ｔ（ｋ）式２８
Ｂ_ｔ（ｋ）＝Ｈ_ｔ（ｋ）Ｘ_ｔ（ｋ）＋Ｇ_ｔ（ｋ）Ｚ_ｔ（ｋ）＋Ｗ_ｔ（ｋ）式２９
式中、周囲雑音に対する代替センサチャネル応答は、Ｇ_ｔ（ｋ）の非ゼロ値である。

クリーン音声Ｘ_ｔについての最尤度は、結果的に以下のクリーン音声の式をもたらす目的関数を最小化することによって得られる。

式３０を解くために、分散

および

ならびにチャネル応答値ＨおよびＧは既知でなければならない。図６は、これらの値を識別するための、また、フレームごとに強調された音声値を決定するためのフロー図を提供する。

ステップ６００で、ユーザが話をしていない発話のフレームが識別される。次いで、これらのフレームを使用して、代替センサおよび周囲雑音の分散

および

をそれぞれ決定する。

ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景音声について、雑音よりはるかに小さい信号値を生成するため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。

周囲雑音および代替センサの雑音についての分散が決定された後、図６の方法はステップ６０２で続行し、上記の式２６または式２７を使用して、クリーン音声の事前確率の分散、

を決定する。上述したように、音声を含むフレームのみを使用して、クリーン音声の事前の分散を決定する。

ステップ６０４で、識別された、ユーザが話をしていないフレームを使用して、周囲雑音についての代替センサのチャネル応答Ｇを推定する。具体的には、Ｇは、以下のように決定される。

式中、Ｄは、ユーザが話をしていないフレームの数である。式３１で、Ｇは、発話の全フレームにわたって一定のままであり、したがって、もはや時間フレームｔに依存しないと仮定される。式３１で、ｔにわたる総和を、式１６〜２５に関連して上述した指数減衰計算（ｅｘｐｏｎｅｎｔｉａｌｄｅｃａｙｃａｌｃｕｌａｔｉｏｎ）と置き換えることができる。

ステップ６０６で、背景音声に対する代替センサのチャネル応答Ｇの値を使用して、クリーン音声信号に対する代替センサのチャネル応答を決定する。具体的には、Ｈは、以下のように計算される。

式３２で、Ｔにわたる総和を、式１６〜２５に関連して上述した帰納的指数減衰計算と置き換えることができる。

ステップ６０６でＨが決定された後、式３０を使用して、全フレームについてクリーン音声値を決定することができる。式３０を使用する際に、いくつかの実施形態によれば、項Ｂ_ｔ−ＧＹ_ｔは、

と置き換えられる。というのは、背景音声と、代替センサ内へのその漏れとの間の位相差を正確に決定することは難しいことがわかっているからである。

式３２における総和の代わりに帰納的指数減衰計算が使用される場合、時間フレームごとにＨ_ｔの別々の値を決定することができ、式３０においてＨとして使用することができる。

本発明は、特定の実施形態を参照して説明してきたが、本発明の意図および範囲から逸脱することなく形態および詳細に変更を加えることができることを当分野の技術者であれば理解されよう。

本発明の実施形態を実施することができる１つのコンピューティング環境を示すブロック図である。本発明の実施形態を実施することができる代替のコンピューティング環境を示すブロック図である。本発明の一実施形態の全体的な音声処理システムを示すブロック図である。本発明の一実施形態による音声を強調するシステムを示すブロック図である。本発明の一実施形態による音声を強調するためのフロー図である。本発明の別の実施形態による音声を強調するためのフロー図である。

Claims

雑音が低減された音声信号の一部分を表す雑音低減値（ｎｏｉｓｅ−ｒｅｄｕｃｅｄｖａｌｕｅ）についての推定値を決定する方法であって、
気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
気導マイクロフォン信号を生成するステップと、
前記代替センサ信号のチャネル応答についての値を推定するために、前記代替センサ信号、および前記気導マイクロフォン信号を使用するステップと、
前記雑音低減値を推定するために、前記チャネル応答、および前記雑音低減値の事前確率を使用するステップとを備えることを特徴とする方法。
前記雑音低減値の前記事前確率は、分散によって定義される分布を有することを特徴とする請求項１に記載の方法。
前記気導マイクロフォン信号に基づいて、前記分布の前記分散を決定するステップをさらに備えることを特徴とする請求項２に記載の方法。
前記気導マイクロフォン信号に基づいて前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項３に記載の方法。
前記気導マイクロフォン信号の前記フレームはすべて、音声を含むことを特徴とする請求項４に記載の方法。
前記分布の前記分散を決定するステップは、周囲雑音の分散に基づいて前記分散を決定するステップをさらに含むことを特徴とする請求項３に記載の方法。
前記分布の前記分散を決定するステップは、前記気導マイクロフォン信号の現在のフレームに基づく前記雑音低減音声信号の現在のフレームに関連付けられている分散、および前記雑音低減音声信号の前のフレームに関連付けられている前記分布の分散を決定するステップをさらに含むことを特徴とする請求項６に記載の方法。
前記分布の前記分散を決定するステップは、前記分散がある最低値を常に超えるように前記分散の前記値を制限するステップをさらに含むことを特徴とする請求項７に記載の方法。
前記最低値は、前記周囲雑音の前記分散に対する百分率（パーセンテージ）で示されることを特徴とする請求項８に記載の方法。
代替センサ信号および気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
クリーン音声値を推定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップと
を含むステップを実施するためのコンピュータ実行可能命令を備えることを特徴とするコンピュータ可読媒体。
事前確率分布を使用するステップは、前記事前確率分布の分散を使用するステップを含むことを特徴とする請求項１０に記載のコンピュータ可読媒体。
前記ステップは、前記気導マイクロフォン信号に基づいて、前記事前確率分布の前記分散を決定するステップをさらに含むことを特徴とする請求項１１に記載のコンピュータ可読媒体。
前記事前確率の前記分散を決定するステップは、周囲雑音の分布に基づいて前記事前確率の前記分散を決定するステップをさらに含むことを特徴とする請求項１２に記載のコンピュータ可読媒体。
前記気導マイクロフォン信号に基づいて前記事前確率の前記分散を決定するステップは、前記気導マイクロフォン信号のフレームについてのエネルギー値の総和を形成するステップを含むことを特徴とする請求項１３に記載のコンピュータ可読媒体。
前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の分散に基づいて、現在のクリーン音声値に関連付けられている前記事前確率分布の分散を決定するステップをさらに含むことを特徴とする請求項１３に記載のコンピュータ可読媒体。
前記事前確率分布の前記分散を決定するステップは、前のクリーン音声値に関連付けられている事前確率分布の前記分散、および前記気導マイクロフォン信号のフレームの前記エネルギーと周囲雑音の前記分布の前記分散との差の加重総和を取るステップをさらに含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記事前確率分布の前記分散を決定するステップは、前記事前確率分布の前記分散の最低値を設定するステップをさらに含むことを特徴とする請求項１２に記載のコンピュータ可読媒体。
前記分散の前記最低値は、周囲雑音の分布の分散に応じて決まることを特徴とする請求項１７に記載のコンピュータ可読媒体。
クリーン音声信号のクリーン音声値を識別する方法であって、
周囲雑音に対する代替センサのチャネル応答を決定するステップと、
クリーン音声値を決定するために、前記チャネル応答、およびクリーン音声値の事前確率分布を使用するステップとを備えることを特徴とする方法。
前記事前確率分布のパラメータは、気導マイクロフォン信号の値から決定されることを特徴とする請求項１９に記載の方法。