JP2012155339A

JP2012155339A - 音声状態モデルを使用したマルチセンサ音声高品質化

Info

Publication number: JP2012155339A
Application number: JP2012092031A
Authority: JP
Inventors: Zhang Zhengyou; ジャンジェンヨウ; Zicheng Liu; リューツチェン; Acero Alejandro; アセロアレジャンドロ; Subramanya Amarnag; サブラマンヤアマーナグ; G Droppo James; ジー．ドロッポジェイムズ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-06-28
Filing date: 2012-04-13
Publication date: 2012-08-16
Anticipated expiration: 2026-06-13
Also published as: KR20080019222A; US7680656B2; WO2007001821A2; KR101224755B1; JP5452655B2; EP1891624B1; RU2007149546A; WO2007001821A3; US20060293887A1; MX2007015446A; EP1891624A2; EP1891624A4; CN101606191B; BRPI0612668A2; ATE508454T1; JP2009501940A; CN101606191A; DE602006021741D1; RU2420813C2; JP5000647B2

Abstract

【課題】完全に高品質化された音声は達成されておらず、高品質化された音声信号の形成のさらなる向上を図る。
【解決手段】コンピュータによって実行されると前記コンピュータに以下のステップを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体であって、コンピュータに、代替センサを使用して生成された代替センサ信号を受信するステップと、気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、周波数成分のセットのそれぞれに関する音声状態の別個の尤度を推定し、かつ前記別個の尤度の積を形成して前記音声状態の前記尤度を形成することによって、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定するステップと、前記音声状態の前記尤度を使用してクリーン音声値を推定するステップとを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体。
【選択図】図６

Description

本発明は、音声状態モデルを使用したマルチセンサ音声高品質化に関する。

音声認識と音声伝送の共通の問題は、付加雑音による音声信号の破損である。具体的には、別の話者の音声による破損は、検出および／または訂正することが困難であることが分かっている。

最近、骨伝導マイクロホンなどの代替センサと気導マイクロホンとの組合せを使用することによって雑音を取り除こうとするシステムが開発されてきた。気導マイクロホン信号より少ない雑音を有する、高品質化された音声信号を形成するために、代替のセンサ信号および気導マイクロホン信号を使用する様々な技術が開発されてきた。

しかし、完全に高品質化された音声は達成されておらず、高品質化された音声信号の形成のさらなる向上が求められている。

方法および装置が、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定する。この音声状態の尤度を使用して、クリーン音声信号のクリーン音声値を推定する。

本発明の実施形態が実施されることができる、コンピューティング環境のブロック図である。本発明の実施形態が実施されることができる、代替コンピューティング環境のブロック図である。本発明の一般的な音声処理システムのブロック図である。本発明の一実施形態による音声高品質化のためのシステムのブロック図である。本発明の一実施形態による音声高品質化が基づくモデルを示す図である。本発明の一実施形態による音声高品質化のためのフローチャートである。

図１は、本発明の実施形態が実施されることができる適切なコンピューティングシステム環境１００の一例を示している。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関するいかなる限定も示唆するものではない。コンピューティング環境１００は、例示的な動作環境１００に示された構成要素のいずれか１つまたはその組合せに関する依存性または要件を有するものと解釈すべきでない。

本発明の実施形態は、他の複数の汎用または特別目的コンピューティングシステム環境または構成で動作することができる。本発明の実施形態で使用するのに適し得るよく知られているコンピューティングシステム、環境および／または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、携帯型またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記システムまたは装置のいずれかを含む分散コンピューティング環境などが含まれる。

本発明の実施形態は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で述べることができる。一般に、プログラムモジュールは、特定のタスクを実施し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などを含む。本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実施される分散コンピューティング環境内で実施されることが意図されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含めて、ローカルとリモートの両方のコンピュータ記憶媒体に置かれる。

図１を参照すると、本発明を実施するための例示的なシステムが、コンピュータ１１０の形の汎用コンピューティング装置を含んでいる。コンピュータ１１０の構成要素は、それだけに限らないが、処理装置１２０と、システムメモリ１３０と、システムメモリを含めて様々なシステム構成要素を処理装置１２０に結合するシステムバス１２１とを含んでもよい。システムバス１２１は、メモリバスまたはメモリコントローラ、周辺バスおよび様々なバスアーキテクチュアのいずれかを使用したローカルバスを含めて、複数のタイプのバス構造のいずれかであってもよい。限定するためではなく、例を挙げると、こうしたアーキテクチュアには、業界標準アーキテクチャ（ＩＳＡ：ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、マイクロチャネルアーキテクチャー（ＭＣＡ：ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張ＩＳＡ（ＥＩＳＡ：ＥｎｈａｎｃｅｄＩＳＡ）バス、ビデオ電子規格協会（ＶＥＳＡ：ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびメザニンバスとしても知られている周辺コンポーネント相互接続（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスが含まれる。

コンピュータ１１０は一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセス可能な任意の使用可能な媒体を含むことができ、揮発性と不揮発性媒体、取外し可能と取外し不可能媒体の両方を含む。限定するためではなく、例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータなどの情報を格納するための任意の方法または技術で実装された揮発性と不揮発性、取外し可能と取外し不可能の両方の媒体を含む。コンピュータ記憶媒体には、それだけに限らないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは所望の情報を格納するために使用することができ、またコンピュータ１１０によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は一般に、コンピュータ読取り可能命令、データ構造体、プログラムモジュールまたは他のデータを搬送波や他の移送機構などの変調されたデータ信号として実施し、また任意の情報送達媒体を含む。用語「変調されたデータ信号」は、信号内の情報を符号化するようなやり方でその特性の１つまたは複数が設定されまたは変更された信号を意味する。限定のためではなく、例を挙げると、通信媒体には、有線ネットワークや直接有線接続などの有線媒体、ならびに音響、ＲＦ、赤外線などの無線媒体、および他の無線媒体が含まれる。上記内容のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

システムメモリ１３０は、読出し専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）１３１およびランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）１３２などの揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動時などにコンピュータ１１０内の要素間で情報を転送するのに役立つ基本ルーチンを含む基本入出力システム（ＢＩＯＳ：ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）１３３は一般に、ＲＯＭ１３１に格納される。ＲＡＭ１３２は一般に、処理装置１２０に即時にアクセス可能であり、かつ／またはそれによって現在動作しているデータおよび／またはプログラムモジュールを含む。限定するためではなく、例示するために、図１に、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６およびプログラムデータ１３７を示す。

コンピュータ１１０は、他の取外し可能／取外し不可能、揮発性／不揮発性のコンピュータ記憶媒体をも含み得る。例示するためだけに、図１に、取外し不可能な不揮発性の磁気媒体から読み出しまたはそこに書き込むハードディスクドライブ１４１、取外し可能な不揮発性の磁気ディスク１５２から読み出しまたはそこに書き込む磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭや他の光媒体などの取外し可能な不揮発性の光ディスク１５６から読み出しまたはそこに書き込む光ディスクドライブ１５５を示す。例示的な動作環境内で使用することができる他の取外し可能／取外し不可能、揮発性／不揮発性のコンピュータ記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスクドライブ１４１は一般に、インターフェース１４０などの取外し不可能メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は一般に、インターフェース１５０などの取外し可能メモリインターフェースによってシステムバス１２１に接続される。

上記で論じ、また図１に示したドライブおよびその関連のコンピュータ記憶媒体によって、コンピュータ読取り可能命令、データ構造体、プログラムモジュール、およびコンピュータ１１０のための他のデータの記憶域が提供される。図１では、たとえば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６およびプログラムデータ１４７を格納するものとして示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６およびプログラムデータ１３７と同じであっても、それとは異なっていてもよいことに留意されたい。少なくともそれらがそれぞれ異なるコピーであることを示すために、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７には異なる番号がここでは付与されている。

ユーザは、キーボード１６２、マイクロホン１６３、およびマウス、トラックボールまたはタッチパッドなどのポインティング装置１６１などの入力装置を用いて、コンピュータ１１０にコマンドおよび情報を入力することができる。他の入力装置（図示せず）は、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナなどを含んでもよい。これらのおよび他の入力装置はしばしば、システムバスに結合されたユーザ入力インターフェース１６０を介して処理装置１２０に接続されるが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ：ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）などの他のインターフェースおよびバス構造によって接続されてもよい。モニタ１９１または他のタイプの表示装置も、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース１９５によって接続されてもよいスピーカ１９７およびプリンタ１９６などの他の周辺出力装置を含むこともできる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境内で動作する。リモートコンピュータ１８０は、パーソナルコンピュータ、携帯型装置、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードとすることができ、コンピュータ１１０に関して上記で述べた要素の多くまたはすべてを一般に含む。図１に示された論理接続は、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）１７１と、広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）１７３とを含むが、他のネットワークを含むこともできる。こうしたネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットでは一般的である。

ＬＡＮネットワーキング環境内で使用される場合は、コンピュータ１１０は、ネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境内で使用される場合は、コンピュータ１１０は一般に、モデム１７２、またはインターネットなどのＷＡＮ１７３を介して通信を確立する他の手段を含む。内部にあることも、外部にあることもあるモデム１７２は、ユーザ入力インターフェース１６０または他の適切な機構を介してシステムバス１２１に接続されてもよい。ネットワーク化された環境内では、コンピュータ１１０に関して示されたプログラムモジュール、またはその一部は、リモートメモリ記憶装置内に格納してもよい。限定のためではなく、例示するために、図１に、リモートコンピュータ１８０内に常駐するリモートアプリケーションプログラム１８５を示す。示されたネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことが理解されよう。

図２は、例示的なコンピューティング環境であるモバイル装置２００のブロック図である。モバイル装置２００は、マイクロプロセッサ２０２と、メモリ２０４と、入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）コンポーネント２０６と、リモートコンピュータまたは他のモバイル装置と通信するための通信インターフェース２０８とを含む。一実施形態では、上記で言及されたコンポーネントは、適切なバス２１０を介して互いに通信するために結合される。

メモリ２０４は、モバイル装置２００への全体的な電力が遮断されるときにメモリ２０４内に格納された情報が失われないように、バッテリバックアップモジュール（図示せず）を備えたランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などの不揮発性電子メモリとして実装される。メモリ２０４の一部は好ましくは、プログラム実行のためのアドレス指定可能メモリとして割り当てられ、メモリ２０４の別の部分は好ましくは、ディスクドライブ上の記憶域をシミュレートするなどの記憶のために使用される。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４ならびにオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は好ましくは、プロセッサ２０２によってメモリ２０４から実行される。好ましい一実施形態では、オペレーティングシステム２１２は、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ社から市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドオペレーティングシステムである。オペレーティングシステム２１２は好ましくは、モバイル装置用に設計され、アプリケーション２１４によって、公開された１組のアプリケーションプログラミングインターフェースおよび方法を介して使用することができるデータベース機能を実施する。オブジェクトストア２１６内のオブジェクトは、アプリケーション２１４およびオペレーティングシステム２１２によって、少なくとも部分的には公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに応答して維持される。

通信インターフェース２０８は、モバイル装置２００が情報を送受信することを可能にする複数の装置および技術を表す。いくつか例を挙げると、装置には、有線および無線モデム、衛星受信機、ならびに放送チューナが含まれる。モバイル装置２００は、コンピュータとのデータ交換のために、コンピュータに直接接続されることもできる。こうした場合、通信インターフェース２０８は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、それらすべてが、ストリーミング情報を送信することができる。

入出力コンポーネント２０６は、タッチセンサ画面、ボタン、ローラおよびマイクロホンなどの様々な入力装置、ならびにオーディオジェネレータ、振動装置およびディスプレイを含めて様々な出力装置を含む。上記にリストされた装置は、例示するためのものであり、すべてがモバイル装置２００上に存在する必要があるとは限らない。さらに、他の入出力装置が、本発明の範囲内で、モバイル装置２００に接続されることも、それと共に見られることもある。

図３は、本発明の実施形態の基本ブロック図を示している。図３では、スピーカ３００は、気導マイクロホン３０４および代替センサ３０６によって検出される音声信号３０２（Ｘ）を生成する。代替センサの例には、ユーザの喉の振動を測定する喉マイクロホン、（顎骨など）ユーザの顔の骨または頭蓋骨にまたはその近くに、あるいはユーザの耳に置かれており、ユーザによって生成された音声に対応する頭蓋骨および顎の振動を感知する骨伝導センサである。気導マイクロホン３０４は、音声空気波（ａｕｄｉｏａｉｒ−ｗａｖｅ）を電気信号に変換するために一般的に使用されるタイプのマイクロホンである。

気導マイクロホン３０４は、１つまたは複数の雑音源３１０によって生成された周囲雑音３０８（Ｖ）を受信し、それ自体のセンサ雑音３０５（Ｕ）を生成する。周囲雑音のタイプおよび周囲雑音のレベルによって、周囲雑音３０８を代替センサ３０６によって検出することもできる。しかし、本発明の実施形態では、代替センサ３０６は一般に、気導マイクロホン３０４より周囲雑音への感度が低い。したがって一般的に、代替センサ３０６によって生成された代替センサ信号３１６（Ｂ）は、気導マイクロホン３０４によって生成された気導マイクロホン信号３１８（Ｙ）より少ない雑音を含む。代替センサ３０６は、周囲雑音にそれほど敏感ではないが、いくらかのセンサ雑音３２０（Ｗ）を生成する。

スピーカ３００から代替センサ信号３１６までの経路は、チャネル応答Ｈを有するチャネルとしてモデル化することができる。周囲雑音３０８から代替センサ信号３１６への経路は、チャネル応答Ｇを有するチャネルとしてモデル化することができる。

代替センサ信号３１６（Ｂ）および気導マイクロホン信号３１８（Ｙ）は、クリーン信号３２４を推定するクリーン信号推定器３２２に供給される。クリーン信号推定値３２４は、音声プロセス３２８に供給される。クリーン信号推定値３２４は、時間領域信号であっても、フーリエ変換ベクトルであってもよい。クリーン信号推定値３２４が時間領域信号である場合は、音声プロセス３２８は、リスナ、音声符号化システムまたは音声認識システムの形を取ってもよい。クリーン信号推定値３２４がフーリエ変換ベクトルである場合は、音声プロセス３２８は一般に、音声認識システムであり、またはフーリエ変換ベクトルを波形に変換するための逆フーリエ変換を含む。

クリーン信号推定器３２２内では、代替センサ信号３１６およびマイクロホン信号３１８は、クリーン音声の推定のために使用される周波数領域に変換される。図４に示されるように、代替センサ信号３１６および気導マイクロホン信号３１８は、それぞれアナログデジタル変換器４０４および４１４に供給され、デジタル値のシーケンスを生成し、このデジタル値のシーケンスは、それぞれフレーム構成器４０６および４１６によって値のフレームにグループ化される。一実施形態では、ＡＤ変換器４０４および４１４は、サンプル当たり１６ｋＨｚ、１６ビットのアナログ信号をサンプリングし、それによって毎秒３２キロバイトの音声データを作成し、フレーム構成器４０６および４１６は、１０ミリ秒毎に、２０ミリ秒相当のデータを含むそれぞれの新しいフレームを作成する。

フレーム構成器４０６および４１６によって提供されるデータのそれぞれの各フレームは、それぞれ高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）４０８および４１８を使用して周波数領域に変換される。

代替センサ信号および気導マイクロホン信号の周波数領域値は、クリーン信号推定器４２０に供給され、このクリーン信号推定器４２０は、クリーン音声信号３２４を推定するために周波数領域値を使用する。

一部の実施形態では、クリーン音声信号３２４は、逆高速フーリエ変換４２２を使用して時間領域に変換し戻される。これによって、クリーン音声信号３２４の時間領域バージョンが作成される。

本発明は、高品質化された音声信号を生成するために、クリーン音声の音声状態を含む図３のシステムのモデルを使用する。図５は、そのモデルを図で表したものである。

図５のモデルでは、クリーン音声５００は、音声状態５０２に依存する。気導マイクロホン信号５０４は、センサ雑音５０６、周囲雑音５０８およびクリーン音声信号５００に依存する。代替センサ信号５１０は、センサ雑音５１２、チャネル応答５１４を通過するときはクリーン音声信号５００、チャネル応答５１６を通過するときは周囲雑音５０８に依存する。

図５のモデルは、本発明では、雑音の入った観察値Ｙ_ｔおよびＢ_ｔからクリーン音声信号Ｘ_ｔを推定するために使用され、複数の音声状態Ｓ_ｔの尤度を識別する。

本発明の一実施形態では、クリーン音声信号推定値、およびクリーン音声信号推定値についての状態の尤度が、このシステムモデルで、雑音成分のガウス分布をまず仮定することによって形成される。したがって、

であり、ここで、各雑音成分は、それぞれの分散値

を有するゼロ平均ガウシアンとしてモデル化され、Ｖは周囲雑音であり、Ｕは気導マイクロホン内のセンサ雑音であり、Ｗは代替センサ内のセンサ雑音である。式１で、ｇは、周囲雑音の分散値の調整を可能にする調整パラメータである。

さらに、本発明のこの実施形態は、

であるように分散値

を有するゼロ平均ガウシアンとして状態が与えられるとして、クリーン音声信号の確率をモデル化する。

本発明の一実施形態では、所与の状態の事前確率は、すべての状態が等しい可能性を有するように一様確率であると仮定される。具体的には、事前確率は、

ように定義され、ここでＮ_ｓは、モデルで使用可能な音声状態の数である。

クリーン音声信号の推定値および音声状態の尤度を決定するための以下の式についての説明では、すべての変数は、複素スペクトル領域でモデル化される。それぞれの周波数成分（Ｂｉｎ）は、他の周波数成分と独立に処理される。表記を容易にするために、この方法は、単一の周波数成分について以下に述べられる。計算は、入力信号のスペクトルバージョンの各周波数成分について実施されることが当業者には認識されよう。時間と共に変化する変数については、添字ｔが変数に添えられている。

雑音の入った観察値Ｙ_ｔおよびＢ_ｔからクリーン音声信号Ｘ_ｔを推定するために、本発明は、条件付き確率ｐ（Ｘ_ｔ｜Ｙ_ｔ，Ｂ_ｔ）を最大にし、この条件付き確率は、雑音の入った気導マイクロホン信号、および雑音の入った代替センサ信号が与えられたときのクリーン音声信号の確率である。クリーン音声信号の推定値がこのモデルでの音声状態Ｓ_ｔに依存するので、この条件付き確率は、

のように決定され、ここで｛Ｓ｝は、すべての音声状態のセットを表し、ｐ（Ｘ_ｔ｜Ｙ_ｔ,Ｂ_ｔ,Ｓ_ｔ＝ｓ）は、雑音の入った現在の観察値および音声状態ｓが与えられたときのＸ_ｔの尤度であり、ｐ（Ｓ_ｔ＝ｓ｜Ｙ_ｔ,Ｂ_ｔ）は、雑音の入った観察値が与えられたときの音声状態ｓの尤度である。本発明では、有声音、摩擦音、鼻音および後舌母音音の音声状態を含めて、任意の数の可能な音声状態が使用されてもよい。一部の実施形態では、音素など、１組の音声単位のそれぞれについて別個の音声状態が提供される。しかし、一実施形態では、音声用に１つ、非音声用に１つの２つの音声状態だけが提供される。

一部の実施形態の下では、周波数成分のすべてについて単一の状態が使用される。したがって、それぞれのフレームは、単一の音声状態変数を有する。

式６の右側の項は、

のように計算することができ、それは、観察値が与えられたときのクリーン音声信号の条件付き確率が、クリーン音声信号の結合確率、観察値および状態によって推定することができ、観察値が与えられたときの状態の条件付き確率は、すべての可能なクリーン音声値にわたってクリーン音声信号の結合確率、観察値および状態を積分することによって近似できることを示している。

式１〜３で上記で論じた雑音の分布についてのガウシアン仮定を使用して、クリーン音声信号の結合確率、観察値および状態は、

のように計算することができ、ここで、

は、式５の一様確率分布によって与えられる状態の事前確率であり、Ｇは、周囲雑音への代替センサのチャネル応答であり、Ｈは、クリーン音声信号への代替センサ信号のチャネル応答であり、｜Ｇ｜などの縦棒間の複素項は、複素数値の大きさを示す。

背景音声についての代替センサのチャネル応答Ｇは、ユーザが話していない最後のＤフレームにわたって空気マイクロホンＹおよび代替センサＢの信号から推定される。具体的には、Ｇは、

のように決定され、ここでＤは、ユーザが話していないが、背景音声は存在するフレームの数である。ここでは、Ｇがすべての時間フレームＤにわたって一定であると仮定する。他の実施形態では、すべてのＤフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもＧの推定により寄与するように、「指数エージング（ｅｘｐｏｎｅｎｔｉａｌａｇｉｎｇ）」として知られている技術を使用する。

クリーン音声信号への代替センサのチャネル応答Ｈは、ユーザが話している最後のＴフレームにわたって空気マイクロホンＹおよび代替センサＢの信号から推定される。具体的には、Ｈは、

のように決定され、ここでＴは、ユーザが話しているフレームの数である。ここでは、Ｈがすべての時間フレームＴにわたって一定であると仮定する。他の実施形態では、すべてのＴフレームを等しく使用するのではなく、最新のフレームが古いフレームよりもＨの推定により寄与するように、「指数エージング」として知られている技術を使用する。

状態ｐ（Ｓ_ｔ＝ｓ｜Ｙ_ｔ,Ｂ_ｔ）の条件付き尤度は、式８の近似、および式９の結合確率計算を使用して、

ように計算され、それは、

のように簡略化することができる。

式１３を詳しく見ると、第１の項は、代替センサチャネルと気導マイクロホンチャネルの間の相関性をある意味でモデル化しており、また第２の項は、空気マイクロホンチャネルにおける観察について説明するために状態モデルおよび雑音モデルを利用していることが明らかである。第３の項は単に、一実施形態では一様分布である、状態についての事前値（ｔｈｅｐｒｉｏｒ）である。

式１３で計算された観察値が与えられたときの状態の尤度には、２つの可能な応用例がある。第１に、それは、音声状態の分類子を構築するために使用することができ、この分類子は、音声を含まないフレームから雑音源の分散値を決定することができるように、観察値を、音声を含むもの、または音声を含まないものに分類するために使用することができる。それは、以下にさらに示されるように、クリーン音声信号を推定する場合に「ソフト」重みを提供するために使用することもできる。

上述したように、上記の諸式内の変数はそれぞれ、複素スペクトル領域の特定の周波数成分について定義される。したがって、式１３の尤度は、特定の周波数成分に関連する状態についてのものである。しかし、それぞれのフレームについて単一の状態変数しかないので、フレームの状態の尤度は、以下のように、周波数成分にわたって尤度を総計することによって形成される。

ここで、Ｌ（Ｓ_ｔ（ｆ））＝ｐ（Ｓ_ｔ（ｆ）｜Ｙ_ｔ（ｆ）,Ｂ_ｔ（ｆ））は、式１３に定義された周波数成分ｆの尤度である。この積は、ＤＣおよびナイキスト周波数以外のすべての周波数成分にわたって決定される。尤度計算が対数尤度領域で実施される場合、上記の式内の積は、和で置き換えられることに留意されたい。

上記尤度は、

となるように、尤度比テストに基づいて音声／非音声分類子を構築するために使用することができ、式１５では、フレームは、比ｒが０より大きい場合は音声を含むものと見なされ、そうでない場合は音声を含まないものと見なされる。

音声状態の尤度を使用して、クリーン音声信号の推定を形成することができる。一実施形態では、この推定は、

となるように、上記の式６に基づく最小平均二乗推定（ＭＭＳＥ：ｍｉｎｉｍｕｍｍｅａｎｓｑｕａｒｅｅｓｔｉｍａｔｅ）を使用して形成され、ここで、Ｅ（Ｘ_ｔ｜Ｙ_ｔ,Ｂ_ｔ）は、観察値が与えられたときのクリーン音声信号の期待値であり、Ｅ（Ｘ_ｔ｜Ｙ_ｔ,Ｂ_ｔ,Ｓ_ｔ＝ｓ）は、観察値および音声状態が与えられたときのクリーン音声信号の期待値である。

式７および９を使用して、期待値Ｅ（Ｘ_ｔ｜Ｙ_ｔ,Ｂ_ｔ,Ｓ_ｔ＝ｓ）をそこから計算することができる条件付き確率ｐ（Ｘ_ｔ｜Ｙ_ｔ,Ｂ_ｔ,Ｓ_ｔ＝ｓ）は、以下のように決定することができる。

これによって、

ここで、

の期待値がもたらされ、Ｍ^＊は、Ｍの複素共役である。

したがって、クリーン音声信号Ｘ_ｔのＭＭＳＥ推定値は、

によって与えられ、ここで、π_Ｓは、状態についての事後値（ｔｈｅｐｏｓｔｅｒｉｏｒ）であり、

によって与えられ、ここで、Ｌ（Ｓ_ｔ＝ｓ）は、式１４によって与えられる。したがって、クリーン音声信号の推定は、特定の音声状態の相対尤度に部分的に基づいており、この相対尤度によって、クリーン音声信号の推定のためのソフト重みが提供される。

上記計算では、Ｈは、高い精度で知られていると仮定されていた。しかし、実際には、Ｈは、単に制限された精度で知られている。本発明の追加の一実施形態では、Ｈは、ガウスランダム変数

としてモデル化される。こうした一実施形態では、上記計算はすべて、Ｈのすべての可能な値にわたって周辺化される（ｍａｒｇｉｎａｌｉｚｅ）。しかし、これによって、数学が扱い難いものになる。一実施形態では、この扱い難さを克服するために、反復プロセスが使用される。各反復の間、Ｈは、式１３および２０において、Ｈ_０で置き換えられ、

は、

で置き換えられ、ここで、

は、前の反復から決定されたクリーン音声信号の推定値である。次いで、クリーン音声信号は、式２１を使用して推定される。次いで、クリーン音声信号のこの新しい推定値は、

の新しい値として設定され、次の反復が実施される。反復は、クリーン音声信号の推定が安定したときに終了する。

図６は、上記の諸式を使用してクリーン音声信号を推定する方法を提供する。ステップ６００で、ユーザが話していないところの入力発語のフレームが識別される。次いで、これらのフレームは、周囲雑音の分散値

、代替センサ雑音の分散値

および気導マイクロホン雑音の分散値

を決定するために使用される。

ユーザが話していないところのフレームを識別するために、代替センサ信号を検査することができる。代替センサ信号のエネルギーが低い場合、代替センサ信号は雑音の信号値よりも遥かに小さい背景音声の信号値を生成するので、それは、話者が話し中でないと最初に仮定することができる。音声を含まないフレームの気導マイクロホン信号および代替センサ信号の値は、バッファに格納され、

のように、雑音の分散値を計算するために使用される。ここで、Ｎ_ｖは、分散値を形成するために使用されている発語中の雑音フレームの数であり、Ｖは、ユーザが話していない場合の１組の雑音フレームであり、

は、漏洩が明らかにされた後の代替センサ信号を指し、それは、

のように計算され、それは、一部の実施形態では別法として、

のように計算される。

一部の実施形態では、代替センサ信号の低いエネルギーレベルに基づいて非音声フレームを識別する技術は単に、トレーニングの初期フレーム中に実施される。雑音分散値について初期値が形成された後、それは、式１５の尤度比を使用して、どのフレームが音声を含み、どのフレームが音声を含んでいないか決定するために使用されてもよい。

特定の一実施形態では、推定された分散値

を増加または減少させるために使用することができる調整パラメータであるｇの値は、１に設定される。これは、雑音推定手順における完全な信頼性を示唆するものである。本発明の異なる実施形態では、異なるｇの値が使用されてもよい。

気導マイクロホンの雑音の分散値

は、気導マイクロホンの方が代替センサよりもセンサ雑音が生じる傾向が小さいという観察に基づいて推定される。したがって、気導マイクロホンの分散値は、

のように計算することができる。

ステップ６０２で、音声分散値

は、時間平滑化を伴う雑音抑圧フィルタを使用して推定される。抑圧フィルタは、スペクトル減算法を一般化したものである。具体的には、音声分散値は、

ただし、

ここで、

のように計算され、ここで、

は前のフレームからのクリーン音声推定値であり、一部の実施形態では、τは、．２に設定される平滑化係数であり、αは、α＞１である場合には、音声のひずみの増加を犠牲にしてより多く雑音が低減されるように雑音低減の範囲を制御し、βは、最小騒音フロアを与え、知覚された残余音楽雑音をマスクする背景雑音を加える手段を提供する。一部の実施形態では、γ１＝２、かつγ２＝１／２である。一部の実施形態では、βは、純粋な雑音フレームの２０ｄＢの雑音低減のために０．０１に等しく設定される。

したがって、式２８では、分散値は、前のフレームの推定されたクリーン音声信号の重み付けされた和、および雑音抑圧フィルタＫ_ｓによってフィルタリングされた気導マイクロホン信号のエネルギーとして求められる。

一部の実施形態では、αは、信号対雑音比およびマスキング原理に従って選択され、このマスキング原理は、同じ量の雑音が高音声エネルギー帯にあると、低音声エネルギー帯にあるよりも、認識への影響が小さくなり、またある周波数に高音声エネルギーが存在すると、隣接周波数帯内の雑音の認識が小さくなることを明らかにしている。この実施形態では、αは、

のように選択され、ここで、ＳＮＲはデシベル（ｄＢ）単位の信号対雑音比であり、Ｂは、それを超えた雑音低減を実施すべきでない所望の信号対雑音比レベルであり、α_０は、０の信号対雑音比値で取り除くべき雑音量である。一部の実施形態では、Ｂは、２０ｄＢに等しく設定される。

以下の信号対雑音比の定義

を使用すると、式２９の雑音抑圧フィルタは、

になる。

この雑音抑圧フィルタは、正の信号対雑音比については弱い雑音抑圧を提供し、負の信号対雑音比についてはより強い雑音抑圧を提供する。実際、十分に負の信号対雑音比の場合、観察された信号および雑音はすべて取り除かれ、存在する唯一の信号は雑音フロアであり、この雑音フロアは、式３３の雑音抑圧フィルタの「そうでない場合」の分岐によって追加し戻されている。

一部の実施形態では、α_０は、異なる周波数について異なる量の雑音が取り除かれるように、周波数依存のものにされる。一実施形態では、この周波数依存性は、
α_０（ｋ）＝α_０ｍｉｎ＋（α_０ｍａｘ−α_０ｍｉｎ）ｋ／２２５式３４
となるように、３０Ｈｚのα_ｏと８ＫＨｚのα_０との間の線形補間を使用して形成され、ここで、ｋは、周波数成分の数であり、α_０ｍｉｎは３０Ｈｚで望まれるα_０の値であり、α_０ｍａｘは８ＫＨｚで望まれるα_０の値であり、また２５６個の周波数成分があると仮定されている。

ステップ６０２で音声分散値が決定された後、この分散値は、上記の式１３および１４を使用して、ステップ６０４で各音声状態の尤度を決定するため使用される。次いで、音声状態の尤度は、現在のフレームのクリーン音声推定を決定するためにステップ６０６で使用される。上述されたように、Ｈを表すためにガウス分布が使用される実施形態では、ステップ６０４および６０６は、各反復においてクリーン音声信号の最新の推定値を使用して、またＨのガウスモデルに対処するために上記で論じられた式への変更を使用して反復される。

本発明について、特定の実施形態を参照して述べたが、本発明の精神および範囲から逸脱せずに、形および詳細の変更を加えてもよいことが当業者には認識されよう。

Claims

コンピュータによって実行されると前記コンピュータに以下のステップを実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体であって、
コンピュータに、
代替センサを使用して生成された代替センサ信号を受信するステップと、
気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、
周波数成分のセットのそれぞれに関する音声状態の別個の尤度を推定し、かつ前記別個の尤度の積を形成して前記音声状態の前記尤度を形成することによって、代替センサ信号および気導マイクロホン信号に基づいて音声状態の尤度を決定するステップと、
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップと
を実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記憶媒体。
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、期待値に重み付けをするステップを含むことを特徴とする請求項１に記載のコンピュータ読み取り可能な記憶媒体。
前記音声状態の前記尤度を使用してクリーン音声値を推定するステップは、
前記音声状態の前記尤度を使用して、信号のフレームを非音声フレームとして識別するステップと、
前記非音声フレームを使用して雑音の分散値を推定するステップと、
前記雑音の前記分散値を使用して前記クリーン音声値を推定するステップと
を含むことを特徴とする請求項１に記載コンピュータ読み取り可能な記憶媒体。
クリーン音声信号のクリーン音声値を識別する方法であって、
代替センサを使用して生成される代替センサ信号を受信するステップと、
気導マイクロホンを使用して生成された気導マイクロホン信号を受信するステップと、
前記クリーン音声信号が音声状態に依存し、代替センサ信号が前記クリーン音声信号に依存し、気導マイクロホン信号が前記クリーン音声信号に依存するモデルを形成するステップであって、分散値を有する分布として音声状態を与えられた前記クリーン音声信号の値の確率をモデル化することを含む、モデルを形成するステップと、
前記気導マイクロホン信号の現在のフレームに対する値を周囲雑音の分散値の関数である周波数依存の雑音抑制フィルタに適用することによって、前記気導マイクロホン信号のフィルタリング済みの値を決定するステップと、
前のフレームのクリーン音声信号の推定値と前記気導マイクロホン信号のフィルタリング済みの値との線形結合として前記分布の前記分散値を決定するステップと、
前記モデルに基づく前記現在のフレームの前記クリーン音声値の推定値、前記分布の分散値、前記現在のフレームの前記代替センサ信号の値、および前記現在のフレームの前記気導マイクロホン信号の値を決定するステップと
を備えることを特徴とする方法。
ある状態の尤度を決定するステップをさらに備え、前記クリーン音声値の推定値を決定するステップは、前記状態の前記尤度を使用するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記モデルを形成するステップは、前記代替センサ信号および前記気導マイクロホン信号が雑音源に依存するモデルを形成するステップを含むことを特徴とする請求項４に記載の方法。