JP2011203759A

JP2011203759A - 複数感知の音声強調のための方法および機器

Info

Publication number: JP2011203759A
Application number: JP2011153225A
Authority: JP
Inventors: Alejandro Acero; アセロアレサンドロ; James G Droppo; ジー．ドロッポジェームス; Li Deng; デンリ; Michael J Sinclair; ジェイ．シンクレアーマイケル; Xuedong David Huang; デビッドファングシェドン; Yanli Zheng; チェンヤンリ; Zhengyou Zhang; チャンチェンユー; Zicheng Liu; リュージチェン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-11-26
Filing date: 2011-07-11
Publication date: 2011-10-13
Anticipated expiration: 2024-11-16
Also published as: JP5147974B2; BRPI0404602A; CN1622200A; KR101099339B1; RU2373584C2; JP5247855B2; JP4986393B2; EP1536414A2; CA2786803C; CN101887728B; US20050114124A1; EP1536414A3; CA2485800C; KR20050050534A; EP2431972B1; MXPA04011033A; AU2004229048A1; US7447630B2; CN101887728A; CN1622200B

Abstract

【課題】気導マイクロホン以外のセンサから受信した補助センサ信号を利用して、クリーンな音声値を推定する方法およびシステムを提供すること。
【解決手段】クリーンな音声値の推定では、補助センサ信号のみ、または補助センサ信号を気導マイクロホン信号とともに使用する。クリーンな音声値は、気導マイクロホンから収集された雑音のあるトレーニング用データによってトレーニングされたモデルを使わずに推定される。一実施形態では、フィルタを形成するために補助センサ信号から形成されたベクトルに補正ベクトルが加えられ、このフィルタは、気導マイクロホン信号に適用されて、クリーンな音声推定値を作成する。他の実施形態では、音声信号のピッチが、補助センサ信号から判定され、気導マイクロホン信号を分解するのに用いられる。分解された信号は次いで、クリーン信号推定値を決定するのに用いられる。
【選択図】図３

Description

本発明は、ノイズリダクションに関する。特に、本発明は、音声信号からの雑音の除去に関する。

音声認識および音声伝送に共通の問題は、加法性雑音による、音声信号の汚染である。特に、別の話者の音声による汚染は、検出および／または補正するのが困難であることがわかっている。

雑音を除去する一技術では、様々な条件下で収集された、ある１組の雑音のトレーニング信号（ｔｒａｉｎｉｎｇｓｉｇｎａｌｓ）を用いて、雑音のモデル化を試みる。こうしたトレーニング信号は、復号されまたは伝送されるテスト信号の前に受信され、トレーニング目的でのみ使用される。このようなシステムは、雑音を考慮に入れるモデルの構築を試みるが、こうしたモデルは、トレーニング信号の雑音条件がテスト信号の雑音条件と一致する場合にのみ効果的である。可能な多数の雑音、および雑音のおそらく無限の組合せのため、雑音モデルを、あらゆるテスト条件を扱うことができるトレーニング信号から構築することは非常に難しい。

雑音を除去する別の技術は、テスト信号中の雑音を推定し、次いで、その雑音を雑音のある音声信号から取り去ることである。典型的には、このようなシステムは、テスト信号に先行するフレームから雑音を推定する。したがって、雑音が時間とともに変化している場合、現在のフレームに対する雑音の推定値は不正確になる。

音声信号中の雑音を推定する、従来技術の１つのシステムは、人間の音声の高調波を利用する。人間の音声の高調波は、周波数スペクトル中にピークを生じさせる。こうしたピーク間のヌル（ｎｕｌｌｓ）を識別することにより、こうしたシステムは、雑音のスペクトルを識別する。このスペクトルは次いで、雑音のある音声信号のスペクトルから減算されて、クリーンな音声信号を提供する。

音声の高調波は、音声符号化において、デジタル通信パスを介した伝送のために音声をエンコードするとき、送信しなければならないデータ量を削減するのにも利用されている。このようなシステムは、音声信号を高調波成分およびランダム成分に分離することを試みる。各コンポーネントは次いで、伝送のために別個にエンコードされる。あるシステムでは、特に、分解を実行するための音声信号に正弦波の和というモデルが適合される、高調波＋雑音モデルを利用した。

音声符号化において、分解は、入力された、雑音のある音声信号を正確に表す音声信号のパラメータ化を見つけるために行われる。分解は、ノイズリダクション性能をもたない。

最近、骨伝導マイクロホンなどの補助センサおよび気導マイクロホンの組合せを用いることによって雑音の除去を試みるシステムが開発された。このシステムは、３つのトレーニング用チャネル、すなわち雑音のある補助センサトレーニング信号、雑音のある気導マイクロホントレーニング信号、およびクリーンな気導マイクロホントレーニング信号を用いてトレーニングされる。信号はそれぞれ、特徴領域に変換される。雑音のある補助センサ信号および雑音のある気導マイクロホン信号に関する特徴は、雑音のある信号を表す単一のベクトルに結合される。クリーンな気導マイクロホン信号に関する特徴は、単一のクリーンなベクトルを形成する。こうしたベクトルは次いで、雑音のあるベクトルとクリーンなベクトルの間のマッピングをトレーニングするのに用いられる。一度トレーニングされると、マッピングは、雑音のある補助センサテスト信号および雑音のある気導マイクロホンテスト信号の結合から形成された、雑音のあるベクトルに適用される。このマッピングは、クリーンな信号ベクトルを生じる。

マッピングは、トレーニング信号の雑音条件に合わせて設計されるので、テスト信号の雑音条件がトレーニング信号の雑音条件と一致しないとき、このシステムは全く最適ではない。

一方法およびシステムでは、気導マイクロホン以外のセンサから受信した補助センサ信号を利用して、クリーンな音声値を推定する。クリーンな音声値は、気導マイクロホンから収集された雑音のあるトレーニング用データからトレーニングされたモデルを使わずに推定される。一実施形態では、フィルタを形成するために補助センサ信号から形成されたベクトルに補正ベクトルが加算され、このフィルタは、気導マイクロホン信号に適用されて、クリーンな音声推定値を生じる。他の実施形態では、音声信号のピッチが、補助センサ信号から決定され、気導マイクロホン信号を分解するのに用いられる。分解された信号は次いで、クリーン信号推定値を特定するのに用いられる。

本発明を実施することができる一コンピューティング環境を示すブロック図である。本発明を実施することができる別のコンピューティング環境を示すブロック図である。本発明の概略的な音声処理システムを示すブロック図である。本発明の一実施形態におけるノイズリダクションパラメータをトレーニングするシステムを示すブロック図である。図４のシステムを用いたノイズリダクションパラメータのトレーニングを示すフロー図である。本発明の一実施形態における、雑音のあるテスト音声信号からクリーンな音声信号の推定値を特定するシステムを示すブロック図である。図６のシステムを用いて、クリーンな音声信号の推定値を特定する方法を示すフロー図である。クリーンな音声信号の推定値を特定する代替システムを示すブロック図である。クリーンな音声信号の推定値を特定する第２の代替システムを示すブロック図である。図９のシステムを用いて、クリーンな音声信号の推定値を特定する方法を示すフロー図である。骨伝導マイクロホンを示すブロック図である。

図１は、本発明を実施することができる、適切なコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲に対するどのような限定を示唆することも意図していない。コンピューティング環境１００は、例示的な動作環境１００に示されるどの構成要素またはその組合せに関するどのような依存も要件も有していると解釈されるべきではない。

本発明は、他の数多くの汎用または専用のコンピューティングシステムまたは構成とも動作する。本発明とともに使用するのに適切であり得る周知のコンピューティングシステム、環境、および／または構成の例は、パーソナルコンピュータ、サーバコンピュータ、携帯型装置またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたは装置のいずれをも含む分散コンピューティング環境などを含むが、それに限定されない。

本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。概して、プログラムモジュールは、特定のタスクを実施しまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境において実施されるように設計される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートコンピュータ記憶媒体両方に置かれる。

図１を参照すると、本発明を実施する例示的なシステムは、汎用コンピューティング装置を、コンピュータ１１０の形で含む。コンピュータ１１０のコンポーネントは、処理装置１２０と、システムメモリ１３０と、システムメモリなど様々なシステムの構成要素を処理装置１２０に結合するシステムバス１２１とを含むことができるが、それに限定されない。システムバス１２１は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスなどいくつかの種類のバス構造のいずれでもよい。限定ではなく例として、このようなアーキテクチャは、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびメザニン（Ｍｅｚｚａｎｉｎｅ）バスとしても知られるＰＣＩ（周辺装置相互接続）バスを含む。

コンピュータ１１０は通常、様々なコンピュータ読み取り可能な媒体を含む。コンピュータ読み取り可能媒体は、コンピュータ１１０によってアクセスすることができる任意の利用可能な媒体であり、揮発性媒体および不揮発性媒体両方、取外し可能媒体および固定の媒体を含む、利用可能などの媒体でもよい。限定ではなく例として、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するためのどの方法でも技術でも実施される揮発性媒体および不揮発性媒体の両方、取外し可能媒体および固定の媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋｓ）または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは、所望の情報を格納するのに使用することができるとともにコンピュータ１１０によってアクセスすることができる他の任意の媒体も含むが、それに限定されない。通信媒体は、典型的には、搬送波やその他の搬送メカニズムなどの変調されたデータ信号中のコンピュータ読み取り可能な命令、データ構造、プログラムモジュール、またはその他のデータなどを具現化するものであり、任意の情報伝達媒体を含む。「変調されたデータ信号」という用語は、信号内に情報を符号化するような方法で、１つまたは複数の特性が設定または変更された信号を意味する。限定するものではないが、通信媒体には、例として、有線ネットワーク、直接ワイヤ接続などの有線媒体と、音響、無線、赤外線などの無線媒体が挙げられる。上記の任意の組合せも、コンピュータ読み取り可能な媒体の範囲内に含まれるものとする。

システムメモリ１３０は、コンピュータ記憶媒体を、ＲＯＭ（読出し専用メモリ）１３１およびＲＡＭ（ランダムアクセスメモリ）１３２など、揮発性および／または不揮発性メモリの形で含む。ＢＩＯＳ（基本入出力システム）１３３は、たとえば起動中にコンピュータ１１０内部の構成要素間で情報を転送するのを支援する基本ルーチンを含み、通常はＲＯＭ１３１に格納される。ＲＡＭ１３２は通常、処理装置１２０に対してただちにアクセス可能な、および／または処理装置１２０によって現在操作されているデータおよび／またはプログラムモジュールを含む。限定ではなく例として、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０は、他の取外し可能／固定の、揮発性／不揮発性コンピュータ記憶媒体を含むこともできる。単なる例として、図１では、固定の不揮発性磁気媒体の読み出しまたは書き込みを行うハードディスクドライブ１４１、取外し可能な不揮発性磁気ディスク１５２の読み出しまたは書き込みを行う磁気ディスクドライブ１５１、および、ＣＤＲＯＭや他の光学媒体など取外し可能な不揮発性光ディスク１５６の読み出しまたは書き込みを行う光ディスクドライブ１５５を示す。例示的な動作環境で使用することができる、他の取外し可能／固定の、揮発性／不揮発性のコンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどを含むが、それに限定されない。ハードディスクドライブ１４１は通常、インターフェイス１４０などの固定のメモリインターフェイスを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は通常、インターフェイス１５０などの取外し可能メモリインターフェイスを介して、システムバス１２１に接続される。

上述し、かつ図１に示すドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、およびコンピュータ１１０用の他のデータの記憶装置を提供する。図１では、たとえば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして示してある。こうしたコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じでも、異なってもよいことに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７には、少なくとも異なるものであることを示すために、ここでは異なる番号を付与している。

ユーザは、キーボード１６２、マイクロホン１６３、および、マウス、トラックボール、またはタッチパッドなどのポインティングデバイス１６１などの入力装置を介して、コマンドおよび情報をコンピュータ１１０に入力することができる。他の入力装置（図示せず）は、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどを含むことができる。こうしたおよび他の入力装置はしばしば、システムバスに接続されるユーザ入力インターフェイス１６０を介して処理装置１２０に接続されるが、他のインターフェイスおよびバス構造、たとえば並列ポート、ゲームポート、ＵＳＢ（ユニバーサルシリアルバス）などによって接続することもできる。モニタ１９１または他の種類の表示装置も、ビデオインターフェイス１９０などのインターフェイスを介してシステムバス１２１に接続される。モニタに加え、コンピュータは、出力周辺インターフェイス１９５を介して接続することができるスピーカ１９７およびプリンタ１９６など、他の周辺出力装置も含むことができる。

コンピュータ１１０は、リモートコンピュータ１８０など、１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作する。リモートコンピュータ１８０は、パーソナルコンピュータ、携帯型装置、サーバ、ルータ、ネットワークＰＣ、ピア装置（ｐｅｅｒｄｅｖｉｃｅ）、または他の共通ネットワークノードでよく、通常、コンピュータ１１０に関連して上述した構成要素の多くまたはすべてを含む。図１に示される論理接続は、ＬＡＮ（ローカルエリアネットワーク）１７１およびＷＡＮ（ワイドエリアネットワーク）１７３を含むが、他のネットワークを含むこともできる。このようなネットワーク環境は、会社、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。

ＬＡＮネットワーク環境において使用される場合、コンピュータ１１０は、ネットワークインターフェイスまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク環境において使用される場合、コンピュータ１１０は通常、モデム１７２、または、たとえばインターネットなどのＷＡＮ１７３を介して通信を確立する他の手段を含む。モデム１７２は、内部にあっても外部にあってもよく、ユーザ入力インターフェイス１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク環境では、コンピュータ１１０に関連して図示したプログラムモジュールまたはその一部は、リモートメモリ記憶装置に格納することができる。限定ではなく例として、図１は、リモートアプリケーションプログラム１８５を、リモートコンピュータ１８０にあるように示している。図示したネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段も使用できることが理解されよう。

図２は、例示的なコンピューティング環境であるモバイル装置２００のブロック図である。モバイル装置２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）装置２０６、およびリモートコンピュータまたは他のモバイル装置と通信するための通信インターフェイス２０８を含む。一実施形態では、上述した構成要素は、適切なバス２１０を介して互いに通信するために接続される。

メモリ２０４は、モバイル装置２００への全体の電源がシャットダウンされたとき、メモリ２０４に格納された情報が失われないように、不揮発性電子メモリ、たとえばバッテリバックアップモジュール（図示せず）を有するＲＡＭ（ランダムアクセスメモリ）として実装される。メモリ２０４の一部分は、好ましくはプログラム実行用にアドレス指定可能なメモリとして割り当てられ、メモリ２０４の別の部分は、好ましくは記憶用に、たとえばディスクドライブ上で記憶をシミュレートするために用いられる。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は、好ましくは、メモリ２０４から、プロセッサ２０２によって実行される。オペレーティングシステム２１２は、好ましい一実施形態では、マイクロソフトコーポレーションから市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、好ましくは、モバイル装置用に設計され、公開されている１組のアプリケーションプログラミングインターフェイスおよびメソッドを介してアプリケーション２１４によって利用することができるデータベース機能を実装する。オブジェクトストア２１６内のオブジェクトは、公開されているアプリケーションプログラミングインターフェイスおよびメソッドに対する呼出しに少なくとも部分的に応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インターフェイス２０８は、モバイル装置２００が情報を送受信することを可能にする多数の装置および技術を表す。このような装置は、いくつか例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイル装置２００は、データ交換を行うコンピュータに直接接続することもできる。このような場合、通信インターフェイス２０８は、赤外線送受信機でも、シリアルまたはパラレルの通信接続でもよく、これらはすべて、ストリーム情報を伝送することができる。

入力／出力装置２０６は、タッチ画面（ｔｏｕｃｈ−ｓｅｎｓｉｔｉｖｅｓｃｒｅｅｎ）、ボタン、ローラ、およびマイクロホンなどの様々な入力装置、ならびに音声ジェネレータ、振動装置、およびディスプレイを含む様々な出力装置を含む。上に列挙した装置は例であり、すべてがモバイル装置２００上になくてもよい。さらに、他の入力／出力装置が、本発明の範囲内において、モバイル装置２００に取り付けられてもよく、モバイル装置２００に備わっていてもよい。

図３は、本発明の実施形態の基本的なブロック図を提供している。図３において、話者３００は、音声信号３０２を生成し、この音声信号３０２は、気導マイクロホン３０４および補助センサ３０６によって検出される。補助センサの例には、ユーザの喉の振動を測定する咽喉マイクロホン、ユーザの顔の骨または頭蓋骨の上またはその付近（たとえば顎の骨）、あるいはユーザの耳の中に配置され、ユーザによって生成された音声に対応する頭蓋および顎の振動を感知する骨伝導センサがある。気導マイクロホン３０４は、音波を電気信号に変換するのに一般に使われる種類のマイクロホンである。

気導マイクロホン３０４は、１つまたは複数の雑音発生源３１０によって生成された雑音３０８も受ける。補助センサの種類および雑音のレベルによっては、雑音３０８は、補助センサ３０６によって検出することもできる。しかし、本発明の実施形態では、補助センサ３０６は通常、気導マイクロホン３０４よりも周囲の雑音に対して鈍感である。したがって、補助センサ３０６によって生成された補助センサ信号３１２は概して、気導マイクロホン３０４によって生成された気導マイクロホン信号３１４より少ない雑音を含む。

補助センサ信号３１２および気導マイクロホン信号３１４は、クリーン信号推定器３１６に与えられ、推定装置３１６は、クリーンな信号３１８を推定する。クリーン信号推定値３１８は、音声処理３２０に与えられる。クリーン信号推定値３１８は、フィルタリングされた時間領域信号でも、特徴領域ベクトルでもよい。クリーン信号推定値３１８が時間領域信号である場合、音声処理３２０は、聴者、音声符号化システム、または音声認識システムの形をとることができる。クリーン信号推定値３１８が特徴領域ベクトルである場合、音声処理３２０は通常、音声認識システムであろう。

本発明は、気導マイクロホン信号３１４および補助センサ信号３１２を用いてクリーンな音声を推定するいくつかの方法およびシステムを提供する。あるシステムでは、ステレオトレーニング用データを用いて、補助センサ信号用の補正ベクトルをトレーニングする。こうした補正ベクトルは、後でテスト用補助センサベクトルに加算されると、クリーンな信号ベクトルの推定値を与える。このシステムのさらなる拡張の１つは、時間によって変化するひずみを最初に追跡し、次いで、この情報を補正ベクトルの計算およびクリーンな音声の推定に組み込むことである。

第２のシステムは、補正ベクトルによって生成されたクリーン信号推定値と、気導信号から気導テスト信号中の現在の雑音の推定値を減算することによって形成された推定値との間の補間を提供する。第３のシステムは、補助センサ信号を用いて音声信号のピッチを推定し、次いで、推定したピッチを用いて、クリーンな信号に対する推定値を特定する。こうしたシステムはそれぞれ、後で個別に説明する。

（ステレオ補正ベクトルのトレーニング）
図４および５は、クリーンな音声の推定値を生成するために補正ベクトルに依拠する本発明の２つの実施形態用の、ステレオ補正ベクトルをトレーニングすることについてのブロック図およびフロー図を提供する。

補正ベクトルを特定する方法は、図５のステップ５００で始まり、ここで、「クリーンな」気導マイクロホン信号が特徴ベクトルの列に変換される。この変換を行うために、図４の話者４００は、気導マイクロホン４１０に向かって話し、マイクロホン４１０は、オーディオ波を電気信号に変換する。電気信号は次いで、アナログ−デジタルコンバータ４１４によってサンプリングされて、デジタル値の列を生成し、こうしたデジタル値は、フレームコンストラクタ４１６により値からなるフレームにグループ化される。一実施形態では、Ａ／Ｄコンバータ４１４は、１６ｋＨｚ、かつ１サンプルごとに１６ビットでアナログ信号をサンプリングし、そうすることによって毎秒３２キロバイトの発話データを作成し、フレームコンストラクタ４１６は、２５ミリ秒分のデータを含む新規フレームを１０ミリ秒毎に作成する。

フレームコンストラクタ４１６によって提供される各データフレームは、特徴抽出器４１８によって特徴ベクトルに変換される。一実施形態では、特徴抽出器４１８が、ケプストラム特徴を形成する。このような特徴の例には、ＬＰＣ派生ケプストラム、およびメル（Ｍｅｌ）周波数ケプストラム係数がある。本発明とともに使用することができる他の可能な特徴抽出モジュールの例には、線形予測符号化（ＬＰＣ）、知覚線形予測（ＰＬＰ）、および聴覚モデル特徴抽出を実施するモジュールがある。本発明はこうした特徴抽出モジュールに限定されず、他のモジュールも本発明のコンテキストの範囲内において使用できることに留意されたい。

図５のステップ５０２で、補助センサ信号が、特徴ベクトルに変換される。ステップ５０２の変換は、ステップ５００の変換の後に起こるものと示してあるが、本発明では、変換のどの部分も、ステップ５００の前、ステップ５００の間、またはその後に実施することができる。ステップ５０２の変換は、ステップ５００に関して上述したものと同様の処理を介して実行される。

図４の実施形態において、この処理は、骨の振動や顔の動きなど、話者４００による音声の生成に関連づけられた物理的な事象を補助センサ４０２が検出したときに始まる。図１１に示すように、骨伝導センサ１１００の一実施形態では、柔らかいエラストマブリッジ（ｅｌａｓｔｏｍｅｒｂｒｉｄｇｅ）１１０２が、通常の気導マイクロホン１１０６の振動板１１０４に接着される。この柔らかいブリッジ１１０２は、ユーザの皮膚接触部分１１０８から、マイクロホン１１０６の振動板１１０４に直接、振動を伝導する。振動板１１０４の動きは、マイクロホン１１０６内のトランスデューサ１１１０によって電気信号に変換される。補助センサ４０２は、物理的な事象をアナログ電気信号に変換し、この信号は、アナログ−デジタルコンバータ４０４によってサンプリングされる。Ａ／Ｄコンバータ４０４に関するサンプリング特性は、Ａ／Ｄコンバータ４１４に関して上述したものと同じである。Ａ／Ｄコンバータ４０４によって提供されたサンプルは、フレームコンストラクタ４０６によってフレーム中に集められ、フレームコンストラクタ４０６は、フレームコンストラクタ４１６と同様の方法で動作する。こうしたサンプルフレームは次いで、特徴抽出器４０８によって特徴ベクトルに変換され、特徴抽出器４０８は、特徴抽出器４１８と同じ特徴抽出方法を用いる。

補助センサ信号および気導信号に対する特徴ベクトルは、図４のノイズリダクショントレーナ４２０に与えられる。図５のステップ５０４で、ノイズリダクショントレーナ４２０は、補助センサ信号に対する特徴ベクトルを混合成分にグループ化する。このグループ化は、最大尤度トレーニング技術を用いて類似の特徴ベクトルを同じグループにすることによって、または、音声信号の時間セクションを表す特徴ベクトルを同じグループにすることによって行うことができる。特徴ベクトルをグループ化する他の技術も用いることができ、上に挙げた２つの技術は例として挙げられるに過ぎないことが当業者には理解されよう。

ノイズリダクショントレーナ４２０は次いで、図５のステップ５０８で、各混合成分ｓに対する補正ベクトルｒ_ｓを決定する。一実施形態では、各混合成分に対する補正ベクトルは、最大尤度基準を用いて決定される。この技術では、補正ベクトルは、以下のように計算される。

上式で、ｘ_ｔは、フレームｔに対する気導ベクトルの値であり、ｂ_ｔは、フレームｔに対する補助センサベクトルの値である。式１において、

であり、ｐ（ｓ）は、混合成分の数に対して単に１であり、ｐ（ｂ_ｔ｜ｓ）は、ガウス分布：
ｐ（ｂ_ｔ｜ｓ）＝Ｎ（ｂ_ｔ；μ_ｂ，Γ_ｂ）式３
としてモデル化され、平均値μ_ｂおよび分散Γ_ｂは期待値最大化（ＥＭ）アルゴリズムを用いてトレーニングされており、各反復は、以下のステップからからなる。

γ_ｓ（ｔ）＝ｐ（ｓ｜ｂ_ｔ）式４

式４は、ＥＭアルゴリズムにおけるＥステップであり、Ｅステップは、予め推定されたパラメータを使用する。式５および式６はＭステップであり、Ｍステップは、Ｅステップの結果を用いてパラメータをアップデートする。

アルゴリズムのＥおよびＭステップは、モデルパラメータ用の安定した値が決定されるまで反復される。こうしたパラメータは次いで、補正ベクトルを形成するために式１を評価するのに使用される。次いで、補正ベクトルおよびモデルパラメータは、ノイズリダクションパラメータ記憶装置４２２に格納される。

ステップ５０８で、各混合成分に対する補正ベクトルが決定された後、本発明のノイズリダクションシステムをトレーニングする処理が完了する。各混合物に対して補正ベクトルが決定されると、補正ベクトルは、本発明のノイズリダクション技術において使用することができる。補正ベクトルを使用する２つの別個のノイズリダクション技術については、以下に説明する。

（補正ベクトルおよび雑音推定値を用いたノイズリダクション）
補正ベクトルおよび雑音推定値に基づいて、雑音のある音声信号中の雑音を低減するシステムおよび方法を、図６のブロック図および図７のフロー図にそれぞれ示す。

ステップ７００で、気導マイクロホン６０４によって検出されたオーディオテスト信号が、特徴ベクトルに変換される。マイクロホン６０４によって受信されたオーディオテスト信号は、話者６００からの音声、および１つまたは複数の雑音発生源６０２からの加法性雑音を含む。マイクロホン６０４によって検出されたオーディオテスト信号は、電気信号に変換され、この電気信号は、アナログ−デジタルコンバータ６０６に与えられる。

Ａ／Ｄコンバータ６０６は、マイクロホン６０４からのアナログ信号をデジタル値の列に変換する。いくつかの実施形態において、Ａ／Ｄコンバータ６０６は、１６ｋＨｚ、かつ１サンプルごとに１６ビットでアナログ信号をサンプリングし、そうすることによって毎秒３２キロバイトの発話データを作成する。こうしたデジタル値は、フレームコンストラクタ６０７に与えられ、コンストラクタ６０７は、一実施形態では、１０ミリ秒おきに別々に開始される２５ミリ秒のフレームに値をグループ化する。

フレームコンストラクタ６０７によって作成された、データからなるフレームは、特徴抽出器６１０に与えられ、特徴抽出器６１０は、各フレームから特徴を抽出する。一実施形態では、この特徴抽出器は、補正ベクトルをトレーニングするのに使われた特徴抽出器４０８および４１８とは異なる。具体的に言うと、本実施形態では、特徴抽出器６１０は、ケプストラム値ではなくパワースペクトル値を生じる。抽出された特徴は、クリーン信号推定器６２２、音声検出装置６２６および雑音モデルトレーナ６２４に与えられる。

ステップ７０２で、話者６００による音声の生成に関連づけられた骨の振動や顔の動きなどの物理的な事象が、特徴ベクトルに変換される。図７では別個のステップとして示してあるが、このステップの一部は、ステップ７００と同時に行うことができることが当業者には理解されよう。ステップ７０２の間、物理的な事象は、補助センサ６１４によって検出される。補助センサ６１４は、物理的な事象に基づいてアナログ電気信号を生成する。このアナログ信号は、アナログ−デジタルコンバータ６１６によってデジタル信号に変換され、その結果生じるデジタルサンプルは、フレームコンストラクタ６１７によってフレームにグループ化される。一実施形態では、アナログ−デジタルコンバータ６１６およびフレームコンストラクタ６１７は、アナログ−デジタルコンバータ６０６およびフレームコンストラクタ６０７と同様の方法で動作する。

デジタル値からなるフレームは、特徴抽出器６２０に与えられ、特徴抽出器６２０は、補正ベクトルをトレーニングするのに利用されたものと同じ特徴抽出技術を利用する。上述したように、このような特徴抽出モジュールの例は、線形予測符号化（ＬＰＣ）、ＬＰＣ派生ケプストラム、知覚線形予測（ＰＬＰ）、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数（ＭＦＣＣ）特徴抽出を実施するモジュールを含む。ただし、多くの実施形態において、ケプストラム特徴を生じる特徴抽出技術が用いられる。

特徴抽出モジュールは、音声信号の別個のフレームにそれぞれ関連づけられた特徴ベクトルからなるストリームを生じる。この特徴ベクトルストリームは、クリーン信号推定器６２２に与えられる。

フレームコンストラクタ６１７からの値からなるフレームは、特徴抽出器６２１にも与えられ、特徴抽出器６２１は、一実施形態では、各フレームのエネルギーを抽出する。各フレームに対するエネルギー値は、音声検出装置６２６に与えられる。

ステップ７０４で、音声検出ユニット６２６は、補助センサ信号のエネルギー特徴を用いて、音声がおそらく存在するときを判定する。この情報は、雑音モデルトレーナ６２４に渡され、雑音モデルトレーナ６２４は、ステップ７０６で、音声がない期間に雑音をモデル化するように試みる。

一実施形態では、音声検出装置６２６は最初に、エネルギーのピークを見つけるために、フレームのエネルギー値からなる列を検索する。音声検出装置６２６は次いで、ピークの後の谷を求めて検索を行う。この谷のエネルギーは、エネルギーセパレータｄと呼ばれる。

フレームが音声を含むかどうか判定するために、エネルギーセパレータｄに対するフレームｅのエネルギーの比率ｋが次いで、ｋ＝ｅ／ｄとして決定される。フレームに対する音声の信頼性ｑが次いで、

のように決定される。上式で、αは、２つの状態の間の遷移を定義し、一実施例では２に設定される。最後に、隣接する５個のフレーム（それ自体を含む）の平均の信頼値を、このフレームに対する最終的な信頼値として用いる。

一実施形態では、信頼値が閾値を超える場合はフレームが音声を含むとみなし、信頼値が閾値を超えない場合はフレームが非音声を含むとみなすというように音声が存在するかどうか判定するのに、固定閾値が用いられる。一実施形態では、０．１という閾値が使用される。

音声検出装置６２６によって検出された各非音声フレームに対して、雑音モデルトレーナ６２４は、ステップ７０６で雑音モデル６２５をアップデートする。一実施形態では、雑音モデル６２５は、平均値μ_ｎおよび分散Σ_ｎを有するガウスモデルである。このモデルは、非音声の最新フレームからなる移動ウィンドウ（ｍｏｖｉｎｇｗｉｎｄｏｗ）に基づく。ウィンドウ中の非音声フレームから平均値および分散を決定する技術は、当該分野において公知である。

パラメータ記憶装置４２２中の補正ベクトルおよびモデルパラメータ、および雑音モデル６２５が、補助センサに対する特徴ベクトルｂ、および雑音のある気導マイクロホン信号に対する特徴ベクトルＳ_ｙとともに、クリーン信号推定器６２２に与えられる。

ステップ７０８で、クリーン信号推定器６２２は、補助センサの特徴ベクトル、補正ベクトル、および補助センサに対するモデルパラメータに基づいて、クリーンな音声信号用の初期値を推定する。具体的には、クリーンな信号の補助センサ推定値は、

のように計算され、上式で、

は、ケプストラム領域におけるクリーン信号推定値であり、ｂは、補助センサの特徴ベクトルであり、ｐ（ｓ｜ｂ）は、上記の式２を用いて決定され、ｒ_ｓは、混合成分ｓに対する補正ベクトルである。したがって、式８におけるクリーンな信号の推定値は、補正ベクトルの重みづけ和（ｗｅｉｇｈｔｅｄｓｕｍ）に補助センサの特徴ベクトルを加算することによって形成され、重みは、補助センサの特徴ベクトルを与えられた混合成分の確率に基づく。

ステップ７１０で、補助センサの初期クリーン音声推定値が、雑音のある気導マイクロホンベクトルおよび雑音モデルから形成されたクリーン音声推定値と結合されることによって改善（ｒｅｆｉｎｅ）される。この結果、改善されたクリーン音声推定値６２８を得る。初期クリーン信号推定値のケプストラム値を雑音のある気導マイクロホンのパワースペクトル特徴ベクトルと結合するために、ケプストラム値は、

を用いてパワースペクトル領域に変換される。上式で、Ｃ^−１は逆離散コサイン変換であり、

は、補助センサに基づくクリーンな信号のパワースペクトル推定値である。

補助センサからの初期クリーン信号推定値は、パワースペクトル領域内に置かれると、

のように、雑音のある気導マイクロホンのベクトルおよび雑音モデルと結合することができ、上式で、

は、パワースペクトル領域における改善されたクリーン信号推定値であり、Ｓ_ｙは、雑音のある気導マイクロホンの特徴ベクトルであり、（μ_ｎ，Σ_ｎ）は、以前の雑音モデルの平均値および共分散（６２４を参照されたい）であり、

は、補助センサに基づく初期クリーン信号推定値であり、Σ_ｘ｜ｂは、補助センサの測定結果を与えられた、クリーンな音声に対する条件つき確率分布の共分散行列である。Σ_ｘ｜ｂは、以下のように計算することができる。Ｊは、式９の右辺における関数のヤコビアンを示すものとする。Σは、

の共分散行列であるとする。この場合、

の共分散は、
Σ_ｘ｜ｂ＝ＪΣＪ^Ｔ式１１
である。

簡略化した実施形態において、式１０を、以下の式のように書き換える。

上式で、α（ｆ）は、時間および周波数帯両方の関数である。我々が現在使用している補助センサは、最大３ＫＨｚの帯域幅をもつので、３ＫＨｚ未満の周波数帯に対して、０となるようなα（ｆ）を選ぶ。基本的に、低周波数帯に対しては、補助センサからの初期クリーン信号推定値を信頼する。高周波数帯に対しては、補助センサからの初期クリーン信号推定値はあまり信頼性がない。直観的に、雑音が、現在のフレームにおける周波数帯に対して小さい場合、この周波数帯に対して気導マイクロホンからより多くの情報を使うために、大きいα（ｆ）を選びたい。それ以外の場合は、小さいα（ｆ）を選ぶことによって、補助センサからより多くの情報を使用したい。一実施形態では、補助センサからの初期クリーン信号推定値のエネルギーを用いて、各周波数帯に対する雑音レベルを判定する。Ｅ（ｆ）は、周波数帯ｆに対するエネルギーを示すものとする。Ｍ＝Ｍａｘ_ｆＥ（ｆ）．α（ｆ）は、ｆの関数として、以下のように定義されるものとする。

上式で、α（ｆ）の平滑を補償するために、３Ｋから４Ｋへの遷移に線形補間を用いる。

パワースペクトル領域における改善されたクリーン信号推定値は、雑音のある気導マイクロホン信号をフィルタリングするためのウィーナフィルタを構築するのに用いることができる。具体的には、ウィーナフィルタＨは、

となるように設定される。

このフィルタは次いで、時間領域の雑音のある気導マイクロホン信号に対して適用されて、雑音が低減された、またはクリーンな時間領域信号を作ることができる。雑音が低減された信号は、聴者に提供したり、音声認識装置に与えたりすることができる。

式１２は、２つの因子の重みづけ和である、改善されたクリーン信号推定値をもたらし、因子の１つは、補助センサのクリーン信号推定値であることに留意されたい。この重みづけ和は、追加の補助センサ用の追加因子を含むように拡張することができる。したがって、クリーンな信号の独立推定値を生成するのに、複数の補助センサを使用することができる。こうした多数の推定値は次いで、式１２を用いて結合することができる。

（雑音推定値のない補正ベクトルを用いたノイズリダクション）
図８は、本発明においてクリーンな音声値を推定する補助システムのブロック図を提供する。図８のシステムは、クリーンな音声値の推定値が気導マイクロホンまたは雑音モデルを必要とせずに形成されること以外は、図６のシステムと同様である。

図８において、音声を生じる話者８００に関連づけられた物理的な事象が、補助センサ８０２、アナログ−デジタルコンバータ８０４、フレームコンストラクタ８０６、および特徴抽出器８０８によって、図６の補助センサ６１４、アナログ−デジタルコンバータ６１６、フレームコンストラクタ６１７、および特徴抽出器６２０に対して上述したのと同様の方法で、特徴ベクトルに変換される。特徴抽出器８０８およびノイズリダクションパラメータ４２２からの特徴ベクトルは、クリーン信号推定器８１０に与えられ、推定装置８１０は、上記の式８および９を用いて、クリーンな信号値の推定値８１２である、

を決定する。

パワースペクトル領域におけるクリーン信号推定値、すなわち

は、雑音のある気導マイクロホンの信号をフィルタリングするためのウィーナフィルタを構築するのに用いることができる。具体的には、ウィーナフィルタＨは、

となるように設定される。

このフィルタは次いで、時間領域の雑音のある気導マイクロホンの信号に対して適用されて、雑音が低減された、またはクリーンな信号を作ることができる。雑音が低減された信号は、聴者に提供したり、音声認識装置に与えたりすることができる。

あるいは、式８で計算される、ケプストラム領域におけるクリーン信号推定値、すなわち

を、音声認識システムに直接適用することもできる。

（ピッチの追跡を用いたノイズリダクション）
クリーンな音声信号の推定値を生成する代替技術を、図９のブロック図および図１０のフロー図に示す。具体的には、図９および１０の実施形態は、補助センサを用いて音声信号に対するピッチを識別し、次いで、このピッチを用いて雑音のある気導マイクロホンの信号を高調波成分およびランダム成分に分解することによって、クリーン音声推定値を決定する。したがって、雑音のある信号は、以下のように表される。

ｙ＝ｙ_ｈ＋ｙ_ｒ式１６
上式で、ｙは雑音のある信号であり、ｙ_ｈは高調波成分であり、ｙ_ｒはランダム成分である。高調波成分およびランダム成分の、重みづけ和は、雑音が低減された音声信号を表す、雑音が低減された特徴ベクトルを形成するのに用いられる。

一実施形態では、高調波成分は、高調波正弦波の和として、

のようにモデル化され、上式で、ω_０は、基本またはピッチ周波数であり、Ｋは、信号中の高調波の総数である。

したがって、高調波成分を識別するために、ピッチ周波数の推定値および振幅パラメータ｛ａ_１ａ_２．．．ａ_ｋｂ_１ｂ_２．．．ｂ_ｋ｝が決定されなければならない。

ステップ１０００で、雑音のある音声信号が集められ、デジタルサンプルに変換される。これを行うために、気導マイクロホン９０４は、話者９００および１つまたは複数の加法性雑音発生源９０２からのオーディオ波を電気信号に変換する。電気信号は次いで、アナログ−デジタルコンバータ９０６によってサンプリングされて、デジタル値の列を生成する。一実施形態では、Ａ／Ｄコンバータ９０６は、１６ｋＨｚ、かつ１サンプルごとに１６ビットでアナログ信号をサンプリングし、そうすることによって毎秒３２キロバイトの発話データを作成する。ステップ１００２で、デジタルサンプルは、フレームコンストラクタ９０８によってフレームにグループ化される。一実施形態では、フレームコンストラクタ９０８は、２５ミリ秒分のデータを含む新規フレームを１０ミリ秒おきに作成する。

ステップ１００４で、音声の生成に関連づけられた物理的な事象が、補助センサ９４４によって検出される。この実施形態では、骨伝導センサなど、高調波成分を検出することができる補助センサが、補助センサ９４４として使用されるのに最適である。ステップ１００４は、ステップ１０００とは別個に示してあるが、こうしたステップは、同時に実行することができることが当業者には理解されることに留意されたい。補助センサ９４４によって生成されたアナログ信号は、アナログ−デジタルコンバータ９４６によってデジタルサンプルに変換される。デジタルサンプルは次いで、ステップ１００６で、フレームコンストラクタ９４８によってフレームにグループ化される。

ステップ１００８で、補助センサ信号からなるフレームが、ピッチ追跡装置９５０によって、音声のピッチまたは基本周波数を識別するのに用いられる。

ピッチ周波数に対する推定値は、使用可能な任意の数のピッチ追跡システムを用いて決定することができる。こうしたシステムの多くにおいて、補助センサ信号のセグメントの中心間の可能な間隔を識別するのに、候補のピッチが用いられる。各候補ピッチごとに、連続する音声のセグメント間で相関関係が決定される。概して、最良の相関関係をもたらす候補ピッチは、フレームのピッチ周波数であろう。一部のシステムでは、信号のエネルギーおよび／または予期されるピッチトラック（ｐｉｔｃｈｔｒａｃｋ）などの付加情報が、ピッチ選択を改善するのに用いられる。

ピッチ追跡装置９５０からピッチの推定値が与えられると、気導信号ベクトルは、ステップ１０１０で、高調波成分およびランダム成分に分解することができる。このような分解を行うために、式１７は、
ｙ＝Ａｂ式１８
のように書き換えられ、上式で、ｙは、雑音のある音声信号のＮ個のサンプルのベクトルであり、Ａは、
Ａ＝［Ａ_ｃｏｓＡ_ｓｉｎ］式１９
によって与えられるＮ×２Ｋの行列であり、式１９の要素は
Ａ_ｃｏｓ（ｋ，ｔ）＝ｃｏｓ（ｋω_０ｔ）Ａ_ｓｉｎ（ｋ，ｔ）＝ｓｉｎ（ｋω_０ｔ）式２０
であり、ｂは、
ｂ^Ｔ＝［ａ_１ａ_２．．．ａ_ｋｂ_１ｂ_２．．．ｂ_ｋ］式２１
によって与えられる２Ｋ×１のベクトルである。この場合、振幅係数に対する最小二乗解は、

である。

雑音のある音声信号の高調波成分に対する推定値は、

を用いて、

のように決定することができる。

ランダム成分の推定値は次いで、
ｙ_ｒ＝ｙ−ｙ_ｈ式２４
のように計算される。

したがって、上記の式１８〜２４を用いて、高調波分解装置９１０は、高調波成分サンプルのベクトル９１２、すなわちｙ_ｈ、およびランダム成分サンプルのベクトル９１４、すなわちｙ_ｒを作ることができる。

フレームのサンプルが高調波サンプルおよびランダムサンプルに分解された後、ステップ１０１２で、スケーリングパラメータすなわち重みが、高調波成分に対して決定される。このスケーリングパラメータは、以下にさらに説明するように、雑音が低減された音声信号の計算の一部として用いられる。一実施形態では、スケーリングパラメータは、

のように計算され、上式で、α_ｈはスケーリングパラメータであり、ｙ_ｈ（ｉ）は、高調波成分サンプルｙ_ｈのベクトル中のｉ番目のサンプルであり、ｙ（ｉ）は、このフレームに対する、雑音のある音声信号のｉ番目のサンプルである。式２５において、分子は、高調波成分の各サンプルのエネルギーの和であり、分母は、雑音のある音声信号の各サンプルのエネルギーの和である。したがって、スケーリングパラメータは、フレームの総エネルギーに対するフレームの高調波エネルギーの比率である。

別の実施形態では、スケーリングパラメータは、確率的な有声−無声検出ユニットを用いて設定される。このようなユニットは、音声からなるある特定のフレームが無声ではなく有声（声帯がフレーム期間中に共鳴することを意味する）である確率を提供する。フレームが音声の有声域からである確率は、スケーリングパラメータとしてそのまま用いることができる。

スケーリングパラメータが決定された後、または決定されている間、高調波成分サンプルのベクトルおよびランダム成分サンプルのベクトルに対するメルスペクトルが、ステップ１０１４で決定される。これは、サンプルの各ベクトルを離散フーリエ変換（ＤＦＴ）９１８に通して、高調波成分周波数値のベクトル９２２およびランダム成分周波数値のベクトル９２０を作ることを含む。周波数値のベクトルによって表されるパワースペクトルは次いで、メル重みづけユニット９２４によって、メルスケールとともに適用される一連の三角重みづけ関数（ｔｒｉａｎｇｕｌａｒｗｅｉｇｈｔｉｎｇｆｕｎｃｔｉｏｎ）を用いて平滑化される。この結果、高調波成分メルスペクトルベクトル９２８、すなわちＹ_ｈ、およびランダム成分メルスペクトルベクトル９２６、すなわちＹ_ｒが得られる。

ステップ１０１６で、高調波成分およびランダム成分に対するメルスペクトルが、重みづけ和として組み合わされて、雑音が低減されたメルスペクトルの推定値を形成する。このステップは、重みづけ和計算器９３０によって実行され、以下の式において上記にて決定されたスケーリング因子を用いる。

上式で、

は、雑音が低減されたメルスペクトルの推定値であり、Ｙ_ｈ（ｔ）は、高調波成分メルスペクトルであり、Ｙ_ｒ（ｔ）は、ランダム成分メルスペクトルであり、α_ｈ（ｔ）は、上記にて決定されたスケーリング因子であり、α_ｒは、ランダム成分に対する固定スケーリング因子であって、一実施形態では０．１に等しく設定され、時間インデックスｔは、高調波成分に対するスケーリング因子は各フレームごとに決定されるが、ランダム成分に対するスケーリング因子は固定のままであることを強調するのに用いられる。他の実施形態では、ランダム成分に対するスケーリング因子は、各フレームごとに決定できることに留意されたい。

雑音が低減されたメルスペクトルがステップ１０１６で計算された後、ステップ１０１８で、メルスペクトルのログ９３２が決定され、次いで、離散コサイン変換９３４に適用される。離散コサイン変換９３４は、雑音が低減された音声信号を表すメル周波数ケプストラム係数（ＭＦＣＣ）特徴ベクトル９３６を作成する。

雑音が低減された別個のＭＦＣＣ特徴ベクトルが、雑音のある信号からなる各フレームに対して作成される。こうした特徴ベクトルは、音声強調および音声認識を含む任意の所望の目的に使うことができる。音声強調に対しては、ＭＦＣＣ特徴ベクトルは、パワースペクトル領域に変換することができ、雑音のある気導信号とともに用いて、ウィーナフィルタを形成することができる。

本発明を、特定の実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく、形体および細部において変更を行うことができることが当業者には理解されよう。

１００コンピューティングシステム環境
１１０コンピュータ
１２０処理装置
１２１システムバス
１３０システムメモリ
１３１ＲＯＭ
１３２ＲＡＭ
１３３ＢＩＯＳ
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６他のプログラムモジュール
１３７プログラムデータ
１４０固定の不揮発性メモリインターフェイス
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６他のプログラムモジュール
１４７プログラムデータ
１５０取外し可能不揮発性メモリインターフェイス
１６０ユーザ入力インターフェイス
１６１ポインティングデバイス
１６２キーボード
１６３マイクロホン
１７０ネットワークインターフェイス
１７１ローカルエリアネットワーク
１７２モデム
１７３ワイドエリアネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインターフェイス
１９１モニタ
１９５出力周辺インターフェイス
１９６プリンタ
１９７スピーカ
２００モバイル装置
２０２プロセッサ（マイクロプロセッサ）
２０４メモリ
２０８通信インターフェイス
２１４アプリケーション
２１６オブジェクトストア

Claims

気導マイクロホン以外のセンサから補助センサ信号を受けるステップと、
気導マイクロホンから雑音のある気導マイクロホン信号を受けるステップと、
前記補助センサ信号に基づいて、候補周波数のグループの中のいずれの周波数が音声信号に対するピッチ周波数であるかを識別するステップと、
高調波成分を前記ピッチに関連する正弦波の和としてモデルすることによって、前記ピッチ周波数を用いて、前記雑音のある気導マイクロホン信号を高調波成分および残余成分に分解するステップと、
前記高調波成分および前記残余成分の重みづけ和を判定することによって、前記高調波成分および前記残余成分を用いて、前記クリーン音声値を推定するステップであって、前記クリーン音声値は、前記雑音のある気導マイクロホン信号と比較して低減された雑音を有する、雑音が低減された信号を表す、ステップと
を備えることを特徴とする、クリーン音声値の推定値を決定する方法。
前記補助センサ信号を受けるステップは、骨伝導マイクロホンから補助センサ信号を受けるステップを含むことを特徴とする請求項１に記載の方法。