JP2002140089A

JP2002140089A - 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置

Info

Publication number: JP2002140089A
Application number: JP2001317824A
Authority: JP
Inventors: Den Ri; リ・デン; Xuedong Huang; スードン・ファン; Michael D Plumpe; マイケル・ディー・プランペ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-10-16
Filing date: 2001-10-16
Publication date: 2002-05-17
Anticipated expiration: 2021-10-16
Also published as: EP1199708A2; US6876966B1; ATE347161T1; DE60124842T2; JP4195211B2; EP1199708B1; EP1199708A3; DE60124842D1

Abstract

(57)【要約】【課題】パターン認識モデルを訓練し用いる方法を提
供する。【解決手段】検査信号内において予想されるノイズに
一致する添加ノイズを訓練信号に含ませる（３００）。
ノイズ含有訓練信号に、１つ以上のノイズ低減技法を受
けさせ、疑似クリーン訓練データを生成する（３０
２）。疑似クリーン訓練データを用いて、パターン認識
モデルを訓練する（３０４）。検査信号を受け取ると
（３０６）、ノイズ含有訓練信号で用いたのと同じノイ
ズ低減技法を、この検査信号に受けさせる（３０８）。
これによって、疑似クリーン検査データを生成し、パタ
ーン認識モデルに適用する。一実施形態の下では、複数
の訓練データ集合を生成し、各集合が異なるタイプのノ
イズを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パターン認識に関
する。特に、本発明は、パターン認識用訓練モデルに関
する。

【０００２】

【従来の技術】スピーチ認識システムのようなパターン
認識システムは、入力信号を取り込み、この信号をデコ
ードして、信号が表すパターンを見出そうとする。例え
ば、スピーチ認識システムでは、認識システムがスピー
チ信号（多くの場合、検査信号とも呼ぶ）を受け取り、
デコードすることによって、スピーチ信号が表す単語列
を識別する。

【０００３】入来する検査信号をデコードする際、殆ど
の認識システムは、当該検査信号の一部が特定のパター
ンを表す尤度を表す１つ以上のモデルを利用する。この
ようなモデルの例には、ニューラル・ネット、ダイナミ
ック・タイム・ワーピング(dynamic time warping)、セ
グメント・モデル、隠れマルコフ・モデルが含まれる。

【０００４】モデルを用いて入来信号をデコードできる
ようになる前に、これを訓練しなければならない。これ
を行うには、通例では、既知の訓練パターンから発生し
た入力訓練信号を測定する。例えば、スピーチ認識で
は、既知のテキストから話者が読み上げることによっ
て、スピーチ信号の集合を発生する。次いで、これらの
スピーチ信号を用いてモデルを訓練する。

【０００５】入力検査信号をデコードする際にモデルが
最適に機能するためには、モデルを訓練するために用い
る信号は、デコードする最終的な検査信号に類似してい
なければならない。即ち、訓練信号は、デコードする検
査信号と同じ量および同じタイプのノイズを有していな
ければならない。

【０００６】訓練信号において同じノイズ特性を得るた
めに、従来のシステムの中には、検査信号を発生したと
きに存在したと予想される同じ条件の下で訓練信号を収
集するものがある。例えば、スピーチ訓練信号は、スピ
ーチ認識システムを用いるのと同じノイズ環境で収集す
る。他のシステムは、比較的ノイズのない（即ち、「ク
リーンな」）条件の下で訓練データを収集し、次いで予
想ノイズをクリーンな訓練データに追加する。

【０００７】

【発明が解決しようとする課題】ノイズを訓練データに
追加したり、あるいはノイズ環境において訓練データを
収集すると、多くの場合、訓練データの検査データに対
する整合性が高まるが、なおも検査環境において存在す
るノイズを完全に予期することは不可能である。このた
め、単にノイズ訓練データを用いても、パターン認識シ
ステムの性能を最適化することにはならない。

【０００８】他の従来技術のシステムには、ノイズ低減
技法を訓練データに適用することによって、訓練データ
および検査データを一致させようとしたものがある。こ
のようなシステムでは、訓練データは、実質的に「クリ
ーン」な条件の下で発生し、そのノイズ含有量を極力抑
えている。次いで、ノイズ低減技法を検査データに適用
して、検査データを訓練データのクリーンな条件に更に
近づける。しかしながら、現在のノイズ低減技法は不完
全であり、検査データ内のノイズ全てを除去することは
できない。このために、訓練データおよび検査データ
は、ノイズ低減の後でも、一致しないままとなってい
る。

【０００９】このように、訓練データ・ノイズを検査デ
ータ・ノイズに一致させる従来技術の技法は、理想には
ほど遠いのである。

【００１０】

【課題を解決するための手段】パターン認識モデルを訓
練し用いる方法および装置を提供する。本発明の下で
は、検査信号内に予想されるノイズに一致する添加ノイ
ズを訓練信号に含ませる。ノイズ含有訓練信号に、１つ
以上のノイズ低減技法を受けさせ、疑似クリーン訓練デ
ータを生成する。次いで、疑似クリーン訓練データを用
いて、パターン認識モデルを訓練する。

【００１１】検査信号を受け取ると、ノイズ訓練信号に
用いた同じノイズ低減技法を検査信号に受けされる。こ
れによって、疑似クリーン訓練信号に対する一致度が高
い疑似クリーン検査データを生成する。次に、疑似クリ
ーン検査データをパターン認識モデルに適用して、検査
信号が表す最尤パターンを決定する。

【００１２】一実施形態の下では、複数の訓練データ集
合を生成する。各集合は、異なるタイプのノイズを含
む。例えば、１つの集合はコンピュータからのファン・
ノイズを含み、別の集合はキーボードのノイズを含むと
いうようにすることもできる。このような実施形態で
は、各訓練データ集合に同じノイズ低減技法を受けさせ
るとよく、あるいは異なる訓練データ集合に、異なるノ
イズ低減技法を受けさせてもよい。

【００１３】一実施形態の下では、異なる訓練データ集
合に異なるノイズ低減技法を用いる場合、検査データ内
のノイズをサンプルし、同様のタイプのノイズを含む、
特定の訓練データ集合を識別する。次いで、最も良く一
致した訓練データに適用したノイズ低減技法を検査デー
タに適用し、疑似クリーン検査データを形成する。

【００１４】異なる訓練データ集合または同じ訓練デー
タ集合に異なるノイズ低減技法を用いる別の実施形態で
は、異なるノイズ低減技術を検査データに受けさせ、疑
似クリーン検査データの多数の異なるバージョンを生成
する。次いで、疑似クリーン検査データのこれら別個の
形態をそれぞれモデルに適用し、パターンの確率を判定
する。次に、最も確率が高いパターンを生成する疑似ク
リーン検査データの形態、または形態の組み合わせを選
択することによって、検査データに適用する適正なノイ
ズ低減技法を暗示的に選択する。

【００１５】

【発明の実施の形態】図１は、本発明を実施可能とする
のに適した計算システム環境１００の一例を示す。計算
システム環境１００は、適した計算環境の一例に過ぎ
ず、本発明の使用または機能性の範囲に関していずれの
限定をも示唆する訳ではない。また、一例の動作環境１
００に示すいずれの一コンポーネントまたはコンポーネ
ントの組み合わせに関しても、計算環境１００はいずれ
の依存性も要件も有するものとして解釈してはならな
い。

【００１６】本発明は、多数のその他の汎用または特殊
目的計算システム環境またはコンフィギュレーションと
共に動作する。公知の計算システム、環境および／また
はコンフィギュレーションで、本発明との使用に相応し
い例は、限定ではなく、パーソナル・コンピュータ、サ
ーバ・コンピュータ、ハンドヘルドまたはラップトップ
・デバイス、マイクロプロセッサ・システム、マイクロ
プロセッサ系システム、セット・トップ・ボックス、プ
ログラマブル消費者電子機器、ネットワークＰＣ、ミニ
コンピュータ、メインフレーム・コンピュータ、電話シ
ステム、上述のシステムまたはデバイスのいずれをも含
む分散計算環境等を含む。

【００１７】本発明の説明は、コンピュータが実行する
プログラム・モジュールのようなコンピュータ実行可能
命令の一般的なコンテキストで行うこととする。一般
に、プログラム・モジュールは、特定のタスクを実行し
たり、あるいは特定の抽象的データ・タイプを使用す
る、ルーチン、プログラム、オブジェクト、コンポーネ
ント、データ構造等を含む。また、本発明は、分散型計
算機環境において、通信ネットワークを通じてリンクし
たリモート処理デバイスによってタスクを実行するとい
う実施も可能である。ある分散型計算機環境において
は、プログラム・モジュールは、メモリ記憶素子を含む
ローカルおよびリモート双方のコンピュータ記憶媒体に
配置することができる。

【００１８】図１を参照すると、本発明を実施するため
の例示のシステムは、コンピュータ１１０の形態とした
汎用計算デバイスを含む。コンピュータ１１０のコンポ
ーネントは、処理ユニット１２０、システム・メモリ１
３０、およびシステム・メモリから処理ユニット１２０
までを含む種々のシステム・コンポーネントを結合する
システム・バス１２１を含むことができるが、これらに
限定される訳ではない。システム・バス１２１は、種々
のバス・アーキテクチャのいずれかを用いたメモリ・バ
スまたはメモリ・コントローラ、周辺バス、およびロー
カル・バスを含む、数種類のバス構造のいずれでもよ
い。限定ではなく一例として、このようなアーキテクチ
ャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイク
ロ・チャネル・アーキテクチャ（ＭＣＡ）バス、改良Ｉ
ＳＡ（ＥＩＳＡ）バス、ビデオ電子規格協会（ＶＥＳ
Ａ）ローカル・バス、およびＭｅｚｚａｎｉｎｅバスと
しても知られている周辺素子相互接続（ＰＣＩ）バスを
含む。

【００１９】コンピュータ１１０は、通例では、種々の
コンピュータ読み取り可能媒体を含む。コンピュータ読
み取り可能媒体は、コンピュータ１１０がアクセス可能
であれば、入手可能な媒体のいずれでも可能であり、揮
発性および不揮発性双方の媒体、リムーバブルおよび非
リムーバブル媒体を含む。一例として、そして限定では
なく、コンピュータ読み取り可能媒体は、コンピュータ
記憶媒体および通信媒体を含むことができる。コンピュ
ータ記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造、プログラム・モジュールまたはその他のデータ
のような情報の格納のためのあらゆる方法または技術に
おいて使用されている揮発性および不揮発性、リムーバ
ブルおよび非リムーバブル双方の媒体を含む。コンピュ
ータ記憶媒体は、限定する訳ではないが、ＲＡＭ、ＲＯ
Ｍ、ＥＥＰＲＯＭ、フラッシュ・メモリまたはその他の
メモリ技術、ＣＤ−ＲＯＭ、ディジタル・バーサタイル
・ディスク（ＤＶＤ）、またはその他の光ディスク・ス
トレージ、磁気カセット、磁気テープ、磁気ディスク・
ストレージ、またはその他の磁気記憶装置、あるいは所
望の情報を格納するために使用可能であり、コンピュー
タ１００によってアクセス可能なその他のいずれの媒体
でも含まれる。通信媒体は、通例では、コンピュータ読
み取り可能命令、データ構造、プログラム・モジュー
ル、またはその他データを、キャリア波またはその他の
トランスポート機構のような変調データ信号におけるそ
の他のデータを具体化し、あらゆる情報配信媒体を含
む。「変調データ信号」という用語は、信号内に情報を
エンコードするように、その１つ以上の特性を設定また
は変更した信号を意味する。一例として、そして限定で
はなく、通信媒体は、有線ネットワークまたは直接有線
接続のような有線媒体、ならびに音響、ＲＦ、赤外線お
よびその他のワイヤレス媒体のようなワイヤレス媒体を
含む。前述のいずれの組み合わせでも、コンピュータ読
み取り可能媒体の範囲内に当然含まれるものとする。

【００２０】システム・メモリ１３０は、リード・オン
リ・メモリ（ＲＯＭ）１３１およびランダム・アクセス
・メモリ（ＲＡＭ）１３２のような揮発性および／また
は不揮発性メモリの形態のコンピュータ記憶媒体を含
む。基本入出力システム１３３（ＢＩＯＳ）は、起動中
のように、コンピュータ１１０内のエレメント間におけ
るデータ転送を補助する基本的なルーチンを含み、通例
ではＲＯＭ１３１内に格納されている。ＲＡＭ１３２
は、通例では、処理ユニット１２０が直ちにアクセス可
能であるデータおよび／またはプログラム・モジュー
ル、または現在処理ユニット１２０によって処理されて
いるデータおよび／またはプログラム・モジュールを収
容する。一例として、そして限定ではなく、図１は、オ
ペレーティング・システム１３４、アプリケーション・
プログラム１３５、その他のプログラム・モジュール１
３６、およびプログラム・データ１３７を示す。

【００２１】また、コンピュータ１１０は、その他のリ
ムーバブル／非リムーバブル揮発性／不揮発性コンピュ
ータ記憶媒体も含むことができる。一例としてのみ、図
１は、非リムーバブル不揮発性磁気媒体からの読み取り
およびこれへの書き込みを行うハード・ディスク・ドラ
イブ１４１、リムーバブル不揮発性磁気ディスク１５２
からの読み取りおよびこれへの書き込みを行う磁気ディ
スク・ドライブ１５１、ならびにＣＤＲＯＭまたはそ
の他の光媒体のようなリムーバブル不揮発性光ディスク
１５６からの読み取りおよびこれへの書き込みを行う光
ディスク・ドライブ１５５を示す。動作環境の一例にお
いて使用可能なその他のリムーバブル／非リムーバブ
ル、揮発性／不揮発性コンピュータ記憶媒体には、限定
する訳ではないが、磁気テープ・カセット、フラッシュ
・メモリ・カード、ディジタル・バーサタイル・ディス
ク、ディジタル・ビデオ・テープ、ソリッド・ステート
ＲＡＭ、ソリッド・ステートＲＯＭ等が含まれる。ハー
ド・ディスク・ドライブ１４１は、通例では、インター
フェース１４０のような非リムーバブル・メモリ・イン
ターフェースを介してシステム・バス１２１に接続さ
れ、磁気ディスク・ドライブ１５１および光ディスク・
ドライブ１５５は、通例では、インターフェース１５０
のようなリムーバブル・メモリ・インターフェースによ
ってシステム・バス１２１に接続する。

【００２２】先に論じ図１に示すドライブおよびそれら
と連動するコンピュータ記憶媒体は、コンピュータ読み
取り可能命令、データ構造、プログラム・モジュール、
およびコンピュータ１１０のその他のデータを格納す
る。図１では、例えば、ハード・ディスク・ドライブ１
４１は、オペレーティング・システム１４４、アプリケ
ーション・プログラム１４５、その他のプログラム・モ
ジュール１４６、およびプログラム・データ１４７を格
納するように示されている。尚、これらのコンポーネン
トは、オペレーティング・システム１３４、アプリケー
ション・プログラム１３５、その他のプログラム・モジ
ュール１３６、およびプログラム・データ１３７と同じ
でも異なっていても可能であることを注記しておく。オ
ペレーティング・システム１４４、アプリケーション・
プログラム１４５、その他のプログラム・モジュール１
４６、およびプログラム・データ１４７は、少なくとも
これらが異なるコピーであることを示すために、ここで
は異なる番号を与えている。

【００２３】ユーザは、キーボード１６２、マイクロフ
ォン１６３、およびマウス、トラックボールまたはタッ
チ・パッドのようなポインティング・デバイス１６１に
よって、コマンドおよび情報をコンピュータ１１０に入
力することができる。他の入力デバイス（図示せず）
は、ジョイスティック、ゲーム・パッド、衛星ディッシ
ュ、スキャナ等を含むことができる。これらおよびその
他の入力デバイスは、多くの場合、ユーザ入力インター
フェース１６０を介して、処理ユニット１２０に接続さ
れている。ユーザ入力インターフェース１６０は、シス
テム・バスに結合されているが、パラレル・ポート、ゲ
ーム・ポートまたはユニバーサル・シリアル・バス（Ｕ
ＳＢ）のようなその他のインターフェースおよびバス構
造によって接続することも可能である。モニタ１９１ま
たはその他の形式の表示装置も、ビデオ・インターフェ
ース１９０のようなインターフェースを介して、システ
ム・バス１２１に接続されている。モニタに加えて、コ
ンピュータは、スピーカ１９７およびプリンタ１９６の
ようなその他の周辺出力デバイスを含むこともでき、こ
れらは出力周辺インターフェース１９０を介して接続す
ることができる。

【００２４】コンピュータ１１０は、リモート・コンピ
ュータ１８０のような１つ以上のリモート・コンピュー
タへの論理接続を用いて、ネットワーク環境において動
作することも可能である。リモート・コンピュータ１８
０は、パーソナル・コンピュータ、ハンド・ヘルド・デ
バイス、サーバ、ルータ、ネットワークＰＣ、ピア・デ
バイス、またはその他の共通ネットワーク・ノードとす
ることができ、通例では、コンピュータ１１０に関して
先に説明したエレメントの多くまたは全てを含む。図１
に示す論理接続は、ローカル・エリア・ネットワーク
（ＬＡＮ）１７１およびワイド・エリア・ネットワーク
（ＷＡＮ）１７３を含むが、他のネットワークも含むこ
とができる。このようなネットワーキング環境は、事務
所、企業規模のコンピュータ・ネットワーク、イントラ
ネットおよびインターネットにおいては、一般的であ
る。

【００２５】ＬＡＮネットワーキング環境で用いる場
合、コンピュータ１１０は、ネットワーク・インターフ
ェースまたはアダプタ１７０を介してＬＡＮ１７１に接
続する。ＷＡＮネットワーキング環境で用いる場合、コ
ンピュータ１１０は、通例では、モデム１７２、または
インターネットのようなＷＡＮ１７３を通じて通信を確
立するその他の手段を含む。モデム１７２は、内蔵でも
外付けでもよく、ユーザ入力インターフェース１６０ま
たはその他の適切な機構を介してシステム・バス１２１
に接続することができる。ネットワーク環境では、コン
ピュータ１１０に関して図示したプログラム・モジュー
ル、またはその一部は、リモート・メモリ記憶装置に格
納することもできる。一例として、そして限定ではな
く、図１は、リモート・アプリケーション・プログラム
１８５がメモリ素子１８１上に常駐するものとして示し
ている。尚、図示のネットワーク接続は一例であり、コ
ンピュータ間で通信リンクを確立する他の手段も使用可
能であることは認められよう。

【００２６】図２は、計算環境の一例であるモバイル・
デバイス２００のブロック図である。モバイル・デバイ
ス２００は、マイクロプロセッサ２０２、メモリ２０
４、入出力（Ｉ／Ｏ）コンポーネント２０６、およびリ
モート・コンピュータまたは別のモバイル・デバイスと
通信するための通信インターフェース２０８を含む。一
実施形態では、前述のコンポーネントを結合し、適切な
バス２１０を通じて互いに通信し合うようにしている。

【００２７】メモリ２０４は、バッテリ・バックアップ
・モジュール（図示せず）を備えたランダム・アクセス
・メモリ（ＲＡＭ）のような、不揮発性電子メモリとし
て実装し、メモリ２０４に格納してある情報は、モバイ
ル・デバイス２００全体への電力を遮断した後でも失わ
れないようにしている。メモリ２０４の一部は、プログ
ラムの実行用にアクセス可能なメモリとして割り当てる
ことが好ましく、一方メモリ２０４の別の一部は、ディ
スク・ドライブ上のストレージをシミュレートするため
というように、ストレージのために用いることが好まし
い。

【００２８】メモリ２０４は、オペレーティング・シス
テム２１２、アプリケーション・プログラム２１４、お
よびオブジェクト・ストア２１６を含む。動作中、オペ
レーティング・システム２１２は、メモリ２０４からプ
ロセッサ２０２によって実行することが好ましい。好適
な一実施形態では、オペレーティング・システムは、Mi
crosoft Corporation（マイクロソフト社）から市販さ
れているWINDOWS（登録商標）CEブランドのオペレーテ
ィング・システムである。オペレーティング・システム
２１２は、モバイル・デバイス用に設計されていること
が好ましく、１組の露出した(exposed)アプリケーショ
ン・プログラミング・インターフェースおよびメソッド
を介してアプリケーション２１４が利用可能なデータベ
ース機能を実装する。オブジェクト・ストア２１６内の
オブジェクトは、少なくとも部分的に、露出したアプリ
ケーション・プログラミング・インターフェースおよび
メソッドに対するコールに応答して、アプリケーション
２１４およびオペレーティング・システム２１２によっ
て維持する。

【００２９】通信インターフェース２０８は、モバイル
・デバイス２００が情報の送信および受信を可能にする
多数のデバイスおよび技術を代表する。これらのデバイ
スは、有線およびワイヤレス・モデム、衛星受信機およ
び放送チューナを含み、それ以外にも多数ある。モバイ
ル・デバイス２００は、コンピュータに直接接続し、こ
れとデータを交換することも可能である。このような場
合、通信インターフェース２０８は、赤外線送受信機、
あるいはシリアルまたはパラレル接続とすることがで
き、これらは全てストリーミング情報を送信することが
できる。

【００３０】入出力コンポーネント２０６は、接触感応
スクリーン、ボタン、ローラ、およびマイクロフォンの
ような種々の入力デバイス、ならびに音声発生器、振動
デバイス、ディスプレイを含む種々の出力デバイスを含
む。ここに列挙したデバイスは一例としてであり、モバ
イル・デバイス２００上に全てが存在する必要はない。
加えて、本発明の範囲内において、別の入出力デバイス
をモバイル・デバイス２００に取り付けたり、あるいは
そこに見出す場合もある。

【００３１】本発明の下では、訓練データおよび検査デ
ータ間におけるノイズの一致度を高める装置および方法
を提供する。図３は、このような照合を行う方法の一実
施形態を示す。

【００３２】図３のステップ３００において、見込み添
加ノイズを含む生訓練データを作成する。この見込み添
加ノイズは、検査データに存在すると予想されるノイズ
に類似している。この予想添加ノイズは、訓練プラット
フォーム、車、または工業環境のようなノイズの多い環
境においてトレーナに発話させることによって、訓練デ
ータ内に入れることができる。他の実施形態では、トレ
ーナは、比較的ノイズの少ない環境において発話し、次
いで「クリーン」な訓練スピーチ信号に添加ノイズを付
加する。クリーン訓練信号に添加するノイズは、先に掲
示した環境のような、選択したノイズ環境から記録した
ノイズ、または予想ノイズと同じ統計的特性を有するノ
イズとすることができる。

【００３３】図３のステップ３０２において、ノイズ含
有訓練データをノイズ低減モジュールに印加する。ノイ
ズ低減モジュールは、１つ以上のノイズ低減技法をノイ
ズ含有訓練データに適用する。ノイズ低減技法は、スペ
クトル減算または環境用ステレオ区分的線形補償（ＳＰ
ＬＩＣＥ）を含むことができるが、これらに限定すると
いうのではない。加えて、１つよりも多いノイズ低減技
法をノイズ含有データに適用することも可能である。

【００３４】信号から全てのノイズを除去できるノイズ
低減技法はないので、ノイズ低減モデルの出力は、「疑
似クリーン」訓練データに過ぎない。本発明のこの実施
形態の下では、この疑似クリーン訓練データを用いて、
パターン・モデルを訓練する。後に、このパターン・モ
デルを用いて、所与の検査信号が表すことができる最尤
パターンを検出する。この訓練を図３のステップ３０４
として示す。

【００３５】本発明の下で訓練するモジュールは、ニュ
ーラル・ネット、ダイナミック・タイム・ワーピング、
セグメント・モジュール、および隠れマルコフ・モデル
を含むことができるが、これらに限定するというのでは
ない。

【００３６】一旦モデルを訓練したなら、ステップ３０
６においてスピーチ認識システムが検査データを受け取
る。次に、ノイズ含有訓練データに適用したのと同じノ
イズ低減技法を検査データに適用し、疑似クリーン検査
データを生成する。図３のステップ３０８において、こ
れらのノイズ低減技法を適用する。

【００３７】訓練データに適用したのと同じノイズ低減
技法を検査データに適用することによって、本発明は、
検査データを、訓練データの疑似クリーン状態に一層良
く一致する疑似クリーン状態にする。

【００３８】ステップ３１０において、訓練したモデル
に対して疑似クリーン検査データを適用し、検査データ
をデコードし、検査データが表す最尤パターンを決定す
る。図４は、スピーチ認識に用いる本発明の一実施形態
に特に関連がある、図１および図２の汎用計算環境にお
いて見られるハードウエア・コンポーネントおよびプロ
グラム・モジュールのブロック図を提示する。図４にお
いて、話者４００からの入力スピーチ信号および添加ノ
イズ４０２を、マイクロフォン４０４によって電気信号
に変換する。マイクロフォン４０４は、アナログ／ディ
ジタル（Ａ／Ｄ）変換器４０６に接続されている。添加
ノイズ４０２は、図４の実施形態ではマイクロフォン４
０４を介して入力するように示されているが、他の実施
形態では、Ａ／Ｄ変換後のディジタル信号としての入力
スピーチ信号に添加ノイズ４０２を付加してもよい。

【００３９】Ａ／Ｄ変換器４０６は、マイクロフォン４
０４からのアナログ信号を一連のディジタル値に変換す
る。いくつかの実施形態では、Ａ／Ｄ変換器４０６は、
サンプル当たり１６ｋＨｚおよび１６ビットでアナログ
信号をサンプルすることにより、毎秒３２キロバイトの
スピーチ・データを作成する。

【００４０】Ａ／Ｄ変換器４０６が作成したディジタル
・データをノイズ低減モジュール４０８に供給する。ノ
イズ低減モジュール４０８は、１つ以上のノイズ低減技
法を用いて、ディジタル信号内にあるノイズの一部を除
去する。このようなノイズ低減技法は、限定する訳では
ないが、スペクトル減算、または環境用ステレオ区分的
線形補償（ＳＰＬＩＣＥ）を含む。

【００４１】ノイズ低減モジュール４０８の出力を特徴
抽出部４００に供給し、ディジタルスピーチ信号から特
徴を抽出する。特徴抽出モジュールの例には、線形予測
符号化（ＬＰＣ）、ＬＰＣ派生ケプストラム(LPC deriv
ed cepstrum)、透視線形予測（ＰＬＰ）、可聴モデル特
徴抽出、およびメル周波数ケプストラム係数（ＭＦＣ
Ｃ：Mel-Frequency Cepstrum Coefficient）特徴抽出用
モジュールを含む。尚、本発明はこれらの特徴抽出モジ
ュールに限定されるという訳ではなく、他のモジュール
も本発明のコンテキストにおいて使用可能であることを
注記しておく。

【００４２】特徴抽出モジュールは、ノイズ低減モジュ
ール４０８からディジタル値ストリームを受け取り、特
徴ベクトル・ストリームを生成する。特徴ベクトルの各
々には、スピーチ信号のフレームが関連付けられてい
る。多くの実施形態では、フレームの中央が１０ミリ秒
だけ分離されている。

【００４３】尚、ノイズ低減モジュール４０８は、図４
の実施形態では特徴抽出部４００の前段に示されている
が、他の実施形態では、ノイズ低減モジュール４０８は
特徴抽出モジュール４００の後段にあることを注記して
おく。

【００４４】抽出モジュールが生成した特徴ベクトル・
ストリームを、デコーダ４１２に供給する。デコーダ４
１２は、特徴ベクトル・ストリーム、語彙４１４、言語
モデル４１６、および音響モデル４１８に基づいて、最
尤ワード・シーケンスを識別する。

【００４５】実施形態の中には、音響モデル４１８が１
組の隠れ状態から成る隠れマルコフ・モデルであるもの
もある。このモデルによって表される各言語単位は、こ
れらの状態の部分集合から成る。例えば、一実施形態で
は、各音素は３つの相互接続状態で構成されている。各
状態は、関連する１組の確率分布を有し、これらの組み
合わせによって、各言語単位シーケンス（単語等）につ
いて、あらゆる任意の入力特徴ベクトル・シーケンスに
対する尤度の効率的な計算が可能となる。また、このモ
デルは、２つの隣接するモデル状態間の推移、および特
定の言語単位に対する状態間において許される推移に対
する確率も含む。最も高い一致確率および推移確率の組
み合わせを入力特徴ベクトルに対して選択することによ
って、モデルは言語単位をスピーチに割り当てることが
できる。例えば、音素が状態０、１および２で構成され
ており、スピーチの最初の３つのフレームが状態０と一
致し、次の２つの状態１と一致し、次の３つが状態２と
一致する場合、モデルは音素をスピーチのこれら８つの
フレームに割り当てる。

【００４６】尚、言語単位のサイズは、本発明の異なる
実施形態では異なっていても可能であることを注記して
おく。例えば、言語単位は、セノンズ(senones)、音
素、ノイズ音、複音、三重音、またはその他の可能性と
することもできる。

【００４７】他の実施形態では、音響モデル４１８は、
ある特徴ベクトル・シーケンスが、特定の存続時間のセ
グメントによって生成される尤度がどの位かを示すセグ
メント・モデルである。このセグメント・モデルは、同
時に多数の特徴ベクトルを用いて個々のセグメントの尤
度に関する判定を行うので、フレーム・ベース・モデル
とは異なる。このために、これはスピーチ信号において
大きな規模の推移のより良いモデルを与える。加えて、
セグメント・モデルは、セグメント毎に多数の存続時間
を注視し、各存続時間毎に別個の確率を判定する。した
がって、存続時間が長いセグメントほど、精度が高いモ
デルを与える。確率的軌道セグメント隠れマルコフ・モ
デルを含む、数種類のセグメント・モデルを本発明と共
に用いることができる。

【００４８】言語モデル４１６は、特定のワード・シー
ケンスが対象の言語において現れる１組の尤度を与え
る。多くの実施形態では、言語モデルは、North Americ
an BUSINESS NEWS (NAB)のようなテキスト・データベー
スを基本とする。これは、CSR-III Text Language Mode
l（University of Penn., 1994）と題する刊行物に、更
に詳細に記載されている。言語モデルは、自由コンテキ
スト文法、またはトライグラム(trigram)のような統計
Ｎ−グラム・モデルとすることができる。一実施形態で
は、言語モデルは、シーケンスの３単語セグメントの総
合確率に基づいて、単語シーケンスの確率を決定するコ
ンパクトなトライグラム・モデルである。

【００４９】音響モデルに基づいて、言語モデル、およ
び語彙、デコーダ４１２は、可能な全ての単語シーケン
スから最尤単語シーケンスを特定する。デコーディング
に用いられる特定の方法は、本発明にとっては重要でな
く、いくつかの公知のデコーディング方法のいずれを用
いてもよい。

【００５０】最も確率が高い仮説単語シーケンスを信頼
性測定モジュール４２０に供給する。信頼性測定モジュ
ール４２０は、どの単語が、スピーチ認識部によって不
適当に認識された可能性が最も高いかを、部分的に二次
フレーム・ベース音響モデルに基づいて識別する。信頼
性尺度モジュール４２０は、次に、仮説単語シーケンス
を、どの単語が不適当に識別された可能性があるかを示
す識別子と共に、出力モジュール４２２に供給する。当
業者であれば、信頼性測定モジュール４２０は本発明の
実施には必要でないことを認めよう。

【００５１】前述の音響モデル４１８は、訓練テキスト
４２６および当該訓練テキスト４２６と関連する１つ以
上の訓練スピーチ信号から特徴抽出部４１０によって抽
出された特徴に基づいて、トレーナ４２４による訓練を
受ける。特定のモデルに適した訓練方法であれば、その
いずれでも、本発明の範囲内で使用可能である。

【００５２】先に論じたように、訓練スピーチ信号は添
加ノイズを含む。添加ノイズは、ノイズ低減モデル４０
８によって部分的に除去され、疑似クリーン・データを
生成する。本発明の下で使用可能なノイズ低減技法の１
つは、スペクトル減算である。スペクトル減算では、ス
ピーチ信号におけるノイズをサンプルし、サンプルを周
波数ドメインに変換する。次に、ノイズの周波数内容を
スピーチ信号の周波数表現から減算し、疑似クリーン・
スピーチ信号を生成する。

【００５３】図５に示すように、実際のスピーチにおけ
るポーズの間にスピーチ信号をサンプルすることによっ
て、スピーチ・データからノイズをサンプルすることが
できる。図５では、ノイズ含有スピーチ信号の一例が、
横軸５００に沿った時間、および縦軸５０２に沿って示
すスピーチ信号の振幅によって示されている。図５で
は、スピーチ信号は、実際のスピーチ領域５０４、およ
び２つのポーズ５０６、５０８を含む。スピーチ信号の
実際のスピーチ部分５０４は、ポーズ５０６、５０８よ
りもエネルギ含有量が多い。ポーズ５０６、５０８の間
にスピーチ信号をサンプルすることによって、信号のス
ピーチ内容から、背景ノイズを分離することができる。

【００５４】図６は、図５のポーズ５０６のような、ス
ピーチ内のポーズ中において取り込んだノイズ・サンプ
ルのスペクトル内容の一例を提示する。図６では、周波
数を横軸６００に沿って示し、各周波数成分の振幅を縦
軸６０２に沿って示す。図６のノイズ・スペクトル６０
４では、スペクトル内容は、中間周波数域においてより
高いマグニチュードを有し、低周波数域および高周波数
域においてより低いマグニチュードを有する。スペクト
ル減算の間、この周波数標識(frequency signature)を
用いて、スピーチ信号の周波数毎にノイズ補正値を発生
する。次に、スピーチ信号の対応する周波数値から、そ
れぞれの補正値を減算し、スピーチ信号におけるノイズ
を低減する。

【００５５】図７は、図４のノイズ低減モジュール４０
８および特徴抽出部４１０の一実施形態のブロック図を
示す。図７の実施形態では、ノイズ低減モジュール４０
８は、スペクトル減算を実行し、特徴抽出部４１０はそ
の抽出特徴として、ケプストラム係数(cepstral coeffi
cient)を生成する。図７の実施形態では、ノイズ低減モ
ジュール４０８および特徴抽出部４１０を共に統合し、
単一の動作モジュールを形成する。これら２つのモジュ
ールの機能は、図７では統合しているが、図７の実施形
態を製作するために用いる個々のコンポーネントは、本
発明のハードウエア実施態様における同じチップ上、ま
たは本発明のソフトウエア実施態様における同一ソフト
ウエア・モジュール上にある必要はないことを当業者は
認めよう。

【００５６】図７では、アナログ／ディジタル変換器４
０６からのディジタル値を、高速フーリエ変換（ＦＦ
Ｔ）モジュール７００に供給する。ＦＦＴ７００は、時
間ドメインのディジタル値を、スピーチ信号のフレーム
の周波数内容を記述する一連の周波数ドメイン値に変換
する。

【００５７】ＦＦＴ７００が生成した周波数ドメイン値
は、ノイズ識別モジュール７０２に供給される。ノイズ
識別モジュール７０２は、各フレームの周波数ドメイン
値のエネルギ内容を注視し、スピーチ信号の現部分が、
スピーチにおける実際のスピーチまたはポーズのどちら
を表すか識別する。スピーチにおけるポーズを識別する
技法は、当技術分野では周知である。

【００５８】また、ＦＦＴ７０が生成した周波数ドメイ
ン値は、重み付けモジュール７０４にも供給される。重
み付けモジュール７０４は、ノイズ識別モジュール７０
２から制御値を受け取り、過去のノイズ・サンプル７０
６を収容するメモリにアクセスすることができる。ノイ
ズ識別モジュール７０２が、スピーチの現区分がスピー
チ内のポーズに対応すると判断した場合、重み付けモジ
ュール７０４を活性化し、新たなノイズ低減値集合を発
生する。

【００５９】一実施形態の下では、重み付けモジュール
７０４は、ノイズ低減値を生成する際、スピーチ信号か
らの最後の「Ｎ」個のノイズ・フレームを組み合わせ
る。これら過去の「Ｎ」個のフレームは、メモリ７０６
から再現する。一実施形態の下では、重み付けモジュー
ル７０４は、過去の「Ｎ」個のノイズ・フレームを組み
合わせる際に、メモリ７０６内にある古い方のノイズ・
フレームに対して、新しいノイズ・フレームほど大きな
重み付けを行う。

【００６０】重み付けモジュール７０４が生成した補正
値を、メモリ７０８に格納する。メモリ７０８には、ス
ペクトル減算部７１０がアクセスする。また、スペクト
ル減算部７１０は、ＦＦＴ７００からの周波数ドメイン
値も受け取る。メモリ７０８に格納してある補正値に関
連する周波数毎に、スペクトル減算部７１０は、ＦＦＴ
７００が供給する周波数ドメイン値から、メモリ７０８
内の対応する値を減算する。この結果、スペクトル減算
部７１０の出力には、疑似クリーン周波数ドメイン値が
得られる。

【００６１】スペクトル減算部７１０が出力した疑似ク
リーン周波数値を、対数モジュール７１２に供給する。
対数モジュール７１２は、各値の対数を取る。次に、対
数値を逆高速フーリエ変換７１４に供給し、ログ値の逆
高速フーリエ変換を行い、スピーチ信号のフレーム毎
に、ケプストラル係数集合を生成する。これらのケプス
トラル係数集合は、特徴抽出部の出力を表す。

【００６２】他の実施形態では、本発明は、ノイズ低減
技法として、環境用ステレオ区分的線形補償（ＳＰＬＩ
ＣＥ）を用いる。ＳＰＬＩＣＥノイズ低減技法について
は、METHOD OF NOISE REDUCTION USING CORRECTION VEC
TORS（補正ベクトルを用いたノイズ低減方法）と題し、
本願と同一日に出願され、弁理士整理番号Ｍ６１．１２
−０３２５号を有する米国特許出願において詳細に論じ
られている。その内容は、この言及により本願にも含ま
れるものとする。

【００６３】ＳＰＬＩＣＥ技法の下では、ノイズ含有パ
ターン信号からのノイズ含有特徴ベクトルが表し得る、
最尤クリーン特徴ベクトルを推定することによって、ノ
イズを低減する。これを行うには、補正ベクトルを選択
し、ノイズ含有特徴ベクトルに付加することによって、
クリーン特徴ベクトルを形成する。補正ベクトルを選択
するには、本方法は、混合成分集合の内どれに、ノイズ
含有特徴ベクトルが最も良く一致するかを判定する。次
に、混合成分に関連する補正ベクトルをノイズ含有特徴
ベクトルに付加する。

【００６４】各補正ベクトルを形成するには、部分的
に、クリーン・チャネル特徴ベクトル・シーケンスから
ノイズ含有チャネル特徴ベクトル・シーケンスを減算す
る。ここで、ノイズ含有チャネルおよびクリーン・チャ
ネルは同じスピーチ信号を含むが、ノイズ含有チャネル
は添加ノイズを有するとする。通例では、補正ベクトル
を形成するのは、訓練データまたは検査データのいずれ
かをノイズ低減モジュールに供給する前である。

【００６５】本発明の一実施形態では、多数の訓練デー
タ集合を用いて、訓練モデル内に多数のタイプのノイズ
環境を組み込む。したがって、一実施形態の下では、訓
練データの一部を訓練プラットフォームにおいて収集
し、一方別のデータを車内で収集し、更に別のデータを
航空機内で収集する。図８は、本発明の下において多数
の訓練データ集合を用いてモデルを訓練する一方法のフ
ロー図を示す。

【００６６】図８のステップ８００において、例えば、
選択したノイズ環境においてトレーナに発話させること
によって、添加ノイズを有する訓練データの一集合を作
成する。ステップ８０２において、訓練データ集合に、
１つ以上のノイズ低減技法を適用する。ステップ８０２
において適用するノイズ低減技法は、ノイズ環境の各タ
イプ毎に同一とすることができ、あるいはノイズ低減技
法を適用している特定のノイズ環境に合わせて特別に作
成することも可能である。

【００６７】ステップ８０４において、本方法は、収集
すべき別の訓練データ集合があるか否か判定を行う。別
の集合がある場合、プロセスはステップ８００に戻る。
本発明の一実施形態の下では、各訓練データ集合には、
異なるタイプのノイズが関連付けられている。したがっ
て、一方の集合は空調ノイズを含み、別の集合は背景ス
ピーチ・ノイズを含むこともあり得る。

【００６８】他にデータ集合がない場合、プロセスはス
テップ８０６に進み、ステップ８０２のノイズ低減技法
から得られた疑似クリーン訓練データ集合全てを用い
て、音響モデルを訓練する。

【００６９】異なるタイプのノイズに各々関連付けられ
た多数の訓練データ集合に対してノイズ低減技法を用い
たために、本発明の実施形態が生成するモデルは一層際
立って定義されている。これは、図９ないし図１２に見
ることができる。

【００７０】図９は、スピーチ単位に対する３つの確率
分布を示す。図９では、スピーチ信号からの特徴ベクト
ルを横軸９００に沿って示し、スピーチ単位の確率を縦
軸９０２に沿って示す。図９の確率分布９０４、９０
６、９０８は、各々、異なる訓練データ集合と関連付け
られている。したがって、確率分布の各々は、異なるタ
イプの添加ノイズに関連付けられている。図９におい
て、訓練データ集合は、ノイズ低減モジュールを通した
後である。

【００７１】図９の確率分布を組み合わせてスピーチ単
位に対する単一モデルを形成すると、図１０の分布のよ
うな確率分布が得られる。図９におけると同様、特徴ベ
クトルの値を横軸１００２に沿って示し、スピーチ単位
の確率を縦軸１００４に沿って示す。

【００７２】確率分布９０４、９０６、９０８は横軸に
沿って広がっているので、組み合わせて得られる確率分
布は平坦となる。このような分布では、モデルが広範に
定義されるので、適正なスピーチ単位を選択する際の確
信度は低下する。何故なら、所与のスピーチ信号は、多
数のスピーチ単位に対して同様の確率を生成するからで
ある。

【００７３】図１１は、多数の訓練データ集合にノイズ
低減を適用する効果を示す。図１１では、ノイズ低減後
の特徴ベクトル値を横軸１１００に沿って示し、スピー
チ単位の確率を縦軸１１０２に沿って示す。図１１で
は、ノイズ低減技法によって、図９の３つの確率分布を
互いに近づけてある。その結果、分布１１０４、１１０
６、１１０８がそれぞれ得られる。

【００７４】図１１の個々の確率を互いに近づけたの
で、図１２に示す、組み合わせ後の分布１２００は一層
際立って定義されることになる。確率分布においてこの
ように際立った定義を有すると、入力スピーチ信号が与
えられた場合にスピーチ単位を選択する判断プロセスに
おける確信度が高くなる。分布は水平軸１２０２の特徴
ベクトルに沿った特定の特徴ベクトル付近で急激に立ち
上がり、縦軸１２０６に沿ってより高い確率を与えると
いう事実によって、分布１２００に定義の際立ちが示さ
れている。

【００７５】異なる訓練データ集合に対して異なるノイ
ズ低減技法を用いる実施形態では、検査データ内のノイ
ズをサンプルし、どのノイズ低減技法を検査データに適
用するか決定する。図１３は、本発明のこのような一実
施形態のノイズ低減モジュール１３００のブロック図を
示す。

【００７６】ノイズ低減モジュール１３００では、例え
ば、図５に関して先に説明した技法を用いることによっ
て、入力検査スピーチ信号内のノイズをノイズ・サンプ
ラ１３０１でサンプルする。ノイズ・サンプルをノイズ
比較器１３０２に供給し、検査信号内のノイズのスペク
トル内容を、メモリ１３０４に格納してある訓練ノイズ
のサンプルと比較する。尚、訓練データ集合毎に、多数
のノイズ・サンプルを格納できることを注記しておく。
格納するサンプル数を選択する際には、メモリの使用
と、ノイズ低減選択プロセスに望ましい精度との間で比
較検討する。

【００７７】検査スピーチ信号におけるノイズに対して
最良の一致が見出されたなら、ノイズ比較器１３０２
は、メモリ１３０４から、一致した信号に対する集合識
別子を検索する。

【００７８】集合識別子をノイズ低減セレクタ１３０３
に供給し、識別した訓練データ集合に適用したノイズ低
減技法の名称を検索する。これを行うために、ノイズ低
減セレクタ１３０３は、訓練集合／ノイズ低減データベ
ース１３０５にアクセスする。データベース１３０５
は、各訓練データ集合に適用したノイズ低減技法のリス
トを収容している。

【００７９】現サンプルに対する適切なノイズ低減技法
を特定した後、ノイズ低減セレクタ１３０３は、特定し
た集合即ちクラスタに関連するノイズ低減モジュール
に、検査データを導出する。図１３において、これは、
検査データをノイズ低減モジュール１３０６、１３０
８、または１３１０の１つに導出することから成る。
尚、図１３ではノイズ低減モジュール１３０６、１３０
８、１３１０を並列に示すが、他の実施形態では、検査
データを一連のノイズ低減モジュールに通す。選択した
ノイズ低減モジュールの出力は、「疑似クリーン」検査
データとなる。

【００８０】他の実施形態では、異なる訓練データ集
合、異なるノイズ低減技法、または双方の組み合わせを
用いて、多数の音響モジュールを訓練する。したがっ
て、異なる疑似クリーン訓練データ集合を発生し、次い
で、先に論じたように、異なる訓練データ集合を単一の
モデルに結合する代わりに、そのまま用いて異なるそれ
ぞれのモデルを形成する。このような実施形態の下で
は、それぞれの疑似クリーン訓練データを形成するため
に用いた各ノイズ低減技法を、検査データにも適用す
る。これによって、それぞれのモデル毎に１つの集合
で、複数の疑似クリーン検査データ集合を作成する。次
いで、疑似クリーン検査データの各集合を、それ自体の
各モデルに適用し、モデル／検査データ対に対する確率
を求める。

【００８１】次に、デコーダは全ての確率を調べ、最も
高い確率を与えるモデル／検査データ対を選択する。こ
の選択は、スピーチ信号全体に対する確率に基づいて行
い、スピーチ信号全域に１つのモデルおよび各１組のノ
イズ低減技法を適用することができる。あるいは、スピ
ーチのセグメントに対する確率に基づいて選択を行い、
異なるセグメントが異なるモデルおよびノイズ低減技法
を用いるようにすることも可能である。例えば、第１モ
デル／検査データ対を用いて第１音素をデコードし、一
方第２モデル／検査データ対を用いて隣接する音素をデ
コードする。このような技法を用いることによって、デ
コーダは最良のノイズ低減技法およびモデルを本来的に
選択し、各検査データ・セグメントに適用することが可
能となる。

【００８２】更に別の実施形態では、異なるノイズ低減
技法を用いて、異なる疑似クリーン訓練データ集合を形
成するが、構築するモデルは１つのみとする。次いで、
異なるノイズ低減技法を検査データに適用し、多数の疑
似クリーン検査データ集合を形成する。異なる疑似クリ
ーン検査データ集合の各々をモデルに対して適用し、デ
コーダは、最も高い確率を発生した疑似クリーン検査デ
ータを選択する。この選択は、スピーチ信号全体に対す
る確率に基づいて行うことができ、あるいはスピーチ信
号のセグメントに対する確率に基づいて行うこともでき
る。

【００８３】以上、特定的な実施形態を参照しながら本
発明の説明を行ったが、本発明の精神および範囲から逸
脱することなく、形態および詳細において変更が可能で
あることを当業者は認めよう。

【図面の簡単な説明】

【図１】図１は、本発明を実施可能な一計算環境のブロ
ック図である。

【図２】図２は、本発明を実施可能な代わりの計算環境
のブロック図である。

【図３】図３は、本発明の下におけるパターン認識方法
の一実施形態のフロー図である。

【図４】図４は、本発明の一実施形態の下におけるパタ
ーン認識システムのブロック図である。

【図５】図５は、時間ドメインにおけるスピーチ信号の
グラフである。

【図６】図６は、スピーチ信号におけるノイズの周波数
スペクトルである。

【図７】図７は、本発明の一実施形態において用いるノ
イズ低減技法のブロック図である。

【図８】図８は、本発明の一実施形態の下において、異
なるタイプのノイズを含む訓練データ集合を訓練するた
めのフロー図である。

【図９】図９は、異なる訓練集合に対するモデル確率分
布のグラフである。

【図１０】図１０は、図９の確率に対する結合モデル確
率のグラフである。

【図１１】図１１は、本発明の一実施形態のノイズ低減
技法適用後における、図９のモデル確率分布のグラフで
ある。

【図１２】図１２は、図１１の確率に対する総合モデル
確率のグラフである。

【図１３】図１３は、複数の訓練データ集合を用いる本
発明の一実施形態の下におけるノイズ低減モデルのブロ
ック図である。

【符号の説明】

１００計算環境１１０コンピュータ１２０処理ユニット（ＣＰＵ）１２１システム・バス１３０システム・メモリ１３１リード・オンリ・メモリ（ＲＯＭ）１３２ランダム・アクセス・メモリ（ＲＡＭ）１３３基本入出力システム１３４オペレーティング・システム１３５アプリケーション・プログラム１３６プログラム・モジュール１３７プログラム・データ１４０インターフェース１４１ハード・ディスク・ドライブ１４４オペレーティング・システム１４５アプリケーション・プログラム１４６プログラム・モジュール１４７プログラム・データ１５１磁気ディスク・ドライブ１５２リムーバブル不揮発性磁気ディスク１５５光ディスク・ドライブ１５６リムーバブル不揮発性光ディスク１６０ユーザ入力インターフェース１６１ポインティング・デバイス１６２キーボード１６３マイクロフォン１７１ローカル・エリア・ネットワーク（ＬＡＮ）１７２モデム１７３ワイド・エリア・ネットワーク（ＷＡＮ）１８０リモート・コンピュータ１８１メモリ素子１８５リモート・アプリケーション・プログラム１９０ビデオ・インターフェース１９１モニタ１９６プリンタ１９７スピーカ２００モバイル・デバイス２０２マイクロプロセッサ２０４メモリ２０６入出力（Ｉ／Ｏ）コンポーネント２０８通信インターフェース２１０バス２１２オペレーティング・システム２１４アプリケーション・プログラム２１６オブジェクト・ストア４００話者４０２添加ノイズ４０４マイクロフォン４０６アナログ／ディジタル（Ａ／Ｄ）変換器４０８ノイズ低減モジュール４１０特徴抽出部４１２デコーダ４１４語彙４１６言語モデル４１８音響モデル４２０信頼性測定モジュール４２２出力モジュール４２４トレーナ４２６訓練テキスト５０４スピーチ領域５０６、５０８ポーズ６０４ノイズ・スペクトル７００高速フーリエ変換（ＦＦＴ）モジュール７０２ノイズ識別モジュール７０４重み付けモジュール７０６、７０８メモリ７１０スペクトル減算部７１２対数モジュール７１４逆高速フーリエ変換９０４、９０６、９０８確率分布１１０４、１１０６、１１０８確率分布１２００分布１３００ノイズ低減モジュール１３０１ノイズ・サンプラ１３０２ノイズ比較器１３０３ノイズ低減セレクタ１３０４メモリ１３０５データベース１３０６、１３０８、１３１０ノイズ低減モジュー
ル

───────────────────────────────────────────────────── フロントページの続き (72)発明者スードン・ファンアメリカ合衆国ワシントン州98072，ウッディンヴィル，ノースイースト・ワンハンドレッドアンドトゥエンティファースト・ストリート 20020 (72)発明者マイケル・ディー・プランペアメリカ合衆国ワシントン州98115，シアトル，フィフティス・アベニュー・ノースイースト 7725 Ｆターム(参考） 5D015 EE05 GG00

Claims

【特許請求の範囲】

【請求項１】パターン認識モデルの発生方法であっ
て、添加ノイズを訓練信号に導入するステップであって、前
記添加ノイズが、パターン認識中に検査信号に存在する
と見込まれるノイズと同様である、ステップと、少なくとも１つのノイズ低減技法を前記訓練信号に適用
し、疑似クリーン訓練データを生成するステップと、前記疑似クリーン訓練データに基づいて、前記パターン
認識モデルを構築するステップと、から成る方法。
【請求項２】請求項１記載の方法において、少なくと
も１つのノイズ低減技法を適用するステップは、複数の
ノイズ低減技法を適用するステップから成る、方法。
【請求項３】請求項１記載の方法において、添加ノイ
ズを前記訓練信号に導入するステップは、異なるタイプ
のノイズを導入し、異なるノイズ含有訓練データを発生
するステップを含み、各ノイズ含有訓練データ集合を異
なるタイプのノイズと関連付ける、方法。
【請求項４】請求項３記載の方法において、少なくと
も１つのノイズ低減技法を適用するステップは、同じノ
イズ低減技法を前記ノイズ訓練データ集合の全てに適用
するステップを含む、方法。
【請求項５】請求項３記載の方法において、少なくと
も１つのノイズ低減技法を適用するステップは、他のノ
イズ訓練データのいずれにも適用されていない少なくと
も１つのノイズ低減技法を、ノイズ訓練データ集合の１
つに適用するステップを含む、方法。
【請求項６】請求項５記載の方法であって、更に、前
記発生したパターン認識モデルを用いてパターンを認識
する方法を備え、該用いる方法が、検査信号を受け取るステップと、前記検査信号内のノイズをサンプルするステップと、前記検査信からのサンプルしたノイズを、前記ノイズ含
有訓練データ集合からサンプルしたノイズと比較するス
テップと、前記検査信号からサンプルしたノイズに最も密接に一致
するノイズを有するノイズ含有データ集合を識別するス
テップと、前記識別したノイズ含有訓練データに適用した前記ノイ
ズ低減技法を、前記検査信号に適用し、疑似クリーン検
査データを生成するステップと、前記疑似クリーン検査データをパターン認識モデルに適
用し、前記検査信号内におけるパターンを識別するステ
ップと、から成る、方法。
【請求項７】請求項５記載の方法であって、更に、前
記発生したパターン認識モデルを用いてパターンを認識
する方法を備え、該用いる方法が、検査信号を受け取るステップと、少なくとも２つの異なるノイズ低減技法を前記検査信号
に適用することによって、少なくとも２つの疑似クリー
ン検査データ集合を作成するステップと、各疑似クリーン検査データ集合をパターン認識モデルに
適用し、前記検査信号内におけるパターンを識別するス
テップと、から成る、方法。
【請求項８】請求項７記載の方法において、少なくと
も１つのノイズ低減技法を前記訓練信号に適用するステ
ップは、少なくとも２つの疑似クリーン訓練データ集合
を生成し、前記パターン認識モデルを構築するステップ
は、疑似クリーン訓練データ集合毎に、別個のパターン
認識モデルを構築するステップを含む、方法。
【請求項９】請求項８記載の方法において、前記発生
したパターン認識モデルを用いる前記方法は、更に、各疑似クリーン検査データ集合を別個のパターン認識モ
デルに適用し、別個の確率を識別するステップと、少なくとも２つの別個の確率から１つの確率を選択し、
前記検査信号内におけるパターンを識別するステップ
と、を含む、方法。
【請求項１０】請求項１記載の方法であって、更に、
前記発生したパターン認識モデルを用いてパターンを認
識する方法を備え、該用いる方法が、検査信号を受け取るステップと、前記少なくとも１つのノイズ低減技法を前記検査信号に
適用し、疑似クリーン検査データを生成するステップ
と、前記疑似クリーン検査データを前記パターン認識モデル
に適用し、前記検査信号内におけるパターンを識別する
ステップと、を含む方法。
【請求項１１】パターン認識モデルであって、パターンを認識しようとする検査信号に存在すると予想
されるノイズのタイプを識別するステップと、訓練データを発生し、該訓練データが前記識別したタイ
プのノイズを含むようにするステップと、前記訓練信号内のノイズを低減し、訓練データを生成す
るステップと、前記訓練データに基づいて、前記モデル・パラメータを
生成するステップと、から成るプロセスによって訓練し
たモデルと調和するモデル・パラメータを有する、パタ
ーン認識モデル。
【請求項１２】請求項１１記載のパターン認識モデル
において、訓練信号を発生するステップは、前記検査信
号を発生すると想定されるノイズ環境と同様のノイズ環
境において前記訓練信号を記録するステップを含む、パ
ターン認識モデル。
【請求項１３】請求項１１記載のパターン認識モデル
において、訓練信号を発生するステップは、クリーンな
環境においてクリーン訓練信号を記録し、前記識別した
タイプのノイズを、前記クリーン訓練信号に付加するス
テップを含む、パターン認識モデル。
【請求項１４】請求項１１記載のパターン認識モデル
において、ノイズのタイプを識別するステップは、多数
のタイプのノイズを識別するステップを含み、訓練信号
を発生するステップは、多数の訓練信号集合を発生する
ステップを含み、各集合が異なるタイプの識別ノイズを
含む、パターン認識モデル。
【請求項１５】請求項１４記載のパターン認識モデル
において、前記ノイズを低減するステップは、同じノイ
ズ低減技法を各訓練信号集合に適用するステップを含
む、パターン認識モデル。
【請求項１６】請求項１４記載のパターン認識モデル
において、前記ノイズを低減するステップは、異なるそ
れぞれのノイズ低減技法を異なる訓練信号集合に適用す
るステップを含む、パターン認識モデル。
【請求項１７】検査信号内においてパターンを認識す
るパターン認識システムであって、パターン認識モデルであって、訓練信号を発生し、該訓練信号が、前記検査信号内にお
いて存在することが見込まれるタイプのノイズを含むよ
うにするステップと、ノイズ低減技法を用いて前記訓練信号内のノイズを低減
し、クリーン訓練値を生成するステップと、前記クリーン訓練値を用いて前記モデル・パラメータを
形成するステップと、から成るプロセスによって形成し
たモデル・パラメータを有する、パターン認識モデル
と、前記検査信号を受け取り、前記ノイズ低減技法を前記検
査信号に適用し、クリーン検査値を生成することが可能
なノイズ低減モジュールと、前記クリーン・データ値の特徴を受け取り、前記特徴認
識モデルにアクセスし、前記クリーン検査値に基づい
て、前記検査信号内にあるパターンを識別することが可
能なデコーダと、を備えるパターン認識システム。
【請求項１８】請求項１７記載のパターン認識システ
ムにおいて、訓練信号を発生するステップは、訓練信号
集合を発生するステップを含み、各訓練信号集合が異な
るタイプのノイズを含む、パターン認識システム。
【請求項１９】請求項１８記載のパターン認識システ
ムにおいて、前記訓練信号においてノイズを低減するス
テップは、同じノイズ低減技法を各訓練信号集合に適用
することによって、前記訓練信号集合の各々におけるノ
イズを低減するステップを含む、パターン認識システ
ム。
【請求項２０】請求項１８記載のパターン認識システ
ムにおいて、前記訓練信号においてノイズを低減するス
テップは、異なるそれぞれのノイズ低減技法を各訓練信
号集合に適用することによって、前記訓練信号集合の各
々におけるノイズを低減するステップを含む、パターン
認識システム。
【請求項２１】請求項２０記載のパターン認識システ
ムにおいて、前記ノイズ低減モジュールは、更に、前記検査信号内におけるノイズをサンプルするノイズ・
サンプラと、前記検査信号からサンプルしたノイズを、前記訓練信号
集合内におけるノイズと比較し、前記検査信号内におい
てサンプルしたノイズと最も良く一致するノイズを含む
訓練信号集合を識別するノイズ比較器と、前記識別した訓練信号集合に適用したノイズ低減技法を
選択し、前記検査信号に適用するノイズ低減セレクタ
と、を備える、パターン認識システム。
【請求項２２】請求項１７記載のパターン認識システ
ムであって、更に、第２パターン認識モデルであって、第２訓練信号を生成し、該第２訓練信号が、前記検査信
号内に存在すると見込まれる第２タイプのノイズを含む
ようにするステップと、ノイズ低減技法を用いて、前記第２訓練信号内のノイズ
を低減し、クリーン訓練値を生成するステップと、前記クリーン訓練値を用いて前記第２モデル・パラメー
タを形成するステップと、から成るプロセスによって形成した第２モデル・パラメ
ータを有する、第２パターン認識モデルを備える、パタ
ーン認識システム。
【請求項２３】請求項２２記載のパターン認識システ
ムにおいて、前記デコーダは、前記クリーン検査値の特
徴を前記パターン認識モデルおよび前記第２パターン認
識モデルに適用することによって、前記検査信号内のパ
ターンを識別する、パターン認識システム。
【請求項２４】請求項２３記載のパターン認識システ
ムにおいて、前記第２訓練信号内のノイズを低減するス
テップは、前記訓練信号内のノイズを低減するために用
いた同じノイズ低減技法を用いるステップを含む、パタ
ーン認識システム。
【請求項２５】請求項２３記載のパターン認識システ
ムにおいて、前記第２訓練信号内のノイズを低減するス
テップは、前記訓練信号内のノイズを低減するために用
いたノイズ低減技法とは異なる技法を用いるステップを
含む、パターン認識システム。
【請求項２６】請求項２３記載のパターン認識システ
ムにおいて、前記デコーダは、前記パターン認識モデル
を用いて識別したパターンと、前記第２パターン認識モ
デルを用いて識別したパターンとの間で選択を行うこと
によって、パターンを識別する、パターン認識システ
ム。
【請求項２７】請求項２６記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した単語列と、前記第２パターン認
識モデルを用いて識別した単語列との間で選択を行う、
パターン認識システム。
【請求項２８】請求項２６記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した単語と、前記第２パターン認識
モデルを用いて識別した単語との間で選択を行う、パタ
ーン認識システム。
【請求項２９】請求項２６記載のパターン認識システ
ムにおいて、前記パターン認識システムはスピーチ認識
システムであって、前記デコーダは、前記パターン認識
モデルを用いて識別した副単語音響単位と、前記第２パ
ターン認識モデルを用いて識別した副単語音響単位との
間で選択を行う、パターン認識システム。