JP4267081B2

JP4267081B2 - 分散システムにおけるパターン認識登録

Info

Publication number: JP4267081B2
Application number: JP52355699A
Authority: JP
Inventors: ステファンベスリング; エリックテレン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-10-20
Filing date: 1998-10-08
Publication date: 2009-05-27
Anticipated expiration: 2018-10-08
Also published as: DE69822296T2; JP2001506382A; DE69822296D1; EP0980574A2; US6363348B1; WO1999021172A2; EP0980574B1; WO1999021172A3

Description

本発明は、ユーザ局に格納された入力パターンを、サーバ局の認識ユニットを使用して認識する方法に関係し、前記サーバ局およびユーザ局をネットワークを介して接続し、前記認識ユニットを、少なくとも１つの認識モデルのモデル集合を使用して前記入力パターンを認識するように動作させ、前記方法は、
前記ユーザ局のユーザに関するモデル改善データを前記ユーザ局から前記認識ユニットに伝送することと、前記ユーザ局のユーザをユーザ識別子に関係付けることとから成る初期認識登録ステップを行うことと、
前記ユーザ局およびサーバ局間の認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、前記ユーザによって前記ユーザ局から前記サーバ局に伝送することと、前記認識ユニットを使用し、前記入力パターンを、少なくとも１つの認識モデルを前記ユーザに関係するモデル改善データを反映するモデル集合に入れることによって認識することとを具える。
本発明は、入力パターンを格納する少なくとも１つのユーザ局と、認識ユニットを具えるサーバ局とを具えるパターン認識システムにさらに関係し、前記認識ユニットは、前記入力パターンを、少なくとも１つの認識モデルのモデル集合を使用して認識するように動作し、前記サーバ局を前記ユーザ局にネットワークを介して接続し、
前記ユーザ局が、前記ユーザ局のユーザに関係するモデル改善データと、前記ユーザを前記サーバ局に関係付けるユーザ識別子とを前記サーバ局に初期に伝送する手段と、前記ユーザ局およびサーバ局間の各認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを前記サーバ局に伝送する手段とを具え、
前記サーバ局が、前記ユーザ局およびサーバ局間の各認識セッション中に、少なくとも１つの認識モデルを、前記入力パターンを発生したユーザに関係する前記モデル改善データを反映する前記モデル集合に入れる手段と、前記音声認識ユニットを使用し、前記ユーザ局から受けた入力パターンを認識する手段とを具える。
大規模語彙連続音声認識システムまたは手書き認識システムのようなパターン認識システムは、代表的に、認識モデルの集合を使用し、入力パターンを認識する。例えば、音響モデルおよび語彙を使用し、単語を認識することができ、言語モデルを使用し、基本的な認識結果を改善することができる。図１は、大規模語彙連続音声認識システム１００の基本的構造を示す（エル．ラビナー（L.Rabiner）およびビー−エイチ．ユアング（B-H.Juang）による「音声認識の基礎（Fundamentals of speech recognition）」プレンティスホール（Prentice Hall）１９９３年、４３４〜４５４ページ参照）。システム１００は、スペクトル分析サブシステム１１０およびユニットマッチングサブシステムを具える。スペクトル分析サブシステム１１０において、音声入力信号（ＳＩＳ）を、スペクトル的および／または時間的に分析し、特徴の表現ベクトル（観察ベクトルＯＶ）を計算する。代表的に、前記音声信号をディジタル化（例えば、６．６７ｋＨｚのレートにおいて標本化）し、例えばプレエンファシスを用いることによって前処理する。連続的な標本を、例えば音声信号の３２ミリ秒に対応するフレームにグループ化する。連続するグループは、例えば１６ミリ秒、部分的に重なる。しばしば、線形予測符号化（ＬＰＣ）スペクトル分析法を使用し、各フレームに関して、特徴の表現ベクトル（観測ベクトル）を計算する。前記特徴ベクトルは、例えば、２４、３２または６３の成分を有してもよい。大規模語彙連続音声認識に対する標準的な方法は、音声発生の確率モデルを推測することであり、これによって、指定された単語列Ｗ＝ｗ₁ｗ₂ｗ₃．．．ｗ_qは、音響観測ベクトルの列Ｙ＝ｙ₁ｙ₂ｙ₃．．．ｙ_Tを発生する。認識誤差は、観測ベクトルの観測された列Ｙ＝ｙ₁ｙ₂ｙ₃．．．ｙ_T（時間に関して、ｔ＝１，．．．，Ｔ）を最も発生しやすい単語の列ｗ₁ｗ₂ｗ₃．．．ｗ_qを決定することによって、統計的に最小限にすることができ、ここで前記観測ベクトルは、スペクトル分析サブシステム１１０の結果である。この結果、最高の事後確率、すなわち、すべての可能な単語列Ｗに関するｍａｘＰ（Ｗ｜Ｙ）が決定される。ベイズの定理を条件付き確率に適用することによって、Ｐ（Ｗ｜Ｙ）は、
Ｐ（Ｗ｜Ｙ）＝Ｐ（Ｙ｜Ｗ）．Ｐ（Ｗ）／Ｐ（Ｙ）
によって与えられる。Ｐ（Ｙ）がＷに依存しないため、最もありうる単語列は、すべての可能な単語列Ｗ（１）に関して、
ａｒｇｍａｘＰ（Ｙ｜Ｗ）．Ｐ（Ｗ）
によって決定される。
ユニットマッチングサブシステム１２０において、音響モデルは、式（１）の第１項を与える。前記音響モデルを使用し、所定の単語列Ｗに関する観測ベクトルの列Ｙの確率Ｐ（Ｙ｜Ｗ）を推定する。大規模語彙システムに関して、これは通常、前記観測ベクトルを音声認識ユニットのインベントリに対してマッチングさせることによって行われる。音声認識ユニットは、音響モデルの列によって表される。種々の形態の音声認識を使用することができる。例えば、単語全体、または単語のグループを、１つの音声認識ユニットによって表してもよい。単語モデル（ＷＭ）は、所定の語彙の各単語に関して、音響基準の列における音訳を与える。単語全体を１つの音声認識ユニットによって表すシステムに関して、前記単語モデルと音声認識ユニットとの間に直接的な関係が存在する。他のシステム、特に大規模語彙システムは、単音、２単音または音節のようなサブ単語ユニットと、フェネネス（ｆｅｎｅｎｅｓ）およびフェノネス（ｆｅｎｏｎｅｓ）のような派生ユニットとに言語学的に基づいた音声認識ユニットを使用してもよい。これらのようなシステムに関して、単語モデルは、前記語彙のある単語に関係するサブ単語ユニットの列を記述する辞書１３４と、含まれる音声認識ユニットの音響基準の列を記述するサブ単語モデル１３２とによって与えられる。単語モデル構成器１３６は、サブ単語モデル１３２および辞書１３４に基づく前記単語モデルを具える。図２Ａは、全単語音声認識ユニットに基づくシステムに関する単語モデル２００を示し、ここで、示した単語の音声認識ユニットを、１０の音響基準（２０１ないし２１０）の列を使用してモデル化する。図２Ｂは、サブ単語ユニットに基づくシステムに関する単語モデル２２０を示し、示した単語を、各々が４つの音響基準（２５１、２５２、２５３、２５４；２６１ないし２６４；２７１ないし２７４）の列を有する３つのサブ単語モデル（２５０、２６０および２７０）の列によってモデル化する。図２に示す単語モデルは、音声および手書き信号を確率論的にモデル化するのに広く使用されている隠れマルコフモデル（ＨＭＭ）に基づく。このモデルを使用して、各認識ユニットを代表的にＨＭＭによって特徴づけ、これらのパラメータをデータの訓練組から推定する。例えば、１００００ないし６００００語を含む大規模語彙音声認識システムに関して、ＨＭＭをより多くのユニットに対して十分に訓練するためは多くの訓練データが必要になるため、通常、例えば４０のサブ単語ユニットの制限された組を使用する。ＨＭＭ状態は、音響基準（音声認識に関して）またはアログラフ的基準（手書き認識に関して）に対応する。基準をモデル化し、離散的または連続的な確率密度を含む種々の技術が知られている。
単語レベルマッチングシステム１３０は、観測ベクトルを音声認識ユニットのすべての列に対してマッチングさせ、前記ベクトルおよび列間の最も可能性がある相手を与える。サブ単語システムを使用すると、辞書１３４を使用することによって前記マッチングに制限が加えられ、サブ単語ユニットの可能な列が、辞書１３４における列に限定される。これは、結果を、可能な単語列に減少させる。文レベルマッチングシステム１４０は、言語モデル（ＬＭ）を使用し、前記マッチングに他の制限を加え、その結果として、調査される経路は、前記言語モデルによって指定されるような適切な列である単語列に対応する経路になる。このようなものとして、前記言語モデルは、式（１）の第２項Ｐ（Ｗ）を与える。前記音響モデルの結果を前記言語モデルに結合することによって、認識された文（ＲＳ）であるユニットマッチングサブシステム１２０の結果が生じる。パターン認識において使用される前記言語モデルは、言語および認識タスクの構文および／または語義制限１４２を含んでもよい。構文制限に基づく言語モデルは、通常、文法１４４と呼ばれる。前記言語モデルによって使用される文法１４４は、単語列Ｗ＝ｗ₁ｗ₂ｗ₃．．．ｗ_qの確率を与え、これは原理的には、
P（W）=P（w₁）P（w₂|W₁）P（w₃|w₁w₂）...P（W_q|w₁w₂w₃...w_q）
によって与えられる。実際には、所定の言語におけるすべての単語およびすべての文の長さに対する条件単語確率を確実に推定することは実行不可能であるため、Ｎグラム単語モデルが広く使用されている。Ｎグラムモデルにおいて、項Ｐ（ｗ_j｜ｗ₁ｗ₂ｗ₃．．．ｗ_j-1）は、Ｐ（Ｗ_j｜Ｗ_j-N+1．．．ｗ_ｊ-1）によって近似される。実際には、バイグラムまたはトライグラムが使用される。トライグラムにおいて、項Ｐ（ｗ_j｜ｗ₁ｗ₂ｗ₃．．．ｗ_j-1）は、Ｐ（ｗ_j｜ｗ_j-2ｗ_j-1）によって近似される。
同様の手書き認識用システムが既知である。手書き認識システムに使用される言語モデルは、単語列を指定するのに加えて、または、その代わりとして、文字列を指定する。
ユーザ非依存パターン認識システムには、ユーザ非依存認識モデルが与えられる。許容しうるレベルの認識を達成するために、特に大規模な語彙認識システムを、このシステムを特定のユーザに対して訓練することによって、ユーザ依存に形成する。このようなシステムの一例は、フィリップスＳＰ６０００口述システムである。このシステムは分散システムであり、ユーザは、パーソナルコンピュータまたはワークステーションのようなユーザ局に直接口述することができる。音声は、ディジタル的に記録され、ネットワークを経てサーバ局に伝送され、このサーバ局において、前記音声は、音声認識ユニットによって認識される。認識されたテキストを、前記ユーザ局に戻すことができる。このシステムにおいて、前記音響モデルの音響基準は、このシステムの新たなユーザに対して、この新たなユーザが予め決められたテキストを３０分程度の間口述することによって訓練される。これは、十分なデータを前記サーバ局に与え、前記ユーザに関する音響基準の新たな組を構築することが可能になる。この登録段階後、前記ユーザはテキストを口述してもよい。各口述セッションに関して、前記サーバ局における認識ユニットは、口述しているユーザに関係する音響基準を検索し、これらを前記口述の認識に使用する。辞書、語彙、言語モデルのような他の認識モデルは、特定のユーザに対して訓練されない。これらの状況に関して、このシステムは、弁護士、医者、外科医等のような１つの特定のカテゴリのユーザにのみを目的とする。
前記比較的長い訓練期間は、前記システムを時々または短い時間使用したいユーザによる前記システムの採用を妨げる。さらに、ユーザ毎に前記比較的大量の音響基準を前記サーバ局に格納する必要があるため、前記システムは、多数のユーザに対してあまり適切でない。前記システムを、前記言語モデルおよび語彙が目的とするのと異なる分野におけるテキストを口述するのに使用することは、認識結果の品質を低下させる恐れがある。
本発明の目的は、ユーザにおける過度の訓練負担なしに、クライアント−サーバ形態におけるパターン認識を可能にすることである。本発明の他の目的は、サーバが多数のクライアント（ユーザ局）に関する認識を同時にサポートすることができる、クライアント−サーバ構成におけるパターン認識を可能にすることである。さらに他の目的は、広範囲の話題に関するパターン認識を可能にすることである。
前記目的を達成するために、本発明による方法は、前記サーバが、複数の異なる同じ形式の認識モデルを具えることと、前記認識登録ステップが、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択することと、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶することとを具え、前記入力パターンを認識するステップが、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索することと、前記検索された認識モデルを前記モデル集合に入れることとを具えることを特徴とする。
多数の同じ形式の認識モデル、例えば、写真、園芸、自動車等のような、少なくとも１つの異なった話題を目的とする多数の言語モデルを記憶することによって、適切な認識モデルを、前記システムの特定のユーザに対して選択することができる。これにより、認識の品質が良くなる。この方法において、ユーザは、特定の言語モデルまたは語彙のような、１つの特定の形式の認識モデルに束縛されず、同時に、前記システムの柔軟性が、多くのユーザに対してモデルを再利用することによって達成される。例えば、写真における興味を述べたすべてのユーザは、写真をカバーする同じ言語モデルを使用することができる。このように、ユーザ指向認識モデルを使用することによって与えられるこの柔軟性と関係する良好な認識結果とは、ユーザ毎に特別なモデルを記憶することなしに達成される。有利に、前記ユーザによって供給する必要がある訓練データの量も、既知のシステムにおけるより、十分少なくすることができる。モデルを完全に訓練する、または、すでに存在するモデルを適合させるために、十分な量のデータを必要とする代わりに、本発明によれば、データ量は、利用可能なモデルから適切なモデルを選択するのに十分なだけでよい。
従属する請求の範囲２において規定される手段によれば、複数の同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成する。認識モデルを、適切な適合化プロファイルを選択し、前記基本モデルを前記選択された適合化プロファイルを使用して適合させることによって選択する。例えば、基本言語モデルは、ある言語のすべての頻繁に使用される単語列をカバーしてもよく、前記適合化プロファイルは、特定の興味の範囲に関する単語列をカバーする。前記適合化された言語モデルは、一般的に使用される列と、特定の列の双方をカバーすることができる。この方法において、１つの（所定の形式の）基本モデルと、通常はきわめてより小さい多数の適合化プロファイルのみを記憶すれば十分である。
従属する請求の範囲３において規定される手段によれば、前記モデル改善データは、音響基準のような音響訓練データを具える。前記音響訓練データに基づいて、適切な音響モデルを選択し、または、基本音響モデルを、適切な適合化プロファイルを使用して適合させる。これを達成する簡単な方法は、ユーザの比較的短い発声（例えば、いくつかの文に限定される）を、異なった音響モデルの範囲で認識することである。前記モジュールの各々には、好適には、女性／男性の話し方、遅い話し方／速い話し方、または、異なったアクセントでの話し方のような、特定の形式の話し方を目的とさせる。最高の結果を与える音響モデルを選択する。
従属する請求の範囲４において規定される手段によれば、前記音響モデル適合化プロファイルは、音響基準空間を変換するマトリックスか、前記基本音響モデルによって使用される音響基準と結合すべき音響基準の組かを具える。この方法において、前記音響モデルを、効率的に適合化させることができる。
従属する請求の範囲５において規定される手段によれば、前記モデル改善データは、言語モデル訓練データを具える。好適実施形態において、前記言語モデル訓練データは、少なくとも１つの文脈識別子を具える。好適には、前記文脈識別子は、キーワードを具える、または、キーワードを示す。前記訓練データに基づいて、言語モデルまたは言語モデル適合化プロファイルを選択する。
従属する請求の範囲７において規定される手段によれば、前記モデル改善データは、対応する語彙、または、基本語彙を適合化するのに使用される語彙適合化プロファイルの選択を可能にする、文脈識別子のような語彙訓練データを具える。
従属する請求の範囲１０において規定される手段によれば、前記文脈識別子は、語句またはテキストのような、単語の列を具える、またはこれを示す。少なくとも１つのキーワードを、前記単語の列から抽出し、前記モデルまたは適合化プロファイルの選択は、前記抽出されたキーワードに基づく。
前記目的を達成するために、本パターン認識システムは、前記サーバ局が、複数の異なる同じ形式の認識モデルと、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択し、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶する手段と、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索し、前記検索された認識モデルを前記モデル集合に入れる手段とを具えることを特徴とする。
本発明のこれらおよび他の態様は、図面に示す実施形態を参照することによって明らかになるであろう。
図１は、音声認識システムを示す。
図２は、単語またはサブ単語ユニットをモデル化する隠れマルコフモデルを示す。
図３は、本発明によるシステムのブロック図を示す。
図４は、登録段階および認識段階を示すフローチャートを示す。
図３は、本発明によるパターン認識システム３００のブロック図を示す。システム３００は、サーバ局３１０と、少なくとも１つのユーザ局とを具える。３つのユーザ局３５０、３６０および３７０を示し、ユーザ局３５０のみに関してより細部を示す。これらの局を、慣例的なコンピュータ技術を使用して実現してもよい。例えば、ユーザ局３５０を、デスクトップ型パーソナルコンピュータまたはワークステーションによって形成してもよく、サーバ局３１０を、ＰＣサーバまたはワークステーションサーバによって形成してもよい。これらのコンピュータを、該コンピュータのプロセッサにロードされた適切なプログラムの制御の下で動作させる。サーバ局３１０およびユーザ局３５０を、ネットワーク３３０を経て接続する。ネットワーク３３０を、例えばオフィス環境におけるローカルエリアネットワーク、または、好適にはインターネットであるワイドエリアネットワークのような、どのような適切なネットワークとしてもよい。前記局は、ネットワーク３３０を経て各々通信する通信手段３１２および３５２を具える。ネットワーク３３０との組み合わせにおいて使用するのに好適などのような通信手段を使用してもよい。代表的に、前記通信手段を、通信インタフェースまたはモデムのようなハードウェアと、インタネットのＴＣＰ／ＩＰプロトコルのような特定の通信プロトコルをサポートするソフトウェアドライバの形態におけるソフトウェアとの組み合わせによって形成する。
ユーザ局３５０は、制御手段３５４を具える。訓練段階の一部として、制御手段３５４は、初めにモデル改善データをユーザ局３５０からサーバ局３１０に伝送する。前記モデル改善データは、ユーザ局３５０のユーザに関係する。通常、前記モデル改善データを、そのときユーザ局３５０を使用するユーザによって直接入力する。この入力は、代表的に、キーボード、マウス、または、ユーザ局３５０のオーディオ入力インタフェースに接続されたマイクロホンのような、ユーザインタフェース手段３５６を経て生じる。前記登録段階の一部として、制御手段３５４は、ユーザ局３５０のユーザに関係するユーザ識別子を、サーバ局３１０に伝送する。前記ユーザ識別子を、例えば、ユーザがユーザ局３５０にログインしている、または、ユーザ局３５０を経てサーバ局３１０にログインしているときのユーザ名としてもよい。前記ユーザ識別子を、通信アドレスまたは電話番号のような通信識別子を使用して形成してもよい。
サーバ局３１０は、複数の異なる同じ形式の認識モデルを記憶する記憶手段３１４を具える。サーバ局３１０は、例えば、いくつかの言語モデル、いくつかの語彙、または、音響基準のいくつかの組（音声認識システムに関して）を記憶してもよい。記憶手段３１４を、ハードディスクによって形成してもよい。何か他の好適な記憶手段を使用してもよい。記憶手段３１４を、サーバ局３１０において物理的に配置してもよく、代わりに、例えばネットワークを経てサーバ局３１０によってアクセス可能にしてもよい。サーバ局３１０は、前記複数の異なる同じ形式の認識モデルから認識モデルを選択する選択手段３１６をさらに具える。この選択を、前記ユーザに関係するモデル改善データに応じて行う。記憶手段３１８を、前記ユーザ識別子に関係する選択された認識モデルの識別子を記憶するのに使用する。このような記憶を、記憶手段３１４に、前記選択されたモデルに関して、ユーザ識別子のリストを記憶することによって行ってもよい。また、別個の表を、ユーザ識別子および選択されたモデル間の関係を記憶するのに使用してもよい。
ユーザ局３５０の制御手段３５４は、前記ユーザ局およびサーバ局間の認識セッション毎に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、サーバ局に伝送する。前記認識セッションは、前記登録段階のすぐ後に続いてもよく（この場合において、前記ユーザ識別子を再び伝送する必要はない）、または、前記登録段階の後、所定の瞬時において起こってもよい。前記入力パターンは、前記ユーザ局のユーザによって形成された言語表現信号を表す。これらのような信号の一例は、音声信号または手書き信号である。原理的に、前記パターンは、時間逐次的パターンである。好適には、前記パターンの時間逐次的動作に関する何らかの情報も、ユーザ局３５０からサーバ局３１０に伝送する。好適には、「リアルタイム」接続を、ユーザ局３５０およびサーバ局３１０間で確立し、ユーザ局３５０ののユーザインタフェース手段３５６は、前記ユーザによって発生された入力信号を標本化する。前記信号を（例えば、図１のスペクトル解析サブシステム１１０に関して上述したのと同様の音声信号に関して）解析し、結果（例えば、ベクトルの列）をデータブロックにグループ化し、これらのデータブロックをサーバ局３１０に伝送する。代わりに、前記標本の列またはベクトル列を予め記録し、ユーザ局３５０に、ハードディスクのような固定記憶装置またはフロッピーディスクのような携帯記憶装置から供給してもよい。通常、前記時間逐次的情報は、依然として存在する。特に、手書きはユーザ局３５０に画像として供給され、ここではオンライン手書き認識システムにおいて存在する細部の時間逐次的動作は失われることがわかるであろう。それにもかかわらず、これらのような信号を、本発明によるシステムにおいて使用してもよい。
ユーザ局との認識セッション毎に、サーバ局３１０は、記憶手段３１４から認識モデルを検索する検索手段３２０を使用する。前記サーバ局に前記ユーザ局によって伝送された前記ユーザ識別子に関係する認識モデルを検索する。検索手段３１０は、前記検索された認識モデルを、少なくとも１つの認識モデルのモデル集合に入れる。前記モデル集合は、認識ユニット３２２によって、ユーザ局３５０から受けた入力パターンを認識するのに使用される。
図４は、ユーザ局３５０およびサーバ局３１０間での全体的な情報の交換を示す。訓練段階４００において、ユーザ局３５０は、前記ユーザ識別子（ＵＩ）およびモデル改善データ（ＭＩＤ）を、サーバ局３１０に伝送する。項目を伝送する正確な列と、前記項目を伝送するのに使用される通信フレームまたはパケットの数とは、無関係であることがわかるであろう。各認識セッション中（２つのセッション４１０および４２０を示す）、前記ユーザ識別子（ＵＩ）およびモデル改善データ（ＭＩＤ）を、サーバ局３１０に伝送する。
本発明による他の実施形態において、前記複数の異なる同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成する。好適には、前記基本モデルおよび適合化プロファイルを、記憶手段３１４のような同じ記憶部において記憶する。選択手段３１６は、少なくとも１つの前記適合化プロファイルを、前記ユーザ局のユーザと関係するモデル改善データに応じて選択することによって、認識モデルを選択する。記憶手段３１８を、前記選択された適合化プロファイルの識別子を前記ユーザ識別子に関係して記憶するのに使用する。検索手段３２０は、認識モデルを記憶手段３１４から、前記ユーザ識別子に関係する適合化プロファイルを検索し、前記基本認識モデルを前記適合化プロファイルの制御の下で適合化させることによって検索する。認識モデルを適合化させる技術は、一般的に知られている。検索手段３２０は、前記適合化された認識モデルを、音声認識ユニット３２２によって使用されるモデル集合に入れる。
他の実施形態において、前記入力パターンは、音声表現データを具える。前記モデル改善データは、音響訓練データを具える。前記音響訓練データを、量においてきわめて制限することができる。既知のシステムにおいて、一時間程度の音声データが音響モデルを完全に訓練するのに必要であり、または、１５分程度の音声データが省略時音響モデルを新規ユーザに適合させるのに必要な場合、本発明によるシステムにおいて、前記音響訓練データは、１５分より実際的に短い音声を表す。好適には、前記音響訓練データを、５分より短い音声の音響態様を表すことに制限する。有利には、前記音声の量を、（例えば、５文より少ない）文の組のみに制限するか、ユーザ局３５０のユーザによって語られた少数の単語のみに制限する。このユーザに、予め決められた単語または文をしゃべることを明示的に要求してもよい（しゃべるべきテキストをこのユーザに示してもよい）。代わりに、前記訓練を暗示的としてもよい。一例として、前記認識システムは、省略時音響モデルを使用することによって、すぐに動作することができる。次に、予め決められた期間、または、音声入力の量を、前記音響訓練データとして使用する。ユーザに適切な音響モデルを、複数の異なる音響モデルから選択する。好適実施形態において、前記音響訓練データは、（音響標本を表す）音響観察ベクトルのような音響データを具え、前記音響データを、各々の前記音響モデルを使用して別々に認識する。次に、最良の認識結果を与える前記音響モデルを、前記ユーザに最高に適合するものとして選択する。実際の音響データをサーバ局３１０に供給する代わりとして、ユーザ局３５０は、サーバ局３１０にしゃべるピッチまたは平均速度のような特定の音響特徴を抽出してもよい。サーバ局３１０は、前記認識モデル毎にこれらのような音響特徴を記憶し、これらの特徴に基づいて最高に適合するモデルを選択してもよい。異なった音響モデルを基本音響モデルによって形成し、（好適には、完全に訓練された話者非依存モデル）適合化プロファイルを使用し、前記基本音響モデルを前記異なった音響モデルに適合させてもよいことはわかるであろう。このような場合において、音響モデルの選択は、音響モデル適合化プロファイルの選択を含む。前記適合化プロファイルを、例えば、男性／女性、遅い／速い話し方、または、異なったアクセントのような、話者の特定のカテゴリを表す、一人以上の話者の音響データを表す、音響モデルによって形成してもよい。前記認識に関して、前記選択された音響モデル適合化プロファイルを使用し、前記基本音響モデルを適合化する。音響モデルを適合化する一般的に知られている技術は、音響認識空間の一次変換を含む最尤一次認識（ＭＬＬＲ）法と、最高事後（ＭＡＰ）確率法またはベイズの適合化法（エル．ラビナー（L.Rabiner）およびビー−エイチ．ユアング（B-H.Juang）による「音声認識の基礎（Fundamentals of speech recognition）」プレンティスホール（PrenticeHall）１９９３年、３７３〜３７５ページ参照）とを含む。明らかに、適合化プロファイルの音響基準も、前記基本音響モデルを訓練するのに使用される音響基準と結合し、これらの基準の結合された組において再訓練を続けてもよい。
他の代わりの実施形態において、前記モデル改善データは、言語モデル訓練データを具える。前記言語モデル訓練データは、音声認識ユニット３２２の言語モデルにおいて使用されるような情報に直接対応する情報を具えてもよい。例えば、前記訓練データは、ユーザによって使用される特定の言語要素に関するバイグラムまたはトライグラムと、これらの個々の確率とを具えることができる。代わりに、前記訓練データは、前記サーバ局によって解析することができる（テキストファイルのような）原文データを具える、または、これを示す。サーバ局３１０は、該サーバ局における複数の異なる言語モデルからある言語モデルを、ユーザに関係する言語モデル訓練データに基づいて選択する。例えば、サーバ局３１０は、ユーザによって示された、または、与えられたテキストの解析に最高に対応する言語モデルを選択する。好適には、前記言語モデル訓練データは、少なくとも１つの文脈識別子を具える。前記文脈識別子は、好適には、ユーザの興味の範囲を示す。この場合において、前記サーバ局は、この表現された興味に最高に適合する言語モデルを選択する。これを、種々の方法において行うことができる。例えば、サーバ局３１０における言語モデルを、特定の文脈に関して形成してもよく、ユーザに、これらのモデル間の選択の可能性を提供してもよい。代わりに、前記サーバ局は、前記文脈識別子に対応する原文データを収集することができる。この場合において、前記文脈識別子は、キーワードであるか、語句、文または文書のような単語の列を具える、またはこれを示し、これから、サーバ局３１０は、１つ以上の代表的キーワードを自動的に抽出する。前記原文データを収集する文書の組を、例えば、コンピュータシステムにおいて使用されるような文書ファイルシステムによって形成してもよい。慣例的な文書を使用することによって、前記選択を、前記文書の内容を走査することによって行うことができる。有利には、前記文書の組を、文書管理システムのような文書データベースによって形成する。このようなシステムにおいて、前記文書の内容を走査する代わりとして、または、これに追加して、前記文書の内容を記述する属性を、文書が関連するかどうかを決定するのに使用することもできる。有利には、前記文書の組を、分散コンピュータシステムにおける文書によって形成する。前記分散コンピュータシステムは、ローカルエリアネットワークを経て接続された、会社の建物または敷地内のローカルコンピュータのグループから、インタネットのようなワイドエリアネットワークを経て接続された、異なる会社のコンピュータのワールドワイドネットワークまで及んでもよい。前記分散システムは、通常、サーバと呼ばれる、いくつかの文書記憶部を具える。分散システムと、特に、インタネットの使用は、多量のデータと、通常、最新のデータとが利用可能であることを保証する。この方法において、前記言語モデルは、前記システムに供給されたときには未知の、またはあまり使用されていない新たな言語要素を、ユーザがすべての新たな要素を訓練する必要なく、取り入れることができる。
有利には、サーバ局３１０それ自身は、前記文脈識別子に対応する最新原文データに関して、インタネットのようなネットワークを探索する。また、特殊化されたサーチエンジンまたはサーチエージェントを、前記原文データを見つけるのに使用してもよい。前記原文データに基づいて、前記サーバ局は、前記原文識別子に適合する言語モデルを形成する。このモデルは、同じ興味を持つ他のユーザによる使用にも利用可能になる。
サーチエンジンを使用する場合、前記ネットワークサーチエンジンは、サーバ局３１０によって（または直接ユーザ局３５０によって）供給される探索基準を満たす文書に関して、前記分散システム内の文書記憶部を探索する。代表的に、前記ネットワークサーチエンジンは、前記分散システムを定期的に走査し、どの文書が利用可能であるかを決定し、キーワードのような属性を前記文書から抽出する。前記走査の結果を、前記サーチエンジンのデータベースに記憶する。次に、前記探索を前記データベースにおいて行う。サーチエージェントを使用する場合、このサーチエージェントの仕事は、前記分散システムの記憶部じゅうを探索することである。この目的のため、サーバ局３１０（またはユーザ局３５０）は、前記探索基準を前記サーチエージェントに与える。前記サーチエージェントは、前記分散システム内の記憶部を自律的に探索する。前記探索基準を満たす文書が見つかるといつも、前記エージェントは、これを要求局に、例えば通常の電子メールによって伝送してもよい。種々の形態のサーチエージェントが、特にインタネットに関して知られている。例えば、前記エージェントを、前記要求局においてのみ活性化し、該エージェントの質問に応じて前記分散システム内の記憶部に順番に（または並列に）アクセスさせてもよい。代わりに、前記エージェントは、前記分散システムじゅうを、あるサーバから他のサーバにとぶことによって移動してもよく、前記エージェントは、その瞬時に「訪れている」サーバにおいて活性化する。
いくつかの言語モデルを完全に記憶する代わりに、一般的に使用される言語の代表である基本言語モデルを使用し、言語モデル適合化プロファイルを使用し、前記基本モデルを適合化し、特定の興味の範囲を提供してもよいことは明らかであろう。言語モデルを適合化する種々の形態が既知である。Ｎグラムモデルに関して、項Ｐ（ｗ_j｜ｗ_j-N+1．．．ｗ_j-1）を、周波数アプローチ、
P（w_j|w_j-N+1...w_j-1）=F（w_j-N+1...w_j-1w_j）/F（w_j-N+1...w_j-1）
によって概算することができ、ここで、Ｆを、与えた訓練コーパスにおけるその独立変項におけるストリングの発生数とする。前記概算を確実にするために、Ｆ（ｗ_j-N+1．．．ｗ_j-1ｗ_j）を、前記訓練コーパスにおいて十分でなければならない。前記訓練コーパスをきわめて大きくしなければならず、多くの可能な単語ストリングに関してＦ（ｗ_j-N+1．．．ｗ_j-1ｗ_j）＝０である状況を克服するために、既知の平滑化技術を使用してもよい。例として、トライグラムに関して、前記平滑化を、トライグラム、バイグラムおよびユニグラムを周波数に関して補間することによって行うことができ、
P（w₃|w₂w₁）=p₁F（w₁w₂w₃）/F（w₁w₂）+p₂F（W₁w₂）/F（w₁）+p₃F（w₁）/Sum（F（w₁））
ここで、負でないウェイトはｐ₁＋ｐ₂＋ｐ₃＝１を満たし、Ｓｕｍ（Ｆ（ｗ₁））を前記訓練コーパスのサイズとする。前記ウェイトは、Ｆ（ｗ₁ｗ₂）およびＦ（ｗ₁）の値に依存し、これらを、交差確認の原理を用いることによって得ることができる。この方法において、適合化を、前記基本言語モデルを、限定された数のユニグラム、バイグラムおよび／またはトライグラムを指定する適合化プロファイルで補間することによって行うことができる。言語モデルを適合化する好適な他の方法は、双方とも本願人に譲渡された独国特許出願公告明細書（未公開）第１９７０８１８３．５号および第１９７０８１８４．３号と、ＩＣＡＳＳＰ１９９７の会報の２巻１０３５−１０３８ページにおけるE.Thelen,X.Aubert,P.Beyerleinによる論文「大規模語彙連続音声認識用フィリップスシステムにおける話者適合化」と、ＩＣＳＬＰ１９９６の会報の２１３９−２１４２ページにおけるE.Thelenによる論文「言語語彙口述に関するロングタームオンライン話者適合化」とにおいて記載されている。
本発明による他のまたは代わりの実施形態において、前記モデル改善データは、語彙データを具える。サーバ局３１０は、サーバ局３１０に記憶された（または、サーバ局３１０に利用可能な）複数の異なる語彙からある語彙を選択する。代わりに、サーバ局３１０は、語彙適合化プロファイルを選択してもよく、この選択された語彙適合化プロファイルを使用し、基本語彙を適合化してもよい。前記語彙適合化プロファイルは、例えば、前記基本語彙に簡単に加えられ、ある言語において通常使用される単語をカバーすることができる、追加単語のリストを具えるまたは示す。新たな単語を語彙に加えることは、本質的に、この単語を認識することができることを保証するには十分でないかもしれないことは、明らかであろう。音声認識システムに関して、音響基準における翻音が追加で要求される。多くの言語に関して、かなり正確な翻音を、大部分の単語に関して自動的に達成することができる。新たな単語を、前記語彙においてすでにあり、翻音を有する単語と比較することによって、適切な翻音を形成することができる。例えば、かなり高い精度で、ある単語の音声翻音を、既知の単語の音声翻音に基づいて形成することができる。前記翻音が並みの品質のものであるとしても、前記新たな単語は、前記語彙において存在し、好適には、前記言語モデルにおいても存在する。これは、前記言語の認識を可能にし（そうでなければできない）、前記言語モデルの援助によって、前記単語の認識を、その文脈において許容しうるレベルのもルの援助によって、前記単語の認識を、その文脈において許容しうるレベルのものとすることができる。一度前記単語が認識されると、前記翻音を自動的に適合させ、前記単語が認識される実際の発生によりよく一致させることができる。
他の実施形態において、前記語彙訓練データは、少なくとも１つの文脈識別子を具え、サーバ局３１０は、前記文脈識別子に対応する語彙または語彙適合プロファイルを選択する。前記言語モデルに関して説明したのと同様に、サーバ局３１０は、前記文脈識別子に応じてテキストを見つける。この見つけられたテキストから、サーバ局３１０は単語を抽出する。キーワードのような単語をテキストから抽出する種々の技術が既知である。音声認識に関して、サーバ局３１０は、別個の「音声」辞書を使用し、前記単語を音響表現に翻音してもよい。代わりに、これを、上述したように自動的に行う。

Claims

ユーザ局に格納された入力パターンを、サーバ局の認識ユニットを使用して認識する方法に関係し、前記サーバ局およびユーザ局をネットワークを介して接続し、前記認識ユニットを、少なくとも１つの認識モデルのモデル集合を使用して前記入力パターンを認識するように動作させ、前記方法は、
前記ユーザ局のユーザに関するモデル改善データを前記ユーザ局から前記認識ユニットに伝送することと、前記ユーザ局のユーザをユーザ識別子に関係付けることとから成る初期認識登録ステップを行うことと、
前記ユーザ局およびサーバ局間の認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、前記ユーザによって前記ユーザ局から前記サーバ局に伝送することと、前記認識ユニットを使用し、前記入力パターンを、少なくとも１つの認識モデルを前記ユーザに関係するモデル改善データを反映するモデル集合に入れることによって認識することとを具える方法において、
前記サーバが、複数の異なる同じ形式の認識モデルを具えることと、
前記認識登録ステップが、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択することと、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶することとを具え、
前記入力パターンを認識するステップが、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索することと、前記検索された認識モデルを前記モデル集合に入れることとを具えることを特徴とする方法。
請求の範囲１に記載の方法において、
前記複数の同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成し、
前記認識モデルをユーザに関係するモデル改善モデルに応じて選択するステップが、少なくとも１つの前記適合化プロファイルを前記モデル改善データに応じて選択することを具え、
前記認識登録ステップが、前記選択された適合化プロファイルの識別子を前記ユーザ識別子と関連して記憶することを具え、
前記ユーザ識別子に関係する認識モデルを検索するステップが、前記ユーザ識別子に関係する適合化プロファイルを検索することと、前記基本認識モデルを前記適合化プロファイルの制御の下で適合化させることとを具えることを特徴とする方法。
請求の範囲１に記載の方法において、前記入力パターンが音声表現データを具え、前記モデル改善データが音響訓練データを具え、前記複数の認識モデルから１つの認識モデルを選択することが、前記ユーザに関係する音響訓練データに基づいて、複数の異なる音響モデルから１つの音響モデルを選択することか、音響モデル適合化プロファイルを選択し、この選択された音響モデル適合化プロファイルを使用して、基本音響モデルを適合化することかを具えることを特徴とする方法。
請求の範囲３に記載の方法において、前記音響モデル適合化プロファイルが、音響基準空間を変換するマトリックスか、前記基本音響モデルによって使用される音響基準と結合すべき音響基準の組かを具えることを特徴とする方法。
請求の範囲１に記載の方法において、前記モデル改善データが言語モデル訓練データを具え、前記複数の異なる認識モデルから１つの認識モデルを選択することが、前記ユーザに関係する言語モデル訓練データに基づいて、複数の異なる言語モデルから１つのモデルを選択することか、言語モデル適合化プロファイルを選択し、この選択された言語モデル適合化プロファイルを使用し、基本言語モデルを適合化させることかを具えることを特徴とする方法。
請求の範囲５に記載の方法において、前記言語モデル訓練データが、少なくとも１つの文脈識別子を具え、該方法が、前記サーバ局において、前記文脈識別子に対応する言語モデルまたは言語モデル適合化プロファイルを選択するステップを具えることを特徴とする方法。
請求の範囲１に記載の方法において、前記モデル改善データが語彙訓練データを具え、前記複数の異なる認識モデルから１つの認識モデルを選択することが、前記ユーザに関係する語彙訓練データに基づいて、複数の異なる語彙から１つの語彙を選択することか、語彙適合化プロファイルを選択し、この選択された語彙適合化プロファイルを使用し、基本語彙を適合化させることかを具えることを特徴とする方法。
請求の範囲７に記載の方法において、前記語彙訓練データが少なくとも１つの文脈識別子を具え、該方法が、前記サーバ局において、前記文脈識別子に対応する語彙または語彙適合化プロファイルを選択するステップを具えることを特徴とする方法。
請求の範囲６または８に記載の方法において、前記文脈識別子がキーワードを具えることを特徴とする方法。
請求の範囲９に記載の方法において、前記文脈識別子が単語の列を具えまたは示し、該方法が、前記単語の列から少なくとも１つのキーワードを抽出することと、前記抽出されたキーワードに基づいて前記選択を行うこととを具えることを特徴とする方法。
入力パターンを格納する少なくとも１つのユーザ局と、認識ユニットを具えるサーバ局とを具えるパターン認識システムにさらに関係し、前記認識ユニットは、前記入力パターンを、少なくとも１つの認識モデルのモデル集合を使用して認識するように動作し、前記サーバ局を前記ユーザ局にネットワークを介して接続し、
前記ユーザ局が、前記ユーザ局のユーザに関係するモデル改善データと、前記ユーザを前記サーバ局に関係付けるユーザ識別子とを前記サーバ局に初期に伝送する手段と、前記ユーザ局およびサーバ局間の各認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを前記サーバ局に伝送する手段とを具え、
前記サーバ局が、前記ユーザ局およびサーバ局間の各認識セッション中に、少なくとも１つの認識モデルを、前記入力パターンを発生したユーザに関係する前記モデル改善データを反映する前記モデル集合に入れる手段と、前記音声認識ユニットを使用し、前記ユーザ局から受けた入力パターンを認識する手段とを具えるパターン認識システムにおいて、
前記サーバ局が、
複数の異なる同じ形式の認識モデルと、
認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択し、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶する手段と、
前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索し、前記検索された認識モデルを前記モデル集合に入れる手段とを具えることを特徴とするパターン認識システム。