JPH07210190A

JPH07210190A - 音声認識方法及びシステム

Info

Publication number: JPH07210190A
Application number: JP6304072A
Authority: JP
Inventors: Paul S Cohen; ポール・エス・コーアン; John M Lucassen; ジョン・エム・リュカッセン; Jr Elton B Sherwin; エルトン・ビー・シャーウィン・ジュニア; Jorge L Vizcaino; ホルヘ・エル・ビスカイノ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-12-30
Filing date: 1994-12-07
Publication date: 1995-08-11
Also published as: US5802251A; EP0661690A1

Abstract

(57)【要約】（修正有）【目的】判別された呼出し側のＩＤに基づいて電話網
内の音声認識システムの混乱を削減するための方法およ
びシステム。【構成】音声認識システムにおいて、音声の基本語彙
を表す音声テンプレート４８、複数の呼出し側固有音声
テンプレート５０（具体的な地理的位置と特定の個人に
対応する専用語彙と発音を表す音声テンプレートを含
む）が作成され、格納される。電話網を介してシステム
に持ち込まれる帯域幅の縮小、伝送チャネルの変動、お
よびその他の信号変化を反映する処理をすることが好ま
しい。呼出し側のＩＤは、ネットワークへの接続時に標
準の呼出し側識別回路４４を介して判別され、発声を検
出すると、呼出し側のＩＤを判別できない場合は中核ラ
イブラリ４８と照らし合わせてその発声を処理し、呼出
し側のＩＤを判別できる場合は特定の呼出し側固有ライ
ブラリ５０と照らし合わせてその発声を処理する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般に、改良された音
声認識システムに関し、特に、音声認識精度を高めるた
めの改良された方法およびシステムに関する。より具体
的には、本発明は、呼出し側固有音声テンプレート・ラ
イブラリを使用して電話網内の音声認識を高めるための
方法およびシステムに関する。

【０００２】

【従来の技術】音声認識は先行技術で周知の技術であ
る。既知の話し手用の所与の語彙から分離した単語を認
識することが、おそらく最も単純なタイプの音声認識で
あり、この種の音声認識がしばらく前から知られてい
た。一般に、認識対象語彙内の単語は個々のテンプレー
トとして事前記憶され、それぞれのテンプレートが語彙
内の単語の音声パターンを表している。分離した単語が
話されると、システムは、この単語と、語彙を表す個々
のテンプレートそれぞれとを比較するだけである。この
方法は一般に全単語テンプレート突合せ（マッチング）
と呼ばれている。成功した多くの音声認識システムで
は、この方法とともに動的プログラミングを使用して、
話された単語と事前記憶テンプレートとの非線形のタイ
ム・スケールの変化に対処している。

【０００３】連続音声や、固有名詞または地名を含む音
声を認識するのはもっと難しい。連続音声、すなわち、
単語の連続は、先行技術では複数経路動的プログラミン
グを使用して認識されていた。このようなシステムの一
例は、H. Sakoeによる"Two Level DP Matching A Dynam
ic Programming Based Pattern Matching AlgorithmFor
Connected Word Recognition"（IEEE Transactions on
Acoustics Speech and Signal Processing, Volume AS
SP-27, No. 6, pp. 588-595, １９７９年１２月）に提
案されている。この論文では、入力パターン全体に最も
一致する一連の単語テンプレートを見つけるための２パ
ス動的プログラミング・アルゴリズムを提案している。
システムを通るそれぞれのパスは、入力パターンのすべ
ての可能な部分と突き合わせたすべてのテンプレートに
おける類似性を示すスコアを生成する。もう１つのパス
では、このスコアを使用して、入力パターン全体に対応
する最良のテンプレート・シーケンスを見つける。

【０００４】米国特許第５０４０１２７号では、入力フ
レームと、音声を表す事前記憶テンプレートとを比較
し、認識される可能性のある個々の単語として検討中の
各テンプレートごとにリンク・ネットワーク内のレコー
ド間にリンクを確立することによって連続音声を処理す
る、連続音声認識システムを提案している。リンクされ
たレコードは、索引付きデータ・セットとして格納され
ている親リンク・レコードと子孫リンク・レコードを含
み、各データ・セットは、テンプレートを表す記号と、
リンク・レコードが格納された相対時間を表す手順標識
と、その発生元であるネットワーク内のリンク・レコー
ドを示すポインタとを含む。

【０００５】固有名詞の認識は、音声認識システムにと
っていわゆる「混乱」が増加することを意味し、この問
題は最近、米国特許第５２１２７３０号で認識されてい
る。この特許は、複数の発音が可能な固有名詞の発声表
現を認識するためのテキスト派生認識モデルを使用して
名前の認識を行う。この特許に記載されている名前認識
方法は、名前テキストを指定してから、名前テキストか
ら指定の数のテキスト派生認識モデルを構築することで
アクセスされるテキスト・データベースへの名前テキス
トの入力を含む。この場合、各テキスト派生認識モデル
は、その名前の少なくとも１つの発音を表す。その後、
発声した名前入力によってテキスト・データベースへの
アクセスを試みるたびに、テキスト・データベースと発
声した名前入力とを比較し、一致が可能かどうかを判別
する。

【０００６】米国特許第５２０２９５２号では、発声を
フレーム・データ・セットに変換することで音声を認識
する大規模語彙連続音声事前選別処理システムを開示し
ている。この場合、各フレーム・データ・セットが平滑
されて、所定の数のフレームにおける平滑フレーム・モ
デルを生成する。一続きのフレーム期間において音響的
に類似の単語モデルのクラスタを常駐語彙として指定
し、平滑フレーム・モデルとの比較対象となるクラスタ
用の確率モデルを使用して評価した平滑フレームの可能
性を含むクラスタ・スコアをシステムが生成する。

【０００７】これらのシステムはどれも、音声認識を正
しく行うには連続音声発声の混乱を削減する必要がある
と認識している。この問題を取り扱っている文献として
は、"Perplexity-A Measure of Difficulty of Speech
Recognition Tasks"（Journal of the Acoustical Soci
ety of America, Volume 62, Supplement No. 1, p.S-6
3, １９７７年秋号）と、"Continuous Speech Recognit
ion Statistical Methods"（Handbook of Statistics V
olume 2: Classification, Pattern Recognition and R
eduction of Dimensionality, pp. 549-573, North-Hol
land Publishing Company, １９８２年）がある。

【０００８】上記の説明を考慮し、音声認識を正しく行
うには、固有名詞、地名、および数値の場合に特に困難
な問題である、発音が似ている多数の単語間を区別する
能力を高める必要があることに留意されたい。したがっ
て、音声認識の精度と効率を高める方法およびシステム
が要求されていることに留意されたい。

【０００９】

【発明が解決しようとする課題】本発明の一目的は、改
良された音声認識システムを提供することにある。

【００１０】本発明の他の目的は、音声認識の精度と効
率を高めるための改良された方法およびシステムを提供
することにある。

【００１１】本発明の他の目的は、呼出し側固有音声テ
ンプレート・ライブラリを使用して電話網内の音声認識
を高めるための改良された方法およびシステムを提供す
ることにある。

【００１２】

【課題を解決するための手段】上記の諸目的は、以下に
説明する通りに達成される。判別された呼出し側のＩＤ
に基づいて電話網内の音声認識システムの混乱を削減す
るための方法およびシステムを開示する。音声を表す格
納済みテンプレートと照らし合わせて音声の入力フレー
ムを処理する音声認識システムでは、音声の基本語彙を
表す音声テンプレートの中核ライブラリが作成され、格
納される。複数の呼出し側固有音声テンプレート・ライ
ブラリも作成され、格納されるが、それぞれのライブラ
リは、具体的な地理的位置と特定の個人に対応する専用
語彙を表す音声テンプレートを含む。さらに、電話網を
介してシステムに持ち込まれる帯域幅の縮小、伝送チャ
ネルの変動、およびその他の信号変化を反映するため
に、呼出し側固有音声テンプレート・ライブラリを処理
することが好ましい。呼出し側のＩＤは、ネットワーク
への接続時に標準の呼出し側識別回路を介して判別さ
れ、発声を検出すると、呼出し側のＩＤを判別できない
場合は中核ライブラリと照らし合わせてその発声を処理
し、呼出し側のＩＤを判別できる場合は特定の呼出し側
固有ライブラリと照らし合わせてその発声を処理し、そ
れにより、システムによる音声認識の効率と精度が大幅
に向上する。

【００１３】

【実施例】ここで、添付図面、特に、図１を参照して説
明すると、同図には、本発明の方法およびシステムを実
現するために使用できる分散電話網が示されている。図
示の通り、公衆交換電話網１０を介して複数のユーザ位
置がホスト位置１２に連結されている。公衆交換電話網
１０は、このような通信を実現するための周知の技術の
いずれかを使用して、電話通信を介して複数のユーザを
ホスト位置１２に連結するよう機能することが好まし
い。たとえば、ユーザ位置１４は、通信チャネル３２、
公衆交換電話網１０、および通信チャネル３０を介して
ホスト位置１２に連結された標準的な電話機１８の使用
を反映している。電話機１８を使用してユーザが入力し
た音声は、コンピュータ１６を使用して実現した音声認
識システムを使って認識することができる。コンピュー
タ１６は、ＩＢＭＰＳ／２コンピュータなどのいわゆ
る「パーソナル」コンピュータのような適当なコンピュ
ータを使用して実現できる。

【００１４】あるいは、図１に示すように、ユーザは、
無線塔２２による無線周波伝送を介して通信するセルラ
ー方式の移動電話２０を使用することもできる。通常、
無線塔２２は、陸上通信チャネル３４を使用して公衆交
換電話網１０に連結される。さらに、最新の大陸横断通
信は、衛星２６および衛星受信機２４を使って図示され
ているような衛星通信を使用して実現される場合も多
い。この場合、衛星受信機２４は、通信チャネル３６を
介して公衆交換電話網１０に連結される。

【００１５】図１に示すように、最新の分散電話網は、
ユーザがホスト位置１２との通信を確立できるようにす
るための複数の多様な通信チャネルを提供する。このよ
うな通信チャネルは、コンピュータ１６を使用して実現
される音声認識システムの精度に影響する要素がそれぞ
れ明らかに異なっている。たとえば、所与の通信チャネ
ルでは帯域幅が縮小されている可能性がある。衛星シス
テムは、伝送エコーや信号遮断の諸問題に悩まされる場
合もある。しかも、信号品質が予測不能であること、様
々な電話機のマイク特性が不明であること、および様々
な地域アクセントも、図１に示すような分散電話網を使
用した音声認識システムを実現する上での困難の一因と
なる。

【００１６】また、公衆交換電話網内で選択した通信チ
ャネルは、発声の質および内容を変化させる既知の圧縮
アルゴリズムやその他の各種信号処理技術を使用してい
る場合が多く、その発声の認識がローカル・システム内
での音声認識より困難になっている。

【００１７】次に図２を参照すると、同図には、図１の
コンピュータ１６を使用して実現できる音声認識システ
ムの高水準ブロック図が示されている。このシステム
は、呼出し側のＩＤを使用して、このようなシステムの
音声認識の混乱を削減する方法を示している。図２に示
すように、音声の基本語彙を表す音声テンプレートの中
核ライブラリ４８を含むメモリ４６が、コンピュータ１
６内に実現された音声認識システム内部に設けられてい
る。同様に、メモリ４６内には複数の呼出し側固有ライ
ブラリ５０も格納されている。それぞれの呼出し側固有
ライブラリ５０は、その呼出し側が通常使用する通信チ
ャネルに関連する、特定の地理的位置に関連する専用語
彙を表すテンプレートを含むことが好ましく、これらの
テンプレート内のデータは、帯域幅、マイク特性、アナ
ログ信号品質、および図１の分散電話網内の特定の呼出
し側に関連するその他の各種パラメータを反映するよう
変更されていることが好ましい。

【００１８】当業者は、このような呼出し側固有ライブ
ラリが、発声の検出に必要な通信チャネルをモデリング
するネットワークを介して発声を選別し処理することで
作成できることに留意されたい。しかも、本明細書を参
照し、それぞれの呼出し側固有ライブラリが、分散電話
網内の指定の呼出し側のＩＤに関連する指定の地理的位
置に密接に関係する具体的な地理的位置、事業所、また
は固有名詞を表す一連の音声テンプレートを含んでもよ
いことに留意されたい。

【００１９】したがって、ユーザと、コンピュータ１６
内に実現された音声認識システムとの間で通信が確立
し、音声発声が検出されるたびに、その発声がアナログ
／ディジタル変換器４２を使用して処理用に適切に変換
され、プロセッサ４０に連結されることが好ましい。次
に、プロセッサ４０は、呼出し側識別回路４４と関連し
て公衆交換電話網から得られる呼出し側識別信号を使用
して、使用電話機を識別することで特定の呼出し側のＩ
Ｄを確立する。当業者が理解できるように、このＩＤに
より、呼出し側とホスト位置との間で検出される典型的
な通信経路に基づいて、特定の呼出し側の地理的位置と
その特定の呼出し側に通常関連する通信チャネル・パラ
メータに関する有用な情報が得られる。

【００２０】このため、呼出し側識別回路４４の出力
は、メモリ４６内に含まれる複数の呼出し側固有ライブ
ラリ５０のうちの特定のライブラリをプロセッサ４０が
選択できるようにするためにプロセッサ４０が使用す
る。次に、音声データの入力フレームが、メモリ４６内
の音声テンプレートのライブラリと比較され、その音声
発声の内容が判別される。その場合、プロセッサ４０
は、他のデータへのアクセス権を制御するか、特定の活
動を実現するか、または周辺システムを口頭制御するた
めに使用できる出力信号を生成してもよい。

【００２１】上記の説明を参照し、当業者は、呼出し側
のＩＤを判別できないような状況で使用するために標準
化した一連のテンプレートを提供するために中核ライブ
ラリ４８を使用できること、あるいは、特定の地理的位
置固有の語彙項目または通信チャネル内の伝送パラメー
タによって大幅に影響を受ける発声を反映するために、
中核ライブラリ４８が、呼出し側固有ライブラリと結合
された一連の基本語彙テンプレートを含んでもよいこと
に留意されたい。いずれの場合にも、プロセッサ４０
は、呼出し側ＩＤ４４を使用して呼出し側固有ライブラ
リを選択することで、メモリ４６内のライブラリと照ら
し合わせて入力発声を処理し、それにより、コンピュー
タ１６内に実現された音声認識システムの効率と精度が
大幅に向上する。

【００２２】音声認識においてこれまでに知られている
試みに関して前述した通り、入力音声の処理に使用する
テンプレートは、個々の単語、語句、または単語の一部
を表すテンプレートを含むことができる。本明細書で使
用する「テンプレート」という用語は、未知の音声発声
を識別するためにプロセッサ４０が使用できるディジタ
ル表現を格納したものを意味する。

【００２３】最後に図３を参照して説明すると、同図に
は、本発明の方法を実現するためのプロセスを示す高水
準論理流れ図が示されている。図示の通り、このプロセ
スはブロック６０から始まり、ブロック６２に移行す
る。ブロック６２は、公衆交換電話網を介してホスト位
置への接続をユーザが確立することを示している（図１
参照）。次に、プロセスはブロック６４に移行する。ブ
ロック６４は、言葉の発声が検出されたかどうかの判別
を示している。検出されなかった場合は、発声が検出さ
れるまでプロセスが反復するだけである。しかし、言葉
の発声が検出されると、プロセスはブロック６６に移行
する。

【００２４】ブロック６６は、呼出し側のＩＤが電話網
から判別できるかどうかの判別を示している。当業者
は、呼出し側のＩＤは普遍的に適用できるものではな
く、そのため、システムにアクセスする特定の呼出し側
のＩＤが判別できない場合もあることに留意されたい。
ただし、呼出し側のＩＤが判別された場合、プロセスは
ブロック６８に移行する。ブロック６８は、メモリ４６
内から特定の呼出し側固有ライブラリを選択することを
示している（図２参照）。前述の通り、特定の呼出し側
固有ライブラリは、通信チャネル内の口頭通信に影響す
る伝送パラメータを正確に反映するよう処理された音声
発声を含むことが好ましい。このため、帯域制限、処理
技術、および口頭通信に影響するその他のパラメータを
使用して、そのチャネルで処理された発声をもっと正確
に反映するような音声テンプレートが作成されている。
しかも、その呼出し側のＩＤに関連する特定の地理的地
域に特有の具体的な語彙単語と発音も、呼出し側固有ラ
イブラリ内に含まれる。たとえば、定期航空路線の運航
スケジュールに口頭アクセスできるようなシステムは、
電話網を使用して判別される呼出し側の位置の付近にあ
る地理的位置の発声表現を、その位置からかなり離れた
ところにある地理的位置より可能性の高い認識用選択項
目として含むように設計された、一連の呼出し側固有テ
ンプレートを有することが好ましい。

【００２５】呼出し側ＩＤの判別に基づいて特定の呼出
し側固有ライブラリを選択した後で、プロセスはブロッ
ク７０に移行する。ブロック７０は、その呼出し側固有
ライブラリと照らし合わせて発声を処理することを示し
ている。当然のことながら、前述の通り、呼出し側固有
テンプレート・ライブラリと照らし合わせて入力音声発
声を処理する場合、公衆交換電話網内の通信チャネルに
よる伝送の結果として発生する劣化にもかかわらず、容
易に認識できる共通発声からなる中核ライブラリと照ら
し合わせてその発声を処理することを含んでもよい。

【００２６】もう一度ブロック６６を参照すると、呼出
し側のＩＤを判別できない場合は、プロセスはブロック
７２に移行する。ブロック７２は、呼出し側のＩＤを判
別できないような状況に使用できる中核ライブラリと照
らし合わせて入力音声発声を処理することを示してい
る。その後、中核ライブラリまたは呼出し側固有ライブ
ラリを単独でまたは何らかの基本中核ライブラリととも
に使用して突合せを行って入力音声発声を処理した後
で、プロセスはブロック７４に移行する。ブロック７４
は、発声が認識されたかどうかの判別を示している。発
声が認識されない場合、すなわち、発声と既知のテンプ
レートとの間に確率の高い一致が存在しない場合、プロ
セスはブロック７６に移行する。ブロック７６は、適当
なエラー・メッセージの生成を示しており、その後、プ
ロセスはブロック７８に移行して復帰する。当業者は、
この時点で通信を終了するか、または最終的にその音声
の認識に到達できるようにもう一度発声の発音を試みる
よう話し手に催促できることに留意されたい。

【００２７】もう一度ブロック７４を参照すると、発声
が認識された場合は、プロセスはブロック８０に移行す
る。ブロック８０は、その発声の処理を示している。当
業者は、「発声の処理」が、その他のデータにアクセス
するか、何らかの機能を実行するか、または何らかの方
法でコンピュータ１６の周辺システムと対話して、発声
に対して高機能反応を提供するか、それを文字に置き換
えるために、その発声の言語内容または情報内容を使用
することを意味することに留意されたい。その後、プロ
セスはブロック７８に移行して復帰する。

【００２８】上記の説明を参照し、当業者は、複数の呼
出し側固有音声テンプレート・ライブラリ内の音声認識
システムと、既存の呼出し側識別システムとを組み合わ
せることで、電話網内の通信チャネルの結果として発生
する信号変化を考慮した処理と、地理に固有の語彙およ
び発音およびその他の言語現象の変化を考慮した処理に
よって入力音声がもっと正確に認識できるため、効率と
精度が大幅に向上した音声認識システムを提供できるこ
とに留意されたい。

【００２９】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３０】（１）電話網を介して音声を表す格納済み
テンプレートと照らし合わせて音声の入力フレームを処
理する音声認識システムの精度と効率を高めるための方
法において、音声テンプレートの中核ライブラリを作成
して格納するステップと、複数の呼出し側固有音声テン
プレート・ライブラリを作成して格納するステップと、
前記電話網内の呼出し側のＩＤを判別しようと試みるス
テップと、前記電話網内の前記呼出し側のＩＤが判別さ
れない場合に、音声テンプレートの前記中核ライブラリ
と照らし合わせて入力音声発声を処理するステップと、
前記電話網内の前記呼出し側のＩＤの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するステップとを含む方法。（２）前記電話網内の呼出し側のＩＤを判別する前記ス
テップが、前記電話網内の呼出し側識別システムを使用
して前記呼出し側のＩＤを判別するステップを含むこと
を特徴とする、上記（１）に記載の電話網を介して音声
を表す格納済みテンプレートと照らし合わせて音声の入
力フレームを処理する音声認識システムの精度と効率を
高めるための方法。（３）複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、前記電話網内で
の伝送の結果として発生する音声発声の変化を反映する
ように処理される複数の呼出し側固有音声テンプレート
・ライブラリを作成して格納するステップを含むことを
特徴とする、上記（１）に記載の電話網を介して音声を
表す格納済みテンプレートと照らし合わせて音声の入力
フレームを処理する音声認識システムの精度と効率を高
めるための方法。（４）複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、具体的な地理的
位置を反映する語彙および発音を含む複数の呼出し側固
有音声テンプレート・ライブラリを作成して格納するス
テップを含むことを特徴とする、上記（１）に記載の電
話網を介して音声を表す格納済みテンプレートと照らし
合わせて音声の入力フレームを処理する音声認識システ
ムの精度と効率を高めるための方法。（５）電話網を介して音声を表す格納済みテンプレート
と照らし合わせて音声の入力フレームを処理する音声認
識システムの精度と効率を高めるためのシステムにおい
て、音声テンプレートの中核ライブラリを作成して格納
するための手段と、複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段と、前記
電話網内の呼出し側のＩＤを判別しようと試みるための
手段と、前記電話網内の前記呼出し側のＩＤが判別され
ない場合に、音声テンプレートの前記中核ライブラリと
照らし合わせて入力音声発声を処理するための手段と、
前記電話網内の前記呼出し側のＩＤの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するための手段とを含むシステム。（６）前記電話網内の呼出し側のＩＤを判別するための
前記手段が、前記電話網内の呼出し側識別システムを使
用して前記呼出し側のＩＤを判別するための手段を含む
ことを特徴とする、上記（５）に記載の電話網を介して
音声を表す格納済みテンプレートと照らし合わせて音声
の入力フレームを処理する音声認識システムの精度と効
率を高めるためのシステム。（７）複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、前記電話網内
での伝送の結果として発生する音声発声の変化を反映す
るように処理される複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段を含むこ
とを特徴とする、上記（５）に記載の電話網を介して音
声を表す格納済みテンプレートと照らし合わせて音声の
入力フレームを処理する音声認識システムの精度と効率
を高めるためのシステム。（８）複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、具体的な地理
的位置を反映する語彙発音を含む複数の呼出し側固有音
声テンプレート・ライブラリを作成して格納するための
手段を含むことを特徴とする、上記（５）に記載の電話
網を介して音声を表す格納済みテンプレートと照らし合
わせて音声の入力フレームを処理する音声認識システム
の精度と効率を高めるためのシステム。

【００３１】

【発明の効果】本発明によれば、改良された音声認識シ
ステムが提供される。また、音声認識の精度と効率を高
めるための改良された方法およびシステムが提供され
る。さらに、呼出し側固有音声テンプレート・ライブラ
リを使用して電話網内の音声認識を高めるための改良さ
れた方法およびシステムが提供される。

【図面の簡単な説明】

【図１】本発明の方法およびシステムを実現するために
使用できる分散電話網の絵画図である。

【図２】図１のホスト位置内の音声認識システムの高水
準ブロック図である。

【図３】本発明の方法を実現するためのプロセスを図示
する高水準論理流れ図である。

【符号の説明】

１６コンピュータ４０プロセッサ４２Ａ／Ｄ変換器４４呼出し側識別回路４６メモリ４８中核ライブラリ５０呼出し側固有ライブラリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョン・エム・リュカッセンアメリカ合衆国10025 ニューヨーク州ニューヨークワンハンドレッドアンドサード・ストリートウエスト 308 (72)発明者エルトン・ビー・シャーウィン・ジュニアアメリカ合衆国06903 コネチカット州スタンフォードドッグウッド・レーン 26 (72)発明者ホルヘ・エル・ビスカイノアメリカ合衆国33067 フロリダ州パークランドセブンティーセカンド・プレースノースウエスト 6442

Claims

【特許請求の範囲】

【請求項１】電話網を介して音声を表す格納済みテンプ
レートと照らし合わせて音声の入力フレームを処理する
音声認識システムの精度と効率を高めるための方法にお
いて、音声テンプレートの中核ライブラリを作成して格納する
ステップと、複数の呼出し側固有音声テンプレート・ライブラリを作
成して格納するステップと、前記電話網内の呼出し側のＩＤを判別しようと試みるス
テップと、前記電話網内の前記呼出し側のＩＤが判別されない場合
に、音声テンプレートの前記中核ライブラリと照らし合
わせて入力音声発声を処理するステップと、前記電話網内の前記呼出し側のＩＤの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するステップとを含む方法。
【請求項２】前記電話網内の呼出し側のＩＤを判別する
前記ステップが、前記電話網内の呼出し側識別システム
を使用して前記呼出し側のＩＤを判別するステップを含
むことを特徴とする、請求項１に記載の電話網を介して
音声を表す格納済みテンプレートと照らし合わせて音声
の入力フレームを処理する音声認識システムの精度と効
率を高めるための方法。
【請求項３】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納する前記ステップが、前記電話
網内での伝送の結果として発生する音声発声の変化を反
映するように処理される複数の呼出し側固有音声テンプ
レート・ライブラリを作成して格納するステップを含む
ことを特徴とする、請求項１に記載の電話網を介して音
声を表す格納済みテンプレートと照らし合わせて音声の
入力フレームを処理する音声認識システムの精度と効率
を高めるための方法。
【請求項４】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納する前記ステップが、具体的な
地理的位置を反映する語彙および発音を含む複数の呼出
し側固有音声テンプレート・ライブラリを作成して格納
するステップを含むことを特徴とする、請求項１に記載
の電話網を介して音声を表す格納済みテンプレートと照
らし合わせて音声の入力フレームを処理する音声認識シ
ステムの精度と効率を高めるための方法。
【請求項５】電話網を介して音声を表す格納済みテンプ
レートと照らし合わせて音声の入力フレームを処理する
音声認識システムの精度と効率を高めるためのシステム
において、音声テンプレートの中核ライブラリを作成して格納する
ための手段と、複数の呼出し側固有音声テンプレート・ライブラリを作
成して格納するための手段と、前記電話網内の呼出し側のＩＤを判別しようと試みるた
めの手段と、前記電話網内の前記呼出し側のＩＤが判別されない場合
に、音声テンプレートの前記中核ライブラリと照らし合
わせて入力音声発声を処理するための手段と、前記電話網内の前記呼出し側のＩＤの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するための手段とを含むシステム。
【請求項６】前記電話網内の呼出し側のＩＤを判別する
ための前記手段が、前記電話網内の呼出し側識別システ
ムを使用して前記呼出し側のＩＤを判別するための手段
を含むことを特徴とする、請求項５に記載の電話網を介
して音声を表す格納済みテンプレートと照らし合わせて
音声の入力フレームを処理する音声認識システムの精度
と効率を高めるためのシステム。
【請求項７】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納するための前記手段が、前記電
話網内での伝送の結果として発生する音声発声の変化を
反映するように処理される複数の呼出し側固有音声テン
プレート・ライブラリを作成して格納するための手段を
含むことを特徴とする、請求項５に記載の電話網を介し
て音声を表す格納済みテンプレートと照らし合わせて音
声の入力フレームを処理する音声認識システムの精度と
効率を高めるためのシステム。
【請求項８】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納するための前記手段が、具体的
な地理的位置を反映する語彙発音を含む複数の呼出し側
固有音声テンプレート・ライブラリを作成して格納する
ための手段を含むことを特徴とする、請求項５に記載の
電話網を介して音声を表す格納済みテンプレートと照ら
し合わせて音声の入力フレームを処理する音声認識シス
テムの精度と効率を高めるためのシステム。