JPH07210190A - 音声認識方法及びシステム - Google Patents
音声認識方法及びシステムInfo
- Publication number
- JPH07210190A JPH07210190A JP6304072A JP30407294A JPH07210190A JP H07210190 A JPH07210190 A JP H07210190A JP 6304072 A JP6304072 A JP 6304072A JP 30407294 A JP30407294 A JP 30407294A JP H07210190 A JPH07210190 A JP H07210190A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- telephone network
- caller
- voice
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 230000001965 increasing effect Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000026676 system process Effects 0.000 claims 1
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 240000006766 Cornus mas Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
(57)【要約】 (修正有)
【目的】 判別された呼出し側のIDに基づいて電話網
内の音声認識システムの混乱を削減するための方法およ
びシステム。 【構成】 音声認識システムにおいて、音声の基本語彙
を表す音声テンプレート48、複数の呼出し側固有音声
テンプレート50(具体的な地理的位置と特定の個人に
対応する専用語彙と発音を表す音声テンプレートを含
む)が作成され、格納される。電話網を介してシステム
に持ち込まれる帯域幅の縮小、伝送チャネルの変動、お
よびその他の信号変化を反映する処理をすることが好ま
しい。呼出し側のIDは、ネットワークへの接続時に標
準の呼出し側識別回路44を介して判別され、発声を検
出すると、呼出し側のIDを判別できない場合は中核ラ
イブラリ48と照らし合わせてその発声を処理し、呼出
し側のIDを判別できる場合は特定の呼出し側固有ライ
ブラリ50と照らし合わせてその発声を処理する。
内の音声認識システムの混乱を削減するための方法およ
びシステム。 【構成】 音声認識システムにおいて、音声の基本語彙
を表す音声テンプレート48、複数の呼出し側固有音声
テンプレート50(具体的な地理的位置と特定の個人に
対応する専用語彙と発音を表す音声テンプレートを含
む)が作成され、格納される。電話網を介してシステム
に持ち込まれる帯域幅の縮小、伝送チャネルの変動、お
よびその他の信号変化を反映する処理をすることが好ま
しい。呼出し側のIDは、ネットワークへの接続時に標
準の呼出し側識別回路44を介して判別され、発声を検
出すると、呼出し側のIDを判別できない場合は中核ラ
イブラリ48と照らし合わせてその発声を処理し、呼出
し側のIDを判別できる場合は特定の呼出し側固有ライ
ブラリ50と照らし合わせてその発声を処理する。
Description
【0001】
【産業上の利用分野】本発明は、一般に、改良された音
声認識システムに関し、特に、音声認識精度を高めるた
めの改良された方法およびシステムに関する。より具体
的には、本発明は、呼出し側固有音声テンプレート・ラ
イブラリを使用して電話網内の音声認識を高めるための
方法およびシステムに関する。
声認識システムに関し、特に、音声認識精度を高めるた
めの改良された方法およびシステムに関する。より具体
的には、本発明は、呼出し側固有音声テンプレート・ラ
イブラリを使用して電話網内の音声認識を高めるための
方法およびシステムに関する。
【0002】
【従来の技術】音声認識は先行技術で周知の技術であ
る。既知の話し手用の所与の語彙から分離した単語を認
識することが、おそらく最も単純なタイプの音声認識で
あり、この種の音声認識がしばらく前から知られてい
た。一般に、認識対象語彙内の単語は個々のテンプレー
トとして事前記憶され、それぞれのテンプレートが語彙
内の単語の音声パターンを表している。分離した単語が
話されると、システムは、この単語と、語彙を表す個々
のテンプレートそれぞれとを比較するだけである。この
方法は一般に全単語テンプレート突合せ(マッチング)
と呼ばれている。成功した多くの音声認識システムで
は、この方法とともに動的プログラミングを使用して、
話された単語と事前記憶テンプレートとの非線形のタイ
ム・スケールの変化に対処している。
る。既知の話し手用の所与の語彙から分離した単語を認
識することが、おそらく最も単純なタイプの音声認識で
あり、この種の音声認識がしばらく前から知られてい
た。一般に、認識対象語彙内の単語は個々のテンプレー
トとして事前記憶され、それぞれのテンプレートが語彙
内の単語の音声パターンを表している。分離した単語が
話されると、システムは、この単語と、語彙を表す個々
のテンプレートそれぞれとを比較するだけである。この
方法は一般に全単語テンプレート突合せ(マッチング)
と呼ばれている。成功した多くの音声認識システムで
は、この方法とともに動的プログラミングを使用して、
話された単語と事前記憶テンプレートとの非線形のタイ
ム・スケールの変化に対処している。
【0003】連続音声や、固有名詞または地名を含む音
声を認識するのはもっと難しい。連続音声、すなわち、
単語の連続は、先行技術では複数経路動的プログラミン
グを使用して認識されていた。このようなシステムの一
例は、H. Sakoeによる"Two Level DP Matching A Dynam
ic Programming Based Pattern Matching AlgorithmFor
Connected Word Recognition"(IEEE Transactions on
Acoustics Speech and Signal Processing, Volume AS
SP-27, No. 6, pp. 588-595, 1979年12月)に提
案されている。この論文では、入力パターン全体に最も
一致する一連の単語テンプレートを見つけるための2パ
ス動的プログラミング・アルゴリズムを提案している。
システムを通るそれぞれのパスは、入力パターンのすべ
ての可能な部分と突き合わせたすべてのテンプレートに
おける類似性を示すスコアを生成する。もう1つのパス
では、このスコアを使用して、入力パターン全体に対応
する最良のテンプレート・シーケンスを見つける。
声を認識するのはもっと難しい。連続音声、すなわち、
単語の連続は、先行技術では複数経路動的プログラミン
グを使用して認識されていた。このようなシステムの一
例は、H. Sakoeによる"Two Level DP Matching A Dynam
ic Programming Based Pattern Matching AlgorithmFor
Connected Word Recognition"(IEEE Transactions on
Acoustics Speech and Signal Processing, Volume AS
SP-27, No. 6, pp. 588-595, 1979年12月)に提
案されている。この論文では、入力パターン全体に最も
一致する一連の単語テンプレートを見つけるための2パ
ス動的プログラミング・アルゴリズムを提案している。
システムを通るそれぞれのパスは、入力パターンのすべ
ての可能な部分と突き合わせたすべてのテンプレートに
おける類似性を示すスコアを生成する。もう1つのパス
では、このスコアを使用して、入力パターン全体に対応
する最良のテンプレート・シーケンスを見つける。
【0004】米国特許第5040127号では、入力フ
レームと、音声を表す事前記憶テンプレートとを比較
し、認識される可能性のある個々の単語として検討中の
各テンプレートごとにリンク・ネットワーク内のレコー
ド間にリンクを確立することによって連続音声を処理す
る、連続音声認識システムを提案している。リンクされ
たレコードは、索引付きデータ・セットとして格納され
ている親リンク・レコードと子孫リンク・レコードを含
み、各データ・セットは、テンプレートを表す記号と、
リンク・レコードが格納された相対時間を表す手順標識
と、その発生元であるネットワーク内のリンク・レコー
ドを示すポインタとを含む。
レームと、音声を表す事前記憶テンプレートとを比較
し、認識される可能性のある個々の単語として検討中の
各テンプレートごとにリンク・ネットワーク内のレコー
ド間にリンクを確立することによって連続音声を処理す
る、連続音声認識システムを提案している。リンクされ
たレコードは、索引付きデータ・セットとして格納され
ている親リンク・レコードと子孫リンク・レコードを含
み、各データ・セットは、テンプレートを表す記号と、
リンク・レコードが格納された相対時間を表す手順標識
と、その発生元であるネットワーク内のリンク・レコー
ドを示すポインタとを含む。
【0005】固有名詞の認識は、音声認識システムにと
っていわゆる「混乱」が増加することを意味し、この問
題は最近、米国特許第5212730号で認識されてい
る。この特許は、複数の発音が可能な固有名詞の発声表
現を認識するためのテキスト派生認識モデルを使用して
名前の認識を行う。この特許に記載されている名前認識
方法は、名前テキストを指定してから、名前テキストか
ら指定の数のテキスト派生認識モデルを構築することで
アクセスされるテキスト・データベースへの名前テキス
トの入力を含む。この場合、各テキスト派生認識モデル
は、その名前の少なくとも1つの発音を表す。その後、
発声した名前入力によってテキスト・データベースへの
アクセスを試みるたびに、テキスト・データベースと発
声した名前入力とを比較し、一致が可能かどうかを判別
する。
っていわゆる「混乱」が増加することを意味し、この問
題は最近、米国特許第5212730号で認識されてい
る。この特許は、複数の発音が可能な固有名詞の発声表
現を認識するためのテキスト派生認識モデルを使用して
名前の認識を行う。この特許に記載されている名前認識
方法は、名前テキストを指定してから、名前テキストか
ら指定の数のテキスト派生認識モデルを構築することで
アクセスされるテキスト・データベースへの名前テキス
トの入力を含む。この場合、各テキスト派生認識モデル
は、その名前の少なくとも1つの発音を表す。その後、
発声した名前入力によってテキスト・データベースへの
アクセスを試みるたびに、テキスト・データベースと発
声した名前入力とを比較し、一致が可能かどうかを判別
する。
【0006】米国特許第5202952号では、発声を
フレーム・データ・セットに変換することで音声を認識
する大規模語彙連続音声事前選別処理システムを開示し
ている。この場合、各フレーム・データ・セットが平滑
されて、所定の数のフレームにおける平滑フレーム・モ
デルを生成する。一続きのフレーム期間において音響的
に類似の単語モデルのクラスタを常駐語彙として指定
し、平滑フレーム・モデルとの比較対象となるクラスタ
用の確率モデルを使用して評価した平滑フレームの可能
性を含むクラスタ・スコアをシステムが生成する。
フレーム・データ・セットに変換することで音声を認識
する大規模語彙連続音声事前選別処理システムを開示し
ている。この場合、各フレーム・データ・セットが平滑
されて、所定の数のフレームにおける平滑フレーム・モ
デルを生成する。一続きのフレーム期間において音響的
に類似の単語モデルのクラスタを常駐語彙として指定
し、平滑フレーム・モデルとの比較対象となるクラスタ
用の確率モデルを使用して評価した平滑フレームの可能
性を含むクラスタ・スコアをシステムが生成する。
【0007】これらのシステムはどれも、音声認識を正
しく行うには連続音声発声の混乱を削減する必要がある
と認識している。この問題を取り扱っている文献として
は、"Perplexity-A Measure of Difficulty of Speech
Recognition Tasks"(Journal of the Acoustical Soci
ety of America, Volume 62, Supplement No. 1, p.S-6
3, 1977年秋号)と、"Continuous Speech Recognit
ion Statistical Methods"(Handbook of Statistics V
olume 2: Classification, Pattern Recognition and R
eduction of Dimensionality, pp. 549-573, North-Hol
land Publishing Company, 1982年)がある。
しく行うには連続音声発声の混乱を削減する必要がある
と認識している。この問題を取り扱っている文献として
は、"Perplexity-A Measure of Difficulty of Speech
Recognition Tasks"(Journal of the Acoustical Soci
ety of America, Volume 62, Supplement No. 1, p.S-6
3, 1977年秋号)と、"Continuous Speech Recognit
ion Statistical Methods"(Handbook of Statistics V
olume 2: Classification, Pattern Recognition and R
eduction of Dimensionality, pp. 549-573, North-Hol
land Publishing Company, 1982年)がある。
【0008】上記の説明を考慮し、音声認識を正しく行
うには、固有名詞、地名、および数値の場合に特に困難
な問題である、発音が似ている多数の単語間を区別する
能力を高める必要があることに留意されたい。したがっ
て、音声認識の精度と効率を高める方法およびシステム
が要求されていることに留意されたい。
うには、固有名詞、地名、および数値の場合に特に困難
な問題である、発音が似ている多数の単語間を区別する
能力を高める必要があることに留意されたい。したがっ
て、音声認識の精度と効率を高める方法およびシステム
が要求されていることに留意されたい。
【0009】
【発明が解決しようとする課題】本発明の一目的は、改
良された音声認識システムを提供することにある。
良された音声認識システムを提供することにある。
【0010】本発明の他の目的は、音声認識の精度と効
率を高めるための改良された方法およびシステムを提供
することにある。
率を高めるための改良された方法およびシステムを提供
することにある。
【0011】本発明の他の目的は、呼出し側固有音声テ
ンプレート・ライブラリを使用して電話網内の音声認識
を高めるための改良された方法およびシステムを提供す
ることにある。
ンプレート・ライブラリを使用して電話網内の音声認識
を高めるための改良された方法およびシステムを提供す
ることにある。
【0012】
【課題を解決するための手段】上記の諸目的は、以下に
説明する通りに達成される。判別された呼出し側のID
に基づいて電話網内の音声認識システムの混乱を削減す
るための方法およびシステムを開示する。音声を表す格
納済みテンプレートと照らし合わせて音声の入力フレー
ムを処理する音声認識システムでは、音声の基本語彙を
表す音声テンプレートの中核ライブラリが作成され、格
納される。複数の呼出し側固有音声テンプレート・ライ
ブラリも作成され、格納されるが、それぞれのライブラ
リは、具体的な地理的位置と特定の個人に対応する専用
語彙を表す音声テンプレートを含む。さらに、電話網を
介してシステムに持ち込まれる帯域幅の縮小、伝送チャ
ネルの変動、およびその他の信号変化を反映するため
に、呼出し側固有音声テンプレート・ライブラリを処理
することが好ましい。呼出し側のIDは、ネットワーク
への接続時に標準の呼出し側識別回路を介して判別さ
れ、発声を検出すると、呼出し側のIDを判別できない
場合は中核ライブラリと照らし合わせてその発声を処理
し、呼出し側のIDを判別できる場合は特定の呼出し側
固有ライブラリと照らし合わせてその発声を処理し、そ
れにより、システムによる音声認識の効率と精度が大幅
に向上する。
説明する通りに達成される。判別された呼出し側のID
に基づいて電話網内の音声認識システムの混乱を削減す
るための方法およびシステムを開示する。音声を表す格
納済みテンプレートと照らし合わせて音声の入力フレー
ムを処理する音声認識システムでは、音声の基本語彙を
表す音声テンプレートの中核ライブラリが作成され、格
納される。複数の呼出し側固有音声テンプレート・ライ
ブラリも作成され、格納されるが、それぞれのライブラ
リは、具体的な地理的位置と特定の個人に対応する専用
語彙を表す音声テンプレートを含む。さらに、電話網を
介してシステムに持ち込まれる帯域幅の縮小、伝送チャ
ネルの変動、およびその他の信号変化を反映するため
に、呼出し側固有音声テンプレート・ライブラリを処理
することが好ましい。呼出し側のIDは、ネットワーク
への接続時に標準の呼出し側識別回路を介して判別さ
れ、発声を検出すると、呼出し側のIDを判別できない
場合は中核ライブラリと照らし合わせてその発声を処理
し、呼出し側のIDを判別できる場合は特定の呼出し側
固有ライブラリと照らし合わせてその発声を処理し、そ
れにより、システムによる音声認識の効率と精度が大幅
に向上する。
【0013】
【実施例】ここで、添付図面、特に、図1を参照して説
明すると、同図には、本発明の方法およびシステムを実
現するために使用できる分散電話網が示されている。図
示の通り、公衆交換電話網10を介して複数のユーザ位
置がホスト位置12に連結されている。公衆交換電話網
10は、このような通信を実現するための周知の技術の
いずれかを使用して、電話通信を介して複数のユーザを
ホスト位置12に連結するよう機能することが好まし
い。たとえば、ユーザ位置14は、通信チャネル32、
公衆交換電話網10、および通信チャネル30を介して
ホスト位置12に連結された標準的な電話機18の使用
を反映している。電話機18を使用してユーザが入力し
た音声は、コンピュータ16を使用して実現した音声認
識システムを使って認識することができる。コンピュー
タ16は、IBM PS/2コンピュータなどのいわゆ
る「パーソナル」コンピュータのような適当なコンピュ
ータを使用して実現できる。
明すると、同図には、本発明の方法およびシステムを実
現するために使用できる分散電話網が示されている。図
示の通り、公衆交換電話網10を介して複数のユーザ位
置がホスト位置12に連結されている。公衆交換電話網
10は、このような通信を実現するための周知の技術の
いずれかを使用して、電話通信を介して複数のユーザを
ホスト位置12に連結するよう機能することが好まし
い。たとえば、ユーザ位置14は、通信チャネル32、
公衆交換電話網10、および通信チャネル30を介して
ホスト位置12に連結された標準的な電話機18の使用
を反映している。電話機18を使用してユーザが入力し
た音声は、コンピュータ16を使用して実現した音声認
識システムを使って認識することができる。コンピュー
タ16は、IBM PS/2コンピュータなどのいわゆ
る「パーソナル」コンピュータのような適当なコンピュ
ータを使用して実現できる。
【0014】あるいは、図1に示すように、ユーザは、
無線塔22による無線周波伝送を介して通信するセルラ
ー方式の移動電話20を使用することもできる。通常、
無線塔22は、陸上通信チャネル34を使用して公衆交
換電話網10に連結される。さらに、最新の大陸横断通
信は、衛星26および衛星受信機24を使って図示され
ているような衛星通信を使用して実現される場合も多
い。この場合、衛星受信機24は、通信チャネル36を
介して公衆交換電話網10に連結される。
無線塔22による無線周波伝送を介して通信するセルラ
ー方式の移動電話20を使用することもできる。通常、
無線塔22は、陸上通信チャネル34を使用して公衆交
換電話網10に連結される。さらに、最新の大陸横断通
信は、衛星26および衛星受信機24を使って図示され
ているような衛星通信を使用して実現される場合も多
い。この場合、衛星受信機24は、通信チャネル36を
介して公衆交換電話網10に連結される。
【0015】図1に示すように、最新の分散電話網は、
ユーザがホスト位置12との通信を確立できるようにす
るための複数の多様な通信チャネルを提供する。このよ
うな通信チャネルは、コンピュータ16を使用して実現
される音声認識システムの精度に影響する要素がそれぞ
れ明らかに異なっている。たとえば、所与の通信チャネ
ルでは帯域幅が縮小されている可能性がある。衛星シス
テムは、伝送エコーや信号遮断の諸問題に悩まされる場
合もある。しかも、信号品質が予測不能であること、様
々な電話機のマイク特性が不明であること、および様々
な地域アクセントも、図1に示すような分散電話網を使
用した音声認識システムを実現する上での困難の一因と
なる。
ユーザがホスト位置12との通信を確立できるようにす
るための複数の多様な通信チャネルを提供する。このよ
うな通信チャネルは、コンピュータ16を使用して実現
される音声認識システムの精度に影響する要素がそれぞ
れ明らかに異なっている。たとえば、所与の通信チャネ
ルでは帯域幅が縮小されている可能性がある。衛星シス
テムは、伝送エコーや信号遮断の諸問題に悩まされる場
合もある。しかも、信号品質が予測不能であること、様
々な電話機のマイク特性が不明であること、および様々
な地域アクセントも、図1に示すような分散電話網を使
用した音声認識システムを実現する上での困難の一因と
なる。
【0016】また、公衆交換電話網内で選択した通信チ
ャネルは、発声の質および内容を変化させる既知の圧縮
アルゴリズムやその他の各種信号処理技術を使用してい
る場合が多く、その発声の認識がローカル・システム内
での音声認識より困難になっている。
ャネルは、発声の質および内容を変化させる既知の圧縮
アルゴリズムやその他の各種信号処理技術を使用してい
る場合が多く、その発声の認識がローカル・システム内
での音声認識より困難になっている。
【0017】次に図2を参照すると、同図には、図1の
コンピュータ16を使用して実現できる音声認識システ
ムの高水準ブロック図が示されている。このシステム
は、呼出し側のIDを使用して、このようなシステムの
音声認識の混乱を削減する方法を示している。図2に示
すように、音声の基本語彙を表す音声テンプレートの中
核ライブラリ48を含むメモリ46が、コンピュータ1
6内に実現された音声認識システム内部に設けられてい
る。同様に、メモリ46内には複数の呼出し側固有ライ
ブラリ50も格納されている。それぞれの呼出し側固有
ライブラリ50は、その呼出し側が通常使用する通信チ
ャネルに関連する、特定の地理的位置に関連する専用語
彙を表すテンプレートを含むことが好ましく、これらの
テンプレート内のデータは、帯域幅、マイク特性、アナ
ログ信号品質、および図1の分散電話網内の特定の呼出
し側に関連するその他の各種パラメータを反映するよう
変更されていることが好ましい。
コンピュータ16を使用して実現できる音声認識システ
ムの高水準ブロック図が示されている。このシステム
は、呼出し側のIDを使用して、このようなシステムの
音声認識の混乱を削減する方法を示している。図2に示
すように、音声の基本語彙を表す音声テンプレートの中
核ライブラリ48を含むメモリ46が、コンピュータ1
6内に実現された音声認識システム内部に設けられてい
る。同様に、メモリ46内には複数の呼出し側固有ライ
ブラリ50も格納されている。それぞれの呼出し側固有
ライブラリ50は、その呼出し側が通常使用する通信チ
ャネルに関連する、特定の地理的位置に関連する専用語
彙を表すテンプレートを含むことが好ましく、これらの
テンプレート内のデータは、帯域幅、マイク特性、アナ
ログ信号品質、および図1の分散電話網内の特定の呼出
し側に関連するその他の各種パラメータを反映するよう
変更されていることが好ましい。
【0018】当業者は、このような呼出し側固有ライブ
ラリが、発声の検出に必要な通信チャネルをモデリング
するネットワークを介して発声を選別し処理することで
作成できることに留意されたい。しかも、本明細書を参
照し、それぞれの呼出し側固有ライブラリが、分散電話
網内の指定の呼出し側のIDに関連する指定の地理的位
置に密接に関係する具体的な地理的位置、事業所、また
は固有名詞を表す一連の音声テンプレートを含んでもよ
いことに留意されたい。
ラリが、発声の検出に必要な通信チャネルをモデリング
するネットワークを介して発声を選別し処理することで
作成できることに留意されたい。しかも、本明細書を参
照し、それぞれの呼出し側固有ライブラリが、分散電話
網内の指定の呼出し側のIDに関連する指定の地理的位
置に密接に関係する具体的な地理的位置、事業所、また
は固有名詞を表す一連の音声テンプレートを含んでもよ
いことに留意されたい。
【0019】したがって、ユーザと、コンピュータ16
内に実現された音声認識システムとの間で通信が確立
し、音声発声が検出されるたびに、その発声がアナログ
/ディジタル変換器42を使用して処理用に適切に変換
され、プロセッサ40に連結されることが好ましい。次
に、プロセッサ40は、呼出し側識別回路44と関連し
て公衆交換電話網から得られる呼出し側識別信号を使用
して、使用電話機を識別することで特定の呼出し側のI
Dを確立する。当業者が理解できるように、このIDに
より、呼出し側とホスト位置との間で検出される典型的
な通信経路に基づいて、特定の呼出し側の地理的位置と
その特定の呼出し側に通常関連する通信チャネル・パラ
メータに関する有用な情報が得られる。
内に実現された音声認識システムとの間で通信が確立
し、音声発声が検出されるたびに、その発声がアナログ
/ディジタル変換器42を使用して処理用に適切に変換
され、プロセッサ40に連結されることが好ましい。次
に、プロセッサ40は、呼出し側識別回路44と関連し
て公衆交換電話網から得られる呼出し側識別信号を使用
して、使用電話機を識別することで特定の呼出し側のI
Dを確立する。当業者が理解できるように、このIDに
より、呼出し側とホスト位置との間で検出される典型的
な通信経路に基づいて、特定の呼出し側の地理的位置と
その特定の呼出し側に通常関連する通信チャネル・パラ
メータに関する有用な情報が得られる。
【0020】このため、呼出し側識別回路44の出力
は、メモリ46内に含まれる複数の呼出し側固有ライブ
ラリ50のうちの特定のライブラリをプロセッサ40が
選択できるようにするためにプロセッサ40が使用す
る。次に、音声データの入力フレームが、メモリ46内
の音声テンプレートのライブラリと比較され、その音声
発声の内容が判別される。その場合、プロセッサ40
は、他のデータへのアクセス権を制御するか、特定の活
動を実現するか、または周辺システムを口頭制御するた
めに使用できる出力信号を生成してもよい。
は、メモリ46内に含まれる複数の呼出し側固有ライブ
ラリ50のうちの特定のライブラリをプロセッサ40が
選択できるようにするためにプロセッサ40が使用す
る。次に、音声データの入力フレームが、メモリ46内
の音声テンプレートのライブラリと比較され、その音声
発声の内容が判別される。その場合、プロセッサ40
は、他のデータへのアクセス権を制御するか、特定の活
動を実現するか、または周辺システムを口頭制御するた
めに使用できる出力信号を生成してもよい。
【0021】上記の説明を参照し、当業者は、呼出し側
のIDを判別できないような状況で使用するために標準
化した一連のテンプレートを提供するために中核ライブ
ラリ48を使用できること、あるいは、特定の地理的位
置固有の語彙項目または通信チャネル内の伝送パラメー
タによって大幅に影響を受ける発声を反映するために、
中核ライブラリ48が、呼出し側固有ライブラリと結合
された一連の基本語彙テンプレートを含んでもよいこと
に留意されたい。いずれの場合にも、プロセッサ40
は、呼出し側ID44を使用して呼出し側固有ライブラ
リを選択することで、メモリ46内のライブラリと照ら
し合わせて入力発声を処理し、それにより、コンピュー
タ16内に実現された音声認識システムの効率と精度が
大幅に向上する。
のIDを判別できないような状況で使用するために標準
化した一連のテンプレートを提供するために中核ライブ
ラリ48を使用できること、あるいは、特定の地理的位
置固有の語彙項目または通信チャネル内の伝送パラメー
タによって大幅に影響を受ける発声を反映するために、
中核ライブラリ48が、呼出し側固有ライブラリと結合
された一連の基本語彙テンプレートを含んでもよいこと
に留意されたい。いずれの場合にも、プロセッサ40
は、呼出し側ID44を使用して呼出し側固有ライブラ
リを選択することで、メモリ46内のライブラリと照ら
し合わせて入力発声を処理し、それにより、コンピュー
タ16内に実現された音声認識システムの効率と精度が
大幅に向上する。
【0022】音声認識においてこれまでに知られている
試みに関して前述した通り、入力音声の処理に使用する
テンプレートは、個々の単語、語句、または単語の一部
を表すテンプレートを含むことができる。本明細書で使
用する「テンプレート」という用語は、未知の音声発声
を識別するためにプロセッサ40が使用できるディジタ
ル表現を格納したものを意味する。
試みに関して前述した通り、入力音声の処理に使用する
テンプレートは、個々の単語、語句、または単語の一部
を表すテンプレートを含むことができる。本明細書で使
用する「テンプレート」という用語は、未知の音声発声
を識別するためにプロセッサ40が使用できるディジタ
ル表現を格納したものを意味する。
【0023】最後に図3を参照して説明すると、同図に
は、本発明の方法を実現するためのプロセスを示す高水
準論理流れ図が示されている。図示の通り、このプロセ
スはブロック60から始まり、ブロック62に移行す
る。ブロック62は、公衆交換電話網を介してホスト位
置への接続をユーザが確立することを示している(図1
参照)。次に、プロセスはブロック64に移行する。ブ
ロック64は、言葉の発声が検出されたかどうかの判別
を示している。検出されなかった場合は、発声が検出さ
れるまでプロセスが反復するだけである。しかし、言葉
の発声が検出されると、プロセスはブロック66に移行
する。
は、本発明の方法を実現するためのプロセスを示す高水
準論理流れ図が示されている。図示の通り、このプロセ
スはブロック60から始まり、ブロック62に移行す
る。ブロック62は、公衆交換電話網を介してホスト位
置への接続をユーザが確立することを示している(図1
参照)。次に、プロセスはブロック64に移行する。ブ
ロック64は、言葉の発声が検出されたかどうかの判別
を示している。検出されなかった場合は、発声が検出さ
れるまでプロセスが反復するだけである。しかし、言葉
の発声が検出されると、プロセスはブロック66に移行
する。
【0024】ブロック66は、呼出し側のIDが電話網
から判別できるかどうかの判別を示している。当業者
は、呼出し側のIDは普遍的に適用できるものではな
く、そのため、システムにアクセスする特定の呼出し側
のIDが判別できない場合もあることに留意されたい。
ただし、呼出し側のIDが判別された場合、プロセスは
ブロック68に移行する。ブロック68は、メモリ46
内から特定の呼出し側固有ライブラリを選択することを
示している(図2参照)。前述の通り、特定の呼出し側
固有ライブラリは、通信チャネル内の口頭通信に影響す
る伝送パラメータを正確に反映するよう処理された音声
発声を含むことが好ましい。このため、帯域制限、処理
技術、および口頭通信に影響するその他のパラメータを
使用して、そのチャネルで処理された発声をもっと正確
に反映するような音声テンプレートが作成されている。
しかも、その呼出し側のIDに関連する特定の地理的地
域に特有の具体的な語彙単語と発音も、呼出し側固有ラ
イブラリ内に含まれる。たとえば、定期航空路線の運航
スケジュールに口頭アクセスできるようなシステムは、
電話網を使用して判別される呼出し側の位置の付近にあ
る地理的位置の発声表現を、その位置からかなり離れた
ところにある地理的位置より可能性の高い認識用選択項
目として含むように設計された、一連の呼出し側固有テ
ンプレートを有することが好ましい。
から判別できるかどうかの判別を示している。当業者
は、呼出し側のIDは普遍的に適用できるものではな
く、そのため、システムにアクセスする特定の呼出し側
のIDが判別できない場合もあることに留意されたい。
ただし、呼出し側のIDが判別された場合、プロセスは
ブロック68に移行する。ブロック68は、メモリ46
内から特定の呼出し側固有ライブラリを選択することを
示している(図2参照)。前述の通り、特定の呼出し側
固有ライブラリは、通信チャネル内の口頭通信に影響す
る伝送パラメータを正確に反映するよう処理された音声
発声を含むことが好ましい。このため、帯域制限、処理
技術、および口頭通信に影響するその他のパラメータを
使用して、そのチャネルで処理された発声をもっと正確
に反映するような音声テンプレートが作成されている。
しかも、その呼出し側のIDに関連する特定の地理的地
域に特有の具体的な語彙単語と発音も、呼出し側固有ラ
イブラリ内に含まれる。たとえば、定期航空路線の運航
スケジュールに口頭アクセスできるようなシステムは、
電話網を使用して判別される呼出し側の位置の付近にあ
る地理的位置の発声表現を、その位置からかなり離れた
ところにある地理的位置より可能性の高い認識用選択項
目として含むように設計された、一連の呼出し側固有テ
ンプレートを有することが好ましい。
【0025】呼出し側IDの判別に基づいて特定の呼出
し側固有ライブラリを選択した後で、プロセスはブロッ
ク70に移行する。ブロック70は、その呼出し側固有
ライブラリと照らし合わせて発声を処理することを示し
ている。当然のことながら、前述の通り、呼出し側固有
テンプレート・ライブラリと照らし合わせて入力音声発
声を処理する場合、公衆交換電話網内の通信チャネルに
よる伝送の結果として発生する劣化にもかかわらず、容
易に認識できる共通発声からなる中核ライブラリと照ら
し合わせてその発声を処理することを含んでもよい。
し側固有ライブラリを選択した後で、プロセスはブロッ
ク70に移行する。ブロック70は、その呼出し側固有
ライブラリと照らし合わせて発声を処理することを示し
ている。当然のことながら、前述の通り、呼出し側固有
テンプレート・ライブラリと照らし合わせて入力音声発
声を処理する場合、公衆交換電話網内の通信チャネルに
よる伝送の結果として発生する劣化にもかかわらず、容
易に認識できる共通発声からなる中核ライブラリと照ら
し合わせてその発声を処理することを含んでもよい。
【0026】もう一度ブロック66を参照すると、呼出
し側のIDを判別できない場合は、プロセスはブロック
72に移行する。ブロック72は、呼出し側のIDを判
別できないような状況に使用できる中核ライブラリと照
らし合わせて入力音声発声を処理することを示してい
る。その後、中核ライブラリまたは呼出し側固有ライブ
ラリを単独でまたは何らかの基本中核ライブラリととも
に使用して突合せを行って入力音声発声を処理した後
で、プロセスはブロック74に移行する。ブロック74
は、発声が認識されたかどうかの判別を示している。発
声が認識されない場合、すなわち、発声と既知のテンプ
レートとの間に確率の高い一致が存在しない場合、プロ
セスはブロック76に移行する。ブロック76は、適当
なエラー・メッセージの生成を示しており、その後、プ
ロセスはブロック78に移行して復帰する。当業者は、
この時点で通信を終了するか、または最終的にその音声
の認識に到達できるようにもう一度発声の発音を試みる
よう話し手に催促できることに留意されたい。
し側のIDを判別できない場合は、プロセスはブロック
72に移行する。ブロック72は、呼出し側のIDを判
別できないような状況に使用できる中核ライブラリと照
らし合わせて入力音声発声を処理することを示してい
る。その後、中核ライブラリまたは呼出し側固有ライブ
ラリを単独でまたは何らかの基本中核ライブラリととも
に使用して突合せを行って入力音声発声を処理した後
で、プロセスはブロック74に移行する。ブロック74
は、発声が認識されたかどうかの判別を示している。発
声が認識されない場合、すなわち、発声と既知のテンプ
レートとの間に確率の高い一致が存在しない場合、プロ
セスはブロック76に移行する。ブロック76は、適当
なエラー・メッセージの生成を示しており、その後、プ
ロセスはブロック78に移行して復帰する。当業者は、
この時点で通信を終了するか、または最終的にその音声
の認識に到達できるようにもう一度発声の発音を試みる
よう話し手に催促できることに留意されたい。
【0027】もう一度ブロック74を参照すると、発声
が認識された場合は、プロセスはブロック80に移行す
る。ブロック80は、その発声の処理を示している。当
業者は、「発声の処理」が、その他のデータにアクセス
するか、何らかの機能を実行するか、または何らかの方
法でコンピュータ16の周辺システムと対話して、発声
に対して高機能反応を提供するか、それを文字に置き換
えるために、その発声の言語内容または情報内容を使用
することを意味することに留意されたい。その後、プロ
セスはブロック78に移行して復帰する。
が認識された場合は、プロセスはブロック80に移行す
る。ブロック80は、その発声の処理を示している。当
業者は、「発声の処理」が、その他のデータにアクセス
するか、何らかの機能を実行するか、または何らかの方
法でコンピュータ16の周辺システムと対話して、発声
に対して高機能反応を提供するか、それを文字に置き換
えるために、その発声の言語内容または情報内容を使用
することを意味することに留意されたい。その後、プロ
セスはブロック78に移行して復帰する。
【0028】上記の説明を参照し、当業者は、複数の呼
出し側固有音声テンプレート・ライブラリ内の音声認識
システムと、既存の呼出し側識別システムとを組み合わ
せることで、電話網内の通信チャネルの結果として発生
する信号変化を考慮した処理と、地理に固有の語彙およ
び発音およびその他の言語現象の変化を考慮した処理に
よって入力音声がもっと正確に認識できるため、効率と
精度が大幅に向上した音声認識システムを提供できるこ
とに留意されたい。
出し側固有音声テンプレート・ライブラリ内の音声認識
システムと、既存の呼出し側識別システムとを組み合わ
せることで、電話網内の通信チャネルの結果として発生
する信号変化を考慮した処理と、地理に固有の語彙およ
び発音およびその他の言語現象の変化を考慮した処理に
よって入力音声がもっと正確に認識できるため、効率と
精度が大幅に向上した音声認識システムを提供できるこ
とに留意されたい。
【0029】まとめとして、本発明の構成に関して以下
の事項を開示する。
の事項を開示する。
【0030】(1)電話網を介して音声を表す格納済み
テンプレートと照らし合わせて音声の入力フレームを処
理する音声認識システムの精度と効率を高めるための方
法において、音声テンプレートの中核ライブラリを作成
して格納するステップと、複数の呼出し側固有音声テン
プレート・ライブラリを作成して格納するステップと、
前記電話網内の呼出し側のIDを判別しようと試みるス
テップと、前記電話網内の前記呼出し側のIDが判別さ
れない場合に、音声テンプレートの前記中核ライブラリ
と照らし合わせて入力音声発声を処理するステップと、
前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するステップとを含む方法。 (2)前記電話網内の呼出し側のIDを判別する前記ス
テップが、前記電話網内の呼出し側識別システムを使用
して前記呼出し側のIDを判別するステップを含むこと
を特徴とする、上記(1)に記載の電話網を介して音声
を表す格納済みテンプレートと照らし合わせて音声の入
力フレームを処理する音声認識システムの精度と効率を
高めるための方法。 (3)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、前記電話網内で
の伝送の結果として発生する音声発声の変化を反映する
ように処理される複数の呼出し側固有音声テンプレート
・ライブラリを作成して格納するステップを含むことを
特徴とする、上記(1)に記載の電話網を介して音声を
表す格納済みテンプレートと照らし合わせて音声の入力
フレームを処理する音声認識システムの精度と効率を高
めるための方法。 (4)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、具体的な地理的
位置を反映する語彙および発音を含む複数の呼出し側固
有音声テンプレート・ライブラリを作成して格納するス
テップを含むことを特徴とする、上記(1)に記載の電
話網を介して音声を表す格納済みテンプレートと照らし
合わせて音声の入力フレームを処理する音声認識システ
ムの精度と効率を高めるための方法。 (5)電話網を介して音声を表す格納済みテンプレート
と照らし合わせて音声の入力フレームを処理する音声認
識システムの精度と効率を高めるためのシステムにおい
て、音声テンプレートの中核ライブラリを作成して格納
するための手段と、複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段と、前記
電話網内の呼出し側のIDを判別しようと試みるための
手段と、前記電話網内の前記呼出し側のIDが判別され
ない場合に、音声テンプレートの前記中核ライブラリと
照らし合わせて入力音声発声を処理するための手段と、
前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するための手段とを含むシステム。 (6)前記電話網内の呼出し側のIDを判別するための
前記手段が、前記電話網内の呼出し側識別システムを使
用して前記呼出し側のIDを判別するための手段を含む
ことを特徴とする、上記(5)に記載の電話網を介して
音声を表す格納済みテンプレートと照らし合わせて音声
の入力フレームを処理する音声認識システムの精度と効
率を高めるためのシステム。 (7)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、前記電話網内
での伝送の結果として発生する音声発声の変化を反映す
るように処理される複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段を含むこ
とを特徴とする、上記(5)に記載の電話網を介して音
声を表す格納済みテンプレートと照らし合わせて音声の
入力フレームを処理する音声認識システムの精度と効率
を高めるためのシステム。 (8)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、具体的な地理
的位置を反映する語彙発音を含む複数の呼出し側固有音
声テンプレート・ライブラリを作成して格納するための
手段を含むことを特徴とする、上記(5)に記載の電話
網を介して音声を表す格納済みテンプレートと照らし合
わせて音声の入力フレームを処理する音声認識システム
の精度と効率を高めるためのシステム。
テンプレートと照らし合わせて音声の入力フレームを処
理する音声認識システムの精度と効率を高めるための方
法において、音声テンプレートの中核ライブラリを作成
して格納するステップと、複数の呼出し側固有音声テン
プレート・ライブラリを作成して格納するステップと、
前記電話網内の呼出し側のIDを判別しようと試みるス
テップと、前記電話網内の前記呼出し側のIDが判別さ
れない場合に、音声テンプレートの前記中核ライブラリ
と照らし合わせて入力音声発声を処理するステップと、
前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するステップとを含む方法。 (2)前記電話網内の呼出し側のIDを判別する前記ス
テップが、前記電話網内の呼出し側識別システムを使用
して前記呼出し側のIDを判別するステップを含むこと
を特徴とする、上記(1)に記載の電話網を介して音声
を表す格納済みテンプレートと照らし合わせて音声の入
力フレームを処理する音声認識システムの精度と効率を
高めるための方法。 (3)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、前記電話網内で
の伝送の結果として発生する音声発声の変化を反映する
ように処理される複数の呼出し側固有音声テンプレート
・ライブラリを作成して格納するステップを含むことを
特徴とする、上記(1)に記載の電話網を介して音声を
表す格納済みテンプレートと照らし合わせて音声の入力
フレームを処理する音声認識システムの精度と効率を高
めるための方法。 (4)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納する前記ステップが、具体的な地理的
位置を反映する語彙および発音を含む複数の呼出し側固
有音声テンプレート・ライブラリを作成して格納するス
テップを含むことを特徴とする、上記(1)に記載の電
話網を介して音声を表す格納済みテンプレートと照らし
合わせて音声の入力フレームを処理する音声認識システ
ムの精度と効率を高めるための方法。 (5)電話網を介して音声を表す格納済みテンプレート
と照らし合わせて音声の入力フレームを処理する音声認
識システムの精度と効率を高めるためのシステムにおい
て、音声テンプレートの中核ライブラリを作成して格納
するための手段と、複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段と、前記
電話網内の呼出し側のIDを判別しようと試みるための
手段と、前記電話網内の前記呼出し側のIDが判別され
ない場合に、音声テンプレートの前記中核ライブラリと
照らし合わせて入力音声発声を処理するための手段と、
前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するための手段とを含むシステム。 (6)前記電話網内の呼出し側のIDを判別するための
前記手段が、前記電話網内の呼出し側識別システムを使
用して前記呼出し側のIDを判別するための手段を含む
ことを特徴とする、上記(5)に記載の電話網を介して
音声を表す格納済みテンプレートと照らし合わせて音声
の入力フレームを処理する音声認識システムの精度と効
率を高めるためのシステム。 (7)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、前記電話網内
での伝送の結果として発生する音声発声の変化を反映す
るように処理される複数の呼出し側固有音声テンプレー
ト・ライブラリを作成して格納するための手段を含むこ
とを特徴とする、上記(5)に記載の電話網を介して音
声を表す格納済みテンプレートと照らし合わせて音声の
入力フレームを処理する音声認識システムの精度と効率
を高めるためのシステム。 (8)複数の呼出し側固有音声テンプレート・ライブラ
リを作成して格納するための前記手段が、具体的な地理
的位置を反映する語彙発音を含む複数の呼出し側固有音
声テンプレート・ライブラリを作成して格納するための
手段を含むことを特徴とする、上記(5)に記載の電話
網を介して音声を表す格納済みテンプレートと照らし合
わせて音声の入力フレームを処理する音声認識システム
の精度と効率を高めるためのシステム。
【0031】
【発明の効果】本発明によれば、改良された音声認識シ
ステムが提供される。また、音声認識の精度と効率を高
めるための改良された方法およびシステムが提供され
る。さらに、呼出し側固有音声テンプレート・ライブラ
リを使用して電話網内の音声認識を高めるための改良さ
れた方法およびシステムが提供される。
ステムが提供される。また、音声認識の精度と効率を高
めるための改良された方法およびシステムが提供され
る。さらに、呼出し側固有音声テンプレート・ライブラ
リを使用して電話網内の音声認識を高めるための改良さ
れた方法およびシステムが提供される。
【図1】本発明の方法およびシステムを実現するために
使用できる分散電話網の絵画図である。
使用できる分散電話網の絵画図である。
【図2】図1のホスト位置内の音声認識システムの高水
準ブロック図である。
準ブロック図である。
【図3】本発明の方法を実現するためのプロセスを図示
する高水準論理流れ図である。
する高水準論理流れ図である。
16 コンピュータ 40 プロセッサ 42 A/D変換器 44 呼出し側識別回路 46 メモリ 48 中核ライブラリ 50 呼出し側固有ライブラリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョン・エム・リュカッセン アメリカ合衆国10025 ニューヨーク州ニ ューヨーク ワンハンドレッドアンドサー ド・ストリート ウエスト 308 (72)発明者 エルトン・ビー・シャーウィン・ジュニア アメリカ合衆国06903 コネチカット州ス タンフォード ドッグウッド・レーン 26 (72)発明者 ホルヘ・エル・ビスカイノ アメリカ合衆国33067 フロリダ州パーク ランド セブンティーセカンド・プレース ノースウエスト 6442
Claims (8)
- 【請求項1】電話網を介して音声を表す格納済みテンプ
レートと照らし合わせて音声の入力フレームを処理する
音声認識システムの精度と効率を高めるための方法にお
いて、 音声テンプレートの中核ライブラリを作成して格納する
ステップと、 複数の呼出し側固有音声テンプレート・ライブラリを作
成して格納するステップと、 前記電話網内の呼出し側のIDを判別しようと試みるス
テップと、 前記電話網内の前記呼出し側のIDが判別されない場合
に、音声テンプレートの前記中核ライブラリと照らし合
わせて入力音声発声を処理するステップと、 前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するステップとを含む方法。 - 【請求項2】前記電話網内の呼出し側のIDを判別する
前記ステップが、前記電話網内の呼出し側識別システム
を使用して前記呼出し側のIDを判別するステップを含
むことを特徴とする、請求項1に記載の電話網を介して
音声を表す格納済みテンプレートと照らし合わせて音声
の入力フレームを処理する音声認識システムの精度と効
率を高めるための方法。 - 【請求項3】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納する前記ステップが、前記電話
網内での伝送の結果として発生する音声発声の変化を反
映するように処理される複数の呼出し側固有音声テンプ
レート・ライブラリを作成して格納するステップを含む
ことを特徴とする、請求項1に記載の電話網を介して音
声を表す格納済みテンプレートと照らし合わせて音声の
入力フレームを処理する音声認識システムの精度と効率
を高めるための方法。 - 【請求項4】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納する前記ステップが、具体的な
地理的位置を反映する語彙および発音を含む複数の呼出
し側固有音声テンプレート・ライブラリを作成して格納
するステップを含むことを特徴とする、請求項1に記載
の電話網を介して音声を表す格納済みテンプレートと照
らし合わせて音声の入力フレームを処理する音声認識シ
ステムの精度と効率を高めるための方法。 - 【請求項5】電話網を介して音声を表す格納済みテンプ
レートと照らし合わせて音声の入力フレームを処理する
音声認識システムの精度と効率を高めるためのシステム
において、 音声テンプレートの中核ライブラリを作成して格納する
ための手段と、 複数の呼出し側固有音声テンプレート・ライブラリを作
成して格納するための手段と、 前記電話網内の呼出し側のIDを判別しようと試みるた
めの手段と、 前記電話網内の前記呼出し側のIDが判別されない場合
に、音声テンプレートの前記中核ライブラリと照らし合
わせて入力音声発声を処理するための手段と、 前記電話網内の前記呼出し側のIDの判別に対する応答
として、前記複数の呼出し側固有音声テンプレート・ラ
イブラリから選択されたライブラリと照らし合わせて入
力音声発声を処理するための手段とを含むシステム。 - 【請求項6】前記電話網内の呼出し側のIDを判別する
ための前記手段が、前記電話網内の呼出し側識別システ
ムを使用して前記呼出し側のIDを判別するための手段
を含むことを特徴とする、請求項5に記載の電話網を介
して音声を表す格納済みテンプレートと照らし合わせて
音声の入力フレームを処理する音声認識システムの精度
と効率を高めるためのシステム。 - 【請求項7】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納するための前記手段が、前記電
話網内での伝送の結果として発生する音声発声の変化を
反映するように処理される複数の呼出し側固有音声テン
プレート・ライブラリを作成して格納するための手段を
含むことを特徴とする、請求項5に記載の電話網を介し
て音声を表す格納済みテンプレートと照らし合わせて音
声の入力フレームを処理する音声認識システムの精度と
効率を高めるためのシステム。 - 【請求項8】複数の呼出し側固有音声テンプレート・ラ
イブラリを作成して格納するための前記手段が、具体的
な地理的位置を反映する語彙発音を含む複数の呼出し側
固有音声テンプレート・ライブラリを作成して格納する
ための手段を含むことを特徴とする、請求項5に記載の
電話網を介して音声を表す格納済みテンプレートと照ら
し合わせて音声の入力フレームを処理する音声認識シス
テムの精度と効率を高めるためのシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US175707 | 1988-03-31 | ||
US17570793A | 1993-12-30 | 1993-12-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07210190A true JPH07210190A (ja) | 1995-08-11 |
Family
ID=22641311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6304072A Pending JPH07210190A (ja) | 1993-12-30 | 1994-12-07 | 音声認識方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US5802251A (ja) |
EP (1) | EP0661690A1 (ja) |
JP (1) | JPH07210190A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6529881B2 (en) * | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
EP0943139B1 (en) | 1997-10-07 | 2003-12-03 | Koninklijke Philips Electronics N.V. | A method and device for activating a voice-controlled function in a multi-station network through using both speaker-dependent and speaker-independent speech recognition |
DE69822296T2 (de) * | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
US6185536B1 (en) * | 1998-03-04 | 2001-02-06 | Motorola, Inc. | System and method for establishing a communication link using user-specific voice data parameters as a user discriminator |
WO2000004510A1 (en) * | 1998-07-20 | 2000-01-27 | Ameritech Corporation | Method and apparatus for speaker verification and minimal supervisory reporting |
JP2000352995A (ja) * | 1999-06-14 | 2000-12-19 | Canon Inc | 会議音声処理方法および記録装置、情報記憶媒体 |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
EP1160767B1 (en) * | 2000-05-27 | 2005-07-06 | Swisscom Fixnet AG | Speech recognition with contextual hypothesis probabilities |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
US7024359B2 (en) | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
US6785647B2 (en) | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US7254226B1 (en) | 2001-05-08 | 2007-08-07 | At&T Intellectual Property, Inc. | Call waiting priority alert |
US6775358B1 (en) | 2001-05-17 | 2004-08-10 | Oracle Cable, Inc. | Method and system for enhanced interactive playback of audio content to telephone callers |
US7899742B2 (en) * | 2001-05-29 | 2011-03-01 | American Express Travel Related Services Company, Inc. | System and method for facilitating a subsidiary card account |
US7012999B2 (en) * | 2001-06-25 | 2006-03-14 | Bellsouth Intellectual Property Corporation | Audio caller identification |
US7085358B2 (en) | 2001-06-25 | 2006-08-01 | Bellsouth Intellectual Property Corporation | Visual caller identification |
US7403768B2 (en) | 2001-08-14 | 2008-07-22 | At&T Delaware Intellectual Property, Inc. | Method for using AIN to deliver caller ID to text/alpha-numeric pagers as well as other wireless devices, for calls delivered to wireless network |
US7315614B2 (en) | 2001-08-14 | 2008-01-01 | At&T Delaware Intellectual Property, Inc. | Remote notification of communications |
US7269249B2 (en) | 2001-09-28 | 2007-09-11 | At&T Bls Intellectual Property, Inc. | Systems and methods for providing user profile information in conjunction with an enhanced caller information system |
US7079837B1 (en) | 2001-11-06 | 2006-07-18 | Bellsouth Intellectual Property Corporation | Caller identification queue for wireless telephones |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US7315618B1 (en) | 2001-12-27 | 2008-01-01 | At&T Bls Intellectual Property, Inc. | Voice caller ID |
US7586898B1 (en) | 2002-05-13 | 2009-09-08 | At&T Intellectual Property, I, L.P. | Third party content for internet caller-ID messages |
US20030233231A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Apparatus and method for managing privacy using voice recognition and caller identification |
US7127488B1 (en) | 2002-07-23 | 2006-10-24 | Bellsouth Intellectual Property Corp. | System and method for gathering information related to a geographical location of a caller in an internet-based communication system |
US7623645B1 (en) | 2002-07-23 | 2009-11-24 | At&T Intellectual Property, I, L.P. | System and method for gathering information related to a geographical location of a caller in a public switched telephone network |
US7139374B1 (en) | 2002-07-23 | 2006-11-21 | Bellsouth Intellectual Property Corp. | System and method for gathering information related to a geographical location of a callee in a public switched telephone network |
US7463727B2 (en) | 2003-04-18 | 2008-12-09 | At&T International Property, I, L.P. | Caller ID messaging device |
US7443964B2 (en) | 2003-04-18 | 2008-10-28 | At&T Intellectual Property, I,L.P. | Caller ID messaging |
US7283625B2 (en) | 2003-04-18 | 2007-10-16 | At&T Bls Intellectual Property, Inc. | Caller ID messaging telecommunications services |
US7280646B2 (en) | 2003-04-18 | 2007-10-09 | At&T Bls Intellectual Property, Inc. | Dynamic Caller ID messaging |
US7978833B2 (en) | 2003-04-18 | 2011-07-12 | At&T Intellectual Property I, L.P. | Private caller ID messaging |
US7269412B2 (en) | 2003-05-29 | 2007-09-11 | At&T Bls Intellectual Property, Inc. | Caller identification device and method of operation thereof |
US7299177B2 (en) | 2003-05-30 | 2007-11-20 | American Express Travel Related Services Company, Inc. | Speaker recognition in a multi-speaker environment and comparison of several voice prints to many |
WO2005013057A2 (en) | 2003-07-25 | 2005-02-10 | Jp Morgan Chase Bank | Financial network-based payment card |
US7623849B2 (en) | 2003-11-13 | 2009-11-24 | At&T Intellectual Property, I, L.P. | Method, system, and storage medium for providing comprehensive originator identification services |
US7672444B2 (en) | 2003-12-24 | 2010-03-02 | At&T Intellectual Property, I, L.P. | Client survey systems and methods using caller identification information |
US6970546B2 (en) * | 2004-01-12 | 2005-11-29 | Bellsouth Intellecutal Property Corp. | Intelligent remote caller ID |
US20100287092A1 (en) * | 2004-02-25 | 2010-11-11 | Bank One, Delaware National Association | Method and system for real estate loan administration |
US7702767B2 (en) * | 2004-03-09 | 2010-04-20 | Jp Morgan Chase Bank | User connectivity process management system |
US20050243975A1 (en) * | 2004-04-28 | 2005-11-03 | International Business Machines Corporation | Method and system of determining unsolicited callers |
US8533030B1 (en) * | 2004-08-30 | 2013-09-10 | Jpmorgan Chase Bank, N.A. | In-bound telemarketing system for processing customer offers |
US7774248B1 (en) | 2004-11-30 | 2010-08-10 | Jp Morgan Chase Bank | Method and apparatus for managing risk |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US7940897B2 (en) * | 2005-06-24 | 2011-05-10 | American Express Travel Related Services Company, Inc. | Word recognition system and method for customer and employee assessment |
US7925578B1 (en) | 2005-08-26 | 2011-04-12 | Jpmorgan Chase Bank, N.A. | Systems and methods for performing scoring optimization |
US8625749B2 (en) * | 2006-03-23 | 2014-01-07 | Cisco Technology, Inc. | Content sensitive do-not-disturb (DND) option for a communication system |
US8160226B2 (en) | 2007-08-22 | 2012-04-17 | At&T Intellectual Property I, L.P. | Key word programmable caller ID |
US8243909B2 (en) | 2007-08-22 | 2012-08-14 | At&T Intellectual Property I, L.P. | Programmable caller ID |
US8589163B2 (en) * | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US8489398B1 (en) | 2011-01-14 | 2013-07-16 | Google Inc. | Disambiguation of spoken proper names |
US9286894B1 (en) | 2012-01-31 | 2016-03-15 | Google Inc. | Parallel recognition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS638798A (ja) * | 1986-06-30 | 1988-01-14 | 松下電器産業株式会社 | 音声認識装置 |
JPS63121097A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4620286A (en) * | 1984-01-16 | 1986-10-28 | Itt Corporation | Probabilistic learning element |
US4797924A (en) * | 1985-10-25 | 1989-01-10 | Nartron Corporation | Vehicle voice recognition method and apparatus |
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
US4856066A (en) * | 1986-11-06 | 1989-08-08 | Lemelson Jerome H | Speech communication system and method |
US4914703A (en) * | 1986-12-05 | 1990-04-03 | Dragon Systems, Inc. | Method for deriving acoustic models for use in speech recognition |
GB2207027B (en) * | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
DE3879028T2 (de) * | 1987-07-16 | 1993-06-24 | Fujitsu Ltd | Spracherkennungseinrichtung. |
GB8720387D0 (en) * | 1987-08-28 | 1987-10-07 | British Telecomm | Matching vectors |
US4852173A (en) * | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
US5003490A (en) * | 1988-10-07 | 1991-03-26 | Hughes Aircraft Company | Neural network signal processor |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5167011A (en) * | 1989-02-15 | 1992-11-24 | W. H. Morris | Method for coodinating information storage and retrieval |
US4984178A (en) * | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US4994983A (en) * | 1989-05-02 | 1991-02-19 | Itt Corporation | Automatic speech recognition system using seed templates |
US5216720A (en) * | 1989-05-09 | 1993-06-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of telephone calling card customers |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
US5222190A (en) * | 1991-06-11 | 1993-06-22 | Texas Instruments Incorporated | Apparatus and method for identifying a speech pattern |
US5170426A (en) * | 1991-09-12 | 1992-12-08 | Bell Atlantic Network Services, Inc. | Method and system for home incarceration |
US5621857A (en) * | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
US5233681A (en) * | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
US5353336A (en) * | 1992-08-24 | 1994-10-04 | At&T Bell Laboratories | Voice directed communications system archetecture |
US5327486A (en) * | 1993-03-22 | 1994-07-05 | Bell Communications Research, Inc. | Method and system for managing telecommunications such as telephone calls |
US5502759A (en) * | 1993-05-13 | 1996-03-26 | Nynex Science & Technology, Inc. | Apparatus and accompanying methods for preventing toll fraud through use of centralized caller voice verification |
US5511111A (en) * | 1993-11-01 | 1996-04-23 | Engineering And Business Systems, Inc. | Caller name and identification communication system with caller screening option |
-
1994
- 1994-12-07 JP JP6304072A patent/JPH07210190A/ja active Pending
- 1994-12-20 EP EP94309591A patent/EP0661690A1/en not_active Withdrawn
-
1995
- 1995-09-05 US US08/523,755 patent/US5802251A/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS638798A (ja) * | 1986-06-30 | 1988-01-14 | 松下電器産業株式会社 | 音声認識装置 |
JPS63121097A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
Also Published As
Publication number | Publication date |
---|---|
US5802251A (en) | 1998-09-01 |
EP0661690A1 (en) | 1995-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH07210190A (ja) | 音声認識方法及びシステム | |
US5524169A (en) | Method and system for location-specific speech recognition | |
CN1783213B (zh) | 用于自动语音识别的方法和装置 | |
CA2202656C (en) | Speech recognition | |
US6125341A (en) | Speech recognition system and method | |
US6487530B1 (en) | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models | |
US7043431B2 (en) | Multilingual speech recognition system using text derived recognition models | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
US5732187A (en) | Speaker-dependent speech recognition using speaker independent models | |
US6438520B1 (en) | Apparatus, method and system for cross-speaker speech recognition for telecommunication applications | |
US20020087306A1 (en) | Computer-implemented noise normalization method and system | |
US20040210438A1 (en) | Multilingual speech recognition | |
EP1220197A2 (en) | Speech recognition method and system | |
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
US8488750B2 (en) | Method and system of providing interactive speech recognition based on call routing | |
JPH11511567A (ja) | パターン認識 | |
GB2317782A (en) | Voice dialling server for branch exchange telephone systems | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
USH2187H1 (en) | System and method for gender identification in a speech application environment | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP3535292B2 (ja) | 音声認識システム | |
US20050049858A1 (en) | Methods and systems for improving alphabetic speech recognition accuracy |