JP2000148178A - 複合的な文法ネットワークを用いる音声認識システム - Google Patents

複合的な文法ネットワークを用いる音声認識システム

Info

Publication number
JP2000148178A
JP2000148178A JP10326600A JP32660098A JP2000148178A JP 2000148178 A JP2000148178 A JP 2000148178A JP 10326600 A JP10326600 A JP 10326600A JP 32660098 A JP32660098 A JP 32660098A JP 2000148178 A JP2000148178 A JP 2000148178A
Authority
JP
Japan
Prior art keywords
grammar
model
character
recognition
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10326600A
Other languages
English (en)
Other versions
JP3049235B2 (ja
Inventor
Gallar Michael
マイケル・ギャラー
Junkua Jean-Claude
ジャン−クロード・ジュンクア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10326600A priority Critical patent/JP3049235B2/ja
Publication of JP2000148178A publication Critical patent/JP2000148178A/ja
Application granted granted Critical
Publication of JP3049235B2 publication Critical patent/JP3049235B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の音声認識システムによれば、入力音声
の前に、外部ノイズまたは辞書にない単語の発声音が発
せられると、これらを辞書にある単語として誤って解釈
することがしばしばあった。 【解決手段】 そこで本発明の認識システムによれば、
入力音声は、ノイズまたは無関係な音声を示すフィルタ
モデルを含むネットワークを有する複数の文法ネットワ
ークを用いて区分される。認識処理は複数の候補リスト
を形成し、各リストは最良N個の候補を含んでいる。こ
のリストは、有効な名前の2つのリストを形成するため
に、有効な名前の辞書を用いて別々に整列処理される。
最終認識経路で、これら2つの名前のリストを動的な文
法に組み合わせ、この動的な文法を、ヴィタービ認識方
法により、最良の候補の名前を見出すために利用するこ
ともできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、コンピュ
ータ内蔵の音声認識装置に関する。とりわけ、本発明
は、複合的な文法ネットワークを用いた可聴音声データ
を処理する方法および装置に関する。有用性のない音声
から有用性のある音声を抽出しやすくするため、複合的
なネットワークを用いて、可聴音声データを異なるセグ
メンテーションに区分けする。
【0002】
【発明の背景】本願は、出願人ジーン−クロード・ジュ
ンカおよびミカエル・ギャラーによる「連続音声を用い
た電話ルーティング装置」というタイトルで1996年
5月6日出願された米国特許出願番号08/642,7
66号の一部継続出願の関連出願である。
【0003】本発明は多くの用途を有するが、ここでは
電話ルーティング装置に適した綴られた名前を認識する
システムを説明する。説明する実施例では、第1および
第2の文法ネットワークが用いられ、最良N個および最
良M個の文字配列が別々に検出されている。第1の文法
ネットワークは、システムが発する指示に対して、ユー
ザが即座に綴り始めるという仮説のもとに構成されてい
る。第2の文法ネットワークは、システムが認識しない
無関係なノイズまたは発声の後に、名前の文字配列が口
述スペルされるという仮説のもとに構成されている。最
良N個および最良M個の文字配列の各々に対応する、最
良N個および最良M個の名前の仮説を抽出するために、
最良N個および最良M個の文字配列が別々に、有効な名
前を有する辞書と比して、動的計画法を用いて抽出され
る。その後に、これら一連の名前の仮説群から、最良の
文字候補を選択することにより、音声認識は確定する。
【0004】現在の音声認識技術は、可聴データのパタ
ーン認識と、およびシステムが把握する所定の辞書収録
語群とこれらパターン認識結果との関連付けと、から構
成される。音声認識は、相当の多様な用途があるので、
音声認識技術に関する問題点は極めて難解である。一般
に、音声認識装置は、数学的な認識処理を行うために、
デジタル形式の可聴入力データを用いる。この数学的な
認識処理によれば、事前に設定したモデルに立脚して、
デジタルデータがパラメータ群に変換される。
【0005】従前のモデルによれば、十分に大容量の訓
練用セットを用いて、このモデルを事前に訓練すること
により、特定話者による認識のばらつきが大幅に低減さ
れる。このモデルに基づく認識プロセスは、入力データ
を音素のような基本構成要素に分割し、この音素は、学
習済のモデルと比較してラベル付けされる。認識装置の
1つの形態では、一旦、個々の音素にラベル付けされる
と、この音素データ群は、システムの辞書内に事前に登
録しておいた単語と比較される。この比較処理は、整合
処理することにより実施されるが、この整合処理によれ
ば、所与の文字列内における音素の挿入または脱落と同
様、不正確な音素認識を行うために、精確な単語候補に
合致することはない。このシステムは、確率に依拠して
動作するシステムである。従前の音声認識装置は、上述
の分割処理、ラベル付与処理、および整合処理の結果と
して最も確からしい単語候補を選択する。
【0006】これまでの音声認識装置は、本質的に、事
前に登録した辞書から単語候補を選択することにより、
事前登録した単語群を認識するに過ぎない。これは、と
りわけ音声認識した結果に基づいてさらに判定を行う場
合に、問題を提起する。外部のノイズまたは辞書にない
単語の発声音が、しばしば辞書にある単語として誤って
解釈される。このように誤った認識結果に基づいて、そ
の後の判定を行うと、システム上の誤動作を招く可能性
がある。
【0007】この問題を例証するために、綴られた名前
を利用する電話ルーティング装置について検討する。ユ
ーザは、誰に電話を廻すか(ルーティングすべきか)そ
の人の名前を綴るように、合成音声により質問を受け
る。ユーザがこの質問通りに綴った場合、音声認識装置
は、発声された各文字を特定した後、辞書を用いて、文
字列の配列により綴られた名前を調べることができる。
この装置によれば、辞書内にあるルーティング情報を用
いて、適当な内線電話に電話を廻すことができる。とこ
ろがユーザが、相手方の名前を綴る前に、その名前を喋
った場合のように最初に関係のない言葉を発声した場
合、音声認識処理の失敗する可能性が極めて高い。とい
うのも、この認識システムによれば、発声された文字群
だけを受けることが予定されており、喋った名前が1つ
またはそれ以上の文字と「認識」されるからである。こ
のような場合、従前のシステムは、可聴入力データを適
切に分割するようには構成されていない。なぜなら、こ
のシステムが立脚する基本的なモデルによれば、データ
はすべて(喋った文字を含めて)、有用または意味のあ
る均等な単位であるという仮定に基づくためである。
【0008】本発明は、一方の認識候補群は関係のない
音声が含まれることを予定するモデルに基づき、他方の
認識候補群は関係のない音声が含まれないことを予定す
るモデルに基づいて形成された、複合的な認識候補群を
形成するために、複合的な文法ネットワークを採用して
統合する音声認識システムを用いることにより、上述の
問題を解消する。両モデルに基づいて形成された認識候
補群の結果は、認識候補群の照合確率の各得点を判断
し、最も出現確率の高い候補を選択して、最終的に認識
を確定するために利用される。
【0009】本発明の1つの態様によれば、可聴音声デ
ータが異なる手法で分割されるように、異なる第1およ
び第2の文法ネットワークを用いて可聴音声データを別
々に処理される。すると、システムは有用でない音声か
ら有用な音声を抽出することができる。各文法ネットワ
ークに関し、複数の認識候補群が形成される。好適な実
施例によれば、第1の文法ネットワークを用いて最良N
個の認識候補群を形成し、第2の文法ネットワークを用
いて最良M個の認識候補群を形成する。ここで、Nおよ
びMは、1またはそれより大きい整数である。第1およ
び第2の複数からなる(最良N個、最良M個)認識候補
群は、有用性のある音声に関する少なくとも1つの制約
条件に基づいて変換される。変換処理には、例えば、シ
ステムが認識する綴られた名前の辞書と、この認識候補
群とを照合する処理を含んでいてもよい。その後、変換
された認識候補群に基づいて、認識判定される。
【0010】以下により詳細に説明するが、本発明によ
れば、可聴音声データを別々に処理される2つ以上の経
路に分割する。一方の経路では、第1の文法ネットワー
クを用いて、有用な発声(例えば文字列)だけが与えら
れるという仮定で、信号処理する。他方の経路では、第
2の文法ネットワークを用いて、有用な音声の前に、外
部の不用な音声が与えられるという仮定で、信号処理す
る。異なる文法ネットワークは、異なる手法でデータの
区分けを行う。
【0011】各経路で形成された認識候補群は各々、ど
れだけ各モデルに合致するかによって、得点付けするこ
とができる。最も高得点を有する1つの候補に絞り込む
ために、2つの経路をこの段階で比較するよりはむし
ろ、2つの認識候補群をそのまま別々にしておく。この
段階では、認識候補群は、最良N個および最良M個の文
字列の仮説を示す。どの仮説が最良の候補であるかを選
択するために、システムが認識するすべての名前に関す
る辞書と両方の組とを別々に照合する。
【0012】辞書は、実質的に、システムに対する有用
な音声に関する制約条件を集積したものである。こうし
て、特定の文字列の仮説は、辞書に記憶された文字列と
あまり合致しないので、低い確率の得点しか与えられな
い。目下の好適な実施例によれば、最良N個および最良
M個の文字例を用いて、辞書から最良N個および最良M
個の名前を選択する。両経路からの寄与が、処理判定過
程に含められる。最終的には、与えられた入力発声に対
して減縮された辞書候補数の候補群を形成するために、
最良N個および最良M個の名前の組を組み合わせること
ができる。
【0013】減縮された辞書は、最良N個および最良M
個の名前の候補群から構成される動的な文法を構成する
ために利用することができる。この動的な文法は、入力
発声が関係のない音声を含むかどうかによって、一方ま
たは他方の候補群にとって都合がよくなる傾向がある。
無関係な音声がある場合、この音声を特定して排除する
ように設計された文法ネットワークが、より良い認識結
果を形成する傾向にあり、これらの結果には、最良N個
および最良M個の名前の候補群から構成された動的文法
に含まれるより良い候補として反映される。他方、無関
係な音声がない場合、他方の文法ネットワークがより良
い認識結果を形成することになるが、同様に動的文法に
含まれるより良い候補として反映される。
【0014】一旦、動的な文法ができあがると、入力可
聴音声データは、認識装置を用いて、この動的な文法に
基づいて、認識された名前として最も確率の高い単一の
名前候補を抽出するよう処理される。認識された名前
は、着信電話を適切にルーティングするように、適当な
データベースにアクセスするために利用される。
【0015】本発明、その目的、およびその利点につい
て、より十分に理解するために、以下の明細書および添
付図面を参照することができる。
【0016】
【発明の実施の形態】本発明の原理について、電話ルー
ティング装置に関連して説明し、記述するが、この装置
は、口頭で名前の綴りを読み上げることにより、電話ル
ーティング情報をユーザからシステムに供給させるもの
である。したがって、この音声認識システムを理解しや
すくするために、音声認識システムが用いる電話ルーテ
ィング装置について、まず簡単に説明する。しかし、本
発明の音声認識装置は電話ルーティング装置に限定する
ものではないことを留意しておく必要がある。むしろ、
この認識システムは、無関係なノイズや有用でない音声
から有用な音声を抽出する必要があるとき、広範でさま
ざまな応用例においてその有用性が認められる。
【0017】(システムの全体像および基本動作)連続
音声認識技術を採用した電話ルーティング装置につい
て、既存のPBXスイッチに差し込めばすぐ使えるよう
に接続できる、または製造時にPBX装置内に組み込ま
れた例示的な実施例をもって説明する。図1を参照する
と、PBXスイッチ210は、電話回線214のような
従来からある手段により電話ネットワークインフラ21
2に接続されている。図示する実施例では、便宜上、3
本の回線を図示する。本発明によれば、より多いまたは
少ない電話回線数を備えるようシステム上構成できるの
であって、これにより本発明を限定しようとするもので
はない。
【0018】PBXスイッチは、従来式の構成によるも
のであって、ネットワーク212からの着信電話を、ハ
ンドセット216のような電話装置の任意に選択された
1つの電話装置に廻す(ルーティングする)ことができ
る。本発明による綴られた名前を認識する電話ルーティ
ング装置218が、ハンドセット216と同じように、
PBXスイッチ210の追加的な内線電話またはポート
に接続されている。より詳しく以下に説明するように、
目下の好適な実施例によれば、音声通話情報を伝える複
数のライン220と、電話ルーティング装置が既存のP
BXシステムと一体となって動作可能にする制御論理信
号を伝える1つの追加的なライン222とを経由して、
PBXスイッチに接続される。
【0019】図2は、この電話ルーティング装置をより
詳細に示す。PBXスイッチ210と、ライン220お
よびライン222とを図示する。PBXシステムのアー
キテクチャによって、電話ルーティング装置218を異
なるさまざまな手法で構成することができる。図示する
実施例では、電話ルーティング装置218は、ライン2
20の3本の各々に接続する3つの異なる音声チャンネ
ルを備えている。当然のことながら、必要なチャンネル
数は、電話システムのアーキテクチャに左右される。こ
こでは、3人の発信者が3つの着信電話回線214の各
々に電話をかけたときに、システムがどのように綴られ
た名前を同時に認識できるかについて説明する。追加的
な発信者を支援するために、追加的な音声チャンネルを
備えてもよいし、チャンネルを共有できるよう多重化回
路を備えていてもよい。
【0020】各音声チャンネルは、デジタル信号プロセ
ッサ(DSP)224と、関連するアナログ・デジタル
−デジタル・アナログ変換回路226とを備えている。
デジタル信号プロセッサは、ホストプロセッサ228に
接続されており、このホストプロセッサはすべての参考
資料または名前を記憶するデータ記憶部230を有して
いる。このデータ記憶部230は、ランダム・アクセス
・メモリのようなデジタル式の記憶媒体なら何でもよ
い。データ記憶部230は、システムが認識できるすべ
ての名前を、関連する内線電話番号とともに、連続音声
認識辞書として記憶している。以下により詳細に説明す
るが、好適な実施例は、連続的に綴られる名前の不特定
話者に対する認識を最適化する特別の音声認識装置を採
用している。
【0021】この他にホストプロセッサ228に接続さ
れるのは(またはホストプロセッサの一部として組み込
まれているのは)、電話スイッチロジック部232であ
る。このスイッチロジック部は、信号ライン222に接
続し、PBXスイッチが指示するコミュニケーションプ
ロトコルの後に、PBXスイッチシステムと信号交換す
る。
【0022】音声認識装置の詳細な説明に入る前に、電
話ルーティング装置218の動作について簡単に説明し
ておくことが役に立つかも知れない。図1および2を参
照すると、着信電話が電話回線214のひとつを介して
PBXスイッチに到達した場合、本発明の電話ルーティ
ング装置が仲介するまでもなく、人間のオペレータが取
り次いでもよい。しかし、人間オペレータが電話を取り
次ぐことができない場合(例えば、通常の勤務時間以降
の人間オペレータがいないときに電話が着信した場
合)、PBXスイッチを電話ルーティング装置に電話を
回すようにプログラムしておく。具体的に、このスイッ
チは、ライン222に送信されたスイッチ指令に基づ
き、電話ルーティング装置の音声チャンネルのひとつに
(ライン220のひとつに)この電話を単に割り当て
る。もし必要ならば、PBXスイッチを、第1の回線が
使用中のときはルーティング装置内の別の音声チャンネ
ル上の異なる信号回線に転送するようプログラムしてお
くことができる。こうして、着信電話は、デジタル信号
処理プロセッサ224の選択されたものとコミュニケー
トすることになる。このプロセッサは、(相手方の名前
のスペルを口述するように)必要なボイスプロンプトを
発信者に与えるとともに、発信者の口述する名前のスペ
ルに対して処理を行う。以下に、デジタル信号処理プロ
セッサ224で用いる音声認識アルゴリズムの詳細につ
いて説明する。
【0023】認識処理の一部として、デジタル信号処理
プロセッサ224は、共有される音声認識情報源のコピ
ーをホスト228からダウンロードする。すなわち、こ
の情報源とは照合すべきすべての名前およびその内線電
話番号を反映するものである。リアルタイムで認識する
最良N個技術を用いれば、デジタル信号処理プロセッサ
内蔵の音声認識装置は、データ記憶部230から最も確
率の高い候補を選択する。デジタル信号処理プロセッサ
を用いて、会話の音声合成信号を供給するか、または選
択された人の名前を事前に録音した音声信号を再生する
ことにより、この候補に上がった名前が発信者に対して
復唱される。そして発信者は、その候補の名前が正しい
かどうかを示すために「はい」か「いいえ」を応答する
よう要求される。もし正しければ、ホストプロセッサ2
28は、電話スイッチロジック部232を用いて、PB
Xスイッチに指示し、ライン220からの着信を選択さ
れたハンドセット216の1つに転送する。こうしてス
イッチ処理が完了すると、電話ルーティング装置の音声
チャンネルは再び、新規の着信電話に対応するために待
機する。
【0024】(好適な音声認識プロセスの詳細につい
て)目下の好適な音声認識システムは、複合的な経路に
よる処理手法とみることもでき、この複合的経路は、前
の(整列)経路が1つの認識される名前として出力しな
い場合に限って、最終経路が用いられる。第1経路およ
び最終経路は、隠れマルコフモデル認識技術を採用して
おり、整列経路は辞書との動的計画法(dynamic progra
mming)による整合処理を採用している。以下に詳述す
るように、第1経路は(隠れマルコフモデル認識)、そ
れ自体、複数の平行的な補助経路に分割されている。図
5に、第1、第2および第3の経路を図示する。第1経
路が、異なる隠れマルコフモデル認識ブロック26aお
よび26bに枝分かれしていることに留意されたい。
【0025】図示する実施例は、発信者の電話ハンドセ
ット10を介し、入力信号としてこの認識システムに供
給される文字列からなる、連続的に綴られる名前を認識
するようにしてある。有用および無用な入力情報の具体
例を説明するために、2つのハンドセット10を図示し
た。一方のハンドセットに対しては、発信者は一連の文
字、すなわち「H−A−N−S−O−N」の綴り口述
し、システムを正しく利用した。他方のハンドセットに
対しては、発信者は話し言葉で名前を発声した後に一連
の文字の綴りを口述し、すなわち「ハンソン、H−A−
N−S−O−N」の綴りを口述し、システムを正しく利
用しなかった。以下に詳述するように、本発明のシステ
ムは、正しく利用された場合もそうでない場合でも対応
できるように、より頑健な認識システムとなるように設
計されている。
【0026】12で一般的に示す認識システムは、13
で一般的に示す名前検索システムを有する。詳述するよ
うに、名前検索システムは動的な文法を構成することが
でき、これは名前辞書の中から抽出された候補の標本を
意味する。第2経路で認識処理が完了せず、第3経路に
処理が進んだ場合に、動的な文法が利用される。
【0027】入力された文字列は、適当な音声分析モジ
ュール14に入力してもよい。このモジュールは、置
換、脱落、および挿入エラーの数を減らすために、入力
情報の前後部の最適化を図るようになっている。連続的
に綴られた名前に関して、置換エラーとは、正しい文字
に対して間違った文字を置換することである。図6の1
6および18では、JOHNSONというスペルされた
名前を認識するときに生じた置換エラーの一例を示す。
脱落エラーとは、連続的にスペルされた名前から1つま
たはそれ以上の文字が脱落することである。これを図6
の20で示す。挿入エラーとは、連続的にスペルされた
名前に、本来発音されなかった追加的な文字を包含して
しまうことである。挿入エラーの一例を図6の22およ
び24で示す。
【0028】音声分析モジュール14は、デジタル化し
た音声データを操作するように設計されている。アナロ
グ音声入力システムが使用された場合は、まずアナログ
信号をデジタル化する必要がある。これは、音声分析モ
ジュール14の中に含まれる、適当なアナログ・デジタ
ル回路部によってなされる。
【0029】目下の好適な音声分析モジュールは、伝達
経路の効果を補償するために、8階層PLP−RAST
A処理を用いている。PLP−RASTA補償に関する
より詳細な情報について、1991年、H.ヘルマンス
キ、N.モーガン、A.ベイヤ、P.コーンのユーロス
ピーチ’91の1361ないし1370頁を参照されたい。目下
の好適な実施例では、10ミリ秒フレーム長、および2
0ミリ秒分析窓を用いる。RASTAフィルタ係数は、
置換、脱落、および挿入エラーの数を減らすように最適
化される。このフィルタ係数として0.90の値を選択
すると、最適の妥協点を見出すことができる。
【0030】最適なRASTAフィルタ係数を決定する
際に、エネルギ、エネルギの第1派生物、および静的な
ケプストラル係数C1ないしC8(7フレームに亙って計
算された)の第1派生物は、音声パラメトリック表示
(全部で18係数)を形成するために、静的なケプスト
ラル係数を選択的に組合わせる。図7は、置換、脱落、
および挿入エラー数を減少させるための、最適RAST
Aフィルタ係数を図示する。この図において、PLP−
RASTAとは、エネルギ、エネルギの第1派生物、静
的なケプストラル係数、および静的なケプストラル係数
の第1派生物の組み合わせを表す。
【0031】PLP−RASTAによる最適化処理が目
下のところ好ましいが、その他の最適化方法も採用でき
る。あるいは、例えば、メル周波数ケプスラム係数(M
FCC)分析方法を用いてもよい。14次MFCCによ
る分析を用いて好適な結果が得られた。MFCCによる
分析を行うために、(C0を含む)11の静的なケプス
トラル係数が16ミリ秒のフレーム長、および32ミリ
秒の分析窓で計算される。
【0032】別の特徴セットを用いると、異なる認識精
度が得られることになる。これらの特徴セットは、静的
な特徴と動的な特徴とを別々に含んでいても良いし、組
み合わせて含んでいてもよい。本発明で用いられるパラ
メータ化の頑健さを説明するために、フィルタにかけた
クリーンなデータが利用される。目下の好適な実施例に
おける検証セットのためのフィルタにかけられたデータ
を得るために、訓練用セットと検証セットとの間に不一
致を人為的に引き起こすように、ひずみフィルタが用い
られ、検証データがフィルタにかけられる。この点に関
して、1992年2月の、H.ムルフェイト、J.ブー
ツベルガー、およびM.バイントラウプの米国防総省の
国防高等研究計画局による「音声自然言語」の280ない
し284頁を参照されたい。
【0033】図5に戻ると、音声分析モジュール14か
らの出力が2つの経路に分割され、一方は隠れマルコフ
モデル認識ブロック26aに接続し、他方は隠れマルコ
フモデル認識ブロック26bに接続する。認識ブロック
26aは、事前に定義された文字文法G1を用いて動作
する。この文字文法G1を28aに概略図的に示す。認
識ブロック26bは、事前に定義された文字文法G2を
用いて動作する。この文字文法G2を28bに概略的に
示す。これら異なる文字文法は各々、図3および図4で
示す文法ネットワークとして構成されている。これらの
文法ネットワークは、可能性のある各文字に関連するノ
ードと、2つのノード間の移行部で生じ得るもの、とか
らなるグラフである。文法は無音ノードも含み、その後
に文字群が続き、そこでは任意の文字が任意の文字の後
に続く。図3の文法G1は、無音(Sil)ノード50
から始まり、個々の最初の文字A,B,C,・・・・と
移行する。図4の文法G2は、スペルを口述する前に無
関係な音声またはノイズを意味するフィルタノード52
から始まる。フィルタノードの後に、無音ノード52が
続き、その後さらにG1同様に個々の文字ノードに移行
する。目下の好適な装置では、認識ブロック26aおよ
び26bは、ヴィタービ・デコード技術を用いたフレー
ム同期式の1次連続密度隠れマルコフモデル認識装置で
ある。
【0034】目下の好適な実施例では、(1つの仮説で
はなくて)最良N個のまたは最良M個の仮説を形成す
る、修正ヴィタービ・デコーダを用いる。一般に、ヴィ
タービ・デコーダは、隠れマルコフモデルと検証音声と
の間の照合する確率を基にして、最良の仮説だけを与え
るように設計されている。この標準的なヴィタービ・デ
コーダが本発明で使用できるよう修正され、このヴィタ
ービ・デコーダが隠れマルコフモデルと検証音声との間
の照合の最も高い確率を基にして、最良N個のまたは最
良M個の仮説を与える。認識ブロック26aおよび26
bは各々、最良N個のまたは最良M個の仮説を与える。
必要ならば、これら2つの認識ブロックは、同じ数の仮
説を形成する必要はない。ただし、この好適な実施例で
は、同じ数が用いられている(例えば、N=M=1
0)。こうして図5では、認識ブロック26aは最良N
個の仮説を形成し、認識ブロック26bは最良M個の仮
説を形成する。上述の通り、記号NおよびMは、1より
大きい整数であれば何でもよい。整数NおよびMに対す
る正確な値は、プロセッサの演算速度とメモリ容量に依
存する。最良N個(または最良M個)の文字候補を形成
する技術は、以下により詳細に説明する。最良N個(ま
たは最良M個)の仮定を形成する技術は、両方の場合で
本質的に同一であると理解される。
【0035】26aおよび26bで用いられている隠れ
マルコフモデル認識装置は、この認識装置が入力音声を
より迅速に処理するように、サーチ領域を限定するため
に設計されたビームサーチ能力を備えている。隠れマル
コフモデル認識装置は、入力音声と参照音声との一致の
度合いを示す得点を形成する。ビームサーチ機構がなけ
れば、認識装置はサーチ処理する間、すべての可能性あ
る経路について各フレームで採点する必要がある。ビー
ムサーチ法を用いれば、認識装置は、ビーム幅に等しい
量を超えない最良得点から逸脱する得点をもつ経路につ
いてのみ考慮する。サーチ領域全体をサーチするのでは
なく、最も可能性の小さいサーチ経路を放棄することに
より、ビームサーチ法は実行され、その結果、最良の仮
説だけが生き残ることになる。
【0036】認識装置26aおよび26bで得られた最
良N個(または最良M個)の仮説は、その後、動的計画
法(DP)による整列モジュール38aおよび38bを
各々経由する。動的計画法による整列モジュールは、関
連する名前辞書39にアクセスして、最良N個(または
最良M個)の仮説と比較する。挿入、置換、および脱落
エラーを計算するために、動的計画法が用いられる。
【0037】いくつかの場合では、動的計画法による整
列処理の結果、その他の候補がなく、1つの名前しか形
成しないことがある。動的計画法による配列から得られ
た候補が1つしかない場合、判定識別モジュール40は
これを検出して、認識した名前を出力として提供する。
しかしほとんどの場合は、候補が1つしかないというこ
とはなく、動的な文法を組み立てるために、最良N個お
よび最良M個の仮説がモジュール42に送られる。
【0038】モジュール42は、動的計画法による整列
モジュールにより与えられた最良N個および最良M個の
仮説を用いて、文法を組み立てる。その後、最良N個お
よび最良M個の候補を評価するために、動的な文法42
を用いて、かなり絞り込んだ認識装置44が用いられ
る。認識装置44もまた、隠れマルコフモデル認識装置
である。認識装置はかなり不自然ではあるが、動的な文
法が小さく、(14で計算された)パラメトリックな表
示を再計算する必要がないので、この認識装置のデータ
経路で時間を浪費することない。必要ならば、中立のネ
ットワーク弁別装置を認識装置26aおよび26b、ま
たは認識装置44の出力側に配置してもよい。
【0039】付録Aにおけるリストは、綴られた名前の
WILSONを本発明のシステムがどのように認識する
かを示す。このリストにおいて、[第1経路]と指定さ
れるセクションは、両方の文法で形成されたすべての仮
説を示す。この中に、WILSONという名前はない。
【0040】[DP整列]と題するセクションでは、上
位候補がリストされ、そのリストの中にWILSONと
いう名前が(10候補のうち1番目に)含まれている。
【0041】[相当に絞り込んだ経路]と題されたセク
ションにおいては、入力音声は、DP整列処理されると
きに、選択された候補に対してのみ比較される。このと
き、認識装置はWILSONという名前を正しく検出す
る。
【0042】(最良N個の処理技術)最良N個の候補
か、または最良M個の候補かは、最良N個の選択アルゴ
リズムを用いて選択される。この技術の詳細に関して
は、音声認識に関する米国防総省の国防高等研究計画局
によるR.シュワルツおよびスティーブ・オースティン
の「最良N個のサーチ法に関する高効率高性能アルゴリ
ズム」の6ないし11頁、1990年を参照されたい。
この音声認識方法では、入力発声データが、時間フレー
ムに分割され、フレーム毎を基本にして分析がなされ
る。所与の音声に対して、いくつかの可能性のある仮説
が成立する。目下の好適な最良N個(または最良M個)
のアルゴリズムは、1つ前の文字にのみ依存し、それ以
上前の文字には左右されないように、1つの文字に対す
る最良の開始時間を選択する。各文字が口述され分析さ
れると、隠れマルコフモデル認識装置は、各モデルの確
率得点を与える。このシステムの究極の目的は、最も確
からしい文字列を選択することにあるので、システム
は、スペルされた文字の可能性のある組み合わせを示
す、複数の経路を記憶する。
【0043】このシステムをリアルタイムの認識装置と
して、よりよく動作させるために、2つの異なるレベル
のデータのプルーニング(枝刈り)が行われる。両方の
レベルにおけるプルーニング技術は、所与の仮説の確率
と確率の閾値とを比較する処理を含む。所与の経路の確
率が閾値以下であったならば、その経路は放棄される。
とりわけプルーニング処理は、部分的なレベルおよび全
体的なレベルの両方で行われる。部分的なレベルでのプ
ルーニング処理は、文字レベルにおいて低い照合確率を
示すこれら経路を放棄することを含み、全体的なプルー
ニング処理は、最初の音声から最後の文字に至るまで、
低い照合確率を示すこれらの経路を放棄することを含
む。こうして、名前を綴り終わった段階で、最良N個
(または最良M個)の名前の仮説を抽出するために、再
帰的にトレースバック操作(後ろ向き操作)が行われ
る。このトレースバック操作が実行されるとき、部分的
および全体的プルーニング処理により、分析すべきメモ
リ領域のサイズをすでに小さくしている。
【0044】部分的および全体的プルーニング処理に加
えて、目下の好適なシステムはまた、可変的な閾値を用
いることにより、システムが動作しているときに、プル
ーニング閾値を動的に調整することができる。
【0045】単語がはっきりしない場合、単語の分別で
きる部分に集中するよう支援し、推定パラメータの数を
減らすために、認識装置は状態結合処理を用いる。結合
する文字とは、(m,n),(i,r),(p,t),
および(b,d)である。目下の好適な実施例では、W
を除くすべての文字は6次元の隠れマルコフモデルによ
って表現される。文字Wについては12次元の隠れマル
コフモデルで表現され、無音モデルは1次元で表現され
る。文字モデルは、その文字がどれほど混乱しやすいか
に依存して、異なるガウス密度数を有する。「Eセッ
ト」文字群、すなわちb,c,d,e,g,p,t,
v,およびzはすべて、m,n,s,およびfの文字群
と同様に、6つのガウス密度を用いてモデル化される。
残りの文字は、3つのガウス密度を用いてモデル化され
る。
【0046】図8は、目下の好適な、最良N個(または
最良M個)の仮説分析に関する別の技術を示す。これを
最良N個の束(ラティス)の技術として参照すると、各
フレームにおいて、各文法ノードの確率を計算し、その
ノードに入力される最良の応答を記憶する。その後、仮
説が動的であったフレーム数とともに、その確率が記憶
される。こうしてこの技術によれば、最良N個(最良M
個)の仮説を記憶し、ノードを介して最良のものを伝達
し、その他のものを最大確率経路に包含する。
【0047】ヴィタービ前向きアルゴリズムは、各状態
に対する確率を計算する。これは、状態データ構造に記
憶されている確率とともに、入力バッファ内のすべての
データに対してフレーム毎に実施される。目下の好適な
最良N個のラティス技術は、修正ヴィタービ・アルゴリ
ズムであって、これは最良N個(最良M個)の候補を形
成し、次のモデルに最大確率だけを伝達する。こうし
て、各フレーム毎に各文法のノードの確率を計算し、こ
のノードに入る最良の応答を記憶するようにルーチン処
理される。
【0048】図8を参照すると、ネットワークノードn
が図示されている。3つの仮説W1,W2,およびW3
ノードnに入っている。これらの仮説のうち、最大確率
(最も高い可能性)が前向きに伝えられる。ノードnか
らの最大確率を基に、ノードnが次の単語の仮説Wj
k,Wlを形成する。ヴィタービ前向きアルゴリズム
は、この確率と、期間(現在の仮説が動的であったフレ
ーム数)と、および特別のネットワークノードを形成す
る各仮説に対するポインタと、を記憶する。状態データ
構造にある確率データを分析するとき、バックトレース
(後ろ向き)アルゴリズム処理すること際にこの情報は
活用される。
【0049】この後ろ向きアルゴリズムは、図9を参照
すると理解しやすい。目下の好適な後ろ向きアルゴリズ
ムは、図9で垂直コラムn1ないしn10で図示したよう
にすべての最良N個の最終ノードを優先系列に入れて、
優先処理される。例えば、第1経路で、10の仮説が最
終フレーム(N=10)に伝達されて、その後、優先系
列に10の最終ノード(n1,n2,...,n10)が入
る。最終ノードは降下順に記憶され、その結果、この系
列にある第1の最終ノードが最大確率得点を有するもの
を示すことになる。
【0050】図9において、説明の便宜上、ノードn1
が最高得点を有するノードであると仮定する。所与のノ
ードn1を形成する仮説(W1,W2,またはW3)の位置
を決めるために、1ステップ後戻りすることにより、こ
のノードを拡張する。この仮説を順に特定することによ
って、後ろ向きルーチン処理することができ、これによ
り特定された仮説を形成するノードを特定することがで
きる。図9において、ノードn1を形成する原因が仮説
2にあるとすると、ノードnbが後ろ向き処理により特
定される。そしてノードnbが、優先系列280のいく
つかの位置で、ノードn1と置換される。置換された
後、優先系列は依然、降下順のままで記憶されている。
新たに置換されたノードnbがたまたま最高得点を有す
る場合、ノードn1が以前あった場所に納まる。もちろ
ん、優先系列にある他のノードのひとつが、新たに置換
されたノードnbよりの高得点を有する可能性がある。
この場合、新たに置換されたノードnbではなくて、こ
の最高得点を有するノードが次の後ろ向き操作に用いら
れる。
【0051】上述のような手法で、後ろ向き処理中に開
始ノード(音声の第1フレームに対応するノード)に出
くわすまで、後ろ向き処理を行う。開始ノードに到達す
るとき、1つの仮説はすでに形成されている。後ろ向き
アルゴリズムは、後ろ向き処理がなされているときに出
くわす各符号を記憶する。これらの符号は、最も可能性
の高い候補の名前を形成するために、逆方向から読むス
トリングとして記憶しておいてもよい。
【0052】図9は、多数の最良N個の仮説(N=1
0)が存在する一般的な場合について図示している。さ
らに、優先系列の後ろ向き処理を説明するため、付録B
の実施例を参照されたい。この実施例は、「JONE
S」という名前に関する後ろ向き処理を示す。
【0053】上述の通り、本発明の電話ルーティング装
置は、実質的にどんな会社の電話ネットワークまたはP
BXシステムにでも、プラグ互換性のある接続が可能で
あることが理解されよう。このルーティング装置は、特
定話者によらない洗練された連続音声認識技術を採用し
ており、この装置によれば、電話発信者が所望する受信
者の名前のスペルを口述することができ、そしてこのシ
ステムによれば、意図する受信者の適当な内線電話を自
動的に決定することができ、既存の電話ネットワークま
たはPBXシステムを用いて、発信者を受信者の内線に
取り次ぐことができる。本発明によれば、煩わしいタッ
チトーン・コマンドを介して電話ネットワークと信号交
換する必要がなくなり、システムを視覚的に害さないよ
うにすることができる。この音声認識装置は、かなり柔
軟性に富んだものであり、すなわち発信者は自然に喋る
速度でスペルしてもよいし、発信者が喋るのを止めた後
に、システムが選択した名前を自動的にユーザに確認さ
せてもよい。発信者が少しの時間、途切れた後にスペル
を続けた場合、システムは自動的に音声認識を再開す
る。多重経路の音声認識処理を用いると、ノイズの多い
電話チャンネルに対しても十分に機能する。最良N個の
仮説を経路間に伝達し、計算上、負担のより大きい処理
は、可能性のある名前の候補リストが相当に少なくなっ
た段階の、最終経路に至るまで引き延ばして処理するよ
うにする。この最良N個の多重経路認識プロセスによれ
ば、安価なデジタル信号処理プロセッサを用いて、本発
明を実施することができる。
【0054】本発明は、目下の好適な形態をもって説明
されてきたが、添付するクレームの精神から逸脱しない
範囲で変更することができることが理解されよう。した
がって、例えば、異なる構成をもって、アナログおよび
デジタルシステムの両方を含む、現在および将来の異な
るタイプの電話システムに接続するよう考案してもよ
い。
【0055】(付録A)第1経路 G1文法: 仮説1:ocfeylson 仮説2:onseylson G2文法: フレーム104でスポットされた文字 仮説1:wylson辞書整列経路 G1からの最良N個の候補群 候補1/8:neilson 候補2/8:masterson 候補3/8:nielson 候補4/8:andersson 候補5/8:carlson 候補6/8:nelson 候補7/8:anderson 候補8/8:patterson G2からの最良M個の候補群 候補1/10:wilson 候補2/10:walton 候補3/10:wasson 候補4/10:watson 候補5/10:nelson 候補6/10:folsom 候補7/10:urmson 候補8/10:bylsma 候補9/10:olson 候補10/10:sisson相当に絞り込んだ経路 仮説1:wilson 信号上の310フレーム(3.1秒)
【0056】 (付録B) 「JONES」について、優先順位の後ろ向き処理の一例 ・最後のフレーム数は10:3つの仮説ノードが記憶された。 1.ノード6(s) 2.ノード(r) 3.ノード4(d) 確率0.9 確率0.8 確率0.6 期間18フレーム 期間20フレーム 期間12フレーム 前のノード3 前のノード3 前のノード2 フレーム番号100 フレーム番号100 フレーム番号100 ・優先系列の組み立て:(降下確率の順) [,「s」,100]→[,「r」,100] →[4,「d」,100]→0 ・最大確率ノードの拡張、後ろ向き処理の拡張 [,「s」,100] →→ノード3(e) 確率0.9(親の確率) 期間10 前のノード1 フレーム:100−18=82 →→ノード2(a) 親の確率(0.9)の確率0.7 期間10 前のノード8 フレーム:100−18=82 ・優先系列における新規の仮説ノードの挿入 [,「es」,82]→[6,「r」,100] →[2,「as」,82]→[4,「d」,100] (優先系列において子は親のノードを受け継ぐ) バックトレース処理の開始 {バックトレース優先系列Qの初期化} For each grammer−terminal state S
(各文法ターミナル状態Sに対して) Begin(開始) If S has active list h1,h2,....hn of hypotheses in final frame T (Sが最終フレームTにおける仮説の動的リストh1h2....hn を有している場合) Begin(開始) For each active hypothesis(動的な仮説の各々hに対して) Begin(開始) generate node N(ノードNを形成せよ) N.score ← h score(ノードNの得点←hの得点) N.sequence ← h symbol (ノードNの列←hの符号) N.duration ← h duration (ノードNの期間←hの期間) N.predecessor ← h predecessor (ノードNの前←hの前) N.time ← T(ノードNの時間←T) enqueue N in Q End For End If End For {優先系列Qの処理、最良N個の文字列形成} NumSequence ← 0 While Queue nonempty and NumSequences ← n Begin(開始) Dequeue first (top-scoring) node N from Q If N's precedessor is grammer-initial state Begin(開始) Send N. sequence to output NumSequences ← NumSequences + 1 End If {子のノードを形成するためにNを拡張する 子のノードを優先系列Qに加える} T ← N Time - N Duration(T←N時間−N期間) S ← N Predecessor(S←Nの前) For each active hypothesis h for state S in frame T (フレームTにおける状態Sに関する動的な仮説の各々hに対して) Begin(開始) generate node C(ノードCを形成せよ) C.score ←N. Score - (best score for S in frame T-h.score) (C得点←N得点−(フレームTにおけるSのための 最高得点−h得点)) C.sequence ← h concatenation of h. symbol and N. sequence (ノードCの列←h符号およびN列の連鎖) C.duration ← h duration (ノードCの期間←hの期間) C.predecessor ← h predecessor (ノードNの前←hの前) C.time ← T(ノードNの時間←T) enqueue C in Q End For End While End Procedure BachTrack(バックトレース処理の終了)
【図面の簡単な説明】
【図1】 図1は、本発明の電話ルーティング装置を用
いた具体的なシステムのブロック図である。
【図2】 図2は、本発明の電話ルーティング装置の実
施例によるブロック図である。
【図3】 図3は、綴られた名前の一連文字が有効な文
字から始まるという仮定のもとに構成された文法ネット
ワークG1を図示する状態図である。
【図4】 図4は、システムが認識しない無関係なノイ
ズまたは発声の後に、綴られた名前の一連文字が始まる
という仮定のもとに構成された文法ネットワークG2を
図示する状態図である。
【図5】 図5は、本発明の目下の好適な実施例の詳細
なブロック図である。
【図6】 図6は、認識エラーのさまざまなタイプを示
す図である。
【図7】 図7は、置換、脱落および挿入のエラー数を
減らすためにPLP−RASTAフィルタ係数を最適化
するグラフを示す。
【図8】 図8は、改善されたラティスの最良N個技術
を示す図である。
【図9】 図9は、認識段階を後ろ向きする間、どのよ
うにして仮説を形成されるかについて、さらに説明する
図である。
【符号の説明】
10…ハンドセット、14…音声分析、26a,26
b,44…隠れマルコフモデル認識、28a…文字文法
G1、28b…文字文法G2、38a,38b…動的計
画法による配列処理、40…判定識別、42…動的文法
の組み立て、50…無音ノード、52…フィルタノー
ド、210…PBXスイッチ、212…ネットワーク、
218…綴られた名前を認識する電話ルーティング装
置、224…デジタル信号処理装置、226…アナログ
・デジタル−デジタル・アナログ・コンバータ、228
…ホストコンピュータ、232…電話スイッチロジック
部、230…参考資料(名前)
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成12年1月21日(2000.1.2
1)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正内容】
【0002】
【発明の背景】本願は、出願人ジーン−クロード・ジュ
ンカおよびミカエル・ギャラーによる「連続音声を用い
た電話ルーティング装置」というタイトルで1996年
5月6日出願された米国特許出願番号08/642,7
66号(現在、米国特許第5,799,065号)の一
部継続出願(現在、米国特許第5,991,720号)
の関連出願である。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0033
【補正方法】変更
【補正内容】
【0033】図5に戻ると、音声分析モジュール14か
らの出力が2つの経路に分割され、一方は隠れマルコフ
モデル認識ブロック26aに接続し、他方は隠れマルコ
フモデル認識ブロック26bに接続する。認識ブロック
26aは、事前に定義された文字文法G1を用いて動作
する。この文字文法G1を28aに概略図的に示す。認
識ブロック26bは、事前に定義された文字文法G2を
用いて動作する。この文字文法G2を28bに概略的に
示す。これら異なる文字文法は各々、図3および図4で
示す文法ネットワークとして構成されている。これらの
文法ネットワークは、可能性のある各文字に関連するノ
ードと、2つのノード間の移行部で生じ得るもの、とか
らなるグラフである。文法は無音ノードも含み、その後
に文字群が続き、そこでは任意の文字が任意の文字の後
に続く。図3の文法G1は、無音(Sil)ノード50
から始まり、個々の最初の文字A,B,C,・・・・と
移行する。図4の文法G2は、スペルを口述する前に無
関係な音声またはノイズを意味するフィラーノード52
から始まる。フィラーノードの後に、無音ノード52が
続き、その後さらにG1同様に個々の文字ノードに移行
する。目下の好適な装置では、認識ブロック26aおよ
び26bは、ヴィタービ・デコード技術を用いたフレー
ム同期式の1次連続密度隠れマルコフモデル認識装置で
ある。
【手続補正4】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正内容】
【図4】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551A 561J Fターム(参考) 5D015 BB01 CC02 CC11 HH07 HH23 LL03

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 単語認識のための可聴音声データを処理
    する方法であって、 第1の複数の認識候補を抽出するために、認識装置を用
    いて、第1文法モデルに基づいて、可聴音声データを処
    理するステップと、 第2の複数の認識候補を抽出するために、認識装置を用
    いて、第1文法モデルとは異なる第2文法モデルに基づ
    いて、可聴音声データを処理するステップと、 第1の単語候補リストを形成するために、所定の単語群
    からなる辞書と、上記の第1複数認識候補を合わせるス
    テップと、 第2の単語候補リストを形成するために、所定の単語群
    からなる上記辞書と、上記の第2複数認識候補を合わせ
    るステップと、 上記の第1および第2単語候補リストから動的な文法モ
    デルを組み立てるステップと、 認識された単語を抽出するために、認識装置を用いて、
    上記の動的な文法モデルに基づき、可聴音声データを処
    理するステップと、を含むことを特徴とする方法。
  2. 【請求項2】 上記の第1および第2の文法モデルが、
    複数の内部連結された文字モデルを有するネットワーク
    モデルであることを特徴とする請求項1の方法。
  3. 【請求項3】 上記文字モデルが隠れマルコフモデルに
    よって示されることを特徴とする請求項2の方法。
  4. 【請求項4】 上記の第1および第2の文法モデルが、
    複数の内部連結された文字モデルを有するネットワーク
    モデルであって、第2の文法モデルが、上記文字モデル
    によって定義されない発声を示すための、少なくとも1
    つのフィルタモデルを有することを特徴とする請求項1
    の方法。
  5. 【請求項5】 上記の第1および第2の文法モデルが、
    複数の内部連結された文字モデルを有するネットワーク
    モデルであって、第2の文法モデルが、上記文字モデル
    によって定義されない発声を示すための、少なくとも1
    つのフィルタモデルと、可聴音声データにおける一時中
    断を示す1つの無音モデルを有することを特徴とする請
    求項1の方法。
  6. 【請求項6】 上記の第2の文法モデルが、文字スポッ
    ト文法を定義することを特徴とする請求項1の方法。
  7. 【請求項7】 上記の第1および第2の文法モデルが複
    数の異なるノードからなり、上記の第1および第2の複
    数認識候補が、可聴音声データが上記ノードと照合する
    類似性に従ってノードに得点を与える認識処理により抽
    出され、 上記の第1および第2の複数認識候補が、可聴データに
    最もよく照合する得点が与えられたノードを選択するこ
    とにより、抽出されることを特徴とする請求項1の方
    法。
  8. 【請求項8】 上記の第2の文法モデルが、少なくとも
    1つのノイズを示すノードを有することを特徴とする請
    求項1の方法。
  9. 【請求項9】 さらに、 認識された単語を用いて、着信電話をルーティングする
    ステップを含むことを特徴とする請求項1の方法。
  10. 【請求項10】 スペルされた名前を認識するための可
    聴音声データを処理する方法であって、 第1の複数の文字候補を抽出するために、認識装置を用
    いて、第1文法モデルに基づいて、可聴音声データを処
    理するステップと、 第2の複数の文字候補を抽出するために、認識装置を用
    いて、第2文法モデルに基づいて、可聴音声データを処
    理するステップと、 第1の名前候補リストを形成するために、所定の名前群
    からなる辞書と、上記の第1複数文字候補を合わせるス
    テップと、 第2の名前候補リストを形成するために、所定の名前群
    からなる上記辞書と、上記の第2複数文字候補を合わせ
    るステップと、 上記の第1および第2名前候補リストから動的な文法モ
    デルを組み立てるステップと、 認識された名前を抽出するために、認識装置を用いて、
    上記の動的な文法モデルに基づき、可聴音声データを処
    理するステップと、を含むことを特徴とする方法。
  11. 【請求項11】 上記の第1および第2文法モデルが異
    なることを特徴とする請求項10の方法。
  12. 【請求項12】 上記の第1および第2文法モデルが、
    複数の内部連結された文字モデルを有するネットワーク
    モデルであることを特徴とする請求項10の方法。
  13. 【請求項13】 上記文字モデルが隠れマルコフモデル
    によって示されることを特徴とする請求項10の方法。
  14. 【請求項14】 上記の第1および第2の文法モデル
    が、複数の内部連結された文字モデルを有するネットワ
    ークモデルであって、第2の文法モデルが、上記文字モ
    デルによって定義されない発声を示すための、少なくと
    も1つのフィルタモデルを有することを特徴とする請求
    項10の方法。
  15. 【請求項15】 上記の第1および第2の文法モデル
    が、複数の内部連結された文字モデルを有するネットワ
    ークモデルであって、第2の文法モデルが、上記文字モ
    デルによって定義されない発声を示すための、少なくと
    も1つのフィルタモデルと、可聴音声データにおける一
    時中断を示す1つの無音モデルを有することを特徴とす
    る請求項10の方法。
  16. 【請求項16】 上記の第2の文法モデルが、文字スポ
    ット文法を定義することを特徴とする請求項10の方
    法。
  17. 【請求項17】 上記の第1および第2の文法モデルが
    複数の異なるノードからなり、上記の第1および第2の
    複数認識候補が、可聴音声データが上記ノードと照合す
    る類似性に従ってノードに得点を与える認識処理により
    抽出され、 上記の第1および第2の複数認識候補が、可聴データに
    最もよく照合する得点が与えられたノードを選択するこ
    とにより、抽出されることを特徴とする請求項10の方
    法。
  18. 【請求項18】 上記の第2の文法モデルが、少なくと
    も1つのノイズを示すノードを有することを特徴とする
    請求項10の方法。
  19. 【請求項19】 さらに、 認識された単語を用いて、着信電話をルーティングする
    ステップを含むことを特徴とする請求項1の方法。
  20. 【請求項20】 可聴音声データを認識するために処理
    する方法であって、 第1の音声入力基準で、第1の複数の認識候補を区分し
    抽出するために、認識装置を用いて、第1文法モデルに
    基づいて、可聴音声データを処理するステップと、 第2の音声入力基準で、第2の複数の認識候補を区分し
    抽出するために、認識装置を用いて、第2文法モデルに
    基づいて、可聴音声データを処理するステップと、 上記第1および第2の複数の認識候補を、可聴音声デー
    タ上の優先的制約の少なくとも1つの組に基づいて、変
    形候補に変形するステップと上記の変形された候補に基
    づいて、認識決定するステップと、を有することを特徴
    とする方法。
JP10326600A 1998-11-17 1998-11-17 複合的な文法ネットワークを用いる音声認識システム Expired - Fee Related JP3049235B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10326600A JP3049235B2 (ja) 1998-11-17 1998-11-17 複合的な文法ネットワークを用いる音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10326600A JP3049235B2 (ja) 1998-11-17 1998-11-17 複合的な文法ネットワークを用いる音声認識システム

Publications (2)

Publication Number Publication Date
JP2000148178A true JP2000148178A (ja) 2000-05-26
JP3049235B2 JP3049235B2 (ja) 2000-06-05

Family

ID=18189635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10326600A Expired - Fee Related JP3049235B2 (ja) 1998-11-17 1998-11-17 複合的な文法ネットワークを用いる音声認識システム

Country Status (1)

Country Link
JP (1) JP3049235B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US9009048B2 (en) 2006-08-03 2015-04-14 Samsung Electronics Co., Ltd. Method, medium, and system detecting speech using energy levels of speech frames
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统
CN109903752A (zh) * 2018-05-28 2019-06-18 华为技术有限公司 对齐语音的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US9009048B2 (en) 2006-08-03 2015-04-14 Samsung Electronics Co., Ltd. Method, medium, and system detecting speech using energy levels of speech frames
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统
CN105609100B (zh) * 2014-10-31 2019-08-20 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别系统
CN109903752A (zh) * 2018-05-28 2019-06-18 华为技术有限公司 对齐语音的方法和装置
CN109903752B (zh) * 2018-05-28 2021-04-20 华为技术有限公司 对齐语音的方法和装置
US11631397B2 (en) 2018-05-28 2023-04-18 Huawei Technologies Co., Ltd. Voice alignment method and apparatus

Also Published As

Publication number Publication date
JP3049235B2 (ja) 2000-06-05

Similar Documents

Publication Publication Date Title
US5991720A (en) Speech recognition system employing multiple grammar networks
JP3434838B2 (ja) ワードスポッティング法
US5799065A (en) Call routing device employing continuous speech
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US5515475A (en) Speech recognition method using a two-pass search
Bridle et al. Continuous connected word recognition using whole word templates
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
US20220343895A1 (en) User-defined keyword spotting
EP1220197A2 (en) Speech recognition method and system
JPH0422276B2 (ja)
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
JPH10508392A (ja) トリー構成確率密度に基づくパターン認識の方法及びシステム
EP1301922A1 (en) System and method for voice recognition with a plurality of voice recognition engines
EP2609587A1 (en) System and method for recognizing a user voice command in noisy environment
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
KR20010086402A (ko) 음성인식 장치
WO2004049308A1 (en) Speech recognition device and method
JP2003208195A5 (ja)
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees