JP3388845B2 - 混同するほど類似した語句の入力を防止する方法と装置 - Google Patents

混同するほど類似した語句の入力を防止する方法と装置

Info

Publication number
JP3388845B2
JP3388845B2 JP31064093A JP31064093A JP3388845B2 JP 3388845 B2 JP3388845 B2 JP 3388845B2 JP 31064093 A JP31064093 A JP 31064093A JP 31064093 A JP31064093 A JP 31064093A JP 3388845 B2 JP3388845 B2 JP 3388845B2
Authority
JP
Japan
Prior art keywords
phrase
received
vocabulary list
phrases
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP31064093A
Other languages
English (en)
Other versions
JPH06282291A (ja
Inventor
ピー.イッティチェリア エイブラハム
ジェイ.ウィートリィ バーバラ
Original Assignee
テキサス インスツルメンツ インコーポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テキサス インスツルメンツ インコーポレイテツド filed Critical テキサス インスツルメンツ インコーポレイテツド
Publication of JPH06282291A publication Critical patent/JPH06282291A/ja
Application granted granted Critical
Publication of JP3388845B2 publication Critical patent/JP3388845B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は全般的に音声認識装
置、更に具体的に云えば、話し手に依存する音声認識装
置の語彙リストに混同するほど類似した語句の入力を防
止する方法と装置に関する。
【0002】
【従来の技術】最近、話し手に依存する音声認識装置は
次第に高級になってきた。実際、テキサス・インスツル
メンツ社は、多数の機能を実施する為に指令の音声認識
ができる様にしたTIシステム1500を提供してい
る。TIシステム1500の様な音声認識装置の重要な
特徴は、音声指令だけを用いて高速でダイヤルしたり又
は相手を呼出すことができることである。例えば、或る
人が音声認識装置に対して指令を出し、「ボブ・ジョン
ソンに電話する」と言うことがある。その時、音声認識
装置は或るボブ・ジョンソンと云う人に関連する電話番
号又はその他のアクセス番号を持つ関連する予めプログ
ラムされたデータベースにアクセスする。その後、装置
は直ちにその番号を使うか又はダイヤルする。
【0003】
【発明が解決しようとする課題】然し、この様な話し手
に依存する音声認識装置を使って、こう云う形式の音声
ダイヤル方式又は「レパートリ」・ダイヤル方式を行な
う人は、自分の語彙リストに誰を載せているかを忘れる
場合が多い。忘れた時、ユーザは、既に語彙リストに載
っている語句と同じであるか或いは混同するほど類似し
た語句を登録しようとする。例えば、或る人が、ボブ・
ジョンソンと云う語句が既に存在しているのに、「ボブ
・ジョンソン」と云う語句を自分の語彙リストに追加し
ようとする場合、この結果装置の見かけの誤動作を招
く。後でボブ・ジョンソンを呼出そうとする時、ユーザ
又は加入者は「ボブ・ジョンソンを呼べ」という指令を
出すが、装置はその呼を行なうのに2つの電話番号の内
の1つしか使うことができない。従って、ユーザは、装
置がどの番号を呼出すかを正しく制御することができな
い。その上、その人が、混同するほど類似した「ボブ・
ジョンソン」が存在している時に、「ボブ・ジョンスト
ン」と云う語句をリストに追加しようとすると、同じ様
なシステム誤差が起こり得る。何れの場合も、システム
の誤動作が起こると思われる。然し、語彙リストにある
1つの語句又は混同するほど類似した語句に関連する1
つより多くの電話番号があることによって起こる誤り
は、システムの性能が不良であることに由るものではな
い。そうではなく、この誤りは音声認識装置の誤用から
起こるものである。
【0004】話し手に依存する音声認識装置で全般的に
話し手に依存する指令を登録する際には同様な問題があ
る。
【0005】従って、話し手に依存する音声認識装置に
対する語彙リストに既に存在している並びに混同を招く
ほど類似した語句を追加することを防止する方法並びに
装置に対する要望がある。
【0006】装置に誤って認識させる様な、語彙リスト
に対する追加を防止することにより、話し手に依存する
音声認識装置に対する語彙リストの機能を最適にする装
置に対する要望がある。
【0007】更に、語彙リストに対する混同を招くほど
類似した語句の入力を防止する改良された音声認識装置
に対する要望が起こっている。
【0008】
【課題を解決する為の手段】この為、この発明は、話し
手に依存する音声認識装置の語彙リストに対する混同を
招くほど類似した語句の入力を防止する方法及び装置と
して、音声認識装置に対するリストを組立てる現存の方
法に伴う欠点並びに制約を解決するか又は少なくする方
法及び装置を提供する。
【0009】この発明の一面は、話し手に依存する音声
認識装置の語彙リストに対する混同を招くほど類似した
語句の入力を防止する方法であり、この方法は、語彙リ
ストに追加又は登録すべき語句をまず受取る工程を含
む。次の工程は、語彙リストに存在している他の全ての
語句に第1の確率を割当て、最初に受取った語句にそれ
より低い第2の確率を割当てることである。次の工程
は、ユーザに登録すべき語句を繰返させることである。
その時、音声認識装置は繰返される語句を、最初に受取
った時の語句をこの時含んでいる語彙リスト全体と比較
する。次の工程は、繰返される語句が、最初に受取った
語句以外の、語彙リストにある語句と符合するかどうか
を表示することである。更に、この方法は、繰返される
語句が、最初に受取った語句以外の語彙リスト全体にあ
る語句と符合する場合、その語句の追加を禁止する工程
を含む。
【0010】この発明の技術的な利点は、ユーザが語彙
リストに追加しようとする、混同を招くほど類似した語
句の間の区別をする為に、話し手に依存する音声認識装
置に存在しているのと同じ音声認識アルゴリズムを使う
ことである。これによって、この発明を実施するに必要
な余分のコストが極く小さくなることが保証される。同
時に、ある臨界的な場合には、この発明は話し手に依存
する音声認識装置の動作を実質的に改善することができ
る。
【0011】この発明の別の技術的な利点は、混同する
ほど類似した語句をユーザに知らせることにより、この
発明は混同するほど類似した語句を語彙リストに追加す
るのを避ける為にユーザに直ちにその入力を変更させる
ことができることである。
【0012】この発明並びにその利用の態様及び利点
は、以下図面について実施例を説明する所を読めば、最
もよく理解されよう。
【0013】
【実施例】この発明の好ましい実施例は、図面を参照す
れば最もよく理解される。図面全体に亘り、対応する部
分には同じ参照数字を用いている。
【0014】図1は、好ましい実施例に使われる話し手
に依存する音声認識装置の語彙リストを形成する語句の
一例のリスト10を示す概念図である。図1の語彙リス
ト10は、例えば、音声で作動される高速ダイヤル装置
に対する名前のレパートリ・ダイヤル・リストであって
よい。この発明の好ましい実施例を使うことができる音
声認識装置は、語句HGを持つ音声認識応用装置と共に
動作するテキサス・インスツルメンツ社のシステム15
00である。この装置は、この発明の考えを実施するの
に大部分ソフトウェア及びアルゴリズムに依存している
が、回路及び部品によってもこの発明の作用を同様に実
施することができる。従って、この発明は、こう云う作
用を行なう為に回路を使うこともはっきりと念頭におい
ている。
【0015】図1の語彙リスト10は、参照数字12に
示す位置にある「語句1」、参照数字14に示す位置に
ある「語句2」、以下同様に参照数字16の位置にある
「語句N」まで続く様な語句を含んでいる。話し手に依
存する音声認識装置の1つの目的は、ユーザが語彙リス
ト10に語句を追加して、指令及び制御の為にそれらの
語句を呼出すことができる様にすることである。例え
ば、音声認識装置を利用して、ユーザは「語句1を呼出
せ」と言うことができ、この点で装置は音声指令を認識
し、「語句1」に関連する人間又は場所を呼出す。
【0016】話し手に依存する音声認識装置のユーザ
は、自分の語彙リストにどんな語句が載っているかを忘
れる場合が多い。時には、忘れた時、ユーザは前に登録
されている語句に関係なしに、或る語句を再び登録しよ
うとしたり、或いは存在している語句と類似している語
句を登録しようとすることがある。こう云う何れかのこ
とが起こった場合、例えば語彙リスト10は、語彙リス
トに載せるべきでない語句だけになることがある。これ
は混同を招く原因になり、語彙リスト10の価値又は効
用を減ずることがある。こう云う問題を避ける為、この
発明の好ましい実施例は、混同するほど類似した語句が
語彙リスト10に存在しない様にする方法と装置を提供
する。
【0017】図2は好ましい実施例の登録過程20のプ
ロセスを示す流れである。ユーザ又は加入者が、ブロッ
ク22で示す様に登録過程を開始する。これを行なうに
は、話し手に依存する音声認識の登録に対し、「リスト
調査」と云う様な指令を指示する。その後、装置は例え
ば、工程24で「高速ダイヤル語句を言え」という指令
によって加入者を促す。その後、音声認識の受取り回路
が追加すべき語句を受取る。次に、音声認識装置が、エ
ネルギに基づく終点突止め又は音声の終点を確認する別
の適当な方法を用いて、「隠れたマルコフ・モデル(H
MM)」登録の名前で知られている様な過程を実施す
る。これが工程26で実施される。好ましい実施例で実
施するHMM過程の一例は、テキサス・インスツルメン
ツ社のスピーチ・アンド・イメージ・アンダースタンデ
ィング・ラボラトリー,1990年5月7日号所載の
J.ピコーンの論文「隠れたマルコフ・モデルを用いる
連続的な音声認識」(IEEE ASSPマガジンから
のリプリント)に見られる。ブロック28で示した次の
工程は、HMM方式を用いてHMMモデルを作ると共
に、加入者テンプレートに音響ベクトルを追加すること
である。一旦登録過程20が完了すると、次の工程は語
彙リスト10を更新することである。
【0018】図3は好ましい実施例の更新過程30を示
す。ブロック32から始まって、最初の工程は音声認識
装置が、語彙リスト10を更新していることを加入者に
知らせることである。その後、音声認識装置は加入者に
語彙を繰返す様に促す。音声認識装置は、ブロック34
で示す様に、例えば「高速ダイヤルの名前をもう一度言
え」と云う指令を使うことができる。次に、音声認識装
置はHMMアルゴリズムを実施して、ブロック36で、
音声認識装置に関連するデータベースにロードされたモ
デルに基づいて最善の語句を探索する。これは、同じ又
は混同するほど類似した語句が語彙リスト10にあるか
どうかを確認する比較工程である。その後、音声認識装
置は最善のモデル(即ち語句)及びそのモデルに伴う得
点に戻る。ブロック38で、好ましい実施例の方法は、
戻った語句が加入者が登録しようとするものと同じであ
るかどうか質問する。そうであれば、音声認識装置は、
ブロック40で示す様に、この情報を「成功」として加
入者に伝達する。その後、音声認識装置はその語句を語
彙リスト10に載せておく。そうでなければ、装置は、
ブロック42で示す様に、加入者の登録しようとする語
句が語彙リスト10にある別の語句とあまりに類似して
いることを加入者に知らせる。この時、この方法は、語
彙リスト10に載っている混同するほど類似した語句を
加入者に再生して見せて、命令を求める。従って、好ま
しい実施例はその語句を登録過程から拒絶する。
【0019】好ましい実施例の重要な過程は、テンプレ
ートにある全ての語句の音響モデルであるモデルを作り
出すことである。図4は、語彙リスト10にある全ての
語句に対する音響モデルが作られる過程50を示す。ブ
ロック52から始めて音声認識装置が文法の作成を更新
する。その後、語彙リスト10にある各々の語句に対
し、装置がブロック54で、登録すべき語句に対するH
MM音響モデルを作り出す。次の工程は、ブロック56
で、語彙リスト10に現在登録しつゝある語句に対する
モデルに、変数PROBで示す様な確率を割当てること
である。更にブロック56で、残っている全ての語句に
は1の確率が割当てられる。確率パロメータPROBの
値は、類似した語句の弁別を最大にすると共に、語句出
力が実際に登録しつゝあるものとは異る確率を最小限に
するように選ばれる。
【0020】上に述べた登録過程20、更新過程30及
び文法作成更新過程50の結果が、好ましい実施例の目
的を達成する変更された語彙リストである。図5は好ま
しい実施例の方法によって変更された語彙リストを示す
概念図である。特に、位置12にある「語句1」、位置
14にある「語句2」から位置16にある「語句N」ま
でと共に、変更された語彙リストには、「語句i」が登
録されている。欄62は、語彙リスト10にある各々の
モデルに関連する確率を示す。例えば、「語句1」、
「語句2」及び「語句N」は何れも1.0と云う確率の
値を持っている。「語句i」では、位置60に1.0よ
り小さい値を持つ確率変数PROBが割当てられてい
る。これによって、「語句i」には、好ましい実施例が
実施する弁別を支援するのに必要な確率が与えられる。
【0021】(動作)上に述べた方法及び装置はこの発
明の作用を明らかにするものであるが、この後の説明は
動作を更に明瞭にする。この為、下記の例は、好ましい
実施例の動作を例示する。例として、ユーザが「ボブ・
ジョンストン」と云う語句を語彙リスト10に追加する
ことを決定したと仮定する。その時、ユーザは音声認識
装置に対し、登録過程を開始する為に「リスト調査」と
いう指令を与えることができる。その時、装置は、図2
の工程24で、「高速ダイヤル語句を言え」と云うこと
により、ユーザに促す。次に、ユーザが「ボブ・ジョン
ストン」と言う。すると、好ましい実施例は「ボブ・ジ
ョンストン」と云う語句を登録し、図2の工程26及び
28に従って、「ボブ・ジョンストン」HMMモデルを
作る。
【0022】その直後、装置は語彙リスト10を更新
し、「高速ダイヤル語句をもう一度言え」とユーザに促
す(図3参照)。一旦ユーザがもう一度「ボブ・ジョン
ストン」という語句を言うと、HMMアルゴリズムが、
語彙リスト10に「ボブ・ジョンストン」と云う語句と
符合するものがあるかどうかを調べる為に探索する。然
し、こう云うことが行なわれる前に、好ましい実施例の
方法により、「ボブ・ジョンストン」と云う語句を除い
て、語彙リスト10にある全ての語句には1.0の確率
が割当てられている(図4参照)。その後「ボブ・ジョ
ンストン」と云う語句には、例えば0.8の確率(即
ち、語彙リスト10にある他の全ての語句の確率より小
さい確率)が割当てられる。
【0023】例として、語彙リスト10に「ボブ・ジョ
ンソン」と云う語句があると仮定する。この場合、もう
一度言われた「ボブ・ジョンストン」と「ボブ・ジョン
ソン」とが符合する確率が1.0であるのに対し、「ボ
ブ・ジョンストン」に対する確率は0.8であるから、
装置は、「ボブ・ジョンソン」と云う語句との符合をユ
ーザに戻す可能性の方が大きい。この点で、好ましい実
施例は、2度目に言われた語句と最初に受取ったまゝの
語句(即ち、関連する確率が一層小さい語句)とが符合
するかどうかを試験する。この例では、そうならない。
従って、ユーザには、登録しようとする語句がリストに
ある別の語句と類似し過ぎていることが知らされる。そ
こで装置は、「あなたはボブ・ジョンストンと云う語句
を入力しようと試みているが、データベースには既にボ
ブ・ジョンソンと云う語句が存在する。別の語句を選ん
で下さい」と云う様な指令をユーザに対して再生する。
この代わりに、ユーザには、この他の同様な指示を与え
てもよい。然し、本質的には、好ましい実施例の動作に
より、話し手に依存する音声処理装置にある語彙リスト
は更に誤りのない形で使うことができる。
【0024】別の段階では、ユーザが混同するほど類似
した語句を語彙リストに追加しようとする時、最初の工
程は学習過程の更新を行なうことである。この更新は、
追加される語句のモデルを作る登録から始まる。次の工
程は、ユーザにその語句を繰返させ、最初の語句を2番
目の語句に重ならせるか、又はそれを更新して一層よい
モデルを作ることである。従来、一層よいモデルを作る
試みとしてなされることは、全ての語句に同等の確率を
割当てるか、又はリストにどんな他の語句があるかに関
係なく、1個のモデルを同様に更新することである。こ
の代わりに、好ましい実施例は、繰返された語句を評価
し、更新では、全ての語句に確率を割当て、ユーザが語
彙リストに追加しようとする語句に対して、他の全ての
語句を装置が優先する様にする。最初に話された語句よ
りも、他の全ての語句に一層大きな確率を割当てること
により、最初に話された語句又はユーザが登録を希望す
る語句よりも、同じ様な響きの語句が選ばれる。こうし
て、好ましい実施例は登録しようとする語句を、現在語
彙リストに入っている他の全ての語句に対して試験す
る。これは、装置が2度目に話された語句を最初に話さ
れた語句として認識する確率を人為的に下げることによ
って行なわれる。この比較過程全体が、テキサス・イン
スツルメンツ社のシステム1500音声認識装置で使わ
れるHGシステム・ソフトウェアの様な音声認識装置の
ソフトウェアによって実施される。
【0025】上に好ましい実施例を詳しく述べたが、こ
の発明は少なくとも1つの別の実施例も考えられる。こ
の別の実施例は、新たにシステムに追加しようとする1
つを除いた全ての語句の音声モデルを使って、登録デー
タに認識アルゴリズムを実行する工程を含む。この場
合、認識装置は典形的な残っているモデルの間に最善の
符合を見つけるのが典形的である。この別の方法は、こ
の後、虚偽の符合の得点と正しいモデルで得られた得点
とに基づく判定規則を用いて、新しい語句を語彙リスト
10に受け入れるかどうかを決定する。その後、この別
の実施例は、虚偽の符合の得点と正しい符合の得点の間
の差が予定の閾値より小さい場合、新しい語句を追加す
る。その時、音声認識装置は、語句の追加が受け入れら
れるものであったかなかったかを、ユーザに知らせる。
【0026】この発明を詳しく説明したが、特許請求の
範囲によって定められたこの発明の範囲を逸脱すること
なく、この実施例に種々の変更を加えることができるこ
とを承知されたい。
【0027】以上の説明に関連して、この発明は下記の
実施態様を有する。
【0028】(1)話し手に依存する音声認識装置の語
彙リストに混同するほど類似した語句の入力を防止する
方法に於て、語彙リストにある複数個の他の語句に追加
する為に最初に受取った語句をまず受取り、前記語句を
前記語彙リストに登録し、前記語句に対して第1の確率
を、そして前記複数個の他の語句の各々に、前記第1の
確率より大きな値を持つ第2の確率を割当て、2番目に
受取った語句を受取り、該2番目に受取った語句は最初
に受取った語句と略同じ響きを持ち、前記第1の確率及
び第2の確率は、前記話し手に依存する音声認識装置が
前記2番目に受取った語句を前記最初に受取った語句又
は前記語彙リストにある前記複数個の他の語句と符合す
るとする尤度を制御し、前記2番目に受取った語句を、
前記最初に受取った語句及び前記複数個の他の語句を含
む前記語彙リストと比較し、前記2番目に受取った語句
が前記複数個の他の語句の内の1つと符合するかどうか
を表示し、前記2番目に受取った語句が前記複数個の他
の語句の内の1つと符合する場合、前記最初に受取った
語句の前記語彙リストへの登録を拒絶する工程を含む方
法。
【0029】(2)(1)項に記載した方法に於て、比
較する工程が隠れたマルコフ・モデル過程を用いて実施
される方法。
【0030】(3)(1)項に記載した方法に於て、比
較する工程で2番目に受取った語句が最初に受取った語
句と符合するとする場合、最初に受取った語句を語彙リ
ストに残しておく工程を含む方法。
【0031】(4)(1)項に記載した方法に於て、第
1の確率が、2番目に受取った語句と複数個の他の語句
の各々との間の類似性の弁別を最大にすると共に、音声
認識装置が2番目に受取った語句を最初に受取った語句
とは異なる語句と符合するとする尤度を最小限に抑える
方法。
【0032】(5)(1)項に記載した方法に於て、知
らせる工程が、最初に受取った語句が複数個の他の語句
の内の少なくとも1つと類似し過ぎていることを述べる
メッセージを再生する工程を含む方法。
【0033】(6)(1)項に記載した方法に於て、第
2の確率が1の確率である方法。
【0034】(7)(1)項に記載した方法に於て、登
録する工程が、エネルギに基づく終点突止め過程を用い
て語句を登録する工程を含む方法。
【0035】(8)話し手に依存する音声認識装置の語
彙リストに混同するほど類似した語句の入力を防止する
装置に於て、前記話し手に依存する音声認識装置に付設
されていて、語彙リストにある複数個の他の語句に追加
する為に最初に受取った語句をまず受取る受取り回路
と、前記語句を前記語彙リストに登録する登録機構と、
前記語句に第1の確率を、そして前記複数個の他の語句
の各々に、前記第1の確率より大きい値を持つ第2の確
率を割当てる割当てアルゴリズムとを有し、前記受取り
回路は更に2番目に受取った語句を受取り、該2番目に
受取った語句は前記最初に受取った語句と略同じ響きを
持ち、前記第1の確率及び前記第2の確率は、前記音声
認識装置が前記2番目に受取った語句を、前記最初に受
取った語句又は前記語彙リストにある前記複数個の他の
語句と符合するとする尤度を制御し、更に、前記2番目
に受取った語句を、前記最初に受取った語句及び前記複
数個の他の語句を含む語彙リストと比較する比較回路
と、前記2番目に受取った語句が前記複数個の他の語句
の内の1つと符合するかどうかを表示する通信回路と、
前記2番目に受取った語句が前記複数個の他の語句の内
の1つと符号する場合、前記最初に受取った語句の語彙
リストへの登録を拒絶する拒絶回路とを有する装置。
【0036】(9)(8)項に記載した装置に於て、比
較回路が隠れたマルコフ・モデル過程を用いて比較を行
なう回路を有する装置。
【0037】(10)(8)項に記載した装置に於て、
比較回路が2番目に受取った語句を最初に受取った語句
と符合するとした場合、最初に受取った語句を語彙リス
トに残す維持回路を有する装置。
【0038】(11)(8)項に記載した装置に於て、
第1の確率が2番目に受取った語句と複数個の他の語句
の各々との間の類似性の弁別を最大にすると共に、音声
認識装置が2番目に受取った語句を最初に受取った語句
とは異なる語句と符合するとする尤度を最小限に抑える
装置。
【0039】(12)(8)項に記載した装置に於て、
通信回路が、最初に受取った語句が複数個の他の語句の
内の少なくとも1つと類似し過ぎていることを述べるメ
ッセージを再生する再生回路を有する装置。
【0040】(13)(8)項に記載した装置に於て、
第2の確率が1の確率である装置。
【0041】(14)(8)項に記載した装置に於て、
登録機構が、エネルギに基づく終点突止め過程を用いて
語句を登録する機構である装置。
【0042】(15)語彙リストにある混同するほど類
似した語句の入力を防止する改良された話し手に依存す
る音声認識装置に於て、音声指令に応答する話し手に依
存する音声認識装置と、該話し手に依存する音声認識装
置に付設されていて、音声リストに載っている複数個の
他の語句に追加する為に、最初に受取った語句をまず受
取る受取り回路と、前記語句を語彙リストに登録する登
録機構と、前記語句に第1の確率を、そして前記複数個
の他の語句の各々に、前記第1の確率よりも大きな値を
持つ第2の確率を割当てる割当てアルゴリズムとを有
し、前記受取り回路は、更に2番目に受取った語句を受
取り、該2番目に受取った語句は最初に受取った語句と
略同じ響きであり、前記第1の確率及び第2の確率は、
音声認識装置が2番目に受取った語句を最初に受取った
語句又は語彙リストにある複数個の他の語句と符合する
とする尤度を制御し、更に、2番目に受取った語句を最
初に受取った語句及び複数個の他の語句を含めた語彙リ
ストと比較する比較回路と、2番目に受取った語句が複
数個の他の語句の内の1つと符合するかどうかを知らせ
る通信回路と、2番目に受取った語句が複数個の他の語
句の内の1つと符合する場合、最初に受取った語句の語
彙リストへの登録を拒絶する拒絶回路とを有する改良さ
れた話し手に依存する音声認識装置。
【0043】(16)(15)項に記載した改良された
話し手に依存する音声認識装置に於て、比較回路が、隠
れたマルコフ・モデル過程を用いて前記比較を実施する
回路を有する改良された話し手に依存する音声認識装
置。
【0044】(17)(15)項に記載した改良された
話し手に依存する音声認識装置に於て、比較回路が、2
番目に受取った語句を最初に受取った語句と符合すると
した場合、最初に受取った語句を語彙リストに維持する
維持回路を有する改良された話し手に依存する音声認識
装置。
【0045】(18)(15)項に記載した改良された
話し手に依存する音声認識装置に於て、第1の確率が2
番目に受取った語句と複数個の他の語句の各々との間の
類似性の識別を最大にすると共に、音声認識装置が2番
目に受取った語句を最初に受取った語句とは異なる語句
と符合するとする尤度を最少限に抑える改良された話し
手に依存する音声認識装置。
【0046】(19)(15)項に記載した改良された
話し手に依存する音声認識装置に於て、通信回路が、最
初に受取った語句が複数個の他の語句の内の少なくとも
1つと類似し過ぎていることを述べるメッセージを再生
する再生回路を有する改良された話し手に依存する音声
認識装置。
【0047】(20)(15)項に記載した改良された
話し手に依存する音声認識装置に於て、第2の確率が1
の確率である改良された話し手に依存する音声認識装
置。
【0048】(21)話し手に依存する音声認識装置の
語彙リスト10に対する混同するほど類似した語句60
の入力を防止する方法と装置を説明した。この方法は、
語彙リスト10に追加する為、語句60をまず受取り2
0,30,50、そして登録する。次に、全ての語句1
2に確率62が割当てられる。既に存在している語句に
割当てられる確率62は、ユーザが追加しようとする語
句62に割当てられる確率よりも大きい。追加しようと
する語句60を2度目に受取って、最初に受取った語句
60を含む変更された語彙リスト61と比較する。次に
この方法は、2番目に受取った語句が最初に受取った語
句60以外の、変更された語彙リスト61にある語句1
2,14,16と符合するかどうかを知らせる。
【図面の簡単な説明】
【図1】話し手に依存する音声認識装置の一例としての
語彙リストを示す概念図。
【図2】好ましい実施例による登録過程の工程並びにデ
ータの流れを示すフローチャート。
【図3】好ましい実施例による語彙リスト更新過程のフ
ローチャート。
【図4】好ましい実施例による文法作成更新過程のフロ
ーチャート。
【図5】この発明の目的の為に変更された語彙リストを
示す概念図。
【符号の説明】
10,61 語彙リスト 12,14,16,60,62 語句 30 更新過程 32,34,36,38,40,42 ブロック
フロントページの続き (56)参考文献 特開 昭57−102699(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 話し手に依存する音声認識装置の語彙リ
    ストに混同するほど類似した語句の入力を防止する方法
    に於て、 語彙リストにある複数個の他の語句に追加する為に最初
    に受取った語句をまず受取る工程と、 前記語句を前記語彙リストに登録する工程と、 前記語句に対して第1の確率を、そして前記複数個の他
    の語句の各々に、前記第1の確率より大きな値を持つ第
    2の確率を割当てる工程と、 2番目に受取った語句を受取り、該2番目に受取った語
    句は最初に受取った語句と略同じ響きを持ち、前記第1
    の確率及び第2の確率は、前記話し手に依存する音声認
    識装置が前記2番目に受取った語句を前記最初に受取っ
    た語句又は前記語彙リストにある前記複数個の他の語句
    と符合するとする尤度を制御する工程と、 前記2番目に受取った語句を、前記最初に受取った語句
    及び前記複数個の他の語句を含む前記語彙リストと比較
    する工程と、 前記2番目に受取った語句が前記複数個の他の語句の内
    の1つと符合するかどうかを表示する工程と、 前記2番目に受取った語句が前記複数個の他の語句の内
    の1つと符合する場合、前記最初に受取った語句の前記
    語彙リストへの登録を拒絶する工程とを含む方法。
  2. 【請求項2】 話し手に依存する音声認識装置の語彙リ
    ストに混同するほど類似した語句の入力を防止する装置
    に於て、 音声の命令に応答するための話し手に依存する音声認識
    装置と、 語彙リストにある複数個の他の語句に追加する為に最初
    に受取った語句をまず受取る受取り回路と、 前記語句を前記語彙リストに登録する登録機構と、 前記語句に第1の確率を、そして前記複数個の他の語句
    の各々に、前記第1の確率より大きい値を持つ第2の確
    率を割当てる割当てアルゴリズムとを有し、 前記受取り回路は更に2番目に受取った語句を受取り、
    該2番目に受取った語句は前記最初に受取った語句と略
    同じ響きを持ち、前記第1の確率及び前記第2の確率
    は、前記音声認識装置が前記2番目に受取った語句を、
    前記最初に受取った語句又は前記語彙リストにある前記
    複数個の他の語句と符合するとする尤度を制御し、 更に、前記2番目に受取った語句を、前記最初に受取っ
    た語句及び前記複数個の他の語句を含む語彙リストと比
    較する比較回路と、 前記2番目に受取った語句が前記複数個の他の語句の内
    の1つと符合するかどうかを表示する通信回路と、 前記2番目に受取った語句が前記複数個の他の語句の内
    の1つと符号する場合、前記最初に受取った語句の語彙
    リストへの登録を拒絶する拒絶回路とを有する装置。
JP31064093A 1992-12-11 1993-12-10 混同するほど類似した語句の入力を防止する方法と装置 Expired - Lifetime JP3388845B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US989285 1992-12-11
US07/989,285 US5452397A (en) 1992-12-11 1992-12-11 Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list

Publications (2)

Publication Number Publication Date
JPH06282291A JPH06282291A (ja) 1994-10-07
JP3388845B2 true JP3388845B2 (ja) 2003-03-24

Family

ID=25534958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31064093A Expired - Lifetime JP3388845B2 (ja) 1992-12-11 1993-12-10 混同するほど類似した語句の入力を防止する方法と装置

Country Status (6)

Country Link
US (1) US5452397A (ja)
EP (1) EP0601876B1 (ja)
JP (1) JP3388845B2 (ja)
KR (1) KR100283736B1 (ja)
DE (1) DE69317229T2 (ja)
MY (1) MY115138A (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US5717738A (en) * 1993-01-11 1998-02-10 Texas Instruments Incorporated Method and device for generating user defined spoken speed dial directories
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5754977A (en) * 1996-03-06 1998-05-19 Intervoice Limited Partnership System and method for preventing enrollment of confusable patterns in a reference database
US5915238A (en) * 1996-07-16 1999-06-22 Tjaden; Gary S. Personalized audio information delivery system
US5752230A (en) * 1996-08-20 1998-05-12 Ncr Corporation Method and apparatus for identifying names with a speech recognition program
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6005927A (en) * 1996-12-16 1999-12-21 Northern Telecom Limited Telephone directory apparatus and method
KR19990082563A (ko) * 1996-12-17 1999-11-25 요트. 게. 아. 롤페즈 코드리스 전화기
CN1216137A (zh) * 1996-12-24 1999-05-05 皇家菲利浦电子有限公司 一种训练语音识别系统的方法和实践该方法的装置特别是手提电话设备
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US5987411A (en) * 1997-12-17 1999-11-16 Northern Telecom Limited Recognition system for determining whether speech is confusing or inconsistent
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US7266498B1 (en) * 1998-12-18 2007-09-04 Intel Corporation Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
JP2003505778A (ja) * 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
EP1192789B1 (en) 1999-06-11 2008-10-15 Telstra Corporation Limited A method of developing an interactive system
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
GB2385698B (en) * 2002-02-26 2005-06-15 Canon Kk Speech processing apparatus and method
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
AU2002951244A0 (en) * 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
AU2004211007B2 (en) * 2003-02-11 2010-08-19 Telstra Corporation Limited System for predicting speech recognition accuracy and development for a dialog system
AU2003900584A0 (en) * 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8195456B2 (en) * 2009-12-04 2012-06-05 GM Global Technology Operations LLC Robust speech recognition based on spelling with phonetic letter families
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
US10832658B2 (en) * 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
ES2019628B3 (es) * 1986-02-15 1991-07-01 Smiths Ind Public Ltd Company Procesador de textos hablados y metodo..
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5054074A (en) * 1989-03-02 1991-10-01 International Business Machines Corporation Optimized speech recognition system and method
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models

Also Published As

Publication number Publication date
JPH06282291A (ja) 1994-10-07
EP0601876B1 (en) 1998-03-04
MY115138A (en) 2003-04-30
DE69317229T2 (de) 1998-06-25
KR100283736B1 (ko) 2001-03-02
US5452397A (en) 1995-09-19
KR940015969A (ko) 1994-07-22
DE69317229D1 (de) 1998-04-09
EP0601876A1 (en) 1994-06-15

Similar Documents

Publication Publication Date Title
JP3388845B2 (ja) 混同するほど類似した語句の入力を防止する方法と装置
US6839671B2 (en) Learning of dialogue states and language model of spoken information system
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US7143037B1 (en) Spelling words using an arbitrary phonetic alphabet
US9754586B2 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
EP0564166B1 (en) Automatic speech recognizer
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US5895448A (en) Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6999931B2 (en) Spoken dialog system using a best-fit language model and best-fit grammar
EP1019904B1 (en) Model enrollment method for speech or speaker recognition
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20020169600A1 (en) Multi-stage large vocabulary speech recognition system and method
JP4173207B2 (ja) 発声音に関する話者の検証を行うためのシステム及び方法
US6061653A (en) Speech recognition system using shared speech models for multiple recognition processes
JPH05181494A (ja) 音声パターンの識別装置と方法
JPH10507535A (ja) 音声作動サービス
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
JP2007124686A (ja) 音声認識データベースにアドレスを登録する方法とシステム
JP3703991B2 (ja) 自由音声評点法を用いた動的音声認識の方法および装置
US20170270923A1 (en) Voice processing device and voice processing method
JP2003177788A (ja) 音声対話システムおよびその方法
EP1160767B1 (en) Speech recognition with contextual hypothesis probabilities
JP2020101778A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100117

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100117

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120117

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130117

Year of fee payment: 10

EXPY Cancellation because of completion of term