JP4355035B2 - 音声認識データベースにアドレスを登録する方法とシステム - Google Patents
音声認識データベースにアドレスを登録する方法とシステム Download PDFInfo
- Publication number
- JP4355035B2 JP4355035B2 JP24224796A JP24224796A JP4355035B2 JP 4355035 B2 JP4355035 B2 JP 4355035B2 JP 24224796 A JP24224796 A JP 24224796A JP 24224796 A JP24224796 A JP 24224796A JP 4355035 B2 JP4355035 B2 JP 4355035B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- template
- speed dial
- name
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 79
- 230000004044 response Effects 0.000 claims description 36
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000012795 verification Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001620634 Roger Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Description
【発明の属する技術分野】
本発明は音声認識に関し、より詳細には、音声認識データベースに音声認識アドレスを登録することに関する。
【0002】
【発明が解決しようとする課題】
短縮ダイヤルにおいては、音声認識データベースに名前のアドレスを登録することが使用されている。短縮ダイヤルとは、たとえば、ある数の電話番号あるいは一群の電話番号が予め格納されており、ユーザは、呼び出す電話番号の名前を言うことによって、その番号群のアドレスだけを指定しなければならない場合のことである。ユーザが電話機に向かって名前でアドレスを言うことにより、短縮ダイヤルが利用でき、電話番号群の中のその名前に関連する電話番号がダイヤルアップされるということは極めて望ましい。したがって、電話システムに話かけると正しい番号がダイヤルされるように、短縮ダイヤル名のアドレスを電話システムに登録する方法とシステムを提供することが望ましい。
【0003】
【課題を解決する手段】
本発明の一好適実施例によれば、認識できなかった音声に対しては、ペナルティ付加型不要要素モデル(penalized garbage model)を用意し、ユーザから登録するための新しい発声(utterance)を受信し、さらにその新しい発声のテンプレートを生成することにより、アドレスを名前として音声認識データベースに登録する方法とシステムが提供されている。発声が繰り返されると、そのテンプレートと比較されて、新らしい発声のテンプレートをデータベースに入れるべきか否か判断する。
【0004】
本発明の別の好適実施例によれば、音声認識データベースに名前を登録する方法とシステムは、話者に依存するテンプレート(speaker dependent template:以下、「話者依存型テンプレート」と云う)とペナルティ付加型不要要素モデルとを備えたデータベースを含んでおり、登録される名前とデータベースの中の名前を比較して、あまりにもよく似た名前は拒否される。
【0005】
本発明の別の好適実施例によれば、データベースに入れる前に、音声認識データベースに登録される名前が短すぎるか否か判断する。
【0006】
【発明の実施の形態】
図1は電話システム10の簡略化したブロック図である。電話システム10には、プロセッサ12に接続する電話機11が含まれている。オフフック検出回路13と認識・記録回路14は、電話機11とプロセッサ12に接続する。またプロセッサ12はメモリ15に接続する。動作する場合、電話機11がオフフック条件を示していることを、オフフック検出回路13がプロセッサ12に連絡すると、プロセッサ12は、プロセッサ12の中に格納されていてプロセッサ12が実行するプログラムに従って、コマンドを監視することが可能になる。プロセッサ12の中のプログラムは、ユーザがディレクトリ名アドレスと短縮ダイヤルリストのエントリ名さらにディレクトリ名アドレスに関連する電話番号を発声させることを可能にする。電話システム10は、各ユーザがこの特定のディレクトリ名と短縮ダイヤルリストだけにアクセスできるように、ディレクトリ名アドレスと、関連するエントリ名との話者依存型テンプレートと、電話番号を格納している。
【0007】
図2は、音声認識電話システム10において、多数のユーザが発声した短縮ダイヤルのディレクトリを発生させる方法の初期の流れ図である。一実施例におけるプロセッサ12は、この流れ図に従ってプログラムが組まれている。電話システム10のオフフック検出回路13は、ステップ16で電話機11を監視して特定の電話機のオフフック条件を検出する。オフフック条件が検出されると、プロセッサ12はステップ17で、ユーザにコマンドの入力を促す。ステップ18でプロセッサ12は、比較器とメモリ15とを含むプロセッサを備えている認識・記録回路14とともに、電話システム10のメモリ15に符号化されて入っている複数のテンプレートの1つとユーザの応答を比較する。電話システム10は汎用性を備えているので、ステップ18で、ユーザから発声された語か、場合によっては、これに対応してコマンド語を表す電話機11のDTMF押しボタン符号かのいずれかを受信できるように考慮されている。全図を通して、アスタリスクは、電話システム10が、発声されたコマンド語、またはこれに対応して発声されたコマンド語を表すDTMF押しボタン符号のいずれかを認識できることを示している。またアスタリスクは、電話システム10が、モデルとユーザの応答を一致させるとき、話者に依存しない音声認識を実行することを示している。説明のために限定して、以下に説明する電話システムは、対応するDTMF押しボタン符号による代表的なコマンドのかわりに、発声された応答を受信する電話システムであるとして、好適実施例の説明を進めることにする。
【0008】
電話システム10は、ステップ18で各種コマンドフレーズの1つを認識し、要求されたコマンドに従って進行することができる。電話システム10はステップ19で、最初のコマンドとしてユーザから受信した電話番号を認識することができる。電話システム10はステップ20で、受信した番号をユーザに報告すると、シーケンスはステップ22に続き、要求された呼を発信するため、ここで電話番号が自動的にダイヤルされる。
【0009】
また電話システム10はステップ24で、ユーザから受信した第2のコマンドフレーズとして、「ヘルプ(help)」などの緊急コマンドを認識する。電話システム10はステップ26で、たとえば、911などの緊急電話番号がダイヤル中であることをユーザに連絡すると、シーケンスはステップ22に進み、ここでもう一度呼を発信することができる。また電話システム10は、ユーザからの第3のコマンドフレーズ、「キャンセル(CANCEL)」を認識すると、このコマンドは電話システム10を自動的にステップ17に戻し、現在進行中のすべてのコマンドシーケンスを停止させる。たとえば、図1に示すように、ユーザは、電話回線の他端で接続が設定される前に電話をかけることを停止することができる。図1にはただ1箇所しか示されていないが、ステップ28で「キャンセル」コマンドを認識することは、後に続く各種図面を参照して説明されている電話システムの方法中どこにおいても発生し得るのである。
【0010】
ユーザがユーザディレクトリリストを入力することを要求すると、電話システム10は、ステップ30で第4のコマンド語を認識する。電話システム10がこのコマンドを認識すると、処理はステップ32に移り、ユーザはディレクトリオプションを入力することが可能になる。図3は、電話システムのプログラムのディレクトリオプション部分の処理ステップの流れ図を示している。コマンドを認識すると、ユーザはステップ34で、ディレクトリオプションを入力する。認可されたユーザだけがディレクトリオプションを入力できることを保証するため、電話システム10は、ステップ36、38でセキュリティ対策(security measures)を実行し、ディレクトリオプションを入力する認可を検証することをユーザに要求する。この検証は、ユーザがシステムに入力する認可符号であってもよいし、あるいはユーザの発声パターンと電話システム10に格納された検証テンプレートを一致させる、話者依存型音声認識テンプレートが存在していればよい。
【0011】
電話システム10は、ステップ36でユーザに適切な検証を促し、ステップ38でユーザの検証応答を認識する。電話システム10は、検証処理の部分として、ステップ36、38を1回以上実行する。電話システム10が、ユーザが入力した検証符号を認識しない場合、「キャンセル」コマンドと同様に、処理の流れは図2のステップ17に戻る。電話システム10が有効な検証符号を認識すると、処理の流れはステップ40に続き、ここで電話システム10は、ディレクトリオプションの4つのコマンドの1つを入力するようユーザに促す。ユーザの検証については、Keroによる米国特許第5,369,685号を参照されたい。
【0012】
ユーザが適切な検証を行い、ディレクトリオプションを入力すると、電話システム10は、ステップ42で第1のサブコマンド語を認識し、ユーザディレクトリ名をシステムに追加する。電話システム10は、ディレクトリ名を要求し、そしてステップ46で、電話システムに格納されるテンプレートにユーザの応答をセーブすることにより、ステップ44でユーザを登録する。ユーザディレクトリ名を登録するとき、電話システム10は、その目的でつまりその電話機に対してテンプレートを生成し、既に登録されているユーザ識別テンプレートの既存リストに、生成したテンプレートをセーブするため、ステップ44、46を繰り返し実行する。テンプレートがセーブされると、処理の流れはステップ40に戻り、ここで電話システム10は、ユーザに別のコマンド語を入力することを促す。
【0013】
電話システム10は、ステップ48で第2のサブコマンド語を認識し、ユーザディレクトリ名を削除する。サブコマンド語が認識されると、電話システム10はステップ50で、削除するユーザディレクトリの名前を入力するようユーザに促す。電話システム10がステップ52でユーザが入力したディレクトリ名を認識すると、ステップ54でディレクトリ名が削除されたことを確認するようユーザに要求する。ユーザがディレクトリ名の削除を確認しないと、処理の流れはステップ40に戻り、ここで電話システム10はユーザにコマンドフレーズを入力することを促す。ステップ54でユーザがディレクトリ名の削除を確認すると、電話システム10はステップ56で、そのディレクトリ名に対して生成されたテンプレートと、そのディレクトリ名に対応するすべての電話機リストのエントリとを削除する。これらのエントリが削除されると、処理の流れはステップ40に戻り、ここで電話システム10はユーザに新しいコマンドフレーズを入力することを促す。
【0014】
電話システム10は、ステップ58で第3のサブコマンドフレーズを認識し、ディレクトリ名のリストの見直し(review)を行うことができる。第3のサブコマンドフレーズが認識されると、電話システム10は、ステップ40に戻って新しいコマンドフレーズを要求する前に、ステップ60でユーザディレクトリリストを再生する。また電話システム10は、ステップ62で、第4のコマンドフレーズを認識し、ユーザがディレクトリオプションの要求を完了したことを判断する。第4のコマンドが認識されると、処理の流れは図2のステップ17に戻り、ここで電話システム10は、ユーザに電話番号を入力するように促す。
【0015】
図2に戻ると、電話システム10は、ステップ64で第5のコマンドフレーズとしてディレクトリ名を認識する。電話システム10がユーザのディレクトリ名を認識すると、処理の流れはステップ66に進み、ここで電話システムは短縮ダイヤルリストオプションに入る。図4は、本発明の短縮ダイヤルリストオプションの処理の流れ図である。電話システム10は、ステップ68で短縮ダイヤルリストオプションに入り、それに続いてステップ70で、ユーザに、呼び出す名前を要求するかあるいはリストに入れるかのいずれかを促す。電話システム10がステップ72でエントリ名を認識すると、ステップ74でユーザにプロンプトが与えられ、要求された名前を電話システム10が呼び出すことを示す。電話システム10は、前に説明したように、図2のステップ22で呼を発信する。また電話システム10は、ステップ76でリストコマンドを認識しかつ入力できるとともに、ステップ78でユーザに5つのリストコマンドフレーズの1つを入力するように促すことができる。
【0016】
電話システム10はステップ80で、ユーザのディレクトリ名の下に、エントリ名と電話番号とを短縮ダイヤルリストに追加する第1のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、電話システム10は、ステップ82で短縮ダイヤルリストにこのエントリ名を登録するようユーザに促す。電話システム10は、ステップ83で、いまステップ82で登録したエントリ名に対応する電話番号を登録するようユーザに促す。電話システム10はステップ84で、ユーザが登録した名前と電話番号とに対応するテンプレートを生成しセーブする。短縮ダイヤルリストに使用するエントリ名と電話番号の有効なテンプレートを検証しかつ生成するため、電話システム10はステップ82、83、84を繰り返し実行する。テンプレートがセーブされると、処理の流れは、ステップ70の短縮ダイヤルリストオプションルーチンの先頭に戻る。
【0017】
電話システム10はステップ86で、エントリ名に対応する電話番号を修正する第2のリストコマンドを認識する。このコマンドが認識されると、電話システム10はステップ88で、電話番号を修正する名前を用意するようにユーザに促す。ステップ90でユーザが入力した名前を電話システム10が認識すると、ステップ92で、ユーザはその名前に対応する電話番号を修正することが可能になる。電話システム10はステップ94でそれを使って、修正が要求されたエントリ名に対応する、修正された番号のテンプレートをセーブする。有効な電話番号テンプレートが生成されることを保証するため、電話システム10はステップ92、94を繰り返し実行する。テンプレートがセーブされると、前に説明したように、処理の流れはステップ70に戻る。
【0018】
電話システム10はステップ96で、短縮ダイヤルリストから名前を削除する第3のリストコマンドを認識する。このコマンドが認識されると、電話システム10はステップ98で、短縮ダイヤルリストから削除する名前を入力するようユーザに促す。電話システム10がステップ100でその名前を認識すると、ステップ102でその名前が削除されたことを確認するようにユーザに要求する。ユーザがその名前を削除したくない場合は、処理の流れはステップ70に戻る。ユーザがそのエントリ名の削除を確認すると、電話システムは、処理の流れをステップ70に戻す前に、エントリ名テンプレートと、対応する電話番号テンプレートとをステップ104で削除する。
【0019】
電話システム10はステップ106で、ユーザが自己の短縮ダイヤルリストを見直すことを可能にする第4のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、電話システム10はステップ108で、ユーザの短縮ダイヤルリストを再生し、処理の流れをステップ70に戻す。また電話システム10はステップ110で、ユーザが短縮ダイヤルリストオプションを完了したことを示す第5のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、前に説明したように、処理の流れは図2のステップ17に戻り、この方法が繰り返し実行される。
【0020】
要約すると、電話システムは、この電話システムの認可されたユーザ毎に別々のディレクトリを発生させることができる。各ユーザはユーザ固有のディレクトリの下に名前と電話番号とを含む短縮ダイヤルリストを生成することができる。話者によって決まる特徴を利用することにより、認可されたユーザのディレクトリつまり短縮ダイヤルリストには、誰もアクセスすることはできない。上に述べたことは、音声認識を使用して短縮ダイヤル名を登録することが背景になっている。
【0021】
本発明の一実施例によれば、図1のプロセッサ12は、図5の流れ図に従って短縮ダイヤルリストに短縮ダイヤル名を登録する動作がプログラムで組み込まれている。プロセッサ12には、ELPCカウンタとULPCカウンタとが含まれているので、プロセッサ12は、加入者が基本フレーズを生成した後、それらを修正することを可能にする。加入者は、音声による名前を言って、発声した名前を最も良く認識できるような方法で、その名前をリストに入れる機会を3回許されている。またこのシステムは、加入者が、既にリストに存在している名前をリストに追加したり、あるいは非常に良く似た名前をリストに追加したりすることのいずれかに関する課題に対処している。またこのシステムは、名前が登録され更新されるとき、加入者が非常に違う言い方で名前を言うことに関する課題にも対処している。
【0022】
語彙外音声(out-of-vocabulary speech)であることを判断する不要要素モデル(garbage model)を使用した最近の進展により新しい認識処理が生まれたが、この新しい認識処理は語彙内音声(in-vocabulary speech)の認識を高率に保つと同時に語彙外音声の認識能力を備えている。この新しい認識処理は、発声された短縮ダイヤル名と並行して語彙外音声を弁別するペナルティ付加型不要要素モデルを利用している。この方法は、音声による短縮ダイヤルの登録の認識に適用され、既に短縮ダイヤルリストに存在する名前を登録するという課題と、登録中に変わりすぎる(too much variability)という課題とに対処できる。不要要素モデルは、言葉という音声、あるいは認識システム内に他のモデルが存在しない音のモデルとして定義されている。不要要素モデルをつくる手段にはいくつかの可能性がある。最新の認知工学に使用される1つの不要要素モデルは、図6に示すように、音声(speech sounds)の広い音声クラス(phonetic classes)の集りのモデルをつくり、この音声クラスが結合されて1つの単語をつくる音を生成する。図6に示すように、複数の円は音響的に広い音声クラスを表している。実線は、1つの広い音声クラスから他の音声クラスの方向のいずれにも遷移が生じ得ることを示している。点線は、このモデルが特定の状態でループできることを示している。遷移は、時間的な音素配列論(phonotactic)の制約に基づく確率によって重みづけされる。これらの制約は以下のようなことを必要とする。すなわち、与えられた音声クラスが音声を解釈するために使用されることが長時間になるほど、そのクラスは音声を解釈するために使用されそうになく、そのクラスが後に続く音声を解釈するために使用されそうにないほど、後続の音声は他の異なる音声クラスによって解釈されそうであるという制約である。このモデルは、どんな状態に入っても、またどんな状態から出て行っても音声の解釈を開始する。
【0023】
よく似た名前をチェックしている間に、リストに追加する新しい名前の認識が実行される。新しい名前は、リストの既存の名前か、並列不要要素モデル(parallel garbage model)かのいずれかに一致する。新しい名前と既存の名前が一致すると、その名前またはよく似た名前が既にリストにあるので、追加することはできないとユーザに連絡される。新しい名前が並列不要要素モデルに一致すると、その名前はリストに無いということを前提にして、名前の追加が継続される。不要要素モデルのペナルティを調整して、リストにある名前か不要要素モデルかのいずれかに一致する感度に影響を及ぼすことが可能である。
【0024】
不要要素モデルは、Lorin Netsch外により、本願と同時に出願した「話者に依存する強靭な音声モデルの登録とモデル作成方法ならびに装置(Enrollment and Modeling Method and Apparatus for Robust Speaker Dependent Speech Models)」というタイトルの米国特許6,470,315 B1号で考察されている音素配列論的不要要素モデル(phonotactic garbage model)に似ていることが望ましい。このモデルには言語上の制約がある。
【0025】
新しい名前を短縮ダイヤルリストに登録しようとする加入者は、「音声ダイヤルリスト管理(Voice Dial List Management)」あるいは図3の位置40または図4の78に入り、「エントリ追加(Add Entry)」を入力するかまたは「エントリ追加(Add Entry)」と言う。このコマンドが認識されると、システムはステップ201で、リストがいっぱいか否か先ずチェックする。リストがいっぱいの場合、システムは、リストがいっぱいであることをユーザに連絡する。このことは、メモリ15からの合成された音声コマンドによって実行され、合成器15aは「あなたのリストはいっぱいです。新しい名前を追加する前にあなたは名前を削除しなければなりません」と言う。ユーザは「リスト管理」に戻って、リストにある名前の1つを削除することができる。これについては図4のステップ96からステップ104を参照されたい。リストがいっぱいの場合またはリスト上の名前を削除した後、「追加エントリのLPCCNT(AddEntry LPCCNT)」に戻ると、ELPCカウンタとULPCカウンタとはゼロにセットされる(ステップ202)。つぎにシステムは、登録用LPC(Enrollment LPC(Linear Predictive Coding))つまりELPCと更新用線形予測符号化(Update Linear Predictive Coding :ULPC)の回数のカウントを続ける。LPCは、線形予測パラメータによって表された音声のサンプルである。LPCは線形であるということを前提とする。LPCの詳細については、たとえば、Prentice Hall発行(ISBN 0- 13- 163841- 6)、Frank FallsideおよびWilliamWoods編「コンピュータによる音声処理(Computer Speech Processing)」中の(第4章)、Bishunu S.Italによる「音声の線形予測符号化(Linear Predictive Coding of Speech)」の81頁から124頁を参照されたい。ここでこれらの出版物に言及することによりこれらの出版物の内容を本願に明確に組み入れることにする。ELPCとULPCの回数が両方ともゼロの場合は、前から1つも入力されていないことを示しており(ステップ203)、指導用の合成されたプロンプト文が再生される(ステップ203の判断がyes)。合成された文は、
「システムはあなたがその名前をどのように言うのか学習する必要があります。あなたが最初にその名前を言ってから長い休止時間がありますので、1回乃至4回その名前を繰り返して下さい。#をダイヤルすればこのメッセージをスキップすることができます。ビープ音の後で、音声呼出しの名前を言ってください。」と言うであろう。(ユーザに名前を言うようにメッセージの終りでビープ音が鳴る。)ユーザは名前を言う。ステップ205でチェックが行われ、(たとえば)15の名前がリストされているリストに既にある名前か、ある名前によく似ているか、あるいは不要要素モデルに一致するか否か判断する。(よく似た名前が既にあることを示す)リスト上の名前と一致すると、システムはステップ206の「追加エントリのリトライ(Add Entry Retry)」に入る。リトライの出力が「yes」の場合(ステップ207)、システムは音声ダイヤルリスト管理メニューつまり図3の40あるいは図4の78に戻る。リトライの出力が「no」の場合(ステップ207の「no」)、システムは合成器15aを介して、「似すぎています(too similar)」メッセージ、(「....はあなたのリストの別の名前と非常によく似ています。違う名前を選んでください」)を再生し図5に示すELPCカウンタ202を増分して、短いプロンプト(「ビープ音の後で、音声ダイヤルの名前を言ってください」)を使用して再度試行する。時間内にユーザが新しい名前を言わない場合、システムはタイムアウトになり、前記カウンタを増分するとともに新しい名前を要求する。キーボードの無効キーが押下されると及び/或いはタイムアウトになると、システムは、ステップ202の前記カウンタを増分するとともに新しい名前を言うように要求する。3回の試行あるいは5回の無効DTMFキーの後、システムが登録に失敗すると、システムは切断される(ステップ209)。言われた名前が一致しないと、システムは図7の「追加エントリの登録(Add Entry Enroll)」に進む。
【0026】
図5の「追加エントリの登録」のところで、一致しない名前を言うことに成功すると、システムは図7の流れ図に従って進む。オンライン登録を開始すると、発声が記憶される。セーブされた発声は、オフライン登録を実行することにより、テンプレートを生成するのに使用される(ステップ301)。発声の長さが短すぎず、たとえば、データが10フレームある最小しきい値長さより長いかまたは等しい場合(ステップ302の「no」)、システムは、追加エントリを更新するステップ305に進み、図8のフローチャートに従って進む。メッセージが短すぎるか最小しきい値より短い(この例では、10フレームのデータより短い)場合(ステップ302の「yes」)、システムは合成器を介して、前に使用されていないテンプレートであっても、ユーザがそのテンプレートを使用したいか否か質問する。最小しきい値より短いことを示す「yes」の場合、プロンプトメッセージは、「名前(与えられた名前)は、推奨する名前の長さより短い長さです。名前と苗字の両方を使用するのが最適です。この名前を使用するためには、とにかく「オーケー」と言ってください。この名前を使用することを中止するなら「キャンセル」と言ってください。」と言う。このメッセージに続いてビープ音が鳴りプロンプトが出る。応答ステップ307で「オーケー」を受信すると、システムは図8の追加エントリの更新に進む。「キャンセル」が受信されると、「名前は登録されません」のような合成された文が生成され用意されて、システムは音声ダイヤルリスト管理メニューつまり図3の40あるいは図4の78に戻る。何も言われないと(タイムアウトになると)、あるいは認識されないコマンドつまり正しくないキーが押下されると、システムは合成された命令を用意するとともに応答の探知に戻る。この動作を5回繰り返した後で認識された応答がないと、あるいはタイムアウトが3回発生すると、システムはメッセージとともに切断される(ステップ309)。DTMFキーが押下されると、合成器はメッセージ「キーが正しくありません」を用意する。誤ったキーが押されてタイムアウトが発生する都度、そして3回目と4回目の認識できない音声コマンドの後で、合成器は、「「オーケー」か「キャンセル」と言ってください」、あるいはもっと詳しく指示するためには、「この名前の追加を続けるには「オーケー」と言ってください。この名前の追加を中止するなら「キャンセル」と言ってください。」というメッセージを言う。短い名前であっても、「オーケー」が認識されると、システムは図8の「追加エントリの更新」に進む。
【0027】
認識されたことを判断する場合、システムは、以下に記すペナルティ付きの不要要素モデルを使用する。
【表1】
【表2】
上に掲げた不要要素モデルのいずれに対しても、受信したテンプレートが高い点数になる場合、このテンプレートは認識不能な音声に対して高い点数を受けるので、認識不能な音声として拒否される。
【0028】
図8を参照すると、テンプレートがダウンロードされると(ステップ401)、システムは、更新が行われていないかどうか判断する。更新の間、登録テンプレートの中にない音声を解釈するために不要要素モデルが使用される。たとえば、登録中に、ユーザが「アー、Roger Rabbit」と言ったとすると、不要要素モデルは(あえぐような声)「アー」を解釈できるので、更新発声の「Roger Rabbit」部分のみの平均がとられて、新しい名前のテンプレートに入れられる。更新用カウンタ(ULPC)がゼロの場合は(ステップ402)、更新が完了していないことを示しており、システムは合成器を介して、「もう一度名前を言ってください」とユーザに要求する。更新カウンタが増分され(ステップ403)応答がある場合、その応答を使用してテンプレートの更新が行われる(ステップ404)。テンプレートがチェックされ、正しく更新が行われたか否か判断される。正しく更新された場合、その名前の電話番号を入力するようユーザに要求する(ステップ405)。この更新はキー入力してもよいし、話者に依存しない認識モデルを備えた音声認識を使用して言葉で言ってもよい。更新に失敗すると、システムは図9の追加エントリのリトライステップに進む。更新に失敗すると、登録の発声と更新の発声が交換され、登録と更新はその順序で行われる。初めての場合、ユーザは発声する準備ができていないことが多いので、名前を言う前に「アー」のような声を挟むことが多いが、もう一度言ってくださいと要求すると、言うための準備ができる。最初のテンプレートには「アー」という声が入るので、更新する場合、「アー」の声がないためその更新は失敗するかもしれない。発声を交換すると、より明瞭な2回目の発声が登録に使用されるので、最初の発声を使用して更新することになる。この場合、発声の始めにある「アー」という声は不要要素モデルによって解釈され、「アー」はテンプレートに含まれない。1回目と2回目の発声を交換することに失敗すると、試行の出力を介して3回目の発声が要求される(ステップ406)、更新にはその応答と2回目の発声が使用される。登録に3回目の発声が要求されると、先ずその名前がチェックされてリスト上の別の名前によく似ているか否か判断される。よく似ていると、その名前は使用されず、処理は図5の入力Aに進む。発声が短すぎたために登録に失敗した場合は、システムは加入者に連絡して、別の発声をするように促す。登録に成功したが、発声が短すぎる(フレームの長さが最小しきい値長さより短い)場合、登録名が短すぎるため認識できませんでしたという警告が加入者に与えられる。加入者は、「オーケー」か「キャンセル」を言うように促される。
【0029】
要約すると、更新に失敗すると発声が交換され、2回目の発声(必要ならば3回目の発声)が、1回目の発声より良好な登録の発声になっているかどうか判断される。登録と更新が次に示す順序で行われると、ユーザには最も多くても3回の発声を要求するだけである。
【表3】
【0030】
他の実施例
本発明とその利点を詳細に説明してきたが、添付の請求の範囲に定義されているとおり、本発明の主旨と範囲から逸脱することなく、各種の変更、代替、改良ができることを理解されたい。
【0031】
以上の説明に関して更に以下の項を開示する。
1.音声認識データベースに音声認識モデルを登録する方法であって、
異質な音声を解釈するペナルティ付加型不要要素モデルを備え、
登録するため音声認識する新しい発声をユーザから受信し、
登録のために受信した前記発声のテンプレートを生成し、
登録される発声を再度繰り返すことをユーザに要求し、
2回目に受信した発声を受信し、
2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
語彙内音声に関して一致している場合、前記新しいテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
【0032】
2.第1項記載の方法であって、前記比較ステップは、前記2回目の発声を前記ペナルティ付加型不要要素モデルと比較し、登録されたテンプレートと比べて、語彙外音声に関して前記ペナルティ付加型不要要素モデルと所定の範囲内で一致する前記2回目の発声中の発声のすべてを拒否するステップを含むことを特徴とする方法。
【0033】
3.第1項記載の方法であって、前記比較が失敗して一致しない場合、テンプレートと前記2回目に受信した発声を交換して、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
【0034】
4.第3項記載の方法であって、前記交換するステップが比較結果を得るのに失敗した場合、3回目の発声を要求して受信し、第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声のテンプレートをデータベースに登録するステップを含むことを特徴とする方法。
【0035】
5.第3項記載の方法であって、後に続く発声を要求し、交換が前の発声の比較結果を得るのに失敗した後、前の発声と後に続く応答が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入れるステップを含むことを特徴とする方法。
【0036】
6.電話システムに短縮ダイヤル名を登録する方法であって、
異質な音声を解釈するペナルティ付加型不要要素モデルを備え、
登録するための新しい短縮ダイヤル名の発声をユーザから受信し、
登録のために受信した前記短縮ダイヤル名の発声のテンプレートを生成し、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求し、
受信した新しい短縮ダイヤル名の2回目の発声を受信し、
新しい短縮ダイヤル名の2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
【0037】
7.第6項記載の方法であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加するステップを含むことを特徴とする方法。
【0038】
8.第7項記載の方法であって、比較が一致に失敗した場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声とを交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
【0039】
9.第8項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
【0040】
10.第8項記載の方法であって、後に続く新しい短縮ダイヤル名の発声を要求して受信し、交換が前の発声に関する比較結果を得るのに失敗した後、後に続く応答と前の発声が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入力するステップを含むことを特徴とする方法。
【0041】
11.第6項記載の方法であって、前記比較ステップは、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否するステップを含むことを特徴とする方法。
【0042】
12.第11項記載の方法であって、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声を交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
【0043】
13.第12項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
【0044】
14.第10項記載の方法であって、後に続く新しい短縮ダイヤル名の発声を要求して受信し、前記交換するステップが前の発声に関する比較結果を得るのに失敗した後、後に続く応答と前の発声が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入力するステップを含むことを特徴とする方法。
【0045】
15.音声認識データベースにアドレスを登録する方法であって、
名前のアドレスの話者依存型テンプレートを用意するステップと、
異質な音声を解釈するペナルティ付加型不要要素モデルを用意するステップと、
登録されるアドレスが、前に用意された話者依存型テンプレートか前記ペナルティ付加型不要要素モデルかのいずれかと一致しているか否か判断し、前に用意された話者依存型テンプレートと一致する場合は登録を拒否するステップと、
を含むことを特徴とする方法。
【0046】
16.電話システムに短縮ダイヤル名を登録する方法であって、
短縮ダイヤル名と関連する電話番号との話者依存型テンプレートを用意し、
異質な音声を解釈するペナルティ付加型不要要素モデルを用意し、
登録される名前が、前に用意された話者依存型テンプレートか前記ペナルティ付加型不要要素モデルかのいずれかと一致しているか否か判断し、前に用意された話者依存型テンプレートと一致する場合は登録を拒否する、
ことを含むことを特徴とする方法。
【0047】
17.第16項記載の方法であって、登録される発声が最小しきい値長さより短いか否か判断するステップを含むことを特徴とする方法。
【0048】
18.第17項記載の方法であって、発声が前記最小しきい値長さより短い場合、該発声のテンプレートを短縮ダイヤルリストに追加する前に、ユーザの承認が得られるか否か判断することを特徴とする方法。
【0049】
19.音声認識データベースにアドレスを登録する方法であって、
アドレスの話者依存型テンプレートを用意するステップと、
認識不能な音声のためにペナルティ付加型不要要素モデルを用意するステップと、
登録されるアドレスを受信するステップと、
登録されるアドレスが短すぎるか否か判断するステップと、
を含むことを特徴とする方法。
【0050】
20.電話システムに短縮ダイヤル名を登録する方法であって、
短縮ダイヤル名と、関連する電話番号との話者依存型テンプレートを用意し、
認識不能な音声のためにペナルティ付加型不要要素モデルを用意し、
登録するための短縮ダイヤル名の発声をユーザから受信し、
登録のために受信した前記短縮ダイヤル名の発声のテンプレートを生成し、
登録される名前が、用意された話者依存型テンプレートによく似ているか否か判断し、よく似ている場合は登録を拒否し、不要要素モデルと一致する場合は登録を許し、
登録される発声が、最小しきい値長さより短いか否か判断し、登録される発声が、前記最小しきい値長さより短い場合、その発声を短縮ダイヤルリストに登録する前にユーザが承認するか否か判断し、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求し、
受信した新しい短縮ダイヤル名の2回目の発声を受信し、
新しい短縮ダイヤル名の2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
【0051】
21.第20項記載の方法であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加するステップを含むことを特徴とする方法。
【0052】
22.第21項記載の方法であって、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声を交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
【0053】
23.第22項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
【0054】
24.第20項記載の方法であって、前記比較ステップは、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否するステップを含むことを特徴とする方法。
【0055】
25.短縮ダイヤル名を登録する電話装置であって、
短縮ダイヤル名と、関連する電話番号との話者依存型テンプレートを格納するメモリと、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納するメモリと、
登録される名前と前記格納された話者依存型テンプレートあるいは前記ペナルティ付加型不要要素モデルを比較して、よく似ている場合は登録を拒否する比較器と、
を含むことを特徴とする電話装置。
【0056】
26.第25項記載の電話装置であって、登録される発声が最小しきい値長さより短いか否か、あるいは発声が前記最小しきい値長さより短い否か判断し、発声のテンプレートを短縮ダイヤルリストに追加する前に、ユーザが承認するか否か判断する手段を含むことを特徴とする電話装置。
【0057】
27.短縮ダイヤル名を登録する電話装置であって、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納する記憶装置と、
登録するための短縮ダイヤル名の発声をユーザから受信する受信器と、
前記受信器と結合し、登録するために受信した前記短縮ダイヤル名の発声のテンプレートを発声させる発生器と、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求する手段と、
受信した新しい短縮ダイヤル名の2回目の発声を受信することに応答して、前記受信した新しい短縮ダイヤル名の2回目の発声と、発生させたテンプレートおよびペナルティ付加型不要要素モデルを比較して、一致しているか否か判断する前記受信器と、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する手段と、
を含むことを特徴とする電話装置。
【0058】
28.第27項記載の電話装置であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加する手段を含むことを特徴とする電話装置。
【0059】
29.第27項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声とを交換しかつ再度比較する手段を含むことを特徴とする電話装置。
【0060】
30.第29項記載の電話装置であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力する手段を含むことを特徴とする電話装置。
【0061】
31.第27項記載の電話装置であって、前記受信器は、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否する手段を含むことを特徴とする電話装置。
【0062】
32.第31項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、前記テンプレートと前記2回目の受信した短縮ダイヤル名の発声を交換しかつ再度比較するステップを繰り返し実行する手段を含むことを特徴とする電話装置。
【0063】
33.第32項記載の電話装置であって、前記受信器は、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後3回目の発声と2回目の発声が比較されそして一致している場合、短縮ダイヤルリストに2回目の発声を入力する手段を含むことを特徴とする電話装置。
【0064】
34.音声認識データベースに音声テンプレートを登録する装置であって、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納する記憶装置と、
前記データベースに登録するための新しい音声アドレスの発声をユーザから受信する受信器と、
前記受信器と結合し、登録するために受信した前記新しい音声アドレスの発声のテンプレートを発生させる発生器と、
登録される新しい音声アドレスの発声を再度繰り返すことをユーザに要求する手段と、
前記受信した新しい音声アドレスの2回目の発声を受信することに応答して、前記新しい短縮ダイヤル名の2回目の発声と、発生させたテンプレートおよびペナルティ付加型不要要素モデルを比較して、一致しているか否か判断する前記受信器と、
一致している場合、前記新しいテンプレートを前記データベースに追加する手段と、
を含むことを特徴とする電話装置。
【0065】
35.第34項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、テンプレートと前記2回目に受信した発声とを交換しかつ再度比較する手段を含むことを特徴とする電話装置。
【0066】
36.第35項記載の電話装置であって、3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声をデータベースに入力する手段を含むことを特徴とする電話装置。
【0067】
37.第34項記載の電話装置であって、前記受信器は、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否する手段を含むことを特徴とする電話装置。
【0068】
38.短縮ダイヤル名を登録する方法とシステムには、話者依存型テンプレートと、関連する電話番号とを用意することと、認識不能な音声のためのペナルティ付加型不要要素モデルを用意することとが含まれる。新しいテンプレートの要求が受信されると、短縮ダイヤル名のリストがいっぱいか否か判断され(ステップ201)、いっぱいでない場合は、その名前が短縮ダイヤルリストに既にある名前によく似ているか否か判断される。よく似ている場合、その名前は拒否されるが、似ていない場合は、短縮ダイヤル名が短すぎるか否か判断され、短すぎない場合、あるいは、ユーザが短い名前を入力したい場合、システムは、短縮ダイヤル名を繰り返すようにユーザに依頼し、一致すれば、その名前が入力される。一致しない場合、システムは、1回目と2回目の発声を交換して比較し、一致するか否か判断する。
【図面の簡単な説明】
【図1】本発明の方法を実現する電話システムを簡略化したブロック図。
【図2】音声認識電話システムにおいて、多数ユーザが発声した短縮ダイヤル命令を生成する方法の流れ図(flow diagram)を示す図。
【図3】前記電話システムの中でディレクトリ名を登録したり削除したりする一般的な流れ図を示す図。
【図4】前記電話システムにおけるディレクトリ名に対応する短縮ダイヤルリストを登録したり修正したりする方法の流れ図を示す図。
【図5】本発明の一実施例に従って、音声ダイヤルエントリ追加のフローチャートを示す図。
【図6】1つの不要要素モデルを示す図。
【図7】図5の音声ダイヤル追加エントリを登録するフローチャートを示す図。
【図8】図7の音声ダイヤル追加エントリを更新するフローチャートを示す図。
【図9】図8の音声ダイヤル追加エントリをリトライするフローチャートを示す図。
【符号の説明】
10 電話システム
11 電話機
12 プロセッサ、カウンタ、比較器
13 オフフック検出器
14 認識・記録装置
15 メモリと内部のモデル
15a 音声合成器
Claims (13)
- 電話に短縮ダイヤル名を登録する方法であって、
不要要素モデルを提供し、
前記不要要素モデルにペナルティを付加し、
ユーザからの新しい短縮ダイヤル名の第1の発声を受け入れ、
前記第1の発声を、前記ペナルティを付加した不要要素モデル、及び以前に付加された短縮ダイヤル名のテンプレートと比較して、前記第1の発声が以前に付加された短縮ダイヤル名に類似しすぎているか否かを決定し、および
以前に付加された短縮ダイヤル名に類似しすぎない前記第1の発声に応答して、当該新たな短縮ダイヤル名を短縮ダイヤルリストに格納する、
ことを特徴とする方法。 - 請求項1に記載の方法において、前記登録ステップは、
前記新たな短縮ダイヤル名に対してテンプレートを生成し、前記第1の発声を登録し、
前記テンプレートを格納し、および
電話番号が前記新たな短縮ダイヤル名と関連して付加されることを要求する、
ことを特徴とする方法。 - 請求項1に記載の方法において、さらに、
前記ペナルティのモデルを調整して、前記ペナルティ付加型不要要素モデル、又は以前に付加された短縮ダイヤル名のテンプレート、への第1の発声の一致の比較ステップの感度を変化させる、
ことを含む方法。 - 請求項1に記載の方法において、前記登録ステップは、
前記新たな短縮ダイヤル名の第1の発声から第1のテンプレートを生成し、
新たな短縮ダイヤル名の第2の発声を受信し、
前記第2の発声を前記第1のテンプレートと比較して、前記第2の発声が前記第1のテンプレートと一致するか否かを決定し、および
前記第2の発声が一致することに応答して、前記第2の発声を用いて前記第1のテンプレートを更新し、当該更新された第1のテンプレートを短縮ダイヤルリストに付加する、
ことを特徴とする方法。 - 請求項4に記載の方法であって、さらに
前記第2の発声が一致しないと決定する前記比較ステップに応答して、
前記第2の発声から第2のテンプレートを生成して当該第2の発声を登録し、
前記第1の発声を前記第2の発声と比較して、前記第1の発声が前記第2のテンプレートに一致するか否かを決定し、
前記第1の発声に一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを短縮ダイヤルリストに付加し、
および、前記第1の発声が一致しないとの決定に応答して、
新たな短縮ダイヤル名の第3の発声を要求して受信し、
前記第3の発声を前記第2の発声と比較して、当該第3の発声が前記第2のテンプレートと一致するか否かを決定し、および
前記第3の発声が一致するとの決定に応答して、当該第3の発声を用いて前記第2のテンプレートを更新し、および
更新された第2のテンプレートを前記短縮ダイヤルリストに付加する、
ことを特徴とする方法。 - 請求項4に記載の方法において、前記比較ステップは前記第2の発声の語彙内部分を前記第1のテンプレートと比較する、ことを特徴とする方法。
- 請求項1に記載の方法において、さらに、
前記第1の発声が閾値よりも長さが長いか否かを決定し、
前記閾値よりも長くは無い前記第1の発声の長さに応答して、ユーザからの新たな短縮ダイヤル名の登録の継続又はキャンセルの入力を要求し、前記新たな短縮ダイヤル名の継続とのユーザ入力に応答して前記登録ステップを実行し、
前記登録ステップは、前記閾値よりも長さの長い第1の発声に応答して実行される、方法。 - 短縮ダイヤル名を登録する回路を備えた電話装置であって、前記回路は:
以前に付加された短縮ダイヤル名の複数のテンプレートを含み、音声認識の不要要素モデルを格納し、短縮ダイヤルリストを格納するためのメモリと、および、
一連の動作を実行するようプログラムされたプロセッサであって、
不要要素モデルにペナルティを付加し、
ユーザから新たな短縮ダイヤル名の第1の発声を受信し、
前記第1の発声を、ペナルティを付加した不要要素モデル、及び格納された複数のテンプレートと比較して、前記第1の発声が以前に付加された短縮ダイヤル名と類似しすぎるか否かを決定し、
前記第1の発声が以前に付加された短縮ダイヤル名とは類似しすぎないことに応答して前記新たな短縮ダイヤル名を短縮ダイヤルリストに登録する、
プロセッサとを備えた電話装置。 - 請求項8に記載の電話装置において、前記登録動作は、
新たな短縮ダイヤルのためにテンプレートを生成して前記第1の発声を登録し、
前記生成されたテンプレートを前記メモリに格納し、および
前記新たな短縮ダイヤルに関連する電話番号を格納するよう要求する、
ことを特徴とする電話装置。 - 請求項8に記載の電話装置において、さらに、
前記ペナルティモデルを調整して、ペナルティ付加型不要要素モデル又は以前に付加された短縮ダイヤル名のテンプレートの発声のマッチングで、前記比較ステップの感度を変化させる、
ことを特徴とする電話装置。 - 請求項8に記載の電話装置において、前記登録動作はさらに、
前記第1の発声から第1のテンプレートを登録し、
前記新たな短縮ダイヤル名の第2の発声を受信し、
前記第1のテンプレートへの前記第2の発声を比較して、当該第2の発声が前記第1のテンプレートに一致するか否かを比較し、および
前記第2の発声が一致するとの決定に応答して前記第2の発声を用いて前記第1のテンプレートを更新し、当該更新されたテンプレートをメモリ内の前記短縮ダイヤルリストに付加する、
ことを特徴とする電話装置。 - 請求項11に記載の電話装置において、前記動作はさらに、
前記第2の発声が一致しないと決定する前記比較ステップに応答して:
前記第2の発声から第2のテンプレートを生成して第2の発声を登録し、
前記第1の発声を前記第2のテンプレートと比較して、前記第1の発声が前記第2のテンプレートに一致するか否かを決定し、
前記第1の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを短縮ダイヤルリストに付加し、
および前記第1の発声が一致しないとの決定に応答して:
前記新たな短縮ダイヤルの第3の発声を要求して受信し、
前記第3の発声を前記第2のテンプレートと比較して、前記第3の発声が前記第2のテンプレートと一致するか否かを決定し、および
前記第3の発声が一致するとの決定に応答して、前記第2のテンプレートを前記第3の発声で更新し、および、
当該更新された第2のテンプレートを前記短縮ダイヤルリストに付加する、
ことを特徴とする電話装置。 - 請求項8に記載の電話装置において、さらに、
前記第1の発声が閾値よりも長さが長いか否か決定し、
前記第1の発声の前記長さが閾値よりも長いことに応答して、前記第1の発声から前記第1のテンプレートを登録し、および
前記第1の発声の長さが閾値よりも長くないことに応答して、ユーザからの前記新たな短縮ダイヤル名の登録の継続又はキャンセルの入力を要求し、ユーザからの前記新たな短縮ダイヤルの登録を継続するとの入力に応答して前記第1の発声から前記第1のテンプレートを登録する、
ことを特徴とする電話装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US359395P | 1995-09-12 | 1995-09-12 | |
US003593 | 1995-09-12 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006331584A Division JP2007124686A (ja) | 1995-09-12 | 2006-12-08 | 音声認識データベースにアドレスを登録する方法とシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09205478A JPH09205478A (ja) | 1997-08-05 |
JP4355035B2 true JP4355035B2 (ja) | 2009-10-28 |
Family
ID=21706613
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24224796A Expired - Lifetime JP4355035B2 (ja) | 1995-09-12 | 1996-09-12 | 音声認識データベースにアドレスを登録する方法とシステム |
JP2006331584A Pending JP2007124686A (ja) | 1995-09-12 | 2006-12-08 | 音声認識データベースにアドレスを登録する方法とシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006331584A Pending JP2007124686A (ja) | 1995-09-12 | 2006-12-08 | 音声認識データベースにアドレスを登録する方法とシステム |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP0762709B1 (ja) |
JP (2) | JP4355035B2 (ja) |
KR (1) | KR100442308B1 (ja) |
CA (1) | CA2185262C (ja) |
DE (1) | DE69636731T2 (ja) |
MY (1) | MY119374A (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19718007A1 (de) * | 1997-04-29 | 1998-11-05 | Deutsche Telekom Ag | Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
FI973093A (fi) | 1997-07-23 | 1999-01-24 | Nokia Mobile Phones Ltd | Menetelmä telepalvelun ohjaamiseksi ja päätelaite |
FR2769117B1 (fr) * | 1997-09-29 | 2000-11-10 | Matra Comm | Procede d'apprentissage dans un systeme de reconnaissance de parole |
WO1999023641A1 (en) * | 1997-11-04 | 1999-05-14 | Alcatel Usa Sourcing, L.P. | System for entollement of a spoken name dialing service |
US6370237B1 (en) * | 1998-12-29 | 2002-04-09 | Alcatel Usa Sourcing, Lp | Voice activated dialing with reduced storage requirements |
JP2001202309A (ja) * | 2000-01-17 | 2001-07-27 | Dream Technologies Kk | コンピュータに所望のアクションを行わせるためのシステム及び方法 |
US6845251B2 (en) * | 2000-11-29 | 2005-01-18 | Visteon Global Technologies, Inc. | Advanced voice recognition phone interface for in-vehicle speech recognition applications |
DE60028219T8 (de) * | 2000-12-13 | 2007-06-14 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
JP3500383B1 (ja) | 2002-09-13 | 2004-02-23 | コナミ株式会社 | ゲーム装置、ゲーム装置の制御方法及びプログラム |
CN100592385C (zh) * | 2004-08-06 | 2010-02-24 | 摩托罗拉公司 | 用于对多语言的姓名进行语音识别的方法和系统 |
KR101952578B1 (ko) | 2018-12-18 | 2019-02-27 | 유옥상 | 강관 회전 장치 |
KR102083018B1 (ko) | 2019-06-07 | 2020-02-28 | 박종신 | 강관 회전 장치 |
KR102125675B1 (ko) | 2020-01-14 | 2020-06-23 | 이주철 | 강관 회전 장치 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4644107A (en) * | 1984-10-26 | 1987-02-17 | Ttc | Voice-controlled telephone using visual display |
DE3885683T2 (de) * | 1987-09-11 | 1994-03-10 | Toshiba Audio Video Eng | Telefonapparat. |
JPH01123298A (ja) * | 1987-11-06 | 1989-05-16 | Ricoh Co Ltd | 音声ダイアリング装置 |
US4802231A (en) * | 1987-11-24 | 1989-01-31 | Elliot Davis | Pattern recognition error reduction system |
CA2015410C (en) * | 1989-05-17 | 1996-04-02 | Chin H. Lee | Speech recognition employing key word modeling and non-key word modeling |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
JPH04238398A (ja) * | 1991-01-22 | 1992-08-26 | Ricoh Co Ltd | 音声認識装置及び音声ダイヤリング装置 |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5179921A (en) * | 1992-01-30 | 1993-01-19 | Vincent Figliuzzi | Integrated engine and compressor device |
JPH06266386A (ja) * | 1993-03-16 | 1994-09-22 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング方法 |
US5452340A (en) * | 1993-04-01 | 1995-09-19 | Us West Advanced Technologies, Inc. | Method of voice activated telephone dialing |
JPH0730629A (ja) * | 1993-07-07 | 1995-01-31 | Yuhshin Co Ltd | 音声ダイヤリング装置 |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
KR0170529B1 (ko) * | 1994-08-31 | 1999-03-30 | 이우복 | 음성인식 자동 다이얼링 시스템 |
JPH08223265A (ja) * | 1995-02-13 | 1996-08-30 | Hitachi Ltd | 音声ダイヤル機能付き電話機 |
-
1996
- 1996-09-11 MY MYPI96003755A patent/MY119374A/en unknown
- 1996-09-11 CA CA002185262A patent/CA2185262C/en not_active Expired - Fee Related
- 1996-09-12 KR KR1019960039478A patent/KR100442308B1/ko not_active IP Right Cessation
- 1996-09-12 DE DE69636731T patent/DE69636731T2/de not_active Expired - Lifetime
- 1996-09-12 JP JP24224796A patent/JP4355035B2/ja not_active Expired - Lifetime
- 1996-09-12 EP EP96306624A patent/EP0762709B1/en not_active Expired - Lifetime
-
2006
- 2006-12-08 JP JP2006331584A patent/JP2007124686A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0762709B1 (en) | 2006-11-29 |
JP2007124686A (ja) | 2007-05-17 |
KR970017175A (ko) | 1997-04-30 |
KR100442308B1 (ko) | 2005-04-06 |
CA2185262C (en) | 2006-08-29 |
DE69636731D1 (de) | 2007-01-11 |
JPH09205478A (ja) | 1997-08-05 |
EP0762709A2 (en) | 1997-03-12 |
MX9604051A (es) | 1997-07-31 |
CA2185262A1 (en) | 1997-03-13 |
EP0762709A3 (en) | 2000-03-29 |
DE69636731T2 (de) | 2007-10-18 |
MY119374A (en) | 2005-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007124686A (ja) | 音声認識データベースにアドレスを登録する方法とシステム | |
US5832429A (en) | Method and system for enrolling addresses in a speech recognition database | |
US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
US7240007B2 (en) | Speaker authentication by fusion of voiceprint match attempt results with additional information | |
US6192337B1 (en) | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system | |
JP3479304B2 (ja) | 音声コマンド制御及び検証システム | |
JP3388845B2 (ja) | 混同するほど類似した語句の入力を防止する方法と装置 | |
US8010367B2 (en) | Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines | |
JP4173207B2 (ja) | 発声音に関する話者の検証を行うためのシステム及び方法 | |
JP4672003B2 (ja) | 音声認証システム | |
US8050925B2 (en) | Recognizing the numeric language in natural spoken dialogue | |
US20080015858A1 (en) | Methods and apparatus to perform speech reference enrollment | |
US5937383A (en) | Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection | |
Li et al. | Verbal information verification | |
JP2007052496A (ja) | ユーザ認証システム及びユーザ認証方法 | |
CN112309406A (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
JP2005283647A (ja) | 感情認識装置 | |
JP2001296885A (ja) | 文法制約を有するラベル機能を使用する口頭発話拒否 | |
WO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
JP3945187B2 (ja) | 対話管理装置 | |
JP2002507298A (ja) | 自動音声認識を有するアクセス制御コンピュータシステム | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
EP1758351B1 (en) | Method and system for enrolling addresses in a speech recognition database | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
MXPA96004051A (en) | Method and system to register addresses in a database for recognition of ha |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060420 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060720 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061208 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20061214 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081117 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20081126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090617 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090731 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120807 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130807 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |