JP2007124686A - 音声認識データベースにアドレスを登録する方法とシステム - Google Patents

音声認識データベースにアドレスを登録する方法とシステム Download PDF

Info

Publication number
JP2007124686A
JP2007124686A JP2006331584A JP2006331584A JP2007124686A JP 2007124686 A JP2007124686 A JP 2007124686A JP 2006331584 A JP2006331584 A JP 2006331584A JP 2006331584 A JP2006331584 A JP 2006331584A JP 2007124686 A JP2007124686 A JP 2007124686A
Authority
JP
Japan
Prior art keywords
utterance
template
name
speed dial
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006331584A
Other languages
English (en)
Inventor
Michele B Gammel
ビー.ガムメル マイクル
Thomas D Fisher
ディー.フィッシャー トマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JP2007124686A publication Critical patent/JP2007124686A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Abstract

【課題】短縮ダイヤル名を登録する方法とシステムを提供する。
【解決手段】本電話システムのメモリには、話者依存型音声テンプレートと、関連する電話番号、認識不能な音声を弁別して取り除くためのペナルティ付加型不要要素モデルが含まれている。新しい音声テンプレートが要求されると、短縮ダイヤル名(以下、単に名前)のリストがいっぱいか否か判断し、いっぱいでない場合、その名前が短縮ダイヤルリストにある名前によく似ているか否か判断する。よく似ている場合その名前の登録を拒否し、似ていない場合、名前が短すぎるか否か判断し、短すぎない場合、またはユーザが短い名前を入力したい場合、システムは、名前を繰り返すようにユーザに依頼し、一致すればその名前を入力し、一致しない場合は1回目と2回目の発声を交換して比較し、一致するか否か調べる。
【選択図】図1

Description

本発明は音声認識に関し、より詳細には、音声認識データベースに音声認識アドレスを登録することに関する。
短縮ダイヤルにおいては、音声認識データベースに名前のアドレスを登録することが使用されている。短縮ダイヤルとは、たとえば、ある数の電話番号あるいは一群の電話番号が予め格納されており、ユーザは、呼び出す電話番号の名前を言うことによって、その番号群のアドレスだけを指定しなければならない場合のことである。ユーザが電話機に向かって名前でアドレスを言うことにより、短縮ダイヤルが利用でき、電話番号群の中のその名前に関連する電話番号がダイヤルアップされるということは極めて望ましい。したがって、電話システムに話かけると正しい番号がダイヤルされるように、短縮ダイヤル名のアドレスを電話システムに登録する方法とシステムを提供することが望ましい。
本発明の一好適実施例によれば、認識できなかった音声に対しては、ペナルティ付加型不要要素モデル(penalized garbage model)を用意し、ユーザから登録するための新しい発声(utterance)を受信し、さらにその新しい発声のテンプレートを生成することにより、アドレスを名前として音声認識データベースに登録する方法とシステムが提供されている。発声が繰り返されると、そのテンプレートと比較されて、新らしい発声のテンプレートをデータベースに入れるべきか否か判断する。
本発明の別の好適実施例によれば、音声認識データベースに名前を登録する方法とシステムは、話者に依存するテンプレート(speaker dependent template:以下、「話者依存型テンプレート」と云う)とペナルティ付加型不要要素モデルとを備えたデータベースを含んでおり、登録される名前とデータベースの中の名前を比較して、あまりにもよく似た名前は拒否される。
本発明の別の好適実施例によれば、データベースに入れる前に、音声認識データベースに登録される名前が短すぎるか否か判断する。
図1は電話システム10の簡略化したブロック図である。電話システム10には、プロセッサ12に接続する電話機11が含まれている。オフフック検出回路13と認識・記録回路14は、電話機11とプロセッサ12に接続する。またプロセッサ12はメモリ15に接続する。動作する場合、電話機11がオフフック条件を示していることを、オフフック検出回路13がプロセッサ12に連絡すると、プロセッサ12は、プロセッサ12の中に格納されていてプロセッサ12が実行するプログラムに従って、コマンドを監視することが可能になる。プロセッサ12の中のプログラムは、ユーザがディレクトリ名アドレスと短縮ダイヤルリストのエントリ名さらにディレクトリ名アドレスに関連する電話番号を発声させることを可能にする。電話システム10は、各ユーザがこの特定のディレクトリ名と短縮ダイヤルリストだけにアクセスできるように、ディレクトリ名アドレスと、関連するエントリ名との話者依存型テンプレートと、電話番号を格納している。
図2は、音声認識電話システム10において、多数のユーザが発声した短縮ダイヤルのディレクトリを発生させる方法の初期の流れ図である。一実施例におけるプロセッサ12は、この流れ図に従ってプログラムが組まれている。電話システム10のオフフック検出回路13は、ステップ16で電話機11を監視して特定の電話機のオフフック条件を検出する。オフフック条件が検出されると、プロセッサ12はステップ17で、ユーザにコマンドの入力を促す。ステップ18でプロセッサ12は、比較器とメモリ15とを含むプロセッサを備えている認識・記録回路14とともに、電話システム10のメモリ15に符号化されて入っている複数のテンプレートの1つとユーザの応答を比較する。電話システム10は汎用性を備えているので、ステップ18で、ユーザから発声された語か、場合によっては、これに対応してコマンド語を表す電話機11のDTMF押しボタン符号かのいずれかを受信できるように考慮されている。全図を通して、アスタリスクは、電話システム10が、発声されたコマンド語、またはこれに対応して発声されたコマンド語を表すDTMF押しボタン符号のいずれかを認識できることを示している。またアスタリスクは、電話システム10が、モデルとユーザの応答を一致させるとき、話者に依存しない音声認識を実行することを示している。説明のために限定して、以下に説明する電話システムは、対応するDTMF押しボタン符号による代表的なコマンドのかわりに、発声された応答を受信する電話システムであるとして、好適実施例の説明を進めることにする。
電話システム10は、ステップ18で各種コマンドフレーズの1つを認識し、要求されたコマンドに従って進行することができる。電話システム10はステップ19で、最初のコマンドとしてユーザから受信した電話番号を認識することができる。電話システム10はステップ20で、受信した番号をユーザに報告すると、シーケンスはステップ22に続き、要求された呼を発信するため、ここで電話番号が自動的にダイヤルされる。
また電話システム10はステップ24で、ユーザから受信した第2のコマンドフレーズとして、「ヘルプ(help)」などの緊急コマンドを認識する。電話システム10はステップ26で、たとえば、911などの緊急電話番号がダイヤル中であることをユーザに連絡すると、シーケンスはステップ22に進み、ここでもう一度呼を発信することができる。また電話システム10は、ユーザからの第3のコマンドフレーズ、「キャンセル(CANCEL)」を認識すると、このコマンドは電話システム10を自動的にステップ17に戻し、現在進行中のすべてのコマンドシーケンスを停止させる。たとえば、図1に示すように、ユーザは、電話回線の他端で接続が設定される前に電話をかけることを停止することができる。図1にはただ1箇所しか示されていないが、ステップ28で「キャンセル」コマンドを認識することは、後に続く各種図面を参照して説明されている電話システムの方法中どこにおいても発生し得るのである。
ユーザがユーザディレクトリリストを入力することを要求すると、電話システム10は、ステップ30で第4のコマンド語を認識する。電話システム10がこのコマンドを認識すると、処理はステップ32に移り、ユーザはディレクトリオプションを入力することが可能になる。図3は、電話システムのプログラムのディレクトリオプション部分の処理ステップの流れ図を示している。コマンドを認識すると、ユーザはステップ34で、ディレクトリオプションを入力する。認可されたユーザだけがディレクトリオプションを入力できることを保証するため、電話システム10は、ステップ36、38でセキュリティ対策(security measures)を実行し、ディレクトリオプションを入力する認可を検証することをユーザに要求する。この検証は、ユーザがシステムに入力する認可符号であってもよいし、あるいはユーザの発声パターンと電話システム10に格納された検証テンプレートを一致させる、話者依存型音声認識テンプレートが存在していればよい。
電話システム10は、ステップ36でユーザに適切な検証を促し、ステップ38でユーザの検証応答を認識する。電話システム10は、検証処理の部分として、ステップ36、38を1回以上実行する。電話システム10が、ユーザが入力した検証符号を認識しない場合、「キャンセル」コマンドと同様に、処理の流れは図2のステップ17に戻る。電話システム10が有効な検証符号を認識すると、処理の流れはステップ40に続き、ここで電話システム10は、ディレクトリオプションの4つのコマンドの1つを入力するようユーザに促す。ユーザの検証については、Keroによる米国特許第5,369,685号を参照されたい。
ユーザが適切な検証を行い、ディレクトリオプションを入力すると、電話システム10は、ステップ42で第1のサブコマンド語を認識し、ユーザディレクトリ名をシステムに追加する。電話システム10は、ディレクトリ名を要求し、そしてステップ46で、電話システムに格納されるテンプレートにユーザの応答をセーブすることにより、ステップ44でユーザを登録する。ユーザディレクトリ名を登録するとき、電話システム10は、その目的でつまりその電話機に対してテンプレートを生成し、既に登録されているユーザ識別テンプレートの既存リストに、生成したテンプレートをセーブするため、ステップ44、46を繰り返し実行する。テンプレートがセーブされると、処理の流れはステップ40に戻り、ここで電話システム10は、ユーザに別のコマンド語を入力することを促す。
電話システム10は、ステップ48で第2のサブコマンド語を認識し、ユーザディレクトリ名を削除する。サブコマンド語が認識されると、電話システム10はステップ50で、削除するユーザディレクトリの名前を入力するようユーザに促す。電話システム10がステップ52でユーザが入力したディレクトリ名を認識すると、ステップ54でディレクトリ名が削除されたことを確認するようユーザに要求する。ユーザがディレクトリ名の削除を確認しないと、処理の流れはステップ40に戻り、ここで電話システム10はユーザにコマンドフレーズを入力することを促す。ステップ54でユーザがディレクトリ名の削除を確認すると、電話システム10はステップ56で、そのディレクトリ名に対して生成されたテンプレートと、そのディレクトリ名に対応するすべての電話機リストのエントリとを削除する。これらのエントリが削除されると、処理の流れはステップ40に戻り、ここで電話システム10はユーザに新しいコマンドフレーズを入力することを促す。
電話システム10は、ステップ58で第3のサブコマンドフレーズを認識し、ディレクトリ名のリストの見直し(review)を行うことができる。第3のサブコマンドフレーズが認識されると、電話システム10は、ステップ40に戻って新しいコマンドフレーズを要求する前に、ステップ60でユーザディレクトリリストを再生する。また電話システム10は、ステップ62で、第4のコマンドフレーズを認識し、ユーザがディレクトリオプションの要求を完了したことを判断する。第4のコマンドが認識されると、処理の流れは図2のステップ17に戻り、ここで電話システム10は、ユーザに電話番号を入力するように促す。
図2に戻ると、電話システム10は、ステップ64で第5のコマンドフレーズとしてディレクトリ名を認識する。電話システム10がユーザのディレクトリ名を認識すると、処理の流れはステップ66に進み、ここで電話システムは短縮ダイヤルリストオプションに入る。図4は、本発明の短縮ダイヤルリストオプションの処理の流れ図である。電話システム10は、ステップ68で短縮ダイヤルリストオプションに入り、それに続いてステップ70で、ユーザに、呼び出す名前を要求するかあるいはリストに入れるかのいずれかを促す。電話システム10がステップ72でエントリ名を認識すると、ステップ74でユーザにプロンプトが与えられ、要求された名前を電話システム10が呼び出すことを示す。電話システム10は、前に説明したように、図2のステップ22で呼を発信する。また電話システム10は、ステップ76でリストコマンドを認識しかつ入力できるとともに、ステップ78でユーザに5つのリストコマンドフレーズの1つを入力するように促すことができる。
電話システム10はステップ80で、ユーザのディレクトリ名の下に、エントリ名と電話番号とを短縮ダイヤルリストに追加する第1のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、電話システム10は、ステップ82で短縮ダイヤルリストにこのエントリ名を登録するようユーザに促す。電話システム10は、ステップ83で、いまステップ82で登録したエントリ名に対応する電話番号を登録するようユーザに促す。電話システム10はステップ84で、ユーザが登録した名前と電話番号とに対応するテンプレートを生成しセーブする。短縮ダイヤルリストに使用するエントリ名と電話番号の有効なテンプレートを検証しかつ生成するため、電話システム10はステップ82、83、84を繰り返し実行する。テンプレートがセーブされると、処理の流れは、ステップ70の短縮ダイヤルリストオプションルーチンの先頭に戻る。
電話システム10はステップ86で、エントリ名に対応する電話番号を修正する第2のリストコマンドを認識する。このコマンドが認識されると、電話システム10はステップ88で、電話番号を修正する名前を用意するようにユーザに促す。ステップ90でユーザが入力した名前を電話システム10が認識すると、ステップ92で、ユーザはその名前に対応する電話番号を修正することが可能になる。電話システム10はステップ94でそれを使って、修正が要求されたエントリ名に対応する、修正された番号のテンプレートをセーブする。有効な電話番号テンプレートが生成されることを保証するため、電話システム10はステップ92、94を繰り返し実行する。テンプレートがセーブされると、前に説明したように、処理の流れはステップ70に戻る。
電話システム10はステップ96で、短縮ダイヤルリストから名前を削除する第3のリストコマンドを認識する。このコマンドが認識されると、電話システム10はステップ98で、短縮ダイヤルリストから削除する名前を入力するようユーザに促す。電話システム10がステップ100でその名前を認識すると、ステップ102でその名前が削除されたことを確認するようにユーザに要求する。ユーザがその名前を削除したくない場合は、処理の流れはステップ70に戻る。ユーザがそのエントリ名の削除を確認すると、電話システムは、処理の流れをステップ70に戻す前に、エントリ名テンプレートと、対応する電話番号テンプレートとをステップ104で削除する。
電話システム10はステップ106で、ユーザが自己の短縮ダイヤルリストを見直すことを可能にする第4のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、電話システム10はステップ108で、ユーザの短縮ダイヤルリストを再生し、処理の流れをステップ70に戻す。また電話システム10はステップ110で、ユーザが短縮ダイヤルリストオプションを完了したことを示す第5のリストコマンドフレーズを認識する。このコマンドフレーズが認識されると、前に説明したように、処理の流れは図2のステップ17に戻り、この方法が繰り返し実行される。
要約すると、電話システムは、この電話システムの認可されたユーザ毎に別々のディレクトリを発生させることができる。各ユーザはユーザ固有のディレクトリの下に名前と電話番号とを含む短縮ダイヤルリストを生成することができる。話者によって決まる特徴を利用することにより、認可されたユーザのディレクトリつまり短縮ダイヤルリストには、誰もアクセスすることはできない。上に述べたことは、音声認識を使用して短縮ダイヤル名を登録することが背景になっている。
本発明の一実施例によれば、図1のプロセッサ12は、図5の流れ図に従って短縮ダイヤルリストに短縮ダイヤル名を登録する動作がプログラムで組み込まれている。プロセッサ12には、ELPCカウンタとULPCカウンタとが含まれているので、プロセッサ12は、加入者が基本フレーズを生成した後、それらを修正することを可能にする。加入者は、音声による名前を言って、発声した名前を最も良く認識できるような方法で、その名前をリストに入れる機会を3回許されている。またこのシステムは、加入者が、既にリストに存在している名前をリストに追加したり、あるいは非常に良く似た名前をリストに追加したりすることのいずれかに関する課題に対処している。またこのシステムは、名前が登録され更新されるとき、加入者が非常に違う言い方で名前を言うことに関する課題にも対処している。
語彙外音声(out-of-vocabulary speech)であることを判断する不要要素モデル(garbage model)を使用した最近の進展により新しい認識処理が生まれたが、この新しい認識処理は語彙内音声(in-vocabulary speech)の認識を高率に保つと同時に語彙外音声の認識能力を備えている。この新しい認識処理は、発声された短縮ダイヤル名と並行して語彙外音声を弁別するペナルティ付加型不要要素モデルを利用している。この方法は、音声による短縮ダイヤルの登録の認識に適用され、既に短縮ダイヤルリストに存在する名前を登録するという課題と、登録中に変わりすぎる(too much variability)という課題とに対処できる。不要要素モデルは、言葉という音声、あるいは認識システム内に他のモデルが存在しない音のモデルとして定義されている。不要要素モデルをつくる手段にはいくつかの可能性がある。最新の認知工学に使用される1つの不要要素モデルは、図6に示すように、音声(speech sounds)の広い音声クラス(phonetic classes)の集りのモデルをつくり、この音声クラスが結合されて1つの単語をつくる音を生成する。図6に示すように、複数の円は音響的に広い音声クラスを表している。実線は、1つの広い音声クラスから他の音声クラスの方向のいずれにも遷移が生じ得ることを示している。点線は、このモデルが特定の状態でループできることを示している。遷移は、時間的な音素配列論(phonotactic)の制約に基づく確率によって重みづけされる。これらの制約は以下のようなことを必要とする。すなわち、与えられた音声クラスが音声を解釈するために使用されることが長時間になるほど、そのクラスは音声を解釈するために使用されそうになく、そのクラスが後に続く音声を解釈するために使用されそうにないほど、後続の音声は他の異なる音声クラスによって解釈されそうであるという制約である。このモデルは、どんな状態に入っても、またどんな状態から出て行っても音声の解釈を開始する。
よく似た名前をチェックしている間に、リストに追加する新しい名前の認識が実行される。新しい名前は、リストの既存の名前か、並列不要要素モデル(parallel garbage model)かのいずれかに一致する。新しい名前と既存の名前が一致すると、その名前またはよく似た名前が既にリストにあるので、追加することはできないとユーザに連絡される。新しい名前が並列不要要素モデルに一致すると、その名前はリストに無いということを前提にして、名前の追加が継続される。不要要素モデルのペナルティを調整して、リストにある名前か不要要素モデルかのいずれかに一致する感度に影響を及ぼすことが可能である。
不要要素モデルは、Lorin Netsch外により、本願と同時に出願した「話者に依存する強靭な音声モデルの登録とモデル作成方法ならびに装置(Enrollment and ModelingMethod and Apparatus for Robust SpeakerDependent Speech Models)」というタイトルの特許出願シリアル番号第 号で考察されている音素配列論的不要要素モデル(phonotactic garbage model)に似ていることが望ましい。このモデルには言語上の制約がある。
新しい名前を短縮ダイヤルリストに登録しようとする加入者は、「音声ダイヤルリスト管理(Voice Dial List Management)」あるいは図3の位置40または図4の78に入り、「エントリ追加(Add Entry)」を入力するかまたは「エントリ追加(Add Entry)」と言う。このコマンドが認識されると、システムはステップ201で、リストがいっぱいか否か先ずチェックする。リストがいっぱいの場合、システムは、リストがいっぱいであることをユーザに連絡する。このことは、メモリ15からの合成された音声コマンドによって実行され、合成器15aは「あなたのリストはいっぱいです。新しい名前を追加する前にあなたは名前を削除しなければなりません」と言う。ユーザは「リスト管理」に戻って、リストにある名前の1つを削除することができる。これについては図4のステップ96からステップ104を参照されたい。リストがいっぱいの場合またはリスト上の名前を削除した後、「追加エントリのLPCCNT(Add Entry LPCCNT)」に戻ると、ELPCカウンタとULPCカウンタとはゼロにセットされる(ステップ202)。つぎにシステムは、登録用LPC(Enrollment LPC(Linear Predictive Coding))つまりELPCと更新用線形予測符号化(Update LinearPredictive Coding :ULPC)の回数のカウントを続ける。LPCは、線形予測パラメータによって表された音声のサンプルである。LPCは線形であるということを前提とする。LPCの詳細については、たとえば、Prentice Hall発行(ISBN 0- 13- 163841- 6)、Frank FallsideおよびWilliam Woods編「コンピュータによる音声処理(Computer SpeechProcessing)」中の(第4章)、Bishunu S.Italによる「音声の線形予測符号化(Linear Predictive Codingof Speech)」の81頁から124頁を参照されたい。ここでこれらの出版物に言及することによりこれらの出版物の内容を本願に明確に組み入れることにする。ELPCとULPCの回数が両方ともゼロの場合は、前から1つも入力されていないことを示しており(ステップ203)、指導用の合成されたプロンプト文が再生される(ステップ203の判断がyes)。合成された文は、
「システムはあなたがその名前をどのように言うのか学習する必要があります。あなたが最初にその名前を言ってから長い休止時間がありますので、1回乃至4回その名前を繰り返して下さい。#をダイヤルすればこのメッセージをスキップすることができます。ビープ音の後で、音声呼出しの名前を言ってください。」と言うであろう。(ユーザに名前を言うようにメッセージの終りでビープ音が鳴る。)ユーザは名前を言う。ステップ205でチェックが行われ、(たとえば)15の名前がリストされているリストに既にある名前か、ある名前によく似ているか、あるいは不要要素モデルに一致するか否か判断する。(よく似た名前が既にあることを示す)リスト上の名前と一致すると、システムはステップ206の「追加エントリのリトライ(Add Entry Retry)」に入る。リトライの出力が「yes」の場合(ステップ207)、システムは音声ダイヤルリスト管理メニューつまり図3の40あるいは図4の78に戻る。リトライの出力が「no」の場合(ステップ207の「no」)、システムは合成器15aを介して、「似すぎています(too similar)」メッセージ、(「....はあなたのリストの別の名前と非常によく似ています。違う名前を選んでください」)を再生し図5に示すELPCカウンタ202を増分して、短いプロンプト(「ビープ音の後で、音声ダイヤルの名前を言ってください」)を使用して再度試行する。時間内にユーザが新しい名前を言わない場合、システムはタイムアウトになり、前記カウンタを増分するとともに新しい名前を要求する。キーボードの無効キーが押下されると及び/或いはタイムアウトになると、システムは、ステップ202の前記カウンタを増分するとともに新しい名前を言うように要求する。3回の試行あるいは5回の無効DTMFキーの後、システムが登録に失敗すると、システムは切断される(ステップ209)。言われた名前が一致しないと、システムは図7の「追加エントリの登録(Add Entry Enroll)」に進む。
図5の「追加エントリの登録」のところで、一致しない名前を言うことに成功すると、システムは図6の流れ図に従って進む。オンライン登録を開始すると、発声が記憶される。セーブされた発声は、オフライン登録を実行することにより、テンプレートを生成するのに使用される(ステップ301)。発声の長さが短すぎず、たとえば、データが10フレームある最小しきい値長さより長いかまたは等しい場合(ステップ302の「no」)、システムは、追加エントリを更新するステップ305に進み、図8のフローチャートに従って進む。メッセージが短すぎるか最小しきい値より短い(この例では、10フレームのデータより短い)場合(ステップ302の「yes」)、システムは合成器を介して、前に使用されていないテンプレートであっても、ユーザがそのテンプレートを使用したいか否か質問する。最小しきい値より短いことを示す「yes」の場合、プロンプトメッセージは、「名前(与えられた名前)は、推奨する名前の長さより短い長さです。名前と苗字の両方を使用するのが最適です。この名前を使用するためには、とにかく「オーケー」と言ってください。この名前を使用することを中止するなら「キャンセル」と言ってください。」と言う。このメッセージに続いてビープ音が鳴りプロンプトが出る。応答ステップ307で「オーケー」を受信すると、システムは図8の追加エントリの更新に進む。「キャンセル」が受信されると、「名前は登録されません」のような合成された文が生成され用意されて、システムは音声ダイヤルリスト管理メニューつまり図3の40あるいは図4の78に戻る。何も言われないと(タイムアウトになると)、あるいは認識されないコマンドつまり正しくないキーが押下されると、システムは合成された命令を用意するとともに応答の探知に戻る。この動作を5回繰り返した後で認識された応答がないと、あるいはタイムアウトが3回発生すると、システムはメッセージとともに切断される(ステップ309)。DTMFキーが押下されると、合成器はメッセージ「キーが正しくありません」を用意する。誤ったキーが押されてタイムアウトが発生する都度、そして3回目と4回目の認識できない音声コマンドの後で、合成器は、「「オーケー」か「キャンセル」と言ってください」、あるいはもっと詳しく指示するためには、「この名前の追加を続けるには「オーケー」と言ってください。この名前の追加を中止するなら「キャンセル」と言ってください。」というメッセージを言う。短い名前であっても、「オーケー」が認識されると、システムは図8の「追加エントリの更新」に進む。
認識されたことを判断する場合、システムは、以下に記すペナルティ付きの不要要素モデルを使用する。
Figure 2007124686

Figure 2007124686

上に掲げた不要要素モデルのいずれに対しても、受信したテンプレートが高い点数になる場合、このテンプレートは認識不能な音声に対して高い点数を受けるので、認識不能な音声として拒否される。
図8を参照すると、テンプレートがダウンロードされると(ステップ401)、システムは、更新が行われていないかどうか判断する。更新の間、登録テンプレートの中にない音声を解釈するために不要要素モデルが使用される。たとえば、登録中に、ユーザが「アー、Roger Rabbit」と言ったとすると、不要要素モデルは(あえぐような声)「アー」を解釈できるので、更新発声の「Roger Rabbit」部分のみの平均がとられて、新しい名前のテンプレートに入れられる。更新用カウンタ(ULPC)がゼロの場合は(ステップ402)、更新が完了していないことを示しており、システムは合成器を介して、「もう一度名前を言ってください」とユーザに要求する。更新カウンタが増分され(ステップ403)応答がある場合、その応答を使用してテンプレートの更新が行われる(ステップ404)。テンプレートがチェックされ、正しく更新が行われたか否か判断される。正しく更新された場合、その名前の電話番号を入力するようユーザに要求する(ステップ405)。この更新はキー入力してもよいし、話者に依存しない認識モデルを備えた音声認識を使用して言葉で言ってもよい。更新に失敗すると、システムは図9の追加エントリのリトライステップに進む。更新に失敗すると、登録の発声と更新の発声が交換され、登録と更新はその順序で行われる。初めての場合、ユーザは発声する準備ができていないことが多いので、名前を言う前に「アー」のような声を挟むことが多いが、もう一度言ってくださいと要求すると、言うための準備ができる。最初のテンプレートには「アー」という声が入るので、更新する場合、「アー」の声がないためその更新は失敗するかもしれない。発声を交換すると、より明瞭な2回目の発声が登録に使用されるので、最初の発声を使用して更新することになる。この場合、発声の始めにある「アー」という声は不要要素モデルによって解釈され、「アー」はテンプレートに含まれない。1回目と2回目の発声を交換することに失敗すると、試行の出力を介して3回目の発声が要求される(ステップ406)、更新にはその応答と2回目の発声が使用される。登録に3回目の発声が要求されると、先ずその名前がチェックされてリスト上の別の名前によく似ているか否か判断される。よく似ていると、その名前は使用されず、処理は図5の入力Aに進む。発声が短すぎたために登録に失敗した場合は、システムは加入者に連絡して、別の発声をするように促す。登録に成功したが、発声が短すぎる(フレームの長さが最小しきい値長さより短い)場合、登録名が短すぎるため認識できませんでしたという警告が加入者に与えられる。加入者は、「オーケー」か「キャンセル」を言うように促される。
要約すると、更新に失敗すると発声が交換され、2回目の発声(必要ならば3回目の発声)が、1回目の発声より良好な登録の発声になっているかどうか判断される。登録と更新が次に示す順序で行われると、ユーザには最も多くても3回の発声を要求するだけである。
(表3)
登録 更新
1 2
2 1
2 3
3 2
3 1
1 3
他の実施例
本発明とその利点を詳細に説明してきたが、添付の請求の範囲に定義されているとおり、本発明の主旨と範囲から逸脱することなく、各種の変更、代替、改良ができることを理解されたい。
以上の説明に関して更に以下の項を開示する。
1.音声認識データベースに音声認識モデルを登録する方法であって、
異質な音声を解釈するペナルティ付加型不要要素モデルを備え、
登録するため音声認識する新しい発声をユーザから受信し、
登録のために受信した前記発声のテンプレートを生成し、
登録される発声を再度繰り返すことをユーザに要求し、
2回目に受信した発声を受信し、
2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
語彙内音声に関して一致している場合、前記新しいテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
2.第1項記載の方法であって、前記比較ステップは、前記2回目の発声を前記ペナルティ付加型不要要素モデルと比較し、登録されたテンプレートと比べて、語彙外音声に関して前記ペナルティ付加型不要要素モデルと所定の範囲内で一致する前記2回目の発声中の発声のすべてを拒否するステップを含むことを特徴とする方法。
3.第1項記載の方法であって、前記比較が失敗して一致しない場合、テンプレートと前記2回目に受信した発声を交換して、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
4.第3項記載の方法であって、前記交換するステップが比較結果を得るのに失敗した場合、3回目の発声を要求して受信し、第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声のテンプレートをデータベースに登録するステップを含むことを特徴とする方法。
5.第3項記載の方法であって、後に続く発声を要求し、交換が前の発声の比較結果を得るのに失敗した後、前の発声と後に続く応答が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入れるステップを含むことを特徴とする方法。
6.電話システムに短縮ダイヤル名を登録する方法であって、
異質な音声を解釈するペナルティ付加型不要要素モデルを備え、
登録するための新しい短縮ダイヤル名の発声をユーザから受信し、
登録のために受信した前記短縮ダイヤル名の発声のテンプレートを生成し、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求し、
受信した新しい短縮ダイヤル名の2回目の発声を受信し、
新しい短縮ダイヤル名の2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
7.第6項記載の方法であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加するステップを含むことを特徴とする方法。
8.第7項記載の方法であって、比較が一致に失敗した場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声とを交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
9.第8項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
10.第8項記載の方法であって、後に続く新しい短縮ダイヤル名の発声を要求して受信し、交換が前の発声に関する比較結果を得るのに失敗した後、後に続く応答と前の発声が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入力するステップを含むことを特徴とする方法。
11.第6項記載の方法であって、前記比較ステップは、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否するステップを含むことを特徴とする方法。
12.第11項記載の方法であって、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声を交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
13.第12項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
14.第10項記載の方法であって、後に続く新しい短縮ダイヤル名の発声を要求して受信し、前記交換するステップが前の発声に関する比較結果を得るのに失敗した後、後に続く応答と前の発声が比較されそして一致している場合、後に続く発声のテンプレートをデータベースに入力するステップを含むことを特徴とする方法。
15.音声認識データベースにアドレスを登録する方法であって、
名前のアドレスの話者依存型テンプレートを用意するステップと、
異質な音声を解釈するペナルティ付加型不要要素モデルを用意するステップと、
登録されるアドレスが、前に用意された話者依存型テンプレートか前記ペナルティ付加型不要要素モデルかのいずれかと一致しているか否か判断し、前に用意された話者依存型テンプレートと一致する場合は登録を拒否するステップと、
を含むことを特徴とする方法。
16.電話システムに短縮ダイヤル名を登録する方法であって、
短縮ダイヤル名と関連する電話番号との話者依存型テンプレートを用意し、
異質な音声を解釈するペナルティ付加型不要要素モデルを用意し、
登録される名前が、前に用意された話者依存型テンプレートか前記ペナルティ付加型不要要素モデルかのいずれかと一致しているか否か判断し、前に用意された話者依存型テンプレートと一致する場合は登録を拒否する、
ことを含むことを特徴とする方法。
17.第16項記載の方法であって、登録される発声が最小しきい値長さより短いか否か判断するステップを含むことを特徴とする方法。
18.第17項記載の方法であって、発声が前記最小しきい値長さより短い場合、該発声のテンプレートを短縮ダイヤルリストに追加する前に、ユーザの承認が得られるか否か判断することを特徴とする方法。
19.音声認識データベースにアドレスを登録する方法であって、
アドレスの話者依存型テンプレートを用意するステップと、
認識不能な音声のためにペナルティ付加型不要要素モデルを用意するステップと、
登録されるアドレスを受信するステップと、
登録されるアドレスが短すぎるか否か判断するステップと、
を含むことを特徴とする方法。
20.電話システムに短縮ダイヤル名を登録する方法であって、
短縮ダイヤル名と、関連する電話番号との話者依存型テンプレートを用意し、
認識不能な音声のためにペナルティ付加型不要要素モデルを用意し、
登録するための短縮ダイヤル名の発声をユーザから受信し、
登録のために受信した前記短縮ダイヤル名の発声のテンプレートを生成し、
登録される名前が、用意された話者依存型テンプレートによく似ているか否か判断し、よく似ている場合は登録を拒否し、不要要素モデルと一致する場合は登録を許し、
登録される発声が、最小しきい値長さより短いか否か判断し、登録される発声が、前記最小しきい値長さより短い場合、その発声を短縮ダイヤルリストに登録する前にユーザが承認するか否か判断し、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求し、
受信した新しい短縮ダイヤル名の2回目の発声を受信し、
新しい短縮ダイヤル名の2回目の発声を、生成したテンプレートおよびペナルティ付加型不要要素モデルと比較して一致しているか否か判断し、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する、
ことを含むことを特徴とする方法。
21.第20項記載の方法であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加するステップを含むことを特徴とする方法。
22.第21項記載の方法であって、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声を交換し、前記比較するステップを繰り返し実行するステップを含むことを特徴とする方法。
23.第22項記載の方法であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力するステップを含むことを特徴とする方法。
24.第20項記載の方法であって、前記比較ステップは、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否するステップを含むことを特徴とする方法。
25.短縮ダイヤル名を登録する電話装置であって、
短縮ダイヤル名と、関連する電話番号との話者依存型テンプレートを格納するメモリと、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納するメモリと、
登録される名前と前記格納された話者依存型テンプレートあるいは前記ペナルティ付加型不要要素モデルを比較して、よく似ている場合は登録を拒否する比較器と、
を含むことを特徴とする電話装置。
26.第25項記載の電話装置であって、登録される発声が最小しきい値長さより短いか否か、あるいは発声が前記最小しきい値長さより短い否か判断し、発声のテンプレートを短縮ダイヤルリストに追加する前に、ユーザが承認するか否か判断する手段を含むことを特徴とする電話装置。
27.短縮ダイヤル名を登録する電話装置であって、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納する記憶装置と、
登録するための短縮ダイヤル名の発声をユーザから受信する受信器と、
前記受信器と結合し、登録するために受信した前記短縮ダイヤル名の発声のテンプレートを発声させる発生器と、
登録される新しい短縮ダイヤル名の発声を再度繰り返すことをユーザに要求する手段と、
受信した新しい短縮ダイヤル名の2回目の発声を受信することに応答して、前記受信した新しい短縮ダイヤル名の2回目の発声と、発生させたテンプレートおよびペナルティ付加型不要要素モデルを比較して、一致しているか否か判断する前記受信器と、
一致している場合、前記新しい短縮ダイヤル名のテンプレートを短縮ダイヤルリストに追加する手段と、
を含むことを特徴とする電話装置。
28.第27項記載の電話装置であって、前記新しい短縮ダイヤル名のテンプレートに関連する電話番号を要求しかつ追加する手段を含むことを特徴とする電話装置。
29.第27項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、テンプレートと前記受信した短縮ダイヤル名の2回目の発声とを交換しかつ再度比較する手段を含むことを特徴とする電話装置。
30.第29項記載の電話装置であって、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声を短縮ダイヤルリストに入力する手段を含むことを特徴とする電話装置。
31.第27項記載の電話装置であって、前記受信器は、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否する手段を含むことを特徴とする電話装置。
32.第31項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、前記テンプレートと前記2回目の受信した短縮ダイヤル名の発声を交換しかつ再度比較するステップを繰り返し実行する手段を含むことを特徴とする電話装置。
33.第32項記載の電話装置であって、前記受信器は、新しい短縮ダイヤル名の3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後3回目の発声と2回目の発声が比較されそして一致している場合、短縮ダイヤルリストに2回目の発声を入力する手段を含むことを特徴とする電話装置。
34.音声認識データベースに音声テンプレートを登録する装置であって、
認識不能な音声のためのペナルティ付加型不要要素モデルを格納する記憶装置と、
前記データベースに登録するための新しい音声アドレスの発声をユーザから受信する受信器と、
前記受信器と結合し、登録するために受信した前記新しい音声アドレスの発声のテンプレートを発生させる発生器と、
登録される新しい音声アドレスの発声を再度繰り返すことをユーザに要求する手段と、
前記受信した新しい音声アドレスの2回目の発声を受信することに応答して、前記新しい短縮ダイヤル名の2回目の発声と、発生させたテンプレートおよびペナルティ付加型不要要素モデルを比較して、一致しているか否か判断する前記受信器と、
一致している場合、前記新しいテンプレートを前記データベースに追加する手段と、
を含むことを特徴とする電話装置。
35.第34項記載の電話装置であって、前記受信器は、比較に失敗して一致しない場合、テンプレートと前記2回目に受信した発声とを交換しかつ再度比較する手段を含むことを特徴とする電話装置。
36.第35項記載の電話装置であって、3回目の発声を要求して受信し、前記交換するステップが比較結果を得るのに失敗した後第3の応答と2回目の発声が比較されそして一致している場合、2回目の発声をデータベースに入力する手段を含むことを特徴とする電話装置。
37.第34項記載の電話装置であって、前記受信器は、前記2回目の発声と前記ペナルティ付加型不要要素モデルを比較して、所定の範囲内で前記ペナルティ付加型不要要素モデルと一致する前記2回目の発声中の発声をすべて拒否する手段を含むことを特徴とする電話装置。
38.短縮ダイヤル名を登録する方法とシステムには、話者依存型テンプレートと、関連する電話番号とを用意することと、認識不能な音声のためのペナルティ付加型不要要素モデルを用意することとが含まれる。新しいテンプレートの要求が受信されると、短縮ダイヤル名のリストがいっぱいか否か判断され(ステップ201)、いっぱいでない場合は、その名前が短縮ダイヤルリストに既にある名前によく似ているか否か判断される。よく似ている場合、その名前は拒否されるが、似ていない場合は、短縮ダイヤル名が短すぎるか否か判断され、短すぎない場合、あるいは、ユーザが短い名前を入力したい場合、システムは、短縮ダイヤル名を繰り返すようにユーザに依頼し、一致すれば、その名前が入力される。一致しない場合、システムは、1回目と2回目の発声を交換して比較し、一致するか否か判断する。
本発明の方法を実現する電話システムを簡略化したブロック図。 音声認識電話システムにおいて、多数ユーザが発声した短縮ダイヤル命令を生成する方法の流れ図(flow diagram)を示す図。 前記電話システムの中でディレクトリ名を登録したり削除したりする一般的な流れ図を示す図。 前記電話システムにおけるディレクトリ名に対応する短縮ダイヤルリストを登録したり修正したりする方法の流れ図を示す図。 本発明の一実施例に従って、音声ダイヤルエントリ追加のフローチャートを示す図。 1つの不要要素モデルを示す図。 図5の音声ダイヤル追加エントリを登録するフローチャートを示す図。 図7の音声ダイヤル追加エントリを更新するフローチャートを示す図。 図8の音声ダイヤル追加エントリをリトライするフローチャートを示す図。
符号の説明
10 電話システム
11 電話機
12 プロセッサ、カウンタ、比較器
13 オフフック検出器
14 認識・記録装置
15 メモリと内部のモデル
15a 音声合成器

Claims (22)

  1. ユーザからの新たな短縮ダイヤル名の第1の発声を受けて、当該第1の発声から第1のテンプレートを生成して前記第1の発声を登録する、電話に短縮ダイヤル名を登録する方法であって、
    新たな短縮ダイヤル名の第2の発声を受け入れ、
    当該第2の発声を前記第1のテンプレートと比較して、前記第2の発声が前記第1のテンプレートに一致するか否かを決定し、および
    前記第2の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを短縮ダイヤルリストに付加する、
    ことを特徴とする電話に短縮ダイヤル名を登録する方法。
  2. 請求項1に記載の方法において、さらに
    前記第2の発声が一致するとの決定に応答して、前記第2の発声を用いて前記第1のテンプレートを更新し、
    および、前記付加するステップは前記更新された第1のテンプレートを前記短縮ダイヤルリストに付加する、ことを特徴とする方法。
  3. 請求項1に記載の方法において、さらに、前記比較ステップは前記第2の発声の語彙内部分を前記第1のテンプレートと比較する、ことを特徴とする方法。
  4. 請求項1に記載の方法において、前記第2の発声の受け入れに先立って、ユーザに前記新たな短縮ダイヤル名の繰り返しを要求する、ことを特徴とする方法。
  5. 請求項1に記載の方法において、前記第2の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に関連して電話番号を要求し、及び、付加すること、を特徴とする方法。
  6. 請求項1に記載の方法において、
    前記第2の発声が一致しないと決定する前記比較ステップに応答して:
    前記第2の発声から第2のテンプレートを生成して当該第2の発声を登録し、
    前記第1の発声を前記第2のテンプレートと比較し、前記第1の発声が前記第2のテンプレートに一致するか否かを決定し、および
    前記第1の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを前記短縮ダイヤルリストに付加する、ことを特徴とする方法。
  7. 請求項6の方法において、前記第1の発声を前記第2の発声に比較する前記ステップは前記第1の発声の語彙内部分を前記第2のテンプレートと比較する、ことを特徴とする方法。
  8. 請求項7に記載の方法において;
    前記第1の発声が一致するとの決定に応答して、前記第1の発声の語彙内部分を用いて前記第2のテンプレートを更新し、
    及び前記付加するステップは前記更新された第2のテンプレートを前記短縮ダイヤルリストに付加する、ことを特徴とする方法。
  9. 請求項6に記載の方法において、
    前記第1の発声が一致しないとの決定に応答して:
    前記新たな短縮ダイヤル名の第3の発声を要求して受け入れ、
    前記第3の発声と前記第2のテンプレートを比較し、前記第3の発声が前記第2のテンプレートに一致するか否かを決定し、および
    前記第3の発声が一致するとの決定に応答して、前記第3の発声を用いて前記第2のテンプレートを更新し、および
    前記更新された第2のテンプレートを前記短縮ダイヤルリストに付加する、ことを特徴とする方法。
  10. 請求項9に記載の方法において、前記第3の発声を前記第2のテンプレートに比較する前記ステップは前記第3の発声の語彙内部分を第2のテンプレートに比較し、および
    前記第2のテンプレートを更新するステップは前記第3の発声の語彙内部分を用いる第3の発声を使用する、ことを特徴とする方法。
  11. 請求項1に記載の方法において、
    不要要素モデルを用意し、
    前記不要要素モデルにペナルティを割当て、
    前記第1の発声と前記ペナルティ付不要要素モデルおよび短縮ダイヤル名が以前付加されたテンプレートとを比較して、前記第1の発声が以前付加された短縮ダイヤル名と類似しすぎているか否かを決定する、ことを特徴とする方法。
  12. 請求項1に記載の方法において、さらに
    前記第1の発声は所定の閾値よりも長さが長いか否かを決定し、
    前記登録ステップは前記閾値よりも長い前記第1の発声の前記長さに応答して行われる、ことを特徴とする方法。
  13. 請求項12の方法において、
    前記閾値よりも長くない前記第1の発声の長さに応答して、ユーザからの新たな短縮ダイヤル名の登録の継続又はキャンセルの入力を要求し、
    前記登録ステップは前記新たな短縮ダイヤル名の登録を継続するユーザの入力に応答して行われる、方法。
  14. 短縮ダイヤルネームを登録する回路を有する電話装置において、当該回路は;
    短縮ダイヤルリストを格納するメモリと、
    一連の動作を行うようプログラムされたプロセッサであって、
    新たな短縮ダイヤル名の第1および第2の発声を受け入れ、および、前記第1の発声からの第1のテンプレートを登録し、
    前記プロセッサがプログラムされた一連の動作は、さらに、
    前記第2の発声を前記第1のテンプレートと比較して、前記第2の発声が前記第1のテンプレートに一致するか否かを比較し、および、
    前記第2の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを短縮ダイヤルリストに付加する、ことを特徴とする電話装置。
  15. 請求項14に記載の電話装置において、さらに、
    前記第2の発声が一致するとの決定に応答して当該第2の発声を用いて前記第1のテンプレートを更新し、および、
    当該更新されたテンプレートを前記メモリの短縮ダイヤルリストに付加する、ことを特徴とする電話装置。
  16. 請求項14に記載の電話装置において、前記メモリは認識されない音声の不要要素モデルを格納するものであって、さらに、
    前記比較操作は前記第2の発声の語彙内部分を前記第1のテンプレートと比較する、ことを特徴とする電話装置。
  17. 請求項14に記載の電話装置において、さらに、前記付加された短縮ダイヤル名に関連した電話番号をメモリに格納する手段、とを有することを特徴とする電話装置。
  18. 請求項14に記載の電話装置において、さらに、
    前記第2の発声が一致しないと決定する前記比較ステップに応答して;
    前記第2の発声から第2のテンプレートを生成して前記第2の発声を登録し、
    前記第1の発声を前記第2のテンプレートと比較して、前記第1の発声が前記第2のテンプレートに一致するか否かを決定し;および
    前記第1の発声が一致するとの決定に応答して、前記新たな短縮ダイヤル名に対応するテンプレートを前記短縮ダイヤルリストに付加する、
    一連の動作で特徴付けられる電話装置。
  19. 請求項18に記載の電話装置において、
    前記第1の発声が一致しないとの決定に応答して;
    新たな短縮ダイヤル名の第3の発声を要求して受け入れ;
    前記第3の発声を前記第2のテンプレートと比較し、前記第3の発声が前記第2のテンプレートと一致するか否かを決定し、および
    前記第3の発声が一致するとの決定に応答して、前記第3の発声を用いて前記第2のテンプレートを更新し、および
    前記更新された第2のテンプレートを前記短縮ダイヤルリストに付加する、
    一連の動作で特徴付けられる電話装置。
  20. 請求項14に記載の電話装置において、さらに不要要素モデルを格納するメモリによって特徴付けられ、さらに、
    前記不要要素モデルにペナルティを割当て、及び
    前記第1の発声を前記ペナルティ付不要要素モデルおよび以前に短縮ダイヤル名に付加されたテンプレートと比較して、前記第1の発声が以前に付加された短縮ダイヤル名に類似しすぎるか否かを決定する、
    一連の動作で特徴付けられる電話装置。
  21. 請求項18に記載の電話装置において、さらに
    前記第1の発声が所定の閾値よりも長さが長いか否かを決定し、および、
    前記第1の発声の長さが前記閾値よりも長いことに応答して前記第1の発声から前記第1のテンプレートを登録する、
    一連の動作で特徴付けられる電話装置。
  22. 請求項21に記載の電話装置において、さらに
    前記第1の発声の長さが前記閾値よりも長く無い点に応答して、ユーザからの新たな短縮ダイヤル名のキャンセル又は登録を継続する入力を要求し、及び
    前記新たな短縮ダイヤル名の登録を継続するユーザ入力の受け入れに応答して、前記第1の発声から前記第1のテンプレートを登録する、
    一連の動作で特徴付けられる電話装置。
JP2006331584A 1995-09-12 2006-12-08 音声認識データベースにアドレスを登録する方法とシステム Pending JP2007124686A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US359395P 1995-09-12 1995-09-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP24224796A Division JP4355035B2 (ja) 1995-09-12 1996-09-12 音声認識データベースにアドレスを登録する方法とシステム

Publications (1)

Publication Number Publication Date
JP2007124686A true JP2007124686A (ja) 2007-05-17

Family

ID=21706613

Family Applications (2)

Application Number Title Priority Date Filing Date
JP24224796A Expired - Lifetime JP4355035B2 (ja) 1995-09-12 1996-09-12 音声認識データベースにアドレスを登録する方法とシステム
JP2006331584A Pending JP2007124686A (ja) 1995-09-12 2006-12-08 音声認識データベースにアドレスを登録する方法とシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP24224796A Expired - Lifetime JP4355035B2 (ja) 1995-09-12 1996-09-12 音声認識データベースにアドレスを登録する方法とシステム

Country Status (6)

Country Link
EP (1) EP0762709B1 (ja)
JP (2) JP4355035B2 (ja)
KR (1) KR100442308B1 (ja)
CA (1) CA2185262C (ja)
DE (1) DE69636731T2 (ja)
MY (1) MY119374A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19718007A1 (de) * 1997-04-29 1998-11-05 Deutsche Telekom Ag Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
FI973093A (fi) 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
AU1193599A (en) * 1997-11-04 1999-05-24 Alcatel Usa Sourcing, L.P. System for entollement of a spoken name dialing service
US6370237B1 (en) * 1998-12-29 2002-04-09 Alcatel Usa Sourcing, Lp Voice activated dialing with reduced storage requirements
JP2001202309A (ja) * 2000-01-17 2001-07-27 Dream Technologies Kk コンピュータに所望のアクションを行わせるためのシステム及び方法
US6845251B2 (en) * 2000-11-29 2005-01-18 Visteon Global Technologies, Inc. Advanced voice recognition phone interface for in-vehicle speech recognition applications
DE60028219T8 (de) * 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
JP3500383B1 (ja) * 2002-09-13 2004-02-23 コナミ株式会社 ゲーム装置、ゲーム装置の制御方法及びプログラム
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
KR101952578B1 (ko) 2018-12-18 2019-02-27 유옥상 강관 회전 장치
KR102083018B1 (ko) 2019-06-07 2020-02-28 박종신 강관 회전 장치
KR102125675B1 (ko) 2020-01-14 2020-06-23 이주철 강관 회전 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
DE3885683T2 (de) * 1987-09-11 1994-03-10 Toshiba Kawasaki Kk Telefonapparat.
JPH01123298A (ja) * 1987-11-06 1989-05-16 Ricoh Co Ltd 音声ダイアリング装置
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
JPH04238398A (ja) * 1991-01-22 1992-08-26 Ricoh Co Ltd 音声認識装置及び音声ダイヤリング装置
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5179921A (en) * 1992-01-30 1993-01-19 Vincent Figliuzzi Integrated engine and compressor device
JPH06266386A (ja) * 1993-03-16 1994-09-22 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング方法
US5452340A (en) * 1993-04-01 1995-09-19 Us West Advanced Technologies, Inc. Method of voice activated telephone dialing
JPH0730629A (ja) * 1993-07-07 1995-01-31 Yuhshin Co Ltd 音声ダイヤリング装置
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
KR0170529B1 (ko) * 1994-08-31 1999-03-30 이우복 음성인식 자동 다이얼링 시스템
JPH08223265A (ja) * 1995-02-13 1996-08-30 Hitachi Ltd 音声ダイヤル機能付き電話機

Also Published As

Publication number Publication date
EP0762709A3 (en) 2000-03-29
MY119374A (en) 2005-05-31
CA2185262C (en) 2006-08-29
KR970017175A (ko) 1997-04-30
JP4355035B2 (ja) 2009-10-28
JPH09205478A (ja) 1997-08-05
DE69636731D1 (de) 2007-01-11
MX9604051A (es) 1997-07-31
CA2185262A1 (en) 1997-03-13
EP0762709A2 (en) 1997-03-12
KR100442308B1 (ko) 2005-04-06
EP0762709B1 (en) 2006-11-29
DE69636731T2 (de) 2007-10-18

Similar Documents

Publication Publication Date Title
JP2007124686A (ja) 音声認識データベースにアドレスを登録する方法とシステム
US5832429A (en) Method and system for enrolling addresses in a speech recognition database
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
JP4672003B2 (ja) 音声認証システム
US6192337B1 (en) Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US7027985B2 (en) Speech recognition method with a replace command
JP4173207B2 (ja) 発声音に関する話者の検証を行うためのシステム及び方法
US8050925B2 (en) Recognizing the numeric language in natural spoken dialogue
US20030182119A1 (en) Speaker authentication system and method
JP2007052496A (ja) ユーザ認証システム及びユーザ認証方法
JPH0423799B2 (ja)
Li et al. Verbal information verification
JPH08507392A (ja) 音声コマンド制御及び検証システム
EP0949606B1 (en) Method and system for speech recognition based on phonetic transcriptions
JP2005283647A (ja) 感情認識装置
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
JP4318475B2 (ja) 話者認証装置及び話者認証プログラム
JP2001296885A (ja) 文法制約を有するラベル機能を使用する口頭発話拒否
WO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
JP3945187B2 (ja) 対話管理装置
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
EP1758351B1 (en) Method and system for enrolling addresses in a speech recognition database
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JPH06161488A (ja) 音声認識装置
MXPA96004051A (en) Method and system to register addresses in a database for recognition of ha

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100202