JP2000506633A - 音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話機 - Google Patents

音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話機

Info

Publication number
JP2000506633A
JP2000506633A JP10528588A JP52858898A JP2000506633A JP 2000506633 A JP2000506633 A JP 2000506633A JP 10528588 A JP10528588 A JP 10528588A JP 52858898 A JP52858898 A JP 52858898A JP 2000506633 A JP2000506633 A JP 2000506633A
Authority
JP
Japan
Prior art keywords
item
repertoire
presented
voice
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10528588A
Other languages
English (en)
Inventor
ギルホモン,ブノイト
ミート,ヒルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2000506633A publication Critical patent/JP2000506633A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 多項目のレパートリーに関して音声認識システムを訓練するため、音声項目が使用者によって提示され、その音声項目の上記レパートリーにおける識別性が判断され、見つけられた識別性の制御下で、音声項目がレパートリーに挿入される段階が行われる。上記段階は十分なレパートリーに達するまで繰り返される。特に、識別性を判断する際に、実際に提示された音声項目と、既にレパートリーに蓄積された全ての項目との間で類似性が判定され、1個の特定の蓄積された項目と過度の類似性がある場合、不測事態処理が生じる。これは、実際に提示された音声項目を無視するか、或いは、特定の蓄積された項目を削除する代わりに実際に提示された音声項目を挿入するかの選択肢が使用者に申し込まれることを意味する。

Description

【発明の詳細な説明】 音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話 機 発明の背景 本発明は、音声認識システムを多項目のレパートリーに関して訓練する方法に 係わり、この方法は、 −使用者による音声項目を提示する段階と、 −上記レパートリー内で上記提示された音声項目の識別性を判断する段階と、 −見つけられた識別性の制御下で、上記提示された音声項目を上記レパートリー に挿入する段階と、 −十分なレパートリーに達するまで上記段階を繰り返す段階とを含む。 音声認識は、商業的に最新の話題になり、非常に複雑な専門家向けシステムだ けではなく、実利的な消費者用品及び装置にも用途がある。後者の具体的な例は 携帯電話機であり、かかる装置は、0から9の数字、コネクト、ストップ、ター ミネート、ホールドのような標準的な電話機表現、並びに、別の関連した語句を 表現する音声によって確かに制御可能である。別の適用可能な音声項目は、個人 名、会社名、並びに、上司、妻及び秘書のような単語であり、これにより、迅速 化又は短縮ダイヤルが可能になる。勿論、類似した語葉が他の言語に当てはまる 場合がある。特に、殆ど制限のない用語を使用することはかなりの混乱を生じさ せる。例えば、ある種の名前は相互に類似する。また、ある種の名前は、綴り方 が異なる場合でさえ、標準的な用語のように聞こえる場合がある。例えば、wife は、fiveと区別することが難しく、ドイツ語のAcht又はAgt(8)は姓名並びに 村名として使用される。更なる混乱は、 one (英語、1) − wann(ドイツ語、いつ?) sept(仏語、7) − set(英語、セット) huit(仏語、8) − wie(ドイツ語、如何に?) dix (仏語、10)− this(英語、これ) のような言語間に亘る状況で生じる。 この結果として、当該システムの実際の性能が与えられた場合に、混乱の可能 性が最小限に抑えられるような管理可能な方法で蓄積されたレパートリーを保持 する必要性が認められる。欧州特許出願EP601876号は、混乱を生じさせ る新しい句は蓄積が阻止されるシステムを開示する。 発明の概要 本発明は、初期のシステムが柔軟性に欠けることを認識した結果として、特に 、柔軟性が保たれるような形で蓄積されたデータベースを管理すると共に、混乱 の可能性を最小限に抑えることを目的とする。そのため、本発明は、上記の判断 が実際に提示された音声項目と、既にレパートリーにある全ての項目との間で類 似性を判定し、1個の特定の蓄積された項目との過度の類似性は、実際に提示さ れた音声項目を無視するか、或いは、特定の蓄積された項目を削除する代わりに 実際に提示された音声項目を挿入するかの選択を使用者に申し込む不測事態処理 を生成する。 本発明は、また、音声認識システムを多項目のレパートリーに関して訓練する 手段を含む電話機に係わり、この電話機は、 −使用者により提示された音声項目を受容する入力手段と、 −上記レパートリーにおいて上記提示された音声項目の識別性判断手段と、 −上記識別性判断手段によって見つけられた識別性の制御下で、上記提示され た音声項目をレパートリーに挿入する挿入手段と、 −十分なレパートリーに達するまで、上記のステップを繰り返す繰り返し制御 手段と、 上記音声認識システムの出力によって供給される制御入力手段を有し、非訓練 状態で受信された音声項目から認識された制御データを受容する電話機能手段と を含み、 上記識別性判断手段は、実際に提示された音声項目と、既にレパートリーにあ る全ての項目との間で類似性を判定するため配置され、1個の特定の蓄積された 項目との過度の類似性は、実際に提示された音声項目を無視するか、或いは、特 定の蓄積された項目の削除を代償として実際に提示された音声項目を挿入するか の選択を使用者に申し込む不測事態処理を生成することを特徴とする。 音声制御型電話機は、それ自体で、不充分な照明条件下のようなプッシュ式ダ イヤルが適当ではない状況、ユーザが片手しか自由に使えないとき、或いは、ハ ンドフリー装置が必要とされるときに用途が見出される。本発明の別の有利な面 は、従属請求項に記載される。 図面の簡単な説明 以下、本発明の好ましい実施例の詳細な開示と、特に添付図面を参照して、本 発明の上記及び別の面を詳細に説明する。図面中、 図1は携帯電話機のブロック図であり、 図2は本発明の方法のフローチャートであり、 図3A−3Cは種々の類似性コンフィギュレーションを示す図である。 好ましい実施例の詳細な説明 図1は、欧州特許EP第494526号B1に概略的に開示されている携帯電 話機のブロック図である。同図には、アンテナスイッチ30に共に接続された受 信路及び送信路を含む装置3が示されている。受信路は、同調可能RFフィルタ 31と、ミキサ32と、切換可能IFフィルタ33と、検出器34と、時分割多 重アクセス(TDMA)コントローラ35と、音声コーディックク(CODEC )36と、スピーカ37の縦続を含む。送信路は、マイクロホン 27と、音声コーディック36と、TDMAコントローラ35と、変調器38と 、オフセット発振器39と、ミキサ40と、電力増幅器41とを含む。マイクロ プロセッサ42は電話機3の機能を制御するため設けられている。特定の周波数 チャネルに同調させるためシンセサイザ43を制御し、TDMAコントローラ3 5を制御し、キーパッド22を走査し、視覚的ディスプレイ21を制御するよう な種々の従来の特徴は、従来技術において周知の機能であるので、これ以上の説 明を行わない。不揮発性メモリ部45と揮発性メモリ部46とを含むメモリ44 はマイクロプロセッサ42に接続される。不揮発性メモリ部45は電話機能プロ グラムを格納する。また、この装置は、装置に給電するための交換可能なバッテ リ50に相互接続された電源リード線48及び49を含む。一例として、マイク プロセッサ42への給電だけが図示されている。 図2は本発明による方法のフローチャートである。ステップ50において、機 器の訓練処理が初期化される。例えば、携帯電話機の場合、進行中の呼は全て終 了している必要がある。また、音声認識プログラムを含む訓練用のアプリケーシ ョンプログラムが、例えば、図示されていない関連した制御ボタンを用いて開始 される。音声認識は、ユーザに依存して、若しくは、ユーザアプリケーションに 依存して訓練される。ステップ50において、単一の単語若しくは別個の単語の 列を表す最初の音声項目が入力され、また、例えば、エントリーが短縮ダイヤル の指定ラベルであるか否かの如くエントリーの意味を表す手動入力が入れられる 。音声を特定の電話機能性の面に連結する特定の処理は、簡潔のため考慮されて いない。ステップ54において、音声項目は、解析されモデル化される。例えば 、機器は3通りの訓練例を順番に要求する。モデリング信号の品質が良好ではな い場合、システムはステップ52に戻る。モデリングが良好である場合、ステッ プ58において、音声項目は、機器の音声データベースに蓄積された全ての適当 な項目と比較される。こ の比較は、例えば、本願出願人に譲受された米国特許出願第07/860,19 9号(PHD89158)、米国特許出願第08/425,305号(PHD9 1136)、米国特許出願第08/312,495号(PHD91137)、米 国特許出願第08/563,853(PHD91138)、米国特許出願第08 /203,105(PHD93034)及び米国特許出願第08/587,19 0に記載されているように、従来技術において公知の種々の処理に従って行うこ とができる。かかる比較は、スカラ量又は2次元以上で定義された量である類似 性指標を生成する。ステップ60において、類似性はランク付けされ、妥当であ るならば、数個の重大な類似性が、更に考慮するため選択される。ステップ62 において、過度の類似性が全て評価され、非常に近似した類似性は不適当である と判断される。不適当ではない場合、ステップ74において、新しい項目は十分 な識別性があり、音声データベースに挿入される。 従って、関連した音声項目を次に受け取る際に、関連した音声項目は認識され、 データベースに蓄積されているデータに変換される。ステップ70において、当 該項目が入力される最後の項目であるか否かが検出される。終わりは、キースト ローク、時間経過、若しくは、何らかの他の適当な手段によって示される。最後 の項目である場合、システムはステップ72に進み、訓練を終了する。さもなけ れば、新しい音声項目がステップ52で入力され得る。 ステップ62において、過度の類似性が検出された場合、システムはステップ 64に進み、相互に非常に似ている2個以上の音声項目間の選択肢を使用者に提 示する。ステップ66において、システムは、前の項目を置き換えるか否かの選 択を使用者に申し込む。置き換える場合、ステップ68において、旧い項目は置 換される。置き換えない場合、ステップ76において、新しい項目は無視される 。何れの場合にも、システムはステップ70に進む。 図3A−3Cには、種々の類似性コンフィギュレーションが示さ れている。3通りの図において、2個の先行音声項目A及びBは、距離が長いほ ど小さい類似性を示し、逆に距離が短いほど大きい類似性を示す種々の距離若し くは類似性を表現する仮想的な空間に示されている。距離を定量化する複雑な式 は、屡々、説明の目的のため、2次元平面の幾何学的距離として表される。新た に提示された音声項目は記号Cで示されている。図3Aにおいて、項目Cと先行 項目A又はBとの間の距離は十分に離れているので過度の類似性が生じない。従 って、項目Cは挿入される。図3Bにおいて、項目Cは項目Aの近くにあり、項 目Bからは充分に離れている。これは、ユーザが項目A又はCの両方ではなく何 れか一方だけをライブラリに格納する選択肢を有することを意味する。図3Cに おいて、項目Cと、両方の項目A及びBとの類似性は不適当、即ち、非常に似通 っているので、ユーザは、項目A及びBの両方を維持し続けるか、或いは、項目 Cだけを保持するかを選択することができる。ある種の状況では、携帯電話機ア プリケーションにおける数字“0”から“9”に対し、ダイアルするための数字 が音声の形式でも入力されたとき、蓄積された音声項目の部分集合を削除するこ とが阻止される場合がある。ある種の類似性は他の類似性に依存するので、前者 は暗黙的な方法で決定される場合があることに注意する必要がある。

Claims (1)

  1. 【特許請求の範囲】 1. 使用者により音声項目が提示される段階と、 レパートリー内で上記提示された音声項目の識別性を判断する段階と、 見つけられた識別性の制御下で、上記提示された音声項目を上記レパートリー に挿入する段階と、 十分なレパートリーに達するまで上記段階を繰り返す段階とを含む、音声認識 システムを多項目のレパートリーに関して訓練する方法において、 上記類似性を判断する際に、実際に提示された音声項目と、既にレパートリー にある全ての項目との間で類似性を判定し、 1個の特定の蓄積された項目との過度の類似性は、上記実際に提示された音声 項目を無視するか、或いは、上記特定の蓄積された項目を削除する代わりに上記 実際に提示された音声項目を挿入するかの選択を使用者に申し込む不測事態処理 を生じさせることを特徴とする方法。 2. 上記レパートリーを区分する段階を更に有し、 上記類似性は既に蓄積されている全ての項目に関して判定されるが、既に蓄積 されている音声項目の特定の一部分に関する削除が阻止される請求項1記載の方 法。 3. 使用者により提示された音声項目を受容する入力手段と、 レパートリーにおいて上記提示された音声項目の識別性を判断する識別性判断 手段と、 上記識別性判断手段によって見つけられた識別性の制御下で、上記提示された 音声項目を上記レパートリーに挿入する挿入手段と、 十分なレパートリーに達するまで、上記のステップを繰り返す繰り返し制御手 段とを含む、音声認識システムを多項目のレパートリーに関して訓練する機器に おいて、 上記識別性判断手段は、実際に提示された音声項目と、既にレパートリーにあ る全ての項目との間で類似性を判定し、1個の特定の蓄積された項目との過度の 類似性は、上記実際に提示された音声項目を無視するか、或いは、上記特定の蓄 積された項目を削除する代わりに上記実際に提示された音声項目を挿入するかの 選択を使用者に申し込む不測事態処理を生成することを特徴とする機器。 4. 音声認識システムを多項目のレパートリーに関して訓練する手段と、 使用者により提示された音声項目を受容する入力手段と、 上記レパートリーにおいて上記提示された音声項目の識別性を判断する識別性 判断手段と、 上記識別性判断手段によって見つけられた識別性の制御下で、上記提示された 音声項目を上記レパートリーに挿入する挿入手段と、 十分なレパートリーに達するまで、上記のステップを繰り返す繰り返し制御手 段と 上記音声認識システムの出力が供給される制御入力手段を有し、非訓練状態で 受信された音声項目から認識された制御データを受容する電話機能手段とを含む 、電話機において、 上記識別性判断手段は、実際に提示された音声項目と、既にレパートリーにあ る全ての項目との間で類似性を判定し、1個の特定の蓄積された項目との過度の 類似性は、上記実際に提示された音声項目を無視するか、或いは、上記特定の蓄 積された項目を削除する代わりに上記実際に提示された音声項目を挿入するかの 選択を使用者に申し込む不測事態処理を生成することを特徴とする電話機。
JP10528588A 1996-12-24 1997-12-08 音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話機 Pending JP2000506633A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP96402881 1996-12-24
EP96402881.5 1996-12-24
PCT/IB1997/001545 WO1998028733A1 (en) 1996-12-24 1997-12-08 A method for training a speech recognition system and an apparatus for practising the method, in particular, a portable telephone apparatus

Publications (1)

Publication Number Publication Date
JP2000506633A true JP2000506633A (ja) 2000-05-30

Family

ID=8225364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10528588A Pending JP2000506633A (ja) 1996-12-24 1997-12-08 音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話機

Country Status (7)

Country Link
US (1) US6078883A (ja)
EP (1) EP0920692B1 (ja)
JP (1) JP2000506633A (ja)
KR (1) KR19990087167A (ja)
CN (1) CN1216137A (ja)
DE (1) DE69720224T2 (ja)
WO (1) WO1998028733A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374221B1 (en) 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
WO2002029618A1 (en) 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
GB2251763B (en) * 1991-01-11 1995-06-21 Technophone Ltd Telephone apparatus with calling line identification
AU4678593A (en) * 1992-07-17 1994-02-14 Voice Powered Technology International, Inc. Voice recognition apparatus and method
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
CA2167200A1 (en) * 1993-07-13 1995-01-26 Theodore Austin Bordeaux Multi-language speech recognition system
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US5842164A (en) * 1996-10-21 1998-11-24 Batl Software Systems Ltd. Dynamic pattern recognition system
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition

Also Published As

Publication number Publication date
WO1998028733A1 (en) 1998-07-02
DE69720224T2 (de) 2003-12-04
DE69720224D1 (de) 2003-04-30
EP0920692B1 (en) 2003-03-26
US6078883A (en) 2000-06-20
EP0920692A1 (en) 1999-06-09
CN1216137A (zh) 1999-05-05
KR19990087167A (ko) 1999-12-15

Similar Documents

Publication Publication Date Title
KR100952186B1 (ko) 악곡들을 식별하는 방법
EP0789349B1 (en) Pattern matching method and apparatus thereof
US7197460B1 (en) System for handling frequently asked questions in a natural language dialog service
US5530950A (en) Audio data processing
US6694295B2 (en) Method and a device for recognizing speech
US6864809B2 (en) Korean language predictive mechanism for text entry by a user
EP1556854B1 (en) Method for statistical analysis of speech
US20060143007A1 (en) User interaction with voice information services
EP1021804A1 (en) System and method for developing interactive speech applications
EP1317749A1 (en) Method of and system for improving accuracy in a speech recognition system
JP2000506633A (ja) 音声認識システムを訓練する方法及びこの方法を実施する機器、特に、携帯電話機
EP0472193A2 (en) Translation device based on voice recognition and voice synthesis
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
US6069618A (en) Data processing device and method for processing data
CN109948155A (zh) 一种多意图的选择方法及装置、终端设备
US20060149545A1 (en) Method and apparatus of speech template selection for speech recognition
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム
JP3615309B2 (ja) データ検索装置および方法、情報記憶媒体
JP2001265205A (ja) 携帯型通信端末およびデータ配信システム
CN113516963A (zh) 音频数据的生成方法、装置、服务器和智能音箱
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
JPS6327898A (ja) キ−ワ−ド入力方法
JP6508567B2 (ja) カラオケ装置、カラオケ装置用プログラム、およびカラオケシステム
Resnick et al. The design spaces of audio menus and forms
JPH04344930A (ja) 音声ガイダンス出力方式