JP2002536691A5 - - Google Patents

Download PDF

Info

Publication number
JP2002536691A5
JP2002536691A5 JP2000597792A JP2000597792A JP2002536691A5 JP 2002536691 A5 JP2002536691 A5 JP 2002536691A5 JP 2000597792 A JP2000597792 A JP 2000597792A JP 2000597792 A JP2000597792 A JP 2000597792A JP 2002536691 A5 JP2002536691 A5 JP 2002536691A5
Authority
JP
Japan
Prior art keywords
score
recognition system
speech recognition
difference
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000597792A
Other languages
English (en)
Other versions
JP4643011B2 (ja
JP2002536691A (ja
Filing date
Publication date
Priority claimed from US09/248,513 external-priority patent/US6574596B2/en
Application filed filed Critical
Publication of JP2002536691A publication Critical patent/JP2002536691A/ja
Publication of JP2002536691A5 publication Critical patent/JP2002536691A5/ja
Application granted granted Critical
Publication of JP4643011B2 publication Critical patent/JP4643011B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Claims (40)

  1. 第1のスコアを生成するために発話を第1の記憶された単語と比較し、
    第2のスコアを生成するために発話を第2の記憶された単語と比較し、
    第1のスコアと第2のスコアとの間の差を決定し、
    その差に対する第1のスコアの比を決定し、
    その比に基づいて発話を処理するステップを含んでいる音声認識システムにおける発話捕捉方法。
  2. 差に対する第1のスコアの比が第1の値の範囲内に入っている場合、その発話を受入れ、
    差に対する第1のスコアの比が第2の値の範囲内に入っている場合、その発話を確認するためにNベストアルゴリズムを適用し、
    差に対する第1のスコアの比が第3の値の範囲内に入っている場合、その発話を除去するステップをさらに含んでいる請求項1記載の方法。
  3. 差は第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項1記載の方法。
  4. 第1の記憶された単語は、音声認識システムの語彙の中でベストな候補を含み、第2の記憶された単語は音声認識システムの語彙の中で2番目にベストな候補を含んでいる請求項1記載の方法。
  5. 第1のスコアは最も近い比較結果を含み、第2のスコアは2番目に最も近い比較結果を含んでいる請求項1記載の方法。
  6. 第1のスコアおよび第2のスコアは、線形予測符号化係数を含んでいる請求項1記載の方法。
  7. 第1のスコアおよび第2のスコアは、ケプストラム係数を含んでいる請求項1記載の方法。
  8. 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力を含んでいる請求項1記載の方法。
  9. 第1、第2および第3の値の範囲は、第1のスコアと差との間の線形関係を規定する請求項1記載の方法。
  10. 差は、最も近い比較結果と2番目に近い比較結果との間の差を含んでいる請求項1記載の方法。
  11. 発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出するように構成された音響プロセッサと、
    この音響プロセッサに結合されたプロセッサとを具備しており、
    前記プロセッサは、
    第1のスコアを生成するために発話を第1の記憶された単語と比較し、
    第2のスコアを生成するために発話を第2の記憶された単語と比較し、
    第1のスコアと第2のスコアとの間の差を決定し、
    その差に対する第1のスコアの比を決定し、
    その関係に基づいて発話を処理するように構成されている音声認識システム。
  12. プロセッサはさらに、
    差に対する第1のスコアの比が第1の値の範囲内に入っている場合、その発話を受入れ、
    差に対する第1のスコアの比が第2の値の範囲内に入っている場合、その発話を確認するためにNベストアルゴリズムを適用し、
    差に対する第1のスコアの比が第3の値の範囲内に入っている場合、その発話を除去するように構成されている請求項11記載の音声認識システム。
  13. 差は第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項11記載の音声認識システム。
  14. 第1の記憶された単語は音声認識システムの語彙の中でベストな候補を含み、第2の記憶された単語は音声認識システムの語彙の中で2番目にベストな候補を含んでいる請求項11記載の音声認識システム。
  15. 第1のスコアは最も近い比較結果を含み、第2のスコアは2番目に最も近い比較結果を含んでいる請求項11記載の音声認識システム。
  16. 第1および第2のスコアは、線形予測符号化係数を含んでいる請求項11記載の音声認識システム。
  17. 第1のスコアおよび第2のスコアは、ケプストラム係数を含んでいる請求項11記載の音声認識システム。
  18. 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力を含んでいる請求項11記載の音声認識システム。
  19. 第1、第2および第3の値の範囲は、第1のスコアと差との間の線形関係を規定する請求項12記載の音声認識システム。
  20. 差は、最も近い比較結果と2番目に最も近い比較結果との間の差を含んでいる請求項11記載の音声認識システム。
  21. 第1のスコアを生成するために発話を第1の記憶された単語と比較する手段と、
    第2のスコアを生成するために発話を第2の記憶された単語と比較する手段と、
    第1のスコアと第2のスコアとの間の差を決定する手段と、
    その差に対する第1のスコアの比を決定する手段と、
    その関係に基づいて発話を処理する手段とを具備している音声認識システム。
  22. さらに、差に対する第1のスコアの比が第1の値の範囲内に入っている場合、その発話を受入れる手段と、
    差に対する第1のスコアの比が第2の値の範囲内に入っている場合、その発話を確認するためにNベストアルゴリズムを適用する手段と、
    差に対する第1のスコアの比が第3の値の範囲内に入っている場合、その発話を除去する手段を含んでいる請求項21記載の音声認識システム。
  23. 第1、第2および第3の値の範囲は、第1のスコアと差との間の線形関係を規定する請求項22記載の音声認識システム。
  24. 差は、第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項21記載の音声認識システム。
  25. 第1の記憶された単語は音声認識システムの語彙の中でベストな候補を含み、第2の記憶された単語は音声認識システムの語彙の中で2番目にベストな候補を含んでいる請求項21記載の音声認識システム。
  26. 第1のスコアは最も近い比較結果を含み、第2のスコアは2番目に最も近い比較結果を含んでいる請求項21記載の音声認識システム。
  27. 第1のスコアおよび第2のスコアは、線形予測符号化係数を含んでいる請求項21記載の音声認識システム。
  28. 第1のスコアおよび第2のスコアは、ケプストラム係数を含んでいる請求項21記載の音声認識システム。
  29. 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力を含んでいる請求項21記載の音声認識システム。
  30. 差は、最も近い比較結果と2番目に最も近い比較結果との間の差を含んでいる請求項21記載の音声認識システム。
  31. 発話のデジタル化されたスピーチサンプルからスピーチパラメータを抽出する手段と、
    第1のスコアを生成するために発話を第1の記憶された単語と比較し、
    第2のスコアを生成するために発話を第2の記憶された単語と比較し、
    第1のスコアと第2のスコアとの間の差を決定し、
    その差に対する第1のスコアの比を決定し、
    その関係に基づいて発話を処理する手段とを具備している音声認識システム。
  32. さらに、差に対する第1のスコアの比が第1の値の範囲内に入っている場合、その発話を受入れ、
    差に対する第1のスコアの比が第2の値の範囲内に入っている場合、その発話に対してNベストアルゴリズムを適用し、
    差に対する第1のスコアの比が第3の値の範囲内に入っている場合、その発話を除去する手段を含んでいる請求項31記載の音声認識システム。
  33. 差は、最も近い比較結果と2番目に最も近い比較結果との間の差を含んでいる請求項31記載の音声認識システム。
  34. 差は、第1のスコアと第2のスコアとの間のスコアの変化に対応している請求項31記載の音声認識システム。
  35. 第1の記憶された単語は、音声認識システムの語彙の中でベストな候補を含み、第2の記憶された単語は音声認識システムの語彙の中で2番目にベストな候補を含んでいる請求項31記載の音声認識システム。
  36. 第1のスコアは最も近い比較結果を含み、第2のスコアは1以上の2番目に最も近い比較結果を含んでいる請求項31記載の音声認識システム。
  37. 第1のスコアおよび第2のスコアは、線形予測符号化係数を含んでいる請求項31記載の音声認識システム。
  38. 第1のスコアおよび第2のスコアは、ケプストラム係数を含んでいる請求項31記載の音声認識システム。
  39. 第1のスコアおよび第2のスコアは、バンドパスフィルタ出力を含んでいる請求項31記載の音声認識システム。
  40. 第1、第2および第3の値の範囲は、第1のスコアと差との間の線形関係を規定する請求項32記載の音声認識システム。
JP2000597792A 1999-02-08 2000-02-04 音声認識除去方式 Expired - Lifetime JP4643011B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/248,513 1999-02-08
US09/248,513 US6574596B2 (en) 1999-02-08 1999-02-08 Voice recognition rejection scheme
PCT/US2000/002903 WO2000046791A1 (en) 1999-02-08 2000-02-04 Voice recognition rejection scheme

Publications (3)

Publication Number Publication Date
JP2002536691A JP2002536691A (ja) 2002-10-29
JP2002536691A5 true JP2002536691A5 (ja) 2005-04-28
JP4643011B2 JP4643011B2 (ja) 2011-03-02

Family

ID=22939477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000597792A Expired - Lifetime JP4643011B2 (ja) 1999-02-08 2000-02-04 音声認識除去方式

Country Status (11)

Country Link
US (1) US6574596B2 (ja)
EP (1) EP1159735B1 (ja)
JP (1) JP4643011B2 (ja)
KR (1) KR100698811B1 (ja)
CN (1) CN1178203C (ja)
AT (1) ATE362166T1 (ja)
AU (1) AU3589300A (ja)
DE (1) DE60034772T2 (ja)
ES (1) ES2286014T3 (ja)
HK (1) HK1043423B (ja)
WO (1) WO2000046791A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266451B2 (en) * 2001-08-31 2012-09-11 Gemalto Sa Voice activated smart card
US7324942B1 (en) * 2002-01-29 2008-01-29 Microstrategy, Incorporated System and method for interactive voice services using markup language with N-best filter element
US7020337B2 (en) * 2002-07-22 2006-03-28 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in images
JP4454921B2 (ja) * 2002-09-27 2010-04-21 株式会社半導体エネルギー研究所 半導体装置の作製方法
US7344901B2 (en) * 2003-04-16 2008-03-18 Corning Incorporated Hermetically sealed package and method of fabricating of a hermetically sealed package
EP1560354A1 (en) * 2004-01-28 2005-08-03 Deutsche Thomson-Brandt Gmbh Method and apparatus for comparing received candidate sound or video items with multiple candidate reference sound or video items
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
CN102047322B (zh) * 2008-06-06 2013-02-06 株式会社雷特龙 语音识别装置、语音识别方法以及电子设备
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
US11520610B2 (en) * 2017-05-18 2022-12-06 Peloton Interactive Inc. Crowdsourced on-boarding of digital assistant operations
US11182557B2 (en) * 2018-11-05 2021-11-23 International Business Machines Corporation Driving intent expansion via anomaly detection in a modular conversational system

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4567606A (en) 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
FR2571191B1 (fr) 1984-10-02 1986-12-26 Renault Systeme de radiotelephone, notamment pour vehicule automobile
JPS61105671A (ja) 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4991217A (en) 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
US4827520A (en) 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5321840A (en) 1988-05-05 1994-06-14 Transaction Technology, Inc. Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5040212A (en) 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
JP2966852B2 (ja) * 1989-01-24 1999-10-25 キヤノン株式会社 音声処理方法及び装置
US5325524A (en) 1989-04-06 1994-06-28 Digital Equipment Corporation Locating mobile objects in a distributed computer system
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5146538A (en) 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
JP2788658B2 (ja) * 1989-12-01 1998-08-20 株式会社リコー 音声ダイヤル装置
US5280585A (en) 1990-09-28 1994-01-18 Hewlett-Packard Company Device sharing system using PCL macros
DK0588932T3 (da) 1991-06-11 2002-03-11 Qualcomm Inc Vokoder med variabel hastighed
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
EP0559349B1 (en) * 1992-03-02 1999-01-07 AT&T Corp. Training method and apparatus for speech recognition
JPH0664478B2 (ja) * 1992-06-05 1994-08-22 カシオ計算機株式会社 パターン認識装置
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5566272A (en) 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5819221A (en) * 1994-08-31 1998-10-06 Texas Instruments Incorporated Speech recognition using clustered between word and/or phrase coarticulation
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
JP4180110B2 (ja) * 1995-03-07 2008-11-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
JPH0954597A (ja) * 1995-08-11 1997-02-25 Matsushita Joho Syst Kk 項目入力装置
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6094476A (en) 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method

Similar Documents

Publication Publication Date Title
JP2002536691A5 (ja)
JP2963142B2 (ja) 信号処理方法
Huang et al. Microsoft Windows highly intelligent speech recognizer: Whisper
US6671669B1 (en) combined engine system and method for voice recognition
US7957959B2 (en) Method and apparatus for processing speech data with classification models
US6574596B2 (en) Voice recognition rejection scheme
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Furui A VQ-based preprocessor using cepstral dynamic features for speaker-independent large vocabulary word recognition
Alam et al. Speech recognition using regularized minimum variance distortionless response spectrum estimation-based cepstral features
Alam et al. A novel feature extractor employing regularized MVDR spectrum estimator and subband spectrum enhancement technique
JP2644494B2 (ja) 不特定話者音声認識装置
JP2731133B2 (ja) 連続音声認識装置
Reyes et al. Three language identification methods based on hmms
JP3090122B2 (ja) 話者照合装置
JPH0997095A (ja) 音声認識装置
JP2664136B2 (ja) 音声認識装置
Kim et al. Improvement of emotion recognition from voice by separating of obstruents
Sultana et al. Automatic speech recognition system
JP3357752B2 (ja) パターンマッチング装置
Furui A VQ-based preprocessor using cepstral dynamic features for large vocabulary word recognition
Hoshimi et al. Speaker independent speech recognition method using training speech from a small number of speakers
JP3704080B2 (ja) 音声認識方法及び音声認識装置並びに音声認識プログラム
Sahu et al. Odia isolated word recognition using DTW
Koizumi et al. Improving the Speaker-Dependency of Subword-Unit-Based Isolated Word Recognition
Jie et al. A recognition algorithm without the ending-point detection of Chinese based on the DTW and HMM unified model