JP4546555B2 - 話し手に暗黙的に順応する技術を用いた音声認識システム - Google Patents
話し手に暗黙的に順応する技術を用いた音声認識システム Download PDFInfo
- Publication number
- JP4546555B2 JP4546555B2 JP2008101180A JP2008101180A JP4546555B2 JP 4546555 B2 JP4546555 B2 JP 4546555B2 JP 2008101180 A JP2008101180 A JP 2008101180A JP 2008101180 A JP2008101180 A JP 2008101180A JP 4546555 B2 JP4546555 B2 JP 4546555B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern matching
- matching score
- acoustic model
- speech recognition
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005516 engineering process Methods 0.000 title description 5
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000001419 dependent effect Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 24
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 41
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Telephone Function (AREA)
- Complex Calculations (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Rabiner, L. R. and Juang, B. H., FUNDAMENTALS OF SPEECH RECOGNITION, Prentice Hall, 1993.
Claims (19)
- 音声認識装置であって、
話し手に依存せず、特定の発声クラスに関連付けられた1又は複数の第1の音響モデルテンプレートを格納する第1の格納部と、
話し手のために生成され話し手に依存し、特定の発声クラスに関連付けられた1又は複数の第2の音響モデルテンプレートを格納する第2の格納部と、
音声認識エンジンと、
管理されていない音声認識学習と音声認識テストを実行するための命令のセットを格納するコンピュータ読み取り可能なメディアとを備え、
前記命令のセットは、
前記話し手からの入力音声と、前記第1及び第2の各音響モデルテンプレートとのパターンマッチングを行い、前記各パターンマッチングの結果として第1及び第2のパターンマッチングスコアをそれぞれ生成し、
同じ発声クラスに関連付けられた前記第1の音響モデルテンプレートについて生成された第1のパターンマッチングスコアと、前記第2の音響モデルテンプレートについて生成された第2のパターンマッチングスコアとを比較し、
前記第1のパターンマッチングスコアの方が、前記第2のパターンマッチングスコアよりも大きい場合には、前記第1のパターンマッチングスコアが生成された前記第1の音響モデルテンプレートを、前記第2の格納部に、新たな第2の音響モデルテンプレートとして格納するように適応された音声認識装置であって、
前記第1のパターンマッチングスコアを生成することはさらに、
前記話し手からの入力音声と、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成することと、
前記話し手からの入力音声と、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成することと、
前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記第1のパターンマッチングスコアを生成することと
を備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手に依存しない音響モデルテンプレートは、少なくとも1つのガーベッジテンプレートを含む音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記命令のセットは更に、
前記話し手からの第2の入力音声のセグメントと、前記第1及び第2の各音響モデルテンプレートとのパターンマッチングを行い、前記パターンマッチングの結果として第3及び第4のパターンマッチングスコアをそれぞれ生成し、前記第3のパターンマッチングスコアと前記第4のパターンマッチングスコアとが結合された少なくとも1つの結合パターンマッチングスコアを生成するように前記音声認識エンジンを設定し、
最良の結合パターンマッチングスコアを持つ、特定の単語又は入力音声のセグメントである発声クラスを認識する
ように適応された音声認識装置。 - 請求項7に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。 - 請求項7に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 請求項7に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。 - 請求項7に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 請求項1に記載の音声認識装置において、
前記話し手からの入力音声のセグメントと、前記第2の音響モデルテンプレートとのパターンマッチングを行い、少なくとも1つの前記第2のパターンマッチングスコアを生成する手段と、
少なくとも1つの前記第1のパターンマッチングスコアを、前記少なくとも1つの前記第2のパターンマッチングスコアと結合し、少なくとも1つの結合パターンマッチングスコアを生成する手段と
を更に備える音声認識装置。 - 請求項12に記載の音声認識装置において、
前記少なくとも1つの前記第2のパターンマッチングスコアを生成する手段と、前記少なくとも1つの結合パターンマッチングスコアを生成する手段とを、前記音声認識エンジン内に組み込んだ音声認識装置。 - 請求項12に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルを備える音声認識装置。 - 請求項12に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 請求項12に記載の音声認識装置において、
前記話し手に依存しない音響モデルは、少なくとも1つのHidden Markov Model音響モデルと、少なくとも1つのDynamic Time Warping音響モデルとを備える音声認識装置。 - 請求項12に記載の音声認識装置において、
前記話し手に依存する音響モデルは、少なくとも1つのDynamic Time Warping音響モデルを備える音声認識装置。 - 音声認識のために、管理されていない学習を実行する方法であって、
第1の入力音声セグメントと、少なくとも1つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行うことと、
前記第1の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第2のパターンマッチングスコアを生成することと、
前記第1のパターンマッチングスコアと、前記第2のパターンマッチングスコアとを比較することと、
前記比較の結果、前記第1のパターンマッチングスコアが、前記第2のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第1の入力音声セグメントから導出される新たなテンプレートと交換することとを備え、
前記少なくとも第1のパターンマッチングスコアを生成することは更に、
前記第1の入力音声セグメントと、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成することと、
前記第1の入力音声セグメントと、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成することと、
前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記少なくとも第1の入力パターンマッチングスコアを生成することと
を備える方法。 - 音声認識のために、管理されてない学習を実行する装置であって、
第1の入力音声セグメントと、少なくとも1つの話し手に依存しない音響テンプレートとのパターンマッチングを行い、少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段と、
前記第1の入力音声セグメントと、前記認識された発声クラスに対応する、話し手に依存するモデルの、格納された音響テンプレートとのパターンマッチングを行い、第2のパターンマッチングスコアを生成し、前記第1のパターンマッチングスコアと、前記第2のパターンマッチングスコアとを比較する手段と、
前記比較の結果、前記第1のパターンマッチングスコアが、前記第2のパターンマッチングスコアよりも大きいのであれば、前記格納された音響テンプレートを、前記第1の入力音声セグメントから導出される新たなテンプレートと交換する手段とを備え、
少なくとも1つの第1のパターンマッチングスコアの生成、および、認識された発声クラスの決定を行う手段はさらに、
前記第1の入力音声セグメントと、少なくとも1つのHidden Markov ModelテンプレートとのHidden Markov Modelパターンマッチングを行い、少なくとも1つのHidden Markov Modelマッチングスコアを生成し、
前記第1の入力音声セグメントと、少なくとも1つのDynamic Time WarpingテンプレートとのDynamic Time Warpingパターンマッチングを行い、少なくとも1つのDynamic Time Warpingマッチングスコアを生成し、
前記少なくとも1つのHidden Markov Modelマッチングスコアと、前記少なくとも1つのDynamic Time Warpingマッチングスコアとについて少なくとも1つの重み加算を行い、前記少なくとも第1の入力パターンマッチングスコアを生成する装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/821,606 US20020143540A1 (en) | 2001-03-28 | 2001-03-28 | Voice recognition system using implicit speaker adaptation |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002578283A Division JP2004530155A (ja) | 2001-03-28 | 2002-03-22 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008203876A JP2008203876A (ja) | 2008-09-04 |
JP4546555B2 true JP4546555B2 (ja) | 2010-09-15 |
Family
ID=25233818
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002578283A Withdrawn JP2004530155A (ja) | 2001-03-28 | 2002-03-22 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2007279235A Expired - Fee Related JP4546512B2 (ja) | 2001-03-28 | 2007-10-26 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2008101180A Expired - Fee Related JP4546555B2 (ja) | 2001-03-28 | 2008-04-09 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2010096043A Pending JP2010211221A (ja) | 2001-03-28 | 2010-04-19 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2013041687A Pending JP2013152475A (ja) | 2001-03-28 | 2013-03-04 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002578283A Withdrawn JP2004530155A (ja) | 2001-03-28 | 2002-03-22 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2007279235A Expired - Fee Related JP4546512B2 (ja) | 2001-03-28 | 2007-10-26 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010096043A Pending JP2010211221A (ja) | 2001-03-28 | 2010-04-19 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
JP2013041687A Pending JP2013152475A (ja) | 2001-03-28 | 2013-03-04 | 話し手に暗黙的に順応する技術を用いた音声認識システム |
Country Status (13)
Country | Link |
---|---|
US (1) | US20020143540A1 (ja) |
EP (3) | EP1850324B1 (ja) |
JP (5) | JP2004530155A (ja) |
KR (6) | KR100933108B1 (ja) |
CN (3) | CN101221759B (ja) |
AT (3) | ATE443316T1 (ja) |
AU (1) | AU2002255863A1 (ja) |
DE (2) | DE60233763D1 (ja) |
DK (1) | DK1374223T3 (ja) |
ES (3) | ES2330857T3 (ja) |
HK (2) | HK1092269A1 (ja) |
TW (1) | TW577043B (ja) |
WO (1) | WO2002080142A2 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
KR20050059766A (ko) * | 2003-12-15 | 2005-06-21 | 엘지전자 주식회사 | 동적 시간 워핑을 이용한 음성 인식 방법 |
GB2409560B (en) | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7440894B2 (en) | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
WO2007105409A1 (ja) * | 2006-02-27 | 2007-09-20 | Nec Corporation | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
US8244545B2 (en) * | 2006-03-30 | 2012-08-14 | Microsoft Corporation | Dialog repair based on discrepancies between user model predictions and speech recognition results |
EP2019985B1 (en) * | 2006-05-12 | 2018-04-04 | Nuance Communications Austria GmbH | Method for changing over from a first adaptive data processing version to a second adaptive data processing version |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
US7552871B2 (en) * | 2006-12-19 | 2009-06-30 | Nordic Id Oy | Method for collecting data fast in inventory systems and wireless apparatus thereto |
US9026444B2 (en) | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
WO2011071484A1 (en) * | 2009-12-08 | 2011-06-16 | Nuance Communications, Inc. | Guest speaker robust adapted speech recognition |
JP2012168477A (ja) * | 2011-02-16 | 2012-09-06 | Nikon Corp | ノイズ推定装置、信号処理装置、撮像装置、及びプログラム |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
CN104700831B (zh) * | 2013-12-05 | 2018-03-06 | 国际商业机器公司 | 分析音频文件的语音特征的方法和装置 |
TWI566107B (zh) * | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US20170011406A1 (en) * | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
WO2017034536A1 (en) * | 2015-08-24 | 2017-03-02 | Ford Global Technologies, Llc | Dynamic acoustic model for vehicle |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
WO2018195185A1 (en) * | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
EP3424046B1 (en) * | 2017-05-12 | 2020-07-08 | Apple Inc. | User-specific acoustic models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
CN111243606B (zh) * | 2017-05-12 | 2023-07-21 | 苹果公司 | 用户特定的声学模型 |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10896673B1 (en) | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
KR102135182B1 (ko) | 2019-04-05 | 2020-07-17 | 주식회사 솔루게이트 | 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 |
KR102263973B1 (ko) | 2019-04-05 | 2021-06-11 | 주식회사 솔루게이트 | 인공지능 기반 일정관리 시스템 |
US11238847B2 (en) * | 2019-12-04 | 2022-02-01 | Google Llc | Speaker awareness using speaker dependent speech model(s) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6045298A (ja) * | 1983-08-22 | 1985-03-11 | 富士通株式会社 | 単語音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
JPH04280299A (ja) * | 1991-03-08 | 1992-10-06 | Ricoh Co Ltd | 音声認識装置 |
JPH05188991A (ja) * | 1992-01-16 | 1993-07-30 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
JPH11282492A (ja) * | 1998-03-26 | 1999-10-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、話者検出装置及び画像記録装置 |
JP2000137495A (ja) * | 1998-10-30 | 2000-05-16 | Toshiba Corp | 音声認識装置および音声認識方法 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3819178A1 (de) | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
JPH01309099A (ja) * | 1987-06-04 | 1989-12-13 | Ricoh Co Ltd | 音声応答装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
JP2989231B2 (ja) * | 1989-10-05 | 1999-12-13 | 株式会社リコー | 音声認識装置 |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
CN1160450A (zh) * | 1994-09-07 | 1997-09-24 | 摩托罗拉公司 | 从连续语音中识别讲话声音的系统及其应用方法 |
JPH08314493A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法,数字列音声認識装置及びビデオレコーダシステム |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6003002A (en) * | 1997-01-02 | 1999-12-14 | Texas Instruments Incorporated | Method and system of adapting speech recognition models to speaker environment |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
-
2001
- 2001-03-28 US US09/821,606 patent/US20020143540A1/en not_active Abandoned
-
2002
- 2002-03-22 EP EP07014802A patent/EP1850324B1/en not_active Expired - Lifetime
- 2002-03-22 DK DK02725288T patent/DK1374223T3/da active
- 2002-03-22 WO PCT/US2002/008727 patent/WO2002080142A2/en active Application Filing
- 2002-03-22 CN CN200710196697.4A patent/CN101221759B/zh not_active Expired - Lifetime
- 2002-03-22 KR KR1020077024058A patent/KR100933108B1/ko not_active IP Right Cessation
- 2002-03-22 AT AT05025989T patent/ATE443316T1/de not_active IP Right Cessation
- 2002-03-22 ES ES05025989T patent/ES2330857T3/es not_active Expired - Lifetime
- 2002-03-22 DE DE60233763T patent/DE60233763D1/de not_active Expired - Lifetime
- 2002-03-22 ES ES02725288T patent/ES2288549T3/es not_active Expired - Lifetime
- 2002-03-22 CN CN028105869A patent/CN1531722B/zh not_active Expired - Fee Related
- 2002-03-22 AT AT02725288T patent/ATE372573T1/de not_active IP Right Cessation
- 2002-03-22 EP EP05025989A patent/EP1628289B1/en not_active Expired - Lifetime
- 2002-03-22 KR KR1020097017621A patent/KR101031717B1/ko not_active IP Right Cessation
- 2002-03-22 KR KR1020097017599A patent/KR101031744B1/ko not_active IP Right Cessation
- 2002-03-22 CN CNA200710196696XA patent/CN101221758A/zh active Pending
- 2002-03-22 KR KR1020077024057A patent/KR100933109B1/ko not_active IP Right Cessation
- 2002-03-22 ES ES07014802T patent/ES2371094T3/es not_active Expired - Lifetime
- 2002-03-22 AT AT07014802T patent/ATE525719T1/de not_active IP Right Cessation
- 2002-03-22 EP EP02725288A patent/EP1374223B1/en not_active Expired - Lifetime
- 2002-03-22 DE DE60222249T patent/DE60222249T2/de not_active Expired - Lifetime
- 2002-03-22 KR KR1020097017648A patent/KR101031660B1/ko not_active IP Right Cessation
- 2002-03-22 AU AU2002255863A patent/AU2002255863A1/en not_active Abandoned
- 2002-03-22 KR KR1020037012775A patent/KR100933107B1/ko not_active IP Right Cessation
- 2002-03-22 JP JP2002578283A patent/JP2004530155A/ja not_active Withdrawn
- 2002-03-26 TW TW091105907A patent/TW577043B/zh not_active IP Right Cessation
-
2006
- 2006-08-14 HK HK06109012.9A patent/HK1092269A1/xx not_active IP Right Cessation
-
2007
- 2007-10-26 JP JP2007279235A patent/JP4546512B2/ja not_active Expired - Fee Related
-
2008
- 2008-04-09 JP JP2008101180A patent/JP4546555B2/ja not_active Expired - Fee Related
- 2008-04-17 HK HK08104363.3A patent/HK1117260A1/xx not_active IP Right Cessation
-
2010
- 2010-04-19 JP JP2010096043A patent/JP2010211221A/ja active Pending
-
2013
- 2013-03-04 JP JP2013041687A patent/JP2013152475A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6045298A (ja) * | 1983-08-22 | 1985-03-11 | 富士通株式会社 | 単語音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
JPH04280299A (ja) * | 1991-03-08 | 1992-10-06 | Ricoh Co Ltd | 音声認識装置 |
JPH05188991A (ja) * | 1992-01-16 | 1993-07-30 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
JPH11282492A (ja) * | 1998-03-26 | 1999-10-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、話者検出装置及び画像記録装置 |
JP2000137495A (ja) * | 1998-10-30 | 2000-05-16 | Toshiba Corp | 音声認識装置および音声認識方法 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4546555B2 (ja) | 話し手に暗黙的に順応する技術を用いた音声認識システム | |
US4618984A (en) | Adaptive automatic discrete utterance recognition | |
US7024359B2 (en) | Distributed voice recognition system using acoustic feature vector modification | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
US20050027527A1 (en) | System and method enabling acoustic barge-in | |
JP2000181482A (ja) | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 | |
JP2002156994A (ja) | 音声認識方法 | |
JPH11511567A (ja) | パターン認識 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JPH06175678A (ja) | 音声認識装置 | |
JP4037709B2 (ja) | 音声認識方法及び音声認識システム | |
JP3105708B2 (ja) | 音声認識装置 | |
Kim et al. | Speaker adaptation techniques for speech recognition with a speaker-independent phonetic recognizer | |
Kim et al. | Iterative training techniques for phonetic template based speech recognition with a speaker-independent phonetic recognizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100701 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |