JP5423670B2 - 音響モデル学習装置および音声認識装置 - Google Patents
音響モデル学習装置および音声認識装置 Download PDFInfo
- Publication number
- JP5423670B2 JP5423670B2 JP2010510052A JP2010510052A JP5423670B2 JP 5423670 B2 JP5423670 B2 JP 5423670B2 JP 2010510052 A JP2010510052 A JP 2010510052A JP 2010510052 A JP2010510052 A JP 2010510052A JP 5423670 B2 JP5423670 B2 JP 5423670B2
- Authority
- JP
- Japan
- Prior art keywords
- variation
- model
- acoustic model
- unspecified
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 45
- 230000009466 transformation Effects 0.000 claims description 17
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 14
- 230000006978 adaptation Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 30
- 238000003860 storage Methods 0.000 description 59
- 238000013500 data storage Methods 0.000 description 22
- 230000014509 gene expression Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Description
D. A. Reynolds, "Channel robust speaker verification via feature mapping," Proc. ICASSP2003, Vol.II, pp.53−56, 2003 D. Zhu et al., "A generalized feature transformation approach for channel robust speaker verification," Proc. ICASSP2007, Vol.IV, pp.61−64, 2007 T. Anastasakos et al., "A compact model for speaker-adaptive training," Proc. ICSLP96, 1996
第2の音声変換部は、本発明の上記態様の音響モデル学習装置により得られた各第2の変動モデルのうちの、所定種類の第2の音環境を介して取得された認識対象の音声データの当該所定種類に対応した第2の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す。
12 チャネルラベル記憶手段 13 不特定話者モデル学習手段
14 チャネルモデル学習手段 15 不特定話者モデル記憶手段
16 チャネルモデル記憶手段 100 音響モデル学習装置
110 サンプルデータ記憶部 120 第1の変動モデル学習部
130 第2の変動モデル学習部 140 不特定音響モデル学習部
200 音響モデル学習装置 212 サンプルデータ記憶部
214 話者ラベル記憶部 216 チャネルラベル記憶部
220 話者の変動モデル学習部 230 チャネルの変動モデル学習部
240 不特定音響モデル学習部 252 話者の変動モデル記憶部
254 チャネルの変動モデル記憶部 256 不特定音響モデル記憶部
300 音声認識装置 312 チャネル入力部
314 音声入力部 324 チャネルの変動モデル記憶部
326 不特定音響モデル記憶部 330 音声変換部
340 音声認識部 400 音声認識装置
412 チャネル入力部 414 音声入力部
422 チャネルの変動モデル記憶部 424 話者の変動モデル記憶部
426 不特定音響モデル記憶部 430 第2の音声変換部
440 第1の音声変換部 450 話者識別部
図1は、本発明にかかる技術に基づく音響モデル学習装置100の模式図の例である。音響モデル学習装置100は、サンプルデータ記憶部110と、第1の変動モデル学習部120と、第2の変動モデル学習部130と、不特定音響モデル学習部140を備える。
不特定音響モデル学習部140は、不特定音響モデルを初期化して、サンプルデータ記憶部110に記憶された各サンプルデータおよび2種類の音環境ラベルを読み出して、不特定音響モデルのパラメータを更新する。この不特定音響モデルは、従来知られているガウス混合モデル(GMM)や隠れマルコフモデル(HMM)などを用いることができる。以下の説明においてGMMを例にするが、他のモデルを用いた場合も同様の動作を導出することができる。
第1の変動モデル学習部120は、各第1の変動モデルを初期化して、サンプルデータ記憶部110に記憶されたサンプルデータと音環境ラベルAを読み出してモデルパラメータを更新する。第1の変動モデルのモデルパラメータは、例えば式(3)に示すアフィン変換のパラメータセット{Vi、λi|i=1,2,・・・,N}(N:第1の音環境の種類の数)を用いることができる。
また、パラメータθの更新は、最尤推定法以外にも、よく知られた最大事後確率(MAP)推定法、ベイズ推定法などの手法により行うことができる。
<第1の実施の形態>
図5は、本発明の第1の実施の形態にかかる音響モデル学習装置200を示す。音響モデル学習装置200は、サンプルデータ記憶部212と、話者ラベル記憶部214と、チャネルラベル記憶部216と、話者の変動モデル学習部220と、チャネルの変動モデル学習部230と、不特定音響モデル学習部240と、話者の変動モデル記憶部252と、チャネルの変動モデル記憶部254と、不特定音響モデル記憶部256を備える。
チャネルの変動モデル学習部230は、音響モデル学習装置100の第2の変動モデル学習部130に対応する。ここで、チャネルが第2の音環境であり、チャネルの変動モデル学習部230は、チャネル毎の第2の変動モデルを得る。この第2の変動モデルを以下チャネルの変動モデルという。
<第2の実施の形態>
図6は、本発明の第2の実施の形態にかかる音声認識装置300を示す。この音声認識装置300は、チャネル入力部312と、音声入力部314と、チャネルの変動モデル記憶部324と、不特定音響モデル記憶部326と、音声変換部330と、音声認識部340を備える。
チャネル入力部312は、音声入力部314により入力される音声データが通ったチャネルを示すラベルを入力する。なお、チャネル入力部312が入力するラベルは、チャネルの種類を示すデータであり、チャネルの変動モデル記憶部324に記憶されたチャネル毎のモデルを指定することができれば、ラベルに限られず、任意の名前や番号でもよい。
<第3の実施の形態>
なお、話者識別部450による類似度Siの算出は、例えば下記の式(19)に従って行うことができる。
Claims (13)
- 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習部と、
前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習部と、
前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習部とを備え、
各前記学習部は、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習装置。 - 各前記学習部は、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項1に記載の音響モデル学習装置。
- 各前記学習部は、最尤推定法、最大事後確率推定法、及びベイズ推定法のいずれかに基づく反復解法を用いてパラメータを推定することを特徴とする請求項1または2に記載の音響モデル学習装置。
- 前記第1の変動モデルと前記第2の変動モデルは、アフィン変換で定義されることを特徴とする請求項3に記載の音響モデル学習装置。
- 前記不特定音響モデルは、ガウス混合モデルまたは隠れマルコフモデルであることを特徴とする請求項3または4に記載の音響モデル学習装置。
- 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第1の変動モデルのうちの、所定種類の前記第1の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第1の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。 - 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第2の変動モデルのうちの、所定種類の前記第2の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第2の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。 - 請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第2の変動モデルのうちの、所定種類の前記第2の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第2の変動モデルが示す変動と逆の変換を、前記音声データに対して施す第2の音声変換部と、
請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた各前記第1の変動モデルが示す変動と逆の変換を、前記第2の音声変換部により得た音声データに対して夫々行って複数の音声データを得る第1の音声変換部と、
該第1の音声変換部が得た前記複数の音声データと、請求項1から5のいずれか1項に記載の音響モデル学習装置により得られた不特定音響モデルとを用いて、前記認識対象の音声データが通った第1の環境要因の種類を識別する識別部とを備えることを特徴とする音環境認識装置。 - 前記第1の環境要因は話者であり、前記第2の環境要因は伝送チャネルであることを特徴とする請求項8に記載の音環境認識装置。
- 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習工程と、
前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習工程と、
前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習工程とを備え、
各前記音響モデル学習工程は、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習方法。 - 各前記音響モデル学習工程は、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項10に記載の音響モデル学習方法。
- 変化することにより音声に変動を生じさせる複数の環境要因のうちの1つである第1の環境要因の複数の種類のうちのいずれか1種と、前記複数の環境要因のうちの別の1つである第2の環境要因の複数の種類のうちのいずれか1種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第1の環境要因の種類毎に、音声の変動を示す第1の変動モデルを規定するパラメータを推定する第1の変動モデル学習ステップと、
前記複数のサンプル音声データを用いて、前記第2の環境要因の種類毎に、音声の変動を示す第2の変動モデルを規定するパラメータを推定する第2の変動モデル学習ステップと、
前記複数のサンプル音声データを用いて、前記第1の環境要因の種類と前記第2の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習ステップとをコンピュータに実行せしめるプログラムであって、
各前記音響モデル学習ステップは、前記第1の変動モデルの前記サンプル音声データへの適合度と、前記第2の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とするプログラム。 - 各前記音響モデル学習ステップは、前記第1の変動モデルと前記第2の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項12に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010510052A JP5423670B2 (ja) | 2008-04-30 | 2009-02-10 | 音響モデル学習装置および音声認識装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008118662 | 2008-04-30 | ||
JP2008118662 | 2008-04-30 | ||
PCT/JP2009/052193 WO2009133719A1 (ja) | 2008-04-30 | 2009-02-10 | 音響モデル学習装置および音声認識装置 |
JP2010510052A JP5423670B2 (ja) | 2008-04-30 | 2009-02-10 | 音響モデル学習装置および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009133719A1 JPWO2009133719A1 (ja) | 2011-08-25 |
JP5423670B2 true JP5423670B2 (ja) | 2014-02-19 |
Family
ID=41254942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010510052A Active JP5423670B2 (ja) | 2008-04-30 | 2009-02-10 | 音響モデル学習装置および音声認識装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8751227B2 (ja) |
JP (1) | JP5423670B2 (ja) |
WO (1) | WO2009133719A1 (ja) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8819554B2 (en) | 2008-12-23 | 2014-08-26 | At&T Intellectual Property I, L.P. | System and method for playing media |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US9818427B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Automatic self-utterance removal from multimedia files |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11741398B2 (en) | 2018-08-03 | 2023-08-29 | Samsung Electronics Co., Ltd. | Multi-layered machine learning system to support ensemble learning |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11315553B2 (en) * | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN115171654B (zh) * | 2022-06-24 | 2024-07-19 | 中国电子科技集团公司第二十九研究所 | 一种改进的基于总变化量因子的语种识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175678A (ja) * | 1992-07-30 | 1994-06-24 | Nec Corp | 音声認識装置 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003099082A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9706174D0 (en) * | 1997-03-25 | 1997-11-19 | Secr Defence | Recognition system |
US6230122B1 (en) * | 1998-09-09 | 2001-05-08 | Sony Corporation | Speech detection with noise suppression based on principal components analysis |
US6134524A (en) * | 1997-10-24 | 2000-10-17 | Nortel Networks Corporation | Method and apparatus to detect and delimit foreground speech |
US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
US6826528B1 (en) * | 1998-09-09 | 2004-11-30 | Sony Corporation | Weighted frequency-channel background noise suppressor |
US6173258B1 (en) * | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6233556B1 (en) * | 1998-12-16 | 2001-05-15 | Nuance Communications | Voice processing and verification system |
US6766295B1 (en) * | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US7219058B1 (en) * | 2000-10-13 | 2007-05-15 | At&T Corp. | System and method for processing speech recognition results |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
US6915259B2 (en) * | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US6934364B1 (en) * | 2002-02-28 | 2005-08-23 | Hewlett-Packard Development Company, L.P. | Handset identifier using support vector machines |
-
2009
- 2009-02-10 JP JP2010510052A patent/JP5423670B2/ja active Active
- 2009-02-10 WO PCT/JP2009/052193 patent/WO2009133719A1/ja active Application Filing
- 2009-02-10 US US12/921,062 patent/US8751227B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175678A (ja) * | 1992-07-30 | 1994-06-24 | Nec Corp | 音声認識装置 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003099082A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 |
Non-Patent Citations (4)
Title |
---|
CSNG200000598010; 山口 義和: 'Taylor展開による音響モデルの適応' 情報処理学会研究報告 Vol.96 No.123 , 社団法人情報処理学会 * |
CSNG200501506003; 秋田 祐哉: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 (J88-D-II) 第9号 , 社団法人電子情報通信学会 * |
JPN6013044265; 秋田 祐哉: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 (J88-D-II) 第9号 , 社団法人電子情報通信学会 * |
JPN6013044266; 山口 義和: 'Taylor展開による音響モデルの適応' 情報処理学会研究報告 Vol.96 No.123 , 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
US8751227B2 (en) | 2014-06-10 |
US20110046952A1 (en) | 2011-02-24 |
JPWO2009133719A1 (ja) | 2011-08-25 |
WO2009133719A1 (ja) | 2009-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US8566093B2 (en) | Intersession variability compensation for automatic extraction of information from voice | |
Li et al. | An overview of noise-robust automatic speech recognition | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP2005062866A (ja) | コンパクトな音響モデルを作成するためのバブル分割方法 | |
CN111696522B (zh) | 基于hmm和dnn的藏语语音识别方法 | |
JP2019215500A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Tanweer et al. | Analysis of combined use of nn and mfcc for speech recognition | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
JP4004368B2 (ja) | 音声認識システム | |
JP7552898B2 (ja) | 学習方法、検出方法、それらの装置、およびプログラム | |
Kumar | Feature normalisation for robust speech recognition | |
Debnath et al. | Automatic speech recognition based on clustering technique | |
Gody et al. | Novel Image PreprocessingApproach for Automatic Speech Recognition | |
JP2013178343A (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP3412501B2 (ja) | タスク適応化装置及び音声認識装置 | |
Chen et al. | Estimation of Window Coefficients for Dynamic Feature Extraction for HMM-Based Speech Synthesis. | |
Kannadaguli et al. | Multivariate gaussian mixture model based automatic phoneme recognizer for kannada |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5423670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |