JP4410265B2 - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法 Download PDFInfo
- Publication number
- JP4410265B2 JP4410265B2 JP2007038657A JP2007038657A JP4410265B2 JP 4410265 B2 JP4410265 B2 JP 4410265B2 JP 2007038657 A JP2007038657 A JP 2007038657A JP 2007038657 A JP2007038657 A JP 2007038657A JP 4410265 B2 JP4410265 B2 JP 4410265B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- shared
- input speech
- model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 68
- 238000013145 classification model Methods 0.000 claims abstract description 56
- 238000009826 distribution Methods 0.000 claims description 99
- 230000007704 transition Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Description
(第1の実施形態)
図1に示されるように、本実施形態に従う音声認識装置は、音声入力部101、特徴量抽出部102、第1の音声認識部103、グループ尤度計算部104、グループ選択部105、第2の音声認識部106、第1の音響モデル記憶部111、分類モデル記憶部112、上位候補記憶部116及び第2音響モデル記憶部117を有する。第1の音響モデル記憶部111は、第1音響モデルの非共有パラメータ記憶部113と共有パラメータ記憶部114を含む。分類モデル記憶部112は、共有パラメータ記憶部114及び分類モデルの非共有パラメータ記憶部115を含む。
第1音響モデルとしてHMMを用いる場合、第1音響モデルのパラメータは例えばモデル構造、状態遷移確率、分布、及び分布に対して与える重み係数を含む。HMMを用いる音声認識では、最終的な尤度は遷移確率と出力確率を掛け合わせることで算出される。出力確率分布の例としては、以下のような混合正規分布モデル、例えばガウス混合モデル(Gaussian mixture model;GMM)f(O)を用いるが、これに限られるものではない。
図6に示される本発明の第2の実施形態に従う音声認識装置では、グループ尤度計算部104の処理が異なる。図6において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
図7に示されるように、本発明の第3の実施形態に従う音声認識装置では、図6に示す第2の実施形態におけるグループ尤度計算部の機能を第1の音声認識部703に持たせており、これに伴いグループ選択部105の処理が異なっている。図7において図6と同一部分には同一符号を付して示して詳細な説明を省略し、図6と異なる部分を中心に述べる。
次に、本発明の第4の実施形態について説明する。本実施形態において、分類モデルは混合正規分布モデルであって、第1音響モデルの出力確率分布と全ての分布を共有する。尚、第2の実施形態の構成を示す図6及び第3の実施形態の構成を示す図7はいずれも本実施形態に流用できる。
102・・・特徴量抽出部
103・・・第1の音声認識部
104・・・グループ尤度計算部
105・・・グループ選択部
106・・・第2の音声認識部
111・・・第1の音響モデル記憶部
112・・・分類モデル記憶部
113・・・非共有パラメータ記憶部
114・・・共有パラメータ記憶部
115・・・非共有パラメータ記憶部
116・・・上位候補記憶部
117・・・第2の音響モデル記憶部
604・・・グループ尤度計算部
703・・・第1の音声認識部
705・・・グループ選択部
Claims (8)
- 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶部と;
入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識部と;
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算部と;
前記第2尤度が最大のグループを選択する選択部と;
前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
を具備することを特徴とする音声認識装置。 - 前記共有のパラメータは、前記分類モデルの少なくとも一つの出力確率分布である共有出力確率分布を算出するための共有平均ベクトル及び共有分散共分散行列を含み、
前記計算部は、前記第1の音声認識部から前記共有のパラメータに関する計算結果として前記入力音声の特徴量、前記共有平均ベクトル及び前記共有分散共分散行列を用いて算出された第1の正規分布を取得して当該第1の正規分布に重み係数を乗じて混合することにより前記共有出力確率分布を計算し、前記入力音声の特徴量に前記非共有のパラメータに含まれる非共有平均ベクトル及び非共有分散共分散行列を用いて第2の正規分布を計算して当該第2正規分布に重み係数を乗じて混合することにより前記共有出力確率分布以外の非共有出力確率分布を計算し、前記共有出力確率分布及び前記非共有出力確率分布に夫々遷移確率を乗じて前記第2尤度を計算することを特徴とする請求項1記載の音声認識装置。 - 前記分類モデルは、構造及び遷移確率が前記第1音響モデルと等しく、かつ、全ての出力確率分布において前記第1音響モデルと平均ベクトル及び分散共分散行列を前記共有のパラメータとすることを特徴とする請求項1記載の音声認識装置。
- 話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、前記第1音響モデルと共有のパラメータとして、構造、遷移確率、及び全ての出力確率分布における平均ベクトル及び分散共分散行列を有し、また、非共有のパラメータとして分布の重み係数を有し、前記第2音響モデルを複数グループに分類するための、分類モデルを記憶する第3の記憶部と;
入力音声に対する第1尤度が相対的に大きい複数の単語候補及び前記入力音声に対する前記複数グループの第2尤度を得るために、入力音声に対して前記第1音響モデル及び前記分類モデルの非共有パラメータを用いて音声認識を行う第1の認識部と;
前記第2尤度が最大のグループを選択する選択部と;
前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該計算した第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
を具備することを特徴とする音声認識装置。 - 前記第1の認識部は、入力音声の特徴量及び前記共有のパラメータを用いて正規分布を計算して、第1音響モデルの重み係数を乗じて混合し、遷移確率を乗じて入力音声に対する単語候補の第1尤度を計算すると同時に、各グループに対応する重み係数を当該正規分布に乗じて混合し、遷移確率を乗じて各グループの第2尤度を並行して計算することを特徴とする請求項4記載の音声認識装置。
- 話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
前記第2音響モデルを複数グループに分類するための混合正規分布モデルであって、前記第1音響モデルの出力確率分布と全ての分布を共有のパラメータとして有し、前記共有パラメータ以外の非共有のパラメータを有する分類モデルを記憶する第3の記憶部と;
入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識部と;
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算部と;
前記第2尤度が最大のグループを選択する選択部と;
前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
を具備することを特徴とする音声認識装置。 - 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶ステップと;
特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶ステップと;
前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶ステップと;
入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識ステップと;
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算ステップと;
前記第2尤度が最大のグループを選択する選択ステップと;
前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識ステップと;
を含む音声認識方法。 - 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶処理と;
特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶処理と;
前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルとの共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶処理と;
入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識処理と;
前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算処理と;
前記第2尤度が最大のグループを選択する選択処理と;
前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識処理と;
を含む音声認識処理をコンピュータに行わせるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007038657A JP4410265B2 (ja) | 2007-02-19 | 2007-02-19 | 音声認識装置及び方法 |
US11/857,104 US7921012B2 (en) | 2007-02-19 | 2007-09-18 | Apparatus and method for speech recognition using probability and mixed distributions |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007038657A JP4410265B2 (ja) | 2007-02-19 | 2007-02-19 | 音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008203469A JP2008203469A (ja) | 2008-09-04 |
JP4410265B2 true JP4410265B2 (ja) | 2010-02-03 |
Family
ID=39707409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007038657A Expired - Fee Related JP4410265B2 (ja) | 2007-02-19 | 2007-02-19 | 音声認識装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7921012B2 (ja) |
JP (1) | JP4410265B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
EP2192575B1 (en) * | 2008-11-27 | 2014-04-30 | Nuance Communications, Inc. | Speech recognition based on a multilingual acoustic model |
WO2011071484A1 (en) * | 2009-12-08 | 2011-06-16 | Nuance Communications, Inc. | Guest speaker robust adapted speech recognition |
JP5585111B2 (ja) * | 2010-02-16 | 2014-09-10 | 日本電気株式会社 | 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US9099096B2 (en) | 2012-05-04 | 2015-08-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis with moving constraint |
US8886526B2 (en) | 2012-05-04 | 2014-11-11 | Sony Computer Entertainment Inc. | Source separation using independent component analysis with mixed multi-variate probability density function |
US8880395B2 (en) | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
KR20170034227A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
CN108573706B (zh) * | 2017-03-10 | 2021-06-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
US20190115028A1 (en) * | 2017-08-02 | 2019-04-18 | Veritone, Inc. | Methods and systems for optimizing engine selection |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
KR102570070B1 (ko) | 2018-12-27 | 2023-08-23 | 삼성전자주식회사 | 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치 |
US11043218B1 (en) * | 2019-06-26 | 2021-06-22 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
US11132990B1 (en) * | 2019-06-26 | 2021-09-28 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
JP7395446B2 (ja) * | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3176210B2 (ja) | 1994-03-22 | 2001-06-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識方法及び音声認識装置 |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
JP4233831B2 (ja) | 2002-09-25 | 2009-03-04 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
US20050216266A1 (en) * | 2004-03-29 | 2005-09-29 | Yifan Gong | Incremental adjustment of state-dependent bias parameters for adaptive speech recognition |
-
2007
- 2007-02-19 JP JP2007038657A patent/JP4410265B2/ja not_active Expired - Fee Related
- 2007-09-18 US US11/857,104 patent/US7921012B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008203469A (ja) | 2008-09-04 |
US20080201136A1 (en) | 2008-08-21 |
US7921012B2 (en) | 2011-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4410265B2 (ja) | 音声認識装置及び方法 | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
US8510111B2 (en) | Speech recognition apparatus and method and program therefor | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US20100131262A1 (en) | Speech Recognition Based on a Multilingual Acoustic Model | |
JP5861649B2 (ja) | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP4922225B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
JP6632764B2 (ja) | 意図推定装置及び意図推定方法 | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP4901657B2 (ja) | 音声認識装置、その方法、そのプログラム、その記録媒体 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP4678464B2 (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP2008083367A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2008216672A (ja) | 話者適応化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |