JP2013178343A - 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム - Google Patents
事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP2013178343A JP2013178343A JP2012041441A JP2012041441A JP2013178343A JP 2013178343 A JP2013178343 A JP 2013178343A JP 2012041441 A JP2012041441 A JP 2012041441A JP 2012041441 A JP2012041441 A JP 2012041441A JP 2013178343 A JP2013178343 A JP 2013178343A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- transformation matrix
- space
- feature
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】複数話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトルと全話者データから予め学習された初期音響モデルとを用いてfMLLRにより話者毎に第1変換行列を推定する第1変換行列推定部と、話者毎の第1変換行列を用いて対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、特徴ベクトル変換部により変換された特徴ベクトルを用いて最尤法により音響モデルの学習を行うMLE音響モデル学習部と、特徴ベクトル抽出部で変換された特徴ベクトルとMLE音響モデル学習部により学習された音響モデルとを用いてfMLLRにより話者毎に第2変換行列を推定する第2変換行列推定部と、第2変換行列を用いて行列の多変量正規分布を事前分布として計算する事前分布計算部とを備える。
【選択図】図1
Description
本実施例の事前分布計算装置1は、全話者のデータを用いて予め学習された初期音響モデルと、各話者の入力音声を話者毎に変換した特徴ベクトルに基づいてfMLLR(特徴空間最尤線形回帰)で各話者の変換行列(第1変換行列)を推定する。まず、入力音声から抽出された特徴ベクトルをo(t)と定義する。このとき、o(t)は、t番目のフレームのN次元特徴ベクトルを表す。本実施例の事前分布計算装置1は、この特徴ベクトルo(t)を変換行列を用いて特徴ベクトルo(t)ハットに変換する。変換された特徴ベクトルo(t)ハットは以下のようになる。
本実施例の事前分布計算装置1は、話者1〜話者Sの変換行列を利用して、各話者の特徴ベクトルを変換し、変換された特徴ベクトル(学習データ)を用いて最尤法で音響モデルの学習を行う。音響モデル学習(SAT)のためのQ関数は以下のように定義される。
本実施例の事前分布計算装置1は、MLE音響モデル学習部40で学習された音響モデルを用いて、第1節と同様に、fMLLRで各話者毎の変換行列(第2変換行列)を求める。本実施例の事前分布計算装置1は、求めた各話者の変換行列(第2変換行列)の事前分布(各次元毎の平均と分散)を求める。
本実施例の音声認識装置100は、入力音声を音声認識して、当該音声認識結果を元に(教師なし適応)統計量計算を行なう。統計量計算に際して、実施例1の方法により予め求めた事前分布が反映される。本実施例の音声認識装置100は、計算された統計量から特徴空間とモデル空間での変換行列を推定する。本実施例の音声認識装置100は、推定された特徴空間の変換行列と、モデル空間の変換行列を用いて、N次元特徴ベクトルと音響モデルをそれぞれ更新して再認識を行う。
以下、図5、図6を参照して、実施例2の音声認識装置100の変形例である変形例1の音声認識装置について説明する。図5は本変形例の音声認識装置100’の構成を示すブロック図である。図6は本変形例の音声認識装置100’の動作を示すフローチャートである。本変形例の音声認識装置100’は、実施例2と同様に、実施例1の方法により予め求めた事前分布を共通に用いて特徴空間とモデル空間を同時適応することを特徴とする。本変形例の音声認識装置100’は、特徴ベクトル抽出部110と、特徴ベクトル格納部115と、特徴ベクトル変換部120と、初期変換行列格納部125と、音声認識部130と、認識用データ記憶部140と、認識結果格納部145と、特徴空間統計量計算部150と、特徴空間変換行列推定部155と、木構造決定部160’と、モデル空間統計量計算部170と、モデル空間変換行列推定部175と、音響モデル更新部180と、事前分布記憶部190とを備える。木構造決定部160’以外の各構成部は、実施例2の音声認識装置100において同一の番号を付した各構成部と同一の動作をするため説明を割愛する。
Claims (5)
- 複数の話者の入力音声から話者毎の特徴ベクトルを抽出する特徴ベクトル抽出部と、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定部と、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換部と、
前記特徴ベクトル変換部により変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習部と、
前記特徴ベクトル抽出部で変換された特徴ベクトルと、前記MLE音響モデル学習部により学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定部と、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算部と、
を備えることを特徴とする事前分布計算装置。 - 入力音声から特徴ベクトルを抽出する特徴ベクトル抽出部と、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換部と、
音響モデルを記憶する認識用データ記憶部と、
前記音響モデルと前記特徴ベクトル変換部により変換された特徴ベクトルとを用いて音声認識を行う音声認識部と、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算部と、
前記特徴空間統計量計算部が計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定部と、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算部と、
前記モデル空間統計量計算部が計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定部と、
前記推定されたモデル空間変換行列を用いて前記音響モデルを更新する音響モデル更新部とを備える音声認識装置であって、
前記特徴空間統計量計算部と、前記モデル空間統計量計算部とで共通に用いられる事前分布が、
複数の話者の入力音声を話者毎に特徴ベクトルに変換し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識装置。 - 複数の話者の入力音声を話者毎の特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定する第1変換行列推定ステップと、
前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換する特徴ベクトル変換ステップと、
前記特徴ベクトル変換ステップにより変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行うMLE音響モデル学習ステップと、
前記特徴ベクトル抽出ステップで変換された特徴ベクトルと、前記MLE音響モデル学習ステップにより学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定する第2変換行列推定ステップと、
前記第2の変換行列を用いて行列の多変量正規分布を計算し、当該多変量正規分布を事前分布として、前記事前分布のハイパーパラメータを出力する事前分布計算ステップと、
を有することを特徴とする事前分布計算方法。 - 入力音声から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
単位変換行列からなる初期変換行列、または特徴空間変換行列を用いて前記特徴ベクトルを変換する特徴ベクトル変換ステップと、
音響モデルと前記特徴ベクトル変換ステップにより変換された特徴ベクトルとを用いて音声認識を行う音声認識ステップと、
事前分布のハイパーパラメータを用いて特徴空間の変換行列推定に用いる統計量を計算する特徴空間統計量計算ステップと、
前記特徴空間統計量計算ステップが計算した統計量を用いて特徴空間変換行列を推定する特徴空間変換行列推定ステップと、
前記事前分布のハイパーパラメータを用いてモデル空間の変換行列推定に用いる統計量を計算するモデル空間統計量計算ステップと、
前記モデル空間統計量計算ステップが計算した統計量を用いてモデル空間変換行列を推定するモデル空間変換行列推定ステップと、
前記推定されたモデル空間の変換行列を用いて前記音響モデルを更新する音響モデル更新ステップとを有する音声認識方法であって、
前記特徴空間統計量計算ステップと、前記モデル空間統計量計算ステップとで共通に用いられる事前分布が、
複数の話者の入力音声から話者毎の特徴ベクトルを抽出し、前記特徴ベクトルと、全話者のデータから予め学習された初期音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第1の変換行列を推定し、前記話者毎の第1の変換行列を用いて、対応する話者の特徴ベクトルを変換し、前記第1の変換行列を用いて変換された特徴ベクトルを用いて、最尤法により音響モデルの学習を行い、前記第1の変換行列で変換される前の特徴ベクトルと、前記学習された音響モデルとを用いて特徴空間最尤線形回帰により話者毎に第2の変換行列を推定し、前記第2の変換行列を用いて計算された行列の多変量正規分布であること
を特徴とする音声認識方法。 - コンピュータを、請求項1又は2に記載の装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041441A JP5647159B2 (ja) | 2012-02-28 | 2012-02-28 | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012041441A JP5647159B2 (ja) | 2012-02-28 | 2012-02-28 | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013178343A true JP2013178343A (ja) | 2013-09-09 |
JP5647159B2 JP5647159B2 (ja) | 2014-12-24 |
Family
ID=49270042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012041441A Active JP5647159B2 (ja) | 2012-02-28 | 2012-02-28 | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5647159B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016129110A1 (ja) * | 2015-02-13 | 2016-08-18 | 三菱電機株式会社 | 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4016A (en) * | 1845-04-26 | Improvement in the method of attaching a movable to the stationary keel of a vessel | ||
JPH1185186A (ja) * | 1997-09-08 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者音響モデル生成装置及び音声認識装置 |
JP2002132286A (ja) * | 2000-09-27 | 2002-05-09 | Koninkl Philips Electronics Nv | 音声認識方法 |
JP2011048163A (ja) * | 2009-08-27 | 2011-03-10 | National Institute Of Information & Communication Technology | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
-
2012
- 2012-02-28 JP JP2012041441A patent/JP5647159B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4016A (en) * | 1845-04-26 | Improvement in the method of attaching a movable to the stationary keel of a vessel | ||
JPH1185186A (ja) * | 1997-09-08 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者音響モデル生成装置及び音声認識装置 |
JP2002132286A (ja) * | 2000-09-27 | 2002-05-09 | Koninkl Philips Electronics Nv | 音声認識方法 |
JP2011048163A (ja) * | 2009-08-27 | 2011-03-10 | National Institute Of Information & Communication Technology | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
JPN6014044827; M.J.F.GALES: '"Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition"' Computer Speech and Language , 199705, pp.1-19, Cambridge University Engineering Department * |
JPN6014044828; Olivier SIOHAN, et al.: '"Joint Maximum a Posteriori Adaptation of Transformation and HMM Parameters"' IEEE Transactions on Speech and Audio Processing Vol.9, No.4, 200105, pp.417-428 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016129110A1 (ja) * | 2015-02-13 | 2016-08-18 | 三菱電機株式会社 | 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法 |
JPWO2016129110A1 (ja) * | 2015-02-13 | 2017-05-25 | 三菱電機株式会社 | 音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5647159B2 (ja) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7023934B2 (ja) | 音声認識方法及び装置 | |
EP3479377B1 (en) | Speech recognition | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US20120130716A1 (en) | Speech recognition method for robot | |
WO2019163849A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP2007279444A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP2019159823A (ja) | 学習プログラム、学習方法および学習装置 | |
JP2020034882A (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
Mirsamadi et al. | A study on deep neural network acoustic model adaptation for robust far-field speech recognition. | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
US20150046377A1 (en) | Joint Sound Model Generation Techniques | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
Lee et al. | Training hidden Markov models by hybrid simulated annealing for visual speech recognition | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP7205635B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP4256314B2 (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
KR101862352B1 (ko) | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5647159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |