JP6506074B2 - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム - Google Patents
音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP6506074B2 JP6506074B2 JP2015068915A JP2015068915A JP6506074B2 JP 6506074 B2 JP6506074 B2 JP 6506074B2 JP 2015068915 A JP2015068915 A JP 2015068915A JP 2015068915 A JP2015068915 A JP 2015068915A JP 6506074 B2 JP6506074 B2 JP 6506074B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- acoustic model
- speech recognition
- neural network
- model parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の従来技術は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, “The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図7は、第1の従来技術に係る音声認識装置の構成の一例を示す図である。図7に示すように、第1の従来技術に係る音声認識装置200Aは、特徴量抽出部210A、HMM状態の出力確率計算部220A、単語列検索部230Aを有する。また、音声認識装置200Aは、記憶部300Aと接続される。
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第1の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正(再推定)(以下、音響モデル補正と称す)して音声認識を行う第2の従来技術がある。第2の従来技術は、例えば文献2「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第2の従来技術について、第1の従来技術との差異部分を説明する。
以下、第2の従来技術に係る音声認識装置200Bに、第3の従来技術に係る音響モデル補正(再推定)機能を有する音響モデル再学習装置100Cを適用した場合を説明する。図12は、第3の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置100Cは、特徴量抽出部110C、音響モデル再学習部120Cを有する。また、音響モデル再学習装置100Cは、記憶部300Cと接続される。
以下、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
実施形態は、音響モデルパラメータの高速適応を可能とするために、音響モデル(CADNN(Context Adaptive Deep Neural Network))のパラメータを、音響条件特徴量と関連付けて学習する。そして、実施形態は、音声認識時に、認識用音声データから計算した音響条件特徴量を与えるだけで、大量の音響モデルパラメータが自動的に音響条件特徴量と対応付けられる。以下、CADNNについて述べる。
図1は、実施形態に係るCADNNの概要の一例を示す図である。CADNNは、従来技術とは異なり、図1に示すように、NNの隠れ層は、音響条件特徴量を示すベクトル(以下、「音響条件特徴量ベクトル」と称す)の要素毎に分解された形になっている。図1では、例示として、1つの隠れ層(i番目の隠れ層)が分解されている状態を示すが、少なくとも1つの隠れ層又は全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記(5)式のように計算する。
(実施形態に係る音響モデル学習装置の構成)
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図2は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図2に示すように、実施形態に係る音響モデル学習装置10は、特徴量抽出部11、音響条件特徴量抽出部12、音響モデルパラメータ補正部13、HMM状態の出力確率計算部14、エラー計算部15、音響モデルパラメータ微分値計算部16、音響モデルパラメータ更新部17、収束判定部18を有する。また、音響モデル学習装置10は、記憶部30−1及び記憶部30−2と接続される。
図3は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。先ず、音響モデル学習装置10は、記憶部30−1から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS11)。次に、音響モデル学習装置10は、記憶部30−1から音響条件抽出用モデルを読み込む(ステップS12)。次に、音響モデル学習装置10は、学習用音声データを読み込む(ステップS13)。次に、音響モデル学習装置10は、正解シンボル系列−Srを読み込む(ステップS14)。
図4は、実施形態に係る音声認識装置の構成の一例を示す図である。図4に示すように、実施形態に係る音声認識装置20は、特徴量抽出部21、音響条件特徴量抽出部22、音響モデルパラメータ補正部23、HMM状態の出力確率計算部24、単語列検索部25を有する。また、音声認識装置20は、記憶部30−2と接続される。
図5は、実施形態に係る音声認識処理の一例を示すフローチャートである。先ず、音声認識装置20は、記憶部30−2から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS21)。次に、音声認識装置20は、記憶部30−2から音響条件抽出用モデルを読み込む(ステップS22)。次に、音声認識装置20は、記憶部30−2から言語モデルを読み込む(ステップS23)。次に、音声認識装置20は、認識用音声データを読み込む(ステップS24)。次に、音声認識装置20は、記憶部30−2から音響モデルパラメータ補正用パラメータηを読み込む(ステップS25)。
実施形態では、DNN(CADNN)に基づく音響モデルを用いる場合を説明したが、DNNに限らず、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、BLSTM(Bidirectional Long Short-Term Memory)のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを用いても、同様の定式化が可能である。
実施形態は、入力データから特徴量を抽出し,その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させる。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識において、音響モデルパラメータ補正を行ってクラスタ分類精度を向上させる。実施形態は、音声認識時の音響条件に音響モデルを高速に適応させ、その処理の際にCADNNを音響モデルとして用いる。実施形態の音響モデルパラメータは、外部から与えられる音響条件を表す音響条件特徴量に関係付けられ、音響条件特徴量に依存して変化するという特性を有する。その特性を有するため、音響モデルの学習時には、音声の特徴量と音響条件特徴量とを用いて、各音響条件と対応する音響モデルパラメータを学習する。そして、認識時には、認識対象の音声の音響条件特徴量を計算し、事前に学習した音響モデルパラメータを用い、音響条件に合うような新たな音響モデルパラメータを自動的に推定して決定する。
図2に示す音響モデル学習装置10及び図4に示す音声認識装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置10及び音声認識装置20の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、実施形態における記憶部30−1及び30−2は、一体の記憶装置であってもよい。また、例えば、音響モデル学習装置10及び音声認識装置20は、一体の装置であってもよい。
図6は、プログラムが実行されることにより、音響モデル学習装置及び音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
11 特徴量抽出部
12 音響条件特徴量抽出部
13 音響モデルパラメータ補正部
14 HMM状態の出力確率計算部
15 エラー計算部
16 音響モデルパラメータ微分値計算部
17 音響モデルパラメータ更新部
18 収束判定部
20 音声認識装置
21 特徴量抽出部
22 音響条件特徴量抽出部
23 音響モデルパラメータ補正部
24 HMM状態の出力確率計算部
25 単語列検索部
30−1、30−2 記憶部
100C 音響モデル再学習装置
110C 特徴量抽出部
120C 音響モデル再学習部
200A、200B 音声認識装置
210A、210B 特徴量抽出部
220A、220B 出力確率計算部
230A、230B 単語列検索部
300A、300B、300C 記憶部
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (9)
- 入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習装置であって、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正する音響モデルパラメータ補正部と、
前記音響モデルパラメータ補正部により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより学習用音声データの各々を変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータを更新する音響モデルパラメータ更新部と
を含み、
前記音響モデルパラメータ更新部は、前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音響モデル学習装置。 - 前記音響条件特徴量ベクトルは、話者クラスを特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる話者クラスを表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項1に記載の音響モデル学習装置。 - 前記音響条件特徴量ベクトルは、雑音及び/又は残響の音響環境を特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる雑音及び/又は残響の音響環境を表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項1または2に記載の音響モデル学習装置。 - 音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換手段と、
前記シンボル系列を特定する情報をもとに言語モデルを検索し、音声認識結果候補である候補単語列を出力する第2の変換手段と、
入力された音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正手段と、を含み
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記音響モデルパラメータ補正手段は、前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正するものであり、
前記第1の変換手段は、前記音響モデルパラメータ補正手段により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを前記シンボル系列を特定する情報に変換するものであって、
前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音声認識装置。 - 前記音響条件特徴量ベクトルは、話者クラスを特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる話者クラスを表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項4記載の音声認識装置。 - 前記音響条件特徴量ベクトルは、雑音及び/又は残響の音響環境を特定する特徴を含み、
前記分解された隠れ層の少なくとも一部は、異なる雑音及び/又は残響の音響環境を表す前記音響条件特徴量ベクトルの要素にそれぞれ対応する
ことを特徴とする請求項4または5記載の音声認識装置。 - 入力された音声データを当該音声データに対応するシンボル系列を特定する情報に変換するニューラルネットワークのパラメータを学習する音響モデル学習方法であって、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正する音響モデルパラメータ補正工程と、
前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正された前記ニューラルネットワークにより学習用音声データの各々を変換して得た前記学習用音声データの各々に対応するシンボル系列を特定する情報と、当該シンボル系列を特定する情報に対応する正解と、の比較結果に基づき、前記ニューラルネットワークの各パラメータを更新する音響モデルパラメータ更新工程と
を含み、
前記音響モデルパラメータ更新工程は、前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得ることを特徴とする音響モデル学習方法。 - 音声認識対象の認識用音声データを、ニューラルネットワークにより、シンボル系列を特定する情報に変換する第1の変換工程と、
前記認識用音声データと対応するシンボル系列を特定する情報をもとに言語モデルを検索し、音声認識結果候補である候補単語列を出力する第2の変換工程と、
入力された音響条件特徴量に基づき、前記ニューラルネットワークのパラメータの少なくとも一部を補正する音響モデルパラメータ補正工程と、を含み、
前記ニューラルネットワークの一部の隠れ層は、与えられた音響条件特徴量を表す音響条件特徴量ベクトルの各要素に対応するよう分解されており、
前記音響モデルパラメータ補正工程は、前記分解された隠れ層の各々に対応するニューラルネットワークのパラメータを、該隠れ層に対応する前記音響条件特徴量ベクトルの要素に応じて補正するものであり、
前記第1の変換工程は、前記音響モデルパラメータ補正工程により少なくとも一部のパラメータが補正されたニューラルネットワークにより、前記音声認識対象の認識用音声データを、前記シンボル系列を特定する情報に変換するものであって、
前記分解された隠れ層の各々から出力される結果を統合した結果に基づき前記シンボル系列を特定する情報を得る
ことを特徴とする音声認識方法。 - 請求項1〜3の何れか1項に記載の音響モデル学習装置または請求項4〜6の何れか1項に記載の音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068915A JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068915A JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016188944A JP2016188944A (ja) | 2016-11-04 |
JP6506074B2 true JP6506074B2 (ja) | 2019-04-24 |
Family
ID=57239759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015068915A Active JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6506074B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6646337B2 (ja) * | 2016-08-22 | 2020-02-14 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
JP6728083B2 (ja) * | 2017-02-08 | 2020-07-22 | 日本電信電話株式会社 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
JP6612796B2 (ja) * | 2017-02-10 | 2019-11-27 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
US10062378B1 (en) * | 2017-02-24 | 2018-08-28 | International Business Machines Corporation | Sound identification utilizing periodic indications |
JP7019982B2 (ja) * | 2017-07-18 | 2022-02-16 | 株式会社竹中工務店 | 調整係数推定装置、モデル学習装置、及び方法 |
CN107910008B (zh) * | 2017-11-13 | 2021-06-11 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
KR102218046B1 (ko) * | 2017-11-28 | 2021-02-22 | 한국전자통신연구원 | 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법 |
KR20190129580A (ko) | 2018-05-11 | 2019-11-20 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
JP6980603B2 (ja) * | 2018-06-21 | 2021-12-15 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
CN110060691B (zh) * | 2019-04-16 | 2023-02-28 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
JP7343615B2 (ja) * | 2019-05-28 | 2023-09-12 | グーグル エルエルシー | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
JP7306626B2 (ja) * | 2019-08-13 | 2023-07-11 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
WO2021137637A1 (en) | 2020-01-02 | 2021-07-08 | Samsung Electronics Co., Ltd. | Server, client device, and operation methods thereof for training natural language understanding model |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782355B2 (ja) * | 1991-02-22 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 雑音除去と話者適応の機能を有する音声認識装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
-
2015
- 2015-03-30 JP JP2015068915A patent/JP6506074B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016188944A (ja) | 2016-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
Abdel-Hamid et al. | Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code | |
Zhang et al. | DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
Huang et al. | An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition | |
Demirel et al. | Automatic lyrics transcription using dilated convolutional neural networks with self-attention | |
Shinoda | Speaker adaptation techniques for automatic speech recognition | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
JP2014157323A (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
Kundu et al. | Joint acoustic factor learning for robust deep neural network based automatic speech recognition | |
Price et al. | Speaker adaptation of deep neural networks using a hierarchy of output layers | |
Bacchiani et al. | Context dependent state tying for speech recognition using deep neural network acoustic models | |
Zhang et al. | Joint optimisation of tandem systems using Gaussian mixture density neural network discriminative sequence training | |
Huang et al. | Hierarchical Bayesian combination of plug-in maximum a posteriori decoders in deep neural networks-based speech recognition and speaker adaptation | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
Zorrilla et al. | Some asr experiments using deep neural networks on spanish databases | |
Das et al. | Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions. | |
Wang et al. | End-to-end Mandarin recognition based on convolution input | |
Li et al. | DNN online adaptation for automatic speech recognition | |
JP6612796B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
GB2558629B (en) | Speaker-adaptive speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6506074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |