JP2016188944A - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム - Google Patents
音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム Download PDFInfo
- Publication number
- JP2016188944A JP2016188944A JP2015068915A JP2015068915A JP2016188944A JP 2016188944 A JP2016188944 A JP 2016188944A JP 2015068915 A JP2015068915 A JP 2015068915A JP 2015068915 A JP2015068915 A JP 2015068915A JP 2016188944 A JP2016188944 A JP 2016188944A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- acoustic model
- parameter
- feature amount
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音響モデルであるニューラルネットワークの隠れ層は、音響条件特徴量を示す音響条件特徴量ベクトルのうち、n番目のフレームから抽出された音響条件特徴量ベクトルyn∈RK(K次元実数空間)のk番目(kは1,2,・・・,Kなる自然数、Kは音響条件の数を示す自然数)の要素である音響条件特徴量yk,n毎に、重み行列Wi,k及びバイアスベクトルbi,kが分解された形になっている。音声認識時において、音響条件特徴量yk,nに基づき、分解された隠れ層毎に線形変換を行い、音響条件に自動適応する。
【選択図】図1
Description
第1の従来技術は、例えば文献1「G. Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition, “The shared views of four research groups,” IEEE SIGNAL PROCESSING MAGAZINE, Vol. 29,No. 6, pp. 82−97, 2012.」に示される音声認識技術である。図7は、第1の従来技術に係る音声認識装置の構成の一例を示す図である。図7に示すように、第1の従来技術に係る音声認識装置200Aは、特徴量抽出部210A、HMM状態の出力確率計算部220A、単語列検索部230Aを有する。また、音声認識装置200Aは、記憶部300Aと接続される。
ここで、一般的に、音響モデルの学習時と認識時とでは、音響環境や話者特性等の音響条件が異なる。そのため、第1の従来技術の音声認識は、音響モデルと認識時の特徴量とが合致せず、十分な認識性能が得られない。そこで、音響モデルを認識時の特徴量と合致させるため、音響モデルのパラメータを補正(再推定)(以下、音響モデル補正と称す)して音声認識を行う第2の従来技術がある。第2の従来技術は、例えば文献2「H. Liao, “SPEAKER ADAPTATION OF CONTEXT DEPENDENT DEEP NEURAL NETWORKS,” in Proc. of ICASSP’13, 2013, pp. 7947−7951.」に示される音声認識技術である。以下、音響モデル補正を行う第2の従来技術について、第1の従来技術との差異部分を説明する。
以下、第2の従来技術に係る音声認識装置200Bに、第3の従来技術に係る音響モデル補正(再推定)機能を有する音響モデル再学習装置100Cを適用した場合を説明する。図12は、第3の従来技術に係る音響モデル再学習装置の構成の一例を示す図である。音響モデル再学習装置100Cは、特徴量抽出部110C、音響モデル再学習部120Cを有する。また、音響モデル再学習装置100Cは、記憶部300Cと接続される。
以下、本願が開示する音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラムの実施形態を説明する。以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
実施形態は、音響モデルパラメータの高速適応を可能とするために、音響モデル(CADNN(Context Adaptive Deep Neural Network))のパラメータを、音響条件特徴量と関連付けて学習する。そして、実施形態は、音声認識時に、認識用音声データから計算した音響条件特徴量を与えるだけで、大量の音響モデルパラメータが自動的に音響条件特徴量と対応付けられる。以下、CADNNについて述べる。
図1は、実施形態に係るCADNNの概要の一例を示す図である。CADNNは、従来技術とは異なり、図1に示すように、NNの隠れ層は、音響条件特徴量を示すベクトル(以下、「音響条件特徴量ベクトル」と称す)の要素毎に分解された形になっている。図1では、例示として、1つの隠れ層(i番目の隠れ層)が分解されている状態を示すが、少なくとも1つの隠れ層又は全ての隠れ層を分解するとしてもよい。分解された隠れ層の線形変換後の出力は、下記(5)式のように計算する。
(実施形態に係る音響モデル学習装置の構成)
上記実施形態の数理的背景を踏まえ、以下、実施形態の一例を説明する。図2は、実施形態に係る音響モデル学習装置の構成の一例を示す図である。図2に示すように、実施形態に係る音響モデル学習装置10は、特徴量抽出部11、音響条件特徴量抽出部12、音響モデルパラメータ補正部13、HMM状態の出力確率計算部14、エラー計算部15、音響モデルパラメータ微分値計算部16、音響モデルパラメータ更新部17、収束判定部18を有する。また、音響モデル学習装置10は、記憶部30−1及び記憶部30−2と接続される。
図3は、実施形態に係る音響モデル学習処理の一例を示すフローチャートである。先ず、音響モデル学習装置10は、記憶部30−1から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS11)。次に、音響モデル学習装置10は、記憶部30−1から音響条件抽出用モデルを読み込む(ステップS12)。次に、音響モデル学習装置10は、学習用音声データを読み込む(ステップS13)。次に、音響モデル学習装置10は、正解シンボル系列−Srを読み込む(ステップS14)。
図4は、実施形態に係る音声認識装置の構成の一例を示す図である。図4に示すように、実施形態に係る音声認識装置20は、特徴量抽出部21、音響条件特徴量抽出部22、音響モデルパラメータ補正部23、HMM状態の出力確率計算部24、単語列検索部25を有する。また、音声認識装置20は、記憶部30−2と接続される。
図5は、実施形態に係る音声認識処理の一例を示すフローチャートである。先ず、音声認識装置20は、記憶部30−2から音響モデル(音響モデルパラメータΛ)を読み込む(ステップS21)。次に、音声認識装置20は、記憶部30−2から音響条件抽出用モデルを読み込む(ステップS22)。次に、音声認識装置20は、記憶部30−2から言語モデルを読み込む(ステップS23)。次に、音声認識装置20は、認識用音声データを読み込む(ステップS24)。次に、音声認識装置20は、記憶部30−2から音響モデルパラメータ補正用パラメータηを読み込む(ステップS25)。
実施形態では、DNN(CADNN)に基づく音響モデルを用いる場合を説明したが、DNNに限らず、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、BLSTM(Bidirectional Long Short-Term Memory)のニューラルネットワーク等、種々のニューラルネットワークに基づく音響モデルを用いても、同様の定式化が可能である。
実施形態は、入力データから特徴量を抽出し,その特徴量を用いて入力データを予め定義されたクラスタに分類するパターン認識において、クラスタ分類精度を向上させる。例えば、入力音声から特徴量を抽出し、その特徴量を用いて入力音声を単語列に変換する音声認識において、音響モデルパラメータ補正を行ってクラスタ分類精度を向上させる。実施形態は、音声認識時の音響条件に音響モデルを高速に適応させ、その処理の際にCADNNを音響モデルとして用いる。実施形態の音響モデルパラメータは、外部から与えられる音響条件を表す音響条件特徴量に関係付けられ、音響条件特徴量に依存して変化するという特性を有する。その特性を有するため、音響モデルの学習時には、音声の特徴量と音響条件特徴量とを用いて、各音響条件と対応する音響モデルパラメータを学習する。そして、認識時には、認識対象の音声の音響条件特徴量を計算し、事前に学習した音響モデルパラメータを用い、音響条件に合うような新たな音響モデルパラメータを自動的に推定して決定する。
図2に示す音響モデル学習装置10及び図4に示す音声認識装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音響モデル学習装置10及び音声認識装置20の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、実施形態における記憶部30−1及び30−2は、一体の記憶装置であってもよい。また、例えば、音響モデル学習装置10及び音声認識装置20は、一体の装置であってもよい。
図6は、プログラムが実行されることにより、音響モデル学習装置及び音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
11 特徴量抽出部
12 音響条件特徴量抽出部
13 音響モデルパラメータ補正部
14 HMM状態の出力確率計算部
15 エラー計算部
16 音響モデルパラメータ微分値計算部
17 音響モデルパラメータ更新部
18 収束判定部
20 音声認識装置
21 特徴量抽出部
22 音響条件特徴量抽出部
23 音響モデルパラメータ補正部
24 HMM状態の出力確率計算部
25 単語列検索部
30−1、30−2 記憶部
100C 音響モデル再学習装置
110C 特徴量抽出部
120C 音響モデル再学習部
200A、200B 音声認識装置
210A、210B 特徴量抽出部
220A、220B 出力確率計算部
230A、230B 単語列検索部
300A、300B、300C 記憶部
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (8)
- 1つ以上の隠れ層を有するニューラルネットワークで表される音響モデルを特徴付けるパラメータを記憶する第1の記憶部と、
前記音響モデルを学習するための学習用音声データから、前記学習用音声データの特徴を示す第1の特徴量を抽出する第1の特徴量抽出部と、
前記学習用音声データから、前記学習用音声データの音響条件を示す第1の音響条件特徴量を抽出する第1の音響条件特徴量抽出部と、
前記パラメータを、前記第1の音響条件特徴量の成分毎のパラメータへ補正する第1の音響モデルパラメータ補正部と、
前記第1の特徴量と、前記第1の音響条件特徴量の成分毎のパラメータとをもとに、前記第1の記憶部に記憶される前記パラメータを更新する音響モデルパラメータ更新部と
を備えることを特徴とする音響モデル学習装置。 - 前記第1の音響モデルパラメータ補正部は、
前記第1の記憶部に記憶される前記音響モデルを特徴付けるパラメータを、前記第1の音響条件特徴量抽出部により抽出された前記第1の音響条件特徴量による重み付け和へ分解することにより、前記第1の音響条件特徴量の成分毎のパラメータを計算する
ことを特徴とする請求項1に記載の音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置により更新された前記パラメータと、候補単語列を含む言語モデルとを記憶する第2の記憶部と、
音声認識対象の認識用音声データから、前記認識用音声データの特徴を示す第2の特徴量を抽出する第2の特徴量抽出部と、
前記認識用音声データから、前記認識用音声データの音響条件を示す第2の音響条件特徴量を抽出する第2の音響条件特徴量抽出部と、
前記第2の記憶部に記憶される、更新された前記パラメータを、前記第2の音響条件特徴量の成分毎のパラメータへ補正する第2の音響モデルパラメータ補正部と、
前記第2の特徴量と、前記第2の音響条件特徴量の成分毎のパラメータとをもとに、前記認識用音声データと対応する1つ以上の対立候補音素系列を生成し、該対立候補音素系列をもとに前記言語モデルを検索し、該言語モデルに含まれる、該対立候補音素系列との適合尤度が最大である候補単語列を出力する単語列検索部と
を備えることを特徴とする音声認識装置。 - 前記第2の音響モデルパラメータ補正部は、
前記第2の記憶部に記憶される前記音響モデルを特徴付けるパラメータを、前記第2の音響条件特徴量抽出部により抽出された前記第2の音響条件特徴量による重み付け和へ分解することにより、前記第2の音響条件特徴量の成分毎のパラメータを計算する
ことを特徴とする請求項3に記載の音声認識装置。 - 音響モデル学習装置が実行する音響モデル学習方法であって、
前記音響モデル学習装置は、1つ以上の隠れ層を有するニューラルネットワークで表される音響モデルを特徴付けるパラメータを記憶する第1の記憶部を有し、
前記音響モデルを学習するための学習用音声データから、前記学習用音声データの特徴を示す第1の特徴量を抽出する第1の特徴量抽出工程と、
前記学習用音声データから、前記学習用音声データの音響条件を示す第1の音響条件特徴量を抽出する第1の音響条件特徴量抽出工程と、
前記パラメータを、前記第1の音響条件特徴量の成分毎のパラメータへ補正する第1の音響モデルパラメータ補正工程と、
前記第1の特徴量と、前記第1の音響条件特徴量の成分毎のパラメータとをもとに、前記第1の記憶部に記憶される前記パラメータを更新する音響モデルパラメータ更新工程と
を含むことを特徴とする音響モデル学習方法。 - 音声認識装置が実行する音声認識方法であって、
前記音声認識装置は、請求項5に記載の音響モデル学習方法により更新された前記パラメータと、候補単語列を含む言語モデルとを記憶する第2の記憶部を有し、
音声認識対象の認識用音声データから、前記認識用音声データの特徴を示す第2の特徴量を抽出する第2の特徴量抽出工程と、
前記認識用音声データから、前記認識用音声データの音響条件を示す第2の音響条件特徴量を抽出する第2の音響条件特徴量抽出工程と、
前記第2の記憶部に記憶される、更新された前記パラメータを、前記第2の音響条件特徴量の成分毎のパラメータへ補正する第2の音響モデルパラメータ補正工程と、
前記第2の特徴量と、前記第2の音響条件特徴量の成分毎のパラメータとをもとに、前記認識用音声データと対応する1つ以上の対立候補音素系列を生成し、該対立候補音素系列をもとに前記言語モデルを検索し、該言語モデルに含まれる、該対立候補音素系列との適合尤度が最大である候補単語列を出力する単語列検索工程と
を含むことを特徴とする音声認識方法。 - 請求項1に記載の音響モデル学習装置としてコンピュータを機能させる音響モデル学習プログラム。
- 請求項3に記載の音声認識装置としてコンピュータを機能させる音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068915A JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068915A JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016188944A true JP2016188944A (ja) | 2016-11-04 |
JP6506074B2 JP6506074B2 (ja) | 2019-04-24 |
Family
ID=57239759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015068915A Active JP6506074B2 (ja) | 2015-03-30 | 2015-03-30 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6506074B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018031812A (ja) * | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
JP2018128647A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP2018128574A (ja) * | 2017-02-08 | 2018-08-16 | 日本電信電話株式会社 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
JP2019021071A (ja) * | 2017-07-18 | 2019-02-07 | 株式会社竹中工務店 | 調整係数推定装置、モデル学習装置、及び方法 |
KR20190062008A (ko) * | 2017-11-28 | 2019-06-05 | 한국전자통신연구원 | 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법 |
CN110060691A (zh) * | 2019-04-16 | 2019-07-26 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
JP2019219574A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
JP2020510862A (ja) * | 2017-02-24 | 2020-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 周期的表示を用いる音識別 |
JP2021032909A (ja) * | 2019-08-13 | 2021-03-01 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
WO2021137637A1 (en) * | 2020-01-02 | 2021-07-08 | Samsung Electronics Co., Ltd. | Server, client device, and operation methods thereof for training natural language understanding model |
JP2022534390A (ja) * | 2019-05-28 | 2022-07-29 | グーグル エルエルシー | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04267300A (ja) * | 1991-02-22 | 1992-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 雑音除去と話者適応の機能を有する音声認識装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
-
2015
- 2015-03-30 JP JP2015068915A patent/JP6506074B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04267300A (ja) * | 1991-02-22 | 1992-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 雑音除去と話者適応の機能を有する音声認識装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018031812A (ja) * | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
JP2018128574A (ja) * | 2017-02-08 | 2018-08-16 | 日本電信電話株式会社 | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |
JP2018128647A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP7100855B2 (ja) | 2017-02-24 | 2022-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 周期的表示を用いる音識別 |
JP2020510862A (ja) * | 2017-02-24 | 2020-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 周期的表示を用いる音識別 |
JP2019021071A (ja) * | 2017-07-18 | 2019-02-07 | 株式会社竹中工務店 | 調整係数推定装置、モデル学習装置、及び方法 |
JP7019982B2 (ja) | 2017-07-18 | 2022-02-16 | 株式会社竹中工務店 | 調整係数推定装置、モデル学習装置、及び方法 |
CN107910008B (zh) * | 2017-11-13 | 2021-06-11 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
KR20190062008A (ko) * | 2017-11-28 | 2019-06-05 | 한국전자통신연구원 | 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법 |
KR102218046B1 (ko) * | 2017-11-28 | 2021-02-22 | 한국전자통신연구원 | 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법 |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
JP2019219574A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
CN110060691A (zh) * | 2019-04-16 | 2019-07-26 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
CN110060691B (zh) * | 2019-04-16 | 2023-02-28 | 南京邮电大学 | 基于i向量和VARSGAN的多对多语音转换方法 |
JP2022534390A (ja) * | 2019-05-28 | 2022-07-29 | グーグル エルエルシー | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
JP7343615B2 (ja) | 2019-05-28 | 2023-09-12 | グーグル エルエルシー | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
JP2021032909A (ja) * | 2019-08-13 | 2021-03-01 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
JP7306626B2 (ja) | 2019-08-13 | 2023-07-11 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
WO2021137637A1 (en) * | 2020-01-02 | 2021-07-08 | Samsung Electronics Co., Ltd. | Server, client device, and operation methods thereof for training natural language understanding model |
US11868725B2 (en) | 2020-01-02 | 2024-01-09 | Samsung Electronics Co., Ltd. | Server, client device, and operation methods thereof for training natural language understanding model |
Also Published As
Publication number | Publication date |
---|---|
JP6506074B2 (ja) | 2019-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
Abdel-Hamid et al. | Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code | |
Zhang et al. | DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions | |
US10629185B2 (en) | Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model | |
Miao et al. | Towards speaker adaptive training of deep neural network acoustic models | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP2014157323A (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
Price et al. | Speaker adaptation of deep neural networks using a hierarchy of output layers | |
Bacchiani et al. | Context dependent state tying for speech recognition using deep neural network acoustic models | |
Huang et al. | Feature space maximum a posteriori linear regression for adaptation of deep neural networks | |
Zhang et al. | Joint optimisation of tandem systems using Gaussian mixture density neural network discriminative sequence training | |
Nguyen et al. | Optimizing deep bottleneck feature extraction | |
Huang et al. | Hierarchical Bayesian combination of plug-in maximum a posteriori decoders in deep neural networks-based speech recognition and speaker adaptation | |
Tang et al. | Discriminative pronunciation modeling: A large-margin, feature-rich approach | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Zhu et al. | Gaussian free cluster tree construction using deep neural network. | |
Zorrilla et al. | Some asr experiments using deep neural networks on spanish databases | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6612796B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム | |
Li et al. | DNN online adaptation for automatic speech recognition | |
Becerra et al. | Speech recognition using deep neural networks trained with non-uniform frame-level cost functions | |
Mimura et al. | Unsupervised speaker adaptation of DNN-HMM by selecting similar speakers for lecture transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6506074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |