JP6699945B2 - 音響モデル学習装置、その方法、及びプログラム - Google Patents
音響モデル学習装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6699945B2 JP6699945B2 JP2017081080A JP2017081080A JP6699945B2 JP 6699945 B2 JP6699945 B2 JP 6699945B2 JP 2017081080 A JP2017081080 A JP 2017081080A JP 2017081080 A JP2017081080 A JP 2017081080A JP 6699945 B2 JP6699945 B2 JP 6699945B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- acoustic
- learning
- learned
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態のポイントは、簡単な識別から徐々に難しい識別へと順次音響モデルを学習していく点である。音信号から得られる音響特徴量は図2に示すように階層的な分類構造を持つ。HMM状態は非常に詳細度の高いカテゴリであるため、音響特徴量がどのHMM状態かを識別するのは難易度の高い識別である。一方、より上位の階層での識別、例えば音響特徴量が音声か非音声かを識別するのは難易度の低い識別となる。また、隣接した階層の識別(例えば「音声か非音声かの識別」と「有声音か無声音か非音声かの識別」)は類似した問題なので、「音声か非音声か」を識別するニューラルネットワーク(音声/非音声NN)と、「有声音か無声音か非音声か」を識別するニューラルネットワーク(有声音/無声音/非音声NN)の差分は小さくなる。そのため、有声音/無声音/非音声NNを学習する際に、音声/非音声NNを初期値(初期音響モデルともいう)として用いると適切なパラメータに収束させることができる。本実施形態では、難易度の低い上位の階層での識別を行うニューラルネットワークから学習を開始し、学習したニューラルネットワークを次の段階の学習の初期値として、分類を段階的に詳細化させながら学習を行う。このような構成とすることで、最終的に従来技術よりも高精度にHMM状態を識別可能なニューラルネットワークを得る。なお、ある階層での学習が済んでいない音響モデルをその階層における未学習の音響モデルまたは初期音響モデルともいう。
(1)はじめに、音声に関する事前知識のない初期音響モデルを初期値として、入力音響特徴量が「音声か非音声か」を識別する音声/非音声音響モデルを学習する。音声に関する事前知識のない初期音響モデルとしては、例えば、パラメータを乱数により初期化したものを用いる。
(2)次に、学習済みの音声/非音声音響モデルを初期値として、入力音響特徴量が「有声音か無声音か非音声か」を識別する有声音/無声音/非音声音響モデルを学習する。
(3)次に、学習済みの有声音/無声音/非音声音響モデルを初期値として、入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する母音/有声子音/無声子音/非音声音響モデルを学習する。
(4)次に、学習済みの母音/有声子音/無声子音/非音声音響モデルを初期値として、入力音響特徴量が「(非音声を含む)どの音素か」(言い換えると、「どの音素か、または、非音声か」)を識別する音素音響モデルを学習する。
(5)次に、学習済みの音素音響モデルを初期値として、入力音響特徴量が「どのトライフォンか」を識別するトライフォン音響モデルを学習する。
(6)最後に、学習済みのトライフォン音響モデルを初期値として、入力音響特徴量が「どのHMM状態か」を識別する音響モデル(HMM状態音響モデル)を学習する。
図3は第一実施形態に係る音響モデル学習装置300の機能ブロック図を、図4はその処理フローを示す。
入力:初期音響モデル(音声/非音声)、音響特徴量、正解HMM状態番号、番号変換表
出力:学習済み音響モデル(音声/非音声)
処理:
入力された初期音響モデルを初期値として、音響特徴量と正解HMM状態番号と番号変換表とを用いて、学習し、学習済み音響モデルを求め(S301)、出力する。なお、初期音響モデルとは、未学習の音響モデルを意味し、初期音響モデル(音声/非音声)は、「音声か非音声か」を識別するニューラルネットワークからなる音響モデルの初期音響モデルを意味する。番号変換表は、音響特徴量に対する正解HMM状態番号と、音響モデルの出力である分類結果が取り得る値との対応関係を示すものである。例えば、番号変換表は、HMM状態番号(通常1〜3000程度)と音声か非音声かを表す番号(1または2)との対応関係を示す表である。この番号変換表に基づきHMM状態番号を、音声か非音声かを表す番号に変換することができる。なお、各HMM状態が音声か非音声かは、学習前に正解HMM状態番号を用意した時点で分かっている。
入力:正解HMM状態番号、番号変換表
出力:変換正解番号
処理:
入力された正解HMM状態番号を、番号変換表にしたがって変換正解番号に変換し、変換後の変換正解番号を出力する。この例では、変換正解番号は、音声か非音声かを表す番号(1または2)である。正解HMM状態番号はある音響特徴量がどのHMM状態に対応するかを表す番号であり、変換正解番号はある音響特徴量がある階層のどのノード(図2参照)に対応するかを表す番号である。
入力:変換正解番号、音響特徴量、初期音響モデル(音声/非音声)
出力:学習済み音響モデル(音声/非音声)
処理:
例えば、本実施形態のように第二音響モデル学習部301Bによって音声/非音声を識別する音響モデルを学習する場合、初期音響モデル(音声/非音声)として、出力ユニット数が2(音声 or 非音声)のニューラルネットワークを入力する。ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、音声か非音声かを示す情報であり、1または2)を出力とするものである。第二音響モデル学習部301Bは、初期音響モデル(音声/非音声)を初期値として、変換正解番号と音響特徴量とを用いて、学習し、学習済み音響モデル(音声/非音声)を求め、出力する。ニューラルネットワークからなる音響モデルの学習方法としては、如何なる方法を用いてもよい(例えば非特許文献1参照)。
入力:学習済み音響モデル(音声/非音声)、次段階の出力ユニット数
出力:次段階の初期音響モデル(HMM状態音響モデル)
処理:
入力された学習済み音響モデル(音声/非音声)から出力層及び出力層と中間層との間の重みパラメータを除去する。さらに、次段階の音響モデル(HMM状態音響モデル)の出力ユニット数を持つ新たな出力層を付与して、次段階の初期音響モデルとして出力する。例えば、付与される出力層の重みパラメータは乱数により初期化する。処理内容のイメージを図6に示した。
入力:未学習の音響モデル(HMM状態音響モデル)、音響特徴量、正解HMM状態番号
出力:学習済みの音響モデル(HMM状態音響モデル)
音響モデル学習部303は、音響特徴量及び正解HMM状態番号を用いて、未学習の音響モデル(HMM状態音響モデル)を初期値として、学習し(S303)、学習済みの音響モデル(HMM状態音響モデル)を求め、出力する。ここでは、ニューラルネットワークは、音響特徴量を入力とし、入力された音響特徴量に対する分類結果(この例では、HMM状態番号)を出力とするものである。
以上の構成により、音響モデル学習部303において音声に関する事前知識を備えた初期音響モデルから、HMM状態を識別する音響モデルを学習し、従来よりも精度の高い音声認識を行える音響モデルを作成することができる。
本実施形態では、はじめに音声/非音声音響モデルを学習し、次にHMM状態音響モデルを学習する2段階の学習を行う構成(最小構成)を示したが、上述の通り、途中の学習段階を増やしてもよい。この場合、簡易音響モデル学習部301は、音響特徴量と、正解HMM状態番号と、番号変換表と、未学習の第n次音響モデルとを入力とする。簡易音響モデル学習部301は、音響特徴量と、正解HMM状態番号と、番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求め、出力する。ただし、Nを1以上の整数の何れか、n=1,2,…,Nとする。例えば、第(n+1)次音響モデルの出力ユニット数mn+1を第n次音響モデルの出力ユニット数mnよりも大きいものとすることで、分類を段階的に詳細化させることができる。なお、未学習の第1次音響モデルが、従来技術の初期音響モデルに相当する。出力層置換部302は、学習済みの第n次音響モデルを入力とし、学習済みの第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求め、出力する。なお、未学習の第1次〜第N次音響モデル(n=1,2,…,N)は簡易音響モデル学習部301に出力し(図3中、破線で示す)、未学習の第(N+1)次音響モデルは音響モデル学習部303に出力する。n=1,2,…,Nにおいて、簡易音響モデル学習部301及び出力層置換部302における処理S301,S302を繰り返す(図4中、ループ端を破線で示し、ループ端の上端内に「変数=初期値,終値、増分値」を示す)。音響モデル学習部303は、未学習の第(N+1)次音響モデルと、音響特徴量と、正解HMM状態番号と入力とし、音響特徴量と、正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求め、出力する。なお、N=1の場合に第一実施形態と同様の処理内容となるため、第一実施形態は、本変形例の一例と言える。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習部と、
学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換部と、
前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習部とを含む、
音響モデル学習装置。 - 請求項1の音響モデル学習装置であって、
pを1,2,…,Nの何れかとし、前記簡易音響モデル学習部において学習する第p次音響モデルは、
(1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
(2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
(3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
(4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
(5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
の何れかであり、
前記音響モデル学習部において学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
音響モデル学習装置。 - 請求項1または請求項2の音響モデル学習装置であって、
第(n+1)次音響モデルの出力ユニット数mn+1は第n次音響モデルの出力ユニット数mnよりも大きい、
音響モデル学習装置。 - Nを1以上の整数の何れか、n=1,2,…,Nとし、第n次音響モデルは音響特徴量を入力とし入力された音響特徴量に対する分類結果を出力とするニューラルネットワークからなり、学習用音声データから得られる学習用音響特徴量と、前記学習用音響特徴量に対する正解HMM状態番号と、第n次音響モデルの出力である分類結果が取り得る値と正解HMM状態番号との対応関係を示す番号変換表とを用いて、未学習の第n次音響モデルを初期値として、学習し、学習済みの第n次音響モデルを求める簡易音響モデル学習ステップと、
学習済みの前記第n次音響モデルから出力層及び出力層と中間層との間の重みパラメータを除去し、第(n+1)次音響モデルの出力ユニット数mn+1を持つ新たな出力層を付与し、未学習の第(n+1)次音響モデルを求める出力層置換ステップと、
前記学習用音響特徴量と、前記正解HMM状態番号とを用いて、未学習の第(N+1)次音響モデルを初期値として、学習し、学習済みの第(N+1)次音響モデルを求める音響モデル学習ステップとを含む、
音響モデル学習装置が実行する音響モデル学習方法。 - 請求項4の音響モデル学習方法であって、
pを1,2,…,Nの何れかとし、前記簡易音響モデル学習ステップにおいて学習する第p次音響モデルは、
(1)入力音響特徴量が「音声か非音声か」を識別する音響モデル、
(2)入力音響特徴量が「有声音か無声音か非音声か」を識別する音響モデル、
(3)入力音響特徴量が「母音か有声子音か無声音か非音声か」を識別する音響モデル、
(4)入力音響特徴量が「どの音素か、または、非音声か、」を識別する音響モデル、
(5)入力音響特徴量が「どのトライフォンか」を識別する音響モデル、
の何れかであり、
前記音響モデル学習ステップにおいて学習する第(N+1)次音響モデルは、入力音響特徴量が「どのHMM状態か」を識別する音響モデルである、
音響モデル学習方法。 - 請求項4または請求項5の音響モデル学習方法であって、
第(n+1)次音響モデルの出力ユニット数mn+1は第n次音響モデルの出力ユニット数mnよりも大きい、
音響モデル学習方法。 - 請求項1から請求項3の何れかの音響モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017081080A JP6699945B2 (ja) | 2017-04-17 | 2017-04-17 | 音響モデル学習装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017081080A JP6699945B2 (ja) | 2017-04-17 | 2017-04-17 | 音響モデル学習装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180354A JP2018180354A (ja) | 2018-11-15 |
JP6699945B2 true JP6699945B2 (ja) | 2020-05-27 |
Family
ID=64275242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017081080A Active JP6699945B2 (ja) | 2017-04-17 | 2017-04-17 | 音響モデル学習装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6699945B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6827911B2 (ja) * | 2017-11-22 | 2021-02-10 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309293A (ja) * | 1993-04-26 | 1994-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 多層構造型ニューラルネットワークの構成方法 |
JP6164639B2 (ja) * | 2013-05-23 | 2017-07-19 | 国立研究開発法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム |
JP6246636B2 (ja) * | 2014-03-20 | 2017-12-13 | 株式会社東芝 | パターン識別装置、パターン識別方法およびプログラム |
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
-
2017
- 2017-04-17 JP JP2017081080A patent/JP6699945B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018180354A (ja) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249294B2 (en) | Speech recognition system and method | |
EP3857543B1 (en) | Conversational agent pipeline trained on synthetic data | |
US11132992B2 (en) | On-device custom wake word detection | |
JP5768093B2 (ja) | 音声処理システム | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
Lu et al. | Automatic speech recognition | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
Dua et al. | Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
Roger et al. | Deep neural networks for automatic speech processing: a survey from large corpora to limited data | |
JP2018072697A (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
Meyer | Multi-task and transfer learning in low-resource speech recognition | |
CN116153296A (zh) | 一种基于持续学习模型的语音唤醒方法、装置及存储介质 | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
Scharenborg et al. | Building an ASR System for Mboshi Using A Cross-Language Definition of Acoustic Units Approach. | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP2017194510A (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6699945 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |