JP2018060047A - 音響モデルの学習装置及びそのためのコンピュータプログラム - Google Patents
音響モデルの学習装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2018060047A JP2018060047A JP2016197107A JP2016197107A JP2018060047A JP 2018060047 A JP2018060047 A JP 2018060047A JP 2016197107 A JP2016197107 A JP 2016197107A JP 2016197107 A JP2016197107 A JP 2016197107A JP 2018060047 A JP2018060047 A JP 2018060047A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- speech
- ctc
- acoustic model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000013016 learning Effects 0.000 title claims abstract description 183
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 abstract description 32
- 238000013500 data storage Methods 0.000 abstract description 16
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 239000000047 product Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000013067 intermediate product Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
好ましくは、第2の最適化手段は、学習音声の全体に亘り、End-to-End型ニューラルネットワーク及び言語モデルを用いて、観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、学習音声の全体に亘り、当該仮説及び学習データの正解サブワード列に基づいて、仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、学習音声の全体に亘り、仮説生成の際の言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、期待値を算出する第2の算出手段と、第2の算出手段により算出される期待値が増加するように、音響モデルのパラメータセットを更新する更新手段と、更新手段による音響モデルのパラメータセットの更新が終了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、判定手段による判定に応答して、End-to-End型ニューラルネットワークの学習を終了する第1の処理と、学習音声を用いた仮説の生成処理、認識精度の算出、期待値の算出、パラメータセットの更新、及び判定処理を再度行うよう、音声認識手段、第1の算出手段、第2の算出手段、更新手段、及び判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む。
より好ましくは、観測系列は学習音声を表す音声信号のフレーム単位で準備されており、第1の算出手段は、End-to-End型ニューラルネットワークの出力する仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む。
さらに好ましくは、判定手段は、音声認識手段による学習音声全体に亘る仮説の生成処理、第1の算出手段による認識精度の算出処理、及び、第2の算出手段による和の算出処理が、予め定められた回数だけ行われたときに、終了条件が充足されたと判定する手段を含む。
判定手段は、End-to-End型ニューラルネットワークを規定するパラメータセットの前回の処理時との差がしきい値以下となったことに応答して、終了条件が充足されたと判定する手段を含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、上記したいずれかの音響モデルの学習装置の各手段としてコンピュータを動作させるよう機能する。
上記した学習システム350によるCTC-AM364の学習は以下のように行われる。まず、学習音声とその書き起こしとの音素列である正解サブワード列を含む学習データが学習データ記憶部360に記憶される。また、同様に、音声とその書き起こしとを含む評価データが評価データ記憶部376に記憶される。単語言語モデル368、音素言語モデル370及び単語発音辞書372については、既に存在するものを用いても良いし、学習データ記憶部360から作成するようにしてもよい。学習データ記憶部360に記憶された学習データはいくつかのバッチに分割される。
図10及び図11に、上記した本発明の一実施例による音声認識精度と、従来の内挿方式による音声認識精度との、MRB学習の繰返しに伴う変化に関する実験結果を示す。
本発明の実施の形態に係る音声認識装置280及び学習システム350は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図12はこのコンピュータシステム630の外観を示し、図13はコンピュータシステム630の内部構成を示す。
32 発音列
34 状態系列
36 観測系列
70 DNN
100 RNN
110 音素列
112 発音列(サブワード列)
280 音声認識装置
282 入力音声
302 フレーム化処理部
304 特徴量抽出部
306 特徴量記憶部
308 音響モデル
310 デコーダ
350 学習システム
362 学習処理部
364 CTC-AM
366 MBR学習処理部
374 精度評価部
378 学習・評価制御部
630 コンピュータシステム
640 コンピュータ
654 ハードディスク
656 CPU
658 ROM
660 RAM
Claims (6)
- 音声の観測系列が与えられたときに、当該観測系列が任意のサブワード列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルの学習を行う音響モデルの学習装置であって、
前記音響モデルの学習装置は、学習音声の観測系列と当該学習音声に対応する正解サブワード列との、アライメント済の組からなる学習データ、及び、単語列の出現頻度を記憶した単語モデルを記憶する、コンピュータ読取り可能な記憶手段に接続して用いられ、
前記学習音声の前記観測系列が与えられたときの、前記学習データの正解サブワード列の事後確率の前記学習データの全体に亘る和が最大となるように前記End-to-End型ニューラルネットワークを最適化する第1の最適化手段と、
学習音声の観測系列が与えられたときに、前記前記End-to-End型ニューラルネットワークと前記言語モデルとを用いて推定した単語列の仮説の精度の期待値が最大となるように、前記第1の最適化手段により最適化された前記End-to-End型ニューラルネットワークをさらに最適化する第2の最適化手段とを含む、音響モデルの学習装置。 - 前記第2の最適化手段は、
前記学習音声の全体に亘り、前記End-to-End型ニューラルネットワーク及び前記言語モデルを用いて、前記観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、
前記学習音声の全体に亘り、当該仮説及び前記学習データの正解サブワード列に基づいて、前記仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、
前記学習音声の全体に亘り、前記仮説生成の際の前記言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、前記期待値を算出する第2の算出手段と、
前記第2の算出手段により算出される前記期待値が増加するように、前記音響モデルのパラメータセットを更新する更新手段と、
前記更新手段による前記音響モデルのパラメータセットの更新が完了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、
前記判定手段による判定に応答して、前記End-to-End型ニューラルネットワークの学習を終了する第1の処理と、前記学習音声を用いた前記仮説の生成、前記認識精度の算出、前記期待値の算出、前記パラメータセットの更新、及び前記判定処理を再度行うよう、前記音声認識手段、前記第1の算出手段、前記第2の算出手段、前記更新手段、及び前記判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む、請求項1に記載の音響モデルの学習装置。 - 前記観測系列は前記学習音声を表す音声信号のフレーム単位で準備されており、
第1の算出手段は、前記End-to-End型ニューラルネットワークの出力する前記仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む、請求項2に記載の音響モデルの学習装置。 - 前記判定手段は、前記音声認識手段による前記学習音声全体に亘る仮説の生成処理、前記第1の算出手段による前記認識精度の算出処理、前記第2の算出手段による前記和の算出処理、及び前記更新手段による前記音響モデルのパラメータセットの更新が、予め定められた回数だけ行われたときに、前記終了条件が充足されたと判定する手段を含む、請求項2又は請求項3に記載の音響モデルの学習装置。
- 前記判定手段は、前記End-to-End型ニューラルネットワークを規定するパラメータセットの、最新の処理時の値と前回の処理時の値との相違がしきい値未満となったことに応答して、前記終了条件が充足されたと判定する手段を含む、請求項2又は請求項3に記載の音響モデルの学習装置。
- 請求項1〜請求項5のいずれかに記載の各手段としてコンピュータを動作させるよう機能する、コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197107A JP6884946B2 (ja) | 2016-10-05 | 2016-10-05 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
PCT/JP2017/035018 WO2018066436A1 (ja) | 2016-10-05 | 2017-09-27 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197107A JP6884946B2 (ja) | 2016-10-05 | 2016-10-05 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018060047A true JP2018060047A (ja) | 2018-04-12 |
JP6884946B2 JP6884946B2 (ja) | 2021-06-09 |
Family
ID=61830945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016197107A Active JP6884946B2 (ja) | 2016-10-05 | 2016-10-05 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6884946B2 (ja) |
WO (1) | WO2018066436A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
WO2020196021A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
WO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
JPWO2021144901A1 (ja) * | 2020-01-16 | 2021-07-22 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559749B (zh) * | 2018-12-24 | 2021-06-18 | 思必驰科技股份有限公司 | 用于语音识别系统的联合解码方法及系统 |
CN111508501B (zh) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN113223504B (zh) * | 2021-04-30 | 2023-12-26 | 平安科技(深圳)有限公司 | 声学模型的训练方法、装置、设备和存储介质 |
CN114267337B (zh) * | 2022-03-02 | 2022-07-19 | 合肥讯飞数码科技有限公司 | 一种语音识别系统及实现前向运算的方法 |
-
2016
- 2016-10-05 JP JP2016197107A patent/JP6884946B2/ja active Active
-
2017
- 2017-09-27 WO PCT/JP2017/035018 patent/WO2018066436A1/ja active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020196021A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
WO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
JPWO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | ||
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
JPWO2021144901A1 (ja) * | 2020-01-16 | 2021-07-22 | ||
WO2021144901A1 (ja) * | 2020-01-16 | 2021-07-22 | 日本電信電話株式会社 | 音声認識装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6884946B2 (ja) | 2021-06-09 |
WO2018066436A1 (ja) | 2018-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
WO2018066436A1 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
Hwang et al. | Character-level incremental speech recognition with recurrent neural networks | |
US20210312914A1 (en) | Speech recognition using dialog history | |
Graves et al. | Bidirectional LSTM networks for improved phoneme classification and recognition | |
US8972253B2 (en) | Deep belief network for large vocabulary continuous speech recognition | |
Kuo et al. | Maximum entropy direct models for speech recognition | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
CN112908317B (zh) | 一种针对认知障碍的语音识别系统 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP2002342323A (ja) | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 | |
JP2004109590A (ja) | 音響モデル作成方法および音声認識装置 | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Yu | Adaptive training for large vocabulary continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6884946 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |