JP2021039218A - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP2021039218A JP2021039218A JP2019159953A JP2019159953A JP2021039218A JP 2021039218 A JP2021039218 A JP 2021039218A JP 2019159953 A JP2019159953 A JP 2019159953A JP 2019159953 A JP2019159953 A JP 2019159953A JP 2021039218 A JP2021039218 A JP 2021039218A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- symbol string
- learning
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
ここで、学習装置の詳細を説明する前に、end-to-endの音声認識モデル(ニューラルネットワーク)を用いた音声認識装置について説明する。音声認識装置は、後述する学習装置において学習済みのパラメータが設定された音声認識モデルを用いて音声認識を行う。図1に示すように、音声認識装置10は、制御部11及び記憶部19を有する。
図2を用いて、音声認識装置10の処理の流れを説明する。図2は、音声認識装置の処理の流れを示すフローチャートである。図2に示すように、まず、音声認識装置10は、記憶部19からパラメータを読み込む(ステップS11)。また、音声認識装置10は、認識用の音声データの入力を受け付ける(ステップS12)。
第1の実施形態について説明する。第1の実施形態の学習装置は、音声認識エラー及び音声合成エラーを用いて音声認識モデルのパラメータの最適化を行う。また、第1の実施形態では、教師ありの音声データが学習に用いられる。
図3を用いて、第1の実施形態の学習装置の構成について説明する。図3は、第1の実施形態に係る学習装置の構成の一例を示す図である。図3に示すように、学習装置20は、制御部200及び記憶部290を有する。
図4を用いて、本実施形態の学習装置20の処理の流れを説明する。図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、学習装置20は、記憶部290から各ニューラルネットワークのパラメータを読み込む(ステップS21)。ここで、学習装置20は、教師ありの音声データ及び記号列データの入力を受け付ける(ステップS22)。
これまで説明してきたように、音声認識エラー計算部222は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の音声データをニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する。音声合成エラー計算部221は、音声データと記号列データとが対応付けられた学習用データを用いて、学習用データ中の記号列データをニューラルネットワークにより変換して得た音声データの推定結果と、学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する。更新部250は、音声認識エラーと音声合成エラーとから計算される所定の基準に基づき、ニューラルネットワークのパラメータを更新する。
ここで、図7を用いて、従来技術と実施形態を用いて行った実験について説明する。図7は、実験結果を示す図である。実験では、第1の実施形態の手法で学習した音声認識モデルと、従来の教師あり学習手法を用いて学習した音声認識モデル(非特許文献1を参照)とを用いて連続単語認識処理を行った。また、実験条件は以下の通りである。
<従来技術と実施形態で共通の条件>
・教師ありのデータ:100時間の小規模なデータセット
・音声データ:1フレーム当たり80次元のFBANK(入力単位は80次元×発話時間、学習用データに基づく平均分散モデルの正規化パラメータで正規化済み)
・記号列を特定する情報:アルファベットや数字等の文字単位の記号の系列
・パラメータ更新アルゴリズム:AdaDelta(並列処理する発話のミニバッチ数は30個)
列のみ500時間相当)
第2の実施形態の学習装置20の構成は、第1の実施形態と同じである。ただし、特徴量エラー計算部240と、更新部250の処理が第1の実施形態と異なる。以下、第1の実施形態と異なる部を、特徴量エラー計算部240´、更新部250´とし、詳細を説明する。
図10を用いて、従来の学習装置の処理について説明する。図10は、従来の学習装置の処理の流れを示すフローチャートである。図10に示すように、まず、学習装置20aは、記憶部290からパラメータを読み込む(ステップS11a)。次に、学習装置20aは、教師ありの音声データ及び記号列を特定する情報の入力を受け付ける(ステップS12a)。
実施形態の学習装置20の、音声特徴量符号化部211及び記号列復号化部214のそれぞれに対応するニューラルネットワークは、従来の学習装置20aで用いられるものと同様のものであってもよい。このため、例えば、従来の学習装置20aを用いた教師あり学習により各ニューラルネットワークのパラメータの初期値を決定しておくことができる。つまり、例えば第1の実施形態の学習装置20は、学習装置20aで学習されたニューラルネットワークf(・)、d(・)に、ニューラルネットワークc(・)、g(・)を(第2の実施形態の場合はさらにニューラルネットワークh(・)も)加えてさらに学習を行うことができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
11、200 制御部
19 記憶部
20 学習装置
110、210 変換部
111、211 音声特徴量符号化部
112、214 記号列復号化部
120 探索部
212 記号列特徴量符号化部
213 音声復号化部
220 教師あり学習エラー計算部
221 音声合成エラー計算部
222 音声認識エラー計算部
240 特徴量エラー計算部
250 更新部
260 判定部
290 記憶部
Claims (5)
- ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算部と、
前記音声認識エラーと前記音声合成エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 学習用に与えられた音声データを前記ニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた記号列データを前記ニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する特徴量エラー計算部をさらに有し、
前記更新部は、前記音声認識エラーと前記音声合成エラーと前記特徴量エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新することを特徴とする請求項1に記載の学習装置。 - 前記ニューラルネットワークは、
記号列データを中間特徴量に変換する記号列特徴量符号化部と、
音声データを中間特徴量に変換する音声特徴量符号化部と、
前記中間特徴量を記号列を特定する情報に変換する記号列復号化部と、
前記中間特徴量を音声データに変換する音声復号化部と、
を有し、
前記音声合成エラー計算部における前記音声データの推定結果は、前記学習用データ中の記号列データを前記記号列特徴量符号化部により変換して得た中間特徴量を、前記音声復号化部により変換して得たものであり、
前記認識エラー計算部における前記記号列を特定する情報の推定結果は、前記学習用データ中の音声データを前記音声特徴量符号化部により変換して得た中間特徴量を、前記記号列復号化部により変換して得たものであることを特徴とする請求項1に記載の学習装置。 - ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置が実行する学習方法であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算工程と、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の記号列データを前記ニューラルネットワークにより変換して得た音声データの推定結果と、前記学習用データ中の音声データとの非類似度を表す音声合成エラーを計算する音声合成エラー計算工程と、
前記音声認識エラーと前記音声合成エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。 - コンピュータを、請求項1から3のいずれか1項に記載の学習装置として機能させるための学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019159953A JP2021039218A (ja) | 2019-09-02 | 2019-09-02 | 学習装置、学習方法及び学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019159953A JP2021039218A (ja) | 2019-09-02 | 2019-09-02 | 学習装置、学習方法及び学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021039218A true JP2021039218A (ja) | 2021-03-11 |
Family
ID=74848557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019159953A Pending JP2021039218A (ja) | 2019-09-02 | 2019-09-02 | 学習装置、学習方法及び学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021039218A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023248398A1 (ja) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム及び音声合成装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019120841A (ja) * | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2019133046A (ja) * | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
-
2019
- 2019-09-02 JP JP2019159953A patent/JP2021039218A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019120841A (ja) * | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2019133046A (ja) * | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
Non-Patent Citations (1)
Title |
---|
KARITA, SHIGEKI ET AL.: "SEMI-SUPERVISED END-TO-END SPEECH RECOGNITION USING TEXT-TO-SPEECH AND AUTOENCODERS", ICASSP 2019, JPN6022035989, April 2019 (2019-04-01), pages 6166 - 6170, ISSN: 0005021558 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023248398A1 (ja) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム及び音声合成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
US20200365142A1 (en) | Encoder-decoder models for sequence to sequence mapping | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US20190287515A1 (en) | Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation | |
EP4064277B1 (en) | Method and apparatus for training speech recognition model, device and storage medium | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US20170243114A1 (en) | Adaptation of model for recognition processing | |
JPH05333898A (ja) | 時系列信号処理装置 | |
JPH07261784A (ja) | パターン認識方法、音声認識方法および音声認識装置 | |
CN109885811B (zh) | 文章风格转换方法、装置、计算机设备及存储介质 | |
JP2023503717A (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP2021039218A (ja) | 学習装置、学習方法及び学習プログラム | |
JP7212596B2 (ja) | 学習装置、学習方法および学習プログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
CN114528812A (zh) | 一种语音识别方法、系统、计算设备及存储介质 | |
Yang et al. | A chaotic time series prediction model for speech signal encoding based on genetic programming | |
JP2021039215A (ja) | 学習装置、学習方法及び学習プログラム | |
JP2021039217A (ja) | 学習装置、学習方法及び学習プログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
WO2022110730A1 (zh) | 基于标签的优化模型训练方法、装置、设备及存储介质 | |
CN115270719A (zh) | 基于多模态信息的文本摘要生成方法、训练方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190917 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190924 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211021 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230328 |