JP7423056B2 - 推論器および推論器の学習方法 - Google Patents
推論器および推論器の学習方法 Download PDFInfo
- Publication number
- JP7423056B2 JP7423056B2 JP2020059962A JP2020059962A JP7423056B2 JP 7423056 B2 JP7423056 B2 JP 7423056B2 JP 2020059962 A JP2020059962 A JP 2020059962A JP 2020059962 A JP2020059962 A JP 2020059962A JP 7423056 B2 JP7423056 B2 JP 7423056B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- state sequence
- model
- audio signal
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 71
- 238000006243 chemical reaction Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 description 40
- 238000012545 processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 238000013519 translation Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
DNNを用いた画像識別などの画像分野において、敵対的サンプル(adversarial example)についての研究が進んでいる。対象モデルのパラメータが既知である場合、対象モデルの識別誤差を最大化する敵対的勾配(adversarial gradient)に従って、入力画像に対する摂動(perturbation)を適用することで、敵対的サンプルを生成できる。例えば、信号識別器を誤認識させる敵対的ステッカーや、顔認識器を誤認識させる敵対的メガネフレームなどが知られている。
先に、ASRとTTSとを統合可能な新たなフレームワークを提供可能なASRおよびTTSを含む応用例について説明する。
次に、本実施の形態に従うASRとTTSとを統合可能な新たなフレームワーク(以下、「ASR/TTSシステム」とも称す。)を実現するための主要処理について説明する。ASR/TTSシステムは、後述するような学習済モデルを含む推論器の一例である。
フレームレベルでの合成音声と人間の自然発話との類似性を最大化するために、人間の自然発話の状態を示す状態シーケンスを定義する。状態シーケンスは、入力された音声信号に含まれる音要素(例えば、音素など)を示すことになる。
敵対的音声生成においては、各フレームの状態シーケンスを正解ラベルとして、繰り返し演算処理することで、敵対的サンプルを決定する。図4および図5を参照して説明したように、本実施の形態においては、音響モデル50のパラメータは変更されず、音響モデル50に入力される音声信号(時間波形)の更新が繰り返される。音響モデル50に入力される音声信号xiと、音声信号xiに対応して音響モデル50から出力される推論結果yiとの関係は、以下の(1)式のように示すことができる。
音声変換モデル60は、入力された音声信号を変換して出力する学習済モデルである。音声変換モデル60としては、RNN(recurrent neural network)ベースの変換モデルを採用してもよい。RNNベースの変換モデルを用いることで、入力される音声信号をフレーム毎の周波数マッピングにより人間の自然発話に相当する音声に変換できる。
次に、上述したASR/TTSシステムの具体的な実装例について説明する。
音響モデル50としては、例えば、フレームレベルの状態共有トライフォンを出力する時間遅延ニューラルネットワーク(TDNN:time delay neural network)を用いることができる(非特許文献13など参照)(以下、「TDNNモデル」とも称す。)。
(d2:音声変換モデル60)
音声変換モデル60の学習に用いる敵対的音声は、上述した手順によって構築される学習済の音響モデル50を用いて生成される。より具体的には、ASRコーパスである「LibriSpeech」の状態レベルのForced alignment(非特許文献12など参照)を用いる。
実験例においては、まず男性および女性のそれぞれについて性別依存の復元モデルを構築するとともに、既知のForced alignmentの状態シーケンスを用いて、敵対的音声および人間の音声を生成した。テストデータには、ASRコーパスである「LibriSpeech」のうち「LibriSpeech-Dev」を用いた。
次に、本実施の形態に従うASR/TTSシステム1の運用フェーズにおける実装例について説明する。
次に、本実施の形態に従うASR/TTSシステムを実現するためのハードウェア構成の一例について説明する。
次に、本実施の形態に従うASR/TTSシステムにおける処理手順について説明する。
図11は、本実施の形態に従うASR/TTSシステムの学習フェーズの手順を示すフローチャートである。図11に示す主要なステップは、典型的には、情報処理装置300のプロセッサ(CPU302および/またはGPU304)が学習プログラム314を実行することで実現される。
(g2:運用フェーズ)
図12は、本実施の形態に従うASR/TTSシステムの運用フェーズの手順を示すフローチャートである。図12に示す主要なステップは、典型的には、情報処理装置300のプロセッサ(CPU302および/またはGPU304)が推論プログラム320を実行することで実現される。
[H.変形例]
上述した敵対的サンプルのアイデアを用いた音声認識(ASR)および音声合成(TTS)のモデルの構築および相互利用を用いることで、例えば、音声とテキストとを対応付けたコーパスを増大させることもできる。
本実施の形態に従うASR/TTSシステムによれば、一連の学習処理により、音声認識(ASR)および音声合成(TTS)のいずれにも用いることができる推論器(学習済モデル)を構成できるので、学習処理に要する時間を短縮化でき、また、ネットワークサイズの増大も抑制できる。
Claims (6)
- 音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する学習済の音響モデルと、
入力された音声信号を変換して出力する学習済の音声変換モデルとを備え、
前記音響モデルは、音声信号と対応する状態シーケンスとの組を第1の教師データとして用いて学習されたものであり、
前記音声変換モデルは、前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで決定された敵対的音声と、当該目的の状態シーケンスに対応する音声信号との組を第2の教師データとして用いて学習されたものである、推論器。 - 前記敵対的音声は、前記目的の状態シーケンスと、前記音響モデルに入力された前記音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、前記音声信号を更新することで決定される、請求項1に記載の推論器。
- 前記決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が前記第2の教師データに採用される、請求項1または2に記載の推論器。
- 任意の音声信号が前記音響モデルに入力されることで出力される状態シーケンスを対応するテキストに復元する言語モデルをさらに備える、請求項1~3のいずれか1項に記載の推論器。
- 任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する状態シーケンス生成モジュールと、
前記状態シーケンス生成モジュールが出力した状態シーケンスと同じ状態シーケンスが前記音響モデルから出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定する敵対的音声生成モジュールとをさらに備え、
前記音声変換モデルは、前記敵対的音声生成モジュールにより決定された敵対的音声が入力されることで、前記任意のテキストに対応する音声を出力する、請求項1~4のいずれか1項に記載の推論器。 - 推論器の学習方法であって、前記推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する音響モデルと、入力された音声信号を変換して出力する音声変換モデルとを備え、前記学習方法は、
音声信号と対応する状態シーケンスとの組からなる第1の教師データを用意するステップと、
前記第1の教師データを用いて、前記音響モデルを学習するステップと、
前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定するステップと、
前記決定された敵対的音声と対応する音声信号との組からなる第2の教師データを用意するステップと、
前記第2の教師データを用いて、前記音声変換モデルを学習するステップとを備える、推論器の学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020059962A JP7423056B2 (ja) | 2020-03-30 | 2020-03-30 | 推論器および推論器の学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020059962A JP7423056B2 (ja) | 2020-03-30 | 2020-03-30 | 推論器および推論器の学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021157145A JP2021157145A (ja) | 2021-10-07 |
JP7423056B2 true JP7423056B2 (ja) | 2024-01-29 |
Family
ID=77918294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020059962A Active JP7423056B2 (ja) | 2020-03-30 | 2020-03-30 | 推論器および推論器の学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7423056B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
WO2023248398A1 (ja) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | 学習装置、学習方法、学習プログラム及び音声合成装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020027193A (ja) | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783875B2 (en) * | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
-
2020
- 2020-03-30 JP JP2020059962A patent/JP7423056B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020027193A (ja) | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
齋藤佑樹 阿久澤圭 橘健太郎,音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習,日本音響学会 2019年 秋季研究発表会講演論文集CD-ROM,2019年09月06日,pp.963-966 |
Also Published As
Publication number | Publication date |
---|---|
JP2021157145A (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562733B2 (en) | Deep learning models for speech recognition | |
US10347241B1 (en) | Speaker-invariant training via adversarial learning | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
JP6979028B2 (ja) | 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 | |
Huang et al. | Joint optimization of masks and deep recurrent neural networks for monaural source separation | |
US10629185B2 (en) | Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model | |
US8930183B2 (en) | Voice conversion method and system | |
Yi et al. | CTC regularized model adaptation for improving LSTM RNN based multi-accent mandarin speech recognition | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
Lu et al. | Automatic speech recognition | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Kadyan et al. | In domain training data augmentation on noise robust Punjabi Children speech recognition | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
Nandi et al. | Parametric representation of excitation source information for language identification | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
Ouisaadane et al. | A comparative study for Arabic speech recognition system in noisy environments | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
Das et al. | Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions. | |
EP4068279A1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP7146038B2 (ja) | 音声認識システム及び方法 | |
Saha | Development of a bangla speech to text conversion system using deep learning | |
Sodanil et al. | Thai word recognition using hybrid MLP-HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7423056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |