JP2021033466A - 符号化装置、復号装置、パラメータ学習装置、およびプログラム - Google Patents
符号化装置、復号装置、パラメータ学習装置、およびプログラム Download PDFInfo
- Publication number
- JP2021033466A JP2021033466A JP2019150516A JP2019150516A JP2021033466A JP 2021033466 A JP2021033466 A JP 2021033466A JP 2019150516 A JP2019150516 A JP 2019150516A JP 2019150516 A JP2019150516 A JP 2019150516A JP 2021033466 A JP2021033466 A JP 2021033466A
- Authority
- JP
- Japan
- Prior art keywords
- complex
- complex number
- unit
- data
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims abstract description 107
- 238000013528 artificial neural network Methods 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 239000006185 dispersion Substances 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000001228 spectrum Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
まず、本明細書において提案される新たなモデルである複素VAE(variational autoencoder)について説明する前に、従来のモデルであるVAEについて説明する。
図3に示すモデルを、複素変分自己符号化器(複素VAE;complex-valued variationalautoencoder ; CVAE)と称する。
図5は、本技術を適用した符号化装置の一実施の形態の構成例を示すブロック図である。
図9は、パラメータ学習装置の構成例を示すブロック図である。
図11乃至図13を参照して、複素VAEについて行われた実験について説明する。
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
Claims (16)
- 複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部
を備える符号化装置。 - 前記複素ニューラルネットワークは、確率分布を使って潜在変数を求める生成モデルであるVAE(variational autoencoder)に基づいて、複素数データをそのまま扱えるように表現された複素VAEである
請求項1に記載の符号化装置。 - 前記複素ニューラルネットワークの出力層となるノードが、前記複素数の潜在変数の分布の平均を出力する平均出力部、前記複素数の潜在変数の分布の分散を出力する分散出力部、および、前記複素数の潜在変数の分布の擬似分散を出力する擬似分散出力部により構成される
請求項2に記載の符号化装置。 - 前記複素数の観測データを取得する複素数データ取得部と、
前記複素数の観測データを単位時間ごとに切り出してスペクトル特徴量を算出し、そのスペクトル特徴量を正規化して前記符号化部に供給する前処理部と、
前記複素数のパラメータを保持し、前記符号化部に設定するパラメータ保持部と
をさらに備える請求項1に記載の符号化装置。 - 符号化装置のコンピュータに、
複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力すること
を含む符号化処理を実行させるためのプログラム。 - 複素数の観測データが符号化された符号化データである複素数の潜在変数を、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部
を備える復号装置。 - 前記複素ニューラルネットワークは、確率分布を使って潜在変数を求める生成モデルであるVAE(variational autoencoder)に基づいて、複素数データをそのまま扱えるように表現された複素VAEである
請求項7に記載の復号装置。 - 前記複素ニューラルネットワークの出力層となるノードが、複素平均を出力する複素平均出力部、分散行列を出力する分散行列出力部、および、擬似分散行列を出力する擬似分散行列出力部により構成される
請求項8に記載の復号装置。 - 前記復号部から出力される前記復号データに対して、単位時間ごとに正規化されたスペクトル特徴量を元に戻す処理を施す後処理部と、
前記後処理部において後処理が施された前記復号データを出力する出力部と、
前記複素数のパラメータを保持し、前記復号部に設定するパラメータ保持部と
をさらに備える請求項7に記載の復号装置。 - 復号装置のコンピュータに、
複素数の観測データが符号化された符号化データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力すること
を含む復号処理を実行させるためのプログラム。 - 複素数の観測データを、第1の複素数のパラメータが設定されたニューラルネットワークである第1の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部と、
前記符号化データを、第2の複素数のパラメータが設定されたニューラルネットワークである第2の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部と
を備え、
前記第1の複素数のパラメータおよび前記第2の複素数のパラメータを、勾配法を利用した学習により求める
パラメータ学習装置。 - 前記符号化部により符号化された前記符号化データについて、誤差を逆伝播させるための補助演算を行う補助演算部と、
前記補助演算部から出力される複素数の潜在変数の分布に対するサンプリングを行い、複素数の潜在変数のサンプルを取得して、前記復号部に供給するサンプリング部と
をさらに備える請求項13に記載のパラメータ学習装置。 - 前記第1の複素数のパラメータおよび前記第2の複素数のパラメータが、所定の終了条件を満足したか否かを判定する判定部と、
前記判定部により所定の終了条件を満足していないと判定された場合に、前記第1の複素数のパラメータおよび前記第2の複素数のパラメータを更新するパラメータ更新部と
をさらに備える請求項13に記載のパラメータ学習装置。 - パラメータ学習装置のコンピュータに、
複素数の観測データを、第1の複素数のパラメータが設定されたニューラルネットワークである第1の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力することと、
前記符号化データを、第2の複素数のパラメータが設定されたニューラルネットワークである第2の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力することと
を含み、
前記第1の複素数のパラメータおよび前記第2の複素数のパラメータを、勾配法を利用した学習により求める
パラメータ学習処理を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019150516A JP7368827B2 (ja) | 2019-08-20 | 2019-08-20 | 符号化および復号装置、パラメータ学習装置、並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019150516A JP7368827B2 (ja) | 2019-08-20 | 2019-08-20 | 符号化および復号装置、パラメータ学習装置、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033466A true JP2021033466A (ja) | 2021-03-01 |
JP7368827B2 JP7368827B2 (ja) | 2023-10-25 |
Family
ID=74678274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019150516A Active JP7368827B2 (ja) | 2019-08-20 | 2019-08-20 | 符号化および復号装置、パラメータ学習装置、並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7368827B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144961A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142278A (ja) * | 2017-02-28 | 2018-09-13 | 国立大学法人電気通信大学 | 符号化装置、符号化方法およびプログラム |
-
2019
- 2019-08-20 JP JP2019150516A patent/JP7368827B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142278A (ja) * | 2017-02-28 | 2018-09-13 | 国立大学法人電気通信大学 | 符号化装置、符号化方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
椋野純一 ほか: "複素ニューラルネットワークにおけるデータの対称性を用いた自然勾配法", 電子情報通信学会技術研究報告, vol. No.475, 第117巻, JPN6023029326, 16 April 2018 (2018-04-16), JP, pages 97 - 102, ISSN: 0005108161 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144961A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7368827B2 (ja) | 2023-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hoogeboom et al. | Blurring diffusion models | |
Zhao et al. | Wasserstein GAN and waveform loss-based acoustic model training for multi-speaker text-to-speech synthesis systems using a WaveNet vocoder | |
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP7274184B2 (ja) | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 | |
Hwang et al. | LP-WaveNet: Linear prediction-based WaveNet speech synthesis | |
JP2018141917A (ja) | 学習装置、音声合成システムおよび音声合成方法 | |
US20230317056A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
JP6783475B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
EP3906551B1 (en) | Method, apparatus and system for hybrid speech synthesis | |
JP2008519308A (ja) | 信号特性を用いた効率的なオーディオ符号化 | |
JP2008519308A5 (ja) | ||
CN116391191A (zh) | 用于处理滤波器组域中的音频样本的生成神经网络模型 | |
JP7368827B2 (ja) | 符号化および復号装置、パラメータ学習装置、並びにプログラム | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JPWO2019044401A1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
JP7019138B2 (ja) | 符号化装置、符号化方法およびプログラム | |
Nakashika | Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex Spectra. | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
KR102363636B1 (ko) | 통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치 | |
Heymans et al. | Efficient acoustic feature transformation in mismatched environments using a Guided-GAN | |
JP2022127898A (ja) | 声質変換装置、声質変換方法及びプログラム | |
JP7011309B2 (ja) | 符号化装置、符号化方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7368827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |