JP2021033466A

JP2021033466A - 符号化装置、復号装置、パラメータ学習装置、およびプログラム

Info

Publication number: JP2021033466A
Application number: JP2019150516A
Authority: JP
Inventors: 亘中鹿; Toru Nakashika
Original assignee: University of Electro Communications NUC
Current assignee: University of Electro Communications NUC
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2021-03-01
Anticipated expiration: 2039-08-20
Also published as: JP7368827B2

Abstract

【課題】より高品位に符号化および復号する。【解決手段】符号化部は、複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する。復号部は、複素数の観測データが符号化された符号化データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する。本技術は、例えば、音声データや画像データなどの複素数データの符号化および復号に適用できる。【選択図】図３

Description

本開示は、符号化装置、復号装置、パラメータ学習装置、およびプログラムに関し、特に、より高品位に符号化および復号することができるようにした符号化装置、復号装置、パラメータ学習装置、およびプログラムに関する。

近年、ディープラーニングを用いた手法が飛躍的に高い精度を上げており、画像認識や音声認識などの幅広い分野において盛んに研究が行われている（例えば、非特許文献１参照）。

また、これまでに数多くのディープラーニング手法が提案されており、その中の最も代表的な生成モデルの一つとして、変分オートエンコーダ（variational autoencoder; VAE）が挙げられる（例えば、非特許文献２参照）。

Y. LeCun et al., "Deep learning," Nature,vol. 521, no. 7553, pp. 436-444, 2015. D. P. Kingma and M. Welling, "Auto-encodingvariational bayes," in ICML, 2014.

ところで、VAEは、これまで様々な分野で用いられてきたにもかかわらず、潜在変数や入力特徴量はバイナリ値または実数値を扱うことが仮定されてきた。しかしながら、音声の複素スペクトル、MRI（Magnetic Resonance Imaging）画像、音響インテンシティ、衛星画像などのように、実データに基づいた画像認識や音声信号処理では複素数データを取り扱う場合が多い。また、音声認識や音声合成では、音響特徴量としてMFCC（Mel-Frequency Cepstrum Coefficients）やメルケプストラム特徴量、STRAIGHTスペクトルなど、振幅スペクトルに基づいた特徴量が利用されており、位相スペクトルと比較して振幅スペクトルの方が音声認識や音声合成に効果的であることが知られている。さらに、VAEを用いた特徴抽出でも入力には実数値のメルケプストラム特徴量が利用される場合が多い。

しかしながら、これらは位相情報が欠落しており、元の音声データに対して少なからず情報の損失が存在するため、位相情報を含めた複素数データをそのまま表現することが重要となる。例えば、ニューラルネットワークや、制限ボルツマンマシン（restricted Boltzmann machine）、非負値行列因子分解（non-negative matrix factorization;NMF）などでは、それぞれ複素数データを表現する拡張表現が提案されている。

そこで、このような位相情報の欠落や情報の欠損などを回避して、高品位に符号化および復号できるようにすることが求められている。

本開示は、このような状況に鑑みてなされたものであり、より高品位に符号化および復号することができるようにするものである。

本開示の第１の側面の符号化装置は、複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部を備える。

本開示の第１の側面のプログラムは、複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力することを含む。

本開示の第１の側面においては、複素数の観測データが、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化され、複素数の潜在変数の分布が符号化データとして出力される。

本開示の第２の側面の復号装置は、複素数の観測データが符号化された符号化データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部を備える。

本開示の第２の側面のプログラムは、複素数の観測データが符号化された符号化データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力することを含む。

本開示の第２の側面においては、複素数の観測データが符号化された符号化データが、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号されて得られる復号データとして、再構築された前記複素数の観測データが出力される。

本開示の第３の側面のパラメータ学習装置は、複素数の観測データを、第１の複素数のパラメータが設定されたニューラルネットワークである第１の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部と、前記符号化データを、第２の複素数のパラメータが設定されたニューラルネットワークである第２の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部とを備え、前記第１の複素数のパラメータおよび前記第２の複素数のパラメータを、勾配法を利用した学習により求める。

本開示の第３の側面のプログラムは、複素数の観測データを、第１の複素数のパラメータが設定されたニューラルネットワークである第１の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力することと、前記符号化データを、第２の複素数のパラメータが設定されたニューラルネットワークである第２の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力することとを含み、前記第１の複素数のパラメータおよび前記第２の複素数のパラメータを、勾配法を利用した学習により求める。

本開示の第３の側面においては、複素数の観測データが、第１の複素数のパラメータが設定されたニューラルネットワークである第１の複素ニューラルネットワークを用いて複素数のまま符号化され、複素数の潜在変数の分布が符号化データとして出力され、その符号化データが、第２の複素数のパラメータが設定されたニューラルネットワークである第２の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された複素数の観測データが出力される。そして、第１の複素数のパラメータおよび第２の複素数のパラメータが、勾配法を利用した学習により求められる。

本開示の第１乃至第３の側面によれば、より高品位に符号化および復号することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

VAEの構造を示す図である。 VAEにおけるReparameterization Trickについて説明する図である。複素VAEの構造を示す図である。複素VAEにおけるReparameterization Trickについて説明する図である。本技術を適用した符号化装置の一実施の形態の構成例を示すブロック図である。本技術を適用した復号装置の一実施の形態の構成例を示すブロック図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。パラメータ学習装置の構成例を示す図である。パラメータ学習処理を説明するフローチャートである。実験条件の一例を示す図である。 PESQ評価の一例を示す図である。実験結果の一例を示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

＜従来のモデルであるVAE＞
まず、本明細書において提案される新たなモデルである複素VAE（variational autoencoder）について説明する前に、従来のモデルであるVAEについて説明する。

VAEは、D次元の観測データx∈R^DからH次元の潜在変数h∈R^Hの分布を表す確率的なエンコーダq_φ(h|x)と、逆に潜在変数から観測データの分布を表す確率的なデコーダp_θ(x|h)とを、それぞれ異なるニューラルネットワークで表現した生成モデルである。また、エンコーダq_φ(h|x)のモデルパラメータφ、および、デコーダp_θ(x|h)のモデルパラメータθ（正確には、θはモデル全体のパラメータ）は、AEVB（auto-encoding variational bayes）アルゴリズムによって推定される。

図１には、VAEの構造が示されている。例えば、エンコーダ１１は、観測データｘを入力し、潜在変数ｈの確率分布を出力する。一方、デコーダ１２は、潜在変数ｈを入力し、観測データｘ’を再構築する。

ここで、観測データｘの対数尤度は、次の式（１）に示すイェンセンの不等式より、下限L(θ,φ;x)を求めることができる。ただし、式（１）において、D_KL(q||p)は、分布qおよび分布pどうしの間のKLダイバージェンスを表す。

さらに、この下限L(θ, φ; x)は、次の式（２）に示すように変形することができる。

この式（２）の右辺第一項は、観測データｘから得られる潜在変数ｈから生成されるデータの対数尤度の期待値を表している。また、この式（２）の右辺第二項は、観測データｘから得られる潜在変数ｈの分布q_φ(h|x)を、潜在変数ｈの単純な事前分布p_θ(h)に近付ける制約項を表している。

そして、補助関数法の考え方から、下限L(θ,φ;x)を最大化するエンコーダ１１のモデルパラメータφおよびデコーダ１２のモデルパラメータθは、対数尤度log p_θ(x)についても最適化する。したがって、VAEでは、下限L(θ,φ;x)を最大化するように勾配法を用いて、エンコーダ１１のモデルパラメータφおよびデコーダ１２のモデルパラメータθを最適化する。

しかしながら、上述した式（２）の右辺第一項について、エンコーダ１１のモデルパラメータφに関する勾配を求めることは困難である。そこで、以下で説明するReparameterization Trickが用いられる。

例えば、VAEを用いた多くの研究は、潜在変数ｈの確率分布としてGaussian分布を仮定している。この場合、エンコーダ１１のニューラルネットワークは、Gaussian分布の平均μ∈R^Hおよび分散σ∈R+^Hの結合ベクトル[μ^Ｔ σ^Ｔ]^Ｔを出力する。

そして、VAEの順伝播では、次の式（３）より得られる潜在変数ｈのサンプルh~をデコーダ１２のニューラルネットワークの入力とし、その出力である再構築データx’を取得する。

ここで、式（３）において、N(・;μ,Σ)は、平均μ、分散共分散行列Σの多変量正規分布を表す。また、Δ(・)は、入力を対角成分とする行列を返す関数とする。

しかしながら、図２のＡに示すように、潜在変数ｈはサンプルされたものであるので微分可能ではない。したがって、学習時にデコーダ１２のニューラルネットワークから逆伝播された誤差を、エンコーダ１１のニューラルネットワークへ逆伝播することができない。

そこで、次の式（４）に示すように、標準正規分布からサンプルされた標準正規乱数εを用いて、潜在変数ｈを計算する。

これにより、図２のＢに示すように、学習時にデコーダ１２のニューラルネットワークから逆伝播された誤差を、エンコーダ１１のニューラルネットワークへ逆伝播させることができる。

ここで、図２は、Gaussian 分布に従う潜在変数を仮定したVAEにおいて、図２のＡは、Reparameterization Trickを使用しない場合を示し、図２のＢは、Reparameterization Trickを使用した場合を示している。また、図２において、実線は順伝播を表し、点線はサンプリングを表す。

次に、Gaussian 分布を仮定したVAEおよびパラメータ最適化について説明する。

上述したように、VAEのパラメータは、上記の式（２）を最大化するように勾配法を用いて最適化することで求められる。ここでは、デコーダ１２のニューラルネットワークの出力確率として、連続値データを表現する単位分散の多変量正規分布を、次の式（５）に示すように仮定する。

ただし、式（５）で用いられている複素平均a∈R^Dは、デコーダ１２のニューラルネットワークの出力値である。また、期待値E_qφ(h|x)[f(h)]は、モンテカルロ法によって、次の式（６）に示すように近似することができるが、この式（６）で用いられるサンプル数Ｌ＝１としても十分な性能となることが知られている。

以上より、上述した式（２）の右辺第一項は、次の式（７）により表される。なお、式（７）で用いられているＫは、モデルのパラメータに依存しない項である。

また、潜在変数ｈの分布としてGaussian分布を仮定した場合、多くの既存研究は、潜在変数ｈの事前分布p_θ(h)を、次の式（８）に示すように、標準正規分布と同時に仮定している。

したがって、上述した式（２）の右辺第二項は、次の式（９）に示すように、解析的に求めることができる。

以上のように、VAEでは、観測データの分布としてGaussianを仮定しているため、実数値を取り得る観測データを表現することができる。また、Bernoulli分布を仮定して二値データを適切に表現することもできる。なお、この場合には、式（７）のloss関数はクロスエントロピーとなる。

しかしながら、いずれも分布の仮定上においても、従来、複素スペクトルなどの複素数データを直接表現することはできなかった。そこで、以下で説明するように、従来のVAEに基づいて、エンコーダにより得られる潜在変数から、デコーダを通して複素数データを表現する新たな生成モデルを提案する。

＜提案のモデルである複素VAE＞
図３に示すモデルを、複素変分自己符号化器（複素VAE；complex-valued variationalautoencoder ; CVAE）と称する。

図３に示すように、エンコーダ２１は、複素数の観測データｚを入力し、複素数の潜在変数ｈの確率分布を出力する。一方、デコーダ２２は、複素数の潜在変数ｈを入力し、複素数の観測データｚ’を再構築する。

複素VAEでは、複素数の潜在変数h∈C^Hからデコーダ２２を通して得られる観測データz∈C^Dは、次の式（１０）に示すように、複素平均a∈C^D、分散行列Γ∈C^D×D、および、擬似分散行列C∈C^D×Dの多変量複素正規分布に従うとする。

ここで、式（１０）で用いられている複素平均a、分散行列Γ、および擬似分散行列Cは、いずれもデコーダ２２の出力であり、デコーダ２２のパラメータθは、全て複素数である。なお、より簡易化するため、分散行列Γを単位分散とし、擬似分散行列Cを零擬似分散行列（すなわち、p_θ(z|h)=Nc(x;μ,I,O)）として、複素平均aのみがデコーダ２２の出力であるとすることができる。

また、複素VAEでは潜在変数に対しても複素正規分布を仮定する。とりわけ、複素数を表現する単純な（次元独立な）複素正規分布として対角な分散行列Γおよび擬似分散行列Cの分布を、次の式（１１）に示すように仮定する。

ここで、φは、エンコーダ２１の複素パラメータ集合であり、平均μ∈C^H、分散σ∈R^H、擬似分散δ∈C^Hはいずれも、入力される複素数の観測データｚに対するエンコーダ２１の出力である。そして、複素VAEでは、潜在変数ｈの事前分布として、次の式（１２）に示すように、最も単純な複素正規分布である標準複素正規分布と仮定する。

このとき、潜在変数に関する制約項は、次の式（１３）に示すように解析的に計算することができる。

ただし、式（１３）において、・²は、要素ごとの二乗を表し、|・|は、絶対値を表す。また、式（１３）で示す制約項は、エンコーダ２１を通して得られる複素潜在変数の分布について、平均μや分散σだけでなく擬似分散δも入力により変化する中で、なるべく単純な複素正規分布に近付ける役割を果たす。

また、複素VAEの目的関数は、従来のVAEと同様に、次の式（１４）で示す制約付き対数尤度の下限Lを求める関数とする。

次に、複素VAEにおけるReparameterizationTrickおよびパラメータ最適化について説明する。

複素VAEでは、上述した式（１４）を最大化するように、例えば、複素勾配法を用いて複素VAEのパラメータφおよびパラメータθを最適化する。例えば、最も単純な複素勾配法は複素最急降下法であり、複素数の学習率α∈C（αの実部は０より大きい：Re(α)>0）を用いて、パラメータθは、次の式（１５）を繰り返し計算することで更新される。

なお、このようなパラメータθの更新の拡張として、例えば、複素Adam(Adaptive moment estimation)を用いてもよい。また、式（１５）ではパラメータθについて示したが、パラメータφについても同様に、更新することができる。

ただし、この式（１５）における複素数の偏微分は、パラメータθの実部Re(θ)および虚部Im（θ）により、次の式（１６）で示すWirtinger微分である。

しかしながら、上述した式（１１）に従って潜在変数を単純にサンプリングし、デコーダ２２へ入力すると、このプロセスが微分可能ではないためエンコーダ２１側へ誤差を逆伝播することができないことになる。そこで、上述したような従来のVAEと同様に、標準正規分布に従う乱数を用いて潜在変数のサンプルを表現する、複素VAEにおけるReparameterization Trickを提案する。

例えば、複素数の潜在変数h∈C^Hは、実部x∈R^Hおよび虚部y∈R^Hを用いて、h=x+iyと記述することができる。そこで、上述した式（１１）の仮定より、複素数の潜在変数hの各要素は互いに独立となり、複素数の潜在変数hの実部xおよび虚部yは、それぞれ平均μの実部Re(μ)および虚部Im(μ)、並びに、分散σの実部σ_xおよび虚部σ_yの正規分布に従う。ただし、分散σの実部σ_xおよび虚部σ_yは、次の式（１７）で表される。

また、複素数の潜在変数hの実部xおよび虚部yの添字の対応する要素間には相関があり、その相関係数ベクトルρ∈R^Hは、次の式（１８）で表される。

そして、次の式（１９）に示すように、標準正規乱数ε_x〜N(0,I)を用いて複素数の潜在変数hの実部xをサンプリングしたとき、複素数の潜在変数hの虚部yは、次の式（２０）に示すような条件付確率に従う。

したがって、標準正規乱数ε_y〜N(0,I)を用いて、次の式（２１）を計算することで、複素数の潜在変数hの虚部yのサンプルy~を得ることができる。ただし、この式（１）において、√・は要素ごとの平方根を表し、・²は要素ごとの二乗を表す。

以上をまとめると、複素潜在変数のサンプルh~は、図４に示すように、標準正規乱数ε_xおよび標準正規乱数ε_yを用いて、次の式（２２）に示すように表すことができる。

なお、この式（２２）で用いられている補助演算係数κ_ｘおよびκ_ｙは、次の式（２３）に示すように定義される。

ここで、補助演算係数κ_ｘおよびκ_ｙは、図４に示すようにデコーダ２２からエンコーダ２１へ誤差を逆伝播することが可能となるような複素数の潜在変数ｈの分布を求めるための補助的な演算を行うのに用いられる。即ち、エンコーダ２１から出力される分散σおよび擬似分散δから直接的に複素数の潜在変数ｈの分布を求めるのではなく、分散σおよび擬似分散δから式（２３）に従って補助的に補助演算係数κ_ｘおよびκ_ｙを求めた後に、補助演算係数κ_ｘおよびκ_ｙから複素数の潜在変数ｈの分布が求められる。

なお、学習を安定化させるため、例えば、分散および擬似分散に代えて、対数分散および対数擬似分散をエンコーダ２１の出力としてもよい。このようなテクニックは、従来のVAEでもしばしば同様に用いられる。

＜符号化装置および復号装置の構成例＞
図５は、本技術を適用した符号化装置の一実施の形態の構成例を示すブロック図である。

図５に示すように、符号化装置３１は、複素数データ取得部４１、前処理部４２、パラメータ保持部４３、および符号化部４４を備えて構成される。例えば、符号化装置３１には、複素数の観測データｚが入力され、符号化装置３１からは、複素数の潜在変数ｈの分布が出力される。

複素数データ取得部４１は、符号化装置３１において符号化の対象となる複素数の観測データｚが供給されると、その複素数の観測データｚを取得して、前処理部４２に供給する。例えば、符号化装置３１における符号化の対象としては、音声データや画像データなど様々なデータが適用可能であり、それらのデータは、複素数データとして供給される。

前処理部４２は、複素数データ取得部４１から供給された複素数の観測データｚに対して、符号化部４４において符号化が行われる前に必要となる前処理を施す。例えば、前処理部４２は、符号化装置３１において音声データを符号化の対象とする場合には、その音声データを単位時間（以下、フレームと称する）ごとに切り出す。そして、前処理部４２は、フレームごとの音声データから、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）やメルケプストラム特徴量などのようなスペクトル特徴量を算出する。さらに、前処理部４２は、フレームごとの音声データのスペクトル特徴量を正規化して、符号化部４４に供給する。

パラメータ保持部４３は、符号化部４４の複素ニューラルネットワーク４５に設定されるパラメータφを保持しており、後述する図９のパラメータ学習装置６１において勾配法を利用した学習により求められたパラメータφが供給される。

符号化部４４は、複素ニューラルネットワーク４５により構成され、パラメータ保持部４３で保持されているパラメータφが設定された複素ニューラルネットワーク４５により、前処理部４２において前処理が施された複素数の観測データｚを符号化する。

複素ニューラルネットワーク４５は、上述したように、従来のVAEを、複素数データをそのまま扱うことができるように拡張表現されたモデルである複素VAEである。例えば、複素ニューラルネットワーク４５の出力層となる各ノードは、複素正規分布の平均μを出力する平均出力部４６、複素正規分布の分散σを出力する分散出力部４７、および、複素正規分布の擬似分散δを出力する擬似分散出力部４８により構成される。

そして、符号化部４４は、複素ニューラルネットワーク４５の出力に基づき、複素数の観測データｚを符号化した符号化データとして、複素数の潜在変数ｈの分布を出力する。

例えば、符号化部４４は、平均出力部４６から出力される平均μ、分散出力部４７から出力される分散σ、および、擬似分散出力部４８から出力される擬似分散δを用いて、上述した式（１１）を演算して求められる複素正規分布p_φ(h|z)を、複素数の潜在変数ｈの分布として出力することができる。または、符号化部４４は、平均μ、分散σ、および擬似分散δをそのまま、複素数の潜在変数ｈの分布として出力してもよい。または、符号化部４４は、最も簡易化して、平均μのみを複素数の潜在変数ｈの分布として出力してもよい。

このように符号化装置３１は構成されており、複素数の観測データｚを、複素VAEによって複素数データのまま扱って符号化し、符号化データとして、複素数の潜在変数ｈの分布を出力することができる。

図６は、本技術を適用した復号装置の一実施の形態の構成例を示すブロック図である。

図６に示すように、復号装置３２は、復号部５１、パラメータ保持部５２、後処理部５３、および出力部５４を備えて構成される。例えば、復号装置３２には、符号化装置３１から出力される複素数の潜在変数ｈの分布が入力され、復号装置３２からは、再構築された複素数の観測データｚ’が出力される。

復号部５１には、復号装置３２において復号の対象となる符号化データとして複素数の潜在変数ｈの分布が供給される。復号部５１は、複素ニューラルネットワーク５５により構成され、パラメータ保持部５２で保持されているパラメータθが設定された複素ニューラルネットワーク５５により、複素数の潜在変数ｈの分布を復号する。

複素ニューラルネットワーク５５は、上述したように、従来のVAEを、複素数データをそのまま扱うことができるように拡張表現されたモデルである複素VAEである。例えば、複素ニューラルネットワーク５５の出力層となる各ノードは、複素平均aを出力する複素平均出力部５６、分散行列Γを出力する分散行列出力部５７、および、擬似分散行列Cを出力する擬似分散行列出力部５８により構成される。

そして、復号部５１は、複素ニューラルネットワーク５５の出力に基づき、複素数の潜在変数ｈの分布を復号した復号データとして、符号化装置３１に入力された複素数の観測データｚを再構築した複素数の観測データｚ’を出力する。

例えば、復号部５１は、複素平均出力部５６から出力される複素平均a、分散行列出力部５７から出力される分散行列Γ、および、擬似分散行列出力部５８から出力される擬似分散行列Cを用いて、上述した式（１０）を演算することにより求められる多変量複素正規分布p_θ(z|h)を、再構築した複素数の観測データｚ’として出力する。または、復号部５１は、複素平均a、分散行列Γ、および擬似分散行列Cをそのまま、再構築した複素数の観測データｚ’として出力してもよい。または、復号部５１は、最も簡易化して、複素平均aのみを、再構築した複素数の観測データｚ’として出力してもよい。

パラメータ保持部５２は、復号部５１の複素ニューラルネットワーク５５に設定されるパラメータθを保持しており、後述する図９のパラメータ学習装置６１において勾配法を利用した学習により求められたパラメータθが供給される。

後処理部５３は、復号部５１から出力される再構築した複素数の観測データｚ’に対して、符号化装置３１の前処理部４２で行われた前処理を元に戻す後処理を施し、即ち、単位時間（例えば、音声データであればフレーム）ごとに正規化されたスペクトル特徴量を元に戻し、出力部５４に供給する。

出力部５４は、後処理部５３において後処理が施された再構築した複素数の観測データｚ’を、復号装置３２の後段に出力する。

このように復号装置３２は構成されており、複素数の潜在変数ｈを、複素VAEによって複素数データのまま扱って復号し、復号データとして、再構築された複素数の観測データｚ’を出力することができる。

図７は、符号化装置３１が実行する符号化処理を説明するフローチャートである。

ステップＳ１１において、複素数データ取得部４１は、符号化装置３１において符号化の対象となる複素数の観測データｚを取得して、前処理部４２に供給する。

ステップＳ１２において、前処理部４２は、ステップＳ１１で複素数データ取得部４１から供給された複素数の観測データｚに対し、上述したような前処理を施して、符号化部４４に供給する。

ステップＳ１３において、符号化部４４は、ステップＳ１２で前処理部４２により前処理が施された複素数の観測データｚを、パラメータφが設定された複素ニューラルネットワーク４５により符号化して、複素数の潜在変数ｈの分布を取得する。

ステップＳ１４において、符号化部４４は、ステップＳ１２における符号化で取得された複素数の潜在変数ｈの分布を、符号化データとして出力する。

以上のような符号化処理によって、符号化装置３１は、複素数の観測データｚを符号化した符号化データとして、複素数の潜在変数ｈの分布を出力することができる。

図８は、復号装置３２が実行する復号処理を説明するフローチャートである。

ステップＳ２１において、復号部５１は、符号化装置３１から出力された符号化データ、即ち、複素数の潜在変数ｈの分布を取得する。

ステップＳ２２において、復号部５１は、ステップＳ２１で取得した複素数の潜在変数ｈの分布を、パラメータθが設定された複素ニューラルネットワーク５５により復号して、再構築した複素数の観測データｚ’を取得し、後処理部５３に供給する。

ステップＳ２３において、後処理部５３は、ステップＳ２２で復号部５１から供給される再構築した複素数の観測データｚ’に対し、上述したような後処理を施して、出力部５４に供給する。

ステップＳ２４において、出力部５４から供給される再構築した複素数の観測データｚ’を、復号データとして出力する。

以上のような復号処理によって、復号装置３２は、複素数の潜在変数ｈの分布を復号した復号データとして、再構築した複素数の観測データｚ’を出力することができる。

＜パラメータ学習装置の構成例＞
図９は、パラメータ学習装置の構成例を示すブロック図である。

図９に示すように、パラメータ学習装置６１は、複素数データ取得部４１、前処理部４２、符号化部４４、復号部５１、初期パラメータ設定部６２、補助演算部６３、サンプリング部６４、初期パラメータ設定部６５、判定部６６、およびパラメータ更新部６７を備えて構成される。

例えば、パラメータ学習装置６１には、符号化装置３１に供給される複素数の観測データｚと同様の学習用複素数データが供給される。そして、パラメータ学習装置６１は、符号化部４４が符号化に用いるパラメータφ、および、復号部５１が復号に用いるパラメータθを、勾配法を利用して学習するパラメータ学習処理を行い、その学習の結果として最適化されたパラメータφおよびパラメータθを出力する。

また、パラメータ学習装置６１が備える複素数データ取得部４１、前処理部４２、および符号化部４４は、符号化装置３１が備える複素数データ取得部４１、前処理部４２、および符号化部４４と共通の構成となっている。同様に、パラメータ学習装置６１が備える復号部５１は、復号装置３２が備える復号部５１と共通の構成となっている。

即ち、パラメータ学習装置６１に供給される学習用複素数データは、複素数データ取得部４１により取得され、前処理部４２により前処理が施されて、符号化部４４に供給される。

初期パラメータ設定部６２は、パラメータ学習装置６１において行われるパラメータ学習処理の開始時に使用される初期のパラメータφを保持しており、符号化部４４の複素ニューラルネットワーク４５に対して設定する。

符号化部４４は、複素ニューラルネットワーク４５の出力に基づき、学習用複素数データを符号化した符号化データとして、複素正規分布の平均μ、複素正規分布の分散σ、および、複素正規分布の擬似分散δを出力する。そして、符号化部４４は、複素正規分布の平均μ、複素正規分布の分散σ、および、複素正規分布の擬似分散δから求められる符号化データである複素正規分布p_φ(h|z)を、判定部６６に供給する。また、符号化部４４は、パラメータ学習処理の開始時には初期パラメータ設定部６２により設定される初期のパラメータφを用い、その後は、パラメータ更新部６７により更新されたパラメータφを用いる。

補助演算部６３は、図４を参照して上述したように、復号部５１から符号化部４４へ誤差を逆伝播することが可能となるような複素数の潜在変数ｈの分布を求めるための補助演算を行う。即ち、補助演算部６３は、符号化部４４から出力される複素正規分布の分散σおよび擬似分散δから補助演算係数κ_ｘおよびκ_ｙを求めるために、上述した式（２３）を演算する。そして、補助演算部６３は、補助演算係数κ_ｘおよびκ_ｙと、符号化部４４から出力される複素正規分布の平均μを用いて、複素数の潜在変数ｈの分布を求めて、サンプリング部６４に供給する。

サンプリング部６４は、補助演算部６３から出力される複素数の潜在変数ｈの分布に対するサンプリングを行い、複素数の潜在変数ｈのサンプルを取得して復号部５１に供給する。

初期パラメータ設定部６５は、パラメータ学習装置６１において行われるパラメータ学習処理の開始時に使用される初期のパラメータθを保持しており、復号部５１の複素ニューラルネットワーク５５に対して設定する。

復号部５１は、複素ニューラルネットワーク５５の出力に基づき、サンプリング部６４から供給される複素数の潜在変数ｈのサンプルを復号した復号データとして、複素平均a、分散行列Γ、および、擬似分散行列Cをから求められる復号データである多変量複素正規分布p_θ(z|h)を出力する。

判定部６６は、繰り返して求められるパラメータφおよびパラメータθが、所定の終了条件を満足したか否かを判定する。例えば、判定部６６は、現時点のパラメータφに基づいて得られる符号化データである複素正規分布p_φ(h|z)と、現時点のパラメータθに基づいて得られる符号化データである多変量複素正規分布p_θ(z|h)とを用いて、上述した式（１４）を演算し、制約付き対数尤度の下限Lが最大化された場合に、終了条件を満足したと判定することができる。その他、判定部６６は、予め設定された回数に応じて、パラメータφおよびパラメータθが繰り返して求められたことを終了条件として、判定を行ってもよい。

パラメータ更新部６７は、上述した式（１５）を演算することで、複素勾配法を用いてパラメータθを更新する。また、パラメータ更新部６７は、同様の演算を行ってパラメータφを更新することができる。

このようにパラメータ学習装置６１は構成されており、勾配法を利用した学習により最適化されたパラメータφおよびパラメータθを求めることができる。

図１０は、パラメータ学習装置６１が実行するパラメータ学習処理を説明するフローチャートである。

ステップＳ３１において、初期パラメータ設定部６２は、符号化部４４の複素ニューラルネットワーク４５に対して初期のパラメータφを設定し、初期パラメータ設定部６５は、復号部５１の複素ニューラルネットワーク５５に対して初期のパラメータθを設定する。

ステップＳ３２において、複素数データ取得部４１は学習用複素数データを取得し、前処理部４２は学習用複素数データに前処理を施して、符号化部４４に供給する。

ステップＳ３３において、符号化部４４は、ステップＳ３２で供給された学習用複素数データを符号化し、複素正規分布の平均μ、複素正規分布の分散σ、および、複素正規分布の擬似分散δを補助演算部６３に供給する。さらに、符号化部４４は、複素正規分布の平均μ、複素正規分布の分散σ、および、複素正規分布の擬似分散δから求められる符号化データである複素正規分布p_φ(h|z)を、判定部６６に供給する。

ステップＳ３４において、補助演算部６３は、ステップＳ３３で供給された複素正規分布の分散σおよび擬似分散δから補助演算係数κ_ｘおよびκ_ｙを求める補助演算を行う。さらに、補助演算部６３は、ステップＳ３３で供給された複素正規分布の平均μと、補助演算係数κ_ｘおよびκ_ｙとを用いて、複素数の潜在変数ｈの分布を求めて、サンプリング部６４に供給する。

ステップＳ３５において、サンプリング部６４は、ステップＳ３４で供給された複素数の潜在変数ｈの分布に対するサンプリングを行い、複素数の潜在変数ｈのサンプルを復号部５１に供給する。

ステップＳ３６において、復号部５１は、ステップＳ３５で供給された複素数の潜在変数ｈのサンプルを復号し、複素平均a、分散行列Γ、および、擬似分散行列Cから求められる復号データである多変量複素正規分布p_θ(z|h)を、判定部６６に供給する。

ステップＳ３７において、判定部６６は、繰り返して求められるパラメータφおよびパラメータθが、所定の終了条件を満足したか否かを判定する。例えば、判定部６６は、ステップＳ３３で符号化部４４から供給される複素正規分布p_φ(h|z)、および、ステップＳ３６で復号部５１から供給される多変量複素正規分布p_θ(z|h)を用いて、上述した式（１４）を演算することにより制約付き対数尤度の下限Lを求める。そして、判定部６６は、制約付き対数尤度の下限Lが最大化された場合に、その時点で求められているパラメータφおよびパラメータθが、所定の終了条件を満足したと判定する。

ステップＳ３７において、判定部６６が終了条件を満足していないと判定した場合、処理はステップＳ３８に進む。

ステップＳ３８において、パラメータ更新部６７は、上述したようにパラメータφおよびパラメータθを更新し、それぞれ符号化部４４および復号部５１に設定した後、処理はステップＳ３３に戻り、以下、同様の処理が繰り返して行われる。

一方、ステップＳ３７において、判定部６６が終了条件を満足したと判定した場合、処理はステップＳ３９に進む。

ステップＳ３９において、判定部６６は、最適化されたパラメータφおよびパラメータθを出力し、パラメータφを符号化装置３１に供給してパラメータ保持部４３に保持させ、パラメータθを復号装置３２に供給してパラメータ保持部５２に保持させる。その後、パラメータ学習処理は終了される。

以上のようなパラメータ学習処理によって、パラメータ学習装置６１は、勾配法を利用した学習により最適化されたパラメータφおよびパラメータθを求めることができる。

＜実験条件および実験結果＞
図１１乃至図１３を参照して、複素VAEについて行われた実験について説明する。

上述したように本実施の形態で提案した複素VAEの有効性を確認するため、一般的に提供されている音声データベース・セットの音声を用いて再構築音声の品質評価実験を行なった。例えば、その音声データベース・セットから50文音声（約4.2 分、サンプリングレート20kHzを16kHzにダウンサンプリング）を使用し、窓幅を512として64サンプルオーバーラップの短時間フーリエ変換を施した255次元の複素スペクトルを入力特徴量とした。そして、50次元の潜在変数を持つ複素VAEを学習させた後、別の53文音声に対してエンコーダ・デコーダを通して再合成された音声について客観評価基準値であるPESQ（Perceptual Evaluation of. Speech Quality）を用いて品質評価を行った。

さらに、比較手法として、同じ複素スペクトルデータの実部および虚部を連結したベクトルを入力特徴量としたVAE（以下、VAE(R+I)と称する）、および、255次元の振幅スペクトルを入力特徴量としたVAE（以下、VAE(GL)と称する）を用いた。

図１１には、複素VAE、VAE（R+I）、およびVAE（GL）について行われた実験条件の一例が示されている。

例えば、いずれの手法においても、バッチサイズは100とし、ロスが下がらなくなった時点で停止するように学習を行った。また、図１１に示すネットワークの構造を示す表記について、例えば、CVAEの“255-100-[50,50,50]”は、３層構造で入力側から順に255，100，50×3ユニットのfull-connected層が並んでいることを示している。

なお、VAE(R+I)は、各ユニットが実部および虚部の２つの自由度を持つ複素VAEとの公平な比較のために、各層のユニット数を複素VAEの２倍にしている。また、VAE(GL)のみ得られた振幅スペクトルからGriffin-Lim法によって位相復元し、その他の手法は、そのまま逆短時間フーリエ変換を施して音声信号を復元する。

図１２には、図１１に示した実験条件において行われた実験に対する評価の一例が示されている。例えば、図１２には、VAE（GL）、VAE（R+I）、複素VAE、および複素VAE（w/o δ）の各手法によるPESQ評価が示されている。

また、図１３には、図１１に示した実験条件において行われた実験で得られた実験結果の一例として、振幅スペクトルの一部と、対応するオリジナル音声の振幅スペクトルが示されている。例えば、図１３に示すＡは、オリジナルの振幅スペクトルであり、図１３に示すＢは、VAE（GL）により再構築された振幅スペクトルであり、図１３に示すＣは、VAE（R+I）により再構築された振幅スペクトルであり、図１３に示すＤは、複素VAEにより再構築された振幅スペクトルである。

図１２の評価では、複素VAEによって復元された音声が最も高い品質であったことが示されている。

また、図１３の実験結果に示すように、従来のVAEにおいて、複素スペクトルの実部および虚部を連結したベクトルを特徴量に用いると、再構築スペクトルでは特に高周波域の情報が失われてしまって、うまく学習されていないことが表れている。

これに対し、複素VAEでは、再構築スペクトルのどの周波数帯域でも微細構造やフォルマントがよく表れている。これは、複素VAEでは、複素数データの複素数構造を保持したまま符号化および復号が行われ、複素勾配法によるパラメータ最適化を行なっていることより、学習中に出現する複素スペクトルの頻出パターンをより捉えられていることによると考察される。

また、参考として、複素VAEにおいて複素潜在変数の擬似分散δを導入することによる効果を確認するため、擬似分散δを含まない（すなわち、常にδ=0）モデルの性能を評価したところ、図１２のCVAE(w/o δ)において、性能が低下することが示されている。これは、複素VAEの符号化部を通して実部と虚部との間に相関のある潜在変数が作成され、その相関を取り除くような制約を加えた方が質の高い潜在変数となることを示唆している。

以上のように、本実施の形態では、近年、様々な分野で基盤として用いられるVAEを拡張して、複素数データを直接表現できる複素VAEを新たに提案し、音声の複素スペクトルモデリングに適用してその有効性を確認した。

そして、複素VAEの特徴として、次の第１乃至第４の特徴などが挙げられる。第１の特徴は、入力、出力、潜在変数、およびパラメータ全てが複素数で構成され、複素数の構造を保ったまま情報伝播およびパラメータ最適化を行っていることである。また、第２の特徴は、デコーダの出力および潜在変数ともに複素正規分布を仮定していることである。また、第３の特徴は、潜在変数の分布について擬似分散を考慮して標準複素正規分布に近付ける制約を加え、さらにその制約が解析的に求まり微分可能であることである。そして、第４の特徴は、デコーダからエンコーダへ勾配を誤差逆伝播できるReparametrizationが存在することである。

なお、本技術は、符号化装置３１および復号装置３２が一体で構成された符号化および復号システムに適用してもよい。また、パラメータ学習装置６１が、符号化装置３１または復号装置３２に組み込まれるような構成としてもよく、その構成では、それぞれ同一の処理を行うブロックが共通で用いられることになる。

また、図５および図９に示した複素ニューラルネットワーク４５、並びに、図６および図９に示した複素ニューラルネットワーク５５について、図示したモデルは模式的な例示であって、ノードの個数や中間層の数などは、用途に応じて適切に設計することができる。なお、複素ニューラルネットワーク４５および５５は、従来のVAEと異なって複素数のまま演算を行うことにより、適切な制約が自動的に加わることになる。

＜コンピュータの構成例＞
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

図１４は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、ドライブ１０９によって駆動されるリムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

１１エンコーダ，１２デコーダ，２１エンコーダ，２２デコーダ，３１符号化装置，３２復号装置，４１複素数データ取得部，４２前処理部，４３パラメータ保持部，４４符号化部，５１復号部，５２パラメータ保持部，５３後処理部，５４出力部，６１パラメータ学習装置，６２初期パラメータ設定部，６３補助演算部，６４サンプリング部，６５初期パラメータ設定部，６６判定部，６７パラメータ更新部

Claims

複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部
を備える符号化装置。
前記複素ニューラルネットワークは、確率分布を使って潜在変数を求める生成モデルであるVAE（variational autoencoder）に基づいて、複素数データをそのまま扱えるように表現された複素VAEである
請求項１に記載の符号化装置。
前記複素ニューラルネットワークの出力層となるノードが、前記複素数の潜在変数の分布の平均を出力する平均出力部、前記複素数の潜在変数の分布の分散を出力する分散出力部、および、前記複素数の潜在変数の分布の擬似分散を出力する擬似分散出力部により構成される
請求項２に記載の符号化装置。
前記符号化部は、前記複素数の観測データをｚとし、前記複素数のパラメータをφとし、前記平均をμとし、前記分散をσとし、前記擬似分散をδとし、前記複素数の潜在変数をｈとしたときに、次の式で表される複素正規分布ｐ_θ（ｚ|ｈ）を前記符号化データとして求める

請求項３に記載の符号化装置。
前記複素数の観測データを取得する複素数データ取得部と、
前記複素数の観測データを単位時間ごとに切り出してスペクトル特徴量を算出し、そのスペクトル特徴量を正規化して前記符号化部に供給する前処理部と、
前記複素数のパラメータを保持し、前記符号化部に設定するパラメータ保持部と
をさらに備える請求項１に記載の符号化装置。
符号化装置のコンピュータに、
複素数の観測データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力すること
を含む符号化処理を実行させるためのプログラム。
複素数の観測データが符号化された符号化データである複素数の潜在変数を、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部
を備える復号装置。
前記複素ニューラルネットワークは、確率分布を使って潜在変数を求める生成モデルであるVAE（variational autoencoder）に基づいて、複素数データをそのまま扱えるように表現された複素VAEである
請求項７に記載の復号装置。
前記複素ニューラルネットワークの出力層となるノードが、複素平均を出力する複素平均出力部、分散行列を出力する分散行列出力部、および、擬似分散行列を出力する擬似分散行列出力部により構成される
請求項８に記載の復号装置。
前記復号部は、前記複素数の観測データをｚとし、前記複素数のパラメータをθとし、前記複素平均をaとし、分散行列をΓとし、擬似分散行列をCとし、前記複素数の潜在変数をｈとしたときに、次の式で表される多変量複素正規分布ｐ_φ（ｚ|ｈ）を前記復号データとして求める

請求項９に記載の復号装置。
前記復号部から出力される前記復号データに対して、単位時間ごとに正規化されたスペクトル特徴量を元に戻す処理を施す後処理部と、
前記後処理部において後処理が施された前記復号データを出力する出力部と、
前記複素数のパラメータを保持し、前記復号部に設定するパラメータ保持部と
をさらに備える請求項７に記載の復号装置。
復号装置のコンピュータに、
複素数の観測データが符号化された符号化データを、勾配法を利用した学習により求められた複素数のパラメータが設定されたニューラルネットワークである複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力すること
を含む復号処理を実行させるためのプログラム。
複素数の観測データを、第１の複素数のパラメータが設定されたニューラルネットワークである第１の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力する符号化部と、
前記符号化データを、第２の複素数のパラメータが設定されたニューラルネットワークである第２の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力する復号部と
を備え、
前記第１の複素数のパラメータおよび前記第２の複素数のパラメータを、勾配法を利用した学習により求める
パラメータ学習装置。
前記符号化部により符号化された前記符号化データについて、誤差を逆伝播させるための補助演算を行う補助演算部と、
前記補助演算部から出力される複素数の潜在変数の分布に対するサンプリングを行い、複素数の潜在変数のサンプルを取得して、前記復号部に供給するサンプリング部と
をさらに備える請求項１３に記載のパラメータ学習装置。
前記第１の複素数のパラメータおよび前記第２の複素数のパラメータが、所定の終了条件を満足したか否かを判定する判定部と、
前記判定部により所定の終了条件を満足していないと判定された場合に、前記第１の複素数のパラメータおよび前記第２の複素数のパラメータを更新するパラメータ更新部と
をさらに備える請求項１３に記載のパラメータ学習装置。
パラメータ学習装置のコンピュータに、
複素数の観測データを、第１の複素数のパラメータが設定されたニューラルネットワークである第１の複素ニューラルネットワークを用いて複素数のまま符号化し、複素数の潜在変数の分布を符号化データとして出力することと、
前記符号化データを、第２の複素数のパラメータが設定されたニューラルネットワークである第２の複素ニューラルネットワークを用いて複素数のまま復号して得られる復号データとして、再構築された前記複素数の観測データを出力することと
を含み、
前記第１の複素数のパラメータおよび前記第２の複素数のパラメータを、勾配法を利用した学習により求める
パラメータ学習処理を実行させるためのプログラム。