JP7120573B2

JP7120573B2 - 推定装置、その方法、およびプログラム

Info

Publication number: JP7120573B2
Application number: JP2019014052A
Authority: JP
Inventors: 悠馬小泉; 義紀升山; 浩平矢田部
Original assignee: Waseda University; Nippon Telegraph and Telephone Corp
Current assignee: Waseda University; Nippon Telegraph and Telephone Corp
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2022-08-17
Anticipated expiration: 2039-01-30
Also published as: JP2020122855A

Description

本発明は、振幅スペクトルのみから、位相スペクトルを推定し、復元する推定装置、その方法、およびプログラムに関する。

STFT(short-time Fourier transform)スペクトルは複素数であり、STFTスペクトログラムから時間信号を復元するには、(1)振幅スペクトログラムと(2)位相スペクトログラムの両方が必要である。ところが、位相スペクトルはその扱いが難しいため、音声合成や音声強調では、振幅スペクトルのみを推定したり制御し、位相スペクトルは最小位相や、観測位相で代用し、時間信号へと逆変換することが多い。振幅スペクトログラムと位相スペクトログラムは独立変数ではないため、片方を制御した場合、もう片方はそれに対応した変数である必要がある。ゆえに、音声合成や音声強調では、振幅と位相の矛盾により、出力音の品質が低下することがある。

振幅スペクトログラムから、それと矛盾しない位相スペクトログラムを推定する技術として、非特許文献１が知られている。非特許文献１の技術（Griffin-Limアルゴリズムと呼ばれている）は、以下の手順を繰り返すことで振幅スペクトログラムAから、無矛盾な位相スペクトログラムを推定する技術である。

ここでXは振幅がAの複素スペクトログラム、GとG^†は短時間フーリエ変換（STFT）と逆STFT、

|・|は要素毎の絶対値演算を表す。この方式は、以下の最適化問題を解いていることと等しい。

ここで||・||² _Froはフロベニウスノルムを表す。なお、Bは振幅がAのスペクトログラムの集合である。前述の通り、位相スペクトルは最小位相や、観測位相で代用するため、複素スペクトログラムXに式(1)のSTFTと逆STFTを行うと、元の複素スペクトログラムXに戻らない。そこで、式(2)により振幅を与えられた振幅スペクトログラムAに固定し、式(3)により、正しい短時間フーリエ変換表現となるように位相を求める。

D. Griffin and J. Lim, "Signal estimation from modied shorttime Fouriertransform", IEEE Trans. Acoust., Speech, Signal Process., vol. 32, no. 2, pp. 236-243, Apr.1984.

しかしながら、非特許文献１の方式は、あらゆる音響信号に対して適応可能である一方、膨大な回数の繰り返しが必要である。これは、最適化の枠組みの中に、復元したい信号(以下、所望の音響信号ともいう)の統計的性質について一切の仮定を置いていないためである。

本発明は、復元したい信号の統計的性質を利用して、振幅スペクトルのみから、矛盾のない位相スペクトルを復元する推定装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、推定装置は、(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを所望の音響信号に近づける処理と、を関連付けることで、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する推定部を有する。

上記の課題を解決するために、本発明の他の態様によれば、推定装置は、所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与部と、信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換部と、複素スペクトログラムXと信号Yと信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムXの位相を所望の音響信号の位相に近づける位相変更部と、を含む。

本発明によれば、復元したい信号の統計的性質を利用して、従来技術よりも少ない計算量で振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができるという効果を奏する。

第一実施形態に係る推定装置の機能ブロック図。第一実施形態に係る推定装置の処理フローの例を示す図。第一実施形態に係る推定部の機能ブロック図。第一実施形態に係る学習装置の機能ブロック図。第一実施形態に係る学習装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、、非特許文献１の方式に、深層学習を組み込む。なお、深層学習を利用した位相復元には例えば参考文献１などの方式がある。
（参考文献１） K. Oyamada, H. Kameoka, K. Tanaka T. Kaneko, N. Hojo, and H. Ando, "Generative adversarial network-based approach to signal reconstruction from magnitude spectrograms", in Eur. Signal Process. Conf. (EUSIPCO), Sept. 2018.

これらの方式と本実施形態の違いは、参考文献１が大規模なニューラルネットワークを用いていわば、end-to-endで位相を復元するのに対し、本実施形態は、非特許文献１の繰り返し最適化の一部にDNN(Deep Neural Network,ディープニューラルネットワーク)を利用することで、学習に必要なパラメータ数を削減する点にある。

また、繰り返し回数がそのままニューラルネットワークのスタッキング（深層化）に直結するため、従来のニューラルネットワークと異なり、学習時とテスト時にネットワーク形状が一致する必要がない。また、実用時の計算機パワーや精度の要件などに合わせ、処理時間と復元精度のトレードオフに対して、スケーラビリティを持つことも特徴である。

前述の通り、本実施形態では、Griffin-Limアルゴリズムの中に深層学習を組み込む。例えば、学習データを用いて訓練したDNNを利用して、Griffin-Limアルゴリズムの中に復元したい信号の統計的性質を組み込む。図１は第一実施形態に係る推定装置１００の機能ブロック図を、図２はその処理フローの例を示す。推定装置１００はM個の推定部１１０－ｍ（m=0,1,2,…,M-1、Mは1以上の整数の何れか）を含む。図３は、推定部１１０－ｍの機能ブロック図を示す。推定部１１０－ｍは、式(2)に対応する位相付与部１１１と、式(1)に対応する変換部１１２と含み、さらに、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムXの位相を所望の音響信号の位相に近づける位相変更部１１３を含む。

図１、図３の構成にし、Griffin-Limアルゴリズムの1回分の繰り返しの後にDNNによる処理を行うことで、復元したい信号の統計的性質を考慮した無矛盾位相推定を実現する。これは、内部のDNNを繰り返し数(M)分スタッキングしていることと等価である。つまり、この処理ブロックの繰り返し数(M)を制御することで、処理時のDNNのスケールを変化させることができる。例えば、DNN部１１３－１内のDNNの層数が3の場合には、M=1,2,3,…のときそれぞれ全体として3,6,9,…層からなるDNNとして機能する。繰り返し数を少なくすることは浅いDNNを使うことと等価であり、処理性能は低下するが、高速な演算が可能になる。一方、繰り返し数を多くすることは深いDNNを使うことと等価であり、処理速度は遅くなるが、高品質な出力音を得ることができる。

ここで利用するDNNの条件は、復元したい信号の統計的性質に基づき（復元したい信号の学習データから何らかの方式で学習されればよい）、Griffin-Limアルゴリズムの出力音の位相を、復元したい信号に近づける処理であれば何でもよい。その一例として、以下の残差学習を実施形態として示す。
Y^[m]=P_B(X^[m]) (4)
Z^[m]=P_C(Y^[m]) (5)
X[m+1]=E(X^[m]) (6)
=Z^[m]-F_θ(X^[m],Y^[m],Z^[m]) (7)
ここでF_θは何らかの形で実装されたDNNである。つまり、Griffin-Limアルゴリズムで生じた歪みや推定誤差を、復元したい信号の統計的性質に基づき学習されたDNNが除去（減算）するという構成になっている。ここでDNNは、復元したい信号を直接推定するのではなく、復元したい信号でない成分を推定していることになる。DNNの学習は、例えば以下の目的関数を最小化するように学習できる。

ここでX^*は真の複素スペクトログラム、~X=X^*+N、Nは複素ガウスノイズ、~Y=P_B(~X)、~Z=P_C(~Y)である。ただし、Griffin-Limアルゴリズムは位相スペクトルのみを復元する処理のため、~Yの振幅は、X^*の振幅と一致するようにする。

本実施形態は、DNNの学習段階と位相スペクトルの推定段階とからなる。まず、学習段階について説明する。
＜第一実施形態に係る学習装置＞
図４は本実施形態の学習装置２００の機能ブロック図を、図５はその処理フローの例を示す。

学習装置２００は、復元したい信号の学習データ（クリーン音響信号X^(L)*であり、複素スペクトログラムで表現される）とクリーン音響信号X^(L)*に対応する振幅スペクトログラムA^(L)とノイズNと各種最適化に必要なパラメータを入力とし、学習済みのDNNを出力する。

学習装置２００は、ノイズ加算部２０９と、位相付与部２１１と、変換部２１２と、DNN部２１３と、減算部２１４と、パラメータ更新部２１５とを含む。

例えば、学習装置２００は、図示しない初期化部において、DNN部２１３で用いるDNNのパラメータθを何からの乱数で初期化する（Ｓ２０８）。

＜ノイズ加算部２０９＞
ノイズ加算部２０９は、クリーン音響信号X^(L)*とノイズNとを入力とし、クリーン音響信号X^(L)*にノイズNを加算し（Ｓ２０９）、複素スペクトログラム~X(=X^(L)*+N)を求め、出力する。

＜位相付与部２１１＞
位相付与部２１１は、複素スペクトログラム~Xとクリーン音響信号X^(L)*に対応する振幅スペクトログラムA^(L)とを入力とし、次式に示すように、振幅スペクトログラムA^(L)に複素スペクトログラム~Xの位相を付与し（Ｓ２１１）、付与後の信号~Y=P_B(~X)を求め、出力する。

なお、

が複素スペクトログラム~Xの位相を抽出する処理に相当し、式(12)が抽出した複素スペクトログラム~Xの位相を振幅スペクトログラムA^(L)に付与する処理に相当する。なお、式(12)は、複素スペクトログラム~Xの各要素に対して振幅スペクトログラムA^(L)の各要素を乗算し、その積を複素スペクトログラム~Xの振幅スペクトログラム|~X|で除算しているため、複素スペクトログラム~Xの振幅を振幅スペクトログラムA^(L)の大きさに変換する処理といってもよい。

＜変換部２１２＞
変換部２１２は、信号~Yを入力とし、次式により、信号~Yを逆短時間フーリエ変換G^†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G^†に対応する短時間フーリエ変換Gにより周波数領域の信号~Z=P_c(~Y)に変換し（Ｓ２１２）、出力する。

＜DNN部２１３＞
DNN部２１３は、パラメータθの初期値または後述するパラメータ更新部２１５で更新されたパラメータθと、複素スペクトログラム~Xと、信号~Yと、信号~Zとを入力とし、DNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を推定し（Ｓ２１３）、推定値F_θ(~X,~Y,~Z)を出力する。

＜減算部２１４＞
減算部２１４は、信号~Zとクリーン音響信号X^(L)*とを入力とし、差分を求め(Ｓ２１４)、求めた差分(複素スペクトログラム~Z-X^(L)*)を出力する。

＜パラメータ更新部２１５＞
パラメータ更新部２１５は、差分(複素スペクトログラム~Z-X^(L)*)と、推定値F_θ(~X,~Y,~Z)とを入力とし、これらの値を用いて、

となるように、DNNのパラメータθを更新する（Ｓ２１５－１）。学習法には、確率的最急降下法などを利用すればよく、その学習率は10^-5程度に設定すればよい。さらに、パラメータ更新部２１５は、所定の条件を満たすか否かを判定し(Ｓ２１５－２)、所定の条件を満たす場合には、その時点のDNNを学習済みのDNNとして出力する。所定の条件を満たさない場合には、更新後のパラメータθをDNN部２１３へ出力し、新たなクリーン音響信号X^(L)*と新たなノイズNと更新後のパラメータθとを用いて、Ｓ２０９～Ｓ２１５－１を繰り返す。なお、所定の条件には、学習を一定回数（例えば10万回）繰り返したか？などを利用できる。

以上の処理により、DNNの学習段階を実現する。次に位相スペクトルの推定段階について説明する。
＜推定装置１００＞
上述の通り、図１は本実施形態の推定装置１００の機能ブロック図を、図２はその処理フローの例を示す。

推定装置１００は、振幅スペクトログラムAと位相と振幅が矛盾する複素スペクトログラムX^[0]とを入力とし、振幅スペクトログラムAに矛盾しない位相スペクトログラムを持つ複素スペクトログラムY^[M]を求め、出力する。ここで、複素スペクトログラムX^[0]の振幅は振幅スペクトログラムAである。

推定装置１００は、M個の推定部１１０－ｍと、位相付与部１２０とを含む（図１参照）。

＜推定部１１０－ｍ＞
推定部１１０－ｍは、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX^[m]とを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX^[m+1]を求め、出力する。例えば、推定部１１０－ｍは、(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを所望の音響信号に近づける処理と、を関連付けることで、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する(Ｓ１１０)。

図３は、推定部１１０－ｍの機能ブロック図を示す。推定部１１０－ｍは位相付与部１１１と変換部１１２と位相変更部１１３とを含み、さらに、位相変更部１１３はDNN部１１３－１と減算部１１３－２とを含む。

各推定部１１０－ｍの位相変更部１１３のDNN部１１３－１には、学習装置２００で学習されたDNNが設定されている。前述の通り、繰り返し回数がそのままニューラルネットワークのスタッキング（深層化）に直結するため、従来のニューラルネットワークと異なり、学習時とテスト時にネットワーク形状が一致する必要がなく、学習時には上述の通りM個ではなく1個のDNNを学習すればよい。また、推定時には計算機パワーや精度の要件などに合わせ、繰り返し回数(M)を制御し、処理時間と復元精度のトレードオフに対して、スケーラビリティを持つことができる。例えば、M=5程度を実行すればよい。

＜位相付与部１１１＞
位相付与部１１１は、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX^[m]とを入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX^[m]の位相を付与し（Ｓ１１１）、付与後の信号Y^[m]=P_B(X^[m])を求め、出力する。

なお、

が複素スペクトログラムX^[m]の位相を抽出する処理に相当し、式(21)が抽出した複素スペクトログラムX^[m]の位相を振幅スペクトログラムAに付与する処理に相当する。なお、式(21)は、複素スペクトログラムX^[m]の各要素に対して振幅スペクトログラムAの各要素を乗算し、その積を複素スペクトログラムX^[m]の振幅スペクトログラム|X^[m]|で除算しているため、複素スペクトログラムX^[m]の振幅を振幅スペクトログラムAの大きさに変換する処理といってもよい。

＜変換部１１２＞
変換部１１２は、信号Y^[m]を入力とし、次式により、信号Y^[m]を逆短時間フーリエ変換G^†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G^†に対応する短時間フーリエ変換Gにより周波数領域の信号Z^[m]=P_c(Y^[m])に変換し（Ｓ１１２）、出力する。

この処理は、位相と振幅が矛盾する複素スペクトログラムY^[m]を時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムZ^[m]に変換する処理に相当する。

＜位相変更部１１３＞
位相変更部１１３は、複素スペクトログラムX^[m]と信号Y^[m]と信号Z^[m]とを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX^[m]の位相を所望の音響信号の位相に近づけ（Ｓ１１３）、近づけた信号X^[m+1]を出力する。例えば、位相変更部１１３は、以下のDNN部１１３－１と減算部１１３－２とにより、この処理を実現する。

＜DNN部１１３－１＞
DNN部１１３－１は、複素スペクトログラムX^[m]と信号Y^[m]と信号Z^[m]とを入力とし、所望の音響信号に対応する学習用の音響信号の統計的性質に基づくDNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差(Z^[m]-X^[m])を推定し（Ｓ１１３－１）、推定値F_θ(X^[m],Y^[m],Z^[m])を出力する。なお、推定値F_θ(X^[m],Y^[m],Z^[m])は複素スペクトログラムであり、例えば、次式によりF_θ(X^[m],Y^[m],Z^[m])からその位相スペクトログラムを求めることができる。

そのため、複素スペクトログラムF_θ(X^[m],Y^[m],Z^[m])を求める処理とその位相スペクトログラムを求める処理とは等価な処理と言える。

＜減算部１１３－２＞
減算部１１３－２は、信号Z^[m]と推定値F_θ(X^[m],Y^[m],Z^[m])とを入力とし、差分を求め(Ｓ１１３－２)、求めた差分(複素スペクトログラムX^[m+1]=Z^[m]-F_θ(X^[m],Y^[m],Z^[m]))を出力する。この減算が、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を除去する処理に相当し、また、信号Z^[m](対応する複素スペクトログラムX^[m]と言ってもよい)の位相スペクトログラムを所望の音響信号に近づける処理に相当する。

推定部１１０－ｍは、全体として振幅スペクトログラムAを所望の音響信号に近づけており、これは、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する処理と等価である。

上述の処理Ｓ１１１～Ｓ１１３－２を推定部１１０－ｍの個数M回分繰り返し、推定部１１０－（Ｍ－１）は複素スペクトログラムX^[M]を求め、出力する。

＜位相付与部１２０＞
位相付与部１２０は、複素スペクトログラムX^[M]を入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX^[M]の位相を付与し（Ｓ１２０）、付与後の信号Y^[M]=P_B(X^[M])を出力する。

この処理により、再度、複素スペクトログラムX^[M]の振幅を振幅スペクトログラムAの大きさに変換する。

＜効果＞
以上の構成により、復元したい信号の統計的性質を利用して、従来技術よりも少ない計算量で振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができる。

＜変形例＞
本実施形態では、位相と振幅が矛盾する複素スペクトログラムX^[0]を入力として与えられているが、振幅スペクトログラムAのみを入力とし、振幅スペクトログラムAに対し、適当な位相スペクトログラム(初期値)を乱数で選び、初期値の複素スペクトログラムX^[0]を作成する構成としてもよい。

本実施形態では、ノイズに強いDNNを構築するために、ノイズ加算部２０９を設けているが、ノイズ加算部２０９を設けずに、クリーン音響信号X^(L)*をそのまま複素スペクトログラム~X(=X^(L)*)として用いてもよい。

本実施形態では、残差学習の例を示したが、復元したい信号の統計的性質に基づき、Griffin-Limアルゴリズムの出力信号の位相を、復元したい信号に近づける処理を含めばよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜ハードウェア構成＞
学習装置２００と推定装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置２００と推定装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置２００と推定装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置２００と推定装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置２００と推定装置１００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置２００と推定装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置２００と推定装置１００の外部に備える構成としてもよい。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定部を有する、
推定装置。
所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与部と、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換部と、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更部と、を含む、
推定装置。
請求項２の推定装置であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX^(L)*と、その振幅スペクトログラムA^(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定装置。
(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定ステップを有する、
推定方法。
所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与ステップと、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換ステップと、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更ステップと、を含む、
推定方法。
請求項５の推定方法であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX^(L)*と、その振幅スペクトログラムA^(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定方法。
請求項１から請求項３の何れかの推定装置としてコンピュータを機能させるためのプログラム。