JP7120573B2 - 推定装置、その方法、およびプログラム - Google Patents
推定装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP7120573B2 JP7120573B2 JP2019014052A JP2019014052A JP7120573B2 JP 7120573 B2 JP7120573 B2 JP 7120573B2 JP 2019014052 A JP2019014052 A JP 2019014052A JP 2019014052 A JP2019014052 A JP 2019014052A JP 7120573 B2 JP7120573 B2 JP 7120573B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- phase
- signal
- acoustic signal
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本実施形態では、、非特許文献1の方式に、深層学習を組み込む。なお、深層学習を利用した位相復元には例えば参考文献1などの方式がある。
(参考文献1) K. Oyamada, H. Kameoka, K. Tanaka T. Kaneko, N. Hojo, and H. Ando, "Generative adversarial network-based approach to signal reconstruction from magnitude spectrograms", in Eur. Signal Process. Conf. (EUSIPCO), Sept. 2018.
Y[m]=PB(X[m]) (4)
Z[m]=PC(Y[m]) (5)
X[m+1]=E(X[m]) (6)
=Z[m]-Fθ(X[m],Y[m],Z[m]) (7)
ここでFθは何らかの形で実装されたDNNである。つまり、Griffin-Limアルゴリズムで生じた歪みや推定誤差を、復元したい信号の統計的性質に基づき学習されたDNNが除去(減算)するという構成になっている。ここでDNNは、復元したい信号を直接推定するのではなく、復元したい信号でない成分を推定していることになる。DNNの学習は、例えば以下の目的関数を最小化するように学習できる。
<第一実施形態に係る学習装置>
図4は本実施形態の学習装置200の機能ブロック図を、図5はその処理フローの例を示す。
ノイズ加算部209は、クリーン音響信号X(L)*とノイズNとを入力とし、クリーン音響信号X(L)*にノイズNを加算し(S209)、複素スペクトログラム~X(=X(L)*+N)を求め、出力する。
位相付与部211は、複素スペクトログラム~Xとクリーン音響信号X(L)*に対応する振幅スペクトログラムA(L)とを入力とし、次式に示すように、振幅スペクトログラムA(L)に複素スペクトログラム~Xの位相を付与し(S211)、付与後の信号~Y=PB(~X)を求め、出力する。
変換部212は、信号~Yを入力とし、次式により、信号~Yを逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号~Z=Pc(~Y)に変換し(S212)、出力する。
DNN部213は、パラメータθの初期値または後述するパラメータ更新部215で更新されたパラメータθと、複素スペクトログラム~Xと、信号~Yと、信号~Zとを入力とし、DNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を推定し(S213)、推定値Fθ(~X,~Y,~Z)を出力する。
減算部214は、信号~Zとクリーン音響信号X(L)*とを入力とし、差分を求め(S214)、求めた差分(複素スペクトログラム~Z-X(L)*)を出力する。
パラメータ更新部215は、差分(複素スペクトログラム~Z-X(L)*)と、推定値Fθ(~X,~Y,~Z)とを入力とし、これらの値を用いて、
<推定装置100>
上述の通り、図1は本実施形態の推定装置100の機能ブロック図を、図2はその処理フローの例を示す。
推定部110-mは、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX[m]とを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX[m+1]を求め、出力する。例えば、推定部110-mは、(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを所望の音響信号に近づける処理と、を関連付けることで、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する(S110)。
位相付与部111は、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX[m]とを入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX[m]の位相を付与し(S111)、付与後の信号Y[m]=PB(X[m])を求め、出力する。
変換部112は、信号Y[m]を入力とし、次式により、信号Y[m]を逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Z[m]=Pc(Y[m])に変換し(S112)、出力する。
位相変更部113は、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]とを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX[m]の位相を所望の音響信号の位相に近づけ(S113)、近づけた信号X[m+1]を出力する。例えば、位相変更部113は、以下のDNN部113-1と減算部113-2とにより、この処理を実現する。
DNN部113-1は、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]とを入力とし、所望の音響信号に対応する学習用の音響信号の統計的性質に基づくDNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差(Z[m]-X[m])を推定し(S113-1)、推定値Fθ(X[m],Y[m],Z[m])を出力する。なお、推定値Fθ(X[m],Y[m],Z[m])は複素スペクトログラムであり、例えば、次式によりFθ(X[m],Y[m],Z[m])からその位相スペクトログラムを求めることができる。
減算部113-2は、信号Z[m]と推定値Fθ(X[m],Y[m],Z[m])とを入力とし、差分を求め(S113-2)、求めた差分(複素スペクトログラムX[m+1]=Z[m]-Fθ(X[m],Y[m],Z[m]))を出力する。この減算が、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を除去する処理に相当し、また、信号Z[m](対応する複素スペクトログラムX[m]と言ってもよい)の位相スペクトログラムを所望の音響信号に近づける処理に相当する。
位相付与部120は、複素スペクトログラムX[M]を入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX[M]の位相を付与し(S120)、付与後の信号Y[M]=PB(X[M])を出力する。
以上の構成により、復元したい信号の統計的性質を利用して、従来技術よりも少ない計算量で振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができる。
本実施形態では、位相と振幅が矛盾する複素スペクトログラムX[0]を入力として与えられているが、振幅スペクトログラムAのみを入力とし、振幅スペクトログラムAに対し、適当な位相スペクトログラム(初期値)を乱数で選び、初期値の複素スペクトログラムX[0]を作成する構成としてもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
学習装置200と推定装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置200と推定装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置200と推定装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置200と推定装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置200と推定装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置200と推定装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置200と推定装置100の外部に備える構成としてもよい。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- (i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定部を有する、
推定装置。 - 所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与部と、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換部と、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更部と、を含む、
推定装置。 - 請求項2の推定装置であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX(L)*と、その振幅スペクトログラムA(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定装置。 - (i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定ステップを有する、
推定方法。 - 所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与ステップと、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換ステップと、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更ステップと、を含む、
推定方法。 - 請求項5の推定方法であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX(L)*と、その振幅スペクトログラムA(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定方法。 - 請求項1から請求項3の何れかの推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019014052A JP7120573B2 (ja) | 2019-01-30 | 2019-01-30 | 推定装置、その方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019014052A JP7120573B2 (ja) | 2019-01-30 | 2019-01-30 | 推定装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020122855A JP2020122855A (ja) | 2020-08-13 |
JP7120573B2 true JP7120573B2 (ja) | 2022-08-17 |
Family
ID=71992613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019014052A Active JP7120573B2 (ja) | 2019-01-30 | 2019-01-30 | 推定装置、その方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7120573B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019139102A (ja) | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
-
2019
- 2019-01-30 JP JP2019014052A patent/JP7120573B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019139102A (ja) | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020122855A (ja) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20180072562A (ko) | 인공 뉴럴 네트워크 클래스-기반 프루닝 | |
US20140114650A1 (en) | Method for Transforming Non-Stationary Signals Using a Dynamic Model | |
JP2024519657A (ja) | 精度が向上し、計算リソースの消費が減少した拡散モデル | |
JP2017049907A (ja) | ニューラルネットワーク、その学習方法、及びコンピュータプログラム | |
JP7488422B2 (ja) | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP7120573B2 (ja) | 推定装置、その方法、およびプログラム | |
JP2018128500A (ja) | 形成装置、形成方法および形成プログラム | |
JP7167686B2 (ja) | 音響信号処理装置、その方法、およびプログラム | |
WO2023152895A1 (ja) | 波形信号生成システム、波形信号生成方法及びプログラム | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
CN116312502A (zh) | 基于顺序采样分块机制的端到端流式语音识别方法及装置 | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
CN112863539B (zh) | 一种高采样率语音波形生成方法、装置、设备及存储介质 | |
JP7156064B2 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
JP2018180045A (ja) | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
JP2018142278A (ja) | 符号化装置、符号化方法およびプログラム | |
WO2022180741A1 (ja) | 音響信号強調装置、方法及びプログラム | |
JP2023030771A (ja) | 推定方法、推定プログラム、深層ニューラルネットワークおよび推定装置 | |
JP7188589B2 (ja) | 復元装置、復元方法、およびプログラム | |
WO2020032177A1 (ja) | 時系列データの周波数成分ベクトルを生成する方法及び装置 | |
US20240221775A1 (en) | Conversion model learning apparatus, conversion model generation apparatus, conversion apparatus, conversion method and program | |
JP6586061B2 (ja) | 信号解析装置、方法、及びプログラム | |
WO2023148955A1 (ja) | 時間窓生成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7120573 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |