JP6618493B2 - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6618493B2
JP6618493B2 JP2017028843A JP2017028843A JP6618493B2 JP 6618493 B2 JP6618493 B2 JP 6618493B2 JP 2017028843 A JP2017028843 A JP 2017028843A JP 2017028843 A JP2017028843 A JP 2017028843A JP 6618493 B2 JP6618493 B2 JP 6618493B2
Authority
JP
Japan
Prior art keywords
signal
sound
spectrogram
component sound
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017028843A
Other languages
English (en)
Other versions
JP2018136368A (ja
Inventor
弘和 亀岡
弘和 亀岡
莉 李
莉 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017028843A priority Critical patent/JP6618493B2/ja
Publication of JP2018136368A publication Critical patent/JP2018136368A/ja
Application granted granted Critical
Publication of JP6618493B2 publication Critical patent/JP6618493B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。
近年、非負値行列因子分解(Non-negative matrix factorization: NMF)はモノラル音響信号処理問題に対する有力な手法として注目されている(非特許文献1)。各時刻で観測された振幅またはパワースペクトルを基底スペクトルの非負結合で近似することは、観測スペクトログラムを行列と見なし、二つの行列(基底行列とアクティベーション行列)の積で近似することに相当する。各々の行列の要素は非負値のため、非負制約のもと観測スペクトログラムに対し行列分解が行われることからNMF と呼ぶ。教師ありまたは半教師あり音源分離の問題設定においては、まず、各音源の学習サンプルのスペクトログラムにNMF を行い、基底行列を事前学習する。一方テスト時には、学習した基底行列を固定し、アクティベーション行列のみを推定する。このようにして求めた各音源のパワースペクトログラムを用い、Wiener フィルタにより混合信号から目的音源信号を得ることができる。
以上のアプローチ(非特許文献1)では基底学習において学習サンプルのスペクトログラムと行列積との誤差が最適化規準として用いられるが、分離信号そのものが最適となるような規準とはなっていなかった。この点に着目し、Wiener フィルタの出力信号と目的音源の学習サンプルとの誤差を直接的に最適化規準として基底学習を行う、識別的NMF(Discriminative non-negative matrix factorization:DNMF)(非特許文献2)と呼ぶ枠組が提案されている。この方式では、学習時とテスト時に用いられる最適化規準が同一となるため、より高い分離能力をもった基底スペクトルが学習により得られるようになることが期待される。
P. Smaragdis、 R. Bhiksha、 and S. Madhusudana、 "Supervised and semi-supervised separation of sounds from single-channel mixtures."、 In Proc. ICA、 pp. 414-421、 2007. F.Weninger、 J. L. Roux、 J. R. Hershey、 and S.Watanabe、 "Discriminative NMF and its application to single-channel source separation."、In Proc. INTERSPEECH、 pp. 865-869、 2014.
しかし、識別的NMFの学習規準(後述)は従来のNMF の最適化規準に比べて解析的に複雑な形になる。このため、非特許文献2では乗法更新アルゴリズムと呼ぶ汎用的な手法を用いた最適化アルゴリズムが提案されているが、停留点への収束性が保証されておらずDNMFのポテンシャルを十分発揮できているとはいえなかった。
本発明では、上記事情を鑑みて成されたものであり、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、を含み、前記パラメータ学習部は、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。
本発明に係る信号解析方法は、時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する信号解析方法であって、前記パラメータ学習部が推定することでは、パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む。
上記の構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される。
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新することを繰り返すことにより、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャート図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<既存手法>
<教師ありNMF による音源分離>
L個の音源からなる混合信号のパワースペクトログラムを

とする。
ただし、ωとtは周波数および時刻のインデックスである。教師ありNMFでは、事前学習した各音源の基底スペクトル

を用いて、観測スペクトログラム

を基底行列

とアクティベーション行列

の積で近似することで、Wiener フィルタにより各音源信号を混合信号から抽出するためのパワースペクトログラム推定値を得ることが目的である。
非特許文献1では

の事前学習において、音源l の学習サンプルのスペクトログラム

との誤差
を最適化規準として用いている。ただし、

は音源l の学習サンプルのスペクトログラム

と行列積

の誤差を測る関数である。テスト時においては、事前学習した基底行列

を固定し、
を最小にするアクティベーション行列

を推定することで、

に含まれる各音源のパワースペクトログラムの成分

を推定することができる。誤差関数

としてI ダイバージェンスを用いる場合、(2)式は具体的に
となる。ただし、[・]i.jは行列の{i,j}番目要素を表す。各音源のパワースペクトログラム

が求まれば、Wiener フィルタ
により、足して矛盾なく

になるよう保証された各音源信号のスペクトログラムを得ることができる。ただし、



は要素ごとの乗法と除法を表すものとする。しかし、上述のアプローチ(非特許文献1)では、基底の学習規準において(1)式 が用いられていることから、(4)式 による分離信号が最適となるような規準になっていなかった。
<識別的NMF と乗法更新アルゴリズム>
識別的NMF(非特許文献2)は、(1)式 の代わりにWiener フィルタ出力と学習サンプルのスペクトログラムの誤差
を規準として基底学習を行う教師ありNMF による音源分離の枠組である。ただし、有るがα≧0はl 番目の分離信号の重要度を表すパラメータである。
以下では説明の簡略化のため、音声と雑音の二種類の音源(L = 2) からなる音源分離問題を考える。音声強調が目的の場合は音声信号の分離精度がより重要となるので、重要度αは、音声に対して1、雑音に対して0とする。従って、クリーン音声の学習サンプルのスペクトログラムを

、雑音の学習サンプルのスペクトログラムを

とし、その混合信号のスペクトログラムを

とすると、識別的NMF の基底学習問題は
のような最適化問題として定式化される。ただし、基底行列

はKs個の音声基底スペクトルとKn個の雑音基底スペクトルで構成される。
Weninger らは上述の最適化問題に対し乗法更新法を用いた最適化アルゴリズムを提案している(非特許文献2)。Weninger らのアルゴリズムでは、まず通常のNMF(すなわち(2)式)でアクティベーション行列

を求め、

を固定した下で基底行列Wを
により更新する方法がとられている。上述の更新式は



に関する偏微分の負の項と正の項の商と

の要素ごとの積で与えられるが、各更新により目的関数が減少することが保証されない。このため、これらの更新式による反復アルゴリズムの収束性は保証されない。
<提案手法>
<補助関数法による基底学習アルゴリズム>
本発明の実施の形態は、補助関数法の原理に基づいて導かれる、(6)式 の最適化問題の停留点への収束性が保証された最適化アルゴリズムである。
<補助関数法>
F(θ)をθに関して最小化したい目的関数とすると、

を満たす関数

を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、



を交互に繰り返すことで、目的関数F(θ)の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
<補助関数の設計>
以下で、目的関数

の補助関数を設計する。まず、目的関数

の中の
の補助関数を次の不等式を用いて設計する。
(補題1)
任意の

に対して、不等式

が成り立ち、

のとき等号成立する。
(証明)
任意の

に対して、
Mω、tは非負値のため、補題1 より、

が成り立つ。ただし、=cはパラメータに依存する項のみに関する等号を表す。また、

とし、

とする。(12)式 の等号は
のとき成立する。次に、(12)式 の各項の補助関数を設計する。

は正値であること、および負の対数関数は凸関数であることより、Jensen の不等式
が成り立つ。ただし、



を満たす変数であり、(14)式 の等号は
のとき成立する。

は正値のため、(12)式 の第二項の対数関数は凹関数である。凹関数は任意の点における接線により上から抑えることができるため、
が成り立つ。ここで、

は正の変数であり、
のとき、(16)式 の等号は成立する。続いて、

の補助関数を設計する。二次関数は凸関数なので、Jensenの不等式
が成り立つ。ただし、



を満たす正数であり、(18)式 の等号は
のときに成立する。最後に、

の補助関数を設計する。関数1/x2はx>0においては凸であるため、Jensenの不等式により
が成り立つ。ただし、



を満たす変数である。(20)式 の等号は
のとき成立する。
(12)式、(14)式、(16)式、(18)式 と(20)式 により、目的関数

の補助関数
を得ることができる。ここで、

は補助変数

の集合であり、dは定数項である。この補助関数を導いたことのポイントは、



に関する大域最適解は解析的に得ることができる点にある。
<パラメータの更新式>
以上の補助関数を最小にする補助変数の条件は各不等式の等号成立条件に他ならないので、(13)式、(15)式、 (17)式、 (19)式、 (21)式 で与えられる。また、補助関数を最小にする





すなわち、
のような四次方程式と三次方程式の正数解を解くことにより得られる。上記四次方程式の定数項と二次式の係数はいずれも負値であるため、必ず一つの正数解のみを持つことが示される。
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付ける。
演算部20は、時間周波数展開部24と、パラメータ学習部36と、を含んで構成されている。
時間周波数展開部24は、混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
パラメータ学習部36は、時間周波数展開部24によって計算された、混合信号のパワースペクトログラム及び各構成音信号のパワースペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す、上記(5)式の規準を小さくするように、各構成音の基底スペクトル

と、各構成音のアクティベーション

とを推定する。
具体的には、パラメータ学習部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。
初期値設定部40は、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに初期値を設定する。例えば、ランダムに初期値を設定する。
補助変数更新部42は、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tを更新する。
パラメータ更新部44は、時間周波数展開部24により出力された
混合信号のパワースペクトログラム

と、音声信号のパワースペクトログラム

と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とを推定する。
収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させる。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(6)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。
出力部90は、パラメータ学習部36において最終的に取得した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

を出力する。
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10において各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付けると、信号解析装置100は、図2に示す学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。
次に、ステップS102では、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに初期値を設定する。
ステップS104では、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tを更新する。
次に、ステップS106では、時間周波数展開部24により出力された混合信号のパワースペクトログラム

と、音声信号のパワースペクトログラム

と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とを推定する。
次に、ステップS108では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS110へ移行し、収束条件を満たしていない場合には、ステップS104へ移行し、ステップS104〜ステップS106の処理を繰り返す。
ステップS110では、上記ステップS106で最終的に更新された、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

を、出力部90から出力して、学習処理ルーチンを終了する。
<実験例>
本実施の形態の手法による音声強調効果を検証するため、ATR 音声データベース503 文の音声データ(非特許文献3参照)とATR 環境音データベース(department noise、 subway station noise の2種類)を用いて評価実験を行った。比較対象は従来の教師ありNMF 法(SNMF)と識別的NMF の乗法更新式アルゴリズム(DNMF MU)とし、処理前と処理後の信号対歪み比(SDR) および信号対干渉比(SIR) (非特許文献4参照)の改善値を評価した。
[非特許文献3]A. Kurematsu、 K. Takeda、 Y. Sagisaka、 S. Katagiri、 H. Kuwabara、 and K. Shikano、 "ATR Japanese speech database as a tool of speech recognition and synthesis、" Speech Communication、 vol. 9、 pp. 357-363、 1990.
[非特許文献4] E. Vincent、 R. Gribonval、 and C. Fevotte、 "Performance measurement in blind audio source separa-tion."、 IEEE transactions on audio、 speech、 and language processing、 vol. 14、 no. 4、 pp. 1462-1469、 2016.
テストデータはクリーン音声に各雑音を-6、-3、0、3dB の信号対雑音比(SNR) で重畳させて作成した。実験に用いた音響信号はサンプリング周波数16kHzのモノラル信号で、フレーム長32ms、フレームシフト16ms で短時間Fourier 変換を行い、観測スペクトログラム

を算出した。基底学習においては男性2 名と女性2 名の話者の計200 文の音声を用いて音声基底の学習を行った。基底数は音声と雑音両方40とした。ランダムに決めた初期値で反復アルゴリズムを5 回試行し、各試行における反復回数が0、10、25、50、100、200の時のSDR改善値の平均と分散をプロットしたものが図3である。図3の結果により、以下の実験では反復回数を25とした。テストデータセットは、ATR503 文データベースからランダムに選定した40 文の音声データに雑音を重畳させて作成した。以上の条件下で、提案法(DNMF AU)と従来法(SNMF、DNMF MU)を5回試行して得られたSDR およびSIR の改善値の平均を表1、2に示す。いずれの評価尺度においても全ての場合において提案手法の方が高い改善値を得られていることが確認できた。
上記表1は、各手法を5 回試行して得られたSDR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。
上記表2は、各手法を5 回試行して得られたSIR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音の構成音信号の各々についての、基底スペクトル、およびアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新することを繰り返すことにより、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
また、非負値行列因子分解を用いた教師あり音源分離手法において、分離信号の復元誤差を規準として、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
24 時間周波数展開部
36 パラメータ学習部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 信号解析装置

Claims (7)

  1. 各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、
    前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、
    を含み、
    前記パラメータ学習部は、
    前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む信号解析装置。
  2. 前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項1記載の信号解析装置。
  3. 各構成音は、音声と雑音であり、
    前記規準は、以下の式で表わされるIダイバージェンス規準である請求項2記載の信号解析装置。

    ただし、Wは、音声の基底スペクトルを表し、Hは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、Ssは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Wω,kは、周波数ω及び基底kのパワースペクトルを表す。
  4. 時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、
    パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する
    信号解析方法であって、
    前記パラメータ学習部が推定することでは、
    パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、
    収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む
    信号解析方法。
  5. 前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項4記載の信号解析方法。
  6. 各構成音は、音声と雑音であり、
    前記規準は、以下の式で表わされるIダイバージェンス規準である請求項4記載の信号解析方法。

    ただし、Wは、音声の基底スペクトルを表し、Hは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、Ssは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Wω,kは、周波数ω及び基底kのパワースペクトルを表す。
  7. 請求項1〜請求項3の何れか1項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。
JP2017028843A 2017-02-20 2017-02-20 信号解析装置、方法、及びプログラム Active JP6618493B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017028843A JP6618493B2 (ja) 2017-02-20 2017-02-20 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017028843A JP6618493B2 (ja) 2017-02-20 2017-02-20 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018136368A JP2018136368A (ja) 2018-08-30
JP6618493B2 true JP6618493B2 (ja) 2019-12-11

Family

ID=63365999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017028843A Active JP6618493B2 (ja) 2017-02-20 2017-02-20 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6618493B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7199487B1 (ja) 2021-09-02 2023-01-05 三菱電機株式会社 内燃機関制御装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2877993B1 (en) * 2012-11-21 2016-06-08 Huawei Technologies Co., Ltd. Method and device for reconstructing a target signal from a noisy input signal
TW201543472A (zh) * 2014-05-15 2015-11-16 湯姆生特許公司 即時音源分離之方法及系統
JP6195548B2 (ja) * 2014-08-19 2017-09-13 日本電信電話株式会社 信号解析装置、方法、及びプログラム
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离

Also Published As

Publication number Publication date
JP2018136368A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
EP3584573B1 (en) Abnormal sound detection training device and method and program therefor
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
Adiloğlu et al. Variational Bayesian inference for source separation and robust feature extraction
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Simon et al. A general framework for online audio source separation
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
Kavalekalam et al. Online parametric NMF for speech enhancement
JP6618493B2 (ja) 信号解析装置、方法、及びプログラム
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
Ben Messaoud et al. Sparse representations for single channel speech enhancement based on voiced/unvoiced classification
Erdogan et al. Semi-blind speech-music separation using sparsity and continuity priors
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
Şimşekli et al. Alpha-stable low-rank plus residual decomposition for speech enhancement
Adiloğlu et al. A general variational Bayesian framework for robust feature extraction in multisource recordings
Gang et al. Towards automated single channel source separation using neural networks
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
Liu et al. Investigation of Cost Function for Supervised Monaural Speech Separation.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191112

R150 Certificate of patent or registration of utility model

Ref document number: 6618493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150