JP6618493B2 - 信号解析装置、方法、及びプログラム - Google Patents
信号解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6618493B2 JP6618493B2 JP2017028843A JP2017028843A JP6618493B2 JP 6618493 B2 JP6618493 B2 JP 6618493B2 JP 2017028843 A JP2017028843 A JP 2017028843A JP 2017028843 A JP2017028843 A JP 2017028843A JP 6618493 B2 JP6618493 B2 JP 6618493B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- spectrogram
- component sound
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
上記の構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される。
<教師ありNMF による音源分離>
L個の音源からなる混合信号のパワースペクトログラムを
とする。
を用いて、観測スペクトログラム
を基底行列
とアクティベーション行列
の積で近似することで、Wiener フィルタにより各音源信号を混合信号から抽出するためのパワースペクトログラム推定値を得ることが目的である。
の事前学習において、音源l の学習サンプルのスペクトログラム
との誤差
は音源l の学習サンプルのスペクトログラム
と行列積
の誤差を測る関数である。テスト時においては、事前学習した基底行列
を固定し、
を推定することで、
に含まれる各音源のパワースペクトログラムの成分
を推定することができる。誤差関数
としてI ダイバージェンスを用いる場合、(2)式は具体的に
が求まれば、Wiener フィルタ
になるよう保証された各音源信号のスペクトログラムを得ることができる。ただし、
と
は要素ごとの乗法と除法を表すものとする。しかし、上述のアプローチ(非特許文献1)では、基底の学習規準において(1)式 が用いられていることから、(4)式 による分離信号が最適となるような規準になっていなかった。
識別的NMF(非特許文献2)は、(1)式 の代わりにWiener フィルタ出力と学習サンプルのスペクトログラムの誤差
、雑音の学習サンプルのスペクトログラムを
とし、その混合信号のスペクトログラムを
とすると、識別的NMF の基底学習問題は
はKs個の音声基底スペクトルとKn個の雑音基底スペクトルで構成される。
を求め、
を固定した下で基底行列Wを
の
に関する偏微分の負の項と正の項の商と
の要素ごとの積で与えられるが、各更新により目的関数が減少することが保証されない。このため、これらの更新式による反復アルゴリズムの収束性は保証されない。
<補助関数法による基底学習アルゴリズム>
本発明の実施の形態は、補助関数法の原理に基づいて導かれる、(6)式 の最適化問題の停留点への収束性が保証された最適化アルゴリズムである。
F(θ)をθに関して最小化したい目的関数とすると、
を満たす関数
を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、
と
を交互に繰り返すことで、目的関数F(θ)の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
以下で、目的関数
の補助関数を設計する。まず、目的関数
の中の
任意の
に対して、不等式
が成り立ち、
のとき等号成立する。
任意の
に対して、
とし、
とする。(12)式 の等号は
は正値であること、および負の対数関数は凸関数であることより、Jensen の不等式
は
を満たす変数であり、(14)式 の等号は
は正値のため、(12)式 の第二項の対数関数は凹関数である。凹関数は任意の点における接線により上から抑えることができるため、
は正の変数であり、
の補助関数を設計する。二次関数は凸関数なので、Jensenの不等式
は
を満たす正数であり、(18)式 の等号は
の補助関数を設計する。関数1/x2はx>0においては凸であるため、Jensenの不等式により
は
を満たす変数である。(20)式 の等号は
の補助関数
は補助変数
の集合であり、dは定数項である。この補助関数を導いたことのポイントは、
と
に関する大域最適解は解析的に得ることができる点にある。
以上の補助関数を最小にする補助変数の条件は各不等式の等号成立条件に他ならないので、(13)式、(15)式、 (17)式、 (19)式、 (21)式 で与えられる。また、補助関数を最小にする
は
と
すなわち、
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
と、各構成音のアクティベーション
とを推定する。
と、音声と雑音のアクティベーション
とに初期値を設定する。例えば、ランダムに初期値を設定する。
と、音声と雑音のアクティベーション
とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tを更新する。
混合信号のパワースペクトログラム
と、音声信号のパワースペクトログラム
と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とを推定する。
と、音声と雑音のアクティベーション
を出力する。
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10において各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付けると、信号解析装置100は、図2に示す学習処理ルーチンを実行する。
を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。
と、音声と雑音のアクティベーション
とに初期値を設定する。
と、音声と雑音のアクティベーション
とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tを更新する。
と、音声信号のパワースペクトログラム
と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγk,ω,t、βk,ω,t、θk,ω,t、各周波数ω及び各時刻tに対するλω,t、ηω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とを推定する。
と、音声と雑音のアクティベーション
を、出力部90から出力して、学習処理ルーチンを終了する。
本実施の形態の手法による音声強調効果を検証するため、ATR 音声データベース503 文の音声データ(非特許文献3参照)とATR 環境音データベース(department noise、 subway station noise の2種類)を用いて評価実験を行った。比較対象は従来の教師ありNMF 法(SNMF)と識別的NMF の乗法更新式アルゴリズム(DNMF MU)とし、処理前と処理後の信号対歪み比(SDR) および信号対干渉比(SIR) (非特許文献4参照)の改善値を評価した。
[非特許文献4] E. Vincent、 R. Gribonval、 and C. Fevotte、 "Performance measurement in blind audio source separa-tion."、 IEEE transactions on audio、 speech、 and language processing、 vol. 14、 no. 4、 pp. 1462-1469、 2016.
を算出した。基底学習においては男性2 名と女性2 名の話者の計200 文の音声を用いて音声基底の学習を行った。基底数は音声と雑音両方40とした。ランダムに決めた初期値で反復アルゴリズムを5 回試行し、各試行における反復回数が0、10、25、50、100、200の時のSDR改善値の平均と分散をプロットしたものが図3である。図3の結果により、以下の実験では反復回数を25とした。テストデータセットは、ATR503 文データベースからランダムに選定した40 文の音声データに雑音を重畳させて作成した。以上の条件下で、提案法(DNMF AU)と従来法(SNMF、DNMF MU)を5回試行して得られたSDR およびSIR の改善値の平均を表1、2に示す。いずれの評価尺度においても全ての場合において提案手法の方が高い改善値を得られていることが確認できた。
また、非負値行列因子分解を用いた教師あり音源分離手法において、分離信号の復元誤差を規準として、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
20 演算部
24 時間周波数展開部
36 パラメータ学習部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 信号解析装置
Claims (7)
- 各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、
を含み、
前記パラメータ学習部は、
前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む信号解析装置。 - 前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項1記載の信号解析装置。
- 各構成音は、音声と雑音であり、
前記規準は、以下の式で表わされるIダイバージェンス規準である請求項2記載の信号解析装置。
ただし、Wsは、音声の基底スペクトルを表し、Hsは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、Ssは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Wω,kは、周波数ω及び基底kのパワースペクトルを表す。 - 時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、
パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する
信号解析方法であって、
前記パラメータ学習部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む
信号解析方法。 - 前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項4記載の信号解析方法。
- 各構成音は、音声と雑音であり、
前記規準は、以下の式で表わされるIダイバージェンス規準である請求項4記載の信号解析方法。
ただし、Wsは、音声の基底スペクトルを表し、Hsは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、Ssは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Wω,kは、周波数ω及び基底kのパワースペクトルを表す。 - 請求項1〜請求項3の何れか1項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028843A JP6618493B2 (ja) | 2017-02-20 | 2017-02-20 | 信号解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028843A JP6618493B2 (ja) | 2017-02-20 | 2017-02-20 | 信号解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136368A JP2018136368A (ja) | 2018-08-30 |
JP6618493B2 true JP6618493B2 (ja) | 2019-12-11 |
Family
ID=63365999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017028843A Active JP6618493B2 (ja) | 2017-02-20 | 2017-02-20 | 信号解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6618493B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7199487B1 (ja) | 2021-09-02 | 2023-01-05 | 三菱電機株式会社 | 内燃機関制御装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2877993B1 (en) * | 2012-11-21 | 2016-06-08 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
TW201543472A (zh) * | 2014-05-15 | 2015-11-16 | 湯姆生特許公司 | 即時音源分離之方法及系統 |
JP6195548B2 (ja) * | 2014-08-19 | 2017-09-13 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
-
2017
- 2017-02-20 JP JP2017028843A patent/JP6618493B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018136368A (ja) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3584573B1 (en) | Abnormal sound detection training device and method and program therefor | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6334895B2 (ja) | 信号処理装置及びその制御方法、プログラム | |
Karbasi et al. | Twin-HMM-based non-intrusive speech intelligibility prediction | |
Adiloğlu et al. | Variational Bayesian inference for source separation and robust feature extraction | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Simon et al. | A general framework for online audio source separation | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
Kavalekalam et al. | Online parametric NMF for speech enhancement | |
JP6618493B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6142402B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Nower et al. | Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6581054B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
Ben Messaoud et al. | Sparse representations for single channel speech enhancement based on voiced/unvoiced classification | |
Erdogan et al. | Semi-blind speech-music separation using sparsity and continuity priors | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
Şimşekli et al. | Alpha-stable low-rank plus residual decomposition for speech enhancement | |
Adiloğlu et al. | A general variational Bayesian framework for robust feature extraction in multisource recordings | |
Gang et al. | Towards automated single channel source separation using neural networks | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
Liu et al. | Investigation of Cost Function for Supervised Monaural Speech Separation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6618493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |