JP2018072664A - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018072664A
JP2018072664A JP2016214288A JP2016214288A JP2018072664A JP 2018072664 A JP2018072664 A JP 2018072664A JP 2016214288 A JP2016214288 A JP 2016214288A JP 2016214288 A JP2016214288 A JP 2016214288A JP 2018072664 A JP2018072664 A JP 2018072664A
Authority
JP
Japan
Prior art keywords
signal
component sound
time
sound
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016214288A
Other languages
English (en)
Other versions
JP6615733B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
英章 鏡
Hideaki Kagami
英章 鏡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016214288A priority Critical patent/JP6615733B2/ja
Publication of JP2018072664A publication Critical patent/JP2018072664A/ja
Application granted granted Critical
Publication of JP6615733B2 publication Critical patent/JP6615733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】各構成音が混合した観測信号から、各構成音を精度よく分離することができる。【解決手段】パラメータ推定部36が、各構成音が混合された観測信号の時系列データを入力として、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、基底スペクトル及びアクティベーションパラメータの積との誤差の大きさを表す規準を小さくするように、各構成音の信号と、基底スペクトルと、アクティベーションパラメータとを推定する。このとき、パラメータ更新部44が、補助関数を小さくするように、各構成音の信号と、基底スペクトルと、アクティベーションパラメータとを更新する。各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新する。【選択図】図1

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。
近年、非負値行列因子分解(Non-negative Matrix Factorization; NMF)に基づく音源分離手法が注目されている。観測信号の振幅(あるいはパワー)スペクトログラムを非負値行列と見なし、これを二つの非負値行列の積で近似する。これは観測スペクトログラムをランク1のスペクトログラムの和で近似していると考えられる。このアプローチではスペクトルの加法性を仮定しているが、振幅スペクトルやパワースペクトルは実際には加法的ではない。この問題を解決するため複素NMFと呼ばれる枠組みが提案されている。複素NMFではNMFにおける各スペクトルテンプレートに位相スペクトルを時変パラメータとして付加したモデルを用いている。同様の動機からParry et al.とFevotte et al.はそれぞれ、観測信号の短時間フーリエ変換(Short-Time Fourier Transform; STFT)から得られた複素スペクトログラムに対し各構成音のパワースペクトログラムがランク1の構造をもち、位相スペクトログラムが一様に分布した潜在変数とみなした生成モデルを提案している。各構成音の複素スペクトログラムの各周波数成分が平均0の複素正規分布に従うとみなすと、モデルパラメータの最尤推定は観測パワースペクトログラムを板倉斎藤擬距離規準でフィッティングしたNMFとなることが示されている。これは板倉斎藤NMFと呼ばれている。同様に複素正規分布の代わりに複素コーシー分布を生成モデルとして用いたものも提案されている。
短時間フーリエ変換(Short-Time Fourier Transform; STFT)やウェーブレット変換などの時間周波数変換によって得られる複素スペクトログラムは変換元の信号の冗長表現であるため、複素数の要素をもつ任意の二次元配列が時間領域の信号に対応する複素スペクトログラムであるためには、各要素間で満たすべき制約条件が存在する。例えばSTFTではある幅ごとに短時間フレームの信号を切り出し、それぞれに対してフーリエ変換を行ったものを連結することで複素スペクトログラムが得られる。従って、各フレームの複素スペクトルを逆フーリエ変換した際にオーバーラップした区間内の波形が無矛盾となる条件を満たす必要がある。複素NMFや板倉斎藤NMFが位相を考慮したNMFとして提案されているが、位相スペクトログラムの各要素が独立なパラメータ(もしくは潜在変数)として扱われており、各時間周波数成分の位相が満たすべき制約条件が考慮されていなかった。このため、推定された複素スペクトログラムが必ずしも時間領域信号に対応したものにならないという問題があった。
この課題を解決することを目的とし、発明者らは以前NMFと同様のコンセプトに基づく信号分解を時間領域で実現する手法「時間領域低ランクスペクトログラム近似法(Time-domain Spectrogram Factorization; TSF)」と呼ぶ手法を提案している(非特許文献2)。この枠組の特徴は、分解成分の振幅スペクトログラムができるだけランク1構造に近くなるように観測信号を時間領域で分解することが可能である点にある。
亀岡弘和, 小野順貴, 柏野邦夫, 嵯峨山茂樹, "複素NMF: 新しいスパース信号分解表現と基底系学習アルゴリズム," 日本音響学会2008 年秋季研究発表会講演論文集, 2-8-13, pp. 657-660, Sep. 2008. Hirokazu Kameoka, "Multi-resolution signal decomposition with time-domain spectrogram factorization," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015), pp. 86{90, Apr. 2015.
しかし、この最適化問題を解決するために以前提案したパラメータ推定アルゴリズムには大きな行列の逆行列計算が含まれており、計算コストに解決すべき課題が残されていた。
本発明では、上記事情を鑑みて成されたものであり、計算コストを抑えて、各構成音が混合した観測信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号の時系列データを入力として、予め学習された各構成音及び各周波数における振幅スペクトルを表す基底スペクトルに基づいて、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、前記基底スペクトル及び各構成音の各時刻における音量を表すアクティベーションパラメータの積との誤差の大きさを表す規準を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを推定するパラメータ推定部を含む信号解析装置であって、前記パラメータ推定部は、前記規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部であって、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新するパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。
本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号の時系列データを入力として、予め学習された各構成音及び各周波数における振幅スペクトルを表す基底スペクトルに基づいて、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、前記基底スペクトル及び各構成音の各時刻における音量を表すアクティベーションパラメータの積との誤差の大きさを表す規準を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを推定する信号解析方法であって、前記パラメータ推定部が推定することでは、パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部であって、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新し、収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む。
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、前記基底スペクトル及び前記アクティベーションパラメータの積との誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新することにより、計算コストを抑えて、各構成音が混合した観測信号から、各構成音を精度よく分離することができる。
本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<問題の定式化>
<目的関数>
観測信号を

とする。TSFではL個の信号成分

となる条件の下で、各成分の振幅スペクトログラムができるだけランク1構造に近くなるように

を求める手法である。ここで、

を時刻m、周波数kの時間周波数成分を測るための基底関数とする。

の振幅スペクトログラムは、

を用いて

と表される。ただし、(・)Hはベクトルの複素共役転置である。TSFは、目的関数
を最小化する最適化問題として定式化される。ただし、

が推定すべきパラメータであり、βl,k,mはβl,k,m>0、Σlβl,k,m=1を満たすものとする。この問題はβl,k,m の逆数を重みとした重み付き二乗誤差最小化問題として捉えることができる。この重みの重要性については後述する。

の一つ目の項は振幅スペクトログラム

が完全にランク1構造を有したとき0になる。複素NMFと同様、このモデルでは要素ごとに値を相殺することを許容するため

をスパースに誘導するための正則化項が必要になる。

の二つ目の項はこのために導入した

ノルムであり、λ>0は正則化項の強さを決める重みパラメータである。

が有界であり、0<p<2のとき

ノルムは

をスパースに誘導できる。

を有界にするため、
という制約を設ける。
<補助関数法>
パラメータ

の目的関数を

とするとき
を満たす



の補助関数、

を補助変数と呼ぶ。式(4)を満たすような補助関数を設計できれば、パラメータ

と補助変数

により反復的に更新することで目的関数

を局所最小化する

を得ることができる。従来のNMFの反復アルゴリズムは上述の原理に基づいて導かれる。
<Jの補助関数>
目的関数



が微分不可能な点を含んでいるため、目的関数を局所最小化する

の更新式は解析的に求まらない。しかし次節に記載する不等式(10)(11) を用いることで

の補助関数
が得られる。ここで

である。補助変数

についての更新式は次の式で得られる。

<不等式>
ここでは補助関数を設計するために用いた不等式をまとめる。
(Lemma 1.)任意の複素数z、|c|=1を満たす複素数cについて次式が成り立つ。
等号はc=z/|z|のとき成立する。
(Lemma 2.)0<p<2のとき、任意の実数(または複素数)xについて次式が成り立つ。
等号はv=xのとき成立する。
<射影勾配法を用いた最適化>
補助関数が最小となる

は、ラグランジェの未定乗数法を用いることで
が得られる。ただし


であることが示される。式(12)が

の更新式として用いられる場合、大きな行列の逆行列を計算する必要があるため計算コストが課題となる。そこで、上記非特許文献2では

において

が単位行列となることに着目し、逆行列計算が不要な方法が提案されているが、βを固定することが信号分解性能に限界を与えることが実験的に明らかになっている。そこで本発明の実施の形態では

の更新に関して射影勾配法を用いることで、βを自由に更新できるようにしつつ逆行列計算を避けることが可能な効率的なアルゴリズムを提案する。
<slに関する更新式>
ここでは

に関する更新のみ考えるため、

の他の変数は固定して考える。そのため、



の関数とし、

とする。このとき

の偏微分は次の式で得られる。
式(16)の各項は効率的に計算可能であり、特に

がSTFTの基底関数の状況について考える。このとき、



をSTFTした複素スペクトログラムの(k,m)成分である。そのため式(13)の

は逆STFTを計算することに対応しており、式(16)の初項は

の逆STFTを計算することで得られる。同様に式(14)の



の逆STFTを計算することで得られる。以上のことから

の更新は勾配法を用いて効率的に計算可能であり、
という更新を行えばよい。ただし

はステップサイズである。ここで

は勾配

のリプシッツ定数であり、行列

の最大固有値から得られる。これを効率的に計算するため、次の式で得られるγをステップサイズとして用いる。

ただし

はSTFTの窓関数、αmはオーバーラップの割合を示すホップサイズである。
次に
を定義する。ここで

はN×Nの単位行列である。これを用いて線形制約



と表記される。また、
を定義する。このときアフィン空間

への射影は
となる。さらに

であることを用いると
が得られる。更新式(17)、(25) を交互に繰り返すことにより、



について最小化する更新が得られた。実際はρの上界が

であるため式(18)、(19)で得られるγは

を満たす。従って射影勾配法による更新式は、線形制約の下で

を最小化する値に収束することが保証される。
<提案手法全体の更新式>

に関して

の偏微分を0と置くことで更新式
が得られる。また

についてはラグランジェの未定乗数法を用いることで

が得られる。
以上より、全体のアルゴリズムは下記のようにまとめることができる。
Step1)

の初期値を設定する。
Step2) 式(8)、(9)に従って補助変数

を更新する。
Step3) 式(16)、(18)、(19)、(25)に従って、構成音の信号

と重みγとを更新する。
具体的には、繰り返し回数t=1から、以下の式に従って、繰り返し回数tにおける各構成音lの信号

を繰り返し更新する。
Step4) 式(26)〜(28)に従って、モデルパラメータ

を更新する。
<複素NMFとの関係>
実は、上述した補助関数

は複素NMFで得られる補助関数と似たものであることがわかる。
複素NMFでは観測複素スペクトログラムYk,mを次のモデルを用いて近似することが目的である。
ここでφl,k,mはl番目の音源の位相スペクトログラムである。先行研究ではHk,l, Ul,m,φl,k,mを変数とする目的関数
を最小化する問題として扱われている。このとき

である。また


の補助関数になっている。ただし

が補助変数であり、

である。またβl,k,mはΣlβl,k,m = 1 を満たす正の数であり、Xl,k,mはYk,mll,k,mを満たす。このときXl,k,mが推定されたl番目の音源の複素スペクトログラムの推定値である。
式(7) と式(31)を比べると,複素NMFの補助関数におけるXl,k,m

がTSFの補助関数における

とcl,k,m に対応していることがわかる。複素NMFの一つの問題はXl,k,mが複素スペクトログラムが満たすべき条件について考慮できていないという点である。つまり複素NMF アルゴリズムでは広い空間で解を探索することになってしまっている。一方、提案手法ではl番目の複素スペクトログラム

を手がかりに、適切な解空間の中で時間領域信号

を推定することができる。
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、各構成音の構成音信号の時系列データを受け付ける。また、入力部10は、複数の構成音が混じっている音響信号(以後、観測信号)の時系列データを受け付ける。
演算部20は、時間周波数展開部24と、基底スペクトル学習部28と、基底スペクトル記憶部30と、パラメータ推定部36と、を含んで構成されている。
時間周波数展開部24は、各構成音信号の時系列データに基づいて、各時刻における各周波数のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
基底スペクトル学習部28は、時間周波数展開部24によって計算された、各構成音信号の各時刻における各周波数のスペクトルに基づいて、従来技術であるNMFを用いて、各構成音l及び各周波数kにおける振幅スペクトルを表す基底スペクトルHk,lを推定する。
基底スペクトル記憶部30は、基底スペクトル学習部28によって推定された、各構成音l及び各周波数kにおける振幅スペクトルを表す基底スペクトルHk,lを記憶している。
パラメータ推定部36は、観測信号の時系列データ、及び基底スペクトル記憶部30に記憶された各構成音及び各周波数における基底スペクトルに基づいて、各構成音

の信号から求められる各周波数の各時刻における振幅スペクトルと、基底スペクトルHk,l及びアクティベーションパラメータUl,mの積との誤差の大きさを表す上記(2)式の規準を小さくするように、各構成音lの信号

と、各構成音及び各周波数の基底スペクトルHk,lと、各構成音の各時刻におけるアクティベーションパラメータUl,mとを推定する。
具体的には、パラメータ推定部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。
初期値設定部40は、各構成音信号の基底スペクトルHの初期値として、基底スペクトル記憶部30に記憶された各構成音信号の各周波数における基底スペクトルHk,lを設定する。また、初期値設定部40は、各構成音信号のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに初期値を設定する。
補助変数更新部42は、初期値である、又は前回更新した、各構成音lの信号

と、各構成音信号のアクティベーションパラメータUl,mとに基づいて、上記(8)式〜(9)式に従って、各構成音l、各周波数k、及び各時刻mに対するcl,k,m、各構成音l及び各時刻mに対するVl,mを更新する。
パラメータ更新部44は、観測信号の時系列データyと、補助変数更新部42によって更新された各構成音l、各周波数k、及び各時刻mに対するcl,k,m、各構成音l及び各時刻mに対するVl,mと、初期値である、又は前回更新した、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに基づいて、上記(7)式に示す補助関数を小さくするように、各構成音lの信号

と、各構成音及び各周波数の基底スペクトルHk,lと、各構成音の各時刻におけるアクティベーションパラメータUl,mと、各時刻m、各周波数k、及び各構成音lの重みβl,k,mを更新する。
具体的には、パラメータ更新部44は、観測信号の時系列データyと、補助変数更新部42によって更新された各構成音l、各周波数k、及び各時刻mに対するcl,k,m、各構成音l及び各時刻mに対するVl,mと、初期値である、又は前回更新した、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに基づいて、上記(16)式、(18)〜(19)式、(25)式に従って、各構成音lの信号

と、ステップサイズγとを更新する。ここで、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、以下の式に従って、各構成音の信号を繰り返し更新する。
ただし、Lは、構成音の数を表し、tは繰り返し回数を表す。
また、パラメータ更新部44は、初期値である、又は前回更新した、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに基づいて、上記(26)式〜(28)式に従って、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとを更新する。
収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させる。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(2)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。
出力部90は、パラメータ推定部36において取得した各構成音lの信号

を出力する。
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10において各構成音の構成音信号の時系列データを受け付けると、信号解析装置100は、図2に示す学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた各構成音の構成音信号の時系列データに基づいて、各構成音信号の各時刻における各周波数のスペクトルを計算する。
次に、ステップS104では、上記ステップS100において取得した各構成音信号の各時刻における各周波数のスペクトルに基づいて、従来技術であるNMFにより、各構成音l及び各周波数kにおける振幅スペクトルを表す基底スペクトルHk,lを推定し、基底スペクトル記憶部30に格納して、学習処理ルーチンを終了する。
次に、入力部10において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置100は、図3に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS120では、に基づいて、観測スペクトログラムYを計算する。
ステップS122では、各構成音lの基底スペクトルHk,lの初期値として、基底スペクトル記憶部30に記憶された各構成音及び各周波数における基底スペクトルを設定する。また、各構成音のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに初期値を設定する。
ステップS124では、初期値である、又は後述するステップS126、S128で前回更新した、各構成音lの信号

と、各構成音信号のアクティベーションパラメータUl,mとに基づいて、上記(8)式〜(9)式に従って、各構成音l、各周波数k、及び各時刻mに対するcl,k,m、各構成音l及び各時刻mに対するVl,mを更新する。
次に、ステップS126では、入力部10において受け付けた観測信号の時系列データyと、上記ステップS124で更新された各構成音l、各周波数k、及び各時刻mに対するcl,k,m、各構成音l及び各時刻mに対するVl,mと、初期値である、又はステップS126、S128で前回更新した、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各構成音lの信号

と、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとに基づいて、上記(16)式、(18)〜(19)式、(25)式に従って、各構成音lの信号

と、ステップサイズγとを更新する。ここで、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、以下の式に従って、各構成音の信号を繰り返し更新する。
ステップS128では、初期値である、又は前回更新した、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各時刻m、各周波数k、及び各構成音lの重みβl,k,mと、上記ステップS126で更新した各構成音lの信号

と、に基づいて、上記(26)式〜(28)式に従って、各構成音信号の各周波数における基底スペクトルHk,lと、各構成音信号のアクティベーションパラメータUl,mと、各時刻m、各周波数k、及び各構成音lの重みβl,k,mとを更新する。
次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124〜ステップS128の処理を繰り返す。
ステップS132では、上記ステップS126で最終的に更新された各構成音の信号を、出力部90から出力して、パラメータ推定処理ルーチンを終了する。
<実験例>
本実施の形態の手法の有効性を確認するため、SiSEC 2013 Database の"professionally produced music recordings"(5音源からなるポピュラー音楽の音響信号)を用いて3分割交差検証による教師あり音源分離実験を行い,既存のTSF(β1,k,m= ・・・ =βL,k,m)、複素NMF(CNMF-EUC)、Iダイバージェンス規準NMF(NMF-KL)、二乗誤差規準NMF(NMF-EUC)、板倉斎藤擬距離規準NMF(NMF-IS)による各音源のSignal to Distortion Ratio (SDR) 改善値を比較した。図4にその結果を示す。提案手法が他手法に比べて高い改善値を得られていることが確認できた。
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、時間領域スペクトログラム分解法のアルゴリズムにおいて、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、基底スペクトル及びアクティベーションパラメータの積との誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新することにより、計算コストを抑えて、各構成音が混合した観測信号から、各構成音を精度よく分離することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、各構成音信号の基底スペクトルを学習する処理と、観測信号からパラメータを推定するパラメータ推定とを別々の装置で行うように構成してもよい。
また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
24 時間周波数展開部
28 基底スペクトル学習部
30 基底スペクトル記憶部
36 パラメータ推定部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 信号解析装置

Claims (7)

  1. 各構成音が混合された観測信号の時系列データを入力として、予め学習された各構成音及び各周波数における振幅スペクトルを表す基底スペクトルに基づいて、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、前記基底スペクトル及び各構成音の各時刻における音量を表すアクティベーションパラメータの積との誤差の大きさを表す規準を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを推定するパラメータ推定部
    を含む信号解析装置であって、
    前記パラメータ推定部は、
    前記規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部であって、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む信号解析装置。
  2. 前記パラメータ更新部は、以下の式に従って、各構成音の信号を更新する請求項1記載の信号解析装置。


    ただし、slは、構成音lの信号を表し、

    は、前記補助関数の偏微分を表し、γはステップサイズを表し、Lは、構成音の数を表し、yは、前記観測信号を表す。
  3. 前記規準は、以下の式で表わされる請求項1又は2記載の信号解析装置。


    ただし、

    であり、βl,k,mは、各時刻m、各周波数k、及び各構成音lの重みを表し、ψk,mは、時刻m、周波数kの振幅スペクトルを測るための基底関数を表し、(・)Hは、ベクトルの複素共役転置であり、Hk,lは、各周波数k及び各構成音lの基底スペクトルを表し、Ul,mは、各構成音lの各時刻mにおけるアクティベーションパラメータを表し、λは、重みパラメータであり、pは定数である。
  4. パラメータ推定部が、各構成音が混合された観測信号の時系列データを入力として、予め学習された各構成音及び各周波数における振幅スペクトルを表す基底スペクトルに基づいて、各構成音の信号から求められる各周波数の各時刻における振幅スペクトルと、前記基底スペクトル及び各構成音の各時刻における音量を表すアクティベーションパラメータの積との誤差の大きさを表す規準を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを推定する
    信号解析方法であって、
    前記パラメータ推定部が推定することでは、
    パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の信号と、各構成音及び各周波数の基底スペクトルと、各構成音の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部であって、各構成音の信号を更新する際、各構成音の信号の和が前記観測信号と等しくなる線形制約を満たす空間へ各構成音の信号を射影するように、各構成音の信号を更新し、
    収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む信号解析方法。
  5. 前記パラメータ更新部が更新することでは、以下の式に従って、各構成音の信号を更新する請求項4記載の信号解析方法。


    ただし、slは、構成音lの信号を表し、

    は、前記補助関数の偏微分を表し、γはステップサイズを表し、Lは、構成音の数を表し、yは、前記観測信号を表す。
  6. 前記規準は、以下の式で表わされる請求項4又は5記載の信号解析方法。


    ただし、

    であり、βl,k,mは、各時刻m、各周波数k、及び各構成音lの重みを表し、ψk,mは、時刻m、周波数kの振幅スペクトルを測るための基底関数を表し、(・)Hは、ベクトルの複素共役転置であり、Hk,lは、各周波数k及び各構成音lの基底スペクトルを表し、Ul,mは、各構成音lの各時刻mにおけるアクティベーションパラメータを表し、λは、重みパラメータであり、pは定数である。
  7. 請求項1〜請求項3の何れか1項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。
JP2016214288A 2016-11-01 2016-11-01 信号解析装置、方法、及びプログラム Active JP6615733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016214288A JP6615733B2 (ja) 2016-11-01 2016-11-01 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016214288A JP6615733B2 (ja) 2016-11-01 2016-11-01 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018072664A true JP2018072664A (ja) 2018-05-10
JP6615733B2 JP6615733B2 (ja) 2019-12-04

Family

ID=62115365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016214288A Active JP6615733B2 (ja) 2016-11-01 2016-11-01 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6615733B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011133780A (ja) * 2009-12-25 2011-07-07 Nippon Telegr & Teleph Corp <Ntt> 信号分析装置、信号分析方法及び信号分析プログラム
WO2014079484A1 (en) * 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム
WO2016130885A1 (en) * 2015-02-15 2016-08-18 Dolby Laboratories Licensing Corporation Audio source separation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011133780A (ja) * 2009-12-25 2011-07-07 Nippon Telegr & Teleph Corp <Ntt> 信号分析装置、信号分析方法及び信号分析プログラム
WO2014079484A1 (en) * 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム
WO2016130885A1 (en) * 2015-02-15 2016-08-18 Dolby Laboratories Licensing Corporation Audio source separation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
亀岡弘和他: "複素NMF:新しいスパース信号分解表現と基底系学習アルゴリズム", 日本音響学会2008年秋季研究発表会講演論文集, JPN6012030553, September 2008 (2008-09-01), pages 657 - 660, ISSN: 0004142345 *
朴玄信他: "制約付き非負行列因子分解を用いた音声特徴抽出の検討", 情報処理学会研究報告, vol. 2008, no. 123, JPN6012030555, December 2008 (2008-12-01), pages 43 - 48, ISSN: 0004142346 *

Also Published As

Publication number Publication date
JP6615733B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
JP6328320B2 (ja) 入力信号を変換する方法
US9349375B2 (en) Apparatus, method, and computer program product for separating time series signals
JP5942420B2 (ja) 音響処理装置および音響処理方法
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
US9576583B1 (en) Restoring audio signals with mask and latent variables
JP6976804B2 (ja) 音源分離方法および音源分離装置
US10904688B2 (en) Source separation for reverberant environment
US20140114650A1 (en) Method for Transforming Non-Stationary Signals Using a Dynamic Model
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP2019144320A (ja) 信号解析装置、方法、及びプログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6615733B2 (ja) 信号解析装置、方法、及びプログラム
JP6618493B2 (ja) 信号解析装置、方法、及びプログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JP6193823B2 (ja) 音源数推定装置、音源数推定方法および音源数推定プログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
JP6586061B2 (ja) 信号解析装置、方法、及びプログラム
JP6137479B2 (ja) 音声信号解析装置、方法、及びプログラム
KR101621718B1 (ko) 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
JP4958241B2 (ja) 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191106

R150 Certificate of patent or registration of utility model

Ref document number: 6615733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350