JP5580585B2 - 信号分析装置、信号分析方法及び信号分析プログラム - Google Patents

信号分析装置、信号分析方法及び信号分析プログラム Download PDF

Info

Publication number
JP5580585B2
JP5580585B2 JP2009294892A JP2009294892A JP5580585B2 JP 5580585 B2 JP5580585 B2 JP 5580585B2 JP 2009294892 A JP2009294892 A JP 2009294892A JP 2009294892 A JP2009294892 A JP 2009294892A JP 5580585 B2 JP5580585 B2 JP 5580585B2
Authority
JP
Japan
Prior art keywords
power envelope
basis
spectrum
base
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009294892A
Other languages
English (en)
Other versions
JP2011133780A (ja
Inventor
弘和 亀岡
ジョナトン ルルー
康智 大石
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009294892A priority Critical patent/JP5580585B2/ja
Publication of JP2011133780A publication Critical patent/JP2011133780A/ja
Application granted granted Critical
Publication of JP5580585B2 publication Critical patent/JP5580585B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号をノート(楽譜における音符)ごとの信号に分解するために音響信号を分析する信号分析装置、信号分析方法及び信号分析プログラムに関する。
複数の音響信号が重畳する混合信号から個々の音響信号を分離抽出することは容易ではない。このような問題は音源分離と呼ばれ、特にモノラル信号を対象とした信号分離は典型的な不良設定問題であり、何の仮定も置かずに解くことは困難である。モノラル信号分離の研究は、これまで多くのアプローチが検討されているが、近年有効なアプローチとして脚光を浴びているのは、非負値行列因子分解(Non-negative Matrix Factorization;NMF)の原理を応用した手法である(例えば、特許文献1参照)。このアプローチでは、観測信号の各時刻でのスペクトル(周波数成分の大きさ)を列ベクトルとして並べた非負値のデータ行列Yを非負値の基底行列Hと非負値の係数行列Uの積の形で近似する。
この結果、観測される全スペクトルを構成しているスペクトル基底関数が基底行列Hの各列に格納され、特定のスペクトル基底関数が各時刻でどの程度の大きさでアクティベートしているかを表すスペクトル基底アクティビティ値の時系列が係数行列Uの一つの行に格納される。以上のようにして、信号の分解表現を得ることができる。この手法は、音源分離の問題に対して、「観測信号は限られた種類のスペクトルをもった音だけで構成される」という仮定を活用している点が特徴的であり、この仮定に適合する信号に対しては有効な解法となる。
非負値行列因子分解によるスペクトログラムの分解表現は、スペクトログラムを
と見立て、
となるような
を決めてやることによって得られる。ただし、ω、tはそれぞれ周波数と時刻に対応するインデックスである。
:=(Y1,,・・・,YΩ,t,h:=(H1,i,・・・,HΩ,iとすると式(2)は、
と書き直せることから分かるとおり、すべてのtにおける観測データyを、高々I種類の「パーツ」h,・・・,hだけで構成されたものと見なそうとしていることになり、そのためにそれぞれのパーツをどのように置くのが最も妥当かを判断する問題と理解される。これにより得られるそれぞれの行列が表すものは、図2を見るとより分かりやすい。Hの各列ベクトルには楽曲中に繰り返し現れるスペクトルが典型的な構成パーツと見なされて表出される。従って、音楽スペクトログラムが楽器の種類や音階で決まる限られたパターンのスペクトルだけで構成されているとするなら、Hの各列ベクトルはおおよそ特定楽器の特定音階に対応したスペクトルとなる。一方、Uの各行ベクトルはそれぞれのスペクトルパーツがどの時刻にどの程度の強さでアクティベートしているかを表している。
P. Smaragdis and J. C. Brown, "Non-negative matrix factorization for music transcription," in Proceedings of the IEEEWorkshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2003, pp. 177.180.
前述のとおり、非負値行列因子分解は、観測スペクトルを格納したデータ行列を、スペクトル基底を各列に格納した基底行列とスペクトル基底アクティビティの時系列を各行に格納した係数行列の積で近似することで、観測スペクトルの集合からスペクトル基底関数を自動獲得し、スペクトル基底関数ごとに観測スペクトルを分解する機能をもつものである。
しかしながら、音楽信号をノート(楽譜における音符)ごとの信号に分解するためには、スペクトル基底アクティビティ時系列自体をも各ノートイベントに該当するスペクトル基底アクティビティ時系列に分解する必要がある。明らかに従来の非負値行列因子分解にはこのような階層的な分解表現を取得する機能がないという問題がある。
本発明は、このような事情に鑑みてなされたもので、前述したような階層的な分解表現を得ることができる信号分析装置、信号分析方法及び信号分析プログラムを提供することを目的とする。
本発明は、音響信号データが記憶された信号データ記憶手段と、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析手段と、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定手段と、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出手段と、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新手段と、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新手段により値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力手段とを備えたことを特徴とする。
本発明は、音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析方法であって、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップとを有することを特徴とする。
本発明は、音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析プログラムであって、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップとを前記コンピュータに行わせることを特徴とする。
本発明によれば、複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などに信号分析結果のパラメータを利用することができるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 非負値行列因子分解(NMF)による音楽スペクトルグラムの分解表現を示す説明図である。
以下、図面を参照して、本発明の一実施形態による信号分析装置を説明する。初めに、本発明による信号分析装置の基本原理について説明する。音楽信号からデータ行列を取得した場合、非負値行列因子分解によって得られる係数行列の各行に格納されたスペクトル基底アクティビティ時系列は、限られた種類の局所パターンの組み合わせで表現されることが多い。これは、音楽においては、音価と呼ぶノートの発音時間長に関する単位があり、同じ音価のノートは音の立ち上がり方と減衰の仕方が類似することが多いからである。
本発明では、前述した音楽の性質を利用し、観測スペクトルの集合からスペクトル基底関数を自動獲得しつつスペクトル基底関数ごとに観測スペクトルを分解する非負値行列因子分解の従来の機能に加え、各スペクトル基底アクティビティ時系列の中に混在する局所パターンの基底関数(以後、これをパワーエンベロープ基底という)を自動獲得しつつパワーエンベロープ基底ごとにスペクトル基底アクティビティ時系列を分解する機能を実現している。
具体的に説明すると、係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形で表現する。すなわち、Uのi行目の要素をUi,0,Ui,1,・・・とすると、
と表す。Gj,0,Gj,1,・・・はj番目のパワーエンベロープ基底であり、Oi,j,0,Oi,j,1,・・・はそのアクティビティを表すので以後、Oi,j,tをパワーエンベロープ基底アクティビティと呼ぶ。ところで、畳み込み混合とは、複数の信号源から到来する信号を複数のマイクロホンで観測する際の、信号源の混合過程のモデルとして広く認知されているものであり、前述の場合、Uのi行目のスペクトル基底アクティビティ時系列がi番目のマイクロホンにおける観測信号に対応し、Gj,1,Gj,2,・・・がj番目の信号源の信号に対応し、Oi,j,1,Oi,j,2・・・がj番目の信号源からi番目のマイクロホンまでのインパルス応答に対応していることになる。
次に、スペクトログラムモデルについて説明する。図2に示すUの各行ベクトルを見ると、hのスペクトル基底アクティベーションの時間エンベロープは、限られた種類の局所パターンだけで構成されていることに気づく。これは、個々のノートは限られた種類の音長で弾かれるため、立ち上がり・減衰パターンの種類もまた限られるからである。そこで、Uに関して、さらに、
のような畳み込み混合の形で表される分解表現を考える。Gj,τはj番目の時間エンベロープの局所パターンを表す。一方Oi,j,tはそのアクティベーションを表し、理想的には各ノートのオンセット時刻にピークが立つようなイメージとなる。式(2)の右辺に式(5)を代入すると、
のように、式(2)で与えられるNMF型のモデルを拡張したスペクトログラムモデルが立てられる。ここで、分解のスケールの任意性を除く目的で、
を仮定しておく。
次に、最適化アルゴリズムについて説明する。非負値行列因子分解でYから図2のようにHとUを求めたように、提案するモデルのもとでYからHとGとOを求めたい。以下では、提案モデルによる音楽の階層的スパース表現を得るための最適化アルゴリズムについて説明する。まず、二乗誤差規準について説明する。ここでは、観測スペクトログラムY:=(Yω,tΩ×Tのもとで設定される次の最適化問題
を検討する。S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、ここでは
と定義する。ただし、0<p≦2,0<p≦2とする。
まず、Fを降下させるHの更新式を導出する。H,G,Oの1ステップ前での更新値をそれぞれH’,G’,O’とすると、
となる。ただし、
である。詳細な説明は省略するが、F(H,G’,O’)を最小化するHは解析的に
と求まり、このように更新すればF(H,G’,O’)は増加しないことが保証される。また、H’およびU’がともに非負値であればHも必ず非負値となる。
次に、Fを降下させるGの更新式を導出する。先と同様に、
となる。ただし、
である。F(H’,G,O’)の第2項は
の不等式による(右辺は接点±x’で|x|に接する放物線であるため明らか)。以上より、F(H’,G,O’)を用いてGの更新式が
と導ける。
最後に、Fを降下させるOの更新式を導出する。先と同様に、
が言え、これを用いてOの更新式が
と導ける。
次に、Iダイバージェンス規準について説明する。モデル化誤差をIダイバージェンスで測った場合の最適化問題
についても検討する。
まず、Hの更新式については、
の不等式より導かれる
を最小化するHを求めれば良く、
のように解析的に得られる。以下同様にして、Gの更新式については、
の不等式、Oの更新式については、
の不等式より導かれる
をそれぞれ最小化するG,Oを求めれば良く、
のように解析的に得られる。式(21)の第2項および式(22)の第3項は
x>0,|x|≦p|x’|p−1(x−x’)+|x’|(0<p≦2)・・・(25)による(右辺は接点x’における|x|の接線であるため明らか)。
次に、前述した基本原理を使用した信号分析装置について説明する。図1は第1の実施形態における信号分析装置の構成を示すブロック図である。信号分析装置は、コンピュータ装置で構成する。この図において、符号1は、音響信号を標本化・量子化することにより得られる音響信号データを入力して記憶した信号データ記憶部である。符号2は、時間周波数解析を行う時間周波数解析部である。符号3は、値の初期設定を行う初期設定部である。符号4は、スペクトログラムモデルを算出するスペクトログラムモデル算出部である。符号5は、スペクトル基底を更新するスペクトル基底更新部である。符号6は、パワーエンベロープ基底を更新するパワーエンベロープ基底更新部である。符号7は、パワーエンベロープ基底アクティビティを更新するパワーエンベロープ基底アクティビティ更新部である。符号8は、パラメータを規格化するパラメータ規格化部である。符号9は、処理が収束したか否かを判定する収束判定部である。符号10は、パラメータを出力するパラメータ出力部である。符号11は、出力されたパラメータを記憶するパラメータ記憶部である。
次に、図1を参照して、図1に示す信号分析装置の動作を説明する。まず、時間周波数解析部2は、信号データ記憶部1に記憶されている分析対象の信号データを読み込み、短時間フーリエ変換(Short-Time Fourier Transform;STFT)やウェーブレット変換などを用いて、時間周波数解析を行って非負値で与えられる時間周波数成分{Yω,t}0≦Ω≦Ω−1,0≦t≦T−1を計算する。ただし、ω=0,・・・,Ω−1,t=0,・・・,T−1はそれぞれ周波数、時刻に対応するインデックスとする。時間周波数解析部2は、時間周波数成分Yω,tを格納した行列Y=(Yω,tΩ×Tを出力する。
次に、初期設定部3は、スペクトル基底数I、パワーエンベロープ基底数Jおよび正則化パラメータλ,λ,p,pを決定する。そして、初期設定部3は、非負値行列因子分解(NMF)によりYに対し、
となる
を出力する。これを用いて、スペクトル基底パラメータHω,i、パワーエンベロープ基底パラメータGj,t、パワーエンベロープ基底アクティビティ値Oi,j,tの初期値をそれぞれ
として出力する。ただし、i=1,・・・,Iはスペクトル基底のインデックス、j=1,・・・,Jはパワーエンベロープ基底のインデックスとする。また、[・]a,bは行列のa行b列の成分を表す。
次に、スペクトログラムモデル算出部4は、前段で得られたHω,i、Gj,t、Oi,j,tを用いてスペクトログラムモデルXω,tを以下の手順で算出して出力する。まず、スペクトログラムモデル算出部4は、Gj,tとOi,j,tを用いてスペクトル基底アクティビティ値Ui,tを畳み込み混合演算
により算出する。この畳み込み混合演算は高速フーリエ変換を用いて高速計算する。
次に、スペクトログラムモデル算出部4は、Hω,iおよび先に求まったUi,tを用いて、Xω,tを積和演算
により算出する。
次に、スペクトル基底更新部5は、Yω,tおよび前段で得られたXω,tとUi,tとHω,iを用いて、Hω,i
により更新して出力する。
次に、パワーエンベロープ基底更新部6は、Yω,tおよび前段で得られたXω,tとHω,iとOi,j,tを用いて、Gj,tを以下の手順により算出する。まず、パワーエンベロープ基底更新部6は、i番目のスペクトル基底H0,i,・・・,HΩ−1,iと時刻tにおける観測スペクトルY0,t,・・・,YΩ−1,tとの

により算出する。同様に、パワーエンベロープ基底更新部6は、H0,i,・・・,HΩ−1,iとX0,t,・・・,XΩ−1,t

により算出する。
次に、パワーエンベロープ基底更新部6は、

により算出する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。同様に、パワーエンベロープ基底更新部6は、

により算出する。この相互相関の演算も高速フーリエ変換を用いることで高速計算する。
最後に、パワーエンベロープ基底更新部6は、
および前段で得られたGj,tを用いて、Gj,t
により更新する。このλ|Gj,τpg−1はスパース正則化項に関係する項であり、Gj,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
次に、パワーエンベロープ基底アクティビティ更新部7は、Yω,tおよび前段で得られたXω,tとHω,iとOi,j,tを用いて、Gj,tを以下の手順により算出して出力する。まず、パワーエンベロープ基底アクティビティ更新部7は、i番目のスペクトル基底H0,i,・・・,HΩ−1,iと時刻tにおける観測スペクトルY0,t,・・・,YΩ−1,tとの

により算出する。同様に、パワーエンベロープ基底アクティビティ更新部7は、H0,i,・・・,HΩ−1,iとX0,t,・・・,XΩ−1,t

により算出する。
次に、パワーエンベロープ基底アクティビティ更新部7は、

により算出する。この相互相関の演算は,高速フーリエ変換を用いることで高速計算する。同様に、パワーエンベロープ基底アクティビティ更新部7は、

により算出する。この相互相関の演算も高速フーリエ変換を用いることで高速計算する。
最後に、パワーエンベロープ基底アクティビティ更新部7は、

により更新する。この+λ|O’i,j,τpo−1はスパース正則化項に関係する項であり、Oi,j,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
次に、パラメータ規格化部8は、前段で得られたHω,iおよびGj,tを規格化して出力する。例えば、足して1になるように両者を規格化する場合は、
によりHω,iおよびGj,tをそれぞれ更新する。
次に、収束判定部9は、前段の反復計算が所定の回数を満たしたか否か、あるいは、反復計算においてパラメータの更新の変化率が所定値以下になったか否か、あるいは、目的関数値の変化率が所定値以下になったか否かを判定する。例えば、目的関数は、
により計算する。ただし、S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、
と定義する。収束判定部9は、反復計算が収束していなければ、スペクトログラムモデル算出部4に対して、再度スペクトログラムモデルを算出し直す指示を出力し、これを受けて、スペクトログラムモデル算出部4、スペクトル基底更新部5、パワーエンベロープ基底更新部6、パワーエンベロープ基底アクティビティ更新部7及びパラメータ規格化部8は、反復計算が収束するまで前述した処理動作を繰り返す。
次に、パラメータ出力部9は、反復計算が収束したと見なされたHω,i,Gj,t,Oi,j,t,Xω,tなどのパラメータをパラメータ記憶部11に記憶する。
次に、第2の実施形態における信号分析装置を説明する。まず、第2の実施形態におけるスペクトル基底更新部5の処理動作を説明する。スペクトル基底更新部5は、Yω,tおよび前段で得られたXω,tとHω,iとUi,tを用いて、以下の手順によりHω,iを更新する。まず、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。
次に、スペクトル基底更新部5は、先に求まったRω,tおよびHω,iとUi,tを用いて、
により算出する。
次に、第2の実施形態におけるパワーエンベロープ基底更新部6の処理動作を説明する。パワーエンベロープ基底更新部6、Yω,tおよび前段で得られたXω,tとHω,iとGj,tとOi,j,tを用いて、以下の手順によりGj,tを更新する。まず、パワーエンベロープ基底更新部6は、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。次に、パワーエンベロープ基底更新部6は、H0,i,・・・,HΩ−1,iとR0,t,・・・,RΩ−1,tとの

により計算する。次に、パワーエンベロープ基底更新部6は、
により計算する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。
最後に、パワーエンベロープ基底更新部6は、
によりGj,tを更新する。この2λ|Gj,τpg−1はスパース正則化項に関係する項であり、Gj,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
次に、第2の実施形態におけるパワーエンベロープ基底アクティビティ更新部7の処理動作を説明する。パワーエンベロープ基底アクティビティ更新部7は、Yω,tおよび前段で得られたXω,tとHω,iとGj,tとOi,j,tを用いて、以下の手順によりOi,j,tを更新する。まず、パワーエンベロープ基底アクティビティ更新部7は、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。次に、パワーエンベロープ基底アクティビティ更新部7は、H0,i,・・・,HΩ−1,iとR0,t,・・・,RΩ−1,tとの

により計算する。次に、パワーエンベロープ基底アクティビティ更新部7は、

により計算する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。
最後に、パワーエンベロープ基底アクティビティ更新部7は、
によりOi,j,tを更新する。この2λ|Oi,j,τpo−1はスパース正則化項に関係する項であり、Oi,j,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
次に、第2の実施形態における収束判定部9の処理動作を説明する。収束判定部9は、反復計算が所定の回数を満たしたか否か、あるいは、反復計算においてパラメータの更新の変化率が所定値以下になったか否か、あるいは、目的関数値の変化率が所定値以下になったか否かを判定する。例えば、目的関数は
により計算する。ただし、S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、ここでは
と定義する。
以上説明したように、音響信号をノートごとの信号に分解するために、従来の非負値行列分解(NMF)で用いられる分解要素(行列U)について、さらに音の立ち上がりや減衰のパターンの情報を表現できる分解(式(4)及び式(5))を導入した新たなモデルを用い、モデルの各パラメータを推定することにより、複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などに利用することができる。
なお、図1に示す時間周波数解析部2、初期設定部3、スペクトログラムモデル算出部4、スペクトル基底更新部5、パワーエンベロープ基底更新部6、パワーエンベロープ基底アクティビティ更新部7、パラメータ規格化部8、収束判定部9及びパラメータ出力部10の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより信号分析処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などを行うことが不可欠な用途に適用できる。
1・・・信号データ記憶部、2・・・時間周波数解析部、3・・・初期設定部、4・・・スペクトログラムモデル算出部、5・・・スペクトル基底更新部、6・・・パワーエンベロープ基底更新部、7・・・パワーエンベロープ基底アクティビティ更新部、8・・・パラメータ規格化部、9・・・収束判定部、10・・・パラメータ出力部、11・・・パラメータ記憶部

Claims (3)

  1. 音響信号データが記憶された信号データ記憶手段と、
    前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析手段と、
    非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定手段と、
    前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出手段と、
    前記スペクトログラムモデルの値と、前記データ行列Yと、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新手段と、
    前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新手段により値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力手段と
    前記パワーエンベロープ基底アクティビティ値の時系列から各ノートのオンセットに対応するピークを検出し、各ピーク近傍の値と前記パワーエンベロープ基底パラメータと前記スペクトル基底パラメータとを用いて、楽譜における音符に相当するノート毎の音響信号のスペクトログラムを算出するスペクトログラム算出手段と
    を備えたことを特徴とする信号分析装置。
  2. 音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析方法であって、
    前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、
    非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、
    前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、
    前記スペクトログラムモデルの値と、前記データ行列Yと、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、
    前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップと
    前記パワーエンベロープ基底アクティビティ値の時系列から各ノートのオンセットに対応するピークを検出し、各ピーク近傍の値と前記パワーエンベロープ基底パラメータと前記スペクトル基底パラメータとを用いて、楽譜における音符に相当するノート毎の音響信号のスペクトログラムを算出するスペクトログラム算出ステップと
    を有することを特徴とする信号分析方法。
  3. コンピュータを、請求項1に記載の信号分析装置として機能させるための信号分析プログラム。
JP2009294892A 2009-12-25 2009-12-25 信号分析装置、信号分析方法及び信号分析プログラム Expired - Fee Related JP5580585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009294892A JP5580585B2 (ja) 2009-12-25 2009-12-25 信号分析装置、信号分析方法及び信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009294892A JP5580585B2 (ja) 2009-12-25 2009-12-25 信号分析装置、信号分析方法及び信号分析プログラム

Publications (2)

Publication Number Publication Date
JP2011133780A JP2011133780A (ja) 2011-07-07
JP5580585B2 true JP5580585B2 (ja) 2014-08-27

Family

ID=44346557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009294892A Expired - Fee Related JP5580585B2 (ja) 2009-12-25 2009-12-25 信号分析装置、信号分析方法及び信号分析プログラム

Country Status (1)

Country Link
JP (1) JP5580585B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148424A (zh) * 2019-05-08 2019-08-20 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5520883B2 (ja) * 2011-05-17 2014-06-11 日本電信電話株式会社 信号分解装置、方法、及びプログラム
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
JP2015064602A (ja) * 2014-12-04 2015-04-09 株式会社東芝 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
JP6448567B2 (ja) * 2016-02-23 2019-01-09 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
JP6615733B2 (ja) * 2016-11-01 2019-12-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325127A (ja) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音源検出方法、音源分離方法、およびこれらを実施する装置
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
DE102005043641A1 (de) * 2005-05-04 2006-11-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Generierung und Bearbeitung von Toneffekten in räumlichen Tonwiedergabesystemen mittels einer graphischen Benutzerschnittstelle
JP4873483B2 (ja) * 2007-02-28 2012-02-08 独立行政法人産業技術総合研究所 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置
JP2009204808A (ja) * 2008-02-27 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148424A (zh) * 2019-05-08 2019-08-20 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2011133780A (ja) 2011-07-07

Similar Documents

Publication Publication Date Title
JP5580585B2 (ja) 信号分析装置、信号分析方法及び信号分析プログラム
CN111161752B (zh) 回声消除方法和装置
Gamper et al. Blind reverberation time estimation using a convolutional neural network
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
EP2742435B1 (en) Processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP2008058755A (ja) 音分析装置およびプログラム
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP6723120B2 (ja) 音響処理装置および音響処理方法
US11074925B2 (en) Generating synthetic acoustic impulse responses from an acoustic impulse response
Sarroff Complex neural networks for audio
EP3040989B1 (fr) Procédé de séparation amélioré et produit programme d&#39;ordinateur
Lindsay-Smith et al. Drumkit transcription via convolutive NMF
Eklund Data augmentation techniques for robust audio analysis
Permana et al. Implementation of constant-Q transform (CQT) and mel spectrogram to converting bird’s sound
KR101043114B1 (ko) 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
Jaiswal et al. Towards shifted nmf for improved monaural separation
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
Lefèvre et al. A convex formulation for informed source separation in the single channel setting
JP2015049406A (ja) 音響信号解析装置、方法、及びプログラム
Cruz et al. An incremental algorithm based on multichannel non-negative matrix partial co-factorization for ambient denoising in auscultation
de Carvalho et al. Bayesian restoration of audio degraded by low-frequency pulses modeled via Gaussian process
Kawahara et al. Simultaneous measurement of multiple acoustic attributes using structured periodic test signals including music and other sound materials
JP2010049102A (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
CN113066472A (zh) 合成语音处理方法及相关装置
JP2011053565A (ja) 信号分析装置、信号分析方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140711

R150 Certificate of patent or registration of utility model

Ref document number: 5580585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees