JP2011133780A - Signal analyzing device, signal analyzing method and signal analyzing program - Google Patents

Signal analyzing device, signal analyzing method and signal analyzing program Download PDF

Info

Publication number
JP2011133780A
JP2011133780A JP2009294892A JP2009294892A JP2011133780A JP 2011133780 A JP2011133780 A JP 2011133780A JP 2009294892 A JP2009294892 A JP 2009294892A JP 2009294892 A JP2009294892 A JP 2009294892A JP 2011133780 A JP2011133780 A JP 2011133780A
Authority
JP
Japan
Prior art keywords
power envelope
basis
spectrum
value
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009294892A
Other languages
Japanese (ja)
Other versions
JP5580585B2 (en
Inventor
Hirokazu Kameoka
弘和 亀岡
Roux Jonathan Le
ジョナトン ルルー
Yasutomo Oishi
康智 大石
Kunio Kayano
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009294892A priority Critical patent/JP5580585B2/en
Publication of JP2011133780A publication Critical patent/JP2011133780A/en
Application granted granted Critical
Publication of JP5580585B2 publication Critical patent/JP5580585B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a signal analyzing device that achieves hierarchical factorization. <P>SOLUTION: The signal analyzing device includes: a means which determines a data matrix Y for storing time-frequency components of acoustic signal data by performing time-frequency analysis on read acoustic signal data; a means which sets initial values of a spectrum base parameter, a power envelope base parameter and a power envelope base activity value to be determined when the data matrix Y is approximated by the product of a base matrix H and a coefficient matrix U using a non-negative matrix factorization; a means which calculates a spectrogram model value obtained by expressing as a convolution mixture format the spectrum base activity time series corresponding to each row of the coefficient matrix U, using the parameter with initial value; and a means which continues updating the value till convergence of the parameter to be determined, and outputs the parameter value to be determined at the time of convergence. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、音響信号をノート(楽譜における音符)ごとの信号に分解するために音響信号を分析する信号分析装置、信号分析方法及び信号分析プログラムに関する。   The present invention relates to a signal analysis apparatus, a signal analysis method, and a signal analysis program for analyzing an acoustic signal in order to decompose the acoustic signal into signals for each note (note in a musical score).

複数の音響信号が重畳する混合信号から個々の音響信号を分離抽出することは容易ではない。このような問題は音源分離と呼ばれ、特にモノラル信号を対象とした信号分離は典型的な不良設定問題であり、何の仮定も置かずに解くことは困難である。モノラル信号分離の研究は、これまで多くのアプローチが検討されているが、近年有効なアプローチとして脚光を浴びているのは、非負値行列因子分解(Non-negative Matrix Factorization;NMF)の原理を応用した手法である(例えば、特許文献1参照)。このアプローチでは、観測信号の各時刻でのスペクトル(周波数成分の大きさ)を列ベクトルとして並べた非負値のデータ行列Yを非負値の基底行列Hと非負値の係数行列Uの積の形で近似する。
It is not easy to separate and extract individual acoustic signals from a mixed signal in which a plurality of acoustic signals are superimposed. Such a problem is called sound source separation. In particular, signal separation for monaural signals is a typical defect setting problem and is difficult to solve without making any assumptions. Many approaches have been studied for monaural signal separation so far, but the approach that has been highlighted as an effective approach in recent years is the application of the principle of non-negative matrix factorization (NMF). (For example, refer to Patent Document 1). In this approach, a non-negative data matrix Y in which spectra (magnitudes of frequency components) at each time of an observation signal are arranged as a column vector is expressed as a product of a non-negative base matrix H and a non-negative coefficient matrix U. Approximate.

この結果、観測される全スペクトルを構成しているスペクトル基底関数が基底行列Hの各列に格納され、特定のスペクトル基底関数が各時刻でどの程度の大きさでアクティベートしているかを表すスペクトル基底アクティビティ値の時系列が係数行列Uの一つの行に格納される。以上のようにして、信号の分解表現を得ることができる。この手法は、音源分離の問題に対して、「観測信号は限られた種類のスペクトルをもった音だけで構成される」という仮定を活用している点が特徴的であり、この仮定に適合する信号に対しては有効な解法となる。   As a result, the spectral basis functions constituting the entire spectrum to be observed are stored in each column of the basis matrix H, and the spectral basis representing how large the specific spectral basis function is activated at each time. A time series of activity values is stored in one row of the coefficient matrix U. As described above, a decomposition expression of the signal can be obtained. This method is characterized by the fact that it uses the assumption that the observed signal consists only of sounds with a limited type of spectrum for the sound source separation problem. This is an effective solution for signals that

非負値行列因子分解によるスペクトログラムの分解表現は、スペクトログラムを
と見立て、
となるような
を決めてやることによって得られる。ただし、ω、tはそれぞれ周波数と時刻に対応するインデックスである。
The decomposition expression of the spectrogram by non-negative matrix factorization is the spectrogram
As
Like
It is obtained by deciding. Here, ω and t are indexes corresponding to the frequency and time, respectively.

:=(Y1,,・・・,YΩ,t,h:=(H1,i,・・・,HΩ,iとすると式(2)は、
と書き直せることから分かるとおり、すべてのtにおける観測データyを、高々I種類の「パーツ」h,・・・,hだけで構成されたものと見なそうとしていることになり、そのためにそれぞれのパーツをどのように置くのが最も妥当かを判断する問題と理解される。これにより得られるそれぞれの行列が表すものは、図2を見るとより分かりやすい。Hの各列ベクトルには楽曲中に繰り返し現れるスペクトルが典型的な構成パーツと見なされて表出される。従って、音楽スペクトログラムが楽器の種類や音階で決まる限られたパターンのスペクトルだけで構成されているとするなら、Hの各列ベクトルはおおよそ特定楽器の特定音階に対応したスペクトルとなる。一方、Uの各行ベクトルはそれぞれのスペクトルパーツがどの時刻にどの程度の強さでアクティベートしているかを表している。
y t: = (Y 1, , ···, Y Ω, t) T, h i: = (H 1, i, ···, H Ω, i) When T Equation (2)
As can be seen from the above, the observation data y t at all t is to be regarded as being composed of at most I types of “parts” h 1 ,..., H I. It is understood that this is a matter of determining how to place each part most appropriately. What each matrix obtained in this way represents is easier to understand when looking at FIG. In each column vector of H, a spectrum repeatedly appearing in the music is regarded as a typical component part and is expressed. Therefore, if the music spectrogram is composed only of a limited pattern spectrum determined by the type of musical instrument and the scale, each column vector of H is a spectrum that roughly corresponds to a specific musical scale of the specific musical instrument. On the other hand, each row vector of U represents how much intensity each spectrum part is activated at what time.

P. Smaragdis and J. C. Brown, “Non-negative matrix factorization for music transcription," in Proceedings of the IEEEWorkshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2003, pp. 177.180.P. Smaragdis and J. C. Brown, “Non-negative matrix factorization for music transcription,” in Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2003, pp. 177.180.

前述のとおり、非負値行列因子分解は、観測スペクトルを格納したデータ行列を、スペクトル基底を各列に格納した基底行列とスペクトル基底アクティビティの時系列を各行に格納した係数行列の積で近似することで、観測スペクトルの集合からスペクトル基底関数を自動獲得し、スペクトル基底関数ごとに観測スペクトルを分解する機能をもつものである。   As mentioned above, non-negative matrix factorization approximates a data matrix that stores the observed spectrum by the product of the base matrix that stores the spectrum base in each column and the coefficient matrix that stores the time series of spectrum base activities in each row. Thus, a spectrum basis function is automatically acquired from a set of observed spectra, and the observed spectrum is decomposed for each spectrum basis function.

しかしながら、音楽信号をノート(楽譜における音符)ごとの信号に分解するためには、スペクトル基底アクティビティ時系列自体をも各ノートイベントに該当するスペクトル基底アクティビティ時系列に分解する必要がある。明らかに従来の非負値行列因子分解にはこのような階層的な分解表現を取得する機能がないという問題がある。   However, in order to decompose a music signal into signals for each note (notes in a musical score), it is necessary to decompose the spectrum base activity time series itself into a spectrum base activity time series corresponding to each note event. Obviously, the conventional non-negative matrix factorization has a problem that there is no function for acquiring such a hierarchical decomposition expression.

本発明は、このような事情に鑑みてなされたもので、前述したような階層的な分解表現を得ることができる信号分析装置、信号分析方法及び信号分析プログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and an object thereof is to provide a signal analysis device, a signal analysis method, and a signal analysis program capable of obtaining the hierarchical decomposition expression as described above.

本発明は、音響信号データが記憶された信号データ記憶手段と、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析手段と、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定手段と、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出手段と、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新手段と、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新手段により値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力手段とを備えたことを特徴とする。   The present invention provides a signal data storage means storing acoustic signal data, and a data matrix Y storing time frequency components of the acoustic signal data by time frequency analysis on the acoustic signal data read from the signal data storage means. Spectral basis parameters, power envelope basis parameters, and power to be obtained when the data matrix Y is approximated by a product of a basis matrix H and a coefficient matrix U using a time frequency analysis means to be obtained and a non-negative matrix factorization method. Corresponding to each row of the coefficient matrix U by using an initial value setting means for setting initial values of each envelope base activity value, and a spectrum base parameter, a power envelope base parameter, and a power envelope base activity value in which the initial values are set Spectral basis activity Model calculation means for calculating a spectrogram model value representing a time series in the form of convolution mixture, the spectrogram model value, the data matrix, the spectrum basis parameter, the power envelope basis parameter, and the power envelope basis Update means for updating the spectrum base parameter, the power envelope base parameter, and the power envelope base activity value for which the initial value is set using the values of the activity values, the spectrum base parameter, and the power envelope The updating of the value is continued by the updating means until the basis parameter and the power envelope basis activity value converge, and at the time of convergence, the spectrum basis parameter, the power envelope Bottom parameter, characterized in that an output means for outputting a value of the power envelope basal activity value and the spectrogram model.

本発明は、音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析方法であって、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップとを有することを特徴とする。   The present invention is a signal analysis method for causing a computer of a signal analysis apparatus having signal data storage means in which acoustic signal data is stored to perform signal analysis processing, wherein the acoustic signal data read from the signal data storage means A time-frequency analysis step for obtaining a data matrix Y storing a time-frequency component of the acoustic signal data by a time-frequency analysis on the sound signal, and using a non-negative matrix factorization technique, An initial value setting step for setting initial values of spectrum base parameters, power envelope base parameters, and power envelope base activity values to be obtained when approximated by the product of U, and the spectral base parameters and powers for which the initial values are set Envelope basis parameters and power envelope A model calculation step of calculating a spectrogram model value representing a spectrum base activity time series corresponding to each row of the coefficient matrix U in a convolution mixed format using a bottom activity value, the spectrogram model value, and the data A matrix, the spectrum basis parameter, the spectrum basis parameter in which the initial value is set using the values of the power envelope basis parameter and the power envelope basis activity value, the power envelope basis parameter, and the power envelope. An updating step for updating a base activity value, and the updating until the spectrum base parameter, the power envelope base parameter, and the power envelope base activity value converge. Continues to update the value by step, at the time of convergence, the spectral basis parameter, the power envelope basal parameters, and having an output step of outputting a value of the power envelope basal activity value and the spectrogram model.

本発明は、音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析プログラムであって、前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、前記スペクトログラムモデルの値と、前記データ行列と、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップとを前記コンピュータに行わせることを特徴とする。   The present invention is a signal analysis program for causing a computer of a signal analysis apparatus having signal data storage means in which acoustic signal data is stored to perform signal analysis processing, the acoustic signal data read from the signal data storage means A time-frequency analysis step for obtaining a data matrix Y storing a time-frequency component of the acoustic signal data by a time-frequency analysis on the sound signal, and using a non-negative matrix factorization technique, An initial value setting step for setting initial values of spectrum base parameters, power envelope base parameters, and power envelope base activity values to be obtained when approximated by the product of U, and the spectral base parameters and powers for which the initial values are set Envelope basis parameters and power envelope A model calculation step of calculating a spectrogram model value expressing a spectrum base activity time series corresponding to each row of the coefficient matrix U in the form of a convolution mixture using a loop basis activity value; a value of the spectrogram model; Using the data matrix, the spectrum basis parameter, the power envelope basis parameter and the power envelope basis activity value, the spectrum basis parameter in which the initial value is set, the power envelope basis parameter, An update step of updating a power envelope basis activity value, and before the spectral basis parameter, the power envelope basis parameter and the power envelope basis activity value converge Updating the value by the updating step, and causing the computer to perform an output step of outputting the spectrum basis parameter, the power envelope basis parameter, the power envelope basis activity value, and the spectrogram model value at the time of convergence. It is characterized by.

本発明によれば、複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などに信号分析結果のパラメータを利用することができるという効果が得られる。   According to the present invention, detection of a specific sound from an acoustic signal in which a plurality of sounds are mixed, extraction of a specific sound from an acoustic signal in which a plurality of sounds are mixed, and acoustic in which a plurality of sounds are mixed An effect is obtained that a parameter of a signal analysis result can be used for processing a specific sound from a signal.

本発明の一実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of this invention. 非負値行列因子分解(NMF)による音楽スペクトルグラムの分解表現を示す説明図である。It is explanatory drawing which shows the decomposition | disassembly expression of the music spectrumgram by nonnegative matrix factorization (NMF).

以下、図面を参照して、本発明の一実施形態による信号分析装置を説明する。初めに、本発明による信号分析装置の基本原理について説明する。音楽信号からデータ行列を取得した場合、非負値行列因子分解によって得られる係数行列の各行に格納されたスペクトル基底アクティビティ時系列は、限られた種類の局所パターンの組み合わせで表現されることが多い。これは、音楽においては、音価と呼ぶノートの発音時間長に関する単位があり、同じ音価のノートは音の立ち上がり方と減衰の仕方が類似することが多いからである。   Hereinafter, a signal analyzer according to an embodiment of the present invention will be described with reference to the drawings. First, the basic principle of the signal analyzer according to the present invention will be described. When a data matrix is acquired from a music signal, the spectrum base activity time series stored in each row of the coefficient matrix obtained by non-negative matrix factorization is often expressed by a combination of limited types of local patterns. This is because, in music, there is a unit related to the sound duration of a note called note value, and notes with the same note value are often similar in how the sound rises and decays.

本発明では、前述した音楽の性質を利用し、観測スペクトルの集合からスペクトル基底関数を自動獲得しつつスペクトル基底関数ごとに観測スペクトルを分解する非負値行列因子分解の従来の機能に加え、各スペクトル基底アクティビティ時系列の中に混在する局所パターンの基底関数(以後、これをパワーエンベロープ基底という)を自動獲得しつつパワーエンベロープ基底ごとにスペクトル基底アクティビティ時系列を分解する機能を実現している。   In the present invention, in addition to the conventional function of non-negative matrix factorization that decomposes the observed spectrum for each spectral basis function while automatically acquiring the spectral basis function from the set of observed spectra, using the above-mentioned music properties, A function for decomposing the spectrum basis activity time series for each power envelope basis is realized while automatically acquiring basis functions of local patterns (hereinafter referred to as power envelope basis) mixed in the basis activity time series.

具体的に説明すると、係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形で表現する。すなわち、Uのi行目の要素をUi,0,Ui,1,・・・とすると、
と表す。Gj,0,Gj,1,・・・はj番目のパワーエンベロープ基底であり、Oi,j,0,Oi,j,1,・・・はそのアクティビティを表すので以後、Oi,j,tをパワーエンベロープ基底アクティビティと呼ぶ。ところで、畳み込み混合とは、複数の信号源から到来する信号を複数のマイクロホンで観測する際の、信号源の混合過程のモデルとして広く認知されているものであり、前述の場合、Uのi行目のスペクトル基底アクティビティ時系列がi番目のマイクロホンにおける観測信号に対応し、Gj,1,Gj,2,・・・がj番目の信号源の信号に対応し、Oi,j,1,Oi,j,2・・・がj番目の信号源からi番目のマイクロホンまでのインパルス応答に対応していることになる。
More specifically, the spectrum base activity time series corresponding to each row of the coefficient matrix U is expressed in the form of convolutional mixing. That is, if the elements in the i-th row of U are U i, 0 , U i, 1 ,.
It expresses. G j, 0 , G j, 1 ,... Is the jth power envelope base, and O i, j, 0 , O i, j, 1 ,. , J, t are called power envelope base activities. By the way, convolutional mixing is widely recognized as a model of a mixing process of signal sources when signals coming from a plurality of signal sources are observed with a plurality of microphones. The spectral basis activity time series of the eye corresponds to the observed signal at the i-th microphone, G j, 1 , G j, 2 ,... Correspond to the signal of the j-th signal source, and O i, j, 1 , O i, j, 2 ... Correspond to impulse responses from the j-th signal source to the i-th microphone.

次に、スペクトログラムモデルについて説明する。図2に示すUの各行ベクトルを見ると、hのスペクトル基底アクティベーションの時間エンベロープは、限られた種類の局所パターンだけで構成されていることに気づく。これは、個々のノートは限られた種類の音長で弾かれるため、立ち上がり・減衰パターンの種類もまた限られるからである。そこで、Uに関して、さらに、
のような畳み込み混合の形で表される分解表現を考える。Gj,τはj番目の時間エンベロープの局所パターンを表す。一方Oi,j,tはそのアクティベーションを表し、理想的には各ノートのオンセット時刻にピークが立つようなイメージとなる。式(2)の右辺に式(5)を代入すると、
のように、式(2)で与えられるNMF型のモデルを拡張したスペクトログラムモデルが立てられる。ここで、分解のスケールの任意性を除く目的で、
を仮定しておく。
Next, the spectrogram model will be described. Looking at each row vector of U shown in FIG. 2, the time envelope of the spectral basis Activation h i is notice that consists only of a limited type of local patterns. This is because each note is played with a limited number of note lengths, so the types of rise and decay patterns are also limited. So for U,
Consider a decomposition expression expressed in the form of convolutional mixing. G j, τ represents the local pattern of the jth time envelope. On the other hand, O i, j, t represents the activation and ideally has an image that peaks at the onset time of each note. Substituting equation (5) into the right side of equation (2),
Thus, a spectrogram model obtained by extending the NMF type model given by the equation (2) is established. Here, for the purpose of removing the arbitrary scale of decomposition,
Is assumed.

次に、最適化アルゴリズムについて説明する。非負値行列因子分解でYから図2のようにHとUを求めたように、提案するモデルのもとでYからHとGとOを求めたい。以下では、提案モデルによる音楽の階層的スパース表現を得るための最適化アルゴリズムについて説明する。まず、二乗誤差規準について説明する。ここでは、観測スペクトログラムY:=(Yω,tΩ×Tのもとで設定される次の最適化問題
を検討する。S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、ここでは
と定義する。ただし、0<p≦2,0<p≦2とする。
Next, an optimization algorithm will be described. We want to find H, G, and O from Y under the proposed model, as H and U were obtained from Y as shown in FIG. 2 by non-negative matrix factorization. In the following, an optimization algorithm for obtaining a hierarchical sparse representation of music according to the proposed model will be described. First, the square error criterion will be described. Here, the following optimization problem is set under the observation spectrogram Y: = ( Yω, t ) Ω × T.
To consider. S (G, O) is a regularization term that leads G and O to a sparse solution, where
It is defined as However, 0 <p g ≦ 2 and 0 <p o ≦ 2.

まず、Fを降下させるHの更新式を導出する。H,G,Oの1ステップ前での更新値をそれぞれH’,G’,O’とすると、
となる。ただし、
である。詳細な説明は省略するが、F(H,G’,O’)を最小化するHは解析的に
と求まり、このように更新すればF(H,G’,O’)は増加しないことが保証される。また、H’およびU’がともに非負値であればHも必ず非負値となる。
First, an update formula for H that lowers F is derived. If the updated values of H, G and O one step before are H ′, G ′ and O ′, respectively,
It becomes. However,
It is. Although detailed explanation is omitted, H that minimizes F H (H, G ′, O ′) is analytically determined.
It can be guaranteed that F (H, G ′, O ′) does not increase by updating in this way. Further, if both H ′ and U ′ are non-negative values, H is always a non-negative value.

次に、Fを降下させるGの更新式を導出する。先と同様に、
となる。ただし、
である。F(H’,G,O’)の第2項は
の不等式による(右辺は接点±x’で|x|に接する放物線であるため明らか)。以上より、F(H’,G,O’)を用いてGの更新式が
と導ける。
Next, an update formula for G that lowers F is derived. As before,
It becomes. However,
It is. The second term of F G (H ′, G, O ′) is
(The right side is apparent because it is a parabola in contact with | x | p at the contact ± x ′). From the above, the update formula of G is obtained using F G (H ′, G, O ′).
I can lead.

最後に、Fを降下させるOの更新式を導出する。先と同様に、
が言え、これを用いてOの更新式が
と導ける。
Finally, an update formula for O that lowers F is derived. As before,
But using this, the update formula for O
I can lead.

次に、Iダイバージェンス規準について説明する。モデル化誤差をIダイバージェンスで測った場合の最適化問題
についても検討する。
Next, the I divergence criterion will be described. Optimization problem when modeling error is measured by I-divergence
Also consider.

まず、Hの更新式については、
の不等式より導かれる
を最小化するHを求めれば良く、
のように解析的に得られる。以下同様にして、Gの更新式については、
の不等式、Oの更新式については、
の不等式より導かれる
をそれぞれ最小化するG,Oを求めれば良く、
のように解析的に得られる。式(21)の第2項および式(22)の第3項は
x>0,|x|≦p|x’|p−1(x−x’)+|x’|(0<p≦2)・・・(25)による(右辺は接点x’における|x|の接線であるため明らか)。
First, for the update formula of H,
Derived from the inequality of
Find H that minimizes
It is obtained analytically as follows. Similarly, for the G update formula,
For the inequality of, the update formula of O,
Derived from the inequality of
Find G and O to minimize
It is obtained analytically as follows. The second term of the equation (21) and the third term of the equation (22) are expressed as ∀ x> 0 , | x | p ≦ p | x ′ | p−1 (xx ′) + | x ′ | p (0 <P ≦ 2) (25) (the right side is obvious because it is a tangent line of | x | p at the contact point x ′).

次に、前述した基本原理を使用した信号分析装置について説明する。図1は第1の実施形態における信号分析装置の構成を示すブロック図である。信号分析装置は、コンピュータ装置で構成する。この図において、符号1は、音響信号を標本化・量子化することにより得られる音響信号データを入力して記憶した信号データ記憶部である。符号2は、時間周波数解析を行う時間周波数解析部である。符号3は、値の初期設定を行う初期設定部である。符号4は、スペクトログラムモデルを算出するスペクトログラムモデル算出部である。符号5は、スペクトル基底を更新するスペクトル基底更新部である。符号6は、パワーエンベロープ基底を更新するパワーエンベロープ基底更新部である。符号7は、パワーエンベロープ基底アクティビティを更新するパワーエンベロープ基底アクティビティ更新部である。符号8は、パラメータを規格化するパラメータ規格化部である。符号9は、処理が収束したか否かを判定する収束判定部である。符号10は、パラメータを出力するパラメータ出力部である。符号11は、出力されたパラメータを記憶するパラメータ記憶部である。   Next, a signal analyzer using the basic principle described above will be described. FIG. 1 is a block diagram showing the configuration of the signal analysis apparatus according to the first embodiment. The signal analyzer is configured by a computer device. In this figure, reference numeral 1 denotes a signal data storage unit that receives and stores acoustic signal data obtained by sampling and quantizing an acoustic signal. Reference numeral 2 denotes a time-frequency analysis unit that performs time-frequency analysis. Reference numeral 3 denotes an initial setting unit that performs initial setting of values. Reference numeral 4 denotes a spectrogram model calculation unit that calculates a spectrogram model. Reference numeral 5 denotes a spectrum base update unit that updates the spectrum base. Reference numeral 6 denotes a power envelope base update unit that updates the power envelope base. Reference numeral 7 denotes a power envelope base activity update unit that updates the power envelope base activity. Reference numeral 8 denotes a parameter normalization unit that normalizes parameters. Reference numeral 9 denotes a convergence determination unit that determines whether the process has converged. Reference numeral 10 denotes a parameter output unit that outputs parameters. Reference numeral 11 denotes a parameter storage unit that stores the output parameters.

次に、図1を参照して、図1に示す信号分析装置の動作を説明する。まず、時間周波数解析部2は、信号データ記憶部1に記憶されている分析対象の信号データを読み込み、短時間フーリエ変換(Short-Time Fourier Transform;STFT)やウェーブレット変換などを用いて、時間周波数解析を行って非負値で与えられる時間周波数成分{Yω,t}0≦Ω≦Ω−1,0≦t≦T−1を計算する。ただし、ω=0,・・・,Ω−1,t=0,・・・,T−1はそれぞれ周波数、時刻に対応するインデックスとする。時間周波数解析部2は、時間周波数成分Yω,tを格納した行列Y=(Yω,tΩ×Tを出力する。 Next, the operation of the signal analyzer shown in FIG. 1 will be described with reference to FIG. First, the time-frequency analysis unit 2 reads the signal data to be analyzed stored in the signal data storage unit 1 and uses a short-time Fourier transform (STFT), wavelet transform, or the like to obtain the time frequency. The time frequency component {Yω, t} given by the non-negative value is analyzed and 0 ≦ Ω ≦ Ω−1 and 0 ≦ t ≦ T−1 are calculated. However, ω = 0,..., Ω-1, t = 0,..., T-1 are indices corresponding to the frequency and time, respectively. The time frequency analysis unit 2 outputs a matrix Y = (Y ω, t ) Ω × T in which the time frequency components Y ω, t are stored.

次に、初期設定部3は、スペクトル基底数I、パワーエンベロープ基底数Jおよび正則化パラメータλ,λ,p,pを決定する。そして、初期設定部3は、非負値行列因子分解(NMF)によりYに対し、
となる
を出力する。これを用いて、スペクトル基底パラメータHω,i、パワーエンベロープ基底パラメータGj,t、パワーエンベロープ基底アクティビティ値Oi,j,tの初期値をそれぞれ
として出力する。ただし、i=1,・・・,Iはスペクトル基底のインデックス、j=1,・・・,Jはパワーエンベロープ基底のインデックスとする。また、[・]a,bは行列のa行b列の成分を表す。
Next, the initial setting unit 3 determines the spectrum basis number I, the power envelope basis number J, and the regularization parameters λ g , λ o , p g , p o . Then, the initial setting unit 3 performs non-negative matrix factorization (NMF) on Y,
Become
Is output. Using this, the initial values of the spectrum basis parameter H ω, i , power envelope basis parameter G j, t , and power envelope basis activity value O i, j, t are respectively determined.
Output as. Here, i = 1,..., I is a spectrum basis index, and j = 1,..., J is a power envelope basis index. [•] a, b represent the components of a row and b column of the matrix.

次に、スペクトログラムモデル算出部4は、前段で得られたHω,i、Gj,t、Oi,j,tを用いてスペクトログラムモデルXω,tを以下の手順で算出して出力する。まず、スペクトログラムモデル算出部4は、Gj,tとOi,j,tを用いてスペクトル基底アクティビティ値Ui,tを畳み込み混合演算
により算出する。この畳み込み混合演算は高速フーリエ変換を用いて高速計算する。
Next, the spectrogram model calculation unit 4 calculates and outputs the spectrogram model X ω, t by the following procedure using H ω, i , G j, t , O i, j, t obtained in the previous stage. . First, the spectrogram model calculation unit 4 convolves the spectrum base activity value U i, t using G j, t and O i, j, t.
Calculated by This convolution mixing calculation is performed at high speed using a fast Fourier transform.

次に、スペクトログラムモデル算出部4は、Hω,iおよび先に求まったUi,tを用いて、Xω,tを積和演算
により算出する。
Next, the spectrogram model calculation unit 4 uses X ω, t to calculate the sum of products using H ω, i and U i, t previously obtained.
Calculated by

次に、スペクトル基底更新部5は、Yω,tおよび前段で得られたXω,tとUi,tとHω,iを用いて、Hω,i
により更新して出力する。
Next, the spectrum base update unit 5 uses H ω, t and X ω, t and U i obtained in the previous stage , t and H ω, i to calculate H ω, i .
To update and output.

次に、パワーエンベロープ基底更新部6は、Yω,tおよび前段で得られたXω,tとHω,iとOi,j,tを用いて、Gj,tを以下の手順により算出する。まず、パワーエンベロープ基底更新部6は、i番目のスペクトル基底H0,i,・・・,HΩ−1,iと時刻tにおける観測スペクトルY0,t,・・・,YΩ−1,tとの

により算出する。同様に、パワーエンベロープ基底更新部6は、H0,i,・・・,HΩ−1,iとX0,t,・・・,XΩ−1,t

により算出する。
Then, the power envelope basal updating unit 6, Y omega, X omega obtained by t and front, t and H omega, i and O i, j, using a t, G j, by the following procedure t calculate. First, the power envelope base update unit 6 includes the i-th spectrum base H 0, i,... , H Ω-1, i and the observed spectrum Y 0, t ,. with t
The
Calculated by Similarly, the power envelope base update unit 6 includes H 0, i,... , H Ω-1, i and X 0, t ,.
The
Calculated by

次に、パワーエンベロープ基底更新部6は、

により算出する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。同様に、パワーエンベロープ基底更新部6は、

により算出する。この相互相関の演算も高速フーリエ変換を用いることで高速計算する。
Next, the power envelope base update unit 6
The
Calculated by This cross-correlation calculation is performed at high speed by using a fast Fourier transform. Similarly, the power envelope base update unit 6
The
Calculated by This cross-correlation operation is also calculated at high speed by using fast Fourier transform.

最後に、パワーエンベロープ基底更新部6は、
および前段で得られたGj,tを用いて、Gj,t
により更新する。このλ|Gj,τpg−1はスパース正則化項に関係する項であり、Gj,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
Finally, the power envelope base update unit 6
And using G j, t obtained in the previous stage, G j, t
Update with The λ g p g | G j, τ | pg-1 is a term related to sparse regularization term, G j, which other as long as it has the effect of inducing the elements of t to the sparse It may be replaced by a shape.

次に、パワーエンベロープ基底アクティビティ更新部7は、Yω,tおよび前段で得られたXω,tとHω,iとOi,j,tを用いて、Gj,tを以下の手順により算出して出力する。まず、パワーエンベロープ基底アクティビティ更新部7は、i番目のスペクトル基底H0,i,・・・,HΩ−1,iと時刻tにおける観測スペクトルY0,t,・・・,YΩ−1,tとの

により算出する。同様に、パワーエンベロープ基底アクティビティ更新部7は、H0,i,・・・,HΩ−1,iとX0,t,・・・,XΩ−1,t

により算出する。
Next, the power envelope basal activity update unit 7, Y omega, X omega obtained by t and the preceding stage, using the t and H omega, i and O i, j, t, G j, the following procedure t Is calculated and output. First, the power envelope basal activity update unit 7, i-th spectral basis H 0, i, ···, H Ω-1, observed in the i and time t spectrum Y 0, t, ···, Y Ω-1 , T
The
Calculated by Similarly, the power envelope base activity update unit 7 includes H 0, i,... , H Ω-1, i and X 0, t ,.
The
Calculated by

次に、パワーエンベロープ基底アクティビティ更新部7は、

により算出する。この相互相関の演算は,高速フーリエ変換を用いることで高速計算する。同様に、パワーエンベロープ基底アクティビティ更新部7は、

により算出する。この相互相関の演算も高速フーリエ変換を用いることで高速計算する。
Next, the power envelope base activity update unit 7
The
Calculated by This cross-correlation calculation is performed at high speed by using a fast Fourier transform. Similarly, the power envelope base activity update unit 7
The
Calculated by This cross-correlation operation is also calculated at high speed by using fast Fourier transform.

最後に、パワーエンベロープ基底アクティビティ更新部7は、

により更新する。この+λ|O’i,j,τpo−1はスパース正則化項に関係する項であり、Oi,j,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
Finally, the power envelope base activity update unit 7
The
Update with This + λ o p o | O ′ i, j, τ | po−1 is a term related to the sparse regularization term, and has the effect of inducing the elements of O i, j, t to be sparse. If there is any other form, it may be replaced.

次に、パラメータ規格化部8は、前段で得られたHω,iおよびGj,tを規格化して出力する。例えば、足して1になるように両者を規格化する場合は、
によりHω,iおよびGj,tをそれぞれ更新する。
Next, the parameter normalization unit 8 normalizes and outputs H ω, i and G j, t obtained in the previous stage. For example, when standardizing both to be 1,
To update H ω, i and G j, t respectively.

次に、収束判定部9は、前段の反復計算が所定の回数を満たしたか否か、あるいは、反復計算においてパラメータの更新の変化率が所定値以下になったか否か、あるいは、目的関数値の変化率が所定値以下になったか否かを判定する。例えば、目的関数は、
により計算する。ただし、S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、
と定義する。収束判定部9は、反復計算が収束していなければ、スペクトログラムモデル算出部4に対して、再度スペクトログラムモデルを算出し直す指示を出力し、これを受けて、スペクトログラムモデル算出部4、スペクトル基底更新部5、パワーエンベロープ基底更新部6、パワーエンベロープ基底アクティビティ更新部7及びパラメータ規格化部8は、反復計算が収束するまで前述した処理動作を繰り返す。
Next, the convergence determination unit 9 determines whether or not the previous iteration has satisfied a predetermined number of times, whether or not the parameter update change rate in the iterative calculation is less than or equal to a predetermined value, or the objective function value It is determined whether or not the rate of change has become a predetermined value or less. For example, the objective function is
Calculate according to Where S (G, O) is a regularization term that guides G, O to a sparse solution,
It is defined as If the iterative calculation has not converged, the convergence determination unit 9 outputs an instruction to recalculate the spectrogram model to the spectrogram model calculation unit 4 and receives the spectrogram model calculation unit 4 to update the spectrum base. The unit 5, the power envelope base update unit 6, the power envelope base activity update unit 7 and the parameter normalization unit 8 repeat the processing operations described above until the iterative calculation converges.

次に、パラメータ出力部9は、反復計算が収束したと見なされたHω,i,Gj,t,Oi,j,t,Xω,tなどのパラメータをパラメータ記憶部11に記憶する。 Next, the parameter output unit 9 stores parameters such as H ω, i , G j, t , O i, j, t , X ω, t, etc., in which the iterative calculation has converged, in the parameter storage unit 11. .

次に、第2の実施形態における信号分析装置を説明する。まず、第2の実施形態におけるスペクトル基底更新部5の処理動作を説明する。スペクトル基底更新部5は、Yω,tおよび前段で得られたXω,tとHω,iとUi,tを用いて、以下の手順によりHω,iを更新する。まず、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。
Next, a signal analysis apparatus according to the second embodiment will be described. First, the processing operation of the spectrum base update unit 5 in the second embodiment will be described. Spectral basis update unit 5, Y omega, X obtained in the t and preceding omega, with t and H omega, i and U i, t, H ω, updates the i by the following procedure. First, the spectrogram ratio R ω, t between the observed spectrogram Y ω, t and the spectrogram model X ω, t is expressed as
Calculated by

次に、スペクトル基底更新部5は、先に求まったRω,tおよびHω,iとUi,tを用いて、
により算出する。
Next, the spectrum base update unit 5 uses the previously obtained R ω, t and H ω, i and U i, t ,
Calculated by

次に、第2の実施形態におけるパワーエンベロープ基底更新部6の処理動作を説明する。パワーエンベロープ基底更新部6、Yω,tおよび前段で得られたXω,tとHω,iとGj,tとOi,j,tを用いて、以下の手順によりGj,tを更新する。まず、パワーエンベロープ基底更新部6は、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。次に、パワーエンベロープ基底更新部6は、H0,i,・・・,HΩ−1,iとR0,t,・・・,RΩ−1,tとの

により計算する。次に、パワーエンベロープ基底更新部6は、
により計算する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。
Next, the processing operation of the power envelope base update unit 6 in the second embodiment will be described. Power envelope base updating unit 6, Y ω, X obtained in the t and preceding omega, t and H omega, i and G j, t and O i, j, using a t, G j according to the following procedure, t Update. First, the power envelope base update unit 6 determines the spectrogram ratio R ω, t between the observed spectrogram Y ω, t and the spectrogram model X ω, t.
Calculated by Next, the power envelope base update unit 6 calculates the relationship between H 0, i,... , H Ω-1, i and R 0, t ,.
The
Calculate according to Next, the power envelope base update unit 6
Calculate according to This cross-correlation calculation is performed at high speed by using a fast Fourier transform.

最後に、パワーエンベロープ基底更新部6は、
によりGj,tを更新する。この2λ|Gj,τpg−1はスパース正則化項に関係する項であり、Gj,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
Finally, the power envelope base update unit 6
To update G j, t . The 2λ g p g | G j, τ | pg-1 is a term related to sparse regularization term, G j, which other as long as it has the effect of inducing the elements of t to the sparse It may be replaced by a shape.

次に、第2の実施形態におけるパワーエンベロープ基底アクティビティ更新部7の処理動作を説明する。パワーエンベロープ基底アクティビティ更新部7は、Yω,tおよび前段で得られたXω,tとHω,iとGj,tとOi,j,tを用いて、以下の手順によりOi,j,tを更新する。まず、パワーエンベロープ基底アクティビティ更新部7は、観測スペクトログラムYω,tとスペクトログラムモデルXω,tとのスペクトログラム比Rω,t
により算出する。次に、パワーエンベロープ基底アクティビティ更新部7は、H0,i,・・・,HΩ−1,iとR0,t,・・・,RΩ−1,tとの

により計算する。次に、パワーエンベロープ基底アクティビティ更新部7は、

により計算する。この相互相関の演算は、高速フーリエ変換を用いることで高速計算する。
Next, the processing operation of the power envelope base activity update unit 7 in the second embodiment will be described. Power envelope basal activity update unit 7, Y omega, X obtained in the t and preceding omega, t and H omega, i and G j, t and O i, j, using a t, O i by the following steps , J, t are updated. First, the power envelope base activity update unit 7 calculates a spectrogram ratio R ω, t between the observed spectrogram Y ω, t and the spectrogram model X ω, t.
Calculated by Next, the power envelope base activity update unit 7 calculates the relationship between H 0, i,... , H Ω-1, i and R 0, t ,.
The
Calculate according to Next, the power envelope base activity update unit 7
The
Calculate according to This cross-correlation calculation is performed at high speed by using a fast Fourier transform.

最後に、パワーエンベロープ基底アクティビティ更新部7は、
によりOi,j,tを更新する。この2λ|Oi,j,τpo−1はスパース正則化項に関係する項であり、Oi,j,tの要素をスパースにするように誘導する効果をもつものであればこれ以外の形のもので代替してもよい。
Finally, the power envelope base activity update unit 7
To update O i, j, t . This 2λ o p o | O i, j, τ | po−1 is a term related to the sparse regularization term, and has the effect of inducing the elements of O i, j, t to be sparse. For example, it may be replaced with other forms.

次に、第2の実施形態における収束判定部9の処理動作を説明する。収束判定部9は、反復計算が所定の回数を満たしたか否か、あるいは、反復計算においてパラメータの更新の変化率が所定値以下になったか否か、あるいは、目的関数値の変化率が所定値以下になったか否かを判定する。例えば、目的関数は
により計算する。ただし、S(G,O)はG,Oをスパースな解へと誘導する正則化項であり、ここでは
と定義する。
Next, the processing operation of the convergence determination unit 9 in the second embodiment will be described. The convergence determination unit 9 determines whether or not the iterative calculation has satisfied a predetermined number of times, or whether or not the parameter update change rate has become a predetermined value or less in the iterative calculation, or whether the change rate of the objective function value is a predetermined value. It is determined whether or not the following has occurred. For example, the objective function is
Calculate according to Where S (G, O) is a regularization term that guides G and O to a sparse solution.
It is defined as

以上説明したように、音響信号をノートごとの信号に分解するために、従来の非負値行列分解(NMF)で用いられる分解要素(行列U)について、さらに音の立ち上がりや減衰のパターンの情報を表現できる分解(式(4)及び式(5))を導入した新たなモデルを用い、モデルの各パラメータを推定することにより、複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などに利用することができる。   As described above, in order to decompose the acoustic signal into signals for each note, information on the sound rise and attenuation patterns is further obtained for the decomposition element (matrix U) used in the conventional non-negative matrix decomposition (NMF). Detection of a specific sound from an acoustic signal in which a plurality of sounds are mixed by estimating each parameter of the model using a new model that introduces decomposition (expression (4) and expression (5)) that can be expressed, It can be used for extraction of a specific sound from an acoustic signal in which a plurality of sounds are mixed, processing of a specific sound from an acoustic signal in which a plurality of sounds are mixed, and the like.

なお、図1に示す時間周波数解析部2、初期設定部3、スペクトログラムモデル算出部4、スペクトル基底更新部5、パワーエンベロープ基底更新部6、パワーエンベロープ基底アクティビティ更新部7、パラメータ規格化部8、収束判定部9及びパラメータ出力部10の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより信号分析処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   1, the time frequency analysis unit 2, the initial setting unit 3, the spectrogram model calculation unit 4, the spectrum base update unit 5, the power envelope base update unit 6, the power envelope base activity update unit 7, the parameter normalization unit 8, A program for realizing the functions of the convergence determination unit 9 and the parameter output unit 10 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to perform signal analysis. Processing may be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

複数の音が混在している音響信号からの特定音の検出、複数の音が混在している音響信号からの特定音の抽出、および複数の音が混在している音響信号からの特定音の加工などを行うことが不可欠な用途に適用できる。   Detection of a specific sound from an acoustic signal in which multiple sounds are mixed, extraction of a specific sound from an acoustic signal in which multiple sounds are mixed, and detection of a specific sound from an acoustic signal in which multiple sounds are mixed It can be used in applications where it is essential to perform processing.

1・・・信号データ記憶部、2・・・時間周波数解析部、3・・・初期設定部、4・・・スペクトログラムモデル算出部、5・・・スペクトル基底更新部、6・・・パワーエンベロープ基底更新部、7・・・パワーエンベロープ基底アクティビティ更新部、8・・・パラメータ規格化部、9・・・収束判定部、10・・・パラメータ出力部、11・・・パラメータ記憶部   DESCRIPTION OF SYMBOLS 1 ... Signal data storage part, 2 ... Time frequency analysis part, 3 ... Initial setting part, 4 ... Spectrogram model calculation part, 5 ... Spectral base update part, 6 ... Power envelope Base update unit, 7 ... Power envelope base activity update unit, 8 ... Parameter normalization unit, 9 ... Convergence determination unit, 10 ... Parameter output unit, 11 ... Parameter storage unit

Claims (3)

音響信号データが記憶された信号データ記憶手段と、
前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析手段と、
非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定手段と、
前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出手段と、
前記スペクトログラムモデルの値と、前記データ行列Yと、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新手段と、
前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新手段により値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力手段と
を備えたことを特徴とする信号分析装置。
Signal data storage means storing acoustic signal data;
Time frequency analysis means for obtaining a data matrix Y storing time frequency components of the acoustic signal data by time frequency analysis for the acoustic signal data read from the signal data storage means;
When the data matrix Y is approximated by a product of a base matrix H and a coefficient matrix U using a non-negative matrix factorization method, initial values of spectrum base parameters, power envelope base parameters, and power envelope base activity values to be obtained are obtained. An initial value setting means for setting a value;
A spectrogram model representing a spectrum basis activity time series corresponding to each row of the coefficient matrix U in the form of a convolution mixture using the spectrum basis parameter, the power envelope basis parameter and the power envelope basis activity value to which the initial values are set. Model calculation means for calculating a value;
Using the spectrogram model values, the data matrix Y, the spectrum basis parameters, the power envelope basis parameters, and the power envelope basis activity values, the spectrum basis parameters for which the initial values are set, Updating means for updating the power envelope basis parameter and the power envelope basis activity value;
The updating means continues updating the values until the spectrum basis parameters, the power envelope basis parameters, and the power envelope basis activity values converge, and at the time of convergence, the spectrum basis parameters, the power envelope basis parameters, the power envelope An output means for outputting a base activity value and a value of the spectrogram model.
音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析方法であって、
前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、
非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、
前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、
前記スペクトログラムモデルの値と、前記データ行列Yと、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、
前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップと
を有することを特徴とする信号分析方法。
A signal analysis method for causing a computer of a signal analysis apparatus provided with signal data storage means in which acoustic signal data is stored to perform signal analysis processing,
A time frequency analysis step for obtaining a data matrix Y storing a time frequency component of the acoustic signal data by time frequency analysis with respect to the acoustic signal data read from the signal data storage means;
When the data matrix Y is approximated by a product of a base matrix H and a coefficient matrix U using a non-negative matrix factorization method, initial values of spectrum base parameters, power envelope base parameters, and power envelope base activity values to be obtained are obtained. An initial value setting step for setting a value;
A spectrogram model representing a spectrum basis activity time series corresponding to each row of the coefficient matrix U in the form of a convolution mixture using the spectrum basis parameter, the power envelope basis parameter and the power envelope basis activity value to which the initial values are set. A model calculation step for calculating a value;
Using the spectrogram model values, the data matrix Y, the spectrum basis parameters, the power envelope basis parameters, and the power envelope basis activity values, the spectrum basis parameters for which the initial values are set, An updating step for updating the power envelope basis parameter and the power envelope basis activity value;
The update step continues to update the spectrum basis parameter, the power envelope basis parameter, and the power envelope basis activity value until convergence, and at the time of convergence, the spectrum basis parameter, the power envelope basis parameter, the power envelope. An output step of outputting a base activity value and a value of the spectrogram model.
音響信号データが記憶された信号データ記憶手段を備えた信号分析装置のコンピュータに、信号分析処理を行わせる信号分析プログラムであって、
前記信号データ記憶手段から読み込んだ前記音響信号データに対する時間周波数解析により、前記音響信号データの時間周波数成分を格納したデータ行列Yを求める時間周波数解析ステップと、
非負値行列因子分解手法を用いて、前記データ行列Yを、基底行列Hと係数行列Uの積で近似した場合に、求めるべきスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値それぞれの初期値を設定する初期値設定ステップと、
前記初期値が設定されたスペクトル基底パラメータ、パワーエンベロープ基底パラメータ及びパワーエンベロープ基底アクティビティ値を用いて、前記係数行列Uの各行に対応するスペクトル基底アクティビティ時系列を畳み込み混合の形式で表現したスペクトログラムモデルの値を算出するモデル算出ステップと、
前記スペクトログラムモデルの値と、前記データ行列Yと、前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値それぞれの値を用いて、前記初期値を設定した前記スペクトル基底パラメータと、前記パワーエンベロープ基底パラメータと、前記パワーエンベロープ基底アクティビティ値とを更新する更新ステップと、
前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ及び前記パワーエンベロープ基底アクティビティ値が収束するまで前記更新ステップにより値の更新を続け、収束した時点で、前記スペクトル基底パラメータ、前記パワーエンベロープ基底パラメータ、前記パワーエンベロープ基底アクティビティ値及び前記スペクトログラムモデルの値を出力する出力ステップと
を前記コンピュータに行わせることを特徴とする信号分析プログラム。
A signal analysis program for causing a computer of a signal analyzer having signal data storage means in which acoustic signal data is stored to perform signal analysis processing,
A time frequency analysis step for obtaining a data matrix Y storing a time frequency component of the acoustic signal data by time frequency analysis with respect to the acoustic signal data read from the signal data storage means;
When the data matrix Y is approximated by a product of a base matrix H and a coefficient matrix U using a non-negative matrix factorization method, initial values of spectrum base parameters, power envelope base parameters, and power envelope base activity values to be obtained are obtained. An initial value setting step for setting a value;
A spectrogram model representing a spectrum basis activity time series corresponding to each row of the coefficient matrix U in the form of a convolution mixture using the spectrum basis parameter, the power envelope basis parameter and the power envelope basis activity value to which the initial values are set. A model calculation step for calculating a value;
Using the spectrogram model values, the data matrix Y, the spectrum basis parameters, the power envelope basis parameters, and the power envelope basis activity values, the spectrum basis parameters for which the initial values are set, An updating step for updating the power envelope basis parameter and the power envelope basis activity value;
The update step continues to update the spectrum basis parameter, the power envelope basis parameter, and the power envelope basis activity value until convergence, and at the time of convergence, the spectrum basis parameter, the power envelope basis parameter, the power envelope. An output step for outputting a base activity value and a spectrogram model value to the computer.
JP2009294892A 2009-12-25 2009-12-25 Signal analysis apparatus, signal analysis method, and signal analysis program Expired - Fee Related JP5580585B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009294892A JP5580585B2 (en) 2009-12-25 2009-12-25 Signal analysis apparatus, signal analysis method, and signal analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009294892A JP5580585B2 (en) 2009-12-25 2009-12-25 Signal analysis apparatus, signal analysis method, and signal analysis program

Publications (2)

Publication Number Publication Date
JP2011133780A true JP2011133780A (en) 2011-07-07
JP5580585B2 JP5580585B2 (en) 2014-08-27

Family

ID=44346557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009294892A Expired - Fee Related JP5580585B2 (en) 2009-12-25 2009-12-25 Signal analysis apparatus, signal analysis method, and signal analysis program

Country Status (1)

Country Link
JP (1) JP5580585B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012242493A (en) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Signal decomposition device, method, and program
JP2013033196A (en) * 2011-07-07 2013-02-14 Nara Institute Of Science & Technology Sound processor
JP2013037152A (en) * 2011-08-05 2013-02-21 Toshiba Corp Acoustic signal processor and acoustic signal processing method
JP2015064602A (en) * 2014-12-04 2015-04-09 株式会社東芝 Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
JP2017152825A (en) * 2016-02-23 2017-08-31 日本電信電話株式会社 Acoustic signal analysis device, acoustic signal analysis method, and program
JP2018072664A (en) * 2016-11-01 2018-05-10 日本電信電話株式会社 Signal analyzer, method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148424B (en) * 2019-05-08 2021-05-25 北京达佳互联信息技术有限公司 Voice processing method and device, electronic equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325127A (en) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> Sound source detection method, sound source separation method, and apparatus for executing them
JP2005258440A (en) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc Method and system for separating components in individual signals
JP2008215881A (en) * 2007-02-28 2008-09-18 National Institute Of Advanced Industrial & Technology Analysis method of time-series information of signal intensity, analysis program, and analyzer
JP2008541520A (en) * 2005-05-04 2008-11-20 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for generating and processing sound effects in a spatial sound reproduction system by means of a graphic user interface
JP2009204808A (en) * 2008-02-27 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> Sound characteristic extracting method, device and program thereof, and recording medium with the program stored

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325127A (en) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> Sound source detection method, sound source separation method, and apparatus for executing them
JP2005258440A (en) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc Method and system for separating components in individual signals
JP2008541520A (en) * 2005-05-04 2008-11-20 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for generating and processing sound effects in a spatial sound reproduction system by means of a graphic user interface
JP2008215881A (en) * 2007-02-28 2008-09-18 National Institute Of Advanced Industrial & Technology Analysis method of time-series information of signal intensity, analysis program, and analyzer
JP2009204808A (en) * 2008-02-27 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> Sound characteristic extracting method, device and program thereof, and recording medium with the program stored

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200801129007; 朴 玄信 Hyunsin PARK: '制約付き非負行列因子分解を用いた音声特徴抽出の検討 Speech Feature Extraction Using Constrained Nonn' 情報処理学会研究報告 Vol.2008 No.123 IPSJ SIG Technical Reports , 20081202, p.43-48, 社団法人情報処理学会 Information Processing Socie *
CSNG201000068007; 亀岡 弘和,ルルー ジョナトン,大石 康智,柏野 邦夫: 'Music Factorizer:音楽音響信号をノート単位で編集できるインタフェース Music Factoriz' 情報処理学会研究報告 平成21年度▲2▼ [CD-ROM] , 20090722, 社団法人情報処理学会 *
CSNJ201010089340; 亀岡 弘和 Hirokazu KAMEOKA: '複素NMF:新しいスパース信号分解表現と基底系学習アルゴリズム' 日本音響学会 2008年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20080910, p.657-660, 社団法人日本音響学会 *
JPN6012030553; 亀岡 弘和 Hirokazu KAMEOKA: '複素NMF:新しいスパース信号分解表現と基底系学習アルゴリズム' 日本音響学会 2008年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 20080910, p.657-660, 社団法人日本音響学会 *
JPN6012030555; 朴 玄信 Hyunsin PARK: '制約付き非負行列因子分解を用いた音声特徴抽出の検討 Speech Feature Extraction Using Constrained Nonn' 情報処理学会研究報告 Vol.2008 No.123 IPSJ SIG Technical Reports , 20081202, p.43-48, 社団法人情報処理学会 Information Processing Socie *
JPN6014012360; 亀岡 弘和,ルルー ジョナトン,大石 康智,柏野 邦夫: 'Music Factorizer:音楽音響信号をノート単位で編集できるインタフェース Music Factoriz' 情報処理学会研究報告 平成21年度▲2▼ [CD-ROM] , 20090722, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012242493A (en) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Signal decomposition device, method, and program
JP2013033196A (en) * 2011-07-07 2013-02-14 Nara Institute Of Science & Technology Sound processor
JP2013037152A (en) * 2011-08-05 2013-02-21 Toshiba Corp Acoustic signal processor and acoustic signal processing method
JP2015064602A (en) * 2014-12-04 2015-04-09 株式会社東芝 Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
JP2017152825A (en) * 2016-02-23 2017-08-31 日本電信電話株式会社 Acoustic signal analysis device, acoustic signal analysis method, and program
JP2018072664A (en) * 2016-11-01 2018-05-10 日本電信電話株式会社 Signal analyzer, method, and program

Also Published As

Publication number Publication date
JP5580585B2 (en) 2014-08-27

Similar Documents

Publication Publication Date Title
Gamper et al. Blind reverberation time estimation using a convolutional neural network
CN111161752B (en) Echo cancellation method and device
JP5580585B2 (en) Signal analysis apparatus, signal analysis method, and signal analysis program
Smaragdis Convolutive speech bases and their application to supervised speech separation
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US11074925B2 (en) Generating synthetic acoustic impulse responses from an acoustic impulse response
KR20140079369A (en) System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP2008058755A (en) Sound analysis apparatus and program
JP2009128906A (en) Method and system for denoising mixed signal including sound signal and noise signal
KR20130112898A (en) Decomposition of music signals using basis functions with time-evolution information
Sarroff Complex neural networks for audio
EP2912660B1 (en) Method for determining a dictionary of base components from an audio signal
EP3040989B1 (en) Improved method of separation and computer program product
Chien et al. Bayesian factorization and learning for monaural source separation
CN108198566B (en) Information processing method and device, electronic device and storage medium
Lindsay-Smith et al. Drumkit transcription via convolutive NMF
Eklund Data augmentation techniques for robust audio analysis
Permana et al. Implementation of constant-Q transform (CQT) and mel spectrogram to converting bird’s sound
Do et al. On the recognition of cochlear implant-like spectrally reduced speech with MFCC and HMM-based ASR
KR20110012946A (en) Method of restoration of sound, recording media of the same and apparatus of the same
Jaiswal et al. Towards shifted nmf for improved monaural separation
JP2015049406A (en) Acoustic signal analyzing device, method, and program
JP2012027196A (en) Signal analyzing device, method, and program
Lefèvre et al. A convex formulation for informed source separation in the single channel setting
Kawahara et al. Simultaneous measurement of multiple acoustic attributes using structured periodic test signals including music and other sound materials

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140711

R150 Certificate of patent or registration of utility model

Ref document number: 5580585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees