JP2009210888A - 音信号の分離方法 - Google Patents
音信号の分離方法 Download PDFInfo
- Publication number
- JP2009210888A JP2009210888A JP2008054826A JP2008054826A JP2009210888A JP 2009210888 A JP2009210888 A JP 2009210888A JP 2008054826 A JP2008054826 A JP 2008054826A JP 2008054826 A JP2008054826 A JP 2008054826A JP 2009210888 A JP2009210888 A JP 2009210888A
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- time
- spectrogram
- frequency
- subspectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Abstract
時間周波数領域におけるスペクトル成分の滑らかさの異方性に着目して、音信号から分離信号を取得する。
【解決手段】
音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する。
【選択図】図4
Description
吉井 和佳, 後藤 真孝, 奥乃博, "実世界の音楽音響信号に対するドラムスの音源同定を利用したドラムイコライズシステムINTER:Dの開発," 第3回情報処理科学技術フォーラム FIT2004. 亀岡 弘和, 後藤 真孝, 嵯峨山茂樹, "スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ," 情報処理学会研究報告. 2006-MUS-65, pp77-84. M. Helen, T. Virtanen, "Separation ofDrums from Polyphonic Music Using Non-negative Matrix Factorization and SupportVector Machine," In proc, 13th EUSIPCO, 2005.
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
fk(x):滑らかさをはかるコスト関数
am,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックスウ
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
Q(K) i,j:サブスペクトログラムのスペクトル成分
である。
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
D(A,B):関数Aと関数Bの距離指標
φ(x):距離指標における、スペクトログラムのレベル圧縮関数
Wi,j:観測スペクトル成分
fk(x):滑らかさをはかるコスト関数
am,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックスウ
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
Q(K) i,j:サブスペクトログラムのスペクトル成分
である。
本実施形態では調波音と打楽器音の混在した音楽信号を分析対象とし、入力信号の短時間周波数解析によって得られるスペクトログラムをW(x,t)とする(x:周波数、t:時刻)。本実施形態の問題は、このW(x,t)を打楽器的な音程を持たない非調波成分P(x,t)と音程を持つ楽器のような調波成分H(x,t)の2つのスペクトログラムに分解することである。このとき満たすべき要件は、任意の時間周波数(x,t)において、
第1実施形態では、観測信号の時間周波数平面のスペクトログラムを画像とみなし、調波的な音と打楽器的な音の持つ一般的な性質の違いを利用した2次元フィルタを用いることで、楽器固有の情報なしで音楽信号から打楽器音と調波音を分離する。
時間周波数マスクmP(x,t)、mH(x,t)の設計について述べる。W(x,t)を画像とみなすと、P(x,t)とH(x,t)の特徴、すなわち、周波数方向のエッジ(縦方向のエッジ)と時間方向のエッジ(横方向のエッジ)、を個別に抽出するような2次元フィルタをかけることで、そのフィルタ出力結果の大小から各時間周波数成分がP(x,t)に属するかH(x,t)に属するかを決定できる。
前節で述べた2次元フィルタに関して満たすべき要件を検討する。出力結果が各時間周波数成分においてP(x,t)らしさ、H(x,t)らしさの指標となるためには、フィルタ出力が非負の実数になることが望ましいが、必ずしも非負でなくてもよい。また入力スペクトログラムとフィルタ出力の時間周波数が対応している必要がある。前者の実現のためには、フィルタが任意の2次元分布の畳み込みA(a,b)*A(a,b)で表現される形状であればよく、またその形状がa,b両軸に対して線対称な実数分布になっていれば後者の性質も満たす。
三角窓型ローパスフィルタは、
[B−3−1]実際の楽曲への適用結果
ポピュラー音楽の楽曲を用いた分離実験を行った。入力信号として、RWC 研究用音楽データベースよりRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズム(ローパスフィルタの形状はGaussian)による分離結果を、図5の左図に示す。
次に、提案アルゴリズムの定量評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHz サンプリング)。そして第1実施形態の手法によって得た分離結果の信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出した。その結果を表1に示す。表より、ギターやピアノなどのメロディーや伴奏はH(x,t)に、スネアドラムやハイハットはP(x,t)分離したが、バスドラムがH(x,t)に分離される結果を得た。
第1実施形態では、楽器や楽譜に関する情報を全く用いずに、音楽信号からの分離手法として、スペクトログラム上で画像処理的な2次元フィルタを用いた高速な直接計算手法を示した。第2実施形態では、スペクトログラムの滑らかさの異方性に基づいたEMアルゴリズムによる反復解法を提案し、計算時間や性能の評価を行うまた、このアルゴリズムを応用して実時間で分離するシステムを提案する。
スペクトログラムにおける調波的な成分と打楽器的な成分の異方性を利用して、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論する。実装上(x,t)は離散的な座標として取得できるため、以下の議論では離散的な時間周波数領域(xi,tj)と定義して議論を行なう(I:周波数bin数、J:分析フレーム数)。
[C−2−1]概要
観測スペクトログラムを調波成分・打楽器成分に分配する時間周波数マスクmH(xi,tj),mP(xi,tj)を導入する。時間周波数マスクmH(xi,tj),mP(xi,tj)は数2の条件を満たす。
Iダイバージェンスを用いた反復解法について詳述する。以下の説明において、反復解法における数式番号については、説明の都合上、独自に付与する。ここで解きたいのは、入力スペクトログラムW(x、t)(x:周波数、t:時間フレーム)から、打楽器成分P(x、t)と調波成分H(x、t)に分離する問題である。これを時間周波数マスクmP(x、t)とmH(x、t)を用いて、EM的なアルゴリズムにより反復的に推定する手法を述べる。W(x、t)とP(x、t)+H(x、t)の近さを表す分布間距離として、Iダインバージェンスを採用する。この距離指標は、二乗誤差よりも対数的にエネルギーを捉えられ、かつ対数の二乗誤差に比べてエネルギーの非常に小さい部分の誤差を無視できるため、人間の聴覚特性との親和性が高い。また、値は非負であり、W(x、t)=P(x、t)+H(x、t)のときに0となる。この分布間距離とHやPの滑らかさを表す項を足したものを目的関数J1とすると、この分離問題は、J1を最小化する問題として定式化できる。Jensonの不等式より、
1.初期P(xi,tj)、H(xi,tj)を定める。
2.(3)でmP(xi,tj)、mH(xi,tj)を更新する。
3.(8)(12)で、P(xi,tj)、H(xi,tj)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
前節の滑らかさに関する制約は、エネルギーの小さい部分と大きい部分とを均等考えた滑らかさを定義している。しかし、人間の聴覚はエネルギーを対数的に捉えることが多いため、分離が良好に行われないおそれがある。そこで、制約を、
同様に、Hi,jについても解け、
1.初期P(xi,tj)、H(xi,tj)を定める。
2.(3)でmP(xi,tj)、mH(xi,tj)を更新する。
3.(8)(12)で、P(xi,tj)、H(xi,tj)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
前述のIダイバージェンスを用いた解法では、各P(x、t)、H(x、t)の更新式のなかに、隣の時間周波数binの値が必要であった。そこで、滑らかさに関数二乗誤差項に補助関数法を適用し、この問題を解決する。
同様に、Hについても解け、
1.初期P(xi,tj)、H(xi,tj)を定める。
2.mP(xi,tj)、mH(xi,tj)、Ci,j、Di,jを更新する。
3.補助関数を固定した上で、P(xi,tj)、H(xi,tj)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
前節で定義した滑らかさのコスト関数では、コストの強さを定めるσP,σHを定数としていた。ここでは、このパラメータも変数として更新式を求める。
このモデルの場合、Pi,jやHi,jの更新式は前節と同じになる。
前節の滑らかさの制約の他に、Pi,jやHi,jの大きさに関してなるべく0を多くするというスパース制約が導入可能である。これは聴覚的に分離の聴こえ方を良くする働きになると考えられる。前述では、後処理としてバイナリ化を行う方法に言及したが、この項の導入により反復推定中にバイナリ化が行われる。
同様に、Hi,jについても解け、
t),mH(x, t)の大小関係から、バイナリマスクを
上記解法は、入力信号全体の時間周波数領域における反復解法であるため、一般的には実時間分離は難しい。しかし、スペクトログラムの滑らかさを、隣接した時間周波数binのみを用いた微分的なコストとして表現することで、局所的な分析領域でもある程度妥当な解が得られると考えられる。そこで、局所的な分析時間区間を用い、分析区間の移動とパラメータの反復更新(1〜数回)を交互に行なうことで、実時間での調波音・打楽器音分離システムを実現した(図9A)。実時間での調波音・打楽器音分離のステップは以下の通りである。
1. 初期分析区間の入力スペクトログラムを計算する。
2. 新たに入力スペクトログラムを1フレーム計算し、分析区間に加える。
3. 分析領域のスペクトログラムを用いて、分離スペクトログラム、時間周波数マスクを1〜数回反復更新する。
4. 分析時間区間で最も古いフレームに対して、推定された時間周波数マスクによる分離を行ない、逆フーリエ変換によって分離信号を出力する。
5. 曲が終われば終了。そうでなければStep.2に戻る。
[C−4−1]実際の楽曲への適用
本節ではポピュラー音楽の実演奏信号を用いた定性的実験を述べる。入力信号として、RWC
研究用音楽データベースからRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズムの分離結果を、図8に示す。
次にパート別信号を用いた定量的な評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部8.1秒を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHzサンプリング)。そして第1実施形態、第2実施形態の手法によって得た分離信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出し、計算時間とともに比較した(表2、CPU3.6GHz のマシンで計算)。表2より、第2実施形態の手法は、第1実施形態の手法に比べて計算コストは増大するが、分離性能を大きく改善できることが分かる。しかし、両手法ともバスドラムは調波音側に分離された。
第2実施形態では、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論するものであったが、第3実施形態では、H(x,t)とP(x,t)を利用せずに、分配されたスペクトログラムの滑らかさコストを最小化する問題として議論する。
Fh,iモノラル音響信号f(t)の短時間フーリエ変換(STFT)とすると、
Fh,i=φ(|Fh,i|2)となり、ここで、h、iは、周波数bin、時間binのインデックスである。Fh,iは、φ(A)=Aの時には通常のスペクトログラムを表し、φ(A)=Aγ(γ<1)のような凸関数φ(A)を設定することで、レンジ圧縮されたスペクトログラムが生成される。
式(5)はmh,iの定積分形式であり、最適なmは、mを連続値の変数であるとすると、∂J/∂mh,i=0で求められる。ここで、∂J/∂mh,i=0をより簡単に解くために、補助関数手法を用いる。補助関数は例えば、NMF(Non-negative matrix factorization)やHTC(Harmonic-Temporal Clustering)において用いられており、当業者において公知の手法である。
したがって、以下の更新は、
∂Q(m,U(k+1),V(k+1))/∂mh,i=0を
式(7)から、Q(m(k),U,V)を最大化するUh,i、Vh,iは、
(2)以下の式を用いて、レベル圧縮したrange-compressed パワースペクトログラムを計算する。
(3)全てのh、i(k=0)について、以下の式のように初期値を与える。
そして、以下の場合に従って、Hh,i、Ph,iを更新する。
(6)時間周波数マスクをバイナリ化する。これは以下と等価である。
実施例3の手法を用いて幾つかの実験を行った。
入力信号として、RWC 研究用音楽データベースからRWC-MDBより抜粋して使用した(16kHz サンプリング)。実験パラメータを表3に示す。バランスパラメータα、圧縮パラメータγは経験的に決定した。
1.20GHz Pentiumで2.3[s]であった。この時間は、実時間処理の3倍の速度である。
Claims (26)
- 音信号を分離する方法において、
前記音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、
各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する、
音信号の分離方法。 - 前記分配係数は、時間周波数マスクである、請求項1に記載の音信号の分離方法。
- 前記分配係数の取得は、
前記音信号の各スペクトル成分について、各サブスペクトログラムの滑らかさの方向に基づいて、各サブスペクトログラムのスペクトル成分らしさのスコアを取得し、
各スコアを指標として、分配係数を取得するステップと、
からなる、請求項1,2いずれかに記載の音信号の分離方法。 - 前記スコアを取得するステップは、
前記音信号のスペクトログラムを、時間周波数平面上で各スペクトル成分がエネルギーに対応する濃度値を備えた画像とみなし、前記音信号のスペクトログラムから各サブスペクトログラムに属するスペクトル成分の特徴を夫々抽出するフィルタを設定し、
各スペクトル成分についての、各サブスペクトログラムに対応するフィルタ処理後のフィルタ出力をスコアとする、
請求項3に記載の音信号の分離方法。 - 前記フィルタは、各サブスペクトログラムのスペクトル成分の滑らかな方向の濃度値を平滑化するローパスフィルタである、
請求項4に記載の音信号の分離方法。 - 前記音信号のスペクトログラムを、2個のサブスペクトログラムの和であると仮定し、
前記スコアを比較し、スコアが大きい方の分配係数を1、スコアが小さい方の分配係数を0とする、
請求項3乃至5いずれかに記載の音信号の分離方法。 - 前記分配係数の取得は、
分配係数をパラメータとして各サブスペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、
前記目的関数を最適化するパラメータを推定する、
請求項1,2いずれかに記載の音信号の分離方法。 - 前記分配された各スペクトル成分の滑らかさ指標は、
着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される、
請求項7に記載の音信号の分離方法。 - 前記滑らかさの指標の関数は、
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
fk(x):滑らかさをはかるコスト関数
am,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックス
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
Q(K) i,j:サブスペクトログラムのスペクトル成分
である。 - 前記目的関数が、前記音信号のスペクトル成分とパラメータとしての分配係数によって分配された各スペクトル成分の和との距離指標の関数を含む、
請求項7乃至9いずれかに記載の音信号の分離方法。 - 前記音信号のスペクトログラムを、K個のサブスペクトログラムの和であると仮定し、前記目的関数は、
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
D(A,B):関数Aと関数Bの距離指標
φ(x):距離指標における、スペクトログラムのレベル圧縮関数
Wi,j:観測スペクトル成分
fk(x):滑らかさをはかるコスト関数
am,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックス
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
Q(K) i,j:サブスペクトログラムのスペクトル成分
である。 - 前記目的関数において、
- 前記目的関数において、
- 前記目的関数において、
- 前記パラメータを推定するステップは、
パラメータの更新と、当該パラメータによって分配された各サブスペクトログラムに対応するスペクトル成分の更新とを交互に繰り返すものである、
請求項7乃至14いずれかに記載の分離方法。 - 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
前記時間周波数領域で隣接するパラメータによって分配されたスペクトル成分間のエネルギーの差の関数は、
- 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
前記目的関数は、
- 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
前記目的関数は、
- 前記音信号を初期分析区間で時間周波数領域に変換してスペクトル成分を取得するステップと、
前記音信号を1フレーム分だけ時間周波数領域に変換してスペクトル成分を取得し、当該スペクトル成分を前記分析区間に加えるステップと、
前記分析区間のスペクトル成分を用いて、パラメータの推定を行うステップと、
前記分析区間で最も古い1フレームのスペクトル成分を、推定されたパラメータを用いて分離し、
分離されたスペクトル成分を時間周波数領域に変換する、
請求項7乃至18いずれかに記載の音信号の分離方法。 - 推定された分配係数を2値化するステップを含む、
請求項7乃至19いずれかに記載の音信号の分離方法。 - 2値化の強度が可変である、
請求項20に記載の音信号の分離方法。 - 前記複数のサブスペクトログラムの少なくとも1つは、周波数方向に滑らかなサブスペクトログラム、あるいは、時間方向に滑らかなサブスペクトログラムである、請求項1乃至21いずれかに記載の音信号の分離方法。
- 前記複数のサブスペクトログラムは、周波数方向に滑らかな第1サブスペクトログラムと、時間方向に滑らかな第2サブスペクトログラムと、を含む、請求項22に記載の音信号の分離方法。
- 前記周波数方向に滑らかなサブスペクトログラムは、非調波的な成分であり、時間方向に滑らかなサブスペクトログラムは、調波的な成分である、請求項22、23いずれかに記載の分離方法。
- 前記音信号は音楽信号であり、前記非調波的な成分は、打楽器音である、請求項24に記載の音信号の分離方法。
- 前記分離方法は、分離された少なくとも1つのサブスペクトログラムのスペクトル成分を強調あるいは抑圧するステップを備えている、
請求項1乃至25いずれかに記載の音信号の分離方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008054826A JP5294300B2 (ja) | 2008-03-05 | 2008-03-05 | 音信号の分離方法 |
US12/920,299 US20110058685A1 (en) | 2008-03-05 | 2008-08-27 | Method of separating sound signal |
PCT/JP2008/065287 WO2009110118A1 (ja) | 2008-03-05 | 2008-08-27 | 音信号の分離方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008054826A JP5294300B2 (ja) | 2008-03-05 | 2008-03-05 | 音信号の分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009210888A true JP2009210888A (ja) | 2009-09-17 |
JP5294300B2 JP5294300B2 (ja) | 2013-09-18 |
Family
ID=41055692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008054826A Expired - Fee Related JP5294300B2 (ja) | 2008-03-05 | 2008-03-05 | 音信号の分離方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110058685A1 (ja) |
JP (1) | JP5294300B2 (ja) |
WO (1) | WO2009110118A1 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011069900A (ja) * | 2009-09-24 | 2011-04-07 | Xing Inc | 撥弦楽器演奏評価装置 |
JP2014059483A (ja) * | 2012-09-18 | 2014-04-03 | Fuji Xerox Co Ltd | 分類装置及びプログラム |
JP2014178534A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析装置とその方法とプログラム |
JP2015031889A (ja) * | 2013-08-05 | 2015-02-16 | 株式会社半導体理工学研究センター | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
JP2017090606A (ja) * | 2015-11-09 | 2017-05-25 | 日本電信電話株式会社 | 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム |
JP2018031967A (ja) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
KR20180121995A (ko) * | 2016-03-18 | 2018-11-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 |
JP2019035862A (ja) * | 2017-08-17 | 2019-03-07 | 日本電信電話株式会社 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
JP2019512740A (ja) * | 2016-03-18 | 2019-05-16 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング |
JP2022553768A (ja) * | 2020-06-10 | 2022-12-26 | 上▲海▼商▲湯▼智能科技有限公司 | 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2306457B1 (en) * | 2009-08-24 | 2016-10-12 | Oticon A/S | Automatic sound recognition based on binary time frequency units |
US8340943B2 (en) * | 2009-08-28 | 2012-12-25 | Electronics And Telecommunications Research Institute | Method and system for separating musical sound source |
KR20120031854A (ko) * | 2010-09-27 | 2012-04-04 | 한국전자통신연구원 | 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
US20120316886A1 (en) * | 2011-06-08 | 2012-12-13 | Ramin Pishehvar | Sparse coding using object exttraction |
JP5057535B1 (ja) * | 2011-08-31 | 2012-10-24 | 国立大学法人電気通信大学 | ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法 |
US9496839B2 (en) | 2011-09-16 | 2016-11-15 | Pioneer Dj Corporation | Audio processing apparatus, reproduction apparatus, audio processing method and program |
US9460732B2 (en) | 2013-02-13 | 2016-10-04 | Analog Devices, Inc. | Signal source separation |
US10262680B2 (en) * | 2013-06-28 | 2019-04-16 | Adobe Inc. | Variable sound decomposition masks |
US9812150B2 (en) * | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
US9420368B2 (en) * | 2013-09-24 | 2016-08-16 | Analog Devices, Inc. | Time-frequency directional processing of audio signals |
US10468036B2 (en) | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US20150264505A1 (en) | 2014-03-13 | 2015-09-17 | Accusonus S.A. | Wireless exchange of data between devices in live events |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CN106024005B (zh) * | 2016-07-01 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
US10713296B2 (en) * | 2016-09-09 | 2020-07-14 | Gracenote, Inc. | Audio identification based on data structure |
US10803119B2 (en) * | 2017-01-02 | 2020-10-13 | Gracenote, Inc. | Automated cover song identification |
US11574618B2 (en) | 2020-04-16 | 2023-02-07 | Gracenote, Inc. | Methods and apparatus for harmonic source enhancement |
US11250874B2 (en) * | 2020-05-21 | 2022-02-15 | Bank Of America Corporation | Audio quality enhancement system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244691A (ja) * | 2001-02-13 | 2002-08-30 | Dainippon Printing Co Ltd | 音響信号の符号化方法 |
JP2003131688A (ja) * | 2001-10-24 | 2003-05-09 | Takayoshi Yamamoto | 信号源毎の信号を求める方法及び装置 |
JP2005258440A (ja) * | 2004-03-12 | 2005-09-22 | Mitsubishi Electric Research Laboratories Inc | 別個の信号の成分を分離する方法およびシステム |
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
JP2007193035A (ja) * | 2006-01-18 | 2007-08-02 | Sony Corp | 音声信号分離装置及び方法 |
JP2007304445A (ja) * | 2006-05-12 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
JP4665836B2 (ja) * | 2006-05-31 | 2011-04-06 | 日本ビクター株式会社 | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
US8126829B2 (en) * | 2007-06-28 | 2012-02-28 | Microsoft Corporation | Source segmentation using Q-clustering |
-
2008
- 2008-03-05 JP JP2008054826A patent/JP5294300B2/ja not_active Expired - Fee Related
- 2008-08-27 WO PCT/JP2008/065287 patent/WO2009110118A1/ja active Application Filing
- 2008-08-27 US US12/920,299 patent/US20110058685A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244691A (ja) * | 2001-02-13 | 2002-08-30 | Dainippon Printing Co Ltd | 音響信号の符号化方法 |
JP2003131688A (ja) * | 2001-10-24 | 2003-05-09 | Takayoshi Yamamoto | 信号源毎の信号を求める方法及び装置 |
JP2005258440A (ja) * | 2004-03-12 | 2005-09-22 | Mitsubishi Electric Research Laboratories Inc | 別個の信号の成分を分離する方法およびシステム |
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
JP2007193035A (ja) * | 2006-01-18 | 2007-08-02 | Sony Corp | 音声信号分離装置及び方法 |
JP2007304445A (ja) * | 2006-05-12 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011069900A (ja) * | 2009-09-24 | 2011-04-07 | Xing Inc | 撥弦楽器演奏評価装置 |
JP2014059483A (ja) * | 2012-09-18 | 2014-04-03 | Fuji Xerox Co Ltd | 分類装置及びプログラム |
JP2014178534A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析装置とその方法とプログラム |
JP2015031889A (ja) * | 2013-08-05 | 2015-02-16 | 株式会社半導体理工学研究センター | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
JP2017090606A (ja) * | 2015-11-09 | 2017-05-25 | 日本電信電話株式会社 | 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム |
KR20180121995A (ko) * | 2016-03-18 | 2018-11-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 |
JP2019512740A (ja) * | 2016-03-18 | 2019-05-16 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング |
JP2019515323A (ja) * | 2016-03-18 | 2019-06-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 |
US10607630B2 (en) | 2016-03-18 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Förderung Der | Encoding by reconstructing phase information using a structure tensor on audio spectrograms |
US10770051B2 (en) | 2016-03-18 | 2020-09-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms |
KR102250624B1 (ko) * | 2016-03-18 | 2021-05-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 |
JP2018031967A (ja) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
JP2019035862A (ja) * | 2017-08-17 | 2019-03-07 | 日本電信電話株式会社 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
JP2022553768A (ja) * | 2020-06-10 | 2022-12-26 | 上▲海▼商▲湯▼智能科技有限公司 | 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム |
JP7251000B2 (ja) | 2020-06-10 | 2023-04-03 | 上▲海▼商▲湯▼智能科技有限公司 | 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20110058685A1 (en) | 2011-03-10 |
WO2009110118A1 (ja) | 2009-09-11 |
JP5294300B2 (ja) | 2013-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5294300B2 (ja) | 音信号の分離方法 | |
Ono et al. | Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Ono et al. | A Real-time Equalizer of Harmonic and Percussive Components in Music Signals. | |
CN110111773B (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
Fuentes et al. | Probabilistic model for main melody extraction using constant-Q transform | |
CN101599271A (zh) | 一种数字音乐情感的识别方法 | |
CN107851444A (zh) | 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用 | |
EP2418643A1 (en) | Computer-implemented method and system for analysing digital speech data | |
JP2010210758A (ja) | 音声を含む信号の処理方法及び装置 | |
Cho et al. | Sparse music representation with source-specific dictionaries and its application to signal separation | |
Cogliati et al. | Piano music transcription with fast convolutional sparse coding | |
Permana et al. | Implementation of constant-q transform (CQT) and mel spectrogram to converting bird’s sound | |
CN110534091A (zh) | 一种基于微服务器及智能语音识别的人车交互方法 | |
CN111667805A (zh) | 一种伴奏音乐的提取方法、装置、设备和介质 | |
JP2012181475A (ja) | 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法 | |
Lai et al. | RPCA-DRNN technique for monaural singing voice separation | |
WO2005062291A1 (ja) | 信号解析方法 | |
Macret et al. | Automatic calibration of modified fm synthesis to harmonic sounds using genetic algorithms | |
Tachibana et al. | Comparative evaluations of various harmonic/percussive sound separation algorithms based on anisotropic continuity of spectrogram | |
Vinitha George et al. | A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture | |
Costa et al. | Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms | |
Pawar et al. | Automatic tonic (shruti) identification system for indian classical music | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning | |
Caetano et al. | Adaptive sinusoidal modeling of percussive musical instrument sounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5294300 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |