JP2009210888A - 音信号の分離方法 - Google Patents

音信号の分離方法 Download PDF

Info

Publication number
JP2009210888A
JP2009210888A JP2008054826A JP2008054826A JP2009210888A JP 2009210888 A JP2009210888 A JP 2009210888A JP 2008054826 A JP2008054826 A JP 2008054826A JP 2008054826 A JP2008054826 A JP 2008054826A JP 2009210888 A JP2009210888 A JP 2009210888A
Authority
JP
Japan
Prior art keywords
sound signal
time
spectrogram
frequency
subspectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008054826A
Other languages
English (en)
Other versions
JP5294300B2 (ja
Inventor
Shigeki Sagayama
茂樹 嵯峨山
Junki Ono
順貴 小野
Hirokazu Kameoka
弘和 亀岡
Kenichi Miyamoto
賢一 宮本
Roux Jonathan Le
ジョナトン ルルー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2008054826A priority Critical patent/JP5294300B2/ja
Priority to US12/920,299 priority patent/US20110058685A1/en
Priority to PCT/JP2008/065287 priority patent/WO2009110118A1/ja
Publication of JP2009210888A publication Critical patent/JP2009210888A/ja
Application granted granted Critical
Publication of JP5294300B2 publication Critical patent/JP5294300B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

【課題】
時間周波数領域におけるスペクトル成分の滑らかさの異方性に着目して、音信号から分離信号を取得する。
【解決手段】
音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する。
【選択図】図4

Description

本発明は、音信号、典型的には多重音信号、の分離方法に関するものである。本明細書では、本発明が適用される典型的な例として、音楽音響信号から打楽器音を分離、抽出することを中心に説明するが、本発明は、音楽音響信号からの打楽器音の分離に限定されるものではなく、例えば、機械や装置から発生する工業的な音を分離するものでもよい。
音楽検索、自動採譜などの音楽情報処理の問題においては、音楽音響信号から音高、和声、リズムパターン、テンポなど様々な情報を抽出・認識する必要があるが、これらは未だ難しいタスクであり、近年活発な研究がなされている。音楽音響信号は大きく、メロディーや和声に関連する調波成分と、リズムやドラムパートに関連する打楽器成分の2つに大別されるが、これらは全く異なる性質をもつ信号であり、これらが混在していることが音楽音響信号解析の困難さの一つの要因となっている。しかしながら、モノラル録音された音楽音響信号から調波/打楽器各成分を分離することは容易ではなく、従来は楽譜や楽器の情報なしには行うことができない問題であった。これらの分離がうまくできれば、打楽器やノイズなどの非調波成分を含んだ多声音楽信号の楽音分析における前処理、打楽器パートの強調や打楽器パターン変更といった音楽加工など、多くの分野への応用が期待される。
多重音信号から打楽器(非調波成分)を分離、抽出する手法として幾つかの研究が知られている(非特許文献1乃至3)。
非特許文献1は、特定打楽器の周波数特性テンプレートを用いた音源同定、除去に関するものである。非特許文献1では、除去対象楽器のテンプレートが必要となり、フレームワイズな処理を行っている。また、反復推定による音源同定を行っている。
非特許文献2は、楽器情報を用いない、フレームワイズな調波・非調波成分の分離手法に関するものであり、反復推定による分離手法が行われている。
非特許文献3は、学習データを用いて、あらかじめ調波音、打楽器音の周波数特性を学習するものであり、学習した特徴とのマッチングによって、フレームワイズに分離する。
吉井 和佳, 後藤 真孝, 奥乃博, "実世界の音楽音響信号に対するドラムスの音源同定を利用したドラムイコライズシステムINTER:Dの開発," 第3回情報処理科学技術フォーラム FIT2004. 亀岡 弘和, 後藤 真孝, 嵯峨山茂樹, "スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ," 情報処理学会研究報告. 2006-MUS-65, pp77-84. M. Helen, T. Virtanen, "Separation ofDrums from Polyphonic Music Using Non-negative Matrix Factorization and SupportVector Machine," In proc, 13th EUSIPCO, 2005.
本発明は、従来のフレームワイズな分析手法に対して、時間周波数領域におけるスペクトル成分の滑らかさの異方性に着目して、音信号を分離することを目的とするものである。本発明のより具体的な一つの目的は、楽器や楽譜に関する情報を全く用いずに、音楽音響信号から調波的な楽器音成分と打楽器的な非調波音成分を分離することにある。
本発明が採用した技術手段は、音信号を分離する方法において、前記音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する、音信号の分離方法、である。
本発明は、時間周波数領域における音信号のスペクトログラムのスペクトル成分の滑らかな方向に着目したものである。すなわち、周波数特性だけでなく、時間的な変化の違いを用いる点に特徴を備えている。本発明では、音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定する。すなわち、本発明の対象となる音信号のスペクトログラムを時間周波数領域で異方向に滑らかなスペクトル成分を備えた複数のサブスペクトログラムの和であると仮定する。各サブスペクトログラム(同じサブスペクトログラム)に属するスペクトル成分は時間周波数平面上で概ね同じ方向に滑らかであり、)スペクトル成分の滑らかな方向は、各サブスペクトログラム間で異なる。例えば、ある多重音信号のスペクトログラムは、時間周波数平面上で第1の方向に延出するスペクトル成分群からなる第1サブスペクトログラムと、時間周波数平面上で第2の方向に延出するスペクトル成分群からなる第2サブスペクトログラムの和であると仮定する。あるいは、ある多重音信号のスペクトログラムを、時間周波数平面上で第1の方向に延出するスペクトル成分群からなる第1サブスペクトログラムと、時間周波数平面上で第2の方向に延出するスペクトル成分群からなる第2サブスペクトログラムと、時間周波数平面上で第3の方向に延出するスペクトル成分群からなる第3サブスペクトログラムと、の和であると仮定する。
ここで、本発明は、スペクトログラムにおけるスペクトル成分の滑らかな方向の違いに着目した点に特徴を有するものであるが、分離信号を得る処理ステップにおいて、スペクトログラムを実際に画面に表示することを要しない。本発明においては、分析対象となる音信号が時間周波数領域に変換され、スペクトル成分が得られていればよい。時間周波数領域への変換手段は、典型的な例では、短時間フーリエ変換であるが、ウェーブレット変換、定Qフィルタバンク分析、その他のフィルタバンク分析でもよい。また、1つの態様では、本発明は、観測信号である音信号を時間周波数領域に変換するステップと、分離された各サブスペクトログラムに対応するスペクトル成分を時間領域に変換するステップを含み得るが、本発明の全ての処理が時間周波数領域で行われる場合もある。実際のスペクトログラムの計算では、短時間周波数分析によって離散的な時間と周波数ごとに成分が得られる。したがって、スペクトログラムにおける各スペクトル成分(時間周波数成分)は、時間bin(フレーム)と周波数binにより特定される時間周波数binである。
本発明において、音信号のスペクトル成分を分配するための分配係数は、典型的には、いわゆる時間周波数マスク(各時間周波数で0〜1の値を取る)として設定され、入力スペクトログラムと時間周波数マスクの乗算によって分離が行われる。音信号の各スペクトル成分を、各サブスペクトログラムに対応するスペクトル成分に分配する分配係数は、一つの態様では、音信号のスペクトログラムが2つのサブスペクトログラムからなる場合に、0あるいは1を取るバイナリマスクである。バイナリマスクを用いることで、良好な耳聴こえが得られる可能性がある。もっとも、分配係数は0あるいは1に限定されるものではなく、その他の比率で分配してもよい。分配係数、すなわち、時間周波数マスクは、入力された音信号のスペクトル成分に基づいて設計される。また、音信号のスペクトログラムが3つのサブスペクトログラムからなる場合には、3つの分配係数の合計が1となるように、各分配係数が設計される。
1つの態様では、前記分配係数の取得は、前記音信号の各スペクトル成分について、各サブスペクトログラムの滑らかさの方向に基づいて、各サブスペクトログラムのスペクトル成分らしさのスコアを取得し、各スコアを指標として、分配係数を取得するステップと、からなる。
1つの態様では、前記スコアを取得するステップは、前記音信号のスペクトログラムを、時間周波数平面上で各スペクトル成分がエネルギーに対応する濃度値を備えた画像とみなし、前記音信号のスペクトログラムから各サブスペクトログラムに属するスペクトル成分の特徴を夫々抽出するフィルタを設定し、各スペクトル成分についての、各サブスペクトログラムに対応するフィルタ処理後のフィルタ出力をスコアとする、ものである。
1つの態様では、前記フィルタは、各サブスペクトログラムのスペクトル成分の滑らかな方向の濃度値を平滑化するローパスフィルタである。また、スペクトル成分の滑らかな方向の特徴を抽出するフィルタは、周波数領域のデジタルフィルタに限定されるものではなく、空間フィルタによっても設計し得ることは当業者に理解される。
1つの態様では、前記音信号のスペクトログラムを、2個のサブスペクトログラムの和であると仮定し、前記スコアを比較し、スコアが大きい方の分配係数を1、スコアが小さい方の分配係数を0とする。あるいは、フィルタ出力値の比に応じて、合計が1となるように分配係数を設定してもよい。
一つの態様では、前記複数のサブスペクトログラムは、周波数方向に滑らかなスペクトル成分からなる第1サブスペクトログラムと、時間方向に滑らかなスペクトル成分からなる第2サブスペクトログラムと、からなり、各サブスペクトログラムのスペクトル成分の滑らかな方向の特徴を抽出するフィルタは、実質的に時間方向の平滑化を行うフィルタと、実質的に周波数方向の平滑化を行うフィルタと、からなる。より具体的には、時間方向のみの1次元ローパスフィルタと、周波数方向のみの1次元ローパスフィルタ、あるいは、時間方向の遮断周波数ωt、周波数方向の遮断周波数ωfが大きく異なる2つの2次元ローパスフィルタ(一方はωt>>ωf、他方はωt<<ωf)などを含む。尚、スペクトル成分の方向が、周波数方向、時間方向でなくても、時間周波数領域においてある一定の方向に滑らかであれば、そのようなスペクトル成分を抽出するフィルタの設計が可能であることは当業者に理解され、そのフィルタ出力を指標として分配係数が設定できることも当業者に理解される。
一つの態様では、前記分配係数の取得は、分配係数をパラメータとして各サブスペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、前記目的関数を最適化するパラメータを推定することで取得される。分配された各スペクトル成分の滑らかさ指標は、着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される。着目スペクトル成分の近傍のスペクトル成分は、典型的には、時間周波数平面上で隣接するスペクトル成分であるが、近傍の範囲はこれに限定されるものではない。分配係数、すなわち、時間周波数マスクの設定は、滑らかさのコストをスペクトログラムの微分の関数で設計し、これを最小化する最適化問題として捉えることができる。
1つの態様では、前記滑らかさの指標の関数は、
である。
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
(x):滑らかさをはかるコスト関数
m,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックスウ
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
(K) i,j:サブスペクトログラムのスペクトル成分
である。
1つの態様では、前記目的関数が、前記音信号のスペクトル成分とパラメータとしての分配係数によって分配された各スペクトル成分の和との距離指標の関数を含む。すなわち、滑らかさのコスト+距離指標から目的関数が設定され、この目的関数を最小化するように分配係数を最適化する。一つの態様では、距離指標は、Iダイバージェンスである。Iダイバージェンスは、解析的な更新式を求めやすいという利点を有している。距離指標としては、パラメータの更新式が解析的に求められるような距離関数であれば、他の距離指標、例えば、ユークリッド距離(2乗誤差)やマハラノビス距離など、でもよい。分布間距離の要件は、2つの分布がどんな値であっても、関数の値が常に非負であり、かつ0のときにのみ両者の分布が完全に一致することである。
1つの態様では、前記音信号のスペクトログラムを、K個のサブスペクトログラムの和であると仮定した場合に、前記目的関数は、
である。
ここで、K:サブスペクトログラムの数、
i:周波数方向のインデックス
j:時間方向のインデックス
D(A,B):関数Aと関数Bの距離指標
φ(x):距離指標における、スペクトログラムのレベル圧縮関数
i,j:観測スペクトル成分
(x):滑らかさをはかるコスト関数
m,n:時間周波数領域でのある点近傍での重み係数
m:周波数方向の近傍を表すインデックス
n:時間方向の近傍を表すインデックスウ
g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
(K) i,j:サブスペクトログラムのスペクトル成分
である。
1つの態様では、前記目的関数において、
である。
1つの態様では、前記目的関数において、
である。これは、後述する第2実施形態に対応する。
1つの態様では、前記目的関数において、
である。これは、後述する第3実施形態に対応する。
本発明の実施形態では、分離の耳聴こえを良くするための工夫を行っている。人間の聴覚では、音量(音響エネルギー)を対数的(0.3乗程度)に捉える。したがって、小さい音量の変化もある程度認識可能であり、少しでもエネルギーが残っていると、分離できてないように感じる。後述する第2の実施形態では、(1)I-Divergenceはエネルギーをやや対数的に扱う、(2)平方根の滑らかさコスト=エネルギーをやや対数的に扱う、ことでこれに対応している。また、後述する第3の実施形態では、滑らかさはエネルギーを線形に扱っている。具体的には、レベル圧縮によって、あらかじめエネルギーを0.3乗程度に圧縮している。
第2実施形態、第3実施形態におけるリアルタイム調波音・打楽器音分離について説明する。本来は、入力すべての時間周波数成分を用いて分離するものであり、第2実施形態、第3実施形態の手法では反復処理により、時間を要しうる。しかしながら、隣のフレームのみとの滑らかさを定義することで、比較的高速に計算を可能とし、実時間処理を実現している。すなわち、隣接する時間周波数bin同士のエネルギーの滑らかさを最小化するようにして分配係数を算出している。
具体的には、分析領域のシフトをしながらEM的な反復処理を行う。図9Aに示すように、所定の分析スペクトログラム領域に対して、1フレームの入力があると、分析スペクトログラム領域で反復更新が行われて次の1フレームの出力のための分配係数が決定され、当該分配係数によって分配されたスペクトル成分が出力され、時間領域に変換される。まとめると、前記音信号を初期分析区間で時間周波数領域に変換してスペクトル成分を取得するステップと、前記音信号を1フレーム分だけ時間周波数領域に変換してスペクトル成分を取得し、当該スペクトル成分を前記分析区間に加えるステップと、前記分析区間のスペクトル成分を用いて、パラメータの推定を行うステップと、前記分析区間で最も古い1フレームのスペクトル成分を、推定されたパラメータを用いて分離し、分離されたスペクトル成分を時間周波数領域に変換する。
目的関数におけるパラメータである分配係数を推定するアルゴリズムとしては、一つの好ましい態様ではEMアルゴリズムであるが、最急降下法やニュートン法等の他の最適化アルゴリズムを用いてもよい。また、EMアルゴリズムを解くにあたって、補助変数を導入してもよい。
本発明において、サブスペクトログラムの数は、2以上であれば限定されないが、一つの態様では、音信号のスペクトログラムは、2つのサブスペクトログラムからなり、さらに、典型的な一つの態様では、前記複数のサブスペクトログラムは、周波数方向に滑らかなスペクトル成分からなる第1サブスペクトログラムと、時間方向に滑らかなスペクトル成分からなる第2サブスペクトログラムと、からなる。この場合、一つの態様では、前記多重音信号は打楽器音を含む音楽信号であり、前記第1サブスペクトログラムには、打楽器音のスペクトル成分が含まれる。すなわち、第1サブスペクトログラムは非調波音的成分(典型的には、打楽器音)であり、第2サブスペクトログラムは調波音的成分である。また、本発明の対象となる多重音信号のサブスペクトログラムのスペクトル成分の滑らかな方向は、周波数方向や時間方向に限定されるものではなく、時間周波数領域上で一定の方向に滑らかであれば、スペクトル成分の滑らかな方向に基づいて、多重音信号のスペクトログラムを複数のサブサブスペクトログラムに分離することが可能である。
本発明のハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力装置、表示装置を含む出力装置、CPU,記憶装置(ROM,RAM等)、これらを接続するバス等、を備えている。)から構成することができる。したがって、本発明は、音信号を分離させるために、コンピュータを、請求項1乃至26いずれかに記載された方法を実行させる、コンピュータプログラムとしても提供される。
本発明は、音信号を分離する装置としても提供され、前記装置は、各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得する手段と、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離手段と、を備える。典型的には、前記装置は、さらに、多重音信号を時間周波数領域に変換する手段と、分離された各サブスペクトログラムに対応するスペクトル成分を時間領域に変換する手段と、を備えている。また、本発明は、分離された少なくとも1つのサブスペクトログラムのスペクトル成分を強調あるいは抑圧するステップないし手段を備えていてもよい。例えば、本発明を用いて図11に示すようなイコライザを実現することができる。
本発明では、時間周波数領域におけるスペクトル成分の滑らかさの異方性を利用することで、学習データや事前情報を用いることなく、多重音信号から分離信号を取得する音響信号から打楽器音を分離することができる。
本発明では、学習データや打楽器テンプレートなどの楽器固有の情報を用いることなく、音響信号から打楽器音を分離することができる。
[A]本実施形態の概要
本実施形態では調波音と打楽器音の混在した音楽信号を分析対象とし、入力信号の短時間周波数解析によって得られるスペクトログラムをW(x,t)とする(x:周波数、t:時刻)。本実施形態の問題は、このW(x,t)を打楽器的な音程を持たない非調波成分P(x,t)と音程を持つ楽器のような調波成分H(x,t)の2つのスペクトログラムに分解することである。このとき満たすべき要件は、任意の時間周波数(x,t)において、
が成り立つことである。
本実施形態では、調波成分・打楽器成分の異方性に着目する。より具体的には、図1で示すようなポピュラー音楽の音響信号のスペクトログラムが、時間周波数領域において、一般的に周波数方向に形成される山脈ないし畝のようなスペクトル成分と、時間方向に形成される山脈ないし畝のようなスペクトル成分とからなることが多い点に着目する。前者は、打楽器のように時間方向には急峻に変化するが周波数方向にはブロード(滑らか)である成分P(x,t)に、後者は逆に周波数方向には急峻な形状だが時間方向には滑らかな成分H(x,t)に対応するとみなすことができ、また2成分は時間周波数平面上においてスパース(同じ時間周波数bin上に存在することが少ない)に存在しているとみなせる。
本実施形態では、入力信号のスペクトログラムを、時間周波数マスクによって2つのスペクトログラムに分解する。すなわち、前述したP(x,t)とH(x,t)のスパース性から、任意の時間周波数において0〜1の値をとる時間周波数マスクm(x,t),m(x,t)を設計することで、
とW(x,t)を分解できると考えられる。これらの分離スペクトログラムは式(1),(2),(3)の性質を満たす。
時間周波数マスクは、サブスペクトログラムを形成するスペクトル成分の滑らかな方向を検出するように設計される。本実施形態では、打楽器成分のスペクトル成分が周波数方向に滑らかであるという特徴、及び、調波成分のスペクトル成分が時間方向に滑らかであるという特徴を用いて、入力信号のスペクトログラムをそれぞれのスペクトル成分に分離する時間周波数マスクが設計される。0〜1の値を取る時間周波数マスクは、一つの態様では、0か1の値を取るバイナリマスクである。
上述のように、本実施形態では、音楽音響信号の時間周波数スペクトログラム上において、調波成分は時間方向に滑らか、打楽器成分は周波数方向に滑らかであるという時間周波数スペクトログラム上の性質の違いを積極的に用いることにより、高速にこれらを分離する。具体的には、与えられた時間周波数スペクトログラムを、時間方向に滑らかな成分と周波数方向に滑らかな成分に分解する相補的な時間周波数マスクを設計し、音楽音響信号の時間周波数スペクトログラムに対して時間周波数マスキングを行って、調波成分・打楽器成分を分離する。設計方法として、1)2次元フィルタを用いる手法、2)Divergenceと滑らかさコストをEMアルゴリズム的手法で最小化する手法、3)レベル圧縮したスペクトログラムに対し滑らかさコストをEMアルゴリズム的手法で最小化する手法、の3つの実施形態について説明する。各実施形態の説明において、数式番号は、各実施形態毎に独自に付与される。
[B]第1実施形態
第1実施形態では、観測信号の時間周波数平面のスペクトログラムを画像とみなし、調波的な音と打楽器的な音の持つ一般的な性質の違いを利用した2次元フィルタを用いることで、楽器固有の情報なしで音楽信号から打楽器音と調波音を分離する。
[B−1]2次元フィルタ出力を用いたマスク設計
時間周波数マスクm(x,t)、m(x,t)の設計について述べる。W(x,t)を画像とみなすと、P(x,t)とH(x,t)の特徴、すなわち、周波数方向のエッジ(縦方向のエッジ)と時間方向のエッジ(横方向のエッジ)、を個別に抽出するような2次元フィルタをかけることで、そのフィルタ出力結果の大小から各時間周波数成分がP(x,t)に属するかH(x,t)に属するかを決定できる。
W(x,t)の2次元フーリエ変換成分をW(バー)(a,b)(a:周波数方向のフーリエ成分,b:時間方向のフーリエ成分)とすると、P(x,t)特徴抽出フィルタF(バー)(a,b)、H(x,t)特徴抽出フィルタF(バー)(a,b)を用いることで、
のようにフィルタ出力結果が得られる。この結果から時間周波数マスクm(x,t)、m(x,t)は、
と得られる。
[B−2]特徴抽出2次元フィルタの設計
前節で述べた2次元フィルタに関して満たすべき要件を検討する。出力結果が各時間周波数成分においてP(x,t)らしさ、H(x,t)らしさの指標となるためには、フィルタ出力が非負の実数になることが望ましいが、必ずしも非負でなくてもよい。また入力スペクトログラムとフィルタ出力の時間周波数が対応している必要がある。前者の実現のためには、フィルタが任意の2次元分布の畳み込みA(a,b)*A(a,b)で表現される形状であればよく、またその形状がa,b両軸に対して線対称な実数分布になっていれば後者の性質も満たす。
P(x,t)、H(x,t)の特徴をそれぞれ抽出する2次元フィルタF(バー)(a,b)、F(バー)(a,b)としては様々な形状が考えられる。次に述べる実験では、要件を満たす最も簡単なフィルタとして、F(a,b)は周波数方向のみ、F(a,b)は時間方向のみのローパスフィルタ、
として設計し、g(a)やh(b)の1次元ローパスフィルタの断面形状としては三角窓やgaussianが利用できる。
三角窓型ローパスフィルタは、
gaussian窓型フィルタは、
と書ける。フィルタを通過した成分の2次元逆フーリエ変換により、P0(x,t)、H0(x, t)が得られ、出力結果から時間周波数マスクmP(x, t)、mH(x, t) が設計できる。
2次元フィルタは要件を満たす最も簡単なフィルタ形状といえる。三角窓は2つの矩形窓の畳み込みで、Gaussian窓は2つのGaussianの畳み込みで表現できるため、上述したようにフィルタ出力が非負である性質を満たす。この2次元フィルタによって、時間方向、周波数方向に滑らかな成分だけが通過できる。よって各時間周波数binにおいて出力結果の2つの非負の値を比較することで、そのbin が調波音成分らしいか打楽器音の成分らしいかの判断ができる。このときフィルタの持つパラメータとして、ローパスフィルタのカットオフ周波数に対応するσP、σHがある。この値が小さいほどより滑らかな成分しか通過しないことになる。提案した2次元フィルタのインパルス応答を考えると、時間周波数方向のうちローパスでない一方がデルタ関数になり、もう一方がsinc関数の2乗(三角窓型の場合)やガウシアン(ガウシアン窓型の場合)になる。このことからこのフィルタ処理は、対象の時間周波数binのスペクトログラムにおいて、周波数方向または時間方向の一方に関してのみの荷重平均を取ることに相当する。逆にスペクトログラムの各時間周波数binの周辺で任意の荷重平均を取る処理は、全て上述した正定値フィルタをかけることに相当する。また、フィルタのインパルス応答が時間周波数軸双方に線対称(つまり時間、周波数双方向に関して偶関数)であれば、時間・周波数成分に関する加重平均の偏りがないため、分離スペクトログラムと元のスペクトログラムで時間周波数binの対応のずれは全くないと考えられる。この性質により、フィルタの出力結果からマスク関数を設計することが妥当と考えられる。
[B−3]評価実験
[B−3−1]実際の楽曲への適用結果
ポピュラー音楽の楽曲を用いた分離実験を行った。入力信号として、RWC 研究用音楽データベースよりRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズム(ローパスフィルタの形状はGaussian)による分離結果を、図5の左図に示す。
結果から、P(x,t)は周波数方向にブロードな成分、H(x,t)は周波数方向に急峻だが時間方向に滑らかな成分に分離されたことが分かる。分離音を聴くと、スネアドラムなどの打楽器音はP(x,t)に分離されたが、バスドラムやハイハットに関しては特にDuration部分がH(x,t)に分離されることが確認された。また歌声においてピッチが連続的に変化する部分はP(x,t)、H(x,t)どちらにも分離され得るが、ローパスフィルタのカットオフ周波数を調整することにより、H(x,t)の方に多く分離することが可能である。
[B−3−2]MIDIを用いた定量評価実験
次に、提案アルゴリズムの定量評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHz サンプリング)。そして第1実施形態の手法によって得た分離結果の信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出した。その結果を表1に示す。表より、ギターやピアノなどのメロディーや伴奏はH(x,t)に、スネアドラムやハイハットはP(x,t)分離したが、バスドラムがH(x,t)に分離される結果を得た。
第1実施形態では、打楽器音や調波音の特徴としてスペクトログラムの周波数、時間方向の連続性を用いるものであり、スネアドラムなどの打楽器音や、音程を持つ楽器音の分離には適していると考えられる。バスドラムやハイハットのように周波数分布に偏りを持ち比較的音長の長い打楽器音や、ピアノの打鍵音やベースの打弦音、ピッチの変化しやすい歌声などの分離については、特徴抽出2次元フィルタの形状の設計によって解決可能であると考えられる。
[C]第2実施形態
第1実施形態では、楽器や楽譜に関する情報を全く用いずに、音楽信号からの分離手法として、スペクトログラム上で画像処理的な2次元フィルタを用いた高速な直接計算手法を示した。第2実施形態では、スペクトログラムの滑らかさの異方性に基づいたEMアルゴリズムによる反復解法を提案し、計算時間や性能の評価を行うまた、このアルゴリズムを応用して実時間で分離するシステムを提案する。
[C−1]滑らかさコストの導入
スペクトログラムにおける調波的な成分と打楽器的な成分の異方性を利用して、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論する。実装上(x,t)は離散的な座標として取得できるため、以下の議論では離散的な時間周波数領域(x,t)と定義して議論を行なう(I:周波数bin数、J:分析フレーム数)。
本実施形態では、スペクトログラムの滑らかさの異方性を、最小化すべきコストとして、隣り合う時間周波数binとのエネルギーの平方根の二乗誤差
のように表現する。平方根を取ることにより、エネルギーを対数的に捉える人間の聴覚特性により近い滑らかさコストの定式化を実現した。
[C−2]目的関数最小化によるパラメータ反復推定
[C−2−1]概要
観測スペクトログラムを調波成分・打楽器成分に分配する時間周波数マスクm(x,t),m(x,t)を導入する。時間周波数マスクm(x,t),m(x,t)は数2の条件を満たす。
分配されたエネルギー分布m(x,t)W(x,t)、m(x,t)W(x,t)と、P(x,t)、H(x,t)との近さを表す分布間距離の指標としてI-Divergenceを採用すると、式(1)(2)の滑らかさコストとの和による目的関数
を最小化する問題として定式化できる。
この目的関数から、時間周波数マスクを固定して式(3)を最小化するH(x,t)とP(x,t)の更新と、H(x,t), P(x,t)を固定して式(3)を最小化するようなm(x,t)とm(x,t)の更新を交互に行なうことにより、目的関数(3)の最小化における局所最適解が得られる。以下に、Iダイバージェンスを用いた反復解法について詳述する。
[C−2−2]エネルギー二乗誤差を滑らかさコストとした解法
Iダイバージェンスを用いた反復解法について詳述する。以下の説明において、反復解法における数式番号については、説明の都合上、独自に付与する。ここで解きたいのは、入力スペクトログラムW(x、t)(x:周波数、t:時間フレーム)から、打楽器成分P(x、t)と調波成分H(x、t)に分離する問題である。これを時間周波数マスクm(x、t)とm(x、t)を用いて、EM的なアルゴリズムにより反復的に推定する手法を述べる。W(x、t)とP(x、t)+H(x、t)の近さを表す分布間距離として、Iダインバージェンスを採用する。この距離指標は、二乗誤差よりも対数的にエネルギーを捉えられ、かつ対数の二乗誤差に比べてエネルギーの非常に小さい部分の誤差を無視できるため、人間の聴覚特性との親和性が高い。また、値は非負であり、W(x、t)=P(x、t)+H(x、t)のときに0となる。この分布間距離とHやPの滑らかさを表す項を足したものを目的関数Jとすると、この分離問題は、Jを最小化する問題として定式化できる。Jensonの不等式より、
という関係を満たす。ここで導入したマスク関数m(x、t)、m(x、t)は、
という制約があり、上述の不等式の符号は、
のときのみ成立する。
ΩとΩは、滑らかさに関する制約であり、
のような、隣の時間周波数成分との二乗誤差として定義できる。
不等式(1)より、マスク関数m(x、t)、m(x、t)を固定して、J2を最小化するように、P(x、t)、H(x、t)を推定し、次にP(x、t)とH(x、t)を固定して、式(3)からマスクを更新するような、この二つのステップのパラメータ更新を交互に繰り返すことで、目的関数Jが単調減少することが保証できる。また、J≧0は明らかなので、局所最適解に収束する。
実際のデータでは、x、tは離散的なので、離散系のモデルで更新式を導出する。JをP(x,t)=Pi,jとH(x,t)=Hi,jで偏微分すると、
となる。これを0とおいて、それぞれ、Pi,j、Hi,jについて解くと2次方程式の2解が得られるが、Pi,j、Hi,jが正であることから、
と求まる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.(3)でm(x,t)、m(x,t)を更新する。
3.(8)(12)で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
最終的な分離結果は、推定したマスクm(x,t)、m(x,t)を用いて、
のようにして得られる。さらに、聴覚的にはバイナリマスクの方が分離の聴こええが良好であることから、推定したマスクから、
のようにバイナリ化を行って分離する。この時、qが大きいほどバイナリ化の効果が大きく、q→∞でバイナリマスクをかけたことと一致する。
[C−2−3]聴覚特性を考慮した滑らかさ制約の導入
前節の滑らかさに関する制約は、エネルギーの小さい部分と大きい部分とを均等考えた滑らかさを定義している。しかし、人間の聴覚はエネルギーを対数的に捉えることが多いため、分離が良好に行われないおそれがある。そこで、制約を、
のように、エネルギーの平方根の二乗誤差として与える。これは音響エネルギーを、より対数的に捉えた上での滑らかさを考えたことになる。今、分析信号のエネルギーが定数倍になったとき、つまり、W(x、t)、P(x、t)、H(x、t)をA倍するとき、IダイバージェンスはA倍になるが、同時に上述のコスト関数もA倍になる。このため、音量の異なる曲でもパラメータσ,σを変える必要がない。さらに、聴覚的にも同じく大きさを対数的に考えた分布間距離指標であるIダイバージェンスとの親和性も高い。
このコストを用いた場合の更新式を考える。目的関数をP(x,t)=Pi,jで偏微分すると、
となる。これを0とおいて、Pi,jについて解くと、
となる。
同様に、Hi,jについても解け、
となる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.(3)でm(x,t)、m(x,t)を更新する。
3.(8)(12)で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
[C−2−4]二乗誤差項の補助関数法の利用
前述のIダイバージェンスを用いた解法では、各P(x、t)、H(x、t)の更新式のなかに、隣の時間周波数binの値が必要であった。そこで、滑らかさに関数二乗誤差項に補助関数法を適用し、この問題を解決する。
一般的に、
が成り立つ。等号は、
のときのみ成り立つ。これを利用すると、滑らか制約の項は、
と上限関数が作れる。
よって、目的関数は、
と上限関数が作れることになる。
P(x、t)、H(x、t)の更新式は、
となり、
同様に、Hについても解け、
となる。
P,i,j、mH,i,j、Ci,j、Di,jの更新については、
となる。
反復推定アルゴリズムとしては、
1.初期P(x,t)、H(x,t)を定める。
2.m(x,t)、m(x,t)、Ci,j、Di,jを更新する。
3.補助関数を固定した上で、P(x,t)、H(x,t)を逐次更新する。
4.収束したら終了、しなければ2に戻る。
[C−2−5]滑らかさ制約の分散の更新
前節で定義した滑らかさのコスト関数では、コストの強さを定めるσ,σを定数としていた。ここでは、このパラメータも変数として更新式を求める。
滑らかさに関するペナルティは、正規分布を用いたPとHに関する事前分布
の対数をとって、
とおける。これを用いた目的関数においてσとσの更新式を導出する。
同様に、
となる。
このモデルの場合、Pi,jやHi,jの更新式は前節と同じになる。
また、この分散を周波数ごとに異なる値を持たせることも考えられる。この場合、ペナルティ項は、
となる。これを用いた目的関数において、σP,iとσH,iの更新式を導出する。
同様に、
となる。この分散の場合は、Pi,jのみ更新式が変化する。
[C−2−6]スパース性の導入
前節の滑らかさの制約の他に、Pi,jやHi,jの大きさに関してなるべく0を多くするというスパース制約が導入可能である。これは聴覚的に分離の聴こえ方を良くする働きになると考えられる。前述では、後処理としてバイナリ化を行う方法に言及したが、この項の導入により反復推定中にバイナリ化が行われる。
スパース制約としては、ラプラス分布を仮定し、目的関数に
を足すことで実現する。
また、
でも可能であると考えられる。
前者の場合、更新式は、
となり、
同様に、Hi,jについても解け、
と求まる。これを用いて既述の反復更新を行えばよい。
提案した反復推定においては、時間周波数マスクmP(x, t),mH(x, t)は0から1の連続的な値をとる連続値マスクとして推定される。しかし、調波音と打楽器音の成分は時間周波数平面上でスパースに存在していること、またバイナリマスクの方が耳で聴いた分離の性能が良いことなどを考えると、推定された連続値マスクをバイナリマスクに近づけることが有効であると考えられる。推定されたmP(x,
t),mH(x, t)の大小関係から、バイナリマスクを
と設計できる。しかし、完全なバイナリマスクで設計すると、時間周波数方向におけるスペクトルの連続性が悪いため、耳で聴いたときの分離後の音声があまり良くないことも考えられる。そこで、バイナリの強さを表すパラメータγを用いて、
と設計できる。このγが大きいほどバイナリマスクに近付き、理想的にγ→∞のときに完全なバイナリマスクに、逆にγ=1の場合には、もとの連続値マスクと一致する。
[C−3]実時間分離システムの実現
上記解法は、入力信号全体の時間周波数領域における反復解法であるため、一般的には実時間分離は難しい。しかし、スペクトログラムの滑らかさを、隣接した時間周波数binのみを用いた微分的なコストとして表現することで、局所的な分析領域でもある程度妥当な解が得られると考えられる。そこで、局所的な分析時間区間を用い、分析区間の移動とパラメータの反復更新(1〜数回)を交互に行なうことで、実時間での調波音・打楽器音分離システムを実現した(図9A)。実時間での調波音・打楽器音分離のステップは以下の通りである。
1. 初期分析区間の入力スペクトログラムを計算する。
2. 新たに入力スペクトログラムを1フレーム計算し、分析区間に加える。
3. 分析領域のスペクトログラムを用いて、分離スペクトログラム、時間周波数マスクを1〜数回反復更新する。
4. 分析時間区間で最も古いフレームに対して、推定された時間周波数マスクによる分離を行ない、逆フーリエ変換によって分離信号を出力する。
5. 曲が終われば終了。そうでなければStep.2に戻る。
[C−4]評価実験
[C−4−1]実際の楽曲への適用
本節ではポピュラー音楽の実演奏信号を用いた定性的実験を述べる。入力信号として、RWC
研究用音楽データベースからRWC-MDB-P-2001 No.7より抜粋して使用した(16kHz サンプリング)。入力信号のスペクトログラム、提案アルゴリズムの分離結果を、図8に示す。
結果から、P(x,t)、H(x,t)が着目した性質を満たすように分離されたことが分かる。結果の音声を聴くと、実施例1の手法に比べ良く分離でき、特に調波音は非常にスムーズに聴こえた。しかし、第1実施形態と同様、ハイハットやバスドラムのduration部分がH(x,t)に分離されること、歌声のビブラートや子音がP(x,t)に分離されやすいことを確認した。
[C−4−2]パート別の分離に関する定量評価実験
次にパート別信号を用いた定量的な評価実験を行なった。RWC研究用音楽データベースよりRWC-MDBP-2001 No.18の前奏部8.1秒を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHzサンプリング)。そして第1実施形態、第2実施形態の手法によって得た分離信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出し、計算時間とともに比較した(表2、CPU3.6GHz のマシンで計算)。表2より、第2実施形態の手法は、第1実施形態の手法に比べて計算コストは増大するが、分離性能を大きく改善できることが分かる。しかし、両手法ともバスドラムは調波音側に分離された。
結果より、スペクトログラムの滑らかさの異方性に基づく解法が、第1実施形態による解法と同様の性質をもった分離を、実時間に比べて十分高速にかつより高い性能で実現したと言える。楽器の知識を用いずに簡便な特徴に基づいた解法のため、比較的音長の長いバスドラムやハイハットの打楽器音、ピアノの打鍵音、ピッチの変化しやすい歌声などは着目した特徴を満たしにくく、楽器分類の通念とは必ずしも対応しない可能性があるが、実時間演算で分離できるメリットは非常に大きいと考えられる。
[D]第3実施形態
第2実施形態では、W(x,t)からH(x,t)とP(x,t)を推定する問題を議論するものであったが、第3実施形態では、H(x,t)とP(x,t)を利用せずに、分配されたスペクトログラムの滑らかさコストを最小化する問題として議論する。
[D−1]調波音成分/打楽器音成分の事前モデル
h,iモノラル音響信号f(t)の短時間フーリエ変換(STFT)とすると、
h,i=φ(|Fh,i)となり、ここで、h、iは、周波数bin、時間binのインデックスである。Fh,iは、φ(A)=Aの時には通常のスペクトログラムを表し、φ(A)=Aγ(γ<1)のような凸関数φ(A)を設定することで、レンジ圧縮されたスペクトログラムが生成される。
スペクトログラムの調波成分は通常一定のピッチを備え、滑らかな時間エンベロプを備えた並行状の畝を形成する。これに対して、打音のエネルギーは短時間に集中しており、広域スペクトルエンベロープを備えた縦方向のリッジを形成する。したがって、音楽信号のスペクトログラムでは、典型的に、垂直構造と水平構造が現れる(図1)。また、水平状の複数の畝と垂直状の複数の畝との交差は極めて少ないと考えられる。したがって、ここでの目的は、以下のような適切な時間周波数バイナリマスmh,iを見つけることである。
ここで、Hh,i、Ph,iはそれぞれ、スペクトログラムの調波成分、非調和(打楽器)成分を表す。マスクmh,iを設計する一つの手法は、ある事前分布に基づく最大事後推定(MAP)推定を適用することである。水平方向、垂直方向にそれぞれ滑らかなHh,i、Ph,iのエンベロープに着目して、各成分について次の事前確率を仮定する。
ベクトルH、Pは、それぞれ、Hh,i、Ph,iの集合を表し、σ 、σ は、スペクトログラムの勾配の分散を表し、これらは、STFTのフレーム長やフレームシフトに依存するであろう。スペクトログラムの勾配の実際の分布はガウス分布とは異なるが、ガウス分布を仮定することで問題の定式化及び解法を容易としている。後述するように、φ(A)を用いてスペクトログラムのダイナミックレンジを圧縮することで、実際の状態と仮定とのギャップをある程度埋めることができる。
したがって、MAP推定の目的関数は、以下のように書ける。
ここで、ベクトルmはmh,iの集合であり、定数項は簡略化のため省略してある。
[D−2]補助関数を用いた更新ルールの導出
式(5)はmh,iの定積分形式であり、最適なmは、mを連続値の変数であるとすると、∂J/∂mh,i=0で求められる。ここで、∂J/∂mh,i=0をより簡単に解くために、補助関数手法を用いる。補助関数は例えば、NMF(Non-negative matrix factorization)やHTC(Harmonic-Temporal Clustering)において用いられており、当業者において公知の手法である。
補助関数を設計するにあたり、すべてのA,B,Xについて、
が成り立つことが、
が非負であり、X =(A + B)=2の場合に0となることから示される。
式(5)について不等式を適用することで、以下の補助関数
を導入し、この関数は、全てのm、補助パラメータU,Vについて、
を満たす。
したがって、以下の更新は、
Jを単調増加させる(k:更新回数)。
[D−3]更新規則
∂Q(m,U(k+1),V(k+1))/∂mh,i=0を
に変形することで、mh,iのみの単純な更新式を生成できる。
式(7)から、Q(m(k),U,V)を最大化するUh,i、Vh,iは、
によって与えられる。式(14)(15)を式(13)に代入し、mh,iに代えてHh,i、Ph,iを更新変数とすることで、分離アルゴリズムは次のようになる。
(1)入力信号f(t)のSTFTであるFh,iを計算する。
(2)以下の式を用いて、レベル圧縮したrange-compressed パワースペクトログラムを計算する。

(3)全てのh、i(k=0)について、以下の式のように初期値を与える。
(4)更新変数△(k)を以下のように計算し、
ここで、
である。
そして、以下の場合に従って、Hh,i、Ph,iを更新する。
(5)kをIncrementする。k<kmax(kmax:最大更新回数)の場合、ステップ4に戻り、それ以外の場合、ステップ6に進む。
(6)時間周波数マスクをバイナリ化する。これは以下と等価である。
(7)H(kmax) h,i,P(kmax) h,iを、以下の式にしたがって、時間領域の波形に変換する。
ここで、ISTFTは逆STFTである。
[D−4]評価実験
実施例3の手法を用いて幾つかの実験を行った。
入力信号として、RWC 研究用音楽データベースからRWC-MDBより抜粋して使用した(16kHz サンプリング)。実験パラメータを表3に示す。バランスパラメータα、圧縮パラメータγは経験的に決定した。
RWC 研究用音楽データベースからRWC-MDB-P-2001 No.7より抜粋した6.25[s]区間に対して得られた調波成分H(kmax) h,i,P(kmax) h,iのスペクトログラムを、図2に示す。γ=0.3とした。更新を繰り返すにしたがって、スペクトログラムのエネルギーが水平方向の畝と垂直方向の畝とに分離されていくのがわかる。6.25[s]長信号(繰り返し数:50)の計算時間は、laptop-PC with
1.20GHz Pentiumで2.3[s]であった。この時間は、実時間処理の3倍の速度である。
提案アルゴリズムの定量評価実験を行なった。RWC 研究用音楽データベースよりRWC-MDB-P-2001 No.18 and RWC-MDBJ-2001 No.16の前奏部を入力とし、MIDI形式データをパート別に分離し、各パートをWAV形式に変換してその信号の和を入力とした(16kHz サンプリング)。そして得られた分離結果の信号と各パート信号との相関を計算することで、P(x,t)とH(x,t)に含まれるエネルギー比率を算出した。エネルギー比率は、以下の式で算出した。
ここで、
であり、<>は相関計算を示す。
結果を表4,5に示す。
楽器や楽譜の情報なしで、音楽音響信号を調波成分と打楽器成分に分離する技術は、自動採譜や音楽検索など、音楽信号解析の様々なタスクを容易にする基礎技術として有用であり、またメロディー/リズムパートの強調や抑圧といったイコライジングなどの音楽信号の加工をも可能にする。これに関連して、リアルタイム調波音・打楽器音分離システムのGUI画面を図11に示す。本システムでは、リアルタイムに分離した調波音・打楽器音のパワースペクトルを表示し、両者の音量バランスを調整しながら再生するという加工機能を実現した。本発明の対象となる音信号は音楽音響信号に限定されるものではなく、例えば、機械や装置から発生する工業的な音において異常音を取得することにも応用できる。
ポピュラー音楽のスペクトログラムを例示する図である。スペクトル成分の大きさは濃淡で表示されている。 スペクトログラムを3次元表示した図である。時間方向(図において右側の軸)、周波数方向(図において左側の軸)に沿って、それぞれ滑らかなスペクトル成分があることが観察できる。尚、図1Aは図1とは独立した図であり、別個のスペクトル成分に係るものである。 時間周波数スペクトログラムの観測モデルを示す図である。 左図は、調波音のスペクトログラムであり、時間方向に滑らか・周波数方向に急峻なスペクトル成分からなる。右図は、打楽器音のスペクトログラムであり、時間方向に急峻・周波数方向に滑らかなスペクトル成分からなる。左図のスペクトル成分と右図のスペクトル成分は、時間周波数平面上でスパースに存在している。 入力スペクトルグラムと時間周波数マスクの乗算による、当該入力スペクトログラムの分離を示す図である。 第1実施形態を示すブロック図である。 第1実施形態で用いられるフィルタを示し、左図は、H(x,y)の特徴抽出フィルタ、右図は、P(x,y)の特徴抽出フィルタを示す。 図6に示すフィルタの断面形状を示す。横軸は、H(x,y)の特徴抽出フィルタでは、時間の2次元フーリエ変換成分、P(x,y)の特徴抽出フィルタでは、P用フィルタでは周波数の2次元フーリエ変換成分である。縦軸は実際にフィルタの大きさを示し、大きいほど、その成分を通過しやすい。真ん中が0なので、三角窓、ガウス窓共にローパスフィルタになっている。 第2実施形態を示すブロック図である。 リアルタイム調波音・打楽器音分離を説明する図である。 リアルタイム調波音・打楽器音分離における分離過程のある段階を示す図である。表示されたスペクトログラムにおいて、古い時間フレーム側において、周波数方向に滑らかなスペクトル成分が分離されていることが観察できる。 リアルタイム調波音・打楽器音分離における分離過程のある段階を示す図である。表示されたスペクトログラムにおいて、古い時間フレーム側において、時間方向に滑らかなスペクトル成分が分離されていることが観察できる。 第3実施形態の手法に基づいて繰り返し更新された調波成分(左)、打音成分(右)のスペクトログラムを示し、上から、k=0、k=3、K=10、K=50、2値化後の画像である。 アルタイム調波音・打楽器音分離システムのGUI画面を示す。Method1は第1実施形態の手法、Method2は第2実施形態の手法を示す。

Claims (26)

  1. 音信号を分離する方法において、
    前記音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えた複数のサブスペクトログラムの和であると仮定し、
    各サブスペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、時間周波数領域における前記音信号のスペクトル成分を、少なくとも1つのサブスペクトログラムに分配する少なくとも1つの分配係数を取得し、前記分配係数を用いて前記音信号のスペクトル成分から少なくとも1つのサブスペクトログラムを分離する、
    音信号の分離方法。
  2. 前記分配係数は、時間周波数マスクである、請求項1に記載の音信号の分離方法。
  3. 前記分配係数の取得は、
    前記音信号の各スペクトル成分について、各サブスペクトログラムの滑らかさの方向に基づいて、各サブスペクトログラムのスペクトル成分らしさのスコアを取得し、
    各スコアを指標として、分配係数を取得するステップと、
    からなる、請求項1,2いずれかに記載の音信号の分離方法。
  4. 前記スコアを取得するステップは、
    前記音信号のスペクトログラムを、時間周波数平面上で各スペクトル成分がエネルギーに対応する濃度値を備えた画像とみなし、前記音信号のスペクトログラムから各サブスペクトログラムに属するスペクトル成分の特徴を夫々抽出するフィルタを設定し、
    各スペクトル成分についての、各サブスペクトログラムに対応するフィルタ処理後のフィルタ出力をスコアとする、
    請求項3に記載の音信号の分離方法。
  5. 前記フィルタは、各サブスペクトログラムのスペクトル成分の滑らかな方向の濃度値を平滑化するローパスフィルタである、
    請求項4に記載の音信号の分離方法。
  6. 前記音信号のスペクトログラムを、2個のサブスペクトログラムの和であると仮定し、
    前記スコアを比較し、スコアが大きい方の分配係数を1、スコアが小さい方の分配係数を0とする、
    請求項3乃至5いずれかに記載の音信号の分離方法。
  7. 前記分配係数の取得は、
    分配係数をパラメータとして各サブスペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、
    前記目的関数を最適化するパラメータを推定する、
    請求項1,2いずれかに記載の音信号の分離方法。
  8. 前記分配された各スペクトル成分の滑らかさ指標は、
    着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される、
    請求項7に記載の音信号の分離方法。
  9. 前記滑らかさの指標の関数は、
    である、請求項7,8いずれかに記載の音信号の分離方法。
    ここで、K:サブスペクトログラムの数、
    i:周波数方向のインデックス
    j:時間方向のインデックス
    (x):滑らかさをはかるコスト関数
    m,n:時間周波数領域でのある点近傍での重み係数
    m:周波数方向の近傍を表すインデックス
    n:時間方向の近傍を表すインデックス
    g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
    (K) i,j:サブスペクトログラムのスペクトル成分
    である。
  10. 前記目的関数が、前記音信号のスペクトル成分とパラメータとしての分配係数によって分配された各スペクトル成分の和との距離指標の関数を含む、
    請求項7乃至9いずれかに記載の音信号の分離方法。
  11. 前記音信号のスペクトログラムを、K個のサブスペクトログラムの和であると仮定し、前記目的関数は、
    である、請求項7乃至10いずれかに記載の音信号の分離手法。
    ここで、K:サブスペクトログラムの数、
    i:周波数方向のインデックス
    j:時間方向のインデックス
    D(A,B):関数Aと関数Bの距離指標
    φ(x):距離指標における、スペクトログラムのレベル圧縮関数
    i,j:観測スペクトル成分
    (x):滑らかさをはかるコスト関数
    m,n:時間周波数領域でのある点近傍での重み係数
    m:周波数方向の近傍を表すインデックス
    n:時間方向の近傍を表すインデックス
    g(x):滑らかさ指標における、スペクトログラムのレベル圧縮関数
    (K) i,j:サブスペクトログラムのスペクトル成分
    である。
  12. 前記目的関数において、
    である、請求項11に記載の音信号の分離方法。
  13. 前記目的関数において、
    である、請求項11,12いずれかに記載の音信号の分離方法。
  14. 前記目的関数において、
    である、請求項11,12いずれかに記載の音信号の分離方法。
  15. 前記パラメータを推定するステップは、
    パラメータの更新と、当該パラメータによって分配された各サブスペクトログラムに対応するスペクトル成分の更新とを交互に繰り返すものである、
    請求項7乃至14いずれかに記載の分離方法。
  16. 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
    前記時間周波数領域で隣接するパラメータによって分配されたスペクトル成分間のエネルギーの差の関数は、
    である、請求項7乃至13いずれかに記載の音信号の分離方法。
  17. 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
    前記目的関数は、
    である、請求項7乃至13,16いずれかに記載の音信号の分離方法。
  18. 前記音信号のスペクトログラムを、2つのサブスペクトログラムの和であると仮定し、
    前記目的関数は、
    である、請求項7乃至9,14いずれかに記載の音信号の分離方法。
  19. 前記音信号を初期分析区間で時間周波数領域に変換してスペクトル成分を取得するステップと、
    前記音信号を1フレーム分だけ時間周波数領域に変換してスペクトル成分を取得し、当該スペクトル成分を前記分析区間に加えるステップと、
    前記分析区間のスペクトル成分を用いて、パラメータの推定を行うステップと、
    前記分析区間で最も古い1フレームのスペクトル成分を、推定されたパラメータを用いて分離し、
    分離されたスペクトル成分を時間周波数領域に変換する、
    請求項7乃至18いずれかに記載の音信号の分離方法。
  20. 推定された分配係数を2値化するステップを含む、
    請求項7乃至19いずれかに記載の音信号の分離方法。
  21. 2値化の強度が可変である、
    請求項20に記載の音信号の分離方法。
  22. 前記複数のサブスペクトログラムの少なくとも1つは、周波数方向に滑らかなサブスペクトログラム、あるいは、時間方向に滑らかなサブスペクトログラムである、請求項1乃至21いずれかに記載の音信号の分離方法。
  23. 前記複数のサブスペクトログラムは、周波数方向に滑らかな第1サブスペクトログラムと、時間方向に滑らかな第2サブスペクトログラムと、を含む、請求項22に記載の音信号の分離方法。
  24. 前記周波数方向に滑らかなサブスペクトログラムは、非調波的な成分であり、時間方向に滑らかなサブスペクトログラムは、調波的な成分である、請求項22、23いずれかに記載の分離方法。
  25. 前記音信号は音楽信号であり、前記非調波的な成分は、打楽器音である、請求項24に記載の音信号の分離方法。
  26. 前記分離方法は、分離された少なくとも1つのサブスペクトログラムのスペクトル成分を強調あるいは抑圧するステップを備えている、
    請求項1乃至25いずれかに記載の音信号の分離方法。
JP2008054826A 2008-03-05 2008-03-05 音信号の分離方法 Expired - Fee Related JP5294300B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008054826A JP5294300B2 (ja) 2008-03-05 2008-03-05 音信号の分離方法
US12/920,299 US20110058685A1 (en) 2008-03-05 2008-08-27 Method of separating sound signal
PCT/JP2008/065287 WO2009110118A1 (ja) 2008-03-05 2008-08-27 音信号の分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008054826A JP5294300B2 (ja) 2008-03-05 2008-03-05 音信号の分離方法

Publications (2)

Publication Number Publication Date
JP2009210888A true JP2009210888A (ja) 2009-09-17
JP5294300B2 JP5294300B2 (ja) 2013-09-18

Family

ID=41055692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008054826A Expired - Fee Related JP5294300B2 (ja) 2008-03-05 2008-03-05 音信号の分離方法

Country Status (3)

Country Link
US (1) US20110058685A1 (ja)
JP (1) JP5294300B2 (ja)
WO (1) WO2009110118A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011069900A (ja) * 2009-09-24 2011-04-07 Xing Inc 撥弦楽器演奏評価装置
JP2014059483A (ja) * 2012-09-18 2014-04-03 Fuji Xerox Co Ltd 分類装置及びプログラム
JP2014178534A (ja) * 2013-03-15 2014-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声分析装置とその方法とプログラム
JP2015031889A (ja) * 2013-08-05 2015-02-16 株式会社半導体理工学研究センター 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
KR20180121995A (ko) * 2016-03-18 2018-11-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법
JP2019035862A (ja) * 2017-08-17 2019-03-07 日本電信電話株式会社 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
JP2022553768A (ja) * 2020-06-10 2022-12-26 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2306457B1 (en) * 2009-08-24 2016-10-12 Oticon A/S Automatic sound recognition based on binary time frequency units
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
JP5057535B1 (ja) * 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
US9496839B2 (en) 2011-09-16 2016-11-15 Pioneer Dj Corporation Audio processing apparatus, reproduction apparatus, audio processing method and program
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US10262680B2 (en) * 2013-06-28 2019-04-16 Adobe Inc. Variable sound decomposition masks
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
US10713296B2 (en) * 2016-09-09 2020-07-14 Gracenote, Inc. Audio identification based on data structure
US10803119B2 (en) * 2017-01-02 2020-10-13 Gracenote, Inc. Automated cover song identification
US11574618B2 (en) 2020-04-16 2023-02-07 Gracenote, Inc. Methods and apparatus for harmonic source enhancement
US11250874B2 (en) * 2020-05-21 2022-02-15 Bank Of America Corporation Audio quality enhancement system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244691A (ja) * 2001-02-13 2002-08-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP2003131688A (ja) * 2001-10-24 2003-05-09 Takayoshi Yamamoto 信号源毎の信号を求める方法及び装置
JP2005258440A (ja) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc 別個の信号の成分を分離する方法およびシステム
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007304445A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US8126829B2 (en) * 2007-06-28 2012-02-28 Microsoft Corporation Source segmentation using Q-clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244691A (ja) * 2001-02-13 2002-08-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP2003131688A (ja) * 2001-10-24 2003-05-09 Takayoshi Yamamoto 信号源毎の信号を求める方法及び装置
JP2005258440A (ja) * 2004-03-12 2005-09-22 Mitsubishi Electric Research Laboratories Inc 別個の信号の成分を分離する方法およびシステム
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP2007193035A (ja) * 2006-01-18 2007-08-02 Sony Corp 音声信号分離装置及び方法
JP2007304445A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011069900A (ja) * 2009-09-24 2011-04-07 Xing Inc 撥弦楽器演奏評価装置
JP2014059483A (ja) * 2012-09-18 2014-04-03 Fuji Xerox Co Ltd 分類装置及びプログラム
JP2014178534A (ja) * 2013-03-15 2014-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声分析装置とその方法とプログラム
JP2015031889A (ja) * 2013-08-05 2015-02-16 株式会社半導体理工学研究センター 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
KR20180121995A (ko) * 2016-03-18 2018-11-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
JP2019515323A (ja) * 2016-03-18 2019-06-06 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
US10607630B2 (en) 2016-03-18 2020-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Encoding by reconstructing phase information using a structure tensor on audio spectrograms
US10770051B2 (en) 2016-03-18 2020-09-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
KR102250624B1 (ko) * 2016-03-18 2021-05-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
JP2019035862A (ja) * 2017-08-17 2019-03-07 日本電信電話株式会社 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP2022553768A (ja) * 2020-06-10 2022-12-26 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム
JP7251000B2 (ja) 2020-06-10 2023-04-03 上▲海▼商▲湯▼智能科技有限公司 顔画像の真偽を識別する方法、装置、デバイス及び媒体並びにコンピュータプログラム

Also Published As

Publication number Publication date
US20110058685A1 (en) 2011-03-10
WO2009110118A1 (ja) 2009-09-11
JP5294300B2 (ja) 2013-09-18

Similar Documents

Publication Publication Date Title
JP5294300B2 (ja) 音信号の分離方法
Ono et al. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Ono et al. A Real-time Equalizer of Harmonic and Percussive Components in Music Signals.
CN110111773B (zh) 基于卷积神经网络的音乐信号多乐器识别方法
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
CN101599271A (zh) 一种数字音乐情感的识别方法
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
EP2418643A1 (en) Computer-implemented method and system for analysing digital speech data
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
Cho et al. Sparse music representation with source-specific dictionaries and its application to signal separation
Cogliati et al. Piano music transcription with fast convolutional sparse coding
Permana et al. Implementation of constant-q transform (CQT) and mel spectrogram to converting bird’s sound
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
CN111667805A (zh) 一种伴奏音乐的提取方法、装置、设备和介质
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
Lai et al. RPCA-DRNN technique for monaural singing voice separation
WO2005062291A1 (ja) 信号解析方法
Macret et al. Automatic calibration of modified fm synthesis to harmonic sounds using genetic algorithms
Tachibana et al. Comparative evaluations of various harmonic/percussive sound separation algorithms based on anisotropic continuity of spectrogram
Vinitha George et al. A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms
Pawar et al. Automatic tonic (shruti) identification system for indian classical music
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
Caetano et al. Adaptive sinusoidal modeling of percussive musical instrument sounds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130606

R150 Certificate of patent or registration of utility model

Ref document number: 5294300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees