JP2010210758A - 音声を含む信号の処理方法及び装置 - Google Patents

音声を含む信号の処理方法及び装置 Download PDF

Info

Publication number
JP2010210758A
JP2010210758A JP2009054766A JP2009054766A JP2010210758A JP 2010210758 A JP2010210758 A JP 2010210758A JP 2009054766 A JP2009054766 A JP 2009054766A JP 2009054766 A JP2009054766 A JP 2009054766A JP 2010210758 A JP2010210758 A JP 2010210758A
Authority
JP
Japan
Prior art keywords
time
component
spectrogram
frequency
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009054766A
Other languages
English (en)
Inventor
Junki Ono
順貴 小野
Shigeki Sagayama
茂樹 嵯峨山
Hideyuki Tachibana
秀幸 橘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2009054766A priority Critical patent/JP2010210758A/ja
Publication of JP2010210758A publication Critical patent/JP2010210758A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】
音声と非音声(楽器音、騒音)の混合信号が与えられたときに、その信号から音声成分のみを抽出し、もしくは非音声成分のみを抽出する。
【解決手段】
音声成分を含む音信号の長いフレーム長の時間周波数分解能の時間周波数平面上で周波数方向に滑らかなスペクトル成分を検出して、当該スペクトル成分を音声成分を含むスペクトル成分として抽出する処理と、音声成分を含む音信号の短いフレーム長の時間周波数分解能の時間周波数平面上で時間方向に滑らかなスペクトル成分を検出して、当該スペクトル成分を音声成分を含むスペクトル成分として抽出する処理と、を用いることで、音声成分を含む原信号において、音声成分以外のスペクトル成分を抑圧して音声成分を抽出ないし強調する。
【選択図】図7

Description

本発明は、音声を含む音信号において、音声成分と非音声成分を分離する手法に関するものである。より具体的な技術分野としては、音声信号処理、音楽信号処理、メディア信号処理、ボーカルキャンセラ、音声区間抽出を例示することができる。
音響信号から、音声と非音声(楽器音、騒音など)を分離する技術は、音声認識や音楽信号処理の前処理として重要であり、さまざまな研究例がある。
音楽音響信号には通常、多種の音が混合されている。このような混合信号の中から、特にボーカル成分を抑圧する技術は、カラオケなど音楽市場での需要があり、すでに多数の実装が知られている。これらの多くは、現代のレコーディング・ミキシングにおいてボーカルを中央に定位させるという慣習に基づき、ステレオ信号の左の波形(ボーカル+左に寄っている楽器)から右の波形(ボーカル+右に寄っている楽器)を減算することによりボーカル成分を相殺する手法を用いている。しかしこの手法は、ライブ録音などのようにボーカルの定位が一定しない場合などにはあまり効果が見込めない。これに対し、より広範囲な信号に対して適用可能なボーカル抑圧/抽出の手法として、これまでに様々なものが提案されている(非特許文献1乃至4)。
音声信号には、実環境においては様々な雑音が加わる。このような雑音は、音声認識などの音声アプリケーションの性能を低下させる原因となる。このため、これまでに様々な音声強調手法が提案されている(非特許文献5乃至8)。従来、音声が倍音構造を持つことを利用して音声成分を抜き出す手法が研究されてきたが、適用範囲や性能には課題があった。
M. Lagrange, L.G. Martins, J. Murdoch, G. Tzanetakis, "Normalized cuts for predominant melodicsource separation," IEEE Trans. ASLP, Vol.16, No.2, pp.278-290, 2008. Y. Li, D. L.Wang, "Separation of Singing Voice From Music Accompaniment for MonauralRecordings," IEEE Trans. ASLP, Vol.15, No.4, pp.1475-1487, 2007. A. Ozerov, P.Philippe, R. Gribonval, F. Bimbot, "One Microphone Singing Voice SeparationUsing Source-Adapted Models," Proc. WASPAA, pp.90-93, 2005. C.H. You, H. W. Sun, "Multi-Band Adaptive Filtering Application On Vocal Mute,"Proc. ICSP, pp.1711-1714, 2002. M. Berouti, R.Schwartz, J. Makhoul, "Enhancement of speech corrupted by acoustic noise," inProc. ICASSP, pp.208-211, 1979. S. Boll,"Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEETrans. ASSP, Vol. 27, No.2, pp.113-120, 1979. Y.Ephraim, D. Malah, "Speech Enhancement Using a Minimum Mean-Square ErrorShort-Time Spectral Amplitude Estimator, "IEEE Trans. ASSP, Vol.32, No.6,pp.1109-1121, 1984. I.Cohen, B. Berdugo, "Speech enhancement for non-stationary noise environment,"Signal Processing, Vol. 81, pp.2403-2418, Elsevier, 2001. N.Ono, K. Miyamoto, H. Kameoka, S. Sagayama "A Real-time Equalizer of Harmonicand Percussive Components in Music Signals," Proc. of ISMIR, pp.139-144, 2008. N.Ono, K. Miyamoto, J. Le Roux, H. Kameoka, S. Sagayama, "Separation of a MonauralAudio Signal into Harmonic/Percussive Components by Complementary Diffusion onSpectrogram," Proc. of EUSIPCO, 2008. 宮本賢一,亀岡弘和,小野順貴,嵯峨山茂樹,"スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離," 日本音響学会春季研究発表会講演集, pp.903-904, 2008. 宮本賢一,立薗真理,ルルージョナトン,亀岡弘和,小野順貴,嵯峨山茂樹,"スペクトログラム2 次元フィルタによる調波音・打楽器音の分離," 日本音響学会秋季研究発表会講演集, pp.825-826, 2007.
本発明は、従来技術とは全く異なる新しい着想に立脚して、音声と非音声(楽器音、騒音)の混合信号が与えられたときに、その信号から音声成分のみを抽出し、もしくは非音声成分のみを抽出することを目的とする。
本発明が採用した技術手段は、
音声を含む音信号の第1のフレーム長の時間周波数分解能のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離する処理と、
音声を含む音信号の第2のフレーム長の時間周波数分解能のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離する処理と、
を用いることで、音声を含む原信号において、前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する、音信号の処理方法、である。
ここで、
第1のフレーム長は、音声のスペクトル成分が時間周波数平面上で周波数方向に滑らかとなる程度に長いフレーム長であり、
第2のフレーム長は、音声のスペクトル成分が時間周波数平面上で時間方向に滑らかとなる程度に短いフレーム長である。
1つの態様では、第1のフレーム長は、0.05秒より大きいフレーム長である。
1つの好ましい態様では、第1のフレーム長は、0.1秒以上〜1秒以下の範囲のフレーム長である。
1つの態様では、第2のフレーム長、すなわち短いフレーム長は、0.1秒未満(0を除く)のフレーム長である。
1つの好ましい態様では、第2のフレーム長は、0.005秒以上〜0.05秒以下の範囲のフレーム長である。さらに好ましくは、第2のフレーム長は、0.01秒以上〜0.05秒以下の範囲のフレーム長である。
フレーム長、すなわち時間周波数分解能は、窓関数の長さ(分析窓長)によって選択できることは当業者に周知である。また、窓関数としても、ハニング窓、ハミング窓、その他の窓関数が当業者に知られている。
本発明は、時間領域における音声の波形を時間周波数領域に変換した時に、時間周波数平面上(スペクトログラム)における音声成分の形状が、時間周波数分解能によって異なることに着目したものである。例えば、音声信号を短時間フーリエ変換する時に、フレーム長を変化させることで、時間周波数平面上(スペクトログラム)上での音声成分の形状が変化する。より具体的には、STFT(短時間フーリエ変換)のフレーム長(分析窓長)が長い場合には、スペクトログラムにおいて、音声成分は打楽器音成分に近い形状を示し、STFTのフレーム長(分析窓長)が短い場合には、スペクトログラムにおいて、音声成分は調波音成分に近い形状を示す。すなわち、音声成分は、時間周波数分解能の違いによって、時間周波数平面上での滑らかさの方向性が変化する。
これに対して、音声成分以外の成分(打楽器音、調波音、雑音)のスペクトル形状は、音声成分に比べて時間周波数分解能の違いの影響を受けにくい。例えば、打楽器音、調波音は、それぞれ、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で方向性を備えており、時間周波数分解能が変化しても、スペクトログラムの滑らかさの時間周波数平面上での方向に基づいて、これらのスペクトル成分を検出することができる。
本発明は、時間周波数解析において、複数種類の時間周波数分解能でスペクトログラムの形状の分析を行なうことにより、これらの分析結果を用いて、原信号から音声成分を抽出ないし強調する。
本発明によれば、与えられたスペクトログラムは、音声成分を含むスペクトログラムとして抽出されたスペクトログラムと、それ以外のスペクトログラムに分離される。典型的な態様では、音声を含む信号において、音声成分以外のスペクトル成分を抑圧して音声成分を抽出ないし強調する。分離されたそれぞれのスペクトログラムを用いてどのように音声成分あるいは非音声成分を抽出するかについては幾つかの組み合わせがあることが当業者に理解される。また、処理時には、必要に応じて、波形領域と周波数領域との間で適宜変換が行なわれ得ることも当業者に理解される。
典型的には、2種類の長短のフレーム長の時間周波数分解能を用いて信号を処理するが、3種類以上の異なる時間周波数分解能を用いてもよい。例えば、時間周波数分解能が異なる2つの第1のフレーム長と、1つの第2のフレーム長と、を用いて信号を処理するものでもよい。
また、同じ時間周波数分解能を2段階以上用いて信号を処理することを含んでいてもよい。
1つの態様では、前記2つの処理の一方の処理を原信号に対して適用して、音声成分を含むスペクトル成分を原信号から分離し、
前記2つの処理の他方の処理を前記分離された音声成分を含むスペクトル成分に適用して、当該音声成分を含むスペクトル成分から音声成分を抽出する。
段階処理によって、ボーカルを含む音楽信号からボーカル成分を抽出することができ、抽出したボーカル成分を用いてボーカルキャンセル成分を取得することができる。同様に、音声および雑音を含む音信号においても、音声成分の抽出ないし強調、あるいは非音声成分(雑音成分)の抽出を行なうことができる。
上記のような段階処理を行なう場合に、1つの態様では、
原信号を第1のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWlongを取得するステップと、
前記原信号のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分(原信号が音楽信号の場合には、音声成分+打楽器音的成分)をスペクトログラムWlongから分離するステップと、
前記分離したスペクトル成分を時間領域の波形に変換するステップと、
前記波形を第2のフレーム長の時間周波数分解能で時間周波数領域に変換してスペクトログラムWshortを取得するステップと、
前記スペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を音声成分としてスペクトログラムWshortから分離するステップと、
を備える。
上記のような段階処理を行なう場合に、1つの態様では、
原信号を第2のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWshortを取得するステップと、
前記原信号のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分(原信号が音楽信号の場合には、音声成分+調波音的成分)をスペクトログラムWshortから分離するステップと、
前記分離したスペクトル成分を時間領域の波形に変換するステップと、
前記波形を第1のフレーム長の時間周波数分解能で時間周波数領域に変換してスペクトログラムWlongを取得するステップと、
前記スペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を音声成分としてスペクトログラムWlongから分離するステップと、
を備える。
1つの態様では、前記2つの処理を、原信号に対して並列で適用し、それぞれの処理により取得された前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する。
上記のような並列処理を行なう場合に、1つの態様では、
前記2つの処理の一方の処理は、
原信号を第1のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWlongを取得するステップと、
前記原信号のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を第1のスペクトル成分(原信号が音楽信号の場合には、音声成分+打楽器音的成分)としてスペクトログラムWlongにおける他のスペクトル成分から分離するステップと、
からなり、
前記2つの処理の他方の処理は、
原信号を第2のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWshortを取得するステップと、
前記原信号のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を第2のスペクトル成分(原信号が音楽信号の場合には、音声成分+調波音的成分)としてスペクトログラムWshortにおける他のスペクトル成分から分離するステップと、
からなり、
前記原信号のスペクトル成分、前記第1のスペクトル成分、前記第2のスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する。
より具体的な態様について、入力される原信号がボーカルを含む音楽信号である場合について図11を参照しつつ説明する。W:原信号のスペクトル成分、H:調波音的成分、P:打楽器音的成分、V:ボーカル成分、とすると、図11において、H+V:第2スペクトル成分、P、H:その他のスペクトル成分、V+P:第1のスペクトル成分、であり、V(ボーカル成分)を、(H+V)−H;(P+V)−P;W−H−P;(H+V)+(P+V)−H−P;などの処理で抽出することができる。
また、H+Pなどの処理でボーカル以外を抽出したり、H、Pを、それぞれ調波楽器、打楽器に対応づけてもよい。
ボーカルを含む音楽信号について説明したが、音声および雑音を含む音信号においても、同様に、音声成分の抽出、あるいは非音声成分(雑音成分)の抽出を行なうことができる。
音楽信号を処理する場合を例にとると、打楽器+音声+ギターというような、普通のポップスの場合では、1つの典型的な態様では、前記第1のフレーム長は、およそ0.1〜1秒程度のフレーム長、前記第2のフレーム長は、およそ0.01〜0.05秒程度のフレーム長である。例えば打楽器をまったく含まないような音楽であれば、そもそも短いフレーム長での分析は必要なくなるので、第2のフレーム長については、どれだけ短いフレーム長でもよく、1つの態様では、第2のフレーム長、すなわち短いフレーム長は、0.1秒未満(0を除く)のフレーム長であり、好ましくは0.005程度〜0.05秒程度である。第1のフレーム長についても、ピアノなどをまったく含まないような状況であれば、1曲まるごとを2〜3フレームで表すような極端な場合を考えることができ、0.05秒程度よりは大きく、曲の長さよりは短い、好ましくは0.1秒〜1秒程度である。
1つの態様では、前記原信号は、ボーカルを含む音楽信号である。
1つの態様では、前記原信号から、抽出された音声成分を除くことで、ボーカルキャンセル音を取得する。
1つの態様では、前記抽出された音声成分から音声成分を抑圧する時間周波数マスクを設計し、
前記時間周波数マスクを前記原信号に適用することで、音楽信号からボーカルを除去する。
1つの態様では、前記時間周波数マスクは、抽出されたボーカル成分を閾値処理することで2値化してなるバイナリマスクである。
1つの態様では、前記時間周波数マスクは、抽出された音声成分Vの基本周波数及びその倍音を抑圧するマスクである。さらに、音声区間と非音声区間を検出することで、音声区間のみマスクを適用してもよい。
1つの態様では、各処理で分離された打楽器音成分、調波音成分を保存し、これらの成分を足し合わせることでボーカルキャンセル音を取得する。
1つの態様では、前記原信号は、音声成分と雑音成分を含む。本発明により、原信号において音声成分を強調することができる。
また、本発明は、音声を含む音信号を、0.05秒より大きいフレーム長の時間周波数分解能で時間周波数領域に変換し、得られたスペクトログラムにおいて時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分として抽出する、音信号の処理方法、として捉えることもできる。
この方法は、他の異なるフレーム長の時間周波数分解能による処理と併用して上記の方法を構成することができる。あるいは、単独で用いることも可能である。例えば、分離前の音に関する事前知識があって「入力音楽信号において打楽器がないので短いフレーム長での分離が不要」と事前に判断できれば、短いフレーム長の時間周波数領域に変換する必要はなく、その場合は長いフレーム長の分析の結果出てきた時間周波数平面上で周波数方向に滑らかなスペクトル成分を取り出すだけで、ボーカル成分が得られる。
本発明のハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力装置、表示装置を含む出力装置、CPU、記憶装置(ROM、RAM等)、これらを接続するバス等、を備えている。)から構成することができる。したがって、本発明は、音信号を処理させるために、コンピュータを、上記方法を実行させる、コンピュータプログラムとしても提供される。
本発明は、音信号を分離する装置としても提供され、前記装置は、
音声を含む音信号の第1のフレーム長の時間周波数分解能のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離する手段と、
音声を含む音信号の第2のフレーム長の時間周波数分解能のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離する手段と、
音声を含む原信号において、前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する手段と、を備えている。
ここで、
第1のフレーム長は、音声のスペクトル成分が時間周波数平面上で周波数方向に滑らかとなる程度に長いフレーム長であり、
第2のフレーム長は、音声のスペクトル成分が時間周波数平面上で時間方向に滑らかとなる程度に短いフレーム長である。
典型的には、前記装置は、さらに、音信号を時間周波数領域に変換する手段と、分離されたスペクトル成分を時間領域に変換する手段と、を備えている。
さらに、本発明に係る技術思想を、
音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で周波数方向に方向性を備えた第1スペクトログラムと、時間方向に方向性を備えた第2スペクトログラムの和であると仮定し、
時間周波数平面上でのスペクトル成分の滑らかさの方向性にしたがって音信号を第1スペクトログラムと第2スペクトログラムに分離する方法において、
前記音信号は音声を含んでおり、
前記音声を含む音信号のスペクトログラムの時間周波数分解能を異ならしめることで、
異なる時間周波数分解能に応じて、音声のスペクトル成分の、前記第1スペクトログラム、前記第2スペクトログラムへの分配割合を変化させる、
音信号の処理方法、
として規定することもできる。
本発明は、スペクトログラムにおけるスペクトル成分の滑らかな方向の違いに着目した点に特徴を有するものであるが、分離信号を得る処理ステップにおいて、スペクトログラムを実際に画面に表示することを要しない。本発明においては、分析対象となる音信号が時間周波数領域に変換され、スペクトル成分が得られていればよい。時間周波数領域への変換手段は、典型的な例では、短時間フーリエ変換(STFT)であるが、ウェーブレット変換、定Qフィルタバンク分析、その他のフィルタバンク分析でもよい。また、1つの態様では、本発明は、観測信号である音信号を時間周波数領域に変換するステップ、および/あるいは、分離された各スペクトログラムに対応するスペクトル成分を時間領域に変換するステップを含み得る。実際のスペクトログラムの計算では、短時間周波数分析によって離散的な時間と周波数ごとに成分が得られる。したがって、1つの態様では、スペクトログラムにおける各スペクトル成分(時間周波数成分)は、時間bin(フレーム)と周波数binにより特定される時間周波数binである。本発明において、スペクトログラムは、STFTの各binの絶対値の2乗したものという狭義に限定して解釈されるものではなく、処理時に、その対数や冪乗などを用いても良いことが当業者に理解される。例えば、1つの態様では、|STFT|2を求めて、さらに0.6乗などをしてから用いる。
本発明によれば、音声、楽器音、騒音の混合信号から、音声成分とそれ以外の成分とに分離することができる。
本発明を音楽信号へ適用することによってボーカルと楽器音の分離が可能であり、カラオケの自動作成技術などに直接利用することが可能である。
本発明を音声と騒音の混合信号へ適用することで、大幅な雑音抑圧が可能であり、これは音声認識の前処理として有用である。
本発明による音声成分の抽出は、音声区画検出へ応用することもできる。
また、音声、騒音の混合信号から抽出した非音声成分は、原信号の背景雑音の特性の推定への応用が考えられ、フィルタ設計の前処理としても有効である。
時間周波数スペクトログラムの観測モデルを示す図である。 左図は、調波音のスペクトログラムであり、時間方向に滑らか・周波数方向に急峻なスペクトル成分からなる。右図は、打楽器音のスペクトログラムであり、時間方向に急峻・周波数方向に滑らかなスペクトル成分からなる。左図のスペクトル成分と右図のスペクトル成分は、時間周波数平面上でスパースに存在している。 上図は、時間周波数領域の音声の模式図であり、音声の性質(持続的、ピッチにゆらぎがある)を示している。下図は、STFTのフレーム長によって、前者と後者の影響の大きさが変わることを示しており、フレーム長が長い場合は、P成分になり、フレーム長が短い場合は、H成分になる。すなわち、ボーカルは時間周波数分解能次第でH成分にもP成分にもなり得ることを示している。 STFTの時間周波数分解能を変えてHPSSを行なった結果を示す図である。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.008秒)でのスペクトログラムを示す。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.016秒)でのスペクトログラムを示す。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.032)でのスペクトログラムを示す。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.064秒)でのスペクトログラムを示す。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.128秒)でのスペクトログラムを示す。 RWC no.25 "tell me"の一部の時間周波数分解能(STFTのフレーム長:0.256秒)でのスペクトログラムを示す。 図5Aにおいて、各ピクセルが正方形になるように調整したスペクトログラムである。 図5Bにおいて、各ピクセルが正方形になるように調整したスペクトログラムである。 図5Cにおいて、各ピクセルが正方形になるように調整したスペクトログラムである。 図5Dにおいて、各ピクセルが正方形になるように調整したスペクトログラムである。 図5Eにおいて、各ピクセルが正方形になるように調整したスペクトログラムである。 図5Fにおいて、各ピクセルがなるべく正方形になるように調整したスペクトログラムである。 2段階HPSSによるボーカル抽出を示す図である。フレーム長を変えて2段階でHPSSすることで、ボーカルに近い成分Vを抽出する。 H成分、P成分、V成分から「ボーカルキャンセル音」を取得する手順を示す図である。1つのやり方では、抽出されたP成分+H成分から「ボーカルキャンセル音」を取得する。もう1つのやり方では、原信号−抽出されたV成分から「ボーカルキャンセル音」を取得する。 音楽信号におけるボーカル除去の手順を示す図である。 本発明における2段階処理の概念図である。 本発明における並列化処理の概念図である。 長いフレーム長で短時間フーリエ変換された時間周波数領域における調波音成分、ボーカル成分、打楽器音成分のパワースペクトルを示す図であり、ボーカル成分は調波音成分よりも広い帯域を占めることがわかる。 左図は原信号のスペクトログラム、中央図は抽出されたボーカル成分のスペクトログラム、右図はボーカル成分が抑圧されたスペクトログラム、を示す。 ピッチ抽出の手順を示す図である。 抽出したボーカルと、ボーカル区間の検出を説明する図である。 入力信号のSNRと、多重HPSS法適用によるSNRの改善値(音声はすべて女声)を示す図である。
[A]調波打楽器音分離(Harmonic/Percussive Sound Separation:HPSS)手法の原理
HPSSは本発明の背景技術であると同時に、本発明の実施形態を実施する上でも用いられ得る技術である。
HPSSの原理を要約すると以下のとおりである。
原信号Wを調波Hと打楽器Pに分離する。
個別の楽器に関する事前知識は不要である。
目的関数を定義して、最適化問題を考える。目的関数の設計の指針は、以下のとおりである。
Hは時間方向に滑らかであってほしい。
Pは周波数方向に滑らかであってほしい。
HとPを足せば、元のWに戻ってほしい。
以下に、HPSSについて詳細に説明する。
[A−1]HPSSの詳細
調波音と打楽器音の混在した音楽信号を分析対象とし、入力信号の短時間周波数解析によって得られるスペクトログラムをW(x,t)とする(x:周波数、t:時刻)。ここで行なうことは、このW(x,t)を打楽器的な音程を持たない非調波成分P(x,t)と音程を持つ楽器のような調波成分H(x,t)の2つのスペクトログラムに分解することである。このとき満たすべき要件は、任意の時間周波数(x,t)において、
が成り立つことである。
調波成分・打楽器成分の時間周波数領域におけるスペクトル成分の異方性に着目する。より具体的には、図1、図2に示すようにポピュラー音楽の音響信号のスペクトログラムが、時間周波数領域において、一般的に周波数方向に形成される山脈ないし畝のようなスペクトル成分と、時間方向に形成される山脈ないし畝のようなスペクトル成分とからなることが多い点に着目する。
前者は、打楽器のように時間方向には急峻に変化するが周波数方向にはブロード(滑らか)である成分P(x,t)に、後者は逆に周波数方向には急峻な形状だが時間方向には滑らかな成分H(x,t)に対応するとみなすことができ、また2成分は時間周波数平面上においてスパースに存在しているとみなせる。
入力信号のスペクトログラムを、時間周波数マスクによって2つのスペクトログラムに分解する。すなわち、前述したP(x,t)とH(x,t)のスパース性から、任意の時間周波数において0〜1の値をとる時間周波数マスクm(x,t),m(x,t)を設計することで、
とW(x,t)を分解できると考えられる。
時間周波数マスクは、分解された2つのスペクトログラムの夫々を形成するスペクトル成分の滑らかな方向を検出するように設計される。打楽器成分のスペクトル成分が周波数方向に滑らかであるという特徴、及び、調波成分のスペクトル成分が時間方向に滑らかであるという特徴を用いて、入力信号のスペクトログラムをそれぞれのスペクトル成分に分離する時間周波数マスクが設計される。0〜1の値を取る時間周波数マスクは、一つの態様では、0か1の値を取るバイナリマスクである。
このように、HPSSは、音楽音響信号の時間周波数スペクトログラム上において、調波成分は時間方向に滑らか、打楽器成分は周波数方向に滑らかであるという時間周波数スペクトログラム上の性質の違いを用いることにより、これらを分離する。具体的には、与えられた時間周波数スペクトログラムを、時間方向に滑らかな成分と周波数方向に滑らかな成分に分解する相補的な時間周波数マスクを設計し、音楽音響信号の時間周波数スペクトログラムに対して時間周波数マスキングを行って、調波成分・打楽器成分を分離する。マスクの設計方法として、1)2次元フィルタを用いる手法、2)Divergenceと滑らかさコストをEMアルゴリズム的手法で最小化する手法、3)レベル圧縮したスペクトログラムに対し滑らかさコストをEMアルゴリズム的手法で最小化する手法、の実施形態が、非特許文献9乃至12に開示されており、詳細についてはこれらの文献を参照することができる。本発明において、スペクトログラムにおいて所望の方向性を備えたスペクトル成分を抽出する手段には、これらの手段を用いることができるが、本発明におけるスペクトル成分の抽出手段はこれらのものに限定されるものではない。
[A−2]目的関数と拘束条件の組合せ
1つの態様では、HPSSでは、各スペクトログラムに分配された各スペクトル成分の滑らかさ指標の関数を含む目的関数を設定し、前記目的関数を最適化するパラメータを推定することで時間周波数マスクを設計する。分配された各スペクトル成分の滑らかさ指標は、着目したスペクトル成分と、当該着目スペクトル成分の時間周波数平面上での近傍にある分配されたスペクトル成分とのエネルギーの差に基づいて決定される。着目スペクトル成分の近傍のスペクトル成分は、典型的には、時間周波数平面上で隣接するスペクトル成分であるが、近傍の範囲はこれに限定されるものではない。時間周波数マスクの設定は、滑らかさのコストをスペクトログラムの微分(差分)の関数で設計し、これを最小化する最適化問題として捉えることができる。
目的関数と拘束条件の組合せの具体的な態様例について以下に述べる。これらは、HPSSで用いられ得ると共に、そのまま本発明にも適用できるものである。
[A−2−1]ラグランジュ未定乗数法版
以下の式において、|At,k|は、時刻t、周波数kにおける、信号Aの振幅スペクトルとする。
目的関数
を拘束条件
のもとで最適化する。この条件から導出される更新式は、
である。
ただしcは、当業者によって適宜設定され、例えば、c=0.6やc=0.5(この場合拘束条件が厳密に成り立つ)が与えられる。
(1)式で、第1項(Hに関する項)と第2項(Pに関する項)に、適当な重み付け定数wh,wpを掛けることで、どちらかの音質の優先順位を上げることもできる。
後述する実験例では、ラグランジュ未定乗数法で、数4に規定する拘束条件を、c=0.6として用いた。
[A−2−2]ラグランジュ未定乗数法版2
上記目的関数において、拘束条件を
としてもよい。この条件で更新式を導出すると、
となる。同様に、cは当業者によって適宜設定され、c=1のとき拘束条件が厳密に成り立つ。
[A−2−3]拘束条件を含む目的関数
目的関数
を最適化する。目的関数の第1項、第2項はこれまでと同様で、第3項に、これまで拘束条件として課していたものが、コストとして入っている。
このときの更新式は、
となる。同様に、cは当業者によって適宜設定され、c=0.6、c=1などが与えられる。
[A−2−4]I-divergence版
上記の目的関数では、H+PとWの隔たりを測るのにユークリッド距離(l2−norm)を用いたが、距離を拡張した概念として、カルバック・ライブラー・ダイバージェンス、I-divergence、板倉斎藤距離などを用いることができる。
これらの距離において、
ユークリッド距離は、
で計算される。
KLダイバージェンスは、
で計算される。
I-divergenceは、
で計算される。
板倉斎藤距離は、
で計算される。
I-divergenceを使って、次のように目的関数を設計する。前節で、拘束条件を目的関数に含めるために目的関数に付け加えた項が(Hc+Pc)とWcのユークリッド距離を測っていたのに対して、ここでは(H2+P2)とW2の隔たりをI-divergenceを使って測る。
これを最適化するための更新式は、
である。
ただし、a、b、cはそれぞれ
とする。
目的関数におけるパラメータを推定するアルゴリズムとしては、一つの態様ではEMアルゴリズムであるが、最急降下法やニュートン法等の他の最適化アルゴリズムを用いてもよい。また、EMアルゴリズム等を解くにあたって、補助変数を導入してもよい。補助変数法については、例えば、下記の文献を参照することができる。
H. Kameoka, N. Ono, and S. Sagayama, “Auxiliary
functional approach to parameter estimation of constrained sinusoidal model for
monaural speech separation,” Proc. ICASSP, pp. 29.32, 2008.
[B]本発明の概要
[B−1]本発明のアプローチ
音声には、楽器音や騒音とは異なる特徴として、ピアノなどの楽器音に比べ、ピッチが変動しやすい、打楽器や突発的な雑音に比べ、比較的長時間安定している、という性質がある。
これらの性質により、短時間フーリエ変換などの時間周波数表現における、分析フレーム長さ(時間周波数分解能)を変化させることにより、音声成分のスペクトログラム上での現れ方を、以下のように様々に変化させることができる。
分析フレーム長を長く(時間分解能を粗に、周波数分解能を密に)したとき、音声信号のピッチの変動は、周波数変調とみなされる。したがって、音声はピッチが変動しない音よりも広い帯域幅が占有する。また、音声信号のある適当な周波数に着目したとき、音声信号はその周波数成分に関しては振幅変調しているものとみなすことができるため、長時間一定に鳴り続ける音よりも広い帯域幅を占有する。
このように、音声信号は、粗い時間分解能で分析すると広い帯域幅を占める。すなわち、パワーの強い成分が周波数方向に連続的に連なって表現される。
一方、分析フレーム長を短く(時間分解能を密に、周波数分解能を粗に)したときには、分析フレーム内におけるピッチの変動はごくわずかであり、ほとんど無視することができる。
すなわち、音声信号は長時間安定した信号と見なされ、パワーの強い成分が周波数方向には連ならず、時間方向に連なって表現される。
このように、短時間フーリエ変換のフレーム長を変化させることで、音声信号は時間周波数平面において異なる性質を示す(図3参照)。
すなわち、音声が持つ、「持続的」、「ピッチにゆらぎがある」という性質に着目すると、STFTのフレーム長によって、前者と後者の影響の大きさが変化し、フレーム長が長い場合には、音声成分は打楽器音成分になり、フレーム長が短い場合には、音声成分は調波音成分になる。このように、ボーカル(音声成分)は時間周波数分解能に依存して、次第で調波音成分Hにも打楽器音成分Pにもなり得る(図4参照)。
他方、ピアノなどの楽器音はフレーム長をどのように変えてもパワーが強い成分は時間方向に連なり、打楽器音の場合は同様に周波数方向に連なる。
したがって、上記両方の分析を段階的に行なうことで、音声成分と楽器成分を分離することができる。フレーム長を変えて2段階でHPSSすることで、ボーカルに近い成分Vを抽出することができる。
また、この2段階の処理において、音声成分と非音声成分を分離する際に、ホワイトノイズのような雑音成分は各分離されたスペクトル成分へほぼ均等に配分される。このため、音声成分に残る雑音は元の入力信号に含まれる雑音よりも少なくなり、SN比を向上させることができる。また、その他の雑音に関しては、何かをコツコツ叩いたような音は打楽器に近い傾向(周波数方向に滑らか)を示し、サイレン音などは、ピアノなどと近い傾向(時間方向に滑らか)を示すので、音声成分とこれらの雑音の分離を、音声成分と楽器成分の分離に類似して扱うことができる。
この処理において抽出された音声成分から特にパワーの強い成分のみを抽出することにより、さらに音声が強調された信号を得ることが可能である。
図5A、図5B、図5C、図5D、図5E、図5Fは、RWC no.25 "tell me"(サンプリング周波数:16000Hz)の一部を異なるフレーム長(0.008秒、0.016秒、0.032秒、0.064秒、0.128秒、0.256秒)で短時間フーリエ変換してなるスペクトログラムを示す。1.8秒付近から1秒間を抜粋したものであり、1800±300Hzの範囲を表示している。全ての画像で、同じ枠の中にスペクトログラムを納めたものを示し、画像のほぼ中央にボーカル成分(音声成分)が白色で表れており、同じ音声信号を異なる分解能で見ることで、スペクトログラムの「分解能」が変わる様子を示している。
図6A、図6B、図6C、図6D、図6E、図6Fは、それぞれ、STFTのフレーム長0.008秒、0.016秒、0.032秒、0.064秒、0.128秒、0.256秒の時間分解能に相当するスペクトログラムであり、それぞれ、図5A、図5B、図5C、図5D、図5E、図5Fに表示されたデータと同一のデータを、全ての画像において、各ピクセル(時間周波数bin)ができるだけ同じ大きさの正方形になるように調整して表示したものを示す。
ボーカル成分(音声成分)は、フレーム長が0.008秒、0.016秒のときは明らかに「横長成分」だが、フレーム長を長くするにつれ、「横長」よりも「縦長」の傾向が強くなるのが観察できる。
1つの態様では、図6B(256/16000=0.016秒)、図6C(512/16000=0.032秒)のフレーム長は、本発明に係る第2のフレーム長(短いフレーム長)として効果的である。
図6D(1024/16000=0.064秒)の場合は、ボーカル成分はHにも残るものの、Pにも少なからず配分される傾向がある。
図6E(2048/16000=0.128秒)の場合には、ボーカルはほとんどPに分離され、Hにはあまり残らなくなる傾向がある。図6E、図6Fに示すように、フレーム長が0.1秒を超えてくると、音声成分が時間方向に滑らかなスペクトル成分としては検出されなくなる。
図6A、図6B、図6C、図6D、図6E、図6Fは、各時間周波数binを正方形にして表示することで、プログラム内部でスペクトログラムが実際にはどのようにデータ構造として保持されているのかを示している。HPSSのアルゴリズムは、この図を見て時間周波数平面上でスペクトル成分の方向性が「縦長」なのか「横長」なのかを判定する。
[B−2]本発明の手順
本発明の1つの実施形態では、以下のような手順で、音声と非音声成分を自動的に分離する。
図9に示すように、
1 2段階でHPSSを実行して、Vを抽出する。具体的には、
(i)フレーム長を長くとり、P+Vを抽出する。
(ii)フレーム長を短くとり、Vを抽出する。
2 VをHPFなどで後処理する。
具体的な態様例では、ハイパスフィルタによって、明らかにボーカルではないような低音(〜80Hz程度まで)を除去する。これは、ベースやバスドラムがボーカルとして抽出されやすいことに対処したものである。
3 時間周波数マスクを設計して、原信号からVを除去する。
以下、詳細に説明する。
1.音声・非音声の混合信号を入力とする。入力信号に対し、0.5[s]程度の時間分解能で短時間フーリエ変換をすることにより、入力信号のスペクトログラムを得る。
2.スペクトログラム上において、パワーの強い成分が周波数方向に連続的に連なっている部分を検出し、それを抽出する。
3.抽出した成分を、逆短時間フーリエ変換により波形情報に戻す。
4.得られた信号に対し、0.01[s]程度の時間分解能で短時間フーリエ変換をすることにより、得られた信号のスペクトログラムを得る。そのスペクトログラム上で、パワーの強い成分が時間方向に連続的に連なっている部分を検出し、それを抽出する。
5.抽出した成分を、逆短時間フーリエ変換により波形情報に戻す。これにより、音声が強調された信号を得る。
6.得られた音声強調信号に対し、0.016[s]程度(取り得るフレーム長は、1つの態様では、0.005〜0.5秒であり、典型的には、0.01〜0.1秒である。)の時間分解能で短時間フーリエ変換をすることで、音声強調信号のスペクトログラムを得る。このスペクトログラムのうち、パワーがある閾値を超える成分は0、閾値を超えない成分は1とすることで、バイナリマスクを設計する。
7.設計したバイナリマスクと、入力信号のスペクトログラムとの各成分の積を計算し、それを逆短時間フーリエ変換することによって、音声が抑圧された信号を得る。
上述の実施態様では、直列に2段階でHPSS分析を行なう手法について説明した。しかしながら、多段階で処理を行なうことにより、入力と出力の間に時間遅れが生じることになる(図10参照)。
HPSS分析を並列化することで、時間遅れを回避することができる。演算量は2段階でHPSSとほぼ同じであるが、時間遅れは1段階HPSSと同じ程度に縮められる。図11に示すように、2種類の分析ブロックで同時に分析し、それぞれの分析の出力を用いて、音声成分Vを合成する。例えば、V=(H+V)+(V+P)−H−Pで音声成分Vを求める。
音声成分Vを求めるあるいは非音声成分を求める場合には、適宜波形を経由して処理が行なわれることが当業者に理解される。H+V、Pを求めるときの時間周波数領域をTFshort、H、V+Pを求めるときの時間周波数領域をTFlongとすると、それぞれの処理で分離されたスペクトログラムH+V、P、TFlong領域→波形、TFshort領域→波形、に変換してから処理を行なう。あるいは、TFlong領域→波形→TFshort領域として、両方とも同じ時間周波数領域TFshortに変換してから処理を行なってもよい。同様に、TFlong領域に統一してもよく、あるいは、TFshort領域、TFlong領域以外の第3の分解能TFanother領域に統一してもよい。
[C]音楽音響信号に対するボーカル抑圧
本実施例は、スペクトログラムの時間周波数分解能を変えたときの、スペクトログラムにおけるボーカル成分の形状の変化という新しい着眼点によって両者を分離する多重HPSS法を提案し、それによりボーカル成分を抑圧する。
スペクトログラム上で、ピアノやギターなどの音は時間方向に滑らかに現れ、打楽器音は周波数方向に滑らかに現れる。この性質は、スペクトログラムの時間周波数分解能によらず概ね同様の傾向を示す。一方、ボーカル成分は時間周波数分解能によって現れ方が異なる。短いフレーム長でのSTFTでは、ピアノの音などと同様、時間方向に滑らかなのに対し、長いフレーム長でのSTFTでは打楽器音と同様、周波数方向に滑らかに現れる。
この性質を利用すると、時間周波数分解能を変えた2段階での分離により、ボーカル成分を抽出することができる。
抽出したボーカル成分を利用して設計した時間周波数マスクによりボーカル成分を抑圧した信号が得られる。
以下、詳細に説明する。
[C−1]調波打楽器音分離(HPSS)
調波打楽器音分離(Harmonic/Percussive Sound Separation:HPSS)(非特許文献9乃至12)は、音楽音響信号から調波楽器音と打楽器音を分離する手法である。
調波楽器と打楽器の混合信号を考え、それを短時間フーリエ変換(STFT)したとする。そのとき、調波楽器は比較的長時間にわたり一定の周波数が鳴り続けるため、時間方向の筋となって現れる。一方、打楽器は瞬間的に多くの帯域を占めるため、周波数方向の筋となって現れる。HPSSではこのことを利用して、個々の楽器音の調波構造に関する事前知識を用いることなく、調波楽器的な成分(H)と打楽器的な成分(P)に関する以下の3つの指針のもとで目的関数を設計し、その最適化によりH、Pを求める手法である。
Hの時間方向の変化が可能な限り小
Pの周波数方向の変化が可能な限り小
HとPの和は原信号に可能な限り一致
これまでの研究では、楽器毎の特徴として、ピアノ、ギター、バスドラム、ボーカルがHに分離される傾向にあり、スネアドラムやハイハットがPに分離される傾向にあることがわかっている。
[C−2]時間周波数分解能とボーカル成分の形状
このような楽器毎の傾向は、通常の時間周波数分解能(音楽の場合は、0.01〜0.1秒程度のフレーム長)で計算したスペクトログラム上でのHPSSにおけるものであるが、本発明者等が研究したところ、STFTのフレーム長を通常のフレーム長よりも長く与えた場合、ボーカル成分がH成分ではなくP成分に分離されるようになるという性質があることがわかった。これは、ボーカル成分のピッチやパワーなどのゆらぎ(短時間変動)に由来すると考えられる。
フレーム長が10[ms]程度である場合、フレーム内でのボーカル成分のゆらぎは無視できる程度であり、短時間スペクトル上でエネルギーは特定の周波数に局在する。これに対し、フレーム長が100[ms]から1[s]程度であると、フレーム内にボーカル成分のゆらぎが収まる。すなわち振幅や周波数の変調が短時間スペクトル上に現れ、周波数と振幅が一定の無変調信号に比べ広い帯域にエネルギーが分散される。言い換えれば、ボーカル成分は、ピアノやギターなどの調波楽器音よりも広い帯域を占有する(図12)。
HPSSは、打楽器ほど広帯域を占有していない音でも、周波数方向にある程度のクラスタをなしている音はP成分に分離する。したがって、ボーカル成分のこのような性質を検出するのに適し、実際にボーカル成分の多くはP成分に分離されやすくなる傾向にある。
[C−3]多重HPSS法によるボーカル成分抽出
以上のようなボーカル成分の性質を利用すれば、HPSSを2段階で用いることにより、ボーカルに相当する成分を強調することができる。すなわち、長いフレーム長llongでのスペクトログラム上でのHPSSによりH(調波楽器)とP(打楽器+ボーカル)を分離し、次にPを一度波形に戻してから再び短いフレーム長lshortでSTFTし、そのスペクトログラム上でHPSSしてH(ボーカル)とP(打楽器)を分離することで、調波楽器、ボーカル、打楽器の混合信号からボーカル成分を抽出することができる。
この手法を、多重HPSS法と呼ぶこととする。
[C−4]時間周波数マスクによるボーカル抑圧
多重HPSS法で抽出したボーカル成分V={Vt,ω}1≦t≦T,1≦ω≦Ωでは、ボーカル成分が他の成分よりも強調されている。したがって、ボーカル成分Vのうち特にパワーが大きい成分を用いてバイナリマスクを設計すると、それを原信号に掛けることでボーカルを抑圧することができる。
スペクトログラムVの各成分のうち、ある閾値を超えたものを0、超えないものを1とするような直接的な2値化によりマスクを得るのも一つの方法であるが、ここではボーカル成分の持つ倍音構造と、時刻上でボーカル成分が存在する区間と休止区間(歌っている区間と歌っていない区間)があることを利用して、より適切なマスクを設計することを考える(図14参照)。
音声には調波性(倍音構造)があることを着目し、基本周波数とその倍音を抑圧するような時間周波数マスクを作ることを考える。基本周波数の抽出手段としては、様々な手法が知られており、これらを利用できることが当業者に理解される。
図13上図には、各時刻のエネルギーを示し、下図には、各時刻のエネルギーの対数の分布を示す。下図において、左の山は非音声区間と考えられ、右の山は音声区間と考えられる。判別分析によって谷間を検出することで音声区画を検出する。
手順は以下のとおりである。
抽出された音声成分Vに対し各時刻でピッチ(基本周波数)を抽出する。
櫛形フィルタを用いて基本周波数と、その倍音を通過させた信号を得る。
エネルギーが小さい時刻ではマスクしない。
倍音構造を持つマスクを設計するため、まず各時刻でVのピッチを抽出する。これにより、F0および倍音のみを抑圧するような各時刻のマスクmtが設計できる。また、それらを並べることにより、時間周波数マスクM=[m1,m2, ・・・ ,mT]を作ることができる。
1つの態様では、倍音構造を持つマスクは、
である。
これは、ガウス関数を使って連続的な値をとるように設計したマスクを意味する。
ここで得たマスクを単純に原信号に掛ければ、ボーカル成分を抑圧した信号を得ることができるが、時間周波数Mではボーカルが休止している場合でも何らかの成分が遮断されるため、ここで得られた信号では前奏などでも一部の音が抑圧されてしまう。これを防ぐため、抽出したボーカル成分にマスクを反転して掛けたスペクトログラムVt,ω´=(1−Mt,ω)Vt,ωでは、ボーカル以外の成分がほとんど抑圧されていると仮定し、エネルギーがある閾値θに満たない時刻{t|Σω(Vt,ω´)2<θ}=:Θではボーカルが歌っていないものとみなした。これにより、マスクを
と再設計し、これを原信号に掛けることで、より適切なボーカル抑圧信号が得られると考えられる。
以上を、本実施態様で提案するボーカル抑圧手法とする.
[C−5]実音楽信号による実験
[C−5−1]実験条件
実験には、RWC研究用音楽データベース(Goto et al., Proc. of ISMIR,
pp.287-288, 2002.)よりポピュラー音楽、ジャズ、著作権切れ音楽を16kHzのモノラル音楽音響信号に変換して用いた。多重HPSS法のSTFTのフレーム長はllong=512[ms]、lshort=16[ms]、フレームシフトはフレーム長の半分、窓関数は分析窓、合成窓ともにハニング窓の平方根とした。ピッチ抽出にはラグ窓を用いた方法(嵯峨山, 古井, 信学総大, Vol.5,
1235, 1978.10)を使用し、抽出したピッチをftとしたとき、マスクの各成分を
とした。なお、62Hzは、時間分解能が16[ms]のときのスペクトログラムの周波数分解能である。マスクの再設計に用いる閾値は、V´のエネルギーの冪乗変換{Σω(Vt,ω´)2}0.1に対する判別分析により決定した。
[C−5−2]実験結果
RWC研究用音楽データベースのポピュラー音楽より、“tell me”(RWC-MDB-P-2001 No. 25)に対して提案法を適用した結果を図13に示す。原信号のスペクトログラム(左図)の2[s], 4.5 [s], 7[s] 付近に顕著に見られるボーカル成分が、V´(中央図)に抽出され、右図では抑圧されている様子が観察できる。また聴感上も、ボーカル成分が抑圧されたことがこの楽曲を含む複数の楽曲において確認された。
[C−6]小括
本実施例では、スペクトログラムの時間周波数分解能を変えた2段階の分析によりボーカル成分を抽出し、それにより設計した時間周波数マスクでボーカル成分を抑圧する手法を提案、および聴感的な検証をした。
[D]混合音中の音声強調
本実施例は、スペクトログラムの時間周波数分解能を変えたときの音声と雑音の形状の変化に着眼し、調波打楽器音分離(Harmonic/Percussive Sound Separation: HPSS 非特許文献9乃至12)を多段階で用いる多重HPSS法により検出することにより音声を強調する、新しい手法を提案する。
スペクトログラムの時間周波数分解能によって音声と雑音のスペクトログラムの時間方向・周波数方向への滑らかさが異なることを利用して、音声と雑音の混合音から、音声を強調する手法を提案する。
正弦波、インパルス、ホワイトノイズなどは、スペクトログラムの時間周波数分解能が10[ms]程度でも100[ms]程度でもスペクトログラムの時間・周波数方向への滑らかさはおおむね同様の傾向を示す。
一方、音声にはピッチやパワーやスペクトルのゆらぎがあることが多いため、10ms程度の短いフレーム長のスペクトログラム上では時間方向に滑らかであるのに対し、100ms程度の長いフレーム長のスペクトログラム上では周波数方向への滑らかさが強い。
このような傾向の違いを利用することで、時間周波数分解能を変えた2段階での分析により、音声を強調した信号を得た。
[D−1]多重HPSS法による音声強調
HPSSは、入力信号をスペクトログラム上で時間方向への連結が強い成分(H)と、周波数方向への連結が強い成分(P)とに分離する手法である。以下の3つの指針
HとPの和は原信号に可能な限り一致
Hの時間方向の変化が可能な限り小
Pの周波数方向の変化が可能な限り小
に基づいて目的関数を設計し、その最適化によりH、Pを求める問題として定式化されている。なお、HPSSではスペクトログラムの計算方法に関しては規定していないため、短時間フーリエ変換(STFT)の窓関数やフレーム長、フレームシフトは任意である。
ある入力信号をHPSSにより分離したときのHとPのエネルギーの比率を、H/P比(H/P Ratio)と呼ぶ。H/P比は、ピアノやギターの音に関しては大きく、打楽器の音に関しては小さいことがこれまでの研究により分かっている。
[D−2]様々な音響信号のH/P比の傾向
音声信号には実環境においてはさまざまな種類の雑音が加わるが、特に理想化した雑音として、純音(正弦波)、インパルス、ホワイトノイズの3種類に関するH/P比について定性的に述べる。
正弦波はどのようなフレーム長でSTFTを行った場合も、ある特定の周波数に高いピークが現れ、それが長時間保持される。すなわち,純音は時間方向への連結が強く、HPSSによりほとんどの成分がHに分離される(H/P>>1)。
インパルスは、どのようなフレーム長でSTFTを行った場合も、ある瞬間のみに全帯域を占め、その直前と直後の時刻には全くエネルギーがない。すなわち、インパルスは周波数方向への連結が強く、HPSSによりほとんどの成分がPに分離される(H/P<<1)。
ホワイトノイズは、どのようなフレーム長でSTFTを行った場合も、すべての時刻・周波数でほぼ等しいパワーを持つ。このため、時間方向と周波数方向の連結の強さは同等であり、HPSSを適用すると,H、Pのどちらかへ極端にエネルギーが集中することはない。すなわち、H/Pは中程度の値を示す。
このように、正弦波、インパルス、ホワイトノイズは、いずれもフレーム長に関わらずH/P比は同様の傾向を示す。
[D−3]音声のH/P比
音声には多くの場合に振幅やピッチにゆらぎ(短時間変動)が含まれるため、STFTのフレーム長に依存して異なったH/P比の傾向が見られると考えられる。
音声を短いフレーム長(10[ms]程度)でSTFTすると、フレーム内での音声は定常に近く、かつ周波数分解能が低いため、特定の周波数binにエネルギーが集中するため、周波数方向への連結性は弱く、HPSSによりHへやや多く分離される(H/P>1)。
一方、長いフレーム長(100[ms]程度)でのSTFTの場合、フレーム内に音声の非定常な現象が含まれ、同時に周波数分解能が高くなるため、音声のピッチやパワーの変動に由来するスペクトルの広がりが複数の周波数binに亘って観測される。これにより、音声スペクトルでは周波数方向への連結が強く見られ、HPSSによりPへやや多く分離される(H/P<1)。このように、音声はSTFTのフレーム長によってH/P比の傾向が異なる(表1)。
[D−4]多重HPSS法による混合音中の音声強調
雑音と音声のH/P比のこのような傾向の違いを利用すると、HPSSを2段階で用いることによって、音声を強調した信号が得られる。
すなわち、第1段階として、長いフレーム長のスペクトログラム上におけるHPSSによりP成分を抽出し、第2段階では、ここで得られたP成分を一度波形に戻し、再び短いフレーム長のスペクトログラム上でのHPSSによってH成分を抽出する。
以上の2段階の処理において、音声はいずれの段階も通過しやすいのに対し、正弦波、インパルス、ホワイトノイズに類する雑音はいずれかの段階において抑圧される。これにより、音声強調信号が得られると考えられる。
この分離手法を多重HPSS法と呼ぶこととし、この手法を本稿で提案する音声強調手法とする。
[D−5]音声強調の性能評価
[D−5−1]実験目的と条件
提案手法の性能を評価するため、音声信号に雑音を加算した信号に対し多重HPSS法を適用し、SNRの改善値を調べた。
音声信号には、SMILE2004データベース[DVD版建築と環境のサウンドライブラリ,日本建築学会編,技報堂出版(SMILE2004)]より、男女それぞれの日本語の朗読音声を使用した。雑音には、同データベースから、ホワイトノイズ、ピンクノイズ、1kHzの帯域雑音、足音(ボイド280素面、ハイヒール強め歩行)、ドライヤー、地下鉄車内騒音、弦楽四重奏、赤ん坊の泣き声、合唱、池袋駅地下コンコースの10種類と、計算機上で生成した1kHzの正弦波、1[s]間隔のインパルス、の計12種類を用いた。
音声と雑音は、10[s]を切り出して使い、-10dBから10dBまで、2.5dB刻みのSNRで混合した。
多重HPSS法に用いたフレーム長は、第1段階HPSSでは256[ms]とし、第2段階HPSSでは16[ms]とした。それぞれのHPSSにおいて、STFTに用いた窓関数は、分析窓、合成窓ともにハニング窓の平方根とした。
[D−5−2]音声強調の実験結果
女性の朗読音声に各雑音を加算して提案手法を適用したときのSNRの改善値を図14に示す。なお、男性の朗読音声に関しては、ここで示した値より1dB程度ずつ低い値を示した。
今回用いた12種類の雑音の中では、正弦波とインパルスに対して高い改善値を示した。次いで足音、ホワイトノイズ、ピンクノイズ、地下鉄車内騒音、ドライヤーの順に高い改善値を示した。ほとんどの雑音に関してある程度の効果が認められたが、合唱や赤ん坊の泣き声のように雑音自体も音声である場合は、SNRの向上は認められなかった。
[D−6]小括
本実施例では、音声の調波構造や入力信号のSNRなどの事前知識を用いることなく、スペクトログラムの時間周波数分解能を変えた2段階の分析のみによって音声を強調する手法を提案した。また、雑音と音声の混合信号を用いた評価実験により、複数の種類の雑音に対する効果を確認した。
本発明は、音声、楽器音、騒音の混合信号から、音声成分とそれ以外とを分離する技術である。本発明を音楽信号へ適用することによってボーカルと楽器音の分離が可能であり、カラオケの自動作成技術などに直接利用することが可能であると考えられる。また、本発明を音声と騒音の混合信号へ適用することで、大幅な雑音抑圧が可能であり、これは音声認識の前処理として有用である。
本発明による音声成分の抽出は、音声区画検出へ応用することもできる。
また、音声、騒音の混合信号から抽出した非音声成分は、原信号の背景雑音の特性の推定への応用が考えられ、フィルタ設計の前処理としても有効である。

Claims (21)

  1. 音声を含む音信号の第1のフレーム長の時間周波数分解能のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離する処理と、
    音声を含む音信号の第2のフレーム長の時間周波数分解能のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離する処理と、
    を用いることで、音声を含む原信号において、前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する、音信号の処理方法。
    ここで、
    第1のフレーム長は、音声のスペクトル成分が時間周波数平面上で周波数方向に滑らかとなる程度に長いフレーム長であり、
    第2のフレーム長は、音声のスペクトル成分が時間周波数平面上で時間方向に滑らかとなる程度に短いフレーム長である。
  2. 前記2つの処理の一方の処理を原信号に対して適用して、音声成分を含むスペクトル成分を原信号から分離し、
    前記2つの処理の他方の処理を前記分離された音声成分を含むスペクトル成分に適用して、当該音声成分を含むスペクトル成分から音声成分を抽出する、
    請求項1に記載の音信号の処理方法。
  3. 原信号を第1のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWlongを取得するステップと、
    前記原信号のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分をスペクトログラムWlongから分離するステップと、
    前記分離したスペクトル成分を時間領域の波形に変換するステップと、
    前記波形を第2のフレーム長の時間周波数分解能で時間周波数領域に変換してスペクトログラムWshortを取得するステップと、
    前記スペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を音声成分としてスペクトログラムWshortから分離するステップと、
    を備えた請求項2に記載の音信号の処理方法。
  4. 原信号を第2のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWshortを取得するステップと、
    前記原信号のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分をスペクトログラムWshortから分離するステップと、
    前記分離したスペクトル成分を時間領域の波形に変換するステップと、
    前記波形を第1のフレーム長の時間周波数分解能で時間周波数領域に変換してスペクトログラムWlongを取得するステップと、
    前記スペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を音声成分としてスペクトログラムWlongから分離するステップと、
    を備えた請求項2に記載の音信号の処理方法。
  5. 前記2つの処理を、原信号に対して並列で適用し、それぞれの処理により取得された前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する、
    請求項1に記載の音信号の処理方法。
  6. 前記2つの処理の一方の処理は、
    原信号を第1のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWlongを取得するステップと、
    前記原信号のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を第1のスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離するステップと、
    からなり、
    前記2つの処理の他方の処理は、
    原信号を第2のフレーム長の時間周波数分解能で時間周波数領域に変換して原信号のスペクトログラムWshortを取得するステップと、
    前記原信号のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を第2のスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離するステップと、
    からなり、
    前記原信号のスペクトル成分、前記第1のスペクトル成分、前記第2のスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する、
    請求項5に記載の音信号の処理方法。
  7. 前記第1のフレーム長は、0.05秒より大きいフレーム長である、請求項1乃至6いずれかに記載の音信号の処理方法。
  8. 前記第1のフレーム長は、0.1秒以上〜1秒以下の範囲のフレーム長である、請求項1乃至7いずれかに記載の音信号の処理方法。
  9. 前記第2のフレーム長は、0.1秒未満(0を除く)のフレーム長である、請求項1乃至8いずれかに記載の音信号の処理方法。
  10. 前記第2のフレーム長は、0.005秒以上〜0.05秒以下の範囲のフレーム長である、請求項1乃至9いずれかに記載の音信号の処理方法。
  11. 音声を含む音信号を、0.05秒より大きいフレーム長の時間周波数分解能で時間周波数領域に変換して得られたスペクトログラムにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分として前記スペクトログラムから分離する、音信号の処理方法。
  12. 前記原信号は、ボーカルを含む音楽信号である、請求項1乃至11いずれかに記載の音信号の処理方法。
  13. 前記原信号から、抽出された音声成分を除くことで、ボーカルキャンセル音を取得する、請求項12に記載の音信号の処理方法。
  14. 前記抽出された音声成分から音声成分を抑圧する時間周波数マスクを設計し、
    前記時間周波数マスクを前記原信号に適用することで、音楽信号からボーカルを除去する、
    請求項13に記載の音信号の処理方法。
  15. 各処理で分離された打楽器音成分、調波音成分を保存し、これらの成分を足し合わせることでボーカルキャンセル音を取得する、請求項13に記載の音信号の処理方法。
  16. 前記原信号は、音声成分と雑音成分を含む、請求項1乃至11いずれかに記載の音信号の処理方法。
  17. 前記原信号の雑音成分から音声成分を分離することで、音声成分を強調する、請求項16に記載の音信号の処理方法。
  18. 前記原信号から抽出された音声成分を除くことで、雑音成分を取得する、請求項16に記載の音信号の処理方法。
  19. 音声を含む音信号の第1のフレーム長の時間周波数分解能のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離する手段と、
    音声を含む音信号の第2のフレーム長の時間周波数分解能のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離する手段と、
    音声を含む原信号において、前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する手段と、を備えた音信号の処理装置。
    ここで、
    第1のフレーム長は、音声のスペクトル成分が時間周波数平面上で周波数方向に滑らかとなる程度に長いフレーム長であり、
    第2のフレーム長は、音声のスペクトル成分が時間周波数平面上で時間方向に滑らかとなる程度に短いフレーム長である。
  20. 音声を含む原信号から音声成分あるいは非音声成分を抽出するためにコンピュータを、
    音声を含む音信号の第1のフレーム長の時間周波数分解能のスペクトログラムWlongにおいて、時間周波数平面上で周波数方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWlongにおける他のスペクトル成分から分離する手段、
    音声を含む音信号の第2のフレーム長の時間周波数分解能のスペクトログラムWshortにおいて、時間周波数平面上で時間方向に滑らかなスペクトル成分を、音声成分を含むスペクトル成分としてスペクトログラムWshortにおける他のスペクトル成分から分離する手段、
    音声を含む原信号において、前記分離された音声成分を含むスペクトル成分、前記他のスペクトル成分、の少なくとも一部を用いて、音声成分あるいは非音声成分を抽出する手段
    として実行させるためのコンピュータプログラム。
    ここで、
    第1のフレーム長は、音声のスペクトル成分が時間周波数平面上で周波数方向に滑らかとなる程度に長いフレーム長であり、
    第2のフレーム長は、音声のスペクトル成分が時間周波数平面上で時間方向に滑らかとなる程度に短いフレーム長である。
  21. 音信号のスペクトログラムを、時間周波数領域でのスペクトル成分の滑らかさに時間周波数平面上で周波数方向に方向性を備えた第1スペクトログラムと、時間方向に方向性を備えた第2スペクトログラムの和であると仮定し、
    時間周波数平面上でのスペクトル成分の滑らかさの方向性にしたがって音信号を第1スペクトログラムと第2スペクトログラムに分離する方法において、
    前記音信号は音声を含んでおり、
    前記音声を含む音信号のスペクトログラムの時間周波数分解能を異ならしめることで、
    異なる時間周波数分解能に応じて、音声のスペクトル成分の、前記第1スペクトログラム、前記第2スペクトログラムへの分配割合を変化させる、
    音信号の処理方法。
JP2009054766A 2009-03-09 2009-03-09 音声を含む信号の処理方法及び装置 Pending JP2010210758A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009054766A JP2010210758A (ja) 2009-03-09 2009-03-09 音声を含む信号の処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009054766A JP2010210758A (ja) 2009-03-09 2009-03-09 音声を含む信号の処理方法及び装置

Publications (1)

Publication Number Publication Date
JP2010210758A true JP2010210758A (ja) 2010-09-24

Family

ID=42971015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009054766A Pending JP2010210758A (ja) 2009-03-09 2009-03-09 音声を含む信号の処理方法及び装置

Country Status (1)

Country Link
JP (1) JP2010210758A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135437A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
EP3020212A4 (en) * 2013-07-12 2017-03-22 Cochlear Limited Pre-processing of a channelized music signal
CN109247030A (zh) * 2016-03-18 2019-01-18 弗劳恩霍夫应用研究促进协会 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
WO2019054012A1 (ja) * 2017-09-12 2019-03-21 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、及びプログラム
KR102136700B1 (ko) * 2020-03-31 2020-07-23 한국건설기술연구원 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
CN111505650A (zh) * 2020-04-28 2020-08-07 西北工业大学 一种基于hpss的水下目标被动检测方法
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN113556660A (zh) * 2021-08-01 2021-10-26 武汉左点科技有限公司 一种基于虚拟环绕立体声技术的助听方法及装置
WO2023132653A1 (en) * 2022-01-05 2023-07-13 Samsung Electronics Co., Ltd. Method and device for managing audio based on spectrogram

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010091288; 宮本 賢一 Ken-ichi Miyamoto: 'スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離' 日本音響学会 2008年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20080309, p.903-904, 社団法人日本音響学会 *
JPN6012068653; 宮本 賢一 Ken-ichi Miyamoto: 'スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離' 日本音響学会 2008年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20080309, p.903-904, 社団法人日本音響学会 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3020212A4 (en) * 2013-07-12 2017-03-22 Cochlear Limited Pre-processing of a channelized music signal
US9848266B2 (en) 2013-07-12 2017-12-19 Cochlear Limited Pre-processing of a channelized music signal
JP2015135437A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
US10770051B2 (en) 2016-03-18 2020-09-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
CN109247030A (zh) * 2016-03-18 2019-01-18 弗劳恩霍夫应用研究促进协会 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
JP2019515323A (ja) * 2016-03-18 2019-06-06 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
CN109247030B (zh) * 2016-03-18 2023-03-10 弗劳恩霍夫应用研究促进协会 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
WO2019054012A1 (ja) * 2017-09-12 2019-03-21 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、及びプログラム
US11134300B2 (en) 2017-09-12 2021-09-28 Sony Semiconductor Solutions Corporation Information processing device
KR102136700B1 (ko) * 2020-03-31 2020-07-23 한국건설기술연구원 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
CN111505650A (zh) * 2020-04-28 2020-08-07 西北工业大学 一种基于hpss的水下目标被动检测方法
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN112309425B (zh) * 2020-10-14 2024-08-30 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN113556660A (zh) * 2021-08-01 2021-10-26 武汉左点科技有限公司 一种基于虚拟环绕立体声技术的助听方法及装置
CN113556660B (zh) * 2021-08-01 2022-07-19 武汉左点科技有限公司 一种基于虚拟环绕立体声技术的助听方法及装置
WO2023132653A1 (en) * 2022-01-05 2023-07-13 Samsung Electronics Co., Ltd. Method and device for managing audio based on spectrogram

Similar Documents

Publication Publication Date Title
Huang et al. Singing-voice separation from monaural recordings using robust principal component analysis
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
US8805697B2 (en) Decomposition of music signals using basis functions with time-evolution information
Durrieu et al. A musically motivated mid-level representation for pitch estimation and musical audio source separation
Goto A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals
JP5294300B2 (ja) 音信号の分離方法
JP4818335B2 (ja) 信号帯域拡張装置
Tachibana et al. Singing voice enhancement in monaural music signals based on two-stage harmonic/percussive sound separation on multiple resolution spectrograms
CN107533848B (zh) 用于话音恢复的系统和方法
Cho et al. Sparse music representation with source-specific dictionaries and its application to signal separation
Argenti et al. Automatic transcription of polyphonic music based on the constant-Q bispectral analysis
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
CN109247030A (zh) 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
Benetos et al. Auditory spectrum-based pitched instrument onset detection
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
Tachibana et al. Comparative evaluations of various harmonic/percussive sound separation algorithms based on anisotropic continuity of spectrogram
Reddy et al. Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method
Pardo et al. Applying source separation to music
Bhalke et al. Hybridization of fractional fourier transform and acoustic features for musical instrument recognition
de Obaldía et al. Improving Monophonic Pitch Detection Using the ACF and Simple Heuristics
Le Roux et al. Single channel speech and background segregation through harmonic-temporal clustering
Ghisingh et al. Study of Indian classical music by singing voice analysis and music source separation
Gainza et al. Harmonic sound source separation using FIR comb filters
Chunghsin Multiple fundamental frequency estimation of polyphonic recordings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130710