JP2008281776A - 旋律抽出装置及び旋律抽出方法 - Google Patents
旋律抽出装置及び旋律抽出方法 Download PDFInfo
- Publication number
- JP2008281776A JP2008281776A JP2007125906A JP2007125906A JP2008281776A JP 2008281776 A JP2008281776 A JP 2008281776A JP 2007125906 A JP2007125906 A JP 2007125906A JP 2007125906 A JP2007125906 A JP 2007125906A JP 2008281776 A JP2008281776 A JP 2008281776A
- Authority
- JP
- Japan
- Prior art keywords
- peak
- input
- axis direction
- frequency
- melody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】入力された音響信号に対して音高を決定する際に、時間軸方向に連続するピーク系列を用いて音高分析を行うことができる旋律抽出装置を得る。
【解決手段】スペクトル算出部1において算出された音響信号の対数周波数スペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク算出部22と、周波数軸方向ピーク算出部22から入力されたピーク位置前後に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定部31と、連続推定部31から入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定部32と、遷移形状推定部32から入力された遷移形状とスペクトル算出部1から入力された対数周波数スペクトルとから基本音高の推定を行う基本音高推定部4を備える。
【選択図】図1
【解決手段】スペクトル算出部1において算出された音響信号の対数周波数スペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク算出部22と、周波数軸方向ピーク算出部22から入力されたピーク位置前後に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定部31と、連続推定部31から入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定部32と、遷移形状推定部32から入力された遷移形状とスペクトル算出部1から入力された対数周波数スペクトルとから基本音高の推定を行う基本音高推定部4を備える。
【選択図】図1
Description
この発明は、入力されるオーディオデータに基づいて旋律を抽出する旋律抽出装置及び旋律抽出方法に関するものである。
従来の旋律抽出装置では、オーディオデータに対して周波数分析を行い、周波数分析で得られた複数の音程データに対して和音及び音高の決定を行う。その後、和音及び音高が決定されたデータを時間軸上で隣接し、且つ周波数が接近しているデータ毎に連結して一つにまとめ、連結処理後のデータを編集及び補正することにより旋律の抽出を行っている(例えば、特許文献1参照)。
従来の旋律抽出装置は以上のように構成されているので、音高決定時に時間軸方向の情報を使用せずに短時間の窓分析による周波数分析の結果から音高の決定を行うため、音高分析の精度が落ちるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、入力された音響信号に対して音高を決定する際に、時間軸方向に連続するピーク系列を用いて音高分析を行うことができる旋律抽出装置を得ることを目的とする。
この発明に係る旋律抽出装置は、入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出手段と、前記スペクトル算出手段から入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出手段を有するピーク検出手段と、前記ピーク検出手段から入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定手段と、前記ピーク形状推定手段から入力された遷移形状と前記スペクトル算出手段から入力されたパワースペクトルとから基本音高の推定を行う基本音高推定手段とを備えたものである。
この発明によれば、旋律の抽出を行う際に時間軸方向に連続するピーク系列を推定した後に音高を決定するように構成したので、音高の推定精度を高めることができる。
実施の形態1.
図1は、この発明の実施の形態1に係る旋律抽出装置の構成を示すブロック図である。
旋律抽出装置は、対数周波数スペクトル算出部(スペクトル算出手段)1、ピーク検出部(ピーク検出手段)2、ピーク形状推定部(ピーク形状推定手段)3、基本音高推定部(基本音高推定手段)4及び旋律出力部5から構成されている。
図1は、この発明の実施の形態1に係る旋律抽出装置の構成を示すブロック図である。
旋律抽出装置は、対数周波数スペクトル算出部(スペクトル算出手段)1、ピーク検出部(ピーク検出手段)2、ピーク形状推定部(ピーク形状推定手段)3、基本音高推定部(基本音高推定手段)4及び旋律出力部5から構成されている。
対数周波数スペクトル算出部1は、外部装置(図示せず)から入力された音響信号に対して周波数分析を行い、対数周波数スペクトルを示すスペクトル情報を生成する。入力された音響信号に対して対数周波数スペクトルを求める方法としては、音響信号をウェーブレット変換することにより対数周波数スペクトルを得るもの、音響信号に対して短時間フーリエ変換(SFT)または離散フーリエ変換(DFT)を実行してパワースペクトルを算出し、パワースペクトルの周波数を対数周波数変換するもの、予め定められた周波数帯域を選択するバンドパスフィルタを用いるもの等が挙げられる。なお、この発明の説明では、ウェーブレット変換を用いて対数周波数スペクトルを得る方法を用いて説明する。
対数周波数スペクトル算出部1は、入力された音響信号に対して下記式1に基づき連続ウェーブレット変換を行う。
関数Ψ(t)は、下記式2に示すガウス窓を用いた短時間フーリエ変換に対応するマザーウェーブレットであり、周波数ωに依存しない関数である。パラメータaはマザーウェーブレットΨ(t)を時間方向に拡大・縮小する比率を決定するものであり、パラメータbは時間のシフト量に対応し、解析する時間を決定するものである。
上記式2に示したマザーウェーブレットを基にして時間方向に拡大・縮小・シフトした関数 Ψ((t−b)/a)を用いることで、上記式1に示した連続ウェーブレット変換が定義される。
対数周波数スペクトル算出部1は、パラメータbを例えば20msecずつずらし、入力された音響信号の各時刻での対数周波数スペクトルを算出する。このようにして算出された対数周波数スペクトルの例を図2に示す。図2は、X軸に時間、Y軸に対数周波数を示しており、基本波と高調波の形状が同一であることが分かる。これは図3に示すように、高調波成分の相対位置関係が基本波成分の周波数によらず一定となるためである。図3はX軸に対数周波数、Y軸に振幅を示しており、各高調波は基本波からそれぞれlog2、log3及びlog4だけ離れて位置し、それらの相対位置は基本周波数に依存していない。
ピーク検出部2は、フィルタ処理部21と周波数軸方向ピーク算出部(周波数軸方向ピーク検出手段)22から構成されている。フィルタ処理部21は、対数周波数スペクトル算出部1から入力されるスペクトル情報から対数周波数スペクトル値Ps(t,x)に対して5×5のメディアンフィルタを掛け、メディアン値を算出する。次に対数周波数スペクトル値Ps(t,x)から算出したメディアン値を差し引くことによりピークの強調を行い、強調処理後のスペクトル情報を出力する。周波数軸方向ピーク算出部22は、フィルタ処理部21から入力された強調処理後のスペクトル情報から、対数周波数スペクトル値Ps(t,x)が極大となる周波数軸方向のピーク位置を算出し、ピーク位置情報として出力する。
ここで、メディアンフィルタとは、データ列からn個のデータ値を観測した際に中央値(メディアン値)をその結果とするフィルタであり、例えば処理を施す注目周波数を中心とした縦方向5周波数と横方向5周波数の計25周波数の25個の値の中からメディアン値を選択するものである。なお、この実施の形態1のメディアンフィルタ処理は、縦、横方向の5×5の領域で行うが、これに限られず、3×3の領域、4×4の領域、3×4の領域、3×5の領域、4×3の画領域、または5×3の領域等で行うメディアンフィルタ処理であってもよい。
また、ピーク検出方法としては、各時刻におけるピーク位置の対数周波数スペクトル値から上位N個を選択するように構成し、ピークが最大N個になるように制限してもよい。さらに、ピーク検出方法としては、ラプラシアンフィルタによるエッジ検出やガウシアンフィルタによるノイズ除去を用いて構成してもよい。また、時間周波数軸平面上の処理ではなく周波数軸方向に各時刻毎にスムージングやノイズ除去等を行ってもよい。
ピーク形状推定部3は、連続性推定部(連続性推定手段)31と遷移形状推定部(遷移形状推定手段)32から構成されている。連続性推定部31は、ピーク検出部2から入力されたピーク位置情報から周波数軸方向のピーク位置が時間軸方向に連続するピーク系列を推定する。なお、同一時刻にはピーク系列は1つのみ存在するものとする。ピークが時間軸方向に連続するか否かの推定は、時間軸方向に一定時間以内(例えば40msec以内)、周波数方向に一定範囲以内(例えば100cent以内)のピークが存在する場合に、それらのピークを時間方向に連続するピーク系列であると推定する。また、同一時刻に複数のピーク候補が存在する場合には、周波数が近似するピーク同士を連続するピーク系列であると推定する。また、ピークの分岐などにより、ピークが連続する方向を決めることが困難な場合には、分岐点においてピーク系列を分割してそれぞれ連続しない別々のピークであると推定する。これらの推定結果をピーク系列情報として出力する。
図4は、この発明の実施の形態1に係る連続性推定部の連続性推定処理を示す図であり、図4(a)は連続性推定処理前のピーク状態を示し、図4(b)は連続性推定処理後のピーク状態を示している。図4において、間隔が閾値以下の不連続部は連続性推定処理により接続され、間隔が閾値より大きい不連続部は連続性推定処理を実行しても不連続を保ち、ピーク系列の交差部分は連続性推定処理により分割されたことが分かる。このように、連続性推定処理を行うことにより、不連続部の接続及びピーク系列の交差部分の分割が可能となりピーク系列の連続部分を正確に推定することができる。
遷移形状推定部32は、連続性推定部31から入力されるピーク系列情報を用いて、ピーク系列遷移形状を推定する。遷移形状推定部32の動作を、図5を用いて説明する。図5は、この発明の実施の形態1に係る遷移形状推定部の推定処理の例を示す図である。図5(a)では、複数のピーク系列(B及びC)を組み合わせたものと同一形状となる1つのピーク系列(A)が存在している。この場合、ピーク系列B及びCが分割されている区間(t_bs〜t_be, t_cs〜t_ce)毎に同一形状であるピーク系列の遷移形状の周波数軸方向の分布を調べ、図5(a)のように一致している場合には複数のピーク系列(B及びC)を合成した形状である1つのピーク系列(A)をピーク系列遷移形状として推定する。なお、複数のピーク系列(B及びC)を合成した形状であるピーク系列が複数存在する場合は、任意の一つのピーク系列(A)をピーク系列遷移形状として推定する。また、複数のピーク系列(B及びC)を合成した形状に近い形状であるピーク系列が複数存在する場合は、それらのピーク系列の中から平均的な形状を有するピーク系列をピーク系列遷移形状として推定してもよい。
一方、図5(b)では、複数のピーク系列(B及びC)を組み合わせたものと同一形状となる1つのピーク系列(A)が存在しているが、ピーク系列の周波数軸方向の分布を見るとピーク系列B及びCが分割されている区間(t_bs〜t_be, t_cs〜t_ce)分布が異なる。このようにピーク系列の周波数軸方向の分布が異なる場合には、複数のピーク系列(B及びC)はそれぞれ別のピーク系列遷移形状であるとして推定する。
なお、同一形状となるピーク系列が存在するか否かの推定には、動的計画法(Dynamic Programming)によるDPマッチングやHMM(隠れマルコフモデル)などのパターンマッチングによる推定を用いて構成してもよい。また、ピーク系列遷移形状を求める際に、単位時間のピーク周波数成分と異なる時刻でのピーク周波数分布を比較することにより、ピーク位置のズレ、即ち周波数軸方向の遷移を利用することも可能である。
基本音高推定部4は、対数周波数スペクトル算出部1及びピークの遷移形状推定部3から入力される対数周波数ペクトル及びピーク系列遷移形状から基本音高系列の推定を行なう。ここで、基本音高とは音の周波数成分の中で基本となっていると認識される周波数のことである。基本音高系列は、ピークの時系列ベクトルPを周波数軸方向に平行移動した際に、対数周波数スペクトルPs(t,x)に対して高調波成分の畳み込み演算を行った値の総和が最大となる位置である。即ち、ピークの時系列ベクトルPにおいて、時刻t=ts〜ts+Tの周波数成分がpk(t)で表されるとすると、ベクトルPの基本音高系列は下記式3により算出される。
なお、上記式3のデルタハットは下記式4に基づき算出される。
また、基本音高の推定は、遷移形状推定部32において同一形状であると判定されたピーク系列の周波数軸方向の分布と高調波成分として期待される分布とを比較することにより行ってもよい。
旋律出力部5は、基本音高推定部4で得られた基本音高を旋律として出力する。旋律の出力方法として、例えば主旋律(メロディー)の範囲として対象となる周波数帯域をA3(220Hz)からA5(880Hz)等に制限し、その周波数帯域幅内に存在している旋律のみを出力する方法が挙げられる。ここで「A」はオクターブ、「3」は半音階名を示している。また、主旋律の範囲を同一時刻に含まれる最大音高数、あるいは平均音高数により制限し、その範囲内に存在している旋律のみを出力するように構成してもよい。この場合、基本音高推定部4で推定された各基本音高系列に対応するパワー(最大パワー、あるいは平均パワーなど)を対数周波数スペクトル算出部1の算出結果である対数周波数スペクトルを用いて算出し、パワーの大きいものから順に指定個数出力するように構成してもよい。さらに、基本音高系列全体ではなく同一時刻に閾値以上の音高数が重なっている区間に対してのみ選択して出力するように構成してもよい。
次に動作について説明する。図6は、この実施の形態1の旋律抽出装置の動作を示すフローチャートであり、以下、このフローチャートに従って説明する。
まず、外部装置(図示せず)から、対数周波数スペクトル算出部1に音響信号が入力される(ステップST1)。音響信号とは、例えば音楽CDなどの録音データやマイクなどを通じて入力される音声データなどをA/D変換したものである。対数周波数スペクトル算出部1は、ステップST1において入力された音響信号の各時刻での対数周波数スペクトルを算出し、算出結果であるスペクトル情報をピーク検出部2のフィルタ処理部21及び基本音高推定部4に出力する(ステップST2)。フィルタ処理部21は、ステップST2において入力されたスペクトル情報に対して、メディアンフィルタ処理を実行してピーク強調処理を行い、強調処理後のスペクトル情報を周波数軸方向ピーク検出部22に出力する(ステップST3)。
まず、外部装置(図示せず)から、対数周波数スペクトル算出部1に音響信号が入力される(ステップST1)。音響信号とは、例えば音楽CDなどの録音データやマイクなどを通じて入力される音声データなどをA/D変換したものである。対数周波数スペクトル算出部1は、ステップST1において入力された音響信号の各時刻での対数周波数スペクトルを算出し、算出結果であるスペクトル情報をピーク検出部2のフィルタ処理部21及び基本音高推定部4に出力する(ステップST2)。フィルタ処理部21は、ステップST2において入力されたスペクトル情報に対して、メディアンフィルタ処理を実行してピーク強調処理を行い、強調処理後のスペクトル情報を周波数軸方向ピーク検出部22に出力する(ステップST3)。
周波数軸方向ピーク算出部22は、ステップST3において入力された強調処理後のスペクトル情報から、周波数軸方向にスペクトル値が極大となるピーク位置を算出し、ピーク位置情報をピーク形状推定部3の連続性推定部31に出力する(ステップST4)。連続性推定部31は、ステップST4において入力されたピーク位置情報から、極大ピークの時間軸方向及び周波数軸方向の一定範囲内に連続するピーク候補が存在するか否かの判定を行う(ステップST5)。
ステップST5において、連続するピーク候補が存在しないと判定された場合にはステップST11に進む。また、ステップST5において連続するピーク候補が存在すると判定された場合には、さらに同一時刻に複数のピーク候補が存在するか否か判定を行う(ステップST6)。ステップST6において、同一時刻に複数のピークが存在すると判定された場合には、周波数の最も近似するピークを連続ピークと推定する(ステップST7)。一方、ステップST6において、同一時刻に複数のピークが存在しない場合には、ステップST5において推定された連続するピーク候補を連続ピークと推定する(ステップST8)。
次に、ピークに分岐が存在するか否かの判定を行う(ステップST9)。ステップST9において、ピークの分岐が存在すると判定された場合には、分岐点においてピーク系列を分割してそれぞれ連続しない別々のピークと推定し(ステップST10)、ステップST9において、ピークの分岐が存在しないと判定された場合には、ステップST11に進む。ステップST11では、ステップST5からステップST10において推定した時間軸方向に連続するピーク系列をピーク系列情報として遷移形状推定部32に出力する。
遷移形状推定部32は、ステップST11において入力されたピーク系列情報を用いて、各ピーク系列の遷移形状の周波数軸方向における誤差が一定範囲内であるか否か判定を行う(ステップST12)。ステップST12において、誤差が一定の範囲内であると判定された場合には、同一の遷移形状として1つのピーク系列を選択してピーク系列遷移形状と推定し、残りのピークを削除する(ステップST13)。また、ステップST12において、誤差が一定の範囲内でないと判定された場合には、異なる遷移形状として全てのピーク系列をピーク系列遷移形状として推定する(ステップST14)。基本音高推定部4は、ステップST2において入力された対数周波数スペクトルとステップST13またはステップST14における推定結果を用いて基本音高系列を推定し、旋律出力部5に出力する(ステップST15)。旋律出力部5は、ステップST15において入力された基本音高情報から旋律を構成し出力する(ステップST16)。
以上のように、この実施の形態1によれば、ピーク形状推定部において対数周波数スペクトルに対して時間軸方向に連続するピーク系列の形状を推定した後に基本音高を推定するように構成したので、基本音高の推定精度を高めることができる。また、複数の主旋律候補を得ることができるため、主旋律の再現率を上げることができる。さらに、主旋律の再現率が向上することにより、ハミング検索などの正解精度を向上させることができる。
また、この実施の形態1によれば、周波数軸をlog対数軸とし、基本波に関わらず高調波成分の対数周波数軸上の間隔が一定となるように構成しているため、時間周波数平面上での高調波成分の軌跡は基本波の奇跡を平行移動したものとなり、高調波成分の処理が容易となる。また、対数周波数軸を線形軸として同様の演算をすることも可能である。
実施の形態2.
図7は、この発明の実施の形態2に係る旋律抽出装置の構成を示すブロック図である。ピーク検出部2は、図1に示した実施の形態1に係るピーク検出部2に時間軸方向ピーク算出部23を追加して構成している。以下では、実施の形態1に係る旋律抽出装置の構成要素と同一の部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図7は、この発明の実施の形態2に係る旋律抽出装置の構成を示すブロック図である。ピーク検出部2は、図1に示した実施の形態1に係るピーク検出部2に時間軸方向ピーク算出部23を追加して構成している。以下では、実施の形態1に係る旋律抽出装置の構成要素と同一の部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
時間軸方向ピーク算出部(時間軸方向ピーク検出手段)23は、フィルタ処理部21から入力された強調処理後のスペクトル情報から、対数周波数スペクトル値Ps(t,x)が極大となる時間軸方向のピーク位置を算出し、ピーク位置情報を出力する。図8にピーク位置の算出結果の例を示す。図8(a)は周波数軸方向ピーク算出部の算出結果の例、図8(b)は時間軸方向ピーク算出部の算出結果の例、図8(c)は図8(a)と図8(b)に示した結果を合成したものである。図8(a)に示すように周波数軸方向ピーク算出部22で取得したピーク系列では、区間B及びDにおいてピーク系列が不連続となり、区間A、C及びEがそれぞれ独立したピーク系列となっていることが分かる。
一方、図8(b)に示す時間軸方向ピーク算出部23で取得したピーク系列では、区間A、C及びEにおいてピーク系列が不連続となり、区間B及びDがそれぞれ独立したピーク系列となっていることが分かる。図8(c)は、周波数軸方向及び時間軸方向のピーク情報を用いているために、不連続となる区間がなく区間AからEまで連続したピーク系列が得られる。このように、ピーク検出部2は、図8(c)に示すような時間軸方向に連続したピーク系列情報をピーク形状推定部3の連続性推定部31に出力する。
次に、この発明に実施の形態2に係る旋律抽出装置の動作について、ピーク系列情報取得処理を中心に、図9に示すフローチャートを参照しながら説明する。また、以下では実施の形態1に係る旋律抽出装置と同一の処理を行うステップには、図6で使用した符合と同一の符号を付し、説明を省略する。
フィルタ処理部21は、入力されたスペクトル情報に対して、メディアンフィルタ処理を実行してピーク強調処理を行い、強調処理後のスペクトル情報を周波数軸方向ピーク算出部22及び時間軸方向ピーク算出部23に出力する(ステップST21)。周波数軸方向ピーク算出部22は、ステップST21において入力された強調処理後のスペクトル情報から、周波数軸方向にスペクトル値が極大となるピーク位置を算出し、時間軸方向ピーク算出部23は、ステップST21において入力された強調処理後のスペクトル情報から、時間軸方向にスペクトル値が極大となるピーク位置を算出し、各ピーク位置情報をピーク形状推定部3の連続性推定部31に出力する(ステップST22)。
以上のように、実施の形態2によれば、時間軸方向ピーク算出部をさらに設け、周波数軸方向及び時間軸方向のピーク系列を算出するように構成したので、短時間で周波数が遷移するようなピークに対する連続性の判定精度を向上させることができる。このため、歌声などの周波数成分が連続的に変化するピーク系列に対して、連続したピーク系列を算出することが可能となり、音高の判定精度を向上させることができる。
なお、上記実施の形態2では、周波数軸方向ピーク算出部22のピーク位置情報を用いて連続性判定部31が連続性判定処理を行った後に、各ピーク系列間の接続判定を時間軸方向ピーク算出部23のピーク位置情報を用いて行うように構成してもよい。また、周波数軸方向及び時間軸方向のピーク位置の算出は、周波数軸・時間軸方向ピーク算出部のように同一の検出部で処理を行うように構成してもよい。
実施の形態3.
図10は、この発明の実施の形態3に係る旋律抽出装置の構成を示すブロック図である。図1に示した実施の形態1に係る旋律抽出装置に高調波畳み込み部6と音種判定部7を追加して構成している。以下では、実施の形態1に係る旋律抽出装置の構成要素と同一の部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図10は、この発明の実施の形態3に係る旋律抽出装置の構成を示すブロック図である。図1に示した実施の形態1に係る旋律抽出装置に高調波畳み込み部6と音種判定部7を追加して構成している。以下では、実施の形態1に係る旋律抽出装置の構成要素と同一の部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
高調波畳み込み部(畳み込み手段)6は、対数周波数スペクトル算出部1により算出された対数周波数スペクトルに対して高調波の畳み込みを行い、歌声及び楽器の基本音高成分の強調を行う。畳み込み処理は、時間t、周波数xに対するウェーブレット変換により求められた対数周波数スペクトル値Ps(t,x)に対して高調波成分の畳み込みを行ったスペクトル値をPh(t,x)とすると、Ph(t,x)は下記式5を用いて算出される。
なお、式5における周波数xの単位はオクターブであり、NumHrmは畳み込み対象とする最大高調波次数である。このようにして算出された高調波が畳み込まれた対数周波数スペクトルをピーク検出部2のフィルタ処理部21に出力する。図11は、高調波畳み込む部の処理結果の例を示すグラフである。
音種判定部(音種判定手段)7は、記憶部(記憶手段)71、分散値算出部(分散値算出手段)72及び主旋律算出部(主旋律判定手段)73から構成されている。記憶部71は、周波数帯域の閾値が記憶されており、例えば歌声の周波数帯域をA2(110Hz)からA5(880Hz)等として記憶している。ここで「A」はオクターブ、「2」は半音階名を示している。分散値算出部72は、基本音高推定部4から入力された基本音高情報を用いて、主旋律の範囲に含まれる音高系列の周波数成分の分散値を算出し、主旋律算出部73に出力する。主旋律算出部73は、分散値算出部72から入力された分散値が記憶部71に記憶されている閾値範囲内であるか否かの判定を行い、閾値以内であれば基本音高は歌声と判定し、歌声の周波数帯域の基本音高のみを主旋律として旋律出力部5に出力する。また、閾値以外であれば基本音高は楽器音と判定し、楽器音の周波数帯域の基本音高のみを主旋律として旋律出力部5に出力する。
なお、閾値は同一時刻での主旋律候補の最大数または平均数等から楽曲単位あるいは一定時間単位で動的に変化させることも可能である。また、主旋律は単一時刻に対して一つの周波数のみとなるため、主旋律から各時刻に対して一つの周波数となるように閾値を変化させるように構成してもよい。また、記憶部71に予め記憶されている歌声の対象となる周波数帯域を広く設定しておき、主旋律算出部73において歌声として検出された周波数分布から当該曲の歌手の音域を推定して周波数帯域を取り直すように構成してもよい。
旋律出力部5は、音種判定部7から入力される判定結果を用いて、基本音高推定部4で得られた基本音高を旋律として出力する。その際、同一時刻に含まれる基本音高数の閾値を楽器音に対する最大数、歌声に対する最大数と分けて設定しても良い。また、旋律として出力する際に音種判定部7の判定結果に基づき、歌声のみによる旋律や楽器のみによる旋律等の出力を行ってよい。また、音種判定部7の判定において、打鍵楽器や弦楽器等を使用した場合には、楽器種類を特定できる場合には、各楽器種類に対する最大数の設定や、各楽器のみによる旋律を出力するように構成してもよい。
以上のように、実施の形態3によれば、高調波畳み込み部が高調波の畳み込みを行うように構成したので、歌声や楽器の基本音高成分が強調されると共に、同一形状となるピーク列が現れる周波数帯域が増え、ピーク系列の遷移形状の判定が容易になる。さらに、音種判定部が歌声や楽器等の判定を行うように構成したので、歌声のみによる旋律や楽器音のみによる旋律などの取得が可能となる。
なお、上記実施の形態3では、音種判定部における歌声や楽器等の判定に基本音高推定部から入力される基本音高を用いるように構成したが、対数周波数スペクトル算出部で算出された対数周波数スペクトルを用いるように構成してもよい。この場合、歌声や楽器等の判定には対数周波数スペクトル値の形状または分散を使用する。また、歌声や楽器等の判定は、予め判定対象となる歌声や楽器等のスペクトルのモデルを作成しておき、対数周波数スペクトル算出部で算出された対数周波数スペクトル遷移と比較することにより行ってもよい。比較には、例えばHMMなどを用いて尤度判定を行い、高周波成分の分布や時間遷移等を用いてもよい。また、モデルには打鍵楽器、弦楽器、打楽器、男性の歌声及び女性の歌声等複数用いることも可能である。
1 対数周波数スペクトル算出部、2 ピーク検出部、3 ピーク形状推定部、4 基本音高推定部、5 旋律出力部、6 高調波畳み込み部、7 音種判定部、21 フィルタ処理部、22 周波数軸方向ピーク算出部、23 時間軸方向ピーク算出部、31 連続性推定部、32 遷移形状推定部、71 記憶部、72 分散値算出部、73 主旋律算出部。
Claims (14)
- 入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出手段と、
前記スペクトル算出手段から入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出手段を有するピーク検出手段と、
前記ピーク検出手段から入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定手段と、
前記ピーク形状推定手段から入力された遷移形状と前記スペクトル算出手段から入力されたパワースペクトルとから基本音高の推定を行う基本音高推定手段とを備えたことを特徴とする旋律抽出装置。 - ピーク検出手段は、
スペクトル算出手段から入力されたパワースペクトルの時間軸方向のピーク位置を算出する時間軸方向ピーク検出手段を備えたことを特徴とする請求項1記載の旋律抽出装置。 - スペクトル算出手段は、時間周波数平面上のパワースペクトルの周波数軸を対数軸とすることを特徴とする請求項1または請求項2記載の旋律抽出装置。
- ピーク形状推定手段は、
ピーク検出手段から入力されたピーク位置に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定手段と、
前記連続性判定手段から入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定手段とを備えたことを特徴とする請求項1から請求項3のうちのいずれか1項記載の旋律抽出装置。 - スペクトル算出手段から入力されたパワースペクトルに対して、基本音高及び倍音成分を強調する畳み込み処理を行う畳み込み手段を備えたことを特徴とする請求項1から請求項4のうちのいずれか1項記載の旋律抽出装置。
- 基本音高推定手段から入力された基本音高に基づき、主旋律の音種を判定する音種判定手段を備えたことを特徴とする請求項1から請求項5のうちのいずれか1項記載の旋律抽出装置。
- 音種判定手段は、
音種別に周波数帯域の閾値を記憶する記憶手段と、
基本音高推定手段から入力された基本音高について、周波数軸方向の分散値を算出する分散値算出手段と、
前記分散値算出手段から入力される分散値と、前記記憶部に記憶されている閾値を比較することにより主旋律の音種を判定する主旋律判定手段とを備えたことを特徴とする請求項1から請求項5のうちのいずれか1項記載の旋律抽出装置。 - 入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出ステップと、
前記スペクトル算出ステップから入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出ステップを有するピーク検出ステップと、
前記ピーク検出ステップから入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定ステップと、
前記ピーク形状推定ステップから入力された遷移形状と前記スペクトル算出ステップから入力されたパワースペクトルとから基本音高の推定を行う基本音高推定ステップとを備えたことを特徴とする旋律抽出方法。 - ピーク検出ステップは、
スペクトル算出ステップから入力されたパワースペクトルの時間軸方向のピーク位置を算出する時間軸方向ピーク検出ステップを備えたことを特徴とする請求項8記載の旋律抽出方法。 - スペクトル算出ステップは、時間周波数平面上のパワースペクトルの周波数軸を対数軸とすることを特徴とする請求項8または請求項9記載の旋律抽出方法。
- ピーク形状推定ステップは、
ピーク検出ステップから入力されたピーク位置に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定ステップと、
前記連続性判定ステップから入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定ステップとを備えたことを特徴とする請求項8から請求項10のうちのいずれか1項記載の旋律抽出方法。 - スペクトル算出ステップから入力されたパワースペクトルに対して、基本音高及び倍音成分を強調する畳み込み処理を行う畳み込みステップを備えたことを特徴とする請求項8から請求項11のうちのいずれか1項記載の旋律抽出方法。
- 基本音高推定ステップから入力された基本音高に基づき、主旋律の音種を判定する音種判定ステップを備えたことを特徴とする請求項8から請求項12のうちのいずれか1項記載の旋律抽出方法。
- 音種判定ステップは、
音種別に周波数帯域の閾値を記憶する記憶ステップと、
基本音高推定ステップから入力された基本音高について、周波数軸方向の分散値を算出する分散値算出ステップと、
前記分散値算出ステップから入力される分散値と、前記記憶部に記憶されている閾値を比較することにより主旋律の音種を判定する主旋律判定ステップとを備えたことを特徴とする請求項8から請求項13のうちのいずれか1項記載の旋律抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007125906A JP2008281776A (ja) | 2007-05-10 | 2007-05-10 | 旋律抽出装置及び旋律抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007125906A JP2008281776A (ja) | 2007-05-10 | 2007-05-10 | 旋律抽出装置及び旋律抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008281776A true JP2008281776A (ja) | 2008-11-20 |
Family
ID=40142644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007125906A Pending JP2008281776A (ja) | 2007-05-10 | 2007-05-10 | 旋律抽出装置及び旋律抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008281776A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180417A (ja) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | 音楽音響信号のピッチ推定装置及び方法 |
KR101106185B1 (ko) | 2010-01-19 | 2012-01-20 | 한국과학기술원 | 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법 및 시스템 |
JP2016080546A (ja) * | 2014-10-17 | 2016-05-16 | 新日鐵住金株式会社 | 形状測定装置及び形状測定方法 |
CN108831423A (zh) * | 2018-05-30 | 2018-11-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 提取音频数据中主旋律音轨的方法、装置、终端及存储介质 |
JP2019060976A (ja) * | 2017-09-25 | 2019-04-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN109841232A (zh) * | 2018-12-30 | 2019-06-04 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
WO2019176950A1 (en) * | 2018-03-14 | 2019-09-19 | Casio Computer Co., Ltd. | Machine learning method, audio source separation apparatus, audio source separation method, electronic instrument and audio source separation model generation apparatus |
CN111326164A (zh) * | 2020-01-21 | 2020-06-23 | 大连海事大学 | 一种半监督式音乐主旋律提取方法 |
WO2021193637A1 (ja) * | 2020-03-27 | 2021-09-30 | 株式会社トランストロン | 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム |
-
2007
- 2007-05-10 JP JP2007125906A patent/JP2008281776A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101106185B1 (ko) | 2010-01-19 | 2012-01-20 | 한국과학기술원 | 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법 및 시스템 |
JP2011180417A (ja) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | 音楽音響信号のピッチ推定装置及び方法 |
JP2016080546A (ja) * | 2014-10-17 | 2016-05-16 | 新日鐵住金株式会社 | 形状測定装置及び形状測定方法 |
JP2019060976A (ja) * | 2017-09-25 | 2019-04-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
WO2019176950A1 (en) * | 2018-03-14 | 2019-09-19 | Casio Computer Co., Ltd. | Machine learning method, audio source separation apparatus, audio source separation method, electronic instrument and audio source separation model generation apparatus |
JP2019159145A (ja) * | 2018-03-14 | 2019-09-19 | カシオ計算機株式会社 | 情報処理方法、電子機器及びプログラム |
CN108831423A (zh) * | 2018-05-30 | 2018-11-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 提取音频数据中主旋律音轨的方法、装置、终端及存储介质 |
CN108831423B (zh) * | 2018-05-30 | 2023-06-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 提取音频数据中主旋律音轨的方法、装置、终端及存储介质 |
CN109841232A (zh) * | 2018-12-30 | 2019-06-04 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
CN109841232B (zh) * | 2018-12-30 | 2023-04-07 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
CN111326164A (zh) * | 2020-01-21 | 2020-06-23 | 大连海事大学 | 一种半监督式音乐主旋律提取方法 |
CN111326164B (zh) * | 2020-01-21 | 2023-03-21 | 大连海事大学 | 一种半监督式音乐主旋律提取方法 |
WO2021193637A1 (ja) * | 2020-03-27 | 2021-09-30 | 株式会社トランストロン | 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム |
JP7461192B2 (ja) | 2020-03-27 | 2024-04-03 | 株式会社トランストロン | 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008281776A (ja) | 旋律抽出装置及び旋律抽出方法 | |
EP1587061B1 (en) | Pitch detection of speech signals | |
JP3744934B2 (ja) | 音響区間検出方法および装置 | |
JP5150573B2 (ja) | ロボット | |
US8193436B2 (en) | Segmenting a humming signal into musical notes | |
KR100717625B1 (ko) | 음성 인식에서의 포먼트 주파수 추정 방법 및 장치 | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
JP4444254B2 (ja) | スペクトル自己相関値を用いたピッチ検出方法およびピッチ検出装置 | |
JP2007199663A (ja) | ハーモニックとサブハーモニックの比率を用いたピッチ検出方法およびピッチ検出装置 | |
JP2005157363A (ja) | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 | |
US20090326951A1 (en) | Speech synthesizing apparatus and method thereof | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
Amado et al. | Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes | |
Gurunath Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method | |
JP6451136B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム | |
JP4128848B2 (ja) | 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体 | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
JP2009237589A (ja) | 音声分析合成装置、及びプログラム | |
JP2005208627A (ja) | 音声分析合成装置、及びプログラム | |
JP2008015212A (ja) | 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置 | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP5262875B2 (ja) | 追従性評価システム,カラオケシステムおよびプログラム | |
JP6784137B2 (ja) | 音響解析方法および音響解析装置 |