JP2008281776A

JP2008281776A - 旋律抽出装置及び旋律抽出方法

Info

Publication number: JP2008281776A
Application number: JP2007125906A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-05-10
Filing date: 2007-05-10
Publication date: 2008-11-20

Abstract

【課題】入力された音響信号に対して音高を決定する際に、時間軸方向に連続するピーク系列を用いて音高分析を行うことができる旋律抽出装置を得る。
【解決手段】スペクトル算出部１において算出された音響信号の対数周波数スペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク算出部２２と、周波数軸方向ピーク算出部２２から入力されたピーク位置前後に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定部３１と、連続推定部３１から入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定部３２と、遷移形状推定部３２から入力された遷移形状とスペクトル算出部１から入力された対数周波数スペクトルとから基本音高の推定を行う基本音高推定部４を備える。
【選択図】図１

Description

この発明は、入力されるオーディオデータに基づいて旋律を抽出する旋律抽出装置及び旋律抽出方法に関するものである。

従来の旋律抽出装置では、オーディオデータに対して周波数分析を行い、周波数分析で得られた複数の音程データに対して和音及び音高の決定を行う。その後、和音及び音高が決定されたデータを時間軸上で隣接し、且つ周波数が接近しているデータ毎に連結して一つにまとめ、連結処理後のデータを編集及び補正することにより旋律の抽出を行っている（例えば、特許文献１参照）。

特開２００１−２６５３３０号公報

従来の旋律抽出装置は以上のように構成されているので、音高決定時に時間軸方向の情報を使用せずに短時間の窓分析による周波数分析の結果から音高の決定を行うため、音高分析の精度が落ちるという課題があった。

この発明は、上記のような課題を解決するためになされたもので、入力された音響信号に対して音高を決定する際に、時間軸方向に連続するピーク系列を用いて音高分析を行うことができる旋律抽出装置を得ることを目的とする。

この発明に係る旋律抽出装置は、入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出手段と、前記スペクトル算出手段から入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出手段を有するピーク検出手段と、前記ピーク検出手段から入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定手段と、前記ピーク形状推定手段から入力された遷移形状と前記スペクトル算出手段から入力されたパワースペクトルとから基本音高の推定を行う基本音高推定手段とを備えたものである。

この発明によれば、旋律の抽出を行う際に時間軸方向に連続するピーク系列を推定した後に音高を決定するように構成したので、音高の推定精度を高めることができる。

実施の形態１．
図１は、この発明の実施の形態１に係る旋律抽出装置の構成を示すブロック図である。
旋律抽出装置は、対数周波数スペクトル算出部（スペクトル算出手段）１、ピーク検出部（ピーク検出手段）２、ピーク形状推定部（ピーク形状推定手段）３、基本音高推定部（基本音高推定手段）４及び旋律出力部５から構成されている。

対数周波数スペクトル算出部１は、外部装置（図示せず）から入力された音響信号に対して周波数分析を行い、対数周波数スペクトルを示すスペクトル情報を生成する。入力された音響信号に対して対数周波数スペクトルを求める方法としては、音響信号をウェーブレット変換することにより対数周波数スペクトルを得るもの、音響信号に対して短時間フーリエ変換（ＳＦＴ）または離散フーリエ変換（ＤＦＴ）を実行してパワースペクトルを算出し、パワースペクトルの周波数を対数周波数変換するもの、予め定められた周波数帯域を選択するバンドパスフィルタを用いるもの等が挙げられる。なお、この発明の説明では、ウェーブレット変換を用いて対数周波数スペクトルを得る方法を用いて説明する。

対数周波数スペクトル算出部１は、入力された音響信号に対して下記式１に基づき連続ウェーブレット変換を行う。

関数Ψ（ｔ）は、下記式２に示すガウス窓を用いた短時間フーリエ変換に対応するマザーウェーブレットであり、周波数ωに依存しない関数である。パラメータａはマザーウェーブレットΨ（ｔ）を時間方向に拡大・縮小する比率を決定するものであり、パラメータｂは時間のシフト量に対応し、解析する時間を決定するものである。

上記式２に示したマザーウェーブレットを基にして時間方向に拡大・縮小・シフトした関数 Ψ（（ｔ−ｂ）／ａ）を用いることで、上記式１に示した連続ウェーブレット変換が定義される。

対数周波数スペクトル算出部１は、パラメータｂを例えば２０ｍｓｅｃずつずらし、入力された音響信号の各時刻での対数周波数スペクトルを算出する。このようにして算出された対数周波数スペクトルの例を図２に示す。図２は、Ｘ軸に時間、Ｙ軸に対数周波数を示しており、基本波と高調波の形状が同一であることが分かる。これは図３に示すように、高調波成分の相対位置関係が基本波成分の周波数によらず一定となるためである。図３はＸ軸に対数周波数、Ｙ軸に振幅を示しており、各高調波は基本波からそれぞれｌｏｇ２、ｌｏｇ３及びｌｏｇ４だけ離れて位置し、それらの相対位置は基本周波数に依存していない。

ピーク検出部２は、フィルタ処理部２１と周波数軸方向ピーク算出部（周波数軸方向ピーク検出手段）２２から構成されている。フィルタ処理部２１は、対数周波数スペクトル算出部１から入力されるスペクトル情報から対数周波数スペクトル値Ｐｓ（ｔ，ｘ）に対して５×５のメディアンフィルタを掛け、メディアン値を算出する。次に対数周波数スペクトル値Ｐｓ（ｔ，ｘ）から算出したメディアン値を差し引くことによりピークの強調を行い、強調処理後のスペクトル情報を出力する。周波数軸方向ピーク算出部２２は、フィルタ処理部２１から入力された強調処理後のスペクトル情報から、対数周波数スペクトル値Ｐｓ（ｔ，ｘ）が極大となる周波数軸方向のピーク位置を算出し、ピーク位置情報として出力する。

ここで、メディアンフィルタとは、データ列からｎ個のデータ値を観測した際に中央値（メディアン値）をその結果とするフィルタであり、例えば処理を施す注目周波数を中心とした縦方向５周波数と横方向５周波数の計２５周波数の２５個の値の中からメディアン値を選択するものである。なお、この実施の形態１のメディアンフィルタ処理は、縦、横方向の５×５の領域で行うが、これに限られず、３×３の領域、４×４の領域、３×４の領域、３×５の領域、４×３の画領域、または５×３の領域等で行うメディアンフィルタ処理であってもよい。

また、ピーク検出方法としては、各時刻におけるピーク位置の対数周波数スペクトル値から上位Ｎ個を選択するように構成し、ピークが最大Ｎ個になるように制限してもよい。さらに、ピーク検出方法としては、ラプラシアンフィルタによるエッジ検出やガウシアンフィルタによるノイズ除去を用いて構成してもよい。また、時間周波数軸平面上の処理ではなく周波数軸方向に各時刻毎にスムージングやノイズ除去等を行ってもよい。

ピーク形状推定部３は、連続性推定部（連続性推定手段）３１と遷移形状推定部（遷移形状推定手段）３２から構成されている。連続性推定部３１は、ピーク検出部２から入力されたピーク位置情報から周波数軸方向のピーク位置が時間軸方向に連続するピーク系列を推定する。なお、同一時刻にはピーク系列は１つのみ存在するものとする。ピークが時間軸方向に連続するか否かの推定は、時間軸方向に一定時間以内（例えば４０ｍｓｅｃ以内）、周波数方向に一定範囲以内（例えば１００ｃｅｎｔ以内）のピークが存在する場合に、それらのピークを時間方向に連続するピーク系列であると推定する。また、同一時刻に複数のピーク候補が存在する場合には、周波数が近似するピーク同士を連続するピーク系列であると推定する。また、ピークの分岐などにより、ピークが連続する方向を決めることが困難な場合には、分岐点においてピーク系列を分割してそれぞれ連続しない別々のピークであると推定する。これらの推定結果をピーク系列情報として出力する。

図４は、この発明の実施の形態１に係る連続性推定部の連続性推定処理を示す図であり、図４（ａ）は連続性推定処理前のピーク状態を示し、図４（ｂ）は連続性推定処理後のピーク状態を示している。図４において、間隔が閾値以下の不連続部は連続性推定処理により接続され、間隔が閾値より大きい不連続部は連続性推定処理を実行しても不連続を保ち、ピーク系列の交差部分は連続性推定処理により分割されたことが分かる。このように、連続性推定処理を行うことにより、不連続部の接続及びピーク系列の交差部分の分割が可能となりピーク系列の連続部分を正確に推定することができる。

遷移形状推定部３２は、連続性推定部３１から入力されるピーク系列情報を用いて、ピーク系列遷移形状を推定する。遷移形状推定部３２の動作を、図５を用いて説明する。図５は、この発明の実施の形態１に係る遷移形状推定部の推定処理の例を示す図である。図５（ａ）では、複数のピーク系列（Ｂ及びＣ）を組み合わせたものと同一形状となる１つのピーク系列（Ａ）が存在している。この場合、ピーク系列Ｂ及びＣが分割されている区間（ｔ＿ｂｓ〜ｔ＿ｂｅ，ｔ＿ｃｓ〜ｔ＿ｃｅ）毎に同一形状であるピーク系列の遷移形状の周波数軸方向の分布を調べ、図５（ａ）のように一致している場合には複数のピーク系列（Ｂ及びＣ）を合成した形状である１つのピーク系列（Ａ）をピーク系列遷移形状として推定する。なお、複数のピーク系列（Ｂ及びＣ）を合成した形状であるピーク系列が複数存在する場合は、任意の一つのピーク系列（Ａ）をピーク系列遷移形状として推定する。また、複数のピーク系列（Ｂ及びＣ）を合成した形状に近い形状であるピーク系列が複数存在する場合は、それらのピーク系列の中から平均的な形状を有するピーク系列をピーク系列遷移形状として推定してもよい。

一方、図５（ｂ）では、複数のピーク系列（Ｂ及びＣ）を組み合わせたものと同一形状となる１つのピーク系列（Ａ）が存在しているが、ピーク系列の周波数軸方向の分布を見るとピーク系列Ｂ及びＣが分割されている区間（ｔ＿ｂｓ〜ｔ＿ｂｅ，ｔ＿ｃｓ〜ｔ＿ｃｅ）分布が異なる。このようにピーク系列の周波数軸方向の分布が異なる場合には、複数のピーク系列（Ｂ及びＣ）はそれぞれ別のピーク系列遷移形状であるとして推定する。

なお、同一形状となるピーク系列が存在するか否かの推定には、動的計画法(Dynamic Programming)によるＤＰマッチングやＨＭＭ（隠れマルコフモデル）などのパターンマッチングによる推定を用いて構成してもよい。また、ピーク系列遷移形状を求める際に、単位時間のピーク周波数成分と異なる時刻でのピーク周波数分布を比較することにより、ピーク位置のズレ、即ち周波数軸方向の遷移を利用することも可能である。

基本音高推定部４は、対数周波数スペクトル算出部１及びピークの遷移形状推定部３から入力される対数周波数ペクトル及びピーク系列遷移形状から基本音高系列の推定を行なう。ここで、基本音高とは音の周波数成分の中で基本となっていると認識される周波数のことである。基本音高系列は、ピークの時系列ベクトルＰを周波数軸方向に平行移動した際に、対数周波数スペクトルＰｓ（ｔ，ｘ）に対して高調波成分の畳み込み演算を行った値の総和が最大となる位置である。即ち、ピークの時系列ベクトルＰにおいて、時刻ｔ＝ｔｓ〜ｔｓ＋Ｔの周波数成分がｐｋ（ｔ）で表されるとすると、ベクトルＰの基本音高系列は下記式３により算出される。

なお、上記式３のデルタハットは下記式４に基づき算出される。

また、基本音高の推定は、遷移形状推定部３２において同一形状であると判定されたピーク系列の周波数軸方向の分布と高調波成分として期待される分布とを比較することにより行ってもよい。

旋律出力部５は、基本音高推定部４で得られた基本音高を旋律として出力する。旋律の出力方法として、例えば主旋律（メロディー）の範囲として対象となる周波数帯域をＡ３（２２０Ｈｚ）からＡ５（８８０Ｈｚ）等に制限し、その周波数帯域幅内に存在している旋律のみを出力する方法が挙げられる。ここで「Ａ」はオクターブ、「３」は半音階名を示している。また、主旋律の範囲を同一時刻に含まれる最大音高数、あるいは平均音高数により制限し、その範囲内に存在している旋律のみを出力するように構成してもよい。この場合、基本音高推定部４で推定された各基本音高系列に対応するパワー（最大パワー、あるいは平均パワーなど）を対数周波数スペクトル算出部１の算出結果である対数周波数スペクトルを用いて算出し、パワーの大きいものから順に指定個数出力するように構成してもよい。さらに、基本音高系列全体ではなく同一時刻に閾値以上の音高数が重なっている区間に対してのみ選択して出力するように構成してもよい。

次に動作について説明する。図６は、この実施の形態１の旋律抽出装置の動作を示すフローチャートであり、以下、このフローチャートに従って説明する。
まず、外部装置（図示せず）から、対数周波数スペクトル算出部１に音響信号が入力される（ステップＳＴ１）。音響信号とは、例えば音楽ＣＤなどの録音データやマイクなどを通じて入力される音声データなどをＡ／Ｄ変換したものである。対数周波数スペクトル算出部１は、ステップＳＴ１において入力された音響信号の各時刻での対数周波数スペクトルを算出し、算出結果であるスペクトル情報をピーク検出部２のフィルタ処理部２１及び基本音高推定部４に出力する（ステップＳＴ２）。フィルタ処理部２１は、ステップＳＴ２において入力されたスペクトル情報に対して、メディアンフィルタ処理を実行してピーク強調処理を行い、強調処理後のスペクトル情報を周波数軸方向ピーク検出部２２に出力する（ステップＳＴ３）。

周波数軸方向ピーク算出部２２は、ステップＳＴ３において入力された強調処理後のスペクトル情報から、周波数軸方向にスペクトル値が極大となるピーク位置を算出し、ピーク位置情報をピーク形状推定部３の連続性推定部３１に出力する（ステップＳＴ４）。連続性推定部３１は、ステップＳＴ４において入力されたピーク位置情報から、極大ピークの時間軸方向及び周波数軸方向の一定範囲内に連続するピーク候補が存在するか否かの判定を行う（ステップＳＴ５）。

ステップＳＴ５において、連続するピーク候補が存在しないと判定された場合にはステップＳＴ１１に進む。また、ステップＳＴ５において連続するピーク候補が存在すると判定された場合には、さらに同一時刻に複数のピーク候補が存在するか否か判定を行う（ステップＳＴ６）。ステップＳＴ６において、同一時刻に複数のピークが存在すると判定された場合には、周波数の最も近似するピークを連続ピークと推定する（ステップＳＴ７）。一方、ステップＳＴ６において、同一時刻に複数のピークが存在しない場合には、ステップＳＴ５において推定された連続するピーク候補を連続ピークと推定する（ステップＳＴ８）。

次に、ピークに分岐が存在するか否かの判定を行う（ステップＳＴ９）。ステップＳＴ９において、ピークの分岐が存在すると判定された場合には、分岐点においてピーク系列を分割してそれぞれ連続しない別々のピークと推定し（ステップＳＴ１０）、ステップＳＴ９において、ピークの分岐が存在しないと判定された場合には、ステップＳＴ１１に進む。ステップＳＴ１１では、ステップＳＴ５からステップＳＴ１０において推定した時間軸方向に連続するピーク系列をピーク系列情報として遷移形状推定部３２に出力する。

遷移形状推定部３２は、ステップＳＴ１１において入力されたピーク系列情報を用いて、各ピーク系列の遷移形状の周波数軸方向における誤差が一定範囲内であるか否か判定を行う（ステップＳＴ１２）。ステップＳＴ１２において、誤差が一定の範囲内であると判定された場合には、同一の遷移形状として１つのピーク系列を選択してピーク系列遷移形状と推定し、残りのピークを削除する（ステップＳＴ１３）。また、ステップＳＴ１２において、誤差が一定の範囲内でないと判定された場合には、異なる遷移形状として全てのピーク系列をピーク系列遷移形状として推定する（ステップＳＴ１４）。基本音高推定部４は、ステップＳＴ２において入力された対数周波数スペクトルとステップＳＴ１３またはステップＳＴ１４における推定結果を用いて基本音高系列を推定し、旋律出力部５に出力する（ステップＳＴ１５）。旋律出力部５は、ステップＳＴ１５において入力された基本音高情報から旋律を構成し出力する（ステップＳＴ１６）。

以上のように、この実施の形態１によれば、ピーク形状推定部において対数周波数スペクトルに対して時間軸方向に連続するピーク系列の形状を推定した後に基本音高を推定するように構成したので、基本音高の推定精度を高めることができる。また、複数の主旋律候補を得ることができるため、主旋律の再現率を上げることができる。さらに、主旋律の再現率が向上することにより、ハミング検索などの正解精度を向上させることができる。

また、この実施の形態１によれば、周波数軸をｌｏｇ対数軸とし、基本波に関わらず高調波成分の対数周波数軸上の間隔が一定となるように構成しているため、時間周波数平面上での高調波成分の軌跡は基本波の奇跡を平行移動したものとなり、高調波成分の処理が容易となる。また、対数周波数軸を線形軸として同様の演算をすることも可能である。

実施の形態２．
図７は、この発明の実施の形態２に係る旋律抽出装置の構成を示すブロック図である。ピーク検出部２は、図１に示した実施の形態１に係るピーク検出部２に時間軸方向ピーク算出部２３を追加して構成している。以下では、実施の形態１に係る旋律抽出装置の構成要素と同一の部分には実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

時間軸方向ピーク算出部（時間軸方向ピーク検出手段）２３は、フィルタ処理部２１から入力された強調処理後のスペクトル情報から、対数周波数スペクトル値Ｐｓ（ｔ，ｘ）が極大となる時間軸方向のピーク位置を算出し、ピーク位置情報を出力する。図８にピーク位置の算出結果の例を示す。図８（ａ）は周波数軸方向ピーク算出部の算出結果の例、図８（ｂ）は時間軸方向ピーク算出部の算出結果の例、図８（ｃ）は図８（ａ）と図８（ｂ）に示した結果を合成したものである。図８（ａ）に示すように周波数軸方向ピーク算出部２２で取得したピーク系列では、区間Ｂ及びＤにおいてピーク系列が不連続となり、区間Ａ、Ｃ及びＥがそれぞれ独立したピーク系列となっていることが分かる。

一方、図８（ｂ）に示す時間軸方向ピーク算出部２３で取得したピーク系列では、区間Ａ、Ｃ及びＥにおいてピーク系列が不連続となり、区間Ｂ及びＤがそれぞれ独立したピーク系列となっていることが分かる。図８（ｃ）は、周波数軸方向及び時間軸方向のピーク情報を用いているために、不連続となる区間がなく区間ＡからＥまで連続したピーク系列が得られる。このように、ピーク検出部２は、図８（ｃ）に示すような時間軸方向に連続したピーク系列情報をピーク形状推定部３の連続性推定部３１に出力する。

次に、この発明に実施の形態２に係る旋律抽出装置の動作について、ピーク系列情報取得処理を中心に、図９に示すフローチャートを参照しながら説明する。また、以下では実施の形態１に係る旋律抽出装置と同一の処理を行うステップには、図６で使用した符合と同一の符号を付し、説明を省略する。

フィルタ処理部２１は、入力されたスペクトル情報に対して、メディアンフィルタ処理を実行してピーク強調処理を行い、強調処理後のスペクトル情報を周波数軸方向ピーク算出部２２及び時間軸方向ピーク算出部２３に出力する（ステップＳＴ２１）。周波数軸方向ピーク算出部２２は、ステップＳＴ２１において入力された強調処理後のスペクトル情報から、周波数軸方向にスペクトル値が極大となるピーク位置を算出し、時間軸方向ピーク算出部２３は、ステップＳＴ２１において入力された強調処理後のスペクトル情報から、時間軸方向にスペクトル値が極大となるピーク位置を算出し、各ピーク位置情報をピーク形状推定部３の連続性推定部３１に出力する（ステップＳＴ２２）。

以上のように、実施の形態２によれば、時間軸方向ピーク算出部をさらに設け、周波数軸方向及び時間軸方向のピーク系列を算出するように構成したので、短時間で周波数が遷移するようなピークに対する連続性の判定精度を向上させることができる。このため、歌声などの周波数成分が連続的に変化するピーク系列に対して、連続したピーク系列を算出することが可能となり、音高の判定精度を向上させることができる。

なお、上記実施の形態２では、周波数軸方向ピーク算出部２２のピーク位置情報を用いて連続性判定部３１が連続性判定処理を行った後に、各ピーク系列間の接続判定を時間軸方向ピーク算出部２３のピーク位置情報を用いて行うように構成してもよい。また、周波数軸方向及び時間軸方向のピーク位置の算出は、周波数軸・時間軸方向ピーク算出部のように同一の検出部で処理を行うように構成してもよい。

実施の形態３．
図１０は、この発明の実施の形態３に係る旋律抽出装置の構成を示すブロック図である。図１に示した実施の形態１に係る旋律抽出装置に高調波畳み込み部６と音種判定部７を追加して構成している。以下では、実施の形態１に係る旋律抽出装置の構成要素と同一の部分には実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

高調波畳み込み部（畳み込み手段）６は、対数周波数スペクトル算出部１により算出された対数周波数スペクトルに対して高調波の畳み込みを行い、歌声及び楽器の基本音高成分の強調を行う。畳み込み処理は、時間ｔ、周波数ｘに対するウェーブレット変換により求められた対数周波数スペクトル値Ｐｓ（ｔ，ｘ）に対して高調波成分の畳み込みを行ったスペクトル値をＰｈ（ｔ，ｘ）とすると、Ｐｈ（ｔ，ｘ）は下記式５を用いて算出される。

なお、式５における周波数ｘの単位はオクターブであり、ＮｕｍＨｒｍは畳み込み対象とする最大高調波次数である。このようにして算出された高調波が畳み込まれた対数周波数スペクトルをピーク検出部２のフィルタ処理部２１に出力する。図１１は、高調波畳み込む部の処理結果の例を示すグラフである。

音種判定部（音種判定手段）７は、記憶部（記憶手段）７１、分散値算出部（分散値算出手段）７２及び主旋律算出部（主旋律判定手段）７３から構成されている。記憶部７１は、周波数帯域の閾値が記憶されており、例えば歌声の周波数帯域をＡ２（１１０Ｈｚ）からＡ５（８８０Ｈｚ）等として記憶している。ここで「Ａ」はオクターブ、「２」は半音階名を示している。分散値算出部７２は、基本音高推定部４から入力された基本音高情報を用いて、主旋律の範囲に含まれる音高系列の周波数成分の分散値を算出し、主旋律算出部７３に出力する。主旋律算出部７３は、分散値算出部７２から入力された分散値が記憶部７１に記憶されている閾値範囲内であるか否かの判定を行い、閾値以内であれば基本音高は歌声と判定し、歌声の周波数帯域の基本音高のみを主旋律として旋律出力部５に出力する。また、閾値以外であれば基本音高は楽器音と判定し、楽器音の周波数帯域の基本音高のみを主旋律として旋律出力部５に出力する。

なお、閾値は同一時刻での主旋律候補の最大数または平均数等から楽曲単位あるいは一定時間単位で動的に変化させることも可能である。また、主旋律は単一時刻に対して一つの周波数のみとなるため、主旋律から各時刻に対して一つの周波数となるように閾値を変化させるように構成してもよい。また、記憶部７１に予め記憶されている歌声の対象となる周波数帯域を広く設定しておき、主旋律算出部７３において歌声として検出された周波数分布から当該曲の歌手の音域を推定して周波数帯域を取り直すように構成してもよい。

旋律出力部５は、音種判定部７から入力される判定結果を用いて、基本音高推定部４で得られた基本音高を旋律として出力する。その際、同一時刻に含まれる基本音高数の閾値を楽器音に対する最大数、歌声に対する最大数と分けて設定しても良い。また、旋律として出力する際に音種判定部７の判定結果に基づき、歌声のみによる旋律や楽器のみによる旋律等の出力を行ってよい。また、音種判定部７の判定において、打鍵楽器や弦楽器等を使用した場合には、楽器種類を特定できる場合には、各楽器種類に対する最大数の設定や、各楽器のみによる旋律を出力するように構成してもよい。

以上のように、実施の形態３によれば、高調波畳み込み部が高調波の畳み込みを行うように構成したので、歌声や楽器の基本音高成分が強調されると共に、同一形状となるピーク列が現れる周波数帯域が増え、ピーク系列の遷移形状の判定が容易になる。さらに、音種判定部が歌声や楽器等の判定を行うように構成したので、歌声のみによる旋律や楽器音のみによる旋律などの取得が可能となる。

なお、上記実施の形態３では、音種判定部における歌声や楽器等の判定に基本音高推定部から入力される基本音高を用いるように構成したが、対数周波数スペクトル算出部で算出された対数周波数スペクトルを用いるように構成してもよい。この場合、歌声や楽器等の判定には対数周波数スペクトル値の形状または分散を使用する。また、歌声や楽器等の判定は、予め判定対象となる歌声や楽器等のスペクトルのモデルを作成しておき、対数周波数スペクトル算出部で算出された対数周波数スペクトル遷移と比較することにより行ってもよい。比較には、例えばＨＭＭなどを用いて尤度判定を行い、高周波成分の分布や時間遷移等を用いてもよい。また、モデルには打鍵楽器、弦楽器、打楽器、男性の歌声及び女性の歌声等複数用いることも可能である。

この発明の実施の形態１に係る旋律抽出装置の構成を示すブロック図である。この発明の実施の形態１に係る対数周波数スペクトル算出部の算出結果を示すグラフである。基本波及び高調波の相対位置関係を示すグラフである。この発明の実施の形態１に係る連続性推定部の処理結果を示すグラフである。この発明の実施の形態１に係る遷移形状推定部の推定処理を示すグラフである。この発明の実施の形態１に係る旋律抽出装置の動作を示すフローチャートである。この発明の実施の形態２に係る旋律抽出装置の構成を示すブロック図である。この発明の実施の形態２に係るピーク検出部の推定処理を示すグラフである。この発明の実施の形態２に係る旋律抽出装置の動作を示すフローチャートである。この発明の実施の形態３に係る旋律抽出装置の構成を示すブロック図である。この発明の実施の形態３に係る高調波畳み込み部の処理結果を示すグラフである。

符号の説明

１対数周波数スペクトル算出部、２ピーク検出部、３ピーク形状推定部、４基本音高推定部、５旋律出力部、６高調波畳み込み部、７音種判定部、２１フィルタ処理部、２２周波数軸方向ピーク算出部、２３時間軸方向ピーク算出部、３１連続性推定部、３２遷移形状推定部、７１記憶部、７２分散値算出部、７３主旋律算出部。

Claims

入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出手段と、
前記スペクトル算出手段から入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出手段を有するピーク検出手段と、
前記ピーク検出手段から入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定手段と、
前記ピーク形状推定手段から入力された遷移形状と前記スペクトル算出手段から入力されたパワースペクトルとから基本音高の推定を行う基本音高推定手段とを備えたことを特徴とする旋律抽出装置。
ピーク検出手段は、
スペクトル算出手段から入力されたパワースペクトルの時間軸方向のピーク位置を算出する時間軸方向ピーク検出手段を備えたことを特徴とする請求項１記載の旋律抽出装置。
スペクトル算出手段は、時間周波数平面上のパワースペクトルの周波数軸を対数軸とすることを特徴とする請求項１または請求項２記載の旋律抽出装置。
ピーク形状推定手段は、
ピーク検出手段から入力されたピーク位置に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定手段と、
前記連続性判定手段から入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定手段とを備えたことを特徴とする請求項１から請求項３のうちのいずれか１項記載の旋律抽出装置。
スペクトル算出手段から入力されたパワースペクトルに対して、基本音高及び倍音成分を強調する畳み込み処理を行う畳み込み手段を備えたことを特徴とする請求項１から請求項４のうちのいずれか１項記載の旋律抽出装置。
基本音高推定手段から入力された基本音高に基づき、主旋律の音種を判定する音種判定手段を備えたことを特徴とする請求項１から請求項５のうちのいずれか１項記載の旋律抽出装置。
音種判定手段は、
音種別に周波数帯域の閾値を記憶する記憶手段と、
基本音高推定手段から入力された基本音高について、周波数軸方向の分散値を算出する分散値算出手段と、
前記分散値算出手段から入力される分散値と、前記記憶部に記憶されている閾値を比較することにより主旋律の音種を判定する主旋律判定手段とを備えたことを特徴とする請求項１から請求項５のうちのいずれか１項記載の旋律抽出装置。
入力される音響信号に対して周波数分析を行い時間周波数平面上のパワースペクトルを算出するスペクトル算出ステップと、
前記スペクトル算出ステップから入力されたパワースペクトルの周波数軸方向のピーク位置を算出する周波数軸方向ピーク検出ステップを有するピーク検出ステップと、
前記ピーク検出ステップから入力されたピーク位置の時間周波数平面上の遷移形状を推定するピーク形状推定ステップと、
前記ピーク形状推定ステップから入力された遷移形状と前記スペクトル算出ステップから入力されたパワースペクトルとから基本音高の推定を行う基本音高推定ステップとを備えたことを特徴とする旋律抽出方法。
ピーク検出ステップは、
スペクトル算出ステップから入力されたパワースペクトルの時間軸方向のピーク位置を算出する時間軸方向ピーク検出ステップを備えたことを特徴とする請求項８記載の旋律抽出方法。
スペクトル算出ステップは、時間周波数平面上のパワースペクトルの周波数軸を対数軸とすることを特徴とする請求項８または請求項９記載の旋律抽出方法。
ピーク形状推定ステップは、
ピーク検出ステップから入力されたピーク位置に対して、時間軸方向において隣接し、且つ周波数が近似しているピークを連結することにより連続するピーク系列を推定し、推定した前記連続するピーク系列が分岐または交差している場合には、分岐点または交差点において前記連続するピーク系列を分割して連続しないピーク系列と推定する連続性推定ステップと、
前記連続性判定ステップから入力されたピーク系列について周波数軸方向の遷移形状の推定を行う遷移形状推定ステップとを備えたことを特徴とする請求項８から請求項１０のうちのいずれか１項記載の旋律抽出方法。
スペクトル算出ステップから入力されたパワースペクトルに対して、基本音高及び倍音成分を強調する畳み込み処理を行う畳み込みステップを備えたことを特徴とする請求項８から請求項１１のうちのいずれか１項記載の旋律抽出方法。
基本音高推定ステップから入力された基本音高に基づき、主旋律の音種を判定する音種判定ステップを備えたことを特徴とする請求項８から請求項１２のうちのいずれか１項記載の旋律抽出方法。
音種判定ステップは、
音種別に周波数帯域の閾値を記憶する記憶ステップと、
基本音高推定ステップから入力された基本音高について、周波数軸方向の分散値を算出する分散値算出ステップと、
前記分散値算出ステップから入力される分散値と、前記記憶部に記憶されている閾値を比較することにより主旋律の音種を判定する主旋律判定ステップとを備えたことを特徴とする請求項８から請求項１３のうちのいずれか１項記載の旋律抽出方法。