JP2007333895A

JP2007333895A - 和音推定装置及び方法

Info

Publication number: JP2007333895A
Application number: JP2006163922A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田; Tatsuoki Kashiwatani; 辰起柏谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-13
Filing date: 2006-06-13
Publication date: 2007-12-27
Anticipated expiration: 2026-06-13
Also published as: US20070289434A1; US7411125B2; JP4333700B2

Abstract

【課題】入力された音楽信号に対応する和音を少ない計算量で精度よく推定することが可能な和音推定装置及びその方法を提供する。
【解決手段】ＦＦＴ部１１は、音楽信号にフーリエ変換を施して周波数成分データを生成する。音階成分情報生成部１２は、周波数方向には、Ｃ１からＢ７までの各音程に対応する周波数bin の大きさを加算し、時間方向には、音程毎にビートから次のビートまでの音の大きさを加算することにより、８４音それぞれの大きさからなる音階成分情報を生成する。音階成分情報折り畳み部１３は、８４音からなる音階成分情報を２オクターブ毎に折り畳み、２４音からなる音階成分情報を生成する。和音推定部１４は、２４音からなる音階成分情報とパラメータ記憶部１５に記憶されたパラメータとに基づき、ベイジアン・ネットワークを用いて和音を推定する。
【選択図】図１

Description

本発明は、入力された音楽信号に対応する和音を推定する和音推定装置及びその方法に関する。

従来、入力された音楽信号に対応する和音を推定する技術としては、音楽信号から抽出された周波数成分データを１オクターブ（Ｃ，Ｃ＃，Ｄ，Ｄ＃，Ｅ，Ｆ，Ｆ＃，Ｇ，Ｇ＃，Ａ，Ａ＃，Ｂの１２音）毎に折り畳んでオクターブプロファイルを生成し、このオクターブプロファイルを標準和音プロファイルと比較して和音を推定するものが知られている（特許文献１を参照）。

また、近年では、音楽信号に対して短時間フーリエ変換を施した後の周波数ピークの周波数及びその大きさ、ルート（根音の音種）、クローマ（和音の種類：メジャー、マイナーなど）等をノードとして有するベイジアン・ネットワークを用いて和音を推定する技術も知られている（非特許文献１を参照）。

特開２０００−２９８４７５号公報 Randal J. Leistikow et al.,"Bayesian Identification of Closely-Spaced Chords from Single-Frame STFT Peaks.", Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), October 5-8, 2004

ここで、和音は、楽音楽器と呼ばれる倍音構造を持った音を発する楽器で演奏される。そして、この倍音構造は、人間の聴覚がピッチを持った音として認識するために大きな役割を果たしている。なお、倍音は基音の周波数の整数倍の周波数に存在し、音楽的な音程で表現すると、第２，第３，第４倍音は、それぞれ基音の１オクターブ、１オクターブと７半音（完全５度）、２オクターブ高い音に対応する。

しかしながら、特許文献１記載の技術では、数オクターブの音を１オクターブ毎に折り畳んでいるため、音の倍音構造も折り畳まれてしまうことになる。このため、楽音楽器に起因する音と、明確な倍音構造を持たない音を発する噪音楽器に起因する音とを区別することが困難となり、和音の推定精度が低下してしまうという問題がある。

一方、非特許文献１記載の技術では、このような１オクターブ毎の折り畳みを行っていないため倍音構造を考慮することができるものの、短時間フーリエ変換後の周波数ピークの周波数及びその大きさをそのままベイジアン・ネットワークに入力しているため、和音推定のための計算量が多くなってしまうという問題がある。

本発明は、このような従来の実情に鑑みて提案されたものであり、入力された音楽信号に対応する和音を少ない計算量で精度よく推定することが可能な和音推定装置及びその方法を提供することを目的とする。

上述した目的を達成するために、本発明に係る和音推定装置は、入力された音楽信号から周波数成分を抽出する周波数成分抽出手段と、上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成手段と、上記音階成分情報生成手段によって生成された音階成分情報を２オクターブ毎に折り畳み、２４音からなる音階成分情報を生成する折り畳み手段と、上記２４音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定手段とを備えることを特徴とする。

また、上述した目的を達成するために、本発明に係る和音推定方法は、入力された音楽信号から周波数成分を抽出する周波数成分抽出工程と、上記周波数成分抽出工程にて抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成工程と、上記音階成分情報生成工程にて生成された音階成分情報を２オクターブ毎に折り畳み、２４音からなる音階成分情報を生成する折り畳み工程と、上記２４音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定工程とを有することを特徴とする。

本発明に係る和音推定装置及びその方法によれば、少ない計算量で且つ倍音構造も考慮しながら、入力された音楽信号に対応する和音を精度よく推定することが可能とされる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態では、主としてＣＤ（Compact Disc）等の音楽媒体に録音された音楽信号について、対応する和音を推定するものとして説明するが、和音推定に使用できる音楽信号が音楽媒体に録音されたものに限らないことは勿論である。

先ず、本実施の形態における和音推定装置の概略構成を図１に示す。図１に示すように、和音推定装置１は、入力部１０と、ＦＦＴ（Fast Fourier Transform）部１１と、音階成分情報生成部１２と、音階成分情報折り畳み部１３と、和音推定部１４と、パラメータ記憶部１５とから構成されている。

入力部１０は、ＣＤ等の音楽媒体に録音された音楽信号を入力し、例えば４４．１ｋＨｚから１１．０５ｋＨｚにダウンサンプリングする。そして、入力部１０は、ダウンサンプリング後の音楽信号をＦＦＴ部１０に供給する。

ＦＦＴ部１１は、入力部１０から供給された音楽信号にフーリエ変換を施して周波数成分データを生成し、この周波数成分データを音階成分情報生成部１２に供給する。この際、ＦＦＴ部１１は、周波数帯域に応じてウィンドウ長及びＦＦＴ長を設定することが好ましい。本実施の形態では、後段の音階成分情報生成部１２において周波数ピークをＣ１（３２．７Ｈｚ）からＢ７（３９５１．１Ｈｚ）までの７オクターブ（８４音）にマッピングすることを想定しているため、例えば８４音を４つのグループに分け、それぞれのグループで３半音離れた周波数ピークが解像できるように、以下の表１のようにウィンドウ長及びＦＦＴ長を設定することができる。

音階成分情報生成部１２は、周波数方向には、Ｃ１からＢ７までの各音程に対応する周波数bin の大きさを加算し、時間方向には、図示しない既存の音楽情報処理システムからのビート検出情報に基づいて音程毎にビートから次のビートまでの音の大きさを加算することにより、８４音それぞれの大きさからなる音階成分情報を生成する。そして、音階成分情報生成部１２は、この８４音からなる音階成分情報を和音推定部１５に供給する。

音階成分情報折り畳み部１３は、８４音からなる音階成分情報を音種（Ｃ，Ｃ＃，Ｄ，・・・，Ｂ）毎に奇数オクターブと偶数オクターブとでそれぞれ折り畳み、２４音からなる音階成分情報を生成する。このように、音階成分情報を８４音から２４音に折り畳むことにより、後段の和音推定部１４における計算量を削減することができる。さらに、音階成分情報折り畳み部１３は、折り畳んだ２４音のうち、最も大きい音程の大きさで正規化する。なお、倍音の豊かさなどは物理的な音の大きさに関係があるが、上述のように音楽媒体に録音された音楽信号では、音の大きさは様々な操作を経て修正されているため、物理的な音の大きさとの関係性は小さく、正規化しても特に問題はない。

和音推定部１４は、２４音からなる音階成分情報とパラメータ記憶部１５に記憶されたパラメータとに基づき、ベイジアン・ネットワークを用いて和音を推定し、推定された和音を外部に出力する。なお、この和音推定部１４における和音推定方法についての詳細は後述する。

次に、和音推定部１４における和音推定方法について説明するが、以下では説明の便宜上、先ず、８４音を１オクターブ（１２音）に折り畳んで１２音から３音和音を推定する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明し、次いで、２４音から３音和音を推定する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明する。そして最後に、２４音から３音和音、４音和音を推定する場合、すなわち推定対象を４音和音まで拡張する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明する。

（１）１２音からの３音和音の推定
１２音からの３音和音の推定では、図２に示すように、ルート（根音の音種）及びクローマ（和音の種類）に従って、コードを構成する根音、第３音、第５音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図３に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表２の通りである。

ノードＲはルートを表し、１要素からなる。また、ノードＲのとり得る値は、｛Ｃ，Ｃ＃，Ｄ，・・・，Ｂ｝の１２値である。このノードＲは推定対象であるため、事前分布は一様分布とする。

ノードＣはクローマを表し、１要素からなる。また、ノードＣのとり得る値は、メジャーとマイナーとの２値である。このノードＣは推定対象であるため、事前分布は一様分布とする。

ノードＡはコード構成音の大きさ、すなわち和音を構成する３つの音の大きさを表し、根音（Ａ_１）、第３音（Ａ_２）、第５音（Ａ_３）の３要素からなる。また、ノードＡは連続値をとり得る。このノードＡの事前分布は３次元ガウス分布とする。

ノードＷは非コード構成音の大きさ、すなわち和音を構成する音ではない音の大きさを表し、１２音からコード構成音である３音を除いた１２−３＝９要素（Ｗ_１〜Ｗ_９）からなる。また、ノードＷは連続値をとり得る。このノードＷの事前分布は、各音が独立で同一のガウス分布（Independent and Identical Distribution；ＩＩＤ）とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。

ノードＭは仮想ノードであり、ルートとクローマとに従って、コードを構成する根音、第３音、第５音、及びそれ以外の音を混合するものであるが、このノードＭは親ノードから決定論的に決まるため、省略することが可能である。

ノードＮは音階成分情報の各音の大きさ、すなわち１２音の大きさを表し、１２要素（Ｎ_１〜Ｎ_１２）からなる。また、ノードＮは連続値をとり得る。

以上の各ノードを有するベイジアン・ネットワーク構造では、ノードＲ及びノードＣの子ノードとしてノードＭが存在し、ノードＭの子ノードとしてノードＮが存在している。また、ノードＮはノードＡ及びノードＷの子ノードでもある。

ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードＲ及びノードＣに与え、１２音からなる音階成分情報をノードＮに与えることにより、ノードＡのパラメータを学習する。学習されたパラメータは、パラメータ記憶部１５に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部１５から読み出し、１２音からなる音階成分情報をノードＮに与えることにより、ノードＲ及びノードＣにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。

実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
２６曲の音楽信号（日本及び英語圏のポピュラー音楽）について、コードが鳴っていると人が判断した部分について、開始時間、終了時間、ルート及びクローマを記録した。全正解データで１３３１点の正解サンプルを含む。そして、ベイジアン・ネットワークに観測値（１２音からなる音階成分情報）、正解ルート及び正解クローマを与え、ＥＭ（Expectation Maximization）法を用いて、ノードＡについて平均値として３つのパラメータと共分散対角要素として３つのパラメータとを学習させた。

このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、１３３１サンプルのうち１０４５サンプルで正解し、正解率は７８．５％であった。

さらに、正解データを出現順序順に並べて、奇数エントリと偶数エントリとの２グループに分け、奇数エントリで学習し、偶数エントリで評価した場合の正解率は７７．７％、であった。また、偶数エントリで学習し、奇数エントリで評価した場合の正解率は７８．８％であった。両者で正解率が大きく変化していないことから、正解データへの過学習により正解率が高くなっている訳ではないことが分かる。

（２）２４音からの３音和音の推定
ところで、上述した１２音からの３音和音の推定では、７オクターブの音を１オクターブに折り畳んでいるため、音の倍音構造も折り畳まれてしまうことになる。このため、楽音楽器に起因する音と、明確な倍音構造を持たない音を発する噪音楽器に起因する音とを区別することが困難となり、和音の推定精度が低下してしまう。

そこで、本実施の形態における和音推定部１４は、実際には２オクターブの２４音から和音を推定する。

２４音からの３音和音の推定では、図４に示すように、ルート、クローマ、オクターブ、及びインバージョン（和音の転回型）に従って、コードを構成する根音、第３音、第５音とそれらの第２，第３倍音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図５に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表３の通りである。

ノードＯは２オクターブのうち和音が存在するオクターブを表し、１要素からなる。また、ノードＯは２オクターブのため２値をとり得る。このノードＯの事前分布は一様分布とする。

ノードＩはインバージョンを表し、１要素からなる。また、ノードＩは４値をとり得る。このノードＩの事前分布は一様分布である。

ここで、和音を構成する３つの音が２つのオクターブにどのように分かれるかには８通りの組み合わせがあり、これをノードＯの２値とノードＩの４値とで表現することができる。例えば、和音がＣメジャー（＝｛Ｃ，Ｅ，Ｇ｝）の場合には、以下の表４のような８通りの組み合わせがある。なお、インバージョンにおける“＋１２”は１つ上のオクターブに移動していることを意味する。

ノードＡ_１は根音についての基音とその倍音の大きさを表し、基音（Ａ_１１）、第２倍音（Ａ_１２）、第３倍音（Ａ_１３）の３要素からなる。また、ノードＡ_１は連続値をとり得る。このノードＡ_１の事前分布は３次元ガウス分布とする。

ノードＡ_２は第３音についての基音とその倍音の大きさを表し、基音（Ａ_２１）、第２倍音（Ａ_２２）、第３倍音（Ａ_２３）の３要素からなる。また、ノードＡ_２は連続値をとり得る。このノードＡ_２の事前分布は３次元ガウス分布とする。

ノードＡ_３は第５音についての基音とその倍音の大きさを表し、基音（Ａ_３１）、第２倍音（Ａ_３２）、第３倍音（Ａ_３３）の３要素からなる。また、ノードＡ_３は連続値をとり得る。このノードＡ_３の事前分布は３次元ガウス分布とする。

ノードＷは非コード構成音の大きさ、すなわち和音を構成する音及びその倍音ではない音の大きさを表す。根音の第３倍音と第５音の第２倍音とが重なるため、２４−９＋１＝１６要素（Ｗ_１〜Ｗ_１６）からなる。また、ノードＷは連続値をとり得る。このノードＷの事前分布は、各音が独立で同一のガウス分布とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。

ノードＮは音階成分情報の各音の大きさ、すなわち２４音の大きさを表し、２４要素（Ｎ_１〜Ｎ_２４）からなる。また、ノードＮは連続値をとり得る。

これ以外の、ノードＲ、ノードＣ、ノードＭは、１２音から３音和音を推定する場合と同様であるため説明を省略する。

以上の各ノードを有するベイジアン・ネットワーク構造では、ノードＲ、ノードＣ、ノードＯ及びノードＩの子ノードとしてノードＭが存在し、ノードＭの子ノードとしてノードＮが存在している。また、ノードＮはノードＡ_１〜Ａ_３及びノードＷの子ノードでもある。

ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードＲ及びノードＣに与え、２４音からなる音階成分情報をノードＮに与えることにより、ノードＡ_１〜Ａ_３のパラメータを学習する。学習されたパラメータは、パラメータ記憶部１５に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部１５から読み出し、２４音からなる音階成分情報をノードＮに与えることにより、ノードＲ及びノードＣにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。

実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
２６曲の音楽信号（日本及び英語圏のポピュラー音楽）について、コードが鳴っていると人が判断した部分について、開始時間、終了時間、ルート及びクローマを記録した。全正解データで１３３１点の正解サンプルを含む。そして、ベイジアン・ネットワークにガウス曲線により重み付けをした観測値（２４音からなる音階成分情報）、正解ルート及び正解クローマを与え、ＥＭ法を用いて、ノードＡ_１〜Ａ_３それぞれについて、平均値として３つのパラメータと共分散要素として６つのパラメータとを学習させた。なお、共分散要素が６つのパラメータであるのは以下の理由による。すなわち、基音、その第２，第３倍音の大きさの分布の共分散は３×３の行列で表現できるが、対角要素以外の６つの要素は対角線に対して対象であり、独立な要素は６つであることによる。

このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、１３３１サンプルのうち１０８３サンプルで正解し、正解率は８１．４％であった。

さらに、正解データを出現順序順に並べて、奇数エントリと偶数エントリとの２グループに分け、奇数エントリで学習し、偶数エントリで評価した場合の正解率は８１．４％、であった。また、偶数エントリで学習し、奇数エントリで評価した場合の正解率は８１．１％であった。両者で正解率が大きく変化していないことから、正解データへの過学習により正解率が高くなっている訳ではないことが分かる。

（３）２４音からの３音和音、４音和音の推定（４音和音への拡張）
２４音からの３音和音、４音和音の推定では、図６に示すように、ルート、クローマ、オクターブ、及びインバージョンに従って、コードを構成する根音、第３音、第５音、第７音とそれらの第２，第３倍音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図７に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表５の通りである。

ノードＣはクローマを表し、１要素からなる。また、ノードＣのとり得る値は、メジャー、マイナー、ディミニッシュ、オーギュメント、メジャー・セブンス、マイナー・セブンス、ドミナント・セブンスから選ばれる２〜７値である。このノードＣは推定対象であるため、事前分布は一様分布とする。

ノードＩはインバージョンを表し、１要素からなる。また、ノードＩは８値をとり得る。このノードＩの事前分布は一様分布である。

ノードＡ_４は第７音についての基音とその倍音の大きさを表し、基音（Ａ_４１）、第２倍音（Ａ_４２）、第３倍音（Ａ_４３）の３要素からなる。また、ノードＡ_４は連続値をとり得る。このノードＡ_４の事前分布は３次元ガウス分布とする。

ノードＷは非コード構成音の大きさ、すなわち和音を構成する音及びその倍音ではない音の大きさを表し、１６要素（Ｗ_１〜Ｗ_１６）からなる。また、ノードＷは連続値をとり得る。このノードＷの事前分布は、各音が独立で同一のガウス分布とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。

これ以外の、ノードＲ、ノードＡ_１〜Ａ_３、ノードＭ、ノードＮは、２４音から３音和音を推定する場合と同様であるため説明を省略する。

以上の各ノードを有するベイジアン・ネットワーク構造では、ノードＲ、ノードＣ、ノードＯ及びノードＩの子ノードとしてノードＭが存在し、ノードＭの子ノードとしてノードＮが存在している。また、ノードＮはノードＡ_１〜Ａ_４及びノードＷの子ノードでもある。

ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードＲ及びノードＣに与え、２４音からなる音階成分情報をノードＮに与えることにより、ノードＡ_１〜Ａ_４のパラメータを学習する。学習されたパラメータは、パラメータ記憶部１５に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部１５から読み出し、２４音からなる音階成分情報をノードＮに与えることにより、ノードＲ及びノードＣにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。

実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
自動伴奏ソフトウェアであるBand-in-a-Box 13を用いて既知の和音進行（メジャー／マイナー以外の和音も含む）を持つ音楽信号を作成し、その和音を正解データとした。この際、ソング設定で、「ミドルコーラスにペダルベースを使用」及び「コードに修飾音付加」のオプションはオフとした。和音の学習・推定では、上述のようにビートから次のビートまでではなく、小節の始まりから終わりまでを１つの時間区間とした。そして、ベイジアン・ネットワークに観測値（２４音からなる音階成分情報）、正解ルート及び正解クローマを与え、ＥＭ法を用いて、ノードＡ_１〜Ａ_３それぞれについて、平均値として３つのパラメータと共分散要素として６つのパラメータとを学習させた。なお、ノードＡ_４の学習データも平均値として３つのパラメータと共分散要素として６つのパラメータとであるが、正解データの数が十分でなかったため、ノードＡ_２，Ａ_３のパラメータを流用した。

このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、ノードＣのとり得る値をメジャーとマイナーとの２値とした場合には、正解率は９７．２％であった。実際の音楽信号の場合に比べて正解率が高いのは、ボーカルやエフェクト音などが含まれていないためと考えられる。

また、ノードＣのとり得る値をメジャー、マイナーにディミニッシュ、オーギュメントを加えた４値とした場合には、正解率は９１．７％であった。

また、ノードＣのとり得る値をメジャー、マイナーにドミナント・セブンスを加えた３値とした場合には、正解率は８１．９％であった。なお、不正解の殆どはメジャーとドミナント・セブンスを混同したものであった。これは、ドミナント・セブンスの下３音がメジャーをなしているためと考えられる。

さらに、ノードＣのとり得る値をメジャー、マイナー、ドミナント・セブンスにメジャー・セブンス、マイナー・セブンスを加えた５値とした場合には、正解率は６８．１％であった。

さらに、ノードＣのとり得る値をメジャー、マイナー、ドミナント・セブンス、メジャー・セブンス、マイナー・セブンス、ディミニッシュ、オーギュメントの７値とした場合には、正解率は６９．２％であった。

以上、詳細に説明したように、本実施の形態における和音推定装置１では、音楽信号にフーリエ変換を施して周波数成分データを生成し、この周波数成分データを８４音にマッピングして８４音からなる音階成分情報を生成した後、さらに２オクターブ毎に折り畳んで２４音からなる音階成分情報を生成し、この２４音からなる音階成分情報をベイジアン・ネットワークに入力するようにしているため、周波数成分データをそのままベイジアン・ネットワークに入力する場合、或いは８４音からなる音階成分情報をベイジアン・ネットワークに入力する場合よりも少ない計算量で和音を推定することができる。また、本実施の形態における和音推定装置１では、８４音からなる音階成分情報を１オクターブ毎に折り畳むのではなく、２オクターブ毎に折り畳んで２４音からなる音階成分情報を生成しているため、倍音構造を考慮することができ、１２音からなる音階成分情報を用いる場合よりも精度よく和音を推定することができる。曲の中で演奏されている和音やその時間進行は、その曲の雰囲気や曲構造などと関連があるため、このように和音を推定することは曲のメタ情報推定にも有用である。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

例えば、上述の実施の形態ではハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理をＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。

本実施の形態における和音推定装置の概略構成を示す図である。１２音から３音和音を推定するモデルを示す図である。１２音から３音和音を推定するためのベイジアン・ネットワーク構造を示す図である。２４音から３音和音を推定するモデルを示す図である。２４音から３音和音を推定するためのベイジアン・ネットワーク構造を示す図である。２４音から４音和音を推定するモデルを示す図である。２４音から４音和音を推定するためのベイジアン・ネットワーク構造を示す図である。

符号の説明

１和音推定装置、１０入力部、１１ＦＦＴ部、１２音階成分情報生成部、１３音階成分情報折り畳み部、１４和音推定部、１５パラメータ記憶部

Claims

入力された音楽信号から周波数成分を抽出する周波数成分抽出手段と、
上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成手段と、
上記音階成分情報生成手段によって生成された音階成分情報を２オクターブ毎に折り畳み、２４音からなる音階成分情報を生成する折り畳み手段と、
上記２４音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定手段と
を備えることを特徴とする和音推定装置。
上記和音推定手段におけるベイジアン・ネットワークは、和音のルート、クローマ、２オクターブのうち和音が存在するオクターブ、インバージョン、根音及びその倍音の大きさ、第３音及びその倍音の大きさ、第５音及びその倍音の大きさ、和音を構成する音及びその倍音以外の音の大きさ、並びに上記２４音からなる音階成分情報に関するノードを少なくとも有することを特徴とする請求項１記載の和音推定装置。
上記和音推定手段におけるベイジアン・ネットワークは、第７音及びその倍音の大きさに関するノードをさらに有することを特徴とする請求項２記載の和音推定装置。
上記音階成分情報生成手段は、上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングすると共に、音程毎の大きさを所定の時間範囲について加算することにより、上記音階成分情報を生成することを特徴とする請求項１記載の和音推定装置。
上記折り畳み手段は、生成された２４音からなる音階成分情報を、当該２４音のうち最も大きい音程の大きさで正規化することを特徴とする請求項１記載の和音推定装置。
入力された音楽信号から周波数成分を抽出する周波数成分抽出工程と、
上記周波数成分抽出工程にて抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成工程と、
上記音階成分情報生成工程にて生成された音階成分情報を２オクターブ毎に折り畳み、２４音からなる音階成分情報を生成する折り畳み工程と、
上記２４音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定工程と
を有することを特徴とする和音推定方法。