JP2007333895A - 和音推定装置及び方法 - Google Patents

和音推定装置及び方法 Download PDF

Info

Publication number
JP2007333895A
JP2007333895A JP2006163922A JP2006163922A JP2007333895A JP 2007333895 A JP2007333895 A JP 2007333895A JP 2006163922 A JP2006163922 A JP 2006163922A JP 2006163922 A JP2006163922 A JP 2006163922A JP 2007333895 A JP2007333895 A JP 2007333895A
Authority
JP
Japan
Prior art keywords
chord
component information
scale component
node
sounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006163922A
Other languages
English (en)
Other versions
JP4333700B2 (ja
Inventor
Keiichi Yamada
敬一 山田
Tatsuoki Kashiwatani
辰起 柏谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006163922A priority Critical patent/JP4333700B2/ja
Priority to US11/811,542 priority patent/US7411125B2/en
Publication of JP2007333895A publication Critical patent/JP2007333895A/ja
Application granted granted Critical
Publication of JP4333700B2 publication Critical patent/JP4333700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • G10H1/383Chord detection and/or recognition, e.g. for correction, or automatic bass generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】入力された音楽信号に対応する和音を少ない計算量で精度よく推定することが可能な和音推定装置及びその方法を提供する。
【解決手段】FFT部11は、音楽信号にフーリエ変換を施して周波数成分データを生成する。音階成分情報生成部12は、周波数方向には、C1からB7までの各音程に対応する周波数bin の大きさを加算し、時間方向には、音程毎にビートから次のビートまでの音の大きさを加算することにより、84音それぞれの大きさからなる音階成分情報を生成する。音階成分情報折り畳み部13は、84音からなる音階成分情報を2オクターブ毎に折り畳み、24音からなる音階成分情報を生成する。和音推定部14は、24音からなる音階成分情報とパラメータ記憶部15に記憶されたパラメータとに基づき、ベイジアン・ネットワークを用いて和音を推定する。
【選択図】図1

Description

本発明は、入力された音楽信号に対応する和音を推定する和音推定装置及びその方法に関する。
従来、入力された音楽信号に対応する和音を推定する技術としては、音楽信号から抽出された周波数成分データを1オクターブ(C,C#,D,D#,E,F,F#,G,G#,A,A#,Bの12音)毎に折り畳んでオクターブプロファイルを生成し、このオクターブプロファイルを標準和音プロファイルと比較して和音を推定するものが知られている(特許文献1を参照)。
また、近年では、音楽信号に対して短時間フーリエ変換を施した後の周波数ピークの周波数及びその大きさ、ルート(根音の音種)、クローマ(和音の種類:メジャー、マイナーなど)等をノードとして有するベイジアン・ネットワークを用いて和音を推定する技術も知られている(非特許文献1を参照)。
特開2000−298475号公報 Randal J. Leistikow et al.,"Bayesian Identification of Closely-Spaced Chords from Single-Frame STFT Peaks.", Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), October 5-8, 2004
ここで、和音は、楽音楽器と呼ばれる倍音構造を持った音を発する楽器で演奏される。そして、この倍音構造は、人間の聴覚がピッチを持った音として認識するために大きな役割を果たしている。なお、倍音は基音の周波数の整数倍の周波数に存在し、音楽的な音程で表現すると、第2,第3,第4倍音は、それぞれ基音の1オクターブ、1オクターブと7半音(完全5度)、2オクターブ高い音に対応する。
しかしながら、特許文献1記載の技術では、数オクターブの音を1オクターブ毎に折り畳んでいるため、音の倍音構造も折り畳まれてしまうことになる。このため、楽音楽器に起因する音と、明確な倍音構造を持たない音を発する噪音楽器に起因する音とを区別することが困難となり、和音の推定精度が低下してしまうという問題がある。
一方、非特許文献1記載の技術では、このような1オクターブ毎の折り畳みを行っていないため倍音構造を考慮することができるものの、短時間フーリエ変換後の周波数ピークの周波数及びその大きさをそのままベイジアン・ネットワークに入力しているため、和音推定のための計算量が多くなってしまうという問題がある。
本発明は、このような従来の実情に鑑みて提案されたものであり、入力された音楽信号に対応する和音を少ない計算量で精度よく推定することが可能な和音推定装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る和音推定装置は、入力された音楽信号から周波数成分を抽出する周波数成分抽出手段と、上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成手段と、上記音階成分情報生成手段によって生成された音階成分情報を2オクターブ毎に折り畳み、24音からなる音階成分情報を生成する折り畳み手段と、上記24音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定手段とを備えることを特徴とする。
また、上述した目的を達成するために、本発明に係る和音推定方法は、入力された音楽信号から周波数成分を抽出する周波数成分抽出工程と、上記周波数成分抽出工程にて抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成工程と、上記音階成分情報生成工程にて生成された音階成分情報を2オクターブ毎に折り畳み、24音からなる音階成分情報を生成する折り畳み工程と、上記24音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定工程とを有することを特徴とする。
本発明に係る和音推定装置及びその方法によれば、少ない計算量で且つ倍音構造も考慮しながら、入力された音楽信号に対応する和音を精度よく推定することが可能とされる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態では、主としてCD(Compact Disc)等の音楽媒体に録音された音楽信号について、対応する和音を推定するものとして説明するが、和音推定に使用できる音楽信号が音楽媒体に録音されたものに限らないことは勿論である。
先ず、本実施の形態における和音推定装置の概略構成を図1に示す。図1に示すように、和音推定装置1は、入力部10と、FFT(Fast Fourier Transform)部11と、音階成分情報生成部12と、音階成分情報折り畳み部13と、和音推定部14と、パラメータ記憶部15とから構成されている。
入力部10は、CD等の音楽媒体に録音された音楽信号を入力し、例えば44.1kHzから11.05kHzにダウンサンプリングする。そして、入力部10は、ダウンサンプリング後の音楽信号をFFT部10に供給する。
FFT部11は、入力部10から供給された音楽信号にフーリエ変換を施して周波数成分データを生成し、この周波数成分データを音階成分情報生成部12に供給する。この際、FFT部11は、周波数帯域に応じてウィンドウ長及びFFT長を設定することが好ましい。本実施の形態では、後段の音階成分情報生成部12において周波数ピークをC1(32.7Hz)からB7(3951.1Hz)までの7オクターブ(84音)にマッピングすることを想定しているため、例えば84音を4つのグループに分け、それぞれのグループで3半音離れた周波数ピークが解像できるように、以下の表1のようにウィンドウ長及びFFT長を設定することができる。
Figure 2007333895
音階成分情報生成部12は、周波数方向には、C1からB7までの各音程に対応する周波数bin の大きさを加算し、時間方向には、図示しない既存の音楽情報処理システムからのビート検出情報に基づいて音程毎にビートから次のビートまでの音の大きさを加算することにより、84音それぞれの大きさからなる音階成分情報を生成する。そして、音階成分情報生成部12は、この84音からなる音階成分情報を和音推定部15に供給する。
音階成分情報折り畳み部13は、84音からなる音階成分情報を音種(C,C#,D,・・・,B)毎に奇数オクターブと偶数オクターブとでそれぞれ折り畳み、24音からなる音階成分情報を生成する。このように、音階成分情報を84音から24音に折り畳むことにより、後段の和音推定部14における計算量を削減することができる。さらに、音階成分情報折り畳み部13は、折り畳んだ24音のうち、最も大きい音程の大きさで正規化する。なお、倍音の豊かさなどは物理的な音の大きさに関係があるが、上述のように音楽媒体に録音された音楽信号では、音の大きさは様々な操作を経て修正されているため、物理的な音の大きさとの関係性は小さく、正規化しても特に問題はない。
和音推定部14は、24音からなる音階成分情報とパラメータ記憶部15に記憶されたパラメータとに基づき、ベイジアン・ネットワークを用いて和音を推定し、推定された和音を外部に出力する。なお、この和音推定部14における和音推定方法についての詳細は後述する。
次に、和音推定部14における和音推定方法について説明するが、以下では説明の便宜上、先ず、84音を1オクターブ(12音)に折り畳んで12音から3音和音を推定する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明し、次いで、24音から3音和音を推定する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明する。そして最後に、24音から3音和音、4音和音を推定する場合、すなわち推定対象を4音和音まで拡張する場合のベイジアン・ネットワーク構造及びその和音推定方法について説明する。
(1)12音からの3音和音の推定
12音からの3音和音の推定では、図2に示すように、ルート(根音の音種)及びクローマ(和音の種類)に従って、コードを構成する根音、第3音、第5音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図3に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表2の通りである。
Figure 2007333895
ノードRはルートを表し、1要素からなる。また、ノードRのとり得る値は、{C,C#,D,・・・,B}の12値である。このノードRは推定対象であるため、事前分布は一様分布とする。
ノードCはクローマを表し、1要素からなる。また、ノードCのとり得る値は、メジャーとマイナーとの2値である。このノードCは推定対象であるため、事前分布は一様分布とする。
ノードAはコード構成音の大きさ、すなわち和音を構成する3つの音の大きさを表し、根音(A)、第3音(A)、第5音(A)の3要素からなる。また、ノードAは連続値をとり得る。このノードAの事前分布は3次元ガウス分布とする。
ノードWは非コード構成音の大きさ、すなわち和音を構成する音ではない音の大きさを表し、12音からコード構成音である3音を除いた12−3=9要素(W〜W)からなる。また、ノードWは連続値をとり得る。このノードWの事前分布は、各音が独立で同一のガウス分布(Independent and Identical Distribution;IID)とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。
ノードMは仮想ノードであり、ルートとクローマとに従って、コードを構成する根音、第3音、第5音、及びそれ以外の音を混合するものであるが、このノードMは親ノードから決定論的に決まるため、省略することが可能である。
ノードNは音階成分情報の各音の大きさ、すなわち12音の大きさを表し、12要素(N〜N12)からなる。また、ノードNは連続値をとり得る。
以上の各ノードを有するベイジアン・ネットワーク構造では、ノードR及びノードCの子ノードとしてノードMが存在し、ノードMの子ノードとしてノードNが存在している。また、ノードNはノードA及びノードWの子ノードでもある。
ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードR及びノードCに与え、12音からなる音階成分情報をノードNに与えることにより、ノードAのパラメータを学習する。学習されたパラメータは、パラメータ記憶部15に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部15から読み出し、12音からなる音階成分情報をノードNに与えることにより、ノードR及びノードCにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。
実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
26曲の音楽信号(日本及び英語圏のポピュラー音楽)について、コードが鳴っていると人が判断した部分について、開始時間、終了時間、ルート及びクローマを記録した。全正解データで1331点の正解サンプルを含む。そして、ベイジアン・ネットワークに観測値(12音からなる音階成分情報)、正解ルート及び正解クローマを与え、EM(Expectation Maximization)法を用いて、ノードAについて平均値として3つのパラメータと共分散対角要素として3つのパラメータとを学習させた。
このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、1331サンプルのうち1045サンプルで正解し、正解率は78.5%であった。
さらに、正解データを出現順序順に並べて、奇数エントリと偶数エントリとの2グループに分け、奇数エントリで学習し、偶数エントリで評価した場合の正解率は77.7%、であった。また、偶数エントリで学習し、奇数エントリで評価した場合の正解率は78.8%であった。両者で正解率が大きく変化していないことから、正解データへの過学習により正解率が高くなっている訳ではないことが分かる。
(2)24音からの3音和音の推定
ところで、上述した12音からの3音和音の推定では、7オクターブの音を1オクターブに折り畳んでいるため、音の倍音構造も折り畳まれてしまうことになる。このため、楽音楽器に起因する音と、明確な倍音構造を持たない音を発する噪音楽器に起因する音とを区別することが困難となり、和音の推定精度が低下してしまう。
そこで、本実施の形態における和音推定部14は、実際には2オクターブの24音から和音を推定する。
24音からの3音和音の推定では、図4に示すように、ルート、クローマ、オクターブ、及びインバージョン(和音の転回型)に従って、コードを構成する根音、第3音、第5音とそれらの第2,第3倍音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図5に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表3の通りである。
Figure 2007333895
ノードOは2オクターブのうち和音が存在するオクターブを表し、1要素からなる。また、ノードOは2オクターブのため2値をとり得る。このノードOの事前分布は一様分布とする。
ノードIはインバージョンを表し、1要素からなる。また、ノードIは4値をとり得る。このノードIの事前分布は一様分布である。
ここで、和音を構成する3つの音が2つのオクターブにどのように分かれるかには8通りの組み合わせがあり、これをノードOの2値とノードIの4値とで表現することができる。例えば、和音がCメジャー(={C,E,G})の場合には、以下の表4のような8通りの組み合わせがある。なお、インバージョンにおける“+12”は1つ上のオクターブに移動していることを意味する。
Figure 2007333895
ノードAは根音についての基音とその倍音の大きさを表し、基音(A11)、第2倍音(A12)、第3倍音(A13)の3要素からなる。また、ノードAは連続値をとり得る。このノードAの事前分布は3次元ガウス分布とする。
ノードAは第3音についての基音とその倍音の大きさを表し、基音(A21)、第2倍音(A22)、第3倍音(A23)の3要素からなる。また、ノードAは連続値をとり得る。このノードAの事前分布は3次元ガウス分布とする。
ノードAは第5音についての基音とその倍音の大きさを表し、基音(A31)、第2倍音(A32)、第3倍音(A33)の3要素からなる。また、ノードAは連続値をとり得る。このノードAの事前分布は3次元ガウス分布とする。
ノードWは非コード構成音の大きさ、すなわち和音を構成する音及びその倍音ではない音の大きさを表す。根音の第3倍音と第5音の第2倍音とが重なるため、24−9+1=16要素(W〜W16)からなる。また、ノードWは連続値をとり得る。このノードWの事前分布は、各音が独立で同一のガウス分布とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。
ノードNは音階成分情報の各音の大きさ、すなわち24音の大きさを表し、24要素(N〜N24)からなる。また、ノードNは連続値をとり得る。
これ以外の、ノードR、ノードC、ノードMは、12音から3音和音を推定する場合と同様であるため説明を省略する。
以上の各ノードを有するベイジアン・ネットワーク構造では、ノードR、ノードC、ノードO及びノードIの子ノードとしてノードMが存在し、ノードMの子ノードとしてノードNが存在している。また、ノードNはノードA〜A及びノードWの子ノードでもある。
ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードR及びノードCに与え、24音からなる音階成分情報をノードNに与えることにより、ノードA〜Aのパラメータを学習する。学習されたパラメータは、パラメータ記憶部15に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部15から読み出し、24音からなる音階成分情報をノードNに与えることにより、ノードR及びノードCにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。
実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
26曲の音楽信号(日本及び英語圏のポピュラー音楽)について、コードが鳴っていると人が判断した部分について、開始時間、終了時間、ルート及びクローマを記録した。全正解データで1331点の正解サンプルを含む。そして、ベイジアン・ネットワークにガウス曲線により重み付けをした観測値(24音からなる音階成分情報)、正解ルート及び正解クローマを与え、EM法を用いて、ノードA〜Aそれぞれについて、平均値として3つのパラメータと共分散要素として6つのパラメータとを学習させた。なお、共分散要素が6つのパラメータであるのは以下の理由による。すなわち、基音、その第2,第3倍音の大きさの分布の共分散は3×3の行列で表現できるが、対角要素以外の6つの要素は対角線に対して対象であり、独立な要素は6つであることによる。
このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、1331サンプルのうち1083サンプルで正解し、正解率は81.4%であった。
さらに、正解データを出現順序順に並べて、奇数エントリと偶数エントリとの2グループに分け、奇数エントリで学習し、偶数エントリで評価した場合の正解率は81.4%、であった。また、偶数エントリで学習し、奇数エントリで評価した場合の正解率は81.1%であった。両者で正解率が大きく変化していないことから、正解データへの過学習により正解率が高くなっている訳ではないことが分かる。
(3)24音からの3音和音、4音和音の推定(4音和音への拡張)
24音からの3音和音、4音和音の推定では、図6に示すように、ルート、クローマ、オクターブ、及びインバージョンに従って、コードを構成する根音、第3音、第5音、第7音とそれらの第2,第3倍音、及びそれ以外の音が組み合わされて観測されるモデルを仮定し、このモデルを図7に示すようなベイジアン・ネットワーク構造で表現する。各ノードの特徴は以下の表5の通りである。
Figure 2007333895
ノードCはクローマを表し、1要素からなる。また、ノードCのとり得る値は、メジャー、マイナー、ディミニッシュ、オーギュメント、メジャー・セブンス、マイナー・セブンス、ドミナント・セブンスから選ばれる2〜7値である。このノードCは推定対象であるため、事前分布は一様分布とする。
ノードIはインバージョンを表し、1要素からなる。また、ノードIは8値をとり得る。このノードIの事前分布は一様分布である。
ノードAは第7音についての基音とその倍音の大きさを表し、基音(A41)、第2倍音(A42)、第3倍音(A43)の3要素からなる。また、ノードAは連続値をとり得る。このノードAの事前分布は3次元ガウス分布とする。
ノードWは非コード構成音の大きさ、すなわち和音を構成する音及びその倍音ではない音の大きさを表し、16要素(W〜W16)からなる。また、ノードWは連続値をとり得る。このノードWの事前分布は、各音が独立で同一のガウス分布とする。なお、平均値及び分散のパラメータは、正解データの非コード構成音の統計から設定するものとする。
これ以外の、ノードR、ノードA〜A、ノードM、ノードNは、24音から3音和音を推定する場合と同様であるため説明を省略する。
以上の各ノードを有するベイジアン・ネットワーク構造では、ノードR、ノードC、ノードO及びノードIの子ノードとしてノードMが存在し、ノードMの子ノードとしてノードNが存在している。また、ノードNはノードA〜A及びノードWの子ノードでもある。
ベイジアン・ネットワークを学習する際には、正解ルート及び正解クローマをノードR及びノードCに与え、24音からなる音階成分情報をノードNに与えることにより、ノードA〜Aのパラメータを学習する。学習されたパラメータは、パラメータ記憶部15に記憶される。一方、学習後のベイジアン・ネットワークを用いて和音を推定する際には、学習されたパラメータをパラメータ記憶部15から読み出し、24音からなる音階成分情報をノードNに与えることにより、ノードR及びノードCにおけるルート及びクローマの事後確率を計算する。そして、最も事後確率が高いルート及びクローマの組み合わせを、推定された和音として出力する。
実際にベイジアン・ネットワークを学習し、和音を推定した例を以下に示す。
自動伴奏ソフトウェアであるBand-in-a-Box 13を用いて既知の和音進行(メジャー/マイナー以外の和音も含む)を持つ音楽信号を作成し、その和音を正解データとした。この際、ソング設定で、「ミドルコーラスにペダルベースを使用」及び「コードに修飾音付加」のオプションはオフとした。和音の学習・推定では、上述のようにビートから次のビートまでではなく、小節の始まりから終わりまでを1つの時間区間とした。そして、ベイジアン・ネットワークに観測値(24音からなる音階成分情報)、正解ルート及び正解クローマを与え、EM法を用いて、ノードA〜Aそれぞれについて、平均値として3つのパラメータと共分散要素として6つのパラメータとを学習させた。なお、ノードAの学習データも平均値として3つのパラメータと共分散要素として6つのパラメータとであるが、正解データの数が十分でなかったため、ノードA,Aのパラメータを流用した。
このようにしてベイジアン・ネットワークを学習した後、学習に用いたものと同じ観測値を用いて和音を推定したところ、ノードCのとり得る値をメジャーとマイナーとの2値とした場合には、正解率は97.2%であった。実際の音楽信号の場合に比べて正解率が高いのは、ボーカルやエフェクト音などが含まれていないためと考えられる。
また、ノードCのとり得る値をメジャー、マイナーにディミニッシュ、オーギュメントを加えた4値とした場合には、正解率は91.7%であった。
また、ノードCのとり得る値をメジャー、マイナーにドミナント・セブンスを加えた3値とした場合には、正解率は81.9%であった。なお、不正解の殆どはメジャーとドミナント・セブンスを混同したものであった。これは、ドミナント・セブンスの下3音がメジャーをなしているためと考えられる。
さらに、ノードCのとり得る値をメジャー、マイナー、ドミナント・セブンスにメジャー・セブンス、マイナー・セブンスを加えた5値とした場合には、正解率は68.1%であった。
さらに、ノードCのとり得る値をメジャー、マイナー、ドミナント・セブンス、メジャー・セブンス、マイナー・セブンス、ディミニッシュ、オーギュメントの7値とした場合には、正解率は69.2%であった。
以上、詳細に説明したように、本実施の形態における和音推定装置1では、音楽信号にフーリエ変換を施して周波数成分データを生成し、この周波数成分データを84音にマッピングして84音からなる音階成分情報を生成した後、さらに2オクターブ毎に折り畳んで24音からなる音階成分情報を生成し、この24音からなる音階成分情報をベイジアン・ネットワークに入力するようにしているため、周波数成分データをそのままベイジアン・ネットワークに入力する場合、或いは84音からなる音階成分情報をベイジアン・ネットワークに入力する場合よりも少ない計算量で和音を推定することができる。また、本実施の形態における和音推定装置1では、84音からなる音階成分情報を1オクターブ毎に折り畳むのではなく、2オクターブ毎に折り畳んで24音からなる音階成分情報を生成しているため、倍音構造を考慮することができ、12音からなる音階成分情報を用いる場合よりも精度よく和音を推定することができる。曲の中で演奏されている和音やその時間進行は、その曲の雰囲気や曲構造などと関連があるため、このように和音を推定することは曲のメタ情報推定にも有用である。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
例えば、上述の実施の形態ではハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理をCPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
本実施の形態における和音推定装置の概略構成を示す図である。 12音から3音和音を推定するモデルを示す図である。 12音から3音和音を推定するためのベイジアン・ネットワーク構造を示す図である。 24音から3音和音を推定するモデルを示す図である。 24音から3音和音を推定するためのベイジアン・ネットワーク構造を示す図である。 24音から4音和音を推定するモデルを示す図である。 24音から4音和音を推定するためのベイジアン・ネットワーク構造を示す図である。
符号の説明
1 和音推定装置、10 入力部、11 FFT部、12 音階成分情報生成部、13 音階成分情報折り畳み部、14 和音推定部、15 パラメータ記憶部

Claims (6)

  1. 入力された音楽信号から周波数成分を抽出する周波数成分抽出手段と、
    上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成手段と、
    上記音階成分情報生成手段によって生成された音階成分情報を2オクターブ毎に折り畳み、24音からなる音階成分情報を生成する折り畳み手段と、
    上記24音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定手段と
    を備えることを特徴とする和音推定装置。
  2. 上記和音推定手段におけるベイジアン・ネットワークは、和音のルート、クローマ、2オクターブのうち和音が存在するオクターブ、インバージョン、根音及びその倍音の大きさ、第3音及びその倍音の大きさ、第5音及びその倍音の大きさ、和音を構成する音及びその倍音以外の音の大きさ、並びに上記24音からなる音階成分情報に関するノードを少なくとも有することを特徴とする請求項1記載の和音推定装置。
  3. 上記和音推定手段におけるベイジアン・ネットワークは、第7音及びその倍音の大きさに関するノードをさらに有することを特徴とする請求項2記載の和音推定装置。
  4. 上記音階成分情報生成手段は、上記周波数成分抽出手段によって抽出された周波数成分を各音程にマッピングすると共に、音程毎の大きさを所定の時間範囲について加算することにより、上記音階成分情報を生成することを特徴とする請求項1記載の和音推定装置。
  5. 上記折り畳み手段は、生成された24音からなる音階成分情報を、当該24音のうち最も大きい音程の大きさで正規化することを特徴とする請求項1記載の和音推定装置。
  6. 入力された音楽信号から周波数成分を抽出する周波数成分抽出工程と、
    上記周波数成分抽出工程にて抽出された周波数成分を各音程にマッピングし、各音程とその大きさからなる音階成分情報を生成する音階成分情報生成工程と、
    上記音階成分情報生成工程にて生成された音階成分情報を2オクターブ毎に折り畳み、24音からなる音階成分情報を生成する折り畳み工程と、
    上記24音からなる音階成分情報をベイジアン・ネットワークに入力することにより和音を推定する和音推定工程と
    を有することを特徴とする和音推定方法。
JP2006163922A 2006-06-13 2006-06-13 和音推定装置及び方法 Expired - Fee Related JP4333700B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006163922A JP4333700B2 (ja) 2006-06-13 2006-06-13 和音推定装置及び方法
US11/811,542 US7411125B2 (en) 2006-06-13 2007-06-11 Chord estimation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006163922A JP4333700B2 (ja) 2006-06-13 2006-06-13 和音推定装置及び方法

Publications (2)

Publication Number Publication Date
JP2007333895A true JP2007333895A (ja) 2007-12-27
JP4333700B2 JP4333700B2 (ja) 2009-09-16

Family

ID=38860303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006163922A Expired - Fee Related JP4333700B2 (ja) 2006-06-13 2006-06-13 和音推定装置及び方法

Country Status (2)

Country Link
US (1) US7411125B2 (ja)
JP (1) JP4333700B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215520A (ja) * 2016-06-01 2017-12-07 株式会社Nttドコモ 識別装置
JP2020038328A (ja) * 2018-09-05 2020-03-12 国立大学法人秋田大学 コード認識方法、コード認識プログラム、及びコード認識システム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5282548B2 (ja) 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
EP2772904B1 (en) * 2013-02-27 2017-03-29 Yamaha Corporation Apparatus and method for detecting music chords and generation of accompaniment.
US9824719B2 (en) 2015-09-30 2017-11-21 Apple Inc. Automatic music recording and authoring tool
US9804818B2 (en) 2015-09-30 2017-10-31 Apple Inc. Musical analysis platform
US9852721B2 (en) * 2015-09-30 2017-12-26 Apple Inc. Musical analysis platform
US9672800B2 (en) 2015-09-30 2017-06-06 Apple Inc. Automatic composer
JP7230464B2 (ja) * 2018-11-29 2023-03-01 ヤマハ株式会社 音響解析方法、音響解析装置、プログラムおよび機械学習方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
JP2000298475A (ja) * 1999-03-30 2000-10-24 Yamaha Corp 和音判定装置、方法及び記録媒体
JP2002091433A (ja) * 2000-09-19 2002-03-27 Fujitsu Ltd メロディー情報の抽出方法その装置
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4935047B2 (ja) * 2005-10-25 2012-05-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4987282B2 (ja) * 2005-10-25 2012-07-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
JP2000298475A (ja) * 1999-03-30 2000-10-24 Yamaha Corp 和音判定装置、方法及び記録媒体
JP2002091433A (ja) * 2000-09-19 2002-03-27 Fujitsu Ltd メロディー情報の抽出方法その装置
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柏野 邦夫 KUNIO KASHINO: "音楽情景分析の処理モデルOPTIMAにおける和音の認識 Chord Recognition Mechanisms in the OPTIMA P", 電子情報通信学会論文誌 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICAT, vol. 第J79-D-II巻, JPN6008021288, 9 October 1997 (1997-10-09), JP, pages 1762 - 1770, ISSN: 0001330446 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215520A (ja) * 2016-06-01 2017-12-07 株式会社Nttドコモ 識別装置
JP2020038328A (ja) * 2018-09-05 2020-03-12 国立大学法人秋田大学 コード認識方法、コード認識プログラム、及びコード認識システム
JP7224013B2 (ja) 2018-09-05 2023-02-17 国立大学法人秋田大学 コード認識方法、コード認識プログラム、及びコード認識システム

Also Published As

Publication number Publication date
US20070289434A1 (en) 2007-12-20
US7411125B2 (en) 2008-08-12
JP4333700B2 (ja) 2009-09-16

Similar Documents

Publication Publication Date Title
JP4333700B2 (ja) 和音推定装置及び方法
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
JP3908221B2 (ja) 楽譜追跡方法およびその装置
US8380331B1 (en) Method and apparatus for relative pitch tracking of multiple arbitrary sounds
US9779706B2 (en) Context-dependent piano music transcription with convolutional sparse coding
JP2007041234A (ja) 音楽音響信号の調推定方法および調推定装置
JP2009031486A (ja) 演奏音の類似度を評価する方法、装置およびプログラム
Biles Straight-ahead jazz with GenJam: A quick demonstration
JP6175812B2 (ja) 楽音情報処理装置及びプログラム
WO2021060493A1 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
JP7359164B2 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP2005202354A (ja) 信号解析方法
Kasák et al. Music information retrieval for educational purposes-an overview
JP2017058595A (ja) 自動アレンジ装置及びプログラム
Kirby et al. The evolution of drum modes with strike intensity: Analysis and synthesis using the discrete cosine transform
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP4483561B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
Otsuka et al. Incremental polyphonic audio to score alignment using beat tracking for singer robots
JP2007240552A (ja) 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
Nizami et al. A DT-Neural Parametric Violin Synthesizer
WO2022202199A1 (ja) コード推定装置、訓練装置、コード推定方法および訓練方法
US20210366453A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
WO2022244403A1 (ja) 楽譜作成装置、訓練装置、楽譜作成方法および訓練方法
WO2020171035A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
Maheshwari et al. Automated transcription of instrumental music using sheetscore-mapping API and fuzzy classification technique

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees