JP2007101780A

JP2007101780A - 楽曲のタイムスパン木の自動分析方法、自動分析装置、プログラムおよび記録媒体

Info

Publication number: JP2007101780A
Application number: JP2005289732A
Authority: JP
Inventors: Masatoshi Hamanaka; 雅俊浜中; Satoshi Tojo; 敏東条
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2005-10-03
Filing date: 2005-10-03
Publication date: 2007-04-19

Abstract

【課題】楽曲データからタイムスパン木を自動的に獲得する。
【解決手段】自動分析装置のタイムスパン簡約部は、楽曲データが示す連続した個々の音の特性に基づき、楽曲中のそれぞれのタイムスパンにおけるヘッドについてその強さを算出し、算出した強さの値をヘッドと対応付けて記憶手段に格納するヘッド強度算出ステップＳ３１と、現在の処理対象のタイムスパンの中にヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を記憶手段から読み出して比較することにより、候補の中から次の階層のヘッドを選択するヘッド選択ステップＳ３２とを実行すると共に、次の階層のヘッドが１つになるまでステップＳ３１，Ｓ３２を再帰的に繰り返す。
【選択図】図６

Description

本発明は、音楽理論ＧＴＴＭに基づき、楽曲のメロディの構造を木構造で階層的に表したタイムスパン木を自動的に獲得する楽曲のタイムスパン木の自動分析方法、自動分析装置、プログラムおよび記録媒体に関するものである。

人間が音楽を聴くとき、初めて聞くような旋律でも心地よく感じたり、音が外れているように聞こえるのはなぜだろうか、このような問いに対する研究は古くから行われてきた。その中で、楽曲を音符列という符号化された情報であるという視点から構造的に分析し、音楽認識を客観的に捉えようという理論がある。Generative Theory of Tonal Music（ＧＴＴＭ）は、そのような理論の中の一つであり、様々な理由により計算機上での自動化が有望視されている。ＧＴＴＭによる楽曲の分析が自動化されれば、これまでの音楽検索エンジンとは違ったアプローチによる楽曲検索エンジンの作成や、自動伴奏システム、作曲支援などへの応用が期待できる（例えば、非特許文献１、非特許文献２参照）。

ＧＴＴＭは、グルーピング構造分析、拍節構造分析、タイムスパン簡約、プロロンゲーション簡約という４つのサブ理論から構成される。このうち、タイムスパン簡約は、楽曲に含まれる各音の関係をタイムスパン木と呼ばれる２分木で表す分析である。タイムスパン簡約は、タイムスパン簡約構成ルール（Time-Span Reduction Well-Formedness Rule:TSRWFR）とタイムスパン簡約選好ルール（Time-Span Reduction Preference Rule:TSRPR）の２種類によって定義されている。ＴＳＲＷＦＲは、タイムスパン木が成立するために必要な条件の制約であり、ＴＳＲＰＲは、ＴＳＲＷＦＲが成立するタイムスパン木が複数存在する場合に、どれが好ましいかを示すルールである。

T.A.Nord，「Toward Theoretical verfication:Developing a computer model of Lerdahl and Jackendoff's generative theory of tonal music」，University of Wisconsin-Madison，p.84-118，1992 F.Lerdahl et al.，「A Generative Theory of Tonal Music」，MIT Press，p.146-178，1983

上述したＧＴＴＭは、元々計算機上への実装を目指した理論ではない。このため、計算機上でのＧＴＴＭの自動化には多くの問題がある。第１に、ＴＳＲＰＲを適用する際に、ルールの適用順序が決まっていないので、ルールの競合がしばしば起きるという問題があり、第２に、ＴＳＲＰＲの定義には、抽象的で曖昧な部分が多く含まれるので、計算機上への実装が難しいという問題がある。非特許文献１には、計算機を使ってタイムスパン木の獲得を行う例が開示されているが、ルールの競合の問題やルールの定義の曖昧さの問題が解消されておらず、多くのルールの適用を手作業で適用しており、分析の自動化は実現できていなかった。以上のように、従来の技術では、ルールの競合や定義の曖昧性から、ＧＴＴＭのタイムスパン簡約を計算機上に実装し、自動化を図ることが困難であるという問題点があった。

本発明は、このような課題を解決するためになされたものであり、その目的は、楽曲データからのタイムスパン木の獲得を自動化することにある。

本発明は、楽曲データに基づきその楽曲のタイムスパン木を分析する自動分析方法であって、前記楽曲データが示す連続した個々の音の特性に基づき、前記楽曲中のそれぞれのタイムスパンにおける重要な音であるヘッドについてその強さを算出し、算出した強さの値をヘッドと対応付けて記憶手段に格納するヘッド強度算出ステップと、現在の処理対象のタイムスパンの中に前記ヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を前記記憶手段から読み出して比較することにより、前記候補の中から前記次の階層のヘッドを選択するヘッド選択ステップとを備えるものである。
また、本発明の楽曲のタイムスパン木の自動分析方法の１構成例において、前記ヘッド強度算出ステップは、ＧＴＴＭに基づく複数の評価指標と、それぞれの評価指標に対する重みとに基づいて、前記ヘッドの強さを算出するようにしたものである。
また、本発明の楽曲のタイムスパン木の自動分析方法の１構成例において、前記ヘッド強度算出ステップは、前記評価指標に基づいて前記ヘッドの評価値と閾値とを比較し、その結果に基づき前記ヘッドの強さを増大させるようにしたものである。

また、本発明の楽曲のタイムスパン木の自動分析装置は、前記楽曲データが示す連続した個々の音の特性に基づき、前記楽曲中のそれぞれのタイムスパンにおける重要な音であるヘッドについてその強さを算出するヘッド強度算出手段と、前記強さの値をヘッドと対応付けて記憶する記憶手段と、現在の処理対象のタイムスパンの中に前記ヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を前記記憶手段から読み出して比較することにより、前記候補の中から前記次の階層のヘッドを選択するヘッド選択手段とを備えるものである。
また、本発明の楽曲のタイムスパン木の自動分析装置の１構成例において、前記ヘッド強度算出手段は、ＧＴＴＭに基づく複数の評価指標と、それぞれの評価指標に対する重みとに基づいて、前記ヘッドの強さを算出するものである。
また、本発明の楽曲のタイムスパン木の自動分析装置の１構成例において、前記ヘッド強度算出手段は、前記評価指標に基づいて前記ヘッドの評価値と閾値とを比較し、その結果に基づき前記ヘッドの強さを増大させるものである。

また、本発明のタイムスパン木自動分析プログラムは、ヘッド強度算出ステップと、ヘッド選択ステップとを、コンピュータに実行させるようにしたものである。
また、本発明の記録媒体は、タイムスパン木自動分析プログラムを記録したものである。

本発明では、楽曲中のそれぞれのタイムスパンにおけるヘッドの強さを算出し、各ヘッドの強さの値を比較して次の階層のヘッドを選択することにより、楽曲データから階層的なタイムスパン木を自動的に獲得することができる。
そして、本発明では、ヘッドの強さを算出する際に、複数の評価指標（タイムスパン簡約選好ルール）と、それぞれの評価指標に対する重みとを用いることにより、各ルール間の優先順位を決めることができ、ルールの競合を防止することができる。
また、本発明では、ヘッドの強さを算出する際に、ヘッドの評価値と閾値とを比較することにより、たとえ評価指標の定義が曖昧であっても、評価指標を定式化することが可能となる。
これにより、本発明では、ルールの競合や定義の曖昧性の問題があるＧＴＴＭのような音楽理論であっても、コンピュータ上に実装することができ、タイムスパン木を自動で獲得することが可能となる。

以下、本発明の実施の形態について図面を参照して説明する。図１は、本発明の実施の形態に係る楽曲の自動分析装置の第１の構成例を示すブロック図である。図１の自動分析装置は、ＧＴＴＭに基づく音楽分析を行うものであり、グルーピング構造分析部１と、拍節構造分析部２と、タイムスパン簡約部３とから構成される。

図２に、グルーピング構造、拍節構造、タイムスパン木の概要を示す。グルーピング構造分析は、連続したメロディをフレーズやモチーフなどに階層的に分割するもので、長いメロディを歌うときにどこで息継ぎすべきかを見つけるような分析である。
拍節構造分析は、４分音符、２分音符、１小節、２小節、４小節などの各拍節レベルにおける強拍と弱拍を同定するもので、聴取者が曲に合わせて手拍子を打つタイミングや指揮者がタクトを振るタイミングを求めるような分析である。

タイムスパン簡約は、メロディの重要な部分と装飾的な部分を分離するもので、構造的に重要な音が幹になるようなタイムスパン木を求める分析である。図３（Ａ）は、メロディとそのタイムスパン木を描いたものであるが、そのタイムスパンは、図３（Ｂ）のようにヘッドと呼ばれる１つの音で代表させることができる（ここでは、Ｃ４の音）。

本発明はＧＴＴＭに基づく音楽分析のうちタイムスパン簡約に関するものであるが、タイムスパン簡約はグルーピング構造分析と拍節構造分析の結果に基づいて行われるので、タイムスパン簡約について説明するために、まずグルーピング構造分析と拍節構造分析について簡単に説明する。

図４は、楽曲のグルーピング構造の自動分析方法の概要を示す図である。自動分析装置のグルーピング構造分析部１は、図４に示すように、メロディを構成する個々の音の特性を示す楽曲データが入力される楽曲データ入力ステップＳ１１と、入力された楽曲データに示される連続した個々の音の特性が変化する箇所を検出しメロディの局所的境界とする局所的境界検出ステップＳ１２と、検出した局所的境界に基づいてメロディを分割することによりメロディの階層的なグルーピング構造を分析するグルーピング構造分析ステップＳ１３と、グルーピング構造分析結果を出力する分析結果出力ステップＳ１４とを実行する。

自動分析装置に入力される楽曲データは、メロディを構成する個々の音の特性、例えば音の高さ、長さ、強さ、間隔などのデータからなる。楽曲データとしては、例えばＭｕｓｉｃＸＭＬ形式のデータを用いることができる。ＭｕｓｉｃＸＭＬは、ＸＭＬ（extensible mark-up language）に基づく楽譜表記の方法であり、アトリビュートエレメントとノートエレメントとからなる。アトリビュートエレメントには、調記号、拍子記号および音部記号が記述され、ノートエレメントには、音高、音価およびノーテーションエレメントが記述される。ノーテーションエレメントには、タイ、スラー、フェルマータ、アルペジオ、強弱記号、装飾音、アーティキュレーションなどが記述される。

自動分析装置のグルーピング構造分析部１は、楽曲データの分析の結果、例えばＧｒｏｕｐｉｎｇＸＭＬで記述されたグルーピング構造分析結果を出力する。ＸＭＬに基づくデータ構造は、後述する拍節構造、タイムスパン木でも用いるが、階層的なグルーピング構造、拍節構造、タイムスパン木を表現する上で極めて適している。
ＧｒｏｕｐｉｎｇＸＭＬは、グループエレメントと、ノートエレメントと、アプライドエレメントとからなる。すべてのノートエレメントは、発音時刻順に並んでおり、階層的なグループエレメントの内部に存在する。アプライドエレメントは、グループの終了タグと次のグループの開始タグとの間に位置し、ＧＴＴＭのグルーピング選好ルールＧＰＲ（Grouping Preference Rules）の適用位置を表す。

以上のグルーピング構造分析方法の詳細については、文献「浜中雅俊他，“ＧＴＴＭグルーピング構造分析の実装：ルールを制御するパラメータの導入”，情報処理学会研究報告，Ｖｏｌ．２００４，Ｎｏ．４１，２００４年５月」に記載されている。このようなグルーピング構造分析方法により、楽曲の階層的なグルーピング構造を検出することができる。

次に、拍節構造分析について説明する。図５は、楽曲の拍節構造の自動分析方法の概要を示す図である。自動分析装置の拍節構造分析部２は、図５に示すように、楽曲データＭｕｓｉｃＸＭＬとグルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬに基づいて、現在の階層（拍節レベル）の拍節構造における各拍点の局所的な強さＤ_i ^low-level（ｉは自然数）を算出するステップＳ２１と、ステップＳ２１の算出結果に基づいて次の階層の拍節構造の候補ｍハット（以下、文字上に付した「∧」をハットと呼ぶ）＝１，２，３，４，５の中から１つを選択するステップＳ２２とを実行すると共に、次の階層の拍節構造の拍点が１つになるまでステップＳ２１，Ｓ２２を再帰的に繰り返すことにより（ステップＳ２３）、楽曲の階層的な拍節構造を獲得する。拍節構造分析の対象は、グルーピング構造分析により得られた楽曲のグループ内である。

ステップＳ２１においては、楽曲データＭｕｓｉｃＸＭＬおよびグルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬを入力とし、評価指標としてＧＴＴＭの拍節選好ルールＭＰＲ（Metrical Preference Rule）１，ＭＰＲ２，ＭＰＲ３，ＭＰＲ４，ＭＰＲ５を適用して、現在の階層の拍節構造における各拍点の局所的な強さＤ_i ^low-levelを算出する。
ステップＳ２２においては、次の階層の拍節構造の候補ｍハット＝１，２，３，４，５のそれぞれについて、その候補に含まれる各拍点の局所的な強さＤ_i ^low-levelの値の総和を求め、総和が最大となった候補を次の階層の拍節構造として選択する。

拍節構造の分析結果は、例えばＭｅｔｒｉｃａｌＸＭＬ形式で出力される。ＭｅｔｒｉｃａｌＸＭＬは、メトリックエレメントと、メトリックエレメントの内部にあるアプライドエレメントおよびノートエレメントとからなる。メトリックエレメントは、楽曲中の拍の強さを最小拍節レベルの拍ごとに表し、アプライドエレメントは、各拍節レベルに適用されるルールを表す。

以上の拍節構造分析方法の詳細については、文献「浜中雅俊他，“ＧＴＴＭに基づく楽曲構造分析の実装：グルーピング構造と拍節構造の獲得”，情報処理学会研究報告，Ｖｏｌ．２００４，Ｎｏ．８４，２００４年８月」に記載されている。このような拍節構造分析方法により、楽曲の階層的な拍節構造を検出することができる。

次に、タイムスパン簡約について説明する。図６は、本実施の形態に係る楽曲のタイムスパン木の自動分析方法の概要を示す図である。
自動分析装置のタイムスパン簡約部３は、楽曲データが示す連続した個々の音の特性に基づき、楽曲中のそれぞれのタイムスパンにおけるヘッドについてその強さを算出し、算出した強さの値をヘッドと対応付けて記憶手段に格納するヘッド強度算出ステップＳ３１と、現在の処理対象のタイムスパンの中にヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を記憶手段から読み出して比較することにより、候補の中から次の階層のヘッドを選択するヘッド選択ステップＳ３２とを実行すると共に、次の階層のヘッドが１つになるまでステップＳ３１，Ｓ３２を再帰的に繰り返すことにより（ステップＳ３３）、楽曲のタイムスパン木を獲得する。

タイムスパン簡約部３は、タイムスパン木の分析結果を、例えばＴｉｍｅ−ｓｐａｎＸＭＬ形式で出力する。Ｔｉｍｅ−ｓｐａｎＸＭＬは、タイムスパンエレメント、ヘッドエレメント、プライマリーエレメント、セカンダリーエレメントおよびノートエレメントからなる。タイムスパンエレメントの中には、ヘッドエレメント、プライマリーエレメント、セカンダリーエレメントがそれぞれ一つずつある。ノートエレメントは、ヘッドエレメントの中に現れる。そして、プライマリーエレメントとセカンダリーエレメントの下にはタイムスパンエレメントが再帰的に現れる。タイムスパン木の末端では、プライマリーエレメントとセカンダリーエレメントを含まないヘッドエレメントが現れる。

図７は、タイムスパン簡約部３の構成例を示すブロック図である。タイムスパン簡約部３は、楽曲データＭｕｓｉｃＸＭＬ、グルーピング構造分析部１から出力されたグルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬ、および拍節構造分析部２から出力された拍節構造分析結果ＭｅｔｒｉｃａｌＸＭＬに基づいて各種の基本変数を算出する基本変数算出部３１と、基本変数算出部３１において算出された基本変数を記憶する基本変数記憶部３２と、楽曲をメロディの分割単位であるタイムスパンに分割するタイムスパン分割部３３と、ＧＴＴＭの各タイムスパン簡約選好ルールＴＳＲＰＲｎ（ｎ＝１，３ａ，３ｂ，４，８，９）の相対的な強さを決めるパラメータＳ^TSRPRnを設定するパラメータ設定部３４と、基本変数とパラメータから現在の階層のタイムスパンにおける各ヘッドの局所的な強さＤ_i ^time-spanを算出する局所的ヘッド強度算出部３５と、算出されたヘッドの強さＤ_i ^time-spanを記憶する記憶手段となるヘッド強度記憶部３６と、ヘッドの強さＤ_i ^time-spanに基づいて次の階層のタイムスパンのヘッドを選択するヘッド選択部３７と、各階層のヘッドを記憶する階層的ヘッド記憶部３８と、階層的ヘッド記憶部３８に記憶されている分析結果をＴｉｍｅ−ｓｐａｎＸＭＬ形式で出力する分析結果出力部３９とから構成される。

局所的ヘッド強度算出部３５は、さらにＧＴＴＭのタイムスパン簡約選好ルールＴＳＲＰＲ１を評価するＴＳＲＰＲ１評価部５１と、タイムスパン簡約選好ルールＴＳＲＰＲ３ａを評価するＴＳＲＰＲ３ａ評価部５２と、タイムスパン簡約選好ルールＴＳＲＰＲ３ｂを評価するＴＳＲＰＲ３ｂ評価部５３と、タイムスパン簡約選好ルールＴＳＲＰＲ４を評価するＴＳＲＰＲ４評価部５４と、タイムスパン簡約選好ルールＴＳＲＰＲ８を評価するＴＳＲＰＲ８評価部５５と、タイムスパン簡約選好ルールＴＳＲＰＲ９を評価するＴＳＲＰＲ９評価部５６と、評価関数Ｄ_i ^TSRPRj（ｊ＝１，３ａ，３ｂ，８，９）の重み付け和Ｂ_iを算出する重み付け和算出部５７と、局所的なヘッドの強さＤ_i ^time-spanを算出するヘッド強度算出部５８とから構成される。

図８は、タイムスパン簡約部３の動作を示すフローチャートである。まず、タイムスパン簡約部３には、楽曲データＭｕｓｉｃＸＭＬと、グルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬと、拍節構造分析結果ＭｅｔｒｉｃａｌＸＭＬが入力される（ステップＳ１０１，Ｓ１０２，Ｓ１０３）。

タイムスパン簡約部３のタイムスパン分割部３３は、楽曲を階層的なタイムスパン構造に分割する（ステップＳ１０４）。各タイムスパンには、最低１個以上の音符が含まれる。階層的なタイムスパン構造では、最大単位（最上層）のタイムスパンから最小単位（最下層）のタイムスパンへとタイムスパンが次第に小さくなっていくが、このうち上層側のタイムスパンについては、グルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬが示している階層的なグルーピング構造における各グループをそのままタイムスパンとして採用すればよい。すなわち、最大単位のグループを最大単位のタイムスパンとして、以下順に下層に向かって各層のタイムスパンを決定していけばよい。

そして、グルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬが示している最小単位のグループ（図２に示したグルーピング構造における最上層のグループ）をタイムスパンとして採用したときに、このタイムスパンが複数の音符を含む場合には、拍節構造分析結果ＭｅｔｒｉｃａｌＸＭＬに基づいて、このタイムスパンに含まれる最も強い拍点の位置でタイムスパンを２つに分割し、分割した２つのタイムスパンを下層のタイムスパンとして採用する。このような分割と下層のタイムスパンの生成を、下層のタイムスパンに含まれる音符が１個になるまで繰り返す。音符が１個になったタイムスパンが最小単位のタイムスパンである。すなわち、最小単位のタイムスパンには１個の音符が含まれ、それよりも上層のタイムスパンは複数のタイムスパンを含むものである。こうして、楽曲の階層的なタイムスパン構造を検出することができる。

本実施の形態では、評価指標としてＧＴＴＭのタイムスパン簡約選好ルールＴＳＲＰＲｎ（ｎ＝１，３ａ，３ｂ，４，８，９）を用いて、現在の階層のタイムスパンにおける各ヘッドの局所的な強さＤ_i ^time-spanを算出するので、パラメータ設定部３４の動作を説明する前に、タイムスパン簡約選好ルールＴＳＲＰＲｎについて説明する。

本実施の形態では、各選好ルールを数式化することによって、複数のルールの適用結果の統合が容易に行えるようにする。評価関数Ｄ_i ^TSRPRjは、ルールが成立する度合いを示す関数である。評価関数Ｄ_i ^TSRPRjは、成立するかどうかが明らかなルールの場合、１か０のどちらかの値をとる。また、評価関数Ｄ_i ^TSRPRjは、成立するかどうかが曖昧なルールの場合、１から０までの値をとる。

まず、ＴＳＲＰＲ１は、強い拍点のヘッドを次の階層のヘッドとして優先するルールである。本実施の形態では、ＴＳＲＰＲ１の評価関数Ｄ_i ^TSRPR1を式（１）のように定式化する。

式（１）において、式（２）の値は、処理対象のタイムスパンに含まれるヘッドｊのうち拍点の数が最大となるヘッドの拍点の数を意味する。

ＴＳＲＰＲ３ａは、旋律の高い音を次の階層のヘッドとして優先するルールである。本実施の形態では、ＴＳＲＰＲ３ａの評価関数Ｄ_i ^TSRPR3aを式（３）のように定式化する。

式（３）において、式（４）の値は、処理対象のタイムスパンに含まれるヘッドｊのうち音高の差が最大となるヘッドの音高の差を意味する。

ＴＳＲＰＲ３ｂは、低いベース音を次の階層のヘッドとして優先するルールである。本実施の形態では、ＴＳＲＰＲ３ｂの評価関数Ｄ_i ^TSRPR3bを式（５）のように定式化する。

ＴＳＲＰＲ４は、並行的な部分は並行的なヘッドを優先するルールである。本実施の形態では、ＴＳＲＰＲ４の評価関数Ｄ_ik ^TSRPR4を式（６）のように定式化する。

式（６）は、処理対象のタイムスパンにおけるヘッドｉ−１と次のヘッドｉとの間の発音時刻間隔ｉｏｉ_i-1と、次のタイムスパンにおけるヘッドｋ−１と次のヘッドｋとの間の発音時刻間隔ｉｏｉ_k-1とが等しく、かつヘッドｉと次のヘッドｉ＋１との間の発音時刻間隔ｉｏｉ_iと、ヘッドｋと次のヘッドｋ＋１との間の発音時刻間隔ｉｏｉ_kとが等しく、さらにヘッドｉ＋１と次のヘッドｉ＋２との間の発音時刻間隔ｉｏｉ_i+1と、ヘッドｋ＋１と次のヘッドｋ＋２との間の発音時刻間隔ｉｏｉ_k+1とが等しい場合、評価関数Ｄ_ik ^TSRPR4が１となり、その他の場合は評価関数Ｄ_ik ^TSRPR4が０となることを示している。

ＴＳＲＰＲ８は、次の階層のタイムスパンの始めになるヘッドを優先するルールである。本実施の形態では、ＴＳＲＰＲ８の評価関数Ｄ_i ^TSRPR8を式（７）のように定式化する。

式（７）は、ヘッドｉが処理対象のタイムスパンにおける先頭のヘッドｉ^startである場合、評価関数Ｄ_i ^TSRPR8が１となり、その他の場合は評価関数Ｄ_i ^TSRPR8が０となることを示している。
ＴＳＲＰＲ９は、次の階層のタイムスパンの終わりになるヘッドを優先するルールである。本実施の形態では、ＴＳＲＰＲ９の評価関数Ｄ_i ^TSRPR9を式（８）のように定式化する。

式（７）は、ヘッドｉが処理対象のタイムスパンにおける最後のヘッドｉ^endである場合、評価関数Ｄ_i ^TSRPR9が１となり、その他の場合は評価関数Ｄ_i ^TSRPR9が０となることを示している。

パラメータ設定部３４は、以上のような各タイムスパン簡約選好ルールＴＳＲＰＲｎ（ｎ＝１，３ａ，３ｂ，４，８，９）の相対的な強さを決める重みとなるパラメータＳ^TSRPRn（０≦Ｓ^TSRPRn≦１）を設定する（図８ステップＳ１０５）。パラメータＳ^TSRPRnの値が大きいほど、ルールＴＳＲＰＲｎの影響が強くなる。このパラメータＳ^TSRPRnの値は、自動分析装置を使用するユーザによって予め指定されている。

次に、基本変数算出部３１は、楽曲データＭｕｓｉｃＸＭＬとグルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬと拍節構造分析結果ＭｅｔｒｉｃａｌＸＭＬに基づいて４つの基本変数を算出する（ステップＳ１０６）。

基本変数算出部３１が算出する４つの基本変数は、現在の処理対象のタイムスパンにおけるヘッドｉの消音時刻から次のヘッドｉ＋１の発音時刻までの消音発音時刻間隔ｒｅｓｔ_i、現在のヘッドｉと次のヘッドｉ＋１との間の発音時刻間隔ｉｏｉ_i、現在のヘッドｉと次のヘッドｉ＋１との間の音高の差ｐｉｔｃｈ_i、現在のヘッドｉの拍点の数ｄｏｔ_iである。消音発音時刻間隔ｒｅｓｔ_i、発音時刻間隔ｉｏｉ_i、音高差ｐｉｔｃｈ_iの１例を図９に示す。
基本変数記憶部３２は、これらの基本変数を記憶する（ステップＳ１０７）。

次に、局所的ヘッド強度算出部３５は、処理対象のタイムスパンにおけるヘッドの局所的な強さＤ_i ^time-spanを処理対象のタイムスパンに含まれるヘッド毎に算出する（ステップＳ１０８）。

このステップＳ１０８の処理をより詳細に説明すると、局所的ヘッド強度算出部３５のＴＳＲＰＲ１評価部５１は、基本変数記憶部３２から基本変数を読み出し、前記の式（１）により処理対象のタイムスパンにおけるＴＳＲＰＲ１の評価関数Ｄ_i ^TSRPR1を算出して重み付け和算出部５７に出力する。

ＴＳＲＰＲ３ａ評価部５２は、基本変数記憶部３２から基本変数を読み出し、前記の式（３）により処理対象のタイムスパンにおけるＴＳＲＰＲ３ａの評価関数Ｄ_i ^TSRPR3aを算出して重み付け和算出部５７に出力する。

ＴＳＲＰＲ３ｂ評価部５３は、基本変数記憶部３２から基本変数を読み出し、前記の式（５）により処理対象のタイムスパンにおけるＴＳＲＰＲ３ｂの評価関数Ｄ_i ^TSRPR3bを算出して重み付け和算出部５７に出力する。

ＴＳＲＰＲ４評価部５４は、基本変数記憶部３２から基本変数を読み出し、前記の式（６）により処理対象のタイムスパンと次のタイムスパンにおけるＴＳＲＰＲ４の評価関数Ｄ_i ^TSRPR4を算出してヘッド強度算出部５８に出力する。

ＴＳＲＰＲ８評価部５５は、基本変数記憶部３２から基本変数を読み出し、前記の式（７）により処理対象のタイムスパンにおけるＴＳＲＰＲ８の評価関数Ｄ_i ^TSRPR8を算出して重み付け和算出部５７に出力する。

ＴＳＲＰＲ９評価部５６は、基本変数記憶部３２から基本変数を読み出し、前記の式（８）により処理対象のタイムスパンにおけるＴＳＲＰＲ９の評価関数Ｄ_i ^TSRPR9を算出して重み付け和算出部５７に出力する。

重み付け和算出部５７は、ＴＳＲＰＲ１評価部５１、ＴＳＲＰＲ３ａ評価部５２、ＴＳＲＰＲ３ｂ評価部５３、ＴＳＲＰＲ８評価部５５およびＴＳＲＰＲ９評価部５６の各算出結果から評価関数Ｄ_i ^TSRPRj（ｊ＝１，３ａ，３ｂ，８，９）の重み付け和Ｂ_iを式（９）のように算出してヘッド強度算出部５８に出力する。ここで、重み付け和算出部５７は、パラメータ設定部３４から出力されたパラメータＳ^TSRPRj（ｊ＝１，３ａ，３ｂ，８，９）を用いる。

次に、ヘッド強度算出部５８は、重み付け和算出部５７から出力された重み付け和Ｂ_i、パラメータ設定部３４から出力されたパラメータＳ^TSRPR4を用いて局所的なヘッドの強さＤ_i ^time-spanを式（１０）のように算出する。

ヘッド強度算出部５８は、評価関数Ｄ_ik ^TSRPR4が０の場合、単に重み付け和Ｂ_iをヘッドの強さＤ_i ^time-spanとする。また、ヘッド強度算出部５８は、評価関数Ｄ_ik ^TSRPR4が１の場合、ヘッドｋの重み付け和Ｂ_kにパラメータＳ^TSRPR4を掛けたものの総和をとり、これにヘッドｉの重み付け和Ｂ_iを加算したものをヘッドの強さＤ_i ^time-spanとする。処理対象のタイムスパン内の全てのヘッドに対して以上の処理を行い、各ヘッドの局所的な強さＤ_i ^time-spanをヘッド毎に算出する。これで、ステップＳ１０８の処理が終了する。

ヘッド強度記憶部３６は、局所的ヘッド強度算出部３５によって算出されたヘッドの強さＤ_i ^time-spanを記憶する（ステップＳ１０９）。
次に、ヘッド選択部３７は、現在の処理対象のタイムスパンの中にヘッドが２つ以上存在する場合、式（１１）によって次の階層のヘッドｈハットを選択する（ステップＳ１１０）。

式（１１）は、処理対象のタイムスパンに含まれるヘッドのうち、強さが最大となるヘッドを次の階層のヘッドｈハットとして選択することを意味している。
階層的ヘッド記憶部３８は、ヘッド選択部３７によって選択されたヘッドを記憶する（ステップＳ１１１）。

次に、局所的ヘッド強度算出部３５は、次の階層のタイムスパンに含まれるヘッドが２つ以上存在する場合（ステップＳ１１２においてＹＥＳ）、この階層において、ステップＳ１０６〜Ｓ１１１の処理を再び行う。そして、次の階層のタイムスパンに含まれるヘッドの数が１つになるまで（ステップＳ１１２においてＮＯ）、このような再帰的処理を繰り返す。この再帰的処理は、タイムスパン分割部３３が決定した階層的なタイムスパン構造に従って、図１０に示すようにタイムスパン木を最下層のレベルｄから最上層のレベルａへと順次辿っていく処理である。こうして、図１０のような階層的なタイムスパン木を獲得することができる。

なお、タイムスパン簡約部３は、以上の処理をグルーピング構造分析結果ＧｒｏｕｐｉｎｇＸＭＬが示している最大単位のグループ（図２に示したグルーピング構造における最下層のグループ）毎に行う。

分析結果出力部３９は、階層的ヘッド記憶部３８に記憶された階層的なタイムスパン木を、Ｔｉｍｅ−ｓｐａｎＸＭＬ形式で出力する（ステップＳ１１３）。
この後、パラメータ設定部３４からパラメータＳ^TSRPRnの設定が変更されたときには（ステップＳ１１４においてＹＥＳ）、ステップＳ１０６〜Ｓ１１３の一連の処理が行われる。このパラメータ変更は、ユーザの指示に応じて行われる。すなわち、ユーザは、タイムスパン木分析結果Ｔｉｍｅ−ｓｐａｎＸＭＬが示しているタイムスパン木を評価した結果、このタイムスパン木が不適切であると判断した場合、パラメータＳ^TSRPRnを変更する。

図１１は、本実施の形態に係る楽曲の自動分析装置の第２の構成例を示すブロック図である。この自動分析装置は、図１に示した第１の構成例の諸機能をコンピュータ７０により実現するものである。コンピュータ７０は、演算処理部（ＣＰＵ）７１と記憶部７２ａ，７２ｂとインターフェース部（Ｉ／Ｆ部）７３ａ，７３ｂ，７３ｃとがバス７４により接続された構成となっている。Ｉ／Ｆ部７３ａ、７３ｂは、それぞれコンピュータ７０の外部装置である操作卓７５、表示装置７６とインタフェースをとる。

コンピュータ７０の動作を制御するプログラム７８は、光磁気ディスクや半導体メモリその他の記録媒体７７に記録された状態で提供される。この記録媒体７７がＩ／Ｆ部７３ｃに接続されると、演算処理部７１は記録媒体７７に書き込まれたプログラム７８を読み出し、記憶部７２ａに格納する。その後、操作卓７５からの指示に基づき、演算処理部７１が記憶部７２ａに格納されたプログラム７８を実行し、グルーピング構造分析部１と拍節構造分析部２とタイムスパン簡約部３の機能を実現する。分析結果のタイムスパン木は表示装置７６に表示される。
なお、プログラム７８が、インターネットなどのディジタル通信網を介して提供されてもよい。

最後に、本実施の形態によるタイムスパン簡約の性能の評価を、適合率Ｐ（precisioｎ）と再現率Ｒ（reca11）とを組み合わせたＦ値で評価する。Ｆ値は、適合率と再現率が高いほど、高くなる。
Ｆ＝２×（Ｐ×Ｒ）／（Ｐ＋Ｒ）・・・（１２）
ただし、適合率Ｐは、正解データのヘッドと同じヘッドが、タイムスパン木分析結果Ｔｉｍｅ−ｓｐａｎＸＭＬに含まれている割合、再現率Ｒは、タイムスパン木分析結果Ｔｉｍｅ−ｓｐａｎＸＭＬに含まれているヘッドと同じヘッドが、正解データに含まれている割合である。

この実験では、ＧＴＴＭを理解している音楽家がクラッシック曲から切り出した８小節の長さの１００個のメロディに対して、タイムスパン簡約の正解データを作成した。いくつかの具体例を以下に挙げる。
１．楽興の時
２．子守歌
３．トロイメライ
４．よろこびの歌
５．舟唄

タイムスパン木は、パラメータの調整によって変化する。そこでまず、パラメータ調節前（ベースライン）の性能を求めた。パラメータの初期値は、Ｓ^TSRPRn（ｎ＝１，３ａ，３ｂ，４，８，９）＝０．５である。次に、手作業で１曲につき１０分間でパラメータの調整を行った。
パラメータ調節前後のＦ値を図１２に示す。ユーザがパラメータを適切に調節することにより、Ｆ値がベースラインの場合よりも向上していることが確認できる。なお、図１２における「平均」は１００個のメロディの各Ｆ値の平均を意味している。

以上のように、本実施の形態では、ヘッドの強さの算出の際に、複数の評価指標であるＤ_i ^TSRPR1、Ｄ_i ^TSRPR3a、Ｄ_i ^TSRPR3b、Ｄ_ik ^TSRPR4、Ｄ_i ^TSRPR8およびＤ_i ^TSRPR9と、それぞれの評価指標に対する重みとなるパラメータＳ^TSRPRn（ｎ＝１，３ａ，３ｂ，４，８，９）とを用いることにより、各タイムスパン簡約選好ルールＴＳＲＰＲｎ間の優先順位を決めることができ、ルールＴＳＲＰＲｎの競合を防止することができる。また、ヘッドの強さを算出するときに、ヘッドの評価値と閾値とを比較することにより、たとえ評価指標の定義が曖昧であっても、評価指標を定式化することが可能となる。これにより、ルールの競合や定義の曖昧性の問題があるＧＴＴＭのような音楽理論であっても、コンピュータ上に実装することができ、タイムスパン木を自動で獲得することが可能となる。

なお、式（１）、式（３）、式（５）の代わりに、それぞれ式（１２）、式（１３）、式（１４）を使うようにしてもよい。

Ｔ^TSRPR1、Ｔ^TSRPR3a、Ｔ^TSRPR3bは閾値である。例えば、式（３）に示した評価関数Ｄ_i ^TSRPR3aは音高が高いほど大きな値を出力する関数であるが、式（１３）に示した評価関数Ｄ_i ^TSRPR3aは、音高が閾値Ｔ^TSRPR3aより高い場合は１、音高が閾値Ｔ^TSRPR3a以下の場合は０となる。こうして、閾値Ｔ^TSRPR3aとの比較結果に基づきヘッドの強さを増大させるようにしている。

本発明は、ＧＴＴＭに基づく音楽分析に適用することができる。

本発明の実施の形態に係る楽曲の自動分析装置の第１の構成例を示すブロック図である。グルーピング構造、拍節構造、タイムスパン木の概要を示す図である。メロディの包摂関係を示す図である。本発明の実施の形態に係る楽曲のグルーピング構造の自動分析方法の概要を示す図である。本発明の実施の形態に係る楽曲の拍節構造の自動分析方法の概要を示す図である。本発明の実施の形態に係る楽曲のタイムスパン木の自動分析方法の概要を示す図である。図１の自動分析装置におけるタイムスパン簡約部の構成例を示すブロック図である。図１の自動分析装置におけるタイムスパン簡約部の動作を示すフローチャートである。本発明の実施の形態における基本変数の１例を示す図である。階層的なタイムスパン木の１例を示す図である。本発明の実施の形態に係る楽曲の自動分析装置の第２の構成例を示すブロック図である。本発明の実施の形態におけるパラメータ調節の効果を示す図である。

符号の説明

１…グルーピング構造分析部、２…拍節構造分析部、３…タイムスパン簡約部、３１…基本変数算出部、３２…基本変数記憶部、３３…タイムスパン分割部、３４…パラメータ設定部、３５…局所的ヘッド強度算出部、３６…ヘッド強度記憶部、３７…ヘッド選択部、３８…階層的ヘッド記憶部、３９…分析結果出力部、５１…ＴＳＲＰＲ１評価部、５２…ＴＳＲＰＲ３ａ評価部、５３…ＴＳＲＰＲ３ｂ評価部、５４…ＴＳＲＰＲ４評価部、５５…ＴＳＲＰＲ８評価部、５６…ＴＳＲＰＲ９評価部、５７…重み付け和算出部、５８…ヘッド強度算出部。

Claims

楽曲データに基づきその楽曲のタイムスパン木を分析する自動分析方法であって、
前記楽曲データが示す連続した個々の音の特性に基づき、前記楽曲中のそれぞれのタイムスパンにおける重要な音であるヘッドについてその強さを算出し、算出した強さの値をヘッドと対応付けて記憶手段に格納するヘッド強度算出ステップと、
現在の処理対象のタイムスパンの中に前記ヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を前記記憶手段から読み出して比較することにより、前記候補の中から前記次の階層のヘッドを選択するヘッド選択ステップとを備えることを特徴とする楽曲のタイムスパン木の自動分析方法。
請求項１記載の楽曲のタイムスパン木の自動分析方法において、
前記ヘッド強度算出ステップは、ＧＴＴＭに基づく複数の評価指標と、それぞれの評価指標に対する重みとに基づいて、前記ヘッドの強さを算出することを特徴とする楽曲のタイムスパン木の自動分析方法。
請求項２記載の楽曲のタイムスパン木の自動分析方法において、
前記ヘッド強度算出ステップは、前記評価指標に基づいて前記ヘッドの評価値と閾値とを比較し、その結果に基づき前記ヘッドの強さを増大させることを特徴とする楽曲のタイムスパン木の自動分析方法。
楽曲データに基づきその楽曲のタイムスパン木を分析する自動分析装置であって、
前記楽曲データが示す連続した個々の音の特性に基づき、前記楽曲中のそれぞれのタイムスパンにおける重要な音であるヘッドについてその強さを算出するヘッド強度算出手段と、
前記強さの値をヘッドと対応付けて記憶する記憶手段と、
現在の処理対象のタイムスパンの中に前記ヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を前記記憶手段から読み出して比較することにより、前記候補の中から前記次の階層のヘッドを選択するヘッド選択手段とを備えることを特徴とする楽曲のタイムスパン木の自動分析装置。
請求項４記載の楽曲のタイムスパン木の自動分析装置において、
前記ヘッド強度算出手段は、ＧＴＴＭに基づく複数の評価指標と、それぞれの評価指標に対する重みとに基づいて、前記ヘッドの強さを算出することを特徴とする楽曲のタイムスパン木の自動分析装置。
請求項５記載の楽曲のタイムスパン木の自動分析装置において、
前記ヘッド強度算出手段は、前記評価指標に基づいて前記ヘッドの評価値と閾値とを比較し、その結果に基づき前記ヘッドの強さを増大させることを特徴とする楽曲のタイムスパン木の自動分析装置。
楽曲データに基づきその楽曲のタイムスパン木を分析する自動分析装置としてコンピュータを機能させるタイムスパン木自動分析プログラムであって、
前記楽曲データが示す連続した個々の音の特性に基づき、前記楽曲中のそれぞれのタイムスパンにおける重要な音であるヘッドについてその強さを算出し、算出した強さの値をヘッドと対応付けて記憶手段に格納するヘッド強度算出ステップと、
現在の処理対象のタイムスパンの中に前記ヘッドが２つ以上含まれる場合、これらのヘッドを次の階層のタイムスパンのヘッドの侯補とし、これらのヘッドの強さの値を前記記憶手段から読み出して比較することにより、前記候補の中から前記次の階層のヘッドを選択するヘッド選択ステップとを、前記コンピュータに実行させることを特徴とするタイムスパン木自動分析プログラム。
請求項７記載のタイムスパン木自動分析プログラムを記録したことを特徴とする記録媒体。