JP2023039332A

JP2023039332A - 旋律分析装置、旋律分析方法および旋律分析プログラム

Info

Publication number: JP2023039332A
Application number: JP2021146457A
Authority: JP
Inventors: 楓能登; Kaede Noto; 圭二平田; Keiji Hirata; 佳成竹川; Yoshinari Takegawa; 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp; Future University Hakodate
Current assignee: Yamaha Corp; Future University Hakodate
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-03-20

Abstract

【課題】楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を行う旋律分析装置、方法及びプログラムを提供する。【解決手段】旋律分析装置１は、第１の旋律及び第２の旋律が入力する入力部１０、第１の旋律及び第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部２０、抽出した各トライグラムを構成する各音符に対しＩＲシンボルを付与するＩＲシンボル付与部３０、各音符に付与したＩＲシンボルから特徴ベクトルを生成する特徴ベクトル生成部４０、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することで、２つの音符間のコストを計算するコスト計算部５０及び第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力する類似性行列計算部６０と、を備える。【選択図】図１０

Description

本発明は、旋律分析装置、旋律分析方法および旋律分析プログラムに関する。

人間がある旋律を聴くとき、後続する旋律を予測しているという仮定に基づき、旋律内の音列をシンボルと呼ばれる記号で分類して表現する暗意－実現モデル（Ｉｍｐｌｉｃａｔｉｏｎ－ＲｅａｌｉｚａｔｉｏｎＭｏｄｅｌまたはＩＲモデルとも呼ばれる）が知られている（例えば、非特許文献１、２参照）。

Eugene Narmour, "The Analysis and Cognition of Basic Melodic Structures", The University of Chicago Press, 1990. Eugene Narmour, "The Analysis and Cognition of Melodic Complexity", The University of Chicago Press, 1992. Aloupis, G., Fevens, T., Langerman, S., Matsui, T., Mesa, A., Nunez, Y., Rappaport, D., Toussaint, G. (2006). Algorithms for computing geometric measures of melodic similarity. Computer Music Journal, 30(3), pp.67-76. Eerola, Tuomas, and Micah Bregman. "Melodic and contextual similarity of folk song phrases." (2007): 211-233.

楽曲の構造分析などを行うときの重要な手順の１つにフレーズ推定がある。ここでフレーズとは、楽曲を構成する単位の一つであり、音楽的なまとまりのことをいう。フレーズを推定することにより、２つの楽曲同士がどの程度似ているか、楽曲内のフレーズの切れ目（境界）がどこにあるか、ある旋律を聴いたときそれがどの曲であるか等を知ることができる。

こうしたフレーズ推定の有力な手法の１つとして、対象となる楽曲の記号（すなわち、楽譜上の音符など）を対象に旋律類似度を計算するものがある（例えば、非特許文献３、４参照）。非特許文献３、４に記載の技術は、旋律を音高と音価（音の長さ）の２次元上で表現し、図形的な距離を基に２つの旋律間の類似度を計算する。こうした方法で算出される距離は旋律の形状に基づく幾何学的な類似度計算に基づくため、一部音高が異なる場合であっても、逸脱度合いに応じた距離計算が可能であるという特徴がある。しかしその一方で、音符の挿入や欠落の影響を受けやすいという問題がある。

さらに人間が音楽を聴くときの認知機能に起因して、例えば１つの音が半音違っただけで旋律全体が情動に与える影響が大きく変化するケースも多数ある。こうした場合、上記の技術は人間の認知機能を反映することができないため、類似した旋律を判定することや、多声音楽中に繰り返し部分を発見してフレーズ推定を実現を行うことは困難であった。

本発明はこうした状況に鑑みてなされたものであり、その目的は、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することにある。

上記課題を解決するために、本発明のある態様の旋律分析装置は、第１の旋律および第２の旋律が入力する入力部と、第１の旋律および第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部と、抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するＩＲシンボル付与部と、各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成する特徴ベクトル生成部と、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するコスト計算部と、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力する類似性行列計算部と、を備える。

ある実施の形態では、集合間の距離尺度はＪａｃｃａｒｄ係数であり、集合Ａと集合Ｂとの間のＪａｃｃａｒｄ係数Ｊａｃｃａｒｄ（Ａ，Ｂ）を

と表し、０≦α≦１を満たす所定のパラメータαおよびパラメータβ_１、β_２、β_３を与えたとき、ｉ番目の音符とｊ番目の音符との間のコストは、

であってもよい。

ある実施の形態では、ＩＲシンボルは、Ｐ、ＩＰ、ＶＰ、Ｒ、ＩＲ、ＶＲ、Ｄ、ＩＤの８種類であってもよい。

ある実施の形態では、ＩＲシンボルは、Ｐｕ、Ｐｄ、ＩＰｕ、ＩＰｄ、ＶＰｕ、ＶＰｄ、Ｒｕ、Ｒｄ、ＩＲｕ、ＩＲｄ、ＶＲｕ、ＶＲｄ、ＩＤｕ、ＩＤｄ、Ｄの１５種類であってもよい。

ある実施の形態では、第１の旋律と第２の旋律は同じであってもよい。

ある実施の形態では、第１の旋律と第２の旋律は異なってもよい。

ある実施の形態では、類似性行列をＭ行Ｎ列行列としたとき、前記類似性行列上で傾きＭ／Ｎの直線に沿ってチェッカーボードカーネル行列を適用し、チェッカーボードカーネル行列内の類似性行列の各成分とチェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する新規性ベクトル計算部をさらに備えてもよい。

ある実施の形態では、旋律分析装置は、新規性ベクトルのピーク位置に基づいてフレーズの境界を検知するフレーズ境界判断部をさらに備えてもよい。

本発明の別の態様は、旋律分析方法である。この方法は、第１の旋律および第２の旋律を入力するステップと、第１の旋律および第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するステップと、抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するステップと、各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成するステップと、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するステップと、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力するステップと、を備える。

本発明のさらに別の態様は、旋律分析プログラムである。このプログラムは、第１の旋律および第２の旋律を入力するステップと、第１の旋律および第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するステップと、抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するステップと、各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成するステップと、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力するステップと、をコンピュータに実行させる。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を方法、装置、プログラム、プログラムを記録した一時的なまたは一時的でない記憶媒体、システムなどの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することができる。

ＰのＩＲシンボルが付与されたトライグラムの例を示す図である。ＩＰのＩＲシンボルが付与されたトライグラムの例を示す図である。ＶＰのＩＲシンボルが付与されたトライグラムの例を示す図である。ＲのＩＲシンボルが付与されたトライグラムの例を示す図である。ＩＲのＩＲシンボルが付与されたトライグラムの例を示す図である。ＶＲのＩＲシンボルが付与されたトライグラムの例を示す図である。ＤのＩＲシンボルが付与されたトライグラムの例を示す図である。ＩＤのＩＲシンボルが付与されたトライグラムの例を示す図である。 ±１オクターブの音程範囲内にあるトライグラムに付与されるＩＲシンボル全体を示す第１の実施の形態に係る旋律分析装置の機能ブロック図である。トライグラム抽出部が抽出した３つのトライグラムの例を示す図である。第１の実施の形態によって生成した類似性行列の例を示す模式図である。第２の実施の形態に係る旋律分析装置の機能ブロック図である。第２の実施の形態で使用するチェッカーボードカーネル行列の例を示す図である。チェッカーボードカーネル行列を適用する様子（上段）と、チェッカーボードカーネル行列を適用することによって得られた新規性ベクトル（下段）を示す図である。第３の実施の形態に係る旋律分析装置の機能ブロック図である。第３の実施の形態に係る旋律分析方法の処理手順を示すフローチャートである。ある楽曲の一部の旋律に関し、異なる特徴量を基に作成した自己類似性行列を示す。異なる特徴量を基に作成した自己類似性行列を示す。（ａ）は、音高を基に生成された自己類似性行列である。（ｂ）は、音程を基に生成された自己類似性行列である。（ｃ）は、ＩＲ特徴量を基に生成された自己類似性行列である。ある楽曲全体の旋律に関し、異なる特徴量を基に作成した自己類似性行列と、推定されたフレーズ境界とを示す。（ａ）は、音高を基に生成された自己類似性行列である。（ｂ）は、音程を基に生成された自己類似性行列である。（ｃ）は、ＩＲ特徴量を基に生成された自己類似性行列である。

以下、本発明を好適な実施の形態を基に各図面を参照しながら説明する。実施の形態および変形例では、同一または同等の構成要素、部品には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面における部品の寸法は、理解を容易にするために適宜拡大、縮小して示される。また、各図面において実施の形態を説明する上で重要ではない要素の一部は省略して表示する。また、第１、第２などの序数を含む用語は多様な構成要素を説明するために用いられるが、この用語は１つの構成要素を他の構成要素から区別する目的でのみ用いられ、この用語によって構成要素が限定されるものではない。

具体的な実施の形態を説明する前に、基礎となる知見として暗意－実現モデルについて説明する。暗意実現モデルは「暗意－実現」の考え方を旋律に応用した音楽理論である。これは、人間がある旋律を聴くとき、意識的または無意識的に後続する旋律を予測しながら聴いているという仮説に基づく。例えば旋律に含まれる連続する３つの音列については、人間は最初の２つの音の動きに基づいて３音目を予測する。このとき３音目が予測通りの音だと（すなわち「暗意が実現」されると）安心するとか、予測に反する音だと（すなわち「暗意が否定」されると）と大きな情動を感じるなどといった心理的作用が生じる。このように人間は音楽を聴きながら後続する音を予測し、予測が実現したりしなかったりしたことに応じて当該音楽のフレーズを認識する。

暗意－実現モデルでは、旋律に含まれる連続する３つの音符により構成される音のまとまり（以下「トライグラム」（ｔｒｉ－ｇｒａｍ）と呼ぶ）に、ＩＲシンボルと呼ばれるシンボルを付与する。類似する暗意－実現／否定関係をもつ音列には同一のシンボルが割り当てられる。一例として、以下、非特許文献１、２に記載された８種類（Ｐ、ＩＰ、ＶＰ、Ｒ、ＩＲ、ＶＲ、Ｄ、ＩＤ）のＩＲシンボルの定義と、その暗意を示す。
Ｐ（Ｐｒｏｃｅｓｓ）：類似の音程で同じ音程方向にメロディが進む。すなわち、類似の音程で上昇する、または下降する。単なる進行を含意する。
ＩＰ（ＩｎｔｅｒｖａｌｌｉｃＰｒｏｃｅｓｓ）：類似の音程で異なる音程方向に旋律が進む、すなわち、ほぼ同じ音程で上昇して下降する、または下降して上昇する。音高に変化を付けながら旋律が進行することを含意する。
ＶＰ（ＲｅｇｉｓｔｒａｌＰｒｏｃｅｓｓ）：差異のある音程で、同じ音程方向に旋律が進む。すなわち、小さな音程で上昇して大きな音程で下降する、または小さな音程で下降して大きな音程で下降する。音の進行方向に変化を付けながら旋律が進行することを含意する。
Ｒ（Ｒｅｖｅｒｓａｌ）：差異のある音程で、異なる音程方向に旋律が進む。すなわち、大きな音程で上昇して小さな音程で下降する、または大きな音程で下降して小さな音程で上昇する。旋律展開に驚き（予期せぬ展開）があることを含意する。
ＩＲ（ＩｎｔｅｒｖａｌｌｉｃＲｅｖｅｒｓａｌ）：広い音程から狭い音程へ、同じ音程方向で旋律が進む。すなわち、大きな音程で上昇し小さな音程で上昇する、または大きな音程で下降し小さな音程で下降する。音高に変化を付けながら展開に驚きがあることを含意する。
ＶＲ（ＲｅｇｉｓｔｒａｌＲｅｖｅｒｓａｌ）：狭い音程から広い音程へ、異なる音程方向で旋律が進む。すなわち、小さな音程で上昇し大きな音程で下降する、または小さな音程で下降し大きな音程で上昇する。音の進行方向に変化を付けながら展開に驚きがあることを含意する。
Ｄ（Ｄｕｐｌｉｃａｔｉｏｎ）：音程に変化がない。メロディの展開が否定されることを含意する。
ＩＤ（ＩｎｔｅｒｖａｌｌｉｃＤｕｐｌｉｃａｔｉｏｎ）：同じ音程の進行で、異なる音程方向に進む。ある音から一度上昇して元に戻る、または一度下降して元に戻る。音高に変化を付けながら旋律の展開が否定されることを含意する。

図１にＰ、図２にＩＰ、図３にＶＰ、図４にＲ、図５にＩＲ、図６にＶＲ、図７にＤ、図８にＩＤのＩＲシンボルが付与されたトライグラムの例を示す。

図９に、±１オクターブの音程範囲内にあるトライグラムに付与されるＩＲシンボル全体を示す。横軸は、１半音を単位とする１－２音間の音程であり、縦軸は１半音を単位とする２－３音間の音程である。

上に例示した８種類のＩＲシンボルでは、音程の上下方向の進行に関する定義はない。これに対し、音程が下降して上昇する音列と、音程が上昇して下降する音列とが区別されるようにＩＲシンボルを拡張することもできる。一例として以下に、上記の８種類のＩＲシンボルを１５種類に拡張したものを示す。ここでは、音程が上昇するもの（または上昇してから下降するもの）にｕ、音程が下降するもの（または下降してから上昇するもの）にｄを付して区別している。
Ｐｕ：類似の音程で上昇する。
Ｐｄ：類似の音程で下降する。
ＩＰｕ：ほぼ同じ音程で上昇して下降する。
ＩＰｄ：ほぼ同じ音程で下降して上昇する。
ＶＰｕ：小さな音程で上昇して大きな音程で下降する。
ＶＰｄ：小さな音程で下降して大きな音程で下降する。
Ｒｕ：大きな音程で上昇して小さな音程で下降する。
Ｒｄ：大きな音程で下降して小さな音程で上昇する。
ＩＲｕ：大きな音程で上昇し小さな音程で上昇する。
ＩＲｄ：大きな音程で下降し小さな音程で下降する。
ＶＲｕ：小さな音程で上昇し大きな音程で下降する。
ＶＲｄ：小さな音程で下降し大きな音程で上昇する。
Ｄ：音程に変化がない。
ＩＤｕ：ある音から一度上昇して元に戻る。
ＩＤｄ：ある音から一度下降して元に戻る。

［第１の実施の形態］
図１０は、第１の実施の形態に係る旋律分析装置１の機能ブロック図である。旋律分析装置１は、入力部１０と、トライグラム抽出部２０と、ＩＲシンボル付与部３０と、特徴ベクトル生成部４０と、コスト計算部５０と、類似性行列計算部６０と、を備える。

入力部１０には、第１の旋律および第２の旋律が入力する。例えば入力部１０は、第１の旋律および第２の旋律が記された楽譜データを読み込んでもよい。あるいは入力部１０は、第１の旋律および第２の旋律が格納された音楽ファイルを読み込んでもよいし、マイクロフォンを通じて第１の旋律および第２の旋律そのものを集音してもよい。楽譜データを直接読み込むのでない場合は、入力部１０が入力された音声データ等から楽譜データを作成する機能を備えていてもよい。

トライグラム抽出部２０は、入力部１０に入力された第１の旋律および第２の旋律に含まれるトライグラム（前述の通り、連続する３つの音符により構成される音のまとまり）の組を抽出する。図１１に、トライグラム抽出部２０が抽出した３つのトライグラム（時系列順に、トライグラム１、トライグラム２、トライグラム３）の例を示す。前述の１５種類のＩＲシンボルに従えば、トライグラム１にはＩＰｕ、トライグラム２にはＩＤｄ、トライグラム３にはＰｕのＩＲシンボルを付与することができる。トライグラム抽出部２０は、第１の旋律および第２の旋律の各々に関し、それらに含まれるすべてのまたは一部の音符からトライグラムを抽出する。

ＩＲシンボル付与部３０は、トライグラム抽出部２０が抽出した各トライグラムを構成する各音符に対しＩＲシンボルを付与する。図１１の例では、ＩＲシンボル付与部３０は、トライグラム１にＩＰｕ、トライグラム２にＩＤｄ、トライグラム３にＰｕのＩＲシンボルを付与する。

特徴ベクトル生成部４０は、各音符に対し、ＩＲシンボル付与部３０により各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置（すなわち、当該音符が当該トライグラム内における何番目の音であるか）を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成する。すなわち、各音符の特徴ベクトルは以下で定義される。

第３成分は、例えば当該音符と当該音符の１つ前の音符との音価比であってもよい。この場合、旋律の最初の音については、前の音との音価比を１とする。

以下の点に注意する。すなわち、元来ＩＲシンボルは音高に着目した分類であるため、時間に関する抽象化は行われていない。そこで本実施の形態では、時間に関する抽象化を行うために、１つ前の音符との音価比を特徴量として導入した。このように音高方向と時間方向とに関する抽象化の結果を組み合わせることにより、旋律に含まれる音符は、ＩＲシンボル（第１成分）、トライグラムにおける当該音符の位置（第２成分）、１つ前の音符との音価比（第３成分）の３つの成分からなるベクトルとして表現することができる。

一例として、図１１の最初の３音をそれぞれｔ_１（ドまたはＣ）、ｔ_２（ミまたはＥ）、ｔ_３（レまたはＤ）とすると、ｔ_１、ｔ_２、ｔ_３はそれぞれ以下の特徴を持つ。
ｔ_１：ｔ_１は、トライグラム１（ＩＰｕ）における１番目の音である。ｔ_１は最初の音なので、前の音との音価比は１である。従って、ｔ_１の特徴ベクトルは以下のようになる。

ｔ_２：ｔ_２は、トライグラム１（ＩＰｕ）における２番目の音である。さらにｔ_２は、トライグラム２（ＩＤｄ）における１番目の音である。ｔ_２は四分音符であり、１つ前の音ｔ_１も四分音符なので、ｔ_２とｔ_１との音価比は１である。従って、ｔ_２の特徴ベクトルは以下の２つとなる。

ｔ_３：ｔ_３は、トライグラム１（ＩＰｕ）における３番目の音である。さらにｔ_３は、トライグラム２（ＩＤｄ）における２番目の音である。さらにｔ_３は、トライグラム３（Ｐｕ）における１番目の音である。ｔ_３は四分音符であり、１つ前の音ｔ_２も四分音符なので、ｔ_３とｔ_２との音価比は１である。従って、ｔ_３の特徴ベクトルは以下の３つとなる。

コスト計算部５０は、前述の特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算する。

集合間の距離尺度は、例えばＪａｃｃａｒｄ係数であってもよい。この場合、集合Ａと集合Ｂとの間のＪａｃｃａｒｄ係数Ｊａｃｃａｒｄ（Ａ，Ｂ）は以下で表される。

Ｊａｃｃａｒｄ係数は２つの集合に含まれる要素のうち共通要素が占める割合を表しており、０以上１以下の値を取る。Ｊａｃｃａｒｄ係数が大きいほど、２つの集合の類似度が高い。０≦α≦１を満たす所定のパラメータαおよびパラメータβ_１、β_２、β_３を与えたとき、ｉ番目の音符とｊ番目の音符との間のコストは以下のように計算される。

上記の計算では、旋律同士の距離計算にＤＰマッチング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ、動的計画法）に基づく旋律アライメント手法を拡張した方法を用いている。旋律に含まれる音符（ｔ_１、ｔ_２、…、ｔ_ｎ）は前述の特徴ベクトルを要素とする集合として表現されているため、音符同士の類似度は集合の距離として計算することができる。このとき、集合同士の距離計算のためにＪａｃｃａｒｄ係数を使用する。さらに集合の系列同士の類似度計算を行うために、上記のコストを計算する。ここで、（ｔ_１、ｔ_２、…、ｔ_ｉ）、（ｔ_１、ｔ_２、…、ｔ_ｊ）は距離計算の対象となる旋律であり、αは類似度計算を行う際に直前の類似度をどれだけ反映させるかを決定するハイパーパラメータである。αの値が０の場合、Ｃｏｓｔ_ｉｊは現在時刻における音符の類似度を表す。αの値が０以外の場合、Ｃｏｓｔ_ｉｊは過去系列における類似度を反映させた累積類似度を表す。

一例として、図１１の３つの音符ｔ_１、ｔ_２、ｔ_３は、それぞれの特徴ベクトルを要素とする集合により、以下のように表現される。

すると、これらの集合間のＪａｃｃａｒｄ係数は以下のように計算される。

従って、例えばα＝０．５、β_１＝１、β_２＝０．８、β_３＝０．７としたとき、２つの音符間のコストは以下のように計算される。

上記の例では、集合間の距離尺度をＪａｃｃａｒｄ係数として説明した。しかしこれに限られず、集合間の距離尺度は例えばＤｉｃｅ係数などであってもよい。

類似性行列計算部６０は、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする行列を計算して出力する。このような行列は「類似性行列」と呼ばれる。類似性行列は第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分としていることから、類似性行列の０でない成分に対応する音列が第１の旋律と第２の旋律とで類似していることになる。このようにして得られた類似性行列は、フレーズ内における音高が完全に一致する場合だけではなく、音高や発音タイミングのズレを許容するようなフレーズ、すなわち人間が聴取したときに「似ている」と感じる音列同士の類似度も反映している。

第１の旋律と第２の旋律は同じであってもよい。この場合、類似性行列の０でない成分により、同じ旋律内で類似するフレーズがどこにあるかを知ることができる。

第１の旋律と第２の旋律は異なっていてもよい。この場合、類似性行列の０でない成分により、異なる旋律同士を比較したとき、類似するフレーズがどこにあるかを知ることができる。

図１２に、本実施の形態によって生成した類似性行列の例を模式的に示す。理解を容易にするために、この図では行列の各成分を数値ではなく、グレースケールの濃淡で表す。濃い部分ほどフレーズの類似度が高く、逆に白い部分は類似度が０である。第１の旋律と第２の旋律は同じものであり、４小節半内の２３個の音符からなる。なお、第１の旋律と第２の旋律が同じであるときの類似性行列は「自己類似性行列」とも呼ばれる。類似性行列における（ｉ，ｊ）成分はｔ_ｉ，ｔ_ｊにおける類似度を表す。また（ｉ_ｎ，ｊ_ｍ）成分と（ｉ_ｎ＋ｋ，ｊ_ｍ＋ｋ）とを結ぶ線分は、ｉ_ｎ音目からｉ_ｎ＋ｋ番目の区間のフレーズと、ｊ_ｍ音目からｊ_ｍ＋ｋ音目の区間のフレーズとが類似していることを意味する。また（ｉ，０）を始点とした対角成分が存在する部分は、先頭から始まる音列との類似度が高い音列の開始音であることを示す。例えば図１２で（ｉ，０）を始点とした対角成分が確認できるのは、６音目、１１音目、１５音目、１９音目であり、これらは第１音から始まるＢ－Ａ－Ｇｉｓ－Ａと類似した音形の開始音であることを示す。なお、自己類似性行列における（０，０）から（Ｎ，Ｎ）までの対角成分は、同一旋律における同一部分の類似度を表している。

以上説明したように、本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することができる。

［第２の実施の形態］
図１３は、第２の実施の形態に係る旋律分析装置２の機能ブロック図である。旋律分析装置２は、入力部１０と、トライグラム抽出部２０と、ＩＲシンボル付与部３０と、特徴ベクトル生成部４０と、コスト計算部５０と、類似性行列計算部６０と、新規性ベクトル計算部７０と、を備える。すなわち旋律分析装置２は、図１０の旋律分析装置１に対して、新規性ベクトル計算部７０をさらに備える点で異なる。旋律分析装置２のその他の構成は、旋律分析装置１の構成と共通である。以下、旋律分析装置２に関し、旋律分析装置１と異なる部分に焦点を当てて説明し、共通する部分の重複する説明は省略する（以下同様）。

ある実施の形態では、類似性行列計算部６０が計算して出力した類似性行列をＭ行Ｎ列行列とする。新規性ベクトル計算部７０は、類似性行列上で傾きＭ／Ｎの直線に沿ってチェッカーボードカーネル行列を適用し、このチェッカーボードカーネル行列内の類似性行列の各成分とチェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する。チェッカーボードカーネル行列は、成分が市松模様の濃淡分布を持つ正方行列である。類似性行列の対角線上にチェッカーボードカーネル行列を掛けながらトレースすることによって、類似性行列のテクスチャが急峻に変化する部分を検知することができる。

図１４に、本実施の形態で使用するチェッカーボードカーネル行列の例を示す。このチェッカーボードカーネル行列は、２０×２０のガウシアンカーネルである。ガウシアンカーネルは、ノイズに対して頑健であるという特徴を持つ。

図１５の上段に、チェッカーボードカーネル行列を適用する様子を模式的に示す。図１５の下段に、チェッカーボードカーネル行列を適用することによって得られた新規性ベクトルを示す。

本実施の形態によれば、類似性行列のテクスチャが急峻に変化する部分を検知することができる。

［第３の実施の形態］
図１６は、第３の実施の形態に係る旋律分析装置３の機能ブロック図である。旋律分析装置２は、入力部１０と、トライグラム抽出部２０と、ＩＲシンボル付与部３０と、特徴ベクトル生成部４０と、コスト計算部５０と、類似性行列計算部６０と、新規性ベクトル計算部７０と、フレーズ境界判定部８０と、を備える。すなわち旋律分析装置３は、図１３の旋律分析装置２に対して、フレーズ境界判定部８０をさらに備える点で異なる。旋律分析装置３のその他の構成は、旋律分析装置２の構成と共通である。

フレーズ境界判定部８０は、新規性ベクトル計算部７０が計算した新規性ベクトルのピーク位置に基づいてフレーズの境界を検知する。新規性ベクトルが急峻なピークを持つ位置は、フレーズの境界であると考えられる。そこでフレーズ境界判定部８０は、図１５に示されるように新規性ベクトルが急峻なピークを持つ位置を検知し、これをフレーズの境界として出力する。

本実施の形態によれば、ある曲の中のフレーズの境界を検知することができる。

［第４の実施の形態］
図１７は第４の実施の形態に係る旋律分析方法の処理手順を示すフローチャートである。ステップＳ１で本方法は、第１の旋律および第２の旋律を入力する。ステップＳ２で本方法は、第１の旋律および第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出する。ステップＳ３で本方法は、抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与する。ステップＳ４で本方法は、各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成する。ステップＳ５で本方法は、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算する。ステップＳ６で本方法は、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力する。

本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定をコンピュータを用いて実現することができる。

［第５の実施の形態］
第５の実施の形態は、プログラムである。このプログラムは、図１７に示されるステップ、すなわち、第１の旋律および第２の旋律を入力するステップＳ１と、第１の旋律および第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するステップＳ２と、抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するステップＳ３と、各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成するステップＳ４と、特徴ベクトルを要素とする集合により各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するステップＳ５と、第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力するステップＳ６と、をコンピュータに実行させる。

本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定をコンピュータに実行させるプログラムをソフトウェアとして実装することができる。

以上、本発明を実施の形態を基に説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

［検証１］
図１８に、ある楽曲の一部の旋律に関し、異なる特徴量を基に作成した自己類似性行列を示す。（ａ）は、音高を基に生成された自己類似性行列である。（ｂ）は、音程を基に生成された自己類似性行列である。（ｃ）は、実施の形態により、ＩＲ特徴量を基に生成された自己類似性行列である（図１２の再掲である）。

図１８（ａ）には、図１８（ｂ）（ｃ）と比較して、市松模様が表れているという特徴がある。これは、対象とする旋律に、Ｂ－Ａ－Ｇｉｓ－Ａのような、同一の音高が一音飛ばしで現れる音列が含まれているためであると考えられる。このような場合、類似度が高いと判断される音符が１音飛ばしで表れる結果、自己類似性行列に市松模様が表れることが推察される。このように、音高を特徴量とした場合、音符単位での類似度計算を行なってしまうため、正確なフレーズ推定ができないという問題がある。

図１８（ｂ）では、図１８（ｃ）と同様に、対角成分が現れるような自己類似性行列が得られている。一方、音程を特徴量として使用していることに起因して、局所的な類似度の影響を受けていることが分かる。例えば、第２小節２拍目に現れるＦ－Ｅ－Ｄｉｓ－Ｅという音列における類似度を計算する場合、度数はそれぞれは短２、短２度、短２度で構成されているため、Ｆ－ＥとＥ－Ｄｉｓとの類似度が高くなってしまう。こうした局所的な類似度の影響を受けることにより、ＩＲ特徴量に基づく自己類似性行列と比較して、全体的に類似度の高い、かすかにぼやけたような自己類似性行列が得られる。

図１８（ｃ）では、図１８（ｂ）（ｃ）と比較して、複数のシャープな対角成分が得られている。具体的には、先ず冒頭の旋律Ｂ－Ｄ－Ｅ－Ｆと類似度が高いと判断される旋律として、第２小節に出現するＢ－Ｅｓ－Ｆ－Ｇおよび第３小節に出現するＢ－Ｆ－Ｇ－Ａがある。さらに、第５小節に出現するＣ－Ｂ－Ａｓ、第６小節に出現するＢ－Ａｓ－Ｇ、第７小節に出現するＡｓ－Ｇ－Ｆも同様に類似した旋律と判断される。このように本実施の形態によれば、反行するようなモチーフも含め、多数の正確な類似フレーズの抽出が可能となることが示される。

［検証２］
図１９に、ある楽曲全体に関し、異なる特徴量を基に作成した自己類似性行列と、推定されたフレーズ境界とを示す。異なる特徴量を基に作成した自己類似性行列を示す。（ａ）は、音高を基に生成された自己類似性行列である。（ｂ）は、音程を基に生成された自己類似性行列である。（ｃ）は、実施の形態により、ＩＲ特徴量を基に生成された自己類似性行列である

図１９（ａ）の自己類似性行列には、正方形の区間が表れており、正確なフレーズ推定が困難であることが分かる。このような正方形の区間は、１フレーズを対象にした場合に現れる市松模様が連続して複数出現したために表れたものと推測される。一方、図１９（ｂ）（ｃ）では、こうした正方形が表れる区間には、対角成分が表れている。

図１９（ｂ）では、前述のように対角成分が表れている。従って、楽曲全体にわたり、再起的に出現する音列の検出が可能であることが示唆される。しかしながら局所的な類似度が強く反映されているため、全体的に黒みがかかっている。フレーズ境界の推定に関しても、局所的な分割が多く見られる。そのため、楽曲におけるＡメロ、Ｂメロのように大まかに特性の類似した区間を基準とした分割を行うことは困難である。

図１９（ｃ）では、図１８（ｃ）と同様に複数のシャープな対角成分が得られており、類似区間と非類似区間が顕著に区別されている。すなわち、局所的なフレーズ境界推定を行っていないことが推察される。実際、最小の境界区間であっても２０－３０音程度であり、図１９（ａ）（ｂ）と比べ、過剰なフレーズ境界推定が回避されていることが分かる。

本発明の原理は、以下のように様々な分野におけるフレーズ推定、楽曲分析に応用が可能である。（応用例１）旋律検索。カフェのＢＧＭ、鼻歌や口笛などで奏でられる曖昧な旋律を分析することにより、類似した楽曲を精度よく検索することができる。
（応用例２）音楽産業。楽曲推薦、プレイリスト作成、メディアコンテンツ作成支援、作曲・編曲・演奏支援、ヒット曲予測などに旋律分析を適用することができる。
（応用例３）音楽教育。複雑な旋律を理解することが難しい音楽初心者に対し、よりシンプルな類似した旋律を生成し提示することにより、効果的な音楽教育が可能となる。
（応用例４）学術研究。民族音楽や歴史的音楽といった科学的・文化的研究の要素技術として、旋律分析を使うことができる。

１…旋律分析装置。
２…旋律分析装置。
３…旋律分析装置。
１０…入力部。
２０…トライグラム抽出部。
３０…ＩＲシンボル付与部。
４０…特徴ベクトル生成部。
５０…コスト計算部。
６０…類似性行列計算部。
７０…新規性ベクトル計算部。
８０…フレーズ境界判定部。
Ｓ１…第１の旋律および第２の旋律を入力するステップ。
Ｓ２…トライグラムを抽出するステップ。
Ｓ３…ＩＲシンボルを付与するステップ。
Ｓ４…特徴ベクトルを生成するステップ。
Ｓ５…コストを計算するステップ。
Ｓ６…類似性行列を計算するステップ。

Claims

第１の旋律および第２の旋律が入力する入力部と、
前記第１の旋律および前記第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部と、
抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するＩＲシンボル付与部と、
各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成する特徴ベクトル生成部と、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するコスト計算部と、
前記第１の旋律のｍ番目の音符と第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力する類似性行列計算部と、を備えることを特徴とする旋律分析装置。
前記集合間の距離尺度はＪａｃｃａｒｄ係数であり、
集合Ａと集合Ｂとの間のＪａｃｃａｒｄ係数Ｊａｃｃａｒｄ（Ａ，Ｂ）を

と表し、
０≦α≦１を満たす所定のパラメータαおよびパラメータβ_１、β_２、β_３を与えたとき、
ｉ番目の音符とｊ番目の音符との間の前記コストは、

であることを特徴とする請求項１に記載の旋律分析装置。
前記ＩＲシンボルは、Ｐ、ＩＰ、ＶＰ、Ｒ、ＩＲ、ＶＲ、Ｄ、ＩＤの８種類であることを特徴とする請求項１または２に記載の旋律分析装置。
前記ＩＲシンボルは、Ｐｕ、Ｐｄ、ＩＰｕ、ＩＰｄ、ＶＰｕ、ＶＰｄ、Ｒｕ、Ｒｄ、ＩＲｕ、ＩＲｄ、ＶＲｕ、ＶＲｄ、ＩＤｕ、ＩＤｄ、Ｄの１５種類であることを特徴とする請求項１または２に記載の旋律分析装置。
前記第１の旋律と前記第２の旋律は同じであることを特徴とする請求項１から４のいずれかに記載の旋律分析装置。
前記第１の旋律と前記第２の旋律は異なることを特徴とする請求項１から４のいずれかに記載の旋律分析装置。
前記類似性行列をＭ行Ｎ列行列としたとき、前記類似性行列上で傾きＭ／Ｎの直線に沿ってチェッカーボードカーネル行列を適用し、前記チェッカーボードカーネル行列内の前記類似性行列の各成分と前記チェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する新規性ベクトル計算部をさらに備えることを特徴とする請求項１から６のいずれかに記載の旋律分析装置。
前記新規性ベクトルのピーク位置に基づいてフレーズの境界を検知するフレーズ境界判断部をさらに備えることを特徴とする請求項７に記載の旋律分析装置。
第１の旋律および第２の旋律を入力するステップと、
前記第１の旋律および前記第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するステップと、
抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するステップと、
各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成するステップと、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するステップと、
前記第１の旋律のｍ番目の音符と前記第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力するステップと、を備えることを特徴とする旋律分析方法。
第１の旋律および第２の旋律を入力するステップと、
前記第１の旋律および前記第２の旋律に含まれる連続する３つの音符により構成されるトライグラムの組を抽出するステップと、
抽出された各トライグラムを構成する各音符に対しＩＲシンボルを付与するステップと、
各音符に付与されたＩＲシンボルを第１成分、トライグラムにおける当該音符の位置を第２成分、当該音符に隣接する音符の音価に基づく特徴量を第３成分とする特徴ベクトルを生成するステップと、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、２つの音符を表現する集合間の距離尺度を計算することにより、当該２つの音符間のコストを計算するステップと、
前記第１の旋律のｍ番目の音符と前記第２の旋律のｎ番目の音符との間で計算された計算尺度を（ｍ，ｎ）成分とする類似性行列を計算して出力するステップと、をコンピュータに実行させることを特徴とする旋律分析プログラム。