JP2023039332A - 旋律分析装置、旋律分析方法および旋律分析プログラム - Google Patents
旋律分析装置、旋律分析方法および旋律分析プログラム Download PDFInfo
- Publication number
- JP2023039332A JP2023039332A JP2021146457A JP2021146457A JP2023039332A JP 2023039332 A JP2023039332 A JP 2023039332A JP 2021146457 A JP2021146457 A JP 2021146457A JP 2021146457 A JP2021146457 A JP 2021146457A JP 2023039332 A JP2023039332 A JP 2023039332A
- Authority
- JP
- Japan
- Prior art keywords
- melody
- note
- notes
- trigram
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims description 5
- 230000003920 cognitive function Effects 0.000 abstract description 8
- 239000000203 mixture Substances 0.000 abstract description 2
- 239000011295 pitch Substances 0.000 description 77
- 238000010586 diagram Methods 0.000 description 15
- 238000011161 development Methods 0.000 description 6
- 239000000470 constituent Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 201000007750 congenital bile acid synthesis defect Diseases 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000004800 psychological effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
【課題】楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を行う旋律分析装置、方法及びプログラムを提供する。【解決手段】旋律分析装置1は、第1の旋律及び第2の旋律が入力する入力部10、第1の旋律及び第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部20、抽出した各トライグラムを構成する各音符に対しIRシンボルを付与するIRシンボル付与部30、各音符に付与したIRシンボルから特徴ベクトルを生成する特徴ベクトル生成部40、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することで、2つの音符間のコストを計算するコスト計算部50及び第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力する類似性行列計算部60と、を備える。【選択図】図10
Description
本発明は、旋律分析装置、旋律分析方法および旋律分析プログラムに関する。
人間がある旋律を聴くとき、後続する旋律を予測しているという仮定に基づき、旋律内の音列をシンボルと呼ばれる記号で分類して表現する暗意-実現モデル(Implication-Realization ModelまたはIRモデルとも呼ばれる)が知られている(例えば、非特許文献1、2参照)。
Eugene Narmour, "The Analysis and Cognition of Basic Melodic Structures", The University of Chicago Press, 1990.
Eugene Narmour, "The Analysis and Cognition of Melodic Complexity", The University of Chicago Press, 1992.
Aloupis, G., Fevens, T., Langerman, S., Matsui, T., Mesa, A., Nunez, Y., Rappaport, D., Toussaint, G. (2006). Algorithms for computing geometric measures of melodic similarity. Computer Music Journal, 30(3), pp.67-76.
Eerola, Tuomas, and Micah Bregman. "Melodic and contextual similarity of folk song phrases." (2007): 211-233.
楽曲の構造分析などを行うときの重要な手順の1つにフレーズ推定がある。ここでフレーズとは、楽曲を構成する単位の一つであり、音楽的なまとまりのことをいう。フレーズを推定することにより、2つの楽曲同士がどの程度似ているか、楽曲内のフレーズの切れ目(境界)がどこにあるか、ある旋律を聴いたときそれがどの曲であるか等を知ることができる。
こうしたフレーズ推定の有力な手法の1つとして、対象となる楽曲の記号(すなわち、楽譜上の音符など)を対象に旋律類似度を計算するものがある(例えば、非特許文献3、4参照)。非特許文献3、4に記載の技術は、旋律を音高と音価(音の長さ)の2次元上で表現し、図形的な距離を基に2つの旋律間の類似度を計算する。こうした方法で算出される距離は旋律の形状に基づく幾何学的な類似度計算に基づくため、一部音高が異なる場合であっても、逸脱度合いに応じた距離計算が可能であるという特徴がある。しかしその一方で、音符の挿入や欠落の影響を受けやすいという問題がある。
さらに人間が音楽を聴くときの認知機能に起因して、例えば1つの音が半音違っただけで旋律全体が情動に与える影響が大きく変化するケースも多数ある。こうした場合、上記の技術は人間の認知機能を反映することができないため、類似した旋律を判定することや、多声音楽中に繰り返し部分を発見してフレーズ推定を実現を行うことは困難であった。
本発明はこうした状況に鑑みてなされたものであり、その目的は、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することにある。
上記課題を解決するために、本発明のある態様の旋律分析装置は、第1の旋律および第2の旋律が入力する入力部と、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部と、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するIRシンボル付与部と、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成する特徴ベクトル生成部と、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するコスト計算部と、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力する類似性行列計算部と、を備える。
ある実施の形態では、集合間の距離尺度はJaccard係数であり、集合Aと集合Bとの間のJaccard係数Jaccard(A,B)を
と表し、0≦α≦1を満たす所定のパラメータαおよびパラメータβ1、β2、β3を与えたとき、i番目の音符とj番目の音符との間のコストは、
であってもよい。
ある実施の形態では、IRシンボルは、P、IP、VP、R、IR、VR、D、IDの8種類であってもよい。
ある実施の形態では、IRシンボルは、Pu、Pd、IPu、IPd、VPu、VPd、Ru、Rd、IRu、IRd、VRu、VRd、IDu、IDd、Dの15種類であってもよい。
ある実施の形態では、第1の旋律と第2の旋律は同じであってもよい。
ある実施の形態では、第1の旋律と第2の旋律は異なってもよい。
ある実施の形態では、類似性行列をM行N列行列としたとき、前記類似性行列上で傾きM/Nの直線に沿ってチェッカーボードカーネル行列を適用し、チェッカーボードカーネル行列内の類似性行列の各成分とチェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する新規性ベクトル計算部をさらに備えてもよい。
ある実施の形態では、旋律分析装置は、新規性ベクトルのピーク位置に基づいてフレーズの境界を検知するフレーズ境界判断部をさらに備えてもよい。
本発明の別の態様は、旋律分析方法である。この方法は、第1の旋律および第2の旋律を入力するステップと、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップと、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップと、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップと、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するステップと、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップと、を備える。
本発明のさらに別の態様は、旋律分析プログラムである。このプログラムは、第1の旋律および第2の旋律を入力するステップと、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップと、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップと、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップと、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップと、をコンピュータに実行させる。
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を方法、装置、プログラム、プログラムを記録した一時的なまたは一時的でない記憶媒体、システムなどの間で相互に置換したものもまた、本発明の態様として有効である。
本発明によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することができる。
以下、本発明を好適な実施の形態を基に各図面を参照しながら説明する。実施の形態および変形例では、同一または同等の構成要素、部品には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面における部品の寸法は、理解を容易にするために適宜拡大、縮小して示される。また、各図面において実施の形態を説明する上で重要ではない要素の一部は省略して表示する。また、第1、第2などの序数を含む用語は多様な構成要素を説明するために用いられるが、この用語は1つの構成要素を他の構成要素から区別する目的でのみ用いられ、この用語によって構成要素が限定されるものではない。
具体的な実施の形態を説明する前に、基礎となる知見として暗意-実現モデルについて説明する。暗意実現モデルは「暗意-実現」の考え方を旋律に応用した音楽理論である。これは、人間がある旋律を聴くとき、意識的または無意識的に後続する旋律を予測しながら聴いているという仮説に基づく。例えば旋律に含まれる連続する3つの音列については、人間は最初の2つの音の動きに基づいて3音目を予測する。このとき3音目が予測通りの音だと(すなわち「暗意が実現」されると)安心するとか、予測に反する音だと(すなわち「暗意が否定」されると)と大きな情動を感じるなどといった心理的作用が生じる。このように人間は音楽を聴きながら後続する音を予測し、予測が実現したりしなかったりしたことに応じて当該音楽のフレーズを認識する。
暗意-実現モデルでは、旋律に含まれる連続する3つの音符により構成される音のまとまり(以下「トライグラム」(tri-gram)と呼ぶ)に、IRシンボルと呼ばれるシンボルを付与する。類似する暗意-実現/否定関係をもつ音列には同一のシンボルが割り当てられる。一例として、以下、非特許文献1、2に記載された8種類(P、IP、VP、R、IR、VR、D、ID)のIRシンボルの定義と、その暗意を示す。
P(Process):類似の音程で同じ音程方向にメロディが進む。すなわち、類似の音程で上昇する、または下降する。単なる進行を含意する。
IP(Intervallic Process):類似の音程で異なる音程方向に旋律が進む、すなわち、ほぼ同じ音程で上昇して下降する、または下降して上昇する。音高に変化を付けながら旋律が進行することを含意する。
VP(Registral Process):差異のある音程で、同じ音程方向に旋律が進む。すなわち、小さな音程で上昇して大きな音程で下降する、または小さな音程で下降して大きな音程で下降する。音の進行方向に変化を付けながら旋律が進行することを含意する。
R(Reversal):差異のある音程で、異なる音程方向に旋律が進む。すなわち、大きな音程で上昇して小さな音程で下降する、または大きな音程で下降して小さな音程で上昇する。旋律展開に驚き(予期せぬ展開)があることを含意する。
IR(Intervallic Reversal):広い音程から狭い音程へ、同じ音程方向で旋律が進む。すなわち、大きな音程で上昇し小さな音程で上昇する、または大きな音程で下降し小さな音程で下降する。音高に変化を付けながら展開に驚きがあることを含意する。
VR(Registral Reversal):狭い音程から広い音程へ、異なる音程方向で旋律が進む。すなわち、小さな音程で上昇し大きな音程で下降する、または小さな音程で下降し大きな音程で上昇する。音の進行方向に変化を付けながら展開に驚きがあることを含意する。
D(Duplication):音程に変化がない。メロディの展開が否定されることを含意する。
ID(Intervallic Duplication):同じ音程の進行で、異なる音程方向に進む。ある音から一度上昇して元に戻る、または一度下降して元に戻る。音高に変化を付けながら旋律の展開が否定されることを含意する。
P(Process):類似の音程で同じ音程方向にメロディが進む。すなわち、類似の音程で上昇する、または下降する。単なる進行を含意する。
IP(Intervallic Process):類似の音程で異なる音程方向に旋律が進む、すなわち、ほぼ同じ音程で上昇して下降する、または下降して上昇する。音高に変化を付けながら旋律が進行することを含意する。
VP(Registral Process):差異のある音程で、同じ音程方向に旋律が進む。すなわち、小さな音程で上昇して大きな音程で下降する、または小さな音程で下降して大きな音程で下降する。音の進行方向に変化を付けながら旋律が進行することを含意する。
R(Reversal):差異のある音程で、異なる音程方向に旋律が進む。すなわち、大きな音程で上昇して小さな音程で下降する、または大きな音程で下降して小さな音程で上昇する。旋律展開に驚き(予期せぬ展開)があることを含意する。
IR(Intervallic Reversal):広い音程から狭い音程へ、同じ音程方向で旋律が進む。すなわち、大きな音程で上昇し小さな音程で上昇する、または大きな音程で下降し小さな音程で下降する。音高に変化を付けながら展開に驚きがあることを含意する。
VR(Registral Reversal):狭い音程から広い音程へ、異なる音程方向で旋律が進む。すなわち、小さな音程で上昇し大きな音程で下降する、または小さな音程で下降し大きな音程で上昇する。音の進行方向に変化を付けながら展開に驚きがあることを含意する。
D(Duplication):音程に変化がない。メロディの展開が否定されることを含意する。
ID(Intervallic Duplication):同じ音程の進行で、異なる音程方向に進む。ある音から一度上昇して元に戻る、または一度下降して元に戻る。音高に変化を付けながら旋律の展開が否定されることを含意する。
図1にP、図2にIP、図3にVP、図4にR、図5にIR、図6にVR、図7にD、図8にIDのIRシンボルが付与されたトライグラムの例を示す。
図9に、±1オクターブの音程範囲内にあるトライグラムに付与されるIRシンボル全体を示す。横軸は、1半音を単位とする1-2音間の音程であり、縦軸は1半音を単位とする2-3音間の音程である。
上に例示した8種類のIRシンボルでは、音程の上下方向の進行に関する定義はない。これに対し、音程が下降して上昇する音列と、音程が上昇して下降する音列とが区別されるようにIRシンボルを拡張することもできる。一例として以下に、上記の8種類のIRシンボルを15種類に拡張したものを示す。ここでは、音程が上昇するもの(または上昇してから下降するもの)にu、音程が下降するもの(または下降してから上昇するもの)にdを付して区別している。
Pu:類似の音程で上昇する。
Pd:類似の音程で下降する。
IPu:ほぼ同じ音程で上昇して下降する。
IPd:ほぼ同じ音程で下降して上昇する。
VPu:小さな音程で上昇して大きな音程で下降する。
VPd:小さな音程で下降して大きな音程で下降する。
Ru:大きな音程で上昇して小さな音程で下降する。
Rd:大きな音程で下降して小さな音程で上昇する。
IRu:大きな音程で上昇し小さな音程で上昇する。
IRd:大きな音程で下降し小さな音程で下降する。
VRu:小さな音程で上昇し大きな音程で下降する。
VRd:小さな音程で下降し大きな音程で上昇する。
D:音程に変化がない。
IDu:ある音から一度上昇して元に戻る。
IDd:ある音から一度下降して元に戻る。
Pu:類似の音程で上昇する。
Pd:類似の音程で下降する。
IPu:ほぼ同じ音程で上昇して下降する。
IPd:ほぼ同じ音程で下降して上昇する。
VPu:小さな音程で上昇して大きな音程で下降する。
VPd:小さな音程で下降して大きな音程で下降する。
Ru:大きな音程で上昇して小さな音程で下降する。
Rd:大きな音程で下降して小さな音程で上昇する。
IRu:大きな音程で上昇し小さな音程で上昇する。
IRd:大きな音程で下降し小さな音程で下降する。
VRu:小さな音程で上昇し大きな音程で下降する。
VRd:小さな音程で下降し大きな音程で上昇する。
D:音程に変化がない。
IDu:ある音から一度上昇して元に戻る。
IDd:ある音から一度下降して元に戻る。
[第1の実施の形態]
図10は、第1の実施の形態に係る旋律分析装置1の機能ブロック図である。旋律分析装置1は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、を備える。
図10は、第1の実施の形態に係る旋律分析装置1の機能ブロック図である。旋律分析装置1は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、を備える。
入力部10には、第1の旋律および第2の旋律が入力する。例えば入力部10は、第1の旋律および第2の旋律が記された楽譜データを読み込んでもよい。あるいは入力部10は、第1の旋律および第2の旋律が格納された音楽ファイルを読み込んでもよいし、マイクロフォンを通じて第1の旋律および第2の旋律そのものを集音してもよい。楽譜データを直接読み込むのでない場合は、入力部10が入力された音声データ等から楽譜データを作成する機能を備えていてもよい。
トライグラム抽出部20は、入力部10に入力された第1の旋律および第2の旋律に含まれるトライグラム(前述の通り、連続する3つの音符により構成される音のまとまり)の組を抽出する。図11に、トライグラム抽出部20が抽出した3つのトライグラム(時系列順に、トライグラム1、トライグラム2、トライグラム3)の例を示す。前述の15種類のIRシンボルに従えば、トライグラム1にはIPu、トライグラム2にはIDd、トライグラム3にはPuのIRシンボルを付与することができる。トライグラム抽出部20は、第1の旋律および第2の旋律の各々に関し、それらに含まれるすべてのまたは一部の音符からトライグラムを抽出する。
IRシンボル付与部30は、トライグラム抽出部20が抽出した各トライグラムを構成する各音符に対しIRシンボルを付与する。図11の例では、IRシンボル付与部30は、トライグラム1にIPu、トライグラム2にIDd、トライグラム3にPuのIRシンボルを付与する。
特徴ベクトル生成部40は、各音符に対し、IRシンボル付与部30により各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置(すなわち、当該音符が当該トライグラム内における何番目の音であるか)を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成する。すなわち、各音符の特徴ベクトルは以下で定義される。
第3成分は、例えば当該音符と当該音符の1つ前の音符との音価比であってもよい。この場合、旋律の最初の音については、前の音との音価比を1とする。
以下の点に注意する。すなわち、元来IRシンボルは音高に着目した分類であるため、時間に関する抽象化は行われていない。そこで本実施の形態では、時間に関する抽象化を行うために、1つ前の音符との音価比を特徴量として導入した。このように音高方向と時間方向とに関する抽象化の結果を組み合わせることにより、旋律に含まれる音符は、IRシンボル(第1成分)、トライグラムにおける当該音符の位置(第2成分)、1つ前の音符との音価比(第3成分)の3つの成分からなるベクトルとして表現することができる。
一例として、図11の最初の3音をそれぞれt1(ドまたはC)、t2(ミまたはE)、t3(レまたはD)とすると、t1、t2、t3はそれぞれ以下の特徴を持つ。
t1:t1は、トライグラム1(IPu)における1番目の音である。t1は最初の音なので、前の音との音価比は1である。従って、t1の特徴ベクトルは以下のようになる。
t2:t2は、トライグラム1(IPu)における2番目の音である。さらにt2は、トライグラム2(IDd)における1番目の音である。t2は四分音符であり、1つ前の音t1も四分音符なので、t2とt1との音価比は1である。従って、t2の特徴ベクトルは以下の2つとなる。
t3:t3は、トライグラム1(IPu)における3番目の音である。さらにt3は、トライグラム2(IDd)における2番目の音である。さらにt3は、トライグラム3(Pu)における1番目の音である。t3は四分音符であり、1つ前の音t2も四分音符なので、t3とt2との音価比は1である。従って、t3の特徴ベクトルは以下の3つとなる。
t1:t1は、トライグラム1(IPu)における1番目の音である。t1は最初の音なので、前の音との音価比は1である。従って、t1の特徴ベクトルは以下のようになる。
コスト計算部50は、前述の特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算する。
集合間の距離尺度は、例えばJaccard係数であってもよい。この場合、集合Aと集合Bとの間のJaccard係数Jaccard(A,B)は以下で表される。
Jaccard係数は2つの集合に含まれる要素のうち共通要素が占める割合を表しており、0以上1以下の値を取る。Jaccard係数が大きいほど、2つの集合の類似度が高い。0≦α≦1を満たす所定のパラメータαおよびパラメータβ1、β2、β3を与えたとき、i番目の音符とj番目の音符との間のコストは以下のように計算される。
上記の計算では、旋律同士の距離計算にDPマッチング(Dynamic Programming、動的計画法)に基づく旋律アライメント手法を拡張した方法を用いている。旋律に含まれる音符(t1、t2、…、tn)は前述の特徴ベクトルを要素とする集合として表現されているため、音符同士の類似度は集合の距離として計算することができる。このとき、集合同士の距離計算のためにJaccard係数を使用する。さらに集合の系列同士の類似度計算を行うために、上記のコストを計算する。ここで、(t1、t2、…、ti)、(t1、t2、…、tj)は距離計算の対象となる旋律であり、αは類似度計算を行う際に直前の類似度をどれだけ反映させるかを決定するハイパーパラメータである。αの値が0の場合、Costijは現在時刻における音符の類似度を表す。αの値が0以外の場合、Costijは過去系列における類似度を反映させた累積類似度を表す。
一例として、図11の3つの音符t1、t2、t3は、それぞれの特徴ベクトルを要素とする集合により、以下のように表現される。
すると、これらの集合間のJaccard係数は以下のように計算される。
従って、例えばα=0.5、β1=1、β2=0.8、β3=0.7としたとき、2つの音符間のコストは以下のように計算される。
上記の例では、集合間の距離尺度をJaccard係数として説明した。しかしこれに限られず、集合間の距離尺度は例えばDice係数などであってもよい。
類似性行列計算部60は、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする行列を計算して出力する。このような行列は「類似性行列」と呼ばれる。類似性行列は第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分としていることから、類似性行列の0でない成分に対応する音列が第1の旋律と第2の旋律とで類似していることになる。このようにして得られた類似性行列は、フレーズ内における音高が完全に一致する場合だけではなく、音高や発音タイミングのズレを許容するようなフレーズ、すなわち人間が聴取したときに「似ている」と感じる音列同士の類似度も反映している。
第1の旋律と第2の旋律は同じであってもよい。この場合、類似性行列の0でない成分により、同じ旋律内で類似するフレーズがどこにあるかを知ることができる。
第1の旋律と第2の旋律は異なっていてもよい。この場合、類似性行列の0でない成分により、異なる旋律同士を比較したとき、類似するフレーズがどこにあるかを知ることができる。
図12に、本実施の形態によって生成した類似性行列の例を模式的に示す。理解を容易にするために、この図では行列の各成分を数値ではなく、グレースケールの濃淡で表す。濃い部分ほどフレーズの類似度が高く、逆に白い部分は類似度が0である。第1の旋律と第2の旋律は同じものであり、4小節半内の23個の音符からなる。なお、第1の旋律と第2の旋律が同じであるときの類似性行列は「自己類似性行列」とも呼ばれる。類似性行列における(i,j)成分はti,tjにおける類似度を表す。また(in,jm)成分と(in+k,jm+k)とを結ぶ線分は、in音目からin+k番目の区間のフレーズと、jm音目からjm+k音目の区間のフレーズとが類似していることを意味する。また(i,0)を始点とした対角成分が存在する部分は、先頭から始まる音列との類似度が高い音列の開始音であることを示す。例えば図12で(i,0)を始点とした対角成分が確認できるのは、6音目、11音目、15音目、19音目であり、これらは第1音から始まるB-A-Gis-Aと類似した音形の開始音であることを示す。なお、自己類似性行列における(0,0)から(N,N)までの対角成分は、同一旋律における同一部分の類似度を表している。
以上説明したように、本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定を実現することができる。
[第2の実施の形態]
図13は、第2の実施の形態に係る旋律分析装置2の機能ブロック図である。旋律分析装置2は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、新規性ベクトル計算部70と、を備える。すなわち旋律分析装置2は、図10の旋律分析装置1に対して、新規性ベクトル計算部70をさらに備える点で異なる。旋律分析装置2のその他の構成は、旋律分析装置1の構成と共通である。以下、旋律分析装置2に関し、旋律分析装置1と異なる部分に焦点を当てて説明し、共通する部分の重複する説明は省略する(以下同様)。
図13は、第2の実施の形態に係る旋律分析装置2の機能ブロック図である。旋律分析装置2は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、新規性ベクトル計算部70と、を備える。すなわち旋律分析装置2は、図10の旋律分析装置1に対して、新規性ベクトル計算部70をさらに備える点で異なる。旋律分析装置2のその他の構成は、旋律分析装置1の構成と共通である。以下、旋律分析装置2に関し、旋律分析装置1と異なる部分に焦点を当てて説明し、共通する部分の重複する説明は省略する(以下同様)。
ある実施の形態では、類似性行列計算部60が計算して出力した類似性行列をM行N列行列とする。新規性ベクトル計算部70は、類似性行列上で傾きM/Nの直線に沿ってチェッカーボードカーネル行列を適用し、このチェッカーボードカーネル行列内の類似性行列の各成分とチェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する。チェッカーボードカーネル行列は、成分が市松模様の濃淡分布を持つ正方行列である。類似性行列の対角線上にチェッカーボードカーネル行列を掛けながらトレースすることによって、類似性行列のテクスチャが急峻に変化する部分を検知することができる。
図14に、本実施の形態で使用するチェッカーボードカーネル行列の例を示す。このチェッカーボードカーネル行列は、20×20のガウシアンカーネルである。ガウシアンカーネルは、ノイズに対して頑健であるという特徴を持つ。
図15の上段に、チェッカーボードカーネル行列を適用する様子を模式的に示す。図15の下段に、チェッカーボードカーネル行列を適用することによって得られた新規性ベクトルを示す。
本実施の形態によれば、類似性行列のテクスチャが急峻に変化する部分を検知することができる。
[第3の実施の形態]
図16は、第3の実施の形態に係る旋律分析装置3の機能ブロック図である。旋律分析装置2は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、新規性ベクトル計算部70と、フレーズ境界判定部80と、を備える。すなわち旋律分析装置3は、図13の旋律分析装置2に対して、フレーズ境界判定部80をさらに備える点で異なる。旋律分析装置3のその他の構成は、旋律分析装置2の構成と共通である。
図16は、第3の実施の形態に係る旋律分析装置3の機能ブロック図である。旋律分析装置2は、入力部10と、トライグラム抽出部20と、IRシンボル付与部30と、特徴ベクトル生成部40と、コスト計算部50と、類似性行列計算部60と、新規性ベクトル計算部70と、フレーズ境界判定部80と、を備える。すなわち旋律分析装置3は、図13の旋律分析装置2に対して、フレーズ境界判定部80をさらに備える点で異なる。旋律分析装置3のその他の構成は、旋律分析装置2の構成と共通である。
フレーズ境界判定部80は、新規性ベクトル計算部70が計算した新規性ベクトルのピーク位置に基づいてフレーズの境界を検知する。新規性ベクトルが急峻なピークを持つ位置は、フレーズの境界であると考えられる。そこでフレーズ境界判定部80は、図15に示されるように新規性ベクトルが急峻なピークを持つ位置を検知し、これをフレーズの境界として出力する。
本実施の形態によれば、ある曲の中のフレーズの境界を検知することができる。
[第4の実施の形態]
図17は第4の実施の形態に係る旋律分析方法の処理手順を示すフローチャートである。ステップS1で本方法は、第1の旋律および第2の旋律を入力する。ステップS2で本方法は、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出する。ステップS3で本方法は、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与する。ステップS4で本方法は、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成する。ステップS5で本方法は、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算する。ステップS6で本方法は、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力する。
図17は第4の実施の形態に係る旋律分析方法の処理手順を示すフローチャートである。ステップS1で本方法は、第1の旋律および第2の旋律を入力する。ステップS2で本方法は、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出する。ステップS3で本方法は、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与する。ステップS4で本方法は、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成する。ステップS5で本方法は、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算する。ステップS6で本方法は、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力する。
本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定をコンピュータを用いて実現することができる。
[第5の実施の形態]
第5の実施の形態は、プログラムである。このプログラムは、図17に示されるステップ、すなわち、第1の旋律および第2の旋律を入力するステップS1と、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップS2と、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップS3と、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップS4と、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するステップS5と、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップS6と、をコンピュータに実行させる。
第5の実施の形態は、プログラムである。このプログラムは、図17に示されるステップ、すなわち、第1の旋律および第2の旋律を入力するステップS1と、第1の旋律および第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップS2と、抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップS3と、各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップS4と、特徴ベクトルを要素とする集合により各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するステップS5と、第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップS6と、をコンピュータに実行させる。
本実施の形態によれば、楽曲の記号を対象として、人間の認知機能を反映したフレーズ推定をコンピュータに実行させるプログラムをソフトウェアとして実装することができる。
以上、本発明を実施の形態を基に説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
[検証1]
図18に、ある楽曲の一部の旋律に関し、異なる特徴量を基に作成した自己類似性行列を示す。(a)は、音高を基に生成された自己類似性行列である。(b)は、音程を基に生成された自己類似性行列である。(c)は、実施の形態により、IR特徴量を基に生成された自己類似性行列である(図12の再掲である)。
図18に、ある楽曲の一部の旋律に関し、異なる特徴量を基に作成した自己類似性行列を示す。(a)は、音高を基に生成された自己類似性行列である。(b)は、音程を基に生成された自己類似性行列である。(c)は、実施の形態により、IR特徴量を基に生成された自己類似性行列である(図12の再掲である)。
図18(a)には、図18(b)(c)と比較して、市松模様が表れているという特徴がある。これは、対象とする旋律に、B-A-Gis-Aのような、同一の音高が一音飛ばしで現れる音列が含まれているためであると考えられる。このような場合、類似度が高いと判断される音符が1音飛ばしで表れる結果、自己類似性行列に市松模様が表れることが推察される。このように、音高を特徴量とした場合、音符単位での類似度計算を行なってしまうため、正確なフレーズ推定ができないという問題がある。
図18(b)では、図18(c)と同様に、対角成分が現れるような自己類似性行列が得られている。一方、音程を特徴量として使用していることに起因して、局所的な類似度の影響を受けていることが分かる。例えば、第2小節2拍目に現れるF-E-Dis-Eという音列における類似度を計算する場合、度数はそれぞれは短2、短2度、短2度で構成されているため、F-EとE-Disとの類似度が高くなってしまう。こうした局所的な類似度の影響を受けることにより、IR特徴量に基づく自己類似性行列と比較して、全体的に類似度の高い、かすかにぼやけたような自己類似性行列が得られる。
図18(c)では、図18(b)(c)と比較して、複数のシャープな対角成分が得られている。具体的には、先ず冒頭の旋律B-D-E-Fと類似度が高いと判断される旋律として、第2小節に出現するB-Es-F-Gおよび第3小節に出現するB-F-G-Aがある。さらに、第5小節に出現するC-B-As、第6小節に出現するB-As-G、第7小節に出現するAs-G-Fも同様に類似した旋律と判断される。このように本実施の形態によれば、反行するようなモチーフも含め、多数の正確な類似フレーズの抽出が可能となることが示される。
[検証2]
図19に、ある楽曲全体に関し、異なる特徴量を基に作成した自己類似性行列と、推定されたフレーズ境界とを示す。異なる特徴量を基に作成した自己類似性行列を示す。(a)は、音高を基に生成された自己類似性行列である。(b)は、音程を基に生成された自己類似性行列である。(c)は、実施の形態により、IR特徴量を基に生成された自己類似性行列である
図19に、ある楽曲全体に関し、異なる特徴量を基に作成した自己類似性行列と、推定されたフレーズ境界とを示す。異なる特徴量を基に作成した自己類似性行列を示す。(a)は、音高を基に生成された自己類似性行列である。(b)は、音程を基に生成された自己類似性行列である。(c)は、実施の形態により、IR特徴量を基に生成された自己類似性行列である
図19(a)の自己類似性行列には、正方形の区間が表れており、正確なフレーズ推定が困難であることが分かる。このような正方形の区間は、1フレーズを対象にした場合に現れる市松模様が連続して複数出現したために表れたものと推測される。一方、図19(b)(c)では、こうした正方形が表れる区間には、対角成分が表れている。
図19(b)では、前述のように対角成分が表れている。従って、楽曲全体にわたり、再起的に出現する音列の検出が可能であることが示唆される。しかしながら局所的な類似度が強く反映されているため、全体的に黒みがかかっている。フレーズ境界の推定に関しても、局所的な分割が多く見られる。そのため、楽曲におけるAメロ、Bメロのように大まかに特性の類似した区間を基準とした分割を行うことは困難である。
図19(c)では、図18(c)と同様に複数のシャープな対角成分が得られており、類似区間と非類似区間が顕著に区別されている。すなわち、局所的なフレーズ境界推定を行っていないことが推察される。実際、最小の境界区間であっても20-30音程度であり、図19(a)(b)と比べ、過剰なフレーズ境界推定が回避されていることが分かる。
本発明の原理は、以下のように様々な分野におけるフレーズ推定、楽曲分析に応用が可能である。(応用例1)旋律検索。カフェのBGM、鼻歌や口笛などで奏でられる曖昧な旋律を分析することにより、類似した楽曲を精度よく検索することができる。
(応用例2)音楽産業。楽曲推薦、プレイリスト作成、メディアコンテンツ作成支援、作曲・編曲・演奏支援、ヒット曲予測などに旋律分析を適用することができる。
(応用例3)音楽教育。複雑な旋律を理解することが難しい音楽初心者に対し、よりシンプルな類似した旋律を生成し提示することにより、効果的な音楽教育が可能となる。
(応用例4)学術研究。民族音楽や歴史的音楽といった科学的・文化的研究の要素技術として、旋律分析を使うことができる。
(応用例2)音楽産業。楽曲推薦、プレイリスト作成、メディアコンテンツ作成支援、作曲・編曲・演奏支援、ヒット曲予測などに旋律分析を適用することができる。
(応用例3)音楽教育。複雑な旋律を理解することが難しい音楽初心者に対し、よりシンプルな類似した旋律を生成し提示することにより、効果的な音楽教育が可能となる。
(応用例4)学術研究。民族音楽や歴史的音楽といった科学的・文化的研究の要素技術として、旋律分析を使うことができる。
1…旋律分析装置。
2…旋律分析装置。
3…旋律分析装置。
10…入力部。
20…トライグラム抽出部。
30…IRシンボル付与部。
40…特徴ベクトル生成部。
50…コスト計算部。
60…類似性行列計算部。
70…新規性ベクトル計算部。
80…フレーズ境界判定部。
S1…第1の旋律および第2の旋律を入力するステップ。
S2…トライグラムを抽出するステップ。
S3…IRシンボルを付与するステップ。
S4…特徴ベクトルを生成するステップ。
S5…コストを計算するステップ。
S6…類似性行列を計算するステップ。
2…旋律分析装置。
3…旋律分析装置。
10…入力部。
20…トライグラム抽出部。
30…IRシンボル付与部。
40…特徴ベクトル生成部。
50…コスト計算部。
60…類似性行列計算部。
70…新規性ベクトル計算部。
80…フレーズ境界判定部。
S1…第1の旋律および第2の旋律を入力するステップ。
S2…トライグラムを抽出するステップ。
S3…IRシンボルを付与するステップ。
S4…特徴ベクトルを生成するステップ。
S5…コストを計算するステップ。
S6…類似性行列を計算するステップ。
Claims (10)
- 第1の旋律および第2の旋律が入力する入力部と、
前記第1の旋律および前記第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するトライグラム抽出部と、
抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するIRシンボル付与部と、
各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成する特徴ベクトル生成部と、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するコスト計算部と、
前記第1の旋律のm番目の音符と第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力する類似性行列計算部と、を備えることを特徴とする旋律分析装置。 - 前記IRシンボルは、P、IP、VP、R、IR、VR、D、IDの8種類であることを特徴とする請求項1または2に記載の旋律分析装置。
- 前記IRシンボルは、Pu、Pd、IPu、IPd、VPu、VPd、Ru、Rd、IRu、IRd、VRu、VRd、IDu、IDd、Dの15種類であることを特徴とする請求項1または2に記載の旋律分析装置。
- 前記第1の旋律と前記第2の旋律は同じであることを特徴とする請求項1から4のいずれかに記載の旋律分析装置。
- 前記第1の旋律と前記第2の旋律は異なることを特徴とする請求項1から4のいずれかに記載の旋律分析装置。
- 前記類似性行列をM行N列行列としたとき、前記類似性行列上で傾きM/Nの直線に沿ってチェッカーボードカーネル行列を適用し、前記チェッカーボードカーネル行列内の前記類似性行列の各成分と前記チェッカーボードカーネル行列の値との積の和を計算することにより、新規性ベクトルを計算する新規性ベクトル計算部をさらに備えることを特徴とする請求項1から6のいずれかに記載の旋律分析装置。
- 前記新規性ベクトルのピーク位置に基づいてフレーズの境界を検知するフレーズ境界判断部をさらに備えることを特徴とする請求項7に記載の旋律分析装置。
- 第1の旋律および第2の旋律を入力するステップと、
前記第1の旋律および前記第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップと、
抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップと、
各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップと、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するステップと、
前記第1の旋律のm番目の音符と前記第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップと、を備えることを特徴とする旋律分析方法。 - 第1の旋律および第2の旋律を入力するステップと、
前記第1の旋律および前記第2の旋律に含まれる連続する3つの音符により構成されるトライグラムの組を抽出するステップと、
抽出された各トライグラムを構成する各音符に対しIRシンボルを付与するステップと、
各音符に付与されたIRシンボルを第1成分、トライグラムにおける当該音符の位置を第2成分、当該音符に隣接する音符の音価に基づく特徴量を第3成分とする特徴ベクトルを生成するステップと、
前記特徴ベクトルを要素とする集合により前記各音符を表現したとき、2つの音符を表現する集合間の距離尺度を計算することにより、当該2つの音符間のコストを計算するステップと、
前記第1の旋律のm番目の音符と前記第2の旋律のn番目の音符との間で計算された計算尺度を(m,n)成分とする類似性行列を計算して出力するステップと、をコンピュータに実行させることを特徴とする旋律分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021146457A JP2023039332A (ja) | 2021-09-08 | 2021-09-08 | 旋律分析装置、旋律分析方法および旋律分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021146457A JP2023039332A (ja) | 2021-09-08 | 2021-09-08 | 旋律分析装置、旋律分析方法および旋律分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023039332A true JP2023039332A (ja) | 2023-03-20 |
Family
ID=85600430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021146457A Pending JP2023039332A (ja) | 2021-09-08 | 2021-09-08 | 旋律分析装置、旋律分析方法および旋律分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023039332A (ja) |
-
2021
- 2021-09-08 JP JP2021146457A patent/JP2023039332A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Temperley | Music and probability | |
Canazza et al. | Modeling and control of expressiveness in music performance | |
Dua et al. | An improved RNN-LSTM based novel approach for sheet music generation | |
Poli | Methodologies for expressiveness modelling of and for music performance | |
Aljanaki et al. | A data-driven approach to mid-level perceptual musical feature modeling | |
Davis et al. | Generating music from literature | |
JP7230919B2 (ja) | 楽譜データの情報処理装置 | |
Sturm et al. | Folk the algorithms:(Mis) Applying artificial intelligence to folk music | |
Neocleous et al. | Filter-based approach for ornamentation detection and recognition in singing folk music | |
JP2023039332A (ja) | 旋律分析装置、旋律分析方法および旋律分析プログラム | |
Trochidis et al. | CAMeL: Carnatic percussion music generation using n-gram models | |
Zanon et al. | Estimation of parameters in rule systems for expressive rendering of musical performance | |
Tanguiane | A principle of correlativity of perception and its application to music recognition | |
Dorrell | What is music | |
Ranjan et al. | Using a bi-directional lstm model with attention mechanism trained on midi data for generating unique music | |
KR102227415B1 (ko) | 복선율 음악 생성 방법, 장치, 및 시스템 | |
Brink | Dissection of a generative network for music composition | |
Kawamura et al. | KANSEI (Emotional) Information Classifications of Music Scores Using Self Organizing Map | |
Hainsworth et al. | The automated music transcription problem | |
Milon-Flores et al. | Generating audiovisual summaries from literary works using emotion analysis | |
Ranjan et al. | Using a Bi-Directional Long Short-Term Memory Model with Attention Mechanism Trained on MIDI Data for Generating Unique Music | |
Al-Ghawanmeh et al. | Toward an Improved Automatic Melodic Accompaniment to Arab Vocal Improvisation, Mawwāl | |
Henel et al. | Neural Network for Musical Data Mining for Phrase Boundary Detection | |
Spijker | Classifying classical piano music into time period using machine learning | |
Nikitin et al. | Sound generation based on image color spectrum with using the recurrent neural network |