JP2020154240A

JP2020154240A - 楽曲解析方法および楽曲解析装置

Info

Publication number: JP2020154240A
Application number: JP2019055117A
Authority: JP
Inventors: 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-24
Anticipated expiration: 2039-03-22
Also published as: JP7318253B2; US20220005443A1; US11837205B2; WO2020196321A1; CN113557565A

Abstract

【課題】楽曲の構造区間を高精度に推定する。【解決手段】楽曲解析装置１００は、楽曲の音響信号におけるＫ個の解析点Ｂから相異なる組合せで選択されたＮ個（Ｎ＜Ｋ）の解析点Ｂで構成される複数の構造候補Ｃの各々について評価指標Ｑを算定する指標算定部２３と、各構造候補Ｃの評価指標Ｑに応じて複数の構造候補Ｃの何れかを選択する候補選択部とを具備する。指標算定部２３は、構造候補Ｃの各解析点Ｂが楽曲の構造区間の境界に該当する確度を示す第１指標Ｐ1を、音響信号の第１特徴量Ｆ1から構造候補Ｃ毎に算定する第１解析部３１と、構造候補ＣのＮ個の解析点Ｂを境界とする複数の候補区間の各々の継続長に応じて、当該構造候補Ｃが楽曲の構造区間の境界に該当する確度を示す第２指標Ｐ2を構造候補Ｃ毎に算定する第２解析部３２と、第１指標Ｐ1と第２指標Ｐ2とに応じて評価指標Ｑを構造候補Ｃ毎に算定する指標合成部３４とを含む。【選択図】図３

Description

本発明は、楽曲の構造を解析する技術に関する。

楽曲の音響を表す音響信号を解析することで当該楽曲の構造を推定する技術が従来から提案されている。例えば非特許文献１には、音響信号から抽出される特徴量をニューラルネットワークに入力することで楽曲の構造区間（例えばＡメロまたはサビ等）の境界を推定する技術が開示されている。特許文献１には、音響信号から抽出される音色および和音の特徴量を利用して楽曲の構造区間を推定する技術が開示されている。また、特許文献２には、音響信号を解析することで楽曲内の拍点を推定する技術が開示されている。

特開２０１７−９０８４８号公報特開２０１９−２０６３１号公報

K. Ullrich, J. Schluter, and T. Grill, "Boundary Detection in Music Structure Analysis using Convolutional Neural Networks," ISMIR, 2014

しかし、非特許文献１または特許文献１の技術では、構造区間の継続長について楽曲内で解析の結果が整合しない場合がある。例えば、楽曲の前半では適正な継続長の構造区間が推定される一方、楽曲の後半では、実際の構造区間よりも継続長が短い構造区間が推定される可能性がある。以上の事情を考慮して、本開示は、楽曲の構造区間を高精度に推定することを目的とする。

以上の課題を解決するために、本開示の一例に係る楽曲解析方法は、楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定し、前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択し、前記評価指標の算定は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析処理と、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析処理と、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成処理と、を含む。

本開示の一例に係る楽曲解析装置は、楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定する指標算定部と、前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択する候補選択部とを具備し、前記指標算定部は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析部と、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析部と、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成部と、を含む。

実施形態に係る楽曲解析装置の構成を例示するブロック図である。楽曲解析装置の機能的な構成を例示するブロック図である。指標算定部の構成を例示するブロック図である。第１解析部の構成を例示するブロック図である。自己相似行列の説明図である。ビーム探索の説明図である。探索処理の具体的な手順を例示するフローチャートである。楽曲解析処理の具体的な手順を例示するフローチャートである。

図１は、ひとつの形態に係る楽曲解析装置１００の構成を例示するブロック図である。楽曲解析装置１００は、楽曲の歌唱音または演奏音等の音響を表す音響信号Ｘを解析することで、当該楽曲内の複数の構造区間の境界（以下「構造境界」という）を推定する情報処理装置である。構造区間は、音楽的な意義または楽曲内での位置付けに応じて時間軸上で楽曲を区分した区間である。例えば、構造区間は、イントロ（intro）、Ａメロ（verse）、Ｂメロ（bridge）、サビ（chorus）またはアウトロ（outro）である。構造境界は、各構造区間の始点または終点である。

楽曲解析装置１００は、制御装置１１と記憶装置１２と表示装置１３とを具備するコンピュータシステムで実現される。例えば、楽曲解析装置１００は、スマートフォンまたはパーソナルコンピュータ等の情報端末で実現される。

制御装置１１は、例えば楽曲解析装置１００の各要素を制御する単数または複数のプロセッサである。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。表示装置１３は、制御装置１１による制御のもとで画像を表示する。表示装置１３は、例えば液晶表示パネルである。

記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の記録媒体で構成される単数または複数のメモリである。記憶装置１２は、例えば制御装置１１が実行するプログラム（すなわち制御装置１１に対する指示の系列）と制御装置１１が使用する各種のデータとを記憶する。例えば記憶装置１２は、推定対象となる楽曲の音響信号Ｘを記憶する。音響信号Ｘは、例えば配信装置から楽曲解析装置１００に配信された音楽ファイルとして記憶装置１２に記憶される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、楽曲解析装置１００に対して着脱可能な可搬型の記録媒体、または楽曲解析装置１００が通信網を介して通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

図２は、記憶装置１２に記憶されたプログラムを制御装置１１が実行することで実現される機能を例示するブロック図である。制御装置１１は、解析点特定部２１と特徴抽出部２２と指標算定部２３と候補選択部２４とを実現する。なお、相互に別体で構成された複数の装置により制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路により実現してもよい。

解析点特定部２１は、音響信号Ｘの解析により楽曲内のＫ個の解析点Ｂを検出する（Ｋは２以上の自然数）。解析点Ｂは、楽曲内の構造境界の候補となる時点である。解析点特定部２１は、例えば楽曲内の拍点に同期する時点を解析点Ｂとして検出する。例えば、楽曲内の複数の拍点と、相前後する２個の拍点の間隔を等分する時点とが、Ｋ個の解析点Ｂとして検出される。例えば、解析点Ｂは、楽曲の８分音符に相当する間隔で時間軸上に存在する時点である。楽曲内の各拍点を解析点Ｂとして検出してもよい。また、楽曲内で相前後する２個の拍点の間隔を整数倍した周期で時間軸上に配列される各時点を解析点Ｂとして検出してもよい。楽曲内の複数の拍点は、音響信号Ｘの解析により検出される。拍点の検出には公知の技術が任意に採用される。

特徴抽出部２２は、Ｋ個の解析点Ｂの各々について音響信号Ｘの第１特徴量Ｆ1および第２特徴量Ｆ2を抽出する。第１特徴量Ｆ1および第２特徴量Ｆ2は、音響信号Ｘが表す音響の音色の特徴（すなわちスペクトル等の周波数特性の特徴）を表す物理量である。第１特徴量Ｆ1は、例えばＭＳＬＳ（Mel-Scale Log Spectrum）である。第２特徴量Ｆ2は、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）である。第１特徴量Ｆ1および第２特徴量Ｆ2の抽出には、離散フーリエ変換等の周波数解析が利用される。第１特徴量Ｆ1は「第１特徴量」の例示であり、第２特徴量Ｆ2は「第２特徴量」の例示である。

指標算定部２３は、複数の構造候補Ｃの各々について評価指標Ｑを算定する。構造候補Ｃは、楽曲内のＫ個の解析点Ｂから選択されたＮ個の解析点Ｂ1〜ＢNの系列である（ＮはＫを下回る２以上の自然数）。構造候補Ｃを構成するＮ個の解析点Ｂ1〜ＢNの組合せは、構造候補Ｃ毎に相違する。構造候補Ｃを構成する解析点Ｂの個数Ｎも構造候補Ｃ毎に相違する。以上の説明から理解される通り、指標算定部２３は、Ｋ個の解析点Ｂから相異なる組合せで選択されたＮ個の解析点Ｂで構成される複数の構造候補Ｃの各々について評価指標Ｑを算定する。

各構造候補Ｃは、楽曲内の構造境界の時系列に関する候補である。各構造候補Ｃについて算定される評価指標Ｑは、当該構造候補Ｃが構造境界の時系列として妥当である度合の指標である。具体的には、構造候補Ｃが構造境界の時系列として妥当であるほど評価指標Ｑは大きい数値となる。

候補選択部２４は、各構造候補Ｃの評価指標Ｑに応じて、複数の構造候補Ｃの何れか（以下「最適候補Ｃa」という）を楽曲の構造境界の時系列として選択する。具体的には、候補選択部２４は、複数の構造候補Ｃのうち評価指標Ｑが最大となる構造候補Ｃを推定の結果として選択する。表示装置１３は、制御装置１１が推定した楽曲内の複数の構造境界を表す画像を表示する。

図３は、指標算定部２３の具体的な構成を例示するブロック図である。指標算定部２３は、第１解析部３１と第２解析部３２と第３解析部３３と指標合成部３４とを具備する。

第１解析部３１は、複数の構造候補Ｃの各々について第１指標Ｐ1を算定する。各構造候補Ｃの第１指標Ｐ1は、当該構造候補ＣのＮ個の解析点Ｂ1〜ＢNが楽曲の構造境界に該当する確度（例えば確率）を示す指標である。第１指標Ｐ1は、音響信号Ｘの第１特徴量Ｆ1に応じて算定される。すなわち、第１指標Ｐ1は、音響信号Ｘの第１特徴量Ｆ1に着目して各構造候補Ｃの妥当性を評価する指標である。

図４は、第１解析部３１の具体的な構成を例示するブロック図である。第１解析部３１は、解析処理部３１１と推定処理部３１２と確率算定部３１３とを具備する。

解析処理部３１１は、Ｋ個の解析点Ｂについてそれぞれ算定されたＫ個の第１特徴量Ｆ1の時系列から自己相似行列（ＳＳＭ：Self-Similarity Matrix）Ｍを算定する。図５に例示される通り、自己相似行列Ｍは、Ｋ個の第１特徴量Ｆ1の時系列について２個の解析点Ｂにおける第１特徴量Ｆ1の類似度を配列したＫ次の正方行列である。自己相似行列Ｍにおける第ｋ1行第ｋ2列（ｋ1，ｋ2＝１〜Ｋ）の要素ｍ(k1,k2)は、Ｋ個の第１特徴量Ｆ1のうち第ｋ1番目の第１特徴量Ｆ1と第ｋ2番目の第１特徴量Ｆ1との類似度（例えば内積）に設定される。

図５では、自己相似行列Ｍのうち類似度が大きい箇所が実線で表現されている。自己相似行列Ｍにおいては、当該自己相似行列Ｍの対角線上の要素ｍ(k,k)が大きい数値になるほか、楽曲内で相互に類似または一致する旋律が反復される範囲内において対角線に沿う要素ｍ(k1,k2)が大きい数値となる。例えば、自己相似行列Ｍのうち対角線上の要素ｍ(k1,k2)が大きい範囲Ｒ1と範囲Ｒ2とでは、同様の旋律が反復された可能性が高い。以上の説明から理解される通り、自己相似行列Ｍは、楽曲内における同様の旋律の反復性を評価するための指標として利用される。

図４の推定処理部３１２は、楽曲内のＫ個の解析点Ｂの各々について確率ρを推定する。各解析点Ｂの確率ρは、当該解析点Ｂが楽曲の１個の構造境界に該当する確度の指標である。具体的には、推定処理部３１２は、自己相似行列Ｍと複数の第１特徴量Ｆ1の時系列とに応じて各解析点Ｂの確率ρを推定する。

推定処理部３１２は、例えば第１推定モデルＺ1を包含する。第１推定モデルＺ1は、各解析点Ｂに対応する制御データＤの入力に対して、当該解析点Ｂが構造境界に該当する確率ρを出力する。第ｋ番目の解析点Ｂの制御データＤは、自己相似行列Ｍのうち第ｋ列（または第ｋ行）を含む所定の範囲内の部分と、当該解析点Ｂについて算定された第１特徴量Ｆ1とを含む。

第１推定モデルＺ1は、例えば畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）または再帰ニューラルネットワーク（ＲＮＮ：Reccurent Neural Network）等の各種の深層ニューラルネットワークである。具体的には、第１推定モデルＺ1は、制御データＤと確率ρとの関係を学習した学習済モデルであり、制御データＤから確率ρを推定する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の係数との組合せで実現される。第１推定モデルＺ1の複数の係数は、既知の制御データＤと確率ρとを含む複数の教師データを利用した機械学習により設定される。したがって、第１推定モデルＺ1は、複数の教師データにおける制御データＤと確率ρとの間に潜在する傾向のもとで、未知の制御データＤに対して統計的に妥当な確率ρを出力する。

図４の確率算定部３１３は、複数の構造候補Ｃの各々について第１指標Ｐ1を算定する。各構造候補Ｃの第１指標Ｐ1は、当該構造候補Ｃを構成するＮ個の解析点Ｂ1〜ＢNの各々について推定された確率ρに応じて算定される。例えば、確率算定部３１３は、Ｎ個の解析点Ｂ1〜ＢNについて確率ρを合計した数値を第１指標Ｐ1として算定する。

以上の構成では、第１特徴量Ｆ1の時系列から算定される自己相似行列Ｍと当該第１特徴量Ｆ1の時系列とから第１推定モデルＺ1が推定する確率ρに応じて第１指標Ｐ1が算定される。したがって、楽曲内の各部分における第１特徴量Ｆ1の時系列の類似性（すなわち旋律の反復性）を加味して適切な構造候補Ｃを選択できる。

図３の第２解析部３２は、複数の構造候補Ｃの各々について第２指標Ｐ2を算定する。各構造候補Ｃの第２指標Ｐ2は、当該構造候補ＣのＮ個の解析点Ｂ1〜ＢNが楽曲の構造境界に該当する確度を示す指標である。第２指標Ｐ2は、構造候補ＣのＮ個の解析点Ｂ1〜ＢNを境界として楽曲を区分した複数の区間（以下「候補区間」という）の各々の継続長に応じて算定される。すなわち、第２指標Ｐ2は、構造候補Ｃで規定される(N-1)個の候補区間の各々の継続長に着目して当該構造候補Ｃの妥当性を評価する指標である。候補区間は、楽曲の構造区間の候補に相当する。

第２解析部３２は、構造候補ＣのＮ個の解析点Ｂ1〜ＢNから第２指標Ｐ2を推定する第２推定モデルＺ2を包含する。第２推定モデルＺ2による第２指標Ｐ2の推定は、以下の数式(1)で表現される。

数式(1)の記号Πは総乗を意味する。数式(1)の記号Ｌnは、第ｎ番目の候補区間の継続長を意味し、解析点Ｂnと解析点Ｂn+1との間隔に相当する（Ｌn＝Ｂn−Ｂn+1）。数式(1)の記号ｐ(Ｌn|Ｌ1…Ｌn-1)は、継続長Ｌ1〜Ｌn-1の時系列が観測された条件のもとで直後に継続長Ｌnが観測される事後確率を意味する。なお、数式(1)では総乗を例示したが、確率ｐ(Ｌn|Ｌ1…Ｌn-1)の対数値の総和を第２指標Ｐ2として推定してもよい。第２推定モデルＺ2は、例えばＮ-ｇｒａｍ等の言語モデル、または長短期記憶（ＬＳＴＭ：Long Short Term Memory）等の再帰型ニューラルネットワークである。

以上に説明した第２推定モデルＺ2は、既存の楽曲における各構造区間の継続長を表す多数の教師データを利用した機械学習により生成される。すなわち、第２推定モデルＺ2は、既存の多数の楽曲における各構造区間の継続長の時系列に潜在する傾向を学習した学習済モデルである。第２推定モデルＺ2は、例えば４小節分の構造区間と８小節分の構造区間と４小節分の構造区間との時系列には５小節分の構造区間が後続する可能性が高い、といった傾向を学習する。したがって、既存の楽曲における各構造区間の継続長の時系列に関する傾向のもとで、各候補区間の継続長の時系列が統計的に妥当である構造候補Ｃについては、第２指標Ｐ2が大きい数値となる。すなわち、構造候補Ｃが楽曲の構造境界の時系列として妥当であるほど第２指標Ｐ2は大きい数値となる。

以上の説明の通り、楽曲の各構造区間の継続長の傾向を学習した第２推定モデルＺ2が利用される。したがって、実際の楽曲における各構造区間の継続長の傾向のもとで適切な構造候補Ｃを選択できる。

なお、最初の解析点Ｂ1と直後の解析点Ｂ2との間の候補区間に関する確率ｐ(Ｌ1)は、例えば所定の確率分布に沿って決定される。また、(N-1)番目の解析点ＢN-1と最後の解析点ＢNとの間の候補区間に関する確率ｐ(ＬN-1|Ｌ1…ＬN-2)は、最後の解析点ＢN以降の確率の総和に設定される。

第３解析部３３は、複数の構造候補Ｃの各々について第３指標Ｐ3を算定する。各構造候補Ｃの第３指標Ｐ3は、当該構造候補ＣのＮ個の解析点Ｂ1〜ＢNを境界とする(N-1)個の候補区間の各々における第２特徴量Ｆ2の散布度に応じた指標である。具体的には、第３解析部３３は、(N-1)個の候補区間の各々について当該候補区間内の各解析点Ｂの第２特徴量Ｆ2の散布度（例えば分散）を算定し、(N-1)個の候補区間にわたる散布度の合計値に負号を付加することで第３指標Ｐ3を算定する。なお、(N-1)個の候補区間にわたる散布度の合計値の逆数を第３指標Ｐ3として算定してもよい。

以上の説明から理解される通り、各候補区間内における第２特徴量Ｆ2の変動が小さいほど、第３指標Ｐ3は大きい数値となる。前述の通り、第２特徴量Ｆ2は、音響信号Ｘが表す音響の音色の特徴を表す物理量である。したがって、第３指標Ｐ3は、各候補区間内における音色の均質性の指標に相当する。具体的には、各候補区間内における音色の均質性が高いほど、第３指標Ｐ3は大きい数値となる。楽曲の１個の構造区間内では音色が均質に維持されるという傾向がある。すなわち、構造区間内では音色が過度に変動する可能性は低い。したがって、構造候補Ｃが楽曲の構造境界の時系列として妥当であるほど第３指標Ｐ3は大きい数値となる。以上の説明から理解される通り、第３指標Ｐ3は、各候補区間内における音色の均質性に着目して構造候補Ｃの妥当性を評価する指標である。

以上の例示の通り、各候補区間における第２特徴量Ｆ2の散布度に応じた第３指標Ｐ3が算定され、最適候補Ｃaを選択するための評価指標Ｑに第３指標Ｐ3が反映される。したがって、各構造区間内では音色が均質に維持されるという傾向のもとで適切な構造候補Ｃを選択できる。

指標合成部３４は、第１指標Ｐ1と第２指標Ｐ2と第３指標Ｐ3とに応じて各構造候補Ｃの評価指標Ｑを算定する。具体的には、指標合成部３４は、以下の数式(2)で表現される通り、第１指標Ｐ1と第２指標Ｐ2と第３指標Ｐ3との加重和を評価指標Ｑとして算定する。数式(2)の加重値α1〜α3は、所定の正数に設定される。なお、指標合成部３４は、例えば利用者からの指示に応じて加重値α1〜α3を変更してもよい。数式(2)から理解される通り、第１指標Ｐ1、第２指標Ｐ2または第３指標Ｐ3が大きいほど、評価指標Ｑは大きい数値となる。
Ｑ＝α1・Ｐ1＋α2・Ｐ2＋α3・Ｐ3 (2)

図２の候補選択部２４は、前述の通り、複数の構造候補Ｃのうち評価指標Ｑが最大となる最適候補Ｃaを、楽曲の構造境界の時系列として選択する。具体的には、候補選択部２４は、以下に例示する通り、ビーム探索（Beam Search）により複数の構造候補Ｃから１個の最適候補Ｃaを探索する。

図６は、候補選択部２４が最適候補Ｃaを探索する処理（以下「探索処理」という）の説明図であり、図７は、探索処理の具体的を例示するフローチャートである。図６に例示される通り、探索処理は、複数の単位処理の反復で構成される。第ｉ番目の単位処理は、以下に例示する第１処理Ｓa1および第２処理Ｓa2を包含する。

候補選択部２４は、第１処理Ｓa1において、第(i-1)番目の単位処理の第２処理Ｓa2で選択されたＷ個の構造候補Ｃ（以下「保持候補Ｃ1」という）の各々からＨ個の構造候補Ｃ（以下「新規候補Ｃ2」という）を生成する（ＷおよびＨは自然数）。

具体的には、候補選択部２４は、各保持候補Ｃ1のＪ個（Ｊは１以上の自然数）の解析点Ｂ1〜ＢJに、当該解析点ＢJの後方に位置する１個の解析点Ｂを追加することで新規候補Ｃ2を生成する（Ｓa11）。楽曲内のＫ個の解析点のうち当該解析点ＢJの後方に位置する複数の解析点Ｂの各々について新規候補Ｃ2が生成される。

指標算定部２３は、複数の新規候補Ｃ2の各々について評価指標Ｑを算定する（Ｓa12）。候補選択部２４は、複数の新規候補Ｃ2のうち評価指標Ｑの降順で上位に位置するＨ個の新規候補Ｃ2を選択する（Ｓa13）。処理Ｓa11から処理Ｓa13がＷ個の保持候補Ｃ1の各々について実行されることで、(Ｗ×Ｈ)個の新規候補Ｃ2が生成される。

以上に例示した第１処理Ｓa1の直後に第２処理Ｓa2が実行される。第２処理Ｓa2において、候補選択部２４は、第１処理Ｓa1により生成した(Ｗ×Ｈ)個の新規候補Ｃ2のうち、評価指標Ｑの降順で上位に位置するＷ個の新規候補Ｃ2を、新たな保持候補Ｃ1として選択する。第２処理Ｓa2で選択される新規候補Ｃ2の個数Ｗはビーム幅に相当する。

候補選択部２４は、所定の終了条件が成立するまで（Ｓa3：NO）、以上に説明した第１処理Ｓa1および第２処理Ｓa2を反復する。終了条件は、構造候補Ｃに含まれる解析点Ｂが楽曲の末尾まで到達することである。終了条件が成立すると（Ｓa3：YES）、候補選択部２４は、当該時点で保持されている複数の構造候補Ｃのうち評価指標Ｑが最大となる最適候補Ｃaを選択する（Ｓa4）。

以上の例示の通り、複数の構造候補Ｃの何れかがビーム探索により選択される。したがって、Ｋ個の解析点ＢからＮ個の解析点Ｂ1〜ＢNを選択する全通りの組合せを構造候補Ｃとして、評価指標Ｑの算定と最適候補Ｃaの選択とを実行する構成と比較して、最適候補Ｃaの選択に必要な処理負荷（例えば演算量）を軽減できる。

図８は、制御装置１１が楽曲の構造境界を推定する処理（以下「楽曲解析処理」という）の具体的な手順を例示するフローチャートである。例えば楽曲解析装置１００に対する利用者からの指示を契機として楽曲解析処理が開始される。楽曲解析処理は、「楽曲解析方法」の一例である。

解析点特定部２１は、音響信号Ｘの解析により楽曲内のＫ個の解析点Ｂを検出する（Ｓb1）。特徴抽出部２２は、Ｋ個の解析点Ｂの各々について音響信号Ｘの第１特徴量Ｆ1および第２特徴量Ｆ2を抽出する（Ｓb2）。指標算定部２３は、複数の構造候補Ｃの各々について評価指標Ｑを算定する（Ｓb3）。候補選択部２４は、各構造候補Ｃの評価指標Ｑに応じて複数の構造候補Ｃの何れかを最適候補Ｃaとして選択する（Ｓb4）。評価指標Ｑの算定（Ｓb3）は、第１解析処理Ｓb31と第２解析処理Ｓb32と第３解析処理Ｓb33と指標合成処理Ｓb34とを包含する。

第１解析部３１は、各構造候補Ｃについて第１指標Ｐ1を算定する第１解析処理Ｓb31を実行する。第２解析部３２は、各構造候補Ｃについて第２指標Ｐ2を算定する第２解析処理Ｓb32を実行する。第３処理部は、各構造候補Ｃについて第３指標Ｐ3を算定する第３解析処理Ｓb33を実行する。指標合成部３４は、第１指標Ｐ1と第２指標Ｐ2と第３指標Ｐ3とに応じて各構造候補Ｃの評価指標Ｑを算定する指標合成処理Ｓb34を実行する。なお、第１解析処理Ｓb31と第２解析処理Ｓb32と第３解析処理Ｓb33との順序は任意である。

以上に説明した通り、構造候補ＣのＮ個の解析点Ｂ1〜ＢNを境界とする(N-1)個の候補区間の各々の継続長に応じて第２指標Ｐ2が算定され、複数の構造候補Ｃの何れかを選択するための評価指標Ｑに第２指標Ｐ2が反映される。すなわち、各候補区間の継続長の妥当性を加味して楽曲の構造区間が推定される。したがって、音響信号Ｘの特徴量のみから楽曲の構造区間を推定する構成と比較して、楽曲の構造区間を高精度に推定できる。例えば、構造区間の継続長について楽曲内で解析の結果が整合しない可能性が低減される。

以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の形態では、第１解析処理Ｓb31と第２解析処理Ｓb32と第３解析処理Ｓb33とを実行する形態を例示したが、第１解析処理Ｓb31および第３解析処理Ｓb33の一方または双方を省略してもよい。第１解析処理Ｓb31を省略した構成では、第２指標Ｐ2と第３指標Ｐ3とに応じて評価指標Ｑが算定され、第３解析処理Ｓb33を省略した構成では、第１指標Ｐ1と第２指標Ｐ2とに応じて評価指標Ｑが算定される。また、第１解析処理Ｓb31および第３解析処理Ｓb33の双方を省略した構成では、第２指標Ｐ2に応じて評価指標Ｑが算定される。

（２）前述の形態では、楽曲の拍点に同期した時点を解析点Ｂとして特定したが、Ｋ個の解析点Ｂを特定する方法は以上の例示に限定されない。例えば、音響信号Ｘとは無関係に例えば時間軸上に所定の周期で配列する複数の解析点Ｂを設定してもよい。

（３）前述の形態では、音響信号ＸのＭＳＬＳを第１特徴量Ｆ1として例示したが、第１特徴量Ｆ1の種類は以上の例示に限定されない。例えば、周波数スペクトルの包絡線またはＭＦＣＣを第１特徴量Ｆ1として利用してもよい。第１特徴量Ｆ1についても同様に、前述の形態で例示したＭＦＣＣには限定されない。例えば、周波数スペクトルの包絡線またはＭＳＬＳを第２特徴量Ｆ2として利用してもよい。また、前述の形態では、第１特徴量Ｆ1と第２特徴量Ｆ2とが同種である構成を例示したが、第１特徴量Ｆ1と第２特徴量Ｆ2とは同種でもよい。すなわち、音響信号Ｘから抽出された１種類の特徴量を、自己相似行列Ｍの算定と第２指標Ｐ2の算定とに兼用してもよい。

（４）携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により楽曲解析装置１００を実現してもよい。例えば、楽曲解析装置１００は、端末装置から受信した音響信号Ｘの解析により最適候補Ｃaを選択し、当該最適候補Ｃaを要求元の端末装置に送信する。なお、解析点特定部２１および特徴抽出部２２が端末装置に搭載された構成では、楽曲解析装置１００は、端末装置からＫ個の解析点Ｂと第１特徴量Ｆ1の時系列と第２特徴量Ｆ2の時系列とを含む制御データを受信し、当該制御データを利用して評価指標Ｑの算定（Ｓb3）と最適候補Ｃaの選択（Ｓb4）とを実行する。楽曲解析装置１００は、最適候補Ｃaを要求元の端末装置に送信する。以上の説明から理解される通り、解析点特定部２１および特徴抽出部２２を楽曲解析装置１００から省略してもよい。

（５）以上に例示した楽曲解析装置１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

（６）以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様（第１態様）に係る楽曲解析方法は、楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定し、前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択し、前記評価指標の算定は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析処理と、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析処理と、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成処理と、を含む。なお、構造候補を構成する解析点の個数Ｎは、構造候補毎に相違し得る。

以上の態様によれば、構造候補のＮ個の解析点を境界とする複数の候補区間の各々の継続長に応じて第２指標が算定され、複数の構造候補の何れかを選択するための評価指標に第２指標が反映される。すなわち、各候補区間の継続長の妥当性を加味して楽曲の構造区間が推定される。したがって、音響信号の音色に関する特徴量のみから楽曲の構造区間を推定する構成と比較して、楽曲の構造区間を高精度に推定できる。例えば、構造区間の継続長について楽曲内で解析の結果が整合しない可能性が低減される。

第１態様の一例（第２態様）において、前記評価指標の算定は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする前記複数の候補区間の各々における前記音響信号の第２特徴量の散布度に応じた第３指標を算定する第３解析処理を含み、前記指標合成処理においては、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標と前記第３指標とに応じて前記評価指標を算定する。以上の態様では、各候補区間における第２特徴量の散布度（例えば分散）に応じた第３指標が算定され、複数の構造候補の何れかを選択するための評価指標に第３指標が反映される。第３指標は、候補区間内における音色の均質性の指標である。したがって、楽曲の１個の構造区間内では音色は過度に変動しないという傾向のもとで、楽曲の構造区間を高精度に推定できる。

第１態様または第２態様の一例（第３態様）において、前記第１解析処理においては、前記Ｋ個の解析点の各々に対応する前記第１特徴量の時系列から算定される自己相似行列と、当該第１特徴量の時系列と、を第１推定モデルに入力することで前記Ｋ個の解析点の各々について算定される確率のうち、前記Ｎ個の解析点について算定される確率に応じて前記第１指標を算定する。以上の態様によれば、第１特徴量の時系列から算定される自己相似行列と当該第１特徴量の時系列とから第１推定モデルが推定する確率に応じて第１指標が算定される。したがって、楽曲内の各部分における第１特徴量の時系列の類似性（すなわち旋律の反復性）を加味した適切な第１指標を算定できる。

第１態様から第３態様の何れかの一例（第４態様）において、前記第２解析処理においては、楽曲の複数の構造区間の各々の継続長の傾向を学習した第２推定モデルを利用して、前記複数の構造候補の各々について第２指標を算定する。以上の態様によれば、楽曲の各構造区間の継続長の傾向を学習した第２推定モデルが利用される。したがって、実際の楽曲における各構造区間の継続長の傾向のもとで適切な第２指標を算定できる。なお、第２推定モデルは、例えばＮ-ｇｒａｍモデルまたはＬＳＴＭ（長短期記憶）である。

第１態様から第４態様の何れかの一例（第５態様）において、前記構造候補の選択においては、前記複数の構造候補の何れかをビーム探索により選択する。以上の態様によれば、複数の構造候補の何れかがビーム探索により選択される。したがって、Ｋ個の解析点からＮ個の解析点を選択する全通りの組合せを構造候補として評価指標の算定と構造候補の選択とを実行する構成と比較して、処理負荷を低減できる。

本開示のひとつの態様（第６態様）に係る楽曲解析装置は、楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定する指標算定部と、前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択する候補選択部とを具備し、前記指標算定部は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析部と、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析部と、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成部と、を含む。

本開示のひとつの態様（第７態様）に係るプログラムは、楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定する指標算定部、および、前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択する候補選択部、としてコンピュータを機能させるプログラムであって、前記指標算定部は、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析部と、前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析部と、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成部と、を含む。

１００…楽曲解析装置、１１…制御装置、１２…記憶装置、１３…表示装置、２１…解析点特定部、２２…特徴抽出部、２３…指標算定部、２４…候補選択部、３１…第１解析部、３１１…解析処理部、３１２…推定処理部、３１３…確率算定部、３２…第２解析部、３３…第３解析部、３４…指標合成部、Ｚ1…第１推定モデル、Ｚ2…第２推定モデル。

Claims

楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定し、
前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択し、
前記評価指標の算定は、
前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析処理と、
前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析処理と、
前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成処理と、を含む
コンピュータにより実現される楽曲解析方法。
前記評価指標の算定は、
前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする前記複数の候補区間の各々における前記音響信号の第２特徴量の散布度に応じた第３指標を算定する第３解析処理を含み、
前記指標合成処理においては、前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標と前記第３指標とに応じて前記評価指標を算定する
請求項１の楽曲解析方法。
前記第１解析処理においては、
前記Ｋ個の解析点の各々に対応する前記第１特徴量の時系列から算定される自己相似行列と、当該第１特徴量の時系列と、を第１推定モデルに入力することで前記Ｋ個の解析点の各々について算定される確率のうち、前記Ｎ個の解析点について算定される確率に応じて前記第１指標を算定する
請求項１または請求項２の楽曲解析方法。
前記第２解析処理においては、
楽曲の複数の構造区間の各々の継続長の傾向を学習した第２推定モデルを利用して、前記複数の構造候補の各々について第２指標を算定する
請求項１から請求項３の何れかの楽曲解析方法。
前記構造候補の選択においては、
前記複数の構造候補の何れかをビーム探索により選択する
請求項１から請求項４の何れかの楽曲解析方法。
楽曲の音響信号におけるＫ個（Ｋは２以上の自然数）の解析点から相異なる組合せで選択されたＮ個（ＮはＫを下回る２以上の自然数）の解析点で構成される複数の構造候補の各々について評価指標を算定する指標算定部と、
前記各構造候補の前記評価指標に応じて前記複数の構造候補の何れかを前記楽曲の構造区間の境界として選択する候補選択部とを具備し、
前記指標算定部は、
前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点が前記楽曲の構造区間の境界に該当する確度を示す第１指標を、前記音響信号の第１特徴量から算定する第１解析部と、
前記複数の構造候補の各々について、当該構造候補の前記Ｎ個の解析点を境界とする複数の候補区間の各々の継続長に応じて、当該構造候補が前記楽曲の構造区間の境界に該当する確度を示す第２指標を算定する第２解析部と、
前記複数の構造候補の各々について、当該構造候補について算定された前記第１指標と前記第２指標とに応じて前記評価指標を算定する指標合成部と、を含む
楽曲解析装置。