JP2022033579A

JP2022033579A - 楽曲構造解析装置

Info

Publication number: JP2022033579A
Application number: JP2020137552A
Authority: JP
Inventors: 康平須見; Kohei Sumi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-03-02
Also published as: WO2022038958A1; CN116034421A; US20230186877A1

Abstract

【課題】楽曲の構造の解析を容易にする楽曲構造解析装置を提供する。【解決手段】楽曲の音響信号が取得部１１により取得される。取得された楽曲の音響信号から、音色の変化を示す第１の特徴量およびコードの変化を示す第２の特徴量が、第１および第２の抽出部１２，１３によりそれぞれ抽出される。第１の学習モデルＭ１を用いて、第１の特徴量から楽曲の構成境界の尤度を示す第１の境界尤度が第１の境界尤度出力部１４により出力される。第２の学習モデルＭ２を用いて、第２の特徴量から楽曲の構成境界の尤度を示す第２の境界尤度が第２の境界尤度出力部１５により出力される。第１の境界尤度と第２の境界尤度とが重み付け合成されることにより、楽曲の構成境界が特定部１６により特定される。楽曲の音響信号が特定された構成境界で分割部１８により複数のセクションに分割される。【選択図】図２

Description

本発明は、楽曲の構造を解析するための楽曲構造解析装置に関する。

楽曲の特定の部分の再生または演奏を容易にするために、イントロ（intro）、Ａメロ（verse）、Ｂメロ（bridge）、サビ（chorus）またはアウトロ（outro）等の楽曲の概略的な構造の解析が行われることがある。例えば、特許文献１には、複数の音源と、各音源の分類情報との関係を学習するニューラルネットワークを利用して、音源のハイライト区間を決定する方法が記載されている。

特許文献１に記載された方法においては、音源がニューラルネットワーク処理部により複数の区間に分割されるとともに、各区間別に区間別特徴値が抽出される。また、ニューラルネットワーク処理部において、区間別特徴値の加重値和を計算するアテンションモデルが利用されることにより、音源の分類情報推測に各区間が寄与する程度を示す加重値情報が獲得される。音源の区間別に、加重値情報により重要区間が決定され、決定された重要区間に基づいて、ハイライト区間が決定される。

特表２０２０－５１６００４号公報特開２０２０－１１２６８３号公報

楽曲のビートまたはコードを精密に解析するために、楽曲の概略的な構造をより容易に解析することが求められる。

本発明の目的は、楽曲の構造の解析を容易にする楽曲構造解析装置を提供することである。

本発明の一局面に従う楽曲構造解析装置は、楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号から音色の変化を示す第１の特徴量を抽出する第１の抽出部と、取得された楽曲の音響信号からコードの変化を示す第２の特徴量を抽出する第２の抽出部と、第１の学習モデルを用いて、第１の特徴量から楽曲の構成境界の尤度を示す第１の境界尤度を出力する第１の境界尤度出力部と、第２の学習モデルを用いて、第２の特徴量から楽曲の構成境界の尤度を示す第２の境界尤度を出力する第２の境界尤度出力部と、第１の境界尤度と第２の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部と、楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部とを備える。

本発明の他の局面に従う楽曲構造解析装置は、楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号を複数のセクションに分割する分割部と、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部と、セクションの分類結果に基づいて、分割された複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える。

本発明のさらに他の局面に従う楽曲構造解析装置は、複数のセクションに分割された楽曲の音響信号を取得する取得部と、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部と、分類されたクラスタに属するセクションの数に基づいて、複数のセクションから楽曲のサビに該当するセクションを推定する推定部とを備える。

本発明のさらに他の局面に従う楽曲構造解析装置は、複数のセクションに分割された楽曲の音響信号を取得する取得部と、取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも１つに基づいて各セクションのスコアを算出する算出部と、算出されたスコアに基づいて、複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える。

本発明によれば、楽曲の構造の解析を容易にすることができる。

本発明の一実施の形態に係る楽曲構造解析装置を含む楽曲構造解析システムの構成を示すブロック図である。楽曲構造解析装置の構成を示すブロック図である。第１および第２の学習モデルの一例を示すブロック図である。分割結果出力部による表示部の表示例を示す図である。最大値探索法による類似度の判定を説明するための図である。分類結果出力部による表示部の表示例を示す図である。第３の学習モデルの一例を示すブロック図である。図２の楽曲構造解析装置による楽曲構造解析処理の一例を示すフローチャートである。図２の楽曲構造解析装置による楽曲構造解析処理の一例を示すフローチャートである。実施例１および比較例１，２の評価結果を示す図である。実施例２および比較例３，４の評価結果を示す図である。実施例３および比較例５，６の評価結果を示す図である。実施例４～７の評価結果を示す図である。

以下、本発明の実施の形態に係る楽曲構造解析装置について図面を用いて詳細に説明する。

（１）楽曲構造解析システム
図１は、本発明の一実施の形態に係る楽曲構造解析装置を含む楽曲構造解析システムの構成を示すブロック図である。図１に示すように、楽曲構造解析システム１は、ＲＡＭ（ランダムアクセスメモリ）２、ＲＯＭ（リードオンリメモリ）３、ＣＰＵ（中央演算処理装置）４、記憶装置５、操作部６および表示部７を備える。ＲＡＭ２、ＲＯＭ３、ＣＰＵ４、記憶装置５、操作部６および表示部７は、バス８に接続される。

ＲＡＭ２は、例えば揮発性メモリからなり、ＣＰＵ４の作業領域として用いられるとともに、各種データを一時的に記憶する。ＲＯＭ３は、例えば不揮発性メモリからなり、楽曲構造解析処理を実行するための楽曲構造解析プログラムを記憶する。ＣＰＵ４は、ＲＯＭ３に記憶された楽曲構造解析プログラムをＲＡＭ２上で実行することにより楽曲構造解析処理を行う。楽曲構造解析処理の詳細については後述する。

記憶装置５は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含み、１または複数の楽曲データＭＤを記憶する。楽曲データＭＤは、楽曲の音響信号（オーディオ信号）を含む。記憶装置５は、楽曲構造解析プログラムをＲＯＭ３の代わりに記憶してもよい。また、記憶装置５は、機械学習により予め作成された第１の学習モデルＭ１、第２の学習モデルＭ２および第３の学習モデルＭ３を記憶する。

楽曲構造解析プログラムは、コンピュータが読み取り可能な記録媒体に格納された形態で提供され、ＲＯＭ３または記憶装置５にインストールされてもよい。また、楽曲構造解析システム１が通信網に接続されている場合、通信網に接続されたサーバから配信された楽曲構造解析プログラムがＲＯＭ３または記憶装置５にインストールされてもよい。ＲＡＭ２、ＲＯＭ３およびＣＰＵ４により楽曲構造解析装置１００が構成される。

操作部６は、マウス等のポインティングデバイスまたはキーボードを含み、所定の選択または指定を行うために使用者により操作される。表示部７は、例えば液晶ディスプレイを含み、楽曲構造解析処理の結果を表示する。操作部６および表示部７は、タッチパネルディスプレイにより構成されてもよい。

図２は、楽曲構造解析装置１００の構成を示すブロック図である。図２に示すように、楽曲構造解析装置１００は、セクション分割部１０、セクション分類部２０および構成種別推定部３０を含む。セクション分割部１０、セクション分類部２０および構成種別推定部３０の機能は、図１のＣＰＵ４が楽曲構造解析プログラムを実行することにより実現される。セクション分割部１０、セクション分類部２０および構成種別推定部３０の一部または全部が電子回路等のハードウエアにより実現されてもよい。

セクション分割部１０は、楽曲の音響信号の構成境界を特定し、特定された構成境界で音響信号を複数のセクションに分割する。セクション分類部２０は、セクション分割部１０により複数に分割されたセクションを類似度に基づいてクラスタに分類する。以下、セクションをクラスタに分類することをクラスタリングと呼ぶ。構成種別推定部３０は、セクション分類部２０によりクラスタリングされたセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する。以下、セクション分割部１０、セクション分類部２０および構成種別推定部３０の詳細を説明する。

（２）セクション分割部
図２に示すように、セクション分割部１０は、取得部１１、第１の抽出部１２、第２の抽出部１３、第１の境界尤度出力部１４、第２の境界尤度出力部１５、特定部１６、受付部１７、分割部１８および分割結果出力部１９を含む。取得部１１は、記憶装置５に記憶された楽曲データＭＤのうち、使用者により選択された楽曲データＭＤを取得する。使用者は、操作部６を操作することにより、所望の楽曲データＭＤを選択することができる。

第１の抽出部１２は、取得部１１により取得された楽曲データＭＤの音響信号から音色の変化を示す第１の特徴量を抽出する。第１の特徴量は、例えばメル周波数対数スペクトル（ＭＳＬＳ：Mel-Scale Log-Spectrum）である。拍ごとの音響信号が離散フーリエ変換されることにより複素スペクトルが得られる。複素スペクトルの絶対値にメルスケールフィルタバンクが適用されることにより得られるフィルタバンクエネルギーの対数が算出されることによりＭＳＬＳが抽出される。本例では、ＭＳＬＳは８０次元ベクトルである。

第２の抽出部１３は、取得部１１により取得された楽曲データＭＤの音響信号からコードの変化を示す第２の特徴量を抽出する。第２の特徴量は、例えばクロマベクトルである。高周波領域において、拍ごとの音響信号に含まれる平均律の各１２半音に対応する周波数成分の強度が複数のオクターブにわたって加算されることにより得られた１２の値と、音響信号の強度の値とが配列されることによりクロマベクトルの一部が抽出される。また、低周波領域において同様の処理が行われることによりクロマベクトルの残りの部分が抽出される。したがって、本例では、クロマベクトルは２６次元ベクトルである。

第１の境界尤度出力部１４は、第１の抽出部１２により抽出された第１の特徴量を記憶装置５に記憶された第１の学習モデルＭ１に入力することにより、楽曲の構成境界の尤度を示す第１の境界尤度を拍ごとに出力する。第２の境界尤度出力部１５は、第２の抽出部１３により抽出された第２の特徴量を記憶装置５に記憶された第２の学習モデルＭ２に入力することにより、楽曲の尤度を示す第２の境界尤度を拍ごとに出力する。

特定部１６は、拍ごとに第１および第２の境界尤度出力部１４，１５によりそれぞれ出力された第１および第２の境界尤度を重み付け合成することにより、楽曲の構成境界を特定する。本例では、重み付け合成された値が所定の閾値以上となった拍が楽曲の構成境界であると特定される。重み係数は予め定められた一定値であってもよいし、可変値であってもよい。

受付部１７は、操作部６から重み係数の指定を受け付ける。使用者は、操作部６を操作することにより、重み係数を指定することができる。重み係数が予め定められた一定値である場合、セクション分割部１０は受付部１７を含まなくてもよい。受付部１７により重み係数が受け付けられた場合、特定部１６は、受け付けられた重み係数に基づいて第１の境界尤度と第２の境界尤度とを重み付け合成する。

分割部１８は、楽曲の音響信号を特定部１６により特定された構成境界で複数のセクションに分割する。また、分割部１８は、複数のセクションに分割された音響信号をセクション分類部２０に与える。分割結果出力部１９は、分割部１８によるセクションの分割結果を視認可能に表示部７に表示させる。セクションの分割結果が表示部７に表示されなくてもよい場合、セクション分割部１０は分割結果出力部１９を含まなくてもよい。

図３は、第１および第２の学習モデルＭ１，Ｍ２の一例を示すブロック図である。図３に示すように、本例では、第１の学習モデルＭ１においては、ＣＮＮ（Convolutional Neural Network）層Ｍ１１、線形層Ｍ１２、双方向型ＧＲＵ（Gated Recurrent Unit）層Ｍ１３および線形層Ｍ１４が入力から出力に向かってこの順で配列される。第２の学習モデルＭ２においては、線形層Ｍ２１、双方向型ＧＲＵ層Ｍ２２および線形層Ｍ２３が入力から出力に向かってこの順で配列される。

楽曲の構成境界を示すラベルが付与された学習用の楽曲データが学習データとして予め多数準備される。各学習データにおいて、構成境界となる拍に対応する部分にはラベル“１”が付与され、構成境界とならない拍に対応がする部分にはラベル“０”が付与されている。多数の学習データから抽出された第１の特徴量を用いて深層学習が行われることにより、第１の境界尤度を出力するための第１の学習モデルＭ１が作成される。同様に、多数の学習データから抽出された第２の特徴量を用いて深層学習が行われることにより、第２の境界尤度を出力するための第２の学習モデルＭ２が作成される。

図４は、分割結果出力部１９による表示部７の表示例を示す図である。図４に示すように、楽曲構造解析処理の過程の結果として、分割部１８によるセクションの分割結果が分割結果出力部１９により表示部７に表示される。図４の表示例においては、楽曲データＭＤが時間軸方向（本例では左右方向）に延びる帯状の指標により示される。また、楽曲データＭＤの指標の上方には、解析対象の音響信号の波形が示される。なお、音響信号の波形は、指標の下方に表示されてもよいし、指標と重なるように表示されてもよい。あるいは、音響信号の波形は、指標との関連性を提示可能な他の態様で表示されてもよい。楽曲データＭＤは、特定部１６により特定された構成境界で複数のセクションｓ１～ｓ１２に分割される。各セクションｓ１～ｓ１２は、固有の色が付与された矩形の指標により示される。使用者は、表示部７を視認することにより、楽曲の構成境界を容易に認識することができる。

（３）セクション分類部
図２に示すように、セクション分類部２０は、取得部２１、判定部２２、分類部２３および分類結果出力部２４を含む。取得部２１は、複数のセクションに分割された楽曲の音響信号をセクション分割部１０から取得する。判定部２２は、取得部２１により取得された音響信号の分割された複数のセクションの類似度を判定する。

本例では、複数のセクションにおける第１の特徴量のユークリッド距離が比較されるとともに、複数のセクションにおける第２の特徴量のコサイン類似度が比較される。また、楽曲データＭＤにコードを示すコードラベルが付与されている場合には、複数のセクションにおけるコードラベルの編集距離（レーベンシュタイン距離）が比較される。コードラベルは、コード解析により楽曲データＭＤに付与されてもよい。これらの比較の総合的な結果に基づいて、複数のセクションの類似度が判定される。

分類部２３は、判定部２２により判定された類似度に基づいて、複数のセクションをクラスタリングする。また、分類部２３は、クラスタリングされた音響信号を構成種別推定部３０に与える。分類結果出力部２４は、分類部２３によるクラスタリングの結果を視認可能に表示部７に表示させる。クラスタリングの結果が表示部７に表示されなくてもよい場合、セクション分類部２０は分類結果出力部２４を含まなくてもよい。

上記の複数のセクションの比較、すなわちユークリッド距離、コサイン類似度および編集距離の比較は、最大値探索法を用いて行われる。図５は、最大値探索法による類似度の判定を説明するための図である。図５の例では、セクションｓ１とセクションｓ２との類似度が判定される。ここで、セクションｓ２はセクションｓ１よりも長い。この場合、セクションｓ１がセクションｓ２の先頭から終端に向けてシフトされつつ、セクションｓ１と、セクションｓ２におけるセクションｓ１と同一のサイズを有する各部分との類似度が順次評価される。

図５の例では、セクションｓ１とセクションｓ２のＡ部との類似度が最も大きくなる。この場合、セクションｓ１とセクションｓ２のＡ部との類似度が、セクションｓ１とセクションｓ２との類似度であると判定される。この判定方法によれば、セクション分割部１０による楽曲の構成境界の特定に誤りがあった場合でも、その影響を緩和することができる。また、比較される２つのセクションの長さの差が所定値以上である場合には、類似度を減ずるペナルティが導入されてもよい。これにより、類似するセクションをより適切にクラスタリングすることができる。

このように、本実施の形態においては、最大値探索法を用いて複数のセクションの比較が行われるが、実施の形態はこれに限定されない。例えば、動的時間伸縮（ＤＴＷ：Dynamic Time Warping）法等の動的計画法を用いて複数のセクションの比較が行われてもよい。

図６は、分類結果出力部２４による表示部７の表示例を示す図である。図６に示すように、楽曲構造解析処理の過程の結果として、分類部２３によるクラスタリングの結果が分類結果出力部２４により表示部７に表示される。図６の表示例においては、“Ａ０”または“Ｂ０”等のアルファベットと番号とからなる固有の識別子が各セクションｓ１～ｓ１２に付与される。“Ｂ０”および“Ｂ１”等のように、同一のクラスタに属するセクションの識別子のアルファベットは同じである。

使用者は、識別子のアルファベットを視認することにより、同一のクラスタに属するセクションを容易に認識することができる。また、使用者は、アルファベットに続く番号を視認することにより、同一のクラスタに属するセクションの数の大小を容易に認識することができる。

（４）構成種別推定部
図２に示すように、構成種別推定部３０は、取得部３１、算出部３２、推定部３３および推定結果出力部３４を含む。取得部３１は、クラスタリングされた音響信号をセクション分類部２０から取得する。算出部３２は、取得部３１により取得された音響信号に基づいて、特定の構成種別の部分の尤度を示すスコアＳを各クラスタについて算出する。

推定部３３は、算出部３２により算出されたスコアＳに基づいて、複数のセクションから特定の構成種別の部分に該当するセクションを推定する。本例では、特定の構成種別は、最初のサビ（以下、先頭サビと呼ぶ。）である。推定結果出力部３４は、推定部３３によるセクションの推定結果を視認可能に表示部７に表示させる。セクションの推定結果が表示部７に表示されなくてもよい場合、構成種別推定部３０は推定結果出力部３４を含まなくてもよい。

本例では、特定の構成種別としてサビの尤度を示すスコアＳが各クラスタについて算出される。ここで、ポピュラ楽曲のサビには、以下の特徴があると考えられる。盛り上がり（climax）が発生することが多く、音響信号のパワーが比較的大きい。また、サビは繰り返し発生することが多く、楽曲中に複数回現れる。さらに、先頭コードまたは終端コードは、調のトニックコードになることが多い。また、歌唱曲においては、歌声（ボーカル）が含まれることが多い。これらの特徴を考慮して、サビの尤度を示すスコアＳは、下記式（１）により表される。

式（１）において、Ｓ_ｐは、音響信号のパワーの大きさを示すスコアであり、例えば拍ごとに積算されかつ正規化された第１の特徴量の中央値として取得される。Ｓ_ｃは、先頭コードまたは終端コードの調のトニックコードへの類似度を示すスコアであり、例えば下記式（２）により表される。

式（２）において、αは、同一のクラスタに属するセクションの数、すなわち類似するセクションの繰り返し数に基づいて定まる係数である。係数αの値は、セクションの数が大きいほど大きくなる。Ｓ_ｃ１，Ｓ_ｃ２は、それぞれ先頭コードおよび終端コードの調のトニックコードへの類似度を示すスコアである。なお、ｍｉｎ（Ｓ_ｃ１，Ｓ_ｃ２）は、スコアＳ_ｃ１，Ｓ_ｃ２のうち小さい方のスコアを意味する。

各スコアＳ_ｃ１，Ｓ_ｃ２は、ＴＰＳ（Tonal Pitch Space）のベーシックスペースに基づいて算出される。各スコアＳ_ｃ１，Ｓ_ｃ２の値は、０～８．５であり、類似度が大きいほど小さくなる。したがって、先頭コードまたは終端コードが調のトニックコードと一致する場合には、スコアＳ_ｃ１またはスコアＳ_ｃ２の値は０となる。調は、特許文献２に開示されているように、音響信号の所定の特徴量の時系列と調との関係を学習することにより作成された学習モデルを用いて検出されてもよい。

式（１）において、Ｓ_ｖは、楽曲にボーカルが含まれる尤度（以下、ボーカル尤度と呼ぶ。）の拍ごとの平均値である。ボーカル尤度は、例えば第１の特徴量を記憶装置５に記憶された第３の学習モデルＭ３に入力することにより取得される。Ｗ_ｐ，Ｗ_ｃ，Ｗ_ｖは、それぞれスコアＳ_ｐ，Ｓ_ｃ，Ｓ_ｖに対する重み係数である。Ｐ_ｄは、セクションが極端に短い場合にスコアを減ずるためのペナルティである。ペナルティＰ_ｄの値は、セクションの長さが所定値未満の場合には負となり、セクションの長さが所定値以上の場合には０となる。

図７は、第３の学習モデルＭ３の一例を示すブロック図である。図７に示すように、本例では、第３の学習モデルＭ３においては、ＣＮＮ層Ｍ３１、線形層Ｍ３２、双方向型ＧＲＵ層Ｍ３３および線形層Ｍ３４が入力から出力に向かってこの順で配列される。

ボーカルの有無を示すラベルが付与された学習用の楽曲データが学習データとして予め多数準備される。各学習データにおいて、ボーカルが含まれる拍に対応する部分にはラベル“１”が付与され、ボーカルが含まれない拍に対応がする部分にはラベル“０”が付与されている。多数の学習データから抽出された第１の特徴量を用いて深層学習が行われることにより、拍ごとのボーカル尤度を出力するための第３の学習モデルＭ３が作成される。

推定部３３は、上記のスコアＳに基づいてサビに該当するクラスタを選択するまた、推定部３３は、ボーカル尤度に基づいて、選択されたクラスタに属するセクションのうちボーカルが含まれる先頭のセクションを先頭サビに該当するセクションであると推定する。

（５）楽曲構造解析処理
図８および図９は、図２の楽曲構造解析装置１００による楽曲構造解析処理の一例を示すフローチャートである。図８および図９の楽曲構造解析処理は、図１のＣＰＵ４がＲＯＭ３または記憶装置５に記憶された楽曲構造解析プログラムを実行することにより行われる。

まず、取得部１１は、使用者による操作部６の操作に基づいて楽曲データＭＤが選択されたか否かを判定する（ステップＳ１）。楽曲データＭＤが選択されない場合、取得部１１は、楽曲データＭＤが選択されるまで待機する。楽曲データＭＤが選択された場合、取得部１１は、選択された楽曲データＭＤを記憶装置５から取得する（ステップＳ２）。

第１の抽出部１２は、ステップＳ２で取得された楽曲データＭＤの音響信号から第１の特徴量を抽出する（ステップＳ３）。第２の抽出部１３は、ステップＳ２で取得された楽曲データＭＤの音響信号から第２の特徴量を抽出する（ステップＳ４）。ステップＳ３とステップＳ４とは、いずれが先に実行されてもよいし、同時に実行されてもよい。

第１の境界尤度出力部１４は、ステップＳ３で抽出された第１の特徴量と記憶装置５とに記憶された第１の学習モデルＭ１に基づいて、第１の境界尤度を拍ごとに出力する（ステップＳ５）。第２の境界尤度出力部１５は、ステップＳ４で抽出された第２の特徴量と記憶装置５に記憶された第２の学習モデルＭ２とに基づいて、第２の境界尤度を拍ごとに出力する（ステップＳ６）。ステップＳ５とステップＳ６とは、いずれが先に実行されてもよいし、同時に実行されてもよい。

受付部１７は、使用者による操作部６の操作に基づいて重み係数の指定が受け付けられたか否かを判定する（ステップＳ７）。重み係数の指定が受け付けられた場合、特定部１６は、拍ごとにステップＳ５，Ｓ６でそれぞれ出力された第１および第２の境界尤度と、指定された重み係数とに基づいて楽曲の構成境界を特定する（ステップＳ８）。重み係数の指定が受け付けられない場合、特定部１６は、拍ごとにステップＳ５，Ｓ６でそれぞれ出力された第１および第２の境界尤度と、予め設定された重み係数とに基づいて楽曲の構成境界を特定する（ステップＳ９）。

分割部１８は、楽曲の音響信号をステップＳ８またはステップＳ９で特定された構成境界で複数のセクションに分割する（ステップＳ１０）。分割結果出力部１９は、ステップＳ１０におけるセクションの分割結果を表示部７に表示させる（ステップＳ１１）。ステップＳ１１は、省略されてもよい。

判定部２２は、ステップＳ１０で分割された複数のセクションの類似度を判定する（ステップＳ１２）。分類部２３は、ステップＳ１２で判定された類似度に基づいて、ステップＳ１０で分割された複数のセクションをクラスタリングする（ステップＳ１３）。分類結果出力部２４は、ステップＳ１３におけるクラスタリングの結果を表示部７に表示させる（ステップＳ１４）。ステップＳ１４は、省略されてもよい。

算出部３２は、ステップＳ１３で複数のセクションがクラスタに分類された音響信号に基づいて、特定の構成種別の尤度を示すスコアＳを各クラスタについて算出する（ステップＳ１５）。推定部３３は、ステップＳ１５で算出されたスコアＳに基づいて、複数のセクションから特定の構成種別の部分に該当するセクションを推定する（ステップＳ１６）。推定結果出力部３４は、ステップＳ１６におけるセクションの推定結果を表示部７に表示させ（ステップＳ１７）、楽曲構造解析処理を終了する。ステップＳ１７は、省略されてもよい。

（６）実施の形態の効果
以上説明したように、本実施の形態に係る楽曲構造解析装置１００は、楽曲の音響信号を取得する取得部１１と、取得された楽曲の音響信号から音色の変化を示す第１の特徴量を抽出する第１の抽出部１２と、取得された楽曲の音響信号からコードの変化を示す第２の特徴量を抽出する第２の抽出部１３と、第１の学習モデルＭ１を用いて、第１の特徴量から楽曲の構成境界の尤度を示す第１の境界尤度を出力する第１の境界尤度出力部１４と、第２の学習モデルＭ２を用いて、第２の特徴量から楽曲の構成境界の尤度を示す第２の境界尤度を出力する第２の境界尤度出力部１５と、第１の境界尤度と第２の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部１６と、楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部１８とを備える。これにより、楽曲の構造の解析を容易に行うことが可能になる。

楽曲構造解析装置１００は、分割された複数のセクションから楽曲のサビに該当するセクションを推定する推定部３３をさらに備えてもよい。この場合、使用者は、楽曲のサビに該当するセクションを容易に認識することができる。

楽曲構造解析装置１００は、重み係数の指定を受け付ける受付部１７をさらに備え、特定部１６は、受け付けられた重み係数に基づいて、第１の境界尤度と第２の境界尤度とを重み付け合成してもよい。この場合、楽曲に応じて重み係数を適切に変更することができる。

また、楽曲構造解析装置１００は、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部２３を備え、推定部３３は、セクションの分類結果に基づいて、分割された複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定してもよい。この場合、使用者は、楽曲の特定の構成種別の部分に該当するセクションを容易に認識することができる。

楽曲構造解析装置１００は、セクションの分類結果を視認可能に出力する分類結果出力部２４をさらに備えてもよい。この場合、使用者は、セクションの分類結果をより容易に認識することができる。

また、楽曲構造解析装置１００は、分割された複数のセクションを類似度に基づいてクラスタに分類する分類部２３を備え、推定部３３は、分類されたクラスタに属するセクションの数に基づいて、複数のセクションから楽曲のサビに該当するセクションを推定してもよい。この場合、楽曲のサビに該当するセクションをより容易に特定することができる。

あるいは、楽曲構造解析装置１００は、取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも１つに基づいて各セクションのスコアを算出する算出部３２を備え、推定部３３は、算出されたスコアに基づいて、複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定してもよい。この場合、楽曲の特定の構成種別の部分に該当するセクションをより容易に特定することができる。

（７）他の実施の形態
（ａ）上記実施の形態において、楽曲の構成境界は、第１の境界尤度と第２の境界尤度との重み付け合成により特定されるが、実施の形態はこれに限定されない。楽曲の構成境界は、他の方法により特定されてもよい。

（ｂ）上記実施の形態において、楽曲構造解析装置１００はセクション分割部１０を含むが、実施の形態はこれに限定されない。取得部２１が複数のセクションに分割された楽曲の音響信号を取得可能である限り、楽曲構造解析装置１００は、セクション分割部１０を含まなくてもよい。

（ｃ）上記実施の形態において、推定部３３は、クラスタに属するセクションの数、先頭コードまたは終端コードの調のトニックコードへの類似度、およびボーカル尤度の全部を用いて楽曲のサビに該当するセクションを推定するが、実施の形態はこれに限定されない。推定部３３は、クラスタに属するセクションの数、先頭コードまたは終端コードの調のトニックコードへの類似度、およびボーカル尤度の一部を用いて楽曲のサビに該当するセクションを推定してもよい。推定部３３がクラスタに属するセクションの数を用いずに楽曲のサビに該当するセクションを推定する場合には、楽曲構造解析装置１００はセクション分類部２０を含まなくてもよい。

（ｄ）上記実施の形態において、推定部３３は、複数のセクションから楽曲のサビに該当するセクションを推定するが、実施の形態はこれに限定されない。推定部３３は、複数のセクションから楽曲のイントロ、Ａメロ、Ｂメロまたはアウトロ等の他の構成種別の部分に該当するセクションを推定してもよい。

（８）構成境界の特定についての実施例
以下の実施例１～３および比較例１～６では、多数の学習データを用いて第１および第２の学習モデルＭ１，Ｍ２が作成された。また、楽曲の構成境界を示すラベルが付与された評価用の楽曲データが評価データとして準備された。なお、学習データは、ソフトウエアにより音声化されたラベル付きのＭＩＤＩ（Musical Instrument Digital Interface）データ１２５９３曲、および実楽曲とラベル付きのＭＩＤＩデータとのセット３９３８曲を含む。また、一部の学習データには、水増し処理が行われた。

実施例１では、ラベル付きＭＩＤＩデータと実楽曲とのセット４０９曲を評価データとして、第１および第２の学習モデルＭ１，Ｍ２を用いて音響信号の構成境界が特定された。ここで、第１の境界尤度の重み係数は０．４とされ、第２の境界尤度の重み係数は０．６とされた。また、評価データのラベルに基づいて、特定された構成境界の再現率（Recall）、適合率（Precision）およびＦ値（F-measure）が評価された。比較例１，２では、それぞれ第１および第２の学習モデルＭ１，Ｍ２のみを用いて、実施例１と同様の構成境界の特定および評価が行われた。図１０は、実施例１および比較例１，２の評価結果を示す図である。

実施例２では、評価データとして、研究用音楽データベースの楽曲データ１００曲が用いられた点を除いて、実施例１と同様の構成境界の特定および評価が行われた。比較例３，４では、それぞれ第１および第２の学習モデルＭ１，Ｍ２のみを用いて、実施例２と同様の構成境界の特定および評価が行われた。図１１は、実施例２および比較例３，４の評価結果を示す図である。

実施例３では、評価データとして、研究用音楽データベースの他のジャンルの楽曲データ７６曲が用いられた点を除いて、実施例２と同様の構成境界の特定および評価が行われた。比較例５，６では、それぞれ第１および第２の学習モデルＭ１，Ｍ２のみを用いて、実施例３と同様の構成境界の特定および評価が行われた。図１２は、実施例３および比較例５，６の評価結果を示す図である。

図１０～図１２に示される実施例１～３および比較例１～６の比較結果から、第１および第２の境界尤度の重み付け合成が行われることにより、第１または第２の境界尤度のみが用いられる場合よりも総合的に高い精度で音響信号の構成境界を特定できることが確認された。一方で、楽曲のジャンルによっては、構成境界の特定の精度が低下することが確認された。このような場合でも、楽曲のジャンルに応じて第１の境界尤度と第２の境界尤度との重み係数を適切に選択することにより、構成境界の特定の精度の低下を防止することが可能であると考えられる。

（９）構成種別の推定についての実施例
以下の実施例４～７では、楽曲の構成境界を示すラベルおよびボーカルの有無を示すラベルが付与されたＭＩＤＩデータ３９３８曲を学習データとして用いて第３の学習モデルＭ３が作成された。また、学習データと同様のラベルが付与された評価用の楽曲データが評価データとして準備された。

実施例４では、ラベル付きＭＩＤＩデータと実楽曲とのセット２００曲が評価データとされた。クラスタリングされない場合に、ボーカル尤度が用いられないとき、およびボーカル尤度が用いられたときの評価データに対する先頭サビに該当するセクションの推定結果の正解率がそれぞれ評価された。また、クラスタリングされた場合に、ボーカル尤度が用いられないとき、およびボーカル尤度が用いられたときの評価データに対する先頭サビに該当するセクションの推定結果の正解率がそれぞれ評価された。

実施例５では、先頭サビに限定されず、いずれかのサビに該当するセクションが推定された点を除いて、実施例４と同様の評価が行われた。実施例６では、評価データとして、研究用音楽データベースの楽曲データ１００曲が用いられた点を除いて、実施例４と同様の評価が行われた。実施例７では、先頭サビに限定されず、いずれかのサビに該当するセクションが推定された点を除いて、実施例６と同様の評価が行われた。なお、ボーカル尤度は第３の学習モデルＭ３を用いて取得され、推定されたセクションの７割以上の部分がサビである場合に正解とされた。

図１３は、実施例４～７の評価結果を示す図である。図１３に示される実施例４～７の比較結果から、ボーカル尤度を用いることにより、サビに該当するセクションの推定結果の正解率が上昇することが確認された。また、クラスタリングを行うことによりサビに該当するセクションの推定結果の正解率が大きく上昇することが確認された。

１…楽曲構造解析システム，２…ＲＡＭ，３…ＲＯＭ，４…ＣＰＵ，５…記憶装置，６…操作部，７…表示部，８…バス，１０…セクション分割部，１１，２１，３１…取得部，１２…第１の抽出部，１３…第２の抽出部，１４…第１の境界尤度出力部，１５…第２の境界尤度出力部，１６…特定部，１７…受付部，１８…分割部，１９…分割結果出力部，２０…セクション分類部，２２…判定部，２３…分類部，２４…分類結果出力部，３０…構成種別推定部，３２…算出部，３３…推定部，３４…推定結果出力部，１００…楽曲構造解析装置，ＭＤ…楽曲データ，Ｍ１…第１の学習モデル，Ｍ１１，Ｍ３１…ＣＮＮ層，Ｍ１２，Ｍ１４，Ｍ２１，Ｍ２３，Ｍ３２，Ｍ３４…線形層，Ｍ１３，Ｍ２２，Ｍ３３…双方向型ＧＲＵ層，Ｍ２…第２の学習モデル，Ｍ３…第３の学習モデル，ｓ１～ｓ１２…セクション

Claims

楽曲の音響信号を取得する取得部と、
取得された楽曲の音響信号から音色の変化を示す第１の特徴量を抽出する第１の抽出部と、
取得された楽曲の音響信号からコードの変化を示す第２の特徴量を抽出する第２の抽出部と、
第１の学習モデルを用いて、前記第１の特徴量から楽曲の構成境界の尤度を示す第１の境界尤度を出力する第１の境界尤度出力部と、
第２の学習モデルを用いて、前記第２の特徴量から楽曲の構成境界の尤度を示す第２の境界尤度を出力する第２の境界尤度出力部と、
前記第１の境界尤度と前記第２の境界尤度とを重み付け合成することにより、楽曲の構成境界を特定する特定部と、
楽曲の音響信号を特定された構成境界で複数のセクションに分割する分割部とを備える、楽曲構造解析装置。
分割された前記複数のセクションから楽曲のサビに該当するセクションを推定する推定部をさらに備える、請求項１記載の楽曲構造解析装置。
重み係数の指定を受け付ける受付部をさらに備え、
前記特定部は、受け付けられた前記重み係数に基づいて、前記第１の境界尤度と前記第２の境界尤度とを重み付け合成する、請求項１または２記載の楽曲構造解析装置。
楽曲の音響信号を取得する取得部と、
取得された楽曲の音響信号を複数のセクションに分割する分割部と、
分割された前記複数のセクションを類似度に基づいてクラスタに分類する分類部と、
セクションの分類結果に基づいて、分割された前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える、楽曲構造解析装置。
セクションの分類結果を視認可能に出力する分類結果出力部をさらに備える、請求項４記載の楽曲構造解析装置。
複数のセクションに分割された楽曲の音響信号を取得する取得部と、
分割された前記複数のセクションを類似度に基づいてクラスタに分類する分類部と、
分類されたクラスタに属するセクションの数に基づいて、前記複数のセクションから楽曲のサビに該当するセクションを推定する推定部とを備える、楽曲構造解析装置。
複数のセクションに分割された楽曲の音響信号を取得する取得部と、
取得された楽曲の音響信号のセクションにおける先頭コードまたは終端コードの調のトニックコードへの類似度と、セクションにボーカルが含まれる尤度との少なくとも１つに基づいて各セクションのスコアを算出する算出部と、
算出されたスコアに基づいて、前記複数のセクションから楽曲の特定の構成種別の部分に該当するセクションを推定する推定部とを備える、楽曲構造解析装置。