JP2022129742A

JP2022129742A - 音響解析方法、音響解析システムおよびプログラム

Info

Publication number: JP2022129742A
Application number: JP2021028549A
Authority: JP
Inventors: 和彦山本; Kazuhiko Yamamoto
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-09-06
Also published as: CN116917981A; CN116868264A

Abstract

【課題】音響信号が表す楽曲のテンポを高精度に推定する。【解決手段】音響解析システム１００は、テンポの最大値の時間変化を表す最大テンポ曲線ＣHと、テンポの最小値の時間変化を表す最小テンポ曲線ＣLとを、利用者からの指示に応じて設定する曲線設定部２８と、楽曲の演奏音を表す音響信号Ａを解析することで、最大テンポ曲線ＣHが表す最大値と最小テンポ曲線ＣLが表す最小値との間の制限範囲内において楽曲のテンポを推定する解析処理部２０とを具備する。【選択図】図１６

Description

本開示は、音響信号を解析する技術に関する。

楽曲の演奏音を表す音響信号を解析することで当該楽曲のテンポ（演奏速度）を推定する解析技術が従来から提案されている。例えば特許文献１には、隠れマルコフモデル等の確率モデルを利用して楽曲の拍点およびテンポを推定する技術が開示されている。

特開２０１５－１１４３６１号公報

しかし、楽曲のテンポを推定する従来の技術においては、例えば楽曲の本来のテンポの２倍または１/２倍のテンポ等が誤推定される場合がある。以上の事情を考慮して、本開示のひとつの態様は、音響信号が表す楽曲のテンポを高精度に推定することをひとつの目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る音響解析システムは、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定し、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する。

本開示のひとつの態様に係る音響解析システムは、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部と、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部とを具備する。

本開示のひとつの態様に係るプログラムは、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部、および、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部、としてコンピュータシステムを機能させる。

第１実施形態に係る音響解析システムの構成を例示するブロック図である。音響解析システムの機能的な構成を例示するブロック図である。特徴抽出部が特徴データを生成する動作の説明図である。推定モデルの構成を例示するブロック図である。推定モデルを確立する機械学習の説明図である。確率算定処理の具体的な手順を例示するフローチャートである。状態遷移モデルの説明図である。拍点推定処理の説明図である。拍点推定処理の具体的な手順を例示するフローチャートである。解析画面の模式図である。推定モデル更新処理の説明図である。推定モデル更新処理の具体的な手順を例示するフローチャートである。制御装置が実行する処理の具体的な手順を例示するフローチャートである。初期解析処理の具体的な手順を例示するフローチャートである。拍点更新処理の具体的な手順を例示するフローチャートである。第２実施形態における音響解析システムの機能的な構成を例示するブロック図である。第２実施形態における解析画面の模式図である。推定テンポ曲線，最大テンポ曲線および最初テンポ曲線の説明図である。第２実施形態における拍点推定処理の具体的な手順を例示するフローチャートである。第３実施形態において出力データを生成する処理の説明図である。

Ａ：第１実施形態
図１は、第１実施形態に係る音響解析システム１００の構成を例示するブロック図である。音響解析システム１００は、楽曲の演奏音を表す音響信号Ａの解析により当該楽曲の複数の拍点を推定するコンピュータシステムである。音響解析システム１００は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と放音装置１５とを具備する。音響解析システム１００は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、音響解析システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、音響解析システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響解析システム１００に対して着脱される可搬型の記録媒体、または例えばインターネット等の通信網を介して制御装置１１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

記憶装置１２は、音響信号Ａを記憶する。音響信号Ａは、楽曲の演奏音の波形を表すサンプル系列である。具体的には、音響信号Ａは、楽曲の楽器音および歌唱音の少なくとも一方を表す。音響信号Ａのデータ形式は任意である。なお、音響解析システム１００とは別体の信号供給装置から音響信号Ａが音響解析システム１００に供給されてもよい。信号供給装置は、例えば、記録媒体に記録された音響信号Ａを音響解析システム１００に供給する再生装置、または、配信装置（図示略）から通信網を介して受信した音響信号Ａを音響解析システム１００に供給する通信機器である。

表示装置１３は、制御装置１１による制御のもとで画像を表示する。例えば液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の各種の表示パネルが表示装置１３として利用される。なお、音響解析システム１００とは別体の表示装置１３を音響解析システム１００に有線または無線により接続してもよい。操作装置１４は、利用者からの指示を受付ける入力機器である。操作装置１４は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。

放音装置１５は、制御装置１１による制御のもとで音響を再生する。例えばスピーカまたはヘッドホンが放音装置１５として利用される。なお、音響解析システム１００とは別体の放音装置１５を音響解析システム１００に有線または無線により接続してもよい。

図２は、音響解析システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ａを処理するための複数の機能（解析処理部２０，表示制御部２４，再生制御部２５，指示受付部２６および推定モデル更新部２７）を実現する。

解析処理部２０は、音響信号Ａの解析により楽曲内の複数の拍点を推定する。具体的には、解析処理部２０は、音響信号Ａから拍点データＢを生成する。拍点データＢは、楽曲内の各拍点を表すデータである。具体的には、拍点データＢは、楽曲内の複数の拍点の各々について当該拍点の時刻を指定する時系列データである。例えば、音響信号Ａの始点を基準とした各拍点の時刻が拍点データＢにより指定される。第１実施形態の解析処理部２０は、特徴抽出部２１と確率算定部２２と推定処理部２３とを具備する。

［特徴抽出部２１］
図３は、特徴抽出部２１の動作の説明図である。特徴抽出部２１は、時間軸上のＭ個の時点（以下「解析時点」という）ｔ[m]の各々について音響信号Ａの特徴量ｆ[m]（ｍ＝１～Ｍ）を生成する。各解析時点ｔ[m]は、所定の間隔で時間軸上に設定された時点である。特徴量ｆ[m]は、音響信号Ａの音響的な特徴を表す指標である。具体的には、拍点の前後において顕著に変動する傾向がある特徴量ｆ[m]が利用される。例えば音量および振幅等、音響信号Ａの強度に関する情報が、特徴量ｆ[m]として例示される。また、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficients），ＭＳＬＳ（Mel-Scale Log Spectrum）、または定Ｑ変換（ＣＱＴ：Constant-Q Transform）等、音響信号Ａの周波数特性（音色）に関する情報も、特徴量ｆ[m]として利用される。ただし、特徴量ｆ[m]の種類は以上の例示に限定されない。また、特徴量ｆ[m]は、音響信号Ａに関する複数種の情報の組合せでもよい。

特徴抽出部２１は、解析時点ｔ[m]毎に特徴データＦ[m]を生成する。任意の解析時点ｔ[m]に対応する特徴データＦ[m]は、当該解析時点ｔ[m]を含む期間（以下「単位期間」という）Ｕ内の複数の特徴量ｆ[m]の時系列である。図３においては、１個の単位期間Ｕが、第ｍ番目の解析時点ｔ[m]を中心とする５個の解析時点ｔ[m-2]～ｔ[m+2]を含む場合が例示されている。したがって、特徴データＦ[m]は、単位期間Ｕ内の５個の特徴量ｆ[m-2]～ｆ[m+2]の時系列である。なお、単位期間Ｕが１個の解析時点[m]のみを含んでもよい。すなわち、特徴データＦ[m]は１個の特徴量ｆ[m]のみで構成されてもよい。以上の説明から理解される通り、特徴抽出部２１は、音響信号Ａの特徴量ｆ[m]を含む特徴データＦ[m]を解析時点ｔ[m]毎に生成する。

［確率算定部２２］
図２の確率算定部２２は、各解析時点ｔ[m]が楽曲の拍点に該当する確率Ｐ[m]を表す出力データＯ[m]を特徴データＦ[m]から生成する。出力データＯ[m]の生成は、解析時点ｔ[m]毎に反復される。確率Ｐ[m]が大きいほど、解析時点ｔ[m]が拍点に該当する確度が高い。確率算定部２２による出力データＯ[m]の生成には推定モデル５０が利用される。

音響信号Ａの各解析時点ｔ[m]の特徴データＦ[m]と、当該解析時点ｔ[m]が拍点に該当する確度との間には相関がある。推定モデル５０は、以上の相関を学習した統計モデルである。具体的には、推定モデル５０は、特徴データＦ[m]と出力データＯ[m]との関係を機械学習により学習した学習済モデルである。

推定モデル５０は、例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）で構成される。推定モデル５０は、特徴データＦ[m]から出力データＯ[m]を生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。推定モデル５０を実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。推定モデル５０を規定する複数の変数の各々の数値は、機械学習により事前に設定される。

図４は、推定モデル５０の具体的な構成を例示するブロック図である。推定モデル５０は、入力層５１と複数の中間層５２（５２a，５２b）と出力層５３とを含む畳込ニューラルネットワークで構成される。１個の特徴データＦ[m]に含まれる複数の特徴量ｆ[m-2]～ｆ[m+2]が入力層５１に並列に入力される。

複数の中間層５２は、入力層５１と出力層５３との間に位置する隠れ層である。複数の中間層５２は、複数の中間層５２aと複数の中間層５２bとを含む。複数の中間層５２aは、入力層５１と複数の中間層５２bとの間に位置する。各中間層５２aは、例えば畳込層とプーリング層との組合せで構成される。各中間層５２bは、例えばＲeＬＵを活性化関数とする全結合層である。出力層５３は出力データＯ[m]を出力する。

推定モデル５０は、第１部分５０aと第２部分５０bとに区分される。第１部分５０aは、推定モデル５０のうち入力側の部分である。具体的には、第１部分５０aは、入力層５１と複数の中間層５２aとで構成される前半部分である。第２部分５０bは、推定モデル５０のうち出力側の部分である。具体的には、第２部分５０bは、複数の中間層５２bと出力層５３とで構成される後半部分である。第１部分５０aは、特徴データＦ[m]に応じた中間データＤ[m]を生成する部分である。中間データＤ[m]は、特徴データＦ[m]の特徴を表すデータである。具体的には、中間データＤ[m]は、特徴データＦ[m]に対して統計的に妥当な出力データＯ[m]を出力するために寄与する特徴を表すデータである。第２部分５０bは、中間データＤ[m]に応じた出力データＯ[m]を生成する部分である。

図５は、推定モデル５０を確立する機械学習の説明図である。例えば音響解析システム１００とは別体の機械学習システム２００による機械学習で推定モデル５０が確立され、当該推定モデル５０が音響解析システム１００に提供される。例えば、機械学習システム２００から音響解析システム１００に推定モデル５０が送信される。

推定モデル５０の機械学習には複数の学習データＺが利用される。複数の学習データＺの各々は、学習用の特徴データＦtと学習用の出力データＯtとの組合せで構成される。特徴データＦtは、学習用に用意された音響信号Ａのうち特定の時点における特徴量を表す。具体的には、特徴データＦtは、前述の特徴データＦ[m]と同様に、時間軸上の相異なる時点に対応する複数の特徴量の時系列で構成される。特定の時点に対応する学習用の出力データＯtは、当該時点が楽曲の拍点に該当する確率を表すデータ（すなわち正解値）である。既知の多数の楽曲について複数の学習データＺが用意される。

機械学習システム２００は、各学習データＺの特徴データＦtを入力したきに初期的または暫定的なモデル（以下「暫定モデル」という）５９が出力する出力データＯ[m]と、当該学習データＺの出力データＯtとの誤差を表す誤差関数を算定する。そして、機械学習システム２００は、誤差関数が低減されるように暫定モデル５９の複数の変数を更新する。複数の学習データＺの各々について以上の処理が反復された時点の暫定モデル５９が、推定モデル５０として確定される。

したがって、推定モデル５０は、複数の学習データＺにおける特徴データＦtと出力データＯtとの間に潜在する関係のもとで、未知の特徴データＦ[m]に対して統計的に妥当な出力データＯ[m]を出力する。すなわち、推定モデル５０は、時間軸上の各時点に対応する学習用の特徴データＦtと、当該時点が拍点に該当する確率を表す学習用の出力データＯtとの関係を学習した学習済モデルである。確率算定部２２は、以上の手順で確立された推定モデル５０に各解析時点ｔ[m]の特徴データＦ[m]を入力することで、当該解析時点ｔ[m]が拍点に該当する確率Ｐ[m]を表す出力データＯ[m]を生成する。

図６は、確率算定部２２が実行する処理（以下「確率算定処理」という）Ｓaの具体的な手順を例示するフローチャートである。制御装置１１が確率算定部２２として機能することで確率算定処理Ｓaを実行する。

確率算定処理Ｓaが開始されると、確率算定部２２は、解析時点ｔ[m]に対応する特徴データＦ[m]を推定モデル５０に入力する（Ｓa1）。確率算定部２２は、推定モデル５０の第１部分５０aが出力する中間データＤ[m]を取得し、当該中間データＤ[m]を記憶装置１２に保存する（Ｓa2）。また、確率算定部２２は、推定モデル５０（第２部分５０b）が出力する出力データＯ[m]を取得し、当該出力データＯ[m]を記憶装置１２に保存する（Ｓa3）。

確率算定部２２は、楽曲内のＭ個の解析時点ｔ[1]～ｔ[M]について以上の処理を実行したか否かを判定する（Ｓa4）。判定結果が否定である場合（Ｓa4：NO）、確率算定部２２は、未処理の解析時点ｔ[m]について中間データＤ[m]および出力データＯ[m]の生成（Ｓa1～Ｓa3）を実行する。Ｍ個の解析時点ｔ[1]～ｔ[M]について処理を実行した場合（Ｓa4：YES）、確率算定部２２は確率算定処理Ｓaを終了する。以上の説明から理解される通り、確率算定処理Ｓaの結果、相異なる解析時点ｔ[m]に対応するＭ個の中間データＤ[1]～Ｄ[M]と、相異なる解析時点ｔ[m]に対応するＭ個の出力データＯ[1]～Ｏ[M]とが記憶装置１２に保存される。

［推定処理部２３］
図２の推定処理部２３は、確率算定部２２が相異なる解析時点ｔ[m]について算定するＭ個の出力データＯ[m]から楽曲内の複数の拍点を推定する。具体的には、推定処理部２３は、前述の通り、楽曲内の各拍点の時刻を表す拍点データＢを生成する。確率算定部２２による拍点データＢの生成には状態遷移モデル６０が利用される。

図７は、状態遷移モデル６０の構成を例示するブロック図である。状態遷移モデル６０は、複数（Ｎ個）の状態Ｑで構成される統計モデルである。具体的には、状態遷移モデル６０は、隠れセミマルコフモデル（ＨＳＭＭ：Hidden Semi-Markov Model）で構成され、動的計画法の一例であるビタビ（Viterbi）アルゴリズムにより複数の拍点が推定される。

図７には、時間軸上の拍点が図示されている。時間軸上で相前後する２個の拍点の間隔（以下「拍間隔」という）δの時間長は、楽曲のテンポに応じた可変値である。具体的には、テンポが速いほど拍間隔δは短い。拍間隔δ内には複数の時点（以下「経過点」という）Ｙ[j]が設定される。各経過点Ｙ[i]（ｉ＝１～４）は、拍点を基準として時間軸上に設定される時点である。具体的には、経過点Ｙ[0]は拍点に相当する時点（拍頭）であり、経過点Ｙ[1]～Ｙ[4]は、拍間隔δを等分する各時点である。経過点Ｙ[3]は経過点Ｙ[4]の後方に位置し、経過点Ｙ[2]は経過点Ｙ[3]の後方に位置し、経過点Ｙ[1]は経過点Ｙ[2]の後方に位置する。経過点Ｙ[0]は、拍間隔δの端点（始点または終点）に相当する。各拍点（経過点Ｙ[0]）から各経過点Ｙまでの時間長は、拍点を基準とした位相を意味するとも表現できる。例えば経過点Ｙ[4]→経過点Ｙ[3]→経過点Ｙ[2]→経過点Ｙ[1]という順番で時間が進行し、経過点Ｙ[1]の経過後に経過点Ｙ[0]（拍点）に到達する。

状態遷移モデル６０のＮ個の状態Ｑの各々は、複数のテンポＸ[i]（ｉ＝１，２，３，…）の何れかに対応する。具体的には、Ｎ個の状態Ｑは、複数のテンポＸ[i]の各々と複数の経過点Ｙ[0]～Ｙ[4]の各々との相異なる組合せに対応する。すなわち、各テンポＸ[i]について、相異なる経過点Ｙ[j]に対応する５個の状態Ｑの時系列が存在する。以下の説明においては、テンポＸ[i]と経過点Ｙ[j]との組合せに対応する状態Ｑを、「状態Ｑ[i,j]」と表記する場合がある。他方、テンポＸ[i]および経過点Ｙ[j]の区別に特に注目しない場合には単に「状態Ｑ」と表記する。なお、経過点Ｙ[j]による状態Ｑの区別は省略されてもよい。すなわち、複数の状態Ｑの各々が相異なるテンポＸ[i]に対応する形態も想定される。経過点Ｙ[j]を区別しない形態では、例えば隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）が状態遷移モデル６０として利用される。

第１実施形態においては、時間軸上の拍点（すなわち経過点Ｙ[0]）のみでテンポＸが変化すると仮定する。以上の仮定のもとでは、経過点Ｙ[0]以外の各経過点Ｙ[j]に対応する状態Ｑ[i,j]は、直後の経過点Ｙ[j-1]に対応する状態Ｑ[i,j-1]のみに遷移する。例えば、状態Ｑ[i,4]は状態Ｑ[i,3]に遷移し、状態Ｑ[i,3]は状態Ｑ[i,2]に遷移し、状態Ｑ[i,2]は状態Ｑ[i,1]に遷移する。他方、拍点に相当する状態Ｑ[i,0]には、相異なるテンポＸ[i]に対応する複数の状態Ｑ[i,1]（Ｑ[1,1]，Ｑ[2,1]，Ｑ[3,1]，…）からの遷移が発生する。

図８は、推定処理部２３が状態遷移モデル６０を利用して楽曲内の複数の拍点を推定する処理（以下「拍点推定処理」という）Ｓbの説明図である。また、図９は、拍点推定処理Ｓbの具体的な手順を例示するフローチャートである。制御装置１１が推定処理部２３として機能することで拍点推定処理Ｓbを実行する。

拍点推定処理Ｓbが開始されると、推定処理部２３は、Ｍ個の解析時点ｔ[1]～ｔ[M]の各々について観測尤度Λ[m]を算定する（Ｓb1）。各解析時点ｔ[m]の観測尤度Λ[m]は、当該解析時点ｔ[m]の出力データＯ[m]が表す確率Ｐ[m]に応じた数値に設定される。例えば、観測尤度Λ[m]は、出力データＯ[m]が表す確率Ｐ[m]、または当該確率Ｐ[m]に対する所定の演算で算定される数値に設定される。

推定処理部２３は、状態遷移モデル６０の各状態Ｑ[i,j]について、経路ｐ[i,j]と尤度λ[i,j]とを解析時点ｔ[m]毎に算定する（Ｓb2）。経路ｐ[i,j]は、他の状態Ｑから状態Ｑ[i,j]に到達する経路であり、尤度λ[i,j]は、当該状態Ｑ[i,j]が観測される確度の指標である。

前述の通り、任意のテンポＸ[i]に対応する複数の状態Ｑ[i,0]～Ｑ[i,4]の間では一方向の遷移のみが発生する。したがって、図８から理解される通り、例えばテンポＸ[1]と経過点Ｙ[1]とに対応する状態Ｑ[1,1]に解析時点ｔ[m]にて到達する経路ｐ[1,1]は、当該テンポＸ[1]と直前の経過点Ｙ[2]とに対応する状態Ｑ[1,2]からの経路ｐのみである。また、解析時点ｔ[m]における状態Ｑ[1,1]の尤度λ[1,1]は、当該テンポＸ[1]に対応する時間長ｄ[1]だけ解析時点ｔ[m]から手前の時点ｔ1に対応する尤度に設定される。具体的には、状態Ｑ[1,1]の尤度λ[1,1]は、時点ｔ1の直前の解析時点ｔ[mA]における観測尤度Λ[mA]と、当該時点ｔ1の直後の解析時点ｔ[mB]における観測尤度Λ[mB]との補間（例えば線形補間）により算定される。

他方、経過点Ｙ[0]ではテンポＸ[i]が変化する可能性がある。したがって、図８から理解される通り、例えばテンポＸ[1]と経過点Ｙ[0]とに対応する状態Ｑ[1,0]には、相異なるテンポＸ[i]に対応する複数の状態Ｑ[i,1]の各々から別個の経路ｐが到達する。例えば、状態Ｑ[1,0]には、当該テンポＸ[1]と直前の経過点Ｙ[1]との組合せに対応する状態Ｑ[1,1]からの経路ｐ1のほか、テンポＸ[2]と直前の経過点Ｙ[1]との組合せに対応する状態Ｑ[2,1]からの経路ｐ2も到達する。状態Ｑ[1,1]から状態Ｑ[1,0]への経路ｐ1に関する尤度λ1は、前述の例示と同様に、時点ｔ1の直前の解析時点ｔ[mA]における観測尤度Λ[mA]と、当該時点ｔ1の直後の解析時点ｔ[mB]における観測尤度Λ[mB]との補間（例えば線形補間）により算定される。また、状態Ｑ[2,1]から状態Ｑ[1,0]への経路ｐ2に関する尤度λ2は、状態Ｑ[2,1]のテンポＸ[2]に対応する時間長ｄ[2]だけ解析時点ｔ[m]から手前の時点ｔ2における尤度に設定される。具体的には、尤度λ2は、時点ｔ2の直前の解析時点ｔ[mC]における観測尤度Λ[mC]と、当該時点ｔ2の直後の解析時点ｔ[mA]における観測尤度Λ[mA]との補間（例えば線形補間）により算定される。推定処理部２３は、相異なるテンポＸ[i]について算定された複数の尤度λ（λ1，λ2，…）の最大値を解析時点ｔ[m]における状態Ｑ[1,0]の尤度λ[1,0]として選択し、状態Ｑ[1,0]に到達する複数の経路ｐ（ｐ1，ｐ2，…）のうち当該尤度λ[1,0]に対応する経路ｐを状態Ｑ[1,0]までの経路ｐ[1,0]として確定する。以上の手順により、Ｎ個の状態Ｑの各々について経路ｐ[i,j]と尤度λ[i,j]とを算定する処理が、時間軸の順方向に沿って解析時点ｔ[m]毎に実行される。すなわち、Ｍ個の解析時点ｔ[1]～ｔ[M]の各々について各状態Ｑの経路ｐ[i,j]および尤度λ[i,j]が算定される。

推定処理部２３は、相異なる解析時点ｔ[m]に対応するＭ個の状態Ｑの時系列（以下「状態系列」という）を生成する（Ｓb3）。具体的には、推定処理部２３は、楽曲の最後の解析時点ｔ[M]について算定されたＮ個の尤度λ[i,j]の最大値に対応する状態Ｑ[i,j]から、時間軸の逆方向に沿って順番に経路ｐ[i,j]を連結し、連結後の一連の経路（すなわち最尤経路）上に位置するＭ個の状態Ｑにより状態系列を生成する。すなわち、Ｎ個の状態Ｑのうち尤度λ[i,j]が大きい状態Ｑを解析時点ｔ[m]毎に配列した系列が、状態系列として生成される。

推定処理部２３は、状態系列を構成するＭ個の状態Ｑのうち、経過点Ｙ[0]に対応する状態Ｑが観測される各解析時点ｔ[m]を拍点として推定し、各拍点の時刻を指定する拍点データＢを生成する（Ｓb4）。以上の説明から理解される通り、出力データＯ[m]が表す確率Ｐ[m]が高く、かつ、聴感的に自然にテンポが遷移する解析時点ｔ[m]が、楽曲内の拍点として推定される。

以上の通り、第１実施形態においては、解析時点ｔ[m]毎の特徴データＦ[m]を推定モデル５０に入力することで解析時点ｔ[m]毎の出力データＯ[m]が生成され、当該出力データＯ[m]から複数の拍点が推定される。したがって、学習用の特徴データＦtと学習用の出力データＯtとの間に潜在する関係のもとで未知の特徴データＦ[m]に対して統計的に妥当な出力データＯ[m]を生成できる。解析処理部２０の構成の具体例は以上の通りである。

図２の表示制御部２４は、表示装置１３に画像を表示させる。具体的には、表示制御部２４は、図１０の解析画面７０を表示装置１３に表示させる。解析画面７０は、解析処理部２０が音響信号Ａを解析した結果を表す画像である。

解析画面７０は、第１領域７１と第２領域７２とを含む。第１領域７１には音響信号Ａの波形７１１が表示される。第２領域７２には、音響信号Ａのうち第１領域７１において指定された一部の期間（以下「指定期間」という）７１２に関する解析の結果が表示される。第２領域７２は、波形領域７３と確率領域７４と拍点領域７５とを含む。

波形領域７３と確率領域７４と拍点領域７５とには共通の時間軸が設定される。波形領域７３には、音響信号Ａのうち指定期間７１２内の波形７３１と、音響信号Ａにおける発音点（オンセット）７３２とが表示される。確率領域７４には、各解析時点ｔ[m]の出力データＯ[m]が表す確率Ｐ[m]の時系列７４１が表示される。なお、出力データＯ[m]が表す確率Ｐ[m]の時系列７４１は、音響信号Ａの波形７３１に重ねて波形領域７３内に表示されてもよい。

拍点領域７５には、音響信号Ａの解析により推定された楽曲内の複数の拍点が表示される。具体的には、楽曲内の相異なる拍点に対応する複数の拍画像７５１の時系列が拍点領域７５には表示される。楽曲内の複数の拍点のうち所定の条件を充足する１個以上の拍点（以下「修正候補点」という）に対応する拍画像７５１は、他の拍画像７５１とは別個の表示態様で強調表示される。修正候補点は、利用者が変更を指示する可能性が高い拍点である。

図２の再生制御部２５は、放音装置１５による音響の再生を制御する。具体的には、再生制御部２５は、音響信号Ａが表す演奏音を放音装置１５に再生させる。再生制御部２５は、音響信号Ａの再生に並行して、複数の拍点の各々に対応する時点で所定の通知音を再生する。また、表示制御部２４は、拍点領域７５内の複数の拍画像７５１のうち放音装置１５が再生している時点に対応する１個の拍画像７５１を、拍点領域７５内の他の拍画像７５１とは別個の表示態様で強調表示する。すなわち、音響信号Ａの再生に並行して複数の拍画像７５１の各々が時系列の順番で順次に強調表示される。

ところで、音響信号Ａから楽曲内の複数の拍点を推定する処理においては、例えば楽曲の裏拍が拍点として誤推定される可能性がある。また、利用者が表拍の推定を期待している状況で楽曲の裏拍が推定される場合のように、拍点を推定した結果が利用者の意図に適合しない可能性もある。利用者は、操作装置１４を操作することで、楽曲内の複数の拍点のうち任意の拍点について時間軸上の位置の変更を指示することが可能である。具体的には、利用者は、拍点領域７５内の複数の拍画像７５１の何れかを時間軸の方向に移動させることで、当該拍画像７５１に対応する拍点の位置の変更を指示する。利用者は、例えば複数の拍点のうち修正候補点について位置の変更を指示する。

図２の指示受付部２６は、楽曲内の複数の拍点のうち一部の拍点に関する位置の変更の指示（以下「変更指示」という）を利用者から受付ける。以下の説明においては、１個の拍点を時間軸上の解析時点ｔ[m1]から解析時点ｔ[m2]に移動する変更指示を指示受付部２６が受付けた場合を想定する（ｍ1，ｍ2＝１～Ｍ，ｍ1≠ｍ2）。解析時点ｔ[m1]は、解析処理部２０が初期的に推定した拍点（すなわち変更指示による変更前の拍点）であり、解析時点ｔ[m2]は、利用者からの変更指示による変更後の拍点である。

図２の推定モデル更新部２７は、利用者による変更指示に応じて推定モデル５０を更新する。具体的には、変更指示に係る拍点の変更が楽曲の全体にわたる複数の拍点の推定に反映されるように、推定モデル更新部２７は推定モデル５０を更新する。

図１１は、推定モデル更新部２７が推定モデル５０を更新する処理（以下「推定モデル更新処理」という）Ｓcの説明図である。推定モデル更新処理Ｓcは、機械学習システム２００による学習済の推定モデル５０を、利用者からの変更指示が反映されるように更新する処理（追加学習）である。

推定モデル更新処理Ｓcにおいては、推定モデル５０の第１部分５０aと第２部分５０bとの間に適応ブロック５５が追加される。適応ブロック５５は、例えば活性化関数が恒等関数に初期化されたアテンションで構成される。したがって、初期的な適応ブロック５５は、第１部分５０aから出力される中間データＤ[m]を変更せずに第２部分５０bに供給する。

推定モデル更新部２７は、変更前の拍点が位置する解析時点ｔ[m1]の特徴データＦ[m1]と、変更後の拍点が位置する解析時点ｔ[m2]の特徴データＦ[m2]との各々を、第１部分５０a（入力層５１）に対して順次に入力する。第１部分５０aは、特徴データＦ[m1]に対応する中間データＤ[m1]と、特徴データＦ[m2]に対応する中間データＤ[m2]とを生成する。中間データＤ[m1]および中間データＤ[m2]の各々が、適応ブロック５５に順次に入力される。

また、推定モデル更新部２７は、直前の確率算定処理Ｓa（Ｓa2）で算定されたＭ個の中間データＤ[1]～Ｄ[M]の各々を、適応ブロック５５に対して順次に供給する。すなわち、楽曲内のＭ個の解析時点ｔ[1]～ｔ[M]のうち変更指示に係る一部の解析時点ｔ[m]に対応する中間データＤ[m]（Ｄ[m1]，Ｄ[m2]）と、楽曲の全体にわたるＭ個の中間データＤ[1]～Ｄ[M]の各々とが、適応ブロック５５に入力される。適応ブロック５５は、変更指示に係る解析時点ｔ[m]に対応する中間データＤ[m]（Ｄ[m1]，Ｄ[m2]）と、推定モデル更新部２７から供給される中間データＤ[m]との類似度を算定する。

前述の通り、解析時点ｔ[m2]は、直前の確率算定処理Ｓaでは拍点に該当しないと推定されたものの、変更指示により拍点と指示された時点である。すなわち、解析時点ｔ[m2]の出力データＯ[m2]が表す確率Ｐ[m2]は、直前の確率算定処理Ｓaでは小さい数値に設定されたけれども、利用者による変更指示のもとでは１に近い数値に設定されるべきである。さらに、解析時点ｔ[m2]だけでなく、楽曲内のＭ個の解析時点ｔ[1]～ｔ[M]のうち、解析時点ｔ[m2]の中間データＤ[m2]に類似する中間データＤ[m]が観測される各解析時点ｔ[m]についても同様に、当該解析時点ｔ[m]の出力データＯ[m]が表す確率Ｐ[m]は、１に近い数値に設定されるべきである。そこで、推定モデル更新部２７は、中間データＤ[m]と中間データＤ[m2]との類似度が所定の閾値を上回る場合には、出力データＯ[m]の確率Ｐ[m]が充分に大きい数値（例えば１）に近付くように、推定モデル５０の複数の変数を更新する。具体的には、推定モデル更新部２７は、中間データＤ[m2]との類似度が閾値を上回る各中間データＤ[m]から推定モデル５０が生成する出力データＯ[m]の確率Ｐ[m]と、拍点を意味する数値（すなわち１）との誤差が低減されるように、第１部分５０aと適応ブロック５５と第２部分５０bとの各々を規定する係数を更新する。

他方、解析時点ｔ[m1]は、直前の確率算定処理Ｓaでは拍点に該当すると推定されたものの、変更指示により拍点に該当しないと指示された時点である。すなわち、解析時点ｔ[m1]の出力データＯ[m1]が表す確率Ｐ[m1]は、直前の確率算定処理Ｓaでは大きい数値に設定されたけれども、利用者による変更指示のもとでは０に近い数値に設定されるべきである。さらに、解析時点ｔ[m1]だけでなく、楽曲内のＭ個の解析時点ｔ[1]～ｔ[M]のうち、解析時点ｔ[m1]の中間データＤ[m1]に類似する中間データＤ[m]が観測される各解析時点ｔ[m]についても同様に、当該解析時点ｔ[m]の出力データＯ[m]が表す確率Ｐ[m]は、０に近い数値に設定されるべきである。そこで、推定モデル更新部２７は、中間データＤ[m]と中間データＤ[m1]との類似度が所定の閾値を上回る場合には、出力データＯ[m]の確率Ｐ[m]が充分に小さい数値（例えば０）に近付くように、推定モデル５０の複数の変数を更新する。具体的には、推定モデル更新部２７は、中間データＤ[m1]との類似度が閾値を上回る各中間データＤ[m]から推定モデル５０が生成する出力データＯ[m]の確率Ｐ[m]と、拍点に該当しないこと意味する数値（すなわち０）との誤差が低減されるように、第１部分５０aと適応ブロック５５と第２部分５０bとの各々を規定する係数を更新する。

以上の説明から理解される通り、第１実施形態においては、変更指示に直接的に関連する中間データＤ[m1]および中間データＤ[m2]だけでなく、楽曲の全体にわたるＭ個の中間データＤ[1]～Ｄ[M]のうち中間データＤ[m1]または中間データＤ[m2]に類似する中間データＤ[m]も推定モデル５０の更新に利用される。したがって、利用者が変更を指示する拍点は楽曲内の一部の拍点に過ぎないにも関わらず、推定モデル更新処理Ｓcの実行後の推定モデル５０は、楽曲の全体にわたり変更指示が反映されたＭ個の出力データＯ[1]～Ｏ[M]を生成できる。

図１２は、推定モデル更新処理Ｓcの具体的な手順を例示するフローチャートである。制御装置１１が推定モデル更新部２７として機能することで推定モデル更新処理Ｓcを実行する。

推定モデル更新処理Ｓcが開始されると、推定モデル更新部２７は、推定モデル５０に適応ブロック５５が既に追加されているか否かを判定する（Ｓc1）。推定モデル５０に適応ブロック５５が追加されていない場合（Ｓc1：NO）、推定モデル更新部２７は、推定モデル５０の第１部分５０aと第２部分５０bとの間に初期的な適応ブロック５５を新規に追加する（Ｓc2）。他方、過去の推定モデル更新処理Ｓcにおいて適応ブロック５５が追加済である場合（Ｓc1：YES）、適応ブロック５５の追加（Ｓc2）は実行されない。

適応ブロック５５が新規に追加された場合には、新規な適応ブロック５５を含む推定モデル５０が以下の処理により更新され、適応ブロック５５が追加済である場合には、既存の適応ブロック５５を含む推定モデル５０が以下の処理により更新される。すなわち、推定モデル更新部２７は、推定モデル５０に適応ブロック５５が追加された状態において、利用者からの変更指示による変更前および変更後の拍点の位置を適用した追加学習（Ｓc3およびＳc4）を実行することで、推定モデル５０の複数の変数を更新する。なお、２個以上の拍点について利用者が位置の変更を指示した場合、変更指示に係る各拍点について追加学習（Ｓc3およびＳc4）が実行される。

推定モデル更新部２７は、変更指示による変更前の拍点が位置する解析時点ｔ[m1]の特徴データＦ[m1]を利用して、推定モデル５０の複数の変数を更新する（Ｓc3）。具体的には、推定モデル更新部２７は、推定モデル５０に対する特徴データＦ[m1]の供給に並行してＭ個の中間データＤ[1]～Ｄ[M]の各々を適応ブロック５５に順次に供給し、特徴データＦ[m1]の中間データＤ[m1]に類似する各中間データＤ[m]から生成される出力データＯ[m]の確率Ｐ[m]が０に近付くように、推定モデル５０の複数の変数を更新する。したがって、推定モデル５０は、解析時点ｔ[m1]の特徴データＦ[m1]に類似する特徴データＦ[m]が入力された場合に、０に近い確率Ｐ[m]を表す出力データＯ[m]を生成するように訓練される。

また、推定モデル更新部２７は、変更指示による変更後の拍点が位置する解析時点ｔ[m2]の特徴データＦ[m2]を利用して、推定モデル５０の複数の変数を更新する（Ｓc4）。具体的には、推定モデル更新部２７は、推定モデル５０に対する特徴データＦ[m2]の供給に並行してＭ個の中間データＤ[1]～Ｄ[M]の各々を適応ブロック５５に順次に供給し、特徴データＦ[m2]の中間データＤ[m2]に類似する各中間データＤ[m]から生成される出力データＯ[m]の確率Ｐ[m]が１に近付くように、推定モデル５０の複数の変数を更新する。したがって、推定モデル５０は、解析時点ｔ[m2]の特徴データＦ[m2]に類似する特徴データＦ[m]が入力された場合に、１に近い確率Ｐ[m]を表す出力データＯ[m]を生成するように訓練される。

以上に例示した推定モデル更新処理Ｓcにより変更指示に応じて推定モデル５０が更新されるほか、第１実施形態においては、変更指示に応じた拘束条件のもとで拍点推定処理Ｓbが実行されることで、更新後の複数の拍点が推定される。

前述の通り、拍間隔δ内の５個の経過点Ｙ[0]～Ｙ[4]のうちの経過点Ｙ[0]は拍点に該当し、残余の４個の経過点Ｙ[1]～Ｙ[4]は拍点に該当しない。時間軸上の解析時点ｔ[m2]は、変更指示による変更後の拍点に該当する。そこで、推定処理部２３は、解析時点ｔ[m2]において相異なる状態Ｑに対応するＮ個の尤度λ[i,j]のうち、経過点Ｙ[0]以外の経過点Ｙ[j']（ｊ'＝１～４）に対応する尤度λ[i,j']を強制的に０に設定する。また、推定処理部２３は、解析時点ｔ[m2]にけるＮ個の尤度λ[i,j]のうち、経過点Ｙ[0]に対応する尤度λ[i,0]を、前述の方法で算定される数値に維持する。したがって、状態系列の生成（Ｓb3）においては、解析時点ｔ[m2]において経過点Ｙ[0]の状態Ｑを必ず通過する最尤経路が推定される。すなわち、解析時点ｔ[m2]は拍点に該当すると推定される。以上の説明から理解される通り、利用者からの変更指示による変更後の拍点の解析時点ｔ[m2]において経過点Ｙ[0]の状態Ｑが観測されるという拘束条件のもとで拍点推定処理Ｓbが実行される。

他方、時間軸上の解析時点ｔ[m1]は、変更指示による変更後の拍点に該当しない。そこで、推定処理部２３は、解析時点ｔ[m1]において相異なる状態Ｑに対応するＮ個の尤度λ[i,j]のうち、経過点Ｙ[0]に対応する尤度λ[i,0]を強制的に０に設定する。また、推定処理部２３は、解析時点ｔ[m1]にけるＮ個の尤度λ[i,j]のうち、経過点Ｙ[0]以外の経過点Ｙ[j']に対応する尤度λ[i,j']に対応する尤度λ[i,j']を、前述の方法で算定される有意な数値に維持する。したがって、状態系列の生成（Ｓb3）においては、解析時点ｔ[m1]において経過点Ｙ[0]の状態Ｑを通過しない最尤経路が推定される。すなわち、解析時点ｔ[m1]は拍点に該当しないと推定される。以上の説明から理解される通り、利用者からの変更指示による変更前の解析時点ｔ[m1]において経過点Ｙ[0]の状態Ｑが観測されないという拘束条件のもとで拍点推定処理Ｓbが実行される。

以上の通り、解析時点ｔ[m1]における経過点Ｙ[0]の尤度λ[i,0]が０に設定され、解析時点ｔ[m2]における経過点Ｙ[0]以外の経過点Ｙ[j']の尤度λ[i,j']が０に設定されることで、楽曲全体にわたる最尤経路が変化する。すなわち、利用者が変更を指示する拍点は楽曲内の一部の拍点に過ぎないにも関わらず、楽曲の全体にわたる複数の拍点に変更指示が反映される。

図１３は、制御装置１１が実行する処理の具体的な手順を例示するフローチャートである。例えば操作装置１４に対する利用者からの指示を契機として図１３の処理が開始される。処理が開始されると、制御装置１１は、音響信号Ａの解析により楽曲の複数の拍点を推定する処理（以下「初期解析処理」という）を実行する（Ｓ1）。

図１４は、初期解析処理の具体的な手順を例示するフローチャートである。初期解析処理が開始されると、制御装置１１（特徴抽出部２１）は、時間軸上のＭ個の解析時点ｔ[1]～ｔ[M]の各々について特徴データＦ[m]を生成する（Ｓ11）。特徴データＦ[m]は、前述の通り、解析時点ｔ[m]を含む単位期間Ｕ内の複数の特徴量ｆ[m]の時系列である。

制御装置１１（確率算定部２２）は、図６に例示した確率算定処理Ｓaを実行することで、相異なる解析時点ｔ[m]に対応するＭ個の出力データＯ[m]を生成する（Ｓ12）。また、制御装置１１（推定処理部２３）は、図９に例示した拍点推定処理Ｓbを実行することで、楽曲内の複数の拍点を推定する（Ｓ13）。

制御装置１１（表示制御部２４）は、拍点推定処理Ｓbにより推定された複数の拍点のうち１個以上の修正候補点を特定する（Ｓ14）。具体的には、直前または直後の拍点との拍間隔δが楽曲内の平均値から乖離する拍点、または、拍間隔δの時間長が前後の拍間隔でδと比較して顕著に相違する拍点が、修正候補点として特定される。また、複数の拍点のうち確率Ｐ[m]が所定値を下回る拍点が修正候補点として特定されてもよい。制御装置１１（表示制御部２４）は、図１０に例示した解析画面７０を表示装置１３に表示させる（Ｓ15）。

以上に例示した初期解析処理を実行すると、制御装置１１（指示受付部２６）は、図１３に例示される通り、楽曲内の複数の拍点のうち一部の拍点に関する変更指示を利用者から受付けるまで待機する（Ｓ2：NO）。変更指示を受付けると（Ｓ2：YES）、制御装置１１（推定モデル更新部２７および解析処理部２０）は、初期解析処理で推定された複数の拍点の位置を利用者からの変更指示に応じて更新する拍点更新処理を実行する（Ｓ3）。

図１５は、拍点更新処理の具体的な手順を例示するフローチャートである。制御装置１１（推定モデル更新部２７）は、図１２に例示した推定モデル更新処理Ｓcを実行することで、推定モデル５０の複数の変数を利用者からの変更指示に応じて更新する（Ｓ31）。

制御装置１１（確率算定部２２）は、推定モデル更新処理Ｓcによる更新後の推定モデル５０を利用して図６の確率算定処理Ｓaを実行することで、Ｍ個の出力データＯ[1]～Ｏ[M]を生成する（Ｓ32）。また、制御装置１１（解析処理部２０）は、Ｍ個の出力データＯ[1]～Ｑ[M]を利用した図９の拍点推定処理Ｓbを実行することで、拍点データＢを生成する（Ｓ33）。すなわち、楽曲内の複数の拍点が推定される。拍点更新処理内の拍点推定処理Ｓbは、変更指示に応じた前述の拘束条件のもとで実行される。

以上の説明から理解される通り、推定モデル５０を更新する推定モデル更新処理Ｓcと、更新後の推定モデル５０を利用した確率算定処理Ｓaと、当該確率算定処理Ｓaにより生成された出力データＯ[m]を利用した拍点推定処理Ｓbとにより、更新後の複数の拍点が推定される。すなわち、推定モデル更新部２７と確率算定部２２と解析処理部２０とにより、推定済の複数の拍点の位置を更新する要素（拍点更新部）が実現される。

制御装置１１（表示制御部２４）は、前述のステップＳ14と同様に、拍点推定処理Ｓbにより推定された複数の拍点のうち１個以上の修正候補点を特定する（Ｓ34）。制御装置１１（表示制御部２４）は、更新後の各拍点を表す拍画像７５１を含む図１０の解析画面７０を表示装置１３に表示させる（Ｓ35）。

以上に例示した拍点更新処理を実行すると、制御装置１１は、図１３に例示される通り、利用者から処理の終了が指示されたか否かを判定する（Ｓ4）。処理の終了が指示されない場合（Ｓ4：NO）、制御装置１１は、利用者による変更指示の待機（Ｓ2）に移行する。制御装置１１は、利用者による再度の変更指示を契機として拍点更新処理を実行する（Ｓ3）。第２回目以降の拍点更新処理の推定モデル更新処理Ｓc（Ｓ31）においては、適応ブロック５５の有無の判定（Ｓc1）の結果が肯定となるから、新規な適応ブロック５５の追加は実行されない。すなわち、第１回目の拍点更新処理において適応ブロック５５が追加された推定モデル５０が、以降における推定モデル更新処理Ｓcの実行毎に累積的に更新される。他方、処理の終了が指示された場合（Ｓ4：YES）、制御装置１１は図１３の処理を終了する。

以上に説明した通り、第１実施形態においては、音響信号Ａの解析により推定された複数の拍点のうち一部の拍点に関する利用者からの変更指示に応じて、当該一部の拍点以外の拍点を含む楽曲内の複数の拍点の位置が更新される。すなわち、楽曲の一部に対する変更指示が楽曲の全体に反映される。したがって、楽曲内の全部の拍点の各々について利用者が位置の変更を指示する必要がある構成と比較して、利用者が各拍点の位置の変更を指示する負荷を軽減しながら、利用者の意図に沿った拍点の時系列を取得できる。

推定モデル５０における第１部分５０aと第２部分５０bとの間に適応ブロック５５を追加した状態において、利用者からの変更指示による変更前および変更後の拍点の位置を適用した追加学習により推定モデル５０が更新される。したがって、利用者の意図または嗜好に沿った拍点を推定可能な状態に推定モデル５０を特化できる。

また、複数のテンポＸ[i]の何れかに対応する複数の状態Ｑで構成される状態遷移モデル６０を利用して複数の拍点が推定される。したがって、テンポＸ[i]が自然に遷移するように複数の拍点を推定できる。第１実施形態においては特に、状態遷移モデル６０の複数の状態Ｑが、複数のテンポＸ[i]の各々と拍間隔δ内の複数の経過点Ｙ[j]の各々との相異なる組合せに対応し、利用者からの変更指示による変更後の拍点の解析時点ｔ[m]において経過点Ｙ[0]に対応する状態Ｑが観測されるという拘束条件のもとで拍点推定処理Ｓbが実行される。したがって、利用者からの変更指示による変更後の時点を拍点として含む複数の拍点を推定できる。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用したのと同様の符号を流用して各々の詳細な説明を適宜に省略する。

図１６は、第２実施形態における音響解析システム１００の機能的な構成を例示するブロック図である。第２実施形態の制御装置１１は、第１実施形態と同様の要素（解析処理部２０，表示制御部２４，再生制御部２５，指示受付部２６および推定モデル更新部２７）に加えて曲線設定部２８として機能する。

第２実施形態の解析処理部２０は、楽曲内の複数の拍点の推定に加えて、当該楽曲のテンポＴ[m]の推定を実行する。すなわち、解析処理部２０は、音響信号Ａを解析することで、時間軸上の相異なる解析時点ｔ[m]に対応するＭ個のテンポＴ[1]～Ｔ[M]の時系列を推定する。

図１７は、第２実施形態における解析画面７０の模式図である。第２実施形態の解析画面７０は、第１実施形態と同様の要素に加えて、推定テンポ曲線ＣTと最大テンポ曲線ＣHと最小テンポ曲線ＣLとを含む。具体的には、解析画面７０の波形領域７３には、音響信号Ａの波形７３１と推定テンポ曲線ＣTと最大テンポ曲線ＣHと最小テンポ曲線ＣLとが、共通の時間軸のもとで表示される。なお、図１７においては、音響信号Ａにおける発音点７３２の表示が便宜的に省略されている。

図１８は、推定テンポ曲線ＣTと最大テンポ曲線ＣHと最小テンポ曲線ＣLとに着目した模式図である。推定テンポ曲線ＣTは、解析処理部２０が推定するテンポＴ[m]の時系列を表す曲線である。また、最大テンポ曲線ＣHは、解析処理部２０が推定するテンポＴ[m]の最大値（以下「最大テンポ」という）Ｈ[m]の時間変化を表す曲線である。すなわち、最大テンポ曲線ＣHは、時間軸上の相異なる解析時点ｔ[m]に対応するＭ個の最大テンポＨ[1]～Ｈ[M]の時系列を表す。最小テンポ曲線ＣLは、解析処理部２０が推定するテンポＴ[m]の最小値（以下「最小テンポ」という）Ｌ[m]の時間変化を表す曲線である。すなわち、最小テンポ曲線ＣLは、時間軸上の相異なる解析時点ｔ[m]に対応するＭ個の最小テンポＬ[1]～Ｌ[M]の時系列を表す。

以上の説明から理解される通り、解析処理部２０は、各解析時点ｔ[m]について、最大テンポＨ[m]と最小テンポＬ[m]との間の範囲（以下「制限範囲」という）Ｒ[m]内において楽曲のテンポＴ[m]を推定する。したがって、推定テンポ曲線ＣTは、最大テンポ曲線ＣHと最小テンポ曲線ＣLとの間に位置する。制限範囲Ｒ[m]の位置および範囲幅は経時的に変化する。

図１６の曲線設定部２８は、最大テンポ曲線ＣHと最小テンポ曲線ＣLとを設定する。例えば、利用者は、操作装置１４を操作することで、所望の形状の最大テンポ曲線ＣHと所望の形状の最小テンポ曲線ＣLとを指示できる。曲線設定部２８は、解析画面７０（波形領域７３）に対する利用者からの指示に応じて最大テンポ曲線ＣHおよび最小テンポ曲線ＣLを設定する。例えば、曲線設定部２８は、波形領域７３内に利用者が指定した複数の地点を時系列に通過する連続的な曲線を最大テンポ曲線ＣHまたは最小テンポ曲線として設定する。また、利用者は、操作装置１４を操作することで、設定済の最大テンポ曲線ＣHおよび最小テンポ曲線ＣLの変更を波形領域７３に対して指示できる。曲線設定部２８は、最大テンポ曲線ＣHと最小テンポ曲線ＣLとを、解析画像（波形領域７３）に対する利用者からの指示に応じて変更する。以上の説明から理解される通り、第２実施形態によれば、利用者は、解析画面７０を確認しながら最大テンポ曲線ＣHと最小テンポ曲線ＣLとを容易に変更できる。

第２実施形態においては、音響信号Ａの波形７３１と、最大テンポ曲線ＣHおよび最小テンポ曲線ＣLとが共通の時間軸のもとで表示されるから、最大テンポＨ[m]または最小テンポＬ[m]の時間変化と音響信号Ａの波形７３１との関係を利用者が視覚的に把握し易い。また、最大テンポ曲線ＣHおよび最小テンポ曲線ＣLとともに推定テンポ曲線ＣTが表示されるから、最大テンポ曲線ＣHと最小テンポ曲線ＣLとの間で推定された楽曲のテンポＴ[m]の時間変化を利用者が視覚的に把握できる。

図１９は、第２実施形態における拍点推定処理Ｓbの具体的な手順を例示するフローチャートである。各解析時点ｔ[m]の観測尤度Λ[m]を第１実施形態と同様に設定すると（Ｓb1）、推定処理部２３は、状態遷移モデル６０の各状態Ｑ[i,j]について、経路ｐ[i,j]と尤度λ[i,j]とを解析時点ｔ[m]毎に算定する（Ｓb2）。第２実施形態の推定処理部２３は、各解析時点ｔ[m]について、複数のテンポＸ[i]のうち最大テンポＨ[m]を上回る各テンポＸ[i]に対応する尤度λ[i,j]と、最小テンポＬ[m]を下回る各テンポＸ[i]に対応する尤度λ[i,j]とを０に設定する。すなわち、状態遷移モデル６０のＮ個の状態Ｑのうち、制限範囲Ｒ[m]の外側のテンポＸ[i]に対応する状態Ｑは無効状態に設定される。また、推定処理部２３は、各解析時点ｔ[m]について、制限範囲Ｒ[m]の内側の各テンポＸ[i]に対応する尤度λ[i,j]を、第１実施形態と同様に有意な数値に設定する。すなわち、状態遷移モデル６０のＮ個の状態Ｑのうち、制限範囲Ｒ[m]の内側のテンポＸ[i]に対応する状態Ｑは有効状態に設定される。

推定処理部２３は、第１実施形態と同様の方法により状態系列を生成する（Ｓb3）。すなわち、Ｎ個の状態Ｑのうち尤度λ[i,j]が大きい状態Ｑを解析時点ｔ[m]毎に配列した系列が、状態系列として生成される。前述の通り、解析時点ｔ[m]において制限範囲Ｒ[m]の外側のテンポＸ[i]に対応する状態Ｑ[i,j]の尤度λ[i,j]は０に設定される。したがって、制限範囲Ｒ[m]の外側のテンポＸ[i]に対応する状態Ｑは、状態系列の要素として選択されない。以上の説明から理解される通り、各状態Ｑの無効状態は、当該状態Ｑが選択されない状態を意味する。

推定処理部２３は、第１実施形態と同様に拍点データＢを生成し（Ｓb4）、各解析時点ｔ[m]のテンポＴ[m]を状態系列から特定する（Ｓb5）。すなわち、状態系列のうち解析時点ｔ[m]に対応する状態ＱのテンポＸ[i]がテンポＴ[m]として設定される。前述の通り、制限範囲Ｒ[m]の外側のテンポＸ[i]に対応する状態Ｑは状態系列の要素として選択されないから、テンポＴ[m]は、制限範囲Ｒ[m]の内側の数値に制限される。

以上に説明した通り、第２実施形態においては、最大テンポ曲線ＣHと最小テンポ曲線ＣLとが利用者からの指示に応じて設定される。そして、最大テンポ曲線ＣHが表す最大テンポＨ[m]と最小テンポ曲線ＣLが表す最小テンポＬ[m]との間の制限範囲Ｒ[m]内において楽曲のテンポＴ[m]が推定される。したがって、利用者が意図したテンポから過度に乖離したテンポ（例えば利用者が想定した数値の２倍または１/２倍のテンポ）が推定される可能性が低減される。すなわち、音響信号Ａが表す楽曲のテンポＴ[m]を高精度に推定できる。

また、第２実施形態においては、複数のテンポＸ[i]の何れかに対応する複数の状態Ｑで構成される状態遷移モデル６０が、複数の拍点の推定に利用される。したがって、経時的に自然に遷移するテンポＴ[m]が推定される。しかも、複数の状態Ｑのうち制限範囲Ｒ[m]の外側のテンポＸ[i]に対応する状態Ｑを無効状態に設定する簡便な処理により、制限範囲Ｒ[m]内に制限されたテンポＴ[m]を推定できる。

Ｃ：第３実施形態
第１実施形態においては、確率算定部２２が推定モデル５０により算定した確率Ｐ[m]を表す出力データＯ[m]が推定処理部２３による拍点推定処理Ｓbに適用される形態を例示した。第３実施形態においては、推定モデル５０により算定される確率Ｐ[m]（以下「確率Ｐ1[m]」という）が操作装置１４に対する利用者からの操作に応じて調整され、調整後の確率Ｐ2[m]を表す出力データＯ[m]が拍点推定処理Ｓbに適用される。

図２０は、第３実施形態の確率算定部２２が出力データＯ[m]を生成する処理の説明図である。再生制御部２５が放音装置１５に再生させる楽曲の演奏音を聴取しながら、利用者は、自身が拍点と認識する各時点において操作装置１４を操作する。例えば、利用者は、楽曲の再生に並行して、自身が認識する拍点の時点において操作装置１４のタッチパネルに対してタップ操作を付与する。図２０には、利用者が操作した時点（以下「操作時点」という）τが時間軸上に図示されている。

確率算定部２２は、操作時点τ毎に単位分布Ｗを設定する。単位分布Ｗは、時間軸上における加重値ｗ[m]の分布である。例えば分散が所定値に設定された正規分布等の確率分布が単位分布Ｗとして利用される。各単位分布Ｗにおいては、操作時点τにおいて加重値ｗ[m]が最大となり、操作時点τから離間するほど加重値ｗ[m]が減少する。

確率算定部２２は、推定モデル５０が当該解析時点ｔ[m]について生成した確率Ｐ1[m]と、当該解析時点ｔ[m]における加重値ｗ[m]とを乗算することで、調整後の確率Ｐ2[m]を算定する。したがって、推定モデル５０が生成した確率Ｐ1[m]が小さい解析時点ｔ[m]でも、当該解析時点ｔ[m]が操作時点τに近い場合には、調整後の確率Ｐ2[m]は大きい数値に設定される。確率算定部２２は、調整後の確率Ｐ2[m]を表す出力データＯ[m]を推定処理部２３に供給する。推定処理部２３が出力データＯ[m]を利用して複数の拍点を推定する拍点推定処理Ｓbの手順は第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、利用者による操作時点τに設定された単位分布Ｗの加重値ｗ[m]が確率Ｐ1[m]に乗算されるから、利用者の意図または嗜好を充分に反映した拍点を推定できるという利点がある。なお、第２実施形態の構成は第３実施形態にも同様に適用される。

Ｄ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）推定モデル５０の構成は、図４の例示に限定されない。例えば、推定モデル５０が再帰型ニューラルネットワークを含む形態も想定される。また、長短期記憶（ＬＳＴＭ：Long Short-Term Memory）等の付加的な要素が推定モデル５０に搭載されてもよい。複数種の深層ニューラルネットワークの組合せにより推定モデル５０が構成されてもよい。

（２）音響信号Ａの解析により楽曲内の複数の拍点を推定する処理の具体的な手順は、前述の各形態における例示に限定されない。例えば、解析処理部２０は、出力データＯ[m]が表す確率Ｐ[m]が極大となる解析時点ｔ[m]を拍点として推定してもよい。すなわち、状態遷移モデル６０の利用は省略される。また、例えば音響信号Ａの音量等の特徴量ｆ[m]が顕著に増加する時点を、解析処理部２０が拍点として推定してもよい。すなわち、推定モデル５０の利用は省略される。

（３）初期解析処理により推定された複数の拍点を更新する第１実施形態の構成は、第２実施形態において省略されてもよい。すなわち、推定済の複数の拍点のうち一部の拍点に対する変更指示に応じて楽曲全体にわたる複数の拍点を更新する第１実施形態の構成と、利用者からの指示に応じた制限範囲Ｒ[m]内において楽曲のテンポＴ[m]を推定する第２実施形態の構成とは、相互に独立に成立し得る。

（４）例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により音響解析システム１００を実現してもよい。例えば、音響解析システム１００は、情報装置から受信した音響信号Ａの解析により拍点データＢを生成し、当該拍点データＢを情報装置に送信する。利用者による変更指示の受付（Ｓ2）および拍点更新処理（Ｓ3）も同様に、情報装置と通信する音響解析システム１００が実行する。

（５）以上に例示した音響解析システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置１２が、前述の非一過性の記録媒体に相当する。

Ｅ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る音響解析方法は、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定し、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する。以上の態様においては、最大テンポ曲線と最小テンポ曲線とが利用者からの指示に応じて設定され、最大テンポ曲線が表す最大値と最小テンポ曲線が表す最小値との間の制限範囲内において楽曲のテンポが推定される。したがって、利用者が想定したテンポから過度に乖離したテンポ（例えば２倍または１/２倍のテンポ）が推定される可能性が低減される。すなわち、音響信号が表す楽曲のテンポを高精度に推定できる。

態様１の具体例（態様２）において、前記最大テンポ曲線と前記最小テンポ曲線とを含む解析画面を表示装置に表示させ、前記最大テンポ曲線および前記最小テンポ曲線の設定においては、前記解析画面に対する前記利用者からの指示に応じて前記最大テンポ曲線および前記最小テンポ曲線を変更する。以上の態様においては、利用者は、解析画面を視認しながら最大テンポ曲線と最小テンポ曲線とを容易に変更できる。

態様２の具体例（態様３）において、前記解析画面は、前記音響信号の波形と、前記最大テンポ曲線および前記最小テンポ曲線とが、共通の時間軸のもとで配置された画像である。以上の態様によれば、最大テンポ曲線が表すテンポの最大値の時間変化または最小テンポ曲線が表すテンポの最小値の時間変化と、音響信号の波形との時間的な関係を、利用者が視覚的に把握し易いという利点がある。

態様２または態様３の具体例（態様４）において、前記解析画面は、前記音響信号の解析により推定されたテンポの時間変化を表す推定テンポ曲線を含む。以上の態様によれば、最大テンポ曲線と最小テンポ曲線との間で推定された楽曲のテンポの時間変化を利用者が視覚的に把握できる。

態様１から態様４の何れかの具体例（態様５）において、前記テンポの推定においては、複数のテンポの何れかに対応する複数の状態で構成される状態遷移モデルを利用して前記楽曲のテンポを推定し、前記複数の状態のうち前記制限範囲の外側のテンポに対応する状態を無効状態に設定する。以上の態様によれば、複数のテンポの何れかに対応する複数の状態で構成される状態遷移モデルを利用して複数の拍点が推定される。したがって、経時的に自然に遷移するテンポが推定される。また、複数の状態のうち制限範囲の外側のテンポに対応する状態を無効状態に設定する簡便な処理により、制限範囲内に制限されたテンポを推定できる。

本開示のひとつの態様（態様６）に係る音響解析システムは、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部と、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部とを具備する。

本開示のひとつの態様（態様７）に係るプログラムは、テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部、および、楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部、としてコンピュータシステムを機能させる。

なお、本明細書における「テンポ」は、演奏速度を表す任意の数値であり、単位時間内の拍数（ＢＰＭ：Beats Per Minute）という意味の狭義のテンポには限定されない。

１００…音響解析システム、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…放音装置、２０…解析処理部、２１…特徴抽出部、２２…確率算定部、２３…推定処理部、２４…表示制御部、２５…再生制御部、２６…指示受付部、２７…推定モデル更新部、２８…曲線設定部、５０…推定モデル、５０a…第１部分、５０b…第２部分、５１…入力層、５２（５２a，５２b）…中間層、５３…出力層、５５…適応ブロック、５９…暫定モデル、６０…状態遷移モデル。

Claims

テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定し、
楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する
コンピュータシステムにより実現される音響解析方法。
前記最大テンポ曲線と前記最小テンポ曲線とを含む解析画面を表示装置に表示させ、
前記最大テンポ曲線および前記最小テンポ曲線の設定においては、前記解析画面に対する前記利用者からの指示に応じて前記最大テンポ曲線および前記最小テンポ曲線を変更する
請求項１の音響解析方法。
前記解析画面は、
前記音響信号の波形と、前記最大テンポ曲線および前記最小テンポ曲線とが、共通の時間軸のもとで配置された画像である
請求項２の音響解析方法。
前記解析画面は、前記音響信号の解析により推定されたテンポの時間変化を表す推定テンポ曲線を含む
請求項２または請求項３の何れかの音響解析方法。
前記テンポの推定においては、複数のテンポの何れかに対応する複数の状態で構成される状態遷移モデルを利用して前記楽曲のテンポを推定し、前記複数の状態のうち前記制限範囲の外側のテンポに対応する状態を無効状態に設定する
請求項１から請求項４の何れかの音響解析方法。
テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部と、
楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部と
を具備する音響解析システム。
テンポの最大値の時間変化を表す最大テンポ曲線と、テンポの最小値の時間変化を表す最小テンポ曲線とを、利用者からの指示に応じて設定する曲線設定部、および、
楽曲の演奏音を表す音響信号を解析することで、前記最大テンポ曲線が表す最大値と前記最小テンポ曲線が表す最小値との間の制限範囲内において前記楽曲のテンポを推定する解析処理部
としてコンピュータシステムを機能させるプログラム。