JP2018063296A

JP2018063296A - 音響解析方法および音響解析装置

Info

Publication number: JP2018063296A
Application number: JP2016200131A
Authority: JP
Inventors: 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2018-04-19
Anticipated expiration: 2036-10-11
Also published as: JP6733487B2

Abstract

【課題】自動演奏を実演奏に同期させる場合に想定される種々の課題を解決する。【解決手段】コンピュータシステムが、音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定し、複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、当該音符について算定した類似指標と、楽曲内における当該音符の音量を示す係数との積を合計することで、観測スペクトルが当該時点で観測される尤度を算定する。【選択図】図１

Description

本発明は、音響信号を解析する技術に関する。

楽曲の演奏により発音された音を表す音響信号を解析することで、楽曲内で実際に発音されている位置（以下「発音位置」という）を推定するスコアアライメント技術が従来から提案されている。例えば特許文献１には、楽曲内の各時点が実際の発音位置に該当する尤度（観測尤度）を音響信号の解析により算定し、隠れセミマルコフモデル（ＨＳＭＭ：Hidden Semi Markov Model）を利用した尤度の更新により発音位置の事後確率を算定する構成が開示されている。

特開２０１５−７９１８３号公報

しかし、特許文献１の技術では、尤度の算定に必要な演算量が大きいという問題がある。尤度の演算量の問題は、楽曲が長いほど深刻化する。以上の事情を考慮して、本発明は、発音位置の尤度の算定に必要な演算量を削減することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音響解析方法は、コンピュータシステムが、音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定し、前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する。
本発明の好適な態様に係る音響解析装置は、音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定する指標算定部と、前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、前記指標算定部が当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する尤度算定部とを具備する。

本発明の好適な形態に係る自動演奏システムの構成図である。参照データが表す対象楽曲の模式図である。音響データの説明図である。音響解析部の構成図である。発音位置推定のフローチャートである。

図１は、本発明の好適な形態に係る自動演奏システム１００の構成図である。自動演奏システム１００は、演奏者Ｐが楽器を演奏する音響ホール等の空間に設置され、演奏者Ｐによる楽曲（以下「対象楽曲」という）の演奏に並行して対象楽曲の自動演奏を実行するコンピュータシステムである。なお、演奏者Ｐは、典型的には楽器の演奏者であるが、対象楽曲の歌唱者も演奏者Ｐであり得る。

図１に例示される通り、本実施形態の自動演奏システム１００は、音響解析装置１０と演奏装置１２と収音装置１４とを具備する。音響解析装置１０は、自動演奏システム１００の各要素を制御するコンピュータシステムであり、例えばパーソナルコンピュータ等の情報処理装置で実現される。収音装置１４は、演奏者Ｐによる演奏で発音された音（例えば楽器音または歌唱音）を収音した音響信号Ａを生成する。音響信号Ａは、音の波形を表す信号である。なお、電気弦楽器等の電気楽器から出力される音響信号Ａを利用することも可能である。したがって、収音装置１４は省略され得る。なお、複数の収音装置１４が生成する信号を加算することで音響信号Ａを生成することも可能である。

演奏装置１２は、音響解析装置１０による制御のもとで対象楽曲の自動演奏を実行する。本実施形態の演奏装置１２は、対象楽曲を構成する複数のパートのうち、演奏者Ｐが演奏するパート以外のパートについて自動演奏を実行する。例えば、対象楽曲の主旋律のパートが演奏者Ｐにより演奏され、対象楽曲の伴奏のパートの自動演奏を演奏装置１２が実行する。

図１に例示される通り、本実施形態の演奏装置１２は、駆動機構１２２と発音機構１２４とを具備する自動演奏楽器（例えば自動演奏ピアノ）である。発音機構１２４は、自然楽器の鍵盤楽器と同様に、鍵盤の各鍵の変位に連動して弦（発音体）を発音させる打弦機構を鍵毎に具備する。任意の１個の鍵に対応する打弦機構は、弦を打撃可能なハンマと、当該鍵の変位をハンマに伝達する複数の伝達部材（例えばウィペン，ジャック，レペティションレバー）とを具備する。駆動機構１２２は、発音機構１２４を駆動することで対象楽曲の自動演奏を実行する。具体的には、駆動機構１２２は、各鍵を変位させる複数の駆動体（例えばソレノイド等のアクチュエータ）と、各駆動体を駆動する駆動回路とを含んで構成される。音響解析装置１０からの指示に応じて駆動機構１２２が発音機構１２４を駆動することで対象楽曲の自動演奏が実現される。なお、音響解析装置１０を演奏装置１２に搭載することも可能である。

図１に例示される通り、音響解析装置１０は、制御装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。制御装置２２は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、自動演奏システム１００を構成する複数の要素（演奏装置１２および収音装置１４）を統括的に制御する。記憶装置２４は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置２２が実行するプログラムと制御装置２２が使用する各種のデータとを記憶する。なお、自動演奏システム１００とは別体の記憶装置２４（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置２２が記憶装置２４に対する書込および読出を実行することも可能である。すなわち、記憶装置２４は自動演奏システム１００から省略され得る。

本実施形態の記憶装置２４は、楽曲データＭと音響データＱとを記憶する。楽曲データＭは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）であり、対象楽曲の演奏内容を指定する。図１に例示される通り、本実施形態の楽曲データＭは、参照データＲと演奏データＤとを包含する。

参照データＲは、対象楽曲のうち演奏者Ｐが演奏を担当するパートの演奏内容（例えば対象楽曲の主旋律のパートを構成する音符列）を指定する。演奏データＤは、対象楽曲のうち演奏装置１２が自動演奏するパートの演奏内容（例えば対象楽曲の伴奏のパートを構成する音符列）を指定する。参照データＲおよび演奏データＤの各々は、演奏動作（発音／消音）を指定する指示データと、当該指示データの発生時点を指定する時間データとが時系列に配列された時系列データである。指示データは、例えば音高（ノートナンバ）と音量（ベロシティ）とを指定して発音および消音等の各種のイベントを指示する。他方、時間データは、例えば相前後する指示データの間隔を指定する。

図２は、対象楽曲の参照データＲで指定される演奏内容の模式図である。図２に例示される通り、演奏者Ｐが演奏し得る複数（Ｎ個）の音符の各々について、対象楽曲内の複数の時点ｔの各々における音量を表す係数（以下「音量係数」という）ｖ(t,n)が、参照データＲにより指定される（ｎ＝１〜Ｎ）。任意の１個の音量係数ｖ(t,n)は、時間軸上の任意の１個の時点ｔ（例えば対象楽曲の先頭を起点としたＭＩＤＩのティック数）における第ｎ番目の音符の音量（例えばＭＩＤＩ規格で規定されたベロシティ）を意味する。具体的には、音量係数ｖ(t,n)は、第ｎ番目の音符が時点ｔで発音される場合には当該発音の音量に応じた数値に設定され、第ｎ番目の音符が時点ｔで発音されない場合にはゼロに設定される。以上の説明から理解される通り、図２において時間軸上に配列する複数の音量係数ｖ(t,n)（ｖ(1,n)，ｖ(2,n)，……，ｖ(t,n)，……）は、第ｎ番目の音符が演奏されるべき模範的な音量の時間変化である。

図３は、以上に例示した楽曲データＭとともに記憶装置に記憶される音響データＱの説明図である。図３に例示される通り、音響データＱは、演奏者Ｐが演奏し得るＮ個の音符の各々について周波数スペクトル（以下「基底スペクトル」という）Ｈ(n)（Ｈ(1)〜Ｈ(N)）を指定する。第ｎ番目の音符に対応する基底スペクトルＨ(n)は、当該音符の演奏時に発音される音の強度スペクトル（振幅スペクトルまたはパワースペクトル）である。参照データＲが演奏内容を指定するパートの楽器を使用してＮ個の音符の各々を発音し、各音符の発音時に観測された音の周波数特性を解析することで、相異なる音符に対応するＮ個の基底スペクトルＨ(1)〜Ｈ(N)が事前に生成される。

第ｎ番目の音符に対応する任意の１個の基底スペクトルＨ(n)は、周波数軸上の相異なる周波数に対応するＦ個の強度ｈ(n,1)〜ｈ(n,F)の系列で表現される（Ｆは２以上の自然数）。すなわち、任意の１個の強度ｈ(n,f)（ｆ＝１〜Ｆ）は、第ｎ番目の音符の基底スペクトルＨ(n)のうち第ｆ番目の周波数における強度（例えば振幅またはパワー）を意味する。以上の説明から理解される通り、基底スペクトルＨ(n)は、相異なる周波数に対応するＦ個の強度ｈ(n,1)〜ｈ(n,F)を要素とするＦ次元の基底ベクトルである。

制御装置２２は、記憶装置２４に記憶されたプログラムを実行することで、対象楽曲の自動演奏を実現するための複数の機能（音響解析部３２および演奏制御部３４）を実現する。なお、制御装置２２の機能を複数の装置の集合（すなわちシステム）で実現した構成、または、制御装置２２の機能の一部または全部を専用の電子回路が実現した構成も採用され得る。また、収音装置１４と演奏装置１２とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置２２の一部または全部の機能を実現することも可能である。

音響解析部３２は、対象楽曲のうち演奏者Ｐによる演奏で実際に発音されている位置（以下「発音位置」という）Ｙを推定する。具体的には、音響解析部３２は、収音装置１４が生成する音響信号Ａを解析することで発音位置Ｙを推定する。本実施形態の音響解析部３２は、収音装置１４が生成する音響信号Ａと楽曲データＭ内の参照データＲが示す演奏内容（すなわち複数の演奏者Ｐが担当する主旋律のパートの演奏内容）とを相互に照合することで発音位置Ｙを推定する。音響解析部３２による発音位置Ｙの推定は、演奏者Ｐによる演奏に並行して実時間的に順次に実行される。例えば、発音位置Ｙの推定は所定の周期で反復される。

演奏制御部３４は、楽曲データＭ内の演奏データＤに応じた自動演奏を演奏装置１２に実行させる。本実施形態の演奏制御部３４は、音響解析部３２が推定する発音位置Ｙの進行（時間軸上の移動）に同期するように演奏装置１２に自動演奏を実行させる。具体的には、演奏制御部３４は、対象楽曲のうち発音位置Ｙに対応する時点について演奏データＤが指定する演奏内容を演奏装置１２に対して指示する。すなわち、演奏制御部３４は、演奏データＤに含まれる各指示データを演奏装置１２に対して順次に供給するシーケンサとして機能する。

演奏装置１２は、演奏制御部３４からの指示に応じて対象楽曲の自動演奏を実行する。演奏者Ｐによる演奏の進行とともに発音位置Ｙは対象楽曲内の後方に経時的に移動するから、演奏装置１２による対象楽曲の自動演奏も発音位置Ｙの移動とともに進行する。すなわち、演奏者Ｐによる演奏と同等のテンポで演奏装置１２による対象楽曲の自動演奏が実行される。以上の説明から理解される通り、対象楽曲の各音符の強度またはフレーズ表現等の音楽表現を演奏データＤで指定された内容に維持したまま自動演奏が演奏者Ｐによる演奏に同期するように、演奏制御部３４は演奏装置１２に自動演奏を指示する。したがって、例えば現在では生存していない過去の演奏者等の特定の演奏者の演奏を表す演奏データＤを使用すれば、その演奏者に特有の音楽表現を自動演奏で忠実に再現しながら、当該演奏者と実在の複数の演奏者Ｐとが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。

なお、演奏制御部３４が演奏データＤ内の指示データの出力により演奏装置１２に自動演奏を指示してから演奏装置１２が実際に発音する（例えば発音機構１２４のハンマが打弦する）までには、実際には数百ミリ秒程度の時間が必要である。すなわち、演奏装置１２による実際の発音は演奏制御部３４からの指示に対して遅延し得る。そこで、演奏制御部３４が、対象楽曲のうち音響解析部３２が推定した発音位置Ｙに対して後方（未来）の時点の演奏を演奏装置１２に指示することも可能である。

図４は、音響解析部３２の具体的な構成を例示する構成図である。図４に例示される通り、本実施形態の音響解析部３２は、周波数解析部４２と演算処理部４４と確率算定部４６と位置特定部４８とを具備する。周波数解析部４２は、収音装置１４から供給される音響信号Ａの周波数スペクトル（以下「観測スペクトル」という）Ｘを時間軸上の単位区間（フレーム）毎に順次に生成する。観測スペクトルＸは、周波数軸上の相異なる周波数に対応するＦ個の強度ｘ(1)〜ｘ(F)の系列で表現される。周波数解析部４２による観測スペクトルＸの生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。演算処理部４４は、周波数解析部４２が生成する観測スペクトルＸが対象楽曲内の時点ｔにて観測される尤度（観測尤度）Ｌ(t)を算定する。

確率算定部４６は、観測スペクトルＸが観測された条件のもとで当該観測スペクトルの発音時点が対象楽曲内の時点ｔである事後確率の確率分布（事後分布）を、演算処理部４４が算定した尤度Ｌ(t)から算定する。確率算定部４６による事後分布の算定には、例えば特許文献１に開示される通り、隠れセミマルコフモデル（ＨＳＭＭ）を利用したベイズ推定等の公知の統計処理が好適に利用される。位置特定部４８は、確率算定部４６が算定した事後分布から観測スペクトルＸの発音位置Ｙを特定する。事後分布を利用した発音位置Ｙの特定には、例えばＭＡＰ（Maximum A Posteriori）推定等の公知の統計処理が任意に採用され得る。

図４に例示される通り、本実施形態の演算処理部４４は、指標算定部５２と尤度算定部５４とを含んで構成される。指標算定部５２は、記憶装置２４に記憶された音響データＱが表す基底スペクトルＨ(n)と、周波数解析部４２が生成した観測スペクトルＸとの類似の度合を示す指標（以下「類似指標」という）α(n)を、Ｎ個の音符の各々について算定する。例えば、指標算定部５２は、第ｎ番目の音符の類似指標α(n)を以下の数式(1)の演算により算定する。

数式(1)から理解される通り、類似指標α(n)は、基底スペクトルＨ(n)と観測スペクトルＸとの内積（コサイン距離）に相当する。具体的には、指標算定部５２は、観測スペクトルＸの各周波数における強度ｘ(f)と、基底スペクトルＨ(n)の当該周波数における強度ｈ(n,f)との積ｘ(f)ｈ(n,f)を周波数軸上のＦ個の周波数について合計することで、第ｎ番目の音符の類似指標α(n)を算定する。したがって、基底スペクトルＨ(n)と観測スペクトルＸとが相互に近似するほど類似指標α(n)は大きい数値となる。指標算定部５２による類似指標α(n)の算定は、周波数解析部４２による観測スペクトルＸの生成毎に算定される。すなわち、時間軸上の単位区間毎にＮ個の類似指標α(1)〜α(N)が算定される。

図４の尤度算定部５４は、指標算定部５２が１個の単位区間について算定した類似指標α(n)と、記憶装置２４に記憶された参照データＲが示す複数の音量係数ｖ(t,n)とを利用して尤度Ｌ(t)を算定する。尤度Ｌ(t)は、前述の通り、観測スペクトルＸが対象楽曲内の時点ｔにおいて観測される確度の指標である。対象楽曲内の時間軸上の時点ｔ毎に尤度Ｌ(t)が算定される。具体的には、尤度算定部５４は、以下の数式(2)の演算により尤度Ｌ(t)を算定する。なお、数式(2)の記号Ｚ(t)は、全部の時点ｔにわたる尤度Ｌ(t)の合計値が所定値（典型的には１）となるように尤度Ｌ(t)の数値を正規化する係数である。

数式(2)から理解される通り、Ｎ個の音符のうち対象楽曲内の任意の時点ｔにおいて発音されるＮ(t)個の音符について、Ｎ(t)個のうちの１個の音符の音量を示す音量係数ｖ(t,n)と当該音符について算定された類似指標α(n)との積を合計することで、尤度算定部５４は尤度Ｌ(t)を算定する。尤度Ｌ(t)の算定に加味されるＮ(t)個の音符は、対象楽曲内の時点ｔで発音される１個の音符、または、当該時点ｔで相互に並列に発音される複数の音符（すなわち和音）であり、対象楽曲の参照データＲから特定される。すなわち、時点ｔでの音符の個数Ｎ(t)は、対象楽曲の内容に応じて時点ｔ毎に変動し得る可変値である。以上の説明から理解される通り、Ｎ個の音符のうち時点ｔで発音されない(Ｎ−Ｎ(t))個の音符は、尤度Ｌ(t)の算定に加味されない。すなわち、数式(2)における音量係数ｖ(t,n)と類似指標α(n)との乗算は、対象楽曲内の１個の時点ｔについてＮ(t)回だけ実行される。なお、実際には尤度Ｌ(t)は対数値（対数尤度）として算定されるが、以上の説明では対数演算を便宜的に省略した。演算処理部４４による尤度Ｌ(t)の算定の具体例は以上の通りである。

図５は、音響解析部３２が発音位置Ｙを推定する処理（以下「発音位置推定」という）のフローチャートである。演奏装置１２による自動演奏の開始が利用者から指示された場合に図５の発音位置推定が開始される。

発音位置推定を開始すると、周波数解析部４２は、音響信号Ａの１個の単位区間について観測スペクトルＸを生成する（Ｓ1）。指標算定部５２は、前述の数式(1)の通り、音響データＱが表す基底スペクトルＨ(n)と音響信号Ａの観測スペクトルＸとの間の類似指標α(n)をＮ個の音符の各々について算定する（Ｓ2）。尤度算定部５４は、Ｎ個の音符のうち時点ｔで発音されるＮ(t)個の音符について音量係数ｖ(t,n)と類似指標α(n)との積を合計する前述の数式(2)の演算により尤度Ｌ(t)を算定する（Ｓ3）。

確率算定部４６は、観測スペクトルＸが対象楽曲内の時点ｔで発音された事後確率の確率分布（事後分布）を尤度Ｌ(t)から算定する（Ｓ4）。そして、位置特定部４８は、確率算定部４６が算定した事後分布から観測スペクトルＸの発音位置Ｙを推定する（Ｓ5）。発音位置推定の手順の具体例は以上の通りである。

ところで、対象楽曲内の時点ｔにて観測スペクトルＸが観測される尤度Ｌ(t)を算定する方法としては、例えば以下の数式(3)で表現される方法（以下「対比例」という）も想定される。

数式(3)から理解される通り、対比例では、まず、各音符の音量係数ｖ(t,n)と当該音符の基底スペクトルＨ(n)の周波数毎の強度ｈ(n,f)との積がＮ個の音符について合計される。そして、合計値Σ(ｖ(t,n)ｈ(n,f))と観測スペクトルＸの強度ｘ(f)との積をＦ個の周波数にわたり合計することで、時点ｔの尤度Ｌ(t)が算定される。すなわち、対比例では、対象楽曲の１個の時点ｔについて、合計値Σ(ｖ(t,n)ｈ(n,f))と強度ｘ(f)との乗算をＦ回にわたり反復する必要がある。

他方、本実施形態では、前述の通り、対象楽曲内の時点ｔにて発音されるＮ(t)個の音符について類似指標α(n)と音量係数ｖ(t,n)との積を合計することで観測スペクトルＸの尤度Ｌ(t)が算定される。ここで、対象楽曲内の時点ｔで発音される音符は、発音可能な全部（Ｎ個）の音符のうちの一部に相当するＮ(t)個（Ｎ(t)＜Ｎ）である。現実の楽曲では、相異なる音符に対応するＮ個の音量係数ｖ(t,1)〜ｖ(t,N)のなかの多数は、非発音を意味するゼロであると想定されるから、個数Ｎ(t)は音符の総数Ｎと比較して充分に小さい。したがって、本実施形態によれば、対象楽曲が長い場合でも、対比例と比較して尤度Ｌ(t)の算定に必要な演算量を削減することが可能である。

＜変形例＞
以上に例示した態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の実施形態では、観測スペクトルＸの強度ｘ(f)と基底スペクトルＨ(n)の強度ｈ(n,f)との積ｘ(f)ｈ(n,f)をＦ個の周波数について合計することで類似指標α(n)を算定したが、類似指標α(n)の算定の方法は以上の例示に限定されない。例えば、観測スペクトルＸと基底スペクトルＨ(n)との距離（例えばユークリッド距離）の逆数を類似指標α(n)として算定することも可能である。以上の例示から理解される通り、類似指標α(n)は、基底スペクトルＨ(n)と観測スペクトルＸとの類似の度合を示す指標として包括的に表現され、具体的な算定方法の如何は不問である。

（２）前述の実施形態では、音響解析部３２と演奏制御部３４とを具備する音響解析装置１０を例示したが、音響解析部３２が推定した発音位置Ｙに応じて演奏装置１２の自動演奏を制御する構成（すなわち演奏制御部３４）は省略され得る。また、音響解析部３２から確率算定部４６と位置特定部４８とを省略し、音響信号Ａの解析により尤度Ｌ(t)を算定する装置として音響解析装置１０を実現することも可能である。音響解析装置１０とは別体の装置に周波数解析部４２を設置し、周波数解析部４２が音響信号Ａから生成した観測スペクトルＸを音響解析装置１０の指標算定部５２に供給する構成も好適である。すなわち、周波数解析部４２は音響解析装置１０から省略され得る。

（３）前述の実施形態で例示した通り、音響解析装置１０は、制御装置２２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、音符に対応する音の基底スペクトルＨ(n)と音響信号Ａの観測スペクトルＸとの類似の度合を示す類似指標α(n)をＮ個の音符の各々について算定する指標算定部５２、および、Ｎ個の音符のうち対象楽曲内の時点ｔにおいて発音されるＮ(t)個の音符について、指標算定部５２が当該音符について算定した類似指標α(n)と、対象楽曲内における当該音符の音量係数ｖ(t,n)との積を合計することで、観測スペクトルＸが当該時点ｔで観測される尤度Ｌ(t)を算定する尤度算定部５４としてコンピュータを機能させるプログラムである。以上に例示したプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。

記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号（transitory, propagating signal）を除く全てのコンピュータ読取可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

（４）以上に例示した形態から把握される本発明の好適な態様を以下に例示する。
＜態様１＞
本発明の好適な態様（態様１）に係る音響解析方法は、コンピュータシステムが、音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定し、前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する。態様１では、楽曲内の各時点において発音される１個以上の音符について類似指標と音量を示す係数との積を合計することで、観測スペクトルの尤度が算定される。楽曲内の任意の時点で発音される音符は、発音可能な全部の音符のうちの一部（すなわちスパース）である。したがって、各音符の時間軸上の音量を示す係数と当該音符の基底スペクトルの各強度との積を全部の音符について合計してから、その合計値と音響信号の観測スペクトルの強度との積を複数の周波数にわたり合計することで、尤度を算定する構成と比較すると、尤度の算定に必要な演算量を削減することが可能である。

＜態様２＞
態様１の好適例（態様２）において、前記類似指標の算定では、前記観測スペクトルの各周波数における強度と、音符に対応する音の前記基底スペクトルの当該周波数における強度との積を、周波数軸上の複数の周波数について合計することで、当該音符の前記類似指標を算定する。

＜態様３＞
態様１または態様２の好適例（態様３）に係る音響解析方法において、前記楽曲内の各時点が前記観測スペクトルの発音時点に該当する事後確率の確率分布を前記尤度から算定し、前記楽曲内に前記観測スペクトルの発音位置を前記事後確率の確率分布から特定する。

＜態様４＞
本発明の好適な態様（態様４）に係る音響解析装置は、音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定する指標算定部と、前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、前記指標算定部が当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する尤度算定部とを具備する。態様４では、楽曲内の各時点において発音される１個以上の音符について類似指標と音量を示す係数との積を合計することで、観測スペクトルの尤度が算定される。楽曲内の任意の時点で発音される音符は、発音可能な全部の音符のうちの一部（すなわちスパース）である。したがって、各音符の時間軸上の音量を示す係数と当該音符の基底スペクトルの各強度との積を全部の音符について合計してから、その合計値と音響信号の観測スペクトルの強度との積を複数の周波数にわたり合計することで、尤度を算定する構成と比較して、尤度の算定に必要な演算量を削減することが可能である。

＜態様５＞
態様４の好適例（態様５）において、前記指標算定部は、前記観測スペクトルの各周波数における強度と、音符に対応する音の前記基底スペクトルの当該周波数における強度との積を、周波数軸上の複数の周波数について合計することで、当該音符の前記類似指標を算定する。

＜態様６＞
態様４または態様５の好適例（態様６）に係る音響解析装置は、前記楽曲内の各時点が前記観測スペクトルの発音時点に該当する事後確率の確率分布を、前記尤度算定部が算定した尤度から算定する確率算定部と、前記楽曲内に前記観測スペクトルの発音位置を、前記確率算定部が算定した前記事後確率の確率分布から特定する位置特定部とを具備する。

１００…自動演奏システム、１０…音響解析装置、１２…演奏装置、１２２…駆動機構、１２４…発音機構、１４…収音装置、２２…制御装置、２４…記憶装置、３２…音響解析部、３４…演奏制御部、４２…周波数解析部、４４…演算処理部、４６…確率算定部、４８…位置特定部、５２…指標算定部、５４…尤度算定部。

Claims

コンピュータシステムが、
音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定し、
前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する
音響解析方法。
前記類似指標の算定においては、前記観測スペクトルの各周波数における強度と、音符に対応する音の前記基底スペクトルの当該周波数における強度との積を、周波数軸上の複数の周波数について合計することで、当該音符の前記類似指標を算定する
請求項１の音響解析方法。
前記楽曲内の各時点が前記観測スペクトルの発音時点に該当する事後確率の確率分布を前記尤度から算定し、
前記楽曲内に前記観測スペクトルの発音位置を前記事後確率の確率分布から特定する
請求項１または請求項２の音響解析方法。
音符に対応する音の基底スペクトルと音響信号の観測スペクトルとの類似の度合を示す類似指標を複数の音符の各々について算定する指標算定部と、
前記複数の音符のうち楽曲内の各時点において発音される１個以上の音符について、前記指標算定部が当該音符について算定した類似指標と、前記楽曲内における当該音符の音量を示す係数との積を合計することで、前記観測スペクトルが当該時点で観測される尤度を算定する尤度算定部と
を具備する音響解析装置。