JP6296221B2

JP6296221B2 - 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム

Info

Publication number: JP6296221B2
Application number: JP2013167435A
Authority: JP
Inventors: 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-08-12
Filing date: 2013-08-12
Publication date: 2018-03-20
Anticipated expiration: 2033-08-12
Also published as: JP2015036710A

Description

本発明は、楽曲を構成する複数の演奏パートのうちの一部の演奏パート又は全部の演奏パートをそれぞれ演奏した複数の演奏であって、前記複数の演奏パートのうちの少なくとも一つの共通する演奏パートをそれぞれ含む複数の演奏を表わす音響信号をそれぞれ記録した複数の音響データを分析して、前記複数の演奏を構成する各楽音の発音タイミングを対応付けるアライメント装置に関する。なお、以下の説明において、複数の演奏をそれぞれ構成する各楽音の発音タイミングの対応関係を単にアライメントと呼ぶ。

従来から、例えば、下記非特許文献１及び２に示されているように、音響信号のアライメント装置は知られている。非特許文献１に記載のアライメント装置では、まず、分析対象の楽曲の楽譜を表わす楽譜データ（例えば、ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）を構成する各発音情報（例えば、ノートオンデータ及びノートオフデータ）と、分析対象の第１の演奏及び第２の演奏をそれぞれ構成する各楽音とを対応づける。そして、楽譜データの発音情報と第１の演奏の各楽音との対応情報、及び楽譜データの発音情報と第２の演奏の各楽音との対応情報を用いて、第１の演奏と第２の演奏のアライメントを計算している。

また、非特許文献２に記載のアライメント装置では、動的時間伸縮法（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）を用いて第１の演奏と第２の演奏のアライメントを計算している。

ＳｅｂａｓｔｉａｎＥｗｅｒｔ，ＭｅｉｎａｒｄＭｕｌｌｅｒ，ＰｅｔｅｒＧｒｏｓｃｈｅ、「ＨＩＧＨＲＥＳＯＬＵＴＩＯＮＡＵＤＩＯＳＹＮＣＬＯＮＩＺＡＴＩＯＮＵＳＩＮＧＣＨＲＯＭＡＯＮＳＥＴＦＥＡＴＵＲＥＳ」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２００９，ＩＣＡＳＳＰ２００９，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ、ｐ．１８６９−ｐ．１８７２ＳｉｍｏｎＤｉｘｏｎ，ＧｅｒｈａｒｄＷｉｄｎｅｒ、「ＭＡＴＣＨ：ＡＭＵＳＩＣＡＬＩＧＮＭＥＮＴＴＯＯＬＣＨＥＳＴ」、ＩＳＭＩＲ２００５，６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ、ｐ．４９２−ｐ．４９７

上記非特許文献１のアライメント装置によれば、分析対象の楽曲を表わす楽譜データが必要である。したがって、楽譜データが存在しない楽曲のアライメントを計算することができない。また、分析の第１段階として、楽譜データを構成する発音情報と分析対象の第１の演奏及び第２の演奏を構成する各楽音とが対応づけられる。そして、分析の第２段階において、前記第１段階の分析結果を用いて、第１の演奏と第２の演奏のアライメントが計算される。そのため、各分析段階の誤差が蓄積することによって分析精度が低下する虞がある。

また、上記非特許文献２のアライメント装置は、第１の演奏と第２の演奏とがある程度似ていることを想定している。例えば、第１の演奏に含まれる演奏パート数と第２の演奏に含まれる演奏パート数がほぼ同じである場合には良好な分析結果が得られる。しかし、例えば所定の交響曲の全演奏パートの演奏と、前記全演奏パートのうちの一部の演奏パートのみの演奏とのアライメントを上記非特許文献２のアライメント装置を用いて計算した場合、各演奏を音響信号としてそれぞれ評価したときの両者の差が大きいので、良好な分析結果を得られない（図９参照）。

本発明は上記問題に対処するためになされたもので、その目的は、楽譜データを用いることなく複数の演奏のアライメントを計算可能なアライメント装置、アライメント方法及びコンピュータプログラムであって、前記複数の演奏を音響信号として評価したときの差が大きくても良好な分析結果が得られるアライメント装置、アライメント方法及びコンピュータプログラムを提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない

上記目的を達成するために、本発明の特徴は、楽曲を構成する複数の演奏パートのうちの一部の演奏パート又は全部の演奏パートをそれぞれ演奏した複数の演奏であって、前記複数の演奏パートのうちの少なくとも一つの共通する演奏パートをそれぞれ含む複数の演奏を表わす音響信号をそれぞれ記録した複数の音響データ（ｄ）を分析して、前記共通する演奏パートの各楽音の発音タイミングに基づいて、前記複数の音響データ間における各楽音の発音タイミングの対応関係を表すアライメントを計算するアライメント装置（１０）であって、前記複数の演奏の構成要素としての複数の楽音のスペクトルにそれぞれ相当する複数の基底、前記楽曲において同時に発音される楽音の組み合わせに対応する前記基底の組み合わせによって分類された複数の状態、前記複数の状態をそれぞれ構成する前記基底が属する前記演奏、及び前記複数の状態の時系列を推定する推定手段（Ｓ１２〜Ｓ１４）と、前記推定された前記複数の状態の時系列を用いて前記アライメントを計算するアライメント計算手段（Ｓ１５、Ｓ１６）と、を備えたアライメント装置としたことにある。なお、本明細書において「各楽音の発音タイミングを対応付ける」とは、前記複数の音響データを用いて前記複数の演奏を同時に再生する際に前記複数の演奏を同期させることができるように、各楽音の発音タイミングを対応付けることを意味する。

この場合、前記推定手段は、前記複数の基底を確率的に生成する第１モデルと、前記複数の基底の組み合わせとしての前記複数の状態を確率的に生成する第２モデルと、前記複数の状態をそれぞれ構成する前記基底がそれぞれ属する前記演奏を確率的に決定する第３モデルと、前記複数の状態の時系列を確率的に決定する第４モデルと、前記各演奏の各時間帯における楽音のスペクトルをそれぞれ表わす複数の観測スペクトルの各周波数成分の構成要素がいずれの前記基底の構成要素に対応するかを表す前記観測スペクトルの構成態様を確率的に決定する第５モデルと、から構成される階層ベイズモデル（ＨＢＭ）の事後分布を計算する事後分布計算手段（Ｓ１２、Ｓ１３）を備え、前記アライメント計算手段は、前記計算された事後分布を用いて、前記複数の状態の時系列の最大事後確率推定値を前記演奏ごとに計算する最大事後確率推定手段（Ｓ１５）と、前記最大事後確率推定値を用いて、任意の前記状態になる最初の時刻を前記演奏ごとに計算することにより、前記アライメントを計算する強制アライメント手段（Ｓ１６）と、を備えるとよい。なお、「前記複数の状態をそれぞれ構成する前記基底がそれぞれ属する前記演奏を確率的に決定する」とは、各状態を構成する各基底がいずれの演奏に属するかを確率的に決定することを意味する。

また、この場合、前記事後分布計算手段は、前記複数の観測スペクトルと、前記複数の基底と、前記各状態の構成態様とが既知であるという条件のもとで、前記複数の観測スペクトルの構成態様をそれぞれ推定する第１推定と、前記複数の観測スペクトルの構成態様が既知であるという条件のもとで，前記複数の基底、及び前記複数の演奏において各基底が励起される頻度を推定する第２推定と、前記複数の観測スペクトルの構成態様と、前記複数の状態とが既知であるという条件のもとで、前記複数の状態の時系列を推定する第３推定と、前記複数の観測スペクトルの構成態様と、前記複数の状態の時系列とが既知であるという条件のもとで、前記複数の状態をそれぞれ構成する１つの基底又は複数の基底の組み合わせを推定する第４推定と、前記複数の観測スペクトルの構成態様と、前記複数の状態の時系列と、前記複数の状態をそれぞれ構成する１つの基底又は複数の基底の組み合わせとが既知であるという条件のもとで、前記複数の状態をそれぞれ構成する各楽音が属する前記演奏を推定する第５推定と、を同時に実行して前記階層ベイズモデルの事後分布を近似的に計算するとよい。

上記のように構成されたアライメント装置によれば、前記複数の演奏の構成要素としての複数の楽音のスペクトルにそれぞれ相当する複数の基底、前記楽曲において同時に発音される楽音の組み合わせに対応する前記基底の組み合わせによって分類された複数の状態、前記複数の状態をそれぞれ構成する前記基底が属する前記演奏、及び前記複数の状態の時系列が、同時に（一体的に）推定される。つまり、前記共通する演奏パートの演奏に着目してアライメントが計算される。したがって、分析対象の各演奏を音響信号として評価したときの互いの距離が大きくても、アライメントの誤差を小さくすることができる。

また、本発明の他の特徴は、前記複数の基底の分布が、所定の集中度（α）及び所定の基底測度（Ｈ）によって規定されるディリクレ過程に従うように構成されていることにある。この場合、前記所定の基底測度は所定のディリクレ分布であるとよい。これによれば、前記複数の音響信号のモデル化にあたりディリクレ過程を用いたので、楽曲の複雑さによらず、分析精度を高く保つことができる。

分析対象の音響信号（音響データ）の構成を示す概念図である。本発明の一実施形態に係るアライメント装置の構成を示すブロック図である。本実施形態で用いる数理モデルの階層構造を示す概念図である。分析対象の音響信号のグラフィカルモデルである。離散化されたスペクトログラムの概念図である。アライメントの計算手順を示すフローチャートである。各種パラメータの具体的数値を示す表である。分析対象の２つの音響データの内容をそれぞれ表わすスペクトログラムである。計算されたアライメントに基づいて各楽音の発音タイミングを揃えた状態の２つの音響データの内容をそれぞれ表わすスペクトログラムである。アライメントの計算結果（累計絶対値誤差）を示す表である。

本発明の一実施形態に係る音響信号のアライメント装置１０について説明する。アライメント装置１０は、以下説明するように、楽曲の演奏をそれぞれ表わす複数（例えばＤ個）の音響データｄ（ｄ＝１，２，・・・，Ｄ）を用いて各演奏を再生する際にそれらを同期させることができるように、各演奏を構成する各楽音の再生タイミングを対応づける。なお、「ｄ」は、Ｄ個の音響データのうちの１つを特定するインデックスである。また、複数の音響データｄは、同一の楽譜に記載された１つ又は複数の演奏パートを演奏することにより発生された音をそれぞれ表わす音響信号をディジタルデータとしてそれぞれ記録したものである。ただし、複数の音響データｄは、共通する少なくとも１つの演奏パートの演奏を含む（図１参照）。図１の例では、分析対象とする１番目の音響データ（つまり、ｄ＝１）及び２番目の音響データ（つまり、ｄ＝２）のうち、１番目の音響データは、所定の楽曲のバイオリンの演奏パートとチェロの演奏パートを含み、２番目の音響データは、前記所定の楽曲のバイオリンの演奏パートとビオラの演奏パートを含む。アライメント装置１０は、前記共通する少なくとも１つの演奏パート（図１の例ではバイオリン）の演奏に着目して、アライメントを計算する。つまり、両音響データを同時に再生した際に両演奏を同期させることができるように、各演奏パートの楽音の発音タイミングを対応付ける。なお、図１においてはバイオリンで演奏される音符が黒く塗りつぶされている。

アライメント装置１０は、図２に示すように、入力操作子１１、コンピュータ部１２、表示器１３、記憶装置１４、外部インターフェース回路１５及びサウンドシステム１６を備えており、これらがバスＢＳを介して接続されている。

入力操作子１１は、オン・オフ操作に対応したスイッチ（例えば数値を入力するためのテンキー）、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、分析対象の音響データの選択、音響データの分析開始又は停止、選択した音響データを用いた演奏の再生又は停止（後述するサウンドシステム１６からの出力又は停止）、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子１１を操作すると、その操作内容を表す操作情報が、バスＢＳを介して、後述するコンピュータ部１２に供給される。

コンピュータ部１２は、バスＢＳにそれぞれ接続されたＣＰＵ１２ａ、ＲＯＭ１２ｂ及びＲＡＭ１２ｃからなる。ＣＰＵ１２ａは、後述するアライメントの計算手順を表わしたプログラムをＲＯＭ１２ｂから読み出して実行する。ＲＯＭ１２ｂには、前記プログラムに加えて、初期設定パラメータ、表示器１３に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。ＲＡＭ１２ｃには、前記プログラムの実行時に必要なデータが一時的に記憶される。

表示器１３は、液晶ディスプレイ（ＬＣＤ）によって構成される。コンピュータ部１２は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器１３に供給する。表示器１３は、コンピュータ部１２から供給された表示データに基づいて画像を表示する。例えば分析対象の音響データを選択する際には、選択可能な音響データのリストが表示器１３に表示される。

また、記憶装置１４は、ＨＤＤ、ＦＤＤ、ＣＤ、ＤＶＤなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置１４には、複数の音響データｄが記憶されている。複数の音響データｄは、前記所定の楽曲の演奏を所定のサンプリング周期（例えば１／４４１００ｓｅｃ）でサンプリングして得られた複数のサンプル値からそれぞれなり、各サンプル値が記憶装置１４における連続するアドレスに順に記録されている。各音響データｄには、データを識別するためのタイトル情報、容量を表わすデータサイズ情報なども含まれている。複数の音響データｄは予め記憶装置１４に記憶されていてもよいし、後述する外部インターフェース回路１５を介して外部から取り込んでもよい。

外部インターフェース回路１５は、アライメント装置１０を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。アライメント装置１０は、外部インターフェース回路１５を介して、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどの通信ネットワークにも接続可能である。

サウンドシステム１６は、音響データｄをアナログ音信号に変換するＤ／Ａ変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力する左右一対のスピーカを備えている。ユーザが入力操作子１１を用いて、音響データｄに対応する演奏の再生を指示すると、ＣＰＵ１２ａは、音響データｄをサウンドシステム１６に供給する。これにより、ユーザは分析対象の演奏を試聴できる。

つぎに、上記のように構成したアライメント装置１０の動作（アライメントの計算手順）について説明する。本実施形態では、図３及び図４に示すように、Ｄ個の音響信号が階層ベイズモデルＨＢＭとして記述される。この階層ベイズモデルＨＢＭの最上位の階層（グローバルレベルと呼ぶ）では、前記Ｄ個の音響信号の核となるグローバル基底が推定される。具体的には、各音響データｄによって表わされる各音響信号をスペクトログラムとして記述したとき、前記スペクトログラムを構成する振幅スペクトルの一部又は全部を構成するスペクトルであって、１つの演奏パートの１つの演奏音に対応するスペクトルが上記のグローバル基底である。また、中間層（状態レベルと呼ぶ）では、同時に励起されるグローバル基底の組み合わせによって分類された複数の状態ｓ、及び複数の状態ｓの時系列が推定される。以下の説明において、同時に励起されるグローバル基底の組み合わせを和音と呼ぶ。つまり、状態レベルにおいては、同時に発音される楽音に対応するグローバル基底の組み合わせによって分類された複数の状態ｓ、及び複数の状態ｓの時系列が推定される。前記複数の状態ｓの時系列は、いわゆるＬｅｆｔ−ｔｏ−Ｒｉｇｈｔ型の隠れマルコフモデルとして記述される。この隠れマルコフモデルは、Ｓ個の状態ｓから構成される。すなわち、「ｓ」は、Ｓ個の状態のうちの１つを特定するインデックスである。また、最下位の階層（ドキュメントレベルと呼ぶ）では、上記の状態レベルにおける各状態ｓを構成するグローバル基底のうち、音響データｄによって表わされる音響信号から励起されるグローバル基底の組み合わせが推定される。言い換えれば、複数の状態ｓをそれぞれ構成するグローバル基底が属する音響データｄ（演奏）が推定される。つまり、各状態ｓの構成態様（状態ｓを構成する各グローバル基底がいずれの音響データに属するか）が推定される。状態ｓを構成するグローバル基底のうち、音響データｄによって表わされる音響信号から励起されるグローバル基底の組み合わせをドキュメント単位の基底と呼ぶ。そして、ドキュメント単位の基底の時系列をドキュメントＤＯＣ_ｄと呼ぶ。なお、図３においては、図を簡略化するためにグローバル基底を音符として記載している。また、グローバルレベルにおけるグローバル基底の数、和音を構成するグローバル基底の数、及びドキュメント単位の基底の数は定められていない。

以下の説明では、音響データｄで表される音響信号の時刻ｔ（＝１，２，・・・，Ｔ_ｄ）における振幅スペクトルがＦ個の周波数ビンｆから構成されているものとする。なお、「ｆ」は、Ｆ個の周波数ビンのうちの１つを特定するインデックスである。そして、音響データｄで表される音響信号の時刻ｔにおける周波数ビンｆの振幅Ｘ（ｄ，ｆ，ｔ）を、ドキュメントＤＯＣ_ｄの時刻ｔにおいて周波数ビンｆが観測された回数であるとみなす（図５参照）。ここで観測Ｃ（ｄ，ｃ，ｆ，ｔ）という変数を導入する。観測Ｃは、図５に示すようにドキュメントＤＯＣ_ｄの時刻ｔにおける周波数ビンｆを離散化したとき、ｃ軸方向におけるｃ番目の観測値が存在するか否かを表わす２値変数である。つまり、観測Ｃの値は、ｃ≦Ｘ（ｄ，ｆ，ｔ）のとき「１」であり、ｃ＞Ｘ（ｄ，ｆ，ｔ）のとき「０」である。

階層ベイズモデルＨＢＭは、次の式（１）〜式（５）のように定式化される。

なお、式（１）のＤＰ（α，Ｈ）は、集中度α、基底測度Ｈのディリクレ過程を表わす。基底測度Ｈは、Ｆ次元のディリクレ分布である。上記のように、式（１）に基づいて、グローバル基底の集合Ｇ_０が確率的に生成される（本発明の第１モデルに相当）。また、式（２）及び式（３）も式（１）と同様にディリクレ過程であることを表わす。式（２）のディリクレ過程の集中度の値は「β」である。また、式（２）のディリクレ過程の基底測度は、グローバル基底の集合Ｇ_０である。また、式（３）のディリクレ過程の集中度の値は「γ」である。また、式（３）のディリクレ過程の基底測度は、同時に励起されるグローバル基底の組み合わせの集合Ｇ_ｓである。つまり、式（２）に基づいて、同時に励起されるグローバル基底の組み合わせの集合Ｇ_ｓが確率的に生成される（本発明の第２モデルに相当）。また、式（３）に基づいて、ドキュメント単位の基底の集合Ｇ_ｓ，ｄが確率的に決定される（本発明の第３モデルに相当）。また、式（４）のＬＲＨＭＭ（π，τ）は、初期の状態が状態πであって、状態間の遷移確率の値が「τ」である、Ｌｅｆｔ−ｔｏ−Ｒｉｇｈｔ型の隠れマルコフモデルを表わす。また、Ｚ（ｄ，ｔ）は、時刻ｔにおけるドキュメントＤＯＣ_ｄの状態（つまり、グローバル基底の組み合わせ）を表わす。つまり、式（４）に基づいて、複数の状態ｓの時系列が確率的に決定される（本発明の第４モデルに相当）。また、式（５）に基づいて、観測スペクトルの構成態様（つまり、観測スペクトルの各周波数成分の構成要素がいずれのグローバル基底の構成要素（周波数成分）に対応するか）が確率的に決定される（本発明の第５モデルに相当）。

そして、以下説明するように、次の５つの問題が同時に（一体的に）解かれる。第１の問題（第１推定）は、複数の観測スペクトル（つまり、各時刻ｔにおける振幅スペクトル）と、複数のグローバル基底と、各状態ｓの構成態様とが既知であるという条件のもとで、複数の観測スペクトルの構成態様をそれぞれ推定するという問題である。第２の問題（第２推定）は、複数の観測スペクトルの構成態様が既知であるという条件のもとで，複数のグローバル基底、及び各演奏において各基底が励起される頻度を推定する問題である。第３の問題（第３推定）は、複数の観測スペクトルの構成態様と、複数の状態ｓとが既知であるという条件のもとで、複数の状態ｓの時系列を推定するという問題である。第４の問題（第４推定）は、複数の観測スペクトルの構成態様と、複数の状態ｓの時系列とが既知であるという条件のもとで、複数の状態ｓをそれぞれ構成する１つのグローバル基底又は複数のグローバル基底の組み合わせを推定するという問題である。第５の問題（第５推定）は、複数の観測スペクトルの構成態様と、複数の状態ｓの時系列と、複数の状態ｓをそれぞれ構成する１つのグローバル基底又は複数のグローバル基底の組み合わせとが既知であるという条件のもとで、複数の状態ｓをそれぞれ構成する各楽音が属する演奏を推定するという問題である。

具体的には、上記のように定式化された階層ベイズモデルＨＢＭの事後分布を計算するために、上記階層ベイズモデルＨＢＭを共役系に書き換えておき、前記書き換えられたモデルに対して変分ベイズ法を適用する。本実施形態では、階層ディリクレ過程をセスラマンの棒折り過程（Ｓｔｉｃｋ‐Ｂｒｅａｋｉｎｇ‐Ｃｏｎｓｔｒｕｃｔｉｏｎ）を用いて上記モデルを共役系に書き換える。

まず、Ｉ個（実際には個数は不定（増減され得る））のグローバル基底ｇ（ｉ）を生成するために、ディリクレ分布Ｄｉｒ（ｇ_ｆ，０（ｉ））に従う確率変数ｇ_ｆ（ｉ）が生成されるとともに、棒折り過程ＳＢＰ（α）から確率変数ｗ^（ｇ）が生成される。なお、「ｉ」は、生成されたＩ個のグローバル基底のうちの１つを特定するためのインデックスである。また、「ｇ_ｆ，０（ｉ）」は、「ｇ_ｆ（ｉ）」の事前分布である。この棒折り過程ＳＢＰ（α）では、まず、下記の式（６）に示すように、ベータ分布Ｂｅｔａ（１，α）に従う確率変数ξ_ｉ ^（ｇ）が生成される。そして、確率変数ｗ_ｉ ^（ｇ）は、確率変数ξ_ｉ ^（ｇ）を用いた下記の式（７）に基づいて生成される。

次に、各状態ｓに対し、所定のディリクレ過程を基底測度とするディリクレ過程からＪ個（実際には個数は不定（増減され得る））のインジケータ変数Ｚ^（Ａ）（ｓ，ｊ）が生成される。前記所定のディリクレ過程は、確率変数ｇ_ｆ（ｉ）を基底測度とするディリクレ過程である。このインジケータ変数Ｚ^（Ａ）（ｓ，ｊ）は、状態ｓにおける和音の（例えば低音側から数えて）ｊ番目の構成要素（和音の構成音）に相当するグローバル基底を表わす。このインジケータ変数Ｚ^（Ａ）（ｓ，ｊ）は、下記の式（８）に示すように多項分布Ｍｕｌｔ（ｗ^（Ａ））に従う。なお、確率変数ｗ^（Ａ）（ｓ）は、下記の式（９）に示すように棒折り過程ＳＢＰ（β）に従って生成される。

棒折り過程ＳＢＰ（β）では、まず、下記の式（１０）に示すように、ベータ分布Ｂｅｔａ（１，β）に従う確率変数ξ_ｊ ^（Ａ）が生成される。そして、確率変数ｗ_ｊ ^（Ａ）（ｓ）は、確率変数ξ_ｊ ^（Ａ）を用いた下記の式（１１）に基づいて生成される。

次に、Ｋ個（実際には個数は不定（増減され得る））のインジケータ変数Ｚ^（Ｌ）（ｄ，ｓ，ｋ）が生成される。このインジケータ変数Ｚ^（Ｌ）（ｄ，ｓ，ｋ）は、ドキュメントＤＯＣ_ｄにおけるＫ個のドキュメント単位の基底のうちのｋ番目の基底が、状態ｓにおける和音のどの構成音に対応するかを表わす。このインジケータ変数Ｚ^（Ｌ）（ｄ，ｓ，ｋ）は、下記の式（１２）に示すように多項分布Ｍｕｌｔ（ｗ^（Ｌ））に従う。なお、確率変数ｗ^（Ｌ）（ｄ，ｓ）は、下記の式（１３）のように棒折り過程ＳＢＰ（γ）に従って生成される。

棒折り過程ＳＢＰ（γ）では、まず、下記の式（１４）に示すように、ベータ分布Ｂｅｔａ（１，γ）に従う確率変数ξ_ｋ ^（Ｌ）（ｄ，ｓ）が生成される。そして、確率変数ｗ_ｋ ^（Ｌ）（ｄ，ｓ）は、確率変数ξ_ｋ ^（Ｌ）（ｄ，ｓ）を用いた下記の式（１５）に基づいて生成される。

次に、ドキュメントＤＯＣ_ｄのうちの状態ｓに相当する部分を表わすＺ^（Ｓ）（ｄ，ｔ）が与えられたという条件下で、Ｋ個のドキュメント単位の基底のうちの１つから観測Ｃ（ｄ，ｃ，ｆ，ｔ）が生起したとみなす。そこで、下記の式（１６）に示す潜在変数Ｚ^（Ｘ）を導入する。

潜在変数Ｚ^（Ｘ）を用いて、観測Ｃの尤度を下記の式（１７）に示すようにモデル化する。

次に、各ドキュメントＤＯＣ_ｄを表わすＺ^（Ｓ）（ｄ，ｔ）の系列をＬｅｆｔ−ｔｏ―Ｒｉｇｈｔ型の隠れマルコフモデルとしてモデル化する。このモデルは、具体的には、初期状態確率π_０及び状態ｓにおける状態遷移確率τ_ｓを用いて、下記の式（１８）及び式（１９）のように表わされる。

このモデルはＬｅｆｔ−ｔｏ―Ｒｉｇｈｔ型の隠れマルコフモデルである。初期状態確率π_０は、最初のインデックス以外が「０」である超パラメータを持つディリクレ分布から生成される。また、状態遷移確率τ_ｓは、「ｓ」番目と「ｓ＋１」番目以外の要素が「０」である超パラメータを持つディリクレ分布から生成される。また、強制アライメント（Ｎ．Ｈｕ，Ｒ．Ｂ．Ｄａｎｎｅｎｂｅｒｇ，Ｇ．Ｔｚａｎｅｔａｋｉｓ、「ＰｏｌｙｐｈｏｎｉｃＡｕｄｉｏＭａｔｃｈｉｎｇａｎｄＡｌｉｇｎｍｅｎｔｆｏｒＭｕｓｉｃＲｅｔｒｉｅｖａｌ」、ｉｎＷＡＳＰＡＡ２００３、ｐｐ．１８５−１８８）を実行するためには、終端条件が既知である必要があるので、下記の式（２０）のような制約が与えられる。

ここで、潜在変数及びインジケータ変数を、１対Ｋ符号化法を用いて二値変数に変換する。つまり、例えば、Ｚ^（Ｓ）（ｄ，ｔ）＝ｓ´は、Ｚ_ｓ´ ^（Ｓ）（ｄ，ｔ）＝１であって、それ以外の要素が「０」であるような変数として表記する。すると、完全対数尤度は、下記の式（２１）のように与えられる。ただし、式（２１）では、定数項が無視されている。

式（２１）で表されるモデルは共役であるので、変分ベイズ法を用いて事後分布を近似的に計算することができる。特に、Ｚ^（Ｓ）の推定については、前向き後ろ向きアルゴリズムを用いることにより効率的に計算できる。

つぎに、真の事後分布の近似として、ｑ（Ｚ^（Ｘ））ｑ（Ｚ^（Ａ））ｑ（Ｚ^（Ｌ））ｑ（Ｚ^（Ｓ））ｑ（ｇ）（ｗ^（Ｌ））ｑ（ｗ^（Ａ））ｑ（ｗ^（ｇ））ｑ（π）ｑ（τ）という因子分解された分布を仮定する。そして、変分ベイズ法を用いて、上記の因子分解された分布を真の事後分布に近づける。つまり、両者の間のＫＬ（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ）距離を小さくする。以下の説明における「Ｚ」で始まる変数については、式（２２）のように定義される。

ただし、〈ｆ（ｘ，ｙ）〉_ｑ（ｘ）は、分布ｑ（ｘ）の下でのｆ（ｘ，ｙ）の期待値を表わす。また、以下の説明においては、インデックスｉ以外に対するＭの総和を（Ｍ）_ｉと表記する。したがって、例えば、次の式（２３）が成立する。

変分ベイズ法を用いることで、Ｚ^（Ｘ）の事後分布を更新する下記の式（２４）が導出される。

式（２４）の右辺第２項は、ｋ番目のドキュメント単位の基底をｉ番目のグローバル基底にマッピングすることに相当する。また、右辺第３項の「Φ^（Ａ）Φ^（Ｌ）」は、直感的には、ドキュメント単位の基底のインデックスｋをグローバル基底のインデックスｉにマッピングしているものと考えることができる。特に、式（１８）に着目すれば、グローバル基底のインデックスｉは、状態レベルのインジケータ変数Ｚ_ｉ ^（Ａ）（ｓ、ｊ）によって指定される。また、どの状態レベルのインジケータが用いられているかを表わすインデックスｊ自体は、インジケータ変数Ｚ_ｊ ^（Ｌ）（ｄ，ｓ，ｋ）によって指定されている。よって、第２項は、インデックスｋからインデックスｉへのマッピングを、インデックスｊに対して重みΦ^（Ａ）Φ^（Ｌ）で周辺化することにより確率的に計算していることに相当する。

ｑ（Ｚ^（Ａ））及びｑ（Ｚ^（Ｌ））も、ｑ（Ｚ^（Ｘ））と同様に、下記の式（２５）及び式（２６）に基づいて計算される。

次に、ｑ（Ｚ^（Ｓ））を更新する。対数同時尤度（式（２１））において、Ｚ^（Ｓ）のみに依存する項を集めると、式（２７）に示すように、隠れマルコフモデルの形式と同様な形式となることが分かる。

したがって、前向き後ろ向きアルゴリズムを用いることによって、Ｚ^（Ｓ）の近似的な事後分布を計算することができる。後ろ向きアルゴリズムを実行する際には、最終フレームにおける後ろ向き変数を、Ｓ番目の状態を除いて「０」に設定し、Ｓ番目の状態において「１」に設定することにより、強制アライメントを実行する。なお、式（２７）の下線部は、対数観測尤度とみなすことができる。この項は、時刻ｔに依存していないように見えるが、総和をとるインデックスｃの上限がＸ（ｄ，ｆ，ｔ）であるので、実際には時刻ｔに依存している。また、この項は、２つの項の和とみなすことができる。左側の項は、ドキュメント単位の基底のインデックスｋをグローバル基底のインデックスｉに変換することを表わしている。すなわち、ドキュメント単位の基底に対応するグローバル基底を選択することを表わしている。また、右側の項は、〈ｌｏｇｗ_ｋ ^（Ｌ）（ｄ，ｓ）〉をドキュメント単位の基底のインデックスｋが使われた回数に応じて重み付けしている。つまり、より頻繁に出現するインデックスｋに対応するｉ番目のグローバル基底を、状態ｓの観測尤度のパラメータとして用いることを表わしている。

また、グローバル基底ｇ（ｉ）は下記の式（２８）に基づいて更新される。

つまり、周波数ビンｆがｉ番目のグローバル基底から励起された回数を超パラメータとして設定する。

次に、棒折り過程ＳＢＰの事後分布を更新するために、ｗ^（ｇ）、ｗ^（Ａ）及びｗ^（Ｌ）を有限のオーダー、つまり、それぞれＩ、Ｊ及びＫまで評価し、それ以降の出現確率を「０」とする。そして、下記の式（２９）乃至（３７）に示す量を定義する。

すると、棒折り過程ＳＢＰの事後分布の更新式は、下記の式（３８）〜式（４０）のように定式化される。

他のパラメータも、標準的な方法（例えば、ＢｅａｌＭ．Ｊ．、「ＶａｒｉａｔｉｏｎａｌＡｌｇｏｒｉｔｈｍｓｆｏｒＡｐｐｒｏｘｉｍａｔｅＢａｙｅｓｉａｎＩｎｆｅｒｅｎｃｅ」、ＰｈＤＴｈｅｓｉｓ，ＵｎｉｖｅｒｓｉｔｙＣｏｌｌｅｇｅＬｏｎｄｏｎ、２００３）によって更新される。なお、上記の分布を更新するのに必要な期待値は、下記の式（４１）〜式（４４）に基づいて計算される。

ただし、式（４２）〜式（４４）におけるψ（ｘ）はディガンマ関数である。棒折り過程ＳＢＰに関連する他の期待値も同じように計算される。これらの更新は、近似的な事後分布と真の事後分布のＫＬ（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ）距離が収束するまで繰り返し実行される。

近似的な事後分布が計算された後、ドキュメント間のアライメントが次のようにして計算される。まず、それぞれのドキュメントＤＯＣ_ｄに関する最大事後確率の推定値ＭＡＰ_ｄが下記の式（４５）に基づいて計算される。

すると、各ドキュメントＤＯＣ_ｄが任意の状態ｓになる最初の時刻を、全ての状態ｓについて計算することにより、各ドキュメント間のアライメントを計算する（つまり、強制アライメントを実行する）ことができる。

計算されたアライメントに基づいて音響データを加工することにより、各楽音の発音タイミングを揃えることができる。図８Ａの上段及び下段のスペクトログラムは処理対象の音響信号を表わしており、図８Ｂの上段及び下段のスペクトログラムは、計算されたアライメントに基づいて、各楽音の発音タイミングを揃えた状態の音響信号を表わしている。このように、複数の演奏中の対応する楽音同士の発音タイミングを揃えるように音響データを加工しておき、前記加工した音響データを用いて前記複数の演奏を同時に再生開始すれば、前記複数の演奏を同期させることができる。

次に、本実施形態に係るアライメント装置１０を用いたアライメントの計算結果と、従来のアライメント装置を用いたアライメントの計算結果を比較する。

まず、図９に示す各楽曲を、それらの楽譜データ（例えば、ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）に基づいてソフトウェアシンセサイザーを用いて演奏して、それぞれの音響信号を生成した。最初に、各楽曲の全演奏パートを原曲のテンポ（つまり、楽譜データに記録されているテンポ）で演奏して、音響信号（以下、完全オーディオｆｐと呼ぶ）を生成した。また、各楽曲の単一の演奏パートのみを、原曲のテンポに対して２０％遅いテンポで演奏して、音響信号（以下、ソロオーディオｓｓと呼ぶ）を生成した。特に、ピアノのパートは、右手（ＲＨ）で演奏するパートと左手（ＬＨ）で演奏するパートとを別のパートとして演奏してそれぞれのソロオーディオｓｓを生成した。また、各楽曲の一部の演奏パート（混合パート）を、原曲のテンポに対して２０％遅いテンポで演奏して、音響信号（以下、混合オーディオｍｓと呼ぶ）も生成した。

そして、これらの音響信号を所定のサンプリング周期（１／４４１００ｓｅｃ）でサンプリングして各音響データを作成するとともに、Ｂａｒｔｌｅｔｔ−Ｈａｎｎｉｎｇ窓を適用し、フレーム長を８１９２サンプル、ホップサイズを４０９６サンプルとする振幅スペクトログラムを作成した。なお、これらのスペクトログラムにおいて、２ｋＨｚよりも高い周波数帯域の成分は削除されている。

アライメント装置１０では、図６に示すように、ステップＳ１０にて、アライメントの計算が開始される。次に、ステップＳ１１にて、各種変数が初期化される。具体的には、全てのΦ（式（２２）参照）が一様分布に設定され、事後分布のパラメータがランダム値又は事前分布の値に設定される。次に、ステップＳ１２にて、上記の式（２４）乃至（２７）に基づいて潜在変数及びインジケータ変数の事後分布が更新される。次にステップＳ１３にて、上記の式（２８）乃至（４０）に基づいて、パラメータの事後分布が更新される。次に、ステップＳ１４にてＫＬ距離が収束したか否かが判定される。具体的には、現在の事後分布の近似に関して式（２１）の期待値を計算し、前記計算した期待値から現在の事後分布のエントロピーを減算した値を評価することにより、ＫＬ距離が収束したか否かが判定される。ＫＬ距離が収束していない場合、「Ｎｏ」と判定され、ステップＳ１２に戻り、潜在変数及びインジケータ変数の事後分布が再び更新される。一方、ＫＬ距離が収束した場合、「Ｙｅｓ」と判定され、ステップＳ１５にて、上記式（４５）に基づいてドキュメントＤＯＣ_ｄに関する最大事後確率の推定値ＭＡＰ_ｄが計算される。次に、ステップＳ１６にて、推定値ＭＡＰ_ｄを用いて各ドキュメント間のアライメントが計算され、ステップＳ１７にてアライメントの計算を終了する。なお、アライメント装置１０のパラメータの具体的数値は図７に示す通りである。一方、アライメント装置１０の比較対象とする従来のアライメント装置では、動的時間伸縮法に基づいてアライメントが計算される。具体的には、スペクトル間のコサイン距離に基づいてアライメントが計算される。ただし、分析対象の２つの音響信号のうちの短い方の音響信号の時間軸方向には留まるか１フレームだけ進むことができるが、前記２つの音響信号のうちの長い方の音響信号の時間軸方向には常に１フレームずつ進むというように、状態経路が制限されている。

上記のアライメント装置１０及び従来のアライメント装置によって計算されたアライメントの累計絶対値誤差を図９に示す。なお、累計絶対値誤差は、分析対象の音響信号のアライメントが完全である場合（つまり分析対象の複数の音響データを再生したときにそれらが完全に同期可能なようにアライメントが計算された場合）に対する各構成音の発音タイミングにおける誤差（つまり、各構成音の発音タイミングのずれ）の累計を楽曲の全体の長さで除した値に相当する。つまり、例えば、誤差が１秒以内である時間の累計が楽曲全体の８０％である場合には、図９における「誤差＜１．０ｓ」の欄に「８０％」と記載される。また、図９における「Ｐｒｏｐｏｓｅｄ」は、アライメント装置１０を用いた場合のアライメントであることを表わし、「ｃｏｓｉｎｅ−ＤＴＷ」は従来のアライメント装置を用いた場合のアライメントであることを表わす。

また、「ｓｓ−ｔｏ−ｆｐ」は、ソロオーディオｓｓと完全オーディオｆｐとのアライメントであることを表わす。また、「ａｖｅ．ｍｓ−ｔｏ−ｆｐ」は、混合オーディオｍｓと完全オーディオｆｐとのアライメントの平均値であることを表わす。この平均値は次のようにして計算される。まず、演奏パートの組み合わせが互いに異なる複数の混合オーディオのうちの１つを選択し、前記選択した混合オーディオと完全演奏オーディオとのアライメントを計算する。次に、前記選択した混合オーディオとは異なる混合オーディオを新たに選択して、前記新たに選択した混合オーディオと完全オーディオとのアライメントを計算する。上記のようにして、全ての混合オーディオに関して完全オーディオとのアライメントを計算しておき、それらの平均値を計算する。

また、「ａｖｅ．ｍｓ−ｔｏ−ｍｓ」は、２つの混合オーディオのアライメントの平均値であることを表わす。この平均値は次のようにして計算される。まず、演奏パートの組み合わせが異なる複数の混合オーディオのうちの２つの混合オーディオを選択し、前記選択した２つの混合オーディオのアライメントを計算する。次に、前記選択した２つの混合オーディオの組み合わせとは異なる組み合わせになるように２つの混合オーディオを新たに選択して、前記新たに選択した２つの混合オーディオのアライメントを計算する。上記のようにして全ての組み合わせについてアライメントをそれぞれ計算しておき、それらの平均値を計算する。ただし、前記選択される２つの混合オーディオｍｓは、少なくとも１つの共通する演奏パートの演奏を含む。

図９によれば、混合オーディオｍｓと完全オーディオｆｐとのアライメント、ソロオーディオｓｓと完全オーディオｆｐとのアライメント、及び混合オーディオｍｓ同士のアライメントにおいては、アライメント装置１０によって計算されたアライメントの誤差は、従来のアライメント装置によって計算されたアライメントの誤差よりも少ない。特に、２秒以上の誤差が、従来のアライメント装置よりも少ない。従来のアライメント装置においては、分析対象の２つの音響信号の間のコサイン距離を用いてアライメントを計算しているが、この手法は、前記２つの音響信号がある程度似ている場合には有効である。しかし、例えばバイオリンソロとオーケストラのように、両者の音響信号（スペクトログラム）が大きく異なる場合には適さないことが分かる。一方、アライメント装置１０によれば、前記２つの音響信号における共通する部分に着目してアライメントが計算されるので、分析対象の音響信号同士の距離が大きくても、アライメントの誤差を小さくすることができる。また、音響信号のモデル化にあたりディリクレ過程を用いたので、楽曲の複雑さによらず、分析精度を高く保つことができる。

なお、アライメント装置１０を用いて、例えばバイオリンソロの音響信号とオーケストラの音響信号のアライメントを計算しておけば、既存の手法（例えば、糸山克寿，後藤真孝，駒谷和範，尾形哲也，奥乃博、「楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現」、情報処理学会論文誌，Ｖｏｌ．４９，Ｎｏ．３，ｐｐ．１４６５−１４７９，Ｍａｒｃｈ２００８）により、オーケストラの音響信号からバイオリンソロの演奏パートの音響信号のみを削除して、バイオリンソロパートを練習するための音響データ（カラオケ）を作成することができる。

さらに、本発明の実施にあたっては、上記実施形態に限定されるものではなく、本発明の目的を逸脱しない限りにおいて種々の変更が可能である。

例えば、上記実施形態では、基底測度ＨはＦ次元のディリクレ分布であるが、これに代えて、無限潜在的調波配分法を用いても良い。また、上記実施形態で用いたディリクレ過程に代えて、Ｐｉｔｍａｎ−Ｙｏｒ過程を用いても良い。この場合、各階層にて励起されるグローバル基底がべき乗則に従うことを意味する。楽曲における同一音符の出現頻度はべき乗則に従うと考えられる。そのため、Ｐｉｔｍａｎ−Ｙｏｒ過程を用いた場合には、各階層にて励起されるグローバル基底をより適切に推定できる可能性がある。

また、ディリクレ過程に代えて、有限次元（例えばＮ次元）のディリクレ分布を生成し、Ｎ個のパラメータを基底測度Ｈから生成しても良い。ただし、この場合、生成される分布の数が予め定められているので、楽曲の音響的な性質とパラメータの数とが適合していないと、適切なアライメントの計算結果が得られない可能性がある。

また、上記実施形態では、変分ベイズ法を用いてアライメントを計算しているが、他の方法（例えばサンプリング法）を用いてアライメントを計算しても良い。

また、上記実施形態では、ＫＬ距離が収束するまで更新処理（図６のステップＳ１２及びＳ１３）を繰り返しているが、所定の回数（例えば、５回）だけ更新処理を繰り返すように構成しても良い。

１０・・・アライメント装置、１２・・・コンピュータ部、ｄ・・・音響データ、ＨＢＭ・・・階層ベイズモデル、ＭＡＰ_ｄ・・・推定値、ｓ・・・状態、ｔ・・・時刻

Claims

楽曲を構成する複数の演奏パートのうちの一部の演奏パート又は全部の演奏パートをそれぞれ演奏した複数の演奏であって、前記複数の演奏パートのうちの少なくとも一つの共通する演奏パートをそれぞれ含む複数の演奏を表わす音響信号をそれぞれ記録した複数の音響データを分析して、前記共通する演奏パートの各楽音の発音タイミングに基づいて、前記複数の音響データ間における各楽音の発音タイミングの対応関係を表すアライメントを計算するアライメント装置であって、
前記複数の演奏の構成要素としての複数の楽音のスペクトルにそれぞれ相当する複数の基底、前記楽曲において同時に発音される楽音の組み合わせに対応する前記基底の組み合わせによって分類された複数の状態、前記複数の状態をそれぞれ構成する前記基底が属する前記演奏、及び前記複数の状態の時系列を推定する推定手段と、
前記推定された前記複数の状態の時系列を用いて前記アライメントを計算するアライメント計算手段と、
を備えたことを特徴とするアライメント装置。
請求項１に記載のアライメント装置において、
前記推定手段は、
前記複数の基底を確率的に生成する第１モデルと、
前記複数の基底の組み合わせとしての前記複数の状態を確率的に生成する第２モデルと、
前記複数の状態をそれぞれ構成する前記基底がそれぞれ属する前記演奏を確率的に決定する第３モデルと、
前記複数の状態の時系列を確率的に決定する第４モデルと、
前記各演奏の各時間帯における楽音のスペクトルをそれぞれ表わす複数の観測スペクトルの各周波数成分の構成要素がいずれの前記基底の構成要素に対応するかを表す前記観測スペクトルの構成態様を確率的に決定する第５モデルと、
から構成される階層ベイズモデルの事後分布を計算する事後分布計算手段を備え、
前記アライメント計算手段は、
前記計算された事後分布を用いて、前記複数の状態の時系列の最大事後確率推定値を前記演奏ごとに計算する最大事後確率推定手段と、
前記最大事後確率推定値を用いて、任意の前記状態になる最初の時刻を前記演奏ごとに計算することにより、前記アライメントを計算する強制アライメント手段と、
を備えたことを特徴とするアライメント装置。
請求項２に記載のアライメント装置において、
前記事後分布計算手段は、
前記複数の観測スペクトルと、前記複数の基底と、前記各状態の構成態様とが既知であるという条件のもとで、前記複数の観測スペクトルの構成態様をそれぞれ推定する第１推定と、
前記複数の観測スペクトルの構成態様が既知であるという条件のもとで，前記複数の基底、及び前記複数の演奏において各基底が励起される頻度を推定する第２推定と、
前記複数の観測スペクトルの構成態様と、前記複数の状態とが既知であるという条件のもとで、前記複数の状態の時系列を推定する第３推定と、
前記複数の観測スペクトルの構成態様と、前記複数の状態の時系列とが既知であるという条件のもとで、前記複数の状態をそれぞれ構成する１つの基底又は複数の基底の組み合わせを推定する第４推定と、
前記複数の観測スペクトルの構成態様と、前記複数の状態の時系列と、前記複数の状態をそれぞれ構成する１つの基底又は複数の基底の組み合わせとが既知であるという条件のもとで、前記複数の状態をそれぞれ構成する各楽音が属する前記演奏を推定する第５推定と、
を同時に実行して前記階層ベイズモデルの事後分布を近似的に計算することを特徴とするアライメント装置。
請求項２又は３に記載のアライメント装置において、
前記複数の基底の分布が、所定の集中度及び所定の基底測度によって規定されるディリクレ過程に従うことを特徴とするアライメント装置。
請求項４に記載のアライメント装置において、
前記所定の基底測度は所定のディリクレ分布であることを特徴とするアライメント装置。
楽曲を構成する複数の演奏パートのうちの一部の演奏パート又は全部の演奏パートをそれぞれ演奏した複数の演奏であって、前記複数の演奏パートのうちの少なくとも一つの共通する演奏パートをそれぞれ含む複数の演奏を表わす音響信号をそれぞれ記録した複数の音響データを分析して、前記共通する演奏パートの各楽音の発音タイミングに基づいて、前記複数の音響データ間における各楽音の発音タイミングの対応関係を表すアライメントを計算するアライメント方法であって、
前記複数の演奏の構成要素としての複数の楽音のスペクトルにそれぞれ相当する複数の基底、前記楽曲において同時に発音される楽音の組み合わせに対応する前記基底の組み合わせによって分類された複数の状態、前記複数の状態をそれぞれ構成する前記基底が属する前記演奏、及び前記複数の状態の時系列を推定する推定ステップと、
前記推定された前記複数の状態の時系列を用いて前記アライメントを計算するアライメント計算ステップと、
を含むことを特徴とするアライメント方法。
楽曲を構成する複数の演奏パートのうちの一部の演奏パート又は全部の演奏パートをそれぞれ演奏した複数の演奏であって、前記複数の演奏パートのうちの少なくとも一つの共通する演奏パートをそれぞれ含む複数の演奏を表わす音響信号をそれぞれ記録した複数の音響データを分析して、前記共通する演奏パートの各楽音の発音タイミングに基づいて、前記複数の音響データ間における各楽音の発音タイミングの対応関係を表すアライメントを計算するアライメント処理をコンピュータに実行させるコンピュータプログラムであって、
前記複数の演奏の構成要素としての複数の楽音のスペクトルにそれぞれ相当する複数の基底、前記楽曲において同時に発音される楽音の組み合わせに対応する前記基底の組み合わせによって分類された複数の状態、前記複数の状態をそれぞれ構成する前記基底が属する前記演奏、及び前記複数の状態の時系列を推定する推定ステップと、
前記推定された前記複数の状態の時系列を用いて前記アライメントを計算するアライメント計算ステップと、
を含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。