JP6187132B2 - Score alignment apparatus and score alignment program - Google Patents
Score alignment apparatus and score alignment program Download PDFInfo
- Publication number
- JP6187132B2 JP6187132B2 JP2013217168A JP2013217168A JP6187132B2 JP 6187132 B2 JP6187132 B2 JP 6187132B2 JP 2013217168 A JP2013217168 A JP 2013217168A JP 2013217168 A JP2013217168 A JP 2013217168A JP 6187132 B2 JP6187132 B2 JP 6187132B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- score position
- tempo
- probability density
- musical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分(以下、楽譜位置と呼ぶ)を実時間で推定するスコアアライメント装置、及びスコアアライメント装置が備えるコンピュータに適用されるコンピュータプログラム(スコアアライメントプログラム)に関する。 The present invention analyzes the captured sound signal while capturing the sound signal representing the performance sound of the music, thereby allowing the currently played portion of the score of the music (hereinafter referred to as the score position) in real time. The present invention relates to a score alignment apparatus to be estimated and a computer program (score alignment program) applied to a computer provided in the score alignment apparatus.
従来から、例えば、下記非特許文献1及び2に示されているように、スコアアライメント装置(自動伴奏装置)は知られている。演奏者が楽曲を演奏するとき、その楽曲の楽譜通りに演奏することは稀であり、同じ部分を繰り返し演奏したり、弾けない部分を飛ばしたりすることがある。上記のような任意の楽譜位置遷移に対応するために、非特許文献1及び非特許文献2のスコアアライメント装置においては、演奏過程(楽譜位置の遷移)を確率モデルとして記述している。
Conventionally, for example, as shown in
現在の楽譜位置から他の全ての楽譜位置への遷移が可能とする場合、遷移後の楽譜位置を推定する際の計算量が著しく多くなる。そこで、非特許文献1においては、楽譜位置の遷移に適当な仮定を設定することにより、計算量の増大を抑制している。
When transition from the current score position to all other score positions is possible, the amount of calculation when estimating the score position after the transition is remarkably increased. Therefore, in
また、実時間で推定された楽譜位置の推定精度は、バッチ処理(非実時間処理)で推定された楽譜位置の推定精度に比べて低い。そこで、非特許文献2においては、現時点より所定の時間だけ前の楽譜位置を推定するとともにテンポ軌跡を推定し、両推定結果を用いて、現在の楽譜位置を推定している。
Further, the estimation accuracy of the score position estimated in real time is lower than the estimation accuracy of the score position estimated by batch processing (non-real time processing). Therefore, in
上記非特許文献1では、計算量の増大が抑制されてはいるが、十分ではない。また、上記非特許文献2では、テンポの推定に際し、状態系列を構成する各状態の確信度が考慮されていないため、楽譜位置の推定精度が低下する可能性がある。したがって、このようなスコアアライメント装置をメディアプレーヤ(自動伴奏装置、画像表示装置など(特許4399961号公報、特許4534926号公報など参照))に適用した場合、演奏者による演奏の進行位置と他のメディア(伴奏、画像など)の再生位置とがずれる可能性がある。つまり、演奏者の演奏に対する他のメディアの再生が不自然に感じられる可能性がある。
In the said
本発明は上記問題に対処するためになされたもので、その目的は、計算量の増大をより効果的に抑制するとともに、楽譜位置の推定精度を向上させたスコアアライメント装置を提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。 The present invention has been made to address the above problems, and an object of the present invention is to provide a score alignment apparatus that more effectively suppresses an increase in the amount of calculation and improves the accuracy of estimating a score position. . In addition, in the description of each constituent element of the present invention below, in order to facilitate understanding of the present invention, reference numerals of corresponding portions of the embodiment are described in parentheses, but each constituent element of the present invention is The present invention should not be construed as being limited to the configurations of the corresponding portions indicated by the reference numerals of the embodiments.
上記目的を達成するために、本発明の特徴は、楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分を表す楽譜位置及びテンポを実時間で推定するスコアアライメント装置(10)であって、楽譜位置をそれぞれ表す状態の系列として表された確率モデル(HSMM)であって、現在の状態が直前の状態に依存する性質と、現在の状態からいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算手段(S151〜S155)と、真の楽譜位置(xt)、真の楽譜位置の遷移速度(vt)、及び真の楽譜位置の遷移加速度(at)を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定手段(S162〜S165)と、を備えたスコアアライメント装置としたことにある。なお、上記の確率モデル(HSMM)の状態遷移においては、遷移前の状態と遷移後の状態が同じであってもよい。 In order to achieve the above object, a feature of the present invention represents a portion of a musical score currently being played in the musical score of the musical piece by analyzing the captured acoustic signal while taking in an acoustic signal representing the musical performance sound. A score alignment apparatus (10) for estimating a score position and a tempo in real time, a probability model (HSMM) expressed as a series of states each representing a score position, the current state depending on the immediately preceding state Score position probability density / tempo probability density calculation that calculates the probability density of the score position and the probability density of the tempo based on a probability model that has the property of being able to transition to any state from the current state and means (S151~S155), the true score position (x t), the transition rates of the true score position (v t), and the true score position of the transition acceleration (a t) using A score position / tempo determination means (S162 to S165) for determining the current score position and tempo using the calculated probability density sequence of the score position based on the expressed autoregressive process. The score alignment apparatus is used. In the state transition of the probability model (HSMM), the state before the transition and the state after the transition may be the same.
この場合、前記状態(Si,n,T(t))は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間(i)と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間(n)と、前記区間全体を演奏するのにかかる時間(T)とを用いて特定され、前記確率モデルは、前記状態の系列として表された隠れセミマルコフモデル(HSMM)であり、前記楽譜位置確率密度・テンポ確率密度計算手段は、前記隠れセミマルコフモデルに前向きアルゴリズムを適用することにより前記楽譜位置の確率密度及びテンポの確率密度を計算するとよい。 In this case, the state (S i, n, T (t)) includes the section (i) including the current score position among the plurality of sections obtained by dividing the score and the current score position. Is specified using a time (n) required to play from the beginning of the section including the current score position and a time (T) required to play the entire section, and the probability model is A hidden semi-Markov model (HSMM) represented as a sequence of states, wherein the score position probability density / tempo probability density calculating means applies a forward algorithm to the hidden semi-Markov model, Calculate the probability density of the tempo.
上記のように構成したスコアアライメント装置においては、まず、楽譜位置確率密度及びテンポ確率密度が計算される。そして、楽譜位置確率密度の系列及びテンポ確率密度の系列を用いて、高次の自己回帰過程に基づいて楽譜位置及びテンポが決定される。これによれば、テンポの時間微分(すなわち、楽譜位置の加速度)が連続的であって、且つ「0」に戻る傾向を示すという音楽音響信号の性質を表現できる。また、楽譜位置確率密度及びテンポ確率密度の分散が大きい区間では、楽譜位置確率密度の系列及びテンポ確率密度の系列の経路が平滑化されるという挙動が得られる。これにより、楽譜位置及びテンポの推定精度を向上させることができる。 In the score alignment apparatus configured as described above, first, a score position probability density and a tempo probability density are calculated. Then, the score position and the tempo are determined based on the higher-order autoregressive process using the score position probability density sequence and the tempo probability density sequence. According to this, it is possible to express the property of the music acoustic signal that the temporal differentiation of the tempo (that is, the acceleration of the musical score position) is continuous and shows a tendency to return to “0”. Further, in a section where the distribution of the score position probability density and the tempo probability density is large, a behavior is obtained in which the path of the score position probability density sequence and the tempo probability density sequence is smoothed. Thereby, the estimation accuracy of the score position and the tempo can be improved.
また、本発明の他の特徴は、前記楽譜位置確率密度・テンポ確率密度計算手段は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる平均的な時間とを用いて特定される状態の系列として表された隠れマルコフモデル(HMM)に基づいて、前記隠れセミマルコフモデルの区間のうち前向きアルゴリズムを適用する複数の区間を検索する区間検索手段(S153)を備えた、スコアアライメント装置としたことにある。 Another feature of the present invention is that the score position probability density / tempo probability density calculating means includes a section including a current score position among a plurality of sections obtained by dividing the score, Expressed as a sequence of states specified using the time taken to play from the beginning of the section containing the score position to the current score position and the average time taken to play the entire section The score alignment apparatus includes section search means (S153) for searching a plurality of sections to which the forward algorithm is applied among sections of the hidden semi-Markov model based on a hidden Markov model (HMM).
これによれば、通常の隠れマルコフモデルに前向きアルゴリズムを適用して前向き変数を計算し、前向き変数が最大となる状態(区間)が検索される。そして、隠れセミマルコフモデルにおいて、前記検索された状態(区間)に対応する区間を含む複数の区間に対して前向きアルゴリズムが適用され、楽譜位置確率密度及びテンポ確率密度が計算される。したがって、隠れセミマルコフモデルを構成する全ての区間に対して前向きアルゴリズムを適用する場合に比べて、計算量の増大を抑制することができる。 According to this, a forward variable is calculated by applying a forward algorithm to a normal hidden Markov model, and a state (section) in which the forward variable is maximized is searched. Then, in the hidden semi-Markov model, a forward algorithm is applied to a plurality of sections including a section corresponding to the searched state (section), and a score position probability density and a tempo probability density are calculated. Therefore, an increase in the amount of calculation can be suppressed as compared with the case where the forward algorithm is applied to all the sections constituting the hidden semi-Markov model.
なお、この場合、隠れマルコフモデル(HMM)の区間数を隠れセミマルコフモデル(HSMM)の区間数よりも多くすると良い。これによれば、前記隠れセミマルコフモデル(HSMM)の区間のうち前向きアルゴリズムを適用する複数の区間を、隠れマルコフモデル(HMM)の区間数と隠れセミマルコフモデル(HSMM)の区関数とが同一である場合に比べて、より適切に検索できる。 In this case, it is preferable that the number of sections of the hidden Markov model (HMM) is larger than the number of sections of the hidden semi-Markov model (HSMM). According to this, among the sections of the hidden semi-Markov model (HSMM), the number of sections of the hidden Markov model (HMM) is identical to the section function of the hidden semi-Markov model (HSMM). Compared to the case where it is, it can search more appropriately.
また、本発明は、スコアアライメント装置が備えるコンピュータに適用されるコンピュータプログラムとしても実施可能である。 The present invention can also be implemented as a computer program applied to a computer provided in the score alignment apparatus.
本発明の一実施形態に係るスコアアライメント装置10について説明する。スコアアライメント装置10は、楽曲の演奏を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析して、前記楽曲の楽譜のうちのどの部分が現在演奏されているのかを推定する。本実施形態では、楽譜を表わす楽譜データとして、標準MIDIファイル形式のデータを用いる。 A score alignment apparatus 10 according to an embodiment of the present invention will be described. The score alignment apparatus 10 analyzes the captured acoustic signal while capturing the acoustic signal representing the performance of the music, and estimates which part of the musical score of the music is currently being played. In the present embodiment, standard MIDI file format data is used as musical score data representing a musical score.
スコアアライメント装置10は、図1に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。
As shown in FIG. 1, the score alignment apparatus 10 includes an
入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、スコアアライメント処理の開始又は停止、スコアアライメント処理に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。
The
コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、後述するスコアアライメント処理の手順を表わしたスコアアライメントプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。
The
表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。例えば、コンピュータ部12は、後述するスコアアライメント処理により推定された楽譜位置を表わす表示データを表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。
The
また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、楽譜を表わす楽譜データ(標準MIDIファイル)が記憶されている。楽譜データは予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。
The
外部インターフェース回路15は、スコアアライメント装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。スコアアライメント装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。 The external interface circuit 15 includes a connection terminal that enables the score alignment device 10 to be connected to an external device such as an electronic music device or a personal computer. The score alignment apparatus 10 can be connected to a communication network such as a LAN (Local Area Network) or the Internet via the external interface circuit 15.
サウンドシステム16は、ディジタル音信号を生成する音源回路、前記生成されたディジタル音信号をアナログ音信号に変換するD/A変換器、前記変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力するスピーカを備えている。また、サウンドシステム16は、楽曲の演奏により放音された楽音を収音するためのマイク、収音された楽音を表わすアナログ音信号をディジタル音信号に変換するA/D変換器、変換されたディジタル音信号を表わすサンプルデータを一時的に記憶するバッファも備えている。つまり、サウンドシステム16は、楽音を所定のサンプリング周期(例えば、1/44100sec)でサンプリングし、サンプリングによって得られたサンプルデータを前記バッファに記憶する。
The
次に、楽譜位置及びテンポの推定手法について説明する。スコアアライメント装置10は、図2に示すように、まず、マイクを介して楽曲の演奏を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析して現在演奏されている楽譜位置の確率密度及び現在のテンポの確率密度を計算する。そして、前記計算された確率密度の系列を用いて、最適な楽譜位置及びテンポを決定する。前記決定された楽譜位置及びテンポは、制御対象(表示器13、サウンドシステム16など)の制御に用いられる。
Next, a score position and tempo estimation method will be described. As shown in FIG. 2, the score alignment apparatus 10 first analyzes the captured acoustic signal while capturing the acoustic signal representing the performance of the music through the microphone, and the probability density of the currently played musical score position and the current Calculate the probability density of the tempo. Then, an optimal score position and tempo are determined using the calculated probability density series. The determined musical score position and tempo are used to control a control target (
次に、楽譜位置及びテンポの確率密度の計算手法について説明する。本実施形態では、以下説明するように、前記複数の区間の系列が隠れセミマルコフモデルHSMM(図3、式(2)参照)としてモデル化される。まず、図3に示すように、楽曲の楽譜が複数の区間i(=1,2,・・・,I)に分割される。各区間の長さは同一である。例えば、各区間の長さは、4分音符1つ分の長さである。「i」は、楽曲の先頭から数えて何番目の区間であるかを表わすインデックスである。実際の演奏に対応した楽譜は、上記のように分割された複数の区間の系列として表現可能である。 Next, a method for calculating the score density and the tempo probability density will be described. In the present embodiment, as will be described below, the series of the plurality of sections is modeled as a hidden semi-Markov model HSMM (see FIG. 3, equation (2)). First, as shown in FIG. 3, the musical score is divided into a plurality of sections i (= 1, 2,..., I). The length of each section is the same. For example, the length of each section is the length of one quarter note. “I” is an index indicating the number of sections counted from the beginning of the music. The score corresponding to the actual performance can be expressed as a series of a plurality of sections divided as described above.
1つの区間を演奏するのにかかる時間(演奏が1つの区間に留まる時間)は、テンポに依存する。例えば、テンポが60BPM(Beats Per Minute)の場合は、1つの区間を演奏するのに1秒かかる。また、テンポが120BPMの場合は、1つの区間を演奏するのに0.5秒かかる。ここで、例えば0.1秒を単位時間とするフレームの数として表現すれば、テンポが60BPMの場合は、1つの区間を演奏するのに10フレーム分の時間がかかり、テンポが120BPMの場合は、1つの区間を演奏するのに5フレーム分の時間がかかる。 The time taken to play one section (the time during which the performance stays in one section) depends on the tempo. For example, when the tempo is 60 BPM (Beats Per Minute), it takes 1 second to play one section. When the tempo is 120 BPM, it takes 0.5 seconds to play one section. Here, if expressed as the number of frames with a unit time of 0.1 seconds, for example, when the tempo is 60 BPM, it takes 10 frames to play one section, and when the tempo is 120 BPM. It takes time for 5 frames to play one section.
時刻t(楽曲の先頭から数えてt番目のフレーム)において区間iが演奏されており、区間iを演奏するのにフレーム数Tに相当する時間がかかることが確定していて、区間iの先頭から数えてn番目のフレームまで演奏し終えた状態(区間iの先頭から現在の楽譜位置まで演奏するのにn個分のフレームの時間がかかった状態)を状態Si,n,T(t)と表記する。図3における○印は、各状態Si,n,T(t)に対応している。なお、各区間内ではテンポは変化しないものとする。つまり、同図において矢印で結ばれた○印の各系列においては、左側の○印から右側の○印へ順に遷移する。したがって、各系列を構成する○印の数がテンポに対応している。すなわち、○印の数が少ない系列ほどテンポが速く、○印の数が多い系列ほどテンポが遅い。よって、各区間において初期状態を1つ選択すれば、演奏がその区間に留まる長さ(フレーム数T)が確定する。 The section i is played at time t (t-th frame from the beginning of the music), and it is determined that it takes time corresponding to the number of frames T to play the section i. The state in which the performance has been completed up to the nth frame from the beginning (the state in which it took n frames to perform from the beginning of the section i to the current score position) is the state S i, n, T (t ). The circles in FIG. 3 correspond to the states S i, n, T (t). It is assumed that the tempo does not change within each section. That is, in each series of circles connected by arrows in the figure, the transition from the left circle to the right circle is sequentially performed. Therefore, the number of circles constituting each series corresponds to the tempo. That is, the tempo is faster as the series has a smaller number of circles, and the tempo is slower as the series has a larger number of circles. Therefore, if one initial state is selected in each section, the length (number of frames T) that the performance stays in that section is determined.
また、通常、演奏は楽譜の先頭から末尾へ向かって順に進行するので、1つの区間の演奏が終了したとき、その区間の1つ後の区間への遷移のみが許容される。ここで、区間iから区間jへ遷移する確率を確率τi,jと表記する。また、1つの区間の末尾の状態から、次の区間の初期状態へ遷移するときには、任意の初期状態へ遷移可能とする。つまり、1つの区間から次の区間へ遷移するとき、テンポが変更され得る。ここで、フレーム数T´に相当するテンポから、フレーム数Tに相当するテンポに遷移する確率を確率τT‘,Tと表記する。すると、状態Si´,n´,T´(t)から状態Si,n,T(t+1)へ遷移する確率である状態遷移確率τ(i´,n´,T´)〜(i,n,T)は、下記の式(1)のように表わされる。なお、本実施形態では、説明を簡単にするために、楽譜位置を遠く離れた区間へ遷移させる演奏記号(ダ・カーポ、繰り返し記号など)が楽譜に含まれないと仮定する。
しかし、演奏者が楽曲を実際に演奏するとき、楽譜では指定されていない部分を繰り返し演奏したり、弾けない部分を飛ばしたりすることがある。つまり、楽譜位置が、隣接する区間ではなく、遠く離れた区間へ遷移する(ジャンプする)可能性がある。そこで、隠れマルコフモデルHMMや隠れセミマルコフモデルHSMMに従って区間が遷移する確率γ、状態Si,n,Tを観測する確率πi,n,T、及び状態Si,n,Tの観測尤度Oi,n,T(t)を用いて、下記の式(2)に示すようなモデルを設定する。観測尤度Oi,n,T(t)については後述する。
次に、サウンドシステム16によってサンプリングされた楽音のフレームtに含まれる各音高mのパワーym(t)及び1つ前のフレームからのパワーの増加量Δym(t)が音響信号の特徴量として計算される。ここで、パワーym(t)の観測尤度及びパワーの増加量Δym(t)の観測尤度は、式(3)及び式(4)に示すように、それぞれvon Mises−Fisher分布に従うと仮定する。
すると、式(2)の観測尤度Oi,n,T(t)は、下記の式(5)のように表わされる。
なお、上記式(3)及び式(4)における「κ」は、von Mises Fisher分布の集中度を表わす。つまり、「κ」が大きいほど、パワーym(t)及びパワーの増加量Δym(t)の観測尤度の分布図において、平均値を中心に急峻なピークが形成される。「κ」の値は、例えば「100」に設定される。また、「w(k)」は音響信号の特徴量のテンプレート(以下、音モデルと呼ぶ)である。「k」は音モデルを特定するためのインデックスである。各音モデルは、各楽器を用いて各音高の楽音(単音)をそれぞれ発生させ、それらの楽音の特徴量を計算して記録したデータである。例えば、「w(k=1)」は、ピアノを弾いてMIDIノートナンバが「69」に相当する音高の音を発生させ、その特徴量(パワー)を記録したデータである。また、例えば、「w(k=2)」は、バイオリンを弾いてMIDIノートナンバが「69」に相当する音高の楽音を発生させ、その特徴量(パワー)を記録したデータである。また、「h」は、各音モデルの強度を表わす。なお、発音数が多い楽曲の場合、設定された各音モデルの強度と実際に演奏された楽音の強度に大きな差が生じることがある。この場合、「κ」の値を小さくして、分散をより大きくすればよい。 Note that “κ” in the above formulas (3) and (4) represents the degree of concentration of the von Mises Fisher distribution. That is, as “κ” is larger, a sharper peak is formed around the average value in the distribution of observation likelihood of the power y m (t) and the increase amount Δy m (t) of the power. The value of “κ” is set to “100”, for example. Further, “w (k)” is a template for a characteristic amount of an acoustic signal (hereinafter referred to as a sound model). “K” is an index for specifying a sound model. Each sound model is data obtained by generating musical tones (single notes) of each pitch using each musical instrument, and calculating and recording characteristic quantities of those musical tones. For example, “w (k = 1)” is data obtained by playing a piano to generate a sound having a pitch corresponding to a MIDI note number “69” and recording the characteristic amount (power). Further, for example, “w (k = 2)” is data in which a musical tone having a pitch corresponding to a MIDI note number “69” is generated by playing a violin and the characteristic amount (power) is recorded. “H” represents the intensity of each sound model. In the case of music with a large number of pronunciations, there may be a large difference between the intensity of each set sound model and the intensity of the musical sound actually played. In this case, the value of “κ” may be decreased to increase the dispersion.
パワーym(t)の観測尤度(式(3))に関して具体的に説明する。説明を簡単にするために、分析対象の楽曲は、単一の楽器で演奏される楽曲とし、音モデルのインデックスとしての「k」とMIDIノートナンバNNとが一致すると仮定する。ここで、現在の状態が状態Si=4,n=6,T=12であるとする。このときのパワーym(t)の観測尤度について考察する。この場合、i+n/T=4+6/12=4.5であるから楽譜位置4.5に対応する「h(4.5)」を抽出する。図4においては、各音モデルの強度(つまり「h」の大きさ)を濃淡グラフとして示している。同図において濃く示された要素の強度が大きい。この例ではk=69の要素の強度が大きいので、結果として、パワーym(t)の観測尤度は、「w(k=69)」の要素が支配的である平均値を持つように分布する。 The observation likelihood (formula (3)) of the power y m (t) will be specifically described. In order to simplify the explanation, it is assumed that the music to be analyzed is a music played by a single instrument, and that “k” as the sound model index matches the MIDI note number NN. Here, it is assumed that the current state is the state S i = 4, n = 6, T = 12 . Consider the observation likelihood of power y m (t) at this time. In this case, since i + n / T = 4 + 6/12 = 4.5, “h (4.5)” corresponding to the score position 4.5 is extracted. In FIG. 4, the intensity (that is, the magnitude of “h”) of each sound model is shown as a gray scale graph. The strength of elements shown dark in the figure is large. In this example, the intensity of the element of k = 69 is large, and as a result, the observation likelihood of the power y m (t) has an average value in which the element of “w (k = 69)” is dominant. Distributed.
隠れセミマルコフモデルHSMMにおける前向き変数αi,n,T(t)は、下記の式(6)のように表される。
この式(6)を整理すると、下記の式(7)に示す漸化式が得られる。
ここで、説明を簡単にするために、いずれの楽譜位置にも一様に遷移可能なモデルについて考察する。この場合、状態Sを観測する確率πは、状態数|S|を用いて、式(8)のように表わされる。
また、初期の状態に遷移する確率(1−γ)を「0.01」とすると、状態iの観測尤度Oi(t)、状態iから状態jへの遷移確率τi,j、状態iの前向き変数αi(t)を用いて、前向き変数αの更新式は、式(9)のように表わされる。
式(9)における「τi,j×0.99」の部分と、「0.01/|S|」の部分は、楽譜データを読み込んだ際に計算しておくことができる。一方、式(7)において、「γ」の値を「1」とすれば、式(10)に示すように、通常の隠れマルコフモデルHMMにおける前向き変数の漸化式が得られる。
したがって、隠れセミマルコフモデルHSMMにおける前向き変数の更新の演算と、通常の隠れマルコフモデルHMMにおける前向き変数の更新の演算との違い(オーバーヘッド)は、「0.01/|S|」を加算する処理のみである。なお、この例では、いずれの楽譜位置にも一様に遷移可能としているが、状態遷移が制限されている場合であってもオーバーヘッドに関しては、この例と同様である。 Therefore, the difference (overhead) between the computation of the forward variable update in the hidden semi-Markov model HSMM and the computation of the forward variable update in the normal hidden Markov model HMM is a process of adding “0.01 / | S |”. Only. In this example, it is possible to make uniform transition to any musical score position, but the overhead is the same as in this example even when state transition is restricted.
本実施形態においては、分割された区間の時系列を隠れセミマルコフモデルHSMMとしてモデル化しているので、通常の隠れマルコフモデルとしてモデル化した場合に比べて状態数が膨大であり、区間i、フレーム数n及びフレーム数Tの組み合わせの数も膨大である。したがって、前向きアルゴリズムを用いて楽譜位置の確率密度を計算すると、計算量が膨大になってしまう。そこで、スコアアライメント装置10は、以下説明するように、通常の隠れマルコフモデルHMMを用いて、前向きアルゴリズムを適用する隠れセミマルコフモデルHSMMの区間を絞り込む区間検索手段を備える。 In the present embodiment, the time series of the divided sections is modeled as a hidden semi-Markov model HSMM, so the number of states is enormous compared to the case of modeling as a normal hidden Markov model, and the section i, frame The number of combinations of the number n and the frame number T is also enormous. Therefore, if the probability density of the score position is calculated using a forward algorithm, the calculation amount becomes enormous. Therefore, as will be described below, the score alignment apparatus 10 includes section search means for narrowing down a section of a hidden semi-Markov model HSMM to which a forward algorithm is applied using a normal hidden Markov model HMM.
通常の隠れマルコフモデルHMMは次のように定義される。すなわち、上記の隠れセミマルコフモデルHSMMと同様に楽譜を分割し、分割した区間のそれぞれに状態変数を割り当てる。ただし、隠れセミマルコフモデルHSMMの区間数よりも隠れマルコフモデルHMMの区間数のほうが多くなるように楽譜を分割する。例えば、隠れセミマルコフモデルHSMMにおいては、それぞれの区間の長さが4分音符の長さになるように楽譜を分割し、隠れマルコフモデルHMMにおいては、それぞれの区間の長さが32分音符の長さになるように楽譜を分割する。また、各状態(区間)は自分自身にも遷移可能とする。つまり、隠れマルコフモデルHMMにおいては、ある状態から自分自身に遷移する確率が「τ(HMM)」であり、ある状態から1つ後ろの状態へ遷移する確率が「1−τ(HMM)」である。このような隠れマルコフモデルHMMに対して実時間で前向きアルゴリズムを適用し、各フレームtにおいて前向き変数が最大となる状態を検索する。そして、前記検索した状態に対応する隠れセミマルコフモデルHSMMの区間に隣接する所定数(例えば16個(4拍子の曲の4小節分))の区間ΔSにのみ前向きアルゴリズムを適用する。 A normal hidden Markov model HMM is defined as follows. That is, the score is divided in the same manner as the above-described hidden semi-Markov model HSMM, and a state variable is assigned to each of the divided sections. However, the musical score is divided so that the number of sections of the hidden Markov model HMM is larger than the number of sections of the hidden semi-Markov model HSMM. For example, in the hidden semi-Markov model HSMM, the score is divided so that the length of each section is the length of a quarter note. In the hidden Markov model HMM, the length of each section is a 32nd note. Divide the score into lengths. Each state (section) can also transition to itself. That is, in the hidden Markov model HMM, the probability of transition from a certain state to itself is “τ (HMM) ”, and the probability of transition from one state to the next state is “1-τ (HMM) ”. is there. A forward algorithm is applied to such a hidden Markov model HMM in real time to search for a state in which the forward variable is maximum in each frame t. Then, the forward algorithm is applied only to a predetermined number (for example, 16 pieces (four bars of music of four beats)) adjacent to the section of the hidden semi-Markov model HSMM corresponding to the searched state.
なお、「τ(HMM)」は、1フレームあたりに遷移する区間数とみなすことができる。この「区間」とは、隠れマルコフモデルHMMの区間である。したがって、自分自身に遷移する確率を表す「τ(HMM)」と、現在推定されているテンポ(すなわちフレーム数T)とが整合していないと、区間ΔSが適切に得られない可能性がある。そこで、隠れセミマルコフモデルHSMMに基づいて計算された確率密度を用いて、現在のフレーム数Tに対する分布(=Σi,nαi,n,T(t))を計算する。そして、現在のフレーム数Tを用いて1フレームあたりに遷移する区間数の期待値を計算することにより、「τ(HMM)」を決定する。これにより、隠れマルコフモデルHMMと隠れセミマルコフモデルHSMMのテンポが整合する。 Note that “τ (HMM) ” can be regarded as the number of sections that transition per frame. This “section” is a section of the hidden Markov model HMM. Therefore, if “τ (HMM) ” representing the probability of transition to itself does not match the currently estimated tempo (that is, the number of frames T), the section ΔS may not be appropriately obtained. . Therefore, the distribution (= Σ i, n α i, n, T (t)) with respect to the current frame number T is calculated using the probability density calculated based on the hidden semi-Markov model HSMM. Then, “τ (HMM) ” is determined by calculating the expected value of the number of transitions per frame using the current frame number T. Thereby, the tempos of the hidden Markov model HMM and the hidden semi-Markov model HSMM are matched.
次に、前記計算された楽譜位置確率密度及びテンポ確率密度の系列に基づいて、現在の楽譜位置を決定する手法について説明する。上記非特許文献2においては、テンポの連続性を1次の自己回帰過程としてモデル化していた。つまり、フレームtにおけるテンポを「νt」とし、平均値が「0」であって、分散σ2が「0」より大きい正規分布に従う独立なテンポ変化量εtに対して、νt=νt−1+εtというモデルを仮定していた。しかし、音楽音響信号においては、テンポを速く(遅く)しているときには、ある程度連続した区間でεtが正(負)の値をとり、かつテンポの時間微分(つまり、楽譜位置の加速度)は「0」に戻る傾向にある。つまり、あるフレームにおけるテンポ変化量εtは、そのフレームに隣接するフレームのテンポ変化量εtに依存する。
Next, a method for determining the current score position based on the calculated score position probability density and tempo probability density series will be described. In
そこで、本実施形態においては、さらに高次の情報を採り入れる。フレームtに関する楽譜位置の確率密度を楽譜位置確率密度Uq(t)、テンポの確率密度をテンポ確率密度VT(t)と表記する。ここで、「q」は、任意の「M」に対して、「q=round(M(i+n/T))」なる演算式により定義される変数である。つまり、「VT(t)」は、「q」が1フレームあたりに「M/T」だけ遷移する確率である。 Therefore, in this embodiment, higher order information is adopted. The probability density of the musical score position related to the frame t is expressed as a musical score position probability density U q (t), and the probability density of the tempo is expressed as tempo probability density V T (t). Here, “q” is a variable defined by an arithmetic expression “q = round (M (i + n / T))” for an arbitrary “M”. That is, “V T (t)” is a probability that “q” transitions by “M / T” per frame.
ここで、フレームtにおける真の楽譜位置を楽譜位置xt、真の楽譜位置の遷移速度をテンポvt、真の楽譜位置の遷移加速度を加速度atと表記する。つまり、テンポvtは、楽譜位置xtの一階微分に相当し、加速度atは、楽譜位置xtの二階微分に相当する。そして、下記の式(11)〜式(13)によって定義される状態空間モデル(高次の自己回帰過程)を設定する。すなわち、楽譜位置の推移を表わす楽譜位置軌跡モデル、テンポの推移を表わすテンポ軌跡モデル、及び加速度の推移を表わす加速度軌跡モデルを設定する。
なお、式(13)における「r」は加速度atの減衰係数である。この減衰係数の作用により、加速度atは、連続的に変化し、かつ「0」に戻るという傾向を示す。また、「r」が大きいとテンポの変化が緩やかになり、「r」が小さいとテンポの変化が激しくなる傾向を示す。「r」は例えば、「0.5」に設定される。実演奏のテンポデータに基づいて、「r」を最適な値に設定しても良い。 Note that "r" in the equation (13) is the attenuation coefficient of the acceleration a t. By the action of the damping coefficient, the acceleration a t is a tendency that continuously changes, and return to "0". In addition, when “r” is large, the change in tempo becomes gentle, and when “r” is small, the change in tempo tends to become intense. “R” is set to “0.5”, for example. “R” may be set to an optimal value based on the tempo data of the actual performance.
上記の状態空間モデルがどのような観測値(つまり、楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)を生成するかをモデル化できれば、状態遷移と観測尤度を同時に考慮することにより、状態変数を推論することができる。そこで、楽譜位置確率密度Uq(t)の平均値μ(Uq(t))及び分散σ2(Uq(t))、並びにテンポ確率密度VT(t)の平均値μ(VT(t))及び分散σ2(VT(t))を下記の式(14)〜式(17)を用いて計算する。
つまり、推定された現在の楽譜位置xtの周辺のフレームに関する楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)の平均値及び分散を計算する。そして、観測尤度を下記の式(18)に示すように定義する。
すなわち、まず、現在のフレームよりN個前に位置するフレームと現在のフレームとの間における楽譜位置確率密度の系列及びテンポ確率密度の系列から、楽譜位置xtの周辺のフレームの確率密度の系列をそれぞれ抽出する。ここで、ΔT個だけ前に位置するフレームにおいて計算された確率密度を正規分布と見なす。つまり、ΔT個だけ前に位置するフレームにおいて計算された確率密度のヒストグラムの平均及び分散を正規分布の平均及び分散と見なす。そして、楽譜位置xt、テンポvt及び加速度atを用いて、ΔT個だけ前に位置するフレームにおけるテンポ軌跡モデル及び加速度軌跡モデルの尤度を計算する。図5は、計算された楽譜位置観測密度の系列に対するテンポ軌跡モデルを推定する過程を示す概念図である。実際には、テンポ確率密度の系列に対する加速度軌跡モデルも推定する。カルマンフィルタを用いれば、上記のような楽譜位置軌跡モデル、テンポ軌跡モデル及び加速度軌跡モデルを実時間で推定できる。カルマンフィルタの更新ステップが実行され、更新された状態の推定値を用いて、楽譜位置xtの平均値〈xt〉、及びテンポvtの平均値〈vt〉が計算される。そして、前記計算された楽譜位置xtの平均値〈xt〉、及びテンポvtの平均値〈vt〉が、現在の楽譜位置及びテンポとして決定される。 That is, first, from the sequence of the sequence and the tempo probability density of score position probability density between the current frame and the current frame located N pieces prior frame, a sequence of probability density of the frame around the score position x t Are extracted respectively. Here, the probability density calculated in a frame located by ΔT pieces before is regarded as a normal distribution. That is, the mean and variance of the histogram of probability density calculated in the frame located by ΔT before are regarded as the mean and variance of the normal distribution. The score position x t, using the tempo v t and the acceleration a t, calculates the likelihood of the tempo track model and acceleration trajectory model in frame located before ΔT pieces only. FIG. 5 is a conceptual diagram showing a process of estimating a tempo trajectory model for the calculated musical score position observation density sequence. In practice, an acceleration trajectory model for the tempo probability density series is also estimated. If the Kalman filter is used, the musical score position trajectory model, the tempo trajectory model, and the acceleration trajectory model as described above can be estimated in real time. An update step of the Kalman filter is executed, and the average value <x t > of the musical score position x t and the average value <v t > of the tempo v t are calculated using the updated estimated value. Then, the calculated average value <x t > of the musical score position x t and the average value <v t > of the tempo v t are determined as the current musical score position and tempo.
次に、スコアアライメント装置10の動作について具体的に説明する。CPU12aは、図6Aに示すように、ステップS10にて、スコアアライメントプログラムをROM12bから読み込んで、スコアアライメント処理を開始する。次に、CPU12aは、ステップS11にて、表示器13に楽譜データのリストを表示する。ユーザは、表示されたリストの中から、スコアアライメント処理を実行する対象の楽曲(つまり、演奏される楽曲)の楽譜データを、入力操作子11を用いて選択する。次に、CPU12aは、ステップS12にて、前記選択された楽譜データを記憶装置14から読み込んで、複数の区間i(=1,2,・・・,I)に分割する。
Next, the operation of the score alignment apparatus 10 will be specifically described. As shown in FIG. 6A, the
次に、CPU12aは、ステップS13にて、サウンドシステム16に、楽音のサンプリングを開始させる。次に、CPU12aは、ステップS14にて、処理対象のフレームを最初のフレームに設定する。すなわち、フレームのインデックスである「t」の値を「1」に設定する。
Next, in step S13, the
次に、CPU12aは、ステップS15にて、楽譜位置確率密度・テンポ確率密度計算処理を実行する。図6Bに示すように、CPU12aは、ステップS150にて楽譜位置確率密度・テンポ確率密度計算処理を開始する。次に、CPU12aは、ステップS151にて、フレームtに含まれる音響信号(サンプルデータ)をサウンドシステム16のバッファから読み込む。次に、CPU12aは、ステップS152にて、上記式(3)乃至式(5)に基づいて、観測尤度Oi,n,T(t)を計算する。次に、CPU12aは、ステップS153にて、前記計算された観測尤度Oi,n,T(t)を用いて、通常の隠れマルコフモデルHMMに前向きアルゴリズムを適用し、フレームtにおいて前向き変数が最大となる状態を検出する。これにより、隠れセミマルコフモデルHSMMに前向きアルゴリズムを適用する区間が決定される。次に、CPU12aは、ステップS154にて、隠れセミマルコフモデルHSMMを構成する複数の区間のうち、前記決定された区間に前向きアルゴリズムを適用する(式(7)参照)。次に、CPU12aは、ステップS155にて、隠れセミマルコフモデルHSMMに前向きアルゴリズムを適用して計算された前向き変数を用いて、楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)を計算する。そして、CPU12aは、ステップS156にて、楽譜位置確率密度・テンポ確率密度計算処理を終了し、アライメント計算処理のステップS16に処理を進める。
Next, in step S15, the
次に、CPU12aは、ステップS16にて、楽譜位置・テンポ決定処理を実行する。CPU12aは、図6Cに示すように、ステップS160にて、楽譜位置・テンポ決定処理を開始する。次に、CPU12aは、ステップS161にて、楽譜位置がジャンプしたか否かを判定する。具体的には、現在のフレームに関して計算された楽譜位置確率密度Uq(t)と、1つ前のフレームに関して計算された楽譜位置確率密度Uq(t−1)との差に基づいて、楽譜位置がジャンプしたか否かを判定する。例えば、現在のフレームにおける楽譜位置確率密度Uq(t)及び1つ前のフレームにおける楽譜位置確率密度Uq(t−1)に基づいて、最も可能性の高い楽譜位置(隠れセミマルコフモデルHSMMの前向き変数の値が最も大きい状態)をそれぞれ検出し、前記検出した現在のフレームの楽譜位置と1つ前のフレームの楽譜位置とが4小節以上離れている場合に、楽譜位置がジャンプしたと判定する。楽譜位置がジャンプしていない場合には、CPU12aは、「No」と判定して、ステップS162にて、上記式(14)乃至式(17)に基づいて、楽譜位置xtの周辺のフレームにおける楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)の平均値及び分散を計算する。次に、CPU12aは、ステップS163にて、上記式(18)に基づいて観測尤度を計算し、カルマンフィルタを用いてテンポ推移モデル及び加速度推移モデルを推定する。
Next, in step S16, the
一方、楽譜位置がジャンプした場合には、CPU12aは、ステップS161において「Yes」と判定する。そして、CPU12aは、ステップS164にて、楽譜位置xt、テンポvt、及び加速度atの値を次のように設定する。例えば、現在のフレームにおける楽譜位置確率密度Uq(t)に基づいて、最も可能性の高い楽譜位置を検出し、前記検出した楽譜位置を楽譜位置xtとして設定する。また、テンポvtを規定値(例えば「120BPM」)に設定する。また、加速度atを規定値(例えば「0」)に設定する。
On the other hand, if the musical score position jumps, the
そして、CPU12aは、ステップS165にて、楽譜位置推移モデル、テンポ推移モデル及び加速度推移モデルの推定結果を用いて楽譜位置及びテンポを決定して、前記決定した楽譜位置及びテンポに応じて制御対象を制御する。
In step S165, the
例えば、楽曲の楽譜を表示器13に表示し、前記決定した楽譜位置(音符)の色を他の部分の色とは異ならせることにより、現在の楽譜位置を明示する。また、例えば、推定された楽譜位置に対応する静止画、動画などを表示する。例えば、静止画を表わす静止画データのファイル名と楽譜位置を予め対応させておき、推定された楽譜位置に対応する静止画データを用いて静止画を表示器13に表示してもよい。また、例えば、動画を表わす動画データの再生位置(例えばフレーム番号)と楽譜位置を予め対応付けておき、前記動画のうち、推定された楽譜位置に対応する部分を表示器13に表示してもよい。また、例えば、伴奏を表わす伴奏データの再生位置(例えば小節番号)と楽譜位置を予め対応付けておき、推定された楽譜位置に対応する部分のデータをサウンドシステム16の音源回路に送信して、伴奏の楽音を放音させてもよい。伴奏を再生する際には、伴奏のテンポを前記決定したテンポに設定すればよい。
For example, the musical score of the music is displayed on the
次に、CPU12aは、前記計算された前向き変数αi,n,T(t)を用いて、ステップS166にて、隠れマルコフモデルHMMの状態遷移確率を更新する。具体的には、まず、セミマルコフモデルHSMMの前向き変数を用いて、現在のフレーム数Tの期待値〈T〉を計算する。隠れセミマルコフモデルHSMMにおいて、フレーム数Tの値が平均値〈T〉である場合、1フレームあたりに遷移する区間数は、「1/〈T〉」と表わされる。また、上記のように、「τ(HMM)」は、1フレームあたりに遷移する隠れマルコフモデルHMMの区間数とみなすことができる。したがって、隠れセミマルコフモデルHSMMの区間長と隠れマルコフモデルHMMの区間長との比を「φ」(=隠れセミマルコフモデルHSMMの区間長/隠れマルコフモデルHMMの区間長)とすると、「τ(HMM)=φ/〈T〉」と表わされる。「τ(HMM)」は「0」以上、且つ「1」以下の値として定義されているため、「τ(HMM)」は、次の式(19)に基づいて更新される。
そして、CPU12aは、ステップS167にて、楽譜位置決定処理を終了し、アライメント計算処理のステップS17に処理を進める。
Then, in step S167, the
次に、CPU12aは、ステップS17にて、処理対象のフレームを次のフレームに設定する。すなわち、フレームのインデックスである「t」の値をインクリメントする。これ以降、CPU12aは、ステップS15乃至ステップS17を繰り返し実行する。ただし、ユーザが入力操作子11を用いてスコアアライメント処理の終了を指示すると、CPU12aは、制御対象の動作を停止させ、スコアアライメント処理を終了する。
Next, in step S17, the
上記のように構成したスコアアライメント装置10においては、まず、楽譜位置確率密度及びテンポ確率密度を計算する。そして、楽譜位置確率密度Uq(t)の系列及びテンポ確率密度VT(t)の系列を用いて、高次の自己回帰過程に基づいて楽譜位置及びテンポを決定する。これによれば、テンポの時間微分(すなわち、楽譜位置の加速度)が連続的であって、且つ「0」に戻る傾向を示すという音楽音響信号の性質を表現できる。また、隠れセミマルコフモデルHSMMを用いて計算された楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)の分散が大きい区間では、楽譜位置確率密度の系列及びテンポ確率密度の系列の経路が平滑化されるという挙動が得られる。これにより、楽譜位置の推定精度を向上させることができる。したがって、スコアアライメント装置10をメディアプレーヤに適用すれば、演奏者による演奏の進行位置と他のメディア(自動伴奏、画像など)の再生位置とのずれを従来よりも抑制できる。つまり、演奏者による演奏に対する他のメディアの再生が不自然に感じられることを抑制できる。 In the score alignment apparatus 10 configured as described above, first, a score position probability density and a tempo probability density are calculated. Then, the score position and the tempo are determined based on the higher-order autoregressive process using the sequence of the score position probability density U q (t) and the sequence of the tempo probability density V T (t). According to this, it is possible to express the property of the music acoustic signal that the temporal differentiation of the tempo (that is, the acceleration of the musical score position) is continuous and shows a tendency to return to “0”. In addition, in a section where the variance of the score position probability density U q (t) and the tempo probability density V T (t) calculated using the hidden semi-Markov model HSMM is large, the score position probability density series and the tempo probability density series The behavior of smoothing the path is obtained. Thereby, the estimation accuracy of the score position can be improved. Therefore, if the score alignment apparatus 10 is applied to a media player, it is possible to suppress the shift between the performance position of the performance by the performer and the playback position of other media (automatic accompaniment, images, etc.). That is, it is possible to suppress the reproduction of other media in response to the performance by the performer from being unnatural.
また、通常の隠れマルコフモデルHMMに前向きアルゴリズムを適用して前向き変数を計算し、前向き変数が最大となる状態(区間)を検索する。そして、隠れセミマルコフモデルHSMMにおいて、前記検索された状態(区間)に対応する区間を含む複数の区間ΔSに対して前向きアルゴリズムを適用して楽譜位置確率密度Uq(t)及びテンポ確率密度VT(t)を計算している。したがって、隠れセミマルコフモデルHSMMを構成する全ての区間に対して前向きアルゴリズムを適用する場合に比べて、計算量の増大を抑制することができる。 Further, a forward variable is calculated by applying a forward algorithm to a normal hidden Markov model HMM, and a state (section) in which the forward variable is maximized is searched. Then, in the hidden semi-Markov model HSMM, the score position probability density U q (t) and the tempo probability density V are applied by applying a forward algorithm to a plurality of sections ΔS including a section corresponding to the searched state (section). T (t) is calculated. Therefore, an increase in the amount of calculation can be suppressed as compared with the case where the forward algorithm is applied to all the sections constituting the hidden semi-Markov model HSMM.
また、隠れセミマルコフモデルHSMMの区間数よりも隠れマルコフモデルHMMの区間数のほうが多くなるように楽譜を分割した。これにより、隠れセミマルコフモデルHSMMの区間のうち前向きアルゴリズムを適用する複数の区間を、隠れマルコフモデルHMMの区間数と隠れセミマルコフモデルHSMMの区関数とが同一である場合に比べて、より適切に検索できる。 Further, the musical score was divided so that the number of sections of the hidden Markov model HMM was larger than the number of sections of the hidden semi-Markov model HSMM. Accordingly, a plurality of sections to which the forward algorithm is applied among the sections of the hidden semi-Markov model HSMM are more appropriate as compared with the case where the number of sections of the hidden Markov model HMM and the section function of the hidden semi-Markov model HSMM are the same. Can be searched.
さらに、本発明の実施にあたっては、上記実施形態に限定されるものではなく、本発明の目的を逸脱しない限りにおいて種々の変更が可能である。 Furthermore, in carrying out the present invention, the present invention is not limited to the above embodiment, and various modifications can be made without departing from the object of the present invention.
例えば、上記実施形態では、楽譜にダ・カーポ、繰り返し記号などが含まれないと仮定しているが、楽譜にダ・カーポ、繰り返し記号などが含まれる場合には、それらの演奏記号に従って区間の遷移確率を適当に設定すればよい。例えば、繰り返し記号が含まれる場合には、繰り返し区間のうちの末尾の区間から、繰り返し区間の先頭へ遷移する確率を50%とし、繰り返し区間の末尾の区間から、前記末尾の区間の1つ後の区間へ遷移する確率を50%とすればよい。 For example, in the above embodiment, it is assumed that the score does not include da-capo, repeated symbols, etc., but if the score includes da-capo, repeated symbols, etc. What is necessary is just to set a transition probability appropriately. For example, when a repetition symbol is included, the probability of transitioning from the end section of the repeat section to the start of the repeat section is 50%, and one end of the end section from the end section of the repeat section. The probability of transition to this section may be 50%.
また、例えば、ステップS151にて、音響信号データを読み込んだとき、無音か否かを判定するステップを追加しても良い。無音である場合には、楽譜位置xtのモデルを状態空間モデルに基づいてのみ更新すればよい。つまり、xt=xt−1+vt−1+at−1/2なる演算式を用いればよい。また、この場合、隠れマルコフモデルHMM及び隠れセミマルコフモデルHSMMの前向き変数に関しては、楽譜位置xtに対応する箇所の変数のみを一様分布に設定し、それ以外を「0」に設定すればよい。 Further, for example, a step of determining whether or not there is silence when the acoustic signal data is read in step S151 may be added. If it is silence, it may be updated only based on a model of the score position x t to the state space model. That is, an arithmetic expression of x t = x t−1 + v t−1 + a t−1 / 2 may be used. In this case, with respect to the forward variable Hidden Markov Models HMM and hidden semi Markov model HSMM, it sets only variable portion corresponding to the score position x t a uniform distribution, by setting the rest to "0" Good.
また、楽譜にフェルマータが存在する場合は、フェルマータが記された区間において自己遷移を許容するように隠れセミマルコフモデルHSMMを設定すればよい。つまり、区間iにフェルマータが存在するとき、確率τi,iを「ρ」とし、確率τi,jを「1−ρ」に設定すればよい。この場合、区間iにおいて自己遷移した回数をカウントし、カウント結果に応じて、演奏が区間iに留まった長さを評価してもよい。例えば、区間iに留まった長さを「短すぎる」、「普通」、「長すぎる」という3段階で判定し、判定結果を演奏評価情報として出力しても良い。 In addition, when fermata exists in the score, the hidden semi-Markov model HSMM may be set so as to allow self-transition in the section where the fermata is written. That is, when fermata exists in the interval i, the probability τ i, i may be set to “ρ” and the probability τ i, j may be set to “1-ρ”. In this case, the number of times of self-transition in the section i may be counted, and the length of the performance remaining in the section i may be evaluated according to the count result. For example, the length remaining in the section i may be determined in three stages of “too short”, “normal”, and “too long”, and the determination result may be output as performance evaluation information.
また、推定されたテンポ及びその分散を用いて、楽曲の演奏速度を評価してもよい。例えば、楽曲の演奏速度を「遅すぎる」、「普通」、「速すぎる」という3段階で判定し、判定結果を演奏評価情報として出力しても良い。 Moreover, you may evaluate the performance speed of a music using the estimated tempo and its dispersion | distribution. For example, the performance speed of the music may be determined in three stages, “too slow”, “normal”, and “too fast”, and the determination result may be output as performance evaluation information.
10・・・スコアアライメント装置、HMM・・・隠れマルコフモデル、HSMM・・・隠れセミマルコフモデル、xt・・・楽譜位置、vt・・・テンポ、at・・・加速度 10 ... score alignment apparatus, HMM ··· hidden Markov model, HSMM ··· hidden semi-Markov model, x t ··· score position, v t ··· tempo, a t ··· acceleration
Claims (4)
楽譜位置をそれぞれ表す状態の系列として表された確率モデルであって、現在の状態が直前の状態に依存する性質と、現在の状態からいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算手段と、
真の楽譜位置、真の楽譜位置の遷移速度、及び真の楽譜位置の遷移加速度を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定手段と、を備えたスコアアライメント装置。 A score alignment device that estimates in real time a musical score position and a tempo representing a currently played portion of the musical score of the musical piece by analyzing the captured acoustic signal while capturing an acoustic signal representative of the musical performance sound There,
Probability model expressed as a sequence of states that represent each musical score position, with the probability that the current state depends on the immediately preceding state and the property that it can transition to any state from the current state A score position probability density / tempo probability density calculation means for calculating the score position probability density and the tempo probability density based on the model;
Based on the autoregressive process expressed using the true score position, the transition speed of the true score position, and the transition acceleration of the true score position, using the calculated probability density sequence of the score position, A score alignment device comprising: a score position / tempo determination means for determining a score position and a tempo.
前記状態は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる時間とを用いて特定され、
前記確率モデルは、前記状態の系列として表された隠れセミマルコフモデルであり、
前記楽譜位置確率密度・テンポ確率密度計算手段は、前記隠れセミマルコフモデルに前向きアルゴリズムを適用することにより前記楽譜位置の確率密度及びテンポの確率密度を計算する、スコアアライメント装置。 The score alignment apparatus according to claim 1,
The state depends on playing from the beginning of the section including the current score position to the current score position among the plurality of sections obtained by dividing the score and including the current score position. And the time taken to play the entire section,
The stochastic model is a hidden semi-Markov model represented as a sequence of the states;
The score position probability density / tempo probability density calculation means calculates a score position probability density and a tempo probability density by applying a forward algorithm to the hidden semi-Markov model.
前記楽譜位置確率密度・テンポ確率密度計算手段は、
前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる平均的な時間とを用いて特定される状態の系列として表された隠れマルコフモデルに基づいて、前記隠れセミマルコフモデルの区間のうち前向きアルゴリズムを適用する複数の区間を検索する区間検索手段を備えた、スコアアライメント装置。 The score alignment apparatus according to claim 2,
The musical score position probability density / tempo probability density calculation means includes:
Of the plurality of sections obtained by dividing the score, the section including the current score position, the time taken to play from the beginning of the section including the current score position to the current score position, Based on a hidden Markov model represented as a sequence of states specified using an average time taken to play the entire section, a plurality of forward-looking algorithms are applied among the sections of the hidden semi-Markov model. A score alignment apparatus comprising section search means for searching for a section.
楽譜位置をそれぞれ表す状態の系列として表された確率モデルであって、現在の状態が直前の状態に依存する性質と、現在の状態から他のいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算ステップと、
真の楽譜位置、真の楽譜位置の遷移速度、及び真の楽譜位置の遷移加速度を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定ステップと、を実行させるコンピュータプログラム。 A score alignment device that estimates in real time a musical score position and a tempo representing a currently played portion of the musical score of the musical composition by analyzing the captured acoustic signal while capturing an acoustic signal representing a musical performance sound Computer
A probabilistic model expressed as a sequence of states that represent each musical score position, with the property that the current state depends on the immediately preceding state and the property that it can transition from the current state to any other state A score position probability density / tempo probability density calculation step of calculating a score density and a tempo probability density based on the probability model;
Based on the autoregressive process expressed using the true score position, the transition speed of the true score position, and the transition acceleration of the true score position, using the calculated probability density sequence of the score position, A computer program for executing a musical score position / tempo determination step for determining a musical score position and tempo.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013217168A JP6187132B2 (en) | 2013-10-18 | 2013-10-18 | Score alignment apparatus and score alignment program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013217168A JP6187132B2 (en) | 2013-10-18 | 2013-10-18 | Score alignment apparatus and score alignment program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015079183A JP2015079183A (en) | 2015-04-23 |
JP6187132B2 true JP6187132B2 (en) | 2017-08-30 |
Family
ID=53010627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013217168A Active JP6187132B2 (en) | 2013-10-18 | 2013-10-18 | Score alignment apparatus and score alignment program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6187132B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017008076T5 (en) | 2017-11-07 | 2020-06-25 | Yamaha Corporation | Data generation device and program |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6467887B2 (en) | 2014-11-21 | 2019-02-13 | ヤマハ株式会社 | Information providing apparatus and information providing method |
DE112016004046B4 (en) | 2015-09-07 | 2022-05-05 | Yamaha Corporation | Musical performance support apparatus and method and computer-readable storage medium |
JP6801225B2 (en) | 2016-05-18 | 2020-12-16 | ヤマハ株式会社 | Automatic performance system and automatic performance method |
JP6642714B2 (en) | 2016-07-22 | 2020-02-12 | ヤマハ株式会社 | Control method and control device |
JP6614356B2 (en) * | 2016-07-22 | 2019-12-04 | ヤマハ株式会社 | Performance analysis method, automatic performance method and automatic performance system |
CN109478398B (en) * | 2016-07-22 | 2023-12-26 | 雅马哈株式会社 | Control method and control device |
JP6631714B2 (en) | 2016-07-22 | 2020-01-15 | ヤマハ株式会社 | Timing control method and timing control device |
WO2018016636A1 (en) * | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | Timing predicting method and timing predicting device |
US10846519B2 (en) | 2016-07-22 | 2020-11-24 | Yamaha Corporation | Control system and control method |
WO2018016581A1 (en) | 2016-07-22 | 2018-01-25 | ヤマハ株式会社 | Music piece data processing method and program |
JP6772640B2 (en) * | 2016-08-03 | 2020-10-21 | ヤマハ株式会社 | Devices and methods for generating phrases |
JP6776788B2 (en) | 2016-10-11 | 2020-10-28 | ヤマハ株式会社 | Performance control method, performance control device and program |
JP6838357B2 (en) * | 2016-11-07 | 2021-03-03 | ヤマハ株式会社 | Acoustic analysis method and acoustic analyzer |
JP6724879B2 (en) * | 2017-09-22 | 2020-07-15 | ヤマハ株式会社 | Reproduction control method, reproduction control device, and program |
JP6699677B2 (en) * | 2018-02-06 | 2020-05-27 | ヤマハ株式会社 | Information processing method, information processing apparatus, and program |
JP6724938B2 (en) | 2018-03-01 | 2020-07-15 | ヤマハ株式会社 | Information processing method, information processing apparatus, and program |
JP7243026B2 (en) | 2018-03-23 | 2023-03-22 | ヤマハ株式会社 | Performance analysis method, performance analysis device and program |
JP7226709B2 (en) * | 2019-01-07 | 2023-02-21 | ヤマハ株式会社 | Video control system and video control method |
JP7143816B2 (en) * | 2019-05-23 | 2022-09-29 | カシオ計算機株式会社 | Electronic musical instrument, electronic musical instrument control method, and program |
CN114639394A (en) * | 2022-03-30 | 2022-06-17 | 三星电子(中国)研发中心 | Method and device for realizing virtual playing partner |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4302837B2 (en) * | 1999-10-21 | 2009-07-29 | ヤマハ株式会社 | Audio signal processing apparatus and audio signal processing method |
-
2013
- 2013-10-18 JP JP2013217168A patent/JP6187132B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017008076T5 (en) | 2017-11-07 | 2020-06-25 | Yamaha Corporation | Data generation device and program |
US11430417B2 (en) | 2017-11-07 | 2022-08-30 | Yamaha Corporation | Data generation device and non-transitory computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2015079183A (en) | 2015-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187132B2 (en) | Score alignment apparatus and score alignment program | |
JP6179140B2 (en) | Acoustic signal analysis apparatus and acoustic signal analysis program | |
JP6597903B2 (en) | Music data processing method and program | |
JP5228432B2 (en) | Segment search apparatus and program | |
CN107077836A (en) | For tracking the method for music score and the modeling method of correlation | |
JP2019056871A (en) | Reproduction control method and reproduction control device | |
JP5007714B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP6252147B2 (en) | Acoustic signal analysis apparatus and acoustic signal analysis program | |
JP2008139426A (en) | Data structure of data for evaluation, karaoke machine, and recording medium | |
JP6295794B2 (en) | Acoustic signal analysis apparatus and acoustic signal analysis program | |
JP6281211B2 (en) | Acoustic signal alignment apparatus, alignment method, and computer program | |
JP6296221B2 (en) | Acoustic signal alignment apparatus, alignment method, and computer program | |
JP2008216486A (en) | Music reproduction system | |
CN110959172B (en) | Performance analysis method, performance analysis device, and storage medium | |
JP4239109B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP5760543B2 (en) | Intonation judgment device | |
JP6733487B2 (en) | Acoustic analysis method and acoustic analysis device | |
JP6838357B2 (en) | Acoustic analysis method and acoustic analyzer | |
JP7147384B2 (en) | Information processing method and information processing device | |
JP2006194953A (en) | Device and method for tempo extraction | |
US20230419929A1 (en) | Signal processing system, signal processing method, and program | |
JP2016057389A (en) | Chord determination device and chord determination program | |
JP2008268358A (en) | Karaoke device, singing evaluation method and program | |
JP6515945B2 (en) | Code extraction apparatus and method | |
JP2007233078A (en) | Evaluation device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170717 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6187132 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |