JP6187132B2 - Score alignment apparatus and score alignment program - Google Patents

Score alignment apparatus and score alignment program Download PDF

Info

Publication number
JP6187132B2
JP6187132B2 JP2013217168A JP2013217168A JP6187132B2 JP 6187132 B2 JP6187132 B2 JP 6187132B2 JP 2013217168 A JP2013217168 A JP 2013217168A JP 2013217168 A JP2013217168 A JP 2013217168A JP 6187132 B2 JP6187132 B2 JP 6187132B2
Authority
JP
Japan
Prior art keywords
score
score position
tempo
probability density
musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013217168A
Other languages
Japanese (ja)
Other versions
JP2015079183A (en
Inventor
陽 前澤
陽 前澤
吉就 中村
吉就 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013217168A priority Critical patent/JP6187132B2/en
Publication of JP2015079183A publication Critical patent/JP2015079183A/en
Application granted granted Critical
Publication of JP6187132B2 publication Critical patent/JP6187132B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分(以下、楽譜位置と呼ぶ)を実時間で推定するスコアアライメント装置、及びスコアアライメント装置が備えるコンピュータに適用されるコンピュータプログラム(スコアアライメントプログラム)に関する。   The present invention analyzes the captured sound signal while capturing the sound signal representing the performance sound of the music, thereby allowing the currently played portion of the score of the music (hereinafter referred to as the score position) in real time. The present invention relates to a score alignment apparatus to be estimated and a computer program (score alignment program) applied to a computer provided in the score alignment apparatus.

従来から、例えば、下記非特許文献1及び2に示されているように、スコアアライメント装置(自動伴奏装置)は知られている。演奏者が楽曲を演奏するとき、その楽曲の楽譜通りに演奏することは稀であり、同じ部分を繰り返し演奏したり、弾けない部分を飛ばしたりすることがある。上記のような任意の楽譜位置遷移に対応するために、非特許文献1及び非特許文献2のスコアアライメント装置においては、演奏過程(楽譜位置の遷移)を確率モデルとして記述している。   Conventionally, for example, as shown in Non-Patent Documents 1 and 2 below, score alignment devices (automatic accompaniment devices) are known. When a performer performs a piece of music, it is rare that the performer performs according to the score of the piece of music, and the same part is played repeatedly or a part that cannot be played may be skipped. In order to cope with any musical score position transition as described above, in the score alignment apparatuses of Non-Patent Document 1 and Non-Patent Document 2, the performance process (transition of the musical score position) is described as a probability model.

現在の楽譜位置から他の全ての楽譜位置への遷移が可能とする場合、遷移後の楽譜位置を推定する際の計算量が著しく多くなる。そこで、非特許文献1においては、楽譜位置の遷移に適当な仮定を設定することにより、計算量の増大を抑制している。   When transition from the current score position to all other score positions is possible, the amount of calculation when estimating the score position after the transition is remarkably increased. Therefore, in Non-Patent Document 1, an increase in calculation amount is suppressed by setting an appropriate assumption for the transition of the musical score position.

また、実時間で推定された楽譜位置の推定精度は、バッチ処理(非実時間処理)で推定された楽譜位置の推定精度に比べて低い。そこで、非特許文献2においては、現時点より所定の時間だけ前の楽譜位置を推定するとともにテンポ軌跡を推定し、両推定結果を用いて、現在の楽譜位置を推定している。   Further, the estimation accuracy of the score position estimated in real time is lower than the estimation accuracy of the score position estimated by batch processing (non-real time processing). Therefore, in Non-Patent Document 2, a musical score position that is a predetermined time before the current time is estimated, a tempo trajectory is estimated, and the current musical score position is estimated using both estimation results.

中村 栄太,武田 晴登,山本 龍一,斎藤 康之,酒向 慎司,嵯峨山 茂樹、「任意箇所への弾き直し・弾き飛ばしを含む演奏に追従可能な楽譜追跡と自動伴奏」、情報処理学会論文誌、2013年 4月、vol.54、no.4、p.1338−1349Eita Nakamura, Haruto Takeda, Ryuichi Yamamoto, Yasuyuki Saito, Shinji Sakai, Shigeki Hatakeyama, “Score tracking and automatic accompaniment that can follow performances including replaying and skipping to any location”, Transactions of Information Processing Society of Japan April 2013, vol. 54, no. 4, p. 1338-1349 山本 龍一,酒向 慎司,北村 正、「Ryry:多声楽器に対応可能な音響入力自動伴奏システム」、情報処理学会インタラクション、2013年 3月2日、3EXB−13Ryuichi Yamamoto, Shinji Sakaki, Tadashi Kitamura, “Ryry: an automatic audio input accompaniment system for polyphonic instruments”, Information Processing Society of Japan Interaction, March 2, 2013, 3EXB-13

上記非特許文献1では、計算量の増大が抑制されてはいるが、十分ではない。また、上記非特許文献2では、テンポの推定に際し、状態系列を構成する各状態の確信度が考慮されていないため、楽譜位置の推定精度が低下する可能性がある。したがって、このようなスコアアライメント装置をメディアプレーヤ(自動伴奏装置、画像表示装置など(特許4399961号公報、特許4534926号公報など参照))に適用した場合、演奏者による演奏の進行位置と他のメディア(伴奏、画像など)の再生位置とがずれる可能性がある。つまり、演奏者の演奏に対する他のメディアの再生が不自然に感じられる可能性がある。   In the said nonpatent literature 1, although the increase in calculation amount is suppressed, it is not enough. In Non-Patent Document 2, since the certainty of each state constituting the state series is not taken into account when estimating the tempo, there is a possibility that the estimation accuracy of the score position is lowered. Therefore, when such a score alignment device is applied to a media player (automatic accompaniment device, image display device, etc. (see Japanese Patent No. 4399996, Japanese Patent No. 4534926 etc.)), the progress position of the performance by the performer and other media There is a possibility that the playback position of (accompaniment, images, etc.) is shifted. In other words, playback of other media in response to the performer's performance may feel unnatural.

本発明は上記問題に対処するためになされたもので、その目的は、計算量の増大をより効果的に抑制するとともに、楽譜位置の推定精度を向上させたスコアアライメント装置を提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。   The present invention has been made to address the above problems, and an object of the present invention is to provide a score alignment apparatus that more effectively suppresses an increase in the amount of calculation and improves the accuracy of estimating a score position. . In addition, in the description of each constituent element of the present invention below, in order to facilitate understanding of the present invention, reference numerals of corresponding portions of the embodiment are described in parentheses, but each constituent element of the present invention is The present invention should not be construed as being limited to the configurations of the corresponding portions indicated by the reference numerals of the embodiments.

上記目的を達成するために、本発明の特徴は、楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分を表す楽譜位置及びテンポを実時間で推定するスコアアライメント装置(10)であって、楽譜位置をそれぞれ表す状態の系列として表された確率モデル(HSMM)であって、現在の状態が直前の状態に依存する性質と、現在の状態からいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算手段(S151〜S155)と、真の楽譜位置(x)、真の楽譜位置の遷移速度(v)、及び真の楽譜位置の遷移加速度(a)を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定手段(S162〜S165)と、を備えたスコアアライメント装置としたことにある。なお、上記の確率モデル(HSMM)の状態遷移においては、遷移前の状態と遷移後の状態が同じであってもよい。 In order to achieve the above object, a feature of the present invention represents a portion of a musical score currently being played in the musical score of the musical piece by analyzing the captured acoustic signal while taking in an acoustic signal representing the musical performance sound. A score alignment apparatus (10) for estimating a score position and a tempo in real time, a probability model (HSMM) expressed as a series of states each representing a score position, the current state depending on the immediately preceding state Score position probability density / tempo probability density calculation that calculates the probability density of the score position and the probability density of the tempo based on a probability model that has the property of being able to transition to any state from the current state and means (S151~S155), the true score position (x t), the transition rates of the true score position (v t), and the true score position of the transition acceleration (a t) using A score position / tempo determination means (S162 to S165) for determining the current score position and tempo using the calculated probability density sequence of the score position based on the expressed autoregressive process. The score alignment apparatus is used. In the state transition of the probability model (HSMM), the state before the transition and the state after the transition may be the same.

この場合、前記状態(Si,n,T(t))は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間(i)と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間(n)と、前記区間全体を演奏するのにかかる時間(T)とを用いて特定され、前記確率モデルは、前記状態の系列として表された隠れセミマルコフモデル(HSMM)であり、前記楽譜位置確率密度・テンポ確率密度計算手段は、前記隠れセミマルコフモデルに前向きアルゴリズムを適用することにより前記楽譜位置の確率密度及びテンポの確率密度を計算するとよい。 In this case, the state (S i, n, T (t)) includes the section (i) including the current score position among the plurality of sections obtained by dividing the score and the current score position. Is specified using a time (n) required to play from the beginning of the section including the current score position and a time (T) required to play the entire section, and the probability model is A hidden semi-Markov model (HSMM) represented as a sequence of states, wherein the score position probability density / tempo probability density calculating means applies a forward algorithm to the hidden semi-Markov model, Calculate the probability density of the tempo.

上記のように構成したスコアアライメント装置においては、まず、楽譜位置確率密度及びテンポ確率密度が計算される。そして、楽譜位置確率密度の系列及びテンポ確率密度の系列を用いて、高次の自己回帰過程に基づいて楽譜位置及びテンポが決定される。これによれば、テンポの時間微分(すなわち、楽譜位置の加速度)が連続的であって、且つ「0」に戻る傾向を示すという音楽音響信号の性質を表現できる。また、楽譜位置確率密度及びテンポ確率密度の分散が大きい区間では、楽譜位置確率密度の系列及びテンポ確率密度の系列の経路が平滑化されるという挙動が得られる。これにより、楽譜位置及びテンポの推定精度を向上させることができる。   In the score alignment apparatus configured as described above, first, a score position probability density and a tempo probability density are calculated. Then, the score position and the tempo are determined based on the higher-order autoregressive process using the score position probability density sequence and the tempo probability density sequence. According to this, it is possible to express the property of the music acoustic signal that the temporal differentiation of the tempo (that is, the acceleration of the musical score position) is continuous and shows a tendency to return to “0”. Further, in a section where the distribution of the score position probability density and the tempo probability density is large, a behavior is obtained in which the path of the score position probability density sequence and the tempo probability density sequence is smoothed. Thereby, the estimation accuracy of the score position and the tempo can be improved.

また、本発明の他の特徴は、前記楽譜位置確率密度・テンポ確率密度計算手段は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる平均的な時間とを用いて特定される状態の系列として表された隠れマルコフモデル(HMM)に基づいて、前記隠れセミマルコフモデルの区間のうち前向きアルゴリズムを適用する複数の区間を検索する区間検索手段(S153)を備えた、スコアアライメント装置としたことにある。   Another feature of the present invention is that the score position probability density / tempo probability density calculating means includes a section including a current score position among a plurality of sections obtained by dividing the score, Expressed as a sequence of states specified using the time taken to play from the beginning of the section containing the score position to the current score position and the average time taken to play the entire section The score alignment apparatus includes section search means (S153) for searching a plurality of sections to which the forward algorithm is applied among sections of the hidden semi-Markov model based on a hidden Markov model (HMM).

これによれば、通常の隠れマルコフモデルに前向きアルゴリズムを適用して前向き変数を計算し、前向き変数が最大となる状態(区間)が検索される。そして、隠れセミマルコフモデルにおいて、前記検索された状態(区間)に対応する区間を含む複数の区間に対して前向きアルゴリズムが適用され、楽譜位置確率密度及びテンポ確率密度が計算される。したがって、隠れセミマルコフモデルを構成する全ての区間に対して前向きアルゴリズムを適用する場合に比べて、計算量の増大を抑制することができる。   According to this, a forward variable is calculated by applying a forward algorithm to a normal hidden Markov model, and a state (section) in which the forward variable is maximized is searched. Then, in the hidden semi-Markov model, a forward algorithm is applied to a plurality of sections including a section corresponding to the searched state (section), and a score position probability density and a tempo probability density are calculated. Therefore, an increase in the amount of calculation can be suppressed as compared with the case where the forward algorithm is applied to all the sections constituting the hidden semi-Markov model.

なお、この場合、隠れマルコフモデル(HMM)の区間数を隠れセミマルコフモデル(HSMM)の区間数よりも多くすると良い。これによれば、前記隠れセミマルコフモデル(HSMM)の区間のうち前向きアルゴリズムを適用する複数の区間を、隠れマルコフモデル(HMM)の区間数と隠れセミマルコフモデル(HSMM)の区関数とが同一である場合に比べて、より適切に検索できる。   In this case, it is preferable that the number of sections of the hidden Markov model (HMM) is larger than the number of sections of the hidden semi-Markov model (HSMM). According to this, among the sections of the hidden semi-Markov model (HSMM), the number of sections of the hidden Markov model (HMM) is identical to the section function of the hidden semi-Markov model (HSMM). Compared to the case where it is, it can search more appropriately.

また、本発明は、スコアアライメント装置が備えるコンピュータに適用されるコンピュータプログラムとしても実施可能である。   The present invention can also be implemented as a computer program applied to a computer provided in the score alignment apparatus.

本発明の一実施形態に係るスコアアライメント装置の構成を表わすブロック図である。It is a block diagram showing the structure of the score alignment apparatus which concerns on one Embodiment of this invention. スコアアライメント装置の機能ブロック図である。It is a functional block diagram of a score alignment apparatus. 隠れセミマルコフモデル及び隠れマルコフモデルの状態遷移図である。It is a state transition diagram of a hidden semi-Markov model and a hidden Markov model. 音モデルの一例を表わすグラフである。It is a graph showing an example of a sound model. 楽譜位置観測密度の系列に対するテンポ軌跡モデルを推定する過程を表わす概念図であるIt is a conceptual diagram showing the process of estimating the tempo trajectory model for the sequence of score position observation density スコアアライメント処理を表わすフローチャートである。It is a flowchart showing a score alignment process. 楽譜位置確率密度・テンポ確率密度計算処理を表わすフローチャートである。It is a flowchart showing a score position probability density / tempo probability density calculation process. 楽譜位置・テンポ決定処理を表わすフローチャートである。It is a flowchart showing a score position / tempo determination process.

本発明の一実施形態に係るスコアアライメント装置10について説明する。スコアアライメント装置10は、楽曲の演奏を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析して、前記楽曲の楽譜のうちのどの部分が現在演奏されているのかを推定する。本実施形態では、楽譜を表わす楽譜データとして、標準MIDIファイル形式のデータを用いる。   A score alignment apparatus 10 according to an embodiment of the present invention will be described. The score alignment apparatus 10 analyzes the captured acoustic signal while capturing the acoustic signal representing the performance of the music, and estimates which part of the musical score of the music is currently being played. In the present embodiment, standard MIDI file format data is used as musical score data representing a musical score.

スコアアライメント装置10は、図1に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。   As shown in FIG. 1, the score alignment apparatus 10 includes an input operator 11, a computer unit 12, a display 13, a storage device 14, an external interface circuit 15, and a sound system 16, which are connected via a bus BS. It is connected.

入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、スコアアライメント処理の開始又は停止、スコアアライメント処理に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。   The input operator 11 includes a switch corresponding to an on / off operation (for example, a numeric keypad for inputting a numerical value), a volume or rotary encoder corresponding to a rotation operation, a volume or linear encoder corresponding to a slide operation, a mouse, a touch panel, etc. Composed. These operators are operated by a player's hand and used for starting or stopping the score alignment process, setting various parameters related to the score alignment process, and the like. When the input operator 11 is operated, operation information indicating the operation content is supplied to the computer unit 12 described later via the bus BS.

コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、後述するスコアアライメント処理の手順を表わしたスコアアライメントプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。   The computer unit 12 includes a CPU 12a, a ROM 12b, and a RAM 12c connected to the bus BS. The CPU 12a reads out from the ROM 12b and executes a score alignment program representing a procedure of score alignment processing described later. In addition to the program, the ROM 12b stores various data such as initial setting parameters, graphic data for generating display data representing an image displayed on the display 13, and character data. The RAM 12c temporarily stores data necessary for executing the program.

表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。例えば、コンピュータ部12は、後述するスコアアライメント処理により推定された楽譜位置を表わす表示データを表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。   The display 13 is configured by a liquid crystal display (LCD). The computer unit 12 generates display data representing contents to be displayed using graphic data, character data, and the like, and supplies the display data to the display unit 13. For example, the computer unit 12 supplies the display unit 13 with display data representing a musical score position estimated by score alignment processing described later. The display device 13 displays an image based on the display data supplied from the computer unit 12.

また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、楽譜を表わす楽譜データ(標準MIDIファイル)が記憶されている。楽譜データは予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。   The storage device 14 includes a large-capacity nonvolatile recording medium such as an HDD, FDD, CD, or DVD, and a drive unit corresponding to each recording medium. The storage device 14 stores musical score data (standard MIDI file) representing a musical score. The musical score data may be stored in the storage device 14 in advance or may be taken in from the outside via the external interface circuit 15 described later.

外部インターフェース回路15は、スコアアライメント装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。スコアアライメント装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。   The external interface circuit 15 includes a connection terminal that enables the score alignment device 10 to be connected to an external device such as an electronic music device or a personal computer. The score alignment apparatus 10 can be connected to a communication network such as a LAN (Local Area Network) or the Internet via the external interface circuit 15.

サウンドシステム16は、ディジタル音信号を生成する音源回路、前記生成されたディジタル音信号をアナログ音信号に変換するD/A変換器、前記変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力するスピーカを備えている。また、サウンドシステム16は、楽曲の演奏により放音された楽音を収音するためのマイク、収音された楽音を表わすアナログ音信号をディジタル音信号に変換するA/D変換器、変換されたディジタル音信号を表わすサンプルデータを一時的に記憶するバッファも備えている。つまり、サウンドシステム16は、楽音を所定のサンプリング周期(例えば、1/44100sec)でサンプリングし、サンプリングによって得られたサンプルデータを前記バッファに記憶する。   The sound system 16 includes a sound source circuit that generates a digital sound signal, a D / A converter that converts the generated digital sound signal into an analog sound signal, an amplifier that amplifies the converted analog sound signal, and an amplified analog A speaker that converts a sound signal into an acoustic signal and outputs the sound signal is provided. The sound system 16 includes a microphone for collecting a musical sound emitted by playing a musical piece, an A / D converter for converting an analog sound signal representing the collected musical sound into a digital sound signal, and a converted sound. A buffer for temporarily storing sample data representing the digital sound signal is also provided. That is, the sound system 16 samples the musical sound at a predetermined sampling period (for example, 1/444100 sec), and stores the sample data obtained by the sampling in the buffer.

次に、楽譜位置及びテンポの推定手法について説明する。スコアアライメント装置10は、図2に示すように、まず、マイクを介して楽曲の演奏を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析して現在演奏されている楽譜位置の確率密度及び現在のテンポの確率密度を計算する。そして、前記計算された確率密度の系列を用いて、最適な楽譜位置及びテンポを決定する。前記決定された楽譜位置及びテンポは、制御対象(表示器13、サウンドシステム16など)の制御に用いられる。   Next, a score position and tempo estimation method will be described. As shown in FIG. 2, the score alignment apparatus 10 first analyzes the captured acoustic signal while capturing the acoustic signal representing the performance of the music through the microphone, and the probability density of the currently played musical score position and the current Calculate the probability density of the tempo. Then, an optimal score position and tempo are determined using the calculated probability density series. The determined musical score position and tempo are used to control a control target (display 13, sound system 16, etc.).

次に、楽譜位置及びテンポの確率密度の計算手法について説明する。本実施形態では、以下説明するように、前記複数の区間の系列が隠れセミマルコフモデルHSMM(図3、式(2)参照)としてモデル化される。まず、図3に示すように、楽曲の楽譜が複数の区間i(=1,2,・・・,I)に分割される。各区間の長さは同一である。例えば、各区間の長さは、4分音符1つ分の長さである。「i」は、楽曲の先頭から数えて何番目の区間であるかを表わすインデックスである。実際の演奏に対応した楽譜は、上記のように分割された複数の区間の系列として表現可能である。   Next, a method for calculating the score density and the tempo probability density will be described. In the present embodiment, as will be described below, the series of the plurality of sections is modeled as a hidden semi-Markov model HSMM (see FIG. 3, equation (2)). First, as shown in FIG. 3, the musical score is divided into a plurality of sections i (= 1, 2,..., I). The length of each section is the same. For example, the length of each section is the length of one quarter note. “I” is an index indicating the number of sections counted from the beginning of the music. The score corresponding to the actual performance can be expressed as a series of a plurality of sections divided as described above.

1つの区間を演奏するのにかかる時間(演奏が1つの区間に留まる時間)は、テンポに依存する。例えば、テンポが60BPM(Beats Per Minute)の場合は、1つの区間を演奏するのに1秒かかる。また、テンポが120BPMの場合は、1つの区間を演奏するのに0.5秒かかる。ここで、例えば0.1秒を単位時間とするフレームの数として表現すれば、テンポが60BPMの場合は、1つの区間を演奏するのに10フレーム分の時間がかかり、テンポが120BPMの場合は、1つの区間を演奏するのに5フレーム分の時間がかかる。   The time taken to play one section (the time during which the performance stays in one section) depends on the tempo. For example, when the tempo is 60 BPM (Beats Per Minute), it takes 1 second to play one section. When the tempo is 120 BPM, it takes 0.5 seconds to play one section. Here, if expressed as the number of frames with a unit time of 0.1 seconds, for example, when the tempo is 60 BPM, it takes 10 frames to play one section, and when the tempo is 120 BPM. It takes time for 5 frames to play one section.

時刻t(楽曲の先頭から数えてt番目のフレーム)において区間iが演奏されており、区間iを演奏するのにフレーム数Tに相当する時間がかかることが確定していて、区間iの先頭から数えてn番目のフレームまで演奏し終えた状態(区間iの先頭から現在の楽譜位置まで演奏するのにn個分のフレームの時間がかかった状態)を状態Si,n,T(t)と表記する。図3における○印は、各状態Si,n,T(t)に対応している。なお、各区間内ではテンポは変化しないものとする。つまり、同図において矢印で結ばれた○印の各系列においては、左側の○印から右側の○印へ順に遷移する。したがって、各系列を構成する○印の数がテンポに対応している。すなわち、○印の数が少ない系列ほどテンポが速く、○印の数が多い系列ほどテンポが遅い。よって、各区間において初期状態を1つ選択すれば、演奏がその区間に留まる長さ(フレーム数T)が確定する。 The section i is played at time t (t-th frame from the beginning of the music), and it is determined that it takes time corresponding to the number of frames T to play the section i. The state in which the performance has been completed up to the nth frame from the beginning (the state in which it took n frames to perform from the beginning of the section i to the current score position) is the state S i, n, T (t ). The circles in FIG. 3 correspond to the states S i, n, T (t). It is assumed that the tempo does not change within each section. That is, in each series of circles connected by arrows in the figure, the transition from the left circle to the right circle is sequentially performed. Therefore, the number of circles constituting each series corresponds to the tempo. That is, the tempo is faster as the series has a smaller number of circles, and the tempo is slower as the series has a larger number of circles. Therefore, if one initial state is selected in each section, the length (number of frames T) that the performance stays in that section is determined.

また、通常、演奏は楽譜の先頭から末尾へ向かって順に進行するので、1つの区間の演奏が終了したとき、その区間の1つ後の区間への遷移のみが許容される。ここで、区間iから区間jへ遷移する確率を確率τi,jと表記する。また、1つの区間の末尾の状態から、次の区間の初期状態へ遷移するときには、任意の初期状態へ遷移可能とする。つまり、1つの区間から次の区間へ遷移するとき、テンポが変更され得る。ここで、フレーム数T´に相当するテンポから、フレーム数Tに相当するテンポに遷移する確率を確率τT‘,Tと表記する。すると、状態Si´,n´,T´(t)から状態Si,n,T(t+1)へ遷移する確率である状態遷移確率τ(i´,n´,T´)〜(i,n,T)は、下記の式(1)のように表わされる。なお、本実施形態では、説明を簡単にするために、楽譜位置を遠く離れた区間へ遷移させる演奏記号(ダ・カーポ、繰り返し記号など)が楽譜に含まれないと仮定する。

Figure 0006187132
In general, since the performance progresses in order from the beginning to the end of the score, when the performance of one section is completed, only the transition to the next section is allowed. Here, the probability of transition from section i to section j is denoted as probability τ i, j . Further, when transitioning from the last state of one section to the initial state of the next section, it is possible to transition to an arbitrary initial state. That is, when transitioning from one section to the next section, the tempo can be changed. Here, the probability of transition from the tempo corresponding to the number of frames T ′ to the tempo corresponding to the number of frames T is expressed as probability τ T ′, T. Then, the state S i', n', T'state from (t) S i, n, T (t + 1) to the probability of transition state transition probability τ (i', n', T') ~ (i, n, T) is expressed as the following formula (1). In this embodiment, in order to simplify the description, it is assumed that performance symbols (da capo, repetition symbols, etc.) that shift the musical score position to a distant section are not included in the musical score.
Figure 0006187132

しかし、演奏者が楽曲を実際に演奏するとき、楽譜では指定されていない部分を繰り返し演奏したり、弾けない部分を飛ばしたりすることがある。つまり、楽譜位置が、隣接する区間ではなく、遠く離れた区間へ遷移する(ジャンプする)可能性がある。そこで、隠れマルコフモデルHMMや隠れセミマルコフモデルHSMMに従って区間が遷移する確率γ、状態Si,n,Tを観測する確率πi,n,T、及び状態Si,n,Tの観測尤度Oi,n,T(t)を用いて、下記の式(2)に示すようなモデルを設定する。観測尤度Oi,n,T(t)については後述する。

Figure 0006187132
However, when a performer actually plays a piece of music, a part that is not specified in the score may be played repeatedly or a part that cannot be played may be skipped. That is, there is a possibility that the musical score position changes (jumps) to a section far away from the adjacent section. Therefore, the probability γ that the interval transitions according to the hidden Markov model HMM or the hidden semi-Markov model HSMM , the probability π i, n, T that observes the state S i, n, T , and the observation likelihood of the state S i, n, T A model as shown in the following equation (2) is set using O i, n, T (t). The observation likelihood O i, n, T (t) will be described later.
Figure 0006187132

次に、サウンドシステム16によってサンプリングされた楽音のフレームtに含まれる各音高mのパワーy(t)及び1つ前のフレームからのパワーの増加量Δy(t)が音響信号の特徴量として計算される。ここで、パワーy(t)の観測尤度及びパワーの増加量Δy(t)の観測尤度は、式(3)及び式(4)に示すように、それぞれvon Mises−Fisher分布に従うと仮定する。

Figure 0006187132
Figure 0006187132
Next, the power y m (t) of each pitch m included in the musical sound frame t sampled by the sound system 16 and the power increase Δy m (t) from the previous frame are the characteristics of the acoustic signal. Calculated as a quantity. Here, the observation likelihood of the power y m (t) and the observation likelihood of the power increase amount Δy m (t) follow the von Mises-Fisher distribution, as shown in the equations (3) and (4), respectively. Assume that
Figure 0006187132
Figure 0006187132

すると、式(2)の観測尤度Oi,n,T(t)は、下記の式(5)のように表わされる。

Figure 0006187132
Then, the observation likelihood O i, n, T (t) of the equation (2) is expressed as the following equation (5).
Figure 0006187132

なお、上記式(3)及び式(4)における「κ」は、von Mises Fisher分布の集中度を表わす。つまり、「κ」が大きいほど、パワーy(t)及びパワーの増加量Δy(t)の観測尤度の分布図において、平均値を中心に急峻なピークが形成される。「κ」の値は、例えば「100」に設定される。また、「w(k)」は音響信号の特徴量のテンプレート(以下、音モデルと呼ぶ)である。「k」は音モデルを特定するためのインデックスである。各音モデルは、各楽器を用いて各音高の楽音(単音)をそれぞれ発生させ、それらの楽音の特徴量を計算して記録したデータである。例えば、「w(k=1)」は、ピアノを弾いてMIDIノートナンバが「69」に相当する音高の音を発生させ、その特徴量(パワー)を記録したデータである。また、例えば、「w(k=2)」は、バイオリンを弾いてMIDIノートナンバが「69」に相当する音高の楽音を発生させ、その特徴量(パワー)を記録したデータである。また、「h」は、各音モデルの強度を表わす。なお、発音数が多い楽曲の場合、設定された各音モデルの強度と実際に演奏された楽音の強度に大きな差が生じることがある。この場合、「κ」の値を小さくして、分散をより大きくすればよい。 Note that “κ” in the above formulas (3) and (4) represents the degree of concentration of the von Mises Fisher distribution. That is, as “κ” is larger, a sharper peak is formed around the average value in the distribution of observation likelihood of the power y m (t) and the increase amount Δy m (t) of the power. The value of “κ” is set to “100”, for example. Further, “w (k)” is a template for a characteristic amount of an acoustic signal (hereinafter referred to as a sound model). “K” is an index for specifying a sound model. Each sound model is data obtained by generating musical tones (single notes) of each pitch using each musical instrument, and calculating and recording characteristic quantities of those musical tones. For example, “w (k = 1)” is data obtained by playing a piano to generate a sound having a pitch corresponding to a MIDI note number “69” and recording the characteristic amount (power). Further, for example, “w (k = 2)” is data in which a musical tone having a pitch corresponding to a MIDI note number “69” is generated by playing a violin and the characteristic amount (power) is recorded. “H” represents the intensity of each sound model. In the case of music with a large number of pronunciations, there may be a large difference between the intensity of each set sound model and the intensity of the musical sound actually played. In this case, the value of “κ” may be decreased to increase the dispersion.

パワーy(t)の観測尤度(式(3))に関して具体的に説明する。説明を簡単にするために、分析対象の楽曲は、単一の楽器で演奏される楽曲とし、音モデルのインデックスとしての「k」とMIDIノートナンバNNとが一致すると仮定する。ここで、現在の状態が状態Si=4,n=6,T=12であるとする。このときのパワーy(t)の観測尤度について考察する。この場合、i+n/T=4+6/12=4.5であるから楽譜位置4.5に対応する「h(4.5)」を抽出する。図4においては、各音モデルの強度(つまり「h」の大きさ)を濃淡グラフとして示している。同図において濃く示された要素の強度が大きい。この例ではk=69の要素の強度が大きいので、結果として、パワーy(t)の観測尤度は、「w(k=69)」の要素が支配的である平均値を持つように分布する。 The observation likelihood (formula (3)) of the power y m (t) will be specifically described. In order to simplify the explanation, it is assumed that the music to be analyzed is a music played by a single instrument, and that “k” as the sound model index matches the MIDI note number NN. Here, it is assumed that the current state is the state S i = 4, n = 6, T = 12 . Consider the observation likelihood of power y m (t) at this time. In this case, since i + n / T = 4 + 6/12 = 4.5, “h (4.5)” corresponding to the score position 4.5 is extracted. In FIG. 4, the intensity (that is, the magnitude of “h”) of each sound model is shown as a gray scale graph. The strength of elements shown dark in the figure is large. In this example, the intensity of the element of k = 69 is large, and as a result, the observation likelihood of the power y m (t) has an average value in which the element of “w (k = 69)” is dominant. Distributed.

隠れセミマルコフモデルHSMMにおける前向き変数αi,n,T(t)は、下記の式(6)のように表される。

Figure 0006187132
The forward variable α i, n, T (t) in the hidden semi-Markov model HSMM is expressed as the following equation (6).
Figure 0006187132

この式(6)を整理すると、下記の式(7)に示す漸化式が得られる。

Figure 0006187132
If this formula (6) is arranged, the recurrence formula shown in the following formula (7) is obtained.
Figure 0006187132

ここで、説明を簡単にするために、いずれの楽譜位置にも一様に遷移可能なモデルについて考察する。この場合、状態Sを観測する確率πは、状態数|S|を用いて、式(8)のように表わされる。

Figure 0006187132
Here, in order to simplify the description, a model that can uniformly transition to any musical score position will be considered. In this case, the probability π of observing the state S is expressed as in Equation (8) using the number of states | S |.
Figure 0006187132

また、初期の状態に遷移する確率(1−γ)を「0.01」とすると、状態iの観測尤度O(t)、状態iから状態jへの遷移確率τi,j、状態iの前向き変数α(t)を用いて、前向き変数αの更新式は、式(9)のように表わされる。

Figure 0006187132
If the probability (1-γ) of transition to the initial state is “0.01”, the observation likelihood O i (t) of state i, transition probability τ i, j from state i to state j , state Using i's forward variable α i (t), an update equation for the forward variable α is expressed as in Equation (9).
Figure 0006187132

式(9)における「τi,j×0.99」の部分と、「0.01/|S|」の部分は、楽譜データを読み込んだ際に計算しておくことができる。一方、式(7)において、「γ」の値を「1」とすれば、式(10)に示すように、通常の隠れマルコフモデルHMMにおける前向き変数の漸化式が得られる。

Figure 0006187132
The part of “τ i, j × 0.99” and the part of “0.01 / | S |” in equation (9) can be calculated when the musical score data is read. On the other hand, if the value of “γ” is set to “1” in equation (7), a recurrence formula of the forward variable in the normal hidden Markov model HMM is obtained as shown in equation (10).
Figure 0006187132

したがって、隠れセミマルコフモデルHSMMにおける前向き変数の更新の演算と、通常の隠れマルコフモデルHMMにおける前向き変数の更新の演算との違い(オーバーヘッド)は、「0.01/|S|」を加算する処理のみである。なお、この例では、いずれの楽譜位置にも一様に遷移可能としているが、状態遷移が制限されている場合であってもオーバーヘッドに関しては、この例と同様である。 Therefore, the difference (overhead) between the computation of the forward variable update in the hidden semi-Markov model HSMM and the computation of the forward variable update in the normal hidden Markov model HMM is a process of adding “0.01 / | S |”. Only. In this example, it is possible to make uniform transition to any musical score position, but the overhead is the same as in this example even when state transition is restricted.

本実施形態においては、分割された区間の時系列を隠れセミマルコフモデルHSMMとしてモデル化しているので、通常の隠れマルコフモデルとしてモデル化した場合に比べて状態数が膨大であり、区間i、フレーム数n及びフレーム数Tの組み合わせの数も膨大である。したがって、前向きアルゴリズムを用いて楽譜位置の確率密度を計算すると、計算量が膨大になってしまう。そこで、スコアアライメント装置10は、以下説明するように、通常の隠れマルコフモデルHMMを用いて、前向きアルゴリズムを適用する隠れセミマルコフモデルHSMMの区間を絞り込む区間検索手段を備える。   In the present embodiment, the time series of the divided sections is modeled as a hidden semi-Markov model HSMM, so the number of states is enormous compared to the case of modeling as a normal hidden Markov model, and the section i, frame The number of combinations of the number n and the frame number T is also enormous. Therefore, if the probability density of the score position is calculated using a forward algorithm, the calculation amount becomes enormous. Therefore, as will be described below, the score alignment apparatus 10 includes section search means for narrowing down a section of a hidden semi-Markov model HSMM to which a forward algorithm is applied using a normal hidden Markov model HMM.

通常の隠れマルコフモデルHMMは次のように定義される。すなわち、上記の隠れセミマルコフモデルHSMMと同様に楽譜を分割し、分割した区間のそれぞれに状態変数を割り当てる。ただし、隠れセミマルコフモデルHSMMの区間数よりも隠れマルコフモデルHMMの区間数のほうが多くなるように楽譜を分割する。例えば、隠れセミマルコフモデルHSMMにおいては、それぞれの区間の長さが4分音符の長さになるように楽譜を分割し、隠れマルコフモデルHMMにおいては、それぞれの区間の長さが32分音符の長さになるように楽譜を分割する。また、各状態(区間)は自分自身にも遷移可能とする。つまり、隠れマルコフモデルHMMにおいては、ある状態から自分自身に遷移する確率が「τ(HMM)」であり、ある状態から1つ後ろの状態へ遷移する確率が「1−τ(HMM)」である。このような隠れマルコフモデルHMMに対して実時間で前向きアルゴリズムを適用し、各フレームtにおいて前向き変数が最大となる状態を検索する。そして、前記検索した状態に対応する隠れセミマルコフモデルHSMMの区間に隣接する所定数(例えば16個(4拍子の曲の4小節分))の区間ΔSにのみ前向きアルゴリズムを適用する。 A normal hidden Markov model HMM is defined as follows. That is, the score is divided in the same manner as the above-described hidden semi-Markov model HSMM, and a state variable is assigned to each of the divided sections. However, the musical score is divided so that the number of sections of the hidden Markov model HMM is larger than the number of sections of the hidden semi-Markov model HSMM. For example, in the hidden semi-Markov model HSMM, the score is divided so that the length of each section is the length of a quarter note. In the hidden Markov model HMM, the length of each section is a 32nd note. Divide the score into lengths. Each state (section) can also transition to itself. That is, in the hidden Markov model HMM, the probability of transition from a certain state to itself is “τ (HMM) ”, and the probability of transition from one state to the next state is “1-τ (HMM) ”. is there. A forward algorithm is applied to such a hidden Markov model HMM in real time to search for a state in which the forward variable is maximum in each frame t. Then, the forward algorithm is applied only to a predetermined number (for example, 16 pieces (four bars of music of four beats)) adjacent to the section of the hidden semi-Markov model HSMM corresponding to the searched state.

なお、「τ(HMM)」は、1フレームあたりに遷移する区間数とみなすことができる。この「区間」とは、隠れマルコフモデルHMMの区間である。したがって、自分自身に遷移する確率を表す「τ(HMM)」と、現在推定されているテンポ(すなわちフレーム数T)とが整合していないと、区間ΔSが適切に得られない可能性がある。そこで、隠れセミマルコフモデルHSMMに基づいて計算された確率密度を用いて、現在のフレーム数Tに対する分布(=Σi,nαi,n,T(t))を計算する。そして、現在のフレーム数Tを用いて1フレームあたりに遷移する区間数の期待値を計算することにより、「τ(HMM)」を決定する。これにより、隠れマルコフモデルHMMと隠れセミマルコフモデルHSMMのテンポが整合する。 Note that “τ (HMM) ” can be regarded as the number of sections that transition per frame. This “section” is a section of the hidden Markov model HMM. Therefore, if “τ (HMM) ” representing the probability of transition to itself does not match the currently estimated tempo (that is, the number of frames T), the section ΔS may not be appropriately obtained. . Therefore, the distribution (= Σ i, n α i, n, T (t)) with respect to the current frame number T is calculated using the probability density calculated based on the hidden semi-Markov model HSMM. Then, “τ (HMM) ” is determined by calculating the expected value of the number of transitions per frame using the current frame number T. Thereby, the tempos of the hidden Markov model HMM and the hidden semi-Markov model HSMM are matched.

次に、前記計算された楽譜位置確率密度及びテンポ確率密度の系列に基づいて、現在の楽譜位置を決定する手法について説明する。上記非特許文献2においては、テンポの連続性を1次の自己回帰過程としてモデル化していた。つまり、フレームtにおけるテンポを「ν」とし、平均値が「0」であって、分散σが「0」より大きい正規分布に従う独立なテンポ変化量εに対して、ν=νt−1+εというモデルを仮定していた。しかし、音楽音響信号においては、テンポを速く(遅く)しているときには、ある程度連続した区間でεが正(負)の値をとり、かつテンポの時間微分(つまり、楽譜位置の加速度)は「0」に戻る傾向にある。つまり、あるフレームにおけるテンポ変化量εは、そのフレームに隣接するフレームのテンポ変化量εに依存する。 Next, a method for determining the current score position based on the calculated score position probability density and tempo probability density series will be described. In Non-Patent Document 2, tempo continuity is modeled as a first-order autoregressive process. That is, with respect to an independent tempo change amount ε t according to a normal distribution in which the tempo at frame t is “ν t ”, the average value is “0”, and the variance σ 2 is greater than “0”, ν t = ν a model in t-1 + ε t has been assumed. However, in a music acoustic signal, when the tempo is fast (slow), ε t takes a positive (negative) value in a certain continuous section, and the time derivative of the tempo (that is, the acceleration of the musical score position) is It tends to return to “0”. That is, the tempo change amount ε t in a certain frame depends on the tempo change amount ε t of a frame adjacent to the frame.

そこで、本実施形態においては、さらに高次の情報を採り入れる。フレームtに関する楽譜位置の確率密度を楽譜位置確率密度U(t)、テンポの確率密度をテンポ確率密度V(t)と表記する。ここで、「q」は、任意の「M」に対して、「q=round(M(i+n/T))」なる演算式により定義される変数である。つまり、「V(t)」は、「q」が1フレームあたりに「M/T」だけ遷移する確率である。 Therefore, in this embodiment, higher order information is adopted. The probability density of the musical score position related to the frame t is expressed as a musical score position probability density U q (t), and the probability density of the tempo is expressed as tempo probability density V T (t). Here, “q” is a variable defined by an arithmetic expression “q = round (M (i + n / T))” for an arbitrary “M”. That is, “V T (t)” is a probability that “q” transitions by “M / T” per frame.

ここで、フレームtにおける真の楽譜位置を楽譜位置x、真の楽譜位置の遷移速度をテンポv、真の楽譜位置の遷移加速度を加速度aと表記する。つまり、テンポvは、楽譜位置xの一階微分に相当し、加速度aは、楽譜位置xの二階微分に相当する。そして、下記の式(11)〜式(13)によって定義される状態空間モデル(高次の自己回帰過程)を設定する。すなわち、楽譜位置の推移を表わす楽譜位置軌跡モデル、テンポの推移を表わすテンポ軌跡モデル、及び加速度の推移を表わす加速度軌跡モデルを設定する。

Figure 0006187132
Figure 0006187132
Figure 0006187132
Here, denoted the true score position score position x t, tempo v t the transition speed of the true score position, the acceleration a t the transition acceleration of the true score position in the frame t. In other words, the tempo v t, which corresponds to the first derivative of the score position x t, the acceleration a t corresponds to the second differential of the score position x t. Then, a state space model (higher order autoregressive process) defined by the following equations (11) to (13) is set. That is, the musical score position trajectory model representing the transition of the musical score position, the tempo trajectory model representing the tempo transition, and the acceleration trajectory model representing the acceleration transition are set.
Figure 0006187132
Figure 0006187132
Figure 0006187132

なお、式(13)における「r」は加速度aの減衰係数である。この減衰係数の作用により、加速度aは、連続的に変化し、かつ「0」に戻るという傾向を示す。また、「r」が大きいとテンポの変化が緩やかになり、「r」が小さいとテンポの変化が激しくなる傾向を示す。「r」は例えば、「0.5」に設定される。実演奏のテンポデータに基づいて、「r」を最適な値に設定しても良い。 Note that "r" in the equation (13) is the attenuation coefficient of the acceleration a t. By the action of the damping coefficient, the acceleration a t is a tendency that continuously changes, and return to "0". In addition, when “r” is large, the change in tempo becomes gentle, and when “r” is small, the change in tempo tends to become intense. “R” is set to “0.5”, for example. “R” may be set to an optimal value based on the tempo data of the actual performance.

上記の状態空間モデルがどのような観測値(つまり、楽譜位置確率密度U(t)及びテンポ確率密度V(t)を生成するかをモデル化できれば、状態遷移と観測尤度を同時に考慮することにより、状態変数を推論することができる。そこで、楽譜位置確率密度U(t)の平均値μ(U(t))及び分散σ(U(t))、並びにテンポ確率密度V(t)の平均値μ(V(t))及び分散σ(V(t))を下記の式(14)〜式(17)を用いて計算する。

Figure 0006187132
Figure 0006187132
Figure 0006187132
Figure 0006187132
If the state space model can model what observation values (that is, score position probability density U q (t) and tempo probability density V T (t) are generated, state transition and observation likelihood are considered simultaneously. Thus, the state variable can be inferred, so that the mean value μ (U q (t)) and variance σ 2 (U q (t)) of the score position probability density U q (t), and the tempo probability The average value μ (V T (t)) and variance σ 2 (V T (t)) of the density V T (t) are calculated using the following formulas (14) to (17).
Figure 0006187132
Figure 0006187132
Figure 0006187132
Figure 0006187132

つまり、推定された現在の楽譜位置xの周辺のフレームに関する楽譜位置確率密度U(t)及びテンポ確率密度V(t)の平均値及び分散を計算する。そして、観測尤度を下記の式(18)に示すように定義する。

Figure 0006187132
That is, the average value and variance of the score position probability density U q (t) and the tempo probability density V T (t) for the frames around the estimated current score position x t are calculated. Then, the observation likelihood is defined as shown in the following equation (18).
Figure 0006187132

すなわち、まず、現在のフレームよりN個前に位置するフレームと現在のフレームとの間における楽譜位置確率密度の系列及びテンポ確率密度の系列から、楽譜位置xの周辺のフレームの確率密度の系列をそれぞれ抽出する。ここで、ΔT個だけ前に位置するフレームにおいて計算された確率密度を正規分布と見なす。つまり、ΔT個だけ前に位置するフレームにおいて計算された確率密度のヒストグラムの平均及び分散を正規分布の平均及び分散と見なす。そして、楽譜位置x、テンポv及び加速度aを用いて、ΔT個だけ前に位置するフレームにおけるテンポ軌跡モデル及び加速度軌跡モデルの尤度を計算する。図5は、計算された楽譜位置観測密度の系列に対するテンポ軌跡モデルを推定する過程を示す概念図である。実際には、テンポ確率密度の系列に対する加速度軌跡モデルも推定する。カルマンフィルタを用いれば、上記のような楽譜位置軌跡モデル、テンポ軌跡モデル及び加速度軌跡モデルを実時間で推定できる。カルマンフィルタの更新ステップが実行され、更新された状態の推定値を用いて、楽譜位置xの平均値〈x〉、及びテンポvの平均値〈v〉が計算される。そして、前記計算された楽譜位置xの平均値〈x〉、及びテンポvの平均値〈v〉が、現在の楽譜位置及びテンポとして決定される。 That is, first, from the sequence of the sequence and the tempo probability density of score position probability density between the current frame and the current frame located N pieces prior frame, a sequence of probability density of the frame around the score position x t Are extracted respectively. Here, the probability density calculated in a frame located by ΔT pieces before is regarded as a normal distribution. That is, the mean and variance of the histogram of probability density calculated in the frame located by ΔT before are regarded as the mean and variance of the normal distribution. The score position x t, using the tempo v t and the acceleration a t, calculates the likelihood of the tempo track model and acceleration trajectory model in frame located before ΔT pieces only. FIG. 5 is a conceptual diagram showing a process of estimating a tempo trajectory model for the calculated musical score position observation density sequence. In practice, an acceleration trajectory model for the tempo probability density series is also estimated. If the Kalman filter is used, the musical score position trajectory model, the tempo trajectory model, and the acceleration trajectory model as described above can be estimated in real time. An update step of the Kalman filter is executed, and the average value <x t > of the musical score position x t and the average value <v t > of the tempo v t are calculated using the updated estimated value. Then, the calculated average value <x t > of the musical score position x t and the average value <v t > of the tempo v t are determined as the current musical score position and tempo.

次に、スコアアライメント装置10の動作について具体的に説明する。CPU12aは、図6Aに示すように、ステップS10にて、スコアアライメントプログラムをROM12bから読み込んで、スコアアライメント処理を開始する。次に、CPU12aは、ステップS11にて、表示器13に楽譜データのリストを表示する。ユーザは、表示されたリストの中から、スコアアライメント処理を実行する対象の楽曲(つまり、演奏される楽曲)の楽譜データを、入力操作子11を用いて選択する。次に、CPU12aは、ステップS12にて、前記選択された楽譜データを記憶装置14から読み込んで、複数の区間i(=1,2,・・・,I)に分割する。   Next, the operation of the score alignment apparatus 10 will be specifically described. As shown in FIG. 6A, the CPU 12a reads the score alignment program from the ROM 12b in step S10, and starts the score alignment process. Next, the CPU 12a displays a list of score data on the display unit 13 in step S11. The user uses the input operator 11 to select the musical score data of the music to be subjected to the score alignment process (that is, the music to be played) from the displayed list. Next, in step S12, the CPU 12a reads the selected score data from the storage device 14 and divides it into a plurality of sections i (= 1, 2,..., I).

次に、CPU12aは、ステップS13にて、サウンドシステム16に、楽音のサンプリングを開始させる。次に、CPU12aは、ステップS14にて、処理対象のフレームを最初のフレームに設定する。すなわち、フレームのインデックスである「t」の値を「1」に設定する。   Next, in step S13, the CPU 12a causes the sound system 16 to start sampling of musical sounds. Next, in step S14, the CPU 12a sets the processing target frame as the first frame. That is, the value of “t” that is the index of the frame is set to “1”.

次に、CPU12aは、ステップS15にて、楽譜位置確率密度・テンポ確率密度計算処理を実行する。図6Bに示すように、CPU12aは、ステップS150にて楽譜位置確率密度・テンポ確率密度計算処理を開始する。次に、CPU12aは、ステップS151にて、フレームtに含まれる音響信号(サンプルデータ)をサウンドシステム16のバッファから読み込む。次に、CPU12aは、ステップS152にて、上記式(3)乃至式(5)に基づいて、観測尤度Oi,n,T(t)を計算する。次に、CPU12aは、ステップS153にて、前記計算された観測尤度Oi,n,T(t)を用いて、通常の隠れマルコフモデルHMMに前向きアルゴリズムを適用し、フレームtにおいて前向き変数が最大となる状態を検出する。これにより、隠れセミマルコフモデルHSMMに前向きアルゴリズムを適用する区間が決定される。次に、CPU12aは、ステップS154にて、隠れセミマルコフモデルHSMMを構成する複数の区間のうち、前記決定された区間に前向きアルゴリズムを適用する(式(7)参照)。次に、CPU12aは、ステップS155にて、隠れセミマルコフモデルHSMMに前向きアルゴリズムを適用して計算された前向き変数を用いて、楽譜位置確率密度U(t)及びテンポ確率密度V(t)を計算する。そして、CPU12aは、ステップS156にて、楽譜位置確率密度・テンポ確率密度計算処理を終了し、アライメント計算処理のステップS16に処理を進める。 Next, in step S15, the CPU 12a executes a score position probability density / tempo probability density calculation process. As shown in FIG. 6B, the CPU 12a starts the score position probability density / tempo probability density calculation process in step S150. Next, the CPU 12a reads the acoustic signal (sample data) included in the frame t from the buffer of the sound system 16 in step S151. Next, in step S152, the CPU 12a calculates the observation likelihood O i, n, T (t) based on the above formulas (3) to (5). Next, in step S153, the CPU 12a applies a forward algorithm to the normal hidden Markov model HMM using the calculated observation likelihood O i, n, T (t), and the forward variable is changed in the frame t. Detect the maximum state. As a result, the interval in which the forward algorithm is applied to the hidden semi-Markov model HSMM is determined. Next, in step S154, the CPU 12a applies a forward algorithm to the determined section among the plurality of sections constituting the hidden semi-Markov model HSMM (see formula (7)). Next, in step S155, the CPU 12a uses the forward variable calculated by applying the forward algorithm to the hidden semi-Markov model HSMM, and uses the score position probability density U q (t) and the tempo probability density V T (t). Calculate Then, in step S156, the CPU 12a ends the score position probability density / tempo probability density calculation process, and proceeds to step S16 of the alignment calculation process.

次に、CPU12aは、ステップS16にて、楽譜位置・テンポ決定処理を実行する。CPU12aは、図6Cに示すように、ステップS160にて、楽譜位置・テンポ決定処理を開始する。次に、CPU12aは、ステップS161にて、楽譜位置がジャンプしたか否かを判定する。具体的には、現在のフレームに関して計算された楽譜位置確率密度U(t)と、1つ前のフレームに関して計算された楽譜位置確率密度U(t−1)との差に基づいて、楽譜位置がジャンプしたか否かを判定する。例えば、現在のフレームにおける楽譜位置確率密度U(t)及び1つ前のフレームにおける楽譜位置確率密度U(t−1)に基づいて、最も可能性の高い楽譜位置(隠れセミマルコフモデルHSMMの前向き変数の値が最も大きい状態)をそれぞれ検出し、前記検出した現在のフレームの楽譜位置と1つ前のフレームの楽譜位置とが4小節以上離れている場合に、楽譜位置がジャンプしたと判定する。楽譜位置がジャンプしていない場合には、CPU12aは、「No」と判定して、ステップS162にて、上記式(14)乃至式(17)に基づいて、楽譜位置xの周辺のフレームにおける楽譜位置確率密度U(t)及びテンポ確率密度V(t)の平均値及び分散を計算する。次に、CPU12aは、ステップS163にて、上記式(18)に基づいて観測尤度を計算し、カルマンフィルタを用いてテンポ推移モデル及び加速度推移モデルを推定する。 Next, in step S16, the CPU 12a executes score position / tempo determination processing. As shown in FIG. 6C, the CPU 12a starts the musical score position / tempo determination process in step S160. Next, in step S161, the CPU 12a determines whether or not the musical score position has jumped. Specifically, based on the difference between the score position probability density U q (t) calculated for the current frame and the score position probability density U q (t−1) calculated for the previous frame, It is determined whether or not the score position has jumped. For example, based on the score position probability density U q (t) in the current frame and the score position probability density U q (t−1) in the previous frame, the most likely score position (hidden semi-Markov model HSMM) And the score position jumps when the score position of the detected current frame and the score position of the previous frame are 4 bars or more apart from each other. judge. If the score position is not jump, CPU 12a determines "No" at step S162, the equation (14) to, based on the equation (17), in the vicinity of the frame of the score position x t The average value and variance of the score position probability density U q (t) and the tempo probability density V T (t) are calculated. Next, in step S163, the CPU 12a calculates an observation likelihood based on the above equation (18), and estimates a tempo transition model and an acceleration transition model using a Kalman filter.

一方、楽譜位置がジャンプした場合には、CPU12aは、ステップS161において「Yes」と判定する。そして、CPU12aは、ステップS164にて、楽譜位置x、テンポv、及び加速度aの値を次のように設定する。例えば、現在のフレームにおける楽譜位置確率密度U(t)に基づいて、最も可能性の高い楽譜位置を検出し、前記検出した楽譜位置を楽譜位置xとして設定する。また、テンポvを規定値(例えば「120BPM」)に設定する。また、加速度aを規定値(例えば「0」)に設定する。 On the other hand, if the musical score position jumps, the CPU 12a determines “Yes” in step S161. Then, CPU 12a, at step S164, sets score position x t, tempo v t, and the value of the acceleration a t as follows. For example, the most likely score position is detected based on the score position probability density U q (t) in the current frame, and the detected score position is set as the score position x t . Further, the tempo v t is set to a specified value (for example, “120 BPM”). Also, setting the acceleration a t prescribed value (e.g. "0").

そして、CPU12aは、ステップS165にて、楽譜位置推移モデル、テンポ推移モデル及び加速度推移モデルの推定結果を用いて楽譜位置及びテンポを決定して、前記決定した楽譜位置及びテンポに応じて制御対象を制御する。   In step S165, the CPU 12a determines the score position and tempo using the estimation results of the score position transition model, the tempo transition model, and the acceleration transition model, and sets the control target according to the determined score position and tempo. Control.

例えば、楽曲の楽譜を表示器13に表示し、前記決定した楽譜位置(音符)の色を他の部分の色とは異ならせることにより、現在の楽譜位置を明示する。また、例えば、推定された楽譜位置に対応する静止画、動画などを表示する。例えば、静止画を表わす静止画データのファイル名と楽譜位置を予め対応させておき、推定された楽譜位置に対応する静止画データを用いて静止画を表示器13に表示してもよい。また、例えば、動画を表わす動画データの再生位置(例えばフレーム番号)と楽譜位置を予め対応付けておき、前記動画のうち、推定された楽譜位置に対応する部分を表示器13に表示してもよい。また、例えば、伴奏を表わす伴奏データの再生位置(例えば小節番号)と楽譜位置を予め対応付けておき、推定された楽譜位置に対応する部分のデータをサウンドシステム16の音源回路に送信して、伴奏の楽音を放音させてもよい。伴奏を再生する際には、伴奏のテンポを前記決定したテンポに設定すればよい。   For example, the musical score of the music is displayed on the display 13 and the current musical score position is clearly indicated by making the determined musical score position (note) color different from the color of other parts. Further, for example, a still image or a moving image corresponding to the estimated score position is displayed. For example, a file name of still image data representing a still image and a score position may be associated in advance, and the still image may be displayed on the display unit 13 using still image data corresponding to the estimated score position. Further, for example, a reproduction position (for example, a frame number) of moving image data representing a moving image is associated with a musical score position in advance, and a portion corresponding to the estimated musical score position of the moving image is displayed on the display unit 13. Good. Further, for example, a reproduction position (for example, a measure number) of accompaniment data representing accompaniment is associated with a musical score position in advance, and a portion of data corresponding to the estimated musical score position is transmitted to the sound source circuit of the sound system 16. Accompanied musical sounds may be emitted. When reproducing the accompaniment, the accompaniment tempo may be set to the determined tempo.

次に、CPU12aは、前記計算された前向き変数αi,n,T(t)を用いて、ステップS166にて、隠れマルコフモデルHMMの状態遷移確率を更新する。具体的には、まず、セミマルコフモデルHSMMの前向き変数を用いて、現在のフレーム数Tの期待値〈T〉を計算する。隠れセミマルコフモデルHSMMにおいて、フレーム数Tの値が平均値〈T〉である場合、1フレームあたりに遷移する区間数は、「1/〈T〉」と表わされる。また、上記のように、「τ(HMM)」は、1フレームあたりに遷移する隠れマルコフモデルHMMの区間数とみなすことができる。したがって、隠れセミマルコフモデルHSMMの区間長と隠れマルコフモデルHMMの区間長との比を「φ」(=隠れセミマルコフモデルHSMMの区間長/隠れマルコフモデルHMMの区間長)とすると、「τ(HMM)=φ/〈T〉」と表わされる。「τ(HMM)」は「0」以上、且つ「1」以下の値として定義されているため、「τ(HMM)」は、次の式(19)に基づいて更新される。

Figure 0006187132
Next, the CPU 12a updates the state transition probability of the hidden Markov model HMM in step S166 using the calculated forward variable α i, n, T (t). Specifically, first, an expected value <T> of the current frame number T is calculated using a forward variable of the semi-Markov model HSMM. In the hidden semi-Markov model HSMM, when the value of the number of frames T is an average value <T>, the number of sections that transition per frame is expressed as “1 / <T>”. Further, as described above, “τ (HMM) ” can be regarded as the number of sections of the hidden Markov model HMM that changes per frame. Therefore, if the ratio between the section length of the hidden semi-Markov model HSMM and the section length of the hidden Markov model HMM is “φ” (= section length of the hidden semi-Markov model HSMM / section length of the hidden Markov model HMM), “τ ( HMM) = φ / <T> ”. Since “τ (HMM) ” is defined as a value not less than “0” and not more than “1”, “τ (HMM) ” is updated based on the following equation (19).
Figure 0006187132

そして、CPU12aは、ステップS167にて、楽譜位置決定処理を終了し、アライメント計算処理のステップS17に処理を進める。   Then, in step S167, the CPU 12a ends the score position determination process, and proceeds to step S17 of the alignment calculation process.

次に、CPU12aは、ステップS17にて、処理対象のフレームを次のフレームに設定する。すなわち、フレームのインデックスである「t」の値をインクリメントする。これ以降、CPU12aは、ステップS15乃至ステップS17を繰り返し実行する。ただし、ユーザが入力操作子11を用いてスコアアライメント処理の終了を指示すると、CPU12aは、制御対象の動作を停止させ、スコアアライメント処理を終了する。   Next, in step S17, the CPU 12a sets the processing target frame as the next frame. That is, the value of “t” that is the index of the frame is incremented. Thereafter, the CPU 12a repeatedly executes steps S15 to S17. However, when the user uses the input operator 11 to instruct the end of the score alignment process, the CPU 12a stops the operation to be controlled and ends the score alignment process.

上記のように構成したスコアアライメント装置10においては、まず、楽譜位置確率密度及びテンポ確率密度を計算する。そして、楽譜位置確率密度U(t)の系列及びテンポ確率密度V(t)の系列を用いて、高次の自己回帰過程に基づいて楽譜位置及びテンポを決定する。これによれば、テンポの時間微分(すなわち、楽譜位置の加速度)が連続的であって、且つ「0」に戻る傾向を示すという音楽音響信号の性質を表現できる。また、隠れセミマルコフモデルHSMMを用いて計算された楽譜位置確率密度U(t)及びテンポ確率密度V(t)の分散が大きい区間では、楽譜位置確率密度の系列及びテンポ確率密度の系列の経路が平滑化されるという挙動が得られる。これにより、楽譜位置の推定精度を向上させることができる。したがって、スコアアライメント装置10をメディアプレーヤに適用すれば、演奏者による演奏の進行位置と他のメディア(自動伴奏、画像など)の再生位置とのずれを従来よりも抑制できる。つまり、演奏者による演奏に対する他のメディアの再生が不自然に感じられることを抑制できる。 In the score alignment apparatus 10 configured as described above, first, a score position probability density and a tempo probability density are calculated. Then, the score position and the tempo are determined based on the higher-order autoregressive process using the sequence of the score position probability density U q (t) and the sequence of the tempo probability density V T (t). According to this, it is possible to express the property of the music acoustic signal that the temporal differentiation of the tempo (that is, the acceleration of the musical score position) is continuous and shows a tendency to return to “0”. In addition, in a section where the variance of the score position probability density U q (t) and the tempo probability density V T (t) calculated using the hidden semi-Markov model HSMM is large, the score position probability density series and the tempo probability density series The behavior of smoothing the path is obtained. Thereby, the estimation accuracy of the score position can be improved. Therefore, if the score alignment apparatus 10 is applied to a media player, it is possible to suppress the shift between the performance position of the performance by the performer and the playback position of other media (automatic accompaniment, images, etc.). That is, it is possible to suppress the reproduction of other media in response to the performance by the performer from being unnatural.

また、通常の隠れマルコフモデルHMMに前向きアルゴリズムを適用して前向き変数を計算し、前向き変数が最大となる状態(区間)を検索する。そして、隠れセミマルコフモデルHSMMにおいて、前記検索された状態(区間)に対応する区間を含む複数の区間ΔSに対して前向きアルゴリズムを適用して楽譜位置確率密度U(t)及びテンポ確率密度V(t)を計算している。したがって、隠れセミマルコフモデルHSMMを構成する全ての区間に対して前向きアルゴリズムを適用する場合に比べて、計算量の増大を抑制することができる。 Further, a forward variable is calculated by applying a forward algorithm to a normal hidden Markov model HMM, and a state (section) in which the forward variable is maximized is searched. Then, in the hidden semi-Markov model HSMM, the score position probability density U q (t) and the tempo probability density V are applied by applying a forward algorithm to a plurality of sections ΔS including a section corresponding to the searched state (section). T (t) is calculated. Therefore, an increase in the amount of calculation can be suppressed as compared with the case where the forward algorithm is applied to all the sections constituting the hidden semi-Markov model HSMM.

また、隠れセミマルコフモデルHSMMの区間数よりも隠れマルコフモデルHMMの区間数のほうが多くなるように楽譜を分割した。これにより、隠れセミマルコフモデルHSMMの区間のうち前向きアルゴリズムを適用する複数の区間を、隠れマルコフモデルHMMの区間数と隠れセミマルコフモデルHSMMの区関数とが同一である場合に比べて、より適切に検索できる。   Further, the musical score was divided so that the number of sections of the hidden Markov model HMM was larger than the number of sections of the hidden semi-Markov model HSMM. Accordingly, a plurality of sections to which the forward algorithm is applied among the sections of the hidden semi-Markov model HSMM are more appropriate as compared with the case where the number of sections of the hidden Markov model HMM and the section function of the hidden semi-Markov model HSMM are the same. Can be searched.

さらに、本発明の実施にあたっては、上記実施形態に限定されるものではなく、本発明の目的を逸脱しない限りにおいて種々の変更が可能である。   Furthermore, in carrying out the present invention, the present invention is not limited to the above embodiment, and various modifications can be made without departing from the object of the present invention.

例えば、上記実施形態では、楽譜にダ・カーポ、繰り返し記号などが含まれないと仮定しているが、楽譜にダ・カーポ、繰り返し記号などが含まれる場合には、それらの演奏記号に従って区間の遷移確率を適当に設定すればよい。例えば、繰り返し記号が含まれる場合には、繰り返し区間のうちの末尾の区間から、繰り返し区間の先頭へ遷移する確率を50%とし、繰り返し区間の末尾の区間から、前記末尾の区間の1つ後の区間へ遷移する確率を50%とすればよい。   For example, in the above embodiment, it is assumed that the score does not include da-capo, repeated symbols, etc., but if the score includes da-capo, repeated symbols, etc. What is necessary is just to set a transition probability appropriately. For example, when a repetition symbol is included, the probability of transitioning from the end section of the repeat section to the start of the repeat section is 50%, and one end of the end section from the end section of the repeat section. The probability of transition to this section may be 50%.

また、例えば、ステップS151にて、音響信号データを読み込んだとき、無音か否かを判定するステップを追加しても良い。無音である場合には、楽譜位置xのモデルを状態空間モデルに基づいてのみ更新すればよい。つまり、x=xt−1+vt−1+at−1/2なる演算式を用いればよい。また、この場合、隠れマルコフモデルHMM及び隠れセミマルコフモデルHSMMの前向き変数に関しては、楽譜位置xに対応する箇所の変数のみを一様分布に設定し、それ以外を「0」に設定すればよい。 Further, for example, a step of determining whether or not there is silence when the acoustic signal data is read in step S151 may be added. If it is silence, it may be updated only based on a model of the score position x t to the state space model. That is, an arithmetic expression of x t = x t−1 + v t−1 + a t−1 / 2 may be used. In this case, with respect to the forward variable Hidden Markov Models HMM and hidden semi Markov model HSMM, it sets only variable portion corresponding to the score position x t a uniform distribution, by setting the rest to "0" Good.

また、楽譜にフェルマータが存在する場合は、フェルマータが記された区間において自己遷移を許容するように隠れセミマルコフモデルHSMMを設定すればよい。つまり、区間iにフェルマータが存在するとき、確率τi,iを「ρ」とし、確率τi,jを「1−ρ」に設定すればよい。この場合、区間iにおいて自己遷移した回数をカウントし、カウント結果に応じて、演奏が区間iに留まった長さを評価してもよい。例えば、区間iに留まった長さを「短すぎる」、「普通」、「長すぎる」という3段階で判定し、判定結果を演奏評価情報として出力しても良い。 In addition, when fermata exists in the score, the hidden semi-Markov model HSMM may be set so as to allow self-transition in the section where the fermata is written. That is, when fermata exists in the interval i, the probability τ i, i may be set to “ρ” and the probability τ i, j may be set to “1-ρ”. In this case, the number of times of self-transition in the section i may be counted, and the length of the performance remaining in the section i may be evaluated according to the count result. For example, the length remaining in the section i may be determined in three stages of “too short”, “normal”, and “too long”, and the determination result may be output as performance evaluation information.

また、推定されたテンポ及びその分散を用いて、楽曲の演奏速度を評価してもよい。例えば、楽曲の演奏速度を「遅すぎる」、「普通」、「速すぎる」という3段階で判定し、判定結果を演奏評価情報として出力しても良い。   Moreover, you may evaluate the performance speed of a music using the estimated tempo and its dispersion | distribution. For example, the performance speed of the music may be determined in three stages, “too slow”, “normal”, and “too fast”, and the determination result may be output as performance evaluation information.

10・・・スコアアライメント装置、HMM・・・隠れマルコフモデル、HSMM・・・隠れセミマルコフモデル、x・・・楽譜位置、v・・・テンポ、a・・・加速度 10 ... score alignment apparatus, HMM ··· hidden Markov model, HSMM ··· hidden semi-Markov model, x t ··· score position, v t ··· tempo, a t ··· acceleration

Claims (4)

楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分を表す楽譜位置及びテンポを実時間で推定するスコアアライメント装置であって、
楽譜位置をそれぞれ表す状態の系列として表された確率モデルであって、現在の状態が直前の状態に依存する性質と、現在の状態からいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算手段と、
真の楽譜位置、真の楽譜位置の遷移速度、及び真の楽譜位置の遷移加速度を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定手段と、を備えたスコアアライメント装置。
A score alignment device that estimates in real time a musical score position and a tempo representing a currently played portion of the musical score of the musical piece by analyzing the captured acoustic signal while capturing an acoustic signal representative of the musical performance sound There,
Probability model expressed as a sequence of states that represent each musical score position, with the probability that the current state depends on the immediately preceding state and the property that it can transition to any state from the current state A score position probability density / tempo probability density calculation means for calculating the score position probability density and the tempo probability density based on the model;
Based on the autoregressive process expressed using the true score position, the transition speed of the true score position, and the transition acceleration of the true score position, using the calculated probability density sequence of the score position, A score alignment device comprising: a score position / tempo determination means for determining a score position and a tempo.
請求項1に記載のスコアアライメント装置において、
前記状態は、前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる時間とを用いて特定され、
前記確率モデルは、前記状態の系列として表された隠れセミマルコフモデルであり、
前記楽譜位置確率密度・テンポ確率密度計算手段は、前記隠れセミマルコフモデルに前向きアルゴリズムを適用することにより前記楽譜位置の確率密度及びテンポの確率密度を計算する、スコアアライメント装置。
The score alignment apparatus according to claim 1,
The state depends on playing from the beginning of the section including the current score position to the current score position among the plurality of sections obtained by dividing the score and including the current score position. And the time taken to play the entire section,
The stochastic model is a hidden semi-Markov model represented as a sequence of the states;
The score position probability density / tempo probability density calculation means calculates a score position probability density and a tempo probability density by applying a forward algorithm to the hidden semi-Markov model.
請求項2に記載のスコアアライメント装置において、
前記楽譜位置確率密度・テンポ確率密度計算手段は、
前記楽譜を分割して得られた複数の区間のうちの現在の楽譜位置が含まれる区間と、現在の楽譜位置が含まれる区間の先頭から現在の楽譜位置まで演奏するのにかかった時間と、前記区間全体を演奏するのにかかる平均的な時間とを用いて特定される状態の系列として表された隠れマルコフモデルに基づいて、前記隠れセミマルコフモデルの区間のうち前向きアルゴリズムを適用する複数の区間を検索する区間検索手段を備えた、スコアアライメント装置。
The score alignment apparatus according to claim 2,
The musical score position probability density / tempo probability density calculation means includes:
Of the plurality of sections obtained by dividing the score, the section including the current score position, the time taken to play from the beginning of the section including the current score position to the current score position, Based on a hidden Markov model represented as a sequence of states specified using an average time taken to play the entire section, a plurality of forward-looking algorithms are applied among the sections of the hidden semi-Markov model. A score alignment apparatus comprising section search means for searching for a section.
楽曲の演奏音を表わす音響信号を取り込みつつ前記取り込んだ音響信号を分析することにより、前記楽曲の楽譜のうち現在演奏されている部分を表す楽譜位置及びテンポを実時間で推定するスコアアライメント装置が備えるコンピュータに、
楽譜位置をそれぞれ表す状態の系列として表された確率モデルであって、現在の状態が直前の状態に依存する性質と、現在の状態から他のいずれの状態にも遷移可能である性質とを備えた確率モデルに基づいて前記楽譜位置の確率密度及びテンポの確率密度を計算する楽譜位置確率密度・テンポ確率密度計算ステップと、
真の楽譜位置、真の楽譜位置の遷移速度、及び真の楽譜位置の遷移加速度を用いて表された自己回帰過程に基づいて、前記計算された楽譜位置の確率密度の系列を用いて、現在の楽譜位置及びテンポを決定する楽譜位置・テンポ決定ステップと、を実行させるコンピュータプログラム。
A score alignment device that estimates in real time a musical score position and a tempo representing a currently played portion of the musical score of the musical composition by analyzing the captured acoustic signal while capturing an acoustic signal representing a musical performance sound Computer
A probabilistic model expressed as a sequence of states that represent each musical score position, with the property that the current state depends on the immediately preceding state and the property that it can transition from the current state to any other state A score position probability density / tempo probability density calculation step of calculating a score density and a tempo probability density based on the probability model;
Based on the autoregressive process expressed using the true score position, the transition speed of the true score position, and the transition acceleration of the true score position, using the calculated probability density sequence of the score position, A computer program for executing a musical score position / tempo determination step for determining a musical score position and tempo.
JP2013217168A 2013-10-18 2013-10-18 Score alignment apparatus and score alignment program Active JP6187132B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013217168A JP6187132B2 (en) 2013-10-18 2013-10-18 Score alignment apparatus and score alignment program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013217168A JP6187132B2 (en) 2013-10-18 2013-10-18 Score alignment apparatus and score alignment program

Publications (2)

Publication Number Publication Date
JP2015079183A JP2015079183A (en) 2015-04-23
JP6187132B2 true JP6187132B2 (en) 2017-08-30

Family

ID=53010627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013217168A Active JP6187132B2 (en) 2013-10-18 2013-10-18 Score alignment apparatus and score alignment program

Country Status (1)

Country Link
JP (1) JP6187132B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017008076T5 (en) 2017-11-07 2020-06-25 Yamaha Corporation Data generation device and program

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6467887B2 (en) 2014-11-21 2019-02-13 ヤマハ株式会社 Information providing apparatus and information providing method
CN108028040B (en) 2015-09-07 2022-06-07 雅马哈株式会社 Musical performance assisting apparatus and method
JP6801225B2 (en) 2016-05-18 2020-12-16 ヤマハ株式会社 Automatic performance system and automatic performance method
JP6597903B2 (en) * 2016-07-22 2019-10-30 ヤマハ株式会社 Music data processing method and program
US10846519B2 (en) 2016-07-22 2020-11-24 Yamaha Corporation Control system and control method
JP6614356B2 (en) * 2016-07-22 2019-12-04 ヤマハ株式会社 Performance analysis method, automatic performance method and automatic performance system
JP6631713B2 (en) * 2016-07-22 2020-01-15 ヤマハ株式会社 Timing prediction method, timing prediction device, and program
EP3489944A4 (en) 2016-07-22 2020-04-08 Yamaha Corporation Control method and control device
WO2018016638A1 (en) 2016-07-22 2018-01-25 ヤマハ株式会社 Control method and control device
JP6631714B2 (en) 2016-07-22 2020-01-15 ヤマハ株式会社 Timing control method and timing control device
JP6772640B2 (en) * 2016-08-03 2020-10-21 ヤマハ株式会社 Devices and methods for generating phrases
JP6776788B2 (en) 2016-10-11 2020-10-28 ヤマハ株式会社 Performance control method, performance control device and program
JP6838357B2 (en) 2016-11-07 2021-03-03 ヤマハ株式会社 Acoustic analysis method and acoustic analyzer
JP6724879B2 (en) * 2017-09-22 2020-07-15 ヤマハ株式会社 Reproduction control method, reproduction control device, and program
JP6699677B2 (en) * 2018-02-06 2020-05-27 ヤマハ株式会社 Information processing method, information processing apparatus, and program
JP6724938B2 (en) 2018-03-01 2020-07-15 ヤマハ株式会社 Information processing method, information processing apparatus, and program
JP7243026B2 (en) 2018-03-23 2023-03-22 ヤマハ株式会社 Performance analysis method, performance analysis device and program
JP7226709B2 (en) * 2019-01-07 2023-02-21 ヤマハ株式会社 Video control system and video control method
JP7143816B2 (en) * 2019-05-23 2022-09-29 カシオ計算機株式会社 Electronic musical instrument, electronic musical instrument control method, and program
CN114639394A (en) * 2022-03-30 2022-06-17 三星电子(中国)研发中心 Method and device for realizing virtual playing partner

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4302837B2 (en) * 1999-10-21 2009-07-29 ヤマハ株式会社 Audio signal processing apparatus and audio signal processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017008076T5 (en) 2017-11-07 2020-06-25 Yamaha Corporation Data generation device and program
US11430417B2 (en) 2017-11-07 2022-08-30 Yamaha Corporation Data generation device and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
JP2015079183A (en) 2015-04-23

Similar Documents

Publication Publication Date Title
JP6187132B2 (en) Score alignment apparatus and score alignment program
JP6179140B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
JP6597903B2 (en) Music data processing method and program
JP5228432B2 (en) Segment search apparatus and program
JP6724879B2 (en) Reproduction control method, reproduction control device, and program
JP5007714B2 (en) Information processing apparatus and method, program, and recording medium
JP6252147B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
JP2008139426A (en) Data structure of data for evaluation, karaoke machine, and recording medium
JP6295794B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
JP6281211B2 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP6296221B2 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP2008216486A (en) Music reproduction system
JP4913638B2 (en) Evaluation device and karaoke device
CN110959172B (en) Performance analysis method, performance analysis device, and storage medium
JP5760543B2 (en) Intonation judgment device
JP6733487B2 (en) Acoustic analysis method and acoustic analysis device
JP2008122426A (en) Information processor and method, program, and recording medium
JP6838357B2 (en) Acoustic analysis method and acoustic analyzer
JP4347815B2 (en) Tempo extraction device and tempo extraction method
JP7147384B2 (en) Information processing method and information processing device
US20230419929A1 (en) Signal processing system, signal processing method, and program
JP2016057389A (en) Chord determination device and chord determination program
JP2008268358A (en) Karaoke device, singing evaluation method and program
JP6515945B2 (en) Code extraction apparatus and method
JP2007233078A (en) Evaluation device, control method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170717

R151 Written notification of patent or utility model registration

Ref document number: 6187132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151