JP6281211B2 - Acoustic signal alignment apparatus, alignment method, and computer program - Google Patents

Acoustic signal alignment apparatus, alignment method, and computer program Download PDF

Info

Publication number
JP6281211B2
JP6281211B2 JP2013176659A JP2013176659A JP6281211B2 JP 6281211 B2 JP6281211 B2 JP 6281211B2 JP 2013176659 A JP2013176659 A JP 2013176659A JP 2013176659 A JP2013176659 A JP 2013176659A JP 6281211 B2 JP6281211 B2 JP 6281211B2
Authority
JP
Japan
Prior art keywords
performance
spectrum
spectra
evaluation value
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013176659A
Other languages
Japanese (ja)
Other versions
JP2015045731A5 (en
JP2015045731A (en
Inventor
陽 前澤
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013176659A priority Critical patent/JP6281211B2/en
Publication of JP2015045731A publication Critical patent/JP2015045731A/en
Publication of JP2015045731A5 publication Critical patent/JP2015045731A5/en
Application granted granted Critical
Publication of JP6281211B2 publication Critical patent/JP6281211B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部のパートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置に関する。なお、以下の説明において、複数の演奏をそれぞれ構成する各楽音の発音タイミングの対応関係を単にアライメントと呼ぶ。   In the present invention, a first performance in which a plurality of performance parts constituting a musical piece are played, and an acoustic signal each representing a second performance in which a part of the plurality of performance parts is played are recorded. The present invention relates to an alignment apparatus that analyzes the first and second acoustic data and associates the tone generation timings of the musical sounds constituting the first and second performances, respectively. In the following description, the correspondence relationship between the sound generation timings of the respective musical sounds constituting the plurality of performances is simply referred to as alignment.

従来から、例えば、下記非特許文献1及び2に示されているように、音響信号のアライメント装置は知られている。非特許文献1に記載のアライメント装置では、まず、分析対象の楽曲の楽譜を表わす楽譜データ(例えば、Standard MIDI File)を構成する各発音情報(例えば、ノートオンデータ及びノートオフデータ)と、分析対象の第1の演奏及び第2の演奏をそれぞれ構成する各楽音とを対応づける。そして、楽譜データの発音情報と第1の演奏の各楽音との対応情報、及び楽譜データの発音情報と第2の演奏の各楽音との対応情報を用いて、第1の演奏と第2の演奏のアライメントを計算している。   Conventionally, for example, as shown in Non-patent Documents 1 and 2 below, acoustic signal alignment apparatuses are known. In the alignment apparatus described in Non-Patent Document 1, first, each pronunciation information (for example, note-on data and note-off data) constituting score data (for example, Standard MIDI File) representing the score of the music to be analyzed, and analysis Each musical tone constituting each of the target first performance and second performance is associated with each other. Then, using the correspondence information between the pronunciation information of the score data and each musical tone of the first performance, and the correspondence information between the pronunciation information of the musical score data and each musical tone of the second performance, the first performance and the second performance are used. The performance alignment is calculated.

また、非特許文献2に記載のアライメント装置では、動的時間伸縮法(Dynamic Time Warping)を用いて第1の演奏と第2の演奏のアライメントを計算している。   In the alignment apparatus described in Non-Patent Document 2, the alignment between the first performance and the second performance is calculated using a dynamic time warping method.

Sebastian Ewert,Meinard Muller,Peter Grosche、「HIGH RESOLUTION AUDIO SYNCLONIZATION USING CHROMA ONSET FEATURES」、Acoustics,Speech and Signal Processing 2009,ICASSP 2009,IEEE International Conference on、p.1869−p.1872Sebastian Ewert, Mineral Muller, Peter Grosche, “HIGH RESOLUTION AUDIO SYNCLONIZATION USING CHROMA ONSET FEATURES”, Acustics, Speech 1869-p. 1872 Simon Dixon,Gerhard Widner、「MATCH: A MUSIC ALIGNMENT TOOL CHEST」、ISMIR2005,6th International Conference on Music Information Retrieval、p.492−p.497Simon Dixon, Gerhard Widner, “MATCH: A MUSIC ALIGNMENT TOOL CHEST”, ISMIR 2005, 6th International Conference on Music Information Retrieval, p. 492-p. 497

上記非特許文献1のアライメント装置によれば、分析対象の楽曲を表わす楽譜データが必要である。したがって、楽譜データが存在しない楽曲のアライメントを計算することができない。また、分析の第1段階として、楽譜データを構成する発音情報と分析対象の第1の演奏及び第2の演奏を構成する各楽音とが対応づけられる。そして、分析の第2段階において、前記第1段階の分析結果を用いて、第1の演奏と第2の演奏のアライメントが計算される。そのため、各分析段階の誤差が蓄積することによって分析精度が低下する虞がある。   According to the alignment apparatus of Non-Patent Document 1, musical score data representing the music to be analyzed is required. Therefore, it is not possible to calculate the alignment of music that does not have musical score data. Also, as the first stage of analysis, the pronunciation information constituting the musical score data is associated with each musical tone constituting the first performance and the second performance to be analyzed. Then, in the second stage of analysis, the alignment of the first performance and the second performance is calculated using the analysis result of the first stage. For this reason, there is a possibility that the analysis accuracy may be reduced by accumulating errors at each analysis stage.

また、上記非特許文献2のアライメント装置では、第1の演奏と第2の演奏の差(距離)を計算する際、対称性を有する距離尺度(例えば、ユークリッド距離)を用いている。これによれば、第1の演奏に含まれる演奏パート数と第2の演奏に含まれる演奏パート数がほぼ同じである場合には、両演奏を音響信号として評価したときの両者の差(距離)が小さいので、良好な分析結果が得られる。しかし、例えば所定の交響曲の全演奏パートの演奏と、前記全演奏パートのうちの一部の演奏パートのみの演奏とのアライメントを上記非特許文献2のアライメント装置を用いて計算した場合、各演奏を音響信号としてそれぞれ評価したときの両者の差(距離)が大きいので、アライメントを精度良く計算できない。   In the alignment apparatus of Non-Patent Document 2, a distance measure (for example, Euclidean distance) having symmetry is used when calculating the difference (distance) between the first performance and the second performance. According to this, when the number of performance parts included in the first performance is substantially the same as the number of performance parts included in the second performance, the difference (distance) between the performances when both performances are evaluated as acoustic signals. ) Is small, a good analysis result can be obtained. However, for example, when the alignment of the performance of all the performance parts of a predetermined symphony and the performance of only a part of the performance parts is calculated using the alignment apparatus of Non-Patent Document 2, each performance Since the difference (distance) between them is large when each is evaluated as an acoustic signal, alignment cannot be calculated with high accuracy.

また、第1の演奏及び第2の演奏において共通する演奏パートの楽音の音高(チューニング)がずれている場合には、両者の距離が大きいと判断され、アライメントを精度良く計算できない。   In addition, when the pitches of the musical sounds of the performance parts common to the first performance and the second performance are shifted, it is determined that the distance between the two is large, and the alignment cannot be calculated with high accuracy.

本発明は上記問題に対処するためになされたもので、その目的は、楽譜データを用いることなく複数の演奏のアライメントを計算可能なアライメント装置、アライメント方法及びコンピュータプログラムであって、前記複数の演奏を音響信号として評価したときの差が大きくても高精度にアライメントを計算できるアライメント装置、アライメント方法及びコンピュータプログラムを提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。
The present invention has been made to address the above problems, and an object of the present invention is an alignment apparatus , an alignment method, and a computer program capable of calculating the alignment of a plurality of performances without using musical score data. The present invention provides an alignment apparatus , an alignment method, and a computer program capable of calculating alignment with high accuracy even when a difference when the signal is evaluated as an acoustic signal is large. In addition, in the description of each constituent element of the present invention below, in order to facilitate understanding of the present invention, reference numerals of corresponding portions of the embodiment are described in parentheses, but each constituent element of the present invention is The present invention should not be construed as being limited to the configurations of the corresponding portions indicated by the reference numerals of the embodiments.

上記目的を達成するために、本発明の特徴は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データ(d1、d2)を分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置(10、20)であって、前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xp(tp))と前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xm(tm))とからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値(Dtp,tm、Ltp,tm)を計算する評価値計算手段(S12、S22)と、前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段(13、23)と、を備えたアライメント装置としたことにある。なお、上記の「各楽音の発音タイミングを対応付ける」とは、前記第1及び第2の音響データを用いて前記第1及び第2の演奏を同時に再生する際に前記第1及び第2の演奏を同期させることができるように、各楽音の発音タイミングを対応付けることを意味する。 In order to achieve the above object, the present invention is characterized by a first performance in which a plurality of performance parts constituting a musical piece are played, and a second performance in which a part of the plurality of performance parts is played. An alignment device (1) that analyzes first and second acoustic data (d1, d2) each recording an acoustic signal that represents a performance, and associates the sound generation timing of each musical sound that constitutes the first and second performances ( 10, 20), one spectrum (Xp (tp)) of a plurality of spectra constituting the spectrogram of the second performance and a plurality of spectra constituting the spectrogram of the first performance A frequency component in which the spectrum of the second performance of the set of spectra including one spectrum (Xm (tm)) exceeds the spectrum of the first performance is obtained. A first weight is assigned, and a second performance spectrum of the set of spectra is included in the first performance spectrum when a second weight smaller than the first weight is assigned. Evaluation value calculation means (S12, S22) for calculating evaluation values (D tp, tm , L tp, tm ) related to the similarity of the set of spectra using a scale set to be performed, and the similarity Calculating the evaluation value of the set of spectrum series using the evaluation value for the set of spectrums, and estimating the set of spectrum series satisfying a predetermined criterion by the evaluation value of the set of spectrum series, The alignment apparatus includes alignment calculation means (13, 23) for associating the sound generation timings of the respective musical sounds constituting the first and second performances. Note that “corresponding to the sound generation timing of each musical tone” means that the first and second performances are reproduced when the first and second performances are simultaneously reproduced using the first and second acoustic data. This means that the sound generation timings of the musical sounds are associated with each other so that they can be synchronized.

この場合、前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離(Dtp,tm)であり、前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、前記一組のスペクトルの系列の評価値は、前記距離の総和であるとよい。なお、前記距離に単純増加関数(例えば指数関数)を適用し、前記距離の累積値を前記一組のスペクトルの系列の評価値とする場合も実質的には前記距離の総和を前記一組のスペクトルの系列の評価値とすることと同じである。したがって、上記の場合も本発明に含まれるものとする。 In this case, the evaluation value related to the similarity of the set of spectra is a distance (D tp, tm ) of the set of spectra, and the scale is a spectrum of a second performance of the set of spectra. Has a frequency component exceeding the spectrum of the first performance, the distance of the spectrum of the second performance viewed from the spectrum of the first performance is the first distance viewed from the spectrum of the second performance. When the spectrum of the performance is larger than the distance of the performance spectrum and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance, the second spectrum viewed from the spectrum of the first performance Is a non-symmetrical distance measure in which the spectrum distance of the performance is smaller than the spectrum distance of the first performance viewed from the spectrum of the second performance, Evaluation value of the sequence, may is the sum of said distance. Note that when a simple increase function (for example, an exponential function) is applied to the distance and the cumulative value of the distance is used as an evaluation value of the set of spectrum series, the total sum of the distances is substantially calculated. This is the same as the evaluation value of the spectrum series. Therefore, the above case is also included in the present invention.

また、この場合、前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度(Ltp,tm)であり、前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデル(HMM)の尤度であってもよい。 In this case, the evaluation value related to the similarity of the set of spectra is the observation likelihood (L tp, tm ) of the spectrum of the second performance in the probability distribution corresponding to the scale, and The evaluation value of the spectrum series may be a likelihood model (HMM) likelihood described as a series of states classified by a combination of the spectrum of the first performance and the spectrum of the second performance.

これによれば、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有する場合には、第1の重みを付して類似性の評価値が計算される。一方、第2の演奏のスペクトルが第1の演奏のスペクトルに包含される場合、第1の重みよりも小さな第2の重みを付して類似性の評価値が計算される。これにより、第1の演奏と第2の演奏の包含関係をより的確に評価できる。すなわち、厳密に対称な尺度(つまり第1の重みと第2の重みが同じである尺度)を用いて前記一組のスペクトルの類似性に関する評価値を計算する場合に比べて、前記評価値をより的確に計算することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。   According to this, when the spectrum of the second performance has a frequency component exceeding the spectrum of the first performance, the evaluation value of similarity is calculated by assigning the first weight. On the other hand, when the spectrum of the second performance is included in the spectrum of the first performance, the evaluation value of similarity is calculated with a second weight smaller than the first weight. Thereby, the inclusion relationship between the first performance and the second performance can be more accurately evaluated. That is, compared with the case where the evaluation value regarding the similarity of the set of spectra is calculated using a strictly symmetric scale (that is, a scale in which the first weight and the second weight are the same), the evaluation value is It can be calculated more accurately. Therefore, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment of the first performance and the second performance is more accurate. Can be calculated well.

また、本発明の他の特徴は、評価値計算手段は、前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことにある。なお、前記類似性に関する評価値に指数関数を適用した場合、前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に積算される。この場合も実質的には前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に加算されたものとみなす。   Another feature of the present invention is that the evaluation value calculating means converts one frequency component of the first performance spectrum and the second performance spectrum of the set of spectra to the other frequency. Pitch shift means for shifting relative to the component in the frequency axis direction, and addition means for adding an evaluation value corresponding to the shift amount of each frequency component to the evaluation value related to the similarity of the set of spectra. In addition to that. When an exponential function is applied to the evaluation value related to the similarity, the evaluation value corresponding to the shift amount of each frequency component is integrated into the evaluation value related to the similarity of the set of spectra. Also in this case, it is considered that an evaluation value corresponding to the shift amount of each frequency component is substantially added to an evaluation value related to the similarity of the set of spectra.

これによれば、第1の演奏のピッチと第2の演奏をピッチとが相対的にシフトされるとともにそのシフト量に応じたコストとしての距離が両スペクトルの距離として加算される。これにより、第1の演奏に対して第2の演奏のピッチが多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。   According to this, the pitch of the first performance and the pitch of the second performance are relatively shifted, and the distance as the cost corresponding to the shift amount is added as the distance between both spectra. Thereby, even if the pitch of the second performance is slightly deviated from the first performance, the alignment between the first performance and the second performance can be calculated with high accuracy.

分析対象の音響信号(音響データ)の構成を示す概念図である。It is a conceptual diagram which shows the structure of the acoustic signal (acoustic data) of analysis object. 本発明の第1及び第2実施形態に係るアライメント装置の構成を示すブロック図である。It is a block diagram which shows the structure of the alignment apparatus which concerns on 1st and 2nd embodiment of this invention. 本発明の第1実施形態に係るアライメント装置のアライメントの計算手順を示すフローチャートである。It is a flowchart which shows the calculation procedure of the alignment of the alignment apparatus which concerns on 1st Embodiment of this invention. 格子点の系列を示す概念図である。It is a conceptual diagram which shows the series of a grid point. 第2の演奏のスペクトルが第1の演奏のスペクトルに包含されている状態を示すグラフである。It is a graph which shows the state where the spectrum of the 2nd performance is included in the spectrum of the 1st performance. 第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有する状態を示すグラフである。It is a graph which shows the state which has a frequency component in which the spectrum of a 2nd performance exceeds the spectrum of a 1st performance. 本発明の第2実施形態に係るアライメント装置のアライメントの計算手順を示すフローチャートである。It is a flowchart which shows the calculation procedure of the alignment of the alignment apparatus which concerns on 2nd Embodiment of this invention. 状態の経路を示す概念図である。It is a key map showing the course of a state.

(第1実施形態)
本発明の第1実施形態に係るアライメント装置10について説明する。アライメント装置10は、以下説明するように、楽曲の演奏をそれぞれ表わす2つの音響データd1及び音響データd2を用いて各演奏を再生する際にそれらを同期させることができるように、各演奏を構成する各楽音の再生タイミングを対応づける。なお、音響データd1,d2は同一の楽譜に記載された1つ又は複数の演奏パートを演奏することにより発生された音をそれぞれ表わす音響信号をディジタルデータとしてそれぞれ記録したものである。音響データd1は前記楽曲の全演奏パートの演奏(以下第1の演奏と呼ぶ)を含み、音響データd2は、前記全演奏パートのうちの一部の演奏パートの演奏(以下第2の演奏と呼ぶ)のみを含む(図1参照)。図1の例では、分析対象とする音響データd1は、所定の楽曲の全演奏パートを演奏して発生された音響信号を記録したデータである。一方、音響データd2は、前記所定の楽曲のバイオリンの演奏パートのみを演奏して発生された音響信号を記録したデータである。
(First embodiment)
An alignment apparatus 10 according to a first embodiment of the present invention will be described. As will be described below, the alignment apparatus 10 configures each performance so that the two acoustic data d1 and acoustic data d2 representing the performance of the music can be synchronized when the performances are reproduced. Associate the playback timing of each musical sound. The acoustic data d1 and d2 are recorded as digital data of acoustic signals respectively representing sounds generated by playing one or more performance parts described in the same score. The acoustic data d1 includes performances of all the performance parts of the music (hereinafter referred to as the first performance), and the acoustic data d2 includes performances of some of the performance parts (hereinafter referred to as the second performance). (Refer to FIG. 1). In the example of FIG. 1, the acoustic data d1 to be analyzed is data in which acoustic signals generated by playing all performance parts of a predetermined music are recorded. On the other hand, the acoustic data d2 is data in which an acoustic signal generated by playing only the violin performance part of the predetermined music is recorded.

アライメント装置10は、図2に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。   As shown in FIG. 2, the alignment apparatus 10 includes an input operator 11, a computer unit 12, a display 13, a storage device 14, an external interface circuit 15, and a sound system 16, which are connected via a bus BS. Has been.

入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、分析対象の音響データの選択、音響データの分析開始又は停止、選択した音響データを用いた演奏の再生又は停止(後述するサウンドシステム16からの出力又は停止)、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。   The input operator 11 includes a switch corresponding to an on / off operation (for example, a numeric keypad for inputting a numerical value), a volume or rotary encoder corresponding to a rotation operation, a volume or linear encoder corresponding to a slide operation, a mouse, a touch panel, etc. Composed. These operators are operated by the player's hand to select acoustic data to be analyzed, start or stop the analysis of the acoustic data, and play or stop the performance using the selected acoustic data (from the sound system 16 described later). Output or stop), and setting of various parameters relating to the analysis of the acoustic signal. When the input operator 11 is operated, operation information indicating the operation content is supplied to the computer unit 12 described later via the bus BS.

コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、後述するアライメントの計算手順を表わしたプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。   The computer unit 12 includes a CPU 12a, a ROM 12b, and a RAM 12c connected to the bus BS. The CPU 12a reads a program representing an alignment calculation procedure described later from the ROM 12b and executes it. In addition to the program, the ROM 12b stores various data such as initial setting parameters, graphic data for generating display data representing an image displayed on the display 13, and character data. The RAM 12c temporarily stores data necessary for executing the program.

表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。例えば分析対象の音響データを選択する際には、選択可能な音響データのリストが表示器13に表示される。   The display 13 is configured by a liquid crystal display (LCD). The computer unit 12 generates display data representing contents to be displayed using graphic data, character data, and the like, and supplies the display data to the display unit 13. The display device 13 displays an image based on the display data supplied from the computer unit 12. For example, when selecting acoustic data to be analyzed, a list of selectable acoustic data is displayed on the display unit 13.

また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、音響データd1,d2が記憶されている。音響データd1,d2は、前記所定の楽曲の演奏を所定のサンプリング周期(例えば1/44100sec)でサンプリングして得られた複数のサンプル値からそれぞれなり、各サンプル値が記憶装置14における連続するアドレスに順に記録されている。各音響データd1,d2には、データを識別するためのタイトル情報、容量を表わすデータサイズ情報なども含まれている。音響データd1,d2は予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。   The storage device 14 includes a large-capacity nonvolatile recording medium such as an HDD, FDD, CD, or DVD, and a drive unit corresponding to each recording medium. The storage device 14 stores acoustic data d1 and d2. The acoustic data d1 and d2 are each composed of a plurality of sample values obtained by sampling the performance of the predetermined music at a predetermined sampling period (for example, 1/444100 sec), and each sample value is a continuous address in the storage device 14. Are recorded in order. Each acoustic data d1, d2 includes title information for identifying the data, data size information representing the capacity, and the like. The acoustic data d1 and d2 may be stored in the storage device 14 in advance, or may be acquired from the outside via the external interface circuit 15 described later.

外部インターフェース回路15は、アライメント装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。アライメント装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。   The external interface circuit 15 includes a connection terminal that enables the alignment device 10 to be connected to an external device such as an electronic music device or a personal computer. The alignment apparatus 10 can be connected to a communication network such as a LAN (Local Area Network) or the Internet via the external interface circuit 15.

サウンドシステム16は、音響データd1,d2をアナログ音信号に変換するD/A変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力する左右一対のスピーカを備えている。音響データd1又は音響データd2を用いた演奏の再生するよう指示されると、CPU12aは、音響データd1又は音響データd2をサウンドシステム16に供給する。これにより、ユーザは分析対象の演奏を試聴できる。   The sound system 16 includes a D / A converter that converts the acoustic data d1 and d2 into an analog sound signal, an amplifier that amplifies the converted analog sound signal, and a left and right that converts the amplified analog sound signal into an acoustic signal and outputs the sound signal. A pair of speakers is provided. When instructed to reproduce the performance using the acoustic data d1 or the acoustic data d2, the CPU 12a supplies the acoustic data d1 or the acoustic data d2 to the sound system 16. Thereby, the user can audition the performance to be analyzed.

つぎに、上記のように構成したアライメント装置10の動作(アライメントの計算手順)について説明する。本実施形態では、まず、図3に示すように、ステップS10にてアライメントの計算処理が開始される。次に、ステップS11にて、音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。以下の説明において、各音響信号における時刻(又はフレームの番号)を時刻tm(=1,2,・・・・,TM)及び時刻tp(=1,2,・・・・,TP)と記載する。音響データd1で表される音響信号のスペクトログラムを構成するスペクトルXm(tm)の系列と、音響データd2で表される音響信号のスペクトログラムを構成するスペクトルXp(tp)の系列との対応づけが、動的時間伸縮法を用いて計算される。図4に示すように、第1の演奏及び第2の演奏のそれぞれの時間軸を座標軸とする平面において、時刻tpと時刻tmとの対応関係は、前記平面上の格子点ctp,tmの系列として表現される。 Next, the operation (alignment calculation procedure) of the alignment apparatus 10 configured as described above will be described. In the present embodiment, first, as shown in FIG. 3, an alignment calculation process is started in step S10. Next, in step S11, the spectrogram of each acoustic signal is calculated using the acoustic data d1 and the acoustic data d2. In the following description, the time (or frame number) in each acoustic signal is described as time tm (= 1, 2,..., TM) and time tp (= 1, 2,..., TP). To do. Correspondence between the sequence of the spectrum Xm (tm) constituting the spectrogram of the acoustic signal represented by the acoustic data d1 and the sequence of the spectrum Xp (tp) constituting the spectrogram of the acoustic signal represented by the acoustic data d2 Calculated using dynamic time stretching method. As shown in FIG. 4, on the plane with the time axis of each of the first performance and the second performance as coordinate axes, the correspondence between time tp and time tm is the relationship between the lattice points c tp and tm on the plane. Expressed as a series.

具体的には、ステップS12にて、スペクトルXp(tp)とスペクトルXm(tm)との距離Dtp,tmが、下記の式(1)に基づいて計算される。

Figure 0006281211
Specifically, in step S12, the distance D tp, tm between the spectrum Xp (tp) and the spectrum Xm (tm) is calculated based on the following equation (1).
Figure 0006281211

なお、距離Dtp,tmが本発明の類似性に関する評価値に相当する。また、式(1)の第1項は、スペクトルXm(tm)から見たスペクトルXp(tp)の板倉斎藤距離に相当する。また、第1項における「Xp(f,tp)」は、スペクトルXp(tp)の周波数fにおける振幅(パワー)を表わす。また、「α」はピッチシフト量を表わす。つまり、「Xm(αf,tm)」はスペクトルXm(tm)を構成する各周波数成分の周波数fをα倍した(すなわちピッチシフトした)スペクトルの周波数αfにおける振幅(パワー)を表わす。また、式(1)の第2項は上記のピッチシフトに対するコストに相当する距離である。本実施形態では、前記ピッチシフトに対するコストに相当する距離は平均が「1」である対数正規分布に従うものとして定義される。 The distance D tp, tm corresponds to the evaluation value related to the similarity of the present invention. Further, the first term of the expression (1) corresponds to the Itakura Saito distance of the spectrum Xp (tp) viewed from the spectrum Xm (tm). Further, “Xp (f, tp)” in the first term represents the amplitude (power) at the frequency f of the spectrum Xp (tp). “Α” represents a pitch shift amount. That is, “Xm (αf, tm)” represents the amplitude (power) at the frequency αf of the spectrum obtained by multiplying the frequency f of each frequency component constituting the spectrum Xm (tm) by α (that is, pitch shifted). Further, the second term of the formula (1) is a distance corresponding to the cost for the above-described pitch shift. In the present embodiment, the distance corresponding to the cost for the pitch shift is defined as following a lognormal distribution whose average is “1”.

次に、ステップS13にて、上記の距離Dtp,tmの総和を最小にするような格子点ctp,tmの系列が、非特許文献2と同様の動的時間伸縮法を用いて計算される。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS14にてアライメント計算処理が終了する。 Next, in step S13, a series of lattice points c tp, tm that minimizes the sum of the distances D tp, tm is calculated using a dynamic time expansion / contraction method similar to that of Non-Patent Document 2. The As described above, the alignment of the first performance and the second performance (that is, a series of combinations of time tp and time tm) is calculated, and the alignment calculation process ends in step S14.

上記のように、第1の演奏は全パートの演奏であり、第2の演奏は一部のパートの演奏であるから、第2の演奏は第1の演奏の部分集合である。したがって、スペクトルXp(tm)がスペクトルXp(tp)との距離を計算するに際し、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合(図5A)に用いる重みを、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分(図5Bにおいて斜線を付した部分)を有する場合に用いる重みよりも小さくするとよい。アライメント装置10によれば、距離尺度として板倉斎藤距離を用いて、距離Dtp,tmが計算される。つまり、距離Dtp,tmを計算するに際し、第1の演奏のスペクトル及び第2の演奏のスペクトルの包含関係によって測定距離が異なるように、非対称の距離尺度を用いた。具体的には、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも大きくなるような重み(本発明の第1の重み)が付され、第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも小さくなるような重み(本発明の第2の重み)が付されて距離Dtp,tmが計算される。したがって、厳密に対称な距離尺度を用いる場合に比べて、第1の演奏のスペクトルに対する第2の演奏のスペクトルの距離をより的確に表現することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。 As described above, since the first performance is a performance of all parts and the second performance is a performance of some parts, the second performance is a subset of the first performance. Therefore, when calculating the distance between the spectrum Xp (tm) and the spectrum Xp (tp), the weight used when the spectrum Xm (tm) is included in the spectrum Xp (tp) (FIG. 5A) is used as the spectrum Xm (tm). ) May be smaller than the weight used when it has a frequency component exceeding the spectrum Xp (tp) (the hatched portion in FIG. 5B). According to the alignment apparatus 10, the distance D tp, tm is calculated using the Itakura Saito distance as a distance scale. In other words, when calculating the distances D tp, tm , an asymmetric distance scale was used so that the measurement distances differed depending on the inclusion relationship between the first performance spectrum and the second performance spectrum. Specifically, when the spectrum of the second performance has a frequency component exceeding the spectrum of the first performance, the distance of the spectrum of the second performance viewed from the spectrum of the first performance is the second performance spectrum. When a weight that is larger than the spectrum distance of the first performance viewed from the spectrum (the first weight of the present invention) is added, and the spectrum of the second performance is included in the spectrum of the first performance The weight of the spectrum of the second performance viewed from the spectrum of the first performance is smaller than the distance of the spectrum of the first performance viewed from the spectrum of the second performance (the second of the present invention). ) And a distance D tp, tm are calculated. Therefore, the distance of the spectrum of the second performance with respect to the spectrum of the first performance can be expressed more accurately than in the case of using a strictly symmetric distance scale. Therefore, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment of the first performance and the second performance is more accurate. Can be calculated well.

また、上記第1実施形態では、第2の演奏をピッチシフトさせるとともにそのシフト量に応じたコストとしての距離を両スペクトルの距離に加算した。これにより、第1の演奏のピッチに対して第2の演奏のピッチ(チューニング)が多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。   Moreover, in the said 1st Embodiment, the distance as a cost according to the shift amount was added to the distance of both spectra while the 2nd performance was pitch-shifted. Thereby, even if the pitch (tuning) of the second performance is slightly shifted from the pitch of the first performance, the alignment between the first performance and the second performance can be accurately calculated.

なお、上記第1実施形態のステップS13では、距離Dtp,tmの総和が最小となる格子点ctp,tmの系列が計算されているが、所定の基準値を満たすような格子点ctp,tmの系列が計算されても良い。例えば、格子点の遷移に対するコストを設定し、格子点の遷移に対するコストの総和と距離Dtp,tmの総和との合計が最小となる格子点ctp,tmの系列が計算されても良い。 In step S13 of the first embodiment , a series of lattice points c tp, tm that minimizes the sum of the distances D tp, tm is calculated, but the lattice points c tp satisfy a predetermined reference value. , Tm series may be calculated. For example, a cost for transition of lattice points may be set, and a series of lattice points c tp, tm that minimizes the sum of the sum of costs for the transition of lattice points and the sum of distances D tp, tm may be calculated.

また、上記第1実施形態では、距離Dtp,tmは式(1)に基づいて計算されるが、距離Dtp,tmは下記の式(2)に基づいて計算されても良い。なお、式(2)は、「α」に関する板倉斎藤距離の期待値を表わしている。

Figure 0006281211
In the first embodiment, the distance D tp, tm is calculated based on the equation (1), but the distance D tp, tm may be calculated based on the following equation (2). Equation (2) represents an expected value of Itakura Saito's distance for “α”.
Figure 0006281211

また、距離Dtp,tmは、式(1)に単調増加関数を適用した演算式に基づいて計算されてもよい。例えば、指数関数を適用した式(3)に基づいて計算されてもよい。

Figure 0006281211
The distance D tp, tm may be calculated based on an arithmetic expression obtained by applying a monotonically increasing function to Expression (1). For example, it may be calculated based on Expression (3) to which an exponential function is applied.
Figure 0006281211

この場合、ステップS13では、距離Dtp,tmの累積が最小となる格子点cの系列が計算される。 In this case, in step S13, a series of lattice points c that minimizes the accumulation of the distances D tp and tm is calculated.

また、上記第1実施形態では、距離尺度として板倉斎藤距離を採用しているがこれに限られない。任意の値X及び非負の値aに関して次の式(4)が成立するような凸関数から生成されるBregmanダイバージェンスを距離尺度として採用すれば良い。例えば、一般化KLダイバージェンスを採用しても良い。

Figure 0006281211
In the first embodiment, the Itakura Saito distance is adopted as the distance scale, but the present invention is not limited to this. Bregman divergence generated from a convex function such that the following expression (4) holds for an arbitrary value X and a non-negative value a may be adopted as a distance measure. For example, generalized KL divergence may be employed.
Figure 0006281211

上記第1実施形態では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。   In the first embodiment, the pitch of the first performance is configured to be shiftable. However, it is only necessary that the pitch of the first performance is relatively shiftable with respect to the pitch of the second performance. That is, instead of or in addition to the pitch of the first performance, the pitch of the second performance may be shiftable.

(第2実施形態)
次に、本発明の第2実施形態に係るアライメント装置20について説明する。アライメント装置20の構成は、アライメント装置10の構成と同様であるので、その説明を省略する。アライメント装置20の動作は、第1実施形態とは異なる。すなわち、第2実施形態では、実行されるプログラムが第1実施形態とは異なる。一般に、「X」から見た「Y」の板倉斎藤距離の最小化は、期待値が「X」である指数分布において「Y」を観測したときのYの最尤推定と等価であることが知られている。そこで、第2実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布に従うものとする。そして、スペクトルXp(tp)とスペクトルXm(tm)との組み合わせで分類された状態の系列(すなわち、時刻tpと時刻tmとの対応付けの系列)として表わされた隠れマルコフモデルHMMのうち、観測値としての時刻tmの系列に対する尤度が所定の基準を満たすモデルを選択することにより、アライメントを計算する。
(Second Embodiment)
Next, an alignment apparatus 20 according to a second embodiment of the present invention will be described. Since the configuration of the alignment apparatus 20 is the same as that of the alignment apparatus 10, the description thereof is omitted. The operation of the alignment apparatus 20 is different from that of the first embodiment. That is, in the second embodiment, the program to be executed is different from that in the first embodiment. In general, the Itakura Saito distance minimization of “Y” viewed from “X” may be equivalent to the maximum likelihood estimation of Y when “Y” is observed in an exponential distribution with an expected value of “X”. Are known. Therefore, in the second embodiment, it is assumed that the spectrum Xp (tp) follows an exponential distribution having the spectrum Xm (tm) as an average. Of the hidden Markov model HMM expressed as a series of states classified by a combination of the spectrum Xp (tp) and the spectrum Xm (tm) (that is, a series of correspondence between the time tp and the time tm), The alignment is calculated by selecting a model whose likelihood for the series of time tm as an observed value satisfies a predetermined criterion.

具体的には、図6に示すように、ステップS20にてアライメントの計算処理が開始される。次にステップS21にて、第1実施形態と同様に音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。そして、ステップS22にて、前記計算されたスペクトログラムを構成するスペクトルXm(tm)及びスペクトルXp(tp)を用いて、観測尤度Ltp,tmが次の式(5)に基づいて計算される。つまり、前記指数分布の確率変数としてスペクトルXp(tp)を代入して計算された値を観測尤度Ltp,tmとする。

Figure 0006281211
Specifically, as shown in FIG. 6, alignment calculation processing is started in step S20. Next, in step S21, spectrograms of the respective acoustic signals are calculated using the acoustic data d1 and the acoustic data d2 as in the first embodiment. In step S22, the observation likelihood L tp, tm is calculated based on the following equation (5) using the spectrum Xm (tm) and the spectrum Xp (tp) constituting the calculated spectrogram. . That is, a value calculated by substituting the spectrum Xp (tp) as a random variable of the exponential distribution is set as an observation likelihood L tp, tm .
Figure 0006281211

なお、観測尤度Ltp,tmが本発明の類似性に関する評価値に相当する。また、本実施形態の隠れマルコフモデルHMMにおける各状態間の遷移確率は次のように設定されている。すなわち、状態遷移において時刻tpは必ず「1」だけ進むように設定されている。また、時刻tpが「1」だけ進んだとき時刻tmが「1」だけ進む確率を「u」(0<u<1)とし、時刻tpが「1」だけ進んだとき時刻tmが同じ時刻に留まる確率を「1−u」とする。その他の状態遷移の確率は「0」である。したがって、隠れマルコフモデルHMMにおける状態経路は図7のように表わされる。 Note that the observation likelihood L tp, tm corresponds to the evaluation value related to the similarity of the present invention. Further, the transition probabilities between the states in the hidden Markov model HMM of this embodiment are set as follows. That is, the time tp is always set to advance by “1” in the state transition. The probability that the time tm advances by “1” when the time tp advances by “1” is “u” (0 <u <1), and the time tm becomes the same time when the time tp advances by “1”. Let the probability of staying be “1-u”. The probability of other state transitions is “0”. Therefore, the state path in the hidden Markov model HMM is expressed as shown in FIG.

各隠れマルコフモデルHMMの尤度は、各経路上の状態における観測尤度Ltp,tmと各状態間の遷移確率の累積値として計算される。例えば、図7の太い実線で示される経路Rのモデルの尤度Cは、次の式(6)のように計算される。

Figure 0006281211
The likelihood of each hidden Markov model HMM is calculated as the cumulative value of the observation likelihood L tp, tm in the state on each path and the transition probability between the states. For example, the likelihood C R model of the path R shown by the thick solid line in FIG. 7 is calculated by the following equation (6).
Figure 0006281211

次に、ステップS23にて、上記の経路のうちの最尤の経路(つまり、尤度Cが最大となるモデル)がビタビアルゴリズムを用いて計算される。なお、この場合、「L1,1=1」且つ「LTP,TM=1」とするとよい。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS24にてアライメント計算処理が終了する。 Next, in step S23, the maximum likelihood path among the paths (i.e., the model likelihood C R becomes maximum) is calculated using the Viterbi algorithm. In this case, it is preferable to set “L 1,1 = 1” and “L TP, TM = 1”. As described above, the alignment of the first performance and the second performance (that is, a series of combinations of time tp and time tm) is calculated, and the alignment calculation process ends in step S24.

本実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布(つまり、板倉斎藤距離に対応する分布)に従うものとして、スペクトルXp(tp)の観測尤度Ltp,tmを計算した。すなわち、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分を有する場合には、第1の重みを付して観測尤度Ltp,tmが計算される。一方、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合、第1の重みよりも小さな第2の重みを付して観測尤度Ltp,tmが計算される。これにより、厳密に対称な距離尺度に対応する分布を用いる場合に比べて、第1の演奏に対する第2の演奏の距離をより的確に表現することができる。よって、上記のように構成されたアライメント装置20によっても、第1実施形態の効果と同様の効果が得られる。すなわち、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。 In the present embodiment, it is assumed that the spectrum Xp (tp) follows an exponential distribution that averages the spectrum Xm (tm) (that is, a distribution corresponding to the Itakura Saito distance), and the observation likelihood L tp, of the spectrum Xp (tp) tm was calculated. That is, when the spectrum Xm (tm) has a frequency component exceeding the spectrum Xp (tp), the observation likelihood L tp, tm is calculated with the first weight. On the other hand, when the spectrum Xm (tp) is included in the spectrum Xp (tp), the observation likelihood L tp, tm is calculated with a second weight smaller than the first weight. Thereby, the distance of the 2nd performance with respect to a 1st performance can be expressed more correctly compared with the case where the distribution corresponding to a strictly symmetrical distance scale is used. Therefore, the same effect as that of the first embodiment can be obtained by the alignment apparatus 20 configured as described above. In other words, even when the second performance is a subset of the first performance and the two performances are largely separated as acoustic signals, the alignment between the first performance and the second performance is more accurate. Can be calculated well.

なお、上記第2実施形態では第1実施形態とは異なり、第1の演奏と第2の演奏のピッチのずれが考慮されていない。しかし、第2実施形態においても、第1の演奏と第2の演奏のピッチのずれを考慮に入れるために、観測尤度Ltp,tmを下記の式(7)ように計算しても良い。

Figure 0006281211
In the second embodiment, unlike the first embodiment, the pitch difference between the first performance and the second performance is not considered. However, also in the second embodiment, the observation likelihood L tp, tm may be calculated as in the following equation (7) in order to take into account the pitch deviation between the first performance and the second performance. .
Figure 0006281211

また、式(7)において、ピッチシフトに対するコストとしての尤度を減算してもよい。なお、式(7)では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。   In Equation (7), the likelihood as the cost for the pitch shift may be subtracted. In Expression (7), the pitch of the first performance is configured to be shiftable. However, the pitch of the first performance may be relatively shiftable with respect to the pitch of the second performance. . That is, instead of or in addition to the pitch of the first performance, the pitch of the second performance may be shiftable.

また、上記第2実施形態のステップS23では、最尤の経路(つまり、尤度Cが最大となる経路)が計算されるが、所定の基準値を満たすような経路が計算されても良い。例えば、各時刻において尤度が最大である状態をそれぞれ選択してもよい。 Further, in the second embodiment the step S23, the path of maximum likelihood (that is, the likelihood C R is the path with the maximum), but is calculated, the path that satisfies a predetermined reference value may be calculated . For example, the state having the maximum likelihood at each time may be selected.

また、上記第2実施形態では、板倉斎藤距離に相当する指数分布を用いているがこれに限られず、Bregmanダイバージェンスに相当する分布であれば採用可能である。例えば、一般化KLダイバージェンスに対応するPoisson分布を採用しても良い。   In the second embodiment, an exponential distribution corresponding to the Itakura Saito distance is used. However, the present invention is not limited to this, and any distribution corresponding to Bregman divergence can be used. For example, a Poisson distribution corresponding to generalized KL divergence may be employed.

また、上記第2実施形態では、状態間の遷移確率を表わすために用いた「u」は定数であるが、これに限られない。例えば、「u」を確率変数とするベルヌーイ分布を事前分布としておき、状態系列の最大事後確率推定を実行すると観測値に対して適切な「u」が決定されるように構成しても良い。   In the second embodiment, “u” used to represent the transition probability between states is a constant, but is not limited thereto. For example, a Bernoulli distribution having “u” as a random variable may be set as a prior distribution, and an appropriate “u” may be determined for the observed value when the maximum posterior probability estimation of the state series is executed.

また、観測尤度Ltp,tmの対数をとって対数観測尤度とするとともに、状態間の遷移確率を対数遷移確率とすれば、経路Rの尤度Cは、経路R上の各状態の対数観測尤度と各状態間の対数遷移確率の総和として計算される。 Further, observation likelihood L tp, taking the logarithm of tm as well as the log observation likelihood, if the transition probabilities between states and log transition probabilities, likelihood C R of the path R, each state on the path R Is calculated as the sum of the logarithmic observation likelihood and the log transition probability between each state.

10,20・・・アライメント装置、12・・・コンピュータ部、d1,d2・・・音響データ、Ltp,tm・・・観測尤度、C・・・尤度、Xp,Xm・・・スペクトル、R・・・経路、HMM・・・隠れマルコフモデル 10,20 ... Alignment device 12 ... a computer unit, d1, d2 ... acoustic data, L tp, tm ... observation likelihood, C R ... likelihood, Xp, Xm ... Spectrum, R ... Path, HMM ... Hidden Markov Model

Claims (6)

楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置であって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算手段と、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段と、
を備えたことを特徴とするアライメント装置。
First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. An alignment device that analyzes the acoustic data of 2 and associates the sound generation timing of each musical sound that constitutes the first and second performances, respectively,
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. Evaluation value calculation means for calculating an evaluation value related to the similarity of the set of spectra using a scale set so that a second weight smaller than the first weight is applied when
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. By means of this, alignment calculation means for associating the sound generation timing of each musical sound constituting the first and second performances,
An alignment apparatus comprising:
請求項1に記載のアライメント装置において、
前記評価値計算手段は、
前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、
前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことを特徴とするアライメント装置。
The alignment apparatus according to claim 1,
The evaluation value calculation means includes
Pitch shifting means for shifting one frequency component of the first performance spectrum and the second performance spectrum of the set of spectra relative to the other frequency component in the frequency axis direction. When,
An alignment apparatus, further comprising: addition means for adding an evaluation value corresponding to the shift amount of each frequency component to an evaluation value relating to the similarity of the set of spectra.
請求項1又は2に記載のアライメント装置において、
前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離であり、
前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、
前記一組のスペクトルの系列の評価値は、前記距離の総和であることを特徴とするアライメント装置。
The alignment apparatus according to claim 1 or 2,
The evaluation value related to the similarity of the set of spectra is a distance between the set of spectra,
The scale is a spectrum of the second performance viewed from the spectrum of the first performance when the spectrum of the second performance of the set of spectra has a frequency component exceeding the spectrum of the first performance. Is larger than the distance of the spectrum of the first performance viewed from the spectrum of the second performance, and the spectrum of the second performance of the set of spectra becomes the spectrum of the first performance. When included, the asymmetry of the second performance spectrum seen from the first performance spectrum is smaller than the first performance spectrum distance seen from the second performance spectrum. Is a distance scale of
The alignment apparatus, wherein the evaluation value of the set of spectrum series is a sum of the distances.
請求項1又は2に記載のアライメント装置において、
前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度であり、
前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデルの尤度であることを特徴とするアライメント装置。
The alignment apparatus according to claim 1 or 2,
The evaluation value related to the similarity of the set of spectra is an observation likelihood of the spectrum of the second performance in the probability distribution corresponding to the scale,
The evaluation value of the set of spectrum series is a likelihood of a probability model described as a series of states classified by a combination of the spectrum of the first performance and the spectrum of the second performance. An alignment device.
楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント方法であって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
を含むことを特徴とするアライメント方法。
First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. 2 is an alignment method for analyzing the sound data of 2 and associating the sound generation timing of each musical sound constituting the first and second performances,
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. An evaluation value calculating step of calculating an evaluation value related to similarity of the set of spectra using a scale set so as to be given a second weight smaller than the first weight,
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. An alignment calculation step for associating the sound generation timings of the musical tones constituting the first and second performances,
An alignment method comprising:
楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント処理をコンピュータに実行させるコンピュータプログラムであって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
First and first recordings each recording an acoustic signal representing a first performance in which a plurality of performance parts constituting a musical piece are performed and a second performance in which a part of the plurality of performance parts are performed. 2 is a computer program that causes the computer to execute an alignment process that analyzes the acoustic data of 2 and associates the sound generation timings of the musical sounds that constitute the first and second performances, respectively.
A first of a set of spectra comprising one spectrum of a plurality of spectra constituting the spectrogram of the second performance and one spectrum of a plurality of spectra constituting the spectrogram of the first performance. When the spectrum of the two performances has a frequency component exceeding the spectrum of the first performance, a first weight is assigned, and the spectrum of the second performance of the set of spectra is included in the spectrum of the first performance. An evaluation value calculating step of calculating an evaluation value related to similarity of the set of spectra using a scale set so as to be given a second weight smaller than the first weight,
An evaluation value of the set of spectrum series is calculated using the evaluation value related to the similarity, and the set of spectrum series satisfying a predetermined criterion for the evaluation value of the set of spectrum series is estimated. An alignment calculation step for associating the sound generation timings of the musical tones constituting the first and second performances,
A computer program for causing a computer to execute a process including:
JP2013176659A 2013-08-28 2013-08-28 Acoustic signal alignment apparatus, alignment method, and computer program Expired - Fee Related JP6281211B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013176659A JP6281211B2 (en) 2013-08-28 2013-08-28 Acoustic signal alignment apparatus, alignment method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013176659A JP6281211B2 (en) 2013-08-28 2013-08-28 Acoustic signal alignment apparatus, alignment method, and computer program

Publications (3)

Publication Number Publication Date
JP2015045731A JP2015045731A (en) 2015-03-12
JP2015045731A5 JP2015045731A5 (en) 2017-03-30
JP6281211B2 true JP6281211B2 (en) 2018-02-21

Family

ID=52671292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013176659A Expired - Fee Related JP6281211B2 (en) 2013-08-28 2013-08-28 Acoustic signal alignment apparatus, alignment method, and computer program

Country Status (1)

Country Link
JP (1) JP6281211B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3489944A4 (en) 2016-07-22 2020-04-08 Yamaha Corporation Control method and control device
JP7243026B2 (en) 2018-03-23 2023-03-22 ヤマハ株式会社 Performance analysis method, performance analysis device and program
JP6489261B2 (en) * 2018-04-10 2019-03-27 ヤマハ株式会社 Acoustic analysis method and acoustic analysis apparatus
CN113657184B (en) * 2021-07-26 2023-11-07 广东科学技术职业学院 Piano playing fingering evaluation method and device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4323029B2 (en) * 1999-10-21 2009-09-02 ヤマハ株式会社 Voice processing apparatus and karaoke apparatus
JP4479701B2 (en) * 2006-08-08 2010-06-09 ヤマハ株式会社 Music practice support device, dynamic time alignment module and program
JP5088030B2 (en) * 2007-07-26 2012-12-05 ヤマハ株式会社 Method, apparatus and program for evaluating similarity of performance sound
JP5046211B2 (en) * 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 System and method for automatically associating music acoustic signal and lyrics with time

Also Published As

Publication number Publication date
JP2015045731A (en) 2015-03-12

Similar Documents

Publication Publication Date Title
JP6187132B2 (en) Score alignment apparatus and score alignment program
JP4672613B2 (en) Tempo detection device and computer program for tempo detection
JP4823804B2 (en) Code name detection device and code name detection program
JP4767691B2 (en) Tempo detection device, code name detection device, and program
JP5088030B2 (en) Method, apparatus and program for evaluating similarity of performance sound
WO2007010637A1 (en) Tempo detector, chord name detector and program
JP2008209572A (en) Performance judgement apparatus and program
JP2008275975A (en) Rhythm detector and computer program for detecting rhythm
JP6252147B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
JP6281211B2 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP6123574B2 (en) Code extraction apparatus, method, and program
JP6295794B2 (en) Acoustic signal analysis apparatus and acoustic signal analysis program
WO2021166531A1 (en) Estimation model building method, playing analysis method, estimation model building device, and playing analysis device
JP6296221B2 (en) Acoustic signal alignment apparatus, alignment method, and computer program
JP5092589B2 (en) Performance clock generating device, data reproducing device, performance clock generating method, data reproducing method and program
JP2007298607A (en) Device, method, and program for analyzing sound signal
JP5678935B2 (en) Musical instrument performance evaluation device, musical instrument performance evaluation system
JP6733487B2 (en) Acoustic analysis method and acoustic analysis device
JP6232916B2 (en) Code power calculation device, method and program, and code determination device
JP5669646B2 (en) Performance evaluation device, electronic musical instrument and program
JP2007240552A (en) Musical instrument sound recognition method, musical instrument annotation method and music piece searching method
JP6554826B2 (en) Music data retrieval apparatus and music data retrieval program
JP7176114B2 (en) MUSIC ANALYSIS DEVICE, PROGRAM AND MUSIC ANALYSIS METHOD
JP6515945B2 (en) Code extraction apparatus and method
JP2012118234A (en) Signal processing device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180108

R151 Written notification of patent or utility model registration

Ref document number: 6281211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees