JP2023081946A - Learning device, automatic music transcription device, learning method, automatic music transcription method and program - Google Patents
Learning device, automatic music transcription device, learning method, automatic music transcription method and program Download PDFInfo
- Publication number
- JP2023081946A JP2023081946A JP2023032348A JP2023032348A JP2023081946A JP 2023081946 A JP2023081946 A JP 2023081946A JP 2023032348 A JP2023032348 A JP 2023032348A JP 2023032348 A JP2023032348 A JP 2023032348A JP 2023081946 A JP2023081946 A JP 2023081946A
- Authority
- JP
- Japan
- Prior art keywords
- model
- learning
- machine learning
- feature map
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000013016 learning Effects 0.000 title claims abstract description 181
- 238000013518 transcription Methods 0.000 title claims abstract description 42
- 230000035897 transcription Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims description 25
- 238000010801 machine learning Methods 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000011295 pitch Substances 0.000 claims description 77
- 230000002123 temporal effect Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000025809 vocal learning Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Abstract
Description
本開示は、音響処理技術に関する。 The present disclosure relates to sound processing technology.
オーディオデータから楽譜を自動生成する自動採譜技術が従来から知られている。例えば、特開2007-033479には、同時に複数の音が演奏される場合でも単一楽器により演奏された音響信号から楽譜を自動採譜する技術が記載されている。 2. Description of the Related Art Automatic music transcription technology for automatically generating musical scores from audio data has been conventionally known. For example, Japanese Unexamined Patent Application Publication No. 2007-033479 describes a technique for automatically transcribing musical scores from acoustic signals played by a single musical instrument even when a plurality of sounds are played at the same time.
しかしながら、従来の自動採譜では、楽譜に対して正確に演奏又は歌唱され、各音の音高や区間が明確なオーディオデータの場合には比較的高精度な採譜が可能であるが、例えば、各音の音高や区間が明確でないオーディオデータの場合には期待するような自動採譜が困難であった。 However, in the conventional automatic transcription, it is possible to transcribe music with a relatively high degree of accuracy in the case of audio data in which the musical score is accurately played or sung, and the pitch and interval of each note are clear. In the case of audio data in which pitches and sections of sounds are not clear, automatic transcription as expected is difficult.
上記問題点を鑑み、本開示の課題は、様々なオーディオデータからより効果的に楽譜を自動生成するための音響処理技術を提供することである。 In view of the above problems, an object of the present disclosure is to provide a sound processing technique for automatically generating musical scores from various audio data more effectively.
上記課題を解決するため、本開示の一態様は、単音音源から生成される第1スペクトログラムと、対応する音高情報と、をペアとする教師データを学習させることにより、スペクトログラムの入力に応じて、対応する音高の予測確率を示す第1特徴マップを出力する第1の機械学習モデルを学習する第1モデル学習部と、前記第1モデル学習部が出力する前記第1特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第2スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力される音高の予測確率を示す第1特徴マップの入力に応じて、楽譜を生成するための情報を出力する第2の機械学習モデルを学習する第2モデル学習部と、を有する学習装置に関する。 In order to solve the above problems, one aspect of the present disclosure is to learn teacher data that pairs a first spectrogram generated from a single tone sound source and corresponding pitch information, according to the input of the spectrogram , a first model learning unit that learns a first machine learning model that outputs a first feature map indicating the predicted probability of the corresponding pitch; the first feature map that the first model learning unit outputs; and information paired to learn the predicted probability of the pitch output according to the input to the first machine learning model of the second spectrogram generated from the sound source to be transcribed. The present invention relates to a learning device having a second model learning unit that learns a second machine learning model that outputs information for generating a musical score according to the input of the first feature map.
本開示によると、各音の音高や区間が明確でないオーディオデータから楽譜を自動生成するための音響処理技術を提供することができる。 Advantageous Effects of Invention According to the present disclosure, it is possible to provide an acoustic processing technique for automatically generating a musical score from audio data in which the pitch and section of each sound are unclear.
以下の実施例では、機械学習モデルによって音源(音の波形データであるオーディオデータ)から楽譜情報を生成する自動採譜装置が開示される。 In the following embodiments, an automatic music transcription apparatus is disclosed that generates musical score information from a sound source (audio data that is sound waveform data) using a machine learning model.
従来の自動採譜技術では、音高の予測に注力され、音符の切れ目を示すオンセットとオフセットとの予測は自動採譜における課題の1つであった。本開示による自動採譜装置は、音源におけるオンセットとオフセットとを機械学習モデルの1つであるSSD(Single Shot Detection)によって予測する。 Conventional automatic transcription techniques focus on pitch prediction, and one of the problems in automatic transcription is the prediction of onsets and offsets that indicate breaks between notes. The automatic music transcription device according to the present disclosure predicts the onset and offset in the sound source by SSD (Single Shot Detection), which is one of machine learning models.
SSDは、1つのニューラルネットワークを用いて入力画像における物体を検出する手法である。すなわち、当該ニューラルネットワークへの入力は画像であり、その出力は複数の矩形領域(SSDでは、デフォルトボックスと呼ばれる)の中心座標、高さ、幅及び物体の種類の予測確率である。デフォルトボックスは入力画像のサイズによって予め設定された個数の候補として用意され、後処理(NMS:Non-Maximum Suppressionなど)によって大部分のデフォルトボックスを候補から外し、残ったデフォルトボックスを検出結果とするというものである。 SSD is a method of detecting an object in an input image using one neural network. That is, the input to the neural network is an image, and the output is the center coordinates, height, width and object type prediction probabilities of a plurality of rectangular regions (called default boxes in SSD). Default boxes are prepared as a preset number of candidates according to the size of the input image, most of the default boxes are removed from candidates by post-processing (NMS: Non-Maximum Suppression, etc.), and the remaining default boxes are used as detection results. That's what it means.
本開示による自動採譜装置におけるニューラルネットワークへの入力は、採譜対象の楽音の波形データ又はスペクトログラムであり、その出力は楽音のオンセット、オフセット及び音高であり、自動採譜装置は、SSDにおける中心座標及び幅に対応してオンセット及びオフセット(すなわち、楽音の形状又は長さ)を特定し、SSDにおける物体の種類に対応して音高を特定する。 The input to the neural network in the automatic music transcription apparatus according to the present disclosure is the waveform data or spectrogram of the musical tone to be transcribed, and the output is the onset, offset and pitch of the musical tone. and width corresponding to the onset and offset (ie shape or length of the note), and pitch corresponding to the type of object in the SSD.
後述される実施例を概略すると、自動採譜装置は2つの学習済み機械学習モデル(畳み込みニューラルネットワークなど)を利用し、一方のモデルは単音音源から音高の予測確率を出力するものであり、他方のモデルは特徴マップから当該特徴マップの固定長の区間に音符が存在する予測確率を出力するものである。自動採譜装置は、採譜対象の音源を前者の学習済み機械学習モデル(特徴マップ生成モデル)に入力し、当該学習済み特徴マップ生成モデルの畳み込み層から生成された各特徴マップを後者の学習済み機械学習モデル(音符存在確率予測モデル)に入力し、各特徴マップの各点に対して当該学習済み音符存在確率予測モデルから出力された固定長の区間又はデフォルトボックスにおける各音高の音符の予測存在確率に基づき楽譜情報を生成する。 To summarize the embodiment described later, the automatic transcription device utilizes two pre-trained machine learning models (such as convolutional neural networks), one model outputs the predicted probability of pitch from a monophonic sound source, the other model is to output the predicted probability that a note exists in a fixed-length section of the feature map from the feature map. The automatic transcription device inputs the sound source to be transcribed into the former learned machine learning model (feature map generation model), and applies each feature map generated from the convolution layer of the learned feature map generation model to the latter learned machine. input to the learning model (note existence probability prediction model), and predicted existence of each pitch in a fixed-length interval or default box output from the learned note existence probability prediction model for each point of each feature map Generate score information based on probability.
学習済み特徴マップ生成モデルによって生成される特徴マップは、畳み込みの結果として異なる時間解像度を有し、固定長の区間又はデフォルトボックスは異なる時間的長さとなる。このため、音符存在確率予測モデルにより各特徴マップに対して固定長の区間と同じ長さの音符を検出することによって、異なる長さの音符のオンセット及びオフセットを特定することが可能になる。 Feature maps generated by a trained feature map generation model have different temporal resolutions as a result of convolution, and fixed-length intervals or default boxes have different temporal lengths. Therefore, it is possible to identify onsets and offsets of notes of different lengths by detecting notes of the same length as the fixed-length section for each feature map using the note presence probability prediction model.
まず、図1を参照して、本開示の一実施例による自動採譜装置を説明する。図1は、本開示の一実施例による学習済み機械学習モデルを有する自動採譜装置を示す概略図である。 First, referring to FIG. 1, an automatic music transcription apparatus according to an embodiment of the present disclosure will be described. FIG. 1 is a schematic diagram illustrating an automatic music transcription device having a trained machine learning model according to one embodiment of the present disclosure.
図1に示されるように、本開示の一実施例による自動採譜装置200は、限定することなく、畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークとして実現される2種類の学習済みモデルを有し、学習用データストレージ50を用いて学習装置100によって学習された機械学習モデルを利用して、採譜対象の音源から楽譜情報を生成する。
As shown in FIG. 1, an automatic
次に、図2~7を参照して、本開示の一実施例による学習装置を説明する。学習装置100は、学習用データストレージ50における学習用データを利用して、自動採譜装置200に利用される特徴マップ生成モデルと音符存在確率予測モデルとを学習する。図2は、本開示の一実施例による学習装置の機能構成を示すブロック図である。
A learning device according to one embodiment of the present disclosure will now be described with reference to FIGS. The
図2に示されるように、学習装置100は、学習用データ取得部110、第1モデル学習部120及び第2モデル学習部130を有する。
As shown in FIG. 2 , the
学習用データ取得部110は、単音音源と音高情報とを特徴マップ生成モデルの学習用データとして取得し、採譜対象の音源と楽譜情報とを音符存在確率予測モデルの学習用データとして取得し、単音音源と採譜対象の音源とに対して前処理を実行し、それぞれのスペクトログラムを取得する。
The learning
具体的には、学習用データ取得部110は、学習用データストレージ50から、特徴マップ生成モデルを学習するための単音又はシングルノート音源(例えば、「ド」から「シ」までの12種類の音源など)の波形データと音高情報(「ド」から「シ」までの音高など)とのペアを取得し、取得した単音音源の波形データに対して前処理(例えば、短時間フーリエ変換など)を実行することによって、各単音音源のスペクトログラムと音高情報との学習用データセットを生成する。
Specifically, the learning
また、学習用データ取得部110は、学習用データストレージ50から、音符存在確率予測モデルを学習するための単旋律音源(歌唱音源など)の波形データと楽譜情報(音高の時系列変化など)とのペアを取得し、取得したモノフォニック音源の波形データに対して前処理(例えば、短時間フーリエ変換など)を実行することによって、モノフォニック音源のスペクトログラムと楽譜情報との学習用データセットを生成する。ここで、楽譜情報は、例えば、MIDI(Musical Instrument Digital Interface)規格に従うものであってもよい。
In addition, the learning
典型的には、スペクトログラムは、時間軸及び周波数軸における信号成分の強度を表し、波形データを短時間フーリエ変換することによって生成される。短時間フーリエ変換には各種パラメータが設定される必要があるが、例えば、FFT窓幅:1024、サンプリング周波数:16kHz、オーバラップ幅:768、窓関数:ハニング窓、及びフィルタバンク:メルフィルタバンク(128バンド)などに従って、短時間フーリエ変換が実行されてもよい。スペクトログラムに変換した後、時間軸方向に一定のサンプル数(例えば、1024サンプル)だけ抽出されてもよい。また、本実施例によるスペクトログラムは、低周波数成分を精細にするよう周波数軸が対数変換されたものであってもよい。 Typically, a spectrogram represents the intensity of signal components on the time and frequency axes and is produced by short-time Fourier transforming waveform data. Various parameters need to be set for the short-time Fourier transform, for example, FFT window width: 1024, sampling frequency: 16 kHz, overlap width: 768, window function: Hanning window, and filter bank: Mel filter bank ( 128 band), etc., a short-time Fourier transform may be performed. After conversion into a spectrogram, a fixed number of samples (for example, 1024 samples) may be extracted along the time axis. Further, the spectrogram according to the present embodiment may be obtained by logarithmically transforming the frequency axis so as to refine the low frequency components.
第1モデル学習部120は、単音音源のスペクトログラムを学習用入力データとして入力し、単音音源の音高の予測確率を出力するよう音高情報によって特徴マップ生成モデルを学習する。
The first
例えば、特徴マップ生成モデルは、図3に示されるように、複数の畳み込み層を含む畳み込みニューラルネットワークにより構成され、入力された単音音源のスペクトログラムを音高の予測確率に変換するSSDとして実現される。ここで、音高は連続値でなく離散値として表現され、one-hotベクトルとして表現されてもよい。なお、打楽器などの噪音音源も学習対象とする場合、噪音音源の単音又はシングルノートの音声をデータセットに含めてもよい。その場合、音高クラスとして噪音を表現するクラスを設定し、それを教師ラベルとしてもよい。 For example, as shown in Fig. 3, the feature map generation model is constructed by a convolutional neural network including multiple convolution layers, and is realized as an SSD that converts the spectrogram of the input monophonic sound source into the predicted probability of the pitch. . Here, the pitch is expressed as a discrete value instead of a continuous value, and may be expressed as a one-hot vector. Note that when a noisy sound source such as a percussion instrument is also targeted for learning, a single note or single note of the noisy sound source may be included in the data set. In that case, a class expressing noise may be set as the pitch class and used as the teacher label.
第1モデル学習部120は、学習用入力データの単音音源のスペクトログラムを特徴マップ生成モデルに入力し、特徴マップ生成モデルからの出力と学習用出力データの音高情報との誤差が小さくなるように、バックプロパゲーションによって特徴マップ生成モデルのパラメータを更新する。ここで、誤差を示す損失関数として、限定することなく、特徴マップ生成モデルの出力と学習用出力データの音高との交差エントロピーが利用されてもよい。
The first
例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどの所定の学習終了条件が充足されると、第1モデル学習部120は、更新された特徴マップ生成モデルを学習済み機械学習モデルとして設定する。
For example, when a predetermined learning end condition is satisfied, such as updating processing for a predetermined number of learning data has been completed, error has converged to a predetermined threshold or less, or error improvement has converged to a predetermined threshold or less. , the first
第2モデル学習部130は、採譜対象の音源のスペクトログラムを学習済みの特徴マップ生成モデルに入力することによって生成される特徴マップを学習用入力データとして入力し、特徴マップの固定長の区間に音符が存在する予測確率を出力するよう楽譜情報によって音符存在確率予測モデルを学習する。
The second
例えば、音符存在確率予測モデルは、図4に示されるように、複数の畳み込み層を含む畳み込みニューラルネットワークにより構成され、モノフォニック音源のスペクトルグラムを学習済み特徴マップ生成モデルに入力することによって生成された特徴マップを当該特徴マップの各点を始点とする固定長の区間と同じ長さの音符が存在する予測確率に変換するSSDとして実現される。例えば、ドからシの12音で採譜する場合、特徴マップ上の各点は、ドからシの各音高及び休符(無音)の13通りの音符又は音高クラスが存在する予測確率を有する。 For example, the note presence probability prediction model is constructed by a convolutional neural network including multiple convolution layers, as shown in FIG. It is implemented as an SSD that converts a feature map into a predicted probability that there is a note of the same length as a fixed-length interval starting at each point of the feature map. For example, when transcribed with 12 notes from C to B, each point on the feature map has a predicted probability that there are 13 different note or pitch classes for each pitch from C to B and rests (silences). .
上述したように、学習済み特徴マップ生成モデルは複数の畳み込み層を含み、各畳み込み層からモノフォニック音源のスペクトログラムの特徴マップが生成される。生成される特徴マップは、図3に示されるような畳み込み層のレベルに応じて時間解像度が異なる特徴マップとなる。典型的には、図5に示されるように、入力層に相対的に近い畳み込み層では、時間解像度が相対的に高い(図示された例では、32Hz)特徴マップが生成され、出力層に相対的に近い畳み込み層では、時間解像度が相対的に低い(図示された例では、16Hz)特徴マップが生成される。図示されるような固定長の区間又はデフォルトボックスが設定されると、時間解像度が相対的に高い特徴マップにおける区間は、時間解像度が相対的に低い特徴マップにおける区間より短い時間を占有する。このため、異なる時間的長さを有する音符の存在予測確率を導出することができ、音符の時間的長さを特定することが可能になる。 As described above, the trained feature map generation model includes multiple convolution layers, from which a feature map of the spectrogram of a monophonic sound source is generated. The generated feature map is a feature map with different temporal resolutions depending on the level of the convolution layer as shown in FIG. Typically, convolutional layers relatively close to the input layer produce feature maps with relatively high temporal resolution (32 Hz in the example shown), as shown in FIG. Close convolutional layers produce feature maps with relatively low temporal resolution (16 Hz in the example shown). With fixed-length intervals or default boxes as shown, intervals in feature maps with higher temporal resolution occupy less time than intervals in feature maps with lower temporal resolution. Therefore, it is possible to derive the existence prediction probabilities of notes having different temporal lengths, and to specify the temporal lengths of the notes.
第2モデル学習部130は、学習用入力データの音源のスペクトログラムを学習済み特徴マップ生成モデルに入力し、学習済み特徴マップ生成モデルによって生成された各特徴マップを音符存在確率予測モデルに入力し、音符存在確率予測モデルからの出力と学習用出力データの楽譜情報との誤差が小さくなるように、バックプロパゲーションによって音符存在確率予測モデルのパラメータを更新する。
The second
ここで、誤差を示す損失関数として、限定することなく、音符存在確率予測モデルの出力と音高の時系列変化とから算出されるタイミング誤差と信頼誤差との加重和が利用されてもよい。音高の時系列変化は、楽曲のスタートタイミング、エンドタイミング及び音高のセットが複数集まることによって表現され、楽譜情報から導出される。当該セットは発音と呼ばれてもよく、例えば、音高の時系列変化は、発音#1:"0:00~0:02,A(ラ)3"、発音#2:"0:03~0:05,B(シ)3"、発音#3:"0:05~0:08,C(ド)4"・・・などにより表現されてもよい。図5に示されるデフォルトボックスは、1つの発音を表現しており、複数のチャネルを有する。デフォルトボックスの各チャネルの最初のサンプルはそれぞれ、当該デフォルトボックスの発音のオンセットの予測値、オフセットの予測値及び音高クラスの予測確率を有する。すなわち、トータルで2+(音高のクラス数)のチャネルがある。 Here, as the loss function indicating the error, without limitation, a weighted sum of the timing error and the confidence error calculated from the output of the note presence probability prediction model and the time-series change of the pitch may be used. The time-series change in pitch is expressed by collecting a plurality of sets of start timing, end timing, and pitch of a piece of music, and is derived from musical score information. The set may also be called a pronunciation. For example, the chronological change in pitch is pronunciation #1: "0:00 to 0:02, A(la)3", pronunciation #2: "0:03 to 0:05, B (b) 3", pronunciation #3: "0:05 to 0:08, C (do) 4", and so on. The default box shown in FIG. 5 represents one pronunciation and has multiple channels. Each first sample of each channel of a default box has a predicted onset value, a predicted offset value, and a pitch class predicted probability of the pronunciation of that default box. That is, there are a total of 2+(number of pitch classes) channels.
第2モデル学習部130は、各発音について、オンセットとオフセットとの和が最小となるデフォルトボックスを探索し、検出されたデフォルトボックスと発音とに対してタイミング誤差と信頼誤差を求める。ここで、タイミング誤差とは、予測したオンセットを考慮したスタートタイミングのずれと、予測したオフセットを考慮したエンドタイミングのずれとの和としてもよい。ただし、差分の表現として、デフォルトボックスの長さを基準にした相対値が利用されてもよい。また、信頼誤差は、発音の音高と予測した音高とから算出される交差エントロピーであってもよい。なお、無音を表すクラスも教師ラベルとして用意されてもよく、この場合、発音のない区間を予測することができる。
The second
第2モデル学習部130は、NMS(Non-Maximum Suppression)に従って各特徴マップの各点について設定されたデフォルトボックスを減らしていき、残ったデフォルトボックスを予測発音としてもよい。具体的には、第2モデル学習部130はまず、各デフォルトボックスについて音高クラス毎の音符存在予測確率を求める。その後、第2モデル学習部130は、予測確率が所定の閾値(例えば、0.9など)以下であるデフォルトボックスを削除してもよい。第2モデル学習部は、残ったデフォルトボックスのうち積集合/和集合に閾値を設けて、閾値以上のデフォルトボックスの一方を削除し、重複したデフォルトボックスを排除する。第2モデル学習部130は、最終的に残ったデフォルトボックスを予測発音とする。
The second
例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどの所定の学習終了条件が充足されると、第2モデル学習部130は、更新された音符存在確率予測モデルを学習済みモデルとして設定する。
For example, when a predetermined learning end condition is satisfied, such as updating processing for a predetermined number of learning data has been completed, error has converged to a predetermined threshold or less, or error improvement has converged to a predetermined threshold or less. , the second
一実施例では、第1モデル学習部120は、複数種別のオーディオ成分のそれぞれに対して特徴マップ生成モデルを学習し、第2モデル学習部130は、複数種別のオーディオ成分を含む採譜対象の音源に対して各オーディオ成分種別毎に音符が存在する予測確率を出力するよう音符存在確率予測モデルを学習してもよい。
In one embodiment, the first
例えば、特徴マップ生成モデルと音符存在確率予測モデルとは、モノフォニックボーカルと伴奏とを含む楽曲に対して適用されてもよい。この場合、ボーカル用特徴マップ生成モデルと伴奏用特徴マップ生成モデルとが、ボーカルの単音音源と音高情報とのペアから構成されるボーカル用学習データと、伴奏の単音音源と音高情報とのペアから構成される伴奏用学習データとを利用して、上述した学習処理と同様に学習される。一方、ボーカル用音符存在確率予測モデルと伴奏用音符存在確率予測モデルとが、学習用の音源と楽譜情報と利用して、音源を学習済みボーカル用特徴マップ生成モデルと学習済み伴奏用特徴マップ生成モデルとに入力することによって生成された特徴マップを入力とし、上述した学習処理と同様に学習される。 For example, the feature map generation model and the note presence probability prediction model may be applied to a piece of music including monophonic vocals and accompaniment. In this case, the vocal feature map generation model and the accompaniment feature map generation model are composed of vocal learning data composed of pairs of vocal single-tone sound sources and pitch information, and accompaniment single-tone sound sources and pitch information. Learning is performed in the same manner as the above-described learning process using accompaniment learning data composed of pairs. On the other hand, the vocal note presence probability prediction model and the accompaniment note presence probability prediction model use the learning sound source and score information to generate a learned vocal feature map generation model and a learned accompaniment feature map generation model. A feature map generated by inputting a model is used as an input, and learning is performed in the same manner as the learning process described above.
あるいは、特徴マップ生成モデルと音符存在確率予測モデルとは、楽器毎などの複数のパートを含む楽曲に対して適用されてもよい。上述したボーカルと伴奏とを含む楽曲に対する学習処理と同様であるが、この場合、音符存在確率予測モデルの出力は、特徴マップの固定長の区間に特定パートの特定音符が存在する予測確率であってもよい。例えば、"男声のA3の音高"、"女声のA3の音高"などの特定パートの特定音符の存在の予測確率を出力するようにしてもよい。 Alternatively, the feature map generation model and the note presence probability prediction model may be applied to a piece of music including multiple parts for each instrument. The learning process for a piece of music including vocals and accompaniment is similar to the learning process described above, but in this case, the output of the note existence probability prediction model is the prediction probability that a specific note of a specific part exists in a fixed-length section of the feature map. may For example, the predicted probabilities of the presence of specific notes in specific parts such as "male A3 pitch" and "female A3 pitch" may be output.
あるいは、本開示は拍子を有する楽曲に対して適用されてもよい。この場合、音符存在確率予測モデルの出力は、拍子のオンセット及びオフセットに関するものであってもよく、例えば、デフォルトボックスが一拍である予測確率が出力されてもよい。 Alternatively, the present disclosure may be applied to music with beats. In this case, the output of the note presence probability prediction model may be in terms of the onset and offset of the time signature, eg the predicted probability that the default box is one beat.
図6は、本開示の一実施例による特徴マップ生成モデルの学習処理を示すフローチャートである。当該学習処理は、上述した学習装置100又は学習装置100のプロセッサによって実現される。
FIG. 6 is a flow chart showing learning processing of a feature map generation model according to an embodiment of the present disclosure. The learning process is implemented by the
図6に示されるように、ステップS101において、学習用データ取得部110は、学習用データストレージ50から単音音源と音高情報とのペアを取得する。例えば、音高は、「ド」から「シ」の12音と無音との13通りであり、当該13通りの音高に対応する単音音源が取得されてもよい。
As shown in FIG. 6, in step S101, the learning
ステップS102において、学習用データ取得部110は、取得した単音音源を前処理する。具体的には、学習用データ取得部110は、単音音源の波形データに対して前処理(例えば、短時間フーリエ変換など)を実行し、単音音源のスペクトログラムを取得する。
In step S102, the learning
ステップS103において、第1モデル学習部120は、前処理された単音音源と音高情報とのペアによって特徴マップ生成モデルを学習する。例えば、特徴マップ生成モデルは、畳み込みニューラルネットワークにより構成され、入力音源を音高の予測確率に変換する。具体的には、第1モデル学習部120は、単音音源のスペクトログラムを特徴マップ生成モデルに入力し、特徴マップ生成モデルの出力と音高情報との誤差が小さくなるように、バックプロパゲーションによって特徴マップ生成モデルのパラメータを更新する。
In step S103, the first
ステップS104において、第1モデル学習部120は、学習終了条件が充足されたか判断する。所定の学習終了条件は、例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどであってもよい。所定の学習終了条件が充足されている場合(S104:YES)、第1モデル学習部120は、更新された特徴マップ生成モデルを学習済みモデルとして設定してもよい。他方、所定の学習終了条件が充足されていない場合(S104:NO)、当該処理はステップS101に移行し、上述した各ステップを繰り返す。
In step S104, the first
図7は、本開示の一実施例による音符存在確率予測モデルの学習処理を示すフローチャートである。当該学習処理は、上述した学習装置100又は学習装置100のプロセッサによって実現される。
FIG. 7 is a flow chart showing learning processing of a note existence probability prediction model according to an embodiment of the present disclosure. The learning process is realized by the
図7に示されるように、ステップS201において、学習用データ取得部110は、学習用データストレージ50からモノフォニック音源と楽譜情報とのペアを取得する。例えば、モノフォニック音源は歌唱音源の波形データであってもよく、楽譜情報は当該モノフォニック音源の楽譜を示す。
As shown in FIG. 7, in step S201, the learning
ステップS202において、学習用データ取得部110は、取得したモノフォニック音源を前処理する。具体的には、学習用データ取得部110は、モノフォニック音源の波形データに対して前処理(例えば、短時間フーリエ変換など)を実行し、モノフォニック音源のスペクトログラムを取得する。
In step S202, the learning
ステップS203において、第2モデル学習部130は、前処理されたモノフォニック音源を学習済み特徴マップ生成モデルに入力し、学習済み特徴マップ生成モデルによって生成された特徴マップを取得する。具体的には、第2モデル学習部130は、学習済み特徴マップ生成モデルの各畳み込み層から生成された特徴マップを取得する。生成された特徴マップは、各畳み込み層の畳み込みの程度に応じて異なる時間解像度の特徴マップとなる。
In step S203, the second
ステップS204において、第2モデル学習部130は、取得した特徴マップと楽譜情報とのペアによって音符存在確率予測モデルを学習する。例えば、音符存在確率予測モデルは、畳み込みニューラルネットワークにより構成により構成され、入力された特徴マップを当該特徴マップの固定長の区間に音符が存在する音符存在予測確率に変換する。具体的には、第2モデル学習部130は、各特徴マップを音符存在確率予測モデルに入力し、音符存在確率予測モデルの出力と楽譜情報との誤差が小さくなるように、バックプロパゲーションによって音符存在確率予測モデルのパラメータを更新する。
In step S204, the second
ステップS205において、第2モデル学習部130は、学習終了条件が充足されたか判断する。所定の学習終了条件は、例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどであってもよい。所定の学習終了条件が充足されている場合(S205:YES)、第2モデル学習部130は、更新された音符存在確率予測モデルを学習済みモデルとして設定してもよい。他方、所定の学習終了条件が充足されていない場合(S205:NO)、当該処理はステップS201に移行し、上述した各ステップを繰り返す。
In step S205, the second
次に、図8及び9を参照して、本開示の一実施例による自動採譜装置を説明する。図8は、本開示の一実施例による自動採譜装置の機能構成を示すブロック図である。 Next, with reference to FIGS. 8 and 9, an automatic music transcription device according to one embodiment of the present disclosure will be described. FIG. 8 is a block diagram showing the functional configuration of an automatic music transcription device according to an embodiment of the present disclosure.
図8に示されるように、自動採譜装置200は、モデル処理部210及び楽譜生成部220を有する。
As shown in FIG. 8, the automatic
モデル処理部210は、単音音源から音高の予測確率を出力する学習済み特徴マップ生成モデルと、特徴マップから当該特徴マップの固定長の区間に音符が存在する予測確率を出力する学習済み音符存在確率予測モデルとを利用し、採譜対象の音源を学習済み特徴マップ生成モデルに入力し、当該学習済み特徴マップ生成モデルによって生成された特徴マップを学習済み音符存在確率予測モデルに入力し、特徴マップの固定長の区間に音符が存在する予測確率を出力する。
The
具体的には、モデル処理部210は、採譜対象の音源に対して短時間フーリエ変換などの前処理を実行して当該音源のスペクトログラムを取得し、取得したスペクトログラムを学習装置100による学習済み特徴マップ生成モデルに入力して当該学習済み特徴マップ生成モデルの各畳み込み層からの特徴マップを取得する。そして、モデル処理部210は、取得した各特徴マップを学習装置100による学習済み音符存在確率予測モデルに入力し、入力した特徴マップの各点を始点とする固定長の区間又はデフォルトボックスと同じ長さの音符が存在する予測確率を取得し、取得した各特徴マップの音符存在予測確率を楽譜生成部220にわたす。例えば、音符存在予測確率は、特徴マップのデフォルトボックスに存在する各音高(例えば、「ド」、「レ」、・・・「シ」、無音など)の確率の予測値であり、高い予測確率を有する音高が当該時間的長さに対応する音符に相当すると判断できる。
Specifically, the
楽譜生成部220は、音符が存在する予測確率に基づき楽譜情報を生成する。具体的には、楽譜生成部220は、SSDに用いられるNMS(Non-Maximum Suppression)に従って学習済み音符存在確率予測モデルの出力を後処理する。典型的には、学習済み音符存在確率予測モデルから多数の予測音符候補が出力される。これらの予測音符候補から予測音符を特定する必要があり、SSDではNMSを利用して予測音符候補をしばしば絞っている。
The musical
例えば、楽譜生成部220はまず、学習済み音符存在確率予測モデルに入力された特徴マップ上の各点に対して出力された音符存在予測確率のうち最大となる音符を当該時間における予測音符とする。そして、楽譜生成部220は、特徴マップ上の各点について予測音符を決定し、各点、予測音符及び対応する音符存在予測確率のデータセットをリスト化し、音符存在予測確率に関して降順にリスト内のデータセットをソートする。そして、楽譜生成部220は、所定の抽出条件を適用し、リストから予測音符候補を絞る。例えば、楽譜生成部220は、音符存在予測確率が所定の閾値(例えば、0.9など)以下であるデータセットをリストから削除してもよい。また、楽譜生成部220は、重複して検出された音符の重複を排除するため、予測音符が同じであって、かつ、予測音符の重複度が所定の閾値(例えば、80%など)以上のデータセットがリストの上位にある場合、当該上位のリストのみを残すようにしてもよい。楽譜生成部220は、最終的なリストにおけるデータセットに基づき楽譜を生成する。
For example, the musical
図9は、本開示の一実施例による自動採譜処理を示すフローチャートである。当該自動採譜処理は、上述した自動採譜装置200又は自動採譜装置200のプロセッサによって実現される。
FIG. 9 is a flowchart illustrating automatic transcription processing according to one embodiment of the present disclosure. The automatic music transcription processing is realized by the automatic
図9に示されるように、ステップS301において、モデル処理部210は、採譜対象の音源を取得する。例えば、当該音源はモノフォニック音源であってもよいし、複数種別のオーディオ成分を含んでもよい。
As shown in FIG. 9, in step S301, the
ステップS302において、モデル処理部210は、取得した音源を前処理する。具体的には、モデル処理部210は、取得した音源に対して短時間フーリエ変換などの前処理を実行し、当該音源のスペクトログラムを取得する。
In step S302, the
ステップS303において、モデル処理部210は、前処理した音源を学習済み特徴マップ生成モデルに入力して特徴マップを取得し、取得した特徴マップを学習済み音符存在確率予測モデルに入力して入力した特徴マップの各点を始点とする固定長の区間又はデフォルトボックスと同じ長さの音符が存在する予測確率を取得する。
In step S303, the
ステップS304において、楽譜生成部220は、特徴マップ上の各点に対して取得した音符存在予測確率に基づき予測音符を決定する。具体的には、楽譜生成部220は、各点について取得した音符存在予測確率のうち最大となる音符存在予測確率に対応する音符を当該点に対する予測音符として決定する。
In step S304, the
ステップS305において、楽譜生成部220は、決定された特徴マップの各点の予測音符に対して後処理を実行する。具体的には、楽譜生成部220は、SSDにおけるNMSに従って特徴マップの各点の予測音符を絞る。例えば、楽譜生成部220は、特徴マップ上の各点について決定された予測音符に基づき、各点、予測音符及び対応する音符存在予測確率のデータセットをリスト化し、音符存在予測確率に関して降順にリスト内のデータセットをソートし、音符存在予測確率が所定の閾値(例えば、0.9など)以下であるデータセットをリストから削除すると共に、予測音符が同じであって、かつ、予測音符の重複度が所定の閾値(例えば、80%など)以上のデータセットがリストの上位にある場合、当該上位のリストのみを残すようにしてもよい。
In step S305, the
ステップS306において、楽譜生成部220は、最終的なリストにおけるデータセットに基づき楽譜を生成する。
In step S306, the
上述した学習装置100及び自動採譜装置200はそれぞれ、例えば、図10に示されるように、CPU(Central Processing Unit)101、GPU(Graphics Processing Unit)102、RAM(Random
Access Memory)103、通信インタフェース(IF)104、ハードディスク105、入力装置106及び出力装置107によるハードウェア構成を有してもよい。CPU101及びGPU102は、プロセッサ又は処理回路として参照されてもよく、学習装置100及び自動採譜装置200の各種処理を実行し、特に、CPU101は学習装置100及び自動採譜装置200における各種処理の実行を制御し、GPU102は機械学習モデルを学習及び実行するための各種処理を実行する。RAM103及びハードディスク105は、学習装置100及び自動採譜装置200における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM103は、CPU101及びGPU102における作業データを格納するワーキングメモリとして機能し、ハードディスク105は、CPU101及びGPU102の制御プログラム及び/又は学習用データを格納する。通信IF104は、学習用データストレージ50から学習用データを取得するための通信インタフェースである。入力装置106は、情報及びデータを入力するための各種デバイス(例えば、ディスプレイ、スピーカ、キーボード、タッチ画面など)であり、出力装置107は、処理の内容、経過、結果等の各種情報を表示する各種デバイス(例えば、ディスプレイ、プリンタ、スピーカなど)である。しかしながら、本開示による学習装置100及び自動採譜装置200は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
The
Access Memory) 103 , communication interface (IF) 104 ,
本開示の一態様では、
単音音源と音高情報とを第1の機械学習モデルの学習用データとして取得し、採譜対象の音源と楽譜情報とを第2の機械学習モデルの学習用データとして取得し、前記単音音源と前記採譜対象の音源とに対して前処理を実行し、それぞれのスペクトログラムを取得する学習用データ取得部と、
前記単音音源のスペクトログラムを学習用入力データとして入力し、前記単音音源の音高の予測確率を出力するよう前記音高情報によって第1の機械学習モデルを学習する第1モデル学習部と、
前記採譜対象の音源のスペクトログラムを学習済みの前記第1の機械学習モデルに入力することによって生成される特徴マップを学習用入力データとして入力し、前記特徴マップの固定長の区間に音符が存在する予測確率を出力するよう前記楽譜情報によって第2の機械学習モデルを学習する第2モデル学習部と、
を有する学習装置が提供される。
In one aspect of the present disclosure,
A single-tone sound source and pitch information are acquired as learning data for a first machine learning model, a sound source to be transcribed and score information are acquired as learning data for a second machine-learning model, and the single-tone sound source and the musical score information are acquired as learning data for a second machine learning model. a learning data acquisition unit that preprocesses the sound source to be transcribed and acquires each spectrogram;
a first model learning unit that receives the spectrogram of the single sound source as learning input data and learns a first machine learning model using the pitch information so as to output a predicted probability of the pitch of the single sound source;
A feature map generated by inputting the spectrogram of the sound source to be transcribed into the learned first machine learning model is input as input data for learning, and notes are present in a fixed-length section of the feature map. a second model learning unit that learns a second machine learning model with the musical score information to output a predicted probability;
A learning device is provided having:
一実施例では、
前記第1の機械学習モデルと前記第2の機械学習モデルとは、畳み込みニューラルネットワークにより構成されてもよい。
In one example,
The first machine learning model and the second machine learning model may be configured by a convolutional neural network.
一実施例では、
前記第2モデル学習部は、前記第1の機械学習モデルにより生成される異なる時間解像度を有する複数の特徴マップを前記第2の機械学習モデルに入力してもよい。
In one example,
The second model learning unit may input a plurality of feature maps having different temporal resolutions generated by the first machine learning model to the second machine learning model.
一実施例では、
前記第2モデル学習部は、前記第1の機械学習モデルと前記第2の機械学習モデルとをSSD(Single Shot Detection)として実現してもよい。
In one example,
The second model learning unit may realize the first machine learning model and the second machine learning model as an SSD (Single Shot Detection).
一実施例では、
前記第1モデル学習部は、複数種別のオーディオ成分のそれぞれに対して前記第1の機械学習モデルを学習し、
前記第2モデル学習部は、複数種別のオーディオ成分を含む採譜対象の音源に対して各オーディオ成分種別毎に音符が存在する予測確率を出力するよう前記第2の機械学習モデルを学習してもよい。
In one example,
The first model learning unit learns the first machine learning model for each of multiple types of audio components,
The second model learning unit may learn the second machine learning model so as to output a predicted probability that a note exists for each audio component type with respect to a sound source to be transcribed containing multiple types of audio components. good.
本開示の一態様では、
単音音源から音高の予測確率を出力する第1の学習済み機械学習モデルと、特徴マップから前記特徴マップの固定長の区間に音符が存在する予測確率を出力する第2の学習済み機械学習モデルとを利用し、採譜対象の音源を前記第1の学習済み機械学習モデルに入力し、前記第1の学習済み機械学習モデルによって生成された特徴マップを前記第2の学習済み機械学習モデルに入力し、前記特徴マップの固定長の区間に音符が存在する予測確率を出力するモデル処理部と、
前記音符が存在する予測確率に基づき楽譜情報を生成する楽譜生成部と、
を有する自動採譜装置が提供される。
In one aspect of the present disclosure,
A first trained machine learning model that outputs a pitch prediction probability from a single sound source, and a second trained machine learning model that outputs a prediction probability that a note exists in a fixed-length section of the feature map from a feature map. inputting the sound source to be transcribed into the first trained machine learning model, and inputting the feature map generated by the first trained machine learning model into the second trained machine learning model. and a model processing unit that outputs a predicted probability that a note exists in a fixed-length section of the feature map;
a musical score generation unit that generates musical score information based on the predicted probability that the note exists;
is provided.
一実施例では、
前記モデル処理部は、前記採譜対象の音源に対して前処理を実行することによってスペクトログラムを取得し、前記スペクトログラムを前記第1の学習済み機械学習モデルに入力してもよい。
In one example,
The model processing unit may obtain a spectrogram by performing preprocessing on the sound source to be transcribed, and input the spectrogram to the first trained machine learning model.
一実施例では、
前記モデル処理部は、前記特徴マップ上の各点について前記第2の学習済み機械学習モデルから出力された最大の予測確率を有する音符を予測音符として決定してもよい。
In one example,
The model processing unit may determine, as the predicted note, the note having the highest prediction probability output from the second trained machine learning model for each point on the feature map.
一実施例では、
前記楽譜生成部は、NMS(Non-Maximum Suppression)に従って抽出された予測音符に基づき楽譜情報を生成してもよい。
In one example,
The score generation unit may generate score information based on predicted notes extracted according to NMS (Non-Maximum Suppression).
本開示の一態様では、
プロセッサが、単音音源と音高情報とを第1の機械学習モデルの学習用データとして取得し、採譜対象の音源と楽譜情報とを第2の機械学習モデルの学習用データとして取得し、前記単音音源と前記採譜対象の音源とに対して前処理を実行し、それぞれのスペクトログラムを取得すステップと、
前記プロセッサが、前記単音音源のスペクトログラムを学習用入力データとして入力し、前記単音音源の音高の予測確率を出力するよう前記音高情報によって第1の機械学習モデルを学習するステップと、
前記プロセッサが、前記採譜対象の音源のスペクトログラムを学習済みの前記第1の機械学習モデルに入力することによって生成される特徴マップを学習用入力データとして入力し、前記特徴マップの固定長の区間に音符が存在する予測確率を出力するよう前記楽譜情報によって第2の機械学習モデルを学習するステップと、
を有する学習方法が提供される。
In one aspect of the present disclosure,
A processor acquires a single sound source and pitch information as learning data for a first machine learning model, acquires a sound source to be transcribed and score information as learning data for a second machine learning model, and acquires the single sound. performing preprocessing on the sound source and the sound source to be transcribed to obtain respective spectrograms;
the processor inputting the spectrogram of the monophonic sound source as learning input data and learning a first machine learning model with the pitch information to output a predicted probability of the pitch of the monophonic sound source;
The processor inputs, as input data for learning, a feature map generated by inputting the spectrogram of the sound source to be transcribed into the first machine learning model that has already been trained. training a second machine learning model with the musical score information to output a predicted probability that a note is present;
There is provided a learning method comprising:
本開示の一態様では、
プロセッサが、単音音源から音高の予測確率を出力する第1の学習済み機械学習モデルに採譜対象の音源を入力するステップと、
前記プロセッサが、特徴マップから前記特徴マップの固定長の区間に音符が存在する予測確率を出力する第2の学習済み機械学習モデルに前記第1の学習済み機械学習モデルによって生成された特徴マップを入力するステップと、
前記プロセッサが、前記第2の学習済み機械学習モデルから出力された前記音符が存在する予測確率に基づき楽譜情報を生成するステップと、
を有する自動採譜方法が提供される。
In one aspect of the present disclosure,
a processor inputting a sound source to be transcribed into a first trained machine learning model that outputs a predicted probability of pitch from a monophonic sound source;
The processor transfers the feature map generated by the first learned machine learning model to a second learned machine learning model that outputs a predicted probability that a note exists in a fixed-length section of the feature map from the feature map. a step of entering;
the processor generating score information based on the predicted probability of the note being present output from the second trained machine learning model;
There is provided an automatic music transcription method comprising:
本開示の一態様では、
単音音源と音高情報とを第1の機械学習モデルの学習用データとして取得し、採譜対象の音源と楽譜情報とを第2の機械学習モデルの学習用データとして取得し、前記単音音源と前記採譜対象の音源とに対して前処理を実行し、それぞれのスペクトログラムを取得すステップと、
前記単音音源のスペクトログラムを学習用入力データとして入力し、前記単音音源の音高の予測確率を出力するよう前記音高情報によって第1の機械学習モデルを学習するステップと、
前記採譜対象の音源のスペクトログラムを学習済みの前記第1の機械学習モデルに入力することによって生成される特徴マップを学習用入力データとして入力し、前記特徴マップの固定長の区間に音符が存在する予測確率を出力するよう前記楽譜情報によって第2の機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラムが提供される。
In one aspect of the present disclosure,
A single-tone sound source and pitch information are acquired as learning data for a first machine learning model, a sound source to be transcribed and score information are acquired as learning data for a second machine-learning model, and the single-tone sound source and the musical score information are acquired as learning data for a second machine learning model. performing preprocessing on the sound sources to be transcribed and obtaining respective spectrograms;
inputting the spectrogram of the monophonic sound source as training input data and learning a first machine learning model with the pitch information so as to output a predicted probability of the pitch of the monophonic sound source;
A feature map generated by inputting the spectrogram of the sound source to be transcribed into the learned first machine learning model is input as input data for learning, and notes are present in a fixed-length section of the feature map. training a second machine learning model with the score information to output predicted probabilities;
A program is provided which causes a processor to execute
本開示の一態様では、
単音音源から音高の予測確率を出力する第1の学習済み機械学習モデルに採譜対象の音源を入力するステップと、
特徴マップから前記特徴マップの固定長の区間に音符が存在する予測確率を出力する第2の学習済み機械学習モデルに前記第1の学習済み機械学習モデルによって生成された特徴マップを入力するステップと、
前記第2の学習済み機械学習モデルから出力された前記音符が存在する予測確率に基づき楽譜情報を生成するステップと、
をプロセッサに実行させるプログラムが提供される。
In one aspect of the present disclosure,
inputting a sound source to be transcribed into a first trained machine learning model that outputs predicted probabilities of pitches from monophonic sound sources;
inputting the feature map generated by the first trained machine learning model into a second trained machine learning model that outputs from the feature map a predicted probability that a note exists in a fixed-length interval of the feature map; ,
generating score information based on the predicted probability that the note exists output from the second trained machine learning model;
A program is provided which causes a processor to execute
本開示の一態様では、
上述したプログラムを記憶するコンピュータ可読記憶媒体が提供される。
In one aspect of the present disclosure,
A computer readable storage medium storing the above program is provided.
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。 Although the embodiments of the present disclosure have been described in detail above, the present disclosure is not limited to the specific embodiments described above, and various modifications can be made within the scope of the gist of the present disclosure described in the claims.・Changes are possible.
50 学習用データストレージ
100 学習装置
200 自動採譜装置
50
上記課題を解決するため、本開示の一態様は、畳み込みニューラルネットワークにより構成される第1の機械学習モデルであって、単音音源から生成される第1スペクトログラムと、対応する音高情報と、をペアとする教師データを学習させることにより、第1スペクトログラムの入力に応じて複数の畳み込み層から時間解像度が異なるように生成された、対応する音高の予測確率を示す各特徴マップを出力する第1の機械学習モデルを学習する第1モデル学習部と、学習済みの前記第1の機械学習モデルに単旋律音源から生成される第2スペクトログラムを入力し前記第1の機械学習モデルによって生成された各特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第3スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力された各特徴マップの入力に応じて各特徴マップ上の各点を始点とする固定長の区間又はデフォルトボックスと同じ長さの音符が存在する音符存在予測確率を出力する第2の機械学習モデルを学習する第2モデル学習部と、を有する学習装置に関する。 In order to solve the above problems, one aspect of the present disclosure is a first machine learning model configured by a convolutional neural network, which includes a first spectrogram generated from a single sound source and corresponding pitch information. By learning paired teacher data, each feature map showing the predicted probability of the corresponding pitch generated from a plurality of convolution layers with different temporal resolutions according to the input of the first spectrogram is output. a first model learning unit for learning a first machine learning model; Output according to the input to the first machine learning model of the third spectrogram generated from the sound source to be transcribed by learning teacher data that pairs each feature map and score information A second machine learning model that outputs the note existence prediction probability that notes of the same length as the fixed-length section or default box starting from each point on each feature map according to the input of each feature map and a second model learning unit for learning the learning device.
Claims (13)
前記第1モデル学習部が出力する前記第1特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第2スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力される音高の予測確率を示す第1特徴マップの入力に応じて、楽譜を生成するための情報を出力する第2の機械学習モデルを学習する第2モデル学習部と、
を有する学習装置。 A first feature map indicating the predicted probability of the corresponding pitch according to the input of the spectrogram by learning teacher data that pairs a first spectrogram generated from a single sound source and corresponding pitch information. a first model learning unit that learns a first machine learning model that outputs
The first machine learning of a second spectrogram generated from a sound source to be transcribed by learning teacher data pairing the first feature map output by the first model learning unit and musical score information. Second model learning for learning a second machine learning model that outputs information for generating a musical score according to the input of the first feature map indicating the predicted probability of the pitch that is output according to the input to the model. Department and
A learning device having
前記第2モデル学習部は、複数種別のオーディオ成分を含む採譜対象の音源に対して前記第2の機械学習モデルを学習する、請求項1乃至4何れか一項に記載の学習装置。 The first model learning unit learns the first machine learning model for each of multiple types of audio components,
5. The learning device according to any one of claims 1 to 4, wherein the second model learning unit learns the second machine learning model for a sound source to be transcribed including multiple types of audio components.
を有する自動採譜装置。 A first trained machine learning model that outputs a first feature map indicating predicted probabilities of pitches from a single tone sound source, and a second trained machine learning model that outputs information for generating a musical score from the first feature map. input the sound source to be transcribed into the first trained machine learning model, and transfer the first feature map output by the first trained machine learning model to the second trained machine learning model a model processing unit that inputs to and outputs information for generating a musical score;
automatic transcription device.
前記楽譜生成部は、NMS(Non-Maximum Suppression)に従って抽出された予測音符に基づき楽譜情報を生成する、請求項8記載の自動採譜装置。 a musical score generating unit that generates musical score information based on the predicted probability that the note exists;
9. The automatic music transcription apparatus according to claim 8, wherein said score generation unit generates score information based on predicted notes extracted according to NMS (Non-Maximum Suppression).
単音音源から生成される第1スペクトログラムと、対応する音高情報と、をペアとする教師データを学習させることにより、スペクトログラムの入力に応じて、対応する音高の予測確率を示す第1特徴マップを出力する第1の機械学習モデルを学習するステップと、
前記第1特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第2スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力される音高の予測確率を示す第1特徴マップの入力に応じて、楽譜を生成するための情報を出力する第2の機械学習モデルを学習するステップと、
を実行する学習方法。 the processor
A first feature map indicating the predicted probability of the corresponding pitch according to the input of the spectrogram by learning teacher data that pairs a first spectrogram generated from a single sound source and corresponding pitch information. training a first machine learning model that outputs
A second spectrogram generated from a sound source to be transcribed is output according to an input to the first machine learning model by learning teacher data paired with the first feature map and musical score information. learning a second machine learning model that outputs information for generating a musical score in response to the input of a first feature map indicating the predicted probability of pitches that
How to learn to do.
単音音源から生成される第1スペクトログラムと、対応する音高情報と、をペアとする教師データを学習させることにより、スペクトログラムの入力に応じて、対応する音高の予測確率を示す第1特徴マップを出力する第1の機械学習モデルを学習するステップと、
前記第1特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第2スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力される音高の予測確率を示す第1特徴マップの入力に応じて、楽譜を生成するための情報を出力する第2の機械学習モデルを学習するステップと、
を実行する自動採譜方法。 the processor
A first feature map indicating the predicted probability of the corresponding pitch according to the input of the spectrogram by learning teacher data that pairs a first spectrogram generated from a single sound source and corresponding pitch information. training a first machine learning model that outputs
A second spectrogram generated from a sound source to be transcribed is output according to an input to the first machine learning model by learning teacher data paired with the first feature map and musical score information. learning a second machine learning model that outputs information for generating a musical score in response to the input of a first feature map indicating the predicted probability of pitches that
An automatic transcription method that performs
前記第1特徴マップと、楽譜情報と、をペアとする教師データを学習させることにより、採譜対象の音源から生成される第2スペクトログラムの前記第1の機械学習モデルへの入力に応じて出力される音高の予測確率を示す第1特徴マップの入力に応じて、楽譜を生成するための情報を出力する第2の機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラム。 A first feature map indicating the predicted probability of the corresponding pitch according to the input of the spectrogram by learning teacher data that pairs a first spectrogram generated from a single sound source and corresponding pitch information. training a first machine learning model that outputs
A second spectrogram generated from a sound source to be transcribed is output according to an input to the first machine learning model by learning teacher data paired with the first feature map and musical score information. learning a second machine learning model that outputs information for generating a musical score in response to the input of a first feature map indicating the predicted probability of pitches that
A program that causes the processor to execute
入力に応じて、楽譜を生成するための情報を出力する第2の学習済み機械学習モデルに前記第1の学習済み機械学習モデルによって生成された前記音高の予測確率を示す特徴マップを入力するステップと、
をプロセッサに実行させるプログラム。 inputting a sound source to be transcribed into a first trained machine learning model that outputs predicted probabilities of pitches from monophonic sound sources;
Inputting a feature map indicating the predicted probability of the pitch generated by the first trained machine learning model to a second trained machine learning model that outputs information for generating a musical score in response to an input. a step;
A program that causes the processor to execute
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023032348A JP7448053B2 (en) | 2018-06-25 | 2023-03-03 | Learning device, automatic score transcription device, learning method, automatic score transcription method and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018120235A JP2020003536A (en) | 2018-06-25 | 2018-06-25 | Learning device, automatic music transcription device, learning method, automatic music transcription method and program |
JP2023032348A JP7448053B2 (en) | 2018-06-25 | 2023-03-03 | Learning device, automatic score transcription device, learning method, automatic score transcription method and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120235A Division JP2020003536A (en) | 2018-06-25 | 2018-06-25 | Learning device, automatic music transcription device, learning method, automatic music transcription method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023081946A true JP2023081946A (en) | 2023-06-13 |
JP7448053B2 JP7448053B2 (en) | 2024-03-12 |
Family
ID=69099614
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120235A Pending JP2020003536A (en) | 2018-06-25 | 2018-06-25 | Learning device, automatic music transcription device, learning method, automatic music transcription method and program |
JP2023032348A Active JP7448053B2 (en) | 2018-06-25 | 2023-03-03 | Learning device, automatic score transcription device, learning method, automatic score transcription method and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120235A Pending JP2020003536A (en) | 2018-06-25 | 2018-06-25 | Learning device, automatic music transcription device, learning method, automatic music transcription method and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2020003536A (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429940B (en) * | 2020-06-15 | 2020-10-09 | 杭州贝哆蜂智能有限公司 | Real-time music transcription and music score matching method based on deep learning |
CN112397044B (en) * | 2020-11-06 | 2022-07-01 | 四川省人工智能研究院(宜宾) | Automatic music transcription method based on deep learning |
CN112669796A (en) * | 2020-12-29 | 2021-04-16 | 西交利物浦大学 | Method and device for converting music into music book based on artificial intelligence |
KR102415345B1 (en) * | 2021-02-08 | 2022-07-01 | 한국과학기술원 | Computer system for real-time automatic piano transcription and reperformance with pitch, intensity and pedal estimation, and method thereof |
CN113053336A (en) * | 2021-03-17 | 2021-06-29 | 平安科技(深圳)有限公司 | Method, device and equipment for generating musical composition and storage medium |
CN117321675A (en) * | 2021-05-19 | 2023-12-29 | 雅马哈株式会社 | Music score making a device(s) training device music score making method training method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2871204B2 (en) * | 1991-08-21 | 1999-03-17 | 日本電気株式会社 | Music transcription device |
JPH0675562A (en) * | 1992-08-28 | 1994-03-18 | Brother Ind Ltd | Automatic musical note picking-up device |
JP3413634B2 (en) * | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | Pitch estimation method and apparatus |
JP4672474B2 (en) * | 2005-07-22 | 2011-04-20 | 株式会社河合楽器製作所 | Automatic musical transcription device and program |
JP2007304445A (en) * | 2006-05-12 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | Repair-extraction method of frequency component, repair-extraction device of frequency component, repair-extraction program of frequency component, and recording medium which records repair-extraction program of frequecy component |
JP7147211B2 (en) * | 2018-03-22 | 2022-10-05 | ヤマハ株式会社 | Information processing method and information processing device |
-
2018
- 2018-06-25 JP JP2018120235A patent/JP2020003536A/en active Pending
-
2023
- 2023-03-03 JP JP2023032348A patent/JP7448053B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7448053B2 (en) | 2024-03-12 |
JP2020003536A (en) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7448053B2 (en) | Learning device, automatic score transcription device, learning method, automatic score transcription method and program | |
Bittner et al. | Deep Salience Representations for F0 Estimation in Polyphonic Music. | |
Tachibana et al. | Singing voice enhancement in monaural music signals based on two-stage harmonic/percussive sound separation on multiple resolution spectrograms | |
CN110364140B (en) | Singing voice synthesis model training method, singing voice synthesis model training device, computer equipment and storage medium | |
Wu et al. | Polyphonic music transcription with semantic segmentation | |
CN109979488B (en) | System for converting human voice into music score based on stress analysis | |
US10504498B2 (en) | Real-time jamming assistance for groups of musicians | |
US9779706B2 (en) | Context-dependent piano music transcription with convolutional sparse coding | |
Oudre et al. | Chord recognition by fitting rescaled chroma vectors to chord templates | |
US9711133B2 (en) | Estimation of target character train | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
CN103915093A (en) | Method and device for realizing voice singing | |
CN112309409A (en) | Audio correction method and related device | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
US11842720B2 (en) | Audio processing method and audio processing system | |
CN111837184A (en) | Sound processing method, sound processing device, and program | |
US20230016425A1 (en) | Sound Signal Generation Method, Estimation Model Training Method, and Sound Signal Generation System | |
Li et al. | An approach to score following for piano performances with the sustained effect | |
JP2017067902A (en) | Acoustic processing device | |
JP6578544B1 (en) | Audio processing apparatus and audio processing method | |
JP6849977B2 (en) | Synchronous information generator and method for text display and voice recognition device and method | |
CN111368129A (en) | Humming retrieval method based on deep neural network | |
JP4877112B2 (en) | Voice processing apparatus and program | |
JP2020204755A (en) | Speech processing device and speech processing method | |
Cheng | Exploiting Piano Acoustics in Automatic Transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7448053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |