JP7452162B2

JP7452162B2 - 音信号生成方法、推定モデル訓練方法、音信号生成システム、およびプログラム

Info

Publication number: JP7452162B2
Application number: JP2020054465A
Authority: JP
Inventors: 方成西村; 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-03-19
Anticipated expiration: 2040-03-25
Also published as: JP2021156947A; US20230016425A1; CN115349147A; WO2021192963A1

Description

本開示は、音信号を生成する技術に関する。

歌唱音または演奏音等の各種の音を表す音信号を生成する技術が従来から提案されている。例えば公知のMIDI（Musical Instrument Digital Interface）音源は、スタッカート等の演奏記号が付与された音の音信号を生成する。また、非特許文献１には、ニューラルネットワークを利用して歌唱音を合成する技術が開示されている。

Merlijn Blaauw, Jordi Bonada, "A NEWRAL PARATETRIC SINGING SYNTHESIZER," arXiv, 2017.4.12

従来のMIDI音源においては、スタッカートが指示された音符の継続長がゲートタイムの制御により所定の比率（例えば５０％）で短縮される。しかし、実際の楽曲の歌唱または演奏においてスタッカートにより音符の継続長が短縮される度合は、当該音符の前後に位置する音符の音高等の種々の要因により変化する。したがって、スタッカートが指示された音符の継続長を固定の度合で短縮する従来のMIDI音源においては、音楽的に自然な音を表す音信号を生成することが困難である。また、非特許文献１の技術のもとでは、機械学習に利用された訓練データの傾向のもとで各音符の継続長が短縮されることはあるものの、例えば音符毎に個別にスタッカートを示することは想定されていない。なお、以上の説明ではスタッカートを例示したが、例えば音符の継続長を短縮させる任意の指示について同様の問題が想定される。以上の事情を考慮して、本開示のひとつの態様は、音符の継続長を短縮させる指示を含む楽譜データから音楽的に自然な音を表す音信号を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る音信号生成方法は、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成する音信号生成方法であって、前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成し、前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成し、前記制御データに応じた音信号を生成する。

本開示のひとつの態様に係る推定モデル訓練方法は、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データが、前記特定音符について指定する条件を表す条件データと、前記特定音符の継続長を短縮させる度合を表す短縮率と、を含む複数の訓練データを取得し、前記複数の訓練データを利用した機械学習により、前記条件データと前記短縮率との関係を学習するように推定モデルを訓練する。

本開示のひとつの態様に係る音信号生成システムは、１以上のプロセッサとプログラムが記録されたメモリとを具備し、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成する音信号生成システムであって、前記１以上のプロセッサは、前記プログラムを実行することで、前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成し、前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成し、前記制御データに応じた音信号を生成する。

本開示のひとつの態様に係るプログラムは、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成するためのプログラムであって、前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成する処理と、前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成する処理と、前記制御データに応じた音信号を生成する処理とを、コンピュータに実行させる。

音信号生成システムの構成を例示するブロック図である。信号生成部が使用するデータの説明図である。音信号生成システムの機能的な構成を例示するブロック図である。信号生成処理の具体的な手順を例示するフローチャートである。学習処理部が使用するデータの説明図である。第１推定モデルに関する学習処理の具体的な手順を例示するフローチャートである。訓練データを取得する処理の具体的な手順を例示するフローチャートである。機械学習処理の具体的な手順を例示するフローチャートである。第２実施形態における音信号生成システムの構成を例示するフローチャートである。第２実施形態における信号生成処理の具体的な手順を例示するフローチャートである。

Ａ：第１実施形態
図１は、本開示の第１実施形態に係る音信号生成システム１００の構成を例示するブロック図である。音信号生成システム１００は、制御装置１１と記憶装置１２と放音装置１３とを具備するコンピュータシステムである。音信号生成システム１００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音信号生成システム１００は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（例えばクライアントサーバシステム）でも実現される。

制御装置１１は、音信号生成システム１００の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置１１が構成される。

制御装置１１は、合成の目標となる任意の音（以下「目標音」という）を表す音信号Ｖを生成する。音信号Ｖは、目標音の波形を表す時間領域の信号である。目標音は、楽曲の演奏により発音される演奏音である。具体的には、目標音は、楽器の演奏により発音される楽音のほか、歌唱により発音される歌唱音を含む。すなわち、「演奏」は、楽器の演奏という本来的な意味のほかに歌唱も包含する広義の概念である。

放音装置１３は、制御装置１１が生成した音信号Ｖが表す目標音を放音する。放音装置１３は、例えばスピーカまたはヘッドホンである。なお、音信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と、音信号Ｖを増幅する増幅器とは、便宜的に図示が省略されている。また、図１においては、放音装置１３を音信号生成システム１００に搭載した構成を例示したが、音信号生成システム１００とは別体の放音装置１３が有線または無線により音信号生成システム１００に接続されてもよい。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音信号生成システム１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、例えば移動体通信網またはインターネット等の通信網を介して、制御装置１１が記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２は音信号生成システム１００から省略されてもよい。

記憶装置１２は、楽曲を表す楽譜データＤ1を記憶する。図２に例示される通り、楽譜データＤ1は、楽曲を構成する複数の音符の各々について音高と継続長（音価）とを指定する。目標音が歌唱音である場合、楽譜データＤ1は各音符の音韻（歌詞）の指定を含む。また、楽譜データＤ1が指定する複数の音符のうち１以上の音符（以下「特定音符」という）についてはスタッカートが指示される。スタッカートは、特定音符の継続長を短縮させることを意味する演奏記号である。音信号生成システム１００は、楽譜データＤ1に応じた音信号Ｖを生成する。

［１］信号生成部２０
図３は、音信号生成システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶された音信号生成プログラムＰ1を実行することで信号生成部２０として機能する。信号生成部２０は、楽譜データＤ1から音信号Ｖを生成する。信号生成部２０は、調整処理部２１と第１生成部２２と制御データ生成部２３と出力処理部２４と具備する。

調整処理部２１は、楽譜データＤ1の調整により楽譜データＤ2を生成する。具体的には、調整処理部２１は、図２に例示される通り、楽譜データＤ1が音符毎に指定する始点および終点を時間軸上において調整することで楽譜データＤ2を生成する。例えば、楽曲の演奏音は、楽譜により指定される音符の始点の到来前に発音が開始される場合がある。例えば、子音と母音とで構成される歌詞を発音する場合を想定すると、音符の始点前から子音の発音が開始され、当該始点において母音の発音が開始されると自然な歌唱音と認識される。以上の傾向を考慮して、調整処理部２１は、楽譜データＤ1が表す各音符の始点および終点を時間軸上において前方に調整することで楽譜データＤ2を生成する。例えば、調整処理部２１は、楽譜データＤ1が指定する各音符の始点を前方に調整することで、調整前の音符の始点前から子音の発音が開始され、当該始点において母音の発音が開始されるように各音符の期間を調整する。楽譜データＤ2は、楽譜データＤ1と同様に、楽曲の複数の音符の各々について音高と継続長とを指定するデータであり、特定音符についてスタッカートの指示（短縮指示）を含む。

図３の第１生成部２２は、楽譜データＤ2が指定する複数の音符のうち特定音符を短縮させる度合を表す短縮率αを、楽曲内の特定音符毎に生成する。第１生成部２２による短縮率αの生成には第１推定モデルＭ1が利用される。第１推定モデルＭ1は、楽譜データＤ2が特定音符について指定する条件（以下「発音条件」という）を表す条件データＸの入力に対して短縮率αを出力する統計モデルである。すなわち、第１推定モデルＭ1は、楽曲内における特定音符の条件と当該特定音符に関する短縮率αとの関係を学習した機械学習モデルである。短縮率αは、例えば特定音符の継続長に対する短縮幅の比率であり、１未満の正数に設定される。

条件データＸが表す発音条件（コンテキスト）は、例えば特定音符の音高および継続長を含む。なお、継続長は、時間長により指定されてもよいし音価により指定されてもよい。また、発音条件は、例えば、特定音符の前方（例えば直前）に位置する音符と特定音符の後方（例えば直後）に位置する音符との少なくとも一方に関する任意の情報（例えば音高、継続長、開始位置、終了位置、特定音符との音高差等）を含む。ただし、特定音符の前方または後方に位置する音符に関する情報は、条件データＸが表す発音条件から省略されてもよい。

第１推定モデルＭ1は、例えば、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）、または畳込ニューラルネットワーク（CNN：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークで構成される。複数種の深層ニューラルネットワークの組合せを第１推定モデルＭ1として利用してもよい。また、長短期記憶（LSTM：Long Short-Term Memory）ユニット等の付加的な要素が第１推定モデルＭ1に搭載されてもよい。

第１推定モデルＭ1は、条件データＸから短縮率αを生成する演算を制御装置１１に実行させる推定プログラムと、当該演算に適用される複数の変数Ｋ1（具体的には加重値およびバイアス）との組合せで実現される。第１推定モデルＭ1の複数の変数Ｋ1は、機械学習により事前に設定されたうえで記憶装置１２に記憶される。

制御データ生成部２３は、楽譜データＤ2と短縮率αとに応じた制御データＣを生成する。制御データ生成部２３による制御データＣの生成は、時間軸上の単位期間（例えば所定長のフレーム）毎に実行される。単位期間は、楽曲の音符と比較して充分に短い時間長の期間である。

制御データＣは、楽譜データＤ2に対応する目標音の発音条件を表すデータである。具体的には、各単位期間の制御データＣは、例えば、当該単位期間を含む音符の音高Ｎおよび継続長を含む。また、各単位期間の制御データＣは、例えば、当該単位期間を含む該音符の前方（例えば直前）の音符および後方（例えば直後）の音符の少なくとも一方に関する任意の情報（例えば音高、継続長、開始位置、終了位置、特定音符との音高差等）を含む。また、目標音が歌唱音である場合、制御データＣは音韻（歌詞）を含む。なお、前方または後方の音符に関する情報は、制御データＣから省略されてもよい。

図２には、制御データＣの時系列により表現される目標音の音高が模式的に図示されている。制御データ生成部２３は、特定音符の継続長を当該特定音符の短縮率αにより短縮させることが反映された発音条件を表す制御データＣを生成する。制御データＣが表す特定音符は、楽譜データＤ2が指定する特定音符を短縮率αに応じて短縮した音符である。例えば、制御データＣが表す特定音符は、楽譜データＤ2が指定する特定音符の時間長に短縮率αを乗算した時間長に設定される。制御データＣが表す特定音符の始点と楽譜データＤ2が表す特定音符の始点とは共通する。したがって、特定音符の短縮の結果、当該特定音符の終点から直後の音符の始点までの無音の期間（以下「無音期間」という）τが発生する。制御データ生成部２３は、無音期間τ内の各単位期間については、無音を表す制御データＣを生成する。例えば、無音を意味する数値に音高Ｎが設定された制御データＣが、無音期間τ内の各単位期間について生成される。なお、無音期間τ内の各単位期間について、音高Ｎが無音に設定された制御データＣに代えて、休符を表す制御データＣを制御データ生成部２３が生成してもよい。すなわち、制御データＣは、音符が発音される発音期間と発音がない無音期間τとを区別できるデータであればよい。

図３の出力処理部２４は、制御データＣの時系列に応じた音信号Ｖを生成する。すなわち、制御データ生成部２３および出力処理部２４は、短縮率αに応じた特定音符の短縮が反映された音信号Ｖを生成する要素として機能する。出力処理部２４は、第２生成部２４１と波形合成部２４２とを具備する。

第２生成部２４１は、制御データＣを利用して目標音の周波数特性Ｚを生成する。周波数特性Ｚは、目標音に関する周波数領域の特徴量である。具体的には、周波数特性Ｚは、例えばメルスペクトルまたは振幅スペクトル等の周波数スペクトルと、目標音の基本周波数とを含む。周波数特性Ｚは、単位期間毎に生成される。すなわち、第２生成部２４１は、周波数特性Ｚの時系列を生成する。

第２生成部２４１による周波数特性Ｚの生成には、第１推定モデルＭ1とは別個の第２推定モデルＭ2が利用される。第２推定モデルＭ2は、制御データＣの入力に対して周波数特性Ｚを出力する統計モデルである。すなわち、第２推定モデルＭ2は、制御データＣと周波数特性Ｚとの関係を学習した機械学習モデルである。

第２推定モデルＭ2は、例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークで構成される。複数種の深層ニューラルネットワークの組合せを第２推定モデルＭ2として利用してもよい。また、長短期記憶ユニット等の付加的な要素が第２推定モデルＭ2に搭載されてもよい。

第２推定モデルＭ2は、制御データＣから周波数特性Ｚを生成する演算を制御装置１１に実行させる推定プログラムと、当該演算に適用される複数の変数Ｋ2（具体的には加重値およびバイアス）との組合せで実現される。第２推定モデルＭ2の複数の変数Ｋ2は、機械学習により事前に設定されたうえで記憶装置１２に記憶される。

波形合成部２４２は、周波数特性Ｚの時系列から目標音の音信号Ｖを生成する。波形合成部２４２は、例えば離散逆フーリエ変換を含む演算により周波数特性Ｚを時間領域の波形に変換し、相前後する単位期間について当該波形を連結することで音信号Ｖを生成する。なお、例えば周波数特性Ｚと音信号Ｖとの関係を学習した深層ニューラルネットワーク（いわゆるニューラルボコーダ）を利用して、波形合成部２４２が周波数特性Ｚから音信号Ｖを生成してもよい。波形合成部２４２が生成した音信号Ｖが放音装置１３に供給されることで、目標音が放音装置１３から放音される。

図４は、制御装置１１が音信号Ｖを生成する処理（以下「信号生成処理」という）の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として信号生成処理が開始される。

信号生成処理が開始されると、調整処理部２１は、記憶装置１２に記憶された楽譜データＤ1から楽譜データＤ2を生成する（Ｓ11）。第１生成部２２は、楽譜データＤ2が表す複数の音符からスタッカートが指示された各特定音符を検出し、当該特定音符に関する条件データＸを第１推定モデルＭ1に入力することで短縮率αを生成する（Ｓ12）。

制御データ生成部２３は、楽譜データＤ2と短縮率αとに応じて各単位期間の制御データＣを生成する（Ｓ13）。前述の通り、短縮率αに応じた特定音符の短縮が制御データＣに反映され、かつ、当該短縮により発生する無音期間τ内の各単位期間については無音を表す制御データＣが生成される。

第２生成部２４１は、制御データＣを第２推定モデルＭ2に入力することで単位期間の周波数特性Ｚを生成する（Ｓ14）。波形合成部２４２は、目標音の音信号Ｖのうち単位期間内の部分を当該単位期間の周波数特性Ｚから生成する（Ｓ15）。制御データＣの生成（Ｓ13）と周波数特性Ｚの生成（Ｓ14）と音信号Ｖの生成（Ｓ15）とは、楽曲の全体について単位期間毎に実行される。

以上に説明した通り、第１実施形態においては、楽譜データＤ2が表す複数の音符のうち特定音符の条件データＸを第１推定モデルＭ1に入力することで短縮率αが生成され、特定音符の継続長を当該短縮率αにより短縮させることが反映された制御データＣが生成される。すなわち、特定音符を短縮させる度合が楽曲内の特定音符の発音条件に応じて変化する。したがって、特定音符のスタッカートを含む楽譜データＤ2から音楽的に自然な目標音の音信号Ｖを生成できる。

［２］学習処理部３０
図３に例示される通り、制御装置１１は、記憶装置１２に記憶された機械学習プログラムＰ2を実行することで学習処理部３０として機能する。学習処理部３０は、信号生成処理に利用される第１推定モデルＭ1と第２推定モデルＭ2とを機械学習により訓練する。学習処理部３０は、調整処理部３１と信号解析部３２と第１訓練部３３と制御データ生成部３４と第２訓練部３５とを具備する。

記憶装置１２は、機械学習に利用される複数の基礎データＢを記憶する。複数の基礎データＢの各々は、楽譜データＤ1と参照信号Ｒとの組合せで構成される。楽譜データＤ1は、前述の通り、楽曲の複数の音符の各々について音高と継続長とを指定するデータであり、特定音符についてスタッカートの指示（短縮指示）を含む。相異なる楽曲の楽譜データＤ1を含む複数の基礎データＢが記憶装置１２に記憶される。

図３の調整処理部３１は、前述の調整処理部２１と同様に、各基礎データＢの楽譜データＤ1から楽譜データＤ2を生成する。楽譜データＤ2は、楽譜データＤ1と同様に、楽曲の複数の音符の各々について音高と継続長とを指定するデータであり、特定音符についてスタッカートの指示（短縮指示）を含む。ただし、楽譜データＤ2が指定する特定音符の継続長は短縮されていない。すなわち、楽譜データＤ2にスタッカートは反映されていない。

図５は、学習処理部３０が使用するデータの説明図である。各基礎データＢの参照信号Ｒは、当該基礎データＢ内の楽譜データＤ1に対応する楽曲の演奏音を表す時間領域の信号である。例えば、楽曲の演奏により楽器から発音される楽音、または楽曲の歌唱により発音される歌唱音を収録することで参照信号Ｒが生成される。

図３の信号解析部３２は、参照信号Ｒにおいて各音符に対応する演奏音の発音期間Ｑを特定する。図５に例示される通り、例えば、参照信号Ｒにおいて音高または音韻が変化する時点または音量が閾値を下回る時点が、発音期間Ｑの始点または終点として特定される。また、信号解析部３２は、時間軸上の単位期間毎に参照信号Ｒの周波数特性Ｚを生成する。周波数特性Ｚは、前述の通り、例えばメルスペクトルまたは振幅スペクトル等の周波数スペクトルと、参照信号Ｒの基本周波数とを含む周波数領域の特徴量である。

参照信号Ｒにおいて楽曲内の各音符に対応する音の発音期間Ｑは、楽譜データＤ2が表す各音符の発音期間ｑに基本的には一致する。ただし、楽譜データＤ2が表す各発音期間ｑにはスタッカートが反映されていないから、参照信号Ｒにおいて特定音符に対応する発音期間Ｑは、楽譜データＤ2が表す特定音符の発音期間ｑよりも短い。以上の説明から理解される通り、特定音符の発音期間Ｑと発音期間ｑとを比較することで、楽曲内の特定音符の継続長が実際の演奏において短縮される度合を把握することが可能である。

図３の第１訓練部３３は、複数の訓練データＴ1を利用した学習処理Ｓcにより第１推定モデルＭ1を訓練する。学習処理Ｓcは、複数の訓練データＴ1を利用した教師あり機械学習である。複数の訓練データＴ1の各々は、条件データＸと短縮率α（正解値）との組合せで構成される。

図６は、学習処理Ｓcの具体的な手順を例示するフローチャートである。学習処理Ｓcが開始されると、第１訓練部３３は、複数の訓練データＴ1を取得する（Ｓc1）。図７は、第１訓練部３３が訓練データＴ1を取得する処理Ｓc1の具体的な手順を例示するフローチャートである。

第１訓練部３３は、相異なる楽譜データＤ1から調整処理部３１が生成する複数の楽譜データＤ2の何れか（以下「選択楽譜データＤ2」という）を選択する（Ｓc11）。第１訓練部３３は、選択楽譜データＤ2が表す複数の音符から特定音符（以下「選択特定音符」という）を選択する（Ｓc12）。第１訓練部３３は、選択特定音符の発音条件を表す条件データＸを生成する（Ｓc13）。条件データＸが表す発音条件（コンテキスト）は、前述の通り、選択特定音符の音高および継続長と、選択特定音符の前方（例えば直前）に位置する音符の音高および継続長と、選択特定音符の後方（例えば直後）に位置する音符の音高および継続長とを含む。選択特定音符と直前または直後の音符との音高差を発音条件に含めてもよい。

第１訓練部３３は、選択特定音符の短縮率αを算定する（Ｓc14）。具体的には、第１訓練部３３は、選択楽譜データＤ2が表す選択特定音符の発音期間ｑと信号解析部３２が参照信号Ｒから特定する当該選択特定音符の発音期間Ｑとを比較することで短縮率αを生成する。例えば、発音期間ｑの時間長に対する発音期間Ｑの時間長の比率が短縮率αとして算定される。第１訓練部３３は、選択特定音符の条件データＸと当該選択特定音符の短縮率αとの組合せで構成される訓練データＴ1を記憶装置１２に格納する（Ｓc15）。各訓練データＴ1の短縮率αは、当該訓練データＴ1の条件データＸから第１推定モデルＭ1が生成すべき短縮率αの正解値に相当する。

第１訓練部３３は、選択楽譜データＤ2の全部の特定音符について訓練データＴ1を生成したか否かを判定する（Ｓc16）。未選択の特定音符が残存する場合（Ｓc16：NO）、第１訓練部３３は、選択楽譜データＤ2が表す複数の特定音符から未選択の特定音符を選択し（Ｓc12）、当該選択特定音符について訓練データＴ1を生成する（Ｓc13－Ｓc15）。

選択楽譜データＤ2の全部の特定音符について訓練データＴ1を生成すると（Ｓc16：YES）、第１訓練部３３は、複数の楽譜データＤ2の全部について以上の処理を実行したか否かを判定する（Ｓc17）。未選択の楽譜データＤ2が残存する場合（Ｓc17：NO）、第１訓練部３３は、複数の楽譜データＤ2から未選択の楽譜データＤ2を選択し（Ｓc11）、当該選択楽譜データＤ2について各特定音符の訓練データＴ1の生成を実行する（Ｓc12－Ｓc16）。全部の楽譜データＤ2について訓練データＴ1の生成を実行した段階では（Ｓc17：YES）、複数の訓練データＴ1が記憶装置１２に記憶される。

以上の手順で複数の訓練データＴ1を生成すると、第１訓練部３３は、図６に例示される通り、複数の訓練データＴ1を利用した機械学習により第１推定モデルＭ1を訓練する（Ｓc21－Ｓc25）。まず、第１訓練部３３は、複数の訓練データＴ1の何れか（以下「選択訓練データＴ1」という）を選択する（Ｓc21）。

第１訓練部３３は、選択訓練データＴ1の条件データＸを暫定的な第１推定モデルＭ1に入力することで短縮率αを生成する（Ｓc22）。第１訓練部３３は、第１推定モデルＭ1が生成した短縮率αと選択訓練データＴ1の短縮率α（すなわち正解値）との誤差を表す損失関数を算定する（Ｓc23）。第１訓練部３３は、損失関数が低減（理想的には最小化）されるように、第１推定モデルＭ1を規定する複数の変数Ｋ1を更新する（Ｓc24）。

第１訓練部３３は、所定の終了条件が成立したか否かを判定する（Ｓc25）。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓc25：NO）、第１訓練部３３は、未選択の訓練データＴ1を選択し（Ｓc21）、当該訓練データＴ1を利用して短縮率αの算定（Ｓc22）と損失関数の算定（Ｓc23）と複数の変数Ｋ1の更新（Ｓc24）とを実行する。

第１推定モデルＭ1の複数の変数Ｋ1は、終了条件が成立した段階（Ｓc25：YES）における数値に確定される。以上の例示の通り、訓練データＴ1を利用した複数の変数Ｋ1の更新（Ｓc24）が終了条件の成立まで反復される。したがって、第１推定モデルＭ1は、複数の訓練データＴ1における条件データＸと短縮率αとの間に潜在する関係を学習する。すなわち、第１訓練部３３による訓練後の第１推定モデルＭ1は、未知の条件データＸに対して当該関係のもとで統計的に妥当な短縮率αを出力する。

図３の制御データ生成部３４は、制御データ生成部２３と同様に、楽譜データＤ2と短縮率αとに応じた制御データＣを単位期間毎に生成する。制御データＣの生成には、学習処理ＳcのステップＳc22にて第１訓練部３３が算定した短縮率α、または、学習処理Ｓcによる処理後の第１推定モデルＭ1を利用して生成された短縮率αが利用される。制御データ生成部３４が各単位期間について生成する制御データＣと、当該単位期間について信号解析部３２が参照信号Ｒから生成した周波数特性Ｚとの組合せで構成される複数の訓練データＴ2が第２訓練部３５に供給される。

第２訓練部３５は、複数の訓練データＴ2を利用した学習処理Ｓeにより第２推定モデルＭ2を訓練する。学習処理Ｓeは、複数の訓練データＴ2を利用した教師あり機械学習である。具体的には、第２訓練部３５は、各訓練データＴ2の制御データＣに応じて暫定的な第２推定モデルＭ2が出力する周波数特性Ｚと、当該訓練データＴ2に含まれる周波数特性Ｚとの誤差を表す誤差関数を算定する。第２訓練部３５は、誤差関数が低減（理想的には最小化）されるように、第２推定モデルＭ2を規定する複数の変数Ｋ2を反復的に更新する。したがって、第２推定モデルＭ2は、複数の訓練データＴ2における制御データＣと周波数特性Ｚとの間に潜在する関係を学習する。すなわち、第２訓練部３５による訓練後の第２推定モデルＭ2は、未知の制御データＣに対して当該関係のもとで統計的に妥当な周波数特性Ｚを出力する。

図８は、制御装置１１が第１推定モデルＭ1および第２推定モデルＭ2を訓練する処理（以下「機械学習処理」と言う）の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として機械学習処理が開始される。

機械学習処理が開始されると、信号解析部３２は、複数の基礎データＢの各々の参照信号Ｒから複数の発音期間Ｑと単位期間毎の周波数特性Ｚとを特定する（Ｓa）。調整処理部３１は、複数の基礎データＢの各々の楽譜データＤ1から楽譜データＤ2を生成する（Ｓb）。なお、参照信号Ｒの解析（Ｓa）と楽譜データＤ2の生成（Ｓb）との順序は逆転されてもよい。

第１訓練部３３は、前述の学習処理Ｓcにより第１推定モデルＭ1を訓練する。制御データ生成部３４は、楽譜データＤ2と短縮率αとに応じた制御データＣを単位期間毎に生成する（Ｓd）。第２訓練部３５は、制御データＣと周波数特性Ｚとを含む複数の訓練データＴ2を利用した学習処理Ｓeにより第２推定モデルＭ2を訓練する。

以上の説明から理解される通り、楽譜データＤ2が表す複数の音符のうち特定音符の条件を表す条件データＸと、特定音符の継続長を短縮させる度合を表す短縮率αとの関係を学習するように第１推定モデルＭ1が訓練される。すなわち、特定音符の継続長の短縮率αが当該特定音符の発音条件に応じて変化する。したがって、音符の継続長を短縮させるスタッカートを含む楽譜データＤ2から音楽的に自然な目標音の音信号Ｖを生成できる。

Ｂ：第２実施形態
第２実施形態について以下に説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態においては、制御データ生成部２３が楽譜データＤ2から制御データＣを生成する処理（Ｓd）に短縮率αが適用される。第２実施形態においては、調整処理部２１が楽譜データＤ1から楽譜データＤ2を生成する処理に短縮率αが適用される。学習処理部３０の構成および機械学習処理の内容は第１実施形態と同様である。

図９は、第２実施形態における音信号生成システム１００の機能的な構成を例示するブロック図である。第１生成部２２は、楽譜データＤ1が指定する複数の音符のうち特定音符を短縮させる度合を表す短縮率αを、楽曲内の特定音符毎に生成する。具体的には、第１生成部２２は、楽譜データＤ1が各特定音符について指定する発音条件を表す条件データＸを第１推定モデルＭ1に入力することで、当該特定音符の短縮率αを生成する。

調整処理部２１は、楽譜データＤ1の調整により楽譜データＤ2を生成する。調整処理部２１による楽譜データＤ2の生成に短縮率αが適用される。具体的には、調整処理部２１は、楽譜データＤ1が音符毎に指定する始点および終点を第１実施形態と同様に調整するほか、楽譜データＤ1が表す特定音符の継続長を短縮率αにより短縮することで、楽譜データＤ2を生成する。すなわち、短縮率αによる特定音符の短縮が反映された楽譜データＤ2が生成される。

制御データ生成部２３は、楽譜データＤ2に応じた制御データＣを単位期間毎に生成する。制御データＣは、第１実施形態と同様に、楽譜データＤ2に対応する目標音の発音条件を表すデータである。第１実施形態においては制御データＣの生成に短縮率αを適用したが、第２実施形態においては楽譜データＤ2に短縮率αが反映されるから、制御データＣの生成に短縮率αは適用されない。

図１０は、第２実施形態における信号生成処理の具体的な手順を例示するフローチャートである。信号生成処理が開始されると、第１生成部２２は、楽譜データＤ1が指定する複数の音符からスタッカートが指示された各特定音符を検出し、当該特定音符に関する条件データＸを第１推定モデルＭ1に入力することで短縮率αを生成する（Ｓ21）。

調整処理部２１は、楽譜データＤ1と短縮率αとに応じた楽譜データＤ2を生成する（Ｓ22）。楽譜データＤ2には、短縮率αによる特定音符の短縮が反映される。制御データ生成部２３は、楽譜データＤ2に応じて各単位期間の制御データＣを生成する（Ｓ23）。以上の説明から理解される通り、第２実施形態における制御データＣの生成は、楽譜データＤ1における特定音符の継続長が短縮率αにより短縮された楽譜データＤ2を生成する処理（Ｓ22）と、楽譜データＤ2に対応する制御データＣを生成する処理（Ｓ23）とを含む。第２実施形態の楽譜データＤ2は「中間データ」の一例である。

以降の処理は第１実施形態と同様である。すなわち、第２生成部２４１は、制御データＣを第２推定モデルＭ2に入力することで各単位期間の周波数特性Ｚを生成する（Ｓ24）。波形合成部２４２は、目標音の音信号Ｖのうち単位期間内の部分を当該単位期間の周波数特性Ｚから生成する（Ｓ25）。第２実施形態においても第１実施形態と同様の効果が実現される。

なお、学習処理Ｓcにおいて正解値として利用される短縮率αは、参照信号Ｒにおける各音符の発音期間Ｑと、調整処理部３１による調整後の楽譜データＤ2が各音符に指定する発音期間ｑとの関係に応じて設定される。他方、第２実施形態における第１生成部２２は、調整前の初期的な楽譜データＤ1から短縮率αを算定する。したがって、調整御の楽譜データＤ2に応じた条件データＸを第１推定モデルＭ1に入力する第１実施形態と比較すると、学習処理Ｓcにおいて第１推定モデルＭ1が学習した条件データＸと短縮率αとの関係には完全には整合しない短縮率αが生成される可能性がある。したがって、複数の訓練データＴ1の傾向に正確に整合する短縮率αを生成するという観点からは、調整後の楽譜データＤ2に応じた条件データＸを第１推定モデルＭ1に入力することで短縮率αを生成する第１実施形態の構成が好適である。ただし、第２実施形態においても、複数の訓練データＴ1の傾向に概略的には整合した短縮率αが生成されるから、短縮率αの誤差は特段の問題とならない可能性がある。

Ｃ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、短縮前の特定音符の継続長に対する短縮幅の比率を短縮率αとして例示したが、短縮率αの算定の方法は以上の例示に限定されない。例えば、短縮前の特定音符の継続長と短縮後の特定音符の継続長との比率を短縮率αとして利用してもよいし、短縮後の特定音符の継続長を表す数値を短縮率αとして利用してもよい。また、短縮率αは、実時間スケールの数値でもよいし、各音符の音価を基準とした時間（tick）のスケールの数値でもよい。

（２）前述の各形態においては、参照信号Ｒにおける各音符の発音期間Ｑを信号解析部３２が解析したが、発音期間Ｑを特定する方法は以上の例示に限定されない。例えば、参照信号Ｒの波形を参照可能な利用者が手動で発音期間Ｑの端点を指定してもよい。

（３）条件データＸが指定する特定音符の発音条件は、前述の各形態において例示した事項に限定されない。例えば、特定音符または周囲の音符の強弱（強弱記号またはベロシティ）、楽曲内で特定音符を含む区間のコード、テンポもしくは調号、特定音符に関するスラー等の演奏記号等、特定音符に関する各種の条件を表すデータが条件データＸとして例示される。また、楽曲内の特定音符が短縮される度合は、演奏に使用される楽器の種類、楽曲の演奏者、または楽曲の音楽ジャンルにも依存する。したがって、条件データＸが表す発音条件が、楽器の種類、演奏者、または音楽ジャンルを含んでもよい。

（４）前述の各形態においては、スタッカートによる音符の短縮を例示したが、音符の継続長を短縮するための短縮指示はスタッカートに限定されない。例えば、アクセント等が指示された音符についても継続長が短縮する傾向がある。したがって、スタッカートのほかにアクセント等の指示も「短縮指示」に包含される。

（５）前述の各形態においては、第２推定モデルＭ2を利用して周波数特性Ｚを生成する第２生成部２４１を出力処理部２４が含む構成を例示したが、出力処理部２４の具体的な構成は以上の例示に限定されない。例えば、制御データＣと音信号Ｖとの関係を学習した第２推定モデルＭ2を利用して、出力処理部２４が制御データＣに応じた音信号Ｖを生成してもよい。第２推定モデルＭ2は、音信号Ｖを構成する各サンプルを出力する。また、音信号Ｖのサンプルに関する確率分布の情報（例えば平均および分散）を第２推定モデルＭ2が出力してもよい。第２生成部２４１は、確率分布に従う乱数を音信号Ｖのサンプルとして生成する。

（６）携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音信号生成システム１００が実現されてもよい。例えば、音信号生成システム１００は、端末装置から受信した楽譜データＤ1に対する信号生成処理により音信号Ｖを生成し、当該音信号Ｖを端末装置に送信する。端末装置内の調整処理部２１が生成した楽譜データＤ2が当該端末装置から送信される構成においては、音信号生成システム１００から調整処理部２１が省略される。また、出力処理部２４が端末装置に搭載された構成においては、音信号生成システム１００から出力処理部２４が省略される。すなわち、制御データ生成部２３が生成した制御データＣが音信号生成システム１００から端末装置に送信される。

（７）前述の各形態においては、信号生成部２０と学習処理部３０とを具備する音信号生成システム１００を例示したが、信号生成部２０および学習処理部３０の一方が省略されてもよい。学習処理部３０を具備するコンピュータシステムは、推定モデル訓練システム（機械学習システム）とも換言される。推定モデル訓練システムにおける信号生成部２０の有無は不問である。

（８）以上に例示した音信号生成システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラム（Ｐ1，Ｐ2）との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置１２が、前述の非一過性の記録媒体に相当する。

なお、第１推定モデルＭ1または第２推定モデルＭ2を実現するプログラムの実行主体はＣＰＵ等の汎用の処理回路に限定されない。例えば、Tensor Processing UnitまたはNeural Engine等の人工知能に特化した処理回路がプログラムを実行してもよい。

Ｄ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る音信号生成方法は、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成する音信号生成方法であって、前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成し、前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成し、前記制御データに応じた音信号を生成する。

以上の態様によれば、楽譜データが表す複数の音符のうち特定音符の条件を表す条件データを第１推定モデルに入力することで、特定音符の継続長を短縮させる度合を表す短縮率が生成され、特定音符の継続長を当該短縮率により短縮させることが反映された発音条件を表す制御データが生成される。すなわち、特定音符の継続長を短縮させる度合が楽譜データに応じて変化する。したがって、音符の継続長を短縮させる短縮指示を含む楽譜データから音楽的に自然な音の音信号を生成できる。

「短縮指示」の典型例はスタッカートである。ただし、アクセント等が指示された音符についても継続長が短縮する傾向があることを考慮すると、アクセント等の指示も「短縮指示」に包含される。

「短縮率」の典型例は、短縮前の継続長に対する短縮幅の比率、または、短縮前の継続長に対する短縮語の継続長の比率であるが、短縮後の継続長の数値等、継続長の短縮の度合を表す任意の数値が「短縮率」に包含される。

「条件データ」が表す特定音符の「条件」は、当該特定音符の継続長を短縮させる度合を変動させる条件（すなわち変動要因）である。例えば、特定音符の音高または継続長が条件データにより指定される。また、例えば、特定音符の前方（例えば直前）に位置する音符および特定音符の後方（例えば直後）に位置する音符の少なくとも一方に関する各種の条件（例えば音高、継続長、開始位置、終了位置、特定音符との音高差等）が、条件データにより指定されてもよい。すなわち、条件データが表す条件には、特定音符自体の条件のほか、特定音符の周囲に位置する他の音符に関する条件も包含されてよい。また、楽譜データが表す楽曲の音楽ジャンル、または当該楽曲の演奏者（歌唱者を含む）等も、条件データが表す条件に包含される。

態様１の具体例（態様２）において、前記第１推定モデルは、前記特定音符に関する条件を表す条件データと当該特定音符の短縮率との関係を学習した機械学習モデルである。以上の態様によれば、訓練（機械学習）に利用された複数の訓練データに潜在する傾向のもとで条件データに対して統計的に妥当な短縮率を生成できる。

第１推定モデルとして利用される機械学習モデルの種類は任意である。例えば、ニューラルネットワークまたはＳＶＲ（Support Vector Regression）モデル等の任意の形式の統計モデルが機械学習モデルとして利用される。なお、高精度の推定を実現する観点からは、ニューラルネットワークが機械学習モデルとして特に好適である。

態様２の具体例（態様３）において、前記条件データが表す条件は、前記特定音符の音高および継続長と、前記特定音符の前方に位置する音符および後方に位置する音符の少なくとも一方に関する情報とを含む。

態様１から態様３の何れかの具体例（態様４）において、前記音信号の生成においては、前記第１推定モデルとは別個の第２推定モデルに前記制御データを入力することで、前記音信号を生成する。以上の態様によれば、第１推定モデルとは別個に用意された音信号の生成用の第２推定モデルを利用することで、聴感的に自然な音信号を生成できる。

「第２推定モデル」は、制御データと音信号との関係を学習した機械学習モデルである。第２推定モデルとして利用される機械学習モデルの種類は任意である。例えば、ニューラルネットワークまたはＳＶＲ（Support Vector Regression）モデル等の任意の形式の統計モデルが、機械学習モデルとして利用される。

態様１から態様４の何れかの具体例（態様５）において、前記制御データの生成は、前記楽譜データにおける前記特定音符の継続長が前記短縮率により短縮された中間データを生成する処理と、前記中間データに対応する前記制御データを生成する処理とを含む。

本開示のひとつの態様に係るプログラムは、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成するためのプログラムであって、前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成する処理と、前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成する処理と、前記制御データに応じた音信号を生成する処理と、をコンピュータに実行させる。

本開示のひとつの態様に係る推定モデルは、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データが、前記特定音符について指定する条件を表す条件データの入力により、前記特定音符の継続長を短縮させる度合を表す短縮率を出力する。

１００…音信号生成システム、１１…制御装置、１２…記憶装置、１３…放音装置、２０…信号生成部、２１…調整処理部、２２…第１生成部、２３…制御データ生成部、２４…出力処理部、２４１…第２生成部、２４２…波形合成部、３０…学習処理部、３１…調整処理部、３２…信号解析部、３３…第１訓練部、３４…制御データ生成部、３５…第２訓練部。

Claims

複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成する音信号生成方法であって、
前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成し、
前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成し、
前記制御データに応じた音信号を生成する
コンピュータにより実現される音信号生成方法。
前記第１推定モデルは、前記特定音符に関する条件を表す条件データと当該特定音符の短縮率との関係を学習した機械学習モデルである
請求項１の音信号生成方法。
前記条件データが表す条件は、前記特定音符の音高および継続長と、前記特定音符の前方に位置する音符および後方に位置する音符の少なくとも一方に関する情報とを含む
請求項２の音信号生成方法。
前記音信号の生成においては、前記第１推定モデルとは別個の第２推定モデルに前記制御データを入力することで、前記音信号を生成する
請求項１から請求項３の何れかの音信号生成方法。
前記制御データの生成は、
前記楽譜データにおける前記特定音符の継続長が前記短縮率により短縮された中間データを生成する処理と、
前記中間データに対応する前記制御データを生成する処理とを含む
請求項１から請求項４の何れかの音信号生成方法。
複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データが、前記特定音符について指定する条件を表す条件データと、
前記特定音符の継続長を短縮させる度合を表す短縮率と、
を含む複数の訓練データを取得し、
前記複数の訓練データを利用した機械学習により、前記条件データと前記短縮率との関係を学習するように推定モデルを訓練する
コンピュータにより実現される推定モデル訓練方法。
１以上のプロセッサとプログラムが記録されたメモリとを具備し、複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成する音信号生成システムであって、
前記１以上のプロセッサは、前記プログラムを実行することで、
前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成し、
前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成し、
前記制御データに応じた音信号を生成する
音信号生成システム。
複数の音符の各々の継続長と、前記複数の音符のうちの特定音符の継続長を短縮させる短縮指示とを表す楽譜データに応じた音信号を生成するためのプログラムであって、
前記楽譜データが前記特定音符について指定する条件を表す条件データを、第１推定モデルに入力することで、前記特定音符の継続長を短縮させる度合を表す短縮率を生成する処理と、
前記楽譜データに対応する発音条件を表す制御データであって、前記特定音符の継続長を前記短縮率により短縮させることが反映された制御データを生成する処理と、
前記制御データに応じた音信号を生成する処理と
をコンピュータに実行させるプログラム。