JP2024062724A

JP2024062724A - 楽音合成方法、楽音合成システムおよびプログラム

Info

Publication number: JP2024062724A
Application number: JP2022170758A
Authority: JP
Inventors: 慶二郎才野; Keijiro Saino; ティジョセフカーネル; T Colonel Joseph
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2024-05-10
Also published as: WO2024089995A1

Abstract

【課題】利用者からの指示に応じた多様な部分音色を有する楽音を生成する。【解決手段】楽音合成システム１００は、目標楽音の条件を表す制御データの時系列Ｘを取得する制御データ取得部２１と、音色の時間的な変化の特徴を表す制御ベクトルＶを利用者からの指示に応じて生成する制御ベクトル生成部２４と、制御ベクトルＶから第１パラメータセットＰnを生成する制御ベクトル処理部２５と、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の第１生成モデル３０により、制御データの時系列Ｘを処理することで、目標楽音の音響特徴量を表す音響データの時系列Ｚを生成する楽音合成部２２と、を具備し、１以上の中間層のうちの第１中間層は、第１中間層に入力されるデータに対して第１パラメータセットＰnを適用した処理を実行し、適用後のデータを次層に出力する。【選択図】図２

Description

本開示は、音を合成する技術に関する。

例えばニューラルネットワーク等の生成モデルを利用して所望の楽音を生成する技術が従来から提案されている。例えば特許文献１には、音声に関する多次元の楽譜特徴量の時系列を畳込ニューラルネットワークにより処理することで、音声波形の音響特徴量の時系列を生成する構成が開示されている。

特許第６５５２１４６号公報

生成モデルを利用する近年の音声合成においては、楽譜特徴量の時系列から画一的な楽音を合成するだけでなく、特定の楽音の一部の区間における音色の時間的な変化（以下「部分音色」という）を、利用者からの指示に応じて楽音に付与することが要求される。以上の事情を考慮して、本開示のひとつの態様は、利用者からの指示に応じた多様な部分音色を有する楽音を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る楽音合成方法は、目標楽音の条件を表す制御データの時系列を取得し、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する、コンピュータシステムにより実現される楽音合成方法であって、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成し、前記制御ベクトルから第１パラメータセットを生成し、前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。

本開示のひとつの態様に係る楽音合成システムは、目標楽音の条件を表す制御データの時系列を取得する制御データ取得部と、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部と、前記制御ベクトルから第１パラメータセットを生成する制御ベクトル処理部と、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部と、を具備し、前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。

本開示のひとつの態様に係るプログラムは、目標楽音の条件を表す制御データの時系列を取得する制御データ取得部、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部、前記制御ベクトルから第１パラメータセットを生成する制御ベクトル処理部、および、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部、としてコンピュータシステムを機能させるプログラムであって、前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。

第１実施形態における楽音合成システムの構成を例示するブロック図である。楽音合成システムの機能的な構成を例示するブロック図である。第１生成モデルの具体的な構成を例示するブロック図である。変換処理の説明図である。設定画面の模式図である。第２生成モデルの具体的な構成を例示するブロック図である。楽音合成処理のフローチャートである。機械学習の説明図である。訓練処理のフローチャートである。第２実施形態における制御ベクトル生成部のブロック図である。第２実施形態における設定画面の模式図である。第２実施形態における楽音合成処理のフローチャートである。各中間層Ｌが実行する変換処理の説明図である。第４実施形態における第１生成モデルのブロック図である。第４実施形態における単位処理部のブロック図である。変形例における処理期間の説明図である。

Ａ：第１実施形態
図１は、第１実施形態に係る楽音合成システム１００の構成を例示するブロック図である。楽音合成システム１００は、所望の楽音（以下「目標楽音」という）を合成するコンピュータシステムである。目標楽音は、楽音合成システム１００により合成されるべき音楽的な音である。第１実施形態においては、特定の楽曲（以下「目標楽曲」という）の歌唱により発音されるべき歌唱音を目標楽音として例示する。

楽音合成システム１００は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と放音装置１５とを具備する。楽音合成システム１００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。なお、楽音合成システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、楽音合成システム１００の各要素を制御する単数または複数のプロセッサである。具体的には、制御装置１１は、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として利用される。なお、例えば、楽音合成システム１００に対して着脱される可搬型の記録媒体、または、制御装置１１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。第１実施形態の記憶装置１２は、楽曲データＭと参照信号Ｓrとを記憶する。

楽曲データＭは、目標楽曲の楽譜を表す。より詳細には、楽曲データＭは、目標楽曲の複数の音符の各々について音高と発音期間と発音文字とを指定する。音高は、離散的に設定された複数の音階音の何れかである。発音期間は、例えば音符の始点と継続長とにより指定される。発音文字は、楽曲の歌詞を表す符号である。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した音楽ファイルが、楽曲データＭとして利用される。楽曲データＭは、例えば配信装置から通信網を介して楽音合成システム１００に提供される。

参照信号Ｓrは、特定の楽音（以下「参照楽音」という）の波形を表す音響信号である。参照楽音は、例えば参照用の楽曲の歌唱により発音されるべき歌唱音である。参照信号Ｓrは、配信装置から通信網を介して楽音合成システム１００に提供される。なお、参照信号Ｓrは、例えば光ディスク等の記録媒体を駆動する再生装置から提供されてもよいし、収音装置を利用した参照楽音の収音により生成されてもよい。また、参照信号Ｓrは、歌唱合成または楽音合成等の公知の合成技術により合成された音響信号でもよい。なお、参照信号Ｓrに対応する参照用の楽曲と目標楽曲とは、共通の楽曲でも別個の楽曲でもよい。また、目標楽音の歌唱者と参照楽音の歌唱者とは同じでも異なってもよい。

第１実施形態の目標楽音は、目標楽曲の歌唱音であり、かつ、参照楽音のうち特定の期間（以下「特定区間」という）内における音響特性の時間的な変化の特徴（以下「部分音色」という）が付与された楽音である。具体的には、利用者の所望の部分音色が付与された楽音が目標楽音として生成される。例えば、音量または音高等の音響特性の反復的な変動（ビブラート）、または音響特性の経時的な変化等、特定区間に存在する所望の特徴が、部分音色として想定される。以上の説明から理解される通り、参照楽音は、目標楽曲に付与されるべき部分音色の素材となる楽音である。制御装置１１は、楽曲データＭと参照信号Ｓrとを利用して、目標楽音を表す音響信号Ｗを生成する。音響信号Ｗは、目標楽音の波形を表す時間領域の信号である。

表示装置１３は、制御装置１１による制御のもとで画像を表示する。表示装置１３は、例えば、液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の表示パネルである。操作装置１４は、利用者からの指示を受付ける入力機器である。操作装置１４は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、楽音合成システム１００とは別体の表示装置１３または操作装置１４が、楽音合成システム１００に有線または無線により接続されてもよい。

放音装置１５は、制御装置１１による制御のもとで音響を再生する。具体的には、放音装置１５は、音響信号Ｗが表す目標楽音を再生する。例えばスピーカまたはヘッドホンが放音装置１５として利用される。なお、音響信号Ｗをデジタルからアナログに変換するＤ/Ａ変換器、および、音響信号Ｗを増幅する増幅器については、図示が便宜的に省略されている。楽音合成システム１００とは別体の放音装置１５が、楽音合成システム１００に有線または無線により接続されてもよい。

図２は、楽音合成システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、目標楽音の音響信号Ｗを生成するための複数の機能（制御データ取得部２１、楽音合成部２２、波形合成部２３、制御ベクトル生成部２４、制御ベクトル処理部２５および訓練処理部２６）を実現する。

なお、以下の各図面においては、ひとつのデータのデータサイズ（次元数）bと、当該データの複数個で構成される時系列の時間長aとが、記号［a,b］により表記されている。時間長aは、時間軸上の所定長の期間（以下「単位期間」という）を単位とする個数で表現される。例えば図２における［800,134］は、134次元で構成されるデータを、単位期間の800個分だけ配列した時系列を意味する。単位期間は、例えば５ミリ秒程度の時間長の期間（フレーム）である。したがって、単位期間の800個は４秒分に相当する。なお、以上の数値は一例であり、任意に変更されてよい。各単位期間は、時刻により特定される。

制御データ取得部２１は、目標楽音の条件を表す制御データＤxを取得する。具体的には、制御データ取得部２１は、各単位期間の制御データＤxを取得する。第１実施形態の制御データ取得部２１は、楽曲データＭから各単位期間の制御データＤxを生成する。すなわち、制御データＤxの「生成」は、制御データＤxの「取得」の一例である。

制御データＤxは、目標楽曲の楽譜の特徴量（以下「楽譜特徴量」という）を表す。制御データＤxが表す楽譜特徴量は、例えば、単位期間におけるピッチ（基本周波数）と、単位期間における有声／無声を表す情報と、単位期間における音素情報とを含む。

ピッチは、楽曲データＭが指定する各音符に対応するピッチの時系列（ピッチ軌跡）のうち１個の単位期間における数値である。目標楽曲の各音符の音高は離散的であるのに対し、制御データＤxに利用されるピッチ軌跡は、時間軸上におけるピッチの連続的な変化である。制御データ取得部２１は、例えば各音符の音高とピッチ軌跡との関係を学習した推定モデルにより楽曲データＭを処理することで、制御データＤxにおけるピッチ軌跡を推定する。ただし、ピッチ軌跡の生成の方法は以上の例示に限定されない。また、制御データＤxは、各音符の離散的な音高を含んでもよい。

音素情報は、目標楽曲の発音文字に対応する音素に関する情報である。具体的には、音素情報は、例えば、複数の音素のうち何れかの音素を例えばone-hot表現により指定する情報と、音素期間に対する単位期間の位置と、音素期間の先頭または末尾からの時間長と、音素の継続長とを含む。

処理期間Ｂ内における制御データＤxの時系列は、制御データ列Ｘを構成する。処理期間Ｂは、時間軸上で連続する複数（具体的には800個）の単位期間により構成される所定長の期間である。以上の説明から理解される通り、第１実施形態の制御データ取得部２１は、目標楽音の条件を表す制御データＤxの時系列（すなわち制御データ列Ｘ）を、時間軸上の処理期間Ｂ毎に生成する。

楽音合成部２２は、制御データ列Ｘを処理することで音響データ列Ｚを生成する。具体的には、楽音合成部２２は、処理期間Ｂ毎に音響データ列Ｚを生成する。音響データ列Ｚは、処理期間Ｂにおける目標楽音の音響的な特徴を表す時系列データである。音響データ列Ｚは、処理期間Ｂ内の連続する単位期間に対応する複数（具体的には800個）の音響データＤzにより構成される。すなわち、音響データ列Ｚは、処理期間Ｂ内における音響データＤzの時系列である。楽音合成部２２は、１個の処理期間Ｂに対応する制御データ列Ｘから当該処理期間Ｂの音響データ列Ｚを生成する。

音響データＤzは、目標楽音の音響特徴量を表す。音響特徴量は、例えば、目標楽音の振幅スペクトル包絡である。具体的には、音響データＤzは、目標楽音の調波成分の振幅スペクトル包絡と、目標楽音の非調波成分の振幅スペクトル包絡とを含む。振幅スペクトル包絡は、振幅スペクトルの概形である。調波成分および非調波成分の振幅スペクトル包絡は、例えばメルケプストラムまたはＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等で表現される。以上の説明から理解される通り、第１実施形態の楽音合成部２２は、目標楽音の音響特徴量を表す音響データＤzの時系列（すなわち音響データ列Ｚ）を処理期間Ｂ毎に生成する。なお、音響データＤzは、目標楽音の振幅スペクトル包絡とピッチ軌跡とを含んでもよい。また、音響データＤzは、目標楽音のスペクトル（振幅スペクトルまたはパワースペクトル）を含んでもよい。目標楽音のスペクトルは、例えばメルスペクトルとして表現されてもよい。また、振幅スペクトル包絡は、パワースペクトルの概形（パワースペクトル包絡）でもよい。

波形合成部２３は、音響データ列Ｚから目標楽音の音響信号Ｗを生成する。具体的には、波形合成部２３は、例えば離散逆フーリエ変換を含む演算により各単位期間の音響データＤzから波形信号を生成し、時間軸上で連続する単位期間について波形信号を相互に連結することで音響信号Ｗを生成する。なお、音響データ列Ｚと波形信号との関係を学習した深層ニューラルネットワーク（いわゆるニューラルボコーダ）が、波形合成部２３として利用されてもよい。波形合成部２３が生成した音響信号Ｗが放音装置１５に供給されることで、目標楽音が放音装置１５から再生される。なお、波形合成部２３による音響信号Ｗの生成には、制御データ取得部２１が生成したピッチが適用されてもよい。

図２に例示される通り、楽音合成部２２は、第１生成モデル３０により制御データ列Ｘを処理することで音響データ列Ｚを生成する。第１生成モデル３０は、目標楽音の楽譜上の条件（制御データ列Ｘ）と目標楽音の音響特徴量（音響データ列Ｚ）との関係を機械学習により学習した訓練済の統計モデルである。すなわち、第１生成モデル３０は、制御データ列Ｘの入力に応じて音響データ列Ｚを出力する。第１生成モデル３０は、例えば深層ニューラルネットワークにより構成される。

第１生成モデル３０は、制御データ列Ｘから音響データ列Ｚを生成する演算（アーキテクチャ）を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（加重値およびバイアス）との組合せで実現される。第１生成モデル３０を実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。第１生成モデル３０の複数の変数は、機械学習により事前に設定される。第１実施形態の第１生成モデル３０は、第１符号化器３１と復号化器３２とを含む。

第１符号化器３１は、制御データ列Ｘと中間データＹとの関係を機械学習により学習した訓練済の統計モデルである。すなわち、第１符号化器３１は、制御データ列Ｘの入力に応じて中間データＹを出力する。楽音合成部２２は、制御データ列Ｘを第１符号化器３１により処理することで中間データＹを生成する。中間データＹは、制御データ列Ｘの特徴を表す。具体的には、中間データＹが表す制御データ列Ｘの特徴に応じて、生成される音響データ列Ｚが変化する。すなわち、第１符号化器３１は、制御データ列Ｘを中間データＹに符号化する。

復号化器３２は、中間データＹと音響データ列Ｚとの関係を機械学習により学習した訓練済の統計モデルである。すなわち、復号化器３２は、中間データＹの入力に応じて音響データ列Ｚを出力する。楽音合成部２２は、中間データＹを復号化器３２により処理することで音響データ列Ｚを生成する。すなわち、復号化器３２は、中間データＹを音響データ列Ｚに復号化する。以上の説明の通り、第１実施形態においては、第１符号化器３１による符号化と復号化器３２による復号化とにより音響データ列Ｚを生成できる。

図３は、第１生成モデル３０の具体的な構成（アーキテクチャ）を例示するブロック図である。第１符号化器３１は、前処理部３１１とＮ1個の畳込層３１２とＮ1個の符号中間層Ｌeとを含む。具体的には、前処理部３１１の後段に、Ｎ1個の畳込層３１２とＮ1個の符号中間層Ｌeとが交互に配置される。すなわち、畳込層３１２と符号中間層Ｌeとで構成されるＮ1組が、前処理部３１１の後段に積層される。

前処理部３１１は、制御データ列Ｘを加工するための多層パーセプトロンで構成される。前処理部３１１は、制御データ列Ｘの相異なる制御データＤxに対応する複数の演算部で構成される。各演算部は、複数段の全結合層の積層により構成される。各制御データＤxが各全結合層により順次に処理される。例えば、制御データ列Ｘの各制御データＤxに対して、同様の構成で同様の変数を適用したニューラルネットワークの処理が実行される。各演算部による処理後の制御データＤxの配列（処理後の制御データ列Ｘ）が、初段の畳込層３１２に入力される。前処理部３１１により制御データＤxを処理することで、目標楽曲（楽曲データＭ）の特徴をより明瞭に表現する制御データ列Ｘが生成される。ただし、前処理部３１１は省略されてもよい。

Ｎ1個の畳込層３１２のうち第１段目の畳込層３１２には前処理部３１１による処理後のデータが入力される。Ｎ1個の畳込層３１２のうち第２段目以降の各畳込層３１２には、前段の符号中間層Ｌeによる処理後のデータが入力される。各畳込層３１２は、当該畳込層３１２に入力されるデータに対して演算処理を実行する。畳込層３１２による演算処理は、畳込演算を含む。また、畳込層３１２による演算処理は、プーリング演算を含んでもよい。

畳込演算は、畳込層３１２に入力されたデータに対してフィルタを畳込む処理である。複数の畳込層３１２は、時間圧縮を行う畳込層３１２と時間圧縮を行わない畳込層３１２とを含む。複数の畳込層３１２のうち、時間圧縮を行う畳込層３１２の畳込演算では、時間方向におけるフィルタの移動量（ストライド）が２以上に設定される。これにより、時間圧縮を行わない各畳込層３１２では、ストライドが１の畳込演算によりデータの時間長が維持され、時間圧縮を行う各畳込層３１２では、ストライドが２以上の畳込演算によりデータの時間長が短縮される。すなわち、第１符号化器３１においては、時間軸上におけるデータの圧縮が実行される。換言すると、第１符号化器３１による処理は、制御データ列Ｘのダウンサンプリングを含む。畳込演算のストライドを２以上にする代わりに、畳込演算のストライドを１にしたまま、続けてプーリング演算を行うことによりデータの圧縮（ダウンサンプリング）を行ってもよい。プーリング演算は、畳込演算後のデータに設定される各範囲内における代表値を選択する演算である。代表値は、例えば最大値、平均値、２乗平均等の統計値である。

つまり、制御データ列Ｘの圧縮は、畳込演算およびプーリング演算の一方または双方により実現される。なお、制御データ列Ｘの時間圧縮（ダウンサンプリング）は、Ｎ1個の畳込層３１２の一連の畳込演算のうちの一部についてのみにおいて実行されてもよい。各畳込層３１２による圧縮率は任意である。

Ｎ1個の符号中間層Ｌeの各々は、前段の畳込層３１２から当該符号中間層Ｌeに入力されるデータに対して変換処理を実行する。各符号中間層Ｌeによる変換処理の具体的な内容については後述する。Ｎ1個の符号中間層Ｌeのうち最終段の符号中間層Ｌeによる処理後のデータが、中間データＹとして復号化器３２に入力される。なお、符号中間層Ｌeは、Ｎ1個の畳込層３１２の全部の後段に設置される必要はない。すなわち、符号中間層Ｌeの個数Ｎ1xはＮ1以下の任意の自然数である。ある畳込層３１２の後段に符号中間層Ｌeがある場合は、その次の畳込層３１２には、当該符号中間層Ｌeによる変換処理後のデータが入力され、ある畳込層３１２の後段に符号中間層Ｌeがない場合は、その次の畳込層３１２には、当該畳込層３１２による畳込処理後のデータ（つまり、変換処理されていないデータ）が入力される。

復号化器３２は、Ｎ2個の畳込層３２１とＮ2個の復号中間層Ｌdと後処理部３２２とを含む。具体的には、Ｎ2個の畳込層３２１とＮ2個の復号中間層Ｌdとが交互に配置され、最終段の復号中間層Ｌdの後段に後処理部３２２が積層される。すなわち、畳込層３２１と復号中間層Ｌdとで構成されるＮ2組が、後処理部３２２の前段に積層される。

Ｎ2個の畳込層３２１のうち第１段目の畳込層３２１には中間データＹが入力される。Ｎ2個の畳込層３２１のうち第２段目以降の各畳込層３２１には、前段の復号中間層Ｌdによる処理後のデータが入力される。各畳込層３２１は、当該畳込層３２１に入力されるデータに対して演算処理を実行する。畳込層３２１による演算処理は、転置畳込演算（または逆畳込演算）を含む。

畳込層３２１による転置畳込演算（transposed convolution）は、符号化器の各畳込層３１２による畳込演算の逆の畳込演算である。複数の畳込層３２１のうち、時間伸張を行う畳込層３２１の畳込演算では、時間方向におけるフィルタの移動量（ストライド）が２以上に設定される。これにより、時間伸張を行わない各畳込層３２１では、ストライドが１の転置畳込演算によりデータの時間長が維持され、時間伸張を行う各畳込層３２１では、ストライドが２以上の転置畳込演算によりデータの時間長が伸張される。すなわち、復号化器３２においては、時間軸上におけるデータの伸長が実行される。換言すると、復号化器３２による処理は、中間データＹのアップサンプリングを含む。

以上の説明の通り、第１実施形態においては、第１符号化器３１による制御データ列Ｘの圧縮と復号化器３２による中間データＹの伸長とが実行される。したがって、制御データ列Ｘの特徴が適切に反映された中間データＹが生成され、中間データＹの特徴が適切に反映された音響データ列Ｚが生成される。

Ｎ2個の復号中間層Ｌdの各々は、前段の畳込層３２１から当該復号中間層Ｌdに入力されるデータに対して変換処理を実行する。各復号中間層Ｌdによる変換処理の具体的な内容については後述する。Ｎ2個の復号中間層Ｌdのうち最終段の復号中間層Ｌdによる処理後のデータが、音響データ列Ｚとして後処理部３２２に入力される。なお、復号中間層Ｌdは、Ｎ2個の畳込層３２１の全部の後段に設置される必要はない。すなわち、復号中間層Ｌdの個数Ｎ2xはＮ2以下の自然数である。ある畳込層３２１の後段に復号中間層Ｌdがある場合は、その次の畳込層３２１には、当該復号中間層Ｌdによる変換処理後のデータが入力され、ある畳込層３２１の後段に復号中間層Ｌdがない場合は、その次の畳込層３２１には、当該畳込層３２１による畳込処理後のデータ（つまり、変換処理されていないデータ）が入力される。

後処理部３２２は、音響データ列Ｚを加工するための多層パーセプトロンで構成される。後処理部３２２は、音響データ列Ｚの相異なる音響データＤzに対応する複数の演算部で構成される。各演算部は、複数段の全結合層の積層により構成される。各音響データＤzが各全結合層により順次に処理される。例えば、音響データ列Ｚの各音響データＤzに対して、同様の構成で同様の変数を適用したニューラルネットワークの処理が実行される。各演算部による処理後の音響データＤzの配列が、最終的な音響データ列Ｚとして波形合成部２３に入力される。後処理部３２２により音響データＤzを処理することで、目標楽音の特徴をより明瞭に表現する音響データ列Ｚが生成される。ただし、後処理部３２２は省略されてもよい。

以上の説明の通り、第１符号化器３１はＮ1x個の符号中間層Ｌeを含み、復号化器３２はＮ2x個の復号中間層Ｌdを含む。符号中間層Ｌeおよび復号中間層Ｌdを「中間層Ｌ」と総称すると、第１生成モデル３０は、Ｎx個（Ｎx＝Ｎ1x＋Ｎ2x）の中間層Ｌを含む統計モデルと表現される。すなわち、第１符号化器３１は、Ｎx個の中間層ＬのうちＮ1x個の符号中間層Ｌeを含み、復号化器３２は、Ｎx個の中間層ＬのうちＮ2x個の復号中間層Ｌdを含む。中間層Lの個数Ｎxは、１以上の自然数である。符号中間層Ｌeの個数Ｎ1xと復号中間層Ｌdの個数Ｎ2xとは、相等しい数値でも相異なる数値でもよい。

第１生成モデル３０のうち、前処理部３１１とＮ1個の畳込層３１２とＮ2個の畳込層３２１と後処理部３２２とは、音響データ列Ｚの生成に必要な基本層である。以下では、Ｎ1個の畳込層３１２とＮ2個の畳込層３２１との組を、Ｎ個（Ｎ＝Ｎ1＋Ｎ2）の基本畳込層と呼ぶ場合がある。他方、Ｎx個の中間層（Ｎ1x個の符号中間層ＬeおよびＮ2x個の復号中間層Ｌd）は、目標楽音における部分音色の制御のための層である。すなわち、第１生成モデル３０は、Ｎ個の基本畳込層とＮx個（Ｎ≧Ｎx≧１）の中間層Ｌとを含む。

Ｎ個の中間層Ｌの各々は、当該中間層Ｌに入力されるデータに対して変換処理を実行する。Ｎ個の中間層Ｌのうち第ｎ段目の中間層Ｌによる変換処理には、パラメータセットＰn（ｎ＝１～Ｎ）が適用される。すなわち、複数の中間層Ｌの各々による変換処理には、相異なるパラメータセットＰnが適用される。Ｎ個のパラメータセットＰ1～ＰNの各々は、例えば、第１パラメータｐ1と第２パラメータｐ2とを含む。

図４は、変換処理の説明図である。図４の単位データ列Ｕは、中間層Ｌに入力されるデータである。単位データ列Ｕは、相異なる単位期間に対応する複数の単位データＤuの時系列で構成される。各単位データＤuはＨ次元（Ｈは２以上の自然数）のベクトルで表現される。第１パラメータｐ1は、Ｈ行Ｈ列の正方行列で表現される。第２パラメータｐ2は、Ｈ次元のベクトルで表現される。なお、第１パラメータｐ1は、Ｈ行Ｈ列の対角行列またはＨ次元のベクトルで表現されてもよい。

変換処理は、第１演算と第２演算とを含む。単位データ列Ｕを構成する複数の単位データＤuの各々について第１演算と第２演算とが順次に実行される。第１演算は、第１パラメータｐ1を単位データＤuに乗算する処理である。第２演算は、第１演算の結果（ｐ1・Ｄu）に対して第２パラメータｐ2を加算する処理である。以上の説明から理解される通り、中間層Ｌによる変換処理は、第１パラメータｐ1の乗算と前記第２パラメータｐ2の加算とを含む処理（すなわちアフィン変換）である。なお、第２パラメータｐ2を適用する第２演算は省略されてよい。その場合、第２パラメータｐ2の生成も省略される。つまり、変換処理は、少なくとも第１演算が含まれていればよい。

以上の説明から理解される通り、図３のＮ個の中間層Ｌの各々は、当該中間層Ｌに入力される単位データ列Ｕの各単位データＤuに対してパラメータセットＰnを適用した変換処理を実行し、変換処理後の単位データ列Ｕを出力する。第１実施形態においては、各中間層Ｌに入力される単位データ列Ｕの各単位データＤuに対して、第１パラメータｐ1の乗算と第２パラメータｐ2の加算とを含む変換処理が実行される。したがって、制御ベクトルＶが表す部分音色が適切に付与された目標楽音の音響データ列Ｚを生成できる。ここでは、中間層ＬをＮ個として説明しているが、中間層Ｌの数がＮ個より少ないＮx個である場合も、基本的な動作は同様である。

いま、第１生成モデル３０のＮ個の中間層Ｌのうち、第ｎ1段目および第ｎ2段目の２個の中間層Ｌに便宜的に着目する（ｎ1＝１～Ｎ，ｎ2＝１～Ｎ，ｎ1≠ｎ2）。各中間層Ｌは、符号中間層Ｌeおよび復号中間層Ｌdの何れでもよい。Ｎ個の中間層Ｌのうち第ｎ1段目の中間層Ｌは、当該中間層Ｌに入力される単位データ列Ｕの各単位データＤuに対してパラメータセットＰn1を適用した変換処理を実行し、適用後の単位データ列Ｕを次層に出力する。第ｎ2段目の中間層Ｌは、当該中間層Ｌに入力される単位データ列Ｕの各単位データＤuに対してパラメータセットＰn2を適用した変換処理を実行し、適用後の単位データ列Ｕを次層に出力する。なお、第ｎ1段目の中間層Ｌは「第１中間層」の一例であり、パラメータセットＰn1は「第１パラメータセット」の一例である。また、第ｎ2段目の中間層Ｌは「第２中間層」の一例であり、パラメータセットＰn2は「第２パラメータセット」の一例である。

以上の説明の通り、第１実施形態においては、Ｎ個の中間層Ｌの各々に相異なるパラメータセットＰnが適用されるから、多様な部分音色を有する目標楽音の音響データ列Ｚを生成できる。図２に例示された制御ベクトル生成部２４および制御ベクトル処理部２５は、参照信号Ｓrを処理することでＮ個のパラメータセットＰ1～ＰNを生成する。

制御ベクトル生成部２４は、特定区間の参照信号Ｓrを処理することで制御ベクトルＶを生成する。制御ベクトルＶは、参照楽音の部分音色を表すＫ次元のベクトルである。すなわち、制御ベクトルＶは、特定区間の参照信号Ｓrにおける音響特性の時間的な変化の特徴（すなわち部分音色）を表すベクトルである。第１実施形態の制御ベクトル生成部２４は、区間設定部２４１と特徴抽出部２４２と第２符号化器２４３とを具備する。

区間設定部２４１は、参照楽音における特定区間を設定する。具体的には、区間設定部２４１は、操作装置１４に対する利用者からの第１指示Ｑ1に応じて特定区間を設定する。特定区間の時間長は、１個の処理期間Ｂと同等の固定長である。

図５は、設定画面Ｇaの模式図である。設定画面Ｇaは、利用者が特定区間を指示するための画面である。区間設定部２４１は、設定画面Ｇaを表示装置１３に表示する。設定画面Ｇaは、波形画像Ｇa1と区間画像Ｇa2とを含む。波形画像Ｇa1は、参照信号Ｓrの波形を表す画像である。区間画像Ｇa2は、特定区間を表す画像である。

利用者は、参照楽音の波形画像Ｇa1を確認しながら操作装置１４を操作することで（第１指示Ｑ1）、区間画像Ｇa2を時間軸に沿って所望の位置に移動できる。例えば、参照楽音のうち音響特性が所望の条件で変化する区間を内包するように、利用者は区間画像Ｇa2を移動する。

区間設定部２４１は、参照信号Ｓrのうち利用者による移動後の区間画像Ｇa2に対応する区間を、特定区間として確定する。以上の説明から理解される通り、第１指示Ｑ1は、特定区間の時間軸上の位置を変更する指示である。すなわち、区間設定部２４１は、第１指示Ｑ1に応じて時間軸上における特定区間の位置を変更する。

図２の特徴抽出部２４２は、特定区間の参照信号Ｓrを処理することで１個の参照データ列Ｒを生成する。参照データ列Ｒは、参照楽音の特定区間における音響的な特徴を表す時系列データである。図６に例示される通り、参照データ列Ｒは、特定区間内の相異なる単位期間に対応する複数（例えば800個）の参照データＤrにより構成される。すなわち、参照データ列Ｒは、音響データＤzの時系列である。

参照データＤrは、参照楽音の音響特徴量を表す。音響特徴量は、例えば、参照楽音の振幅スペクトル包絡である。具体的には、参照データＤrは、参照楽音の調波成分の振幅スペクトル包絡と、参照楽音の非調波成分の振幅スペクトル包絡とを含む。調波成分および非調波成分の振幅スペクトル包絡は、例えばメルケプストラムまたはＭＦＣＣ等で表現される。参照データＤrのデータサイズは、音響データＤzのデータサイズと同等である。したがって、１個の参照データ列Ｒのデータサイズは、１個の音響データ列Ｚのデータサイズと同等である。なお、参照データＤrは、音響データＤzとは別形式のデータでもよい。例えば、参照データＤrが表す音響特徴量と音響データＤzが表す音響特徴量とは別種の特徴量でもよい。

以上の説明から理解される通り、第１実施形態の特徴抽出部２４２は、参照楽音の音響特徴量を表す参照データＤrの時系列（参照データ列Ｒ）を生成する。例えば、特徴抽出部２４２は、離散フーリエ変換を含む演算を特定区間の参照信号Ｓrに対して実行することで、参照データ列Ｒを生成する。

第２符号化器２４３は、参照データ列Ｒと制御ベクトルＶとの関係を機械学習により学習した訓練済の統計モデルである。すなわち、第２符号化器２４３は、参照データ列Ｒの入力に応じて制御ベクトルＶを出力する。制御ベクトル生成部２４は、参照データ列Ｒを第２符号化器２４３により処理することで制御ベクトルＶを生成する。すなわち、第２符号化器２４３は、参照データ列Ｒを制御ベクトルＶに符号化する。

制御ベクトルＶは、前述の通り、特定区間の参照信号Ｓrにおける音響特性の時間的な変化の特徴（すなわち部分音色）を表すベクトルである。部分音色は参照信号Ｓrの位置に応じて変化するから、制御ベクトルＶは、時間軸上における特定区間の位置に依存する。すなわち、制御ベクトルＶは、特定区間を指定する利用者からの第１指示Ｑ1に依存する。以上の説明から理解される通り、第１実施形態の制御ベクトル生成部２４は、利用者からの第１指示Ｑ1に応じて制御ベクトルＶを生成する。

制御ベクトル処理部２５は、制御ベクトルＶからＮ個のパラメータセットＰ1～ＰNを生成する。制御ベクトルＶは部分音色を表すから、各パラメータセットＰnは部分音色に依存する。また、制御ベクトルＶは第１指示Ｑ1に依存するから、各パラメータセットＰnも利用者からの第１指示Ｑ1に依存する。

図６は、第２符号化器２４３および制御ベクトル処理部２５の具体的な構成を例示するブロック図である。第２符号化器２４３は、複数の畳込層４１１と出力処理部４１２とを含む。複数の畳込層４１１うち最終段の畳込層４１１の後段に出力処理部４１２が積層される。

複数の畳込層４１１のうち第１段目の畳込層４１１には参照データ列Ｒが入力される。複数の畳込層４１１のうち第２段目以降の各畳込層４１１には、前段の畳込層４１１による処理後のデータが入力される。各畳込層４１１は、当該畳込層４１１に入力されるデータに対して演算処理を実行する。畳込層４１１による演算処理は、畳込層３１２による演算処理と同様に、畳込演算とオプションとしてのプーリング演算とを含む。最終段の畳込層４１１は、参照データ列Ｒの特徴を表す特徴データＤvを出力する。

出力処理部４１２は、特徴データＤvに応じて制御ベクトルＶを生成する。第１実施形態の出力処理部４１２は、後処理部４１３とサンプリング部４１４とを含む。

後処理部４１３は、特徴データＤvに応じてＫ個の確率分布Ｆ1～ＦKを決定する。Ｋ個の確率分布Ｆ1～ＦKの各々は、例えば正規分布である。後処理部４１３は、各確率分布Ｆk（ｋ＝1～Ｋ）について平均および分散を出力する。具体的には、後処理部４１３は、特徴データＤvと各確率分布Ｆkとの関係を機械学習により学習した訓練済の統計モデルである。制御ベクトル生成部２４は、特徴データＤvを後処理部４１３により処理することでＫ個の確率分布Ｆ1～ＦKを決定する。

サンプリング部４１４は、Ｋ個の確率分布Ｆ1～ＦKに応じて制御ベクトルＶを生成する。具体的には、サンプリング部４１４は、Ｋ個の確率分布Ｆ1～ＦKの各々から要素Ｅkをサンプリングする。要素Ｅkのサンプリングは、例えばランダムサンプリングである。すなわち、各要素Ｅkは、確率分布Ｆkからサンプリングされる潜在変数である。相異なる確率分布ＦkからサンプリングされたＫ個の要素Ｅ1～ＥKにより、制御ベクトルＶが構成される。すなわち、制御ベクトルＶは、Ｋ個の要素Ｅ1～ＥKを含む。以上の説明から理解される通り、制御ベクトルＶは、特定区間の参照信号Ｓrにおける音響特性の時間的な変化の特徴（すなわち部分音色）を表すＫ次元のベクトルである。

なお、出力処理部４１２が特徴データＤvから制御ベクトルＶを生成するための構成および処理は、以上の例示に限定されない。例えば、出力処理部４１２は、Ｋ個の確率分布Ｆ1～ＦKを生成せずに制御ベクトルＶを生成してもよい。したがって、後処理部４１３およびサンプリング部４１４は省略されてもよい。

図６に例示される通り、制御ベクトル処理部２５は、相異なる中間層Ｌに対応するＮ個の変換モデル２８-1～２８-Nを含む。各変換モデル２８-nは、制御ベクトルＶからパラメータセットＰnを生成する。具体的には、各変換モデル２８-nは、制御ベクトルＶとパラメータセットＰnとの関係を機械学習により学習した訓練済の統計モデルである。各変換モデル２８-nは、パラメータセットＰnを生成するための多層パーセプトロンで構成される。以上の説明から理解される通り、参照楽音の部分音色に応じたＮ個のパラメータセットＰ1～ＰNが、制御ベクトル処理部２５により生成される。Ｎ個のパラメータセットＰ1～ＰNは共通の制御ベクトルＶから生成される。

第２符号化器２４３と制御ベクトル処理部２５とにより、第２生成モデル４０が構成される。第２生成モデル４０は、参照データ列ＲとＮ個のパラメータセットＰ1～ＰNとの関係を機械学習により学習した訓練済の統計モデルである。第２生成モデル４０は、例えば深層ニューラルネットワークにより構成される。

第２生成モデル４０は、参照データ列Ｒから制御ベクトルＶを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（加重値およびバイアス）との組合せで実現される。第２生成モデル４０を実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。第２生成モデル４０の複数の変数は、機械学習により事前に設定される。

図７は、制御装置１１が目標楽音の音響信号Ｗを生成する処理（以下「楽音合成処理Ｓa」という）のフローチャートである。例えば操作装置１４に対する利用者からの指示を契機として楽音合成処理Ｓaが開始される。楽音合成処理Ｓaは、処理期間Ｂ毎に反復される。楽音合成処理Ｓaは「楽音合成方法」の一例である。なお、楽音合成処理Ｓaの開始前に、利用者からの第１指示Ｑ1に応じた特定区間の設定が、区間設定部２４１により実行されている。特定区間を表すデータが記憶装置１２に記憶される。

楽音合成処理Ｓaが開始されると、制御装置１１（制御ベクトル生成部２４）は、部分音色を表す制御ベクトルＶを利用者からの第１指示Ｑ1に応じて生成する（Ｓa1）。制御ベクトルＶを生成する具体的な手順（Ｓa11～Ｓa13）は以下の通りである。

まず、制御装置１１（区間設定部２４１）は、特定区間を表すデータを記憶装置１２から取得する（Ｓa11）。具体的には、区間設定部２４１は、操作装置１４に対する利用者からの第１指示Ｑ1に応じて特定区間を設定する。制御装置１１（特徴抽出部２４２）は、特定区間の参照信号Ｓrを処理することで１個の参照データ列Ｒを生成する（Ｓa12）。そして、制御装置１１は、参照データ列Ｒを第２符号化器２４３により処理することで制御ベクトルＶを生成する（Ｓa13）。

制御装置１１（制御ベクトル処理部２５）は、制御ベクトルＶからＮ個のパラメータセットＰ1～ＰNを生成する（Ｓa2）。具体的には、制御装置１１は、制御ベクトルＶを各変換モデル２８-nにより処理することでパラメータセットＰnを生成する。

制御装置１１（制御データ取得部２１）は、楽曲データＭを処理することで制御データ列Ｘを生成する（Ｓa3）。制御装置１１（楽音合成部２２）は、第１生成モデル３０により制御データ列Ｘを処理することで音響データ列Ｚを生成する（Ｓa4）。具体的には、制御装置１１は、制御データ列Ｘを第１符号化器３１により処理することで中間データＹを生成し、中間データＹを復号化器３２により処理することで音響データ列Ｚを生成する。第１生成モデル３０の各中間層Ｌによる変換処理にはパラメータセットＰnが適用される。

制御装置１１（波形合成部２３）は、音響データ列Ｚから目標楽音の音響信号Ｗを生成する（Ｓa5）。制御装置１１は、音響信号Ｗを放音装置１５に供給する（Ｓa6）。放音装置１５は、音響信号Ｗが表す目標楽音を再生する。

以上に説明した通り、第１実施形態においては、参照楽音の部分音色を表す制御ベクトルＶが利用者からの指示（第１指示Ｑ1）に応じて生成され、制御ベクトルＶからパラメータセットＰnが生成され、各中間層Ｌに入力される単位データ列Ｕの各単位データＤuに対してパラメータセットＰnが適用される。したがって、利用者からの指示に応じた多様な部分音色を有する目標楽音の音響データ列Ｚを生成できる。

第１実施形態においては、参照楽音の特定区間が利用者からの第１指示Ｑ1に応じて設定され、特定区間における部分音色を表す制御ベクトルＶが生成される。したがって、参照楽音のうち利用者の所望の特定区間の部分音色を有する目標楽音を生成できる。第１実施形態においては特に、時間軸上における特定区間の位置が、第１指示Ｑ1に応じて変更される。したがって、参照楽音のうち利用者の所望の位置の部分音色を有する目標楽音を生成できる。

図２の訓練処理部２６は、複数の訓練データＴを利用した機械学習により第１生成モデル３０および第２生成モデル４０を確立する。第１実施形態の訓練処理部２６は、第１生成モデル３０と第２生成モデル４０とを一括的に確立する。確立後の第１生成モデル３０および第２生成モデル４０の各々は個別に訓練されてもよい。図８は、第１生成モデル３０および第２生成モデル４０を確立する機械学習に関する説明図である。

複数の訓練データＴの各々は、訓練用の制御データ列Ｘtと訓練用の参照データ列Ｒtと訓練用の音響データ列Ｚtとの組合せで構成される。制御データ列Ｘtは、目標楽音の条件を表す時系列データである。具体的には、制御データ列Ｘtは、訓練用の楽曲のうち特定の区間（以下「訓練区間」という）における楽譜特徴量の時系列を表す。制御データ列Ｘtの形式は制御データ列Ｘと同様である。

参照データ列Ｒtは、訓練用の楽曲について事前に準備された楽音の音響的な特徴を表す時系列データである。参照データ列Ｒtが表す部分音色は、訓練用の楽曲の楽音のうち訓練区間における音響特性の時間的な変化の特徴である。参照データ列Ｒtの形式は参照データ列Ｒと同様である。

音響データ列Ｚtは、制御データ列Ｘtおよび参照データ列Ｒtから第１生成モデル３０および第２生成モデル４０が生成すべき楽音の音響的な特徴を表す時系列データである。すなわち、音響データ列Ｚtは、制御データ列Ｘtおよび参照データ列Ｒtに対する正解（Ground Truth）に相当する。音響データ列Ｚtの形式は音響データ列Ｚと同様である。

図９は、制御装置１１が第１生成モデル３０および第２生成モデル４０を確立する処理（以下「訓練処理Ｓb」という）のフローチャートである。制御装置１１が訓練処理Ｓbを実行することで、図８の訓練処理部２６が実現される。

訓練処理Ｓbが開始されると、制御装置１１は、第１暫定モデル５１と第２暫定モデル５２とを準備する（Ｓb1）。第１暫定モデル５１は、機械学習により第１生成モデル３０に更新される初期的または暫定的なモデルである。初期的な第１暫定モデル５１は、第１生成モデル３０と同様の構成であるが、複数の変数が例えば乱数に設定される。第２暫定モデル５２は、機械学習により第２生成モデル４０に更新される初期的または暫定的なモデルである。初期的な第２暫定モデル５２は、第２生成モデル４０と同様の構成であるが、複数の変数が例えば乱数に設定される。第１暫定モデル５１および第２暫定モデル５２の各々の構造は、設計者により任意に設計される。

制御装置１１は、複数の訓練データＴの何れか（以下「選択訓練データＴ」という）を選択する（Ｓb2）。図８に例示される通り、制御装置１１は、第２暫定モデル５２により選択訓練データＴの参照データ列Ｒtを処理することでＮ個のパラメータセットＰ1～ＰNを生成する（Ｓb3）。具体的には、第２暫定モデル５２は制御ベクトルＶを生成し、制御ベクトル処理部２５はＮ個のパラメータセットＰ1～ＰNを生成する。また、制御装置１１は、第１暫定モデル５１により選択訓練データＴの制御データ列Ｘtを処理することで音響データ列Ｚを生成する（Ｓb4）。制御データ列Ｘtの処理には、第２暫定モデル５２が生成したＮ個のパラメータセットＰ1～ＰNが適用される。

制御装置１１は、第１暫定モデル５１が生成した音響データ列Ｚと選択訓練データＴの音響データ列Ｚtとの誤差を表す誤差関数を算定する（Ｓb5）。制御装置１１は、損失関数が低減（理想的には最小化）されるように、第１暫定モデル５１の複数の変数と第２暫定モデル５２の複数の変数とを更新する（Ｓb6）。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。

制御装置１１は、所定の終了条件が成立したか否かを判定する（Ｓb7）。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb7：NO）、制御装置１１は、未選択の訓練データＴを新たな選択訓練データＴとして選択する（Ｓb2）。すなわち、終了条件の成立（Ｓb7：YES）まで、第１暫定モデル５１の複数の変数と第２暫定モデル５２の複数の変数とを更新する処理（Ｓb2～Ｓb6）が反復される。なお、全部の訓練データＴについて以上の処理が実行された場合、各訓練データＴを未選択の状態に戻して同様の処理が反復される。すなわち、各訓練データＴは反復的に利用される。

終了条件が成立した場合（Ｓb7：YES）、制御装置１１は、訓練処理Ｓbを終了する。終了条件が成立した時点における第１暫定モデル５１が、訓練済の第１生成モデル３０として確定される。また、終了条件が成立した時点における第２暫定モデル５２が、訓練済の第２生成モデル４０として確定される。

以上の説明から理解される通り、第１生成モデル３０は、参照データ列Ｒに応じたＮ個のパラメータセットＰ1～ＰNのもとで、制御データ列Ｘtと音響データ列Ｚtとの間に潜在する関係を学習する。したがって、訓練済の第１生成モデル３０は、その関係のもとで未知の制御データ列Ｘに対して統計的に妥当な音響データ列Ｚを出力する。また、第２生成モデル４０は、参照データ列ＲtとＮ個のパラメータセットＰ1～ＰNとの間に潜在する関係を学習する。具体的には、制御データ列Ｘtから適切な音響データ列Ｚを生成するために必要なＮ個のパラメータセットＰ1～ＰNと、参照データ列Ｒtとの関係を、第２生成モデル４０は学習する。具体的には、第２符号化器２４３は、参照データ列Ｒtと制御ベクトルＶとの間に潜在する関係を学習し、制御ベクトル処理部２５は、制御ベクトルＶとＮ個のパラメータセットＰ1～ＰNとの間に潜在する関係を学習する。したがって、第１生成モデル３０および第２生成モデル４０の利用により、参照楽音の所望の部分音色が付与された目標楽音の音響データ列Ｚが生成される。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用したのと同様の符号を流用して各々の詳細な説明を適宜に省略する。

図１０は、第２実施形態における制御ベクトル生成部２４のブロック図である。図１０に例示される通り、第２実施形態の制御ベクトル生成部２４は、第１実施形態と同様の要素（区間設定部２４１，特徴抽出部２４２および第２符号化器２４３）に加えて制御ベクトル調整部２４４を含む。第２符号化器２４３は、第１実施形態と同様に制御ベクトルＶを生成する。以下の説明においては、第２符号化器２４３が生成する初期的な制御ベクトルＶを便宜的に「制御ベクトルＶ0」と表記する。

第２実施形態においても第１実施形態と同様に、区間設定部２４１は、利用者からの第１指示Ｑ1に応じて参照楽音の特定区間を設定する。したがって、第２実施形態における制御ベクトルＶ0は、利用者からの第１指示Ｑ1に応じて生成される。

なお、初期的な制御ベクトルＶ0は、第２符号化器２４３が生成するベクトルでなくてもよい。例えば、各要素Ｅkが所定値（例えばゼロ）に設定されたベクトル、または各要素Ｅkが乱数に設定されたベクトルが、初期的な制御ベクトルＶ0として利用されてもよい。また、前回の楽音合成処理Ｓaが実行されたときの最終的な制御ベクトルＶが、今回の初期的な制御ベクトルＶ0として採用されてもよい。以上の説明から理解される通り、制御ベクトルＶ0を生成するための要素（区間設定部２４１，特徴抽出部２４２および第２符号化器２４３）は、第２実施形態において省略されてもよい。

制御ベクトル調整部２４４は、初期的な制御ベクトルＶ0を調整することで制御ベクトルＶを生成する。具体的には、制御ベクトル調整部２４４は、制御ベクトルＶ0のＫ個の要素Ｅ1～ＥKのうち１以上の要素Ｅkを、操作装置１４に対する利用者からの第２指示Ｑ2に応じて変更する。変更後のＫ個の要素Ｅ1～ＥKで構成されるＫ次元のベクトルが、制御ベクトルＶとして制御ベクトル処理部２５に供給される。以上の説明から理解される通り、第２実施形態の制御ベクトル生成部２４は、利用者からの第１指示Ｑ1および第２指示Ｑ2に応じて制御ベクトルＶを生成する。

図１１は、設定画面Ｇbの模式図である。設定画面Ｇbは、利用者が各要素Ｅkの変更を指示するための画面である。制御ベクトル調整部２４４は、設定画面Ｇbを表示装置１３に表示する。設定画面Ｇbは、制御ベクトルＶの相異なる要素Ｅkに対応するＫ個の操作子Ｇb-1～Ｇb-Kを含む。Ｋ個の操作子Ｇb-1～ＧB-Kは、横方向に配列される。各要素Ｅkに対応する操作子Ｇb-kは、利用者による操作を受付ける画像である。具体的には、各操作子Ｇb-kは、例えば、利用者による操作に応じて上下に移動するスライダである。利用者による第２指示Ｑ2は、例えば、Ｋ個の操作子Ｇb-1～Ｇb-Kの各々を移動させる操作である。すなわち、第２指示Ｑ2は、各要素Ｅkの数値を個別に指定する利用者からの指示である。各操作子Ｇb-kの近傍には、要素Ｅkの数値が表示される。

上下方向における各操作子Ｇb-kの位置は、要素Ｅkの数値に対応する。すなわち、操作子Ｇb-kの上方の移動は要素Ｅkの増加を意味し、操作子Ｇb-kの下方の移動は要素Ｅkの減少を意味する。制御ベクトル調整部２４４は、制御ベクトルＶ0の各要素Ｅkの数値に応じて各操作子Ｇb-kの初期的な位置を設定する。そして、制御ベクトル調整部２４４は、各操作子Ｇb-kを移動させる利用者からの操作（すなわち第２指示Ｑ2）に応じて、要素Ｅkの数値を変更する。すなわち、制御ベクトル調整部２４４は、Ｋ個の操作子Ｇb-1～Ｇb-Kのうち１以上の操作子Ｇb-kに対する利用者の操作に応じて、各操作子Ｇb-kに対応する要素Ｅkを設定する。

前述の通り、制御ベクトルＶは部分音色を表す。したがって、制御ベクトル調整部２４４による各要素Ｅkの変更は、利用者からの第２指示Ｑ2に応じて部分音色を変更する処理である。すなわち、目標楽音に付与される音響特性の時間的な変化（すなわち部分音色）が、利用者からの第２指示Ｑ2に応じて変化する。制御ベクトル処理部２５は、制御ベクトル調整部２４４による調整後の制御ベクトルＶからＮ個のパラメータセットＰ1～ＰNを生成する。

図１２は、第２実施形態における楽音合成処理Ｓaのフローチャートである。第２実施形態における制御ベクトルＶの生成（Ｓa1）は、第１実施形態と同様の手順（Ｓa11～Ｓa13）に加えて、制御ベクトルＶ0の調整（Ｓa14）を含む。制御ベクトルＶ0の調整（Ｓa14）において、制御装置１１（制御ベクトル調整部２４４）は、初期的な制御ベクトルＶ0のＫ個の要素Ｅ1～ＥKのうち１以上の要素Ｅkを、利用者からの第２指示Ｑ2に応じて変更することで、制御ベクトルＶを生成する。制御ベクトルＶ0の調整（Ｓa14）以外の動作は第１実施形態と同様である。第２指示Ｑ2は、楽音合成処理Ｓaに並行した任意のタイミングで利用者により付与される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、制御ベクトルＶ0のＫ個の要素Ｅ1～ＥKのうち１以上の要素Ｅkが利用者からの第２指示Ｑ2に応じて変更される。したがって、利用者からの第２指示Ｑ2に応じた部分音色を有する多様な目標楽音を生成できる。第２実施形態においては特に、各操作子Ｇb-kに対する操作により、利用者は部分音色を簡便に調整できる。

Ｃ：第３実施形態
第３実施形態の制御ベクトル生成部２４は、時間軸上の単位期間毎に制御ベクトルＶを生成する。すなわち、制御ベクトル生成部２４は、利用者からの指示（第１指示Ｑ1，第２指示Ｑ2）に応じて制御ベクトルＶの時系列を生成する。なお、以下の説明においては、第１指示Ｑ1および第２指示Ｑ2に応じて制御ベクトルＶを生成する形態を例示するが、第１指示Ｑ1および第２指示Ｑ2の一方に応じて制御ベクトルＶが生成されてもよい。

第３実施形態の制御ベクトル生成部２４は、第２実施形態と同様に、利用者からの第１指示Ｑ1および第２指示Ｑ2に応じて制御ベクトルＶを生成する。前述の通り、第３実施形態においては単位期間毎に制御ベクトルＶが生成されるから、１個の処理期間Ｂ内の単位期間毎に制御ベクトルＶが変化する。したがって、目標楽音に付与される部分音色が処理期間Ｂの途中の時点で変化する。

例えば、利用者は、楽音合成処理Ｓaの実行前に、目標楽曲の任意の時刻（単位期間）について第１指示Ｑ1により特定区間を指定できる。特定区間が指定された単位期間については、前述の各形態と同様に制御ベクトルＶが生成される。また、特定区間が指定されていない単位期間（以下「対象期間」という）については、対象期間の前方および後方の単位期間について生成された２個の制御ベクトルＶの補間により、制御ベクトルＶが生成される。例えば、制御ベクトル生成部２４は、対象期間の直前（例えば１以上の単位期間だけ過去）に指定された特定区間に対応する制御ベクトルＶと、対象期間の直後（例えば１以上の単位期間だけ未来）に指定された特定区間に対応する制御ベクトルＶとの補間により、対象期間の制御ベクトルＶを生成する。制御ベクトルＶの補間の方法は任意であるが、例えば内挿補間が利用される。

また、制御ベクトル生成部２４は、楽音合成処理Ｓaに並行して利用者が付与した第２指示Ｑ2を単位期間毎に検出することで、制御ベクトルＶの時系列を生成する。なお、制御ベクトル生成部２４は、単位期間よりも長い周期で第２指示Ｑ2を検出することで制御ベクトルＶの時系列を生成し、制御ベクトルＶの時系列を時間軸上で平滑する処理（すなわちローパスフィルタ）により、単位期間毎の制御ベクトルＶを生成してもよい。

第３実施形態の制御ベクトル処理部２５は、各単位期間の制御ベクトルＶからＮ個のパラメータセットＰ1～ＰNを生成する。制御ベクトル処理部２５は、時間軸上の単位期間毎にＮ個のパラメータセットＰ1～ＰNを生成する。すなわち、制御ベクトル処理部２５は、各パラメータセットＰnの時系列を生成する。

前述の通り、制御ベクトルＶは第１指示Ｑ1または第２指示Ｑ2に応じて変化する。したがって、第１指示Ｑ1または第２指示Ｑ2の直前の単位期間におけるＮ個のパラメータセットＰ1～ＰNと、直後の単位期間におけるＮ個のパラメータセットＰ1～ＰNとは相違する。すなわち、１個の処理期間Ｂ内においてパラメータセットＰnが変化する。第１指示Ｑ1または第２指示Ｑ2が付与されない状態では、複数の単位期間にわたり同じパラメータセットＰnが生成される。

図３に例示される通り、１個の単位データ列Ｕを構成する単位データＤuの個数は、第１生成モデル３０における処理の段階毎に変化する。１個の中間層Ｌによる変換処理には、当該中間層Ｌに供給される単位データＤuの個数に対応する個数のパラメータセットＰnが使用される。すなわち、変換モデル２８-nは、第ｎ段目の中間層Ｌが処理する単位データＤuと同数のパラメータセットＰnの時系列を生成する。

図１３は、各中間層Ｌが実行する変換処理の説明図である。第１実施形態においては、単位データ列Ｕを構成する複数の単位データＤuの各々に対して、共通のパラメータセットＰnを適用した変換処理が実行される（図４）。第３実施形態においては、単位データ列Ｕを構成する複数の単位データＤuの各々に対して、個別のパラメータセットＰnを適用した変換処理が実行される。

図１３には、単位データ列Ｕのうち、時刻ｔ1に対する単位データＤu(t1)と時刻ｔ2（ｔ2≠ｔ1）に対応する単位データＤu(t2)とが図示されている。単位データＤu(t1)の変換処理にはパラメータセットＰn(t1)が適用され、単位データＤu(t2)の変換処理にはパラメータセットＰn(t2)が適用される。パラメータセットＰn(t1)とパラメータセットＰn(t2)とは個別に生成される。具体的には、パラメータセットＰn(t1)は、時刻ｔ1に対応する制御ベクトルＶ(t1)から生成され、パラメータセットＰn(t2)は、時刻ｔ2に対応する制御ベクトルＶ(t2)から生成される。したがって、第１パラメータｐ1および第２パラメータｐ2の数値は、パラメータセットＰn(t1)とパラメータセットＰn(t2)との間で相違し得る。以上の例示の通り、単位データ列Ｕの途中の時点において、変換処理に適用されるパラメータセットＰnが変化する。

第３実施形態においても第２実施形態と同様の効果が実現される。また、第３実施形態においては、利用者からの指示（第１指示Ｑ1，第２指示Ｑ2）に応じて制御ベクトルＶの時系列が生成され、かつ、制御ベクトルＶの時系列から各パラメータセットＰnの時系列が生成される。したがって、制御データ列Ｘの途中の時点において音色が変化する多様な目標楽音を生成できる。

Ｄ：第４実施形態
図１４は、第４実施形態における第１生成モデル３０（楽音合成部２２）の構成を例示するブロック図である。第４実施形態の第１生成モデル３０は、変換処理部６１と畳込層６２とＮ個の単位処理部６３-1～６３-Nと合成処理部６４とを含む自己回帰（AR：autoregressive）型の生成モデルである。後述するように第１生成モデル３０は任意の個数（Ｎx個）の中間層を備えるが、全ての中間層を省くと、applied sciencesの2017年の論文” A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs”, Merlijn Blaauw and Jordi Bonadaに開示された生成モデル（NPSS）と等価になる。第１生成モデル３０以外の構成は第１実施形態と同様である。制御ベクトル処理部２５（変換モデル２８-n）が生成した各パラメータセットＰnは、単位処理部６３-nに供給される。

変換処理部６１は、前処理部３１１と同様に、制御データ取得部２１が単位期間毎に取得した制御データＤxから潜在データｄを生成する。潜在データｄは、制御データＤxの特徴を表す。例えば変換処理部６１は、制御データＤxを潜在データｄに変換するための多層パーセプトロンで構成される。潜在データｄは、Ｎ個の単位処理部６３-1～６３-Nに対して共通に供給しても、異なるデータを個別に供給してもよい。なお、制御データ取得部２１が取得した制御データＤxが潜在データｄとして各単位処理部６３-nに供給されてもよい。すなわち、変換処理部６１は省略されてよい。

図１５は、各単位処理部６３-nのブロック図である。各単位処理部６３-nは、入力データＩと潜在データｄとパラメータセットＰnとを処理することで出力データＯと処理データＣnとを生成する生成モデルである。入力データＩは、第１データＩaと第２データＩbとを含む。単位処理部６３-nは、拡張畳込層６５と中間層Ｌと処理層６７とを具備する。

拡張畳込層６５は、入力データＩ（第１データＩaおよび第２データＩb）に対して拡張畳込（dilated convolution）を実行することで単位データＤu1を生成する。

中間層Ｌは、単位データＤu1に対する変換処理により単位データＤu2を生成する。変換処理の内容は第１実施形態と同様である。変換処理にはパラメータセットＰnが適用される。なお、中間層Ｌは、Ｎ個の単位処理部６３-1～６３-Nの全部に設置される必要はない。すなわち、Ｎ個の単位処理部６３-1～６３-NのうちＮx個（１個以上）の単位処理部６３-nに中間層Ｌが設置される。ここでは、Ｎ個の単位処理部の全部に、中間層Ｌが設置されたものとして説明する。

処理層６７は、単位データＤu2と潜在データｄとから出力データＯと処理データＣnとを生成する。具体的には、処理層６７は、畳込層６７１と加算部６７２と活性化層６７３と活性化層６７４と乗算部６７５と畳込層６７６と畳込層６７７と加算部６７８とを含む。

畳込層６７１は、潜在データｄに対して１×１の畳込演算を実行する。加算部６７２は、単位データＤu2と畳込層６７１の出力データとを加算することで単位データＤu3を生成する。単位データＤu3は、第１部分と第２部分とに区分される。活性化層６７３は、単位データＤu3の第１部分を活性化関数（例えばtanh関数）により処理する。活性化層６７４は、単位データＤu3の第２部分を活性化関数（例えばシグモイド関数）により処理する。乗算部６７５は、活性化層６７３の出力データと活性化層６７４の出力データとの間で要素積を演算することで単位データＤu4を生成する。単位データＤu4は、拡張畳込層６５の出力に、ゲートされた活性化関数（６７３―６７５）を適用して得られたデータである。ここでは、単位データＤu1～Ｄu3がそれぞれ第１部分と第２部分を含むが、一般的な活性化関数（シグモイド、tanh、ReLUなどの、ゲートされていない関数）を用いる場合は、単位データＤu1～Ｄu3は第１部分だけでよい。

畳込層６７６は、単位データＤu4に対して１×１の畳込演算を実行することで処理データＣnを生成する。畳込層６７７は、単位データＤu4に対して１×１の畳込演算を実行する。加算部６７８は、第１データＩaと畳込層６７７の出力データとを加算することで出力データＯを生成する。出力データＯは、記憶装置１２に記憶される。

図１４の合成処理部６４は、相異なる単位処理部６３-nが生成したＮ個の処理データＣ1～ＣNを処理することで音響データＤzを生成する。例えば、合成処理部６４は、Ｎ個の処理データＣ1～ＣNの加重和したデータに基づき音響データＤzを生成する。合成処理部６４による音響データＤzの生成は単位期間毎に反復される。すなわち、合成処理部６４は、音響データＤzの時系列を生成する。合成処理部６４が生成した音響データＤzは、第１実施形態と同様に波形合成部２３に供給されるほか、記憶装置１２に記憶されて畳込層６２に使用される。

畳込層６２は、直前の複数の単位期間において生成された音響データＤzに対する畳込演算（causal convolution）により、単位期間毎に単位データＤu0を生成する。単位データＤu0は、第１段目の単位処理部６３-1に入力データＩとして供給される。各単位期間に単位処理部６３-1に供給される第１データＩaは、現在の単位期間に生成された単位データＤu0である。また、各単位期間に単位処理部６３-1に供給される第２データＩbは、直前（１個前）の単位期間に生成された単位データＤu0である。以上に説明した通り、相異なる単位期間に対応する第１データＩaと第２データＩbとが、単位処理部６３-1に供給される。

時間軸上の各単位期間において、第２段目以降の各単位処理部６３-nには、前段の単位処理部６３-n-1が相異なる単位期間について生成した複数の出力データＯが、第１データＩaおよび第２データＩbとして供給される。例えば、単位処理部６３-2には、単位処理部６３-1が現在の単位期間に生成した出力データＯが第１データＩaとして供給され、かつ、単位処理部６３-1が２個前（dilation＝２）の単位期間に生成した出力データＯが第２データＩbとして供給される。単位処理部６３-3には、単位処理部６３-2が現在の単位期間に生成した出力データＯが第１データＩaとして供給され、かつ、単位処理部６３-2が４個前（dilation＝４）の単位期間に生成した出力データＯが第２データＩbとして供給される。

以上に説明した通り、第４実施形態の第１生成モデル３０は、相異なる単位処理部６３-nに対応するＮ個の中間層Ｌを含む。また、畳込層６２と各単位処理部６３-nの拡張畳込層６５および処理層６７とは、音響データＤzの時系列の生成に必要な基本層である。すなわち、第４実施形態の第１生成モデル３０は、第１実施形態と同様に、複数の基本層と１以上の中間層Ｌとを含む。したがって、第４実施形態においても第１実施形態と同様の効果が実現される。

Ｅ：第５実施形態
第１実施形態から第４実施形態においては、目標楽音が歌唱音である場合を例示した。第５実施形態の楽音合成システム１００は、目標楽曲の演奏により発音されるべき楽器音を目標楽音として合成する。

第１実施形態から第４実施形態における制御データＤxは、目標楽音のピッチ（基本周波数）と有声／無声を表す情報と音素情報とを含む。第５実施形態における制御データＤxは、有声／無声の情報および音素情報に代えて、目標楽音の強度（音量）と演奏スタイルとを含む、楽器音用の楽譜特徴量である。演奏スタイルは、例えば楽器の演奏法を表す情報である。目標楽音が楽器音である場合、参照楽音としても楽器音が利用される。すなわち、部分音色は、楽器音の音響特性の時間的な変化の特徴である。

第５実施形態の第１生成モデル３０および第２生成モデル４０は、図８の機械学習において、楽器音用の訓練データＴ（制御データ列Ｘt、参照データ列Ｒt、音響データ列Ｚt）を用いた訓練により確立される。第１生成モデル３０は、目標とする楽器音の楽譜上の条件（制御データ列Ｘ）と目標とする楽器音の音響特徴量（音響データ列Ｚ）との関係を学習した訓練済みの統計モデルである。そして、楽音合成部２２は、第１生成モデル３０により楽器音用の制御データ列Ｘを処理することで楽器音の音響データ列Ｚを生成する。

第１実施形態から第４実施形態の各々を楽器音生成に応用した第５実施形態においても、第１実施形態から第４実施形態と同様の効果が実現される。以上の各形態の例示から理解される通り、本開示における「楽音」は、歌唱音または楽器音等の音楽的な音を意味する。

Ｆ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）第１実施形態から第３実施形態においては、第１符号化器３１が前処理部３１１を含む形態を例示したが、前処理部３１１は省略されてもよい。例えば、制御データ取得部２１から第１符号化器３１の第１段目の畳込層３２１に直接的に制御データ列Ｘが供給されてもよい。また、前述の各形態においては、復号化器３２が後処理部３２２を含む形態を例示したが、後処理部３２２は省略されてもよい。例えば、最終段の中間層Ｌが出力する音響データ列Ｚが、直接的に波形合成部２３に供給されてもよい。

（２）前述の各形態においては、参照信号Ｓrにおける特定区間の時間軸上の位置を、利用者からの第１指示Ｑ1に応じて変更する形態を例示したが、制御ベクトルＶに第１指示Ｑ1を反映させるための構成は、以上の例示に限定されない。相異なる参照楽音を表す複数の参照信号Ｓrが記憶装置１２に記憶された構成において、制御装置１１（区間設定部２４１）は、複数の参照信号Ｓrの何れかを利用者からの第１指示Ｑ1に応じて選択してもよい。制御装置１１は、第１指示Ｑ1に応じて選択した特定区間の参照信号Ｓrから参照データ列Ｒを生成する。

（３）第２実施形態において、利用者からの第２指示Ｑ2に応じて制御ベクトルＶの各要素Ｅkを変更するための構成は、以上の例示に限定されない。

例えば、制御ベクトルＶ0の複数のプリセットデータが、記憶装置１２に記憶されてもよい。各プリセットデータは、制御ベクトルＶ0のＫ個の要素Ｅ1～ＥKの各々を指定するデータである。利用者は、操作装置１４に対する操作により、複数のプリセットデータの何れかを選択できる。制御ベクトル調整部２４４は、利用者が選択したプリセットデータを制御ベクトルＶ0として使用する。の調整に適用する。以上の形態においては、複数のプリセットデータの何れかを選択して呼び出す指示が、第２指示Ｑ2に相当する。

また、前述の各形態においては、各操作子Ｇb-kの位置が各要素Ｅkの数値に対応する形態を例示したが、各操作子Ｇb-kの位置が、各要素Ｅkの変化量に対応してもよい。制御ベクトル調整部２４４は、要素Ｅkの数値を、制御ベクトルＶ0における初期値から、操作子Ｇb-kの位置に応じた変化量だけ変化させた数値に設定する。

（４）前述の各形態においては、楽音合成システム１００が訓練処理部２６を具備する形態を便宜的に例示したが、楽音合成システム１００とは別個の機械学習システムに訓練処理部２６が搭載されてもよい。機械学習システムにより確立された第１生成モデル３０および第２生成モデル４０が、楽音合成システム１００に提供されて、楽音合成処理Ｓaに利用される。

（５）前述の各形態においては、処理期間Ｂを時間的な単位として音響信号Ｗが生成される形態を例示した。各形態において、時間軸上で連続する複数の処理期間Ｂは、図１６に例示される通り、時間軸上において部分的に相互に重複してもよい。なお、各処理期間Ｂの時間的な関係は、図１６の例示に限定されない。

前述の各形態と同様に、時間軸上の処理期間Ｂ毎に音響信号Ｗが順次に生成される。各処理期間Ｂのうち有効期間ｂ内の音響信号Ｗが、時間軸上で連続する処理期間Ｂの間で相互に加算（例えば加重平均）されることで、最終的な音響信号が生成される。有効期間ｂは、処理期間Ｂに内包される期間である。具体的には、有効期間ｂは、処理期間Ｂの始点を含む所定長の期間と、処理期間Ｂの終点を含む所定長の期間とを、当該処理期間Ｂから除外した期間である。図１６の形態によれば、処理期間Ｂの端部（始点または周縁）における音響信号Ｗの波形の不連続性が低減され、結果的に波形が連続で聴感的に自然な音響信号を生成できる。

（６）前述の各形態においては、表示装置１３に表示される仮想的な操作子Ｇb-kを例示したが、各要素Ｅkの変更の指示を受付ける操作子Ｇb-kは、利用者が実際に接触することが可能な現実的な操作子でもよい。

（７）各中間層Ｌが実行する変換処理は、前述の各形態において例示した処理に限定されない。例えば、第１パラメータｐ1の乗算と前記第２パラメータｐ2の加算との一方は省略されてもよい。変換処理が第２パラメータｐ2の加算を含まない形態において、パラメータセットＰnは第１パラメータｐ1のみで構成される。変換処理が第１パラメータｐ1の乗算を含まない形態において、パラメータセットＰnは第２パラメータｐ2のみで構成される。すなわち、パラメータセットＰnは１以上のパラメータを含む変数として表現される。

（８）前述の各形態においては、第１符号化器３１と復号化器３２とを含む第１生成モデル３０を例示したが、第１生成モデル３０の構成は以上の例示に限定されない。第１生成モデル３０は、目標楽音の条件（制御データ列Ｘ）と目標楽音の音響特徴量（音響データ列Ｚ）との関係を学習したモデルとして包括的に表現される。したがって、変換処理を実行可能な１以上の中間層Ｌを含む任意の構造のモデルが、第１生成モデル３０として利用される。

同様に、第２生成モデル４０の構成は、前述の各形態における例示に限定されない。例えば、前述の各形態においては、サンプリング部４１４が制御ベクトルＶの要素Ｅkを各確率分布Ｆkからサンプリングする構成を例示したが、複数の畳込層４１１により制御ベクトルＶが生成されてもよい。すなわち、第２符号化器２４３における出力処理部４１２は省略されてよい。

（９）第２実施形態においては、第１指示Ｑ1および第２指示Ｑ2に応じて制御ベクトルＶが生成される形態を例示したが、制御ベクトル調整部２４４を具備する構成において、第１指示Ｑ1を受付ける構成は省略されてもよい。具体的には、区間設定部２４１は、利用者からの指示とは無関係に特定区間の参照信号Ｓrを設定してもよい。例えば、区間設定部２４１は、参照信号Ｓrの音響特性が特定の条件を充足する区間を特定区間として設定する。区間設定部２４１は、例えば音色等の音響特性が顕著に変動する区間を特定区間として設定する。また、参照信号Ｓrの全体が特定区間として利用されてもよい。参照信号Ｓrの全体が特定区間として利用される形態において、区間設定部２４１は省略されてもよい。

（１０）第１実施形態から第３実施形態においては、第１生成モデル３０がＮ1個の符号中間層ＬeとＮ2個の復号中間層Ｌdとを含む形態を例示したが、符号中間層Ｌeまたは復号中間層Ｌdは省略されてもよい。例えば、第１生成モデル３０の第１符号化器３１が符号中間層Ｌeを含まない形態、または、復号化器３２が復号中間層Ｌdを含まない形態も想定される。前述の通り、各中間層Ｌは変換処理を実行する。したがって、第１符号化器３１が変換処理を実行しない形態、または、復号化器３２が変換処理を実行しない形態も想定される。

符号中間層Ｌeが省略された形態において、第１生成モデル３０はＮ2x個の復号中間層Ｌdを含む。前述の通り、復号中間層Ｌdの個数Ｎ2xはＮ2以下の自然数である。また、復号中間層Ｌdが省略された形態において、第１生成モデル３０はＮ1x個の符号中間層Ｌeを含む。前述の通り、符号中間層Ｌeの個数Ｎ1xはＮ1以下の自然数である。

以上の例示から理解される通り、第１実施形態から第４実施形態の第１生成モデル３０における中間層Ｌの個数Ｎxは、１以上のＮ以下の自然数である。すなわち、第１生成モデル３０は、複数の基本層と１以上の中間層Ｌとを含むモデルとして包括的に表現される。中間層Ｌは、第１符号化器３１および復号化器３２の一方または双方に含まれる。すなわち、変換処理は、第１生成モデル３０のうち少なくとも１箇所において実行される。

（１１）例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により楽音合成システム１００を実現してもよい。例えば、楽音合成システム１００は、情報装置から受信した楽曲データＭおよび参照信号Ｓrから音響信号Ｗを生成し、音響信号Ｗを情報装置に送信する。なお、楽音合成部２２が生成する音響データ列Ｚが楽音合成システム１００から情報装置に送信される形態においては、楽音合成システム１００から波形合成部２３は省略されてよい。情報装置は、楽音合成システム１００から受信した音響データ列Ｚから音響信号を生成する。

また、楽曲データＭの代わりに制御データ列Ｘが情報装置から楽音合成システム１００に送信されてもよい。制御データ取得部２１は、情報装置から送信された制御データ列Ｘを受信する。制御データＤx（制御データ列Ｘ）の「受信」は、制御データＤxの「取得」の一例である。

（１２）以上に例示した楽音合成システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

Ｇ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る楽音合成方法は、目標楽音の条件を表す制御データの時系列を取得し、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する、コンピュータシステムにより実現される楽音合成方法であって、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成し、前記制御ベクトルから第１パラメータセットを生成し、前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。

以上の態様においては、音色の時間的な変化の特徴（部分音色）を表す制御ベクトルが利用者からの指示に応じて生成され、制御ベクトルから第１パラメータセットが生成され、第１中間層に入力されるデータに対して第１パラメータセットが適用される。したがって、利用者からの指示に応じた多様な部分音色を有する目標楽音の音響データの時系列を生成できる。

「目標楽音」は、合成されるべき目標となる楽音である。「楽音」は、音楽に関する音響である。例えば、歌唱者による歌唱音または楽器の演奏音等の音楽的な音響が、「楽音」の一例である。

「制御データ」は、目標楽音の条件を表す任意の形式のデータである。例えば、楽音の楽譜（すなわち音符列）を表す楽曲データの特徴量（楽譜特徴量）を表すデータが「制御データ」の一例である。制御データが表す楽譜特徴量の種類は任意である。例えば、特許文献１と同様の楽譜特徴量が利用される。

態様１の具体例（態様２）において、前記制御ベクトルの生成においては、前記利用者からの指示に応じて前記制御ベクトルの時系列を生成し、前記第１パラメータセットの生成においては、前記制御ベクトルの時系列から前記第１パラメータセットの時系列を生成する。以上の態様においては、利用者からの指示に応じて制御ベクトルの時系列が生成され、かつ、制御ベクトルの時系列から第１パラメータセットの時系列が生成される。したがって、制御データの時系列の途中の時点において音色が変化する多様な目標楽音を生成できる。

態様１または態様２の具体例（態様３）において、さらに、前記制御ベクトルから第２パラメータセットを生成し、前記１以上の中間層のうちの第２中間層は、前記第２中間層に入力されるデータに対して前記第２パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。以上の態様においては、第１中間層に入力されるデータに第１パラメータセットが適用されるほか、第２中間層に入力されるデータに第２パラメータセットが適用される。したがって、多様な部分音色を有する目標楽音の音響データの時系列を生成できる。

態様１から態様３の何れかの具体例（態様４）において、前記１以上の中間層は、複数の中間層であり、前記生成モデルは、前記１以上の中間層のうち複数の符号中間層を含む第１符号化器と、前記１以上の中間層のうち複数の復号中間層を含む復号化器とを含み、前記音響データの時系列の生成においては、前記制御データの時系列を前記第１符号化器により処理することで、前記制御データの時系列の特徴を表す中間データを生成し、前記中間データを前記復号化器により処理することで、前記音響データの時系列を生成する。以上の態様によれば、第１符号化器による符号化と復号化器による復号化とにより音響データの時系列を生成できる。

「第１符号化器」は、制御データの時系列の特徴を表す中間データを生成する統計モデルである。他方、復号化器は、中間データから音響データの時系列を生成する統計モデルである。「第１中間層」および「第２中間層」の各々は、符号中間層および復号中間層の何れでもよい。

態様４の具体例（態様５）において、前記第１符号化器において、時間軸上におけるデータの圧縮が実行され、前記復号化器において、時間軸上におけるデータの伸長が実行される。以上の態様においては、制御データの時系列の特徴が適切に反映された中間データが生成され、中間データの特徴が適切に反映された音響データの時系列が生成される。

態様１から態様５の何れかの具体例（態様６）において、前記制御ベクトルの生成においては、参照楽音における特定区間を前記利用者からの第１指示に応じて設定し、前記特定区間における前記参照楽音の音響特徴量を表す参照データの時系列を第２符号化器により処理することで、前記参照楽音のうち前記特定区間における音色の時間的な変化の特徴を表す前記制御ベクトルを生成する。以上の態様においては、参照楽音の特定区間が利用者からの第１指示に応じて設定され、特定区間における音色の時間的な変化の特徴（部分音色）を表す制御ベクトルが生成される。したがって、参照楽音のうち第１指示に応じた特定区間の部分音色を有する目標楽音を生成できる。

態様６の具体例（態様７）において、さらに、前記第１指示に応じて時間軸上における前記特定区間の位置を変更する。以上の態様においては、参照楽音における特定区間の時間軸上の位置が利用者からの第１指示に応じて変更される。したがって、参照楽音のうち利用者の所望の位置の部分音色を有する目標楽音を生成できる。

態様１から態様７の何れかの具体例（態様８）において、前記制御ベクトルは、複数の要素を含み、前記制御ベクトルの生成においては、前記利用者からの第２指示に応じて前記複数の要素のうち１以上の要素を変更する。以上の態様においては、制御ベクトルの複数の要素のうち１以上の要素が利用者からの第２指示に応じて変更される。したがって、利用者からの第２指示に応じた部分音色を有する多様な目標楽音を生成できる。

態様８の具体例（態様９）において、前記第２指示は、前記複数の要素にそれぞれ対応する複数の操作子に対する操作であり、前記１以上の要素の変更においては、前記複数の操作子のうち前記１以上の要素に対応する１以上の操作子に対する操作に応じて、前記１以上の要素を設定する。以上の態様においては、利用者は、各操作子に対する操作により、部分音色を簡便に調整できる。

なお、「操作子」の形態は任意である。例えば、特定の範囲で直線的に移動可能な往復型の操作子（スライダ）、または、回転可能な回転型の操作子（ツマミ）が、「操作子」として例示される。「操作子」は、利用者が接触可能な現実的な操作子でもよいし、表示装置により表示される仮想的な操作子でもよい。

態様１から態様９の何れかの具体例（態様１０）において、前記第１中間層は、当該第１中間層に入力されるデータに対して、前記第１パラメータセットを適用した変換処理を実行する。

態様１０の具体例（態様１１）において、前記第１パラメータセットは、第１パラメータと第２パラメータとを含み、前記変換処理は、前記第１パラメータの乗算と前記第２パラメータの加算とを含む。以上の態様においては、第１中間層に入力されるデータに対して、第１パラメータの乗算と第２パラメータの加算とを含む変換処理が実行される。したがって、制御ベクトルが表す部分音色が適切に付与された目標楽音の音響データを生成できる。

本開示のひとつの態様（態様１２）に係る楽音合成システムは、目標楽音の条件を表す制御データの時系列を取得する制御データ取得部と、音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部と、前記制御ベクトルから第１パラメータセットを生成する制御ベクトル処理部と、複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部と、を具備し、前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する。

１００…楽音合成システム、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…放音装置、２１…制御データ取得部、２２…楽音合成部、２３…波形合成部、２４…制御ベクトル生成部、２４１…区間設定部、２４２…特徴抽出部、２４３…第２符号化器、２５…制御ベクトル処理部、２８-n…変換モデル、２６…訓練処理部、３０…第１生成モデル、３１…第１符号化器、３１１…前処理部、３１２…畳込層、Ｌe…符号中間層、３２…復号化器、３２１…畳込層、Ｌd…復号中間層、３２２…後処理部、４０…第２生成モデル、４１１…畳込層、４１２…出力処理部、４１３…後処理部、４１４…サンプリング部、５１…第１暫定モデル、５２…第２暫定モデル、６１…変換処理部、６２…畳込層、６３-n…単位処理部、６４…合成処理部、６５…拡張畳込層、６７…処理層。

Claims

目標楽音の条件を表す制御データの時系列を取得し、
複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する、
コンピュータシステムにより実現される楽音合成方法であって、
音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成し、
前記制御ベクトルから第１パラメータセットを生成し、
前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
楽音合成方法。
前記制御ベクトルの生成においては、前記利用者からの指示に応じて前記制御ベクトルの時系列を生成し、
前記第１パラメータセットの生成においては、前記制御ベクトルの時系列から前記第１パラメータセットの時系列を生成する
請求項１の楽音合成方法。
さらに、前記制御ベクトルから第２パラメータセットを生成し、
前記１以上の中間層のうちの第２中間層は、前記第２中間層に入力されるデータに対して前記第２パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
請求項１の楽音合成方法。
前記１以上の中間層は、複数の中間層であり、
前記生成モデルは、
前記複数の中間層のうち複数の符号中間層を含む第１符号化器と、
前記複数の中間層のうち複数の復号中間層を含む復号化器とを含み、
前記音響データの時系列の生成においては、
前記制御データの時系列を前記第１符号化器により処理することで、前記制御データの時系列の特徴を表す中間データを生成し、
前記中間データを前記復号化器により処理することで、前記音響データの時系列を生成する
請求項１の楽音合成方法。
前記第１符号化器において、時間軸上におけるデータの圧縮が実行され、
前記復号化器において、時間軸上におけるデータの伸長が実行される
請求項４の楽音合成方法。
前記制御ベクトルの生成においては、
参照楽音における特定区間を前記利用者からの第１指示に応じて設定し、
前記特定区間における前記参照楽音の音響特徴量を表す参照データの時系列を第２符号化器により処理することで、前記参照楽音のうち前記特定区間における音色の時間的な変化の特徴を表す前記制御ベクトルを生成する
請求項１の楽音合成方法。
さらに、
前記第１指示に応じて時間軸上における前記特定区間の位置を変更する
請求項６の楽音合成方法。
前記制御ベクトルは、複数の要素を含み、
前記制御ベクトルの生成においては、
前記利用者からの第２指示に応じて前記複数の要素のうち１以上の要素を変更する
請求項１の楽音合成方法。
前記第２指示は、前記複数の要素にそれぞれ対応する複数の操作子に対する操作であり、
前記１以上の要素の変更においては、前記複数の操作子のうち前記１以上の要素に対応する１以上の操作子に対する操作に応じて、前記１以上の要素を設定する
請求項８の楽音合成方法。
前記第１中間層は、当該第１中間層に入力されるデータに対して、前記第１パラメータセットを適用した変換処理を実行する
請求項１の楽音合成方法。
前記第１パラメータセットは、第１パラメータと第２パラメータとを含み、
前記変換処理は、前記第１パラメータの乗算と前記第２パラメータの加算とを含む
請求項１０の楽音合成方法。
目標楽音の条件を表す制御データの時系列を取得する制御データ取得部と、
音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部と、
前記制御ベクトルから第１パラメータセットを生成する制御ベクトル処理部と、
複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部と、を具備し、
前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
楽音合成システム。
目標楽音の条件を表す制御データの時系列を取得する制御データ取得部、
音色の時間的な変化の特徴を表す制御ベクトルを利用者からの指示に応じて生成する制御ベクトル生成部、
前記制御ベクトルから第１パラメータセットを生成する制御ベクトル処理部、および、
複数の基本層と１以上の中間層を含み、楽音の条件と当該楽音の音響特徴量との関係を学習した訓練済の生成モデルにより、前記制御データの時系列を処理することで、前記目標楽音の音響特徴量を表す音響データの時系列を生成する楽音合成部、
としてコンピュータシステムを機能させるプログラムであって、
前記１以上の中間層のうちの第１中間層は、前記第１中間層に入力されるデータに対して前記第１パラメータセットを適用した処理を実行し、適用後のデータを次層に出力する
プログラム。