JP2022150179A

JP2022150179A - 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法

Info

Publication number: JP2022150179A
Application number: JP2021052666A
Authority: JP
Inventors: 方成西村; Masanari Nishimura; 竜也安藤; Tatsuya Ando
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-07
Also published as: WO2022202374A1; CN117121089A

Abstract

【課題】多様な表情の音響データを生成する。【解決手段】音響処理システム１０は、利用者からの指示を受付ける指示受付部３１と、利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データＳから、楽曲における音楽的な特徴を表す特徴値を含む特徴データＹの時系列を生成する特徴データ生成部３３と、楽曲データＳと特徴データＹとに応じた制御データＤを機械学習済の生成モデルＭに入力することで、楽曲データＳに対応する音を表す音響データＺを生成する音響データ生成部３５とを具備する。【選択図】図２

Description

本開示は、楽曲の音を表す音響データを生成する技術に関する。

楽曲を表す楽曲データを処理する各種の技術が従来から提案されている。例えば特許文献１には、音楽の解釈に関する理論（以下「音楽理論」という）に沿ってエネルギー値の時系列を生成し、当該エネルギー値の時系列を利用して音響データに音楽的な表情を付加する技術が開示されている。

特開２０１１－１６４１６２号公報

しかし、特許文献１の技術においては、音響データに付加される音楽的な表情が単一の音楽理論のみに依存するから、音楽的に多様な表情の音響データを生成することは困難である。例えば、楽曲の音楽ジャンルによっては、当該音楽ジャンルに適切な表情が音響データに付加されない場合がある。また、利用者の音楽的な意図または嗜好に沿った表情が音響データに付加されない場合も想定される。以上の事情を考慮して、本開示のひとつの態様は、多様な表情の音響データを生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、利用者からの指示を受付け、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する。

本開示のひとつの態様に係る音響処理システムは、利用者からの指示を受付ける指示受付部と、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部とを具備する。

本開示のひとつの態様に係るプログラムは、利用者からの指示を受付ける指示受付部、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部、としてコンピュータシステムを機能させる。

本開示のひとつの態様に係る生成モデルの確立方法は、学習用制御データと学習用音響データとを含む学習データを取得し、前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、前記学習用制御データは、楽曲を表す楽曲データが指定する条件を表す条件データと、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、前記音響データは、前記楽曲データに対応する音を表す。

第１実施形態における情報システムの構成を例示するブロック図である。音響処理システムの機能的な構成を例示するブロック図である。特徴データ生成部の構成を例示するブロック図である。特徴値および各要素値に関する説明図である。編集画面の模式図である。合成処理の具体的な手順を例示するフローチャートである。機械学習システムの機能的な構成を例示するブロック図である。学習処理の具体的な手順を例示するフローチャートである。第２実施形態における音響処理システムの機能的な構成を例示するブロック図である。第３実施形態における音響処理システムの動作に関する説明図である。第４実施形態における音響処理システムの機能的な構成を例示するブロック図である。第５実施形態における特徴データ生成部の構成を例示するブロック図である。第６実施形態における情報システムの構成を例示するブロック図である。第６実施形態における機械学習システムの機能的な構成を例示するブロック図である。変形例における生成モデルの構成を例示するブロック図である。変形例における生成モデルの構成を例示するブロック図である。

Ａ：第１実施形態
図１は、第１実施形態に係る情報システム１００の構成を例示するブロック図である。情報システム１００は、音響処理システム１０と機械学習システム２０とを具備する。音響処理システム１０と機械学習システム２０とは、例えばインターネット等の通信網２００を介して相互に通信する。

［音響処理システム１０］
音響処理システム１０は、制御装置１１と記憶装置１２と通信装置１３と放音装置１４と操作装置１５と表示装置１６とを具備するコンピュータシステムである。音響処理システム１０は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（例えばクライアントサーバシステム）でも実現される。

制御装置１１は、音響処理システム１０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。通信装置１３は、通信網２００を介して機械学習システム２０と通信する。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響処理システム１０に対して着脱される可搬型の記録媒体、または通信網２００を介して制御装置１１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

記憶装置１２は、楽曲を表す楽曲データＳを記憶する。楽曲データＳは、楽曲を構成する複数の音符の各々について音符データを含む。各音符の音符データは、当該音符の音高と発音期間とコード（和音）と和音機能とを指定する。和音機能は、音楽的な機能に着目したコードの種別（トニック／ドミナント／サブドミナント）である。また、楽曲データＳは、楽曲の音楽的な構造に関する構造データを含む。構造データは、楽式（musical form）に応じて楽曲を区分した複数の楽節（大楽節または小楽節）を指定する。例えば、楽曲のＡ楽節とＢ楽節との各々について時間軸上の始点と終点とが構造データにより指定される。以上の説明から理解される通り、楽曲データＳは、楽曲の楽譜を表すデータとも換言される。

制御装置１１は、楽曲データＳに対応する音（以下「目標音」という）を表す音響信号Ａを生成する。音響信号Ａは、目標音の波形を表す時間領域の信号である。目標音は、楽曲データＳが表す楽曲の演奏により発音される演奏音である。具体的には、目標音は、楽器の演奏により発音される楽音、または、歌唱により発音される音声である。放音装置１４は、音響信号Ａが表す目標音を再生する。放音装置１４は、例えばスピーカまたはヘッドホンである。なお、音響信号Ａをデジタルからアナログに変換するＤ/Ａ変換器と、音響信号Ａを増幅する増幅器とは、便宜的に図示が省略されている。また、音響処理システム１０とは別体の放音装置１４を、音響処理システム１０に対して有線または無線により接続してもよい。

操作装置１５は、利用者からの指示を受付ける入力機器である。操作装置１５は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、音響処理システム１０とは別体の操作装置１５（例えばマウスまたはキーボード）を、音響処理システム１０に対して有線または無線により接続してもよい。

表示装置１６は、制御装置１１による制御のもとで画像を表示する。例えば液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の各種の表示パネルが表示装置１６として利用される。なお、音響処理システム１０とは別体の表示装置１６を、音響処理システム１０に対して有線または無線により接続してもよい。

図２は、音響処理システム１０の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ａを生成するための複数の機能（指示受付部３１，条件データ生成部３２，特徴データ生成部３３，音響データ生成部３５，信号生成部３６）を実現する。指示受付部３１は、操作装置１５に対する利用者からの指示を受付ける。

条件データ生成部３２は、楽曲データＳから条件データＸを生成する。条件データＸは、楽曲データＳが指定する音楽的な条件（コンテキスト）を指定する。条件データＸは、時間軸上の単位期間毎に生成される。各単位期間は、楽曲の各音符と比較して充分に短い時間長の期間（フレーム）である。各単位期間の条件データＸは、例えば、当該単位期間を含む音符に関する情報（例えば音高および継続長）を含む。また、各単位期間の条件データＸは、例えば、当該単位期間を含む音符の前方（例えば直前）の音符および後方（例えば直後）の音符の一方または双方に関する情報（例えば音高および継続長）を含む。なお、条件データＸは、前方または後方の音符の音高に代えて、単位期間を含む音符と、当該音符の前方の音符および後方の音符の一方または双方の音符との音高差を含んでもよい。

特徴データ生成部３３は、楽曲データＳから特徴データＹを生成する。特徴データＹは、楽曲データＳが表す楽曲の音楽的な特徴を表す数値（以下「特徴値」という）Ｆを含む。特徴データＹは単位期間毎に生成される。すなわち、特徴データ生成部３３は、特徴データＹの時系列を生成する。図３は、特徴データ生成部３３の構成を例示するブロック図である。特徴データ生成部３３は、特徴抽出部３３１と編集処理部３３２とを具備する。

特徴抽出部３３１は、楽曲データＳから特徴値Ｆを生成する。特徴値Ｆは単位期間毎に生成される。すなわち、特徴抽出部３３１は、特徴値Ｆの時系列を生成する。１個の特徴値Ｆは、複数（Ｎ個）の要素値Ｅ1～ＥNに応じて算定される。すなわち、特徴抽出部３３１は、楽曲データＳの解析によりＮ個の要素値Ｅ1～ＥNを生成し、Ｎ個の要素値Ｅ1～ＥNを適用した演算により特徴値Ｆを算定する。

各要素値Ｅn（ｎ＝１～Ｎ）は、特定の音楽理論に対応する規則により楽曲データＳから設定される。音楽理論は、音楽的な観点で楽曲を解釈する方法である。Ｎ個の要素値Ｅ1～ＥNの各々は、特定の音楽理論（以下「特定音楽理論」という）により規定される相異なる観点で楽曲を評価した評価値を意味する。すなわち、各要素値Ｅnは、特定音楽理論が規定する規則により楽曲データＳから設定される。制御装置１１が生成する音響信号Ａは、特定音楽理論による楽曲の解釈に沿う音楽的な表情が付加された目標音を表す。第１実施形態においては、保科洋，“生きた音楽表現へのアプローチ／エネルギー思考に基づく演奏解釈法”，音楽之友社，1998年、に記載された音楽理論を基礎とした特定音楽理論を想定する。各要素値Ｅnの種類および要素値Ｅnの総数Ｎは、音楽理論毎に相違する。したがって、音楽理論は、各要素値Ｅnの種類および要素値Ｅnの総数Ｎの少なくとも一方を規定するルールとも換言される。

図４は、第１実施形態における特徴値Ｆおよび各要素値Ｅnの説明図である。各単位期間の要素値Ｅ1は、楽曲データＳが当該単位期間について指定する音符の音高に対応する数値である。例えば、楽曲データＳが指定する音高の数値が要素値Ｅ1として利用される。要素値Ｅ1の時系列は、楽曲の旋律に相当する。

また、各単位期間の要素値Ｅ2は、楽曲データＳが当該単位期間について指定するコードの和声機能（トニック／ドミナント／サブドミナント）に対応する数値である。具体的には、要素値Ｅ2は、受聴者がコードから感取する緊張度に応じた数値に設定される。例えば、トニック（Ｔ）が指定された単位期間の要素値Ｅ2は最小値ｅ21（緊張度：低）に設定され、サブドミナント（Ｓ）が指定された単位期間の要素値Ｅ2は中間値ｅ22（緊張度：中）に設定され、ドミナント（Ｄ）が指定された単位期間の要素値Ｅ2は最大値ｅ23（緊張度：高）に設定される。以上の説明から理解される通り、特定音楽理論に対応する規則は、和声機能の種別を数値化するための規則を含む。

各単位期間の要素値Ｅ3は、楽曲データＳが当該単位期間について指定する楽節に対応する数値である。具体的には、楽曲の始点を含むＡ楽節内の単位期間の要素値Ｅ3は最小値ｅ31に設定され、Ａ楽節に後続するＢ楽節内の単位期間の要素値Ｅ3は最大値ｅ32に設定される。以上の説明から理解される通り、特定音楽理論に対応する規則は、各楽節を数値化するための規則を含む。

特徴抽出部３３１は、以下の数式(1)で表現される通り、Ｎ個の要素値Ｅ1～ＥNの加重和により特徴値Ｆ0を算定する。記号Ｗnは、要素値Ｅnに対する加重値である。
Ｆ0＝Ｗ1・Ｅ1＋Ｗ2・Ｅ2＋…Ｗn・Ｅn＋…＋ＷN・ＥN …(1)
第１実施形態の特徴抽出部３３１は、数式(1)で算定される特徴値Ｆ0の移動平均を特徴値Ｆとして算定する。すなわち、各単位期間の特徴値Ｆは、当該単位期間を含む所定の期間内における特徴値Ｆ0の平均値である。なお、数式(1)で算定される数値が特徴値Ｆとして確定されてもよい。すなわち、特徴値Ｆ0の移動平均は省略されてもよい。

指示受付部３１は、図５の編集画面Ｇを表示装置１６に表示させる。編集画面Ｇは、第１領域Ｇaと第２領域Ｇbとを含む。第１領域Ｇaには、各要素値Ｅnに対応する加重値Ｗnが表示される。各加重値Ｗnは、初期的には所定の数値に設定される。第２領域Ｇbには、特徴抽出部３３１が算定した特徴値Ｆの時系列（以下「特徴値系列」という）Ｑが表示される。具体的には、特徴値系列Ｑは、例えば折線または曲線として表示装置１６に表示される。

利用者は、操作装置１５を使用して第１領域Ｇaを操作することで、Ｎ個の加重値Ｗ1～ＷNの各々について数値の変更を指示できる。指示受付部３１は、各加重値Ｗnに関する指示を利用者から受付ける。具体的には、指示受付部３１は、Ｎ個の加重値Ｗ1～ＷNのうち利用者が選択した１個以上の加重値Ｗnについて変更の指示を受付ける。例えば、指示受付部３１は、各加重値Ｗnの増加／減少の指示、または各加重値Ｗnの数値の指示を受付ける。特徴抽出部３３１は、指示受付部３１が受付けた指示に係る変更後の加重値Ｗnを、数式(1)に適用する。加重値Ｗnは、利用者からの指示に応じて、例えば正数、負数または０に設定される。加重値Ｗnが０に設定された場合、特徴値Ｆに対する要素値Ｅnの影響が無視される。すなわち、利用者は、Ｎ個の要素値Ｅ1～ＥNのうち不要と判断した要素値Ｅnに対応する加重値Ｗnを０に設定することで、特徴値Ｆに対する当該要素値Ｅnの影響を排除できる。

また、利用者は、第２領域Ｇbを確認しながら操作装置１５を操作することで、特徴値系列Ｑの変更を指示できる。指示受付部３１は、特徴値系列Ｑの変更の指示を利用者から受付ける。例えば、指示受付部３１は、特徴値系列Ｑのうち編集対象となる部分の選択と、当該部分の変更の指示とを利用者から受付ける。図３の編集処理部３３２は、指示受付部３１が受付けた指示に応じて特徴値系列Ｑを編集する。すなわち、編集処理部３３２は、特徴値系列Ｑのうち利用者が選択した部分の各特徴値Ｆを、利用者からの指示に応じて変更する。編集処理部３３２による編集後の各特徴値Ｆを表す特徴データＹの時系列が記憶装置１２に記憶される。なお、特徴値系列Ｑの変更が利用者から指示されない場合、特徴抽出部３３１が算定した特徴値Ｆを含む特徴データＹが生成される。

以上の説明から理解される通り、特徴データ生成部３３は、利用者からの指示と特定音楽理論に対応する規則とに応じて楽曲データＳから特徴データＹの時系列を生成する。利用者からの指示は、前述の通り、各加重値Ｗnまたは特徴値系列Ｑに関する指示である。

図２に例示される通り、条件データ生成部３２および特徴データ生成部３３による以上の処理により、制御データＤが単位期間毎に生成される。各単位期間の制御データＤは、当該単位期間について条件データ生成部３２が生成した条件データＸと、当該単位期間について特徴データ生成部３３が生成した特徴データＹとを含む。すなわち、制御データＤは、楽曲データＳ（条件データＸ）と特徴データＹとに応じたデータである。

音響データ生成部３５は、目標音を表す音響データＺを制御データＤに応じて生成する。音響データＺは単位期間毎に生成される。すなわち、各単位期間の制御データＤから当該単位期間の音響データＺが生成される。第１実施形態の音響データＺは、目標音の周波数特性を表すデータである。例えば、音響データＺが表す周波数特性は、例えばメルスペクトルまたは振幅スペクトル等の周波数スペクトルと、目標音の基本周波数とを含む。

音響データ生成部３５による音響データＺの生成には、生成モデルＭが利用される。生成モデルＭは、制御データＤと音響データＺとの関係を機械学習により学習した学習済モデルである。すなわち、生成モデルＭは、制御データＤの入力に対して統計的に妥当な音響データＺを出力する。音響データ生成部３５は、制御データＤを生成モデルＭに入力することで、音響データＺを生成する。

生成モデルＭは、例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）で構成される。例えば、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、または畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークが生成モデルＭとして利用される。複数種の深層ニューラルネットワークの組合せで生成モデルＭが構成されてもよい。また、長短期記憶（ＬＳＴＭ：Long Short-Term Memory）等の付加的な要素が生成モデルＭに搭載されてもよい。

生成モデルＭは、制御データＤから音響データＺを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。生成モデルＭを実現するプログラムと当該生成モデルＭの複数の変数とは、記憶装置１２に記憶される。生成モデルＭを規定する複数の変数の各々の数値は、機械学習により事前に設定される。

信号生成部３６は、音響データＺの時系列から目標音の音響信号Ａを生成する。信号生成部３６は、例えば離散逆フーリエ変換を含む演算により音響データＺを時間領域の波形信号に変換し、相前後する単位期間について当該波形信号を連結することで音響信号Ａを生成する。なお、例えば音響データＺと音響信号Ａの各サンプルとの関係を学習した深層ニューラルネットワーク（いわゆるニューラルボコーダ）を利用して、信号生成部３６が音響データＺから音響信号Ａを生成してもよい。信号生成部３６が生成した音響信号Ａが放音装置１４に供給されることで、目標音が放音装置１４から再生される。

図６は、制御装置１１が音響信号Ａを生成する処理（以下「合成処理」という）Ｓaの具体的な手順を例示するフローチャートである。例えば操作装置１５に対する利用者からの指示を契機として合成処理Ｓaが開始される。

合成処理Ｓaが開始されると、制御装置１１（条件データ生成部３２）は、記憶装置１２に記憶された楽曲データＳから各単位期間の条件データＸを生成する（Ｓa1）。また、制御装置１１（特徴データ生成部３３）は、特定音楽理論に対応する規則により楽曲データＳから各単位期間の特徴データＹを生成する（Ｓa2）。なお、条件データＸの生成（Ｓa1）と特徴データＹの生成（Ｓa2）との順序は逆転されてもよい。制御装置１１（指示受付部３１）は、特徴値系列Ｑを含む編集画面Ｇを表示装置１６に表示させる（Ｓa3）。

制御装置１１（指示受付部３１）は、編集画面Ｇに対する指示を利用者から受付けたか否かを判定する（Ｓa4）。具体的には、制御装置１１は、各加重値Ｗnまたは特徴値系列Ｑの変更が利用者から指示されたか否かを判定する。利用者から指示を受付けた場合（Ｓa4：YES）、制御装置１１は、当該指示が反映された特徴データＹの生成（Ｓa2）と変更後の特徴値系列Ｑの表示（Ｓa3）とを実行する。具体的には、加重値Ｗnの変更が指示された場合、制御装置１１は、変更後の加重値Ｗnを適用した数式(1)の演算により特徴値Ｆを算定する。また、特徴値系列Ｑの変更が指示された場合、制御装置１１は、変更後の特徴値系列Ｑにおける各特徴値Ｆを表す特徴データＹの時系列を生成する。

特徴値系列Ｑの確定が利用者から指示されるまで、編集画面Ｇに対する利用者からの指示毎に（Ｓa4：YES）、特徴データＹの生成（Ｓa2）と特徴値系列Ｑの表示（Ｓa3）とが反復される（Ｓa5：NO）。特徴値系列Ｑが所望の形状に編集されると、利用者は、操作装置１５の操作により特徴値系列Ｑの確定を指示する。特徴値系列Ｑの確定の指示を受付けると（Ｓa5：YES）、制御装置１１（音響データ生成部３５）は、条件データＸと特徴データＹとを含む制御データＤを生成モデルＭに入力することで、各単位期間の音響データＺを生成する（Ｓa6）。制御装置１１（信号生成部３６）は、音響データＺの時系列から目標音の音響信号Ａを生成し（Ｓa7）、当該音響信号Ａを放音装置１４に供給することで、目標音を再生する（Ｓa8）。

以上の通り、第１実施形態においては、利用者からの指示と特定音楽理論に応じた規則とに応じて音楽的な特徴値Ｆを含む特徴データＹの時系列が生成され、条件データＸと特徴データＹとに応じた制御データＤを生成モデルＭに入力することで音響データＺが生成される。したがって、音響データＺに付加される音楽的な表情が単一の音楽理論のみに依存する形態と比較して、利用者からの指示を反映した多様な表情の音響データＺを生成できる。

また、第１実施形態においては、特定音楽理論に関するＮ個の要素値Ｅ1～ＥNについて、利用者から指示された加重値Ｗnを適用した加重和により特徴値Ｆが算定される。すなわち、Ｎ個の要素値Ｅ1～ＥNの各々が特徴値Ｆに影響する度合を、利用者が調整できる。したがって、利用者の音楽的な意図または嗜好に沿った音響データＺ（さらには音響信号Ａ）を生成できる。

［機械学習システム２０］
図１の機械学習システム２０は、音響処理システム１０が使用する生成モデルＭを機械学習により確立するコンピュータシステムである。機械学習システム２０は、制御装置２１と記憶装置２２と通信装置２３とを具備する。

制御装置２１は、機械学習システム２０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置２１は、ＣＰＵ、ＳＰＵ、ＤＳＰ、ＦＰＧＡ、またはＡＳＩＣ等の１種類以上のプロセッサにより構成される。通信装置２３は、通信網２００を介して音響処理システム１０と通信する。

記憶装置２２は、制御装置２１が実行するプログラムと、制御装置２１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置２２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、機械学習システム２０に対して着脱される可搬型の記録媒体、または通信網２００を介して制御装置２１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置２２として利用してもよい。

図７は、機械学習システム２０の機能的な構成を例示するブロック図である。記憶装置２２は、機械学習に利用される複数の基礎データＢを記憶する。複数の基礎データＢの各々は、学習用の楽曲データＳtと学習用の音響信号Ａtとの組で構成される。楽曲データＳtは、前述の楽曲データＳと同様に、楽曲を表すデータである。また、各楽曲データＳtに対応する音響信号Ａtは、当該楽曲データＳtが表す楽曲の演奏音を表す信号である。例えば演奏者による楽曲の演奏音を収録することで、音響信号Ａtが生成される。

制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、生成モデルＭを確立するための複数の機能（学習データ取得部５１および学習処理部５２）を実現する。学習データ取得部５１は、複数の基礎データＢの各々から複数の学習データＴを生成する。複数の学習データＴの各々は、学習用の制御データＤtと学習用の音響データＺtとの組で構成される。なお、学習用の制御データＤtは「学習用制御データ」の一例であり、学習用の音響データＺtは「学習用音響データ」の一例である。

学習データ取得部５１は、条件データ生成部５１１と特徴データ生成部５１２と音響データ生成部５１３とを具備する。条件データ生成部５１１は、前述の条件データ生成部３２と同様の処理により、各基礎データＢの楽曲データＳtから各単位期間の条件データＸtを生成する。条件データＸtは、条件データＸと同様に、楽曲データＳtが指定する音楽的な条件を指定する。

特徴データ生成部５１２は、各基礎データＢの楽曲データＳtから各単位期間の特徴データＹtを生成する。具体的には、特徴データ生成部５１２は、前述の特徴抽出部３３１と同様に、特定音楽理論に対応するＮ個の要素値Ｅ1～ＥNを楽曲データＳtの解析により生成し、Ｎ個の要素値Ｅ1～ＥNに応じた特徴値Ｆを表す特徴データＹtを生成する。具体的には、特徴データ生成部５１２は、前掲の数式(1)で表現される通り、加重値Ｗnを適用したＮ個の要素値Ｅ1～ＥNの加重和により特徴値Ｆを算定する。ただし、各加重値Ｗnは所定の基準値に設定される。条件データ生成部５１１および特徴データ生成部５１２による以上の処理により、学習用の制御データＤtが単位期間毎に生成される。制御データＤtは、条件データＸtと特徴データＹtとを含む。

音響データ生成部５１３は、各基礎データＢの音響信号Ａtから各単位期間の音響データＺtを生成する。具体的には、音響データ生成部５１３は、音響信号Ａtについて離散フーリエ変換等の周波数解析を実行することで、当該音響信号Ａtの周波数特性を表す音響データＺtを生成する。なお、基礎データＢが、音響信号Ａtに代えて音響データＺtの時系列を含む形態も想定される。基礎データＢが音響データＺtの時系列を含む形態においては、音響データ生成部５１３は省略される。

各単位期間について生成された制御データＤtと、当該単位期間について生成された音響データＺtとを含む学習データＴが生成される。以上の説明から理解される通り、各学習データＴの音響データＺtは、当該学習データＴの制御データＤtの入力に対して生成モデルＭが出力すべき正解値（ラベル）に相当する。複数の基礎データＢの各々について単位期間毎に以上の処理が実行されることで、相異なる楽曲または相異なる単位期間に対応する複数の学習データＴが生成される。学習データ取得部５１が生成した複数の学習データＴは、記憶装置２２に記憶される。学習処理部５２は、複数の学習データＴを利用した教師あり機械学習により生成モデルＭを確立する。

図８は、機械学習システム２０の制御装置２１が機械学習により生成モデルＭを確立する処理（以下「学習処理」という）Ｓbの具体的な手順を例示するフローチャートである。学習処理Ｓbは、機械学習により生成モデルＭを確立する方法（学習済モデルの確立方法）とも表現される。

学習処理Ｓbが開始されると、制御装置２１（学習データ取得部５１）は、複数の基礎データＢの各々から複数の学習データＴを生成する（Ｓb1）。制御装置２１（学習処理部５２）は、複数の学習データＴの何れか（以下「選択学習データＴ」という）を選択する（Ｓb2）。制御装置２１（学習処理部５２）は、図７に例示される通り、選択学習データＴの制御データＤtを初期的または暫定的なモデル（以下「暫定モデル」という）Ｍ0に入力し（Ｓb3）、当該入力に対して暫定モデルＭ0が出力する音響データＺを取得する（Ｓb4）。

制御装置２１（学習処理部５２）は、暫定モデルＭ0が生成する音響データＺと選択学習データＴの音響データＺtとの誤差を表す損失関数を算定する（Ｓb5）。制御装置２１（学習処理部５２）は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭ0の複数の変数を更新する（Ｓb6）。損失関数に応じた複数の変数の更新には、例えば誤差逆伝播法が利用される。

制御装置２１（学習処理部５２）は、所定の終了条件が成立したか否かを判定する（Ｓb7）。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb7：NO）、制御装置２１（学習処理部５２）は、未選択の学習データＴを新たな選択学習データＴとして選択する（Ｓb2）。すなわち、終了条件の成立（Ｓb7：YES）まで、暫定モデルＭ0の複数の変数を更新する処理（Ｓb2～Ｓb6）が反復される。終了条件が成立した場合（Ｓb7：YES）、制御装置２１（学習処理部５２）は、暫定モデルＭ0を規定する複数の変数の更新（Ｓb2～Ｓb6）を終了する。終了条件が成立した時点における暫定モデルＭ0が、生成モデルＭとして確定される。具体的には、生成モデルＭの複数の変数は、終了条件が成立した時点における数値に確定される。

制御装置２１は、以上の手順で確立された生成モデルＭを通信装置２３から音響処理システム１０に送信する（Ｓb8）。具体的には、生成モデルＭを規定する複数の変数が音響処理システム１０に送信される。音響処理システム１０の制御装置１１は、機械学習システム２０から送信された生成モデルＭを通信装置１３により受信し、当該生成モデルＭを記憶装置１２に保存する。

以上の説明から理解される通り、生成モデルＭは、複数の学習データＴにおける制御データＤtと音響データＺtとの間に潜在する関係のもとで、未知の制御データＤに対して統計的に妥当な音響データＺを出力する。すなわち、生成モデルＭは、制御データＤと音響データＺとの関係を学習した統計モデルである。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態においては、ひとつの音楽理論に対応する規則により特徴値Ｆを算定した。第２実施形態においては、複数の音楽理論の何れかが特徴値Ｆの算定（すなわち特徴データＹの生成）に選択的に適用される。図９は、第２実施形態における音響処理システム１０の機能的な構成を例示するブロック図である。第２実施形態の指示受付部３１は、複数の音楽理論の何れかを特定音楽理論として選択する指示を、利用者から受付ける。例えば、指示受付部３１は、第１音楽理論と第２音楽理論とを含む複数の音楽理論の何れかの選択を利用者から受付ける。

第１音楽理論は、第１実施形態において例示した音楽理論である。具体的には、第１音楽理論は、楽曲の各音符の音高に関する要素値Ｅ1と、和声機能の種別に関する要素値Ｅ2と、楽曲の楽節に関する要素値Ｅ3とを含むＮ個の要素値Ｅ1～ＥNを利用する。他方、第２音楽理論は、各要素値Ｅnの種類および要素値Ｅnの総数Ｎが第１音楽理論とは相違する。具体的には、第２音楽理論は、楽曲の瞬時的なテンポに関する要素値Ｅ1と、楽曲の各音符の音量に関する要素値Ｅ2と、楽曲の各音符の継続長（音長）に関する要素値Ｅ3とを含むＮ個の要素値Ｅ1～ＥNを利用する。第２音楽理論については、例えば、金泰憲ほか３名，“単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け”，情報処理学会研究報告，2010年、に記載されている。

特徴データ生成部３３は、複数の音楽理論のうち利用者が選択した特定音楽理論に対応する規則により楽曲データＳから各単位期間の特徴値Ｆを算定する。具体的には、特徴データ生成部３３の特徴抽出部３３１は、特定音楽理論に対応した規則により楽曲データＳからＮ個の要素値Ｅ1～ＥNを算定し、Ｎ個の要素値Ｅ1～ＥNを適用した演算により特徴値Ｆを算定する。具体的には、特徴抽出部３３１は、第１実施形態と同様に、Ｎ個の要素値Ｅ1～ＥNの加重和により特徴値Ｆ0を算定し、特徴値Ｆ0の移動平均により特徴値Ｆを算定する。特徴値Ｆを含む特徴データＹが単位期間毎に生成される。なお、各加重値Ｗnまたは特徴値系列Ｑが利用者からの指示に応じて変更される点は、第１実施形態と同様である。

第２実施形態の記憶装置１２には、相異なる音楽理論に対応する複数（Ｋ個）の生成モデルＭ1～ＭKが記憶される。機械学習システム２０は、第１実施形態と同様の構成および動作により、生成モデルＭk（ｋ＝１～Ｋ）を音楽理論毎に個別に生成する。機械学習システム２０が生成したＫ個の生成モデルＭ1～ＭKが音響処理システム１０に提供される。

第２実施形態の音響データ生成部３５は、相異なる音楽理論に対応するＫ個の生成モデルＭ1～ＭKのうち、利用者が選択した特定音楽理論に対応する生成モデルＭkを利用して音響データＺを生成する。具体的には、音響データ生成部３５は、特定音楽理論に対応する生成モデルＭkに制御データＤを入力することで、音響データＺを単位期間毎に生成する。例えば、利用者が第１音楽理論を選択した場合、音響データ生成部３５は、当該第１音楽理論に対応する生成モデルＭ1を利用して音響データＺを生成する。他方、利用者が第２音楽理論を選択した場合、音響データ生成部３５は、当該第２音楽理論に対応する生成モデルＭ2を利用して音響データＺを生成する。条件データ生成部３２および信号生成部３６等の他の要素の動作は第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態においては、相異なる音楽理論に対応するＫ個の生成モデルＭ1～ＭKのうち利用者が選択した特定音楽理論に対応する生成モデルＭkを利用して音響データＺが生成される。したがって、利用者の音楽的な意図または嗜好に沿った音響データＺを生成できる。なお、利用者からの指示以外の要因により複数の音楽理論の何れかが選択されてもよい。

Ｃ：第３実施形態
第３実施形態における音響処理システム１０の機能的な構成は、第２実施形態と同様である。すなわち、第３実施形態においては、複数の音楽理論の何れかに対応する規則のもとで特徴データ生成部３３が特徴データＹを生成し、相異なる音楽理論に対応するＫ個の生成モデルＭ1～ＭKを音響データ生成部３５が選択的に利用する。

図１０は、第３実施形態に係る音響処理システム１０の動作に関する説明図である。利用者は、操作装置１５の操作により楽曲内に複数の処理区間σ（σ1，σ2，…）を指示できる。指示受付部３１は、各処理区間σに関する指示を利用者から受付ける。例えば、利用者は、各処理区間σの始点および終点を任意に指示できる。したがって、時間軸上における各処理区間σの位置および時間長は可変である。また、相前後する２個の処理区間σの間における間隔の有無は不問である。

利用者は、操作装置１５に対する操作により、複数の処理区間σの各々について、複数の音楽理論の何れかを選択できる。指示受付部３１は、複数の処理区間σの各々について、複数の音楽理論の何れかを特定音楽理論として選択する指示を利用者から受付ける。例えば、処理区間σ1については第１音楽理論の指示を受付け、処理区間σ1とは別個の処理区間σ2については第２音楽理論の指示を受付ける。すなわち、第３実施形態においては、特定音楽理論が処理区間σ毎に個別に設定される。

図９の特徴データ生成部３３は、各処理区間σ内の単位期間毎に、当該処理区間σに指示された特定音楽理論に対応する規則に応じて特徴データＹの時系列を生成する。例えば、処理区間σ1内の各単位期間について、特徴データ生成部３３は、第１音楽理論に対応する規則により、楽曲データＳから特徴データＹを生成する。また、処理区間σ2内の各単位期間について、特徴データ生成部３３は、第２音楽理論に対応する規則により、楽曲データＳから特徴データＹを生成する。

また、音響データ生成部３５は、各処理区間σ内の単位期間毎に、相異なる音楽理論に対応する複数の生成モデルＭ1～ＭKのうち、当該処理区間σについて指示された特定音楽理論に対応する生成モデルＭkを利用して、音響データＺを生成する。例えば、処理区間σ1内の各単位期間について、音響データ生成部３５は、第１音楽理論に対応する生成モデルＭ1に制御データＤを入力することで、音響データＺを生成する。また、処理区間σ2内の各単位期間について、音響データ生成部３５は、第２音楽理論に対応する生成モデルＭ2に制御データＤを入力することで、音響データＺを生成する。処理区間σ毎に別個の音楽理論が適用される点以外は、第２実施形態と同様である。

第３実施形態においても第２実施形態と同様の効果が実現される。また、第３実施形態においては、時間軸上の処理区間σ毎に音楽理論が個別に指示される。すなわち、特徴データＹの生成に適用される音楽理論と、音響データＺの生成に利用される生成モデルＭkとが、処理区間σ毎に個別に設定される。したがって、音楽的な表情が処理区間σ毎に変化する多様な音響データＺを生成できる。

Ｄ：第４実施形態
図１１は、第４実施形態における音響処理システム１０の機能的な構成を例示するブロック図である。第４実施形態の制御装置１１は、第１実施形態と同様の要素（指示受付部３１，条件データ生成部３２，特徴データ生成部３３，音響データ生成部３５，信号生成部３６）に加えて調整処理部３４として機能する。

調整処理部３４は、条件データＸと特徴データＹとから制御データＤを生成する。制御データＤは単位期間毎に生成される。具体的には、各単位期間の制御データＤは、当該単位期間の条件データＸと当該単位期間の特徴データＹとから生成される。調整処理部３４は、条件データＸを特徴データＹに応じて調整することで、制御データＤを生成する。すなわち、条件データＸが表す音楽的な条件が特徴データＹに応じて変更される。特徴データＹを利用した条件データＸの調整は、条件データＸと特徴データＹと制御データＤとの関係を定義する所定のアルゴリズムにより実現される。

音響データ生成部３５は、調整処理部３４が生成した制御データＤを生成モデルＭに入力することで、音響データＺを生成する。すなわち、第４実施形態の生成モデルＭは、特徴データＹを利用した条件データＸの調整により生成される制御データＤと、音響データＺとの関係を学習した学習済モデルである。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態においては、特徴データＹに応じた条件データＸの調整により生成される制御データＤが生成モデルＭに入力される。したがって、特徴データＹが入力されない構成の生成モデルＭを、音響データＺの生成に利用できる。例えば、条件データＸと音響データＺとの関係を学習した既存の生成モデルＭを利用できる。なお、第１実施形態においては、条件データＸと特徴データＹとを含む制御データＤが生成モデルＭに入力される。したがって、条件データＸを調整する第４実施形態と比較して、制御データＤの生成に必要な処理負荷を軽減できるという利点がある。また、第２実施形態または第３実施形態の構成は、第４実施形態にも同様に適用される。

第１実施形態および第４実施形態の例示から理解される通り、制御データＤは、楽曲データＳ（条件データＸ）と特徴データＹとに応じたデータとして包括的に表現される。すなわち、条件データＸと特徴データＹとを含む第１実施形態の制御データＤと、特徴データＹに応じた条件データＸの調整により生成される第４実施形態の制御データＤとの双方が、「楽曲データＳと特徴データＹとに応じたデータ」という概念には包含される。

Ｅ：第５実施形態
図１２は、第５実施形態における特徴データ生成部３３の構成を例示するブロック図である。第５実施形態の特徴データ生成部３３は、特徴データＹの生成に生成モデル３３４を利用する。生成モデル３３４は、楽曲データＳと特徴データＹ（特徴値Ｆ）との関係を機械学習により学習した学習済モデルである。すなわち、生成モデル３３４は、楽曲データＳの入力に対して統計的に妥当な特徴データＹを出力する。特徴抽出部３３１は、楽曲データＳを生成モデル３３４に入力することで、特徴データＹを生成する。特徴データＹの時系列が表す特徴値系列Ｑを、編集処理部３３２が利用者からの指示に応じて編集する点は、第１実施形態と同様である。

生成モデル３３４は、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式のニューラルネットワークが生成モデル３３４として利用される。複数種の深層ニューラルネットワークの組合せで生成モデル３３４が構成されてもよい。また、長短期記憶等の付加的な要素が生成モデル３３４に搭載されてもよい。

生成モデル３３４は、楽曲データＳから特徴データＹを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。生成モデル３３４を実現するプログラムと当該生成モデル３３４の複数の変数とは、記憶装置１２に記憶される。生成モデル３３４を規定する複数の変数の各々の数値は、機械学習により事前に設定される。

第５実施形態においても第１実施形態と同様の効果が実現される。なお、第２実施形態から第４実施形態の構成は、第５実施形態にも同様に適用される。

Ｆ：第６実施形態
図１３は、第６実施形態における情報システム１００の構成を例示するブロック図である。第６実施形態の情報システム１００は、音響処理システム１０aと音響処理システム１０bと機械学習システム２０とを具備する。音響処理システム１０aは利用者Ｕaにより使用され、音響処理システム１０bは利用者Ｕbにより使用される。音響処理システム１０aおよび音響処理システム１０bの各々の構成は、第１実施形態の音響処理システム１０と同様である。

音響処理システム１０aは、利用者Ｕaの所望の楽曲に関する投稿データＰを機械学習システム２０に送信する。１個の楽曲の投稿データＰは、当該楽曲の楽曲データＳと、特徴データＹの時系列と、当該楽曲の目標音を表す音響信号Ａとを含む。

投稿データＰの特徴データＹは、当該投稿データＰの楽曲データＳと利用者Ｕaからの指示とに応じて特徴データ生成部３３が生成したデータである。すなわち、特徴データＹの時系列は、利用者Ｕaからの指示に応じた編集後の特徴値系列Ｑを表す。利用者Ｕaは、独自の音楽理論に対応するように特徴値系列Ｑの編集を指示する。したがって、投稿データＰに含まれる特徴データＹの時系列（特徴値系列Ｑ）には、利用者Ｕaの独自の音楽理論が反映されている。

音響信号Ａは、特徴データＹの時系列に応じた音楽的な表情が付加された目標音を表す。したがって、利用者Ｕaの独自の音楽理論は、音響信号Ａにも反映されている。例えば、利用者Ｕaからの指示に応じた特徴値系列Ｑの編集を含む合成処理Ｓaにより生成された音響信号Ａが、投稿データＰに含まれる。また、利用者Ｕaが自身の音楽理論に沿って楽曲を演奏し、演奏音の収録により生成された音響信号Ａが投稿データＰに含まれてもよい。

以上の説明の通り、投稿データＰは、音楽理論に依存しない標準的な楽曲データＳと、利用者Ｕaの独自の音楽理論が反映された特徴データＹおよび音響信号Ａとを含む。音響処理システム１０aの制御装置１１は、以上に説明した投稿データＰを通信装置１３から機械学習システム２０に送信する。機械学習システム２０の制御装置２１は、音響処理システム１０aから送信された投稿データＰを通信装置２３により受信し、当該投稿データＰを記憶装置２２に保存する。音響処理システム１０aによる投稿データＰの送信は、利用者Ｕaからの指示に応じて反復される。したがって、機械学習システム２０の記憶装置２２には、利用者Ｕaの複数の投稿データＰが記憶される。

図１４は、第６実施形態における機械学習システム２０の機能的な構成を例示するブロック図である。制御装置２１は、学習データ取得部５１および学習処理部５２として機能する。学習データ取得部５１は、利用者Ｕaの複数の投稿データＰの各々から複数の学習データＴを生成する。学習データ取得部５１は、条件データ生成部５１１と音響データ生成部５１３とを具備する。条件データ生成部５１１は、第１実施形態と同様に、各投稿データＰの楽曲データＳから単位期間毎に条件データＸtを生成する。条件データ生成部５１１が生成した条件データＸと投稿データＰ内の特徴データＹとを含む学習用の制御データＤtが生成される。

音響データ生成部５１３は、第１実施形態と同様に、各投稿データＰの音響信号Ａから単位期間毎に音響データＺtを生成する。学習用の制御データＤtと音響データ生成部５１３が生成した音響データＺtとを含む学習データＴが、単位期間毎に生成される。利用者Ｕaの複数の投稿データＰの各々について以上の処理が実行されることで、相異なる楽曲または相異なる単位期間に対応する複数の学習データＴが利用者Ｕaについて生成される。利用者Ｕaの複数の学習データＴ（具体的には特徴データＹおよび音響データＺt）には、当該利用者Ｕaの独自の音楽理論が反映されている。

学習処理部５２は、利用者Ｕaの複数の学習データＴを利用した前述の学習処理Ｓbにより、当該利用者Ｕaの生成モデルＭを確立する。すなわち、利用者Ｕaの複数の投稿データＰから複数の学習データＴを生成する処理（Ｓb1）と、複数の学習データＴから利用者Ｕaの生成モデルＭを確立する処理（Ｓb2～Ｓb7）とが実行される。すなわち、利用者Ｕaの独自の音楽理論のもとで音響データＺを生成可能な生成モデルＭが生成される。利用者Ｕaの生成モデルＭは、通信装置２３から利用者Ｕbの音響処理システム１０bに送信される（Ｓb8）。

音響処理システム１０bの制御装置１１は、機械学習システム２０から送信された生成モデルＭを通信装置１３により受信し、当該生成モデルＭを記憶装置１２に保存する。制御装置１１は、生成モデルＭを利用した合成処理Ｓaにより音響信号Ａを生成する。具体的には、利用者Ｕbの所望の楽曲の楽曲データＳについて、利用者Ｕaの生成モデルＭを利用した合成処理Ｓaが実行される。したがって、利用者Ｕbの所望の楽曲について、利用者Ｕaの独自の音楽理論が反映された音響信号Ａが生成される。

なお、以上の説明においては、ひとりの利用者Ｕaの生成モデルＭが生成および利用される形態を例示したが、複数の利用者の各々について生成モデルＭが個別に生成される形態も想定される。例えば、相異なる利用者が使用する複数の音響処理システム１０の各々から、複数の投稿データＰが機械学習システム２０に送信される。そして、複数の投稿データＰから複数の学習データＴを生成する処理（Ｓb1）と、複数の学習データＴから生成モデルＭを確立する処理（Ｓb2～Ｓb7）とが、利用者毎に個別に実行される。そして、相異なる利用者について生成された複数の生成モデルＭのうち、利用者Ｕbが選択した利用者の生成モデルＭが、当該利用者Ｕbの音響処理システム１０bに送信される。なお、相異なる利用者の複数の生成モデルＭが機械学習システム２０から音響処理システム１０bに送信され、当該複数の生成モデルＭのうち利用者Ｕbが選択した利用者の生成モデルＭが合成処理Ｓaに選択的に利用されてもよい。また、第４実施形態の構成は、第６実施形態にも同様に適用される。

Ｇ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、音響データ生成部３５が単体の生成モデルＭを利用して音響データＺを生成したが、生成モデルＭの具体的な構成は、以上の例示に限定されない。例えば、以下の各態様の生成モデルＭ（Ｍa，Ｍb）が利用されてもよい。

［第１変形例］
図１５は、第１変形例に係る生成モデルＭaのブロック図である。条件データＸと特徴データＹとを含む制御データＤが生成モデルＭaに供給される。第１変形例の生成モデルＭaは、第１モデルＭa1と第２モデルＭa2とを具備する。第１モデルＭa1および第２モデルＭa2の各々は、例えば再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の深層ニューラルネットワークで構成される。

第１モデルＭa1は、条件データＸと中間データＶとの関係を機械学習により学習した学習済モデルである。中間データＶは、条件データＸの特徴を表す中間的なデータである。音響データ生成部３５は、制御データＤの条件データＸを第１モデルＭa1に入力することで、単位期間毎に中間データＶを生成する。すなわち、第１モデルＭa1は、条件データＸから中間データＶを生成するためのエンコーダとして機能する。

第１モデルＭa1が出力する中間データＶと制御データＤの特徴データＹとを含む制御データＲが、第２モデルＭa2に供給される。第２モデルＭa2は、制御データＲと音響データＺとの関係を機械学習により学習した学習済モデルである。音響データ生成部３５は、制御データＲを第２モデルＭa2に入力することで、単位期間毎に音響データＺを生成する。すなわち、第２モデルＭa2は、制御データＲから音響データＺを生成するためのデコーダとして機能する。

［第２変形例］
図１６は、第２変形例に係る生成モデルＭbのブロック図である。条件データＸと特徴データＹとを含む制御データＤが生成モデルＭbに供給される。第２変形例の生成モデルＭbは、時間モデルＭb1と音量モデルＭb2と音高モデルＭb3と音響モデルＭb4とを具備する。生成モデルＭbの各モデル（Ｍb1～Ｍb4）は、例えば再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の深層ニューラルネットワークで構成される。

時間モデルＭb1は、制御データＤと時間データＶ1との関係を機械学習により学習した学習済モデルである。時間データＶ1は、時間軸上における目標音の各発音点の時刻を指定する。例えば、制御データＤの条件データＸが指定する音符の始点と目標音の各発音点との時間的な差異が時間データＶ1により指定される。音響データ生成部３５は、制御データＤを時間モデルＭb1に入力することで、単位期間毎に時間データＶ1を生成する。

時間モデルＭb1が出力する時間データＶ1と制御データＤとを含む制御データＲ2が、音量モデルＭb2に供給される。音量モデルＭb2は、制御データＲ2と音量データＶ2との関係を機械学習により学習した学習済モデルである。音量データＶ2は、目標音の音量を指定する。音響データ生成部３５は、制御データＲ2を音量モデルＭb2に入力することで、単位期間毎に音量データＶ2を生成する。

音量モデルＭb2が出力する音量データＶ2と制御データＤとを含む制御データＲ3が、音高モデルＭb3に供給される。音高モデルＭb3は、制御データＲ3と音高データＶ3との関係を機械学習により学習した学習済モデルである。音高データＶ3は、目標音の音高を指定する。音響データ生成部３５は、制御データＲ3を音高モデルＭb3に入力することで、単位期間毎に音高データＶ3を生成する。なお、制御データＲ3は時間データＶ1を含んでもよい。

時間データＶ1と音量データＶ2と音高データＶ3と制御データＤとを含む制御データＲ4が、音響モデルＭb4に供給される。音響モデルＭb4は、制御データＲ4と音響データＺとの関係を機械学習により学習した学習済モデルである。音響データ生成部３５は、制御データＲ4を音響モデルＭb4に入力することで、単位期間毎に音響データＺを生成する。

以上の例示から理解される通り、生成モデルＭ（Ｍa，Ｍb）は、制御データＤに応じた音響データＺを出力する統計モデルとして包括的に表現され、具体的な構成の如何は不問である。

（２）要素値Ｅnの種類は以上の例示に限定されない。例えば、第１実施形態においては、前述の要素値Ｅ1～Ｅ3のほか、以下に例示する要素値Ｅ4および要素値Ｅ5を特徴データ生成部３３が生成してもよい。

例えば、楽曲のうち各楽節の終点の付近では音楽的な緊張度が増加または減少する傾向がある。以上の傾向を考慮して、要素値Ｅ4は、楽曲内の各楽節の末尾に位置する所定長の期間において増加または減少する数値である。また、楽曲の終点の付近でも同様に、音楽的な緊張度が増加または減少する傾向がある。以上の傾向を考慮して、要素値Ｅ5は、楽曲の末尾に位置する所定長の期間において増加または減少する数値である。

また、前述の各形態においては、楽曲データＳが指定するコードの和声機能（トニック／ドミナント／サブドミナント）に対応する数値を要素値Ｅ2として例示したが、要素値Ｅ2により表現されるコードの機能的な分類は、以上の例示に限定されない。例えば、前述の各形態で例示した３種類の和声機能（トニック／ドミナント／サブドミナント）にドッペルドミナント等の他の分類を追加してもよい。また、例えば、以上に例示した和声機能に加えて、和音の度数（Ｉ～VII）、転回形、付加和音（例えば七の和音等）、借用和音または変化和音等の各種の属性に応じてコードを分類し、楽曲データＳが指定するコードが属する分類に対応する数値を、特徴抽出部３３１が要素値Ｅ2として設定してもよい。

（３）前述の各形態においては、特徴値Ｆ0の移動平均を特徴値Ｆとして算定したが、特徴値Ｆ0から特徴値Ｆを算定する方法（すなわち特徴値Ｆ0の時系列を平滑化する方法）は、以上の例示に限定されない。例えば、移動平均以外のローパスフィルタ処理または補間処理を特徴値Ｆ0に対して実行することで特徴値Ｆを算定してもよい。ローパスフィルタ処理としては、例えば、一次遅れ系を利用した処理、ガウス分布の畳込を利用した処理、または周波数領域において高域成分を低減する処理等が例示される。また、補間処理としては、例えば、ラグランジュ補間またはスプライン補間等の各種の処理が例示される。なお、特徴値Ｆ0の時系列を平滑化する以上の処理は省略されてもよい。すなわち、第１実施形態においても前述した通り、前掲の数式(1)で算定される数値が特徴値Ｆとして確定されてもよい。

（４）前述の各形態においては、特徴データＹが１個の特徴値Ｆを含む形態を例示したが、特徴データＹが複数の特徴値Ｆを含む形態も想定される。例えば、前述の各形態におけるＮ個の要素値Ｅ1～ＥNが相異なる特徴値Ｆとして特徴データＹに含まれる形態も想定される。すなわち、Ｎ個の要素値Ｅ1～ＥNを１個の特徴値Ｆに統合する処理（例えば加重和の演算）は省略されてもよい。特徴データＹが複数の特徴値Ｆを含む形態においては、当該特徴データＹを含む学習用の制御データＤtを利用した前述の学習処理Ｓbにより、生成モデルＭが確立される。以上の生成モデルＭによれば、相異なる音楽的な観点が多次元的に反映された多様な音響データＺを生成できる。

（５）前述の各形態においては、音響データＺが目標音の周波数特性を表す形態を例示したが、音響データＺが表す情報は以上の例示に限定されない。例えば、音響データＺが目標音の各サンプルを表す形態も想定される。以上の形態では、音響データＺの時系列が音響信号Ａを構成する。したがって、信号生成部３６は省略される。

（６）前述の各形態においては、機械学習システム２０の学習データ取得部５１が基礎データＢから学習データＴを生成した。しかし、外部装置により学習データＴが生成される形態では、外部装置から通信装置２３により学習データＴを受信する要素、または、当該受信後の学習データＴを記憶装置２２から読み出す要素が、学習データ取得部５１に相当する。すなわち、学習データ取得部５１による学習データＴの「取得」は、学習データＴの生成、受信および読出等、学習データＴを取得する任意の動作を包含する。

（７）第２実施形態においては、音響処理システム１０の記憶装置１２に記憶されたＫ個の生成モデルＭ1～ＭKの何れかが選択的に合成処理Ｓaに利用される形態を例示したが、Ｋ個の生成モデルＭ1～ＭKを選択的に利用するための構成は、以上の例示に限定されない。例えば、機械学習システム２０が保持するＫ個の生成モデルＭ1～ＭKのうち、利用者が選択した生成モデルＭkが音響処理システム１０に送信され、当該生成モデルＭkが合成処理Ｓaに利用されてもよい。すなわち、音響処理システム１０がＫ個の生成モデルＭ1～ＭKを保持する必要はない。

（８）前述の各形態においては、楽曲データＳから各単位期間の特徴データＹを生成したが、特徴データ生成部３３が、各単位期間の条件データＸから当該単位期間の特徴データＹを生成してもよい。

（９）第６実施形態においては、投稿データＰが音響信号Ａを含む形態を例示したが、音響信号Ａに代えて音響データＺの時系列を投稿データＰが含む形態も想定される。投稿データＰが音響データＺの時系列を含む形態においては、図１４の学習データ取得部５１における音響データ生成部５１３が省略される。

（１０）前述の各形態においては、深層ニューラルネットワークを生成モデルＭとして例示したが、生成モデルＭは深層ニューラルネットワークに限定されない。例えば、ＨＭＭ（Hidden Markov Model）またはＳＶＭ（Support Vector Machine）等の任意の形式および種類の統計モデルが、生成モデルＭとして利用されてもよい。第５実施形態の生成モデル３３４についても同様に、形式または種類は任意である。

（１１）前述の各形態においては、機械学習システム２０が生成モデルＭを確立したが、生成モデルＭを確立する機能（学習データ取得部５１および学習処理部５２）は、音響処理システム１０に搭載されてもよい。第５実施形態の生成モデル３３４を確立する機能についても同様に、音響処理システム１０に搭載されてもよい。

（１２）例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により音響処理システム１０が実現されてもよい。例えば、音響処理システム１０は、情報装置から楽曲データＳを受信し、当該楽曲データＳを適用した合成処理Ｓaにより音響信号Ａを生成する。音響処理システム１０は、合成処理Ｓaにより生成した音響信号Ａを情報装置に送信する。なお、信号生成部３６が情報装置に搭載された形態では、合成処理Ｓaにより生成された音響データＺの時系列が情報装置に送信される。すなわち、音響処理システム１０から信号生成部３６は省略される。

（１３）音響処理システム１０の機能（指示受付部３１，条件データ生成部３２，特徴データ生成部３３，音響データ生成部３５，信号生成部３６）は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。また、機械学習システム２０の機能（学習データ取得部５１および学習処理部５２）は、前述の通り、制御装置２１を構成する単数または複数のプロセッサと、記憶装置２２に記憶されたプログラムとの協働により実現される。

以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網２００を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

Ｈ：付記
以上に例示した形態から、例えば以下の構成が把握される。

ひとつの態様（態様１）に係る音響処理方法は、利用者からの指示を受付け、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する。以上の態様においては、利用者からの指示と特定の音楽理論に応じた規則とに応じて特徴データの時系列が生成され、楽曲データと特徴データとに応じた制御データを生成モデルに入力することで、音響データが生成される。したがって、音響データに付加される音楽的な表情が単一の音楽理論のみに依存する形態と比較して、利用者からの指示を反映した多様な表情の音響データを生成できる。

態様１の具体例（態様２）において、前記楽曲データが指定する条件を表す条件データを生成し、前記音響データの生成においては、前記条件データと前記特徴データとを含む前記制御データを前記生成モデルに入力する。以上の態様においては、条件データと特徴データとを含む制御データが生成モデルに入力されるから、特徴データに応じた調整後の条件データを制御データとして生成モデルに入力する構成と比較して、制御データの生成に必要な処理負荷を軽減できる。

態様１の具体例（態様３）において、前記楽曲データが指定する条件を表す条件データを生成し、前記特徴データに応じた前記条件データの調整により前記制御データを生成する。以上の態様においては、特徴データを利用した条件データの調整により生成された制御データが生成モデルに入力されるから、特徴データが入力されない構成の生成モデルを音響データの生成に利用できる。

態様１から態様３の何れかの具体例（態様４）において、前記指示の受付においては、加重値に関する指示を前記利用者から受付け、前記特徴データの生成においては、前記音楽理論における相異なる種類の音楽的な特徴を表す複数の要素値を、前記楽曲データから生成し、前記利用者から受付けた前記加重値を適用した前記複数の要素値の加重和により前記特徴値を算定する。以上の態様においては、特定の音楽理論に関する複数の要素値について、利用者から指示された加重値を適用した加重和により特徴値が算定される。すなわち、複数の要素値の各々が特徴値に影響する度合を、利用者が調整できる。したがって、利用者の音楽的な意図または嗜好に沿った音響データを生成できる。

態様４の具体例（態様５）において、前記複数の要素値は、前記楽曲のコードに関する和声機能の種別を数値化した要素値を含み、前記音楽理論に対応する規則は、前記和声機能の種別を数値化するための規則を含む。

態様４または態様５の具体例（態様６）において、前記複数の要素値は、前記楽曲を構成する複数の楽節の各々に対応する要素値を含み、前記音楽理論に対応する規則は、前記各楽節に対応する要素値に関する規則を含む。

態様１から態様６の何れかの具体例（態様７）において、前記指示の受付においては、複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、前記音響データの生成においては、前記複数の音楽理論にそれぞれ対応する複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する。以上の態様においては、相異なる音楽理論に対応する複数の生成モデルのうち利用者が選択した音楽理論に対応する生成モデルを利用して音響データが生成される。したがって、利用者の音楽的な意図または嗜好に沿った音響データを生成できる。

態様７の具体例（態様８）において、前記指示の受付においては、時間軸上の複数の処理区間の各々について、前記複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、前記特徴データの生成においては、前記複数の処理区間の各々について、当該処理区間に指示された前記特定の音楽理論に対応する規則に応じて前記特徴データを生成し、前記音響データの生成においては、前記複数の処理区間の各々について、前記複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する。以上の態様においては、時間軸上の処理区間毎に音楽理論が個別に指示される。すなわち、特徴データの生成に適用される音楽理論と音響データの生成に利用される生成モデルとが、処理区間毎に個別に設定される。したがって、音楽的な表情が処理区間毎に変化する多様な音響データを生成できる。

本開示のひとつの態様（態様９）に係る音響処理システムは、利用者からの指示を受付ける指示受付部と、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部とを具備する。

本開示のひとつの態様（態様１０）に係るプログラムは、利用者からの指示を受付ける指示受付部、前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部、としてコンピュータシステムを機能させる。

本開示のひとつの態様（態様１１）に係る生成モデルの確立方法（生成方法）は、学習用制御データと学習用音響データとを含む学習データを取得し、前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、前記学習用制御データは、楽曲を表す楽曲データが指定する条件を表す条件データと、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、前記音響データは、前記楽曲データに対応する音を表す。

１００…情報システム、１０，１０a，１０b…音響処理システム、１１，２１…制御装置、１２，２２…記憶装置、１３，２３…通信装置、１４…放音装置、１５…操作装置、１６…表示装置、２０…機械学習システム、３１…指示受付部、３２…条件データ生成部、３３…特徴データ生成部、３３１…特徴抽出部、３３２…編集処理部、３３４…生成モデル、３４…調整処理部、３５…音響データ生成部、３６…信号生成部、５１…学習データ取得部、５１１…条件データ生成部、５１２…特徴データ生成部、５１３…音響データ生成部、５２…学習処理部、Ｍ，Ｍa，Ｍb…生成モデル。

Claims

利用者からの指示を受付け、
前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データを生成し、
前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する
コンピュータシステムにより実現される音響処理方法。
前記楽曲データが指定する条件を表す条件データを生成し、
前記音響データの生成においては、前記条件データと前記特徴データとを含む前記制御データを前記生成モデルに入力する
請求項１の音響処理方法。
前記楽曲データが指定する条件を表す条件データを生成し、
前記特徴データに応じた前記条件データの調整により前記制御データを生成する
請求項１の音響処理方法。
前記指示の受付においては、加重値に関する指示を前記利用者から受付け、
前記特徴データの生成においては、
前記音楽理論における相異なる種類の音楽的な特徴を表す複数の要素値を、前記楽曲データから生成し、
前記利用者から受付けた前記加重値を適用した前記複数の要素値の加重和により前記特徴値を算定する
請求項１から請求項３の何れかの音響処理方法。
前記複数の要素値は、前記楽曲のコードに関する和声機能の種別を数値化した要素値を含み、
前記音楽理論に対応する規則は、前記和声機能の種別を数値化するための規則を含む
請求項４の音響処理方法。
前記複数の要素値は、前記楽曲を構成する複数の楽節の各々に対応する要素値を含み、
前記音楽理論に対応する規則は、前記各楽節に対応する要素値に関する規則を含む
請求項４または請求項５の音響処理方法。
前記指示の受付においては、複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、
前記音響データの生成においては、前記複数の音楽理論にそれぞれ対応する複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する
請求項１から請求項６の何れかの音響処理方法。
前記指示の受付においては、時間軸上の複数の処理区間の各々について、前記複数の音楽理論の何れかを前記特定の音楽理論として選択する指示を前記利用者から受付け、
前記特徴データの生成においては、前記複数の処理区間の各々について、当該処理区間に指示された前記特定の音楽理論に対応する規則に応じて前記特徴データを生成し、
前記音響データの生成においては、前記複数の処理区間の各々について、前記複数の生成モデルのうち前記特定の音楽理論に対応する生成モデルを利用して、前記音響データを生成する
請求項７の音響処理方法。
利用者からの指示を受付ける指示受付部と、
前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部と、
前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部と
を具備する音響処理システム。
利用者からの指示を受付ける指示受付部、
前記利用者からの指示と特定の音楽理論に対応する規則とに応じて、楽曲を表す楽曲データから、前記楽曲における音楽的な特徴を表す特徴値を含む特徴データの時系列を生成する特徴データ生成部、および、
前記楽曲データと前記特徴データとに応じた制御データを機械学習済の生成モデルに入力することで、前記楽曲データに対応する音を表す音響データを生成する音響データ生成部
としてコンピュータシステムを機能させるプログラム。
学習用制御データと学習用音響データとを含む学習データを取得し、
前記学習データを利用した機械学習により、制御データの入力に対して音響データを出力する生成モデルを確立し、
前記学習用制御データは、
楽曲を表す楽曲データが指定する条件を表す条件データと、
前記楽曲における音楽的な特徴を表す特徴値を含む特徴データとを含み、
前記音響データは、前記楽曲データに対応する音を表す
コンピュータシステムにより実現される生成モデルの確立方法。