JP7251684B2

JP7251684B2 - アレンジ生成方法、アレンジ生成装置、及び生成プログラム

Info

Publication number: JP7251684B2
Application number: JP2022501825A
Authority: JP
Inventors: 正博鈴木
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-02-17
Filing date: 2021-02-09
Publication date: 2023-04-04
Anticipated expiration: 2041-02-09
Also published as: WO2021166745A1; CN115004294A; JPWO2021166745A1; US20220383843A1

Description

本発明は、機械学習により生成された訓練済みの生成モデルを用いて楽曲のアレンジを生成するアレンジ生成方法、アレンジ生成装置、及び生成プログラムに関する。

楽譜を生成するには種々の工程が必要である。一般的には、楽曲の基本構成（メロディ（旋律）、リズム、ハーモニー（和声））を作成する工程、基本構成に基づいてアレンジを作成する工程、作成された楽曲（アレンジ）に対応する音符及び演奏記号等の要素をレイアウトすることで楽譜データを作成する工程、楽譜データを紙媒体等に出力する工程、等の工程を経て楽譜が作成される。以上の工程は、従来から、主として人間の作業（例えば、人手によるコンピュータソフトの操作）によって実行されている。

しかしながら、楽譜を生成する工程の全てを人手で行う場合、楽譜を生成するコストが高くなってしまう。そこで、近年では、楽譜を生成する工程の少なくとも一部を自動化する技術の開発が進められている。例えば、特許文献１には、アレンジによる伴奏（バッキング）データを自動的に生成する技術が提案されている。当該技術によれば、アレンジを生成する工程の一部を自動化することができるため、アレンジを生成するコストの低減を図ることができる。

特開２０１７－５８５９４号公報

本件発明者らは、特許文献１等で提案される従来のアレンジの生成方法には次のような問題点があることを見出した。すなわち、従来の技術では、所定のアルゴリズムに従って演奏情報から伴奏データが生成される。しかしながら、自動アレンジの元となる楽曲は多種多様であるから、所定のアルゴリズムが常に演奏情報（楽曲）に適合するとは限らない。元の演奏情報が所定のアルゴリズムに適合しない場合、原曲から乖離したアレンジがされてしまい、適切なアレンジデータが生成できない可能性がある。また、従来の方法では、所定のアルゴリズムに従う一様なアレンジデータしか生成することができず、多様なアレンジデータを自動生成するのは困難である。したがって、従来の方法では、多様なアレンジデータを適切に生成するのが困難である。

本発明は、一側面では、以上の事情を鑑みてなされたものであり、その目的は、アレンジデータを生成するコストの低減を図ると共に、多様なアレンジデータを適切に生成するための技術を提供することである。

本発明は、上述した課題を解決するために、次の構成を採用する。すなわち、本発明の一側面に係るアレンジ生成方法は、コンピュータが、楽曲の少なくとも一部の旋律及び和声を示す演奏情報、並びに前記楽曲の少なくとも一部に関する特性を示すメタ情報を含む対象楽曲データを取得するステップと、機械学習により訓練済みの生成モデルを用いて、取得された前記対象楽曲データからアレンジデータを生成するステップであって、前記アレンジデータは、前記メタ情報に応じて前記演奏情報をアレンジすることで得られる、ステップと、生成された前記アレンジデータを出力するステップと、を実行する。

上記構成では、機械学習により生成された訓練済みの生成モデルを用いて、元の演奏情報を含む対象楽曲データからアレンジデータを生成する。十分な学習データを使用して機械学習を適切に実施することで、訓練済みの生成モデルは、多様な元の演奏情報からアレンジデータを適切に生成する能力を獲得することができる。そのため、そのような能力を獲得した訓練済みの生成モデルを用いることで、アレンジデータを適切に生成することができる。加えて、当該構成では、生成モデルの入力にメタ情報が含まれている。メタ情報によれば、アレンジデータの生成条件を制御することができる。よって、当該構成によれば、多様なアレンジデータを生成することができる。更に、当該構成によれば、アレンジデータを生成する工程を自動化することができるため、アレンジデータを生成するコストの低減を図ることができる。したがって、上記構成によれば、アレンジデータを生成するコストの低減を図ると共に、多様なアレンジデータを適切に生成することができる。

本発明によれば、アレンジデータを生成するコストの低減を図ると共に、多様なアレンジデータを適切に生成するための技術を提供することができる。

図１は、本発明が適用される場面の一例を模式的に例示する。図２は、実施の形態に係るアレンジ生成装置のハードウェア構成の一例を模式的に例示する。図３は、実施の形態に係るアレンジ生成装置のソフトウェア構成の一例を模式的に例示する。図４は、実施の形態に係る演奏情報の旋律及び和声の一例を示す譜面である。図５は、図４に示される旋律及び和声に基づいて生成されたアレンジの一例を示す譜面である。図６は、実施の形態に係る生成モデルの構成の一例を模式的に例示する。図７は、実施の形態に係る生成モデルに入力されるトークンの一例を説明するための図である。図８は、実施の形態に係る生成モデルから出力されるトークンの一例を説明するための図である。図９は、実施の形態に係るアレンジ生成装置による生成モデルの機械学習の処理手順の一例を示すフローチャートである。図１０は、実施の形態に係るアレンジ生成装置によるアレンジデータの生成処理（生成モデルによる推論処理）の手順の一例を示すフローチャートである。図１１は、変形例に係る生成モデルに入力されるトークンの一例を説明するための図である。図１２は、変形例に係る生成モデルから出力されるトークンの一例を説明するための図である。図１３は、本発明が適用される場面の他の一例を模式的に例示する。

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

＜１．適用例＞
図１は、本発明を適用した場面の一例を模式的に示す。本実施形態に係るアレンジ生成装置１は、訓練済みの生成モデル５を用いて、楽曲のアレンジデータ２５を生成するように構成されたコンピュータである。

まず、本実施形態に係るアレンジ生成装置１は、楽曲の少なくとも一部の旋律（メロディ）及び和声（コード）を示す演奏情報２１、並びに楽曲の少なくとも一部に関する特性を示すメタ情報２３を含む対象楽曲データ２０を取得する。次に、アレンジ生成装置１は、機械学習により訓練済みの生成モデル５を用いて、取得された対象楽曲データ２０からアレンジデータ２５を生成する。アレンジデータ２５は、メタ情報２３に応じて演奏情報２１をアレンジすることで得られるものである。すなわち、メタ情報２３は、アレンジの生成条件に対応する。アレンジ生成装置１は、生成されたアレンジデータ２５を出力する。

以上のとおり、本実施形態では、機械学習により生成された訓練済みの生成モデル５を用いて、元の演奏情報２１を含む対象楽曲データ２０からアレンジデータ２５を生成する。十分な学習データを使用して機械学習を適切に実施することで、訓練済みの生成モデル５は、多様な元の演奏情報からアレンジデータを適切に生成する能力を獲得することができる。そのため、そのような能力を獲得した訓練済みの生成モデル５を用いることで、アレンジデータ２５を適切に生成することができる。加えて、メタ情報２３により、アレンジデータ２５の生成条件を制御することができる。更に、訓練済みの生成モデル５を用いることで、アレンジデータ２５を生成する工程の少なくとも一部を自動化することができる。したがって、本実施形態によれば、アレンジデータ２５を生成するコストの低減を図ると共に、多様なアレンジデータ２５を適切に生成することができる。

＜２．構成例＞
＜２．１ハードウェア構成＞
図２は、本実施形態に係るアレンジ生成装置１のハードウェア構成の一例を模式的に例示する。図２に示されるとおり、本実施形態に係るアレンジ生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、入力装置１４、出力装置１５、及びドライブ１６が電気的に接続されたコンピュータである。なお、図２では、通信インタフェースを「通信Ｉ／Ｆ」と記載している。

制御部１１は、ハードウェアプロセッサ（プロセッサリソース）の一例であるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、生成プログラム８１、学習データ３、学習結果データ１２５等の各種情報を記憶する。

生成プログラム８１は、生成モデル５の機械学習及び訓練済みの生成モデル５を用いたアレンジデータ２５の生成に関する後述の情報処理（図９及び図１０）をアレンジ生成装置１に実行させるためのプログラムである。生成プログラム８１は、当該情報処理の一連の命令を含む。学習データ３は、生成モデル５の機械学習に使用される。学習結果データ１２５は、訓練済みの生成モデル５に関する情報を示す。本実施形態では、学習結果データ１２５は、生成モデル５の機械学習の処理を実行した結果として生成される。詳細は後述する。

通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。アレンジ生成装置１は、通信インタフェース１３を利用して、他の情報処理装置との間で、ネットワークを介したデータ通信を実行することができる。

入力装置１４は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１５は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。一例では、入力装置１４及び出力装置１５は、別々に構成されてよい。他の一例では、入力装置１４及び出力装置１５は、例えば、タッチパネルディスプレイ等により一体的に構成されてよい。ユーザ等のオペレータは、入力装置１４及び出力装置１５を利用することで、アレンジ生成装置１を操作することができる。

ドライブ１６は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラム等の各種情報を読み込むためのドライブ装置である。記憶媒体９１は、コンピュータその他装置、機械等が、記憶されたプログラム等の各種情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。上記生成プログラム８１及び学習データ３の少なくともいずれかは、記憶媒体９１に記憶されていてもよい。アレンジ生成装置１は、この記憶媒体９１から、上記生成プログラム８１及び学習データ３の少なくともいずれかを取得してもよい。なお、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限られなくてもよく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ１６の種類は、記憶媒体９１の種類に応じて任意に選択されてよい。

なお、アレンジ生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサの種類は、ＣＰＵに限られなくてよい。ハードウェアプロセッサは、例えば、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＧＰＵ（Graphics Processing Unit）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、入力装置１４、出力装置１５及びドライブ１６の少なくともいずれかは省略されてもよい。アレンジ生成装置１は、外部装置と接続するための外部インタフェースを備えてよい。外部インタフェースは、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等により構成されてよい。アレンジ生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、アレンジ生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ（Personal Computer）、携帯端末（例えば、スマートフォン、タブレットＰＣ）等であってもよい。

＜２．２ソフトウェア構成＞
図３は、本実施形態に係るアレンジ生成装置１のソフトウェア構成の一例を模式的に例示する。アレンジ生成装置１の制御部１１は、記憶部１２に記憶された生成プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、本実施形態に係るアレンジ生成装置１は、学習データ取得部１１１、学習処理部１１２、保存処理部１１３、対象データ取得部１１４、アレンジ生成部１１５、楽譜生成部１１６、及び出力部１１７をソフトウェアモジュールとして備えるように構成される。すなわち、本実施形態では、アレンジ生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

学習データ取得部１１１は、学習データ３を取得するように構成される。学習データ３は、複数の学習データセット３００により構成される。各学習データセット３００は、訓練楽曲データ３０及び既知のアレンジデータ３５の組み合わせにより構成される。訓練楽曲データ３０は、生成モデル５の機械学習において訓練データとして使用される楽曲データである。訓練楽曲データ３０は、楽曲の少なくとも一部の旋律及び和声を示す演奏情報３１、並びに楽曲の少なくとも一部に関する特性を示すメタ情報３３を含む。メタ情報３３は、演奏情報３１から対応する既知のアレンジデータ３５を生成する条件を示す。

学習処理部１１２は、取得された複数の学習データセット３００を使用して、生成モデル５の機械学習を実施するように構成される。保存処理部１１３は、機械学習により生成された訓練済みの生成モデル５に関する情報を学習結果データ１２５として生成し、生成された学習結果データ１２５を所定の記憶領域に保存するように構成される。学習結果データ１２５は、訓練済みの生成モデル５を再生するための情報を含むように適宜構成されてよい。

対象データ取得部１１４は、楽曲の少なくとも一部の旋律及び和声を示す演奏情報２１、並びに楽曲の少なくとも一部に関する特性を示すメタ情報２３を含む対象楽曲データ２０を取得するように構成される。対象楽曲データ２０は、訓練済みの生成モデル５に入力されることで、アレンジの対象となる（すなわち、アレンジの元となる）楽曲データである。アレンジ生成部１１５は、学習結果データ１２５を保持していることで、訓練済みの生成モデル５を備える。アレンジ生成部１１５は、機械学習により訓練済みの生成モデル５を用いて、取得された対象楽曲データ２０からアレンジデータ２５を生成する。アレンジデータ２５は、メタ情報２３に応じて演奏情報２１をアレンジすることで得られる。楽譜生成部１１６は、生成されたアレンジデータ２５を用いて楽譜データ２７を生成するように構成される。出力部１１７は、生成されたアレンジデータ２５を出力するように構成される。本実施形態では、アレンジデータ２５を出力することは、生成された楽譜データ２７を出力することにより構成されてよい。

（各種データ）
演奏情報（２１、３１）は、楽曲の少なくとも一部の旋律及び和音を示すように適宜構成されてよい。楽曲の少なくとも一部は、例えば、４小節分等の所定の長さで規定されてよい。一例では、演奏情報（２１、３１）は、直接的に与えられてよい。他の一例では、演奏情報（２１、３１）は、例えば、楽譜等の他の形式のデータから得られてよい。具体例として、演奏情報（２１、３１）は、旋律及び和音を含む楽曲の演奏を示す様々なタイプのオリジナルデータから取得されてよい。オリジナルデータは、例えば、ＭＩＤＩデータ、オーディオ波形データ等であってよい。一例では、オリジナルデータは、例えば、記憶部１２、記憶媒体９１等の自装置のメモリリソースから読み込まれてもよい。他の一例では、オリジナルデータは、例えば、他のスマートフォン、楽曲提供サーバ、ＮＡＳ（Network Attached Storage）等の外部装置から得られてもよい。オリジナルデータは、旋律及び和声以外のデータを含んでもよい。演奏情報（２１、３１）における和声は、オリジナルデータに対して和声推定処理を実行することで特定されてよい。和声推定処理には、公知の方法が採用されてよい。

メタ情報（２３、３３）は、アレンジの生成条件を示すように適宜構成されてよい。本実施形態では、メタ情報（２３、３３）は、難易度情報、スタイル情報、構成情報、及びテンポ情報の少なくともいずれかを含むように構成されてよい。難易度情報は、アレンジの条件として演奏上の難しさを示すように構成される。一例では、難易度情報は、難易度のカテゴリ（例えば、「初級」、「初中級」、「中級」、「中上級」、及び「上級」のいずれか）を示す値により構成されてよい。スタイル情報は、アレンジの条件としてアレンジの音楽的なスタイルを示すように構成される。一例では、スタイル情報は、編曲者（アレンジャー）を特定するための編曲者情報（例えば、編曲者ＩＤ）、及びアーティストを特定するためのアーティスト情報（例えば、アーティストＩＤ）の少なくともいずれかを含むように構成されてよい。

構成情報は、アレンジの条件として楽曲における楽器構成を示すように構成される。一例では、構成情報は、アレンジに用いられる楽器のカテゴリを示す値により構成されてよい。楽器のカテゴリは、例えば、ＧＭ（General MIDI）規格に準じて与えられてよい。テンポ情報は、楽曲のテンポを示すように構成される。一例では、テンポ情報は、複数のテンポ範囲（例えば、ＢＰＭ＝６０未満、６０以上８４未満、８４以上１０８未満、１０８以上１４４未満、１４４以上１９２未満、１９２以上）のうちの楽曲の属するテンポ範囲を示す値により構成されてよい。

機械学習の場面において、メタ情報３３は、対応する既知のアレンジデータ３５に予め関連付けられていてよく、この場合、メタ情報３３は、既知のアレンジデータ３５から取得されてよい。メタ情報３３は、対応する既知のアレンジデータ３５を解析することで得られてよい。メタ情報３３は、演奏情報３１を指定した（例えば、オリジナルデータを入力した）オペレータによる入力装置１４を介した入力により得られてもよい。一方、推論処理（アレンジ生成）の場面において、メタ情報２３は、生成するアレンジの条件を指定するように適宜決定されてよい。一例では、メタ情報２３は、例えば、ランダム、所定の規則に従って決定する等の方法によりアレンジ生成装置１又は他のコンピュータにより自動的に選択されてよい。他の一例では、メタ情報２３は、アレンジデータの生成を所望するユーザによる入力装置１４を介した入力により得られてもよい。

アレンジデータ（２５、３５）は、楽曲の少なくとも一部の旋律及び和声に対応する伴奏音（アレンジ音）を含むように構成される。アレンジデータ（２５、３５）は、例えば、スタンダードＭＩＤＩファイル（ＳＭＦ）等の形式で得られてよい。機械学習の場面において、既知のアレンジデータ３５は、正解データとして使用可能なように、演奏情報３１及びメタ情報３３に応じて適宜得られてよい。既知のアレンジデータ３５は、所定のアルゴリズムに従って演奏情報３１から自動的に生成されてもよいし、或いは少なくとも部分的に手作業により生成されてもよい。既知のアレンジデータ３５は、例えば、既存の楽譜データに基づいて生成されてよい。

図４は、本実施形態に係る演奏情報（２１、３１）の旋律及び和声の一例を示す譜面を例示する。図４に例示されるとおり、演奏情報（２１、３１）は、単音（休符を含む）のシークエンスによって構成される旋律（単旋律）、及び時間と共に進行する和声（Ａｍ、Ｆ等のコード情報）を含むように構成されてよい。

図５は、図４に示される旋律及び和声に基づいて生成されるアレンジの一例を示す譜面を例示する。図５に例示されるとおり、アレンジデータ（２５、３５）は、複数の演奏パート（一例では、ピアノの右手パート及び左手パート）を含んでよい。アレンジデータ（２５、３５）は、演奏情報（２１、３１）に含まれている旋律を構成する旋律音に加えて、旋律及び和声に対応する伴奏音（アレンジ音）を含むように構成されてよい。

図４及び図５の例では、１小節目の冒頭において、演奏情報（２１、３１）に含まれる旋律はＡ音（付点４分音符）あり、和声はＡマイナー（本例の調であるハ長調のVIの和音）である。これに対応して、アレンジデータ（２５、３５）は、右手パートに含まれる旋律音に加えて、和声法に従う伴奏音として、Ａマイナーの構成音であるＡ音（表拍の８分音符）及びＥ音（表拍の付点４分音符及び裏拍の８分音符）を含んでいる。

なお、図示のとおり、アレンジデータ（２５、３５）に含まれる伴奏音は、和声を構成する音を単に伸ばした音に限定されなくてよい。アレンジデータ（２５、３５）は、和声に加えて旋律の音高及びリズムに対応した音（例えば、対位法的に構成された音）を含んでよい。

（生成モデルの構成例）
図６は、本実施形態に係る生成モデル５の構成の一例を模式的に例示する。生成モデル５は、機械学習により調整されるパラメータを有する機械学習モデルにより構成される。機械学習モデルの種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例では、図６に示されるとおり、生成モデル５は、参考文献「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.」で提案されるTransformerに基づいた構成を有してよい。Transformerは、系列データ（自然言語等）を処理する機械学習モデルであって、注意（Attention）ベースの構成を有する。

図６の例では、生成モデル５は、エンコーダ５０及びデコーダ５５を備える。エンコーダ５０は、自己注意を求める複数ヘッド注意層（Multi-Head Attention Layer）及びフィードフォワード層（Feed Forward Layer）をそれぞれ有する複数のブロックをスタックすることで構成された構造を有する。一方、デコーダ５５は、自己注意を求めるマスク化複数ヘッド注意層（Masked Multi-Head Attention Layer）、ソース・ターゲット注意を求める複数ヘッド注意層、及びフィードフォワード層をそれぞれ有する複数のブロックをスタックすることで構成された構造を有する。図６に示されるとおり、エンコーダ５０及びデコーダ５５の各層には、加算・正規化層（Addition and Normalization Layer）が設けられてよい。各層には、１つ以上のノードが含まれてよく、各ノードには、閾値が設定されてよい。閾値は、活性化関数により表現されてよい。また、隣接する層のノード間の結合には、重み（結合荷重）が設定されてよい。ノード間の結合の重み及び閾値が、生成モデル５のパラメータの一例である。

更に、図７及び図８を用いて、生成モデル５の入力形式及び出力形式の一例について説明する。図７は、本実施形態に係る生成モデル５に入力される楽曲データの入力形式（トークン）の一例を説明するための図である。図８は、本実施形態に係る生成モデル５から出力されるアレンジデータの出力形式（トークン）の一例を説明するための図である。本実施形態では、図７に示されるとおり、機械学習及び推論処理の場面において、楽曲データ（２０、３０）は、複数のトークンＴを含む入力トークン列に変換される。入力トークン列は、楽曲データ（２０、３０）に対応するように適宜生成されてよい。

機械学習の段階において、学習処理部１１２は、訓練楽曲データ３０に対応する入力トークン列に含まれるトークンを生成モデル５に入力し、生成モデル５の演算を実行することで、アレンジデータ（推論結果）に対応する出力トークン列を生成するように構成される。一方、推論段階において、アレンジ生成部１１５は、アレンジの対象楽曲データ２０に対応する入力トークン列に含まれるトークンを訓練済みの生成モデル５に入力し、訓練済みの生成モデル５の演算処理を実行することで、アレンジデータ２５に対応する出力トークン列を生成するように構成される。

図７に例示されるとおり、入力トークン列に含まれる各トークンＴは、演奏情報（２１、３１）又はメタ情報（２３、３３）を示す情報要素である。難易度トークン（例えば、level_400）は、メタ情報（２３、３３）に含まれる難易度情報（例えば、ピアノ中級）を示す。スタイルトークン（例えば、arr_1）は、メタ情報（２３、３３）に含まれるスタイル情報（例えば、編曲者Ａ）を示す。テンポトークン（例えば、tempo_72）は、メタ情報（２３、３３）に含まれるテンポ情報（例えば、４分音符＝７２付近のテンポ範囲）を示す。

コードトークン（例えば、chord_0 root_0）は、演奏情報（２１、３１）に含まれる和声（例えば、根音がＣであるＣメジャー）を示す。ノートオントークン（例えば、on_67）、ホールドトークン（例えば、wait_4）、及びノートオフトークン（例えば、off_67）は、演奏情報（２１、３１）に含まれる旋律を構成する音（例えば、音高Ｇ４の４分音符）を示す。なお、ノートオントークンは新たに発音すべき音の音高を示し、ノートオフトークンは停止すべき音の音高を示し、ホールドトークンは発音（または無音）状態を維持すべき時間長を示す。したがって、ノートオントークンによって所定の音が鳴らされ、ホールドトークンによって上記の音が鳴っている状態が維持され、ノートオフトークンによって上記の音が停止される。

本実施形態では、入力トークン列は、メタ情報（２３、３３）に対応するトークンＴが配置された後に、演奏情報（２１、３１）に対応するトークンＴが時系列に対応して配置されるように構成される。なお、図７の例では、入力トークン列において、難易度トークン、スタイルトークン、及びテンポトークンの順番で、メタ情報（２３、３３）に含まれる各種情報のトークンＴが配置されている。しかしながら、メタ情報（２３、３３）が複数種類の情報を含む場合に、入力トークン列におけるメタ情報（２３、３３）の各種情報に対応するトークンＴの配置順序は、このような例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。

図６に示されるとおり、本実施形態に係る生成モデル５は、入力トークン列に含まれるトークンＴの入力を先頭から順に受け付けるように構成される。生成モデル５に入力されたトークンＴは、入力エンベディング処理によって所定の次元数を有するベクトルにそれぞれ変換され、位置エンコーディング処理によって楽曲内（フレーズ内）での位置を特定する値が付与された後、エンコーダ５０に入力される。エンコーダ５０は、当該入力に対して、複数ヘッド注意層及びフィードフォワード層による処理をブロック数分だけ繰り返し実行して特徴表現を取得し、取得した特徴表現を次段のデコーダ５５（複数ヘッド注意層）に供給する。

デコーダ５５（マスク化複数ヘッド注意層）には、エンコーダ５０からの入力に加えて、デコーダ５５からの既知（過去）の出力が供給される。すなわち、本実施形態に係る生成モデル５は、再帰構造を有するように構成されている。デコーダ５５は、上記入力に対して、マスク化複数ヘッド注意層、複数ヘッド注意層、及びフィードフォワード層による処理をブロック数分だけ繰り返し実行して特徴表現を取得して出力する。デコーダ５５からの出力は、線形層及びソフトマックス層において変換され、アレンジに相当する情報が付与されたトークンＴとして出力される。

図８に例示されるとおり、生成モデル５から出力される各トークンＴは、演奏情報又はメタ情報を示す情報要素であって、アレンジデータを構成する。生成モデル５からそれぞれ順次得られる複数のトークンＴにより、アレンジデータに対応する出力トークン列が構成される。メタ情報に対応するトークンＴについては、入力トークン列（図７）と同様であるため、説明を省略する。

アレンジデータに含まれる演奏情報を示すトークンＴ（ノートオントークン、ノートオフトークン）は、複数の演奏パート（ピアノの右手パート、左手パート）の音に対応してよい。すなわち、上記図５に示されるとおり、生成モデル５から出力される複数のトークンＴ（出力トークン列）は、入力された演奏情報（２１、３１）に対応するトークンＴにより示される旋律を構成する旋律音に加えて、旋律及び和声に対応する伴奏音（アレンジ音）を示すように構成されてよい。

入力トークン列と同様に、出力トークン列は、メタ情報に対応するトークンＴが配置された後に、演奏情報に対応するトークンＴが時系列に対応して配置されるように構成される。出力トークン列におけるメタ情報の各種情報に対応するトークンＴの配置順序は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。

機械学習の段階では、学習処理部１１２は、各学習データセット３００について、訓練楽曲データ３０を示す複数のトークンＴ（入力トークン列）を訓練データ（入力データ）として用い、対応するアレンジデータ３５を示す複数のトークンＴ（出力トークン列）を正解データ（教師信号）として用いて、生成モデル５の機械学習を実施する。具体的には、学習処理部１１２は、各学習データセット３００について、訓練楽曲データ３０に対応する入力トークン列を生成モデル５に入力し、生成モデル５の演算を実行することで得られる出力トークン列（アレンジデータの推論結果）が対応する正解データ（既知のアレンジデータ３５）に適合するものとなるように生成モデル５を訓練するように構成される。換言すると、学習処理部１１２は、各学習データセット３００について、訓練楽曲データ３０に対応する入力トークン列から生成モデル５により生成される出力トークン列により示されるアレンジデータと対応する既知のアレンジデータ３５との間の誤差が小さくなるように生成モデル５のパラメータの値を調整するように構成される。生成モデル５の機械学習の処理には、複数の正規化手法（例えば、ラベル平滑化、残差ドロップアウト、注意ドロップアウト）が適用されてよい。

推論（アレンジ生成）の段階では、アレンジ生成部１１５は、アレンジの対象楽曲データ２０を示す複数のトークンＴ（入力トークン列）を訓練済みの生成モデル５のエンコーダ５０（図６の例では、入力エンベディング層を経た後に、最初に配置された複数ヘッド注意層）に先頭から順に入力して、エンコーダ５０の演算処理を実行する。この演算処理の結果、アレンジ生成部１１５は、訓練済みの生成モデル５（図６の例では、最後に配置されたソフトマックス層）から出力されるトークンＴを順次取得することで、アレンジデータ２５（出力トークン列）を生成する。この処理の際、アレンジデータ２５は、例えば、ビーム探索等の探索法を用いて生成されてよい。より具体的には、アレンジ生成部１１５は、生成モデル５から出力された値の確率分布からスコアの高い順にｎ個の候補トークンを保持し、連続するｍ個における統合スコアが最も高くなるように候補トークンを選択することで、アレンジデータ２５を生成してよい（ｎ，ｍは２以上の整数）。この処理は、機械学習における推論結果を得る処理にも適用されてよい。

（その他）
アレンジ生成装置１の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、アレンジ生成装置１の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、上記ソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサ（例えば、特定用途向け集積回路（ＡＳＩＣ））により実現されてもよい。上記各モジュールは、ハードウェアモジュールとして実現されてもよい。また、アレンジ生成装置１のソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

＜３．動作例＞
＜３．１機械学習の処理手順＞
図９は、本実施形態に係るアレンジ生成装置１による生成モデル５の機械学習に関する処理手順の一例を示すフローチャートである。以下で説明する機械学習に関する処理手順は、モデル生成方法の一例である。ただし、以下で説明するモデル生成方法の処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

ステップＳ８０１では、制御部１１は、学習データ取得部１１１として動作し、各学習データセット３００を構成する演奏情報３１を取得する。一例では、演奏情報３１は、直接的に与えられてよい。他の一例では、演奏情報３１は、例えば、楽譜等の他の形式のデータから得られてよい。具体例として、演奏情報３１は、既知のオリジナルデータの旋律及び和声を解析することで生成されてよい。

ステップＳ８０２では、制御部１１は、学習データ取得部１１１として動作し、各件の演奏情報３１に対するメタ情報３３を取得する。メタ情報３３は、アレンジの楽曲に関する特性を示すように適宜構成されてよい。本実施形態では、メタ情報３３は、難易度情報、スタイル情報、構成情報、及びテンポ情報の少なくともいずれかを含むように構成されてよい。メタ情報３３は、演奏情報３１を指定した（例えば、オリジナルデータを入力した）オペレータによる入力装置１４を介した入力により得られてもよい。ステップＳ８０１及びステップＳ８０２の処理により、各学習データセット３００の訓練楽曲データ３０を取得することができる。

ステップＳ８０３では、制御部１１は、学習データ取得部１１１として動作し、各件の訓練楽曲データ３０に対応する既知のアレンジデータ３５を取得する。既知のアレンジデータ３５は、正解データとして使用可能なように適宜生成されてよい。すなわち、既知のアレンジデータ３５は、対応するメタ情報３３に示される条件で、対応する演奏情報３１に示される楽曲をアレンジすることで得られる楽曲を示すように適宜生成されてよい。一例では、既知のアレンジデータ３５は、演奏情報３１の取得に利用した既知のオリジナルデータに対応して生成されてよい。上記メタ情報３３は、対応する既知のアレンジデータ３５から取得されてもよい。得られた既知のアレンジデータ３５は、対応する訓練楽曲データ３０に適宜関連付けられてよい。ステップＳ８０１～ステップＳ８０３の処理により、複数の学習データセット３００を取得することができる。

ステップＳ８０４では、制御部１１は、学習処理部１１２として動作し、各学習データセット３００の訓練楽曲データ３０（演奏情報３１及びメタ情報３３）を複数のトークンＴに変換する。これにより、制御部１１は、各学習データセット３００の訓練楽曲データ３０に対応する入力トークン列を生成する。上記のとおり、本実施形態では、入力トークン列は、メタ情報３３に対応するトークンＴが配置された後に、演奏情報３１に対応するトークンＴが時系列に対応して配置されるように構成される。

なお、ステップＳ８０１及びステップＳ８０２の処理がステップＳ８０４よりも前に実行される限り、ステップＳ８０１～ステップＳ８０４の処理の順序は、上記の例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。他の一例では、ステップＳ８０２の処理が、ステップＳ８０１よりも先に実行されてよい。或いは、ステップＳ８０１及びステップＳ８０２の処理は並列的に実行されてよい。他の一例では、ステップＳ８０４の処理は、ステップＳ８０１及びステップＳ８０２それぞれに対応して実行されてよい。すなわち、制御部１１は、演奏情報３１の取得に応じて、演奏情報３１の部分のトークンＴを生成し、メタ情報３３の取得に応じて、メタ情報３３の部分のトークンＴを生成してもよい。他の一例では、ステップＳ８０４の処理は、ステップＳ８０１～ステップＳ８０３の少なくともいずれかよりも先に実行されてよい。その他の一例では、ステップＳ８０３及びステップＳ８０４の処理は並列的に実行されてもよい。

また、ステップＳ８０１～ステップＳ８０４の処理の少なくとも一部は、他のコンピュータにより実行されてよい。この場合、制御部１１は、ネットワーク、記憶媒体９１、その他の外部記憶装置（例えば、ＮＡＳ、外付け記憶媒体等）等を介して、他のコンピュータから演算結果を取得することで、ステップＳ８０１～ステップＳ８０４の処理の少なくとも一部を達成してもよい。一例では、各学習データセット３００は、他のコンピュータにより生成されてよい。この場合、制御部１１は、ステップＳ８０１～ステップＳ８０３の処理として、他のコンピュータから各学習データセット３００を取得してもよい。複数の学習データセット３００のうちの少なくとも一部が他のコンピュータで生成され、残りがアレンジ生成装置１で生成されてもよい。

ステップＳ８０５では、制御部１１は、学習処理部１１２として動作し、複数の学習データセット３００（学習データ３）を使用して、生成モデル５の機械学習を実施する。本実施形態では、制御部１１は、各学習データセット３００について、順伝播の演算処理として、ステップＳ８０４の処理により得られた入力トークン列に含まれるトークンＴを先頭から順に生成モデル５に入力し、生成モデル５の演算を繰り返し実行することで、出力トークン列を構成するトークンＴを順次生成する。この演算により、制御部１１は、推論結果として、各件の訓練楽曲データ３０に対応するアレンジデータ（出力トークン列）を取得することができる。続いて、制御部１１は、得られたアレンジデータ及び対応する既知のアレンジデータ３５（正解データ）との間の誤差を算出し、算出された誤差の勾配を更に算出する。制御部１１は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、生成モデル５のパラメータの値の誤差を算出する。制御部１１は、算出された誤差に基づいて、生成モデル５のパラメータの値を調整する。制御部１１は、所定の条件（例えば、規定回数実行する、算出される誤差の和が閾値以下になる）を満たすまで、上記一連の処理による生成モデル５のパラメータの値の調整を繰り返してよい。

この機械学習により、生成モデル５は、各学習データセット３００について、訓練楽曲データ３０から生成したアレンジデータが対応する既知のアレンジデータ３５に適合するものとなるように訓練される。したがって、機械学習の結果、各学習データセット３００により与えられる入力トークン列（訓練楽曲データ３０）及び出力トークン列（既知のアレンジデータ３５）の間の対応関係を学習した訓練済みの生成モデル５を生成することができる。換言すると、メタ情報３３に示される条件に従って演奏情報３１（オリジナル）の旋律及び和声を、既知のアレンジデータ３５（正解データ）に適合するようにアレンジする能力を獲得した訓練済みの生成モデル５を生成することができる。

ステップＳ８０６では、制御部１１は、保存処理部１１３として動作し、機械学習により生成された訓練済みの生成モデル５に関する情報を学習結果データ１２５として生成する。学習結果データ１２５には、訓練済みの生成モデル５を再生するための情報が保持される。一例として、学習結果データ１２５は、上記機械学習の調整により得られた生成モデル５の各パラメータの値を示す情報を含んでよい。場合によって、学習結果データ１２５は、生成モデル５の構造を示す情報を含んでよい。構造は、例えば、層の数、各層の種類、各層に含まれるノードの数、隣接する層のノード同士の結合関係等により特定されてよい。制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１６を介して記憶メディアに学習結果データ１２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してもよい。また、外部記憶装置は、例えば、アレンジ生成装置１に接続された外付けの記憶装置であってもよい。

学習結果データ１２５の保存が完了すると、制御部１１は、本動作例に係る生成モデル５の機械学習の処理手順を終了する。なお、制御部１１は、上記ステップＳ８０１～ステップＳ８０６の処理を定期又は不定期に繰り返すことで、学習結果データ１２５を更新又は新たに生成してもよい。この繰り返しの際に、機械学習に使用する学習データ３の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。これにより、制御部１１は、訓練済みの生成モデル５を更新又は新たに生成してもよい。また、機械学習の結果の保存が不要である場合、ステップＳ８０６の処理は省略されてよい。

＜３．２アレンジ生成の処理手順＞
図１０は、本実施形態に係るアレンジ生成装置１によるアレンジ生成に関する処理手順の一例を示すフローチャートである。以下で説明するアレンジ生成に関する処理手順は、アレンジ生成方法の一例である。ただし、以下で説明するアレンジ生成方法の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

ステップＳ９０１では、制御部１１は、対象データ取得部１１４として動作し、楽曲の少なくとも一部の旋律及び和声を示す演奏情報２１を取得する。一例では、演奏情報２１は、直接的に与えられてよい。他の一例では、演奏情報２１は、例えば、楽譜等の他の形式のデータから得られてよい。具体例として、演奏情報２１は、アレンジの対象となるオリジナルデータを解析することで得られてよい。

ステップＳ９０２では、制御部１１は、対象データ取得部１１４として動作し、楽曲の少なくとも一部に関する特性を示すメタ情報２３を取得する。本実施形態では、メタ情報２３は、難易度情報、スタイル情報、構成情報、及びテンポ情報の少なくともいずれかを含むように構成されてよい。一例では、メタ情報２３は、例えば、ランダム、所定の規則に従って決定する等の方法によりアレンジ生成装置１又は他のコンピュータにより自動的に選択されてよい。他の一例では、メタ情報２３は、ユーザによる入力装置１４を介した入力により得られてもよい。この場合、ユーザは、所望のアレンジ条件を指定することができる。ステップＳ９０１及びステップＳ９０２の処理により、制御部１１は、演奏情報２１及びメタ情報２３を含む対象楽曲データ２０を取得することができる。

ステップＳ９０３では、制御部１１は、アレンジ生成部１１５として動作し、対象楽曲データ２０に含まれる演奏情報２１及びメタ情報２３を複数のトークンＴに変換する。これにより、制御部１１は、アレンジの対象楽曲データ２０に対応する入力トークン列を生成する。上記のとおり、本実施形態では、入力トークン列は、メタ情報２３に対応するトークンＴが配置された後に、演奏情報２１に対応するトークンＴが時系列に対応して配置されるように構成される。

なお、ステップＳ９０１及びステップＳ９０２の処理がステップＳ９０３よりも前に実行される限り、ステップＳ９０１～ステップＳ９０３の処理の順序は、上記の例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。他の一例では、ステップＳ９０２の処理が、ステップＳ９０１よりも先に実行されてよい。或いは、ステップＳ９０１及びステップＳ９０２の処理は並列的に実行されてよい。他の一例では、ステップＳ９０３の処理は、ステップＳ９０１及びステップＳ９０２それぞれに対応して実行されてよい。すなわち、制御部１１は、演奏情報２１の取得に応じて、演奏情報２１の部分のトークンＴを生成し、メタ情報２３の取得に応じて、メタ情報２３の部分のトークンＴを生成してもよい。

ステップＳ９０４では、制御部１１は、アレンジ生成部１１５として動作し、学習結果データ１２５を参照して、機械学習により訓練済みの生成モデル５の設定を行う。訓練済みの生成モデル５の設定が既に完了している場合は、当該処理は省略されてよい。制御部１１は、機械学習により訓練済みの生成モデル５を用いて、取得された対象楽曲データ２０からアレンジデータ２５を生成する。本実施形態では、制御部１１は、生成された入力トークン列に含まれるトークンＴを訓練済みの生成モデル５に入力し、訓練済みの生成モデル５の演算を実行することで、アレンジデータ２５に対応する出力トークン列を生成する。更に本実施形態では、訓練済みの生成モデル５は、再帰構造を有するように構成されている。上記出力トークン列を生成するステップでは、制御部１１は、入力トークン列に含まれるトークンＴを先頭から順に訓練済みの生成モデル５に入力し、訓練済みの生成モデル５の演算（上記順伝播の演算）を繰り返し実行することで、出力トークン列を構成するトークンを順次生成する。

この演算の結果、メタ情報２３に応じて演奏情報２１をアレンジすることで得られるアレンジデータ２５を生成することができる。すなわち、演奏情報２１が同じであっても、メタ情報２３を変更することで、異なるアレンジデータ２５を生成することができる。メタ情報２３が難易度情報を含んでいる場合、本ステップＳ９０４では、制御部１１は、訓練済みの生成モデル５を用いて、難易度情報により示される難しさに対応したアレンジデータ２５を対象楽曲データ２０から生成することができる。メタ情報２３がスタイル情報を含んでいる場合、本ステップＳ９０４では、制御部１１は、訓練済みの生成モデル５を用いて、スタイル情報により示されるスタイル（編曲者、アーティスト）に対応したアレンジデータ２５を対象楽曲データ２０から生成することができる。メタ情報２３が構成情報を含んでいる場合、本ステップＳ９０４では、制御部１１は、訓練済みの生成モデル５を用いて、構成情報により示される楽器構成に対応したアレンジデータ２５を対象楽曲データ２０から生成することができる。メタ情報２３がテンポ情報を含んでいる場合、本ステップＳ９０４では、制御部１１は、訓練済みの生成モデル５を用いて、テンポ情報により示されるテンポに対応したアレンジデータ２５を対象楽曲データ２０から生成することができる。

ステップＳ９０５では、制御部１１は、楽譜生成部１１６として動作し、生成されたアレンジデータ２５を用いて楽譜データ２７を生成する。一例では、制御部１１は、アレンジデータ２５を用いて、例えば、音符、演奏記号等の要素をレイアウトすることで、楽譜データ２７を生成する。

ステップＳ９０６では、制御部１１は、出力部１１７として動作し、生成されたアレンジデータ２５を出力する。出力先及び出力形式は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例では、制御部１１は、例えば、ＲＡＭ、記憶部１２、記憶媒体、外部記憶装置、他の情報処理装置等の出力先にアレンジデータ２５をそのまま出力してもよい。他の一例では、アレンジデータ２５を出力することは、楽譜データ２７を出力することにより構成されてよい。この場合、制御部１１は、例えば、ＲＡＭ、記憶部１２、記憶媒体、外部記憶装置、他の情報処理装置等の出力先に楽譜データ２７を出力してもよい。この他／これに加えて、制御部１１は、例えば、紙等の媒体に楽譜データ２７を印刷させるための指令を印刷装置（不図示）に出力してもよい。これにより、印刷された楽譜が出力されてもよい。

アレンジデータ２５の出力が完了すると、制御部１１は、本動作例に係るアレンジ生成の処理手順を終了する。なお、制御部１１は、例えば、ユーザからの要求に応じて、上記ステップＳ９０１～ステップＳ９０６の処理を定期又は不定期に繰り返し実行してもよい。この繰り返しの際に、訓練済みの生成モデル５に入力される演奏情報２１及びメタ情報２３の少なくとも一部の変更、修正、追加、削除等が適宜行われてよい。これにより、制御部１１は、訓練済みの生成モデル５を用いて、異なるアレンジデータ２５を生成することができる。

＜特徴＞
以上のとおり、本実施形態では、ステップＳ９０４の処理において、機械学習により生成された訓練済みの生成モデル５を用いて、元の演奏情報２１を含む対象楽曲データ２０からアレンジデータ２５を生成する。ステップＳ８０５において、十分な学習データ３を使用して機械学習を適切に実施することで、訓練済みの生成モデル５は、多様な元の演奏情報からアレンジデータを適切に生成する能力を獲得することができる。そのため、ステップＳ９０４において、そのような能力を獲得した訓練済みの生成モデル５を用いることで、アレンジデータ２５を適切に生成することができる。加えて、メタ情報２３により、アレンジデータ２５の生成条件を制御することができるため、同一の演奏情報２１から多様なアレンジデータ２５を生成することができる。更に、訓練済みの生成モデル５を用いることで、アレンジデータ２５を生成する工程の少なくとも一部を自動化することができる。これにより、人手による作業工数を削減することができる。したがって、本実施形態によれば、アレンジデータ２５を生成するコストの低減を図ると共に、多様なアレンジデータ２５を適切に生成することができる。

また、本実施形態では、上記ステップＳ９０５により、生成されたアレンジデータ２５から楽譜データ２７を自動的に生成することができる。加えて、上記ステップＳ９０６により、楽譜データ２７を種々の媒体（例えば、記憶媒体、紙媒体等）に自動的に出力することができる。したがって、本実施形態によれば、楽譜の生成及び出力を自動化することができるため、人手による作業工数を更に削減することができる。

また、本実施形態では、メタ情報（２３、３３）は、難易度情報、スタイル情報、構成情報、及びテンポ情報の少なくともいずれかを含むように構成されてよい。これにより、ステップＳ９０４では、メタ情報２３により示される難易度、スタイル、楽器構成、及びテンポの少なくともいずれかに適合する多様なアレンジデータ２５を生成することができる。したがって、本実施形態によれば、同一の演奏情報２１からアレンジデータ２５の複数のバリエーション（アレンジパターン）を生成するのにかかるコストの低減を図ることができる。同様に、演奏情報（２１、２３）は、旋律の情報だけでなく、和声（コード）の情報も含んでいる。そのため、本実施形態によれば、生成されるアレンジデータ２５における和声も制御することができる。

また、本実施形態では、楽曲データ（２０、３０）は入力トークン列に変換され、入力トークン列は、メタ情報（２３、３３）に対応するトークンＴが配置された後に、演奏情報（２１、３１）に対応するトークンＴが時系列に対応して配置されるように構成される。加えて、生成モデル５は、再帰構造を有するように構成され、入力トークン列に含まれる各トークンＴは、先頭から順番に生成モデル５に入力される。これにより、生成モデル５では、メタ情報（２３、３３）及び演奏情報（２１、３１）の対象より以前の部分に対する演算結果を演奏情報（２１、３１）の対象の部分に対する演算に反映することができる。したがって、本実施形態によれば、メタ情報及び演奏情報の文脈を適切に推論処理に反映することができるため、生成モデル５は、適切なアレンジデータを生成することができる。機械学習の段階では、そのような適切なアレンジデータを生成する能力を獲得した訓練済みの生成モデル５を生成することができる。アレンジ生成の段階では、ステップＳ９０５において、そのような能力を獲得した訓練済みの生成モデル５を用いることで、適切なアレンジデータ２５を生成することができる。

＜４．変形例＞
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

＜４．１＞
上記一例では、生成モデル５は、演奏情報に含まれる単旋律及び和声から、ピアノの右手パート及び左手パートをアレンジデータとして生成するように構成される。しかしながら、アレンジは、このような例に限定されなくてよい。上記実施形態において、構成情報を含むようにメタ情報（２３、３３）を構成し、構成情報により示される楽器構成を適宜制御する（例えば、ユーザが指定する）ことで、任意のパートを含むアレンジデータを生成モデル５に生成されてもよい。楽器構成の一例として、ヴォーカル・ギター・ベース・ドラムス・キーボード等を含むバンド構成、ソプラノ・アルト・テナー・バス等を含む合唱構成、及び複数の木管楽器・複数の金管楽器・弦バス・打楽器等を含む吹奏楽構成を例示することができる。当該構成によれば、上記ステップＳ９０４において、同一の演奏情報２１に基づいて、異なる複数の楽器構成のパートを有するアレンジデータ２５を生成することができる。上記機械学習の段階では、そのような能力を獲得した訓練済みの生成モデル５を生成することができる。

図１１及び図１２を用いて、本変形例に係る生成モデル５の入力形式及び出力形式の一例について説明する。図１１は、本変形例に係る生成モデル５に入力される楽曲データの入力形式（トークン）の一例を説明するための図である。図１２は、本変形例に係る生成モデル５から出力されるアレンジデータの出力形式（トークン）の一例を説明するための図である。

図１１に例示されるとおり、本変形例に係る入力トークン列は、上記図７に例示されるトークンＴと共に、構成情報を示す楽器構成トークン（例えば、<inst> elg bas apf </inst>）を含む。楽器構成トークンは、各々が１つの楽器を表現する複数の楽器特定トークン（例えば、ギターを示すelg、ベースを示すbas、ピアノを示すapf）、楽器特定トークンが出現する（楽器構成トークンが開始する）ことを示す開始タグトークン（<inst>）、及び楽器構成トークンが終了することを示す終了タグトークン（</inst>）を含む。

これにより、図１２に例示されるとおり、生成モデル５は、楽器構成トークンにより楽器構成を特定し、特定された楽器構成に対応するアレンジデータ（出力トークン列）を生成することができる。図１２の例では、生成モデル５から出力される出力トークン列は、楽器構成トークンにより特定された複数の楽器（例えば、ギター、ベース、ピアノ）それぞれに対応する音（演奏情報）を示すトークンＴを含んでいる。

＜４．２＞
また、上記実施形態において、演奏情報（２１、３１）に含まれる情報は、楽曲に含まれる旋律（メロディ）及び和声（ハーモニー）を示す情報に限られなくてよい。演奏情報（２１、３１）は、旋律及び和声以外の情報を含んでもよい。

一例として、図１１に例示されるとおり、演奏情報（２１、３１）は、旋律及び和声の情報に加えて、楽曲の少なくとも一部におけるリズムを示すビート情報を含んでよい。図１１の例では、入力トークン列は、ビート情報を示すビートトークン（例えば、バスドラムを示す図１１のbdトークン）を含んでいる。当該構成によれば、上記ステップＳ９０４において、楽曲の構造（リズム）をより適切に反映したアレンジデータ２５を生成することができる。上記機械学習の段階では、そのような能力を獲得した訓練済みの生成モデル５を生成することができる。

＜４．３＞
上記実施形態に係るステップＳ９０１及びステップＳ９０２において、アレンジ生成装置１（制御部１１）は、１つの楽曲を分割する（例えば、４小節毎等の所定の長さで分割する）ことで得られる複数の部分それぞれに対応する複数の対象楽曲データ２０を取得してもよい。これに応じて、制御部１１は、取得された複数の対象楽曲データ２０それぞれに対してアレンジデータ２５を生成するステップ（ステップＳ９０３及びステップＳ９０４）を実行することで、複数のアレンジデータ２５を生成してもよい。そして、制御部１１は、アレンジ生成部１１５として動作して、生成された複数のアレンジデータ２５を統合することで、１つの楽曲に対応するアレンジデータを生成してもよい。当該構成によれば、１度に実行する生成モデル５の計算量を抑えることができ、注意層による参照対象のデータサイズも抑えることができる。その結果、生成処理における演算負荷を軽減しながら、楽曲全体に亘ってアレンジデータを生成することができる。

＜４．４＞
また、上記実施形態では、アレンジ生成装置１は、機械学習の処理、及びアレンジ生成（推論）の処理の両方の演算を実行するように構成されている。しかしながら、アレンジ生成装置１の構成は、このような例に限定されなくてよい。アレンジ生成装置１が、複数台のコンピュータで構成される場合に、各ステップは、複数台のコンピュータの少なくともいずれかに実行されることで、各ステップの演算は、分散的に処理されてよい。各コンピュータ間は、ネットワーク、記憶媒体、外部記憶装置等を介して、データのやり取りが行われてよい。一例では、機械学習の処理及びアレンジ生成の処理は、別々のコンピュータにより実行されてもよい。

図１３は、発明が適用される場面の他の一例を模式的に示す。モデル生成装置１０１は、機械学習を実施することで、訓練済みの生成モデル５を生成するように構成された１又は複数台のコンピュータである。アレンジ生成装置１０２は、訓練済みの生成モデル５を用いて、対象楽曲データ２０からアレンジデータ２５を生成するように構成された１又は複数台のコンピュータである。

モデル生成装置１０１及びアレンジ生成装置１０２のハードウェア構成は、上記アレンジ生成装置１と同様であってよい。具体例として、モデル生成装置１０１は、汎用のサーバ装置であってよく、アレンジ生成装置１は、例えば、汎用のＰＣ、タブレットＰＣ、スマートフォン等のユーザ端末であってよい。モデル生成装置１０１及びアレンジ生成装置１０２は、直接的に接続されてもよいし、或いはネットワークを介して接続されてもよい。モデル生成装置１０１及びアレンジ生成装置１０２がネットワークを介して接続される場合、ネットワークの種類は、特に限定されなくてよく、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置１０１及びアレンジ生成装置１０２の間でデータをやり取りする方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、モデル生成装置１０１及びアレンジ生成装置１０２の間では、記憶媒体を利用して、データがやりとりされてよい。

本変形例において、上記生成プログラム８１は、生成モデル５の機械学習に関する情報処理の命令を含む第１プログラム、及び訓練済みの生成モデル５を用いたアレンジデータ２５の生成に関する情報処理の命令を含む第２プログラムに分割されてよい。この場合、第１プログラムは、モデル生成プログラムと称されてよく、第２プログラムは、アレンジ生成プログラムと称されてよい。アレンジ生成プログラムは、本発明の生成プログラムの一例である。

モデル生成装置１０１は、生成プログラム８１の機械学習の処理に関する部分（第１プログラム）を実行することで、学習データ取得部１１１、学習処理部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。一方、アレンジ生成装置１０２は、生成プログラム８１のアレンジ生成の処理に関する部分（第２プログラム）を実行することで、対象データ取得部１１４、アレンジ生成部１１５、楽譜生成部１１６、及び出力部１１７をソフトウェアモジュールとして備えるコンピュータとして動作する。

本変形例では、モデル生成装置１０１は、上記ステップＳ８０１～ステップＳ８０６の処理を実行することで、訓練済みの生成モデル５を生成する。生成された訓練済みの生成モデル５を生成する。生成された訓練済みの生成モデル５は、任意のタイミングでアレンジ生成装置１０２に提供されてよい。生成された訓練済みの生成モデル５（学習結果データ１２５）は、例えば、ネットワーク、記憶媒体、外部記憶装置等を介して、アレンジ生成装置１０２に提供されてよい。或いは、生成された訓練済みの生成モデル５（学習結果データ１２５）は、アレンジ生成装置１０２に予め組み込まれてもよい。一方、アレンジ生成装置１０２は、上記ステップＳ９０１～ステップＳ９０６の処理を実行することで、訓練済みの生成モデル５を用いて、対象楽曲データ２０からアレンジデータ２５を生成する。

＜４．５＞
上記実施形態では、生成モデル５は、図６に示されるTransformerの構成による再帰構造を有している。しかしながら、再帰構造は、図６に示される例に限定されなくてよい。再帰構造は、対象より過去の入力を参照して、対象（現在）の入力に対する処理を実行可能に構成された構造を示す。このような演算が可能であれば、再帰構造は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。他の一例では、再帰構造は、例えば、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long short-term memory）等の公知の構造により構成されてよい。

また、上記実施形態では、生成モデル５は、再帰構造を有するように構成されている。しかしながら、生成モデル５の構成は、このような例に限定されなくてよい。再帰構造は省略されてよい。生成モデル５は、例えば、全結合型ニューラルネットワーク、畳み込みニューラルネットワーク等の公知の構造を有するニューラルネットワークにより構成されてよい。更に、入力トークン列を生成モデル５に入力する形態は、上記実施形態の例に限定されなくてよい。他の一例では、生成モデル５は、入力トークン列に含まれる複数のトークンＴを一度に受け付けるように構成されてもよい。

また、上記実施形態では、生成モデル５は、楽曲データに対応する入力トークン列の入力を受け付け、アレンジデータに対応する出力トークン列を出力するように構成されている。しかしながら、生成モデル５の入力形式及び出力形式は、このような例に限定されなくてよい。他の一例では、生成モデル５は、楽曲データを直接的に受け取るように構成されてもよい。また、生成モデル５は、アレンジデータを直接的に出力するように構成されてもよい。

また、上記実施形態において、楽曲データからアレンジデータを生成可能であれば、生成モデル５を構成する機械学習モデルの種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。更に、上記実施形態において、生成モデル５を複数の層で構成する場合、各層の種類は、実施の形態に応じて適宜選択されてよい。各層には、例えば、畳み込み層、プーリング層、ドロップアウト層、正規化層、全結合層等が採用されてよい。生成モデル５の構造に関して、適宜、構成要素の省略、置換及び追加が可能である。

＜４．６＞
上記実施形態において、楽譜データ２７の生成は省略されてもよい。これに応じて、アレンジ生成装置１のソフトウェア構成において、楽譜生成部１１６は省略されてよい。上記アレンジ生成に関する処理手順において、ステップＳ９０５の処理は省略されてよい。

１…アレンジ生成装置、１１…制御部、１２…記憶部、１１１…学習データ取得部、１１２…学習処理部、１１３…保存処理部、１１４…対象データ取得部、１１５…アレンジ生成部、１１６…楽譜生成部、１１７…出力部、５…生成モデル

Claims

コンピュータが、
楽曲の少なくとも一部の旋律及び和声を示す演奏情報、並びに前記楽曲の少なくとも一部に関する特性を示すメタ情報を含む対象楽曲データを取得するステップと、
機械学習により訓練済みの生成モデルを用いて、取得された前記対象楽曲データからアレンジデータを生成するステップであって、前記アレンジデータは、前記メタ情報に応じて前記演奏情報をアレンジすることで得られる、ステップと、
生成された前記アレンジデータを出力するステップと、
を実行し、
前記メタ情報は、アレンジの条件として前記楽曲の演奏上の難しさを示す難易度情報を含み、
前記アレンジデータを生成するステップでは、前記コンピュータは、前記訓練済みの生成モデルを用いて、取得された前記対象楽曲データから、前記難易度情報により示される前記難しさに対応した前記アレンジデータを生成する、
アレンジ生成方法。
前記メタ情報は、アレンジの条件として前記楽曲の音楽的なスタイルを示すスタイル情報を含み、
前記アレンジデータを生成するステップでは、前記コンピュータは、前記訓練済みの生成モデルを用いて、取得された前記対象楽曲データから、前記スタイル情報により示される前記スタイルに対応した前記アレンジデータを生成する、
請求項１に記載のアレンジ生成方法。
前記スタイル情報は、編曲者を特定するための編曲者情報を含む、
請求項２に記載のアレンジ生成方法。
前記メタ情報は、アレンジの条件として前記楽曲における楽器構成を示す構成情報を含み、
前記アレンジデータを生成するステップでは、前記コンピュータは、前記訓練済みの生成モデルを用いて、取得された前記対象楽曲データから、前記構成情報により示される前記楽器構成に対応した前記アレンジデータを生成する、
請求項１から請求項３のいずれか１項に記載のアレンジ生成方法。
前記演奏情報は、前記楽曲の少なくとも一部におけるリズムを示すビート情報を含む、
請求項１から請求項４のいずれか１項に記載のアレンジ生成方法。
前記アレンジデータを生成するステップは、
前記コンピュータが、前記対象楽曲データに対応する入力トークン列を生成するステップ、及び
前記コンピュータが、生成された前記入力トークン列に含まれるトークンを前記訓練済みの生成モデルに入力し、前記訓練済みの生成モデルの演算を実行することで、前記アレンジデータに対応する出力トークン列を生成するステップ、
を備える、
請求項１から請求項５のいずれか１項に記載のアレンジ生成方法。
前記入力トークン列は、前記メタ情報に対応するトークンが配置された後に、前記演奏情報に対応するトークンが時系列に対応して配置されるように構成され、
前記訓練済みの生成モデルは、再帰構造を有するように構成され、
前記出力トークン列を生成するステップでは、前記コンピュータが、前記入力トークン列に含まれるトークンを先頭から順に前記訓練済みの生成モデルに入力し、前記訓練済みの生成モデルの演算を繰り返し実行することで、前記出力トークン列を構成するトークンを順次生成する、
請求項６に記載のアレンジ生成方法。
前記取得するステップにおいて、前記コンピュータは、１つの楽曲を分割することで得られる複数の部分それぞれにそれぞれ対応する複数の前記対象楽曲データを取得し、
前記コンピュータは、取得された前記複数の対象楽曲データそれぞれに対して前記アレンジデータを生成するステップを実行することで、複数の前記アレンジデータを生成し、
前記コンピュータは、生成された前記複数のアレンジデータを統合することで、前記１つの楽曲に対応するアレンジデータを生成する、
請求項１から請求項７のいずれか１項に記載のアレンジ生成方法。
コンピュータが、生成された前記アレンジデータを用いて楽譜データを生成するステップを更に実行する、
請求項１から請求項８のいずれか１項に記載のアレンジ生成方法。
楽曲の少なくとも一部の旋律及び和声を示す演奏情報、並びに前記楽曲の少なくとも一部に関する特性を示すメタ情報を含む対象楽曲データを取得するように構成された対象データ取得部と、
機械学習により訓練済みの生成モデルを用いて、取得された前記対象楽曲データからアレンジデータを生成するように構成されたアレンジ生成部であって、前記アレンジデータは、前記メタ情報に応じて前記演奏情報をアレンジすることで得られる、アレンジ生成部と、
生成された前記アレンジデータを出力するように構成された出力部と、
を備え、
前記メタ情報は、アレンジの条件として前記楽曲の演奏上の難しさを示す難易度情報を含み、
前記アレンジ生成部は、前記訓練済みの生成モデルを用いて、取得された前記対象楽曲データから、前記難易度情報により示される前記難しさに対応した前記アレンジデータを生成する、
アレンジ生成装置。
前記アレンジ生成装置は、生成された前記アレンジデータを用いて楽譜データを生成するように構成された楽譜生成部を更に備え、
前記アレンジデータを出力することは、生成された楽譜データを出力することにより構成される、
請求項１０に記載のアレンジ生成装置。
コンピュータに、
楽曲の少なくとも一部の旋律及び和声を示す演奏情報、並びに前記楽曲の少なくとも一部に関する特性を示すメタ情報を含む対象楽曲データを取得するステップと、
機械学習により訓練済みの生成モデルを用いて、取得された前記対象楽曲データからアレンジデータを生成するステップであって、前記アレンジデータは、前記メタ情報に応じて前記演奏情報をアレンジすることで得られる、ステップと、
生成された前記アレンジデータを出力するステップと、
を実行させ、
前記メタ情報は、アレンジの条件として前記楽曲の演奏上の難しさを示す難易度情報を含み、
前記アレンジデータを生成するステップでは、前記コンピュータに、前記訓練済みの生成モデルを用いて、取得された前記対象楽曲データから、前記難易度情報により示される前記難しさに対応した前記アレンジデータを生成させる、
生成プログラム。