JP7298115B2

JP7298115B2 - プログラム、情報処理方法、及び電子機器

Info

Publication number: JP7298115B2
Application number: JP2018120234A
Authority: JP
Inventors: 大輝日暮
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2023-06-27
Anticipated expiration: 2038-06-25
Also published as: JP2020003535A

Description

本発明は、プログラム、情報処理方法、及び電子機器に関する。

従来、自動で楽曲を作成する自動作曲技術が知られている。この自動作曲技術において、予め規定されたルールに基づいて楽曲を作成する技術が知られている（例えば、特許文献１参照）。

特開２０１７－１８２０８９号公報

従来のルールに基づいて楽曲を生成する技術では、当該ルールに沿った楽曲しか生成されない。そこで、一側面では、より多様な楽曲を自動で作成できる技術を提供することを目的とする。

一つの案では、電子機器に、所定の情報の入力に応じて、楽曲を構成する複数の種別の中から種別は第１種別と決定するとともに、第１メロディを出力する第１メロディ生成処理と、所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、前記第１種別の決定に基づいて、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１の学習済みモデルを複数の学習済みモデルの中から選択する選択処理と、選択された前記第１の学習済みモデルに前記第１メロディを入力し、前記第１の学習済みモデルが第２種別の第２メロディを出力する第２メロディ生成処理と、所定の構成情報により規定される前記所定のテンプレートの各構成要素の種別の出現順序に応じて、前記第１メロディ及び前記第２メロディを配置し、楽曲を生成する処理と、を実行させるプログラムが提供される。

一側面によれば、より多様な楽曲を自動で作成できる。

実施形態に係る情報処理システムの構成例を示す図である。実施形態に係るサーバ、及び端末のハードウェア構成例を示す図である。実施形態に係るサーバ、及び端末の機能構成の一例を示す図である。実施形態に係る学習用データについて説明する図である。実施形態に係る学習用データについて説明する図である。実施形態に係る情報処理システムの処理の一例を示すシーケンス図である。第１の実施形態の実行フェーズについて説明する図である。第１の実施形態に係る学習フェーズの処理の一例について説明するフローチャートである。第１の実施形態に係るフレーズの種別を分類するための学習済みモデル５０２を生成する処理の一例について説明するフローチャートである。第１の実施形態に係る各種別のフレーズからパートを作成するための学習済みモデルを生成する処理の一例について説明するフローチャートである。第１の実施形態に係る一の種別のパートから他の種別のパートを作成するための学習済みモデルを生成する処理の一例について説明するフローチャートである。第１の実施形態に係る実行フェーズの処理の一例について説明するフローチャートである。第２の実施形態の実行フェーズについて説明する図である。第２の実施形態に係る学習フェーズの処理の一例について説明するフローチャートである。第２の実施形態に係るパートの種別を分類するための学習済みモデル１１０４を生成する処理の一例について説明するフローチャートである。第２の実施形態に係る実行フェーズの処理の一例について説明するフローチャートである。

以下、図面に基づいて本発明の実施形態を説明する。

＜システム構成＞
図１は、実施形態に係る情報処理システム１の構成例を示す図である。図１において、情報処理システム１は、サーバ１０、及び端末２０を備える。なお、各装置の数は、図１の例に限定されない。

サーバ１０と端末２０は、例えば、携帯電話網、ＬＡＮ（Local Area Network）、無線ＬＡＮ、及びインターネット等のネットワーク５０により通信が接続される。

サーバ１０は、サーバ用の情報処理装置（コンピュータ、電子機器）である。サーバ１０は、学習用のデータに基づいて機械学習を行い、楽曲を自動で生成（作成）するための学習済みモデルを生成する。

端末２０は、例えば、タブレット端末、スマートフォン、デスクトップＰＣ（Personal Computer）、ノートＰＣ等の情報処理装置、または電子キーボード、電子オルガン、電子ピアノ、電子管楽器、電子弦楽器、及びシンセサイザー等の電子楽器である。端末２０は、サーバ１０から取得した学習済みモデルのデータ等に基づいて、楽曲を自動で生成する。

＜ハードウェア構成＞
図２は、実施形態に係るサーバ１０、及び端末２０のハードウェア構成例を示す図である。以下では、サーバ１０を例として説明する。図２のサーバ１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ（Central Processing Unit）１０４、インタフェース装置１０５、表示装置１０６、入力装置１０７、及び出力装置１０８等を有する。

サーバ１０での処理を実現するプログラム（情報処理プログラム）は、記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってサーバ１０に係る機能を実現する。インタフェース装置１０５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等、またはタッチパネル及びボタン等で構成され、様々な操作指示を入力させるために用いられる。出力装置１０８は、スピーカ等で構成され、様々な音を出力させるために用いられる。

なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。また、サーバ１０は、ＧＰＵ（Graphics Processing Unit）を有し、ＧＰＵを用いて、後述する機械学習に関する処理の少なくとも一部を行うようにしてもよい。この場合、ＧＰＵが実装されたアクセラレータ用のボードが、インタフェース装置１０５等を介してバスＢに接続されてもよい。

なお、端末２０のハードウェア構成は、図２に示すサーバ１０のハードウェア構成例と同様でもよい。

＜機能構成＞
次に、図３、図４Ａ、及び図４Ｂを参照し、実施形態に係るサーバ１０、及び端末２０の機能構成について説明する。図３は、実施形態に係るサーバ１０、及び端末２０の機能構成の一例を示す図である。図４Ａ、及び図４Ｂは、実施形態に係る学習用データ１１１について説明する図である。

≪サーバ１０の機能構成≫
サーバ１０は、記憶部１１を有する。記憶部１１は、例えば、補助記憶装置１０２等を用いて実現される。記憶部１１は、学習用データ１１１等のデータを記憶する。学習用データ１１１には、図４Ａに示すように、楽曲ＩＤに対応付けて、学習用の楽曲データが予め記憶されている。学習用の楽曲データは、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）規格による、音の高さ、音の強さ等の情報が符号化された楽曲の演奏情報でもよい。

また、図４Ｂに示すように、学習用データ１１１に記憶されている学習用の楽曲データには、「Ａメロ」、「Ｂメロ」、「サビ」等の各種別に対応する区間（構成要素）毎の開始時点と終了時点、及び当該区間毎の種別が含まれている。図４Ｂの例では、ある楽曲の時点４０１から時点４０２までの区間の種別が「Ａメロ」であり、時点４０２から時点４０３までの区間の種別が「Ｂメロ」であり、時点４０３から時点４０４までの区間の種別が「サビ」であり、時点４０４から時点４０５までの区間の種別が「Ａメロ」であること等が示されている。なお、図４Ｂの例では、邦楽（J-POP）の楽曲に含まれる種別の例が示されているが、種別として、洋楽の「Verse」、「Bridge」、「Chorus」等が用いられてもよい。

一般的に、「Ａメロ」、「Ｂメロ」、「サビ」等の楽曲の構成要素の種別は、主にメロディによって決まるものであるが、どのようなメロディがどの種別に対応するものであるかは、人間が感覚的に決める部分も多く、メロディから種別を判定するための判定基準を明確に定義することが難しい。

また、このようなメロディによって種別が認識される構成要素の区間長については、一般的な楽曲では、４小節、８小節、１６小節などの、複数の小節を単位区間としているが、単に種別が認識可能な区間長としては、１小節よりも短い区間長であってもよい。

このように、メロディから種別を判定するための判定基準を明確に定義することができない場合であっても、既に人間が感覚的に判断したメロディと種別の対応情報に基づいて機械学習させることにより、ニューラルネットワークの結合重み値などの形式で、上記判定基準を決めることが可能となる。

なお、楽曲データは、上記のような種別（「Ａメロ」、「Ｂメロ」、「サビ」等）が割り当てられる区間（構成要素）を複数連結して構成されるが、このような種別とは別に、コード（「C」、「Am」、「F」、「G」等）が割り当てられるコード区間（コード要素）を、コード進行（音楽理論に基づくコードの連結順序）に合わせて複数連結して構成されるものでもある。このコードは和音に対応するものであるが、和音とメロディとの間にも一定の関係がある。

本実施形態によるメロディ生成の対象として各種別が割り当てられる構成要素の区間は、上記のコード区間よりも長い区間を対象とするものであり、また、本実施形態で行われる構成要素の連結は、コード進行によるコードの連結よりも長い区間を対象として行われるものである。

また、コード進行に合わせたコードの生成や連結の手法は、従来から知られたものであり、本実施形態においても、コード進行に合わせたコードの生成や連結については、従来手法を用いて行ってもよい。

しかしながら、本実施形態で用いる学習用データとして、上述した種別の構成要素の連結を考慮した学習用データを用いるだけでなく、上述したコード進行をも考慮した学習用データを用いることにより、上述した種別の構成要素の連結が適正に行われた楽曲が生成されるだけでなく、同時に、上述したコード進行についても適正な楽曲を生成することが可能となる。

また、サーバ１０は、生成部１２、及び出力部１３を有する。これら各部は、サーバ１０にインストールされた１以上のプログラムが、サーバ１０のＣＰＵ１０４に実行させる処理により実現される。

生成部１２は、学習用データ１１１に記憶されている学習用の楽曲データに基づいて、楽曲を自動で生成するための学習済みモデルを生成する。生成部１２は、例えば、学習用の楽曲に含まれる第１種別の区間のメロディと、第２種別の区間のメロディとの組を学習データとする機械学習により、第１種別の区間のメロディに基づいて第２種別の区間のメロディを生成可能な学習済みモデルを生成する。

出力部１３は、生成部１２により生成された学習済みモデルのデータを、端末２０に出力する。出力部１３は、例えば、端末２０にインストールされるアプリケーションに当該学習済みモデルのデータを含めて、外部サーバ等を介して当該アプリケーションを端末２０に配信してもよい。

≪端末２０の機能構成≫
端末２０は、受付部２１、取得部２２、第１メロディ生成部２３、第２メロディ生成部２４、楽曲生成部２５、及び出力部２６を有する。これら各部は、端末２０にインストールされた１以上のプログラムが、端末２０のＣＰＵに実行させる処理により実現される。

受付部２１は、端末２０のユーザからの各種の操作を受け付ける。

取得部２２は、学習済みモデルのデータをサーバ１０から取得する。

第１メロディ生成部２３は、所定の情報に応じて、楽曲に含まれる所定の種別の区間のメロディを生成する。

第２メロディ生成部２４は、学習用の楽曲に含まれる第１種別の区間のメロディと、第２種別の区間のメロディとの組を学習データとする機械学習により生成された第１の学習済みモデルを用いて、第１メロディ生成部２３により生成された第１種別の区間のメロディに基づいて第２種別の区間のメロディを生成する。

楽曲生成部２５は、所定のテンプレート（「構成情報」の一例。）により規定される各区間の種別の出現順序に応じて、第１種別の区間のメロディ、及び第２種別の区間のメロディを配置し、楽曲を生成する。

出力部２６は、楽曲生成部２５により生成された楽曲を再生し、端末２０のスピーカに出力させる。

＜処理＞
次に、図５を参照し、実施形態に係る情報処理システム１の処理について説明する。図５は、実施形態に係る情報処理システム１の処理の一例を示すシーケンス図である。

ステップＳ１において、サーバ１０の生成部１２は、学習済みモデルのセットを生成する。以下で、この処理を「学習フェーズ」とも称する。

続いて、端末２０の取得部２２は、ユーザの操作に応答して、当該学習済みモデルのセットのデータを含むプログラムをサーバ１０からダウンロードする（ステップＳ２）。

続いて、端末２０の第１メロディ生成部２３、第２メロディ生成部２４、及び楽曲生成部２５は、ユーザからの操作に応答して、当該学習済みモデルのセットを用いて、楽曲を自動で作成する（ステップＳ３）。以下で、この処理を「実行フェーズ」とも称する。なお、作成された楽曲のデータは、ユーザの操作により、端末２０にて再生されてもよい。

［第１の実施形態］
次に、図６を参照し、第１の実施形態の概要について説明する。図６は、第１の実施形態の実行フェーズについて説明する図である。

第１の実施形態では、実行フェーズにおいて、フレーズの種別を分類するための学習済みモデル５０２を用いて、所定のフレーズ５０１の種別を判定する。なお、「フレーズ」とは、楽曲に含まれる各種別の区間のメロディの一部のことである。すなわち、フレーズは、例えば、最後の音が弱くされたメロディの一区切りに限らず、複数の音符で表現可能なメロディであればよい。また、以下で、楽曲を構成する「Ａメロ」、「Ｂメロ」、「サビ」等の各種別の区間のメロディのことを「パート」と称する。

図６の例では、所定のフレーズ５０１の種別が「Ａメロ」５０３と判定されていることが示されている。そして、フレーズからパートを作成するための学習済みモデル５０４を用いて、所定のフレーズ５０１から、所定のフレーズ５０１の種別と同一の種別のパート５０５を作成する。

そして、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を用いて、パート５０５から、他の種別のパート５０７、５０８を作成する。図６の例では、パート５０７の種別は「Ｂメロ」５０９、パート５０８の種別は「サビ」５１０であることが示されている。そして、各パート５０５、５０７、５０８を、所定のテンプレート５１１で規定された順に並べることにより、楽曲５１２を作成する。

＜第１の実施形態の効果＞
従来のＧＡＮｓ等のデータ生成手法では、例えば、犬の画像や人の画像等、１つの種別の被写体を含む画像を生成させる場合、十分な品質のデータを生成できる。しかしながら、犬、人、及び山等の複数の種別の被写体を含む画像が生成されるように学習させる場合、当該複数の種別のうち、いずれか１つの種別の被写体を含む画像ばかりを生成する場合がある。そのため、１フレーズ等の所定のデータに基づいてＧＡＮｓ等で楽曲を生成させる場合、「Ａメロ」、「Ｂメロ」、及び「サビ」のいずれか１つの種別らしいパートのみで構成された楽曲ばかりが生成されることが懸念される。

一方、本開示の技術によれば、楽曲が「Ａメロ」、「Ｂメロ」、及び「サビ」等のパートの組み合わせにより構成されていること、例えば、１番のＡメロと２番のＡメロ、１番のサビと２番のサビはそれぞれ同じメロディで歌詞だけが異なることが一般的であることを利用する。そして、１フレーズ等からの作曲という比較的難しい問題を、比較的簡単な複数の問題に分割することで、より適切な学習を可能にすることができる。

≪学習フェーズ≫
次に、図７を参照し、第１の実施形態における、図５のステップＳ１の、機械学習により学習済みモデルのセットを生成する処理（学習フェーズ）について説明する。図７は、第１の実施形態に係る学習フェーズの処理の一例について説明するフローチャートである。

ステップＳ１０において、生成部１２は、フレーズの種別を分類するための学習済みモデル５０２を生成する。続いて、生成部１２は、各種別のフレーズからパートを作成するための学習済みモデル５０４を生成する（ステップＳ１１）。続いて、生成部１２は、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を生成し（ステップＳ１２）、学習済みモデル生成処理を終了する。なお、ステップＳ１０からステップＳ１２の処理の順番は、どのような順番で行ってもよい。

（フレーズの種別を分類するための学習済みモデル５０２の生成処理）
次に、図８を参照し、図７のステップＳ１０の、フレーズの種別を分類するための学習済みモデル５０２を生成する処理について説明する。図８は、第１の実施形態に係るフレーズの種別を分類するための学習済みモデル５０２を生成する処理の一例について説明するフローチャートである。なお、当該学習済みモデル５０２により、実行フェーズにおいて、例えば、端末２０は、自動作曲する楽曲の元となる所定のフレーズの種別を判定することができる。

ステップＳ１０１において、生成部１２は、楽曲に含まれる一のパートの少なくとも一部であるフレーズと、当該一のパートの種別とが対応付けられたデータを、学習用データ１１１から取得する。以下で、当該種別は、当該フレーズに対する正解として機械学習される。ステップＳ１０１の処理で、各パートの少なくとも一部であるフレーズの演奏情報と、当該フレーズを含むパートの種別の情報とのペアが読み込まれる。

続いて、生成部１２は、学習用の楽曲のデータの表現形式を変換する（ステップＳ１０２）。ここで、生成部１２は、ステップＳ１０１の処理で取得した、各時点（各拍子）における音の高さ、及び音の強さ等を含む楽譜の情報を、機械学習を行うために離散表現（ワンホット（One-hot）表現、ベクトル表現）に変換する。ここで、例えば、「ド」の音符のデータは、「ド」の音高を示す値が「１」であり、「ド」以外の音高を示す値が「０」であるデータに変換される。

続いて、生成部１２は、表現形式が変換された学習用の楽曲のデータに基づいた機械学習を行うことにより、フレーズの種別を分類するための学習済みモデル５０２を生成する（ステップＳ１０３）。ここで、生成部１２は、例えば、ディープラーニング等のニューラルネットワーク（ＮＮ：Neural Network）、ＧＢＤＴ(Gradient Boosting Decision Tree)、決定木(Decision Tree)、ＳＶＭ(Support Vector Machine)、またはランダムフォレスト(Random Forest)等を用いて、機械学習してもよい。例えば、ニューラルネットワークを用いる場合、ステップＳ１０１の処理により入力されたフレーズに対する各種別の予測確率を算出し、算出した各種別の予測確率の値が正しい値に近づくように、誤差逆伝播法(Backpropagation)により学習を行う。

続いて、生成部１２は、学習の終了条件を満たしたか否かを判定する（ステップＳ１０４）。ここで、生成部１２は、例えば、ステップＳ１０１からステップＳ１０３の学習処理を所定回数行った場合に、学習の終了条件を満たしたと判定してもよい。また、生成部１２は、ステップＳ１０１の処理により入力されたフレーズに対する各種別の予測の正解率が所定の閾値以上となった場合に、学習の終了条件を満たしたと判定してもよい。

学習の終了条件を満たしていない場合（ステップＳ１０４でＮＯ）、ステップＳ１０１の処理に進む。学習の終了条件を満たしている場合（ステップＳ１０４でＹＥＳ）、処理を終了する。

（フレーズからパートを作成するための学習済みモデル５０４の生成処理）
次に、図９を参照し、図７のステップＳ１１の、各種別のフレーズからパートを作成するための学習済みモデル５０４を生成する処理について説明する。図９は、第１の実施形態に係る各種別のフレーズからパートを作成するための学習済みモデル５０４を生成する処理の一例について説明するフローチャートである。なお、当該学習済みモデル５０４により、実行フェーズにおいて、例えば、端末２０は、自動作曲する楽曲の元となる所定のフレーズから、当該所定のフレーズを含むパートであって、当該所定のフレーズと同一の種別であるパートを作成することができる。

なお、以下の処理は、「Ａメロ」、「Ｂメロ」等の各種別に対してそれぞれ実行され、種別毎に学習済みモデルが生成される。この場合、例えば、種別が「Ａメロ」、「Ｂメロ」、「サビ」の３つであれば、種別毎の３つの学習済みモデルが生成される。

ステップＳ１１１において、生成部１２は、楽曲に含まれる一のパートの少なくとも一部であるフレーズと、当該一のパートとが対応付けられたデータを、学習用データ１１１から取得する。

続いて、生成部１２は、学習用の楽曲のデータの表現形式を変換する（ステップＳ１１２）。ここで、生成部１２は、上述したステップＳ１０２の処理と同様に、ステップＳ１１１の処理で取得した楽譜の情報を離散表現に変換する。

続いて、生成部１２は、表現形式が変換された学習用の楽曲のデータに基づいた機械学習を行うことにより、所定の種別のフレーズから当該所定の種別のパートを作成するための学習済みモデル５０４を生成する（ステップＳ１１３）。ここで、生成部１２は、例えば、ＧＡＮｓ(Generative Adversarial Networks、敵対的生成ネットワーク)、またはＶＡＥ(Variational AutoEncoder)等を用いて、機械学習してもよい。

ＧＡＮｓを用いる場合、生成部１２は、ＧＡＮｓのｇｅｎｅｒａｔｏｒ（生成ネットワーク）により、例えば、ニューラルネットワークを用いて、当該パートを、当該フレーズに対する正解として、ニューラルネットワークを用いて機械学習する。そして、生成部１２は、ステップＳ１１１の処理により入力されたフレーズに基づいて、当該フレーズを含むパートを生成する。

また、生成部１２は、ｇｅｎｅｒａｔｏｒにより生成されたパート、またはステップＳ１１１の処理により入力された、学習用データ１１１に記憶されているパートをＧＡＮｓのｄｉｓｃｒｉｍｉｎａｔｏｒ（識別ネットワーク）の入力とする。そして、ｄｉｓｃｒｉｍｉｎａｔｏｒに、入力されたパートが、ｇｅｎｅｒａｔｏｒにより生成されたものであるか、学習用データ１１１に記憶されているものであるかを予測（識別）させる。そして、入力されたパートが、ｇｅｎｅｒａｔｏｒにより生成されたものである確率を示す値（例えば、０から１までの範囲の値）を出力させる。

続いて、生成部１２は、学習の終了条件を満たしたか否かを判定する（ステップＳ１１４）。ここで、例えば、生成部１２は、ステップＳ１１１からステップＳ１１３の学習処理を所定回数行った場合に、学習の終了条件を満たしたと判定してもよい。または、生成部１２は、ｇｅｎｅｒａｔｏｒにより生成されたパートの品質が一定程度に達したと人間により判断された場合に、学習の終了条件を満たしたと判定してもよい。

学習の終了条件を満たしていない場合（ステップＳ１１４でＮＯ）、ステップＳ１１１の処理に進む。学習の終了条件を満たしている場合（ステップＳ１１４でＹＥＳ）、処理を終了する。

（一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６の生成処理）
次に、図１０を参照し、図７のステップＳ１２の、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６の生成処理について説明する。図１０は、第１の実施形態に係る一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を生成する処理の一例について説明するフローチャートである。なお、当該学習済みモデル５０６により、実行フェーズにおいて、例えば、端末２０は、所定のパートから、当該所定のパートとは異なる種別のパートを生成することができる。

なお、以下に示す図１０の処理は、入力されるパートの種別と、生成されるパートの種別との組に対してそれぞれ実行され、当該組毎に学習済みモデルが生成される。この場合、例えば、パートの種別が「Ａメロ」、「Ｂメロ」、「サビ」の３つであれば、「Ａメロ」から「Ｂメロ」、「Ａメロ」から「サビ」、「Ｂメロ」から「Ａメロ」、「Ｂメロ」から「サビ」、「サビ」から「Ａメロ」、「サビ」から「Ａメロ」の６つの組のそれぞれに対応する６つの学習済みモデルが生成される。これにより、各学習済みモデルを各役割に特化して学習させられるため、各学習済みモデルにより出力されるデータの品質がより向上する。以下では、各組における、入力されるパートの種別を第１種別、生成されるパートの種別を第２種別と称して説明する。

ステップＳ１２１において、生成部１２は、一の楽曲に含まれる第１種別のパートと、当該一の楽曲に含まれる第２種別のパートとが対応付けられたデータを、学習用データ１１１から取得する。以下で、当該第２種別のパートは、当該第１種別のパートに対する正解として機械学習される。

続いて、生成部１２は、学習用の楽曲のデータの表現形式を変換する（ステップＳ１２２）。ここで、上述したステップＳ１０２の処理と同様に、ステップＳ１２１の処理で取得した楽譜の情報を離散表現に変換する。

続いて、生成部１２は、表現形式が変換された学習用の楽曲のデータに基づいた機械学習を行うことにより、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を生成する（ステップＳ１２３）。ここで、生成部１２は、例えば、ＧＡＮｓ(Generative Adversarial Networks、敵対的生成ネットワーク)、またはＶＡＥ(Variational AutoEncoder)等を用いて、機械学習してもよい。

ＧＡＮｓを用いる場合、生成部１２は、ＧＡＮｓのｇｅｎｅｒａｔｏｒにより、例えば、当該第２種別のパートを、当該第１種別のパートに対する正解として、ニューラルネットワークを用いて機械学習する。そして、ステップＳ１２１の処理により入力された第１種別のパートに基づいて、第２種別のパートを生成する。

また、生成部１２は、ｇｅｎｅｒａｔｏｒにより生成された第２種別のパート、またはステップＳ１２１の処理により入力された、学習用データ１１１に記憶されている第２種別のパートをＧＡＮｓのｄｉｓｃｒｉｍｉｎａｔｏｒの入力とする。そして、ｄｉｓｃｒｉｍｉｎａｔｏｒに、入力された第２種別のパートが、ｇｅｎｅｒａｔｏｒにより生成されたものであるか、学習用データ１１１に記憶されているものであるかを予測（識別）させる。そして、入力された第２種別のパートが、ｇｅｎｅｒａｔｏｒにより生成されたものである確率を示す値（例えば、０から１までの範囲の値）を出力させる。

続いて、生成部１２は、学習の終了条件を満たしたか否かを判定する（ステップＳ１２４）。ここで、生成部１２は、例えば、ステップＳ１２１からステップＳ１２３の学習処理を所定回数行った場合に、学習の終了条件を満たしたと判定してもよい。または、生成部１２は、ｇｅｎｅｒａｔｏｒにより生成されたパートの品質が一定程度に達したと人間により判断された場合に、学習の終了条件を満たしたと判定してもよい。

学習の終了条件を満たしていない場合（ステップＳ１２４でＮＯ）、ステップＳ１２１の処理に進む。学習の終了条件を満たしている場合（ステップＳ１２４でＹＥＳ）、処理を終了する。

≪実行フェーズ≫
次に、図１１を参照し、第１の実施形態における、図５のステップＳ３の、学習済みモデルのセットを用いて、楽曲を自動で作成する処理（実行フェーズ）について説明する。図１１は、第１の実施形態に係る実行フェーズの処理の一例について説明するフローチャートである。以下の処理は、例えば、ユーザから所定の操作を受け付けた場合等に実行される。

ステップＳ１５において、端末２０の取得部２２は、所定のフレーズを取得する。ここで、所定のフレーズは、例えば、ユーザの鼻歌が自動で採譜されたフレーズでもよい。これにより、ユーザが思いついたフレーズを含み、当該フレーズに適合する楽曲を生成することができる。また、一様分布やガウス分布などに従う乱数に基づいて自動で生成されたフレーズでもよい。これにより、明示的にフレーズを与えずとも、楽曲を生成することができる。

続いて、第１メロディ生成部２３は、図７のステップＳ１０の処理で生成された、フレーズの種別を分類するための学習済みモデル５０２を用いて、当該所定のフレーズの種別を判定する（ステップＳ１６）。なお、種別を自動で判定する代わりに、ユーザからの操作で種別を指定できるようにしてもよい。これにより、例えば、ユーザがサビのつもりで入力した鼻歌がサビ以外のＡメロ等であると判定されることを防ぐことができる。

続いて、第１メロディ生成部２３は、ステップＳ１５で取得した所定のフレーズに基づいて、当該所定のフレーズを含む第１のパートを作成する（ステップＳ１７）。ここで、第１メロディ生成部２３は、図７のステップＳ１１の処理で生成された複数の学習済みモデル５０４のうち、当該種別のフレーズから当該種別のパートを作成するための学習済みモデルを選択する。そして、第１メロディ生成部２３は、当該学習済みモデルに当該所定のフレーズを入力することにより、当該学習済みモデルから第１のパートを出力させる。

続いて、第２メロディ生成部２４は、第１のパートに基づいて、第２パートから第Ｎパート（Ｎは２以上の自然数）をそれぞれ作成する（ステップＳ１８）。ここで、第２メロディ生成部２４は、図７のステップＳ１２の処理で生成された複数の学習済みモデル５０６のうち、第１のパートに基づいて、第１のパートの種別とは異なる各種別であって、所定のテンプレートに含まれる各種別のパートを作成するための各学習済みモデルを選択する。すなわち、第１のパートの種別が「Ａメロ」であり、所定のテンプレートに含まれる種別が「Ａメロ」、「Ｂメロ」、及び「サビ」である場合、「Ａメロ」から「Ｂメロ」を作成するための学習済みモデルＡと、「Ａメロ」から「サビ」を作成するための学習済みモデルＢとを選択する。そして、第２メロディ生成部２４は、学習済みモデルＡに第１のパートを入力することにより、学習済みモデルＡから「Ｂメロ」のパートを出力させる。また、学習済みモデルＢに第１のパートを入力することにより、学習済みモデルＢから「サビ」のパートを出力させる。

続いて、楽曲生成部２５は、当該所定のテンプレートで規定されたパートの種別の順番に従って、当該第１のパートから第Ｎパートをそれぞれ１以上配置することにより、楽曲を作成する（ステップＳ１９）。ここで、所定のテンプレートには、例えば、「Ａメロ」、「Ｂメロ」、「サビ」、「Ａメロ」、「Ｂメロ」、「サビ」、「サビ」等のように、楽曲におけるパートの種別の順番の情報が含まれている。所定のテンプレートは、端末２０のユーザにより選択できるようにしてもよい。

［第２の実施形態］
第１の実施形態では、実行フェーズにおいて、所定のフレーズの種別を判定した後、判定した種別のパートを作成するようにする例について説明した。第２の実施形態では、実行フェーズにおいて、所定のフレーズからパートを作成した後、当該パートの種別を判定するようにする例について説明する。

なお、第２の実施形態は一部を除いて第１の実施形態と同様であるため、適宜説明を省略する。以下では、第１の実施形態と共通する部分については説明を省略し、異なる部分についてのみ説明する。

次に、図１２を参照し、第２の実施形態の概要について説明する。図１２は、第２の実施形態の実行フェーズについて説明する図である。

第２の実施形態では、実行フェーズにおいて、フレーズからパートを作成するための学習済みモデル１１０２を用いて、所定のフレーズ１１０１から、パート１１０３を作成する。そして、パートの種別を分類するための学習済みモデル１１０４を用いて、パート１１０３の種別を判定する。図１２の例では、パート１１０３の種別が「Ａメロ」１１０３と判定されていることが示されている。そして、以下は、第１の実施形態と同様の処理で、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を用いて、パート１１０３から、他の種別のパート１１０６、１１０７を作成する。図１１の例では、パート１１０６の種別は「Ｂメロ」１１０８、パート１１０７の種別は「サビ」１１０９であることが示されている。そして、パート１１０３、パート１１０６、パート１１０７を、所定のテンプレート５１０で規定された順に並べることにより、楽曲１１１０を作成する。第２の実施形態の効果は、第１の実施形態の効果と同様である。

≪学習フェーズ≫
次に、図１３を参照し、第２の実施形態における、図５のステップＳ１の、機械学習により学習済みモデルのセットを生成する処理（学習フェーズ）について説明する。図１３は、第２の実施形態に係る学習フェーズの処理の一例について説明するフローチャートである。

ステップＳ２０において、生成部１２は、フレーズからパートを作成するための学習済みモデル１１０２を生成する。なお、ステップＳ２０の処理は、第１の実施形態のステップＳ１１の処理と同様であるが、種別に関係なく学習モデルが生成される点が異なる。

続いて、生成部１２は、パートの種別を分類するための学習済みモデル１１０４を生成する（ステップＳ２１）。なお、ステップＳ２１の処理は、第１の実施形態のステップＳ１０の処理と同様であるが、フレーズの種別ではなくパートの種別を学習させる点が異なる。

続いて、生成部１２は、一の種別のパートから他の種別のパートを作成するための学習済みモデル５０６を生成し（ステップＳ２２）、学習済みモデル生成処理を終了する。なお、ステップＳ２２の処理は、第１の実施形態のステップＳ１２の処理と同様である。なお、ステップＳ２０からステップＳ２２の処理の順番は、どのような順番で行ってもよい。

（パートの種別を分類するための学習済みモデル１１０４の生成処理）
次に、図１４を参照し、図１３のステップＳ２１の、パートの種別を分類するための学習済みモデル１１０４を生成する処理について説明する。図１４は、第２の実施形態に係るパートの種別を分類するための学習済みモデル１１０４を生成する処理の一例について説明するフローチャートである。なお、当該学習済みモデル１１０４により、実行フェーズにおいて、例えば、端末２０は、自動作曲する楽曲の元となる所定のフレーズに基づいて作成されたパートの種別を判定することができる。

なお、図１４の処理は、第１の実施形態の図８の処理と比較して、フレーズの種別ではなくパートの種別を学習させる点が異なる。

ステップＳ２１１において、生成部１２は、楽曲に含まれるパートと、当該パートの種別とが対応付けられたデータを、学習用データ１１１から取得する。以下で、当該種別は、当該パートに対する正解として機械学習される。

続いて、生成部１２は、学習用の楽曲のデータの表現形式を変換する（ステップＳ２１２）。続いて、生成部１２は、表現形式が変換された学習用の楽曲のデータに基づいた機械学習を行うことにより、パートの種別を分類するための学習済みモデル１１０４を生成する（ステップＳ２１３）。

続いて、生成部１２は、学習の終了条件を満たしたか否かを判定する（ステップＳ２１４）。学習の終了条件を満たしていない場合（ステップＳ２１４でＮＯ）、ステップＳ２１１の処理に進む。学習の終了条件を満たしている場合（ステップＳ２１４でＹＥＳ）、処理を終了する。

≪実行フェーズ≫
次に、図１５を参照し、第２の実施形態における、図５のステップＳ３の、学習済みモデルのセットを用いて、楽曲を自動で作成する処理（実行フェーズ）について説明する。図１５は、第２の実施形態に係る実行フェーズの処理の一例について説明するフローチャートである。

ステップＳ２５において、端末２０の取得部２２は、所定のフレーズを取得する。この処理は第１の実施形態と同様である。続いて、第１メロディ生成部２３は、図１３のステップＳ２１の処理で生成された、フレーズからパートを作成するための学習済みモデル１１０２を用いて、当該所定のフレーズから第１のパートを作成する（ステップＳ２６）。

続いて、第１メロディ生成部２３は、図１３のステップＳ２２の処理で生成された、パートの種別を分類するための学習済みモデル１１０４を用いて、第１のパートの種別を判定する（ステップＳ２７）。

ステップＳ２８、及びステップＳ２９の処理は第１の実施形態の図１１のステップＳ１８、及びステップＳ１９の処理と同様である。

＜変形例＞
サーバ１０、及び端末２０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。端末２０の各機能部の少なくとも一部を、サーバ１０に設けた構成としてもよい。この場合、例えば、第１メロディ生成部２３、第２メロディ生成部２４、及び楽曲生成部２５等をサーバ１０に設け、サーバ１０が、ユーザの鼻歌等のデータを端末２０から取得し、上述した実行フェーズの処理を実行して楽曲を作成し、作成した楽曲を端末２０に配信するようにしてもよい。また、サーバ１０の各機能部の少なくとも一部を、端末２０に設けた構成としてもよい。サーバ１０、及び端末２０は、一体の装置として構成されてもよい。

＜実施形態の効果＞
上述した実施形態によれば、より多様な楽曲を自動で作成できる。また、音楽の知識が無くても作曲ができるため、例えば、より多くの人に音楽の面白さを知ってもらうきっかけにもなる。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以上の説明に関し、更に以下の説明を開示する。
（付記１）
電子機器に、
所定の情報に応じて、楽曲の構成要素に対応する区間長を有し、構成要素の種別が特定されているメロディを生成する第１メロディ生成処理と、
学習用の楽曲に含まれる、第１種別の構成要素に対応する区間長を有するメロディと、前記第１種別とは異なる第２種別の構成要素に対応する区間長を有するメロディとの組を学習データとする機械学習により生成された第１の学習済みモデルを用いて、少なくとも、前記第１メロディ生成処理により生成された前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成する第２メロディ生成処理と、
所定の構成情報により規定される各構成要素の種別の出現順序に応じて、前記第１種別の構成要素のメロディ、及び前記第２種別の構成要素のメロディを配置し、楽曲を生成する処理と、を実行させるプログラム。
（付記２）
前記第１の学習済みモデルは、ＧＡＮｓ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、またはＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）を用いて生成されたモデルである、
付記１に記載のプログラム。
（付記３）
前記第１メロディ生成処理は、学習用の楽曲に含まれる所定の種別の構成要素のメロディの一部と、当該構成要素のメロディとの組を学習データとする機械学習により生成された第２の学習済みモデルを用いて、前記所定の情報に応じたメロディを生成する、
付記１または２に記載のプログラム。
（付記４）
学習用の楽曲に含まれる所定の種別の構成要素のメロディの一部または当該構成要素のメロディと、当該構成要素の種別との組を学習データとする機械学習により生成された第３の学習済みモデルを用いて、前記所定の情報に応じたメロディ、または前記第１メロディ生成処理により生成されたメロディの種別を判断する処理を実行させる、
付記１から３のいずれか一項に記載のプログラム。
（付記５）
前記所定の情報は、ユーザの音声に基づく情報、及び乱数に基づく情報である、
付記１から４のいずれか一項に記載のプログラム。
（付記６）
電子機器が、
所定の情報に応じて、楽曲の構成要素に対応する区間長を有し、構成要素の種別が特定されているメロディを生成する第１メロディ生成処理と、
学習用の楽曲に含まれる、第１種別の構成要素に対応する区間長を有するメロディと、前記第１種別とは異なる第２種別の構成要素に対応する区間長を有するメロディとの組を学習データとする機械学習により生成された第１の学習済みモデルを用いて、少なくとも、前記第１メロディ生成処理により生成された前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成する第２メロディ生成処理と、
所定の構成情報により規定される各構成要素の種別の出現順序に応じて、前記第１種別の構成要素のメロディ、及び前記第２種別の構成要素のメロディを配置し、楽曲を生成する処理と、を実行する情報処理方法。
（付記７）
所定の情報に応じて、楽曲の構成要素に対応する区間長を有し、構成要素の種別が特定されているメロディを生成する第１メロディ生成部と、
学習用の楽曲に含まれる、第１種別の構成要素に対応する区間長を有するメロディと、前記第１種別とは異なる第２種別の構成要素に対応する区間長を有するメロディとの組を学習データとする機械学習により生成された第１の学習済みモデルを用いて、少なくとも、前記第１メロディ生成部により生成された前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成する第２メロディ生成部と、
所定の構成情報により規定される各構成要素の種別の出現順序に応じて、前記第１種別の構成要素のメロディ、及び前記第２種別の構成要素のメロディを配置し、楽曲を生成する楽曲生成部と、を有する電子機器。
（付記８）
学習用の楽曲に含まれる第１種別の構成要素のメロディと、第２種別の構成要素のメロディとの組を学習データとする機械学習により、前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成可能な学習済みモデルを生成する生成部を有する電子機器。
（付記９）
電子機器が、
学習用の楽曲に含まれる第１種別の構成要素のメロディと、第２種別の構成要素のメロディとの組を学習データとする機械学習により、前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成可能な学習済みモデルを生成する、情報処理方法。
（付記１０）
電子機器に、
学習用の楽曲に含まれる第１種別の構成要素のメロディと、第２種別の構成要素のメロディとの組を学習データとする機械学習により、前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成可能な学習済みモデルを生成させる、プログラム。
（付記１１）
学習用の楽曲に含まれる第１種別の構成要素のメロディと、第２種別の構成要素のメロディとの組を学習データとする機械学習により生成され、前記第１種別の構成要素のメロディに基づいて前記第２種別の構成要素のメロディを生成するための学習済みモデル。

１情報処理システム
１０サーバ
１１記憶部
１１１学習用データ
１２生成部
１３出力部
２０端末
２１受付部
２２取得部
２３第１メロディ生成部
２４第２メロディ生成部
２５楽曲生成部
２６出力部

Claims

電子機器に、
所定の情報の入力に応じて、楽曲を構成する複数の種別の中から種別は第１種別と決定するとともに、第１メロディを出力する第１メロディ生成処理と、
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、前記第１種別の決定に基づいて、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１の学習済みモデルを複数の学習済みモデルの中から選択する選択処理と、
選択された前記第１の学習済みモデルに前記第１メロディを入力し、前記第１の学習済みモデルが第２種別の第２メロディを出力する第２メロディ生成処理と、
所定の構成情報により規定される前記所定のテンプレートの各構成要素の種別の出現順序に応じて、前記第１メロディ及び前記第２メロディを配置し、楽曲を生成する処理と、
を実行させるプログラム。
前記第１の学習済みモデルは、ＧＡＮｓ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、またはＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）を用いて生成されたモデルである、
請求項１に記載のプログラム。
前記第１メロディ生成処理は、学習用の楽曲に含まれる所定の種別の構成要素のメロディの一部と、当該構成要素のメロディとの組を学習データとする機械学習により生成された第２の学習済みモデルを用いて、前記所定の情報に応じたメロディを生成する、
請求項１または２に記載のプログラム。
学習用の楽曲に含まれる所定の種別の構成要素のメロディの一部または当該構成要素のメロディと、当該構成要素の種別との組を学習データとする機械学習により生成された第３の学習済みモデルを用いて、前記所定の情報に応じたメロディ、または前記第１メロディ生成処理により生成されたメロディの種別を判断する処理を実行させる、
請求項１から３のいずれか一項に記載のプログラム。
前記所定の情報は、ユーザの音声に基づく情報、及び乱数に基づく情報である、
請求項１から４のいずれか一項に記載のプログラム。
電子機器が、
所定の情報の入力に応じて、楽曲を構成する複数の種別の中から種別は第１種別と決定するとともに、第１メロディを出力する第１メロディ生成処理と、
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、前記第１種別の決定に基づいて、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１の学習済みモデルを複数の学習済みモデルの中から選択する選択処理と、
選択された前記第１の学習済みモデルに前記第１メロディを入力し、前記第１の学習済みモデルが第２種別の第２メロディを出力する第２メロディ生成処理と、
所定の構成情報により規定される前記所定のテンプレートの各構成要素の種別の出現順序に応じて、前記第１メロディ及び前記第２メロディを配置し、楽曲を生成する処理と、を実行する情報処理方法。
所定の情報の入力に応じて、楽曲を構成する複数の種別の中から種別は第１種別と決定するとともに、第１メロディを出力する第１メロディ生成部と、
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択部であって、前記第１種別の決定に基づいて、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１の学習済みモデルを複数の学習済みモデルの中から選択する選択部と、
選択された前記第１の学習済みモデルに前記第１メロディを入力し、前記第１の学習済みモデルが第２種別の第２メロディを出力する第２メロディ生成部と、
所定の構成情報により規定される前記所定のテンプレートの各構成要素の種別の出現順序に応じて、前記第１メロディ及び前記第２メロディを配置し、楽曲を生成する楽曲生成部と、を有する電子機器。
電子機器に、
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、第１メロディに対応する第１種別情報の入力に基づいて、複数の学習済みモデルの中から、第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１学習済みモデルと、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第３種別のメロディを出力する第２学習済みモデルと、を選択する選択処理と、
前記第１学習済みモデル及び前記第２学習済みモデルに前記第１メロディを夫々入力し、入力に応じて前記第１学習済みモデル及び前記第２学習済みモデルが夫々出力する第２メロディ及び第３メロディを含む楽曲を生成する処理と、
を実行させるプログラム。
電子機器が、
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、第１メロディに対応する第１種別情報の入力に基づいて、複数の学習済みモデルの中から、第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１学習済みモデルと、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第３種別のメロディを出力する第２学習済みモデルと、を選択する選択処理と、
前記第１学習済みモデル及び前記第２学習済みモデルに前記第１メロディを夫々入力し、入力に応じて前記第１学習済みモデル及び前記第２学習済みモデルが夫々出力する第２メロディ及び第３メロディを含む楽曲を生成する処理と、
を実行する情報処理方法。
所定のテンプレートにより規定されている各種別に応じて学習されている学習済みモデルを夫々選択する選択処理であって、第１メロディに対応する第１種別情報の入力に基づいて、複数の学習済みモデルの中から、第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第２種別のメロディを出力する第１学習済みモデルと、前記第１種別のメロディの入力に応じて前記所定のテンプレートで規定されている第３種別のメロディを出力する第２学習済みモデルと、を選択する選択処理と、
前記第１学習済みモデル及び前記第２学習済みモデルに前記第１メロディを夫々入力し、入力に応じて前記第１学習済みモデル及び前記第２学習済みモデルが夫々出力する第２メロディ及び第３メロディを含む楽曲を生成する処理と、
を実行する電子機器。