JP7371962B2

JP7371962B2 - 編曲システム、編曲方法、およびコンピュータプログラム

Info

Publication number: JP7371962B2
Application number: JP2022041410A
Authority: JP
Inventors: 栄太中村; 和佳吉井
Original assignee: Kyoto University
Current assignee: Kyoto University
Priority date: 2020-01-29
Filing date: 2022-03-16
Publication date: 2023-10-31
Anticipated expiration: 2040-01-29
Also published as: JP2021117434A; JP7122010B2; JP2022088461A

Description

特許法第３０条第２項適用研究集会での発表研究集会名：４４ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）論文タイトル：ＵＮＳＵＰＥＲＶＩＳＥＤＭＥＬＯＤＹＳＴＹＬＥＣＯＮＶＥＲＳＩＯＮ論文公開日：２０１９年４月１７日口頭発表日：２０１９年５月１６日〔刊行物等〕出版物による公開出版物名：研究報告音楽情報科学発行者名：一般社団法人情報処理学会論文名：教師なしスタイル変換によるメロディーの自動生成発行日：２０１９年８月２０日〔刊行物等〕研究集会での発表研究集会名：第１２４回音楽情報科学研究会タイトル：教師なしスタイル変換によるメロディーの自動生成スタイル変換による多様なスタイルのメロディー自動生成（デモンストレーション）発表日：２０１９年８月２７日〔刊行物等〕ウェブサイトでの公開サイト名：多様なスタイルによる自動音楽生成ＵＲＬ：ｈｔｔｐｓ：／／ｍｅｌｏｄｙａｒｒａｎｇｅｍｅｎｔ．ｇｉｔｈｕｂ．ｉｏ／ｄｅｍｏ－ｊａ．ｈｔｍｌｈｔｔｐｓ：／／ｍｅｌｏｄｙａｒｒａｎｇｅｍｅｎｔ．ｇｉｔｈｕｂ．ｉｏ／ｄｅｍｏ－ｅｎ．ｈｔｍｌ公開日：２０１９年６月１２日

本発明は、ＡＩ（Artificial Intelligence）を適用した作曲または編曲の技術に関す
る。

従来、コンピュータによる自動作曲の技術が提案されている。例えば、Ｏｒｐｈｅｕｓは、日本語の歌詞が入力されスタイルが指定されると、入力された歌詞に応じかつ指定されたスタイルを有する楽曲を自動的に生成する（非特許文献１）。

東京大学大学院システム情報学第一研究室ウェブサイト、http://www.orpheus-music.org/

しかし、従来の技術によると、スタイルのデータを用意するためには、人間がスタイルの特徴を分析しなければならない。したがって、指定可能なスタイルを増やすには、コストが嵩んでしまう。

本発明は、このような課題に鑑み、従来よりも容易にＡＩによる作曲を実現することを目的とする。

本発明の一形態に係る編曲システムは、第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲システムであって、前記対象メロディの編曲として、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高くまたは所定の値以上であり、かつ、前記対象メロディと音符数が同じであるメロディを、動的計画法によって探索する探索手段、を有する。

本発明の他の一形態に係る編曲システムは、第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲システムであって、前記対象メロディと音符数が同じでありかつ前記第二のスタイルを有する複数のメロディのうちの、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高いものまたは所定の値以上のものを前記対象メロディの編曲として探索する探索手段、を有する。

好ましくは、前記探索手段は、前記複数のメロディそれぞれの前記適切度を算出し、前記複数のメロディのうちの、前記適切度が最も高くまたは所定の値以上であるものを選出することによって、前記編曲を探索する。

本発明によると、第一のスタイルを有する対象メロディを第二のスタイルへ従来よりも容易に編曲することができる。

自動音楽生成装置を含むネットワークシステムの例を示す図である。自動音楽生成装置のハードウェア構成の例を示す図である。自動音楽生成装置の機能的構成の例を示す図である。自動音楽生成装置の全体的な処理の流れの例を説明するフローチャートである。作曲学習処理の流れの例を説明するフローチャートである。作曲処理の流れの例を説明するフローチャートである。編曲学習処理の流れの例を説明するフローチャートである。編曲処理の流れの例を説明するフローチャートである。

〔１自動音楽生成装置１の全体〕
図１は、自動音楽生成装置１を含むネットワークシステムの例を示す図である。図２は、自動音楽生成装置１のハードウェア構成の例を示す図である。図３は、自動音楽生成装置１の機能的構成の例を示す図である。図４は、自動音楽生成装置１の全体的な処理の流れの例を説明するフローチャートである。

図１に示す自動音楽生成装置１は、ユーザの好みのスタイルの楽曲を自動的に作曲し、または、ある原曲をユーザの好みのスタイルに編曲するシステムである。「スタイル」は、クラシック、ポピュラー、カントリー、ロック、演歌、およびジャズなどの音楽スタイルである。または、中世西洋音楽、ルネサンス音楽、バロック音楽、古典派音楽、およびロマン派音楽のような、より具体的なスタイルであってもよい。

従来の自動作曲システムおよび自動編曲システムは、スタイルごとの音楽的な特徴を人間が解析してルール化したデータに基づいて作曲しまたは編曲する。つまり、ルールベースの人工知能によって作曲しまたは編曲する。

これに対し、自動音楽生成装置１は、機械学習によってモデル（学習済モデル）を生成し、生成したモデルに基づいて作曲しまたは編曲する。機械学習のアルゴリズムとして、統計的でありかつ教師なしの機械学習のアルゴリズムが用いられる。以下、この仕組みを説明する。

なお、楽曲には、主旋律および対旋律など複数のメロディーが含まれていることがあるが、本実施形態では、説明の簡単のため、単音の主旋律のみからなりかつ４分の４拍子の楽曲を作曲しまたは編曲する場合を例に説明する。

自動音楽生成装置１は、図２に示すように、メインプロセッサ１０、ＲＡＭ（Random Access Memory）１１、ＲＯＭ（Read Only Memory）１２、補助記憶装置１３、ネットワークアダプタ１４、キーボード１５、ポインティングデバイス１６、データ入出力ボード１７、ディスプレイ１８、および音声再生ユニット１９などによって構成される。

ＲＯＭ１２または補助記憶装置１３には、オペレーティングシステムのほか種々のプログラムがインストールされている。特に、本実施形態では、プログラムの１つとして音楽生成プログラム２（図３参照）がインストールされている。補助記憶装置１３として、ハードディスクまたはＳＳＤ（Solid State Drive）などが用いられる。

ＲＡＭ１１は、自動音楽生成装置１のメインメモリである。ＲＡＭ１１には、オペレーティングシステムのほか音楽生成プログラム２などのプログラムがロードされる。

メインプロセッサ１０は、ＲＡＭ１１にロードされたプログラムを実行する。メインプロセッサ１０として、ＧＰＵ（Graphics Processing Unit）またはＣＰＵ（Central Processing Unit）などが用いられる。

ネットワークアダプタ１４は、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）などのプロトコルで通信回線４２を介して端末装置４１など他の装置と通
信するための装置である。ネットワークアダプタ１４として、ＮＩＣ（Network Interface Card）またはＷｉ－Ｆｉ用の子機が用いられる。

キーボード１５およびポインティングデバイス１６は、コマンドまたはデータなどをオペレータが入力するための入力装置である。

データ入出力ボード１７は、周辺機器とデータのやり取りを行うための装置である。データ入出力ボード１７として、例えば、ＵＳＢ（Universal Serial Bus）またはＢｌｕｅｔｏｏｔｈ（登録商標）などに準拠した入出力ボードが用いられる。

ディスプレイ１８は、コマンドもしくはデータを入力するための画面またはメインプロセッサ１０による演算の結果などを表示する。音声再生ユニット１９は、音声ボードおよびスピーカなどによって構成され、楽曲を再生する。

音楽生成プログラム２には、図３に示すメインモジュール２０、作曲モジュール２１および編曲モジュール２５が含まれる。作曲モジュール２１は、ユーザの好みのスタイルの楽曲を自動的に作曲するためのモジュールである。編曲モジュール２５は、ある原曲をユーザの好みのスタイルに編曲するモジュールである。

〔２メインモジュール〕
メインモジュール２０は、全体的な処理を規定するモジュールである。メインモジュール２０によると、自動音楽生成装置１は、図４に示す手順で全体的な処理を実行する。

メインモジュール２０の起動後、自動音楽生成装置１は、メニュー画面を表示する（Ｓ１０１）。

作曲のための学習のコマンドがメニュー画面において入力されると（Ｓ１０２でＹｅｓ）、自動音楽生成装置１は、作曲学習処理を実行する（Ｓ１０３）。または、作曲のコマンドが入力されると（Ｓ１０４でＹｅｓ）、作曲処理を実行する（Ｓ１０５）。作曲学習処理および作曲処理は、後述するように、作曲モジュール２１に基づいて行われる。

または、編曲のための学習のコマンドが入力されると（Ｓ１０６でＹｅｓ）、自動音楽生成装置１は、編曲学習処理を実行する（Ｓ１０７）。または、編曲のコマンドが入力されると（Ｓ１０８でＹｅｓ）、編曲処理を実行する（Ｓ１０９）。編曲学習処理および編曲処理は、後述するように、編曲モジュール２５に基づいて行われる。

〔３作曲モジュール〕
作曲モジュール２１は、図３に示すように学習データ記憶部２１１、初期化処理部２１２、トニック推定部２１３、事後確率算出部２１４、パラメータ更新部２１５、収束判定部２１６、スタイルモデル記憶部２１７、音符決定部２１８、系列変換部２１９、および
作曲データ生成部２２０などによって構成される。上述の通り、作曲モジュール２１は、作曲学習処理および作曲処理を実行するためのモジュールである。作曲学習処理が機械学習のフェーズに相当し、作曲処理が推論のフェーズに相当する。

以下、作曲モジュール２１の各部の処理を機械学習のフェーズおよび推論のフェーズに大別して説明する。

〔３．１機械学習のフェーズ〕
〔３．１．１概要〕
図５は、作曲学習処理の流れの例を説明するフローチャートである。機械学習のフェーズにおいては、作曲用の学習済モデルが、図５に示す手順で生成される。

図３の初期化処理部２１２ないし収束判定部２１６は、学習器を構成し、推論つまり自動作曲のための学習済モデルを教師なし機械学習によってスタイルごとに生成する。

オペレータは、モデルを必要とするスタイル（以下、「対象スタイル」と記載する。）ごとに、機械学習用の学習データとして多数の楽曲の楽曲データ６０を用意し自動音楽生成装置１へ入力する。これらの楽曲データ６０は、学習データ記憶部２１１に記憶される（図５のＳ７０１）。楽曲データ６０の構成および用意については、後述する。さらに、オペレータは、対象スタイルの数を入力する。以下、対象スタイルの数を「対象スタイル数Ｎ_M」と記載する。例えば、対象スタイルがロックおよび演歌の２つである場合は、対
象スタイル数Ｎ_Mとして「２」を入力する。すると、対象スタイル数Ｎ_Mが初期化処理部２１２によって受け付けられる（Ｓ７０２）。

なお、本実施形態では、教師なし機械学習によって学習済モデルを生成するので、それぞれの楽曲データ６０がどのスタイルに属するのかを入力する必要がない。

初期化処理部２１２は、対象スタイル数Ｎ_Mのマルコフモデルを用意し、各マルコフモ
デルのパラメータにランダムな値を設定する（Ｓ７０３）。この時点において、オペレータは、どのマルコフモデルがどの対象スタイルに対応するのか分からない。なお、これらのマルコフモデルのうちの２つ以上が偶然、一致することがある。このような場合は、各マルコフモデルのパラメータが相違するように、ステップＳ７０３の処理をやり直す。

事後確率算出部２１４およびパラメータ更新部２１５は、ＥＭ（Expectation-Maximization）アルゴリズムによって各マルコフモデルのパラメータを調整する。

事後確率算出部２１４は、Ｅステップの処理を行い（Ｓ７０４）、パラメータ更新部２１５は、Ｍステップの処理を行う（Ｓ７０５）。Ｅステップの処理およびＭステップの処理を交互に繰り返すことによって、各マルコフモデルにいずれかの対象スタイルの特徴が表われるように徐々に調整される。

収束判定部２１６は、収束の判定を行う（Ｓ７０６）。例えば、マルコフモデルのパラメータのうちの少なくとも１つまたは全部が、Ｅステップの処理およびＭステップの処理を繰り返してもほとんど変化しなくなった場合に、理想的な値に収束したと判定する。または、所定の回数、Ｅステップの処理およびＭステップの処理を繰り返した場合に、収束したと判定する。そして、収束したと判定した場合は（Ｓ７０７でＹｅｓ）、その時点の各マルコフモデルを学習済モデルとしてスタイルモデル記憶部２１７に記憶させる（Ｓ７０８）。

収束していないと判定された場合は（Ｓ７０７でＮｏ）、ステップＳ７０４に戻って、
Ｅステップの処理およびＭステップの処理が再度、実行される。

〔３．１．２楽曲データ６０の構成および用意〕
楽曲データ６０は、次の式（１）のように、楽曲のメロディーすなわち楽曲を構成する音符ごとの音高および発音時刻を示す。

「Ｍ」は楽曲に含まれる小節の数であり、「Ｎ_m」はｍ番目の小節に含まれる音符の数
である。ｐ_mnおよびｓ_mnは、それぞれ、ｍ番目の小節のｎ番目の音符の音高および発音時刻である。

音高は、ＭＩＤＩ（Musical Instrument Digital Interface）規格におけるノートナンバと同様の値によって表わされる。つまり、音高は、半音上がるごとに「１」上がり、半音下がるごとに「１」下がる。音高の範囲は、０～１２７の各整数値および休符を表わす「－１」からなる。つまり、ｐ_mn∈｛－１,０,１,２,…,１２７｝であり、中央のド（Ｃ
）の値は「６０」である。

本実施形態では、楽曲の拍子が４分の４拍子であるものとする。また、１つの音の長さの最短が１６分音符の１／３であり、最長が１小節（つまり、全音符）である。したがって、例えば４分音符の長さは、「１２」である。また、楽曲の先頭の時刻が「０」である。したがって、発音時刻ｓ_mn∈｛０,１,…,４７｝である。

または、楽曲データ６０は、次の式（２）のように、楽曲を小節ごとに区切らずに楽曲を構成する音符ごとの音高および発音時刻を示してもよい。

「Ｉ」は、楽曲に含まれる音符の数である。「ｐ_i」および「ｓ_i」は、それぞれ、ｉ番目の音符の音高および発音時刻である。楽曲がｊ小節からなる場合は、ｓ_i∈｛０,１,…,(４８ｊ－１)｝である。

楽曲のＭＩＤＩまたはＭｕｓｉｃＸＭＬ（Extensible Markup Language）のフォーマットのファイルがあれば、このファイルを変換することによって楽曲データ６０が得られる。そこで、オペレータは、ＭＩＤＩまたはＭｕｓｉｃＸＭＬのファイルを楽曲データ６０に変換し、ネットワークアダプタ１４またはデータ入出力ボード１７を介して自動音楽生成装置１へ入力し学習データ記憶部２１１に記憶させればよい。または、変換を自動音楽生成装置１が実行してもよい。

なお、逆に、楽曲データ６０をＭＩＤＩまたはＭｕｓｉｃＸＭＬのファイルに変換することもできる。この方向の変換は、後述するように、作曲および編曲の際に用いられる。

ところで、以下に説明する、音楽生成のための統計学習手法において、式（１）または式（２）で表わす値をそのまま使用すると、モデルのパラメータが多すぎるので効果的な
学習ができないことがある。

そこで、楽曲データ６０において、自由度をより低くするために、次の式（３）のように、オクターブ内のドを基準とする相対値（音高クラス、ピッチクラス）によって音高を表わし、かつ、小節内の先頭を基準とする相対位置（拍節位置）で発音時刻を表わしてもよい。

「ｑ_mn」および「ｂ_mn」は、それぞれ、ｍ番目の小節のｎ番目の音符の音高クラスおよび拍節位置である。以下、音高クラスの個数を「Ｑ」と記載し、音符の長さのパターン数を「Ｂ」と記載する。本実施形態では、Ｑ＝１２、Ｂ＝４８、である。

または、楽曲データ６０は、（４）式のように各音符の音高を音高クラスによって表わし発音時刻を拍節位置によって表わしてもよい。

「ｑ_i」および「ｂ_i」は、それぞれ、ｉ番目の音符の音高クラスおよび拍節位置である。

音符が休符である場合を除くと、ｑ_i≡ｐ_i(mod１２)∈｛０,１,…,１１｝＝｛Ｃ,Ｃ＃,…,Ｂ｝の関係が成り立つ。音符が休符である場合は、ｑ_i＝ｐ_i、である。さらに、ｂ_i≡ｓ_i(mod４８)∈｛０,１,…,４７｝の関係が成り立つ。これらの関係に基づいて、式（１
）から式（３）へ変換し、または式（２）から式（４）へ変換することができる。

したがって、楽曲のＭＩＤＩまたはＭｕｓｉｃＸＭＬのファイルがあれば、式（３）または式（４）形式でメロディーを示すデータが楽曲データ６０として得られる。後述する各処理においては、式（３）または式（４）の形式の値が適宜、用いられる。

以下、Ｈ（Ｈ≧２）曲の楽曲の楽曲データ６０が用意された場合を例に説明する。各楽曲には、１、２、３、…、Ｈのいずれかのシーケンス番号が付いている。説明の簡単のため、Ｈ曲の楽曲すべてが４分の４拍子であるものとする。また、説明の簡単のため、休符を扱わない場合を例に説明する。なお、ｈ∈｛１,…,Ｈ｝である。式（４）で表わされる系列を「ｑｂ系列」と記載する。また、式（２）で表わされる系列を「ｐｓ系列」と記載する。

特にｈ番目の楽曲のメロディーを表わしたい場合は、式（３）および式（４）をそれぞれ式（５）または式（６）式のように記載することができる。

〔３．１．３マルコフモデルの構成〕
各マルコフモデルには、スタイル変数確率、初期確率、および遷移確率の３つのパラメータよって構成され、それぞれ、次の式（７）、式（８）、および式（９）によって表わされる。
θ(ρ) …（７）
πⁱⁿⁱ(ｑ,ｂ|ρ) …（８）
π(ｑ,ｂ|ｑ',ｂ',ρ) …（９）

式（７）は、ρ番目の対象スタイルが出現する確率を表わしている。したがって、Ｎ_M
個の要素からなる確率ベクトルである。なお、ρ∈｛１,…,Ｎ_M｝である。

式（８）は、スタイルがρ番目の対象スタイルである場合の最初の音符として(ｑ,ｂ)
が出現する確率を表わしている。したがって、ＱＢ個の確率ベクトルがＮ_M個、集まった
ものである。

式（９）は、スタイルがρ番目の対象スタイルである場合において(ｑ',ｂ')の直後に(ｑ,ｂ)が出現する確率すなわち(ｑ',ｂ')から(ｑ,ｂ)へ遷移する確率を表わしている。したがって、ＱＢ×ＱＢ個の要素からなる確率行列がＮ_M個、集まったものである。

ところで、これらの楽曲データ６０のそれぞれに示される楽曲（メロディー）の音階（調）がすべて同じであれば、自動音楽生成装置１は、音階を揃える処理を行うことなく後述の方法で機械学習を行うことができる。または、それぞれの音階が異なっていても、それぞれの音階が分かっている場合は、自動音楽生成装置１は、すべての楽曲を共通のトニックの音階に移調し、後述の方法で機械学習を行う。

しかし、音階が揃っておらず、かつ、音階が分からない場合は、楽曲データ６０をそのまま使用して機械学習を行うと、精度のよい学習済モデルが得られないことがある。

そこで、自動音楽生成装置１は、楽曲の調が分からない場合であっても機械学習を行うことができるように、トニックの自由度を持った移調対称マルコフモデルを使用する。なお、式（７）～（９）が表わすような、トニックの自由度のないマルコフモデルは、「単純マルコフモデル」と呼ばれる。

移調対称マルコフモデルは、単純マルコフモデルと同じ初期確率πｉｎｉ(ｑ,ｂ)およ
び遷移確率π(ｑ,ｂ|ｑ',ｂ')を有し、さらに、トニック確率Ｐ(ｋ)を有する。「ｋ」は
トニック変数であって、ｋ∈｛０,１,…,１１｝＝｛Ｃ,Ｃ＃,…,Ｂ｝である。ただし、楽曲を移調しても生成確率が変わらないという移調対称性を仮定する。すると、次の式（１０）、式（１１）、および式（１２）が成り立つ。
Ｐ(ｋ)＝１／１２ …（１０）
πⁱⁿⁱ(ｑ,ｂ|ｋ)＝πⁱⁿⁱ(ｑ－ｋ,ｂ) …（１１）
π(ｑ,ｂ|ｑ',ｂ',ｋ)＝π(ｑ－ｋ,ｂ|ｑ'－ｋ,ｂ') …（１２）

このように、式（１１）および式（１２）それぞれの右辺に示すパラメータは、単純なマルコフモデルのパラメータである。以下、それぞれのパラメータを「ベース初期確率」および「ベース遷移確率」と記載する。また、ベース初期確率およびベース遷移確率を有する単純マルコフモデルを「ベースマルコフモデル」と記載する。

なお、トニック変数ｋおよびｑｂ系列（式（４）で表わされる系列）の同時生成確率とベースマルコフモデルとの関係は、次の式（１３）の通りである。

さらに、トニック変数ｋが与えられた場合のｑｂ系列の条件付き生成確率は、次の式（１４）の通りである。

そして、式（１３）および式（１４）より、次の式（１５）が成り立つ。

さらに、式（１０）、式（１１）、および式（１２）にスタイル変数ρを、それぞれＰ(ρ,ｋ)、πⁱⁿⁱ(ｑ,ｂ|ρ,ｋ)、およびπ(ｑ,ｂ|ｑ',ｂ',ρ,ｋ)のように導入することによって、Ｎ_M個の移調対称マルコフモデルを混合させる。そして、移調対称性を仮定する
と、これらの式を式（１６）、式（１７）、および式（１８）のように書き換えることができる。
Ｐ(ρ,ｋ)＝(１／１２)Ｐ(ρ)＝(１／１２)θ(ρ) …（１６）
πⁱⁿⁱ(ｑ,ｂ|ρ,ｋ)＝πⁱⁿⁱ(ｑ－ｋ,ｂ|ρ) …（１７）
π(ｑ,ｂ|ｑ',ｂ',ρ,ｋ)＝π(ｑ－ｋ,ｂ|ｑ'－ｋ,ｂ',ρ) …（１８）

各スタイル（スタイル変数ρが１、…、Ｎ_Mであるそれぞれのスタイル）に対するこの
移調対称マルコフモデル（移調混合対称マルコフモデル）も、ベース初期確率およびベース遷移確率を有する単純マルコフモデルなので、ベースマルコフモデルである。なお、トニック変数ｋおよびｑｂ系列の同時生成確率とこのベースマルコフモデルとの関係は、次の式（１９）の通りである。

後半の項は、トニック変数が与えられた場合の、ｑｂ系列の条件付生成確率である。この条件付生成確率は、次の式（２０）～（２１）のように表わされる。

これを用いると、式（１９）の左辺に示す同時生成確率は、次の式（２２）のように表わされる。

そして、スタイル変数確率、ベース初期確率、およびベース遷移確率の３つのパラメータとして、式（１６）、式（１７）、および式（１８）それぞれの右辺の値を有するベースマルコフモデルが、学習用のベースマルコフモデルとして用いられる。

ところで、学習済の移調対称マルコフモデルが存在する場合は、図３のトニック推定部２１３は、楽曲データ６０に示される楽曲のｑｂ系列の調（トニック）を次のように推定することができる。

ベイズの公式により、次の式（２３）が成り立つ。

式（２３）の右辺の分母はｋに依らないので、次の式（２４）が成り立つ。

ここで、トニック変数条件付き確率は、式（１１）、式（１２）、式（１４）、および式（１５）より、次の式（２５）式のように表わすことができる。

左辺がトニック変数条件付き確率である。式（２５）によると、ｑｂ系列をトニック変数ｋだけ移調して、ベース初期確率およびベース遷移確率を用いて計算した生成確率と見なせる。よって、与えられた系列のトニックがトニック変数ｋに対応する音高クラスである確率は、この系列をトニック変数ｋだけ移調した時のベースマルコフモデルに対する生成確率に比例する。そこで、この確率を最大にするｋを求めることによって、この系列の最も尤もらしいトニックを推定することができる。

トニックを推定することができる場合は、式（１６）～（１８）それぞれの右辺の値をパラメータとして有するベースマルコフモデルの代わりに、式（７）～（９）それぞれの値をパラメータとして有するベースマルコフモデルを、学習用のベースマルコフモデルとして用いることができる。

以下、式（７）～（９）それぞれの値をパラメータとして有するベースマルコフモデルを学習用のモデル６１（図３参照）として用いる場合を例に説明する。

〔３．１．４学習用のモデルの準備〕
初期化処理部２１２は、対象スタイルごとのモデル６１のスタイル変数確率θ(ρ)、ベース初期確率πⁱⁿⁱ(ｑ,ｂ|ρ)、およびベース遷移確率π(ｑ,ｂ|ｑ',ｂ',ρ)の各パラメ
ータの初期値をランダムに設定する。

スタイル変数確率、ベース初期確率、およびベース遷移確率は、上述の通り、Ｅステップの処理およびＭステップの処理が交互に繰り返されることによって調整される。以下、ｔ回目のＥステップの処理およびＭステップの処理の直後のスタイル変数確率、ベース初期確率、およびベース遷移確率それぞれの値を次の式（２６）、式（２７）、および式（２８）のように表わす。

なお、ｔ＝０のときの式（２６）、式（２７）、および式（２８）の各値がスタイル変数確率、ベース初期確率、およびベース遷移確率の初期値である。また、式（２６）、式（２７）、および式（２８）をそれぞれθ _t、π ⁱⁿⁱ _t、およびπ _tと記載する。このように、本実施形態では、ベクトルの記号として下線を用いる。

〔３．１．５ＥＭアルゴリズムによる処理〕
事後確率算出部２１４は、ＥＭアルゴリズムのうちのＥステップの処理を次のように行う。具体的には、次の式（２９）によって表わされる確率を算出する。

「ρ_h」および「ｋ_h」は、それぞれ、ｈ番目の楽曲のスタイル変数およびトニック変数である。

この確率は、モデルパラメータの値に依存するので、ｔステップ目の各パラメータが変数として記されている。これは、次の式（３０）に従って計算することができる。

なお、式（３０）は、次のように導かれたものである。まず、学習済の移調対称マルコフモデルがある場合に、与えられた楽曲のｑｂ系列（式（４）参照）に合致するスタイルおよびトニックは、次の式（３１）で表わされる条件付き確率を計算することによって推定することができる。

この条件付き確率を最大にするρおよびｋが、この楽曲に最も合致するスタイルおよびトニックである。さらに、ベイズの公式により、次の式（３２）のように表わすことができる。

式（３２）の右辺の分母は、スタイル変数ρおよびトニック変数ｋに依らない。したがって、上記の式（３０）が成り立つ。なお、スタイルおよびトニックを推定する方法は、後述する原曲属性推定部２５６においても用いられる。

パラメータ更新部２１５は、ＥＭアルゴリズムのうちのＭステップの処理を行う。具体的には、次の式（３３）～（３５）式に従ってベースマルコフモデルの各パラメータを更新する。

δ_ijは、はクロネッカーデルタである。つまり、ｉ＝ｊであればδ_ij＝１であり、ｉ≠ｊであればδ_ij＝０である。式（３３）～（３５）それぞれの比例係数は、それぞれの確率値の総和が「１」になるように選択される。

収束判定部２１６は、事後確率算出部２１４およびパラメータ更新部２１５がそれぞれ１回、Ｅステップの処理およびＭステップの処理を行うごとに、パラメータの変化が収束したか否かを判定する。例えば、θ _tに対するθ _tとθ _t-1との差の絶対値の比が所定の値
（例えば、１０^-6）以下になったら、収束したと判定する。または、π ⁱⁿⁱ _tに対するπ ⁱⁿⁱ _tとπ ⁱⁿⁱ _t-1との差の絶対値の比が所定の値以下になったら、収束したと判定してもよい。または、π _tに対するπ _tとπ _t-1との差の絶対値の比が所定の値以下になったら、収束
したと判定してもよい。

または、収束判定部２１６は、上記の比に関わらず、ＥＭアルゴリズムを所定の回数（例えば、５０回）繰り返したら、収束したと判定してもよい。

そして、スタイルモデル記憶部２１７は、収束したと収束判定部２１６によって判定されたら、ＥＭアルゴリズムの処理を終了し、ＥＭアルゴリズムの処理が施された対象スタイルそれぞれのモデル６１を学習済モデル６２として記憶する（図３参照）。以下、Ｔ回目に収束したと判定された場合を例に説明する。

なお、以上の処理だけでは、オペレータは、どの学習済モデル６２がどの対象スタイルのものであるのか判別することができない。そこで、オペレータは、次に説明する作曲処理をこれらの学習済モデル６２を用いて１回ずつ自動音楽生成装置１に実行させ、自動作曲された楽曲を聴くことによって、それぞれの学習済モデル６２の対象スタイルを判別する。そして、それぞれの学習済モデル６２に、判別した対象スタイルをラベリングする。
例えば、対象スタイルがロックおよび演歌の２つである場合は、オペレータは、生成された２つの学習済モデル６２それぞれによって自動作曲された楽曲を聴き、ロックおよび演歌それぞれの学習済モデル６２を判別し、ラベリングする。

〔３．２推論のフェーズ〕
図６は、作曲処理の流れの例を説明するフローチャートである。推論のフェーズにおいては、新しい楽曲が、図６に示す手順で自動的に生成される。

自動音楽生成装置１は、作曲の条件として音符数Ｉおよびスタイルを受け付けると（図６のＳ７１１）、受け付けたスタイルの学習済モデル６２に基づいて１番目の音符を決定する（Ｓ７１２、Ｓ７１３）。２～Ｉ番目それぞれの音符を、その学習済モデル６２および直前の音符に基づいて決定する（Ｓ７１４～Ｓ７１６）。そして、１～Ｉ番目それぞれの決定した音符を所定のフォーマットのデータに変換する（Ｓ７１７）。以下、図６の各処理をさらに具体的に説明する。

図３の音符決定部２１８ないし作曲データ生成部２２０は、推論器であって、指定されたスタイルの楽曲をそのスタイルの学習済モデル６２に基づいて生成する。

学習済モデル６２には、π ⁱⁿⁱ _Tおよびπ _Tが含まれている。π ⁱⁿⁱ _Tおよびπ _Tには、スタイル（対象スタイル）ごとの初期確率πⁱⁿⁱ(ｑ,ｂ)および遷移確率π(ｑ,ｂ|ｑ',ｂ')が
含まれる。

オペレータは、自動音楽生成装置１に生成させたい楽曲のスタイルおよび音符の数Ｉを自動音楽生成装置１に対して指定する。

すると、音符決定部２１８は、これらの指定を受け付け、楽曲のＩ個の音符を次のように決定する。

音符決定部２１８は、Ｉ個の区間（０，１）の一様乱数を発生させる。以下、ｉ番目の一様乱数を「乱数ｒ_i」と記載する。なお、ｉ∈１,…,Ｉである。そして、離散確率分布
Ｐ(ｘ)(ｘ＝１,…,Ｘ)および乱数ｒに基づいてｘの値を生成（サンプル）する方法で、各音符をサンプルする。つまり、次の式（３６）を満たすｘを選ぶことによってサンプルする。

具体的には、音符決定部２１８は、１番目の音符つまり(ｑ₁,ｂ₁)を、乱数ｒ₁および指定されたスタイルの初期確率πⁱⁿⁱ(ｑ,ｂ)に基づいてサンプルする。次に、２番目の音符つまり(ｑ₂,ｂ₂)を、乱数ｒ₂および指定されたスタイルの遷移確率π(ｑ,ｂ|ｑ₁,ｂ₁)に
基づいてサンプルする。以下、同様に、ｉ番目の音符を、乱数ｒ_iおよび指定されたスタ
イルの遷移確率π(ｑ,ｂ|ｑ_i-1,ｂ_i-1)に基づいてサンプルする。これにより、ｑｂ系列
のデータが楽曲のメロディーのデータとして得られる。

系列変換部２１９は、楽曲のメロディーのデータを式（４）のフォーマットつまりｑｂ系列から式（２）のフォーマットつまりｐｓ系列へ次のように変換する。

系列変換部２１９は、小節線の位置を楽曲のメロディーのデータのうちの各音符の拍節位置つまり次の式（３７）の値より特定する。

すなわち、系列変換部２１９は、ｂ_i≦ｂ_i-1、を満たすときの(ｉ－１)番目の音符とｉ番目の音符との間に小節線があると特定する。そして、小節線の位置に基づいて、式（３７）の値を式（３８）の値に変換する。

さらに、系列変換部２１９は、次のように、楽曲のメロディーのデータのうちの音高すなわち式（３９）の値を式（４０）の値に変換する。

系列変換部２１９は、最初の音高ｐ₁のオクターブを適当な方法で定める。そして、後
続の音符の音高ｐ_iを、直前の音符の音高ｐ_i-1および音高クラスｑ_i、ｑ_i-1から決定する。具体的には、
ｑｉ－ｑ_i-1＜－６ならば、ｐ_i＝ｐ_i-1＋ｑ_i－ｑ_i-1＋１２
－６≦ｑ_i－ｑ_i-1＜６ならば、ｐ_i＝ｐ_i-1＋ｑ_i－ｑ_i-1
ｑ_i－ｑ_i-1≧６ならば、ｐ_i＝ｐ_i-1＋ｑ_i－ｑ_i-1－１２
とする。

この方法によると、ある音符が想定の音域から外れる場合があるが、この場合は、想定の音域の中に収まるようにオクターブ修正を行えばよい。これにより、想定の音域内に収まる音符列が生成される。

作曲データ生成部２２０は、系列変換部２１９によって得られた楽曲のｐｓ系列のデータをＭＩＤＩまたはＭｕｓｉｃＸＭＬのフォーマットのファイルに変換することによって、作曲データ６３を生成する。作曲データ６３は、自動音楽生成装置１の所定の記憶領域に保存される。または、端末装置４１などへ送信される。または、ｐｓ系列のデータに従って楽曲を音声再生ユニット１９（図２参照）によって再生してもよい。

なお、オクターブ情報が学習済モデルに含まれるように機械学習を行ってもよい。つまり、オクターブ情報に対してもマルコフモデルなどの確率モデルを生成してもよい。すると、推論のフェーズにおいて、オクターブの確率モデルに基づいて式（３９）の系列のデータから式（４０）の系列のデータを生成することができる。

以上説明したように、作曲モジュール２１によると、教師なし機械学習によって学習済モデルを生成するので、楽曲データ６０ごとにタグ付けすることなく従来よりも容易に自動作曲のＡＩ（Artificial Intelligence）を構築することができる。

本実施形態では、初期化処理部２１２は、θ(ρ)の初期値としてランダムな値を設定したが、用意した楽曲の総数に対する対象スタイルごとの楽曲の比率をθ(ρ)の初期値として設定してもよい。

本実施形態では、初期化処理部２１２は、各モデル６１の各パラメータにランダムな値を与えたが、モデル６１ごとに異なる値を与えることができれば、ランダムな値でなくてもよい。例えば、それぞれに異なる所定の値を与えてもよい。

〔４編曲モジュール〕
編曲モジュール２５は、図３に示すように、初期化処理部２５１、事後確率算出部２５２、パラメータ更新部２５３、収束判定部２５４、編集モデル記憶部２５５、原曲属性推定部２５６、候補楽曲生成部２５７、最適候補選出部２５８、および編曲データ生成部２５９などによって構成され、ある楽曲を、目標のスタイルの楽曲に変換する。つまり、編曲を行う。上述の通り、編曲モジュール２５は、編曲学習処理および編曲処理を実行するためのモジュールである。編曲学習処理が機械学習のフェーズに相当し、編曲処理が推論のフェーズに相当する。

以下、変換対象の楽曲を「原曲」と記載し、原曲のスタイルを「原曲スタイル」と記載する。目標のスタイルを「目標スタイル」と記載し、原曲が目標スタイルに変換されたものを「編曲」と記載する。また、原曲スタイルおよび目標スタイルそれぞれのシーケンス番号を「ρ_S」および「ρ_T」とする。原曲スタイルと目標スタイルとが同じであっても構わない。また、スタイルモデル記憶部２１７に、Ｎ_M個のスタイルの学習済モデル６２が
記憶されているものとする。

〔４．１概要〕
図７は、編曲学習処理の流れの例を説明するフローチャートである。図８は、編曲処理の流れの例を説明するフローチャートである。

図３の初期化処理部２５１ないし収束判定部２５４は、学習器であって、編集モデルを、図７に示す手順で生成する。なお、編集モデルは、推論のフェーズにおいて原曲を編曲するための学習済モデルとして用いられる。

初期化処理部２５１は、ランダムに初期化した編集モデルを予め用意する（Ｓ７２１）。事後確率算出部２５２およびパラメータ更新部２５３は、編集モデルに対してＥステップの処理およびＭステップの処理を実行する（Ｓ７２２、Ｓ７２３）。収束判定部２５４は、収束の判定を行う（Ｓ７２４）。そして、収束したと判定した場合は（Ｓ７２５でＹｅｓ）、その時点の編集モデルを学習済モデルとして編集モデル記憶部２５５に記憶させる（Ｓ７２６）。

収束していないと判定された場合は（Ｓ７２５でＮｏ）、ステップＳ７２２に戻って、Ｅステップの処理およびＭステップの処理が再度、実行される。

このように、編集モデルは、ＥＭアルゴリズムを繰り返し実行されることによって、学習済モデルになる。なお、ρ_S∈｛１,…, Ｎ_M｝かつρ_T∈｛１,…, Ｎ_M｝なので、Ｎ_M×
Ｎ_M個の編集モデルを用意し、それぞれについてステップＳ７２２～Ｓ７２６の処理が行
われる。

原曲属性推定部２５６ないし編曲データ生成部２５９は、生成器であって、原曲の編曲を、図８に示す手順で生成する。

原曲属性推定部２５６は、編曲の条件として原曲および目標スタイルなどを受け付けると（図８のＳ７３１）、原曲スタイルを推定する（Ｓ７３２）。候補楽曲生成部２５７は、原曲と音符の数が同じである目標スタイルの候補楽曲を複数、作曲モジュール２１によって生成する（Ｓ７３２）。最適候補選出部２５８は、候補楽曲ごとに編集モデルに基づいて適切度を算出し（Ｓ７３３）、最も適切度の高い候補楽曲を原曲の編曲として選出する（Ｓ７３４）。そして、編曲データ生成部２５９は、選出した候補楽曲を所定のフォーマットのデータに変換する（Ｓ７３５）。

なお、適切度は、Ｑ(Ｘ~|Ｘ)と表わされ、次の式（４１）の通り、候補楽曲の目標スタイルへの合致度および候補楽曲の原曲との類似度の２つの尺度によって算出される。

「Ｘ」は原曲の系列であって次の式（４２）のように表わされ、「Ｘ~」は候補楽曲の
系列であって次の式（４３）のように表わされる。

「Ｐ_L(Ｘ^~)」は、候補楽曲の目標スタイルへの合致度を表わす確率である。「Ｐ_E(Ｘ|
Ｘ^~)」は、原曲と候補楽曲との類似度を表わす確率である。「α_L」および「α_E」は、合致度と類似度とのバランスを調整するためのパラメータであって、目的に応じてオペレータによって指定される。

適切度、合致度、および類似度は、原曲スタイルまたは目標スタイルに依るので、式（４１）を次の式（４４）のように記述することができる。
Ｑ(Ｘ^~|Ｘ；ρ_S,ρ_T):＝Ｐ_L(Ｘ^~；ρ_T)α^LＰ_E(Ｘ|Ｘ^~；ρ_S,ρ_T)α^E …（４４）

〔４．２編集モデル〕
上の式（４１）の右辺を構成する因子のうち、Ｐ_E(Ｘ|Ｘ^~；ρ_S,ρ_T)に編集モデルが用いられる。Ｐ_E(Ｘ|Ｘ^~；ρ_S,ρ_T)は、次の式（４５）のように記述される。

右辺の２番目の因子は原曲および候補楽曲それぞれのｉ番目の音高クラスの二乗距離であり、σ_pは、距離尺度の基準を与えるパラメータである。右辺の３番目の因子は原曲の
系列Ｘおよび候補楽曲の系列Ｘ~それぞれのｉ番目の拍節位置の二乗距離であり、σ_rは、距離尺度の基準を与えるパラメータである。本実施形態では、σ_p＝０．７、σ_r＝３がデフォルトで設定されている。これら２つの因子は、すべてのρ_Sおよびρ_Tに対して一定である。つまり、ρ_Sおよびρ_Tに依らない。

右辺の最初の因子Ｐ_F(Ｘ|Ｘ~；ρ_S, ρ_T)は、音高クラス系列の統語構造に基づいた類
似度を表わし、音符の統語機能が潜在変数で表現されるように隠れマルコフモデル（ＨＭＭ:Hidden Markov Model）を用いて記述される。「Ｚ」は、確率分布の規格化係数であるが、候補楽曲の生成には用いられない。

ところで、ＨＭＭは、自然言語の単語列からその統語機能を表わす品詞を教師なしで学習するために用いられている（S. Goldwater and T. Griffiths, "A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging," in Proc. ACL, pp. 744-751, 2007. 参照）。音楽においても、コード記号の系列からその統語機能を表わす和声機能を学習するために用いられている（H. Tsushima et al., "Generative statistical models with self-emergent grammar of chord sequences," J. New Music Res., vol. 47, no. 3, pp. 226-248, 2018. 参照）。本実施形態では、音高の統語機能を学習するためにＨＭＭが
用いられる。

また、ＨＭＭは、一般に、マルコフモデルに従って生成される潜在変数の系列と、この系列から観測される記号列とを生成するモデルである。本実施形態においては、観測される記号列は、音高クラスの系列ｑおよび系列ｑ~であってそれぞれ次の式（４６）および
式（４７）のように表わされる。

潜在変数ｚは、｛１,…,Ｎ_F｝の中の値を取る離散確率変数であり、音符ごとに１つず
つ生成される。つまり、潜在変数ｚ_iは、ｉ番目の音符の離散確率変数である。「Ｎ_F」は、仮定する統語機能の数であり、目的に応じて決められる変数である。本実施形態では、Ｎ_F＝７とする。

そして、本実施形態において編集モデルとして用いられるＨＭＭは、次の式（４８）～（５１）のそれぞれの左辺に示されるパラメータを有する。
ψⁱⁿⁱ(ｚ₁)＝Ｐ(ｚ₁) …（４８）
ψ(ｚ_i|ｚ_{i- 1})＝Ｐ(ｚ_i|ｚ_{i- 1}) …（４９）
φ(ｑ|ｚ,ρ_S)＝Ｐ(ｑ_i＝ｑ|ｚ_i＝ｚ) …（５０）
φ(ｑ~|ｚ,ρ_T)＝Ｐ(ｑ~_i＝ｑ~|ｚ_i＝ｚ) …（５１）

式（４８）のψⁱⁿⁱ(ｚ₁)は、潜在変数ｚの初期確率を表わす、Ｎ_F個の確率の確率ベク
トルである。式（４９）は、潜在変数ｚの遷移確率を表わす、Ｎ_F×Ｎ_F個の要素を持つ確率行列である。

式（５０）のφ(ｑ|ｚ,ρ_S)は、原曲スタイルにおける、音高クラスごとの（つまり、
Ｑ個の）出力確率の確率ベクトルをＮ_F個分、表わしている。式（５１）は、目標スタイ
ルにおける、音高クラスごとの出力確率の確率ベクトルをＮ_F個分、表わしている。式（
５０）と式（５１）とを比較して分かるように、音高クラスｑ_iおよび音高クラスｑ^~ _iは
、各潜在変数ｚから、互いに異なる離散確率分布に従って生成される。

また、系列ｑ、系列ｑ ^~、およびｚについて、次の式（５２）～（５４）の関係
が成り立つ。

パラメータが定まっている場合に、このＨＭＭを用いて因子Ｐ_F(Ｘ｜Ｘ^~；ρ_S,ρ_T)を
計算する手順は以下の通りである。この因子をＨＭＭに基づいて、Ｐ_F(Ｘ｜Ｘ^~；ρ_S,ρ_T)＝Ｐ(ｑ｜ｑ ^~)と定めることにより次の表現が得られる。

Ｚ'は規格化定数であるが、編曲の生成には用いられない。式（５８）により左辺の因
子が原始的に求まるが、すべての和記号を同時に計算することは組合せの数が多すぎて困難である。そこで、動的計画法（フォアワードアルゴリズム）を用いて逐次計算することにより効果的に計算することができる。

フォアワードアルゴリズムの手順は、次の通りである。まず、各ｉ∈｛１,…,Ｉ｝に対してフォアワード変数を次のように定義する。
Ｆ_i(ｚ_i):＝Ｐ(ｑ_1:i,ｑ^~ _1:i,ｚ_i) …（５９）

ｑ_1:i＝(ｑ₁,…, ｑ_i)である。以下、同様の記法を用いる。Ｆ_i(ｚ_i)は、ｉ＝１から順に以下の通り逐次的に計算する。

そして、次の式（６４）を用いて確率Ｐ(ｑ,ｑ ^~)が得られる。

〔４．３機械学習のフェーズ〕
上述の通り、ρ_S∈｛１,…, Ｎ_M｝かつρ_T∈｛１,…, Ｎ_M｝なので、Ｎ_M×Ｎ_M通りの編集モデルが生成される。以下、機械学習の内容を、ロックから演歌に編曲するための編集モデルを生成する場合を例に説明する。

初期化処理部２５１は、機械学習のためのデータを次のように準備する。学習に使用する系列ｘおよび系列ｘ~を生成する。

系列ｘは、ロックの音高クラスの系列であって、（ｘ₁,…, ｘ_N）である。「Ｎ」は、
機械学習に必要な音符の数であって、十分に大きな整数である。初期化処理部２５１は、作曲モジュール２１の推論のフェーズと同様に、ロックの学習済モデル６２に基づいてロックの楽曲を作曲する方法で系列ｘを生成する。

系列ｘ~は、演歌の音高クラスの系列であって、（ｘ~₁,…, ｘ~_N）である。初期化処理部２５１は、演歌の学習済モデル６２に基づいて演歌の楽曲を作曲する方法で系列~を生
成する。

さらに、初期化処理部２５１は、式（４８）～（５１）それぞれの左辺に示した４つのパラメータψⁱⁿⁱ(ｚ₁)、ψ(ｚ_i|ｚ_i-1)、φ(ｑ|ｚ,ρ_S)、およびφ(ｑ~|ｚ,ρ_T)を有する編集モデル６４を生成し、これらのパラメータを初期化する。ランダムな値を与えることによって初期化してもよいが、統語機能が音階音と類似した構造を表すことを期待して、φ₀(ｑ|ｚ,ρ_S)は確率行列の対角に近い成分が大きな値を持つように初期化するのが望ましい。具体的には次の式（６５）のように初期化する。ただし、比例係数は適切に正規化されるように定める。
φ₀(ｑ|ｚ,ρ_S)∝exp(－(ｑ－１２ｚ／Ｎ_F)²／２) …… （６５）

また、ψ(ｚ_i|ｚ_i-1)およびφ(ｑ~|ｚ,ρ_T)は、一様分布になるように初期化する。

事後確率算出部２５２およびパラメータ更新部２５３は、ＨＭＭ（Hidden Markov Model）の教師なし学習方法として一般的であるBaumとWelchの方法（C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006. 参照）によって、編集モデルを生成する。BaumとWelchの方法は、ＥＭアルゴリズムの一種であり、Ｅステップでは潜在変
数の事後確率を算出し、Ｍステップではパラメータの更新を行う。Ｅステップの処理およびＭステップの処理が交互に繰り返される。

事後確率算出部２５２は、Ｅステップの処理として、次の式（６６）および式（６７）でそれぞれ定義する潜在変数のｔステップ目の事後確率γ_t(ｚ_i)およびζ_t(ｚ_i-1,ｚ_i)を計算する。
γ_t(ｚ_i)＝Ｐ(ｚ_i|ｘ,ｘ~,Θ_t) …… （６６）
ζ_t(ｚ_i-1,ｚ_i)＝Ｐ(ｚ_i-1,ｚ_i|ｘ,ｘ~,Θ_t) …… （６７）

「Θ」は、４つのパラメータのうちψ(ｚ_i|ｚ_i-1)、φ(ｑ~|ｚ,ρ_S)、およびφ(ｑ|ｚ,ρ_T)の集合を表わす。「Θ_t」は、ｔステップ目における、これら３つのパラメータの集
合である。以下、これらの式の計算方法を説明する。

まず、次の式（６８）および式（６９）でそれぞれ定義するフォアワード変数Ａ_t(ｚ_i)およびバックワード変数Ｂ_t(ｚ_i)を計算する。
Ａ_t(ｚ_i):＝Ｐ(ｘ_1:i,ｘ~_1:i,ｚ_i|Θ_t) …… （６８）
Ｂ_t(ｚ_i):＝Ｐ(ｘ_(i+1):N,ｘ^~ _(i+1):N|ｚ_i,Θ_t) …… （６９）

これらは、次の式（７０）～（７３）に手順に従って再帰的に計算することができる。

さらに、計算されたＡ_t(ｚ_i)およびバックワード変数Ｂ_t(ｚ_i)を用いて、事後確率を次の式（７４）および式（７５）に従って計算する。

γ_t(ｚ_i)∝Ａ_t(ｚ_i)Ｂ_t(ｚ_i)…（７４）
ζ_t(ｚ_i-1,ｚ_i)∝Ａ_t(ｚ_i-1)ψ_t(ｚ_i|ｚ_i-1)φ_t(ｘ_i|ｚ_i,ρ_S)
φ_t(ｘ~_i|ｚ_i,ρ_T)Ｂ_t(ｚ_t) …（７５）

ただし、比例係数は、各フォアワード変数が潜在変数ｚ_iに関して、足して１になるよ
うに適切に与える。

なお、初期確率すなわちψⁱⁿⁱ(ｚ₁)は、学習に用いる系列が１ペアのみであるので、学習を行わない。初期確率の算出方法については、後述する。

パラメータ更新部２５３は、Ｍステップの処理を実行する。具体的には、次の式（７６）～（７８）に従って編集モデルの各パラメータを更新する。この際に、各式の比例係数を、それぞれの確率値の合計が「１」になるように選択する。

収束判定部２５４は、Ｅステップの処理およびＭステップの処理を繰り返しても編集モデルの各パラメータがほとんど変化しなくなった場合に、各パラメータが理想的な値に収束したと判定する。そして、収束したと判定された時点の編集モデル６４を学習済モデル６５として編集モデル記憶部２５５に記憶させる。または、ＥＭアルゴリズムを所定の回数だけ繰り返したら、収束したと判定してもよい。

以上、ロックから演歌に編曲するための学習済モデル６５（編集モデル）を生成する方法の例を説明したが、他の方向に編曲するための学習済モデル６５も同様の方法によって生成される。

〔４．４推論のフェーズ〕
原曲属性推定部２５６ないし編曲データ生成部２５９は、指定された原曲を、指定されたスタイルに編曲する。

オペレータは、複数の楽曲の中から編曲したい楽曲を原曲として指定するとともに、どのスタイルに編曲したいかを指定する。

すると、原曲属性推定部２５６は、その原曲のスタイルおよびトニックを推定する。推定の方法は、前に式（３０）、式（３２）を用いて説明した通りである。

つまり、原曲の系列Ｘ（式（４２）参照）に合致するスタイルおよびトニックは、式（３２）の左辺の条件付き確率Ｐを最大にするρおよびｋを求めることによって推定することができる。

候補楽曲生成部２５７は、指定されたスタイルの楽曲を多数、候補楽曲として生成する。生成する方法は、音符決定部２１８が楽曲を生成する方法と同様である。つまり、式（３６）を満たすｘを選出することによって各音符をサンプルする。

ただし、ここでは、「Ｉ」は、原曲の音符数である。また、指定されたスタイルの学習済モデル６２が用いられる。また、１２個のトニック変数すべてについて、候補楽曲の生成が実行される。

最適候補選出部２５８は、候補楽曲生成部２５７によって生成された多数の候補楽曲の中から原曲に最も類似するものを編曲として選出する。具体的には、式（４４）の左辺すなわちＱ(Ｘ~|Ｘ；ρ_S, ρ_T)を最大にする候補楽曲を編曲として選出する。ただし、「ρ_S」は、原曲スタイルのスタイル変数であり、「ρ_T」は、オペレータが指定したスタイル（目標スタイル）のスタイル変数である。したがって、この原曲スタイルおよびこの目標スタイルに対応する学習済モデル６５が選出のために用いられる。

ところで、原曲の音符数が多いと、候補楽曲の生成可能なパターン数が膨大になる。そこで、いわゆる部分サンプリング法によって編曲を生成してもよい。すなわち、候補楽曲生成部２５７は、原曲を複数の部分（例えば、小節）に分け、部分ごとに多数の系列を生成する。そして、最適候補選出部２５８は、部分ごとに、生成した系列の中から最も類似するものを選出し、選出した系列を連結することによって編曲を生成する。

または、動的計画法によって編曲を生成してもよい。動的計画法によると、Ｑ(Ｘ~|Ｘ
；ρ_S,ρ_T)を最大にするＸ~が、Viterbiアルゴリズムによって探索される。

音高クラスおよび発音時刻がそれぞれ１２および４８なので、ｉ番目の音符は５７６（
＝１２×４８）通りある。そして、音符の数がＩであるので、５７６^I通りの音符の並び
がある。

ただし、constは、最適化には関係しない定数項を表わしている。以下、同様である。
この関数は、lnＰ_F(Ｘ~|Ｘ；ρ_S,ρ_T)を含んでいるので、直接は、最適化することができない。そこで、入力の楽曲ｑに対して事後確率Ｐ(ｚ|ｑ)＝Ｐ(ｑ|ｚ)Ｐ(ｚ)／Ｐ(ｑ)を最大とする潜在変数の系列ｚ＾をまず求めて、和をこの系列で置き換える。これにより次の式（８１）が得られる。

系列ｚ＾は、Viterbiアルゴリズムを用いて以下の手順で求められる。まず、事後確率
の最大化は次の式（８２）で表わされ、その対数をとったものの最大化と等価である。

Viterbi変数を次の式（８３）および（８４）のように定義する。

式（８３）および（８４）は、次の式（８５）～（８７）によって再帰的に計算することができる。

次の式（８８）の値は、式（８９）～（９０）のように後ろから再帰的に求めることができる。

式（８１）のconstを除いた部分は、ｑ~_iおよびｂ~_iの関数として次の（９１）のよう
に書き換えられる。

ただし、

である。これらを最大化するｑｂ系列（式（４）参照）は、Viterbiアルゴリズムによっ
て求められる。Viterbi 変数を次の式（９４）で定義する。

これらは、次のように再帰的に計算する。

これらの式に基づいて、式（８９）および式（９０）による方法と同様の方法によって、最適な編曲がＸ~として得られる。

図３の編曲データ生成部２５９は、最適候補選出部２５８によって原曲の編曲として選出された候補楽曲の系列Ｘ~を、ＭＩＤＩまたはＭｕｓｉｃＸＭＬのフォーマットのファ
イルに変換することによって、編曲データ６６を生成する。編曲データ６６は、自動音楽生成装置１の所定の記憶領域に保存される。または、端末装置４１などへ送信される。または、ｐｓ系列のデータに従って候補楽曲を音声再生ユニット１９（図２参照）によって再生してもよい。

以上説明したように、編曲モジュール２５によると、作曲モジュール２１によって生成された学習済モデル６２（作曲用のモデル）を用いて学習済モデル６５（編曲用のモデル）を生成するので、従来よりも容易に自動編曲のＡＩを構築することができる。

本実施形態では、自動音楽生成装置１は、適切度を算出するモデル（学習済モデル６５）として、類似度および適合度の両方を因子として含むモデルを生成したが、類似度および適合度のうちの類似度のみを因子として含むモデルを生成してもよい。

本実施形態では、自動音楽生成装置１は、適切度の最も高い候補楽曲を原曲の編曲として選出したが、適切度が所定の値以上である候補楽曲を複数、原曲の編曲として選出してもよい。

〔５変形例〕
ところで、一般に、楽曲の途中でスタイルまたはトニックなどが変わる場合がある。例えば、スタイルがクラシックからロックに変わったり、ハ長調からホ長調へ転調したり、長調から短調へ移旋したりすることがある。そこで、自動音楽生成装置１は、途中でスタイルまたはトニックなどが変わるように構成したモデルを生成しておき、このようなモデルを用いて作曲してもよい。

このようなモデルは、楽曲の各小節ｍごとにスタイル変数ρ_mおよびトニック変数ｋ_mを導入することによって定式化することができる。曲中のいくつかの場所において転調したりスタイルが変わったりしても、その他の多くの場所では調やスタイルが継続していることを表現するため、スタイル変数ρ_mおよびトニック変数ｋ_mは、それぞれ、１つ前のスタイル変数ρ_m-1およびトニック変数ｋ_m-1に依存する確率により生成されるものとする。つまり、スタイル変数とトニック変数に対して次の式（９９）および式（１００）に示すマルコフモデルを考えればよい。
θⁱⁿⁱ(ρ,ｋ)＝Ｐ(ρ₁＝ρ,ｋ₁＝ｋ) …（９９）
θ(ρ',ｋ',ρ,ｋ)＝Ｐ(ρ_m＝ρ,ｋ_m＝ｋ|ρ_m-1＝ρ',ｋ_m-1＝ｋ') …（１００）

各音符の音高クラスおよび拍節位置は、生成された各小節のスタイル変数ρ_mおよびト
ニック変数ｋ_mに条件付けられたマルコフモデルにより、次の式（１０１）および式（１
０２）に基づいて生成される。
πⁱⁿⁱ(ｑ₁₁,ｂ₁₁|ρ_1,ｋ₁)＝Ｐ(ｑ₁₁,ｂ₁₁|ρ_1,ｋ₁) …（１０１）
πⁱⁿⁱ(ｑ_mn,ｂ_mn|ｑ'_mn,ｂ'_mn,ρ_m,ｋ_m)＝Ｐ(ｑ₁₁＝ｑ,ｂ₁₁＝ｂ|ρ_m,ｋ_m)
…（１０２）

ただし、ｑ'_mnおよびｂ'_mnは、それぞれｑ_mnおよびｂ_mnの１つ前の音符の音高クラスおよび拍節位置を表わす。

このようなモデルを用いれば、学習データとして与えられた楽曲に対して、小節ごとの合致するスタイルとトニックとを推定することができる。また、このモデルも、上述のモデルと同様にＥＭアルゴリズムを用いて学習することができる。推定および学習のために、次の式（１０３）の、スタイル変数およびトニック変数の事後確率を計算する必要がある。これは、隠れマルコフモデルに適用されるフォアワード・バックワードアルゴリズムを用いて計算することができる。

また、原曲が、途中でスタイルまたはトニックなどが変わる場合は、自動音楽生成装置１は、原曲をサンプリング法によって編曲すればよい。サンプリング法によると、部分（例えば、小節）ごとに最も類似するメロディーを採用するので、原曲の変化に応じて原曲を編曲することができる。

本実施形態では、学習済モデルを生成する際に、マルコフモデルをベースとした移調対称性を持つ混合時系列生成モデルを用いたが、移調対称性の導入、混合モデルによるスタイル、およびトニックの自由度を持たせたモデルであれば、マルコフモデル以外の時系列生成モデルを用いてもよい。つまり、記号列Ｙ＝(ｙ₁,…,ｙ_I)の生成確率Ｐ(Ｙ)を与える生成モデルであり、生成確率の計算、系列データからのモデルパラメータの学習、およびサンプリングによる系列の生成ができるモデルであれば、上記の定式化により移調対称性を持った混合モデルを構成し、学習および生成（推論）が可能である。このような生成モ
デルの例として、音楽情報学および計算言語学などで広く用いられるモデル、例えば、高次のマルコフモデルおよび可変次マルコフモデル、隠れマルコフモデル、確率的文脈自由文法モデル、長短期記憶(long short-term memory; LSTM)ネットワークを含む再起型ニューラルネットワーク(recurrent neural network; RNN)、変分自己符号化器(variationalautoencoder; VAE)および敵対的生成ネットワーク(Generative Adversarial Network; GAN)に基づく生成モデルなどが挙げられる。

本実施形態では、音符の時間的な要素を拍節位置によって表わしたが長さで表わしてもよい。

本実施形態では、音高と発音時刻の系列として表されるメロディーあるいは単旋律の楽曲を学習に用いるデータおよび生成する対象として用いたが、記号列として表されるデータであればこれ以外の形式の音楽データを用いてもよい。このような音楽データの例として、コード進行、ドラム楽譜、ギターやピアノなど多声部を含む楽曲、および複数の楽器または声部からなる合奏曲の形式のデータなどが挙げられる。

本実施形態では、自動音楽生成装置１を１台のコンピュータによって実現する場合を例に説明したが、複数のコンピュータによって実現してもよい。例えば、メインモジュール２０、作曲モジュール２１、編曲モジュール２５のそれぞれを別々のコンピュータによって実行してもよい。または、メインモジュール２０、作曲モジュール２１の学習フェーズ、作曲モジュール２１の推論フェーズ、編曲モジュール２５の学習フェーズ、および編曲モジュール２５の推論フェーズのそれぞれを別々のコンピュータによって実行してもよい。

その他、自動音楽生成装置１の全体または各部の構成、処理の内容、処理の順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。

１自動音楽生成装置（音楽モデル生成システム、編曲システム）
２１２初期化処理部（初期処理手段）
２１４事後確率算出部（出現確率算出手段）
２１５パラメータ更新部（調整手段）
２１６収束判定部（判定手段）
２１７スタイルモデル記憶部（記憶手段）
２１８音符決定部（作曲手段）
２５１初期化処理部（編集モデル生成手段）
２５２事後確率算出部（編集モデル生成手段）
２５３パラメータ更新部（編集モデル生成手段）
２５４収束判定部（編集モデル生成手段）
２５７候補楽曲生成部（メロディ生成手段）
２５８最適候補選出部（類似度算出手段、選出手段、編曲手段）
６１モデル（仮モデル）
６２学習済モデル（音楽モデル）
６５学習済モデル（編集モデル）

Claims

第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲システムであって、
前記対象メロディの編曲として、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高くまたは所定の値以上であり、かつ、前記対象メロディと音符数が同じであるメロディを、動的計画法によって探索する探索手段、
を有することを特徴とする編曲システム。
第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲システムであって、
前記対象メロディと音符数が同じでありかつ前記第二のスタイルを有する複数のメロディのうちの、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高いものまたは所定の値以上のものを前記対象メロディの編曲として探索する探索手段、
を有することを特徴とする編曲システム。
前記探索手段は、前記複数のメロディそれぞれの前記適切度を算出し、前記複数のメロディのうちの、前記適切度が最も高くまたは所定の値以上であるものを選出することによって、前記編曲を探索する、
請求項２に記載の編曲システム。
第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲方法であって、
前記対象メロディの編曲として、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高くまたは所定の値以上であり、かつ、前記対象メロディと音符数が同じであるメロディを、動的計画法によって探索する、
ことを特徴とする編曲方法。
第一のスタイルを有する対象メロディを第二のスタイルへ編曲する編曲方法であって、
前記対象メロディと音符数が同じでありかつ前記第二のスタイルを有する複数のメロディのうちの、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高いものまたは所定の値以上のものを前記対象メロディの編曲として探索する、
ことを特徴とする編曲方法。
前記複数のメロディそれぞれの前記適切度を算出し、前記複数のメロディのうちの、前記適切度が最も高くまたは所定の値以上であるものを選出することによって、前記編曲を探索する、
請求項５に記載の編曲方法。
第一のスタイルを有する対象メロディを第二のスタイルへ編曲するコンピュータに用いられるコンピュータプログラムであって、
前記コンピュータに、
前記対象メロディの編曲として、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高くまたは所定の値以上であり、かつ、前記対象メロディと音符数が同じであるメロディを、動的計画法によって探索する処理を実行させる、
ことを特徴とするコンピュータプログラム。
第一のスタイルを有する対象メロディを第二のスタイルへ編曲するコンピュータに用いられるコンピュータプログラムであって、
前記コンピュータに、
前記対象メロディと音符数が同じでありかつ前記第二のスタイルを有する複数のメロディのうちの、前記対象メロディとの類似度と前記第二のスタイルへの合致度とが反映された適切度が最も高いものまたは所定の値以上のものを前記対象メロディの編曲として探索する処理を実行させる、
ことを特徴とするコンピュータプログラム。
前記処理は、前記複数のメロディそれぞれの前記適切度を算出し、前記複数のメロディのうちの、前記適切度が最も高くまたは所定の値以上であるものを選出することによって、前記編曲を探索する処理である、
請求項８に記載のコンピュータプログラム。