JP2011175006A

JP2011175006A - 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム

Info

Publication number: JP2011175006A
Application number: JP2010037468A
Authority: JP
Inventors: Nobuya Otani; 伸弥大谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-02-23
Filing date: 2010-02-23
Publication date: 2011-09-08

Abstract

【課題】ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な楽曲を自動的に作曲することを可能とすること。
【解決手段】複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶部と、ユーザにより入力される文字列を取得する文字列取得部と、取得される文字列から言語特徴量を算出する特徴量算出部と、前記演算モデルに従って、前記特徴量算出部により算出される言語特徴量から、作曲すべき楽曲の属性データを導出するモデル演算部と、前記モデル演算部により導出される属性データを用いて、前記文字列取得部により取得される文字列を歌詞とする楽曲を生成する作曲部と、を備える情報処理装置を提供する。
【選択図】図６

Description

本発明は、情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラムに関する。

従来、リズム又はテンポなどの入力パラメータに応じて楽曲を自動的に生成する自動作曲システムが存在する。また、上記パラメータに加えてユーザに歌詞を入力させることにより、入力された歌詞に含まれる単語の韻律情報に応じた楽曲を生成するシステムも存在する（下記非特許文献１参照）。また、自動作曲とはやや異なるものの、歌詞データと歌詞のワイプ開始タイミングとに基づいてカラオケのガイドメロディを適切なタイミングで再生しようとする技術も存在する（下記特許文献１参照）。

深山覚，中妻啓，米林裕一郎，酒向慎司，西本卓也，小野順貴，嵯峨山茂樹, "Orpheus：歌詞の韻律に基づいた自動作曲システム", 研究報告-音楽情報科学（MUS）, 2008年7月, vol.2008 No.78, pp.179-184

特開２００８−２５７２０６号公報

しかしながら、ユーザにより入力される歌詞のみに基づいて、歌詞に合った適切な楽曲を自動的に作曲するシステムは存在しない。例えば、上記非特許文献１に記載されたシステムでは、ジャンル、テンポ又はリズムなどをユーザが設定することが求められるが、普段作曲をしないユーザにとって、これらパラメータを自ら適切な値に設定することは容易でない。また、パラメータ値をランダムに決定することで、ユーザによるパラメータの設定を省略することも可能だが、パラメータ値をランダムに決定する場合には、もはや歌詞に合った適切な楽曲を得ることは期待できない。

そこで、本発明は、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な楽曲を自動的に作曲することを可能とする、新規かつ改良された情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラムを提供しようとするものである。

本発明のある実施形態によれば、複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶部と、ユーザにより入力される文字列を取得する文字列取得部と、上記文字列取得部により取得される文字列から言語特徴量を算出する特徴量算出部と、上記記憶部により記憶されている上記演算モデルに従って、上記特徴量算出部により算出される言語特徴量から、作曲すべき楽曲の属性データを導出するモデル演算部と、上記モデル演算部により導出される属性データを用いて、上記文字列取得部により取得される文字列を歌詞とする楽曲を生成する作曲部と、を備える情報処理装置が提供される。

かかる構成によれば、楽曲の歌詞を表す歌詞データから算出される言語特徴量と楽曲の属性を表す属性データとの組を教師データとして機械学習により獲得された演算モデルに従って、ユーザにより歌詞として入力される文字列の言語特徴量から楽曲の属性データが導出され、当該属性データを用いて、入力文字列を歌詞とする楽曲が生成される。

また、上記記憶部は、上記モデル演算部により導出される第１の属性データと作曲パラメータとして使用される第２の属性データとの間の関係を記述する関係記述データをさらに記憶し、上記作曲部は、上記記憶部により記憶されている上記関係記述データに従って、上記第１の属性データから上記第２の属性データを決定するパラメータ決定部と、上記パラメータ決定部により決定される上記第２の属性データを用いて、上記文字列取得部により取得される文字列を歌詞とする楽曲を生成する楽曲生成部と、を有してもよい。

また、上記関係記述データは、２種類以上の上記第２の属性データの間の関係をも記述するデータであってもよい。

また、上記第１の属性データは、楽曲に関する１つ以上の名義属性についてのデータを含み、上記第２の属性データは、上記１つ以上の名義属性と関係する作曲パラメータについてのデータを含んでもよい。

また、上記言語特徴量は、上記歌詞データを単語集合とみなした場合の各単語の数を含んでもよい。

また、上記作曲部は、楽曲の小節数、テンポ、リズム、メロディ進行及びコード進行のうち少なくとも１つを含む上記属性データを用いて、上記文字列取得部により取得される文字列を歌詞とする楽曲を生成してもよい。

また、本発明の別の実施形態によれば、複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶媒体を備える情報処理装置を用いて、ユーザにより入力される文字列を取得する取得ステップと、取得された文字列から言語特徴量を算出する算出ステップと、上記記憶媒体により記憶されている上記演算モデルに従って、上記算出ステップにおいて算出された言語特徴量から、作曲すべき楽曲の属性データを導出する導出ステップと、導出された属性データを用いて、上記取得ステップにおいて取得された文字列を歌詞とする楽曲を生成する作曲ステップと、を含む、自動作曲方法が提供される。

また、本発明の別の実施形態によれば、複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶媒体を備える情報処理装置を制御するコンピュータを、ユーザにより入力される文字列を取得する文字列取得部と、上記文字列取得部により取得される文字列から言語特徴量を算出する特徴量算出部と、上記記憶媒体により記憶されている上記演算モデルに従って、上記特徴量算出部により算出される言語特徴量から、作曲すべき楽曲の属性データを導出するモデル演算部と、上記モデル演算部により導出される属性データを用いて、上記文字列取得部により取得される文字列を歌詞とする楽曲を生成する作曲部と、として機能させるための、プログラムが提供される。

また、本発明の別の実施形態によれば、楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得するデータ取得部と、上記データ取得部により取得される上記歌詞データから言語特徴量を算出する特徴量算出部と、複数の楽曲について、各楽曲の上記属性データと上記言語特徴量との組を教師データとし、上記言語特徴量から上記属性データを導出するための演算モデルを学習する学習部と、を備え、上記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、学習装置が提供される。

かかる構成によれば、楽曲の歌詞を表す歌詞データから算出される言語特徴量と楽曲の属性を表す属性データとの組を教師データとして、歌詞についての言語特徴量から楽曲の作曲パラメータに関連する属性データを導出するための演算モデルが、機械学習により獲得される。

また、上記属性データにより表される楽曲の属性は、上記作曲パラメータの決定の基礎となる１つ以上の名義属性を含んでもよい。

また、上記属性データは、楽曲の小節数、テンポ、リズム、メロディ進行及びコード進行のうち少なくとも１つを含んでもよい。

また、本発明の別の実施形態によれば、情報処理装置による演算モデルの学習方法であって、楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得する取得ステップと、取得された上記歌詞データから言語特徴量を算出する算出ステップと、複数の楽曲について、各楽曲の上記属性データと上記言語特徴量との組を教師データとし、上記言語特徴量から上記属性データを導出するための演算モデルを学習するステップと、を含み、上記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、学習方法が提供される。

また、本発明の別の実施形態によれば、学習装置を制御するコンピュータを、楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得するデータ取得部と、上記データ取得部により取得される上記歌詞データから言語特徴量を算出する特徴量算出部と、複数の楽曲について、各楽曲の上記属性データと上記言語特徴量との組を教師データとし、上記言語特徴量から上記属性データを導出するための演算モデルを学習する学習部と、として機能させるための、プログラムであって、上記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、プログラムが提供される。

以上説明したように、本発明に係る情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラムによればユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な楽曲を自動的に作曲することを可能とすることができる。

第１の実施形態に係る学習装置の構成の一例を示すブロック図である。既知の楽曲の楽曲データについて説明するための説明図である。言語特徴量の一例について説明するための説明図である。第１の実施形態に係る学習処理における教師データについて説明するための説明図である。第１の実施形態に係る学習処理の流れの一例を示すフローチャートである。第１の実施形態に係る情報処理装置の構成の一例を示すブロック図である。第１の実施形態に係る作曲処理の流れの一例を示すフローチャートである。第２の実施形態に係る学習処理における教師データについて説明するための説明図である。第２の実施形態に係る情報処理装置の構成の一例を示すブロック図である。関係記述データの概要を説明するための説明図である。関係記述データの具体的な例を説明するための説明図である。第２の実施形態に係る作曲部の詳細な構成の一例を示すブロック図である。第２の実施形態に係る作曲処理の流れの一例を示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。

また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
１．第１の実施形態
１−１．学習装置の構成例
１−２．学習処理の流れ
１−３．情報処理装置（作曲装置）の構成例
１−４．作曲処理の流れ
１−５．第１の実施形態のまとめ
２．第２の実施形態
２−１．学習処理の説明
２−２．情報処理装置（作曲装置）の構成例
２−３．作曲処理の流れ
２−４．第２の実施形態のまとめ

＜１．第１の実施形態＞
本発明は、歌詞の言語特徴量から楽曲の生成に使用される属性データを導出するための演算モデルを学習する学習装置という１つの側面を有する。また、本発明は、学習された演算モデルに従って導出される属性データを用いて作曲をする情報処理装置という他の側面を有する。本発明の第１の実施形態の１つの特徴は、学習装置により学習され、情報処理装置により使用される演算モデルが、作曲のために使用されるパラメータ（以下、作曲パラメータという）を直接的に導出するモデルであるという点である。本節では、図２〜図８を用いて、このような第１の実施形態に係る学習装置及び情報処理装置について、説明する。

［１−１．学習装置の構成例］
図１は、本発明の第１の実施形態に係る学習装置１００の構成の一例を示すブロック図である。図１を参照すると、学習装置１００は、楽曲データ記憶部１１０、データ取得部１２０、特徴量算出部１３０、学習部１４０、及びモデル記憶部１５０を備える。

（楽曲データ記憶部）
楽曲データ記憶部１１０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、既知の複数の楽曲についての楽曲データを予め記憶している。本明細書において、楽曲データとは、楽曲の歌詞を表す歌詞データと当該楽曲の属性を表す属性データとの組をいう。

図２は、楽曲データ記憶部１１０に記憶される楽曲データについて説明するための説明図である。図２の上段には、学習の基礎とされる既知の楽曲群が示されている。このうち、例えば第１の楽曲から楽曲データＭ０１、第２の楽曲から楽曲データＭ０２、…、が抽出される。楽曲データＭ０１には、第１の楽曲の歌詞を表すテキストデータである歌詞データＷ０１、及び第１の楽曲の属性を表す属性データＡＴ０１が含まれる。同様に、楽曲データＭ０２には、第２の楽曲の歌詞を表すテキストデータである歌詞データＷ０２、及び第２の楽曲の属性を表す属性データＡＴ０２が含まれる。本実施形態において、各属性データは、楽曲の小節数、テンポ、リズム、メロディ進行及びコード進行などの属性についての属性値を含む。これら属性は、自動作曲のための入力パラメータである作曲パラメータに相当し得る。楽曲データを準備する際、各属性データの属性値は、人手で付与されてもよく、又は、公知のコンテンツ解析技術を用いて付与されてもよい。既知の複数の楽曲についての歌詞データと属性データとの組を含むこのような楽曲データは、楽曲データ記憶部１１０にデータベースとして予め蓄積される。

なお、楽曲データ記憶部１１０は、学習装置１００の内部に設けられる代わりに、学習装置１００の外部に設けられてもよい。

（データ取得部）
データ取得部１２０は、学習装置１００による学習処理に際して、楽曲データ記憶部１１０に記憶されている複数の楽曲についての上述した楽曲データを取得する。そして、データ取得部１２０は、取得した楽曲データを、次に説明する特徴量算出部１３０へ出力する。

（特徴量算出部）
特徴量算出部１３０は、データ取得部１２０から入力される一群の楽曲データに含まれる各歌詞データから、各楽曲の歌詞についての言語特徴量を算出する。そして、特徴量算出部１３０は、データ取得部１２０から入力される一群の楽曲データについての言語特徴量と属性データとの組を、学習部１４０へ出力する。

図３は、本実施形態において特徴量算出部１３０により算出される言語特徴量の一例について説明するための説明図である。図３を参照すると、言語特徴量は、各歌詞データを単語集合（ＢＯＷ：Bag Of Words）とみなした場合の各単語の数を含む。さらに、言語特徴量は、各歌詞データについての品詞ヒストグラム（例えば、名詞の数、動詞の数、形容詞の数などを含む統計値）、及びその他の言語学的な特徴量を含んでもよい。その他の言語学的な特徴量には、文字数、単語数、文字の種類（漢字、かな、又はアルファベットなど）ごとの割合、ｂｉｇｒａｍ（２単語ごとのヒストグラム）又はｔｒｉｇｒａｍ（３単語ごとのヒストグラム）などが含まれ得る。従って、各楽曲の歌詞データから算出される言語特徴量は、単語Ａ〜単語Ｎについての単語数、品詞Ａ〜品詞Ｍについての品詞数、及びその他の特徴量を要素とするベクトルにより表され得る。

（学習部）
学習部１４０は、機械学習によって、歌詞データから算出される言語特徴量から楽曲の属性データを導出するための演算モデルを学習する。その際、学習部１４０は、特徴量算出部１３０から入力される複数の楽曲についての属性データと言語特徴量との組を教師データとする。学習部１４０による機械学習は、例えば、ＳＶＭ（Support Vector Machine）、ニューラルネットワーク又はブースティングなどの公知の教師あり学習アルゴリズムを用いて実行され得る。

図４は、学習部１４０による学習処理の入力データである教師データについて説明するための説明図である。図４を参照すると、教師データは、楽曲データＭ０１〜ＭＸＸのそれぞれについての言語特徴量と属性データとの組である。このうち、言語特徴量（α、β、…）は、歌詞データから算出される図３に例示した単語集合、品詞ヒストグラム、及びその他の特徴量を含む。言語特徴量（α、β、…）は、学習部１４０による学習処理の結果として得られる演算モデルの入力に対応する。一方、属性データは、予め楽曲データにおいて付与された正解の属性値として、長さ（小節数など）、テンポ（１分当たりの拍数など）、リズム（何分の何拍子か）、メロディ進行（前奏、Ａメロ、Ｂメロ、サビなどの配列パターン）及びコード進行（コードの配列パターン）などについての値を含む。これら属性データは、学習部１４０による学習処理の結果として得られる演算モデルの出力に対応する。学習部１４０は、このような複数の楽曲についての言語特徴量と正解の属性データとの組を教師データとして用いて機会学習を実行することにより、歌詞データの言語特徴量から楽曲の属性データを導出するための演算モデルを獲得する。

なお、学習部１４０により学習される演算モデルは、典型的には、図４に例示した各属性の属性値を導出するための、言語特徴量を入力とする関数（又は演算処理）の集合である。学習部１４０は、例えば、１つの属性の属性値を導出するための関数についての機械学習を属性の数だけ繰り返すことにより、関数の集合である演算モデルを獲得してもよい。

（モデル記憶部）
モデル記憶部１５０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、学習部１４０による機械学習の結果として獲得される演算モデルを記憶する。かかる演算モデルは、例えば、後述する情報処理装置２００による作曲処理にあたって、ユーザにより入力される歌詞の言語特徴量から作曲パラメータを導出するために使用される。

なお、楽曲の歌詞の言語特徴量と作曲に関する属性データとの間の関係（即ち、演算モデル）を機械学習によって獲得する上述した手法の利点の１つは、人間により認識されにくい歌詞の特徴をも作曲のために参酌できることである。例えば、明るい印象を与える曲と暗い印象を与える曲とを分類するモデルを、発明者らが歌詞の言語特徴量に基づいて機械学習によって構築した結果、以下の言語特徴量が分類に有意に寄与する特徴量として得られた（以下に掲げたのは有意な特徴量の一部である）。
ａ）単語（文字）“！”の数
ｂ）漢字の割合
ｃ）平仮名の割合
ｄ）単語“これから”の数
ｅ）単語“道”の数
ｆ）片仮名の割合
ｇ）単語“心”の数
ｈ）単語“幸せ”の数
ｉ）単語“誰”の数
このうち、ａ）、ｄ）、ｅ）、ｇ）、ｈ）及びｉ）は、歌詞データを単語集合とみなした場合の各単語の単語数である。例えば、これらのうち歌詞中の“幸せ”の数によって明るい曲と暗い曲とを分類することは一般に想起しやすい。しかし、歌詞中の“！”の数も上記分類に有意に寄与することは、機械学習によらなければ知ることは難しい。このような機械学習の結果から、例えば、歌詞中の“！”の数に応じて、作曲の際のコード進行の選択（メジャーコードを基調とするかマイナーコードを基調とするか、など）を制御することにより、自動作曲に対するユーザの満足度は向上し得る。一方、上記特徴量のうち、ｂ）、ｃ）及びｆ）は、日本語に特有の特徴量である。異なる言語で記述される歌詞に基づく作曲をターゲットとする場合には、その言語の歌詞を有する楽曲についての教師データを機械学習の入力とすることで、他の有意な結果を得ることができるであろう。

［１−２．学習処理の流れ］
図５は、本実施形態に係る学習装置１００による学習処理の流れの一例を示すフローチャートである。図５を参照すると、まず、データ取得部１２０は、複数の既知の楽曲についての楽曲データ、即ち歌詞データと属性データとの組を、楽曲データ記憶部１１０から取得する（ステップＳ１０２）。次に、特徴量算出部１３０は、データ取得部１２０により取得された楽曲データに含まれる各楽曲の歌詞データについて言語特徴量を算出する（ステップＳ１０４）。次に、学習部１４０は、特徴量算出部１３０により算出された言語特徴量とデータ取得部１２０により取得された既知の属性データとの組を教師データとして、機械学習により、言語特徴量から属性データを導出するための演算モデルを学習する（ステップＳ１０６）。次に、モデル記憶部１５０は、学習部１４０による機会学習の結果として獲得された演算モデルを記憶する（ステップＳ１０８）。

［１−３．情報処理装置（作曲装置）の構成例］
図６は、学習装置１００により学習された演算モデルを用いた作曲処理を行う、本実施形態に係る情報処理装置２００の構成の一例を示すブロック図である。図６を参照すると、情報処理装置２００は、ユーザインタフェース２１０、文字列取得部２２０、特徴量算出部２３０、モデル記憶部２４０、モデル演算部２５０、及び作曲部２６０を備える。なお、情報処理装置２００は、学習装置１００と一体の装置であってもよい。その場合には、モデル記憶部２４０は、上述したモデル記憶部１５０と同一の要素であり得る。

（ユーザインタフェース）
ユーザインタフェース２１０は、情報処理装置２００により作曲される楽曲の歌詞を入力するためのインタフェースを、ユーザに提供する。また、ユーザインタフェース２１０は、情報処理装置２００により作曲された楽曲を再生するための音声出力インタフェースを追加的に提供してもよい。従って、ユーザインタフェース２１０は、例えば、タッチパネル、キーパッド又はキーボードなどの文字入力手段、ＣＲＴ（Cathode Ray Tube）、液晶ディスプレイ又はＯＬＥＤ（Organic Light Emitting Diode）などの表示手段、並びに音声出力回路及びスピーカなどの音声出力手段を含み得る。

（文字列取得部）
文字列取得部２２０は、ユーザインタフェース２１０を介してユーザにより入力される文字列を取得する。かかる文字列は、情報処理装置２００が作曲すべき楽曲の歌詞として扱われる。文字列取得部２２０は、ユーザインタフェース２１０を介して取得した文字列を、特徴量算出部２３０へ出力する。

（特徴量算出部）
特徴量算出部２３０は、文字列取得部２２０から入力される文字列から、当該文字列についての言語特徴量を算出する。例えば、英語の楽曲のための歌詞として、“I am on the top of the world”という文字列が入力されたものとする。その場合には、特徴量算出部２３０により算出される言語特徴量のうちの単語集合は、（“I”，“am”，“on”，“the”，“top”，“of”，“world”）＝（１，１，１，２，１，１，１）となる。また、品詞ヒストグラムは、例えば、（名詞数，代名詞数，前置詞数，冠詞数，助動詞数，動詞数，形容詞数）＝（２，１，２，２，１，０，０）となる。また、その他の言語特徴量として、文字数＝２１、単語数＝８などが算出される。特徴量算出部２３０は、このように算出した言語特徴量を、モデル演算部２５０へ出力する。

（モデル記憶部）
モデル記憶部２４０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、上述した学習装置１００による学習処理の結果として獲得された演算モデルを記憶している。即ち、モデル記憶部２４０に記憶されている演算モデルは、歌詞データの言語特徴量から楽曲の属性データを導出するための演算モデルである。モデル記憶部２４０は、情報処理装置２００による作曲処理に際して、記憶している演算モデルをモデル演算部２５０へ出力する。なお、モデル記憶部２４０は、例えば、歌詞に用いられる言語の種類ごとに異なる複数の演算モデルを記憶していてもよい。

（モデル演算部）
モデル演算部２５０は、モデル記憶部２４０により記憶されている演算モデルに従って、特徴量算出部２３０により算出される言語特徴量から、作曲すべき楽曲の属性データを導出する。より具体的には、モデル演算部２５０は、特徴量算出部２３０から入力される単語集合の単語数、品詞ヒストグラム、及びその他の特徴量を含む言語特徴量から、上述した演算モデルに従って、楽曲の長さ、テンポ、リズム、メロディ進行及びコード進行などの属性値を含む属性データを導出する。そして、モデル演算部２５０は、導出した属性データを、作曲部２６０へ出力する。

（作曲部）
作曲部２６０は、モデル演算部２５０により導出される属性データを作曲パラメータとして用いて、文字列取得部２２０により取得される文字列を歌詞とする楽曲を生成する。作曲パラメータに基づく作曲部２６０による楽曲生成処理は、例えば、上記非特許文献１に記載されたシステムにおける処理と同様であってよい。作曲部２６０は、例えば、作曲パラメータにより指定された長さ、テンポ、リズム、メロディ進行及びコード進行を有する楽曲を生成し、生成した楽曲を表現するＭＩＤＩ形式又はＭＰ３形式などのデータファイルを出力する。作曲部２６０は、例えば、生成した楽曲をユーザインタフェース２１０により再生させてもよい。その代わりに、作曲部２６０は、例えば、生成した楽曲を記述したデータファイルを記憶媒体に保存してもよい。

［１−４．作曲処理の流れ］
図７は、本実施形態に係る情報処理装置２００による作曲処理の流れの一例を示すフローチャートである。図７を参照すると、まず、文字列取得部２２０は、ユーザから入力される歌詞としての入力文字列を取得する（ステップＳ２０２）。次に、特徴量算出部２３０は、文字列取得部２２０により取得された入力文字列の言語特徴量を算出する（ステップＳ２０４）。次に、モデル演算部２５０は、モデル記憶部２４０に記憶されている学習済みの演算モデルに従って、特徴量算出部２３０により算出された言語特徴量から、作曲パラメータとしての楽曲の属性データを導出する（ステップＳ２０６）。次に、作曲部２６０は、モデル演算部２５０により導出された属性データを作曲パラメータとして用いて、入力文字列を歌詞とする楽曲を生成する（ステップＳ２０８）。

［１−５．第１の実施形態のまとめ］
ここまで、図１〜図７を用いて、本発明の第１の実施形態に係る学習装置１００及び情報処理装置２００について詳細に説明した。学習装置１００によれば、楽曲の歌詞を表す歌詞データから算出される言語特徴量と楽曲の属性を表す属性データとの組を教師データとして、歌詞についての言語特徴量から作曲パラメータを導出するための演算モデルが機械学習により獲得される。それにより、一般に想起しづらい歌詞の有意な特徴に基づいてユーザを満足させ得る効果的な楽曲を自動的に生成することが可能となる。また、情報処理装置２００によれば、ユーザにより入力される文字列の言語特徴量から上述した演算モデルに従って導出される作曲パラメータを用いて、当該入力文字列を歌詞とする楽曲が生成される。それにより、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な楽曲を自動的に作曲することが可能となる。

また、上記言語特徴量は、歌詞データを単語集合とみなした場合の各単語の数を含んでよい。また、上記作曲パラメータとは、楽曲の長さ（小節数）、テンポ、リズム、メロディ進行及びコード進行などであってよい。これら言語特徴量と作曲パラメータとの間には上に例示した有意な相関が存在し得るため、これら言語特徴量と作曲パラメータとの間の相関に基づく演算モデルを構築することにより、歌詞の言語特徴量から適切な作曲パラメータを導出することが可能となる。

なお、学習装置１００及び情報処理装置２００は、それぞれ、例えばＰＣ（Personal Computer）、携帯端末、ゲーム端末又は音楽再生装置などの端末装置を用いて実現されてもよい。その代わりに、学習装置１００及び情報処理装置２００は、それぞれ、端末装置からの要求に応じて処理を行うサーバとして実現されてもよい。

＜２．第２の実施形態＞
上述した第１の実施形態では、作曲パラメータが、学習される演算モデルに従って、歌詞の言語特徴量から直接的に導出された。これに対し、本節で説明する第２の実施形態では、作曲パラメータは、演算モデルに基づく過程と、人間による作曲のノウハウを反映したヒューリスティクスに基づく過程とに分けて、段階的に導出される。作曲パラメータの導出の過程に人間による作曲のノウハウを反映させることで、より適切な作曲パラメータを用いた楽曲の生成が可能となる。

［２−１．学習処理の説明］
本発明の第２の実施形態に係る学習装置の構成は、第１の実施形態に係る学習装置１００の構成と同様であってよい。但し、本実施形態において、機械学習の教師データとして用いられる楽曲の属性データは、第１の実施形態と異なり、人間にも理解可能なように抽象化された、楽曲に関する１つ以上の名義属性についてのデータを含む。このような抽象化された名義属性は、本実施形態において、作曲パラメータそのものではなく、作曲パラメータの値を決定するため使用される。そのため、かかる名義属性を、本明細書では「中間属性」という。

図８は、第２の実施形態に係る学習処理における教師データについて説明するための説明図である。図８を参照すると、教師データは、楽曲データＭ０１〜ＭＸＸのそれぞれについての言語特徴量と属性データとの組である。このうち、言語特徴量（α、β、…）は、歌詞データから算出される図３に例示した単語集合、品詞ヒストグラム、及びその他の特徴量を含む。言語特徴量（α、β、…）は、演算モデルの入力に対応する。一方、属性データは、予め楽曲データにおいて付与される属性値を含む。但し、図４に例示した属性データとは異なり、本実施形態では、教師データのうちの楽曲の属性データは、中間属性についての属性値を含む。図８の例において、中間属性は、明るさ（“明るい”又は“暗い”）、テーマ（“恋愛”、“青春”など）及び軽快さ（“素軽い”、“ゆったり”など）である。さらに、教師データは、楽曲の属性データとして作曲パラメータの一部を含んでもよい。図８の例において、教師データは、作曲パラメータの一部であるジャンル（“バラード”、“ロック”など）を含む。これら属性データは、演算モデルの出力に対応する。第２の実施形態では、このような言語特徴量と（正解の）属性データとの組を教師データとする機会学習により、歌詞データの言語特徴量から、少なくとも中間属性について（及び任意に作曲パラメータの一部について）の属性データを導出するための演算モデルが獲得される。

［２−２．情報処理装置（作曲装置）の構成例］
図９は、上述した演算モデルを用いた作曲処理を行う、本実施形態に係る情報処理装置４００の構成の一例を示すブロック図である。図９を参照すると、情報処理装置４００は、ユーザインタフェース２１０、文字列取得部２２０、特徴量算出部２３０、記憶部４４０、モデル演算部４５０、及び作曲部４６０を備える。

（記憶部）
記憶部４４０は、ハードディスク又は半導体メモリなどの記憶媒体を用いて、上述した学習処理の結果として獲得された演算モデル３５２を記憶している。演算モデル３５２は、歌詞データの言語特徴量から楽曲の少なくとも中間属性についての属性データを導出するための演算モデルである。記憶部４４０は、情報処理装置４００による作曲処理に際して、演算モデル３５２をモデル演算部４５０へ出力する。

さらに、記憶部４４０は、演算モデル３５２に従ってモデル演算部４５０により導出される中間属性についての属性データ（以下、中間属性データという）と作曲パラメータとして使用される属性データとの間の関係を記述する関係記述データ３５４を記憶している。関係記述データ３５４は、人間による作曲のノウハウを反映させたヒューリスティクスを表現するデータである。関係記述データ３５４は、予めユーザにより作成され、記憶部４４０に格納される。関係記述データ３５４は、例えば、中間属性データと作曲パラメータとを対応付ける単純なマッピングテーブルを用いて定義されてもよい。その代わりに、関係記述データ３５４は、例えば、ベイジアンネットワークを用いて定義されてもよい。

図１０は、関係記述データ３５４の概要を説明するための説明図である。図１０において、関係記述データ３５４により記述される属性間の関係が、破線矢印で示されている。このうち、関係Ｒ１１は、中間属性「明るさ」と作曲パラメータ「コード進行」との間に相関があることを示している。例えば、歌詞の言語特徴量から「明るさ」＝「明るい」という属性値が導かれた楽曲について、作曲のノウハウに基づき、そのコード進行のパターンとしてメジャーコードを基調とするコード進行が選択され得る。また、関係Ｒ１２は、中間属性「軽快さ」と作曲パラメータ「テンポ」との間に相関があることを示している。例えば、歌詞の言語特徴量から「軽快さ」＝「素軽い」という属性値が導かれた楽曲について、作曲のノウハウに基づき、より速いテンポが選択され得る。このように、関係記述データ３５４は、演算モデル３５２に従って導出される中間属性データと作曲パラメータとの間の関係を記述する

さらに、関係記述データ３５４は、作曲パラメータ間の関係をも記述してよい。例えば図１０において、関係Ｒ２１は、作曲パラメータ「ジャンル」と作曲パラメータ「メロディ進行」との間に相関があることを示している。また、関係Ｒ２２は、作曲パラメータ「メロディ進行」と作曲パラメータ「コード進行」との間に相関があることを示している。

関係記述データ３５４は、このような中間属性データと作曲パラメータとの間の関係、及び作曲パラメータ間の関係を、一方の属性値が与えられた場合に他方の属性値が決定され得るように記述する。その具体的な手法の一例として、図１１は、ベイジアンネットワークを用いて定義される関係記述データ３５４の具体的な例を示している。

図１１では、図１０に例示した属性間の関係のうちの関係Ｒ１１を定義する、ベイジアンネットワークによる因果構造（ＤＡＧ：Directed Acyclic Graph）及び条件付き確率表（ＣＰＴ：Conditional Probability Table）の例を示している。図１１のＤＡＧ（上段）は、中間属性「明るさ」と作曲パラメータ「コード進行」との間に相関があることを表している。ＣＰＴ（下段）は、作曲パラメータ「コード進行」の各属性値の単純確率と、中間属性「明るさ」及び作曲パラメータ「コード進行」を確率変数（前者：原因、後者：結果）とみなした場合の条件付き確率と、を表している。例えば、コード進行「パターン１」が選択される単純確率は０．２である。また、歌詞の内容が「明るい」場合に、コード進行「パターン１」が選択される条件付き確率は、０．３である。歌詞の内容が「暗い」場合に、コード進行「パターン１」が選択される条件付き確率は、０．１である。

このような関係記述データ３５４を作曲のノウハウに基づいて予め定義しておくことにより、情報処理装置４００は、学習の結果として獲得される演算モデルに従って導出される中間属性データから、より適切な作曲パラメータを決定することができる。

（モデル演算部）
モデル演算部４５０は、モデル記憶部４４０により記憶されている演算モデル３５２に従って、特徴量算出部２３０により算出される言語特徴量から、図８に例示した作曲すべき楽曲の属性データを導出する。より具体的には、モデル演算部４５０は、特徴量算出部２３０から入力される単語集合の単語数、品詞ヒストグラム、及びその他の特徴量を含む言語特徴量から、上述した演算モデルに従って、作曲パラメータの一部及び中間属性データを導出する。そして、モデル演算部２５０は、導出した属性データを、作曲部４６０へ出力する。

（作曲部）
作曲部４６０は、モデル記憶部４４０により記憶されている関係記述データ３５４に従って、モデル演算部４５０により導出される中間属性データから作曲パラメータを決定する。そして、作曲部４６０は、文字列取得部２２０により取得される文字列を歌詞とする楽曲を、作曲パラメータを用いて生成する。

図１２は、作曲部４６０の詳細な構成の一例を示すブロック図である。図１２を参照すると、作曲部４６０は、パラメータ決定部４６２及び楽曲生成部４６４を有する。パラメータ決定部４６２は、モデル記憶部４４０により記憶されている関係記述データ３５４に従って、中間属性データから作曲パラメータを決定する。例えば、パラメータ決定部４６２は、ベイジアンネットワークにおいて中間属性データの値を与えた場合に最も生起確率が高くなるパラメータ値を、作曲パラメータの値として決定する。さらに、関係記述データ３５４が作曲パラメータ間の関係をも記述している場合には、パラメータ決定部４６２は、１つ又は複数の作曲パラメータの値に応じて他の作曲パラメータの値を決定してもよい。楽曲生成部４６４は、モデル演算部４５０により導出される作曲パラメータ及びパラメータ決定部４６２により決定される作曲パラメータを用いて、文字列取得部２２０により取得される文字列を歌詞とする楽曲を生成する。楽曲生成部４６４による楽曲生成処理は、例えば、上記非特許文献１に記載されたシステムにおける処理と同様であってよい。楽曲生成部４６４は、例えば、作曲パラメータにより指定されたジャンル、長さ、テンポ、リズム、メロディ進行及びコード進行を有する楽曲を生成する。そして、楽曲生成部４６４は、生成した楽曲を表現するＭＩＤＩ形式又はＭＰ３形式などのデータファイルを出力する。

作曲部４６０は、例えば、楽曲生成部４６４により生成された楽曲をユーザインタフェース２１０により再生させてもよい。その代わりに、作曲部４６０は、例えば、楽曲生成部４６４により生成された楽曲を表現するデータファイルを記憶媒体に保存してもよい。

［２−３．作曲処理の流れ］
図１３は、本実施形態に係る情報処理装置４００による作曲処理の流れの一例を示すフローチャートである。図１３を参照すると、まず、文字列取得部２２０は、ユーザから入力される歌詞としての入力文字列を取得する（ステップＳ４０２）。次に、特徴量算出部２３０は、文字列取得部２２０により取得された入力文字列の言語特徴量を算出する（ステップＳ４０４）。次に、モデル演算部４５０は、モデル記憶部４４０に記憶されている学習済みの演算モデルに従って、特徴量算出部２３０により算出された言語特徴量から、中間属性データを導出する（ステップＳ４０６）。次に、作曲部４６０のパラメータ決定部４６２は、モデル記憶部４４０により記憶されている関係記述データ３５４に従って、中間属性データから作曲パラメータを決定する（ステップＳ４０８）。次に、作曲部４６０の楽曲生成部４６４は、作曲パラメータを用いて、入力文字列を歌詞とする楽曲を生成する（ステップＳ４１０）。

［２−４．第２の実施形態のまとめ］
ここまで、図８〜図１３を用いて、本発明の第２の実施形態について詳細に説明した。本実施形態に係る学習処理によれば、楽曲の歌詞を表す歌詞データから算出される言語特徴量と作曲パラメータの決定の基礎となる中間属性データとの組を教師データとして、歌詞についての言語特徴量から中間属性データを導出するための演算モデルが機械学習により獲得される。それにより、作曲のノウハウを反映させたヒューリスティクスを演算モデルに従って導出される中間属性に適用して作曲パラメータを決定することが容易となる。また、情報処理装置４００によれば、作曲パラメータの導出が、機械学習の結果としての演算モデルに基づく過程と、人間による作曲のノウハウを反映させたヒューリスティクスに基づく過程とに分けて、段階的に行われる。それにより、歌詞に合った適切な楽曲が、作曲のノウハウをも反映した形で自動的に作曲される。

なお、当然ながら、情報処理装置４００もまた、端末装置を用いて実現されてもよく、その代わりに端末装置からの要求に応じて処理を行うサーバとして実現されてもよい。

なお、本明細書において説明した学習装置１００、情報処理装置２００及び４００による一連の処理は、典型的には、ソフトウェアを用いて実現される。一連の処理を実現するソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時にＲＡＭ（Random Access Memory）に読み込まれ、ＣＰＵ（Central Processing Unit）などのプロセッサにより実行される。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１００学習装置
１２０データ取得部
１３０特徴量算出部
１４０学習部
１５２演算モデル
２００，４００情報処理装置
２２０文字列取得部
２３０特徴量算出部
２４０，４４０記憶部
２５０，４５０モデル演算部
３５２演算モデル
３５４関係記述データ
２６０，４６０作曲部
４６２パラメータ決定部
４６４楽曲生成部

Claims

複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶部と；
ユーザにより入力される文字列を取得する文字列取得部と；
前記文字列取得部により取得される文字列から言語特徴量を算出する特徴量算出部と；
前記記憶部により記憶されている前記演算モデルに従って、前記特徴量算出部により算出される言語特徴量から、作曲すべき楽曲の属性データを導出するモデル演算部と；
前記モデル演算部により導出される属性データを用いて、前記文字列取得部により取得される文字列を歌詞とする楽曲を生成する作曲部と；
を備える情報処理装置。
前記記憶部は、前記モデル演算部により導出される第１の属性データと作曲パラメータとして使用される第２の属性データとの間の関係を記述する関係記述データをさらに記憶し、
前記作曲部は、
前記記憶部により記憶されている前記関係記述データに従って、前記第１の属性データから前記第２の属性データを決定するパラメータ決定部と、
前記パラメータ決定部により決定される前記第２の属性データを用いて、前記文字列取得部により取得される文字列を歌詞とする楽曲を生成する楽曲生成部と、
を有する、
請求項１に記載の情報処理装置。
前記関係記述データは、２種類以上の前記第２の属性データの間の関係をも記述するデータである、請求項２に記載の情報処理装置。
前記第１の属性データは、楽曲に関する１つ以上の名義属性についてのデータを含み、
前記第２の属性データは、前記１つ以上の名義属性と関係する作曲パラメータについてのデータを含む、
請求項２又は請求項３に記載の情報処理装置。
前記言語特徴量は、前記歌詞データを単語集合とみなした場合の各単語の数を含む、請求項１に記載の情報処理装置。
前記作曲部は、楽曲の小節数、テンポ、リズム、メロディ進行及びコード進行のうち少なくとも１つを含む前記属性データを用いて、前記文字列取得部により取得される文字列を歌詞とする楽曲を生成する、請求項１に記載の情報処理装置。
複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶媒体を備える情報処理装置を用いて：
ユーザにより入力される文字列を取得する取得ステップと；
取得された文字列から言語特徴量を算出する算出ステップと；
前記記憶媒体により記憶されている前記演算モデルに従って、前記算出ステップにおいて算出された言語特徴量から、作曲すべき楽曲の属性データを導出する導出ステップと；
導出された属性データを用いて、前記取得ステップにおいて取得された文字列を歌詞とする楽曲を生成する作曲ステップと；
を含む、自動作曲方法。
複数の楽曲について各楽曲の歌詞を表す歌詞データから算出される言語特徴量と当該楽曲の属性を表す属性データとを教師データとすることにより学習された演算モデルであって、歌詞データの言語特徴量から楽曲の属性データを導出するための当該演算モデルを記憶している記憶媒体を備える情報処理装置を制御するコンピュータを：
ユーザにより入力される文字列を取得する文字列取得部と；
前記文字列取得部により取得される文字列から言語特徴量を算出する特徴量算出部と；
前記記憶媒体により記憶されている前記演算モデルに従って、前記特徴量算出部により算出される言語特徴量から、作曲すべき楽曲の属性データを導出するモデル演算部と；
前記モデル演算部により導出される属性データを用いて、前記文字列取得部により取得される文字列を歌詞とする楽曲を生成する作曲部と；
として機能させるための、プログラム。
楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得するデータ取得部と；
前記データ取得部により取得される前記歌詞データから言語特徴量を算出する特徴量算出部と；
複数の楽曲について、各楽曲の前記属性データと前記言語特徴量との組を教師データとし、前記言語特徴量から前記属性データを導出するための演算モデルを学習する学習部と；
を備え、
前記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、
学習装置。
前記属性データにより表される楽曲の属性は、前記作曲パラメータの決定の基礎となる１つ以上の名義属性を含む、請求項９に記載の情報処理装置。
前記言語特徴量は、前記歌詞データを単語集合とみなした場合の各単語の数を含む、請求項９又は請求項１０に記載の情報処理装置。
前記属性データは、楽曲の小節数、テンポ、リズム、メロディ進行及びコード進行のうち少なくとも１つを含む、請求項９に記載の情報処理装置。
情報処理装置による演算モデルの学習方法であって：
楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得する取得ステップと；
取得された前記歌詞データから言語特徴量を算出する算出ステップと；
複数の楽曲について、各楽曲の前記属性データと前記言語特徴量との組を教師データとし、前記言語特徴量から前記属性データを導出するための演算モデルを学習するステップと；
を含み、
前記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、
学習方法。
学習装置を制御するコンピュータを：
楽曲の歌詞を表す歌詞データ及び当該楽曲の属性を表す属性データを取得するデータ取得部と；
前記データ取得部により取得される前記歌詞データから言語特徴量を算出する特徴量算出部と；
複数の楽曲について、各楽曲の前記属性データと前記言語特徴量との組を教師データとし、前記言語特徴量から前記属性データを導出するための演算モデルを学習する学習部と；
として機能させるためのプログラムであって、
前記属性データにより表される楽曲の属性は、楽曲の生成のために使用される作曲パラメータに関連する属性である、
プログラム。