JP7842237B2

JP7842237B2 - 楽曲生成装置、楽曲生成方法およびプログラム

Info

Publication number: JP7842237B2
Application number: JP2024551011A
Authority: JP
Inventors: 益明呉
Original assignee: AlphaTheta Corp
Current assignee: AlphaTheta Corp
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2026-04-07
Anticipated expiration: 2042-10-14
Also published as: JPWO2024079865A1; WO2024079865A1

Description

本発明は、楽曲生成装置、楽曲生成方法およびプログラムに関する。

ＤＪパフォーマンスでは、先行曲から後続曲へのクロスフェードがよく用いられる。クロスフェードの間は、先行曲および後続曲がミキシングして再生されるため、それぞれの拍位置を一致させたり、不協和音を避けたり、ボーカル音の競合を避けたりといった工夫が必要であるが、予め相性の良い楽曲を選定することによって聴感的に良好なクロスフェードを容易に行うための技術が、例えば特許文献１や特許文献２に記載されている。

国際公開第２０１６／２０８００２号国際公開第２０２２／０７０３９２号

しかしながら、相性の良い楽曲でも、例えばクロスフェード中に音数が増加することによって乱雑に聴こえたり、キーが一致していても和音の衝突が生じたりして、聴感的には依然として改善の余地がある。また、クロスフェードを行うのが相性の良い楽曲同士の間に限定されるのはＤＪパフォーマンス上の制約にもなりうる。

そこで、本発明は、音声データを特徴量変換することによって楽曲を自然な聴感でクロスフェードさせることが可能な、楽曲生成装置、楽曲生成方法およびプログラムを提供することを目的とする。

［１］第１および第２の楽曲の音声データを第１の特徴空間内の第１および第２の特徴ベクトルに変換するエンコーダと、上記第１および第２の特徴ベクトルを合成した第３の特徴ベクトルに基づいて音声データを生成するデコーダとを備える楽曲生成装置。
［２］上記第１および第２の特徴ベクトルは、ユーザー操作に従って設定される比率で合成される、［１］に記載の楽曲生成装置。
［３］上記ユーザー操作は、上記第１の楽曲を上記第２の楽曲にクロスフェードさせる操作を含む、［２］に記載の楽曲生成装置。
［４］上記エンコーダおよび上記デコーダは、楽曲の音声データを上記エンコーダによって上記第１の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第１の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、［１］から［３］のいずれか１項に記載の楽曲生成装置。
［５］上記エンコーダは、上記第１および第２の楽曲の音声データを上記第１の特徴空間内の上記第１および第２の特徴ベクトル、および第２の特徴空間内の第４および第５の特徴ベクトルに変換し、上記デコーダは、上記第１および第２の特徴ベクトルを第１の比率で合成した上記第３の特徴ベクトル、および上記第４および第５の特徴ベクトルを第２の比率で合成した第６の特徴ベクトルに基づいて音声データを生成する、［１］に記載の楽曲生成装置。
［６］上記第１の比率と上記第２の比率とは、互いに独立して設定される、［５］に記載の楽曲生成装置。
［７］上記エンコーダおよび上記デコーダは、楽曲の音声データをピッチシフトさせてから上記エンコーダによって上記第１の特徴空間内の特徴ベクトルおよび上記第２の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第１の特徴空間内の特徴ベクトルに上記ピッチシフトとは逆のベクトル回転を加えたベクトル、および上記第２の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、［５］または［６］に記載の楽曲生成装置。
［８］第１および第２の楽曲の音声データを第１の特徴空間内の第１および第２の特徴ベクトルに変換するエンコーダを備え、上記第１および第２の特徴ベクトルの間の距離から上記第１および第２の楽曲の類似度を判定し、上記エンコーダは、楽曲の音声データを上記エンコーダによって上記第１の特徴空間内の特徴ベクトルに変換し、デコーダによって上記第１の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、楽曲類似度判定装置。
［９］楽曲の音声データを第１の特徴空間内の特徴ベクトルに変換するエンコーダ、上記第１の特徴空間内の特徴ベクトルに基づいて音声データを生成するデコーダ、および上記楽曲の音声データと上記生成された音声データとを識別するように学習される識別モデルを備え、上記エンコーダおよび上記デコーダを、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習する学習ステップと、上記エンコーダを用いて第１および第２の楽曲の音声データを上記第１の特徴空間内の第１および第２の特徴ベクトルに変換し、上記デコーダを用いて上記第１および第２の特徴ベクトルを合成した第３の特徴ベクトルに基づいて音声データを生成する楽曲生成ステップとを含む楽曲生成方法。
［１０］第１および第２の楽曲の音声データを第１の特徴空間内の第１および第２の特徴ベクトルに変換するエンコーダと、上記第１および第２の特徴ベクトルを合成した第３の特徴ベクトルに基づいて音声データを生成するデコーダと、としてコンピュータを機能させるためのプログラム。

本発明の実施形態を概念的に示す図である。図１に示した要素が実装されるシステムの構成例を示す図である。本発明の第１の実施形態における学習ステップを概念的に示す図である。本発明の第１の実施形態における楽曲生成ステップを概念的に示す図である。本発明の第２の実施形態における学習ステップを概念的に示す図である。本発明の第２の実施形態における楽曲生成ステップを概念的に示す図である。図６の構成における具体的な実施例を示す図である。

図１は、本発明の実施形態を概念的に示す図である。まず、楽曲群ＭＣｓを用いてエンコーダ／デコーダ１００の学習ステップを実行する。後述するように、エンコーダは楽曲の音声データを特徴空間内の特徴ベクトルに変換し、デコーダは特徴ベクトルに基づいて音声データを生成する。学習には、エンコーダ／デコーダ１００に加えて識別モデル２００を用いる。楽曲群ＭＣｓに含まれる様々な楽曲について、識別モデル２００が元の楽曲の音声データとエンコーダ／デコーダ１００によって生成された音声データとを識別するように学習するとともに、生成された音声データが識別モデル２００によって元の楽曲の音声データと識別されなくなるようにエンコーダ／デコーダ１００を学習する。

次に、学習されたエンコーダ／デコーダ１００を用いた楽曲生成ステップを実行する。楽曲生成ステップでは、学習されたエンコーダ／デコーダ１００を用いて、２つの楽曲ＭＣ１，ＭＣ２を変換した特徴ベクトルを合成した特徴ベクトルから楽曲ＭＣｘを生成する。例えば楽曲ＭＣ１を楽曲ＭＣ２にクロスフェードさせる場合、クロスフェード中に楽曲ＭＣｘを再生することによって音数の増加やキーおよびコードの衝突が発生せず、音楽的な音声データの再生を維持したままクロスフェードを行うことができる。

図２は、図１に示した要素が実装されるシステムの構成例を示す図である。図２に例示されたシステム１０は、ＰＣ（Personal Computer）１１と、ＤＪコントローラ１２と、スピーカ１３と、サーバ１４とを含む。ＰＣ１１は楽曲の音声データの保存、処理および再生を実行する装置であり、ＰＣに限らずタブレットやスマートフォンなどの端末装置であってもよい。ＤＪコントローラ１２は、例えばＵＳＢ（Universal Serial Bus）などの通信手段を介してＰＣ１１に接続され、チャンネルフェーダー、クロスフェーダー、パフォーマンスパッド、ジョグダイヤルおよび各種のノブやボタンなどによって楽曲の再生に関するユーザーの操作入力を取得する。音声データは、ＤＪコントローラ１２の制御に従って、スピーカ１３を用いて再生される。サーバ１４は、必要に応じてＰＣ１０にネットワーク接続され、各種の機能を提供する。

上記で図１を参照して説明したエンコーダ／デコーダ１００および識別モデル２００は、例えばコンピュータがメモリに格納されたプログラムに従って動作することによってソフトウェア的に実装される。上述したエンコーダ／デコーダ１００の学習ステップと、学習されたエンコーダ／デコーダ１００を用いた楽曲生成ステップとは、同じ装置で実行されてもよいし、異なる装置で実行されてもよい。より具体的には、図２に示されたシステム１０の例において、学習ステップおよび楽曲生成ステップの両方がＰＣ１１で実行されてもよい。あるいは、学習ステップはサーバ１４で実行され、楽曲生成ステップはＰＣ１１で実行されてもよい。この場合、学習によって得られたエンコーダ／デコーダ１００のパラメータが、サーバ１４からＰＣ１１に送信される。また、学習ステップおよび楽曲生成ステップの両方がサーバ１４で実行されてもよい。この場合、楽曲ＭＣ１，ＭＣ２の音声データ、または楽曲識別情報がＰＣ１１からサーバ１４に送信され、学習済みのエンコーダ／デコーダ１００によって生成された楽曲ＭＣｘの音声データがサーバ１４からＰＣ１１に送信される。

なお、楽曲ＭＣｘは、必ずしも楽曲ＭＣ１，ＭＣ２の再生時にリアルタイムで生成されなくてもよく、予め生成された楽曲ＭＣｘの音声データが楽曲ＭＣ１，ＭＣ２のクロスフェード再生時に再生されてもよい。従って、エンコーダ／デコーダ１００の学習ステップの実行時だけではなくエンコーダ／デコーダ１００を用いた楽曲生成ステップの実行時においても、ＰＣ１１は必ずしもＤＪコントローラ１２やスピーカ１３に接続されていなくてもよい。同様に、学習ステップおよび楽曲生成ステップは、ＰＣ１１にネットワーク接続されていないサーバ１４で実行されてもよい。他の例では、ＰＣ１１に代えて、またはＰＣ１１とともに、ミキサーやオールインワンＤＪシステム（通信およびミキシング機能付きデジタルオーディオプレーヤー）などのＤＪ機器で学習ステップおよび楽曲生成ステップの少なくとも一部が実行されてもよい。

以下では、図１に示したエンコーダ／デコーダ１００の構成に関する２つの実施形態について、さらに説明する。

（第１の実施形態）
図３は、本発明の第１の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲ＭＣの音声データは所定の長さ（限定的でない例として０．５秒）の区間ごとにエンコーダ１１０に入力される。エンコーダ１１０は、入力された音声データを特徴空間ＳＰ内の特徴ベクトルＶＣに変換する。デコーダ１２０は、特徴ベクトルＶＣに基づいて楽曲ＭＣｚの音声データを生成する。

学習ステップでは、エンコーダ１１０およびデコーダ１２０、ならびに識別モデル２００による敵対的学習が行われる。具体的には、識別モデル２００は元の楽曲ＭＣの音声データを本物、それ以外の音声データを偽物として識別するように学習され、エンコーダ１１０およびデコーダ１２０は特徴ベクトルＶＣから生成した楽曲ＭＣｚが識別モデル２００によって本物として識別されるように学習される。他の実施形態では必ずしも識別モデルが用いられなくてもよく、例えば楽曲ＭＣの音声データと楽曲ＭＣｚの音声データとを比較して、相似度が高くなるようにエンコーダ１１０およびデコーダ１２０が学習されてもよいし、識別モデルを用いた学習と相似度を用いた学習とを同時に行ってもよい。

上記のような学習ステップによって、図１において楽曲群ＭＣｓとして示された様々な楽曲について、生成された楽曲ＭＣｚの音声データが識別モデル２００において元の楽曲ＭＣの音声データと識別されなくなるように、エンコーダ１１０およびデコーダ１２０を学習する。この学習が収束したとき、エンコーダ１１０およびデコーダ１２０を用いて生成された楽曲ＭＣｚの音声データは、聴感的に元の楽曲ＭＣと区別されないものになる。また、デコーダ１２０は、特徴空間ＳＰ内の任意の特徴ベクトルを、音楽的な音声データに変換することができるようになる。

図４は、本発明の第１の実施形態における楽曲生成ステップを概念的に示す図である。図示された例において、楽曲ＭＣ１，ＭＣ２の音声データは、学習時と同じ所定の長さの区間ごとにエンコーダ１１０に入力される。エンコーダ１１０は、入力されたそれぞれの音声データを特徴空間ＳＰ内の特徴ベクトルＶＣ１，ＶＣ２に変換する。デコーダ１２０は、特徴ベクトルＶＣ１および特徴ベクトルＶＣ２を所定の比率で合成した特徴ベクトルＶＣｘに基づいて、楽曲ＭＣｘの音声データを生成する。上述したように、学習ステップによってデコーダ１２０は特徴空間ＳＰ内の任意の特徴ベクトルを音楽的な音声データに変換することができるように学習されている。従って、楽曲生成ステップにおいてデコーダ１２０によって生成された楽曲ＭＣｘの音声データは、音楽的な音声データになる。

特徴ベクトルＶＣｘは、特徴ベクトルＶＣ１および特徴ベクトルＶＣ２を、例えば楽曲ＭＣ１を楽曲ＭＣ２にクロスフェードさせるユーザー操作に応じて設定される比率で合成したものである。例えば特徴ベクトルＶＣｘの合成を、比率ｒを用いてＶＣｘ＝ｒ＊ＶＣ１＋（１－ｒ）＊ＶＣ２と表した場合、比率ｒを１から０まで徐々に変化させることによって、特徴ベクトルＶＣｘは特徴空間ＳＰ内で特徴ベクトルＶＣ１と特徴ベクトルＶＣ２との間を遷移する。上述したように、学習ステップによってエンコーダ１１０およびデコーダ１２０は生成する音声データが元の楽曲の音声データと聴感的に区別されないように学習されている。従って、上記の比率ｒが１であれば特徴ベクトルＶＣｘに基づいて生成される音声データは楽曲ＭＣ１の音声データと聴感的に区別されず、比率ｒが０であれば特徴ベクトルＶＣｘに基づいて生成される音声データは楽曲ＭＣ２の音声データと聴感的に区別されない。比率ｒを１から０まで徐々に変化させることによって、楽曲ＭＣｘの音声データを、聴感的に楽曲ＭＣ１と区別されない音声データから、聴感的に楽曲ＭＣ２と区別されない音声データへと、音楽的である状態を維持したまま徐々に変化させることができる。

なお、クロスフェードを行う場合、楽曲ＭＣ１，ＭＣ２はいずれも再生されているため、エンコーダ１１０に入力される音声データは所定の時間（上記と同様の限定的でない例として０．５秒）ごとに更新される。従って、特徴空間ＳＰ内の特徴ベクトルＶＣ１，ＶＣ２も時間の経過とともに変化するが、同じ楽曲の連続した区間であれば特徴ベクトルの特徴空間ＳＰ内での位置の変化は比較的緩やかであるため、特徴ベクトルＶＣ１および特徴ベクトルＶＣ２を合成した特徴ベクトルＶＣｘの特徴空間ＳＰ内での位置も急激に変化することはない。従って、クロスフェードの開始から終了までの間を通じて、楽曲ＭＣｘの音声データを音楽的である状態を維持したまま徐々に変化させることができる。

以上で説明したような本発明の第１の実施形態によれば、楽曲ＭＣ１から楽曲ＭＣ２へのクロスフェード中に、楽曲ＭＣ１，ＭＣ２の音声データを特徴量変換した特徴ベクトルＶＣ１，ＶＣ２を合成した特徴ベクトルＶＣｘに基づいて生成された楽曲ＭＣｘが再生される。楽曲ＭＣ１，ＭＣ２が同時に再生されないため、音数の増加や和音の衝突による聴感の悪化を避けることができる。楽曲ＭＣｘは、例えば映像におけるモーフィングのように、楽曲ＭＣ１と聴感的に区別されない楽曲から楽曲ＭＣ２と聴感的に区別されない楽曲へと連続的に変化し、また音楽的である状態に維持されるため、楽曲ＭＣ１から楽曲ＭＣ２へ自然な聴感でクロスフェードさせることができる。

（第２の実施形態）
図５は、本発明の第２の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲ＭＣの音声データは所定の長さの区間ごとに、かつピッチシフト１３０の処理後に２つのエンコーダ１４０Ａ，１４０Ｂにそれぞれ入力される。ここで、ピッチシフト１３０は、ランダムな半音数分、楽曲ＭＣの音高を上昇または下降させる処理である。ピッチシフトされた楽曲ＭＣの音声データを、エンコーダ１４０Ａは特徴空間ＳＰ_Ａ内の特徴ベクトルＶＣ_Ａに変換し、エンコーダ１４０Ｂは特徴空間ＳＰ_Ｂ内の特徴ベクトルＶＣ_Ｂに変換する。デコーダ１５０は、特徴ベクトルＶＣ_Ａに特徴ベクトル回転１６０を加えたベクトル、および特徴ベクトルＶＣ_Ｂに基づいて楽曲ＭＣｚの音声データを生成する。特徴ベクトル回転１６０は、ピッチシフト１３０とは逆のベクトル回転であり、ピッチシフト１３０と同じ量で逆向きの音高変化を生じさせる。ここで、学習開始時において特徴ベクトル回転１６０は必ずしも音高変化を生じさせるものではないが、エンコーダ１４０Ａとともに特徴ベクトル回転を学習することによって、学習収束時には、特徴ベクトル回転１６０の回転量に応じて出力音声に音高変化が生じるように学習されている。

本実施形態でも、学習ステップでは第１の実施形態と同様に、エンコーダ１４０Ａ，１４０Ｂおよびデコーダ１５０、ならびに識別モデル２００による敵対的学習が行われる。具体的には、識別モデル２００はピッチシフト１３０による処理前の元の楽曲ＭＣを本物、それ以外の音声データを偽物として識別するように学習され、エンコーダ１４０Ａ，１４０Ｂおよびデコーダ１５０は特徴ベクトルＶＣ_Ａ，ＶＣ_Ｂから生成した楽曲ＭＣｚが識別モデル２００によって本物として識別されるように学習される。

上記のような学習ステップによって、図１において楽曲群ＭＣｓとして示された様々な楽曲について、生成された楽曲ＭＣｚの音声データが識別モデル２００において元の楽曲ＭＣの音声データと識別されなくなるように、エンコーダ１４０Ａ，１４０Ｂおよびデコーダ１５０を学習する。この学習が収束したとき、エンコーダ１４０Ａ，１４０Ｂおよびデコーダ１５０を用いて生成された楽曲ＭＣｚの音声データは、聴感的に元の楽曲ＭＣと区別されないものになる。また、デコーダ１５０は、特徴空間ＳＰ_Ａ，ＳＰ_Ｂ内の任意の特徴ベクトルを、音楽的な音声データに変換することができるようになる。

ここで、特徴ベクトルＶＣ_Ａがピッチシフト１３０とは逆の特徴ベクトル回転１６０による処理後にデコーダ１５０に入力されるのに対して、特徴ベクトルＶＣ_Ｂにはそのような処理がされず、ピッチシフト１３０による音高変化が反映されている。従って、特徴ベクトルＶＣ_Ｂに基づいて生成された楽曲ＭＣｚの音声データが識別モデル２００において元の楽曲ＭＣの音声データと区別されなくなるように学習した場合、エンコーダ１４０Ｂは、特徴ベクトルＶＣ_Ｂとして楽曲ＭＣの特徴量のうちピッチシフトに影響されにくい量、すなわちリズム感を表す特徴量を抽出するように学習される。一方、エンコーダ１４０Ａは、上記のようにエンコーダ１４０Ｂが学習されることによって、特徴ベクトルＶＣ_Ａとして楽曲ＭＣの特徴量のうちピッチシフトに影響される量、すなわちピッチ感を表す特徴量を抽出するように学習される。

図６は、本発明の第２の実施形態における楽曲生成ステップを概念的に示す図である。図示された例において、楽曲ＭＣ１，ＭＣ２の音声データは、それぞれ学習時と同じ長さの区間ごとにエンコーダ１４０Ａ，１４０Ｂに入力される。エンコーダ１４０Ａは入力されたそれぞれの音声データを特徴空間ＳＰ_Ａ内の特徴ベクトルＶＣ１_Ａ，ＶＣ２_Ａに変換し、エンコーダ１４０Ｂは入力されたそれぞれの音声データを特徴空間ＳＰ_Ｂ内の特徴ベクトルＶＣ１_Ｂ，ＶＣ２_Ｂに変換する。デコーダ１５０は、合成部１７０Ａが特徴空間ＳＰ_Ａ内の特徴ベクトルＶＣ１_Ａ，ＶＣ２_Ａを所定の比率で合成した特徴ベクトルＶＣｘ_Ａ、および合成部１７０Ｂが特徴空間ＳＰ_Ｂ内の特徴ベクトルＶＣ１_Ｂ，ＶＣ２_Ｂを所定の比率で合成した特徴ベクトルＶＣｘ_Ｂに基づいて、楽曲ＭＣｘの音声データを生成する。

本実施形態では、デコーダ１５０が楽曲の生成に用いる特徴ベクトルＶＣｘ_Ａ，ＶＣｘ_Ｂのそれぞれについて、楽曲ＭＣ１の特徴ベクトルＶＣ１_Ａ，ＶＣ１_Ｂおよび楽曲ＭＣ２の特徴ベクトルＶＣ２_Ａ，ＶＣ２_Ｂの合成比率を互いに独立して設定することができる。例えば特徴ベクトルＶＣｘ_Ａ，ＶＣｘの合成を、比率ｒ_Ａ，ｒ_Ｂを用いて式（１），（２）のように表した場合、比率ｒ_Ａ，ｒ_Ｂについて０から１までの間で任意の値を設定することができる。上述のように、エンコーダ１４０Ａは楽曲のピッチ感を表す特徴量を抽出するように学習され、エンコーダ１４０Ｂは楽曲のリズム感を表す特徴量を抽出するように学習されるため、比率ｒ_Ａ，ｒ_Ｂの設定によって楽曲ＭＣｘにおけるピッチ感およびリズム感における元の楽曲ＭＣ１，ＭＣ２からの影響を個別に設定することができる。

ＶＣｘ_Ａ＝ｒ_Ａ＊ＶＣ１_Ａ＋（１－ｒ_Ａ）＊ＶＣ２_Ａ・・・（１）
ＶＣｘ_Ｂ＝ｒ_Ｂ＊ＶＣ１_Ｂ＋（１－ｒ_Ｂ）＊ＶＣ２_Ｂ・・・（２）

図７は、図６の構成における具体的な実施例を示す図である。図示された例では、合成部１７０Ａ側で比率ｒ_Ａ＝１、合成部１７０Ｂ側で比率ｒ_Ｂ＝０が設定されている。この場合、デコーダ１５０に入力される特徴ベクトルＶＣｘ_Ａは楽曲ＭＣ１の特徴ベクトルＶＣ１_Ａに等しく、特徴ベクトルＶＣｘ_Ｂは楽曲ＭＣ２の特徴ベクトルＶＣ２_Ｂに等しい。この場合、デコーダ１５０は、ピッチ感については楽曲ＭＣ１の特徴を、リズム感については楽曲ＭＣ２の特徴をそれぞれ反映した楽曲ＭＣｘの音声データを生成する。比率ｒ_Ａ，ｒ_Ｂは、例えば上記の例のように所定の値でクロスフェードの間固定されていてもよいし、クロスフェードのユーザー操作に応じて変化してもよい。

以上で説明したような本発明の第２の実施形態によれば、上記の第１の実施形態と同様に楽曲ＭＣｘを再生することによって楽曲ＭＣ１から楽曲ＭＣ２へ自然な聴感でクロスフェードさせることができるのに加えて、楽曲ＭＣｘの音楽的な要素であるピッチ感およびリズム感を、楽曲ＭＣ１および楽曲ＭＣ２のどちらに近くするかを制御できるため、聴感的によりユーザーの意図に近い楽曲を再生することができる。

なお、上記の実施形態では学習されたエンコーダおよびデコーダを用いた楽曲生成装置について説明したが、他の実施形態として、同じように学習されたエンコーダおよびデコーダのうちエンコーダだけを用いて、特徴空間ＳＰ内の特徴ベクトルＶＣ１，ＶＣ２の間の距離から楽曲ＭＣ１，ＭＣ２の類似度を判定する楽曲類似度判定装置の実施形態も可能である。この場合も、例えば特徴ベクトルＶＣ１，ＶＣ２が特徴空間ＳＰ内で近くに位置し、類似度が高いと判定された楽曲ＭＣ１，ＭＣ２をクロスフェードさせることで、楽曲を自然な聴感でクロスフェードさせることができる。

１０…システム、１２…ＤＪコントローラ、１３…スピーカ、１４…サーバ、１００…エンコーダ／デコーダ、１１０…エンコーダ、１２０…デコーダ、１３０…ピッチシフト、１４０Ａ…エンコーダ、１４０Ｂ…エンコーダ、１５０…デコーダ、１６０…特徴ベクトル回転、１７０Ａ…合成部、１７０Ｂ…合成部、２００…識別モデル。

Claims

第１および第２の楽曲の音声データを、第１の特徴空間内の第１および第２の特徴ベクトルと、第２の特徴空間内の第３および第４の特徴ベクトルとに変換するエンコーダと、
前記第１および第２の特徴ベクトルを第１の比率で合成した第５の特徴ベクトルと、前記第３および第４の特徴ベクトルを第２の比率で合成した第６の特徴ベクトルとに基づいて音声データを生成するデコーダと
を備える楽曲生成装置。
前記第１の比率と前記第２の比率とは、互いに独立して設定される、請求項１に記載の楽曲生成装置。
前記エンコーダおよび前記デコーダは、楽曲の音声データをピッチシフトさせてから前記エンコーダによって前記第１の特徴空間内の特徴ベクトルおよび前記第２の特徴空間内の特徴ベクトルに変換し、前記デコーダによって前記第１の特徴空間内の特徴ベクトルに前記ピッチシフトとは逆のベクトル回転を加えたベクトル、および前記第２の特徴空間内の特徴ベクトルに基づいて音声データを生成し、前記楽曲の音声データと前記生成された音声データとを識別するように識別モデルを学習したときに、前記生成された音声データが前記識別モデルによって前記楽曲の音声データと識別されなくなるように学習されている、請求項１または請求項２に記載の楽曲生成装置。
前記第１の比率は、ユーザー操作に従って設定される、請求項１または請求項２に記載の楽曲生成装置。
前記ユーザー操作は、前記第１の楽曲を前記第２の楽曲にクロスフェードさせる操作を含む、請求項４に記載の楽曲生成装置。
コンピュータによって実施される楽曲生成方法であって、
楽曲の音声データを第１の特徴空間内の特徴ベクトルと第２の特徴空間内の特徴ベクトルとに変換するエンコーダと、前記第１の特徴空間内の特徴ベクトルと前記第２の特徴空間内の特徴ベクトルとに基づいて音声データを生成するデコーダとを、前記楽曲の音声データと前記生成された音声データとを識別するように学習される識別モデルによって、前記生成された音声データが前記楽曲の音声データと識別されなくなるように学習する学習ステップと、
前記エンコーダを用いて第１および第２の楽曲の音声データを、前記第１の特徴空間内の第１および第２の特徴ベクトルと、前記第２の特徴空間内の第３および第４ベクトルとに変換し、前記デコーダを用いて前記第１および第２の特徴ベクトルを第１の比率で合成した第５の特徴ベクトルと、前記第３および第４の特徴ベクトルを第２の比率で合成した第６の特徴ベクトルとに基づいて音声データを生成する楽曲生成ステップと
を含む楽曲生成方法。
第１および第２の楽曲の音声データを、第１の特徴空間内の第１および第２の特徴ベクトルと、第２の特徴空間内の第３および第４の特徴ベクトルとに変換するエンコーダと、
前記第１および第２の特徴ベクトルを第１の比率で合成した第５の特徴ベクトルと、前記第３および第４の特徴ベクトルを第２の比率で合成した第６の特徴ベクトルとに基づいて音声データを生成するデコーダと
としてコンピュータを機能させるためのプログラム。