JP7842237B2 - 楽曲生成装置、楽曲生成方法およびプログラム - Google Patents

楽曲生成装置、楽曲生成方法およびプログラム

Info

Publication number
JP7842237B2
JP7842237B2 JP2024551011A JP2024551011A JP7842237B2 JP 7842237 B2 JP7842237 B2 JP 7842237B2 JP 2024551011 A JP2024551011 A JP 2024551011A JP 2024551011 A JP2024551011 A JP 2024551011A JP 7842237 B2 JP7842237 B2 JP 7842237B2
Authority
JP
Japan
Prior art keywords
audio data
feature
music
encoder
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024551011A
Other languages
English (en)
Other versions
JPWO2024079865A1 (ja
Inventor
益明 呉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AlphaTheta Corp
Original Assignee
AlphaTheta Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AlphaTheta Corp filed Critical AlphaTheta Corp
Publication of JPWO2024079865A1 publication Critical patent/JPWO2024079865A1/ja
Application granted granted Critical
Publication of JP7842237B2 publication Critical patent/JP7842237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲生成装置、楽曲生成方法およびプログラムに関する。
DJパフォーマンスでは、先行曲から後続曲へのクロスフェードがよく用いられる。クロスフェードの間は、先行曲および後続曲がミキシングして再生されるため、それぞれの拍位置を一致させたり、不協和音を避けたり、ボーカル音の競合を避けたりといった工夫が必要であるが、予め相性の良い楽曲を選定することによって聴感的に良好なクロスフェードを容易に行うための技術が、例えば特許文献1や特許文献2に記載されている。
国際公開第2016/208002号 国際公開第2022/070392号
しかしながら、相性の良い楽曲でも、例えばクロスフェード中に音数が増加することによって乱雑に聴こえたり、キーが一致していても和音の衝突が生じたりして、聴感的には依然として改善の余地がある。また、クロスフェードを行うのが相性の良い楽曲同士の間に限定されるのはDJパフォーマンス上の制約にもなりうる。
そこで、本発明は、音声データを特徴量変換することによって楽曲を自然な聴感でクロスフェードさせることが可能な、楽曲生成装置、楽曲生成方法およびプログラムを提供することを目的とする。
[1]第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルに変換するエンコーダと、上記第1および第2の特徴ベクトルを合成した第3の特徴ベクトルに基づいて音声データを生成するデコーダとを備える楽曲生成装置。
[2]上記第1および第2の特徴ベクトルは、ユーザー操作に従って設定される比率で合成される、[1]に記載の楽曲生成装置。
[3]上記ユーザー操作は、上記第1の楽曲を上記第2の楽曲にクロスフェードさせる操作を含む、[2]に記載の楽曲生成装置。
[4]上記エンコーダおよび上記デコーダは、楽曲の音声データを上記エンコーダによって上記第1の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、[1]から[3]のいずれか1項に記載の楽曲生成装置。
[5]上記エンコーダは、上記第1および第2の楽曲の音声データを上記第1の特徴空間内の上記第1および第2の特徴ベクトル、および第2の特徴空間内の第4および第5の特徴ベクトルに変換し、上記デコーダは、上記第1および第2の特徴ベクトルを第1の比率で合成した上記第3の特徴ベクトル、および上記第4および第5の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルに基づいて音声データを生成する、[1]に記載の楽曲生成装置。
[6]上記第1の比率と上記第2の比率とは、互いに独立して設定される、[5]に記載の楽曲生成装置。
[7]上記エンコーダおよび上記デコーダは、楽曲の音声データをピッチシフトさせてから上記エンコーダによって上記第1の特徴空間内の特徴ベクトルおよび上記第2の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第1の特徴空間内の特徴ベクトルに上記ピッチシフトとは逆のベクトル回転を加えたベクトル、および上記第2の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、[5]または[6]に記載の楽曲生成装置。
[8]第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルに変換するエンコーダを備え、上記第1および第2の特徴ベクトルの間の距離から上記第1および第2の楽曲の類似度を判定し、上記エンコーダは、楽曲の音声データを上記エンコーダによって上記第1の特徴空間内の特徴ベクトルに変換し、デコーダによって上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、楽曲類似度判定装置。
[9]楽曲の音声データを第1の特徴空間内の特徴ベクトルに変換するエンコーダ、上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成するデコーダ、および上記楽曲の音声データと上記生成された音声データとを識別するように学習される識別モデルを備え、上記エンコーダおよび上記デコーダを、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習する学習ステップと、上記エンコーダを用いて第1および第2の楽曲の音声データを上記第1の特徴空間内の第1および第2の特徴ベクトルに変換し、上記デコーダを用いて上記第1および第2の特徴ベクトルを合成した第3の特徴ベクトルに基づいて音声データを生成する楽曲生成ステップとを含む楽曲生成方法。
[10]第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルに変換するエンコーダと、上記第1および第2の特徴ベクトルを合成した第3の特徴ベクトルに基づいて音声データを生成するデコーダと、としてコンピュータを機能させるためのプログラム。
本発明の実施形態を概念的に示す図である。 図1に示した要素が実装されるシステムの構成例を示す図である。 本発明の第1の実施形態における学習ステップを概念的に示す図である。 本発明の第1の実施形態における楽曲生成ステップを概念的に示す図である。 本発明の第2の実施形態における学習ステップを概念的に示す図である。 本発明の第2の実施形態における楽曲生成ステップを概念的に示す図である。 図6の構成における具体的な実施例を示す図である。
図1は、本発明の実施形態を概念的に示す図である。まず、楽曲群MCsを用いてエンコーダ/デコーダ100の学習ステップを実行する。後述するように、エンコーダは楽曲の音声データを特徴空間内の特徴ベクトルに変換し、デコーダは特徴ベクトルに基づいて音声データを生成する。学習には、エンコーダ/デコーダ100に加えて識別モデル200を用いる。楽曲群MCsに含まれる様々な楽曲について、識別モデル200が元の楽曲の音声データとエンコーダ/デコーダ100によって生成された音声データとを識別するように学習するとともに、生成された音声データが識別モデル200によって元の楽曲の音声データと識別されなくなるようにエンコーダ/デコーダ100を学習する。
次に、学習されたエンコーダ/デコーダ100を用いた楽曲生成ステップを実行する。楽曲生成ステップでは、学習されたエンコーダ/デコーダ100を用いて、2つの楽曲MC1,MC2を変換した特徴ベクトルを合成した特徴ベクトルから楽曲MCxを生成する。例えば楽曲MC1を楽曲MC2にクロスフェードさせる場合、クロスフェード中に楽曲MCxを再生することによって音数の増加やキーおよびコードの衝突が発生せず、音楽的な音声データの再生を維持したままクロスフェードを行うことができる。
図2は、図1に示した要素が実装されるシステムの構成例を示す図である。図2に例示されたシステム10は、PC(Personal Computer)11と、DJコントローラ12と、スピーカ13と、サーバ14とを含む。PC11は楽曲の音声データの保存、処理および再生を実行する装置であり、PCに限らずタブレットやスマートフォンなどの端末装置であってもよい。DJコントローラ12は、例えばUSB(Universal Serial Bus)などの通信手段を介してPC11に接続され、チャンネルフェーダー、クロスフェーダー、パフォーマンスパッド、ジョグダイヤルおよび各種のノブやボタンなどによって楽曲の再生に関するユーザーの操作入力を取得する。音声データは、DJコントローラ12の制御に従って、スピーカ13を用いて再生される。サーバ14は、必要に応じてPC10にネットワーク接続され、各種の機能を提供する。
上記で図1を参照して説明したエンコーダ/デコーダ100および識別モデル200は、例えばコンピュータがメモリに格納されたプログラムに従って動作することによってソフトウェア的に実装される。上述したエンコーダ/デコーダ100の学習ステップと、学習されたエンコーダ/デコーダ100を用いた楽曲生成ステップとは、同じ装置で実行されてもよいし、異なる装置で実行されてもよい。より具体的には、図2に示されたシステム10の例において、学習ステップおよび楽曲生成ステップの両方がPC11で実行されてもよい。あるいは、学習ステップはサーバ14で実行され、楽曲生成ステップはPC11で実行されてもよい。この場合、学習によって得られたエンコーダ/デコーダ100のパラメータが、サーバ14からPC11に送信される。また、学習ステップおよび楽曲生成ステップの両方がサーバ14で実行されてもよい。この場合、楽曲MC1,MC2の音声データ、または楽曲識別情報がPC11からサーバ14に送信され、学習済みのエンコーダ/デコーダ100によって生成された楽曲MCxの音声データがサーバ14からPC11に送信される。
なお、楽曲MCxは、必ずしも楽曲MC1,MC2の再生時にリアルタイムで生成されなくてもよく、予め生成された楽曲MCxの音声データが楽曲MC1,MC2のクロスフェード再生時に再生されてもよい。従って、エンコーダ/デコーダ100の学習ステップの実行時だけではなくエンコーダ/デコーダ100を用いた楽曲生成ステップの実行時においても、PC11は必ずしもDJコントローラ12やスピーカ13に接続されていなくてもよい。同様に、学習ステップおよび楽曲生成ステップは、PC11にネットワーク接続されていないサーバ14で実行されてもよい。他の例では、PC11に代えて、またはPC11とともに、ミキサーやオールインワンDJシステム(通信およびミキシング機能付きデジタルオーディオプレーヤー)などのDJ機器で学習ステップおよび楽曲生成ステップの少なくとも一部が実行されてもよい。
以下では、図1に示したエンコーダ/デコーダ100の構成に関する2つの実施形態について、さらに説明する。
(第1の実施形態)
図3は、本発明の第1の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲MCの音声データは所定の長さ(限定的でない例として0.5秒)の区間ごとにエンコーダ110に入力される。エンコーダ110は、入力された音声データを特徴空間SP内の特徴ベクトルVCに変換する。デコーダ120は、特徴ベクトルVCに基づいて楽曲MCzの音声データを生成する。
学習ステップでは、エンコーダ110およびデコーダ120、ならびに識別モデル200による敵対的学習が行われる。具体的には、識別モデル200は元の楽曲MCの音声データを本物、それ以外の音声データを偽物として識別するように学習され、エンコーダ110およびデコーダ120は特徴ベクトルVCから生成した楽曲MCzが識別モデル200によって本物として識別されるように学習される。他の実施形態では必ずしも識別モデルが用いられなくてもよく、例えば楽曲MCの音声データと楽曲MCzの音声データとを比較して、相似度が高くなるようにエンコーダ110およびデコーダ120が学習されてもよいし、識別モデルを用いた学習と相似度を用いた学習とを同時に行ってもよい。
上記のような学習ステップによって、図1において楽曲群MCsとして示された様々な楽曲について、生成された楽曲MCzの音声データが識別モデル200において元の楽曲MCの音声データと識別されなくなるように、エンコーダ110およびデコーダ120を学習する。この学習が収束したとき、エンコーダ110およびデコーダ120を用いて生成された楽曲MCzの音声データは、聴感的に元の楽曲MCと区別されないものになる。また、デコーダ120は、特徴空間SP内の任意の特徴ベクトルを、音楽的な音声データに変換することができるようになる。
図4は、本発明の第1の実施形態における楽曲生成ステップを概念的に示す図である。図示された例において、楽曲MC1,MC2の音声データは、学習時と同じ所定の長さの区間ごとにエンコーダ110に入力される。エンコーダ110は、入力されたそれぞれの音声データを特徴空間SP内の特徴ベクトルVC1,VC2に変換する。デコーダ120は、特徴ベクトルVC1および特徴ベクトルVC2を所定の比率で合成した特徴ベクトルVCxに基づいて、楽曲MCxの音声データを生成する。上述したように、学習ステップによってデコーダ120は特徴空間SP内の任意の特徴ベクトルを音楽的な音声データに変換することができるように学習されている。従って、楽曲生成ステップにおいてデコーダ120によって生成された楽曲MCxの音声データは、音楽的な音声データになる。
特徴ベクトルVCxは、特徴ベクトルVC1および特徴ベクトルVC2を、例えば楽曲MC1を楽曲MC2にクロスフェードさせるユーザー操作に応じて設定される比率で合成したものである。例えば特徴ベクトルVCxの合成を、比率rを用いてVCx=r*VC1+(1-r)*VC2と表した場合、比率rを1から0まで徐々に変化させることによって、特徴ベクトルVCxは特徴空間SP内で特徴ベクトルVC1と特徴ベクトルVC2との間を遷移する。上述したように、学習ステップによってエンコーダ110およびデコーダ120は生成する音声データが元の楽曲の音声データと聴感的に区別されないように学習されている。従って、上記の比率rが1であれば特徴ベクトルVCxに基づいて生成される音声データは楽曲MC1の音声データと聴感的に区別されず、比率rが0であれば特徴ベクトルVCxに基づいて生成される音声データは楽曲MC2の音声データと聴感的に区別されない。比率rを1から0まで徐々に変化させることによって、楽曲MCxの音声データを、聴感的に楽曲MC1と区別されない音声データから、聴感的に楽曲MC2と区別されない音声データへと、音楽的である状態を維持したまま徐々に変化させることができる。
なお、クロスフェードを行う場合、楽曲MC1,MC2はいずれも再生されているため、エンコーダ110に入力される音声データは所定の時間(上記と同様の限定的でない例として0.5秒)ごとに更新される。従って、特徴空間SP内の特徴ベクトルVC1,VC2も時間の経過とともに変化するが、同じ楽曲の連続した区間であれば特徴ベクトルの特徴空間SP内での位置の変化は比較的緩やかであるため、特徴ベクトルVC1および特徴ベクトルVC2を合成した特徴ベクトルVCxの特徴空間SP内での位置も急激に変化することはない。従って、クロスフェードの開始から終了までの間を通じて、楽曲MCxの音声データを音楽的である状態を維持したまま徐々に変化させることができる。
以上で説明したような本発明の第1の実施形態によれば、楽曲MC1から楽曲MC2へのクロスフェード中に、楽曲MC1,MC2の音声データを特徴量変換した特徴ベクトルVC1,VC2を合成した特徴ベクトルVCxに基づいて生成された楽曲MCxが再生される。楽曲MC1,MC2が同時に再生されないため、音数の増加や和音の衝突による聴感の悪化を避けることができる。楽曲MCxは、例えば映像におけるモーフィングのように、楽曲MC1と聴感的に区別されない楽曲から楽曲MC2と聴感的に区別されない楽曲へと連続的に変化し、また音楽的である状態に維持されるため、楽曲MC1から楽曲MC2へ自然な聴感でクロスフェードさせることができる。
(第2の実施形態)
図5は、本発明の第2の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲MCの音声データは所定の長さの区間ごとに、かつピッチシフト130の処理後に2つのエンコーダ140A,140Bにそれぞれ入力される。ここで、ピッチシフト130は、ランダムな半音数分、楽曲MCの音高を上昇または下降させる処理である。ピッチシフトされた楽曲MCの音声データを、エンコーダ140Aは特徴空間SP内の特徴ベクトルVCに変換し、エンコーダ140Bは特徴空間SP内の特徴ベクトルVCに変換する。デコーダ150は、特徴ベクトルVCに特徴ベクトル回転160を加えたベクトル、および特徴ベクトルVCに基づいて楽曲MCzの音声データを生成する。特徴ベクトル回転160は、ピッチシフト130とは逆のベクトル回転であり、ピッチシフト130と同じ量で逆向きの音高変化を生じさせる。ここで、学習開始時において特徴ベクトル回転160は必ずしも音高変化を生じさせるものではないが、エンコーダ140Aとともに特徴ベクトル回転を学習することによって、学習収束時には、特徴ベクトル回転160の回転量に応じて出力音声に音高変化が生じるように学習されている。
本実施形態でも、学習ステップでは第1の実施形態と同様に、エンコーダ140A,140Bおよびデコーダ150、ならびに識別モデル200による敵対的学習が行われる。具体的には、識別モデル200はピッチシフト130による処理前の元の楽曲MCを本物、それ以外の音声データを偽物として識別するように学習され、エンコーダ140A,140Bおよびデコーダ150は特徴ベクトルVC,VCから生成した楽曲MCzが識別モデル200によって本物として識別されるように学習される。
上記のような学習ステップによって、図1において楽曲群MCsとして示された様々な楽曲について、生成された楽曲MCzの音声データが識別モデル200において元の楽曲MCの音声データと識別されなくなるように、エンコーダ140A,140Bおよびデコーダ150を学習する。この学習が収束したとき、エンコーダ140A,140Bおよびデコーダ150を用いて生成された楽曲MCzの音声データは、聴感的に元の楽曲MCと区別されないものになる。また、デコーダ150は、特徴空間SP,SP内の任意の特徴ベクトルを、音楽的な音声データに変換することができるようになる。
ここで、特徴ベクトルVCがピッチシフト130とは逆の特徴ベクトル回転160による処理後にデコーダ150に入力されるのに対して、特徴ベクトルVCにはそのような処理がされず、ピッチシフト130による音高変化が反映されている。従って、特徴ベクトルVCに基づいて生成された楽曲MCzの音声データが識別モデル200において元の楽曲MCの音声データと区別されなくなるように学習した場合、エンコーダ140Bは、特徴ベクトルVCとして楽曲MCの特徴量のうちピッチシフトに影響されにくい量、すなわちリズム感を表す特徴量を抽出するように学習される。一方、エンコーダ140Aは、上記のようにエンコーダ140Bが学習されることによって、特徴ベクトルVCとして楽曲MCの特徴量のうちピッチシフトに影響される量、すなわちピッチ感を表す特徴量を抽出するように学習される。
図6は、本発明の第2の実施形態における楽曲生成ステップを概念的に示す図である。図示された例において、楽曲MC1,MC2の音声データは、それぞれ学習時と同じ長さの区間ごとにエンコーダ140A,140Bに入力される。エンコーダ140Aは入力されたそれぞれの音声データを特徴空間SP内の特徴ベクトルVC1,VC2に変換し、エンコーダ140Bは入力されたそれぞれの音声データを特徴空間SP内の特徴ベクトルVC1,VC2に変換する。デコーダ150は、合成部170Aが特徴空間SP内の特徴ベクトルVC1,VC2を所定の比率で合成した特徴ベクトルVCx、および合成部170Bが特徴空間SP内の特徴ベクトルVC1,VC2を所定の比率で合成した特徴ベクトルVCxに基づいて、楽曲MCxの音声データを生成する。
本実施形態では、デコーダ150が楽曲の生成に用いる特徴ベクトルVCx,VCxのそれぞれについて、楽曲MC1の特徴ベクトルVC1,VC1および楽曲MC2の特徴ベクトルVC2,VC2の合成比率を互いに独立して設定することができる。例えば特徴ベクトルVCx,VCxの合成を、比率r,rを用いて式(1),(2)のように表した場合、比率r,rについて0から1までの間で任意の値を設定することができる。上述のように、エンコーダ140Aは楽曲のピッチ感を表す特徴量を抽出するように学習され、エンコーダ140Bは楽曲のリズム感を表す特徴量を抽出するように学習されるため、比率r,rの設定によって楽曲MCxにおけるピッチ感およびリズム感における元の楽曲MC1,MC2からの影響を個別に設定することができる。
VCx=r*VC1+(1-r)*VC2 ・・・(1)
VCx=r*VC1+(1-r)*VC2 ・・・(2)
図7は、図6の構成における具体的な実施例を示す図である。図示された例では、合成部170A側で比率r=1、合成部170B側で比率r=0が設定されている。この場合、デコーダ150に入力される特徴ベクトルVCxは楽曲MC1の特徴ベクトルVC1に等しく、特徴ベクトルVCxは楽曲MC2の特徴ベクトルVC2に等しい。この場合、デコーダ150は、ピッチ感については楽曲MC1の特徴を、リズム感については楽曲MC2の特徴をそれぞれ反映した楽曲MCxの音声データを生成する。比率r,rは、例えば上記の例のように所定の値でクロスフェードの間固定されていてもよいし、クロスフェードのユーザー操作に応じて変化してもよい。
以上で説明したような本発明の第2の実施形態によれば、上記の第1の実施形態と同様に楽曲MCxを再生することによって楽曲MC1から楽曲MC2へ自然な聴感でクロスフェードさせることができるのに加えて、楽曲MCxの音楽的な要素であるピッチ感およびリズム感を、楽曲MC1および楽曲MC2のどちらに近くするかを制御できるため、聴感的によりユーザーの意図に近い楽曲を再生することができる。
なお、上記の実施形態では学習されたエンコーダおよびデコーダを用いた楽曲生成装置について説明したが、他の実施形態として、同じように学習されたエンコーダおよびデコーダのうちエンコーダだけを用いて、特徴空間SP内の特徴ベクトルVC1,VC2の間の距離から楽曲MC1,MC2の類似度を判定する楽曲類似度判定装置の実施形態も可能である。この場合も、例えば特徴ベクトルVC1,VC2が特徴空間SP内で近くに位置し、類似度が高いと判定された楽曲MC1,MC2をクロスフェードさせることで、楽曲を自然な聴感でクロスフェードさせることができる。
10…システム、12…DJコントローラ、13…スピーカ、14…サーバ、100…エンコーダ/デコーダ、110…エンコーダ、120…デコーダ、130…ピッチシフト、140A…エンコーダ、140B…エンコーダ、150…デコーダ、160…特徴ベクトル回転、170A…合成部、170B…合成部、200…識別モデル。

Claims (7)

  1. 第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルと、第2の特徴空間内の第3および第4の特徴ベクトルとに変換するエンコーダと、
    前記第1および第2の特徴ベクトルを第1の比率で合成した第の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成するデコーダと
    を備える楽曲生成装置。
  2. 前記第1の比率と前記第2の比率とは、互いに独立して設定される、請求項に記載の楽曲生成装置。
  3. 前記エンコーダおよび前記デコーダは、楽曲の音声データをピッチシフトさせてから前記エンコーダによって前記第1の特徴空間内の特徴ベクトルおよび前記第2の特徴空間内の特徴ベクトルに変換し、前記デコーダによって前記第1の特徴空間内の特徴ベクトルに前記ピッチシフトとは逆のベクトル回転を加えたベクトル、および前記第2の特徴空間内の特徴ベクトルに基づいて音声データを生成し、前記楽曲の音声データと前記生成された音声データとを識別するように識別モデルを学習したときに、前記生成された音声データが前記識別モデルによって前記楽曲の音声データと識別されなくなるように学習されている、請求項または請求項に記載の楽曲生成装置。
  4. 前記第1の比率は、ユーザー操作に従って設定される、請求項1または請求項2に記載の楽曲生成装置。
  5. 前記ユーザー操作は、前記第1の楽曲を前記第2の楽曲にクロスフェードさせる操作を含む、請求項に記載の楽曲生成装置。
  6. コンピュータによって実施される楽曲生成方法であって、
    楽曲の音声データを第1の特徴空間内の特徴ベクトルと第2の特徴空間内の特徴ベクトルとに変換するエンコーダ、前記第1の特徴空間内の特徴ベクトルと前記第2の特徴空間内の特徴ベクトルとに基づいて音声データを生成するデコーダとを、前記楽曲の音声データと前記生成された音声データとを識別するように学習される識別モデルによって、前記生成された音声データが前記楽曲の音声データと識別されなくなるように学習する学習ステップと、
    前記エンコーダを用いて第1および第2の楽曲の音声データを前記第1の特徴空間内の第1および第2の特徴ベクトルと、前記第2の特徴空間内の第3および第4ベクトルとに変換し、前記デコーダを用いて前記第1および第2の特徴ベクトルを第1の比率で合成した第の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成する楽曲生成ステップと
    を含む楽曲生成方法。
  7. 第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルと、第2の特徴空間内の第3および第4の特徴ベクトルとに変換するエンコーダと、
    前記第1および第2の特徴ベクトルを第1の比率で合成した第の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成するデコーダと
    としてコンピュータを機能させるためのプログラム。
JP2024551011A 2022-10-14 2022-10-14 楽曲生成装置、楽曲生成方法およびプログラム Active JP7842237B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038294 WO2024079865A1 (ja) 2022-10-14 2022-10-14 楽曲生成装置、楽曲類似度判定装置、楽曲生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2024079865A1 JPWO2024079865A1 (ja) 2024-04-18
JP7842237B2 true JP7842237B2 (ja) 2026-04-07

Family

ID=90669018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024551011A Active JP7842237B2 (ja) 2022-10-14 2022-10-14 楽曲生成装置、楽曲生成方法およびプログラム

Country Status (2)

Country Link
JP (1) JP7842237B2 (ja)
WO (1) WO2024079865A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121640966A (zh) * 2024-09-06 2026-03-10 北京字跳网络技术有限公司 用于音乐生成的方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080239A1 (ja) 2018-10-19 2020-04-23 ソニー株式会社 情報処理方法、情報処理装置及び情報処理プログラム
JP2022022294A (ja) 2020-07-22 2022-02-03 株式会社Tmik 音楽処理システム、音楽処理プログラム、及び音楽処理方法
JP2022065554A (ja) 2020-10-15 2022-04-27 ヤマハ株式会社 音声合成方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080239A1 (ja) 2018-10-19 2020-04-23 ソニー株式会社 情報処理方法、情報処理装置及び情報処理プログラム
JP2022022294A (ja) 2020-07-22 2022-02-03 株式会社Tmik 音楽処理システム、音楽処理プログラム、及び音楽処理方法
JP2022065554A (ja) 2020-10-15 2022-04-27 ヤマハ株式会社 音声合成方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROBERTS, Adam et al.,A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music,[online],2018年06月06日,[取得日 2022.11.28], 取得先<https://arxiv.org/pdf/1803.05428v2.pdf>
平井 辰典,メロディを対象とした生成Deep Learningモデルの比較,情報処理学会研究報告,2021年03月,Vol.2021-MUS-130, No.15,p.1-12,ISSN 2188-8914

Also Published As

Publication number Publication date
JPWO2024079865A1 (ja) 2024-04-18
WO2024079865A1 (ja) 2024-04-18

Similar Documents

Publication Publication Date Title
US12106011B2 (en) Method and device for audio crossfades using decomposed signals
WO2021175458A1 (en) Playback transition from first to second audio track with transition functions of decomposed signals
US20230120140A1 (en) Ai based remixing of music: timbre transformation and matching of mixed audio data
CN1379898A (zh) 基于一个数字音乐文件演奏乐器的方法和装置
WO2020235506A1 (ja) 電子楽器、電子楽器の制御方法、記憶媒体
JP7842237B2 (ja) 楽曲生成装置、楽曲生成方法およびプログラム
CN101000761B (zh) 音调合成设备和方法
EP3373289B1 (en) Electronic musical instrument, musical sound generating method, and storage medium
CN1107305C (zh) 音响重放装置
JP2004240077A (ja) 楽音制御装置、映像制御装置及びプログラム
US20040237758A1 (en) System and methods for changing a musical performance
US6797873B2 (en) Music data performance system and method, and storage medium storing program realizing such method
JP6569479B2 (ja) 音楽機器及びプログラム
JP2007011217A (ja) 楽音合成装置及びプログラム
CN118609528B (zh) 基于智能吉他的拍击音色生成方法、装置、设备及介质
CN1770258B (zh) 表演风格确定设备和方法
WO2009038539A1 (en) Apparatus and method for transforming an input sound signal
JP4270102B2 (ja) 自動演奏装置及びプログラム
JP3760714B2 (ja) 楽音制御パラメータ生成方法、楽音制御パラメータ生成装置および記録媒体
US6314403B1 (en) Apparatus and method for generating a special effect on a digital signal
WO2022249402A1 (ja) 音響機器、楽曲の再生方法およびプログラム
JP4168391B2 (ja) カラオケ装置、音声処理方法及びプログラム
JP4238807B2 (ja) 音源用波形データの決定装置
JP5176339B2 (ja) 電子楽器及び演奏処理プログラム
WO2024219207A1 (ja) 情報処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20251028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20251219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260326

R150 Certificate of patent or registration of utility model

Ref document number: 7842237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150