JP7842237B2 - 楽曲生成装置、楽曲生成方法およびプログラム - Google Patents
楽曲生成装置、楽曲生成方法およびプログラムInfo
- Publication number
- JP7842237B2 JP7842237B2 JP2024551011A JP2024551011A JP7842237B2 JP 7842237 B2 JP7842237 B2 JP 7842237B2 JP 2024551011 A JP2024551011 A JP 2024551011A JP 2024551011 A JP2024551011 A JP 2024551011A JP 7842237 B2 JP7842237 B2 JP 7842237B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- feature
- music
- encoder
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
Description
[2]上記第1および第2の特徴ベクトルは、ユーザー操作に従って設定される比率で合成される、[1]に記載の楽曲生成装置。
[3]上記ユーザー操作は、上記第1の楽曲を上記第2の楽曲にクロスフェードさせる操作を含む、[2]に記載の楽曲生成装置。
[4]上記エンコーダおよび上記デコーダは、楽曲の音声データを上記エンコーダによって上記第1の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、[1]から[3]のいずれか1項に記載の楽曲生成装置。
[5]上記エンコーダは、上記第1および第2の楽曲の音声データを上記第1の特徴空間内の上記第1および第2の特徴ベクトル、および第2の特徴空間内の第4および第5の特徴ベクトルに変換し、上記デコーダは、上記第1および第2の特徴ベクトルを第1の比率で合成した上記第3の特徴ベクトル、および上記第4および第5の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルに基づいて音声データを生成する、[1]に記載の楽曲生成装置。
[6]上記第1の比率と上記第2の比率とは、互いに独立して設定される、[5]に記載の楽曲生成装置。
[7]上記エンコーダおよび上記デコーダは、楽曲の音声データをピッチシフトさせてから上記エンコーダによって上記第1の特徴空間内の特徴ベクトルおよび上記第2の特徴空間内の特徴ベクトルに変換し、上記デコーダによって上記第1の特徴空間内の特徴ベクトルに上記ピッチシフトとは逆のベクトル回転を加えたベクトル、および上記第2の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、[5]または[6]に記載の楽曲生成装置。
[8]第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルに変換するエンコーダを備え、上記第1および第2の特徴ベクトルの間の距離から上記第1および第2の楽曲の類似度を判定し、上記エンコーダは、楽曲の音声データを上記エンコーダによって上記第1の特徴空間内の特徴ベクトルに変換し、デコーダによって上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成し、上記楽曲の音声データと上記生成された音声データとを識別するように識別モデルを学習したときに、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習されている、楽曲類似度判定装置。
[9]楽曲の音声データを第1の特徴空間内の特徴ベクトルに変換するエンコーダ、上記第1の特徴空間内の特徴ベクトルに基づいて音声データを生成するデコーダ、および上記楽曲の音声データと上記生成された音声データとを識別するように学習される識別モデルを備え、上記エンコーダおよび上記デコーダを、上記生成された音声データが上記識別モデルによって上記楽曲の音声データと識別されなくなるように学習する学習ステップと、上記エンコーダを用いて第1および第2の楽曲の音声データを上記第1の特徴空間内の第1および第2の特徴ベクトルに変換し、上記デコーダを用いて上記第1および第2の特徴ベクトルを合成した第3の特徴ベクトルに基づいて音声データを生成する楽曲生成ステップとを含む楽曲生成方法。
[10]第1および第2の楽曲の音声データを第1の特徴空間内の第1および第2の特徴ベクトルに変換するエンコーダと、上記第1および第2の特徴ベクトルを合成した第3の特徴ベクトルに基づいて音声データを生成するデコーダと、としてコンピュータを機能させるためのプログラム。
図3は、本発明の第1の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲MCの音声データは所定の長さ(限定的でない例として0.5秒)の区間ごとにエンコーダ110に入力される。エンコーダ110は、入力された音声データを特徴空間SP内の特徴ベクトルVCに変換する。デコーダ120は、特徴ベクトルVCに基づいて楽曲MCzの音声データを生成する。
図5は、本発明の第2の実施形態における学習ステップを概念的に示す図である。図示された例において、楽曲MCの音声データは所定の長さの区間ごとに、かつピッチシフト130の処理後に2つのエンコーダ140A,140Bにそれぞれ入力される。ここで、ピッチシフト130は、ランダムな半音数分、楽曲MCの音高を上昇または下降させる処理である。ピッチシフトされた楽曲MCの音声データを、エンコーダ140Aは特徴空間SPA内の特徴ベクトルVCAに変換し、エンコーダ140Bは特徴空間SPB内の特徴ベクトルVCBに変換する。デコーダ150は、特徴ベクトルVCAに特徴ベクトル回転160を加えたベクトル、および特徴ベクトルVCBに基づいて楽曲MCzの音声データを生成する。特徴ベクトル回転160は、ピッチシフト130とは逆のベクトル回転であり、ピッチシフト130と同じ量で逆向きの音高変化を生じさせる。ここで、学習開始時において特徴ベクトル回転160は必ずしも音高変化を生じさせるものではないが、エンコーダ140Aとともに特徴ベクトル回転を学習することによって、学習収束時には、特徴ベクトル回転160の回転量に応じて出力音声に音高変化が生じるように学習されている。
VCxB=rB*VC1B+(1-rB)*VC2B ・・・(2)
Claims (7)
- 第1および第2の楽曲の音声データを、第1の特徴空間内の第1および第2の特徴ベクトルと、第2の特徴空間内の第3および第4の特徴ベクトルとに変換するエンコーダと、
前記第1および第2の特徴ベクトルを第1の比率で合成した第5の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成するデコーダと
を備える楽曲生成装置。 - 前記第1の比率と前記第2の比率とは、互いに独立して設定される、請求項1に記載の楽曲生成装置。
- 前記エンコーダおよび前記デコーダは、楽曲の音声データをピッチシフトさせてから前記エンコーダによって前記第1の特徴空間内の特徴ベクトルおよび前記第2の特徴空間内の特徴ベクトルに変換し、前記デコーダによって前記第1の特徴空間内の特徴ベクトルに前記ピッチシフトとは逆のベクトル回転を加えたベクトル、および前記第2の特徴空間内の特徴ベクトルに基づいて音声データを生成し、前記楽曲の音声データと前記生成された音声データとを識別するように識別モデルを学習したときに、前記生成された音声データが前記識別モデルによって前記楽曲の音声データと識別されなくなるように学習されている、請求項1または請求項2に記載の楽曲生成装置。
- 前記第1の比率は、ユーザー操作に従って設定される、請求項1または請求項2に記載の楽曲生成装置。
- 前記ユーザー操作は、前記第1の楽曲を前記第2の楽曲にクロスフェードさせる操作を含む、請求項4に記載の楽曲生成装置。
- コンピュータによって実施される楽曲生成方法であって、
楽曲の音声データを第1の特徴空間内の特徴ベクトルと第2の特徴空間内の特徴ベクトルとに変換するエンコーダと、前記第1の特徴空間内の特徴ベクトルと前記第2の特徴空間内の特徴ベクトルとに基づいて音声データを生成するデコーダとを、前記楽曲の音声データと前記生成された音声データとを識別するように学習される識別モデルによって、前記生成された音声データが前記楽曲の音声データと識別されなくなるように学習する学習ステップと、
前記エンコーダを用いて第1および第2の楽曲の音声データを、前記第1の特徴空間内の第1および第2の特徴ベクトルと、前記第2の特徴空間内の第3および第4ベクトルとに変換し、前記デコーダを用いて前記第1および第2の特徴ベクトルを第1の比率で合成した第5の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成する楽曲生成ステップと
を含む楽曲生成方法。 - 第1および第2の楽曲の音声データを、第1の特徴空間内の第1および第2の特徴ベクトルと、第2の特徴空間内の第3および第4の特徴ベクトルとに変換するエンコーダと、
前記第1および第2の特徴ベクトルを第1の比率で合成した第5の特徴ベクトルと、前記第3および第4の特徴ベクトルを第2の比率で合成した第6の特徴ベクトルとに基づいて音声データを生成するデコーダと
としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/038294 WO2024079865A1 (ja) | 2022-10-14 | 2022-10-14 | 楽曲生成装置、楽曲類似度判定装置、楽曲生成方法およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2024079865A1 JPWO2024079865A1 (ja) | 2024-04-18 |
| JP7842237B2 true JP7842237B2 (ja) | 2026-04-07 |
Family
ID=90669018
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024551011A Active JP7842237B2 (ja) | 2022-10-14 | 2022-10-14 | 楽曲生成装置、楽曲生成方法およびプログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7842237B2 (ja) |
| WO (1) | WO2024079865A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121640966A (zh) * | 2024-09-06 | 2026-03-10 | 北京字跳网络技术有限公司 | 用于音乐生成的方法、装置、设备和存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020080239A1 (ja) | 2018-10-19 | 2020-04-23 | ソニー株式会社 | 情報処理方法、情報処理装置及び情報処理プログラム |
| JP2022022294A (ja) | 2020-07-22 | 2022-02-03 | 株式会社Tmik | 音楽処理システム、音楽処理プログラム、及び音楽処理方法 |
| JP2022065554A (ja) | 2020-10-15 | 2022-04-27 | ヤマハ株式会社 | 音声合成方法およびプログラム |
-
2022
- 2022-10-14 JP JP2024551011A patent/JP7842237B2/ja active Active
- 2022-10-14 WO PCT/JP2022/038294 patent/WO2024079865A1/ja not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020080239A1 (ja) | 2018-10-19 | 2020-04-23 | ソニー株式会社 | 情報処理方法、情報処理装置及び情報処理プログラム |
| JP2022022294A (ja) | 2020-07-22 | 2022-02-03 | 株式会社Tmik | 音楽処理システム、音楽処理プログラム、及び音楽処理方法 |
| JP2022065554A (ja) | 2020-10-15 | 2022-04-27 | ヤマハ株式会社 | 音声合成方法およびプログラム |
Non-Patent Citations (2)
| Title |
|---|
| ROBERTS, Adam et al.,A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music,[online],2018年06月06日,[取得日 2022.11.28], 取得先<https://arxiv.org/pdf/1803.05428v2.pdf> |
| 平井 辰典,メロディを対象とした生成Deep Learningモデルの比較,情報処理学会研究報告,2021年03月,Vol.2021-MUS-130, No.15,p.1-12,ISSN 2188-8914 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2024079865A1 (ja) | 2024-04-18 |
| WO2024079865A1 (ja) | 2024-04-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12106011B2 (en) | Method and device for audio crossfades using decomposed signals | |
| WO2021175458A1 (en) | Playback transition from first to second audio track with transition functions of decomposed signals | |
| US20230120140A1 (en) | Ai based remixing of music: timbre transformation and matching of mixed audio data | |
| CN1379898A (zh) | 基于一个数字音乐文件演奏乐器的方法和装置 | |
| WO2020235506A1 (ja) | 電子楽器、電子楽器の制御方法、記憶媒体 | |
| JP7842237B2 (ja) | 楽曲生成装置、楽曲生成方法およびプログラム | |
| CN101000761B (zh) | 音调合成设备和方法 | |
| EP3373289B1 (en) | Electronic musical instrument, musical sound generating method, and storage medium | |
| CN1107305C (zh) | 音响重放装置 | |
| JP2004240077A (ja) | 楽音制御装置、映像制御装置及びプログラム | |
| US20040237758A1 (en) | System and methods for changing a musical performance | |
| US6797873B2 (en) | Music data performance system and method, and storage medium storing program realizing such method | |
| JP6569479B2 (ja) | 音楽機器及びプログラム | |
| JP2007011217A (ja) | 楽音合成装置及びプログラム | |
| CN118609528B (zh) | 基于智能吉他的拍击音色生成方法、装置、设备及介质 | |
| CN1770258B (zh) | 表演风格确定设备和方法 | |
| WO2009038539A1 (en) | Apparatus and method for transforming an input sound signal | |
| JP4270102B2 (ja) | 自動演奏装置及びプログラム | |
| JP3760714B2 (ja) | 楽音制御パラメータ生成方法、楽音制御パラメータ生成装置および記録媒体 | |
| US6314403B1 (en) | Apparatus and method for generating a special effect on a digital signal | |
| WO2022249402A1 (ja) | 音響機器、楽曲の再生方法およびプログラム | |
| JP4168391B2 (ja) | カラオケ装置、音声処理方法及びプログラム | |
| JP4238807B2 (ja) | 音源用波形データの決定装置 | |
| JP5176339B2 (ja) | 電子楽器及び演奏処理プログラム | |
| WO2024219207A1 (ja) | 情報処理装置および方法、並びにプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250219 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20251028 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20251219 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260310 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260326 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7842237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |