JP7041270B2 - モジュラー自動音楽制作サーバー - Google Patents

モジュラー自動音楽制作サーバー Download PDF

Info

Publication number
JP7041270B2
JP7041270B2 JP2020535105A JP2020535105A JP7041270B2 JP 7041270 B2 JP7041270 B2 JP 7041270B2 JP 2020535105 A JP2020535105 A JP 2020535105A JP 2020535105 A JP2020535105 A JP 2020535105A JP 7041270 B2 JP7041270 B2 JP 7041270B2
Authority
JP
Japan
Prior art keywords
music
request
job
audio
production
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020535105A
Other languages
English (en)
Other versions
JP2021507309A (ja
Inventor
ピエール・チャンクィ
ジョナサン・クーパー
イーモン・ハイランド
エドモンド・ニュートン-レックス
ジェイソン・ストーリー
デビッド・トレベリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ByteDance Inc
Original Assignee
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1721215.0A external-priority patent/GB201721215D0/en
Priority claimed from GBGB1721216.8A external-priority patent/GB201721216D0/en
Priority claimed from GBGB1721212.7A external-priority patent/GB201721212D0/en
Priority claimed from GBGB1802182.4A external-priority patent/GB201802182D0/en
Application filed by ByteDance Inc filed Critical ByteDance Inc
Publication of JP2021507309A publication Critical patent/JP2021507309A/ja
Application granted granted Critical
Publication of JP7041270B2 publication Critical patent/JP7041270B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/145Composing rules, e.g. harmonic or musical rules, for use in automatic composition; Rule generation algorithms therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/056MIDI or other note-oriented file format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/145Sound library, i.e. involving the specific use of a musical database as a sound bank or wavetable; indexing, interfacing, protocols or processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing

Description

本開示は、自動音楽制作に関する。
人工知能(AI)に基づく自動音楽制作は、大きな可能性を秘めた新興技術である。限られた数の入力パラメーターに基づいてオリジナルの音楽を合成するように、AIシステム(例えば、ニューラルネットワークなど)のトレーニングに関する研究が行われている。これはエキサイティングな研究分野であるが、今まで開発された多くの方法には、音楽出力の品質と柔軟性に問題があるため、これらの方法の実際の環境での有用性が制限されている。
本開示の1つの目的は、システムとの柔軟かつ複雑なインタラクションを可能にする改善されたインターフェースを備えた自動音楽制作システムを提供することである。これにより、ミュージシャンやプロデューサーなどの個人的なニーズや好みに合うようなシステムを作成ツールとして使用できる、エキサイティングな新しいユースケースが開かれる。
本発明の第1の態様は、音楽制作システムを提供し、1つの音楽に対する外部リクエストを受信するための少なくとも1つの入力と、第1の音楽データが含まれる1つの音楽を含むか又は指示する、前記外部リクエストに対する応答を送信するための少なくとも1つの出力とを含むコンピュータインターフェースと、少なくとも第1の入力設に従って第2の音楽データを処理して、第1の音楽データを生成するように配置される第1の音楽制作コンポーネントと、コンピュータインターフェースを介して内部リクエストを受信し、少なくとも内部リクエストによって指示される第2の入力設に基づいて第2の音楽データを提供するように配置される第2の音楽制作コンポーネントと、外部リクエストに応答して第1の入力設と第2の入力設を確定し、コンピュータインターフェースを介して内部リクエストを起動するコントローラーと、を含む。
実施の形態では、第2の音楽データは、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを含んでもよい。
第2の入力設は合成設であってもよく、第2の音楽制作コンポーネントは、合成設に従って少なくとも1つの音楽セグメントを生成するように配置される合成エンジンであってもよい。
コントローラーは、外部リクエストに応答して検索基準を確定し、検索基準にマッチングする少なくとも1つの音楽セグメントをライブラリで検索し、マッチングするセグメントが見つからない場合、内部リクエストを起動するように配置されてもよい。
第2の音楽制作コンポーネントは、第2の入力設に従ってライブラリから少なくとも1つの音楽セグメントを選択するように配置されてもよい。
第2の音楽制作コンポーネントは、第2の入力設にマッチングする音楽セグメントをライブラリで検索し、マッチングするセグメントが見つかった場合、見つかったマッチングするセグメントを第1の音楽制作コンポーネントに提供し、マッチングするセグメントが見つからない場合、音楽制作システムの合成エンジンに第2の入力設に従って音楽セグメントを生成させ、生成された音楽セグメントを第1の制作コンポーネントに提供するように配置されてもよい。
第1の音楽制作コンポーネントと第2の音楽制作コンポーネントの少なくとも1つは、ライブラリのための音楽セグメントを生成するように配置されてもよい。
第1の音楽制作コンポーネントは、第1の音楽データをオーディオデータとして生成するように配置されるオーディオエンジンであってもよい。
オーディオエンジンは、第1の入力設に従って少なくとも1つの音楽セグメントをレンダリングしてオーディオデータを生成するように配置されてもよい。
第1の音楽制作コンポーネントは、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントの形で第1の音楽データを生成するように配置されてもよい。
音楽制作システムは、外部リクエストをコントローラーに割り当て、内部リクエストを第2の音楽制作コンポーネントに割り当てるように配置されるリクエストマネージャーを含んでもよい。
リクエストマネージャーは、リクエストのタイプに基づいて各リクエストを割り当てるように配置されてもよい。
リクエストのタイプは、オーディオタイプと音楽記号タイプのいずれかであってもよい。
リクエストマネージャーは、外部リクエストを第1のキューに割り当てコントローラーに処理させ、内部リクエストを第2のキューに割り当て第2の音楽制作コンポーネントに処理させるように配置されてもよい。
第1の入力設又は第2の入力設は、スタイルパラメータ、拍子、トラック継続時間、音楽小節の数及び1つ以上の音楽パーツのうち少なくとも1つを含んでもよい。
内部リクエストに応答することによって、第2の音楽データをコントローラーで使用可能にする。
第2の音楽制作コンポーネントは、第2の音楽データを識別子と関連付けてデータベースに記憶するように配置されてもよく、その中、応答には識別子が含まれてもよく、これにより、第2の音楽データをコントローラーで使用可能にする。
音楽制作システムは、対応する識別子を外部リクエストと内部リクエストに指定するように配置されるリクエストマネージャーを含み、前記コントローラーは、前記第1の音楽データを前記外部リクエストに指定された前記識別子と関連付けて電子メモリに記憶し、前記第2の音楽データを前記内部リクエストに指定された前記識別子と関連付けて前記電子メモリに記憶するように配置されてもよい。
外部リクエストは、当該1つの音楽を編集するリクエストであってもよい。
外部リクエストは、編集対象の当該1つの音楽の識別子を含んでもよい。
第1の入力設と第2の入力設は、編集リクエストに従って、前記識別子と関連付けてデータベースに保存される一セットのトラック設を変更することによって確定される、一セットの変更されたトラック設に含まれてもよい。
外部リクエストは、編集対象のトラックを含むか又は識別する音楽データであってもよい。
本発明の第2の態様は音楽制作システムを提供し、リクエストを受信するための少なくとも1つの入力と、各リクエストに対する応答を出力するための少なくとも1つの出力とを含むコンピュータインターフェースと、各リクエストのタイプに基づいて各リクエストを複数のジョブキューの1つに割り当てるように配置されるリクエストマネージャーと、第1のジョブキューに割り当てられた第1のリクエストに応答して1つの音楽のためのオーディオデータを生成し、第1のリクエストに対する応答によって、オーディオデータを当該リクエストのソースで使用可能にするように配置されるオーディオエンジンと、第2のジョブキューに割り当てられた第2のリクエストに応答して、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを生成し、第2のリクエストに対する応答によって、当該少なくとも1つの音楽セグメントを当該リクエストのソースで使用可能にするように配置される合成エンジンと、を含む。
実施の形態では、リクエストマネージャーは、各リクエストに一意のジョブ識別子を指定するように配置されてもよい。
各リクエストに対する応答は、当該リクエストに指定されたジョブ識別子を含んでもよい。
オーディオエンジンは、オーディオデータが第1のリクエストに対する応答におけるジョブ識別子によって得られるように、オーディオデータを第1のリクエストに指定されたジョブ識別子と関連付けてデータベースに記憶するように配置されてもよい。
当該合成エンジンは、少なくとも1つの音楽セグメントが第2のリクエストに対する応答における前記ジョブ識別子によって得られるように、少なくとも1つの音楽セグメントを第2のリクエストに指定されたジョブ識別子と関連付けてデータベース又は別のデータベースに記憶するように配置されてもよい。
第1のリクエストは、外部リクエストであってもよい。
音楽制作システムは、第1のジョブキューに結合され、第1のジョブキューから第1のリクエストを受信し、第1のリクエストに応答してオーディオエンジンにオーディオデータを生成させるように配置されるコントローラーを含んでもよい。
第2のリクエストは、第1のリクエストに応答してコントローラーによって起動される内部リクエストであってもよい。
コントローラーは、第2のリクエストに対する応答を受信し、少なくとも1つの音楽セグメントを取得し、少なくとも1つの音楽セグメントをオーディオエンジンに提供して、少なくとも1つの音楽セグメントに基づくオーディオデータの生成を起動するように配置されてもよい。
第2のリクエストは、外部リクエストであってもよい。
第2のジョブキューは、外部の第2のリクエストが合成エンジンに直接ルーティングされるように、合成エンジンに結合されてもよい。
第1のリクエストと第2のリクエストの少なくとも1つは、当該1つの音楽を編集するリクエストであってもよい。
第1のリクエストは、当該1つの音楽を編集するリクエストであり、当該1つの音楽の識別子を含み、当該識別子と関連付けられてデータベースに保存されている少なくとも1つの既存の設と第1のリクエストに応答して確定された少なくとも1つの新しい設に基づいてオーディオデータを生成してもよい。
第2のリクエストは、識別子を含む編集リクエストであり、識別子と関連付けられてデータベースに保存されている少なくとも1つの既存の設と第2のリクエストに応答して確定された少なくとも1つの新しい設に基づいて少なくとも1つの音楽セグメントを生成してもよい。
第1のリクエストと第2のリクエストの少なくとも1つは、当該1つの音楽を編集するリクエストであり、編集対象の1つの音楽の音楽データを含むか識別してもよい。音楽制作システムは、音楽データをオーディオエンジンと合成エンジンの少なくとも1つに提供することによって当該1つの音楽の編集バージョンを作成するように配置されるコントローラーを含んでもよい。
リクエストにおける音楽データはデジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを含んでもよい。
オーディオエンジンと合成エンジンの少なくとも1つは複数のジョブキューに結合され、異なるタイプのリクエストを受信してもよい。
外部リクエストはいずれの入力設も定義しなくてもよく、システムは第1の入力設と第2の入力設を自動的に確定するように配置されてもよい。
本発明の第3の態様は、音楽制作システムで実行される方法を提供し、コンピュータインターフェースで1つの音楽に対する外部リクエストを受信することと、外部リクエストに応答して、少なくとも第1の入力設と第2の入力設を確定することと、コンピュータインターフェースを介して、第2の入力設を指示する内部リクエストを起動することと、第2の音楽制作コンポーネントでは、コンピュータインターフェースを介して内部リクエストを受信し、第2の入力設に基づいて第2の音楽データを提供することと、第1の音楽制作コンポーネントでは、第1の入力設に従って第2の音楽データを処理して、第1の音楽データを生成することと、第1の音楽データが含まれる音楽を含むか又は指示する、当該外部リクエストに対する応答を送信することと、を含む。
本発明の第4の態様は、音楽制作システムで実行される方法を提供し、コンピュータインターフェースで複数のリクエストを受信することと、各リクエストのタイプに基づいて各リクエストを複数のジョブキューの1つに割り当てることと、オーディオエンジンでは、第1のジョブキューに割り当てられた第1のリクエストに応答して、音楽のためのオーディオデータを生成することと、コンピュータインターフェースで第1のリクエストに対する応答を出力し、当該応答によって、オーディオデータを当該リクエストのソースに使用可能にすることと、合成エンジンでは、第2のジョブキューに割り当てられた第2のリクエストに応答して、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを生成することと、コンピュータインターフェースで第2のリクエストに対する応答を出力し、当該応答によって、少なくとも1つの音楽セグメントを当該リクエストのソースに使用可能にすることと、を含む。
本発明の第5の態様はコンピュータプログラムを提供し、非一時的なコンピュータ可読記憶メディアに記憶される実行可能な指令を含み、実行可能な指令は、音楽制作システムで実行される場合に、音楽制作システムにいずれかの方法のステップを実施させるように配置される。
本発明をよりよく理解し、本発明の実施形態をどのように実施できるかを示すために、以下の図面を参照する。
音楽制作システムの概略ブロック図を示す。 着信のジョブリクエストが音楽制作システムによってどのように処理されるかを示す。 スタックに配置されたコアシステムコンポーネントを有する音楽制作システムの高レベルの概要を示す。 合成エンジンの概略ブロック図を示す。 複数の音楽パーツの音楽セグメントを生成するための合成エンジンの例示的なアーキテクチャを示す。 ユーザーからのリクエストに応答してトラックを生成する方法のフローチャートを示す。 データベースを設するための可能な構成の概略図を示す。 トラック設を選択するための階層的選択メカニズムを示す。 音楽合成システムの一部の概略ブロック図を示す。 アプリケーションプログラミングインターフェースの概略ブロック図を示す。 音楽トラックを編集する方法を説明するフローチャートを示す。 AI音楽制作スタックを示す。
以下、AIを使用してオリジナル音楽を合成及び/又は制作することができるAI音楽制作システムについて説明する。
AI音楽制作システムは、以下で「Jukedeck」システムと呼ばれる。
伝統的に、合成音楽は人類の一意の領域である。AI技術が進歩を遂げたとしても、これらの技術を音楽合成に適用することは非常に困難であることが証明され、それは、音楽の複雑さと性質のためである。AIの1つの形式である機械学習は、現在、画像やサウンド認識などの分野でよく使用されている。しかしながら、AIの音楽への適用は成功がほとんどない。その原因は次の通りである。
1. 音楽は非常に複雑であり、音楽は多次元であり、調性と時間空間との両方で動作し、多くの場合、多くの異なる方法で同時にインタラクションする多くの音楽コンポーネントを持っている。AIシステムは、この複雑さを理解して解決できる必要がある。
2. 従来から、音楽制作(セグメントのアレンジ、ボリュームレベルの設定、適用効果など)は、ほとんど複雑な手動プロセスであり、完了するためには様々な高度なツールが必要である。現在の音楽が使用されている様々な環境で使用できる音楽を自動的に生成するためには、システムは楽譜を自動的に生成するだけでなく、この複雑な音楽制作プロセスも自動化する必要がある。
Jukedeckの技術紹介
Jukedeckシステムには、フルスタックのクラウドベースの音楽シンセサイザーが組み込まれており、従来のAIと音楽を関連付ける複雑さを解決する。当該技術は、高度な音楽理論に基づいて、ニューラルネットワークを斬新な方法で組み合わせて、ユニークでプロフェッショナルな品質の音楽をほんの数秒で合成及び制作する。エンドツーエンドのテクノロジースタックは、次のようにまとめることができる。(i)ジャンル及びその他の全体的な音楽属性を選択し、(ii)次に、これらの選択を組み合わせてレンズを形成し、当該レンズによって各音符と音符シーケンスを合成し(音楽合成)、(iii)次に、これらの合成された音符を完全なオーディオトラックに制作する(音楽制作)。以下は、合成からユーザーインターフェース/APIに制作するまでのスタックの概要である。
エンドツーエンドのテクノロジースタック
図12は、AI音楽制作システムの概略機能ブロック図であり、当該AI音楽制作システムは、自動合成エンジン2、自動制作エンジン3及びアプリケーションプログラミングインターフェース(API)形態のアクセスコンポーネント14を含む。
自動音楽合成エンジン
自動音楽合成エンジン2は、音楽を生成する第1ステップを実行する。伝統的に、AIに基づくシンセサイザーは、ハードコーディングされたルールベースのシステム(一般的に互いによく似たトラックを作る)又は基本的な機械学習システムのいずれかであり、これらのシステムは、複雑さを欠けるため、あらゆる環境でユーザーに役立つ多面的で心地よい音楽を生成することができない。
対照的に、合成エンジン2は、新規のニューラルネットワーク構成を使用して、その機械学習システムが複雑で適切に構造化された高品質の音楽出力を生成できるようにする。また、これによりシステムは次のことを実行できる。
音楽パーツが連携して機能する能力を最大化する─新しい技術により、システムは音楽的に説得力のある方法で相互に作用する音楽パーツを生成できるようになり、生成された音楽の全体的な品質を大幅に向上させる。
音楽選択の韻律的文脈をよりよく理解する─他のAIシステムは、合成の選択を行う際に必要な韻律のコンテキストを理解するために必要な長期な記憶を持つことは困難である。しかしながら、この技術はこの問題を解決し、各合成選択に韻律のコンテキスト要素が組み込まれることを確保し、生成された音楽の品質を向上させる。
大幅に変化する出力を生成する─ハードコーディングルールの代わりに機械学習技術を利用することによって、合成エンジン2は、トレーニングされたデータセットの特性をより適切に反映する音楽出力を提供する。これは、出力をより多様に変更できることを意味し、ハードコーディングルールが本質的に出力の可能性の範囲を制限するためである。
自動音楽制作エンジン
自動音楽合成エンジン2は(MIDI又は他のデジタル音楽記号の形)、音楽を合成することを担当し、自動音楽制作エンジン3は、音楽制作技術を当該合成された音楽に適用して、スタジオ品質のトラックを作成することを担当する。制作エンジン3は、自動音楽合成エンジン2の出力を、完全にアレンジされ制作された曲として自動的に組み立てて、それをオーディオファイルに出力する。制作エンジン3は、各音楽パーツに使用する楽器とサウンドを選択し、複雑なクラウドベースのオーディオエンジン(図1の符号12で示される。以下を参照)でオーディオを自動的にレンダリング、混合、制御する。これにより、ユーザーの希望する音楽設(例えばジャンル、ムード、継続時間など)に従って曲を自動的に生成及び制作することができ、そのため、ユーザーは音楽のコンセプトや音楽制作技術の事前知識がなくても、新しい曲を作成することができる。
自動音楽制作エンジン3には、次のようないくつかの重要な区別的特徴がある。
高性能のクラウドベースのオーディオエンジン─ほとんどのオーディオエンジンは、ローカルマシンで実行され、ユーザーインターフェースを介して制御されオーディオを操作するように設計される。対照的に、Jukedeckシステムのオーディオエンジン12はクラウドで実行され、ユーザー入力なしで、オーディオを自動的に制作するように設計される。これは、Jukedeckシステムは様々なアプリケーションやユーザーが利用でき、専門的な音楽知識を必要とせず、拡張性が高いことを意味する。
音楽内の特定のポイントで何が発生するかに影響を与える能力─ビデオ作成者は、ほとんどの場合、ビデオの作成が完了した後に音楽を提供する。多くの場合、ビデオには、作成者が音楽を使用して強調したい特定のポイントがある。例えば、これらのポイントでのアクションは多かれ少なかれ強烈であり、音楽がマッチングする場合、ビデオはより効果的である。ビデオに音楽を提供する既存の方法では、通常、ユーザーは音楽で特定のイベントが発生すべき特定のポイントを設置できない。対照的に、本開示は、「同期ポイント」及び「強度」という特徴を提供し、さらに、ビデオ作成者に、それらのビデオサウンドトラックをより効率的にし、編集時間を短縮する機能を提供する。
同期ポイント─Jukedeckシステムでは、ユーザーは、トラック内の同期ポイントを最も近いミリ秒に設置できる。つまり、Jukedeckシステムでは、特定の音楽イベント(例えば、セグメント変更)をトラック内の特定の時点に配置することができる。当該特徴により、音楽と別のメディアと同期させる(例えば、付随するビデオで発生するあるイベントと同期させる)ことができる。Jukedeckシステムは、オーディオトラック内の複数の異なる時点に複数の同期ポイントを設置することができる。
強度─Jukedeckシステムでは、ユーザーは、音楽の強度をトラックでどのように変更させるかを指定することができる。定義された強度曲線は、サウンドの複数の属性にマッピングされ、さらに、生成された音楽を付随するメディアに合わせて自動的に整形することを可能にし、これにより、段階的にクライマックスまで蓄積した音楽構造を特定の時点で発生させることができる。
これは、ユーザーが次の入力を使用して音楽を作成できる単純な状況ではなく、当該入力は、事前にレンダリングされたオーディオステム(stem)を使用するセグメント内の特定のポイントでのサウンドに影響し、一方、Jukedeckのエンジンは、ユーザーの入力に応答してオリジナルのオーディオをリアルタイムで生成する。オーディオをリアルタイムでレンダリングすることによって、プロセス全体では音楽の変更をより詳細に制御することができる。ステムベースのシステムは、効果を、曲の作成に使用されるオーディオに適用するしかできないが、Jukedeckシステムは、任意の効果を体験する前に、再生中の音符を直接変更したり、各音楽シーケンスに使用されるサウンドを変更したりすることができる。これにより、システムは、所望の同期ポイント又は強度の変更に応答するときによりリアルに聞こえることを可能にする。例えば、水中に潜っている人のスローモーションビデオでは、同期ポイント又は強度ピークは、クライマックスに蓄積された音楽効果を作成するために、彼又は彼女が水に当たるポイントと一致するように選択することができる。
以前に生成されたオーディオトラックを編集する能力─編集機能により、以前に生成されたオーディオトラックを編集でき、また、新しい高レベルの設(例えば変更された継続時間)に準拠するようにリクエストすることで新しいバージョンを作成することができる。これは、ユーザーが、オリジナルの曲と似るように聞こえ、必要な編集を組み込んだ以前に制作された曲の改訂バージョンを自動的に生成することができることを意味する。これにより、ユーザーは、このタスクに従来必要であった専門的な編集スキルを必要とせずに、例えば任意の曲の継続時間をすばやく効率的に変更することができる。
ニューラルネットワークに基づくオーディオ合成─この技術の拡張は、サードパーティの仮想楽器を必要とせずに、MIDIデータをオーディオデータに変換するようにニューラルネットワークをトレーニングすることである。
事前にレンダリングされた、人間が合成したオーディオステムを自動的にアレンジする能力─Jukedeckシステムのアーキテクチャはモジュール式であり、つまり、この機能が必要な状況では、自動音楽制作エンジン3は、予めレンダリングされた、人間が合成したオーディオステムを動的に再アレンジして、自動音楽合成エンジン2の出力を置き換えることもできる。これは、この技術を使用して、事前にレンダリングされたオーディオステムを、正確な同期ポイントが必要なメディアに適合させることができることを意味する。
アプリケーションプログラミングインターフェース(API)
API 14により、サードパーティの開発者は、AI合成音楽(オーディオ又はMIDI)の生成とカスタマイズをその自身のアプリケーションプログラム(アプリケーションプログラム、ブラウザー、又はモバイル環境)に直接組み込むことができる。
説明のAI音楽制作システムの重要な特徴は、アプリケーションプログラミングインターフェース(API)であり、APIにより、開発者は、AI合成及び制作システムの全ての機能にアクセスでき、ユーザーは、プロ品質のカスタマイズの音楽を大規模に自動的に作成できる。ボタンをクリックすることによって、様々な音楽スタイルにアクセスすることができる。
APIは、オーディオとMIDIに使用されるAPIである。つまり、APIを利用すると、ユーザーは、オーディオファイル及びその基礎となる作品の両方をMIDIフォーマットで生成することができる。提供されるいくつかの可能なオプションは、次の表にまとめられている。
Figure 0007041270000001
オーディオ及びMIDI APIを使用して、ビデオ作成、ゲーム、音楽制作、様々な環境でのビジュアルコンテンツやその他のコンテンツに付随する音楽生成、ポッドキャスティング、コンテンツ自動化などの、幅広いアプリケーションをサポートすることができる。
利点は次のとおりである。シングルクリック、パーソナライズ音楽でユーザーにクリエイティブエクスペリエンスを与えることができ、独特の特徴によってユーザーエンゲージメントを高め、数行のコードだけで完全なオーディオトラックをプラットフォームに返し、人工的に作成した音楽をユーザーに提供し、ユーザーは、録音された音楽に関連するいくつかのカスタム制限なしで、人工的に作成した音楽を自由に使用することができる。
図3は、AI音楽制作システムのブロック図を示し、後でさらに詳細に説明されるAI音楽制作システムのコア機能のいくつかの高レベルの概要を与える。
ここで、人工知能という用語は広い意味で使用されているため、機械学習(ML)システムと、MLシステムではないエキスパート(ルールベース)システムと、MLシステムでもエキスパートシステムでもない他の形式のAIシステムをカバーする。以下では、MLシステムとエキスパートシステム又は上記の組み合わせを具体的に参照するが、発明は、他の形式のAIシステムにも同様に適用される。
当該システムは、合成エンジン2と制作エンジン3を含み、これらは、当該システムの機能の2つの主要な側面を大まかに表す。これらは、スタックレイヤーとしてアレンジされて示され、合成エンジンは、制作エンジンの下に位置し、それぞれの機能を反映する。スタックの様々な構造については後で説明するが、これらの構成は、合成と制作との間のこの区分に従う。
合成エンジン2は、デジタル音楽記号フォーマットで音楽セグメントを合成する。ここで、デジタル音楽記号フォーマットは、コンピュータで読み取り可能な形式の楽譜のデジタル表現を意味する。このようなフォーマットの1つは、イベントに基づくフォーマットであり、この場合、音楽音符は、開始時間/停止時間のあるイベントによって指示される。このような記号は既知である。これは、音楽音符が、ピッチ値と、音符の開始時間と終了時間を表す(又は、開始時間と継続時間又は「維持」の観点から見る)関連タイミングデータとして表されるフォーマットであってもよい。例えば、音符は個別に、又は和弦で表すことができる。
ピッチ値は通常、音楽のハーフトーンとして量子化されるが、これは必須ではなく、量子化のレベルは音楽のスタイルによって異なる場合がある。通常、他の音楽データも、例えば各音符のピッチ変調や速度などのフォーマットで表現される。速度パラメータは、アコースティック楽器にまでさかのぼり、一般に、ピアノやギターなどの楽器を演奏する際の強さに直感的に対応する。このフォーマットは、内部の音楽合成ロジックに従って様々なパラメーターを解釈することにより、楽譜を「演奏」してオーディオを作成するシンセサイザー(例えば仮想楽器など)で解釈できる。このフォーマットの一例として、MIDIがあり、MIDIは、標準化され、広く使用されている楽譜を表現するための方法であるが、この用語は、カスタマイズフォーマットを含む他のフォーマットに一般的に適用される。以下では、例としてMIDIセグメントを参照するが、説明は他のどの音楽記号フォーマットにも同様に適用される。合成エンジンは、後述するように、機械学習(ML)に基づいて動作することが好ましい。
ここで、「音楽セグメント(music segment)」と「音楽のセグメント(musical segment)」という用語は同義であり、一般に、デジタル音楽記号フォーマットの任意の音楽セグメントを指す。各セグメントはコンテキストに応じて、例えば音楽小節、小節の一部(例えば4分音符、8分音符、8分音符の長さの半分のセグメントなど)又は複数の小節のシーケンスであってもよい。音楽セグメントは、長い楽譜におけるセグメントであってもよい。楽譜は、複数の音楽パーツ(ボーカルパート、楽器、特定の楽器の左手と右手のパートなど、異なる演奏声に対応)で構成される。音楽記号では、通常、各パートは別々の譜表でスコアリングされ(例えば、和弦シンボルを使用して和弦パートをスコアリングすることができる)、この観点から見ると、各音楽セグメントは、パートの1つである小節、小節の一部又は小節シーケンスに適用することができる。これは、MIDIセグメントにも同様に適用され、MIDIセグメントとは、MIDIフォーマットの音楽セグメントである。個々のMIDIセグメントは、単独のMIDIファイル又はデータストリームに反映することができるが、異なるMIDIセグメントは同じMIDIファイル又はデータストリーム内に反映することもできる。当技術分野で知られているように、例えば、同じMIDIファイル又はデータストリーム内に異なる音楽パーツに対するMIDIセグメントを反映するように、異なるパートに異なるMIDIチャネルを使用してもよい。そのため、以下の説明では、MIDIループと、MIDIループ又はパーツの個々のセグメントの両方とも音楽セグメントと呼ぶことができる。指す内容は文脈上明らかになる。
制作エンジン3のコアの機能は、1つまたは複数のMIDIセグメントのセットを取得し、それらを再生可能なオーディオデータに変換することである。これは複雑なプロセスであり、通常は複数の仮想楽器とオーディオエフェクト(リバーブ、遅延、圧縮、ディストーションなど)を慎重に選択して、異なるMIDIセグメントを別々のオーディオデータとしてレンダリングし、それらを相乗的に「ミックス」(結合)して、希望する全体的な音楽と効果音又は「サウンドスケープ」を持っている最終的な「トラック」を形成し、トラックは実質的に音楽の録音である。制作エンジンの役割は人間の音楽プロデューサーの役割に類似しており、制作エンジンは、専門家の人間の知識に基づいて配置できる。但し、使用中、制作プロセスは、比較的少数の選択された制作パラメータによって駆動される完全に自動化されたプロセスである。制作エンジンはAIコンポーネントでもあり、エキスパート(ルールベース)システム、非MLシステム、MLシステム又はルールベースとML処理との組み合わせとして実現される。
システムによって提供される主要なサービスの1つは、トラックの形式(例えばWAV、AIFF、mp3など)で「ゼロから」音楽を作成することであり、作成されたMIDIセグメントを合成し、これらのMIDIセグメントはトラックの基礎を形成し、トラックは、制作エンジンがMIDIセグメントに従ってオーディオパーツを合成し、上記の方法でこれらのオーディオパーツをミキシングすることによって生成される。主要なサービスは本明細書では「フルスタック」サービスと呼ばれる。
なお、システムアーキテクチャの利点は制作エンジン又は合成エンジンの機能の各部分をサービスとして提供できることである。
そのようなサービスの1つは本明細書では「サービスとしてのMIDI」と呼ばれ、それにより、人間の制作者は、MLによって生成されたMIDIセグメント(例えば、ループ)を取得することができ、例えば、デジタルオーディオワークステーション(DAW)で、MLによって生成されたMIDIセグメントに自身の個人的な制作方法を使用することができる。基本的に、これは本質的には独立したサービスとして合成エンジンの機能を提供するが、後で明らかになるように、システムの実装方法によって、制作エンジンの要素を利用することができる(後で説明するように、制作と合成の間の区分は、ある程度実装固有である)。これは、制作スキルはあるが合成スキルや音楽のインスピレーションが不足しているユーザーに特に役立つ。
別のそのようなサービスは「サービスとしての制作」であり、それにより、作成者はシステムに、自分が合成したMIDIセグメントを提供でき、このコンテキストでは、AIシステムは制作者の役割を担い、これらのMIDIセグメントから完成のトラックを作成する。これは、独立したサービスとしての制作エンジンの機能を提供し、本質的にはサービスとしてのMIDIの反対である。サービスとしての制作は、制作スキルや傾向がない作成者に特に役立つ。
全てのサービスは、アプリケーションプログラミングインターフェース(API)形式(例えばweb API)のアクセスコンポーネント14を介してアクセスすることができ、それにより、インターネットなどのコンピュータネットワークを介してシステムのAPIサーバーと外部装置との間でAPIリクエストと応答を送受信する。アクセスコンポーネント14は、後述するように、内部リクエストと外部リクエストを受信するためのコンピュータインターフェースを含む。
合成と制作との間の区分に関して、これらのそれぞれは特徴を限定する特定のコアを持っているが、システムアーキテクチャに関し、どこに線を引くかについてある程度の柔軟性がある。最後、当該システムは、それが動作する音楽の原理に合わせて構成される。
簡単に言えば、従来の音楽作成プロセスは次の段階に分けることができる。
1. 合成
2. 演奏(又は人間化)
3. 制作
コンテキストに応じて、ある形式の合成は、要素合成とアレンジという2つの異なるサブステージに分割できる。ここで、要素合成とは、トラックを構成する基本的な音楽要素を作成し、その後、基本的な音楽要素をアレンジして説得力のある長期的な構造を持つ音楽セグメントを作成することを指す。これらは全て、シンセサイザーの制御の範囲内にある場合もあれば、全く別のステージである場合もあり、従来から、ある程度音楽のスタイルに依存する。なお、他のコンテキストでは、合成とアレンジは基本的に一つの全体として実行することができる。本明細書で使用される「合成」という用語は、コンテキストに応じてアレンジに組み込む又は要素合成を指す。伝統的に、演奏は、人間の演奏者によって導入された変更(例えばタイミング/速度変更など)の要素であり、当該演奏を録音でキャプチャするプロセスを制作する。しかしながら、時間が経つにつれ、これらの側面の境界は、特に現代的な電子音楽の場合、ますます不鮮明になり、電子音楽は、MIDIシーケンスなどを使用して最少の人間の演奏を超えず作成することができるため、場合によって、演奏よりも制作に重点が置かれる。現在、制作という用語は、例えば、各チャネルのレベルのバランス、イコライゼーション、ダイナミックコントロール(圧縮、制限など)及びその他のオーディオエフェクト(リバーブ、遅延、ディストーションなど)、各チャネルのオーディオを生成するための仮想楽器の選択など、幅広いものをカバーできる。
AI音楽制作システムの実装方式に関して、合成、アレンジ及び演奏機能を制作エンジンの本質的に独立した機能として実現することができ、合成エンジンからMIDIセグメントを取得し、それぞれアレンジ及び人間化する。例えば、MIDIセグメントは、小節の一部(例えば、1/16又は1/32)として厳密に時間量子化された短いループであってもよい。その後、これらのMIDIセグメントを(例えば、メインソングのコーラスの構造に従って)アレンジすることができ、増加変化の程度(時間、速度、ピッチなど)を大きくして演奏を向上させ、不完全な人間の演奏に近づけることができる。この方法によって、これらの機能及び最終的な音楽制作プロセスの一部として実行されるMIDI処理を制作エンジンに簡単に実行することができる。
なお、同等に実行可能な方法は、これらの機能の1つ又は2つを合成自体とマージすることであり、これにより、ML合成エンジンは、合成エンジン内において説得力のある長期的な構造と可能な人間化で音楽を合成するようにトレーニングされる。
従って、制作エンジン、合成エンジン又は両方の組み合わせでアレンジと演奏を実現することができる。
実際の環境では、システムのアーキテクチャは、音楽合成とアレンジに使用される方法をある程度反映する。
人間化、特に選択可能な成分は、全てのスタイルの音楽(例えば、特定のスタイルの電子音楽)には望ましくない場合があることに注意されたい。
合成エンジン:
合成エンジン2の可能な構成を以下に説明する。まず、合成エンジン2を形成するいくつかの設計の基本原理について説明する。
確率的シーケンス模型(PSM)は、値又はアイテムのシーケンス上の確率分布を確定するコンポーネントである。当該分布は、例示的なシーケンスのデータセットから学習するか、又は、例えば分野の専門家によって事前に固定することができる。適切なデータセットを選択するか、又は適切な専門知識をエンコードすることにより、PSMに関心のあるドメインの典型的時間構成、例えば音楽における典型的な和弦又は音符シーケンスを反映させることができる。
PSMは、その分布に従って、これまでにサンプリングされたアイテムのプレフィックスが与えられた場合に、次の可能性のあるアイテムの暗黙の確率分布から一度に1つのアイテムをサンプリングすることによってシーケンスを生成するために使用できる。つまり、選択された1つまたは複数のアイテムに基づいてPSMによって生成された可能なアイテムの確率分布に従って、各アイテムを選択する。合成エンジンのコンテキストでは、アイテムは音楽セグメントであり、例えば合成エンジンレベルの小節の一部(例えば1/16、1/32など)に対応することができ、PSMの配置方法に依存する任意の長さのセクションであってもよい。各音楽セグメントは例えばシーケンスにおける特定のポイントでの個別の音符又は和弦に対応することができる。
確率分布は、当該シーケンス用に既に選択された1つ以上の音楽セグメントに基づいてシーケンス用に選択される候補音楽セグメント(音符、和弦など)及び各候補音楽セグメントの関連する確率値のセットを提供し、当該確率値は当該音楽セグメントがシーケンスにおける次の音楽セグメントとして選択される可能性を定義した。出力は確率的であるため、可変要素が導入される。これにより、同じ合成設で異なる合成を生成することができる(以下で説明するように、合成設自体を選択するときに、付加の確率的要素を導入することができる)。
PSMの例には、マルコフ連鎖、確率的文法、確率的最終層(柔軟性最大伝達関数(SOFTMAX)など)を備えたリカレントニューラルネットワークが含まれる。
合成エンジン(CE)は少量の合成パラメータを完全な楽譜又はより短い音楽節に変換することができるシステムであり、任意の数のパーツを有し得る。パーツは、演奏音声間の音楽素材の区分として理解され、様々な方法で表現することができる。この区分は音楽制作の基本であり、例えば、物理的な音楽演奏をシミュレートするために、様々な楽器や空間パラメータを各パーツに割り当てることができる。
複数のパーツに例えばニューラルネットワークなどの単一のPSMを提供することができる比較的基本的な合成エンジンを構築することができる。つまり、複数のパーツによる合成の全ての側面の完全な一瞬一瞬の記述の上に、単一のPSMを構築する。このような方法は実行可能であるが、より複雑な合成の場合、モデルを単純化して実行可能にするために内部のトレードオフが必要になる場合がある。状況によってはこれで十分な場合もあるが、より複雑な合成に関しては、他の方法が有益な場合がある。
従って、複雑さのレベルに応じて、複数のPSMの間でタスクを分割することが適切な場合があり、その中、各PSMは、属性の特定の組み合わせ又は特定のパーツに集中するなど、特殊な役割を持つ。この場合に、重要なモデル化の決定は、各PSMの範囲がどの程度具体的であるべきかである。
モジュラー方法で、疎結合されたPSM集合を一緒にまとめることは、CEに対する各リクエストを処理する方法に大きな柔軟性をもたらす。
以下に説明する技術を使用して、個々のPSMの能力を制限することなく、他のPSMと同じように動作するように、各PSMを協調することができる。つまり、これらの原理は、複数のPSM間で情報を共有するという問題を柔軟な方法で解決する解決策を提供する。当該技術の主な要素は、次のようにまとめることができる。
1.PSMへの入力又はPSMからの出力の一部を形成できるように、音楽の属性を処理するためのモジュラー拡張可能なシステム。
2.属性及び/又はパーツの制限された組み合わせのモデリングを担当するための複数のPSM。
3.別の属性又は外部の制約によって生成された属性に従ってPSMからサンプリングするイベントを制限するためのメカニズム。
以下、これらの要素について詳細に説明する。
1.音楽の属性がPSMへの入力又はPSMからの出力の一部を形成できるように、音楽の属性を処理するためのモジュラー拡張可能なシステム。
音楽イベントは、イベントに関する潜在的な無制限の数の側面又は属性から説明できる、固有属性(例えば、ピッチ、継続時間、ビブラートなど)及びイベントとそのコンテキストとの関係(例えば、基本的なハーモニー、その時間的な位置、音符が前の音符よりも高いか低いかなど)を含む複雑なオブジェクトである。限られた数のこれらの「視点」に焦点を合わせると、PSMは、(扱いやすいモデルを得るために)音楽シーケンスの特定の側面における確率的構成のキャプチャに焦点を合わせ、同時に、それ以外、他のシステムによって処理される。2つのPSMは、1つ以上の視点を共有することによって協調することができ、例えば、一方のPSMから視点の値を生成し、それを他方のPSMのサンプリング空間への制約として入力することができる。これにより、モデリング問題の複雑さを大幅に低下させる。視点と一緒に動作するモジュラー方法は、PSMが、トレーニング中と生成中の両方でPSM間の一致した協調を保証しながら、視点の任意の組み合わせをモデリングするために簡単に作成することができることを意味する。
2.属性及び/又はパーツの制限された組み合わせのモデリングを担当するための複数のPSM。
複雑な合成問題を解決するための「分割統治」方法は、特定の音楽属性(特にスタイル)に特化したPSMを提供することである。例えば、1つのPSMは、継続時間を有する和弦記号の制作に特化し、別のPSMは、和弦記号及びメロディーの音符のピッチ及び継続時間の制作に特化することができる。これは、各PSMが、その属性の組み合わせを精確にモデリングすることに焦点を合わせることができることを意味し、これにより、高品質で音楽的に説得力のある出力を生成する。PSMの疎結合は、それらが合成リクエストを処理する点で選択された組み合わせでは自由に使用できることを意味し、システムが1つの合成に対して生成されたパーツの数及び種類を柔軟に選択できるようにする。
3.別のPSMに発生する属性に従ってPSMからサンプリングするイベントを制限する能力。
特定のPSMは、1つのPSMの出力を別のPSMの(パーツである可能性がある)入力にする方式で使用され得る。例えば、和弦記号を有するメロディー音符におけるPSMは異なるPSMから制作された和弦記号にマッチングするように調整される。これは、パーツ間の一致性を促進し、合成エンジン2は、音楽品質を犠牲にすることなく、マルチPSMの方法モジュール性を利用することができる。
図4は、上記の原理に基づく合成エンジン2の可能な配置のさらなる詳細を示す。この場合、タスクは複数のニューラルネットワークの間で分割されるが、これらのニューラルネットワークは他の形式のPSMであってもよい。
合成エンジン2は、それぞれ内部の入力と出力である入力402と出力404を有する。合成エンジン入力402は、MIDIセグメントに対するリクエストを受信するように配置され、各MIDIセグメントは、後述するように割り当てられたジョブ識別子(ID)を持っている。
合成エンジンの主要な機能は、異なる音楽パーツに対して音楽的にコラボレーションした音楽セグメントを生成することであり、これらの音楽セグメントは、同時に演奏されて首尾一貫した音楽を作成するように構成される。MIDIセグメントは、より複雑なトラックを構築するようにループされる(繰り返される)midi「ループ」であってもよい。異なる音楽パーツに対して異なるMIDIループを提供する場合、これらのMIDIループは、パーツを一緒に演奏する効果を達成するように同時にループすることができる。その代わりに、単一のMIDIループでは、複数のパーツをキャプチャーすることができる。しかしながら、これらの原理を拡張して、合成エンジン2がより長い音楽節を提供することを可能にし、さらに、オーディオトラックの継続時間にわたる各パーツに完全な音楽節を提供する。
単一のジョブリクエストでは複数の音楽パーツに使用される(1つ以上の)音楽セグメントをリクエストすることができる。異なる段落の音楽(例えば、メインソングとサブソング)をそれぞれリクエストする場合、これらは個別のジョブリクエストでリクエストすることができ、単一のジョブリクエストで、このような音楽段落をリクエストする(例えば、メインソングとサブソングを一緒にリクエストする)可能性もある。これら(1つ以上)のジョブリクエストは、図2の(以下で説明する)ジョブリクエストに対応するが、図4では、406a、406bと表記される。なお、これらのジョブリクエストは、アクセスコンポーネントの外部入力から直接受信でき(図1を参照し、以下のようになる)、或いは、図2を参照して説明するように、内部ジョブリクエストとして受信することができる。各ジョブリクエストにはジョブIDと合成パラメータのセットが含まれ、この例では、当該パラメータのセットは次のとおりである。
Figure 0007041270000002
上記のように、これらの合成パラメータの全ては必須であるわけではなく、異なる形態では他の異なるタイプの合成パラメータを定義することができる。当該システムの主要な側面は、ユーザーが所望のタイプを定義することができる(その代わりに、当該システムはタイプが指定されていない場合にタイプを自動的に選択することができる、下記を参照する)ことであり、また、合成エンジン2は、後述するアーキテクチャによって、異なるタイプの合成を提供することができる。
合成層2は、408A及び408Bとして表記される複数の合成モジュールを含む。各合成モジュールは、トレーニングされたニューラルネットワークの形式であり、各合成モジュールは全て、非常に特定のタイプの音楽トレーニングデータで既にトレーニングされたため、特定のタイプの音楽を生成することができる。以下の例では、合成モジュールはネットワークと呼ばれるが、この説明は他の形式のML又はPSM合成モジュールにも適用される。
各ジョブリクエスト406a、406bにおける合成パラメータは、ネットワーク408A、408Bの適切な1つを選択するために使用されてもよく、選択されたネットワークへの入力として使用されてもよい。この例では、各所定のタイプは対応する複数のネットワークに関連付けられる。一例として、図4は、第1のタイプ(タイプA)に関連付けられる第1のネットワーク408Aと、第2のタイプ(タイプB)に関連付けられる第2のネットワーク408Bを示す。
各タイプグループ408A、408B内で、目前のタスクに適したネットワークを選択することができる。ネットワークを選択する方法は、前述の原理に基づいてこれらのネットワークを最適化する方法に依存する。
各ジョブリクエスト406a、406bについて、合成エンジン2の合成コントローラー408は、ネットワークの適切なサブセットを選択して当該ジョブリクエストを処理する。ネットワークサブセットは、ジョブリクエストで指定された音楽タイプに関連付けられるサブセットに基づいて選択される。
上記のように、例えば和弦やメロディーなどの複数のパーツを同じジョブリクエストではリクエストすることができる。これは、合成エンジン2への内部リクエストと外部リクエストの両方に適用される。
各ジョブリクエスト506a、506bに応答して生成された(1つ以上の)MIDIセグメントは割り当てられるジョブIDと関連付けてジョブデータベースに記憶される(24、図1)。或いは、MIDIセグメントは、独立のデータベースに記憶することができ、このコンテキストでのジョブデータベースに関する全ての説明は前記イベントにおける独立のデータベースにも適用される。
図5を参照し、特定のスタイルに関連付けられたネットワークは協力して、音楽的にコラボレーションした複数の要素を作成する。これは、ネットワークの出力を階層関係にある他のネットワークへの入力として提供することで実現される。
この基本原理を説明するために、図5は、タイプAに関連付けられた3つのネットワーク、すなわち、和弦(CN)、メロディー(MN)、及びハーモニー(HN)を示し、図4における第1のネットワーク408Aに対応する。
この例では、ネットワークCN、MN及びHNのそれぞれは合成エンジン2の合成コントローラー408によって上記の方式で確定された合成パラメータ502を入力として受信するように配置される。同じ入力として示されているが、ネットワークはまったく同じパラメーターを受信する必要はなく、また、例えば、それぞれは合成パラメータの異なる選択を受信することができる。
和弦ネットワークCNは、パラメータ502に基づいて和弦シーケンス(プログレッション)504を生成するように配置される。これはMIDIである必要はなく、例えば記号和弦表現であってもよいが、後続の処理のためにMIDIに変換すると(必須ではないが)便利である可能性がある。生成された和弦シーケンスを該当するジョブIDと関連付けてジョブデータベースに記憶する。
また、メロディーネットワークMNは、和弦シーケンスを音楽的に伴奏するように、生成された和弦シーケンス504を入力として受信し、和弦シーケンス504と合成設502に基づいてメロディー506を生成する。つまり、メロディー506は、音楽的に和弦シーケンス504を取り囲んで構築される。生成されたメロディー506も、該当するジョブIDと関連付けてジョブデータベース24に記憶される。
また、メロディー506は、ハーモニーネットワークHNに入力される。ハーモニーネットワークHNは、合成設502とメロディー506に基づいてハーモニー508を生成し、ハーモニー508はMIDIセグメントとして出力され、音楽的にメロディー506のハーモニーである。図5には示されていないが、ハーモニーネットワークHNは、和弦シーケンス504を入力として適当に受信することもできるため、メロディー506を調整して、ハーモニー508を和弦シーケンス504と調和させることが可能になる。生成されたハーモニー508も、該当するジョブIDと関連付けてジョブデータベース24に記憶される。
和弦シーケンス504、メロディー506及びハーモニー508は同じジョブリクエストではリクエストされてもよく、この場合、同じジョブIDと関連付けてジョブデータベース24に記憶される。
各ネットワークの出力はMIDIである場合があるが、必ずしもMIDIである必要はなく、例えばカスタムフォーマット(上記を参照)などの他のデジタル音楽記号フォーマットであってもよい。出力がMIDIではない場合、後で出力をMIDIに変換すると便利である可能性があるが、これは必須ではない。
ネットワークは、例えばユーザーが生成したセグメントやライブラリのMIDIセグメントなどの外部MIDIを入力として、これを中心として合成してもよい。
ネットワークが合成できる入力のもう1つの例は、ユーザー又はMLで生成できるパーカッションであってもよい。ここで、パーカッションは例えば、合成されたセグメントのリズムを駆動するか、又は特定のある音符に置かれることを強調する(その中、強調/ヴェロシティは合成エンジン2で処理される)。
フルスタック:
図1は、音楽制作システムの可能な配置を示す概略ブロック図である。音楽制作システムは、4つの層又はコンポーネントで構成される。以下の説明から、各層又はコンポーネントの機能間にある程度の重複がある可能性があることは明らかであり、以下の説明は、音楽制作が音楽制作システムでどのように編成されるかを明確に示す。音楽制作システムは、一連の設(詳細は後述)を受信し、1つの音楽を生成するように動作する。以下では、1つの音楽は、「トラック」と呼ばれるが、システムは任意の長さ/文字の音楽を制作できる。トラックは、デジタル楽譜記号(例えばMIDI)又はオーディオで楽譜として生成されてもよい。MIDI以外の楽譜フォーマットを使用する場合、それをMIDIに変換すると後の処理で便利である(ただし必須ではない)。そのため、記号楽譜をMIDIに変換する変換層(図示せず)をシステム内で提供することができる。この変換層は、合成エンジン自体の一部を形成する場合もあれば、楽譜を受信しMIDIを使用する目的でMIDIに変換するシステム内の別の層の一部を形成する場合もある。
制作管理コンポーネント(コントローラー)13は、以下の方法でシステムの層を管理する。コントローラー13は、内部リクエスト及び外部リクエストの両方を処理し、必要に応じて1つまたは複数の層で機能をアクティブ化して、各リクエストにサービスを提供する。
符号2は合成エンジンを示す。合成エンジンは、一連の設(詳細は後述)を受信し、オーディオトラックにアレンジ及び制作されるMIDIセグメントを生成するように動作する。合成エンジンは、オーディオトラックにアレンジ及び制作される音楽セグメントを記号フォーマットで生成する。合成エンジンはPSMの集合を使用して音楽セグメントを生成する。これらのPSMは既に、特定の音楽スタイルを例示するために選択された音楽トラックのデータセットでトレーニングされる。合成エンジンは入力設に基づいて、使用するPSMを確定する。
符号4はアレンジ層を示す。アレンジ層は、合成エンジン2によって生成されるMIDIセグメントを音楽アレンジにアレンジするジョブを有する。アレンジ層は2段階で動作すると考えることができる。第1の段階で、アレンジ層は、後で説明するアレンジパラメータを受信し、タイミングや必要なシーケンスなどを定義するエンベロープとして、これらのパラメータに従って音楽アレンジを生成する。アレンジ層のアレンジ機能は6として表記される。当該エンベロープは、1つの音楽のアレンジを定義した。後でさらに詳しく説明するように、これらの設は、制作マネージャーによって合成エンジン2からMIDIセグメントをリクエストするために使用できる。アレンジ層の第2の段階はソート機能8である。ソート機能に従って、MIDIセグメントをアレンジエンベロープに従って、完成した1つの音楽にソートする。MIDIセグメントは、(前述のように)合成エンジンによって提供されてもよく、或いは、合成エンジン2によって予め生成できる適切なMIDIセグメントの既存のライブラリから取得することもできる。制作管理コンポーネント13は、例えば、ライブラリをチェックして、適切な既存のMIDIが利用可能であるかどうかを確認し、利用可能ではない場合、合成エンジン2へリクエストを起動して適切なMIDIを生成する。その代わり、リクエストに応答して合成エンジン2でライブラリのチェックを実行するか、又はライブラリのチェックを完全に省略してもよい。さらに、MIDIセグメントは、後で詳しく説明するように、外部ユーザーによって導入されてもよい。アレンジ層4は、MIDI形式のアレンジされた1つの音楽を提供する。状況によっては、この「オリジナル」の音楽はいくつかの目的に適しているかもしれない。しかしながら、この場合、それは任意の有用な形式で再生できない。そのため、アレンジ層4によって制作される音楽に演奏品質構成を追加するパフォーマンス層10を提供する。
アレンジの部分には入力設操作に基づく決定木がある。この決定木は、人間の専門知識、つまり人間の音楽制作者の専門知識を具体化する。アレンジ層は、設を使用して一連の時間ソートパーツを含む音楽アレンジ構成を生成し、その後、当該音楽アレンジ構成は合成エンジン(または、例えばライブラリから)にMIDIをリクエストし、MIDIはアレンジ構成によってソートされる。
これは如何に1つの音楽に対して長い形式の構造を作成するかの方法のほんの一例に過ぎない。この別個のアレンジ層の代わりに、シーケンスされるMIDIを「不可知論的」に操作し、アレンジエンジン2ではアレンジを合成自体の一部として処理することができる。
パフォーマンス層は、MIDIで演奏品質の音楽を出力する。これは、多くのアプリケーションで役立つ。しかしながら、同様に、1つの音楽のオーディオバージョンを必要とする他のアプリケーションもある。そのため、オーディオでレンダリングされた演奏品質の1つの音楽を出力するオーディオレンダリング層12(オーディオエンジン)を提供する。
1つの音楽のMIDIからオーディオへの変換又はレンダリングは、多くの異なる方法で行うことができ、これらの方法は、当技術分野で知られているものを含むため、ここで説明しない。
上記のように、音楽制作エンジンは、API(アプリケーションプログラミングインターフェース)の形式で実現できるアクセスコンポーネント14を有する。当該アクセスコンポーネントにより、音楽制作システム内での通信を可能にし(具体的に、制作管理コンポーネント13はアクセスコンポーネント14を介して合成エンジン2と通信することができる-下記を参照)、機能を外部ユーザーに提供することもできる。説明のために、音楽制作システムに面するアクセスコンポーネント14の側は、制作管理コンポーネントを介して層間の内部ルーティングを担当し、反対側は、外部ユーザーからの入力及び出力を担当すると仮定する。これは、例示的なものであり、APIは任意の適切な方式で実現することができる。当技術分野でよく知られているように、APIの機能を実現するために、API内のプロセッサーで実行されるソフトウェアを使用してAPIを実現する。
APIは、外部ユーザーからジョブリクエストを受信するための少なくとも1つの外部入力16と、完成したジョブを外部ユーザーに返すための少なくとも1つの外部出力18とを有する。また、いくつかの実施形態では、APIは、後述するように、音楽制作システムの内部層の間での通信を可能にする。
入力16ではリクエストできるジョブは以下のものを含む。
タグへのリクエストはユーザーによって入力でき、当該ユーザーは、音楽トラックを作成するように設を提供するためのタグリストを検索する。タグは、例えばピアノ、フォーク音楽などの音楽スタイルを含む。以下、単なる例としてのタグのリストが示される。タグはタグメモリ20に保存される。必要に応じて、このようなリクエストは、システム内で利用可能な設をリクエストするように使用されてもよい。
例えば、ムードやジャンルタグなどの異なるタイプのタグを定義することができる。ジャンルタグの例には、ピアノ、フォーク、ロック、環境、映画、ポップ、快適、グループ、ドラムとベース、シンセポップが含まれる。ムードタグの例には、高揚、メランコリック、悲観的、怒り、シンプル、瞑想的、ファンタジー、アクション、感情的、聞き取りやすい、穏やか(Tec)、攻撃的、情熱的、刺激的が含まれる。システムは、ジャンルとムードタグとの特定の組み合わせのみを許可するように配置されてもよいが、これは設計上の選択である。これは、タグの完全なリストではなく、任意の適切なタグのセットを使用でき、これは、システム内で制作及び合成設におけるタグの役割を選択することを説明するときなどの適切なときに明らかになる。
ライブラリクエリは、入力16で提供することができ、ライブラリクエリは、トラック記憶装置22又は代替的にジョブデータベース24に保存されているオーディオトラックに対するページ化リストの検索を生成する。これらは、後述する編集可能なフォーマットで記憶できる。これらは、音楽制作システムによって既に作成されたか又は他の場所からライブラリにアップロードされたトラックである。トラックの作成プロセスで説明するように、それらは後の編集に適した方法で記憶される。
トラックのライブラリクエリは、次のパラメータを返す。
ジョブID─識別されたトラックの一意の識別子であり、特に、トラックの編集を可能にする一意のIDである。
タグ─トラックに関連付けられた識別子タイプのタグである。
アセット─アセットのタイプ、即ち、MIDI又はWAFを表す。
継続時間─1つの音楽の長さを表す。曲の作成で、1つの音楽の長さは通常約3分である。なお、様々な目的で1つの音楽を生成でき、また、1つの音楽は任意の適切な継続時間を持つことができる。
これらは単なる例であり、リクエストについて、異なる実現で異なるパラメータを返すことができる。
入力16は、ジョブを作成するリクエストを受信してもよい。ジョブは異なるタイプであってもよい。
第1のタイプのジョブは、オーディオトラックを作成することである。このジョブを実現するために、ユーザーは複数のオーディオトラック作成設を提供することができ、以下を含む。
音楽スタイル
継続時間─オーディオトラックの長さ
1つまたは複数のタグ─トラックのタイプを定義する
リズム─トラックの音楽リズム
同期ポイント─トラック又は他のイベントで強度が集中する任意の特定の位置、例えば特定のポイントでの特定の楽器入力又は音楽的特徴をオーディオトラックに導入する任意の他のイベント。
強度曲線─同期ポイントの一般化により、オーディオトラックの望ましい強度の変化をより大きい柔軟性で時間の経過に応じた曲線として定義する。
これらのパラメータのすべてが必要なわけではない。当該システムは、最小限の情報に基づいて自律的な意思決定を行うことができる。例えば、オーディオトラックに継続時間しか提供されていない場合、システムはオーディオトラックを作成することができる。制作管理コンポーネント13自体は当該イベントのタグ、リズム、及び同期ポイントを確定する。実際に、システムは、設を入力せずにトラックを生成することができ、トラックリクエストで設が提供されていない場合、システムは任意の設を自動的に選択することができる。
制作管理コンポーネントは、音楽スタイルに基づいて1つまたは複数の層に使用される設を生成してもよい。完全なオーディオトラックを生成するときに、以下で詳細に説明するように、タイプに基づいてオーディオ制作エンジン3に使用されるオーディオ制作パラメータと合成エンジン2に使用される合成パラメータを生成する。
以下、必要に応じて特定のパラメータについて言及する場合がある。これは単に可能な形態であり、これらのパラメータは設計上の選択とする必要なパラメータである。なお、ユーザーにより提供されていない所望のパラメータをすべて自動的に選択するようにシステムを配置するため、ユーザーが提供するパラメータに基本的な要件はない。
第2のタイプのジョブは、作成されるMIDIトラックをリクエストすることである。このジョブについて、少なくとも継続時間、及びオプションである少なくとも1つのタグ、リズム、及び同期ポイントの入力が必要である。或いは、継続時間は、オプションのパラメータであってもよく、継続時間が提供されていない場合、システムは継続時間を自動的に選択することができる。
オーディオトラックのリクエストには、オーディオレンダリング層を含む音楽制作システムの全てのコンポーネントを使用して、オーディオでレンダリングされたトラックを生成することが含まれる。この例では、MIDIトラックを作成するリクエストは合成エンジン、アレンジ層、及びパフォーマンス層を使用してMIDIのトラックを生成する。オーディオレンダリング層は使用しない。上記のように、アレンジ層とパフォーマンス層はオプションのコンポーネントであり、当該システムはこれらのコンポーネントなしで実現することができる。例えば、合成エンジン2は、必要に応じて、完全にアレンジされた人間化のMIDIを生成するように配置されてもよい。
トラック制作について後述する。
第3のタイプのリクエストは、既存のトラックを編集することである。トラックは、以下に説明する方法で、一意のジョブ識別子によって識別されるトラックライブラリに記憶される。ユーザーは編集のためにジョブのIDを提供する必要がある。なお、これは編集が必要なトラックの正しいジョブIDを識別するために前述のライブラリクエリを実行することによって実現できることに注意されたい。ユーザーは、トラックに新しい継続時間を提供することができる。オプションで、リズムと同期ポイントを定義することができる。その出力は既存のオーディオトラックの新しいバージョンであり、新しい設によって定義されるように編集する。或いは、ユーザーが継続時間を変更せず、オーディオトラックの他(1つまたは複数)の側面を編集したい場合、既存の継続時間を使用することができる(又は、継続時間が提供されていないが、継続時間を変更したい場合、システムは継続時間を自動的に選択するように配置できる)。以下に説明するように、システムが各段階で行った決定に関する十分な情報がトラックIDに対してジョブデータベース24に記憶されているため、システムは編集リクエストを処理することができる。
システムは、後で説明するように、MIDIトラックを編集するリクエストを処理するように配置されてもよい。これらは、トラック編集リクエストとほぼ同じ方式で処理できるが、出力はオーディオではなくMIDIである。
第4のジョブはMIDIループを作成することである。これは合成エンジンによって実行されるジョブであり、他のジョブと異なるパラメータのセットを受け取ることができる。少なくとも生成のMIDIループの小節の長さ(1、2、4又は8であるが、これは単なる例である)を受信する。或いは、長さはオプションのパラメータであり、長さが提供されていない場合、システムは長さを自動的に選択することができる。また、タイプ、例えばピアノ、フォーク、ロック、映画、ポップ、快適、グループ、ドラムとベース、環境、シンセポップのいずれかを指定することができる。これらは、上記の意味でのタグとして指定できる。例えば、主音数字[0-11]、及び0=C、及び/又は調性を例えば自然性_主要と自然性_次要の1つとして提供することができる。後述するように、合成エンジンはこれらのパラメータに従ってMIDIループを生成することができる。また、MIDIの速度、タイミング、人間化を可能にする有効化パラメータを提供することができる。或いは、これらのパラメーターを個別に有効化/無効化できるように、個別のパラメータを提供することもできる。
類似のジョブはオーディオループを作成することである。これは、MIDIループリクエストと類似であるが、制作エンジンに関連する。制作エンジンがMIDIループをリクエストすることによって、それをレンダリングしてループ可能なオーディオを提供することで実現できる。
図9は、API 14を実現するためのアーキテクチャの一例を示した。このアーキテクチャのAPI 14の主要な特徴は、内部ジョブリクエストと外部ジョブリクエストの両方を同じ方式で処理できることである。つまり、音楽制作システムの外部からのジョブリクエストと、システム自体のコンポーネントによって引き起こされシステムの他のコンポーネントへ向けられたジョブリクエストの両方である。この場合の特定の例は、合成エンジン2によって提供される「サービスとするMIDI」機能であり、当該機能は、外部ユーザーだけでなく、例えば制作マネージャー13などのシステム自体のコンポーネントにも使用できる。
API 14での各着信リクエスト(内部又は外部)はリクエストのタイプに従って多くのジョブキュー31のうちの1つに割り当てられる。この例では、合成ジョブキュー34は、合成エンジン2に結合されるように示される。制作ジョブキュー32とMIDIジョブキュー32Aは、制作管理コンポーネント13に結合されるように示され、これらの2つのキュー32、32Aは、制作管理コンポーネント13によって処理される異なるタイプのリクエストを保持する。制作ジョブキュー32に割り当てられたジョブは、オーディオエンジン12のトラックに関し、MIDIジョブキュー32Aに割り当てられたジョブはMIDIに関し、オーディオエンジン12に関しない。つまり、制作管理コンポーネントは、オーディオリクエストとMIDIリクエストとの両方を処理することができる。
あるタイプのリクエストは、制作エンジン3と制作管理コンポーネント13を「バイパス」し、制作エンジン3又は制作管理コンポーネント13を関与させることなく、合成エンジン2によって処理されるように合成ジョブキュー34に割り当てられる。このようなリクエストは、外部装置又は制作管理コンポーネント13から生じ得る。
制作管理コンポーネント13によって処理されるリクエストは例えば、トラック全体に対するリクエスト又はトラックを編集するためのリクエストであり(下記を参照)、制作管理コンポーネント13によって処理されるために、オーディオの場合に、制作ジョブキュー32に割り当てられ、MIDIの場合に、MIDIジョブキュー32Aに割り当てられる。以下さらに詳細に説明するように、制作管理コンポーネント13で受信されるそのようなリクエストは、制作管理コンポーネント13に同じAPI 14を介して合成エンジン2へそれ自身の1つまたは複数の内部リクエストをするようにし、これらの内部リクエストは合成エンジン2によって処理されるように合成ジョブキュー34に割り当てられる。
図9には示されていないが、API 14が処理できる各タイプのリクエストに対して別個のジョブキューを提供する。従って、実際には複数のオーディオタイプジョブキュー(例えばオーディオ作成とオーディオ編集)と複数のMIDIタイプジョブキュー(例えばMIDI作成とMIDI編集)が制作管理コンポーネント13に結合される場合がある。
次に、図2を参照して、オーディオトラック作成タスクについて説明する。図2では、円内の数字は、方法のステップを示し、構造の特定の要素を示す参照数字とは異なる。図2に示されている構造の要素は、図1で説明されている要素に対応し、図1に対応する参照数字が付けられている。
ステップ1では、人間ユーザーはAPI 14の入力16でジョブリクエスト30を提供することができる。ジョブリクエスト30は原則として、上記の任意のジョブタイプであり得るが、本明細書のここの部分はトラック又はMIDIトラックの作成に関する。上記のように、ジョブリクエスト30は、これらのトラックの作成を定義するための少なくとも1つのパラメータを定義する。或いは、前記のように、ジョブリクエスト30はパラメータを定義せず、当該イベントの全てのパラメータはシステムで自動に選択される。ステップ2では、API 14内では、ジョブ識別子がジョブリクエスト30に割り当てられる。これは、本明細書ではID Aと呼ばれる。次に、当該ジョブを制作マネージャー13に関連付けられた制作ジョブキュー32に割り当てる。ジョブID Aを制作キューに割り当てることはステップ3で示される。
ステップ4で、制作マネージャーはトラックを制作するように動作する。制作マネージャー13はアレンジ層4、パフォーマンス層10及びオーディオレンダリング層12にアクセスすることができる。図2では、パフォーマンス層は、個別に表示されていないが、必要に応じて制作マネージャーが利用できる。制作マネージャー13は制作層で実施される人工知能モデルに従って、アレンジ層4と関連付けられて動作する。これは、決定木で実施され、当該決定木は、人間の専門知識と知識を組み合わせて、オーディオトラックの制作を完了するための制作層をガイドし、但し他の実施形態も可能である。例えば、上記のように、制作エンジンはMLを使用して実現できる。当該決定木により、ステップ5に示すように、制作マネージャー13がアレンジ層4にアクセスする。アレンジ層4は少なくともタイミング及び所望のタイムスタンプ(小節の拍数)を含む音楽アレンジを提供するように動作し、ステップ5aに示すように、アレンジエンベロープを制作マネージャー13に返す。その後、制作マネージャー13は、アクティブ化されてMIDIセグメントをリクエストし、これらのMIDIセグメントは、アレンジ層4によって提供されるアレンジにソートされる。上述のように、これは例として説明された1つの可能な形態に過ぎない。特に、前述のように、当該システムは、アレンジ層4とパフォーマンス層8の一方又は両方を使用せずに実現でき、必要に応じて、これらの層の機能はシステムにおける他の場所で処理され、例えば、合成エンジン2の操作に組み込まれる。当該リクエストは、API入力(ここでは内部API入力17と呼ばれる)を介して加えてもよい。例えば、制作マネージャー13は、例えば、図2にそれぞれB1、B2、B3として示されるジョブリクエストなどの複数のMIDIジョブリクエストを生成することができる。各MIDIジョブリクエストをAPI 14の内部入力17に加え、API 14はジョブ識別子をMIDIジョブリクエストに割り当て、当該ジョブ識別子はID B1、ID B2及びID B3として表され、ステップ8では、一意の識別子で表記されるこれらのジョブをMIDIジョブキュー34に提供する。識別子は、制作マネージャー13に返される。これは、ステップ7で示される。
一意の識別子を持つジョブは、合成エンジン2に割り当てられ、様々なMIDIセグメントの人工知能/機械学習を使用して生成できる。合成エンジンは、上記のようにトレーニングされている。
合成エンジン2は、ステップ9に示されるように、MIDIセグメントをジョブデータベース24に出力する。MIDIセグメントは別個のデータベースに記憶されるか、又は、説明しようとする他の完了したジョブと同じジョブデータベースに記憶される。各MIDIセグメントは一意の識別子と関連付けられて記憶されるため、再び呼び出すことができる。次の段落で説明するように、制作マネージャー13は、周期的に、API 14をポーリングしてID B1、ID B2及びID B3によって識別されたジョブが完了したかどうかを確認する。これはステップ10で示されている。それらがアクセス準備ができると、上記のようにソートするためにアレンジ層にそれらを提供する制作マネージャー13に返される。ソートされたセグメントは制作マネージャー13を介して(MIDIトラックが必要な場合)出力に返されるか、又は、オーディオトラックが必要な場合、オーディオレンダリング層12に返される(ステップ12)。
この方法でジョブIDを割り当てることは様々な利点がある。リクエストを受信したときに、ジョブIDを当該リクエストに割り当てるため、リクエストが実際に処理される前(リクエストの性質によって、数秒以上かかる場合がある、特にオーディオの場合)、API 14は、ジョブIDを含む当該リクエストへの応答をリクエストのソースにすぐに返すことができる。例えば、オーディオ又はMIDIを実際に生成又は検索する前に、オーディオ又はMIDIへのリクエストを返すことができる。その後、リクエストのソースは、返されたジョブIDを使用してシステムを調べ(必要に応じて繰り返し)リクエストのデータ(例えばオーディオ又はMIDI)の準備ができているかどうかを調べ、準備ができている場合、システムは、リクエストされたデータを応答として返すことができる。これにより、リクエストの処理中に接続を開いたままにしておく必要がなくなり、信頼性とセキュリティの点で有益である。
オーディオエンジン:
次に、本明細書では説明する音楽制作システムでオーディオを再生する方法について説明する。図1及び図2を参照する。オーディオトラックへのリクエストは、上記のAPI 14の入力16で受信できるジョブのタイプの1つである。このコンテキストでは、APIは、オーディオトラックへのリクエストを受信するためのコンピュータインターフェースを提供する。この点について、オーディオトラックは、任意の適切な長さのオーディオ再生音楽である。それが1つの完全な音楽であると仮定すると、ある意味で、オーディオデータで再生して完全な楽曲として聴くことができる。当該着信リクエストには、ジョブIDが割り当てられている。上記のように、リクエストは、オーディオトラックを作成するための1つまたは複数のパラメータを含むことができる。なお、前記のように、いずれのトラック作成パラメータも指定せずにトラックをリクエストすることができ、この場合、システムは、例えば、デフォルトのパラメータに関するデフォルトのトラック作成プロセスを使用することができる。このようなデフォルトのパラメータは、入力16でのリクエストに応答して、制作管理コンポーネント13で生成される。例えば、デフォルトの継続時間は90秒で事前に設定できる。他のデフォルトの長さも可能である。当該リクエストに基づいて、複数の音楽パーツを確定する。これらは、入力16で提供されるリクエストにおける入力パラメータに基づいて、又は制作管理コンポーネントによって生成されたパラメータに従って、制作管理コンポーネント13で確定される。或いは、音楽パーツは、リクエストを行うユーザーによってリクエスト自体では提供されてもよい。この場合、制作管理コンポーネント13のリクエストから音楽パーツを抽出することができる。これは、音楽制作システムに幅広い柔軟性を提供する。つまり、ユーザーからの入力がない場合、又は、ユーザーによって提供される制約が多くある場合に働くことができ、トラック作成パラメータ及び/又は音楽パーツを含む。ステップS602で音楽パーツの確定が示される。当該リクエストに従ってオーディオ制作設も生成される。これはステップS603に示される。ステップS602及びS603が順次又は並行して実行できることは注意されたい。これらは、制作管理コンポーネント又は音楽制作システム内の任意の適切なコンポーネントによって実行できる。
ステップS604で、オーディオ制作設及び音楽パーツはオーディオレンダリングコンポーネントに提供される。なお、デジタル音楽記号フォーマットの音楽セグメントシーケンスはオーディオレンダリングコンポーネントに提供される。当該シーケンスは、合成エンジンによって生成されるか、又は他の場所で取得され、MIDIセグメントの形式である。これらのMIDIセグメントは、本明細書で前述したように生成できるが、必ずしもこのように生成する必要はない。また、MIDIセグメントのアレンジシーケンスをオーディオレンダリングコンポーネント12に提供することができる。当該アレンジ順序は、上述したようなアレンジコンポーネント4から取得してもよいし、合成エンジンとアレンジエンジンの組み合わせによって生成されたアレンジ順序であってもよい。或いは、アレンジされたMIDIシーケンスは、トラックリクエストを行うユーザーによって提供されてもよい。
ステップS605で、オーディオレンダリングコンポーネント12はオーディオ制作設、音楽パーツ、及びMIDIシーケンスを使用して音楽トラックのオーディオデータをレンダリングする。ステップS606で、音楽トラックはAPIコンポーネントの出力ポート18を介して、リクエストを行うユーザーに返される。
次に、ステップ603のより詳細な説明を行い、ステップ603では、オーディオ制作設を選択する。制作管理コンポーネント13は、1つまたは複数のタグを使用して、図1で23と表記された設のデータベースにアクセスする。1つまたは複数のタグは、入力16で入力されたリクエストで定義されるか、又は入力リクエストにおける情報に基づいて制作管理コンポーネントによって生成されるか、又は制作管理コンポーネントで自動的に生成される。
例えば、スタイルパラメータがリクエストで定義される場合、当該スタイルパラメータに適したタグをタグデータベース20からリクエストする。或いは、制作コンポーネント13により、1つまたは複数のタグがランダムに選択されてもよい。設データベース23の構成を図7に示す。各アレンジ設データベースオブジェクトが1つまたは複数のタグに関連付けられているため、データベース23はタグを使用して照会することができる。単一のアレンジ設オブジェクトに関連付けられるタグの数に制限はない。1つまたは複数のタグを提供して、提供された全てのタグがマークされたアレンジ設オブジェクトの全てを返すことによって、アレンジ設オブジェクトのデータベースに照会することができる。データベース23にはタグT1及びT2に関連付けられたアレンジ設オブジェクトO1が示され、オブジェクトO1は任意の数のタグに関連付けられてもよい。各アレンジ設オブジェクトは3組の設を含む。一組のアレンジ設70、一組の合成設72、及び一組のオーディオ設74がある。これは単なる例であり、設グループの数は増減してもよい。設のグループは、システムのアーキテクチャを反映しており、上記のように柔軟に設計できる。例えば、アレンジ設70は、アレンジが合成の一部として処理されるように、合成設72に組み込まれてもよい。
これらのグループは、(1つまたは複数)タグで指示されたタイプに従って完成した音楽セグメントで協働するように定義される。既に説明したように、タグは、ジャンル/ムード/楽器などを定義することができる。制作管理コンポーネント13がデータベース23から呼び出した設は音楽の制作を制御するために使用される。各音楽パーツの各グループから設の特定の集合を選択するか、又は1つまたは複数の設を複数の音楽パーツに適用することができる。図8を参照して、オーディオ制作に使用される選択フローが示される。特定のタグに使用される1つまたは複数のオーディオ設セットから各パーツの楽器を選択する。これは、図8のクロスハッチングによって示されている。各パーツの楽器を選択する1つの方法は、当該パーツに適した設セットから楽器をランダムに選択することである。オーディオ設内には、例えば低音、メロディー、ハーモニーなどの各パーツに関連付けられる設カテゴリがあり得る。
サウンド設のセットから一つの設を選択することによって、当該楽器の特定のサウンドを選択する。この選択は、ランダムであってもよい。各サウンドに1つまたは複数のサウンド効果を選択することができる。再び、これは、特定のサウンドに適した一連のサウンド効果からランダムに選択することができる。これらの選択を実現するために、制作管理コンポーネント13は、特定の楽器の特定の部分、特定のサウンド、特定の楽器、特定のサウンド効果に対する適合性に関する知識が埋め込まれた決定木を使用する。
このコンテキストでの「サウンド」という用語は仮想楽器のプリセットを指す。仮想計器は、当技術分野における用語であり、ソフトウェアシンセサイザーを指し、仮想計器プリセットとは、仮想計器を構成するための1つまたは複数の設のセットと一緒になっていることが好ましい特定の仮想計器を指す。仮想楽器プリセットは、特定の仮想楽器と仮想楽器の音色又は品質を定義した。異なる仮想計器プリセットは、同じ又は異なる仮想計器に関してもよい。例えば、ピアノをシミュレートする仮想楽器の場合、仮想楽器をグランドピアノのように鳴らすプリセットと、アップライトピアノのように聞こえる別のプリセットがあり得る。楽器にサウンドを選択するときに、システムはこれらのプリセットから選択する。仮想計器を構成する設を1つのファイルにまとめることは便利である。
タグに関連付けられた合成設は、MIDIセグメントの出力をトラックに組み込むように制御するために、合成エンジン2に提供できる。タグに関連付けられるアレンジ設70は、合成エンジンからのMIDIセグメントがタグの支配下でどのようにアレンジされるかを確定するために、アレンジ層4に適用できる。
完成したトラックは、着信リクエストに割り当てられたジョブIDとともに、ジョブデータベース24に記憶される。
オーディオトラックは、オーディオデータ自体として保存するのではなく、合成エンジン2から出力されたソートされたMIDI及び/又は(1つまたは複数)ソートされていないMIDIループ又は(1つまたは複数)そのセグメントとともに、トラックを生成するために選択する設(トラック設80)に従って記憶される。その後、ソートされたMIDIを音楽パーツ及び選択されたオーディオ制作設とともにオーディオレンダリングコンポーネント12に提供して(図6のフローのステップS604のように)、トラックを再生成することができる。トラック設80は、選択されたオーディオ設だけでなく、合成設とアレンジ設からも構成される。つまり、トラック設80には、制作管理コンポーネント13による選択の全てが含まれるため、オーディオトラックを完全に再生するために必要な設が全て含まれる。同じトラックを再生するために、これらの記憶されたトラック設80は、図6のステップS604では、同じトラックを作成するために使用することができる。この場合、トラック設80は再生性設と呼ばれる。
図2に戻ると、トラックへのリクエストのコンテキストでは、割り当てられたジョブID(ID A)はトラックの識別子を構成する。トラック設80はトラック識別子ID Aと関連付けられてジョブデータベース24に記憶される。さらに、識別子ID B1、ID B2及びID B3はトラック識別子IDAと関連付けられてジョブデータベース24に記憶されるので、トラック識別子ID Aを使用してオーディオトラックを構築するためのMIDIセグメントを検索することができる。これらのMIDIセグメントは、ソートされているか又はソートされていないMIDIセグメント、又は両方の組み合わせであってもよい。ID Aに関連づけられてジョブデータベース24に記憶される情報は、後でオーディオトラックを再生するために使用できるように十分に包括的である。
次に、図11を参照して、既存のトラックを編集するための例示的なプロセスを説明し、ステップS1102では、API 14で編集リクエスト52が受信されることを示している。編集リクエスト52は、編集対象のトラックのジョブID 54と少なくとも1つの新しい設56とを含み、トラックは当該新しい設に従って編集されるべきである。編集リクエストは実際に、完全に新しい音楽トラックを作成するリクエストであるが、以前のトラックを生成するための設及び/又はMIDIセグメントの少なくとも1つを使用する。編集対象のトラックは、オーディオトラック又はMIDIトラックであってもよい。ステップS1104では、編集リクエスト52への応答59をリクエスト52のソースに返す。応答59は、編集リクエスト52自身に割り当てられたジョブID 58を含む。なお、編集リクエスト52自身の当該ジョブID 58は、当該トラックを作成する以前のリクエストに割り当てられた編集対象のトラックのジョブID 54と異なる(当該以前のリクエストはゼロからトラックを作成するリクエストであってもよく、或いは、自身は既存のトラックを編集するリクエストであってもよい)。ステップS1106では、編集リクエスト52は、上記の方式で制作管理コンポーネント13に提供される。編集対象のトラックのジョブID 54を使用し、制作マネージャー13は、ステップS1110で受信したジョブID 54に関連付けられるトラック設80を検索するために、ジョブID 54を使用してジョブデータベース24に照会する(S1108)。トラック設80にはトラックを作成するためのMIDIセグメントへの1つ以上の参照が含まれる場合、必要に応じて、制作マネージャー13によって検索できる。上記のように、そのような参照は、MIDIセグメントがジョブデータベース24に記憶されるジョブIDの形式であってもよく、或いは、MIDIセグメントが保存される別個のデータベースへの参照であってもよい。この観点から、オーディオトラックの編集バージョンの作成に使用されるトラック設がジョブデータベース24から検索された1つ以上のトラック設80と、編集リクエスト52で提供される1つ以上の新しい設56との組み合わせであるという事実を除いて、当該方法は図6を参照して説明した方法と同じ方法で実行される。
新しい設56の一例は、トラック継続時間であり、ユーザーが既存のトラックのより長いバージョン又はより短いバージョンを作成したい場合、ユーザーは当該トラック継続時間を提供することができる。簡単な場合に、全てのオリジナルのトラック設80は、オリジナルのMIDIセグメントと共に、トラックの編集バージョンを作成するために使用できるが、オリジナルの継続時間は新しい継続時間に置き換えられる。或いは、新しい継続時間により適する新しいMIDIセグメントを合成することができ、合成エンジン2に対する内部リクエストが含まれる。これは単なる例であり、より複雑なトラック編集が想定される。図11の例では、編集リクエスト52で1つまたは複数の新しい設56が提供されるが、より複雑なシナリオでは、制作マネージャー13は実際に、編集リクエスト52に応答してこのような(1つまたは複数の)新しい設56自体を選択することができ、例えば、編集リクエスト52に指示される設に基づいて付加設を選択するか、又は何らかの他の手段により(1つまたは複数の)新しい設を自動的に選択する。
図11のステップS1112に示すように、編集リクエスト52に割り当てられたジョブID 58は、80’として表記される編集トラックのトラック設と共に、他のリクエストと同様にジョブデータベース24に記憶される。トラック設80’は、トラックの編集バージョンを生成するために既に使用された設であり、また、上記のように、これらの設は、1つまたは複数のオリジナルのトラック設80と、上記の方式で編集リクエスト52に応答して確定された(1つまたは複数の)新しい設56との組み合わせから構成される。
上記の様々なコンポーネント、特に制作管理コンポーネント13、制作エンジン3(即ち、オーディオレンダリングコンポーネント12、パフォーマンスコンポーネント10、及びアレンジコンポーネント4)及び合成エンジン2は、ソフトウェアで実現されるシステムの機能コンポーネントである。つまり、合成システムは、例えば汎用CPU、GPU又はその他の専用処理ハードウェアなどの専用処理ユニット、又は汎用処理ハードウェアと専用処理ハードウェアとの組み合わせなどの、1つまたは複数の処理ユニットを含み、前記1つまたは複数の処理ユニットは、コンピュータ可読命令(コード)を実行することによって、1つまたは複数の処理ユニットに明細書の各コンポーネントの機能を実現させるように配置される。GPUなどの専用処理ハードウェアは特に、制作エンジン2のML機能の特定の部分を実現するのに適しており、MLを使用してこれらの機能を実現するときに、他のコンポーネントを実現することもできる。(1つまたは複数)処理ユニットは、コンピュータ装置又はコンピュータ装置を協調するネットワーク(例えばサーバー又はサーバーネットワーク)で実施できる。
図10は、API 14のいくつかの構成を説明する概略ブロック図を示し、コンピュータインターフェース42と、コンピュータインターフェース42に結合されるリクエストマネージャー44とを含む。リクエストマネージャー44は、上記のようにコンピュータインターフェース42で受信されたリクエストを管理する。特に、リクエストマネージャー44は各リクエストをジョブキュー31のうち適切な1つに割り当て、また、一意のジョブ識別子(ID)を各リクエスト(内部リクエストと外部リクエストの両方)に割り当てる。ジョブIDは、後で説明する様々な目的に使用される。API 14は、サーバー(APIサーバー)又はサーバープールとして実現されてもよい。後者の場合、リクエストマネージャー42はサーバープールとして実現され、コンピュータインターフェース42は少なくとも部分的にロードバランサーによって提供でき、当該ロードバランサーは、サーバープールに代わってリクエストを受信し、各リクエストをサーバープール44のサーバーの1つに割り当て、当該サーバーはそれを適切なジョブキューに割り当てる。より一般的には、API 14は、少なくとも1つのコンピュータ装置(例えば、サービス)と、本明細書で説明されるAPI機能を実行するように配置される任意の関連するハードウェアの形態である。コンピュータインターフェース42は、リクエストを送受信するハードウェアとソフトウェアの組み合わせを表し、リクエストマネージャー44は、それらのリクエストを管理するハードウェアとソフトウェアの組み合わせを表す。リクエストは、コンピュータインターフェースのネットワークアドレス、例えば、それに関連付けられるURL又はURIに送信される。API 14は、この目的のために提供される少なくとも1つのWebアドレスを有するWeb APIであってもよい。着信要求を受信するために、1つまたは複数のこのようなネットワークアドレスを提供できる。
フィードバックに基づく自動学習
このシステムは例えば、ニューラルネットワークなどの機械学習(ML)コンポーネントを後述する合成エンジン2に組み込む。これらは、トレーニング可能なコンポーネントであり、ユーザーがシステムに参加するときに提供したフィードバックに従って学習することができる。
基本的な技術は、図12の符号1200で表される効率的なフィードバックループを利用し、ユーザーはJukedeckのAIソフトウェアとインタラクションしてトラックを作成、聴き、変更し、最終にダウンロードすればするほど、ユーザーデータがシステムにフィードバックされて、音楽を合成するときに、MLコンポーネントがより効率的に完成する。当該ユーザーデータを利用する機能により、ユーザーインタラクションに基づいて基本的な技術を継続的に改善することができる。
そのため、例えば合成エンジン2や制作エンジン3などのJukecapoシステムの少なくとも1つのコンポーネントは、システムのユーザーから収集された情報に基づいてその操作を調整するように配置できる。この情報は、例えばトラック又はMIDI作成リクエスト、検索リクエスト、編集リクエスト、ダウンロードリクエストなどの様々なソースから収集することができ、又は、システムのユーザーから取得された任意の他の情報源から収集することができる。
適用
当該技術は、音楽が使用されるあらゆる状況に適用することができ、それを、視覚的/没入型メディア(例えば、ビデオ、ソーシャルメディア、テレビ、広告、ゲーム、バーチャルリアリティなど)に使用されるオーディオ、個人的な聴取(例えば、音楽ストリーミング、ラジオなど)及び音楽作成ツール(例えば、音楽制作ソフトウェア)を含む複数のカテゴリに関連付ける。
視覚的/没入型メディア(例えば、ビデオ、ソーシャルメディア、広告、ゲーム、AR/VRなど)
ユーザーが作成したビデオ、ビデオ広告、ゲーム、拡張現実コンテンツやバーチャルリアリティコンテンツなど、以前よりも多くのコンテンツが作成される。しかしながら、このコンテンツに音楽を探すことは伝統的に非常に困難であり、音楽は通常高価であり、権利が制限され、音楽を問題のコンテンツに合わせるために手動で編集する必要がある。
本技術はこれらの問題を解決し、低コストで明確な権利、及びパーソナライズされたコンテンツを大規模に提供する。さらに、様々なデータ入力に応答してトラックを作成するシステムの機能は、視聴覚体験のまったく新しい領域を開き、音楽の好み(ジャンル、リズムなど)、状況データ(ムード、時刻など)、人口統計データ(場所、年齢、性別など)の入力に基づいて、パーソナライズされた音楽をコンテンツの消費者に提供できるようにし、これにより、コンテンツの効率を大幅に向上させる。
また、自動音楽制作エンジン3が事前に再生された人間が合成したステムを再アレンジする能力は、既存の制作ライブラリ内の人間が合成した曲をユーザーのニーズに適合することができることを意味する。例えば、長さの異なる複数のバージョンのトラックを自動的に生成することができる。
パーソナライズされたユースケース
1つのユースケースは動的な音楽作成であり、当該動的な音楽作成により、各ユーザーごとに音楽の好みに応じて独特のパーソナライズされた音楽を生成することができ、当該独特のパーソナライズされた音楽は、ムード、時間帯、場所、その他のコンテキスト入力など、他の様々な要因の影響を受ける。また、本技術により、音楽はこれらの要因にリアルタイムで反応することができる。
音楽作成ツール(例えば音楽制作ソフトウェア)
従来から、音楽は非常に複雑なため、音楽の作成は主に専門家の分野で行われる。時間の経過とともに、継続的な技術の進歩(例えばシンセサイザー、デジタルオーディオワークステーションなど)により、より多くの人々が音楽制作プロセスに参加できるようになっている。この技術はさらなる進歩であり、音楽にあまり慣れていない人に(例えばメロディーのハーモニーなど)音楽的な支援を提供したり、音楽に慣れた人に音楽のインスピレーションを提供したり、効率を高めたりするために使用できる。
まとめ
ここで説明する動的な音楽作成機能は、次の目的で使用できる。様々なタイプのコンテンツ及び様々なシナリオ(例えば、ビデオ、広告、ビデオゲーム、小売など)に対してトラックを提供し、(ii)リスナー固有の要因に動的に応答できる、従来の音楽配信チャネル(ストリーミングサービスなど)を介して配信するためのトラックを提供し、(iii)作成プロセス中にミュージシャンに役立つツールを提供する。
上記は特定の実施形態に関して説明したが、これらは網羅的ではない。本発明の範囲は、説明された実施形態によって限定されず、添付の特許請求の範囲によって限定されるべきである。

Claims (10)

  1. 音楽制作システムであって、
    1つの音楽に対する外部リクエストを受信するための少なくとも1つの入力と、第1の音楽データが含まれる1つの音楽を含むか又は指示する、前記外部リクエストに対する応答を送信するための少なくとも1つの出力とを含むコンピュータインターフェースと、
    少なくとも第1の入力設に従って第2の音楽データを処理して、前記第1の音楽データを生成するように配置される第1の音楽制作コンポーネントと、
    前記コンピュータインターフェースを介して内部リクエストを受信し、少なくとも前記内部リクエストによって指示される第2の入力設に基づいて前記第2の音楽データを提供するように配置される第2の音楽制作コンポーネントと、
    前記外部リクエストに応答して前記第1の入力設と前記第2の入力設を確定し、前記コンピュータインターフェースを介して前記内部リクエストを起動するように配置されるコントローラーと、
    を含む音楽制作システム。
  2. 前記第1の音楽制作コンポーネントは、前記第1の音楽データをオーディオデータとして生成するように配置されるオーディオエンジンである請求項1に記載の音楽制作システム。
  3. 前記第1の音楽制作コンポーネントは、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントの形で、前記第1の音楽データを生成するように配置される請求項1に記載の音楽制作システム。
  4. 前記外部リクエストを前記コントローラーに割り当て、前記内部リクエストを前記第2の音楽制作コンポーネントに割り当てるように配置されるリクエストマネージャーを含む請求項1に記載の音楽制作システム。
  5. 前記リクエストマネージャーは、前記外部リクエストを第1のキューに割り当て前記コントローラーに処理させ、前記内部リクエストを第2のキューに割り当て前記第2の音楽制作コンポーネントに処理させるように配置される請求項4に記載の音楽制作システム。
  6. 対応する識別子を前記外部リクエストと前記内部リクエストに指定するように配置されるリクエストマネージャーを含み、前記コントローラーは、前記第1の音楽データを、前記外部リクエストに対して指定した前記識別子と関連付けて電子メモリに記憶し、前記第2の音楽データを、前記内部リクエストに対して指定した前記識別子と関連付けて前記電子メモリに記憶するように配置される請求項1に記載の音楽制作システム。
  7. 音楽制作システムであって、
    リクエストを受信するための少なくとも1つの入力と、各前記リクエストに対する応答を出力するための少なくとも1つの出力とを含むコンピュータインターフェースと、
    各前記リクエストのタイプに基づいて、各前記リクエストを複数のジョブキューの1つに割り当てるように配置されるリクエストマネージャーと、
    前記ジョブキューのうち第1のジョブキューに割り当てられた第1のリクエストに応答して1つの音楽に使用されるオーディオデータを生成するように配置されるオーディオエンジンであって、前記第1のリクエストに対する応答により、前記オーディオデータを前記リクエストのソースで使用可能にするオーディオエンジンと、
    前記ジョブキューのうち第2のジョブキューに割り当てられた第2のリクエストに応答して、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを生成するように配置される合成エンジンであって、前記第2のリクエストに対する応答により、前記少なくとも1つの音楽セグメントを前記リクエストのソースで使用可能にする合成エンジンと、
    を含む音楽制作システム。
  8. 音楽制作システムで実行される方法であって、
    コンピュータインターフェースで1つの音楽に対する外部リクエストを受信するステップと、
    前記外部リクエストに応答して、少なくとも第1の入力設と第2の入力設を確定するステップと、
    前記コンピュータインターフェースを介して、前記第2の入力設を指示する内部リクエストを起動するステップと、
    第2の音楽制作コンポーネントでは、前記コンピュータインターフェースを介して前記内部リクエストを受信し、前記第2の入力設に基づいて第2の音楽データを提供するステップと、
    第1の音楽制作コンポーネントでは、前記第1の入力設に従って前記第2の音楽データを処理して、第1の音楽データを生成するステップと、
    前記第1の音楽データが含まれる前記1つの音楽を含むか又は指示する、前記外部リクエストに対する応答を送信するステップと、
    を含む方法。
  9. 音楽制作システムで実行される方法であって、
    コンピュータインターフェースで複数のリクエストを受信するステップと、
    各前記リクエストのタイプに基づいて、各前記リクエストを複数のジョブキューの1つに割り当てるステップと、
    オーディオエンジンでは、前記リクエストにおける前記ジョブキューのうち第1のジョブキューに割り当てられた第1のリクエストに応答して、1つの音楽のためのオーディオデータを生成するステップと、
    前記コンピュータインターフェースでは、前記第1のリクエストに対する応答を出力し、前記応答により、前記オーディオデータを前記リクエストのソースで使用可能にするステップと、
    合成エンジンでは、前記リクエストにおける前記ジョブキューのうち第2のジョブキューに割り当てられた第2のリクエストに応答して、デジタル音楽記号フォーマットの少なくとも1つの音楽セグメントを生成するステップと、
    前記コンピュータインターフェースでは、前記第2のリクエストに対する応答を出力し、前記応答により、前記少なくとも1つの音楽セグメントを前記リクエストのソースで使用可能にするステップと、
    を含む方法。
  10. 非一時的なコンピュータ可読記憶メディアに記憶される実行可能な指令を含むコンピュータプログラムであって、前記実行可能な指令は、音楽制作システムで実行される場合に、前記音楽制作システムに請求項8又は9に記載されたステップを実施させるように配置されるコンピュータプログラム。
JP2020535105A 2017-12-18 2018-12-17 モジュラー自動音楽制作サーバー Active JP7041270B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
GB1721215.0 2017-12-18
GB1721212.7 2017-12-18
GBGB1721215.0A GB201721215D0 (en) 2017-12-18 2017-12-18 Automated music production
GBGB1721216.8A GB201721216D0 (en) 2017-12-18 2017-12-18 Automated music production
GBGB1721212.7A GB201721212D0 (en) 2017-12-18 2017-12-18 Automated music production
GB1721216.8 2017-12-18
GBGB1802182.4A GB201802182D0 (en) 2018-02-09 2018-02-09 Automated music production
GB1802182.4 2018-02-09
PCT/EP2018/085326 WO2019121576A2 (en) 2017-12-18 2018-12-17 Automated music production

Publications (2)

Publication Number Publication Date
JP2021507309A JP2021507309A (ja) 2021-02-22
JP7041270B2 true JP7041270B2 (ja) 2022-03-23

Family

ID=64755558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020535105A Active JP7041270B2 (ja) 2017-12-18 2018-12-17 モジュラー自動音楽制作サーバー

Country Status (5)

Country Link
US (2) US20200380940A1 (ja)
JP (1) JP7041270B2 (ja)
CN (2) CN111512359B (ja)
SG (1) SG11202005820TA (ja)
WO (3) WO2019121577A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019121577A1 (en) * 2017-12-18 2019-06-27 Bytedance Inc. Automated midi music composition server
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data
US10424280B1 (en) * 2018-03-15 2019-09-24 Score Music Productions Limited Method and system for generating an audio or midi output file using a harmonic chord map
JP7223848B2 (ja) 2018-11-15 2023-02-16 ソニー・インタラクティブエンタテインメント エルエルシー ゲーミングにおける動的な音楽生成
US11328700B2 (en) * 2018-11-15 2022-05-10 Sony Interactive Entertainment LLC Dynamic music modification
WO2020153234A1 (ja) * 2019-01-23 2020-07-30 ソニー株式会社 情報処理システム、情報処理方法、およびプログラム
US11232773B2 (en) * 2019-05-07 2022-01-25 Bellevue Investments Gmbh & Co. Kgaa Method and system for AI controlled loop based song construction
CN112420002A (zh) * 2019-08-21 2021-02-26 北京峰趣互联网信息服务有限公司 乐曲生成方法、装置、电子设备及计算机可读存储介质
EP3816989B1 (en) * 2019-10-28 2022-03-02 Spotify AB Automatic orchestration of a midi file
US11257471B2 (en) * 2020-05-11 2022-02-22 Samsung Electronics Company, Ltd. Learning progression for intelligence based music generation and creation
CN113763910A (zh) * 2020-11-25 2021-12-07 北京沃东天骏信息技术有限公司 一种音乐生成方法和装置
US11978473B1 (en) * 2021-01-18 2024-05-07 Bace Technologies LLC Audio classification system
CN112951183B (zh) * 2021-02-25 2022-08-16 西华大学 一种基于深度学习的音乐自动生成并评价的方法
US11875764B2 (en) * 2021-03-29 2024-01-16 Avid Technology, Inc. Data-driven autosuggestion within media content creation
US11942065B2 (en) * 2021-05-27 2024-03-26 Bellevue Investments Gmbh & Co. Kgaa Method and system for automatic creation of alternative energy level versions of a music work
US20230076959A1 (en) * 2021-08-27 2023-03-09 Beatflo Llc System and method for synchronizing performance effects with musical performance
US20230133432A1 (en) * 2021-10-29 2023-05-04 Masary Studios Massively distributed metacomposition systems and methods
CN114267318A (zh) * 2021-12-31 2022-04-01 腾讯音乐娱乐科技(深圳)有限公司 Midi音乐文件的生成方法、存储介质和终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086628A2 (en) 2000-05-05 2001-11-15 Sseyo Limited Automated generation of sound sequences
JP2003195866A (ja) 2001-12-25 2003-07-09 Yamaha Corp 通信ネットワークを介して自動作詞・作曲された音楽媒体を提供するシステム及びプログラム
JP2004226892A (ja) 2003-01-27 2004-08-12 Yamaha Corp 楽曲データ生成装置および楽曲データ生成方法を実現するためのプログラム
JP2016099445A (ja) 2014-11-20 2016-05-30 カシオ計算機株式会社 自動作曲装置、方法、およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
US6504089B1 (en) * 1997-12-24 2003-01-07 Canon Kabushiki Kaisha System for and method of searching music data, and recording medium for use therewith
EP1274069B1 (en) * 2001-06-08 2013-01-23 Sony France S.A. Automatic music continuation method and device
US7076035B2 (en) * 2002-01-04 2006-07-11 Medialab Solutions Llc Methods for providing on-hold music using auto-composition
US7169996B2 (en) * 2002-11-12 2007-01-30 Medialab Solutions Llc Systems and methods for generating music using data/music data file transmitted/received via a network
GB0420180D0 (en) * 2004-09-10 2004-10-13 Tao Group Ltd Extendible media content rendering system
US7491878B2 (en) * 2006-03-10 2009-02-17 Sony Corporation Method and apparatus for automatically creating musical compositions
US7790974B2 (en) * 2006-05-01 2010-09-07 Microsoft Corporation Metadata-based song creation and editing
US7863511B2 (en) * 2007-02-09 2011-01-04 Avid Technology, Inc. System for and method of generating audio sequences of prescribed duration
US7838755B2 (en) * 2007-02-14 2010-11-23 Museami, Inc. Music-based search engine
JP4640407B2 (ja) * 2007-12-07 2011-03-02 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
US8785760B2 (en) * 2009-06-01 2014-07-22 Music Mastermind, Inc. System and method for applying a chain of effects to a musical composition
KR102068342B1 (ko) * 2013-03-07 2020-01-20 삼성전자주식회사 메모리 제어기 및 그것을 포함하는 메모리 시스템
US9721551B2 (en) * 2015-09-29 2017-08-01 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptions
US20180032611A1 (en) * 2016-07-29 2018-02-01 Paul Charles Cameron Systems and methods for automatic-generation of soundtracks for live speech audio
WO2019121577A1 (en) * 2017-12-18 2019-06-27 Bytedance Inc. Automated midi music composition server
KR102621546B1 (ko) * 2018-05-24 2024-01-08 에이미 인코퍼레이티드 음악 생성기
US20210383781A1 (en) * 2020-06-08 2021-12-09 William Frederick Moyer Systems and methods for score and screenplay based audio and video editing
US20240054911A2 (en) * 2020-12-02 2024-02-15 Joytunes Ltd. Crowd-based device configuration selection of a music teaching system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086628A2 (en) 2000-05-05 2001-11-15 Sseyo Limited Automated generation of sound sequences
JP2003195866A (ja) 2001-12-25 2003-07-09 Yamaha Corp 通信ネットワークを介して自動作詞・作曲された音楽媒体を提供するシステム及びプログラム
JP2004226892A (ja) 2003-01-27 2004-08-12 Yamaha Corp 楽曲データ生成装置および楽曲データ生成方法を実現するためのプログラム
JP2016099445A (ja) 2014-11-20 2016-05-30 カシオ計算機株式会社 自動作曲装置、方法、およびプログラム

Also Published As

Publication number Publication date
WO2019121576A2 (en) 2019-06-27
WO2019121577A1 (en) 2019-06-27
CN111512359B (zh) 2023-07-18
SG11202005820TA (en) 2020-07-29
WO2019121576A3 (en) 2019-08-01
CN111566724A (zh) 2020-08-21
WO2019121574A1 (en) 2019-06-27
CN111566724B (zh) 2023-06-27
US11610568B2 (en) 2023-03-21
US20200380940A1 (en) 2020-12-03
JP2021507309A (ja) 2021-02-22
US20200394990A1 (en) 2020-12-17
CN111512359A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
JP7041270B2 (ja) モジュラー自動音楽制作サーバー
US11450301B2 (en) Music generator
CN103597543B (zh) 语义音轨混合器
CN108369799B (zh) 采用基于语言学和/或基于图形图标的音乐体验描述符的自动音乐合成和生成的机器、系统和过程
WO2020121225A1 (en) Automated music production
WO2020000751A1 (zh) 自动作曲方法、装置、计算机设备和存储介质
CN113611268A (zh) 音乐作品生成、合成方法及其装置、设备、介质、产品
Holbrow Fluid Music
US20240038205A1 (en) Systems, apparatuses, and/or methods for real-time adaptive music generation
US20240055024A1 (en) Generating and mixing audio arrangements
Hepworth-Sawyer et al. Innovation in music: future opportunities
Diaz Signifyin (g) producers: J Dilla and contemporary hip-hop production
KR20240021753A (ko) 청각적으로 올바른 형태를 가지는 음악 작품을 자동으로 생성하는 시스템 및 방법
Lansang et al. Parallel and Contemporary Vocal Practices: Vibrato, Historically Informed Performance, and New Music
Andriotis Vocem Internum
Ramirez The online composer–audience collaboration

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200716

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220310

R150 Certificate of patent or registration of utility model

Ref document number: 7041270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150