JP2016534402A - 意味データを用いて自動オーディオ生成を行うシステム及び方法 - Google Patents

意味データを用いて自動オーディオ生成を行うシステム及び方法 Download PDF

Info

Publication number
JP2016534402A
JP2016534402A JP2016537058A JP2016537058A JP2016534402A JP 2016534402 A JP2016534402 A JP 2016534402A JP 2016537058 A JP2016537058 A JP 2016537058A JP 2016537058 A JP2016537058 A JP 2016537058A JP 2016534402 A JP2016534402 A JP 2016534402A
Authority
JP
Japan
Prior art keywords
audio
generated
audio signal
semantic
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016537058A
Other languages
English (en)
Other versions
JP6585049B2 (ja
Inventor
ジョン テレル,マイケル
ジョン テレル,マイケル
マンスブリッジ,スチュアート
ディー. リース,ジョシュア
ディー. リース,ジョシュア
マン,ブレヒト ド
マン,ブレヒト ド
Original Assignee
ランダー オーディオ インコーポレイテッド
ランダー オーディオ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ランダー オーディオ インコーポレイテッド, ランダー オーディオ インコーポレイテッド filed Critical ランダー オーディオ インコーポレイテッド
Publication of JP2016534402A publication Critical patent/JP2016534402A/ja
Application granted granted Critical
Publication of JP6585049B2 publication Critical patent/JP6585049B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/091Info, i.e. juxtaposition of unrelated auxiliary information or commercial messages with or between music files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

自動オーディオ生成を行うコンピュータ実装方法であって、処理すべきオーディオ信号を受信することと、意味情報を受信することと、受信した意味情報を用いて少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定することと、その生成データを用いて処理すべきオーディオ信号を処理することによって、生成されたオーディオ信号を取得することと、生成されたオーディオ信号を出力することと、を含む、コンピュータ実装方法を記載する。

Description

発明の詳細な説明
[技術分野]
関連出願の相互参照
この出願は、2013年8月28日出願の米国仮特許出願番号61/871,168「意味規則を用いて自動オーディオミキシングを行うシステム及び方法(System and Method for performing automatic audio mixing using semantic rules)」の優先権を主張し、その明細書を援用により本明細書に組み込む。
以下の記載は、自動オーディオ処理を行うシステム及び方法に関し、より詳細には、意味データを用いることに関する。
[背景技術]
オーディオ生成(例えば、スタジオ録音、ライブパフォーマンス、放送)の全ての分野において、様々な信号処理ツールを用いたオーディオ信号処理が一般的に行われている。これは、個々のオーディオ信号を処理すること、例えば、仕上がったミックスをマスタリングすることと、異なる音響源、例えば、アンサンブルの構成楽器によって生成された複数のオーディオ信号を処理して組み合わせることとを含む。この処理の目的は、複数の信号を組み合わせる時に高品質の混合信号を生成すること等、結果として生じるオーディオ信号の美的特性を向上させること、または、mp3等のデータ圧縮による信号の劣化を最小限にすることや、航空機上で背景雑音の影響を軽減する等、送信に関する機能的制限を守ることである。現在、この作業は、熟練した音響技術者が手動で行っており、音響技術者は、通常、特定の生成分野を専門としている。音響技術者が行うタスクは、非常に労働集約的となることがあり、素人がその分野に入るには険しい学習曲線があり、また、音響機器の購入には、法外な費用が掛かることが多い。
従って、自動オーディオ生成が必要とされている。
[発明の概要]
第1の一般的な態様において、自動オーディオ生成を行うコンピュータ実装方法を提供する。当該コンピュータ実装方法は、処理すべきオーディオ信号を受信することと、意味情報を受信することと、受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定することと、生成データを用いて処理すべきオーディオ信号を処理し、生成されたオーディオ信号を取得することと、生成されたオーディオ信号を出力することと、を含む。
一実施形態において、意味情報は、処理すべきオーディオ信号に関する。
一実施形態において、意味情報は、ユーザインタフェースから受信される。
一実施形態において、方法は、受信したオーディオ信号から意味情報を決定することをさらに含む。
別の実施形態において、意味情報は、基準オーディオ信号に関し、この方法は、基準オーディオ信号を受信することと、当該基準オーディオ信号から意味情報を抽出することとをさらに含む。
一実施形態において、意味情報は、染色体特徴(chromosomal features)、分類特徴、及び、生成特徴の少なくとも1つを含む。
一実施形態において、生成データは、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクション各静的特性と、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む。
一実施形態において、生成データを含む意味ベースの規則を決定するステップは、複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、基準処理アクションの各基準静的特性、及び、各基準生成特徴を含む複数の基準記録を含むデータベースにアクセスすることと、意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の少なくとも1つに一致する少なくとも1つの基準記録を識別することと、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的特性と、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つに、少なくとも1つの識別された基準記録を用いて値を割り当てること、とを含む。
一実施形態において、方法は、ターゲット生成特徴に割り当てられた値を用いて、所与の処理アクションの動的特性を決定することをさらに含む。
一実施形態において、オーディオ信号を処理するステップは、構成に従って、静的及び動的特性を用いてオーディオ信号に対して所与のオーディオ処理アクションを行うことを含む。
一実施形態において、方法は、所与のオーディオ処理アクション間の生成特徴の値を決定することと、それに従って動的特性を修正することとをさらに含む。
一実施形態において、処理すべきオーディオ信号を受信するステップと、生成されたオーディオ信号を出力するステップは、処理すべきオーディオ信号と生成されたオーディオ信号が同期されるように実質的にリアルタイムで行われる。
一実施形態において、生成データは、処理すべきオーディオ信号の1つの領域のみに関して決定される。
一実施形態において、方法は、ユーザ生成プリファレンスを受信するステップをさらに含み、前述のオーディオ信号を処理することは、生成データとユーザ生成プリファレンスを用いて行われる。
一実施形態において、方法は、生成されたオーディオ信号の評価をユーザから受信することと、受信した評価を用いてユーザ生成プリファレンスを決定することとをさらに含む。
第2の一般的な態様おいて、上記の方法のステップを行う処理ユニットが実行するステートメント及び命令を記録したコンピュータ可読媒体を提供する。
別の一般的な態様において、自動オーディオ生成システムを提供する。当該自動オーディオ生成システムは、意味情報を受信して、受信した意味情報を用いて少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定する意味解析モジュールと、生成されたオーディオ信号を取得するために、処理すべきオーディオ信号を受信し、生成データを用いて処理すべきオーディオ信号を処理し、生成されたオーディオ信号を出力するオーディオ処理モジュールと、を備える。
一実施形態において、意味情報は、処理すべきオーディオ信号に関する。
一実施形態において、意味解析モジュールは、意味情報をユーザインタフェースから受信するように適合される。
一実施形態において、意味解析モジュールは、処理すべきオーディオ信号を受信し、処理すべきオーディオ信号から意味情報を決定するようにさらに適合される。
別の実施形態において、意味情報は、基準オーディオ信号に関し、意味解析モジュールは、基準オーディオ信号を受信して、当該基準オーディオ信号から意味情報を抽出するようにさらに適合される。
一実施形態において、意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも1つを含む。
一実施形態において、生成データは、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的制御パラメータと、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む。
一実施形態において、システムは、生成データベースをさらに含み、生成データベースは、複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、基準処理アクションの各基準静的制御パラメータ、及び、各基準生成特徴を含む複数の基準記録を含む。意味解析モジュールは、意味情報に含まれる染色体特徴、分類特徴、及び、生成特徴の少なくとも1つに一致する少なくとも1つの基準記録を識別し、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的制御パラメータと、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴との少なくとも1つに、少なくとも1つの識別された基準記録を用いて値を割り当てるように適合される。
一実施形態において、オーディオ処理モジュールは、ターゲット生成特徴に割り当てられた値を用いて、所与の処理アクションに関して、動的制御パラメータを決定するように適合される。
一実施形態において、オーディオ処理モジュールは、複数のオーディオプロセッサを備え、構成に従って複数のオーディオプロセッサを組織するように適合され、静的及び動的制御パラメータに従って複数のオーディオプロセッサを制御するように適合される。
一実施形態において、オーディオ処理モジュールは、オーディオプロセッサ間の生成特徴の値を決定し、それに従って動的パラメータを修正するようにさらに適合される。
一実施形態において、処理すべきオーディオ信号の入力と、生成されたオーディオ信号の出力は、処理すべきオーディオ信号と生成されたオーディオ信号が同期されるように実質的にリアルタイムで行われる。
一実施形態において、意味解析モジュールは、処理すべきオーディオ信号の一領域のみに関して生成データを決定するように適合される。
一実施形態において、意味解析モジュールは、ユーザ生成プリファレンスを受信し、当該ユーザ生成プリファレンスを用いて生成データを決定するようにさらに適合される。
一実施形態において、システムは、生成評価モジュールをさらに備える。生成評価モジュールは、生成されたオーディオ信号の評価をユーザから受信し、受信した評価を用いてユーザ生成プリファレンスを決定する。
他の態様において、上記方法を行うように構成されたシステム、装置、及び、コンピュータ可読媒体を提供する。
上記方法及びシステムはオーディオ信号の処理に用いられるが、複数のオーディオ信号の処理に用いられてよいことは理解されたい。例えば、方法及びシステムは、少なくとも1つのオーディオ信号を含むオーディオファイルを受信し、単一のオーディオ信号に対してと同じ方法を用いて、当該少なくとも1つのオーディオ信号を処理してよい。オーディオファイルが複数のオーディオ信号を含む場合、処理されたオーディオ信号は、さらに、ミックスされてよい。
[図面の簡単な説明]
添付の図面を参照して、一例として、実施形態を記載する。
[図1]実施形態に係る、意味規則を用いてオーディオファイルを処理する方法を示すフローチャートである。
[図2]実施形態に係る、意味規則を用いてオーディオファイルを処理するシステムを示すブロック図である。
[図3]自律型マルチトラック音楽生成システムと、このようなシステムのための意味処理モジュールの実施例を示すブロック図である。
[図4]意味処理モジュールの例示的構成の実施例を示すブロック図である。
[図5]意味規則の実施例の例示的な図である。
[図6]意味処理モジュールとオーディオミキシングエンジンとの一体化の実施例を示すブロック図である。
[図7]意味規則をオーディオデータに適用するために意味処理ミキシングをさせる時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
[図8A〜図8D]自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
[図9]意味処理モジュールを有する自律型マルチトラック音楽生成システムを示すブロック図である。
[図10]自律型マルチトラック音楽生成システムのマルチトラックサブグループを示すブロック図である。
[図11]自律型マルチトラック音楽生成システムの交差適合特徴処理要素を示すブロック図である。
[図12]自律型マルチトラック音楽生成システムのマルチトラックミキシングプロセッサの実施例を示すブロック図である。
[図13]実施形態に係る、生成データを決定する方法を示すフローチャートである。
[図14]実施形態に係る、生成データを決定するシステムのブロック図である。
[図15]実施形態に係る、埋め込み意味解析モジュールを含む自律型オーディオ生成システムを示すブロック図である。
[図16]実施形態に係る、意味解析モジュールのブロック図である。
[図17]実施形態に係る、意味データ抽出部を示すブロック図である。
[図18]実施形態に係る、意味データコンテナに含まれる意味データを示す図である。
[図19]実施形態に係る、生成データベースに含まれる基準データ記録を示す図である。
[図20]実施形態に係る、推論エンジンを示すブロック図である。
[図21]第1の例示の自律型オーディオ生成システムを示すブロック図である。
[図22]第2の例示の自律型オーディオ生成システムを示すブロック図である。
[図23]第3の例示の自律型オーディオ生成システムを示すブロック図である。
[図24]実施形態に係る、ユーザ評価と自己学習フィードバックを含む自律型オーディオ生成システムを示すブロック図である。
[発明を実施するための形態]
図を単純で明瞭にするために、図中、適切だと思われる箇所では、一致または類似する要素を示すために同じ参照番号を使用している場合があることは理解されたい。さらに、本明細書に記載の実施例を完全に理解できるように、多くの具体的詳細を記載するが、本明細書に記載の実施例は、これらの具体的な詳細以外で実践してよいことを当業者は理解されよう。他の例においては、本明細書に記載の実施例が不明瞭にならないように、既知の方法、手順、及び、コンポーネントについては、詳細には記載していない。また、記載が、本明細書に記載の実施例の範囲を限定すると解釈してはならない。
本明細書で使用されている実施例及び、それに対応する図は、例示目的のみであることを理解されたい。本明細書に記載の原理を逸脱することなく、異なる構成及び専門用語を使用することができる。例えば、これらの原理を逸脱することなく、コンポーネント及びモジュールは、追加、削除、修正することができ、異なる接続で配置することもできる。
自動オーディオ生成システムの進歩にかかわらず、全ての状況に順応できる制御パラメータのセットも生成目標もがないことが分かった。例えば、生成目標は、楽器編成とジャンル(例えば、電子ダンス音楽は、一般的に、ジャズ音楽よりずっと音が大きい)に応じて変わり、個人が、特定の制御パラメータセットを有する処理ツールの音を好む場合がある(例えば、特定の真空管アンプのアナログエミュレーションを有するディストーションユニット)、または、処理ツールの特定の構成の音を好む場合がある。制御パラメータと生成目標の両方は、出力先(例えば、静かな部屋、または、騒がしい航空機内で演奏される)に応じて適合すべきである。既存の自動オーディオ生成システムは、これらの因子を考慮していない。
これらの考慮事項に対処するために、オーディオ信号からのデータ及び/または測定値を用いる意味ベースの解析を組み込むことによって、オーディオ信号に対して行うべきオーディオ処理アクションを決定することを以下に記載する。このような意味ベースのオーディオ解析は、自律型オーディオ生成とは別に、または、自律型オーディオ生成に組み合わせて、行うことができる。生成データを用いてオーディオを生成することは、意味データを用いて導出した意味ベースの規則のセットを施行するとして解釈されてよい。これらの意味ベースの規則は、静的であってよく、それによって、規則は、プロセッサ構成及び制御パラメータ等の固定された処理セットアップを規定する、または、当該意味ベースの規則は、動的であってよく、それによって、規則は、生成目標を規定する、そして、処理セットアップは、入力オーディオ信号の具体的な特徴に応じて(動的に)変化する。
図1は、意味規則に従って、オーディオ信号(単数または複数)を処理するコンピュータ実装方法1の一実施形態を示す。ステップ2において、処理すべきオーディオファイルが、当該オーディオファイルに関する意味情報と共に受信される。オーディオファイルは、処理すべき単一のオーディオ信号を含んでもよく、あるいは、処理、ミックスすべき複数のオーディオ信号を含んでもよい。オーディオファイルに関する意味情報は、ユーザによってユーザインタフェースを介して入力されてよく、当該ユーザインタフェースから受信されてよい。同じまたは別の実施形態において、オーディオファイルに関する意味情報は、オーディオファイル自体から自動的に決定されてよい。
ステップ3において、オーディオファイルに適用すべき少なくとも1つの意味規則が、受信した意味情報から決定される。意味規則は、オーディオファイルの処理に使用すべき生成データを含む。生成データは、オーディオファイルをどのように生成すべきかを記述する。例えば、生成データは、行うべきオーディオ処理アクションの種類、そのオーディオ処理アクションの特性/パラメータ、行うべきオーディオ処理アクションの構成または順序、及び/または、処理されたオーディオ信号が有すべき所望のターゲット生成特徴、を示してよい。所望のターゲット生成特徴は、次に、オーディオ処理アクションの動的制御特性を決定するために用いられる。
一実施形態において、意味規則は、静的である。以下に記載するように、静的意味規則は、オーディオファイルに対して行うべき特定のアクション/処理と、当該特定のアクション/処理のパラメータ等を定義する。静的意味規則の一実施例は、次のようになる。「キックドラムが存在する場合、100Hz、ゲイン−3dB、Qファクタ2.2で、ベースギターにイコライザを置く」。あるいは、意味規則は動的であってよい。以下に記載するように、動的意味規則は、処理されたオーディオファイルの生成特徴の所望のターゲット値を定義する。例示の動的意味規則は、次のようであってよい。「処理されたオーディオファイルに関して約−6.5dBのターゲット出力二乗平均平方根(RMS)を得る」。
ステップ4において、オーディオファイルは、決定された意味規則に従って処理される。意味規則が静的である実施形態においては、処理されたオーディオファイルを取得するために、静的意味規則で定義された処理アクションがオーディオファイルに適用される。意味規則が動的である実施形態においては、生成特徴に関する所望のターゲット値を取得することを可能にする処理アクション(単数または複数)が、最初に決定され、次に、処理されたオーディオファイルを取得するために、決定された処理アクションが、オーディオファイルに対して行われる。実施例に戻ると、RMSレベルを修正するために必要な処理アクション、すなわち、リミッタを用いることが、最初に決定され、RMSを最初の値から約−6.5dBにするためのリミッタのパラメータが次に決定される。そして、決定された処理アクションがオーディオファイルに適用される。
オーディオファイルに行うべき複数の処理アクションを決定する実施形態においては、方法1は、行うべき処理アクションの実行の順番または順序を決定するステップをさらに含んでよい。これは、オーディオファイルを処理するオーディオプロセッサの構成、すなわち、一連のオーディオプロセッサ内でのオーディオプロセッサの相対的位置を決定することにあたる。
オーディオファイルが複数のオーディオ信号を含む場合、処理ステップ4は、意味規則(単数または複数)に従ってオーディオ信号を処理し、処理されたオーディオ信号をミックスするステップを含んでよい。
ステップ5において、処理されたオーディオファイルを出力する。一実施形態において、処理されたオーディオファイルは、永続的または一時的メモリに記憶される。同じまたは別の実施形態においては、処理されたオーディオファイルは、例えば、スピーカを介して再生されるように、オーディオレンダラまたは音響システムに送られる。
図2は、少なくとも1つの意味規則に従ってオーディオファイルを処理するシステム6の一実施形態を示す。システム6は、意味規則決定ユニット7とオーディオプロセッサ8を備える。意味規則決定ユニット7は、処理すべきオーディオファイルに関する意味情報を受信し、オーディオファイルに適用すべき少なくとも1つの意味規則を決定するように適合される。これについては、以下に詳細に記載する。一実施形態において、意味規則決定ユニット7は、少なくとも1つの静的意味規則を決定するように適合される。別の実施形態において、意味規則決定ユニット7は、少なくとも1つの動的意味規則を決定するように適合される。意味規則決定ユニット7は、同一のオーディオファイルに対して少なくとも1つの静的意味規則と少なくとも1つの動的意味規則を決定するように適合されてもよいことは理解されたい。
オーディオプロセッサ8は、処理すべきオーディオファイルを受信するように適合され、決定された意味規則を受信するように意味規則決定ユニット7と通信する。オーディオプロセッサ8は、処理されたオーディオファイルを取得するために意味規則をオーディオファイルに適用し、処理されたオーディオファイルを出力するように適合される。
決定された意味規則が動的である実施形態においては、オーディオプロセッサ8は、入力されたオーディオファイルに行うべき処理アクションの種類と対応するパラメータを最初に決定し、その後、処理されたオーディオファイルを取得するために、決定された処理アクションをオーディオファイルに対して行うように適合される。
入力されたオーディオファイルが複数のオーディオ信号を含む実施形態においては、オーディオプロセッサ8は、入力されたオーディオ信号の少なくとも1つを処理し、次に、そのオーディオ信号をミックスして処理されたオーディオファイルを取得するように適合されてよい。
実践的なミキシング技術文献及び他のソースから導き得るシステムと静的意味規則ベースの実施例を以下に示す。
図3を参照すると、自律型マルチトラック音楽生成システム(以下「生成システム10」)を示す。生成システム10は、静的意味規則に従ってマルチトラックオーディオ入力12を処理し、音響システム16によって再生される「ミックス」と呼ばれることの多いオーディオ出力14を生成する。音響システム16は、次に、聴取空間、環境、「部屋」、または、オーディオ出力18が演奏、聴取され得る/される他の体積空間で演奏されるオーディオ出力18を生成する。図3に示すように、生成システム10は、自律型ミキシングエンジン104と意味処理モジュール20を備えてよい。
図4は、意味処理モジュール20の構成の実施例を示す。図4に示す機能ブロックは、単に例示的なものであることは理解されよう。この実施例の意味処理モジュール20は、静的意味規則プロセッサ22を備える。静的意味規則プロセッサ22は、意味または「知識ベース」情報を考慮に入れた処理された出力18を生成するようにオーディオ入力12を選択的に処理するために、多くの予め記憶された意味規則32のうちのどの意味規則を、静的意味規則データベース28(または、他の適切なメモリ、ライブラリ、カタログ、データストア等)から選択し、適用するべきかを決定するために、入力モジュール24及びメタデータモジュール26をそれぞれ用いて、入力及びメタデータを処理する。意味処理モジュール20は、入力インタフェース30を備えてもよく、入力インタフェース30は、意味処理モジュール20が、(例えば、ユーザ入力、自律型ミキシングプロセッサ104等からの入力を処理するために)制御入力34を受信、処理すること、及び/または、静的意味規則データベース28を更新するために新しい静的意味規則32または静的意味規則32のセットを受信することを可能にする。例えば、新しい静的意味規則32が開発されると、または、ユーザのプリファレンスまたはスタイルに従って変形が作成されると、このような新しい規則32は、後に使用するために、静的意味ベースの規則28のライブラリまたはコレクションにロードまたは別の方法で組み込むことができる。
図5は、静的意味規則32の例示的な実施例を示す。この実施例において、各静的意味規則32は、静的意味規則32に関する様々な情報の認識を可能にする1つまたは複数のタグ36を含む。例えば、タグ36は、静的意味規則32のソース(ソースは、比較目的のために含まれてもよく、含まれなくてもよい)、静的意味規則32を適用すべき楽器(単数または複数)(または、包括的)、静的意味規則32を適用可能なジャンル(単数または複数)(または「全て」)、静的意味規則32が関連するプロセッサ(単数または複数)等を表すコンマで分けられた単語として生成することができる。これらのタグ36に基づいて、規則プロセッサ22は、静的意味規則32が適用されるべきか否か、及び、どのトラックに適用されるべきかを決定する。タグ36の順番及び数は一定である必要はないことは理解されよう。
静的意味規則32は、規則(例えば、行うべき設定、対応するトラック等)を適用するために取る処理ステップまたはアクションに対応する1つまたは複数の規則アクション38も含む。例えば、規則アクション38で特定されたパラメータに基づいて、1つまたは複数の「挿入」プロセッサ(例えば、特に、高域フィルタ、コンプレッサ、イコライザ)を用いて、タグ部分で特定されたトラックのオーディオを処理されたバージョンで置き換えることができる。挿入プロセッサは、前のプロセッサ(またはソース)からの入力と、次のプロセッサ(または、マスターバスもしくはオーディオ出力等)への出力を伴う、トラックまたはバスの信号経路に挿入される任意のオーディオプロセッサを指す。挿入プロセッサは、「センドエフェクト」プロセッサとは異なることに留意されたい。特定のトラックが、例えば、挿入処理も行うために、トラックの信号チェーンを妨害することなくエフェクトを適用するようにプロセッサにルーティングされる。これらの原理は、「センドエフェクト」プロセッサにも等しく適用できることは理解されよう。
挿入プロセッサの使用は、静的意味規則32を読み出し後すぐに行われてよい。他方、静的意味規則32によって操作されたレベルとパンメタデータは、全ての静的意味規則32が読み出された後、ミックスダウン段階(以下により詳しく記載)まで適用されなくてよい。規則アクション38は、条件ステートメント、ループ、または、計算等の、他のプログラム命令またはコードを含むこともできる。処理されたトラック、及び、他のトラックに対応する音声及びメタデータは、静的意味規則32内からアクセスすることができる。
静的意味規則32は、静的意味規則32に関連付けられたアクション38の表示または他の方法での出力を可能にし、デバッグを容易にするコメント40を含んでもよい。静的意味規則32は、複数のトラックを参照することができ、例えば、次のように、様々な方法で実装できることは理解されよう。
一実施例において、規則のタグ36は、幾つかの楽器、例えば、「キックドラム」と「ベースギター」の両方を含んでよい。どの静的意味規則32を適用すべきか知るためにトラックをスキャンすると、システムは、キックドラムに最初に行き当たることがある、そうすると、静的意味規則32(例えば、パニング値を−5%から%5の間に限定)をキックドラムに適用する。ベースギターに行き当たると、静的意味規則32は、ベースギターに適用される。
別の実施例において、静的意味規則32の規則アクション38の部分で楽器を参照することができる。例えば、静的意味規則32は、ベースギターに適用可能であってよく(「ベースギター」は、規則のタグ36で取り上げられる)、規則アクション38は、例えば、「キックドラムが存在する場合、100Hz、ゲイン−3dB、Qファクタ2.2でベースギターにイコライザを置く」であってよい。この場合、キックドラムのトラックが参照され、従って、静的意味規則32内の楽器間で「相互相関」がある。より進んだ静的意味規則32であれば、他の規則の特徴または適用されたパラメータを見ることができる(すなわち、バックボーカルパニングパラメータの関数でボーカルイコライザ、または、ピアノスペクトルの関数で)。
静的意味規則32の実施例は、次のようになる。
タグ:作成者X、キックドラム、ポップ、ロック、コンプレッサ
規則アクション:比率= 4.6;ニー= 0;アタックタイム=50;リリースタイム=1000;閾値=ch{トラック}.ピーク−12.5;
コメント:パンチの利いたキックドラムを圧縮
静的意味規則32は、様々な適切なデータ構造またはデータモデルに生成することができることは理解されよう。オーディオエフェクトオントロジーの使用によって、規則データベース28の交換、編集、及び、拡張を容易にしてよく、記述論理の文脈での使用を可能にしてよいことも理解されよう。
図6は、意味ミキシングを行うための生成システム10、意味処理モジュール20、及び、自律型ミキシングエンジン104の構成の実施例を示すブロック図である。この実施例における入力は、未加工のマルチトラックオーディオ12(例えば、モノラルトラックとステレオトラックの混じったもの)と、メタデータ42(例えば、{ベースDI.wav、ベースギター}、{キックD112.wav、キックドラム}、{スネアSM57top.wav、スネアドラム}、{Johnny.wav、リードボーカル}等、あらゆるオーディオファイルに対応する楽器を特定するテキストファイル)と、を含む。意味規則32に基づいて処理される前に、各トラックの基本的特徴は、測定ブロック44で抽出される。測定値を用いてメタデータ42を更新することができ、メタデータ42は、規則プロセッサ22によって用いられて適切な意味規則32を識別することができる。一実施例においては、トラック番号は、楽器にちなんだ整数または整数配列(例えば、チャネル1がキックドラムの場合、キックドラム=1、チャネル3〜5がトムトムの場合、トムトム=[3,4,5])として、自動的に記憶することができる。異なるトラックインデックスは、全てのギター、ボーカル等に一度にアクセスできるように、サブグループ配列で記憶することもできる(例えば、ドラムg=[1,2,3,4,5,7,12])。
意味規則32は、次に、規則データベース28から読み出され、適用可能であれば、各入力トラック12に適用される。上記のように、各意味規則32は、行うべき処理の性質を指定する、この実施例においては、高域フィルタリング(「HPF」)46、ダイナミックレンジ圧縮(「DRC」)48、等化(「EQ」)50、バランス/レベル(「フェーダ」)52、及び、パニング(「パンポット」)54の5つのコンプレッサのうちの1つを指定する。意味規則32の適用の順番は、プロセッサの選択された順番によって決まる。例えば、まず、プロセッサ1に関連する意味規則32に関して知識ベースをスキャンすることができ、次に、プロセッサ2に関して知識ベースをスキャンすることができる等である。5つのプロセッサの使用は、単に例示的なものであり、本明細書に記載の原理は、任意の適切なオーディオエフェクトまたはオーディオプロセッサを用いて実装されてよいことは理解されよう。同様に、パラメータは、挿入エフェクト、センドエフェクト、及び、前処理(すなわち、別のウェーブエディタまたは処理装置でオフラインで)に関する意味情報に基づいて設定されてよい。
個々のトラック12を処理後、ドラムバス段階56を行ってよい。ドラムバス段階56では、ドラム楽器(サブグループ「ドラム」の構成要素)は、ドラムバス段階56に関する意味規則32がある場合、第1のミックスダウン操作58で、フェーダ定数及びパニング定数(fader and panning constants)を用いてミックスダウンされ、62で等化され、60で圧縮される。結果として生じるステレオドラムバス出力は、次に、ミックスバス段階64で再度、フェーダ定数及びパニング定数を用いて残りのトラックと共にミックスダウンされる。結果として生じるミックスは、ミックスバス64に作用する意味規則32がある場合、等化、圧縮され、ステレオ出力18が提供される。
図6においは、入力オーディオファイル12が、処理、ミックスすべき複数の入力オーディオ信号または入力トラックを含むが、入力オーディオファイル12は、単一の入力オーディオ信号またはトラックを含んでもよいことは理解されたい。この場合、ミックスダウン操作58等のミックスダウン操作は、省略される。
この時点で、抽出された特徴とミキシングパラメータは両方とも、オーディオトラック全体に対して一定である。別の実施形態において、抽出された特徴とミキシングパラメータは、オーディオトラックを手動または自動で分割後、オーディオトラックの異なる部分に対して決定することができ、時間の経過と共に大きく連続して変わる測度または設定を有し得る。
処理の順番は、適用に応じて、また、新しい技術及び研究が行われると、変わり得る。しかしながら、一実施形態において、好ましい順番は、ワークフローで考慮すべき事柄に基づくべきであることが分かった。不必要に重く低い端部分または突出した周波数が所望のエフェクトとは異なるようにコンプレッサ48をトリガするので、少なくとも1つのイコライザ段階50がコンプレッサ48の前にあることが望ましい場合もある。本明細書に記載の実施例においては、評価中の信号は、コンプレッサ48の動作に大きく影響を与えるようなスペクトル異常をもたないと仮定、保証されている(例えば、短いテストで確認される等)。代わりに、不必要に低い周波数のノイズによってコンプレッサ48がトリガされないように、図6に示すように、高域フィルタ46をコンプレッサ48の前に配置することができ、イコライザ50をコンプレッサ48の後ろに配置することができる。
フェーダ52及びパンポット54が、コンプレッサ48及びイコライザ50等の挿入プロセッサの後で、信号を操作することができ、そして、図6に示すように、ミキシングコンソールの一般的な配線の仕方に一致するようにフェーダ52の後にパンポット54を配置することができることは、広く認められている。さらに、これらのプロセスは線形の性質を有し、意味処理において独立しているので、順番は、この状況においては、あまり重要ではない。しかしながら、本明細書に記載の意味ミキシングシステムによって、プロセッサの任意の順番が可能になることを記しておく。
これらの考慮事項に基づいて、図4に示す高域フィルタ46、ダイナミックレンジコンプレッサ48、イコライザ50、フェーダ52、及び、パンポット54というプロセッサの順番を、意味ミキシングシステムの評価に用いる。
本明細書に記載の実施例において、一般的コンプレッサモデル120は、可変閾値レイアウト(例えば、固定閾値、可変入力ゲイン設計に反して)と、2次のニーと、閾値、比率、アタックとリリース(「バリスティックス(ballistics)」)、及び、ニー幅の標準パラメータと、共に用いられてよい。
この実施例においては、レベルは、「フェーダ」モジュールによって後の段階で設定されるので、コンプレッサ段階48でのゲインの操作を冗長にするメイクアップゲインは使用しない。この実施例においては、説明目的で、サイドチェーンフィルタも、処理したチャネル以外の他のチャネルへのサイドチェーン入力も、先読み機能も持たない。コンプレッサは、受信オーディオサンプルをサンプル毎に処理する。ステレオファイル(オーバーヘッドマイクロフォン等)は、「ステレオリンク」モードで圧縮される、すなわち、両方のチャネルのレベルが等量だけ低減される。様々な楽器及び様々な所望のエフェクトのための様々なコンプレッサ設定を適用及び環境に応じて選択することができ、それに応じて、対応する静的意味規則32も変わり得る。
第2の処理ステップは、異なるトラック12またはトラックのグループ12の等化50及びフィルタリング46を用いて、信号のスペクトル特性を修正する。この実施例においては、2つのツールを用いてこのタスクを達成する。2つのツールとは、高域フィルタ46(例えば、ベースギターとキックドラム以外のあらゆるトラックで100Hzのカットオフ周波数を有する高域フィルタリング等のアクションを実施する)と、パラメトリックイコライザ50(例えば、ハイシェルビング、ローシェルビング、及び、ピークモードを有する)である。しかしながら、上記に例示したイコライザや他のフィルタ等、音のスペクトル特性に影響を与える多くのツールを使用できることは理解されよう。フィルタのパラメータは、周波数、ゲイン、及び、Q(Qファクタ)である。簡単な4次の実装を、高域フィルタ46(例えば、12dB/オクターブ)及びイコライザ50(例えば、段階ごとに2次フィルタ、すなわち、周波数/Q/ゲインの三つの組毎に1つ)の両方に用いてよい。
等化規則の定量化できるミックスアクションへの変換を試みる時、生成タスクの目的をより厳密に記述する特徴、例えば、周波数スペクトルの部分に関連し得る「軽快」、「濁った」「耳障りな」等の音色の特徴に周波数スペクトルの部分をマップすることができる。これは、多くの先行技術のソースが、これらの種類のマッピングを定義する表またはグラフを提供しているので可能である。
パニング値は、各トラック12に関してメタデータ42に記憶され、この実施例においては、最初はゼロに設定される。パニング値は、−1(完全に左にパンされる)から+1(完全に右にパンされる)の範囲であり、左対右のチャネルでミックスダウン中にトラックの相対ゲインを決定する。
パニング段階54と同様、フェーダ52または楽器ごとの「ゲイン」変数は、トラック12と共にメタデータ42として記憶することができる。最初のゲイン値は、0dBに設定されてよく、次に、ミックスダウン58中に規則32(例えば、絶対的な用語または相対的な用語で、すなわち、「ゲインをxdBに設定」または、「ゲインをxdB増加/減少させる」)に従って操作、適用してよい。あるいは、出力「レベル」は、楽器ごとに定義することができ、トラック12と共にメタデータ42として記憶することができる。システムは、フェーダ52に入り(メタデータ42として記憶もされた)信号のトラックレベルに基づいて、規定のレベルを達成するために必要なゲイン値を評価する。前者の場合は、静的意味規則の実施例であり、後者は、動的意味規則の実施例である。
図7を参照すると、意味ミキシングプロセスを行うために実行され得るコンピュータ実行可能動作のセットの実施例が示されている。ステップ200において、オーディオトラック12を含むオーディオファイルを取得し、ステップ202において、(例えば、楽器、ジャンル、スタイル等が示された)最初のメタデータ42を取得する。ステップ204で上記の測定値がオーディオトラック12に適用され、メタデータ42は、ステップ206で更新される。メタデータ42は、次に、トラック12に適した静的意味規則32のタグ36を識別するためにステップ208で用いられてよく、ステップ210で、対応する規則のアクション(処理)を静的意味規則32に従って行うことができる。次に、ミックスダウン操作が、例えば、上記のように、ステップ212で行われてよく、最後のミックスダウン(ミックスバス段階64の後)またはオーディオ出力18が、ステップ214で出力として生成される。
ミックスダウンを行うステップ212は省略してよいことは理解されたい。例えば、入力されたオーディオファイルが単一のオーディオ信号またはトラックを含む場合、ステップ200〜210とステップ214のみが行われる。
上記のように、意味ミキシング操作は、独立して行うことができるが、低レベルの抽出された特徴に従って行われる処理と共に行われるのが理想的である。図8Aは、他の自律型オーディオミキシングプロセス(例えば、以下に例示する交差適合特徴処理を用いて)と共に意味ミキシングプロセスを行うために、生成システム10によって実行してよいコンピュータ実行可能動作のセットの実施例を示す。ここでは、低レベル処理と意味ミキシングが順次、行われている。ステップ300において、処理すべきオーディオデータ、例えば、オーディオトラック12を取得する。次に、ステップ302で、自律型ミキシングエンジン104を使用して、低レベルの特徴を抽出してよく、例えば、ステップ304で交差適合処理(以下に記載)を行って、オーディオ出力18を生成してよい。このオーディオ出力18は、意味ミキシングが行われない場合は最終的な出力であってよく、または、中間的な出力を構成してもよい。従って、生成システム10は、ステップ306で、例えば、メタデータ42及び静的意味規則32の有無に基づいて、意味処理を行うべきか否かを決定することになる。意味処理を行わない場合、既に処理されたオーディオが、ステップ308でオーディオ出力18として提供される。意味処理を行う場合、意味処理はステップ310で行われて、ステップ312でさらに処理されたオーディオが生成され、ステップ314で出力することができる。
一部の構成においては、低レベル特徴を処理したバージョンを取得して、適切な意味規則をさらなる微調整に適用、もしくは、出力を楽器、スタイル、ジャンル等に適合させる、または、通常は行われるが現在の適用に適切でないと思われる一定の低レベルの調整を防止または無視すると、好都合であることは理解されよう。このような構成においては、(図8Aに示すように)ハイレベルの意味処理の前に低レベル処理が既に起こっているので、微調整、防止、または、無視すべき処理は、軽減する必要がある。図8Bは、既に行われているがリバースすることができる処理を意味ミキシングが無視する程度まで、ステップ314でさらに処理されたオーディオを出力する前に、任意の処理を軽減するか否かをステップ316で決定し、ステップ318で後処理を適用して1つまたは複数の以前適用したプロセスをリバースするように、動作316、318を行うことができる構成を示す。
図8Cに示す別の構成においては、図8Aに示すのと同じ動作が行われるが、意味解析が行われて、任意の結果が様々な自動低レベルプロセッサに供給されて低レベル処理中に直接考慮されるように、低レベル処理段階及び意味処理段階をリバースする(例えば、意味解析に基づいて一定の処理ステップを無視する)。
図8Cに示す構成は、意味情報が、全てのフレームを通して静的ではなくフレームベースで変化し得る時、フレーム毎の解析に対応するように適合されてもよいことは理解されよう。フレーム毎の構成においては、各フレームの初めに、トラックを解析して、分類特徴(例えば、「バックグラウンドボーカルである」、「コーラスが開始される」「ギターである」等)を導出し、その結果は、分類特徴情報に関する静的意味規則32に従って低レベル処理を行う異なるプロセッサに送られる。結果の実施例は、どの楽器がリード楽器か、どれがバックグラウンドか、どれを「自動フェーダ」モジュールに供給し得るか等に基づいて、「ゲインのブースト及びカット」の配列を含んでよい。自動フェーダは、次に、楽器を同じラウドネスにする典型的なレベル変化を適用するが、追加のブーストをリードボーカルに適用し、追加のカットをバックボーカル等に適用する。同様の手順は、使用されている他のプロセッサに適用されてよい。この実施例においては、低レベル解析と、それに対応する処理は、異なるモジュール内で起こることに留意されたい。
図8Dに示すさらに別の構成においては、プロセッサを利用する前に、高レベルと低レベルの解析の両方を行ってよい。このような構成においては、解析は、処理から切り離されて、楽器、ジャンル、または、スタイルに基づいた考慮事項(2〜3例を挙げると)の一部をなす一定の低レベル処理を高レベル処理が修正もしくは強化する(または、取り除く)のを可能にする。プロセッサは、次に、解析段階からパラメータを受信するように構成され、処理に携わってよい。
システムは、リバーブやディレイ等の遅延に基づくエフェクトを組み込んでよいことも理解されよう。
図9は、意味処理モジュール20を有する生成システム10の実施例のさらなる詳細を示す。意味処理モジュール20は、システム10内でプログラム命令またはモジュールを用いて実装されてよい。生成システム10は、ストリーミングデータまたはデータファイル等のマルチトラックオーディオ入力12を受信する受信データプロセッサ500と、処理すべき出力トラック502とを備える。データファイルプロセッサ500は、入力を処理して、自律型マルチトラック音楽生成エンジン504(以下「エンジン504」と称する)に入力される「オーディオソース」を効果的に提供する。エンジン504は、ソース制御ブロック506を備える。ソース制御ブロック506は、ソース認識及び他の種類の意味もしくは高レベルミキシング(例えば、図9に示されていない意味処理モジュール20を利用することによって)、サブグループ割り当て、及び、ジャンル設定を行う。ソース認識は、機械学習法と特徴抽出法を用いて、オーディオソースの種類または楽器を自動的に決定する。次に、この情報を用いて、例えば、ボーカルまたはパーカッションサブグループ等、オーディオ生成システムを形成するサブグループにトラックを分けることができる。サブグループ割り当て及びルーティングは、ユーザによって外部から制御することもでき、最終的に、完成したステレオミックスを出力する最終的な「メインの」サブグループに供給される。ジャンル設定も、ソース検出またはユーザ制御によって決定される。これによって、各サブグループ及びサブグループ内に含まれるプロセッサは、ジャンルの選択または検出に応じて、異なるパラメータ設定とプリセットを有することができる。図9に示す典型的な実施例においては、信号は、最終的なミックスされたオーディオを510で出力する複数のマルチトラックサブグループ508に分けられる。
サブグループの指定は、ボーカル及びパーカッション検出技術等、ソース認識を用いて自動で達成することもでき、ユーザ(単数または複数)が入力した記述子またはタグ付けに基づいて手動で達成することもできる。自動検出技術は、多くの低レベル及び高レベルの抽出されたオーディオ特徴に対する機械学習アルゴリズムに基づいており、受信トラックは、リアルタイムで解析され、受信トラックのオフライン機械学習解析の結果との関係によって判断することができる。サブグループの別の特徴は、抽出された特徴をプロセッサ間で共有して、抽出された特徴の計算の繰り返しが起こらないようにして、効率を向上させる。さらに、エンジン504は、ユーザからの新しいデータ入力に適合する機械学習技術を実装するために、能動的学習モジュールまたは関連する機能を備えてよい。
意味ミキシングモジュール20は、エンジン504の出力とインタフェースをとって上記の意味入力に適合するようにさらに向上及び調整できるように、生成システム10と一体化される。
図9には示していないが、生成システム10は、オフライン解析器も備えてよい、または、その機能を提供してよい。オフライン解析器は、ユーザがオーディオデータのオフライン解析を行えるように、生成システム10に一体化されてよい。オフライン解析器は、システムとは別であってもよく、システムのコンポーネントであってもよい。オフライン解析器は、解析中のオーディオデータのタイムスタンプを関連付けられたデータ点と共に含む。オフライン解析器は、例えば、時間をかけて蓄積されたデータ、同じ抽出された特徴を用いた異なる測度等を必要とし、生成システム10が依存する信号処理アルゴリズムで前に入手できなかったラウドネス範囲等の特徴など、新しく長期に抽出された特徴を生成するように構成されてよい。例えば、ラウドネス、波高因子等の長期の測度を用いて、歌のダイナミクスの変化を突き止めることを、新しい抽出特徴を生成するために行うことができる。
オフライン解析器は、各トラック全体を解析することによって楽器認識も行ってよく、次に、その知識を用いて、ミックスを実行する前にサブグループ508を構築する。以前のリアルタイムシステムであれば、サブグループ508が生成可能になる前に、受信オーディオを解析するために何らかのバッファリングを必要としたであろう。
オフライン解析器は、サブグループ508の既存の特徴抽出と交差適合解析段階を通してオーディオを再生し(図10〜12も参照)、例えば、オフライン解析器、または、オフライン解析器にアクセス可能なブロックもしくはモジュールに記憶するためにデータを戻すことによって、データ点の生成にも使用することができる。
オフライン解析器は、ソース制御ブロック506と通信もしてよい。ソース制御ブロック506は、次に、適切な時にミックスのパラメータを設定するために、サブグループ508と通信する。
オフライン解析の実施例を記載する。この実施例においては、オーディオファイルのマルチトラックのセット(ステムとしても知られる)を、エンジン504は入手可能である。ステムは、フレーム毎に解析され、オーディオ特徴(ラウドネス、スペクトル中心、波高因子等)が抽出され、それぞれの値が特徴時系列として記憶される。次に、解析段階を実行して、個々のトラック内、及び、全てのトラックを通して、特徴値の変動をモニタして、それに従って、エンジン504を調整する。例えば、ラウドネスを選択した抽出特徴とすると、オフライン解析器は、全てのトラックが突然、著しくラウドネスが下がり、1つのトラック、例えば、エレキギターが、元のレベルのままであることに気付くことがある。全てのトラックが元のラウドネス状態に戻るまで、これが、ある期間(例えば、20秒)維持される。これは、オフライン解析器98によってソロ部分と解釈され、次の複数の方法でエンジン504に影響を与える。その方法とは、(i)ギターがリードトラックとして選択され、ミックスの中心にパンされる、(ii)ギターのフェーダレベルを(例えば、3dB)ブーストする、(iii)このソロ部分の初めで、ギターフェーダのスムージング機能を迂回して、フェーダがジャンプするのを可能にし、ギターをミックス内ですぐに目立たせることができる。これらのパラメータの変化は、オフライン解析器によって時間に対するデータ点として記憶される。
次に、リアルタイム実装に存在する通常の信号処理アルゴリズムに従って、解析段階で発見されたイベントに対応する時点で、様々なパラメータを変化させて、ミックスを生成することができる。
オフライン解析、及び、結果として得る将来のオーディオイベントの知識が、エンジン504に有し得る多くの他の実施例及び可能性があることは理解されよう。例えば、全ターゲット周波数スペクトルを記述する動的規則は、出力周波数スペクトルをターゲットへと向かわせるイコライザを選択、最適化することによって施行されてよい。個々のトラックまたは最終的なミックスダウンの周波数成分は、フレーム毎にモニタすることができる。次に、スペクトルに起こり得る変化に変化後に反応するのではなく、当該変化に適応するようにフィルタを先制的に制御することができる。同じ理論は、任意の処理ツールに当てはまる。すなわち、処理ツールは、イベントの前に反応するようにしてよい。
オフライン解析器に関する上記原理は、先読みバッファを用いて、準リアルタイムで達成することができることも理解されよう。先読みバッファによって、完全なオーディオファイルを入手しなくても、起こり得るイベントを先制的に知ることができる。
生成システム10の特定の実施例の構成を図9に示すが、様々なシステム構成が、上記原理を用いて、例えば、複数の柔軟な方法で、図12(以下を参照)の構造を適合させて特定の適用に適合するプロセッサ522〜528(例えば、フェーダ、圧縮等)及びサブグループ508の配置を作成することによって、達成することができることは理解されよう。例えば、図19に示す段階は、異なる順番、量、及び、ルーティングで再構成することができる。よって、本明細書に示す実施例は、単なる例示に過ぎないことは理解されよう。
組み合わされる時、生成システム10は、各トラックのスペクトル中心が決定する限界までできる限りパニングを最大化するように、バランスのとれたミックスを生成するように絶えず適合される。最終的なパン制御を含む全てのパラメータは、確実にスムーズに変化するようにEMAフィルタに通される。典型的にはボーカルであるリードトラック(単数または複数)は、パニングアルゴリズムを迂回し、ミックスの中心に固定されるように選択することができる。
図10は、自律型、リアルタイム、低遅延マルチトラックオーディオ生成のための連続動作として処理及びミキシングを行うマルチトラックサブグループ508の構成の実施例を示す。各トラック502は、マルチトラックサブグループ508によって受信され、最初に、ラウドネスプロセッサ522を備えるラウドネス処理モジュールで、各個々のトラックに対してラウドネス処理を行い、関連するトラックのラウドネス特性の実際の処理を行う。
トラック502は、次に、各トラックに関連付けられた各圧縮プロセッサ524によって処理され、次に、各等化(EQ)プロセッサ526によって処理されて、一連のフィルタを適用して、トラックの周波数成分を変更する。各トラック502に対応する処理されたオーディオ信号は、次に、それぞれ左右のステレオパニングプロセッサ528a/528bによって処理される。左右の信号は、次に、それぞれ、530、532で結合され、マスタリングモジュール534によって処理されて、サブグループ508によって538で出力され、最終的には生成システム10によって出力される。
生成エンジン504で用いられるプロセッサ522、524、526、528の一般的な図を図10に示す。当該プロセッサは、マルチトラックオーディオ入力コンテンツ502からミックスされたオーディオコンテンツ502′を自動的に生成するようになされる。図11に示すプロセッサ522、524、526、528は、以下のステップを行うことによって自動オーディオミキシングを行うようになされる。
入力信号502を受信:複数のトラックからのデジタルオーディオ信号502が、生成システム10の入力で受信され、生成システム10の複数の並列信号処理チャネルにルーティングされる。
特徴抽出550:各デジタルオーディオ信号502は、解析され、各デジタルオーディオ信号の具体的な特徴が抽出される。
特徴解析(交差適合特徴処理534):抽出された特徴と、異なる信号の抽出された特徴間の関係とを解析し、1つまたは複数の処理制御規則558に従って、各トラックに必要な処理を決定する。
信号処理556:オーディオ信号は、次に、特徴解析に従って処理される。
処理された信号502′を出力:処理した信号502′は次に、各トラックに対応する修正されたデジタルオーディオ信号として出力される。
図面を参照して、上記の各ステップを含む自動ミキシングプロセスをより詳細に記載する。
プロセッサ522、524、526、528の入力は、複数のステレオデジタルオーディオ信号502を、図10に示す実施例においては、第1、第2、第3のステレオオーディオ信号を受信するようになされる。各ステレオオーディオ信号502は、処理すべきオーディオトラックに対応し、左チャネル及び右チャネルを有する。プロセッサ522、524、526、528の入力は、別個のオーディオ信号502として各トラックを受信する。プロセッサ522、524、526、528は、任意の数の入力オーディオトラックを受け入れるようになされる。トラックの数は、生成システム10の処理能力と出力するオーディオの要件によってのみ制限される。
上記のように、生成システム10は、図9、図10に示し、本明細書に記載のようにオーディオ信号502の最適ミックスを達成するためにサブグループ508を使用してもよいことは理解されよう。トラックの個々のグループは、サブグループ508に割り当てることができ、サブグループ508内には、ミキシングプロセッサ及びマスタリングプロセッサを配置することができる。サブグループ508は、1つのサブグループ508からのミックスダウンまたは個々のトラックが、別のサブグループ508への入力として働くように互いにリンクすることができる。プリセットを用いて、例えば、ジャンルに固有のミックスまたは楽器に固有のミックスに対して、サブグループ508に固有の設定を適用することができる。
図11に示す実施例においては、受信したオーディオ信号502はリアルタイムで処理される。このようなリアルタイム処理は、受信した信号502が、ライブで記録される、または、ストリームコンテンツに由来している時、特に有用である。このような実施例においては、オーディオを受信すると、特徴抽出550がリアルタイムでストリーミングオーディオに対して行われる。抽出すべきオーディオの特徴は、ゲインラウドネス、ラウドネスレンジ、スペクトルマスキング、空間マスキング、スペクトルバランス、空間バランス等、オーディオ信号の特徴または特性を含む。
受信したオーディオ信号は、並列処理動作または「サイドチェーン」に送られる。すなわち、オーディオ特徴の抽出、解析のための交差適合特徴処理モジュール554を用いる。複数の特徴抽出モジュール550は、図11に示すような並列特徴抽出を提供する。
瞬時的な特徴値は、実装に応じて、サンプル毎またはフレーム毎に、特徴抽出モジュール550によって抽出される。フレーム毎の場合、フレームサイズは、最小の待ち時間でリアルタイム動作を確実に行えるのに必要なくらい小さい。累積平均を特徴に適用して、リアルタイムの特徴推定を実施する。そのレートは、フレームサイズ及びサンプルレートに従って調整され、特徴値が最新に更新されるとすぐに行われる。
オーディオ信号の一定の特徴を示す抽出されたデータストリームは、任意の適切な方法を用いて経時的に平滑化される。例えば、指数移動平均フィルタを、関連するタイムアタック定数及びタイムリリース定数と共に使用してよい。
交差適合マルチトラック特徴処理モジュール554は、図11に示すように、各特徴抽出モジュール550が抽出した特徴のそれぞれを受信する。交差適合処理モジュール554は、各トラック502に適用すべき処理動作を規定する処理制御関数を決定する。処理制御関数は、また、抽出された特徴と共に、所定の制約552、及び/または、静的及び動的規則558に基づいて決められる。所定の制約は、ミキシングプロセス開始前にユーザによって設定され、制約モジュール552に記憶されてよい。処理規則558は、トラック間に必要な一定の関係、または、特定の特徴の上限と下限を設定してよい。動的規則には以下の規則が含まれるが、それらに限定されない。
自律型マルチトラックフェーダに関しては、全ての能動的ソースが、等しい知覚ラウドネスに向かう傾向がある。
自律型マルチトラックステレオポジショニングに関しては、全てのトラックは、空間及びスペクトルバランスが維持されるように位置決めされる。
自律型マルチトラックダイナミックレンジ圧縮に関しては、コンプレッサは、能動的ソースのラウドネスレンジの変動が最小になるように、各トラックに適用される。
自律型マルチトラック等化に関しては、フィルタは、ソースのスペクトルバンド幅が重ならないように、各トラックに適用される。
自律型ディレイ及び極性補正に関しては、ディレイは、各トラックに追加されて、各トラックを共通の基準に同期させることができる。
交差適合特徴処理モジュール554は、出力において所望の特徴に収束するのを確実にするフィードバック動作を含む。すなわち、交差適合特徴処理ブロックによって生成された制御は、適用前に解析されてよい。制御が所与の許容範囲内の所望の結果を生まない場合、制御値は、適用前に調整される。
処理制御関数は、ゲインフィルタ、ディレイフィルタ、及び、無限インパルス応答フィルタ等の、時変フィルタの形をとる。より詳細には、以前の制御ベクトルの加重和で、抽出された特徴の関数である制御ベクトルを利用してよい。ラウドネスフェーダの場合、マルチトラック処理を用いて、各トラックのデシベルレベル制御を導出する。この処理の結果は、次に、変換されて線形ドメインに戻され、以下に記載のように、時変ゲインとして各トラックに適用される。同様に、自律型ステレオポジショニングの場合、マルチトラック処理を用いて、各トラック502に対するパニング位置を導出する。パニング位置は、次に、2つのゲインとして適用され、ステレオポジショニングに対する左出力と右出力を生成する。
自律型ディレイ及び極性補正の場合、全てのトラック502と基準との間のディレイを解析し、人工的なディレイを導入してオーディオを同期する。
上記制御関数は、一旦決定されると、並列信号処理モジュール556の各トラックの処理に用いられる。各トラックは、次に、交差適合処理モジュール554によって決定された制御に従って処理された別個のオーディオ信号502′として各処理ブロック556によって出力される。処理された各信号502′は、次に、出力モジュール510、536において、加算プロセスによって単一のオーディオ出力に結合される。出力502′は、任意の適切なフォーマットであってよいが、この実施例においては、ステレオ出力510、536である。
典型的には、ミックスすべきオーディオ信号の主な態様は、フレームベースでの各トラックの相対的ラウドネスレベルと、ある期間にわたるオーディオ信号の相対的ラウドネスと、イコライザと、各トラックの(ステレオオーディオ信号のミキシングのための)圧縮、マスタリング、ステレオパニング等と、を含むが、これらに限定されない。よって、オーディオ信号のこれらの態様それぞれに関する自動特徴抽出及び処理(すなわち、動的規則)を詳細に検討する。
図12は、マルチトラックミキシングプロセッサ554を示す。マルチトラックミキシングプロセッサ554は、実施例で使用の場合としてフェーダを実装する複数のオーディオトラックの相対的ラウドネスレベルを独立して制御できるように、ラウドネス及びラウドネスレンジを抽出するように構成される。図9に示す実施例においては、特徴抽出はラウドネス抽出にあたり、交差適合処理はラウドネス最適化にあたる。
図12に示すように、複数のトラックに対応するオーディオ信号502は、各フレームサンプルでマルチチャネルラウドネス抽出モジュール560によって抽出された当該オーディオ信号のラウドネスに関する情報を有する。マルチチャネルラウドネス抽出モジュール560は、関連するラウドネスを決定する時、全てのトラックの知覚ラウドネスを考慮する。ラウドネス最適化モジュール562は、次に、ラウドネス決定に従って、必要に応じて、トラックの1つまたは複数に適用する制御関数を決定する。ラウドネスを変更するべきトラックは、次に、各処理モジュール566によって、例えば、制御信号564に従ってゲインを適用して、信号レベルを増減することによって、変更される。従って、出力502′は、ラウドネス補正が相対的ラウドネスを規定する動的規則を施行するために、処理済みである。
図9〜図12に示す構成の実施例は、例示的なものに過ぎず、異なる適用及びシナリオに適合する様々な他の構成を用いることができることは理解されよう。
図3〜図12は、静的意味規則を用いて、複数のオーディオ信号/トラックを処理、ミキシングする方法及びシステムを示すが、自律型オーディオ生成システムの制御に用いる生成データを含む静的及び/または動的意味規則を導出するためにオーディオ信号を解析する方法及びシステムを以下に提示する。生成データは、オーディオ処理ツールの構成、各処理ツールに関する入力に固有の制御パラメータプリセット、及び/または、美的及び機能的制約の両方で最も適切な生成目標を含む。
図13は、意味データまたは情報を抽出するためにオーディオ信号(単数または複数)を解析し、抽出された意味データを用いて生成データを導出する方法600の一実施形態を示す。
ステップ602において、解析すべきオーディオファイルは、オーディオファイルに関するオプションの意味情報と共に受信される。オーディオファイルは、解析すべき単一のオーディオ信号、または、一緒に解析すべき複数のオーディオ信号を含んでよい。オーディオファイルに関する意味情報は、ユーザインタフェースを介してユーザによって入力され、当該ユーザインタフェースから受信されてよい。
ステップ604において、オーディオファイルの各オーディオ信号が解析され、各オーディオ信号の意味データが抽出される。同じまたは別の実施形態においては、オーディオファイルの意味データは、ユーザインタフェースを介した入力に由来しても、オーディオファイルから抽出されても、または、その両方であってもよい。
ステップ606において、オーディオファイルの意味データが解析されて、少なくとも1つの対応する意味規則を決定する。上記のように、意味規則は、少なくとも1つの静的意味規則、及び/または、少なくとも1つの動的意味規則を含んでよい。意味規則は、オーディオファイルに対して行うべきオーディオ処理アクションを示す生成データを含む。生成データは、3つの異なる種類からなってよい。すなわち、処理アクションを行うべき時系列等、行うべきオーディオ処理アクションの構成に関するデータと、対応するオーディオ処理アクションを行う各オーディオプロセッサに関する入力に固有の制御パラメータプリセットに対応する各オーディオ処理アクションの特性と、オーディオファイルの所与の特徴に関する所望のターゲット値の形をとる生成目標である。オーディオ処理アクションの構成及び特性は、静的意味規則とみなしてよく、生成目標は、動的意味規則とみなしてよい。
ステップ608において、生成データが出力される。一実施形態において、生成データは、自律型オーディオ生成システムに送られ、自律型オーディオ生成システムは、生成データに従ってオーディオファイルを処理する。別の実施形態において、生成データは、別個の構成ファイルとして出力され、メモリに記憶される。さらに別の実施形態において、生成データは、メモリに記憶されてよい元のオーディオファイル内に埋め込まれる。
図14は、生成データの少なくとも項目に従って自律型オーディオ生成を行うシステム620の一実施形態を示す。システム620は、意味解析モジュール622と、別個の自律型オーディオ生成システム624とを備える。意味解析モジュール622は、ユーザインタフェースから、処理すべきオーディオファイルと、オプションでオーディオファイルに関連する意味データを受信する。生成すべきオーディオファイルは、単一のオーディオ信号、または、解析して一緒に生成すべき複数のオーディオ信号を含んでよい。意味解析モジュール622は、受信したオーディオファイルから意味情報またはデータを決定するように適合されてよく、意味データは、自律型オーディオ生成システム624に送られる。一実施形態において、意味解析モジュール622は、構成ファイルに生成データを保存してよい。別の実施形態において、意味解析モジュール622は、処理すべきオーディオファイルに意味データ及び/または生成データを埋め込んでよい。
自律型生成システム624は、処理すべきオーディオファイルと生成データを受信する。上記のように、生成データは、オーディオプロセッサの構成、オーディオプロセッサの制御パラメータまたは入力に固有の制御パラメータプリセット、及び/または、オーディオ信号の所与の生成特徴のターゲット値を示す。生成データを用いて、自律型生成システム624は、次の少なくとも1つを行う。すなわち、自律型生成システム624内で使用されるオーディオプロセッサまたは処理ツールを構成すること、各処理ツールに対して入力に固有の制御パラメータプリセットを設定すること、及び、生成されたオーディオファイルの生成特徴が、生成データに含まれたターゲット値に一致するように各処理ツールの制御パラメータを設定すること。自律型生成システム624は、次に、受信したオーディオファイルを処理し、処理、生成されたオーディオファイルを出力する。一実施形態において、自律型生成システム624は、生成されたオーディオファイルに意味データ及び/または生成データを埋め込むようにさらに適合される。
図15は、オーディオファイルを処理し、聴くことによって、意味解析モジュール622を自律型生成システム624と組み合わせ、それらを意味ベースの自律型オーディオ生成システム620(以下、「生成システム」と称する)に埋め込むシステムの一実施形態を示す。生成システム620は、オーディオファイルまたは信号を入力とし、オーディオファイルまたは信号は、意味解析モジュール622によって導出された生成データに基づいて、自律型生成システム624によって処理される。生成システムは、少なくとも1つの生成されたオーディオ信号を出力し、当該オーディオ信号は、音響再生システム626に送られて、少なくとも1つの生成された音響信号に変換される。生成された音響信号は、次に、聴取環境628の効果、例えば、部屋の音響効果や背景雑音を受けて、聴取者630が聞く環境効果を含む最終的に生成された音響信号を提供する。
図16は、意味解析モジュール622の構成の一実施例を示す。図16に示す機能ブロックは例示的なものに過ぎないことは理解されよう。意味解析モジュール622は、意味データ抽出器632、意味データコンテナ634、推論エンジン636、及び、生成データベース638を含む。意味データ抽出器632は、処理すべきオーディオファイルを受信し、受信したオーディオファイルから意味データを抽出するように適合される。意味データコンテナ634は、意味データ抽出器632から抽出された意味データ、オプションで、ユーザインタフェース640からオーディオファイルに関する追加の意味データを受信するように適合される。意味データコンテナ634は、受信した意味データを組み合わせて単一の意味データセットとし、推論エンジン636に送信するように適合される。解析すべきオーディオファイルに関する意味データも、意味データ抽出器632に送られてよい。生成データベース638は、生成されたオーディオファイルの生成データ例の集まりを含む。推論エンジン636は、解析すべきオーディオファイルの意味データを意味データコンテナ634から受信し、生成データベース24にアクセスして、解析すべきオーディオファイルを生成するために適切な生成データを決定する。一実施形態において、ユーザは、ユーザインタフェース640を介して生成プリファレンスを入力し、生成プリファレンスは、推論エンジン636による生成データの決定に影響を与える。
図17は、意味データ抽出器632の一実施形態を示す。この実施形態においては、意味データ抽出器632は、染色体特徴抽出部642、自動オーディオ分類部644、及び、生成特徴抽出部646を備える。染色体特徴抽出部642は、オーディオファイルを受信し、解析すべきオーディオファイルの染色体特徴を評価する。染色体特徴は、解析すべきオーディオファイルの記述に使用し得る任意の数の特徴、例えば、テンポ、調和性、メル周波数ケプストラム係数(MFCC)、サブバンドフラックス(SBF)、及び/または、音楽情報検索(MIR)文献からの特徴を含む。染色体特徴は、さらに、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和等、数値特徴の時系列の任意の統計的測度を含んでよい。これらは、解析すべきオーディオファイルの各オーディオ信号の全体、または、その部分領域に関してよい。
自動オーディオ分類部644は、染色体特徴を用いて解析すべきオーディオファイルを分類し、その分類特徴を決定する。分類特徴は、解析すべきオーディオファイルの記述に使用し得る任意のカテゴリ的特徴、例えば、ジャンル、楽器編成、アーティストを含んでよく、生成目標の任意のカテゴリ的記述、例えば、生成スタイル(例えば、年、特定の生成者)、感情的文脈等、も含んでよい。分類は、サポートベクタマシーン(SVM)等の任意の適切な機械学習技術を用いて行われてよい。
生成特徴抽出部646は、解析すべきオーディオファイルの生成特徴を評価する。生成特徴は、生成目標を記述する解析すべきオーディオファイルの任意の数値特徴、例えば、スペクトル形状、ダイナミックレンジ、ラウドネス、ステレオ幅、マスキングを含んでよく、生成特徴は、また、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度, 中央値、最頻値、最大値、最小値、導関数、積分、和もさらに含んでよい。これらは、解析すべきオーディオファイルの各オーディオ信号の全体、または、その部分領域に関してよい。
一実施形態において、意味データ抽出器632は、解析すべきオーディオファイルの意味データをさらに受信する。意味データは、ユーザインタフェースから受信される。一実施形態において、ユーザインタフェースから受信された意味データは、分類特徴を含み、当該分類特徴は、次に、自動オーディオ分類部644によって決定された分類特徴と組み合わされる。一実施形態において、ユーザインタフェースから受信された意味データは、染色体特徴を含み、当該染色体特徴は、分類に先立って、自動オーディオ分類部644に入力され、染色体特徴抽出部642によって決定された染色体特徴と組み合わされる。一実施形態において、ユーザインタフェースから受信された意味データは、生成特徴を含み、当該生成特徴は、生成特徴抽出部646から出力された生成特徴と組み合わされる。
意味データ抽出器632は、次に、意味データ、すなわち、分類特徴、染色体特徴、及び/または、生成特徴を出力する。
図18は、意味データコンテナ634に含まれる解析すべきオーディオファイルの意味データの一実施形態を示す。意味データは、分類特徴650、染色体特徴652、及び、生成特徴654の少なくとも1つを含む。一実施形態において、意味データコンテナ634は、意味データ抽出器632から受信した意味データをユーザインタフェース640から受信した意味データと組み合わせるように適合される。
図19は、生成データベース638の一実施形態を示す。生成データベース638は、多くの基準記録660を含み、各基準記録660は、各規準生成オーディオファイルと、その生成に用いられた方法を記述する。生成データベース638は、商用に生成されたオーディオファイルからデータを抽出することによって、または、例えば、音響工学の実践を直接解析することによって、構築されてよい。各基準記録660に関して、生成データベースは、各記録識別(ID)662、各分類特徴664、各染色体特徴666、各オーディオ信号プロセッサ(ASP)構成668、各ASP制御パラメータ670、及び、各生成特徴672を含む。
分類特徴664は、基準生成オーディオファイルの記述に用いてよい任意のカテゴリ特徴、例えば、ジャンル、楽器編成、アーティストと、生成目標の任意のカテゴリ記述、例えば、生成スタイル(年または特定の生成者)、感情的文脈と、を含む。
染色体特徴666は、基準生成オーディオファイルの記述に用いてよい任意の数値特徴、例えば、テンポ、調和性、メル周波数ケプストラム係数(MFCC)、サブバンドフラックス(SBF)、及び、音楽情報検索(MIR)文献からの全ての特徴を含み、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和をさらに含んでよい。これらは、基準生成オーディオファイルの各オーディオ信号全体、または、その部分領域に関してよい。
ASP構成668は、基準生成オーディオファイルの生成に用いられる一連のオーディオ信号処理ツールまたはプロセッサの特定の構成、例えば、マスタリングのための、コンプレッサ→EQ→マルチバンドコンプレッサ→リミッタ、を記述する。構成は、特定のアルゴリズム、及び/または、例えば、マルチバンドコンプレッサ:TCエレクトロニック社のM3D Multi‐band Dynamics等の各オーディオ信号処理ツールの実装も含んでよい。
ASP制御パラメータ670は、基準生成オーディオファイルの生成に用いられるオーディオ信号処理ツールのための制御データ、例えば、コンプレッサのニー:−3dB、リミッタのアタックタイム:1ミリ秒、を含む。
生成特徴672は、生成目標を記述する基準生成オーディオファイルの任意の数値特徴、例えば、スペクトル形状、ダイナミックレンジ、ラウドネス、ステレオ幅、マスキングを含み、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和をさらに含んでよい。これらは、データベースオーディオファイルの各オーディオ信号の全体、または、その部分領域に関するものであってよい。
図20は、推論エンジン636の一実施形態を示す。解析すべきオーディオファイルの意味データは、意味データコンテナ634から受信され、分けられる、ここで、分類特徴及び/または染色体特徴は、生成データベースクエリツール680に送られ、分類特徴及び/または生成特徴は、生成データ評価部682に送られる。生成データベースクエリツール680は、分類及び/または染色体特徴という点で解析すべきオーディオファイルに類似した基準記録660のサブセットを生成データベース638から識別する。生成データ評価部682は、識別された基準記録660のサブセットを受信し、解析すべきオーディオファイルの生成データを取り出し、出力する。
一実施形態において、生成データ評価部682は、生成データを取り出す時に、解析すべきオーディオファイルの分類特徴を含む。これらは、例えば、後の生成の対象となる出力先等、分類特徴によって、生成データベース638に反映または捕捉されていない可能性のある生成データの修正が必要となる特別な場合である。
一実施形態において、生成データ評価部682は、生成データを取り出す時に、解析すべきオーディオファイルの生成特徴を含む。
一実施形態において、生成データ評価部682は、生成データを取り出す時に、ユーザインタフェース640を介して入力されるユーザが定義した生成プリファレンスを含む。
意味解析モジュール622(SAM)を多くの実施例を用いて説明する。各実施例は、別個の実施形態とみなしてよい。これは包括的なリストとみなすべきではない。実施例は、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関するが、同じ原理は、複数のオーディオ信号を含むオーディオファイルに適用されてよい。
SAM実施例1
ステレオオーディオ信号を含むオーディオファイルが、意味解析モジュール622に入力され、添付の意味データはユーザインタフェースから受信されない。意味データ抽出器632が、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値である。自動オーディオ分類部644は、SVMを用いて、オーディオファイルの染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルを、例えば、電子ダンス音楽(EDM)であると識別する。この分類特徴、すなわち、ジャンル: EDMは、次に、推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴がジャンル:EDMである全ての基準記録660を識別し、基準記録660のこのサブセットは、生成データ評価部682に送られる。
生成データ評価部682は、識別されたサブセットの各基準記録660のASP構成668を調べ、共通の構成を決定する。この実施例においては、共通の構成は、高域フィルタ→空間プロセッサ→イコライザ→マルチバンドコンプレッサ→リミッタである。この構成は、次に、解析すべきオーディオファイルの生成データのASP構成フィールドに記憶される。
生成データ評価部682は、サブセット内の各記録に関してASP制御パラメータ670を調べ、これらのパラメータの分布を評価する。この実施例においては、関心のある制御パラメータは、(i)マルチバンドコンプレッサの周波数バンド、(ii)マルチバンドコンプレッサのニー、(iii)リミッタのアタックタイムとリリースタイムである。各パラメータに関して、サブセット内の全ての記録における分布を解析し、平均値を求めて、解析すべきオーディオファイルの生成データのASP制御パラメータフィールドに記憶する。制御パラメータの分布の任意の適切な統計的測度を用いてよいことは理解されたい。
生成データ評価部682は、識別されたサブセットの各基準記録に関して生成特徴672をさらに調べ、これらの特徴の分布を評価する。この実施例においては、関心のある生成特徴は、(i)基準オーディオファイルの全体的なスペクトル形状、(ii)基準オーディオファイルのラウドネスである。各特徴に関して、全ての基準記録にわたる分布を解析し、平均値を求めて、解析すべきオーディオファイルの生成データの生成特徴に記憶する。生成特徴の分布の任意の適切な統計的測度を用いてよいことは理解されたい。
次に、解析すべきオーディオファイルの生成データを出力する。
SAM実施例2
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、テンポである。自動オーディオ分類部644は、迂回され、染色体特徴のみが推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、K最近傍(KNN)アルゴリズムを用いて、染色体特徴が解析すべきオーディオファイルの染色体特徴に最も似通ったK個の基準記録のサブセットを生成データベース638から識別する。この実施例においては、K=10、従って、10個の記録のサブセットを生成データ評価部682に送り、システムは、SAM実施例1と同じように動作する。
SAM実施例3
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、及び、テンポである。自動オーディオ分類部644は、SVMを用いて、染色体特徴のサブセットに基づいて、この場合は、最初の10個のMFCC係数に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルが電子ダンス音楽(EDM)であると識別する。この分類特徴であるジャンル:EDMと、染色体特徴とは、次に、推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴ジャンル:EDMの全ての基準記録を識別する。この実施例においては、これによって、1000の記録が生成される、よって、このサブセットを減らすために、KNNアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する10個の記録からなる2次サブセットを識別する。これらの10個の記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
SAM実施例4
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10のSBFバンドの平均値である。自動オーディオ分類部644は、SVMを用いて、染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルをロックミュージックであると識別する。これに加えて、ユーザは、音楽のムードは激しいこと、生成スタイルは生成者Xに基づくべきことを示す意味データを、ユーザインタフェース640を介して提供する。従って、分類特徴は、ジャンル:EDM、ムード:激しい、生成者:生成者Xとなり、これらは、推論エンジン636に送られる。データベースクエリツール680は、この分類に一致する基準記録のサブセットを生成データベースから選択する。識別された基準記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
SAM実施例5
ステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。当該オーディオファイルは、ジャンルがポップミュージックであると分類する添付の意味データを有する。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、及び、テンポである。自動オーディオ分類部644は迂回され、次に、分類特徴であるジャンル:ポップミュージックと染色体特徴が推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴がジャンル:ポップミュージックである全ての基準記録を識別する。この実施例においては、これによって、1000の記録が生成される、よって、このサブセットを減らすために、KNNアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する10個の記録からなる2次サブセットを識別する。これらの10個の記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
SAM実施例6
SAM実施例4のオーディオファイル及び意味データが、生成の出力先がサウンドクラウドのストリーミングであることを示すユーザが定義した意味データと共に、入力される。よって、分類特徴は、ジャンル:EDM、ムード:激しい、生成者:生成者X、及び、出力先:サウンドクラウドストリーミングである。最初の3つの分類特徴を用いて、生成データベースサブセットを識別するが、出力先:サウンドクラウドストリーミングは、生成データベース内には記憶されず、直接、生成データ評価部682に送られる。この出力先クラスは、データ圧縮を組み込んでいるので、ピーク出力レベルが高すぎる場合、クリッピングの影響を受けやすい。従って、生成データ評価部682は、最大ピーク出力レベルを、他の出力先に用いる−0.3dBではなく、−1dBに、直接、設定する。この実施例の他の部分は、SAM実施例4と同じように動作する。
SAM実施例7
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、快活な作品が好ましいことを示すユーザの生成プリファレンスを提供した。システムは、SAM実施例1に示したシステムに従うが、生成データ評価部682は、快活な音を提供するように、解析すべきオーディオファイルの生成データの全体的なスペクトル形状を修正する。例えば、全体的なスペクトル形状の修正は、全体的なスペクトル形状に所定のオフセットを追加することによって行ってよく、快活さという点で、約2〜約5kHzの間のエネルギーの増加に関わることになる。
SAM実施例8
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、ASP構成、ASP制御パラメータ、または、生成特徴のいずれかの生成データの形で、ユーザの生成プリファレンスを明示的に提供した。システムは、SAM実施例1に示したシステムに従うが、ユーザが提供する生成データは、意味解析モジュールの初期の段階で導出した生成データを上書きする。例えば、ユーザは、好ましいリミッタの実装、高域フィルタ周波数の遮断、及び、解析すべきオーディオファイルのRMSレベルを定義する。これは、生成データという点で、自律型オーディオ生成システム8を直接制御するルートを提供する。
SAM実施例9
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、生成は、例えば、特定のアーティストが製作品全てに基づく、または、特定のアルバムからであるべきという生成データベース638からの基準記録のサブセットを明示的に提供した。生成データベースクエリツール680は、分類特徴及び/または染色体特徴を無視し、生成データベース記録660のユーザが選択したサブセットを生成データ評価部682に直接送る。
SAM実施例10
SAM実施例1のオーディオファイルを解析し、さらに、生成特徴抽出部642が、低周波エネルギーが高レベルであることを返した。システムは、SAM実施例1に示したシステムに従うが、この生成特徴も、生成データ評価部682に送られ、生成データ評価部682は、高域フィルタのASP制御パラメータを修正して、システムの低周波エネルギーを減衰させるようにより多くのゲインを適用する。
SAM実施例11
SAM実施例1のオーディオファイルを解析し、さらに、意味データ抽出部642は、何らかの手動のユーザインタフェース調整を用いて、自動分割アルゴリズムを行うことによって、オーディオ信号をセクションに分けた。この場合、セクションは、ファイルの最も音の大きい部分を表す5秒の領域、ラウドネス及び周波数成分という点で歌全体を最も良く表す5秒のセクション、及び、バース/コーラスである。生成特徴抽出部642は、各セクションの特徴を別個に、及び歌全体の特徴を戻し、生成データ評価部682は、異なる特徴に関して、適切なセクションのデータを用いて生成データを決定する。例えば、最も音の大きいセクションから取ったRMSレベルから、リミッタ閾値を動的に決定する。システムは、SAM実施例1に示すシステムに従う。
SAM実施例12
SAM実施例1のオーディオファイルを解析し、さらに、生成特徴抽出部642は、−20dBの高レベルのノイズを返した。システムは、SAM実施例1に示すシステムに従うが、この生成特徴も、生成データ評価部682に送られ、生成データ評価部682は、ASPチェーンの最初に(オーディオ信号からのノイズ除去に用いられる)ノイズ除去部を備えるようにASP構成を修正し、ノイズレベルと(生成特徴抽出部によっても評価される)オーディオファイルの全体的なスペクトル形状とに基づいて、ノイズ除去ASP制御パラメータを設定する。
SAM実施例13
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、所望の生成目標を表す2次基準オーディオファイルを入力する。2次基準オーディオファイルは、意味データ抽出部に送られ、その分類特徴、染色体特徴、及び、生成特徴が評価される。この実施例においては、2次基準オーディオファイルは、ジャンル:EDMとして分類され、基準染色体特徴は、最初の10のSBFバンド、基準生成特徴RMSレベル:−9dB Fsである。生成データベースクエリツール680は、基準オーディオファイル分類(ジャンル:EDM)に基づいて、全ての記録を識別し、KNNを用いて、2次基準オーディオファイルの染色体特徴に最も近い5つの記録を生成データベースから見つける。これらは、次に、生成データ評価部682に送られる。生成データ評価部682は、ASP構成と制御パラメータの根拠をKNNが識別した記録に置き、2次基準オーディオファイルから抽出された生成特徴(すなわち、RMSレベル:−9dB Fs)に基づいて生成特徴を設定する。これによって、基準オーディオファイルへの「生成マッチング」を可能にする。
図21は、生成すべきオーディオファイルと生成データを入力とし、生成したオーディオファイルを出力する、自律型オーディオ生成システム624の一実施形態を示す。自律型オーディオ生成システムは、生成データ解釈部702、生成特徴マップ部704、生成特徴抽出部706、及び、複数のASP708を含む。一実施形態において、生成特徴抽出部706は、生成特徴抽出部646から独立している。別の実施形態において、生成特徴抽出部706は、生成特徴抽出部646に対応する。
この実施形態においては、各ASP708は、各オーディオ処理アクションを行うように適合される。本実施形態においては、ASP708は、直列構成で組織される、すなわち、オーディオファイルに含まれたオーディオ信号を順次、処理するように構成されるが、ASPは、並列構成で組織されてもよい、すなわち、オーディオ信号を並列で処理してもよいことは理解されたい。
自律型オーディオ生成システム624は、生成すべきオーディオファイルの生成データを意味解析モジュール622から受信する。この生成データは、生成データ解釈部702に送られ、生成データ解釈部702は、(i)ASP構成708を設定、(ii)ASP制御パラメータプリセット710を設定、(iii)生成すべきオーディオファイルの生成特徴を生成特徴マップ部704に送る、のうちの少なくとも1つを行う。これらのアクションについてより詳細に説明する。
一実施形態において、生成データ解釈部702は、生成データからASP構成を読み取り、これを用いて、ASP処理チェーンをセットアップする。すなわち、チェーン内のASP708の相対的順番を決定する。例えば、上記SAM実施例1を参照すると、それぞれ、高域フィルタ、空間プロセッサ、イコライザ、マルチバンドコンプレッサ、及び、リミッタに対応する5つのASP、ASP1〜5がある。
一実施形態において、生成データ解釈部702は、生成データからASP制御パラメータプリセットを読み取り、ASP制御パラメータプリセットを用いてASP708に、対応するプリセット96を設定する。上記SAM実施例1を参照すると、例えば、ASP4(マルチバンドコンプレッサ)は、その周波数バンドと、各圧縮バンドに対するニーの制御パラメータを送られる、ASP5(リミッタ)は、アタックタイムとリリースタイムを送られる。
一実施形態において、生成データ解釈部702は、ターゲット生成特徴を生成データから読み取り、生成特徴マップ部704に送る。生成特徴マップ部704は、ASP制御パラメータを決定し、ターゲット生成特徴を生成されるオーディオファイルにマップするようにASPに関する制御パラメータを設定する(712)。生成データベースの実施形態においては、ターゲット生成特徴は、生成されるオーディオファイルの生成特徴に関連してよい。別の実施形態において、ターゲット生成特徴は、ASPチェーンの任意の中間の段階、すなわち、2つのASP708の間のオーディオファイルの生成特徴に関連してよい。
一実施形態において、生成特徴抽出部706は、ASPチェーンの任意の点から生成特徴を抽出し、生成特徴マップ部704に送る。
一実施形態において、生成特徴抽出部706は、解析特徴マッピングを用いて、制御パラメータをASPに設定する。
一実施形態において、生成特徴抽出部706は、反復特徴マッピングを用いて制御パラメータをASPに設定する。
自律型オーディオ生成システム(AAPS)を多くの実施例を用いて示す。各実施例は、別個の実施形態とみなしてよい。これは、包括的なリストとみなすべきではない。実施例は、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関するが、同じ原理は、複数のオーディオ信号を含むオーディオファイルに適用されてよい。
AAPS実施例1(図10)
図10は、3つのASPを含む自律型オーディオ生成システム624aの一実施形態を示す。生成データ解釈部702は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部702は、ASP構成フィールドを読み出し、この実施例においては、処理チェーンを次の3つのASPを含むように設定する。
A.高域フィルタ(HPF)708a
B.イコライザ(EQ)708b
C.リミッタ708c
生成データ解釈部702は、ASP制御パラメータを読み出し、以下を設定する。
A.710aでHPFに遮断周波数
B.710bでリミッタにアタックタイムとリリースタイム
C.710bでリミッタに出力レベル
生成データ解釈部702は、生成すべきオーディオファイルからターゲット生成特徴を読み出し、生成特徴マップ部704に送る。この実施例においては、ターゲット生成特徴は、以下のようになる。
A.50Hz未満のエネルギー量:HPF後、中間信号から評価
B.信号スペクトルの形状:EQ後、中間信号から評価
C.RMSレベル:出力信号から評価
生成特徴マップ部704は、ASPの制御パラメータにターゲット生成特徴をマップする。
A.50Hz未満のエネルギー量→HPFゲイン制御
B.信号スペクトルの形状→EQカーブの形状
C.RMSレベル→リミッタ閾値
生成特徴抽出部706は、50Hz未満のエネルギー量をHPFの前に(714aで)評価し、このデータを生成特徴マップ部704に送る。この実施例においては、714bで50Hz未満のエネルギーは−6dBであるが、ターゲットエネルギーは、−8dBである。よって、生成特徴マップ部704は、生成されるオーディオファイルでこの生成特徴を調整するために、712aでHPFゲイン制御を−2dBに設定する。これは、解析特徴マッピングの実施例で、それによって、生成特徴マップ部は、制御パラメータを直接評価して、ターゲット生成特徴を達成することができる。この場合、単にターゲット生成特徴とオーディオ信号から抽出した生成特徴の差を取ることによって評価することができる。これらは、712aでHPFに送られる。
生成特徴抽出部706は、EQの前に(714bで)信号スペクトルの形状を評価する。この実施例においては、信号スペクトルの形状は、50Hz以上の20の周波数バンドのエネルギーとして定義される。そして、EQは、相当する周波数バンドでゲインを適用することによって、周波数成分を操作する。生成特徴マップ部704は、各周波数バンドに関して、スペクトルのターゲット形状と712bにおけるスペクトルの形状の差を評価する。これらの差を用いて各バンドでゲインを設定し、これらの差は、712bでEQに送られる。これは、解析特徴マッピングの別の実施例である。
生成特徴抽出部706は、リミッタの前(714c)及びリミッタの後(714d)の両方で、信号のRMSレベルを評価する。この実施例においては、ターゲットRMSは、−8dB FSで、714cにおけるRMSは、−14dB FSである。このターゲット生成特徴をマッピングすることとの主な違いは、リミッタ処理アルゴリズムは非線形なので、解析特徴マッピングの使用は不可能なことである。代わりに、反復マッピングアルゴリズムを用いる。適切な決定的アルゴリズムや適切な確率アルゴリズムなど任意の適切な反復マッピングアルゴリズムを使用してよい。決定的アルゴリズムは、例えば、ガウスニュートン法等、生成特徴と制御パラメータの関係における派生情報を用いて、(ターゲット生成特徴と抽出された生成特徴との間に)最低誤差、e、を提供する制御パラメータに収束する。確率アルゴリズムは、例えば、遺伝的アルゴリズム、シミュレーテッドアニーリングアルゴリズム等、半ランダムに制御パラメータ空間を検索して、(ターゲット生成特徴と生成されるファイルの生成特徴)との間に最低誤差を提供する制御パラメータを見つける。
この実施例においては、生成特徴マップ部704は、ガウスニュートン法を用いるが、反復アプローチは、任意の種類のアルゴリズムに対して成り立つ。生成特徴マップ部は、最初に、近似アルゴリズムマッピングを用いて、例えば、ターゲットと信号RMSレベルの差を取ることによって、閾値(T)設定を推定する。
=RMS99c−RMSターゲット=−6dB
生成特徴の最初の誤差eは、開始時の閾値に関して、生成されるオーディオファイルの生成特徴の値をターゲット生成特徴と比較することによって評価される。解析生成特徴マッピングとの主な相違は、閾値推定値が712cで設定され、信号が処理され、生成特徴抽出部706が、生成すべき信号の生成特徴を再計算することである。
=(RMS99d(T)−RMSターゲット(T))
生成特徴マップ部は、次に、閾値Tの変化に対する誤差eの数値勾配を評価する。これは、少量dTだけ閾値を摂動させて、信号を再処理し、714dで生成特徴抽出部を用いて生成特徴を再評価することによって行われる。
(de/dT)={(e(T+dT)―e(T)}/dT
閾値の次の推定値T1(ここで、「1」は反復指標)は、次に、この導関数を用いて評価される。誤差e1は、次に、この更新された閾値を用いて再評価される。
=T+(de/dT)―1
このプロセスは、所与の反復で誤差が所定の許容誤差未満になるまで、または、許容可能が反復回数に達するまで、繰り返される。
AAPS実施例2
AAPS実施例1における生成すべきオーディオファイルの生成データが、生成データ解釈部702によって受信され、ASP構成及び制御パラメータデータが読み出され、設定され、低周波エネルギーが、生成特徴マップ部によって、HPFゲインにマップされる。
この実施例の違いは、スペクトルの形状及びRMSレベルの両方に関するターゲット生成特徴が、処理チェーンの中間段階ではなく、生成されたオーディオファイルに対して(714dで)定義されることである。こうする動機は、リミッタが信号のスペクトルに対して有するエフェクトを含むことである(リミッタは主にダイナミックレンジを制御するが、スペクトルに対する2次的エフェクトを有することになる)。生成特徴マップ部704及び生成特徴抽出部706は、AAPS実施例1と同じように働く。すなわち、最低誤差を見つけるために反復するが、この例においては、EQ及びリミッタの両方に関する制御パラメータは、同時に見つけられる。数学的観点から、等式は、制御パラメータ及び誤差がベクトルに含まれるように適合され、数値微分が行列(ヤコビ行列式として知られる)内に含まれる。
AAPS実施例3
AAPS実施例1において生成すべきオーディオファイルの生成データは、生成データ解釈部702によって受信され、ASP構成及び制御パラメータデータが読み出され、設定されて、生成特徴マップ部は、低周波エネルギーをHPFゲイン、スペクトル形状を各EQフィルタバンドでゲインにマップする。
この実施例における違いは、生成特徴が、リミッタが導入し得るディストーションの最大量を定義する追加の特徴を含むことである。これは、反復特徴マッピングアルゴリズムにおける制約として、リミッタ処理が過度のディストーションを導入することを防ぐために用いられる。すなわち、アルゴリズムは、導入し得るディストーションの量に関するハードリミットを観察しながら、ターゲットRMSレベルの提供を試みる。
AAPS実施例4
自律型オーディオ生成システムは、AAPS実施例3と同じように動作するが、追加のユーザ生成プリファレンス生成特徴を受信する。この生成特徴は、RMSレベルとリミッタが導入するディストーションとの間の許容可能なトレードオフを記述する。この実施例においては、ユーザは、高度なRMSミックスを望んでおり、必要に応じて、大きなディストーションを許容する、例えば、最大許容ディストーションは、生成データベースから5ディストーションユニットとして評価されるが、ユーザは、この実施例に対しては、最大許容ディストーションを7ディストーションユニットとして定義する。反復特徴マッピングアルゴリズムは、それに応じて、ディストーション制限が、リミッタの処理に与える抑制効果を和らげるように適合される。
複数の信号を含むオーディオファイルの生成
図23は、生成すべきオーディオファイルが複数のオーディオ信号を含む時、自律型オーディオ生成システム624bの一実施形態を示す。自律型オーディオ生成システム624bは、概ね、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関して前述したのと同じように動作するが、ここでより明確に説明する。図23に示す具体的なASP構成は例示に過ぎないことは理解されたい。
生成データ解釈部702は、生成すべきオーディオファイルに関する生成データを受信する。生成データ解釈部702は、ASP構成を評価し、これを用いて、処理チェーンのASPを設定する。ASP構成は、生成すべきオーディオファイルの各オーディオ信号の楽器の種類を識別するラベルを備え、716で、各処理チェーンへの各オーディオ信号のルーティングを定義する。この実施例においては、オーディオファイルは、ベース、キック、スネア、ハイハット、シンバル、ギター、及び、ボーカルに関するオーディオ信号(モノラルまたはステレオ)を含み、各オーディオ信号は、独自の処理チェーンを有する。ボーカルの処理チェーン718は、コンプレッサ、イコライザ、及び、ボーカルリバーブユニットを備える。これらは、オーディオ生成の用語における「トラック」と考えてよい。
生成データのASP構成は、次の追加のルーティング情報を含む。
・ベースとキックのオーディオ信号は、それらの個々の処理チェーンの後、コンプレッサ720にルーティングされる。この2つの信号は、単一の信号として処理することができ、722でミックスの残りの信号と再結合することができる。
・ドラム(キック、スネア、ハイハット、及び、シンバル)信号の全ては、ドラムサブミックス724にルーティングされる。これによって、106でミックスの残りの信号と再結合される時に、ドラムを単一のエンティティとして制御する。
・音楽信号(すなわち、ボーカルからの信号を除く全て)の全ては、共通の音楽リバーブプロセッサ726に送られる。これは、全ての音楽信号に適用すべき共通のリバーブエフェクトを提供し、722でミックスの残りの信号と再結合する時、全体としてのリバーブ強度を制御する。
・722で、オーディオ信号の全てが結合されて、生成されたオーディオファイルが提供される。
生成データのASP制御パラメータは、オーディオ信号独自の処理チェーン内、または、特定のルーティングの部分のどちらであっても、選択された構成内の任意のASPに関連してよい。追加の制御パラメータは、構成のルーティング段階の任意の段階でルーティングする信号量を制御するために含まれる。例えば、728において、キック信号は、音楽リバーブプロセッサ726にルーティングされるので、例えば、−6dB等、信号のどれだけがルーティングされるのかを決定する対応するゲインパラメータがある。
生成データの生成特徴は、オーディオ信号独自の処理チェーンであっても、特定のルーティングの部分であっても、構成の任意の点に関連してよい。生成特徴抽出部は、対応する位置で生成特徴を評価する。例えば、
・730a〜730dにおいては、生成特徴は、ボーカル信号の処理チェーンの点から抽出される。
・730eにおいては、生成特徴は、音楽リバーブプロセッサによって出力されたオーディオ信号から抽出される。
・730fにおいては、生成特徴は、全てのオーディオ信号が結合された後、すなわち、生成されたオーディオファイルから抽出される。
生成特徴マップ部の実施形態において、生成特徴マップ部は、解析及び/または反復生成特徴マッピングを用いて、制御パラメータデータを導出する。
生成特徴マップ部の実施形態において、生成特徴マップ部は、個々の生成特徴を用いて制御パラメータデータを導出する。例えば、生成特徴マップ部は、ボーカル信号のスペクトル形状を用いて、ボーカル処理チェーンのイコライザを設定してよい。
生成特徴マップ部の実施形態において、生成特徴マップ部は、生成特徴の組み合わせを用いて、制御パラメータデータを導出する。例えば、生成特徴マップ部は、音楽リバーブ信号730eのラウドネスと、ミックスされたオーディオ信号730fのラウドネスを用いて、音楽リバーブエフェクトの出力ゲインを設定してよい。
ユーザ評価と自己学習
図24は、意味解析モジュールの実施形態を示す。この実施形態においては、推論エンジン636は、解析すべきオーディオファイルの生成データ740の複数のセットを導出し、各セットは代替の生成を反映する。例えば、生成データのこれらの変形は、次のようにして導出されてよい。
・ユーザが定義した生成プリファレンスを用いる
・意味データ抽出器632において、異なる機械学習アルゴリズム及び/または変数のセットを用いて、分類特徴、染色体特徴、及び、生成特徴のセットを出力する。例えば、1つのセットは、第1のSVMを用いてジャンルを高粒度に分類してよく、第2のセットは、第2の異なるSVMを用いて、生成特徴を含みながらもジャンルを粗い粒度に分類してよく、第3のセットは、染色体特徴のみを用いてよい。
・データベースクエリツール680の異なる機械学習アルゴリズム及び/または変数のセットを用いる、例えば、生成データ評価部682に送る記録の数を変える
・生成データベースサブセットの異なる統計的測度を用いて生成データを導出するように生成データ評価部682を構成する、例えば、セット1は最頻値を用いてよく、セット2は中央値を用いてよく、セット3は平均値を用いてよい。
・生成データが基にする特定の記録を生成データベースサブセットから選択するように生成データ評価部682を構成する、例えば、生成データベースサブセットが5つの記録を含む場合、5つの記録のそれぞれを、解析すべきオーディオファイルのための別個の生成データセットとして用いてよい。
・生成データ評価部682が導出した生成データの任意の部分、すなわち、ASP構成、ASP制御パラメータまたは生成特徴をランダムに摂動させる。
図24に示す実施形態においては、5セットの生成データ740があり、当該データは、自律型オーディオ生成システム624に送られ、自律型オーディオ生成システム624は、各セットに関して生成されたオーディオファイル742を出力する。
生成されたオーディオファイルのセットは、自律型オーディオ生成評価ツール744によって受信され、自律型オーディオ生成評価ツール744は、生成された異なるオーディオファイルの質をユーザが評価し得るインタフェースを提供する。インタフェースは、以下を組み込んでよい。
・A―Bテスト、このテストによって、ユーザは、生成された異なるオーディオファイルを一対比較する。
・MUSHRA(multiple stimulus with hidden reference and anchor)テスト、このテストによって、ユーザは、生成された異なるオーディオファイルの同時比較を行う。
自律型オーディオ生成評価ツール744は、ユーザ評価に基づいて、ユーザ評価生成プリファレンスを出力し、それらは、ユーザ生成プリファレンスデータベース746によって、受信、記憶される。
推論エンジン636は、ユーザ生成プリファレンスデータベース746にアクセスし、推論エンジン636の生成データベースクエリツール680または生成データ評価部682で、この情報を用いて、手動で入力されたユーザが定義した生成データと同じ方法で、導出された生成データを特定のユーザまたはユーザグループに合わせて調整してよい。例えば、
・特定のユーザに関する評価プリファレンスは、当該ユーザが、解析すべき新しいオーディオファイルを入力する時、用いられてよい。
・ユーザのサブグループ、例えば、ジャンル:EDM、ムード:激しい、に分類されるオーディオファイルを入力した全てのユーザ、に関する評価プリファレンスが、ユーザが同じ分類を有するオーディオファイルを入力する時、用いられてよい。
・任意のオーディオファイル分類に関する全てのユーザからの評価プリファレンスが用いられてよい。
この実施形態においては、システムは、ユーザのプリファレンスを学習して、それに適合することができる。
ある実施形態において、自律型オーディオ生成評価ツール744は、システムの非ユーザが評価を行うことができるように、例えば、別個のウェブサイトにおいて、システムから外部的にホストされてよい。
時間情報生成データ
一実施形態において、意味解析モジュールによって導出された生成データは、以下のいずれかに関連してよい。
・解析すべきオーディオファイルのオーディオ信号の持続時間にわたる統計的測度、例えば、オーディオ信号のRMSレベルは、その持続時間全体にわたって取得されてよい。
・解析すべきオーディオファイルのオーディオ信号の特定の領域に関する持続時間にわたる統計的測度、例えば、オーディオ信号のRMSレベルは、コーラス等の小領域にわたって取得されてよい。
・解析すべきオーディオファイル、または、その部分領域のオーディオ信号の持続時間にわたる時系列、例えば、オーディオ信号のRMSレベルは、その持続時間全体にわたる、または、コーラス等の小領域にわたる、時間の関数として表されてよい。
特定の領域に関する実施形態においては、生成データは、関連する時間の情報、例えば、RMSレベル40〜50秒、または、コーラスのRMSレベルを用いて、タイムスタンプされる。
生成データベース638の実施形態においては、ASP制御パラメータ及び生成特徴は、例えば、オーディオ信号の持続時間にわたるRMSレベル平均値、オーディオ信号の持続時間にわたるRMSレベル時系列、コーラスにわたるRMSレベル平均値等、上記の任意の生成データ種類に関連してよい。
生成データ解釈部702の一実施形態においては、ASP構成生成データは、時系列として表されてもよく、及び/または、タイムスタンプされたセクションに関連してもよい、従って、708で送られるASP構成は、生成すべきオーディオファイルの持続時間にわたって変化してよい。
生成データ解釈部702の一実施形態においては、ASP制御パラメータ生成データは、時系列として表されてもよく、及び/または、タイムスタンプされたセクションと関連してもよい、従って、710で送られるASP制御パラメータデータは、生成すべきオーディオファイルの持続時間にわたって変化してよい。
一実施形態において、生成データ解釈部702、生成特徴マップ部704、及び、生成特徴抽出部706は、時系列として表される生成特徴を使用してもよく、及び/または、タイムスタンプされたセクションに関連してもよい、従って、それらの動作、及び、712における生成特徴マップ部704による制御パラメータの出力は、生成すべきオーディオファイルの持続時間にわたって変化してよい。
リアルタイム考慮事項
一実施形態においては、システムは、非リアルタイムで動作する。それによって、生成されたオーディオファイルの出力と、生成すべきオーディオファイルの入力は、時間的に同期されない。この場合、意味解析モジュール622及び自律型オーディオ生成システム624は、オーディオファイルを生成する前に、オーディオファイル全体にアクセスすることができる。
別の実施形態においては、システムは、実質的にリアルタイムで動作する。それによって、例えば、生成されたオーディオファイルが拡声装置を介して出力されるライブ環境においては、生成されたオーディオファイルの出力は生成すべきオーディオファイルと同期される。この場合、意味解析モジュール622及び自律型オーディオ生成システム624は、オーディオファイルの生成が完了する前に、オーディオファイル全体にアクセスすることはできない。すなわち、オーディオ信号の部分はフレーム毎に入力される。これに対応するために、
・オーディオファイルに添付された意味データを、その入力時に用いて、即値生成データを導出する。
・意味解析モジュールは、各フレームの意味データを意味データコンテナ634に記憶し、オーディオファイルの追加の部分が受信されると、引き続き、生成データを導出する。
・自律型オーディオ生成システム624に送られる生成データの変化は、適用中の処理の突然の変化を防止するように平滑化される。
・ライブ環境では、オーディオの予め記録されたセクションを使用して、例えば、サウンドチェックまたは以前のパフォーマンスを介して即値生成データを提供してよい。
命令を実施する本明細書に例示の任意のモジュールまたはコンポーネントは、記憶媒体、コンピュータ記憶媒体、または、例えば、磁気ディスク、光ディスク、もしくは、テープ等のデータ記憶装置(取り外し可能、及び/または、取り外しできない)等のコンピュータ可読媒体を含んでよい、または、当該コンピュータ可読媒体にアクセスできてよいことは理解されよう。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または、他のデータ等、情報を記憶するための任意の方法または技術で実装された揮発性及び不揮発性、取り外し可能及び取り外しできない媒体を含んでよい。コンピュータ記憶媒体の実施例は、RAM、ROM、EEPROM、フラッシュメモリ、もしくは、他のメモリ技術、CD‐ROM、デジタル多用途ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは、他の磁気記憶装置、または、所望の情報の記憶に用いることができ、アプリケーション、モジュール、もしくは、その両方によってアクセスできる任意の他の媒体を含む。任意のこのようなコンピュータ記憶媒体は、意味ミキシングモジュール20、生成システム10、生成エンジン504等の一部であってもよく、それらの任意のコンポーネントもしくはそれらに関連付けられた任意のコンポーネントであってもよく、または、それらにアクセスもしくは接続可能な任意のコンポーネントであってよい。本明細書に記載の任意のアプリケーションまたはモジュールは、このようなコンピュータ可読媒体によって記憶可能または、他の方法で保持し得るコンピュータ可読/実行可能命令を用いて実装し得る。
本明細書に記載のフローチャート及び図のステップまたは動作は、単に実施例に過ぎない。上記の原理から逸脱することなく、これらのステップまたは動作に多くの変更があってよい。例えば、ステップは、異なる順番で行われてよく、ステップは、追加、削除または修正されてよい。
一部の具体的な実施例を参照して上記原理を記載したが、その様々な修正は、請求項で要点を述べるように、当業者には明らかであろう。
実施形態に係る、意味規則を用いてオーディオファイルを処理する方法を示すフローチャートである。 実施形態に係る、意味規則を用いてオーディオファイルを処理するシステムを示すブロック図である。 自律型マルチトラック音楽生成システムと、このようなシステムのための意味処理モジュールの実施例を示すブロック図である。 意味処理モジュールの例示的構成の実施例を示すブロック図である。 意味規則の実施例の例示的な図である。 意味処理モジュールとオーディオミキシングエンジンとの一体化の実施例を示すブロック図である。 意味規則をオーディオデータに適用するために意味処理ミキシングをさせる時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。 自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。 自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。 自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。 自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。 意味処理モジュールを有する自律型マルチトラック音楽生成システムを示すブロック図である。 自律型マルチトラック音楽生成システムのマルチトラックサブグループを示すブロック図である。 自律型マルチトラック音楽生成システムの交差適合特徴処理要素を示すブロック図である。 自律型マルチトラック音楽生成システムのマルチトラックミキシングプロセッサの実施例を示すブロック図である。 実施形態に係る、生成データを決定する方法を示すフローチャートである。 実施形態に係る、生成データを決定するシステムのブロック図である。 実施形態に係る、埋め込み意味解析モジュールを含む自律型オーディオ生成システムを示すブロック図である。 実施形態に係る、意味解析モジュールのブロック図である。 実施形態に係る、意味データ抽出部を示すブロック図である。 実施形態に係る、意味データコンテナに含まれる意味データを示す図である。 実施形態に係る、生成データベースに含まれる基準データ記録を示す図である。 実施形態に係る、推論エンジンを示すブロック図である。 第1の例示の自律型オーディオ生成システムを示すブロック図である。 第2の例示の自律型オーディオ生成システムを示すブロック図である。 第3の例示の自律型オーディオ生成システムを示すブロック図である。 実施形態に係る、ユーザ評価と自己学習フィードバックを含む自律型オーディオ生成システムを示すブロック図である。
本明細書に記載の実施例において、一般的コンプレッサモデルは、可変閾値レイアウト(例えば、固定閾値、可変入力ゲイン設計に反して)と、2次のニーと、閾値、比率、アタックとリリース(「バリスティックス(ballistics)」)、及び、ニー幅の標準パラメータと、共に用いられてよい。
オフライン解析の実施例を記載する。この実施例においては、オーディオファイルのマルチトラックのセット(ステムとしても知られる)を、エンジン504は入手可能である。ステムは、フレーム毎に解析され、オーディオ特徴(ラウドネス、スペクトル中心、波高因子等)が抽出され、それぞれの値が特徴時系列として記憶される。次に、解析段階を実行して、個々のトラック内、及び、全てのトラックを通して、特徴値の変動をモニタして、それに従って、エンジン504を調整する。例えば、ラウドネスを選択した抽出特徴とすると、オフライン解析器は、全てのトラックが突然、著しくラウドネスが下がり、1つのトラック、例えば、エレキギターが、元のレベルのままであることに気付くことがある。全てのトラックが元のラウドネス状態に戻るまで、これが、ある期間(例えば、20秒)維持される。これは、オフライン解析器によってソロ部分と解釈され、次の複数の方法でエンジン504に影響を与える。その方法とは、(i)ギターがリードトラックとして選択され、ミックスの中心にパンされる、(ii)ギターのフェーダレベルを(例えば、3dB)ブーストする、(iii)このソロ部分の初めで、ギターフェーダのスムージング機能を迂回して、フェーダがジャンプするのを可能にし、ギターをミックス内ですぐに目立たせることができる。これらのパラメータの変化は、オフライン解析器によって時間に対するデータ点として記憶される。
特徴解析(交差適合特徴処理モジュール554):抽出された特徴と、異なる信号の抽出された特徴間の関係とを解析し、1つまたは複数の処理制御規則558に従って、各トラックに必要な処理を決定する。
一実施形態において、生成データ解釈部702は、生成データからASP制御パラメータプリセットを読み取り、ASP制御パラメータプリセットを用いてASP708に、対応するプリセットを設定する。上記SAM実施例1を参照すると、例えば、ASP4(マルチバンドコンプレッサ)は、その周波数バンドと、各圧縮バンドに対するニーの制御パラメータを送られる、ASP5(リミッタ)は、アタックタイムとリリースタイムを送られる。
AAPS実施例1(図22
22は、3つのASPを含む自律型オーディオ生成システム624aの一実施形態を示す。生成データ解釈部702は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部702は、ASP構成フィールドを読み出し、この実施例においては、処理チェーンを次の3つのASPを含むように設定する。

Claims (31)

  1. 自動オーディオ生成を行うコンピュータ実装方法であって、
    処理すべきオーディオ信号を受信することと、
    意味情報を受信することと、
    前記受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、前記処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定することと、
    前記生成データを用いて前記処理すべきオーディオ信号を処理することによって、生成されたオーディオ信号を取得することと、
    前記生成されたオーディオ信号を出力することと、
    を含むコンピュータ実装方法。
  2. 前記意味情報は、前記処理すべきオーディオ信号に関する、請求項1に記載の方法。
  3. 前記意味情報は、ユーザインタフェースから受信される、請求項2に記載の方法。
  4. 前記意味情報を前記受信したオーディオ信号から決定することをさらに含む、請求項2に記載の方法。
  5. 前記意味情報は、基準オーディオ信号に関し、
    前記基準オーディオ信号を受信することと、
    前記意味情報を前記基準オーディオ信号から抽出することと、
    をさらに含む、請求項1に記載の方法。
  6. 前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも1つを含む、請求項1〜5のいずれかに記載の方法。
  7. 前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的特性と、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む、請求項6に記載の方法。
  8. 生成データを含む前記意味ベースの規則を前記決定することは、
    複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的特性、及び、各基準生成特徴を含む、前記複数の基準記録を含むデータベースにアクセスすることと、
    前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の前記少なくとも1つに一致する少なくとも1つの基準記録を識別することと、
    前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的特性と、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴との、前記少なくとも1つに、前記少なくとも1つの識別された基準記録を用いて値を割り当てることと、
    を含む、請求項7に記載の方法。
  9. 前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的特性を決定することをさらに含む、請求項8に記載の方法。
  10. 前記オーディオ信号を前記処理することは、前記構成に従って、前記静的及び動的特性を用いて、前記所与のオーディオ処理アクションを前記オーディオ信号に対して行うことを含む、請求項9に記載の方法。
  11. 前記所与のオーディオ処理アクション間の前記生成特徴の値を決定することと、それに従って前記動的特性を修正することとをさらに含む、請求項10に記載の方法。
  12. 前記処理すべきオーディオ信号を前記受信することと、前記生成されたオーディオ信号を前記出力することは、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項1〜11のいずれかに記載の方法。
  13. 前記生成データは、前記処理すべきオーディオ信号の1つの領域のみに関して決定される、請求項1〜12のいずれかに記載の方法。
  14. ユーザ生成プリファレンスを受信することをさらに含み、前記オーディオ信号を前記処理することは、前記生成データと前記ユーザ生成プリファレンスを用いて行われる、請求項1〜13のいずれかに記載の方法。
  15. 前記生成されたオーディオ信号のユーザからの評価と、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定することをさらに含む、請求項14に記載の方法。
  16. 請求項1〜15のいずれかの前記方法の前記ステップを行う処理ユニットが実行するステートメント及び命令を記録したコンピュータ可読媒体。
  17. 意味情報を受信し、前記受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定する意味解析モジュールと、
    生成されたオーディオ信号を取得するために、前記処理すべきオーディオ信号を受信し、前記生成データを用いて前記処理すべきオーディオ信号を処理し、前記生成されたオーディオ信号を出力するオーディオ処理モジュールと、
    を備える、自動オーディオ生成システム。
  18. 前記意味情報は、前記処理すべきオーディオ信号に関連する、請求項17に記載の自動オーディオ生成システム。
  19. 前記意味解析モジュールは、ユーザインタフェースから前記意味情報を受信するように適合された、請求項18に記載の自動オーディオ生成システム。
  20. 前記意味解析モジュールは、前記処理すべきオーディオ信号を受信し、前記処理すべきオーディオ信号から前記意味情報を決定するようにさらに適合された、請求項18に記載の自動オーディオ生成システム。
  21. 前記意味情報は、基準オーディオ信号に関連し、前記意味解析モジュールは、
    前記基準オーディオ信号を受信し、
    前記基準オーディオ信号から前記意味情報を抽出するように、
    さらに適合された、請求項17に記載の自動オーディオ生成システム。
  22. 前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも1つを含む、請求項17〜21のいずれかに記載の自動オーディオ生成システム。
  23. 前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的制御パラメータと、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む、請求項22に記載の自動オーディオ生成システム。
  24. 複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的制御パラメータ、及び、各基準生成特徴を含む前記複数の基準記録を含む生成データベースをさらに含み、前記意味解析モジュールは、
    前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の少なくとも1つに一致する少なくとも1つの基準記録を識別し、
    前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的制御パラメータと、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴と、の前記少なくとも1つに、前記少なくとも1つの識別された基準記録を用いて、値を割り当てるように適合された、
    請求項23に記載の自動オーディオ生成システム。
  25. 前記オーディオ処理モジュールは、前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的制御パラメータを決定するように適合された、請求項24に記載の自動オーディオ生成システム。
  26. 前記オーディオ処理モジュールは、複数のオーディオプロセッサを含み、前記構成に従って前記複数のオーディオプロセッサを組織し、前記複数のオーディオプロセッサを、前記静的及び動的制御パラメータに従って制御するように適合された、請求項25に記載の自動オーディオ生成システム。
  27. 前記オーディオ処理モジュールは、前記オーディオプロセッサ間の前記生成特徴の値を決定し、それに従って前記動的パラメータを修正するようにさらに適合された、請求項26に記載の自動オーディオ生成システム。
  28. 前記処理すべきオーディオ信号の入力と前記生成されたオーディオ信号の出力は、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項17〜27のいずれかに記載の自動オーディオ生成システム。
  29. 前記意味解析モジュールは、前記処理すべきオーディオ信号の1つの領域のみに関して前記生成データを決定するように適合された、請求項17及び18のいずれかに記載の自動オーディオ生成システム。
  30. 前記意味解析モジュールは、ユーザ生成プリファレンスを受信し、前記ユーザ生成プリファレンスを用いて前記生成データを決定するようにさらに適合された、請求項1〜13のいずれかに記載の自動オーディオ生成システム。
  31. 前記生成されたオーディオ信号の評価をユーザから受信し、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定する生成評価モジュールをさらに、請求項30に記載の自動オーディオ生成システム。
JP2016537058A 2013-08-28 2014-08-28 意味データを用いて自動オーディオ生成を行うシステム及び方法 Active JP6585049B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361871168P 2013-08-28 2013-08-28
US61/871,168 2013-08-28
PCT/CA2014/000662 WO2015027327A1 (en) 2013-08-28 2014-08-28 System and method for performing automatic audio production using semantic data

Publications (2)

Publication Number Publication Date
JP2016534402A true JP2016534402A (ja) 2016-11-04
JP6585049B2 JP6585049B2 (ja) 2019-10-02

Family

ID=52584429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016537058A Active JP6585049B2 (ja) 2013-08-28 2014-08-28 意味データを用いて自動オーディオ生成を行うシステム及び方法

Country Status (7)

Country Link
US (1) US9304988B2 (ja)
EP (1) EP3039674B1 (ja)
JP (1) JP6585049B2 (ja)
CN (1) CN105612510B (ja)
BR (1) BR112016004029B1 (ja)
CA (1) CA2887124C (ja)
WO (1) WO2015027327A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6143768B2 (ja) * 2011-11-07 2017-06-07 フィリップス ライティング ホールディング ビー ヴィ 照明システムをコントロールするための音声を使用したユーザーインターフェイス
US9613605B2 (en) * 2013-11-14 2017-04-04 Tunesplice, Llc Method, device and system for automatically adjusting a duration of a song
US10140087B2 (en) 2016-03-21 2018-11-27 Access Analog, Llc Remote streaming audio processing system
US10032456B2 (en) 2016-08-17 2018-07-24 International Business Machines Corporation Automated audio data selector
JP6504614B2 (ja) * 2016-08-26 2019-04-24 日本電信電話株式会社 合成パラメータ最適化装置、その方法、及びプログラム
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10891436B2 (en) * 2018-03-09 2021-01-12 Accenture Global Solutions Limited Device and method for voice-driven ideation session management
US11195511B2 (en) 2018-07-19 2021-12-07 Dolby Laboratories Licensing Corporation Method and system for creating object-based audio content
EP3662468B1 (en) 2018-09-28 2020-11-04 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
US10885221B2 (en) * 2018-10-16 2021-01-05 International Business Machines Corporation Obfuscating audible communications in a listening space
US20200125991A1 (en) * 2018-10-18 2020-04-23 Facebook, Inc. Optimization of neural networks using hardware calculation efficiency
US11574223B2 (en) * 2019-10-07 2023-02-07 Intelligent Fusion Technology, Inc. Method and apparatus for rapid discovery of satellite behavior
CN110955786B (zh) * 2019-11-29 2023-10-27 网易(杭州)网络有限公司 一种舞蹈动作数据的生成方法及装置
CN111199750B (zh) * 2019-12-18 2022-10-28 北京葡萄智学科技有限公司 一种发音评测方法、装置、电子设备及存储介质
JP2021125760A (ja) * 2020-02-04 2021-08-30 ヤマハ株式会社 オーディオ信号処理装置、オーディオシステム及びオーディオ信号処理方法
CN113449255B (zh) * 2021-06-15 2022-11-11 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
WO2024079625A1 (en) * 2022-10-10 2024-04-18 Wetweak Sa A computer assisted method for classifying digital audio files
CN116049641B (zh) * 2023-04-03 2023-06-30 中国科学院光电技术研究所 一种基于红外光谱的点目标特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008015733A1 (fr) * 2006-07-31 2008-02-07 Pioneer Corporation Dispositif, procédé et programme de commande sonore
EP2485213A1 (en) * 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
JP2013525824A (ja) * 2010-03-09 2013-06-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998044717A2 (en) * 1997-04-01 1998-10-08 Medic Interactive, Inc. System for automated generation of media programs from a database of media elements
GB0007870D0 (en) * 2000-03-31 2000-05-17 Koninkl Philips Electronics Nv Methods and apparatus for making and replauing digital video recordings, and recordings made by such methods
CN100543731C (zh) * 2003-04-24 2009-09-23 皇家飞利浦电子股份有限公司 参数化的时间特征分析
JP5363102B2 (ja) * 2005-06-08 2013-12-11 ヴィジブル ワールド インコーポレイテッド セマンティック編集制御及びビデオ/オーディオ編集のためのシステム及び方法
GB0512435D0 (en) 2005-06-17 2005-07-27 Queen Mary & Westfield College An ontology-based approach to information management for semantic music analysis systems
US20070044643A1 (en) * 2005-08-29 2007-03-01 Huffman Eric C Method and Apparatus for Automating the Mixing of Multi-Track Digital Audio
CN101278349A (zh) * 2005-09-30 2008-10-01 皇家飞利浦电子股份有限公司 处理用于重放的音频的方法和设备
US20070286358A1 (en) * 2006-04-29 2007-12-13 Msystems Ltd. Digital audio recorder
KR101459136B1 (ko) * 2007-09-03 2014-11-10 엘지전자 주식회사 오디오 데이터 플레이어 및 이의 재생목록 생성방법
US20100250253A1 (en) * 2009-03-27 2010-09-30 Yangmin Shen Context aware, speech-controlled interface and system
US8204755B2 (en) * 2009-05-22 2012-06-19 Universal Music Group, Inc. Advanced encoding of music files
US9179236B2 (en) * 2011-07-01 2015-11-03 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008015733A1 (fr) * 2006-07-31 2008-02-07 Pioneer Corporation Dispositif, procédé et programme de commande sonore
JP2013525824A (ja) * 2010-03-09 2013-06-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法
EP2485213A1 (en) * 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer

Also Published As

Publication number Publication date
WO2015027327A1 (en) 2015-03-05
EP3039674A1 (en) 2016-07-06
US20150066481A1 (en) 2015-03-05
JP6585049B2 (ja) 2019-10-02
EP3039674A4 (en) 2017-06-07
CN105612510A (zh) 2016-05-25
BR112016004029A2 (ja) 2017-08-01
EP3039674B1 (en) 2019-04-17
BR112016004029B1 (pt) 2022-06-14
US9304988B2 (en) 2016-04-05
CN105612510B (zh) 2018-11-13
CA2887124C (en) 2015-09-29
CA2887124A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
JP6585049B2 (ja) 意味データを用いて自動オーディオ生成を行うシステム及び方法
US11915725B2 (en) Post-processing of audio recordings
KR101512259B1 (ko) 시맨틱 오디오 트랙 믹서
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
WO2015035492A1 (en) System and method for performing automatic multi-track audio mixing
JP2007534995A (ja) 音声信号を分類する方法及びシステム
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
JP4364838B2 (ja) 楽曲リミックス可能な音楽再生装置ならびに楽曲リミックス方法およびプログラム
WO2018077364A1 (en) Method for generating artificial sound effects based on existing sound clips
AU2022202594A1 (en) System for deliverables versioning in audio mastering
JP7363795B2 (ja) 情報処理装置および方法、並びにプログラム
US20240022224A1 (en) Automatic generation and selection of target profiles for dynamic equalization of audio content
JP7461090B1 (ja) 音声処理装置、音声処理方法、およびプログラム
WO2023062865A1 (ja) 情報処理装置および方法、並びにプログラム
NZ787401A (en) System for deliverables versioning in audio mastering
KR20230091455A (ko) 사운드 이펙트 효과 설정 방법
CN116530009A (zh) 用于音频内容的动态均衡的目标简档的自动生成和选择

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190904

R150 Certificate of patent or registration of utility model

Ref document number: 6585049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250