JP2016534402A

JP2016534402A - 意味データを用いて自動オーディオ生成を行うシステム及び方法

Info

Publication number: JP2016534402A
Application number: JP2016537058A
Authority: JP
Inventors: ジョンテレル，マイケル; マンスブリッジ，スチュアート; ディー．リース，ジョシュア; マン，ブレヒトド
Original assignee: ランダーオーディオインコーポレイテッド
Priority date: 2013-08-28
Filing date: 2014-08-28
Publication date: 2016-11-04
Anticipated expiration: 2034-08-28
Also published as: WO2015027327A1; EP3039674A1; US20150066481A1; JP6585049B2; EP3039674A4; CN105612510A; BR112016004029A2; EP3039674B1; BR112016004029B1; US9304988B2; CN105612510B; CA2887124C; CA2887124A1

Abstract

自動オーディオ生成を行うコンピュータ実装方法であって、処理すべきオーディオ信号を受信することと、意味情報を受信することと、受信した意味情報を用いて少なくとも１つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定することと、その生成データを用いて処理すべきオーディオ信号を処理することによって、生成されたオーディオ信号を取得することと、生成されたオーディオ信号を出力することと、を含む、コンピュータ実装方法を記載する。

Description

発明の詳細な説明

［技術分野］
関連出願の相互参照
この出願は、２０１３年８月２８日出願の米国仮特許出願番号６１／８７１，１６８「意味規則を用いて自動オーディオミキシングを行うシステム及び方法（ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒｐｅｒｆｏｒｍｉｎｇａｕｔｏｍａｔｉｃａｕｄｉｏｍｉｘｉｎｇｕｓｉｎｇｓｅｍａｎｔｉｃｒｕｌｅｓ）」の優先権を主張し、その明細書を援用により本明細書に組み込む。

以下の記載は、自動オーディオ処理を行うシステム及び方法に関し、より詳細には、意味データを用いることに関する。
［背景技術］
オーディオ生成（例えば、スタジオ録音、ライブパフォーマンス、放送）の全ての分野において、様々な信号処理ツールを用いたオーディオ信号処理が一般的に行われている。これは、個々のオーディオ信号を処理すること、例えば、仕上がったミックスをマスタリングすることと、異なる音響源、例えば、アンサンブルの構成楽器によって生成された複数のオーディオ信号を処理して組み合わせることとを含む。この処理の目的は、複数の信号を組み合わせる時に高品質の混合信号を生成すること等、結果として生じるオーディオ信号の美的特性を向上させること、または、ｍｐ３等のデータ圧縮による信号の劣化を最小限にすることや、航空機上で背景雑音の影響を軽減する等、送信に関する機能的制限を守ることである。現在、この作業は、熟練した音響技術者が手動で行っており、音響技術者は、通常、特定の生成分野を専門としている。音響技術者が行うタスクは、非常に労働集約的となることがあり、素人がその分野に入るには険しい学習曲線があり、また、音響機器の購入には、法外な費用が掛かることが多い。

従って、自動オーディオ生成が必要とされている。
［発明の概要］
第１の一般的な態様において、自動オーディオ生成を行うコンピュータ実装方法を提供する。当該コンピュータ実装方法は、処理すべきオーディオ信号を受信することと、意味情報を受信することと、受信した意味情報を用いて、少なくとも１つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定することと、生成データを用いて処理すべきオーディオ信号を処理し、生成されたオーディオ信号を取得することと、生成されたオーディオ信号を出力することと、を含む。

一実施形態において、意味情報は、処理すべきオーディオ信号に関する。

一実施形態において、意味情報は、ユーザインタフェースから受信される。

一実施形態において、方法は、受信したオーディオ信号から意味情報を決定することをさらに含む。

別の実施形態において、意味情報は、基準オーディオ信号に関し、この方法は、基準オーディオ信号を受信することと、当該基準オーディオ信号から意味情報を抽出することとをさらに含む。

一実施形態において、意味情報は、染色体特徴（chromosomal features）、分類特徴、及び、生成特徴の少なくとも１つを含む。

一実施形態において、生成データは、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクション各静的特性と、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも１つを含む。

一実施形態において、生成データを含む意味ベースの規則を決定するステップは、複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、基準処理アクションの各基準静的特性、及び、各基準生成特徴を含む複数の基準記録を含むデータベースにアクセスすることと、意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の少なくとも１つに一致する少なくとも１つの基準記録を識別することと、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的特性と、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも１つに、少なくとも１つの識別された基準記録を用いて値を割り当てること、とを含む。

一実施形態において、方法は、ターゲット生成特徴に割り当てられた値を用いて、所与の処理アクションの動的特性を決定することをさらに含む。

一実施形態において、オーディオ信号を処理するステップは、構成に従って、静的及び動的特性を用いてオーディオ信号に対して所与のオーディオ処理アクションを行うことを含む。

一実施形態において、方法は、所与のオーディオ処理アクション間の生成特徴の値を決定することと、それに従って動的特性を修正することとをさらに含む。

一実施形態において、処理すべきオーディオ信号を受信するステップと、生成されたオーディオ信号を出力するステップは、処理すべきオーディオ信号と生成されたオーディオ信号が同期されるように実質的にリアルタイムで行われる。

一実施形態において、生成データは、処理すべきオーディオ信号の１つの領域のみに関して決定される。

一実施形態において、方法は、ユーザ生成プリファレンスを受信するステップをさらに含み、前述のオーディオ信号を処理することは、生成データとユーザ生成プリファレンスを用いて行われる。

一実施形態において、方法は、生成されたオーディオ信号の評価をユーザから受信することと、受信した評価を用いてユーザ生成プリファレンスを決定することとをさらに含む。

第２の一般的な態様おいて、上記の方法のステップを行う処理ユニットが実行するステートメント及び命令を記録したコンピュータ可読媒体を提供する。

別の一般的な態様において、自動オーディオ生成システムを提供する。当該自動オーディオ生成システムは、意味情報を受信して、受信した意味情報を用いて少なくとも１つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定する意味解析モジュールと、生成されたオーディオ信号を取得するために、処理すべきオーディオ信号を受信し、生成データを用いて処理すべきオーディオ信号を処理し、生成されたオーディオ信号を出力するオーディオ処理モジュールと、を備える。

一実施形態において、意味解析モジュールは、意味情報をユーザインタフェースから受信するように適合される。

一実施形態において、意味解析モジュールは、処理すべきオーディオ信号を受信し、処理すべきオーディオ信号から意味情報を決定するようにさらに適合される。

別の実施形態において、意味情報は、基準オーディオ信号に関し、意味解析モジュールは、基準オーディオ信号を受信して、当該基準オーディオ信号から意味情報を抽出するようにさらに適合される。

一実施形態において、意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも１つを含む。

一実施形態において、生成データは、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的制御パラメータと、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴と、の少なくとも１つを含む。

一実施形態において、システムは、生成データベースをさらに含み、生成データベースは、複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、基準処理アクションの各基準静的制御パラメータ、及び、各基準生成特徴を含む複数の基準記録を含む。意味解析モジュールは、意味情報に含まれる染色体特徴、分類特徴、及び、生成特徴の少なくとも１つに一致する少なくとも１つの基準記録を識別し、行うべき所与のオーディオ処理アクション及び所与のオーディオ処理アクションの各静的制御パラメータと、オーディオ処理アクションの構成と、生成されるオーディオ信号に求められるターゲット生成特徴との少なくとも１つに、少なくとも１つの識別された基準記録を用いて値を割り当てるように適合される。

一実施形態において、オーディオ処理モジュールは、ターゲット生成特徴に割り当てられた値を用いて、所与の処理アクションに関して、動的制御パラメータを決定するように適合される。

一実施形態において、オーディオ処理モジュールは、複数のオーディオプロセッサを備え、構成に従って複数のオーディオプロセッサを組織するように適合され、静的及び動的制御パラメータに従って複数のオーディオプロセッサを制御するように適合される。

一実施形態において、オーディオ処理モジュールは、オーディオプロセッサ間の生成特徴の値を決定し、それに従って動的パラメータを修正するようにさらに適合される。

一実施形態において、処理すべきオーディオ信号の入力と、生成されたオーディオ信号の出力は、処理すべきオーディオ信号と生成されたオーディオ信号が同期されるように実質的にリアルタイムで行われる。

一実施形態において、意味解析モジュールは、処理すべきオーディオ信号の一領域のみに関して生成データを決定するように適合される。

一実施形態において、意味解析モジュールは、ユーザ生成プリファレンスを受信し、当該ユーザ生成プリファレンスを用いて生成データを決定するようにさらに適合される。

一実施形態において、システムは、生成評価モジュールをさらに備える。生成評価モジュールは、生成されたオーディオ信号の評価をユーザから受信し、受信した評価を用いてユーザ生成プリファレンスを決定する。

他の態様において、上記方法を行うように構成されたシステム、装置、及び、コンピュータ可読媒体を提供する。

上記方法及びシステムはオーディオ信号の処理に用いられるが、複数のオーディオ信号の処理に用いられてよいことは理解されたい。例えば、方法及びシステムは、少なくとも１つのオーディオ信号を含むオーディオファイルを受信し、単一のオーディオ信号に対してと同じ方法を用いて、当該少なくとも１つのオーディオ信号を処理してよい。オーディオファイルが複数のオーディオ信号を含む場合、処理されたオーディオ信号は、さらに、ミックスされてよい。
［図面の簡単な説明］
添付の図面を参照して、一例として、実施形態を記載する。
［図１］実施形態に係る、意味規則を用いてオーディオファイルを処理する方法を示すフローチャートである。
［図２］実施形態に係る、意味規則を用いてオーディオファイルを処理するシステムを示すブロック図である。
［図３］自律型マルチトラック音楽生成システムと、このようなシステムのための意味処理モジュールの実施例を示すブロック図である。
［図４］意味処理モジュールの例示的構成の実施例を示すブロック図である。
［図５］意味規則の実施例の例示的な図である。
［図６］意味処理モジュールとオーディオミキシングエンジンとの一体化の実施例を示すブロック図である。
［図７］意味規則をオーディオデータに適用するために意味処理ミキシングをさせる時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
［図８Ａ〜図８Ｄ］自律型マルチトラックミキシングエンジンを用いた交差適合（cross-adaptive）オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
［図９］意味処理モジュールを有する自律型マルチトラック音楽生成システムを示すブロック図である。
［図１０］自律型マルチトラック音楽生成システムのマルチトラックサブグループを示すブロック図である。
［図１１］自律型マルチトラック音楽生成システムの交差適合特徴処理要素を示すブロック図である。
［図１２］自律型マルチトラック音楽生成システムのマルチトラックミキシングプロセッサの実施例を示すブロック図である。
［図１３］実施形態に係る、生成データを決定する方法を示すフローチャートである。
［図１４］実施形態に係る、生成データを決定するシステムのブロック図である。
［図１５］実施形態に係る、埋め込み意味解析モジュールを含む自律型オーディオ生成システムを示すブロック図である。
［図１６］実施形態に係る、意味解析モジュールのブロック図である。
［図１７］実施形態に係る、意味データ抽出部を示すブロック図である。
［図１８］実施形態に係る、意味データコンテナに含まれる意味データを示す図である。
［図１９］実施形態に係る、生成データベースに含まれる基準データ記録を示す図である。
［図２０］実施形態に係る、推論エンジンを示すブロック図である。
［図２１］第１の例示の自律型オーディオ生成システムを示すブロック図である。
［図２２］第２の例示の自律型オーディオ生成システムを示すブロック図である。
［図２３］第３の例示の自律型オーディオ生成システムを示すブロック図である。
［図２４］実施形態に係る、ユーザ評価と自己学習フィードバックを含む自律型オーディオ生成システムを示すブロック図である。
［発明を実施するための形態］
図を単純で明瞭にするために、図中、適切だと思われる箇所では、一致または類似する要素を示すために同じ参照番号を使用している場合があることは理解されたい。さらに、本明細書に記載の実施例を完全に理解できるように、多くの具体的詳細を記載するが、本明細書に記載の実施例は、これらの具体的な詳細以外で実践してよいことを当業者は理解されよう。他の例においては、本明細書に記載の実施例が不明瞭にならないように、既知の方法、手順、及び、コンポーネントについては、詳細には記載していない。また、記載が、本明細書に記載の実施例の範囲を限定すると解釈してはならない。

本明細書で使用されている実施例及び、それに対応する図は、例示目的のみであることを理解されたい。本明細書に記載の原理を逸脱することなく、異なる構成及び専門用語を使用することができる。例えば、これらの原理を逸脱することなく、コンポーネント及びモジュールは、追加、削除、修正することができ、異なる接続で配置することもできる。

自動オーディオ生成システムの進歩にかかわらず、全ての状況に順応できる制御パラメータのセットも生成目標もがないことが分かった。例えば、生成目標は、楽器編成とジャンル（例えば、電子ダンス音楽は、一般的に、ジャズ音楽よりずっと音が大きい）に応じて変わり、個人が、特定の制御パラメータセットを有する処理ツールの音を好む場合がある（例えば、特定の真空管アンプのアナログエミュレーションを有するディストーションユニット）、または、処理ツールの特定の構成の音を好む場合がある。制御パラメータと生成目標の両方は、出力先（例えば、静かな部屋、または、騒がしい航空機内で演奏される）に応じて適合すべきである。既存の自動オーディオ生成システムは、これらの因子を考慮していない。

これらの考慮事項に対処するために、オーディオ信号からのデータ及び／または測定値を用いる意味ベースの解析を組み込むことによって、オーディオ信号に対して行うべきオーディオ処理アクションを決定することを以下に記載する。このような意味ベースのオーディオ解析は、自律型オーディオ生成とは別に、または、自律型オーディオ生成に組み合わせて、行うことができる。生成データを用いてオーディオを生成することは、意味データを用いて導出した意味ベースの規則のセットを施行するとして解釈されてよい。これらの意味ベースの規則は、静的であってよく、それによって、規則は、プロセッサ構成及び制御パラメータ等の固定された処理セットアップを規定する、または、当該意味ベースの規則は、動的であってよく、それによって、規則は、生成目標を規定する、そして、処理セットアップは、入力オーディオ信号の具体的な特徴に応じて（動的に）変化する。

図１は、意味規則に従って、オーディオ信号（単数または複数）を処理するコンピュータ実装方法１の一実施形態を示す。ステップ２において、処理すべきオーディオファイルが、当該オーディオファイルに関する意味情報と共に受信される。オーディオファイルは、処理すべき単一のオーディオ信号を含んでもよく、あるいは、処理、ミックスすべき複数のオーディオ信号を含んでもよい。オーディオファイルに関する意味情報は、ユーザによってユーザインタフェースを介して入力されてよく、当該ユーザインタフェースから受信されてよい。同じまたは別の実施形態において、オーディオファイルに関する意味情報は、オーディオファイル自体から自動的に決定されてよい。

ステップ３において、オーディオファイルに適用すべき少なくとも１つの意味規則が、受信した意味情報から決定される。意味規則は、オーディオファイルの処理に使用すべき生成データを含む。生成データは、オーディオファイルをどのように生成すべきかを記述する。例えば、生成データは、行うべきオーディオ処理アクションの種類、そのオーディオ処理アクションの特性／パラメータ、行うべきオーディオ処理アクションの構成または順序、及び／または、処理されたオーディオ信号が有すべき所望のターゲット生成特徴、を示してよい。所望のターゲット生成特徴は、次に、オーディオ処理アクションの動的制御特性を決定するために用いられる。

一実施形態において、意味規則は、静的である。以下に記載するように、静的意味規則は、オーディオファイルに対して行うべき特定のアクション／処理と、当該特定のアクション／処理のパラメータ等を定義する。静的意味規則の一実施例は、次のようになる。「キックドラムが存在する場合、１００Ｈｚ、ゲイン−３ｄＢ、Ｑファクタ２．２で、ベースギターにイコライザを置く」。あるいは、意味規則は動的であってよい。以下に記載するように、動的意味規則は、処理されたオーディオファイルの生成特徴の所望のターゲット値を定義する。例示の動的意味規則は、次のようであってよい。「処理されたオーディオファイルに関して約−６．５ｄＢのターゲット出力二乗平均平方根（ＲＭＳ）を得る」。

ステップ４において、オーディオファイルは、決定された意味規則に従って処理される。意味規則が静的である実施形態においては、処理されたオーディオファイルを取得するために、静的意味規則で定義された処理アクションがオーディオファイルに適用される。意味規則が動的である実施形態においては、生成特徴に関する所望のターゲット値を取得することを可能にする処理アクション（単数または複数）が、最初に決定され、次に、処理されたオーディオファイルを取得するために、決定された処理アクションが、オーディオファイルに対して行われる。実施例に戻ると、ＲＭＳレベルを修正するために必要な処理アクション、すなわち、リミッタを用いることが、最初に決定され、ＲＭＳを最初の値から約−６．５ｄＢにするためのリミッタのパラメータが次に決定される。そして、決定された処理アクションがオーディオファイルに適用される。

オーディオファイルに行うべき複数の処理アクションを決定する実施形態においては、方法１は、行うべき処理アクションの実行の順番または順序を決定するステップをさらに含んでよい。これは、オーディオファイルを処理するオーディオプロセッサの構成、すなわち、一連のオーディオプロセッサ内でのオーディオプロセッサの相対的位置を決定することにあたる。

オーディオファイルが複数のオーディオ信号を含む場合、処理ステップ４は、意味規則（単数または複数）に従ってオーディオ信号を処理し、処理されたオーディオ信号をミックスするステップを含んでよい。

ステップ５において、処理されたオーディオファイルを出力する。一実施形態において、処理されたオーディオファイルは、永続的または一時的メモリに記憶される。同じまたは別の実施形態においては、処理されたオーディオファイルは、例えば、スピーカを介して再生されるように、オーディオレンダラまたは音響システムに送られる。

図２は、少なくとも１つの意味規則に従ってオーディオファイルを処理するシステム６の一実施形態を示す。システム６は、意味規則決定ユニット７とオーディオプロセッサ８を備える。意味規則決定ユニット７は、処理すべきオーディオファイルに関する意味情報を受信し、オーディオファイルに適用すべき少なくとも１つの意味規則を決定するように適合される。これについては、以下に詳細に記載する。一実施形態において、意味規則決定ユニット７は、少なくとも１つの静的意味規則を決定するように適合される。別の実施形態において、意味規則決定ユニット７は、少なくとも１つの動的意味規則を決定するように適合される。意味規則決定ユニット７は、同一のオーディオファイルに対して少なくとも１つの静的意味規則と少なくとも１つの動的意味規則を決定するように適合されてもよいことは理解されたい。

オーディオプロセッサ８は、処理すべきオーディオファイルを受信するように適合され、決定された意味規則を受信するように意味規則決定ユニット７と通信する。オーディオプロセッサ８は、処理されたオーディオファイルを取得するために意味規則をオーディオファイルに適用し、処理されたオーディオファイルを出力するように適合される。

決定された意味規則が動的である実施形態においては、オーディオプロセッサ８は、入力されたオーディオファイルに行うべき処理アクションの種類と対応するパラメータを最初に決定し、その後、処理されたオーディオファイルを取得するために、決定された処理アクションをオーディオファイルに対して行うように適合される。

入力されたオーディオファイルが複数のオーディオ信号を含む実施形態においては、オーディオプロセッサ８は、入力されたオーディオ信号の少なくとも１つを処理し、次に、そのオーディオ信号をミックスして処理されたオーディオファイルを取得するように適合されてよい。

実践的なミキシング技術文献及び他のソースから導き得るシステムと静的意味規則ベースの実施例を以下に示す。

図３を参照すると、自律型マルチトラック音楽生成システム（以下「生成システム１０」）を示す。生成システム１０は、静的意味規則に従ってマルチトラックオーディオ入力１２を処理し、音響システム１６によって再生される「ミックス」と呼ばれることの多いオーディオ出力１４を生成する。音響システム１６は、次に、聴取空間、環境、「部屋」、または、オーディオ出力１８が演奏、聴取され得る／される他の体積空間で演奏されるオーディオ出力１８を生成する。図３に示すように、生成システム１０は、自律型ミキシングエンジン１０４と意味処理モジュール２０を備えてよい。

図４は、意味処理モジュール２０の構成の実施例を示す。図４に示す機能ブロックは、単に例示的なものであることは理解されよう。この実施例の意味処理モジュール２０は、静的意味規則プロセッサ２２を備える。静的意味規則プロセッサ２２は、意味または「知識ベース」情報を考慮に入れた処理された出力１８を生成するようにオーディオ入力１２を選択的に処理するために、多くの予め記憶された意味規則３２のうちのどの意味規則を、静的意味規則データベース２８（または、他の適切なメモリ、ライブラリ、カタログ、データストア等）から選択し、適用するべきかを決定するために、入力モジュール２４及びメタデータモジュール２６をそれぞれ用いて、入力及びメタデータを処理する。意味処理モジュール２０は、入力インタフェース３０を備えてもよく、入力インタフェース３０は、意味処理モジュール２０が、（例えば、ユーザ入力、自律型ミキシングプロセッサ１０４等からの入力を処理するために）制御入力３４を受信、処理すること、及び／または、静的意味規則データベース２８を更新するために新しい静的意味規則３２または静的意味規則３２のセットを受信することを可能にする。例えば、新しい静的意味規則３２が開発されると、または、ユーザのプリファレンスまたはスタイルに従って変形が作成されると、このような新しい規則３２は、後に使用するために、静的意味ベースの規則２８のライブラリまたはコレクションにロードまたは別の方法で組み込むことができる。

図５は、静的意味規則３２の例示的な実施例を示す。この実施例において、各静的意味規則３２は、静的意味規則３２に関する様々な情報の認識を可能にする１つまたは複数のタグ３６を含む。例えば、タグ３６は、静的意味規則３２のソース（ソースは、比較目的のために含まれてもよく、含まれなくてもよい）、静的意味規則３２を適用すべき楽器（単数または複数）（または、包括的）、静的意味規則３２を適用可能なジャンル（単数または複数）（または「全て」）、静的意味規則３２が関連するプロセッサ（単数または複数）等を表すコンマで分けられた単語として生成することができる。これらのタグ３６に基づいて、規則プロセッサ２２は、静的意味規則３２が適用されるべきか否か、及び、どのトラックに適用されるべきかを決定する。タグ３６の順番及び数は一定である必要はないことは理解されよう。

静的意味規則３２は、規則（例えば、行うべき設定、対応するトラック等）を適用するために取る処理ステップまたはアクションに対応する１つまたは複数の規則アクション３８も含む。例えば、規則アクション３８で特定されたパラメータに基づいて、１つまたは複数の「挿入」プロセッサ（例えば、特に、高域フィルタ、コンプレッサ、イコライザ）を用いて、タグ部分で特定されたトラックのオーディオを処理されたバージョンで置き換えることができる。挿入プロセッサは、前のプロセッサ（またはソース）からの入力と、次のプロセッサ（または、マスターバスもしくはオーディオ出力等）への出力を伴う、トラックまたはバスの信号経路に挿入される任意のオーディオプロセッサを指す。挿入プロセッサは、「センドエフェクト」プロセッサとは異なることに留意されたい。特定のトラックが、例えば、挿入処理も行うために、トラックの信号チェーンを妨害することなくエフェクトを適用するようにプロセッサにルーティングされる。これらの原理は、「センドエフェクト」プロセッサにも等しく適用できることは理解されよう。

挿入プロセッサの使用は、静的意味規則３２を読み出し後すぐに行われてよい。他方、静的意味規則３２によって操作されたレベルとパンメタデータは、全ての静的意味規則３２が読み出された後、ミックスダウン段階（以下により詳しく記載）まで適用されなくてよい。規則アクション３８は、条件ステートメント、ループ、または、計算等の、他のプログラム命令またはコードを含むこともできる。処理されたトラック、及び、他のトラックに対応する音声及びメタデータは、静的意味規則３２内からアクセスすることができる。

静的意味規則３２は、静的意味規則３２に関連付けられたアクション３８の表示または他の方法での出力を可能にし、デバッグを容易にするコメント４０を含んでもよい。静的意味規則３２は、複数のトラックを参照することができ、例えば、次のように、様々な方法で実装できることは理解されよう。

一実施例において、規則のタグ３６は、幾つかの楽器、例えば、「キックドラム」と「ベースギター」の両方を含んでよい。どの静的意味規則３２を適用すべきか知るためにトラックをスキャンすると、システムは、キックドラムに最初に行き当たることがある、そうすると、静的意味規則３２(例えば、パニング値を−５％から％５の間に限定)をキックドラムに適用する。ベースギターに行き当たると、静的意味規則３２は、ベースギターに適用される。

別の実施例において、静的意味規則３２の規則アクション３８の部分で楽器を参照することができる。例えば、静的意味規則３２は、ベースギターに適用可能であってよく（「ベースギター」は、規則のタグ３６で取り上げられる)、規則アクション３８は、例えば、「キックドラムが存在する場合、１００Ｈｚ、ゲイン−３ｄＢ、Ｑファクタ２．２でベースギターにイコライザを置く」であってよい。この場合、キックドラムのトラックが参照され、従って、静的意味規則３２内の楽器間で「相互相関」がある。より進んだ静的意味規則３２であれば、他の規則の特徴または適用されたパラメータを見ることができる（すなわち、バックボーカルパニングパラメータの関数でボーカルイコライザ、または、ピアノスペクトルの関数で）。

静的意味規則３２の実施例は、次のようになる。

タグ：作成者Ｘ、キックドラム、ポップ、ロック、コンプレッサ
規則アクション：比率＝４．６；ニー＝０；アタックタイム＝５０；リリースタイム＝１０００；閾値＝ｃｈ｛トラック｝．ピーク−１２．５；
コメント：パンチの利いたキックドラムを圧縮
静的意味規則３２は、様々な適切なデータ構造またはデータモデルに生成することができることは理解されよう。オーディオエフェクトオントロジーの使用によって、規則データベース２８の交換、編集、及び、拡張を容易にしてよく、記述論理の文脈での使用を可能にしてよいことも理解されよう。

図６は、意味ミキシングを行うための生成システム１０、意味処理モジュール２０、及び、自律型ミキシングエンジン１０４の構成の実施例を示すブロック図である。この実施例における入力は、未加工のマルチトラックオーディオ１２（例えば、モノラルトラックとステレオトラックの混じったもの）と、メタデータ４２（例えば、｛ベースＤＩ.ｗａｖ、ベースギター｝、｛キックＤ１１２．ｗａｖ、キックドラム｝、{スネアＳＭ５７ｔｏｐ．ｗａｖ、スネアドラム}、｛Ｊｏｈｎｎｙ.ｗａｖ、リードボーカル｝等、あらゆるオーディオファイルに対応する楽器を特定するテキストファイル）と、を含む。意味規則３２に基づいて処理される前に、各トラックの基本的特徴は、測定ブロック４４で抽出される。測定値を用いてメタデータ４２を更新することができ、メタデータ４２は、規則プロセッサ２２によって用いられて適切な意味規則３２を識別することができる。一実施例においては、トラック番号は、楽器にちなんだ整数または整数配列（例えば、チャネル１がキックドラムの場合、キックドラム＝１、チャネル３〜５がトムトムの場合、トムトム＝［３，４，５］）として、自動的に記憶することができる。異なるトラックインデックスは、全てのギター、ボーカル等に一度にアクセスできるように、サブグループ配列で記憶することもできる（例えば、ドラムｇ＝［１，２，３，４，５，７，１２］)。

意味規則３２は、次に、規則データベース２８から読み出され、適用可能であれば、各入力トラック１２に適用される。上記のように、各意味規則３２は、行うべき処理の性質を指定する、この実施例においては、高域フィルタリング（「ＨＰＦ」）４６、ダイナミックレンジ圧縮（「ＤＲＣ」）４８、等化（「ＥＱ」）５０、バランス／レベル（「フェーダ」）５２、及び、パニング(「パンポット」)５４の５つのコンプレッサのうちの１つを指定する。意味規則３２の適用の順番は、プロセッサの選択された順番によって決まる。例えば、まず、プロセッサ１に関連する意味規則３２に関して知識ベースをスキャンすることができ、次に、プロセッサ２に関して知識ベースをスキャンすることができる等である。５つのプロセッサの使用は、単に例示的なものであり、本明細書に記載の原理は、任意の適切なオーディオエフェクトまたはオーディオプロセッサを用いて実装されてよいことは理解されよう。同様に、パラメータは、挿入エフェクト、センドエフェクト、及び、前処理（すなわち、別のウェーブエディタまたは処理装置でオフラインで）に関する意味情報に基づいて設定されてよい。

個々のトラック１２を処理後、ドラムバス段階５６を行ってよい。ドラムバス段階５６では、ドラム楽器（サブグループ「ドラム」の構成要素)は、ドラムバス段階５６に関する意味規則３２がある場合、第１のミックスダウン操作５８で、フェーダ定数及びパニング定数（fader and panning constants）を用いてミックスダウンされ、６２で等化され、６０で圧縮される。結果として生じるステレオドラムバス出力は、次に、ミックスバス段階６４で再度、フェーダ定数及びパニング定数を用いて残りのトラックと共にミックスダウンされる。結果として生じるミックスは、ミックスバス６４に作用する意味規則３２がある場合、等化、圧縮され、ステレオ出力１８が提供される。

図６においは、入力オーディオファイル１２が、処理、ミックスすべき複数の入力オーディオ信号または入力トラックを含むが、入力オーディオファイル１２は、単一の入力オーディオ信号またはトラックを含んでもよいことは理解されたい。この場合、ミックスダウン操作５８等のミックスダウン操作は、省略される。

この時点で、抽出された特徴とミキシングパラメータは両方とも、オーディオトラック全体に対して一定である。別の実施形態において、抽出された特徴とミキシングパラメータは、オーディオトラックを手動または自動で分割後、オーディオトラックの異なる部分に対して決定することができ、時間の経過と共に大きく連続して変わる測度または設定を有し得る。

処理の順番は、適用に応じて、また、新しい技術及び研究が行われると、変わり得る。しかしながら、一実施形態において、好ましい順番は、ワークフローで考慮すべき事柄に基づくべきであることが分かった。不必要に重く低い端部分または突出した周波数が所望のエフェクトとは異なるようにコンプレッサ４８をトリガするので、少なくとも１つのイコライザ段階５０がコンプレッサ４８の前にあることが望ましい場合もある。本明細書に記載の実施例においては、評価中の信号は、コンプレッサ４８の動作に大きく影響を与えるようなスペクトル異常をもたないと仮定、保証されている（例えば、短いテストで確認される等）。代わりに、不必要に低い周波数のノイズによってコンプレッサ４８がトリガされないように、図６に示すように、高域フィルタ４６をコンプレッサ４８の前に配置することができ、イコライザ５０をコンプレッサ４８の後ろに配置することができる。

フェーダ５２及びパンポット５４が、コンプレッサ４８及びイコライザ５０等の挿入プロセッサの後で、信号を操作することができ、そして、図６に示すように、ミキシングコンソールの一般的な配線の仕方に一致するようにフェーダ５２の後にパンポット５４を配置することができることは、広く認められている。さらに、これらのプロセスは線形の性質を有し、意味処理において独立しているので、順番は、この状況においては、あまり重要ではない。しかしながら、本明細書に記載の意味ミキシングシステムによって、プロセッサの任意の順番が可能になることを記しておく。

これらの考慮事項に基づいて、図４に示す高域フィルタ４６、ダイナミックレンジコンプレッサ４８、イコライザ５０、フェーダ５２、及び、パンポット５４というプロセッサの順番を、意味ミキシングシステムの評価に用いる。

本明細書に記載の実施例において、一般的コンプレッサモデル１２０は、可変閾値レイアウト（例えば、固定閾値、可変入力ゲイン設計に反して）と、２次のニーと、閾値、比率、アタックとリリース（「バリスティックス（ballistics）」)、及び、ニー幅の標準パラメータと、共に用いられてよい。

この実施例においては、レベルは、「フェーダ」モジュールによって後の段階で設定されるので、コンプレッサ段階４８でのゲインの操作を冗長にするメイクアップゲインは使用しない。この実施例においては、説明目的で、サイドチェーンフィルタも、処理したチャネル以外の他のチャネルへのサイドチェーン入力も、先読み機能も持たない。コンプレッサは、受信オーディオサンプルをサンプル毎に処理する。ステレオファイル（オーバーヘッドマイクロフォン等）は、「ステレオリンク」モードで圧縮される、すなわち、両方のチャネルのレベルが等量だけ低減される。様々な楽器及び様々な所望のエフェクトのための様々なコンプレッサ設定を適用及び環境に応じて選択することができ、それに応じて、対応する静的意味規則３２も変わり得る。

第２の処理ステップは、異なるトラック１２またはトラックのグループ１２の等化５０及びフィルタリング４６を用いて、信号のスペクトル特性を修正する。この実施例においては、２つのツールを用いてこのタスクを達成する。２つのツールとは、高域フィルタ４６(例えば、ベースギターとキックドラム以外のあらゆるトラックで１００Ｈｚのカットオフ周波数を有する高域フィルタリング等のアクションを実施する)と、パラメトリックイコライザ５０（例えば、ハイシェルビング、ローシェルビング、及び、ピークモードを有する）である。しかしながら、上記に例示したイコライザや他のフィルタ等、音のスペクトル特性に影響を与える多くのツールを使用できることは理解されよう。フィルタのパラメータは、周波数、ゲイン、及び、Ｑ(Ｑファクタ)である。簡単な４次の実装を、高域フィルタ４６（例えば、１２ｄＢ／オクターブ）及びイコライザ５０（例えば、段階ごとに２次フィルタ、すなわち、周波数／Ｑ／ゲインの三つの組毎に１つ）の両方に用いてよい。

等化規則の定量化できるミックスアクションへの変換を試みる時、生成タスクの目的をより厳密に記述する特徴、例えば、周波数スペクトルの部分に関連し得る「軽快」、「濁った」「耳障りな」等の音色の特徴に周波数スペクトルの部分をマップすることができる。これは、多くの先行技術のソースが、これらの種類のマッピングを定義する表またはグラフを提供しているので可能である。

パニング値は、各トラック１２に関してメタデータ４２に記憶され、この実施例においては、最初はゼロに設定される。パニング値は、−１(完全に左にパンされる)から＋１（完全に右にパンされる）の範囲であり、左対右のチャネルでミックスダウン中にトラックの相対ゲインを決定する。

パニング段階５４と同様、フェーダ５２または楽器ごとの「ゲイン」変数は、トラック１２と共にメタデータ４２として記憶することができる。最初のゲイン値は、０ｄＢに設定されてよく、次に、ミックスダウン５８中に規則３２（例えば、絶対的な用語または相対的な用語で、すなわち、「ゲインをｘｄＢに設定」または、「ゲインをｘｄＢ増加／減少させる」）に従って操作、適用してよい。あるいは、出力「レベル」は、楽器ごとに定義することができ、トラック１２と共にメタデータ４２として記憶することができる。システムは、フェーダ５２に入り（メタデータ４２として記憶もされた）信号のトラックレベルに基づいて、規定のレベルを達成するために必要なゲイン値を評価する。前者の場合は、静的意味規則の実施例であり、後者は、動的意味規則の実施例である。

図７を参照すると、意味ミキシングプロセスを行うために実行され得るコンピュータ実行可能動作のセットの実施例が示されている。ステップ２００において、オーディオトラック１２を含むオーディオファイルを取得し、ステップ２０２において、（例えば、楽器、ジャンル、スタイル等が示された）最初のメタデータ４２を取得する。ステップ２０４で上記の測定値がオーディオトラック１２に適用され、メタデータ４２は、ステップ２０６で更新される。メタデータ４２は、次に、トラック１２に適した静的意味規則３２のタグ３６を識別するためにステップ２０８で用いられてよく、ステップ２１０で、対応する規則のアクション（処理）を静的意味規則３２に従って行うことができる。次に、ミックスダウン操作が、例えば、上記のように、ステップ２１２で行われてよく、最後のミックスダウン（ミックスバス段階６４の後)またはオーディオ出力１８が、ステップ２１４で出力として生成される。

ミックスダウンを行うステップ２１２は省略してよいことは理解されたい。例えば、入力されたオーディオファイルが単一のオーディオ信号またはトラックを含む場合、ステップ２００〜２１０とステップ２１４のみが行われる。

上記のように、意味ミキシング操作は、独立して行うことができるが、低レベルの抽出された特徴に従って行われる処理と共に行われるのが理想的である。図８Ａは、他の自律型オーディオミキシングプロセス（例えば、以下に例示する交差適合特徴処理を用いて）と共に意味ミキシングプロセスを行うために、生成システム１０によって実行してよいコンピュータ実行可能動作のセットの実施例を示す。ここでは、低レベル処理と意味ミキシングが順次、行われている。ステップ３００において、処理すべきオーディオデータ、例えば、オーディオトラック１２を取得する。次に、ステップ３０２で、自律型ミキシングエンジン１０４を使用して、低レベルの特徴を抽出してよく、例えば、ステップ３０４で交差適合処理（以下に記載）を行って、オーディオ出力１８を生成してよい。このオーディオ出力１８は、意味ミキシングが行われない場合は最終的な出力であってよく、または、中間的な出力を構成してもよい。従って、生成システム１０は、ステップ３０６で、例えば、メタデータ４２及び静的意味規則３２の有無に基づいて、意味処理を行うべきか否かを決定することになる。意味処理を行わない場合、既に処理されたオーディオが、ステップ３０８でオーディオ出力１８として提供される。意味処理を行う場合、意味処理はステップ３１０で行われて、ステップ３１２でさらに処理されたオーディオが生成され、ステップ３１４で出力することができる。

一部の構成においては、低レベル特徴を処理したバージョンを取得して、適切な意味規則をさらなる微調整に適用、もしくは、出力を楽器、スタイル、ジャンル等に適合させる、または、通常は行われるが現在の適用に適切でないと思われる一定の低レベルの調整を防止または無視すると、好都合であることは理解されよう。このような構成においては、（図８Ａに示すように)ハイレベルの意味処理の前に低レベル処理が既に起こっているので、微調整、防止、または、無視すべき処理は、軽減する必要がある。図８Ｂは、既に行われているがリバースすることができる処理を意味ミキシングが無視する程度まで、ステップ３１４でさらに処理されたオーディオを出力する前に、任意の処理を軽減するか否かをステップ３１６で決定し、ステップ３１８で後処理を適用して１つまたは複数の以前適用したプロセスをリバースするように、動作３１６、３１８を行うことができる構成を示す。

図８Ｃに示す別の構成においては、図８Ａに示すのと同じ動作が行われるが、意味解析が行われて、任意の結果が様々な自動低レベルプロセッサに供給されて低レベル処理中に直接考慮されるように、低レベル処理段階及び意味処理段階をリバースする（例えば、意味解析に基づいて一定の処理ステップを無視する）。

図８Ｃに示す構成は、意味情報が、全てのフレームを通して静的ではなくフレームベースで変化し得る時、フレーム毎の解析に対応するように適合されてもよいことは理解されよう。フレーム毎の構成においては、各フレームの初めに、トラックを解析して、分類特徴（例えば、「バックグラウンドボーカルである」、「コーラスが開始される」「ギターである」等）を導出し、その結果は、分類特徴情報に関する静的意味規則３２に従って低レベル処理を行う異なるプロセッサに送られる。結果の実施例は、どの楽器がリード楽器か、どれがバックグラウンドか、どれを「自動フェーダ」モジュールに供給し得るか等に基づいて、「ゲインのブースト及びカット」の配列を含んでよい。自動フェーダは、次に、楽器を同じラウドネスにする典型的なレベル変化を適用するが、追加のブーストをリードボーカルに適用し、追加のカットをバックボーカル等に適用する。同様の手順は、使用されている他のプロセッサに適用されてよい。この実施例においては、低レベル解析と、それに対応する処理は、異なるモジュール内で起こることに留意されたい。

図８Ｄに示すさらに別の構成においては、プロセッサを利用する前に、高レベルと低レベルの解析の両方を行ってよい。このような構成においては、解析は、処理から切り離されて、楽器、ジャンル、または、スタイルに基づいた考慮事項（２〜３例を挙げると）の一部をなす一定の低レベル処理を高レベル処理が修正もしくは強化する（または、取り除く）のを可能にする。プロセッサは、次に、解析段階からパラメータを受信するように構成され、処理に携わってよい。

システムは、リバーブやディレイ等の遅延に基づくエフェクトを組み込んでよいことも理解されよう。

図９は、意味処理モジュール２０を有する生成システム１０の実施例のさらなる詳細を示す。意味処理モジュール２０は、システム１０内でプログラム命令またはモジュールを用いて実装されてよい。生成システム１０は、ストリーミングデータまたはデータファイル等のマルチトラックオーディオ入力１２を受信する受信データプロセッサ５００と、処理すべき出力トラック５０２とを備える。データファイルプロセッサ５００は、入力を処理して、自律型マルチトラック音楽生成エンジン５０４（以下「エンジン５０４」と称する）に入力される「オーディオソース」を効果的に提供する。エンジン５０４は、ソース制御ブロック５０６を備える。ソース制御ブロック５０６は、ソース認識及び他の種類の意味もしくは高レベルミキシング（例えば、図９に示されていない意味処理モジュール２０を利用することによって）、サブグループ割り当て、及び、ジャンル設定を行う。ソース認識は、機械学習法と特徴抽出法を用いて、オーディオソースの種類または楽器を自動的に決定する。次に、この情報を用いて、例えば、ボーカルまたはパーカッションサブグループ等、オーディオ生成システムを形成するサブグループにトラックを分けることができる。サブグループ割り当て及びルーティングは、ユーザによって外部から制御することもでき、最終的に、完成したステレオミックスを出力する最終的な「メインの」サブグループに供給される。ジャンル設定も、ソース検出またはユーザ制御によって決定される。これによって、各サブグループ及びサブグループ内に含まれるプロセッサは、ジャンルの選択または検出に応じて、異なるパラメータ設定とプリセットを有することができる。図９に示す典型的な実施例においては、信号は、最終的なミックスされたオーディオを５１０で出力する複数のマルチトラックサブグループ５０８に分けられる。

サブグループの指定は、ボーカル及びパーカッション検出技術等、ソース認識を用いて自動で達成することもでき、ユーザ（単数または複数）が入力した記述子またはタグ付けに基づいて手動で達成することもできる。自動検出技術は、多くの低レベル及び高レベルの抽出されたオーディオ特徴に対する機械学習アルゴリズムに基づいており、受信トラックは、リアルタイムで解析され、受信トラックのオフライン機械学習解析の結果との関係によって判断することができる。サブグループの別の特徴は、抽出された特徴をプロセッサ間で共有して、抽出された特徴の計算の繰り返しが起こらないようにして、効率を向上させる。さらに、エンジン５０４は、ユーザからの新しいデータ入力に適合する機械学習技術を実装するために、能動的学習モジュールまたは関連する機能を備えてよい。

意味ミキシングモジュール２０は、エンジン５０４の出力とインタフェースをとって上記の意味入力に適合するようにさらに向上及び調整できるように、生成システム１０と一体化される。

図９には示していないが、生成システム１０は、オフライン解析器も備えてよい、または、その機能を提供してよい。オフライン解析器は、ユーザがオーディオデータのオフライン解析を行えるように、生成システム１０に一体化されてよい。オフライン解析器は、システムとは別であってもよく、システムのコンポーネントであってもよい。オフライン解析器は、解析中のオーディオデータのタイムスタンプを関連付けられたデータ点と共に含む。オフライン解析器は、例えば、時間をかけて蓄積されたデータ、同じ抽出された特徴を用いた異なる測度等を必要とし、生成システム１０が依存する信号処理アルゴリズムで前に入手できなかったラウドネス範囲等の特徴など、新しく長期に抽出された特徴を生成するように構成されてよい。例えば、ラウドネス、波高因子等の長期の測度を用いて、歌のダイナミクスの変化を突き止めることを、新しい抽出特徴を生成するために行うことができる。

オフライン解析器は、各トラック全体を解析することによって楽器認識も行ってよく、次に、その知識を用いて、ミックスを実行する前にサブグループ５０８を構築する。以前のリアルタイムシステムであれば、サブグループ５０８が生成可能になる前に、受信オーディオを解析するために何らかのバッファリングを必要としたであろう。

オフライン解析器は、サブグループ５０８の既存の特徴抽出と交差適合解析段階を通してオーディオを再生し（図１０〜１２も参照）、例えば、オフライン解析器、または、オフライン解析器にアクセス可能なブロックもしくはモジュールに記憶するためにデータを戻すことによって、データ点の生成にも使用することができる。

オフライン解析器は、ソース制御ブロック５０６と通信もしてよい。ソース制御ブロック５０６は、次に、適切な時にミックスのパラメータを設定するために、サブグループ５０８と通信する。

オフライン解析の実施例を記載する。この実施例においては、オーディオファイルのマルチトラックのセット(ステムとしても知られる)を、エンジン５０４は入手可能である。ステムは、フレーム毎に解析され、オーディオ特徴（ラウドネス、スペクトル中心、波高因子等)が抽出され、それぞれの値が特徴時系列として記憶される。次に、解析段階を実行して、個々のトラック内、及び、全てのトラックを通して、特徴値の変動をモニタして、それに従って、エンジン５０４を調整する。例えば、ラウドネスを選択した抽出特徴とすると、オフライン解析器は、全てのトラックが突然、著しくラウドネスが下がり、１つのトラック、例えば、エレキギターが、元のレベルのままであることに気付くことがある。全てのトラックが元のラウドネス状態に戻るまで、これが、ある期間（例えば、２０秒）維持される。これは、オフライン解析器９８によってソロ部分と解釈され、次の複数の方法でエンジン５０４に影響を与える。その方法とは、（ｉ）ギターがリードトラックとして選択され、ミックスの中心にパンされる、（ｉｉ）ギターのフェーダレベルを（例えば、３ｄＢ)ブーストする、（ｉｉｉ）このソロ部分の初めで、ギターフェーダのスムージング機能を迂回して、フェーダがジャンプするのを可能にし、ギターをミックス内ですぐに目立たせることができる。これらのパラメータの変化は、オフライン解析器によって時間に対するデータ点として記憶される。

次に、リアルタイム実装に存在する通常の信号処理アルゴリズムに従って、解析段階で発見されたイベントに対応する時点で、様々なパラメータを変化させて、ミックスを生成することができる。

オフライン解析、及び、結果として得る将来のオーディオイベントの知識が、エンジン５０４に有し得る多くの他の実施例及び可能性があることは理解されよう。例えば、全ターゲット周波数スペクトルを記述する動的規則は、出力周波数スペクトルをターゲットへと向かわせるイコライザを選択、最適化することによって施行されてよい。個々のトラックまたは最終的なミックスダウンの周波数成分は、フレーム毎にモニタすることができる。次に、スペクトルに起こり得る変化に変化後に反応するのではなく、当該変化に適応するようにフィルタを先制的に制御することができる。同じ理論は、任意の処理ツールに当てはまる。すなわち、処理ツールは、イベントの前に反応するようにしてよい。

オフライン解析器に関する上記原理は、先読みバッファを用いて、準リアルタイムで達成することができることも理解されよう。先読みバッファによって、完全なオーディオファイルを入手しなくても、起こり得るイベントを先制的に知ることができる。

生成システム１０の特定の実施例の構成を図９に示すが、様々なシステム構成が、上記原理を用いて、例えば、複数の柔軟な方法で、図１２（以下を参照）の構造を適合させて特定の適用に適合するプロセッサ５２２〜５２８（例えば、フェーダ、圧縮等）及びサブグループ５０８の配置を作成することによって、達成することができることは理解されよう。例えば、図１９に示す段階は、異なる順番、量、及び、ルーティングで再構成することができる。よって、本明細書に示す実施例は、単なる例示に過ぎないことは理解されよう。

組み合わされる時、生成システム１０は、各トラックのスペクトル中心が決定する限界までできる限りパニングを最大化するように、バランスのとれたミックスを生成するように絶えず適合される。最終的なパン制御を含む全てのパラメータは、確実にスムーズに変化するようにＥＭＡフィルタに通される。典型的にはボーカルであるリードトラック(単数または複数)は、パニングアルゴリズムを迂回し、ミックスの中心に固定されるように選択することができる。

図１０は、自律型、リアルタイム、低遅延マルチトラックオーディオ生成のための連続動作として処理及びミキシングを行うマルチトラックサブグループ５０８の構成の実施例を示す。各トラック５０２は、マルチトラックサブグループ５０８によって受信され、最初に、ラウドネスプロセッサ５２２を備えるラウドネス処理モジュールで、各個々のトラックに対してラウドネス処理を行い、関連するトラックのラウドネス特性の実際の処理を行う。

トラック５０２は、次に、各トラックに関連付けられた各圧縮プロセッサ５２４によって処理され、次に、各等化（ＥＱ）プロセッサ５２６によって処理されて、一連のフィルタを適用して、トラックの周波数成分を変更する。各トラック５０２に対応する処理されたオーディオ信号は、次に、それぞれ左右のステレオパニングプロセッサ５２８ａ／５２８ｂによって処理される。左右の信号は、次に、それぞれ、５３０、５３２で結合され、マスタリングモジュール５３４によって処理されて、サブグループ５０８によって５３８で出力され、最終的には生成システム１０によって出力される。

生成エンジン５０４で用いられるプロセッサ５２２、５２４、５２６、５２８の一般的な図を図１０に示す。当該プロセッサは、マルチトラックオーディオ入力コンテンツ５０２からミックスされたオーディオコンテンツ５０２′を自動的に生成するようになされる。図１１に示すプロセッサ５２２、５２４、５２６、５２８は、以下のステップを行うことによって自動オーディオミキシングを行うようになされる。

入力信号５０２を受信：複数のトラックからのデジタルオーディオ信号５０２が、生成システム１０の入力で受信され、生成システム１０の複数の並列信号処理チャネルにルーティングされる。

特徴抽出５５０：各デジタルオーディオ信号５０２は、解析され、各デジタルオーディオ信号の具体的な特徴が抽出される。

特徴解析（交差適合特徴処理５３４）：抽出された特徴と、異なる信号の抽出された特徴間の関係とを解析し、１つまたは複数の処理制御規則５５８に従って、各トラックに必要な処理を決定する。

信号処理５５６：オーディオ信号は、次に、特徴解析に従って処理される。

処理された信号５０２′を出力：処理した信号５０２′は次に、各トラックに対応する修正されたデジタルオーディオ信号として出力される。

図面を参照して、上記の各ステップを含む自動ミキシングプロセスをより詳細に記載する。

プロセッサ５２２、５２４、５２６、５２８の入力は、複数のステレオデジタルオーディオ信号５０２を、図１０に示す実施例においては、第１、第２、第３のステレオオーディオ信号を受信するようになされる。各ステレオオーディオ信号５０２は、処理すべきオーディオトラックに対応し、左チャネル及び右チャネルを有する。プロセッサ５２２、５２４、５２６、５２８の入力は、別個のオーディオ信号５０２として各トラックを受信する。プロセッサ５２２、５２４、５２６、５２８は、任意の数の入力オーディオトラックを受け入れるようになされる。トラックの数は、生成システム１０の処理能力と出力するオーディオの要件によってのみ制限される。

上記のように、生成システム１０は、図９、図１０に示し、本明細書に記載のようにオーディオ信号５０２の最適ミックスを達成するためにサブグループ５０８を使用してもよいことは理解されよう。トラックの個々のグループは、サブグループ５０８に割り当てることができ、サブグループ５０８内には、ミキシングプロセッサ及びマスタリングプロセッサを配置することができる。サブグループ５０８は、１つのサブグループ５０８からのミックスダウンまたは個々のトラックが、別のサブグループ５０８への入力として働くように互いにリンクすることができる。プリセットを用いて、例えば、ジャンルに固有のミックスまたは楽器に固有のミックスに対して、サブグループ５０８に固有の設定を適用することができる。

図１１に示す実施例においては、受信したオーディオ信号５０２はリアルタイムで処理される。このようなリアルタイム処理は、受信した信号５０２が、ライブで記録される、または、ストリームコンテンツに由来している時、特に有用である。このような実施例においては、オーディオを受信すると、特徴抽出５５０がリアルタイムでストリーミングオーディオに対して行われる。抽出すべきオーディオの特徴は、ゲインラウドネス、ラウドネスレンジ、スペクトルマスキング、空間マスキング、スペクトルバランス、空間バランス等、オーディオ信号の特徴または特性を含む。

受信したオーディオ信号は、並列処理動作または「サイドチェーン」に送られる。すなわち、オーディオ特徴の抽出、解析のための交差適合特徴処理モジュール５５４を用いる。複数の特徴抽出モジュール５５０は、図１１に示すような並列特徴抽出を提供する。

瞬時的な特徴値は、実装に応じて、サンプル毎またはフレーム毎に、特徴抽出モジュール５５０によって抽出される。フレーム毎の場合、フレームサイズは、最小の待ち時間でリアルタイム動作を確実に行えるのに必要なくらい小さい。累積平均を特徴に適用して、リアルタイムの特徴推定を実施する。そのレートは、フレームサイズ及びサンプルレートに従って調整され、特徴値が最新に更新されるとすぐに行われる。

オーディオ信号の一定の特徴を示す抽出されたデータストリームは、任意の適切な方法を用いて経時的に平滑化される。例えば、指数移動平均フィルタを、関連するタイムアタック定数及びタイムリリース定数と共に使用してよい。

交差適合マルチトラック特徴処理モジュール５５４は、図１１に示すように、各特徴抽出モジュール５５０が抽出した特徴のそれぞれを受信する。交差適合処理モジュール５５４は、各トラック５０２に適用すべき処理動作を規定する処理制御関数を決定する。処理制御関数は、また、抽出された特徴と共に、所定の制約５５２、及び／または、静的及び動的規則５５８に基づいて決められる。所定の制約は、ミキシングプロセス開始前にユーザによって設定され、制約モジュール５５２に記憶されてよい。処理規則５５８は、トラック間に必要な一定の関係、または、特定の特徴の上限と下限を設定してよい。動的規則には以下の規則が含まれるが、それらに限定されない。

自律型マルチトラックフェーダに関しては、全ての能動的ソースが、等しい知覚ラウドネスに向かう傾向がある。

自律型マルチトラックステレオポジショニングに関しては、全てのトラックは、空間及びスペクトルバランスが維持されるように位置決めされる。

自律型マルチトラックダイナミックレンジ圧縮に関しては、コンプレッサは、能動的ソースのラウドネスレンジの変動が最小になるように、各トラックに適用される。

自律型マルチトラック等化に関しては、フィルタは、ソースのスペクトルバンド幅が重ならないように、各トラックに適用される。

自律型ディレイ及び極性補正に関しては、ディレイは、各トラックに追加されて、各トラックを共通の基準に同期させることができる。

交差適合特徴処理モジュール５５４は、出力において所望の特徴に収束するのを確実にするフィードバック動作を含む。すなわち、交差適合特徴処理ブロックによって生成された制御は、適用前に解析されてよい。制御が所与の許容範囲内の所望の結果を生まない場合、制御値は、適用前に調整される。

処理制御関数は、ゲインフィルタ、ディレイフィルタ、及び、無限インパルス応答フィルタ等の、時変フィルタの形をとる。より詳細には、以前の制御ベクトルの加重和で、抽出された特徴の関数である制御ベクトルを利用してよい。ラウドネスフェーダの場合、マルチトラック処理を用いて、各トラックのデシベルレベル制御を導出する。この処理の結果は、次に、変換されて線形ドメインに戻され、以下に記載のように、時変ゲインとして各トラックに適用される。同様に、自律型ステレオポジショニングの場合、マルチトラック処理を用いて、各トラック５０２に対するパニング位置を導出する。パニング位置は、次に、２つのゲインとして適用され、ステレオポジショニングに対する左出力と右出力を生成する。

自律型ディレイ及び極性補正の場合、全てのトラック５０２と基準との間のディレイを解析し、人工的なディレイを導入してオーディオを同期する。

上記制御関数は、一旦決定されると、並列信号処理モジュール５５６の各トラックの処理に用いられる。各トラックは、次に、交差適合処理モジュール５５４によって決定された制御に従って処理された別個のオーディオ信号５０２′として各処理ブロック５５６によって出力される。処理された各信号５０２′は、次に、出力モジュール５１０、５３６において、加算プロセスによって単一のオーディオ出力に結合される。出力５０２′は、任意の適切なフォーマットであってよいが、この実施例においては、ステレオ出力５１０、５３６である。

典型的には、ミックスすべきオーディオ信号の主な態様は、フレームベースでの各トラックの相対的ラウドネスレベルと、ある期間にわたるオーディオ信号の相対的ラウドネスと、イコライザと、各トラックの（ステレオオーディオ信号のミキシングのための)圧縮、マスタリング、ステレオパニング等と、を含むが、これらに限定されない。よって、オーディオ信号のこれらの態様それぞれに関する自動特徴抽出及び処理（すなわち、動的規則）を詳細に検討する。

図１２は、マルチトラックミキシングプロセッサ５５４を示す。マルチトラックミキシングプロセッサ５５４は、実施例で使用の場合としてフェーダを実装する複数のオーディオトラックの相対的ラウドネスレベルを独立して制御できるように、ラウドネス及びラウドネスレンジを抽出するように構成される。図９に示す実施例においては、特徴抽出はラウドネス抽出にあたり、交差適合処理はラウドネス最適化にあたる。

図１２に示すように、複数のトラックに対応するオーディオ信号５０２は、各フレームサンプルでマルチチャネルラウドネス抽出モジュール５６０によって抽出された当該オーディオ信号のラウドネスに関する情報を有する。マルチチャネルラウドネス抽出モジュール５６０は、関連するラウドネスを決定する時、全てのトラックの知覚ラウドネスを考慮する。ラウドネス最適化モジュール５６２は、次に、ラウドネス決定に従って、必要に応じて、トラックの１つまたは複数に適用する制御関数を決定する。ラウドネスを変更するべきトラックは、次に、各処理モジュール５６６によって、例えば、制御信号５６４に従ってゲインを適用して、信号レベルを増減することによって、変更される。従って、出力５０２′は、ラウドネス補正が相対的ラウドネスを規定する動的規則を施行するために、処理済みである。

図９〜図１２に示す構成の実施例は、例示的なものに過ぎず、異なる適用及びシナリオに適合する様々な他の構成を用いることができることは理解されよう。

図３〜図１２は、静的意味規則を用いて、複数のオーディオ信号／トラックを処理、ミキシングする方法及びシステムを示すが、自律型オーディオ生成システムの制御に用いる生成データを含む静的及び／または動的意味規則を導出するためにオーディオ信号を解析する方法及びシステムを以下に提示する。生成データは、オーディオ処理ツールの構成、各処理ツールに関する入力に固有の制御パラメータプリセット、及び／または、美的及び機能的制約の両方で最も適切な生成目標を含む。

図１３は、意味データまたは情報を抽出するためにオーディオ信号（単数または複数）を解析し、抽出された意味データを用いて生成データを導出する方法６００の一実施形態を示す。

ステップ６０２において、解析すべきオーディオファイルは、オーディオファイルに関するオプションの意味情報と共に受信される。オーディオファイルは、解析すべき単一のオーディオ信号、または、一緒に解析すべき複数のオーディオ信号を含んでよい。オーディオファイルに関する意味情報は、ユーザインタフェースを介してユーザによって入力され、当該ユーザインタフェースから受信されてよい。

ステップ６０４において、オーディオファイルの各オーディオ信号が解析され、各オーディオ信号の意味データが抽出される。同じまたは別の実施形態においては、オーディオファイルの意味データは、ユーザインタフェースを介した入力に由来しても、オーディオファイルから抽出されても、または、その両方であってもよい。

ステップ６０６において、オーディオファイルの意味データが解析されて、少なくとも１つの対応する意味規則を決定する。上記のように、意味規則は、少なくとも１つの静的意味規則、及び／または、少なくとも１つの動的意味規則を含んでよい。意味規則は、オーディオファイルに対して行うべきオーディオ処理アクションを示す生成データを含む。生成データは、３つの異なる種類からなってよい。すなわち、処理アクションを行うべき時系列等、行うべきオーディオ処理アクションの構成に関するデータと、対応するオーディオ処理アクションを行う各オーディオプロセッサに関する入力に固有の制御パラメータプリセットに対応する各オーディオ処理アクションの特性と、オーディオファイルの所与の特徴に関する所望のターゲット値の形をとる生成目標である。オーディオ処理アクションの構成及び特性は、静的意味規則とみなしてよく、生成目標は、動的意味規則とみなしてよい。

ステップ６０８において、生成データが出力される。一実施形態において、生成データは、自律型オーディオ生成システムに送られ、自律型オーディオ生成システムは、生成データに従ってオーディオファイルを処理する。別の実施形態において、生成データは、別個の構成ファイルとして出力され、メモリに記憶される。さらに別の実施形態において、生成データは、メモリに記憶されてよい元のオーディオファイル内に埋め込まれる。

図１４は、生成データの少なくとも項目に従って自律型オーディオ生成を行うシステム６２０の一実施形態を示す。システム６２０は、意味解析モジュール６２２と、別個の自律型オーディオ生成システム６２４とを備える。意味解析モジュール６２２は、ユーザインタフェースから、処理すべきオーディオファイルと、オプションでオーディオファイルに関連する意味データを受信する。生成すべきオーディオファイルは、単一のオーディオ信号、または、解析して一緒に生成すべき複数のオーディオ信号を含んでよい。意味解析モジュール６２２は、受信したオーディオファイルから意味情報またはデータを決定するように適合されてよく、意味データは、自律型オーディオ生成システム６２４に送られる。一実施形態において、意味解析モジュール６２２は、構成ファイルに生成データを保存してよい。別の実施形態において、意味解析モジュール６２２は、処理すべきオーディオファイルに意味データ及び／または生成データを埋め込んでよい。

自律型生成システム６２４は、処理すべきオーディオファイルと生成データを受信する。上記のように、生成データは、オーディオプロセッサの構成、オーディオプロセッサの制御パラメータまたは入力に固有の制御パラメータプリセット、及び／または、オーディオ信号の所与の生成特徴のターゲット値を示す。生成データを用いて、自律型生成システム６２４は、次の少なくとも１つを行う。すなわち、自律型生成システム６２４内で使用されるオーディオプロセッサまたは処理ツールを構成すること、各処理ツールに対して入力に固有の制御パラメータプリセットを設定すること、及び、生成されたオーディオファイルの生成特徴が、生成データに含まれたターゲット値に一致するように各処理ツールの制御パラメータを設定すること。自律型生成システム６２４は、次に、受信したオーディオファイルを処理し、処理、生成されたオーディオファイルを出力する。一実施形態において、自律型生成システム６２４は、生成されたオーディオファイルに意味データ及び／または生成データを埋め込むようにさらに適合される。

図１５は、オーディオファイルを処理し、聴くことによって、意味解析モジュール６２２を自律型生成システム６２４と組み合わせ、それらを意味ベースの自律型オーディオ生成システム６２０（以下、「生成システム」と称する）に埋め込むシステムの一実施形態を示す。生成システム６２０は、オーディオファイルまたは信号を入力とし、オーディオファイルまたは信号は、意味解析モジュール６２２によって導出された生成データに基づいて、自律型生成システム６２４によって処理される。生成システムは、少なくとも１つの生成されたオーディオ信号を出力し、当該オーディオ信号は、音響再生システム６２６に送られて、少なくとも１つの生成された音響信号に変換される。生成された音響信号は、次に、聴取環境６２８の効果、例えば、部屋の音響効果や背景雑音を受けて、聴取者６３０が聞く環境効果を含む最終的に生成された音響信号を提供する。

図１６は、意味解析モジュール６２２の構成の一実施例を示す。図１６に示す機能ブロックは例示的なものに過ぎないことは理解されよう。意味解析モジュール６２２は、意味データ抽出器６３２、意味データコンテナ６３４、推論エンジン６３６、及び、生成データベース６３８を含む。意味データ抽出器６３２は、処理すべきオーディオファイルを受信し、受信したオーディオファイルから意味データを抽出するように適合される。意味データコンテナ６３４は、意味データ抽出器６３２から抽出された意味データ、オプションで、ユーザインタフェース６４０からオーディオファイルに関する追加の意味データを受信するように適合される。意味データコンテナ６３４は、受信した意味データを組み合わせて単一の意味データセットとし、推論エンジン６３６に送信するように適合される。解析すべきオーディオファイルに関する意味データも、意味データ抽出器６３２に送られてよい。生成データベース６３８は、生成されたオーディオファイルの生成データ例の集まりを含む。推論エンジン６３６は、解析すべきオーディオファイルの意味データを意味データコンテナ６３４から受信し、生成データベース２４にアクセスして、解析すべきオーディオファイルを生成するために適切な生成データを決定する。一実施形態において、ユーザは、ユーザインタフェース６４０を介して生成プリファレンスを入力し、生成プリファレンスは、推論エンジン６３６による生成データの決定に影響を与える。

図１７は、意味データ抽出器６３２の一実施形態を示す。この実施形態においては、意味データ抽出器６３２は、染色体特徴抽出部６４２、自動オーディオ分類部６４４、及び、生成特徴抽出部６４６を備える。染色体特徴抽出部６４２は、オーディオファイルを受信し、解析すべきオーディオファイルの染色体特徴を評価する。染色体特徴は、解析すべきオーディオファイルの記述に使用し得る任意の数の特徴、例えば、テンポ、調和性、メル周波数ケプストラム係数（ＭＦＣＣ）、サブバンドフラックス（ＳＢＦ）、及び／または、音楽情報検索（ＭＩＲ）文献からの特徴を含む。染色体特徴は、さらに、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和等、数値特徴の時系列の任意の統計的測度を含んでよい。これらは、解析すべきオーディオファイルの各オーディオ信号の全体、または、その部分領域に関してよい。

自動オーディオ分類部６４４は、染色体特徴を用いて解析すべきオーディオファイルを分類し、その分類特徴を決定する。分類特徴は、解析すべきオーディオファイルの記述に使用し得る任意のカテゴリ的特徴、例えば、ジャンル、楽器編成、アーティストを含んでよく、生成目標の任意のカテゴリ的記述、例えば、生成スタイル（例えば、年、特定の生成者）、感情的文脈等、も含んでよい。分類は、サポートベクタマシーン（ＳＶＭ）等の任意の適切な機械学習技術を用いて行われてよい。

生成特徴抽出部６４６は、解析すべきオーディオファイルの生成特徴を評価する。生成特徴は、生成目標を記述する解析すべきオーディオファイルの任意の数値特徴、例えば、スペクトル形状、ダイナミックレンジ、ラウドネス、ステレオ幅、マスキングを含んでよく、生成特徴は、また、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度, 中央値、最頻値、最大値、最小値、導関数、積分、和もさらに含んでよい。これらは、解析すべきオーディオファイルの各オーディオ信号の全体、または、その部分領域に関してよい。

一実施形態において、意味データ抽出器６３２は、解析すべきオーディオファイルの意味データをさらに受信する。意味データは、ユーザインタフェースから受信される。一実施形態において、ユーザインタフェースから受信された意味データは、分類特徴を含み、当該分類特徴は、次に、自動オーディオ分類部６４４によって決定された分類特徴と組み合わされる。一実施形態において、ユーザインタフェースから受信された意味データは、染色体特徴を含み、当該染色体特徴は、分類に先立って、自動オーディオ分類部６４４に入力され、染色体特徴抽出部６４２によって決定された染色体特徴と組み合わされる。一実施形態において、ユーザインタフェースから受信された意味データは、生成特徴を含み、当該生成特徴は、生成特徴抽出部６４６から出力された生成特徴と組み合わされる。

意味データ抽出器６３２は、次に、意味データ、すなわち、分類特徴、染色体特徴、及び／または、生成特徴を出力する。

図１８は、意味データコンテナ６３４に含まれる解析すべきオーディオファイルの意味データの一実施形態を示す。意味データは、分類特徴６５０、染色体特徴６５２、及び、生成特徴６５４の少なくとも１つを含む。一実施形態において、意味データコンテナ６３４は、意味データ抽出器６３２から受信した意味データをユーザインタフェース６４０から受信した意味データと組み合わせるように適合される。

図１９は、生成データベース６３８の一実施形態を示す。生成データベース６３８は、多くの基準記録６６０を含み、各基準記録６６０は、各規準生成オーディオファイルと、その生成に用いられた方法を記述する。生成データベース６３８は、商用に生成されたオーディオファイルからデータを抽出することによって、または、例えば、音響工学の実践を直接解析することによって、構築されてよい。各基準記録６６０に関して、生成データベースは、各記録識別（ＩＤ）６６２、各分類特徴６６４、各染色体特徴６６６、各オーディオ信号プロセッサ（ＡＳＰ）構成６６８、各ＡＳＰ制御パラメータ６７０、及び、各生成特徴６７２を含む。

分類特徴６６４は、基準生成オーディオファイルの記述に用いてよい任意のカテゴリ特徴、例えば、ジャンル、楽器編成、アーティストと、生成目標の任意のカテゴリ記述、例えば、生成スタイル（年または特定の生成者）、感情的文脈と、を含む。

染色体特徴６６６は、基準生成オーディオファイルの記述に用いてよい任意の数値特徴、例えば、テンポ、調和性、メル周波数ケプストラム係数（ＭＦＣＣ）、サブバンドフラックス（ＳＢＦ）、及び、音楽情報検索（ＭＩＲ）文献からの全ての特徴を含み、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和をさらに含んでよい。これらは、基準生成オーディオファイルの各オーディオ信号全体、または、その部分領域に関してよい。

ＡＳＰ構成６６８は、基準生成オーディオファイルの生成に用いられる一連のオーディオ信号処理ツールまたはプロセッサの特定の構成、例えば、マスタリングのための、コンプレッサ→ＥＱ→マルチバンドコンプレッサ→リミッタ、を記述する。構成は、特定のアルゴリズム、及び／または、例えば、マルチバンドコンプレッサ：ＴＣエレクトロニック社のＭ３ＤＭｕｌｔｉ‐ｂａｎｄＤｙｎａｍｉｃｓ等の各オーディオ信号処理ツールの実装も含んでよい。

ＡＳＰ制御パラメータ６７０は、基準生成オーディオファイルの生成に用いられるオーディオ信号処理ツールのための制御データ、例えば、コンプレッサのニー：−３ｄＢ、リミッタのアタックタイム：１ミリ秒、を含む。

生成特徴６７２は、生成目標を記述する基準生成オーディオファイルの任意の数値特徴、例えば、スペクトル形状、ダイナミックレンジ、ラウドネス、ステレオ幅、マスキングを含み、これらの特徴の時系列の任意の統計的測度、例えば、平均値、分散、歪度、尖度、中央値、最頻値、最大値、最小値、導関数、積分、和をさらに含んでよい。これらは、データベースオーディオファイルの各オーディオ信号の全体、または、その部分領域に関するものであってよい。

図２０は、推論エンジン６３６の一実施形態を示す。解析すべきオーディオファイルの意味データは、意味データコンテナ６３４から受信され、分けられる、ここで、分類特徴及び／または染色体特徴は、生成データベースクエリツール６８０に送られ、分類特徴及び／または生成特徴は、生成データ評価部６８２に送られる。生成データベースクエリツール６８０は、分類及び／または染色体特徴という点で解析すべきオーディオファイルに類似した基準記録６６０のサブセットを生成データベース６３８から識別する。生成データ評価部６８２は、識別された基準記録６６０のサブセットを受信し、解析すべきオーディオファイルの生成データを取り出し、出力する。

一実施形態において、生成データ評価部６８２は、生成データを取り出す時に、解析すべきオーディオファイルの分類特徴を含む。これらは、例えば、後の生成の対象となる出力先等、分類特徴によって、生成データベース６３８に反映または捕捉されていない可能性のある生成データの修正が必要となる特別な場合である。

一実施形態において、生成データ評価部６８２は、生成データを取り出す時に、解析すべきオーディオファイルの生成特徴を含む。

一実施形態において、生成データ評価部６８２は、生成データを取り出す時に、ユーザインタフェース６４０を介して入力されるユーザが定義した生成プリファレンスを含む。

意味解析モジュール６２２（ＳＡＭ）を多くの実施例を用いて説明する。各実施例は、別個の実施形態とみなしてよい。これは包括的なリストとみなすべきではない。実施例は、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関するが、同じ原理は、複数のオーディオ信号を含むオーディオファイルに適用されてよい。

ＳＡＭ実施例１
ステレオオーディオ信号を含むオーディオファイルが、意味解析モジュール６２２に入力され、添付の意味データはユーザインタフェースから受信されない。意味データ抽出器６３２が、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の１０個のＭＦＦＣ係数の平均値である。自動オーディオ分類部６４４は、ＳＶＭを用いて、オーディオファイルの染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルを、例えば、電子ダンス音楽（ＥＤＭ）であると識別する。この分類特徴、すなわち、ジャンル：ＥＤＭは、次に、推論エンジン６３６に送られ、生成データベースクエリツール６８０に送られる。生成データベースクエリツール６８０は、生成データベース６３８内の、分類特徴がジャンル：ＥＤＭである全ての基準記録６６０を識別し、基準記録６６０のこのサブセットは、生成データ評価部６８２に送られる。

生成データ評価部６８２は、識別されたサブセットの各基準記録６６０のＡＳＰ構成６６８を調べ、共通の構成を決定する。この実施例においては、共通の構成は、高域フィルタ→空間プロセッサ→イコライザ→マルチバンドコンプレッサ→リミッタである。この構成は、次に、解析すべきオーディオファイルの生成データのＡＳＰ構成フィールドに記憶される。

生成データ評価部６８２は、サブセット内の各記録に関してＡＳＰ制御パラメータ６７０を調べ、これらのパラメータの分布を評価する。この実施例においては、関心のある制御パラメータは、（ｉ）マルチバンドコンプレッサの周波数バンド、（ｉｉ）マルチバンドコンプレッサのニー、（ｉｉｉ）リミッタのアタックタイムとリリースタイムである。各パラメータに関して、サブセット内の全ての記録における分布を解析し、平均値を求めて、解析すべきオーディオファイルの生成データのＡＳＰ制御パラメータフィールドに記憶する。制御パラメータの分布の任意の適切な統計的測度を用いてよいことは理解されたい。

生成データ評価部６８２は、識別されたサブセットの各基準記録に関して生成特徴６７２をさらに調べ、これらの特徴の分布を評価する。この実施例においては、関心のある生成特徴は、（ｉ）基準オーディオファイルの全体的なスペクトル形状、（ｉｉ）基準オーディオファイルのラウドネスである。各特徴に関して、全ての基準記録にわたる分布を解析し、平均値を求めて、解析すべきオーディオファイルの生成データの生成特徴に記憶する。生成特徴の分布の任意の適切な統計的測度を用いてよいことは理解されたい。

次に、解析すべきオーディオファイルの生成データを出力する。

ＳＡＭ実施例２
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール６２２に入力される。意味データ抽出器６３２は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の１０個のＭＦＦＣ係数の平均値、１０のＳＢＦバンドの分散、テンポである。自動オーディオ分類部６４４は、迂回され、染色体特徴のみが推論エンジン６３６に送られ、生成データベースクエリツール６８０に送られる。生成データベースクエリツール６８０は、Ｋ最近傍（ＫＮＮ）アルゴリズムを用いて、染色体特徴が解析すべきオーディオファイルの染色体特徴に最も似通ったＫ個の基準記録のサブセットを生成データベース６３８から識別する。この実施例においては、Ｋ＝１０、従って、１０個の記録のサブセットを生成データ評価部６８２に送り、システムは、ＳＡＭ実施例１と同じように動作する。

ＳＡＭ実施例３
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール６２２に入力される。意味データ抽出器６３２は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の１０個のＭＦＦＣ係数の平均値、１０のＳＢＦバンドの分散、及び、テンポである。自動オーディオ分類部６４４は、ＳＶＭを用いて、染色体特徴のサブセットに基づいて、この場合は、最初の１０個のＭＦＣＣ係数に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルが電子ダンス音楽（ＥＤＭ）であると識別する。この分類特徴であるジャンル：ＥＤＭと、染色体特徴とは、次に、推論エンジン６３６に送られ、生成データベースクエリツール６８０に送られる。生成データベースクエリツール６８０は、生成データベース６３８内の、分類特徴ジャンル：ＥＤＭの全ての基準記録を識別する。この実施例においては、これによって、１０００の記録が生成される、よって、このサブセットを減らすために、ＫＮＮアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する１０個の記録からなる２次サブセットを識別する。これらの１０個の記録は、生成データ評価部６８２に送られ、システムは、ＳＡＭ実施例１と同じように動作する。

ＳＡＭ実施例４
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール６２２に入力される。意味データ抽出器６３２は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の１０のＳＢＦバンドの平均値である。自動オーディオ分類部６４４は、ＳＶＭを用いて、染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルをロックミュージックであると識別する。これに加えて、ユーザは、音楽のムードは激しいこと、生成スタイルは生成者Ｘに基づくべきことを示す意味データを、ユーザインタフェース６４０を介して提供する。従って、分類特徴は、ジャンル：ＥＤＭ、ムード：激しい、生成者：生成者Ｘとなり、これらは、推論エンジン６３６に送られる。データベースクエリツール６８０は、この分類に一致する基準記録のサブセットを生成データベースから選択する。識別された基準記録は、生成データ評価部６８２に送られ、システムは、ＳＡＭ実施例１と同じように動作する。

ＳＡＭ実施例５
ステレオオーディオ信号を含むオーディオファイルが意味解析モジュール６２２に入力される。当該オーディオファイルは、ジャンルがポップミュージックであると分類する添付の意味データを有する。意味データ抽出器６３２は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の１０個のＭＦＦＣ係数の平均値、１０のＳＢＦバンドの分散、及び、テンポである。自動オーディオ分類部６４４は迂回され、次に、分類特徴であるジャンル：ポップミュージックと染色体特徴が推論エンジン６３６に送られ、生成データベースクエリツール６８０に送られる。生成データベースクエリツール６８０は、生成データベース６３８内の、分類特徴がジャンル：ポップミュージックである全ての基準記録を識別する。この実施例においては、これによって、１０００の記録が生成される、よって、このサブセットを減らすために、ＫＮＮアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する１０個の記録からなる２次サブセットを識別する。これらの１０個の記録は、生成データ評価部６８２に送られ、システムは、ＳＡＭ実施例１と同じように動作する。

ＳＡＭ実施例６
ＳＡＭ実施例４のオーディオファイル及び意味データが、生成の出力先がサウンドクラウドのストリーミングであることを示すユーザが定義した意味データと共に、入力される。よって、分類特徴は、ジャンル：ＥＤＭ、ムード：激しい、生成者：生成者Ｘ、及び、出力先：サウンドクラウドストリーミングである。最初の３つの分類特徴を用いて、生成データベースサブセットを識別するが、出力先：サウンドクラウドストリーミングは、生成データベース内には記憶されず、直接、生成データ評価部６８２に送られる。この出力先クラスは、データ圧縮を組み込んでいるので、ピーク出力レベルが高すぎる場合、クリッピングの影響を受けやすい。従って、生成データ評価部６８２は、最大ピーク出力レベルを、他の出力先に用いる−０．３ｄＢではなく、−１ｄＢに、直接、設定する。この実施例の他の部分は、ＳＡＭ実施例４と同じように動作する。

ＳＡＭ実施例７
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、ユーザは、快活な作品が好ましいことを示すユーザの生成プリファレンスを提供した。システムは、ＳＡＭ実施例１に示したシステムに従うが、生成データ評価部６８２は、快活な音を提供するように、解析すべきオーディオファイルの生成データの全体的なスペクトル形状を修正する。例えば、全体的なスペクトル形状の修正は、全体的なスペクトル形状に所定のオフセットを追加することによって行ってよく、快活さという点で、約２〜約５ｋＨｚの間のエネルギーの増加に関わることになる。

ＳＡＭ実施例８
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、ユーザは、ＡＳＰ構成、ＡＳＰ制御パラメータ、または、生成特徴のいずれかの生成データの形で、ユーザの生成プリファレンスを明示的に提供した。システムは、ＳＡＭ実施例１に示したシステムに従うが、ユーザが提供する生成データは、意味解析モジュールの初期の段階で導出した生成データを上書きする。例えば、ユーザは、好ましいリミッタの実装、高域フィルタ周波数の遮断、及び、解析すべきオーディオファイルのＲＭＳレベルを定義する。これは、生成データという点で、自律型オーディオ生成システム８を直接制御するルートを提供する。

ＳＡＭ実施例９
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、ユーザは、生成は、例えば、特定のアーティストが製作品全てに基づく、または、特定のアルバムからであるべきという生成データベース６３８からの基準記録のサブセットを明示的に提供した。生成データベースクエリツール６８０は、分類特徴及び／または染色体特徴を無視し、生成データベース記録６６０のユーザが選択したサブセットを生成データ評価部６８２に直接送る。

ＳＡＭ実施例１０
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、生成特徴抽出部６４２が、低周波エネルギーが高レベルであることを返した。システムは、ＳＡＭ実施例１に示したシステムに従うが、この生成特徴も、生成データ評価部６８２に送られ、生成データ評価部６８２は、高域フィルタのＡＳＰ制御パラメータを修正して、システムの低周波エネルギーを減衰させるようにより多くのゲインを適用する。

ＳＡＭ実施例１１
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、意味データ抽出部６４２は、何らかの手動のユーザインタフェース調整を用いて、自動分割アルゴリズムを行うことによって、オーディオ信号をセクションに分けた。この場合、セクションは、ファイルの最も音の大きい部分を表す５秒の領域、ラウドネス及び周波数成分という点で歌全体を最も良く表す５秒のセクション、及び、バース／コーラスである。生成特徴抽出部６４２は、各セクションの特徴を別個に、及び歌全体の特徴を戻し、生成データ評価部６８２は、異なる特徴に関して、適切なセクションのデータを用いて生成データを決定する。例えば、最も音の大きいセクションから取ったＲＭＳレベルから、リミッタ閾値を動的に決定する。システムは、ＳＡＭ実施例１に示すシステムに従う。

ＳＡＭ実施例１２
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、生成特徴抽出部６４２は、−２０ｄＢの高レベルのノイズを返した。システムは、ＳＡＭ実施例１に示すシステムに従うが、この生成特徴も、生成データ評価部６８２に送られ、生成データ評価部６８２は、ＡＳＰチェーンの最初に（オーディオ信号からのノイズ除去に用いられる）ノイズ除去部を備えるようにＡＳＰ構成を修正し、ノイズレベルと（生成特徴抽出部によっても評価される)オーディオファイルの全体的なスペクトル形状とに基づいて、ノイズ除去ＡＳＰ制御パラメータを設定する。

ＳＡＭ実施例１３
ＳＡＭ実施例１のオーディオファイルを解析し、さらに、ユーザは、所望の生成目標を表す２次基準オーディオファイルを入力する。２次基準オーディオファイルは、意味データ抽出部に送られ、その分類特徴、染色体特徴、及び、生成特徴が評価される。この実施例においては、２次基準オーディオファイルは、ジャンル：ＥＤＭとして分類され、基準染色体特徴は、最初の１０のＳＢＦバンド、基準生成特徴ＲＭＳレベル：−９ｄＢＦｓである。生成データベースクエリツール６８０は、基準オーディオファイル分類（ジャンル：ＥＤＭ）に基づいて、全ての記録を識別し、ＫＮＮを用いて、２次基準オーディオファイルの染色体特徴に最も近い５つの記録を生成データベースから見つける。これらは、次に、生成データ評価部６８２に送られる。生成データ評価部６８２は、ＡＳＰ構成と制御パラメータの根拠をＫＮＮが識別した記録に置き、２次基準オーディオファイルから抽出された生成特徴（すなわち、ＲＭＳレベル：−９ｄＢＦｓ）に基づいて生成特徴を設定する。これによって、基準オーディオファイルへの「生成マッチング」を可能にする。

図２１は、生成すべきオーディオファイルと生成データを入力とし、生成したオーディオファイルを出力する、自律型オーディオ生成システム６２４の一実施形態を示す。自律型オーディオ生成システムは、生成データ解釈部７０２、生成特徴マップ部７０４、生成特徴抽出部７０６、及び、複数のＡＳＰ７０８を含む。一実施形態において、生成特徴抽出部７０６は、生成特徴抽出部６４６から独立している。別の実施形態において、生成特徴抽出部７０６は、生成特徴抽出部６４６に対応する。

この実施形態においては、各ＡＳＰ７０８は、各オーディオ処理アクションを行うように適合される。本実施形態においては、ＡＳＰ７０８は、直列構成で組織される、すなわち、オーディオファイルに含まれたオーディオ信号を順次、処理するように構成されるが、ＡＳＰは、並列構成で組織されてもよい、すなわち、オーディオ信号を並列で処理してもよいことは理解されたい。

自律型オーディオ生成システム６２４は、生成すべきオーディオファイルの生成データを意味解析モジュール６２２から受信する。この生成データは、生成データ解釈部７０２に送られ、生成データ解釈部７０２は、（ｉ）ＡＳＰ構成７０８を設定、（ｉｉ）ＡＳＰ制御パラメータプリセット７１０を設定、（ｉｉｉ）生成すべきオーディオファイルの生成特徴を生成特徴マップ部７０４に送る、のうちの少なくとも１つを行う。これらのアクションについてより詳細に説明する。

一実施形態において、生成データ解釈部７０２は、生成データからＡＳＰ構成を読み取り、これを用いて、ＡＳＰ処理チェーンをセットアップする。すなわち、チェーン内のＡＳＰ７０８の相対的順番を決定する。例えば、上記ＳＡＭ実施例１を参照すると、それぞれ、高域フィルタ、空間プロセッサ、イコライザ、マルチバンドコンプレッサ、及び、リミッタに対応する５つのＡＳＰ、ＡＳＰ１〜５がある。

一実施形態において、生成データ解釈部７０２は、生成データからＡＳＰ制御パラメータプリセットを読み取り、ＡＳＰ制御パラメータプリセットを用いてＡＳＰ７０８に、対応するプリセット９６を設定する。上記ＳＡＭ実施例１を参照すると、例えば、ＡＳＰ４（マルチバンドコンプレッサ）は、その周波数バンドと、各圧縮バンドに対するニーの制御パラメータを送られる、ＡＳＰ５(リミッタ)は、アタックタイムとリリースタイムを送られる。

一実施形態において、生成データ解釈部７０２は、ターゲット生成特徴を生成データから読み取り、生成特徴マップ部７０４に送る。生成特徴マップ部７０４は、ＡＳＰ制御パラメータを決定し、ターゲット生成特徴を生成されるオーディオファイルにマップするようにＡＳＰに関する制御パラメータを設定する(７１２)。生成データベースの実施形態においては、ターゲット生成特徴は、生成されるオーディオファイルの生成特徴に関連してよい。別の実施形態において、ターゲット生成特徴は、ＡＳＰチェーンの任意の中間の段階、すなわち、２つのＡＳＰ７０８の間のオーディオファイルの生成特徴に関連してよい。

一実施形態において、生成特徴抽出部７０６は、ＡＳＰチェーンの任意の点から生成特徴を抽出し、生成特徴マップ部７０４に送る。

一実施形態において、生成特徴抽出部７０６は、解析特徴マッピングを用いて、制御パラメータをＡＳＰに設定する。

一実施形態において、生成特徴抽出部７０６は、反復特徴マッピングを用いて制御パラメータをＡＳＰに設定する。

自律型オーディオ生成システム（ＡＡＰＳ）を多くの実施例を用いて示す。各実施例は、別個の実施形態とみなしてよい。これは、包括的なリストとみなすべきではない。実施例は、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関するが、同じ原理は、複数のオーディオ信号を含むオーディオファイルに適用されてよい。

ＡＡＰＳ実施例１（図１０）
図１０は、３つのＡＳＰを含む自律型オーディオ生成システム６２４ａの一実施形態を示す。生成データ解釈部７０２は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部７０２は、ＡＳＰ構成フィールドを読み出し、この実施例においては、処理チェーンを次の３つのＡＳＰを含むように設定する。

Ａ．高域フィルタ（ＨＰＦ）７０８ａ
Ｂ．イコライザ（ＥＱ）７０８ｂ
Ｃ．リミッタ７０８ｃ
生成データ解釈部７０２は、ＡＳＰ制御パラメータを読み出し、以下を設定する。

Ａ．７１０ａでＨＰＦに遮断周波数
Ｂ．７１０ｂでリミッタにアタックタイムとリリースタイム
Ｃ．７１０ｂでリミッタに出力レベル
生成データ解釈部７０２は、生成すべきオーディオファイルからターゲット生成特徴を読み出し、生成特徴マップ部７０４に送る。この実施例においては、ターゲット生成特徴は、以下のようになる。

Ａ．５０Ｈｚ未満のエネルギー量：ＨＰＦ後、中間信号から評価
Ｂ．信号スペクトルの形状：ＥＱ後、中間信号から評価
Ｃ．ＲＭＳレベル：出力信号から評価
生成特徴マップ部７０４は、ＡＳＰの制御パラメータにターゲット生成特徴をマップする。

Ａ．５０Ｈｚ未満のエネルギー量→ＨＰＦゲイン制御
Ｂ．信号スペクトルの形状→ＥＱカーブの形状
Ｃ．ＲＭＳレベル→リミッタ閾値
生成特徴抽出部７０６は、５０Ｈｚ未満のエネルギー量をＨＰＦの前に（７１４ａで）評価し、このデータを生成特徴マップ部７０４に送る。この実施例においては、７１４ｂで５０Ｈｚ未満のエネルギーは−６ｄＢであるが、ターゲットエネルギーは、−８ｄＢである。よって、生成特徴マップ部７０４は、生成されるオーディオファイルでこの生成特徴を調整するために、７１２ａでＨＰＦゲイン制御を−２ｄＢに設定する。これは、解析特徴マッピングの実施例で、それによって、生成特徴マップ部は、制御パラメータを直接評価して、ターゲット生成特徴を達成することができる。この場合、単にターゲット生成特徴とオーディオ信号から抽出した生成特徴の差を取ることによって評価することができる。これらは、７１２ａでＨＰＦに送られる。

生成特徴抽出部７０６は、ＥＱの前に（７１４ｂで）信号スペクトルの形状を評価する。この実施例においては、信号スペクトルの形状は、５０Ｈｚ以上の２０の周波数バンドのエネルギーとして定義される。そして、ＥＱは、相当する周波数バンドでゲインを適用することによって、周波数成分を操作する。生成特徴マップ部７０４は、各周波数バンドに関して、スペクトルのターゲット形状と７１２ｂにおけるスペクトルの形状の差を評価する。これらの差を用いて各バンドでゲインを設定し、これらの差は、７１２ｂでＥＱに送られる。これは、解析特徴マッピングの別の実施例である。

生成特徴抽出部７０６は、リミッタの前（７１４ｃ）及びリミッタの後（７１４ｄ）の両方で、信号のＲＭＳレベルを評価する。この実施例においては、ターゲットＲＭＳは、−８ｄＢＦＳで、７１４ｃにおけるＲＭＳは、−１４ｄＢＦＳである。このターゲット生成特徴をマッピングすることとの主な違いは、リミッタ処理アルゴリズムは非線形なので、解析特徴マッピングの使用は不可能なことである。代わりに、反復マッピングアルゴリズムを用いる。適切な決定的アルゴリズムや適切な確率アルゴリズムなど任意の適切な反復マッピングアルゴリズムを使用してよい。決定的アルゴリズムは、例えば、ガウスニュートン法等、生成特徴と制御パラメータの関係における派生情報を用いて、（ターゲット生成特徴と抽出された生成特徴との間に）最低誤差、ｅ、を提供する制御パラメータに収束する。確率アルゴリズムは、例えば、遺伝的アルゴリズム、シミュレーテッドアニーリングアルゴリズム等、半ランダムに制御パラメータ空間を検索して、（ターゲット生成特徴と生成されるファイルの生成特徴）との間に最低誤差を提供する制御パラメータを見つける。

この実施例においては、生成特徴マップ部７０４は、ガウスニュートン法を用いるが、反復アプローチは、任意の種類のアルゴリズムに対して成り立つ。生成特徴マップ部は、最初に、近似アルゴリズムマッピングを用いて、例えば、ターゲットと信号ＲＭＳレベルの差を取ることによって、閾値（Ｔ_０）設定を推定する。

Ｔ_０＝ＲＭＳ_９９ｃ−ＲＭＳ_{ターゲット}＝−６ｄＢ
生成特徴の最初の誤差ｅ_０は、開始時の閾値に関して、生成されるオーディオファイルの生成特徴の値をターゲット生成特徴と比較することによって評価される。解析生成特徴マッピングとの主な相違は、閾値推定値が７１２ｃで設定され、信号が処理され、生成特徴抽出部７０６が、生成すべき信号の生成特徴を再計算することである。

ｅ_０＝（ＲＭＳ_９９ｄ（Ｔ_０）−ＲＭＳ_{ターゲット}（Ｔ_０））^２
生成特徴マップ部は、次に、閾値Ｔの変化に対する誤差ｅ_０の数値勾配を評価する。これは、少量ｄＴだけ閾値を摂動させて、信号を再処理し、７１４ｄで生成特徴抽出部を用いて生成特徴を再評価することによって行われる。

（ｄｅ_０／ｄＴ）＝｛（ｅ（Ｔ_０＋ｄＴ）―ｅ（Ｔ_０）｝／ｄＴ
閾値の次の推定値Ｔ１（ここで、「１」は反復指標）は、次に、この導関数を用いて評価される。誤差ｅ１は、次に、この更新された閾値を用いて再評価される。

Ｔ_１＝Ｔ_０＋（ｄｅ_０/ｄＴ）^―１ｅ_０
このプロセスは、所与の反復で誤差が所定の許容誤差未満になるまで、または、許容可能が反復回数に達するまで、繰り返される。

ＡＡＰＳ実施例２
ＡＡＰＳ実施例１における生成すべきオーディオファイルの生成データが、生成データ解釈部７０２によって受信され、ＡＳＰ構成及び制御パラメータデータが読み出され、設定され、低周波エネルギーが、生成特徴マップ部によって、ＨＰＦゲインにマップされる。

この実施例の違いは、スペクトルの形状及びＲＭＳレベルの両方に関するターゲット生成特徴が、処理チェーンの中間段階ではなく、生成されたオーディオファイルに対して（７１４ｄで）定義されることである。こうする動機は、リミッタが信号のスペクトルに対して有するエフェクトを含むことである（リミッタは主にダイナミックレンジを制御するが、スペクトルに対する２次的エフェクトを有することになる）。生成特徴マップ部７０４及び生成特徴抽出部７０６は、ＡＡＰＳ実施例１と同じように働く。すなわち、最低誤差を見つけるために反復するが、この例においては、ＥＱ及びリミッタの両方に関する制御パラメータは、同時に見つけられる。数学的観点から、等式は、制御パラメータ及び誤差がベクトルに含まれるように適合され、数値微分が行列（ヤコビ行列式として知られる）内に含まれる。

ＡＡＰＳ実施例３
ＡＡＰＳ実施例１において生成すべきオーディオファイルの生成データは、生成データ解釈部７０２によって受信され、ＡＳＰ構成及び制御パラメータデータが読み出され、設定されて、生成特徴マップ部は、低周波エネルギーをＨＰＦゲイン、スペクトル形状を各ＥＱフィルタバンドでゲインにマップする。

この実施例における違いは、生成特徴が、リミッタが導入し得るディストーションの最大量を定義する追加の特徴を含むことである。これは、反復特徴マッピングアルゴリズムにおける制約として、リミッタ処理が過度のディストーションを導入することを防ぐために用いられる。すなわち、アルゴリズムは、導入し得るディストーションの量に関するハードリミットを観察しながら、ターゲットＲＭＳレベルの提供を試みる。

ＡＡＰＳ実施例４
自律型オーディオ生成システムは、ＡＡＰＳ実施例３と同じように動作するが、追加のユーザ生成プリファレンス生成特徴を受信する。この生成特徴は、ＲＭＳレベルとリミッタが導入するディストーションとの間の許容可能なトレードオフを記述する。この実施例においては、ユーザは、高度なＲＭＳミックスを望んでおり、必要に応じて、大きなディストーションを許容する、例えば、最大許容ディストーションは、生成データベースから５ディストーションユニットとして評価されるが、ユーザは、この実施例に対しては、最大許容ディストーションを７ディストーションユニットとして定義する。反復特徴マッピングアルゴリズムは、それに応じて、ディストーション制限が、リミッタの処理に与える抑制効果を和らげるように適合される。

複数の信号を含むオーディオファイルの生成
図２３は、生成すべきオーディオファイルが複数のオーディオ信号を含む時、自律型オーディオ生成システム６２４ｂの一実施形態を示す。自律型オーディオ生成システム６２４ｂは、概ね、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関して前述したのと同じように動作するが、ここでより明確に説明する。図２３に示す具体的なＡＳＰ構成は例示に過ぎないことは理解されたい。

生成データ解釈部７０２は、生成すべきオーディオファイルに関する生成データを受信する。生成データ解釈部７０２は、ＡＳＰ構成を評価し、これを用いて、処理チェーンのＡＳＰを設定する。ＡＳＰ構成は、生成すべきオーディオファイルの各オーディオ信号の楽器の種類を識別するラベルを備え、７１６で、各処理チェーンへの各オーディオ信号のルーティングを定義する。この実施例においては、オーディオファイルは、ベース、キック、スネア、ハイハット、シンバル、ギター、及び、ボーカルに関するオーディオ信号（モノラルまたはステレオ）を含み、各オーディオ信号は、独自の処理チェーンを有する。ボーカルの処理チェーン７１８は、コンプレッサ、イコライザ、及び、ボーカルリバーブユニットを備える。これらは、オーディオ生成の用語における「トラック」と考えてよい。

生成データのＡＳＰ構成は、次の追加のルーティング情報を含む。
・ベースとキックのオーディオ信号は、それらの個々の処理チェーンの後、コンプレッサ７２０にルーティングされる。この２つの信号は、単一の信号として処理することができ、７２２でミックスの残りの信号と再結合することができる。
・ドラム（キック、スネア、ハイハット、及び、シンバル）信号の全ては、ドラムサブミックス７２４にルーティングされる。これによって、１０６でミックスの残りの信号と再結合される時に、ドラムを単一のエンティティとして制御する。
・音楽信号（すなわち、ボーカルからの信号を除く全て）の全ては、共通の音楽リバーブプロセッサ７２６に送られる。これは、全ての音楽信号に適用すべき共通のリバーブエフェクトを提供し、７２２でミックスの残りの信号と再結合する時、全体としてのリバーブ強度を制御する。
・７２２で、オーディオ信号の全てが結合されて、生成されたオーディオファイルが提供される。

生成データのＡＳＰ制御パラメータは、オーディオ信号独自の処理チェーン内、または、特定のルーティングの部分のどちらであっても、選択された構成内の任意のＡＳＰに関連してよい。追加の制御パラメータは、構成のルーティング段階の任意の段階でルーティングする信号量を制御するために含まれる。例えば、７２８において、キック信号は、音楽リバーブプロセッサ７２６にルーティングされるので、例えば、−６ｄＢ等、信号のどれだけがルーティングされるのかを決定する対応するゲインパラメータがある。

生成データの生成特徴は、オーディオ信号独自の処理チェーンであっても、特定のルーティングの部分であっても、構成の任意の点に関連してよい。生成特徴抽出部は、対応する位置で生成特徴を評価する。例えば、
・７３０ａ〜７３０ｄにおいては、生成特徴は、ボーカル信号の処理チェーンの点から抽出される。
・７３０ｅにおいては、生成特徴は、音楽リバーブプロセッサによって出力されたオーディオ信号から抽出される。
・７３０ｆにおいては、生成特徴は、全てのオーディオ信号が結合された後、すなわち、生成されたオーディオファイルから抽出される。

生成特徴マップ部の実施形態において、生成特徴マップ部は、解析及び／または反復生成特徴マッピングを用いて、制御パラメータデータを導出する。

生成特徴マップ部の実施形態において、生成特徴マップ部は、個々の生成特徴を用いて制御パラメータデータを導出する。例えば、生成特徴マップ部は、ボーカル信号のスペクトル形状を用いて、ボーカル処理チェーンのイコライザを設定してよい。

生成特徴マップ部の実施形態において、生成特徴マップ部は、生成特徴の組み合わせを用いて、制御パラメータデータを導出する。例えば、生成特徴マップ部は、音楽リバーブ信号７３０ｅのラウドネスと、ミックスされたオーディオ信号７３０ｆのラウドネスを用いて、音楽リバーブエフェクトの出力ゲインを設定してよい。

ユーザ評価と自己学習
図２４は、意味解析モジュールの実施形態を示す。この実施形態においては、推論エンジン６３６は、解析すべきオーディオファイルの生成データ７４０の複数のセットを導出し、各セットは代替の生成を反映する。例えば、生成データのこれらの変形は、次のようにして導出されてよい。
・ユーザが定義した生成プリファレンスを用いる
・意味データ抽出器６３２において、異なる機械学習アルゴリズム及び／または変数のセットを用いて、分類特徴、染色体特徴、及び、生成特徴のセットを出力する。例えば、１つのセットは、第１のＳＶＭを用いてジャンルを高粒度に分類してよく、第２のセットは、第２の異なるＳＶＭを用いて、生成特徴を含みながらもジャンルを粗い粒度に分類してよく、第３のセットは、染色体特徴のみを用いてよい。
・データベースクエリツール６８０の異なる機械学習アルゴリズム及び／または変数のセットを用いる、例えば、生成データ評価部６８２に送る記録の数を変える
・生成データベースサブセットの異なる統計的測度を用いて生成データを導出するように生成データ評価部６８２を構成する、例えば、セット１は最頻値を用いてよく、セット２は中央値を用いてよく、セット３は平均値を用いてよい。
・生成データが基にする特定の記録を生成データベースサブセットから選択するように生成データ評価部６８２を構成する、例えば、生成データベースサブセットが５つの記録を含む場合、５つの記録のそれぞれを、解析すべきオーディオファイルのための別個の生成データセットとして用いてよい。
・生成データ評価部６８２が導出した生成データの任意の部分、すなわち、ＡＳＰ構成、ＡＳＰ制御パラメータまたは生成特徴をランダムに摂動させる。

図２４に示す実施形態においては、５セットの生成データ７４０があり、当該データは、自律型オーディオ生成システム６２４に送られ、自律型オーディオ生成システム６２４は、各セットに関して生成されたオーディオファイル７４２を出力する。

生成されたオーディオファイルのセットは、自律型オーディオ生成評価ツール７４４によって受信され、自律型オーディオ生成評価ツール７４４は、生成された異なるオーディオファイルの質をユーザが評価し得るインタフェースを提供する。インタフェースは、以下を組み込んでよい。
・Ａ―Ｂテスト、このテストによって、ユーザは、生成された異なるオーディオファイルを一対比較する。
・ＭＵＳＨＲＡ（ｍｕｌｔｉｐｌｅｓｔｉｍｕｌｕｓｗｉｔｈｈｉｄｄｅｎｒｅｆｅｒｅｎｃｅａｎｄａｎｃｈｏｒ）テスト、このテストによって、ユーザは、生成された異なるオーディオファイルの同時比較を行う。

自律型オーディオ生成評価ツール７４４は、ユーザ評価に基づいて、ユーザ評価生成プリファレンスを出力し、それらは、ユーザ生成プリファレンスデータベース７４６によって、受信、記憶される。

推論エンジン６３６は、ユーザ生成プリファレンスデータベース７４６にアクセスし、推論エンジン６３６の生成データベースクエリツール６８０または生成データ評価部６８２で、この情報を用いて、手動で入力されたユーザが定義した生成データと同じ方法で、導出された生成データを特定のユーザまたはユーザグループに合わせて調整してよい。例えば、
・特定のユーザに関する評価プリファレンスは、当該ユーザが、解析すべき新しいオーディオファイルを入力する時、用いられてよい。
・ユーザのサブグループ、例えば、ジャンル：ＥＤＭ、ムード：激しい、に分類されるオーディオファイルを入力した全てのユーザ、に関する評価プリファレンスが、ユーザが同じ分類を有するオーディオファイルを入力する時、用いられてよい。
・任意のオーディオファイル分類に関する全てのユーザからの評価プリファレンスが用いられてよい。

この実施形態においては、システムは、ユーザのプリファレンスを学習して、それに適合することができる。

ある実施形態において、自律型オーディオ生成評価ツール７４４は、システムの非ユーザが評価を行うことができるように、例えば、別個のウェブサイトにおいて、システムから外部的にホストされてよい。

時間情報生成データ
一実施形態において、意味解析モジュールによって導出された生成データは、以下のいずれかに関連してよい。
・解析すべきオーディオファイルのオーディオ信号の持続時間にわたる統計的測度、例えば、オーディオ信号のＲＭＳレベルは、その持続時間全体にわたって取得されてよい。
・解析すべきオーディオファイルのオーディオ信号の特定の領域に関する持続時間にわたる統計的測度、例えば、オーディオ信号のＲＭＳレベルは、コーラス等の小領域にわたって取得されてよい。
・解析すべきオーディオファイル、または、その部分領域のオーディオ信号の持続時間にわたる時系列、例えば、オーディオ信号のＲＭＳレベルは、その持続時間全体にわたる、または、コーラス等の小領域にわたる、時間の関数として表されてよい。

特定の領域に関する実施形態においては、生成データは、関連する時間の情報、例えば、ＲＭＳレベル４０〜５０秒、または、コーラスのＲＭＳレベルを用いて、タイムスタンプされる。

生成データベース６３８の実施形態においては、ＡＳＰ制御パラメータ及び生成特徴は、例えば、オーディオ信号の持続時間にわたるＲＭＳレベル平均値、オーディオ信号の持続時間にわたるＲＭＳレベル時系列、コーラスにわたるＲＭＳレベル平均値等、上記の任意の生成データ種類に関連してよい。

生成データ解釈部７０２の一実施形態においては、ＡＳＰ構成生成データは、時系列として表されてもよく、及び／または、タイムスタンプされたセクションに関連してもよい、従って、７０８で送られるＡＳＰ構成は、生成すべきオーディオファイルの持続時間にわたって変化してよい。

生成データ解釈部７０２の一実施形態においては、ＡＳＰ制御パラメータ生成データは、時系列として表されてもよく、及び／または、タイムスタンプされたセクションと関連してもよい、従って、７１０で送られるＡＳＰ制御パラメータデータは、生成すべきオーディオファイルの持続時間にわたって変化してよい。

一実施形態において、生成データ解釈部７０２、生成特徴マップ部７０４、及び、生成特徴抽出部７０６は、時系列として表される生成特徴を使用してもよく、及び／または、タイムスタンプされたセクションに関連してもよい、従って、それらの動作、及び、７１２における生成特徴マップ部７０４による制御パラメータの出力は、生成すべきオーディオファイルの持続時間にわたって変化してよい。

リアルタイム考慮事項
一実施形態においては、システムは、非リアルタイムで動作する。それによって、生成されたオーディオファイルの出力と、生成すべきオーディオファイルの入力は、時間的に同期されない。この場合、意味解析モジュール６２２及び自律型オーディオ生成システム６２４は、オーディオファイルを生成する前に、オーディオファイル全体にアクセスすることができる。

別の実施形態においては、システムは、実質的にリアルタイムで動作する。それによって、例えば、生成されたオーディオファイルが拡声装置を介して出力されるライブ環境においては、生成されたオーディオファイルの出力は生成すべきオーディオファイルと同期される。この場合、意味解析モジュール６２２及び自律型オーディオ生成システム６２４は、オーディオファイルの生成が完了する前に、オーディオファイル全体にアクセスすることはできない。すなわち、オーディオ信号の部分はフレーム毎に入力される。これに対応するために、
・オーディオファイルに添付された意味データを、その入力時に用いて、即値生成データを導出する。
・意味解析モジュールは、各フレームの意味データを意味データコンテナ６３４に記憶し、オーディオファイルの追加の部分が受信されると、引き続き、生成データを導出する。
・自律型オーディオ生成システム６２４に送られる生成データの変化は、適用中の処理の突然の変化を防止するように平滑化される。
・ライブ環境では、オーディオの予め記録されたセクションを使用して、例えば、サウンドチェックまたは以前のパフォーマンスを介して即値生成データを提供してよい。

命令を実施する本明細書に例示の任意のモジュールまたはコンポーネントは、記憶媒体、コンピュータ記憶媒体、または、例えば、磁気ディスク、光ディスク、もしくは、テープ等のデータ記憶装置（取り外し可能、及び／または、取り外しできない）等のコンピュータ可読媒体を含んでよい、または、当該コンピュータ可読媒体にアクセスできてよいことは理解されよう。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または、他のデータ等、情報を記憶するための任意の方法または技術で実装された揮発性及び不揮発性、取り外し可能及び取り外しできない媒体を含んでよい。コンピュータ記憶媒体の実施例は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは、他のメモリ技術、ＣＤ‐ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは、他の磁気記憶装置、または、所望の情報の記憶に用いることができ、アプリケーション、モジュール、もしくは、その両方によってアクセスできる任意の他の媒体を含む。任意のこのようなコンピュータ記憶媒体は、意味ミキシングモジュール２０、生成システム１０、生成エンジン５０４等の一部であってもよく、それらの任意のコンポーネントもしくはそれらに関連付けられた任意のコンポーネントであってもよく、または、それらにアクセスもしくは接続可能な任意のコンポーネントであってよい。本明細書に記載の任意のアプリケーションまたはモジュールは、このようなコンピュータ可読媒体によって記憶可能または、他の方法で保持し得るコンピュータ可読／実行可能命令を用いて実装し得る。

本明細書に記載のフローチャート及び図のステップまたは動作は、単に実施例に過ぎない。上記の原理から逸脱することなく、これらのステップまたは動作に多くの変更があってよい。例えば、ステップは、異なる順番で行われてよく、ステップは、追加、削除または修正されてよい。

一部の具体的な実施例を参照して上記原理を記載したが、その様々な修正は、請求項で要点を述べるように、当業者には明らかであろう。

実施形態に係る、意味規則を用いてオーディオファイルを処理する方法を示すフローチャートである。実施形態に係る、意味規則を用いてオーディオファイルを処理するシステムを示すブロック図である。自律型マルチトラック音楽生成システムと、このようなシステムのための意味処理モジュールの実施例を示すブロック図である。意味処理モジュールの例示的構成の実施例を示すブロック図である。意味規則の実施例の例示的な図である。意味処理モジュールとオーディオミキシングエンジンとの一体化の実施例を示すブロック図である。意味規則をオーディオデータに適用するために意味処理ミキシングをさせる時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。自律型マルチトラックミキシングエンジンを用いた交差適合（cross-adaptive）オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。自律型マルチトラックミキシングエンジンを用いた交差適合（cross-adaptive）オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。自律型マルチトラックミキシングエンジンを用いた交差適合（cross-adaptive）オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。自律型マルチトラックミキシングエンジンを用いた交差適合（cross-adaptive）オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。意味処理モジュールを有する自律型マルチトラック音楽生成システムを示すブロック図である。自律型マルチトラック音楽生成システムのマルチトラックサブグループを示すブロック図である。自律型マルチトラック音楽生成システムの交差適合特徴処理要素を示すブロック図である。自律型マルチトラック音楽生成システムのマルチトラックミキシングプロセッサの実施例を示すブロック図である。実施形態に係る、生成データを決定する方法を示すフローチャートである。実施形態に係る、生成データを決定するシステムのブロック図である。実施形態に係る、埋め込み意味解析モジュールを含む自律型オーディオ生成システムを示すブロック図である。実施形態に係る、意味解析モジュールのブロック図である。実施形態に係る、意味データ抽出部を示すブロック図である。実施形態に係る、意味データコンテナに含まれる意味データを示す図である。実施形態に係る、生成データベースに含まれる基準データ記録を示す図である。実施形態に係る、推論エンジンを示すブロック図である。第１の例示の自律型オーディオ生成システムを示すブロック図である。第２の例示の自律型オーディオ生成システムを示すブロック図である。第３の例示の自律型オーディオ生成システムを示すブロック図である。実施形態に係る、ユーザ評価と自己学習フィードバックを含む自律型オーディオ生成システムを示すブロック図である。

本明細書に記載の実施例において、一般的コンプレッサモデルは、可変閾値レイアウト（例えば、固定閾値、可変入力ゲイン設計に反して）と、２次のニーと、閾値、比率、アタックとリリース（「バリスティックス（ballistics）」)、及び、ニー幅の標準パラメータと、共に用いられてよい。

オフライン解析の実施例を記載する。この実施例においては、オーディオファイルのマルチトラックのセット(ステムとしても知られる)を、エンジン５０４は入手可能である。ステムは、フレーム毎に解析され、オーディオ特徴（ラウドネス、スペクトル中心、波高因子等)が抽出され、それぞれの値が特徴時系列として記憶される。次に、解析段階を実行して、個々のトラック内、及び、全てのトラックを通して、特徴値の変動をモニタして、それに従って、エンジン５０４を調整する。例えば、ラウドネスを選択した抽出特徴とすると、オフライン解析器は、全てのトラックが突然、著しくラウドネスが下がり、１つのトラック、例えば、エレキギターが、元のレベルのままであることに気付くことがある。全てのトラックが元のラウドネス状態に戻るまで、これが、ある期間（例えば、２０秒）維持される。これは、オフライン解析器によってソロ部分と解釈され、次の複数の方法でエンジン５０４に影響を与える。その方法とは、（ｉ）ギターがリードトラックとして選択され、ミックスの中心にパンされる、（ｉｉ）ギターのフェーダレベルを（例えば、３ｄＢ)ブーストする、（ｉｉｉ）このソロ部分の初めで、ギターフェーダのスムージング機能を迂回して、フェーダがジャンプするのを可能にし、ギターをミックス内ですぐに目立たせることができる。これらのパラメータの変化は、オフライン解析器によって時間に対するデータ点として記憶される。

特徴解析（交差適合特徴処理モジュール５５４）：抽出された特徴と、異なる信号の抽出された特徴間の関係とを解析し、１つまたは複数の処理制御規則５５８に従って、各トラックに必要な処理を決定する。

一実施形態において、生成データ解釈部７０２は、生成データからＡＳＰ制御パラメータプリセットを読み取り、ＡＳＰ制御パラメータプリセットを用いてＡＳＰ７０８に、対応するプリセットを設定する。上記ＳＡＭ実施例１を参照すると、例えば、ＡＳＰ４（マルチバンドコンプレッサ）は、その周波数バンドと、各圧縮バンドに対するニーの制御パラメータを送られる、ＡＳＰ５(リミッタ)は、アタックタイムとリリースタイムを送られる。

ＡＡＰＳ実施例１（図２２）
図２２は、３つのＡＳＰを含む自律型オーディオ生成システム６２４ａの一実施形態を示す。生成データ解釈部７０２は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部７０２は、ＡＳＰ構成フィールドを読み出し、この実施例においては、処理チェーンを次の３つのＡＳＰを含むように設定する。

Claims

自動オーディオ生成を行うコンピュータ実装方法であって、
処理すべきオーディオ信号を受信することと、
意味情報を受信することと、
前記受信した意味情報を用いて、少なくとも１つの意味ベースの規則であって、前記処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定することと、
前記生成データを用いて前記処理すべきオーディオ信号を処理することによって、生成されたオーディオ信号を取得することと、
前記生成されたオーディオ信号を出力することと、
を含むコンピュータ実装方法。
前記意味情報は、前記処理すべきオーディオ信号に関する、請求項１に記載の方法。
前記意味情報は、ユーザインタフェースから受信される、請求項２に記載の方法。
前記意味情報を前記受信したオーディオ信号から決定することをさらに含む、請求項２に記載の方法。
前記意味情報は、基準オーディオ信号に関し、
前記基準オーディオ信号を受信することと、
前記意味情報を前記基準オーディオ信号から抽出することと、
をさらに含む、請求項１に記載の方法。
前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも１つを含む、請求項１〜５のいずれかに記載の方法。
前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的特性と、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも１つを含む、請求項６に記載の方法。
生成データを含む前記意味ベースの規則を前記決定することは、
複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的特性、及び、各基準生成特徴を含む、前記複数の基準記録を含むデータベースにアクセスすることと、
前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の前記少なくとも１つに一致する少なくとも１つの基準記録を識別することと、
前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的特性と、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴との、前記少なくとも１つに、前記少なくとも１つの識別された基準記録を用いて値を割り当てることと、
を含む、請求項７に記載の方法。
前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的特性を決定することをさらに含む、請求項８に記載の方法。
前記オーディオ信号を前記処理することは、前記構成に従って、前記静的及び動的特性を用いて、前記所与のオーディオ処理アクションを前記オーディオ信号に対して行うことを含む、請求項９に記載の方法。
前記所与のオーディオ処理アクション間の前記生成特徴の値を決定することと、それに従って前記動的特性を修正することとをさらに含む、請求項１０に記載の方法。
前記処理すべきオーディオ信号を前記受信することと、前記生成されたオーディオ信号を前記出力することは、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項１〜１１のいずれかに記載の方法。
前記生成データは、前記処理すべきオーディオ信号の１つの領域のみに関して決定される、請求項１〜１２のいずれかに記載の方法。
ユーザ生成プリファレンスを受信することをさらに含み、前記オーディオ信号を前記処理することは、前記生成データと前記ユーザ生成プリファレンスを用いて行われる、請求項１〜１３のいずれかに記載の方法。
前記生成されたオーディオ信号のユーザからの評価と、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定することをさらに含む、請求項１４に記載の方法。
請求項１〜１５のいずれかの前記方法の前記ステップを行う処理ユニットが実行するステートメント及び命令を記録したコンピュータ可読媒体。
意味情報を受信し、前記受信した意味情報を用いて、少なくとも１つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定する意味解析モジュールと、
生成されたオーディオ信号を取得するために、前記処理すべきオーディオ信号を受信し、前記生成データを用いて前記処理すべきオーディオ信号を処理し、前記生成されたオーディオ信号を出力するオーディオ処理モジュールと、
を備える、自動オーディオ生成システム。
前記意味情報は、前記処理すべきオーディオ信号に関連する、請求項１７に記載の自動オーディオ生成システム。
前記意味解析モジュールは、ユーザインタフェースから前記意味情報を受信するように適合された、請求項１８に記載の自動オーディオ生成システム。
前記意味解析モジュールは、前記処理すべきオーディオ信号を受信し、前記処理すべきオーディオ信号から前記意味情報を決定するようにさらに適合された、請求項１８に記載の自動オーディオ生成システム。
前記意味情報は、基準オーディオ信号に関連し、前記意味解析モジュールは、
前記基準オーディオ信号を受信し、
前記基準オーディオ信号から前記意味情報を抽出するように、
さらに適合された、請求項１７に記載の自動オーディオ生成システム。
前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも１つを含む、請求項１７〜２１のいずれかに記載の自動オーディオ生成システム。
前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的制御パラメータと、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも１つを含む、請求項２２に記載の自動オーディオ生成システム。
複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的制御パラメータ、及び、各基準生成特徴を含む前記複数の基準記録を含む生成データベースをさらに含み、前記意味解析モジュールは、
前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の少なくとも１つに一致する少なくとも１つの基準記録を識別し、
前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的制御パラメータと、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴と、の前記少なくとも１つに、前記少なくとも１つの識別された基準記録を用いて、値を割り当てるように適合された、
請求項２３に記載の自動オーディオ生成システム。
前記オーディオ処理モジュールは、前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的制御パラメータを決定するように適合された、請求項２４に記載の自動オーディオ生成システム。
前記オーディオ処理モジュールは、複数のオーディオプロセッサを含み、前記構成に従って前記複数のオーディオプロセッサを組織し、前記複数のオーディオプロセッサを、前記静的及び動的制御パラメータに従って制御するように適合された、請求項２５に記載の自動オーディオ生成システム。
前記オーディオ処理モジュールは、前記オーディオプロセッサ間の前記生成特徴の値を決定し、それに従って前記動的パラメータを修正するようにさらに適合された、請求項２６に記載の自動オーディオ生成システム。
前記処理すべきオーディオ信号の入力と前記生成されたオーディオ信号の出力は、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項１７〜２７のいずれかに記載の自動オーディオ生成システム。
前記意味解析モジュールは、前記処理すべきオーディオ信号の１つの領域のみに関して前記生成データを決定するように適合された、請求項１７及び１８のいずれかに記載の自動オーディオ生成システム。
前記意味解析モジュールは、ユーザ生成プリファレンスを受信し、前記ユーザ生成プリファレンスを用いて前記生成データを決定するようにさらに適合された、請求項１〜１３のいずれかに記載の自動オーディオ生成システム。
前記生成されたオーディオ信号の評価をユーザから受信し、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定する生成評価モジュールをさらに、請求項３０に記載の自動オーディオ生成システム。