JP2010507927A6

JP2010507927A6 - リミキシング性能を持つ改善したオーディオ

Info

Publication number: JP2010507927A6
Application number: JP2009508223A
Authority: JP
Inventors: ファレ，クリストフ; オー．オー，ヒェン; ウォンジュン，ヤン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-05-04
Filing date: 2007-05-04
Publication date: 2010-06-10
Anticipated expiration: 2027-05-04

Abstract

【課題】リミキシング性能を持つ改善したオーディオを提供する。
【解決手段】リミックス性能を提供するために、ステレオまたはマルチチャネルオーディオ信号の１つ以上のオブジェクト（例えば、楽器）と関連した１つ以上の特性（例えば、パン、ゲインなど）を修正可能にする。

Description

本出願は、広くは、オーディオ信号処理に関するものである。

多くの民生用オーディオ装置（例えば、ステレオ、メディアプレーヤー、携帯電話、ゲームコンソールなど）は、イコライゼイション（ｅｑｕａｌｉｚａｔｉｏｎ）（例えば、ベース（ｂａｓｓ）、トレブル（ｔｒｅｂｌｅ））、ボリューム、音響室内効果（ａｃｏｕｓｔｉｃｒｏｏｍｅｆｆｅｃｔ）などにおける制御を用いてステレオオーディオ信号を修正することを許容する。しかし、これらの修正は、上記オーディオ信号を形成する個別のオーディオオブジェクト（例えば、楽器）ではなく全体のオーディオ信号に適用される。例えば、ユーザは、歌全体に影響を与えずに歌におけるギター、ドラムまたはボーカルのステレオパンニングまたはゲインを個別的に修正することができない。

なお、デコーディング部にミキシング柔軟性（ｍｉｘｉｎｇｆｌｅｘｉｂｉｌｉｔｙ）を提供する技術が提案されてきている。これら技術は、ミックスされたデコーディング部出力信号を生成するためにバイノーラルキューコーディング（ＢＣＣ；ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ）、パラメトリック（ｐａｒａｍｅｔｒｉｃ）または空間（ｓｐａｔｉａｌ）オーディオデコーディング部に依存する。しかし、これらの技術はいずれも、音質を損傷せずに逆互換（ｂａｃｋｗａｒｄｓｃｏｍｐａｔｉｂｉｌｉｔｙ）を許容するようにステレオミックス（例えば、専門的にミックスされた音楽）を直接的にエンコーディングしない。

チャネル間キュー（例えば、レベル差、時間差、位相差、コヒーレンス（ｃｏｈｅｒｅｎｃｅ））を用いてマルチチャネルオーディオチャネルまたはステレオを表現するために空間オーディオコーディング技術（Ｓｐａｔｉａｌａｕｄｉｏｃｏｄｉｎｇｔｅｃｈｎｉｑｕｅｓ）が提案されてきた。チャネル間キーは、マルチチャネル出力信号を生成する時に用いるためにデコーディング部に“付加情報”として伝達される。しかし、これらの一般的な空間オーディオコーディング技術は、幾つかの欠点を持つ。例えば、オーディオオブジェクトがデコーディング部で修正されないとしても、これらの技術の少なくとも一部は各オーディオオブジェクトに対してデコーディング部に伝達される個別信号を要求し、これは、エンコーディング部及びデコーディング部で余分な処理を招く。他の欠点は、エンコーディング部入力がステレオ（またはマルチチャネル）オーディオ信号またはオーディオソース信号のいずれかに制限されるということであり、これは、デコーディング部でのリミキシングにおける柔軟性を低下させる。結果的に、これらの一般的な技術の少なくとも一部は、これらの技術をいくつかのアプリケーションまたは装置に不適合にさせる、デコーディング部における複雑なデコリレーション（ｄｅ−ｃｏｒｒｅｌａｔｉｏｎ）処理を必要とする。

ステレオまたはマルチチャネルオーディオ信号の１つ以上のオブジェクト（例えば、楽器）と関連した１つ以上の特性（例えば、パン（ｐａｎ）、ゲインなど）がリミックス性能を提供するために修正されることができる。

一部の実施例において、方法は、オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップ；リミックスされるオブジェクトを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号との関係を表す少なくとも一部の付加情報を獲得するステップ；ミックスパラメータのセットを獲得するステップ；及び、前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップを含む。

一部の実施例において、方法は、オブジェクトのセットを持つオーディオ信号を獲得するステップ；前記オブジェクトのセットを表すソース信号のサブセットを獲得するステップ；及び、前記オーディオ信号と前記ソース信号のサブセットとの関係を表す前記付加情報の少なくとも一部を、前記ソース信号のサブセットから生成するステップを含む。

一部の実施例において、方法は、複数チャネルオーディオ信号を獲得するステップ；サウンドステージで前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップ；前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップ；及び、前記直接音方向及び所定のサウンド方向の関数として前記直接音方向における前記サブバンドパワーを修正することによって、ソース信号のセットでこれらソース信号の少なくとも一部におけるサブバンドパワーを推定するステップを含む。

一部の実施例において、方法は、ミキシングされたオーディオ信号を獲得するステップ；前記ミキシングされたオーディオ信号をリミキシングするためにミックスパラメータのセットを獲得するステップ；付加情報を利用できると、前記付加情報及びミックスパラメータのセットを用いて前記ミキシングされたオーディオ信号をリミキシングするステップ；付加情報を利用できないと、前記ミキシングされたオーディオ信号からブラインド（ｂｌｉｎｄ）パラメータのセットを生成するステップ；及び、前記ブラインドパラメータ及び前記ミックスパラメータのセットを用いてリミキシングされたオーディオ信号を生成するステップを含む。

一部の実施例において、方法は、スピーチ（ｓｐｅｅｃｈ）ソース信号を含むミキシングされたオーディオ信号を獲得するステップ；１つ以上の前記スピーチソース信号に所定の向上を指定するためのミックスパラメータを獲得するステップ；前記ミキシングされたオーディオ信号からブラインドパラメータのセットを獲得するステップ；前記ブラインドパラメータ及び前記ミックスパラメータからパラメータを生成するステップ；及び、前記ミックスパラメータによって前記１つ以上のスピーチソース信号をエンハンスするために前記ミキシングされた信号に前記パラメータを適用するステップを含む。

一部の実施例において、方法は、ミックスパラメータを指定した入力を受信するためのユーザインタフェースを生成するステップ；前記ユーザインタフェースを通じてミキシングパラメータを獲得するステップ；ソース信号を含む第１オーディオ信号を獲得するステップ；前記第１オーディオ信号と１つ以上のソース信号との関係を表す少なくとも一部の付加情報を獲得するステップ；及び、第２オーディオ信号を生成するために前記付加情報及び前記ミキシングパラメータを用いて前記１つ以上のソース信号をリミキシングするステップを含む。

一部の実施例において、方法は、オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップ；リミキシングされたオブジェクトのセットを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号との関係を表す付加情報の少なくとも一部を獲得するステップ；ミックスパラメータのセットを獲得するステップ；及び、前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップを含む。

一部の実施例において、方法は、ミキシングされたオーディオ信号を獲得するステップ；前記ミキシングされたオーディオ信号をリミキシングするためにミックスパラメータのセットを獲得するステップ；前記ミキシングパラメータのセット及び前記ミキシングされたオーディオ信号を用いてリミックスパラメータを生成するステップ；及び、ｎ×ｎマトリクスを用いて前記ミキシングされたオーディオ信号に前記リミックスパラメータを適用することによって、リミキシングされたオーディオ信号を生成するステップを含む。

システム、方法、装置、コンピュータで読取りできる記録媒体及びユーザインタフェースに関する実施例を含む他の実施例が、リミキシング性能を持つ改善したオーディオにおいて開示される。

本出願は、全体として本明細書に統合された２００６年５月４日に出願されたヨーロッパ特許出願第ＥＰ０６１１３５２１号の“ＥｎｈａｎｃｉｎｇＳｔｅｒｅｏＡｕｄｉｏＷｉｔｈＲｅｍｉｘＣａｐａｂｉｌｉｔｙ”から優先権の利益を請求する。

本出願は、全体として本明細書に統合された２００６年１０月１３日に出願された米国仮特許出願第６０／８２９，３５０号の“ＥｎｈａｎｃｉｎｇＳｔｅｒｅｏＡｕｄｉｏＷｉｔｈＲｅｍｉｘＣａｐａｂｉｌｉｔｙ”から優先権の利益を請求する。

本出願は、全体として本明細書に統合された２００７年１月１１日に出願された米国仮特許出願第６０／８８４，５９４号の“ＳｅｐａｒａｔｅＤｉａｌｏｇｕｅＶｏｌｕｍｅ”から優先権の利益を請求する。

本出願は、全体として本明細書に統合された２００７年１月１９日に出願された米国仮特許出願第６０／８８５，７４２号の“ＥｎｈａｎｃｉｎｇＳｔｅｒｅｏＡｕｄｉｏＷｉｔｈＲｅｍｉｘＣａｐａｂｉｌｉｔｙ”から優先権の利益を請求する。

本出願は、全体として本明細書に統合された２００７年２月６日に出願された米国仮特許出願第６０／８８８，４１３号の“Ｏｂｊｅｃｔ−ＢａｓｅｄＳｉｇｎａｌＲｅｐｒｏｄｕｃｔｉｏｎ”から優先権の利益を請求する。

本出願は、全体として本明細書に統合された２００７年３月９日に出願された米国仮特許出願第６０／８９４，１６２号の“ＢｉｔｓｔｒｅａｍａｎｄＳｉｄｅＩｎｆｏｒｍａｔｉｏｎＦｏｒＳＡＯＣ／Ｒｅｍｉｘ”から優先権の利益を請求する。

デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びＭ個のソース信号をエンコーディングするためのエンコーディングシステムの一実施例を示すブロック図である。デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びＭ個のソース信号をエンコーディングするためのプロセスの一実施例を示す流れ図である。ステレオ信号及びＭ個のソース信号を処理及び分析するための時間−周波数グラフである。原ステレオ信号及び付加情報を用いてリミックスされるステレオ信号を推定するためのリミキシングシステムの一実施例を示すブロック図である。図３Ａに示すリミックスシステムを用いてリミックスされるステレオ信号を推定するためのプロセスの一実施例を示す流れ図である。インデックスｂを持つパーティションに属したＳＴＦＴ（ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）係数のインデックスｉを示す図である。人間音声システムの一定でない周波数分解能を摸倣するために一定のＳＴＦＴスペクトラムのスペクトル係数のグルーピングを示す図である。通常のステレオオーディオエンコーディング部と結合された図１のエンコーディングシステムの一実施例を示すブロック図である。通常のステレオオーディオエンコーディング部と結合された図１Ａのエンコーディングシステムを用いたエンコーディングプロセスの一実施例を示す流れ図である。通常のステレオオーディオデコーディング部と結合された図３Ａのリミキシングシステムの一実施例を示すブロック図である。ステレオオーディオデコーディング部と結合された図７Ａのリミキシングシステムを用いたリミックスプロセスの一実施例を示す流れ図である。全体的にブラインド付加情報生成を実行するエンコーディングシステムの一実施例を示すブロック図である。図８Ａのエンコーディングシステムを用いたエンコーディングプロセスの一実施例を示す流れ図である。所定のソースレベル差Ｌ_i＝ＬｄＢにおけるゲイン関数ｆ（Ｍ）の例を示す図である。部分的なブラインド生成技術を用いた付加情報生成プロセスの一実施例を示す図である。リミキシング性能を持つオーディオ装置にステレオ信号及びＭ個のソース信号及び／または付加情報を提供するためのクライアント／サーバ構成（ａｒｃｈｉｔｅｃｔｕｒｅ）の一実施例を示すブロック図である。リミックス性能を持つメディアプレーヤーにおけるユーザインタフェースの一実施例を示す図である。ＳＡＯＣ（ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔ）デコーディング及びリミックスデコーディングを結合したデコーディングシステムの一実施例を示す図である。ＳＤＶ（ＳｅｐａｒａｔｅＤｉａｌｏｇｕｅＶｏｌｕｍｅ）における一般的なミキシングモデルを示す図である。ＳＤＶ及びリミックス技術を結合したシステムの一実施例を示す図である。図１４Ｂに示すｅｑ−ミックス（ｅｑ−ｍｉｘ）レンダリング部の一実施例を示す図である。図１〜図１５を参照して説明されたリミックス技術における分配システムの一実施例を示す図である。リミックス情報を提供するための様々なビットストリームの一実施例における成分を示す図である。図１７Ａに示すビットストリームを生成するためのリミックスエンコーディング部インタフェースの一実施例を示す図である。図１７Ｂに示すエンコーディング部インタフェースにより生成されたビットストリームを受信するためのリミックスデコーディング部インタフェースの一実施例を示す図である。所定のオブジェクト信号においてエンハンスされたリミックス性能を提供する追加的な付加情報を生成するための拡張（ｅｘｔｅｎｓｉｏｎ）を含むシステムの一実施例を示すブロック図である。図１８に示すリミックスレンダリング部の一実施例を示すブロック図である。

Ｉ．リミキシングステレオ信号

図１Ａは、デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びＭ個のソース信号をエンコーディングするためのエンコーディングシステム１００の一実施例を示すブロック図である。一部の実施例において、エンコーディングシステム１００は、たいてい、フィルタバンクアレイ１０２、付加情報生成器１０４及びエンコーディング部１０６を含む。

Ａ．原（Ｏｒｉｇｉｎａｌ）及び所定のリミックスされた信号

一部の実施例において、上記のエンコーディングシステム１００は、原ステレオオーディオ信号（以下、“ステレオ信号”ともいう。）を修正するための情報（以下、“付加情報”ともいう。）を提供または生成し、Ｍ個のソース信号は異なるゲインファクタでステレオ信号に“リミックス”される。該所定の修正されたステレオ信号は、式２で表現されることができる。

ここで、ｃ_i及びｄ_iは、Ｍ個のソース信号（すなわち、インデックス１，２，…，Ｍを持つソース信号）がリミックスされるための新しいゲインファクタ（以下、“ミキシングゲイン”または“ミキシングパラメータ”ともいう。）を表す。

該エンコーディングシステム１００の目的は、原ステレオ信号のみで与えられたステレオ信号と少ない付加情報（例えば、前記ステレオ信号波形内に含まれた情報と比較して小さい情報）とをリミキシングするための情報を提供したり生成することである。このエンコーディングシステム１００により提供されたり生成された付加情報は、上記の式１で与えられた上記の式２の所定の修正されたステレオ信号を知覚的に（ｐｅｒｃｅｐｔｕａｌｌｙ）摸倣するためにデコーディング部で用いられることができる。エンコーディングシステム１００で、付加情報生成器１０４は原ステレオ信号をリミキシングするための付加情報を生成し、デコーディングシステム３００（図３Ａ）は、付加情報及び原ステレオ信号を用いて所定のリミックスされたステレオオーディオ信号を生成する。

Ｂ．エンコーディング部プロセシング

再び図１Ａを参照すると、原ステレオ信号及びＭ個のソース信号は、フィルタバンクアレイ１０２内に入力として提供されることができる。原ステレオ信号は、エンコーディング部１０２から直接出力される。一部の実施例において、エンコーディング部１０２から直接出力されたステレオ信号は、付加情報ビットストリームと同期化（ｓｙｎｃｈｒｏｎｉｚｅ）するように遅延されることができる。他の実施例において、該ステレオ信号出力は、デコーディング部で付加情報と同期化することができる。一部の実施例において、エンコーディングシステム１００は、時間及び周波数の関数として信号統計学に適応させることができる。したがって、分析及び合成のために、図４及び図５に示すように、ステレオ信号及びＭ個のソース信号は、時間−周波数表現で処理されることができる。

図１Ｂは、デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びＭ個のソース信号をエンコーディングするためのプロセス１０８の一実施例を示す流れ図である。入力ステレオ信号及びＭ個のソース信号はサブバンドに分解される（１１０）。一部の実施例において、該分解はフィルタバンクアレイで行われる。各サブバンドにおいて、ゲインファクタは、より詳細に後述されるが、Ｍ個のソース信号に対して推定される（１１２）。各サブバンドにおいて、短期パワー推定値（ｓｈｏｒｔ−ｔｉｍｅｐｏｗｅｒｅｓｔｉｍａｔｅｓ）は、後述するように、Ｍ個のソース信号に対して計算される（１１４）。これら推定されたゲインファクタ及びサブバンドパワーは、付加情報を生成するために量子化及びエンコーディングされることができる（１１６）。

図２は、ステレオ信号及びＭ個のソース信号を分析及び処理するための時間−周波数グラフを示す。このグラフにおいて、ｙ軸は周波数を表し、複数の不定のサブバンド２０２に分けられる。ｘ軸は時間を表し、時間スロット２０４に分けられる。図２で、点線で表示されたボックスのそれぞれは、個別のサブバンド及び時間スロット対を表す。したがって、与えられた時間スロット２０４において、時間スロット２０４に対応する１つ以上のサブバンド２０２はグループ２０６として処理されることができる。一部の実施例において、図４及び図５を参照して説明されるように、サブバンド２０２の幅は、人間聴覚システムと関連した認知限界に基づいて選択される。

一部の実施例において、入力ステレオ信号及びＭ個の入力ソース信号は、フィルタバンクアレイ１０２により複数のサブバンド２０２に分解される。各中心周波数でこれらのサブバンド２０２は同様に処理されることができる。これらステレオオーディオ入力信号のサブバンド対は、特定の周波数で、ｘ₁(ｋ)及びｘ₂(ｋ)で表示され、ここで、ｋはサブバンド信号のダウンサンプリングされた時間インデックスである。同様に、Ｍ個の入力ソース信号における対応するサブバンド信号はｓ₁(ｋ)、ｓ₁(ｋ)，…，ｓ_M(ｋ)で表示される。表示の単純化のためにサブバンドにおけるインデックスをこの例では省くものとする。ダウンサンプリングについて、より低いサンプリングレートを持つサブバンド信号が効率のために用いられることができる。たいてい、フィルタバンク及びＳＴＦＴは效果的にサブサンプリングされた信号（またはスペクトル係数）を持つ。

一部の実施例において、インデックスｉを持つソース信号をリミキシングするのに必要な付加情報は、ゲインファクタａ_i及びｂ_i、及び各サブバンドにおける時間の関数としての該サブバンド信号のパワーの推定値Ｅ｛ｓ_i ²(ｋ)｝を含む。該ゲインファクタａ_i及びｂ_iは（該ステレオ信号の知識が知られると）与えられたり、推定されたりすることができる。多くのステレオ信号において、ａ_i及びｂ_iは固定的である。ａ_iまたはｂ_iが時間ｋの関数として変わるとしたら、これらゲインファクタは時間の関数として推定されることができる。付加情報を生成するためにサブバンドパワーの平均または推定を利用する必要がない。むしろ、一部の実施例において、実質的なサブバンドパワーｓ_i ²がパワー推定値として用いられることができる。

一部の実施例において、短期サブバンドパワー（ｓｈｏｒｔ−ｔｉｍｅｓｕｂｂａｎｄｐｏｗｅｒ）は単極平均（ｓｉｎｇｌｅ−ｐｏｌｅａｖｅｒａｇｉｎｇ）を用いて推定されることができ、ここで、Ｅ｛ｓ₁ ²(ｋ)｝は、下記の式３で計算できる。

ここで、α∈［０，１］は、指数的に減少する予測ウィンド（ｅｘｐｏｎｅｎｔｉａｌｌｙｄｅｃａｙｉｎｇｅｓｔｉｍａｔｉｏｎｗｉｎｄｏｗ）の時間定数である下記の式４を決定する。

ここで、ｆ_sは、サブバンドサンプリング周波数を表示する。Ｔの適切な値は、例えば４０ｍｓ（ｍｉｌｌｉｓｅｃｏｎｄ）である。続く式において、Ｅ｛．｝は一般的に単極平均を表す。

一部の実施例において、付加情報ａ_i、ｂ_iの一部または全部及びＥ｛ｓ_i ²(ｋ)｝は、ステレオ信号として同一メディアに提供されることができる。例えば、音楽出版社、録音スタジオ、録音アーティストなどは、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）、フラッシュドライブなどに対応するステレオ信号を持つ付加情報を提供することができる。一部の実施例において、ステレオ信号のビットストリームに当該付加情報を埋め込み（ｅｍｂｅｄｄｉｎｇ）したり、分解されたビットストリームで当該付加情報を転送することによって、該付加情報の一部または全部はネットワーク（例えば、インターネット、イーサネット（登録商標）、無線ネットワーク）を通じて提供されることができる。

同様に、ｂ_iは、下記の式６で計算されることができる。

ａ_i及びｂ_iが時間内に適応（ａｄａｐｔｉｖｅ）されると、Ｅ｛．｝オペレータは短期平均動作を表す。一方、ゲインファクタａ_i及びｂ_iが固定的であると、全体的にステレオオーディオ信号を考慮することによってこれらのゲインファクタが計算されることができる。一部の実施例において、ゲインファクタａ_i及びｂ_iは、各サブバンドにおいて独立的に推定されることができる。上記の式５及び式６で、ｓ_iはステレオチャネルｘ₁及びｘ₂に含まれるので、一般的にソース信号ｓ_i及びステレオチャネルｘ₁及びｘ₂ではなくソース信号ｓ_iが独立しているということに注目されたい。

一部の実施例において、付加情報（例えば、低いビットレートビットストリーム）を形成するように各サブバンドにおいて短期パワー推定及びゲインファクタは量子化され、エンコーディング部１０６によりエンコーディングされる。これらの値は、直接的に量子化されてコーディングされることはできないが、図４及び図５を参照して説明される通り、最初は量子化及びコーディングに一層適当な他の値に変換されることができる。一部の実施例において、図６及び図７を参照して説明する通り、通常のオーディオコーディング部がステレオオーディオ信号を效果的にコーディングするのに用いられる場合に、変化に対してエンコーディングシステム１００をロバスト（ｒｏｂｕｓｔ）にするために、Ｅ｛ｓ_i ²(ｋ)｝は、当該入力ステレオオーディオ信号のサブバンドパワーに対して正規化されることができる。

Ｃ．デコーディング部プロセシング（ＤｅｃｏｄｅｒＰｒｏｃｅｓｓｉｎｇ）

図３Ａは、原ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステム３００の一実施例を示すブロック図である。一部の実施例において、リミキシングシステム３００は、一般的にフィルタバンクアレイ３０２、デコーディング部３０４、リミックスモジュール３０６及び逆フィルタバンクアレイ３０８を含む。

リミックスされたステレオオーディオ信号の推定は、多くのサブバンドで独立して実行されることができる。付加情報は、Ｍ個のソース信号がステレオ信号に含まれるゲインファクタａ_i及びｂ_i、及びサブバンドパワーＥ｛ｓ_i ²(ｋ)｝を含む。該所定のリミックスされたステレオ信号のミキシングゲインまたは新しいゲインファクタは、ｃ_i及びｄ_iで表示される。これらのミキシングゲインｃ_i及びｄ_iは、図１２で説明される通り、オーディオ装置のユーザインタフェースを通じてユーザにより指定されることができる。

一部の実施例において、入力ステレオ信号は、特定の周波数におけるサブバンド対がｘ₁(ｋ)及びｘ₂(ｋ)で表示される、フィルタバンクアレイ３０２によりサブバンドに分解される。図３Ａに示すように、付加情報は、デコーディング部３０４によりデコーディングされ、リミックスされるＭ個のソース信号のそれぞれに関する入力ステレオ出力に含まれたゲインファクタａ_i及びｂ_i、及び各サブバンドに関するパワー推定値であるＥ｛ｓ_i ²(ｋ)｝を獲得する。付加情報のデコーディングは、図４及び図５でより詳細に説明される。

付加情報が与えられると、リミックスされたステレオオーディオ信号の対応するサブバンド対は、該リミックスされたステレオ信号のミキシングゲインであるｃ_i及びｄ_iの関数としてリミックスモジュール３０６により推定されることができる。逆フィルタバンクアレイ３０８は、リミックスされた時間ドメインステレオ信号を提供すべく、推定されたサブバンド対に適用される。

図３Ｂは、図３Ａのリミキシングシステムを用いてリミックスされたステレオ信号を推定するためのリミックスプロセス（３１０）の一実施例を示す流れ図である。入力ステレオ信号は、サブバンド対に分解される（３１２）。付加情報は、サブバンド対のためにデコーディングされる（３１４）。これらのサブバンド対は、付加情報及びミキシングゲインを用いてリミックスされる（３１８）。一部の実施例において、図１２で説明される通り、ミキシングゲインは、ユーザにより提供される。これらのミキシングゲインは、アプリケーション、オペレーティングシステムなどによりプログラムとして提供されても良い。これらのミキシングゲインは、図１１で説明される通り、ネットワーク（例えば、インターネット、イーサネット（登録商標）、無線ネットワーク）を通じても提供されることができる。

Ｄ．リミキシングプロセス（ＴｈｅＲｅｍｉｘｉｎｇＰｒｏｃｅｓｓ）

一部の実施例において、リミックスされたステレオ信号は、最小二乗推定（ｌｅａｓｔｓｑｕａｒｅｓｅｓｔｉｍａｔｉｏｎ）を用いて数学的なセンスで近似されることができる。選択的に、この推定を修正するために知覚的な考察が用いられることができる。

式１及び２はそれぞれ、サブバンド対であるｘ₁(ｋ)及びｘ₂(ｋ)、そしてｙ₁(ｋ)及びｙ₂(ｋ)のためにも用意される。この場合に、ソース信号は、ソースサブバンド信号であるｓ_i(ｋ)に取り替えられる。

ステレオ信号のサブバンド対は、下記の式７で与えられる。

そして、リミックスされたステレオオーディオ信号のサブバンド対は、下記の式８で与えられる。

原ステレオ信号のサブバンド対であるｘ₁(ｋ)及びｘ₂(ｋ)が与えられると、該左側及び右側の源ステレオサブバンド対の線形組合せとして、相異なるゲインを持つステレオ信号のサブバンド対が推定されることができる。

ここで、ｗ₁₁(ｋ)、ｗ₁₂(ｋ)、ｗ₂₁(ｋ)及びｗ₂₂(ｋ)は、実数重みファクタである。
推定エラーは、下記の式１０で定義される。

平均二乗誤差（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）であるＥ｛ｅ₁ ²(ｋ)｝とＥ｛ｅ₂ ²(ｋ)｝が最小となるように、各周波数におけるサブバンドにおいて、各時間ｋで重み値ｗ₁₁(ｋ)、ｗ₁₂(ｋ)、ｗ₂₁(ｋ)及びｗ₂₂(ｋ)が計算されることができる。ｗ₁₁(ｋ)及びｗ₁₂(ｋ)を計算すべく、エラーｅ₁(ｋ)がｘ₁(ｋ)及びｘ₂(ｋ)と直交する場合、すなわち、下記の式１１が成立する場合に、Ｅ｛ｅ₁ ²(ｋ)｝が最小になるということに注目しなければならない。

表示の便宜のために時間インデックスｋは省略されたということに注目する。

書き直したこれらの式は、下記の式１２を生成する。

上記のゲインファクタは、下記の式１３の線形方程式の解である。

Ｅ｛ｘ¹ ₂｝、Ｅ｛ｘ² ₂｝及びＥ｛ｘ₁ｘ₂｝が、デコーディング部入力ステレオ信号サブバンド対が与えられると直接推定されることができるが、Ｅ｛ｘ₁ｙ₁｝及びＥ｛ｘ₂ｙ₂｝は、所定のリミックスされたステレオ信号のミキシングゲインであるｃ_i及びｄ_i、及び付加情報Ｅ｛ｓ¹ ₂｝，ａ_i，ｂ_iを用いて推定されることができる。

同様に、ｗ₂₁及びｗ₂₂は計算されることができ、結果的に下記の式１６を持つ下記の式１５となる。

左側及び右側サブバンド信号がコヒーレント（ｃｏｈｅｒｅｎｔ）されたり、殆どコヒーレントされる場合、すなわち、下記の式１７でΦが１に近づくと、重み値の解は唯一でないか不良状態（ｉｌｌ−ｃｏｎｄｉｔｉｏｎｅｄ）となる。

したがって、Φが特定の臨界値（例えば、０．９５）よりも大きいと、重み値は、例えば下記の式１８のように計算されることができる。

Φ＝１という仮定の下に、式１８は、上記異なる二つの重み値における同一直交方程式システム及び上記の式１２を満たす唯一でない解のうちの１つである。上記の式１７内のコヒーレンス（ｃｏｈｅｒｅｎｃｅ）は、ｘ₁及びｘ₂が互いにどれくらい同一かを判断するのに用いられる。該コヒーレンスが０であると、ｘ₁及びｘ₂は独立している。コヒーレンスが１であると、ｘ₁及びｘ₂は類似している（ただし、異なるレベルを有しても良い）。ｘ₁及びｘ₂が非常に類似している（コヒーレンスが１に近似する）と、該二つのチャネルウィナー計算（Ｗｉｅｎｅｒｃｏｍｐｕｔａｔｉｏｎ）（４個の重み値計算）は不良状態である。上記臨界値の例示範囲は、約０．４〜約１．０である。

計算されたサブバンド信号を時間ドメインに変換することによって獲得された最終リミックスされたステレオ信号は、相異なるリミキシングゲインｃ_i及びｄ_iで精密にリミックスされたようなステレオ信号（以下では“所定の信号（ｄｅｓｉｒｅｄｓｉｇｎａｌ）”という。）と類似に聞こえる。一方、数学的に、これは、計算されたサブバンド信号が、精密に異なってミックスされたサブバンド信号と類似することを要求する。これは、特定の度合までの場合である。上記推定は、認知的に動機づけられたサブバンドドメインで実行されるから、類似の必要性は相対的に弱い。上記認知的に関連したローカリゼーションキュー（ｌｏｃａｌｉｚａｔｉｏｎｃｕｅ）（例えば、レベル差及びコヒーレンスキュー）が十分に類似している限り、計算されたリミックスされたステレオ信号は所定の信号と略同様に聞こえるはずである。

Ｅ．選択的：レベル差キューの調節

一部の実施例において、本明細書に説明されたプロセシングが用いられると、良い結果を得ることができる。それにも拘わらず、当該重要なレベル差ローカリゼーションキーが所定の信号のレベル差キューに非常に近接するのを保障する目的で、サブバンドのポスト−スケーリング（ｐｏｓｔ−ｓｃａｌｉｎｇ）が、重要なレベル差ローカリゼーションキューが所定の信号のレベル差キューと一致するのを保障するように該レベル差キューを“調節”するのに適用されることができる。

上記の式９における最小二乗サブバンド信号推定値の修正のために、サブバンドパワーが考慮される。サブバンドパワーが正確であると、重要な空間キューレベル差も正確になるわけである。上記の式８の所定の信号の左側サブバンドパワーは下記の式１９で表され、上記の式９からの推定値のサブバンドパワーは下記の式２０で表される。

II．付加情報の量子化及びコーディング

Ａ．エンコーディング
以前セクションで説明された通り、インデックスｉを持つソース信号をリミキシングする上で必要な付加情報は、ファクタａ_i及びｂ_i、及び各サブバンドにおいて時間の関数としてのパワーＥ｛ｓ₁ ²(ｋ)｝である。一部の実施例において、これらゲインファクタａ_i及びｂ_iにおける対応するゲイン及びレベル差は、下記の式２３のようにｄＢで計算されることができる。

一部の実施例において、上記ゲイン及びレベル差値は量子化され、ハフマンコーディングされる。例えば、２ｄＢ量子化器ステップサイズを持つ同一量子化器（ｕｎｉｆｏｒｍｑｕａｎｔｉｚｅｒ）及び１次元ハフマンコーディング部が、量子化及びコーディングのためにそれぞれ用いられることができる。他の知られた量子化器及びコーディング部が用いられても良い（例えば、ベクトル量子化器）。

ａ_i及びｂ_iが時間不変（ｔｉｍｅｉｎｖａｒｉａｎｔ）であり、付加情報が確実にデコーディング部に到達するとすれば、対応するコーディングされた値はただ一度転送される必要がある。そうでないと、ａ_i及びｂ_iは規則的な時間間隔でまたはトリガーイベント（例えば、コーディングされた値が変わる毎に）に応じて転送されることができる。

ステレオ信号のコーディングによるパワー損失／ゲイン及びステレオ信号のスケーリングに強くなるべく、一部の実施例で、サブバンドパワーＥ｛ｓ_i ²(ｋ)｝は付加情報として直接コーディングされない。むしろ、ステレオ信号に比例して定義された値が用いられることができる。

複数の信号においてＥ｛．｝を計算するためには、同一の推定ウィンド／時間定数を用いることが有利である。上記の式２４の相対的なパワー値として付加情報を定義することは、必要に応じて、エンコーディング部よりもデコーディング部で相異なる推定ウィンド／時間定数が用いられることができるという点でメリットがある。また、付加情報及びステレオ信号間の時間ずれ（ｔｉｍｅｍｉｓａｌｉｇｎｍｅｎｔ）の効果は、ソースパワーが絶対値として転送されうる場合と比べて減少する。Ａ_i(ｋ)を量子化及びコーディングするために、一部の実施例において、例えば２ｄＢのステップサイズ及び一次元ハフマンコーディング部を持つ同一量子化器が用いられる。最終的なビットレートは、リミックスされたオーディオオブジェクトにつき約３ｋｂ／ｓ（秒当たりキロビット）だけ少なくなることができる。

一部の実施例において、デコーディング部でリミックスされるオブジェクトに対応する入力ソース信号が無音（ｓｉｌｅｎｔ）である場合、ビットレートは減少することができる。エンコーディング部のコーディングモードは無音オブジェクトを感知し、当該オブジェクトが無音か否かを表す情報（例えば、フレーム当たり単一ビット）をデコーディング部に転送できる。

Ｂ．デコーディング

上記式２３及び式２４のハフマンデコーディングされた（量子化された）値が与えられると、リミキシングのために必要な値は下記の式２５で計算されることができる。

III ．実施例の詳細

Ａ．時間−周波数プロセシング

一部の実施例において、ＳＴＦＴ（ｓｈｏｒｔ−ｔｅｒｍＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）基盤プロセシングが、図１〜図３を参照して説明されたエンコーディング／デコーディングシステムにおいて用いられる。ＱＭＦ（ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒ）フィルタバンク、ＭＤＣＴ（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）ウェーブレットフィルタバンク（ｗａｖｅｌｅｔｆｉｌｔｅｒｂａｎｋ）などを含むが、これらに限定されず、他の時間−周波数変換が所定の結果を達成するために用いられることができる。

分析プロセシング（例えば、フォワードフィルタバンク動作）のために、一部の実施例において、Ｎ個のポイントＤＦＴ（ｐｏｉｎｔｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）または高速フーリエ変換（ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）が適用される前に、Ｎ個のサンプルのフレームがウィンドと乗算されることができる。一部の実施例において、下記の式２６のサインウィンド（ｓｉｎｅｗｉｎｄｏｗ）が用いられることができる。

該プロセシングブロックサイズがＤＦＴ／ＦＦＴサイズと異なると、一部の実施例において、ゼロパッディング（ｚｅｒｏｐａｄｄｉｎｇ）がＮ個よりも少ないウィンドを持つように效果的に用いられることができる。上記の分析プロセシングは、例えば、５０％ウィンドオーバーラップを引き起こすＮ／２サンプル（ウィンドホップサイズ（ｗｉｎｄｏｗｈｏｐｓｉｚｅ）と等しい）ごとに反復されることができる。他のウィンド関数及び百分率オーバーラップが所定の結果を達成するために用いられることができる。

ＳＴＦＴスペクトルドメインを時間ドメインに変換するために、逆ＤＦＴまたはＦＦＴが当該スペクトルに適用されることができる。この最終信号は、上記の式２６に説明されたウィンドと再び乗算され、このウィンドとの乗算より生成された隣接信号ブロックは、連続した時間ドメイン信号を獲得するよう、加えられたオーバーラップと結合される。

一部の場合において、ＳＴＦＴの同一スペクトル分解能は、人間の認知に良く合わない場合もありうる。その場合、個別的に各ＳＴＦＴ周波数係数を処理するのとは反対に、１つのグループが空間オーディオプロセシングのための適切な周波数分解であるＥＲＢ（ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ）の約２倍の帯域幅を持つようにそれらＳＴＦＴ係数が“グルーピング”されることができる。

図４には、インデックスｂを持つパーティションに属したＳＴＦＴのインデックスｉを示す。一部の実施例において、スペクトラムの第１のＮ／２＋１スペクトル係数のみが考慮される。インデックスｂ（１≦ｂ≦Ｂ）を持つ当該パーティションに属しているＳＴＦＴ係数のインデックスであるｉは、図４に示すように、Ａ₀＝０であるｉ∈｛Ａ_b-1，Ａ_b-1+1，…，Ａ_b｝を満たす。これらパーティションのスペクトル係数により表現される信号は、エンコーディングシステムにより用いられる認知的に動機づけられたサブバンド分解と一致する。したがって、それぞれのこのようなパーティション内に、上述したプロセシングが該パーティション内のＳＴＦＴ係数に合同で適用される。

図５には、人間音声システムの不均一（ｎｏｎ−ｕｎｉｆｏｒｍ）周波数分解を摸倣するための同一ＳＴＦＴスペクトラムのスペクトル係数のグルーピングを例示する。図５で、約２ＥＲＢの帯域幅を持つ各パーティションは、４４．１ｋＨｚのサンプリングレートにおいてＮ＝１０２４、及びパーティションの数Ｂ＝２０を有する。ナイキスト周波数でのカットオフにより最後のパーティションは二つのＥＲＢよりも小さいということに注目する。

Ｂ．統計的データの推定（ＥｓｔｉｍａｔｉｏｎｏｆＳｔａｔｉｓｔｉｃａｌＤａｔａ）

二つのＳＴＦＴ係数ｘ_i(ｋ)及びｘ_j(ｋ)が与えられると、リミックスされたステレオオーディオ信号を計算するのに必要な値Ｅ｛ｘ_i(ｋ)ｘ_j(ｋ)｝が反復して推定されることができる。この場合に、サブバンドサンプリング周波数ｆ_sは、ＳＴＦＴスペクトラムが計算される時間周波数（ｔｅｍｐｏｒａｌｆｒｅｑｕｅｎｃｙ）である。各認知的パーティションのための（各ＳＴＦＴ係数のためのものではなく）推定値を得るべく、これら推定された値はさらに用いられる前に当該パーティション内に配置されることができる。

上のセクションで説明されたプロセシングは、それが１つのサブバンドであるかのように各パーティションに適用されることができる。周波数間の突然なプロセシング変化を避ける目的で、パーティション同士間のスムージング（ｓｍｏｏｔｈｉｎｇ）が、例えばスペクトラムウィンドをオーバーラッピングすることを用いて達成でき、よって、雑音（ａｒｔｉｆａｃｔ）を減らすことができる。

Ｃ．通常のオーディオコーディング部との組合せ

図６Ａは、通常のステレオオーディオエンコーディング部と結合された図１Ａのエンコーディングシステム１００の一実施例を示すブロック図である。一部の実施例において、結合されたエンコーディングシステム６００は、通常のオーディオエンコーディング部６０２、提案されたエンコーディング部６０４（例えば、エンコーディングシステム１００）、及びビットストリームコンバイナ６０６を含む。この実施例において、ステレオオーディオ入力信号は、図１〜図５を参照して説明された通り、通常のオーディオエンコーディング部６０２（例えば、ＭＰ３、ＡＡＣ、ＭＰＥＧサラウンド等）によりエンコーディングされ、付加情報を提供するための提案されたエンコーディング部６０４により分析される。逆方向互換可能なビットストリームを提供すべく、これら両方の結果ビットストリームはビットストリームコンバイナ６０６により結合される。一部の実施例において、結果ビットストリームを結合することは、低いビットレート付加情報（例えば、ゲインファクタａ_i、ｂ_i及びサブバンドパワーＥ｛ｓ_i ²(ｋ)｝）を、逆方向互換可能なビットストリーム中に埋め込む（ｅｍｂｅｄｄｉｎｇ）ことを含む。

図６Ｂは、通常のステレオオーディオエンコーディング部と結合された図１Ａのエンコーディングシステム１００を用いたエンコーディングプロセス（６０８）の一実施例を示す流れ図である。入力ステレオ信号は、通常のステレオオーディオエンコーディング部でエンコーディングされる（６１０）。付加情報は、図１Ａのエンコーディングシステム１００で、ステレオ信号及びＭ個のソース信号より生成される（６１２）。該エンコーディングされたステレオ信号及び付加情報を含む１つ以上の逆方向互換可能なビットストリームが生成される（６１４）。

図７Ａは、通常のステレオオーディオデコーディング部と図３Ａのリミキシングシステム３００が結合され、結合システム７００を提供する一実施例を示すブロック図である。一部の実施例において、結合されたシステム７００は、一般的にビットストリームパーサー（ｐａｒｓｅｒ）、通常のオーディオデコーディング部７０４（例えば、ＭＰ３、ＡＡＣ）、及び提案されたデコーディング部（７０６）を含む。一部の実施例では、提案されたデコーディング部７０６は、図３Ａのリミキシングシステム３００とする。

この実施例で、ビットストリームは、リミキシング性能を提供するように、提案されたデコーディング部７０６により要求される付加情報を含むビットストリームとステレオオーディオビットストリームとに分解される。該ステレオ信号は、通常のオーディオデコーディング部７０４によりデコーディングされたのち、ビットストリーム及びユーザ入力（例えば、ミキシングゲインｃ_i及びｄ_i）から獲得された付加情報の関数としてステレオ信号を修正する提案されたデコーディング部７０６に提供される。

図７Ｂは、図７Ａの結合されたシステム７００を用いたリミックスプロセス（７０８）の一実施例を示すブロック図である。エンコーディング部から受信したビットストリームは、エンコーディングされたステレオ信号ビットストリーム及び付加情報として提供されるように分析される（７１０）。該エンコーディングされたステレオ信号は、通常のオーディオデコーディング部７１２でデコーディングされる。デコーディング部の例には、ＭＰ３、ＡＡＣ（ＡＡＣの数多くの標準化したプロファイルを含む）、パラメトリックステレオ、ＳＢＲ（ｓｐｅｃｔｒａｌｂａｎｄｒｅｐｌｉｃａｔｉｏｎ）、ＭＰＥＧサラウンドまたはこれらの組合せが含まれる。該デコーディングされたステレオ信号は、付加情報及びユーザ入力（例えば、ｃ_i及びｄ_i）によってリミックスされる。

IV．マルチチャネルオーディオ信号のリミキシング

一部の実施例において、上のセクションで説明されたエンコーディング及びリミキシングシステム１００，３００は、リミキシングマルチチャネルオーディオ信号（例えば、５．１サラウンド信号）まで拡張されることができる。ここで、ステレオ信号及びマルチチャネル信号は“複数チャネル（ｐｌｕｒａｌ−ｃｈａｎｎｅｌ）”信号とも言及される。この分野における通常の知識を持つ者には、マルチチャネルエンコーディング／デコーディングスキーム（ｓｃｈｅｍｅ）において、すなわち、Ｃがリミックスされた信号のオーディオチャネルの数である二つ以上の信号ｘ₁(ｋ)、ｘ₂(ｋ)、ｘ₃(ｋ)、…、ｘ_c(ｋ)において、上記の式７〜式２２を書き直す（ｒｅｗｒｉｔｅ）方法がわかる。

マルチチャネルの場合において、上記の式９は下記の式２７となる。

Ｃ個の式を持つ上記の式１１に類似する式が導き出されることができ、前述したように、重み値を決定するために解かれることができる。

一部の実施例において、特定チャネルは処理されずに残っていることができる。例えば、５．１サラウンドにおいて、二つの後方チャネルは処理されずに残っていることができ、リミキシングは前方左側、右側、中心チャネルにのみ適用される。この場合に、三つのチャネルリミキシングアルゴリズムはこれら前方チャネルに適用されることができる。

前述したリミキシングスキームより生成されるオーディオ品質は、行われた修正の特性による。相対的に弱い修正、例えば、０ｄＢ〜１５ｄＢのパンニング変化または１０ｄＢのゲイン修正において、結果オーディオ品質は通常の技術により達成されるものよりも良好になりうる。また、所望のリミキシングを達成するのに不可欠なものとしてステレオ信号が修正されるので、該提案された前述のリミキシングスキームの品質は、通常のリミキシングスキームのそれに比べて一層高くなることができる。

本明細書に開示されたリミキシングスキームは、通常の技術を越えて数個の利点を提供する。まず、与えられたステレオまたはマルチチャネルオーディオ信号内の全体オブジェクトの数よりも少ないリミキシングを許容する。これは、与えられたステレオオーディオ信号とＭ個のオブジェクトを表すＭ個のソース信号の関数として付加情報を推定することによって達成でき、デコーディング部におけるリミキシングを可能にする。該開示されたリミキシングシステムは、実に相異なってミックスされたステレオ信号と認知的に類似するステレオ信号を生成すべく、ユーザ入力（所望のリミキシング）の関数として及び付加情報の関数として当該与えられたステレオ信号を処理する。

Ｖ．基本的なリミキシングスキームまでの拡張

Ａ．付加情報プリプロセシング
サブバンドが隣り合うサブバンドに対して非常に弱まる場合、オーディオ雑音が発生することができる。したがって、最大の弱化（ａｔｔｅｎｕａｔｉｏｎ）を制限することが好ましい。さらに、ステレオ信号及びオブジェクトソース信号統計は、エンコーディング部及びデコーディング部でそれぞれ独立して測定され、該測定されたステレオ信号サブバンドパワーとオブジェクト信号サブバンドパワー間の比（付加情報によって表される）は、実際から外れることができる。このため、付加情報は、物理的に不可能になりうる。すなわち、例えば、付加情報は、上記の式１９のリミックスされた信号の信号パワーが負数となることができる。上述した問題はいずれも以下に説明されることができる。

左側及び右側のリミックスされた信号のサブバンドパワーは、下記の式２８で表される。

ここで、Ｐ_siは、付加情報の関数として計算された、上記の式２５で与えられた量子化され且つコーディングされたサブバンドパワー推定値と同一である。リミックスされた信号のサブバンドパワーが、原ステレオ信号のサブバンドパワーであるＥ｛ｘ₁ ²｝以下のＬｄＢより絶対に小さくならないように、リミックスされた信号のサブバンドパワーは制限されることができる。同様に、Ｅ｛ｙ₂ ²｝は、Ｅ｛ｘ₂ ²｝以下のＬｄＢより小さくならないように制限される。この結果は下記の動作によって達成されることができる。

１．上記の式２８によって左側及び右側のリミックスされた信号サブバンドパワーを計算。

２．Ｅ｛ｙ₁ ²｝＜ＱＥ｛ｘ₁ ²｝の場合、Ｅ｛ｙ₁ ²｝＝ＱＥ｛ｘ₁ ²｝が維持されるように付加情報計算された値Ｐ_siを調節。Ｅ｛ｘ₁ ²｝のパワー以下のＡｄＢより絶対に小さくならないようにＥ｛ｙ₁ ²｝のパワーを制限すべく、ＱはＱ＝１０^-A/10に設定されることができる。次いで、Ｐ_siは下記の式２９と乗算することによって調節されることができる。

３．Ｅ｛ｙ₂ ²｝＜ＱＥ｛ｘ₂ ²｝の場合、Ｅ｛ｙ₂ ²｝＝ＱＥ｛ｘ₂ ²｝が維持されるように、付加情報計算された値Ｐｓｉを調節。これは、下記の式３０とＰ_siを乗算することで達成されることができる。

Ｂ．４個または２個の重み値のいずれを用いるかを決定

多くの場合において、上記の式１８の二つの重み値が、上記の式９の左側及び右側のリミックスされた信号サブバンドを計算するのに適合している。一部の場合において、より良い結果は、上記の式１３〜式１５の４個の重み値を利用することによって達成できる。二つの重み値を利用することは、左側出力信号を生成する上で左側原信号のみが用いられるということを意味し、右側出力信号においても同様である。したがって、４個の重み値が望ましいシナリオは、一方のオブジェクトが反対の方に置かれるようにリミックスされる場合である。この場合に、一方（例えば、左側チャネル）にのみ最初から位置する信号は、リミキシング後にたいてい他方（例えば、右側チャネル）に位置するはずなので、４個の重み値を利用することが有利と期待される。したがって、４個の重み値は、原左側チャネルからリミックスされた右側チャネルへとまたはその逆の方向へと信号の流れを許容するのに用いられることができる。

４個の重み値計算の最小二乗問題が深刻な場合、これら重み値の大きさは大きくなることができる。同様に、詳述した一方から他方へのリミキシングが用いられる場合、２個の重み値のみが用いられると重み値の大きさは大きくなることができる。この観察結果が動機となり、一部の実施例においては、次の基準が、４個の重み値を用いるか２個の重み値を用いるかを決定するのに用いられることができる。

Ａ＜Ｂの場合、４個の重み値が用いられ、その他の場合は２個の重み値を利用する。Ａ及びＢは４個及び２個の重み値においてそれぞれの重み値の大きさの測定値である。一部の実施例において、Ａ及びＢは次のように計算される。Ａを計算するに当たり、まず、上記の式１３〜式１５によって４個の重み値を計算し、Ａ＝ｗ₁₁ ²＋ｗ₁₂ ²＋ｗ₂₁ ²＋ｗ₂₂ ²に設定する。Ｂを計算するに当たり、上記の式１８によって重み値を計算し、Ｂ＝ｗ１１²＋ｗ２２²が計算される。

Ｃ．必要時に弱化度を向上（ＩｍｐｒｏｖｉｎｇＤｅｇｒｅｅｏｆＡｔｔｅｎｕａｔｉｏｎＷｈｅｎＤｅｓｉｒｅｄ）

Ｄ．重み値スムージングによりオーディオ品質を向上（ＩｍｐｒｏｖｉｎｇＡｕｄｉｏＱｕａｌｉｔｙＢｙＷｅｉｇｈｔＳｍｏｏｔｈｉｎｇ）
特に、オーディオ信号が音調（ｔｏｎａｌ）または定常的（ｓｔａｔｉｏｎａｒｙ）である場合、開示されたリミキシングスキームは、所定の信号に雑音を誘導できるということが観察された。オーディオ音質を向上させるために、各サブバンドで定常性（ｓｔａｔｉｏｎａｒｉｔｙ）／音調性（ｔｏｎａｌｉｔｙ）測定値が計算されることができる。この定常性／音調性測定値が特定の臨界値ＴＯＮ₀を超過すると、推定重み値は時間を超過してスムージングされる。このスムージング動作は後述される。各サブバンドに対して、各時間インデックスｋにおいて、出力サブバンドを計算するのに適用される重み値は、下記のようにして獲得される。

その他の場合では、

Ｅ．アンビエンス（Ａｍｂｉｅｎｃｅ）／リバーブ（Ｒｅｖｅｒｂ）制御

本明細書に説明されたリミックス技術は、ミキシングゲインｃ_i及びｄ_iに関してユーザ制御を提供する。これは、各オブジェクトにおいてゲインＧ_i及び振幅パンニングＬ_i（方向）を決定することに対応し、ここで、ゲイン及びパンニングはいずれもｃ_i及びｄ_iにより決定される。

一部の実施例において、ソース信号のゲイン及び振幅パンニングではなくステレオミックスの他の特徴を制御することが望ましい。下記の説明で、ステレオオーディオ信号のアンビエンスの度合を修正するための技術が説明される。このデコーディング部タスクに付加情報は用いられない。

一部の実施例において、数学式４４に与えられた信号モデルは、ステレオ信号のアンビエンスの度合を修正するのに用いられることができ、ここで、ｎ₁及びｎ₂のサブバンドパワーは同一であるとする。すなわち、下記の式３４となる。

再び、ｓ、ｎ₁及びｎ₂が相互独立したものと仮定されることができる。これらの仮定が与えられると、上記の式１７のコヒーレンスは、下記の式３５のように書かれることができる。

これは、変数Ｐ_N(ｋ)を持つ２次方程式に対応する。

この二次方程式の解は、下記の式３７である。

Ｐ_N(ｋ)は、Ｅ｛ｘ₁ ²(ｋ)｝＋Ｅ｛ｘ₂ ²(ｋ)｝より小さいか等しくならなければならないので、物理的に可能な限り平方根の前に負数符号を持つ下記の式３８となる。

Ｆ．相異なる付加情報（ＤｉｆｆｅｒｅｎｔＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ）

一部の実施例において、修正されたまたは相異なる付加情報がビットレートにおいてより効果的な上記のリミキシングスキームに使われる。例えば、上記の式２４で、Ａ_i(ｋ)は任意値を持つことができる。また、原ソース信号ｓ_i(ｎ)のレベルに依存する。したがって、所定の範囲で付加情報を獲得するためにソース入力信号のレベルは調節される必要がある。この調節を避けるために、かつ、原ソース信号レベルに対する付加情報の依存を除去するために、一部の実施例において、ソースサブバンドパワーは上記の式２４でのようにステレオ信号サブバンドパワーに対して正規化されることができるだけでなく、ミキシングゲインが考慮されることができる。

これは、ステレオ信号で正規化されたステレオ信号内に含まれたソースパワー（直接的にソースパワーではない）を付加情報として用いることに対応する。または、下記のような正規化を用いることができる。

Ａ_i(ｋ)は、０ｄＢより小さいか等しい値を持つことができるので、この付加情報はより効果的である。上記の式３９及び式４０でサブバンドパワーＥ｛ｓ_i ²(ｋ)｝が得られるということに注目する。

Ｇ．ステレオソース信号／オブジェクト（ＳｔｅｒｅｏＳｏｕｒｃｅＳｉｇｎａｌｓ／Ｏｂｊｅｃｔｓ）

本明細書に説明された上記リミックススキームは、ステレオソース信号を扱いやすくするように拡張されることができる。付加情報の観点で、ステレオ信号は、２個のモノソース信号のように取り扱われる。その１つは左側でミキシングされ、残り１つは、右側でのみミキシングされる。すなわち、左側ソース信号ｉはノンゼロ（ｎｏｎ−ｚｅｒｏ）左側ゲインファクタａ_i及びゼロゲインファクタｂ_i+1を持つ。ゲインファクタａ_i及びｂ₁は、上記の式６で推定されることができる。ステレオソースがまるで二つのモノソースであるかのように付加情報が転送されることができる。各ソースがモノソースかステレオソースかをデコーディング部に表すために一部情報がデコーディング部に転送される必要がある。

デコーディング部プロセシング及びＧＵＩ（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）を考慮すると、１つの可能性は、モノソース信号のように同一にステレオソース信号をデコーディング部に配置することである。すなわち、ステレオソース信号はモノソース信号と類似するゲイン及びパンニング制御を持つ。一部の実施例において、リミックスされないステレオ信号のＧＵＩのゲイン及びパンニング制御とゲインファクタ間の関係は、下記の式４１で選択されることができる。

すなわち、これらの値にＧＵＩが初期に設定されることができる。ユーザにより選択されたＧＡＩＮ及びＰＡＮ間の関係及び新しいゲインファクタが下記の式４２で選択されることができる。

上記の式４２は、リミキシングゲイン（ｃ_i+1＝０及びｄ_i＝０を持つ）として用いられうるｃ_i及びｄ_i+1の解を求めることができる。上述した機能は、ステレオ増幅器における“バランス”制御に似ている。該ソース信号の左側及び右側チャネルのゲインは、クロストーク（ｃｒｏｓｓ−ｔａｌｋ）を取り込むことなく修正される。

VI．付加情報のブラインド生成

Ａ．付加情報の全体的なブラインド生成

上述したリミキシングスキームにおいて、エンコーディング部は、デコーディング部でリミックスされるオブジェクトを表す多くのソース信号及びステレオ信号を受信する。該デコーディング部でインデックスｉを持つソースシングルをリミキシングするのに必要な付加情報は、ゲインファクタａ_i及びｂ_i、そしてサブバンドパワーＥ｛ｓ_i ²(ｋ)｝より決定される。ソース信号が与えられる場合における付加情報の決定は、上のセクションで説明された。

ステレオ信号は容易に獲得されるのに対し（これは、現存する製品に対応するので）、デコーディング部でリミックスされるオブジェクトに対応するソース信号は獲得し難いことがある。したがって、オブジェクトのソース信号が利用できないとしてもリミキシングのための付加情報を生成することが好ましい。次に、ステレオ信号のみで付加情報を生成するための全体的ブラインド生成技術について説明する。

図８Ａは、全体的ブラインド付加情報生成を実行するエンコーディングシステム８００の一実施例を示すブロック図である。エンコーディングシステム８００は、一般的に、フィルタバンクアレイ８０２、付加情報生成器８０４及びエンコーディング部８０６を含む。ステレオ信号は、ステレオ信号（例えば、右側及び左側チャネル）をサブバンド対に分解するフィルタバンクアレイ８０２で受信する。これらサブバンド対は、所定のソースレベル差Ｌ_i及びゲイン関数ｆ(Ｍ)を用いてサブバンド対より付加情報を生成する付加情報プロセシング部８０４で受信する。フィルタバンクアレイ８０２及び付加情報プロセシング部８０４のいずれもソース信号で作動しないということに注目する。付加情報は、入力ステレオ信号、所定のソースレベル差Ｌ_i及びゲイン関数ｆ(Ｍ)より全体的に導き出される。

図８Ｂは、図８Ａのエンコーディングシステム８００を用いたエンコーディングプロセス（８０８）の一実施例を示す流れ図である。入力ステレオ信号は、サブバンド対に分解される（８１０）。各サブバンドにおいて、ゲインファクタａ_i及びｂ_iは、所定のソースレベル差値Ｌ_iを用いて各所定のソース信号において決定される（８１２）。直接音ソース信号（例えば、サウンドステージでセンターパンニングされたソース信号）において、所定のソースレベル差Ｌ_i＝０ｄＢである。Ｌ_iが与えられると、ゲインファクタが計算される。

ここで、Ａ＝１０Ｌｉ／１０である。ａ_i ²＋ｂ_i ²＝１となるように、ａ_i及びｂ_iが計算されるということに注目する。この条件が不可欠なものというわけではなく、むしろ、これは、Ｌ_iの大きさが大きい場合、ａ_iまたはｂ_iが大きくなるのを防ぐための臨時的選択である。

次いで、直接音のサブバンドパワーは、サブバンド対及びミキシングゲインを用いて推定される（８１４）。該直接音サブバンドパワーを計算するために、各時間で各入力信号左側及び右側サブバンドは、下記の式４４で書かれるとすることができる。

ここで、ａ及びｂはミキシングゲインであり、ｓは全てのソース信号の直接音を表し、ｎ₁及びｎ₂は独立した周辺サウンドを表す。

ａ及びｂは、下記の式４５であると仮定されることができる。

ここで、Ｂ＝Ｅ｛ｘ₂ ²(ｋ)｝／Ｅ｛ｘ₁ ²(ｋ)｝である。ｓがｘ₂及びｘ₁に含まれ、ｘ₂とｘ₁間のレベル差と同様なレベル差を持つように、ａ及びｂが計算されうるということに注目する。直接音のｄＢへのレベル差Ｍ＝ｌｏｇ₁₀Ｂである。

上記の式４４に与えられた信号モデルによって直接音サブバンドパワーＥ｛ｓ²(ｋ)｝を計算できる。一部の実施例において、下記の方程式システムが用いられる。

上記の式３４中のｓ、ｎ₁及びｎ₂が互いに独立しており、上記の式４６中の左辺量が測定されることができ、ａ及びｂが利用可能であるということが上記の式４６で仮定される。したがって、上記の式４６において知られていない三つは、Ｅ｛ｓ²(ｋ)｝，Ｅ｛ｎ₁ ²(ｋ)｝及びＥ｛ｎ₂ ²(ｋ)｝である。直接音サブバンドパワーＥ｛ｓ²(ｋ)｝は、下記の式４７で与えられることができる。

該直接音サブバンドパワーは、上記の式４７のコヒーレンスの関数として書かれることができる。

一部の実施例において、所定のソースサブバンドパワーＥ｛ｓ_i ²(ｋ)｝の計算は、２ステップで行われることができる。まず、直接音サブバンドパワーＥ｛ｓ²(ｋ)｝が計算され、ここで、ｓは上の式４４中の全てのソースの直接音（例えば、センターパンニングされたもの）を表す。次いで、直接音方向（Ｍで表示される）と所定のサウンド方向（所定のソースレベル差Ｌで表示される）の関数として、直接音サブバンドパワーＥ｛ｓ²(ｋ)｝を修正することによって、所定のサウンドサブバンドパワーＥ｛ｓ_i ²(ｋ)｝が計算される（８１６）。

ここで、ｆ(．)は方向の関数として、所定のソース方向においてただ１つに近接したゲインファクタをリターンするゲイン関数である。最後のステップとして、ゲインファクタ及びサブバンドパワーＥ｛ｓ_i ²(ｋ)｝は付加情報を生成するように量子化されエンコーディングされることができる（８１８）。

図９は、所定のソースレベル差Ｌ_i＝ＬｄＢにおけるゲイン関数ｆ(Ｍ)を示す図である。所定の方向Ｌ₀周囲に多いか少ない狭いピークを持つようにｆ(Ｍ)を選択することによって、方向性の度合が制御されることができるということに注目する。センターにおける所定のソースにおいて、Ｌ₀＝６ｄＢのピーク幅が用いられることができる。

詳述した全体的ブラインド技術により、与えられたソース信号ｓ_iにおける付加情報（ａ_i，ｂ_i，Ｅ｛ｓ_i ²(ｋ)｝）が決定されることができるということに注目する。

Ｂ．付加情報のブラインド及びノンブラインド生成間の組合せ（ＣｏｍｂｉｎａｔｉｏｎＢｅｔｗｅｅｎＢｌｉｎｄａｎｄＮｏｎ−ＢｌｉｎｄＧｅｎｅｒａｔｉｏｎｏｆＳｉｄｅＩｎｆｏｒｍａｔｉｏｎ）

上述した全体的ブラインド生成技術は、特定の環境下で制限されることができる。例えば、二つのオブジェクトがステレオサウンドステージで同一のポジション（方向）を持つとすれば、１つまたは二つのオブジェクトに関する付加情報をブラインド的に生成することはできないかもしれない。

付加情報の全体的ブラインド生成の代案は、付加情報の部分的ブラインド生成である。この部分的ブラインド技術は、原オブジェクトウェーブフォームにラフ（ｒｏｕｇｈ）に対応するオブジェクトウェーブフォームを生成する。これは、例えば、歌手または音楽家が演奏／特定のオブジェクト信号を再生することによってなることができる。または、この目的のためにＭＩＤＩデータを配置し、シンセサイザー（ｓｙｎｔｈｅｓｉｚｅｒ）が当該オブジェクト信号を生成するように配置されることができる。一部の実施例において、“ラフ”オブジェクトウェーブフォームは、付加情報が生成されることに関するステレオ信号で時間配列される。続いて、該付加情報は、ブラインド及びノンブラインド付加情報生成の組合せであるプロセスを用いて生成されることができる。

図１０は、部分的ブラインド生成技術を用いた付加情報生成プロセス（１０００）の一実施例を示す流れ図である。プロセス（１０００）は、入力ステレオ信号及びＭ個の“ラフ”ソース信号を獲得することによって始まる（１００２）。次に、ゲインファクタａ_i及びｂ_iがＭ個の“ラフ”ソース信号において決定される（１００４）。各サブバンド内の各時間スロットで、サブバンドパワーＥ｛ｓ_i ²(ｋ)｝の第１短期推定値（ｓｈｏｒｔ−ｔｉｍｅｅｓｔｉｍａｔｅ）は、それぞれの“ラフ”ソース信号において決定される（１００６）。サブバンドパワーＥｈａｔ｛ｓ_i ²(ｋ)｝の第２短期推定値は、入力ステレオ信号に適用された全体的ブラインド生成技術を用いてそれぞれの“ラフ”ソース信号において決定される（１００８）。

最後に、付加情報計算のために效果的に用いられることのできる、第１及び第２サブバンドパワー推定値を結合し、最終的な推定値をリターンした当該推定されたサブバンドパワーに関数が適用される。一部の実施例において、該関数Ｆ()は、下記の式５０で与えられる。

VI．構成、ユーザインタフェース、ビットストリームシンタックス（ＡＲＣＨＩＴＥＣＴＵＲＥＳ、ＵＳＥＲＩＮＴＥＲＦＡＣＥＳ、ＢＩＴＳＴＲＥＡＭＳＹＮＴＡＸ）

Ａ．クライアント／サーバ構成

図１１は、リミキシング性能を持つオーディオ装置１１１０にステレオ信号及びＭ個のソース信号及び／または付加情報を提供するためのクライアント／サーバ構成の一実施例を示すブロック図である。この構成１１００は、一例に過ぎず、より多いかより少ない成分を持つ構成を含む他の構成も可能である。

構成１１００は、保存場所１１０４（例えば、ＭｙＳＱＬ^TM）及びサーバ１１０６（例えば、Ｗｉｎｄｏｗｓ（登録商標）^TM、Ｌｉｎｕｘ（登録商標）サーバ）を有するダウンロードサービス１１０２を一般的に含む。保存場所１１０４は、専門的にミックスされたステレオ信号及びこれらステレオ信号中のオブジェクト及び数多くの効果（例えば、残響）に対応する結合されたソース信号を含む多種のコンテンツを格納することができる。これらのステレオ信号は、ＭＰ３、ＰＣＭ、ＡＡＣなどを含む数多くの標準化されたフォーマットで格納されることができる。

一部の実施例において、ソース信号は、保存場所１１０４内に格納され、オーディオ装置１１１０へのダウンロードに使用可能になっている。一部の実施例において、前処理された付加情報が保存場所１１０４内に格納され、オーディオ装置１１１０へのダウンロードに使用可能になっている。前処理された付加情報は、図１Ａ、図６Ａ及び図８Ａで説明された１つ以上のエンコーディングスキームを用いてサーバ１０６により生成されることができる。

一部の実施例において、ダウンロードサービス１１０２（例えば、ウェブサイト、ミュージックストア）は、ネットワーク１１０８（例えば、インターネット、イントラネット、イーサネット（登録商標）、無線ネットワーク、ピアツーピアネットワーク）を通じてオーディオ装置１１１０と通信する。オーディオ装置１１１０は、上述したリミキシングスキームを実行できる所定の装置（例えば、メディアプレーヤー／レコーダ、携帯電話、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、ゲームコンソール（ｇａｍｅｃｏｎｓｏｌｅｓ）、セットトップボックス、テレビ受信機、メディアセンター等）でありうる。

Ｂ．オーディオ装置構成（ＡｕｄｉｏＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ）

一部の実施例において、オーディオ装置１１１０は、１つ以上のプロセッサまたはプロセッサコア１１１２、入力デバイス１１１４（例えば、クリックホイール（ｃｌｉｃｋｗｈｅｅｌ）、マウス、ジョイスチック、タッチスクリーン）、出力デバイス１１２０（例えば、ＬＣＤ）、ネットワークインタフェース１１１８（例えば、ＵＳＢ、ファイヤーワイヤー（ｆｉｒｅｗｉｒｅ）、インターネット、ネットワークインタフェースカード、無線トランシーバ（ｔｒａｎｓｃｅｉｖｅｒ））、及びコンピュータで読取りできる記録媒体１１１６（例えば、メモリ、ハードディスク、フラッシュドライブ）を含む。これら構成成分の一部または全部は、コミュニケーションチャネル１１１２（例えば、バス、ブリッジ）を通じて情報を送信及び／または受信することができる。

一部の実施例において、コンピュータで読取りできる記録媒体１１１６は、オペレーティングシステム、ミュージックマネジャー、オーディオプロセッサ、リミックスモジュール及びミュージックライブラリを含む。オペレーティングシステムは、ファイル管理、メモリアクセス、バスコンテンション（ｃｏｎｔｅｎｔｉｏｎ）、周辺装置管理、ユーザインタフェース管理、パワー管理などを含むオーディオ装置１１１０の基本的な管理及びコミュニケーション任務を果たす。ミュージックマネジャーは、ミュージックライブラリを管理するアプリケーションでありうる。オーディオプロセッサは、音楽ファイル（例えば、ＭＰ３、ＣＤオーディオ等）を実行するための通常のオーディオプロセッサでありうる。リミックスモジュールは、図１〜図１０で説明されたリミキシングスキームの機能を実行する１つ以上のソフトウェア成分でありうる。

一部の実施例において、サーバ１１０６は、図１Ａ、図６Ａ及び図８Ａを参照して説明した通り、ステレオ信号をエンコーディングし、付加情報を生成する。ステレオ信号及び付加情報は、ネットワーク１１０８を通じてオーディオ装置１１１０にダウンロードされる。リミックスモジュールは、これらの信号及び付加情報をデコーディングし、入力デバイス１１１４（例えば、キーボード、クリックホイール、タッチディスプレイ）を通じて受信したユーザ入力に基づいてリミックス性能を提供する。

Ｃ．ユーザ入力を受信するためのユーザインタフェース（ＵｓｅｒＩｎｔｅｒｆａｃｅＦｏｒＲｅｃｅｉｖｉｎｇＵｓｅｒＩｎｐｕｔ）

図１２は、リミックス性能を持つメディアプレーヤー１２００のためのユーザインタフェース１２０２の実施例例である。ユーザインタフェース１２０２は、他の装置（例えば、携帯電話、コンピュータ等）に適合しても良い。該ユーザインタフェースは、図示した構成またはフォーマットに限定されず、他の種類のユーザインタフェース成分（例えば、ナビゲーション制御、タッチ表面）を含むことができる。

ユーザは、ユーザインタフェース１２０２上の適切なアイテムを強調（ｈｉｇｈｌｉｇｈｔ）することによって、装置１２００における“リミックス”モードに入ることができる。この例で、ユーザは、ミュージックライブラリから歌を選択し、リードボーカルトラックのパンセッティングを希望するとする。例えば、ユーザは、左側オーディオチャネルでより多くのリードボーカルを聞くことを希望することができる。

所定のパン制御への接近を得るために、ユーザは、サブメニュー１２０４，１２０６，１２０８を調整することができる。例えば、ユーザは、ホイール１２１０を用いてサブメニュー１２０４，１２０６，１２０８上のアイテムを通じてスクロールできる。ユーザは、ボタン１２１２をクリックすることによって最も関心のあるメニューアイテムを選択することができる。サブメニュー１２０８は、リードボーカルトラックのための所定のパン制御への接近を提供する。続いて、ユーザは、歌が演奏される中に所望通りにリードボーカルのパンを調整するためにスライダーを操作（例えば、ホイール１２１０を使用）することができる。

Ｄ．ビットストリームシンタックス（ＢｉｔｓｔｒｅａｍＳｙｎｔａｘ）

一部の実施例において、図１〜図１０を参照して説明されたリミキシングスキームは、現存または将来のオーディオコーディング標準（例えば、ＭＰＥＧ−４）に含まれることができる。現存または将来のコーディング標準におけるビットストリームシンタックスは、ユーザによるリミキシングを許容するビットストリームを処理する方法を決定するために、リミキシング性能を持つデコーディング部により用いられうる情報を含むことができる。このようなシンタックスは、通常のコーディングスキームを持つ下位互換性（ｂａｃｋｗａｒｄｃｏｍｐａｔｉｂｉｌｉｔｙ）を提供するように製作されることができる。例えば、ビットストリーム内に含まれたデータ構造（例えば、パケットヘッダ）は、リミキシングのための付加情報（例えば、ゲインファクタ、サブバンドパワー）の利用可能性を示す情報（例えば、１つ以上のビットまたはフラグ）を含むことができる。

本明細書に開示された機能的な動作、そして上述した各実施例及び他の実施例は、本明細書に開示された構造及びその構造的均等物を含むコンピュータソフトウェア、ファームウェアまたはハードウェアで、またはデジタル電子回路またはこれらの１つ以上の組合せで実行されることができる。上述の実施例及びその他の実施例は、１つ以上のコンピュータプログラム製品、すなわちデータプロセシング装置の動作を制御するためにまたはデータプロセシング装置による実行のためのコンピュータで読取りできる記録媒体にエンコーディングされたコンピュータプログラム命令の１つ以上のモジュールとして実行されることができる。該コンピュータで読取りできる記録媒体は、機械装置で読取りできる記憶装置、機械装置で読取りできる記憶基板（ｓｔｏｒａｇｅｓｕｂｓｔｒａｔｅ）、メモリ装置、装置で読取りできる伝播された信号に影響を与える物質の組成、または１つ以上のこれらの組合せでありうる。ここでいう“データプロセシング装置”という用語は、例えば、プログラム可能なプロセッサ、コンピュータまたは複数のプロセッサまたはコンピュータを含む全ての機械（ａｐｐａｒａｔｕｓ）、装置、ディバイスを含む。当該装置は、上記コンピュータプログラムのための実行環境を作るコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステムまたは１つ以上のこれらの組合せを構成するコードそしてハードウェアを含むことができる。伝播された信号は、適切なレシーバー装置への転送のための情報をエンコーディングするために生成された、人為的に生成された信号、例えば、機械で生成された電気、光学または電磁気的信号である。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも知られている）は、コンパイルされたり解釈された言語を含むプログラミング言語の形態で用いられることができ、スタンドアロンプログラムまたはモジュール、サブルーチンまたはコンピュータ環境に利用するのに適合する他のユニットを含む所定の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに必ずしも対応するわけではない。プログラムは、他のプログラムまたはデータ（マークアップ言語文書に格納された１つ以上のスクリプト）を保持するファイルの一部に格納されることができ、本プログラム専用である１つのファイルまたは複数の共同動作ファイル（例えば、１つ以上のモジュール、サブプログラムまたはコードの一部）に提供された単一ファイルで格納されることができる。コンピュータプログラムは、１つの位置に位置したり複数の位置を経て分配されたりし、通信ネットワークによりインターコネクトされた、１つのコンピュータまたは複数のコンピュータで実行されうるように展開することができる。

本明細書に説明されたプロセス及び論理流れは、入力データを動作し出力を生成することによって機能を実行する１つ以上のコンピュータプログラムを実行する１つ以上のプログラム可能なプロセッサにより実行されることができる。これらのプロセッサ及び論理流れは、特殊目的論理回路、例えば、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）またはＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）により実行されても良く、装置はこれらとして実施例されても良い。

コンピュータプログラムの実行に適合するプロセッサは、例えば、一般的及び特殊目的マイクロプロセッサ及び所定の種類のディジタルコンピュータの所定の１つ以上のプロセッサを含む。一般的に、プロセッサはＲＯＭまたはＲＡＭまたはこれら両方から命令及びデータを受信する。コンピュータの核心要素は、命令及びデータを格納するための１つ以上のメモリ装置及び命令を実行するためのプロセッサである。一般的に、コンピュータはデータを格納するための１つ以上の巨大記憶装置、例えば、磁気、磁気光学ディスクまたは光学ディスクからデータを受信したりこれらにデータを転送したり、これら両方を行ったりするように含むか、效果的に結合されても良い。しかし、コンピュータはこのような装置を持つ必要がない。コンピュータプログラム命令及びデータを格納するのに適合するコンピュータで読取りできる記録媒体は、例えば、半導体メモリ装置、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリ装置；磁気ディスク、例えば内部ハードディスクまたは取り外し可能なディスク；磁気光学ディスク；及び、ＣＤ−ＲＯＭ及びＤＶＤ−ＲＯＭディスクを含む不揮発性メモリ、メディア及びメモリ装置のいずれの形態をも含む。該プロセッサ及びメモリは、特殊目的ロジック回路により補充されたり、それに統合されることができる。

ユーザとの相互作用を提供するために、上述した実施例は、ユーザに情報を表示するためのディスプレイ装置、例えばＣＲＴ（ｃａｔｈｏｄｅｒａｙｔｕｂｅ）またはＬＣＤ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）モニタ及びユーザがコンピュータに入力を提供できるキーボード及びポインティング装置、例えばマウスまたはトラックボールを持つコンピュータで実行されることができる。他の種類の装置もユーザとの相互作用を提供するのに用いられることができる。例えば、ユーザに提供されたフィードバックが知覚的フィードバックのいずれかの形態、例えばビジュアルフィードバック、音声フィードバック、触覚フィードバックであり；ユーザからの入力がアコースティック、スピーチまたは触覚的入力を含む所定の形態で受信されることができる。

上述した実施例は、例えば、データサーバのようなバックエンド（ｂａｃｋ−ｅｎｄ）成分、例えばアプリケーションサーバのようなミドルウェア成分、例えばユーザが本明細書に開示した実施例例と相互作用できるグラフィックユーザインタフェースまたはウェブブラウザーを持つクライアントコンピュータのようなフロントエンド成分、または１つ以上のこのようなバック−エンド、ミドルウェア、またはフロント−エンド成分の組合せを含む。これらシステムの成分は、例えば、通信ネットワークのようなデジタルデータ通信のいずれかの形態または媒体により相互連結されることができる。通信ネットワークの例には、インターネットのようなローカル領域ネットワーク（“ＬＡＮ”）及びワイド領域ネットワーク（“ＷＡＮ”）を含まれる。

上記計算システムは、クライアント及びサーバを含むことができる。クライアント及びサーバは一般的にお互い遠く離れており、たいてい通信ネットワークを通じて相互作用をする。クライアント及びサーバの関係は個別コンピュータで作動し、互いにクライアント−サーバ関係を持つコンピュータプログラムによって発生する。

VII ．リミックス技術を用いたシステムの例（ＥＸＡＭＰＬＥＳＯＦＳＹＳＴＥＭＳＵＳＩＮＧＲＥＭＩＸＴＥＣＨＮＯＬＯＧＹ）

図１３は、ＳＡＯＣ（ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｄｅｃｏｄｉｎｇ）及びリミックスデコーディングを結合したデコーディング部システム１３００の一実施例を示す図である。ＳＡＯＣは、エンコーディングされたサウンドオブジェクトの相互操作を許容するマルチチャネルオーディオを扱うオーディオ技術である。

一部の実施例において、該システム１３００は、ミックス信号デコーディング部１３０１、パラメータ生成器１３０２及びリミックスレンダリング部１３０４を含む。パラメータ生成器１３０２は、ブラインド推定器１３０８、ユーザ−ミックスパラメータ生成器１３１０及びリミックスパラメータ生成器１３０６を含む。リミックスパラメータ生成器１３０６は、ｅｑ−ミックス（ｅｑ−ｍｉｘ）パラメータ生成器１３１２及びアップミックスパラメータ生成器１３１４を含む。

一部の実施例において、システム１３００は、二つのオーディオプロセスを提供する。１番目のプロセスで、エンコーディングシステムにより提供された付加情報がリミックスパラメータを生成するリミックスパラメータ生成器１３０６により用いられる。２番目のプロセスで、ブラインドパラメータがブラインド推定器１３０８により生成され、リミックスパラメータを生成するリミックスパラメータ生成器１３０６により用いられる。図８Ａ及び図８Ｂで示すように、ブラインドパラメータ及び全体的または部分的なブラインド生成プロセスは、ブラインド推定器１３０８により実行されることができる。

一部の実施例において、リミックスパラメータ生成器１３０６は、付加情報またはブラインドパラメータ及びユーザ−ミックスパラメータ生成器１３１０からユーザ−ミックスパラメータのセットを受信する。ユーザ−ミックスパラメータ生成器１３１０は、最終ユーザにより指定されたミックスパラメータ（例えば、ＧＡＩＮ、ＰＡＮ）を受信し、リミックスパラメータ生成器１３０６によるリミックスプロセシングに適合するフォーマットにミックスパラメータを変換（例えば、ゲインｃ_i、ｄ_i+1に変換）させる。一部の実施例において、図１２で示すように、ユーザ−ミックスパラメータ生成器１３１０は、ユーザが所定のミックスパラメータ、例えば、メディアプレーヤーユーザインタフェース１２００を指定するのを許容するためのユーザインタフェースを提供する。

一部の実施例において、リミックスパラメータ生成器１３０６は、ステレオ及びマルチチャネルオーディオ信号を両方とも処理できる。例えば、前記ｅｑ−ミックスパラメータ生成器１３１２は、ステレオチャネルターゲットのためのリミックスパラメータを生成でき、アップミックスパラメータ生成器１３１４は、マルチチャネルターゲットのためのリミックスパラメータを生成できる。マルチチャネルオーディオ信号に基づくリミックスパラメータ生成は、セクションIVで説明された。

一部の実施例において、リミックスレンダリング部１３０４は、ステレオターゲット信号またはマルチチャネルターゲット信号のためのリミックスパラメータを受信する。ユーザ−ミックスパラメータ生成器１３１０により提供された当該フォーマットされたユーザ指定されたステレオミックスパラメータに基づいて所定のリミックスされたステレオ信号を提供するために、ｅｑ−ミックスレンダリング部１３１６は、ステレオリミックスパラメータをミックス信号デコーディング部１３０１から直接受信した原ステレオ信号に適用する。一部の実施例において、ステレオリミックスパラメータは、ステレオリミックスパラメータのｎ×ｎマトリクス（例えば、２×２マトリクス）を用いて原ステレオ信号に適用されることができる。ユーザ−ミックスパラメータ生成器１３１０により提供された当該フォーマットされたユーザ指定されたマルチチャネルミックスパラメータに基づいて所定のリミックスされたマルチチャネル信号を提供するために、アップミックスレンダリング部１３１８は、マルチチャネルリミックスパラメータをミックス信号デコーディング部１３０１から直接受信した原マルチチャネル信号に適用する。一部の実施例において、エフェクト生成器１３２０はそれぞれ、ｅｑ−ミックスレンダリング部１３１６またはアップミックスレンダリング部により原ステレオまたはマルチチャネル信号に適用されるエフェクト信号（例えば、残響（ｒｅｖｅｒｂ））を生成する。一部の実施例において、アップミックスレンダリング部１３１８は、原ステレオ信号を受信し、ステレオ信号をマルチチャネル信号に変換（または、アップミックス）し、なお、リミックスされたマルチチャネル信号を生成するためにリミックスパラメータを適用する。

システム１３００は、該システム１３００が現存するオーディオコーディングスキーム（例えば、ＳＡＯＣ、ＭＰＥＧＡＡＣ、パラメトリックステレオ）に統合されることができるように、かかるオーディオコーディングスキームで下位互換性を保持する複数のチャネル構成を持つオーディオ信号を処理できる。

図１４Ａは、ＳＤＶ（ＳｅｐａｒａｔｅＤｉａｌｏｇｕｅＶｏｌｕｍｅ）における一般的なミキシングモデルを示す図である。ＳＤＶは、“ＳｅｐａｒａｔｅＤｉａｌｏｇｕｅＶｏｌｕｍｅ”に関する米国仮特許出願第６０／８８４，５９４号で説明された向上したダイアローグ向上技術である。ＳＤＶの一実施において、各信号においてこれら信号が特定の方向のキュー（例えば、レベル差、時間差）を持つ左側及び右側信号チャネルにコヒーレントに移動するようにミックスされ、聴覚的イベント幅（ａｕｄｉｔｏｒｙｅｖｅｎｔｗｉｄｔｈ）及び聴取者エンべロップメントキュー（ｌｉｓｔｅｎｅｒｅｎｖｅｌｏｐｍｅｎｔｃｕｅ）を決定するチャネル内に反射／残響された独立した信号が入っていくようにステレオ信号は記録されミックスされる。図１４Ａを参照すると、ファクタａは、聴覚的イベントが現れる方向を決定するが、ここでｓは直接音であり、ｎ₁及びｎ₂は側面方向である。信号ｓは、ファクタａにより決定された方向からの局所化したサウンドを摸倣する。独立した信号ｎ₁及びｎ₂はたびたびアンビエントサウンドまたはアンビエンスと言及される反射／残響されたサウンドに対応する。上述したシナリオは、オーディオソース及びアンビエンスのローカリゼーションをキャプチャー（ｃａｐｔｕｒｅ）する１つのオーディオソースを持つステレオ信号において認知的に動機づけられた分解である。

図１４Ｂは、リミックス技術とＳＤＶを結合したシステム１４００の一実施例を示す図である。一部の実施例において、システム１４００は、フィルタバンク１４０２（例えば、ＳＴＦＴ）、ブラインド推定器１４０４及びｅｑ−ミックスレンダリング部１４０６、パリメートル生成器１４０８及び逆フィルタバンク（ｉｎｖｅｒｓｅｆｉｌｔｅｒｂａｎｋ）１４１０（例えば、インバースＳＴＦＴ）を含む。

一部の実施例において、ＳＤＶダウンミックス信号が入力され、これはフィルタバンク１４０２によりサブバンド信号に分解される。ダウンミックス信号は、上記の式５１により与えられたステレオ信号ｘ₁、ｘ₂であり得る。これらサブバンド信号Ｘ₁(ｉ，ｋ)、Ｘ₂(ｉ，ｋ)は、ｅｑ−ミックスレンダリング部１４０６またはブラインド推定器１４０４のいずれかに入力され、ブラインドマラメータＡ、ＰＳ、ＰＮとして出力される。これらパラメータの計算は、“ＳｅｐａｒａｔｅＤｉａｌｏｇｕｅＶｏｌｕｍｅ”に関する米国仮特許出願第６０／８８４，５９４号で説明される。これらブラインドパラメータは、パラメータ生成器１４０８内に入力され、ブラインドパラメータ及びユーザ指定されたミックスパラメータｇ(ｉ，ｋ)（例えば、センターゲイン、センター幅、カットオフ周波数、ドライネス（ｄｒｙｎｅｓｓ））よりｅｑ−ミックスパラメータｗ₁₁〜ｗ₂₂を生成する。これらｅｑ−ミックスパラメータの計算は、セクションＩで説明された。これらｅｑ−ミックスパラメータは、レンダリングされた出力信号ｙ₁、ｙ₂を提供すべく、ｅｑ−ミックスレンダリング部１４０６によりサブバンド信号に適用される。ｅｑ−ミックスレンダリング部１４０６のレンダリングされた出力信号は、ユーザ指定されたミックスパラメータに基づいて、レンダリングされた出力信号を所定のＳＤＶステレオ信号に変換する逆フィルタバンク１４１０に入力される。

一部の実施例において、システム１４００は、図１〜図１２で説明されたように、リミックス技術を用いてオーディオ信号を処理することができる。リミックスモードにおいて、フィルタバンク１４０２は、上記の式１及び式２７に説明された信号のように、ステレオまたはマルチチャネル信号を受信する。これらの信号は、フィルタバンク１４０２によりサブバンド信号Ｘ₁(ｉ，ｋ)、Ｘ₂(ｉ，ｋ)に分解され、ブラインドパラメータを推定するためにブラインド推定器１４０４及び前記ｅｑ−レンダリング部１４０６に直接入力される。これらブラインドパラメータは、ビットストリームで受信された付加情報ａ_i、ｂ_i、Ｐ_siと一緒に、パラメータ生成器に入力される。このパラメータ生成器１４０８は、レンダリングされた出力信号を生成すべく、ブラインドパラメータ及び付加情報をサブバンド信号に適用する。これらレンダリングされた出力信号は、所定のリミックス信号を生成する逆フィルタバンク１４１０に入力される。

図１５は、図１４Ｂに示すｅｑ−ミックスレンダリング部１４０６の一実施例を示す図である。一部の実施例において、ダウンミックス信号Ｘ１は、スケールモジュール１５０２，１５０４によりスケールされる。ダウンミックス信号Ｘ２は、スケールモジュール１５０６，１５０８によりスケールされる。スケールモジュール１５０２は、ｅｑ−ミックスパラメータｗ₁₁によりダウンミックス信号Ｘ１をスケールし、スケールモジュール１５０４は、ｅｑ−ミックスパラメータｗ₂₁によりダウンミックス信号Ｘ１をスケールし、スケールモジュール１５０６はｅｑ−ミックスパラメータｗ₁₂によりダウンミックス信号Ｘ₂をスケールし、スケールモジュール１５０８は、ｅｑ−ミックスパラメータｗ₂₂によりダウンミックス信号Ｘ２をスケールする。スケールモジュール１５０２，１５０６の出力は、第１レンダリングされた出力信号ｙ１を提供するために合算され、スケールモジュール１５０４，１５０８は、第２レンダリングされた出力信号ｙ２を提供するために合算される。

図１６は、図１〜図１５に示すリミキシング技術における分配システム１６００を示す図である。一部の実施例において、図１Ａで既に説明された通り、コンテンツプロバイダ１６０２は、付加情報を生成するためにリミックスエンコーディング部１６０６を含むオーサリング・ツール（ａｕｔｈｏｒｉｎｇＴｏｏｌ）１６０４を用いる。付加情報は、１つ以上のファイル中の一部になり得るか、ビットストリーミングサービスのためにビットストリーム内に含まれることができる。リミックスファイルは、特異なファイル拡張子（例えば、ファイル名．ｒｍｘ）を持つことができる。１つのファイルは、原ミックスされたオーディオ信号及び付加情報を含むことができる。或いは、原ミックスされたオーディオ信号及び付加情報は、パケット、バンドル、パッケージまたはその他の適当なコンテナ内に分離されたファイルとして配布されても良い。一部の実施例において、ユーザが当該技術を学ぶのを助ける目的で及び／またはマーケティングの目的で、既設定されたミックスパラメータで配布されることができる。

一部の実施例において、原コンテンツ（例えば、原ミックスされたオーディオファイル）、付加情報及び選択的既設定されたミックスパラメータ（“リミックス情報”）は、サービスプロバイダ１６０８（例えば、音楽ポータル）に提供されたり物理的媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ、メディアプレーヤー、フラッシュドライブ）に設置されることができる。サービスプロバイダ１６０８は、リミックス情報の全部または一部及び／またはリミックス情報の全部または一部を含むビットストリームを提供するための１つ以上のサーバ１６１０を作動させることができる。リミックス情報は、保存場所１６１２に格納されることができる。サービスプロバイダ１６０８は、ユーザ生成されたミックスパラメータを共有するために仮想環境（例えば、コミュニティ、ポータル、掲示板）を提供しても良い。例えば、リミックス可能な装置１６１６（例えば、メディアプレーヤー、携帯電話）上でユーザにより生成されたミックスパラメータは、他のユーザとの共有のために、サービスプロバイダ１６０８にアップロードできるミックスパラメータファイル内に格納されることができる。該ミックスパラメータファイルは、特異な拡張子（例えば、ファイル名．ｒｍｓ）を持つことができる。前述した例において、ユーザは、リミックスプレーヤーＡを用いてミックスパラメータファイルを生成し、サービスプロバイダ１６０８にミックスパラメータファイルをアップロードさせ、該ファイルは、リミックスプレーヤーＢを作動させるユーザにより続いてダウンロードされた。
このシステム１６００は、原コンテンツ及びリミックス情報を保護するために所定の公知されたデジタル権利管理スキーム及び／または他の公知された保安方法を用いて実行されることができる。例えば、リミックスプレーヤーＢを作動させるユーザは、当該原コンテンツを分けてダウンロードする必要があり、該ユーザがリミックスプレーヤーＢにより提供されたリミックス特性にアクセスしたり利用する前にライセンスを確保しなければならない。

図１７Ａは、リミックス情報を提供するためのビットストリームの基本的な成分を示す。一部の実施例において、１つの統合されたビットストリーム１７０２が、ミックスされたオーディオ信号（Ｍｉｘｅｄ＿ＯｂｊＢＳ）、ゲインファクタ及びサブバンドパワー（Ｒｅｆ＿Ｍｉｘ＿ＰａｒａＢＳ）及びユーザ指定されたミックスパラメータ（Ｕｓｅｒｓ＿Ｍｉｘ＿ＰａｒａＢＳ）を含むリミックス可能な装置に伝達されることができる。一部の実施例において、リミックス情報のための複数のビットストリームが、リミックス可能な装置に独立して伝達されることができる。例えば、ミックスされたオーディオ信号は、第１ビットストリーム１７０４で転送されることができ、ゲインファクタ、サブバンドパワー及びユーザ指定されたミックスパラメータは、第２ビットストリーム１７０６で転送されることができる。一部の実施例において、ミックスされたオーディオ信号、ゲインファクタ及びサブバンドパワー及びユーザ指定されたミックスパラメータは、３個の分離されたビットストリーム１７０８，１７１０，１７１２で転送されることができる。これらの分離されたビットストリームは、同一か相異なるビットレートで転送されることができる。これらのビットストリームは、帯域幅を保全し、ビットインターリービング（ｉｎｔｅｒｌｅａｖｉｎｇ）、エントロピーコーディング（例えば、ハフマンコーディング）、エラー補正などを含むロバスト性（ｒｏｂｕｓｔｎｅｓｓ）を保障すべく、様々な公知の技術を用いて必要によって処理されることができる。

図１７Ｂは、リミックスエンコーディング部１７１４におけるビットストリームインタフェースを示す図である。一部の実施例において、リミックスエンコーディング部インタフェース１７１４への入力は、ミックスされたオブジェクト信号、個別オブジェクトまたはソース信号及びエンコーディング部オプションを含むことができる。エンコーディング部インタフェース１７１４の出力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタ及びサブバンドパワーを含むビットストリーム、及び既設定されたミックスパラメータを含むビットストリームを含むことができる。

図１７Ｃは、リミックスデコーディング部１７１６におけるビットストリームインタフェースを示す図である。一部の実施例において、リミックスデコーディング部インタフェース１７１６内への入力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタ及びサブバンドパワーを含むビットストリーム、及び既設定されたミックスパラメータを含むビットストリームを含むことができる。デコーディング部インタフェース１７１６の出力は、リミックスされたオーディオ信号、アップミックスレンダリング部ビットストリーム（例えば、マルチチャネル信号）、ブラインドリミックスパラメータ、及びユーザリミックスパラメータを含むことができる。

エンコーディング部及びデコーディング部インタフェースにおいて他の構成も可能である。図１７Ｂ及び図１７Ｃに示すインタフェース構成は、リミックス可能な装置がリミックス情報を処理するようにするためのＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を定義するために用いられることができる。図１７Ｂ及び図１７Ｃに示すインタフェースは一例に過ぎず、該装置に部分的に基づく相異なる数及び相異なる種類の入力及び出力を持つ構成を含む様々な構成が可能である。

図１８は、特定のオブジェクト信号においてリミックスされた信号の向上した知覚されたクォリティーを提供するために追加的な付加情報を生成するための拡張子を含む例示的なシステム１８００を示すブロック図である。一部の実施例において、システム１８００は、（エンコーディング側に）ミックス信号エンコーディング部１８０８及びリミックスエンコーディング部１８０４及び信号エンコーディング部１８０６を含むエンハンスドリミックスエンコーディング部１８０２を含む。一部の実施例において、システム１８００は、（デコーディング側に）ミックス信号デコーディング部１８１０、リミックスレンダリング部１８１４及びパラメータ生成器１８１６を含む。

エンコーディング部側で、ミックスされたオーディオ信号がミックス信号エンコーディング部１８０８（例えば、ＭＰ３エンコーディング部）によりエンコーディングされ、デコーディング側に送られる。オブジェクト信号（例えば、リードボーカル、ギター、ドラムまたはその他の楽器）は、例えば、図１Ａ及び図３Ａで説明された通り、付加情報（例えば、ゲインファクタ及びサブバンドパワー）を生成するリミックスエンコーディング部１８０４に入力される。さらに、重要な１つ以上のオブジェクト信号が追加的な付加情報を生成するために信号エンコーディング部１８０６（例えば、ＭＰ３エンコーディング部）に入力される。一部の実施例において、配列情報（ａｌｉｇｎｉｎｇｉｎｆｏｒｍａｔｉｏｎ）がミックス信号エンコーディング部１８０８及び信号エンコーディング部１８０６のそれぞれの出力信号を整列すべく信号エンコーディング部１８０６に入力される。配列情報は、時間配列情報、用いられたコデックス種類、ターゲットビットレート、ビット割当情報または方式（ｓｔｒａｔｅｇｙ）などを含むことができる。

デコーディング部側で、ミックス信号エンコーディング部の出力は、ミックス信号デコーディング部１８１０（例えば、ＭＰ３デコーディング部）に入力される。ミックス信号デコーディング部１８１０及びエンコーディング部付加情報（例えば、エンコーディング部生成ゲインファクタ、サブバンドパワー、追加的な付加情報）の出力は、リミックスパラメータ及び追加的なリミックスデータを生成するために、制御パラメータ（例えば、ユーザ指定されたミックスパラメータ）と共に、これらパラメータを用いるパラメータ生成器１８１６に入力される。リミックスパラメータ及び追加的なリミックスデータは、リミックスされたオーディオ信号をレンダリングするリミックスレンダリング部１８１４により用いられることができる。

追加的なリミックスデータ（例えば、オブジェクト信号）は、原ミックスオーディオ信号内の特定のオブジェクトをリミックスするために、リミックスレンダリング部１８１４により用いられる。例えば、カラオケアプリケーションで、リードボーカルを表すオブジェクト信号は、追加的な付加情報（例えば、エンコーディングされたオブジェクト信号）を生成するようにエンハンスドリミックスエンコーディング部１８１２により用いられることができる。この信号は、原ミックスオーディオ信号内のリードボーカルをリミックスする（例えば、リードボーカルを圧縮したり弱化させる）ように、リミックスレンダリング部１８１４により用いられることができる、追加的なリミックスデータを生成するようにパラメータ生成器１８１６により用いられることができる。

図１９は、図１８に示すリミックスレンダリング部１８１４の一例を示すブロック図である。一部の実施例において、ダウンミックス信号Ｘ１、Ｘ２はそれぞれ、コンバイナ１９０４，１９０６に入力される。ダウンミックス信号Ｘ１、Ｘ２は、例えば原ミックスオーディオ信号の左側及び右側チャネルでありうる。コンバイナ１９０４，１９０６は、パラメータ生成器１８１６により供給された追加的なリミックスデータとダウンミックス信号Ｘ１、Ｘ２を結合する。カラオケの例で、結合は、リミックスされたオーディオ信号内のリードボーカルを圧縮したり弱化させるようにリミキシングする前に、ダウンミックス信号Ｘ１、Ｘ２からリードボーカルオブジェクト信号を抽出するステップを含むことができる。

一部の実施例において、ダウンミックス信号Ｘ１（例えば、原ミックスオーディオ信号の左側チャネル）は、追加的なリミックスデータ（例えば、リードボーカルオブジェクト信号の左側チャネル）と結合され、スケールモジュール１９０６ａ，１９０６ｂによりスケールされ、ダウンミックス信号Ｘ２（例えば、原ミックスオーディオ信号の右側チャネル）は、追加的なリミックスデータ（例えば、リードボーカルオブジェクト信号の右側チャネル）と結合され、スケールモジュール１９０６ｃ，１９０６ｄによりスケールされる。

スケールモジュール１９０６ａは、ｅｑ−ミックスパラメータｗ₁₁によりダウンミックス信号Ｘ１をスケールし、スケールモジュール１９０６ｂは、ｅｑ−ミックスパラメータｗ₂₁によりダウンミックス信号Ｘ１をスケールし、スケールモジュール１９０６ｃは、ｅｑ−ミックスパラメータｗ₁₂によりダウンミックス信号Ｘ２をスケールし、スケールモジュール１９０６ｄは、ｅｑ−ミックスパラメータｗ₂₂によりダウンミックス信号Ｘ２をスケールする。このスケールは、ｎ×ｎ（例えば、２×２）マトリクスを利用する場合と同様に、線形代数学を用いて実行されることができる。スケールモジュール１９０６ａ，１９０６ｃの出力は、第１レンダリングされた出力信号Ｙ２を提供するように合算され、スケールモジュール１９０６ｂ，１９０６ｄの出力は第２レンダリングされた出力信号Ｙ２を提供するように合算される。

一部の実施例において、原ステレオミックス間で“カラオケ”モード及び／または“カペラ（ｃａｐｅｌｌａ）”モードに移行するようにユーザインタフェースで制御（例えば、スイッチ、スライダ、ボタン）を実行できる。この制御ポジションの機能のように、コンバイナ１９０２は、原ステレオ信号及び追加的な付加情報により獲得された信号間で線形組合せを制御する。例えば、カラオケモードで、追加的な付加情報から獲得された信号は、ステレオ信号から抽出されることができる。リミックスプロセシングは後で量子化騒音（ステレオ及び／または他の信号が多く損なわれてコーディングされる場合）を除去するのに適用されることができる。ボーカルを部分的に除去する目的で、追加的な付加情報により獲得された信号の一部のみが抽出される必要がある。ボーカルのみを演奏するためには、コンバイナ１９０２は、追加的な付加情報により獲得された信号を選択する。若干のバックグラウンドミュージックを持つボーカルを演奏するためには、コンバイナ１９０２は、追加的な付加情報により獲得された信号に、ステレオ信号のスケールされたバージョンを加える。

本明細書は多くの特定の内容を含むが、これらは、請求される範囲または請求される範囲における制限として解釈されてはいけず、特定の実施例に特定された特性の説明として解釈されなければならない。各実施例の文脈から見た明細書に説明された所定の特性は、１つの実施例で組合せで実行されても良い。逆に、１つの実施例の文脈で説明された様々な特性が、複数の実施例で分離して実行されたり所定の適切な副結合（ｓｕｂｃｏｍｂｉｎａｔｉｏｎ）で実行されても良い。なお、所定の組合せ及びさらにはそれらのみで最初請求されたものとして上述されたとしても、請求された組合せから１つ以上の特性が一部の場合に当該組合せから削除されることができ、該請求された組合せは副結合または副結合の変形に導かれることができる。

同様に、特定の順序で図面に動作が示されるが、これは、示された特定の順序でまたは順次的な順序でかかる動作が実行されたり所定の結果を達成するために全ての示された動作が行なわれることを要求するものとして解釈されてはならない。所定の環境では、マルチタスキング及び並列プロセシングが有利な場合もあり得る。上述した実施例の数多くのシステム成分の分離が、全ての実施例においても要求されるわけではなく、説明されたプログラム成分及びシステムは一般的に単一のソフトウェア制作物に共に集積されたり複数のソフトウェア制作物内にパッケージングされることができる。

本明細書で説明された課題に関る特定の実施例が説明された。その他の実施例は、添付り請求項の範囲内にある。例えば、請求項で引用された行為は、他の順序で実行されても良く、相変らず所定の結果を達成することができる。一例のように、所定の結果を達成するために、添付の図面に示すプロセスは、必ずしも図示された特定の順序または順次的な順序を要求するわけではない。

また、例の例のように、セクション５Ａで示された付加情報の前処理は、上記の式２で与えられた信号モデルと矛盾する負数値を防止するために、リミックスされた信号のサブバンドパワーにより低い境界を提供する。しかし、この信号モデルは、リミックスされた信号のポジティブパワーを意味するだけでなく、原ステレオ信号及びリミックスされたステレオ信号、すなわち、Ｅ｛ｘ₁ｙ₁｝，Ｅ｛ｘ₁ｙ₂｝，Ｅ｛ｘ₂ｙ₁｝及びＥ｛ｘ₂ｙ₂｝間のポジティブ外積を意味する。

二つの重み値の場合において、Ｅ｛ｘ₁ｙ₁｝とＥ｛ｘ₂ｙ₂｝の外積が負数となるのを防ぐために、上記の式１８に定義された重み値は、それらがＡｄＢより絶対に小さくないとような特定の境界値に限定される。

Claims

オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップと、
リミックスされるオブジェクトを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
ミックスパラメータのセットを獲得するステップと、
前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップと、
を含むことを特徴とする方法。
前記ミックスパラメータのセットを獲得するステップは、前記ミックスパラメータのセットを指定するユーザ入力を受信するステップをさらに含むことを特徴とする請求項１に記載の方法。
第２複数チャネルオーディオ信号を生成するステップは、
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解するステップと、
前記ミックスパラメータのセット及び前記付加情報を用いて第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定するステップと、
前記第２サブバンド信号のセットを前記第２複数チャネルオーディオ信号に変換するステップと、
を含むことを特徴とする請求項１に記載の方法。
第２サブバンド信号のセットを推定するステップは、
リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するように前記付加情報をデコーディングするステップと、
前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定するステップと、
少なくとも１つの重み値のセットを用いて前記第２サブバンド信号のセットを推定するステップと、
をさらに含むことを特徴とする請求項３に記載の方法。
１つ以上の重み値のセットを決定するステップは、
第１重み値のセットの大きさを決定するステップと、
前記第１重み値のセットと異なる数の重み値を含む第２重み値のセットの大きさを決定するステップと、
をさらに含むことを特徴とする請求項４に記載の方法。
前記第１及び第２重み値のセットの大きさを比較するステップと、
前記比較の結果に基づいて前記第２サブバンド信号のセットを推定するのに利用するための前記第１及び第２重み値のセットのうちの１つを選択するステップと、
をさらに含むことを特徴とする請求項５に記載の方法。
１つ以上の重み値のセットを決定するステップは、
前記第１複数チャネルオーディオ信号及び前記第２複数チャネルオーディオ信号間の差を最小化する重み値のセットを決定するステップをさらに含むことを特徴とする請求項４に記載の方法。
１つ以上の重み値のセットを決定するステップは、
線形方程式を形成するステップと、
前記線形方程式の解を求めることによって前記重み値を決定するステップと、を含み、
前記線形方程式で各方程式は積の和であり、各積はサブバンド信号と重み値を乗算することによって形成されることを特徴とする請求項４に記載の方法。
前記線形方程式は、最小二乗法を用いて解を求めることを特徴とする請求項８に記載の方法。
前記第１サブバンド信号のセットと関連した１つ以上のレベル差キューとマッチさせるために、前記第２サブバンド信号のセットと関連した１つ以上のレベル差キューを調節するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記第１複数チャネルオーディオ信号のサブバンドパワー推定値未満の臨界値と等しいか大きくなるように、前記第２複数チャネルオーディオ信号のサブバンドパワー推定値を制限するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記１つ以上の重み値のセットを決定するために前記サブバンドパワー推定を用いる前に、１よりも大きい値により前記サブバンドパワー推定値をスケーリングするステップをさらに含むことを特徴とする請求項４に記載の方法。
前記第１複数チャネルオーディオ信号を獲得するステップは、
エンコーディングされた複数チャネルオーディオ信号を含むビットストリームを受信するステップと、
前記第１複数チャネルオーディオ信号を獲得するために、前記エンコーディングされた複数チャネルオーディオ信号をデコーディングするステップをさらに含むことを特徴とする請求項１に記載の方法。
前記１つ以上の重み値のセットを時間をかけてスムージングするステップをさらに含むことを特徴とする請求項４に記載の方法。
オーディオ歪みを減らすために、前記１つ以上の重み値のセットを、時間をかけてスムージングするステップをさらに含むことを特徴とする請求項１８に記載の方法。
音調または定常的測定値に基づいて前記１つ以上の重み値のセットを時間をかけてスムージングするステップをさらに含むことを特徴とする請求項１８に記載の方法。
前記第１複数チャネルオーディオ信号の音調または定常的測定値が臨界値を超過するか否か決定するステップと、
前記測定値が前記臨界値を超過すると、前記１つ以上の重み値のセットを時間をかけてスムージングするステップと、
をさらに含むことを特徴とする請求項１８に記載の方法。
前記第１複数チャネルオーディオ信号と前記付加情報とを同期化するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記第２複数チャネルオーディオ信号を生成するステップは、
前記第１複数チャネルオーディオ信号のオーディオチャネルのサブセットにおけるオブジェクトをリミキシングするステップをさらに含むことを特徴とする請求項１に記載の方法。
前記サブバンドパワー推定値及び前記ミックスパラメータのセットを用いて前記第１複数チャネルオーディオ信号のアンビエンス値を修正するステップをさらに含むことを特徴とする請求項１に記載の方法。
ミックスパラメータのセットを獲得するステップは、
ユーザ指定されたゲイン及びパン値を獲得するステップと、
前記ゲイン及びパン値及び前記付加情報から前記ミックスパラメータのセットを決定するステップと、
をさらに含むことを特徴とする請求項１に記載の方法。
オブジェクトのセットを持つオーディオを獲得するステップと、
前記オブジェクトを表すソース信号を獲得するステップと、
前記ソース信号から付加情報を生成するステップと、を含み、
前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号間の関係を表すことを特徴とする方法。
付加情報を生成するステップは、
１つ以上のゲインファクタを獲得するステップと、
前記オーディオ信号及び前記ソース信号のサブセットを、第１サブバンド信号のセット及び第２サブバンド信号のセットにそれぞれ分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号においてサブバンドパワーを推定するステップ、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
をさらに含むことを特徴とする請求項２６に記載の方法。
付加情報を生成するステップは、
前記オーディオ信号及び前記ソース信号のサブセットを、第１サブバンド信号のセット及び第２サブバンド信号のセットにそれぞれ分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、１つ以上のゲインファクタを獲得するステップ、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
をさらに含むことを特徴とする請求項２６に記載の方法。
１つ以上のゲインファクタを獲得するステップは、
前記第１サブバンド信号のセットから対応するサブバンド信号及び前記サブバンドパワーを用いて１つ以上のゲインファクタを推定するステップをさらに含むことを特徴とする請求項２７または２８に記載の方法。
１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップは、
付加情報を生成するように前記サブバンドパワーを量子化しエンコーディングするステップを含むことを特徴とする請求項２７または２８に記載の方法。
サブバンドの幅は、人間音声認識に基づくことを特徴とする請求項２７または２８に記載の方法。
前記オーディオ信号及びソース信号のセットを分解するステップは、
ソース信号のサブセット及び前記オーディオ信号のサンプルとウィンド関数を乗算するステップと、
前記第１及び第２サブバンド信号のセットを生成するために、前記ウィンドされたサンプルに時間−周波数変換を適用するステップと、
をさらに含むことを特徴とする請求項２７または２８に記載の方法。
前記オーディオ信号及びソース信号のサブセットを分解するステップは、
スペクトル係数を作るために、時間−周波数変換を用いて、前記オーディオ信号及びソース信号のサブセットをプロセシングするステップと、
前記スペクトル係数を人間音声システムの不均一な周波数分解能を表す多くのパーティションにグルーピングするステップと、
をさらに含むことを特徴とする請求項２７または２８に記載の方法。
少なくとも１つのグループは、ＥＲＢ（ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ）の約２倍の帯域幅を持つことを特徴とする請求項３３に記載の方法。
前記時間−周波数変換は、
ＳＴＦＴ（ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）、ＱＭＦ（ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒｂａｎｋ）、ＭＤＣＴ（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）及びウェーブレットフィルタバンクからなる変換グループのうちいずれか１つの変換であることを特徴とする請求項３３に記載の方法。
サブバンド信号においてサブバンドパワーを推定するステップは、
前記対応するソース信号を短期平均するステップをさらに含むことを特徴とする請求項２７または２８に記載の方法。
前記対応するソース信号を短期平均するステップは、
指数的に減少する推定ウィンドを用いて前記対応するソース信号を単極平均するステップをさらに含むことを特徴とする請求項３６に記載の方法。
前記オーディオ信号のサブバンド信号パワーに関連した前記サブバンドパワーを正規化するステップをさらに含むことを特徴とする請求項２７または２８に記載の方法。
サブバンドパワーを推定するステップは、
前記推定として前記サブバンドパワーの測定を利用するステップをさらに含むことを特徴とする請求項２７または２８に記載の方法。
時間の関数として前記１つ以上のゲインファクタを推定するステップをさらに含むことを特徴とする請求項２７に記載の方法。
量子化及びコーディングするステップは、
前記１つ以上のゲインファクタからゲイン及びレベル差を決定するステップと、
前記ゲイン及びレベル差を量子化するステップと、
前記量子化されたゲイン及びレベル差をエンコーディングするステップと、
をさらに含むことを特徴とする請求項２７または２８に記載の方法。
量子化及びエンコーディングするステップは、
前記１つ以上のゲインファクタ及び前記オーディオ信号のサブバンドパワーに対する前記サブバンドパワーを定義するファクタを計算するステップと、
前記ファクタを量子化するステップと、
前記量子化されたファクタをエンコーディングするステップと、
をさらに含むことを特徴とする請求項２７または２８に記載の方法。
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
前記ソース信号のサブセットから付加情報を生成するステップと、
を含むことを特徴とする方法。
複数チャネルオーディオ信号を獲得するステップと、
サウンドステージ上の前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、
を含むことを特徴とする方法。
前記関数は、前記所定のサウンド方向においてのみ略１つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項４４に記載の方法。
ミックスされたオーディオ信号を獲得するステップと、
前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得するステップと、
付加情報が利用可能であれば、前記付加情報及び前記ミックスパラメータのセットを用いて前記ミックスされたオーディオ信号をリミキシングするステップと、
付加情報が利用不可能であれば、前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成するステップと、
前記ブラインドパラメータ及び前記ミックスパラメータのセットを用いてリミックスされたオーディオ信号を生成するステップと、
を含むことを特徴とする方法。
前記ブラインドパラメータまたは前記付加情報のいずれか１つからリミックスパラメータを生成するステップと、
前記リミックスパラメータが前記付加情報から生成されると、前記リミックスされたパラメータ及び前記ミックスされた信号から前記リミックスされたオーディオ信号を生成するステップと、
をさらに含むことを特徴とする請求項４６に記載の方法。
前記リミックスされたオーディオ信号が前記ミックスされたオーディオ信号よりも多くのチャネルを持つように、前記ミックスされたオーディオ信号をアップミックスするステップをさらに含むことを特徴とする請求項４６に記載の方法。
前記リミックスされたオーディオ信号に１つ以上のエフェクトを加えるステップをさらに含むことを特徴とする請求項４６に記載の方法。
スピーチソース信号を含むミックスされたオーディオ信号を獲得するステップと、
１つ以上の前記スピーチソース信号に所定の改善を指定したミックスパラメータを獲得するステップと、
前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成するステップと、
前記ブラインドパラメータ及び前記ミックスパラメータからリミックスパラメータを生成するステップと、
前記ミックスパラメータに応じて、前記１つ以上のスピーチソース信号をエンハンスする前記ミックスされた信号に前記リミックスパラメータを適用するステップと、
を含む方法。
ミックスパラメータを指定した入力を受信するためのユーザインタフェースを生成するステップと、
前記ユーザインタフェースを通じてミキシングパラメータを獲得するステップと、
ソース信号を含む第１オーディオ信号を獲得するステップと、
前記第１オーディオ信号と１つ以上のソース信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
第２オーディオ信号を生成するために前記付加情報及び前記ミックスパラメータを用いて前記１つ以上のソース信号をリミキシングするステップと、
を含む方法。
ネットワークリソースから前記第１オーディオ信号または付加情報を受信するステップをさらに含むことを特徴とする請求項５１に記載の方法。
コンピュータで読取りできる記録媒体から前記第１オーディオ信号または付加情報を受信するステップをさらに含むことを特徴とする請求項５１に記載の方法。
オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップと、
リミックスされたオブジェクトのサブセットを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
ミックスパラメータのセットを獲得するステップと、
前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップと、
を含むことを特徴とする方法。
前記ミックスパラメータのセットを獲得するステップは、前記ミックスパラメータのセットを指定するユーザ入力を受信するステップをさらに含むことを特徴とする請求項５４に記載の方法。
第２複数チャネルオーディオ信号を生成するステップは、
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解するステップと、
前記付加情報及び前記ミックスパラメータのセットを用いて前記第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定するステップと、
前記サブバンド信号のセットを第２複数チャネルオーディオ信号に変換するステップと、
を含むことを特徴とする請求項５４に記載の方法。
第２サブバンド信号のセットを推定するステップは、
リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するために前記付加情報をデコーディングするステップと、
前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定するステップと、
重み値の少なくとも１つのセットを用いて前記第２サブバンド信号のセットを推定するステップと、
をさらに含むことを特徴とする請求項５６に記載の方法。
１つ以上の重み値のセットを決定するステップは、
第１重み値のセットの大きさを決定するステップと、
第２重み値のセットの大きさを決定するステップと、をさらに含み、
前記第２重み値のセットは、前記第１重み値のセットと異なる数の重み値を含むことを特徴とする請求項５７に記載の方法。
前記第１及び第２重み値のセットの前記大きさを比較するステップと、
前記比較の結果に基づいて前記第２サブバンド信号のセットを推定する時に用いるために、前記第１及び第２重み値のセットのうちの１つを選択するステップをさらに含むことを特徴とする請求項５８に記載の方法。
ミックスされたオーディオ信号を獲得するステップと、
前記ミックスされたオーディオ信号をリミックスするためのミックスパラメータのセットを獲得するステップと、
前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成するステップと、
ｎ×ｎマトリクスを用いて前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成するステップと、
を含むことを特徴とする方法。
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトを表すソース信号を獲得するステップと、
前記ソース信号から付加情報を生成するステップと、
少なくとも１つのソース信号を含む少なくとも１つの信号をエンコーディングするステップと、
前記ソース信号、前記付加情報及び前記エンコーディングされたソース信号をデコーディング部に提供するステップと、を含み、
前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号間の関係を表すことを特徴とする方法。
ミックスされたオーディオ信号を獲得するステップと、
前記ミックスされたオーディオ信号内のオブジェクトと関連したエンコーディングされたソース信号を獲得するステップと、
前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得するステップと、
前記エンコーディングされたソース信号、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成するステップと、
前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成するステップと、
を含むことを特徴とする方法。
付加情報を受信し、前記付加情報からリミックスパラメータを獲得できるデコーディング部と、
ミックスパラメータのセットを獲得できるインタフェースと、
前記デコーディング部及び前記インタフェースに結合された、第２複数チャネルオーディオ信号を生成するために前記付加情報及び前記ミックスパラメータのセットを用いて前記ソース信号をリミキシングできるリミックスモジュールと、を含み、
前記付加情報の少なくとも一部は、第１複数チャネルオーディオ信号を生成するのに用いられる１つ以上のソース信号及び前記第１複数チャネルオーディオ信号間の関係を表すことを特徴とする装置。
前記ミックスパラメータのセットは、前記インタフェースを通じてユーザにより指定されることを特徴とする請求項６３に記載の装置。
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解できる少なくとも１つのフィルタバンクをさらに含むことを特徴とする請求項６３に記載の装置。
前記リミックスモジュールは、前記付加情報及び前記ミックスパラメータのセットを用いて前記第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定し、前記第２サブバンド信号のセットを前記第２複数チャネルオーディオ信号に変換することを特徴とする請求項６５に記載の装置。
前記デコーディング部は、リミックスされる前記ソース信号と関連したサブバンドパワー推定値及びゲインファクタを提供するために前記付加情報をデコーディングし、前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定し、少なくとも１つの重み値のセットを用いて前記第２サブバンド信号のセットを推定することを特徴とする請求項６６に記載の装置。
前記リミックスモジュールは、第１重み値のセットの大きさを決定し、前記第１重み値のセットと異なる数の重み値を含む第２重み値のセットの大きさを決定することによって、１つ以上の重み値のセットを決定することを特徴とする請求項６７に記載の装置。
前記リミックスモジュールは、前記第１及び第２重み値のセットの前記大きさを比較し、前記比較の結果に基づいて前記第２サブバンド信号のセットを推定する時に用いるために、前記第１及び第２重み値のセットのうちの１つを選択することを特徴とする請求項６８に記載の装置。
前記リミックスモジュールは、前記第１複数チャネルオーディオ信号と前記第２複数チャネルオーディオ信号間の差を最小化する重み値のセットを決定することによって、１つ以上の重み値のセットを決定することを特徴とする請求項６７に記載の装置。
前記リミックスモジュールは、線形方程式システムの解を求めることによって、１つ以上の重み値のセットを決定するもので、前記システム内の各方程式は積の和であり、各積はサブバンド信号と重み値を乗算することによって生成されることを特徴とする請求項６７に記載の装置。
前記線形方程式システムは、最小二乗推定を用いて解が求められることを特徴とする請求項７１に記載の装置。
前記リミックスモジュールは、前記第１サブバンド信号のセットと関連した１つ以上のレベル差キューとマッチさせるために、前記第２サブバンド信号のセットと関連した１つ以上のレベル差キューを調節することを特徴とする請求項６７に記載の装置。
前記リミックスモジュールは、前記第１複数チャネルオーディオ信号のサブバンドパワー推定値未満の臨界値と等しいか大きくなるように、前記第２複数チャネルオーディオ信号のサブバンドパワー推定値を制限することを特徴とする請求項６７に記載の装置。
前記リミックスモジュールは、前記１つ以上の重み値のセットを決定するために前記サブバンドパワー推定値を用いる前に、１よりも大きい値により前記サブバンドパワー推定値をスケーリングすることを特徴とする請求項６７に記載の装置。
前記デコーディング部は、エンコーディングされた複数チャネルオーディオ信号を含むビットストリームを受信し、前記第１複数チャネルオーディオ信号を獲得するために前記エンコーディングされた複数チャネルオーディオ信号をデコーディングすることを特徴とする請求項６３に記載の装置。
前記リミックスモジュールは、前記１つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項６７に記載の装置。
前記リミックスモジュールは、オーディオ歪みを減らすために、前記１つ以上の重み値のセットを時間をかけてスムージングすることを制御することを特徴とする請求項８１に記載の装置。
前記リミックスモジュールは、音調または定常的測定値に基づいて、前記１つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項８１に記載の装置。
前記リミックスモジュールは、前記第１複数チャネルオーディオ信号の音調または定常的測定値が臨界値を超過するか否かを決定し、
前記測定値が前記臨界値を超過すると、前記１つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項８１に記載の装置。
前記デコーディング部は、前記第１複数チャネルオーディオ信号と前記付加情報を同期化することを特徴とする請求項６３に記載の装置。
前記リミックスモジュールは、前記第１複数チャネルオーディオ信号のオーディオチャネルのサブセットにおけるソース信号をリミックスすることを特徴とする請求項６３に記載の装置。
前記リミックスモジュールは、前記サブバンドパワー推定値及び前記ミックスパラメータセットを用いて前記第１複数チャネルオーディオ信号のアンビエンス値を修正することを特徴とする請求項６３に記載の装置。
前記インタフェースは、ユーザ指定されたゲイン及びパン値を獲得し、前記ゲイン及びパン値及び前記付加情報から前記ミックスパラメータのセットを決定することを特徴とする請求項６３に記載の装置。
オブジェクトのセット及び前記オブジェクトを表すソース信号を持つオーディオ信号を獲得できるインタフェースと、
前記インタフェースに結合され、前記ソース信号から付加情報を生成できる付加情報生成器と、を含む装置で、
前記付加情報のうちの少なくとも一部は、前記オーディオ信号及び前記ソース信号間の関係を表すことを特徴とする装置。
前記オーディオ信号及び前記ソース信号のサブセットを第１サブバンド信号のセット及び第２サブバンド信号のセットにそれぞれ分解できる少なくとも１つのフィルタバンクをさらに含むことを特徴とする請求項８９に記載の装置。
前記第２サブバンド信号のセット内の各サブバンド信号において、
前記付加情報生成器は、前記サブバンド信号におけるサブバンドパワーを推定し、１つ以上のゲインファクタ及びサブバンドパワーから前記付加情報を生成することを特徴とする請求項９０に記載の装置。
前記第２サブバンド信号のセット内の各サブバンド信号において、
前記付加情報生成器は、前記サブバンド信号におけるサブバンドパワーを推定し、１つ以上のゲインファクタを獲得し、前記１つ以上のゲインファクタ及びサブバンドパワーから前記付加情報を生成することを特徴とする請求項９０に記載の装置。
前記付加情報生成器は、前記第１サブバンド信号のセットから対応するサブバンド信号及び前記サブバンドパワーを用いて１つ以上のゲインファクタを推定することを特徴とする請求項９２に記載の装置。
前記付加情報生成器に結合され、前記付加情報を生成するために前記サブバンドパワーを量子化しエンコーディングできるエンコーディング部をさらに含むことを特徴とする請求項９３に記載の装置。
サブバンドの幅は、人間音声認識に基づくことを特徴とする請求項９０に記載の装置。
前記少なくとも１つのフィルタバンクは、ソース信号のサブセット及び前記オーディオ信号のサンプルとウィンド関数を乗算するステップを含むことによって前記オーディオ信号とソース信号のサブセットを分解し、前記第１及び第２サブバンド信号のセットを生成するために、前記ウィンドされたサンプルに時間−周波数変換を適用することを特徴とする請求項９０に記載の装置。
前記少なくとも１つのフィルタバンクは、スペクトル係数を算出するために、時間−周波数変換を用いて前記オーディオ信号及びソース信号のサブセットを処理し、前記スペクトル係数を人間音声システムの不均一な周波数分解能を表す多くのパーティションにグルーピングすることを特徴とする請求項９０に記載の装置。
少なくとも１つのグループは、ＥＲＢ（ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ）の約２倍の帯域幅を持つことを特徴とする請求項９７に記載の装置。
前記時間−周波数変換は、
ＳＴＦＴ（ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）、ＱＭＦ（ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒｂａｎｋ）、ＭＤＣＴ（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）及びウェーブレットフィルタバンクからなる変換グループのうちの１つの変換であることを特徴とする請求項９７に記載の装置。
前記付加情報生成器は、前記対応するソース信号の短期平均を計算することを特徴とする請求項９３に記載の装置。
前記短期平均は、前記対応するソース信号の単極平均であり、指数的に減少する推定ウィンドを用いて計算されることを特徴とする請求項１００に記載の装置。
前記サブバンドパワーは、前記オーディオ信号のサブバンド信号パワーに関して正規化されることを特徴とする請求項９２に記載の装置。
サブバンドパワーを推定することは、前記推定として前記サブバンドパワーの測定を用いることをさらに含むことを特徴とする請求項９２に記載の装置。
時間の関数として前記１つ以上のゲインファクタが推定されることを特徴とする請求項９２に記載の装置。
前記エンコーディング部は、前記１つ以上のゲインファクタからゲイン及びレベル差を決定し、前記ゲイン及びレベル差を量子化し、前記量子化されたゲイン及びレベル差をエンコーディングすることを特徴とする請求項９４に記載の装置。
前記エンコーディング部は、前記１つ以上のゲインファクタ及び前記オーディオ信号のサブバンドパワーに対する前記サブバンドパワーを定義するファクタを計算し、前記ファクタを量子化し、前記量子化されたファクタをエンコーディングすることを特徴とする請求項９４に記載の装置。
オブジェクトのセットを持つオーディオ信号及び前記オブジェクトのサブセットを表すソース信号のサブセットを獲得できるインタフェースと、
前記ソース信号のサブセットから付加情報を生成できる付加情報生成器と、
を含むことを特徴とする装置。
複数チャネルオーディオ信号を獲得できるインタフェースと、
サウンドステージ上の前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定し、前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定し、前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定できる付加情報生成器と、
を含むことを特徴とする装置。
前記関数は、前記所定のサウンド方向においてのみ略１つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項１０８に記載の装置。
ミックスされたオーディオ信号及び前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得し、付加情報が利用可能か否かを決定できるパラメータ生成器と、
前記パラメータ生成器に結合されており、付加情報が利用可能であれば、前記付加情報及び前記ミックスパラメータのセットを用いて前記ミックスされたオーディオ信号をリミキシングし、付加情報が利用不可能であれば、ブラインドパラメータのセットを受信して、前記ミックスパラメータのセット及び前記ブラインドパラメータを用いてリミックスされたオーディオ信号を生成できるリミックスレンダリング部と、
を含むことを特徴とする装置。
前記リミックスパラメータ生成器は、前記ブラインドパラメータまたは前記付加情報のいずれかからリミックスパラメータを生成し、
前記リミックスパラメータが前記付加情報から生成されると、前記リミックスレンダリング部は、前記リミックスパラメータ及び前記ミックスされた信号から前記リミックスされたオーディオ信号を生成することを特徴とする請求項１１０に記載の装置。
前記リミックスレンダリング部は、前記リミックスされたオーディオ信号が前記ミックスされたオーディオ信号よりも多くのチャネルを持つように、前記ミックスされたオーディオ信号をアップミックスできるアップミックスレンダリング部をさらに含むことを特徴とする請求項１１０に記載の装置。
前記リミックスレンダリング部に結合され、前記リミックスされたオーディオ信号に１つ以上のエフェクトを加えることができるエフェクトプロセシング部をさらに含むことを特徴とする請求項１１０に記載の装置。
スピーチソース信号を含むミックスされたオーディオ信号及び１つ以上の前記スピーチソース信号に所定の改善を指定したミックスパラメータを獲得できるインタフェースと、
前記インタフェースに結合され、前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成し、前記ブラインドパラメータ及び前記ミックスパラメータからパラメータを生成できるリミックスパラメータ生成器と、
前記ミックスパラメータに応じて、前記１つ以上のスピーチソース信号をエンハンスするように前記ミックスされた信号に前記パラメータを適用できるリミックスレンダリング部と、
を含むことを特徴とする装置。
少なくとも１つのミックスパラメータを指定した入力を受信できるユーザインタフェースと、
第２オーディオ信号を生成するために付加情報及び前記少なくとも１つのミックスパラメータを用いて前記１つ以上のソース信号をリミキシングできるリミックスモジュールと、
を含むことを特徴とする装置。
ネットワークリソースから前記第１オーディオ信号または付加情報を受信できるネットワークインタフェースをさらに含むことを特徴とする請求項１１５に記載の装置。
コンピュータで読取りできる記録媒体から前記第１オーディオ信号または付加情報を受信できるインタフェースをさらに含むことを特徴とする請求項１１５に記載の装置。
オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得し、リミックスされるオブジェクトのサブセットを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得できるインタフェースと、
前記インタフェースに結合され、前記付加情報及びミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成できるリミックスモジュールと、
を含むことを特徴とする装置。
前記ミックスパラメータのセットは、ユーザにより指定されることを特徴とする請求項１１８に記載の装置。
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解できる少なくとも１つのフィルタバンクをさらに含み、
前記リミックスモジュールは、前記少なくとも１つのフィルタバンクに結合され、前記付加情報及び前記ミックスパラメータのセットを用いて前記第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定し、前記第２サブバンド信号のセットを第２複数チャネルオーディオ信号に変換できることを特徴とする請求項１１８に記載の装置。
リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するために前記付加情報をデコーディングできるデコーディング部をさらに含み、
前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定し、重み値の少なくとも１つのセットを用いて前記第２サブバンド信号のセットを推定することを特徴とする請求項１２０に記載の装置。
前記リミックスモジュールは、第１重み値のセットの大きさを決定することによって、１つ以上の重み値のセットを決定し、前記第１重み値のセットと異なる数の重み値を含む第２重み値のセットの大きさを決定することを特徴とする請求項１２１に記載の装置。
前記リミックスモジュールは、前記第１及び第２重み値のセットの前記大きさを比較し、前記比較の結果に基づいて前記第２サブバンド信号のセットを推定する時に用いるための前記第１及び第２重み値のセットのうちの１つを選択することを特徴とする請求項１２２に記載の装置。
前記ミックスされたオーディオ信号をリミックスするためのミックスパラメータのセットを獲得できるインタフェースと、
前記インタフェースに結合され、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成し、ｎ×ｎマトリクスを用いて前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成できるリミックスモジュールと、
を含むことを特徴とする装置。
オブジェクトのセットを持つオーディオ信号を獲得し、前記オブジェクトを表すソース信号を獲得できるインタフェースと、
前記インタフェースに結合され、前記ソース信号のサブセットから付加情報を生成できる付加情報生成器と、
前記付加情報生成器に結合され、少なくとも１つのソース信号を含む少なくとも１つの信号をエンコーディングし、前記オーディオ信号、前記付加情報及び前記エンコーディングされたオブジェクト信号をデコーディング部に提供できるエンコーディング部と、を含み、
前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号のサブセット間の関係を表すことを特徴とする装置。
ミックスされたオーディオ信号を獲得し、前記ミックスされたオーディオ信号内のオブジェクトと関連したエンコーディングされたソース信号を獲得できるインタフェースと、
前記インタフェースに結合され、前記エンコーディングされたソース信号、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成し、前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成できるリミックスモジュールと、
を含むことを特徴とする装置。
プロセシング部により実行される場合、
オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップと、
リミックスされるオブジェクトを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
ミックスパラメータのセットを獲得するステップと、
前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
第２複数チャネルオーディオ信号を生成するステップは、
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解するステップと、
前記ミックスパラメータのセット及び前記付加情報を用いて第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定するステップと、
前記第２サブバンド信号のセットを前記第２複数チャネルオーディオ信号に変換するステップと、
を含むことを特徴とする請求項１２７に記載のコンピュータで読取りできる記録媒体。
第２サブバンド信号セットを推定するステップは、
リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングするステップと、
前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定するステップと、
少なくとも１つの重み値のセットを用いて前記第２サブバンド信号のセットを推定するステップと、
をさらに含むことを特徴とする請求項１２８に記載のコンピュータで読取りできる記録媒体。
プロセッサにより実行される場合、
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトを表すソース信号を獲得するステップと、
前記ソース信号から、少なくとも一部は前記付加情報と前記ソース信号間の関係を表す付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
付加情報を生成するステップは、
１つ以上のゲインファクタを獲得するステップと、
前記オーディオ信号及び前記ソース信号のサブセットを第１サブバンド信号のセット及び第２サブバンド信号のセットのそれぞれに分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
をさらに含むことを特徴とする請求項１３０に記載のコンピュータで読取りできる記録媒体。
付加情報を生成するステップは、
前記オーディオ信号及び前記ソース信号のサブセットを第１サブバンド信号のセット及び第２サブバンド信号のセットのそれぞれに分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、１つ以上のゲインファクタを獲得するステップと、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
を含むことを特徴とする請求項１３１に記載のコンピュータで読取りできる記録媒体。
プロセシング部により実行される場合、
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
前記ソース信号のサブセットから付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
プロセッサにより実行される場合、
複数チャネルオーディオ信号を獲得するステップと、
サウンドステージ上で前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
前記関数は、前記所定のサウンド方向においてのみ略１つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項１３４に記載のコンピュータで読取りできる記録媒体。
プロセシング部と、
前記プロセシング部により実行される場合、
オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得するステップと、
リミックスされるオブジェクトを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
ミックスパラメータのセットを獲得するステップと、
前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセッサに結合されたコンピュータで読取りできる記録媒体と、
を含むことを特徴とするシステム。
第２複数チャネルオーディオ信号を生成するステップは、
前記第１複数チャネルオーディオ信号を第１サブバンド信号のセットに分解するステップと、
前記ミックスパラメータのセット及び前記付加情報を用いて前記第２複数チャネルオーディオ信号に対応する第２サブバンド信号のセットを推定するステップと、
前記第２サブバンド信号のセットを前記第２複数チャネルオーディオ信号に変換するステップと、
を含むことを特徴とする請求項１３６に記載のシステム。
第２サブバンド信号のセットを推定するステップは、
リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングするステップと、
前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて１つ以上の重み値のセットを決定するステップと、
少なくとも１つの重み値のセットを用いて前記第２サブバンド信号のセットを推定するステップと、
をさらに含むことを特徴とする請求項１３７に記載のシステム。
プロセシング部と、
前記プロセシング部により実行される場合、
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトを表すソース信号を獲得するステップと、
前記ソース信号から、少なくとも一部は前記付加情報と前記ソース信号間の関係を表す付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセシング部に結合されたコンピュータで読取りできる記録媒体と、
を含むことを特徴とするシステム。
付加情報を生成するステップは、
１つ以上のゲインファクタを獲得するステップと、
前記オーディオ信号及び前記ソース信号のサブセットを第１サブバンド信号のセット及び第２サブバンド信号のセットのそれぞれに分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
をさらに含むことを特徴とする請求項１３９に記載のシステム。
付加情報を生成するステップは、
前記オーディオ信号及び前記ソース信号のサブセットを第１サブバンド信号のセット及び第２サブバンド信号のセットのそれぞれに分解するステップと、
前記第２サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、１つ以上のゲインファクタを獲得するステップ、及び前記１つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
をさらに含むことを特徴とする請求項１４０に記載のシステム。
プロセシング部と、
前記プロセシング部により実行される場合、
オブジェクトのセットを持つオーディオ信号を獲得するステップと、
前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
前記ソース信号のサブセットから付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセッサに結合されたコンピュータで読取りできる記録媒体と、
を含むことを特徴とするシステム。
プロセシング部と、
前記プロセシング部により実行される場合、
複数チャネルオーディオ信号を獲得するステップと、
サウンドステージ上で前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセシング部に結合されたコンピュータで読取りできる記録媒体と、
を含むことを特徴とするシステム。
前記関数は、前記所定のサウンド方向においてのみ略１つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項１４３に記載のシステム。
オブジェクトのセットを持つ第１複数チャネルオーディオ信号を獲得する手段と、
リミックスされるオブジェクトを表す１つ以上のソース信号と前記第１複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得する手段と、
ミックスパラメータのセットを獲得する手段と、
前記付加情報及び前記ミックスパラメータのセットを用いて第２複数チャネルオーディオ信号を生成する手段と、
を含むことを特徴とするシステム。