JP2010507927A6 - リミキシング性能を持つ改善したオーディオ - Google Patents

リミキシング性能を持つ改善したオーディオ Download PDF

Info

Publication number
JP2010507927A6
JP2010507927A6 JP2009508223A JP2009508223A JP2010507927A6 JP 2010507927 A6 JP2010507927 A6 JP 2010507927A6 JP 2009508223 A JP2009508223 A JP 2009508223A JP 2009508223 A JP2009508223 A JP 2009508223A JP 2010507927 A6 JP2010507927 A6 JP 2010507927A6
Authority
JP
Japan
Prior art keywords
audio signal
subband
additional information
signal
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009508223A
Other languages
English (en)
Other versions
JP2010507927A (ja
JP4902734B2 (ja
Inventor
ファレ,クリストフ
オー. オー,ヒェン
ウォン ジュン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP06113521A external-priority patent/EP1853092B1/en
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2010507927A publication Critical patent/JP2010507927A/ja
Publication of JP2010507927A6 publication Critical patent/JP2010507927A6/ja
Application granted granted Critical
Publication of JP4902734B2 publication Critical patent/JP4902734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】リミキシング性能を持つ改善したオーディオを提供する。
【解決手段】リミックス性能を提供するために、ステレオまたはマルチチャネルオーディオ信号の1つ以上のオブジェクト(例えば、楽器)と関連した1つ以上の特性(例えば、パン、ゲインなど)を修正可能にする。

Description

本出願は、広くは、オーディオ信号処理に関するものである。
多くの民生用オーディオ装置(例えば、ステレオ、メディアプレーヤー、携帯電話、ゲームコンソールなど)は、イコライゼイション(equalization)(例えば、ベース(bass)、トレブル(treble))、ボリューム、音響室内効果(acoustic room effect)などにおける制御を用いてステレオオーディオ信号を修正することを許容する。しかし、これらの修正は、上記オーディオ信号を形成する個別のオーディオオブジェクト(例えば、楽器)ではなく全体のオーディオ信号に適用される。例えば、ユーザは、歌全体に影響を与えずに歌におけるギター、ドラムまたはボーカルのステレオパンニングまたはゲインを個別的に修正することができない。
なお、デコーディング部にミキシング柔軟性(mixing flexibility)を提供する技術が提案されてきている。これら技術は、ミックスされたデコーディング部出力信号を生成するためにバイノーラルキューコーディング(BCC;Binaural Cue Coding)、パラメトリック(parametric)または空間(spatial)オーディオデコーディング部に依存する。しかし、これらの技術はいずれも、音質を損傷せずに逆互換(backwards compatibility)を許容するようにステレオミックス(例えば、専門的にミックスされた音楽)を直接的にエンコーディングしない。
チャネル間キュー(例えば、レベル差、時間差、位相差、コヒーレンス(coherence))を用いてマルチチャネルオーディオチャネルまたはステレオを表現するために空間オーディオコーディング技術(Spatial audio coding techniques)が提案されてきた。チャネル間キーは、マルチチャネル出力信号を生成する時に用いるためにデコーディング部に“付加情報”として伝達される。しかし、これらの一般的な空間オーディオコーディング技術は、幾つかの欠点を持つ。例えば、オーディオオブジェクトがデコーディング部で修正されないとしても、これらの技術の少なくとも一部は各オーディオオブジェクトに対してデコーディング部に伝達される個別信号を要求し、これは、エンコーディング部及びデコーディング部で余分な処理を招く。他の欠点は、エンコーディング部入力がステレオ(またはマルチチャネル)オーディオ信号またはオーディオソース信号のいずれかに制限されるということであり、これは、デコーディング部でのリミキシングにおける柔軟性を低下させる。結果的に、これらの一般的な技術の少なくとも一部は、これらの技術をいくつかのアプリケーションまたは装置に不適合にさせる、デコーディング部における複雑なデコリレーション(de−correlation)処理を必要とする。
ステレオまたはマルチチャネルオーディオ信号の1つ以上のオブジェクト(例えば、楽器)と関連した1つ以上の特性(例えば、パン(pan)、ゲインなど)がリミックス性能を提供するために修正されることができる。
一部の実施例において、方法は、オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップ;リミックスされるオブジェクトを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号との関係を表す少なくとも一部の付加情報を獲得するステップ;ミックスパラメータのセットを獲得するステップ;及び、前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップを含む。
一部の実施例において、方法は、オブジェクトのセットを持つオーディオ信号を獲得するステップ;前記オブジェクトのセットを表すソース信号のサブセットを獲得するステップ;及び、前記オーディオ信号と前記ソース信号のサブセットとの関係を表す前記付加情報の少なくとも一部を、前記ソース信号のサブセットから生成するステップを含む。
一部の実施例において、方法は、複数チャネルオーディオ信号を獲得するステップ;サウンドステージで前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップ;前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップ;及び、前記直接音方向及び所定のサウンド方向の関数として前記直接音方向における前記サブバンドパワーを修正することによって、ソース信号のセットでこれらソース信号の少なくとも一部におけるサブバンドパワーを推定するステップを含む。
一部の実施例において、方法は、ミキシングされたオーディオ信号を獲得するステップ;前記ミキシングされたオーディオ信号をリミキシングするためにミックスパラメータのセットを獲得するステップ;付加情報を利用できると、前記付加情報及びミックスパラメータのセットを用いて前記ミキシングされたオーディオ信号をリミキシングするステップ;付加情報を利用できないと、前記ミキシングされたオーディオ信号からブラインド(blind)パラメータのセットを生成するステップ;及び、前記ブラインドパラメータ及び前記ミックスパラメータのセットを用いてリミキシングされたオーディオ信号を生成するステップを含む。
一部の実施例において、方法は、スピーチ(speech)ソース信号を含むミキシングされたオーディオ信号を獲得するステップ;1つ以上の前記スピーチソース信号に所定の向上を指定するためのミックスパラメータを獲得するステップ;前記ミキシングされたオーディオ信号からブラインドパラメータのセットを獲得するステップ;前記ブラインドパラメータ及び前記ミックスパラメータからパラメータを生成するステップ;及び、前記ミックスパラメータによって前記1つ以上のスピーチソース信号をエンハンスするために前記ミキシングされた信号に前記パラメータを適用するステップを含む。
一部の実施例において、方法は、ミックスパラメータを指定した入力を受信するためのユーザインタフェースを生成するステップ;前記ユーザインタフェースを通じてミキシングパラメータを獲得するステップ;ソース信号を含む第1オーディオ信号を獲得するステップ;前記第1オーディオ信号と1つ以上のソース信号との関係を表す少なくとも一部の付加情報を獲得するステップ;及び、第2オーディオ信号を生成するために前記付加情報及び前記ミキシングパラメータを用いて前記1つ以上のソース信号をリミキシングするステップを含む。
一部の実施例において、方法は、オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップ;リミキシングされたオブジェクトのセットを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号との関係を表す付加情報の少なくとも一部を獲得するステップ;ミックスパラメータのセットを獲得するステップ;及び、前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップを含む。
一部の実施例において、方法は、ミキシングされたオーディオ信号を獲得するステップ;前記ミキシングされたオーディオ信号をリミキシングするためにミックスパラメータのセットを獲得するステップ;前記ミキシングパラメータのセット及び前記ミキシングされたオーディオ信号を用いてリミックスパラメータを生成するステップ;及び、n×nマトリクスを用いて前記ミキシングされたオーディオ信号に前記リミックスパラメータを適用することによって、リミキシングされたオーディオ信号を生成するステップを含む。
システム、方法、装置、コンピュータで読取りできる記録媒体及びユーザインタフェースに関する実施例を含む他の実施例が、リミキシング性能を持つ改善したオーディオにおいて開示される。
本出願は、全体として本明細書に統合された2006年5月4日に出願されたヨーロッパ特許出願第EP06113521号の“Enhancing Stereo Audio With Remix Capability”から優先権の利益を請求する。
本出願は、全体として本明細書に統合された2006年10月13日に出願された米国仮特許出願第60/829,350号の“Enhancing Stereo Audio With Remix Capability”から優先権の利益を請求する。
本出願は、全体として本明細書に統合された2007年1月11日に出願された米国仮特許出願第60/884,594号の“Separate Dialogue Volume”から優先権の利益を請求する。
本出願は、全体として本明細書に統合された2007年1月19日に出願された米国仮特許出願第60/885,742号の“Enhancing Stereo Audio With Remix Capability”から優先権の利益を請求する。
本出願は、全体として本明細書に統合された2007年2月6日に出願された米国仮特許出願第60/888,413号の“Object−Based Signal Reproduction”から優先権の利益を請求する。
本出願は、全体として本明細書に統合された2007年3月9日に出願された米国仮特許出願第60/894,162号の“Bitstream and Side Information For SAOC/Remix”から優先権の利益を請求する。
デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びM個のソース信号をエンコーディングするためのエンコーディングシステムの一実施例を示すブロック図である。 デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びM個のソース信号をエンコーディングするためのプロセスの一実施例を示す流れ図である。 ステレオ信号及びM個のソース信号を処理及び分析するための時間−周波数グラフである。 原ステレオ信号及び付加情報を用いてリミックスされるステレオ信号を推定するためのリミキシングシステムの一実施例を示すブロック図である。 図3Aに示すリミックスシステムを用いてリミックスされるステレオ信号を推定するためのプロセスの一実施例を示す流れ図である。 インデックスbを持つパーティションに属したSTFT(short−time Fourier transform)係数のインデックスiを示す図である。 人間音声システムの一定でない周波数分解能を摸倣するために一定のSTFTスペクトラムのスペクトル係数のグルーピングを示す図である。 通常のステレオオーディオエンコーディング部と結合された図1のエンコーディングシステムの一実施例を示すブロック図である。 通常のステレオオーディオエンコーディング部と結合された図1Aのエンコーディングシステムを用いたエンコーディングプロセスの一実施例を示す流れ図である。 通常のステレオオーディオデコーディング部と結合された図3Aのリミキシングシステムの一実施例を示すブロック図である。 ステレオオーディオデコーディング部と結合された図7Aのリミキシングシステムを用いたリミックスプロセスの一実施例を示す流れ図である。 全体的にブラインド付加情報生成を実行するエンコーディングシステムの一実施例を示すブロック図である。 図8Aのエンコーディングシステムを用いたエンコーディングプロセスの一実施例を示す流れ図である。 所定のソースレベル差Li=LdBにおけるゲイン関数f(M)の例を示す図である。 部分的なブラインド生成技術を用いた付加情報生成プロセスの一実施例を示す図である。 リミキシング性能を持つオーディオ装置にステレオ信号及びM個のソース信号及び/または付加情報を提供するためのクライアント/サーバ構成(architecture)の一実施例を示すブロック図である。 リミックス性能を持つメディアプレーヤーにおけるユーザインタフェースの一実施例を示す図である。 SAOC(spatial audio object)デコーディング及びリミックスデコーディングを結合したデコーディングシステムの一実施例を示す図である。 SDV(Separate Dialogue Volume)における一般的なミキシングモデルを示す図である。 SDV及びリミックス技術を結合したシステムの一実施例を示す図である。 図14Bに示すeq−ミックス(eq−mix)レンダリング部の一実施例を示す図である。 図1〜図15を参照して説明されたリミックス技術における分配システムの一実施例を示す図である。 リミックス情報を提供するための様々なビットストリームの一実施例における成分を示す図である。 図17Aに示すビットストリームを生成するためのリミックスエンコーディング部インタフェースの一実施例を示す図である。 図17Bに示すエンコーディング部インタフェースにより生成されたビットストリームを受信するためのリミックスデコーディング部インタフェースの一実施例を示す図である。 所定のオブジェクト信号においてエンハンスされたリミックス性能を提供する追加的な付加情報を生成するための拡張(extension)を含むシステムの一実施例を示すブロック図である。 図18に示すリミックスレンダリング部の一実施例を示すブロック図である。
I.リミキシングステレオ信号
図1Aは、デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びM個のソース信号をエンコーディングするためのエンコーディングシステム100の一実施例を示すブロック図である。一部の実施例において、エンコーディングシステム100は、たいてい、フィルタバンクアレイ102、付加情報生成器104及びエンコーディング部106を含む。
A.原(Original)及び所定のリミックスされた信号
Figure 2010507927
Figure 2010507927
Figure 2010507927
Figure 2010507927
一部の実施例において、上記のエンコーディングシステム100は、原ステレオオーディオ信号(以下、“ステレオ信号”ともいう。)を修正するための情報(以下、“付加情報”ともいう。)を提供または生成し、M個のソース信号は異なるゲインファクタでステレオ信号に“リミックス”される。該所定の修正されたステレオ信号は、式2で表現されることができる。
Figure 2010507927
ここで、ci及びdiは、M個のソース信号(すなわち、インデックス1,2,…,Mを持つソース信号)がリミックスされるための新しいゲインファクタ(以下、“ミキシングゲイン”または“ミキシングパラメータ”ともいう。)を表す。
該エンコーディングシステム100の目的は、原ステレオ信号のみで与えられたステレオ信号と少ない付加情報(例えば、前記ステレオ信号波形内に含まれた情報と比較して小さい情報)とをリミキシングするための情報を提供したり生成することである。このエンコーディングシステム100により提供されたり生成された付加情報は、上記の式1で与えられた上記の式2の所定の修正されたステレオ信号を知覚的に(perceptually)摸倣するためにデコーディング部で用いられることができる。エンコーディングシステム100で、付加情報生成器104は原ステレオ信号をリミキシングするための付加情報を生成し、デコーディングシステム300(図3A)は、付加情報及び原ステレオ信号を用いて所定のリミックスされたステレオオーディオ信号を生成する。
B.エンコーディング部プロセシング
再び図1Aを参照すると、原ステレオ信号及びM個のソース信号は、フィルタバンクアレイ102内に入力として提供されることができる。原ステレオ信号は、エンコーディング部102から直接出力される。一部の実施例において、エンコーディング部102から直接出力されたステレオ信号は、付加情報ビットストリームと同期化(synchronize)するように遅延されることができる。他の実施例において、該ステレオ信号出力は、デコーディング部で付加情報と同期化することができる。一部の実施例において、エンコーディングシステム100は、時間及び周波数の関数として信号統計学に適応させることができる。したがって、分析及び合成のために、図4及び図5に示すように、ステレオ信号及びM個のソース信号は、時間−周波数表現で処理されることができる。
図1Bは、デコーディング部でリミックスされるオブジェクトに対応するステレオ信号及びM個のソース信号をエンコーディングするためのプロセス108の一実施例を示す流れ図である。入力ステレオ信号及びM個のソース信号はサブバンドに分解される(110)。一部の実施例において、該分解はフィルタバンクアレイで行われる。各サブバンドにおいて、ゲインファクタは、より詳細に後述されるが、M個のソース信号に対して推定される(112)。各サブバンドにおいて、短期パワー推定値(short−time power estimates)は、後述するように、M個のソース信号に対して計算される(114)。これら推定されたゲインファクタ及びサブバンドパワーは、付加情報を生成するために量子化及びエンコーディングされることができる(116)。
図2は、ステレオ信号及びM個のソース信号を分析及び処理するための時間−周波数グラフを示す。このグラフにおいて、y軸は周波数を表し、複数の不定のサブバンド202に分けられる。x軸は時間を表し、時間スロット204に分けられる。図2で、点線で表示されたボックスのそれぞれは、個別のサブバンド及び時間スロット対を表す。したがって、与えられた時間スロット204において、時間スロット204に対応する1つ以上のサブバンド202はグループ206として処理されることができる。一部の実施例において、図4及び図5を参照して説明されるように、サブバンド202の幅は、人間聴覚システムと関連した認知限界に基づいて選択される。
一部の実施例において、入力ステレオ信号及びM個の入力ソース信号は、フィルタバンクアレイ102により複数のサブバンド202に分解される。各中心周波数でこれらのサブバンド202は同様に処理されることができる。これらステレオオーディオ入力信号のサブバンド対は、特定の周波数で、x1(k)及びx2(k)で表示され、ここで、kはサブバンド信号のダウンサンプリングされた時間インデックスである。同様に、M個の入力ソース信号における対応するサブバンド信号はs1(k)、s1(k),…,sM(k)で表示される。表示の単純化のためにサブバンドにおけるインデックスをこの例では省くものとする。ダウンサンプリングについて、より低いサンプリングレートを持つサブバンド信号が効率のために用いられることができる。たいてい、フィルタバンク及びSTFTは效果的にサブサンプリングされた信号(またはスペクトル係数)を持つ。
一部の実施例において、インデックスiを持つソース信号をリミキシングするのに必要な付加情報は、ゲインファクタai及びbi、及び各サブバンドにおける時間の関数としての該サブバンド信号のパワーの推定値E{si 2(k)}を含む。該ゲインファクタai及びbiは(該ステレオ信号の知識が知られると)与えられたり、推定されたりすることができる。多くのステレオ信号において、ai及びbiは固定的である。aiまたはbiが時間kの関数として変わるとしたら、これらゲインファクタは時間の関数として推定されることができる。付加情報を生成するためにサブバンドパワーの平均または推定を利用する必要がない。むしろ、一部の実施例において、実質的なサブバンドパワーsi 2がパワー推定値として用いられることができる。
一部の実施例において、短期サブバンドパワー(short−time subband power)は単極平均(single−pole averaging)を用いて推定されることができ、ここで、E{s1 2(k)}は、下記の式3で計算できる。
Figure 2010507927
ここで、α∈[0,1]は、指数的に減少する予測ウィンド(exponentially decaying estimation window)の時間定数である下記の式4を決定する。
Figure 2010507927
ここで、fsは、サブバンドサンプリング周波数を表示する。Tの適切な値は、例えば40ms(millisecond)である。続く式において、E{.}は一般的に単極平均を表す。
一部の実施例において、付加情報ai、biの一部または全部及びE{si 2(k)}は、ステレオ信号として同一メディアに提供されることができる。例えば、音楽出版社、録音スタジオ、録音アーティストなどは、コンパクトディスク(CD)、デジタルビデオディスク(DVD)、フラッシュドライブなどに対応するステレオ信号を持つ付加情報を提供することができる。一部の実施例において、ステレオ信号のビットストリームに当該付加情報を埋め込み(embedding)したり、分解されたビットストリームで当該付加情報を転送することによって、該付加情報の一部または全部はネットワーク(例えば、インターネット、イーサネット(登録商標)、無線ネットワーク)を通じて提供されることができる。
Figure 2010507927
Figure 2010507927
同様に、biは、下記の式6で計算されることができる。
Figure 2010507927
i及びbiが時間内に適応(adaptive)されると、E{.}オペレータは短期平均動作を表す。一方、ゲインファクタai及びbiが固定的であると、全体的にステレオオーディオ信号を考慮することによってこれらのゲインファクタが計算されることができる。一部の実施例において、ゲインファクタai及びbiは、各サブバンドにおいて独立的に推定されることができる。上記の式5及び式6で、siはステレオチャネルx1及びx2に含まれるので、一般的にソース信号si及びステレオチャネルx1及びx2ではなくソース信号siが独立しているということに注目されたい。
一部の実施例において、付加情報(例えば、低いビットレートビットストリーム)を形成するように各サブバンドにおいて短期パワー推定及びゲインファクタは量子化され、エンコーディング部106によりエンコーディングされる。これらの値は、直接的に量子化されてコーディングされることはできないが、図4及び図5を参照して説明される通り、最初は量子化及びコーディングに一層適当な他の値に変換されることができる。一部の実施例において、図6及び図7を参照して説明する通り、通常のオーディオコーディング部がステレオオーディオ信号を效果的にコーディングするのに用いられる場合に、変化に対してエンコーディングシステム100をロバスト(robust)にするために、E{si 2(k)}は、当該入力ステレオオーディオ信号のサブバンドパワーに対して正規化されることができる。
C.デコーディング部プロセシング(Decoder Processing)
図3Aは、原ステレオ信号及び付加情報を用いてリミックスされたステレオ信号を推定するためのリミキシングシステム300の一実施例を示すブロック図である。一部の実施例において、リミキシングシステム300は、一般的にフィルタバンクアレイ302、デコーディング部304、リミックスモジュール306及び逆フィルタバンクアレイ308を含む。
リミックスされたステレオオーディオ信号の推定は、多くのサブバンドで独立して実行されることができる。付加情報は、M個のソース信号がステレオ信号に含まれるゲインファクタai及びbi、及びサブバンドパワーE{si 2(k)}を含む。該所定のリミックスされたステレオ信号のミキシングゲインまたは新しいゲインファクタは、ci及びdiで表示される。これらのミキシングゲインci及びdiは、図12で説明される通り、オーディオ装置のユーザインタフェースを通じてユーザにより指定されることができる。
一部の実施例において、入力ステレオ信号は、特定の周波数におけるサブバンド対がx1(k)及びx2(k)で表示される、フィルタバンクアレイ302によりサブバンドに分解される。図3Aに示すように、付加情報は、デコーディング部304によりデコーディングされ、リミックスされるM個のソース信号のそれぞれに関する入力ステレオ出力に含まれたゲインファクタai及びbi、及び各サブバンドに関するパワー推定値であるE{si 2(k)}を獲得する。付加情報のデコーディングは、図4及び図5でより詳細に説明される。
付加情報が与えられると、リミックスされたステレオオーディオ信号の対応するサブバンド対は、該リミックスされたステレオ信号のミキシングゲインであるci及びdiの関数としてリミックスモジュール306により推定されることができる。逆フィルタバンクアレイ308は、リミックスされた時間ドメインステレオ信号を提供すべく、推定されたサブバンド対に適用される。
図3Bは、図3Aのリミキシングシステムを用いてリミックスされたステレオ信号を推定するためのリミックスプロセス(310)の一実施例を示す流れ図である。入力ステレオ信号は、サブバンド対に分解される(312)。付加情報は、サブバンド対のためにデコーディングされる(314)。これらのサブバンド対は、付加情報及びミキシングゲインを用いてリミックスされる(318)。一部の実施例において、図12で説明される通り、ミキシングゲインは、ユーザにより提供される。これらのミキシングゲインは、アプリケーション、オペレーティングシステムなどによりプログラムとして提供されても良い。これらのミキシングゲインは、図11で説明される通り、ネットワーク(例えば、インターネット、イーサネット(登録商標)、無線ネットワーク)を通じても提供されることができる。
D.リミキシングプロセス(The Remixing Process)
一部の実施例において、リミックスされたステレオ信号は、最小二乗推定(least squares estimation)を用いて数学的なセンスで近似されることができる。選択的に、この推定を修正するために知覚的な考察が用いられることができる。
式1及び2はそれぞれ、サブバンド対であるx1(k)及びx2(k)、そしてy1(k)及びy2(k)のためにも用意される。この場合に、ソース信号は、ソースサブバンド信号であるsi(k)に取り替えられる。
ステレオ信号のサブバンド対は、下記の式7で与えられる。
Figure 2010507927
そして、リミックスされたステレオオーディオ信号のサブバンド対は、下記の式8で与えられる。
Figure 2010507927
原ステレオ信号のサブバンド対であるx1(k)及びx2(k)が与えられると、該左側及び右側の源ステレオサブバンド対の線形組合せとして、相異なるゲインを持つステレオ信号のサブバンド対が推定されることができる。
Figure 2010507927
ここで、w11(k)、w12(k)、w21(k)及びw22(k)は、実数重みファクタである。
推定エラーは、下記の式10で定義される。
Figure 2010507927
平均二乗誤差(mean square error)であるE{e1 2(k)}とE{e2 2(k)}が最小となるように、各周波数におけるサブバンドにおいて、各時間kで重み値w11(k)、w12(k)、w21(k)及びw22(k)が計算されることができる。w11(k)及びw12(k)を計算すべく、エラーe1(k)がx1(k)及びx2(k)と直交する場合、すなわち、下記の式11が成立する場合に、E{e1 2(k)}が最小になるということに注目しなければならない。
Figure 2010507927
表示の便宜のために時間インデックスkは省略されたということに注目する。
書き直したこれらの式は、下記の式12を生成する。
Figure 2010507927
上記のゲインファクタは、下記の式13の線形方程式の解である。
Figure 2010507927
E{x1 2}、E{x2 2}及びE{x12}が、デコーディング部入力ステレオ信号サブバンド対が与えられると直接推定されることができるが、E{x11}及びE{x22}は、所定のリミックスされたステレオ信号のミキシングゲインであるci及びdi、及び付加情報E{s1 2},ai,biを用いて推定されることができる。
Figure 2010507927
同様に、w21及びw22は計算されることができ、結果的に下記の式16を持つ下記の式15となる。
Figure 2010507927
Figure 2010507927
左側及び右側サブバンド信号がコヒーレント(coherent)されたり、殆どコヒーレントされる場合、すなわち、下記の式17でΦが1に近づくと、重み値の解は唯一でないか不良状態(ill−conditioned)となる。
Figure 2010507927
したがって、Φが特定の臨界値(例えば、0.95)よりも大きいと、重み値は、例えば下記の式18のように計算されることができる。
Figure 2010507927
Φ=1という仮定の下に、式18は、上記異なる二つの重み値における同一直交方程式システム及び上記の式12を満たす唯一でない解のうちの1つである。上記の式17内のコヒーレンス(coherence)は、x1及びx2が互いにどれくらい同一かを判断するのに用いられる。該コヒーレンスが0であると、x1及びx2は独立している。コヒーレンスが1であると、x1及びx2は類似している(ただし、異なるレベルを有しても良い)。x1及びx2が非常に類似している(コヒーレンスが1に近似する)と、該二つのチャネルウィナー計算(Wiener computation)(4個の重み値計算)は不良状態である。上記臨界値の例示範囲は、約0.4〜約1.0である。
計算されたサブバンド信号を時間ドメインに変換することによって獲得された最終リミックスされたステレオ信号は、相異なるリミキシングゲインci及びdiで精密にリミックスされたようなステレオ信号(以下では“所定の信号(desired signal)”という。)と類似に聞こえる。一方、数学的に、これは、計算されたサブバンド信号が、精密に異なってミックスされたサブバンド信号と類似することを要求する。これは、特定の度合までの場合である。上記推定は、認知的に動機づけられたサブバンドドメインで実行されるから、類似の必要性は相対的に弱い。上記認知的に関連したローカリゼーションキュー(localization cue)(例えば、レベル差及びコヒーレンスキュー)が十分に類似している限り、計算されたリミックスされたステレオ信号は所定の信号と略同様に聞こえるはずである。
E.選択的:レベル差キューの調節
一部の実施例において、本明細書に説明されたプロセシングが用いられると、良い結果を得ることができる。それにも拘わらず、当該重要なレベル差ローカリゼーションキーが所定の信号のレベル差キューに非常に近接するのを保障する目的で、サブバンドのポスト−スケーリング(post−scaling)が、重要なレベル差ローカリゼーションキューが所定の信号のレベル差キューと一致するのを保障するように該レベル差キューを“調節”するのに適用されることができる。
上記の式9における最小二乗サブバンド信号推定値の修正のために、サブバンドパワーが考慮される。サブバンドパワーが正確であると、重要な空間キューレベル差も正確になるわけである。上記の式8の所定の信号の左側サブバンドパワーは下記の式19で表され、上記の式9からの推定値のサブバンドパワーは下記の式20で表される。
Figure 2010507927
Figure 2010507927
Figure 2010507927
Figure 2010507927
Figure 2010507927
Figure 2010507927
II.付加情報の量子化及びコーディング
A.エンコーディング
以前セクションで説明された通り、インデックスiを持つソース信号をリミキシングする上で必要な付加情報は、ファクタai及びbi、及び各サブバンドにおいて時間の関数としてのパワーE{s1 2(k)}である。一部の実施例において、これらゲインファクタai及びbiにおける対応するゲイン及びレベル差は、下記の式23のようにdBで計算されることができる。
Figure 2010507927
一部の実施例において、上記ゲイン及びレベル差値は量子化され、ハフマンコーディングされる。例えば、2dB量子化器ステップサイズを持つ同一量子化器(uniform quantizer)及び1次元ハフマンコーディング部が、量子化及びコーディングのためにそれぞれ用いられることができる。他の知られた量子化器及びコーディング部が用いられても良い(例えば、ベクトル量子化器)。
i及びbiが時間不変(time invariant)であり、付加情報が確実にデコーディング部に到達するとすれば、対応するコーディングされた値はただ一度転送される必要がある。そうでないと、ai及びbiは規則的な時間間隔でまたはトリガーイベント(例えば、コーディングされた値が変わる毎に)に応じて転送されることができる。
ステレオ信号のコーディングによるパワー損失/ゲイン及びステレオ信号のスケーリングに強くなるべく、一部の実施例で、サブバンドパワーE{si 2(k)}は付加情報として直接コーディングされない。むしろ、ステレオ信号に比例して定義された値が用いられることができる。
Figure 2010507927
複数の信号においてE{.}を計算するためには、同一の推定ウィンド/時間定数を用いることが有利である。上記の式24の相対的なパワー値として付加情報を定義することは、必要に応じて、エンコーディング部よりもデコーディング部で相異なる推定ウィンド/時間定数が用いられることができるという点でメリットがある。また、付加情報及びステレオ信号間の時間ずれ(time misalignment)の効果は、ソースパワーが絶対値として転送されうる場合と比べて減少する。Ai(k)を量子化及びコーディングするために、一部の実施例において、例えば2dBのステップサイズ及び一次元ハフマンコーディング部を持つ同一量子化器が用いられる。最終的なビットレートは、リミックスされたオーディオオブジェクトにつき約3kb/s(秒当たりキロビット)だけ少なくなることができる。
一部の実施例において、デコーディング部でリミックスされるオブジェクトに対応する入力ソース信号が無音(silent)である場合、ビットレートは減少することができる。エンコーディング部のコーディングモードは無音オブジェクトを感知し、当該オブジェクトが無音か否かを表す情報(例えば、フレーム当たり単一ビット)をデコーディング部に転送できる。
B.デコーディング
上記式23及び式24のハフマンデコーディングされた(量子化された)値が与えられると、リミキシングのために必要な値は下記の式25で計算されることができる。
Figure 2010507927
III .実施例の詳細
A.時間−周波数プロセシング
一部の実施例において、STFT(short−term Fourier transform)基盤プロセシングが、図1〜図3を参照して説明されたエンコーディング/デコーディングシステムにおいて用いられる。QMF(quadrature mirror filter)フィルタバンク、MDCT(modified discrete cosine transform)ウェーブレットフィルタバンク(wavelet filterbank)などを含むが、これらに限定されず、他の時間−周波数変換が所定の結果を達成するために用いられることができる。
分析プロセシング(例えば、フォワードフィルタバンク動作)のために、一部の実施例において、N個のポイントDFT(point discrete Fourier transform)または高速フーリエ変換(fast Fourier transform)が適用される前に、N個のサンプルのフレームがウィンドと乗算されることができる。一部の実施例において、下記の式26のサインウィンド(sine window)が用いられることができる。
Figure 2010507927
該プロセシングブロックサイズがDFT/FFTサイズと異なると、一部の実施例において、ゼロパッディング(zero padding)がN個よりも少ないウィンドを持つように效果的に用いられることができる。上記の分析プロセシングは、例えば、50%ウィンドオーバーラップを引き起こすN/2サンプル(ウィンドホップサイズ(window hop size)と等しい)ごとに反復されることができる。他のウィンド関数及び百分率オーバーラップが所定の結果を達成するために用いられることができる。
STFTスペクトルドメインを時間ドメインに変換するために、逆DFTまたはFFTが当該スペクトルに適用されることができる。この最終信号は、上記の式26に説明されたウィンドと再び乗算され、このウィンドとの乗算より生成された隣接信号ブロックは、連続した時間ドメイン信号を獲得するよう、加えられたオーバーラップと結合される。
一部の場合において、STFTの同一スペクトル分解能は、人間の認知に良く合わない場合もありうる。その場合、個別的に各STFT周波数係数を処理するのとは反対に、1つのグループが空間オーディオプロセシングのための適切な周波数分解であるERB(equivalent rectangular bandwidth)の約2倍の帯域幅を持つようにそれらSTFT係数が“グルーピング”されることができる。
図4には、インデックスbを持つパーティションに属したSTFTのインデックスiを示す。一部の実施例において、スペクトラムの第1のN/2+1スペクトル係数のみが考慮される。インデックスb(1≦b≦B)を持つ当該パーティションに属しているSTFT係数のインデックスであるiは、図4に示すように、A0=0であるi∈{Ab-1,Ab-1+1,…,Ab}を満たす。これらパーティションのスペクトル係数により表現される信号は、エンコーディングシステムにより用いられる認知的に動機づけられたサブバンド分解と一致する。したがって、それぞれのこのようなパーティション内に、上述したプロセシングが該パーティション内のSTFT係数に合同で適用される。
図5には、人間音声システムの不均一(non−uniform)周波数分解を摸倣するための同一STFTスペクトラムのスペクトル係数のグルーピングを例示する。図5で、約2ERBの帯域幅を持つ各パーティションは、44.1kHzのサンプリングレートにおいてN=1024、及びパーティションの数B=20を有する。ナイキスト周波数でのカットオフにより最後のパーティションは二つのERBよりも小さいということに注目する。
B.統計的データの推定(Estimation of Statistical Data)
二つのSTFT係数xi(k)及びxj(k)が与えられると、リミックスされたステレオオーディオ信号を計算するのに必要な値E{xi(k)xj(k)}が反復して推定されることができる。この場合に、サブバンドサンプリング周波数fsは、STFTスペクトラムが計算される時間周波数(temporal frequency)である。各認知的パーティションのための(各STFT係数のためのものではなく)推定値を得るべく、これら推定された値はさらに用いられる前に当該パーティション内に配置されることができる。
上のセクションで説明されたプロセシングは、それが1つのサブバンドであるかのように各パーティションに適用されることができる。周波数間の突然なプロセシング変化を避ける目的で、パーティション同士間のスムージング(smoothing)が、例えばスペクトラムウィンドをオーバーラッピングすることを用いて達成でき、よって、雑音(artifact)を減らすことができる。
C.通常のオーディオコーディング部との組合せ
図6Aは、通常のステレオオーディオエンコーディング部と結合された図1Aのエンコーディングシステム100の一実施例を示すブロック図である。一部の実施例において、結合されたエンコーディングシステム600は、通常のオーディオエンコーディング部602、提案されたエンコーディング部604(例えば、エンコーディングシステム100)、及びビットストリームコンバイナ606を含む。この実施例において、ステレオオーディオ入力信号は、図1〜図5を参照して説明された通り、通常のオーディオエンコーディング部602(例えば、MP3、AAC、MPEGサラウンド等)によりエンコーディングされ、付加情報を提供するための提案されたエンコーディング部604により分析される。逆方向互換可能なビットストリームを提供すべく、これら両方の結果ビットストリームはビットストリームコンバイナ606により結合される。一部の実施例において、結果ビットストリームを結合することは、低いビットレート付加情報(例えば、ゲインファクタai、bi及びサブバンドパワーE{si 2(k)})を、逆方向互換可能なビットストリーム中に埋め込む(embedding)ことを含む。
図6Bは、通常のステレオオーディオエンコーディング部と結合された図1Aのエンコーディングシステム100を用いたエンコーディングプロセス(608)の一実施例を示す流れ図である。入力ステレオ信号は、通常のステレオオーディオエンコーディング部でエンコーディングされる(610)。付加情報は、図1Aのエンコーディングシステム100で、ステレオ信号及びM個のソース信号より生成される(612)。該エンコーディングされたステレオ信号及び付加情報を含む1つ以上の逆方向互換可能なビットストリームが生成される(614)。
図7Aは、通常のステレオオーディオデコーディング部と図3Aのリミキシングシステム300が結合され、結合システム700を提供する一実施例を示すブロック図である。一部の実施例において、結合されたシステム700は、一般的にビットストリームパーサー(parser)、通常のオーディオデコーディング部704(例えば、MP3、AAC)、及び提案されたデコーディング部(706)を含む。一部の実施例では、提案されたデコーディング部706は、図3Aのリミキシングシステム300とする。
この実施例で、ビットストリームは、リミキシング性能を提供するように、提案されたデコーディング部706により要求される付加情報を含むビットストリームとステレオオーディオビットストリームとに分解される。該ステレオ信号は、通常のオーディオデコーディング部704によりデコーディングされたのち、ビットストリーム及びユーザ入力(例えば、ミキシングゲインci及びdi)から獲得された付加情報の関数としてステレオ信号を修正する提案されたデコーディング部706に提供される。
図7Bは、図7Aの結合されたシステム700を用いたリミックスプロセス(708)の一実施例を示すブロック図である。エンコーディング部から受信したビットストリームは、エンコーディングされたステレオ信号ビットストリーム及び付加情報として提供されるように分析される(710)。該エンコーディングされたステレオ信号は、通常のオーディオデコーディング部712でデコーディングされる。デコーディング部の例には、MP3、AAC(AACの数多くの標準化したプロファイルを含む)、パラメトリックステレオ、SBR(spectral band replication)、MPEGサラウンドまたはこれらの組合せが含まれる。該デコーディングされたステレオ信号は、付加情報及びユーザ入力(例えば、ci及びdi)によってリミックスされる。
IV.マルチチャネルオーディオ信号のリミキシング
一部の実施例において、上のセクションで説明されたエンコーディング及びリミキシングシステム100,300は、リミキシングマルチチャネルオーディオ信号(例えば、5.1サラウンド信号)まで拡張されることができる。ここで、ステレオ信号及びマルチチャネル信号は“複数チャネル(plural−channel)”信号とも言及される。この分野における通常の知識を持つ者には、マルチチャネルエンコーディング/デコーディングスキーム(scheme)において、すなわち、Cがリミックスされた信号のオーディオチャネルの数である二つ以上の信号x1(k)、x2(k)、x3(k)、…、xc(k)において、上記の式7〜式22を書き直す(rewrite)方法がわかる。
マルチチャネルの場合において、上記の式9は下記の式27となる。
Figure 2010507927
C個の式を持つ上記の式11に類似する式が導き出されることができ、前述したように、重み値を決定するために解かれることができる。
一部の実施例において、特定チャネルは処理されずに残っていることができる。例えば、5.1サラウンドにおいて、二つの後方チャネルは処理されずに残っていることができ、リミキシングは前方左側、右側、中心チャネルにのみ適用される。この場合に、三つのチャネルリミキシングアルゴリズムはこれら前方チャネルに適用されることができる。
前述したリミキシングスキームより生成されるオーディオ品質は、行われた修正の特性による。相対的に弱い修正、例えば、0dB〜15dBのパンニング変化または10dBのゲイン修正において、結果オーディオ品質は通常の技術により達成されるものよりも良好になりうる。また、所望のリミキシングを達成するのに不可欠なものとしてステレオ信号が修正されるので、該提案された前述のリミキシングスキームの品質は、通常のリミキシングスキームのそれに比べて一層高くなることができる。
本明細書に開示されたリミキシングスキームは、通常の技術を越えて数個の利点を提供する。まず、与えられたステレオまたはマルチチャネルオーディオ信号内の全体オブジェクトの数よりも少ないリミキシングを許容する。これは、与えられたステレオオーディオ信号とM個のオブジェクトを表すM個のソース信号の関数として付加情報を推定することによって達成でき、デコーディング部におけるリミキシングを可能にする。該開示されたリミキシングシステムは、実に相異なってミックスされたステレオ信号と認知的に類似するステレオ信号を生成すべく、ユーザ入力(所望のリミキシング)の関数として及び付加情報の関数として当該与えられたステレオ信号を処理する。
V.基本的なリミキシングスキームまでの拡張
A.付加情報プリプロセシング
サブバンドが隣り合うサブバンドに対して非常に弱まる場合、オーディオ雑音が発生することができる。したがって、最大の弱化(attenuation)を制限することが好ましい。さらに、ステレオ信号及びオブジェクトソース信号統計は、エンコーディング部及びデコーディング部でそれぞれ独立して測定され、該測定されたステレオ信号サブバンドパワーとオブジェクト信号サブバンドパワー間の比(付加情報によって表される)は、実際から外れることができる。このため、付加情報は、物理的に不可能になりうる。すなわち、例えば、付加情報は、上記の式19のリミックスされた信号の信号パワーが負数となることができる。上述した問題はいずれも以下に説明されることができる。
左側及び右側のリミックスされた信号のサブバンドパワーは、下記の式28で表される。
Figure 2010507927
ここで、Psiは、付加情報の関数として計算された、上記の式25で与えられた量子化され且つコーディングされたサブバンドパワー推定値と同一である。リミックスされた信号のサブバンドパワーが、原ステレオ信号のサブバンドパワーであるE{x1 2}以下のLdBより絶対に小さくならないように、リミックスされた信号のサブバンドパワーは制限されることができる。同様に、E{y2 2}は、E{x2 2}以下のLdBより小さくならないように制限される。この結果は下記の動作によって達成されることができる。
1.上記の式28によって左側及び右側のリミックスされた信号サブバンドパワーを計算。
2.E{y1 2}<QE{x1 2}の場合、E{y1 2}=QE{x1 2}が維持されるように付加情報計算された値Psiを調節。E{x1 2}のパワー以下のAdBより絶対に小さくならないようにE{y1 2}のパワーを制限すべく、QはQ=10-A/10に設定されることができる。次いで、Psiは下記の式29と乗算することによって調節されることができる。
Figure 2010507927
3.E{y2 2}<QE{x2 2}の場合、E{y2 2}=QE{x2 2}が維持されるように、付加情報計算された値Psiを調節。これは、下記の式30とPsiを乗算することで達成されることができる。
Figure 2010507927
Figure 2010507927
B.4個または2個の重み値のいずれを用いるかを決定
多くの場合において、上記の式18の二つの重み値が、上記の式9の左側及び右側のリミックスされた信号サブバンドを計算するのに適合している。一部の場合において、より良い結果は、上記の式13〜式15の4個の重み値を利用することによって達成できる。二つの重み値を利用することは、左側出力信号を生成する上で左側原信号のみが用いられるということを意味し、右側出力信号においても同様である。したがって、4個の重み値が望ましいシナリオは、一方のオブジェクトが反対の方に置かれるようにリミックスされる場合である。この場合に、一方(例えば、左側チャネル)にのみ最初から位置する信号は、リミキシング後にたいてい他方(例えば、右側チャネル)に位置するはずなので、4個の重み値を利用することが有利と期待される。したがって、4個の重み値は、原左側チャネルからリミックスされた右側チャネルへとまたはその逆の方向へと信号の流れを許容するのに用いられることができる。
4個の重み値計算の最小二乗問題が深刻な場合、これら重み値の大きさは大きくなることができる。同様に、詳述した一方から他方へのリミキシングが用いられる場合、2個の重み値のみが用いられると重み値の大きさは大きくなることができる。この観察結果が動機となり、一部の実施例においては、次の基準が、4個の重み値を用いるか2個の重み値を用いるかを決定するのに用いられることができる。
A<Bの場合、4個の重み値が用いられ、その他の場合は2個の重み値を利用する。A及びBは4個及び2個の重み値においてそれぞれの重み値の大きさの測定値である。一部の実施例において、A及びBは次のように計算される。Aを計算するに当たり、まず、上記の式13〜式15によって4個の重み値を計算し、A=w11 2+w12 2+w21 2+w22 2に設定する。Bを計算するに当たり、上記の式18によって重み値を計算し、B=w112+w222が計算される。
C.必要時に弱化度を向上(Improving Degree of Attenuation When Desired)
Figure 2010507927
D.重み値スムージングによりオーディオ品質を向上(Improving Audio Quality By Weight Smoothing)
特に、オーディオ信号が音調(tonal)または定常的(stationary)である場合、開示されたリミキシングスキームは、所定の信号に雑音を誘導できるということが観察された。オーディオ音質を向上させるために、各サブバンドで定常性(stationarity)/音調性(tonality)測定値が計算されることができる。この定常性/音調性測定値が特定の臨界値TON0を超過すると、推定重み値は時間を超過してスムージングされる。このスムージング動作は後述される。各サブバンドに対して、各時間インデックスkにおいて、出力サブバンドを計算するのに適用される重み値は、下記のようにして獲得される。
Figure 2010507927
Figure 2010507927
その他の場合では、
Figure 2010507927
E.アンビエンス(Ambience)/リバーブ(Reverb)制御
本明細書に説明されたリミックス技術は、ミキシングゲインci及びdiに関してユーザ制御を提供する。これは、各オブジェクトにおいてゲインGi及び振幅パンニングLi(方向)を決定することに対応し、ここで、ゲイン及びパンニングはいずれもci及びdiにより決定される。
Figure 2010507927
一部の実施例において、ソース信号のゲイン及び振幅パンニングではなくステレオミックスの他の特徴を制御することが望ましい。下記の説明で、ステレオオーディオ信号のアンビエンスの度合を修正するための技術が説明される。このデコーディング部タスクに付加情報は用いられない。
一部の実施例において、数学式44に与えられた信号モデルは、ステレオ信号のアンビエンスの度合を修正するのに用いられることができ、ここで、n1及びn2のサブバンドパワーは同一であるとする。すなわち、下記の式34となる。
Figure 2010507927
再び、s、n1及びn2が相互独立したものと仮定されることができる。これらの仮定が与えられると、上記の式17のコヒーレンスは、下記の式35のように書かれることができる。
Figure 2010507927
これは、変数PN(k)を持つ2次方程式に対応する。
Figure 2010507927
この二次方程式の解は、下記の式37である。
Figure 2010507927
N(k)は、E{x1 2(k)}+E{x2 2(k)}より小さいか等しくならなければならないので、物理的に可能な限り平方根の前に負数符号を持つ下記の式38となる。
Figure 2010507927
Figure 2010507927
F.相異なる付加情報(Different Side Information)
一部の実施例において、修正されたまたは相異なる付加情報がビットレートにおいてより効果的な上記のリミキシングスキームに使われる。例えば、上記の式24で、Ai(k)は任意値を持つことができる。また、原ソース信号si(n)のレベルに依存する。したがって、所定の範囲で付加情報を獲得するためにソース入力信号のレベルは調節される必要がある。この調節を避けるために、かつ、原ソース信号レベルに対する付加情報の依存を除去するために、一部の実施例において、ソースサブバンドパワーは上記の式24でのようにステレオ信号サブバンドパワーに対して正規化されることができるだけでなく、ミキシングゲインが考慮されることができる。
Figure 2010507927
これは、ステレオ信号で正規化されたステレオ信号内に含まれたソースパワー(直接的にソースパワーではない)を付加情報として用いることに対応する。または、下記のような正規化を用いることができる。
Figure 2010507927
i(k)は、0dBより小さいか等しい値を持つことができるので、この付加情報はより効果的である。上記の式39及び式40でサブバンドパワーE{si 2(k)}が得られるということに注目する。
G.ステレオソース信号/オブジェクト(Stereo Source Signals/Objects)
本明細書に説明された上記リミックススキームは、ステレオソース信号を扱いやすくするように拡張されることができる。付加情報の観点で、ステレオ信号は、2個のモノソース信号のように取り扱われる。その1つは左側でミキシングされ、残り1つは、右側でのみミキシングされる。すなわち、左側ソース信号iはノンゼロ(non−zero)左側ゲインファクタai及びゼロゲインファクタbi+1を持つ。ゲインファクタai及びb1は、上記の式6で推定されることができる。ステレオソースがまるで二つのモノソースであるかのように付加情報が転送されることができる。各ソースがモノソースかステレオソースかをデコーディング部に表すために一部情報がデコーディング部に転送される必要がある。
デコーディング部プロセシング及びGUI(graphical user interface)を考慮すると、1つの可能性は、モノソース信号のように同一にステレオソース信号をデコーディング部に配置することである。すなわち、ステレオソース信号はモノソース信号と類似するゲイン及びパンニング制御を持つ。一部の実施例において、リミックスされないステレオ信号のGUIのゲイン及びパンニング制御とゲインファクタ間の関係は、下記の式41で選択されることができる。
Figure 2010507927
すなわち、これらの値にGUIが初期に設定されることができる。ユーザにより選択されたGAIN及びPAN間の関係及び新しいゲインファクタが下記の式42で選択されることができる。
Figure 2010507927
上記の式42は、リミキシングゲイン(ci+1=0及びdi=0を持つ)として用いられうるci及びdi+1の解を求めることができる。上述した機能は、ステレオ増幅器における“バランス”制御に似ている。該ソース信号の左側及び右側チャネルのゲインは、クロストーク(cross−talk)を取り込むことなく修正される。
VI.付加情報のブラインド生成
A.付加情報の全体的なブラインド生成
上述したリミキシングスキームにおいて、エンコーディング部は、デコーディング部でリミックスされるオブジェクトを表す多くのソース信号及びステレオ信号を受信する。該デコーディング部でインデックスiを持つソースシングルをリミキシングするのに必要な付加情報は、ゲインファクタai及びbi、そしてサブバンドパワーE{si 2(k)}より決定される。ソース信号が与えられる場合における付加情報の決定は、上のセクションで説明された。
ステレオ信号は容易に獲得されるのに対し(これは、現存する製品に対応するので)、デコーディング部でリミックスされるオブジェクトに対応するソース信号は獲得し難いことがある。したがって、オブジェクトのソース信号が利用できないとしてもリミキシングのための付加情報を生成することが好ましい。次に、ステレオ信号のみで付加情報を生成するための全体的ブラインド生成技術について説明する。
図8Aは、全体的ブラインド付加情報生成を実行するエンコーディングシステム800の一実施例を示すブロック図である。エンコーディングシステム800は、一般的に、フィルタバンクアレイ802、付加情報生成器804及びエンコーディング部806を含む。ステレオ信号は、ステレオ信号(例えば、右側及び左側チャネル)をサブバンド対に分解するフィルタバンクアレイ802で受信する。これらサブバンド対は、所定のソースレベル差Li及びゲイン関数f(M)を用いてサブバンド対より付加情報を生成する付加情報プロセシング部804で受信する。フィルタバンクアレイ802及び付加情報プロセシング部804のいずれもソース信号で作動しないということに注目する。付加情報は、入力ステレオ信号、所定のソースレベル差Li及びゲイン関数f(M)より全体的に導き出される。
図8Bは、図8Aのエンコーディングシステム800を用いたエンコーディングプロセス(808)の一実施例を示す流れ図である。入力ステレオ信号は、サブバンド対に分解される(810)。各サブバンドにおいて、ゲインファクタai及びbiは、所定のソースレベル差値Liを用いて各所定のソース信号において決定される(812)。直接音ソース信号(例えば、サウンドステージでセンターパンニングされたソース信号)において、所定のソースレベル差Li=0dBである。Liが与えられると、ゲインファクタが計算される。
Figure 2010507927
ここで、A=10Li/10である。ai 2+bi 2=1となるように、ai及びbiが計算されるということに注目する。この条件が不可欠なものというわけではなく、むしろ、これは、Liの大きさが大きい場合、aiまたはbiが大きくなるのを防ぐための臨時的選択である。
次いで、直接音のサブバンドパワーは、サブバンド対及びミキシングゲインを用いて推定される(814)。該直接音サブバンドパワーを計算するために、各時間で各入力信号左側及び右側サブバンドは、下記の式44で書かれるとすることができる。
Figure 2010507927
ここで、a及びbはミキシングゲインであり、sは全てのソース信号の直接音を表し、n1及びn2は独立した周辺サウンドを表す。
a及びbは、下記の式45であると仮定されることができる。
Figure 2010507927
ここで、B=E{x2 2(k)}/E{x1 2(k)}である。sがx2及びx1に含まれ、x2とx1間のレベル差と同様なレベル差を持つように、a及びbが計算されうるということに注目する。直接音のdBへのレベル差M=log10Bである。
上記の式44に与えられた信号モデルによって直接音サブバンドパワーE{s2(k)}を計算できる。一部の実施例において、下記の方程式システムが用いられる。
Figure 2010507927
上記の式34中のs、n1及びn2が互いに独立しており、上記の式46中の左辺量が測定されることができ、a及びbが利用可能であるということが上記の式46で仮定される。したがって、上記の式46において知られていない三つは、E{s2(k)},E{n1 2(k)}及びE{n2 2(k)}である。直接音サブバンドパワーE{s2(k)}は、下記の式47で与えられることができる。
Figure 2010507927
該直接音サブバンドパワーは、上記の式47のコヒーレンスの関数として書かれることができる。
Figure 2010507927
一部の実施例において、所定のソースサブバンドパワーE{si 2(k)}の計算は、2ステップで行われることができる。まず、直接音サブバンドパワーE{s2(k)}が計算され、ここで、sは上の式44中の全てのソースの直接音(例えば、センターパンニングされたもの)を表す。次いで、直接音方向(Mで表示される)と所定のサウンド方向(所定のソースレベル差Lで表示される)の関数として、直接音サブバンドパワーE{s2(k)}を修正することによって、所定のサウンドサブバンドパワーE{si 2(k)}が計算される(816)。
Figure 2010507927
ここで、f(.)は方向の関数として、所定のソース方向においてただ1つに近接したゲインファクタをリターンするゲイン関数である。最後のステップとして、ゲインファクタ及びサブバンドパワーE{si 2(k)}は付加情報を生成するように量子化されエンコーディングされることができる(818)。
図9は、所定のソースレベル差Li=LdBにおけるゲイン関数f(M)を示す図である。所定の方向L0周囲に多いか少ない狭いピークを持つようにf(M)を選択することによって、方向性の度合が制御されることができるということに注目する。センターにおける所定のソースにおいて、L0=6dBのピーク幅が用いられることができる。
詳述した全体的ブラインド技術により、与えられたソース信号siにおける付加情報(ai,bi,E{si 2(k)})が決定されることができるということに注目する。
B.付加情報のブラインド及びノンブラインド生成間の組合せ(Combination Between Blind and Non−Blind Generation of Side Information)
上述した全体的ブラインド生成技術は、特定の環境下で制限されることができる。例えば、二つのオブジェクトがステレオサウンドステージで同一のポジション(方向)を持つとすれば、1つまたは二つのオブジェクトに関する付加情報をブラインド的に生成することはできないかもしれない。
付加情報の全体的ブラインド生成の代案は、付加情報の部分的ブラインド生成である。この部分的ブラインド技術は、原オブジェクトウェーブフォームにラフ(rough)に対応するオブジェクトウェーブフォームを生成する。これは、例えば、歌手または音楽家が演奏/特定のオブジェクト信号を再生することによってなることができる。または、この目的のためにMIDIデータを配置し、シンセサイザー(synthesizer)が当該オブジェクト信号を生成するように配置されることができる。一部の実施例において、“ラフ”オブジェクトウェーブフォームは、付加情報が生成されることに関するステレオ信号で時間配列される。続いて、該付加情報は、ブラインド及びノンブラインド付加情報生成の組合せであるプロセスを用いて生成されることができる。
図10は、部分的ブラインド生成技術を用いた付加情報生成プロセス(1000)の一実施例を示す流れ図である。プロセス(1000)は、入力ステレオ信号及びM個の“ラフ”ソース信号を獲得することによって始まる(1002)。次に、ゲインファクタai及びbiがM個の“ラフ”ソース信号において決定される(1004)。各サブバンド内の各時間スロットで、サブバンドパワーE{si 2(k)}の第1短期推定値(short−time estimate)は、それぞれの“ラフ”ソース信号において決定される(1006)。サブバンドパワーEhat{si 2(k)}の第2短期推定値は、入力ステレオ信号に適用された全体的ブラインド生成技術を用いてそれぞれの“ラフ”ソース信号において決定される(1008)。
最後に、付加情報計算のために效果的に用いられることのできる、第1及び第2サブバンドパワー推定値を結合し、最終的な推定値をリターンした当該推定されたサブバンドパワーに関数が適用される。一部の実施例において、該関数F()は、下記の式50で与えられる。
Figure 2010507927
VI.構成、ユーザインタフェース、ビットストリームシンタックス(ARCHITECTURES、USERINTERFACES、BITSTREAM SYNTAX)
A.クライアント/サーバ構成
図11は、リミキシング性能を持つオーディオ装置1110にステレオ信号及びM個のソース信号及び/または付加情報を提供するためのクライアント/サーバ構成の一実施例を示すブロック図である。この構成1100は、一例に過ぎず、より多いかより少ない成分を持つ構成を含む他の構成も可能である。
構成1100は、保存場所1104(例えば、MySQLTM)及びサーバ1106(例えば、Windows(登録商標)TM、Linux(登録商標)サーバ)を有するダウンロードサービス1102を一般的に含む。保存場所1104は、専門的にミックスされたステレオ信号及びこれらステレオ信号中のオブジェクト及び数多くの効果(例えば、残響)に対応する結合されたソース信号を含む多種のコンテンツを格納することができる。これらのステレオ信号は、MP3、PCM、AACなどを含む数多くの標準化されたフォーマットで格納されることができる。
一部の実施例において、ソース信号は、保存場所1104内に格納され、オーディオ装置1110へのダウンロードに使用可能になっている。一部の実施例において、前処理された付加情報が保存場所1104内に格納され、オーディオ装置1110へのダウンロードに使用可能になっている。前処理された付加情報は、図1A、図6A及び図8Aで説明された1つ以上のエンコーディングスキームを用いてサーバ106により生成されることができる。
一部の実施例において、ダウンロードサービス1102(例えば、ウェブサイト、ミュージックストア)は、ネットワーク1108(例えば、インターネット、イントラネット、イーサネット(登録商標)、無線ネットワーク、ピアツーピアネットワーク)を通じてオーディオ装置1110と通信する。オーディオ装置1110は、上述したリミキシングスキームを実行できる所定の装置(例えば、メディアプレーヤー/レコーダ、携帯電話、PDA(personal digital assistant)、ゲームコンソール(game consoles)、セットトップボックス、テレビ受信機、メディアセンター等)でありうる。
B.オーディオ装置構成(Audio Device Architecture)
一部の実施例において、オーディオ装置1110は、1つ以上のプロセッサまたはプロセッサコア1112、入力デバイス1114(例えば、クリックホイール(click wheel)、マウス、ジョイスチック、タッチスクリーン)、出力デバイス1120(例えば、LCD)、ネットワークインタフェース1118(例えば、USB、ファイヤーワイヤー(firewire)、インターネット、ネットワークインタフェースカード、無線トランシーバ(transceiver))、及びコンピュータで読取りできる記録媒体1116(例えば、メモリ、ハードディスク、フラッシュドライブ)を含む。これら構成成分の一部または全部は、コミュニケーションチャネル1112(例えば、バス、ブリッジ)を通じて情報を送信及び/または受信することができる。
一部の実施例において、コンピュータで読取りできる記録媒体1116は、オペレーティングシステム、ミュージックマネジャー、オーディオプロセッサ、リミックスモジュール及びミュージックライブラリを含む。オペレーティングシステムは、ファイル管理、メモリアクセス、バスコンテンション(contention)、周辺装置管理、ユーザインタフェース管理、パワー管理などを含むオーディオ装置1110の基本的な管理及びコミュニケーション任務を果たす。ミュージックマネジャーは、ミュージックライブラリを管理するアプリケーションでありうる。オーディオプロセッサは、音楽ファイル(例えば、MP3、CDオーディオ等)を実行するための通常のオーディオプロセッサでありうる。リミックスモジュールは、図1〜図10で説明されたリミキシングスキームの機能を実行する1つ以上のソフトウェア成分でありうる。
一部の実施例において、サーバ1106は、図1A、図6A及び図8Aを参照して説明した通り、ステレオ信号をエンコーディングし、付加情報を生成する。ステレオ信号及び付加情報は、ネットワーク1108を通じてオーディオ装置1110にダウンロードされる。リミックスモジュールは、これらの信号及び付加情報をデコーディングし、入力デバイス1114(例えば、キーボード、クリックホイール、タッチディスプレイ)を通じて受信したユーザ入力に基づいてリミックス性能を提供する。
C.ユーザ入力を受信するためのユーザインタフェース(User Interface For Receiving User Input)
図12は、リミックス性能を持つメディアプレーヤー1200のためのユーザインタフェース1202の実施例例である。ユーザインタフェース1202は、他の装置(例えば、携帯電話、コンピュータ等)に適合しても良い。該ユーザインタフェースは、図示した構成またはフォーマットに限定されず、他の種類のユーザインタフェース成分(例えば、ナビゲーション制御、タッチ表面)を含むことができる。
ユーザは、ユーザインタフェース1202上の適切なアイテムを強調(highlight)することによって、装置1200における“リミックス”モードに入ることができる。この例で、ユーザは、ミュージックライブラリから歌を選択し、リードボーカルトラックのパンセッティングを希望するとする。例えば、ユーザは、左側オーディオチャネルでより多くのリードボーカルを聞くことを希望することができる。
所定のパン制御への接近を得るために、ユーザは、サブメニュー1204,1206,1208を調整することができる。例えば、ユーザは、ホイール1210を用いてサブメニュー1204,1206,1208上のアイテムを通じてスクロールできる。ユーザは、ボタン1212をクリックすることによって最も関心のあるメニューアイテムを選択することができる。サブメニュー1208は、リードボーカルトラックのための所定のパン制御への接近を提供する。続いて、ユーザは、歌が演奏される中に所望通りにリードボーカルのパンを調整するためにスライダーを操作(例えば、ホイール1210を使用)することができる。
D.ビットストリームシンタックス(Bitstream Syntax)
一部の実施例において、図1〜図10を参照して説明されたリミキシングスキームは、現存または将来のオーディオコーディング標準(例えば、MPEG−4)に含まれることができる。現存または将来のコーディング標準におけるビットストリームシンタックスは、ユーザによるリミキシングを許容するビットストリームを処理する方法を決定するために、リミキシング性能を持つデコーディング部により用いられうる情報を含むことができる。このようなシンタックスは、通常のコーディングスキームを持つ下位互換性(backward compatibility)を提供するように製作されることができる。例えば、ビットストリーム内に含まれたデータ構造(例えば、パケットヘッダ)は、リミキシングのための付加情報(例えば、ゲインファクタ、サブバンドパワー)の利用可能性を示す情報(例えば、1つ以上のビットまたはフラグ)を含むことができる。
本明細書に開示された機能的な動作、そして上述した各実施例及び他の実施例は、本明細書に開示された構造及びその構造的均等物を含むコンピュータソフトウェア、ファームウェアまたはハードウェアで、またはデジタル電子回路またはこれらの1つ以上の組合せで実行されることができる。上述の実施例及びその他の実施例は、1つ以上のコンピュータプログラム製品、すなわちデータプロセシング装置の動作を制御するためにまたはデータプロセシング装置による実行のためのコンピュータで読取りできる記録媒体にエンコーディングされたコンピュータプログラム命令の1つ以上のモジュールとして実行されることができる。該コンピュータで読取りできる記録媒体は、機械装置で読取りできる記憶装置、機械装置で読取りできる記憶基板(storage substrate)、メモリ装置、装置で読取りできる伝播された信号に影響を与える物質の組成、または1つ以上のこれらの組合せでありうる。ここでいう“データプロセシング装置”という用語は、例えば、プログラム可能なプロセッサ、コンピュータまたは複数のプロセッサまたはコンピュータを含む全ての機械(apparatus)、装置、ディバイスを含む。当該装置は、上記コンピュータプログラムのための実行環境を作るコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステムまたは1つ以上のこれらの組合せを構成するコードそしてハードウェアを含むことができる。伝播された信号は、適切なレシーバー装置への転送のための情報をエンコーディングするために生成された、人為的に生成された信号、例えば、機械で生成された電気、光学または電磁気的信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも知られている)は、コンパイルされたり解釈された言語を含むプログラミング言語の形態で用いられることができ、スタンドアロンプログラムまたはモジュール、サブルーチンまたはコンピュータ環境に利用するのに適合する他のユニットを含む所定の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに必ずしも対応するわけではない。プログラムは、他のプログラムまたはデータ(マークアップ言語文書に格納された1つ以上のスクリプト)を保持するファイルの一部に格納されることができ、本プログラム専用である1つのファイルまたは複数の共同動作ファイル(例えば、1つ以上のモジュール、サブプログラムまたはコードの一部)に提供された単一ファイルで格納されることができる。コンピュータプログラムは、1つの位置に位置したり複数の位置を経て分配されたりし、通信ネットワークによりインターコネクトされた、1つのコンピュータまたは複数のコンピュータで実行されうるように展開することができる。
本明細書に説明されたプロセス及び論理流れは、入力データを動作し出力を生成することによって機能を実行する1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサにより実行されることができる。これらのプロセッサ及び論理流れは、特殊目的論理回路、例えば、FPGA(field programmable gate array)またはASIC(application−specific integrated circuit)により実行されても良く、装置はこれらとして実施例されても良い。
コンピュータプログラムの実行に適合するプロセッサは、例えば、一般的及び特殊目的マイクロプロセッサ及び所定の種類のディジタルコンピュータの所定の1つ以上のプロセッサを含む。一般的に、プロセッサはROMまたはRAMまたはこれら両方から命令及びデータを受信する。コンピュータの核心要素は、命令及びデータを格納するための1つ以上のメモリ装置及び命令を実行するためのプロセッサである。一般的に、コンピュータはデータを格納するための1つ以上の巨大記憶装置、例えば、磁気、磁気光学ディスクまたは光学ディスクからデータを受信したりこれらにデータを転送したり、これら両方を行ったりするように含むか、效果的に結合されても良い。しかし、コンピュータはこのような装置を持つ必要がない。コンピュータプログラム命令及びデータを格納するのに適合するコンピュータで読取りできる記録媒体は、例えば、半導体メモリ装置、例えばEPROM、EEPROM、及びフラッシュメモリ装置;磁気ディスク、例えば内部ハードディスクまたは取り外し可能なディスク;磁気光学ディスク;及び、CD−ROM及びDVD−ROMディスクを含む不揮発性メモリ、メディア及びメモリ装置のいずれの形態をも含む。該プロセッサ及びメモリは、特殊目的ロジック回路により補充されたり、それに統合されることができる。
ユーザとの相互作用を提供するために、上述した実施例は、ユーザに情報を表示するためのディスプレイ装置、例えばCRT(cathode ray tube)またはLCD(liquid crystal display)モニタ及びユーザがコンピュータに入力を提供できるキーボード及びポインティング装置、例えばマウスまたはトラックボールを持つコンピュータで実行されることができる。他の種類の装置もユーザとの相互作用を提供するのに用いられることができる。例えば、ユーザに提供されたフィードバックが知覚的フィードバックのいずれかの形態、例えばビジュアルフィードバック、音声フィードバック、触覚フィードバックであり;ユーザからの入力がアコースティック、スピーチまたは触覚的入力を含む所定の形態で受信されることができる。
上述した実施例は、例えば、データサーバのようなバックエンド(back−end)成分、例えばアプリケーションサーバのようなミドルウェア成分、例えばユーザが本明細書に開示した実施例例と相互作用できるグラフィックユーザインタフェースまたはウェブブラウザーを持つクライアントコンピュータのようなフロントエンド成分、または1つ以上のこのようなバック−エンド、ミドルウェア、またはフロント−エンド成分の組合せを含む。これらシステムの成分は、例えば、通信ネットワークのようなデジタルデータ通信のいずれかの形態または媒体により相互連結されることができる。通信ネットワークの例には、インターネットのようなローカル領域ネットワーク(“LAN”)及びワイド領域ネットワーク(“WAN”)を含まれる。
上記計算システムは、クライアント及びサーバを含むことができる。クライアント及びサーバは一般的にお互い遠く離れており、たいてい通信ネットワークを通じて相互作用をする。クライアント及びサーバの関係は個別コンピュータで作動し、互いにクライアント−サーバ関係を持つコンピュータプログラムによって発生する。
VII .リミックス技術を用いたシステムの例(EXAMPLES OF SYSTEMS USING REMIX TECHNOLOGY)
図13は、SAOC(spatial audio object decoding)及びリミックスデコーディングを結合したデコーディング部システム1300の一実施例を示す図である。SAOCは、エンコーディングされたサウンドオブジェクトの相互操作を許容するマルチチャネルオーディオを扱うオーディオ技術である。
一部の実施例において、該システム1300は、ミックス信号デコーディング部1301、パラメータ生成器1302及びリミックスレンダリング部1304を含む。パラメータ生成器1302は、ブラインド推定器1308、ユーザ−ミックスパラメータ生成器1310及びリミックスパラメータ生成器1306を含む。リミックスパラメータ生成器1306は、eq−ミックス(eq−mix)パラメータ生成器1312及びアップミックスパラメータ生成器1314を含む。
一部の実施例において、システム1300は、二つのオーディオプロセスを提供する。1番目のプロセスで、エンコーディングシステムにより提供された付加情報がリミックスパラメータを生成するリミックスパラメータ生成器1306により用いられる。2番目のプロセスで、ブラインドパラメータがブラインド推定器1308により生成され、リミックスパラメータを生成するリミックスパラメータ生成器1306により用いられる。図8A及び図8Bで示すように、ブラインドパラメータ及び全体的または部分的なブラインド生成プロセスは、ブラインド推定器1308により実行されることができる。
一部の実施例において、リミックスパラメータ生成器1306は、付加情報またはブラインドパラメータ及びユーザ−ミックスパラメータ生成器1310からユーザ−ミックスパラメータのセットを受信する。ユーザ−ミックスパラメータ生成器1310は、最終ユーザにより指定されたミックスパラメータ(例えば、GAIN、PAN)を受信し、リミックスパラメータ生成器1306によるリミックスプロセシングに適合するフォーマットにミックスパラメータを変換(例えば、ゲインci、di+1に変換)させる。一部の実施例において、図12で示すように、ユーザ−ミックスパラメータ生成器1310は、ユーザが所定のミックスパラメータ、例えば、メディアプレーヤーユーザインタフェース1200を指定するのを許容するためのユーザインタフェースを提供する。
一部の実施例において、リミックスパラメータ生成器1306は、ステレオ及びマルチチャネルオーディオ信号を両方とも処理できる。例えば、前記eq−ミックスパラメータ生成器1312は、ステレオチャネルターゲットのためのリミックスパラメータを生成でき、アップミックスパラメータ生成器1314は、マルチチャネルターゲットのためのリミックスパラメータを生成できる。マルチチャネルオーディオ信号に基づくリミックスパラメータ生成は、セクションIVで説明された。
一部の実施例において、リミックスレンダリング部1304は、ステレオターゲット信号またはマルチチャネルターゲット信号のためのリミックスパラメータを受信する。ユーザ−ミックスパラメータ生成器1310により提供された当該フォーマットされたユーザ指定されたステレオミックスパラメータに基づいて所定のリミックスされたステレオ信号を提供するために、eq−ミックスレンダリング部1316は、ステレオリミックスパラメータをミックス信号デコーディング部1301から直接受信した原ステレオ信号に適用する。一部の実施例において、ステレオリミックスパラメータは、ステレオリミックスパラメータのn×nマトリクス(例えば、2×2マトリクス)を用いて原ステレオ信号に適用されることができる。ユーザ−ミックスパラメータ生成器1310により提供された当該フォーマットされたユーザ指定されたマルチチャネルミックスパラメータに基づいて所定のリミックスされたマルチチャネル信号を提供するために、アップミックスレンダリング部1318は、マルチチャネルリミックスパラメータをミックス信号デコーディング部1301から直接受信した原マルチチャネル信号に適用する。一部の実施例において、エフェクト生成器1320はそれぞれ、eq−ミックスレンダリング部1316またはアップミックスレンダリング部により原ステレオまたはマルチチャネル信号に適用されるエフェクト信号(例えば、残響(reverb))を生成する。一部の実施例において、アップミックスレンダリング部1318は、原ステレオ信号を受信し、ステレオ信号をマルチチャネル信号に変換(または、アップミックス)し、なお、リミックスされたマルチチャネル信号を生成するためにリミックスパラメータを適用する。
システム1300は、該システム1300が現存するオーディオコーディングスキーム(例えば、SAOC、MPEG AAC、パラメトリックステレオ)に統合されることができるように、かかるオーディオコーディングスキームで下位互換性を保持する複数のチャネル構成を持つオーディオ信号を処理できる。
図14Aは、SDV(Separate Dialogue Volume)における一般的なミキシングモデルを示す図である。SDVは、“Separate Dialogue Volume”に関する米国仮特許出願第60/884,594号で説明された向上したダイアローグ向上技術である。SDVの一実施において、各信号においてこれら信号が特定の方向のキュー(例えば、レベル差、時間差)を持つ左側及び右側信号チャネルにコヒーレントに移動するようにミックスされ、聴覚的イベント幅(auditory event width)及び聴取者エンべロップメントキュー(listener envelopment cue)を決定するチャネル内に反射/残響された独立した信号が入っていくようにステレオ信号は記録されミックスされる。図14Aを参照すると、ファクタaは、聴覚的イベントが現れる方向を決定するが、ここでsは直接音であり、n1及びn2は側面方向である。信号sは、ファクタaにより決定された方向からの局所化したサウンドを摸倣する。独立した信号n1及びn2はたびたびアンビエントサウンドまたはアンビエンスと言及される反射/残響されたサウンドに対応する。上述したシナリオは、オーディオソース及びアンビエンスのローカリゼーションをキャプチャー(capture)する1つのオーディオソースを持つステレオ信号において認知的に動機づけられた分解である。
Figure 2010507927
図14Bは、リミックス技術とSDVを結合したシステム1400の一実施例を示す図である。一部の実施例において、システム1400は、フィルタバンク1402(例えば、STFT)、ブラインド推定器1404及びeq−ミックスレンダリング部1406、パリメートル生成器1408及び逆フィルタバンク(inverse filterbank)1410(例えば、インバースSTFT)を含む。
一部の実施例において、SDVダウンミックス信号が入力され、これはフィルタバンク1402によりサブバンド信号に分解される。ダウンミックス信号は、上記の式51により与えられたステレオ信号x1、x2であり得る。これらサブバンド信号X1(i,k)、X2(i,k)は、eq−ミックスレンダリング部1406またはブラインド推定器1404のいずれかに入力され、ブラインドマラメータA、PS、PNとして出力される。これらパラメータの計算は、“Separate Dialogue Volume”に関する米国仮特許出願第60/884,594号で説明される。これらブラインドパラメータは、パラメータ生成器1408内に入力され、ブラインドパラメータ及びユーザ指定されたミックスパラメータg(i,k)(例えば、センターゲイン、センター幅、カットオフ周波数、ドライネス(dryness))よりeq−ミックスパラメータw11〜w22を生成する。これらeq−ミックスパラメータの計算は、セクションIで説明された。これらeq−ミックスパラメータは、レンダリングされた出力信号y1、y2を提供すべく、eq−ミックスレンダリング部1406によりサブバンド信号に適用される。eq−ミックスレンダリング部1406のレンダリングされた出力信号は、ユーザ指定されたミックスパラメータに基づいて、レンダリングされた出力信号を所定のSDVステレオ信号に変換する逆フィルタバンク1410に入力される。
一部の実施例において、システム1400は、図1〜図12で説明されたように、リミックス技術を用いてオーディオ信号を処理することができる。リミックスモードにおいて、フィルタバンク1402は、上記の式1及び式27に説明された信号のように、ステレオまたはマルチチャネル信号を受信する。これらの信号は、フィルタバンク1402によりサブバンド信号X1(i,k)、X2(i,k)に分解され、ブラインドパラメータを推定するためにブラインド推定器1404及び前記eq−レンダリング部1406に直接入力される。これらブラインドパラメータは、ビットストリームで受信された付加情報ai、bi、Psiと一緒に、パラメータ生成器に入力される。このパラメータ生成器1408は、レンダリングされた出力信号を生成すべく、ブラインドパラメータ及び付加情報をサブバンド信号に適用する。これらレンダリングされた出力信号は、所定のリミックス信号を生成する逆フィルタバンク1410に入力される。
図15は、図14Bに示すeq−ミックスレンダリング部1406の一実施例を示す図である。一部の実施例において、ダウンミックス信号X1は、スケールモジュール1502,1504によりスケールされる。ダウンミックス信号X2は、スケールモジュール1506,1508によりスケールされる。スケールモジュール1502は、eq−ミックスパラメータw11によりダウンミックス信号X1をスケールし、スケールモジュール1504は、eq−ミックスパラメータw21によりダウンミックス信号X1をスケールし、スケールモジュール1506はeq−ミックスパラメータw12によりダウンミックス信号X2をスケールし、スケールモジュール1508は、eq−ミックスパラメータw22によりダウンミックス信号X2をスケールする。スケールモジュール1502,1506の出力は、第1レンダリングされた出力信号y1を提供するために合算され、スケールモジュール1504,1508は、第2レンダリングされた出力信号y2を提供するために合算される。
図16は、図1〜図15に示すリミキシング技術における分配システム1600を示す図である。一部の実施例において、図1Aで既に説明された通り、コンテンツプロバイダ1602は、付加情報を生成するためにリミックスエンコーディング部1606を含むオーサリング・ツール(authoring Tool)1604を用いる。付加情報は、1つ以上のファイル中の一部になり得るか、ビットストリーミングサービスのためにビットストリーム内に含まれることができる。リミックスファイルは、特異なファイル拡張子(例えば、ファイル名.rmx)を持つことができる。1つのファイルは、原ミックスされたオーディオ信号及び付加情報を含むことができる。或いは、原ミックスされたオーディオ信号及び付加情報は、パケット、バンドル、パッケージまたはその他の適当なコンテナ内に分離されたファイルとして配布されても良い。一部の実施例において、ユーザが当該技術を学ぶのを助ける目的で及び/またはマーケティングの目的で、既設定されたミックスパラメータで配布されることができる。
一部の実施例において、原コンテンツ(例えば、原ミックスされたオーディオファイル)、付加情報及び選択的既設定されたミックスパラメータ(“リミックス情報”)は、サービスプロバイダ1608(例えば、音楽ポータル)に提供されたり物理的媒体(例えば、CD−ROM、DVD、メディアプレーヤー、フラッシュドライブ)に設置されることができる。サービスプロバイダ1608は、リミックス情報の全部または一部及び/またはリミックス情報の全部または一部を含むビットストリームを提供するための1つ以上のサーバ1610を作動させることができる。リミックス情報は、保存場所1612に格納されることができる。サービスプロバイダ1608は、ユーザ生成されたミックスパラメータを共有するために仮想環境(例えば、コミュニティ、ポータル、掲示板)を提供しても良い。例えば、リミックス可能な装置1616(例えば、メディアプレーヤー、携帯電話)上でユーザにより生成されたミックスパラメータは、他のユーザとの共有のために、サービスプロバイダ1608にアップロードできるミックスパラメータファイル内に格納されることができる。該ミックスパラメータファイルは、特異な拡張子(例えば、ファイル名.rms)を持つことができる。前述した例において、ユーザは、リミックスプレーヤーAを用いてミックスパラメータファイルを生成し、サービスプロバイダ1608にミックスパラメータファイルをアップロードさせ、該ファイルは、リミックスプレーヤーBを作動させるユーザにより続いてダウンロードされた。
このシステム1600は、原コンテンツ及びリミックス情報を保護するために所定の公知されたデジタル権利管理スキーム及び/または他の公知された保安方法を用いて実行されることができる。例えば、リミックスプレーヤーBを作動させるユーザは、当該原コンテンツを分けてダウンロードする必要があり、該ユーザがリミックスプレーヤーBにより提供されたリミックス特性にアクセスしたり利用する前にライセンスを確保しなければならない。
図17Aは、リミックス情報を提供するためのビットストリームの基本的な成分を示す。一部の実施例において、1つの統合されたビットストリーム1702が、ミックスされたオーディオ信号(Mixed_ObjBS)、ゲインファクタ及びサブバンドパワー(Ref_Mix_ParaBS)及びユーザ指定されたミックスパラメータ(Users_Mix_ParaBS)を含むリミックス可能な装置に伝達されることができる。一部の実施例において、リミックス情報のための複数のビットストリームが、リミックス可能な装置に独立して伝達されることができる。例えば、ミックスされたオーディオ信号は、第1ビットストリーム1704で転送されることができ、ゲインファクタ、サブバンドパワー及びユーザ指定されたミックスパラメータは、第2ビットストリーム1706で転送されることができる。一部の実施例において、ミックスされたオーディオ信号、ゲインファクタ及びサブバンドパワー及びユーザ指定されたミックスパラメータは、3個の分離されたビットストリーム1708,1710,1712で転送されることができる。これらの分離されたビットストリームは、同一か相異なるビットレートで転送されることができる。これらのビットストリームは、帯域幅を保全し、ビットインターリービング(interleaving)、エントロピーコーディング(例えば、ハフマンコーディング)、エラー補正などを含むロバスト性(robustness)を保障すべく、様々な公知の技術を用いて必要によって処理されることができる。
図17Bは、リミックスエンコーディング部1714におけるビットストリームインタフェースを示す図である。一部の実施例において、リミックスエンコーディング部インタフェース1714への入力は、ミックスされたオブジェクト信号、個別オブジェクトまたはソース信号及びエンコーディング部オプションを含むことができる。エンコーディング部インタフェース1714の出力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタ及びサブバンドパワーを含むビットストリーム、及び既設定されたミックスパラメータを含むビットストリームを含むことができる。
図17Cは、リミックスデコーディング部1716におけるビットストリームインタフェースを示す図である。一部の実施例において、リミックスデコーディング部インタフェース1716内への入力は、ミックスされたオーディオ信号ビットストリーム、ゲインファクタ及びサブバンドパワーを含むビットストリーム、及び既設定されたミックスパラメータを含むビットストリームを含むことができる。デコーディング部インタフェース1716の出力は、リミックスされたオーディオ信号、アップミックスレンダリング部ビットストリーム(例えば、マルチチャネル信号)、ブラインドリミックスパラメータ、及びユーザリミックスパラメータを含むことができる。
エンコーディング部及びデコーディング部インタフェースにおいて他の構成も可能である。図17B及び図17Cに示すインタフェース構成は、リミックス可能な装置がリミックス情報を処理するようにするためのAPI(Application Programming Interface)を定義するために用いられることができる。図17B及び図17Cに示すインタフェースは一例に過ぎず、該装置に部分的に基づく相異なる数及び相異なる種類の入力及び出力を持つ構成を含む様々な構成が可能である。
図18は、特定のオブジェクト信号においてリミックスされた信号の向上した知覚されたクォリティーを提供するために追加的な付加情報を生成するための拡張子を含む例示的なシステム1800を示すブロック図である。一部の実施例において、システム1800は、(エンコーディング側に)ミックス信号エンコーディング部1808及びリミックスエンコーディング部1804及び信号エンコーディング部1806を含むエンハンスドリミックスエンコーディング部1802を含む。一部の実施例において、システム1800は、(デコーディング側に)ミックス信号デコーディング部1810、リミックスレンダリング部1814及びパラメータ生成器1816を含む。
エンコーディング部側で、ミックスされたオーディオ信号がミックス信号エンコーディング部1808(例えば、MP3エンコーディング部)によりエンコーディングされ、デコーディング側に送られる。オブジェクト信号(例えば、リードボーカル、ギター、ドラムまたはその他の楽器)は、例えば、図1A及び図3Aで説明された通り、付加情報(例えば、ゲインファクタ及びサブバンドパワー)を生成するリミックスエンコーディング部1804に入力される。さらに、重要な1つ以上のオブジェクト信号が追加的な付加情報を生成するために信号エンコーディング部1806(例えば、MP3エンコーディング部)に入力される。一部の実施例において、配列情報(aligning information)がミックス信号エンコーディング部1808及び信号エンコーディング部1806のそれぞれの出力信号を整列すべく信号エンコーディング部1806に入力される。配列情報は、時間配列情報、用いられたコデックス種類、ターゲットビットレート、ビット割当情報または方式(strategy)などを含むことができる。
デコーディング部側で、ミックス信号エンコーディング部の出力は、ミックス信号デコーディング部1810(例えば、MP3デコーディング部)に入力される。ミックス信号デコーディング部1810及びエンコーディング部付加情報(例えば、エンコーディング部生成ゲインファクタ、サブバンドパワー、追加的な付加情報)の出力は、リミックスパラメータ及び追加的なリミックスデータを生成するために、制御パラメータ(例えば、ユーザ指定されたミックスパラメータ)と共に、これらパラメータを用いるパラメータ生成器1816に入力される。リミックスパラメータ及び追加的なリミックスデータは、リミックスされたオーディオ信号をレンダリングするリミックスレンダリング部1814により用いられることができる。
追加的なリミックスデータ(例えば、オブジェクト信号)は、原ミックスオーディオ信号内の特定のオブジェクトをリミックスするために、リミックスレンダリング部1814により用いられる。例えば、カラオケアプリケーションで、リードボーカルを表すオブジェクト信号は、追加的な付加情報(例えば、エンコーディングされたオブジェクト信号)を生成するようにエンハンスドリミックスエンコーディング部1812により用いられることができる。この信号は、原ミックスオーディオ信号内のリードボーカルをリミックスする(例えば、リードボーカルを圧縮したり弱化させる)ように、リミックスレンダリング部1814により用いられることができる、追加的なリミックスデータを生成するようにパラメータ生成器1816により用いられることができる。
図19は、図18に示すリミックスレンダリング部1814の一例を示すブロック図である。一部の実施例において、ダウンミックス信号X1、X2はそれぞれ、コンバイナ1904,1906に入力される。ダウンミックス信号X1、X2は、例えば原ミックスオーディオ信号の左側及び右側チャネルでありうる。コンバイナ1904,1906は、パラメータ生成器1816により供給された追加的なリミックスデータとダウンミックス信号X1、X2を結合する。カラオケの例で、結合は、リミックスされたオーディオ信号内のリードボーカルを圧縮したり弱化させるようにリミキシングする前に、ダウンミックス信号X1、X2からリードボーカルオブジェクト信号を抽出するステップを含むことができる。
一部の実施例において、ダウンミックス信号X1(例えば、原ミックスオーディオ信号の左側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の左側チャネル)と結合され、スケールモジュール1906a,1906bによりスケールされ、ダウンミックス信号X2(例えば、原ミックスオーディオ信号の右側チャネル)は、追加的なリミックスデータ(例えば、リードボーカルオブジェクト信号の右側チャネル)と結合され、スケールモジュール1906c,1906dによりスケールされる。
スケールモジュール1906aは、eq−ミックスパラメータw11によりダウンミックス信号X1をスケールし、スケールモジュール1906bは、eq−ミックスパラメータw21によりダウンミックス信号X1をスケールし、スケールモジュール1906cは、eq−ミックスパラメータw12によりダウンミックス信号X2をスケールし、スケールモジュール1906dは、eq−ミックスパラメータw22によりダウンミックス信号X2をスケールする。このスケールは、n×n(例えば、2×2)マトリクスを利用する場合と同様に、線形代数学を用いて実行されることができる。スケールモジュール1906a,1906cの出力は、第1レンダリングされた出力信号Y2を提供するように合算され、スケールモジュール1906b,1906dの出力は第2レンダリングされた出力信号Y2を提供するように合算される。
一部の実施例において、原ステレオミックス間で“カラオケ”モード及び/または“カペラ(capella)”モードに移行するようにユーザインタフェースで制御(例えば、スイッチ、スライダ、ボタン)を実行できる。この制御ポジションの機能のように、コンバイナ1902は、原ステレオ信号及び追加的な付加情報により獲得された信号間で線形組合せを制御する。例えば、カラオケモードで、追加的な付加情報から獲得された信号は、ステレオ信号から抽出されることができる。リミックスプロセシングは後で量子化騒音(ステレオ及び/または他の信号が多く損なわれてコーディングされる場合)を除去するのに適用されることができる。ボーカルを部分的に除去する目的で、追加的な付加情報により獲得された信号の一部のみが抽出される必要がある。ボーカルのみを演奏するためには、コンバイナ1902は、追加的な付加情報により獲得された信号を選択する。若干のバックグラウンドミュージックを持つボーカルを演奏するためには、コンバイナ1902は、追加的な付加情報により獲得された信号に、ステレオ信号のスケールされたバージョンを加える。
本明細書は多くの特定の内容を含むが、これらは、請求される範囲または請求される範囲における制限として解釈されてはいけず、特定の実施例に特定された特性の説明として解釈されなければならない。各実施例の文脈から見た明細書に説明された所定の特性は、1つの実施例で組合せで実行されても良い。逆に、1つの実施例の文脈で説明された様々な特性が、複数の実施例で分離して実行されたり所定の適切な副結合(subcombination)で実行されても良い。なお、所定の組合せ及びさらにはそれらのみで最初請求されたものとして上述されたとしても、請求された組合せから1つ以上の特性が一部の場合に当該組合せから削除されることができ、該請求された組合せは副結合または副結合の変形に導かれることができる。
同様に、特定の順序で図面に動作が示されるが、これは、示された特定の順序でまたは順次的な順序でかかる動作が実行されたり所定の結果を達成するために全ての示された動作が行なわれることを要求するものとして解釈されてはならない。所定の環境では、マルチタスキング及び並列プロセシングが有利な場合もあり得る。上述した実施例の数多くのシステム成分の分離が、全ての実施例においても要求されるわけではなく、説明されたプログラム成分及びシステムは一般的に単一のソフトウェア制作物に共に集積されたり複数のソフトウェア制作物内にパッケージングされることができる。
本明細書で説明された課題に関る特定の実施例が説明された。その他の実施例は、添付り請求項の範囲内にある。例えば、請求項で引用された行為は、他の順序で実行されても良く、相変らず所定の結果を達成することができる。一例のように、所定の結果を達成するために、添付の図面に示すプロセスは、必ずしも図示された特定の順序または順次的な順序を要求するわけではない。
また、例の例のように、セクション5Aで示された付加情報の前処理は、上記の式2で与えられた信号モデルと矛盾する負数値を防止するために、リミックスされた信号のサブバンドパワーにより低い境界を提供する。しかし、この信号モデルは、リミックスされた信号のポジティブパワーを意味するだけでなく、原ステレオ信号及びリミックスされたステレオ信号、すなわち、E{x11},E{x12},E{x21}及びE{x22}間のポジティブ外積を意味する。
二つの重み値の場合において、E{x11}とE{x22}の外積が負数となるのを防ぐために、上記の式18に定義された重み値は、それらがAdBより絶対に小さくないとような特定の境界値に限定される。
Figure 2010507927

Claims (145)

  1. オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップと、
    リミックスされるオブジェクトを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
    ミックスパラメータのセットを獲得するステップと、
    前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップと、
    を含むことを特徴とする方法。
  2. 前記ミックスパラメータのセットを獲得するステップは、前記ミックスパラメータのセットを指定するユーザ入力を受信するステップをさらに含むことを特徴とする請求項1に記載の方法。
  3. 第2複数チャネルオーディオ信号を生成するステップは、
    前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解するステップと、
    前記ミックスパラメータのセット及び前記付加情報を用いて第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定するステップと、
    前記第2サブバンド信号のセットを前記第2複数チャネルオーディオ信号に変換するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  4. 第2サブバンド信号のセットを推定するステップは、
    リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するように前記付加情報をデコーディングするステップと、
    前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定するステップと、
    少なくとも1つの重み値のセットを用いて前記第2サブバンド信号のセットを推定するステップと、
    をさらに含むことを特徴とする請求項3に記載の方法。
  5. 1つ以上の重み値のセットを決定するステップは、
    第1重み値のセットの大きさを決定するステップと、
    前記第1重み値のセットと異なる数の重み値を含む第2重み値のセットの大きさを決定するステップと、
    をさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記第1及び第2重み値のセットの大きさを比較するステップと、
    前記比較の結果に基づいて前記第2サブバンド信号のセットを推定するのに利用するための前記第1及び第2重み値のセットのうちの1つを選択するステップと、
    をさらに含むことを特徴とする請求項5に記載の方法。
  7. 1つ以上の重み値のセットを決定するステップは、
    前記第1複数チャネルオーディオ信号及び前記第2複数チャネルオーディオ信号間の差を最小化する重み値のセットを決定するステップをさらに含むことを特徴とする請求項4に記載の方法。
  8. 1つ以上の重み値のセットを決定するステップは、
    線形方程式を形成するステップと、
    前記線形方程式の解を求めることによって前記重み値を決定するステップと、を含み、
    前記線形方程式で各方程式は積の和であり、各積はサブバンド信号と重み値を乗算することによって形成されることを特徴とする請求項4に記載の方法。
  9. 前記線形方程式は、最小二乗法を用いて解を求めることを特徴とする請求項8に記載の方法。
  10. Figure 2010507927
  11. Figure 2010507927
  12. Figure 2010507927
  13. Figure 2010507927
  14. 前記第1サブバンド信号のセットと関連した1つ以上のレベル差キューとマッチさせるために、前記第2サブバンド信号のセットと関連した1つ以上のレベル差キューを調節するステップをさらに含むことを特徴とする請求項4に記載の方法。
  15. 前記第1複数チャネルオーディオ信号のサブバンドパワー推定値未満の臨界値と等しいか大きくなるように、前記第2複数チャネルオーディオ信号のサブバンドパワー推定値を制限するステップをさらに含むことを特徴とする請求項4に記載の方法。
  16. 前記1つ以上の重み値のセットを決定するために前記サブバンドパワー推定を用いる前に、1よりも大きい値により前記サブバンドパワー推定値をスケーリングするステップをさらに含むことを特徴とする請求項4に記載の方法。
  17. 前記第1複数チャネルオーディオ信号を獲得するステップは、
    エンコーディングされた複数チャネルオーディオ信号を含むビットストリームを受信するステップと、
    前記第1複数チャネルオーディオ信号を獲得するために、前記エンコーディングされた複数チャネルオーディオ信号をデコーディングするステップをさらに含むことを特徴とする請求項1に記載の方法。
  18. 前記1つ以上の重み値のセットを時間をかけてスムージングするステップをさらに含むことを特徴とする請求項4に記載の方法。
  19. オーディオ歪みを減らすために、前記1つ以上の重み値のセットを、時間をかけてスムージングするステップをさらに含むことを特徴とする請求項18に記載の方法。
  20. 音調または定常的測定値に基づいて前記1つ以上の重み値のセットを時間をかけてスムージングするステップをさらに含むことを特徴とする請求項18に記載の方法。
  21. 前記第1複数チャネルオーディオ信号の音調または定常的測定値が臨界値を超過するか否か決定するステップと、
    前記測定値が前記臨界値を超過すると、前記1つ以上の重み値のセットを時間をかけてスムージングするステップと、
    をさらに含むことを特徴とする請求項18に記載の方法。
  22. 前記第1複数チャネルオーディオ信号と前記付加情報とを同期化するステップをさらに含むことを特徴とする請求項1に記載の方法。
  23. 前記第2複数チャネルオーディオ信号を生成するステップは、
    前記第1複数チャネルオーディオ信号のオーディオチャネルのサブセットにおけるオブジェクトをリミキシングするステップをさらに含むことを特徴とする請求項1に記載の方法。
  24. 前記サブバンドパワー推定値及び前記ミックスパラメータのセットを用いて前記第1複数チャネルオーディオ信号のアンビエンス値を修正するステップをさらに含むことを特徴とする請求項1に記載の方法。
  25. ミックスパラメータのセットを獲得するステップは、
    ユーザ指定されたゲイン及びパン値を獲得するステップと、
    前記ゲイン及びパン値及び前記付加情報から前記ミックスパラメータのセットを決定するステップと、
    をさらに含むことを特徴とする請求項1に記載の方法。
  26. オブジェクトのセットを持つオーディオを獲得するステップと、
    前記オブジェクトを表すソース信号を獲得するステップと、
    前記ソース信号から付加情報を生成するステップと、を含み、
    前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号間の関係を表すことを特徴とする方法。
  27. 付加情報を生成するステップは、
    1つ以上のゲインファクタを獲得するステップと、
    前記オーディオ信号及び前記ソース信号のサブセットを、第1サブバンド信号のセット及び第2サブバンド信号のセットにそれぞれ分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号においてサブバンドパワーを推定するステップ、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    をさらに含むことを特徴とする請求項26に記載の方法。
  28. 付加情報を生成するステップは、
    前記オーディオ信号及び前記ソース信号のサブセットを、第1サブバンド信号のセット及び第2サブバンド信号のセットにそれぞれ分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、1つ以上のゲインファクタを獲得するステップ、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    をさらに含むことを特徴とする請求項26に記載の方法。
  29. 1つ以上のゲインファクタを獲得するステップは、
    前記第1サブバンド信号のセットから対応するサブバンド信号及び前記サブバンドパワーを用いて1つ以上のゲインファクタを推定するステップをさらに含むことを特徴とする請求項27または28に記載の方法。
  30. 1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップは、
    付加情報を生成するように前記サブバンドパワーを量子化しエンコーディングするステップを含むことを特徴とする請求項27または28に記載の方法。
  31. サブバンドの幅は、人間音声認識に基づくことを特徴とする請求項27または28に記載の方法。
  32. 前記オーディオ信号及びソース信号のセットを分解するステップは、
    ソース信号のサブセット及び前記オーディオ信号のサンプルとウィンド関数を乗算するステップと、
    前記第1及び第2サブバンド信号のセットを生成するために、前記ウィンドされたサンプルに時間−周波数変換を適用するステップと、
    をさらに含むことを特徴とする請求項27または28に記載の方法。
  33. 前記オーディオ信号及びソース信号のサブセットを分解するステップは、
    スペクトル係数を作るために、時間−周波数変換を用いて、前記オーディオ信号及びソース信号のサブセットをプロセシングするステップと、
    前記スペクトル係数を人間音声システムの不均一な周波数分解能を表す多くのパーティションにグルーピングするステップと、
    をさらに含むことを特徴とする請求項27または28に記載の方法。
  34. 少なくとも1つのグループは、ERB(equivalent rectangular bandwidth)の約2倍の帯域幅を持つことを特徴とする請求項33に記載の方法。
  35. 前記時間−周波数変換は、
    STFT(short−time Fourier transform)、QMF(quadrature mirror filterbank)、MDCT(modified discrete cosine transform)及びウェーブレットフィルタバンクからなる変換グループのうちいずれか1つの変換であることを特徴とする請求項33に記載の方法。
  36. サブバンド信号においてサブバンドパワーを推定するステップは、
    前記対応するソース信号を短期平均するステップをさらに含むことを特徴とする請求項27または28に記載の方法。
  37. 前記対応するソース信号を短期平均するステップは、
    指数的に減少する推定ウィンドを用いて前記対応するソース信号を単極平均するステップをさらに含むことを特徴とする請求項36に記載の方法。
  38. 前記オーディオ信号のサブバンド信号パワーに関連した前記サブバンドパワーを正規化するステップをさらに含むことを特徴とする請求項27または28に記載の方法。
  39. サブバンドパワーを推定するステップは、
    前記推定として前記サブバンドパワーの測定を利用するステップをさらに含むことを特徴とする請求項27または28に記載の方法。
  40. 時間の関数として前記1つ以上のゲインファクタを推定するステップをさらに含むことを特徴とする請求項27に記載の方法。
  41. 量子化及びコーディングするステップは、
    前記1つ以上のゲインファクタからゲイン及びレベル差を決定するステップと、
    前記ゲイン及びレベル差を量子化するステップと、
    前記量子化されたゲイン及びレベル差をエンコーディングするステップと、
    をさらに含むことを特徴とする請求項27または28に記載の方法。
  42. 量子化及びエンコーディングするステップは、
    前記1つ以上のゲインファクタ及び前記オーディオ信号のサブバンドパワーに対する前記サブバンドパワーを定義するファクタを計算するステップと、
    前記ファクタを量子化するステップと、
    前記量子化されたファクタをエンコーディングするステップと、
    をさらに含むことを特徴とする請求項27または28に記載の方法。
  43. オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
    前記ソース信号のサブセットから付加情報を生成するステップと、
    を含むことを特徴とする方法。
  44. 複数チャネルオーディオ信号を獲得するステップと、
    サウンドステージ上の前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
    前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
    前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、
    を含むことを特徴とする方法。
  45. 前記関数は、前記所定のサウンド方向においてのみ略1つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項44に記載の方法。
  46. ミックスされたオーディオ信号を獲得するステップと、
    前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得するステップと、
    付加情報が利用可能であれば、前記付加情報及び前記ミックスパラメータのセットを用いて前記ミックスされたオーディオ信号をリミキシングするステップと、
    付加情報が利用不可能であれば、前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成するステップと、
    前記ブラインドパラメータ及び前記ミックスパラメータのセットを用いてリミックスされたオーディオ信号を生成するステップと、
    を含むことを特徴とする方法。
  47. 前記ブラインドパラメータまたは前記付加情報のいずれか1つからリミックスパラメータを生成するステップと、
    前記リミックスパラメータが前記付加情報から生成されると、前記リミックスされたパラメータ及び前記ミックスされた信号から前記リミックスされたオーディオ信号を生成するステップと、
    をさらに含むことを特徴とする請求項46に記載の方法。
  48. 前記リミックスされたオーディオ信号が前記ミックスされたオーディオ信号よりも多くのチャネルを持つように、前記ミックスされたオーディオ信号をアップミックスするステップをさらに含むことを特徴とする請求項46に記載の方法。
  49. 前記リミックスされたオーディオ信号に1つ以上のエフェクトを加えるステップをさらに含むことを特徴とする請求項46に記載の方法。
  50. スピーチソース信号を含むミックスされたオーディオ信号を獲得するステップと、
    1つ以上の前記スピーチソース信号に所定の改善を指定したミックスパラメータを獲得するステップと、
    前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成するステップと、
    前記ブラインドパラメータ及び前記ミックスパラメータからリミックスパラメータを生成するステップと、
    前記ミックスパラメータに応じて、前記1つ以上のスピーチソース信号をエンハンスする前記ミックスされた信号に前記リミックスパラメータを適用するステップと、
    を含む方法。
  51. ミックスパラメータを指定した入力を受信するためのユーザインタフェースを生成するステップと、
    前記ユーザインタフェースを通じてミキシングパラメータを獲得するステップと、
    ソース信号を含む第1オーディオ信号を獲得するステップと、
    前記第1オーディオ信号と1つ以上のソース信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
    第2オーディオ信号を生成するために前記付加情報及び前記ミックスパラメータを用いて前記1つ以上のソース信号をリミキシングするステップと、
    を含む方法。
  52. ネットワークリソースから前記第1オーディオ信号または付加情報を受信するステップをさらに含むことを特徴とする請求項51に記載の方法。
  53. コンピュータで読取りできる記録媒体から前記第1オーディオ信号または付加情報を受信するステップをさらに含むことを特徴とする請求項51に記載の方法。
  54. オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップと、
    リミックスされたオブジェクトのサブセットを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
    ミックスパラメータのセットを獲得するステップと、
    前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップと、
    を含むことを特徴とする方法。
  55. 前記ミックスパラメータのセットを獲得するステップは、前記ミックスパラメータのセットを指定するユーザ入力を受信するステップをさらに含むことを特徴とする請求項54に記載の方法。
  56. 第2複数チャネルオーディオ信号を生成するステップは、
    前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解するステップと、
    前記付加情報及び前記ミックスパラメータのセットを用いて前記第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定するステップと、
    前記サブバンド信号のセットを第2複数チャネルオーディオ信号に変換するステップと、
    を含むことを特徴とする請求項54に記載の方法。
  57. 第2サブバンド信号のセットを推定するステップは、
    リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するために前記付加情報をデコーディングするステップと、
    前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定するステップと、
    重み値の少なくとも1つのセットを用いて前記第2サブバンド信号のセットを推定するステップと、
    をさらに含むことを特徴とする請求項56に記載の方法。
  58. 1つ以上の重み値のセットを決定するステップは、
    第1重み値のセットの大きさを決定するステップと、
    第2重み値のセットの大きさを決定するステップと、をさらに含み、
    前記第2重み値のセットは、前記第1重み値のセットと異なる数の重み値を含むことを特徴とする請求項57に記載の方法。
  59. 前記第1及び第2重み値のセットの前記大きさを比較するステップと、
    前記比較の結果に基づいて前記第2サブバンド信号のセットを推定する時に用いるために、前記第1及び第2重み値のセットのうちの1つを選択するステップをさらに含むことを特徴とする請求項58に記載の方法。
  60. ミックスされたオーディオ信号を獲得するステップと、
    前記ミックスされたオーディオ信号をリミックスするためのミックスパラメータのセットを獲得するステップと、
    前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成するステップと、
    n×nマトリクスを用いて前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成するステップと、
    を含むことを特徴とする方法。
  61. オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトを表すソース信号を獲得するステップと、
    前記ソース信号から付加情報を生成するステップと、
    少なくとも1つのソース信号を含む少なくとも1つの信号をエンコーディングするステップと、
    前記ソース信号、前記付加情報及び前記エンコーディングされたソース信号をデコーディング部に提供するステップと、を含み、
    前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号間の関係を表すことを特徴とする方法。
  62. ミックスされたオーディオ信号を獲得するステップと、
    前記ミックスされたオーディオ信号内のオブジェクトと関連したエンコーディングされたソース信号を獲得するステップと、
    前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得するステップと、
    前記エンコーディングされたソース信号、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成するステップと、
    前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成するステップと、
    を含むことを特徴とする方法。
  63. 付加情報を受信し、前記付加情報からリミックスパラメータを獲得できるデコーディング部と、
    ミックスパラメータのセットを獲得できるインタフェースと、
    前記デコーディング部及び前記インタフェースに結合された、第2複数チャネルオーディオ信号を生成するために前記付加情報及び前記ミックスパラメータのセットを用いて前記ソース信号をリミキシングできるリミックスモジュールと、を含み、
    前記付加情報の少なくとも一部は、第1複数チャネルオーディオ信号を生成するのに用いられる1つ以上のソース信号及び前記第1複数チャネルオーディオ信号間の関係を表すことを特徴とする装置。
  64. 前記ミックスパラメータのセットは、前記インタフェースを通じてユーザにより指定されることを特徴とする請求項63に記載の装置。
  65. 前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解できる少なくとも1つのフィルタバンクをさらに含むことを特徴とする請求項63に記載の装置。
  66. 前記リミックスモジュールは、前記付加情報及び前記ミックスパラメータのセットを用いて前記第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定し、前記第2サブバンド信号のセットを前記第2複数チャネルオーディオ信号に変換することを特徴とする請求項65に記載の装置。
  67. 前記デコーディング部は、リミックスされる前記ソース信号と関連したサブバンドパワー推定値及びゲインファクタを提供するために前記付加情報をデコーディングし、前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定し、少なくとも1つの重み値のセットを用いて前記第2サブバンド信号のセットを推定することを特徴とする請求項66に記載の装置。
  68. 前記リミックスモジュールは、第1重み値のセットの大きさを決定し、前記第1重み値のセットと異なる数の重み値を含む第2重み値のセットの大きさを決定することによって、1つ以上の重み値のセットを決定することを特徴とする請求項67に記載の装置。
  69. 前記リミックスモジュールは、前記第1及び第2重み値のセットの前記大きさを比較し、前記比較の結果に基づいて前記第2サブバンド信号のセットを推定する時に用いるために、前記第1及び第2重み値のセットのうちの1つを選択することを特徴とする請求項68に記載の装置。
  70. 前記リミックスモジュールは、前記第1複数チャネルオーディオ信号と前記第2複数チャネルオーディオ信号間の差を最小化する重み値のセットを決定することによって、1つ以上の重み値のセットを決定することを特徴とする請求項67に記載の装置。
  71. 前記リミックスモジュールは、線形方程式システムの解を求めることによって、1つ以上の重み値のセットを決定するもので、前記システム内の各方程式は積の和であり、各積はサブバンド信号と重み値を乗算することによって生成されることを特徴とする請求項67に記載の装置。
  72. 前記線形方程式システムは、最小二乗推定を用いて解が求められることを特徴とする請求項71に記載の装置。
  73. Figure 2010507927
  74. Figure 2010507927
  75. Figure 2010507927
  76. Figure 2010507927
  77. 前記リミックスモジュールは、前記第1サブバンド信号のセットと関連した1つ以上のレベル差キューとマッチさせるために、前記第2サブバンド信号のセットと関連した1つ以上のレベル差キューを調節することを特徴とする請求項67に記載の装置。
  78. 前記リミックスモジュールは、前記第1複数チャネルオーディオ信号のサブバンドパワー推定値未満の臨界値と等しいか大きくなるように、前記第2複数チャネルオーディオ信号のサブバンドパワー推定値を制限することを特徴とする請求項67に記載の装置。
  79. 前記リミックスモジュールは、前記1つ以上の重み値のセットを決定するために前記サブバンドパワー推定値を用いる前に、1よりも大きい値により前記サブバンドパワー推定値をスケーリングすることを特徴とする請求項67に記載の装置。
  80. 前記デコーディング部は、エンコーディングされた複数チャネルオーディオ信号を含むビットストリームを受信し、前記第1複数チャネルオーディオ信号を獲得するために前記エンコーディングされた複数チャネルオーディオ信号をデコーディングすることを特徴とする請求項63に記載の装置。
  81. 前記リミックスモジュールは、前記1つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項67に記載の装置。
  82. 前記リミックスモジュールは、オーディオ歪みを減らすために、前記1つ以上の重み値のセットを時間をかけてスムージングすることを制御することを特徴とする請求項81に記載の装置。
  83. 前記リミックスモジュールは、音調または定常的測定値に基づいて、前記1つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項81に記載の装置。
  84. 前記リミックスモジュールは、前記第1複数チャネルオーディオ信号の音調または定常的測定値が臨界値を超過するか否かを決定し、
    前記測定値が前記臨界値を超過すると、前記1つ以上の重み値のセットを時間をかけてスムージングすることを特徴とする請求項81に記載の装置。
  85. 前記デコーディング部は、前記第1複数チャネルオーディオ信号と前記付加情報を同期化することを特徴とする請求項63に記載の装置。
  86. 前記リミックスモジュールは、前記第1複数チャネルオーディオ信号のオーディオチャネルのサブセットにおけるソース信号をリミックスすることを特徴とする請求項63に記載の装置。
  87. 前記リミックスモジュールは、前記サブバンドパワー推定値及び前記ミックスパラメータセットを用いて前記第1複数チャネルオーディオ信号のアンビエンス値を修正することを特徴とする請求項63に記載の装置。
  88. 前記インタフェースは、ユーザ指定されたゲイン及びパン値を獲得し、前記ゲイン及びパン値及び前記付加情報から前記ミックスパラメータのセットを決定することを特徴とする請求項63に記載の装置。
  89. オブジェクトのセット及び前記オブジェクトを表すソース信号を持つオーディオ信号を獲得できるインタフェースと、
    前記インタフェースに結合され、前記ソース信号から付加情報を生成できる付加情報生成器と、を含む装置で、
    前記付加情報のうちの少なくとも一部は、前記オーディオ信号及び前記ソース信号間の関係を表すことを特徴とする装置。
  90. 前記オーディオ信号及び前記ソース信号のサブセットを第1サブバンド信号のセット及び第2サブバンド信号のセットにそれぞれ分解できる少なくとも1つのフィルタバンクをさらに含むことを特徴とする請求項89に記載の装置。
  91. 前記第2サブバンド信号のセット内の各サブバンド信号において、
    前記付加情報生成器は、前記サブバンド信号におけるサブバンドパワーを推定し、1つ以上のゲインファクタ及びサブバンドパワーから前記付加情報を生成することを特徴とする請求項90に記載の装置。
  92. 前記第2サブバンド信号のセット内の各サブバンド信号において、
    前記付加情報生成器は、前記サブバンド信号におけるサブバンドパワーを推定し、1つ以上のゲインファクタを獲得し、前記1つ以上のゲインファクタ及びサブバンドパワーから前記付加情報を生成することを特徴とする請求項90に記載の装置。
  93. 前記付加情報生成器は、前記第1サブバンド信号のセットから対応するサブバンド信号及び前記サブバンドパワーを用いて1つ以上のゲインファクタを推定することを特徴とする請求項92に記載の装置。
  94. 前記付加情報生成器に結合され、前記付加情報を生成するために前記サブバンドパワーを量子化しエンコーディングできるエンコーディング部をさらに含むことを特徴とする請求項93に記載の装置。
  95. サブバンドの幅は、人間音声認識に基づくことを特徴とする請求項90に記載の装置。
  96. 前記少なくとも1つのフィルタバンクは、ソース信号のサブセット及び前記オーディオ信号のサンプルとウィンド関数を乗算するステップを含むことによって前記オーディオ信号とソース信号のサブセットを分解し、前記第1及び第2サブバンド信号のセットを生成するために、前記ウィンドされたサンプルに時間−周波数変換を適用することを特徴とする請求項90に記載の装置。
  97. 前記少なくとも1つのフィルタバンクは、スペクトル係数を算出するために、時間−周波数変換を用いて前記オーディオ信号及びソース信号のサブセットを処理し、前記スペクトル係数を人間音声システムの不均一な周波数分解能を表す多くのパーティションにグルーピングすることを特徴とする請求項90に記載の装置。
  98. 少なくとも1つのグループは、ERB(equivalent rectangular bandwidth)の約2倍の帯域幅を持つことを特徴とする請求項97に記載の装置。
  99. 前記時間−周波数変換は、
    STFT(short−time Fourier transform)、QMF(quadrature mirror filterbank)、MDCT(modified discrete cosine transform)及びウェーブレットフィルタバンクからなる変換グループのうちの1つの変換であることを特徴とする請求項97に記載の装置。
  100. 前記付加情報生成器は、前記対応するソース信号の短期平均を計算することを特徴とする請求項93に記載の装置。
  101. 前記短期平均は、前記対応するソース信号の単極平均であり、指数的に減少する推定ウィンドを用いて計算されることを特徴とする請求項100に記載の装置。
  102. 前記サブバンドパワーは、前記オーディオ信号のサブバンド信号パワーに関して正規化されることを特徴とする請求項92に記載の装置。
  103. サブバンドパワーを推定することは、前記推定として前記サブバンドパワーの測定を用いることをさらに含むことを特徴とする請求項92に記載の装置。
  104. 時間の関数として前記1つ以上のゲインファクタが推定されることを特徴とする請求項92に記載の装置。
  105. 前記エンコーディング部は、前記1つ以上のゲインファクタからゲイン及びレベル差を決定し、前記ゲイン及びレベル差を量子化し、前記量子化されたゲイン及びレベル差をエンコーディングすることを特徴とする請求項94に記載の装置。
  106. 前記エンコーディング部は、前記1つ以上のゲインファクタ及び前記オーディオ信号のサブバンドパワーに対する前記サブバンドパワーを定義するファクタを計算し、前記ファクタを量子化し、前記量子化されたファクタをエンコーディングすることを特徴とする請求項94に記載の装置。
  107. オブジェクトのセットを持つオーディオ信号及び前記オブジェクトのサブセットを表すソース信号のサブセットを獲得できるインタフェースと、
    前記ソース信号のサブセットから付加情報を生成できる付加情報生成器と、
    を含むことを特徴とする装置。
  108. 複数チャネルオーディオ信号を獲得できるインタフェースと、
    サウンドステージ上の前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定し、前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定し、前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定できる付加情報生成器と、
    を含むことを特徴とする装置。
  109. 前記関数は、前記所定のサウンド方向においてのみ略1つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項108に記載の装置。
  110. ミックスされたオーディオ信号及び前記ミックスされたオーディオ信号をリミキシングするためのミックスパラメータのセットを獲得し、付加情報が利用可能か否かを決定できるパラメータ生成器と、
    前記パラメータ生成器に結合されており、付加情報が利用可能であれば、前記付加情報及び前記ミックスパラメータのセットを用いて前記ミックスされたオーディオ信号をリミキシングし、付加情報が利用不可能であれば、ブラインドパラメータのセットを受信して、前記ミックスパラメータのセット及び前記ブラインドパラメータを用いてリミックスされたオーディオ信号を生成できるリミックスレンダリング部と、
    を含むことを特徴とする装置。
  111. 前記リミックスパラメータ生成器は、前記ブラインドパラメータまたは前記付加情報のいずれかからリミックスパラメータを生成し、
    前記リミックスパラメータが前記付加情報から生成されると、前記リミックスレンダリング部は、前記リミックスパラメータ及び前記ミックスされた信号から前記リミックスされたオーディオ信号を生成することを特徴とする請求項110に記載の装置。
  112. 前記リミックスレンダリング部は、前記リミックスされたオーディオ信号が前記ミックスされたオーディオ信号よりも多くのチャネルを持つように、前記ミックスされたオーディオ信号をアップミックスできるアップミックスレンダリング部をさらに含むことを特徴とする請求項110に記載の装置。
  113. 前記リミックスレンダリング部に結合され、前記リミックスされたオーディオ信号に1つ以上のエフェクトを加えることができるエフェクトプロセシング部をさらに含むことを特徴とする請求項110に記載の装置。
  114. スピーチソース信号を含むミックスされたオーディオ信号及び1つ以上の前記スピーチソース信号に所定の改善を指定したミックスパラメータを獲得できるインタフェースと、
    前記インタフェースに結合され、前記ミックスされたオーディオ信号からブラインドパラメータのセットを生成し、前記ブラインドパラメータ及び前記ミックスパラメータからパラメータを生成できるリミックスパラメータ生成器と、
    前記ミックスパラメータに応じて、前記1つ以上のスピーチソース信号をエンハンスするように前記ミックスされた信号に前記パラメータを適用できるリミックスレンダリング部と、
    を含むことを特徴とする装置。
  115. 少なくとも1つのミックスパラメータを指定した入力を受信できるユーザインタフェースと、
    第2オーディオ信号を生成するために付加情報及び前記少なくとも1つのミックスパラメータを用いて前記1つ以上のソース信号をリミキシングできるリミックスモジュールと、
    を含むことを特徴とする装置。
  116. ネットワークリソースから前記第1オーディオ信号または付加情報を受信できるネットワークインタフェースをさらに含むことを特徴とする請求項115に記載の装置。
  117. コンピュータで読取りできる記録媒体から前記第1オーディオ信号または付加情報を受信できるインタフェースをさらに含むことを特徴とする請求項115に記載の装置。
  118. オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得し、リミックスされるオブジェクトのサブセットを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得できるインタフェースと、
    前記インタフェースに結合され、前記付加情報及びミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成できるリミックスモジュールと、
    を含むことを特徴とする装置。
  119. 前記ミックスパラメータのセットは、ユーザにより指定されることを特徴とする請求項118に記載の装置。
  120. 前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解できる少なくとも1つのフィルタバンクをさらに含み、
    前記リミックスモジュールは、前記少なくとも1つのフィルタバンクに結合され、前記付加情報及び前記ミックスパラメータのセットを用いて前記第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定し、前記第2サブバンド信号のセットを第2複数チャネルオーディオ信号に変換できることを特徴とする請求項118に記載の装置。
  121. リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供するために前記付加情報をデコーディングできるデコーディング部をさらに含み、
    前記リミックスモジュールは、前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定し、重み値の少なくとも1つのセットを用いて前記第2サブバンド信号のセットを推定することを特徴とする請求項120に記載の装置。
  122. 前記リミックスモジュールは、第1重み値のセットの大きさを決定することによって、1つ以上の重み値のセットを決定し、前記第1重み値のセットと異なる数の重み値を含む第2重み値のセットの大きさを決定することを特徴とする請求項121に記載の装置。
  123. 前記リミックスモジュールは、前記第1及び第2重み値のセットの前記大きさを比較し、前記比較の結果に基づいて前記第2サブバンド信号のセットを推定する時に用いるための前記第1及び第2重み値のセットのうちの1つを選択することを特徴とする請求項122に記載の装置。
  124. 前記ミックスされたオーディオ信号をリミックスするためのミックスパラメータのセットを獲得できるインタフェースと、
    前記インタフェースに結合され、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成し、n×nマトリクスを用いて前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成できるリミックスモジュールと、
    を含むことを特徴とする装置。
  125. オブジェクトのセットを持つオーディオ信号を獲得し、前記オブジェクトを表すソース信号を獲得できるインタフェースと、
    前記インタフェースに結合され、前記ソース信号のサブセットから付加情報を生成できる付加情報生成器と、
    前記付加情報生成器に結合され、少なくとも1つのソース信号を含む少なくとも1つの信号をエンコーディングし、前記オーディオ信号、前記付加情報及び前記エンコーディングされたオブジェクト信号をデコーディング部に提供できるエンコーディング部と、を含み、
    前記付加情報のうちの少なくとも一部は、前記オーディオ信号と前記ソース信号のサブセット間の関係を表すことを特徴とする装置。
  126. ミックスされたオーディオ信号を獲得し、前記ミックスされたオーディオ信号内のオブジェクトと関連したエンコーディングされたソース信号を獲得できるインタフェースと、
    前記インタフェースに結合され、前記エンコーディングされたソース信号、前記ミックスされたオーディオ信号及び前記ミキシングパラメータのセットを用いてリミックスパラメータを生成し、前記ミックスされたオーディオ信号に前記リミックスパラメータを適用することによってリミックスされたオーディオ信号を生成できるリミックスモジュールと、
    を含むことを特徴とする装置。
  127. プロセシング部により実行される場合、
    オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップと、
    リミックスされるオブジェクトを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
    ミックスパラメータのセットを獲得するステップと、
    前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
  128. 第2複数チャネルオーディオ信号を生成するステップは、
    前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解するステップと、
    前記ミックスパラメータのセット及び前記付加情報を用いて第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定するステップと、
    前記第2サブバンド信号のセットを前記第2複数チャネルオーディオ信号に変換するステップと、
    を含むことを特徴とする請求項127に記載のコンピュータで読取りできる記録媒体。
  129. 第2サブバンド信号セットを推定するステップは、
    リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングするステップと、
    前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定するステップと、
    少なくとも1つの重み値のセットを用いて前記第2サブバンド信号のセットを推定するステップと、
    をさらに含むことを特徴とする請求項128に記載のコンピュータで読取りできる記録媒体。
  130. プロセッサにより実行される場合、
    オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトを表すソース信号を獲得するステップと、
    前記ソース信号から、少なくとも一部は前記付加情報と前記ソース信号間の関係を表す付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
  131. 付加情報を生成するステップは、
    1つ以上のゲインファクタを獲得するステップと、
    前記オーディオ信号及び前記ソース信号のサブセットを第1サブバンド信号のセット及び第2サブバンド信号のセットのそれぞれに分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    をさらに含むことを特徴とする請求項130に記載のコンピュータで読取りできる記録媒体。
  132. 付加情報を生成するステップは、
    前記オーディオ信号及び前記ソース信号のサブセットを第1サブバンド信号のセット及び第2サブバンド信号のセットのそれぞれに分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、1つ以上のゲインファクタを獲得するステップと、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    を含むことを特徴とする請求項131に記載のコンピュータで読取りできる記録媒体。
  133. プロセシング部により実行される場合、
    オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
    前記ソース信号のサブセットから付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
  134. プロセッサにより実行される場合、
    複数チャネルオーディオ信号を獲得するステップと、
    サウンドステージ上で前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
    前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
    前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、を含む動作が実行されるようにする、格納された命令を持つことを特徴とするコンピュータで読取りできる記録媒体。
  135. 前記関数は、前記所定のサウンド方向においてのみ略1つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項134に記載のコンピュータで読取りできる記録媒体。
  136. プロセシング部と、
    前記プロセシング部により実行される場合、
    オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得するステップと、
    リミックスされるオブジェクトを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得するステップと、
    ミックスパラメータのセットを獲得するステップと、
    前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセッサに結合されたコンピュータで読取りできる記録媒体と、
    を含むことを特徴とするシステム。
  137. 第2複数チャネルオーディオ信号を生成するステップは、
    前記第1複数チャネルオーディオ信号を第1サブバンド信号のセットに分解するステップと、
    前記ミックスパラメータのセット及び前記付加情報を用いて前記第2複数チャネルオーディオ信号に対応する第2サブバンド信号のセットを推定するステップと、
    前記第2サブバンド信号のセットを前記第2複数チャネルオーディオ信号に変換するステップと、
    を含むことを特徴とする請求項136に記載のシステム。
  138. 第2サブバンド信号のセットを推定するステップは、
    リミックスされる前記オブジェクトと関連したゲインファクタ及びサブバンドパワー推定値を提供する前記付加情報をデコーディングするステップと、
    前記ゲインファクタ、サブバンドパワー推定値及び前記ミックスパラメータのセットに基づいて1つ以上の重み値のセットを決定するステップと、
    少なくとも1つの重み値のセットを用いて前記第2サブバンド信号のセットを推定するステップと、
    をさらに含むことを特徴とする請求項137に記載のシステム。
  139. プロセシング部と、
    前記プロセシング部により実行される場合、
    オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトを表すソース信号を獲得するステップと、
    前記ソース信号から、少なくとも一部は前記付加情報と前記ソース信号間の関係を表す付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセシング部に結合されたコンピュータで読取りできる記録媒体と、
    を含むことを特徴とするシステム。
  140. 付加情報を生成するステップは、
    1つ以上のゲインファクタを獲得するステップと、
    前記オーディオ信号及び前記ソース信号のサブセットを第1サブバンド信号のセット及び第2サブバンド信号のセットのそれぞれに分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    をさらに含むことを特徴とする請求項139に記載のシステム。
  141. 付加情報を生成するステップは、
    前記オーディオ信号及び前記ソース信号のサブセットを第1サブバンド信号のセット及び第2サブバンド信号のセットのそれぞれに分解するステップと、
    前記第2サブバンド信号のセット内の各サブバンド信号において、前記サブバンド信号におけるサブバンドパワーを推定するステップ、1つ以上のゲインファクタを獲得するステップ、及び前記1つ以上のゲインファクタ及びサブバンドパワーから付加情報を生成するステップと、
    をさらに含むことを特徴とする請求項140に記載のシステム。
  142. プロセシング部と、
    前記プロセシング部により実行される場合、
    オブジェクトのセットを持つオーディオ信号を獲得するステップと、
    前記オブジェクトのサブセットを表すソース信号のサブセットを獲得するステップと、
    前記ソース信号のサブセットから付加情報を生成するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセッサに結合されたコンピュータで読取りできる記録媒体と、
    を含むことを特徴とするシステム。
  143. プロセシング部と、
    前記プロセシング部により実行される場合、
    複数チャネルオーディオ信号を獲得するステップと、
    サウンドステージ上で前記ソース信号のセットの所定のサウンド方向を表す所定のソースレベル差を用いてソース信号のセットにおけるゲインファクタを決定するステップと、
    前記複数チャネルオーディオ信号を用いて前記ソース信号のセットの直接音方向におけるサブバンドパワーを推定するステップと、
    前記直接音方向及び所定のサウンド方向の関数として、前記直接音方向における前記サブバンドパワーを修正することによって、前記ソース信号のセット内の前記ソース信号の少なくとも一部におけるサブバンドパワーを推定するステップと、を含む動作が実行されるようにする、格納された命令を持つ、前記プロセシング部に結合されたコンピュータで読取りできる記録媒体と、
    を含むことを特徴とするシステム。
  144. 前記関数は、前記所定のサウンド方向においてのみ略1つのゲインファクタをリターンするサウンド方向の関数であることを特徴とする請求項143に記載のシステム。
  145. オブジェクトのセットを持つ第1複数チャネルオーディオ信号を獲得する手段と、
    リミックスされるオブジェクトを表す1つ以上のソース信号と前記第1複数チャネルオーディオ信号間の関係を表す少なくとも一部の付加情報を獲得する手段と、
    ミックスパラメータのセットを獲得する手段と、
    前記付加情報及び前記ミックスパラメータのセットを用いて第2複数チャネルオーディオ信号を生成する手段と、
    を含むことを特徴とするシステム。
JP2009508223A 2006-05-04 2007-05-04 リミキシング性能を持つ改善したオーディオ Active JP4902734B2 (ja)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
EP06113521A EP1853092B1 (en) 2006-05-04 2006-05-04 Enhancing stereo audio with remix capability
EP06113521.6 2006-05-04
US82935006P 2006-10-13 2006-10-13
US60/829,350 2006-10-13
US88459407P 2007-01-11 2007-01-11
US60/884,594 2007-01-11
US88574207P 2007-01-19 2007-01-19
US60/885,742 2007-01-19
US88841307P 2007-02-06 2007-02-06
US60/888,413 2007-02-06
US89416207P 2007-03-09 2007-03-09
US60/894,162 2007-03-09
PCT/EP2007/003963 WO2007128523A1 (en) 2006-05-04 2007-05-04 Enhancing audio with remixing capability

Publications (3)

Publication Number Publication Date
JP2010507927A JP2010507927A (ja) 2010-03-11
JP2010507927A6 true JP2010507927A6 (ja) 2010-06-10
JP4902734B2 JP4902734B2 (ja) 2012-03-21

Family

ID=36609240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009508223A Active JP4902734B2 (ja) 2006-05-04 2007-05-04 リミキシング性能を持つ改善したオーディオ

Country Status (12)

Country Link
US (1) US8213641B2 (ja)
EP (4) EP1853092B1 (ja)
JP (1) JP4902734B2 (ja)
KR (2) KR101122093B1 (ja)
CN (1) CN101690270B (ja)
AT (3) ATE527833T1 (ja)
AU (1) AU2007247423B2 (ja)
BR (1) BRPI0711192A2 (ja)
CA (1) CA2649911C (ja)
MX (1) MX2008013500A (ja)
RU (1) RU2414095C2 (ja)
WO (1) WO2007128523A1 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP2067138B1 (en) * 2006-09-18 2011-02-23 Koninklijke Philips Electronics N.V. Encoding and decoding of audio objects
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
EP2084901B1 (en) 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
SG175632A1 (en) 2006-10-16 2011-11-28 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
US9338399B1 (en) * 2006-12-29 2016-05-10 Aol Inc. Configuring output controls on a per-online identity and/or a per-online resource basis
JP5254983B2 (ja) * 2007-02-14 2013-08-07 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
WO2009066959A1 (en) * 2007-11-21 2009-05-28 Lg Electronics Inc. A method and an apparatus for processing a signal
WO2009068085A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation An encoder
CN101911182A (zh) 2008-01-01 2010-12-08 Lg电子株式会社 用于处理音频信号的方法和装置
KR101147780B1 (ko) * 2008-01-01 2012-06-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8615316B2 (en) 2008-01-23 2013-12-24 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2083584B1 (en) 2008-01-23 2010-09-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8175295B2 (en) * 2008-04-16 2012-05-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2111062B1 (en) 2008-04-16 2014-11-12 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101061128B1 (ko) * 2008-04-16 2011-08-31 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8452430B2 (en) 2008-07-15 2013-05-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010008198A2 (en) * 2008-07-15 2010-01-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101335975B1 (ko) * 2008-08-14 2013-12-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 복수의 오디오 입력 신호를 리포맷팅하는 방법
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101545875B1 (ko) * 2009-01-23 2015-08-20 삼성전자주식회사 멀티미디어 아이템 조작 장치 및 방법
US20110069934A1 (en) * 2009-09-24 2011-03-24 Electronics And Telecommunications Research Institute Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file
AU2013242852B2 (en) * 2009-12-16 2015-11-12 Dolby International Ab Sbr bitstream parameter downmix
WO2011073201A2 (en) * 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
US9536529B2 (en) * 2010-01-06 2017-01-03 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
MX2012011532A (es) 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
CN101894561B (zh) * 2010-07-01 2015-04-08 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
US8675881B2 (en) 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
EP2661746B1 (en) * 2011-01-05 2018-08-01 Nokia Technologies Oy Multi-channel encoding and/or decoding
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
EP3913931B1 (en) 2011-07-01 2022-09-21 Dolby Laboratories Licensing Corp. Apparatus for rendering audio, method and storage means therefor.
JP5057535B1 (ja) * 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
JP5930441B2 (ja) 2012-02-14 2016-06-08 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
US9696884B2 (en) * 2012-04-25 2017-07-04 Nokia Technologies Oy Method and apparatus for generating personalized media streams
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9799339B2 (en) 2012-05-29 2017-10-24 Nokia Technologies Oy Stereo audio signal encoder
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
JP6133422B2 (ja) * 2012-08-03 2017-05-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP6186435B2 (ja) * 2012-08-07 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
ES2595220T3 (es) * 2012-08-10 2016-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y métodos para adaptar información de audio a codificación de objeto de audio espacial
US9497560B2 (en) 2013-03-13 2016-11-15 Panasonic Intellectual Property Management Co., Ltd. Audio reproducing apparatus and method
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN108806704B (zh) * 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014175668A1 (ko) 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9373320B1 (en) * 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
US9380383B2 (en) * 2013-09-06 2016-06-28 Gracenote, Inc. Modifying playback of content using pre-processed profile information
EP3767970B1 (en) * 2013-09-17 2022-09-28 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing multimedia signals
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
JP2015132695A (ja) 2014-01-10 2015-07-23 ヤマハ株式会社 演奏情報伝達方法、演奏情報伝達システム
JP6326822B2 (ja) * 2014-01-14 2018-05-23 ヤマハ株式会社 録音方法
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CN106471575B (zh) * 2014-07-01 2019-12-10 韩国电子通信研究院 多信道音频信号处理方法及装置
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
KR102537541B1 (ko) 2015-06-17 2023-05-26 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
AU2015413301B2 (en) * 2015-10-27 2021-04-15 Ambidio, Inc. Apparatus and method for sound stage enhancement
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105389089A (zh) * 2015-12-08 2016-03-09 上海斐讯数据通信技术有限公司 一种移动终端音量调控系统及方法
JP7023848B2 (ja) 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
US10037750B2 (en) * 2016-02-17 2018-07-31 RMXHTZ, Inc. Systems and methods for analyzing components of audio tracks
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10565572B2 (en) 2017-04-09 2020-02-18 Microsoft Technology Licensing, Llc Securing customized third-party content within a computing environment configured to enable third-party hosting
CN107204191A (zh) * 2017-05-17 2017-09-26 维沃移动通信有限公司 一种混音方法、装置及移动终端
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
CN110097888B (zh) * 2018-01-30 2021-08-20 华为技术有限公司 人声增强方法、装置及设备
WO2019191611A1 (en) 2018-03-29 2019-10-03 Dts, Inc. Center protection dynamic range control
GB2580360A (en) * 2019-01-04 2020-07-22 Nokia Technologies Oy An audio capturing arrangement
CN112637627B (zh) * 2020-12-18 2023-09-05 咪咕互动娱乐有限公司 直播中用户交互方法、系统、终端、服务器及存储介质
CN115472177A (zh) * 2021-06-11 2022-12-13 瑞昱半导体股份有限公司 用于梅尔频率倒谱系数的实现的优化方法
CN114285830B (zh) * 2021-12-21 2024-05-24 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
JP2024006206A (ja) * 2022-07-01 2024-01-17 ヤマハ株式会社 音信号処理方法及び音信号処理装置

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3175209D1 (en) 1981-05-29 1986-10-02 Ibm Aspirator for an ink jet printer
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5458404A (en) 1991-11-12 1995-10-17 Itt Automotive Europe Gmbh Redundant wheel sensor signal processing in both controller and monitoring circuits
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
JP3397001B2 (ja) 1994-06-13 2003-04-14 ソニー株式会社 符号化方法及び装置、復号化装置、並びに記録媒体
US6141446A (en) 1994-09-21 2000-10-31 Ricoh Company, Ltd. Compression and decompression system with reversible wavelets and lossy reconstruction
US5838664A (en) 1997-07-17 1998-11-17 Videoserver, Inc. Video teleconferencing system with digital transcoding
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6128597A (en) 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
AU740617C (en) 1997-06-18 2002-08-08 Clarity, L.L.C. Methods and apparatus for blind signal separation
US6026168A (en) 1997-11-14 2000-02-15 Microtek Lab, Inc. Methods and apparatus for automatically synchronizing and regulating volume in audio component systems
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
WO1999053479A1 (en) 1998-04-15 1999-10-21 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Fast frame optimisation in an audio encoder
JP3770293B2 (ja) 1998-06-08 2006-04-26 ヤマハ株式会社 演奏状態の視覚的表示方法および演奏状態の視覚的表示プログラムが記録された記録媒体
US6122619A (en) 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
US7103187B1 (en) 1999-03-30 2006-09-05 Lsi Logic Corporation Audio calibration system
JP3775156B2 (ja) 2000-03-02 2006-05-17 ヤマハ株式会社 携帯電話機
MXPA02008661A (es) 2000-03-03 2004-09-06 Cardiac M R I Inc Aparato para analisis de especimen de resonancia magnetica.
WO2001083967A1 (en) * 2000-04-27 2001-11-08 Mitsubishi Jidosha Kogyo Kabushiki Kaisha Engine operation controller of hybrid electric vehicle
CN100429960C (zh) 2000-07-19 2008-10-29 皇家菲利浦电子有限公司 用于获得立体声环绕和/或音频中心信号的多声道立体声转换器
JP4304845B2 (ja) 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
JP2002058100A (ja) 2000-08-08 2002-02-22 Yamaha Corp 音像定位制御装置および音像定位制御プログラムが記録された記録媒体
JP2002125010A (ja) 2000-10-18 2002-04-26 Casio Comput Co Ltd 移動体通信装置及びメロディ着信音出力方法
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP3726712B2 (ja) 2001-06-13 2005-12-14 ヤマハ株式会社 演奏設定情報の授受が可能な電子音楽装置及びサーバ装置、並びに、演奏設定情報授受方法及びプログラム
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7032116B2 (en) 2001-12-21 2006-04-18 Intel Corporation Thermal management for computer systems running legacy or thermal management operating systems
KR101021079B1 (ko) 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
EP1500084B1 (en) 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
DE60311794T2 (de) 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
JP4013822B2 (ja) 2002-06-17 2007-11-28 ヤマハ株式会社 ミキサ装置およびミキサプログラム
AU2003244932A1 (en) 2002-07-12 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
EP1394772A1 (en) 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
JP4084990B2 (ja) 2002-11-19 2008-04-30 株式会社ケンウッド エンコード装置、デコード装置、エンコード方法およびデコード方法
KR100706012B1 (ko) * 2003-03-03 2007-04-11 미츠비시 쥬고교 가부시키가이샤 캐스크, 중성자 차폐체용 조성물 및 중성자 차폐체 제조법
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
JP4496379B2 (ja) 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
US6937737B2 (en) 2003-10-27 2005-08-30 Britannia Investment Corporation Multi-channel audio surround sound from front located loudspeakers
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CA2992097C (en) 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100745688B1 (ko) 2004-07-09 2007-08-03 한국전자통신연구원 다채널 오디오 신호 부호화/복호화 방법 및 장치
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
ES2373728T3 (es) 2004-07-14 2012-02-08 Koninklijke Philips Electronics N.V. Método, dispositivo, aparato codificador, aparato decodificador y sistema de audio.
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
CN101233569B (zh) 2005-07-29 2010-09-01 Lg电子株式会社 分拆信息的信令化方法
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
EP1640972A1 (en) 2005-12-23 2006-03-29 Phonak AG System and method for separation of a users voice from ambient sound
DE602006016017D1 (de) 2006-01-09 2010-09-16 Nokia Corp Steuerung der dekodierung binauraler audiosignale
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
JP4399835B2 (ja) 2006-07-07 2010-01-20 日本ビクター株式会社 音声符号化方法及び音声復号化方法

Similar Documents

Publication Publication Date Title
JP4902734B2 (ja) リミキシング性能を持つ改善したオーディオ
JP2010507927A6 (ja) リミキシング性能を持つ改善したオーディオ
JP5192545B2 (ja) リミキシング能力を有する向上したオーディオ
US11621007B2 (en) Parametric joint-coding of audio sources
JP5291096B2 (ja) オーディオ信号処理方法及び装置
RU2384014C2 (ru) Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс)
US20110206223A1 (en) Apparatus for Binaural Audio Coding
KR100891669B1 (ko) 믹스 신호의 처리 방법 및 장치