JP2016509249A - 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング - Google Patents
知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング Download PDFInfo
- Publication number
- JP2016509249A JP2016509249A JP2015549414A JP2015549414A JP2016509249A JP 2016509249 A JP2016509249 A JP 2016509249A JP 2015549414 A JP2015549414 A JP 2015549414A JP 2015549414 A JP2015549414 A JP 2015549414A JP 2016509249 A JP2016509249 A JP 2016509249A
- Authority
- JP
- Japan
- Prior art keywords
- objects
- audio
- metadata
- cluster
- loudness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Abstract
Description
本願は2012年12月21日に出願された米国仮特許出願第61/745,401号および2013年8月12日に出願された米国仮出願第61/885,072号の優先権の利益を主張するものである。両出願はここに参照によってその全体において組み込まれる。
一つまたは複数の実施形態は概括的にはオーディオ信号処理に関し、より詳細には、効率的な符号化および/またはさまざまな再生システムを通じたレンダリングのためにオブジェクト・ベースのオーディオ・データを圧縮するために、知覚的基準に基づいてオーディオ・オブジェクトをクラスタリングすることに関する。
本明細書において言及される各刊行物、特許および/または特許出願はここに参照によって、個々の各刊行物および/または特許出願が具体的かつ個別的に参照によって組み込まれることが示されている場合と同じ程度にその全体において組み込まれる。
ある実施形態では、適応オーディオ・システムは、オブジェクト・クラスタリングと、チャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの、知覚的に透明な単純化とを通じてオブジェクト・ベースのオーディオ・コンテンツの帯域幅を削減するコンポーネントを提供する。前記コンポーネントによって実行されるオブジェクト・クラスタリング・プロセスは、同様のオブジェクトをグループ化してもとのオブジェクトの代わりとなるオブジェクト・クラスターにすることによって空間的シーンの複雑さを低下させるために、空間的位置、コンテンツ型、時間的属性、オブジェクト幅およびラウドネスを含むオブジェクトについてのある種の情報を使う。
クラスタリング・プロセスは本質的には、システムを通じて伝送されるデータの量を削減するが、もとのオブジェクトをより少数のレンダリングされるオブジェクトに組み合わせることに起因するある程度のコンテンツ劣化を本来的に導入する、不可逆圧縮方式の型を表わす。上記のように、オブジェクトのクラスタリングに起因する劣化は、誤差メトリックによって定量化される。もとのオブジェクトの比較的少数の組み合わされたグループへの削減が大きいほど、および/またはもとのオブジェクトを組み合わされたグループにする空間的縮退の量が大きいほど、一般に、誤差が大きくなる。ある実施形態では、クラスタリング・プロセスにおいて使われる誤差メトリックは、式(1)に示されるように表現される。
y(c)[t]=sum_s g(s,c)[t]*x(s)[t] (2)
である。各クラスターcについての誤差メトリックE(s,c)[t]は、式(1)で表わされる諸項の、振幅利得g(s,c)[t]の関数である重みによる重み付けされた組み合わせであることができ、式(3)に示されるようになる:
E(s,c)[t]=sum_s(f(g(s,c)[t])*Importance_s[t]*dist(s,c)[t]) (3)。
E(s,c)[t]=Importance_s[t]*(α*(1−Width_s[t])*dist(s,c)[t]+(1−α)*Width_s[t]) (4)。
Eoverallt]=ΣEMDn (5)。
Eoverallt]=Espatial+Eloudness+Erendering+Econtrol (6)。
ある実施形態では、クラスタリング方法は、制約された条件においてオブジェクトおよび/またはベッド・チャネルを組み合わせるよう構成される。たとえば、入力オブジェクトは、オブジェクトの多さおよび/またはその空間的に疎な分布のために、空間的な誤差基準を破ることなくしてはクラスタリングされることができない。そのような条件では、クラスタリング・プロセスは、(メタデータから導出される)空間的近接性によって制御されるばかりでなく、対応するオーディオ信号導出された知覚的基準によって補強される。より具体的には、コンテンツ中の高い(知覚される)重要性をもつオブジェクトは、空間的誤差を最小化することに関して、低い重要性をもつオブジェクトに対して優遇される。重要性を定量化することの例は、部分ラウドネスおよびセマンティクス(コンテンツ型)を含むがそれに限られない。
N'k(b)=(A+ΣEm(b))α+(A+ΣEm(b)(1−f(k,m)))α
。
N'(b)=C[(GEobj+GEnoise+A)α−Aα]−C[(GEnoise+A)α−Aα]
ここで、G、C、Aおよびαはモデル・パラメータである。その後、部分ラウドネス(partial loudness)Nは、諸臨界帯域を通じて個別ラウドネスN'(b)を合計することによって次のように得られる:
N=ΣbN'(b)
。
N'k(b)=(A+ΣmEm(b))α−(−Ek(b)+A+ΣmEm(b))α
によって与えられる。
N'k(b)=(A+ΣmEm(b))α−(−Ek(b)+A+ΣmEm(b)(1−f(k,m)))α
。
N'c(b)=(A+ΣmEm(b))α−(A+ΣmEm(b)(1−f(k,m)))α
。
E'k(b)=Ek(b)g(lk)
。
ここで、Gはコンテンツ・ベースのオブジェクト重要性に対するもう一つの利得であり、これは最良のパフォーマンスを得るために調整されることができる。
g(lk)=1+G・lk
のような線形関数である。
τ=τ0+lk・τ1
のように正の相関をもつ。
適応オーディオ・システムでは、ある種のオブジェクトは固定されたオブジェクト、たとえば特定のスピーカー・フィードに関連付けられているチャネル・ベッドとして定義されてもよい。ある実施形態では、クラスタリング・プロセスは、ベッドと動的オブジェクトの相互作用を考慮に入れ、オブジェクトがクラスタリングされたオブジェクトとグループ化されるときに大きすぎる誤差を生じる(たとえば、そのオブジェクトが外れているオブジェクトである)ときは、そのオブジェクトは代わりにあるベッドに混合される。図14は、ある実施形態のもとでの、オーディオ・オブジェクトおよびベッドをクラスタリングするプロセス・フローの構成要素を示している。図14に示される方法1400では、ベッドは固定位置のオブジェクトとして定義されることが想定される。次いで、外れているオブジェクトは、該オブジェクトが他のオブジェクトとクラスタリングするための誤差閾値より上であれば、一つまたは複数の適切なベッドとクラスタリングされる(混合される)(1402)。次いで、該ベッド・チャネル(単数または複数)は、クラスタリング後に上記オブジェクト情報でラベル付けされる(1404)。次いで、プロセスは、オーディオをより多くのチャネルにレンダリングし、追加的チャネルをオブジェクトとしてクラスタリングし(1406)、アーチファクト/脱相関、位相歪みなどを避けるために下方混合またはスマート・ダウンミックスに対してダイナミックレンジ管理を実行する(1408)。本プロセスは2パスの選別/クラスタリング・プロセスを実行する(1410)。ある実施形態では、これは、N個の最も顕著なオブジェクトを別個に保持し、残りのオブジェクトをクラスタリングすることに関わる。こうして、本プロセスは、それほど顕著でないオブジェクトのみをグループまたは固定されたベッドにクラスタリングする(1412)。固定されたベッドは、動いているオブジェクトまたはクラスタリングされたオブジェクトに加えられることができ、これは、ヘッドフォン仮想化のような個別的なエンドポイント装置にとってより好適でありうる。何個のオブジェクトが、そしてどのオブジェクトが一緒にクラスタリングされるかおよびどこでそれらがクラスタリング後に空間的にレンダリングされるかの特性として、オブジェクト幅が使われてもよい。
上記で論じたように、さまざまな異なるエンドポイント装置が、本稿に記載されるようなクラスタリング・プロセスを用いるレンダリング・システムとの関連で使用されてもよく、そのような装置はクラスタリング・プロセスに影響しうるある種の機能を有していてもよい。図15は、ある実施形態のもとでの、エンドポイント装置機能に基づく、クラスタリングされたデータ・のレンダリングを示している。描画1500に示されるように、ブルーレイ・ディスク・デコーダ1502は、サウンドバー、家庭シアター(home theater)・システム、個人用再生装置または他の何らかの制限された処理再生システム1504を通じたレンダリングのために、クラスタリングされたベッドおよびオブジェクトを含む単純化されたオーディオ・シーン・コンテンツを生成する。エンドポイント装置の特性および機能は、レンダラー機能情報1508として、デコーダ段1502に送信し返される。オブジェクトのクラスタリングが、使用される特定のエンドポイント装置に基づいて最適に実行されることができるようにするためである。
Claims (63)
- オブジェクト・ベースのオーディオ・データを圧縮する方法であって:
レンダリングされるべき第一の複数の固定チャネルおよびオーディオ・オブジェクトを同定する段階であって、各オーディオ・オブジェクトはオーディオ・データおよび関連付けられたメタデータを含む、段階と;
各オーディオ・オブジェクトについての関連付けられたメタデータ内にエンコードされた一つまたは複数のパラメータについての誤差閾値を定義する段階と;
前記誤差閾値に基づいて、前記第一の複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを減らされた複数の固定チャネルまたはオーディオ・オブジェクトにグループ化する段階とを含む、
方法。 - 前記一つまたは複数のパラメータは、位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項1記載の方法。
- オーディオ・オブジェクトをグループ化することが、オーディオ・オブジェクトを組み合わせて前記減らされた複数のオーディオ・オブジェクトを含む複数のクラスターにすることを含み、各クラスターは、各クラスター内の他のオーディオ・オブジェクトと関連付けられている構成要素オーディオ・オブジェクトを含み、それぞれのオーディオ・オブジェクトをそれぞれのクラスター中に組み合わせることによって引き起こされる前記一つまたは複数のパラメータの変化に起因して、各誤差閾値についての前記一つまたは複数のパラメータの各パラメータについての誤差閾値が超過されないようにされる、請求項2記載の方法。
- 前記減らされた複数のオーディオ・オブジェクトが構成要素オブジェクトの一つまたは複数のクラスターを含み、構成要素オブジェクトをそれぞれのクラスターにグループ化することが、それぞれのオーディオ・オブジェクトの位置パラメータに関連付けられた誤差閾値内で他のオブジェクトに空間的に近接しているオーディオ・オブジェクトを同じクラスターの一部となるよう割り当てることを含む、請求項2記載の方法。
- オーディオ・オブジェクトをグループ化することが:
同じクラスター内の諸構成要素オブジェクトについてのオーディオ・データを具現する諸波形を一緒に組み合わせて、諸構成要素オブジェクトの組み合わされた波形を有する置換オブジェクトを形成する段階と;
同じクラスター内の諸構成要素オブジェクトについてのメタデータを一緒に組み合わせて、諸構成要素オブジェクトについてのメタデータの置換セットを形成する段階とを含む、
請求項4記載の方法。 - オーディオ・オブジェクトをグループ化する前記段階がさらに、少なくとも一つのオブジェクトを前記複数のクラスターのうちの二つ以上のクラスター中に分配することを含む、請求項3記載の方法。
- 構成要素オブジェクトについての前記メタデータが、組み合わされるメタデータの型に依存する組み合わせ操作または選択操作の一方を使って組み合わされる、請求項6記載の方法。
- 前記置換オブジェクトの位置についてのメタデータの前記置換セットが、構成要素オブジェクトの各位置の平均を取ることによって導出され、前記置換オブジェクトの幅についてのメタデータの前記置換セットが、構成要素オブジェクトのそれぞれの幅の組み合わせを取ることによって導出され、前記置換オブジェクトのラウドネスについてのメタデータの前記置換セットが、構成要素オブジェクトのラウドネスの組み合わせを取ることによって導出され、前記置換オブジェクトのコンテンツ型についてのメタデータの前記置換セットが、支配的な構成要素オブジェクトのコンテンツ型を選択することによって導出され、前記置換オブジェクトのレンダリング・モードについてのメタデータの前記置換セットが、支配的な構成要素オブジェクトのレンダリング・モードを選択することによって導出される、請求項7記載の方法。
- 前記支配的な構成要素オブジェクトが、同じクラスター内の他の構成要素オブジェクトに比して大きな個別ラウドネスを有する構成要素オブジェクトを含み、前記個別ラウドネスは、音響心理学理論に基づくラウドネスの知覚的な指標である、請求項8記載の方法。
- 前記誤差閾値は、対応するオーディオ・オブジェクトが再生システムにおいてレンダリングされるときに該対応するオーディオ・オブジェクトの過度の歪みを引き起こすような、当該オーディオ・オブジェクトを一つまたは複数のオブジェクトとグループ化することに起因するそれぞれのメタデータ値の逸脱の最大量である、請求項3記載の方法。
- 前記誤差閾値は、クラスター内の少なくとも一つの構成要素オブジェクトの、該クラスターの中心点までの距離と、当該構成要素オブジェクトの、当該クラスター内の他の構成要素オブジェクトまたはベッドに比しての重要性との関数として表現される誤差メトリックによって表わされる、請求項10記載の方法。
- 前記構成要素オブジェクトの重要性が、当該クラスター内のその構成要素オブジェクトの相対エネルギーまたはラウドネスの一方の関数である、請求項11記載の方法。
- 前記複数のクラスターのクラスターの少なくとも一つが、前記オーディオ・オブジェクトの最低のビット深さより少数のビットを使ってエンコードされる低減ビット深さクラスターである、請求項3記載の方法。
- 前記複数のクラスターは、周期的な時間間隔およびイベント駆動のスケジュールの一方に基づいて時間的に変化し、前記イベント駆動のスケジュールは、各構成要素オブジェクトの定義されたオブジェクト境界に関する、当該クラスターの各構成要素オブジェクトの開始点および停止点を含む、請求項3記載の方法。
- 各構成要素オブジェクトの開始点および停止点が、該構成要素オブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される、請求項14記載の方法。
- 定義された時間間隔で複数のオブジェクトの各オブジェクトの空間的位置を同定する段階と;
オブジェクトの対の間の最大距離に基づいて、前記複数のオブジェクトのうちのオブジェクトを一つまたは複数の時間変化するクラスターにグループ化する段階とを含む、
オブジェクト・ベースのオーディオを処理する方法。 - 前記定義された時間間隔は:規則的な時間期間と、前記複数のオブジェクトの各オブジェクトについてのオブジェクト境界によって定義されるイベント駆動のスケジュールとのうちの一方を含む、請求項16記載の方法。
- 各オブジェクトについての前記オブジェクト境界は、それぞれのオブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される開始点および停止点を含む、請求項17記載の方法。
- 各オブジェクトは、オーディオ・データを表現する波形要素と、該オブジェクトの一つまたは複数の特性をエンコードするメタデータ要素とを有する適応オーディオ・オブジェクトである、請求項18記載の方法。
- 前記一つまたは複数の特性は、オブジェクトが再生システムにおいてレンダリングされる際のオブジェクトの位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項19記載の方法。
- 前記複数のオブジェクトのうちのオブジェクトをグループ化する段階が:
各オブジェクトについての波形を組み合わせて、クラスタリングされたオブジェクトについての組み合わされた波形を形成する段階と;
各オブジェクトについてのメタデータ要素を組み合わせて、前記クラスタリングされたオブジェクトについての組み合わされたメタデータ要素を形成する段階とを含む、
請求項19記載の方法。 - 各特性に関連付けられたクラスター歪み誤差を定義する段階と;
オブジェクトをクラスター内の一つまたは複数の他のオブジェクトとグループ化することが、それぞれのクラスター歪み誤差を超過するような当該オブジェクトの特性の変化を引き起こすかどうかを判定する段階と;
前記オブジェクトを、次回の区間において当該クラスター内の前記一つまたは複数の他のオブジェクトから脱クラスタリングする段階とをさらに含む、
請求項21記載の方法。 - 前記組み合わされたメタデータが、クラスタリングされたオブジェクトの特性に依存する組み合わせまたは選択操作の一方を使って形成される、請求項21記載の方法。
- クラスタリングされたオブジェクトの位置についての組み合わされたメタデータが、オブジェクトの各位置の平均を取ることによって導出され、クラスタリングされたオブジェクトの幅についての組み合わされたメタデータが、オブジェクトのそれぞれの幅の平均を取ることによって導出され、クラスタリングされたオブジェクトのラウドネスについての組み合わされたメタデータが、オブジェクトのラウドネスの平均を取ることによって導出され、クラスタリングされたオブジェクトのコンテンツ型についての組み合わされたメタデータが、当該クラスター内の支配的なオブジェクトのコンテンツ型を選択することによって導出され、クラスタリングされたオブジェクトのレンダリング・モードについての組み合わされたメタデータが、前記支配的なオブジェクトのレンダリング・モードを選択することによって導出される、請求項23記載の方法。
- 前記支配的なオブジェクトが、当該クラスター内の他のオブジェクトに比して大きな個別ラウドネスを有するオブジェクトであり、前記個別ラウドネスは、音響心理学理論に基づくラウドネスの知覚的な指標である、請求項24記載の方法。
- 前記一つまたは複数のオブジェクト・クラスターを、再生システムを通じたレンダリングのためにコーデック回路内でエンコーダ段からデコーダ段に伝送する段階をさらに含む、請求項16記載の方法。
- 定義された時間間隔で複数のオブジェクトの各オブジェクトの空間的位置を同定する第一のレンダリング・コンポーネントと;
オブジェクトの対の間の最大距離に基づいて、前記複数のオブジェクトのうちのオブジェクトを一つまたは複数の時間変化するクラスターにグループ化するクラスタリング・コンポーネントとを有する、
オブジェクト・ベースのオーディオをレンダリングするシステム。 - 前記定義された時間間隔は:規則的な時間期間と、前記複数のオブジェクトの各オブジェクトについてのオブジェクト境界によって定義されるイベント駆動のスケジュールとのうちの一方を含み、各オブジェクトについての前記オブジェクト境界は、それぞれのオブジェクトのラウドネス・レベルまたはエネルギー・レベルの一方を使って決定される開始点および停止点を含む、請求項27記載のシステム。
- 各オブジェクトは、オーディオ・データを表わす波形要素と、該オブジェクトの一つまたは複数の特性をエンコードするメタデータ要素とを有する適応オーディオ・オブジェクトであり、前記一つまたは複数の特性は、オブジェクトが再生システムにおいてレンダリングされる際のオブジェクトの位置、幅、ラウドネス、コンテンツ型およびレンダリング・モードのうちの少なくとも一つまたは複数を含む、請求項28記載のシステム。
- 前記複数のオブジェクトのうちのオブジェクトをグループ化することが:
各オブジェクトについての波形を合計して、クラスタリングされたオブジェクトについての合計された波形を形成し;
各オブジェクトについてのメタデータ要素を組み合わせて、前記クラスタリングされたオブジェクトについての組み合わされたメタデータ要素を形成することを含む、
請求項29記載のシステム。 - 前記組み合わされたメタデータが、クラスタリングされたオブジェクトの特性に依存する組み合わせまたは選択操作の一方を使って形成され、クラスタリングされたオブジェクトの位置についての組み合わされたメタデータが、オブジェクトの各位置の平均を取ることによって導出され、クラスタリングされたオブジェクトの幅についての組み合わされたメタデータが、オブジェクトのそれぞれの幅の平均を取ることによって導出され、クラスタリングされたオブジェクトのラウドネスについての組み合わされたメタデータが、オブジェクトのラウドネスの平均を取ることによって導出され、クラスタリングされたオブジェクトのコンテンツ型についての組み合わされたメタデータが、当該クラスター内の支配的なオブジェクトのコンテンツ型を選択することによって導出され、クラスタリングされたオブジェクトのレンダリング・モードについての組み合わされたメタデータが、前記支配的なオブジェクトのレンダリング・モードを選択することによって導出される、請求項30記載のシステム。
- 前記オブジェクトの少なくともいくつかが、オーディオ・コンテンツをスピーカー・フィードを通じて、サラウンドサウンド構成に配置された個々のドライバに伝送するためのチャネル・ベッドを含み、前記オブジェクトの他の少なくともいくつかが、見かけの三次元源位置および見かけの源幅を含む関連付けられたパラメトリックな源記述をもつオブジェクト・ベースの静的または動的なオーディオ・オブジェクトを含む、請求項30記載のシステム。
- ユーザーに対して前記オーディオ・コンテンツを出力する前記再生システムのエンドポイント装置の一つまたは複数の再生特性を検出する第二のレンダリング・コンポーネントをさらに有する、請求項32記載のシステム。
- 前記エンドポイント装置の前記再生特性が、オブジェクトの前記グループ化を修正するために前記クラスタリング・コンポーネントによって使用される、請求項33記載のシステム。
- 前記エンドポイント装置が、デジタル・メディア・ディスク・プレーヤー、家庭シアター・システム、サウンドバー、パーソナル音楽デバイスおよび映画館サウンド・システムからなる群から選択される、請求項34記載のシステム。
- オブジェクト・ベースのオーディオ・データを圧縮する方法であって:
オーディオ・シーン内のオブジェクトの知覚的重要性を判別する段階であって、前記オブジェクトはオブジェクト・オーディオ・データおよび関連付けられたメタデータを含む、段階と;
前記オブジェクトの判別された知覚的重要性に基づいて、ある種のオーディオ・オブジェクトをオーディオ・オブジェクトのクラスターに組み合わせる段階であって、クラスターの数はオーディオ・シーン内のオブジェクトのもとの数より少ない、段階とを含む、
方法。 - 前記知覚的重要性が、前記オブジェクトの前記オブジェクト・オーディオ・データから導出される、請求項36記載の方法。
- 前記知覚的重要性が、それぞれのオブジェクトのラウドネス値およびコンテンツ型の少なくとも一方から導出される値であり、前記コンテンツ型が、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項36記載の方法。
- 前記オブジェクトの判別される知覚的重要性が、オーディオ・シーンにおける前記オブジェクトの相対的な空間的位置に依存し、前記組み合わせる段階が:
いくつかの重心を決定する段階であって、前記重心は複数のオーディオ・オブジェクトをグループ化するクラスターの中心であり、重心位置は、一つまたは複数のオーディオ・オブジェクトの他のオーディオ・オブジェクトに対する知覚的重要性に依存する、段階と;
オブジェクト信号を諸クラスターを横断して分配することによって前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを含む、
請求項36記載の方法。 - クラスター・メタデータが、高い知覚的重要性の一つまたは複数のオブジェクトによって決定される、請求項38記載の方法。
- 前記コンテンツ型がオーディオ分類プロセスによって決定され、前記ラウドネス値が知覚的モデルによって得られる、請求項40記載の方法。
- 前記知覚的モデルが、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づき、当該方法がさらに:
前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義する段階と;
前記オーディオ・オブジェクトのすべての励起を総合する段階とを含む、
請求項41記載の方法。 - 前記ラウドネス値が少なくとも部分的には、それぞれのオブジェクトの、他のオブジェクトへの空間的近接性に依存する、請求項38記載の方法。
- 前記空間的近接性が、少なくとも部分的には、それぞれのオブジェクトの関連付けられたメタデータの位置メタデータ値によって定義される、請求項43記載の方法。
- 前記組み合わせる段階が、各クラスタリングされたオブジェクトに関連するある空間的誤差を引き起こし、さらに、当該方法がさらに、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるようオブジェクトをクラスタリングすることを含む、請求項36記載の方法。
- 最高の知覚的重要性をもつオブジェクトを、最高の知覚的重要性をもつオブジェクトを含むクラスターのクラスター重心として選択すること、あるいは最大ラウドネスをもつオブジェクトを、該最大ラウドネスをもつオブジェクトを含むクラスターについてのクラスター重心として選択することのうちの一方をさらに含む、請求項45記載の方法。
- クラスタリングがさらに:オブジェクトを最も近い近隣とグループ化すること、あるいはパン方法を使ってオブジェクトを一つまたは複数のクラスターにわたって分配することのうちの一方を含む、請求項46記載の方法。
- 前記励起レベル、前記ラウドネスまたはそれから導出される属性を、グループ化されたオブジェクトの相対的な知覚的重要性によって導出される時定数に基づいて平滑化することをさらに含む、請求項42記載の方法。
- オブジェクト・ベースのオーディオを処理する方法であって:
各オブジェクトの、前記複数のオーディオ・オブジェクトの他のオブジェクトに対する第一の空間的位置を決定する段階と;
前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの相対的重要性を決定する段階であって、前記相対的重要性は、オブジェクトの前記相対的な空間位置に依存する、段階と;
いくつかの重心を決定する段階であって、各重心は複数のオーディオ・オブジェクトをグループ化するクラスターの中心であり、重心位置は一つまたは複数のオーディオ・オブジェクトの前記相対的重要性に依存する、段階と;
オブジェクト信号を複数のクラスターを横断して分配することによって、前記オブジェクトを一つまたは複数のクラスターにグループ化する段階とを含む、
方法。 - 前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの部分ラウドネスを決定する段階をさらに含み、オブジェクトの前記部分ラウドネスは少なくとも部分的には、一つまたは複数の他のオブジェクトのマスキング効果に基づく、請求項49記載の方法。
- 前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトのコンテンツ型および関連付けられたコンテンツ型重要性を判別する段階をさらに含む、請求項49記載の方法。
- 各オーディオ・オブジェクトの前記部分ラウドネスおよび前記コンテンツ型を組み合わせてそれぞれのオーディオ・オブジェクトの前記相対的重要性を決定する段階をさらに含む、請求項49記載の方法。
- 前記コンテンツ型が、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項52記載の方法。
- 前記部分ラウドネスが、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づく知覚的モデルによって得られ、当該方法がさらに:
前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義する段階と;
前記オーディオ・オブジェクトのすべての励起を総合する段階とを含む、
請求項50記載の方法。 - 前記オブジェクトをグループ化することが、各クラスタリングされたオブジェクトに関連するある空間的誤差を引き起こし、さらに、当該方法がさらに、相対的に高い知覚的重要性のオブジェクトについて空間的誤差が最小化されるよう前記オブジェクトをグループ化することを含む、請求項49記載の方法。
- 最高の知覚的重要性をもつオブジェクトを、最高の知覚的重要性をもつオブジェクトを含むクラスターのクラスター重心として選択すること、あるいは最大ラウドネスをもつオブジェクトを、該最大ラウドネスをもつオブジェクトを含むクラスターについてのクラスター重心として選択することのうちの一方をさらに含む、請求項55記載の方法。
- 前記オーディオ・オブジェクトをグループ化することが:
同じクラスター内の構成要素オブジェクトについてのオーディオ・データを具現する波形を一緒に組み合わせてそれらの構成要素オブジェクトの組み合わされた波形をもつ置換オブジェクトを形成する段階と;
同じクラスター内の構成要素オブジェクトについてのメタデータを組み合わせて、それらの構成要素オブジェクトについてのメタデータの置換セットを形成する段階とを含む、
請求項49記載の方法。 - オブジェクト・ベースのオーディオをレンダリングするシステムであって:
オーディオ・シーン内のオブジェクトの知覚的重要性を決定する第一のレンダリング・コンポーネントであって、前記オブジェクトはオブジェクト・オーディオ・データおよび関連付けられたメタデータを含む、コンポーネントと;
あるオーディオ・オブジェクトを、前記オブジェクトの決定された知覚的重要性に基づいてオーディオ・オブジェクトのクラスターに組み合わせるクラスタリングとを有しており、クラスターの数は前記オーディオ・シーン内のオブジェクトのもとの数より少ない、
システム。 - 前記知覚的重要性は前記オブジェクトのオブジェクト・オーディオ・データから導出される、請求項58記載のシステム。
- 前記知覚的重要性は、それぞれのオブジェクトのラウドネス値およびコンテンツ型の少なくとも一方から導出された値であり、前記コンテンツ型は、ダイアログ、音楽、サウンド効果、周辺音およびノイズからなる群から選択される、請求項58記載のシステム。
- 前記コンテンツ型を判別するオーディオ分類コンポーネントをさらに有する請求項60記載のシステムであって、前記オーディオ分類コンポーネントは:
前記オーディオ・オブジェクトについての入力オーディオ信号を受領するインターフェースと;
前記インターフェースに結合され、前記入力オーディオ信号の時間的、スペクトル的および空間的属性のうちの少なくとも一つを表わす特徴を抽出する特徴抽出モジュールと;
前記特徴抽出モジュールに結合され、コンテンツ型グループに対応する各目標オーディオ型の統計的属性を表わす事前トレーニングされたモデルのセットを記憶しているデータ記憶部と;
前記特徴抽出モジュールに結合され、前記入力オーディオ信号の抽出された特徴を、各目標オーディオ型の前記モデルと比較して、各目標オーディオ型についての信頼スコアを計算し、各目標オーディオ型についての信頼スコアに基づいて最良一致のオーディオ型を推定する比較器とを有する、
システム。 - 前記ラウドネス値が、前記入力オーディオ信号の諸臨界周波数帯域における励起レベルの計算に基づく知覚的モデルによって得られ、当該システムが、前記オーディオ・オブジェクトのうちの第一のオブジェクトのまわりのクラスターについての重心を定義し、前記オーディオ・オブジェクトの全励起を総合するよう構成されている、請求項60記載のシステム。
- 同じクラスター内の構成要素オブジェクトについてのオーディオ・データを具現する波形を一緒に組み合わせてそれらの構成要素オブジェクトの組み合わされた波形をもつ置換オブジェクトを形成し、同じクラスター内の構成要素オブジェクトについてのメタデータを組み合わせてそれらの構成要素オブジェクトについてのメタデータの置換セットを形成するよう構成されている第二のレンダリング・コンポーネントをさらに有する、請求項58記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261745401P | 2012-12-21 | 2012-12-21 | |
US61/745,401 | 2012-12-21 | ||
US201361865072P | 2013-08-12 | 2013-08-12 | |
US61/865,072 | 2013-08-12 | ||
PCT/US2013/071679 WO2014099285A1 (en) | 2012-12-21 | 2013-11-25 | Object clustering for rendering object-based audio content based on perceptual criteria |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016509249A true JP2016509249A (ja) | 2016-03-24 |
JP6012884B2 JP6012884B2 (ja) | 2016-10-25 |
Family
ID=49841809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015549414A Active JP6012884B2 (ja) | 2012-12-21 | 2013-11-25 | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング |
Country Status (5)
Country | Link |
---|---|
US (1) | US9805725B2 (ja) |
EP (1) | EP2936485B1 (ja) |
JP (1) | JP6012884B2 (ja) |
CN (1) | CN104885151B (ja) |
WO (1) | WO2014099285A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018198789A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2019069710A1 (ja) * | 2017-10-05 | 2019-04-11 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
JP7455836B2 (ja) | 2018-12-13 | 2024-03-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | デュアルエンドのメディア・インテリジェンス |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489954B2 (en) | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
CN104079247B (zh) * | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
WO2014184618A1 (en) * | 2013-05-17 | 2014-11-20 | Nokia Corporation | Spatial object oriented audio apparatus |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
MY178342A (en) | 2013-05-24 | 2020-10-08 | Dolby Int Ab | Coding of audio scenes |
ES2640815T3 (es) | 2013-05-24 | 2017-11-06 | Dolby International Ab | Codificación eficiente de escenas de audio que comprenden objetos de audio |
EP3312835B1 (en) | 2013-05-24 | 2020-05-13 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
JP6055576B2 (ja) | 2013-07-30 | 2016-12-27 | ドルビー・インターナショナル・アーベー | 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン |
RU2716037C2 (ru) | 2013-07-31 | 2020-03-05 | Долби Лэборетериз Лайсенсинг Корпорейшн | Обработка пространственно-диффузных или больших звуковых объектов |
PT3061090T (pt) | 2013-10-22 | 2019-07-11 | Fraunhofer Ges Forschung | Conceito combinado para a compressão de gama dinâmica e a prevenção de clipping guiada para dispositivos de áudio |
JP6197115B2 (ja) | 2013-11-14 | 2017-09-13 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオの対スクリーン・レンダリングおよびそのようなレンダリングのためのオーディオのエンコードおよびデコード |
EP2879131A1 (en) | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
EP3092642B1 (en) | 2014-01-09 | 2018-05-16 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
US10063207B2 (en) | 2014-02-27 | 2018-08-28 | Dts, Inc. | Object-based audio loudness management |
CN104882145B (zh) | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
JP6439296B2 (ja) * | 2014-03-24 | 2018-12-19 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
EP3127109B1 (en) | 2014-04-01 | 2018-03-14 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
US10679407B2 (en) | 2014-06-27 | 2020-06-09 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for modeling interactive diffuse reflections and higher-order diffraction in virtual environment scenes |
KR20220104290A (ko) * | 2014-06-30 | 2022-07-26 | 소니그룹주식회사 | 정보 처리 장치 및 정보 처리 방법 |
CN105336335B (zh) | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
US9977644B2 (en) * | 2014-07-29 | 2018-05-22 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for conducting interactive sound propagation and rendering for a plurality of sound sources in a virtual environment scene |
JP6710675B2 (ja) * | 2014-07-31 | 2020-06-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ処理システムおよび方法 |
EP3198594B1 (en) | 2014-09-25 | 2018-11-28 | Dolby Laboratories Licensing Corporation | Insertion of sound objects into a downmixed audio signal |
EP3201916B1 (en) | 2014-10-01 | 2018-12-05 | Dolby International AB | Audio encoder and decoder |
RU2580425C1 (ru) * | 2014-11-28 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ структуризации хранящихся объектов в связи с пользователем на сервере и сервер |
CN112954580B (zh) | 2014-12-11 | 2022-06-28 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
CN114554386A (zh) | 2015-02-06 | 2022-05-27 | 杜比实验室特许公司 | 用于自适应音频的混合型基于优先度的渲染系统和方法 |
CN106162500B (zh) * | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
US20160315722A1 (en) * | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
US10282458B2 (en) * | 2015-06-15 | 2019-05-07 | Vmware, Inc. | Event notification system with cluster classification |
WO2017027308A1 (en) * | 2015-08-07 | 2017-02-16 | Dolby Laboratories Licensing Corporation | Processing object-based audio signals |
WO2017079334A1 (en) | 2015-11-03 | 2017-05-11 | Dolby Laboratories Licensing Corporation | Content-adaptive surround sound virtualization |
EP3174316B1 (en) * | 2015-11-27 | 2020-02-26 | Nokia Technologies Oy | Intelligent audio rendering |
EP3174317A1 (en) * | 2015-11-27 | 2017-05-31 | Nokia Technologies Oy | Intelligent audio rendering |
US10278000B2 (en) | 2015-12-14 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Audio object clustering with single channel quality preservation |
US9818427B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Automatic self-utterance removal from multimedia files |
US10395664B2 (en) * | 2016-01-26 | 2019-08-27 | Dolby Laboratories Licensing Corporation | Adaptive Quantization |
US10325610B2 (en) | 2016-03-30 | 2019-06-18 | Microsoft Technology Licensing, Llc | Adaptive audio rendering |
WO2017209477A1 (ko) * | 2016-05-31 | 2017-12-07 | 지오디오랩 인코포레이티드 | 오디오 신호 처리 방법 및 장치 |
CN116709161A (zh) | 2016-06-01 | 2023-09-05 | 杜比国际公司 | 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法 |
CN109479178B (zh) * | 2016-07-20 | 2021-02-26 | 杜比实验室特许公司 | 基于呈现器意识感知差异的音频对象聚集 |
WO2018017394A1 (en) * | 2016-07-20 | 2018-01-25 | Dolby Laboratories Licensing Corporation | Audio object clustering based on renderer-aware perceptual difference |
EP3301951A1 (en) | 2016-09-30 | 2018-04-04 | Koninklijke KPN N.V. | Audio object processing based on spatial listener information |
US10248744B2 (en) | 2017-02-16 | 2019-04-02 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
US10178490B1 (en) | 2017-06-30 | 2019-01-08 | Apple Inc. | Intelligent audio rendering for video recording |
WO2019027812A1 (en) | 2017-08-01 | 2019-02-07 | Dolby Laboratories Licensing Corporation | CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA |
US11386913B2 (en) | 2017-08-01 | 2022-07-12 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
US10891960B2 (en) * | 2017-09-11 | 2021-01-12 | Qualcomm Incorproated | Temporal offset estimation |
US20190304483A1 (en) * | 2017-09-29 | 2019-10-03 | Axwave, Inc. | Using selected groups of users for audio enhancement |
GB2567172A (en) | 2017-10-04 | 2019-04-10 | Nokia Technologies Oy | Grouping and transport of audio objects |
KR102483470B1 (ko) * | 2018-02-13 | 2023-01-02 | 한국전자통신연구원 | 다중 렌더링 방식을 이용하는 입체 음향 생성 장치 및 입체 음향 생성 방법, 그리고 입체 음향 재생 장치 및 입체 음향 재생 방법 |
EP3588988B1 (en) * | 2018-06-26 | 2021-02-17 | Nokia Technologies Oy | Selective presentation of ambient audio content for spatial audio presentation |
US11184725B2 (en) * | 2018-10-09 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method and system for autonomous boundary detection for speakers |
WO2020084170A1 (en) * | 2018-10-26 | 2020-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Directional loudness map based audio processing |
EP3874491B1 (en) | 2018-11-02 | 2024-05-01 | Dolby International AB | Audio encoder and audio decoder |
US11503422B2 (en) * | 2019-01-22 | 2022-11-15 | Harman International Industries, Incorporated | Mapping virtual sound sources to physical speakers in extended reality applications |
US11930347B2 (en) | 2019-02-13 | 2024-03-12 | Dolby Laboratories Licensing Corporation | Adaptive loudness normalization for audio object clustering |
GB2582569A (en) * | 2019-03-25 | 2020-09-30 | Nokia Technologies Oy | Associated spatial audio playback |
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
CN113748461A (zh) * | 2019-04-18 | 2021-12-03 | 杜比实验室特许公司 | 对话检测器 |
US11410680B2 (en) * | 2019-06-13 | 2022-08-09 | The Nielsen Company (Us), Llc | Source classification using HDMI audio metadata |
GB201909133D0 (en) * | 2019-06-25 | 2019-08-07 | Nokia Technologies Oy | Spatial audio representation and rendering |
US11295754B2 (en) * | 2019-07-30 | 2022-04-05 | Apple Inc. | Audio bandwidth reduction |
GB2586451B (en) * | 2019-08-12 | 2024-04-03 | Sony Interactive Entertainment Inc | Sound prioritisation system and method |
EP3809709A1 (en) * | 2019-10-14 | 2021-04-21 | Koninklijke Philips N.V. | Apparatus and method for audio encoding |
KR20210072388A (ko) * | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 오디오 출력 장치 및 오디오 출력 장치의 제어 방법 |
GB2590651A (en) * | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | Combining of spatial audio parameters |
GB2590650A (en) * | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | The merging of spatial audio parameters |
US20230088922A1 (en) | 2020-03-10 | 2023-03-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Representation and rendering of audio objects |
US11361749B2 (en) | 2020-03-11 | 2022-06-14 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
CN111462737B (zh) * | 2020-03-26 | 2023-08-08 | 中国科学院计算技术研究所 | 一种训练用于语音分组的分组模型的方法和语音降噪方法 |
GB2595871A (en) * | 2020-06-09 | 2021-12-15 | Nokia Technologies Oy | The reduction of spatial audio parameters |
GB2598932A (en) * | 2020-09-18 | 2022-03-23 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
CN113408425B (zh) * | 2021-06-21 | 2022-04-26 | 湖南翰坤实业有限公司 | 一种生物语言解析的集群控制方法及系统 |
KR20230001135A (ko) * | 2021-06-28 | 2023-01-04 | 네이버 주식회사 | 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 처리하는 컴퓨터 시스템 및 그의 방법 |
WO2023039096A1 (en) * | 2021-09-09 | 2023-03-16 | Dolby Laboratories Licensing Corporation | Systems and methods for headphone rendering mode-preserving spatial coding |
EP4346234A1 (en) * | 2022-09-29 | 2024-04-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for perception-based clustering of object-based audio scenes |
CN117082435B (zh) * | 2023-10-12 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 虚拟音频的交互方法、装置和存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090017676A1 (en) * | 2007-07-13 | 2009-01-15 | Sheng-Hsin Liao | Supporting device of a socket |
JP2009532372A (ja) * | 2006-03-31 | 2009-09-10 | ウェルスタット セラピューティクス コーポレイション | 代謝障害の併用治療 |
JP2011501823A (ja) * | 2007-10-17 | 2011-01-13 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | アップミックスを使用した音声符号器 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5598507A (en) | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
US5642152A (en) | 1994-12-06 | 1997-06-24 | Microsoft Corporation | Method and system for scheduling the transfer of data sequences utilizing an anti-clustering scheduling algorithm |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
JPH1145548A (ja) | 1997-05-29 | 1999-02-16 | Sony Corp | オーディオデータの記録方法、記録装置、伝送方法 |
US6411724B1 (en) | 1999-07-02 | 2002-06-25 | Koninklijke Philips Electronics N.V. | Using meta-descriptors to represent multimedia information |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US20020184193A1 (en) | 2001-05-30 | 2002-12-05 | Meir Cohen | Method and system for performing a similarity search using a dissimilarity based indexing structure |
US7149755B2 (en) | 2002-07-29 | 2006-12-12 | Hewlett-Packard Development Company, Lp. | Presenting a collection of media objects |
US7747625B2 (en) | 2003-07-31 | 2010-06-29 | Hewlett-Packard Development Company, L.P. | Organizing a collection of objects |
FR2862799B1 (fr) * | 2003-11-26 | 2006-02-24 | Inst Nat Rech Inf Automat | Dispositif et methode perfectionnes de spatialisation du son |
JP4474577B2 (ja) | 2004-04-19 | 2010-06-09 | 株式会社国際電気通信基礎技術研究所 | 体験マッピング装置 |
CN101473645B (zh) * | 2005-12-08 | 2011-09-21 | 韩国电子通信研究院 | 使用预设音频场景的基于对象的三维音频服务系统 |
ATE539434T1 (de) * | 2006-10-16 | 2012-01-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren für mehrkanalparameterumwandlung |
JP4973352B2 (ja) | 2007-07-13 | 2012-07-11 | ヤマハ株式会社 | 音声処理装置およびプログラム |
KR100998913B1 (ko) * | 2008-01-23 | 2010-12-08 | 엘지전자 주식회사 | 오디오 신호의 처리 방법 및 이의 장치 |
US9727532B2 (en) | 2008-04-25 | 2017-08-08 | Xerox Corporation | Clustering using non-negative matrix factorization on sparse graphs |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US9031243B2 (en) * | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
CN105792086B (zh) | 2011-07-01 | 2019-02-15 | 杜比实验室特许公司 | 用于自适应音频信号产生、编码和呈现的系统和方法 |
US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
RS1332U (en) | 2013-04-24 | 2013-08-30 | Tomislav Stanojević | FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS |
-
2013
- 2013-11-25 CN CN201380066933.4A patent/CN104885151B/zh active Active
- 2013-11-25 US US14/654,460 patent/US9805725B2/en active Active
- 2013-11-25 JP JP2015549414A patent/JP6012884B2/ja active Active
- 2013-11-25 WO PCT/US2013/071679 patent/WO2014099285A1/en active Application Filing
- 2013-11-25 EP EP13811291.7A patent/EP2936485B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532372A (ja) * | 2006-03-31 | 2009-09-10 | ウェルスタット セラピューティクス コーポレイション | 代謝障害の併用治療 |
US20090017676A1 (en) * | 2007-07-13 | 2009-01-15 | Sheng-Hsin Liao | Supporting device of a socket |
JP2011501823A (ja) * | 2007-10-17 | 2011-01-13 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | アップミックスを使用した音声符号器 |
Non-Patent Citations (1)
Title |
---|
JPN6016032327; Kyungryeol Koo: 'Variable Subband Analysis for High Quality Spatial Audio Object Coding' Advanced Communication Technology 2008 , 20080220, p.1205-1208, IEEE * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018198789A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JPWO2018198789A1 (ja) * | 2017-04-26 | 2020-03-05 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP7160032B2 (ja) | 2017-04-26 | 2022-10-25 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
US11574644B2 (en) | 2017-04-26 | 2023-02-07 | Sony Corporation | Signal processing device and method, and program |
US11900956B2 (en) | 2017-04-26 | 2024-02-13 | Sony Group Corporation | Signal processing device and method, and program |
WO2019069710A1 (ja) * | 2017-10-05 | 2019-04-11 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
JPWO2019069710A1 (ja) * | 2017-10-05 | 2020-11-05 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US11595056B2 (en) | 2017-10-05 | 2023-02-28 | Sony Corporation | Encoding device and method, decoding device and method, and program |
JP7358986B2 (ja) | 2017-10-05 | 2023-10-11 | ソニーグループ株式会社 | 復号装置および方法、並びにプログラム |
JP7455836B2 (ja) | 2018-12-13 | 2024-03-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | デュアルエンドのメディア・インテリジェンス |
Also Published As
Publication number | Publication date |
---|---|
WO2014099285A1 (en) | 2014-06-26 |
EP2936485B1 (en) | 2017-01-04 |
CN104885151B (zh) | 2017-12-22 |
US20150332680A1 (en) | 2015-11-19 |
US9805725B2 (en) | 2017-10-31 |
EP2936485A1 (en) | 2015-10-28 |
JP6012884B2 (ja) | 2016-10-25 |
CN104885151A (zh) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6012884B2 (ja) | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング | |
JP7116144B2 (ja) | 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 | |
JP6055576B2 (ja) | 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン | |
JP6186435B2 (ja) | ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング | |
JP7362826B2 (ja) | メタデータ保存オーディオ・オブジェクト・クラスタリング | |
US9489954B2 (en) | Encoding and rendering of object based audio indicative of game audio content | |
CN105325015A (zh) | 经旋转高阶立体混响的双耳化 | |
WO2017043309A1 (ja) | 音声処理装置および方法、符号化装置、並びにプログラム | |
Tsingos | Object-based audio | |
CN110998724B (zh) | 基于位置元数据的音频对象分类 | |
WO2021014933A1 (ja) | 信号処理装置および方法、並びにプログラム | |
RU2803638C2 (ru) | Обработка пространственно диффузных или больших звуковых объектов | |
TWI834163B (zh) | 三維音頻訊號編碼方法、裝置和編碼器 | |
KR20240001226A (ko) | 3차원 오디오 신호 코딩 방법, 장치, 및 인코더 | |
KR20230153226A (ko) | 다채널 오디오 신호 처리 장치 및 방법 | |
KR20240012519A (ko) | 3차원 오디오 신호를 처리하기 위한 방법 및 장치 | |
KR20240005905A (ko) | 3차원 오디오 신호 코딩 방법 및 장치, 및 인코더 | |
WO2019027812A1 (en) | CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6012884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |