JP2015527610A - マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置 - Google Patents

マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置 Download PDF

Info

Publication number
JP2015527610A
JP2015527610A JP2015522115A JP2015522115A JP2015527610A JP 2015527610 A JP2015527610 A JP 2015527610A JP 2015522115 A JP2015522115 A JP 2015522115A JP 2015522115 A JP2015522115 A JP 2015522115A JP 2015527610 A JP2015527610 A JP 2015527610A
Authority
JP
Japan
Prior art keywords
audio
audio data
information
hoa
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015522115A
Other languages
English (en)
Other versions
JP2015527610A5 (ja
JP6279569B2 (ja
Inventor
ウーボルト,オリヴァー
ベーム,ヨーハネス
ジャックス,ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2015527610A publication Critical patent/JP2015527610A/ja
Publication of JP2015527610A5 publication Critical patent/JP2015527610A5/ja
Application granted granted Critical
Publication of JP6279569B2 publication Critical patent/JP6279569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

従来のオーディオ圧縮技術は、コンテンツのタイプに関わらず、標準化された信号変換を行う。マルチチャンネル信号はその信号成分に分解され、その後量子化及びエンコードされる。これは、シーン合成の特性に関する情報が無いため、特に、マルチチャンネルオーディオやHigher−Order Ambisonics(HOA)コンテンツの場合に、不都合である。前処理されたオーディオデータをエンコードする改良された方法は、前処理されたオーディオデータをエンコードするステップと、オーディオ前処理を示す補助データをエンコードするステップとを有する。エンコードされたオーディオデータをデコードする改良された方法は、エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップと、オーディオデータをデコードするステップと、受信したデータから前処理に関する情報を抽出するステップと、抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する。

Description

本発明は、オーディオ圧縮の技術分野に属し、具体的には、マルチチャンネルオーディオ信号及び音場指向(sound−field oriented)オーディオシーン(例えば、Higher Order Ambisonics(HOA))の圧縮に属する。
現在、マルチチャンネルオーディオ信号の圧縮方式は、入力録音資料(audio material)がどのように生成されたりミックスされたりしたか、明示的には考慮していない。既知のオーディオ圧縮技術では、圧縮するコンテンツの音源やミキシングタイプを考慮していない。既知のアプローチでは、「ブラインド(blind)」信号変換を行い、それによりマルチチャンネル信号をその信号成分に分解し、それを量子化及び符号化する。このようなアプローチの欠点は、上記の信号分解の計算が多く、オーディオシーンの一シーンに対し、最適かつ最高効率の信号分解を見いだすことは困難であり間違いやすい。
本発明は、マルチチャンネルオーディオレンダリングを改善する方法と装置とに関する。
上記の少なくとも幾つかの欠点は、シーン合成の特性に関する事前情報が無いことによることが分かっている。特に、空間的オーディオコンテンツ、例えばマルチチャンネルオーディオまたはHigher−Order Ambisonics(HOA)コンテンツの場合、圧縮方式を適合させるために、この事前情報は有用である。例えば、圧縮アルゴリズムにおける共通の前処理は、オーディオシーン分析であり、これはオリジナルコンテンツやオリジナルコンテンツミックスから有向音源やオーディオオブジェクトを抽出することを目的としている。このような有向音源またはオーディオオブジェクトは、残差空間的オーディオコンテンツとは別に符号化できる。
一実施形態において、前処理されたオーディオデータをエンコードする方法は、前処理されたオーディオデータをエンコードするステップと、オーディオ前処理を示す補助データをエンコードするステップとを有する。
一実施形態において、本発明は、エンコードされたオーディオデータをデコードする方法に関し、該方法は、エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップと、前記オーディオデータをデコードするステップと、受信したデータから前処理に関する情報を抽出するステップと、抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する。エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップは、オーディオデータを分析するステップ、または付属するメタデータを分析するステップにより実現できる。
本発明の一実施形態において、前処理されたオーディオデータをエンコードするエンコーダは、前処理されたオーディオデータをエンコードする第1のエンコーダと、オーディオ前処理を示す補助データをエンコードする第2のエンコーダとを有する。
本発明の一実施形態において、エンコードされたオーディオデータをデコードするデコーダは、エンコードされたオーディオデータがエンコード前に前処理されていると判断するアナライザと、前記オーディオデータをデコードする第1のデコーダと、受信データから、前処理に関する情報を抽出するデータストリームパーサユニットまたはデータストリーム抽出ユニットと、抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する。
本発明の一実施形態において、コンピュータ読み取り可能媒体は、コンピュータに、上記の方法のうちの少なくとも一つによる方法を実行させる実行可能命令を記憶している。
本発明の一般的アイデアは、マルチチャンネルオーディオ圧縮システムの次の拡張のうちの少なくとも一つに基づく:
一実施形態では、マルチチャンネルオーディオ圧縮及び/またはレンダリングシステムは、マルチチャンネルオーディオ信号ストリーム(例えば、PCMストリーム)と、チャンネルまたは対応スピーカの関連する空間的位置と、マルチチャンネルオーディオ信号ストリームに適用されたミキシングのタイプを示すメタデータとを含むインタフェースを有する。ミキシングタイプは、例えば、HOAまたはVBAPパンニング(panning)の(以前の)利用または構成及び/または任意の詳細、具体的な録音手法、または同等の情報を示す。インタフェースは信号送信チェーンへの入力インタフェースであり得る。HOAコンテンツの場合、スピーカの空間的位置は、仮想的スピーカの位置であってもよい。
一実施形態では、マルチチャンネル圧縮コーデックのビットストリームは、仮想的または実際のスピーカ位置に関する上記のメタデータとオリジナルのミキシング情報とをデコーダとその後のレンダリングアルゴリズムに送信するためのシグナリング情報を含む。それにより、デコーディング側において適用されるレンダリング手法を、送信されたコンテンツのエンコーディング側における具体的なミキシング特性に適合できる。
一実施形態において、メタデータの利用は任意的であって、オンとオフを切り替えることができる。すなわち、オーディオコンテンツは、メタデータを使わない単純モードでデコード及びレンダリングできるが、単純モードではデコーディング及び/またはレンダリングは最適化されない。強化モードにおいては、メタデータを用いることにより、最適化されたデコーディング及び/またはレンダリングを実現できる。この実施形態では、デコーダ/レンダラーは2つのモードの間で切り替えられる。
添付した図面を参照して、本発明の有利な実施形態例を説明する。
既知のマルチチャンネル伝送システムの構成を示す図である。 本発明の一実施形態による、マルチチャンネル伝送システムの構成を示す図である。 本発明の一態様によるスマートデコーダを示す図である。 HOA信号のマルチチャンネル伝送システムの構成を示す図である。 DSHTの空間サンプリングポイントを示す図である。 エンコーダとデコーダの組み立てブロックで用いられるコードブックの球面サンプリング位置の例を示す図である。 改善されたマルチチャンネルオーディオエンコーダの一実施形態を示す図である。
図1は、マルチチャンネルオーディオ符号化の既知のアプローチを示す図である。オーディオプロダクション段階10からのオーディオデータは、マルチチャンネルオーディオエンコーダ20でエンコードされ、伝送され、マルチチャンネルオーディオデコーダ30でデコードされる。メタデータが明示的に伝送され(またはその情報が黙示的に含められ)、空間的オーディオ成分に関係する。このような従来のメタデータは、スピーカの空間的位置に関する情報に限定され、例えばあるフォーマット(例えば、ステレオや「5.1サラウンドサウンド」としても知られるITU−R BS.775−1)の形式のもの、またはスピーカ位置を示すテーブルによるものに限定されている。空間的オーディオミックス/レコーディングがどのように生成されたかに関する情報は、マルチチャンネルオーディオエンコーダ20には送信されず、そのためこのような情報をマルチチャンネルオーディオエンコーダ20において信号の圧縮に利用することはできない。
しかし、マルチチャンネル空間的オーディオ符号化器が、Higher−Order Ambisonics(HOA)フォーマットから得られたコンテンツと、固定マイクロホンセットアップでのレコーディングと、任意のパンニングアルゴリズム(panning algorithms)でのマルチチャンネルミックスとのうち少なくとも一つを処理する場合、これらの場合には圧縮方式によりミキシングの特徴が利用できるので、コンテンツの音源やミキシングタイプのうち少なくとも一方についての知識は、特に重要であることが分かっている。また、オリジナルのマルチチャンネルオーディオコンテンツは、付加的なミキシング情報の表示(indication)の恩恵を受け得る。エンコーディング効率をよくするために、用いるパンニング方法(例えば、Vector−Based Amplitude Panning(VBAP)やその詳細など)を示すことは有利である。有利にも、オーディオシーン分析及びその後のエンコーディングステップの信号モデルをこの情報に基づいて適応させることができる。これにより、圧縮システムが、レート歪み性能及び計算量の点でより効率的になる。
具体的にHOAコンテンツの場合には、球面調和関数が複素数値であるか実数値であるか、規格化方式に複数の異なるものがある等、多くの異なる協定があるという問題がある。生成方式が異なるHOA間の非互換性を避けるため、共通フォーマットを規定することが有用である。これは、Discrete Spherical Harmonics Transform(DSHT)などの変換を用いて、HOA時間領域係数のその等価空間表現(これはマルチチャンネル表現である)への変換を介して、実現できる。DSHTが、空間サンプリング位置(これは仮想的スピーカ位置と等価であると考え得る)の規則的な球状分布から生成される。DSHTに関する定義と詳細は後で説明する。HOAの他の定義を用いた任意のシステムは、空間領域で確定されたこの共通フォーマットから、自分自信のHOA係数表現を導き出すことができる。後でより詳しく説明するように、上記共通フォーマットの信号の圧縮は、仮想スピーカ信号がオリジナルのHOA信号を表すという事前の知識から大きな利益を受ける。
さらに、このミキシング情報等はデコーダやレンダラーにも有用である。一実施形態では、ミキシング情報等はビットストリームに含まれる。用いられるレンダリングアルゴリズムを、HOAやVBAPなどのオリジナルミキシングに適応させて、柔軟なスピーカ位置に対するダウンミックスやレンダリングをよくすることができる。
図2は、本発明の一実施形態によるマルチチャンネルオーディオ伝送システムの拡張を示す。この拡張は、オーディオコンテンツのプロダクション段階10に適用されたミキシングタイプ、録音タイプ、編集タイプ、合成タイプなどのうち少なくとも一つを記述するメタデータを付加することにより実現される。この情報は、デコーダ出力まで存続(carried through)し、効率を上げるためにマルチチャンネル圧縮コーデック40、50内で用いられる。空間的オーディオミックス/レコーディングがどのように生成されたかに関する情報は、マルチチャンネルオーディオエンコーダ40には送信され、そのため信号の圧縮に利用することができる。
このメタデータ情報をどのように使えるかに関する一例として、入力資料のミキシングタイプに応じて、マルチチャンネルコーデックにより、異なる符号化モードを起動できる。例えば、一実施形態では、エンコーダ入力においてHOAミキシングが指示(indicate)されているとき、(式(3)ないし(16)を参照して)後で説明するように、符号化モードをHOA用エンコーディング/デコーディング原理(HOAモード)に切り替え、一方入力信号のミキシングタイプがHOAではない、または未知のものであるときには、異なる(例えば、従来の)マルチチャンネル符号化技術を用いる。HOAモードでは、エンコーディングは、一実施形態では、DSHTブロックから始まり、DSHTがオリジナルのHOA係数を回復し、その後にHOA用エンコーディングプロセスが始まる。他の一実施形態では、比較のため、DSHTとは異なる離散変換を用いる。
図3は、本発明の一実施形態による「スマート」レンダリングシステムを示す。これは、デコーダ端末にあるM台のスピーカに対して、デコードされたNチャンネルの柔軟なダウンミックス、アップミックス、またはリミックスをするために、本発明のメタデータを用いる。ミキシング、録音などのタイプに関するメタデータは、効率的かつ高品質なレンダリングを実現するように、複数のモードのうちの一つを選択するのに利用できる。マルチチャンネルエンコーダ50は、入力オーディオデータにおけるミックスタイプに関するメタデータに応じて、最適なエンコーディングを行い、エンコードされたNオーディオチャンネルとスピーカ位置に関する情報だけでなく、例えば「ミックスタイプ(type of mix)」情報も、デコーダ60にエンコード/提供する。(受信側において)デコーダ60は、Mオーディオチャンネルのための出力信号を生成するため、受信側で利用できるスピーカの実際のスピーカ位置(これは送信側(すなわち、エンコーダ)には未知である)を用いる。一実施形態では、NはMとは異なる。一実施形態では、NはMと等しいか、またはMと異なるが、受信側における実際のスピーカ位置は、エンコーダ50及びオーディオプロダクション10において仮定されたスピーカ位置とは異なる。エンコーダ50またはオーディオプロダクション10は、例えば、標準的なスピーカ位置を仮定しているかも知れない。
図4は、HOAコンテンツの効率的な伝送に本発明をどのように使えるかを示す。入力HOA係数を、逆DSHT(iDSHT)410を介して、空間領域に変換する。結果として得られたNオーディオチャンネル、その(仮想的)空間位置、及びインジケーション(indication)(例えば、「HOA mixed」フラグなどのフラグ)が、圧縮エンコーダであるマルチチャンネルオーディオエンコーダ420に提供される。圧縮エンコーダは、その入力信号がHOAにより得られたもの(HOA−derived)であるとの事前情報を利用できる。オーディオエンコーダ420と、オーディオデコーダ430またはオーディオレンダラーとの間のインタフェースは、N個のオーディオチャンネルとその(仮想的)空間位置と上記のインジケーションを含む。デコーディング側において逆プロセスを行う。すなわち、デコーディング430の後に、コンテンツをエンコードする前に適用された関連動作の情報を用いるOSHT440を適用することにより、HOA表現を回復できる。この情報(knowledge)は、インタフェースを通して、本発明によるメタデータの形式で受信される。
この発明の範囲内にある幾つかの種類の(しかし必ずしもすべてではない)メタデータは、例えば、少なくとも次のもののうちの一つである:
−オリジナルコンテンツがHOAコンテンツから求められたことのインジケーション、及び少なくとも次のものの一つ:
・HOA表現の次数(order);
・2D、3Dまたは半球形表現のインジケーション;及び
・空間サンプリングポイントの位置(適応的または固定)
−オリジナルコンテンツがVBAPを用いて合成的にミックスされた(mixed synthetically)とのインジケーション(indication)及びスピーカのVBAPタプル(ペア)または3個の組の割り当て;及び
−オリジナルコンテンツが固定された離散的なマイクロホンで録音されたことのインジケーション、及び少なくとも次のものの一つ:
・録音セット上の一以上のマイクロホンの一以上の位置及び方向;及び
・例えば、カージオイド(cardoid)、無指向性、スーパーカージオイド(super−cardoid)などの、一以上の種類のマイクロホン。
本発明の主な利点は少なくとも次の通りである。
入力資料の信号特性に関するより良い情報(knowledge)により、より効率的な圧縮方式が得られる。エンコーダは、この事前情報を利用して、オーディオシーン分析を改善する(例えば、ミクストコンテンツの音源モデルを適合させる)ことができる。ミクストコンテンツの音源モデル(source model)の一例は、オーディオプロダクション段階10において信号源が修正、編集または合成された場合である。このようなオーディオプロダクション段階10は、通常、マルチチャンネルオーディオ信号を生成するために用いられ、マルチチャンネルオーディオエンコーダブロック20の前に位置される。このようなオーディオプロダクション段階10は、(図示していないが)図2においても、新しいエンコーディングブロック40の前にあると仮定する。従来、編集情報は失われ、エンコーダには送られず、そのため利用できない。本発明により、この情報を保存することが可能となる。オーディオプロダクション段階10の例には、録音と編集、合成サウンド、またはスピーカ位置に合成的にマッピングされた複数の音源などのマルチマイクロホン情報が含まれる。
本発明の他の一利点は、送信及びデコードされたコンテンツのレンダリングを大幅に改善できることであり、特に、利用できるスピーカ数が利用できるチャンネル数と異なる(いわゆる、ダウンミックス及びアップミックスのシナリオ)など条件が悪いシナリオ、及びスピーカ位置がフレキシブルである場合に改善できる。後者の場合、スピーカ位置に応じた再マッピングが必要となる。
他のもう一つの利点は、HOAなど音場関連フォーマットのオーディオデータを、高音質レンダリングに必要な重要なデータを喪失することなく、チャンネルベースのオーディオ伝送システムで送信できることである。
本発明によるメタデータの送信により、デコーディング側において、最適なデコーディング及び/またはレンダリングが可能となり、特に、空間的分解が行われるときはそうである。一般的な空間的分解はKarhunen−Loeve変換(KL T)など様々な手段により得られ、(本発明によるメタデータを用いて)最適な分解も少ない計算量で可能であり、同時に、音質のよいマルチチャンネル出力信号を提供する(例えば、レンダリング中に、より容易に、一つひとつのチャンネルをスピーカ位置に適合またはマッピングでき、マッピングがより正確になる)。これは特に都合がよいのは、チャンネル数がレンダリング中のミキシング(マトリックス化)段階で修正(増大または減少)されたとき、または一以上のスピーカ位置が修正されたとき(特に、マルチチャンネルの各チャンネルが、あるスピーカ位置に適合された場合)である。
次に、Higher Order Ambisonics(HOA)とDiscrete Spherical Harmonics Transform(DSHT)とを説明する。
HOA信号は、知覚的符号化器(perceptual coders)による圧縮の前に、例えばDiscrete Spherical Harmonics Transform(DSHT)により、空間領域に変換できる。このようなマルチチャンネルオーディオ信号表現の伝送または記憶には、通常は、適当なマルチチャンネル圧縮手法を必要とする。通常、チャンネル独立した知覚的復号を行ってから、復号されたI個の信号
[外1]
Figure 2015527610
を新しいJ個の信号
[外2]
Figure 2015527610
にマトリクス化(matrixing)する。マトリクス化との用語は、復号された信号
[外3]
Figure 2015527610
を重み付けして付加またはミキシングすることを意味する。すべての信号
[外4]
Figure 2015527610
及びすべての新しい信号
[外5]
Figure 2015527610
を、
Figure 2015527610
によりベクトルとして構成する。「マトリクス化(matrixing)」との用語は、
[外6]
Figure 2015527610
がマトリクス演算
Figure 2015527610
により
[外7]
Figure 2015527610
から数学的に得られることによる。ここで、Aはミキシング加重により構成されたミキシングマトリクスを示す。「ミキシング」及び「マトリクス化」との用語は、ここでは同義語的に用いられる。ミキシング/マトリクス化は、任意のスピーカセットアップに対するオーディオ信号のレンダリングを目的として用いられる。マトリクスが依存し、それゆえレンダリング時のマトリクス化に用いられるマトリクスが依存する個々のスピーカセットアップは、通常、知覚的符号化段階においては知られていない。
次のセクションでは、Higher Order Ambisonics(HOA)を簡単に紹介し、処理(データレート圧縮)される信号を定義する。
Higher Order Ambisonics(HOA)は、コンパクトな関心エリア内の音場の記述に基づく。関心エリアには音源が無いものと仮定する。その場合、時間tにおける、関心エリア内の点x=[r,θ,φ]における音圧p(t,x)の時空間的振る舞いは、同次波動方程式により物理的に完全に決定される。時間に関する音圧のフーリエ変換、すなわち、
Figure 2015527610
(ここで、ωは角振動数を表す(
[外8]
Figure 2015527610

[外9]
Figure 2015527610
に対応する))は、
Figure 2015527610
により球面調和関数(SHs)の級数に展開できることを示せる。
式(4)において、cは音速を示し、k=ω/cは角波数を示す。さらに、j()は第1種の次数nの球面ベッセル関数を示し、Y ()は次数(order)nであり度数(degree)mである球面調和関数(SH)を示す。音場に関する完全な情報は、実際に、音場係数A (k)中に含まれている。留意点として、SHは一般的に複素数値関数である。しかし、その適当な線形結合をとることにより、実数値関数を求め、これらの関数に関する展開をすることも可能である。
式(4)の圧力音場記述に関して、音源場(source field)は
Figure 2015527610
として定義できる。音源場または振幅密度[9]D(kc,Ω)は角波数と角方向Ω=[θ,φ]に依存する。音源場(source field)は、ファーフィールド/ニアフィールドの離散/連続な音源を含み得る[1]。音源場係数B は、[1]によれば、音源場係数A
Figure 2015527610
に関連する。ここで、h (2)は第2種球面ハンケル関数であり、rは原点からの音源距離である。ニアフィールドに関して、留意すべき点として、(e−ikrに関する)入来波に対して、正の振動数と第2種の球面ハンケル関数h (2)を用いている。
HOA領域の信号は、音源場または音場の係数の逆フーリエ変換として、周波数領域または時間領域で表すことができる。次の説明では、有限数の音源場係数
Figure 2015527610
の時間領域表現の利用を仮定する。式(5)の無限級数はn=Nで断ち切られる。断ち切りは空間的帯域幅制限に対応している。係数(またはHOAチャンネル)の数は、
Figure 2015527610
で与えられ、または2次元のみの記述の場合には、O2D=2N+1により与えられる。係数b は、スピーカにより後で再生するための一つの時間サンプルmのオーディオ情報を含む。これらの係数は記憶または送信され、データレート圧縮にかけられる。係数の単一の時間サンプル(single time sample)mは、O3D個の要素を有するベクトルb(m)
Figure 2015527610
により表すことができ、M個の時間サンプルのブロックはマトリクスB
Figure 2015527610
により表すことができる。
音場の2次元表現は、円形調和関数(circular harmonics)を用いた展開により求めることができる。これは、θ=π/2、係数の異なる加重、及びO2D係数(m=±n)に減宿したセットを用いた、上述の一般的記述の特殊な場合と見ることができる。よって、次の検討はすべて2次元表現にも当てはまり、球面との用語は円との用語に置き換えればよい。
次に、HOA係数領域からチャンネルベースの空間領域への変換及びその逆について説明する。式(5)は、単位球上のl個の離散的空間的サンプル位置Ω=[θ,φ]Tの時間領域HOA係数を用いて、
Figure 2015527610
と書き換えられる。
sd=(N+1)2球面サンプル位置Ωを仮定すると、これはHOAデータブロックBのベクトル表示で
Figure 2015527610
と書き換えられる。ここで、
[外10]
Figure 2015527610
であり、
[外11]
Figure 2015527610
はLsdマルチチャンネル信号の単一の時間サンプルを表し、行列
[外12]
Figure 2015527610
であり、ベクトル
[外13]
Figure 2015527610
である。球面サンプル位置を非常に均一(regular)に選択すると、
Figure 2015527610
となるマトリクスΨが存在する。ここで、IはO3D行O3D列の単位行列である。式(12)に対応する変換は
Figure 2015527610
で定義できる。式(14)は、Lsd球面信号を係数領域に変換し、前方変換
Figure 2015527610
として書き換えることができる。ここで、DSHT{ }はDiscrete Spherical Harmonics Transformを示す。対応する逆変換は、O3D係数信号を空間領域に変換し、Lsdチャンネルベースの信号を構成する。式(12)は
Figure 2015527610
となる。
球面位置の数LsdがHOA係数の数O3D(式(8)参照)に一致するDSHTを次に説明する。最初に、デフォルトの球面サンプルグリッドを選択する。M個の時間サンプルのブロックについて、球面サンプルグリッドを回転して、
Figure 2015527610
の対数が最小化されるようにする。ここで、
[外14]
Figure 2015527610
は、ΣWsd(マトリクスの行インデックスがlであり列インデックスがjである)の要素の絶対値であり、
[外15]
Figure 2015527610
は、ΣWsdの対角要素である。可視化すると、これは図5に示したDSHTの球面サンプリンググリッドに対応する。
DSHTの好適な球面サンプル位置と、そのような位置を求める手順は周知である。サンプリンググリッドの例を図6に示す。具体的に、図6は、エンコーダとデコーダの構成ブロックpEとpDで用いられるコードブックの球面サンプリング位置の例を示しており、図6(a)はLsd=4の場合であり、図6(b)はLsd=9の場合であり、図6(c)はLsd=16の場合であり、図6(d)はLsd=25の場合である。このようなコードブックは、なかんずく、予め決められた空間的スピーカ構成に応じたレンダリングに用いることができる。
図7は、図4に示した改善されたマルチチャンネルオーディオエンコーダ420の一実施形態を示す図である。これはDSHTブロック421を含む。このブロックは、(ブロック410を反転するため)ブロック410の逆DSHTの逆であるDSHTを計算する。ブロック421の目的は、その出力70において、逆DSHTブロック410の入力と実質的に同じ信号を出力することである。この信号70の処理はさらに最適化できる。信号70は、MDCTブロック422に提供されるオーディオ成分だけでなく、一以上の支配的オーディオ信号成分や支配的オーディオ信号成分の一以上のロケーションを示す信号部分71も含む。これらは、少なくとも1つの最強な音源の方向の検出(424)と、iDSHTの適応的回転の回転パラメータの計算425とに用いられる。一実施形態では、これは時間的に可変である。すなわち、検出424と計算425は、確定された離散的時間ステップにおいて継続的に再適応される。iDSHTの適応的回転マトリクスを計算し、その適応的iDSHTをiDSHTブロック423で実行する。回転の効果は、iDSHT423のサンプリンググリッドが回転して、面の一つ(すなわち、単一の空間的サンプル位置)が最強の音源方向(これは時間的に可変である)に一致するようになることである。これにより、iDSHTブロック423におけるオーディオ信号のエンコードがより効率的になり、そのためより良いものになる。MDCTブロック422は、オーディオフレームセグメントの時間的重なりの補償に有利である。iDSHTブロック423はエンコードされたオーディオ信号74を提供し、回転パラメータ計算ブロック425は前処理情報75(の少なくとも一部)として、回転パラメータを提供する。また、前処理情報75はその他の情報を含んでいてもよい。
さらに、本発明は次の実施形態にも関連する。
一実施形態において、
本発明は、チャンネルベースの3次元オーディオ表現を送信及び/または記憶し、処理する方法に関する。該方法は、前記チャンネルベースのオーディオ情報とともにサイド情報を送信/記憶するステップを有する。前記サイド情報は、チャンネルベースオーディオ情報のミキシングタイプと意図されたスピーカ位置を示し、前記ミキシングタイプは前の処理段階において(ミキシングスタジオなどにおいて)オーディオコンテンツミックスされたアルゴリズムを示し、前記スピーカ位置は前の処理段階におけるスピーカの位置(ミキシングスタジオなどにおける理想的位置)または仮想的位置を示す。前記データ構造とチャンネルベースオーディオ情報を受け取った後のさらに別の処理ステップにおいて、ミキシング及びスピーカ位置情報を利用する。
一実施形態において、本発明は、チャンネルベース3次元オーディオ表現を送信及び/または記憶し、処理する装置は、チャンネルベースオーディオ情報とともにサイド情報(SI)を送信する手段(または記憶する手段)を有する。前記サイド情報は、チャンネルベースオーディオ情報のミキシングタイプと意図されたスピーカ位置を示し、前記ミキシングタイプは前の処理段階において(ミキシングスタジオなどにおいて)オーディオコンテンツミックスされたアルゴリズムをシグナリングし、前記スピーカ位置は前の処理段階におけるスピーカの位置(ミキシングスタジオなどにおける理想的位置)または仮想的位置を示す。前記装置は、さらに、前記データ構造とチャンネルベースオーディオ情報を受け取った後に、ミキシング及びスピーカ位置情報を利用するプロセッサを有する。
一実施形態において、本発明は、ミキシング情報が、HOAコンテンツ、HOA次数(order)、及び以前HOA3次元オーディオをチャンネルベース表現に変換するのに用いた理想的球面サンプリンググリッドに関する仮想的スピーカ位置情報をシグナリングする3次元オーディオシステムに関する。送信されたチャンネルベースオーディオ情報とそれに伴うサイド情報(SI)を受信/読み出しした後、SIを用いてチャンネルベースオーディオをHOAフォーマットに再エンコードする。前記再エンコーディングは、前記球面サンプリング位置とそれをチャンネルベースコンテンツ(DSHT)とかけるマトリクスからモードマトリクスΨを計算することにより行われる。
一実施形態において、上記システム/方法は、異なるHOAフォーマットの不明確性を避けるために用いられる。プロダクション側における第1のHOAフォーマットのHOA3次元オーディオコンテンツは、第1のフォーマットに関連しSIで配信されたiDSHTを用いて、関連チャンネルベースの3次元オーディオ表現に変換される。受信されたチャンネルベースオーディオ情報は、SIと第2のフォーマットに関連するDSHTとを用いて、第2のHOAフォーマットに変換される。システムの一実施形態では、第1のHOAフォーマットは複素数値のHOA表現を用い、第2のHOAフォーマットは実数値のHOA表現を用いる。システムの一実施形態では、第1のHOAフォーマットは複素数値のHOA表現を用い、第2のHOAフォーマットは実数値のHOA表現を用いる。
一実施形態において、本発明は、ミキシング情報を用いて、レート圧縮、信号エンハンスメントまたはレンダリングにおいて用いた信号から有向3次元オーディオ成分を分離(オーディオオブジェクト抽出)する3次元オーディオシステムに関する。一実施形態では、さらに別のステップは、HOA、HOA次数(order)、及びHOA3Dオーディオをチャンネルベース表現に変換するのに用いられた、関連する理想的球面サンプリンググリッドをシグナリングするステップと、HOA表現を回復するステップと、ブロックベース共分散法の利用により主信号方向を決定することにより有向成分を抽出するステップとである。前記方向は、HOAが有向信号をこれらの方向にデコードする。一実施形態では、さらに別のステップは、Vector Base Amplitude Panning(VBAP)と関連スピーカ位置情報とをシグナリングする、スピーカ位置情報を用いてスピーカトリプレット(speaker triplets)を決定し、共分散法を用いて前記トリプレットチャンネルから相関した信号を抽出する。3Dオーディオシステムの一実施形態では、有向信号と、信号抽出に関して記憶された信号(HOA信号、VBAPトリプレット(ペア))とから、残差信号を生成する。
一実施形態において、本発明は、HOA残差信号の次数(order)を低減して低減された次数の信号と有向信号を圧縮するステップと、残差のトリプレットチャンネルをモノストリームにミキシングして関連する相関情報を提供するステップと、前記情報と圧縮されたモノ信号とを、圧縮された有向信号とともに送信するステップとにより、残差信号のデータレート圧縮を実行するシステムに関する。
データレート圧縮を実行するシステムの一実施形態において、主信号方向とチャンネル領域の無相関残差信号とを用いて、抽出された有向信号をスピーカにパンニング(pan)する、オーディオをスピーカにレンダリングするのに用いられる。
本発明により、概して、オーディオコンテンツミキシング特性のシグナル化が可能となる。本発明は、オーディオ装置で、具体的にはオーディオエンコーディング装置、オーディオミキシング装置、及びオーディオデコーディング装置で用いることができる。
留意点として、単純にDSHTとして示したが、当業者には言うまでもなく、DSHT以外の他のタイプの変換を構成または適用することもできる。これらはすべて本発明の精神と範囲内で想定されている。さらに、上記の説明において例としてHOAフォーマットについて説明したが、本発明は、当業者には言うまでもなく、Ambisonics以外の他のタイプの音場関連フォーマットで用いることもでる。これらはすべて本発明の精神と範囲内で想定されている。
本発明の基本的かつ新規な特徴を好ましい実施形態に適用して図示し、説明し、指摘したが、言うまでもなく、本発明の精神から離れることなく、当業者は、説明した装置と方法における、開示した装置の形体や詳細事項、及びその動作の様々な省略、代替、変更を行うことができる。いうまでもなく、本発明を例示によって説明した。本発明の範囲から逸脱することなく細かい点で修正を加えることは可能である。同じ結果を達成する実質的に同じ方法で実質的に同じ機能を実行するこれらの要素のすべての組み合わせは、本発明の範囲内にある。説明した一実施形態から他の実施形態への要素の置き換えも、完全に想定の範囲内である。
参照文献
T. D. Abhayapala著「Generalized framework for spherical microphone arrays: Spatial and frequency decomposition」(In Proc. IEEE International Conference on Acoustics, Speech, 25 and Signal Processing (ICASSP), (accepted) Vol. X, pp., April 2008, Las Vegas, USA. James R. Driscoll及びDennis M. Healy Jr.著「Computing Fourier transforms and convolutions on the 2-sphere」(Advances in Applied Mathematics, 15:202-250, 1994)

Claims (16)

  1. 前処理されたオーディオデータをエンコードする方法であって、
    前記オーディオデータをエンコードするステップと、
    前記オーディオデータのオーディオ前処理を示す補助データをエンコードするステップとを有する、方法。
  2. 前記オーディオデータはHOAフォーマットである、請求項1に記載の方法。
  3. 前記エンコードするステップは適応的逆OSHTを用いるステップを有する、
    請求項1または2に記載の方法。
  4. 前記補助データは、オーディオコンテンツがHOAコンテンツと、HOAコンテンツ表現の次数、2次元、3次元、または半球表現、及び空間的サンプリングポイントの位置のうち少なくとも一つとから得られたことを示す、請求項1ないし3いずれか一項に記載の方法。
  5. 前記補助データは、オーディオコンテンツがVBAPと、VBAPタプルまたはスピーカのトリプレットの割り当てとを用いて、合成的にミックスされたことを示す、
    請求項1ないし4いずれか一項に記載の方法。
  6. 前記補助データは、オーディオコンテンツが固定された離散的マイクロホンで録音されたことと、録音セットの一以上のマイクロホンの一以上の位置と方向及び一以上の種類のマイクロホンのうち少なくとも一方とを示す、請求項1ないし5いずれか一項に記載の方法。
  7. エンコードされたオーディオデータをデコードする方法であって、
    エンコードされたオーディオデータがエンコード前に前処理されていると判断するステップと、
    オーディオデータをデコードするステップと、
    受信したデータから前処理に関する情報を抽出するステップと、
    抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する、方法。
  8. 前処理に関する情報は、オーディオコンテンツがHOAコンテンツと、HOAコンテンツ表現の次数、2次元、3次元、または半球表現、及び空間的サンプリングポイントの位置のうち少なくとも一つとから得られたことを示す、請求項7に記載の方法。
  9. 前処理に関する情報は、オーディオコンテンツがVBAPと、VBAPタプルまたはスピーカのトリプレットの割り当てとを用いて、合成的にミックスされたことを示す、
    請求項1ないし8いずれか一項に記載の方法。
  10. 前処理に関する情報は、オーディオコンテンツが固定された離散的マイクロホンで録音されたことと、録音セットの一以上のマイクロホンの一以上の位置と方向及び一以上の種類のマイクロホンのうち少なくとも一方とを示す、請求項1ないし9いずれか一項に記載の方法。
  11. 前処理されたオーディオデータをエンコードするエンコーダであって、
    前記オーディオデータをエンコードする第1のエンコーダと、
    オーディオ前処理を示す補助データをエンコードする第2のエンコーダとを有する、
    エンコーダ。
  12. 前記エンコーダは適応的逆DSHTブロックを有する、請求項11に記載のエンコーダ。
  13. エンコードされたオーディオデータをデコードするデコーダであって、
    エンコードされたオーディオデータがエンコード前に前処理されていると判断するアナライザと、
    オーディオデータをデコードする第1のデコーダと、
    受信データから、前処理に関する情報を抽出するデータストリームパーサ/抽出ユニットと、
    抽出された前処理情報に応じて、デコードされたオーディオデータを後処理するステップとを有する、
    デコーダ。
  14. 前処理に関する情報は、マイクロホンセットアップの、またはオーディオデータのミキシングに用いられたパンニングアルゴリズムのインジケーションを含む、請求項13に記載のデコーダ。
  15. HOA信号をレンダリングするのに適したオーディオレンダラーであって、
    マルチチャンネルオーディオデータと、複数の入力チャンネルの空間的位置情報とを受信する前記複数の入力チャンネルと、
    メタデータを受信する、前記メタデータはマルチチャンネルオーディオデータに適用されたオーディオミキシングのタイプを指定する、少なくとも1つのチャネルとを有する
    インタフェースを含む、オーディオレンダラー。
  16. 前記メタデータは、マイクロホンセットアップ、またはオーディオデータをミックスするのに用いられたパンニングアルゴリズムを指示する、請求項15に記載のオーディオレンダラー。
JP2015522115A 2012-07-19 2013-07-19 マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置 Active JP6279569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12290239 2012-07-19
EP12290239.8 2012-07-19
PCT/EP2013/065343 WO2014013070A1 (en) 2012-07-19 2013-07-19 Method and device for improving the rendering of multi-channel audio signals

Publications (3)

Publication Number Publication Date
JP2015527610A true JP2015527610A (ja) 2015-09-17
JP2015527610A5 JP2015527610A5 (ja) 2016-08-18
JP6279569B2 JP6279569B2 (ja) 2018-02-14

Family

ID=48874273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015522115A Active JP6279569B2 (ja) 2012-07-19 2013-07-19 マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置

Country Status (7)

Country Link
US (7) US9589571B2 (ja)
EP (1) EP2875511B1 (ja)
JP (1) JP6279569B2 (ja)
KR (5) KR20230137492A (ja)
CN (1) CN104471641B (ja)
TW (1) TWI590234B (ja)
WO (1) WO2014013070A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017513053A (ja) * 2014-03-21 2017-05-25 クアルコム,インコーポレイテッド 音場の記述へのオーディオチャンネルの挿入

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
KR102144976B1 (ko) 2014-03-21 2020-08-14 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
CN109410963B (zh) 2014-03-21 2023-10-20 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102443054B1 (ko) * 2014-03-24 2022-09-14 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
TWI833562B (zh) 2014-03-24 2024-02-21 瑞典商杜比國際公司 應用動態範圍壓縮至高階保真立體音響信號之方法和裝置
EP3131313A4 (en) * 2014-04-11 2017-12-13 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
EP3162087B1 (en) * 2014-06-27 2021-03-17 Dolby International AB Coded hoa data frame representation that includes non-differential gain values associated with channel signals of specific ones of the data frames of an hoa data frame representation
WO2016018787A1 (en) 2014-07-31 2016-02-04 Dolby Laboratories Licensing Corporation Audio processing systems and methods
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
KR102105395B1 (ko) * 2015-01-19 2020-04-28 삼성전기주식회사 칩 전자부품 및 칩 전자부품의 실장 기판
US20160294484A1 (en) * 2015-03-31 2016-10-06 Qualcomm Technologies International, Ltd. Embedding codes in an audio signal
EP3329486B1 (en) * 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
US10978079B2 (en) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corporation Audio encoding and decoding using presentation transform parameters
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
CN116206617A (zh) 2015-10-08 2023-06-02 杜比国际公司 用于压缩声音或声场表示的分层编解码
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
US10600425B2 (en) 2015-11-17 2020-03-24 Dolby Laboratories Licensing Corporation Method and apparatus for converting a channel-based 3D audio signal to an HOA audio signal
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
CN106973073A (zh) * 2016-01-13 2017-07-21 杭州海康威视系统技术有限公司 多媒体数据的传输方法及设备
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
US10614819B2 (en) 2016-01-27 2020-04-07 Dolby Laboratories Licensing Corporation Acoustic environment simulation
CN109526234B (zh) * 2016-06-30 2023-09-01 杜塞尔多夫华为技术有限公司 对多声道音频信号进行编码和解码的装置和方法
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
CN110447243B (zh) 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
US10339947B2 (en) 2017-03-22 2019-07-02 Immersion Networks, Inc. System and method for processing audio data
EP3622509B1 (en) 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US20180338212A1 (en) * 2017-05-18 2018-11-22 Qualcomm Incorporated Layered intermediate compression for higher order ambisonic audio data
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
GB2566992A (en) 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
US11328735B2 (en) * 2017-11-10 2022-05-10 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN111542877B (zh) * 2017-12-28 2023-11-24 诺基亚技术有限公司 空间音频参数编码和相关联的解码的确定
RU2769788C1 (ru) * 2018-07-04 2022-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов
CN117809663A (zh) * 2018-12-07 2024-04-02 弗劳恩霍夫应用研究促进协会 从包括至少两个声道的信号产生声场描述的装置、方法
TWI719429B (zh) * 2019-03-19 2021-02-21 瑞昱半導體股份有限公司 音訊處理方法與音訊處理系統
GB2582748A (en) 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
KR102300177B1 (ko) * 2019-09-17 2021-09-08 난징 트월링 테크놀로지 컴퍼니 리미티드 몰입형 오디오 렌더링 방법 및 시스템
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及系统
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
WO2022096376A2 (en) * 2020-11-03 2022-05-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal transformation
US11659330B2 (en) * 2021-04-13 2023-05-23 Spatialx Inc. Adaptive structured rendering of audio channels
EP4310839A1 (en) * 2021-05-21 2024-01-24 Samsung Electronics Co., Ltd. Apparatus and method for processing multi-channel audio signal
CN116830193A (zh) * 2023-04-11 2023-09-29 北京小米移动软件有限公司 音频码流信号处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011073210A1 (en) * 2009-12-17 2011-06-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2012033950A1 (en) * 2010-09-08 2012-03-15 Dts, Inc. Spatial audio encoding and reproduction of diffuse sound

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5131060Y2 (ja) 1971-10-27 1976-08-04
JPS5131246B2 (ja) 1971-11-15 1976-09-06
KR20010009258A (ko) 1999-07-08 2001-02-05 허진호 가상 멀티 채널 레코딩 시스템
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
FR2844894B1 (fr) * 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
GB0306820D0 (en) 2003-03-25 2003-04-30 Ici Plc Polymerisation of ethylenically unsaturated monomers
CN1973320B (zh) * 2004-04-05 2010-12-15 皇家飞利浦电子股份有限公司 立体声编码和解码的方法及其设备
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US7765104B2 (en) 2005-08-30 2010-07-27 Lg Electronics Inc. Slot position coding of residual signals of spatial audio coding application
US8577483B2 (en) 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP2301020B1 (en) 2008-07-11 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2467534B (en) * 2009-02-04 2014-12-24 Richard Furse Sound system
CN102804808B (zh) 2009-06-30 2015-05-27 诺基亚公司 用于呈现空间音频的方法及装置
EP2609759B1 (en) * 2010-08-27 2022-05-18 Sennheiser Electronic GmbH & Co. KG Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2969804A1 (fr) 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
KR102374897B1 (ko) * 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2848009B1 (en) * 2012-05-07 2020-12-02 Dolby International AB Method and apparatus for layout and format independent 3d audio reproduction
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011073210A1 (en) * 2009-12-17 2011-06-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
WO2012033950A1 (en) * 2010-09-08 2012-03-15 Dts, Inc. Spatial audio encoding and reproduction of diffuse sound

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017513053A (ja) * 2014-03-21 2017-05-25 クアルコム,インコーポレイテッド 音場の記述へのオーディオチャンネルの挿入
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields

Also Published As

Publication number Publication date
KR20220113842A (ko) 2022-08-16
EP2875511B1 (en) 2018-02-21
KR20230137492A (ko) 2023-10-04
TW201411604A (zh) 2014-03-16
US20180247656A1 (en) 2018-08-30
US9984694B2 (en) 2018-05-29
CN104471641A (zh) 2015-03-25
KR102581878B1 (ko) 2023-09-25
KR102429953B1 (ko) 2022-08-08
US20150154965A1 (en) 2015-06-04
US20190259396A1 (en) 2019-08-22
US20200020344A1 (en) 2020-01-16
KR102201713B1 (ko) 2021-01-12
US20240127831A1 (en) 2024-04-18
US20220020382A1 (en) 2022-01-20
KR20200084918A (ko) 2020-07-13
WO2014013070A1 (en) 2014-01-23
US20170140764A1 (en) 2017-05-18
US11081117B2 (en) 2021-08-03
US11798568B2 (en) 2023-10-24
KR102131810B1 (ko) 2020-07-08
US9589571B2 (en) 2017-03-07
JP6279569B2 (ja) 2018-02-14
US10460737B2 (en) 2019-10-29
KR20150032718A (ko) 2015-03-27
CN104471641B (zh) 2017-09-12
TWI590234B (zh) 2017-07-01
EP2875511A1 (en) 2015-05-27
US10381013B2 (en) 2019-08-13
KR20210006011A (ko) 2021-01-15

Similar Documents

Publication Publication Date Title
JP6279569B2 (ja) マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US8964994B2 (en) Encoding of multichannel digital audio signals
EP1989920B1 (en) Audio encoding and decoding
JP7213364B2 (ja) 空間オーディオパラメータの符号化及び対応する復号の決定
EP3984027B1 (en) Packet loss concealment for dirac based spatial audio coding
RU2807473C2 (ru) Маскировка потерь пакетов для пространственного кодирования аудиоданных на основе dirac
JPWO2020089510A5 (ja)
TW202341128A (zh) 轉換音訊串流之設備及方法
TW202219942A (zh) 使用頻寬擴展處理編碼音頻場景的裝置、方法或電腦程式
TW202230334A (zh) 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式
TW202230335A (zh) 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
CN116508098A (zh) 量化空间音频参数

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160629

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180117

R150 Certificate of patent or registration of utility model

Ref document number: 6279569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250