JP2022518744A - 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム - Google Patents
空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム Download PDFInfo
- Publication number
- JP2022518744A JP2022518744A JP2021542163A JP2021542163A JP2022518744A JP 2022518744 A JP2022518744 A JP 2022518744A JP 2021542163 A JP2021542163 A JP 2021542163A JP 2021542163 A JP2021542163 A JP 2021542163A JP 2022518744 A JP2022518744 A JP 2022518744A
- Authority
- JP
- Japan
- Prior art keywords
- transport
- signal
- representation
- audio
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims description 65
- 238000004590 computer program Methods 0.000 title claims description 12
- 230000001747 exhibiting effect Effects 0.000 claims abstract 2
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 20
- 238000009792 diffusion process Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000008878 coupling Effects 0.000 claims description 13
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 11
- 230000004807 localization Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 36
- 230000006870 function Effects 0.000 description 24
- 238000009877 rendering Methods 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 11
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
から到来するオーディオ信号
は、球面調和関数を切り捨て次数Hまで展開することによってアンビソニックスフォーマットで表すことができる次式の空間オーディオ信号
をもたらし、
式中、
は、次数l、モードmの球面調和関数であり、
は、展開係数である。切り捨て次数Hが増加すると、展開はより正確な空間表現をもたらす。アンビソニックスチャネル番号(Ambisonics Channel Numbering(ACN))インデックスを有する次数H=4までの球面調和関数が、次数n、モードmについて図1aに示されている。
以下では、没入型音声オーディオサービス(Immersive Voice and Audio Services(IVAS))用に設計されたDirACに基づく最新技術の空間オーディオコーディングシステムの概要を提示する。そのようなシステムの目的は、オーディオシーンを表す様々な空間オーディオフォーマットを処理し、それらを低ビットレートでコード化し、伝送後に元のオーディオシーンを可能な限り忠実に再現することができることである。
の1つまたは複数のセットを評価するために使用され、式中、Hは合成アンビソニックス信号の次数である。
に関して、または方位角
および/もしくは仰角
に関して表現することができ、これらは、例えば、次式のように関連する。
範囲は0≦l≦H、-l≦m≦lである。
は、ルジャンドル関数であり、
は、ルジャンドル関数と三角関数両方の正規化項であり、SN3Dについて次式の形を取り、
式中、クロネッカーのデルタ
は、m=0では1、それ以外では0である。指向性利得は、次いで、次式のようにインデックス(k,n)の時間周波数タイルごとに直接推論される。
および
にわたる空間基底関数
の二乗振幅の積分を考慮することによって平均応答
を定義することである。
が得られ、すなわち、
である。
受け取られたDirACベースの空間オーディオコーディングストリームに基づく一般的なDirAC合成について、以下で説明する。DirAC合成によって行われるレンダリングは、復号されたダウンミックスオーディオ信号および復号された空間メタデータに基づくものである。
は、直接音成分と拡散音成分との結合として得られ、すなわち、
である。
を、いわゆる基準信号
を拡散度パラメータ
および指向性利得係数
に依存する係数でスケーリングすることによって得ることができ、利得係数は音の到来方向(DOA)に依存し、潜在的に第jのスピーカチャネルの位置にも依存する。音のDOAを、例えば、単位ノルムベクトル
に関して、または方位角
および/もしくは仰角
に関して表現することができ、これらは、例えば、次式のように関連する。
は、再生スピーカ構成に依存する。通常、異なるスピーカチャネル
と関連付けられた拡散音成分はさらに処理され、すなわち、それらは相互に無相関化される。これは、出力チャネルごとの基準信号を無相関化することによっても達成することができ、すなわち、
であり、式中、
は、
の無相関化バージョンを表す。
)からなり、基準信号はすべての出力チャネルについて同一である。
いくつかの用途では、ビットレート制限によりFOA信号の4つの成分すべてをトランスポートチャネルとして伝送することは不可能であるが、信号成分またはチャネルの数が低減されたダウンミックス信号のみを伝送することは可能である。復号器における改善された再現品質を達成するために、伝送されたダウンミックス信号の生成を、時変的な方法で行うことができ、空間オーディオ入力信号に適応させることができる。空間オーディオコーディングシステムが柔軟なダウンミックス信号を含むことを可能にする場合、これらのトランスポートチャネルを伝送するだけでなく、ダウンミックス信号の重要な空間特性を指定するメタデータをさらに含むことが重要である。空間オーディオコーディングシステムの復号器に位置するDirAC合成は、その場合、ダウンミックス信号の空間特性を考慮して最適な方法でレンダリングプロセスを適応させることができる。本発明は、したがって、空間オーディオ復号器におけるレンダリング品質を改善するために、ダウンミックストランスポートチャネルの重要な空間特性を指定または記述するために使用されるダウンミックス関連メタデータをパラメトリック空間オーディオコーディングストリームに含めることを提案する。
の最適な選択は、ダウンミックス信号の指向特性および第jのスピーカの位置に依存する。
として左を指し示すカージオイド信号だけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合を使用し得る。
として前を指し示すカージオイド信号だけを使用すべきである。
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、FOA(1次アンビソニックス)またはHOA(高次アンビソニックス)オーディオ信号に対応する。符号器及び復号器に対応するブロックスキームが図3、図4に夫々示されている。符号器への入力は、空間オーディオ信号、例えば、FOA信号またはHOA信号である。「空間オーディオ解析」ブロックでは、DirACパラメータ、すなわち、空間パラメータ(例えば、DOAや拡散度)が前述のように推定される。提案の柔軟なダウンミックスのダウンミックス信号は、「ダウンミックス生成」ブロックにおいて生成され、これについては以下でより詳細に説明する。生成されたダウンミックス信号は
と呼ばれ、式中、mはダウンミックスチャネルのインデックスである。生成されたダウンミックス信号は、次いで、例えば、前述のようにEVSベースのオーディオコーダを使用して、「コア符号器」ブロックで符号化される。ダウンミックスパラメータ、すなわち、ダウンミックスがどのように作成されたかに関する関連情報またはダウンミックス信号の他の指向特性を記述するパラメータは、空間パラメータと共にメタデータ符号器で符号化される。最後に、符号化されたメタデータおよび符号化されたダウンミックス信号はビットストリームに変換され、これを復号器に伝送することができる。
、デカルト座標系のx軸に整列した双極信号
およびy軸に整列した双極信号
に対応するFOA/HOA信号の3つの信号成分のみがダウンミックス信号に含められ、z軸に整列した双極信号
(および、存在する場合、他のすべての高次成分)は除外される。これは、ダウンミックス信号が、次式で与えられることを意味する。
、
、および
の各成分が含まれる場合には{1,2,4}である。
、
および
の各成分が選択される。対照的に、記録が横断歩道で行われた場合、大部分の音響エネルギーが水平デカルト平面に含まれると仮定することができる。この場合、例えば、
、
および
の各成分が選択される。あるいは、例えば、ビデオカメラがオーディオ録音と共に使用される場合、顔認識アルゴリズムを使用して話者がどのデカルト平面内に位置するかを検出することができ、したがって、この平面に対応するFOA成分をダウンミックスのために選択することができる。あるいは、最新技術の音源定位アルゴリズムを使用することによって、最高のエネルギーを有するデカルト座標系の平面を決定することもできる。
を必要とする。本発明では、追加のダウンミックスメタデータを使用してダウンミックス信号
から
を計算することが提案される。この実施形態では、ダウンミックス信号
は、FOA信号またはHOA信号の具体的に選択された成分からなり、ダウンミックスメタデータは、どのFOA/HOA成分が復号器に伝送されたかを記述する。
、
、および
の各成分が伝送されたことを示す場合、xy平面(水平面)内のすべてのスピーカの仮想マイクロフォン信号を計算することができ、計算は[Pulkki07]に記載されているように行うことができる。水平面外の高置スピーカについては、基準信号
にフォールバックソリューションを使用することができ、例えば、無指向成分
を使用することができる。
、例えば無指向成分
に対してフォールバックソリューションが使用される。
を基準信号
として使用することによって計算される。空間メタデータを使用した無指向成分
からのFOA/HOA成分の合成は、例えば、[Thiergart17]に記載されている。
この実施形態では、空間オーディオ信号、すなわち符号器へのオーディオ入力信号は、FOA(1次アンビソニックス)またはHOA(高次アンビソニックス)オーディオ信号に対応する。符号器の対応するブロックスキームが図3および図4にそれぞれ示されている。この実施形態では、トランスポートチャネルに必要なビットレートをさらに低減させるために、2つのダウンミックス信号のみが符号器から復号器に伝送され得る。例えば、左半球から発生する優勢な音響エネルギーがある場合、主に左半球からの音響エネルギーを含むダウンミックスチャネルと、主に反対方向、すなわち、この例では右半球から発生する音を含む追加のダウンミックスチャネルとを含むダウンミックスチャネルを生成することが有利である。これは、結果として得られる信号が、例えば、それぞれ、左半球と右半球とを指し示すカージオイド指向性パターンを有する指向性マイクロフォン信号に対応するようなFOAオーディオ入力信号成分またはHOAオーディオ入力信号成分の線形結合によって達成することができる。同様に、FOAオーディオ入力信号またはHOAオーディオ入力信号をそれぞれ適切に結合することによって、前方と後方とをそれぞれの指し示す1次(もしくは高次)指向性パターン、または任意の他の所望の指向性パターンに対応するダウンミックス信号を生成することもできる。
、ならびに、指向性パターンがデカルト座標系のx軸、y軸、z軸と整列している3つの双極信号
、
および
に対応する。これらの4つの信号は、一般に、Bフォーマット信号と呼ばれる。結果として得られる指向性パターンは、4つのBフォーマット成分の線形結合によって得ることができ、通常は、1次指向性パターンと呼ばれる。1次指向性パターンまたは対応する信号を、様々な方法で表現することができる。例えば、第mのダウンミックス信号
を、関連付けられた重みを有するBフォーマット信号の線形結合、すなわち、
で表現することができる。
、
、
および
は、結果として得られる指向性マイクロフォン信号、すなわち第mのダウンミックス信号
の指向性パターンを決定する。FOAオーディオ入力信号の場合、線形結合の所望の重みを、以下のように計算することができる。
式中、
である。
は、いわゆる1次パラメータまたは形状パラメータであり、
および
は、生成された第mの指向性マイクロフォン信号の視線方向の所望の方位角および仰角である。例えば、
の場合、カージオイド指向性を有する指向性マイクロフォンが達成され、
は無指向特性に対応し、
は双極特性に対応する。言い換えると、パラメータ
は、1次指向性パターンの一般的な形状を記述する。
、
、
および
、または対応するパラメータ
、
および
は、対応する指向性マイクロフォン信号の指向性パターンを記述する。この情報は、図3の符号器のダウンミックスパラメータによって表され、メタデータの一部として復号器に伝送される。
および
ならびに形状パラメータ
に対して限られた数のプリセットのみを使用することで、すでに十分またはより効率的である。これは自明に、重み
、
、
および
にも限られた数のプリセットを使用することに相当する。例えば、形状パラメータを、無指向特性、カージオイド特性、および双極特性の3つの異なる指向性パターンのみを表すように制限することができる。可能な視線方向
および
の数を、それらが左、右、前、後、上、および下の場合のみを表すように制限することができる。
を、例えば手動で定義することができる(典型的には
)。視線方向
および
を、(例えば、最新技術の音源定位法を使用してアクティブな音源を定位し、第1のダウンミックス信号を定位された音源に向け、第2のダウンミックス信号を反対方向に向けることによって)自動的に設定することができる。
を使用する、復号器出力信号(FOA/HOA出力、MC出力、またはオブジェクト出力)の計算は、ダウンミックスメタデータによって指定される実際に使用されたダウンミックス構成に適合されなければならない。
の計算は、実際に使用されたダウンミックス構成に適合されなければならない。より具体的には、第jのスピーカの基準信号
の最適な選択は、ダウンミックス信号の指向特性(例えば、その視線方向)および第jのスピーカの位置に依存する。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す2つのカージオイドマイクロフォン信号に対応することを示す場合、左半球に位置するスピーカの基準信号は、基準信号
として左を指し示すカージオイドダウンミックス信号を主に、またはそれだけを使用すべきである。中央に位置するスピーカは、代わりに両方のダウンミックス信号の線形結合(例えば、2つのダウンミックス信号の和)を使用し得る。他方、ダウンミックス信号が、それぞれ前方と後方とを指し示す2つのカージオイドマイクロフォン信号に対応する場合、前半球に位置するスピーカの基準信号は、基準信号
として前を指し示すカージオイド信号を主に、またはそれだけを使用すべきである。
の計算も、ダウンミックスメタデータによって記述される、実際に使用されたダウンミックス構成に適合されなければならない。例えば、ダウンミックスメタデータが、ダウンミックス信号が、それぞれ左と右とを指し示す2つのカージオイドマイクロフォン信号に対応することを示す場合、第1のFOA成分(無指向成分)を合成するための基準信号
を、2つのカージオイドダウンミックス信号の和、すなわち、
として計算することができる。
は、所望のFOA出力信号またはHOA出力信号の第1の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。同様に、第3のFOA成分(y方向の双極成分)を、2つのカージオイドダウンミックス信号の差、すなわち、
として計算することができる。
は、所望のFOA出力信号またはHOA出力信号の第3の成分を直接もたらし、すなわち、この成分にはそれ以上の空間音合成は必要とされない。残りのすべてのFOA成分またはHOA成分は、すべての方向からのオーディオ情報を含む無指向性基準信号から合成され得る。これは、この例では、残りのFOA成分またはHOA成分の合成に2つのダウンミックス信号の和が使用されることを意味する。ダウンミックスメタデータが2つのオーディオダウンミックス信号の異なる指向性を示す場合、基準信号
の計算をそれに応じて調整することができる。例えば、2つのカージオイドオーディオダウンミックス信号が(左右ではなく)前後に向けられている場合、2つのダウンミックス信号の差を使用して、第3のFOA成分の代わりに第2のFOA成分(x方向の双極成分)を生成することができる。一般には、上記の例で示されるように、最適な基準信号
を、受け取られたダウンミックスオーディオ信号の線形結合、すなわち、
によって見つけることができ、式中、線形結合の重み
および
は、ダウンミックスメタデータに、すなわち、トランスポートチャネル構成および(例えば、第jのスピーカにレンダリングするときの)考慮された第jの基準信号に依存する。
この実施形態では、符号器への入力は、いわゆるパラメトリック空間オーディオ入力信号に対応し、パラメトリック空間オーディオ入力信号は、2つ以上のマイクロフォンからなる任意の配列構成のオーディオ信号を、空間音の空間パラメータ(例えば、DOAや拡散度)と共に含む。
および仰角
としての)向きを含むことができる。さらに、ダウンミックスメタデータは、例えば、前述の1次パラメータ
を使用することによって、選択されたマイクロフォンの指向性パターンに関する情報を含むこともできる。
を、第jのスピーカ位置までの最小距離を有するダウンミックス信号に対応するように選択することができる。同様に、ダウンミックスメタデータが、視線方向
を有する2つの指向性マイクロフォンが伝送されたことを示す場合、スピーカ位置に向かう最も近い視線方向を有するダウンミックス信号に対応するように
を選択することができる。あるいは、第2の実施形態で説明したように、伝送された同一指向性(coincident directional)ダウンミックス信号の線形結合を行うこともできる。
を生成するために、伝送されたすべての無指向性ダウンミックス信号を考慮することができる。実際、音場が拡散である場合、間隔を置いて配置された無指向性ダウンミックス信号は、相互に無相関の基準信号
を生成するための無相関化がより少なくて済むように部分的に無相関化される。相互に無相関の基準信号は、例えば、[Vilkamo13]で提案された共分散ベースのレンダリング手法を使用することによって、伝送されたダウンミックスオーディオ信号から生成することができる。
を生成することができる。
および
、または1次パラメータ
に関するマイクロフォン指向性として記述する。
を、次式として計算することができる。
は、すべての入力マイクロフォン信号を含むベクトルであり、
は、線形結合の重み、すなわち、第mのオーディオダウンミックス信号についての、空間フィルタまたはビームフォーマの重みである。空間フィルタまたはビームフォーマを最適な方法で計算する様々な方法がある[Veen88]。多くの場合、ビームフォーマが向けられる視線方向
が定義される。次いで、ビームフォーマの重みを、例えば、遅延和ビームフォーマまたはMVDRビームフォーマとして計算することができる[Veen88]。この実施形態では、ビームフォーマの視線方向
は、オーディオダウンミックス信号ごとに定義される。これを、第2の実施形態で説明したのと同じ方法で、手動で(例えば、プリセットに基づいて)または自動的に行うことができる。異なるオーディオダウンミックス信号を表すビームフォーマ信号の視線方向
は、その場合、図4の復号器に伝送されるダウンミックスメタデータを表すことができる。
は、そのビームフォーマの視線方向がスピーカ方向に最も近い
として使用される。必要なビームフォーマの視線方向は、ダウンミックスメタデータによって記述される。
FOAベースの入力
・空間オーディオシーン符号器
・空間オーディオシーン(例えばFOA成分)を表す空間オーディオ入力信号を受け取る
・少なくとも1つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・受け取られたオーディオ入力信号に基づいてダウンミックスオーディオ信号を生成する(オプション:適応ダウンミックス生成のために空間オーディオパラメータも使用する)。
・ダウンミックス信号の指向特性を記述するダウンミックスパラメータを生成する(例えば、ダウンミックス係数や指向性パターン)。
・ダウンミックス信号、空間オーディオパラメータおよびダウンミックスパラメータを符号化する。
・ダウンミックスオーディオ信号、空間オーディオパラメータ、およびダウンミックスパラメータを含む符号化された空間オーディオシーンを受け取る
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス/トランスポートチャネルパラメータを復号する
・ダウンミックスオーディオ信号、空間オーディオパラメータおよびダウンミックス(位置)パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。
・空間オーディオシーン符号器
・記録されたマイクロフォン信号から生成された少なくとも2つの空間オーディオ入力信号を生成するか、または受け取る
・少なくとも1つの方向パラメータを含む空間オーディオパラメータを生成するか、または受け取る
・記録されたマイクロフォン信号から生成された空間オーディオ入力信号の幾何学的または位置的特性(例えば、マイクロフォンの相対位置または絶対位置やマイクロフォン間の間隔)を記述する位置パラメータを生成するか、または受け取る。
・空間オーディオ入力信号、または空間オーディオ入力信号、空間オーディオパラメータ、および位置パラメータから導出されたダウンミックス信号を符号化する。
・少なくとも2つのオーディオ信号、空間オーディオパラメータ、および(オーディオ信号の位置特性に関連する)位置パラメータを含む符号化された空間オーディオシーンを受け取る。
・オーディオ信号、空間オーディオパラメータおよび位置パラメータを復号する
・オーディオ信号、空間オーディオパラメータおよび位置パラメータに基づいて復号された表現を空間的にレンダリングするための空間オーディオレンダラ。
[Pulkki07] V.Pulkki,’’Spatial Sound Reproduction with Directional Audio Coding’’,J.Audio Eng.Soc.,Volume 55 Issue 6 pp.503-516;June 2007.
[Pulkki97] V.Pulkki,’’Virtual Sound Source Positioning Using Vector Base Amplitude Panning’’ J.Audio Eng.Soc.,Volume 45 Issue 6 pp.456-466;June 1997
[Thiergart09] O.Thiergart,R.Schultz-Amling,G.Del Galdo,D.Mahne,F.Kuech,’’Localization of Sound Sources in Reverberant Environments Based on Directional Audio Coding Parameters’’,AES Convention 127,Paper No.7853,Oct.2009
[Thiergart17] WO2017157803 A1,O.Thiergart et.al.’’APPARATUS,METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION’’
[Laitinen11] M.Laitinen,F.Kuech,V.Pulkki,’’Using Spaced Microphones with Directional Audio Coding ’’,AES Convention 130,Paper No.8433,May 2011
[Vilkamo13] J.Vilkamo,V.Pulkki,’’Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering’’,J.Audio Eng.Soc.,Vol.61,No.9,2013 September
[Veen88] B.D.Van Veen,K.M.Buckley,’’Beamforming:a versatile approach to spatial filtering’’,IEEE ASSP Mag.,vol.5,no.2,pp.4-24,1998
[1] V.Pulkki,M-V Laitinen,J Vilkamo,J Ahonen,T Lokki and T Pihlajamaki,’’Directional audio coding-perception-based reproduction of spatial sound’’,International Workshop on the Principles and Application on Spatial Hearing,Nov.2009,Zao;Miyagi,Japan.
[2] M.V.Laitinen and V.Pulkki,’’Converting 5.1 audio recordings to B-format for directional audio coding reproduction,’’ 2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Prague,2011,pp.61-64
[3] R.K.Furness,’’Ambisonics-An overview,’’ in AES 8th International Conference,April 1990,pp.181-189.
[4] C.Nachbar,F.Zotter,E.Deleflie,and A.Sontacchi,’’AMBIX-A Suggested Ambisonics Format’’,Proceedings of the Ambisonics Symposium 2011
Claims (45)
- 符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための装置であって、前記装置が、
前記空間オーディオ表現からトランスポート表現を生成し、前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成するためのトランスポート表現生成器(600)と、
前記符号化されたオーディオ信号を生成するための出力インターフェース(640)であって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、出力インターフェース(640)と
を備える、装置。 - 前記空間オーディオ表現から空間パラメータを導出するためのパラメータプロセッサ(620)をさらに備え、
前記出力インターフェース(640)が、前記符号化されたオーディオ信号を、前記符号化されたオーディオ信号が前記空間パラメータに関する情報をさらに含むように生成するように構成される、請求項1に記載の装置。 - 前記空間オーディオ表現が、多数の係数信号を含む1次アンビソニックスもしくは高次アンビソニックス表現、または複数のオーディオチャネルを含むマルチチャネル表現であり、
前記トランスポート表現生成器(600)が、前記1次アンビソニックスもしくは高次アンビソニックス表現から1つもしくは複数の係数信号を選択するか、または前記高次アンビソニックスもしくは1次アンビソニックス表現からの係数を結合するように構成され、または前記トランスポート表現生成器(600)が、前記マルチチャネル表現から1つもしくは複数のオーディオチャネルを選択するか、または前記マルチチャネル表現からの2つ以上のオーディオチャネルを結合するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータとして、どの特定の1つもしくは複数の係数信号もしくはオーディオチャネルが選択されたかを示す情報、または前記2つ以上の係数信号もしくはオーディオチャネルがどのように結合されたか、または前記1次アンビソニックスもしくは高次アンビソニックスの係数信号もしくはオーディオチャネルのどれが結合されたか、の情報を生成するように構成される、
請求項1または2に記載の装置。 - 前記トランスポート表現生成器(600)が、音響エネルギーの大部分が水平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、X係数信号およびY係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項1、2または3のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、音響エネルギーの大部分がxz平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、X係数信号およびZ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項1、2、または3のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、音響エネルギーの大部分がyz平面内に位置するかどうかを判定するように構成されるか、または
無指向性係数信号、Y係数信号およびZ係数信号のみが、前記判定に応答して、もしくはオーディオ符号器設定に応答して前記トランスポート表現として選択され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記係数信号の前記選択に関する情報を含むように決定するように構成される、
請求項1、2、または3のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、優勢な音響エネルギーが、左右の半球や前後の半球などの特定のセクタもしくは半球から発生するかどうかを判定するように構成されるか、または
前記トランスポート表現生成器(600)が、優勢な音響エネルギーが発生する前記特定のセクタもしくは半球からの、またはオーディオ符号器設定に応答した第1のトランスポート信号、および基準位置と前記特定のセクタもしくは半球とに関して反対方向を有する前記セクタや半球などの異なるセクタもしくは半球からの第2のトランスポート信号を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記特定のセクタもしくは半球を識別するか、または前記異なるセクタもしくは半球を識別する情報を含むように決定するように構成される、
請求項1、2、または3のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、第1のトランスポート信号である第1の結果として得られる信号が、特定のセクタまたは半球に向けられた指向性マイクロフォン信号に対応し、第2のトランスポート信号である第2の結果として得られる信号が、異なるセクタまたは半球に向けられた指向性マイクロフォン信号に対応するように前記空間オーディオ表現の係数信号を結合するように構成される、
前記請求項のいずれか一項に記載の装置。 - ユーザ入力を受け取るためのユーザインターフェース(650)をさらに備え、
前記トランスポート表現生成器(600)が、前記ユーザインターフェース(650)で受け取られた前記ユーザ入力に基づいて前記トランスポート表現を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが前記ユーザ入力に関する情報を有するように生成するように構成される、
前記請求項のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、前記トランスポート表現および前記トランスポートメタデータを、時変的または周波数に依存する方法で生成して、第1のフレームの前記トランスポート表現および前記トランスポートメタデータが第2のフレームの前記トランスポート表現および前記トランスポートメタデータと異なるようにするか、または第1の周波数帯域の前記トランスポート表現および前記トランスポートメタデータが第2の異なる周波数帯域のトランスポート表現および前記トランスポートメタデータと異なるようにする、ように構成される、
前記請求項のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、前記空間オーディオ表現の2つ以上の係数信号の重み付き結合(602)によって1つまたは2つのトランスポート信号を生成するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記重み付き結合で使用される重みに関する情報、または生成された指向性マイクロフォン信号の視線方向としての方位角および/もしくは仰角に関する情報、または指向性マイクロフォン信号の指向特性を示す形状パラメータに関する情報を含むように計算するように構成される
前記請求項のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、量的なトランスポートメタデータを生成し、前記量的なトランスポートメタデータを量子化して(605a)量子化されたトランスポートメタデータを取得し、前記量子化されたトランスポートメタデータをエントロピー符号化する(605b)ように構成され、前記出力インターフェース(640)が、前記符号化されたトランスポートメタデータを前記符号化されたオーディオ信号に含めるように構成される、
前記請求項のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、前記トランスポートメタデータをテーブルインデックスまたはプリセットパラメータに変換するように構成され、
前記出力インターフェース(640)が、前記テーブルインデックスまたは前記プリセットパラメータを前記符号化されたオーディオ信号に含めるように構成される、
請求項1から11のいずれか一項に記載の装置。 - 前記空間オーディオ表現が、少なくとも2つのオーディオ信号および空間パラメータを含み、
パラメータプロセッサ(620)が、前記空間オーディオ表現から前記空間パラメータを抽出することによって前記空間オーディオ表現から前記空間パラメータを導出するように構成され、
前記出力インターフェース(640)が、前記空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるか、もしくは前記空間パラメータから導出された処理された空間パラメータに関する情報を前記符号化されたオーディオ信号に含めるように構成され、または
前記トランスポート表現生成器(600)が、前記トランスポート表現として前記少なくとも2つのオーディオ信号のサブセットを選択し、前記トランスポートメタデータを、前記トランスポートメタデータが前記サブセットの前記選択を示すように生成するか、または前記少なくとも2つのオーディオ信号もしくは前記少なくとも2つのオーディオ信号のサブセットを結合し、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の前記トランスポート表現を計算するために行われた前記オーディオ信号の前記結合に関する情報を含むように計算するように構成される、
前記請求項のいずれか一項に記載の装置。 - 前記空間オーディオ表現が、マイクロフォン配列によって取得された少なくとも2つのマイクロフォン信号のセットを含み、
前記トランスポート表現生成器(600)が、前記マイクロフォン配列の特定の位置または特定のマイクロフォンと関連付けられた1つまたは複数の特定のマイクロフォン信号を選択するように構成され、
前記トランスポートメタデータが、前記特定の位置もしくは前記特定のマイクロフォンに関するか、または選択されたマイクロフォン信号と関連付けられた位置間のマイクロフォン距離に関する情報、または選択されたマイクロフォン信号と関連付けられたマイクロフォンのマイクロフォンの向きに関する情報、または選択されたマイクロフォンと関連付けられたマイクロフォン信号のマイクロフォン指向性パターンに関する情報を含む、
前記請求項のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、
ユーザインターフェース(650)によって受け取られたユーザ入力に従って前記空間オーディオ表現の1つもしくは複数の信号を選択するか、
どの位置がどの音響エネルギーを有するかに関する前記空間オーディオ表現の解析を行い(606)、解析結果に従って前記空間オーディオ表現の1つもしくは複数の信号を選択する(602)か、または
音源定位を行い、前記音源定位の結果に従って前記空間オーディオ表現の1つもしくは複数の信号を選択する(602)
ように構成される
請求項15に記載の装置。 - 前記トランスポート表現生成器(600)が、空間オーディオ表現のすべての信号を選択するように構成され、
前記トランスポート表現生成器(600)が、前記トランスポートメタデータを、前記トランスポートメタデータが、前記空間オーディオ表現の導出元である、マイクロフォン配列を識別するように生成するように構成される、
請求項1から15のいずれか一項に記載の装置。 - 前記トランスポート表現生成器(600)が、空間フィルタリングまたはビームフォーミングを使用して前記空間オーディオ表現に含まれるオーディオ信号を結合する(602)ように構成され、
前記トランスポート表現生成器(600)が、前記トランスポート表現の前記視線方向に関する情報または前記トランスポート表現を計算する際に使用されたビームフォーミング重みに関する情報を前記トランスポートメタデータに含めるように構成される、
前記請求項のいずれか一項に記載の装置。 - 前記空間オーディオ表現が、基準位置に関連した音場の記述であり、
パラメータプロセッサ(620)が、前記空間オーディオ表現から空間パラメータを導出するように構成され、前記空間パラメータが、前記基準位置における音の到来方向に関する時変的もしくは周波数に依存するパラメータまたは前記基準位置における前記音場の拡散度に関する時変的もしくは周波数に依存するパラメータを定義するか、または
前記トランスポート表現生成器(600)が、前記トランスポート表現として、前記空間オーディオ表現に含まれる第1の数の個々の信号のよりも少ない第2の数の個々の信号を有するダウンミックス表現を生成するためのダウンミキサ(601)を備え、前記ダウンミキサ(601)が、前記空間オーディオ表現に含まれる前記個々の信号のサブセットを選択するか、もしくは前記第1の数の信号を前記第2の数の信号まで減らすために前記空間オーディオ表現に含まれる前記個々の信号を結合するように構成される、
前記請求項のいずれか一項に記載の装置。 - パラメータプロセッサ(620)が、オーディオ信号解析を行うことによって前記空間オーディオ表現から前記空間パラメータを導出するための空間オーディオ解析器(621)を備え、
前記トランスポート表現生成器(600)が、前記空間オーディオ解析器(621)の結果に基づいて前記トランスポート表現を生成するように構成されるか、または
前記トランスポート表現生成器(600)が、前記トランスポート表現の前記トランスポート信号のうちの1つもしくは複数のオーディオ信号をコア符号化するためのコア符号器(603)を備えるか、または
前記パラメータプロセッサ(620)が、前記空間パラメータを量子化およびエントロピー符号化する(622)ように構成され、
前記出力インターフェース(640)が、コア符号化されたトランスポート表現(611)を前記トランスポート表現に関する前記情報として前記符号化されたオーディオ信号に含めるか、または前記エントロピー符号化された空間パラメータ(612)を空間パラメータに関する前記情報として前記符号化されたオーディオ信号に含めるように構成される、
前記請求項のいずれか一項に記載の装置。 - 符号化されたオーディオ信号を復号するための装置であって、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取るための入力インターフェース(700)と、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成するための空間オーディオ合成器(750)と
を備える、装置。 - 前記入力インターフェース(700)が、空間パラメータに関する情報をさらに含む前記符号化されたオーディオ信号を受け取るように構成され、
前記空間オーディオ合成器(750)が、前記空間パラメータに関する前記情報をさらに使用して前記空間オーディオ表現を合成するように構成される、請求項21に記載の装置。 - 前記空間オーディオ合成器(750)が、
2つ以上の復号されたトランスポート信号を得るために前記トランスポート表現に関する前記情報を表す2つ以上の符号化されたトランスポート信号をコア復号するためのコア復号器(751)を備えるか、または
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の1次アンビソニックスもしくは高次アンビソニックス表現(754)またはマルチチャネル信号(755)またはオブジェクト表現(756)またはバイノーラル表現を計算するように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータに関する前記情報を復号して前記復号されたトランスポートメタデータ(720)を導出するか、もしくは空間パラメータ(722)に関する情報を復号して復号された空間パラメータを得るためのメタデータ復号器(752)を備える、
請求項21または22に記載の装置。 - 前記空間オーディオ表現が、複数の成分信号を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号について、前記トランスポート表現(711)に関する前記情報および前記トランスポートメタデータ(710)に関する前記情報を使用して基準信号を決定し(760)、
前記基準信号および空間パラメータに関する情報を使用して前記空間オーディオ表現の前記成分信号を計算する(770)か、または前記基準信号を使用して前記空間オーディオ表現の前記成分信号を計算する(770)
ように構成される、
請求項21、22、または23のいずれか一項に記載の装置。 - 前記空間パラメータが、時変的または周波数に依存する到来方向または拡散度パラメータのうちの少なくとも1つを含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の前記複数の異なる成分を生成するために前記空間パラメータを使用して方向オーディオコーディング(DirAC)合成を行うように構成され、
前記空間オーディオ表現の第1の成分が、前記少なくとも2つのトランスポート信号のうちの1つまたは前記少なくとも2つのトランスポート信号の第1の組合せを使用して決定され、
前記空間オーディオ表現の第2の成分が、前記少なくとも2つのトランスポート信号のうちの別の1つまたは前記少なくとも2つのトランスポート信号の第2の組合せを使用して決定され、
前記空間オーディオ合成器(750)が、前記少なくとも2つのトランスポート信号のうちの前記1つもしくは前記別の1つの決定を行う(760)か、または前記トランスポートメタデータに従って前記第1の組合せもしくは前記異なる第2の組合せの決定を行う(760)ように構成される、
請求項22から24のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、前記空間オーディオ表現の基準位置に関連する第1のセクタもしくは半球を指すものとしての第1のトランスポート信号および前記空間オーディオ表現の前記基準位置に関連する第2の異なるセクタもしくは半球を指すものとしての第2のトランスポート信号を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号を使用し、前記第2のトランスポート信号を使用せずに前記第1のセクタもしくは半球と関連付けられた前記空間オーディオ表現の成分信号を生成する(915)ように構成されるか、または前記空間オーディオ合成器(750)が、前記第2のトランスポート信号を使用し、前記第1のトランスポート信号を使用せずに前記第2のセクタもしくは半球と関連付けられた前記空間オーディオ表現の別の成分信号を生成する(915)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号の第1の組合せを使用して前記第1のセクタもしくは半球と関連付けられた成分信号を生成する(915)か、または前記第1のトランスポート信号と前記第2のトランスポート信号の第2の組合せを使用して異なる第2のセクタもしくは半球と関連付けられた成分信号を生成する(915)ように構成され、前記第1の組合せが、前記第2の組合せよりも強い第1のトランスポート信号の影響を受けるか、または前記第2の組合せが、前記第1の組合せよりも強い第2のトランスポート信号の影響を受ける、
請求項21から25のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、前記トランスポート表現のトランスポート信号と関連付けられた指向特性に関する情報を含み、
前記空間オーディオ合成器(750)が、1次アンビソニックス信号もしくは高次アンビソニックス信号、スピーカ位置および前記トランスポートメタデータを使用して仮想マイクロフォン信号を計算する(911)ように構成されるか、または
空間オーディオ合成器(750)が、前記トランスポートメタデータを使用して前記トランスポート信号の前記指向特性を決定し(911)、前記トランスポート信号の前記決定された指向特性に従って前記トランスポート信号から1次アンビソニックス成分もしくは高次アンビソニックス成分(754)を決定するか、または
フォールバックプロセスに従って前記トランスポート信号の前記指向特性と関連付けられていない1次アンビソニックス成分もしくは高次アンビソニックス成分(754)を決定する(911)
ように構成される、
請求項21から26のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、第1のトランスポート信号と関連付けられた第1の視線方向に関する情報、および第2のトランスポート信号と関連付けられた第2の視線方向に関する情報を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号の前記計算のための基準信号を、前記トランスポートメタデータ、および前記空間オーディオ表現の前記成分信号と関連付けられたスピーカの前記位置に基づいて選択する(771)ように構成される、
請求項21から27のいずれか一項に記載の装置。 - 前記第1の視線方向が左半球または前半球を示し、前記第2の視線方向が右半球または後半球を示し、
前記左半球内のスピーカの成分信号の前記計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または前記右半球内のスピーカの成分信号の前記計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
前半球内のスピーカの前記計算に、前記第2のトランスポート信号ではなく前記第1のトランスポート信号が使用される(771)か、または後半球内のスピーカの前記計算に、前記第1のトランスポート信号ではなく前記第2のトランスポート信号が使用される(771)か、または
中央領域内のスピーカの前記計算に、前記左トランスポート信号と前記第2のトランスポート信号の組合せが使用される(771)か、または前記前半球と前記後半球との間の領域内のスピーカと関連付けられたスピーカ信号の前記計算に、前記第1のトランスポート信号と前記第2のトランスポート信号の組合せが使用される(771)、
請求項28に記載の装置。 - 前記トランスポートメタデータに関する前記情報が、第1の視線方向として、左トランスポート信号の左方向を示し、第2の視線方向として、第2のトランスポート信号の右視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号とを加算する(920)ことによって第1のアンビソニックス成分を計算するか、または前記第1のトランスポート信号と前記第2のトランスポート信号とを減算する(921)ことによって第2のアンビソニックス成分を計算するように構成されるか、または前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別のアンビソニックス成分が計算される(922)、
請求項21から29のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、第1のトランスポート信号に、前視線方向を示し、第2のトランスポート信号に、後視線方向を示し、
前記空間オーディオ合成器(750)が、前記第1のトランスポート信号と前記第2のトランスポート信号との差(921)の前記計算を行うことによってx方向の1次アンビソニックス成分を計算し、前記第1のトランスポート信号と前記第2のトランスポート信号の加算(920)を使用して無指向性の1次アンビソニックス成分を計算し、
前記第1のトランスポート信号と前記第2のトランスポート信号の和を使用して別の1次アンビソニックス成分を計算する(922)
ように構成される、
請求項21から27のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、重み係数または前記トランスポート表現のトランスポート信号の視線方向に関する情報を示し、
前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号および前記空間パラメータを使用して、前記空間オーディオ表現の異なる1次アンビソニックス成分を計算する(932)ように構成されるか、または前記空間オーディオ合成器(750)が、前記視線方向もしくは前記重み係数に関する前記情報を使用し、前記トランスポート信号を使用して、前記空間オーディオ表現の異なる1次アンビソニックス成分を計算する(932)ように構成される、
請求項21から26のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、2つの異なる位置にあるか、もしくは異なる視線方向を有するマイクロフォン信号から導出される前記トランスポート信号に関する情報を含み、
前記空間オーディオ合成器(750)が、スピーカ位置に最も近い位置を有する基準信号を選択する(931)か、もしくは前記空間オーディオ表現の基準位置およびスピーカ位置からの前記方向に対して最も近い視線方向を有する基準信号を選択する(932)ように構成されるか、または
前記空間オーディオ合成器(750)が、前記トランスポートメタデータによって示される2つの視線方向の間に配置されているスピーカの基準信号を決定するために前記トランスポート信号との線形結合を行う(771)ように構成される、
請求項21から32のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、前記トランスポート信号と関連付けられたマイクロフォン位置間の距離に関する情報を含み、
前記空間オーディオ合成器(750)が、拡散信号生成器(830、823、824)を備え、前記拡散信号生成器(830、823、824)が、前記距離に関する前記情報を使用して前記拡散信号生成器によって生成された拡散信号中の無相関化信号の量を制御して、第1の距離では、前記拡散信号に、第2の距離での無相関化信号の量と比較して多い量の無相関化信号が含まれるようにするように構成され、前記第1の距離が前記第2の距離よりも小さいか、または
前記空間オーディオ合成器(750)が、前記マイクロフォン位置間の第1の距離について、基準信号もしくはスケーリングされた基準信号を無相関化するように構成された無相関化フィルタ(823)の出力信号と、音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号(822)とを使用して、前記空間オーディオ表現の成分信号を計算し、前記マイクロフォン位置間の第2の距離について、無相関化処理なしで音の到来方向情報から導出された利得を使用して重み付けされた前記基準信号(822)を使用して、前記空間オーディオ表現の成分信号を計算するように構成され、前記第2の距離が前記第1の距離よりも大きいか、もしくは距離閾値よりも大きい、
請求項21から33のいずれか一項に記載の装置。 - 前記トランスポートメタデータが、前記トランスポート表現の前記トランスポート信号と関連付けられたビームフォーミングまたは空間フィルタリングに関する情報を含み、
前記空間オーディオ合成器(750)が、前記空間オーディオ表現の基準位置から前記スピーカへの視線方向に最も近い視線方向を有する前記トランスポート信号を使用してスピーカのためのスピーカ信号を生成する(932)ように構成される、
請求項21から34のいずれか一項に記載の装置。 - 前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の前記決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、前記同じ基準信号および前記拡散度パラメータを使用して決定される(823、824)、
請求項21から35のいずれか一項に記載の装置。 - 前記空間オーディオ合成器(750)が、前記空間オーディオ表現の成分信号を、直接音成分と拡散音成分との結合(825)として決定するように構成され、前記直接音成分が、拡散度パラメータまたは方向パラメータに依存する係数で基準信号をスケーリングする(822)ことによって得られ、前記方向パラメータが音の到来方向に依存し、前記基準信号の前記決定が、前記トランスポートメタデータに関する前記情報に基づいて行われ(821、760)、前記拡散音成分が、無相関化フィルタ(823)、前記同じ基準信号、および前記拡散度パラメータを使用して決定される(823、824)、
請求項21から36のいずれか一項に記載の装置。 - 前記トランスポート表現が、少なくとも2つの異なるマイクロフォン信号を含み、
前記トランスポートメタデータが、前記少なくとも2つの異なるマイクロフォン信号が、無指向性信号、双極信号またはカージオイド信号のうちの少なくとも1つであるかどうかを示す情報を含み、
前記空間オーディオ合成器が、前記空間オーディオ表現の成分について、個々の基準信号を決定するために、基準信号の決定を前記トランスポートメタデータに適応させ(915)、
前記それぞれの成分を、前記それぞれの成分に決定された前記個々の基準信号を使用して計算する(916)ように構成される、
請求項21から37のいずれか一項に記載の装置。 - 符号化されたオーディオ信号を得るためにオーディオシーンを表す空間オーディオ表現を符号化するための方法であって、前記方法が、
前記空間オーディオ表現からトランスポート表現を生成することと、
前記トランスポート表現の前記生成に関連する、または前記トランスポート表現の1つもしくは複数の指向特性を示すトランスポートメタデータを生成することと、
前記符号化されたオーディオ信号を生成することであって、前記符号化されたオーディオ信号が前記トランスポート表現に関する情報および前記トランスポートメタデータに関する情報を含む、ことと
を含む、方法。 - 前記空間オーディオ表現から空間パラメータを導出することをさらに含み、前記符号化されたオーディオ信号が、前記空間パラメータに関する情報をさらに含む、請求項39に記載の方法。
- 符号化されたオーディオ信号を復号するための方法であって、前記方法が、
トランスポート表現に関する情報およびトランスポートメタデータに関する情報を含む前記符号化されたオーディオ信号を受け取ることと、
前記トランスポート表現に関する前記情報および前記トランスポートメタデータに関する前記情報を使用して空間オーディオ表現を合成することと
を含む、方法。 - 空間パラメータに関する情報を受け取ることをさらに含み、前記合成することが、前記空間パラメータに関する前記情報をさらに使用する、請求項41に記載の方法。
- コンピュータまたはプロセッサ上で動作するときに、請求項39から42のいずれか一項に記載の方法を行うためのコンピュータプログラム。
- 空間オーディオ表現のトランスポート表現(611)に関する情報と、
トランスポートメタデータ(610)に関する情報と
を含む、符号化されたオーディオ信号。 - 前記トランスポート表現(611)と関連付けられた空間パラメータ(612)に関する情報をさらに含む、請求項44に記載の符号化されたオーディオ信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023222169A JP2024038192A (ja) | 2019-01-21 | 2023-12-28 | 符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19152911.4 | 2019-01-21 | ||
EP19152911 | 2019-01-21 | ||
PCT/EP2020/051396 WO2020152154A1 (en) | 2019-01-21 | 2020-01-21 | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023222169A Division JP2024038192A (ja) | 2019-01-21 | 2023-12-28 | 符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022518744A true JP2022518744A (ja) | 2022-03-16 |
Family
ID=65236852
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021542163A Pending JP2022518744A (ja) | 2019-01-21 | 2020-01-21 | 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム |
JP2023222169A Pending JP2024038192A (ja) | 2019-01-21 | 2023-12-28 | 符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023222169A Pending JP2024038192A (ja) | 2019-01-21 | 2023-12-28 | 符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム |
Country Status (13)
Country | Link |
---|---|
US (1) | US20210343300A1 (ja) |
EP (1) | EP3915106A1 (ja) |
JP (2) | JP2022518744A (ja) |
KR (1) | KR20210124283A (ja) |
CN (1) | CN113490980A (ja) |
AU (1) | AU2020210549B2 (ja) |
BR (1) | BR112021014135A2 (ja) |
CA (1) | CA3127528A1 (ja) |
MX (1) | MX2021008616A (ja) |
SG (1) | SG11202107802VA (ja) |
TW (1) | TWI808298B (ja) |
WO (1) | WO2020152154A1 (ja) |
ZA (1) | ZA202105927B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024038702A1 (ja) * | 2022-08-15 | 2024-02-22 | パナソニックIpマネジメント株式会社 | 音場再現装置、音場再現方法及び音場再現システム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202316416A (zh) * | 2020-10-13 | 2023-04-16 | 弗勞恩霍夫爾協會 | 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法 |
CN112259110B (zh) * | 2020-11-17 | 2022-07-01 | 北京声智科技有限公司 | 音频编码方法及装置、音频解码方法及装置 |
CN114582357A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
GB2605190A (en) * | 2021-03-26 | 2022-09-28 | Nokia Technologies Oy | Interactive audio rendering of a spatial stream |
CN115552518A (zh) * | 2021-11-02 | 2022-12-30 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
WO2023210978A1 (ko) * | 2022-04-28 | 2023-11-02 | 삼성전자 주식회사 | 다채널 오디오 신호 처리 장치 및 방법 |
US20240098439A1 (en) * | 2022-09-15 | 2024-03-21 | Sony Interactive Entertainment Inc. | Multi-order optimized ambisonics encoding |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016522911A (ja) * | 2013-05-24 | 2016-08-04 | ドルビー・インターナショナル・アーベー | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2154677B1 (en) * | 2008-08-13 | 2013-07-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a converted spatial audio signal |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
EP3164866A1 (en) * | 2014-07-02 | 2017-05-10 | Dolby International AB | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
CN116206615A (zh) * | 2015-10-08 | 2023-06-02 | 杜比国际公司 | 用于压缩声音或声场表示的分层编解码 |
MX2018005090A (es) | 2016-03-15 | 2018-08-15 | Fraunhofer Ges Forschung | Aparato, metodo o programa de computadora para generar una descripcion de campo de sonido. |
GB2559765A (en) * | 2017-02-17 | 2018-08-22 | Nokia Technologies Oy | Two stage audio focus for spatial audio processing |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2576769A (en) * | 2018-08-31 | 2020-03-04 | Nokia Technologies Oy | Spatial parameter signalling |
GB2587335A (en) * | 2019-09-17 | 2021-03-31 | Nokia Technologies Oy | Direction estimation enhancement for parametric spatial audio capture using broadband estimates |
-
2020
- 2020-01-21 CN CN202080010287.XA patent/CN113490980A/zh active Pending
- 2020-01-21 JP JP2021542163A patent/JP2022518744A/ja active Pending
- 2020-01-21 WO PCT/EP2020/051396 patent/WO2020152154A1/en active Search and Examination
- 2020-01-21 KR KR1020217026835A patent/KR20210124283A/ko not_active Application Discontinuation
- 2020-01-21 SG SG11202107802VA patent/SG11202107802VA/en unknown
- 2020-01-21 AU AU2020210549A patent/AU2020210549B2/en active Active
- 2020-01-21 TW TW109102256A patent/TWI808298B/zh active
- 2020-01-21 CA CA3127528A patent/CA3127528A1/en active Pending
- 2020-01-21 BR BR112021014135-9A patent/BR112021014135A2/pt unknown
- 2020-01-21 EP EP20700746.9A patent/EP3915106A1/en active Pending
- 2020-01-21 MX MX2021008616A patent/MX2021008616A/es unknown
-
2021
- 2021-07-14 US US17/375,465 patent/US20210343300A1/en active Pending
- 2021-08-18 ZA ZA2021/05927A patent/ZA202105927B/en unknown
-
2023
- 2023-12-28 JP JP2023222169A patent/JP2024038192A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016522911A (ja) * | 2013-05-24 | 2016-08-04 | ドルビー・インターナショナル・アーベー | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024038702A1 (ja) * | 2022-08-15 | 2024-02-22 | パナソニックIpマネジメント株式会社 | 音場再現装置、音場再現方法及び音場再現システム |
Also Published As
Publication number | Publication date |
---|---|
AU2020210549A1 (en) | 2021-09-09 |
BR112021014135A2 (pt) | 2021-09-21 |
WO2020152154A1 (en) | 2020-07-30 |
CN113490980A (zh) | 2021-10-08 |
CA3127528A1 (en) | 2020-07-30 |
ZA202105927B (en) | 2023-10-25 |
TW202032538A (zh) | 2020-09-01 |
EP3915106A1 (en) | 2021-12-01 |
AU2020210549B2 (en) | 2023-03-16 |
US20210343300A1 (en) | 2021-11-04 |
JP2024038192A (ja) | 2024-03-19 |
SG11202107802VA (en) | 2021-08-30 |
TWI808298B (zh) | 2023-07-11 |
KR20210124283A (ko) | 2021-10-14 |
MX2021008616A (es) | 2021-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022518744A (ja) | 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム | |
CN111630592B (zh) | 生成组合的音频场景的描述的装置和方法 | |
JP7311602B2 (ja) | 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム | |
TWI825492B (zh) | 對多個音頻對象進行編碼的設備和方法、使用兩個以上之相關音頻對象進行解碼的設備和方法、電腦程式及資料結構產品 | |
TWI804004B (zh) | 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、及電腦程式 | |
RU2792050C2 (ru) | Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы | |
TWI834760B (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 | |
RU2772423C1 (ru) | Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка | |
US20230274747A1 (en) | Stereo-based immersive coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230711 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240312 |