JP2023017913A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2023017913A5 JP2023017913A5 JP2022177073A JP2022177073A JP2023017913A5 JP 2023017913 A5 JP2023017913 A5 JP 2023017913A5 JP 2022177073 A JP2022177073 A JP 2022177073A JP 2022177073 A JP2022177073 A JP 2022177073A JP 2023017913 A5 JP2023017913 A5 JP 2023017913A5
- Authority
- JP
- Japan
- Prior art keywords
- itd
- frequency
- channel
- equation
- stereo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009466 transformation Effects 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 238000000844 transformation Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002411 adverse Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000003775 Density Functional Theory Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Description
本願発明は、パラメトリックマルチチャンネル音声符号化に関する。
低ビットレートでのステレオ信号の損失性パラメトリック符号化についての最新の方法は、MPEG-4パート3[1]で規格化されたパラメトリックステレオに基づいている。一般的な考えは、デコーダにサイド情報として送られるステレオ/空間パラメータを抽出した後に2つの入力チャンネルからダウンミックス信号を計算することによって、マルチチャンネルシステムのチャンネル数を削減することである。これらのステレオ/空間パラメータは、一般に、チャンネル間レベル差ILD、チャンネル間位相差IPD、及びチャンネル間コヒーレンスICCから構成されてもよく、これらはサブバンドで計算されてもよく、特定の拡張のための空間像をある程度捉えることができる。
しかしながら、この方法は、例えば、ABマイク設定で録音された音声をダウンミックスまたは再生するためにあるいはバイノーラルにレンダリングされたシーンを合成するために望ましいチャンネル間時間差(ITD(複数))を補償したり合成したりすることはできない。ITD合成は、バイノーラルキュー符号化(BCC)[2]で対処されており、一般に、パラメータILD及びICCが使用されるがITD(複数)は推定され、チャンネル調整は周波数領域で実行される。
時間領域ITD推定量は存在するが、通常ITD推定にとって、時間-周波数変換を適用することが好ましく、これは、相互相関関数のスペクトルフィルタリングを可能にし、また、計算量も効率的でもある。複雑であるという理由から、ステレオ/空間パラメータの抽出や可能ならばチャンネルのダウンミックスにも使用される同じ変換を使用することは、望ましいが、これはBCCアプローチ内でも行われている。
しかしながら、これには欠点がある:ステレオパラメータの正確な推定は、調整されたチャンネル上で実行されるのが理想的である。しかし、チャンネルが、例えば周波数領域内での循環シフトによって、周波数領域で調整されている場合、これは、分析ウインドウ内でのオフセットを引き起こす可能性があり、パラメータ推定に悪影響を及ぼす可能性がある。BCCの場合、これは、主に、ICCの測定に影響を及ぼし、たとえ入力信号が実際には全体的にコヒーレントであっても、ウインドウオフセットの増加は、最終的にICC値をゼロに向けて押し上げる。
このように、本願発明は、空間パラメータ推定に対する悪影響を回避しつつ、チャンネル間時間差を補償することを可能にする、マルチチャンネル音声符号化でのパラメータ計算の概念を提供することを目的とする。
この目的は、同封された独立請求項の主題によって達成される。
本願発明は、マルチチャンネル音声符号化においてパラメトリック音声エンコーダによって使用される周波数領域内の任意の2つのチャンネル間のITD補償についての少なくとも1つの比較パラメータを計算することによって、改善された計算効率が達成される可能性があるという知見に基づいている。少なくとも前記1つの比較パラメータは、空間パラメータ推定での上述の悪影響を軽減するために、パラメトリックエンコーダによって使用されてもよい。
実施の形態は、少なくとも1つのダウンミックス信号と追加のステレオまたは空間パラメータによって、ステレオまたは一般的な空間コンテンツを表現することを目的とするパラメトリック音声エンコーダを備えていてもよい。これらステレオ/空間パラメータには、残りのステレオ/空間パラメータを計算する前に、周波数領域で推定され補償されたITD(複数)が含まれてもよい。この手順では、他のステレオ/空間パラメータに偏りが生じる可能性があり、そうでなければ、コストがかかる方法で解決しなければならない問題は、周波数-時間変換を再計算することになる。前述の実施の形態では、この問題は、むしろ、ITDの値及び基本的な変換の特定のデータを使用できる計算量の少ない補正スキームを適用することによって、むしろ軽減できるかもしれない。
実施の形態は、重み付けられた、ミッド/サイド変換アプローチに基づいていてもよく、ステレオ/空間パラメータIPD、ITD、ならびに、2つのゲイン係数を用いてもよく、周波数領域で動作してもよい、非可逆パラメトリック音声エンコーダに関する。他の実施形態では、異なる変換を用いてもよく、適宜異なる空間パラメータを用いてもよい。
実施の形態では、パラメトリック音声エンコーダは、周波数領域内のITD(複数)の補償及び合成の両方が可能であってもよい。それは、前述のウインドウオフセットの悪影響を軽減する計算効率の高いゲイン補正スキームを特徴としていてもよい。また、BCCコーダについての補正スキームも、提案されている。
本願発明の有利な実施例は、従属項の主題である。本願発明の好ましい実施の形態は、図面に関して以下に説明される。
図1は、マルチチャンネル音声信号用の比較装置100を示す。図示の通り、それは、一対のステレオチャンネルについての音声信号、すなわち、左音声チャンネル信号l(τ)及び右音声チャンネル信号r(τ)についての入力を備えていてもよい。他の実施の形態は、もちろん、音源の空間特性を捕捉するために複数のチャンネルを備えていてもよい。
時間領域音声信号l(τ)、r(τ)を周波数領域に変換する前に、同一の重複するウインドウ関数11、21、w(τ)は、左、及び右入力チャンネル信号l(τ)、r(τ)にそれぞれ適用されてもよい。さらに、実施の形態では、一定量のゼロパディング(zero padding)が、周波数領域内でのシフトを可能にするために加えられてもよい。その後、ウインドウ処理された音声信号は、対応する離散フーリエ変換(DFT)ブロック12、22に提供されて時間-周波数変換を実行されてもよい。これらは、一対のチャンネルの音声信号の周波数変換として時間-周波数ビンLt,k及びRt,k、k=0,・・・,k-1を生じさせてもよい。
前記周波数変換Lt,k及びRt,kは、ITD検出及び補償ブロック20に提供されてもよい。後者は、前記分析ウインドウw(τ)内の一対のチャンネルの音声信号の周波数変換Lt,k及びRt,kを用いて、一対のチャンネルについての音声信号間のITDを表すITDパラメータ、ここでは、ITDτを導出するように構成されていてもよい。他の実施の形態では、時間領域内のDFTブロックの前に決定されてもよいITDパラメータを導出するために異なるアプローチを使用してもよい。
ITDを計算するためのITDパラメータの導出は、可能な限り重み付けられた、自己相関、または相互相関関数の計算を含んでいてもよい。従来は、これは、逆離散フーリエ変換(IDFT)を項(Lt,kR*
t,kωt,k)kに適用することにより、時間-周波数ビンLt,k、及びRt,kから計算することができる。
測定されたITDを補償する適切な方法は、時間領域でチャンネル調整を実行し、ITD補償された時間周波数ビンを得るためにシフトされたチャンネル[S]に再度同じ時間-周波数変換を適用することである。しかしながら、複雑さを省くために、この手順は、周波数領域の循環シフトを実行することによって近似されてもよい。同様に、ITD補償は、周波数領域におけるITD検出及び補償ブロック20によって、例えば、循環シフトブロック13及び23のそれぞれ循環シフトを実行することによって、実行されてもよく、その結果、以下のようになる。
及び
ここで、ITDtは、フレームtに対するITDをサンプル単位で表すことができる。
及び
ここで、ITDtは、フレームtに対するITDをサンプル単位で表すことができる。
実施の形態では、ITDt/2サンプルによって、これは遅延チャンネルを進めてもよく、または、遅延チャンネルを遅らせてもよい。しかしながら、別の実施の形態では、遅れが重要である場合、システムの遅れを増加させないITDtサンプルだけ遅延チャンネルを進めることは有益であるかもしれない。
その結果、ITD検出及び補償ブロック20は、ITDパラメータITDtを用いて周波数領域内の一対のチャンネルについてのITDを循環シフト[複数]によって補償して、一対のITD補償された周波数変換Lt,k,comp、Rt,k,compをその出力で生じさせてもよい。さらに、ITD検出及び補償ブロック20は、例えば、パラメトリックエンコーダによる送信のために、導出されたITDパラメータ、すなわちITDtを出力してもよい。
図1に示すように、比較及び空間パラメータ計算ブロック30は、ITDパラメータITDt、及び一対のITD補償周波数変換Lt,k,comp、Rt,k,compをその入力信号として受信してもよい。比較及び空間パラメータ計算ブロック30は、入力信号の一部または全部を使用して、位相間差分IPD等のマルチチャンネル音声信号のステレオ/空間パラメータを抽出してもよい。
さらに、比較及び空間パラメータ計算ブロック30は、ITDパラメータITDt、及び一対のITD補償周波数変換Lt,k,comp,Rt,k,compに基づいて、少なくとも1つの比較パラメータ、ここでは2つのゲイン係数gt,b及びrt,b,corrをパラメトリックエンコーダのために生成してもよい。他の実施の形態では、少なくとも1つの比較パラメータを生成するために、周波数変換Lt,k、Rt,k、および/または、比較及び空間パラメータ計算ブロック30で抽出された、空間/ステレオパラメータを追加的にまたは代替的に使用してもよい。
少なくとも1つの比較パラメータは、パラメトリックエンコーダの空間/ステレオパラメータ推定での分析ウインドウw(τ)での前述のオフセットの悪影響を軽減する計算効率の良い補正スキームの一部として役立てることが可能であり、前記オフセットは、ITD検出及び補償ブロック20のDFT領域内の循環シフトによってチャンネルが調整されることによって引き起こされる。実施の形態では、少なくとも1つの比較パラメータは、デコーダで一対のチャンネルの音声信号を復元するために、例えば、ダウンミックス信号から計算されてもよい。
図2は、図1の比較装置100が、ITDパラメータITDt、一対のITD補償周波数変換Lt,k,comp,Rt,k,comp、及び比較パラメータrt,b,corr及びgt,bを提供するために使用されてもよいステレオ音声信号のためのこのようなパラメトリックエンコーダ200の実施の形態を示す。
パラメトリックエンコーダ200は、ITD補償周波数変換Lt,k,comp、Rt,k,compを入力として使用して、左右の入力チャンネル信号l(τ)、r(τ)についてダウンミックスブロック40でダウンミックス信号DMXt,kを生成してもよい。他の実施の形態では、周波数変換Lt,k、Rt,kを追加的にまたは代替的に使用して、ダウンミックス信号DMXt,kを生成してもよい。
パラメトリックエンコーダ200は、比較及び空間パラメータ計算ブロック30においてフレームベースで、ステレオパラメータ、例えば、IPD等、を計算してもよい。他の実施の形態では、異なるまたはさらなるステレオ/空間パラメータを決定してもよい。図2のパラメトリックエンコーダ200の実施の形態の符号化手順は、以下に詳細に記述された、以下のステップに大まかに従ってもよい。
1.ウインドウにおけるウインドウ処理されたDFTとDFTブロック11、12、21、22とを使用する、入力信号の時間-周波数変換
2.ITD検出及び補償ブロック20の周波数領域内のITD推定及び補償
3.比較及び空間パラメータ計算ブロック30のステレオパラメータ抽出及び比較パラメータ計算
4.ダウンミックスブロック40のダウンミキシング
5.IDFTブロック50における周波数-時間変換に続くウインドウ処理及びオーバーラップの追加
1.ウインドウにおけるウインドウ処理されたDFTとDFTブロック11、12、21、22とを使用する、入力信号の時間-周波数変換
2.ITD検出及び補償ブロック20の周波数領域内のITD推定及び補償
3.比較及び空間パラメータ計算ブロック30のステレオパラメータ抽出及び比較パラメータ計算
4.ダウンミックスブロック40のダウンミキシング
5.IDFTブロック50における周波数-時間変換に続くウインドウ処理及びオーバーラップの追加
図2のパラメトリック音声エンコーダ200の実施の形態は、ITD補償周波数変換Lt,k,comp、Rt,k,compならびにITDを入力として使用して、周波数領域内の入力チャンネルの重み付けられたミッド/サイド変換に基づいていてもよい。それは、さらに、IPDなどの、ステレオ/空間パラメータ、ならびに、ステレオ画像をキャプチャする2つのゲイン係数をさらに計算してもよい。それは、前述のウインドウオフセットの悪影響を軽減するかもしれない。
比較及び空間パラメータ計算ブロック30における空間パラメータ抽出については、ITD補償された時間-周波数変換ビンLt,k,comp及びRt,k,compは、サブバンド内にグループ化されてもよく、各サブバンドについては、位相間差分IPD及び2つのゲイン係数を計算してもよい。Ibは、サブバンドbの周波数ビンのインデックスを意味するとする。そのとき、IPDは、
のように計算されてもよい。
のように計算されてもよい。
前述のゲイン係数のうちの第1のゲイン係数gt,bは、式(6)のミッド信号変換Mtからのサイド信号変換Stを帯域別予測する場合の最適予測ゲインとみなされてもよく、
式(7)で与えられる式(6)の予測残差ρt,kのエネルギー
は、最小である。この第1のゲイン係数は、サイドゲインと呼ばれてもよい。
第2のゲイン係数rt,bは、式(8)によって与えられたミッド信号変換Mt,kのエネルギーに対する予測残差ρt,kのエネルギー比率を示し、
残差ゲインと呼ばれてもよい。残差ゲインrt,bは、図3のデコーダの実施の形態としてのデコーダにおいて使用され、ミッド/サイド変換の予測残差ρt,kについての適切な置換を形成してもよい。
図2に示されたエンコーダの実施の形態では、比較及び空間パラメータ計算ブロック30において、両方のゲイン係数gt,b及びrt,bは、式(9)で与えられたITD補償周波数変換Lt,k,comp及びRt,k,compのエネルギーEL,t,b、及びER,t,bを使用して、比較パラメータとして計算されてもよい。
そして、それらの内積の絶対値は、式(10)で与えられる。
前記エネルギーEL,t,b及びER,t,b、及び内積XL/R,t,bに基づいて、サイドゲイン係数gt,bは、式(11)を用いて計算することができる。
さらに、残差ゲイン係数rt,bは、前記エネルギーEL,t,b及びER,t,b、ならびに内積XL/R,t,b、及びサイドゲイン係数gt,bに基づいて、式(12)を用いて計算することができる。
他の実施の形態では、他のアプローチおよび/または式が、サイドゲイン係数gt,b及び残差ゲイン係数rt,bおよび/または異なる比較パラメータを適切に計算するために使用されてもよい。
前述したように、周波数領域のITD補償は、一般的には、複雑さを軽減するが、さらなる対策がなければ、欠点を生じる。理想的には、ABマイクロフォンを設置して録音されたクリーンな無響音のスピーチに対して、左チャネル信号l(τ)は、右チャンネルr(τ)の(遅延dによる)実質的な遅延と(ゲインcによる)スケーリングされたバージョンになる。この状況は、以下の式(13)によって表すことができる。
ウインドウ処理されていない入力チャンネル音声信号l(τ)及びr(τ)の適切なITD補償の後に、サイド利得係数gt,bの推定は、式(14)で与えられ、
これとともに、消失する残差ゲイン係数rt,bは、
として与えられる。
しかしながら、図2の実施の形態のようにITD検出及び補償ブロック20が、それぞれ循環シフトブロック13及び23を用いて周波数領域内でチャンネル調整を実行する場合、対応するDFT分析ウインドウw(τ)も、同様に循環する。このように、周波数領域でITD(複数)を補償した後に、右チャンネル用のITD補償周波数変換Rt,k,compは、
のDFTによって、時間-周波数ビンの形式で決定されてもよいのに対し、左チャンネル用のITD補償周波数変換Lt,k,compは、
のDFTとして、時間-周波数ビンの形式で決定されてもよい。
ここで、wは、DFT分析ウインドウ関数である。
ここで、wは、DFT分析ウインドウ関数である。
このような周波数領域のチャンネル調整は、主に、残差予測ゲイン係数rt,bに影響を与え、ITDtの増加とともにより大きくなることが観測されている。さらなる対策がなければ、周波数領域でのチャンネル調整は、このように、図3に示された、追加のアンビエンスをデコーダでの出力音声信号に加える。特に符号化される音声信号がクリーンなスピーチを含む場合には、人工的なアンビエンスがスピーチの明瞭性を損なうので、このような追加のアンビエンスは、望ましくない。
従って、上述の効果は、更なる比較パラメータを使用して、ノンゼロITD(複数)が存在するときには、(予測)残差ゲイン係数rt,bを補正することによって緩和される可能性がある。
実施の形態では、サイドゲイン係数gt,b及び残差ゲイン係数rt,bを除くさらなる比較パラメータは、ITDパラメータITDt及び式(20)で与えられた分析ウインドウ関数wの自己相関関数WX(n)と等しいまたは近似関数を使用して、比較及び空間パラメータ計算ブロック30における期待された残差信号e(τ)に基づいて計算されてもよい。
それゆえに、さらなる実施の形態は、ウインドウ処理されたDFTと、式(3)に従ったパラメータIPD[のサブセット]、式(11)に従ったサイドゲインgt,b、式(12)に従った残差ゲインrt,b、及びITD(複数)とを使用したパラメトリックオーディオ符号化に関連し、残差ゲインrt,bは、式(25)に従って調整される。
音声信号r(τ)については、時間的平坦性の仮定に違反することが多く、これは典型的には、残差ゲインrt,bの平均を増加させる(上述の表1と比較して表2を参照されたい)。従って、式(25)に従った残差ゲイン調整または補正の方法は、かなり保守的であると考えられるかもしれない。しかしながら、それでも、クリーンなスピーチ記録のために望ましくないアンビエンスの大部分を取り除けるかもしれない。
BCCについては、[2]に記載されているように、サブバンドでチャンネル間コヒーレンスICCを推定する際にも同様の問題が生じる可能性がある。実施の形態では、対応するICCt,bは、式(9)のエネルギーEL,t,b及びER,t,b及び式(10)の内積を用いる式(26)によって推定されてもよい。
定義上、ICCは、ITD(複数)を補償した後に測定される。しかしながら、マッチしていないウインドウ関数wは、ICC測定を偏らせるかもしれない。式(13)によって示された上述のクリーンな無反響音声の設定では、適切に調整された入力チャンネルで計算された場合、ICCは1となるであろう。
このように、更なる実施の形態は、ウインドウ処理されたDFTおよび式(3)に従ったパラメータIPD[のサブセット]、式(26)に従ったICC、及びITC(複数)を用いるパラメトリック音声コーディングに関し、ICCは式(28)に従って調整される。
図2に示されたパラメトリックエンコーダ200の実施の形態では、ダウンミックスブロック40は、周波数領域内で式(29)によって与えられるダウンミックス信号DMXt,kを計算することによって、マルチチャンネル、ここではステレオ、システムのチャンネル数を減少させてもよい。実施の形態では、ダウンミックス信号DMXt,kは、ITC補償周波数変換Lt,k,comp及びRt,k,compを用いて計算してもよい。
式(29)では、βは、ステレオ/空間パラメータから計算された実際の絶対位相調整パラメータであってもよい。他の実施の形態では、図2に示された符号化スキームは、また、他のどのようなダウンミックス方法で動作してもよい。他の実施の形態は、周波数変換Lt,k、及びRt,k、及び任意の更なるパラメータを用いてダウンミックス信号DMXt,kを決定してもよい。
図2の実施の形態のエンコーダでは、逆離散フーリエ変換(IDFT)ブロック50は、ダウンミックスブロック40から周波数領域ダウンミックス信号DMXt,kを受信してもよい。IDFTブロック50は、周波数領域から時間領域まで、ダウンミックス時間-周波数ビンDMXt,k、k=0,・・・,k-1を変換して時間領域ダウンミックス信号dmx(τ)を生じさせてもよい。実施の形態では、合成ウインドウws(τ)を適用して、時間領域ダウンミックス信号dmx(τ)に加えてもよい。
さらに、図2の実施の形態のように、コアエンコーダ60は、MPEG-4パート3[1]、または、必要に応じて他の任意の適当な音声符号化アルゴリズムにも従って、単独チャンネル音声信号をエンコードするためにドメインダウンミックス信号dmx(τ)を受信してもよい。図2の実施の形態では、コアエンコードされた時間領域ダウンミックス信号dmx(τ)は、ITDパラメータITDt、サイドゲインgt,b及び補正された残差ゲインrt,b,corrと組み合わせてデコーダへの送信のために適切に処理され、および/またはエンコードされてもよい。
図3は、マルチチャンネルデコーダの実施形態を示す。デコーダは、時間領域内のモノラル/ダウンミックス入力信号dmx(τ)と、フレームベースのサイド情報としての比較および/または空間パラメータからなる複合信号を受信してもよい。図3に示すデコーダは、以下に詳細に記述される、以下のステップを実行してもよい。
1.DFTブロック80のウインドウ処理されたDFT(複数)を用いる時間周波数変換
2.アップミキシング及び空間復元ブロック90における周波数領域の消失残差の予測
3.アップミキシング及び空間復元ブロック90における周波数領域でのアップミキシング
4.ITD合成ブロック100での周波数領域のITD合成
5.IDFTブロック112、122、及びウインドウブロック111、121での周波数-時間領域変換、ウインドウ処理及び重複の追加
1.DFTブロック80のウインドウ処理されたDFT(複数)を用いる時間周波数変換
2.アップミキシング及び空間復元ブロック90における周波数領域の消失残差の予測
3.アップミキシング及び空間復元ブロック90における周波数領域でのアップミキシング
4.ITD合成ブロック100での周波数領域のITD合成
5.IDFTブロック112、122、及びウインドウブロック111、121での周波数-時間領域変換、ウインドウ処理及び重複の追加
モノラル/ダウンミックス信号入力信号dmx(τ)の時間-周波数変換は、図2のエンコーダの入力音声信号に関しては、類似した方法で行われてもよい。特定の実施の形態では、適切な量のゼロパディングが、周波数領域内のITD復元に対して加えられてもよい。この手順は、時間-周波数ビンDMXt,k、k=0,・・・,k-1の形式で、ダウンミックス信号の周波数変換を生じさせてもよい。
上述の実施の形態は、単に、本発明の原則を説明したにすぎない。ここに記述された配置及び詳細の修正及び変更は、他の当業者にとって明らかであると理解される。したがって、差し迫った特許請求の範囲のみに限定され、そして、明細書中の実施の形態の記述及び説明によって表された特定の詳細によっては制限されないことを意味する。
参考文献
[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2
[2] Juergen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Naples, Italy, October 5-8, 2004
[3] Christoph Tourney and Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006
[4] Christof Faller and Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2
[2] Juergen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Naples, Italy, October 5-8, 2004
[3] Christoph Tourney and Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006
[4] Christof Faller and Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18179373.8A EP3588495A1 (en) | 2018-06-22 | 2018-06-22 | Multichannel audio coding |
EP18179373.8 | 2018-06-22 | ||
JP2020571588A JP7174081B2 (ja) | 2018-06-22 | 2019-06-19 | マルチチャンネル音声符号化 |
PCT/EP2019/066228 WO2019243434A1 (en) | 2018-06-22 | 2019-06-19 | Multichannel audio coding |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020571588A Division JP7174081B2 (ja) | 2018-06-22 | 2019-06-19 | マルチチャンネル音声符号化 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023017913A JP2023017913A (ja) | 2023-02-07 |
JP2023017913A5 true JP2023017913A5 (ja) | 2024-04-17 |
Family
ID=62750879
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020571588A Active JP7174081B2 (ja) | 2018-06-22 | 2019-06-19 | マルチチャンネル音声符号化 |
JP2022177073A Pending JP2023017913A (ja) | 2018-06-22 | 2022-11-04 | マルチチャンネル音声符号化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020571588A Active JP7174081B2 (ja) | 2018-06-22 | 2019-06-19 | マルチチャンネル音声符号化 |
Country Status (14)
Country | Link |
---|---|
US (2) | US11978459B2 (ja) |
EP (2) | EP3588495A1 (ja) |
JP (2) | JP7174081B2 (ja) |
KR (1) | KR102670634B1 (ja) |
CN (2) | CN112424861B (ja) |
AR (1) | AR115600A1 (ja) |
AU (1) | AU2019291054B2 (ja) |
BR (1) | BR112020025552A2 (ja) |
CA (1) | CA3103875C (ja) |
MX (1) | MX2020013856A (ja) |
SG (1) | SG11202012655QA (ja) |
TW (1) | TWI726337B (ja) |
WO (1) | WO2019243434A1 (ja) |
ZA (1) | ZA202100230B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
WO2021181473A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電信電話株式会社 | 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体 |
KR20230084251A (ko) * | 2020-10-09 | 2023-06-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 파라미터 변환을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램 |
US11818353B2 (en) * | 2021-05-13 | 2023-11-14 | Qualcomm Incorporated | Reduced complexity transforms for high bit-depth video coding |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5789689A (en) * | 1997-01-17 | 1998-08-04 | Doidic; Michel | Tube modeling programmable digital guitar amplification system |
JP2005533271A (ja) * | 2002-07-16 | 2005-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
BRPI0608753B1 (pt) | 2005-03-30 | 2019-12-24 | Koninl Philips Electronics Nv | codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
CN101556799B (zh) * | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN103403800B (zh) * | 2011-02-02 | 2015-06-24 | 瑞典爱立信有限公司 | 确定多声道音频信号的声道间时间差 |
WO2012105886A1 (en) * | 2011-02-03 | 2012-08-09 | Telefonaktiebolaget L M Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
EP2702776B1 (en) * | 2012-02-17 | 2015-09-23 | Huawei Technologies Co., Ltd. | Parametric encoder for encoding a multi-channel audio signal |
WO2013149671A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
JP6113282B2 (ja) * | 2012-08-10 | 2017-04-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | パラメトリックオーディオオブジェクトコーディングのための残差コンセプトを採用するエンコーダ、デコーダ、システム、および方法 |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
CN105612766B (zh) * | 2013-07-22 | 2018-07-27 | 弗劳恩霍夫应用研究促进协会 | 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质 |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
CN110634494B (zh) * | 2013-09-12 | 2023-09-01 | 杜比国际公司 | 多声道音频内容的编码 |
EP3067889A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
EP3067887A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CA2987808C (en) | 2016-01-22 | 2020-03-10 | Guillaume Fuchs | Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
EP3208800A1 (en) * | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
WO2017153466A1 (en) | 2016-03-09 | 2017-09-14 | Telefonaktiebolaget Lm Ericsson (Publ) | A method and apparatus for increasing stability of an inter-channel time difference parameter |
ES2938244T3 (es) * | 2016-11-08 | 2023-04-05 | Fraunhofer Ges Forschung | Aparato y procedimiento para codificar o decodificar una señal multicanal usando una ganancia lateral y una ganancia residual |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
-
2018
- 2018-06-22 EP EP18179373.8A patent/EP3588495A1/en not_active Withdrawn
-
2019
- 2019-06-19 MX MX2020013856A patent/MX2020013856A/es unknown
- 2019-06-19 SG SG11202012655QA patent/SG11202012655QA/en unknown
- 2019-06-19 CA CA3103875A patent/CA3103875C/en active Active
- 2019-06-19 AU AU2019291054A patent/AU2019291054B2/en active Active
- 2019-06-19 CN CN201980041829.7A patent/CN112424861B/zh active Active
- 2019-06-19 EP EP19732348.8A patent/EP3811357A1/en active Pending
- 2019-06-19 KR KR1020217001751A patent/KR102670634B1/ko active IP Right Grant
- 2019-06-19 WO PCT/EP2019/066228 patent/WO2019243434A1/en active Application Filing
- 2019-06-19 JP JP2020571588A patent/JP7174081B2/ja active Active
- 2019-06-19 BR BR112020025552-1A patent/BR112020025552A2/pt unknown
- 2019-06-19 CN CN202410396371.XA patent/CN118280375A/zh active Pending
- 2019-06-21 TW TW108121651A patent/TWI726337B/zh active
- 2019-06-21 AR ARP190101722A patent/AR115600A1/es active IP Right Grant
-
2020
- 2020-12-15 US US17/122,403 patent/US11978459B2/en active Active
-
2021
- 2021-01-13 ZA ZA2021/00230A patent/ZA202100230B/en unknown
-
2022
- 2022-11-04 JP JP2022177073A patent/JP2023017913A/ja active Pending
-
2023
- 2023-09-08 US US18/464,030 patent/US20240112685A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10136237B2 (en) | Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder | |
CN107710323B (zh) | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 | |
JP2023017913A5 (ja) | ||
JP7174081B2 (ja) | マルチチャンネル音声符号化 | |
CA2589623C (en) | Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering | |
JP4804532B2 (ja) | 無相関信号の包絡線整形 | |
JP5255702B2 (ja) | 多チャネルオーディオ信号のバイノーラル・レンダリング | |
KR20190072647A (ko) | 위상 보상을 이용하여 멀티 채널 신호를 다운믹싱 또는 업믹싱하는 장치 및 방법 | |
WO2010097748A1 (en) | Parametric stereo encoding and decoding | |
EP3405950B1 (en) | Stereo audio coding with ild-based normalisation prior to mid/side decision | |
MX2014010098A (es) | Control de coherencia de fase para señales armonicas en codecs de audio perceptual. | |
Lang et al. | Novel low complexity coherence estimation and synthesis algorithms for parametric stereo coding | |
RU2778832C2 (ru) | Многоканальное кодирование аудио | |
AU2012205170A1 (en) | Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering |