JP5947971B2 - マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ - Google Patents

マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ Download PDF

Info

Publication number
JP5947971B2
JP5947971B2 JP2015503766A JP2015503766A JP5947971B2 JP 5947971 B2 JP5947971 B2 JP 5947971B2 JP 2015503766 A JP2015503766 A JP 2015503766A JP 2015503766 A JP2015503766 A JP 2015503766A JP 5947971 B2 JP5947971 B2 JP 5947971B2
Authority
JP
Japan
Prior art keywords
audio
channel
signal
parameter
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015503766A
Other languages
English (en)
Other versions
JP2015518176A (ja
Inventor
ヴィレット,ダヴィド
ラン,ユエ
シュイ,ジエンフォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2015518176A publication Critical patent/JP2015518176A/ja
Application granted granted Critical
Publication of JP5947971B2 publication Critical patent/JP5947971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化に関し、特に、パラメトリック空間オーディオ符号化としても知られるパラメトリックマルチチャネル又はステレオオーディオ符号化に関する。
例えば、C. Faller及びF. Baumgarte,“Efficient representation of spatial audio using perceptual parametrization”,Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust.,2001年10月,199〜202頁において記載されるパラメトリックステレオ又はマルチチャネルオーディオ符号化は、ダウンミックス、通常はモノラル又はステレオのオーディオ信号から、ダウンミックスオーディオ信号よりも多いチャネルを有するマルチチャネルオーディオ信号を同期させるために、空間キューを使用する。通常、ダウンミックスオーディオ信号は、マルチチャネルオーディオ信号の、例えば、ステレオオーディオ信号の複数のオーディオチャネル信号の重ね合わせに由来する。そのような、より少ないチャネルは、波形符号化され、そして、原の信号チャネル間の関係に関するサイド情報、すなわち、空間キューは、符号化パラメータとして、符号化されたオーディオ信号に加えられる。デコーダは、復号された波形符号化されたオーディオチャネルに基づき元の数のオーディオチャネルを再生させるために、このサイド情報を使用する。
基本のパラメトリックステレオコーダは、モノラルのダウンミックスオーディオ信号からステレオ信号を生成するのに必要とされるキューとして、チャネル間レベル差(ILD又はCLD)を使用してよい。より高度なコーダは、オーディオチャネル信号、すなわち、オーディオチャネルの間の類似度を表すことができるチャネル間コヒーレンス(ICC)を更に使用してよい。加えて、頭部伝達関数(HRTF)フィルタリングを用いることによるサラウンドレンダリングに基づき、例えば、3Dオーディオ又はヘッドホンのために、両耳性ステレオ信号を符号化する場合に、両耳間時間差(ITD)が、チャネル間の遅延差を再現する役割を担ってよい。
両耳間時間差(ITD)は、図8を見ても分かるように、2つの耳803、805の間の、音響801の到着時間の差である。音響の局在性にとって、それがキューを供給する場合に、(頭部809に対する)音源801の入射の方向807又は角度θを特定することは重要である。信号が一方の側から耳803、805に届く場合に、その信号は、遠位の耳803(反対側)に達するためのより長い経路811と、近位の耳805(同側)に届くためのより短い経路813とを有する。このような経路長さの差は、耳803、805への音響の到達の間の時間差815をもたらす。時間差815は検出され、音源801の方向807を特定するプロセスを助ける。
図8は、ITD(Δt又は時間差815として表される。)の一例を与える。2つの耳803、805への到達時間の差は、音響波形の遅延によって表される。左耳803への波形が最初にやってくる場合に、ITD815は正であり、そうでない場合は、それは負である。音源801が直接に聴取者の前にある場合は、波形は同時に両方の耳803、805に届き、ITD815はよって0である。
ITDキューは、ステレオレコーディングの大部分にとって重要である。例えば、頭部伝達関数(HRTF)プロセッシングに基づき、例えば、ダミーヘッド又は両耳合成を用いて、実際のレコーディングから取得され得る両耳性オーディオ信号は、音楽レコーディング又は電話会議のために使用される。従って、それは、低ビットレートのパラメトリックステレオコーデックにとって、そして特に、対話アプリケーションを対象とするコーデックにとって、極めて重要なパラメータである。低計算量の且つ安定したITD推定アルゴリズムが、低ビットレートパラメトリックステレオコーデックに必要とされる。更に、例えば、チャネル間レベル差(CLD又はILD)及びチャネル間コヒーレンス(ICC)のような他のパラメータに加えて、ITDパラメータの使用は、ビットレートオーバヘッドを増大させ得る。このような特定の超低ビットレートシナリオのために、唯1つの全バンドITDパラメータが送信され得る。唯1つの全バンドITDが推定される場合に、安定性に対する制約は達成するのがより一層困難になる。
パラメータが相互相関、相互スペクトル又はエネルギを用いることによって推定される場合に、推定関数の急激な変化は、パラメータの不安定な推定の原因となり得る。推定されるパラメータは、フレームごとに極めて速く且つ極めて頻繁に変化する恐れがあり、それは、通常は望ましくない。これは、フレームのサイズが小さく、相互相関の信頼できない推定器をもたらし得る場合に、当てはまる。不安定性の問題は、たとえ実際の発生源がその位置を変えないとしても、左側から右側へ及び/又はその逆にジャンプしているように見える発生源として認知される。不安定性の問題はまた、たとえ発生源の位置が左側から右側へジャンプしないとしても、聴取者によって検出され得る。時間にわたる発生源の位置のわずかな変化は、容易に聴取者によって認知され、その場合に、実際の発生源が固定されるときは回避されるべきである。
例えば、両耳間時間差(ITD)は、パラメトリックステレオコーデックにとって重要なパラメータである。ITDが相互相関関数の計算に基づき周波数領域において推定される場合は、推定されるITDは、たとえ音源の位置が固定され且つ実際のITDが安定しているとしても、通常、連続的なフレームにわたって安定しない。安定性の問題は、相互相関をITD推定に用いる前に、平滑化関数を相互相関に適用することによって、解消され得る。しかし、相互相関を平滑化する場合に、実際のITDの急激な変化は追随され得ない。その上、安定した平滑化は、音源又は聴取の位置が互いに対して動く場合にITDの変化に素早く追随する追跡動作を減らす。
他の例は、チャネルレベル差(CLD)推定である。CLDは、パラメトリックステレオコーデックにとって重要なパラメータである。CLDが、夫々のビン又はサブバンドのエネルギの計算に基づき周波数領域において推定される場合は、推定されるCLDは、たとえ音源の位置が固定され且つ実際のレベル差が安定しているとしても、通常、連続的なフレームにわたって安定しない。安定性の問題は、エネルギをCLD推定に用いる前に、平滑化関数をエネルギに適用することによって、解消され得る。しかし、エネルギを平滑化する場合に、実際のCLDの急激な変化は追随され得ず、それにより、音源又は聴取の位置が互いに対して動く場合にCLDの変化に素早く追随する追跡動作を減らす。
ITD又はCLDを安定に保ったままITD又はCLDの変化に素早く追随することを可能にする正確な平滑化係数を見つけることは、特に、相関関数が乏しい分解能、例えば、FFTの周波数分解能を有する場合に、不可能であることが示されている。
C. Faller及びF. Baumgarte,"Efficient representation of spatial audio using perceptual parametrization",Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust.,2001年10月,199〜202頁
本発明の目的は、安定且つ高速なパラメータ推定を提供するマルチチャネルオーディオエンコーダの構想を提供することである。
この目的は、独立請求項の特徴によって達成される。更なる実施形態は、従属請求項、明細書及び図面から明らかである。
本発明は、ITDの場合には相互相関へ、又はCLDの場合にはエネルギへ、強い平滑化及び弱い平滑化(低い平滑化とも呼ばれる。)の両方を適用することにより、一方がITD又はCLDの変化に素早く追随し、他方が連続的なフレームにわたって安定したパラメータ値を提供する2つの異なる符号化パラメータがもたらされるとの認定に基づく。安定性基準のような品質基準に依存するスマート検出プロシージャを使用することによって、結果として得られる符号化パラメータは安定しており且つITD又はCLDの変化に素早く追随する。
相関関係のただ一回の推定は、安定性、すなわち、実際の発生源が動かない場合に時間にわたってITDパラメータの一貫した推定を保つこと、及び反応性、すなわち、実際の発生源が動いている場合又は異なる位置を有する新しい発生源がオーディオシーンに現れる場合に極めて高速に評価関数を変化させることの両方を得るには十分でない。異なる平滑化係数に基づく異なるメモリ効果により同じパラメータの2つの異なる評価関数を有することは、一方の評価の焦点を安定性に、そして他方の評価の焦点を反応性に合わせることを可能にする。選択アルゴリズムは、最良の評価、すなわち、最も信頼できる1つを選択するよう与えられる。本発明の態様は、異なる平滑化係数による同じ評価関数の2つのバージョンに基づく。品質又は信頼性の基準は、長期評価から短期評価へ切り替える決定のために導入される。短期評価及び長期評価の両方から恩恵を受けるために、長期の状態は、メモリ効果を失効させるために短期の状態によって更新される。
本発明を詳細に記載するために、以下の用語、略語及び表記が使用される。
BCC:チャネル間の関係を記述するためのダウンミックス及び両耳キュー(又は空間パラメータ)を用いる両耳キュー符号化(Binaural Cues Coding)、ステレオ又はマルチチャネル信号の符号化。
両耳キュー(Binaural cues):左右の耳口にある信号の間のチャネル間キュー(ITD,ILD,及びICを参照)。
CLD:チャネルレベル差、ILDと同じ。
FFT:DFTの高速実施、高速フーリエ変換(Fast Fourier Transform)を意味する。
HRTF:自由場における発生源から左右の耳口への音響の変換をモデリングする頭部伝達関数(Head-Related Transfer Function)。
IC:両耳間コヒーレンス(Inter-aural Coherence)、すなわち、左右の耳口にある信号の間の類似度。これは、時々、IAC又は両耳間相互相関(Inter-Aural Cross-Correlation)(IACC)とも呼ばれる。
ICC:チャネル間コヒーレンス(Inter-Channel Coherence)、チャネル間相関(Inter-Channel Correlation)。ICと同じであるが、より一般的には、いずれかの信号対(例えば、ラウドスピーカ信号対、耳口信号対、等)の間に定義される。
ICPD:チャネル間位相差(Inter-Channel Phase Difference)。信号対の間の平均位相差。
ICLD:チャネル間レベル差(Inter-Channel Level Difference)。ILDと同じであるが、より一般的には、いずれかの信号対(例えば、ラウドスピーカ信号対、耳口信号対、等)の間に定義される。
ICTD:チャネル間時間差(Inter-Channel Time Difference)。ILDと同じであるが、より一般的には、いずれかの信号対(例えば、ラウドスピーカ信号対、耳口信号対、等)の間に定義される。
ILD:両耳間レベル差(Inter-aural Level Difference)、すなわち、左右の耳口にある信号の間のレベル差。これは、時々、両耳間強度差(Inter-aural Intensity Difference)(IID)とも呼ばれる。
IPD:両耳間位相差(Inter-aural Phase Difference)、すなわち、左右の耳口にある信号の間の位相差。
ITD:両耳間時間差(Inter-aural Time Difference)、すなわち、左右の耳口にある信号の間の時間差。これは、時々、両耳間時間遅延とも呼ばれる。
ICD:チャネル間差(Inter-Channel Difference)。2つのチャネルの間の差、例えば、時間差、位相差、レベル差、又は2つのチャネルの間のコヒーレンスについての総括的な用語。
ミキシング(Mixing):多数のソース信号(例えば、別々に録音された楽器、マルチトラックレコーディング)を前提として、空間オーディオ再生を対象としたステレオ又はマルチチャネルオーディオ信号を生成するプロセスが、ミキシングを意味する。
OCPD:全体的なチャネル位相差(Overall Channel Phase Difference)。2又はそれ以上のオーディオチャネルの共通の位相変化。
空間オーディオ(Spatial audio):適切な再生システムを通じて再生される場合に、聴覚空間イメージを呼び起こすオーディオ信号。
空間キュー(Spatial cues):空間認知に関連したキュー。この用語は、ステレオ又はマルチチャネルオーディオ信号のチャネルの対の間のキューのために使用される(ICTD,ICLD,及びICCを参照)。また、空間パラメータ又は両耳キューとも表される。
第1の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。
第2の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定する方法であって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有する方法において、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定するステップと、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定するステップと
を有する方法に関する。
前記関数の組の強平滑化バージョン、例えば、第1の平滑化パラメータに基づく平滑化は、推定を安定させる。前記関数の組の弱平滑化バージョン、例えば、同時に決定される第2の平滑化パラメータに基づく平滑化は、推定を、推定パラメータ、すなわち、ITD又はCLDの実際の高速な変化に追随させる。前記関数の組の強平滑化バージョンのメモリは、前記関数の組の弱平滑化バージョンによって更新され、それによって、追跡速度及び安定性に関して最適な結果を提供する。どちらの平滑化バージョンを使用すべきかの決定は、前記第1の組及び/又は前記第2の組の符号化パラメータの品質メトリックに基づく。よって、安定且つ高速なパラメータ推定が提供される。
第1の態様に従う又は第2の態様に従う方法の第1の可能な実施形態において、前記関数の組を決定する前記ステップは、
前記第1のオーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
を有し、
前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記第1のオーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される。
相互相関に基づき周波数領域において前記符号化パラメータを推定する場合に、符号化パラメータ推定の安定性は高められる。前記関数の組は、周波数サブバンドについて処理されてよく、それによって、前記符号化パラメータを選択する際の柔軟性を改善し、且つ、周波数サブバンドが全周波数バンドよりもノイズに敏感でないためにノイズに対するロバスト性を改善する。
第1の態様の第1の実施形態に従う又は第2の態様の第1の実施形態に従う方法の第2の可能な実施形態において、周波数サブバンドは、1又は複数の周波数ビンを有する。
前記周波数サブバンドのサイズは、柔軟に調整されてよく、それによって、周波数サブバンドごとに異なる符号化パラメータを使用することを可能にする。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う若しくは第2の態様の上記の実施形態のいずれかに従う方法の第3の可能な実施形態において、前記第1及び第2の組の符号化パラメータは、チャネル間時間差及び/又はチャネル間レベル差を有するチャネル間の差を有する。
チャネル間の差は、マルチチャネルオーディオ信号の第1及び第2のオーディオチャネルの間の差を検出するために空間パラメータとして使用され得る。差は、例えば、両耳間時間差若しくはチャネル間時間差のような到着時間の差、又は両オーディオチャネルのレベルの差であることができる。いずれの差も、符号化パラメータとして使用されるのに適する。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う若しくは第2の態様の上記の実施形態のいずれかに従う方法の第4の可能な実施形態において、品質基準に基づき前記符号化パラメータを決定する前記ステップは、前記品質基準によって使用される安定性パラメータを決定するステップを有する。
前記品質基準は、例えば、安定性パラメータに基づくことができ、それによって、符号化パラメータ推定の安定性を高める。追加的に、又は代替的に、前記品質基準は、ユーザのクオリティ・オブ・エクスペリエンス(QoE)を高めるためにQoE基準に基づくことができる。前記品質基準は、オーディオ符号化を実行する場合にバンド幅を有効に用いるためにバンド幅基準に基づくことができる。
第1の態様の第4の実施形態に従う又は第2の態様の第4の実施形態に従う方法の第5の可能な実施形態において、前記符号化パラメータを決定する前記ステップは、
前記フレームシーケンスに対する前記第2の組の符号化パラメータの連続する値の間の比較に基づき、前記第2の組の符号化パラメータの安定性パラメータを決定するステップと、
前記安定性パラメータに依存して、前記符号化パラメータを決定するステップと
を有する。
安定性パラメータを用いることによって、推定の安定性が改善される。その上、相互相関の又はエネルギの平滑化は、安定性パラメータが安定性の喪失を示すまで小さくされ得るので、推定の速度は上げられる。
第1の態様の第4の実施形態に従う又は第2の態様の第4の実施形態に従う第6の可能な実施形態において、前記安定性パラメータは、前記第2の組の符号化パラメータの標準偏差に少なくも基づく。
前記標準偏差は、計算するのが容易であり、安定性の正確な指標を提供する。標準偏差が小さい場合に、推定は安定しており又は信頼でき、標準偏差が大きい場合に、推定は不安定であり又は信頼できない。
第1の態様の第4の実施形態に従う若しくは第2の態様の第4の実施形態に従う、又は第1の態様の第5の実施形態に従う若しくは第2の態様の第5の実施形態に従う方法の第7の可能な実施形態において、前記安定性パラメータは、前記マルチチャネルオーディオ信号の1つのフレームにわたって又は複数のフレームにわたって決定される。
前記マルチチャネルオーディオ信号の1つのフレームにわたって前記安定性パラメータを決定することは、実施するのが容易であり、計算複雑性が低く、一方、複数のフレームにわたって前記安定性パラメータを決定することは、安定性のための正確な推定を提供する。
第1の態様の第4乃至第7の実施形態のうちのいずれかに従う又は第2の態様の第4乃至第7の実施形態のうちのいずれかに従う方法の第8の可能な実施形態において、前記符号化パラメータを決定する前記ステップは、前記安定性パラメータの閾値の交差に基づき決定される。
前記安定パラメータが前記閾値を下回る場合に、推定は安定しており又は信頼でき、一方、前記安定性パラメータが前記閾値を上回ることは、不安定な又は信頼できない推定を示す。
第1の態様の第8の実施形態に従う又は第2の態様の第8の実施形態に従う方法の第9の可能な実施形態において、当該方法は、前記安定性パラメータが前記閾値を交差する場合に、前記第2の組の符号化パラメータにより前記第1の組の符号化パラメータを更新するステップを更に有する。
前記更新によって、前記第1の組の符号化パラメータの推定は改善され得る。前記安定性パラメータが、安定した推定を示す前記閾値を上回る場合に、長期平滑化が短期平滑化によって更新又は置換されてよく、それによって、安定性を保ちながら推定の速度を上げる。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う又は第2の態様の上記の実施形態のいずれかに従う方法の第10の可能な実施形態において、第1及び第2の平滑化係数に基づく前記関数の組の前記平滑化は、前記第1及び前記第2の平滑化係数に基づく第1の係数を乗じられた前記関数の組並びに前記第1及び前記第2の平滑化係数に基づく第2の係数を乗じられた前記関数の組の第1及び第2の平滑化されたバージョンのメモリ状態の足し算として計算される。
そのような再帰計算は、前記関数の組の前記第1及び第2の平滑化されたバージョンの過去の値を記憶するためにメモリを使用する。再帰的な平滑化は、加算及び乗算の数が少ないほど計算効率がよい。再帰的な平滑化は、唯1つのメモリ状態が関数の過去に平滑化された値を記憶するのに必要とされるのでメモリ効率がよく、前記メモリ状態は夫々の計算ステップにおいて更新される。
第1の態様の第10の実施形態に従う又は第2の態様の第10の実施形態に従う方法の第11の可能な実施形態において、当該方法は、前記安定性パラメータが前記閾値を交差する場合に、前記関数の組の前記第2の平滑化されたバージョンのメモリ状態により前記関数の組の前記第1の平滑化されたバージョンのメモリ状態を更新するステップを更に有する。
前記安定性パラメータに依存して前記関数の組の前記第2の平滑化されたバージョンのメモリ状態により前記関数の組の前記第1の平滑化されたバージョンのメモリ状態を更新することによって、推定の安定性及び速度は改善される。前記安定性パラメータが、安定した推定を示す前記閾値を上回る場合に、長期平滑化、すなわち、前記関数の組の前記第1の平滑化されたバージョンは、短期平滑化、すなわち、前記関数の組の前記第2の平滑化されたバージョンによって更新又は置換されてよく、それによって、安定を保ちながら推定の速度を上げる。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う若しくは第2の態様の上記の実施形態のいずれかに従う方法の第12の可能な実施形態において、前記第1の平滑化係数は、前記第2の平滑化係数よりも高い。
前記第1の平滑化係数は長期推定を可能にし、一方、前記第2の平滑化係数は短期推定を可能にし、それによって、異なる平滑化結果を区別することを可能にする。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う若しくは第2の態様の上記の実施形態のいずれかに従う方法の第13の可能な実施形態において、前記関数の組の前記平滑化は、前記マルチチャネルオーディオ信号の少なくとも2つの連続するフレームに対する。
前記平滑化は、前記マルチチャネルオーディオ信号の2又はそれ以上の連続するフレームが使用される場合に、より正確である。
そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う若しくは第2の態様の上記の実施形態のいずれかに従う方法の第14の可能な実施形態において、前記関数の組の前記平滑化は、前記第2の組の符号化パラメータの正の値と前記第2の組の符号化パラメータの負の値とを区別する。
前記第2の組の符号化パラメータの正及び負の値を区別することによって、推定は、より高い精度を有する。
第1の態様の第14の実施形態に従う又は第2の態様の第14の実施形態に従う方法の第15の可能な実施形態において、前記関数の組の前記平滑化は、多数の周波数ビン又は周波数サブバンドにわたって、前記第2の組の符号化パラメータの正の値の第1の数と、前記第2の組の符号化パラメータの負の値の第2の数とを数えることを有する。
前記正及び負の値を数えることは、前記第2の組の符号化パラメータをその符号に依存して区別することを可能にする。推定速度は、その区別によって高められる。
第3の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第1の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。
前記第4の態様に従って、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、夫々のオーディオチャネル信号がオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、関数の組を決定する第1の決定部と、
前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
前記第1の組の符号化パラメータ及び/又は前記第2の組の符号化パラメータに対する品質基準に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
を有するマルチチャネルオーディオエンコーダに関する。
そのようなマルチチャネルオーディオエンコーダは、速度及び安定性に関して最適な符号化を提供する。前記関数の組の強平滑化バージョン、例えば、第1の平滑化パラメータに基づく平滑化は、推定を安定させる。前記関数の組の弱平滑化バージョン、例えば、同時に決定される第2の平滑化パラメータに基づく平滑化は、推定を、推定パラメータ、すなわち、ITD又はCLDの実際の高速な変化に追随させる。前記関数の組の強平滑化バージョンのメモリは、前記関数の組の弱平滑化バージョンによって更新され、それによって、追跡速度及び安定性に関して最適な結果を提供する。どちらの平滑化バージョンを使用すべきかの決定は、前記第1の組及び/又は前記第2の組の符号化パラメータの品質メトリックに基づく。よって、安定且つ高速なパラメータ推定が提供される。
第5の態様に従って、本発明は、コンピュータで実行される場合に、該コンピュータに、そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う又は第2の態様の上記の実施形態のいずれかに従う方法を実行させるコンピュータプログラムに関する。
第6の態様に従って、本発明は、コンピュータで実行される場合に、該コンピュータに、そのようなものとして第1の態様に従う若しくはそのようなものとして第2の態様に従う、又は第1の態様の上記の実施形態のいずれかに従う又は第2の態様の上記の実施形態のいずれかに従う方法を実行させるコンピュータプログラムを含む、ストレージ、特にコンパクトディスクのような機械可読媒体に関する。
上述された本発明の態様は、パラメトリック空間オーディオエンコーダにおけるITD推定のために使用され得る。パラメトリック空間オーディオエンコーダ又はパラメトリックマルチチャネルオーディオエンコーダにおいて、空間パラメータは、ビットストリームにおいて多重化される前に、抽出され量子化される。パラメータ(例えば、ITD)は、相互相関に基づき周波数領域において推定されてよい。推定をより安定させるために、周波数領域の相互相関は、パラメータ(ITD)推定のために強平滑化される。パラメータの実際の高速な変化に追随するために、周波数領域の相互相関の弱平滑化バージョンがまた、メモリ効果を減じることによって相互相関のほぼ瞬時の推定に基づき同時に計算される。
推定関数の弱平滑化バージョンは、パラメータ(ITD)を推定するために、且つ、パラメータの状態の変化時に相互相関の強平滑化バージョンの相互相関メモリを更新するために、使用される。弱平滑化バージョンを使用するとの決定は、推定されるパラメータの品質メトリックに基づく。パラメータは、推定関数の2つのバージョンに基づき推定される。最良の推定が保たれ、弱平滑化された関数が選択される場合は、それは強平滑化バージョンを更新するために使用される。
例えば、ITD推定の場合に、ITD_inst(ITDの弱平滑化バージョン)は、周波数領域の相互相関の弱平滑化バージョンに基づき計算される。複数の周波数ビン/サブバンドにわたるITD_instの標準偏差が所定の閾値よりも低い場合は、強平滑化された相互相関のメモリは弱平滑化バージョンからの1つによって更新され、弱平滑化された関数により推定されるITDが選択される。
単純な品質メトリックは、弱平滑化されたバージョンのITD推定の標準偏差に基づく。当然、他の品質メトリックが同様に使用され得る。例えば、位置変化の可能性は、全ての利用可能な空間情報(CLD,ITD,ICC)に基づき計算され得る。一例として、ITDの高速な変化とCLDの高速な変化との間の相関関係は、空間イメージの変化の高い可能性を表す。
ここで記載される方法は、デジタル信号プロセッサ(DSP)において、マイクロコントローラにおいて又はいずれかの他のプロセッサにおいてソフトウェアとして、あるいは、特定用途向け集積回路(ASIC)内でハードウェアとして、実施されてよい。
本発明は、デジタル電子回路において、又はコンピュータハードウェア、ファームウェア、ソフトウェアにおいて、若しくはそれらの組み合わせにおいて、実施され得る。
本発明の更なる実施形態は、以下の図面に関して記載される。
実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法の概略図を示す。 実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法の概略図を示す。 実施形態に従って、ITD推定アルゴリズムの概略図を示す。 実施形態に従って、CLD推定アルゴリズムの概略図を示す。 実施形態に従って、パラメトリックオーディオエンコーダのブロック図を示す。 実施形態に従って、パラメトリックオーディオデコーダのブロック図を示す。 実施形態に従って、パラメトリックステレオオーディオエンコーダ及びデコーダのブロック図を示す。 実施形態に従って、ITD選択アルゴリズムのブロック図を示す。 両耳間時間差の原理を説明する概略図を示す。
図1aは、実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法100aの概略図を示す。
方法100aは、マルチチャネルオーディオ信号の複数のチャネル信号x1,x2のうちのオーディオチャネル信号x1について、符号化パラメータITD、例えば、チャネル間時間差又は両耳間時間差を決定するためのものである。夫々のオーディオチャネル信号x1,x2は、オーディオチャネル信号値x1[n],x2[n]を有する。方法100aは:
オーディオチャネル信号x1について、オーディオチャネル信号x1のオーディオチャネル信号値x1[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x2又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x1,x2から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x2のリファレンスオーディオ信号値x2[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化に基づき、第1の組の符号化パラメータITD[b]を決定するステップ103aと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化に基づき、第2の組の符号化パラメータITD_inst[b]を決定するステップ105aと、
第1の組の符号化パラメータITD[b]及び/又は第2の組の符号化パラメータITD_inst[b]に対する品質基準に基づき、符号化パラメータITDを決定するステップ107aと
を有する。
実施形態において、符号化パラメータITDを決定するステップ107aは、第2の組の符号化パラメータITD_inst[b]の安定性を確認するステップを有する。第2の組の符号化パラメータITD_inst[b]が全ての周波数ビンbにわたって安定している場合は、最終の推定として第2の組の符号化パラメータITD_inst[b]に基づき符号化パラメータITDを選択し、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化のメモリを、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化によって更新する。第2の組の符号化パラメータITD_inst[b]が全ての周波数ビンbにわたって安定していない場合は、最終の推定として第1の組の符号化パラメータITD[b]に基づき符号化パラメータITDを選択する。
実施形態において、方法100aは以下のステップを有する:
第1の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータITDの推定のために第1の関数c[b]を計算し101且つ関連する平滑化された関数csm[b]を計算する103a。
第2の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータITDの推定のために第2の平滑化された関数csm_inst[b]を計算する105a。
推定関数の2つの平滑化されたバージョンcsm[b]及びcsm_inst[b]に基づきパラメータの第1及び第2の推定ITD及びITDinstを計算する107a。
パラメータの第2の推定ITDinstの安定性を確認する107a。パラメータの第2の推定が安定している場合は、最終の推定としてパラメータの第2の推定ITDinstを選択し、第1の平滑化された関数のメモリを第2の平滑化された関数によって更新する。パラメータの第2の推定が安定していない場合は、最終の推定としてパラメータの第1の推定ITDを選択する。
実施形態において、方法100aは以下のステップを有する:
1.第1及び第2のチャネル信号x1[n]及びx2[n]のFFTを計算する。
2.周波数領域においてそれら2つのチャネルの相互相関c[n]を計算する。
2.1.相互相関c[n]を強平滑化し、第1の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のITD(チャネル間時間差の長期推定)を計算する。
2.2.相互相関c[n]を弱平滑化し、第2の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のITD_inst(チャネル間時間差の短期推定)を計算する。
3.ITD_instの平均及び標準偏差を計算する。
4.ITD_instの標準偏差が閾値よりも低い場合は、強平滑化された相互相関のメモリを、弱平滑化されたバージョンからの1つにより更新し、最終のITDとしてITD_instの平均を出力する。ITD_instの標準偏差が閾値よりも高い場合は、最終のITDとしてITDの平均を出力する。
図1bは、実施形態に従って、オーディオチャネル信号の符号化パラメータを決定する方法100bの概略図を示す。
方法100bは、マルチチャネルオーディオ信号の複数のチャネル信号x1,x2のうちのオーディオチャネル信号x1について、符号化パラメータCLD、例えば、チャネル間レベル差を決定するためのものである。夫々のオーディオチャネル信号x1,x2は、オーディオチャネル信号値x1[n],x2[n]を有する。方法100bは:
オーディオチャネル信号x1について、オーディオチャネル信号x1のオーディオチャネル信号値x1[n]と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x2又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x1,x2から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号x2のリファレンスオーディオ信号値x2[n]とから、関数の組c[b]を決定するステップ101と、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化に基づき、第1の組の符号化パラメータCLD[b]を決定するステップ103bと、
マルチチャネルオーディオ信号のフレームシーケンスiに対する、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化に基づき、第2の組の符号化パラメータCLD_inst[b]を決定するステップ105bと、
第1の組の符号化パラメータCLD[b]及び/又は第2の組の符号化パラメータCLD_inst[b]に対する品質基準に基づき、符号化パラメータCLDを決定するステップ107bと
を有する。
実施形態において、符号化パラメータCLDを決定するステップ107bは、第2の組の符号化パラメータCLD_inst[b]の安定性を確認するステップを有する。第2の組の符号化パラメータCLD_inst[b]が全ての周波数ビンbにわたって安定している場合は、最終の推定として第2の組の符号化パラメータCLD_inst[b]に基づき符号化パラメータCLDを選択し、第1の平滑化係数SMW1に基づく関数の組c[b]の平滑化のメモリを、第2の平滑化係数SMW2に基づく関数の組c[b]の平滑化によって更新する。第2の組の符号化パラメータCLD_inst[b]が全ての周波数ビンbにわたって安定していない場合は、最終の推定として第1の組の符号化パラメータCLD[b]に基づき符号化パラメータCLDを選択する。
実施形態において、方法100bは以下のステップを有する:
第1の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータCLDの推定のために第1の関数c[b]を計算し101且つ関連する平滑化された関数csm[b]を計算する103b。
第2の平滑化係数に基づき入力信号x1[n],x2[n]からパラメータCLDの推定のために第2の平滑化された関数csm_inst[b]を計算する105b。
推定関数の2つの平滑化されたバージョンcsm[b]及びcsm_inst[b]に基づきパラメータの第1及び第2の推定CLD及びCLDinstを計算する107b。
パラメータの第2の推定CLDinstの安定性を確認する107b。パラメータの第2の推定が安定している場合は、最終の推定としてパラメータの第2の推定CLDinstを選択し、第1の平滑化された関数のメモリを第2の平滑化された関数によって更新する。パラメータの第2の推定が安定していない場合は、最終の推定としてパラメータの第1の推定CLDを選択する。
実施形態において、方法100bは以下のステップを有する:
1.第1及び第2のチャネル信号x1[n]及びx2[n]のFFTを計算する。
2.周波数領域においてそれら2つのチャネルのエネルギen[n]を計算する。
2.1.エネルギen[n]を強平滑化し、第1の平滑化係数、すなわち、長期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のCLD(チャネル間レベル差の長期推定)を計算する。
2.2.エネルギen[n]を弱平滑化し、第2の平滑化係数、すなわち、短期平滑化係数に関して夫々の周波数ビン(又は周波数バンド)のCLD_inst(チャネル間レベル差の短期推定)を計算する。
3.CLD_instに基づきステレオイメージの安定性を確認する。
4.ステレオイメージが安定していない場合は、強平滑化されたエネルギのメモリを、弱平滑化されたバージョンからの1つにより更新し、最終のCLDとしてCLD_instを出力する。ステレオイメージが安定している場合は、最終のCLDとしてCLDを出力する。
図2は、実施形態に従って、ITD推定アルゴリズム200の概略図を示す。
第1のステップ209で、時間周波数変換が第1の入力チャネルのサンプルx1[n]に適用され、第1の入力チャネルx1の周波数表現X1[k]が取得される。第2のステップ211で、時間周波数変換が第2の入力チャネルのサンプルx2[n]に適用され、第2の入力チャネルx2の周波数表現X2[k]が取得される。ステレオ入力チャネルの実施形態では、第1の入力チャネルx1は左チャネルであってよく、第2の入力チャネルx2は右チャネルであってよい。好ましい実施形態において、時間周波数変換は高速フーリエ変換(FFT)又は短時間フーリエ変換(STFT)である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。
第3のステップ213で、相互スペクトルc[b]が、
Figure 0005947971
として、サブバンドごとに第1及び第2の入力チャネルx1,x2の周波数表現X1[k]及びX2[k]から計算される。ここで、c[b]は、サブバンドbの相互スペクトルである。X1[k]及びX2[k]は2つのチャネル(例えば、ステレオの場合に左及び右チャネル)のFFT係数である。*は複素共役を表す。kbはサブバンドbの開始ビンであり、kb+1は隣接サブバンドb+1の開始ビンである。よって、kbからkb+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。代替的に、相互スペクトルは、
Figure 0005947971
として、FFTの夫々の周波数ビンについて計算される。ここで、c[b]は、周波数ビン[b]の相互スペクトルであり、X1[b]及びX2[b]は、2つのチャネルのFFT係数である。*は複素共役を表す。この場合について、サブバンド[b]は、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。この実施形態における相互スペクトルc[b]は、図1a及び1bに関して記載された関数の組c[b]に対応する。
第4及び第5のステップ215及び219で、平滑化された相互スペクトルの2つのバージョンcsm[b,i]及びcsm_inst[b,i]が、
Figure 0005947971
として、相互スペクトルc[b]から計算される。ここで、SMW1及びSMW2は各々の平滑化係数であり、SMW1>SMW2。iは、マルチチャネルオーディオ信号に基づく各々の相互スペクトルのフレームインデックスである。例となるが好ましい実施形態において、SMW1=0.9844及びSMW2=0.75。
第6及び第7のステップ221及び223で、チャネル間時間差の2つのバージョンITD及びITD_instが、
Figure 0005947971
として、夫々、強平滑化された相互スペクトルcsm[b,i]及び弱平滑化された相互スペクトルcsm_inst[b,i]に基づき、ビンごと又はサブバンドごとに計算される。ここで、演算∠は、平滑化された相互スペクトルの角度を計算するための引数演算子である。Nは、FFTビンの数である。
第8のステップ225で、チャネル間時間差の強平滑化バージョンITDの平均が、全ての関心のあるビン(又はサブバンド)にわたって計算される。
Figure 0005947971
ここで、B1及びB2は、関心のある周波数範囲内の最初及び最後のビン(又はサブバンド)のインデックスである。
第9及び第10のステップ227及び229で、チャネル間時間差の弱平滑化されたバージョンITD_instの平均ITD_instmean及び標準偏差ITD_inststdが、全ての関心のあるビン(又は周波数サブバンド)にわたって計算される。
Figure 0005947971
第11のステップ231で、チャネル間時間差の弱平滑化されたバージョンの標準偏差ITD_inststdが閾値(thr)よりも小さいかどうか、すなわち、ITD_inststd<thrが、比較により確認される。これが真である(Y=はい)場合は、第1の平滑化された関数csm[b,i]は、第12のステップ217で、Csm[b,i]=Csm_inst[b,i]に従って更新され、チャネル間時間差の弱平滑化されたバージョンITD_instの平均ITD_instmeanが、第13のステップ233で最終の符号化パラメータITDとして出力される。これが真でない(N=いいえ)場合は、チャネル間時間差の強平滑化バージョンITDの平均ITDmeanが、第14のステップ235で最終の符号化パラメータITDとして出力される。
上記のステップ209、211及び213は、図1aに関して記載されたステップ101に対応するステップ201として表されてよい。上記のステップ215及び221は、図1aに関して記載されたステップ103aに対応するステップ203として表されてよい。上記のステップ217、219及び223は、図1aに関して記載されたステップ105aに対応するステップ205として表されてよい。上記のステップ225、227、229、231、233及び235は、図1aに関して記載されたステップ107aに対応するステップ207として表されてよい。
ITD推定の好ましい実施形態において、符号化パラメータITDは、チャネル間時間差についての2つの平滑化バージョンITD及びITD_instに基づき計算され、このとき、それら2つの平滑化バージョンITD及びITD_instの夫々は、以下の実施に従って、夫々、ITD及びITD_instの正及び負の計算に基づき決定される:
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく:
Figure 0005947971
ここで、Nbpos及びNbnegは、夫々、正及び負のITDの数である。Mは、取り出されるITDの総数である。代替的に、ITDが0に等しい場合に、それは負ITDにおいてカウントされるか又はいずれの平均においてもカウントされ得ない点が留意されるべきである。
ITDは、図7に表される選択アルゴリズムに従って、平均及び標準偏差に基づき正及び負のITDから選択される。
同じ計算は、チャネル間時間差の弱平滑化バージョンITD_instについて実行される。
マルチチャネルパラメトリックオーディオコーデックへの方法の適用に従う実施形態において、方法200は以下のステップを有する:
第1及び第2のステップ209及び211で、時間周波数変換が入力チャネルに適用される。好ましい実施形態において、時間周波数変換は高速フーリエ変換(FFT)又は短時間フーリエ変換(STFT)である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。
第3のステップ213で、チャネルjの相互スペクトルc[b]が、
Figure 0005947971
として、サブバンドごとに計算される。ここで、c[b]は、ビンb又はサブバンドbの相互スペクトルである。Xj[b]及びXref[b]は、チャネルj及びリファレンスチャネルのFFT係数である。*は複素共役を表す。kbはバンドbの開始ビンであり、kb+1は隣接サブバンドb+1の開始ビンである。よって、kbからkb+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。実施形態において、リファレンス信号Xrefのスペクトルは、チャネルXj([1,m]に含まれるjについて。)の1つとして選択され、その場合、M-1個の空間キューがデコーダにおいて計算される。代替の実施形態において、Xrefは、全てのM個のチャネルの平均であるモノラルのダウンミックス信号のスペクトルであり、その場合、M個の空間キューがデコーダにおいて計算される。マルチチャネルオーディオ信号のためのリファレンスとしてダウンミックス信号を使用する利点は、リファレンス信号として無音信号を用いることを回避することである。実際に、ダウンミックス信号は、全てのチャネルのエネルギの平均に相当し、よって、無音であることを免れる。
代替の実施形態において、相互スペクトルは、
Figure 0005947971
として、FFTの夫々の周波数ビンについて計算される。ここで、c[b]は、周波数ビン[b]の相互スペクトルである。Xref[b]は、リファレンス信号のスペクトルであり、Xj[b]([1,m]に含まれるjについて。)は、マルチチャネル信号の夫々のチャネルのスペクトルである。*は複素共役を表す。この場合について、サブバンド[b]は、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。
第4及び第5のステップ215及び219で、平滑化された相互スペクトルの2つのバージョンが計算される
Figure 0005947971
ここで、SMW1及びSMW2は平滑化係数であり、SMW1>SMW2。iは、マルチチャネルオーディオ信号に基づくフレームインデックスである。好ましい実施形態において、SMW1=0.9844及びSMW2=0.75。
第6及び第7のステップ221及び223で、ITD及びITD_instが、
Figure 0005947971
として、夫々、強平滑化された相互スペクトルcsm及び弱平滑化された相互スペクトルcsm_instに基づき、ビンごと又はサブバンドごとに計算される。ここで、演算∠は、平滑化された相互スペクトルの角度を計算するための引数演算子である。Nは、FFTビンの数である。
第8のステップ225で、ITDの平均が、全ての関心のあるビン(又はサブバンド)にわたって計算される。
Figure 0005947971
ここで、B1及びB2は、関心のある周波数範囲内の最初及び最後のビン(又はサブバンド)のインデックスである。
第9第6及び第10のステップ227及び229で、ITD_instの平均及び標準偏差が、次のとおりに、全ての関心のあるビン(又は周波数サブバンド)にわたって計算される:
Figure 0005947971
第11のステップ231で、ITD_inststd,jは、ITD_inststd,j<thrに従って、閾値(thr)よりも小さいことを確認される。それがより小さい場合(Y経路)、第1の平滑化された関数は、第12のステップ217でCj,sm[b,i]=Cj,sm_inst[b,i]に従って更新され、ITD_instjの平均(ITD_instmean,j)が、第13のステップ233で最終のITDjとして出力される。それがより小さくない場合(N経路)、ITDjの平均(ITDmean,j)が、第14のステップ235で最終のITDjとして出力される。
ITD推定の好ましい実施形態において、符号化パラメータITDjは、チャネル間時間差についての2つの平滑化バージョンITDj及びITD_instjに基づき計算され、このとき、それら2つの平滑化バージョンITDj及びITD_instjの夫々は、以下の実施に従って、夫々、ITDj及びITD_instjの正及び負の計算に基づき決定される:
チャネル間時間差の強平滑化バージョンITDの正及び負の値のカウントが実行される。正及び負のITDの平均及び標準偏差は、次のとおりに、ITDの符号に基づく:
Figure 0005947971
ここで、Nbpos及びNbnegは、夫々、正及び負のITDの数である。Mは、取り出されるITDの総数である。代替的に、ITDが0に等しい場合に、それは負ITDにおいてカウントされるか又はいずれの平均においてもカウントされ得ない点が留意されるべきである。
ITDは、図7に表される選択アルゴリズムに従って、平均及び標準偏差に基づき正及び負のITDから選択される。
図3は、実施形態に従って、CLD推定アルゴリズムの概略図を示す。
第1のステップ309で、時間周波数変換が第1の入力チャネルのサンプルx1[n]に適用され、第1の入力チャネルx1の周波数表現X1[k]が取得される。第2のステップ311で、時間周波数変換が第2の入力チャネルのサンプルx2[n]に適用され、第2の入力チャネルx2の周波数表現X2[k]が取得される。ステレオ入力チャネルの実施形態では、第1の入力チャネルx1は左チャネルであってよく、第2の入力チャネルx2は右チャネルであってよい。好ましい実施形態において、時間周波数変換は高速フーリエ変換(FFT)又は短時間フーリエ変換(STFT)である。代替の実施形態において、時間周波数変換はコサイン変調フィルタバンク又は複素フィルタバンクである。
第3のステップ313で、第1のチャネルx1のエネルギen1[b]及び第2のチャネルx2のエネルギen2[b]が、
Figure 0005947971
として、サブバンドbごとに計算される。ここで、en1[b]及びen2[b]は、サブバンドbのエネルギである。X1[k]及びX2[k]は2つのチャネル(例えば、ステレオの場合に左及び右チャネル)のFFT係数である。*は複素共役を表す。kbはバンドbの開始ビンであり、kb+1は隣接サブバンドb+1の開始ビンである。よって、kbからkb+1-1までのFFTの周波数ビン[k]はサブバンド[b]に相当する。
代替的に、FFTの夫々の周波数ビンについての2つのチャネルx1及びx2のエネルギは、
Figure 0005947971
に従って計算される。ここで、en1[b]及びen2[b]は、夫々、第1及び第2のチャネルの周波数ビン[b]のエネルギであり、X1[b]及びX2[b]は、2つのチャネルのFFT係数である。*は複素共役を表す。この場合について、サブバンド[b]は、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は、厳密に同じ周波数ビンを表す。
Figure 0005947971
として、第4のステップ315で、第1のチャネルx1のエネルギの強平滑化されたバージョンen1_sm[b,i]及び第2のチャネルx2のエネルギの強平滑化されたバージョンen2_sm[b,i]が決定され、第5のステップ319で、第1のチャネルx1のエネルギの弱平滑化されたバージョンen1_sm_inst[b,i]及び第2のチャネルx2のエネルギの弱平滑化されたバージョンen2_sm_inst[b,i]が決定される。ここで、SMW1及びSMW2平滑化係数であり、SMW1>SMW2。すなわち、SMW1は強平滑化係数であり、SMW2は弱平滑化係数である。iはフレームインデックスである。CLDの厳密な展開に従う実施形態において、SMW2は0に設定される。
第6のステップ321で及び第7のステップ323で、チャネル間レベル差の強平滑化されたバージョンCLD及びチャネル間レベル差の弱平滑化されたバージョンCLD_instが、次のとおりに、夫々、強平滑化されたエネルギen1_sm及びen2_smに及び弱平滑化されたエネルギen1_sm_inst及びen2_sm_instに基づき、ビンごと又はサブバンドごとに計算される:
Figure 0005947971
第8のステップ329で、ステレオイメージの安定性が、チャネル間レベル差の弱平滑化されたバージョンCLD_instに基づき計算される。実施形態において、安定性フラグは、特許公報“国際公開第2010/079167(A1)号パンフレット”において記載される方法に従って決定される。すなわち、感度指標が計算される。感度指標は、現在のフレームがパケット損失に起因した長期予測(LTP)フィルタ状態におけるエラーにどの程度敏感であるかを予測する。感度指標は、式:

s=0.5PGLTP+0.5PGLTP,HP

に従って計算される。ここで、PGLTPは、LPC(Linear Predictive Coding)(線形予測符号化)の残留信号rLPCとLTP(Long Term Prediction)(長期予測)の残留信号rLTPとのエネルギの比として測定される長期予測ゲインであり、PGLTP,HPは:

PGLTP,HP(n)=PGLTP(n)−PGLTP(n-1)+0.5PGLTP,HP(n-1)

に従って一次ハイパスフィルタにPGLTPを通すことによって取得される信号である。
感度指標は、LTP予測と同指標のハイパスバージョンとの組み合わせである。LTP予測ゲインは、それがLTP状態エラーを出力信号エラーと直接に関連づけるので、選択される。ハイパス部分は、信号変化に重きを置くよう加えられる。変化する信号は、エンコーダ及びデコーダにおけるLTP状態がたいがいパケット損失後に極めて異なるので、深刻なエラー伝播を与える高い危険性を有する。
感度指標は、ステレオイメージの安定性を示すフラグを出力する。比較ステップ331で、フラグは、0又は1であることを確認される。フラグが0に等しい場合(経路N)、ステレオイメージは安定しており、チャネル間レベル差CDLは、2つの連続したフレームの間で大きい変化を有さない。フラグが1に等しい場合(経路Y)、ステレオイメージは安定しておらず、これは、2つの連続したフレームの間のチャネル間レベル差CLDが非常に高速に変化することを意味する。
第9のステップ331で、前のステップ329から出力される安定性フラグが確認される。安定性フラグが1に等しい場合(経路Y)、メモリは第10のステップ317で更新される。すなわち、強平滑化されたエネルギは、次のとおりに、弱平滑化されたエネルギによって更新される:

en1_sm[b,i]=en1_sm_inst[b,i] 及び en2_sm[b,i]=en2_sm_inst[b,i]

第11のステップ333で、チャネル間レベル差の弱平滑化されたバージョンCLDは、最終の符号化パラメータCDLとして出力される。安定性フラグが0に等しい場合(経路N)、第12のステップ335で、チャネル間レベル差の強平滑化されたバージョンCDLは、最終の符号化パラメータCDLとして出力される。
上記のステップ309、311及び313は、図1bに関して記載されたステップ101に対応するステップ301として表されてよい。上記のステップ315及び321は、図1bに関して記載されたステップ103bに対応するステップ303として表されてよい。上記のステップ317、319及び323は、図1bに関して記載されたステップ105bに対応するステップ305として表されてよい。上記のステップ329、331、333、及び335は、図1bに関して記載されたステップ107bに対応するステップ307として表されてよい。
図4は、実施形態に従って、パラメトリックオーディオエンコーダ400のブロック図を示す。パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401を入力信号として受信し、ビットストリームを出力信号403として供給する。パラメトリックオーディオエンコーダ400は、符号化パラメータ415を生成するためにマルチチャネルオーディオ信号401へ結合されるパラメータ生成部405と、ダウンミックス信号411又は和信号を生成するためにマルチチャネルオーディオ信号401へ結合されるダウンミックス信号生成部407と、符号化オーディオ信号413を供給するようダウンミックス信号411を符号化するためにダウンミックス信号生成部407へ結合されるオーディオ符号化部409と、符号化パラメータ415及び符号化信号413からビットストリーム403を形成するようパラメータ生成部405及びオーディオ符号化部409へ結合される結合部417、例えば、ビットストリーム形成部とを有する。
パラメトリックオーディオエンコーダ400は、1つの単一オーディオチャネル、例えば、オーディオチャネルx1,x2,・・・,xMの間の“知覚的に関連した差(perceptually relevant differences)”を記述する付加的なパラメータを加えた入力オーディオチャネルのダウンミックス表現、のみを送信するステレオ及びマルチチャネルオーディオ信号のためのオーディオ符号化スキームを実施する。符号化スキームは、両耳キューがそれにおいて重要な役割を果たすので、両耳キュー符号化(BCC)に従う。図に示されるように、入力オーディオチャネルx1,x2,・・・,xMは、和信号とも表される1つの単一オーディオチャネル411へとダウンミックスされる。オーディオチャネルx1,x2,・・・,xMの間の“知覚的に関連した差”として、符号化パラメータ415、例えば、チャネル間時間差(ICTD)、チャネル間レベル差(ICLD)、及び/又はチャネル間コヒーレンス(ICC)は、周波数及び時間の関数として推定され、図5に表されるデコーダ500へサイド情報として送信される。
BCCを実施するパラメータ生成部405は、ある時間及び周波数分解能によりマルチチャネルオーディオ信号401を処理する。使用される周波数分解能は、聴覚系の周波数分解能によって大いに動機付けされる。心理音響学は、空間認知がたいがい音響入力信号の臨界バンド表示に基づくことを示唆する。この周波数分解能は、聴覚系の臨界バンド幅に等しいか又は比例するバンド幅を有するサブバンドによる反転フィルタバンクを使用することによって考えられる。送信される和信号411は、マルチチャネルオーディオ信号401の全ての信号成分を含むことが重要である。目標は、夫々の信号成分が十分に保たれることである。マルチチャネルオーディオ信号401のオーディオ入力チャネルx1,x2,・・・,xMの単純な合計は、しばしば、信号成分の増幅又は減衰を生じさせる。つまり、“単純な”和における信号成分の電力は、しばしば、夫々のチャネルx1,x2,・・・,xMの対応する信号成分の電力の和よりも大きいか又は小さい。従って、ダウンミックス技術は、和信号411における信号成分の電力がマルチチャネルオーディオ信号401の全ての入力オーディオチャネルx1,x2,・・・,xMにおける対応する電力と略等しいように和信号411をイコライズするダウンミキシング装置407を適用することによって、使用される。入力オーディオチャネルx1,x2,・・・,xMは、多数のサブバンドに分解される。1つのそのようなサブバンドは、X1[b]と表される(表記の簡単のために、サブバンドのインデックスは使用されない点に留意されたい。)。同様の処理が、全てのサブバンドに独立して適用され、通常、サブバンド信号はダウンサンプリングされる。夫々の入力チャネルの夫々のサブバンドの信号は足し合わされ、次いで、電力正規化係数を乗じられる。
和信号411を鑑みて、パラメータ生成部405は、ICTD、ICLD、及び/又はICCが原のマルチチャネルオーディオ信号401の対応するキューに近づくように、空間符号化パラメータ415を取り出す。
1つの発生源の両耳室内インパルス応答(BRIR)を考える場合に、聴覚事象及びリスナーエンベロップメント(listener envelopment)の幅と、両耳室内インパルス応答の前半及び後半部について推定されるICとの間の関係が存在する。しかし、BRIRはもちろん、IC又はICCと一般的な信号についてのそれらの特性との間の関係は直接的でない。ステレオ及びマルチチャネルオーディオ信号は、通常は、閉ざされた空間におけるレコーディングにより生じる反射信号成分を重畳されるか、又は空間的印象を人為的に作り出すためにレコーディングエンジニアによって付加される同時アクティブなソース信号の複雑な混合を含む。異なる音源信号及びそれらの反射は、時間−周波数面において異なる範囲を占有する。これは、時間及び周波数の関数として変化するICTD、ICLD、及びICCによって反映される。この場合に、瞬時的なICTD、ICLD、及びICCと聴覚事象方向と空間的印象との間の関係は自明でない。パラメータ生成部405の方策は、それらのキューを、それらが原のオーディオ信号の対応するキューに近づくように、無分別に取り出すことである。
実施形態において、パラメトリックオーディオエンコーダ400は、等価な矩形バンド幅に等しいか又はその2倍のバンド幅のサブバンドによるフィルタバンクを使用する。非公式の傾聴は、BCCのオーディオ品質が、より高い周波数分解能を選択する場合に、顕著に改善しなかったことを浮き彫りにした。より低い周波数分解能は、デコーダへ送信される必要があるICTD、ICLD、及びICCの値がより少なくて済み、よって、ビットレートをより低くできるので、好ましい。時間分解能に関して、ICTD、ICLD、及びICCは、規則的な時間間隔で考えられる。実施形態において、ICTD、ICLD、及びICCは、約4〜16ミリ秒ごとに考えられる。キューが極めて短い時間間隔で考えられない限り、先行音効果は直接考えられない。
リファレンス信号と合成信号との間のしばしば達成される知覚的に小さい差は、広範な聴覚空間イメージ属性に関連するキューが、規則的な時間間隔でICTD、ICLD、及びICCを合成することで暗黙的に考えられることを暗示する。そのような空間キューの伝送に必要とされるビットレートは、たった数kb/sであり、よって、パラメトリックオーディオエンコーダ400は、ステレオ及びマルチチャネルオーディオ信号を、単一オーディオチャネルに必要とされるものに近いビットレートで送信することができる。図1a及び2は、ITDが符号化パラメータ415として推定される方法を説明する。図1b及び3は、CLDが符号化パラメータ415として推定される方法を説明する。
パラメトリックオーディオエンコーダ400は、ダウンミックス信号411を取得するようマルチチャネルオーディオ信号401のオーディオチャネル信号のうちの少なくとも2つを重ね合わせるダウンミックス信号生成部407と、符号化オーディオ信号413を取得するようダウンミックス信号411を符号化するオーディオ符号化部409、特に、モノラルエンコーダと、符号化オーディオ信号413を対応する符号化パラメータ415と結合する結合部417とを有する。
パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401の、x1,x2,・・・,xMとして表される複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号について、符号化パラメータ415を生成する。オーディオチャネル信号x1,x2,・・・,xMの夫々は、x1[n],x2[n],・・・,xM[n]として表されるデジタルオーディオチャネル信号値を有するデジタル信号であってよい。
パラメトリックオーディオエンコーダ400が符号化パラメータ415を生成する、例となるオーディオチャネル信号は、信号値x1[n]を有する第1のオーディオチャネル信号x1である。パラメータ生成部405は、第1のオーディオ信号x1のオーディオチャネル信号値x1[n]から及びリファレンスオーディオ信号x2のリファレンスオーディオ信号値x2[n]から符号化パラメータITDを決定する。
リファレンスオーディオ信号として使用されるオーディオチャネル信号は、例えば、第2のオーディオチャネル信号x2である。同様に、オーディオチャネル信号x1,x2,・・・,xMのいずれか他の1つリファレンスオーディオ信号となってよい。第1の態様に従って、リファレンスオーディオ信号は、符号化パラメータ415が生成されるオーディオチャネル信号x1と等しくない、オーディオチャネル信号のうちの他のオーディオチャネル信号である。
第2の態様に従って、リファレンスオーディオ信号は、マルチチャネルオーディオ信号401の少なくとも2つのオーディオチャネル信号から導出される、例えば、第1のオーディオチャネル信号x1及び第2のオーディオチャネル信号x2から導出されるダウンミックスオーディオ信号である。実施形態において、リファレンスオーディオ信号は、ダウンミキシング装置407によって生成される和信号とも呼ばれるダウンミックス信号411である。実施形態において、リファレンスオーディオ信号は、エンコーダ409によって供給される符号化信号413である。
パラメータ生成部405によって使用される、例となるリファレンスオーディオ信号は、信号値x2[n]を有する第2のオーディオチャネル信号x2である。
パラメータ生成部405は、オーディオチャネル信号x1のオーディオチャネル信号値x1[n]の周波数変換と、リファレンスオーディオ信号x 2 のリファレンスオーディオ信号値x2[n]の周波数変換とを決定する。リファレンスオーディオ信号は、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号x2、又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x1,x2から導出されるダウンミックスオーディオ信号である。パラメータ生成部405は、周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについてチャネル間の差を決定する。夫々のチャネル間の差は、そのチャネル間の差が関連付けられる各々の周波数サブバンドにおける、オーディオチャネル信号の帯域制限された信号部分と、リファレンスオーディオ信号の帯域制限された部分との間の時間差ITD[b]又は位相差IPD[b]又はレベル差CLD[b]を示す。
チャネル間位相差(ICPD)は、信号対の間の平均位相差である。チャネル間レベル差(ICLD)は、両耳間レベル(ILD)、すなわち、左右の耳口にある信号の間の差と同じであるが、より一般的に、何らかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。チャネル間コヒーレンス又はチャネル間相関は、両耳間コヒーレンス(IC)、すなわち、左右の耳口にある信号の間の類似度と同じであるが、より一般的に、何らかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。チャネル間時間差(ICTD)は、ときどき両耳間時間遅延とも呼ばれる両耳間時間差、すなわち、左右の耳口にある信号の間の時間差と同じであるが、より一般的に、いずれかの信号対、例えば、ラウドスピーカ対、耳口信号対、等の間で定義される。サブバンド・チャネル間レベル差、サブバンド・チャネル間位相差、サブバンド・チャネル間コヒーレンス及びサブバンド・チャネル間強度差は、サブバンド帯域幅に関して上記のパラメータに関連する。
パラメータ生成部405は、図1a、1b、2及び3に関して記載された方法のうちの1つを実施するよう構成される。
実施形態において、パラメータ生成部405は:
オーディオチャネル信号(x1)について、オーディオチャネル信号(x1)のオーディオチャネル信号値(x1[n])と、複数のオーディオチャネル信号のうちの他のオーディオチャネル信号(x2)又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号(x1,x2)から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号(x2)のリファレンスオーディオ信号値(x2[n])とから、関数の組(c[b])を決定する第1の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス(i)に対する、第1の平滑化係数(SMW1)に基づく関数の組(c[b])の平滑化に基づき、第1の組の符号化パラメータ(ITD[b],CLD[b])を決定する第2の決定部と、
マルチチャネルオーディオ信号のフレームシーケンス(i)に対する、第2の平滑化係数(SMW2)に基づく関数の組(c[b])の平滑化に基づき、第2の組の符号化パラメータ(ITD_inst[b],CLD_inst[b])を決定する第3の決定部と、
第1の組の符号化パラメータ(ITD[b],CLD[b])及び/又は第2の組の符号化パラメータ(ITD_inst[b],CLD_inst[b])に対する品質基準に基づき、符号化パラメータ(ITD,CLD)を決定する符号化パラメータ決定部と
を有する。
図5は、実施形態に従って、パラメトリックオーディオデコーダ500のブロック図を示す。パラメトリックオーディオデコーダ500は、通信チャネル上で送信されたビットストリーム503を入力信号として受信し、復号されたマルチチャネルオーディオ信号501を出力信号として供給する。パラメトリックオーディオデコーダ500は、ビットストリーム503を符号化パラメータ515及び符号化信号513へと復号するためにビットストリーム503へ結合されるビットストリーム復号化部517と、符号化信号513から和信号511を生成するためにビットストリーム復号化部517へ結合される復号化部509と、符号化パラメータ515からパラメータ521を還元するためにビットストリーム復号化部517へ結合されるパラメータ分離部505と、パラメータ521及び和信号511から復号されたマルチチャネルオーディオ信号501を合成するためにパラメータ分離部505及び復号化部509と結合される合成部507とを有する。
パラメトリックオーディオデコーダ500は、チャネル間のICTD、ICLD、及び/又はICCが原のマルチチャネルオーディオ信号のそれらに近づくように、そのマルチチャネルオーディオ信号501の出力チャネルを生成する。記載されるスキームは、マルチチャネルオーディオ信号を、モノラルのオーディオ信号を表現するのに必要とされるものよりもわずかにのみ高いビットレートで表現することができる。そうであるのは、チャネル対の間の推定されるICTD、ICLD、及びICCがオーディオ波形よりも約2桁少ない情報を含むためである。低ビットレートのみならず後方互換性の側面も重要である。送信される和信号は、ステレオ又はマルチチャネル信号のモノラルダウンミックスに対応する。
図6は、実施形態に従って、パラメトリックステレオオーディオエンコーダ601及びデコーダ603のブロック図を示す。パラメトリックステレオオーディオエンコーダ601は、図4に関して記載されたパラメトリックオーディオエンコーダ400に対応するが、マルチチャネルオーディオ信号401は、左605及び右607オーディオチャネルによるステレオオーディオ信号である。
パラメトリックステレオオーディオエンコーダ601は、ステレオオーディオ信号605、607を入力信号として受信し、ビットストリームを出力信号609として供給する。パラメトリックオーディオエンコーダ400は、空間パラメータ613を生成するためにステレオオーディオ信号605、607へ結合されるパラメータ生成部611と、ダウンミックス信号617又は和信号を生成するためにステレオオーディオ信号605、607へ結合されるダウンミックス信号生成部615と、符号化オーディオ信号621を供給するようダウンミックス信号617を符号化するためにダウンミックス信号生成部615へ結合されるモノラル符号化部619と、出力信号609を供給するよう符号化パラメータ613及び符号化オーディオ信号621をビットストリームにまとめるようにパラメータ生成部611及びモノラル符号化部619へ結合されるビットストリーム結合部623とを有する。パラメータ生成部611において、空間パラメータ613は、ビットストリームにおいて多重化される前に、抽出され量子化される。
パラメトリックステレオオーディオデコーダ603は、ビットストリーム、すなわち、通信チャネル上で送信されたパラメトリックステレオオーディオエンコーダ601の出力信号609を入力信号として受信し、左チャネル625及び右チャネル627を有する復号されたステレオオーディオ信号を出力信号として供給する。パラメトリックステレオオーディオデコーダ603は、ビットストリーム609を符号化パラメータ631及び符号化信号633へと復号するために受信されたビットストリーム609へ結合されるビットストリーム復号化部629と、符号化信号633から和信号637を生成するためにビットストリーム復号化部629へ結合されるモノラル復号化部635と、符号化パラメータ631から空間パラメータ641を還元するためにビットストリーム復号化部629へ結合される空間パラメータ分離部639と、空間パラメータ641及び和信号637から復号されたステレオオーディオ信号625、627を合成するために空間パラメータ分離部639及びモノラル復号化部635と結合される合成部643とを有する。
パラメトリックステレオオーディオデコーダ603における処理は、空間パラメータ631、例えば、チャネル間時間差(ICTD)及びチャネル間レベル差(ICLD)を生成するよう、時間及び周波数において適応的に遅延を導入し且つオーディオ信号のレベルを変更することができる。更に、パラメトリックステレオオーディオデコーダ603は、チャネル間コヒーレンス(ICC)合成のために有効に時間適応フィルタリングを実行する。実施形態において、パラメトリックステレオエンコーダは、低い計算複雑性を有して有効に両耳キュー符号化(BCC)スキームを実施するために、短時間フーリエ変換(STFT)に基づきフィルタバンクを使用する。パラメトリックステレオオーディオエンコーダ601における処理は、低い計算複雑性及び低い遅延を有し、パラメトリックステレオオーディオ符号化を実時間の適用のためにマイクロプロセッサ又はデジタル信号プロセッサでの手頃な実施に適したものとする。
図6に表されるパラメータ生成部611は、空間キューの量子化及び符号化が加えられている点を除いて、図4に関して記載された対応するパラメータ生成部405と機能的に同じである。和信号617は、従来のモノラルオーディオコーダ619により符号化される。実施形態において、パラメトリックステレオオーディオエンコーダ601は、周波数領域においてステレオオーディオチャネル信号605、607を変換するために、STFTに基づく時間−周波数変換を使用する。STFTは、離散フーリエ変換(DFT)を入力信号x(n)の窓掛け部分に適用する。N個のサンプルの信号フレームは、N点DFTが適用される前に、長さWの窓を掛けられる。隣接する窓は重なり合い、W/2のサンプル分だけシフトされている。窓は、重なり合う窓が合計で1の一定値になるように選択される。従って、逆変換のために、更なる窓掛けの必要性はない。W/2のサンプル分の連続したフレームの時間前進を伴うサイズNの単純な逆DFTが、デコーダ603では使用される。スペクトルが変更されない場合は、完璧な再構成が、重ね/加算によって達成される。
STFTの一様なスペクトル分解能は人の知覚にうまく適応しないので、STFTの一様に間隔をあけられたスペクトル係数は、知覚により良く適応するバンド幅を有するB個の重なり合わないパーティションにグループ分けされる。1つのパーティションは、概念上、図4に関する記載に従う1つの“サブバンド”に対応する。代替の実施形態において、パラメトリックステレオオーディオエンコーダ601は、周波数領域においてステレオオーディオチャネル信号605、607を変換するために、非一様なフィルタバンクを使用する。
実施形態において、ダウンミキサ615は、
Figure 0005947971
によって、イコライズされた和信号Sm(k)617の1つのパターンbの又は1つのサブバンドbのスペクトル係数を決定する。ここで、Xc,m(k)は入力オーディオチャネル605、607のスペクトルであり、eb(k)は、
Figure 0005947971
として、パーティション電力推定
Figure 0005947971
により計算されるゲイン係数である。
サブバンド信号の和の減衰が顕著である場合に、大きいゲイン係数により生じるアーティファクトを防ぐよう、ゲイン係数eb(k)は6デシベルに制限される。すなわち、eb(k)≦2。
パラメトリックステレオオーディオエンコーダ601及びデコーダ603の実施形態において、ITD情報(全帯域)のタイプは、遠隔のデコーダ603へ信号で伝えられる。実施形態において、タイプの信号伝達は、少なくとも1つのビットストリームにおいて運ばれる補助データを用いて暗黙的な信号伝達によって実行される。代替の実施形態において、信号伝達は、各々のビットストリームのタイプを示すフラグを用いて明示的な信号伝達によって実行される。実施形態において、暗黙的な信号伝達を有する第1の信号伝達オプションと、明示的な信号伝達を有する第2の信号伝達オプションとの間を切り替えることが可能である。暗黙的な信号伝達の実施形態では、フラグは、少なくとも1つの後方互換性のあるビットストリームの補助データにおける二次的なチャネル情報の存在を示す。レガシーデコーダは、フラグが存在するか否かを確認せず、後方互換性のあるビットストリームをただ復号するのみである。例えば、二次的なチャネルビットストリームの信号伝達は、AACビットストリームの補助データにおいて含まれてよい。更に、二次的なビットストリームがまた、AACビットストリームの補助データにおいて含まれてよい。その場合に、レガシーAACデコーダは、ビットストリームの後方互換性のある部分のみを復号し、補助データを捨てる。パラメトリックステレオオーディオエンコーダ601及びデコーダ603の実施形態において、そのようなフラグの存在は確認され、フラグが受信されたビットストリームにおいて存在する場合は、デコーダ603は、付加的な全帯域ITD情報に基づきマルチチャネルオーディオ信号を再構成する。
明示的な信号伝達の実施形態では、ビットストリームが、新しいレガシーでないエンコーダにより取得された新しいビットストリームであることを示すフラグが、使用される。レガシーデコーダは、如何にしてこのフラグを解釈すべきかを知らないので、ビットストリームを復号することができない。しかし、実施形態に従うデコーダ603は、後方互換性のある部分のみ又は完全なマルチチャネルオーディオ信号のいずれかを復号するための及び復号すると決定するための能力を備える。
そのような後方互換性の利点は、次のとおりに見られる。実施形態に従うデコーダ603を有するモバイル端末は、複雑性負荷が低くなるにつれて、内蔵電池のバッテリ寿命を節約するために、後方互換性のある部分を復号すると決定することができる。更に、レンダリングシステムに依存して、デコーダ603は、ビットストリームのどの部分を復号すべきかを決定することができる。例えば、ヘッドホンによるレンダリングのためには、受信信号の後方互換性のある部分で十分であり、一方、マルチチャネルオーディオ信号は、端末が、例えば、マルチチャネルレンダリング機能を備えたドッキングステーションへ接続される場合にのみ、復号される。
実施形態において、図1a、1b、2及び3の1つに関して記載された方法は、ITU-T G.722、G.722 Annex B、G.711.1及び/又はG.711.1 Annex Dのステレオ拡張のエンコーダにおいて適用される。更に、実施形態において、図1a、1b、2及び3の1つに関して記載された方法は、3GGP EVS(Enhanced Voice Services)コーデックにおいて定義されるモバイルアプリケーションのためのスピーチ及びオーディオエンコーダに適用される。
実施形態において、図1a、1b、2及び3の1つに関して記載された方法は、聴覚情景解析に使用される。その場合に、ITD推定又はCLD推定の実施形態の1つは、空間イメージの特性を評価するために及びオーディオシーンにおける音源の位置を検出するために単独で又は組み合わせて使用される。
図7は、実施形態に従って、ITD選択アルゴリズムの概略図を示す。
第1のステップ701で、正のITD値の数Nbposが、負のITD値の数Nbnegに対して確認される。NbposがNbnegよりも大きい場合は、ステップ703が実行され、NbposがNbnegよりも大きくない場合は、ステップ705が実行される。
ステップ703で、例えば、

(ITDstd_pos<ITDstd_neg)||(Nbpos>=A*Nbneg

に従って、正ITDの標準偏差ITDstd_posが、負ITDの標準偏差ITDstd_negに対して確認され、且つ、正のITD値の数が、第1の係数Aを乗じられた負のITD値Nbnegの数に対して確認される。ITDstd_pos<ITDstd_neg)又はNbpos>A*Nbnegの場合は、ステップ707で、ITDは正ITDの平均として選択される。そうでない場合は、ステップ709で、正及び負のITFの間の関係が更に確認される。
ステップ709で、例えば、

(ITDstd_neg<B*ITDstd_pos

に従って、負ITDの標準偏差ITDstd_negが、第2の係数Bを乗じられた正ITDの標準偏差ITDstd_posに対して確認される。ITDstd_neg<B* ITDstd_posの場合は、ステップ715で、負ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム(Pre_itd)からのITDがステップ717で確認される。
ステップ717で、前のフレームからのITDは、例えば、“Pre_itd>0”に従って、0よりも大きいことに関して確認される。Pre_itd>0の場合は、ステップ723で、出力されるITDは正ITDの平均として選択され、そうでない場合は、ステップ725で、出力されるITDは負ITDの平均の反対の値である。
ステップ705で、例えば、

(ITDstd_neg<ITDstd_pos)||(Nbneg>=A*Nbpos

に従って、負ITDの標準偏差ITDstd_negは、正ITDの標準偏差ITDstd_posに対して確認され、かつ、負のITD値の数Nbnegは、第1の係数Aを乗じられた正のITD値の数Nbposに対して確認される。ITDstd_neg<ITDstd_pos又はNbneg>A*Nbposの場合は、ステップ711で、ITDは負ITDの平均として選択される。そうでない場合は、ステップ713で、負及び正のITDの間の関係が更に確認される。
ステップ713で、例えば、

(ITDstd_pos<B*ITDstd_neg

に従って、正ITDの標準偏差ITDstd_posが、第2の係数Bを乗じられた負ITDの標準偏差ITDstd_negに対して確認される。ITDstd_pos<B*ITDstd_negの場合は、ステップ719で、正ITDの平均の反対の値が、出力されるITDとして選択される。そうでない場合は、前のフレーム(Pre_itd)からのITDがステップ721で確認される。
ステップ721で、前のフレームからのITDは、例えば、“Pre_itd>0”に従って、0よりも大きいことに関して確認される。Pre_itd>0の場合は、ステップ727で、出力されるITDは負ITDの平均として選択され、そうでない場合は、ステップ729で、出力されるITDは正ITDの平均の反対の値である。
相互スペクトルの強平滑化されたバージョンに基づくITD(ITDmean)と、相互スペクトルの逆平滑化されたバージョンに基づくITD(ITDmean_inst)との間の選択は、正ITD及び負ITDについて別個に取得される。最終的に、ITDに関する決定は、図7に記載されるように行われる。
上記から、様々な方法、システム、記録媒体上のコンピュータプログラム、及び同様のものが提供されることは、当業者に明らかであろう。
本開示はまた、実行される場合に、少なくとも1つのコンピュータに、ここで記載される実行及び計算ステップを実行させるコンピュータ実行可能コード又はコンピュータ実行可能命令を含むコンピュータプログラム製品をサポートする。
本開示はまた、ここで記載される実行及び計算ステップを実行するよう構成されるシステムをサポートする。
多くの代替、改良、及び変形は、上記の教示に照らして当業者に明らかであろう。当然、当業者は、ここで開示されているものを越えて本発明の多数の適用が存在すると容易に認識する。本発明は1又はそれ以上の特定の実施形態を参照して記載されてきたが、当業者は、多くの変更がそれらに対して、本発明の精神及び適用範囲を逸脱することなしになされてよいと認識する。従って、添付の特許請求の範囲及びそれらの均等の適用範囲内で、本発明は、ここで具体的に記載されているのとは別なふうに実施されてよい。
400 マルチチャネルオーディオエンコーダ
401 マルチチャネルオーディオ信号
403 ビットストリーム(出力信号)
405 パラメータ生成部
407 ダウンミックス信号生成部
409 オーディオ符号化部
411 ダウンミックス信号
413 符号化オーディオ信号
415 符号化パラメータ
417 結合部
500 パラメトリックオーディオデコーダ
501 マルチチャネルオーディオ信号
503 ビットストリーム(入力信号)
505 パラメータ分離部
507 合成部
509 復号化部
511 和信号
513 符号化信号
515 符号化パラメータ
517 ビットストリーム復号化部
521 パラメータ
601 パラメトリックステレオオーディオエンコーダ
603 パラメトリックステレオオーディオデコーダ
605 ステレオオーディオ信号(左チャネル)
607 ステレオオーディオ信号(右チャネル)
609 ビットストリーム
611 パラメータ生成部
613 空間パラメータ
615 ダウンミックス信号生成部
617 ダウンミックス信号
619 モノラル符号化部
621 符号化オーディオ信
623 ビットストリーム結合部
625 復号されたステレオオーディオ信号(左チャネル)
627 復号されたステレオオーディオ信号(右チャネル)
629 ビットストリーム復号化部
631 符号化パラメータ
633 符号化信号
635 モノラル復号化部
637 和信号
639 空間パラメータ分離部
641 空間パラメータ
643 合成部

Claims (13)

  1. マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定する方法であって、前記符号化パラメータがチャネル間時間差及び/又はチャネル間レベル差を有するチャネル間の差を有し、夫々のオーディオチャネルがオーディオチャネル信号値を有する方法において、
    前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、周波数サブバンドごとの相互スペクトル又は相互相関として関数の組を決定するステップと、
    前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑化係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定するステップと、
    前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、前記第1の平滑化係数とは異なる第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定するステップと、
    前記第2の組の符号化パラメータの安定性に応じて前記第1の組の符号化パラメータ又は前記第2の組の符号化パラメータのいずれか一方に基づき、前記符号化パラメータを決定するステップと
    を有する方法。
  2. 前記関数の組を決定する前記ステップは、
    前記第1のオーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
    前記リファレンスオーディオ信号の前記リファレンスオーディオ信号値の周波数変換を決定するステップと、
    周波数サブバンドのサブセットの少なくとも夫々の周波数サブバンドについて、相互スペクトル又は相互相関として前記関数の組を決定するステップと
    を有し、
    前記関数の組の夫々の関数は、前記関数の組の当該関数が関連付けられる各々の周波数サブバンドにおいて、前記第1のオーディオチャネル信号の帯域制限された信号部分と、前記リファレンスオーディオ信号の帯域制限された部分との間で計算される、
    請求項1に記載の方法。
  3. 周波数サブバンドは、1又は複数の周波数ビンを有する、
    請求項2に記載の方法。
  4. 記符号化パラメータを決定する前記ステップは、前記第2の組の符号化パラメータの安定性を示す安定性パラメータを決定するステップを有する、
    請求項1乃至のうちいずれか一項に記載の方法。
  5. 前記符号化パラメータを決定する前記ステップは、
    前記フレームシーケンスに対する前記第2の組の符号化パラメータの連続する値の間の比較に基づき前記第2の組の符号化パラメータの安定性パラメータを決定するステップと、
    前記安定性パラメータに依存して前記符号化パラメータを決定するステップと
    を有する、請求項に記載の方法。
  6. 前記安定性パラメータは、前記第2の組の符号化パラメータの標準偏差に少なくとも基づく、
    請求項に記載の方法。
  7. 前記安定性パラメータは、前記マルチチャネルオーディオ信号の1つのフレームにわたって又は複数のフレームにわたって決定される、
    請求項又はに記載の方法。
  8. 前記符号化パラメータを決定する前記ステップは、前記安定性パラメータ閾値を上回るのか、それとも下回るのかを決定することを含む
    請求項乃至のうちいずれか一項に記載の方法。
  9. 前記符号化パラメータを決定する前記ステップは、前記安定性パラメータが前記閾値を下回る場合に、メモリに記憶された前記第1の組の符号化パラメータを前記第2の組の符号化パラメータにより更新することにより、前記第2の組の符号化パラメータに基づき前記符号化パラメータを決定することを含む、
    請求項8に記載の方法。
  10. 前記第1の平滑化係数に基づく前記関数の組の前記平滑化は、1から前記第1の平滑化係数を減じた結果を乗じられた前記関数の組と、前記第1の平滑化係数を乗じられた、先に当該平滑化をされた前記関数の組の第1の平滑化されたバージョンとの足し算として計算され
    前記第2の平滑化係数に基づく前記関数の組の前記平滑化は、1から前記第2の平滑化係数を減じた結果を乗じられた前記関数の組と、前記第2の平滑化係数を乗じられた、先に当該平滑化をされた前記関数の組の第2の平滑化されたバージョンとの足し算として計算される
    請求項1乃至のうちいずれか一項に記載の方法。
  11. 前記第1の平滑化係数は、前記第2の平滑化係数よりも高い、
    請求項1乃至10のうちいずれか一項に記載の方法。
  12. マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの第1のオーディオチャネル信号のための符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、前記符号化パラメータがチャネル間時間差及び/又はチャネル間レベル差を有するチャネル間の差を有し、夫々のオーディオチャネルがオーディオチャネル信号値を有するマルチチャネルオーディオエンコーダにおいて、
    前記第1のオーディオチャネル信号について、前記第1のオーディオチャネル信号のオーディオチャネル信号値と、前記複数のオーディオチャネル信号のうちの他のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から導出されるダウンミックスオーディオ信号であるリファレンスオーディオ信号のリファレンスオーディオ信号値とから、周波数サブバンドごとの相互スペクトル又は相互相関として関数の組を決定する第1の決定部と、
    前記マルチチャネルオーディオ信号のフレームシーケンスに対する、第1の平滑係数に基づく前記関数の組の平滑化に基づき、第1の組の符号化パラメータを決定する第2の決定部と、
    前記マルチチャネルオーディオ信号の前記フレームシーケンスに対する、前記第1の平滑化係数とは異なる第2の平滑化係数に基づく前記関数の組の平滑化に基づき、第2の組の符号化パラメータを決定する第3の決定部と、
    前記第2の組の符号化パラメータの安定性に応じて前記第1の組の符号化パラメータ又は前記第2の組の符号化パラメータのいずれか一方に基づき、前記符号化パラメータを決定する符号化パラメータ決定部と
    を有するマルチチャネルオーディオエンコーダ。
  13. コンピュータで実行される場合に該コンピュータに請求項1乃至11のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2015503766A 2012-04-05 2012-04-05 マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ Active JP5947971B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056340 WO2013149672A1 (en) 2012-04-05 2012-04-05 Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder

Publications (2)

Publication Number Publication Date
JP2015518176A JP2015518176A (ja) 2015-06-25
JP5947971B2 true JP5947971B2 (ja) 2016-07-06

Family

ID=45952541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015503766A Active JP5947971B2 (ja) 2012-04-05 2012-04-05 マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ

Country Status (7)

Country Link
US (1) US9449604B2 (ja)
EP (1) EP2834814B1 (ja)
JP (1) JP5947971B2 (ja)
KR (1) KR101621287B1 (ja)
CN (1) CN103460283B (ja)
ES (1) ES2571742T3 (ja)
WO (1) WO2013149672A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
WO2016066743A1 (en) * 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
KR102605480B1 (ko) 2014-11-28 2023-11-24 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
CN106033671B (zh) 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
ES2904275T3 (es) * 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo
US10045145B2 (en) * 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US10832689B2 (en) 2016-03-09 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing stability of an inter-channel time difference parameter
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109300480B (zh) 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN117292695A (zh) * 2017-08-10 2023-12-26 华为技术有限公司 时域立体声参数的编码方法和相关产品
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
CN111341319B (zh) * 2018-12-19 2023-05-16 中国科学院声学研究所 一种基于局部纹理特征的音频场景识别方法及系统
CN113129910B (zh) * 2019-12-31 2024-07-30 华为技术有限公司 音频信号的编解码方法和编解码装置
CN111935624B (zh) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
WO2022153632A1 (ja) * 2021-01-18 2022-07-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
ES2452569T3 (es) 2009-04-08 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase

Also Published As

Publication number Publication date
EP2834814A1 (en) 2015-02-11
US20150010155A1 (en) 2015-01-08
JP2015518176A (ja) 2015-06-25
CN103460283B (zh) 2015-04-29
ES2571742T3 (es) 2016-05-26
WO2013149672A1 (en) 2013-10-10
CN103460283A (zh) 2013-12-18
US9449604B2 (en) 2016-09-20
KR101621287B1 (ko) 2016-05-16
KR20140140101A (ko) 2014-12-08
EP2834814B1 (en) 2016-03-02

Similar Documents

Publication Publication Date Title
JP5947971B2 (ja) マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
US11887609B2 (en) Apparatus and method for estimating an inter-channel time difference
US9401151B2 (en) Parametric encoder for encoding a multi-channel audio signal
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
JP5081838B2 (ja) オーディオ符号化及び復号
US8116459B2 (en) Enhanced method for signal shaping in multi-channel audio reconstruction
JP5977434B2 (ja) パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
US9275646B2 (en) Method for inter-channel difference estimation and spatial audio coding device
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160603

R150 Certificate of patent or registration of utility model

Ref document number: 5947971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250