JP2009518659A - マルチチャネルオーディオ信号の符号化/復号化方法及び装置 - Google Patents

マルチチャネルオーディオ信号の符号化/復号化方法及び装置 Download PDF

Info

Publication number
JP2009518659A
JP2009518659A JP2008533239A JP2008533239A JP2009518659A JP 2009518659 A JP2009518659 A JP 2009518659A JP 2008533239 A JP2008533239 A JP 2008533239A JP 2008533239 A JP2008533239 A JP 2008533239A JP 2009518659 A JP2009518659 A JP 2009518659A
Authority
JP
Japan
Prior art keywords
quantization
audio signal
channels
cld
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008533239A
Other languages
English (en)
Other versions
JP2009518659A5 (ja
Inventor
ウォン ジュン,ヤン
スク パン,ヒー
オ オー,ヒュン
スー キム,ドン
ヒュン リム,ジェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020060065290A external-priority patent/KR20070035410A/ko
Priority claimed from KR1020060065291A external-priority patent/KR20070035411A/ko
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2009518659A publication Critical patent/JP2009518659A/ja
Publication of JP2009518659A5 publication Critical patent/JP2009518659A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、データ符号化/復号化方法及び装置に関する。その復号化装置は、ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを抽出するアンパッキング部と、前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化する逆量子化部と、を備えることを特徴とする。本発明に係るマルチチャネルオーディオ信号の符号化/復号化方法及び装置によると、量子化ビットを減少させることができるから、効率的な符号化/復号化が可能になる。

Description

本発明は、マルチチャネルオーディオ信号の符号化/復号化方法及び装置に関し、特に、ビット率を減少させるためにマルチチャネルオーディオ信号の空間情報(Spatial parameter)を効率的に符号化及び復号化する方法及び装置に関する。
最近、デジタルオーディオ信号に対する多様なコーディング技術及び方法が開発されつつあり、これと関連した製品が生産されている。また、心理音響モデル(Psychoacoustic model)を用いたマルチャンネルオーディオ信号(multi−channel audio signal)のコーディング方法が開発されており、これに対する標準化作業が進められている。
心理音響モデルは、人間が音を認識する方式、例えば大きな音に続く小さな音は聞けず、20Hz〜20000Hzの周波数に該当する音のみを聞くことができるという事実を用いて、コーディング過程において不必要な部分に対するオーディオ信号を除去することによって、必要なデータの量を効果的に減らすことができるものである。
マルチャンネルオーディオ信号のビットストリームを構成するにおいて、従来では、符号化する情報に対して固定的量子化、例えば一つの量子化テーブルを用いて量子化を行ったため、ビット率が増加するという問題があった。
本発明は、上述の問題点に鑑みてなされたもので、その目的は、マルチチャネルオーディオ信号及びその空間情報を効率的に符号化/復号化する方法及び装置を提供し、任意のチャネルに拡張された場合にも適用されうるマルチチャネルオーディオ信号の符号化/復号化方法及び装置を提供することにある。
このために、本発明によるマルチチャネルオーディオ信号の符号化方法は、複数のチャネルのうち、二チャネル間のエネルギー差CLDを求めるステップと、前記二チャネルの位置的特性を考慮して、前記CLDを量子化するステップと、を含むことを特徴とする。
本発明によるマルチチャネルオーディオ信号の復号化方法は、ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを抽出するステップと、前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化するステップと、を含むことを特徴とする。
本発明によるマルチチャネルオーディオ信号の符号化装置は、前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを求める空間情報抽出部と、前記二チャネルの位置的特性を考慮して、前記CLDを量子化する量子化部と、を備えることを特徴とする。
本発明によるマルチチャネルオーディオ信号の復号化装置は、ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを抽出するアンパッキング部と、前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化する逆量子化部と、を備えることを特徴とする。
本発明によるまた他のマルチチャネルオーディオ信号の復号化装置は、ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLD及び量子化モードに対する情報を抽出するアンパッキング部と、前記量子化モードが第1モードである場合に、第1量子化テーブルを用いて前記量子化されたCLDを逆量子化し、第2モードである場合には、前記二チャネルの位置的特性を考慮した第2量子化テーブルを用いて、前記量子化されたCLDを逆量子化する逆量子化部と、を備えることを特徴とする。
本発明によるマルチチャネルオーディオ信号のビットストリームは、量子化された二チャネル間のエネルギー差CLDに対した情報を有するCLDフィールドと、前記量子化に使用された量子化テーブルに対する情報を有するテーブル情報フィールドと、を備え、前記量子化テーブルは、前記二チャネルの位置的特性を考慮したことを特徴とする。
本発明によるマルチチャネルオーディオ信号のビットストリームは、量子化される二チャネル間のエネルギー差(CLD)に対した情報を有するデータフィールドと、前記量子化されたCLDの集合を代表するパイロットに対する情報を有するパイロットフィールドと、及び前記量子化に使用された量子化テーブルに対する情報を有するテーブル情報フィールドを含んで、前記量子化テーブルは、前記二チャネルの位置的特性を考慮したことを特徴とする。
前記マルチチャネルオーディオ信号の符号化/復号化方法は、好ましくは、コンピュータで実行させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体で具現できる。
本発明に係るマルチチャネルオーディオ信号の符号化/復号化方法及び装置によると、量子化ビットを減少させることができるから、効率的な符号化/復号化が可能になる。
以下、本発明の好ましい実施の形態について詳細に述べるが、本発明が属する技術分野における通常の知識を有したものであれば、添付された請求の範囲に定義された本発明の精神及び範囲から逸脱しない範囲内で本発明を様々に変形又は変更して実施できるということが分かるはずである。したがって、本発明の今後の実施の形態の変更は、本発明の技術範囲に属するものとする。
以下、添付された図面を参照しつつ本発明に係るマルチチャネルオーディオ信号の符号化/復号化方法及び装置について詳細に説明する。
図1は、本発明に係るマルチチャネルオーディオ信号の符号化装置(encoder)及び復号化装置(decoder)の構成に対する一実施の形態を示したブロック図である。
マルチチャネルオーディオ信号の符号化装置は、ダウンミックス部110及び空間情報測定部120を備え、復号化装置は、空間情報復号化部130及び空間情報合成部140を備える。ダウンミックス部110は、5.1チャネルなどのマルチチャネルソースからステレオ又はモノにダウンミックスされた信号を作り出し、空間情報測定部(Spatial Parameter Estimation unit)120は、マルチチャネルを生成させるのに必要な空間情報を求める。
空間情報は、マルチチャネルのうち、二チャネル間のエネルギー差を表すCLD(Channel Level Difference)、二チャネル信号から三チャネル信号を生成するために用いられる予測係数であるCPC(Channel Prediction Coefficient)、二チャネル間の相関関係(correlation)を表すICC(Inter Channel Correlation)、及び二チャネル間の時間差を表すCTD(Channel Time Difference)などを備える。
ダウンミックス信号は、場合によって外部で加工した任意のダウンミックス信号(Artistic Downmix)103に入力される場合もある。空間情報復号化部130は、送信された空間情報(spatial parameter)を復号化し、空間情報合成部(Spatial Synthesis)140では、符号化されたダウンミックス信号を復号化し、空間情報と前記復号化されたダウンミックスされた信号とを用いて、マルチチャネルオーディオ信号105を合成する。
図2は、マルチチャネルの構成に対する一実施形態を示したものであって、5.1チャネルの使用例を示す。図2では、位置に関わらないLFE(Low Frequency Enhancement)チャネルである0.1チャネルは省略した。図3に示すように、左側チャネル(Left Channel)L、右側チャネル(Right Channel)Rは、センターチャネル(Center Channel)Cを基準にそれぞれ30度ずつ離れて位置し、左側サラウンドチャネル(Left Surround Channel)Lsと右側サラウンドチャネル(Right Surround Channel)Rsは、センターチャネル(Center Channel)を基準にそれぞれ110度ずつ、左側チャネル(Left Channel)と右側チャネル(Right Channel)とを基準にそれぞれ80度ずつ離れて位置できる。
図3は、人間がオーディオ信号を認識する方法を説明するための図であって、オーディオ信号に対する空間情報を人間がどのように認識するかを示す。マルチャンネルオーディオ信号に対するコーディング方法は、人間がオーディオ信号を3次元的空間と認知するという事実に基づき、複数のパラメータセット(parameter sets)により前記オーディオ信号を3次元的空間情報で表現できたということを用いる。マルチャンネルオーディオ信号の空間情報を表示するための空間情報(Spatial Parameter)には、CLD(Channel level differences)、ICC(Inter Channel Coherences)及びCPC(Channel Prediction Coefficients)、CTD(Channel Time Difference)などがありうる。CLDは、チャネル間のレベル差を表す値であり、レベル差とは、エネルギー差を意味する。ICCは、二チャネル間の相関関係を意味し、CPCは、二チャネルから三チャネルを生成するときに用いられる予測係数(prediction coefficient)を意味し、CTDは、二チャネル間の時間差を意味する。
人間がオーディオ信号をどのように空間的に認識し、空間パラメータの概念がどのように生成されるかは図3に示される。遠距離にある音源301からの直接的な音波(direct sound wave)303が人間の左側耳307に到達し、さらに他の直接的な音波302は、頭の周囲で回折されて右側耳306に到達するようになる。二音波302及び303は、到達時間及びエネルギーレベルで差を見せるようになり、このような差がCLD、CPC及びCTDなどを生成するようになる。
上記のような原理で生成された空間情報の量子化を行うにおいて、本発明を適用すると、より効率的な量子化を行うことができる。
図4は、本発明に係るマルチチャネルオーディオ信号の空間情報符号化装置の構成に対する一実施の形態を示したブロック図である。
マルチチャネルオーディオ信号が入力されると、フィルタバンク300を通過してサブバンド別に分けられる。フィルタバンク401は、すべての周波数帯域にわたったオーディオ信号を各サブバンド別に分け、フィルタバンク401には、サブバンドフィルタバンク(sub−band filter bank)又はQMF(Quadrature Mirror Filter)フィルタバンクなどが使用されうる。
空間情報抽出部402は、サブバンド別に分けられたオーディオ信号から空間情報を抽出する。量子化部403は、前記抽出された空間情報、好ましくは、複数のチャネルのうち、二チャネル間のエネルギー差CLDを前記二チャネルの位置的特性を考慮して量子化する。すなわち、前記CLDを量子化するために用いられる量子化テーブルは、前記二チャネルの位置的特性を考慮して構成される。例えば、左側チャネルLと右側チャネルRのCLDとを量子化するための量子化ステップのサイズ又は量子化ステップの数は、左側チャネルLと左側サラウンドチャネルLsのCLDを量子化するための量子化ステップのサイズ又は量子化ステップの数と異なりうる。
本発明に係る空間情報量子化方法に対する第1の実施の形態を、図13に示すフローチャートを参照して説明する。
空間情報抽出部402は、サブバンド別に分けられたオーディオ信号から空間情報を抽出する(ステップ940)。空間情報には、CLD、CTD、ICC又はCPCなどが含まれることができる。量子化部403は、前記抽出された空間情報のうち、CLDを所定の角度を量子化ステップのサイズ(quatization step size)にする量子化テーブルを用いて量子化する(ステップ945)。
量子化部403は、前記量子化されたCLD値に対応するインデックス情報をビットストリーム生成部404に出力することが好ましい。前記CLDは、以下の式1のように、マルチチャネルオーディオ信号の電力比(power ratio)のログ形態で定義されうる。
Figure 2009518659
前記式1において、nは、タイムスロットインデックスを表し、mは、ハイブリッドサブバンドインデックスを表す。
ビットストリーム生成部404は、前記量子化されたCLDを備える空間情報とダウンミックスされたオーディオ信号などとを用いて、ビットストリームを生成する。
図5は、図4の量子化部が音源の仮想位置を抽出する方法に対する第1の実施の形態を説明するために示したものであって、サイン/タンジェント法則を説明するための振幅パンニング法(Amplitude Panning Law)を示す。
聴取者が正面を見ている場合に、2つのチャネルの大きさを適切に調節すると、C点のように、任意の位置に仮想音源を位置させることができる。この場合に、音源の仮想位置の二チャネルの大きさは、チャネル間の角度と位置しようとする音源の位置に応じて、以下の式2のように表現されることができる。
Figure 2009518659
前記式2において、φは、音源がセンターから離れている角度を意味し、φは、対称に位置したスピーカーの角度を意味する。gは、対応するチャネルに対するゲイン因子(gain factor)を意味する。
聴取者が仮想音源を見ている場合には、前記式2は、以下の式3のように表現されることができる。
Figure 2009518659
前記式1、式2及び式3に基づいて、CLDは、以下の式4のように定義されうる。
Figure 2009518659
また、前記式2と式4に基づいて、CLDは、音源の角度とその周辺の二チャネルの角度に応じて、以下の式5及び式6のように表現されることができる。
Figure 2009518659
Figure 2009518659
前記式5及び式6を用いて、それぞれのCLD値は、一つの角度φに対応できる。すなわち、前記式5及び式6を用いて、二チャネル間のエネルギーレベル差であるCLDは、前記二チャネルの間で仮想音源が位置する地点の角度φに対応できる。
図6は、図4の量子化部403が音源の仮想位置を抽出する方法に対する第2の実施の形態を説明するために示されたものである。
任意のスピーカーの位置が図6のように配置されているとき、CLDは、前記式4及び式5に基づいて、以下の式7及び式8のように表現されることができる。
〔式7〕
CLD=20log(G
Figure 2009518659
前記式8において、θは、i番目のチャネルとi−1番目のチャネルとの間に位置している仮想音源の角度を意味し、Φは、i番目のスピーカーの角度を意味する。
前記式7及び式8を利用すると、任意のスピーカー構造に対してもCLDをある二チャネル間で仮想音源が位置する地点の角度に対応させることができる。
図7は、複数のチャネルのうち、二チャネル間を所定の角間隔に分割する方法に対する一実施の形態を示したものであって、30度の角を有するセンターチャネルと左側チャネルとの間を分割する場合を示したものである。
人間の空間情報知覚力の分解能とは、人間が任意の音に関する空間情報に対して認識できる最小限の差を意味するものであって、心理音響の研究によると、人間の空間情報知覚力の分解能は、約3度である。したがって、CLDの量子化のための量子化ステップのサイズは、3度又はそれに近い値を有することが好ましく、それにより、前記センターチャネルと左側チャネルとの間を3度の角度間隔に分割することが好ましい。
図8の場合に、Φ−Φi−1は30度であるから、Φを0度から30度まで3度ずつ増加させながらCLDを計算すると、以下の表1のとおりである。
Figure 2009518659
前記表1を量子化テーブルとして用いて、センターチャネルと左側チャネルとの間のCLDを量子化できる。表1を量子化テーブルとして用いる場合に、センターチャネルと左側チャネルとの間のCLDを量子化するための量子化ステップの数(number of quantization step)は、11ステップになる。
図8は、図4の量子化部が量子化テーブルを用いてCLDを量子化する方法に対する一実施形態を示すものである。図8に示すように、量子化テーブルの角度のうち、互いに隣接した二角度の平均値を量子化基準値(threshold)として設定できる。
30度の角度を有するセンターチャネル(center channel)と右側チャネル(right channel)との間を3度間隔に分割してCLD量子化を行う場合を例に挙げてCLD量子化方法について説明すると、以下のとおりである。
前記式7及び式8を用いて、空間情報抽出部402により抽出されたCLDを仮想音源位置の角度に変換する。前記変換されたCLD角度が1.5度と4.5度との間の値を有すると、前記抽出されたCLD値は、表1のような量子化テーブルにおいて3度に対応するCLD値に量子化される。
また、変換されたCLD角度が4.5度と7.5度との間の値を有する場合に、前記抽出されたCLD値は、表1のような量子化テーブルにおいて6度に対応するCLD値に量子化される。
量子化されたCLD値は、その対応するインデックス情報で表現されることが好ましく、そういう場合に、表1は、以下の表2のようなインデックスを含む量子化テーブルとして表現されることができる。
Figure 2009518659
前記表2は、前記表1に現れたCLDのうち、小数点以下の値を除いたものであり、∞値を150としたものである。
前記表2に現れたCLD値は、絶対値が同じく、符号のみが異なる対が存在するので、前記表2の量子化テーブルは、以下の表3のように簡単に表現されうる。
Figure 2009518659
3以上のチャネルのCLD量子化を行う場合に、二チャネルの対のそれぞれに対して互いに異なる量子化テーブルが使用されることができる。すなわち、それぞれ異なる配置を有したチャネルに対して、その配置に合うCLD量子化テーブルを使用することができる。各チャネル対に対するCLD量子化テーブルは、前記説明した方法により生成されることができる。
次の表4は、60度の狭角を有する左側チャネルと右側チャネルとの間のCLDを量子化するための量子化テーブルに対する実施の形態を示すものであって、前記量子化テーブルは、3度の量子化ステップのサイズを有する。
Figure 2009518659
次の表5は、80度の狭角を有する左側チャネルと左側サラウンドチャネルとの間のCLDを量子化するための量子化テーブルに対する実施の形態を示すものであって、前記量子化テーブルは、3度の量子化ステップのサイズを有する。
Figure 2009518659
前記表5の量子化テーブルは、80度の狭角を有する右側チャネルと右側サラウンドチャネルとの間のCLDを量子化するための量子化テーブルとしても使用されることができる。
次の表6は、80度の狭角を有する左側サラウンドチャネルと右側サラウンドチャネルとの間のCLDを量子化するための量子化テーブルに対する実施の形態を示すものであって、前記量子化テーブルは、3度の量子化ステップのサイズを有する。
Figure 2009518659
前記したような本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法を使用してCLDを量子化する場合に、CLD値に線形的にCLDを量子化せず、二チャネルの間で音源が位置する角度に線形的に量子化して心理音響モデルに適し、かつ効率的な量子化を行うことができる。
前記したような本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法は、CLDのみならず、ICC、CPCなどのような空間情報に対しても適用可能でありうる。
復号化装置でCLDの量子化に使用された量子化テーブルを有していない場合に、前記使用された量子化テーブルに対する情報がビットストリーム生成部404で生成されるビットストリームに含まれて復号化装置に送信されることが好ましい。
符号化装置で使用された量子化テーブルに対する情報をビットストリームに含めて送信する方法に対する第1の実施の形態として、量子化テーブルが有するすべての値、すなわちインデックス及びそれに対応するCLD値に対する情報を全てビットストリームに含めることができる。
符号化装置で使用された量子化テーブルに対する情報をビットストリームに含めて送信する方法に対する第2の実施の形態として、復号化装置で量子化テーブルを生成できるようにするための情報を送信できる。例えば、量子化テーブルが有する最小角度及び最大角度と量子化ステップの数に対する情報をビットストリームに含めて復号化装置に送信すると、復号化装置は、前記送信された情報及び前記式7及び式8を用いて符号化装置で使用されたCLD量子化テーブルを生成できる。
本発明に係る空間情報量子化方法に対する第2の実施の形態を、図15に示すフローチャートを参照して説明する。本発明に係る空間情報量子化方法は、互いに異なる量子化分解能を有する2以上の量子化テーブルを使用して、空間情報を量子化できる。
空間情報抽出部402は、サブバンド別に分けられたオーディオ信号から空間情報を抽出する(ステップ950)。空間情報には、CLD、CTD、ICC又はCPCなどが含まれることができる。
量子化部403は、フル量子化分解能(full quantization resolution)を有するファインモード(fine mode)と前記ファインモードより低い量子化分解能を有するコースモード(coarse mode)のうちのいずれか一つを量子化モードと決定する(ステップ955)。前記ファインモードの量子化ステップの数は、前記コースモードの量子化ステップの数より多く、前記ファインモードの量子化ステップのサイズは、前記コースモードの量子化ステップのサイズより小さい。
量子化部403は、符号化するオーディオ信号のエネルギーに応じて、ファインモードとコースモードのうちのいずれか一つを量子化モードと決定できる。心理音響モデルによると、オーディオ信号のエネルギーが小さな場合より大きな場合に、より精密に処理することが効率的であるため、量子化部320は、符号化するオーディオ信号のエネルギーが基準値以上である場合にファインモードで量子化し、基準値より小さな場合にはコースモードで量子化できる。
例えば、量子化部320は、R−OTTモジュールの信号の大きさと全体信号の大きさとを比較して、R−OTTモジュールで処理する信号の大きさが小さな場合にコースモードで量子化し、R−OTTモジュールで処理する信号の大きさが大きな場合には、ファインモードで量子化できる。
モジュール構成が5−1−5−1の場合に、R−OTT3に入力されるオーディオ信号に対するCLD量子化モードを決定するために、量子化部403は、符号化する全体オーディオ信号のエネルギーと左側チャネルと右側チャネルとに入力されるオーディオ信号のエネルギーとを比較することによって、量子化モードを決定できる。
量子化モードがファインモードである場合に、量子化部403は、フル量子化分解能を有する第1量子化テーブルを用いてCLDを量子化する(ステップ960)。前記第1量子化テーブルは、31個の量子化ステップの数を有して、二チャネル間のCLD値を31段階に分けて量子化できる。また、量子化モードがファインモードである場合に、複数のチャネルのうち、二チャネル対の各々に対して同じ量子化ステップの数を有することができる。
量子化モードがコースモードである場合に、量子化部403は、前記第1量子化テーブルより低い量子化分解能を有する第2量子化テーブルを用いて、CLDを量子化する(ステップ965)。前記第2量子化テーブルは、所定の角度を量子化ステップのサイズとして有することが好ましい。前記第2量子化テーブルを構成する方法及びそれを用いて量子化する方法については、図7〜図8を参照して説明した方法と同様でありうる。
本発明に係る空間情報量子化方法に対する第3の実施の形態を、図15に示すフローチャートを参照して説明する。
空間情報抽出部402は、サブバンド別に分けられたオーディオ信号から空間情報を抽出する(ステップ970)。空間情報には、CLD、CTD、ICC又はCPCなどが含まれることができる。量子化部403は、前記抽出された空間情報のうち、CLDを互いに異なる2以上の角を量子化ステップのサイズにする量子化テーブルを用いて量子化する(ステップ975)。量子化部403は、前記量子化されたCLD値に対応するインデックス情報をエンコーディング部404に出力することが好ましい。
図9は、複数のチャネルのうち、二チャネル間を互いに異なる2以上の角間隔に分割する方法に対する一実施の形態を示したものであって、これは、前記二チャネルの位置的特性に応じて、可変的な角度でCLD量子化を行うためである。
心理音響研究によると、人間の空間情報知覚力の分解能は、音源の位置に応じて変わり、音源が正面に位置する場合には、人間の空間情報知覚力の分解能が3.6度、側面に位置する場合には、9.2度、後面の場合には、5.5度になりうる。
前記心理音響研究に基づいて、正面の場合には、3.6度又はそれに近い角度間隔に量子化ステップのサイズを設定し、側面の場合には、9.2度又はそれに近い角度間隔に量子化ステップのサイズを設定し、後面の場合には、5.5度又はそれに近い角度間隔に量子化ステップのサイズを設定できる。
正面と側面又は側面と後面の互いに異なる間隔が滑らかに連結されるように、角度間隔を非均一に適用することもできる。すなわち、正面から側面方向へ行くほど、分割する角度間隔を増加させて量子化ステップのサイズを増加させ、側面から後面方向に行くほど、分割する角度間隔を減少させることによって、量子化ステップのサイズを減少させることができる。
図9に示すように、マルチチャネルのうち、チャネルXは、正面方向に位置しており、チャネルYは、側面方向に位置し、チャネルZは、後面方向に位置している。チャネルXとチャネルYとの間のCLD値を測定する場合に、チャネル間を分割するにおいて、αからαまでk個の間隔に分割し、角間隔の大きさは、以下の式9のような特性を有することができる。
〔式9〕
α≦α≦・・・≦α
また、チャネルYとチャネルZとの間のCLD値を測定する場合に、両チャネル間を分割するにおいては、チャネルYから側面方向へ行くほど、分割される角間隔は順次増加し、再度側面からチャネルZ方向へ行くほど、分割される角間隔は順次減少する。すなわち、チャネルYとチャネルZとの間の分割される角間隔は、以下の式10及び式11のような特性を有することができる。
〔式10〕
β≦β≦・・・≦β
〔式11〕
γ≧γ≧・・・≧γ
前記α、β、γは、二チャネル間を互いに異なる2以上の角間隔に分割する方法に対する一実施形態を説明するための角度に過ぎず、マルチチャネルの個数及び位置特性に応じて4以上の角を必要とすることができる。
また、角度α、β、γは、それぞれ一定の角度であり、可変的な角度でもありうる。ただし、複数のチャネル間を分割する間隔の角度が全て同じ場合は除く。したがって、それぞれ一定の角度である場合には、以下の式12のような特性を有することができる。
〔式12〕
α≦γ≦β(但し、α=β=γの場合は除く)
前記式12に現れた特性は、人間の空間情報知覚力の分解能によるものであって、例えばα=3.6度、β=9.2度、γ=5.5度の値を有することができる。
以下の表7は、30度の狭角を有するセンターチャネルと左側チャネルとの間を互いに異なる2以上の角間隔に分割し、該分割された角のそれぞれに対してCLD値を対応させたものである。
Figure 2009518659
前記角度は、仮想音源の位置がセンターチャネルとなす角を意味し、前記CLD(X)は、角Xに対応するCLD値を表すものであって、式11及び式12を用いて計算できる。
前記表7を量子化テーブルとして用いて、センターチャネルと左側チャネルとの間のCLDを量子化できる。表7を量子化テーブルとして用いる場合に、センターチャネルと左側チャネルとの間のCLDを量子化するための量子化ステップの数は、11ステップになる。
表7の場合に、正面から左側方向へ行くほど、角間隔が増加するに伴って量子化ステップのサイズが増加し、これは、正面から左側方向へ行くほど、人間の空間情報知覚力の分解能が増加することを反映したものである。
量子化されたCLD値は、その対応するインデックス情報で表現されることが好ましく、そういう場合に、表7は、以下の表8のようなインデックスを含む量子化テーブルで表現されることができる。
Figure 2009518659
図11は、図4の量子化部が量子化テーブルを用いてCLDを量子化する方法に対する一実施の形態を示すものである。図11に示すように、量子化テーブルの角度のうち、互いに隣接した二角度の平均値を量子化基準値として設定できる。
図10に示すように、正面のチャネルAと右側面のチャネルBとの間のCLDを量子化する場合に、両チャネル間を以下の式13のような値を有するθ、θ、 、θの間隔に分割できる。
〔式13〕
θ≦θ≦・・・≦θ
前記式13は、チャネルの位置特性に応じたものであって、正面から側面へ行くほど、人間の空間知覚能力の分解能が大きくなるのを反映したものである。
量子化部403は、前記式7及び式8を用いて空間情報抽出部402により抽出されたCLDを仮想音源位置の角度に変換する。
図10に示すように、角度に変換されたCLD値が(θ/2)と(θ+θ/2)との間の場合に、前記抽出されたCLDは、量子化テーブルでθに対応するCLD値に量子化される。また、角度に変換されたCLD値が(θ+θ/2)と(θ+θ+θ/2)と間の場合には、前記抽出されたCLDは、量子化テーブルで(θ+θ)に対応するCLD値に量子化される。
3以上のチャネルのCLD量子化を行う場合に、二チャネルの対のそれぞれに対して互いに異なる量子化テーブルが使用されうる。すなわち、それぞれ異なる配置を有したチャネルに対して、その配置に合うCLD量子化テーブルを使用することができる。各チャネル対に対するCLD量子化テーブルは、前記説明した方法により生成されうる。
前記したような本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法を使用してCLDを量子化する場合に、CLD値に線形的にCLDを量子化せずに、二チャネルの位置的特性を考慮して、互いに異なる2以上の角を量子化ステップのサイズにして量子化することによって、心理音響モデルに適し、かつ効率的な量子化を行うことができる。
前記したような本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法は、CLDのみならず、ICC、CPCなどのような空間情報に対しても適用可能である。
本発明に係る空間情報量子化方法に対する第4の実施の形態を、図16に示すフローチャートを参照して説明する。本発明に係る量子化方法は、互いに異なる量子化分解能を有する2以上の量子化テーブルを使用して空間情報を量子化できる。
空間情報抽出部402は、サブバンド別に分けられたオーディオ信号から空間情報を抽出する(ステップ980)。空間情報には、CLD、CTD、ICC又はCPCなどが含まれることができる。
量子化部403は、フル量子化分解能を有するファインモードと前記ファインモードより低い量子化分解能を有するコースモードのうちのいずれか一つを量子化モードと決定する(ステップ985)。前記ファインモードの量子化ステップの数は、前記コースモードの量子化ステップの数より多く、前記ファインモードの量子化ステップのサイズは、前記コースモードの量子化ステップのサイズより小さい。
量子化部320は、符号化するオーディオ信号のエネルギーに応じて、ファインモードとコースモードのうちのいずれか一つを量子化モードと決定できる。心理音響モデルによると、オーディオ信号のエネルギーが小さな場合より大きな場合に、より精密に処理することが効率的であるため、量子化部403は、符号化するオーディオ信号のエネルギーが基準値以上である場合にファインモードで量子化し、基準値より小さな場合にはコースモードで量子化できる。
例えば、量子化部403は、R−OTTモジュールの信号の大きさと全体信号の大きさとを比較して、R−OTTモジュールで処理する信号の大きさが小さな場合にコースモードで量子化し、R−OTTモジュールで処理する信号の大きさが大きい場合にはファインモードで量子化できる。
モジュール構成が5−1−5−1の場合に、R−OTT3に入力されるオーディオ信号に対するCLD量子化モードを決定するために、量子化部403は、符号化する全体オーディオ信号のエネルギーと左側チャネルと右側チャネルとに入力されるオーディオ信号のエネルギーとを比較することによって、量子化モードを決定できる。
量子化モードがファインモードである場合に、量子化部320は、フル量子化分解能を有する第1量子化テーブルを用いて、CLDを量子化する(ステップ990)。前記第1量子化テーブルは、31個の量子化ステップの数を有して、二チャネル間のCLD値を31段階に分けて量子化できる。また、量子化モードがファインモードである場合に、複数のチャネルのうち、二チャネル対の各々に対して同じ量子化ステップの数を有することができる。
量子化モードがコースモードである場合には、量子化部320は、前記第1量子化テーブルより低い量子化分解能を有する第2量子化テーブルを用いて、CLDを量子化する(ステップ995)。前記第2量子化テーブルは、互いに異なる2以上の角を量子化ステップのサイズとして有することが好ましい。前記第2量子化テーブルを構成する方法及びそれを用いて量子化する方法については、図9〜図10を参照して説明した方法と同様でありうる。
復号化装置において、CLDの量子化に使用された量子化テーブルを有していない場合に、前記使用された量子化テーブルに対する情報がビットストリーム生成部404から生成されるビットストリームに含まれて復号化装置に送信されることが好ましい。
符号化装置で使用された量子化テーブルに対する情報をビットストリームに含めて送信する方法に対する第1の実施の形態として、量子化テーブルが有するすべての値、すなわちインデックス及びそれに対応するCLD値に対する情報を全てビットストリームに含めることができる。
符号化装置で使用された量子化テーブルに対する情報をビットストリームに含めて送信する方法に対する第2の実施の形態として、復号化装置で量子化テーブルを生成できるようにするための情報を送信できる。例えば、量子化テーブルが有する最小角度及び最大角度と量子化ステップの数及び互いに異なる2以上の角間隔に対する情報をビットストリームに含めて復号化装置に送信すると、復号化装置は、前記送信された情報及び前記式7及び式8を用いて符号化装置で使用されたCLD量子化テーブルを生成できる。
図11は、図4の空間情報抽出部の構成に対する一実施の形態をブロック図で示したものであって、図11に示すように、空間情報抽出部は、第1空間情報測定部911及び第2空間情報測定部913を備えて構成されることができる。
第1空間情報測定部911は、入力されたマルチチャネルオーディオ信号から複数のチャネル間のレベル差CLD値を測定する。第2空間情報測定部913は、複数のチャネルのうち、二チャネル間を一定の角度又は2以上の互いに異なる角度に分割して、前記二チャネルの組み合せに合う量子化テーブルを構成する。量子化部920は、抽出されたCLDを前記構成された量子化テーブルに応じて量子化する。
図12は、本発明に係るマルチチャネルオーディオ信号の空間情報復号化装置の構成に対する一実施の形態をブロック図で示したものであって、図12に示された復号化装置は、アンパッキング部930、差分復号化部932及び逆量子化部935を備えてなる。
アンパッキング部930は、受信されあビットストリームから量子化された二チャネル間のエネルギー差CLDを抽出する。逆量子化部935は、前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化する。
本発明に係る空間情報復号化方法に対する第1の実施の形態を、図17に示すフローチャートを参照して説明する。
アンパッキング部930は、受信されたビットストリームから量子化された空間情報CLDを抽出する(ステップ1000)。逆量子化部935は、所定の角度を量子化ステップのサイズとして有する量子化テーブルを用いて、前記抽出された量子化されたCLDを逆量子化する(ステップ1005)。
前記ビットストリームから抽出された量子化されたCLDは、インデックスからなることが好ましく、前記インデックスは、前記量子化ステップのサイズである所定の角度を基準に区分されることが好ましい。また、前記量子化テーブルの量子化ステップのサイズは、3度又はそれに近い値を有することが好ましい。
前記逆量子化に用いられる量子化テーブルは、前記図7〜図8を参照して説明した符号化装置で用いられる量子化テーブルと同様なので、前記復号化に用いられる量子化テーブルに対する説明は省略する。
逆量子化部930が前記量子化テーブルに対する情報を有していない場合に、アンパッキング部930は、受信されたビットストリームから前記量子化テーブルに対する情報を抽出することが好ましく、逆量子化部930は、前記抽出された量子化テーブル情報を用いて、逆量子化に使用される量子化テーブルを構成することが好ましい。
ビットストリームに含まれる量子化テーブル情報に対する第1の実施の形態として、量子化テーブルが有するすべての値、すなわちインデックス及びそれに対応するCLD値に対する情報を全てビットストリームに含めることができる。
ビットストリームに含まれる量子化テーブル情報に対する第2の実施の形態として、量子化テーブルが有する最小角度及び最大角度と量子化ステップの数に対する情報をビットストリームに含めることができる。
図18は、本発明に係る空間情報復号化方法に対する第2の実施の形態をフローチャートで示したものであって、図18に示すように、互いに異なる量子化分解能を有する2以上の量子化テーブルを使用して、空間情報を逆量子化できる。
アンパッキング部930は、受信されたビットストリームから量子化された空間情報CLDと量子化モードに対する情報を抽出する(ステップ1010)。
逆量子化部935は、前記抽出された量子化モード情報を用いて、符号化装置で使用した量子化モードがフル量子化分解能を有するファインモードと前記ファインモードより低い量子化分解能を有するコースモードのうちのいずれか一つであるか否かを確認する(ステップ1015)。前記ファインモードの量子化ステップの数は、前記コースモードの量子化ステップの数より多く、前記ファインモードの量子化ステップのサイズは、前記コースモードの量子化ステップのサイズより小さい。
量子化モードがファインモードである場合に、逆量子化部935は、フル量子化分解能を有する第1量子化テーブルを用いて、前記量子化されたCLDを逆量子化する(ステップ1020)。前記第1量子化テーブルは、31個の量子化ステップの数を有して、二チャネル間のCLD値を31段階に分けて量子化できる。また、量子化モードがファインモードである場合には、複数のチャネルのうち、二チャネル対の各々に対して同じ量子化ステップの数を有することができる。
量子化モードがコースモードである場合に、逆量子化部935は、前記第1量子化テーブルより低い量子化分解能を有する第2量子化テーブルを用いて、前記量子化されたCLDを逆量子化する(ステップ1025)。前記第2量子化テーブルは、所定の角度を量子化ステップのサイズとして有することが好ましい。前記所定の角度を量子化ステップのサイズとして有する第2量子化テーブルは、図7〜図8を参照して説明した量子化テーブルと同様でありうる。
本発明に係る空間情報復号化方法に対する第3の実施の形態を、図19に示すフローチャートを参照して説明する。
アンパッキング部930は、ビットストリームから量子化された空間情報CLDを抽出する(ステップ1030)。逆量子化部935は、互いに異なる2以上の角を量子化ステップのサイズとして有する量子化テーブルを用いて、前記抽出された量子化されたCLDを逆量子化する(ステップ1035)。
前記ビットストリームから抽出された量子化されたCLDは、インデックスからなることが好ましく、前記インデックスは、量子化ステップのサイズである互いに異なる2以上の角を基準に区分されることが好ましい。
前記逆量子化に用いられる量子化テーブルは、前記図9〜図10を参照して説明した符号化装置で用いられる量子化テーブルと同様なので、前記復号化に用いられる量子化テーブルに対する説明は省略する。
逆量子化部930が前記量子化テーブルに対する情報を有していない場合に、アンパッキング部930は、受信されたビットストリームから前記量子化テーブルに対する情報を抽出することが好ましく、逆量子化部930は、前記抽出された量子化テーブル情報を用いて、逆量子化に使用される量子化テーブルを構成することが好ましい。
ビットストリームに含まれる量子化テーブル情報に対する第1の実施の形態として、量子化テーブルが有するすべての値、すなわちインデックス及びそれに対応するCLD値に対する情報を全てビットストリームに含めることができる。
ビットストリームに含まれる量子化テーブル情報に対する第2の実施の形態として、量子化テーブルが有する最小角度及び最大角度と量子化ステップの数及び互いに異なる2以上の角間隔に対する情報をビットストリームに含めることができる。
図20は、本発明に係る空間情報復号化方法に対する第4の実施の形態をフローチャートで示したものであって、図20に示すように、互いに異なる量子化分解能を有する2以上の量子化テーブルを使用して空間情報を逆量子化できる。
アンパッキング部930は、ビットストリームから量子化された空間情報CLDと量子化モードに対する情報とを抽出する(ステップ1040)。
逆量子化部935は、前記抽出された量子化モード情報を用いて、符号化装置で使用した量子化モードがフル量子化分解能を有するファインモードと前記ファインモードより低い量子化分解能を有するコースモードのうちのいずれか一つであるか否かを確認する(ステップ1045)。前記ファインモードの量子化ステップの数は、前記コースモードの量子化ステップの数より多く、前記ファインモードの量子化ステップのサイズは、前記コースモードの量子化ステップのサイズより小さい。
量子化モードがファインモードである場合に、逆量子化部935は、フル量子化分解能を有する第1量子化テーブルを用いて、前記量子化されたCLDを逆量子化する(ステップ1050)。前記第1量子化テーブルは、31個の量子化ステップの数を有して、二チャネル間のCLD値を31段階に分けて量子化できる。また、量子化モードがファインモードである場合に、複数のチャネルのうち、二チャネル対の各々に対して同じ量子化ステップの数を有することができる。
量子化モードがコースモードである場合には、逆量子化部935は、前記第1量子化テーブルより低い量子化分解能を有する第2量子化テーブルを用いて、前記量子化されたCLDを逆量子化する(ステップ1055)。前記第2量子化テーブルは、互いに異なる2以上の角を量子化ステップのサイズとして有することが好ましい。前記互いに異なる2以上の角を量子化ステップのサイズとして有する第2量子化テーブルは、図9〜図10を参照して説明した量子化テーブルと同様でありうる。
また、本発明は、コンピュータで読み出すことができる記録媒体にコンピュータが読み出すことができるコードとして具現することが可能である。コンピュータが読み出すことができる記録媒体は、コンピュータシステムによって読み出されることができるデータが格納されるすべての種類の記録装置を含む。コンピュータが読み出すことができる記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ格納装置などがあり、またキャリアウェーブ(例えば、インターネットを介した送信)の形態で具現されることも含む。
以上で説明したように、本発明に係るマルチチャネルオーディオ信号の符号化/復号化方法及び装置によると、量子化ビットを減少させることができるから、効率的な符号化/復号化が可能になる。任意の複数のチャネル間のCLD値を求めるにおいて、一律的に各チャネル間を31段階に区分して行うことによって、5ビットを必要としたが、本発明では、これを一定の角度に分割することによって、例えば、3度間隔に分割する場合に、センターチャネルと左側チャネルとの間は30度であるから、11段階に分割できるので、4ビット以下でも充分になった。したがって、量子化ビットの減少を期待することができる。
また、本発明は、実際のスピーカーの配置情報を活用して量子化を行うことによって、より効率的な符号化/復号化が可能になる。チャネル数が増加すると、31*Nの関数で(Nは、チャネルの数)情報量が増加するようになるが、本発明では、チャネル数が増加すると、各チャネル間のCLD量子化ステップが減少して、全体情報量は、一定に維持されるという効果がある。したがって、本発明は、5.1チャネルのみならず、任意のチャネルに拡張された場合にも同じ方法で適用可能なので、効率的な符号化/復号化を行うことができる。
本発明に係るマルチチャネルオーディオ信号の符号化装置(encoder)及び復号化装置(decoder)の構成に対する一実施の形態を示すブロック図である。 マルチチャネルの構成に対する一実施の形態を示す図である。 人間がオーディオ信号を認識する方法を説明するための図である。 本発明に係るマルチチャネルオーディオ信号の空間情報符号化装置の構成に対する一実施の形態を示すブロック図である。 図4の量子化部が音源の仮想位置を抽出する方法に対する第1の実施の形態を説明するための図である。 図4の量子化部が音源の仮想位置を抽出する方法に対する第2の実施の形態を説明するための図である。 複数のチャネルのうち、二チャネル間を所定の角間隔に分割する方法に対する一実施の形態を示す図である。 図4の量子化部が量子化テーブルを用いて二チャネル間のエネルギー差(Channel Level Difference)CLDを量子化する方法に対する一実施の形態を示す図である。 複数のチャネルのうち、二チャネル間を互いに異なる2以上の角間隔に分割する方法に対する一実施の形態を示す図である。 図4の量子化部が量子化テーブルを用いて二チャネル間のエネルギー差(Channel Level Difference)CLDを量子化する方法に対する一実施の形態を示す図である。 図4の空間情報抽出部の構成に対する一実施の形態を示すブロック図である。 本発明に係るマルチチャネルオーディオ信号の空間情報復号化装置の構成に対する一実施の形態を示すブロック図である。 本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法に対する第1の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法に対する第2の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法に対する第3の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報符号化方法に対する第4の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報復号化方法に対する第1の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報復号化方法に対する第2の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報復号化方法に対する第3の実施の形態を示すフローチャートである。 本発明に係るマルチチャネルオーディオ信号の空間情報復号化方法に対する第4の実施の形態を示すフローチャートである。

Claims (27)

  1. 複数のチャネルを有するオーディオ信号を符号化するマルチチャネルオーディオ信号の符号化方法であって、
    前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを求めるステップと、
    前記二チャネルの位置的特性を考慮して、前記CLDを量子化するステップと、
    を有することを特徴とするマルチチャネルオーディオ信号の符号化方法。
  2. 前記複数のチャネルのうち、第1、2チャネルのCLDを量子化するためのステップの数と第3、4チャネルのCLDを量子化するためのステップの数とは互いに異なる、請求項1に記載のマルチチャネルオーディオ信号の符号化方法。
  3. 前記量子化ステップは、一定の角度を量子化ステップのサイズにして、前記CLDを量子化する、請求項1に記載のマルチチャネルオーディオ信号の符号化方法。
  4. 前記量子化ステップは、互いに異なる2以上の角を量子化ステップのサイズにして、前記求められた二チャネル間のエネルギー差CLDを量子化するステップを含む、請求項1に記載のマルチチャネルオーディオ信号の符号化方法。
  5. ビットストリームを受信して、複数のチャネルを有するオーディオ信号を復号化する方法であって、
    前記ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを抽出するステップと、
    前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化するステップと、
    を有することを特徴とするマルチチャネルオーディオ信号の復号化方法。
  6. 前記量子化テーブルにおいて、前記複数のチャネルのうち、第1、2チャネルのCLDを量子化するためのステップの数と第3、4チャネルのCLDを量子化するためのステップの数とは互いに異なる、請求項5に記載のマルチチャネルオーディオ信号の復号化方法。
  7. 前記量子化テーブルにおいて、一定の角度を量子化ステップのサイズにする、請求項5に記載のマルチチャネルオーディオ信号の復号化方法。
  8. 前記量子化テーブルにおいて、前記複数のチャネルのうち、第1、2チャネルのCLDを量子化するためのステップのサイズと第3、4チャネルのCLDを量子化するためのステップのサイズとが同じである、請求項7に記載のマルチチャネルオーディオ信号の復号化方法。
  9. 前記量子化テーブルにおいて、互いに異なる2以上の角を量子化ステップのサイズにする、請求項5に記載のマルチチャネルオーディオ信号の復号化方法。
  10. 前記量子化テーブルにおいて、前記二チャネルの位置に応じて量子化ステップのサイズが変化する、請求項9に記載のマルチチャネルオーディオ信号の復号化方法。
  11. 前記量子化テーブルにおいて、正面又は後面から左右側面方向へ行くほど、前記量子化ステップのサイズが増加する、請求項9に記載のマルチチャネルオーディオ信号の復号化方法。
  12. 前記ビットストリームから前記量子化テーブルに対する情報を抽出するステップと、
    前記抽出された情報を用いて、前記量子化テーブルを構成するステップと、をさらに有し、
    前記量子化テーブルに対する情報は、量子化ステップのサイズに対する情報、量子化分解能及び前記量子化テーブルのインデックスのうち、最小値又は最大値に対する情報を含む、
    請求項9に記載のマルチチャネルオーディオ信号の復号化方法。
  13. ビットストリームを受信して、複数のチャネルを有するオーディオ信号を復号化する方法であって、
    前記ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLD及び量子化モードに対する情報を抽出するステップと、
    前記量子化モードが第1モードである場合には第1量子化テーブルを用いて前記量子化されたCLDを逆量子化するステップと、前記量子化モードが第2モードである場合には前記二チャネルの位置的特性を考慮した第2量子化テーブルを用いて、前記量子化されたCLDを逆量子化するステップと、
    を有することを特徴とするマルチチャネルオーディオ信号の復号化方法。
  14. 前記第2量子化テーブルにおいて、前記複数のチャネルのうち、第1、2チャネルのCLDを量子化するためのステップの数と第3、4チャネルのCLDを量子化するためのステップの数とは互いに異なる、請求項13に記載のマルチチャネルオーディオ信号の復号化方法。
  15. 前記第2量子化テーブルにおいて、一定の角度を量子化ステップのサイズにする、請求項13に記載のマルチチャネルオーディオ信号の復号化方法。
  16. 前記第2量子化テーブルにおいて、互いに異なる2以上の角を量子化ステップのサイズにする、請求項13に記載のマルチチャネルオーディオ信号の復号化方法。
  17. 前記第2量子化テーブルにおいて、正面又は後面から左右側面方向へ行くほど、量子化ステップのサイズが増加する、請求項16に記載のマルチチャネルオーディオ信号の復号化方法。
  18. 複数のチャネルを有するオーディオ信号を符号化するマルチチャネルオーディオ信号の符号化装置であって、
    前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを求める空間情報抽出部と、
    前記二チャネルの位置的特性を考慮して、前記CLDを量子化する量子化部と、
    を有することを特徴とするマルチチャネルオーディオ信号の符号化装置。
  19. ビットストリームを受信して、複数のチャネルを有するオーディオ信号を復号化する装置であって、
    前記ビットストリームから量子化された前記複数のチャネルのうち、二チャネル間のエネルギー差CLDを抽出するアンパッキング部と、
    前記二チャネルの位置的特性を考慮した量子化テーブルを用いて、前記量子化されたCLDを逆量子化する逆量子化部と、
    を有することを特徴とするマルチチャネルオーディオ信号の復号化装置。
  20. 前記量子化テーブルにおいて、一定の角度を量子化ステップのサイズにする、請求項19に記載のマルチチャネルオーディオ信号の復号化装置。
  21. 前記量子化テーブルにおいて、互いに異なる2以上の角を量子化ステップのサイズにする、請求項19に記載のマルチチャネルオーディオ信号の復号化装置。
  22. 前記量子化テーブルにおいて、正面又は後面から左右側面方向へ行くほど、前記量子化ステップのサイズが増加する、請求項21に記載のマルチチャネルオーディオ信号の復号化装置。
  23. 請求項1に記載の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  24. 請求項5に記載の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み出すことができる記録媒体。
  25. マルチチャネルオーディオ信号のビットストリームであって、
    量子化された二チャネル間のエネルギー差CLDに対した情報を有するCLDフィールドと、
    前記量子化に使用された量子化テーブルに対する情報を有するテーブル情報フィールドと、を有し
    前記量子化テーブルは、前記二チャネルの位置的特性が考慮されている、
    を特徴とするマルチチャネルオーディオ信号のビットストリーム。
  26. 前記量子化テーブルにおいて、一定の角度を量子化ステップのサイズにする、請求項25に記載のマルチチャネルオーディオ信号のビットストリーム。
  27. 前記量子化テーブルにおいて、互いに異なる2以上の角を量子化ステップのサイズにする、請求項25に記載のマルチチャネルオーディオ信号のビットストリーム。
JP2008533239A 2005-09-27 2006-09-26 マルチチャネルオーディオ信号の符号化/復号化方法及び装置 Pending JP2009518659A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US72049505P 2005-09-27 2005-09-27
US75577706P 2006-01-04 2006-01-04
US78252106P 2006-03-16 2006-03-16
KR1020060065290A KR20070035410A (ko) 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
KR1020060065291A KR20070035411A (ko) 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
PCT/KR2006/003830 WO2007037613A1 (en) 2005-09-27 2006-09-26 Method and apparatus for encoding/decoding multi-channel audio signal

Publications (2)

Publication Number Publication Date
JP2009518659A true JP2009518659A (ja) 2009-05-07
JP2009518659A5 JP2009518659A5 (ja) 2010-05-20

Family

ID=37899989

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008533239A Pending JP2009518659A (ja) 2005-09-27 2006-09-26 マルチチャネルオーディオ信号の符号化/復号化方法及び装置
JP2008533244A Pending JP2009510514A (ja) 2005-09-27 2006-09-27 マルチチャネルオーディオ信号の符号化/復号化方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008533244A Pending JP2009510514A (ja) 2005-09-27 2006-09-27 マルチチャネルオーディオ信号の符号化/復号化方法及び装置

Country Status (6)

Country Link
US (2) US8090587B2 (ja)
EP (2) EP1943642A4 (ja)
JP (2) JP2009518659A (ja)
HK (1) HK1132576A1 (ja)
TW (2) TWI404429B (ja)
WO (2) WO2007037613A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4966981B2 (ja) 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
US20080159403A1 (en) * 2006-12-14 2008-07-03 Ted Emerson Dunning System for Use of Complexity of Audio, Image and Video as Perceived by a Human Observer
US8560316B2 (en) * 2006-12-19 2013-10-15 Robert Vogt Confidence levels for speaker recognition
GB2470059A (en) 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
CN102157151B (zh) 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
WO2011097903A1 (zh) * 2010-02-11 2011-08-18 华为技术有限公司 多声道信号编码、解码方法、装置及编解码系统
KR20120038311A (ko) * 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
KR101859246B1 (ko) * 2011-04-20 2018-05-17 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 허프만 부호화를 실행하기 위한 장치 및 방법
US8401863B1 (en) * 2012-04-25 2013-03-19 Dolby Laboratories Licensing Corporation Audio encoding and decoding with conditional quantizers
US9495968B2 (en) 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
EP3122073B1 (en) * 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
EP3874492B1 (en) 2018-10-31 2023-12-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202699A (ja) * 1992-09-29 1994-07-22 Mitsubishi Electric Corp 音声符号化装置及び音声復号化装置及び音声符号化復号化方法
JPH08186500A (ja) * 1994-12-28 1996-07-16 Sony Corp 高能率符号化方法及び装置、高能率復号化方法及び装置、並びに伝送媒体
JPH0946234A (ja) * 1995-07-27 1997-02-14 Victor Co Of Japan Ltd 音響信号符号化方法、音響信号復号化方法、音響信号符号化装置、音響信号復号化装置
JPH09230894A (ja) * 1996-02-20 1997-09-05 Shogo Nakamura 音声圧縮伸張装置及び音声圧縮伸張方法
WO2005036529A1 (en) * 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. Audio encoding
JP2008517339A (ja) * 2005-04-19 2008-05-22 コーディング テクノロジーズ アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
FR2681962B1 (fr) * 1991-09-30 1993-12-24 Sgs Thomson Microelectronics Sa Procede et circuit de traitement de donnees par transformee cosinus.
JP3237178B2 (ja) * 1992-03-18 2001-12-10 ソニー株式会社 符号化方法及び復号化方法
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
JP2001177889A (ja) * 1999-12-21 2001-06-29 Casio Comput Co Ltd 身体装着型音楽再生装置、及び音楽再生システム
US6442517B1 (en) * 2000-02-18 2002-08-27 First International Digital, Inc. Methods and system for encoding an audio sequence with synchronized data and outputting the same
JP2002016921A (ja) * 2000-06-27 2002-01-18 Matsushita Electric Ind Co Ltd 動画像符号化装置および動画像復号化装置
TW453048B (en) * 2000-10-12 2001-09-01 Avid Electronics Corp Adaptive variable compression rate encoding/decoding method and apparatus
US6754624B2 (en) 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
AU2002348895A1 (en) 2001-11-30 2003-06-10 Koninklijke Philips Electronics N.V. Signal coding
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
CN1307612C (zh) 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备
AU2003281128A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
JP4212591B2 (ja) 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100737386B1 (ko) 2004-12-31 2007-07-09 한국전자통신연구원 공간정보기반 오디오 부호화를 위한 채널간 에너지비 추정및 양자화 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202699A (ja) * 1992-09-29 1994-07-22 Mitsubishi Electric Corp 音声符号化装置及び音声復号化装置及び音声符号化復号化方法
JPH08186500A (ja) * 1994-12-28 1996-07-16 Sony Corp 高能率符号化方法及び装置、高能率復号化方法及び装置、並びに伝送媒体
JPH0946234A (ja) * 1995-07-27 1997-02-14 Victor Co Of Japan Ltd 音響信号符号化方法、音響信号復号化方法、音響信号符号化装置、音響信号復号化装置
JPH09230894A (ja) * 1996-02-20 1997-09-05 Shogo Nakamura 音声圧縮伸張装置及び音声圧縮伸張方法
WO2005036529A1 (en) * 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. Audio encoding
JP2008517339A (ja) * 2005-04-19 2008-05-22 コーディング テクノロジーズ アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012013501; J. Herre, et al.: 'The Reference Model Architecture for MPEG Spatial Audio Coding' Convention Paper of the Audio Engineering Society 118th Convention 6447, 20050528, p.1-13, Audio Engineering Society *
JPN6012013502; Christof Faller, et al.: 'BINAURAL CUE CODING: A NOVEL AND EFFICIENT REPRESENTATION OF SPATIAL AUDIO' Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing Vol.2, 20020513, 1841-1844, IEEE *

Also Published As

Publication number Publication date
US20090048847A1 (en) 2009-02-19
EP1943642A1 (en) 2008-07-16
EP1943642A4 (en) 2009-07-01
WO2007037613A1 (en) 2007-04-05
TW200719746A (en) 2007-05-16
US7719445B2 (en) 2010-05-18
US20080252510A1 (en) 2008-10-16
JP2009510514A (ja) 2009-03-12
WO2007037621A1 (en) 2007-04-05
EP1938313A1 (en) 2008-07-02
EP1938313A4 (en) 2009-06-24
US8090587B2 (en) 2012-01-03
TWI333385B (en) 2010-11-11
HK1132576A1 (en) 2010-02-26
TWI404429B (zh) 2013-08-01
TW200932030A (en) 2009-07-16

Similar Documents

Publication Publication Date Title
JP2009518659A (ja) マルチチャネルオーディオ信号の符号化/復号化方法及び装置
US10555104B2 (en) Binaural decoder to output spatial stereo sound and a decoding method thereof
EP2107833B1 (en) Audio wave field encoding
US8620011B2 (en) Method, medium, and system synthesizing a stereo signal
US8073702B2 (en) Apparatus for encoding and decoding audio signal and method thereof
US8082157B2 (en) Apparatus for encoding and decoding audio signal and method thereof
US8332229B2 (en) Low complexity MPEG encoding for surround sound recordings
JP6329629B2 (ja) 領域の音場データを圧縮および解凍するための方法および装置
CN105432097A (zh) 伴有内容分析和加权的具有立体声房间脉冲响应的滤波
JP2015527610A (ja) マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置
KR20040102164A (ko) 공간적 오디오의 파라메터적 표시
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
KR20070003593A (ko) 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
CN101427307A (zh) 编码/解码多声道音频信号的方法和装置
US20110040566A1 (en) Method and apparatus for encoding and decoding residual signal
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
EP3869826A1 (en) Signal processing device and method, and program
EP3061088B1 (en) Decorrelator structure for parametric reconstruction of audio signals
KR20070035411A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
Pinto et al. Bitstream format for spatio-temporal wave field coder
KR20070041335A (ko) 오디오 신호의 인코딩 및 디코딩 방법
KR20070035410A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
Park et al. REAL-TIME IMPLEMENTATION OF VIRTUAL SURROUND SYSTEM USING AC-3

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806