JP5117407B2

JP5117407B2 - オーディオ符号化／復号化で知覚的に重み付けするための装置

Info

Publication number: JP5117407B2
Application number: JP2008554819A
Authority: JP
Inventors: ステファン・ラゴ; ロマン・トリリング
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-02-14
Filing date: 2007-02-07
Publication date: 2013-01-16
Anticipated expiration: 2027-02-07
Also published as: WO2007093726A2; KR20080093450A; EP1989706A2; ATE531037T1; US20090076829A1; CN101385079A; EP1989706B1; WO2007093726A3; US8260620B2; CN101385079B; JP2009527017A; KR101366124B1

Description

本発明は、所定の周波数バンドでオーディオ信号を符号化／復号化するための知覚重み付け装置に関する。また、本発明は、本発明の符号化／復号化装置を含む階層オーディオ符号化装置及び階層オーディオ復号化装置に関する。

本発明は、オーディオ周波数の発話、音楽等の信号を、デジタル信号として伝送及び記憶することに対する特に有利な用途に向けられる。

オーディオ周波数の発話、音楽等の信号をデジタル化及び圧縮するための各種技術がある。最も一般的な方法は
・PCM及びADPCM符号化等の“波形符号化”方法
・符号励振線形予測（CELP）符号化等の“パラメータ解析／合成符号化”方法
・“サブバンド又は変換知覚符号化”方法

オーディオ周波数信号を符号化するためのこれら従来技術は、W.B. Kleijn及びK.K. Paliwalによる１９９５年 Elsevier “Speech coding and Synthesis”に記載されている。

これに関連して、本発明は、CELP符号化及び変換符号化技術を組込む予測変換符号化方法に特に向けられる。

従来の発話に対する符号化では、符号化装置は、固定ビットレートでビットストリームを生成する。この固定ビットレートによる制約は、“コーデック”と組み合わせて一般に称される符号化器及び復号化器の実装及び使用を単純にしている。そのようなシステムの例は、毎秒６４キロビット（kbps）のITU-T G.711符号化システム、８kbpsのUIT-T G.729符号化システム、及び１２．２kbpsのGSM-EFR符号化システムである。

しかし、携帯電話、ボイスオーバＩＰ及びアドホックネットワーク通信等のいくつかの用途では、予め設定される可変ビットレートでビットストリームを生成するのが好ましい。従って、固定ビットレートより柔軟性のある多数のビットレート符号化技術は、以下の点で優れている。
・AMR-NB、AMR-WB、SMV及びVMR-WBシステムで用いるソース及び／又はチャンネル制御マルチモード符号化
・コアビットレートと一つ以上のエンハンスメントレイヤとを含むという意味で階層的なビットレートを生成する“スケーラブル”符号化としても知られる階層符号化
４８kbps、５６kbps及び６４kbpsのG.722システムは、ビットレートスケーラブル符号化の簡単な一例である。MPEG-４CELPコーデックは、ビットレート及びバンド幅がスケーラブルであり、そのようなコーデックの他の例は、B. Kovesi、D. Massaloux、A. Sollaudによる２００４年 ICASSPでの文献“A Scalable Speech and Audio Coding Scheme with Continuous Bitrate Flexibility”に記載されている。
・多重記述符号化

本発明は、特に階層符号化に関する。

階層即ち“スケーラブル”オーディオ符号化の基本概念は、例えばY.Hiwasaki、T.Mori、H.Ohmuro、J.Ikedo、D.Tokumono及びA.Kataokaらによる２００４年３月、NTT Technical Review “Scalable Speech Coding Technology for High-Quality Ubiquitous Communications”で説明されている。

このタイプの符号化において、ビットストリームは、ベースレイヤ又はコアレイヤと一つ以上のエンハンスメントレイヤとを含む。ベースレイヤは、低い固定ビットレートでコア“コーデック”として知られるコーデックによって生成され、最小レベルの符号化品質をほぼ保証し、復号化装置によって受信される必要があり、従って好ましい品質レベルを維持することができる。

エンハンスメントレイヤは、品質を高めるのに使用され、復号化装置によって全て受信されないことがある。階層符号化の主な利点は、ビットレートがビットストリームを単に切断することによって調節できる点である。レイヤの許容数、即ちビットストリームの許容切断数は、符号化の粒度（coding granularity）を定める。符号化の粒度が強い場合、ビットストリームは、少数のレイヤ（２〜４レイヤのオーダ）を含む一方、細かい符号化の粒度は、例えば１kbpsのオーダの増分を提供する。

本発明は特に、電話バンドにおけるCELPタイプのコア符号化装置と一つ以上のワイドバンドエンハンスメントレイヤとを用いた、ビットレート及びバンド幅スケーラブル符号化技術に関する。そのようなシステムの例は、８kbps、１４．２kbps及び２４kbpsの粗い粒度を備える、１９９９年１０７th Convention AESでのH. Taddeiらによる文献“A Scalable Three Bitrate (8、14.2及び24kbps) Audio Coder”で与えられ、B. Kovesiらによる前述の文献は、６．４kbps〜３２kbpsの細かい粒度に言及している。

２００４年、ITU-Tは、階層コア符号化装置標準化計画を立ち上げた。このG.729EV符号化装置（EVは“埋め込み可変ビットレート”を表す）は、周知のG.729符号化装置の増設である。G.729EV標準の目的は、会話サービス用に８kbps〜３２kbpsのビットレートで狭いバンド（３００hertz（Hz）〜３４００Hz）から広いバンド（５０Hz〜７０００Hz）に及ぶバンドを備える信号を生成するG.729コア階層符号化装置を得ることにある。この符号化装置は、G.729レコメンデーションと相互作用することが基本的に可能であり、既存のボイスオーバIP機器に対する互換性を保証する。

図１に示す８kbps〜３２kbpsの階層オーディオ符号化装置は、上記計画に応えるために提案され、２００５年７月２６日〜８月５日、GenevaのStudy Period 2005-2008、Q.10/16でのITU-Tによる文献“France Telecom G.729EV Candidate; High level description and complexity evaluation”のCOM 16、D135（WP 3/16）に記載されている。この符号化装置は、カスケードCELP符号化とフルバンド線形予測符号化（LPC）によるバンド拡張と予測変換符号化とを備えた３レイヤ符号化を行う。TDAC（時間領域エイリアシング相殺）符号化は、変形離散コサイン変換（MDCT）の下記用途に適用される。予測変換符号化レイヤは、フルバンド知覚重み付けフィルタ

を用いる。

知覚重み付けフィルタリングによって符号化ノイズを形成する概念は、前述のW.B. Kleijnらによる文献で説明される。現に、知覚重み付けフィルタリングは、ノイズ強度が高くかつノイズがより簡単にマスクできる周波数で信号を減衰することにより、符号化ノイズを形成する。

狭いバンドのCELP符号化で最も広く使用される知覚重み付けフィルタは形式が

であり、ここで０≦γ_２≦γ_１＜１であり

は、５ミリ秒（ms）〜３０msの長さである信号セグメントのLPCスペクトルを示す。従って、CELP符号化の合成による分析は、このタイプのフィルタによって知覚的に重み付けされた信号領域における２次エラーを最小化することになる。

しかし、G.729EV標準化に関連して提案されたこの技術は、フルバンド永久重み付けフィルタを用いるという欠点を有する。関連フィルタリングは、計算時間について比較的複雑である。

従って、本発明の要旨によって解決される技術的課題は、リソースの観点からコストのかかる長い計算をもたらすことなく、フルバンド知覚重み付けフィルタリングを提供する所定の周波数バンドで、即ち前記所定の周波数バンドの全体にわたって、特にワイドバンドである０から８０００Hzの階層オーディオ符号化装置で、オーディオ信号を符号化／復号化するための知覚重み付け装置を提供することである。

上記技術的課題に対する本発明の解決策とは、前記符号化／復号化は、前記所定の周波数バンドにおける複数の隣接サブバンドで実行され、前記装置は、利得補償を備える知覚重み付けフィルタの出力信号と前記サブバンドに隣接するサブバンドの信号との間でスペクトルの連続性を実現するよう適合された利得補償を備える知覚重み付けフィルタを、少なくとも一つのサブバンドで含むことである。

故に、本発明の知覚重み付け装置は、符号化／復号化バンドの全体にわたってではなく、一つ以上のサブバンドにわたって必要なフィルタリングを行い、計算の複雑性を抑える。また、知覚重み付けフィルタリングの利得間における一方のサブバンドから他方のサブバンドへの任意の離間は、利得補償によって除去され、全周波数バンドにわたるスペクトルの連続性を保証する。従って、本発明は、知覚重み付けフィルタリングの後に均一なバンドを生成し、たとえそれを構成するサブバンドが、別に処理された観点からであっても、生成する。

これに関する特に重要な利点は、フルバンド変換符号化がサブバンドにわたって適用できることであって、サブバンドは、別々にフィルタ処理されるので均一でない場合がある。

もちろん、各サブバンドは、知覚重み付けでフィルタ処理できるか、又はできない。故に、スペクトルの連続性は、フィルタ処理された一方のサブバンドとフィルタ処理されない他方のサブバンドとの間、又はフィルタ処理された２つのサブバンド間に提供されうる。

一つの実施形態において、利得補償を備える前記知覚重み付けフィルタは、知覚重み付けフィルタ及び利得補償モジュールを含む。

特定の実施形態において、利得補償モジュールは、前記知覚重み付けフィルタの出力に配置される。

もう一つの特定の実施形態において、利得補償モジュールは、前記知覚重み付けフィルタの入力に配置される。

もう一つの実施形態において、利得補償を備える前記知覚重み付けフィルタは、利得補償を組込む知覚重み付けフィルタを含む。

第１サブバンドの前記知覚重み付けフィルタは、形式が

でもよく、ここで

は、線形予測フィルタを示す。この状況において、本発明は、前記利得補償が以下に定義する関数facによって多重化を行うことを教示し、ここで

は、線形予測フィルタ

の係数である。

オーダがｐ、係数が

の線形予測フィルタ

は、以下のように定義される。

また、本発明は、隣接する第１及び第２サブバンドに周波数バンドを分割するのに用いる階層オーディオ符号化装置に関し、前記符号化装置は
・前記周波数バンドの第１サブバンドで原信号を符号化するためのコア符号化装置と
・前記原信号と前記コア符号化装置からの信号とから残余信号を計算するための段階と
・前記残余信号を知覚的に重み付けするための装置とを含み、
特に、前記知覚重み付け装置は、利得補償を備える前記知覚重み付けフィルタの出力信号と第２サブバンドの信号との間でスペクトルの連続性を実現するよう適合された利得補償を備える知覚重み付けフィルタを含む。

この実施形態において、第１サブバンドのみ、知覚重み付けフィルタリングを受け、第２サブバンドは、フィルタ処理されない。

また、前記利得補償された知覚重み付けフィルタが第１サブバンドの知覚重み付けフィルタを含む場合、本発明は、第１サブバンドの前記知覚重み付けフィルタが形式

であることを教示し、ここで

は、線形予測フィルタを示す。この状況では、第１サブバンドの利得補償は、以下の関数fac₁によって多重化を行う。

ここで、

は、線形予測フィルタ

の係数である。

有利な点として、第１サブバンドの知覚重み付け装置からの信号と第２サブバンドの原信号とは、各変換分析モジュールに適用され、前記変換分析モジュールは、前記周波数バンドの変換符号化装置に接続される。

本発明の階層オーディオ符号化装置の変形として、前記符号化装置はまた、第２サブバンドの原信号を知覚的に重み付けするための知覚重み付け装置を含み、利得補償を備える知覚重み付けフィルタの出力信号と第１サブバンドの知覚重み付け装置の出力信号との間でスペクトルの連続性を実現するよう適合された利得補償を備える知覚重み付けフィルタを含む。

故に、これは、知覚重み付けフィルタリングが２つのサブバンドにおいて別に行われる符号化装置である。

利得補償を備える前記知覚重み付けフィルタが第２バンドの知覚重み付けフィルタを含む場合、第２サブバンドの前記知覚重み付けフィルタは、形式が

であり、ここで

は、線形予測フィルタを示す。この例において、第２サブバンドの前記利得補償は、以下の関数fac₂によって多重化を行う。

ここで

は、前記線形予測フィルタの係数である。

有利な点として、前記線形予測フィルタの係数は、バンド拡張モジュールによって供給される。

第１サブバンドの知覚重み付け装置からの信号と第２サブバンドの知覚重み付け装置からの信号とは、各変換分析モジュールに有利に適用され、前記変換分析モジュールは、前記周波数バンドの変換符号化装置に接続される。

特定の実施形態において、コア符号化装置は、線形予測ベースの符号化装置、例えばCELP符号化装置である。

また、本発明は、隣接する第１及び第２サブバンドに周波数バンドを分割するのに用いる階層オーディオ復号化装置に関し、前記復号化装置は
・本発明の符号化装置によって符号化された受信信号を前記周波数バンドの第１サブバンドで復号化するよう適合されたコア復号化装置と
・前記符号化装置の知覚重み付け装置によって第１サブバンドで重み付けされた残余信号を示す信号を逆知覚重み付けするための逆知覚重み付け装置とを具備し、
前記逆知覚重み付け装置は、第１サブバンドの符号化装置の利得補償を備える知覚重み付けフィルタの逆数である利得補償を備える知覚重み付けフィルタを含む。

代わりに、本発明では、前記復号化装置は、第２サブバンドの復号化信号に対する逆近く重み付け装置も含み、第２サブバンドの符号化装置の利得補償を備える知覚重み付けフィルタの逆数である利得補償を備える知覚重み付けフィルタを含むことを教示する。

この後者の状況において、利得補償を備える前記知覚重み付けフィルタが第２サブバンドの知覚重み付けフィルタを含む場合、利得補償を備える前記逆知覚重み付けフィルタは、第２サブバンドの逆知覚重み付けフィルタを含む。特に、第２サブバンドの前記逆知覚重み付けフィルタは、形式が

であり、ここで、線形予測フィルタ

の係数は、バンド拡張モジュールによって供給される。

また、本発明は、所定の周波数バンドでオーディオ信号を符号化する知覚重み付け方法に関し、特に前記符号化は、前記周波数バンドである複数の隣接サブバンドで行われ、前記方法は、利得補償を備える前記知覚重み付け段階からの信号と前記サブバンドに隣接するサブバンドの信号との間でスペクトルの連続性を実現するよう適合された利得補償で知覚重み付けする段階を、少なくとも１つのサブバンドで含む。

最後に、本発明は、前記信号を符号化するのに用いる知覚重み付け方法により所定の周波数バンドで符号化されたオーディオ信号を復号化するための知覚重み付け方法に関し、特に前記方法は、利得補償を備える前記知覚重み付け段階の逆数である利得補償を備える知覚重み付け段階を、前記サブバンドで含む。

図２は、８kbpsから３２kbpsまでのビットレートに対するサブバンド階層オーディオ符号化装置を示す。この図は、その符号化方法における各段階を示す。

５０Hzから７０００Hzまでの“ワイド”周波数バンドで、かつ１６kHzでサンプル化された入力信号は先ず、直交ミラーフィルタ（QMF）によって２つの隣接サブバンドに分割される。ローバンドとしても知られる０から４０００Hzまでの第１サブバンドは、低域通過（L）フィルタリング３００とデシメーション３０１とによって得られ、ハイバンドとしても知られる４０００から８０００Hzまでの第２サブバンドは、高域通過（H）フィルタリング３０２とデシメーション３０３とによって得られる。好ましい実施形態では、Lフィルタ３００及びHフィルタ３０２は、長さが６４であり、1980年 ICASSP vol. 5 pp. 291-294 J. Johnstonによる文献“A filter family designed for use in quadrature mirror filter banks”で説明されている。

第１サブバンドは、ナローバンドCELPコア符号化装置３０５による符号化前に、５０Hzを下回る成分を除去する高域通過フィルタ３０４によって前処理される。高域通過フィルタリングは、ワイドバンドが５０Hzから７０００Hzまでの範囲に及ぶものとして定義される事実を考慮に入れる。この実施形態では、ナローバンドCELP符号化は、図１に示す符号化に相当し、前処理フィルタのない変形されたＧ．７２９符号化（“共役構造代数符号励振線形予測(CS-ACELP)を用いて発話を８kbpsで符号化する”１９９６年３月 ITU-T推奨のG. 729）を第１段階で用いるカスケードCELP符号化と、追加の固定ディクショナリからなる第２段階とで構成される。CELP符号化で発生するエラーに関係する残余信号eは、段階３０６で計算され、その後知覚重み付けフィルタを含む装置３０７によって知覚的に重み付けされ、時間領域信号x₁₀を得て、その信号は、変形離散コサイン変換（MDCT）３０８を用いて分析され、周波数領域の離散スペクトルX₁₀を得る。

図３は、知覚重み付け装置３０７を示し、W₁(z)は、それぞれフィルタリング段階５０１及び５０２である

と

とを含む、知覚重み付けフィルタ

を含む。図２に示す通り、線形予測フィルタ

は、ナローバンドCELP符号化に基づく。知覚重み付け装置３０７は、利得補償モジュール５０３も含み、フィルタ５０１、５０２から来る知覚重み付け信号を、以下に定義する関数fac₁によって多重化する。

ここで、

は、フィルタ

の係数であり、フィルタは以下のように表される。

好ましい実施形態では、係数

は、５msサブフレーム毎に更新されγ₁＝０．９６及びγ₂＝０．６である。

関数fac₁に等しい定義は、ナイキスト周波数（４kHz）におけるフィルタ

の利得の逆数に相当し、即ちz＝−１で以下のようになる。

第２のサブバンド、即ちハイバンドのスペクトルエイリアシング除去装置３０９は、先ず高域通過フィルタリング３０２がデシメーション３０３と組み合わせて生ずるエイリアシングを補償する。その後、このハイバンドは、７０００と８０００Hzとの間にある原信号の成分を除去する低域通過フィルタ３１０によって前処理される。MDCT変換装置３１１は、時間領域の結果信号x_hiに適用され、周波数領域の離散スペクトルX_hiを得る。その後、バンド拡張装置３１２は、x_hi及びX_hiに基づく。

信号x₁₀及びx_hiは、Ｎ個のサンプルからなるフレームに分割され、長さL＝２のMDCT変換装置は、現在及び将来のフレームを分析する。好ましい実施形態では、x₁₀及びx_hiは、８kHz及びN＝１６０（２０ms）でサンプル化されたナローバンド信号である。MDCTは、x₁₀及びx_hiを変換するので、N＝１６０個の係数を含み、各係数は、４０００／１６０＝２５Hzの周波数バンドを示す。好ましい実施形態では、MDCT変換装置は、１９９１年 ICASSP vol. 3 pp. 2209-2212 P. Duhamel、Y. Mahieux、J. P. Petitにより記述されたアルゴリズム“A fast algorithm for the implementation of filter banks based on time domain aliasing cancellation”で実行される。

ローバンド及びハイバンドMDCTスペクトルX₁₀及びX_hiは、変換符号化モジュール３１３で符号化される。

符号化モジュール３０５、３１２及び３１３が生成したビットストリームは、多重化され、マルチプレクサ３１４で階層ビットストリームへと構築される。

符号化は、２０msフレーム（即ち３２０個のサンプルからなるブロック）で行われる。符号化ビットレートは、８kbps、１２kbps、１４kbpsから３２kbpsである。

関数fac₁による利得補償を用いた知覚重み付け段階の利点は、図４を参照して以下に説明される。

その図は、全周波数バンドを第１サブバンド、即ち０から４kHzまでのローバンドと、第２サブバンド、即ち４から８kHzまでのハイバンドとに分割することを示す。好ましい実施形態では、MDCT符号化装置３１３は
・ローバンドのMDCT変換装置に適用する前の知覚重み付けフィルタリングW1(z)及び利得補償
・知覚重み付けフィルタリングがないハイバンドの直接MDCT変換
が行われた、これら２つのサブバンドに適用される。

サブバンドにおけるこれら２つの動作は、ローバンドで

の振幅応答と、ハイバンドで０dBの平坦応答とによって図４において図式的に示される。後者の平坦応答は、MDCT変換を適用する前にハイバンドで適用される処理がないことを示す。関数fac₁による利得補償は

の振幅応答を、４kHzでの連続性を確実にするためにシフトする。この連続性は、２つの離散スペクトルX₁₀及びX_hiを単一ベクトルXへ、後で結合的かつ均一的に符号化できる点でとても重要であり、そのベクトルは、フルバンド離散スペクトルを示す。

ローバンドとハイバンドとの間の連続性を定める、ここで用いた値０dBは、単なる例示に過ぎない点に留意すべきである。

図２、３及び４を参照して説明した符号化装置に関する階層オーディオ復号化装置は、図５に示され、前記符号化装置によって符号化された信号を復号化する段階を示す。

各２０msフレームを定義するビットは、デマルチプレクサ７００で逆多重化される。実際にビットストリームが８kbps、１２kbps、１４kbps、又は１４kbpsと３２kbpsとの間で切断されてもよいが、８kbpsから３２kbpsへ復号化する過程は、以下に説明される。

８kbps及び１２kbpsのレイヤのビットストリームは、CELP復号化装置７０１によって使用され、０から４０００Hzまでの第１サブバンド（ナローバンド）で第１の合成を生成する。１４kbpsのレイヤに関するビットストリーム部分は、バンド拡張モジュール７０２によって復号化され、MDCT変換装置７０３は、４０００Hzから７０００Hzまでの第２サブバンド（ハイバンド）で得られた信号に適用され、スペクトル

を生む。MDCT復号化装置７０４は、１４kbpsから３２kbpsまでのビットレートに関するビットストリームから、ローバンドの再構築スペクトル

と、ハイバンドの再構築スペクトル

とを生成する。これら２つのスペクトルは、ブロック７０５及び７０６で逆MDCT変換を適用することによって、時間領域信号

と

とに変換される。信号

は、逆知覚重み付け装置７０７によってフィルタリングした後に加算器７０８によってCELP合成に追加される。その後、結果値は、７０９で後続的にフィルタ処理される。

１６kHzでサンプル化されたワイドバンドの出力信号は、オーバーサンプリング（７１０及び７１２）、低域通過フィルタリング（７１１）、高域通過フィルタリング（７１３）及び合計（７１４）を適用する、合成QMFフィルタバンクを用いて得られる。

利得補償を用いた知覚復号化の段階は、逆知覚重み付け装置７０７ W₁(z)^-1によって行われ、その装置は、逆知覚重み付けフィルタ

と、利得補償モジュールとを含み、関数１／fac₁によって前記逆知覚重み付けフィルタから信号を多重化し、その関数は以下のように現される。

ここで、

は、ナローバンドのCELP符号化から生ずるフィルタ

の係数である。符号化装置と同様に、係数

は、各５msのサブフレームで一定に維持される。

図６は、符号化装置に対する図２の実施形態の変形を示す。

この図は、分析フィルタバンク９００から９０３、ローバンドの処理であるブロック９０４から９０８、ハイバンドの前処理であるブロック９０９から９１０、MDCT符号化装置９１３及びマルチプレクサ９１５を示す。

この変形実施形態と図２の実施形態との間の主な違いは、線形予測（LPC）分析と第２サブバンド（ハイバンド）の量子化との導入である。ハイバンドで量子化されたLPC係数

は、バンド拡張モジュール９１１によって供給される。LPCベースのバンド拡張は、本発明の範囲外なのでここで詳細に説明しない。これらLPC係数によって、MDCT変換９１３の前に装置９１２による利得補償W₂(z)を用いた知覚重み付けフィルタリングを可能にする。従って、この変形実施形態は、ローバンドの差分信号eとハイバンドの信号x_hiとの知覚重み付けを意味する一方、上記の実施形態は、ローバンドの作動信号eのみを予め知覚的に重み付けしている。

この変形実施形態では、ハイバンドの利得補償W₂(z)を用いた知覚重み付け装置９１２は、ローバンドのフィルタW₁(z)と同じ形式をとる。従って、利得補償関数fac₂は、

というタイプのフィルタに対して後続的であり、以下のように定義される。

ここで、

は、フィルタ

の係数であり、そのフィルタは、以下のように表せる。

ここで、γ´₁＝０．９６ γ´₂＝０．６

この関数は、z＝１、即ち周波数が０Hzであるか、又は実際４kHzに相当するハイバンドのDC成分の周波数がQMFフィルタリング前の入力信号の周波数に戻るとき

に相当する。

２つのサブバンドに利得補償を用いた知覚重み付けの利点は、図８を参照して以下に説明され、ローバンド（０から４kHz）とハイバンド（４kHzから８kHz）とに分割されることを示す。ここで、変形実施形態を考慮すると、MDCT符号化装置は
・ローバンドのMDCT前にフィルタリングW₁(z)し
・ハイバンドのMDCT前にフィルタリングW₂(z)した
これら２つのサブバンドに適用される。

これら２つのサブバンド動作はそれぞれ、ローバンドの

の振幅応答と、ハイバンドの

の振幅応答とによって示される。

各関数fac₁及びfac₂によるロー及びハイバンドの利得補償は、４kHzにおけるフィルタの応答の連続性を保証する。この連続性により、２つの離散スペクトルX₁₀及びX_hiは、単一ベクトルで後続的に符号化されうる。また、ロー及びハイバンド間の連続性を定める、ここで使用される値０dBは、単なる例示である点に留意すべきである。

この変形実施形態に相当する階層オーディオ復号化装置は、図７に示される。上記の実施形態の復号化装置と比較して異なる点は、バンド拡張モジュール１００２が用いる量子化LPC係数

の回復、及び信号

への逆知覚重み付けフィルタ

の適用だけである。ハイバンドで用いる逆フィルタリング

は、関数１／fac₂による利得補償が後に続く

のタイプであり、ここでfac₂は、上記定義した通りである。

本発明は、コンピュータ又は専用装置によって実行する媒体に記憶された一連の命令を含むコンピュータプログラムに及び、特にそれら命令の実行によって、符号化及び／又は復号化する本発明の知覚重み付け方法を実行する。

上記コンピュータプログラムは、例えば本発明の知覚重み付け装置にインストールされた、直接実行可能なプログラムである。

勿論、本発明は、上記説明した実施形態に限定されない。特に
・パラメータγ₁、γ₂、γ´₁及びγ´₂の数値は、上記選択値と異なってもよく；
・補償関数は、

フィルタリングの前、又は

と

フィルタリングとの間に適用されるか、又は

若しくは

フィルタリングに組込まれてもよく；同じことが関数fac₂及び対応逆フィルタについて言え
・知覚重み付けフィルタは、形式が

である必要はなく；
・２つより多いサブバンドは、全周波数バンドで定義されてもよい；点に留意すべきである。

図１は、変換符号化の前におけるフルバンド知覚重み付けフィルタリングを実行する、従来の階層オーディオ符号化装置の図である。図２は、本発明の階層オーディオ符号化装置のハイレベル図である。図３は、図２の符号化装置の知覚重み付け装置に関する図である。図４は、本発明に従い、第１のサブバンドでフィルタ処理されて利得補償された信号の振幅と、第２のサブバンドでフィルタ処理されない信号の振幅とを表すスペクトルを示す。図５は、本発明の階層オーディオ復号化装置のハイレベル図である。図６は、図２の階層オーディオ符号化装置の変形図である。図７は、図５の階層オーディオ復号化装置の変形図である。図８は、本発明に従い、第１のサブバンドでフィルタ処理されて利得補償された信号の振幅と、本発明に従い、第２のサブバンドでフィルタ処理されて均一にされた信号の振幅とを表すスペクトルを示す。

符号の説明

３０１高域通過
３１０低域通過
３１３１４〜３２kbit/s MDCT符号化装置

Claims

所定の周波数バンドでオーディオ信号を符号化／復号化するための知覚重み付け装置であって、
前記符号化／復号化は、前記所定の周波数バンドにおける複数の隣接サブバンドで実行され、
前記装置は、利得補償を備える知覚重み付けフィルタ（３０７）を、少なくとも一つのサブバンドで含み、
利得補償を備える前記知覚重み付けフィルタは、形式が

であり、ここで

は、線形予測フィルタを示し、０≦γ _１ ≦１及び０≦γ _２ ≦１であり、ここでfacは、前記線形予測フィルタ

の係数の関数である利得補償関数を示し、前記利得補償は、利得補償を備える前記知覚重み付けフィルタの出力信号と前記少なくとも一つのサブバンドに隣接するサブバンドの信号との間でスペクトルの連続性を実現するよう適合され、
前記利得補償関数facは、

によって与えられ、ここで

は、前記線形予測フィルタ

の係数であり、pは、前記線形予測フィルタ

の次数であることを特徴とする知覚重み付け装置。
利得補償を備える前記知覚重み付けフィルタ（３０７）は、知覚重み付けフィルタ（５０１、５０２）と利得補償モジュール（５０３）とを含むことを特徴とする請求項１に記載の装置。
利得補償を備える前記知覚重み付けフィルタは、利得補償を組込む知覚重み付けフィルタを含むことを特徴とする請求項１に記載の装置。
隣接する第１及び第２サブバンドに周波数バンドを分割するのに用いる階層オーディオ符号化装置であって、前記符号化装置は、
・前記周波数バンドの第１サブバンドで原信号を符号化するためのコア符号化装置（３０５；９０５）と、
・前記原信号と前記コア符号化装置からの信号とから残余信号（e）を計算するための段階（３０６；９０６）と、
・前記残余信号（e）を知覚的に重み付けするための装置とを具備し、
前記知覚重み付け装置は、形式が

である利得補償を備える知覚重み付けフィルタ（３０７；９０７）を含み、ここで

は、線形予測フィルタを示し、０≦γ _２ ≦１及び０≦γ _１ ≦１であり、ここでfac ₁ は、前記線形予測フィルタ

の係数の関数である利得補償関数を示し、前記利得補償は、利得補償を備える前記知覚重み付けフィルタの出力信号と第２サブバンドの信号との間でスペクトルの連続性を実現するよう適合され、
前記利得補償関数は、

によって与えられ、ここで

は、前記線形予測フィルタ

の係数であり、pは、前記線形予測フィルタ

の次数であることを特徴とする階層オーディオ符号化装置。
利得補償を備える前記知覚重み付けフィルタ（３０７）は、第１サブバンドの知覚重み付けフィルタ（５０１、５０２）を含むことを特徴とする請求項４に記載の符号化装置。
前記線形予測フィルタの係数は、前記コア符号化装置（３０５）によって供給されることを特徴とする請求項５に記載の符号化装置。
第１サブバンドの知覚重み付け装置（３０７）からの信号と第２サブバンドの原信号とは、各変換分析モジュール（３０８、３１１）に適用され、前記変換分析モジュールは、前記周波数バンドの変換符号化装置（３１３）に接続されることを特徴とする請求項４〜６のうち何れか１項に記載の符号化装置。
隣接する第１及び第２サブバンドに周波数バンドを分割するのに用いる階層オーディオ復号化装置であって、前記復号化装置は、
・請求項６または７に記載の符号化装置によって符号化された受信信号を前記周波数バンドの第１サブバンドで復号化するよう適合されたコア復号化装置（７０１；１００１）と、
・前記符号化装置の知覚重み付け装置（３０７；９０７）によって第１サブバンドで重み付けされた残余信号（e）を示す信号を逆知覚重み付けするための逆知覚重み付け装置とを具備し、
前記逆知覚重み付け装置（７０７；１００８）は、第１サブバンドの符号化装置の利得補償を備える知覚重み付けフィルタ（３０７）の逆数である利得補償を備える知覚重み付けフィルタを含み、
前記逆知覚重み付け装置の利得補償を備える前記知覚重み付けフィルタは、形式が

であり、ここで

は、線形予測フィルタを示し、０≦γ _２ ≦１及び０≦γ _１ ≦１であり、ここで1/fac ₁ は、前記線形予測フィルタ

の係数の関数である利得補償関数を示し、

によって与えられ、ここで

は、前記線形予測フィルタ

の係数であり、pは、前記線形予測フィルタ

の次数であることを特徴とする階層オーディオ復号化装置。
所定の周波数バンドでオーディオ信号を符号化する知覚重み付け方法であって、
前記符号化は、前記周波数バンドにおける複数の隣接サブバンドで実行され、
前記方法は、利得補償を備える知覚重み付け段階を、少なくとも一つのサブバンドで含み、
利得補償を備える前記知覚重み付けフィルタは、形式が

であり、ここで

は、線形予測フィルタを示し、０≦γ _２ ≦１及び０≦γ _１ ≦１であり、ここでfacは、前記線形予測フィルタ

の係数の関数である利得補償関数を示し、前記利得補償は、利得補償を備える前記知覚重み付けフィルタの出力信号と前記少なくとも一つのサブバンドに隣接するサブバンドの信号との間でスペクトルの連続性を実現するよう適合され、
前記利得補償関数facは、

によって与えられ、ここで

は、前記線形予測フィルタ

の係数であり、pは、前記線形予測フィルタ

の次数であることを特徴とする知覚重み付け方法。
コンピュータ又は専用装置によって実行する媒体上に記憶された一連の命令を含むコンピュータプログラムであって、
前記命令の実行は、請求項９に記載の知覚重み付け方法を実行することを特徴とするプログラム。