JP4927264B2

JP4927264B2 - オーディオ信号を符号化する方法

Info

Publication number: JP4927264B2
Application number: JP2001150411A
Authority: JP
Inventors: ギザオデッド
Original assignee: アルカテル−ルーセントユーエスエーインコーポレーテッド
Priority date: 2000-05-26
Filing date: 2001-05-21
Publication date: 2012-05-09
Anticipated expiration: 2021-05-21
Also published as: DE60000185T2; EP1158494A1; EP1158494B1; DE60000185D1; JP2002032100A

Description

【０００１】
【発明の属する技術分野】
本発明は、オーディオ符号化方式の分野に関し、特に、人間聴覚系の性質に基づいて高い効率でオーディオ符号化・復号を実行する方法および装置に関する。
【０００２】
【従来の技術】
例えば音声、音楽などを表すオーディオ信号の蓄積または伝送のいずれかの目的で通常利用される信号を符号化する際に用いられるオーディオ符号化の作業は、長年にわたって注目されている。これは、対応する復号器によって再構成される出力信号の品質を維持しながら、与えられた入力信号を符号化するのに必要なビット数を最小にするためである。例として、音声信号の帯域幅が例えば４ｋＨｚである狭帯域音声の場合、最も有効な音声符号器は、当業者に周知の符号励振線形予測（ＣＥＬＰ）法に基づいている。このようなＣＥＬＰ法を用いた符号器は通常、４〜１６ｋｂ／ｓの範囲で動作する。しかし、音源（すなわち、入力音声信号）に関する固有の仮定の結果として、このような符号器は通常、例えば音楽系オーディオ信号に対してはかなり性能が低い。
【０００３】
他方、知覚オーディオ符号器（ＰＡＣ）（例えば、D. Sinha et al., "The Perceptual Audio Coder (PAC)", The Digital Signal Processing Handbook (V. Madisetti and D. Williams, eds.), pp.42-1:42-17, CRC Press, 1998、に記載）のような、知覚基準を用いたオーディオ符号器は、より高いビットレートで、より広帯域のオーディオ信号に対して、かなり良好に動作する。ＰＡＣのような知覚オーディオ符号器もまた、当業者に周知である（例えば、米国特許第５，０４０，２１７号も参照）。具体的には、このような知覚符号器は、音響心理学的モデル（すなわち、人間知覚系の性能に基づくモデル）を用いてスペクトル（すなわち、周波数領域）係数のセットを量子化することにより、聴取者が最終的に区別できないレベルの量子化精度を達成するのに用いられる符号化ビットの「浪費」を避けることによって、性能の改善を達成する。しかし、残念ながら、約２４ｋｂ／ｓより低いビットレートでは、ＰＡＣのような符号器は通常、音声系オーディオ信号に対してはうまく動作しない。
【０００４】
最近、マルチモード変換予測符号器（ＭＴＰＣ：Multimode Transform Predictive Coder）（例えば、S. Ramprashad, "A Multimode Transform Predictive Coder (MTPC) for Speech and Audio", IEEE Speech Coding Workshop, pp.10-12, 1999、に記載）のようなハイブリッド符号器は、上記の両方の符号化パラダイムを組み合わせようと試み、音声およびオーディオの両方の信号に対して、１６〜２４ｋｂ／ｓの範囲で相当良好に動作する。しかし、このようなハイブリッド方式の複雑さ（計算量）はしばしば必然的に高くなる。このような方式は、本質的に、２つの異なる技術を単一の符号器に組み合わせなければならないからである。
【０００５】
符号化オーディオ信号がパケット交換網を通じて伝送されるときにオーディオ符号器に関して必ず生じるもう１つの問題は、パケット損失の問題である。明らかに、このようなアプリケーションの場合、これらの符号器はすべて、このような環境下における有用なツールとなるためには、パケット損失に対してかなりロバストである必要がある。当業者に周知の従来の誤り軽減技術はかなり有効であるが、ほとんどのこのような技術は、約３％より高いパケット損失率では効率が落ちることになる。具体的には、パケット交換網における誤り軽減に対する従来のアプローチは、比較的大きい受信バッファを設けることを含むが、これにより、後に到着するパケットに対する影響が低減される。しかし、双方向通信アプリケーションで使用すると、遅延増大は、双方向通信の有効性に大きい影響を及ぼし、必要以上に高度なエコー制御を必要とすることになる。
【０００６】
とりわけこのような理由により、当業者に周知のマルチデスクリプティブ(multi-descriptive)符号化技術（例えば、K. Wolf et al., "Source Coding for Multiple Descriptions", Bell System Technical Journal, vol.59, no.9, pp.1417-1426, 1980、に記載）が、この問題点に対する解決法として提案されている。具体的には、この技術によれば、ソース（情報源）符号器は、その情報を複数のほぼ等しい重要性のあるビットストリームに分割する。例えば、２個のストリームの場合、各ストリームは、復号器によって独立に使用されるときには相当の品質レベルを提供するが、両方のストリームが使用されるときには単一ストリームを用いて達成される品質レベルより良好な品質レベルを復号器が提供するように、符号化されることが可能である。パケット損失確率が独立になるように両方のストリームを送信可能であると仮定すると、小さい品質劣化だけで、非常に高い損失率も許容可能となる。
【０００７】
残念ながら、実際には一般に、符号化効率を低下させずに、マルチデスクリプティブ性を有するオーディオ符号器を設計することはかなり困難であることがわかっている。１つの有効なアプローチは、２チャネルステレオ音源（例えば、ステレオ音楽）の符号化に関するものである。この場合、音源の固有のマルチデスクリプティブ性（すなわち、２つの独立のチャネル）を利用して、独立のビットストリームを得ることができる。
【０００８】
【発明が解決しようとする課題】
上記の理由から、これらの両方の問題点を適切に解決するオーディオ符号化方式を提供することが必要とされている。具体的には、低ビットレートの音声信号と、高ビットレートの音楽信号との両方に対して、ハイブリッド法の複雑さを被らずに、良好に動作する単一のソース符号器／復号器を提供することができれば有利である。さらに、このようなソース符号化方式が、パケット交換環境で用いられるときに誤り軽減の目的で信号の自然なマルチデスクリプティブ分解を提供することができれば有効である。
【０００９】
【課題を解決するための手段】
本発明の原理によれば、人間聴覚系のいくつかの性質を利用して、音声および音楽の両方の信号に対して良好に動作する単一の非ハイブリッド型オーディオ符号化方式が実現され、さらに、自然なマルチデスクリプティブ分解が得られることが認識された。具体的には、高い周波数では、人間聴覚系は、与えられた基礎となる音響波形刺激に対する同期を失い、この周波数についての時間情報は、聴神経の神経発火の瞬時平均レートによってのみ伝達されることが認識された。
【００１０】
この認識に基づいて、本発明によれば、符号化されるべきソース信号は複数の周波数帯域に分割され、与えられたしきい値周波数より低い周波数については、波形は、その位相情報を保存するように符号化されるが、そのしきい値より高い周波数については、これらの（高周波側の）それぞれの周波数帯域の波形は、キャリア信号とエンベロープ信号に分解され、（キャリア信号の位相情報ではなく）エンベロープ信号のみが符号化される。その後、復号器では、これらの符号化されたエンベロープ信号が復号され、対応するキャリア波形を変調するために用いられる。キャリア波形は、例えば、周波数帯域の中心周波数に対応する周波数を有する一定の余弦キャリアである。本発明の一実施例によれば、エンベロープ信号は、符号化の前に平滑化（すなわち、ローパスフィルタリング）されることも可能である。
【００１１】
さらに具体的には、本発明は、オーディオソース信号を符号化する方法および装置であって、（ａ）オーディオ信号を、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号と、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号とを含む複数の周波数帯域信号とに分割するステップまたは手段と、（ｂ）前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも１つを符号化するステップまたは手段と、（ｃ）前記高周波数帯域信号の少なくとも１つに対して、該高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが該高周波数帯域信号を表す波形に関連する位相情報をほとんど含まない、対応する臨界帯域エンベロープ信号を生成するステップまたは手段と、（ｄ）対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号の少なくとも一部を符号化するステップまたは手段とを有する。
【００１２】
また、これに対応して、本発明は、このように符号化されたオーディオソース信号を復号する方法および装置であって、（ｉ）それぞれの符号化された低周波数帯域信号を復号して、対応する低周波数帯域信号を表す再構成波形を生成するステップまたは手段と、（ｉｉ）それぞれの符号化された高周波数帯域信号を復号して、該高周波数帯域信号に対応する再構成臨界帯域エンベロープ信号を生成するステップまたは手段と、（ｉｉｉ）前記再構成臨界帯域エンベロープ信号のそれぞれを、対応するキャリア波形と結合して、対応する高周波数帯域信号を表す再構成波形を生成するステップまたは手段と、（ｉｖ）前記対応する低周波数帯域信号を表す再構成波形と前記対応する高周波数帯域信号を表す再構成波形とをそれぞれ結合して、符号化されたオーディオ信号を表す再構成波形を生成するステップまたは手段とを有する。
【００１３】
さらに、本発明の一実施例によれば、２つの独立のビットストリームが、本発明の符号器によって生成される。一方は、しきい値より高い周波数帯域の適当なサブセットであり、他方は、その適当なサブセットから除かれた他の周波数帯域を表す。（しきい値より低い符号化周波数帯域は、両方のビットストリームに含めることが可能である。）例えば、周波数帯域のこれらの２つのサブセットは、しきい値より高い周波数帯域の系列から、１つおきの帯域をインタリーブする（例えば、１つおきの「偶」と「奇」のサブバンドをインタリーブして「偶」チャネルおよび「奇」チャネルを生成するというように）ことによって定義される。このように生成された２つの独立のビットストリームは、それ以外の点では従来通りのマルチデスクリプティブ方式で符号化され、最終的に、対応する実施例の復号器によって生成される２チャネルの再構成信号が得られ、これがそれぞれ左チャネルおよび右チャネルとして「再生」されることにより、人間聴覚系のバイノーラル（双聴覚）性を利用することが可能となる。
【００１４】
【発明の実施の形態】
蝸牛フィルタの出力から時間エンベロープと「キャリア」への分解が、音声近くにおける聴覚メカニズムの役割を定量化するために用いられることは、広く受け入れられている（例えば、J. L. Flanagan, "Parametric Coding of Speech Spectra", Journal of the Acoustical Society of America, vol.68, no.2, pp.414-430, 1980、を参照）。これは、聴覚系（特に、末梢）がどのように作用するかについての現在のわれわれの理解によって支持される。
【００１５】
測定されたネコの聴神経（ＡＮ：auditory nerve）応答（例えば、B. Delgutte et al., "Speech Coding in the Auditory Nerve: I. Vowel-like Sounds", Journal of the Acoustical Society of America, vol.75, no.3, pp.866-878, 1984、を参照）と、人間の可能なＡＮ応答との間のアナロジーにより、低ＣＦと高ＣＦの神経繊維の発火パターンの性質間の有意な差が予想される。（当業者に周知のように、ＣＦ（特性周波数：Characteristic Frequency）は、基底膜に沿った神経繊維の起点の位置を周波数単位で示す。）低いＣＦでは、ＡＮ神経繊維の神経放電は、基礎となる駆動蝸牛信号に位相ロックされる（すなわち、同期は維持される）。高いＣＦでは、神経放電の同期は大幅に低下する。実際、このようなＣＦでは、時間情報は、神経発火の瞬時平均レートによって保持され、これは、基礎となる駆動蝸牛信号の時間エンベロープに関連している。明らかに、これらのＡＮ領域の間に明確な境界はない。むしろ、性質の変化は緩やかである。しかし、本発明の一実施例によれば、この遷移領域は約１２００Ｈｚにあるという作業仮説を採用している。
【００１６】
このため、本発明の実施例によれば、１２００Ｈｚより高い周波数帯域については、（ＡＮ神経発火における同期の喪失によって反映される）キャリア情報を追跡するために、内有毛細胞（ＩＨＣ：Inner Hair Cell）の生理学的限界を利用する。数学的には、次のようにおく。
ｓ_ｉ（ｔ）＝ｓ（ｔ）＊ｈ_ｉ（ｔ）＝ａ_ｉ（ｔ）ｃｏｓφ_ｉ（ｔ）（１）
ただし、ｓ（ｔ）は入力信号であり、ｈ_ｉ（ｔ）は周波数Ｔ_ｉ＞１２００Ｈｚを中心とする蝸牛フィルタｉのインパルス応答であり、演算子＊は畳込みを表し、ａ_ｉ（ｔ）およびｃｏｓφ_ｉ（ｔ）はそれぞれ、蝸牛信号ｓ_ｉ（ｔ）のエンベロープおよびキャリア情報である。なお、上記のＩＨＣ制限のため、Ｔ_ｉを起点とするＡＮ神経繊維の神経発火は、エンベロープ情報ａ_ｉ（ｔ）のみを示し、キャリア情報は失われる。ここで、次の合成信号を考える。
＾ｓ_ｉ（ｔ）＝ａ_ｉ（ｔ）ｃｏｓω_ｉｔ（２）
【００１７】
すなわち、もとのキャリアｃｏｓφ_ｉ（ｔ）が固定余弦キャリアｃｏｓω_ｉｔで置き換えられている。したがって、帯域制限エンベロープａ_ｉ（ｔ）に対して、＾ｓ_ｉ（ｔ）は、周波数ω_ｉを中心とする帯域制限信号となる。＾ｓ_ｉ（ｔ）が聴取者の耳に提示された場合、その結果として、蝸牛区画に沿った適当な位置（周波数ω_ｉに対応する）におけるエンベロープ信号はａ_ｉ（ｔ）となる。ここで、次式のようにおく。
【数１】

ただし、ａ_ｉ（ｔ）（ｉ＝１，...，Ｎ）は、１２００Ｈｚより高い臨界帯域スケールの部分に沿って等間隔（１個の臨界帯域を１つの間隔とする）に位置するＮ個の蝸牛フィルタのエンベロープ信号である。（当業者には理解されるように、４ｋＨｚの帯域幅の入力信号に対して、１２００Ｈｚより高い臨界帯域の数はＮ＝１０であり、８ｋＨｚの帯域幅の入力信号に対して、対応する値はＮ＝１７である。）多数の有限個の高度に重畳した蝸牛フィルタ（連続する蝸牛区画に沿ったＩＨＣの離散分布によって決定される）によって情報はＡＮに伝達されることを想起すると、もとの信号ｓ（ｔ）についてのＡＮレベルでの全エンベロープ情報は、ＩＨＣの密度によって決定される周波数分解能で表現される。しかし、式（３）によれば、再構成信号＾ｓ（ｔ）を構成するエンベロープ信号ａ_ｉ（ｔ）（ｉ＝１，...，Ｎ）は、ＡＮレベルでの全エンベロープ情報の疎なサンプルのみを表現する。
【００１８】
次に、式（３）の＾ｓ（ｔ）を、聴取者の耳に提示する。周波数ω_ｉに位置する聴取者の蝸牛フィルタの出力におけるエンベロープは（理想的には）、それぞれのｉ（ｉ＝１，...，Ｎ）に対して、ａ_ｉ（ｔ）である。しかし、２つの連続する余弦キャリア周波数ω_ｉとω_ｉ＋１の間に位置する蝸牛フィルタの出力は、そのフィルタを通過する２つの変調された余弦キャリア信号の「うなり」を反映することになる。これは、好ましくない歪みを生じることがある。
【００１９】
したがって、本発明の一実施例によれば、うなりによる歪みの可能性を低減するため、臨界帯域をインタリーブしたダイコティック合成（すなわち、左右の耳に提示される信号が異なる場合）を利用する。具体的には、＾ｓ_ｏｄｄ（ｔ）および＾ｓ_ｅｖｅｎ（ｔ）をそれぞれ、＾ｓ（ｔ）の奇成分および偶成分の和とする。すなわち、
【数２】

である（ここで、Ｎは偶数であると仮定する）。これらのそれぞれの信号における２つの連続する余弦キャリアの間の距離が大きくなることにより、キャリアうなりによる歪みが低減される。＾ｓ_ｏｄｄ（ｔ）および＾ｓ_ｅｖｅｎ（ｔ）がそれぞれ左耳および右耳に提示されると、聴覚系は、単一の融合した像を生成することになる。
【００２０】
注目すべき点が２つある。第１に、式（１）のｈ_ｉ（ｔ）は蝸牛フィルタであり、これは、例えば、当業者に周知のガンマトーンフィルタとして実現される（例えば、B. Gold et al., "Gamma-Tone Filters, Roex Filters, and Auditory Models", Speech and Audio Signal Processing, section 19.4, pp.264-266, John Wiley and Sons, 2000、を参照）。これは、ｈ（ｔ）＝Σ_ｉ＝１ ^Ｎｈ_ｉ（ｔ）がオールパスフィルタでないことを意味する。すなわち、信号Σ_ｉ＝１ ^Ｎｓ_ｉ（ｔ）（ここで、ｓ_ｉ（ｔ）は式（１）の変更されていない蝸牛信号である）は、実際には、式（１）のもとの信号ｓ（ｔ）とは異なる。（しかし、他方では、当業者に周知のように、従来のサブバンド符号化方式におけるフィルタバンクは通常、「完全再構成」要件により設計されることに注意すべきである。）しかし、このような差は不利ではない。その理由は、本発明の原理によれば、われわれはもとの信号を再現しようとしているのではなく、われわれの目的は、もとの信号によって実際に生成された蝸牛エンベロープ情報に対応する、聴取者のＡＮにおける神経活動を刺激する信号を合成することだからである。
【００２１】
第２に注意すべき点であるが、ここで説明した信号処理技術（すなわち、純粋な余弦キャリアを用いて、基底膜に沿った適当な位置に、サンプリングされたエンベロープ信号を配置すること）は、固有の好ましくない歪みを生じることがある。これは、もとの信号ｓ（ｔ）が高度に重畳した十分な分解能の蝸牛フィルタバンクを通過すると、その結果得られるエンベロープ情報は、フィルタバンクアレイを通るにつれて緩やかに変化することから理解される。これに対して、式（４）および（５）の＾ｓ_ｏｄｄ（ｔ）および＾ｓ_ｅｖｅｎ（ｔ）を同じフィルタバンクに通すと、エンベロープ情報の変化はずっと粗くなる。式（１）のフィルタｈ_ｉ（ｔ）によるエンベロープ情報のサンプリングが疎であるからである。
【００２２】
上記のように、本発明の原理により得られる情報低減の源の１つは、キャリア情報を追跡する際のＩＨＣの生理学的制限に基づいている。これにより、例えば式（４）および（５）に示したような純粋な余弦キャリアの利用が可能となる。もちろん、符号器により使用される余弦キャリアの周波数は、受信符号化信号を復号する際に用いられる受信機にとって既知である。しかし、上記の解析における蝸牛エンベロープａ_ｉ（ｔ）を、平滑化されたエンベロープ〜ａ_ｉ（ｔ）で置き換えることによって、さらに情報を低減することが可能である。この平滑化は、例えばローパスフィルタを用いた従来の方法で実現される。その場合、式（４）および（５）はそれぞれ、次のようになる。
【数３】

【００２３】
精神物理学的実験によれば、ローパスフィルタのカットオフ周波数が約２５０Ｈｚである場合、式（６）および（７）の平滑化された蝸牛エンベロープで合成された音声信号は、式（４）および（５）のもとのエンベロープで合成された音声信号と知覚的に区別することができないことが示されている。そこで、本発明の実施例によれば、カットオフ周波数が約２５０Ｈｚのローパスフィルタを用いて、１２００Ｈｚより高い周波数における符号化のための、平滑化されたインタリーブ臨界帯域エンベロープを生成する。その後、このように符号化されたエンベロープは、上記のように受信機で復号され、対応する信号の対が、式（６）および（７）に従って合成される。
【００２４】
なお、チャネルをインタリーブしたダイコティック合成を用いることによって、式（６）および（７）に従って合成される〜ｓ_ｏｄｄ（ｔ）および〜ｓ_ｅｖｅｎ（ｔ）は、１２００Ｈｚより上では無相関になる。したがって、本発明のさまざまな実施例によれば、いくつかのマルチデスクリプティブ合成法のうちの任意のものを用いることが可能となる。例えば、受信機において（例えば、測定されるチャネル損失に依存して）、左耳（Ｌ）および右耳（Ｒ）には、次のいずれかのように供給される。
（１）〜ｓ_ｏｄｄ（ｔ）をＬに、〜ｓ_ｅｖｅｎ（ｔ）をＲに。
（２）〜ｓ_ｏｄｄ（ｔ）をＬおよびＲの両方に。
（３）〜ｓ_ｅｖｅｎ（ｔ）をＬおよびＲの両方に。
【００２５】
なお、本発明のアプローチは、場合によっては、次の２種類の人為的産物を生じることがある。第１に、純粋余弦キャリアの利用により、式（４）および（５）の＾ｓ_ｏｄｄ（ｔ）および＾ｓ_ｅｖｅｎ（ｔ）に知覚可能な歪みを生じることがあり、その量は、スペクトル内容とキャリア周波数の間の相互作用と、聴取者の経験とに依存する。第２に、ダイコティック提示は、ダイオティック（すなわち、同じ信号が両耳に提示される場合）提示によって生成されるものとは異なる空間像を生成することがある。本発明の実施例の方法をマルチデスクリプティブ方式のアプローチに従って用いると、ダイコティックモードからダイオティックモードへの切換により、像の空間位置の切換が起こる。この問題点は、ステレオヘッドフォンを用いるのではなく、２個のスピーカを通じて２チャネル出力を行うような実世界のアプリケーション（例えば、デスクトップアプリケーションの場合）では軽減される可能性がある。
【００２６】
［実施例］
図１に、本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、オーディオ符号器の実施例を示す。なお、具体的には、符号器から復号器へ送信される情報は、符号化されたベースバンド信号（すなわち、１２００Ｈｚより低い周波数を含む信号の部分）と、符号化された平滑化（すなわち、ローパスフィルタリングされた）臨界帯域エンベロープとからなる。さらに、注意すべき点であるが、図示した本発明の実施例によれば、２個のビットストリームが生成される。一方は、（ベースバンド信号の符号化表現とともに）「偶」チャネルの符号化表現を含み、他方は、（同じくベースバンド信号の符号化表現とともに）「奇」チャネルの符号化表現を含む。
【００２７】
具体的には、図１の実施例の符号器は、１対の符号化ビットストリーム、すなわち、符号化された偶チャネルビットストリームおよび符号化された奇チャネルビットストリームをそれぞれ生成するための、奇チャネル符号器１２−１および偶チャネル符号器１２−２を有する。符号化されるべきオーディオ信号を含む入力信号ｓ（ｔ）は、奇チャネル符号器１２−１および偶チャネル符号器１２−２の両方に入力され、それぞれの対応するフィルタバンクを通じて送られる。例えば、奇チャネル符号器１２−１のフィルタバンクは、ベースバンド信号（すなわち、１２００Ｈｚ以下の信号の周波数成分）を生成する１２００Ｈｚローパスフィルタ１４−１と、与えられた臨界帯域に対応するサブバンド信号を生成する、１２００Ｈｚより高いすべての「奇数番号の」臨界帯域のバンドパスフィルタ（すなわち、図示したようなバンドパスフィルタ１７−１ないしバンドパスフィルタ１７−（Ｎ−１））とを有する。同様に、偶チャネル符号器１２−２のフィルタバンクは、ベースバンド信号を生成する１２００Ｈｚローパスフィルタ１４−２と、同じく与えられた臨界帯域に対応するサブバンド信号を生成する、１２００Ｈｚより高いすべての「偶数番号の」臨界帯域のバンドパスフィルタ（すなわち、図示したようなバンドパスフィルタ１７−２ないしバンドパスフィルタ１７−Ｎ）とを有する。これらのフィルタバンクの各フィルタは全く従来のものであり、当業者に周知である。バンドパスフィルタのセットは、バークスケールに沿って一様に分布し、各フィルタは、例えば当業者に周知のガンマトーンフィルタのような「蝸牛」周波数応答を有する。（同じく当業者に周知のように、バークスケールは、蝸牛の実際の帯域を表す近似的に対数的な周波数スケールを有する。）なお、ここでは、説明を簡単にするため、Ｎ（１２００Ｈｚより高い臨界帯域の数）は偶数であると仮定する。
【００２８】
本発明の原理によれば、（奇チャネル符号器１２−１および偶チャネル符号器１２−２の両方における）それぞれの高周波数サブバンド信号に対して、エンベロープ生成器１８−ｉ（バンドパスフィルタ１７−ｉによって生成されるサブバンド信号に対応する）は、信号のキャリア部分（すなわち、上記の数学的解析によるｃｏｓφ_ｉ（ｔ））を除去することにより、符号化のために、信号の「エンベロープ」部分ａ_ｉ（ｔ）のみを残す。次に、これらの生成されたそれぞれの「エンベロープ」信号に対して、２５０Ｈｚローパスフィルタ１９−ｉ（エンベロープ生成器１８−ｉによって生成されたエンベロープ信号に対応する）は、エンベロープ信号を（同じく上記の数学的解析に従って）「平滑化」する。なお、エンベロープ生成器および２５０Ｈｚローパスフィルタはいずれも従来のものであり、当業者に周知である。最後に、（奇チャネル符号器１２−１内の）量子化器１６−１および（偶チャネル符号器１２−２内の）量子化器１６−２は、同じく当業者に周知の従来の量子化技術（例えば、後述の例示的な実装についての説明を参照）を用いて、ベースバンド信号と、個々の臨界帯域信号の平滑化されたエンベロープとを符号化して、対応する符号化ビットストリームを生成する。
【００２９】
図２に、本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、図１のオーディオ符号器に対応する復号器の実施例を示す。再び注意すべき点であるが、符号器から復号器へ送信された情報は、符号化されたベースバンド信号（すなわち、１２００Ｈｚより低い周波数を含む信号の部分）と、符号化された平滑化（すなわち、ローパスフィルタリングされた）臨界帯域エンベロープとからなる。さらに、再び注意すべき点であるが、図示した本発明の実施例によれば、２個のビットストリームが復号器によって受信される。一方は、（ベースバンド信号の符号化表現とともに）「偶数番号の」サブバンドの符号化表現を含み、他方は、（同じくベースバンド信号の符号化表現とともに）「奇数番号の」サブバンドの符号化表現を含む。
【００３０】
具体的には、図２の実施例の復号器は、受信される符号化ビットストリームの対、すなわち、符号化された偶チャネルビットストリームおよび符号化された奇チャネルビットストリームをそれぞれ復号するための、奇チャネル復号器２２−１および偶チャネル復号器２２−２を有する。まず、（奇チャネル復号器２２−１内の）逆量子化器２４−１および（偶チャネル復号器２２−２内の）逆量子化器２４−２は、ビットストリームを復号して、個々の信号、すなわち、（奇チャネル復号器および偶チャネル復号器のそれぞれにおける）ベースバンド信号と、含まれている平滑化された臨界帯域エンベロープ信号のセットとを生成する。具体的には、奇チャネル復号器２２−１の逆量子化器２４−１は、ベースバンド信号と、奇数番号のそれぞれのサブバンドに対する平滑化された臨界帯域エンベロープ信号とを生成し、一方、偶チャネル復号器２２−２の逆量子化器２４−２は、ベースバンド信号も生成するが、それとともに、偶数番号のそれぞれのサブバンドに対する平滑化された臨界帯域エンベロープ信号を生成する。逆量子化器２４−１および２４−２は、それぞれ図１の奇チャネル符号器１２−１および偶チャネル符号器１２−２の量子化器１６−１および１６−２の機能に対応する（すなわち、それらの逆の機能を実行する）が、同じく全く従来のものであって、当業者に周知である。
【００３１】
次に、それぞれの平滑化された臨界帯域エンベロープ信号に対して、奇チャネル復号器２２−１および偶チャネル復号器２２−２はそれぞれ、乗算器回路２５−ｉ（サブバンドｉに対する再生された平滑化臨界帯域エンベロープ信号に対応し、これを処理する）を有する。乗算器回路２５−ｉは、固定余弦キャリア、すなわち、ｃｏｓω_ｉｔ（ただし、ω_ｉは、臨界帯域ｉの中心周波数となるようにに選ぶ）を対応する平滑化臨界帯域エンベロープ信号に乗じる。このようにして、結果として得られる合成信号は、与えられた臨界帯域を中心とする固定余弦キャリア信号を、与えられた臨界帯域に対応する符号化され送信された平滑化臨界帯域エンベロープ信号を復号したもので変調した信号を含む（上記の数学的解析と、特に式（２）およびその説明とを参照）。
【００３２】
次に、対応する乗算器回路２５−ｉによって生成された、それぞれの再構成された臨界帯域信号に対して、対応する加算器回路２６−ｉは、対応する低強度帯域制限ノイズ信号ｎ_ｉ（ｔ）を加算する。これは、例えば当業者に周知の白色ガウシアンノイズのような低レベルのノイズを、隣接する未占有の周波数帯域に「充填」することによって、再構成された信号における人工的ノイズを低減する。具体的には、占有帯域（これにノイズ信号が加算される）内の実際の信号の強度に対する、ノイズ信号の信号対ノイズ比は、約−１０ｄＢとなり、ノイズ信号の帯域幅は、３個の連続する周波数帯域（ノイズが加算される周波数帯域を中心とする）をカバーすることが可能である。このような低強度ノイズ信号は従来のものであり、当業者が容易に定義することが可能である。なお、このノイズ信号もまた、蝸牛型にすることも可能である。
【００３３】
最後に、奇チャネル復号器２２−１の加算器回路２７−１は、復号されたベースバンド信号と、奇数番号のサブバンドに対するそれぞれの合成されたサブバンド信号（加算器回路２６−１，２６−３，...，２６−（Ｎ−１）によって生成されたもの）との和をとり、上記のような、結果として得られる合成信号〜ｓ_ｏｄｄ（ｔ）を生成する（例えば、式（６）を参照）。同様に、偶チャネル復号器２２−２の加算器回路２７−２は、復号されたベースバンド信号と、偶数番号のサブバンドに対するそれぞれの合成されたサブバンド信号（加算器回路２６−２，２６−４，...，２６−Ｎによって生成されたもの）との和をとり、上記のような、結果として得られる合成信号〜ｓ_ｅｖｅｎ（ｔ）を生成する（例えば、式（７）を参照）。こうして、本発明の原理によれば、図示されているように、〜ｓ_ｏｄｄ（ｔ）はスピーカ２８−１に送られ、〜ｓ_ｅｖｅｎ（ｔ）はスピーカ２８−２に送られる（あるいは、別の実施例では、この逆に送られる）ことにより、同じく前述のように、聴取者２９の左耳には信号〜ｓ_ｏｄｄ（ｔ）の音響的再現が供給され、右耳には信号〜ｓ_ｅｖｅｎ（ｔ）の音響的再現が供給される。
【００３４】
［例示的な実現に関する追加的考察］
本発明の実施例によれば、本発明で用いるような技術に基づく符号化システムの全体の複雑さ（計算量）および遅延は、ここで説明するように制約される。なお、当業者に周知の追加技術を用いれば、場合により遅延の増大の犠牲を払って、さらに良好な符号化効率を得ることも可能である。
【００３５】
例えば、図１のバンドパスフィルタバンクは、当業者に周知の１２８タップＦＩＲ（有限インパルス応答）フィルタで実現することにより、８ｍｓの遅延が導入される（すなわち、８０００サンプル／秒）。さまざまな信号間の直接的な時間関係を維持するために、ベースバンド信号（帯域幅１２００Ｈｚ）は１／３の比で（すなわち、２６６６サンプル／秒に）ダウンサンプリングされ、ローパスフィルタリングされたエンベロープ信号（帯域幅２５０Ｈｚ）は１／１５の比で（すなわち、５３３サンプル／秒に）ダウンサンプリングされる（このようなダウンサンプリングは実施例では図示していないが、当業者に周知である）。ダウンサンプリングされた周波数での符号化遅延は、それぞれのダウンサンプリング比だけ遅延を増大させることになる。したがって、この実施例によれば、サンプルごとに作用する符号化方式を用いることが可能である。例えば、デルタ変調やＡＤＰＣＭ（いずれも当業者に周知である）のような符号化技術を用いることが可能である。
【００３６】
上記のダウンサンプリングされたエンベロープ信号は量子化ノイズに対して非常にロバストであることがわかっているため、２ビット／サンプル量子化器による簡単なＡＤＰＣＭ法を用いることが可能である。これに対して、ベースバンド信号は、量子化誤りに対して、より敏感であることがわかっている。具体的には、ＡＤＰＣＭを用いると、３ビット／サンプルで、受容可能な品質レベルが得られることがわかっている。本発明の他の実施例によれば、符号器のベースバンド部分を用いてマルチデスクリプティブ符号化方式を実装することが可能であるが、単純化および効率化のために、ここで具体的に説明している本発明の実施例によれば、ベースバンド情報は全部、両方のストリームで用いられる。こうして、例として、この実施例の全ビットレートは次のようになる。
２チャネル×（ベースバンド：８ｋｂ／ｓ＋エンベロープ：５×１．０６６ｋｂ／ｓ）＝２６．６６ｋｂ／ｓ
また、およその全体の符号化の複雑さ（計算量）は例えば次のようになる。
（ベースバンド：１．３ＭＩＰＳ＋エンベロープ：１０×０．３ＭＩＰＳ）＝４．３ＭＩＰＳ
【００３７】
制限サイズＶＱ（ベクトル量子化器。当業者に周知である）による後方適応予測（同じく当業者に周知である）は、大きいアルゴリズム遅延を導入せずに、サンプルあたりのビット数をさらに低減することができる。なお、予測器次数は、当業者には容易に判断されるように、スペクトルの正確な記述を生成するために特に高い必要はない。本発明のこの実施例による上記のようなダウンサンプリングレートの特定の選択により、追加の符号化遅延を導入せずに、５次元ＶＱを使用することが可能となる。さらに、本発明の実施例によれば、ダウンサンプリングされた信号に対して１６次の予測器を用いて、ＬＤ−ＣＥＬＰ（低遅延符号励振線形予測。当業者に周知の符号化技術である）の修正版を使用して、顕著な可聴劣化なしで、８ＭＩＰＳの計算量で、２ビット／サンプル（すなわち、２６６６サンプル／秒）を得ることが可能である。
【００３８】
復号器では、信号は、アップサンプリングされ、当業者に周知の３２タップＦＩＲ（有限インパルス応答）フィルタで補間されて、さらに２ｍｓの遅延が生じる。このアプローチの全体の計算量は、フィルタリングおよびアップサンプリングについては約１４ＭＩＰＳであり、量子化については約１１ＭＩＰＳである。全体のエンドツーエンド遅延は、フィルタリングによる１０ｍｓと、符号化による２ｍｓである。全ビットレートは例えば次のようになる。
２チャネル×（ベースバンド：５．３３ｋｂ／ｓ＋エンベロープ：５×１．０６６ｋｂ／ｓ）＝２１．３３２ｋｂ／ｓ
最後に、注意すべき点であるが、広帯域信号（８ｋＨｚ）の場合、ビットレートの正味の増大は、各ビットストリームごとに３〜４ｋｂ／ｓにしかならない。
【００３９】
［詳細な説明への付記］
以上、本発明について詳細に説明したが、当業者であれば、上記の記載に基づいて、さまざまな変形例を考えることが可能である。例えば、当業者には認識されるように、図面のブロック図は、本発明の原理を実現する例示的な回路の概念図を表す。同様に、認識されるように、流れ図、状態遷移図、擬似コードなどは、実質的に、コンピュータ可読媒体内に表現し、コンピュータあるいはプロセッサによって実行されるようにすることが（そのようなコンピュータあるいはプロセッサが明示的に図示されているかどうかにかかわらず）可能である。
【００４０】
図示されたさまざまな要素の機能は、「プロセッサ」あるいは「モジュール」と名づけられた機能ブロックを含めて、専用ハードウェアや、適当なソフトウェアを実行可能なハードウェアを用いて提供可能である。プロセッサによって提供されるとき、これらの機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、あるいは、複数のプロセッサ（その一部は共用可能）によって提供可能である。さらに、「プロセッサ」あるいは「コントローラ」という用語の明示的な使用は、ソフトウェアを実行可能なハードウェアを限定的に指すものと解釈すべきではなく、暗黙的に、限定的でなく、ディジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶装置を含む。他のハードウェアも、通常のものであるかカスタム化したものかにかかわらず、含まれる。同様に、図中にスイッチがあれば、それは概念的なものにすぎない。その機能は、プログラムロジックの動作によって、専用ロジックによって、プログラム制御と専用ロジックの相互作用によって、あるいは、手動でも、実行可能であり、具体的には文脈から理解されるように実装者が個々の技術を選択することが可能である。
【００４１】
特許請求の範囲において、特定の機能を実行する手段として表現される要素は、例えば、（ａ）その機能を実行する回路要素の組合せ、あるいは、（ｂ）ファームウェア、マイクロコードなどを含む任意の形のソフトウェアを、その機能を実行するようにそのソフトウェアを動作させるための適当な回路と組み合わせたもの、を含めて、その機能を実行する任意の態様を含む。
【００４２】
【発明の効果】
以上述べたごとく、本発明によれば、人間聴覚系のいくつかの性質を利用して、音声および音楽の両方の信号に対して良好に動作する単一の非ハイブリッド型オーディオ符号化方式が実現され、さらに、自然なマルチデスクリプティブ分解が得られる。
【図面の簡単な説明】
【図１】本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、オーディオ符号器の実施例の図である。
【図２】本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、図１のオーディオ符号器に対応する復号器の実施例の図である。
【符号の説明】
１２−１奇チャネル符号器
１２−２偶チャネル符号器
１４１２００Ｈｚローパスフィルタ
１６量子化器
１７バンドパスフィルタ
１８エンベロープ生成器
１９２５０Ｈｚローパスフィルタ
２２−１奇チャネル復号器
２２−２偶チャネル復号器
２４逆量子化器
２５乗算器回路
２６，２７加算器回路
２８スピーカ
２９聴取者

Claims

オーディオ信号を符号化する方法であって、
（ａ）オーディオ信号を複数の周波数帯域信号に分割するステップであって、１又はそれ以上の前記周波数帯域信号は、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号であり、そして複数の前記周波数帯域信号は、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号である、ステップと、
（ｂ）前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも１つを符号化するステップと、
（ｃ）前記高周波数帯域信号の各々に対して、対応する臨界帯域エンベロープ信号を生成するステップであって、対応する臨界帯域エンベロープ信号は、対応する前記高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが前記対応する高周波数帯域信号を表す波形に関連する位相情報を含まない、ステップと、
（ｄ）前記対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号を符号化するステップと、
（ｅ）第１符号化ビットストリームおよび第２符号化ビットストリームを生成するステップであって、（i）前記第１符号化ビットストリームおよび第２符号化ビットストリームの各々は、少なくとも１つの符号化された低周波数帯域信号を含み、前記第１符号化ビットストリームおよび第２符号化ビットストリームは、それぞれ、前記符号化された高周波数帯域信号の第１の真部分集合および前記符号化された高周波数帯域信号の第２の真部分集合を含み、（ii）前記第１および第２の真部分集合は、前記符号化された高周波数帯域信号の１つおきの偶と奇の帯域をインターリーブするように前記符号化された高周波数帯域信号の系列から１つおきの帯域をインターリーブすることにより定義され、（iii）前記符号化された高周波数帯域信号の各々は、前記第１または第２の真部分集合の要素である、ステップとを具備することを特徴とする方法。
（ａ）オーディオ信号を複数の周波数帯域信号とに分割するステップであって、１又はそれ以上の前記周波数帯域信号が、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号であり、そして複数の前記周波数帯域信号が、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号である、前記分割するステップと、（ｂ）前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも１つを符号化するステップと、（ｃ）前記高周波数帯域信号の各々に対して、対応する臨界帯域エンベロープ信号を生成するステップであって、対応する臨界帯域エンベロープ信号は、対応する前記高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが前記対応する高周波数帯域信号を表す波形に関連する位相情報を含まない、前記生成するステップと、（ｄ）前記対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号を符号化するステップと、（ｅ）第１符号化ビットストリームおよび第２符号化ビットストリームを生成するステップであって、（I）前記第１符号化ビットストリームおよび第２符号化ビットストリームの各々は、少なくとも１つの符号化された低周波数帯域信号を含み、そして、前記第１符号化ビットストリームおよび第２符号化ビットストリームは、それぞれ、前記符号化された高周波数帯域信号の第１の真部分集合および前記符号化された高周波数帯域信号の第２の真部分集合を含み、（II）前記第１および第２の真部分集合は、前記符号化された高周波数帯域信号の１つおきの偶と奇の帯域をインターリーブするように前記符号化された高周波数帯域信号の系列から１つおきの帯域をインターリーブすることにより定義され、（III）前記符号化された高周波数帯域信号の各々は、前記第１または第２の真部分集合いずれかの要素である、ステップとを実行することによって符号化されたオーディオ信号を復号する方法であって、
（ｉ）前記符号化された低周波数帯域信号の各々を復号して、対応する前記低周波数帯域信号を表す再構成波形を生成するステップと、
（ｉｉ）前記符号化された高周波数帯域信号の各々を復号して、対応する前記高周波数帯域信号に対応する再構成臨界帯域エンベロープ信号を生成するステップと、
（ｉｉｉ）前記再構成臨界帯域エンベロープ信号の各々を、対応するキャリア波形と結合して、対応する高周波数帯域信号を表す再構成波形を生成するステップと、
（ｉｖ）前記対応する低周波数帯域信号を表す再構成波形の各々と前記対応する高周波数帯域信号を表す再構成波形の各々とを結合して、符号化されたオーディオ信号を表す再構成波形を生成するステップとを含み、
前記高周波数帯域信号を表す再構成波形を生成するステップは、それぞれのキャリア波形を、対応する再構成臨界帯域エンベロープ信号で変調することを有し、それぞれのキャリア波形は、対応する固定周波数の余弦波系を有することを特徴とする、オーディオ信号を復号する方法。
前記オーディオ信号の符号化は、符号化された高周波数帯域信号の第１の真部分集合からなる第１符号化ビットストリームと、符号化された高周波数帯域信号の第２の真部分集合からなる第２符号化ビットストリームとを生成するステップを実行することをさらに含み、
前記第１と第２の真部分集合は、互いに素であり、そして、前記第１と第２の真部分集合は、合わせて前記高周波数帯域信号のすべてを含み、
前記復号する方法は、前記第１符号化ビットストリームと前記第２符号化ビットストリームのそれぞれに対して独立に実行されることにより、第１再構成波形および第２再構成波形を生成し、それぞれの再構成波形は、符号化されたオーディオ信号を表すことを特徴とする請求項２記載の方法。
高周波数帯域信号を表すそれぞれの再構成波形を、対応するノイズ信号と結合するステップをさらに有することを特徴とする請求項２記載の方法。