JP5719941B2

JP5719941B2 - オーディオ信号の効率的なエンコーディング／デコーディング

Info

Publication number: JP5719941B2
Application number: JP2013553392A
Authority: JP
Inventors: ヴォロジャグランチャロフ，; エリクノーベル，; シグルズールスヴェリッソン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2011-02-09
Filing date: 2011-02-09
Publication date: 2015-05-20
Anticipated expiration: 2031-02-09
Also published as: CN103380455A; WO2012108798A1; CN103380455B; JP2014510938A; EP2673771A4; EP2673771A1; EP2673771B1; AU2011358654B2; BR112013016350A2; US9280980B2; US20130317811A1

Description

本発明は、広くには、オーディオ信号のエンコーディング／デコーディングに関し、特には効率的な低ビットレートのオーディオエンコーディング／デコーディングのための方法および装置に関する。

オーディオ信号を送信および／または保存すべき場合に、今日における標準的な手法は、オーディオ信号をさまざまな仕組みに従ってデジタル表現へと符号化することである。保存および／または送信の容量を節約するために、オーディオ信号の充分な品質での再現を可能にするために必要なデジタル表現のサイズを縮小することが、一般的に望まれる。符号化後の信号のサイズと信号の品質との間の妥協点は、実際の用途に依存する。

きわめてさまざまな種々の符号化原理が存在する。変換ベースのオーディオ符号化装置は、変換係数を量子化することによってオーディオ信号を圧縮する。したがって、そのような符号化は、変換後の周波数ドメインにおいて機能する。変換ベースのオーディオ符号化装置は、一般的なオーディオの中および高ビットレートの符号化に関しては効率的であるが、スピーチの低ビットレートの符号化に関しては、まったく効率的でない。

例えば代数符号励振線形予測（ＡＣＥＬＰ）コーデックなど、符号励振線形予測（ＣＥＬＰ）コーデックが、低ビットレートのスピーチ符号化においてきわめて効率的である。ＣＥＬＰスピーチ合成モデルは、対象のスピーチ信号の合成による分析の符号化（ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓｃｏｄｉｎｇ）を使用する。ＡＣＥＬＰコーデックは、８〜１２ｋｂｉｔ／ｓにおいて高い品質を達成できる。しかしながら、高い周波数成分を有する信号の特徴は、通常は同じように良好にはモデル化されない。

必要とされるビットレートを減らすために使用される１つの手法は、帯域拡張（ＢＷＥ）を使用することである。ＢＷＥの背後にある主たる考え方は、オーディオ信号の一部が送信されないが、デコーダにおいて受信された信号成分から復元（推定）されるというものである。低いサンプリングレートでサンプリングされた信号のＣＥＬＰ符号化とＢＷＥとの組み合わせが、検討される１つの技術的解決策である。

他方で、ＢＷＥは、例えば修正離散コサイン変換（ＭＤＣＴ）ドメインなどの変換後のドメインにおいてより効率的に実行される。この理由は、ＢＷＥ領域の知覚的に重要な信号の特徴が、周波数ドメイン表現においてより効率的にモデル化されるからである。

したがって、先行技術のコーデックシステムにおける課題は、あらゆる種類のオーディオ信号において効率的なＢＷＥエンコーディングの仕組みを見つけることにある。

本発明の全体的な目的は、ほとんどの種類のオーディオ信号について効率的な低ビットレートのエンコーディング／デコーディングを可能にする方法ならびにエンコーダおよびデコーダの構成を提供することにある。

この目的は、添付の独立請求項に記載の方法および構成によって達成される。好ましい実施形態が、従属請求項に定められる。

一般的に言うと、第１の態様においては、オーディオ信号のエンコードのための方法が、オーディオ信号のエンコーディングの低帯域合成信号を得ることを含む。低帯域合成信号の低帯域の範囲内の第１の参照帯域の第１のエネルギ指標が得られる。オーディオ信号の変換ドメインへの変換が実行される。エネルギオフセットが、変換ドメインにおけるオーディオ信号の第１の高帯域の複数の第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットの組から選択される。第１の高帯域は、低帯域よりも高い周波数に位置する。第１の高帯域がエンコードされる。エンコードは、第１のエネルギ指標に対する第１の高帯域の複数の第１のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第１の組をもたらすことを含む。量子化指数の第１の組の量子化指数は、それぞれの選択されたエネルギオフセットにおいて与えられる。さらに、第１の高帯域のエンコードは、用いられたエネルギオフセットを定めるパラメータをもたらすことを含む。低帯域合成信号の低帯域の範囲内の第２の参照帯域の第２のエネルギ指標が得られる。変換ドメインにおけるオーディオ信号の第２の高帯域がエンコードされる。第２の高帯域は、低帯域と第１の高帯域との間の周波数に位置する。第２の高帯域のエンコードは、第２のエネルギ指標に対する第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第２の組をもたらすことを含む。

第２の態様においては、オーディオ信号のデコードのための方法が、オーディオ信号のエンコーディングの受信を含む。エンコーディングは、オーディオ信号の第１の高帯域の複数の第１のサブ帯域のスペクトル包絡線の量子化指数の第１の組を表わしている。量子化指数の第１の組は、第１のエネルギ指標に対するエネルギを表わしている。オーディオ信号のエンコーディングの低帯域合成信号が得られる。第１のエネルギ指標は、低帯域合成信号の低帯域の範囲内の第１の参照帯域のエネルギ指標として得られる。第１の高帯域は、低帯域よりも高い周波数に位置する。さらにエンコーディングは、用いられたエネルギオフセットを定めるパラメータを表わしている。エネルギオフセットが、第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組から選択される。この選択は、用いられたエネルギオフセットを定めるパラメータにもとづく。変換ドメインにおける信号が、第１の高帯域の第１のサブ帯域の各々について上述のように選択されたエネルギオフセットおよび第１のエネルギ指標を使用することによって第１のサブ帯域に対応する量子化指数の第１の組から第１の高帯域のスペクトル包絡線を割り出すことによって復元される。少なくとも変換ドメインにおける復元された信号にもとづき、オーディオ信号への逆変換が実行される。エンコーディングは、第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線の量子化指数の第２の組をさらに表わしている。第２の高帯域は、低帯域と第１の高帯域との間の周波数に位置する。量子化指数の第２の組は、第２のエネルギ指標に対するエネルギを表わしている。第２のエネルギ指標は、低帯域合成信号の低帯域の範囲内の第２の参照帯域のエネルギ指標として得られる。変換ドメインにおける信号の復元は、第２の高帯域の第２のサブ帯域の各々について第２のエネルギ指標を使用することによって第２のサブ帯域に対応する量子化指数の第２の組から第２の高帯域のスペクトル包絡線を割り出すことをさらに含む。

第３の態様においては、オーディオ信号のエンコーディングのためのエンコーダ装置が、変換エンコーダ、セレクタ、シンセサイザ、エネルギ参照ブロック、およびエンコーダブロックを備える。変換エンコーダが、オーディオ信号の変換ドメインへの変換を実行するように構成されている。セレクタが、変換ドメインにおけるオーディオ信号の第１の高帯域の複数の第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されている。シンセサイザが、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。エネルギ参照ブロックが、シンセサイザへと接続され、低帯域合成信号の低帯域の範囲内の第１の参照帯域の第１のエネルギ指標を得るように構成されている。第１の高帯域は、低帯域よりも高い周波数に位置する。エンコーダブロックが、セレクタおよびエネルギ参照ブロックへと接続されている。エンコーダブロックは、第１の高帯域をエンコードするように構成されている。第１の高帯域のエンコードは、第１のエネルギ指標に対する第１の高帯域の複数の第１のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第１の組をもたらすことを含む。量子化指数の第１の組の量子化指数は、それぞれの選択されたエネルギオフセットにおいて与えられる。さらに、第１の高帯域のエンコードは、用いられたエネルギオフセットを定めるパラメータをもたらすことを含む。エネルギ参照ブロックは、低帯域合成信号の低帯域の範囲内の第２の参照帯域の第２のエネルギ指標を得るようにさらに構成されている。エンコーダブロックは、変換ドメインにおけるオーディオ信号の第２の高帯域をエンコードするようにさらに構成されている。第２の高帯域は、低帯域と第１の高帯域との間の周波数に位置する。第２の高帯域のエンコードは、第２のエネルギ指標に対する第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第２の組をもたらすことを含む。

第４の態様においては、オーディオエンコーダが、第３の態様によるエンコーダ装置を備える。

第５の態様においては、ネットワークノードが、第４の態様によるオーディオエンコーダを備える。

第６の態様においては、オーディオ信号のデコーディングのためのデコーダ装置が、入力ブロック、シンセサイザ、エネルギ参照ブロック、セレクタ、復元ブロック、および逆変換デコーダを備える。入力ブロックが、オーディオ信号のエンコーディングを受信するように構成される。エンコーディングは、オーディオ信号の第１の高帯域の複数の第１のサブ帯域のスペクトル包絡線の量子化指数の第１の組を表わしている。量子化指数の第１の組は、第１のエネルギ指標に対するエネルギを表わしている。シンセサイザが、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。エネルギ参照ブロックが、シンセサイザへと接続され、第１のエネルギ指標を、低帯域合成信号の低帯域の範囲内の第１の参照帯域のエネルギ指標として得るように構成されている。第１の高帯域は、低帯域よりも高い周波数に位置する。さらにエンコーディングは、用いられたエネルギオフセットを定めるパラメータを表わしている。セレクタが、入力ブロックへと接続されている。セレクタは、用いられたエネルギオフセットを定めているパラメータにもとづいて、第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されている。復元ブロックが、入力ブロック、セレクタ、およびエネルギ参照ブロックへと接続されている。復元ブロックは、第１の高帯域の第１のサブ帯域の各々について、選択されたエネルギオフセットおよび第１のエネルギ指標を使用することによって、第１のサブ帯域に対応する量子化指数の第１の組から第１の高帯域のスペクトル包絡線を決定することによって、変換ドメインにおける信号を復元するように構成されている。逆変換デコーダが、復元ブロックへと接続されている。逆変換デコーダは、少なくとも変換ドメインにおける復元された信号にもとづき、オーディオ信号への逆変換を実行するように構成されている。エンコーディングは、第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線の量子化指数の第２の組をさらに表わしている。第２の高帯域は、低帯域と第１の高帯域との間の周波数に位置する。量子化指数の第２の組は、第２のエネルギ指標に対するエネルギを表わしている。エネルギ参照ブロックは、第２のエネルギ指標を、低帯域合成信号の低帯域の範囲内の第２の参照帯域のエネルギ指標として得るようにさらに構成されている。復元ブロックが、第２の高帯域の第２のサブ帯域の各々について第２のエネルギ指標を使用することによって第２のサブ帯域に対応する量子化指数の第２の組から第２の高帯域のスペクトル包絡線を割り出すようにさらに構成されている。

第７の態様においては、オーディオデコーダが、第６の態様によるデコーダ装置を備える。

第８の態様においては、ネットワークノードが、第７の態様によるオーディオデコーダを備える。

本発明による１つの利点は、主観聴き取り試験にて測定される品質が、ＢＷＥ情報のために必要な追加のビットレートがきわめてわずかでありながら、例えば純粋なＡＣＥＬＰエンコーディングと比べて向上することにある。さらなる利点が、後述の種々の実施形態に関連して説明される。

本発明ならびに本発明のさらなる目的および利点が、以下の説明を添付の図面と併せて参照することによって、最もよく理解されるであろう。

オーディオシステムの一例の概略のブロック図である。オーディオエンコーダの実施形態の概略のブロック図である。オーディオエンコーダの別の実施形態の概略のブロック図である。オーディオデコーダの実施形態の概略のブロック図である。オーディオデコーダの別の実施形態の概略のブロック図である。エンコーダ装置の実施形態の概略のブロック図である。エンコーダ装置の別の実施形態の概略のブロック図である。帯域拡張におけるエネルギ参照の関係を説明する図である。種々の分類のオーディオ信号を示した図である。種々の分類のオーディオ信号を示した図である。種々の分類のオーディオ信号を示した図である。有声および無声のオーディオ信号をそれぞれ示した図である。有声および無声のオーディオ信号をそれぞれ示した図である。エンコーディング方法の実施形態の各段階のフロー図である。エンコーディング方法の別の実施形態の各段階のフロー図である。デコーダ装置の実施形態の概略のブロック図である。デコーディング方法の実施形態の各段階のフロー図である。元のスペクトル包絡線とＡＣＥＬＰエンコーディングからの出力との間の相違の例を示した図である。エンコーダ装置の別の実施形態の概略のブロック図である。エンコーダ装置のさらに別の実施形態の概略のブロック図である。帯域拡張における別のエネルギ参照の関係を説明する図である。エンコーディング方法の別の実施形態の各段階のフロー図である。エンコーディング方法のさらに別の実施形態の各段階のフロー図である。デコーダ装置の別の実施形態の概略のブロック図である。デコーディング方法の別の実施形態の各段階のフロー図である。エンコーダ装置の典型的な実施形態を説明するブロック図である。デコーダ装置の典型的な実施形態を説明するブロック図である。

図面の全体を通して、類似または対応する構成要素には、同じ参照番号が使用されている。

説明は、全体としてのシステムの説明から出発し、次いで最終的な技術的解決策の提示の前に、最終的な技術的解決策の一部を呈する例を説明する。

コーデックシステムを有する一般的なオーディオシステムの例が、図１に概略的に示されている。オーディオソースノード１０が、オーディオ信号１６を生じさせる。オーディオ信号１６が、オーディオエンコーダ１４において処理され、オーディオ信号１６を表わすデータを含むバイナリフラックス２２が生成される。オーディオエンコーダ１４は、典型的には、送信機１２に含まれる。そのような送信機は、例えば通信ネットワークノードの一部であってよい。オーディオエンコーダは、さらに後述されるように、典型的には１つ以上のエンコーダ装置を備える。バイナリフラックス２２を、例えばマルチメディア通信の場合など、送信機によって送信インターフェイス２０を介して送信することができる。これに代え、あるいはこれに加えて、バイナリフラックス２２を、記憶装置２６へと記録２４することができ、後に記憶装置２６から取り出す２８ことができる。さらに、送信機構は、随意により、何らかの記憶容量を含むことができる。バイナリフラックス２２を、あくまでも一時的に記憶し、単にバイナリフラックスの利用に時間的な遅延を導入することもできる。使用時に、バイナリフラックス２２は、オーディオデコーダ３４において処理される。オーディオデコーダ３４は、典型的には、受信機３２に含まれる。そのような受信機は、例えば通信ネットワークノードの一部であってよい。オーディオデコーダは、さらに後述されるように、典型的には１つ以上のエンコーダ装置を備える。デコーダ３４は、バイナリフラックスに含まれるデータからオーディオ出力３６を生成する。典型的には、オーディオ出力３６は、特定の制約のもとで可能な限り元のオーディオ信号１６に似ていなければならない。オーディオ出力は、ターゲットノード３０へと提供される。

多くのリアルタイムの用途においては、元のオーディオ信号１６の生成と生成されるオーディオ出力３６との間の時間遅延が、典型的には特定の時間を超えてはならない。同時に、送信のリソースも限られている場合には、利用可能なビットレートも、典型的には低い。

図２Ａが、送信機１２のオーディオエンコーダ１４の実施形態を、ブロック図として概略的に示している。オーディオ信号１６が、入力にもたらされる。オーディオ信号は、オーディオ信号の一部分（例えば、低周波数部分）のエンコーディングを実行するコアエンコーダ４０へともたらされる。このエンコーディングが、デコーディング側へと送信される情報の中心部分を構成する。オーディオエンコーダ１４において、オーディオ信号は、変換エンコーダ５２にももたらされる。変換エンコーダ５２は、オーディオ信号を変換ドメインまたは周波数ドメインへと変換する。オーディオ信号の少なくとも一部分が、変換ドメインにおいてエンコーダ機構５６によってエンコードされる。エンコーダ機構５６において、変換のスペクトル包絡線が量子化される。オーディオ信号の変換ドメインの複数のサブ帯域において、スペクトル包絡線のそれぞれのスカラ量子化が決定される。典型的には特定の周波数帯の量子化されたスペクトル包絡線が、量子化指数へとエンコードされる。コアエンコーダ４０またはオーディオ信号そのものから入手することができる情報を利用することによって、量子化されたスペクトル包絡線のこのエンコーディングを、必要なビットレートに関してより効率的に実行することができる。したがって、そのようなエンコーディングを、ＢＷＥの目的に利用することができる。スペクトル包絡線の量子化指数を表わすエンコーディング９５が、コアエンコーディングパラメータと一緒に、バイナリフラックス２２としてデコーダ側へともたらされる。変換エンコーダ５２およびエンコーダ機構５６が、特定の周波数範囲についての帯域拡張データをもたらすために使用されるエンコーダ装置５０を形成している。随意により、例えば図中の超高帯域拡張エンコーダ（ｖｅｒｙｈｉｇｈｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎｅｎｃｏｄｅｒ）６０によって例示されるような他の種類の帯域拡張の機能も、この考え方と一緒に使用することができる。

図２Ｂが、オーディオエンコーダ１４の別の実施形態を示している。ここでは、コアエンコーダ４０が、ＡＣＥＬＰエンコーダ４１であり、すなわちＣＥＬＰエンコーダの例である。別の実施形態においては、他の種類のＣＥＬＰエンコーダも利用可能である。ＣＥＬＰまたはＡＣＥＬＰの動作そのものは、コーデックの技術分野において周知であり、これ以上詳しくは説明しない。この実施形態のＡＣＥＬＰエンコーダ４１は、オーディオ信号１６の再サンプリング版について動作する。したがって、再サンプリングユニット４２が、オーディオサンプルの入力とＡＣＥＬＰエンコーダ４１との間に設けられる。これにより、ＡＣＥＬＰエンコーダ４１が、オーディオ信号１６の低帯域のエンコーディングをもたらす。ＡＣＥＬＰコーデックは、８〜１２ｋｂｉｔ／ｓまでにおいて高品質のエンコーディングを達成することができる。

ＡＣＥＬＰエンコーディングが、高帯域のための低ビットレートＢＷＥによって補足される。変換エンコーダ５２は、この特定の実施形態においては、修正離散コサイン変換（ＭＤＣＴ）エンコーダ５２である。しかしながら、他の実施形態においては、変換エンコーダ５２が、他の変換にもとづくこともできる。そのような変換の例は、これらに限られるわけではないが、フーリエ変換、種々の種類のサインまたはコサイン変換、Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ変換、あるいは種々の種類のフィルタバンクである。そのような変換の動作そのものは、コーデックの技術分野において周知であり、これ以上詳しくは説明しない。エンコーダ機構５６が、少なくとも高帯域に関するＢＷＥ情報をもたらすように構成される。高帯域は、その名称から示唆されるように、ＡＣＥＬＰエンコーディングの低帯域よりも高い周波数に位置する。この実施形態においては、エンコーダ結合器６１が、ＡＣＥＬＰエンコーダ４１およびＭＤＣＴ変換にもとづくエンコーダ装置５０へと接続され、オーディオ信号についてのすべての情報の適切な複合エンコーディングをもたらすように構成される。オーディオ信号のそのような表現が、バイナリフラックス２２としてもたらされる。

特定の実施形態においては、入力および出力信号が、ＭＤＣＴＢＷＥの基礎を与える３２ｋＨｚでサンプリングされる。ＡＣＥＬＰコアエンコーディングのための信号は、１２．８ｋＨｚへと再サンプリングされる。

図３Ａが、受信機３２におけるオーディオデコーダ３４の実施形態を示している。バイナリフラックス２２、すなわちオーディオ信号についてのエンコード済みの情報が、入力ブロック８２において受信される。オーディオ信号のコアエンコーディングのエンコード済みのパラメータが、コアデコーダ７０へともたらされる。コアデコーダ７０において、パラメータが、オーディオ信号の少なくとも一部分の復元に利用される。高帯域に関するエンコード済みのＢＷＥパラメータが、デコーダ機構８４へともたらされる。デコーダ機構８４において、量子化指数が、エンコード済みのパラメータから復元され、逆変換デコーダ８６において、オーディオ信号の別の一部分が量子化指数からもたらされる。デコーダ機構８４、逆変換デコーダ８６、および入力ブロック８２の少なくとも一部分が、オーディオ信号の高帯域部分を処理するデコーダ装置８０に含まれる。コアデコーダおよびデコーダ装置８０からのオーディオ信号の各部分が、結合器６３において組み合わせられ、最終的なデコード済みのオーディオ信号３６となる。ここでもやはり、例えば図中の超高帯域拡張デコーダ６２によって例示されるように、他の帯域についてのさらなる処理をもたらすことができる。

図３Ｂが、オーディオデコーダ３４の別の実施形態を示している。ここでは、コアデコーダ７０が、ＡＣＥＬＰデコーダ７１であり、例えばＣＥＬＰデコーダの例である。別の実施形態においては、他の種類のＣＥＬＰデコーダも利用可能である。この実施形態のＡＣＥＬＰデコーダ７１は、低いサンプリングレートを有するオーディオ信号３６の一部分をもたらすように動作する。これにより、ＡＣＥＬＰデコーダ７１は、オーディオ信号３６の低帯域のデコーディングをもたらす。上述のように、ＡＣＥＬＰコーデックは、８〜１２ｋｂｉｔ／ｓまでにおいて高品質のデコーディングを達成することができる。

ＡＣＥＬＰデコーディングは、エンコーディング側と同様に、高帯域についての低ビットレートＢＷＥによって補足される。逆変換デコーダ８６が、この特定の実施形態においては、逆修正離散コサイン変換（ＩＭＤＣＴ）デコーダ８５である。しかしながら、別の実施形態においては、変換デコーダ８６が、他の変換にもとづいてもよい。そのような変換の例は、これらに限られるわけではないが、フーリエ変換、種々の種類のサインまたはコサイン変換、Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ変換、あるいは種々の種類のフィルタバンクである。

この手法の重要部分は、ＢＷＥを処理するエンコーダ装置である。図４Ａが、エンコーダ装置の例をさらに多少詳しく示している。いくつかの部分は、すでに上述されている。変換エンコーダ５２（この実施形態においては、ＭＤＣＴエンコーダ５１）が、オーディオ信号１６の変換ドメインへの変換を実行するように構成されている。オーディオ信号のそのような変換ドメイン版９０が、エンコーダ機構５６のエンコーダブロック５５へと供給される。エンコーダブロック５５は、変換エンコーダ５２へと接続されており、変換エンコーディングのスペクトル包絡線を量子化するように構成されている。エンコーダブロック５５は、オーディオ信号の変換ドメインの複数のサブ帯域において、スペクトル包絡線のそれぞれのスカラ量子化を決定するようにさらに構成されている。これらのサブ帯域が集まって、オーディオ信号の少なくとも高帯域を構成する。

エンコーダ機構５６は、この実施形態においてはパワー分布アナライザ５７を備えるセレクタ５８を備えている。パワー分布アナライザ５７は、変換ドメインにおけるオーディオ信号のパワー分布を得るように構成されている。さらに後述されるように、さまざまな種類のオーディオ信号が、変換ドメインにおいてきわめて異なる挙動を有することができる。しかしながら、そのような挙動を、エンコーディングの目的に利用することができる。パワー分布アナライザ５７の一実施形態においては、オーディオ信号の２つ以上のクラスへの分類が実行される。そのようなパワー分布アナライザ５７は、さまざまな実施形態において、シンセサイザ２９からスペクトル情報４２を受け取ることができる。シンセサイザ２９は、オーディオ信号のエンコーディングの低帯域合成信号を得る。合成信号は、外部のソースの信号（例えば、ＭＤＣＴ変換器５４を介したコアエンコーダ４０からの信号）にもとづくことができる。シンセサイザ２９は、ＭＤＣＴ変換器５４だけを備えることができ、あるいはＭＤＣＴ変換器５４およびエンコーダの両方を備えることができる。スペクトル情報を、シンセサイザ２９によって、変換ドメインのオーディオ信号の特性に直接もとづいて、直接的に導出（４２Ｂ）することもできる。そのような分析または分類の例は、さらに後述される。セレクタ５８が、適切な量子化指数を発見するように意図されたエネルギオフセットを供給するように構成されている。エネルギオフセットの供給は、一式の所定のエネルギオフセットからエネルギオフセット９２を選択することによって実行される。一式の所定のエネルギオフセットは、少なくとも２つの所定のエネルギオフセットを含んでいる。この一式の所定のエネルギオフセットは、エンコーダおよびデコーダの両者によって知られており、典型的にはセレクタ５８へと接続されたメモリ５３に用意される。所定のエネルギオフセット９２が、エンコードされようとするサブ帯域の各々について選択される。選択は、オーディオ信号の分析にさらにもとづく。

特定の実施形態においては、選択が開ループの手法にもとづく。この実施形態においては、変換ドメインにおけるオーディオ信号のパワー分布を特徴付けるパラメータが決定される。次いで、実際の選択が、決定されたパラメータにもとづいて実行される。これは、１つの種類の信号について、１つのエネルギオフセット９２が、個々のサブ帯域の各々をエンコードするために使用されることを意味する。

エンコーダ機構５６は、エネルギ参照ブロック５９をさらに備える。エネルギ参照ブロックは、エネルギ参照として使用されるエネルギ指標９３を得るように構成される。エネルギ指標９３は、オーディオ信号の変換ドメインの低帯域における第１の参照帯域のエネルギ指標である。第１の参照帯域を有する低帯域信号４３を、例えばＭＤＣＴ変換器５４を介してコアエンコーダ４０から得ることができる。あるいは、低帯域信号４３Ｂを、オーディオ信号の変換ドメイン版９０から達成することができる。エネルギ指標は、典型的には第１の参照帯域の平均エネルギである。別の実施形態においては、エネルギ指標が、例えば中央値、平均平方値、または重み付け平均値など、第１の参照帯域のエネルギの任意の他の特徴的な統計的尺度であってよい。この参照エネルギ指標が、ＭＤＣＴ包絡線の相対的な量子化の出発点として使用される。第１の参照帯域が選択される帯域は、エンコーダ装置５０によって処理されると仮定される帯域よりも低い周波数に位置する。換言すると、高帯域が、まさにその名が示すとおり、オーディオ信号の低帯域よりも高い周波数に位置する。

エンコーダブロック５５は、エネルギオフセット範囲９２の選択、オーディオ信号の変換ドメイン版９０、およびエネルギ指標９３を受け取るように、セレクタ５８、変換エンコーダ５２、およびエネルギ参照ブロック５９へと接続されている。エンコーダブロック５５は、第１の参照帯域のエネルギ指標９３に対するスペクトル包絡線のそれぞれのスカラ量子化を表わす一式の量子化指数をもたらすこと、および選択されたエネルギオフセット９２を使用することによって、前記高帯域をエンコードするように構成されている。これにより、エンコーダブロック５５は、相対エネルギを表わす一式のパラメータ９５を出力する。エンコーダブロック５５は、使用した所定のエネルギオフセットを定めるパラメータをもたらすようにさらに構成されている。次いで、これらの出力が、特定の実施形態においてはコアエンコーディングおよび他のＢＷＥエンコーディングと組み合わせられ、受信機へと送信される。

図４Ｂが、エンコーダ装置５０の別の例を概略的に示している。この実施形態においては、使用すべきエネルギオフセットの選択が、閉ループの手法で実行される。これは、基本的に、すべてのエネルギオフセットが試験され、最良の結果を有する１つが選択されることを意味する。エンコーディング方法は、合成による分析としても知られる。この目的のため、メモリ５３がエンコーダブロック５５へと接続される。エンコーダブロック５５は、各々の利用可能なエネルギオフセットについて一式の量子化指数９４をもたらすようにさらに構成される。この実施形態においては、２つの所定のエネルギオフセットが使用され、したがってエンコーダブロック５５が２組の量子化指数９４を生成する。他の実施形態においては、３つ以上の所定のエネルギオフセットが定められ、したがって３組以上の量子化指数９４が生成される。

この実施形態において、セレクタ５８は、すべての所定のエネルギオフセットについての量子化指数を受け取るように構成される。ここで、セレクタ５８は、計算ブロック６４および選択ブロック６５を備えている。計算ブロック６４は、量子化指数の組の各々について量子化誤差を計算するように構成されている。この目的のため、計算ブロックは、元の変換されたオーディオ信号９０へのアクセスも有する。次いで、選択ブロック６５が、量子化誤差が最小となる量子化指数の組を選択するように構成される。これらの量子化指数が、使用されたエネルギオフセットを定めるパラメータと一緒に出力されるパラメータの組９５として使用される。

図５が、参照エネルギと種々の帯域との間の関係を示している。低帯域ＬＢは、コアエンコーディング法によってエンコードされる。次いで、低帯域ＬＢの少なくとも一部分、すなわち第１の参照帯域が、高帯域ＨＢのエネルギオフセットエンコーディングのための参照として使用されるエネルギレベルを決定するために利用される。第１の参照帯域は、低帯域の全体を含んでも、あるいは図示のように低帯域の一部分を含んでもよい。

低帯域および高帯域の周波数範囲を、全体として利用可能なビットレート、使用されるエンコード技術、必要とされるオーディオ品質の水準、などに応じて選択することができる。典型的には無線通信が意図される特定の実施形態においては、低帯域が、基本的に０〜６．４ｋＨｚの範囲にある。第１の参照帯域は、０〜５．９ｋＨｚの範囲にあるが、別の実施形態においては、低帯域の全体が第１の参照帯域に含まれる。高帯域の上限は、この実施形態においては１１．６ｋＨｚである。包絡線の量子化を１１．６ｋＨｚに制限する理由は、これらの周波数においては人間の聴覚系の分解能が低くなること、およびスピーチ信号においてエネルギが少ないことにある。随意により、高帯域の上限を上回る超高帯域ＶＨＢを、例えば１１．６ｋＨｚを上回る超高帯域の領域の包絡線が予測されるという点で、さらなるＢＷＥ法によってエンコードすることができる。しかしながら、そのような態様は、本発明の主たる技術的範囲に含まれない。サブ帯域の数も、さまざまなやり方で選択することができる。サブ帯域の数が多いと、より良好な予測がもたらされるが、より高いビットレートが必要になる。この特定の実施形態においては、８つのサブ帯域が使用される。低帯域の領域が、ＡＣＥＬＰによって符号化され、高帯域が、ＭＤＣＴドメインにおいて再現される。

オーディオ信号は、それが表わすサウンドの種類に応じて、きわめて異なって見える可能性がある。例えば、音声活動の検出を、別のエンコーディングの仕組みへの切り換えに使用することができる。図６Ａ〜Ｃが、３つの異なる種類のオーディオ信号を示している。実際の曲線は架空のものであるが、現実のサンプルにおいて見られるものと同じ全体的な傾向を示している。図６Ａに、オーディオ信号１０１の一例が示されている。エネルギが、全体として、高い周波数と比べて低い周波数においてより高い。低周波数領域の平均のエネルギレベルが、参照Ｅ_１ ^ｒｅｆとして決定され、破線によって示されている。高帯域部分のサブ帯域の包絡線をエンコードするとき、すべてのエネルギが参照レベルを大きく下回ることを見て取ることができる_。参照Ｅ_１ ^ｒｅｆに対するエネルギオフセットをエンコードするとき、エネルギ目盛りのうちの低い部分だけが必要である。これは、高帯域部分のエネルギのエンコードに使用されるエネルギオフセットの組を、エネルギ目盛りのうちの低い部分１１２だけに限定できることを意味している。

図６Ｂに、別のオーディオ信号が示されている。ここでは、エネルギレベルが、全周波数範囲にわたっておおむね等しく、すなわちエネルギ参照Ｅ_１ ^ｒｅｆが、高周波数帯においても曲線に近い。現時点では、エネルギ目盛りの下方の部分１１２は、エネルギオフセットエンコーディングに適さない。代わりに、リッパ部分１１１を使用することができる。

有声および無声のスピーチの現実の例が、図７Ａおよび７Ｂに示されており、曲線１０４が有声のスピーチ部分を表わし、曲線１０５が無声のスピーチ部分を表わしている。有声のスピーチ部分においては、６．４〜１１．６ｋＨｚの範囲のエネルギが、６．４ｋＨｚ未満の範囲の低帯域のエネルギを下回ること４０ｄＢ超である。無声のスピーチ部分においては、低および高帯域のエネルギが、ほぼ同じレベルである。

オーディオ信号の種々の帯域の間のパワー分布の分析を利用することによって、全体的なオーディオ信号よりも狭い適切なエネルギオフセットを選択することができる。周波数ドメインにおけるオーディオ信号のパワー分布の重要な態様を特徴付けるパラメータを決定することによって、そのようなパラメータを、有用なエネルギオフセットの選択を行なうために利用することができる。そのような行為によって各々の場合に使用されるエネルギオフセットが全エネルギオフセット範囲と比べて半分に減らされる場合、各々のサブ帯域のエンコーディングにおいて１ビットを節約することができる。図６ＡおよびＢの実施形態のように６つのサブ帯域が使用される場合には、各々のオーディオサンプルについて６ビットを節約することができる。さらに、使用される所定のエネルギオフセットの選択も送信されなければならないため、そのような場合に合計のゲインは５ビットになる。

オーディオ信号のパワー分布の分析に応じて適切なエネルギオフセットを選択するという考え方を、さらに一般化することができる。図６Ｃに、特定の周波数に例外的に高いエネルギを有している信号が示されている。そのような信号は、通常のオーディオよりも高い参照Ｅ_１ ^ｒｅｆを有すると考えられ、結果として、エネルギオフセットに関連付けられたいずれの範囲１１１、１１２もエンコーディングに適さない。特定のエネルギオフセットに関連付けられた特定のエネルギ範囲１１３を代わりに定めることができる。この原理を、例えば過渡信号などにさらに適用することができる。間で選択すべきエネルギオフセットを、この情報が送信側と受信側との間で共有されるように前もって決定される。また、分析の基準および分析そのものも、前もって決定される。

図４Ｂの実施形態の開ループの手法においては、パワー分布が間接的に分析される。オーディオ信号の異なる帯域の間のエネルギオフセットが、量子化にとって重要である。エネルギオフセットを適切に選択することで、量子化誤差が小さくなり、すなわち種々の帯域におけるオーディオ信号のエネルギ分布が、選択された範囲に一致する。

図８Ａが、これまでの考え方による装置においてオーディオ信号をエンコードするための方法の一例の各段階のフロー図を示している。この手順は、ステップ２００において始まる。ステップ２１０において、オーディオ信号のエンコーディングの低帯域合成信号が取得される。前記低帯域合成信号の低帯域の範囲内の第１の参照帯域の第１のエネルギ指標が、ステップ２１２において取得される。ステップ２１４において、オーディオ信号の変換ドメインへの変換が実行される。エネルギオフセットが、ステップ２１６において、変換ドメインの第１の高帯域の複数のサブ帯域の各々について、所定のエネルギオフセットの組から選択される。第１の高帯域は、オーディオ信号の低帯域よりも高い周波数に位置している。ステップ２２０において、オーディオ信号の第１の高帯域がエンコードされる。第１の参照帯域のエネルギ指標に対する第１の高帯域の複数の第１のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の組がもたらされる。量子化指数は、それぞれの選択されたエネルギオフセットとともに与えられる。第１の高帯域のエンコードのステップは、用いられたエネルギオフセットを定めるパラメータをもたらすステップをさらに含む。この手順はステップ２９９において終わる。

この特定の実施形態において、エネルギオフセットを選択するステップ２１６は、周波数ドメインにおけるオーディオ信号のパワー分布に依存する。この目的のため、所定のエネルギオフセット範囲を選択するステップ２１６は、周波数ドメインにおける前記オーディオ信号のパワー分布を特徴付けるパラメータを決定するステップ２１５を含む開ループの手順にもとづく。次いで、実際の選択が、決定されたパラメータにもとづく。

一特定の実施形態においては、変換エンコーディングが、修正離散コサイン変換である。また、一特定の実施形態においては、分類が、有声のオーディオ信号のクラスと無声のオーディオ信号のクラスとの間の分類を含む。さらに、一特定の実施形態においては、低帯域が、ＣＥＬＰエンコーダによってエンコードされる。

図８Ｂが、オーディオ信号をエンコードするための方法の別の例の各段階のフロー図を示している。大部分のステップは、図８Ａに示したステップと同様であり、これ以上は論じない。この例では、第１の高帯域のエンコードのステップ２１９が、この場合には、利用可能な所定のエネルギオフセットの各々について１組の量子化指数をもたらすステップを含む。この例ではステップ２１９の後で生じるステップ２１６において、使用されるべきエネルギオフセットが選択される。これが、この例では、ステップ２１７に示されているように、量子化指数の各組について量子化誤差を計算することによって実行される。ステップ２１８において、量子化誤差が最も小さい量子化指数の組が選択される。

図９が、デコーダ装置８０の一例のブロック図を示している。図３Ｂと同様に、デコーダ装置８０は、入力ブロック８２および逆変換デコーダ８５を備えている。入力ブロック８２は、オーディオ信号の少なくとも高帯域のエンコーディングを受け取るように構成されている。エンコーディングは、オーディオ信号の高帯域の複数の第１のサブ帯域のスペクトル包絡線の量子化指数９６の組を表わしている。量子化指数９６は、エネルギ指標に対するエネルギを表わしている。さらに、エンコーディングは、用いられた所定のエネルギオフセットを定めるパラメータも含んでいる。デコーダ機構８４は、エネルギ参照ブロック８９、ＭＤＣＴ変換エンコーダ８７、シンセサイザ２７、セレクタ８８、メモリ８３、および復元ブロック８１を備えている。

シンセサイザ２７は、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。合成信号は、外部のソースの信号（例えば、ＭＤＣＴ変換器８７を介したコアデコーダ７０へともたらされる信号）にもとづくことができる。

エネルギ参照ブロック８９が、オーディオ信号の変換ドメインにおける低帯域の範囲内の第１の参照帯域のエネルギ指標７２を受け取るように構成される。エネルギ指標、すなわちエネルギ参照９３が、復元ブロック８１へと供給される。

用いられたエネルギオフセットを定めるパラメータが、セレクタ８８へと供給される。セレクタ８８が、パラメータにもとづいて第１のサブ帯域の各々について所定のエネルギオフセットの組からエネルギオフセットを選択するように構成される。復元ブロック８１が、入力ブロック８２、セレクタ８８、およびエネルギ参照ブロック８９へと接続される。復元ブロック８１は、選択されたエネルギオフセット９２および参照帯域のエネルギ指標９３を使用することによって量子化指数９６の組から高帯域のスペクトル包絡線を決定することにより、変換ドメインにおいて信号を復元するように構成される。

逆変換デコーダ８５が、復元ブロック８１へと接続され、少なくとも復元されたエネルギオフセットにもとづいてオーディオ信号の少なくとも一部分９８への逆変換を実行するように構成されている。

図１０が、オーディオ信号のデコードのための方法の一例の各段階のフロー図を示している。このプロセスは、ステップ２０１において始まる。ステップ２６０において、オーディオ信号の高帯域のエンコーディングが受信される。エンコーディングは、オーディオ信号の高帯域の複数の第１のサブ帯域のスペクトル包絡線の量子化指数の組を表わしている。量子化指数の第１の組は、エネルギ指標に対するエネルギを表わしている。ステップ２６２において、オーディオ信号のエンコーディングの低帯域合成信号が取得される。エネルギ指標が、ステップ２６４において、オーディオ信号の低帯域における第１の参照帯域のエネルギ指標として得られ、受信される。

エンコーディングは、用いられたエネルギオフセット範囲を定めるパラメータをさらに表わしている。エネルギオフセットが、ステップ２６６において、少なくとも２つの所定のエネルギオフセットからなる組から選択される。これは、第１のサブ帯域の各々について実行され、用いられたエネルギオフセットを定めるパラメータにもとづく。変換ドメインにおける信号が、ステップ２６８において、前記第１の高帯域の前記第１のサブ帯域の各々について、選択されたエネルギオフセットおよび第１の参照帯域のエネルギ指標を使用することにより、第１のサブ帯域に対応する量子化指数の組から高帯域のスペクトル包絡線を決定することによって復元される。ステップ２７０において、逆変換が、少なくとも前記変換ドメインの復元された信号にもとづいて、オーディオ信号の少なくとも一部分へと実行される。

図１１が、元の信号および６．４ｋＨｚまで符号化されたＡＣＥＬＰ出力の両方についての自己回帰スペクトル包絡線を示している。符号化された信号は、典型的には、６ｋＨｚのわずかに下方で始まるエネルギ損失を補償しているが、この補償はあくまでも部分的である。これは、本発明のための暗示を与える。換言すると、低帯域が、特定の実施形態においては、低帯域の高周波端においてエネルギの減衰を与える方法によって処理される。そのようなエネルギの減衰は、低帯域が伝統的なＢＷＥと一緒に使用されるときに、低帯域から高帯域への移行においてエネルギの段差を生じさせる。これが、オーディオ信号の奇妙な知覚を生じさせることがある。換言すると、低帯域および高帯域のエンコードに異なる方法が使用されることで、帯域間のまたがりの領域において問題が生じる可能性がある。本発明は、下方の帯域の情報を効率的に使用するとともに、一方の符号化ドメインから別の符号化ドメインへの移行の取り扱いも可能にするＢＷＥエンコーディングの仕組みを見つけることを目的とする。

特定の実施形態においては、生じうる上述のエネルギの段差が、好ましくは制限される。これは、低帯域に最も近いサブ帯域のエンコード後のエネルギを、低帯域の高い方の端部のエネルギレベルから過度に異ならないように制限することによって達成される。これは、大きすぎる正のエネルギの変化のエンコードをサポートしないように制限されるエンコード後のエネルギの範囲を用意することによって達成される。エンコーダが、急激なエネルギの増加を、たとえこれらの最も近いサブ帯域の元の信号エネルギとの不一致が生じても、許さないように制約される。そのような増加の制限のための参照エネルギは、低帯域内の第２の参照帯域から導出される。特定の実施形態においては、この第２の参照帯域が、低帯域の高い方の端部に位置する。さらに上で述べた例では、この第２の参照エネルギを設定するために、例えば５．９〜６．４ｋＨｚの帯域を選択することが適切かもしれない。

換言すると、高帯域が２つの部分へと分割される。高帯域の高い周波数端に位置する第１の高帯域は、さらに上で述べた原理に従ってエンコードされる。第２の高帯域は、第１の高帯域と低帯域との間の周波数を含んでいる。この第２の高帯域において、エンコード後のエネルギ、すなわち量子化指数は、増加のエネルギの方向において制約される。換言すると、エンコード後のエネルギが低帯域の高周波端と比べて速すぎる速度で増加することを許さない。これは、制限された正のエネルギ変化を超える変化を許さない量子化指数の許容範囲を用意することによって達成される。第２の高帯域のサブ帯域の位置が低帯域から遠くなるほど、使用される量子化指数の制約は少なくなる。換言すると、エンコード後のエネルギの制限が、第２のサブ帯域の周波数が高くなるにつれて軽減される。

特定の実施形態においては、第１の高帯域が、５つの第１のサブ帯域を含み、８〜１１．６ｋＨｚの範囲を包含する。第２の高帯域は、３つのサブ帯域を含んでおり、６．４〜８ｋＨｚの間の範囲にある。ＭＤＣＴＢＷＥが、１．５５ｋｂｉｔ／ｓでの高周波の包絡線量子化として実現される。０〜６．４ｋＨｚの帯域の信号は、ＡＣＥＬＰコーデックによって完全に量子化される。第２の参照帯域は、５．９〜６．４ｋＨｚの範囲にある。第２の高帯域の第１のサブ帯域についてのエネルギの制約は、最大＋３ｄＢのエネルギ参照からのエネルギ差である。第２の高帯域の第２のサブ帯域についてのエネルギの制約は、最大＋６ｄＢのエネルギ差である。第２の高帯域の第３のサブ帯域についてのエネルギの制約は、最大＋９ｄＢのエネルギ差である。種々のサブ帯域のスカラ量子化器が、第２および第１の高帯域のそれぞれに関して表１および表２にまとめられている。「範囲１」は、有声型のエネルギ分布を有するオーディオサンプルに対応する一方で、「範囲２」は、無声型のエネルギ分布を有するオーディオサンプルに対応する。すべてのスカラ量子化器は、対応する低周波参照エネルギからのオフセットを有する。

図１２Ａが、上述の考え方に合わせて構成されたエンコーダ装置の実施形態を示している。エンコーダブロック５５が、例えば図４Ａと比べて、オーディオ信号の第２の高帯域の複数の第２のサブ帯域におけるスペクトル包絡線のそれぞれのスカラ量子化を決定するようにさらに構成されている。エネルギ参照ブロック５９が、オーディオ信号の低帯域内の第２の参照帯域のエネルギ指標９９を得るようにさらに構成されている。エンコーダブロック５５が、それぞれのエネルギオフセットおよび量子化指数範囲を使用することによって第２の参照帯域のエネルギ指標に対する第２の高帯域のエネルギオフセットをエンコードするようにさらに構成されている。量子化指数範囲は、増加のエネルギ方向について制限される。上述のように、特定の実施形態においては、量子化指数のエネルギの制限が、第２のサブ帯域の周波数が高くなるにつれて軽減される。

図１２Ｂが、上述の考え方に合わせて構成されたエンコーダ装置のさらに別の実施形態を示している。エンコーダブロック５５およびエネルギ参照ブロックが、図１２Ａにおいて行なわれたやり方と同じやり方で、例えば図４Ｂと比べて変更されている。

図１３が、これらの原理を周波数の図にて示している。第１の高帯域ＨＢ−１が、自身のエネルギ参照を、低帯域ＬＢ内の第１の参照帯域から集める。この第１の参照帯域は、典型的には、低帯域の少なくとも大部分を包含する。第２の高帯域ＨＢ−２が、自身のエネルギ参照を、第２の高帯域の下側の周波数端に隣接する第２の参照帯域から集める。これが、低帯域の端部におけるエネルギレベルについての考えを与える。

図１４Ａが、オーディオ信号のエンコーディングのための方法の一実施形態の各段階のフロー図を示している。図８Ａにおける各段階と同一の段階については、再度の詳しい説明は行なわない。ステップ２１３において、低帯域合成信号の低帯域のエンコーディングにおける第２の参照帯域のエネルギ指標が得られる。ステップ２２２において、オーディオ信号の第２の高帯域がエンコードされる。第２の高帯域は、低帯域と第１の高帯域との間の周波数に位置する。第２の高帯域のエンコーディングは、第２の参照帯域のエネルギ指標に対する第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数をもたらすことを含む。量子化指数は、好ましくは増加のエネルギ方向について制限される。第１の高帯域において、図８Ａによるエンコーディングが適用される。

図１４Ｂが、オーディオ信号のエンコーディングのための方法のさらに別の実施形態の各段階のフロー図を示している。ここでもやはり、図８Ｂの実施形態と比較されるステップ２１３および２２２が追加されている。

図１５が、デコーダ装置の実施形態を示している。多くの部分は、図９に関連して説明したやり方と同じやり方で機能し、したがって再度の説明は行なわない。この実施形態においては、入力ブロック８２が、オーディオ信号の第２の高帯域のエンコーディングを受け取るようにさらに構成されている。第２の高帯域のエンコーディングは、オーディオ信号の第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線の量子化指数を表わしている。量子化指数は、低帯域合成信号の低帯域内の第２の参照帯域のエネルギ指標に対するエネルギを表わしている。エネルギ参照ブロック８９が、低帯域合成信号の低帯域内の第２の参照帯域のエネルギ指標を得るようにさらに構成されている。再現ブロック８１が、量子化指数の第２の組から第２の高帯域のスペクトル包絡線を決定するようにさらに構成されている。つなぎ目のエネルギは、増加のエネルギ方向について制限される。逆変換デコーダが、少なくとも第２の高帯域の前記決定されたスペクトル包絡線にももとづいて逆変換を実行するようにさらに構成されている。

図１６が、オーディオ信号のデコーディングのための方法の一実施形態の各段階のフロー図を示している。図１０と同様の段階については、再度の説明は行なわない。ステップ２６０において、オーディオ信号第１および第２の両方の高帯域のエンコーディングが受信される。第２の高帯域のエンコーディングは、オーディオ信号の第２の高帯域の複数の第２のサブ帯域のスペクトル包絡線の量子化指数を表わしている。量子化指数は、低帯域合成信号の低帯域内の第２の参照帯域のエネルギ指標に対するエネルギを表わしている。低帯域合成信号の低帯域内の第２の参照帯域のエネルギ指標が、ステップ２６５において受信される。ここで、ステップ２６８が、第２の高帯域の第２のサブ帯域の各々について、第２の参照帯域のエネルギ指標を使用することによって第２のサブ帯域に対応する量子化指数からスペクトル包絡線を決定することをさらに含む。つなぎ目のエネルギは、増加のエネルギ方向について制限される。逆変換を実行するステップ２７０が、第２の高帯域の前記決定されたスペクトル包絡線にさらにもとづく。

エンコーダおよびデコーダ装置の種々のブロックは、典型的には処理ユニットに実装され、典型的にはデジタル信号プロセッサに実装される。処理ユニットは、単一のユニットであってよく、あるいは本明細書に記載の手順の種々の段階を実行するための複数のユニットであってよい。処理ユニットが、例えば低帯域のエンコーディングを実行する同じ処理ユニットであってもよい。したがって、例えばコアエンコーダからのデータの「受信」を、実際のデータが保存されたメモリ位置へのアクセスを可能にすることとして実現することができる。エンコーダまたはデコーダ装置の実施形態において、装置は、少なくとも１つのコンピュータプログラム製品を、例えばＥＥＰＲＯＭ、フラッシュメモリ、および／またはディスク駆動装置などの不揮発メモリの形態で含む。コンピュータプログラム製品は、処理ユニット上で実行されたときにエンコーダまたはデコーダ装置のそれぞれにさらに上で述べた手順の各段階を実行させるコード手段を含んでいるコンピュータプログラムを含む。コンピュータプログラムにおけるコード手段は、上述の各ブロックに相当するモジュールを含むことができる。モジュールは、基本的に、さらに上で述べた手順の各段階を実行する。換言すると、種々のモジュールは、処理ユニット上で実行されるとき、例えば図４Ａ、４Ｂ、９、１２Ａ、１２Ｂ、および１５の対応するブロックに相当する。

上記開示の実施形態におけるコード手段は、処理ユニット上で実行されたときに各ブロックにさらに後述される手順の各段階を実行させるコンピュータプログラムモジュールとして実現されているが、ブロックのうちの少なくとも１つを、別の実施形態においては、少なくとも部分的にハードウェア回路として実現することができる。

実施の例として、図１７が、エンコーダ装置５０の典型的な実施形態を示すブロック図である。この実施形態は、プロセッサ１２０（例えば、マイクロプロセッサ）、メモリ１３６、システムバス１３０、入力／出力（Ｉ／Ｏ）コントローラ１３４、およびＩ／Ｏバス１３２にもとづいている。この実施形態において、低帯域合成信号が、Ｉ／Ｏコントローラ１３４によって受信され、メモリ１３６に保存される。同様に、第１の参照帯域の第１のエネルギ指標および第２のエネルギ指標が、Ｉ／Ｏコントローラ１３４によって受信され、メモリ１３６に保存される。別の実施形態においては、低帯域合成信号ならびに／あるいは第１の参照帯域の第１および第２のエネルギ指標を、システムバス１３０を介してプロセッサによって供給することができる。プロセッサ１２０が、オーディオ信号の変換を実行するためのソフトウェアコンポーネント１２２、エネルギオフセットを選択するためのソフトウェアコンポーネント１２４、第１の高帯域をエンコードするためのソフトウェアコンポーネント１２６、および第２の高帯域をエンコードするためのソフトウェアコンポーネント１２８を実行する。このソフトウェアは、メモリ１３６に保存される。プロセッサ１２０は、システムバス１３０を介してメモリ１３６と通信する。ソフトウェアコンポーネント１２２は、図１２Ａまたは１２Ｂの実施形態におけるブロック５２の機能を実行することができる。ソフトウェアコンポーネント１２４は、図１２Ａまたは１２Ｂの実施形態におけるブロック５８の機能を実行することができる。ソフトウェアコンポーネント１２６および１２８は、図１２Ａまたは１２Ｂの実施形態におけるブロック５５の機能を協働して実行することができる。

実施の例として、図１８が、デコーダ装置８０の典型的な実施形態を示すブロック図である。この実施形態は、プロセッサ１５０（例えば、マイクロプロセッサ）、メモリ１６６、システムバス１６０、入力／出力（Ｉ／Ｏ）コントローラ１６４、およびＩ／Ｏバス１６２にもとづいている。この実施形態において、オーディオ信号および低帯域合成信号が、Ｉ／Ｏコントローラ１６４によって受信され、メモリ１６６に保存される。同様に、第１の参照帯域の第１のエネルギ指標および第２のエネルギ指標が、Ｉ／Ｏコントローラ１６４によって受信され、メモリ１６６に保存される。別の実施形態においては、低帯域合成信号ならびに／あるいは第１の参照帯域の第１および第２のエネルギ指標を、システムバス１６０を介してプロセッサによって供給することができる。プロセッサ１５０は、エネルギオフセットを選択するためのソフトウェアコンポーネント１５２、変換ドメインにおいて信号を復元するためのソフトウェアコンポーネント１５４、および逆変換を実行するためのソフトウェアコンポーネント１５６を実行する。このソフトウェアは、メモリ１６６に保存される。プロセッサ１５０は、システムバス１６０を介してメモリ１６６と通信する。ソフトウェアコンポーネント１５２は、図１５の実施形態におけるブロック８８の機能を実行することができる。ソフトウェアコンポーネント１５４は、図１５の実施形態におけるブロック８１の機能を実行することができる。ソフトウェアコンポーネント１５６は、図１５の実施形態におけるブロック８５の機能を実行することができる。

上述のソフトウェアコンポーネントの一部またはすべてを、例えばＣＤ、ＤＶＤ、またはハードディスクなどのコンピュータにとって読み取り可能な媒体に保持し、プロセッサによる実行のためにメモリへとロードすることが可能である。

上述の実施形態を、本発明の少数の例示の実施形態と理解すべきである。本発明の技術的範囲から外れることなく、これらの実施形態に対してさまざまな調節、組み合わせ、および変更が可能であることを、当業者であれば理解できるであろう。特には、異なる実施形態における異なる部分的解決策を、技術的に可能であれば他の構成にて組み合わせることが可能である。しかしながら、本発明の技術的範囲は、添付の特許請求の範囲によって定められる。

略語
ＡＣＥＬＰ代数符号励振線形予測
ＢＷＥ帯域拡張
ＣＥＬＰ符号励振線形予測
ＭＤＣＴ修正離散コサイン変換

Claims

オーディオ信号をエンコードするための方法であって、
前記オーディオ信号のエンコーディングの低帯域合成信号を得るステップ（２１０）と；
前記低帯域合成信号の低帯域（ＬＢ）の範囲内の第１の参照帯域の第１のエネルギ指標を得るステップ（２１２）と；
前記オーディオ信号の変換ドメインへの変換を実行するステップ（２１４）と；
前記変換ドメインの前記オーディオ信号の第１の高帯域（ＨＢ−１）の複数の第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットの組からエネルギオフセットを選択するステップ（２１６）であって、
前記第１の高帯域（ＨＢ−１）は前記低帯域（ＬＢ）よりも高い周波数に位置する選択ステップ（２１６）と；
前記第１の高帯域（ＨＢ−１）をエンコードするステップ（２１９、２２０）であって、
前記第１の高帯域（ＨＢ−１）をエンコードする前記ステップは、前記第１のエネルギ指標に対する前記第１の高帯域（ＨＢ−１）の前記複数の第１のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第１の組を供給することを含んでおり、
前記量子化指数の第１の組は、それぞれの前記選択されたエネルギオフセットによって与えられ、
前記第１の高帯域（ＨＢ−１）をエンコードする前記ステップは、用いたエネルギオフセットを定めるパラメータを供給することをさらに含んでいるステップ（２１９、２２０）と；
前記低帯域合成信号の前記低帯域（ＬＢ）の範囲内の第２の参照帯域の第２のエネルギ指標を得るステップ（２１３）と；
前記変換ドメインにおいて前記オーディオ信号の第２の高帯域（ＨＢ−２）をエンコードするステップ（２２２）であって、
前記第２の高帯域（ＨＢ−２）は、前記低帯域（ＬＢ）と前記第１の高帯域（ＨＢ−１）との間の周波数に位置しており、
前記第２の高帯域（ＨＢ−２）をエンコードする前記ステップは、前記第２のエネルギ指標に対する前記第２の高帯域（ＨＢ−２）の複数の第２のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第２の組を供給することを含んでいるエンコードするステップ（２２２）と；
を備える方法。
前記エネルギオフセットを選択するステップ（２１６）が、周波数ドメインにおける前記オーディオ信号のパワー分布に依存することを特徴とする、請求項１に記載の方法。
前記エネルギオフセットを選択するステップ（２１６）が、周波数ドメインにおける前記低帯域合成信号のパワー分布を特徴付けるパラメータを決定することを含む開ループの手順にもとづき、したがって前記決定されるパラメータにもとづくことを特徴とする、請求項１または２に記載の方法。
前記エンコードするステップ（２１９）が、各々の所定のエネルギオフセット範囲について前記量子化指数の１つの第１の組を供給することを含んでおり、
前記エネルギオフセットを選択するステップ（２１６）が、
前記量子化指数の第１の組の各々について、量子化誤差を計算するステップ（２１７）と、
量子化誤差が最も小さい前記量子化指数の第１の組を選択するステップ（２１８）と
を含んでいることを特徴とする、請求項１または２に記載の方法。
前記変換のエンコーディングが、修正離散コサイン変換であることを特徴とする、請求項１〜４のいずれか一項に記載の方法。
前記第１の高帯域（ＨＢ−１）の下側の周波数端が、８ｋＨｚであることを特徴とする、請求項１〜５のいずれか一項に記載の方法。
前記第１の高帯域（ＨＢ−１）の上側の周波数端が、１１．６ｋＨｚであることを特徴とする、請求項１〜６のいずれか一項に記載の方法。
前記第１の高帯域（ＨＢ−１）が、５つの第１のサブ帯域を含んでいることを特徴とする、請求項１〜７のいずれか一項に記載の方法。
前記低帯域（ＬＢ）が、０〜６．４ｋＨｚの範囲であることを特徴とする、請求項１〜８のいずれか一項に記載の方法。
前記第１の参照帯域が、前記低帯域（ＬＢ）の全体を含むことを特徴とする、請求項１〜９のいずれか一項に記載の方法。
前記第１の参照帯域が、０〜５．９ｋＨｚの範囲であることを特徴とする、請求項１〜９のいずれか一項に記載の方法。
前記低帯域合成信号が、符号励振線形予測エンコーダによるエンコーディングにもとづくことを特徴とする、請求項１〜１１のいずれか一項に記載の方法。
前記量子化指数の第２の組の量子化指数が、増加のエネルギ方向について制限されていることを特徴とする、請求項１〜１２のいずれか一項に記載の方法。
前記量子化指数の前記エネルギの制限が、前記第２のサブ帯域の周波数が高くなるにつれて軽減されることを特徴とする、請求項１３に記載の方法。
前記第２の高帯域（ＨＢ−２）が、６．４〜８ｋＨｚの範囲であることを特徴とする、請求項１〜１４のいずれか一項に記載の方法。
前記第２の参照帯域が、５．９〜６．４ｋＨｚの範囲であることを特徴とする、請求項１〜１５のいずれか一項に記載の方法。
前記第２の高帯域（ＨＢ−２）が、３つの第２のサブ帯域を含んでいることを特徴とする、請求項１〜１６のいずれか一項に記載の方法。
オーディオ信号をデコードするための方法で、
前記オーディオ信号のエンコーディングを受信するステップ（２６０）であって、
前記エンコーディングは前記オーディオ信号の第１の高帯域（ＨＢ−１）の複数の第１のサブ帯域のスペクトル包絡線の量子化指数の第１の組を表わし、
前記量子化指数の第１の組は第１のエネルギ指標に対するエネルギを表わすステップ（２６０）と；
前記オーディオ信号のエンコーディングの低帯域合成信号を得るステップ（２６２）と；
前記第１のエネルギ指標を、前記低帯域合成信号の低帯域（ＬＢ）の範囲内の第１の参照帯域のエネルギ指標として得るステップ（２６４）であって、
前記第１の高帯域（ＨＢ−１）は前記低帯域（ＬＢ）よりも高い周波数に位置し、
前記エンコーディングは用いられたエネルギオフセットを定めるパラメータをさらに表わすステップ（２６４）と；
前記用いられたエネルギオフセットを定める前記パラメータにもとづき、前記第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するステップ（２６６）と；
前記第１の高帯域（ＨＢ−１）の前記第１のサブ帯域の各々について、前記選択されたエネルギオフセットおよび前記第１のエネルギ指標を使用することによって、前記第１のサブ帯域に対応する前記量子化指数の第１の組から前記第１の高帯域（ＨＢ−１）のスペクトル包絡線を決定することにより、変換ドメインにおける信号を復元するステップ（２６８）と；
少なくとも前記変換ドメインにおける前記復元された信号にもとづいて、前記オーディオ信号への逆変換を実行するステップ（２７０）であって、
前記エンコーディングは第２の高帯域（ＨＢ−２）の複数の第２のサブ帯域のスペクトル包絡線の量子化指数の第２の組をさらに表わし、
前記第２の高帯域（ＨＢ−２）は前記低帯域（ＬＢ）と前記第１の高帯域（ＨＢ−１）との間の周波数に位置し、
前記量子化指数の第２の組は第２のエネルギ指標に対するエネルギを表わす実行するステップ（２７０）と；
前記第２のエネルギ指標を、前記低帯域合成信号の前記低帯域（ＬＢ）の範囲内の第２の参照帯域のエネルギ指標として得るステップ（２６５）と；
を備えており、
前記変換ドメインにおける前記信号を復元する前記ステップ（２６８）が、前記第２の高帯域（ＨＢ−２）の前記第２のサブ帯域の各々について、前記第２のエネルギ指標を使用することによって、前記第２のサブ帯域に対応する前記量子化指数の第２の組から前記第２の高帯域（ＨＢ−２）のスペクトル包絡線を決定することをさらに含む方法。
前記変換のエンコーディングが、修正離散コサイン変換であることを特徴とする、請求項１８に記載の方法。
前記第１の高帯域（ＨＢ−１）の下側の周波数端が、８ｋＨｚであることを特徴とする、請求項１８または１９に記載の方法。
前記第１の高帯域（ＨＢ−１）の上側の周波数端が、１１．６ｋＨｚであることを特徴とする、請求項１８〜２０のいずれか一項に記載の方法。
前記第１の高帯域（ＨＢ−１）が、５つの第１のサブ帯域を含んでいることを特徴とする、請求項１８〜２１のいずれか一項に記載の方法。
前記低帯域（ＬＢ）が、０〜６．４ｋＨｚの範囲であることを特徴とする、請求項１８〜２２のいずれか一項に記載の方法。
前記第１の参照帯域が、前記低帯域（ＬＢ）の全体を含むことを特徴とする、請求項１８〜２３のいずれか一項に記載の方法。
前記第１の参照帯域が、０〜５．９ｋＨｚの範囲であることを特徴とする、請求項１８〜２３のいずれか一項に記載の方法。
前記低帯域合成信号が、符号励振線形予測エンコーダによるエンコーディングにもとづくことを特徴とする、請求項１８〜２５のいずれか一項に記載の方法。
前記量子化指数の第２の組の量子化指数が、増加のエネルギ方向について制限されていることを特徴とする、請求項１８〜２６のいずれか一項に記載の方法。
前記量子化指数の前記エネルギの制限が、前記第２のサブ帯域の周波数が高くなるにつれて軽減されることを特徴とする、請求項２７に記載の方法。
前記第２の高帯域（ＨＢ−２）が、６．４〜８ｋＨｚの範囲であることを特徴とする、請求項１８〜２８のいずれか一項に記載の方法。
前記第２の参照帯域が、５．９〜６．４ｋＨｚの範囲であることを特徴とする、請求項１８〜２９のいずれか一項に記載の方法。
前記第２の高帯域（ＨＢ−２）が、３つの第２のサブ帯域を含んでいることを特徴とする、請求項１８〜３０のいずれか一項に記載の方法。
オーディオ信号をエンコードするためのエンコーダ装置（５０）であって、
前記オーディオ信号の変換ドメインへの変換を実行するように構成された変換エンコーダ（５２）と；
前記変換ドメインの前記オーディオ信号の第１の高帯域（ＨＢ−１）の複数の第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されたセレクタ（５８）と；
前記オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されたシンセサイザと；
前記シンセサイザへと接続され、前記低帯域合成信号の低帯域（ＬＢ）の範囲内の第１の参照帯域の第１のエネルギ指標を得るように構成されたエネルギ参照ブロック（５９）であって、
前記第１の高帯域（ＨＢ−１）は前記低帯域（ＬＢ）よりも高い周波数に位置しているエネルギ参照ブロック（５９）と；
前記セレクタ（５８）および前記エネルギ参照ブロック（５９）へと接続され、前記第１の高帯域（ＨＢ−１）をエンコーディングするように構成されたエンコーダブロック（５５）とを備え、
前記第１の高帯域（ＨＢ−１）の前記エンコーディングは、前記第１のエネルギ指標に対する前記第１の高帯域（ＨＢ−１）の前記複数の第１のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第１の組を供給することを含み、
前記量子化指数の第１の組は、それぞれの前記選択されたエネルギオフセットによって与えられ、
前記第１の高帯域（ＨＢ−１）の前記エンコーディングは、用いられたエネルギオフセットを定めるパラメータを供給することをさらに含み、
前記エネルギ参照ブロック（５９）は、前記低帯域合成信号の前記低帯域（ＬＢ）の範囲内の第２の参照帯域の第２のエネルギ指標を得るようにさらに構成され、
前記エンコーダブロック（５５）は、前記変換ドメインにおいて前記オーディオ信号の第２の高帯域（ＨＢ−２）をエンコードするようにさらに構成され、
前記第２の高帯域（ＨＢ−２）は、前記低帯域（ＬＢ）と前記第１の高帯域（ＨＢ−１）との間の周波数に位置しており、
前記第２の高帯域（ＨＢ−２）の前記エンコーディングは、前記第２のエネルギ指標に対する前記第２の高帯域（ＨＢ−２）の複数の第２のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第２の組を供給することを含む、エンコーダ装置（５０）。
前記セレクタ（５８）が、周波数ドメインにおける前記オーディオ信号のパワー分布に依存してエネルギオフセットを選択するように構成されていることを特徴とする、請求項３２に記載のエンコーダ装置。
前記セレクタ（５８）が、周波数ドメインにおける前記低帯域合成信号のパワー分布を特徴付けるパラメータを決定し、該決定されたパラメータにもとづいてエネルギオフセットを選択するように構成されていることを特徴とする、請求項３２または３３に記載のエンコーダ装置。
前記エンコーダブロック（５５）が、各々の所定のエネルギオフセット範囲について前記量子化指数の１つの第１の組を供給するように構成され、
前記セレクタ（５８）が、すべての所定のエネルギオフセット範囲について前記量子化指数の第１の組を受け取るように構成され、量子化指数の前記第１の組の各々について量子化誤差を計算するように構成された計算ブロックと、量子化誤差が最も小さい前記量子化指数の第１の組を選択するように構成された選択ブロックとを備えていることを特徴とする、請求項３２または３４に記載のエンコーダ装置。
前記変換エンコーダ（５２）が、修正離散コサイン変換エンコーダ（５１）であることを特徴とする、請求項３２〜３５のいずれか一項に記載のエンコーダ装置。
請求項３２〜３６のいずれか一項に記載のエンコーダ装置（５０）を備えるオーディオエンコーダ（１４）。
請求項３７に記載のオーディオエンコーダ（１４）を備えるネットワークノード。
オーディオ信号をデコードするためのデコーダ装置（８０）であり、
前記オーディオ信号のエンコーディングを受信するように構成された入力ブロック（８２）であって、
前記エンコーディングは前記オーディオ信号の第１の高帯域（ＨＢ−１）の複数の第１のサブ帯域のスペクトル包絡線の量子化指数の第１の組を表わし、
前記量子化指数の第１の組は第１のエネルギ指標に対するエネルギを表わす入力ブロック（８２）と；
前記オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されたシンセサイザと；
前記シンセサイザへと接続され、前記第１のエネルギ指標を、前記低帯域合成信号の低帯域（ＬＢ）の範囲内の第１の参照帯域のエネルギ指標として得るように構成されたエネルギ参照ブロック（８９）であって、
前記第１の高帯域（ＨＢ−１）は前記低帯域（ＬＢ）よりも高い周波数に位置しており、
前記エンコーディングはさらに用いられたエネルギオフセットを定めるパラメータを表わすエネルギ参照ブロック（８９）と；
前記入力ブロック（８２）へと接続され、前記用いられたエネルギオフセットを定める前記パラメータにもとづき、前記第１のサブ帯域の各々について、少なくとも２つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されたセレクタ（８８）と；
前記入力ブロック（８２）、前記セレクタ（８８）、および前記エネルギ参照ブロック（８９）へと接続され、前記第１の高帯域（ＨＢ−１）の前記第１のサブ帯域の各々について、前記選択されたエネルギオフセットおよび前記第１のエネルギ指標を使用することによって、前記第１のサブ帯域に対応する前記第１の組の量子化指数から前記第１の高帯域（ＨＢ−１）のスペクトル包絡線を決定することにより、変換ドメインにおける信号を復元するように構成された復元ブロック（８１）と；
前記復元ブロック（８１）へと接続され、少なくとも前記変換ドメインにおける前記復元された信号にもとづいて、前記オーディオ信号への逆変換を実行するように構成された逆変換デコーダ（８６）と；
を備えており、
前記エンコーディングはさらに第２の高帯域（ＨＢ−２）の複数の第２のサブ帯域のスペクトル包絡線の量子化指数の第２の組をさらに表わし、
前記第２の高帯域（ＨＢ−２）は前記低帯域（ＬＢ）と前記第１の高帯域（ＨＢ−１）との間の周波数に位置しており、
前記量子化指数の第２の組は第２のエネルギ指標に対するエネルギを表わしており、
前記エネルギ参照ブロック（８９）が、前記第２のエネルギ指標を、前記低帯域合成信号の前記低帯域（ＬＢ）の範囲内の第２の参照帯域のエネルギ指標として得るようにさらに構成され、
前記復元ブロック（８１）が、前記第２の高帯域（ＨＢ−２）の前記第２のサブ帯域の各々について、前記第２のエネルギ指標を使用することによって、前記第２のサブ帯域に対応する前記量子化指数の第２の組から前記第２の高帯域（ＨＢ−２）のスペクトル包絡線を決定するようにさらに構成されているデコーダ装置。
前記逆変換デコーダ（８６）が、修正離散コサイン逆変換デコーダ（８５）であることを特徴とする、請求項３９に記載のデコーダ装置。
請求項３９または４０に記載のデコーダ装置（８０）を備えるオーディオデコーダ（３４）。
請求項４１に記載のオーディオデコーダ（３４）を備えるネットワークノード。