JP5719941B2 - オーディオ信号の効率的なエンコーディング/デコーディング - Google Patents

オーディオ信号の効率的なエンコーディング/デコーディング Download PDF

Info

Publication number
JP5719941B2
JP5719941B2 JP2013553392A JP2013553392A JP5719941B2 JP 5719941 B2 JP5719941 B2 JP 5719941B2 JP 2013553392 A JP2013553392 A JP 2013553392A JP 2013553392 A JP2013553392 A JP 2013553392A JP 5719941 B2 JP5719941 B2 JP 5719941B2
Authority
JP
Japan
Prior art keywords
band
energy
encoding
high band
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013553392A
Other languages
English (en)
Other versions
JP2014510938A (ja
Inventor
ヴォロジャ グランチャロフ,
ヴォロジャ グランチャロフ,
エリク ノーベル,
エリク ノーベル,
シグルズール スヴェリッソン,
シグルズール スヴェリッソン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル), テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2014510938A publication Critical patent/JP2014510938A/ja
Application granted granted Critical
Publication of JP5719941B2 publication Critical patent/JP5719941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Description

本発明は、広くには、オーディオ信号のエンコーディング/デコーディングに関し、特には効率的な低ビットレートのオーディオエンコーディング/デコーディングのための方法および装置に関する。
オーディオ信号を送信および/または保存すべき場合に、今日における標準的な手法は、オーディオ信号をさまざまな仕組みに従ってデジタル表現へと符号化することである。保存および/または送信の容量を節約するために、オーディオ信号の充分な品質での再現を可能にするために必要なデジタル表現のサイズを縮小することが、一般的に望まれる。符号化後の信号のサイズと信号の品質との間の妥協点は、実際の用途に依存する。
きわめてさまざまな種々の符号化原理が存在する。変換ベースのオーディオ符号化装置は、変換係数を量子化することによってオーディオ信号を圧縮する。したがって、そのような符号化は、変換後の周波数ドメインにおいて機能する。変換ベースのオーディオ符号化装置は、一般的なオーディオの中および高ビットレートの符号化に関しては効率的であるが、スピーチの低ビットレートの符号化に関しては、まったく効率的でない。
例えば代数符号励振線形予測(ACELP)コーデックなど、符号励振線形予測(CELP)コーデックが、低ビットレートのスピーチ符号化においてきわめて効率的である。CELPスピーチ合成モデルは、対象のスピーチ信号の合成による分析の符号化(analysis−by−synthesis coding)を使用する。ACELPコーデックは、8〜12kbit/sにおいて高い品質を達成できる。しかしながら、高い周波数成分を有する信号の特徴は、通常は同じように良好にはモデル化されない。
必要とされるビットレートを減らすために使用される1つの手法は、帯域拡張(BWE)を使用することである。BWEの背後にある主たる考え方は、オーディオ信号の一部が送信されないが、デコーダにおいて受信された信号成分から復元(推定)されるというものである。低いサンプリングレートでサンプリングされた信号のCELP符号化とBWEとの組み合わせが、検討される1つの技術的解決策である。
他方で、BWEは、例えば修正離散コサイン変換(MDCT)ドメインなどの変換後のドメインにおいてより効率的に実行される。この理由は、BWE領域の知覚的に重要な信号の特徴が、周波数ドメイン表現においてより効率的にモデル化されるからである。
したがって、先行技術のコーデックシステムにおける課題は、あらゆる種類のオーディオ信号において効率的なBWEエンコーディングの仕組みを見つけることにある。
本発明の全体的な目的は、ほとんどの種類のオーディオ信号について効率的な低ビットレートのエンコーディング/デコーディングを可能にする方法ならびにエンコーダおよびデコーダの構成を提供することにある。
この目的は、添付の独立請求項に記載の方法および構成によって達成される。好ましい実施形態が、従属請求項に定められる。
一般的に言うと、第1の態様においては、オーディオ信号のエンコードのための方法が、オーディオ信号のエンコーディングの低帯域合成信号を得ることを含む。低帯域合成信号の低帯域の範囲内の第1の参照帯域の第1のエネルギ指標が得られる。オーディオ信号の変換ドメインへの変換が実行される。エネルギオフセットが、変換ドメインにおけるオーディオ信号の第1の高帯域の複数の第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットの組から選択される。第1の高帯域は、低帯域よりも高い周波数に位置する。第1の高帯域がエンコードされる。エンコードは、第1のエネルギ指標に対する第1の高帯域の複数の第1のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第1の組をもたらすことを含む。量子化指数の第1の組の量子化指数は、それぞれの選択されたエネルギオフセットにおいて与えられる。さらに、第1の高帯域のエンコードは、用いられたエネルギオフセットを定めるパラメータをもたらすことを含む。低帯域合成信号の低帯域の範囲内の第2の参照帯域の第2のエネルギ指標が得られる。変換ドメインにおけるオーディオ信号の第2の高帯域がエンコードされる。第2の高帯域は、低帯域と第1の高帯域との間の周波数に位置する。第2の高帯域のエンコードは、第2のエネルギ指標に対する第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第2の組をもたらすことを含む。
第2の態様においては、オーディオ信号のデコードのための方法が、オーディオ信号のエンコーディングの受信を含む。エンコーディングは、オーディオ信号の第1の高帯域の複数の第1のサブ帯域のスペクトル包絡線の量子化指数の第1の組を表わしている。量子化指数の第1の組は、第1のエネルギ指標に対するエネルギを表わしている。オーディオ信号のエンコーディングの低帯域合成信号が得られる。第1のエネルギ指標は、低帯域合成信号の低帯域の範囲内の第1の参照帯域のエネルギ指標として得られる。第1の高帯域は、低帯域よりも高い周波数に位置する。さらにエンコーディングは、用いられたエネルギオフセットを定めるパラメータを表わしている。エネルギオフセットが、第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組から選択される。この選択は、用いられたエネルギオフセットを定めるパラメータにもとづく。変換ドメインにおける信号が、第1の高帯域の第1のサブ帯域の各々について上述のように選択されたエネルギオフセットおよび第1のエネルギ指標を使用することによって第1のサブ帯域に対応する量子化指数の第1の組から第1の高帯域のスペクトル包絡線を割り出すことによって復元される。少なくとも変換ドメインにおける復元された信号にもとづき、オーディオ信号への逆変換が実行される。エンコーディングは、第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線の量子化指数の第2の組をさらに表わしている。第2の高帯域は、低帯域と第1の高帯域との間の周波数に位置する。量子化指数の第2の組は、第2のエネルギ指標に対するエネルギを表わしている。第2のエネルギ指標は、低帯域合成信号の低帯域の範囲内の第2の参照帯域のエネルギ指標として得られる。変換ドメインにおける信号の復元は、第2の高帯域の第2のサブ帯域の各々について第2のエネルギ指標を使用することによって第2のサブ帯域に対応する量子化指数の第2の組から第2の高帯域のスペクトル包絡線を割り出すことをさらに含む。
第3の態様においては、オーディオ信号のエンコーディングのためのエンコーダ装置が、変換エンコーダ、セレクタ、シンセサイザ、エネルギ参照ブロック、およびエンコーダブロックを備える。変換エンコーダが、オーディオ信号の変換ドメインへの変換を実行するように構成されている。セレクタが、変換ドメインにおけるオーディオ信号の第1の高帯域の複数の第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されている。シンセサイザが、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。エネルギ参照ブロックが、シンセサイザへと接続され、低帯域合成信号の低帯域の範囲内の第1の参照帯域の第1のエネルギ指標を得るように構成されている。第1の高帯域は、低帯域よりも高い周波数に位置する。エンコーダブロックが、セレクタおよびエネルギ参照ブロックへと接続されている。エンコーダブロックは、第1の高帯域をエンコードするように構成されている。第1の高帯域のエンコードは、第1のエネルギ指標に対する第1の高帯域の複数の第1のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第1の組をもたらすことを含む。量子化指数の第1の組の量子化指数は、それぞれの選択されたエネルギオフセットにおいて与えられる。さらに、第1の高帯域のエンコードは、用いられたエネルギオフセットを定めるパラメータをもたらすことを含む。エネルギ参照ブロックは、低帯域合成信号の低帯域の範囲内の第2の参照帯域の第2のエネルギ指標を得るようにさらに構成されている。エンコーダブロックは、変換ドメインにおけるオーディオ信号の第2の高帯域をエンコードするようにさらに構成されている。第2の高帯域は、低帯域と第1の高帯域との間の周波数に位置する。第2の高帯域のエンコードは、第2のエネルギ指標に対する第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第2の組をもたらすことを含む。
第4の態様においては、オーディオエンコーダが、第3の態様によるエンコーダ装置を備える。
第5の態様においては、ネットワークノードが、第4の態様によるオーディオエンコーダを備える。
第6の態様においては、オーディオ信号のデコーディングのためのデコーダ装置が、入力ブロック、シンセサイザ、エネルギ参照ブロック、セレクタ、復元ブロック、および逆変換デコーダを備える。入力ブロックが、オーディオ信号のエンコーディングを受信するように構成される。エンコーディングは、オーディオ信号の第1の高帯域の複数の第1のサブ帯域のスペクトル包絡線の量子化指数の第1の組を表わしている。量子化指数の第1の組は、第1のエネルギ指標に対するエネルギを表わしている。シンセサイザが、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。エネルギ参照ブロックが、シンセサイザへと接続され、第1のエネルギ指標を、低帯域合成信号の低帯域の範囲内の第1の参照帯域のエネルギ指標として得るように構成されている。第1の高帯域は、低帯域よりも高い周波数に位置する。さらにエンコーディングは、用いられたエネルギオフセットを定めるパラメータを表わしている。セレクタが、入力ブロックへと接続されている。セレクタは、用いられたエネルギオフセットを定めているパラメータにもとづいて、第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されている。復元ブロックが、入力ブロック、セレクタ、およびエネルギ参照ブロックへと接続されている。復元ブロックは、第1の高帯域の第1のサブ帯域の各々について、選択されたエネルギオフセットおよび第1のエネルギ指標を使用することによって、第1のサブ帯域に対応する量子化指数の第1の組から第1の高帯域のスペクトル包絡線を決定することによって、変換ドメインにおける信号を復元するように構成されている。逆変換デコーダが、復元ブロックへと接続されている。逆変換デコーダは、少なくとも変換ドメインにおける復元された信号にもとづき、オーディオ信号への逆変換を実行するように構成されている。エンコーディングは、第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線の量子化指数の第2の組をさらに表わしている。第2の高帯域は、低帯域と第1の高帯域との間の周波数に位置する。量子化指数の第2の組は、第2のエネルギ指標に対するエネルギを表わしている。エネルギ参照ブロックは、第2のエネルギ指標を、低帯域合成信号の低帯域の範囲内の第2の参照帯域のエネルギ指標として得るようにさらに構成されている。復元ブロックが、第2の高帯域の第2のサブ帯域の各々について第2のエネルギ指標を使用することによって第2のサブ帯域に対応する量子化指数の第2の組から第2の高帯域のスペクトル包絡線を割り出すようにさらに構成されている。
第7の態様においては、オーディオデコーダが、第6の態様によるデコーダ装置を備える。
第8の態様においては、ネットワークノードが、第7の態様によるオーディオデコーダを備える。
本発明による1つの利点は、主観聴き取り試験にて測定される品質が、BWE情報のために必要な追加のビットレートがきわめてわずかでありながら、例えば純粋なACELPエンコーディングと比べて向上することにある。さらなる利点が、後述の種々の実施形態に関連して説明される。
本発明ならびに本発明のさらなる目的および利点が、以下の説明を添付の図面と併せて参照することによって、最もよく理解されるであろう。
オーディオシステムの一例の概略のブロック図である。 オーディオエンコーダの実施形態の概略のブロック図である。 オーディオエンコーダの別の実施形態の概略のブロック図である。 オーディオデコーダの実施形態の概略のブロック図である。 オーディオデコーダの別の実施形態の概略のブロック図である。 エンコーダ装置の実施形態の概略のブロック図である。 エンコーダ装置の別の実施形態の概略のブロック図である。 帯域拡張におけるエネルギ参照の関係を説明する図である。 種々の分類のオーディオ信号を示した図である。 種々の分類のオーディオ信号を示した図である。 種々の分類のオーディオ信号を示した図である。 有声および無声のオーディオ信号をそれぞれ示した図である。 有声および無声のオーディオ信号をそれぞれ示した図である。 エンコーディング方法の実施形態の各段階のフロー図である。 エンコーディング方法の別の実施形態の各段階のフロー図である。 デコーダ装置の実施形態の概略のブロック図である。 デコーディング方法の実施形態の各段階のフロー図である。 元のスペクトル包絡線とACELPエンコーディングからの出力との間の相違の例を示した図である。 エンコーダ装置の別の実施形態の概略のブロック図である。 エンコーダ装置のさらに別の実施形態の概略のブロック図である。 帯域拡張における別のエネルギ参照の関係を説明する図である。 エンコーディング方法の別の実施形態の各段階のフロー図である。 エンコーディング方法のさらに別の実施形態の各段階のフロー図である。 デコーダ装置の別の実施形態の概略のブロック図である。 デコーディング方法の別の実施形態の各段階のフロー図である。 エンコーダ装置の典型的な実施形態を説明するブロック図である。 デコーダ装置の典型的な実施形態を説明するブロック図である。
図面の全体を通して、類似または対応する構成要素には、同じ参照番号が使用されている。
説明は、全体としてのシステムの説明から出発し、次いで最終的な技術的解決策の提示の前に、最終的な技術的解決策の一部を呈する例を説明する。
コーデックシステムを有する一般的なオーディオシステムの例が、図1に概略的に示されている。オーディオソースノード10が、オーディオ信号16を生じさせる。オーディオ信号16が、オーディオエンコーダ14において処理され、オーディオ信号16を表わすデータを含むバイナリフラックス22が生成される。オーディオエンコーダ14は、典型的には、送信機12に含まれる。そのような送信機は、例えば通信ネットワークノードの一部であってよい。オーディオエンコーダは、さらに後述されるように、典型的には1つ以上のエンコーダ装置を備える。バイナリフラックス22を、例えばマルチメディア通信の場合など、送信機によって送信インターフェイス20を介して送信することができる。これに代え、あるいはこれに加えて、バイナリフラックス22を、記憶装置26へと記録24することができ、後に記憶装置26から取り出す28ことができる。さらに、送信機構は、随意により、何らかの記憶容量を含むことができる。バイナリフラックス22を、あくまでも一時的に記憶し、単にバイナリフラックスの利用に時間的な遅延を導入することもできる。使用時に、バイナリフラックス22は、オーディオデコーダ34において処理される。オーディオデコーダ34は、典型的には、受信機32に含まれる。そのような受信機は、例えば通信ネットワークノードの一部であってよい。オーディオデコーダは、さらに後述されるように、典型的には1つ以上のエンコーダ装置を備える。デコーダ34は、バイナリフラックスに含まれるデータからオーディオ出力36を生成する。典型的には、オーディオ出力36は、特定の制約のもとで可能な限り元のオーディオ信号16に似ていなければならない。オーディオ出力は、ターゲットノード30へと提供される。
多くのリアルタイムの用途においては、元のオーディオ信号16の生成と生成されるオーディオ出力36との間の時間遅延が、典型的には特定の時間を超えてはならない。同時に、送信のリソースも限られている場合には、利用可能なビットレートも、典型的には低い。
図2Aが、送信機12のオーディオエンコーダ14の実施形態を、ブロック図として概略的に示している。オーディオ信号16が、入力にもたらされる。オーディオ信号は、オーディオ信号の一部分(例えば、低周波数部分)のエンコーディングを実行するコアエンコーダ40へともたらされる。このエンコーディングが、デコーディング側へと送信される情報の中心部分を構成する。オーディオエンコーダ14において、オーディオ信号は、変換エンコーダ52にももたらされる。変換エンコーダ52は、オーディオ信号を変換ドメインまたは周波数ドメインへと変換する。オーディオ信号の少なくとも一部分が、変換ドメインにおいてエンコーダ機構56によってエンコードされる。エンコーダ機構56において、変換のスペクトル包絡線が量子化される。オーディオ信号の変換ドメインの複数のサブ帯域において、スペクトル包絡線のそれぞれのスカラ量子化が決定される。典型的には特定の周波数帯の量子化されたスペクトル包絡線が、量子化指数へとエンコードされる。コアエンコーダ40またはオーディオ信号そのものから入手することができる情報を利用することによって、量子化されたスペクトル包絡線のこのエンコーディングを、必要なビットレートに関してより効率的に実行することができる。したがって、そのようなエンコーディングを、BWEの目的に利用することができる。スペクトル包絡線の量子化指数を表わすエンコーディング95が、コアエンコーディングパラメータと一緒に、バイナリフラックス22としてデコーダ側へともたらされる。変換エンコーダ52およびエンコーダ機構56が、特定の周波数範囲についての帯域拡張データをもたらすために使用されるエンコーダ装置50を形成している。随意により、例えば図中の超高帯域拡張エンコーダ(very high bandwidth extension encoder)60によって例示されるような他の種類の帯域拡張の機能も、この考え方と一緒に使用することができる。
図2Bが、オーディオエンコーダ14の別の実施形態を示している。ここでは、コアエンコーダ40が、ACELPエンコーダ41であり、すなわちCELPエンコーダの例である。別の実施形態においては、他の種類のCELPエンコーダも利用可能である。CELPまたはACELPの動作そのものは、コーデックの技術分野において周知であり、これ以上詳しくは説明しない。この実施形態のACELPエンコーダ41は、オーディオ信号16の再サンプリング版について動作する。したがって、再サンプリングユニット42が、オーディオサンプルの入力とACELPエンコーダ41との間に設けられる。これにより、ACELPエンコーダ41が、オーディオ信号16の低帯域のエンコーディングをもたらす。ACELPコーデックは、8〜12kbit/sまでにおいて高品質のエンコーディングを達成することができる。
ACELPエンコーディングが、高帯域のための低ビットレートBWEによって補足される。変換エンコーダ52は、この特定の実施形態においては、修正離散コサイン変換(MDCT)エンコーダ52である。しかしながら、他の実施形態においては、変換エンコーダ52が、他の変換にもとづくこともできる。そのような変換の例は、これらに限られるわけではないが、フーリエ変換、種々の種類のサインまたはコサイン変換、Karhunen−Loeve変換、あるいは種々の種類のフィルタバンクである。そのような変換の動作そのものは、コーデックの技術分野において周知であり、これ以上詳しくは説明しない。エンコーダ機構56が、少なくとも高帯域に関するBWE情報をもたらすように構成される。高帯域は、その名称から示唆されるように、ACELPエンコーディングの低帯域よりも高い周波数に位置する。この実施形態においては、エンコーダ結合器61が、ACELPエンコーダ41およびMDCT変換にもとづくエンコーダ装置50へと接続され、オーディオ信号についてのすべての情報の適切な複合エンコーディングをもたらすように構成される。オーディオ信号のそのような表現が、バイナリフラックス22としてもたらされる。
特定の実施形態においては、入力および出力信号が、MDCT BWEの基礎を与える32kHzでサンプリングされる。ACELPコアエンコーディングのための信号は、12.8kHzへと再サンプリングされる。
図3Aが、受信機32におけるオーディオデコーダ34の実施形態を示している。バイナリフラックス22、すなわちオーディオ信号についてのエンコード済みの情報が、入力ブロック82において受信される。オーディオ信号のコアエンコーディングのエンコード済みのパラメータが、コアデコーダ70へともたらされる。コアデコーダ70において、パラメータが、オーディオ信号の少なくとも一部分の復元に利用される。高帯域に関するエンコード済みのBWEパラメータが、デコーダ機構84へともたらされる。デコーダ機構84において、量子化指数が、エンコード済みのパラメータから復元され、逆変換デコーダ86において、オーディオ信号の別の一部分が量子化指数からもたらされる。デコーダ機構84、逆変換デコーダ86、および入力ブロック82の少なくとも一部分が、オーディオ信号の高帯域部分を処理するデコーダ装置80に含まれる。コアデコーダおよびデコーダ装置80からのオーディオ信号の各部分が、結合器63において組み合わせられ、最終的なデコード済みのオーディオ信号36となる。ここでもやはり、例えば図中の超高帯域拡張デコーダ62によって例示されるように、他の帯域についてのさらなる処理をもたらすことができる。
図3Bが、オーディオデコーダ34の別の実施形態を示している。ここでは、コアデコーダ70が、ACELPデコーダ71であり、例えばCELPデコーダの例である。別の実施形態においては、他の種類のCELPデコーダも利用可能である。この実施形態のACELPデコーダ71は、低いサンプリングレートを有するオーディオ信号36の一部分をもたらすように動作する。これにより、ACELPデコーダ71は、オーディオ信号36の低帯域のデコーディングをもたらす。上述のように、ACELPコーデックは、8〜12kbit/sまでにおいて高品質のデコーディングを達成することができる。
ACELPデコーディングは、エンコーディング側と同様に、高帯域についての低ビットレートBWEによって補足される。逆変換デコーダ86が、この特定の実施形態においては、逆修正離散コサイン変換(IMDCT)デコーダ85である。しかしながら、別の実施形態においては、変換デコーダ86が、他の変換にもとづいてもよい。そのような変換の例は、これらに限られるわけではないが、フーリエ変換、種々の種類のサインまたはコサイン変換、Karhunen−Loeve変換、あるいは種々の種類のフィルタバンクである。
この手法の重要部分は、BWEを処理するエンコーダ装置である。図4Aが、エンコーダ装置の例をさらに多少詳しく示している。いくつかの部分は、すでに上述されている。変換エンコーダ52(この実施形態においては、MDCTエンコーダ51)が、オーディオ信号16の変換ドメインへの変換を実行するように構成されている。オーディオ信号のそのような変換ドメイン版90が、エンコーダ機構56のエンコーダブロック55へと供給される。エンコーダブロック55は、変換エンコーダ52へと接続されており、変換エンコーディングのスペクトル包絡線を量子化するように構成されている。エンコーダブロック55は、オーディオ信号の変換ドメインの複数のサブ帯域において、スペクトル包絡線のそれぞれのスカラ量子化を決定するようにさらに構成されている。これらのサブ帯域が集まって、オーディオ信号の少なくとも高帯域を構成する。
エンコーダ機構56は、この実施形態においてはパワー分布アナライザ57を備えるセレクタ58を備えている。パワー分布アナライザ57は、変換ドメインにおけるオーディオ信号のパワー分布を得るように構成されている。さらに後述されるように、さまざまな種類のオーディオ信号が、変換ドメインにおいてきわめて異なる挙動を有することができる。しかしながら、そのような挙動を、エンコーディングの目的に利用することができる。パワー分布アナライザ57の一実施形態においては、オーディオ信号の2つ以上のクラスへの分類が実行される。そのようなパワー分布アナライザ57は、さまざまな実施形態において、シンセサイザ29からスペクトル情報42を受け取ることができる。シンセサイザ29は、オーディオ信号のエンコーディングの低帯域合成信号を得る。合成信号は、外部のソースの信号(例えば、MDCT変換器54を介したコアエンコーダ40からの信号)にもとづくことができる。シンセサイザ29は、MDCT変換器54だけを備えることができ、あるいはMDCT変換器54およびエンコーダの両方を備えることができる。スペクトル情報を、シンセサイザ29によって、変換ドメインのオーディオ信号の特性に直接もとづいて、直接的に導出(42B)することもできる。そのような分析または分類の例は、さらに後述される。セレクタ58が、適切な量子化指数を発見するように意図されたエネルギオフセットを供給するように構成されている。エネルギオフセットの供給は、一式の所定のエネルギオフセットからエネルギオフセット92を選択することによって実行される。一式の所定のエネルギオフセットは、少なくとも2つの所定のエネルギオフセットを含んでいる。この一式の所定のエネルギオフセットは、エンコーダおよびデコーダの両者によって知られており、典型的にはセレクタ58へと接続されたメモリ53に用意される。所定のエネルギオフセット92が、エンコードされようとするサブ帯域の各々について選択される。選択は、オーディオ信号の分析にさらにもとづく。
特定の実施形態においては、選択が開ループの手法にもとづく。この実施形態においては、変換ドメインにおけるオーディオ信号のパワー分布を特徴付けるパラメータが決定される。次いで、実際の選択が、決定されたパラメータにもとづいて実行される。これは、1つの種類の信号について、1つのエネルギオフセット92が、個々のサブ帯域の各々をエンコードするために使用されることを意味する。
エンコーダ機構56は、エネルギ参照ブロック59をさらに備える。エネルギ参照ブロックは、エネルギ参照として使用されるエネルギ指標93を得るように構成される。エネルギ指標93は、オーディオ信号の変換ドメインの低帯域における第1の参照帯域のエネルギ指標である。第1の参照帯域を有する低帯域信号43を、例えばMDCT変換器54を介してコアエンコーダ40から得ることができる。あるいは、低帯域信号43Bを、オーディオ信号の変換ドメイン版90から達成することができる。エネルギ指標は、典型的には第1の参照帯域の平均エネルギである。別の実施形態においては、エネルギ指標が、例えば中央値、平均平方値、または重み付け平均値など、第1の参照帯域のエネルギの任意の他の特徴的な統計的尺度であってよい。この参照エネルギ指標が、MDCT包絡線の相対的な量子化の出発点として使用される。第1の参照帯域が選択される帯域は、エンコーダ装置50によって処理されると仮定される帯域よりも低い周波数に位置する。換言すると、高帯域が、まさにその名が示すとおり、オーディオ信号の低帯域よりも高い周波数に位置する。
エンコーダブロック55は、エネルギオフセット範囲92の選択、オーディオ信号の変換ドメイン版90、およびエネルギ指標93を受け取るように、セレクタ58、変換エンコーダ52、およびエネルギ参照ブロック59へと接続されている。エンコーダブロック55は、第1の参照帯域のエネルギ指標93に対するスペクトル包絡線のそれぞれのスカラ量子化を表わす一式の量子化指数をもたらすこと、および選択されたエネルギオフセット92を使用することによって、前記高帯域をエンコードするように構成されている。これにより、エンコーダブロック55は、相対エネルギを表わす一式のパラメータ95を出力する。エンコーダブロック55は、使用した所定のエネルギオフセットを定めるパラメータをもたらすようにさらに構成されている。次いで、これらの出力が、特定の実施形態においてはコアエンコーディングおよび他のBWEエンコーディングと組み合わせられ、受信機へと送信される。
図4Bが、エンコーダ装置50の別の例を概略的に示している。この実施形態においては、使用すべきエネルギオフセットの選択が、閉ループの手法で実行される。これは、基本的に、すべてのエネルギオフセットが試験され、最良の結果を有する1つが選択されることを意味する。エンコーディング方法は、合成による分析としても知られる。この目的のため、メモリ53がエンコーダブロック55へと接続される。エンコーダブロック55は、各々の利用可能なエネルギオフセットについて一式の量子化指数94をもたらすようにさらに構成される。この実施形態においては、2つの所定のエネルギオフセットが使用され、したがってエンコーダブロック55が2組の量子化指数94を生成する。他の実施形態においては、3つ以上の所定のエネルギオフセットが定められ、したがって3組以上の量子化指数94が生成される。
この実施形態において、セレクタ58は、すべての所定のエネルギオフセットについての量子化指数を受け取るように構成される。ここで、セレクタ58は、計算ブロック64および選択ブロック65を備えている。計算ブロック64は、量子化指数の組の各々について量子化誤差を計算するように構成されている。この目的のため、計算ブロックは、元の変換されたオーディオ信号90へのアクセスも有する。次いで、選択ブロック65が、量子化誤差が最小となる量子化指数の組を選択するように構成される。これらの量子化指数が、使用されたエネルギオフセットを定めるパラメータと一緒に出力されるパラメータの組95として使用される。
図5が、参照エネルギと種々の帯域との間の関係を示している。低帯域LBは、コアエンコーディング法によってエンコードされる。次いで、低帯域LBの少なくとも一部分、すなわち第1の参照帯域が、高帯域HBのエネルギオフセットエンコーディングのための参照として使用されるエネルギレベルを決定するために利用される。第1の参照帯域は、低帯域の全体を含んでも、あるいは図示のように低帯域の一部分を含んでもよい。
低帯域および高帯域の周波数範囲を、全体として利用可能なビットレート、使用されるエンコード技術、必要とされるオーディオ品質の水準、などに応じて選択することができる。典型的には無線通信が意図される特定の実施形態においては、低帯域が、基本的に0〜6.4kHzの範囲にある。第1の参照帯域は、0〜5.9kHzの範囲にあるが、別の実施形態においては、低帯域の全体が第1の参照帯域に含まれる。高帯域の上限は、この実施形態においては11.6kHzである。包絡線の量子化を11.6kHzに制限する理由は、これらの周波数においては人間の聴覚系の分解能が低くなること、およびスピーチ信号においてエネルギが少ないことにある。随意により、高帯域の上限を上回る超高帯域VHBを、例えば11.6kHzを上回る超高帯域の領域の包絡線が予測されるという点で、さらなるBWE法によってエンコードすることができる。しかしながら、そのような態様は、本発明の主たる技術的範囲に含まれない。サブ帯域の数も、さまざまなやり方で選択することができる。サブ帯域の数が多いと、より良好な予測がもたらされるが、より高いビットレートが必要になる。この特定の実施形態においては、8つのサブ帯域が使用される。低帯域の領域が、ACELPによって符号化され、高帯域が、MDCTドメインにおいて再現される。
オーディオ信号は、それが表わすサウンドの種類に応じて、きわめて異なって見える可能性がある。例えば、音声活動の検出を、別のエンコーディングの仕組みへの切り換えに使用することができる。図6A〜Cが、3つの異なる種類のオーディオ信号を示している。実際の曲線は架空のものであるが、現実のサンプルにおいて見られるものと同じ全体的な傾向を示している。図6Aに、オーディオ信号101の一例が示されている。エネルギが、全体として、高い周波数と比べて低い周波数においてより高い。低周波数領域の平均のエネルギレベルが、参照E refとして決定され、破線によって示されている。高帯域部分のサブ帯域の包絡線をエンコードするとき、すべてのエネルギが参照レベルを大きく下回ることを見て取ることができる参照E refに対するエネルギオフセットをエンコードするとき、エネルギ目盛りのうちの低い部分だけが必要である。これは、高帯域部分のエネルギのエンコードに使用されるエネルギオフセットの組を、エネルギ目盛りのうちの低い部分112だけに限定できることを意味している。
図6Bに、別のオーディオ信号が示されている。ここでは、エネルギレベルが、全周波数範囲にわたっておおむね等しく、すなわちエネルギ参照E refが、高周波数帯においても曲線に近い。現時点では、エネルギ目盛りの下方の部分112は、エネルギオフセットエンコーディングに適さない。代わりに、リッパ部分111を使用することができる。
有声および無声のスピーチの現実の例が、図7Aおよび7Bに示されており、曲線104が有声のスピーチ部分を表わし、曲線105が無声のスピーチ部分を表わしている。有声のスピーチ部分においては、6.4〜11.6kHzの範囲のエネルギが、6.4kHz未満の範囲の低帯域のエネルギを下回ること40dB超である。無声のスピーチ部分においては、低および高帯域のエネルギが、ほぼ同じレベルである。
オーディオ信号の種々の帯域の間のパワー分布の分析を利用することによって、全体的なオーディオ信号よりも狭い適切なエネルギオフセットを選択することができる。周波数ドメインにおけるオーディオ信号のパワー分布の重要な態様を特徴付けるパラメータを決定することによって、そのようなパラメータを、有用なエネルギオフセットの選択を行なうために利用することができる。そのような行為によって各々の場合に使用されるエネルギオフセットが全エネルギオフセット範囲と比べて半分に減らされる場合、各々のサブ帯域のエンコーディングにおいて1ビットを節約することができる。図6AおよびBの実施形態のように6つのサブ帯域が使用される場合には、各々のオーディオサンプルについて6ビットを節約することができる。さらに、使用される所定のエネルギオフセットの選択も送信されなければならないため、そのような場合に合計のゲインは5ビットになる。
オーディオ信号のパワー分布の分析に応じて適切なエネルギオフセットを選択するという考え方を、さらに一般化することができる。図6Cに、特定の周波数に例外的に高いエネルギを有している信号が示されている。そのような信号は、通常のオーディオよりも高い参照E refを有すると考えられ、結果として、エネルギオフセットに関連付けられたいずれの範囲111、112もエンコーディングに適さない。特定のエネルギオフセットに関連付けられた特定のエネルギ範囲113を代わりに定めることができる。この原理を、例えば過渡信号などにさらに適用することができる。間で選択すべきエネルギオフセットを、この情報が送信側と受信側との間で共有されるように前もって決定される。また、分析の基準および分析そのものも、前もって決定される。
図4Bの実施形態の開ループの手法においては、パワー分布が間接的に分析される。オーディオ信号の異なる帯域の間のエネルギオフセットが、量子化にとって重要である。エネルギオフセットを適切に選択することで、量子化誤差が小さくなり、すなわち種々の帯域におけるオーディオ信号のエネルギ分布が、選択された範囲に一致する。
図8Aが、これまでの考え方による装置においてオーディオ信号をエンコードするための方法の一例の各段階のフロー図を示している。この手順は、ステップ200において始まる。ステップ210において、オーディオ信号のエンコーディングの低帯域合成信号が取得される。前記低帯域合成信号の低帯域の範囲内の第1の参照帯域の第1のエネルギ指標が、ステップ212において取得される。ステップ214において、オーディオ信号の変換ドメインへの変換が実行される。エネルギオフセットが、ステップ216において、変換ドメインの第1の高帯域の複数のサブ帯域の各々について、所定のエネルギオフセットの組から選択される。第1の高帯域は、オーディオ信号の低帯域よりも高い周波数に位置している。ステップ220において、オーディオ信号の第1の高帯域がエンコードされる。第1の参照帯域のエネルギ指標に対する第1の高帯域の複数の第1のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の組がもたらされる。量子化指数は、それぞれの選択されたエネルギオフセットとともに与えられる。第1の高帯域のエンコードのステップは、用いられたエネルギオフセットを定めるパラメータをもたらすステップをさらに含む。この手順はステップ299において終わる。
この特定の実施形態において、エネルギオフセットを選択するステップ216は、周波数ドメインにおけるオーディオ信号のパワー分布に依存する。この目的のため、所定のエネルギオフセット範囲を選択するステップ216は、周波数ドメインにおける前記オーディオ信号のパワー分布を特徴付けるパラメータを決定するステップ215を含む開ループの手順にもとづく。次いで、実際の選択が、決定されたパラメータにもとづく。
一特定の実施形態においては、変換エンコーディングが、修正離散コサイン変換である。また、一特定の実施形態においては、分類が、有声のオーディオ信号のクラスと無声のオーディオ信号のクラスとの間の分類を含む。さらに、一特定の実施形態においては、低帯域が、CELPエンコーダによってエンコードされる。
図8Bが、オーディオ信号をエンコードするための方法の別の例の各段階のフロー図を示している。大部分のステップは、図8Aに示したステップと同様であり、これ以上は論じない。この例では、第1の高帯域のエンコードのステップ219が、この場合には、利用可能な所定のエネルギオフセットの各々について1組の量子化指数をもたらすステップを含む。この例ではステップ219の後で生じるステップ216において、使用されるべきエネルギオフセットが選択される。これが、この例では、ステップ217に示されているように、量子化指数の各組について量子化誤差を計算することによって実行される。ステップ218において、量子化誤差が最も小さい量子化指数の組が選択される。
図9が、デコーダ装置80の一例のブロック図を示している。図3Bと同様に、デコーダ装置80は、入力ブロック82および逆変換デコーダ85を備えている。入力ブロック82は、オーディオ信号の少なくとも高帯域のエンコーディングを受け取るように構成されている。エンコーディングは、オーディオ信号の高帯域の複数の第1のサブ帯域のスペクトル包絡線の量子化指数96の組を表わしている。量子化指数96は、エネルギ指標に対するエネルギを表わしている。さらに、エンコーディングは、用いられた所定のエネルギオフセットを定めるパラメータも含んでいる。デコーダ機構84は、エネルギ参照ブロック89、MDCT変換エンコーダ87、シンセサイザ27、セレクタ88、メモリ83、および復元ブロック81を備えている。
シンセサイザ27は、オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されている。合成信号は、外部のソースの信号(例えば、MDCT変換器87を介したコアデコーダ70へともたらされる信号)にもとづくことができる。
エネルギ参照ブロック89が、オーディオ信号の変換ドメインにおける低帯域の範囲内の第1の参照帯域のエネルギ指標72を受け取るように構成される。エネルギ指標、すなわちエネルギ参照93が、復元ブロック81へと供給される。
用いられたエネルギオフセットを定めるパラメータが、セレクタ88へと供給される。セレクタ88が、パラメータにもとづいて第1のサブ帯域の各々について所定のエネルギオフセットの組からエネルギオフセットを選択するように構成される。復元ブロック81が、入力ブロック82、セレクタ88、およびエネルギ参照ブロック89へと接続される。復元ブロック81は、選択されたエネルギオフセット92および参照帯域のエネルギ指標93を使用することによって量子化指数96の組から高帯域のスペクトル包絡線を決定することにより、変換ドメインにおいて信号を復元するように構成される。
逆変換デコーダ85が、復元ブロック81へと接続され、少なくとも復元されたエネルギオフセットにもとづいてオーディオ信号の少なくとも一部分98への逆変換を実行するように構成されている。
図10が、オーディオ信号のデコードのための方法の一例の各段階のフロー図を示している。このプロセスは、ステップ201において始まる。ステップ260において、オーディオ信号の高帯域のエンコーディングが受信される。エンコーディングは、オーディオ信号の高帯域の複数の第1のサブ帯域のスペクトル包絡線の量子化指数の組を表わしている。量子化指数の第1の組は、エネルギ指標に対するエネルギを表わしている。ステップ262において、オーディオ信号のエンコーディングの低帯域合成信号が取得される。エネルギ指標が、ステップ264において、オーディオ信号の低帯域における第1の参照帯域のエネルギ指標として得られ、受信される。
エンコーディングは、用いられたエネルギオフセット範囲を定めるパラメータをさらに表わしている。エネルギオフセットが、ステップ266において、少なくとも2つの所定のエネルギオフセットからなる組から選択される。これは、第1のサブ帯域の各々について実行され、用いられたエネルギオフセットを定めるパラメータにもとづく。変換ドメインにおける信号が、ステップ268において、前記第1の高帯域の前記第1のサブ帯域の各々について、選択されたエネルギオフセットおよび第1の参照帯域のエネルギ指標を使用することにより、第1のサブ帯域に対応する量子化指数の組から高帯域のスペクトル包絡線を決定することによって復元される。ステップ270において、逆変換が、少なくとも前記変換ドメインの復元された信号にもとづいて、オーディオ信号の少なくとも一部分へと実行される。
一特定の実施形態においては、変換エンコーディングが、修正離散コサイン変換である。また、一特定の実施形態においては、分類が、有声のオーディオ信号のクラスと無声のオーディオ信号のクラスとの間の分類を含む。さらに、一特定の実施形態においては、低帯域が、CELPエンコーダによってエンコードされる。
図11が、元の信号および6.4kHzまで符号化されたACELP出力の両方についての自己回帰スペクトル包絡線を示している。符号化された信号は、典型的には、6kHzのわずかに下方で始まるエネルギ損失を補償しているが、この補償はあくまでも部分的である。これは、本発明のための暗示を与える。換言すると、低帯域が、特定の実施形態においては、低帯域の高周波端においてエネルギの減衰を与える方法によって処理される。そのようなエネルギの減衰は、低帯域が伝統的なBWEと一緒に使用されるときに、低帯域から高帯域への移行においてエネルギの段差を生じさせる。これが、オーディオ信号の奇妙な知覚を生じさせることがある。換言すると、低帯域および高帯域のエンコードに異なる方法が使用されることで、帯域間のまたがりの領域において問題が生じる可能性がある。本発明は、下方の帯域の情報を効率的に使用するとともに、一方の符号化ドメインから別の符号化ドメインへの移行の取り扱いも可能にするBWEエンコーディングの仕組みを見つけることを目的とする。
特定の実施形態においては、生じうる上述のエネルギの段差が、好ましくは制限される。これは、低帯域に最も近いサブ帯域のエンコード後のエネルギを、低帯域の高い方の端部のエネルギレベルから過度に異ならないように制限することによって達成される。これは、大きすぎる正のエネルギの変化のエンコードをサポートしないように制限されるエンコード後のエネルギの範囲を用意することによって達成される。エンコーダが、急激なエネルギの増加を、たとえこれらの最も近いサブ帯域の元の信号エネルギとの不一致が生じても、許さないように制約される。そのような増加の制限のための参照エネルギは、低帯域内の第2の参照帯域から導出される。特定の実施形態においては、この第2の参照帯域が、低帯域の高い方の端部に位置する。さらに上で述べた例では、この第2の参照エネルギを設定するために、例えば5.9〜6.4kHzの帯域を選択することが適切かもしれない。
換言すると、高帯域が2つの部分へと分割される。高帯域の高い周波数端に位置する第1の高帯域は、さらに上で述べた原理に従ってエンコードされる。第2の高帯域は、第1の高帯域と低帯域との間の周波数を含んでいる。この第2の高帯域において、エンコード後のエネルギ、すなわち量子化指数は、増加のエネルギの方向において制約される。換言すると、エンコード後のエネルギが低帯域の高周波端と比べて速すぎる速度で増加することを許さない。これは、制限された正のエネルギ変化を超える変化を許さない量子化指数の許容範囲を用意することによって達成される。第2の高帯域のサブ帯域の位置が低帯域から遠くなるほど、使用される量子化指数の制約は少なくなる。換言すると、エンコード後のエネルギの制限が、第2のサブ帯域の周波数が高くなるにつれて軽減される。
特定の実施形態においては、第1の高帯域が、5つの第1のサブ帯域を含み、8〜11.6kHzの範囲を包含する。第2の高帯域は、3つのサブ帯域を含んでおり、6.4〜8kHzの間の範囲にある。MDCT BWEが、1.55kbit/sでの高周波の包絡線量子化として実現される。0〜6.4kHzの帯域の信号は、ACELPコーデックによって完全に量子化される。第2の参照帯域は、5.9〜6.4kHzの範囲にある。第2の高帯域の第1のサブ帯域についてのエネルギの制約は、最大+3dBのエネルギ参照からのエネルギ差である。第2の高帯域の第2のサブ帯域についてのエネルギの制約は、最大+6dBのエネルギ差である。第2の高帯域の第3のサブ帯域についてのエネルギの制約は、最大+9dBのエネルギ差である。種々のサブ帯域のスカラ量子化器が、第2および第1の高帯域のそれぞれに関して表1および表2にまとめられている。「範囲1」は、有声型のエネルギ分布を有するオーディオサンプルに対応する一方で、「範囲2」は、無声型のエネルギ分布を有するオーディオサンプルに対応する。すべてのスカラ量子化器は、対応する低周波参照エネルギからのオフセットを有する。
Figure 0005719941

Figure 0005719941
図12Aが、上述の考え方に合わせて構成されたエンコーダ装置の実施形態を示している。エンコーダブロック55が、例えば図4Aと比べて、オーディオ信号の第2の高帯域の複数の第2のサブ帯域におけるスペクトル包絡線のそれぞれのスカラ量子化を決定するようにさらに構成されている。エネルギ参照ブロック59が、オーディオ信号の低帯域内の第2の参照帯域のエネルギ指標99を得るようにさらに構成されている。エンコーダブロック55が、それぞれのエネルギオフセットおよび量子化指数範囲を使用することによって第2の参照帯域のエネルギ指標に対する第2の高帯域のエネルギオフセットをエンコードするようにさらに構成されている。量子化指数範囲は、増加のエネルギ方向について制限される。上述のように、特定の実施形態においては、量子化指数のエネルギの制限が、第2のサブ帯域の周波数が高くなるにつれて軽減される。
図12Bが、上述の考え方に合わせて構成されたエンコーダ装置のさらに別の実施形態を示している。エンコーダブロック55およびエネルギ参照ブロックが、図12Aにおいて行なわれたやり方と同じやり方で、例えば図4Bと比べて変更されている。
図13が、これらの原理を周波数の図にて示している。第1の高帯域HB−1が、自身のエネルギ参照を、低帯域LB内の第1の参照帯域から集める。この第1の参照帯域は、典型的には、低帯域の少なくとも大部分を包含する。第2の高帯域HB−2が、自身のエネルギ参照を、第2の高帯域の下側の周波数端に隣接する第2の参照帯域から集める。これが、低帯域の端部におけるエネルギレベルについての考えを与える。
図14Aが、オーディオ信号のエンコーディングのための方法の一実施形態の各段階のフロー図を示している。図8Aにおける各段階と同一の段階については、再度の詳しい説明は行なわない。ステップ213において、低帯域合成信号の低帯域のエンコーディングにおける第2の参照帯域のエネルギ指標が得られる。ステップ222において、オーディオ信号の第2の高帯域がエンコードされる。第2の高帯域は、低帯域と第1の高帯域との間の周波数に位置する。第2の高帯域のエンコーディングは、第2の参照帯域のエネルギ指標に対する第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数をもたらすことを含む。量子化指数は、好ましくは増加のエネルギ方向について制限される。第1の高帯域において、図8Aによるエンコーディングが適用される。
図14Bが、オーディオ信号のエンコーディングのための方法のさらに別の実施形態の各段階のフロー図を示している。ここでもやはり、図8Bの実施形態と比較されるステップ213および222が追加されている。
図15が、デコーダ装置の実施形態を示している。多くの部分は、図9に関連して説明したやり方と同じやり方で機能し、したがって再度の説明は行なわない。この実施形態においては、入力ブロック82が、オーディオ信号の第2の高帯域のエンコーディングを受け取るようにさらに構成されている。第2の高帯域のエンコーディングは、オーディオ信号の第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線の量子化指数を表わしている。量子化指数は、低帯域合成信号の低帯域内の第2の参照帯域のエネルギ指標に対するエネルギを表わしている。エネルギ参照ブロック89が、低帯域合成信号の低帯域内の第2の参照帯域のエネルギ指標を得るようにさらに構成されている。再現ブロック81が、量子化指数の第2の組から第2の高帯域のスペクトル包絡線を決定するようにさらに構成されている。つなぎ目のエネルギは、増加のエネルギ方向について制限される。逆変換デコーダが、少なくとも第2の高帯域の前記決定されたスペクトル包絡線にももとづいて逆変換を実行するようにさらに構成されている。
図16が、オーディオ信号のデコーディングのための方法の一実施形態の各段階のフロー図を示している。図10と同様の段階については、再度の説明は行なわない。ステップ260において、オーディオ信号第1および第2の両方の高帯域のエンコーディングが受信される。第2の高帯域のエンコーディングは、オーディオ信号の第2の高帯域の複数の第2のサブ帯域のスペクトル包絡線の量子化指数を表わしている。量子化指数は、低帯域合成信号の低帯域内の第2の参照帯域のエネルギ指標に対するエネルギを表わしている。低帯域合成信号の低帯域内の第2の参照帯域のエネルギ指標が、ステップ265において受信される。ここで、ステップ268が、第2の高帯域の第2のサブ帯域の各々について、第2の参照帯域のエネルギ指標を使用することによって第2のサブ帯域に対応する量子化指数からスペクトル包絡線を決定することをさらに含む。つなぎ目のエネルギは、増加のエネルギ方向について制限される。逆変換を実行するステップ270が、第2の高帯域の前記決定されたスペクトル包絡線にさらにもとづく。
エンコーダおよびデコーダ装置の種々のブロックは、典型的には処理ユニットに実装され、典型的にはデジタル信号プロセッサに実装される。処理ユニットは、単一のユニットであってよく、あるいは本明細書に記載の手順の種々の段階を実行するための複数のユニットであってよい。処理ユニットが、例えば低帯域のエンコーディングを実行する同じ処理ユニットであってもよい。したがって、例えばコアエンコーダからのデータの「受信」を、実際のデータが保存されたメモリ位置へのアクセスを可能にすることとして実現することができる。エンコーダまたはデコーダ装置の実施形態において、装置は、少なくとも1つのコンピュータプログラム製品を、例えばEEPROM、フラッシュメモリ、および/またはディスク駆動装置などの不揮発メモリの形態で含む。コンピュータプログラム製品は、処理ユニット上で実行されたときにエンコーダまたはデコーダ装置のそれぞれにさらに上で述べた手順の各段階を実行させるコード手段を含んでいるコンピュータプログラムを含む。コンピュータプログラムにおけるコード手段は、上述の各ブロックに相当するモジュールを含むことができる。モジュールは、基本的に、さらに上で述べた手順の各段階を実行する。換言すると、種々のモジュールは、処理ユニット上で実行されるとき、例えば図4A、4B、9、12A、12B、および15の対応するブロックに相当する。
上記開示の実施形態におけるコード手段は、処理ユニット上で実行されたときに各ブロックにさらに後述される手順の各段階を実行させるコンピュータプログラムモジュールとして実現されているが、ブロックのうちの少なくとも1つを、別の実施形態においては、少なくとも部分的にハードウェア回路として実現することができる。
実施の例として、図17が、エンコーダ装置50の典型的な実施形態を示すブロック図である。この実施形態は、プロセッサ120(例えば、マイクロプロセッサ)、メモリ136、システムバス130、入力/出力(I/O)コントローラ134、およびI/Oバス132にもとづいている。この実施形態において、低帯域合成信号が、I/Oコントローラ134によって受信され、メモリ136に保存される。同様に、第1の参照帯域の第1のエネルギ指標および第2のエネルギ指標が、I/Oコントローラ134によって受信され、メモリ136に保存される。別の実施形態においては、低帯域合成信号ならびに/あるいは第1の参照帯域の第1および第2のエネルギ指標を、システムバス130を介してプロセッサによって供給することができる。プロセッサ120が、オーディオ信号の変換を実行するためのソフトウェアコンポーネント122、エネルギオフセットを選択するためのソフトウェアコンポーネント124、第1の高帯域をエンコードするためのソフトウェアコンポーネント126、および第2の高帯域をエンコードするためのソフトウェアコンポーネント128を実行する。このソフトウェアは、メモリ136に保存される。プロセッサ120は、システムバス130を介してメモリ136と通信する。ソフトウェアコンポーネント122は、図12Aまたは12Bの実施形態におけるブロック52の機能を実行することができる。ソフトウェアコンポーネント124は、図12Aまたは12Bの実施形態におけるブロック58の機能を実行することができる。ソフトウェアコンポーネント126および128は、図12Aまたは12Bの実施形態におけるブロック55の機能を協働して実行することができる。
実施の例として、図18が、デコーダ装置80の典型的な実施形態を示すブロック図である。この実施形態は、プロセッサ150(例えば、マイクロプロセッサ)、メモリ166、システムバス160、入力/出力(I/O)コントローラ164、およびI/Oバス162にもとづいている。この実施形態において、オーディオ信号および低帯域合成信号が、I/Oコントローラ164によって受信され、メモリ166に保存される。同様に、第1の参照帯域の第1のエネルギ指標および第2のエネルギ指標が、I/Oコントローラ164によって受信され、メモリ166に保存される。別の実施形態においては、低帯域合成信号ならびに/あるいは第1の参照帯域の第1および第2のエネルギ指標を、システムバス160を介してプロセッサによって供給することができる。プロセッサ150は、エネルギオフセットを選択するためのソフトウェアコンポーネント152、変換ドメインにおいて信号を復元するためのソフトウェアコンポーネント154、および逆変換を実行するためのソフトウェアコンポーネント156を実行する。このソフトウェアは、メモリ166に保存される。プロセッサ150は、システムバス160を介してメモリ166と通信する。ソフトウェアコンポーネント152は、図15の実施形態におけるブロック88の機能を実行することができる。ソフトウェアコンポーネント154は、図15の実施形態におけるブロック81の機能を実行することができる。ソフトウェアコンポーネント156は、図15の実施形態におけるブロック85の機能を実行することができる。
上述のソフトウェアコンポーネントの一部またはすべてを、例えばCD、DVD、またはハードディスクなどのコンピュータにとって読み取り可能な媒体に保持し、プロセッサによる実行のためにメモリへとロードすることが可能である。
上述の実施形態を、本発明の少数の例示の実施形態と理解すべきである。本発明の技術的範囲から外れることなく、これらの実施形態に対してさまざまな調節、組み合わせ、および変更が可能であることを、当業者であれば理解できるであろう。特には、異なる実施形態における異なる部分的解決策を、技術的に可能であれば他の構成にて組み合わせることが可能である。しかしながら、本発明の技術的範囲は、添付の特許請求の範囲によって定められる。
略語
ACELP 代数符号励振線形予測
BWE 帯域拡張
CELP 符号励振線形予測
MDCT 修正離散コサイン変換

Claims (42)

  1. オーディオ信号をエンコードするための方法であって、
    前記オーディオ信号のエンコーディングの低帯域合成信号を得るステップ(210)と;
    前記低帯域合成信号の低帯域(LB)の範囲内の第1の参照帯域の第1のエネルギ指標を得るステップ(212)と;
    前記オーディオ信号の変換ドメインへの変換を実行するステップ(214)と;
    前記変換ドメインの前記オーディオ信号の第1の高帯域(HB−1)の複数の第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットの組からエネルギオフセットを選択するステップ(216)であって、
    前記第1の高帯域(HB−1)は前記低帯域(LB)よりも高い周波数に位置する選択ステップ(216)と;
    前記第1の高帯域(HB−1)をエンコードするステップ(219、220)であって、
    前記第1の高帯域(HB−1)をエンコードする前記ステップは、前記第1のエネルギ指標に対する前記第1の高帯域(HB−1)の前記複数の第1のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第1の組を供給することを含んでおり、
    前記量子化指数の第1の組は、それぞれの前記選択されたエネルギオフセットによって与えられ、
    前記第1の高帯域(HB−1)をエンコードする前記ステップは、用いたエネルギオフセットを定めるパラメータを供給することをさらに含んでいるステップ(219、220)と;
    前記低帯域合成信号の前記低帯域(LB)の範囲内の第2の参照帯域の第2のエネルギ指標を得るステップ(213)と;
    前記変換ドメインにおいて前記オーディオ信号の第2の高帯域(HB−2)をエンコードするステップ(222)であって、
    前記第2の高帯域(HB−2)は、前記低帯域(LB)と前記第1の高帯域(HB−1)との間の周波数に位置しており、
    前記第2の高帯域(HB−2)をエンコードする前記ステップは、前記第2のエネルギ指標に対する前記第2の高帯域(HB−2)の複数の第2のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第2の組を供給することを含んでいるエンコードするステップ(222)と;
    を備える方法。
  2. 前記エネルギオフセットを選択するステップ(216)が、周波数ドメインにおける前記オーディオ信号のパワー分布に依存することを特徴とする、請求項1に記載の方法。
  3. 前記エネルギオフセットを選択するステップ(216)が、周波数ドメインにおける前記低帯域合成信号のパワー分布を特徴付けるパラメータを決定することを含む開ループの手順にもとづき、したがって前記決定されるパラメータにもとづくことを特徴とする、請求項1または2に記載の方法。
  4. 前記エンコードするステップ(219)が、各々の所定のエネルギオフセット範囲について前記量子化指数の1つの第1の組を供給することを含んでおり、
    前記エネルギオフセットを選択するステップ(216)が、
    前記量子化指数の1の組の各々について、量子化誤差を計算するステップ(217)と、
    量子化誤差が最も小さい前記量子化指数の第1の組を選択するステップ(218)と
    を含んでいることを特徴とする、請求項1または2に記載の方法。
  5. 前記変換のエンコーディングが、修正離散コサイン変換であることを特徴とする、請求項1〜4のいずれか一項に記載の方法。
  6. 前記第1の高帯域(HB−1)の下側の周波数端が、8kHzであることを特徴とする、請求項1〜5のいずれか一項に記載の方法。
  7. 前記第1の高帯域(HB−1)の上側の周波数端が、11.6kHzであることを特徴とする、請求項1〜6のいずれか一項に記載の方法。
  8. 前記第1の高帯域(HB−1)が、5つの第1のサブ帯域を含んでいることを特徴とする、請求項1〜7のいずれか一項に記載の方法。
  9. 前記低帯域(LB)が、0〜6.4kHzの範囲であることを特徴とする、請求項1〜8のいずれか一項に記載の方法。
  10. 前記第1の参照帯域が、前記低帯域(LB)の全体を含むことを特徴とする、請求項1〜9のいずれか一項に記載の方法。
  11. 前記第1の参照帯域が、0〜5.9kHzの範囲であることを特徴とする、請求項1〜9のいずれか一項に記載の方法。
  12. 前記低帯域合成信号が、符号励振線形予測エンコーダによるエンコーディングにもとづくことを特徴とする、請求項1〜11のいずれか一項に記載の方法。
  13. 前記量子化指数の2の組の量子化指数が、増加のエネルギ方向について制限されていることを特徴とする、請求項1〜12のいずれか一項に記載の方法。
  14. 前記量子化指数の前記エネルギの制限が、前記第2のサブ帯域の周波数が高くなるにつれて軽減されることを特徴とする、請求項13に記載の方法。
  15. 前記第2の高帯域(HB−2)が、6.4〜8kHzの範囲であることを特徴とする、請求項1〜14のいずれか一項に記載の方法。
  16. 前記第2の参照帯域が、5.9〜6.4kHzの範囲であることを特徴とする、請求項1〜15のいずれか一項に記載の方法。
  17. 前記第2の高帯域(HB−2)が、3つの第2のサブ帯域を含んでいることを特徴とする、請求項1〜16のいずれか一項に記載の方法。
  18. オーディオ信号をデコードするための方法で、
    前記オーディオ信号のエンコーディングを受信するステップ(260)であって、
    前記エンコーディングは前記オーディオ信号の第1の高帯域(HB−1)の複数の第1のサブ帯域のスペクトル包絡線の量子化指数の第1の組を表わし、
    前記量子化指数の第1の組は第1のエネルギ指標に対するエネルギを表わすステップ(260)と;
    前記オーディオ信号のエンコーディングの低帯域合成信号を得るステップ(262)と;
    前記第1のエネルギ指標を、前記低帯域合成信号の低帯域(LB)の範囲内の第1の参照帯域のエネルギ指標として得るステップ(264)であって、
    前記第1の高帯域(HB−1)は前記低帯域(LB)よりも高い周波数に位置し、
    前記エンコーディングは用いられたエネルギオフセットを定めるパラメータをさらに表わすステップ(264)と;
    前記用いられたエネルギオフセットを定める前記パラメータにもとづき、前記第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するステップ(266)と;
    前記第1の高帯域(HB−1)の前記第1のサブ帯域の各々について、前記選択されたエネルギオフセットおよび前記第1のエネルギ指標を使用することによって、前記第1のサブ帯域に対応する前記量子化指数の第1の組から前記第1の高帯域(HB−1)のスペクトル包絡線を決定することにより、変換ドメインにおける信号を復元するステップ(268)と;
    少なくとも前記変換ドメインにおける前記復元された信号にもとづいて、前記オーディオ信号への逆変換を実行するステップ(270)であって、
    前記エンコーディングは第2の高帯域(HB−2)の複数の第2のサブ帯域のスペクトル包絡線の量子化指数の第2の組をさらに表わし、
    前記第2の高帯域(HB−2)は前記低帯域(LB)と前記第1の高帯域(HB−1)との間の周波数に位置し、
    前記量子化指数の第2の組は第2のエネルギ指標に対するエネルギを表わす実行するステップ(270)と;
    前記第2のエネルギ指標を、前記低帯域合成信号の前記低帯域(LB)の範囲内の第2の参照帯域のエネルギ指標として得るステップ(265)と;
    を備えており、
    前記変換ドメインにおける前記信号を復元する前記ステップ(268)が、前記第2の高帯域(HB−2)の前記第2のサブ帯域の各々について、前記第2のエネルギ指標を使用することによって、前記第2のサブ帯域に対応する前記量子化指数の第2の組から前記第2の高帯域(HB−2)のスペクトル包絡線を決定することをさらに含む方法。
  19. 前記変換のエンコーディングが、修正離散コサイン変換であることを特徴とする、請求項18に記載の方法。
  20. 前記第1の高帯域(HB−1)の下側の周波数端が、8kHzであることを特徴とする、請求項18または19に記載の方法。
  21. 前記第1の高帯域(HB−1)の上側の周波数端が、11.6kHzであることを特徴とする、請求項18〜20のいずれか一項に記載の方法。
  22. 前記第1の高帯域(HB−1)が、5つの第1のサブ帯域を含んでいることを特徴とする、請求項18〜21のいずれか一項に記載の方法。
  23. 前記低帯域(LB)が、0〜6.4kHzの範囲であることを特徴とする、請求項18〜22のいずれか一項に記載の方法。
  24. 前記第1の参照帯域が、前記低帯域(LB)の全体を含むことを特徴とする、請求項18〜23のいずれか一項に記載の方法。
  25. 前記第1の参照帯域が、0〜5.9kHzの範囲であることを特徴とする、請求項18〜23のいずれか一項に記載の方法。
  26. 前記低帯域合成信号が、符号励振線形予測エンコーダによるエンコーディングにもとづくことを特徴とする、請求項18〜25のいずれか一項に記載の方法。
  27. 前記量子化指数の2の組の量子化指数が、増加のエネルギ方向について制限されていることを特徴とする、請求項18〜26のいずれか一項に記載の方法。
  28. 前記量子化指数の前記エネルギの制限が、前記第2のサブ帯域の周波数が高くなるにつれて軽減されることを特徴とする、請求項27に記載の方法。
  29. 前記第2の高帯域(HB−2)が、6.4〜8kHzの範囲であることを特徴とする、請求項18〜28のいずれか一項に記載の方法。
  30. 前記第2の参照帯域が、5.9〜6.4kHzの範囲であることを特徴とする、請求項18〜29のいずれか一項に記載の方法。
  31. 前記第2の高帯域(HB−2)が、3つの第2のサブ帯域を含んでいることを特徴とする、請求項18〜30のいずれか一項に記載の方法。
  32. オーディオ信号をエンコードするためのエンコーダ装置(50)であって、
    前記オーディオ信号の変換ドメインへの変換を実行するように構成された変換エンコーダ(52)と;
    前記変換ドメインの前記オーディオ信号の第1の高帯域(HB−1)の複数の第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されたセレクタ(58)と;
    前記オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されたシンセサイザと;
    前記シンセサイザへと接続され、前記低帯域合成信号の低帯域(LB)の範囲内の第1の参照帯域の第1のエネルギ指標を得るように構成されたエネルギ参照ブロック(59)であって、
    前記第1の高帯域(HB−1)は前記低帯域(LB)よりも高い周波数に位置しているエネルギ参照ブロック(59)と;
    前記セレクタ(58)および前記エネルギ参照ブロック(59)へと接続され、前記第1の高帯域(HB−1)をエンコーディングするように構成されたエンコーダブロック(55)とを備え、
    前記第1の高帯域(HB−1)の前記エンコーディングは、前記第1のエネルギ指標に対する前記第1の高帯域(HB−1)の前記複数の第1のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第1の組を供給することを含み、
    前記量子化指数の第1の組は、それぞれの前記選択されたエネルギオフセットによって与えられ、
    前記第1の高帯域(HB−1)の前記エンコーディングは、用いられたエネルギオフセットを定めるパラメータを供給することをさらに含み、
    前記エネルギ参照ブロック(59)は、前記低帯域合成信号の前記低帯域(LB)の範囲内の第2の参照帯域の第2のエネルギ指標を得るようにさらに構成され、
    前記エンコーダブロック(55)は、前記変換ドメインにおいて前記オーディオ信号の第2の高帯域(HB−2)をエンコードするようにさらに構成され、
    前記第2の高帯域(HB−2)は、前記低帯域(LB)と前記第1の高帯域(HB−1)との間の周波数に位置しており、
    前記第2の高帯域(HB−2)の前記エンコーディングは、前記第2のエネルギ指標に対する前記第2の高帯域(HB−2)の複数の第2のサブ帯域のスペクトル包絡線のそれぞれのスカラ量子化を表わす量子化指数の第2の組を供給することを含む、エンコーダ装置(50)。
  33. 前記セレクタ(58)が、周波数ドメインにおける前記オーディオ信号のパワー分布に依存してエネルギオフセットを選択するように構成されていることを特徴とする、請求項32に記載のエンコーダ装置。
  34. 前記セレクタ(58)が、周波数ドメインにおける前記低帯域合成信号のパワー分布を特徴付けるパラメータを決定し、該決定されたパラメータにもとづいてエネルギオフセットを選択するように構成されていることを特徴とする、請求項32または33に記載のエンコーダ装置。
  35. 前記エンコーダブロック(55)が、各々の所定のエネルギオフセット範囲について前記量子化指数の1つの第1の組を供給するように構成され、
    前記セレクタ(58)が、すべての所定のエネルギオフセット範囲について前記量子化指数の第1の組を受け取るように構成され、量子化指数の前記第1の組の各々について量子化誤差を計算するように構成された計算ブロックと、量子化誤差が最も小さい前記量子化指数の第1の組を選択するように構成された選択ブロックとを備えていることを特徴とする、請求項32または34に記載のエンコーダ装置。
  36. 前記変換エンコーダ(52)が、修正離散コサイン変換エンコーダ(51)であることを特徴とする、請求項32〜35のいずれか一項に記載のエンコーダ装置。
  37. 請求項32〜36のいずれか一項に記載のエンコーダ装置(50)を備えるオーディオエンコーダ(14)。
  38. 請求項37に記載のオーディオエンコーダ(14)を備えるネットワークノード。
  39. オーディオ信号をデコードするためのデコーダ装置(80)であり、
    前記オーディオ信号のエンコーディングを受信するように構成された入力ブロック(82)であって、
    前記エンコーディングは前記オーディオ信号の第1の高帯域(HB−1)の複数の第1のサブ帯域のスペクトル包絡線の量子化指数の第1の組を表わし、
    前記量子化指数の第1の組は第1のエネルギ指標に対するエネルギを表わす入力ブロック(82)と;
    前記オーディオ信号のエンコーディングの低帯域合成信号を得るように構成されたシンセサイザと;
    前記シンセサイザへと接続され、前記第1のエネルギ指標を、前記低帯域合成信号の低帯域(LB)の範囲内の第1の参照帯域のエネルギ指標として得るように構成されたエネルギ参照ブロック(89)であって、
    前記第1の高帯域(HB−1)は前記帯域(LB)よりも高い周波数に位置しており、
    前記エンコーディングはさらに用いられたエネルギオフセットを定めるパラメータを表わすエネルギ参照ブロック(89)と;
    前記入力ブロック(82)へと接続され、前記用いられたエネルギオフセットを定める前記パラメータにもとづき、前記第1のサブ帯域の各々について、少なくとも2つの所定のエネルギオフセットからなる組からエネルギオフセットを選択するように構成されたセレクタ(88)と;
    前記入力ブロック(82)、前記セレクタ(88)、および前記エネルギ参照ブロック(89)へと接続され、前記第1の高帯域(HB−1)の前記第1のサブ帯域の各々について、前記選択されたエネルギオフセットおよび前記第1のエネルギ指標を使用することによって、前記第1のサブ帯域に対応する前記第1の組の量子化指数から前記第1の高帯域(HB−1)のスペクトル包絡線を決定することにより、変換ドメインにおける信号を復元するように構成された復元ブロック(81)と;
    前記復元ブロック(81)へと接続され、少なくとも前記変換ドメインにおける前記復元された信号にもとづいて、前記オーディオ信号への逆変換を実行するように構成された逆変換デコーダ(86)と;
    を備えており、
    前記エンコーディングはさらに第2の高帯域(HB−2)の複数の第2のサブ帯域のスペクトル包絡線の量子化指数の第2の組をさらに表わし、
    前記第2の高帯域(HB−2)は前記低帯域(LB)と前記第1の高帯域(HB−1)との間の周波数に位置しており、
    前記量子化指数の第2の組は第2のエネルギ指標に対するエネルギを表わしており、
    前記エネルギ参照ブロック(89)が、前記第2のエネルギ指標を、前記低帯域合成信号の前記低帯域(LB)の範囲内の第2の参照帯域のエネルギ指標として得るようにさらに構成され、
    前記復元ブロック(81)が、前記第2の高帯域(HB−2)の前記第2のサブ帯域の各々について、前記第2のエネルギ指標を使用することによって、前記第2のサブ帯域に対応する前記量子化指数の第2の組から前記第2の高帯域(HB−)のスペクトル包絡線を決定するようにさらに構成されているデコーダ装置。
  40. 前記逆変換デコーダ(86)が、修正離散コサイン逆変換デコーダ(85)であることを特徴とする、請求項39に記載のデコーダ装置。
  41. 請求項39または40に記載のデコーダ装置(80)を備えるオーディオデコーダ(34)。
  42. 請求項41に記載のオーディオデコーダ(34)を備えるネットワークノード。
JP2013553392A 2011-02-09 2011-02-09 オーディオ信号の効率的なエンコーディング/デコーディング Active JP5719941B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2011/050146 WO2012108798A1 (en) 2011-02-09 2011-02-09 Efficient encoding/decoding of audio signals

Publications (2)

Publication Number Publication Date
JP2014510938A JP2014510938A (ja) 2014-05-01
JP5719941B2 true JP5719941B2 (ja) 2015-05-20

Family

ID=46638827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013553392A Active JP5719941B2 (ja) 2011-02-09 2011-02-09 オーディオ信号の効率的なエンコーディング/デコーディング

Country Status (7)

Country Link
US (1) US9280980B2 (ja)
EP (1) EP2673771B1 (ja)
JP (1) JP5719941B2 (ja)
CN (1) CN103380455B (ja)
AU (1) AU2011358654B2 (ja)
BR (1) BR112013016350A2 (ja)
WO (1) WO2012108798A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155144A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
CN108198564B (zh) * 2013-07-01 2021-02-26 华为技术有限公司 信号编码和解码方法以及设备
US9293143B2 (en) 2013-12-11 2016-03-22 Qualcomm Incorporated Bandwidth extension mode selection
EP4109445A1 (en) * 2014-03-14 2022-12-28 Telefonaktiebolaget LM Ericsson (PUBL) Audio coding method and apparatus
EP3413306B1 (en) * 2014-03-24 2019-10-30 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
US9959876B2 (en) 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
ES2956344T3 (es) * 2015-08-25 2023-12-19 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
CN107221334B (zh) * 2016-11-01 2020-12-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
US10559315B2 (en) * 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
CN117476013A (zh) * 2022-07-27 2024-01-30 华为技术有限公司 音频信号的处理方法、装置、存储介质及计算机程序产品

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233496A (ja) * 1988-03-15 1989-09-19 Fujitsu Ltd 多チャンネルa/d変換装置
EP0805564A3 (en) * 1991-08-02 1999-10-13 Sony Corporation Digital encoder with dynamic quantization bit allocation
JPH09172376A (ja) * 1995-12-20 1997-06-30 Hitachi Ltd 量子化ビット割当て装置
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4021124B2 (ja) * 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US9454974B2 (en) 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding

Also Published As

Publication number Publication date
CN103380455A (zh) 2013-10-30
WO2012108798A1 (en) 2012-08-16
CN103380455B (zh) 2015-06-10
JP2014510938A (ja) 2014-05-01
EP2673771A4 (en) 2015-10-28
EP2673771A1 (en) 2013-12-18
EP2673771B1 (en) 2016-06-01
AU2011358654B2 (en) 2017-01-05
BR112013016350A2 (pt) 2018-06-19
US9280980B2 (en) 2016-03-08
US20130317811A1 (en) 2013-11-28

Similar Documents

Publication Publication Date Title
JP5719941B2 (ja) オーディオ信号の効率的なエンコーディング/デコーディング
KR102240271B1 (ko) 대역폭 확장신호 생성장치 및 방법
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
JP5165559B2 (ja) オーディオコーデックポストフィルタ
JP5186054B2 (ja) マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
US8527265B2 (en) Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
AU2011358654A1 (en) Efficient encoding/decoding of audio signals
CN107077855B (zh) 信号编码方法和装置以及信号解码方法和装置
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
WO2009059632A1 (en) An encoder
KR102426033B1 (ko) 인코더 및/또는 디코더에서의 대역폭 제어
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
WO2009022193A2 (en) Devices, methods and computer program products for audio signal coding and decoding
US20100280830A1 (en) Decoder
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
KR20080092823A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R150 Certificate of patent or registration of utility model

Ref document number: 5719941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250