JP2011527449A - 符号化されたオーディオ信号を復号化するための装置および方法 - Google Patents

符号化されたオーディオ信号を復号化するための装置および方法 Download PDF

Info

Publication number
JP2011527449A
JP2011527449A JP2011516987A JP2011516987A JP2011527449A JP 2011527449 A JP2011527449 A JP 2011527449A JP 2011516987 A JP2011516987 A JP 2011516987A JP 2011516987 A JP2011516987 A JP 2011516987A JP 2011527449 A JP2011527449 A JP 2011527449A
Authority
JP
Japan
Prior art keywords
encoding
signal
algorithm
decoding
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011516987A
Other languages
English (en)
Other versions
JP5325293B2 (ja
Inventor
マクス ノイエンドルフ
ベルンハルト グリル
ウルリヒ クレマー
マルクス マルトラス
ハラルド ポップ
ニコラウス レッテルバッハ
フレドリック ナーゲル
マルクス ローバッサー
マルク ゲイヤー
マーヌエル ヤンダー
ヴィルジリオ バチガルーポ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011527449A publication Critical patent/JP2011527449A/ja
Application granted granted Critical
Publication of JP5325293B2 publication Critical patent/JP5325293B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Abstract

符号化されたオーディオ信号(102)を復号化するための装置(100)であって、符号化されたオーディオ信号(102)は、第1の符号化アルゴリズムにより符号化される第1の部分(104a)、第2の符号化アルゴリズムにより符号化される第2の部分(104b)、第1の部分(104a)および第2の部分(104b)のためのBWEパラメータ(106)並びに第1の復号化アルゴリズムまたは第2の復号化アルゴリズムを指し示す符号化モード情報を含み、前記装置は、第1のデコーダ(110a)、第2のデコーダ(110b)、BWEモジュール(130)および制御装置(140)を含む。第1のデコーダ(110a)は、第1の復号化された信号(114a)を得るために、符号化された信号(102)の第1の時間部分のために第1の復号化アルゴリズムにより第1の部分(104a)を復号化する。第2のデコーダ(110b)は、第2の復号化された信号(114b)を得るために、符号化された信号(102)の第2の時間部分のために第2の復号化アルゴリズムにより第2の部分(104b)を復号化する。BWEモジュール(130)は、制御可能なクロスオーバー周波数(fx)を有し、第1の部分(104a)のための第1の復号化された信号(114a)およびBWEパラメータ(106)を使用して帯域幅拡張アルゴリズムを実行するため、並びに第2の部分(104b)のための第2の復号化された信号(114b)および帯域幅拡張パラメータ(106)を使用して帯域幅拡張パラメータ(106)を実行するために構成される。制御装置(140)は、符号化モード情報(108)によりBWEモジュール(130)のためのクロスオーバー周波数(fx)を制御する。
【選択図】図1

Description

本発明は、符号化されたオーディオ信号を復号化するための装置および方法、符号化するための装置、符号化するための方法、ならびにオーディオ信号に関する。
従来技術において、MP3またはAACのような周波数領域の符号化スキームが、公知である。これらの周波数領域エンコーダは、時間領域/周波数領域変換、量子化誤差が音響心理モジュールからの情報を用いて制御される量子化ステージ、および量子化されたスペクトル係数および対応するサイド情報がコード表を使用してエントロピー符号化される符号化ステージに基づく。
他方では、3GPP TS 26.290において記載されているような、例えば、AMR−WB+のような音声(speech)処理に非常に適するエンコーダがある。そのような音声符号化スキームは、時間領域信号の線形予測フィルタを実行する。そのようなLPフィルタは、入力時間領域信号の線形予測分析から導出される。その後、結果として生じるLPフィルタの係数は符号化され、そしてサイド情報として送信される。その処理は、線形予測符号化(LPC:Linear Prediction Coding)として知られる。フィルタの出力において、予測残差信号、または励振信号としても知られる予測誤差信号は、ACELPエンコーダの合成による分析ステージを用いて符号化されるか、または、あるいは、オーバーラップを伴うフーリエ変換を使用する変換エンコーダを用いて符号化される。ACELP符号化およびTCX符号化とも呼ばれる変換符号化励振コーディング(Transform Coded eXcitation coding)の間の選択は、閉ループアルゴリズム、または開ループアルゴリズムを用いて行われる。
AAC符号化スキームとスペクトル帯域幅多重化技術を組み合わせる高効率のAAC符号化のような周波数領域オーディオ符号化スキームも用語“MPEGサラウンド”の項目で知られるジョイントステレオまたはマルチチャンネル符号化ツールに組み合わされる。一方、AMR−WB+のような音声エンコーダも、高周波強化ステージおよびステレオ機能性を有する。
スペクトル帯域複製(Spectral Band Replication:SBR)は、例えば、MP3や先進的音響符号化(advanced audio coding:AAC)のようなポピュラーな知覚オーディオ符号化に付加されるとして、評判を得た技術を含む。SBRは、スペクトルの低帯域(ベース帯域またはコア帯域)が既存の符号化を使用して符号化される帯域拡張(BandWidth extension:BWE)の方法を含み、その結果、上方の帯域(または高い帯域)がより少しのパラメータを使用して粗くパラメータ化される。SBRは、低帯域の特性を抽出することから高帯域信号を予測するために低帯域および高帯域の間の相関を利用する。
例えば、SBRは、HE−AACまたはAAC+SBRにおいて使用される。SBRにおいて、フレームあたりのパラメータセット(エンベロープ)の数を意味する時間軸分解能と同様にクロスオーバー周波数(BWE開始周波数)を動的に変えることが可能である。AMR−WB+は、スイッチ型時間/周波数領域のコアコーダと組み合わされて時間領域帯域幅の拡張を実装する。そして、特に、音声信号のための良好なオーディオ品質を与える。AMR−WB+オーディオ品質に対する制限因子は、システムの内部サンプリング周波数の1/4であるコアコーダおよびBWE開始周波数の両方に共通のオーディオ帯域幅である。ACELP音声モデルは全帯域幅をはるかに上回る音声信号をモデル化することができる一方、周波数領域オーディオコーダは、いくつかのオーディオ信号のための適切な品質を供給することに失敗する。このように、音声符号化スキームは、低ビットレートでさえ音声信号に対して高品質を示すが、低ビットレートで音楽信号対して低品質を示す。
それらが、音楽信号に対して低ビットレートで高品質を示すという点で、HE−AACのような周波数領域符号化スキームは有利である。しかしながら、低ビットレートでの音声信号の品質は問題を含む。
従って、オーディオ信号の異なるクラスは、帯域幅拡張ツールの異なる特徴を要求する。
本発明の目的は、改良された符号化/復号化の概念を提供することである。
この目的は、請求項1に記載のオーディオデコーダ、請求項13に記載のオーディオ復号化するための方法、請求項8に記載のエンコーダ、請求項14に記載の符号化するための方法、請求項15に記載の符号化された信号または請求項16に記載のコンピュータプログラムによって達成される。
本発明は、クロスオーバー周波数またはBWE開始周波数がオーディオ品質に影響しているパラメータであるという発見に基づいている。時間領域(音声)コーデックは、通常、所与のサンプリングレートのための全周波数範囲を符号化する一方、符号化するためにスペクトルラインの全体の数を減少することは、同時に、符号化するために利用するスペクトルラインあたりのビットの数を増加する場合、オーディオ帯域幅は、変換ベースのコーダ(例えば、音楽のためのコーダ)に対する同調パラメータであり、品質対音声帯域幅がなされることを意味する。従って、新規なアプローチにおいて、可変オーディオ帯域幅を有する異なるコアコーダが、1つの共通のBWEモジュールを備えるスイッチ型システムに組み合わされる。ここで、BWEモジュールは異なるオーディオ帯域幅を明らかにしなければならない。
直接的な方法は、全てのコアコーダ帯域幅の最も低いものを見つけて、BWE開始周波数としてこれを使用することである。しかし、これは、知覚されたオーディオ品質を悪化させる。また、符号化効率が低減する。なぜなら、コアコーダがBWE開始周波数より高い帯域幅を有する活動である時間セクションで、冗長性を導くBWEと同様にコアコーダによって、若干の周波数領域が2倍に表示されるからである。従って、より良好なソリューションは、BWE開始周波数を使用されるコアコーダのオーディオ帯域幅に適応させることである。
従って、本発明の実施形態によれば、オーディオ符号化システムは、帯域幅拡張ツールを信号依存のコアコーダ(例えば、スイッチ型音声−/オーディオコーダ)と組み合わせる。ここで、クロスオーバー周波数は、可変のパラメータを含む。異なるコア符号化モデルの間の切り替えを制御する信号クラシファイヤ出力は、時間軸の分解能およびスミアリング(smearing)、スペクトル分解能並びにクロスオーバー周波数のようなBWEシステムの特徴を切り替えるために使用される。
従って、本発明の一態様は、符号化されたオーディオ信号のためのオーディオでコーダであって、符号化されたオーディオ信号は、第1の符号化アルゴリズムにより符号化される第1の部分、第2の符号化アルゴリズムにより符号化される第2の部分、第1の部分および第2の部分のためのBWEパラメータ、並びに第1の復号化アルゴリズムまたは第2の復号化アルゴリズムを指し示す符号化モード情報を含み、第1のデコーダ、第2のデコーダ、BWEモジュール、および制御装置を含む。第1のデコーダは、第1の復号化された信号を得るために、符号化された信号の第1の時間部分のために第1の復号化アルゴリズムにより第1の部分を復号化する。第2のデコーダは、第2の復号化された信号を得るために、符号化された信号の第2の時間部分のために第2の復号化アルゴリズムにより第2の部分を復号化する。BWEモジュールは、制御可能なクロスオーバー周波数を有し、第1の部分のための第1の復号化された信号およびBWEパラメータを使用して帯域幅拡張アルゴリズムを実行するため、並びに第2の部分のための第2の復号化された信号および帯域幅拡張パラメータを使用して帯域幅拡張アルゴリズムを実行するために構成される。制御装置は、符号化モード情報によりBWEモジュールのためのクロスオーバー周波数を制御する。
本発明の別の態様では、オーディオ信号を符号化するための装置は、第1および第2のエンコーダ、決定ステージおよびBWEモジュールを含む。第1のエンコーダは、第1の符号化アルゴリズムにより符号化するために構成され、第1の符号化アルゴリズムは、第1の周波数帯域幅を有する。第2のエンコーダは、第2の符号化アルゴリズムにより符号化するために構成され、第2の符号化アルゴリズムは、第1の周波数帯域幅より小さい第2の周波数帯域幅を有する。決定ステージは、オーディオ信号の第1の部分のための第1の符号化アルゴリズムおよびオーディオ信号の第2の部分のための第2の符号化アルゴリズムを指し示し、第2の部分は、第1の部分とは異なる。帯域幅拡張モジュールは、オーディオ信号のためのBWEパラメータを算出し、ここで、BWEモジュールは、オーディオ信号の第1の部分における第1の周波数帯域幅を含まない帯域のため、およびオーディオ信号の第2の部分における第2の周波数帯域幅を含まない帯域のためのBWEパラメータを算出するための決定ステージによって制御されるように構成される。
実施形態とは対照的に、先行技術におけるSBRは、以下のような不利な結果を得るスイッチのないオーディオコーデックにのみ適用される。クロスオーバー周波数と同様に時間的分解能の両方は、動的に適用される、しかし、例えば、3GPPソースのような技術実装の状態は、例えば、カスタネットのような、通常、一時的な時間的分解能の変化のみに適用される。さらに、より微細な全体の時間的分解能は、ビットレート依存チューニングパラメータのようなより高いレートにおいて選択されるかもしれない。明確な分類は、時間的分解能を決定すること、または決定閾値を時間的分解能で制御することを実行せず、例えば、固定された音色の音楽対音声のような信号タイプを最良のマッチングをする。本発明の実施形態は、これらの不利な点を克服する。符号化された信号は、先行技術のエンコーダ/デコーダと比較して著しくより高い知覚的な品質を提供するように、実施形態は、使用されたコアコーダのための柔軟な選択を組み合わせた特に適応されたクロスオーバー周波数を可能にする。
本発明の好ましい実施形態は、添付の図面に関してその後記載されている。
図1は、本発明の第1の態様により復号化するための装置のブロック図を示す。 図2は、本発明の第1の態様により符号化するための装置のブロック図を示す。 図3は、さらに詳細な符号化スキームのブロック図を示す。 図4は、さらに詳細な復号化スキームのブロック図を示す。 図5は、第2の態様による符号化スキームのブロック図を示す。 図6は、第2の態様による復号化スキームの概要図である。 図7は、ショートターム予測情報および予測誤差信号を提供するエンコーダ側のLPCステージを例示する。 図8は、加重信号を生成するためのLPCデバイスの更なる実施形態を例示する。 図9aは、オーディオ信号のための異なる時間的分解能を結果として得るオーディオ/音声スイッチを含むエンコーダを示す。 図9bは、オーディオ信号のための異なる時間的分解能を結果として得るオーディオ/音声スイッチを含むエンコーダを示す。 図10は、符号化されたオーディオ信号のための表現を例示する。
図1は、符号化されたオーディオ信号102を復号化するためのデコーダ装置100を示す。符号化されたオーディオ信号102は、第1の符号化アルゴリズムにより符号化される第1の部分104aと、第2の符号化アルゴリズムにより符号化される第2の部分104bと、第1の時間部分104aおよび第2の時間部分104bのためのBWEパラメータ106と、それぞれの時間部分のための第1の復号化アルゴリズムまたは第2の復号化アルゴリズムを指し示す符号化モード情報108とを含む。復号化するための装置100は、第1のデコーダ110a、第2のデコーダ110b、BWEモジュール130および制御装置140を含む。第1のデコーダ110aは、第1の復号化された信号114aを得るために、符号化された信号102の第1の時間部分のために第1の復号化アルゴリズムにより第1の部分104aを復号化するために適応される。第2のデコーダ110bは、第2の復号化された信号114bを得るために、符号化された信号の第2の時間部分のために第2の復号化アルゴリズムにより第2の部分104bを復号化するために構成される。BEWモジュール130は、BWEモジュール130の動作を調整する制御可能なクロスオーバー周波数fxを有する。BWEモジュール130は、第1の部分のための第1の復号化された信号114aおよびBWEパラメータ106に基づく周波数の上限においてオーディオ信号のコンポーネントを生成するため、並びに第2の部分のための第2の復号化された信号114bおよび帯域拡張パラメータ106に基づく周波数の上限においてオーディオ信号のコンポーネントを生成するための帯域幅拡張アルゴリズムを実行するために構成される。制御装置140は、符号化モード情報108によりBWEモジュール130のクロスオーバー周波数fxを制御するために構成される。
また、BWEモジュール130は、下限および上限の周波数帯域のオーディオ信号コンポーネントを組み合わせるコンバイナを含むことができ、そして、結果として得るオーディオ信号105を出力する。
符号化モード情報108は、例えば、符号化されたオーディオ信号102の時間部分がその符号化アルゴリズムによって符号化されることを指し示す。この情報は、異なる時間部分に使用されるデコーダを同時に特定することができる。加えて、符号化モード情報108は、異なる時間部分に対して異なるデコーダの間において切り替えるためのスイッチを制御することができる。
従って、クロスオーバー周波数fxは、例えば、第1のデコーダ110aとしての音声コーダおよび第2のデコーダ110bとしてのオーディオデコーダを含むことができる使用されたデコーダにより調整される調整可能なパラメータである。上記で述べたように、(例えばLPCに基づくような)音声デコーダのためのクロスオーバー周波数fxは、(例えば音楽のための)オーディオデコーダに使用されるクロスオーバー周波数よりも高くすることができる。このように、クロスオーバー周波数が、復号化アルゴリズムを変更することなく変更することができるように、更なる実施形態において、制御装置220は、一つの時間部分(例えば、第2の時間部分)の範囲内において、クロスオーバー周波数fxを増加させるか、またはクロスオーバー周波数fxを減少させるために構成される。このことは、クロスオーバー周波数における変更が、使用されたデコーダにおける変更に関連がなくてもよいことを意味する:クロスオーバー周波数は、使用されたデコーダの変更なしに変更することができ、逆もまた同様に、デコーダは、クロスオーバー周波数の変更なしに変更することができる。
第1の復号化された信号114aが第1の時間部分の間にBWEモジュール130によって処理され、そして第2の復号化された信号114bが第2の時間部分の間にBWEモジュール130によって処理されるように、BWEモジュール130は、制御装置140および/またはBWEパラメータ106によって制御されるスイッチも含むことができる。このスイッチは、クロスオーバー周波数fxの変更によって、または、それぞれの時間部分の間、使用された符号化アルゴリズムを指し示している符号化されたオーディオ信号の範囲内における明確なビットによって起動することができる。
帯域幅拡張アルゴリズムが、第1の復号化された信号に、または第2の復号化された信号のどちらか一方に適用されるように、更なる実施形態において、スイッチは、第1のデコーダから第2のデコーダに第1および第2の時間部分の間で切り替えるために構成される。あるいは、帯域幅が拡張された信号の一つがドロップされるように、帯域幅拡張アルゴリズムは、第1および/または第2の復号化された信号に適用され、そして、スイッチはこの後に配置される。
図2は、オーディオ信号105を符号化するための装置200に対するブロック図を示す。符号化するための装置200は、第1のエンコーダ210a、第2のエンコーダ210b、決定ステージ220および帯域幅拡張モジュール(BWEモジュール)230を含む。第1のエンコーダ210aは、第1の周波数帯域幅を有する第1の符号化アルゴリズムにより符号化するために作動している。第2のエンコーダ210bは、第1の周波数帯域幅より小さい第2の周波数帯域幅を有する第2の符号化アルゴリズムにより符号化するために作動している。例えば、第1のエンコーダは、LPCベースのコーダのような音声コーダであるのに対して、第2のエンコーダ210bは、オーディオ(音楽)エンコーダを含むことができる。決定ステージ220は、オーディオ信号105の第1の部分204aのための第1の符号化アルゴリズムを指し示すため、およびオーディオ信号105の第2の部分204bのための第2の符号化アルゴリズムを指し示すために構成される。ここで、第2の時間部分は、第1の時間部分とは異なる。第1の部分204aは、第1の時間部分に対応することができ、そして、第2の部分204bは第1の時間部分とは異なる第2の時間部分に対応することができる。
BWEモジュール230は、オーディオ信号105のためのBWEパラメータ106を算出するために構成され、オーディオ信号105の第1の時間部分204aにおける第1の周波数帯域幅を含まない第1の帯域のためのBWEパラメータ106を算出するために決定ステージ220によって制御されるように構成される。更に、BWEモジュール230は、オーディオ信号105の第2の時間部分204bにおける第2の帯域幅を含まない第2の帯域のためのBWEパラメータ106を算出するために構成される。従って、第1(第2)の帯域は、第1(第2)周波数帯域幅の外側であり、そしてクロスオーバー周波数fxによってスペクトルの下限の方へ制限されるオーディオ信号105の周波数コンポーネントを含む。従って、第1または第2の帯域幅は、決定ステージ220によって制御される可変のクロスオーバー周波数によって定義されうる。
加えて、BWEモジュール230は、決定ステージ220によって制御されるスイッチを含むことができる。所与の時間部分の間、好ましいコーダが使用されるように、決定ステージ220は、所与の時間部分のための好ましい符号化アルゴリズムを決定することができ、そして、スイッチを制御することができる。修正された符号化モード情報108´は、対応しているスイッチ情報を含む。さらに、BWEモジュール230は、約4kHzまたは5kHzの値を含むことできるクロスオーバー周波数fxによって分離される下限/上限の周波数帯域においてオーディオ信号105のコンポーネントを得るために、フィルタも含むことができる。最後に、BWEモジュール130は、BWEパラメータ106を決定するための分析ツールも含むことができる。修正された符号化モード情報108´は、符号化モード情報108と同等でありうる(または等しい)。符号化モード情報108は、例えば、符号化されたオーディオ信号105のビットストリームにおけるそれぞれの時間部分のために使用された符号化アルゴリズムを指し示す。
更なる実施形態によれば、決定ステージ220は、元の入力信号105を分析し、異なる符号化モードの選択を始動させる信号クラシファイヤツールを含む。入力信号105の分析は、所与の入力信号フレームのための最善のコア符号化モードを選択する目的を有する処理系依存である。信号クラシファイヤの出力は、他のツール(例えば、MPEGサラウンド、機能強化されたSBR、タイム−ワープフィルタバンクなど)の動作に影響するために使用することもできる。信号クラシファイヤツールへの入力は、例えば、元の修正されない入力信号105を含み、しかし、任意に付加的な処理系依存のパラメータも含む。信号クラシファイヤツールの出力は、コアコーデック(例えば、非LPCフィルタ周波数領域またはLPフィルタ時間または周波数領域符号化または更なる符号化アルゴリズム)の選択を制御するために制御信号108を含む。
実施形態によれば、クロスオーバー周波数fxは、異なる符号化アルゴリズムを使用するために切り替え決定を組み合わされる調整された従属する信号である。従って、シンプルなスイッチ信号は、クロスオーバー周波数fxにおいて、シンプルに変更(ジャンプ)されうる。加えて、符号化モード情報108は、同時に好ましい符号化スキーム(例えば、音声/オーディオ/音楽)を指し示しているクロスオーバー周波数fxの変更も含む。
更なる実施形態によれば、決定ステージ220は、オーディオ信号105、または第1のエンコーダ210aの第1の出力もしくは第2のエンコーダ210bの第2の出力、または、ターゲット関数に関するエンコーダ210aもしくは第2のエンコーダ210bの出力信号を復号化することよって得られる信号を分析するために作動する。例えば、第1のスイッチに対するフレームの50%未満の部分が音声であり、そして、第1のスイッチに対するフレームの50%以上の部分が音楽である場合でも、音声の決定がされるように、音声の決定が音楽の決定に関して有利であるというような方法で、決定ステージ220は音声/音楽の識別を実行するように任意に作動することができる。従って、決定ステージ220は、結果に基づく決定ステージが、オーディオ信号の分析された時間部分に使用される最良のコーデックであるかについて決定することができるように、決定ステージ220は、オーディオ信号が主に音声信号か、また主に音楽信号かのいずれかについて決定するためにオーディオ信号を分析する分析ツールを含むことができる。
図1および2は、エンコーダ/デコーダに関するこれらの詳細の多くを示さない。エンコーダ/デコーダのための可能な詳細な実施例は、以下の図において示される。図1の第1および第2のデコーダ110a,bに加えて、更なるデコーダが、例えば、符号化アルゴリズムを使用するかしないかを表される。同様に、図2のエンコーダ200もまた、付加的な符号化アルゴリズムを使用することができる付加的なエンコーダを含むことができる。以下において、2つのエンコーダ/デコーダを有する実施例が、さらに詳細に説明される。
図3は2つのカスケードされたスイッチを有するエンコーダを詳細に例示する。モノラル信号、ステレオ信号またはマルチチャネル信号は、決定ステージに入力され、そして、図2のBWEモジュール230の一部であるスイッチ232に入力される。スイッチ232は、決定ステージ220によって制御される。あるいは、決定ステージ220は、モノラル信号、ステレオ信号もしくはマルチチャネル信号において含まれるか、またはこの種の信号に少なくとも関連するサイド情報を受信することもできる。ここで、情報が存在しており、そして、それは、例えば、モノラル信号、ステレオ信号またはマルチチャネル信号を算出する場合に生成される。
決定ステージ220は、図3の上側のブランチにおいて例示される周波数符号化部分210bか、または図3の下側のブランチにおいて例示されるLPC領域符号化部分210aかのいずれか一方において、信号を供給するためにスイッチ232を作動させる。周波数領域符号化ブランチのキー要素は、共通の前処理ステージ出力信号(後ほど述べられる)をスペクトル領域に変換するために作動するスペクトル変換ブロック410である。スペクトル変換ブロックは、MDCTアルゴリズム、QMF、FFTアルゴリズム、ウェーブレット解析、またはいくらかのフィルタバンクチャネルを有する精確にサンプルされるフィルタバンクのようなフィルタバンクを含むことができる。ここで、このフィルタバンクのサブバンド信号は、実数値信号、または虚数値信号である。スペクトル変換ブロック410の出力は、AAC符号化スキームから公知であるように、処理ブロックを含むことができるスペクトルオーディオエンコーダ421を使用して符号化される。
一般に、ブランチ210bにおける処理は、知覚ベースモデルまたは情報シンクモデル(information sink model)に基づく処理である。このように、このブランチは、人間の聴覚システム受信音をモデル化する。それとは反対に、ブランチ210aにおける処理は、励振、残差、またはLPC領域における信号を生成することである。一般に、ブランチ210aにおける処理は、音声モデルか、または情報生成モデルに基づく処理である。音声信号のために、このモデルは、音を生成している人間の音声/音の生成システムのモデルである。しかしながら、異なる音生成モデルを必要としている異なるソースからの音が符号化されることになる場合、ブランチ210aにおける処理は異なってもよい。示される符号化ブランチに加えて、更なる実施形態は、追加的なブランチまたはコアコーダを含む。例えば、異なるコーダは、異なるソースのために任意に提示される。その結果、各ソースからの音は、好ましいコーダを使用することによって符号化されうる。
下側の符号化ブランチ210aにおいて、キー要素は、LPCフィルタの特徴を制御するために使用されるLPC情報を出力するLPCデバイス510である。このLPC情報は、デコーダに伝送される。LPCステージ510出力信号は、励振信号および/または加重信号を構成するLPC領域信号である。
一般に、LPCデバイスは、LPCフィルタ係数をオーディオ信号に適用することによって生成されるLPC領域または他の信号におけるいかなる信号でもありえるLPC領域信号を出力する。さらに、LPCデバイスは、これらの係数を決定することもでき、そして、これらの係数を量子化/符号化することもできる。
音楽信号が上側のブランチ210bに入力され、音声信号が下側のブランチ210aに入力されるというような方法で、決定ステージは音楽/音声の識別を実行し、そしてスイッチ232を制御するように信号に適応しうる。1つの実施形態において、デコーダが正確な復号化動作を実行するために、この決定情報を使うことができるように、決定ステージ220は、その決定情報を出力ビットストリームに送り込まれる。この決定情報108は、クロスオーバー周波数fxまたはクロスオーバー周波数fxの変更についての情報も含むことができる符号化モード情報108も、例えば、含むことができる。
このようなデコーダは、図4において例示される。スペクトルオーディオエンコーダ421の信号出力は、伝送の後、スペクトルオーディオデコーダ431に入力される。スペクトルオーディオデコーダ431の出力は、時間領域コンバータ440に入力される(一般に、時間領域コンバータは第1から第2の領域へのコンバータでもよい)。同様に、図3のLPC領域符号化ブランチ210aの出力はデコーダ側で受信され、LPC励振信号を得るために要素531,533,534および532によって処理される。LPC励振信号は、対応するLPC分析ステージ510によって生成されるLPC情報を更なる入力として受信するLPC合成ステージ540に入力される。時間領域コンバータ440の出力および/またはLPC合成ステージ540の出力が、図1におけるBWEモジュール130の一部であるスイッチ132に入力される。スイッチ132は、例えば、決定ステージ220によって生成した、または例えば元のモノラル信号、ステレオ信号またはマルチチャネル信号によって外部から供給されたスイッチの制御信号(例えば、符号化モード情報108および/またはBWEパラメータ106)を介して制御される。
図3において、スイッチ232および決定ステージ220への入力信号は、モノラル信号、ステレオ信号、マルチチャネル信号、または通常いかなるオーディオ信号でもありえる。スイッチ232に入力された信号から、またはステージ232に入力される信号に基づく元のオーディオ信号のプロデューサーのようないくつかの外部ソースから導き出されうる決定に応じて、スイッチは、周波数符号化ブランチ210bおよびLPC符号化ブランチ210aの間で切り替わる。周波数符号化ブランチ210bは、スペクトル変換ステージ410およびその後に接続された量子化/符号化ステージ421を含む。量子化/符号化ステージは、例えば、AACエンコーダのような現在の周波数領域エンコーダから公知であるように機能性のいくつかを含むことができる。さらに、量子化/符号化ステージ421における量子化動作は、例えば、周波数上の音響心理学的なマスキング閾値のような音響心理学的な情報を生成する音響心理学的なモジュールを介して制御されうる。ここで、この情報は、ステージ421に入力される。
LPC符号化ブランチ210aにおいて、スイッチ出力信号は、LPCサイド情報およびLPC領域信号を生成しているLPC分析ステージ510を介して処理される。励振エンコーダは、LPC領域における量子化/符号化動作522か、またはLPCスペクトル領域において処理する値である量子化/符号化ステージ524の間でLPC領域信号の更なる処理を切り替えるための付加的なスイッチを含む。この目的で、スペクトルコンバータ523が量子化/符号化ステージ524の入力において設けられる。スイッチ521は、例えばAMR−WB+技術仕様書に記載されているように、特定の設定に応じて、開ループ方式または閉ループ方式において制御される。
閉ループ制御モードのために、加えて、エンコーダは、LPC領域信号のための逆量子化器/コーダ531、LPCスペクトル領域信号のための逆量子化器/コーダ533、および項目533の出力のための逆スペクトルコンバータ534を含む。第2の符号化ブランチの処理ブランチにおいて、符号化されおよび再復号化された信号両方が、スイッチ制御デバイス525に入力される。スイッチ521がいずれの位置を取るべきかを決定するために、より低いゆがみを有する信号が使用されるように、スイッチ制御デバイス525において、これらの2つの出力信号は、お互いにおよび/またはターゲット関数と比較されるか、または、ターゲット関数は、両方の信号におけるゆがみの比較に基づいて算出される。あるいは、両方のブランチが非定値のビットレートを提供する場合に備えて、このブランチのゆがみ、または知覚のゆがみが他のブランチ(ゆがみの実施例は、信号対雑音比でもよい)のゆがみ、または知覚のゆがみより小さい場合でも、より低いビットレートを提供するブランチが選択されてもよい。あるいは、ターゲット関数は、特定の目的のための最良の決定を見つけるために、各信号のゆがみおよび各信号のビットレート並びに/または付加的な基準を入力として使用することができる。例えば、目的が、ビットレートができるだけ低いようなものである場合、そのとき、ターゲット関数は、要素531,534の2つの出力される信号のビットレートを大きく信頼することになろう。しかしながら、主な目的が、特定のビットレートの対して最良の品質を有することである場合、その後、スイッチ制御525は、例えば、許容されるビットレートを超える各信号を捨てるかもしれない。そして、両方の信号が許容されるビットレートの以下にある場合、スイッチ制御は、よりよく推定された主観的な品質を有している、すなわち、より小さい量子化/符号化ゆがみ、またはよりよい信号対雑音比を有している信号を選択する。
実施形態による復号化スキームは、上述のように、図4において例示される。3つの可能な出力信号の種類の各々のために、特定の復号化/量子化ステージ431,531または533が存在する。ステージ431が、周波数/時間コンバータ440を使用して時間領域に変換される周波数スペクトルを出力する一方、ステージ531は、LPC領域信号を出力し、そして、項目533は、LPCスペクトルを出力する。スイッチ532への入力信号の両方がLPC領域においてあることを確認するために、LPCスペクトル/LPCコンバータ534が設けられる。スイッチ532の出力データは、符号化側で生成され、そして伝送されたLPC情報を介して制御されるLPC合成ステージ540を使用して時間領域に変換される。そして、ブロック540に続いて、最終的に、例えば、図3の符号化スキームに入力される信号に依存するモノラル信号、ステレオ信号またはマルチチャネル信号のようなオーディオ信号を得るために、両方のブランチは、スイッチ制御信号により切り替えられる時間領域情報を有する。
図5および図6は、エンコーダ/デコーダのための更なる実施形態を示し、ここで、BWEモジュール130,230の一部としてのBWEステージは、共通の演算処理装置を表す。
図5は符号化スキームを例示する。ここで、入力されるスイッチ232に接続される共通の前処理スキームは、2以上のチャネルを有する信号である入力信号をダウンミックスすることによって生成される出力としてのジョイントステレオパラメータおよびモノラル出力信号を生成する、サラウンド/ジョイントステレオブロック101を含むことができる。一般に、ブロック101の出力での信号は、より多くのチャネルを有する信号でもありえる。しかし、ブロック101のダウンミックスの機能性のため、ブロック101の出力でのチャネルの数は、ブロック101への入力されるチャネルの数よりも小さい。
共通の前処理スキームは、ブロック101に加えて、帯域幅拡張ステージ230を含むことができる。図5の実施形態において、ブロック101の出力は、その出力での低帯域信号またはローパス信号のような帯域制限信号を出力する帯域幅拡張ブロック230に入力される。好ましくは、この信号は、さらに、(係数2によって)ダウンミックスされる。さらに、ブロック230に入力される信号の高い帯域のために、MPEG4のHE−AACプロファイルから知られるようなスペクトルエンベロープパラメータ、逆フィルタパラメータ、ノイズレベルパラメータのような帯域幅拡張パラメータ106が生成され、ビットストリームマルチプレクサ800に転送される。
好ましくは、決定ステージ220は、例えば、音楽モードかまたは音声モードかを決定するために、ブロック101に入力されるか、またはブロック230に入力される信号を受信する。音楽モードにおいて、上側の符号化ブランチ210b(図2における第2のエンコーダ)が選択され、一方、音声モードにおいて、下側の符号化ブランチ210aが選択される。好ましくは、決定ステージは、加えて、これらのブロックの機能性を特定の信号に適応させるために、ジョイントステレオブロック101および/または帯域幅拡張ブロック230を制御する。このように、入力信号の特定の時間部分が、音楽モードのような第1のモードに対応すると決定ステージ220が決定した場合、その後、ブロック101および/またはブロック230の特定の特性が決定ステージ220によって制御されうる。あるいは、信号が、一般に第2のLPC領域モードにおいて音声モードに対応すると決定ステージ220が決定した場合、その後、ブロック101および230の特定の特性が決定ステージの出力により制御されうる。デコーダ側へ伝送されるように、決定ステージ220は、制御情報108および/またはBWEブロック230および、加えてビットストリームマルチプレクサ800にも伝送されうるクロスオーバー周波数fxをもたらす。
好ましくは、符号化ブランチ210bのスペクトル変換は、より好ましくは、タイムワープ(time−warped)MDCT演算であるMDCT演算を使用して行われる。ここで、強さ、または一般にワープ強さは、ゼロと高いワープ強さとの間で制御されうる。ゼロワープ強さにおいて、ブロック411におけるMDCT演算は、公知技術のストレイトフォワード(straight−forward)MDCT演算である。タイムワープサイド情報を有するタイムワープ強さは、サイド情報としてビットストリームマルチプレクサ800に伝送/入力されうる。
LPC符号化ブランチにおいて、LPC領域エンコーダは、例えばコードブックインデックスおよびゲインであるピッチゲイン、ピッチ遅れおよび/またはコードブック情報を算出しているACELPコア526を含むことができる。3GPP TS 26.290から公知であるようなTCXモードは、変換領域において、知覚的な加重信号の処理を含む。フーリエ変換された加重信号は、雑音係数の量子化伴うスプリットマルチレート格子量子化(split multi−rate lattice quantization)を使用して量子化される。変換は、1024,512または256のサンプルウィンドウにおいて算出される。励振信号は、逆加重フィルタを通じて量子化され重み付けされた信号を逆フィルタすることによって再生される。TCXモードは、MDCTが、符号化スペクトルラインに対する拡大されたオーバーラップ、スカラー量子化および算術符号化と共に使用される修正された形態で使用されうる。
「音楽」符号化ブランチ210bにおいて、スペクトルコンバータは、好ましくは、単一のベクトル量子化ステージから構成されうる量子化/エントロピー符号化ステージに従う特定の窓関数を有する特に適応されたMDCT演算を含む、しかし、好ましくは、周波数領域符号化ブランチ、すなわち、図5の項目421において、量子化器/コーダに類似の組み合わされたスカラー量子化器/エントロピーコーダである。
「音声」符号化ブランチ210aにおいて、ACELPブロック526またはTCXブロック527に再び従うスイッチ521に従うLPCブロック510がある。ACELPは、3GPP TS 26.190において記載されており、TCXは、3GPP TS 26.290において記載される。一般に、ACELPブロック526は、図7において記載される手順によって算出されるようにLPC励振信号を受信する。TCXブロック527は、図8によって生成されるように、加重信号を受信する。
Figure 2011527449
図3,5における項目510は、単一のブロックを例示しているが、これらの信号がLPC領域おいてある限り、ブロック510は異なる信号を出力することができる。例えば、励振信号モードまたは加重信号モードのようなブロック510の実際のモードは、実際のスイッチ状態に依存される。あるいは、ブロック510は、2つの並行処理装置を有することができる。ここで、一方のデバイスは、図7と同様に実装され、他のデバイスは、図8のように実装される。従って、510の出力でのLPC領域は、LPC励振信号もしくはLPC加重信号または他のいかなるLPC領域信号のいずれか1つを表すことができる。
Figure 2011527449
図6は、図5の符号化スキームに対応する復号化スキームを例示する。図5のビットストリームマルチプレクサ800(または出力インターフェース)によって生成されるビットストリームは、ビットストリームデマルチプレクサ900(または入力インターフェース)に入力される。例えば、モード検出ブロック601(例えば、図1の制御装置140の一部)を介してビットストリームから導き出される情報に応じて、デコーダ側のスイッチ132は、上側のブランチから帯域幅拡張ブロック701へのフォワード信号に対して、または下側のブランチから帯域幅拡張ブロック701への信号に対して制御される。帯域幅ブロック701は、ビットストリームデマルチプレクサ900からサイド情報を受信し、そして、このサイド情報およびモード検出601の出力に基づき、スイッチ132により出力された低帯域に基づき高帯域を再構成する。制御信号108は使用されたクロスオーバー周波数fxを制御する。
ブロック701によって生成される全帯域の信号は、2つのステレオチャンネルまたはいくつかのマルチチャネルを再構成するジョイントステレオ/サラウンド処理ステージ702に入力される。一般に、ブロック702は、このブロックに入力されたより多くのチャネルを出力する。このブロックの出力がこのブロックへの入力よりも多いチャネルを有する限り、用途に応じて、ブロック702への入力は、例えばステレオモードにおいては2チャネルを含むことさえできて、そして、より多くのチャネルを含むことさえできる。
一方のブランチが処理するための信号を受信し、そして他のブランチが処理するための信号を受信しないように、図5におけるスイッチ232は両方のブランチの間で切り替わることを示している。しかしながら、別の実施形態において、スイッチ232は、両方のブランチ210aおよび210bが並行に同じ信号を処理することを意味する、例えば、オーディオエンコーダ421および励振エンコーダ522,523,524に続いて配置されることもできる。しかしながら、ビットレートは2倍にしないために、それらの符号化ブランチ210aまたは210bのうちの1つの信号出力のみが、出力されたビットストリームに書き込まれるように選択される。ビットストリームに書き込まれた信号が、あるコスト関数を最小化するように、決定ステージは、その後作動する。ここで、コスト関数は、生成されたビットレートもしくは生成された知覚的なゆがみ、または組み合わされたレート/ゆがみコスト関数でありえる。従って、このモードか、または図において例示されるモードのいずれか一方において、決定ステージは、所与の知覚的なゆがみに対して最も低いビットレートを有するか、または所与のビットレートに対して最も低い知覚的なゆがみを有するビットストリームに、書き込まれる符号化ブランチ出力のみを最終的に確認するために、閉ループモードにおいて作動することもできる。閉ループモードにおいて、フィードバック入力は、図3における3つの量子化器/スカラーブロック421,522および424の出力から導出される。
また、図6の実施形態において、帯域幅拡張が両方のブランチに対して並行に実行され、そして、スイッチが2つの帯域幅拡張された信号のうちの1つを選択するように、スイッチ132は、別の実施形態において、BWEモジュール701の後に配置される。
2つのスイッチ、すなわち、第1のスイッチ232および第2のスイッチ521を有する実装において、第1のスイッチのための時間分解能が、第2のスイッチのための時間分解能より低いことが好ましい。換言すると、スイッチ動作を介して切り替えられうる第1のスイッチへの入力信号のブロックは、LPC領域において作動している第2のスイッチ521によって切り替えられるブロックよりも大きい。見本となるように、周波数領域/LPC領域スイッチ232は、1024個のサンプルの長さのブロックを切り替えることができ、そして、第2のスイッチ521は各々256個のサンプルを有するブロックを切り替えることができる。
図7は、LPC分析ブロック510のより詳細な実装を例示する。オーディオ信号は、フィルタ情報A(z)を決定するフィルタ決定ブロック83に入力される。この情報は、デコーダのために必要なショートターム予測情報として出力される。ショートターム予測情報は、実際の予測フィルタ85にとって必要である。このサンプルのために、予測誤差信号がライン84において生成されるように、減算器86において、オーディオ信号の現在のサンプルは入力され、そして、現在のサンプルのための予測値が減算される。
図7は、励振信号を算出するための好ましい方法を例示する一方、図8は、加重信号を算出するための好ましい方法を例示する。図7とは対照的に、γが1とは異なる場合、フィルタ85は異なる。値が1未満であることは、γに対して好ましい。さらに、ブロック87が存在し、μは1より小さい数が好ましい。一般に、図7および図8における要素は、3GPP TS 26.190または3GPP TS 26.290として実装されうる。
その後、分析/合成CELPエンコーダは、このアルゴリズムに適用される修正を例示するために議論される。このCELPエンコーダは、「音声符号化:個人指導用報告(Speech Coding:A Tutorial Review)」、アンドレア スパニエル(Andreas Apanias)、IEEE会報、82巻、No.10、1994年10月、1541−1582ページにおいて詳細に記載される。
特定の場合のために、フレームが無声音および有声音の音声の混合である場合、または、音楽に重なって音声が発生する場合、TCX符号化は、LPC領域における励振を符号化するためにより適当でありうる。TCX符号化は、励振の生成のいかなる仮定もすることなく、周波数領域において、励振を直接的に処理する。そして、TCXは、CELP符号化よりもより一般的で、励振の有声または無声のソースモデルに制限されない。TCXは、音声のような信号のフォルマントをモデル化するための線形予測フィルタを使用するソースフィルタモデル符号化である。
AMR−WB+のような符号化において、AMR−WB+の記述からも公知であるように、TCXモードおよびACELPの間の選択が行われる。ブロック毎の高速フーリエ変換の長さが異なるモードに対して異なるという点で、TCXモードは異なり、そして、最良のモードは、合成アプローチまたは直接的な「フィードフォワード(feedforward)」モードによる分析によって選択されうる。
図5および6と関連して議論されるように、共通の前処理ステージ100は、好ましくは、ジョイントマルチチャネル(サラウンド/ジョイントステレオデバイス)101および、加えて、帯域幅拡張ステージ230を含む。それに応じて、デコーダは、帯域幅拡張ステージ701および続いて接続されたジョイントマルチチャネルステージ702を含む。好ましくは、エンコーダに関して、ジョイントマルチチャネルステージ101は帯域幅拡張ステージ230の前に接続され、そして、デコーダ側において、帯域幅拡張ステージ701は信号処理方向に関してジョイントマルチチャネルステージ702の前に接続される。しかしながら、あるいは、共通の前処理ステージは、続いて帯域幅拡張ステージの接続のないジョイントマルチチャネルステージか、またはジョイントマルチチャネルステージの接続のない帯域幅拡張ステージを含むことができる。
図9aおよび図9bは、図5のエンコーダに関する概略図を示す。ここで、エンコーダは、スイッチ決定ユニット220およびステレオ符号化ユニット101を含む。加えて、エンコーダは、例えば、エンベロープデータ計算機およびSBR関連モジュールのような帯域幅拡張ツール230も含む。スイッチ決定ユニット220は、オーディオコーダ210bおよび音声コーダ210aの間で切り替えるスイッチ決定信号108´を提供する。音声コーダ210aは、さらに、有声音コーダおよび無声音コーダに分割されうる。これらの各々のコーダは、異なる数のサンプル値(例えば、高い分解能に対して1024個、低い分解能に対して256個)を使用して、コア周波数帯域におけるオーディオ信号を符号化することができる。スイッチ決定信号108´は、帯域幅拡張(BWE)ツール240にも供給される。それから、BWEツール230は、例えば、スペクトルエンベロープ104の数を調整し、および任意の瞬時的な検出器をオン/オフ動作するために、スイッチ決定108´を使用し、そして、クロスオーバー周波数fxを調整する。ステレオ符号化101が帯域幅拡張ユニット230に入力されるサンプル値を生成するように、オーディオ信号105は、スイッチ決定ユニット220に入力され、そして、ステレオ符号化101に入力される。スイッチユニット決定ユニット220によって生成された決定108´に応じて、帯域幅拡張ツール230は、オーディオコーダ210bまたは音声コーダ210aのいずれか一方に順に転送されるスペクトル帯域反復データを生成する。
スイッチ決定信号108´は、従属する信号であり、オーディオ信号を分析することによって、例えば、可変的な閾値を含むか含まない瞬時的な検出器、または他の検出器を使用することによって、スイッチ決定ユニット220から得られる。あるいは、スイッチ決定信号108´は、手動で(例えばユーザによって)調整されるか、または、(オーディオ信号に含まれる)データストリームから得られる。
オーディオコーダ210bおよび音声コーダ210aの出力は、ビットストリームフォーマッタ800に再び入力されうる(図5参照)。
図9bは、前の第1の時間taおよび後の第2の時間tbの期間に対するオーディオ信号の検知するスイッチ決定信号108´のための実施例を示す。第1の時間taと第2の時間tbとの間で、スイッチ決定ユニット220は、スイッチ決定信号108´のための異なる離散値を結果として得ている音声信号を検知する。
より高いクロスオーバー周波数fxを使用する決定は、スイッチ決定ユニット220によって制御される。これは、SBRモジュールは単一のコアコーダおよび可変的なクロスオーバー周波数fxが組み合わされるシステムの範囲内においても使用可能であることを意味する。
図1〜9のいくつかは、装置のブロック図として例示されるが、これらの図は、同時に、方法の例示である。ここで、ブロックの機能性は、方法ステップに対応する。
図10は、第1の部分104a、第2の部分104b、第3の部分104cおよび第4の部分104dを含む符号化されたオーディオ信号102の表現を例示する。この表現において、符号化されたオーディオ信号102は、さらに符号化モード情報108を含む伝送チャネルを介して伝送されるビットストリームである。符号化されたオーディオ信号102の各部分104は、異なる時間部分を表す。ただし、符号化されたオーディオ信号102は、時間ラインを表すことができないかもしれないので、時間領域と同様に周波数領域でもありえる。
この実施形態において、符号化されたオーディオ信号102は、加えて、第1の部分104aのために使用された符号化アルゴリズムを特定する第1の符号化モード情報108a、第2の部分104bのために使用された符号化アルゴリズムを特定する第2の符号化モード情報108b、第4の部分のために使用された符号化アルゴリズムを特定する第3の符号化モード情報108dを含む。第1の符号化モード情報108aは、第1の部分104aの範囲内において使用された第1のクロスオーバー周波数fx1を特定することもでき、そして、第2の符号化モード情報108bは、第2の部分104bの範囲内において使用された第2のクロスオーバー周波数fx2を特定することもできる。第1のクロスオーバー周波数fx1が、第2のクロスオーバー周波数fx2より高いために、例えば、第1の部分104aの範囲内において、「音声」符号化モードが使用され、第2の部分104bの範囲内において、「音楽」符号化モードが使用されうる。
典型的な実施形態において、符号化されたオーディオ信号102は、第1および第3の部分104a,cの間において使用されたエンコーダおよび/またはクロスオーバー周波数fxにおいて変更が無いことを指し示す第3の部分104cに対する符号化モード情報を含まない。従って、符号化モード情報108は、異なるコアコーダおよび/または前の部分と比較されたクロスオーバー周波数を使用するこれらの部分104のためにのみのヘッダとして現れる。更なる実施形態において、異なる部分104に対するクロスオーバー周波数の値の信号伝達の代わりに、符号化モード情報108が、それぞれの部分104のために使用されるコアコーダ(第1または第2のエンコーダ210a,b)を指し示している単一のビットを含むことができる。
従って、異なるSBRツールの間におけるスイッチ動作の信号伝達は、例えば、ビットストリームの範囲内における特定のビットとして受けることによって行われる。その結果、この特定のビットは、デコーダにおいて、特定の動作をオンまたはオフすることができる。あるいは、実施形態による2つのコアコーダを有するシステムにおいて、スイッチの信号伝達は、コアコーデックの分析によっても起動することができる。この場合において、SBRツールの適合のサブミッションが黙示的に行われることは、対応するコアコーダの活動によって決定されることを意味する。
SBRペイロードのためのビットストリームの要素の標準的な記載のより多くの詳細は、ISO・IEC 14496−3,従属節 4.5.2.8において見いだすことができる。この標準ビットストリームの修正は、(使用されたクロスオーバー周波数を特定するために)マスター周波数テーブルのインデックスの拡張を含む。使用されるインデックスは、0〜15の帯域の範囲にわたって可変であるクロスオーバー帯域を許容する4つのビットで符号化される。
従って、本発明の実施形態は、要約すると以下のようになる。異なる時間/周波数特性を有する異なる信号は、帯域幅拡張における特徴を要求する。瞬時的な信号(例えば、音声信号の範囲内)は、BWEの微細な時間的分解能を必要とし、そして、クロスオーバー周波数fx(コアコーダの上限の周波数境界)はできるだけ高くなければならない(例えば、4kHzまたは5kHzまたは6kHz)。特に有声音の音声において、歪められた時間的構造は、知覚された品質を減少させる。音(tonal)の信号は、スペクトルコンポーネントの安定な再生、および再生された高周波数部分のマッチしているハーモニックパターンを必要とする。音のパーツの安定な再生は、コアコーダ帯域幅を制限する。しかし、微細な時間ではなくより微細なスペクトル分解を有するBWEを必要とする。スイッチ型音声/オーディオコアコーダ設計において、BWE開始周波数(クロスオーバー周波数)を信号特性に適応させることと同様に、BWEの時間的およびスペクトル的な特徴の両方も適応させるためにコアコーダ決定を使用することが可能である。従って、本実施形態は帯域幅拡張を提供する。ここで、コアコーダ決定は、帯域幅拡張特性に対する適応基準として作用する。
変更したBWE開始(クロスオーバー)周波数の信号伝達は、明確に、ビットストリームにおける(例えば、符号化モード情報108のような)追加的な情報を送ることによって、または、黙示的に、(すなわち、コアコーダがビットストリームの範囲内において信号伝達するという場合に備えて)使用されるコアコーダからクロスオーバー周波数fxを直接的に導き出すことによって実現されうる。例えば、変換コーダ(例えば、オーディオ/音楽コーダ)に対しては低BWE周波数fxであり、そして、時間領域(音声)コーダに対しては高BWE周波数fxである。この場合、クロスオーバー周波数は、0Hzとナイキスト周波数との間における範囲においてもよい。
いくつかの態様が装置に関連して記載されているが、これらの態様は対応する方法を表現していることは明らかである。ここで、ブロックまたはデバイスは、方法のステップ、または方法のステップの機能に対応する。同様に、方法のステップに関連して記載される態様は、装置に対応するブロックまたは項目または機能に対応する記述も表現する。
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に保存され、または例えば、無線伝送媒体のような伝送メディアもしくは、例えば、インターネットのような有線伝送媒体で伝送される。
特定の実装要求に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実装されうる。実装は、電子的に読み込み可能な制御信号を有するデジタル記憶媒体、特に、フロッピー(登録商標)ディスク、DVD、CD、ROM、EEPROM、またはフラッシュメモリで成される。デジタル記憶媒体は、発明の方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または、協働する能力を有する)。
本発明によるいくつかの実施形態は、電子的に読み込み可能な制御信号を有するデータ担持体を含み、そして、本明細書において記載されている方法のうちの1つが実行されるように、それは、プログラム可能なコンピュータシステムで協働することができる。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されうる。コンピュータプログラム製品がコンピュータで実行される場合、プログラムコードは、方法のうちの1つを実行するために作動される。プログラムコードは、機械読取可能な担持体に、例えば、保存されうる。
他の実施形態は、機械読取可能な担持体に保存され、本明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを含む。
換言すれば、従って、コンピュータプログラムがコンピュータで実行される場合、本発明の方法の実施形態は、本明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本発明の方法のさらなる実施形態は、本明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを記録されたデータ担持体(または、デジタル記憶媒体またはコンピュータ読取可能な媒体)である。
従って、本発明の方法のさらなる実施形態は、本明細書において記載される方法うちの1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットを介して、例えば、データ通信接続を介して、転送されるように、例えば、構成されうる。
更なる実施形態は、本明細書において記載される方法のうちの1つを実行するために構成され、または適応される、例えば、コンピュータ、またはプログラム可能論理回路を実行する手段を含む。
更なる実施形態は、本明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムをインストールされたコンピュータを有するコンピュータを含む。
いくつかの実施形態において、プログラム可能論理回路(例えば、フィールドプログラマブルゲートアレイ)は、本明細書において記載される方法の機能性のいくらかまたは全てを実行するために使用されうる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において記載される方法のうちの1つを実行するためにマイクロプロセッサと協働されうる。一般に、方法は、好ましくは、ハードウェア装置により実行される。
上述の実施形態は、本発明の原理のために単に例示するだけである。配置および本明細書において記載される詳細の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲だけによってのみ制限され、本実施形態の記述および説明の目的により特定の詳細な表現によっては制限されないことを意図している。

Claims (16)

  1. 符号化されたオーディオ信号(102)を復号化するための装置(100)であって、前記符号化されたオーディオ信号(102)は、第1の符号化アルゴリズムにより符号化される第1の部分(104a)、第2の符号化アルゴリズムにより符号化される第2の部分(104b)、前記第1の部分(104a)および前記第2の部分(104b)のためのBWEパラメータ(106)並びに第1の復号化アルゴリズムまたは第2の復号化アルゴリズムを指し示す符号化モード情報を含み、前記復号化するための装置(100)は、
    第1の復号化された信号(114a)を得るために、前記符号化された信号(102)の第1の時間部分のために前記第1の復号化アルゴリズムにより前記第1の部分(104a)を復号化するための第1のデコーダ(110a)と、
    第2の復号化された信号(114b)を得るために、前記符号化された信号(102)の第2の時間部分のために前記第2の復号化アルゴリズムにより前記第2の部分(104b)を復号化するための第2のデコーダ(110b)と、
    制御可能なクロスオーバー周波数(fx)を有するBWEモジュール(130)であって、BWEモジュール(130)は、前記第1の部分(104a)のための前記第1の復号化された信号(114a)および前記BWEパラメータ(106)を使用して帯域幅拡張アルゴリズムを実行するため、並びに前記第2の部分(104b)のための前記第2の復号化された信号(114b)および前記帯域幅拡張パラメータ(106)を使用して帯域幅拡張アルゴリズムを実行するために構成される、前記BWEモジュール(130)と、
    前記符号化モード情報(108)により前記BWEモジュール(130)のための前記クロスオーバー周波数(fx)を制御するための制御装置(140)と、
    を含む、復号化するための装置。
  2. さらに、ビットストリームとして、前記符号化されたオーディオ信号(102)を入力するための入力インタフェース(900)を含む、請求項1に記載の復号化するための装置(100)。
  3. 前記帯域幅拡張アルゴリズムが、前記第1の復号化された信号(114a)または前記第2の復号化された信号(114b)のいずれか一方に適用されるように、前記BWEモジュール(130)が、前記第1のデコーダ(110a)から前記第2のデコーダ(110b)に前記第1および前記第2の時間部分の間で切り替えるために構成されるスイッチ(132)を含む、請求項1または請求項2に記載の復号化するための装置(100)。
  4. 前記制御装置(140)は、前記符号化モード情報(108)の範囲内において、前記指し示された復号化アルゴリズムに依存する前記スイッチ(132)を制御するように構成される、請求項3に記載の復号化するための装置(100)。
  5. 前記BWEモジュール(130)は、前記第1の復号化された信号(114a)に対して前記帯域幅拡張のための第1のクロスオーバー周波数(fx1)を使用するため、および、前記第2の復号化された信号(114b)に対して前記帯域幅拡張のための第2のクロスオーバー周波数(fx2)を使用するために構成され、ここで、前記第1のクロスオーバー周波数(fx1)は前記第2のクロスオーバー周波数(fx2)よりも高い、請求項1ないし請求項4のいずれかに記載の復号化するための装置(100)。
  6. 前記制御装置(140)は、前記第1の時間部分の範囲内においてクロスオーバー周波数(fx)を増加するために、または前記第2の時間部分の範囲内においてクロスオーバー周波数(fx)を減少するために構成される、請求項1ないし請求項5のいずれかに記載の復号化するための装置(100)。
  7. 前記第1のデコーダ(110a)は、LPCベースのコーダを含み、前記第2のデコーダ(110b)は、変換ベースのコーダを含む、請求項1ないし請求項6のいずれかに記載の装置(100)。
  8. オーディオ信号(105)を符号化するための装置(200)であって、前記符号化するための装置(200)は、
    第1の符号化アルゴリズムにより符号化するために構成される第1のエンコーダ(210a)であって、前記第1の符号化アルゴリズムは、第1の周波数帯域幅を有する、前記第1のエンコーダ(210a)と、
    第2の符号化アルゴリズムにより符号化するために構成される第2のエンコーダ(210b)であって、前記第2の符号化アルゴリズムは、前記第1の周波数帯域幅よりも小さい第2の周波数帯域幅を有する、前記第2のエンコーダ(210b)と、
    前記オーディオ信号(105)の第1の部分(204a)のための前記第1の符号化アルゴリズムを指し示すため、および前記オーディオ信号(105)の第2の部分(204b)のための前記第2の符号化アルゴリズムを指し示すための決定ステージ(220)であって、前記第2の部分(204b)は、前記第1の部分(204a)とは異なる、前記決定ステージ(220)と、
    前記オーディオ信号(105)のためのBWEパラメータ(106)を算出するための帯域幅拡張モジュール(230)であって、ここで、BWEモジュール(230)は、前記オーディオ信号(105)の前記第1の部分(204a)における前記第1の周波数帯域幅を含まない帯域のため、および前記オーディオ信号(105)の前記第2の部分(204b)における前記第2の周波数帯域幅を含まない帯域のための前記BWEパラメータを算出するための前記決定ステージ(220)によって制御されるように構成される、前記帯域幅拡張モジュール(230)と、
    を含む、符号化するための装置(200)。
  9. さらに、前記符号化されたオーディオ信号(102)を出力するための出力インタフェース(800)を含む、前記符号化するための装置(200)であって、前記符号化されたオーディオ信号(102)は、第1の符号化アルゴリズムにより符号化される第1の部分(104a)、第2の符号化アルゴリズムにより符号化される第2の部分(104b)、前記第1の部分(104a)および前記第2の部分(104b)のためのBWEパラメータ(106)並びに前記第1の復号化アルゴリズムまたは前記第2の復号化アルゴリズムを指し示す符号化モード情報(108)を含む、請求項8に記載の符号化するための装置(200)。
  10. 前記第1または前記第2の帯域幅は、可変のクロスオーバー周波数(fx)によって定義され、そして、前記決定ステージ(220)は、前記可変のクロスオーバー周波数(fx)を出力するために構成される、請求項8または請求項9に記載の符号化するための装置(200)。
  11. 前記BWEモジュール(230)は、前記決定ステージによって制御されるスイッチ(232)を含み、ここで、前記オーディオ信号(105)が第1のエンコーダ(210a)または第2のエンコーダ(210b)のいずれか一方によって符号化される異なる時間部分に対するように、前記スイッチ(232)は、前記第1の時間エンコーダ(210a)および前記第2の時間エンコーダ(210b)の間で切り替えるために構成される、請求項8ないし請求項10のいずれかに記載の符号化するための装置(200)。
  12. 前記決定ステージ(220)は、前記オーディオ信号(105)、または前記第1のエンコーダ(210a)の第1の出力もしくは前記第2のエンコーダ(210b)の第2の出力、またはターゲット関数に関する前記第1のエンコーダ(210a)もしくは前記第2のエンコーダ(210b)の出力信号を復号化することによって得られる信号を分析するために作動する、請求項8ないし請求項11のいずれかに記載の符号化するための装置(200)。
  13. 符号化されたオーディオ信号(102)を復号化するための方法であって、前記符号化されたオーディオ信号(102)は、第1の符号化アルゴリズムにより符号化される第1の部分(104a)、第2の符号化アルゴリズムにより符号化される第2の部分(104b)、前記第1の部分(104a)および前記第2の部分(104b)のためのBWEパラメータ(106)並びに第1の復号化アルゴリズムまたは第2の復号化アルゴリズムを指し示す符号化モード情報(108)を含み、前記復号化するための方法は、
    第1の復号化された信号(114a)を得るために、前記符号化された信号(102)の第1の時間部分のために前記第1の復号化アルゴリズムにより前記第1の部分(104a)を復号化するステップと、
    第2の復号化された信号(114b)を得るために、前記符号化された信号(102)の第2の時間部分のために前記第2の復号化アルゴリズムにより前記第2の部分(104b)を復号化するステップと、
    制御可能なクロスオーバー周波数(fx)を有するBWEモジュール(130)であって、前記BWEモジュール(130)は、
    前記第1の部分(104a)のための前記第1の復号化された信号(114a)および前記BWEパラメータを使用して帯域幅拡張アルゴリズムを実行するステップと、並びに前記第2の部分(104b)のための前記第2の復号化された信号(114b)および前記帯域幅拡張パラメータ(106)を使用して帯域幅拡張アルゴリズムを実行するステップとを実行するために構成され、
    前記符号化モード情報(108)により前記BWEモジュールのための前記クロスオーバー周波数(fx)を制御するステップと、
    を含む、復号化するための方法。
  14. オーディオ信号(105)を符号化するための方法であって、前記符号化するための方法は、
    第1の符号化アルゴリズムにより符号化するステップであって、前記第1の符号化アルゴリズムは第1の周波数帯域幅を有する、前記第1の符号化アルゴリズムにより符号化するステップと、
    第2の符号化アルゴリズムにより符号化するステップであって、前記第2の符号化アルゴリズムは、前記第1の周波数帯域幅よりも小さい第2の周波数幅を有する、前記第2の符号化アルゴリズムにより符号化するステップと、
    前記オーディオ信号(105)の第1の部分(204a)のための前記第1の符号化アルゴリズム、および前記オーディオ信号(105)の第2の部分(204b)のための前記第2の符号化アルゴリズムを指し示すステップであって、前記第2の部分(204b)は、前記第1の部分(204a)とは異なる、前記指し示すステップと、
    前記オーディオ信号(105)のためのBWEパラメータ(106)を算出するステップであって、前記BWEパラメータ(106)は、前記オーディオ信号(105)の前記第1の部分(204a)における前記第1の周波数帯域幅を含まない帯域のため、および前記オーディオ信号(105)の前記第2の部分(204b)における前記第2の周波数帯域幅を含まない帯域のために算出される、前記算出するステップと、
    を含む、符号化するための方法。
  15. 符号化されたオーディオ信号(102)であって、前記符号化されたオーディオ信号(102)は、
    第1の符号化されたアルゴリズムにより符号化される第1の部分(104a)と、
    第2の異なる符号化アルゴリズムにより符号化される第2の部分(104b)と、
    前記第1の部分(104a)および前記第2の部分(104b)のための帯域幅拡張パラメータ(106)と、
    前記第1の部分(104a)のために使用される第1のクロスオーバー周波数(fx1)、または前記第2の部分(104b)のために使用される第2のクロスオーバー周波数(fx2)を指し示している符号化モード情報(108)と、
    を含む、符号化されたオーディオ信号。
  16. コンピュータに、請求項13または請求項14に記載の方法を実行させるためのコンピュータプログラム。
JP2011516987A 2008-07-11 2009-06-23 符号化されたオーディオ信号を復号化するための装置および方法 Active JP5325293B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US61/079,841 2008-07-11
US10382008P 2008-10-08 2008-10-08
US61/103,820 2008-10-08
PCT/EP2009/004522 WO2010003545A1 (en) 2008-07-11 2009-06-23 An apparatus and a method for decoding an encoded audio signal

Publications (2)

Publication Number Publication Date
JP2011527449A true JP2011527449A (ja) 2011-10-27
JP5325293B2 JP5325293B2 (ja) 2013-10-23

Family

ID=40886797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011516987A Active JP5325293B2 (ja) 2008-07-11 2009-06-23 符号化されたオーディオ信号を復号化するための装置および方法

Country Status (19)

Country Link
US (1) US8275626B2 (ja)
EP (2) EP2304723B1 (ja)
JP (1) JP5325293B2 (ja)
KR (1) KR101224560B1 (ja)
CN (1) CN102089814B (ja)
AR (1) AR072481A1 (ja)
AU (1) AU2009267531B2 (ja)
BR (1) BRPI0910511B1 (ja)
CA (1) CA2730232C (ja)
CO (1) CO6341674A2 (ja)
ES (2) ES2396927T3 (ja)
HK (2) HK1154432A1 (ja)
IL (1) IL210414A (ja)
MX (1) MX2011000370A (ja)
PL (2) PL2304723T3 (ja)
RU (1) RU2483366C2 (ja)
TW (1) TWI435316B (ja)
WO (1) WO2010003545A1 (ja)
ZA (1) ZA201100087B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
JP2017083862A (ja) * 2013-01-29 2017-05-18 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
JP2017515155A (ja) * 2014-04-30 2017-06-08 オランジュ 音声情報を用いる改善されたフレーム消失補正
JP2018511825A (ja) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
JP2018522272A (ja) * 2015-06-18 2018-08-09 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンド信号生成
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8566107B2 (en) * 2007-10-15 2013-10-22 Lg Electronics Inc. Multi-mode method and an apparatus for processing a signal
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
JP5551693B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
BR122021003688B1 (pt) 2010-08-12 2021-08-24 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Reamostrar sinais de saída de codecs de áudio com base em qmf
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
WO2012126866A1 (en) 2011-03-18 2012-09-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder having a flexible configuration functionality
US9437202B2 (en) 2012-03-29 2016-09-06 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN105264599B (zh) 2013-01-29 2019-05-10 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、提供编码音频信息的方法
ES2626809T3 (es) 2013-01-29 2017-07-26 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concepto para compensación de conmutación del modo de codificación
ES2790733T3 (es) * 2013-01-29 2020-10-29 Fraunhofer Ges Forschung Codificadores de audio, decodificadores de audio, sistemas, métodos y programas informáticos que utilizan una resolución temporal aumentada en la proximidad temporal de inicios o finales de fricativos o africados
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN110265047B (zh) * 2013-04-05 2021-05-18 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
US20160064004A1 (en) * 2013-04-15 2016-03-03 Nokia Technologies Oy Multiple channel audio signal encoder mode determiner
US9426569B2 (en) 2013-06-13 2016-08-23 Blackberry Limited Audio signal bandwidth to codec bandwidth analysis and response
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
EP3321934B1 (en) * 2013-06-21 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US9620134B2 (en) * 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US9293143B2 (en) 2013-12-11 2016-03-22 Qualcomm Incorporated Bandwidth extension mode selection
KR101841380B1 (ko) * 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
CN110992965A (zh) * 2014-02-24 2020-04-10 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
MX349256B (es) 2014-07-28 2017-07-19 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion usando reduccion de armonicos.
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2017039422A2 (ko) * 2015-09-04 2017-03-09 삼성전자 주식회사 음질 향상을 위한 신호 처리방법 및 장치
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
MX371223B (es) * 2016-02-17 2020-01-09 Fraunhofer Ges Forschung Post-procesador, pre-procesador, codificador de audio, decodificador de audio y metodos relacionados para mejorar el procesamiento de transitorios.
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
US10733318B2 (en) * 2017-11-21 2020-08-04 International Business Machines Corporation Processing analytical queries over encrypted data using dynamical decryption
KR102570480B1 (ko) * 2019-01-04 2023-08-25 삼성전자주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
CN111554312A (zh) * 2020-05-15 2020-08-18 西安万像电子科技有限公司 控制音频编码类型的方法、装置和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501216A (ja) * 2007-10-15 2011-01-06 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置
JP2011514558A (ja) * 2008-03-04 2011-05-06 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
CN1703736A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
JP4048956B2 (ja) * 2003-01-20 2008-02-20 ティアック株式会社 光ディスク装置
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
JP4767687B2 (ja) 2003-10-07 2011-09-07 パナソニック株式会社 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN100511308C (zh) 2004-06-28 2009-07-08 Abb研究有限公司 用于抑制冗余报警的系统和方法
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
EP1852849A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP2062255B1 (en) * 2006-09-13 2010-03-31 Telefonaktiebolaget LM Ericsson (PUBL) Methods and arrangements for a speech/audio sender and receiver
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
KR101373004B1 (ko) 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) * 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501216A (ja) * 2007-10-15 2011-01-06 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置
JP2011514558A (ja) * 2008-03-04 2011-05-06 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
JP2017083862A (ja) * 2013-01-29 2017-05-18 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
US10657979B2 (en) 2013-01-29 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
JP2017515155A (ja) * 2014-04-30 2017-06-08 オランジュ 音声情報を用いる改善されたフレーム消失補正
US10395661B2 (en) 2015-03-09 2019-08-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10388287B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2018511825A (ja) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
US10777208B2 (en) 2015-03-09 2020-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11107483B2 (en) 2015-03-09 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11238874B2 (en) 2015-03-09 2022-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11741973B2 (en) 2015-03-09 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11881225B2 (en) 2015-03-09 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2018522272A (ja) * 2015-06-18 2018-08-09 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンド信号生成
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US11437049B2 (en) 2015-06-18 2022-09-06 Qualcomm Incorporated High-band signal generation

Also Published As

Publication number Publication date
JP5325293B2 (ja) 2013-10-23
ES2396927T3 (es) 2013-03-01
BRPI0910511B1 (pt) 2021-06-01
US8275626B2 (en) 2012-09-25
RU2483366C2 (ru) 2013-05-27
IL210414A0 (en) 2011-03-31
AR072481A1 (es) 2010-09-01
HK1156433A1 (en) 2012-06-08
CO6341674A2 (es) 2011-11-21
MX2011000370A (es) 2011-03-15
ZA201100087B (en) 2011-10-26
PL2352147T3 (pl) 2014-02-28
CN102089814A (zh) 2011-06-08
US20110202353A1 (en) 2011-08-18
IL210414A (en) 2014-04-30
RU2011104000A (ru) 2012-08-20
EP2304723A1 (en) 2011-04-06
EP2304723B1 (en) 2012-10-24
HK1154432A1 (en) 2012-04-20
ES2439549T3 (es) 2014-01-23
EP2352147A3 (en) 2012-05-30
CA2730232A1 (en) 2010-01-17
EP2352147B9 (en) 2014-04-23
PL2304723T3 (pl) 2013-03-29
AU2009267531B2 (en) 2013-01-10
BRPI0910511A2 (pt) 2020-08-18
EP2352147B1 (en) 2013-09-04
WO2010003545A1 (en) 2010-01-14
AU2009267531A1 (en) 2010-01-14
EP2352147A2 (en) 2011-08-03
CA2730232C (en) 2015-12-01
CN102089814B (zh) 2012-11-21
KR20110040828A (ko) 2011-04-20
KR101224560B1 (ko) 2013-01-22
TWI435316B (zh) 2014-04-21
TW201009808A (en) 2010-03-01

Similar Documents

Publication Publication Date Title
JP5325293B2 (ja) 符号化されたオーディオ信号を復号化するための装置および方法
US11676611B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
US8959017B2 (en) Audio encoding/decoding scheme having a switchable bypass
US8804970B2 (en) Low bitrate audio encoding/decoding scheme with common preprocessing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130312

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130719

R150 Certificate of patent or registration of utility model

Ref document number: 5325293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250